社区讨论

AC自动机

灌水区参与者 6已保存回复 5

讨论操作

快速查看讨论及其快照的属性,并进行相关操作。

当前回复
5 条
当前快照
1 份
快照标识符
@lo9gyylj
此快照首次捕获于
2023/10/28 11:15
2 年前
此快照最后确认于
2023/10/28 12:21
2 年前
查看原帖

AC自动机 (Aho-Corasick Algorithm)。

AC自动机是多模匹配算法,在一个文本串 TT 中查找多个不同的模式串 SS
多模匹配问题:给定一个长为 nn 的文本 SS, 以及 kk 个平均长度为 mm 的模式串 P1,P2,,PkP_1, P_2, \dots, P_k

AC自动机思想

AC自动机思想:AC 自动机 = 用字典树组织多个模式串 + KMP避免回溯。

AC自动机的构造

文中 字母(数字)字母(数字) 表示节点编号为 数字数字字母字母
举例:
abcd,b,cdabcd, b, cd
  • 先把所有的模式串建成字典树,节点0是分界点,不存储字符。
  • 再建立Fail指针, 一个节点 xx 的Fail指针指向的节点是“父节点的Fail指针所指向的节点的与 xx 同字符的子节点”。 通过这样的赋值, xx 得到了这个同字符节点的后缀关系(不懂可以继续往下看)。

Fail指针的计算

Fail指针的计算,可以使用BFS进行处理。
分为两种情况:
如上图:
  1. bb 的处理很简单,就是父亲 aa 的Fail节点 00 指向的 b(5)b(5)
  2. 但要处理 cc 的较为麻烦,有如下步骤:
实际上是直接把 b(5)b(5) 的 儿子 cc 当作 c(6)c(6)

AC自动机的查找

查找只要在Trie树上遍历一遍字符串 TT,统计到 TiT_i 时,记得把 fail[Ti],fail[fail[Ti]],fail[fail[fail[Ti]]],fail[T_i], fail[fail[T_i]], fail[fail[fail[T_i]]],\dots 都统计上。

例题

第一部分 模板题

P3808 【模板】AC 自动机(简单版)

本题纯模板
CPP
#include <iostream>
#include <cstring>
#include <algorithm>
#include <queue>

using namespace std;

const int N = 1000010;

struct AhoCorasick {			                        // AC自动机
    int ch[N][26];			                            // Trie树
    int fail[N];				                        // Fail指针
    int val[N], idx;			                        // 单词末尾标记(val) 以及 单词节点个数 (idx)

    void insert(char s[]) {		                        // Trie树的插入
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            if (!ch[p][u]) ch[p][u] = ++idx;
            p = ch[p][u];
        }
        val[p]++;
    }

    void getfail() {		                            // 计算fail指针
        queue<int> q;	                                // 采用BFS进行处理,所以要用到队列
        
        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {	                            // 把第一层的节点插入队列
                q.push(ch[0][i]);
            }
        }

        while (q.size()) {	                            //BFS
            int t = q.front();
            q.pop();

            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {	                        // 如果t有i这个节点
                    fail[ch[t][i]] = ch[fail[t]][i];	// 那么Fail = “与父节点的Fail指针所指向的节点的与 x 同字符的子节点”
                    q.push(ch[t][i]);                   // 插入队列
                }
                else ch[t][i] = ch[fail[t]][i];	        // 否则建立虚拟节点,也就是图中 c(3)连向 c(6)
            }
        }
    }

    int query(char s[]) {
        int p = 0, ans = 0;                             // 当前节点(p)与答案(ans)
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            p = ch[p][u];                               // 前往子节点
            int v = p;                                  // 统计v, fail[v], fail[fail[v]], ...
            while (v && val[v] != -1) {                 // 统计v, fail[v], fail[fail[v]], ...
                ans += val[v];                          // 统计答案
                val[v] = -1;                            // 避免重复统计
                v = fail[v];                            // 前往 fail[v]
            }
        }
        return ans;
    }
}ac;

int n;
char text[N];

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    cin >> n;

    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text);
    }
    ac.getfail();
    cin >> (text + 1);
    cout << ac.query(text) << '\n';
    return 0;
}

HDU2222 Keywords Search

本题纯模板
初始化时一定要初始化fail!!!
CPP
#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 1000010;

struct AhoCorasick {
    int ch[N][26];
    int val[N], idx;
    int fail[N];
    int q[N];
    
    void init() {
        memset(ch[0], 0, sizeof(ch[0]));
        memset(fail, 0, sizeof(fail));
        idx = 0;
    }

    void insert(char s[]) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            if (!ch[p][u]) {
                ch[p][u] = ++idx;
                memset(ch[idx], 0, sizeof(ch[idx]));
                val[idx] = 0;
            }
            p = ch[p][u];
        }
        val[p]++;
    }

    void getfail() {
        int hh = 0, tt = -1;

        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];
            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
        }
    }

    int query(char s[]) {
        int p = 0, ans = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            p = ch[p][u];
            int v = p;
            while (v && val[v] != -1) {
                ans += val[v];
                val[v] = -1;
                v = fail[v];
            }
        }
        return ans;
    }
}ac;

char text[N];

void solve() {
    int n;
    cin >> n;

    ac.init();

    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text);
    }

    cin >> (text + 1);
    ac.getfail();
    cout << ac.query(text) << '\n';
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    int T;
    cin >> T;
    while (T--) solve();
    return 0;
}

P3796 【模板】AC 自动机(加强版)

本题只需要将 val[v]=1val[v] = -1 的标记去掉,再统计每一个单词的出现数量 cnt[u]cnt[u] 即可。
CPP
#include <iostream>
#include <cstring>
#include <algorithm>
#include <queue>

using namespace std;

const int N = 80 * 160, M = 1000010;

struct AhoCorasick {
    int ch[N][26];
    int val[N], idx;
    int fail[N];
    int q[N];                       // queue
    int cnt[N];                     // 记录每个串的出现次数

    void init() {
        memset(ch[0], 0, sizeof(ch[0]));
        memset(fail, 0, sizeof(fail));
        memset(cnt, 0, sizeof(cnt));
        idx = 0;
    }

    void insert(char s[], int id) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            if (!ch[p][u]) {
                ch[p][u] = ++idx;
                memset(ch[idx], 0, sizeof(ch[idx]));
                val[idx] = 0;
            }
            p = ch[p][u];
        }
        val[p] = id;
    }

    void getfail() {
        int hh = 0, tt = -1;
        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];

            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
        }
    }

    void query(char s[]) {
        int p = 0;

        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            p = ch[p][u];
            int v = p;
            while (v) {
                if (val[v]) cnt[val[v]]++;
                v = fail[v];
            }
        }
    }
}ac;

int n;
char text[M];
char tmp[160][80];

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    while (cin >> n, n) {
        ac.init();
        for (int i = 1; i <= n; i++) {
            cin >> (tmp[i] + 1);
            ac.insert(tmp[i], i);
        }
        ac.getfail();
        cin >> (text + 1);
        ac.query(text);
        int maxx = *max_element(ac.cnt + 1, ac.cnt + n + 1);
        cout << maxx << '\n';
        for (int i = 1; i <= n; i++) {
            if (ac.cnt[i] == maxx) {
                cout << tmp[i] + 1 << '\n';
            }
        }
    }
    return 0;
}

P5357 【模板】AC 自动机(二次加强版)

显然,一个一个统计会超时。
我们可以想到,当标记 pp 时,fail[p],fail[fail[p]]fail[p],fail[fail[p]] 都会被标记,因此这里浪费了时间。
那我们可以使用树上差分的思想,本来是由 pp 指向 fail[p]fail[p], 现在改由 fail[p]fail[p] 指向 pp,当匹配到节点 pp 时,cnt[p]+1cnt[p] + 1 即可。
最后像树上差分一样自下而上地统计,因为 pp 有的,fail[p]fail[p] 也必须拥有。
CPP
#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 200010, M = 2000010;

int n;
char text[M];

struct Edge {
    int to, next;
}e[N];

int head[N], idx;

void add(int a, int b) {
    idx++, e[idx].to = b, e[idx].next = head[a], head[a] = idx;
}

struct AhoCorasick {
    int ch[N][26];
    int cnt[N];
    int val[N], idx;
    int fail[N];
    int q[N];

    void insert(char s[], int id) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            if (!ch[p][u]) ch[p][u] = ++idx;
            p = ch[p][u];
        }
        val[id] = p;
    }

    void getfail() {
        int hh = 0, tt = -1;
        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];

            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
        }
        for (int i = 1; i <= idx; i++) add(fail[i], i);
    }

    void query(char s[]) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            p = ch[p][u];
            cnt[p]++;
        }
    }
}ac;

void dfs(int u) {
    for (int i = head[u]; i; i = e[i].next) {
        int to = e[i].to;
        dfs(to);
        ac.cnt[u] += ac.cnt[to];
    }
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    cin >> n;
    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text, i);
    }
    ac.getfail();
    cin >> (text + 1);
    ac.query(text);

    dfs(0);

    for (int i = 1; i <= n; i++) {
        cout << ac.cnt[ac.val[i]] << '\n';
    }
    return 0;
}

第二部分 AC自动机与DP的结合

P4052 [JSOI2007]文本生成器

fi,jf_{i, j} 为枚举到第 ii 个字符, 现在在Trie树上的第 jj 个节点。
fi+1,triej,c=fi+1,triej,c+fi,jf_{i + 1, trie_{j, c}} = f_{i + 1, trie_{j, c}} + f_{i, j}
表示由第 ii 层的节点(实际上与枚举到第 ii 个字符) cc 转移到第 i+1i + 1 层的节点 cc 的儿子 triej,ctrie_{j, c}
代码:
CPP
#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 6010, mod = 1e4 + 7;

struct AhoCorasick {
    int ch[N][26];
    int val[N], idx;
    int fail[N], q[N];
    bool can_read[N];

    void insert(char s[]) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'A';
            if (!ch[p][u]) ch[p][u] = ++idx;
            p = ch[p][u];
        }
        val[p]++;
        can_read[p] = true;
    }

    void getfail() {
        int hh = 0, tt = -1;
        
        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];

            if (can_read[fail[t]]) can_read[t] = true;

            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
        }
    }
}ac;

int n, m;
char text[N];
int f[110][N];

void dp() {
    f[0][0] = 1;
    for (int i = 0; i <= m; i++) {
        for (int j = 0; j <= ac.idx; j++) {
            for (int k = 0; k < 26; k++) {
                if (!ac.can_read[ac.ch[j][k]]) {
                    f[i + 1][ac.ch[j][k]] = (f[i + 1][ac.ch[j][k]] + f[i][j]) % mod;
                }
            }
        } 
    }
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    cin >> n >> m;
    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text);
    }
    ac.getfail();
    dp();
    int sum = 0, ans = 1;
    for (int i = 1; i <= m; i++) ans = (ans * 26) % mod;
    for (int i = 0; i <= ac.idx; i++) sum = (sum + f[m][i]) % mod;
    cout << ((ans - sum) % mod + mod) % mod << '\n';
    return 0;
}

P3041 [USACO12JAN]Video Game G

思路同上一题,使用 val[i]val[i] 记录第 i,fail[i],fail[fail[i]]i,fail[i],fail[fail[i]] 号节点作为单词末尾的数量。
那么有
f[i+1][trie[j][c]]=max{f[i][j]+val[trie[j][c]]}f[i + 1][trie[j][c]] = \max\{f[i][j]+val[trie[j][c]]\}
CPP
#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 400;

struct AhoCorasick {
    int ch[N][3];
    int val[N], idx;
    int fail[N];
    int q[N];

    void insert(char s[]) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'A';
            if (!ch[p][u]) ch[p][u] = ++idx;
            p = ch[p][u];
        }
        val[p]++;
    }

    void getfail() {
        int hh = 0, tt = -1;

        for (int i = 0; i < 3; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];

            for (int i = 0; i < 3; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
            val[t] += val[fail[t]];
        }
    }
}ac;

int n, m;
char text[N];
int f[1010][N];

void dp() {
    memset(f, 0xcf, sizeof(f));
    for (int i = 0; i <= m; i++) f[i][0] = 0;

    for (int i = 0; i < m; i++) {
        for (int j = 0; j <= ac.idx; j++) {
            for (int k = 0; k < 3; k++) {
                f[i + 1][ac.ch[j][k]] = max(f[i + 1][ac.ch[j][k]], f[i][j] + ac.val[ac.ch[j][k]]);
            }
        }
    }
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    cin >> n >> m;
    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text);
    }
    ac.getfail();
    dp();
    int ans = 0;
    for (int i = 0; i <= ac.idx; i++) ans = max(ans, f[m][i]);
    cout << ans << '\n';
    return 0;
}

回复

5 条回复,欢迎继续交流。

正在加载回复...