「笔记」后缀数组

小插曲

@ComeIntoPower 审日报的时候我正好在线，其实这篇一开始是没有过的。

心死了，犇犇都发出去了，伤心了 10min 又来看了一眼发现过了（（（
于是顺便来扩充了一下内容。

一些约定

$\left| \sum \right|$ ：字符集大小。
$S[i:j]$ ：由字符串 $S$ 中 $S_i\sim S_j$ 构成的子串。
$S_1<S_2$ ：字符串 $S_1$ 的字典序 $<S_2$ 。
后缀：从某个位置 $i$ 开始，到串末尾结束的子串，后缀 $i$ 等价于子串 $S[i:n]$ 。每一个后缀都与一个 $1\sim n$ 的整数一一映射。

SA

SA 的定义

字符串

S

的后缀数组定义为两个数组

sa,rk

。

sa

储存

S

的所有后缀按字典序排序后的起始下标，满足

S[sa_{i-1}:n]<S[sa_i:n]

。

rk

储存

S

的所有后缀的排名。

举例：这里有一个可爱的字符串

S=\texttt{yuyuko}

。
有

\texttt{k}<\texttt{o}<\texttt{u}<\texttt{y}

，则它的后缀数组

sa = [5,6,4,2,3,1]

，

rk = [6,4,5,3,1,2]

。具体地，有：

| 排名 | 1 | 2 | 3 | 4 | 5 | 6 | | :----------- | :----------- | :----------- | :----------- | :----------- | :----------- | :----------- | :----------- |
| 下标 |

5

6

4

2

3

1

| | 后缀 |

\texttt{ko}

\texttt{o}

\texttt{uko}

\texttt{uyuko}

\texttt{yuko}

\texttt{yuyuko}

不同后缀的排名必然不同（长度不等），

rk

中不会有重复值出现。

倍增法构造

考虑字符串大小的从前向后的比较过程，可以先将所有长度为

2^k

的子串进行排序，通过相邻子串合并并比较大小，求出所有长度为

2^{k+1}

的子串的大小关系。

对于

S[i:i+2^k-1]

和

S[j:j+2^k-1]

，分别将它们裂开，分成两长度为

2^{k-1}

的串。设

A_i = S[i:i+2^{k-1}-1]

，

B_i = S[i+2^{k-1}:i+2^k-1]

。
考虑字典序排序的过程，则

S[i:i+2^k-1] <S[j:j+2^k-1]

的条件为：

[A_i<A_j] \operatorname{or}\ [A_i=A_j \operatorname{and} B_i<B_j]

考虑每一次倍增时，都使用 sort 按双关键字

A_i

和

B_i

进行排序，每次倍增都进行依次排序，时间复杂度为

O(n\log^2 n)

。

P3809 【模板】后缀排序
以下是一份简单易懂的代码。

这里定义了两个数组：

sa_i

：倍增中排名为

i

的长度为

2^{k-1}

的子串。

rk_i

：倍增过程中子串

S[i:i+2^k-1]

的排名，
显然它们互为反函数，

sa_{rk_i}=rk_{sa_i} = i

。

初始化

rk_i = S_i

，即

S_i

的

\text{ASCII}

值。
虽然这样不满足值域在

[1,n]

内，但体现了大小关系，可用于更新。

rk

的值之后还会更新。

CPP

//知识点：SA
/*
By:Luckyblock
*/
#include <algorithm>
#include <cctype>
#include <cstdio>
#include <cstring>
#define LL long long
const int kN = 1e6 + 10;
//=============================================================
char s[kN];
int n, m, w, sa[kN], rk[kN << 1], oldrk[kN << 1];
//rk[i]: 倍增过程中子串[i:i+2^k-1]的排名，
//sa[i] 排名为i的子串 [i:i+2^k-1]，
//它们互为反函数。
//存在越界风险，如果不写特判，rk 和 oldrk 要开 2 倍空间。
//=============================================================
inline int read() {
  int f = 1, w = 0;
  char ch = getchar();
  for (; !isdigit(ch); ch = getchar())
    if (ch == '-') f = -1;
  for (; isdigit(ch); ch = getchar()) w = (w << 3) + (w << 1) + (ch ^ '0');
  return f * w;
}
void Chkmax(int &fir_, int sec_) {
  if (sec_ > fir_) fir_ = sec_;
}
void Chkmin(int &fir_, int sec_) {
  if (sec_ < fir_) fir_ = sec_;
}
bool CMP(int fir_, int sec_) {
  if (rk[fir_] != rk[sec_]) return rk[fir_] < rk[sec_];
  return rk[fir_ + w] < rk[sec_ + w];
}
int main() {
  scanf("%s", s + 1);
  n = strlen(s + 1);
  m = std::max(n, 300);
  //初始化 rk 和 sa。
  //观察下面的代码可知，每次倍增时都会根据 rk 来更新 sa，则仅须保证 sa 数组是一个 1~n 的排列即可。
  for (int i = 1; i <= n; ++ i) sa[i] = i, rk[i] = s[i];
  //倍增过程。w 是已经推出的子串长度，数值上等于上述分析中的 2^{k-1}。
  //注意此处的 sa 数组存的并不是后缀的排名，存的是倍增过程中指定长度子串的排名。
  for (w = 1; w < n; w <<= 1) {
    std::sort(sa + 1, sa + n + 1, CMP);
    for (int i = 1; i <= n; ++ i) oldrk[i] = rk[i];
    for (int i = 1, p = 0; i <= n; ++ i) {
      if (oldrk[sa[i]] == oldrk[sa[i - 1]] && //判断两个子串是否相等。
          oldrk[sa[i] + w] == oldrk[sa[i - 1] + w]) { //越界风险，2倍空间
        rk[sa[i]] = p;
      } else {
        rk[sa[i]] = ++p;
      }
    }
  }
  for (int i = 1; i <= n; ++ i) printf("%d ", sa[i]);
  return 0;
}

计数排序与基数排序

优化上述算法的前置知识。

可以参考：OI-wiki 计数排序 and OI-wiki 基数排序。

计数排序是一种与桶排序类似的排序方法。
将长度为

n

的数列

a

排序后放入

b

的代码如下，其中

w

为值域，即

\max\{a_i\}

。

CPP

int a[kMaxn], b[kMaxn], cnt[kMaxw];
for (int i = 1; i <= n; ++ i) ++ cnt[a[i]];
for (int i = 1; i <= w; ++ i) cnt[i] += cnt[i - 1];
for (int i = n; i >= 1; -- i) b[cnt[a[i]] --] = a[i];

其中，在对

cnt

求前缀和后，

cnt_i

为不大于

i

的数的数量，即为

i

的排名。
因此在下一步中，可以根据排名赋值。
复杂度为

O(n+w)

，值域与

n

同阶时复杂度比较优秀。

个人认为基数排序只是一种思想，并不算一种独立的排序方法。
它仅仅是将

k

个排序关键字分开，按优先级升序依次考虑，从而实现多比较字的排序。实际每次排序还是靠其他排序方法实现。常常与计数排序相结合。

优化

请确保完全理解上述朴素实现后再阅读下文。

发现后缀数组值域即为

n

，又是多关键字排序，考虑基数排序。
上面已经给出一个用于比较的式子：

[A_i<A_j] \operatorname{or}\ [A_i=A_j \operatorname{and} B_i<B_j]

倍增过程中

A_i,B_i

大小关系已知，先将

B_i

作为第二关键字排序，再将

A_i

作为第一关键字排序，两次计数排序实现即可。
单次计数排序复杂度

O(n + w)

（

w

为值域，显然最大与

n

同阶），总时间复杂度变为

O(n\log n)

。

实现时将所有排序替换为基数排序即可。注意初始化。

CPP

//知识点：SA
/*
By:Luckyblock
I love Marisa;
But Marisa has died;
*/
#include <cstdio>
#include <ctype.h>
#include <cstring>
#include <algorithm>
#define ll long long
const int kMaxn = 1e6 + 10;
//=============================================================
char S[kMaxn];
//rk[i]: 倍增过程中子串[i:i+2^k-1]的排名，
//sa[i] 排名为i的子串 [i:i+2^k-1]，
//它们互为反函数。
//存在越界风险，如果不写特判，rk 和 oldrk 要开 2 倍空间。
int n, m, sa[kMaxn], rk[kMaxn << 1], oldrk[kMaxn << 1];
int id[kMaxn], cnt[kMaxn]; //用于计数排序的两个 temp 数组
//=============================================================
inline int read() {
  int f = 1, w = 0; char ch = getchar();
  for (; !isdigit(ch); ch = getchar()) if (ch == '-') f = -1;
  for (; isdigit(ch); ch = getchar()) w = (w << 3) + (w << 1) + (ch ^ '0');
  return f * w;
}
//=============================================================
int main() {
  scanf("%s", S + 1);
  n = strlen(S + 1);
  m = std :: max(n, 300); //值域大小
  
  //初始化 rk 和 sa
  for (int i = 1; i <= n; ++ i) ++ cnt[rk[i] = S[i]];
  for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
  for (int i = n; i >= 1; -- i) sa[cnt[rk[i]] --] = i;

  //倍增过程。w 是已经推出的子串长度，数值上等于上述分析中的 2^{k-1}。
  //注意此处的 sa 数组存的并不是后缀的排名，存的是倍增过程中指定长度子串的排名。
  for (int w = 1; w < n; w <<= 1) {
    //按照后半截 rk[i+w] 作为第二关键字排序。
    memset(cnt, 0, sizeof (cnt));
    for (int i = 1; i <= n; ++ i) id[i] = i;
    for (int i = 1; i <= n; ++ i) ++ cnt[rk[id[i] + w]]; //越界风险，2倍空间
    for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
    for (int i = n; i >= 1; -- i) sa[cnt[rk[id[i] + w]] --] = id[i];

    //按照前半截 rk[i] 作为第一关键字排序。
    memset(cnt, 0, sizeof (cnt));
    for (int i = 1; i <= n; ++ i) id[i] = sa[i];
    for (int i = 1; i <= n; ++ i) ++ cnt[rk[id[i]]];
    for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
    for (int i = n; i >= 1; -- i) sa[cnt[rk[id[i]]] --] = id[i];

    //更新 rk 数组，可以滚动数组一下，但是可读性会比较差(
    for (int i = 1; i <= n; ++ i) oldrk[i] = rk[i];
    for (int p = 0, i = 1; i <= n; ++ i) {
      if (oldrk[sa[i]] == oldrk[sa[i - 1]] &&  //判断两个子串是否相等。
          oldrk[sa[i] + w] == oldrk[sa[i - 1] + w]) { //越界风险，2倍空间
        rk[sa[i]] = p;
      } else {
        rk[sa[i]] = ++ p;
      }
    }
  }
  for (int i = 1; i <= n; ++ i) printf("%d ", sa[i]);
  return 0;
}

有一点小问题，排后半截时会枚举到

id_i+w > n

怎么办？
考虑实际意义，出现此情况，表示该子串后半截为空。
空串字典序最小，考虑直接把

rk

开成两倍空间，则

rk_i=0\ (i>n)

恒成立。防止了越界，也处理了空串的字典序。

再优化

两次计排太慢啦！观察对后半截排序时的特殊性质：

考虑更新前的

sa_i

的含义：排名为

i

的长度为

2^{k-1}

的子串

S[sa_i, sa_i + 2^{k-1}]

。
在本次排序中，

S[sa_i, sa_i + 2^{k-1}]

是长度为

2^k

的子串

S[sa_{i}-2^{k-1}:sa_i+2^{k-1}]

的后半截，

sa_i

的排名将作为排序的关键字。

S[sa_i, sa_i + 2^{k-1}]

的排名为

i

，则第一次计排后

S[sa_{i}-2^{k-1}:sa_i+2^{k-1}]

的排名必为

i

。考虑直接赋值，那么原来的第一次计排就可以写成这样：

CPP

int p = 0;
for (int i = n; i > n - w; -- i) id[++ p] = i; //后半截为空的串
for (int i = 1; i <= n; ++ i) { //根据后半截，直接推整个串的排名
  if (sa[i] > w) id[++ p] = sa[i] - w;
}

注意后半截为空串的情况，这样的串排名相同且最小。

以及一些奇怪的常数优化：

减小值域。值域大小 $m$ 与排序复杂度有关，其最小值应为 $rk$ 的最大值，更新 $rk$ 时更新 $m$ 即可。
减少数组嵌套的使用，减少不连续内存访问。在第二次计数排序时，将 $rk_{id_i}$ 存下来。
用 cmp 函数判断两个子串是否相同。同样是减少不连续内存访问，详见代码。

CPP

//知识点：SA
/*
By:Luckyblock
I love Marisa;
*/
#include <cstdio>
#include <ctype.h>
#include <cstring>
#include <algorithm>
#define ll long long
const int kMaxn = 1e6 + 10;
//=============================================================
char S[kMaxn];
int n, m, sa[kMaxn], rk[kMaxn << 1], oldrk[kMaxn << 1];
int id[kMaxn], cnt[kMaxn], rkid[kMaxn];
//=============================================================
inline int read() {
  int f = 1, w = 0; char ch = getchar();
  for (; !isdigit(ch); ch = getchar()) if (ch == '-') f = -1;
  for (; isdigit(ch); ch = getchar()) w = (w << 3) + (w << 1) + (ch ^ '0');
  return f * w;
}
bool cmp(int x, int y, int w) { //判断两个子串是否相等。
  return oldrk[x] == oldrk[y] && 
         oldrk[x + w] == oldrk[y + w]; 
}
//=============================================================
int main() {
  scanf("%s", S + 1);
  n = strlen(S + 1);
  m = std :: max(n, 300); //值域大小
  
  //初始化 sa数组
  for (int i = 1; i <= n; ++ i) ++ cnt[rk[i] = S[i]];
  for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
  for (int i = n; i >= 1; -- i) sa[cnt[rk[i]] --] = i;

  //倍增过程。 
  //此处 w = 2^{k-1}，是已经推出的子串长度。
  //注意此处的 sa 数组存的并不是后缀的排名，
  //存的是指定长度子串的排名。
  for (int p, w = 1; w < n; w <<= 1) {
    //按照后半截 rk[i+w] 作为第二关键字排序。
    p = 0;
    for (int i = n; i > n - w; -- i) id[++ p] = i; //后半截为空的串
    for (int i = 1; i <= n; ++ i) { //根据后半截，直接推整个串的排名
      if (sa[i] > w) id[++ p] = sa[i] - w;
    }

    //按照前半截 rk[i] 作为第一关键字排序。
    memset(cnt, 0, sizeof (cnt));
    for (int i = 1; i <= n; ++ i) ++ cnt[rkid[i] = rk[id[i]]];
    for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
    for (int i = n; i >= 1; -- i) sa[cnt[rkid[i]] --] = id[i];

    //更新 rk 数组。
    //这里可以滚动数组一下，但是可读性会比较差（
    //卡常可以写一下。
    std ::swap(rk, oldrk);
    m = 0; //直接更新值域 m
    for (int i = 1; i <= n; ++ i) {
      rk[sa[i]] = (m += (cmp(sa[i], sa[i - 1], w) ^ 1));
    }
  }
  for (int i = 1; i <= n; ++ i) printf("%d ", sa[i]);
  return 0;
}

线性构建

在大多数题目中，常数较小的倍增是完全够用的。走某些特殊题目中可以使用 DC3/SA-IS 算法实现线性构建后缀数组。
具体做法可以参考：诱导排序与 SA-IS 算法与 DC3：[2009]后缀数组——处理字符串的有力工具 by. 罗穗骞。

LCP 问题

特别鸣谢：论文爷！后缀数组-许智磊

一些定义

\operatorname{lcp}(S,T)

定义为字符串

S

和

T

的最长公共前缀 (Longest common prefix)，即最大的

l\le \min\{\left| S\right|,\left| T\right|\}

，满足

S_i=T_i(1\le i\le l)

。
在许多后缀数组相关问题中，都需要它的帮助。

下文以

\operatorname{lcp}(i,j)

表示后缀

i

，

j

的最长公共前缀，并延续上文中一些概念：

sa_i

：排名为

i

的后缀，

rk_i

：后缀

i

的排名。
并将会用

sa_i

直接代表排名为

i

的后缀，即

sa_i = S[sa_i:n]

。

定义一些新的概念。

\operatorname{height}_i

表示排名为

i-1

和

i

的两后缀的最长公共前缀。

\operatorname{height}_i = \operatorname{lcp}(sa_{i-1},sa_i)

h_i

表示后缀

i

和排名在

i

之前一位的后缀的最长公共前缀。

h_i=\operatorname{height}_{rk_i} = \operatorname{lcp}(sa_{rk_i-1}, sa_{rk_i})= \operatorname{lcp}(i, sa_{rk_i -1})

引理：LCP Lemma

\forall 1\le i<j<k\le n, \,\operatorname{lcp}(sa_i,sa_k) = \min\{\operatorname{lcp}(sa_i,sa_j), \operatorname{lcp}(sa_j,sa_k)\}

此引理是证明其他引理的基础。
证明，设

p = \min\{\operatorname{lcp}(sa_i,sa_j), \operatorname{lcp}(sa_j,sa_k)\}

，则有：

\operatorname{lcp}(sa_i,sa_j)\ge p,\, \operatorname{lcp}(sa_j,sa_k)\ge p

则

sa_i[1:p] = sa_j[1:p] = sa_k[1:p]

，可得

\operatorname{lcp}(sa_i,sa_k)\ge p

。

再考虑反证法，设

\operatorname{lcp}(sa_i,sa_k) =q > p

。则

sa_i[1:q]=sa_k[1:q]

，有

sa_i[p+1]=sa_k[p+1]

。对

p

的取值分类讨论：

$p=\operatorname{lcp}(sa_i,sa_j) < \operatorname{lcp}(sa_j,sa_k)$ ：则有 $sa_i[p+1] < sa_j[p+1] = sa_k[p+1]$ 。
$p=\operatorname{lcp}(sa_j,sa_k) < \operatorname{lcp}(sa_i,sa_j)$ ：则有 $sa_i[p+1] = sa_j[p+1] < sa_k[p+1]$ 。
$p=\operatorname{lcp}(sa_j,sa_k) = \operatorname{lcp}(sa_i,sa_j)$ ：则有 $sa_i[p+1] < sa_j[p+1] < sa_k[p+1]$ 。

sa_i[p+1]<sa_k[p+1]

恒成立，与已知矛盾，则

\operatorname{lcp}(sa_i,sa_k)\le p

。综合上述两个结论，得证引理成立。

引理：LCP Theorem

\forall 1\le i < j\le n,\, \operatorname{lcp}(sa_i,sa_j) = \min_{k=i+1}^j\{\operatorname{height_k}\}

由 LCP Lemma，可知显然成立。

根据这个优美的式子，求解任意两个后缀的

\operatorname{lcp}

变为求解

\operatorname{height}

的区间最值问题。
可通过 st 表实现

O(n\log n)

预处理，

O(1)

查询。
问题只剩下如何快速求

\operatorname{height}

了。

推论：LCP Corollary

\operatorname{lcp}(sa_i,sa_j) \ge \operatorname{lcp}(sa_i, sa_k)\, (i\le j<k)

表示排名不相邻的两个后缀的

\operatorname{lcp}

不超过它们之间任何相邻元素的

\operatorname{lcp}

。
证明由引理 LCP Lemma 显然可得。
但是涛哥钦定我写一下证明，那我就不胜惶恐地写了（

类似 LCP Lemma，考虑反证法。设

\operatorname{lcp}(sa_i,sa_j)< \operatorname{lcp}(sa_i, sa_k)

，则有下图：

考虑字典序比较的过程。若

sa_i < sa_j

，则有

sa_i[{\operatorname{lcp}(sa_i,sa_j)+1}] <sa_j[{\operatorname{lcp}(sa_i,sa_j) + 1}]

。
即图中的字符

x<y

。

此时考虑比较

sa_j

与

sa_k

的字典序。由图，显然有

\operatorname{lcp}(sa_j,sa_k) = \operatorname{lcp}(sa_i,sa_j)

。而

\operatorname{lcp}(sa_i,sa_k) > \operatorname{lcp}(sa_i,sa_j)

，则

sa_k[{\operatorname{lcp}(sa_j,sa_k)+1}] = x

。
又

x<y

，可得

sa_k

的字典序小于

sa_j

。

与已知矛盾，反证原结论成立。

引理

\forall 1\le i\le n,\, h_i\ge h_{i-1}-1

h_i=\operatorname{height}_{rk_i} = \operatorname{lcp}(sa_{rk_i-1}, sa_{rk_i})= \operatorname{lcp}(i, sa_{rk_i -1})

用来快速计算

\operatorname{height}

的引理，个人喜欢叫它不完全单调性。
证明考虑数学归纳。首先当

h_{i-1}\le 1

时，结论显然成立，因为

h_i \ge 0

。

当

h_{i-1}>1

时，设

u = i, \, v = sa_{rk_i-1}

，有

h_i = \operatorname{lcp}(u,v)

。同时，设

u' = i-1, \, v' = sa_{rk_{i-1}-1}

，有

h_{i-1} = \operatorname{lcp}(u',v')

。
由

h_{i-1} = \operatorname{lcp}(u',v')>1

，则

u',v'

必有公共前缀。

考虑删去

u',v'

的 第一个 字符，设其分别变成

x,y

。显然

\operatorname{lcp}(x,y) = h_{i-1}-1

，且仍满足字典序

y<x

。

u' = i-1

，则删去第一个字符后，

x

等于后缀

i

。
则对于他们在

sa

中的排名，有

y<x=i=u

。

又

sa

中，

v

在

u

前一位置，则有

y\le v<u

。根据 LCP Corollary，有：

h_i = \operatorname{lcp}(u,v)\ge \operatorname{lcp}(u,y) = \operatorname{lcp}(x,y) = h_{i-1}-1

得证。

快速求 height

由定义

h_i = \operatorname{height}_{rk_i}

，只需快速求出

h

，便可

O(n)

地获得

\operatorname{height}

。
由引理已知

\forall 1\le i\le n,\, h_i\ge h_{i-1}-1

。

h_i=\operatorname{lcp}(i, sa_{rk_i -1})

具有不完全单调性，考虑正序枚举

i

进行递推。

当

rk_i=1

时，

sa_{rk_i-1}

不存在，特判

h_i=0

。
当

i=1

，暴力比较出

\operatorname{lcp}(i,sa_{rk_i-1})

，比较次数

<n

。
若上述情况均不满足，由引理知，

h_i=\operatorname{lcp}(i,sa_{rk_i-1})\ge h_{i-1}-1

，两后缀前

h_{i-1}-1

位相同。
可从第

h_{i-1}

位开始比较两后缀计算出

h_i

，比较次数

=h_i-h_{i-1}+2

代码中并没有专门开

h

数组，其中

h_i = k

：

CPP

void GetHeight() {
  for (int i = 1, k = 0; i <= n; ++ i) {
    if (rk[i] == 1) k = 0;
    else {
      if (k > 0) k --;
      int j = sa[rk[i] - 1];
      while (i + k <= n && j + k <= n && 
             S[i + k] == S[j + k]) {
        ++ k;
      }
    }
    height[rk[i]] = k;
  }
}

k\le n

，最多减

n

次，则最多会在比较中加

2n

次。总复杂度为

O(n)

级别。

例题

「JSOI2007」字符加密

无法简述的题面。

断环成链，把字符串复制一遍扔到后面，跑 SA 即可。
板子背诵检查，可以练下手感。

SP705 SUBST1 - New Distinct Substrings

$T$ 组数据，每次给定一个字符串 $s$ ，求该字符串本质不同的子串数量。
两个子串本质不同，当且仅当两个子串长度不等，或长度相等但有任意一位不同。
$1\le T\le 1\le|s|\le 5\times 10^4$ 。
280ms，1.46GB。

一种想法是用所有子串的个数

\frac{n(n+1)}{2}

减去重复子串的个数，显然重复的串一定出现在某两个后缀的公共前缀部分。

考虑加入

sa_i

后，新增的本质不同的子串的数量，显然即

\operatorname{length}(sa_i) - \operatorname{length}(\operatorname{lcp}(sa_i, sa_{i-1}))

，代表不作为之前加入的后缀的前缀的，

sa_i

的前缀的数量。最终答案即：

\frac{n(n+1)}{2} - \sum_{i = 2}^{n}\operatorname{height}_i

SA 简单实现即可，总复杂度

O(n\log n)

。

如果想了解直观的证明解释可以阅读这篇文章：「笔记」后缀树。

CPP

//知识点：SA 
/*
By:Luckyblock
*/
#include <algorithm>
#include <cctype>
#include <cstdio>
#include <cstring>
#define LL long long
const int kN = 1e5 + 10;
//=============================================================
char s[kN];
int n, m, sa[kN], rk[kN << 1], oldrk[kN << 1], height[kN];
int id[kN], cnt[kN], rkid[kN];
//=============================================================
inline int read() {
  int f = 1, w = 0;
  char ch = getchar();
  for (; !isdigit(ch); ch = getchar())
    if (ch == '-') f = -1;
  for (; isdigit(ch); ch = getchar()) {
    w = (w << 3) + (w << 1) + (ch ^ '0');
  }
  return f * w;
}
void Chkmax(int &fir_, int sec_) {
  if (sec_ > fir_) fir_ = sec_;
}
void Chkmin(int &fir_, int sec_) {
  if (sec_ < fir_) fir_ = sec_;
}
bool cmp(int x_, int y_, int w_) {
  return oldrk[x_] == oldrk[y_] && 
         oldrk[x_ + w_] == oldrk[y_ + w_];
}
void GetHeight() {
  for (int i = 1, k = 0; i <= n; ++ i) {
    if (rk[i] == 1) k = 0;
    else {
      if (k > 0) -- k;
      int j = sa[rk[i] - 1];
      while (i + k <= n && j + k <=n && 
             s[i + k] == s[j + k]) {
               ++ k;
      }
    }
    height[rk[i]] = k;
  }
}
void SuffixSort() {
  scanf("%s", s + 1);
  m = 300;
  n = strlen(s + 1);
  
  memset(cnt, 0, sizeof (cnt));
  for (int i = 1; i <= n; ++ i) cnt[rk[i] = s[i]] ++;
  for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
  for (int i = n; i >= 1; -- i) sa[cnt[rk[i]] --] = i;
  
  for (int p, w = 1; w < n; w <<= 1) {
    p = 0;
    for (int i = n; i > n - w; -- i) id[++ p] = i;
    for (int i = 1; i <= n; ++ i) {
      if (sa[i] > w) id[++ p] = sa[i] - w;
    }
    
    memset(cnt, 0, sizeof (cnt));
    for (int i = 1; i <= n; ++ i) cnt[rkid[i] = rk[id[i]]] ++;
    for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
    for (int i = n; i >= 1; -- i) sa[cnt[rkid[i]] --] = id[i];
    
    m = 0;
    memcpy(oldrk, rk, sizeof (rk));
    for (int i = 1; i <= n; ++ i) {
      m += (cmp(sa[i], sa[i - 1], w) ^ 1);
      rk[sa[i]] = m;
    }
  }
  GetHeight();
}
//=============================================================
int main() {
  int T = read();
  while (T --) {
    SuffixSort();
    LL ans = 1ll * n * (n + 1) / 2ll; 
    for (int i = 1; i <= n; ++ i) ans -= height[i];
    printf("%lld\n", ans);
  }
  return 0;
}

SP1811 LCS - Longest Common Substring

给定两字符串 $S_1, S_2$ ，求它们的最长公共子串长度。
$|S_1|,|S_2|\le 2.5\times 10^5$ 。
294ms，1.46GB。

套路地把两个字符串连起来，答案即：

\max_{1\le i\le |S_1| < j\le |S_1+S_2|}\operatorname{lcp}(i,j)

显然答案即为满足

sa_i,sa_{i-1}

分属不同字符串 的

\operatorname{height}_{i}

的最大值。
正确性非常显然，留与读者自证。这里给出一种证明，可以参考这里：「双串最长公共子串」。

CPP

//知识点：SA
/*
By:Luckyblock
*/
#include <algorithm>
#include <cstdio>
#include <cstring>
#include <ctype.h>
#define ll long long
const int kMaxn = 5e5 + 10;
//=============================================================
char S[kMaxn];
int n1, n, m, ans, cnt[kMaxn], id[kMaxn], rkid[kMaxn];
int sa[kMaxn], rk[kMaxn << 1], oldrk[kMaxn << 1], height[kMaxn];
int MaxHeight[kMaxn][20], Log2[kMaxn];
//=============================================================
inline int read() {
  int f = 1, w = 0; char ch = getchar();
  for (; !isdigit(ch); ch = getchar()) if (ch == '-') f = -1;
  for (; isdigit(ch); ch = getchar()) w = (w << 3) + (w << 1) + (ch ^ '0');
  return f * w;
}
void GetMax(int &fir, int sec) {
  if (sec > fir) fir = sec;
}
bool cmp(int x, int y, int w) { //判断两个子串是否相等。
  return oldrk[x] == oldrk[y] && 
         oldrk[x + w] == oldrk[y + w]; 
}
void GetHeight() {
  for (int i = 1, k = 0; i <= n; ++ i) {
    if (rk[i] == 1) k = 0;
    else {
      if (k > 0) k --;
      int j = sa[rk[i] - 1];
      while (i + k <= n && j + k <= n && 
             S[i + k] == S[j + k]) {
        ++ k;
      }
    }
    height[rk[i]] = k;
  }
}
void SuffixSort() {
  m = 300;
  for (int i = 1; i <= n; ++ i) ++ cnt[rk[i] = S[i]];
  for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
  for (int i = n; i >= 1; -- i) sa[cnt[rk[i]] --] = i;
  for (int p, w = 1; w < n; w <<= 1) {
    p = 0;
    for (int i = n; i > n - w; -- i) id[++ p] = i;
    for (int i = 1; i <= n; ++ i) {
      if (sa[i] > w) id[++ p] = sa[i] - w;
    }
    memset(cnt, 0, sizeof (cnt));
    for (int i = 1; i <= n; ++ i) ++ cnt[(rkid[i] = rk[id[i]])];
    for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
    for (int i = n; i >= 1; -- i) sa[cnt[rkid[i]] --] = id[i];
    std ::swap(rk, oldrk);
    m = 0;
    for (int i = 1; i <= n; ++ i) {
      m += (cmp(sa[i], sa[i - 1], w) ^ 1);
      rk[sa[i]] = m;
    }
  }
  GetHeight();
}
bool Judge(int x, int y) {
  return (x <= n1 && y > n1) || (x > n1 && y < n1);
}
//=============================================================
int main() {
  scanf("%s", S + 1); n1 = strlen(S + 1);
  S[n1 + 1] = 'z' + 1;
  scanf("%s", S + n1 + 1 + 1); n = strlen(S + 1);
  SuffixSort();
  for (int i = 2; i <= n; ++ i) {
    if (Judge(sa[i - 1], sa[i])) GetMax(ans, height[i]);
  }
  printf("%d", ans);
  return 0;
}

「HAOI2016」找相同字符

给定两字符串 $S_1, S_2$ ，求出在两字符串中各取一个子串，使得这两个子串相同的方案数。
两方案不同当且仅当这两个子串中有一个位置不同。
$1\le |S_1|, |S_2|\le 2\times 10^5$ 。
1S，256MB。

考察对

\operatorname{lcp}

单调性的理解。

S_1

后面加个终止符，

S_2

串扔到

S_1

后面，跑 SA。
显然答案即后半段的后缀，与前半段的后缀的所有

\operatorname{lcp}

之和。

考虑按字典序枚举后半段的后缀，设当前枚举到的后缀为

sa_i

。
先 仅考虑 字典序

<sa_i

的前半段的后缀

sa_j\ (j<i)

的贡献。其对

sa_i

的贡献为

\operatorname{lcp}(sa_i, sa_j)

。

由

\operatorname{lcp}

的单调性，对于最小的大于

sa_i

的后半段的后缀

sa_k(k>i)

，有

\operatorname{lcp}(sa_{k}, sa_j)\le \operatorname{lcp}(sa_i,sa_j)

，考虑贡献的变化情况。

若

\operatorname{lcp}(sa_{k}, sa_j)< \operatorname{lcp}(sa_i,sa_j)

，则

sa_j

对

sa_k

的贡献应变为：

\operatorname{lcp}(sa_k, sa_j) = \min\{\operatorname{lcp}(sa_i,sa_j), \min\limits_{l=i+1}^{k}{\operatorname{height}_l}\}

此外，若存在

sa_l, l\in (i,k)

为 前半段的后缀 时，作出贡献的元素增加。

考虑在枚举后缀的过程中，用权值线段树维护 字典序小于 $sa_i$ 的 前半段 的后缀

sa_j\ (j<i)

的不同长度的

\operatorname{lcp}

的数量。
上述两操作，即为区间赋值与单点插入。

再按字典序倒序枚举后缀，计算字典序

>sa_i

的前半段的后缀的贡献。
分析很屑，代码有详细注释。

总复杂度

O(n\log n)

。线段树写法是自己 YY 的，比较无脑，也可以单调栈简单维护，复杂度也为

O(n\log n)

级别。
此外还有优美的广义 SAM 写法，可以参考：「HAOI2016」找相同字符。

CPP

//知识点：SA，线段树
/*
By:Luckyblock 
*/
#include <cstdio>
#include <ctype.h>
#include <cstring>
#include <algorithm>
#define ll long long
#define lson (now_<<1)
#define rson (now_<<1|1)
const int kMaxn = 4e5 + 10;
//=============================================================
char S[kMaxn];
int n1, n, m, sa[kMaxn], rk[kMaxn << 1], oldrk[kMaxn << 1], height[kMaxn];
int id[kMaxn], cnt[kMaxn], rkid[kMaxn];
ll ans, size[kMaxn << 2], sum[kMaxn << 2]; //size 维护数量，sum 维护 lcp 之和。
bool tag[kMaxn << 2];
//=============================================================
inline int read() {
  int f = 1, w = 0; char ch = getchar();
  for (; !isdigit(ch); ch = getchar()) if (ch == '-') f = -1;
  for (; isdigit(ch); ch = getchar()) w = (w << 3) + (w << 1) + (ch ^ '0');
  return f * w;
}
bool cmp(int x, int y, int w) { //判断两个子串是否相等。
  return oldrk[x] == oldrk[y] && 
         oldrk[x + w] == oldrk[y + w]; 
}
void GetHeight() {
  for (int i = 1, k = 0; i <= n; ++ i) {
    if (rk[i] == 1) k = 0;
    else {
      if (k > 0) k --;
      int j = sa[rk[i] - 1];
      while (i + k <= n && j + k <= n && 
             S[i + k] == S[j + k]) {
        ++ k;
      }
    }
    height[rk[i]] = k;
  }
}
void SuffixSort() {
  m = std :: max(n, 300);
  for (int i = 1; i <= n; ++ i) ++ cnt[rk[i] = S[i]];
  for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
  for (int i = n; i >= 1; -- i) sa[cnt[rk[i]] --] = i;
  for (int p, w = 1; w < n; w <<= 1) {
    p = 0;
    for (int i = n; i > n - w; -- i) id[++ p] = i;
    for (int i = 1; i <= n; ++ i) {
      if (sa[i] > w) id[++ p] = sa[i] - w;
    }
    memset(cnt, 0, sizeof (cnt));
    for (int i = 1; i <= n; ++ i) ++ cnt[(rkid[i] = rk[id[i]])];
    for (int i = 1; i <= m; ++ i) cnt[i] += cnt[i - 1];
    for (int i = n; i >= 1; -- i) sa[cnt[rkid[i]] --] = id[i];
    std ::swap(rk, oldrk);
    m = 0;
    for (int i = 1; i <= n; ++ i) {
      m += (cmp(sa[i], sa[i - 1], w) ^ 1);
      rk[sa[i]] = m;
    }
  }
  GetHeight();
}
void Build(int now_, int L_, int R_) {
  size[now_] = sum[now_] = 0ll;
  tag[now_] = false;
  if (L_ == R_) return ;
  int mid = (L_ + R_) >> 1;
  Build(lson, L_, mid), Build(rson, mid + 1, R_);
}
void Pushdown(int now_) {
  tag[lson] = tag[rson] = true;
  size[lson] = size[rson] = 0;
  sum[lson] = sum[rson] = 0;
  tag[now_] = false;
}
void Pushup(int now_) {
  size[now_] = size[lson] + size[rson];
  sum[now_] = sum[lson] + sum[rson];
}
ll Delete(int now_, int L_, int R_, int ql_, int qr_) {
  if (ql_ <= L_ && R_ <= qr_) {
    ll ret = size[now_];
    tag[now_] = true;
    size[now_] = sum[now_] = 0;
    return ret;
  }
  if(tag[now_]) Pushdown(now_);
  int mid = (L_ + R_) >> 1;
  ll ret = 0ll;
  if (ql_ <= mid) ret += Delete(lson, L_, mid, ql_, qr_);
  if (qr_ > mid) ret += Delete(rson, mid + 1, R_, ql_, qr_);
  Pushup(now_);
  return ret;
}
void Insert(int now_, int L_, int R_, int pos_, ll num) {
  if (! num) return ;
  if (L_ == R_) {
    size[now_] += num;
    sum[now_] += 1ll * num * (L_ - 1ll); //注意减去偏移量。
    return ;
  }
  if (tag[now_]) Pushdown(now_);
  int mid = (L_ + R_) >> 1;
  if (pos_ <= mid) Insert(lson, L_, mid, pos_, num);
  else Insert(rson, mid + 1, R_, pos_, num);
  Pushup(now_);
}
//=============================================================
int main() {
  scanf("%s", S + 1); n1 = strlen(S + 1);
  S[n1 + 1] = 'z' + 1;
  scanf("%s", S + n1 + 2); n = strlen(S + 1);
  SuffixSort();

  //正序枚举所有后缀，计算字典序 >sa_i 的 前半段的后缀的贡献。
  //当枚举到一个 后半段的后缀，仅用于更新 min(lcp)。
  //枚举到一个 前半段的后缀，用于更新 min(lcp)，且需新插入一个后缀。
  //由于 lcp 可能为 0，线段树维护的区间加了偏移量 1。
  for (int i = 2; i <= n; ++ i) {
    //计算 lcp > height(i) 的 前半段后缀的数量，并将他们删除。
    ll num = Delete(1, 1, n + 1, height[i] + 1 + 1, n + 1); 
    Insert(1, 1, n + 1, height[i] + 1, num + (sa[i - 1] <= n1)); //插入被删除的后缀 与 新后缀。注意边界。
    if (sa[i] > n1 + 1) ans += sum[1]; //若枚举到一个 后半段后缀，计算贡献。 注意边界。
  }
  Build(1, 1, n + 1); //清空线段树
  //倒序枚举所有后缀，计算字典序 >sa_i 的 前半段的后缀的贡献。
  for (int i = n; i >= 2; -- i) {
    ll num = Delete(1, 1, n + 1, height[i] + 2, n + 1);
    Insert(1, 1, n + 1, height[i] + 1, num + (sa[i] <= n1)); //注意边界
    if (sa[i - 1] > n1 + 1) ans += sum[1]; //注意边界
  }
  printf("%lld", ans);
  return 0;
}

「AHOI2013」差异

给定一长度为 $n$ 的字符串 $S$ ，令 $T_i$ 表示从第 $i$ 个字符开始的后缀，求：
$\sum_{1\le i<j\le n}\{\operatorname{len}(T_i) +\operatorname{len}(T_j) - 2\times \operatorname{lcp} (T_i,T_j)\}$
$\operatorname{len}(a)$ 表示字符串 $a$ 的长度， $\operatorname{lcp}(a,b)$ 表示字符串 $a,b$ 的最长公共前缀。
$1\le n\le 5\times 10^5$ 。
1S，512MB。

化下式子：

「笔记」后缀数组

文章操作

小插曲

一些约定

SA

SA 的定义

倍增法构造

计数排序与基数排序

优化

再优化

线性构建

LCP 问题

一些定义

引理：LCP Lemma

引理：LCP Theorem

推论：LCP Corollary

引理

快速求 height

例题

「JSOI2007」字符加密

SP705 SUBST1 - New Distinct Substrings

SP1811 LCS - Longest Common Substring

「HAOI2016」找相同字符

「AHOI2013」差异

相关推荐

评论

「笔记」后缀数组

文章操作

小插曲

一些约定

SA

SA 的定义

倍增法构造

计数排序 与 基数排序

优化

再优化

线性构建

LCP 问题

一些定义

引理：LCP Lemma

引理：LCP Theorem

推论：LCP Corollary

引理

快速求 height

例题

「JSOI2007」字符加密

SP705 SUBST1 - New Distinct Substrings

SP1811 LCS - Longest Common Substring

「HAOI2016」找相同字符

「AHOI2013」 差异

相关推荐

评论

计数排序与基数排序

「AHOI2013」差异