严蔚敏数据结构 kmp算法详解

合集下载

KMP算法详解

1
A = a b a b a b a a b a b … B = a b a b a c b j = 1 2 3 4 5 6 7 这时，新的 j=3仍然不能满足 A[i+1]=B[j+1]，此时我们再次减小 j 值，将 j 再次更新为 P[3] ，即1： i = 1 2 3 4 5 6 7 8 9 …… A = a b a b a b a a b a b … B = a b a b a c b j = 1 2 3 4 5 6 7 现在，i 还是7，j 已经变成1了。而此时 A[8]居然仍然不等于 B[j+1]。这样，j 必须减小到 P[1]，即0： i = 1 2 3 4 5 6 7 8 9 …… A = a b a b a b a a b a b … B = a b a b a c b j = 0 1 2 3 4 5 6 7 终于，A[8]=B[1]，i 变为8，j 为1。事实上，有可能 j 到了0仍然不能满足 A[i+1]=B[j+1]（比如 A[8]="d"时）。因此，准确的说法是，当 j=0了时，我们增加 i 值但忽略 j 直到出现 A[i]=B[1]为止。这个过程的代码很短（真的很短），我们在这里给出： j:=0; for i:=1 to n do begin while (j>0) and (B[j+1]<>A[i]) do j:=P[j]; if B[j+1]=A[i] then j:=j+1; if j=m then begin writeln('Pattern occurs with shift ',i-m); j:=P[j]; end; end; 最后的 j:=P[j]是为了让程序继续做下去，因为我们有可能找到多处匹配。这个程序或许比想像中的要简单，因为对于 i 值的不断增加，代码用的是 for 循环。因此，这个代码可以这样形象地理解：扫描字符串 A，并更新可以匹配到 B 的什么位置。现在，我们还遗留了两个重要的问题：一，为什么这个程序是线性的；二，如何快速预处理 P 数组。为什么这个程序是 O(n)的？其实，主要的争议在于，while 循环使得执行次数出现了不确定因素。我们将用到时间复杂度的摊还分析中的主要策略，简单地说就是通过观察某一个变量或函数值的变化来对零散的、杂乱的、不规则的执行次数进行累计。KMP 的时间复杂度分析可谓摊还分析的典型。我们从上述程序的 j 值入手。每一次执行 while 循环都会使 j 减小（但不能减成负的），而另外的改变 j 值的地方只有第五行。每次执行了这一行，j 都只能加1；因此，整个过程中 j 最多加了 n 个1。于是，j 最多只有 n 次减小的机会（j 值减小的次数当然不能超过 n，因为 j 永远是非负整数）。这告诉我们，while 循环总共最多执行了 n 次。按照摊还分析的说法，平摊到每次 for 循环中后，一次 for 循环的复杂度为 O(1)。整个过程显然是 O(n)的。这样的分析对于后面 P 数组预处理的过程同样有效，同样可以得到预处理过程的复杂度为 O(m)。预处理不需要按照 P 的定义写成 O(m^2)甚至 O(m^3)的。我们可以通过 P[1],P[2],...,P[j-1]的值来获得 P[j]的值。对于刚才的 B="ababacb"，假如我们已经求出了 P[1],P[2],P[3]和 P[4]，看看我们应该怎么求出 P[5]和 P[6]。 P[4]=2，那么 P [5]显然等于 P[4]+1，因为由 P[4]可以知道，B[1,2]已经和 B[3,4]相等了，现在又有 B[3]=B[5]，所以 P[5]可以由 P[4] 后面加一个字符得到。P[6]也等于 P[5]+1吗？显然不是，因为 B[ P[5]+1 ]<>B[6]。那么，我们要考虑“退一步”了。我们考虑 P[6]是否有可能由 P[5]的情况所包含的子串得到，即是否 P[6]=P[ P[5] ]+1。这里想不通的话可以仔细看一下：

数据结构——KMP算法

数据结构——KMP算法算法介绍 KMP算法是⼀种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此⼈们称它为克努特—莫⾥斯—普拉特操作（简称KMP算法）。

KMP算法的核⼼是利⽤匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的⽬的。

具体实现就是通过⼀个next()函数实现，函数本⾝包含了模式串的局部匹配信息。

KMP算法的时间复杂度O(m+n)。

next数组我们记主串为字符串S，模式串为字符串P。

我们⽤next[j]表⽰以字符Pj结尾的⼦串的长度相等的前缀字符串与后缀字符串长度的最⼤值。

特别地，当没有满⾜条件的⼦串时，next[j] = 0。

为了⽅便起见，我们将字符串从下标1开始匹配。

如此，next数组所表⽰的长度就与下标数值相等了。

算法思路我们从左到右依次枚举S的每⼀个字符Si，对于当前待匹配字符Si，我们假设当前P字符串中已匹配到Pj。

那么我们只需判断Si和Pj+1，若两者相同，则继续匹配。

若两者不相同，那么我们使j=next[j]，即可最⼤限度的减少匹配次数。

因为S字符串的从某位置开始到前i-1的部分与P字符串的前j个字符已匹配(即完全相同)，如图中两蓝⾊直线所夹的S、P的两段，⽽P1到Pnext[j]部分是长度最⼤的与以Pj结尾的后缀完全相同的前缀（图中绿⾊线段），⽽该以Pj结尾的后缀则必定与S中⼀段以Si-1结尾的⼦串完全相同，因⽽保证了上述操作的正确性。

接下去只需重复上述操作即可。

⽽对于next数组的预处理，也同上述操作类似，我们只需要以字符串P来匹配字符串P即可。

模板呈现模板题链接：代码如下：#include <iostream>#include <algorithm>#include <cstdio>using namespace std;const int M = 1e5+10;int n,m;int ne[M];char s[M],p[M];int main(){cin>>n>>p+1;cin>>m>>s+1;for(int i=2,j=0;i<=n;i++){while(j && p[i]!=p[j+1])j=ne[j];if(p[i]==p[j+1])j++;ne[i]=j;}for(int i=1,j=0;i<=m;i++){while(j && s[i]!=p[j+1])j=ne[j];if(s[i]==p[j+1])j++;if(j==n){printf("%d ",i-n+1-1);j=ne[j]; //可有可⽆，好习惯要加上。

KMP算法详解

KMP算法详解我们从一个普通的串的模式匹配算法开始讲起，这样你才能更深入的了解KMP算法及其优点。

咱们先来看看普通的串的模式匹配算法是怎么进行比较的主串（S） a b a b c a b c a c b a b子串（T）a b c a c （子串又被称为模式串）红色表示当前这趟比较指针所在位置，兰色表示当前这趟比较中匹配的部分第一趟（详细过程）a b a b c a b c a c b a ba b c a ca b a b c a b c a c b a ba b c a ca b a b c a b c a c b a ba b c a c遇到不匹配的地方时指针回朔，子串向前移动一位（下同），变成如下形式a b a b c a b c a c b a ba b c a c第二趟（省略了中间阶段指针移动比较过程，下同）a b a b c a b c a c b a ba b c a c第三趟a b a b c a b c a c b a ba b c a c第四趟a b a b c a b c a c b a ba b c a c第五趟aba b c a b c a c b a ba b c a c第六趟ab a b c a b c a c b a ba b c a c_完成匹配，跳出这就是普通算法的详细匹配过程，看明白了算法就简单了详细算法我现在就不给了，等以后有时间再编辑。

不过假如串的长度为m,子串的长度为n 的话，那么这个算法在最坏的情况下的时间复杂度为O(m*n) ,有没有办法降低它的时间复杂度呢？（废话，当然有拉，不然回这个帖子干什么）拜D.E.K nuth 和J.H.M orris 和V.R.P ratt 所赐，我们有了一种时间复杂度为O(m+n)的算法，为了纪念这3位强人为计算机科学所做的贡献，分别取这3位先生的名字的首写字母K，M，P来命名这个算法，即著名的KMP算法。

我们先不管这个KMP算法是什么，我们先来看看我们能够想到怎样的方法来改进上面的普通算法。

KMP算法思想

KMP字符串模式匹配详解来自CSDN A_B_C_ABC网友KMP字符串模式匹配通俗点说就是一种在一个字符串中定位另一个串的高效算法。

简单匹配算法的时间复杂度为O(m*n);KMP匹配算法。

可以证明它的时间复杂度为O(m+n).。

一．简单匹配算法先来看一个简单匹配算法的函数：int Index_BF ( char S [ ], char T [ ], int pos ){/*若串S中从第pos(S的下标0≤pos<StrLength(S))个字符起存在和串T相同的子串，则称匹配成功，返回第一个这样的子串在串S中的下标，否则返回-1 */int i = pos, j = 0;while ( S[i+j] != '\0'&& T[j] != '\0')if ( S[i+j] == T[j] )j ++;//继续比较后一字符else{i ++; j = 0;//重新开始新的一轮匹配}if ( T[j] == '\0')return i;//匹配成功返回下标elsereturn -1;//串S中(第pos个字符起)不存在和串T相同的子串}// Index_BF此算法的思想是直截了当的：将主串S中某个位置i起始的子串和模式串T 相比较。

即从j=0起比较S[i+j]与T[j]，若相等，则在主串S中存在以i为起始位置匹配成功的可能性，继续往后比较( j逐步增1 )，直至与T串中最后一个字符相等为止，否则改从S串的下一个字符起重新开始进行下一轮的"匹配"，即将串T向后滑动一位，即i增1，而j退回至0，重新开始新一轮的匹配。

例如：在串S=”abcabcabdabba”中查找T=” abcabd”（我们可以假设从下标0开始）:先是比较S[0]和T[0]是否相等，然后比较S[1]和T[1]是否相等…我们发现一直比较到S[5]和T[5]才不等。

数据结构与算法(清华大学出版社,严蔚敏)实验讲义

实验内容与实验指导－－计算机系列课程
实验1: 线性表的顺序存储结构定义及基本操作
（必做）

一、实验目的
. 掌握线性表的逻辑特征 . 掌握线性表顺序存储结构的特点，熟练掌握顺序表的基本运算 . 熟练掌握线性表的链式存储结构定义及基本操作 . 理解循环链表和双链表的特点和基本运算 . 加深对顺序存储数据结构的理解和链式存储数据结构的理解，逐步培养解决实际问题的编程能力
实验2: 线性表的综合应用（选做）
一、实验目的
掌握顺序表和链表的概念，学会对问题进行分析，选择恰当的逻辑结构和物理结构加深对顺序表和链表的理解，培养解决实际问题的编程能力
实验内容与实验指导－－计算机系列课程
二、实验内容
实现一元稀疏多项式的表示及基本操作（建立、销毁、输出、加法、减法、乘法等操作）
实验内容与实验指导－－计算机系列课程
5) 新建文件/C/C++ Header File，选中“ 添加到工程的复选按钮” ，输入文件名“ seqlistAlgo. h” ，按“ 确定” 按钮，在显示的代码编辑区内输入如上的参考程序； 6) 新建文件/C++ Source File，选中“ 添加到工程的复选按钮” ，输入文件名“ seqlistUse. cpp” ，按“ 确定” 按钮，在显示的代码编辑区内输入如上的参考程序； 7) 按F7键，或工具图标进行工程的建立，如有错误，根据错误显示区中的提示，改正错误，重新建立应用程序； 8) 按Ctrl+F5键，或工具图标进行工程的执行。
2．实现要求：对链表的各项操作一定要编写成为C （C++）语言函数，组合成模块化的形式，还要针对每个算法的实现从时间复杂度和空间复杂度上进行评价；按要求编写实验程序，将实验程序上机调试运行，给出输出的结果，并提交实验报告，写出调试运行程序的分析和体会。

数据结构kmp算法详解

数据结构kmp算法详解
KMP算法是一种字符串匹配算法，用于在一个主串中查找一个模式串的出现位置。

KMP 算法的时间复杂度为O(m+n)，其中m为主串的长度，n为模式串的长度。

理解KMP算法的关键是要理解它使用的“部分匹配表”（partial match table），该表可以在O(n)的时间内预处理出来，用于帮助寻找匹配失败时应该跳转到的下一个位置。

相比于暴力匹配算法，KMP算法在遇到不匹配的字符时，不会同时回退txt和pat的指针，而是借助 dp 数组中储存的信息把 pat 移到正确的位置继续匹配，因此不会重复扫描txt，时间复杂度只需O(N)。

KMP算法的难点在于，如何计算 dp 数组中的信息以及如何根据这些信息正确地移动pat 的指针，这需要确定有限状态自动机来辅助。

KMP算法详解

KMP算法详解KMP 算法详解KMP 算法是⼀个⼗分⾼效的字符串查找算法，⽬的是在⼀个字符串 s 中，查询 s 是否包含⼦字符串 p，若包含，则返回 p 在 s 中起点的下标。

KMP 算法全称为 Knuth-Morris-Pratt 算法，由 Knuth 和 Pratt 在1974年构思，同年 Morris 也独⽴地设计出该算法，最终由三⼈于1977年联合发表。

举⼀个简单的例⼦，在字符串 s = ababcabababca 中查找⼦字符串 p = abababca，如果暴⼒查找，我们会遍历 s 中的每⼀个字符，若 s[i] = p[0]，则向后查询p.length() 位是否都相等。

这种朴素的暴⼒的算法复杂度为O(m×n)，其中m和n分别是 p 和 s 的长度。

KMP 算法可以⽅便地简化这⼀查询的时间复杂度，达到O(m+n)。

1. PMT 序列PMT 序列是 KMP 算法的核⼼，即 Partial Match Table（部分匹配表）。

举个例⼦：char a b a b a b c aindex01234567PMT00123401PMT 的值是字符串的前缀集合与后缀集合的交集中最长元素的长度。

PMT[0] = 0: 字符串 a 既没有前缀，也没有后缀；PMT[1] = 0: 字符串 ab 前缀集合为 {a}，后缀集合为 {b}，没有交集；PMT[2] = 1: 字符串 aba 前缀集合为 {a, ab}，后缀集合为 {ba, a}，交集为 {a}，交集元素的最长长度为1；PMT[3] = 2: 字符串 abab 前缀集合为 {a, ab, aba}，后缀集合为 {bab, ab, b}，交集为 {ab}，交集元素的最长长度为2；…… 以此类推。

2. 算法主体现在我们已经知道了 PMT 序列的含义，那么假设在 PMT 序列已经给定的情况下，如何加速字符串匹配算法？tar 存储 s 的下标，从 0 开始，若 tar > s.length() - 1，代表匹配失败；pos 存储 p 的下标，从 0 开始，若 s[tar] != p[pos]，则 pos ⾛到下⼀个可能匹配的位置。

KMP算法中next数组的计算方法研究

计算机技术与发展第 19 卷第6期 Vol. 19 No. 6 2009 年 6 月 COMPU TER TECHNOLO GY AND DEV ELOPM EN T J une 2009
KMP 算法中 next 数组的计算方ห้องสมุดไป่ตู้研究
汤亚玲
( 安徽工业大学计算机学院 ,安徽马鞍山 243002)
( Recurrence) 的思想来加以实现。
递推的思路是 ,先根据定义赋值 next [ 1 ] = 0 , 通过
next [ 1 ] 计算出 next [ 2 ] , 在得到 next [ 1 ] 、 next [ 2 ] 、 … next [ i - 1 ] 的值基础之上 , 计算 next [ i ] 的值 , 它递推
F ( N ) 问题转化为求解 F ( N - 1) 的问题 , 把计算 F ( N - 1) 转化为计算 F ( N - 2) , 直到某个特定自然数 n0 , F ( n 0) 可解 , 即得到求解问题 F ( N ) 的递归计算方法。
此时 next [ i ] = k + 1 , 即 :
next [ i ] = next [ i - 1 ] + 1
- 1 ] , 如果相等 , 则 next [ i ] 的值应该为 next [ next [ i -
1 ] + 1 , 反之如果 t [ next [ next [ i - 1 ] ] ] 不等于 t [ i 1 ] , 则判断 t [ next [ next [ next [ i - 1 ] ] ] ] 是否等于 t [ i 1 ] , 如此一直下去 , 直至存在某个 k = next [ … next [ i 1 ] …] > 0 , 使得 t [ k ] = t [ i - 1 ] , 此时 next [ i ] = k + 1 , 否则当 k 等于 0 时 , 则 next [ i ] 值为 1 ( ( 1) 式定义中

数据结构教学中KMP算法解析

数据结构教学中KMP算法解析摘要：模式匹配是字符串的基本运算之一，也是数据结构教学中的难点之一。

分析了模式匹配KMP算法以及算法中next函数的含义，给出了next函数的两种实现方法，有助于在教学实践中帮助学生更好地理解该算法。

关键词：数据结构；模式匹配；KMP算法0引言模式匹配（Patten Matching）是许多计算机应用领域的基础问题，在数据结构中模式匹配是字符串的基本运算之一。

字符串模式匹配指的是，找出特定的模式串在一个较长的字符串中出现的位置。

有两个字符串S和T，字符串S称为目标串，字符串T称为模式串，要求找出模式T在S中的首次出现的位置。

一旦模式T在目标S中找到，就称发生一次匹配。

有些应用可能会要求找出所有的匹配位置<sup>[1]</sup>。

例如，目标串S= 'Shanghai'，模式串T= 'gha'，则匹配结果为4。

模式匹配的典型算法包括朴素匹配算法、KMP算法和BM算法等，其中KMP算法是效率较高且经典的模式匹配算法之一<sup>[2]</sup>。

在数据结构教学中，由于KMP算法较难理解，课堂讲授往往很难取得好的效果。

本文通过对传统的朴素匹配算法与KMP算法的比较，分析next函数的含义以及实现方法，来帮助理解KMP算法。

1朴素匹配算法在朴素匹配算法中，S和T分别为目标串和模式串，变量i和j 为两个静态指针，分别表示S和T中当前正待比较的字符位置。

算法的基本思想是：第1趟匹配：从S的第1个字符（序号为0）起和T的第一个字符比较之，如果相等，则继续逐个比较后续字符（i++；j++），否则开始下一趟匹配。

新的一趟匹配：i的初值为上一趟的初值+1 ，j的初值为1，如果比较结果相等，则继续逐个比较后续字符，否则开始下一趟匹配。

依次类推，直至某一趟匹配中，T的每个字符依次和S中的一个连续的字符序列相等，则称匹配成功，否则称匹配不成功。

（原创）详解KMP算法

（原创）详解KMP算法KMP算法应该是每⼀本《数据结构》书都会讲的，算是知名度最⾼的算法之⼀了，但很可惜，我⼤⼆那年压根就没看懂过~~~之后也在很多地⽅也都经常看到讲解KMP算法的⽂章，看久了好像也知道是怎么⼀回事，但总感觉有些地⽅⾃⼰还是没有完全懂明⽩。

这两天花了点时间总结⼀下，有点⼩体会，我希望可以通过我⾃⼰的语⾔来把这个算法的⼀些细节梳理清楚，也算是考验⼀下⾃⼰有真正理解这个算法。

什么是KMP算法：KMP是三位⼤⽜：D.E.Knuth、J.H.Morris和V.R.Pratt同时发现的。

其中第⼀位就是《计算机程序设计艺术》的作者！！KMP算法要解决的问题就是在字符串（也叫主串）中的模式（pattern）定位问题。

说简单点就是我们平时常说的关键字搜索。

模式串就是关键字（接下来称它为P），如果它在⼀个主串（接下来称为T）中出现，就返回它的具体位置，否则返回-1（常⽤⼿段）。

⾸先，对于这个问题有⼀个很单纯的想法：从左到右⼀个个匹配，如果这个过程中有某个字符不匹配，就跳回去，将模式串向右移动⼀位。

这有什么难的？我们可以这样初始化：之后我们只需要⽐较i指针指向的字符和j指针指向的字符是否⼀致。

如果⼀致就都向后移动，如果不⼀致，如下图：A和E不相等，那就把i指针移回第1位（假设下标从0开始），j移动到模式串的第0位，然后⼜重新开始这个步骤：基于这个想法我们可以得到以下的程序：1/**23 * 暴⼒破解法45 * @param ts 主串67 * @param ps 模式串89 * @return如果找到，返回在主串中第⼀个字符出现的下标，否则为-11011*/1213public static int bf(String ts, String ps) {1415char[] t = ts.toCharArray();1617char[] p = ps.toCharArray();1819int i = 0; // 主串的位置2021int j = 0; // 模式串的位置2223while (i < t.length && j < p.length) {2425if (t[i] == p[j]) { // 当两个字符相同，就⽐较下⼀个2627 i++;2829 j++;3031 } else {3233 i = i - j + 1; // ⼀旦不匹配，i后退3435 j = 0; // j归03637 }3839 }4041if (j == p.length) {4243return i - j;4445 } else {4647return -1;4849 }5051 }上⾯的程序是没有问题的，但不够好！（想起我⾼中时候数字⽼师的⼀句话：我不能说你错，只能说你不对~~~）如果是⼈为来寻找的话，肯定不会再把i移动回第1位，因为主串匹配失败的位置前⾯除了第⼀个A之外再也没有A了，我们为什么能知道主串前⾯只有⼀个A？因为我们已经知道前⾯三个字符都是匹配的！（这很重要）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

max{k|0<k<j,且“t0t1…tk-1”=“tj-ktj-k+1…tj-1” }
当此集合非空时
next[j]= -1 0 当j=0时其他情况
t=“abab”对应的next数组如下:
j t[j] next[j] 0 a -1 1 b 0 2 a 0 3 b 1
void GetNext(SqString t,int next[]) { int j,k; j=0;k=-1;next[0]=-1; while (j<t.len-1)
既然如此，回溯到si-j+1开始与t匹配可以不做。那么，回溯到si-j+2 开始与t匹配又怎么样？从上面推理可知，如果 "t0t1…tj-2"≠"t2t3…tj"
仍然有
"t0t1…tj-2"≠"si-j+2si-j+3…si"
这样的比较仍然“失配”。依此类推，直到对于某一个值k，使得： "t0t1…tk-2"≠" tj-k+1tj-k+2…tj-1"
b 3
第 1 次匹配
第 2 次匹配
s=aaabaaaa b t=aaaab
第 3 次匹配
s=aaabaaaa b t=aaaab
第 4 次匹配
s=aaabaaaa b t=aaaab
第 5 次匹配
s=aaabaaaa b t=aaaab
上述定义的next[]在某些情况下尚有缺陷。例如,模式“aaaab”在和主串“aaabaaaab”匹配时, 当i=3,j=3时,s.data[3]≠t.data[3],由next[j]的指示还需进行i=3、j=2,i=3、j=1,i=3、j=0等三次比较。实际上, 因为模式中的第1、2、3个字符和第4个字符都相等, 因此,不需要再和主串中第4个字符相比较,而可以将模式一次向右滑动4个字符的位置直接进行i=4,j=0时的字符比较。
第 1 次匹配 s=a b a c a b a b t=a b a b i=3 j=3 失败
此时不必从i=1(i=i-j+1=1),j=0重新开始第二次匹配。因t0≠t1,s1=t1,必有s1≠t0,又因t0 =t2,s2=t2,所以必有 s2=t0。因此,第二次匹配可直接从i=3,j=1开始。
为此,定义next[j]函数如下:
else v=-1; return v; } /*返回不匹配标志*/
设主串s的长度为n,子串t长度为m。
在 KMP 算法中求 next 数组的时间复杂度为
O(m),在后面的匹配中因主串s的下标不减即不回溯,
比较次数可记为n,所以KMP算法总的时间复杂度为
O(n+m)。
例如,设目标串s=“aaabaaaab”,模式串t=“aaaab”。
4.3.2
KMP算法
KMP算法是D.E.Knuth、J.H.Morris和V.R.Pratt
共同提出的,简称KMP算法。该算法较BF算法有较大改进,主要是消除了主串指针的回溯,从而使算法效率有了某种程度的提高。
所谓真子串是指模式串t存在某个k(0＜k＜j)，使得"t0t1…tk " = " tj-ktj-k+1…tj "成立。
这时，应有 "t0t1…tj-1"="si-jsi-j+1…si-1" (4.1) 如果在模式t中，
"t0t1…tj-1"≠"t1t2…tj"
(4.2)
则回溯到si-j+1 开始与t匹配，必然“失配”，理由很简单：由(4.1)式和(4.2)式综合可知：
"t0t1…tj-1"≠"si-j+1si-j+2…si"
这就是说,若按上述定义得到next[j]=k,而模式中
pj=pk,则为主串中字符si和pj比较不等时,不需要再和pk
进行比较,而直接和pnext[k]进行比较,换句话说,此时的 next[j]应和next[k]相同。为此将next[j]修正为nextval[j]：
比较t.data[j]和t.data[k]，若不等，则 nextval[j]=next[j]; 若相等nextval[j]=nextval[k];
t： t0 t1 … tk-1 tk … tj-1 tj tj+1 … sm-1
说明下一次可直接比较si和tk，这样，我们可以直接把第i趟比较“失配”时的模式t从当前位置直接右滑j-k位。而这里的k即为next[j]。
例如t="abab",由于"t0t1" ="t2t3"(这里k=1,j=3),则存在真子串。设s="abacabab",t="abab",第一次匹配过程如下所示。
else nextval[j]=nextval[k];
int KMPIndex1(SqString s,SqString t) { int nextval[MaxSize],i=0,j=0,v; GetNextval(t,nextval); while (i<s.len && j<t.len) { if (j==-1 || s.data[i]==t.data[j]) { i++;j++; } else j=nextval[j]; /*i,j各增1*/ /*i不变,j后退*/ 修改后的KMP 算法
i=3 j=3,j=nextval[3]=-1 i=9 j=5,返回 9-5=4
失败
第 2 次匹配
s=aaabaaaa b t=aaaab
成功
}
if (j>=t.len) v=i-t.len; /*返回匹配模式串的首字符下标*/ else v=-1; return v; } /*返回不匹配标志*/
j
0
1
2
3
4
t[j] next[j] nextval[j]
第 1 次匹配
a -1 -1
a 0 -1
a 1 -1
a 2 -1
b 3 3
s=aaabaaaa b t=aaaab
例如，t= "abab",
即t0t1＝t2t3 也就是说， “ab”是真子串。真子串就是模式串中隐藏的信息，利用它来提高模式匹配的效率。
一般情况:设主串s="s0s1…sn-1",模式t="t0t1…tm-1", 在进行第i趟匹配时，出现以下情况：
s： s0 s1 … si-j si-j+1 … si-1 si si+1 … sn-1 t： t0 t1 … tj-1 tj tj+1 … sm-1
void GetNextval(SqString t,int nextval[]) { int j=0,k=-1;
nextval[0]=-1;
由模式串t求 while (j<t.len) 出nextval值 { if (k==-1 || t.data[j]==t.data[k]) { j++;k++; (t.data[j]!=t.data[k]) if nextval[j]=k; } else k=nextval[k]; } }
由模式串t 求出 next 值的算法
{ if (k==-1 || t.data[j]==t.data[k])
/*k为-1或比较的字符相等时*/ { } else k=next[k]; j++;k++;
next[j]=k;
}
}
int KMPIndex(SqString s,SqString t) { int next[MaxSize],i=0,j=0,v; GetNext(t,next); KMP算法
while (i<s.len && j<t.len)
{ if (j==-1 || s.data[i]==t.data[j]) { i++;j++; } else j=next[j]; } /*i,j各增1*/ /*i不变,j后退*/
if (j>=t.len) v=i-t.len; /*返回匹配模式串的首字符下标*/
且
"t0t1…tk-1"="tj-ktj-k+1…tj-1“ 才有
"tj-ktj-k+1…tj-1"="si-ksi-k+1…si-1"="t0t1…tk-1"
s： s0 s1 … si-j si-j+1 … si-k si-k+1 … si-1
si si+1 … sn-1
t： t0 t1 … tk-1 tk … tj-1 tj tj+1 … sm-1 t 右滑 j-k 位 s： s0 s1 … si-j si-j+1 … si-k si-k+1 … si-1 si si+1 … sn-1
s的长度为n(n=9),t的长度为m(m=5)。用指针i指示目
标串s的当前比较字符位置,用指针j指示模式串t的当
前比较字符位置。KMP模式匹配过程如下所示。
j
0
1
2
3
4t[j] next[j]a -1a 0
s=aaabaaaa b t=aaaab
a 1
i=3
a 2
失败 j=3,j=next[3]=2 i=3 j=2,j=next[2]=1 i=3 j=1,j=next[1]=0 i=3 j=0,j=next[0]=-1 i=9 j=5,返回 10-5=4 成功失败失败失败

严蔚敏 数据结构 kmp算法详解

KMP算法详解

数据结构——KMP算法

KMP算法详解

KMP算法思想

数据结构与算法(清华大学出版社,严蔚敏)实验讲义

数据结构kmp算法详解

KMP算法详解

KMP算法中next数组的计算方法研究

数据结构教学中KMP算法解析

（原创）详解KMP算法

严蔚敏数据结构 kmp算法详解