kmp算法中模式串的next数组值

合集下载

数据结构第四章考试题库(含答案)

第四章串一、选择题1．下面关于串的的叙述中，哪一个是不正确的（）【北方交通大学 2001 一、5（2分）】A．串是字符的有限序列 B．空串是由空格构成的串C．模式匹配是串的一种重要运算 D．串既可以采用顺序存储，也可以采用链式存储2 若串S1=‘ABCDEFG’, S2=‘9898’ ,S3=‘###’,S4=‘012345’,执行concat(replace(S1,substr(S1,length(S2),length(S3)),S3),substr(S4,index (S2,‘8’),length(S2)))其结果为（）【北方交通大学 1999 一、5 （25/7分）】A．ABC###G0123 B．ABCD###2345 C．ABC###G2345 D．ABC###2345E．ABC###G1234 F．ABCD###1234 G．ABC###012343．设有两个串p和q，其中q是p的子串，求q在p中首次出现的位置的算法称为（）A．求子串 B．联接 C．匹配 D．求串长【北京邮电大学 2000 二、4（20/8分）】【西安电子科技大学 1996 一、1 （2分）】4．已知串S=‘aaab’,其Next数组值为（）。

【西安电子科技大学 1996 一、7 （2分）】A．0123 B．1123 C．1231 D．12115．串‘ababaaababaa’的next数组为（）。

【中山大学 1999 一、7】A．0 B．012121111212 C．0 D．06．字符串‘ababaabab’的nextval 为（）A．(0,1,0,1,04,1,0,1) B．(0,1,0,1,0,2,1,0,1)C．(0,1,0,1,0,0,0,1,1) D．(0,1,0,1,0,1,0,1,1 )【北京邮电大学 1999 一、1（2分）】7．模式串t=‘abcaabbcabcaabdab’，该模式串的next数组的值为（），nextval 数组的值为（）。

第4章串(习题)

第四章串一、选择题1．下面关于串的的叙述中，哪一个是不正确的？（）（2 分）A．串是字符的有限序列 B．空串是由空格构成的串C．模式匹配是串的一种重要运算 D．串既可以采用顺序存储，也可以采用链式存储2 若串S1=‘ABCDEFG’, S2=‘9898’ ,S3=‘###’,S4=‘’,执行concat(replace(S1,substr(S1,length(S2),length(S3)),S3),substr(S4,index(S2,‘8’),length(S2))) 其结果为（）（7 分）A．ABC###G0123 B．ABCD###2345 C．ABC###G2345 D．ABC###2345E．ABC###G1234 F．ABCD###1234 G．ABC###012343．设有两个串p 和q，其中q 是p 的子串，求q 在p 中首次出现的位置的算法称为（）A．求子串 B．联接 C．匹配 D．求串长（2 分）4．已知串S=‘aaab’,其Next 数组值为（）。

（2 分）A．0123 B．1123 C．1231 D．12115．串‘ababaaababaa’的next 数组为（）。

A．9 B．2 C．6 D．456．字符串‘ababaabab’的nextval 为（）A．(0,1,0,1,04,1,0,1) B．(0,1,0,1,0,2,1,0,1)C．(0,1,0,1,0,0,0,1,1) D．(0,1,0,1,0,1,0,1,1 )（2 分）7．模式串t=‘abcaabbcabcaabdab’，该模式串的next 数组的值为（），nextval 数组的值为（）。

A．0 1 1 1 2 2 1 1 1 2 3 4 5 6 7 1 2 B．0 1 1 1 2 1 2 1 1 2 3 4 5 6 1 1 2C．0 1 1 1 0 0 1 3 1 0 1 1 0 0 7 0 1 D．0 1 1 1 2 2 3 1 1 2 3 4 5 6 7 1 2E．0 1 1 0 0 1 1 1 0 1 1 0 0 1 7 0 1 F．0 1 1 0 2 1 3 1 0 1 1 0 2 1 7 0 1（2 分）8．若串S=’software’,其子串的数目是（）。

数据结构教程李春葆课后答案第4章串

8. 采用顺序结构存储串，设计一个实现串通配符匹配的算法 pattern_index()，其中的通配符只有‘？’ ，它可以和任一个字符匹配成功。例如，pattern_index("？re"，"there are") 返回的结果是 2。解：采用 BF 算法的穷举法的思路，只需要增加对‘?’字符的处理功能。对应的算法如下：
void maxsubstr(SqString s,SqString &t) { int maxi=0,maxlen=0,len,i,j,k; i=0; while (i<s.length) //从下标为 i 的字符开始 { j=i+1; //从 i 的下一个位置开始找重复子串 while (j<s.length) { if (s.data[i]==s.data[j]) //找一个子串,其起始下标为 i,长度为 len { len=1; for(k=1;s.data[i+k]==s.data[j+k];k++) len++; if (len>maxlen) //将较大长度者赋给 maxi 与 maxlen { maxi=i; maxlen=len; } j+=len; } else j++; } i++; //继续扫描第 i 字符之后的字符 } t.length=maxlen; //将最长重复子串赋给 t for (i=0;i<maxlen;i++) t.data[i]=s.data[maxi+i]; }
SqString CommChar(SqString s1,SqString s2) { SqString s3; int i,j,k=0; for (i=0;i<s1.length;i++) { for (j=0;j<s2.length;j++) if (s2.data[j]==s1.data[i]) break; if (j<s2.length) //s1.data[i]是公共字符 { s3.data[k]=s1.data[i]; k++; } } s3.length=k; return s3; }

kmp算法计算循环字符串

kmp算法计算循环字符串（最新版）目录1.KMP 算法简介2.循环字符串的概念及特点3.KMP 算法在循环字符串查找中的应用4.KMP 算法的优缺点分析正文一、KMP 算法简介KMP（Knuth-Morris-Pratt）算法是一种高效的字符串匹配算法，用于在一个主字符串中查找一个子字符串出现的位置。

该算法的关键在于通过预处理子字符串，减少不必要的字符比较，从而提高匹配速度。

二、循环字符串的概念及特点循环字符串是指一个字符串在到达结尾后，还能继续从某个位置开始重复出现。

例如，字符串"abab"就是一个循环字符串，因为从第四个字符开始，它将重复"ab"的模式。

三、KMP 算法在循环字符串查找中的应用在处理循环字符串的查找问题时，KMP 算法同样具有较高的效率。

它的主要思路是首先预处理循环字符串，构建一个 next 数组，该数组表示子字符串中任意位置的字符与下一个字符之间的最长前缀与后缀相等的长度。

在实际查找过程中，当某个字符匹配失败时，根据 next 数组的值，可以将主字符串的一部分跳过，从而减少匹配次数。

四、KMP 算法的优缺点分析KMP 算法的优点主要体现在对循环字符串的处理上，其时间复杂度在最坏情况下也能达到 O(n)，相较于朴素的字符串匹配算法 O(mn) 有较大的优势。

此外，KMP 算法还具有较好的可扩展性，可以应用于各种字符串处理场景。

然而，KMP 算法也存在一定的局限性。

首先，它需要预处理子字符串，构建 next 数组，这会消耗一定的额外空间。

其次，对于非循环字符串，KMP 算法的性能提升并不明显，因为在最坏情况下，其时间复杂度仍为O(n)。

总之，KMP 算法在处理循环字符串查找问题时表现出较高的效率，是一种值得推荐的字符串匹配算法。

串(习题)

第四章串一、选择题1．下面关于串的的叙述中，哪一个是不正确的（）（2 分）A．串是字符的有限序列B．空串是由空格构成的串C．模式匹配是串的一种重要运算D．串既可以采用顺序存储，也可以采用链式存储2 若串S=‘ABCDEFG’, S2=‘9898’,S3=‘###’,S4=‘012345’,执行concat(replace(S1,substr(S1,length(S2),length(S3)),S3),substr(S4,index(S2,‘8’),length(S2))) 其结果为（）（7 分）A．ABC###G0123 B．ABCD###2345 C．ABC###G2345 D．ABC###2345E．ABC###G1234 F．ABCD###1234 G．ABC###012343．设有两个串p 和q，其中q 是p 的子串，求q 在p 中首次出现的位置的算法称为（）A．求子串B．联接C．匹配D．求串长（2 分）4．已知串S=‘aaab’,其Next 数组值为（）。

（2 分）A．0123 B．1123 C．1231 D．12115．串‘ababaaababaa’的next 数组为（）。

A．0 B．012121111212 C．0 D．06．字符串‘ababaabab’的nextval 为（）A．(0,1,0,1,04,1,0,1) B．(0,1,0,1,0,2,1,0,1)C．(0,1,0,1,0,0,0,1,1) D．(0,1,0,1,0,1,0,1,1 )（2 分）7．模式串t=‘abcaabbcabcaabdab’，该模式串的next 数组的值为（），nextval 数组的值为（）。

串的模式匹配算法

串的模式匹配算法字符串模式匹配是计算机科学中一种常用的算法。

它是一种检索字符串中特定模式的技术，可以用来在字符串中查找相应的模式，进而完成相应的任务。

字符串模式匹配的基本思想是，用一个模式串pattern去匹配另一个主串text，如果在text中找到和pattern完全匹配的子串，则该子串就是pattern的匹配串。

字符串模式匹配的过程就是在text中搜索所有可能的子串，然后比较它们是否和pattern完全匹配。

字符串模式匹配的算法有很多，其中著名的有暴力匹配算法、KMP算法、BM算法和Sunday算法等。

暴力匹配算法是最简单也是最常用的字符串模式匹配算法，其思想是从主串的某一位置开始，依次比较pattern中每一个字符，如果某个字符不匹配，则从主串的下一位置重新开始匹配。

KMP算法（Knuth-Morris-Pratt算法）是一种更为高效的字符串模式匹配算法，它的特点是利用了已匹配过的字符的信息，使搜索更加有效。

它的实现思想是，在pattern中先建立一个next数组，next数组的值代表pattern中每个字符前面的字符串的最大公共前缀和最大公共后缀的长度，这样可以在主串和模式串匹配失败时，利用next数组跳转到更有可能匹配成功的位置继续搜索，从而提高字符串模式匹配的效率。

BM算法（Boyer-Moore算法）也是一种高效的字符串模式匹配算法，它的实现思想是利用主串中每个字符最后出现的位置信息，以及模式串中每个字符最右出现的位置信息来跳转搜索，从而减少不必要的比较次数，提高搜索效率。

Sunday算法是一种简单而高效的字符串模式匹配算法，它的实现思想是，在主串中搜索时，每次从pattern的最右边开始比较，如果不匹配，则根据主串中下一个字符在pattern中出现的位置，将pattern整体向右移动相应位数，继续比较，这样可以减少不必要的比较次数，提高算法的效率。

字符串模式匹配算法的应用非常广泛，它可以用来查找文本中的关键字，检查一个字符串是否以另一个字符串开头或结尾，查找文本中的模式，查找拼写错误，检查字符串中是否包含特定的字符等。

BF算法与KMP算法

BF算法与KMP算法BF(Brute Force)算法是普通的模式匹配算法，BF算法的思想就是将⽬标串S的第⼀个字符与模式串T的第⼀个字符进⾏匹配，若相等，则继续⽐较S的第⼆个字符和 T的第⼆个字符；若不相等，则⽐较S的第⼆个字符和T的第⼀个字符，依次⽐较下去，直到得出最后的匹配结果。

BF算法实现：1int BF(char S[],char T[],int pos)2 {//c从第pos位开始搜索匹配3int i=pos,j=0;4while(S[i+j]!='\0'&&T[j]!='\0')5 {6if(S[i+j]==T[j])7 j++;8else9 {10 i++;11 j=0;12 }13 }14if(T[j]=='\0')15return i+1;16else17return -1;18 }BF算法⽐较直接，是⼀种蛮⼒算法，该算法最坏情况下要进⾏M*(N-M+1)次⽐较，为O(M*N)，下⾯来看⼀个效率⾮常⾼的字符串匹配算KMP算法完成的任务是：给定两个字符串S和T，长度分别为n和m，判断f是否在S中出现，如果出现则返回出现的位置。

常规⽅法是遍历KMP算法思想:实例1优化的地⽅：如果我们知道模式中a和后⾯的是不相等的，那么第⼀次⽐较后，发现后⾯的的4个字符均对应相等，可见a下次匹配的位置实例2由于abc 与后⾯的abc相等，可以直接得到红⾊的部分。

⽽且根据前⼀次⽐较的结果，abc就不需要⽐较了，现在只需从f-a处开始⽐较即可。

说明主串对应位置i的回溯是不必要的。

要变化的是模式串中j的位置（j不⼀定是从1开始的，⽐如第⼆个例⼦）j的变化取决于模式串的前后缀的相似度，例2中abc和abc（靠近x的），前缀为abc，j=4开始执⾏。

下⾯我们来看看Next()数组：定义：（1）next[0]= -1 意义：任何串的第⼀个字符的模式值规定为-1。

数据结构与算法题库(附参考答案)

数据结构与算法题库（附参考答案）一、单选题（共86题，每题1分，共86分）1.在快速排序的一趟划分过程中，当遇到与基准数相等的元素时，如果左右指针都不停止移动，那么当所有元素都相等时，算法的时间复杂度是多少？A、O(NlogN)B、O(N)C、O(N2)D、O(logN)正确答案：C2.一棵有 1001 个结点的完全二叉树，其叶子结点数为▁▁▁▁▁ 。

A、254B、250C、501D、500正确答案：C3.对于一个具有N个顶点的无向图，若采用邻接矩阵表示，则该矩阵的大小是：A、(N−1)2B、NC、N2D、N−1正确答案：C4.在有n（>1）个元素的最大堆（大根堆）中，最小元的数组下标可以是：A、⌊n/2⌋−1B、⌊n/2⌋+2C、1D、⌊n/2⌋正确答案：B5.一棵非空二叉树，若先序遍历与中序遍历的序列相同，则该二叉树▁▁▁▁▁ 。

A、所有结点均无左孩子B、所有结点均无右孩子C、只有一个叶子结点D、为任意二叉树正确答案：A6.度量结果集相关性时，如果准确率很高而召回率很低，则说明：A、大部分检索出的文件都是相关的，但还有很多相关文件没有被检索出来B、大部分相关文件被检索到，但基准数据集不够大C、大部分检索出的文件都是相关的，但基准数据集不够大D、大部分相关文件被检索到，但很多不相关的文件也在检索结果里正确答案：A7.若某表最常用的操作是在最后一个结点之后插入一个结点或删除最后一个结点。

则采用哪种存储方式最节省运算时间？A、单循环链表B、带头结点的双循环链表C、单链表D、双链表正确答案：B8.设数组 S[ ]={93, 946, 372, 9, 146, 151, 301, 485, 236, 327, 43, 892}，采用最低位优先（LSD）基数排序将 S 排列成升序序列。

第1 趟分配、收集后，元素 372 之前、之后紧邻的元素分别是：A、43，892B、236，301C、301，892D、485，301正确答案：C9.在快速排序的一趟划分过程中，当遇到与基准数相等的元素时，如果左指针停止移动，而右指针在同样情况下却不停止移动，那么当所有元素都相等时，算法的时间复杂度是多少？A、O(NlogN)B、O(N2)C、O(N)D、O(logN)正确答案：B10.在快速排序的一趟划分过程中，当遇到与基准数相等的元素时，如果左右指针都会停止移动，那么当所有元素都相等时，算法的时间复杂度是多少？A、O(NlogN)B、O(N)C、O(logN)D、O(N2)正确答案：A11.如果AVL树的深度为6（空树的深度定义为−1），则此树最少有多少个结点？A、12B、20C、33D、64正确答案：C12.已知指针ha和hb分别是两个单链表的头指针，下列算法将这两个链表首尾相连在一起，并形成一个循环链表（即ha的最后一个结点链接hb 的第一个结点，hb的最后一个结点指向ha），返回ha作为该循环链表的头指针。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

kmp算法中模式串的next数组值
模式串的next数组值是一个与模式串长度相同的数组，用于
指示当匹配失败时应该回退的位置。

计算next数组的方法如下：
1. 首先将next[0]赋值为-1，表示第一个位置没有可回退的位置。

2. 然后，从第二个位置开始，依次计算next[i]的值。

3. 假设已经计算出next[i-1]的值，即前i-1个字符的最长公共
前后缀的长度为next[i-1]。

4. 如果模式串的第i个字符与前i-1个字符的最长公共前后缀
的下一个字符相等，则next[i] = next[i-1] + 1。

5. 如果模式串的第i个字符与前i-1个字符的最长公共前后缀
的下一个字符不相等，则需要不断回退，直到找到一个位置j，使得模式串的前j个字符与前i-1个字符的前j个字符相等。

6. 因此，需要将next[i-1]的值作为起点，依次向左比较，找到
这个位置j。

7. 如果找到了这个位置j，则next[i] = next[j] + 1，表示下一次
匹配失败时应该回退到这个位置。

8. 如果找不到这个位置j，说明前i个字符没有任何公共前后缀，此时next[i] = 0。

根据上述方法，可以依次计算出模式串的next数组的值。