kmp算法的设计策略

合集下载

KMP算法(原创)PPT教学课件

？这时如何求next[j+1]呢
2020/12/10
11
转化法
式1的结论可这样描述：何时的k使得
pk=pj，就用此时的k代入式1。
而现在的k是pk!=pj，因此必须要换成另外一个“k”，并设它为k2，以使得pk2=pj。
问题又出来了： k2如何得来？
如图： 0 j-k+1
j
P’
2/10
2
(2) Brute-Force算法的实现
int String::Find Substr(const String& t, int start)const {
int i = start, j = 0, v; while(i < size && j < t.size) {
if(str[i] == t.str[j]) {i++;j++;} else {i = i-j+1;j = 0;} } if(j >= t.size-1) v = i-t.size+1; else v = -1; return v; }
由(1)(2)两式便可得：
‘p0p1……pk-1’= ‘pj-kpj-k+1……pj-1’ (3) (3)式的结论可如下描述：
在模式p中，前k个字符与第j个字符之前的k个字符相同。
2020/12/10
7
设next[j]表示：当模式中第j个字符与正文中相应字符“失配”时，在模式中重新和正文中该字符进行比较的字符的位置。
利用next数组进行模式匹配示例：
2020/12/10
9
如何预先求得next数组值
首先要明确一点： next数组的求值只与模式p有关，而与具体的正文s无关。

KMP算法以及优化（代码分析以及求解next数组和nextval数组）

KMP算法以及优化（代码分析以及求解next数组和nextval数组）KMP算法以及优化(代码分析以及求解next数组和nextval数组)来了,数据结构及算法的内容来了,这才是我们的专攻,前⾯写的都是开胃⼩菜,本篇⽂章,侧重考研408⽅向,所以保证了你只要看懂了,题⼀定会做,难道这样思想还会不会么?如果只想看next数组以及nextval数组的求解可以直接跳到相应部分,思想总结的很⼲~~⽹上的next数组版本解惑先总结⼀下,⼀般KMP算法的next数组结果有两个版本,我们需要知道为什么会存在这种问题,其实就是前缀和后缀没有匹配的时候next数组为0还是为1,两个版本当然都是对的了,如果next数组为0是的版本,那么对于前缀和后缀的最⼤匹配长度只需要值+1就跟next数组是1的版本⼀样了,其实是因为他们的源代码不⼀样,或者对于模式串的第⼀个下标理解为0或者1,总之这个问题不⽤纠结,懂原理就⾏~~那么此处,我们假定前缀和后缀的最⼤匹配长度为0时,next数组值为1的版本,考研⼀般都是⽤这个版本(如果为0版本,所有的内容-1即可,如你算出next[5]=6,那么-1版本的next[5]就为5,反之亦然)~~其实上⾯的话总结就是⼀句话next[1]=0,j(模式串)数组的第⼀位下标为1,同时,前缀和后缀的最⼤匹配长度+1即为next数组的值,j所代表的的是序号的意思408反⼈类,⼀般数组第⼀位下标为1,关于书本上前⾯链表的学习⼤家就应该有⽬共睹了,书本上好多数组的第⼀位下标为了⽅便我们理解下标为1,想法这样我们更不好理解了,很反⼈类,所以这⾥给出next[1]=0,前缀和后缀的最⼤匹配长度+1的版本讲解前⾔以及问题引出我们先要知道,KMP算法是⽤于字符串匹配的~~例如:⼀个主串"abababcdef"我们想要知道在其中是否包括⼀个模式串"ababc"初代的解决⽅法是,朴素模式匹配算法,也就是我们主串和模式串对⽐,不同主串就往前移⼀位,从下⼀位开始再和模式串对⽐,每次只移动⼀位,这样会很慢,所以就有三位⼤神⼀起搞了个算法,也就是我们现在所称的KMP算法~~代码以及理解源码这⾥给出~~int Index_KMP(SString S,SString T,intt next[]){int i = 1,j = 1;//数组第⼀位下标为1while (i <= S.length && j <= T.length){if (j == 0 || S.ch[i] == T.ch[j]){//数组第⼀位下标为1,0的意思为数组第⼀位的前⾯,此时++1,则指向数组的第⼀位元素++i;++j; //继续⽐较后继字符}elsej = next[j]; //模式串向右移动到第⼏个下标,序号(第⼀位从1开始)}if (j > T.length)return i - T.length; //匹配成功elsereturn 0;}接下来就可以跟我来理解这个代码~~还不会做动图,这⾥就⼿画了~~以上是⼀般情况,那么如何理解j=next[1]=0的时候呢?是的,这就是代码的思路,那么这时我们就知道,核⼼就是要求next数组各个的值,对吧,⼀般也就是考我们next数组的值为多少~~next数组的求解这⾥先需要给出概念,串的前缀以及串的后缀~~串的前缀:包含第⼀个字符,且不包含最后⼀个字符的⼦串串的后缀:包含最后⼀个字符,且不包含第⼀个字符的⼦串当第j个字符匹配失败,由前1~j-1个字符组成的串记为S,则:next[j]=S的最长相等前后缀长度+1与此同时,next[1]=0如,模式串"ababaa"序号J123456模式串a b a b a anext[j]0当第六个字符串匹配失败,那么我们需要在前5个字符组成的串S"ababa"中找最长相等的前后缀长度为多少再+1~~如串S的前缀可以为:"a","ab","aba","abab",前缀只不包括最后⼀位都可串S的后缀可以为:"a","ba","aba","baba",后缀只不包括第⼀位都可所以这⾥最⼤匹配串就是"aba"长度为3,那么我们+1,取4序号J123456模式串a b a b a anext[j]04再⽐如,当第⼆个字符串匹配失败,由前1个字符组成的串S"a"中,我们知道前缀应当没有,后缀应当没有,所以最⼤匹配串应该为0,那么+1就是取1~~其实这⾥我们就能知道⼀个规律了,next[1]⼀定为0(源码所造成),next[2]⼀定为1(必定没有最⼤匹配串造成)~~序号J123456模式串a b a b a anext[j]014再再⽐如,第三个字符串匹配失败,由前两个字符组成的串S"ab"中找最长相等的前后缀长度,之后再+1~~前缀:"a"后缀:"b"所以所以这⾥最⼤匹配串也是没有的长度为0,那么我们+1,取1序号J123456模式串a b a b a anext[j]0114接下来你可以⾃⼰练练4和5的情况~~next[j]011234是不是很简单呢?⾄此,next数组的求法以及kmp代码的理解就ok了~~那么接下来,在了解以上之后,我们想⼀想KMP算法存在的问题~~KMP算法存在的问题如下主串:"abcababaa"模式串:"ababaa"例如这个问题我们很容易能求出next数组序号J123456模式串a b a b a anext[j]011234此时我们是第三个字符串匹配失败,所以我们的next[3]=1,也就是下次就是第⼀个字符"a"和主串中第三个字符"c"对⽐,可是我们刚开始的时候就已经知道模式串的第三个字符"a"和"c"不匹配,那么这⾥不就多了⼀步⽆意义的匹配了么?所以我们就会有kmp算法的⼀个优化了~~KMP算法的优化我们知道,模式串第三个字符"a"不和主串第三个字符"c"不匹配,next数组需要我们的next[3]=1,也就是下次就是第⼀个字符"a"和主串中第三个字符"c"对⽐,之后就是模式串第⼀个字符"a"不和"c"匹配,就是需要变为next[1]=0,那么我们要省去步骤,不就可以直接让next[3]=0么?序号J12345模式串a b a b anext[j]01123nextval[j]00那么怎么省去多余的步骤呢?这就是nextval数组的求法~~nextval的求法以及代码理解先贴出代码for (int j = 2;j <= T.length;j++){if (T.ch[next[j]] == T.ch[j])nextval[j] = nextval[next[j]];elsenextval[j] = next[j];}如序号J123456模式串a b a b a anext[j]011234nextval[j]0⾸先,第⼀次for循环,j=2,当前序号b的next[2]为1,即第⼀个序号所指向的字符a,a!=当前序号b,所以nextval[2]保持不变等于next[2]=1序号J123456模式串a b a b a anext[j]011234nextval[j]01第⼆次for循环,j=3,当前序号a的next[3]为1,即第⼀个序号所指向的字符a,a=当前序号a,所以nextval[3]等于nextval[1]=0序号J123456模式串a b a b a anext[j]011234nextval[j]010第三次for循环,j=4,当前序号b的next[4]为2,即第⼆个序号所指向的字符b,b=当前序号b,所以nextval[4]等于nextval[2]=1序号J123456模式串a b a b a anext[j]011234nextval[j]0101就是这样,你可以练练5和6,这⾥直接给出~~序号J123456模式串a b a b a anext[j]011234nextval[j]010104⾄此nextval数组的求法你也应该会了,那么考研要是考了,那么是不是就等于送分给你呢?⼩练习那么你试着来求⼀下这个模式串的next和nextval数组吧~~next[j]nextval[j]⼩练习的答案序号j12345模式串a a a a b next[j]01234 nextval[j]00004。

kmp算法概念

kmp算法概念KMP算法概念KMP算法是一种字符串匹配算法，它的全称是Knuth-Morris-Pratt 算法。

该算法通过预处理模式串，使得在匹配过程中避免重复比较已经比较过的字符，从而提高了匹配效率。

一、基本思想KMP算法的基本思想是：当模式串与文本串不匹配时，不需要回溯到文本串中已经比较过的位置重新开始匹配，而是利用已知信息跳过这些位置继续匹配。

这个已知信息就是模式串自身的特点。

二、next数组1.定义next数组是KMP算法中最核心的概念之一。

它表示在模式串中当前字符之前的子串中，有多大长度的相同前缀后缀。

2.求解方法通过观察模式串可以发现，在每个位置上出现了相同前缀和后缀。

例如，在模式串“ABCDABD”中，第一个字符“A”没有任何前缀和后缀；第二个字符“B”的前缀为空，后缀为“A”；第三个字符“C”的前缀为“AB”，后缀为“B”；第四个字符“D”的前缀为“ABC”，后缀为“AB”；第五个字符“A”的前缀为“ABCD”，后缀为“ABC”；第六个字符“B”的前缀为“ABCDA”，后缀为“ABCD”；第七个字符“D”的前缀为“ABCDAB”，后缀为“ABCDA”。

根据上述观察结果，可以得到一个求解next数组的方法：（1）next[0]=-1，next[1]=0。

（2）对于i=2,3,...,m-1，求解next[i]。

①如果p[j]=p[next[j]]，则next[i]=next[j]+1。

②如果p[j]≠p[next[j]]，则令j=next[j]，继续比较p[i]和p[j]。

③重复执行步骤①和步骤②，直到找到满足条件的j或者j=-1。

（3）通过上述方法求解出所有的next值。

三、匹配过程在匹配过程中，文本串从左往右依次与模式串进行比较。

如果当前字符匹配成功，那么继续比较下一个字符；否则利用已知信息跳过一些位置继续进行匹配。

具体地：（1）如果当前字符匹配成功，则i和j都加1。

（2）如果当前字符匹配失败，则令j=next[j]。

KMP算法（改进的模式匹配算法）——next函数

KMP算法（改进的模式匹配算法）——next函数KMP算法简介KMP算法是在基础的模式匹配算法的基础上进⾏改进得到的算法，改进之处在于：每当匹配过程中出现相⽐较的字符不相等时，不需要回退主串的字符位置指针，⽽是利⽤已经得到的部分匹配结果将模式串向右“滑动”尽可能远的距离，再继续进⾏⽐较。

在KMP算法中，依据模式串的next函数值实现字串的滑动，本随笔介绍next函数值如何求解。

next[ j ]求解将 j-1 对应的串与next[ j-1 ]对应的串进⾏⽐较，若相等，则next[ j ]=next[ j-1 ]+1;若不相等，则将 j-1 对应的串与next[ next[ j-1 ]]对应的串进⾏⽐较，⼀直重复直到相等，若都不相等则为其他情况题1在字符串的KMP模式匹配算法中，需先求解模式串的函数值，期定义如下式所⽰，j表⽰模式串中字符的序号（从1开始）。

若模式串p 为“abaac”，则其next函数值为（）。

解：j=1，由式⼦得出next[1]=0；j=2，由式⼦可知1<k<2，不存在k，所以为其他情况即next[2]=1；j=3，j-1=2 对应的串为b，next[2]=1，对应的串为a，b≠a，那么将与next[next[2]]=0对应的串进⾏⽐较，0没有对应的串，所以为其他情况，也即next[3]=1；j=4，j-1=3 对应的串为a，next[3]=1，对应的串为a，a=a，所以next[4]=next[3]+1=2；j=5，j-1=4 对应的串为a，next[4]=2，对应的串为b，a≠b，那么将与next[next[4]]=1对应的串进⾏⽐较，1对应的串为a，a=a，所以next[5]=next[2]+1=2；综上，next函数值为 01122。

题2在字符串的KMP模式匹配算法中，需先求解模式串的函数值，期定义如下式所⽰，j表⽰模式串中字符的序号（从1开始）。

若模式串p为“tttfttt”，则其next函数值为（）。

KMP算法详解

KMP算法详解KMP 算法详解KMP 算法是⼀个⼗分⾼效的字符串查找算法，⽬的是在⼀个字符串 s 中，查询 s 是否包含⼦字符串 p，若包含，则返回 p 在 s 中起点的下标。

KMP 算法全称为 Knuth-Morris-Pratt 算法，由 Knuth 和 Pratt 在1974年构思，同年 Morris 也独⽴地设计出该算法，最终由三⼈于1977年联合发表。

举⼀个简单的例⼦，在字符串 s = ababcabababca 中查找⼦字符串 p = abababca，如果暴⼒查找，我们会遍历 s 中的每⼀个字符，若 s[i] = p[0]，则向后查询p.length() 位是否都相等。

这种朴素的暴⼒的算法复杂度为O(m×n)，其中m和n分别是 p 和 s 的长度。

KMP 算法可以⽅便地简化这⼀查询的时间复杂度，达到O(m+n)。

1. PMT 序列PMT 序列是 KMP 算法的核⼼，即 Partial Match Table（部分匹配表）。

举个例⼦：char a b a b a b c aindex01234567PMT00123401PMT 的值是字符串的前缀集合与后缀集合的交集中最长元素的长度。

PMT[0] = 0: 字符串 a 既没有前缀，也没有后缀；PMT[1] = 0: 字符串 ab 前缀集合为 {a}，后缀集合为 {b}，没有交集；PMT[2] = 1: 字符串 aba 前缀集合为 {a, ab}，后缀集合为 {ba, a}，交集为 {a}，交集元素的最长长度为1；PMT[3] = 2: 字符串 abab 前缀集合为 {a, ab, aba}，后缀集合为 {bab, ab, b}，交集为 {ab}，交集元素的最长长度为2；…… 以此类推。

2. 算法主体现在我们已经知道了 PMT 序列的含义，那么假设在 PMT 序列已经给定的情况下，如何加速字符串匹配算法？tar 存储 s 的下标，从 0 开始，若 tar > s.length() - 1，代表匹配失败；pos 存储 p 的下标，从 0 开始，若 s[tar] != p[pos]，则 pos ⾛到下⼀个可能匹配的位置。

kmp 压力

KMP算法简介什么是KMP算法KMP算法（Knuth-Morris-Pratt算法）是一种用于字符串匹配的算法，用于在一个主串中查找一个模式串的出现位置。

它的特点是在匹配失败时，不回溯主串的指针，而是通过利用已经匹配过的信息，将模式串尽量地向后移动，从而提高匹配效率。

KMP算法的原理KMP算法的核心思想是利用模式串自身的特点，通过预处理模式串，构建一个部分匹配表（Partial Match Table），从而在匹配过程中可以根据已匹配的信息来决定下一步的匹配位置。

部分匹配表部分匹配表是一个与模式串对应的数组，用于存储模式串在每个位置上的最长相同前缀后缀的长度。

例如，对于模式串”ABCDABD”，其部分匹配表为：位置部分匹配值0 01 02 03 04 15 26 0KMP算法的匹配过程KMP算法的匹配过程可以简述为以下几个步骤：1.预处理模式串，构建部分匹配表；2.在主串中从左到右逐个字符进行匹配；3.如果当前字符匹配成功，则继续比较下一个字符；4.如果当前字符匹配失败，则根据部分匹配表，将模式串向右移动一定的距离，再次进行匹配；5.重复步骤3和4，直到模式串匹配完毕或者主串匹配完毕。

KMP算法的优势相较于朴素的字符串匹配算法，KMP算法具有以下优势：1.减少了不必要的字符比较次数，提高了匹配效率；2.通过预处理模式串，可以在匹配过程中根据已匹配的信息决定下一步的匹配位置，避免了回溯主串的指针。

KMP算法的应用KMP算法在字符串匹配中有着广泛的应用，例如：1.字符串查找：在一个文本中查找一个子串的出现位置；2.字符串替换：将一个文本中的某个子串替换为另一个字符串；3.DNA序列匹配：在生物信息学中，用于比对DNA序列的相似性。

KMP算法的压力测试为了验证KMP算法的效率和稳定性，我们进行了一系列的压力测试。

测试环境•操作系统：Windows 10•处理器：****************************•内存：16GB测试方法我们使用不同长度的主串和模式串进行匹配，记录下KMP算法的执行时间，并与朴素的字符串匹配算法进行对比。

KMP模式匹配算法

KMP模式匹配算法KMP算法是一种字符串匹配算法，用于在一个主串中查找一个模式串的出现位置。

该算法的核心思想是通过预处理模式串，构建一个部分匹配表，从而在匹配过程中尽量减少不必要的比较。

KMP算法的实现步骤如下：1.构建部分匹配表部分匹配表是一个数组，记录了模式串中每个位置的最长相等前后缀长度。

从模式串的第二个字符开始，依次计算每个位置的最长相等前后缀长度。

具体算法如下：-初始化部分匹配表的第一个位置为0，第二个位置为1- 从第三个位置开始，假设当前位置为i，则先找到i - 1位置的最长相等前后缀长度记为len，然后比较模式串中i位置的字符和模式串中len位置的字符是否相等。

- 如果相等，则i位置的最长相等前后缀长度为len + 1- 如果不相等，则继续判断len的最长相等前后缀长度，直到len为0或者找到相等的字符为止。

2.开始匹配在主串中从前往后依次查找模式串的出现位置。

设置两个指针i和j，分别指向主串和模式串的当前位置。

具体算法如下：-当主串和模式串的当前字符相等时，继续比较下一个字符，即i和j分别向后移动一个位置。

-当主串和模式串的当前字符不相等时，根据部分匹配表确定模式串指针j的下一个位置，即找到模式串中与主串当前字符相等的位置。

如果找到了相等的位置，则将j移动到相等位置的下一个位置，即j=部分匹配表[j]；如果没有找到相等的位置，则将i移动到下一个位置，即i=i+13.检查匹配结果如果模式串指针j移动到了模式串的末尾，则说明匹配成功，返回主串中模式串的起始位置；如果主串指针i移动到了主串的末尾，则说明匹配失败，没有找到模式串。

KMP算法的时间复杂度为O(m+n)，其中m为主串的长度，n为模式串的长度。

通过预处理模式串，KMP算法避免了在匹配过程中重复比较已经匹配过的字符，提高了匹配的效率。

总结：KMP算法通过构建部分匹配表，实现了在字符串匹配过程中快速定位模式串的位置，减少了不必要的比较操作。

字符串匹配算法

字符串匹配算法字符串匹配算法是计算机科学中重要的算法之一，用于在一个字符串中查找特定的子串。

在实际应用中，字符串匹配算法被广泛地应用于文本搜索、数据处理和模式识别等领域。

本文将介绍常见的字符串匹配算法，包括暴力匹配算法、KMP算法和Boyer-Moore算法。

1. 暴力匹配算法暴力匹配算法，也称为朴素匹配算法，是最简单的字符串匹配算法之一。

它的思想是从主串的第一个字符开始，逐个与子串进行比较，直到找到匹配或者遍历完整个主串。

具体实现时，可以使用两个指针分别指向主串和子串的第一个字符，然后循环比较两个指针所指向的字符。

如果字符相等，则继续比较下一个字符；如果字符不相等，则移动主串的指针到下一个位置，再重新开始比较。

暴力匹配算法的时间复杂度为O(mn)，其中m为主串长度，n为子串长度。

由于需要逐个比较字符，效率较低，尤其在处理大规模文本时。

2. KMP算法KMP算法（Knuth-Morris-Pratt算法）是一种高效的字符串匹配算法，可以在O(m+n)的时间复杂度内完成匹配。

该算法利用了子串内部的特点，避免了不必要的字符比较。

KMP算法的核心思想是构建一个部分匹配表，用于记录子串中每个位置的最长可匹配前缀和后缀的长度。

构建部分匹配表的过程可以在预处理阶段完成，时间复杂度为O(n)。

具体实现时，通过匹配过程中的前后指针的移动，根据部分匹配表和主串的字符进行比较。

如果字符匹配，则同时向后移动两个指针；如果字符不匹配，则根据部分匹配表的信息，移动子串的指针到指定位置，继续进行匹配。

KMP算法的优势在于避免了不必要的比较操作，提高了匹配效率。

它在文本搜索、模式识别等领域得到广泛应用。

3. Boyer-Moore算法Boyer-Moore算法是一种基于字符比较和移动的字符串匹配算法，具有较高的效率。

该算法先从子串的末尾开始与主串进行比较，然后根据比较结果选择合适的移动策略。

Boyer-Moore算法结合了两种不同的启发式策略，分别是坏字符规则和好后缀规则。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

kmp算法的设计策略
KMP算法是一种经典的字符串匹配算法，在许多应用场合都有着广泛的应用。

该算法采用了一种特殊的设计策略，可以在时间复杂度为O(n+m)的情况下，高效地实现字符串匹配功能。

其设计策略主要包括以下几个方面：
1. 构建next数组：next数组是KMP算法中关键的数据结构，用于记录模式串中每个位置对应的最长公共前后缀长度。

构建next 数组的方法是通过对模式串的前缀和后缀进行比较，找出最长的公共前后缀，然后将其长度存储在next数组中。

这个过程可以使用递归或迭代的方法实现。

2. 利用next数组加速匹配过程：在匹配的过程中，KMP算法通过比较模式串和文本串的字符来确定是否匹配成功。

如果匹配失败，则根据next数组的值来调整模式串的位置，以便减少重复比较的次数。

这种方式可以大大提高算法的效率，减少了不必要的匹配操作。

3. 优化next数组的构建：为了进一步提高KMP算法的效率，可以对next数组的构建过程进行一些优化。

具体的方法有：使用动态规划来构建next数组、对next数组进行预处理、利用位运算来加速next数组的计算等。

4. 处理特殊情况：在实际应用中，经常会遇到一些特殊的情况，比如模式串和文本串中含有通配符、模式串中存在重复的字符等。

在这些情况下，KMP算法需要采用不同的策略来进行匹配，以便保证算法的正确性和效率。

总之，KMP算法的设计策略是一种非常巧妙的思路，通过利用数据结构和算法的优化技巧，实现了高效的字符串匹配功能。

在实际应用中，我们可以根据具体的情况选择不同的算法策略，以便更好地满足需求。