两种方法实现KMP算法

合集下载

KMP算法实现及优化方法

KMP算法实现及优化方法KMP算法（Knuth-Morris-Pratt算法）是一种字符串匹配算法，用于在一个主文本字符串S内查找一个模式字符串P的出现位置。

KMP算法利用模式字符串中前缀和后缀的信息来跳过不必要的比较，从而提高查找的效率。

KMP算法的基本思想是，当出现不匹配时，通过已经部分匹配的信息，可以确定一部分字符是匹配的，可以直接跳过这部分已经匹配的字符，继续进行比较。

这个部分匹配的信息，就是模式字符串P自身的前缀和后缀的最长共有元素的长度，也称为前缀函数或部分匹配表。

1.构建部分匹配表：对模式字符串P进行分析，计算出每个位置的最长共有元素的长度，存储在一个部分匹配表中。

2.在主文本字符串S中进行匹配：从主文本字符串的第一个位置开始，逐个字符与模式字符串进行比较，如果字符相等则继续比较下一个字符，如果字符不相等，则根据部分匹配表跳过一部分字符，继续比较，直到找到匹配的位置或者比较结束。

优化KMP算法可以从两方面进行：1.改进部分匹配表的构建：KMP算法中最耗时的部分是部分匹配表的构建，可以对其进行优化。

一种优化方法是使用动态规划思想，利用已计算的部分匹配值来计算新的部分匹配值，从而减少计算量。

2.改进模式字符串的跳过方式：KMP算法中，当在主文本字符串S中比较到一些位置时，如果字符不匹配，则根据部分匹配表来跳过一部分字符。

可以根据具体问题的特点，利用更加有效的跳过方式来提高算法的效率。

一种常见的跳过方式是使用好后缀和坏字符的信息，来决定向右移动的步数。

总结起来，KMP算法是一种高效的字符串匹配算法，通过部分匹配表的构建和优化，可以在O(n+m)的复杂度内完成匹配。

在实际应用中，根据具体问题的特点，可以进一步改进KMP算法来提高效率。

KMP算法以及优化（代码分析以及求解next数组和nextval数组）

KMP算法以及优化（代码分析以及求解next数组和nextval数组）KMP算法以及优化(代码分析以及求解next数组和nextval数组)来了,数据结构及算法的内容来了,这才是我们的专攻,前⾯写的都是开胃⼩菜,本篇⽂章,侧重考研408⽅向,所以保证了你只要看懂了,题⼀定会做,难道这样思想还会不会么?如果只想看next数组以及nextval数组的求解可以直接跳到相应部分,思想总结的很⼲~~⽹上的next数组版本解惑先总结⼀下,⼀般KMP算法的next数组结果有两个版本,我们需要知道为什么会存在这种问题,其实就是前缀和后缀没有匹配的时候next数组为0还是为1,两个版本当然都是对的了,如果next数组为0是的版本,那么对于前缀和后缀的最⼤匹配长度只需要值+1就跟next数组是1的版本⼀样了,其实是因为他们的源代码不⼀样,或者对于模式串的第⼀个下标理解为0或者1,总之这个问题不⽤纠结,懂原理就⾏~~那么此处,我们假定前缀和后缀的最⼤匹配长度为0时,next数组值为1的版本,考研⼀般都是⽤这个版本(如果为0版本,所有的内容-1即可,如你算出next[5]=6,那么-1版本的next[5]就为5,反之亦然)~~其实上⾯的话总结就是⼀句话next[1]=0,j(模式串)数组的第⼀位下标为1,同时,前缀和后缀的最⼤匹配长度+1即为next数组的值,j所代表的的是序号的意思408反⼈类,⼀般数组第⼀位下标为1,关于书本上前⾯链表的学习⼤家就应该有⽬共睹了,书本上好多数组的第⼀位下标为了⽅便我们理解下标为1,想法这样我们更不好理解了,很反⼈类,所以这⾥给出next[1]=0,前缀和后缀的最⼤匹配长度+1的版本讲解前⾔以及问题引出我们先要知道,KMP算法是⽤于字符串匹配的~~例如:⼀个主串"abababcdef"我们想要知道在其中是否包括⼀个模式串"ababc"初代的解决⽅法是,朴素模式匹配算法,也就是我们主串和模式串对⽐,不同主串就往前移⼀位,从下⼀位开始再和模式串对⽐,每次只移动⼀位,这样会很慢,所以就有三位⼤神⼀起搞了个算法,也就是我们现在所称的KMP算法~~代码以及理解源码这⾥给出~~int Index_KMP(SString S,SString T,intt next[]){int i = 1,j = 1;//数组第⼀位下标为1while (i <= S.length && j <= T.length){if (j == 0 || S.ch[i] == T.ch[j]){//数组第⼀位下标为1,0的意思为数组第⼀位的前⾯,此时++1,则指向数组的第⼀位元素++i;++j; //继续⽐较后继字符}elsej = next[j]; //模式串向右移动到第⼏个下标,序号(第⼀位从1开始)}if (j > T.length)return i - T.length; //匹配成功elsereturn 0;}接下来就可以跟我来理解这个代码~~还不会做动图,这⾥就⼿画了~~以上是⼀般情况,那么如何理解j=next[1]=0的时候呢?是的,这就是代码的思路,那么这时我们就知道,核⼼就是要求next数组各个的值,对吧,⼀般也就是考我们next数组的值为多少~~next数组的求解这⾥先需要给出概念,串的前缀以及串的后缀~~串的前缀:包含第⼀个字符,且不包含最后⼀个字符的⼦串串的后缀:包含最后⼀个字符,且不包含第⼀个字符的⼦串当第j个字符匹配失败,由前1~j-1个字符组成的串记为S,则:next[j]=S的最长相等前后缀长度+1与此同时,next[1]=0如,模式串"ababaa"序号J123456模式串a b a b a anext[j]0当第六个字符串匹配失败,那么我们需要在前5个字符组成的串S"ababa"中找最长相等的前后缀长度为多少再+1~~如串S的前缀可以为:"a","ab","aba","abab",前缀只不包括最后⼀位都可串S的后缀可以为:"a","ba","aba","baba",后缀只不包括第⼀位都可所以这⾥最⼤匹配串就是"aba"长度为3,那么我们+1,取4序号J123456模式串a b a b a anext[j]04再⽐如,当第⼆个字符串匹配失败,由前1个字符组成的串S"a"中,我们知道前缀应当没有,后缀应当没有,所以最⼤匹配串应该为0,那么+1就是取1~~其实这⾥我们就能知道⼀个规律了,next[1]⼀定为0(源码所造成),next[2]⼀定为1(必定没有最⼤匹配串造成)~~序号J123456模式串a b a b a anext[j]014再再⽐如,第三个字符串匹配失败,由前两个字符组成的串S"ab"中找最长相等的前后缀长度,之后再+1~~前缀:"a"后缀:"b"所以所以这⾥最⼤匹配串也是没有的长度为0,那么我们+1,取1序号J123456模式串a b a b a anext[j]0114接下来你可以⾃⼰练练4和5的情况~~next[j]011234是不是很简单呢?⾄此,next数组的求法以及kmp代码的理解就ok了~~那么接下来,在了解以上之后,我们想⼀想KMP算法存在的问题~~KMP算法存在的问题如下主串:"abcababaa"模式串:"ababaa"例如这个问题我们很容易能求出next数组序号J123456模式串a b a b a anext[j]011234此时我们是第三个字符串匹配失败,所以我们的next[3]=1,也就是下次就是第⼀个字符"a"和主串中第三个字符"c"对⽐,可是我们刚开始的时候就已经知道模式串的第三个字符"a"和"c"不匹配,那么这⾥不就多了⼀步⽆意义的匹配了么?所以我们就会有kmp算法的⼀个优化了~~KMP算法的优化我们知道,模式串第三个字符"a"不和主串第三个字符"c"不匹配,next数组需要我们的next[3]=1,也就是下次就是第⼀个字符"a"和主串中第三个字符"c"对⽐,之后就是模式串第⼀个字符"a"不和"c"匹配,就是需要变为next[1]=0,那么我们要省去步骤,不就可以直接让next[3]=0么?序号J12345模式串a b a b anext[j]01123nextval[j]00那么怎么省去多余的步骤呢?这就是nextval数组的求法~~nextval的求法以及代码理解先贴出代码for (int j = 2;j <= T.length;j++){if (T.ch[next[j]] == T.ch[j])nextval[j] = nextval[next[j]];elsenextval[j] = next[j];}如序号J123456模式串a b a b a anext[j]011234nextval[j]0⾸先,第⼀次for循环,j=2,当前序号b的next[2]为1,即第⼀个序号所指向的字符a,a!=当前序号b,所以nextval[2]保持不变等于next[2]=1序号J123456模式串a b a b a anext[j]011234nextval[j]01第⼆次for循环,j=3,当前序号a的next[3]为1,即第⼀个序号所指向的字符a,a=当前序号a,所以nextval[3]等于nextval[1]=0序号J123456模式串a b a b a anext[j]011234nextval[j]010第三次for循环,j=4,当前序号b的next[4]为2,即第⼆个序号所指向的字符b,b=当前序号b,所以nextval[4]等于nextval[2]=1序号J123456模式串a b a b a anext[j]011234nextval[j]0101就是这样,你可以练练5和6,这⾥直接给出~~序号J123456模式串a b a b a anext[j]011234nextval[j]010104⾄此nextval数组的求法你也应该会了,那么考研要是考了,那么是不是就等于送分给你呢?⼩练习那么你试着来求⼀下这个模式串的next和nextval数组吧~~next[j]nextval[j]⼩练习的答案序号j12345模式串a a a a b next[j]01234 nextval[j]00004。

kmp算法python代码

kmp算法python代码摘要：1.KMP 算法简介2.KMP 算法的Python 实现3.KMP 算法的应用示例正文：1.KMP 算法简介KMP（Knuth-Morris-Pratt）算法是一种高效的字符串匹配算法，用于在一个主字符串中查找一个子字符串出现的位置。

该算法的关键在于通过预处理子字符串，减少不必要的字符比较，从而提高匹配速度。

2.KMP 算法的Python 实现以下是KMP 算法的Python 实现：```pythondef compute_prefix_function(pattern):m = len(pattern)prefix_function = [0] * (m + 1)prefix_function[0] = 0i, j = 1, 0while i < m:if pattern[i] == pattern[j]:j += 1prefix_function[i] = ji += 1else:if j!= 0:j = prefix_function[j - 1]else:prefix_function[i] = 0i += 1return prefix_functiondef kmp_search(text, pattern):m, n = len(text), len(pattern)prefix_function = compute_prefix_function(pattern) i, j = 0, 0while i < m:if pattern[j] == text[i]:i += 1j += 1if j == n:return i - jelif i < m and pattern[j]!= text[i]:if j!= 0:j = prefix_function[j - 1]else:i += 1return -1if __name__ == "__main__":text = "我国是一个伟大的国家"pattern = "伟大的"result = kmp_search(text, pattern)if result!= -1:print("子字符串"{}" 在主字符串中第{} 位置出现。

kmp算法概念

kmp算法概念KMP算法概念KMP算法是一种字符串匹配算法，它的全称是Knuth-Morris-Pratt 算法。

该算法通过预处理模式串，使得在匹配过程中避免重复比较已经比较过的字符，从而提高了匹配效率。

一、基本思想KMP算法的基本思想是：当模式串与文本串不匹配时，不需要回溯到文本串中已经比较过的位置重新开始匹配，而是利用已知信息跳过这些位置继续匹配。

这个已知信息就是模式串自身的特点。

二、next数组1.定义next数组是KMP算法中最核心的概念之一。

它表示在模式串中当前字符之前的子串中，有多大长度的相同前缀后缀。

2.求解方法通过观察模式串可以发现，在每个位置上出现了相同前缀和后缀。

例如，在模式串“ABCDABD”中，第一个字符“A”没有任何前缀和后缀；第二个字符“B”的前缀为空，后缀为“A”；第三个字符“C”的前缀为“AB”，后缀为“B”；第四个字符“D”的前缀为“ABC”，后缀为“AB”；第五个字符“A”的前缀为“ABCD”，后缀为“ABC”；第六个字符“B”的前缀为“ABCDA”，后缀为“ABCD”；第七个字符“D”的前缀为“ABCDAB”，后缀为“ABCDA”。

根据上述观察结果，可以得到一个求解next数组的方法：（1）next[0]=-1，next[1]=0。

（2）对于i=2,3,...,m-1，求解next[i]。

①如果p[j]=p[next[j]]，则next[i]=next[j]+1。

②如果p[j]≠p[next[j]]，则令j=next[j]，继续比较p[i]和p[j]。

③重复执行步骤①和步骤②，直到找到满足条件的j或者j=-1。

（3）通过上述方法求解出所有的next值。

三、匹配过程在匹配过程中，文本串从左往右依次与模式串进行比较。

如果当前字符匹配成功，那么继续比较下一个字符；否则利用已知信息跳过一些位置继续进行匹配。

具体地：（1）如果当前字符匹配成功，则i和j都加1。

（2）如果当前字符匹配失败，则令j=next[j]。

kmp算法next函数详解

kmp算法next函数详解KMP算法在介绍KMP算法之前，先介绍⼀下BF算法。

⼀.BF算法BF算法是普通的模式匹配算法，BF算法的思想就是将⽬标串S的第⼀个字符与模式串P的第⼀个字符进⾏匹配，若相等，则继续⽐较S的第⼆个字符和P的第⼆个字符；若不相等，则⽐较S的第⼆个字符和P的第⼀个字符，依次⽐较下去，直到得出最后的匹配结果。

举例说明：S: ababcababaP: ababaBF算法匹配的步骤如下i=0 i=1 i=2 i=3 i=4第⼀趟:a babcababa 第⼆趟:a b abcababa 第三趟:ab a bcababa 第四趟:aba b cababa 第五趟:abab c ababaa baba ab aba ab a ba aba b a abab aj=0 j=1 j=2 j=3 j=4(i和j回溯)i=1 i=2 i=3 i=4 i=3第六趟:a b abcababa 第七趟:ab a bcababa 第⼋趟:aba b cababa 第九趟:abab c ababa 第⼗趟:aba b cababaa baba a baba ab aba ab a ba a babaj=0 j=0 j=1 j=2(i和j回溯) j=0i=4 i=5 i=6 i=7 i=8第⼗⼀趟:abab c ababa 第⼗⼆趟:ababc a baba 第⼗三趟:ababca b aba 第⼗四趟:ababcab a ba 第⼗五趟:ababcaba b aa baba a baba ab aba ab a ba aba b aj=0 j=0 j=1 j=2 j=3i=9第⼗六趟:ababcabab aabab aj=4(匹配成功)代码实现:int BFMatch(char*s,char*p){int i,j;i=0;while(i<strlen(s)){j=0;while(s[i]==p[j]&&j<strlen(p)){i++;j++;}if(j==strlen(p))return i-strlen(p);i=i-j+1; //指针i回溯}return-1;}其实在上⾯的匹配过程中，有很多⽐较是多余的。

文本精准匹配检索方法

文本精准匹配检索方法文本精准匹配检索方法是一种常用的信息检索方法，它能够实现对文本信息的快速检索与过滤。

本文将对文本精准匹配检索方法进行介绍，主要内容包括精准匹配原理、算法实现和应用场景等方面。

一、精准匹配原理文本精准匹配是指在大量文本中查找与指定关键词完全一致的文本。

其原理是将关键词与文本进行逐个字符的比较，如果每个字符都完全一致，则匹配成功。

由于是逐个字符比较，因此该方法适用于文本内容较少的情况。

在文本内容较多的情况下，该方法会出现效率低下和计算复杂度高的问题，因此需要采用更高级的文本检索算法来进行优化。

二、算法实现为了实现文本精准匹配，我们需要编写一定的程序算法来对文本进行处理。

下面介绍两种常见的算法实现方法。

1.暴力匹配算法暴力匹配算法是一种最简单而且最直接的文本匹配算法。

它的基本思想是将两个字符串从头开始逐个字符地比较，当两个字符不同时就将比较下一个字符，直到找到匹配的字符串或者比较到其中一个字符串的结束位置。

缺点：该算法的时间复杂度较高，当文本内容较多时，计算复杂度会非常高，因此不适用于大规模文本匹配。

2.KMP算法KMP算法是在暴力匹配算法的基础上进行了优化，它通过预先计算一个跳转表格，来匹配被查找字符串在匹配字符串中出现的位置。

具体实现：假设我们要匹配的文本为t，被匹配的字符串为s。

我们需要维护一个跳转表格next，其中next[i]表示当t[i]和s[j]不匹配时，下一次应该匹配的位置。

当出现不匹配的情况时，我们可以直接跳过一部分字符，而不是从头开始重新匹配。

这样可以有效降低匹配的时间复杂度。

算法具体步骤如下：（1）对被匹配字符串s进行预处理，生成跳转表格next。

（2）从文本t的第一个字符开始，逐个字符地与s中的字符进行比较，如果不相同，则根据跳转表格next中的指示进行跳转，直到找到匹配的位置或者匹配结束。

（3）匹配结束后，我们可以得到匹配的位置或者匹配失败的结果，根据具体的需求进行后续处理。

kmp算法pmt的值

kmp算法pmt的值PMT的值是KMP算法中的一个重要概念，它代表了模式串中每个位置上的最长相同前缀后缀的长度。

在KMP算法中，PMT的值被用来确定当遇到不匹配字符时，模式串应该向右移动的位置，以提高匹配的效率。

KMP算法是一种字符串匹配算法，用于在一个文本串中查找一个模式串的出现位置。

与暴力匹配算法相比，KMP算法具有更高的效率。

PMT的值的计算是KMP算法中的关键步骤之一，下面将详细介绍PMT 的计算方法。

我们需要了解最长相同前缀后缀的概念。

对于一个字符串，它的前缀是指从开头到某个位置的子串，后缀是指从某个位置到末尾的子串。

例如，字符串"abcabc"的前缀有"","a","ab","abc"，后缀有"","c","bc","abc"。

最长相同前缀后缀即是指一个字符串既是它的前缀，又是它的后缀，并且长度最长。

在KMP算法中，我们通过计算模式串的PMT数组来得到每个位置上的最长相同前缀后缀的长度。

具体计算过程如下：1. 初始化PMT数组，将第一个位置的值设为0。

2. 从第二个位置开始，依次计算每个位置上的PMT值。

3. 假设当前位置为i，PMT[i-1]表示前一个位置上的最长相同前缀后缀的长度。

我们需要判断当前位置的字符是否与PMT[i-1]位置上的字符相等。

- 如果相等，那么当前位置上的最长相同前缀后缀的长度就是PMT[i-1]+1。

- 如果不相等，我们可以利用PMT数组来找到一个更短的相同前缀后缀，并继续判断是否相等。

4. 重复步骤3，直到计算完所有位置上的PMT值。

通过上述步骤，我们就可以得到模式串的PMT数组。

在KMP算法中，当遇到不匹配字符时，我们可以利用PMT数组来确定模式串向右移动的位置。

具体操作如下：假设当前文本串的位置为i，模式串的位置为j。

KMP算法详解

KMP算法详解KMP 算法详解KMP 算法是⼀个⼗分⾼效的字符串查找算法，⽬的是在⼀个字符串 s 中，查询 s 是否包含⼦字符串 p，若包含，则返回 p 在 s 中起点的下标。

KMP 算法全称为 Knuth-Morris-Pratt 算法，由 Knuth 和 Pratt 在1974年构思，同年 Morris 也独⽴地设计出该算法，最终由三⼈于1977年联合发表。

举⼀个简单的例⼦，在字符串 s = ababcabababca 中查找⼦字符串 p = abababca，如果暴⼒查找，我们会遍历 s 中的每⼀个字符，若 s[i] = p[0]，则向后查询p.length() 位是否都相等。

这种朴素的暴⼒的算法复杂度为O(m×n)，其中m和n分别是 p 和 s 的长度。

KMP 算法可以⽅便地简化这⼀查询的时间复杂度，达到O(m+n)。

1. PMT 序列PMT 序列是 KMP 算法的核⼼，即 Partial Match Table（部分匹配表）。

举个例⼦：char a b a b a b c aindex01234567PMT00123401PMT 的值是字符串的前缀集合与后缀集合的交集中最长元素的长度。

PMT[0] = 0: 字符串 a 既没有前缀，也没有后缀；PMT[1] = 0: 字符串 ab 前缀集合为 {a}，后缀集合为 {b}，没有交集；PMT[2] = 1: 字符串 aba 前缀集合为 {a, ab}，后缀集合为 {ba, a}，交集为 {a}，交集元素的最长长度为1；PMT[3] = 2: 字符串 abab 前缀集合为 {a, ab, aba}，后缀集合为 {bab, ab, b}，交集为 {ab}，交集元素的最长长度为2；…… 以此类推。

2. 算法主体现在我们已经知道了 PMT 序列的含义，那么假设在 PMT 序列已经给定的情况下，如何加速字符串匹配算法？tar 存储 s 的下标，从 0 开始，若 tar > s.length() - 1，代表匹配失败；pos 存储 p 的下标，从 0 开始，若 s[tar] != p[pos]，则 pos ⾛到下⼀个可能匹配的位置。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

两种方法实现KMP算法
方法一：暴力匹配法
暴力匹配法是KMP算法的一种简单实现方式，其思路是遍历主串和模式串，逐个字符进行比较。

如果匹配失败，则将模式串右移一位，继续与主串进行匹配。

首先，我们需要理解KMP算法中的next数组的含义。

next数组用于记录模式串中出现不匹配时，下一步模式串应该移动到的位置。

具体求解next数组的方法有多种，其中最简单的方法是通过递归实现。

以下是一个使用暴力匹配法实现KMP算法的示例代码：
```python
def kmp(text, pattern):
n = len(text)
m = len(pattern)
next = getNext(pattern)
i=0
j=0
while i < n and j < m:
if text[i] == pattern[j]:
i+=1
j+=1
else:
if j == 0:
i+=1
else:
j = next[j-1] + 1
if j == m:
return i - m
else:
return -1
def getNext(pattern):
n = len(pattern)
next = [-1] * n
for i in range(1, n):
j = next[i-1]
while pattern[i] != pattern[j+1] and j >= 0: j = next[j]
if pattern[i] == pattern[j+1]:
next[i] = j + 1
else:
next[i] = -1
return next
```
在上述代码中，kmp函数接收两个参数text和pattern，分别表示主串和模式串。

函数中先获取模式串的next数组，然后利用while循环进行暴力匹配。

如果匹配成功，返回主串中模式串的起始索引；否则，返回-1
通过该方法实现KMP算法的时间复杂度为O(n*m)，其中n为主串的长度，m为模式串的长度。

方法二：优化方法（KMP算法）
KMP算法通过空间换时间的方式优化了匹配过程，使得时间复杂度为O(n+m)，其中n为主串的长度，m为模式串的长度。

以下是KMP算法的实现代码：
```python
def kmp(text, pattern):
n = len(text)
m = len(pattern)
next = getNext(pattern)
i=0
j=0
while i < n and j < m:
if text[i] == pattern[j]: i+=1
j+=1
else:
if j == 0:
i+=1
else:
j = next[j-1]
if j == m:
return i - m
else:
return -1
def getNext(pattern):
n = len(pattern)
next = [-1] * n
i=0
j=-1
while i < n - 1:
if j == -1 or pattern[i] == pattern[j]:
i+=1
j+=1
next[i] = j
else:
j = next[j]
return next
```
在上述代码中，kmp函数和getNext函数的实现与前面的方法一相同。

不同之处在于，在KMP算法中，模式串移动的位置可以根据next数组直
接获取，无需进行额外的判断。

通过这种优化，KMP算法的时间复杂度得以优化为O(n+m)。

总结：
KMP算法通过next数组记录了模式串的失配情况，从而避免了重复
比较已经匹配过的字符串。

通过对next数组的计算和优化，使得匹配过
程变得更加高效。

以上给出的两种方法分别是通过暴力匹配和KMP算法两
种方式实现的，其中KMP算法的优化方法相对更高效。