基于改进型KMP算法的字符串查找与替换

合集下载

一种改进的KMP算法

例２假设文本Ａ为－ｉａｆｋｓｄＳｄａｇａｓＩｋ，文本Ａ的后半段为：ｄａｇａｓＩｋ．
定义２文本Ａ与模式的一次匹配失败是指当ａ…ａ，＋：…ａ÷，＝ｂ，ｂ：…ｂ一或ａ，ａ，，…ａ“，＝ｂＢ“。ｂｅ。。¨…ｂ，，＋１时，但ａｉ≠ｂ或ａｉ，≠ｂ，，，其中ｔ为文本Ａ中该次匹配模式首端的起始位置，ｓ为文本Ａ中该次匹配模式末端从后往前方向的起始位置．
第４期
俞松，等：～种改进的ＫＭＰ算法
９５
当垒婴＋１≤ｉ７≤Ａ（ｏ）时，Ｑ（ｒ）的求法：由定义３可知歹７＝Ｂ（ｏ）时Ｑ（，．）＝０．
厶
设Ｑ（歹７）＝忌：，则有
ｂＢ（ｏ）…ｂ＾，＋ｌ＝ｂＢ（ｏ＞－Ｉ，＂…·玩，＋１，
（．『７＜是２＜Ｂ（Ｏ）），
（４）
且不存在ｋ：７＜ｋ：满足式（４）．
此时求Ｑ（歹７—１）的值有两种可能：
第４期２００９年７月
华东师范大学学报（自然科学版）
ＪｏｕｒｎａｌｏｆＥａｓｔＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅ）
文章编号：１０００—５６４１（２００９）０４—００９２—０６
一种改进的ＫＭＰ算法
Ｎｏ．４Ｊｕｌｙ２００９
俞松，郑骏，胡文心
（华东师范大学计算中心，上海２０００６２）
表３模式串妯出ｇ嬲的Ｑ（，）值
当型掣＋１≤ｉ７≤Ａ（ｏ）时，Ｂ７ｓｄｓｄａｇａｓ，根据定Ｔａｂ．３Ｑ（ｒ）ｖａｌｕｅｏｆｐａｔｔｅｒｎｓｄｓｄａｇａｓ
厶
ｒ
１
２３４
５
６
７
８
义３计算得到的Ｑ（ｒ）值，其结果参见表３．１函耳—了■广■—了■■１—了—■
由上可知，改进的匹配算法具体步骤如下：

KMP算法（改进的模式匹配算法）——next函数

KMP算法（改进的模式匹配算法）——next函数KMP算法简介KMP算法是在基础的模式匹配算法的基础上进⾏改进得到的算法，改进之处在于：每当匹配过程中出现相⽐较的字符不相等时，不需要回退主串的字符位置指针，⽽是利⽤已经得到的部分匹配结果将模式串向右“滑动”尽可能远的距离，再继续进⾏⽐较。

在KMP算法中，依据模式串的next函数值实现字串的滑动，本随笔介绍next函数值如何求解。

next[ j ]求解将 j-1 对应的串与next[ j-1 ]对应的串进⾏⽐较，若相等，则next[ j ]=next[ j-1 ]+1;若不相等，则将 j-1 对应的串与next[ next[ j-1 ]]对应的串进⾏⽐较，⼀直重复直到相等，若都不相等则为其他情况题1在字符串的KMP模式匹配算法中，需先求解模式串的函数值，期定义如下式所⽰，j表⽰模式串中字符的序号（从1开始）。

若模式串p 为“abaac”，则其next函数值为（）。

解：j=1，由式⼦得出next[1]=0；j=2，由式⼦可知1<k<2，不存在k，所以为其他情况即next[2]=1；j=3，j-1=2 对应的串为b，next[2]=1，对应的串为a，b≠a，那么将与next[next[2]]=0对应的串进⾏⽐较，0没有对应的串，所以为其他情况，也即next[3]=1；j=4，j-1=3 对应的串为a，next[3]=1，对应的串为a，a=a，所以next[4]=next[3]+1=2；j=5，j-1=4 对应的串为a，next[4]=2，对应的串为b，a≠b，那么将与next[next[4]]=1对应的串进⾏⽐较，1对应的串为a，a=a，所以next[5]=next[2]+1=2；综上，next函数值为 01122。

题2在字符串的KMP模式匹配算法中，需先求解模式串的函数值，期定义如下式所⽰，j表⽰模式串中字符的序号（从1开始）。

若模式串p为“tttfttt”，则其next函数值为（）。

KMP算法改进版本介绍

KMP算法改进版本介绍1. 引言KMP算法是一种高效的字符串匹配算法，它在处理文本串与模式串匹配的过程中，通过利用已经得到的匹配信息，避免重复比较已经匹配过的字符。

然而，原始的KMP算法在某些情况下可能会存在性能上的瓶颈，因此改进版本的KMP算法被提出。

本文将介绍改进版本的KMP算法及其相关优化措施。

2. 改进版本的KMP算法原理改进版本的KMP算法在原有的算法基础上进行改进，主要的改进点包括：（1）失配时如何选择跳转的位置；（2）在生成模式串的最大匹配前缀和最大匹配后缀的过程中，如何避免重复计算。

3. 失配时的跳转策略在传统的KMP算法中，当发生失配时，模式串向右移动一位作为下一次比较的起始位置。

而在改进版本的KMP算法中，可以根据已经得到的匹配信息，选择一个更优的跳转位置。

具体策略如下：（1）当某个字符失配时，记录失配位置的前一个字符在模式串中的最右出现位置，记为rightmost。

（2）如果在模式串的rightmost右侧存在与当前失配字符相等的字符，则跳转到该字符所在的位置，这样可以在某种程度上避免不必要的比较。

4. 避免重复计算在生成模式串的最大匹配前缀和最大匹配后缀时，传统的KMP算法要重新比较模式串的前缀和后缀是否匹配。

而在改进版本的KMP算法中，可以利用已经得到的匹配信息，避免重复计算。

具体方法如下：（1）定义一个辅助数组nextval[]，用于保存每个字符对应的最长匹配前缀的下一个字符位置。

（2）在生成nextval[]的过程中，如果当前字符失配，将跳转到其对应的nextval[]值所对应的位置。

这样可以直接跳过已经匹配的前缀，避免重复比较。

5. 改进版本的KMP算法实现改进版本的KMP算法的实现与原始版本类似，只是在失配时的跳转策略以及避免重复计算的方法上有所差异。

具体实现步骤如下：（1）初始化文本串和模式串的指针i和j，表示当前比较的位置。

（2）如果当前字符匹配，则i和j分别向后移动一位。

一种基于kmp算法思想的字符串匹配算法的研究与实现

本栏目责任编辑：唐一东人工智能及识别技术一种基于KMP 算法思想的字符串匹配算法的研究与实现孙娟红（兰州交通大学博文学院，甘肃兰州730101）摘要：KMP 算法在使用中效率很高，并且在失败匹配之后，不必要重新进行内容字符的匹配，降低了匹配的速度和次数,使得效率大大提高。

在本文中，主要是分析了该算法的优点和实现。

关键词：KMP 算法思想；字符；串匹配算法；研究；实现中图分类号：TP311文献标识码：A文章编号：1009-3044(2019)26-0196-02开放科学（资源服务）标识码（OSID ）：当前，我们处于信息化社会，巨大的信息量每天都充斥着人们的生活，不管是在哪个行业和领域中，文本都是承载信息的重要方式，信息的过滤和查找也成了主要的问题。

查找字符串并过滤,如果设计不好那么就使得结果无法满足人们的使用要求。

所以说，高效率的处理过程就显得尤为关键，随着技术的发展逐渐产生了字符串查找和匹配功能。

1BF 算法BF 算法的理论很简单，就是从内容串C 第一个字符起始，到关键字串K 的第一个字符，进行挨个比较,在相等的情况下，进进入第二个字符的比较，之后后移，如果在哪个位置失配,那么就需要对关键字串K 第一个字符和其内容串中的第二个字符再进行匹配和比较，然后类推。

图1匹配过程存在K 为关键字串、C 为内容串，表达式C=“xyxyy ”,K=“xyy ”,在C 中匹配K 。

图1即为整个的匹配的过程。

在图1中，即体现了BF 算法的思想。

BF 算法的思维十分简单和直接，但是也存在很多的不足，例如内容串定位中错误，并且十分容易进行重复的操作。

在失配之后，需要进行二次匹配,在这个过程中，我们需要先采用关键字串第一个字符，将其和内容串第二个字符进行对比，流程可以简化和省略，因为对关键字串进行观察，发现其前边的字符存在不相等性,并且在上轮的对比中，关键字串中的第二个字符于内容串呈现相等的状态，所以说，在关键字串中第一个字符和内容串中第二个字符有着不相等性。

一种基于KMP的高效字符串匹配算法

一
般情况下为Ｏ（ｍ１）（：ｎｍ分别为主串和模式串的长度）最坏的情况下为Ｏｍｎ，（．＋）注ｎｍ和，（）最好的情况下
为Ｏ（ｎ．ｍ＋）
２２Ｋ．ＭＰ算法
Ｋ模式匹配算法正是针对上述算法的不足做了实质性的改进．ＭＰ这个算法首先是由ＤＥＫｕ、．．ｒｓ．ｎｔＪＭｏｒ．ｈＨｉ以及ＶＲＰａ分别设计出来的，．．ｒｔｔ所以该算法被命名为ＫＭＰ算法．其基本思想是：设计一个与模式串ｔ，当匹配过程中出现失配时，利用模式值，将模式串向右“ 滑动” 尽可能远的一段
距离，从而跳过一些不必要的比较，提高模式匹配的效率．：Ｈ对给出的的文本串Ⅱ ０ｎ１模式串Ｐ０ｍ１Ｉ￣，ｔ－，，一坞［，－］，假设在模式匹配的进程中，执行Ｔ．Ｐｊ【和［的匹配检查．ＴｉＰ］则继续检查Ｔｉ１１Ｐｊ１］］若［＝口，］［］［］＋￣＋是否匹配．若
２相关算法分析
串匹配问题实际上就是一种模式匹配问题，即在给定的文本串中找出与模式串匹配的子串的起始位置．最基本的串匹配问题是关键词匹配．所谓关键词匹配，是指给定一个长为ｎ的文本串Ｔ１ｎ和长为ｍ的模式串Ｐ１［，】［，州，找出文本串Ｔ中与模式串所有精确匹配的子串的起始位置．
第３第５期６卷
西南民族大学学报・自然科学版
ＪｕｎｌｆｏｔｗｅｔｉｅｓｔｏｔｎｌｉｓＮａｕａｃｅｃｄｔｎｏｒａｏｕｈｓＵｎｖｒｉｆｒＳｙＮａｉａｉｅ－ｔｒｌｉｎｅＥｉｏｏｔＳｉ

基于改进KMP算法的字符文件子串查找

数据结构实验报告知识范畴：字符串完成日期：2017年4月14日实验题目：基于改进KMP算法的字符文件子串查找实验内容及要求：从键盘输入字符文件名以及子串，用改进KMP算法在字符文件中实现子串查找。

要求程序输出子串的改进nextval数组元素值以及子串在文件中成功匹配的次数（查找失败输出成功匹配次数为0）。

实验目的：掌握子串查找的KMP算法。

数据结构设计简要描述：序言：这是本学期第四个实验，本实验是要求我们将一个文件中的字符串读取出来，并自己从键盘上输入一个字符串来进行匹配，并用kmp算法来进行字符串的匹配查找；数据结构简单设计：本实验主要可分为三大模块，第一，从文件中读取出主串，并将其保存在一个字符数组中；第二，通过我们从键盘上输入的字符串来获得改进的nextval数组，而在改进的nextval数组求值算法中，变量还是跟踪的是next数组的值；第三，利用kmp算法来进行主串（char *s）和模式子串（char *t）的匹配，并求出成功匹配的次数；算法设计简要描述：1,求nextval数组的值，我们将不需要用到next数组就可以直接求出nextval数组的值，使nextval得出示值为-1，即nextval[0] = k = -1;将子串下标j初始化为1，然后通过t[j]和t[k]的值变化来获得nextval数组的值，其中的要点是，k值跟踪的仍然是未改进的next[j]的值；2，利用kmp算法来进行主串和模式子串的匹配，定义一个记录匹配的变量c = 0，主串下标为 i= 0，子串下标j = 0，当主串和子串第一个元素匹配成功后，进行i++和j++操作，都遍历到下一个元素；当进行一次成功匹配时，将子串的下标回溯到初始位置，记录变量c++，此时主串下标已经到达匹配成功的下一个元素，再继续进行匹配，知道主串到达末尾，结束匹配。

输入/输出设计简要描述：1，输入：输入存储主串的文件名，输入子串；2，输出：当输入文件名后，会打印输出主串；当输入子串后，会打印输出nextval数组的值以及匹配成功的次数值c。

基于kmp算法的字符串查找匹配研究

创新论坛科技创新导报 Science and Technology Innovation Herald242DOI：10.16660/ki.1674-098X.2019.23.242基于KMP算法的字符串查找匹配研究①陈天一1 郑闻悦2 邹健2 邱修峰2(1.南京农业大学资源与环境科学学院江苏南京 210095;2.赣南师范大学(黄金校区)数学与计算机学院江西赣州 341000)摘要：目前，有学者提出了一种特殊的符号语言，了解到其文字是由20个字母组成。

目前已获得许多段由该语言写成的文本，但缺少标点符号与空格，导致无法理解其中的含义与规律。

本文针对在不同段由特殊语言组成的文本中搜索在误差允许范围内相同的字母序列片段问题，建立了基于KMP算法的相似字符串搜索匹配算法模型，在特定的多个文本中找出符合题意的子串，依据已知条件自定义模型生成外星语文本段落对该算法进行检验，评判其优缺点并进一步优化分析。

关键词：KMP算法字符串查找匹配主串子串中图分类号：TP31 文献标识码：A 文章编号：1674-098X(2019)08(b)-0242-02①作者简介：陈天一（1996—），男，汉族，江苏南京人，本科在读，研究方向：资源环境。

郑闻悦（1996—），男，汉族，江西赣州人，本科在读，研究方向：数学与计算机。

邹健（1996—），男，汉族，江西赣州人，本科在读，研究方向：数学与计算机。

邱修峰（1996—），男，汉族，江西赣州人，本科在读，研究方向：数学与计算机。

根据语言学家的猜测，在每段文本中都会出现的序列片段很可能具备某种固定的含义。

因此，如何在不同段文本中搜索在误差允许范围内相同的字母序列片段，将对该未知语言的研究提供重要的理论依据。

在不同段文本中搜索相同的字母序列片段可以通过字符串匹配算法来实现。

这里我们基于使用较为普遍且高效的算法模型——KMP算法创建了相似字符串搜索匹配算法。

此算法针对的是已知的字符串序列在文本串中进行定位，而这里的序列片段是未知的。

字符串查找以及ＫＭＰ算法

字符串查找以及ＫＭＰ算法字符串查找和匹配是⼀个很常⽤的功能，⽐如在爬⾍，邮件过滤，⽂本检索和处理⽅⾯经常⽤到。

相对与C，python在字符串的查找⽅⾯有很多内置的库可以供我们使⽤，省去了很多代码⼯作量。

但是我们还是需要了解⼀些常⽤的字符串查找算法的实现原理。

⾸先来看python内置的查找⽅法。

查找⽅法有find,index,rindex,rfind⽅法。

这⾥只介绍下find⽅法。

find⽅法返回的是⼦串出现的⾸位置。

⽐如下⾯的这个，返回的是abc在str中的⾸位置也就是3。

如果没找到将会返回-1str = "dkjabcfkdfjkd198983abcdeefg"print str.find('abc')但是在str中有2个abc，那么如何去查找到第⼆个abc的位置呢。

由于find是会返回查找到的字符串的⾸位置，因此我们可以利⽤这个位置继续往后搜索。

代码如下def str_search_internal():str = "dkjabcfkdfjkd198983abcdeefg"substr='abc'substr_len=len(substr)start=0while start <=len(str):index=str.find('abc',start)if index == -1:return -1else:print indexbegin=index+substr_len #每⼀次查找后就将开始查找的位置往后移动字串的长度if begin <= len(str):index=str.find('abc',begin)print indexelse:return -1start=index+substr_len通过返回的index⽅式就可以不断的往下寻找后⾯匹配的字符串。

前⾯介绍了python内置的查找函数，那么如果我们不⽤这些内置的函数，⾃⼰如何编写查找函数呢。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据结构实验报告
知识范畴：串完成日期：2016年04月6日
实验题目：基于改进型KMP算法的字符串查找与替换
实验内容及要求：
从键盘输入三个字符串s、a、b,在串s中查找子串a，并将串s中的所有a替换为b，输出替换以后的串。

注意：a和b的串长不要求相等；若s中无子串a,输出结果与串s相同。

实验目的：掌握字符串模式匹配的KMP算法。

数据结构设计简要描述：
用char型数组储存串s，a，b。

用int型数组储存模式串a的next数组。

算法设计简要描述：
在串s中查找子串a的起始位置使用了KMP算法。

利用get_nextval函数得到模式串a的nextval数组。

函数replace替换s中的a。

用指向s的指针p先指向s起始地址，利用KMP 算法得到s中第一个a起始位置，然后用b替换a，替换后p指向第一个a起始位置再向后b 的长度，查找第二个a的起始位置，依次类推。

输入/输出设计简要描述：
按照提示：先输入s串，然后输入a串。

如果未找到a，则原样输出s。

如果找到第一个a，输出第一个a的位置，并提示输入b，然后会替换剩下的
所有a，输出替换后的s，并输出替换次数。

编程语言说明：
使用Visual C++编程。

主要代码采用C语言实现；动态存储分配采用C++的new和delete操作符实现；输入与输出采用C++的cin和cout流；程序注释采用C/C++规范。

主要函数说明：
void get_nextval(char *t, int nextval[]); //get_nextval函数
int index_kmp(char *s, char *t, int next[]); //KMP算法
void replace(char *s, char *b, int position, int lena);//替换字符串函数: //b的长度大于a的情况下先将s中a后边的所有字符向后挪动lenb-lena个位置
//b的长度小于a的情况下先将s中a后边的所有字符向前挪动lena-lenb个位置
//然后将a的字符逐个用b中的字符替换
程序测试简要报告：
(1)无a测试
程序输入输出
结论
程序输出结果与期望输出结果相符。

(2)a、b等长度测试
程序输入输出
结论
程序输出结果与期望输出结果相符。

(3)a、b不等长度测试
程序输入输出
结论
程序输出结果与期望输出结果相符。

源程序代码：
#include<iostream>
#include<iomanip>
using namespace std;
void get_nextval(char *t, int nextval[]) {//get_nextval函数
int j = 1, k = -1;
nextval[0] = -1;
while (t[j]) {
if (k == -1 || t[j - 1] == t[k])
if (t[++k] == t[j])
nextval[j++] = nextval[k];
else nextval[j++] = k;
else k = nextval[k];
}
}
int index_kmp(char *s, char *t, int next[]) {//KMP查找函数
int i = 0, j = 0;
while (s[i] && t[j]) {
if (j == -1 || s[i] == t[j]) {
i++; j++;
}
else j = next[j];
}
if (!t[j]) return i - j;
return -1;
}
void replace(char *s, char *b, int position, int lena) {
int i, j, lens = strlen(s), lenb = strlen(b);
if (lenb > lena) {//将a以后的字符串向后挪lenb-lena个位置
for (i = lens + lenb - lena, j =lens; j >= position+lena; i--, j--) s[i] = s[j];
}
else if (lenb < lena) {//将a以后的字符向前挪lenb-lana个位置
for (i = position + lenb, j = position+lena; j <= lens; i++, j++)
s[i] = s[j];
}
i = 0;
while (b[i]) {
s[position++] = b[i++];
}
}
int main() {
char s[40], a[40], b[40], *p;
int next[40], count = 0;
while (1) {
cout <<"Input S:\n"; cin >> s; p = s;
cout <<"Input A:\n"; cin >> a;
get_next(a, next);
while (strlen(p)>=strlen(a)) {//剩余字符串长度小于p时停止查找
int position = index_kmp(p, a, next);
if (position == -1) break;
count++;//count计找到a的次数
if (count == 1) { //找到第一个a时输入b
cout <<"find the first Position:"<< position <<"\nInput B:\n";
cin >> b;
}
replace(p, b, position, strlen(a));
cout << endl<< s << endl;
p += position + strlen(b);//将p定位到position加上a的长度之后，从那之后继续寻找}
if(!count) cout << endl <<"not found:\n"<< s << endl;
else cout <<"\nString a is replaced "<< count <<" times!\n\n";
count = 0;
}
return 0;
}。