第5周串第2讲-串的模式匹配
数据结构串串的基本概念串的存储结构与实现串的模式匹配

t.ch[i]=s2.ch[i-s1.length]; }
串删除
void strdelete(Hstring &s,int pos,int len) {
if(pos<1||pos>s.length-len+1||len<0||len>s.length){ cout<<"删除位置不合法"<<endl; return;
int flag=0; int i=0,j=1; if(s1[0]+s2[0]<=MAXSTRLEN) {
for(i=1;i<=s1[0];i++) t[i]=s1[i];
for(i=s1[0]+1;i<=s1[0]+s2[0];i++) t[i]=s2[j++];
t[0]=s1[0]+s2[0]; flag=1; //未截断 }
strempty(s) 初始条件:s为一个串 操作结果:若s为空串,则返回1
strcopy(&t,s) 初始条件:s为一个串 操作结果:把串s复制给t
strncpy(&sub,s,pos,len) 初始条件:s为一个串,pos为起始位置, 1≤pos≤strlength(s)-1,len≥0 操作结果:用sub返回串s的第pos个字符开⑩长度为len的子串
例:模式串t=“abcac”和主串s=“ababcabcaccabbc”匹配过程
第三二一 趟 a b a b c a b c a c c a b b c i=112734568901
串的模式匹配算法

串串(String)又叫做字符串,是一种特殊的线性表的结构,表中每一个元素仅由一个字符组成。
随着计算机的发展,串在文字编辑、词法扫描、符号处理以及定理证明等诸多领域已经得到了越来越广泛的应用。
第一节串的定义和表示1、串的逻辑结构定义串是由零个到任意多个字符组成的一个字符序列。
一般记为:S=’ a1a2a3……a n’(n>=0)其中S为串名,序列a1a2a3……a n为串值,n称为串的长度,我们将n=0的串称为空串(null string)。
串中任意一段连续的字符组成的子序列我们称之为该串的子串,字符在序列中的序号称为该字符在串中的位置。
在描述中,为了区分空串和空格串(s=‘’),我们一般采用来表示空串。
2、串的基本操作串一般包含以下几种基本的常用操作:1、length(S),求S串的长度。
2、delete(S,I,L),将S串从第I位开始删除L位。
3、insert(S,I,T),在S的第I位之前插入串T。
4、str(N,S),将数字N转化为串S。
5、val(S,N,K),将串S转化为数字N;K的作用是当S中含有不为数字的字符时,K记录下其位置,并且S没有被转化为N。
3、串的储存结构一般我们采用以下两种方式保存一个串:1、字符串类型,描述为:const n=串的最大长度type strtype=string[n]这里由于tp的限制,n只能为[1..255]。
在fp或者delphi中,我们还可以使用另外一种类型,描述为:const n=串的最大长度type strtype=qstring[n]这里的n就没有限制了,只要空间允许,开多大都可以。
2、数组来保存,描述为:const n=串的最大长度type strtype=records:array[1..n] of char;len:0..n;end;第二节模式匹配问题与一般的线性表不同,我们一般将串看成一个整体,它有一种特殊的操作——模式匹配。
串的模式匹配问题实验总结(用C实现)

串的模式匹配问题实验总结(用C实现)第一篇:串的模式匹配问题实验总结(用C实现)串的模式匹配问题实验总结1实验题目:实现Index(S,T,pos)函数。
其中,Index(S,T,pos)为串T在串S的第pos个字符后第一次出现的位置。
2实验目的:熟练掌握串模式匹配算法。
3实验方法:分别用朴素模式匹配和KMP快速模式匹配来实现串的模式匹配问题。
具体方法如下:朴素模式匹配:输入两个字符串,主串S和子串T,从S串的第pos个位置开始与T的第一个位置比较,若不同执行i=i-j+2;j=1两个语句;若相同,则执行语句++i;++j;一直比较完毕为止,若S中有与T相同的部分则返回主串(S字符串)和子串(T字符串)相匹配时第一次出现的位置,若没有就返回0。
KMP快速模式匹配:构造函数get_next(char *T,int *next),求出主串S串中各个字符的next值,然后在Index_KMP(char *S,char *T,int pos)函数中调用get_next(char *T,int *next)函数并调用next值,从S串的第pos 位置开始与T的第一个位置进行比较,若两者相等或j位置的字符next值等于0,则进行语句++i;++j;即一直向下进行。
否则,执行语句j=A[j];直到比较完毕为止。
若S中有与T相同的部分则返回主串(S字符串)和子串(T字符串)相匹配时第一次出现的位置,若没有就返回04实验过程与结果:(1)、选择1功能“输入主串、子串和匹配起始位置”,输入主串S:asdfghjkl, 输入子串T:gh,输入pos的值为:2。
选择2功能“朴素的模式匹配算法”,输出结果为 5;选择3功能“KMP快速模式匹配算法”,输出结果为 5;选择0功能,退出程序。
截图如下:(2)、选择1功能“输入主串、子串和匹配起始位置”,输入主串S:asdfghjkl, 输入子串T:wp, 输入pos的值为:2。
模式匹配算法的原理及应用

2.模式匹配算法的改进—KMP算法
2.3主程序
int kmpindex ( SString s, SString t ) { int next [ Maxlen ],i=1,j=1,v; getnext ( t,next ); while (i<= s.len && j <= t.len ) { if (j==0 || s.date [i] == t.date [j]) { i++; j++; } else j = next [j]; //避免多余比较,匹配串指针回退到next[j]的位置 } if ( j > t.len ) v = i - t.len; // 若找到,返回主串的匹配首址 else v=-1; //若没找,返回-1 reture v; } 时间复杂度位O(m)
第一趟(详细过程) ababcabcacbab abcac
ababcabcacbab abcac
ababcabcacbab abcac 遇到不匹配的地方时指针回朔,每次移动一位
1.朴素的模式匹配算法
第二趟
ababcabcacbab abcac ababcabcacbab abcac ababcabcacbab abcac ababcabcacbab abcac ababcabcacbab abcac_
KMP算法的C#源代码
# include <stdio.h> # include <string.h> //kmp algorithm //getNext -------求模式串t[ ]的next[ ]---即滑动位置数组 int * getNext( int t[ ], int nextVal[ ] ) { int i = 1,j = 0; nextVal[1] = 0; while( i < t[0] ) { if ( j == 0 || t[i] == t[j] ) { i++;j++; if ( t[i] != t[j] ) nextVal[i] = j; else nextVal[i] = nextVal[j]; } else j = nextVal[j]; } return nextVal; }
串的模式匹配算法

串的模式匹配算法字符串模式匹配是计算机科学中一种常用的算法。
它是一种检索字符串中特定模式的技术,可以用来在字符串中查找相应的模式,进而完成相应的任务。
字符串模式匹配的基本思想是,用一个模式串pattern去匹配另一个主串text,如果在text中找到和pattern完全匹配的子串,则该子串就是pattern的匹配串。
字符串模式匹配的过程就是在text中搜索所有可能的子串,然后比较它们是否和pattern完全匹配。
字符串模式匹配的算法有很多,其中著名的有暴力匹配算法、KMP算法、BM算法和Sunday算法等。
暴力匹配算法是最简单也是最常用的字符串模式匹配算法,其思想是从主串的某一位置开始,依次比较pattern中每一个字符,如果某个字符不匹配,则从主串的下一位置重新开始匹配。
KMP算法(Knuth-Morris-Pratt算法)是一种更为高效的字符串模式匹配算法,它的特点是利用了已匹配过的字符的信息,使搜索更加有效。
它的实现思想是,在pattern中先建立一个next数组,next数组的值代表pattern中每个字符前面的字符串的最大公共前缀和最大公共后缀的长度,这样可以在主串和模式串匹配失败时,利用next数组跳转到更有可能匹配成功的位置继续搜索,从而提高字符串模式匹配的效率。
BM算法(Boyer-Moore算法)也是一种高效的字符串模式匹配算法,它的实现思想是利用主串中每个字符最后出现的位置信息,以及模式串中每个字符最右出现的位置信息来跳转搜索,从而减少不必要的比较次数,提高搜索效率。
Sunday算法是一种简单而高效的字符串模式匹配算法,它的实现思想是,在主串中搜索时,每次从pattern的最右边开始比较,如果不匹配,则根据主串中下一个字符在pattern中出现的位置,将pattern整体向右移动相应位数,继续比较,这样可以减少不必要的比较次数,提高算法的效率。
字符串模式匹配算法的应用非常广泛,它可以用来查找文本中的关键字,检查一个字符串是否以另一个字符串开头或结尾,查找文本中的模式,查找拼写错误,检查字符串中是否包含特定的字符等。
第5章 串

【例5-8】子串定位 例 IndexStr ("abcdebda","bc")=2 " "" " IndexStr ("abcdebda","ba")= 0 " "" " 6. 串插入 InsStr (s,t,i) 操作条件: , 存在 操作条件:串s,t存在 操作结果:将串 插入到串 的第i个字符前 的串值发 插入到串s 个字符前, 操作结果:将串t插入到串 的第 个字符前,s的串值发 生改变. 生改变. 7. 串删除 DelStr(s,i,len) 操作条件: 存在 操作条件:串s存在 操作结果:删除串 中第i个字符起长度为 的子串, 个字符起长度为len的子串 操作结果:删除串s 中第 个字符起长度为 的子串,s 的串值改变. 的串值改变.
5-1-2 串的输入与输出 1.字符串的输入 . 语言中, 在C语言中,字符串的输入有两种方法: 语言中 字符串的输入有两种方法: (1)使用 )使用scanf () 函数 使用scanf () 函数时,输入格式中要设置"%s", 函数时,输入格式中要设置" ", 使用 再加上字符数组名称. 再加上字符数组名称. 【例5 - 2 】 char str[10]; printf(" printf("Input your str: "); scanf("%s" scanf("%s",str); 使用 使用scanf ()方式输入时,字符串中不能含有空格. 方式输入时, 方式输入时 字符串中不能含有空格. 在C++中还可以用输入流对象cin . C++中还可以用输入流对象 中还可以用输入流对象cin
字符串匹配问题的算法步骤

字符串匹配问题的算法步骤字符串匹配是计算机科学中常见的问题,主要用于确定一个字符串是否包含另一个字符串。
解决这个问题的算法可以分为暴力匹配算法、Knuth-Morris-Pratt(KMP)算法和Boyer-Moore(BM)算法等。
暴力匹配算法是最简单的一种方法。
它的基本思想是从主串的第一个字符开始,依次和模式串的每个字符进行比较,直到找到一个字符不匹配为止。
如果找到了不匹配的字符,则将主串的指针后移一位,重新开始匹配。
如果匹配成功,模式串的指针向后移一位,主串的指针也向后移一位,继续匹配。
这个过程一直进行下去,直到模式串的指针到达模式串的末尾,或者找到了一个匹配的子串。
尽管暴力匹配算法很简单,但是它的时间复杂度较高,为O(m*n),其中m是主串的长度,n是模式串的长度。
当主串和模式串很长时,暴力匹配算法的效率就会很低。
为了提高字符串匹配的效率,有很多其他的算法被提出。
其中比较著名的是KMP算法和BM算法。
KMP算法的核心思想是,当发生不匹配的情况时,不需要回溯主串的指针,而是通过已经匹配的部分字符的信息,将模式串的指针移动到一个新的位置,从而避免了不必要的比较。
具体来说,KMP算法在匹配的过程中,通过建立一个部分匹配表(Partial Match Table),来记录模式串中每个位置的最长前缀后缀的长度。
当发生不匹配的情况时,根据部分匹配表的信息,可以将模式串的指针直接移动到下一个可能匹配的位置。
BM算法是一种基于启发式的匹配算法,它的核心思想是从模式串的尾部开始匹配,并根据已经匹配的部分字符的信息,跳跃式地移动模式串的指针。
具体来说,BM算法分别构建了坏字符规则和好后缀规则。
坏字符规则用于处理主串中与模式串不匹配的字符,找到最右边的该字符在模式串中的位置,并移动模式串的指针到对齐该字符。
好后缀规则用于处理主串中与模式串匹配的部分,找到最右边的该部分在模式串中的位置,并移动模式串的指针到对齐该部分。
计算机基础知识:串的基本运算——子串定位

计算机基础知识:串的基本运算——子串定位【导语】在事业单位考试中,计算机专业知识的复习向来是考生复习备考阶段的一大重点,其中中公事业单位考试网为计算机基础知识的复习为考生提供知识点梳理,帮助考生备考!串定位运算也称串的模式匹配。
所谓模式匹配,就是判断某个串是否是另一个已知串的子串。
如果是其子串,则给出该子串的起始位置。
如果不是,则给出不是的信息(-1)。
设有一母串s和一子串s1,判断母串s中是否包含子串s1。
其判断的基本方法是: 从母串s中的第一个字符开始,按s1子串的长度s1.len,与s1子串中的字符依次对应比较。
若不匹配,则再从s串中的第二个字符开始,仍按s1子串的长度s1.len,与s1子串中的字符依次对应比较。
如此反复进行比较。
直到匹配成功或者母串s中剩余的字符少于s1的长度为止。
若匹配成功,则返回s1串在s串中的位置。
若匹配不成功,则返回函数值-1。
【更多相关考试备考资料和最新公告等请点击山西事业单位考试网查看!】(/shanxisheng/)int match(STRING s, STRING s1) /*子串定位运算*/{ int i,j,k;i=0;while(i<=s.len-s1.len) /*i为s串中字符的位置*/{/*该循环执行到s串中剩余长度不够比较时为止*/j=i; /*j用作临时计数变量*/k=0; /*用k控制比较的长度小于s1.len*/while((k{ j=j+1;k=k+1;}if(k==s1.len) /*比较成功,返回i的位置*/return(i);else /*比较不成功,从s串中下一个字符继续比较*/i=i+1;}return(-1); /*比较结束时,未找到匹配字符串,返回-1*/}以上是中公事业单位考试网为考生梳理计算机基础知识点,供大家学习识记! 相关推荐:山西事业单位近期考试汇总。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如,设目标串s=“aaaaab”,模式串t=“aaab”。s的长度为n (n=6),t的长度为m(m=4)。BF算法的匹配过程如下。
i
s: a a a a a b
t a a a b 匹配失败:
:
i=i-j+1=1 (回退)
j
j=0 (从头开始)
i=1,j=0
i
s aaaaab
t:: a a a b
开头的k个字符 后面的k个字符
next[j]=
MAX{ k | 0<k<j,且“t0t1…tk-1” = “tj-ktj-k+1…tj-1”}
当此集合非空时
-1
当j=0时
0
其他情况
t=“aaab”对应的next数组如下:
j
0
1
t[j]
a
a
next[j]
-1
0
2
3
a
b
1
2
t0=t1="a"t0t1=t1t2="aa"
匹配失败: i=i-j+1=2(回退)
j
j=0(从头开始)
i=2,j=0
i
s a a aaa b t:: a a a b
j
匹配成功:
i=6,j=4
返回i-t.length=2
对应的BF算法如下:
int index(SqString s,SqString t)
{ int i=0, j=0;
while (i<s.length && j<t.length)
模式串t存在某个k(0<k<j),使得以下成立:
“t0t1…tk
”
-1
=
“ tj-ktj-k+1…tj-1 ”
开头的k个字符
t[j]前面的k个字符
01234
例如,t= “a b a b c” 考虑t[4]='c'
有t0t1= t2t3 = "ab" k=2 所以next[4] = k = 2。
归纳起来,定义next[j]数组如下:
next[j]的含义
(1)next[j]=k表示什么信息?
说明模式串t[j]之前有k个字符已成功匹配,下一趟应从t[k]开始匹
配。 01 23
s: a a a b
aaab
t: a a b
next[2]=1
aab
(2)next[j]=-1表示什么信息?
说明模式串t[j]之前没有任何用于加速匹配的信息,下一趟应从t的开 头即j++ j=0开始匹配。
{ j++; k++; next[j]=k;
} else k=next[k]; } }
KMP算法:
int KMPIndex(SqString s,SqString t)
{ int next[MaxSize], i=0, j=0;
GetNext(t,next);
while (i<s.length && j<t.length)
01 23 4
3
4
a
b
2
3
失败:
i=3 j=3,j=next[3]=2
j
0
1
2
t[j]
a
a
a
next[j]
-1
0
1
01 2 34 5678
s: a a a b a a a a b
i=3
j=2
t: a a a a b
01 23 4
3
4
a
b
2
3
失败:
i=3 j=2,j=next[2]=1
j
0
1
2
t[j]
{
if (j==-1 || s.data[i]==t.data[j])
{ i++;
j++;
//i、j各增1
}
else j=next[j];
//i不变,j后退
}
没有if有(j用>=信t.息len或g两th个) 字符相等时,继续比较后面的字符 elsereturn(i-t.length主);串位置不变,子//返串回重新匹定配位模(式右串移的)首字符下标
a
a
a
next[j]
-1
0
1
01 2 34 5678
s: a a a b a a a a b
i=3
j=1
t:
aaaab
01 23 4
3
4
a
b
2
3
失败:
i=3 j=1,j=next[1]=0
j
0
1
2
t[j]
a
a
a
next[j]
-1
0
1
01 2 34 5678
s: a a a b a a a a b
i=3
j=0
t:
aaaab
01 23 4
3
4
a
b
2
3
失败:
i=3 j=0,j=next[0]=-1
j
0
1
2
t[j]
a
a
a
next[j]
-1
0
1
因为j=1: i++;
j++;
01 2 34 5678
s: a a a b a a a a b
t:
aaaab
01 23 4
3
4
a
b
2
3
成功: 返回4
j
0
1
2
3
t[j]
//返回匹配的第一个字符的下标
else
return(-1);
//模式匹配不成功
}
BF算法分析:
算法在字符比较不相等,需要回溯(即i=i-j+1):即退到s中 的下一个字符开始进行继续匹配。 最好情况下的时间复杂度为O(m)。 最坏情况下的时间复杂度为O(n×m)。 平均的时间复杂度为O(n×m)。
nextval[0]=-1 当t[j]=t[next[j]]时: nextval[j]=nextval[next[j]] 否则: nextval[j]=next[j]
用nextval取代next,得到改进的KMP算法。
使用改进后的KMP算法示例:
j t[j] nextval[j]
0
1
2
3
4
a
a
a
a
开始匹配的字符 下次开始匹配的字符 0 1 2 34 5
s: a a a a a b
t: a a a b
从t中发现:b前面有2个字符和开头的2个字符相同
用一个数组next保存:next[3]=2
下次匹配的字符:s[3]和t[next[3]]即t[2]
next[j]是指t[j]字符前有多少个字符与t开头的字符相同。
return(-1);
//返回不匹配标志
}
KMP算法分析
设串s的长度为n,串t长度为m。 在KMP算法中求next数组的时间复杂度为O(m),在后面的匹 配中因主串s的下标不减即不回溯,比较次数可记为n,所以KMP 算法平均时间复杂度为O(n+m)。 最坏的时间复杂度为O(n × m)。
【例4-3】 已知字符串S为“abaabaabacacaabaabcc”,模式
目标串s
是子串吗?
模式串t
模式匹配
成功是指在目标串s中找到一个模式串t t是s的子串,返回t在s中的 位置。 不成功则指目标串s中不存在模式串t t不是s的子串,返回-1。
4.4.1 Brute-Force算法
Brute-Force简称为BF算法,亦称简单匹配算法。采用穷举的 思路。
s: a a a a b c d t: a ab bac cab bc c
是不必要的
i=3
i=3
j=3
j=-1
将next改为nextval:
j
0
t[j]
a
next[j]
-1
nextval[j]
-1
1
2
a
a
0
1
-1
-1
next[1]=0
t[1]=t[next[1]]=t[0]='a' ∴ nextval[1]=nextval[0]=-1
3
4
a
b
2
3
-1
3
t[4]='b' ≠ t[next[4]]='a' ∴ nextval[4]=next[4]
串t为“abaabc”,采用KMP算法进行匹配,第一次出现“失 配”(s[i] != t[j])时,i=j=5,则下次开始匹配时,i和j的值分别 是。
A.i=1,j=0 B.i=5,j=0 C.i=5,j=2 D.i=6,j=2
说明:本题为2015年全国考研题
j
0
1
2
3
4
5
t[j]
a
baab
c
next[j]
如t=“abcd”,next[0]=next[1]=next[2]=next[3]=-1。
由模式串t求next值的算法:
void GetNext(SqString t,int next[]) { int j, k;
j=0; k=-1; next[0]=-1; while (j<t.length-1) { if (k==-1 || t.data[j]==t.data[k])
{ if (s.data[i]==t.data[j])