6 第四章字符串匹配PPT课件

合集下载

KMP算法(原创)PPT教学课件

？这时如何求next[j+1]呢
2020/12/10
11
转化法
式1的结论可这样描述：何时的k使得
pk=pj，就用此时的k代入式1。
而现在的k是pk!=pj，因此必须要换成另外一个“k”，并设它为k2，以使得pk2=pj。
问题又出来了： k2如何得来？
如图： 0 j-k+1
j
P’
2/10
2
(2) Brute-Force算法的实现
int String::Find Substr(const String& t, int start)const {
int i = start, j = 0, v; while(i < size && j < t.size) {
if(str[i] == t.str[j]) {i++;j++;} else {i = i-j+1;j = 0;} } if(j >= t.size-1) v = i-t.size+1; else v = -1; return v; }
由(1)(2)两式便可得：
‘p0p1……pk-1’= ‘pj-kpj-k+1……pj-1’ (3) (3)式的结论可如下描述：
在模式p中，前k个字符与第j个字符之前的k个字符相同。
2020/12/10
7
设next[j]表示：当模式中第j个字符与正文中相应字符“失配”时，在模式中重新和正文中该字符进行比较的字符的位置。
利用next数组进行模式匹配示例：
2020/12/10
9
如何预先求得next数组值
首先要明确一点： next数组的求值只与模式p有关，而与具体的正文s无关。

《字符型数据》课件

在此添加您的文本16字
总结词：不支持非英文字符
在此添加您的文本16字
详细描述：ASCII码只能表示基本的英文字符，无法表示其他语言（如中文）的字符。
Unicode码
总结词
统一编码标准
详细描述
Unicode码是一个统一的字符编码标准，它使用16位二进制数表示一个字符，总共可以表示65536个不同的字符。
解决方案
采用正则表达式等方法进行数据清洗，去除特定格式的无效字符。对于重复数据，可以采用去重算法进行去重处理。
预防措施
在数据采集阶段，应尽可能保证数据的准确性和完整性。在数据处理阶段，应定期进行数据清洗，确保数据的准确性。
THANKS
感谢观看
解决方案
确保在处理数据时使用正确的字符编码，如UTF-8，以避免乱码的产生。对于已经出现乱码的数据，可以采用编码转换的方式进
行修复。
预防措施
在数据采集、存储和处理的各个环节中，都要注意字符编码的设置和检查，确保数据的正确显示
。
编码不一致问题
编码不一致问题
在多平台、多软件之间交换数据时，由于编码方式的不同，可能会导致数据出现乱码或其他异常。
字符型数据的特点
01
02Leabharlann 0304可读性强
字符型数据可以直接阅读，方便人们理解其含义。
处理方式简单
对字符型数据进行处理（如查找、替换、排序等）相对简单
。
占用空间较小
相对于数值型数据，字符型数据占用的存储空间较小。
灵活性高
字符型数据可以表示任意文本信息，包括文章、邮件、网页
等。
02
字符型数据的编码
字符型数据的应用
文本处理

实验04：串应用KMP算法PPT课件

在生物信息学中的应用
在生物信息学中，KMP算法被广泛应用于基因序列的比对和拼接，以及蛋白质序列的匹配和比对。
通过构建基因序列或蛋白质序列的索引表，KMP算法可以在O(n+m)的时间复杂度内完成序列的比对和拼接，提高了比对和拼接的准确性和效率。
KMP算法在生物信息学中的应用有助于深入了解基因和蛋白质的结构和功能，为生物医学研究和疾病诊断提供了有力支持。
06 实验总结与展望
KMP算法的优缺点
优点
高效：KMP算法在匹配失败时能跳过尽可能多的字符，减少比较次数，从
而提高匹配效率。
适用范围广：KMP算法适用于各种模式串匹配问题，不受模式串长度的限制。
缺点
计算量大：KMP算法需要计算和存储部分匹配表，对于较长的模式串，计算量较大。
不适合处理大量数据：KMP算法在处理大量数据时可能会占用较多内存，导致性能下降。
匹配失败的处理
当模式串中的某个字符与主串中的对应字符不匹配时，模式串向右滑动，与主串的下一个字符重新对齐，继续比较
next[ j]表示当模式串中第j个字符与主串中的对应字符不匹配时，模式串需要向右滑动的位置。
next数组的构建
next数组的作用
在匹配过程中，通过next数组可以快速确定模式串需要滑动到哪个位置，从而提高了匹配效率。
通过已知的next值，递推计算出next 数组中其他位置的值。
KMP算法的时间复杂度
01
02
03
04
时间复杂度分析
KMP算法的时间复杂度取决于模式串在主串中出现的次数以及每次匹配所花费的时间。
最佳情况
当模式串在主串中连续出现时，KMP算法的时间复杂度为

数据结构-第4章串

真子串是指不包含自身的所有子串。
4.1 串的类型定义
子串的序号：将子串在主串中首次出现时的该子串的首字符对应在主串中的序号，称为子串在主串中的序号（或位置）。【例】 A=“abcdefbbcd”，B=“bcd”，B在A中的序号为2。特别地，空串是任意串的子串，任意串是其自身的子串。
4.1.2 串的抽象数据类型定义
//查找ab子串
if (p->data==‘ a’ && p->next->data==‘b’)
{ p->data=‘x’; p->next->data=‘z’;
q=(LinkStrNode *)malloc(sizeof(LinkStrNode));
q->data=‘y’;
q->next=p->next; p->next=q;
s: a a a a b c d
t: a ab bac acb bc c ✓ 匹配成功算法的思路是从s的每一个字符开始依次与t的字符进行匹配。
4.2.1 Brute-Force算法
int BFIndex(SqString s,SqString t)
{ int i=0, j=0,k;
while (i<s.length && j<t.length)
4.1 串的类型定义 4.2 串的表示和实现 4.3 串的模式匹配算法
本章要求
理解： 1、串的基本概念、类型定义 2、串的存储表示和实现 3、串的KMP算法
掌握： 4、串的简单模式匹配算法(BF)
第4章串的基本概念
串（或字符串）：是由零个或多个字符组成的有限序列。
串的逻辑表示： S=“a1a2…ai…an”，其中S为串名，ai (1≤i≤n)代表单个字符，可以是字母、数字或其它字符(包括空白符)。串值：双引号括起来的字符序列。双引号不是串的内容，只起标识作用。

串PPT课件专题培训

例：
1.空串和空格串有无区别？有区别。空串(Null String)是指长度为零旳串；而空格串(Blank String)是指包括一种或多种空格旳字符串 .
2.既有下列4个字符串：
a =‘BEI’ b =‘JING’ c = ‘BEIJING’ d = ‘BEI JING’
问：① 他们各自旳长度？ ② b是哪个串旳子串？它在主串中旳位置是多少？
T.length =i;
}
return OK;
}//StrAssign
三、链式存储：用链表存储串值，易插入和删除。
Typedef struct { char *ch; // 若非空串,按串长分配空间; 不然 ch = NULL int length; //串长度
}HString
例：用“堆”实现串插入操作(教材P75)
Status StrInsert ( HString &S, int pos, HString T ){
❖ 堆分配存储表达
——用一组地址连续旳存储单元存储串值旳字符序列,但存储空间是在程序执行过程中动态分配而得。
链式存储
❖ 串旳块链存储表达
——链式方式存储
一、定长顺序存储
用一组连续旳存储单元来存储串，直接使用定长旳字符数组来定义，数组旳上界预先给出，故称为静态存储分配。
例如： #define MAXSTRLEN 255 //顾客可用旳最大串长 typedef unsigned char SString[MAXSTRLEN＋1 ]; SString S; //S是一种可容纳255个字符旳顺序串。
Status Concat(SString &T, SString S1, SString S2,) { // 用T返回由S1和S2联接而成旳新串。若未截断, 则返回TRUE，不然FALSE。

数据结构中的串

if(pos>=0) { n=StrLength(S); m=StrLength(T); i=pos; while ( i<=n-m ) { SubString( sub,S,i,m );//返回S中从i起长度为m的子串 if( SubCompare (sub,T)!= 0 ) i++; else return i; } // while
StrCompare(S, T) : 若S>T 返回>0;若S=T 返回=0;若
S<T 返回<0;
StrLength( S ) :串S存在，返回S中元素的个数，称为串
的长度
more
串的基本操作
Concat( &T, S1,S2 ) : 用T返回S1和S2联接而成的新串 SubString( &Sub,S,pos,len ) : 用Sub返回串S的第pos个
▪ 两个串之间可以进行比较。 ▪ 称两个串相等，当且仅当这两个串的值相等，包括
两个串的长度相等，并且各个对应位置的字符都相等。
▪ 当两个串不相等时，可按“字典顺序”分大小。令
s= “s0s1…sm-1” (m>0) t= “t0t1…tn-1” (n>0) ▪ 假设，两者最大有前k个子序列相等（最大相等前缀子
▪ 串中任意个连续的字符组成的子序列称为该串的子串。包含子串的的串相应地称为主串。通常称字符在序列中的序列号为该字符在串中的位置。子串在主串中的位置则以子串第0 个字符在主串的位置来表示。
4.1 串的定义和操作
▪ 例如：下面a，b，c，d都是串
▪ a=“BEI”
长度为3
▪ b=“JING”
长度为4
44
第4章串

第四章串

第四章串串的定义串的操作数据结构之串24.1 串的定义¾串：由零个或多个字符组成的有限序列，记为S= “a1a2a3……an”。

¾主串、子串、串名、串长；S=“How are you,everybody!”¾空串、空格串；¾字符在串中的位置、子串在串中的位置；¾两个串相等,当且仅当两个串值相等，即长度，位置相等；数据结构之串34.2 串的基本操作¾StrAssign(&T,chars)¾StrCompare(S,T): S、T相等返回true，否则返回faule；¾StrLength(S) : 求串中字符的个数；¾ConCat(S,T) : 将串T的值紧接着放在串S的末尾，组成一个新串；¾SubString(Sub,S,start,length): 求S从start位置开始，长度为length 的子串；数据结构之串4¾SetEmpty(&T) : 设置空串¾StrCopy(S,T): 把T值赋给S；¾Index(S,T,pos): 求子串在主串中位置的定位函数；¾Replace(S,T,v): 以v替换所有在S中出现的和T相等的串；¾StrInsert(S,Pos,T): 在串S的第Pos个字符之前插入串T；¾StrDelete(S,Pos,len): 从串S中删除Pos个字符起长度为len的子串；数据结构之串54.3 串的表示和实现¾定长顺序存储表示¾紧缩格式：在一个存储单元中存放多个字符¾非紧缩格式：一个存储单元中只存放一个字符，所需存储单元个数即串的长度例：如一个单元存放k个字符，长度为n，则此串值占[n/k]个存储单元。

DTA:SAAD T ASW T RCU T UEF S一个存储单元数据结构之串6¾动态分配串值的存储空间；¾动态串的类型定义：typedef struct{char *ch;int length; //串的长度}HS;数据结构之串7¾串的链式存储#define CHUNKSIZE 80 /*由用户定义的块长度*/ typedef struct Chunk {char ch[CHUNKSIZE]; /*字符串块*/struct Chunk *next; /*指向下一个字符串块*/ }Chunk; /*结构名称*/typedef struct {Chunk *head, *tail; /*指向头尾的指针*/int curlen; /*串的当前长度*/} LString; /*串名称*/F A B C1^A B C D E F G H1###^F数据结构之串8¾串基本操作的实现¾将串S1和串S2联接成新串¾算法描述：¾给T分配存储空间，存储空间大小为S1和S2长度之和。

数据结构——串

7
三、串的基本操作 C语言中常用的串运算定义下列几个变量： char s1[20]=“dirtreeformat”,s2[20]=“file.mem”; char s3[30],*p; int result;
(1) 求串长(length) int strlen(char s); //求串的长度
例如：printf(“%d”,strlen(s1)); 输出13
char strcat(char s1 , char s2)
该函数将串s2复制到串s1的末尾，并且返回一个指向串s1的开始处的指针。
例如：strcat(a3,”/”)
strcat(a3,a2);
2020//4//a143=“dirtreeformat/file.mem”
9
(4)串比较（compare)
A=“This is a string” B=“is” B在A中出现了两次，其中首次出现所对应的主串
位置是3。因此，称B在A中的序号（或位置）为3 特别地，空串是任意串的子串，任意串是其自身的子
串。
2020/4/14
5
二、串的抽象数据定义
• ADT String { • 数据对象:D={ai| ai
16
顺序串的类型定义和顺序表类似： typedef char ElemType;
typedef struct { ElemType ch[maxstrlen]; int length;
}sstring; //其优点是涉及到串长操作时速度快。
2020/4/14
17
4.2.2 堆分配存储表示
这种存储表示的特点是，仍以一组地址连续的存储单元存放字符串序列，但它们的存储空间是在程序执行过程中动态分配而得。所以也称为动态存储分配的顺序表。在C语言中，利用malloc和realloc,free等动态存储管理函数，来根据实际需要动态分配和释放字符数组空间。这样定义的顺序串类

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

➢ 多模式匹配 − 多模式匹配可定义为：在一个文本text(设长度为n)中查找某些特定的子串patterns(设长度为m)。如果在text中找到等于patterns中的某些子串，则称匹配成功，函数返回 pattern在text中出现的位置(或序号)，否则匹配失败。
12
单模式匹配算法
BF（Brute-Force）算法 (又称Naive算法) 是最早出现的单关键字匹配算法，思想简单，虽然理论上的时间复杂度很差，但是实际使用效果尚可，因此还被采用。ANSI C中提供的strstr函数就是使用这种算法的改进版本。由于BF算法扫描字符串时常常需要回溯，这样当文本难于随机访问时，就显得特别不方便。
8
6.后缀：两个字符串p和x,若存在字符串u（u可为空串）,使得p=ux成立x，称为p的后缀。
7.子串：两个字符串p和x,若存在字符串u,v（u,v可以为空串），使得p=uxv成立，称x为p的子串。
8.字符集：在模式或文本中所有可能出现的字符形成的集合Σ，记为，其大小记为|Σ|。
9.自动机（Automata）：一个包括状态集S，输入的字符集Σ，状态转换函数δ，起始状态s0和终止状态集S1的五元组M = {S,Σ,δ,s0,S1}，我们主要讨论的是确定型有限自动机DFA(Deterministic finite automata)。
1970年，S.A.Coovk理论上证明了串匹配问题可以在
O(m+n) 线性时间内解决，随后D.E.Knuth和V.R.Pratt仿照
S.A.Cook的证明构造了一个算法，与此同时，J.H.Morris也得到相类似的算法，这样就产生了第一种线性时间复杂度的模式匹配算法Knuth-Morris-Pratt 算法（简称为KMP算法）。此种算法不仅时间复杂度良好，而且有一个非常好的
串匹配问题不仅在各种实际应用中有着广泛的需要，而且在计算机理论研究中也占有着十分重要的地位，因为它可以不断地提出非常具有挑战性的理论问题。
7
概念
1. 文本：由若干个字符组成的有限序列，设为y={y1y2y3…yn}, 其中n为文本长度，即文本中总的字符个数。
2. 模式：也称为关键字，由若干个字符组成的有限序列 k={k1k2k3…km}，其中m为模式长度，即模式中字符总数。
13
特点，扫描文本时不需要回溯，这对于处理实时输入的文本有很大的好处。
1977年，R.S.Boyer和J.S.Moore两人设计了一种新的算法（简称BM算法），该算法可以实现跳跃查寻，大多数情况下只需扫描文本中的一部分字符。尽管它的时间复杂度并不是最好，但是实际效果却常常是最快的。因此，BM算法得到了很好的研究，衍生出许多变种，如Horspool-BM, TunedBM和QS等，这些算法至今都是最活跃的算法。
例如,如果捕获到的数据经过http协议的还原, 成为一个完整的网页；经过smtp协议还原后成为一封完整的邮件。
4
串匹配（string matching），也叫模式匹配（pattern matching），可以简单地定义为在给定的字符流中查找出满足某些指定属性的字符串。
这是计算机科学中最古老也最普遍的问题之一，计算机科学中串匹配的应用可以说随处可见。近年来，随着计算机技术（各种应用）的蓬勃发展，尤其是信息检索和生物计算领域中的许多共同需求，极大激发了人们对串匹配算法的研究兴趣。
的模式数目
多模式
精确匹配
模匹配方式
式
近似匹配
匹配的具体内容
单词匹配字符类匹配
正则表达匹配
10
文本的角度
实时(on-line)文本:文本可以动态地更新例如:网络入侵监测
非实时(off-line)文本:被查找文本是静态的例如:搜索引擎中查找的数据
11
➢ 单模式匹配 − 单模式匹配可定义为：在一个文本text(设长度为n)中查找某个特定的子串pattern(设长度为m)。如果在text中找到等于pattern的子串，则称匹配成功，函数返回pattern在 text中出现的位置(或序号)，否则匹配失败。
3. 模式集：指所有需要匹配的模式形成的集合，记为
P={p1,p2,p3,…,pr}，其中pi是模式集中第i个模式。记模式
集中所有模式长度的总和为|P|。 4. 最小模式长度：假设模式集中各个模式长度分别为l1,l2,…lr,
那么最小模式长度是指所有模式长度的最小值，即minlen = min{l1,l2,…lr}。 5. 前缀：两个字符串 p和x，若存在字符串v（v可为空串），使得p=xv成立，称x为p的前缀。
信息内容安全技术
第四章字符串匹配
计算机网络与信息安全技术研究中心
1
2
第一部分
整体概述
THE FIRST PART OF THE OVERALL OVERVIEW, PLEASE SUMMARIZE THE CONTENT
3
引言
数据经过主被动获取之后,就要根据需要进行相应的内容分析,由此，我们需要使用字符串匹配技术。
大概我们最熟悉的应用是文本编辑中所使用的查找替换，这是一种最简单的串匹配问题。
5
以下简要介绍串匹配问题的部分应用： ➢ 在生物计算领域，DNA和蛋白质序列可以看成是在特殊字符集上的长文本（典型的DNA就是在{A，C，G，T}字符集上），这种序列代表了人类生命的基因编码。生物基因实验中的许多问题，比如在一个DNA链上查找某些特定特征，或者比较两个基因序列有多大差异，都可以简单地归结为在 “文本”中查找特定的“模式”的串匹配问题。 ➢ 在信号处理领域，语音识别的一般情形可以大致描述为确定一个语音信号是否符合某些特征。只要事先把语音信号转化为特定形式的文本信息，我们就可以很好地应用串匹配算法来解决这个问题。而语音识别的发展与目前非常热门的人机交互的实现有着密切的关系。
6
➢ 在自然语言处理方面，信息检索是最关键的技术之一。例如，信息检索IR(Information Retrieval)要求在一个大量的文本集合中找出相关信息，串匹配就是它的基本技术之一。 ➢ 在网络安全方面，有一个很重要的问题，就是快速发现具有某些特征码的有害信息，及早地防范于未然。病毒和入侵检测NID（Network Intrusion Detection）都可以淋漓尽致地发挥串匹配算法的优势。