【安全课件】第17讲bm算法

合集下载

AC算法BM算法

AC算法BM算法AC算法（Aho-Corasick Algorithm）AC算法是一种字符串算法，通常用于在一段文本中查询多个模式串的出现情况。

它是由Alfred V. Aho和Margaret J. Corasick于1975年提出的，并以他们的名字命名。

AC算法的原理是构建一个有限状态机（FSM），该状态机能够同时处理多个模式串的匹配。

该算法具有高效的时间和空间复杂度，并且能够在一次扫描内找到所有模式串的匹配位置。

下面将介绍AC算法的详细步骤：1. 构建Trie树（前缀树）：根据给定的模式串集合，构建一个Trie树。

Trie树是一种特殊的字典树，它能够实现快速的字符串匹配。

Trie树的根节点为一个空节点，每个节点都有多个子节点，每个子节点都代表一个字符。

从根节点到叶子节点的路径上的所有字符组成一个模式串。

2. 构建失败指针（Fail Pointer）：在Trie树中，每个节点的失败指针指向它的最长后缀节点，该后缀节点也是Trie树的节点。

如果一个节点的当前字符在其最长后缀节点的子节点中不存在，则将失败指针指向最长后缀节点的失败指针指向的节点。

如果没有最长后缀节点，则将失败指针指向根节点。

3. 在文本中匹配模式串：从文本的第一个字符开始，按照Trie树的路径进行匹配。

如果在一些节点匹配失败，则通过失败指针转移到下一个节点进行匹配，直到匹配成功或到达文本的末尾。

当匹配成功时，可以通过沿着失败指针回溯，找到其他可能的匹配位置。

4.输出匹配结果：对于每个文本字符，记录匹配的模式串。

使用一个结果链表，其中每个节点包括一个指向匹配的模式串的指针和该模式串在文本中的位置。

AC算法的时间复杂度为O(n+m)，其中n是文本的长度，m是模式串的总长度。

空间复杂度为O(m)，即模式串的长度。

BM算法（Boyer-Moore Algorithm）BM算法是一种字符串和匹配算法，通过对模式串的后缀进行预处理，实现在文本中的快速。

第17讲--m序列与BM算法(密码学)教学文稿

最后得到的 fN(x),lN 便是产生序列a的最短线性移位寄存器。
11
4、实例
例2、求产生周期为7的m序列一个周期：0011101的最短线性移位寄存器。
解：设 a0a1a2a3a4a5a600111，0首1先取初值 f0(x)=1, l0=0 ，则由a0=0得d0=1•a0=0从而 f1(x)=1, l1=0 ；同理由a1=0得 d1=1•a1=0从而 f2(x)=1, l2=0 。由a2=1得d2=1•a2=1，从而根据l0= l1 = l2=0 知
L(t)(a)是左移变换，就是将序列 a 左移t位所得到的序列。
性质3：若 a 是由r级本原线性移存器产生的m序列, 则 a L (t)(a)(t0m2 o r d 1)是与 a 平移等价的m序列。性质4：周期为p的m序列 a ，左移t (t0mo2rd1)位得到序列 b ，将 a 与 b 按位对齐。则在一个周期段中，序列 a 与序列 b （0，0）的有(p-3)/4对，（1， 1）、（1、0）、（0、1）的各有(p+1)/4对。
2、规定：0级线性移位寄存器是以f(x)=1为反馈多项式的线性移位寄存器，且n长(n=1, 2, …, N)全零序列，仅由0级线性移位寄存器产生。事实上，以f(x)=1为反馈多项式的递归关系式是：ak=0，k=0, 1, …, n-1.因此，这一规定是合理的。
3、给定一个N长二元序列a，求能产生a并且级数最小的线性移位寄存器，就是求a的线性综合解。利用B-M算法可以有效的求出。
则最后得到的
就是产生给fN定(x)N,l长N 二元序列a的
最短的线性移位寄存器。
9
3、B-M算法任意给定一个N长序列a(a0.,a1,,aN 1)，按n归纳定义

BF算法KMP算法BM算法

BF算法KMP算法BM算法BF算法（Brute-Force算法）是一种简单直接的字符串匹配算法。

它的基本思想是从主串的第一个字符开始，逐个与模式串的字符进行比较，如果匹配失败，则主串的指针向右移动一位，继续从下一个字符开始匹配。

重复这个过程，直到找到匹配的子串或者主串遍历完毕。

BF算法的时间复杂度是O(n*m)，其中n和m分别是主串和模式串的长度。

当模式串较长时，算法的效率较低。

但是BF算法的实现简单，易于理解，对于较短的模式串和主串，仍然是一种可行的匹配算法。

KMP算法（Knuth-Morris-Pratt算法）是一种改进的字符串匹配算法，它利用了模式串内部的信息，避免了不必要的比较。

KMP算法引入了一个next数组，用于记录模式串中每个位置对应的最长可匹配前缀子串的长度。

KMP算法的基本思想是，当匹配失败时，不是简单地将主串指针右移一位，而是利用next数组将模式串的指针向右移动若干位，使得主串和模式串中已经匹配的部分保持一致，减少比较次数。

通过预处理模式串，计算出next数组，可以在O(n+m)的时间复杂度内完成匹配。

BM算法（Boyer-Moore算法）是一种高效的字符串匹配算法，它结合了坏字符规则和好后缀规则。

BM算法从模式串的末尾开始匹配，根据坏字符规则，如果在匹配过程中发现了不匹配的字符，可以直接将模式串向右滑动到该字符在模式串中最右出现的位置。

BM算法还利用了好后缀规则，当发现坏字符后，可以根据好后缀的位置和模式串的后缀子串进行匹配，从而减少不必要的比较。

通过预处理模式串，计算出坏字符规则和好后缀规则对应的滑动距离，可以在最坏情况下实现O(n/m)的时间复杂度。

总结来说，BF算法是一种简单直接的字符串匹配算法，适用于较短的模式串和主串；KMP算法通过预处理模式串，利用next数组减少比较次数，提高了匹配效率；BM算法结合了坏字符规则和好后缀规则，利用了更多的信息，是一种高效的字符串匹配算法。

BM算法详解

BM算法详解BM算法后缀匹配，是指模式串的⽐较从右到左，模式串的移动也是从左到右的匹配过程，经典的BM算法其实是对后缀蛮⼒匹配算法的改进。

为了实现更快移动模式串，BM算法定义了两个规则，好后缀规则和坏字符规则，如下图可以清晰的看出他们的含义。

利⽤好后缀和坏字符可以⼤⼤加快模式串的移动距离，不是简单的++j，⽽是j+=max (shift(好后缀), shift(坏字符)) 先来看如何根据坏字符来移动模式串，shift(坏字符)分为两种情况：坏字符没出现在模式串中，这时可以把模式串移动到坏字符的下⼀个字符，继续⽐较，如下图：坏字符出现在模式串中，这时可以把模式串第⼀个出现的坏字符和母串的坏字符对齐，当然，这样可能造成模式串倒退移动，如下图：此处配的图是不准确的，因为显然加粗的那个b并不是”最靠右的”b。

⽽且也与下⾯给出的代码冲突！我看了论⽂，论⽂的意思是最右边的。

当然了，尽管⼀时⼤意图配错了，论述还是没有问题的，我们可以把图改正⼀下，把圈圈中的b改为字母f就好了。

接下来的图就不再更改了，⼤家⼼⾥有数就好。

为了⽤代码来描述上述的两种情况，设计⼀个数组bmBc['k']，表⽰坏字符‘k’在模式串中出现的位置距离模式串末尾的最⼤长度，那么当遇到坏字符的时候，模式串可以移动距离为： shift(坏字符) = bmBc[T[i]]-（m-1-i)。

如下图：数组bmBc的创建⾮常简单，直接贴出代码如下：1 void preBmBc(char *x, int m, int bmBc[]) {23 int i;45 for (i = 0; i < ASIZE; ++i)67 bmBc[i] = m;89 for (i = 0; i <= m - 1; ++i)1011 bmBc[x[i]] = m - i - 1;1213 } 代码分析：ASIZE是指字符种类个数，为了⽅便起见，就直接把ASCII表中的256个字符全表⽰了，哈哈，这样就不会漏掉哪个字符了。

BM算法-专业文档

BM算法BM算法，即Boyer-Moore算法，是一种被广泛应用于字符串匹配的算法。

它由Robert S. Boyer和J Strother Moore于1977年提出，并在一些文本搜索和字符串匹配的应用中表现出优异的性能。

下面将对BM算法进行详细的介绍。

一、算法概述BM算法是一种自底向上的字符串匹配算法，它通过构建坏字符规则和好后缀规则来决定模式串的移动距离。

相比于朴素的字符串匹配算法，BM算法在匹配失败时能够根据模式串和文本串的已知信息进行跳跃，从而提高了匹配的效率。

二、坏字符规则坏字符规则是指当模式串与文本串的某个字符不匹配时，我们可以根据这个不匹配的字符来确定模式串应该向右移动的距离。

为了实现这个规则，我们需要预先构建一个坏字符表，其中记录了每个字符在模式串中最后一次出现的位置。

当发生不匹配时，我们可以直接将模式串向右移动到坏字符表中对应字符的位置。

三、好后缀规则好后缀规则是指当模式串与文本串的后缀部分匹配成功时，我们可以根据这个好后缀来确定模式串应该向右移动的距离。

为了实现这个规则，我们需要预先构建一个前缀表和后缀表，其中记录了每个前缀或后缀在模式串中第一次出现的位置。

当发生匹配时，我们可以根据前缀表和后缀表中的信息来确定模式串应该向右移动的距离。

四、算法步骤1.预处理阶段：构建坏字符表和前缀表、后缀表。

2.匹配阶段：从左到右依次比较模式串和文本串的字符。

3.如果发生不匹配：根据坏字符规则将模式串向右移动相应的距离。

4.如果匹配成功：根据好后缀规则将模式串向右移动相应的距离。

5.重复步骤2-4直到模式串移动到文本串的末尾位置。

五、算法性能分析BM算法的时间复杂度为O(n)，其中n为文本串的长度。

在最好的情况下，BM 算法的时间复杂度可以达到O(n/m)，其中m为模式串的长度。

相比于朴素的字符串匹配算法，BM算法在处理较长的文本串时具有更好的性能表现。

六、总结BM算法是一种经典的字符串匹配算法，它通过结合坏字符规则和好后缀规则来实现高效的字符串匹配。

最详细最容易理解的BM算法简介PPT共37页

• Shift = 6
-2
Case 2a
• 坏字符在模式串中
• *******NLE********
• NEEDLE
•
NEEDLE
• Shift =最右的坏字符位置–position(坏)
• Shift = 5
-2
Case 2b
• 坏字符在模式串中
• *******ELE********
•
NEEDLE
好后缀算法
• 模式串中没有子串匹配上好后缀，并且在模式串中找不到最长前缀，让该前缀等于好后缀的后缀时
• S= *******BABCDE******** • T= AACDEFGBCDE
好后缀算法
• 模式串中没有子串匹配上好后缀，并且在模式串中找不到最长前缀，让该前缀等于好后缀的后缀时
• S= *******BABCDE********
}
预处理-坏字符
• void preBmBc(char *S, int m, int bmBc[]) { int i; for (i = 0; i < ASIZE; ++i) //ASIZE=256 bmBc[i] = m; for (i = 0; i <=m - 1; ++i) bmBc[S[i]] = m - i - 1;
} • 这是会有倒退的算法设计，优点在于能够
对模式串预处理
预处理-坏字符
• void preBmBc(char *S, int m, int bmBc[]) { int i;
for (i = 0; i < ASIZE; ++i) //ASIZE=256
bmBc[i] = m;

BM算法原理

BM算法是一种精确字符串匹配算法（区别于模糊匹配）。

BM算法采用从右向左比较的方法，同时应用到了两种启发式规则，即坏字符规则和好后缀规则，来决定向右跳跃的距离。

BM算法的基本流程: 设文本串T，模式串为P。

首先将T与P进行左对齐，然后进行从右向左比较，如下图所示:若是某趟比较不匹配时，BM算法就采用两条启发式规则，即坏字符规则和好后缀规则，来计算模式串向右移动的距离，直到整个匹配过程的结束。

下面，来详细介绍一下坏字符规则和好后缀规则。

首先，诠释一下坏字符和好后缀的概念。

请看下图：图中，第一个不匹配的字符（红色部分）为坏字符，已匹配部分（绿色）为好后缀。

1）坏字符规则（Bad Character）：在BM算法从右向左扫描的过程中，若发现某个字符x不匹配，则按如下两种情况讨论：i. 如果字符x在模式P中没有出现，那么从字符x开始的m 个文本显然不可能与P匹配成功，直接全部跳过该区域即可。

ii. 如果x在模式P中出现，则以该字符进行对齐。

用数学公式表示，设Skip(x)为P右移的距离，m为模式串P的长度，max(x)为字符x在P中最右位置。

例1：下图红色部分，发生了一次不匹配。

计算移动距离Skip(c) = 5 - 3 = 2，则P向右移动2位。

移动后如下图：2）好后缀规则（Good Suffix）：若发现某个字符不匹配的同时，已有部分字符匹配成功，则按如下两种情况讨论：i. 如果在P中位置t处已匹配部分P'在P中的某位置t'也出现，且位置t'的前一个字符与位置t的前一个字符不相同，则将P右移使t'对应t方才的所在的位置。

ii. 如果在P中任何位置已匹配部分P'都没有再出现，则找到与P'的后缀P''相同的P的最长前缀x，向右移动P，使x对应方才P''后缀所在的位置。

用数学公式表示，设Shift(j)为P右移的距离，m为模式串P的长度，j 为当前所匹配的字符位置，s为t'与t的距离（以上情况i）或者x与P''的距离（以上情况ii）。

BM算法原理图示详细讲解

A
B
C
E
C
A
B
E
… …
… …
P
A
B
C
A
B
2010/10/29 于 HoHai University 4216
BM 算法详细图解编著：WeiSteve@ 自此，讲解完毕。
[Weisteven]
在 BM 算法匹配的过程中，取 Jump(x)与 Shift(x)中的较大者作为跳跃的距离。 BM 算法预处理时间复杂度为 O（m+s），空间复杂度为 O(s)，s 是与 P, T 相关的有限字符集长度，搜索阶段时间复杂度为 O(m*n)。最好情况下的时间复杂度为 O(n/m)，最坏情况下时间复杂度为 O(m*n)。
T
A
B
C
B
A
D
F
T
B
C
F
A
Q
P
C
B
C
A
B
C
E
A
B
C
例二（说明情况 b）：
T
A
B
C
B
A
D
F
T
B
C
F
A
Q
P
B
C
C
A
B
C
E
T
B
C
共同后缀为 TBC，寻找 P 中未匹配部分中是否出现过 TBC。发现未曾出现过。那么我们就要找 P 的最长前缀同时又是 TBC 的最大后缀的情况。发现只有 BC，那么 P 需要移动前缀 BC 至对齐 T 中的 BC。
A A
B B
C
A
B
由于 CAB 在前面 P 中未曾出现过，只能进行第二种情况的最大前缀的匹配。上图中对应的就是已经匹配的部分 CAB 字段在 P 中前方的最大重叠 AB。看出来了吧，最大的移动就是让 P 中的其实部分 AB 跟 T 中已匹配的字段 CAB 的部分进行对齐。移动后的结果如下：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

•是上的多项式， •如果序列中的元素满足递推关系c0：=1.
•
•则称
产生二元序列a。其中
多项式的l级线性移位寄存器。
表示以f(x)为反馈
•如果f(x)是一个能产生a并且级数最小的线性移位寄存器的
反馈多项式，l是该移存器的级数，则称
为序列a的
线性综合解。
PPT文档演模板
【安全课件】第17讲bm算法
• 线性移位寄存器的综合问题可表述为：给定一个N长二元序列a，如何求出产生这一序列的最小级数的线性移位寄存器，即最短的线性移存器？
PPT文档演模板
【安全课件】第17讲bm算法
•最后得到的移位寄存器。
便是产生序列a的最短线性
PPT文档演模板
【安全课件】第17讲bm算法
PPT文档演模板
算法流程
【安全课件】第17讲bm算法
•B-M
•4、实例 •例2、求产生周期为7的m序列一个周期：0011101的最短线性移位寄存器。
【安全课件】第17讲-bm算法
PPT文档演模板
2020/10/30
【安全课件】第17讲bm算法
上节内容复习
移位寄存器序列的三种表示方法：
v 线性递推式（一元多项式）： at+n=c1at+n-1+c2at+n-2+…+cnat ,t>=0
v 联结多项式： f(x)=1+c1x+c2x2+…+cnxn
PPT文档演模板
【安全课件】第17讲bm算法
•线性移存器
•（一）解方程法
• 已知序列a是由n级线性移存器产生的，且知a 的连续2n位，可用解线性方程组的方法得到线性递推式。
• 例：设a=01111000是4级线性移存器产生的序列的8个连续信号，求该移存器的线性递推式。
PPT文档演模板
【安全课件】第17讲bm算法
产生尽可能好的、参与密码变换的序列。
•（2）当已知一个长为N序列a时，如何构造一个级数尽可能小的LFSR来产生它。这是从密码分析角度来考
虑，要想用线性方法重构密钥序列所必须付出的最小代价。这个问题可通过B-M算法来解决。
PPT文档演模板
【安全课件】第17讲bm算法
•1、概念简介
•设
是上的长度为N的序列，而
v 状态转移矩阵：满足：st+1=stTf 称st=(at,at+1,at+2,…,at+n-1)为n维状态
PPT文档演模板
【安全课件】第17讲bm算法
几个概念
v 非退化的移位寄存器
v (不)可约多项式 v 极小多项式 v 序列和周期 v 本原多项式 v m序列 v 1游程、0游程 v m序列的游程分布规律
• 第1步，计算d3：d3=1·a3+ 0·a2 + 0·a1 + 1·a0=1 •因为l2<l3，故m=2，由此
PPT文档演模板
【安全课件】第17讲bm算法
演讲完毕，谢谢听讲!
再见，see you again
PPT文档演模板
2020/解：设
，首先取初值 f0(x)=1, l0=0 ，
则由a0=0得d0=1•a0=0从而 f1(x)=1, l1=0 ；同理由a1=0得
d1=1•a1=0从而 f2(x)=1, l2=0 。
•由a2=1得d2=1•a2=1，从而根据l0= l1 = l2=0 知 • f2(x)=1+x2+1 =1+x3, l3=3
PPT文档演模板
【安全课件】第17讲bm算法
•（二）、B-M迭代算法
• 根据密码学的需要，对线性反馈移位寄存器 (LFSR)主要考虑下面两个问题：
•（1）如何利用级数尽可能短的LFSR产生周期大、随机性能良好的序列，即固定级数时，什么样的移存器序列周期最长。这是从密钥生成角度考虑，用最小的代价
•几点说明：
• 1、反馈多项式f(x)的次数l。因为产生a且级数最小的线
性移位寄存器可能是退化的，在这种情况下 f(x)的次数<l；并且此时 f(x)中的cl=0，因此在反馈多项式f(x)中c0=1，但不要求cl=1 •。 2、规定：0级线性移位寄存器是以f(x)=1为反馈多项式的线性移位寄存器，且n长(n=1, 2, …, N)全零序列，仅由0级线性移位寄存器产生。事实上，以f(x)=1为反馈多项式的递归关系式是：ak=0，k=0, 1, …, n-1.因此，这一规定是合理的。
解：产生 a=01111000……的联结多项式
v 设其联结多项式f(x)=1+c1x+c2x2+c3x3+x4 v 线性递推式at=at-4+c3at-3+c2at-2+c1at-1 v 0+c3+c2+c1=1 v 1+c3+c2+c1=0 v 1+c3+c2+0=0 v 1+c3+0+0=0 v 解得：c3=1；c2=0；c1=0 v 故其联结多项式为1+x3+x4
• 3、给定一个N长二元序列a，求能产生a并且级数最小的线性移位寄存器，就是求a的线性综合解。利用B-M算法可以有效的求出。
PPT文档演模板
【安全课件】第17讲bm算法
•2、B-M算法要点 •用归纳法求出一系列线性移位寄存器：
•每一个
都是产生序列a的前n项的最短线性移
位寄存器，在
的基础上构造相应的
，
使得
是产生给定序列前n+1项的最短移存器，
则最后得到的
就是产生给定N长二元序列a的
最短的线性移位寄存器。
PPT文档演模板
【安全课件】第17讲bm算法
•3、B-M算法 •任意给定一个N长序列
•1、取初始值： • 2、设 •均已求得，且
•记：
，按n归纳定义
再计算：
•称dn为第n步差值。然后分两种情形讨论：