遗传算法的数学基础

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第3章遗传算法的数学基础

遗传算法在机理方面具有搜索过程和优化机制等属性，数学方面的性质可通过模式定理和构造块假设等分析加以讨论，Markov链也是分析遗传算法的一个有效工具。遗传算法的选择操作是在个体适应度基础上以概率方式进行的，在概率选择方式上与模拟退火法有些类似。

本章将较全局地介绍遗传算法的基础数学理论和分析工具，包括验证基础遗传算法（SGA）的有效性的模式定理，分析遗传算法过程的Walsh模式变换方法，遗传算法的欺骗问题以及遗传算法的动态分析工具—Markov链分析。

3.1 模式定理

1. 模式

我们将种群中的个体即基因串中的相似样板称为“模式”，模式表示基因串中某些特征位相同的结构，因此模式也可能解释为相同的构形，是一个串的子集。

在二进制编码中，模式是基于三个字符集{0，1，*}的字符串，符号* 代表0或1。

例1．*1*表示四个元的子集{010 011 110 111}

对于二进制编码串，当串长为L时，共有3L个不同的模式。

例2．串长L=3，则其模式共有{*** *1* *0* **1 **0 1** 0** *10 *00 *01 1*1 1*0 0*1 0*0

11* 10* 01* 00* 111 110 101 011 001 010

100 000 }共27个

1+2*3+22*3+23=33

遗传算法中串的运算实际上是模式的运算。如果各个串的每一位按等概率生成0或1，则模式为n 的种群模式种类总数的期望值为：

12(1(1(1/2)))L

i i n

l i C =--∑ 种群最多可以同时处理2l

n g 个模式，见下例

例一个个体（种群中只有一个），父个体011 要通过变异变为子个体001，其可能影响的模式为：

被处理的模式总数为8个，8=1*23

如果独立的考虑种群中的各个串，则仅能得到n 条信息，然而当把适应值与各个串结合考虑，发掘串群体的相似点，就可得到大量的信息来帮助指导搜索，相似点的大量信息包含在规模不大的种群中。

2. 模式阶和定义距

定义1：模式阶模式H 中确定位置的个数成为模式H 的模式阶，

记作O(H)

例 O(011**1**0)=5

定义2 定义阶模式中第一个确定位置和最后一个确定位置之间的

距离，记作()H δ

例 (011**1**0)8(001**1***)5δδ==

3. 模式定理

假定在给定时间步t(即第t 代)，种群A(t)中有m 个个体属于模式H ，记为m=m(H,t),即第t 代时，有m 个个体属于H 模式。在再生阶段（即种群个体的选择阶段），每个串根据它的适应值进行复制（选择），一个串A i 被复制（选中）的概率为：

i n j

j f p f

==∑ n 表示种群中个体总数

当采用非重叠的n 个串的种群替代种群A(t),可以得到下式： 1()

(,1)(,)n j

j f H m H t m H t n f

=+=∑g g 其中：()i

i H f f H m ∈=∑，表示在t 时模式H 的平均适应度若用1n j

j f

f n ==∑表示种群平均适应度，则前式可表示为：

()

(,1)(,)f H m H t m H t f

+= 上式表明：一个特定的模式按照其平均适应度值与种群的平均适应度值之间的比率生长，换句话说就是：那些适应度值高于种群平均适应

度值的模式，在下一代中将会有更多的代表串处于A(t+1)中，因为在()f H f >时有m(H,t+1)>m(H,t)

假设从t=0开始，某一特定模式适应度值保持在种群平均适应度值以上c f ，c 为常数c>0, 则模式选择生长方程为：

(,1)(,)(1)(,)(1)(,0)t f c f m H t m H t c m H t c m H f

++==+=+ 上式表明，在种群平均值以上（以下）的模式将按指数增长（衰减）的方式被复制。

下面讨论交叉对模式H 的影响：

例：对串A 分别在下面指定点上与H 1模式和H 2模式进行交叉

A 0111000

H 1 *1****0 (被破坏概率：()551716

H l δ=

=--；生存率：1/6) H 2 ***10** (被破坏概率：()111716H l δ==--；生存率：5/6) 显然A 与H 1交叉后， H 1被破坏，而与H 2交叉时， H 2不被破坏。一般地有：模式H 被破坏的概率为

()1H l δ-，故交叉后模式H 生存的概率为()

11H l δ--（:l δ

串长；（H）:模式H的定义阶）考虑到交叉本身是以随机方式进行的，即以概率Pc 进行交叉，故对于模式H 的生存概率Pc 可用下式表示：

()11s c h p p l δ≥--

同时考虑选择交叉操作对模式的影响，（选择交叉互相独立不影响）则子代模式的估计：

()()(,1)(,)[1]1c f H H m H t m H t p l f

δ+≥--g 上式表明模式增长和衰减依赖于两个因素：一是模式的适应度值f(H)与平均适应度值的相对大小；另一个是模式定义阶()H δ的大小（当Pc 一定， L 一定时）。

下面再考察变异操作对模式的影响：

变异操作是以概率Pm 随机地改变一个位上的值，为了使得模式H 可以生存下来，所有特定的位必须存活。因为单个等位基因存活的概率为（1—Pm ）,并且由于每次变异都是统计独立的，因此，当模式H 中O(H)个确定位都存活时，这时模式H 才能被保留下来，存活概率为：

()(1)1()()1O H m m m p O H p p -≈-<

上式表明O(H)个定位值没有被变异的概率。

由此我们可得到下式

()()(,1)(,)[1()]1c m f H H m H t m H t p O H p l f

δ+≥---g (,1)m H t +—在t+1代种群中存在模式H 的个体数目

(,)m H t —在t 代种群中存在模式H 的个体数目

()f H ——在t 代种群中包含模式H 的个体平均适应度

f ——t 代种群中所有个体的平均适应度

l ——个体长度

c p ——交叉概率

m p ——变异概率