第四部分 分子系统学

合集下载

第四章、序列的同源比较及分子系统 学和分子进化分析1

第四章、序列的同源比较及分子系统 学和分子进化分析1

(ii) 氨基酸突变代价矩阵GCM (iii)疏水矩阵 (iv)PAM矩阵(Point Accepted Mutation) (v) BLOSUM矩阵 (Blocks Amino Acid Substitution Matrices)
2013-7-14 22
二、序列相似性比较基础知识
3、打分矩阵
直向同源( orthologous):不同种属的同源序列,是 基因复制的结果。如:α血红素和β血红素。 共生同源 (paralogous):同一种属的同源序列,是 物种行成的结果。如:人和鼠的α血红素。
2013-7-14 5
一、序列相似性比较简介
4、序列比较的基本操作是:比对(align) 是指这两条序列中各个字符的一种一一对应关系,
2013-7-14 23
二、序列相似性比较基础知识
3、打分矩阵 该矩阵是根据氨基酸残基替换前后疏水性的变化而 得到得分矩阵。若一次氨基酸替换疏水特性不发生太 大的变化,则这种替换得分高,否则替换得分低。
2013-7-14
24
二、序列相似性比较基础知识
3、打分矩阵
PAM 矩阵 是第一个广泛使用的最优矩阵,它是基于进化原理的,建立 在进化的点接受突变模型PAM(Point Accepted Mutation)基础 上,通过统计相似序列比对中的各种氨基酸替换发生率而得到该 矩阵。Dayhoff 和她的同事们研究了71 个相关蛋白质家族的1572 个突变,发现蛋白质家族中氨基酸的替换并不是随机的,由此, 断言一些氨基酸的替换比其他替换更容易发生,其主要原因是这 些替换不会对蛋白质的结构和功能产生太大的影响。如果氨基酸 的替换是随机的,那么,每一种可能的取代频率仅仅取决于不同 氨基酸出现的背景频率。然而,在相关蛋白中,存在取代频率大 大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点突 2013-7-14 25 变已经被进化所接受。这意味着,在进化历程上,相关的蛋白质

分子生物学基础PPT第四章

分子生物学基础PPT第四章

第二节 启动子与转录的起始
3.真核生物启动子对转录的影响 TATA区和其他两个UPE区的作用有所不同(图4-5)。 前者的主要作用是使转录精确地起始,如果除去TATA区或 进行碱基突变,转录产物下降的相对值不如CAAT区或GC区 突变后明显,但发现所获得的RNA产物起始点不固定。研 究SV40晚期基因启动子发现上游激活区的存在与否,对该 启动子的生物活性有着根本性的影响。若将该基因5′上 游–21-–47核苷酸序列切除,基因完全不表达(图4-6)。
分子生物学基础
遗传信息的转录—从 第四章 遗传信息的转录 从DNA到RNA 到
第一节 RNA转录的概述
一、RNA转录的特点 RNA转录的特点 在DNA指导下RNA的合成称为转录。RNA链的转 录起始于DNA模板的一个特定起点,并在特定的终 点终止,此转录区域称为转录单位。一个转录单 位可以是一个基因或多个基因。基因的转录是一 种有选择性的过程,随着细胞的不同生长发育阶 段和细胞内外条件的改变将转录不同的基因。转 录起始主要由DNA分子上的启动子(promoter)控 制,而控制终止的部位称为终止子(teminator)。 典型的转录单位结构如图4-1。
第四节
转录后加工
图4-12 真核生物mRNA5′–端帽结构
第四节
2.3′–端加尾
转录后加工
真核生物成熟的mRNA 3′–端通常都有100~200个腺苷 酸残基,构成多聚腺苷酸(polyA)的尾巴。通过研究发 现,DNA序列中没有多聚T的序列,由此说明了3′尾巴 polyA是在转录后加上的。研究发现,它还是多聚腺苷酸 化的信号,该序列AAUAAA,因为切除该保守序列,3′–端 则不能进行切除,也不能形成polyA尾巴。3′–端polyA尾 的形成见图4-13。

分子进化和分子系统学(转载)

分子进化和分子系统学(转载)

分⼦进化和分⼦系统学(转载)分⼦进化和分⼦系统学12.1 概念 分⼦进化⼀词有两层含义。

从⽣命历史看,在前⽣命的化学进化阶段(细胞⽣命出现之前),进化主要表现在分⼦层次上,即表现在⽣物分⼦的起源和进化上。

换⾔之,从时序上说,分⼦进化是⽣物进化的初始阶段。

但从另⼀⾓度来看,在细胞⽣命出现之后,进化发⽣在⽣物分⼦、细胞、组织、器官、⽣物个体、种群等各个组织层次上,分⼦进化是⽣物分⼦层次上的进化。

换⾔之,从组织层次上说,分⼦进化是⽣物组织的基础层次的进化。

我们通常所说的分⼦进化就是指后者。

前者通常被称为前⽣命的化学(分⼦)进化。

⼀般⽽⾔,对⾃然现象的认识过程是从⼈类感官所及的层次开始,逐步向微观和宏观两个⽅向扩展。

向微观领域的探索往往出于寻找“深层原因”的动机。

对进化原因和进化机制的探索,最终必然深⼊到分⼦层次。

向宏观领域探索则是相反的过程,即⽤已知的低组织层次的知识去认识和解释⾼组织层次现象。

如今,科学家们发现,不同层次的现象遵循不同的规律和不同的法则。

低层次的规律并不完全适⽤于⾼层次,⽤⾼层次的规律解释低层次现象也往往⾏不通。

因此,本章讨论的分⼦进化规律和分⼦进化的理论基本上只适⽤于分⼦进化。

12.2 ⽣物⼤分⼦进化的特点 在⽣物⼤分⼦的层次上来观察进化改变时,我们看到的是⼀个很不同于表型进化的过程。

根据分⼦进化研究的权威之⼀⽊村(Kimura,1989)的总结,分⼦进化有两个显著特点,即进化速率相对恒定和进化的保守性。

1.⽣物⼤分⼦进化速率相对恒定 如果以核酸和蛋⽩质的⼀级结构的改变,即分⼦序列中的核苷酸或氨基酸的替换数作为进化改变量的测度,进化时间以年为单位,那么⽣物⼤分⼦随时间的改变(即分⼦进化速率)就像“物理学的振荡现象”⼀样,⼏乎是恒定的。

通过⽐较不同物种同类(同源的)⼤分⼦的⼀级结构,可以计算出该类分⼦的进化速率。

对于某类蛋⽩质分⼦或某个基因(或核酸序列)来说,其分⼦进化速率可表⽰为氨基酸或核苷酸的每个位点每年的替换数,即 上式中的K是分⼦进化速率(每个氨基酸位点每年的替换数);d是氨基酸或核苷酸替换数⽬;N是⼤分⼦结构单元(氨基酸或核苷酸)总数; t是所⽐较的⼤分⼦发⽣分异的时间, 2t代表进化时间,进化经历的时间是分异时间的2倍。

现代分子生物学第四章ppt课件

现代分子生物学第四章ppt课件

密码子与反密码子的相互作用
tRNA的反密码子在核 糖体内是经过碱基的反 向 配 对 与 mRNA 上 的 密 码子相互作用的。
Codon 5’ A C G 3’ Anticodon 3’ U G C 5’ is usually written as codon ACG/anticodon CGU, ACG and CGU
遗传密码: mRNA上每3个核苷酸翻译成多肽链上 的一个氨基酸,这3个核苷酸就称为一 个密码子〔三联子密码〕。
4. 1. 1 三联子密码及其破译
由于mRNA中只需4种核苷酸,蛋白质中有20 种氨基酸:
以一种核苷酸代表一种氨基酸是不能够的。
假设以两种核苷酸作为一个氨基酸的密码〔二 联子〕,能代表42=16种氨基酸。
假设以3个核苷酸代表一个氨基酸,有43=64种 密码子,满足了编码20种氨基酸的需求。
从遗传学的角度证明三联子密码的想象 是正确的
Crick等人发现T4噬菌体rII位点上两个基因的 正确表达与它能否侵染大肠杆菌有关,用吖啶 类试剂〔诱导核苷酸插入或从DNA链上丧失〕 处置使T4噬菌体DNA发生移码突变 〔frameshift mutation〕,噬菌体就丧失感染 才干。
mRNA上的密码子与tRNA上 的反密码子配对表示图
a. 密码子与tRNA反密码 子臂上相应序列配对
b. 当反密码子第一位是I时, 密码子第三位可以是A、U或C。
tRNA上的反密码子与mRNA上密码子的配对与“摆动〞分析
1.3'〕X-Y-C 〔5'〕
酪氨酸
3
缬氨酸
密码子个数 6 2 1 2 4 6 4 1 2 4
除了Arg以外,编码某一特定氨基酸的密码子个数 与该氨基酸在蛋白质中的出现频率相吻合

第四章 分子进化分析

第四章 分子进化分析

1.2.3 最大似然法(ML)
最大似然法(maximum likelihood,ML) ML对 系统发育问题进行了彻底搜查。ML期望能够 搜寻出一种进化模型(包括对进化树本身进 行搜索),使得这个模型所能产生的数据与 观察到的数据最相似.
进化模型可能只是简单地假定所有核苷酸(或 AA)之间相互转变的概率相同,程序会把所有 可能的核苷酸轮流置于进化树的内部节点上, 并且计算每个这样的序列产生实际数据的可能 性(比如两个姊妹群都有核苷酸A,那么如果 假定原先的核苷酸C得到现在的A的可能性比起 假定原先就是A的可能性要小得多),所有可 能性的几率被加总,产生一个特定位点的似然 值,然后这个数据集的所有比对位点的似然值 的加和就是整个进化树的似然值。
2.选择适当的分析方法 如你分析的是DNA数据,可以选择简约法 (DNAPARS),似然法(DNAML, DNAMLK), 距离法等(DNADIST)。。。 3.进行分析 选择好程序后,执行,读入分析数据,选 择适当的参数,进行分析,结果自动保存为 outfile,outtree。
Outfile是一个记录文件,记录了分析的 过程和结果,可以直接用文本编辑器(如写 字板)打开。 Outtree是分析结果的树文件,可以用 phylip提供的绘树程序打开查看,也可以用 其他的程序来打开,如treeview。
paralogs
orthologs
1.1.2 类

祖先类群(ancestral group):如果一个类群(物种)至少有一 个子裔群,这个原始的类群就称为祖先类群 单系类群(monophyletic group)包含一个祖先类群所有子裔 的群组称为单系类群,其成员间存在共同祖先关系 并系类群(paraphyletic group)和复系类群(polyphyletic group):不满足单系类群要求,各成员间又具有共同祖先特征 的群组称为并系类群;各成员不具有共同衍生特征也不具有共 同祖先特征,只具有同型特征的分类群组称为复系类群 内类群(ingroup):一项研究所涉及的某一特定类群可称为内类 群

厦门大学进化生物学第10章分子进化和分子系统学演示教学

厦门大学进化生物学第10章分子进化和分子系统学演示教学

1)蛋白水平上进化速率不均衡性 (保守性)的体现
不同蛋白一般进化速率不等
按系统来说,一般认为参与免疫反应及 受精过程的蛋白进化速率较快,而参与胚胎 发育的转录因子则进化速率较慢。如脊椎动 物的gamma-interferon蛋白和海胆的精子顶体 蛋白Bindin都是目前发现的进化速率最快的 蛋白成员。
1.中性突变理论的提出
◌ 1968年,日本遗传学家木村资生(Motoo Kimura)
在《Nature》杂志发表了“论分子水平上的进化 速率”的评述,根据不少核苷酸和氨基酸的置换 并不影响生物大分子的生物学功能的事实,提出 了生物进化在分子水平上的“中性理论”;
◌ 次年,美国学者金和朱克斯(J.K.King & T.H.
3.中性突变理论的主要论据
1)分子层次上的大多数变异是选择中性的; 2)蛋白质与核酸分子的进化速率高而且相对
恒定; 3)突变压在分子进化中的作用在最近的研究
中得到越来越多的证实; 4)按群体遗传学的数学模式计算出来的自然
选择代价过高,不符合实际情况。
跳页
a. 哑突变占优势; b. 在生物基因组中,非编码的DNA占绝大部
此外,还有研究暗示脑部特异表达的基 因在人的这一支中进化速率较快。
同一蛋白不同区域进化速度不等
2)核酸水平上进化速率不均衡性(保守 性)的体现
• DNA密码子中的同义替换比变义替换发生
的频率高;
• 内含子内的碱基替换速率明显高于外显子,
一般大致等同于或高于同义替换;
• 外显子内部一般编码区的进化速度快于非
序列计算的,往往比实际的小。
• 校正方法:氨基酸和核酸的校正方法存在
一定差异,且根据不同基因的蛋白序列 (或核酸序列)校正方法也不尽相同。

第十章 分子进化和分子系统学.

第十章 分子进化和分子系统学.
第十章 分子进化和分子系统学
生物进化是以生物大分子为基础的, 只有从分子水平上研究生物的进化才能 触及生物进化的本质,同时也使我们采 用更加直接的手段研究生物进化成为可 能。 究竟什么是分子进化,什么是分子 系统学、分子进化的特点又是什么,如 何建立分子系统树等,诸如此类的问题 是本章要讨论的重点。
分子进化速率通常用每年、每个氨 基酸座位的替换率来表示,公式为Kaa = Kaa/2T,T为比较的两个蛋白质之间从共 同的祖先分歧开始的年数,2T为进化间, Kaa是比较的两个蛋白质之间每个氨基酸 座位替换的平均数。如果知道了用来比较 的两个物种的分歧年数和蛋白质氨基酸的 差异,就可以计算出该蛋白质的进化速率。 如人和鲨鱼的分歧年数为4.2X108年,血 红蛋白α链差异Kaa为0.76,Kaa=0.76 /2 X 4.2X10-8 = 0.9X10-9。用同样的方 法对人和鲤鱼的血红蛋白α链进行比较计 算,进化速率为0.6X10-9。
四、分子系统学和分子系统树
分子系统学是研究生物大分子进化 历史的科学,它主要研究某一生物大分 子在生物进化的过程中突变的产生、固 定以及积累的过程。分子系统学以生物 大分子进化速率的恒定性为前提,通过 比较现在同一同源分子在不同生物间的 差异以及其他信息来推断生物大分子的 进化史,以此建立生物大分子进化系统 树。
中性突变理论的本质是分子突变从 严格的意义上讲是选择中性的,即对生 物本身来讲既无利也无害,它的命运几 乎取决于遗传上的随机固定,所以在分 子进化的过程中,突变压和随机固定起 着重要作用。只有进一步导致形态和生 理上的差异后自然选择才能发挥作用。 关于中性理论内容和传统的进化论之间 的区别以及中性理论的证据,木村资生 进行了详细论述。
M . O . Dayhof 对蛋白质的氨基酸 变化进行了广泛的研究,收集了大量的数 据,其中研究最详细最深入的蛋白质是脊 椎动物的血红蛋白(珠蛋白)和肌红蛋白。 血红蛋白在血液中运输氧和二氧化碳;肌 红蛋白具有在组织中贮存氧的功能。 1 .氨基酸差异比例的计算 2.氨基酸差异比例的校正 3.分子进化速率的计算及其恒定性

生物信息学第六章分子系统发育分析 ppt课件

生物信息学第六章分子系统发育分析  ppt课件

姊妹群是单系类群的一种常见类 型。
• 图4-1示出树6个分类群(A-F)进 行不同划分所产生的单系、并系 和复系类群的例子。图4-1(a)中 单系类群为:{A,B},{E,D, F}、{C,D,E,F}、 {A,B,C,D,E,F}
• 图4-1 (b)中并系类群为:{C, D,E}、 {B,C,D, E, F}等
第四章 分子系统发育分析
§4.1分子进化的基本概念
• 系统发生学是进化生物学的一个重要研究领域,系统发生分 析早在达尔文时代就已经开始。从那时起,科学家们就开始 寻找物种的源头,分析物种之间的进化关系,给各个物种分 门别类。
• 经典系统发生学研究所涉及的特征主要是生物表型 (phenotype)特征,所谓的表型特征主要指形态学的(结构的) 特征,如生物体的大小、颜色、触角个数,也包括某些生理 的、生化的以及行为习性的特征。通过表型比较来推断生物 体的基因型(genotype),研究物种之间的进化关系。但是, 利用表型特征是有局限性的。有时候关系很远的物种也能进 化出相似的表型,这是由称为趋同进化的过程造成的。
4.1.1同源性与同源性状
• 同源性(homology)是比较生物学中的一个中心概念。第3章 和第4章中已涉及序列同源性检索方面的内容。这里,将进 一步讨论有关序列同源性分析的基本概念。同源,最基本的 意义就是具有共同祖先。一般来说,如果两个物种中有两个 性状(状态)满足以下两个条件中的任意一个,就可以称这两 个性状为一对同源性状(homologous character):
• 用表型来判定进化关系的另一个问题是,对于许多生物体很难检 测到可用来进行比较的表型特征。例如,即使用显微镜检查,也 难以发现细菌的明显特性。
• 当我们试图比较关系较远的生物体的时候,第三个问题又出现了, 即什么样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺 乳动物,它们之间的共同特征实在是少之又少。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四部分分子生物学在系统学中的运用分子系统学(molecular systematics)是检测、描述并解释生物在分子水平的多样性及其演化规律的学科,是一门综合性很强的交叉学科。

其理论基础来源于系统学、分类学、遗传学、比较生物化学、分子生物学和进化论,其方法来源于免疫学、仪器分析、生物化学和分子生物学。

它是随着PCR技术、限制性内切酶等现代生物学技术的诞生及其在系统学中的应用和发展而形成的,经过几十年的发展,分子系统学逐渐形成了自身的原理和分析方法。

实验1 实验数据的获取进入NCBI主页(/)后,在Search框中选择nucleotide,在For后输入Grylloidea complete mitochondrion,即蟋蟀总科全线粒体后,点击Go即可搜索出符合条件的序列。

在搜索结果中浏览已经测序的蟋蟀总科全线粒体基因组,发现该总科已经被测序的有5种。

点开每一种的序列号,即可得到全线粒体基因序列及相关信息。

本研究所选择的5种蟋蟀总科及外群全线粒体基因序列数据的分类地位及来源见表2-1。

所用线粒体基因组主要来自于截止2012年3月为止GeneBank中收录的所用蟋蟀总科昆虫。

以NCBI中收录的东方蝼蛄(Gryllotalpa orietalis)和斑蝼蛄(Gryllotalpa pluvialis)作为外群。

实验2实验数据处理和分析所下载的5种昆虫的全线粒体基因序列所编码的基因完全相同,均为ATP6,ATP8,COX1,COX2,COX3,CYTb,ND1,ND2,ND3,ND4L,ND4,ND5,ND6基因。

将表2-1中所列的线粒体基因组编码的13个蛋白编码基因以及其联合数据分别作为一个独立的Fasta格式文件。

用ClustalX1.83进行多重序列比对,参数设置均设置默认。

将比对好的13种蛋白编码基因及联合数据集分别建成14个数据集。

(1) 序列组成分析经ClustalX 1.83软件比对后的序列为aln格式,在MEGA中打开并转化为meg格式,在使用MEGA 4.1软件进行比对结果的分析。

计算各个种之间的遗传距离(及其标准差),各数据组碱基的组成(nucleotide composition)、保守位点(conserved sites)、变异位点(variable sites)、简约信息位点(parsimony information sites)、自裔位点(singleton sites)、两两碱基频率(nucleotide pair frequency)、转换与颠换的比值R(Ts/Tv)等。

并进行碱基组成偏向性分析和碱基替换饱和性分析等。

所有进化模型均假设各支系的碱基组成处于平衡状态,所以在数据分析之前,需要对数据组的碱基组成偏向性(base composition bias)进行检验。

(2) 数据组系统发育信号检测如果转换颠换比的值小于2.0此基因序列的突变已达到饱和状态,可能会发生多重替换,受进化噪音影响的可能性较大,给系统发育分析带来困难,因此要对各数据集进行碱基替换饱和分析。

实验3 系统发育分析软件分子生物之形质资料与一般传统形态形质资料之性质不同,故在计算生物间的相似度的方法或系数种类亦不同,特别需考虑sequence alignment的问题,而并非单纯或直接去比对各形质之异同。

1. ClustalX2.0:用来对核酸与蛋白序列进行多序列比较(multiple sequence alignment)的软件。

多序列比较在分子生物学中是一个基本方法,用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子进化分析方面均有很大帮助。

2. PHYLIP(Ver.3.68):Phylogeny Inference Package,内含三十余种独立程序可分析各种类型之资料及选用不同的分析方法。

它可以分析DNA与蛋白序列,限制位点等,并可绘制进化树。

程序含有许多选项可以精确控制与分析。

3. TreeView 1.6.6:TreeView是用来生成与打印进化树的软件它可以读取NEXUS与PHYLIP生成的进化树格式文件,生成进化树,并输出到打印机。

4. PAUP 4.0b(Win):PAUP是由Swofford所编写的利用简约分析进行系统发育分析(phylogenetic analysis using parsimony)的软件包,目前亦有多个版本。

该软件包中提供了简约分析用的多种模型,其中包括了Wangner、Fitch、Doll、Camin-Sokal等,对系统发育分析结果亦可进行一些统计分析及自举检验。

PAUP具有IBM-PC和Macintosh两种文本供选择。

5. MEGA 4.1:分子进化遗传分析MEGA(molecular evolutionary genetics analysis)是由Kumar等(1993)所编写的分子进化遗传分析的软件包。

在版本4.1中,它能对DNA、mRNA、氨基酸序列及遗传距离进行系统发育分析。

在建树方法上,提供了目前最常用的UPGMA、邻近法及最大简约法,对所获得数亦可进行自举检验及标准误估计可靠性检验。

6. MrBayes (Version 3.1.2):MrBayes软件可进行贝叶斯系统发育推论分析,其网址为http://morphbank.ebc.uu.se/mrbayes,目前可以免费下载。

该软件以NEXUS格式输入数据,但如果数据为隔行,则必须加入interleave=yes。

数据可以是核酸或氨基酸序列,也可以是限制性位点或以0、1表示的形态数据。

可以通过批处理或逐步执行的程序。

MrBayes软件可以通过不同的方法汇总模型参数的后置分布,包括系统树布局和分支长度,该软件还可以推导祖征和位点速率。

实验4 系统发育树构建1 距离矩阵法(distance-matrix methods)距离法矩阵是指以距离系数矩阵为基础的各种系统发育分析方法。

这类方法首先要求原始数据以成对分类单元之间的距离形式表示,对于性状数据编码后要转换成距离数据。

当距离关系满足超度量特性时,可以直接应用聚类分析方法构建超度量树,否则就要用叠加树法。

这类方法的优点是算法较性状数据分析方法简单直观,对进化过程没有其它更多的假设,故系统分析的结果具有稳定性。

基于距离构建系统树的方法很多,其中被证明能有效用于实际数据分析的方法有算数平均的不加权的组队法(UPGMA)、最小进化法(ME)和邻接法(NJ)。

2 简约性方法(parsimony methods)简约性方法源于形态性状研究,该方法的理论基础是ockham的哲学原理,即解释一个过程的最好的理论是所需假设数目最少的那一个。

如果对系统发育推断所需要知道的进化愈少,结果就愈可信。

与其他方法比较,简约法依靠较少或简单的进化假设,可以直接利用原始数据,不需要将原始数据转换成距离数据,可以避免信息丢失,而且大多数简约法的计算机算法及程序比其它方法更成熟。

该方法既可以用于核昔酸数据,也可以用于氨基酸数据。

简约性方法中最常用的为MP法(maximum parsimony,最简约法)。

简约法是一种不依赖任何进化模型的方法,能快速地分析出大量序列之间的系统发生关系,所构建的树中的短分支更接近真实,但简约树的树长值完全决定于所有重建祖先序列中的最小突变数,而突变是否按照事先约定的核昔酸最少替代的途径进行是不得而知的,单一的突变图谱可能会得出似是而非的结论。

再者,所有分支的突变数不可能相同,由于没有考虑核昔酸的突变过程,使得长分支末端的序列由于趋同进化而显示较高的相似性。

趋同现象违背了简约法则,导致的结果是对“长支吸引”的敏感。

因此,当序列单位位点上核昔酸替代数相对较大时,则极可能得出错误拓扑结构的树。

3 最大似然法(maximum likelihood method,ML法)最大似然法是应用统计推断构建系统发育关系的典型方法。

其原理是,只要建立一个关于进化过程的模型和一组观测数据就可以进行统计推测,一棵树(T)的似然性(L)是产生该树的观测数据(D)与进化模型(M)的概率。

在给定D和H的条件下,不同分枝形式和分枝长度的树有不同的似然性数值,极似然法的标准是选择具有最大似然值的树。

其分析的核心在于替代模型,目前根据碱基频率的相等或不等、转换和颠换速率的相等或不等、位点间替换速率异质性的有无以及不变位点比例的高低等特征提出的替代模型很多,仅在Modeltest软件中实际使的就达到56种,模型的正确选择也就成为极似然法的关键所在。

似然法似乎是几种常用方法中最为接近序列实际进化的方法,它考虑了所有可能的突变路径,能完全利用数据的系统发生信息。

然而,极似然法构建的系统树在很大程度上依赖于对核昔酸替代模型的选择。

似然法运算强度极大,对于分类单元较多时十分费时,这也是似然法应用的最大障碍。

而且似然法并没有评估拓扑结构的优劣,而是假定分支长度估计最精确的拓扑结构为最优树。

实际上,系统发生所关心的是树的拓扑结构,分支长度反而成为干扰参数,忽略分支长度似乎更合理些。

4 贝叶斯推论法(Bayesianinference)贝叶斯推论法是建立在后验概率(posterior probablity)基础上的,有关类群历史的推断是根据树的后验概率进行的,具有最高后验概率值的树的分支格局就可以作为有关类群系统发育关系的最佳估计。

一系列数值方法可以用于近似的获得后验概率,其中最有用的是Markov链Monte Carlo。

算法,其基本思想是建立Markov链,以替代模型参数作为状态空间,其静态分布就是参数的后验概率分布,通过计算机模拟和抽样技术获得分支格局的后验概率。

贝叶斯推论的优点在于能够以很高的计算速度处理大型数据集,同时提供了衡量树可信性的有效参数一后验概率。

贝叶斯法和极似然法相似,都是选定一个进化模型,然后通过程序搜索模型和序列数据一致的最优系统树。

但二者基本的不同在于,似然法是以观察数据的最大概率来拟合系统树。

贝叶斯法正好相反,是通过系统树对数据及进化模型的最大拟合概率而得到系统树。

极似然法给出的是数据的概率,而贝叶斯法给出了模型的概率。

极似然法搜索单一的最相似系统树,贝叶斯法得到的是具有大致相等似然值的系统树集合。

所有系统树的后验概率加在一起等于1,任何分支上的后验概率就是所有系统树该分支的后验概率之和。

将所有系统树按照后验概率大小排列,然后将具有最大后验概率的系统树加在一起,直至后验概率大于0.95通常,在此95%置信概率,贝叶斯法会给出唯一的系统树。

相关文档
最新文档