08 构建进化树 17-18

合集下载

构建进化树的步骤

构建进化树的步骤

构建进化树的步骤通常包括以下几个关键环节:
1. 数据收集:收集相关的生物序列数据,这些数据可以来自于公共数据库,如NCBI的GenBank,也可以通过实验获得。

序列数据包括DNA或蛋白质序列。

2. 序列alignment(序列比对):使用比对软件如Clustal Omega、MAFFT、MUSCLE等,将收集到的序列进行比对,以确保序列的同源性,并消除由于序列变异导致的噪音。

3. 序列拼接和校正:对测序得到的正向和反向序列进行拼接和校正,以获得完整的序列。

常用的拼接软件有Contig Express、Geneious 和Sequencher等。

4. 选择合适的模型:根据序列数据选择合适的进化模型。

可以使用软件如Modeltest来评估不同的进化模型,选择BIC(Bayesian Information Criterion)分数最低的模型。

5. 建树:选择合适的软件和建树方法来构建进化树。

常用的软件有MEGA、PhyML、MrBayes等,建树方法包括NJ(邻接法)、MP (最大简约法)、ML(最大似然法)等。

6. 建树检验:使用如Bootstrap方法等来检验所建树的稳定性和可靠性。

Bootstrap方法通过重复抽样来检验建树的节点支持度。

7. 绘制进化树:使用软件如TreeDraw、FigTree或在线工具来绘制进化树的图像,以便于分析和展示。

构建进化树

构建进化树

此法简单实用,树形美观。
关于clusatalX、treeview、bootstrap和系统发育树2008-06-10 16:40看说明书看的晕晕的,前面学了,后面忘了。这里转载某前辈的!以后自己总结,写下来才好呢!
用Clustal X构建N-J系统树的过程
(1) 打开Clustal X程序,载入源文件.
3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与 phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。
Bootstrap几乎是一个必须的选项。一般Bootstrap的值>70,则认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。
对于进化树的构建,如果对理论的了解并不深入,作者推荐使用缺省的参数。需要选择模型的时候(例如用NJ或者ML建树),对于蛋白序列使用Poisson Correction模型,对于核酸序列使用Kimura-2参数模型。另外需要做Bootstrap检验,当Bootstrap值过低时,所构建的进化树其拓扑结构可能存在问题。并且,一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。
这里,作者在这里对问题2-6进行简要地解释和讨论,并希望能够初步地解答初学者的一些疑问。
二、方法的选择
首先是方法的选择。基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等。其他的几种方法包括MP(Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中UPGMA法已经较少使用。

生物大数据分析中的进化遗传树构建方法与技巧

生物大数据分析中的进化遗传树构建方法与技巧

生物大数据分析中的进化遗传树构建方法与技巧进化遗传树(Phylogenetic Tree)是生物学研究中用于分析物种关系和演化历程的重要工具。

通过构建进化树,我们可以了解不同物种之间的进化关系,揭示物种的演化历史以及预测它们之间的共同祖先。

在生物大数据分析中,构建进化遗传树有着重要的意义,因为它可以帮助我们理解生物的遗传多样性、物种起源以及群体分化等重要生物学问题。

在构建进化遗传树的过程中,我们需要根据生物学数据来推断物种间的关系。

这些生物学数据可以是DNA或RNA序列、蛋白质序列、形态特征等。

为了准确地构建进化遗传树,我们需要选择合适的方法和技巧。

下面将介绍一些常用的进化遗传树构建方法和技巧。

1. 距离法(Distance-based methods):距离法是通过计算物种间的相似度或差异度来构建进化遗传树的方法。

常用的距离法包括最邻近法(Neighbor Joining)、最小进化法(Minimum Evolution)和最大简约法(Maximum Parsimony)等。

这些方法根据不同的算法和模型,通过计算物种间的距离矩阵来构建进化关系。

2. 贝叶斯方法(Bayesian methods):贝叶斯方法是一种基于统计模型和概率推断的进化遗传树构建方法。

它通过采用贝叶斯推断和蒙特卡洛马尔科夫链蒙特卡洛算法(MCMC)来估计进化树的拓扑结构和参数。

贝叶斯方法具有高度灵活性和更准确的模型,适用于复杂的进化树推断问题。

3. 最大似然方法(Maximum likelihood methods):最大似然方法是一种常用的基于概率统计的进化遗传树构建方法。

它通过最大化观测到的数据出现的概率,推断出可能的进化树。

最大似然方法考虑了模型中的参数估计问题,并用参数化的模型来描述进化过程,从而提高了推断结果的准确性。

在进行进化遗传树构建时,还有一些技巧需要注意,以保证结果的准确性和可靠性:1. 数据质量的控制:数据质量是构建进化遗传树的关键因素之一。

构建生物进化树的方法比较

构建生物进化树的方法比较

极为详细的建树方法,新手入门推荐生物进化树的构建目录前言 (2)一、 NCBI (6)二、 Mega (9)三、 DNAMAN (15)四、DNAStar (18)五、 Bio edit (21)前言1.背景资料进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。

在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。

所以,进化树简单地表示生物的进化历程和亲缘关系。

已发展成为多学科(包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。

归纳总结生物进化的总趋势有以下几类:①结构上:由简单到复杂②生活环境上:由水生到陆生③进化水平上:由低等到高等一般来说,进化树是一个二叉树。

它由很多的分支和节点构成。

根据位置的不同,进化树的节点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。

而物种之间的进化关系则用节点之间的连线表示。

内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。

在同一个进化树中,分类单元的选择应当标准一致。

进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。

进化树一般有两种:有根树和无根树。

有根树有一个鲜明的特征,那就是它有一个唯一的根节点。

这个根节点可以理解为所有其他节点的共同祖先。

所以,有根树能可以准确地反映各个物种的进化顺序,从根节点进化到任何其他节点只有能有一条惟一的路径。

无根树则不能直接给出根节点,无根树只反映各个不同节点之间的进化关系的远近,没有物种如何进化的过程。

但是,我们可以在无根树种指派根节点,从而找出各个物种的进化路径。

无根树有根树放射树分子进化树(以分子数据为依据构建的进化树)不仅精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异(小至一个氨基酸或一个核昔酸差异),而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代,这对进化论的研究而言无疑是一场革命。

分子进化学中的进化树构建方法

分子进化学中的进化树构建方法

分子进化学中的进化树构建方法随着科技的进步和生物技术的广泛应用,分子生物学的研究逐渐深入,成为生物学、生物技术和医药学等领域的重要研究方向。

而分子进化学作为分子生物学中的一个重要分支,研究物种间的分子差异和进化关系。

其中,构建进化树是分子进化学研究中的重要工作,下面我们来了解一下进化树构建的方法。

一、进化树的基本概念进化树是描述不同物种、不同基因或不同蛋白质之间进化关系的图形化表示。

在进化树中,每一个分支代表了一个物种、一个基因或一个蛋白质序列,分支的长度表示了物种、基因或序列的进化距离,而进化距离则是衡量不同物种或不同序列之间关系的基本参数。

而构建进化树的过程则是根据分子序列数据的重构得到物种或基因的进化树。

二、进化树的构建方法构建进化树有多种方法,主要有距离矩阵法、系统发育学法、最大似然法和贝叶斯法等。

下面我们逐一介绍这些方法的基本原理。

1.距离矩阵法距离矩阵法是最早采用的一种构建进化树的方法,它基于序列之间的距离矩阵计算和聚类方法来得到进化树。

该方法首先计算所有分子序列之间的距离(距离可由序列相似性计算得出),然后根据聚类方法构建进化树。

聚类方法包括单链接聚类、均链接聚类和最大链接聚类等。

距离矩阵法的优点是构建速度快、适用性广,但是对于高变异的序列来说,该方法可能会产生误导性的结果。

2.系统发育学法系统发育学法是基于系统学原理,采用系统发生学的理论和方法来构建进化树。

该方法主要是通过分子序列的相似性构建系统发育分析矩阵,然后利用不同的计算方法(如UPGMA、NJ和ML等)推断进化树。

系统发育学法的优点是能够更准确地反映分子序列的演化,并且可以通过不同的方法比较结果,但是该方法需要大量的计算资源和长时间的计算。

3.最大似然法最大似然法是一种统计学上的方法,通过最大化序列数据与观测数据的相似度,来推断出最可能的进化树。

该方法需要整合进化模型和数据,然后计算不同进化模型下数据的似然函数,最终选择似然度最大的进化树。

序列比对,构建进化树

序列比对,构建进化树

1从NCBI上下载某个基因在其他物种的序列比如,下载caveolin基因在其他物种的序列NCBI地址:/在search一栏的下拉列表中选择Nucleotide,for后面的一栏中输入自己要查询的基因。

完毕,点击GO确认。

可得到一下结果:每一条记录分别是某个物种的caveolin的序列,以第10条记录为例,称为GenBank 登录号。

为拉丁文的人类的字母,表示物种,表示基因名称(caveolin基因家族共有3个主要基因,分别称为1,2,3)表示此序列为cDNA,不含内含子。

下图中的NEXT表示翻页,查看剩余的记录。

打开第10条记录可看到下图:现在你需要保存下来得就是上面的这一串(碱基)核酸序列。

复制黏贴(包括上面表示顺序的数字)到TXT文本中备用。

打开DNAMAN软件,左上角点击file-new,出现下图:可以把先前从NCBI下载的序列(保存到TXT文本中得)复制到箭头指示处,得到:并按照上图左上角file-save as(注意此文件得保存名称为保存的此物中得名称),已上是DNAMAN软件中seq序列格式的保存方法。

2 序列编辑和比对(DNAMAN软件)你们实验PCR得到的序列只是某个基因上的一部分,所以为了进行不同物种间的比对,要把下载下来的其他物种的某个基因的序列进行删减,以使两段基因是大约相同长度的片段进行比对。

以人类caveolin1基因为例说明一下。

按照1,2,3得顺序依次打开,得到下图:点击上图中的1,你会得到下图,点击2是清楚所有刚才选进比对的序列(为了重新选择序列),3是有选择的删除某个序列。

当然,把你的所有准备的序列保存好以后,从查找范围这个下拉列表中寻找你要比对的序列。

可以按住ctrl点击你要比对的几个序列(同时选中)选完点击打开。

再点下图中得确定键。

得到下图:找好这两个物种重合的那个核苷酸的序号(前后两段都是),然后打开你保存的seq格式的序列,数出刚才比对重合部分的后端的碱基数,把这个碱基后面的序列删掉,再用此方法把比对重合部分前段得序列删掉,保存。

进化树的构建和序列提交

进化树的构建和序列提交
e. 树处理好后,点击 file →copy →粘贴到一 张幻灯片上→右键→组合→取消组合
f. 再将树复制到word上,然后进行修改。
二 如何提交序列
在NCBI提交序列主要有四种方式:Bankit, sequin,tabl2asn,Barcode submission tool.
我们实验室提交序列用的是Bankit, 因为它 是在网上直接提交便捷而且速度很快。
(2)打开treecon: a. 点击Distance estimation →start distance
estimation →载入刚刚保存的PHYLIP格式的 文件→ PHYLIP interleased → select all →ok → taken into account Yes → ok → Bootstrap samples 100 → ok b. 点击Infer tree topology →start inferring tree topology →Bootstrap analysis Yes →ok
c. 点击Root unrooted trees →start rooting unrooted trees →Bootstrap analysis Yes →ok →select root →ok
d. 点击Draw phylogenetic tree →file →open →(new) tree
1 16S序列的提交:
2 其他基因序列的提交:与16S相比,主要 是多了一步将序列翻译成蛋白,其他的填 写一样。http://www.expasy.ch/tools/dna.html
2 找比对的序列:一般都是把自己的序列在 NCBI上Blast, 然后找相近的序列进行比对。

构建系统进化树的详细步骤

构建系统进化树的详细步骤

构建系统进化树的详细步骤1. 建树前的准备工作1.1 相似序列的获得——BLASTBLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。

国际著名生物信息中心都提供基于Web的BLAST服务器。

BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。

首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。

这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。

它们都有一个大的文本框,用于粘贴需要搜索的序列。

把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。

如果是DNA序列,一般选择BLASTN搜索DNA数据库。

这里以NCBI为例。

登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。

BLASTN结果如何分析(参数意义):>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, completesequenceScore = 2020 bits (1019), Expect = 0.0Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / PlusQuery: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60|||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120|| ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似; Expect:比对的期望值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7 构建进化树
•树是图论中的一个概念,它是描述生物物种及基 因之间各种进化关系的一种图形化手段。 •进化分析都是根据现有的各种证据去推测真实的 进化历史,进化树构建的更准确说法是“进化树 推断/估计”。
•推断并构建进化树是进化分析中最重要的研究内 容之一。
背景知识:分子进化与物种形成的关系
基因分化事件发生 在物种形成前后。
3,重新计算新的距离矩阵,并找到最小的距离组,做 进一步的合并 。
A B C DE 9 8 13.5 B 11 16.5 C 11.5
d(DE)A=(dAD+dAE)/2, 即d(DE)A=(12+15)/2=13.5, 依此类推
A
C
A
C D
E
(A,C)
(A,C) (D,E)
4,重新计算新的距离矩阵,并找到最小的距离组,做 进一步的合并 。
1,简约类方法; 2,统计类方法; 3,距离类方法。
4,进化树评估
7.3.1 最大简约法(Maximum Parsimony)
最少
最节约
简约法的基本假设:生物序列总是采用某种“最节约成 本”、“最经济”的方法来完成进化过程(转换次数少)。
G
G
简约法的算法思想: 1 ,按照分类单元,罗列所有的拓扑 结构; 2 ,在杂的无根树
7.2.1 系统发育树的解析
(分支)
(operational taxonomic units)
(分类/分枝)
(节点)
进化树中,分支的长度具有什么意义?
将分支长度带有时间信息的称为标度树;否则称为拓扑树。
7.2.2 系统发育树的不同形状
7.2.3 系统发育树的拓扑结构
树的分叉模式称为树的拓扑结构。
1 2 3 3 1 2 1
3
2
7.2.4 系统发育树的形成
7.3 系统发育树的构建
1,序列的选择 优先选择“进化信号”比较强的序列(亲缘性/同源性比 较高的序列 )。序列差异过大,进化树的可靠程度降低。
2,多序列比对
有时为了后续分析的简化,通常在序列比对后要去除带 空位的比对列。 3,进化树的推导 首先获得拓扑结构;确定分支长度;根据需要,定根。
7.3.3.1 UPGMA法构建进化树
1,比较5条DNA序列。
2,构建5条DNA序列的距离矩阵,找到距离矩阵中最小值 ,然后把距离最小的一组聚到一个分枝中。
A B C D E 9 8 12 15 B 11 15 18 C 10 13 D 5
图中数值为两两比对中失配的核苷酸数目,如dAB=9
D
E
(D,E)
7.3.2 最大似然法(Maximum likelihood)
似然法完全是基于统计的方法:在特定的模型下,统计每 个序列位点替换的概率,概率大的事件在一次进化事件中 最容易发生(概率大)。 似然度的计算完全依赖于在特定模型下的观测概率
案例:
似然法的优缺点:
优点:ML法充分考虑了不同进化模型下的序列突变的概率 问题,因此,推导出的进化树的可靠度比较高。
缺点: ML法需要计算所有的可能拓扑结构下的概率值,从中 得到概率最大的拓扑结构,因此该算法时间开销较大, 同时生成的树不一定是唯一的。
7.3.3 距离法(Distance Method)
距离法:根据距离模型,推导分类单位之间的进化距离, 构建一个进化距离矩阵。 1,UPGMA 非加权算术平均法 (unweighted pair-group method using arithmetic average) 2,邻接法 (neighbor-joining method)
B AC DE 10 16.5 AC 12.5
d(AC)(DE)=(dADE+dCDE)/2=(13.5+11.5)/2=12.5, 依此类推
A
C D B
E
((A,C),B ) (D,E)
7.3.3.2 邻接法 Neighbor-joining method
邻接法的距离衡量是近似距离函数: δij=(n-4).dij-∑k≠i,j (dik+djk)
区别于基于化石等 生物形态的进化分 析的—分子进化。
直系同源(Orthologs)和旁系同源(Paralogs)
1,伴随物种分化而产生基因分歧,但拥有共同功能,这些 基因之间为直系同源。 2,伴随基因复制在同一物种内产生基因分歧,产生功能上 改变,这些基因之间为旁系同源。
7.1 树与二叉树
根节点与两个分支 相连接,为二叉树。
案例:
假定已知三条DNA序列如下:
S1:CGA S2:CTG S3:CTA
利用MP法可得到3个简约程度相同的拓扑结构
CTA
CTA CTA
CTA
CTA
CTA
1
1
S2:CTG S3:CTA
1
1
S1:CGA
1
S1:CGA
1
S3:CTA S2:CTG
S2:CTG S3:CTA S1:CGA
MP法可以产生不同的树,但成本相同
距离法的优缺点:
优点:1,运算速度快;2,可以得到单一的最优树
缺点: 只考虑序列之间的差异,没有考虑序列差异产生的难 易程度。故适用于序列较短,序列进化距离不大的分析。
总结:
7.4 构建进化树的相关软件
7.4.1 MEGA的使用
•简约法的优缺点:
优点:MP法中没有直接引用分子进化模型,从而避免任何 模型所产生的误导性结论,这是MP法最大的优势。 缺点: 1, MP主要用于推测进化树最可能的拓扑结构,而不会 对分支长度进行估计。 2, 对于序列差异较大,序列较长的分类单元,由于 拓扑结构庞大,序列指派方式复杂,MP法的时间开销将 是巨大的。
1,含有n(n>=3)个待分类单元的二叉无根树,内部节点数目为 n-2,分支总数为2n-3,不同拓扑结构的数目为(2n-5)!/2n-3(n-3)!
2
1 3 2 2 2 1 4 3
1
3
1
4 3
4
2,含有n(n>=3)个待分类单元的二叉有根树,内部节点数目为 n-1,分支总数为2n-3,不同拓扑结构的数目为(2n-3)!/2n-2(n-2)!
7.2 系统发育树 Phylogenetic tree
系统发育树(Phylogenetic tree):指一种二叉树结构。 由一系列节点(node)和分支(branch)组成。每个节点 代表一个分类单位(物种或序列),而节点之间的连接 线代表物种之间的进化关系。
•有根树和无根树
注:无根树不包含进化方向的信息,仅展示了所有 待分类单元之间的相对关联性。
相关文档
最新文档