分子进化树构建及数据分析的简介

分子进化树构建及数据分析的简介
分子进化树构建及数据分析的简介

【转载】分子进化树构建及数据分析的简介+oldfish的批评意见

分子进化树构建及数据分析的简介

mediocrebeing, rodger, lylover1[1], klaus, oldfish, yzwpf

一、引言

开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类:

1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。

3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。

4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。

5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。

6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。

7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。

由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

这里,作者在这里对问题2-6进行简要地解释和讨论,并希望能够初步地解答初学者的一些疑问。

二、方法的选择

First of all, I have no intention to be offensive, please take my apology if you feel like that. I am not sure about the purpose of this draft, is it only for watering in https://www.360docs.net/doc/5a10867101.html, or something else? Simply ignore my suggestions when you think it's reasonable.

首先是方法的选择。基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等。其他的几种方法包括MP(Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中UPGMA法已经较少使用。

一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。(All tree-reconstruction methods suffer from long branch attraction including ML, the situation is the worst for MP. Better mention it is not only for NJ.)贝叶斯的方法则太慢。(MP can also be extremely slow if we have a large number of sequences because of all the possible “equally parsimonious trees”)对于各种方法构建分子进化树的准确性,一篇综述(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。(Maybe it is worthwhile to list another two review papers, Trends in Genetics 17:262–272 (2001), Nature Rev. Genet.

4:275–284(2003). They were not branch newly published in 2005 or 2006, but they comprehensive and actually the basic ideas never changed.)

对于NJ和ML,是需要选择模型的。(For distance methods like NJ, the single most important thing is the distance matrix while we do not have to obtain this matrix under a specific substitution model.) 对于各种模型之间的理论上的区别,这里不作深入的探讨,可以参看Nei的书。对于蛋白质序列以及DNA序列,两者模型的选择是不同的。以作者的经验来说,对于蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型。而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。(I am really confused by these recommendations because there are tons of works to show reasonably more complicated models perform much better than these simple models. Poisson-Correction model can be thought as the protein version of Jukes-Cantor model, which is the simplest probabilistic model for nucleotide substitutions. It's also quite unrealistic to assume the equal nucleotide frequencies by using K2P.)如果对各种模型的理解并不深入,作者并不推荐初学者使用其他复杂的模型。(I do think it is worthwhile to know something about the models instead of using default settings only, maybe you can introduce David Posada's ModelTest software here.)

Bootstrap几乎是一个必须的选项。一般Bootstrap的值>70,则认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。(Is it reasonable to say “the tree topology is wrong” when we don't even know the correct answer? Maybe just mention the tree is unreliable is enoug

对于进化树的构建,如果对理论的了解并不深入,作者推荐使用缺省的参数。需要选择模型的时候(例如用NJ或者ML建树),对于蛋白序列使用Poisson Correction 模型,对于核酸序列使用Kimura-2参数模型。(Again, I do not like these recommendations.)另外需要做Bootstrap检验,当Bootstrap值过低时,所构建的进化树其拓扑结构可能存在问题。并且,一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。

三、软件的选择

表1中列出了一些与构建分子进化树相关的软件。

构建NJ树,可以用PHYLIP(写得有点问题,例如比较慢,并且Bootstrap检验不方便)或者MEGA。MEGA是Nei开发的方法并设计的图形化的软件,使用非常方便。作者推荐MEGA软件为初学者的首选。虽然多雪列比对工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用来构建进化树。(The guide tree in ClustalX takes the distance matrix based on the scoring matrix, this kind of measure for evolutionary distance is sloppy, I guess that's why it is called “guide tree”.)

构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对学术免费。因此,作者并不建议使用PAUP。而MEGA和PHYLIP也可以用来构建进化树。这里,作者推荐使用MEGA来构建MP树。理由是,MEGA是图形化的软件,使用方便,而PHYLIP则是命令行格式的软件,使用较为繁琐。对于近缘序列的进化树构建,MP方法几乎是最好的。

构建ML树可以使用PHYML,速度最快。或者使用Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。而PAML则并不适合构建进化树。ML 的模型选择是看构出的树的likelihood值,从参数少,简单的模型试起,到likelihood 值最大为止。ML也可以使用PAUP或者PHYLIP来构建。这里作者推荐的工具是BioEdit。BioEdit集成了一些PHYLIP的程序,用来构建进化树。Tree-puzzle是另外一个不错的选择,不过该程序是命令行格式的,需要学习DOS命令。PHYML的不足之处是没有win32的版本,只有适用于64位的版本,因此不推荐使用。(It is not true, PhyML has compiled executables for standard PC running windows.)值得注意的是,构建ML树,不需要事先的多序列比对,而直接使用FASTA格式的序列即可。(This is not true. As I know, all the evolutionary models incorporating indels are not practical at this stage and they are not widely implemented at all.)

贝叶斯的算法以MrBayes为代表,不过速度较慢。(It is not true. ML can be even slower when the surface of likelihood is very flat, the optimization procedure will almost never get to that peak. Th power of taking into account the uncertainty in tree reconstruction Bayesian framework should anyway be mentioned somewhere due to popularity of Bayesian methods.)一般的进化树分析中较少应用。(No, I don't agree)由于该方法需要很多背景的知识,这里不作介绍。

表1 构建分子进化树相关的软件

软件网址说

ClustalX

http://bips.u-strasbg.fr/fr/Documentation/ClustalX/ 图形化的多序列比对工具

ClustalW

https://www.360docs.net/doc/5a10867101.html,/biosi/research/biosoft/Downloads/clustalw.htm

l 命令行格式的多序列比对工具

GeneDoc

https://www.360docs.net/doc/5a10867101.html,/biomed/genedoc/ 多序列比对结果的美化工具

BioEdit

https://www.360docs.net/doc/5a10867101.html,/BioEdit/bioedit.html 序列分析的综合工具

MEGA

https://www.360docs.net/doc/5a10867101.html,/ 图形化、

集成的进化分析工具,不包括ML

PAUP

https://www.360docs.net/doc/5a10867101.html,/ 商业软件,集成的进化分析工具

PHYLIP

https://www.360docs.net/doc/5a10867101.html,/phylip.html 免费的、集成的进化分析工具

PHYML

http://atgc.lirmm.fr/phyml/ 最快的ML 建树工具

PAML

https://www.360docs.net/doc/5a10867101.html,/software/paml.html ML 建树

工具

Tree-puzzl

e

http://www.tree-puzzle.de/ 较快的ML 建树工具

MrBayes

https://www.360docs.net/doc/5a10867101.html,/ 基于贝叶斯方法的建树工具

MAC5

https://www.360docs.net/doc/5a10867101.html,/software/mac5/ 基于贝叶斯方法的建树工具

TreeView

https://www.360docs.net/doc/5a10867101.html,/rod/treeview.html 进化树显示工具

需要注意的几个问题是,其一,如果对核酸序列进行分析,并且是CDS编码区的核酸序列,一般需要将核酸序列分别先翻译成氨基酸序列,进行比对,然后再对应到核酸序列上。这一流程可以通过MEGA 3.0以后的版本实现。MEGA3现在允许两条核苷酸,先翻成蛋白序列比对之后再倒回去,做后续计算。其二,无论是核酸序列还是蛋白序列,一般应当先做成FASTA格式。FASTA格式的序列,第一行由符号“>”开头,后面跟着序列的名称,可以自定义,例如user1,protein1等等。将所有的FASTA

格式的序列存放在同一个文件中。文件的编辑可用Windows自带的记事本工具,或者EditPlus(google搜索可得)来操作。文件格式如图1所示:

图1 FASTA格式的序列

另外,构建NJ或者MP树需要先将序列做多序列比对的处理。作者推荐使用ClustalX进行多序列比对的分析。多序列比对的结果有时需要后续处理并应用于文章中,这里作者推荐使用GeneDoc工具。而构建ML树则不需要预先的多序列比对。(Again, I do not think this statement is correct)

因此,作者推荐的软件组合为:MEGA 3.1 + ClustalX + GeneDoc + BioEdit。

四、数据分析及结果推断

一般碰到的几类问题是,(1)推断基因/蛋白的功能;(2)基因/蛋白家族分类;(3)计算基因分化的年代。关于这方面的文献非常多,这里作者仅做简要的介绍。

推断基因/蛋白的功能,一般先用BLAST工具搜索同一物种中与不同物种的同源序列,这包括直向同源物(ortholog)和旁系同源物(paralog)。如何界定这两种同源物,网上有很多详细的介绍,这里不作讨论。然后得到这些同源物的序列,做成FASTA 格式的文件。一般通过NJ构建进化树,并且进行Bootstrap分析所得到的结果已足够。如果序列近缘,可以再使用MP构建进化树,进行比较。如果序列较远源,则可以做ML树比较。使用两种方法得到的树,如果差别不大,并且Bootstrap总体较高,则得到的进化树较为可靠。

基因/蛋白家族分类。这方面可以细分为两个问题。一是对一个大的家族进行分类,另一个就是将特定的一个或多个基因/蛋白定位到已知的大的家族上,看看属于哪个亚家族。例如,对驱动蛋白(kinesin)超家族进行分类,属于第一个问题。而假如得到一个新的驱动蛋白的序列,想分析该序列究竟属于驱动蛋白超家族的14个亚家族中的哪一个,则属于后一个问题。这里,一般不推荐使用MP的方法。大多数的基因/蛋白家族起源较早,序列分化程度较大,相互之间较为远源。这里一般使用NJ、ME或者ML 的方法。

计算基因分化的年代。这个一般需要知道物种的核苷酸替代率。常见物种的核苷酸替代率需要查找相关的文献。这里不作过多的介绍。一般对于这样的问题,序列多数是近缘的,选择NJ或者MP即可。

如果使用MEGA进行分析,选项中有一项是“Gaps/Missing Data”,一般选择“Pairwise Deletion”。其他多数的选项保持缺省的参数。

五、总结

在实用中,只要方法、模型合理,建出的树都有意义,可以任意选择自己认为好一个。最重要的问题是:你需要解决什么样的问题?如果分析的结果能够解决你现有的问题,那么,这样的分析足够了。因此,在做进化分析前,可能需要很好的考虑一下自己的问题所在,这样所作的分析才有针对性。

六、致谢

本文由mediocrebeing在2005年9月8日所发起的讨论《关于建树的经验》扩充、修改而来。文章的作者按原贴ID出现先后排名,由lylover执笔。作者同时感谢所有参

与讨论的战友。作者lylover感谢中国科大细胞动力学实验室的金长江博士所给的一些有益的建议。

2[1] lylover. Email: lylover_2005@https://www.360docs.net/doc/5a10867101.html,

yzwpf的补充

NJ,ML,Bayes均需要选择模型,对PAUP和MrBayes而言,ModelTest有专门的版本可自动选择模型,意味着它会输出两者专用的设置模型的命令,用户需要的只是将该命令简单的复制粘贴。

MrBayes和MAC5均可利用gap信息构建进化树。

ml法无需比对应该是错误的。至少在paup中未比对会出错。

计算基因分化的年代,这个更一般的是知道进化树中某两个或更多物种的分歧时间,然后可以使用r8s软件分析进化树中其他序列的分歧时间。在mega中打开树后也可进行极为简单的年代分析,但必须满足分子钟假设且无法根据多个分歧时间进行校正!

mediocrebeing的补充

想学建树的都要看看Nei那本绿皮书的相关章节。结合我个人的经验,补充几句。

先说方法的选择。有三种nj(距离法的代表), parsimony(最大简约), ml(极大似然)。一般来讲,如果模型合适,ml的效果最好。对近缘序列,有人喜欢parsimony,因为用的假设最少(的确很诱人)。其实其它方法都会很好,模型间的差别也不大。parsimony

一般不用在远缘序列上,这时一般用nj或ml。对相似度很低的序列,nj往往出现

long-branch attraction,有时严重干扰构树。ml据说影响最小(某篇review说的)。

nj和ml是需要选择模型的。先说nj。nj的模型是用来算距离矩阵的,主要分极大似然模型,和mismatch模型(或p-distance)。一般人们喜欢复杂的模型(HKY84 for nucleotide, and JTT, WAG, ... for amino acids),但p-distance对远缘序列往往有更好的效果。nei

的书中有很好的评述,我的经验也是如此。还有一种叫kimura校正的,其实是p-distance 在蛋白的推广。clustalw有这个选项,实际效果我认为反而不好。

ml用的都是极大似然模型。tree-puzzle的文档对各种模型的选择做了很好的评述。其实实用中差别可能并不大。没经验。

至于软件,ml树推荐用phyml,速度最快,或用paml,名气最大;parsimony推荐用老牌paup,但mega或phylip也能做,我不常做parsimony;nj的选择就太多了,出于名气考虑,可以用phylip(但写得有点问题,过慢,bootstrap不方便),clustalw(只有

p-distance,模型太少,但用着很舒服),mega(没用过)。

tree-puzzle是个好软件,用的是所谓的四级ml近似,效果不如ml,但一般比nj好一点。建议用tree-puzzle代替phylip算距离矩阵,快的多。tree-puzzle还有许多实用功能。mega 应该是个好软件,功能很多,很强。但只有windows版。我不用。这些都是有名气的,其实有许多更优秀的软件仅仅由于名气原因不为人所知。闲人们可以去phylip的网站看看。我不在这里瞎介绍了。

另外,很近缘序列一般用nucleotide,有时蛋白根本没区别;远的一定要用amino acids。画nucleotide树,如果在cds上,一般先做amino acids alignment,再反过来对应到nucleotide,可以用Emboss的tranalign程序,不过还是很麻烦。由于进化压力问题,对近缘序列,dS树有时效果最好,但现在画这种树很麻烦,不知mega是否有这个功能。

PS:实用中,只要方法、模型合理,建出的树都有意义,可以随便选择自己认为好一个,或用tree fusion合并,不过这么做的人不多。如果写进化树的paper,各种方法和模型都要试试。

高手们可以来补充,我也学习一下。先谢谢了。

本文引用地址:https://www.360docs.net/doc/5a10867101.html,/m/user_content.aspx?id=8475

构建进化树方法比较

【转载】分子进化树构建及数据分析的简介 分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf [1] lylover. Email: lylover_2005@https://www.360docs.net/doc/5a10867101.html, 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类:1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint 进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

构建系统发育树需要注意的几个问题

构建系统发育树需要注意的几个问题 1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。 3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基

如何做系统进化树

大家好: 我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN (LINUX)。 在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树,英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树(To reconstrut phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就

运用mega5构建系统发生进化树.

1.准备序列文件 准备fasta格式序列文件(fasta格式:大于号>后紧跟序列名,换行后是序列。举例如下)。每条序列可以单独为一个文件,也可以把所有序列放在同一文件内。 核酸序列: >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列: >sequence2_name MQSPINSFKKALAEGRTQIGF 2.多序列比对 打开MEGA 5,点击Align,选择Edit/Build Alignment,选择Create a new alignment,点击OK。

这时需要选择序列类型,核酸(DNA)或氨基酸(Protein)。 选择之后,在弹出的窗口中直接Ctrl + V粘贴序列(如果所有序列在同一个文件中,即可全选序列,复制)。也可以:点击Edit,选择Insert Sequence From File,选择序列文件(可多选)。

序列文件加载之后,呈蓝色背景(为选中状态)。点击按钮,选择Align DNA (如果是氨基酸序列,则会出现Align Protein)。弹出的窗口中设置比对参数,一般都是采用默认参数即可。点击OK,开始多序列比对。

比对完成后,呈现以下状态。 这时需要截齐两端含有---的序列:选中含有---的序列,按键Delete删除(注意:两端都需要截齐)。截齐之后,保存文件为:filename.mas

3.构建系统进化树 多序列比对窗口,点击Data,选择Phylogenetic Analysis,弹出窗口询问:所用序列是否编码蛋白质,根据实际情况选择Yes或No。此时,多序列比对文件就激活了,可以返回MEGA 5主界面建树了。

进化树软件使用综述

建议用Mega相对比较简单些,速度也快点。phylip首先是要用比对好的序列,然后用seeqboot产生bootsrap的序列,然后用prodist(假如是核苷酸序列就用dnadist),然后用neighbor,然后用consense得到最终的树。这个可以参看phylip 的说明文档,还是比较详细的。假如你比对的序列同源度不是太好,可能会有个别步骤报错,好像phylip官方由一个bug修订。假如你熟悉perl的话,我以前写过一个脚本纠正这个bug。。。 在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)。 在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树,英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树(To reconstrut phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序

分子进化与系统进化树的构建

分子进化与系统进化树的构建 分子进化与系统进化树的构建 分子进化与系统进化树的构建 主要内容: 1、分子进化的研究方法 2、系统进化树的构建方法 3、系统进化树构建常用软件汇集 4、系统进化树构建方法及软件的选择 5、Phylip分子进化分析软件包简介及使用 6、如何利用MEGA3.1构建进化树 声明: 1、本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于基因酷及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请Email genecool@https://www.360docs.net/doc/5a10867101.html,告知。 2、由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛(https://www.360docs.net/doc/5a10867101.html,/bbs)本篇对应的专题跟贴指出或Email genecool@https://www.360docs.net/doc/5a10867101.html,。 致谢: 整编者:flashhyh 主要参考资料:《生物信息学札记》樊龙江;《分子进化分析与相关软件的应用》作者不详;《进化树构建》ZHAO Yangguo;《如何用MEGA 3.1构建进化树》作者不详;《MEGA3指南》作者不详; 分子进化的研究方法 分子进化的研究方法 分子进化的研究方法 分子进化研究的意义 自20世纪中叶,随着分子生物学的不断发展,进化研究也进入了分子进化(molecularevolution)研究水平,并建立了一套依赖于核酸、蛋白质序列信息的理论和方法。随着基因组测序计划的实施,基因组的巨量信息对若干生物领域重大问题的研究提

供了有力的帮助,分子进化研究再次成为生命科学中最引人注目的领域之一。这些重大问题包括:遗传密码的起源、基因组结构的形成与演化、进化的动力、生物进化等等。分子进化研究目前更多地是集中在分子序列上,但随着越来越多生物基因组的测序完成,从基因组水平上探索进化奥秘,将开创进化研究的新天地。 分子进化研究最根本的目的就是从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过核酸、蛋白质序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。 分子进化研究的基础 假设假设::核苷酸和氨基酸序列中含有生物进化历史的全部信息核苷酸和氨基酸序列中含有生物进化历史的全部信息。。 分子钟理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。如下图: 直系同源与旁系同源 直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的; 旁系同源(paralogs):同源的基因是由于基因复制产生的。 两者之间的关系如下图所示: 注:用于分子进化分析中的序列必须是直系同源的用于分子进化分析中的序列必须是直系同源的 用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath 和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称. 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。下图表示了

mega5进化树构建

mega5进化树构建 图文详解MEGA 5构建系统发育树 1.准备序列文件 准备fasta 格式序列文件(fasta 格式:大于号>后紧跟序列名,换行后是序列。举例如下)。每条序列可以单独为一个文件,也可以把所有序列放在同一文件内。 核酸序列: >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列: >sequence2_name MQSPINSFKKALAEGRTQIGF 2.多序列比对 打开MEGA 5,点击Align ,选择Edit/Build Alignment,选择Create a new alignment ,点击OK 。 → 这时需要选择序列类型,核酸(DNA )或氨基酸(Protein )。 选择之后,在弹出的窗口中直接Ctrl + V粘贴序列(如果所有序列在同一个文件中,即可全选序列,复制)。也可以:点击Edit ,选择Insert Sequence From File,选择序列文件(可多选)。 序列文件加载之后,呈蓝色背景(为选中状态)。点击按钮,选择Align DNA (如果是氨基酸序列,则会出现Align Protein)。弹出的窗口中设置比对参数,一般都是采用默认参数即可。点击OK ,开始多序列比对。 比对完成后,呈现以下状态。 这时需要截齐两端含有---的序列:选中含有---的序列,按键Delete 删除(注意:两端都需要截齐)。截齐之后,保存文件为:filename.mas ↓ 3.构建系统进化树 多序列比对窗口,点击Data ,选择Phylogenetic Analysis,弹出窗口询问:所用序列是否编码蛋白质,根据实际情况选择Yes 或No 。此时,多序列比对文件就激活了,可以返回MEGA 5主界面建树了。 MEGA 5主界面。点击Phylogeny ,选择Construct/Test

构建系统进化树的方法步骤

构建系统进化树的方法步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;

Mega的使用以及进化树的绘制

1.MEGA构建系统进化树的步骤 2.CLUSTALX进行序列比对 1.MEGA构建系统进化树的步骤 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。如图: 2. 打开MEGA软件,选择"Alignment" - "Alignment Explorer/CLUSTAL",在对话框中选择Retrieve sequences from a file, 然后点OK,找到准备好的序列文件并打开,如图: 。 3. 在打开的窗口中选择”Alignment”-“Align by ClustalX” 进行对齐,对齐过程需要一段时间,对齐完成后,最好将序列两端切齐,选择两端不齐的部分,

单击右键,选择delete即可,如图: 。 4. 关闭当前窗口,关闭的时候会提示两次否保存,第一次无所谓,保存不保存都可以,第二次一定要保存,保存的文件格式是.meg。根据提示输入Title,然后会出现一个对话框询问是否是Protein-coding nucleotide sequence data, 根据情况选择Yes或No。最后出现一个对话框询问是否打开,选择Yes,如图: 。 5. 回到MEGA主窗口,在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” -“Neighbor-joining”,打开一个窗口,里面有很多参数可以设

置,如何设置这些参数请参考详细的MEGA说明书,不会设置就暂且使用默认值,不要修改,点击下面的Compute按钮,系统进化树就画出来了,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Minimun-evolution”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Maximun-parsimony”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“UPGMA”,

MEGA构建系统进化树的步骤(以MEGA7为例)

MEGA构建系统进化树的步骤(以MEGA7为例) 本文是看中国慕课山东大学生物信息学课程总结出来的 分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA 序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。 2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),弹出窗口询问“Nothing selected for alignment,Select all?”选择“OK”。 4. 之后,弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。MEGA的所有默认参数都是经过反复考量设置的,这保证了MEGA傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别要求的时候,直接点击“OK”,接受这些默认参数,开始多序列比对。

分子进化树构建及数据分析的简介

【转载】分子进化树构建及数据分析的简介+oldfish的批评意见 分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover1[1], klaus, oldfish, yzwpf 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类: 1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

用MEGA构建进化树

如何用MEGA构建进化树 MEGA3、1就是一个关于序列分析以及比较统计得工具包,其中包括有距离建树法与MP建树法;可自动或手动进行序列比对,推断进化树,估算分子进化率,进行进化假设测验,还能联机得Web数据库检索。下载后可直接使用,主要包括几个方面得功能软件:i)DNA与蛋白质序列数据得分析软件。ii)序列数据转变成距离数据后,对距离数据分析得软件。iii)对基因频率与连续得元素分析得软件。iv)把序列得每个碱基/氨基酸独立瞧待(碱基/氨基酸只有0与1得状态)时,对序列进行分析得软件。v)绘制与修改进化树得软件,进行网上blast搜索。 用MEGA构建进化树有以下步骤: 1、16S rDNA测序与参考序列选取 从环境中分离到单克隆,去重复后扩增16S rDNA序列并测序,然后与数据库比对,找到相似度最高得几个序列,确定一下您分离得细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定您分离得到得就就是Blast到得那个,然后找一到两个同科得,再找一到两个同目得,再找一到两个同纲得细菌,把序列全部下下来,以FSATA形式整合在TXT文档中,如 >TS1 GCAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAACACGTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGATAGGACCTCGGGA TGCATGTTCCGGGGTGGAAAGGTTTTCCGGTGCAGGATGGGCC >gi|117572706|gb|EF028124、1| Rhodococcus sp、Atl25 16S ribosomal RNAgene,partial sequence CGATTAGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGGGTGA TCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGAT >TS2 TGCAAGTCGAGCGAATGGA TTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGA CGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGATAACTCCGG GAAACCGGGGCTAATACCGGATAACATTTTGAACTGCATGGTTCGAAATTGAAAGGCGGCTTCGGCTGTCACT >gi|56383044|emb|AJ809498、1|Bacillus cereus partial16S rRNA gene, strainTMW 2、383 GA TGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAATGGATTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGA TAACTCCGGGAAACCGGGGCTAA TACCGGATAACA TTTTGAACYGCA TGGTTC…………………………、 …………………………、 参考序列选择有几个原则:a,不选非培养(unclutured)微生物为参比;b,所选参考序列要正确,里面无错误碱基;c,在保证同属得前提下,优先选择16S rDNA全长测序或全基因组测序得种;d,每个种属选择一个参考序列,如果自己得序列中同一属得较多,可适当选择两个参考序列。 2、序列比对

MEGA构建系统进化树的步骤(以MEGA7为例)教学文案

M E G A构建系统进化树的步骤(以M E G A7为 例)

MEGA构建系统进化树的步骤(以MEGA7为例) 本文是看中国慕课山东大学生物信息学课程总结出来的 分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA 序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致 ( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。 2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这

构建生物进化树的方法比较

极为详细的建树方法,新手入门推荐 生物进化树的构建 目录 前言 (2) 一、 NCBI (6) 二、 Mega (9) 三、 DNAMAN (15) 四、DNAStar (18) 五、 Bio edit (21)

前言 1.背景资料 进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。所以,进化树简单地表示生物的进化历程和亲缘关系。已发展成为多学科(包括生命科学中 的进化论、遗传学、分类学、分子生物学、生 物化学、生物物理学和生态学,又包括数学中的 概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。 归纳总结生物进化的总趋势有以下几类: ①结构上:由简单到复杂 ②生活环境上:由水生到陆生 ③进化水平上:由低等到高等 一般来说,进化树是一个二叉树。它由很多的分支和节点构成。根据位置的不同,进化树的节

点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。而物种之间的进化关系则用节点之间的连线表示。内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。在同一个进化树中,分类单元的选择应当标准一致。进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。 进化树一般有两种:有根树和无根树。有根树有一个鲜明的特征,那就是它有一个唯一的根节点。这个根节点可以理解为所有其他节点的共同祖先。所以,有根树能可以准确地反映各个物种的进化顺序,从根节点进化到任何其他节点只有能有一条惟一的路径。无根树则不能直接给出根节点,无根树只反映各个不同节点之间的进化关系的远近,没有物种如何进化的过程。但是,我们可以在无根树种指派根节点,从而找出各个物种的进化路径。 无根树 有根树

构建系统进化树的详细步骤

构建系统进化树的详细步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意 为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心 都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序 列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。它 们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明 行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是 任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就 可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus

用MEGA构建进化树

如何用MEGA构建进化树 MEGA3.1是一个关于序列分析以及比较统计的工具包,其中包括有距离建树法和MP 建树法;可自动或手动进行序列比对,推断进化树,估算分子进化率,进行进化假设测验,还能联机的Web数据库检索。下载后可直接使用,主要包括几个方面的功能软件:i)DNA 和蛋白质序列数据的分析软件。ii)序列数据转变成距离数据后,对距离数据分析的软件。iii)对基因频率和连续的元素分析的软件。iv)把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。v)绘制和修改进化树的软件,进行网上blast搜索。 用MEGA构建进化树有以下步骤: 1. 16S rDNA测序和参考序列选取 从环境中分离到单克隆,去重复后扩增16S rDNA序列并测序,然后与数据库https://www.360docs.net/doc/5a10867101.html,/blast/Blast.cgi比对,找到相似度最高的几个序列,确定一下你分离的细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个,然后找一到两个同科的,再找一到两个同目的,再找一到两个同纲的细菌,把序列全部下下来,以FSATA形式整合在TXT文档中,如 >TS1 GCAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAA CACGTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCG GA TAGGACCTCGGGA TGCA TGTTCCGGGGTGGAAAGGTTTTCCGGTGCAGGATGGGCC >gi|117572706|gb|EF028124.1| Rhodococcus sp. Atl25 16S ribosomal RNA gene, partial sequence CGATTAGAGTTTGA TCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAA GTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAACAC GTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAA TACCGGA T >TS2 TGCAAGTCGAGCGAATGGA TTAAGAGCTTGCTCTTA TGAAGTTAGCGGCGGACGGGTG AGTAACACGTGGGTAACCTGCCCA TAAGACTGGGATAACTCCGGGAAACCGGGGCTAA TACCGGATAACA TTTTGAACTGCATGGTTCGAAA TTGAAAGGCGGCTTCGGCTGTCACT >gi|56383044|emb|AJ809498.1| Bacillus cereus partial 16S rRNA gene, strain TMW 2.383 GA TGAACGCTGGCGGCGTGCCTAA TACATGCAAGTCGAGCGAA TGGATTAAGAGCTTG CTCTTA TGAAGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCCATAAGAC TGGGATAACTCCGGGAAACCGGGGCTAATACCGGATAACATTTTGAACYGCATGGTTC …………………………. …………………………. 参考序列选择有几个原则:a,不选非培养(unclutured)微生物为参比;b,所选参考序列要正确,里面无错误碱基;c,在保证同属的前提下,优先选择16S rDNA全长测序或全基因组测序的种;d,每个种属选择一个参考序列,如果自己的序列中同一属的较多,可适当选择两个参考序列。

分子进化树构建及数据分析的简介(精)

分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类: 1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。 这里,作者在这里对问题2-6进行简要地解释和讨论,并希望能够初步地解答初学者的一些疑问。 二、方法的选择

相关文档
最新文档