构建进化树方法比较
系统发育进化树构建

系统发育进化树构建【实用版】目录一、什么是系统发育进化树二、系统发育进化树的构建方法三、系统发育进化树的应用四、总结正文一、什么是系统发育进化树系统发育进化树是一种用来表示物种或基因间亲缘关系的树状图,它可以利用树状分支图形来展示生物之间的进化关系。
系统发育进化树主要用于研究物种或序列的进化和系统分类,其研究对象通常包括碱基序列或氨基酸序列。
二、系统发育进化树的构建方法系统发育进化树的构建过程称为分支系统发育分析,它通过数理统计算法来计算生物间的进化距离,并以此为基础构建进化树。
以下是构建系统发育进化树的主要步骤:1.选择研究对象:首先需要选择合适的研究对象,例如碱基序列或氨基酸序列。
2.获取数据:搜集研究对象的相关数据,这通常需要通过实验或数据库获取。
3.计算进化距离:利用数理统计算法(如距离法、最大似然法等)计算不同生物间的进化距离。
4.构建进化树:根据进化距离构建树状分支图,通常使用聚类方法或最小生成树算法。
5.检验树状图:对构建好的进化树进行检验,以确保其符合生物学实际情况。
三、系统发育进化树的应用系统发育进化树在生物学研究中有广泛的应用,主要包括:1.物种分类和演化关系研究:通过构建进化树,可以了解不同物种之间的亲缘关系和演化历史。
2.基因功能预测:根据基因在进化树上的位置,可以推测基因的功能和作用。
3.基因调控关系分析:进化树可以帮助研究者了解基因之间的调控关系,从而揭示生物过程的调控机制。
4.病原体演化研究:对于病原体,进化树可以揭示其演化历程,有助于疫苗设计和疾病防治。
四、总结系统发育进化树是一种重要的生物学研究方法,它可以帮助研究者揭示物种或基因间的亲缘关系和演化历史。
系统发育进化树构建

系统发育进化树构建1. 什么是系统发育进化树?系统发育进化树(Phylogenetic Tree),也称为系统树或进化树,是生物学中常用的一种图形表示方法,用于展示不同物种之间的亲缘关系以及它们的进化历史。
系统发育进化树可以帮助我们理解生物多样性的起源、演化以及物种之间的关系。
2. 构建系统发育进化树的方法2.1 形态学特征比较法形态学特征比较法是构建系统发育进化树最早也是最常用的方法之一。
通过比较不同物种的形态特征,如体型、颜色、器官结构等,来推断它们之间的亲缘关系。
这种方法适用于无法进行分子遗传学研究的古生物学领域。
2.2 分子遗传学方法分子遗传学方法是目前构建系统发育进化树的主要手段之一。
它利用DNA、RNA、蛋白质等分子的序列信息来推断不同物种之间的亲缘关系。
常用的方法包括序列比对、构建进化模型、计算进化距离等。
2.3 组织化石记录法组织化石记录法是通过研究化石中的细胞结构、细胞组织等信息,来推断不同物种之间的亲缘关系。
这种方法适用于无法获取分子遗传学信息的古生物学领域。
3. 构建系统发育进化树的步骤3.1 收集相关数据构建系统发育进化树的第一步是收集相关的数据,包括形态学特征数据、分子序列数据或化石记录数据。
数据的准确性和全面性对于构建准确的进化树非常重要。
3.2 数据处理与分析在收集到数据后,需要对数据进行处理和分析。
对于形态学特征数据,可以通过比较不同物种的特征值来计算相似性矩阵;对于分子序列数据,可以进行序列比对和计算进化距离等操作。
3.3 构建进化模型在数据处理与分析的基础上,需要选择合适的进化模型来描述不同物种之间的进化关系。
常用的进化模型包括NJ(Neighbor-Joining)方法、ML(Maximum Likelihood)方法和Bayesian方法等。
3.4 构建进化树在选择了合适的进化模型后,可以利用计算机软件或在线工具来构建进化树。
常用的软件包括MEGA、PAUP*和MrBayes等。
如何用MEGA5.0和Clustalx1.83构建进化树

如何用MEGA和Clustalx构建进化树MEGA是一个关于序列分析以及比较统计的工具包,从3.1版本到后来的4.0版本一直都广为大家熟悉,现在推出了Mega5.0版本。
功能比以前多有改进。
现主要介绍使用Mega 5.0构建系统进化树的方法。
供大家参考。
用MEGA构建进化树有以下步骤:1、测序:将克隆扩增测序得到的16S rDNA序列进行测序。
2、NCBI上做Blast/blast/Blast.cgi找到相似度最高的几个序列,确定一下你分离的细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个,然后寻找相似性最高的细菌,通常把该属的序列(Fasta格式文件)下载下来,或点击GenBank登录号,复制FSATA 格式,整合在一个*.txt文档中(单独建立一个文件夹存放,后面的很多文件会自动装入该文件夹),如>XXXX AGGCTTAACACATGCAAGTCGAGCGGAGCGAGGGTGCTTGCACCTTAGCTTAGCGGCGGACGGGTGAGTAATGCTTAGG AATCTGCCTATTAGTGGGGGACAACATTCCGAAAGGAATGCTAATACCGCATACGCCCTACGGGGGAAAGCAGGGGATC TTCGGACCTTGCGCTAATAGATGAGCCTAAGTCGGATTAGCTAGTTGGTGGG>gi|289469964|gb|GU388381.1| Acinetobacter tandoii strain DSM 14970 16S ribosomal RNA gene, partial sequence ACTTAGCGGCGGACGGGTGAGTAATGCTTAGGAATCTGCCTATTAGTGGGGGACAACATTCCGAAAGGGATGCTAATAC CGCATACGCCCTACGGGGGAAAGCAGGGGATCTTCGGACCTTGCGCTAATAGATGAGCCTAAGTCGGATTAGCTAGTTG GTGGGGTAAAGGCCTACCAAGGCGACGATCTGTAGCGGGTCTGAGAGGATGA………………………….参考序列选择注意事项:1、不选非培养(unclutured)微生物为参比;2、不选未定分类地位的微生物,最相近的仅作参考;c,在保证同属的前提下,优先选择16S rDNA全长测序或全基因组测序的种;d,每个种属选择一个参考序列,如果自己的序列中同一属的较多,可适当选择两个参考序列。
作系统进化树的方法

作系统进化树的方法系统进化树(Phylogenetic tree)是一种表示生物物种之间进化关系的图形结构。
它基于生物的遗传物质或形态特征等数据,通过一定的算法和模型来构建,以揭示物种之间的亲缘关系和进化历程。
以下是构建系统进化树的一般步骤:1. 数据收集:首先需要收集用于构建进化树的基因或形态特征数据。
这通常涉及从各种来源获取DNA、蛋白质或其他分子序列数据,或者从博物馆和标本馆获取生物形态特征数据。
2. 序列比对:对于DNA或蛋白质序列数据,需要将这些序列进行比对,以确保它们可以一起进行比较和分析。
3. 选择适当的距离度量:在构建系统进化树时,需要计算物种之间的“距离”。
这些距离是基于序列或形态特征的差异来计算的。
有多种方法可以计算这些距离,例如基于遗传物质的p距离(代表两个序列之间的差异比例)或形态特征的欧几里得距离。
4. 选择合适的建树算法:系统进化树可以通过多种算法来构建,包括但不限于UPGMA(Unweighted Pair Group Method with Arithmetic Mean)、WPGMA(Weighted Pair Group Method with Arithmetic Mean)、WPGMC(Weighted Pair Group Method with Centroid Linkage)、Neighbor Joining、Fitch-Margoliash、Maximum Parsimony、Maximum Likelihood等。
选择哪种算法取决于你的具体需求和所处理数据的性质。
5. 构建系统进化树:使用选择的算法和距离度量,将物种按照它们的亲缘关系分组。
这一步通常涉及到一个迭代过程,其中算法会尝试不同的分组方案,直到找到一个最优解。
6. 评估和验证树:一旦构建了系统进化树,就需要对其进行评估和验证,以确保其合理性和可靠性。
这通常涉及使用多种统计测试和可视化工具,例如Bootstrapping、P-distance、Tree-bisection-reconnection (TBR) 操作等。
系统进化树的构建

系统进化树的构建一、什么是系统进化树系统进化树,又称为生命进化树或物种树,是描述生物进化关系的一种图形表达方式。
它通过比较不同物种之间的形态、生理特征以及遗传信息等多方面的数据,将它们按照演化顺序排列在一个分枝结构图中,以展示各个物种之间的亲缘关系和演化历程。
二、系统进化树的构建方法1. 形态学比较法形态学比较法是最早被使用的构建系统进化树的方法。
该方法主要通过对不同物种之间形态特征的比较,确定它们之间的亲缘关系。
例如,通过对鸟类翅膀长度和颜色等特征进行比较,可以确定它们之间的亲缘关系,并将它们排列在一个分枝结构图中。
2. 分子生物学方法随着分子生物学技术的发展,越来越多的研究者开始使用DNA序列等遗传信息来构建系统进化树。
这种方法主要是通过比较不同物种DNA 序列或蛋白质序列之间的差异性,来推断它们之间的亲缘关系。
例如,通过对人类、猩猩和大猩猩的DNA序列进行比较,可以确定它们在进化过程中的亲缘关系。
3. 综合方法综合方法是将形态学比较法和分子生物学方法结合起来,以获得更准确的系统进化树。
该方法主要是通过对不同物种之间形态特征和遗传信息等多方面的数据进行综合分析,来推断它们之间的亲缘关系。
例如,通过对恐龙化石的形态特征和DNA序列进行比较,可以确定它们在进化过程中的亲缘关系。
三、系统进化树的构建步骤1. 收集数据构建系统进化树需要收集大量的数据,包括形态特征、遗传信息等多方面的数据。
这些数据可以通过实验、文献调查等方式获取。
2. 数据处理收集到的数据需要进行处理和分析,以便于构建系统进化树。
这些处理包括序列比对、计算差异性等操作。
3. 构建树型结构在经过数据处理后,就可以开始构建系统进化树了。
该步骤主要是将不同物种之间的亲缘关系按照演化顺序排列在一个分枝结构图中。
4. 树型验证构建完系统进化树后,需要对其进行验证。
这可以通过计算分支长度、计算拓扑稳定性等方式来实现。
四、系统进化树的应用1. 生物分类学研究系统进化树可以帮助生物学家更准确地确定不同物种之间的亲缘关系,从而更好地进行生物分类学研究。
进化树(Phylogenetic_tree)

冯伟,北医三院血管医学研究所 冯伟, snooppyyy@
进化树( 进化树(Phylogenetic tree)分析 )
对于一个完整的进化树分析需要以下几个步骤
1
To align sequences,要对所分析的多序列目标进行排列;常用的软件有: ,要对所分析的多序列目标进行排列;常用的软件有: CLUSTALX和CLUSTALW。 和 。 To reconstrut phyligenetic tree,构建一个进化树; ,构建一个进化树;
同样修改参数M 同样修改参数M
成功运行! 成功运行!
最后Dnapars ver3.61输出二个文件,分别命名为 输出二个文件, 最后 输出二个文件 分别命名为dnapars,outfile和dnapars,outtree 和
最后运行consense,导入dnapars,outtree 最后运行consense,导入dnapars,outtree consense
运行后生成文件如下图
这个文件包含了与输入文件相同的100个 republicate,只不过每个republicate是以两 两序列的进化距离来表示。文件中的每个 republicate都省略了第一排的Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。
以这个输出文件为输入文件,执行NEIGHBOR软件 以这个输出文件为输入文件,执行NEIGHBOR软件 NEIGHBOR
R选项让使用者输入republicate的数目。所谓 选项让使用者输入 的数目。 选项让使用者输入 的数目 republicate就是用 就是用Bootstrap法生成的一个多序列组。 法生成的一个多序列组。 就是用 法生成的一个多序列组
构建生物进化树的方法比较

极为详细的建树方法,新手入门推荐生物进化树的构建目录前言 (2)一、 NCBI (6)二、 Mega (9)三、 DNAMAN (15)四、DNAStar (18)五、 Bio edit (21)前言1.背景资料进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。
在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。
所以,进化树简单地表示生物的进化历程和亲缘关系。
已发展成为多学科(包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。
归纳总结生物进化的总趋势有以下几类:①结构上:由简单到复杂②生活环境上:由水生到陆生③进化水平上:由低等到高等一般来说,进化树是一个二叉树。
它由很多的分支和节点构成。
根据位置的不同,进化树的节点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。
而物种之间的进化关系则用节点之间的连线表示。
内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。
在同一个进化树中,分类单元的选择应当标准一致。
进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。
进化树一般有两种:有根树和无根树。
有根树有一个鲜明的特征,那就是它有一个唯一的根节点。
这个根节点可以理解为所有其他节点的共同祖先。
所以,有根树能可以准确地反映各个物种的进化顺序,从根节点进化到任何其他节点只有能有一条惟一的路径。
无根树则不能直接给出根节点,无根树只反映各个不同节点之间的进化关系的远近,没有物种如何进化的过程。
但是,我们可以在无根树种指派根节点,从而找出各个物种的进化路径。
无根树有根树放射树分子进化树(以分子数据为依据构建的进化树)不仅精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异(小至一个氨基酸或一个核昔酸差异),而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代,这对进化论的研究而言无疑是一场革命。
系统发育树构建方法优劣

2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。
利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。
对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。
在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。
MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。
MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。
与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。
同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。
在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。
但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。
故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。
3.最大似然法最大似然法(maximum likelihood method,MI。
)是20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。
最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【转载】分子进化树构建及数据分析的简介分子进化树构建及数据分析的简介mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf[1] lylover. Email: lylover_2005@一、引言开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。
而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。
考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。
粗略地归纳一下,我大致将提出的问题分为下述的几类:1.涉及基本概念。
例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。
2.关于构建进化树的方法的选择。
例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。
3.关于软件的选择。
例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。
还有各个分支等数值的意思,说明的问题等”,等等。
4.蛋白家族的分类问题。
例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。
5.新基因功能的推断。
例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。
6.计算基因分化的年代。
例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。
7.进化树的编辑。
例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。
由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。
同时,作者归纳的这七个问题也并不完全代表所有的提问。
对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。
对于问题7,作者之一lylover一般使用Powerpoint 进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。
这里,作者在这里对问题2-6进行简要地解释和讨论,并希望能够初步地解答初学者的一些疑问。
二、方法的选择首先是方法的选择。
基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等。
其他的几种方法包括MP (Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。
其中UPGMA法已经较少使用。
一般来讲,如果模型合适,ML的效果较好。
对近缘序列,有人喜欢MP,因为用的假设最少。
MP一般不用在远缘序列上,这时一般用NJ或ML。
对相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。
贝叶斯的方法则太慢。
对于各种方法构建分子进化树的准确性,一篇综述(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP。
其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。
对于NJ和ML,是需要选择模型的。
对于各种模型之间的理论上的区别,这里不作深入的探讨,可以参看Nei的书。
对于蛋白质序列以及DNA序列,两者模型的选择是不同的。
以作者的经验来说,对于蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型。
而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。
如果对各种模型的理解并不深入,作者并不推荐初学者使用其他复杂的模型。
Bootstrap几乎是一个必须的选项。
一般Bootstrap的值>70,则认为构建的进化树较为可靠。
如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。
对于进化树的构建,如果对理论的了解并不深入,作者推荐使用缺省的参数。
需要选择模型的时候(例如用NJ或者ML建树),对于蛋白序列使用Poisson Correction模型,对于核酸序列使用Kimura-2参数模型。
另外需要做Bootstrap 检验,当Bootstrap值过低时,所构建的进化树其拓扑结构可能存在问题。
并且,一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。
三、软件的选择表1中列出了一些与构建分子进化树相关的软件。
构建NJ树,可以用PHYLIP(写得有点问题,例如比较慢,并且Bootstrap 检验不方便)或者MEGA。
MEGA是Nei开发的方法并设计的图形化的软件,使用非常方便。
作者推荐MEGA软件为初学者的首选。
虽然多雪列比对工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用来构建进化树。
构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对学术免费。
因此,作者并不建议使用PAUP。
而MEGA和PHYLIP也可以用来构建进化树。
这里,作者推荐使用MEGA来构建MP树。
理由是,MEGA是图形化的软件,使用方便,而PHYLIP则是命令行格式的软件,使用较为繁琐。
对于近缘序列的进化树构建,MP方法几乎是最好的。
构建ML树可以使用PHYML,速度最快。
或者使用Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。
而PAML则并不适合构建进化树。
ML的模型选择是看构出的树的likelihood值,从参数少,简单的模型试起,到likelihood值最大为止。
ML也可以使用PAUP或者PHYLIP来构建。
这里作者推荐的工具是BioEdit。
BioEdit集成了一些PHYLIP的程序,用来构建进化树。
Tree-puzzle是另外一个不错的选择,不过该程序是命令行格式的,需要学习DOS命令。
PHYML的不足之处是没有win32的版本,只有适用于64位的版本,因此不推荐使用。
值得注意的是,构建ML树,不需要事先的多序列比对,而直接使用FASTA格式的序列即可。
贝叶斯的算法以MrBayes为代表,不过速度较慢。
一般的进化树分析中较少应用。
由于该方法需要很多背景的知识,这里不作介绍。
表1 构建分子进化树相关的软件软件网址说明ClustalXhttp://bips.u-strasbg.fr/fr/Documentation/ClustalX/图形化的多序列比对工具ClustalW/biosi/research/biosoft/Downloads/clustalw.html 命令行格式的多序列比对工具GeneDoc/biomed/genedoc/多序列对结果的美化工具BioEdit/BioEdit/bioedit.html 序列分析的综合工具MEGA/图形化、集成的进化分析工具,不包括MLPAUP/商业软件,集成的进化分工具PHYLIP/phylip.html 免费的、集成的进化分析工具PHYMLhttp://atgc.lirmm.fr/phyml/最快的ML 建树工具PAML/software/paml.html ML 建树工具Tree-puzzlehttp://www.tree-puzzle.de/较快的ML 建树工具MrBayes/基于贝叶斯方法的树工具MAC5/software/mac5/基于贝叶斯方法的建树工具TreeView/rod/treeview.html 进化树显示工具需要注意的几个问题是,其一,如果对核酸序列进行分析,并且是CDS编码区的核酸序列,一般需要将核酸序列分别先翻译成氨基酸序列,进行比对,然后再对应到核酸序列上。
这一流程可以通过MEGA 3.0以后的版本实现。
MEGA3现在允许两条核苷酸,先翻成蛋白序列比对之后再倒回去,做后续计算。
其二,无论是核酸序列还是蛋白序列,一般应当先做成FASTA格式。
FASTA格式的序列,第一行由符号“>”开头,后面跟着序列的名称,可以自定义,例如user1,protein1等等。
将所有的FASTA格式的序列存放在同一个文件中。
文件的编辑可用Windows自带的记事本工具,或者EditPlus(google搜索可得)来操作。
文件格式如图1所示:图1 FASTA格式的序列另外,构建NJ或者MP树需要先将序列做多序列比对的处理。
作者推荐使用ClustalX进行多序列比对的分析。
多序列比对的结果有时需要后续处理并应用于文章中,这里作者推荐使用GeneDoc工具。
而构建ML树则不需要预先的多序列比对。
因此,作者推荐的软件组合为:MEGA 3.1 + ClustalX + GeneDoc + BioEdit。
四、数据分析及结果推断一般碰到的几类问题是,(1)推断基因/蛋白的功能;(2)基因/蛋白家族分类;(3)计算基因分化的年代。
关于这方面的文献非常多,这里作者仅做简。