分子进化树构建及数据分析的简介

合集下载

系统进化树的解读

系统进化树的解读
系统进化树，也称为分子进化树，是生物进化研究中的一个重要工具。

它通过分析不同生物的基因或蛋白质序列，揭示了生物之间的亲缘关系和进化顺序。

系统进化树的基础是假设所有生物都共享一个共同的祖先，并且随着时间的推移，这个祖先的子孙后代发生了分歧和变化。

这些变化体现在他们的基因或蛋白质序列上，因此可以通过对这些序列进行分析，来构建一个表示生物进化历程的树形图。

解读系统进化树需要一定的专业知识。

首先，你需要了解树中的各个物种是如何被分类的，以及它们在进化树中的位置。

这通常需要参考一些专业的生物学资料或数据库。

其次，你需要理解树中的分支长度和分支角度的含义。

分支长度通常表示从一个共同祖先到两个物种之间的进化距离，而分支角度则表示了这些物种之间的亲缘关系。

例如，如果两个物种在树的同一分支上，说明它们之间的亲缘关系较近；如果它们在不同的分支上，则说明它们之间的亲缘关系较远。

此外，你还需要考虑树的可靠性。

一些因素，如样本数量、采样范围和数据质量等，都会影响树的可靠性。

因此，解读系统进化树时需要谨慎对待，避免过度解读或误
导。

总的来说，系统进化树是一种强大的工具，可以帮助我们理解生物之间的亲缘关系和进化历程。

然而，解读系统进化树需要一定的专业知识和谨慎的态度。

只有这样，我们才能从这些树中获取准确的信息，并对生物进化有更深入的理解。

分子进化的推导与系统发育树构建研究

分子进化的推导与系统发育树构建研究分子进化的推导和系统发育树构建研究是现代生物学领域中一项重要的研究课题。

它通过分析生物体内的分子遗传信息，来推导物种间的进化关系，并进一步构建系统发育树。

本文将介绍分子进化的推导过程以及系统发育树的构建方法。

在分子进化的推导过程中，研究者通常会选择一段具有较高变异性的DNA、RNA或蛋白质序列作为研究对象。

这些序列在不同物种之间的差异反映了它们的进化关系。

首先，研究者需要对所选序列进行测序，并通过生物信息学方法对序列进行比对和分析。

比对可以揭示序列中的共有特征与差异，而分析则可以计算序列之间的相似性和进化距离。

为了推导物种之间的进化关系，研究者可以利用不同的进化模型进行分析，例如Jukes-Cantor模型、Kimura两参数模型和最大似然法等。

这些模型基于一系列假设和统计方法，可以估计序列的演化速率和进化关系。

通过计算进化距离矩阵，研究者可以建立物种之间的相似性网络图，并利用聚类算法将物种进行分类和分组。

系统发育树是推导物种间进化关系的重要工具。

它是一种图形化的表示方式，用树状结构展示不同物种之间的演化关系。

构建系统发育树的方法有多种，例如最简原则、最大拟然法和贝叶斯推断等。

最简原则是一种直观且简单的构建方法，它假设进化关系中的分支数目最少。

最大拟然法则基于最大似然估计原理，通过计算相似性矩阵的概率分布来确定最优的拓扑结构。

贝叶斯推断则是一种统计推断方法，它通过考虑先验概率和后验概率来推测系统发育树的结构。

在构建系统发育树的过程中，研究者还需要对结果进行评估和验证。

常用的评估指标包括支持率和置信度。

支持率可以评估进化树的可靠性，它通过重复计算获得统计学意义上的支持度。

而置信度则通过随机重抽样验证树的一致性和稳定性。

综上所述，分子进化的推导和系统发育树构建是研究生物进化关系的重要方法。

通过分析分子遗传信息和构建系统发育树，我们可以更好地了解不同物种之间的进化历程和亲缘关系。

分子进化学中的基因树分析研究

分子进化学中的基因树分析研究随着现代分子生物学的发展，分子进化学成为了一个重要的研究方向。

分子进化学研究的是生物分子的演化过程，其中最重要的分子是DNA和蛋白质。

在研究分子演化的过程中，一项重要的技术就是树状图分析。

树状图是描述不同生物种类间亲缘关系的一种模型，也叫做进化树或基因树。

在进行基因树分析时，我们一般选取一种基因或多种蛋白质作为研究对象。

通过比较不同物种中这些基因或蛋白质的序列，可以获得它们的差异情况。

进而，根据差异情况，我们可以将这些生物物种按照亲缘关系进行分类，并构建出基因树。

基因树的构建可以帮助我们了解不同生物物种在演化过程中的关系。

此外，基因树分析还可以反映出基因在不同进化过程中的选择压力和变异情况。

通过分子进化学的基因树分析，我们可以更好地了解生物演化的进程和机制。

基因树的构建需要经过多步骤的处理和分析。

首先，我们需要搜集不同物种中目标基因或蛋白质的序列。

现代分子生物学技术的发展，为我们提供了大量的基因序列和蛋白质序列数据库，可以方便地查询和获取。

接着，我们需要对这些序列进行比对。

序列比对是基因树分析的重要步骤之一，它可以帮助我们发现序列之间的相似性和差异性。

目前，现代分子生物学技术已经发展出了多种基因序列比对算法，如NCBI BLAST、ClustalW等。

在序列比对之后，我们需要进行进化模型的选择和建立。

不同的基因和蛋白质在不同的进化过程中会受到不同的选择压力和演化速率，因此需要建立不同的进化模型来描述它们的演化过程。

现代分子生物学技术已经发展出了多种基于不同假设的进化模型，如JC模型、HKY模型等。

当我们建立好进化模型之后，就可以开始构建基因树了。

构建基因树的方法有多种，如最大似然法、最大简约法和贝叶斯法等。

根据应用需求和样本数据的不同，我们可以选择不同的构建方法来获得更加准确的基因树。

值得注意的是，基因树分析也有其局限性。

比如，基因树无法反映从一种物种到另一种物种的基因转移或基因流的情况。

生物进化树怎么分析？

生物进化树（Phylogenetic tree）用于描述不同物种之间的进化关系和亲缘关系。

分析生物进化树可以帮助我们理解物种的演化历史和形成过程。

以下是分析生物进化树的一般步骤：
1. 收集数据：首先，收集相关物种的形态特征、遗传信息或分子序列数据。

这些数据可以包括形态特征的测量值、DNA 或蛋白质序列等。

2. 构建数据矩阵：将收集到的数据转化为一个数据矩阵，每行代表一个物种，每列代表一个特征或基因。

3. 选择进化模型：选择合适的进化模型来描述物种之间的进化过程。

不同的模型适用于不同类型的数据，例如形态数据、DNA序列或蛋白质序列。

常用的模型包括最大似然法、贝叶斯推断等。

4. 构建进化树：使用进化模型和数据矩阵来构建进化树。

构建进化树的方法包括邻接法、最小演化法、最大似然法、贝叶斯推断等。

这些方法根据不同的原理和假设来计算物种之间的进化关系。

5. 评估进化树：通过计算进化树的可靠性指标来评估树的准
确性。

这可以包括计算节点的支持值（如Bootstrap值）或进行统计模拟。

6. 解读进化树：根据构建的进化树，可以对物种之间的进化关系进行解读。

进化树提供了关于物种的共同祖先、形态特征的演化和物种分类等信息。

值得注意的是，生物进化树的构建是一个复杂的过程，涉及到数据收集、模型选择和数据分析的多个环节。

因此，对于具体的研究目的，可能需要结合专业知识和相应的软件工具来进行生物进化树的分析。

分子进化总结分析—系统发生树的构建要求

7
系统发育树构建的基本方法
Distance-based methods 基于距离的方法
Unweightedpair group method using arithmetic average (UPGMA) 非加权分组平均法 Minimum evolution(ME)最小进化方法 Neighbor joining(NJ)邻位归并法
打开软件clustalx
• CLUSTALX－是CLUSTAL多重序列比对程序的 Windows版本。Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。序列将显示屏幕的窗口中。采用多色彩的模式可以在比对中加亮保守区的特征。窗口上面的下拉菜单可让你选择传统多重比对和轮廓比对需要的所有选项。
分子进化分析—— 系统发生发育分析是研究物种进化和系统分类的一种方法，研究对象为携带遗传信息的生物大分子序列，采用特定的数理统计算法来计算生物间的生物系统发生的关系。并用系统进化树来概括生物间的这种亲缘关系。
2
分子系统发育分析
• 系统发育进化树（ Phylogenetic tree) 用一种类似树状分支的图形来概括各种生物之间的亲缘关系。
• 名称： Uncultured bacterium clone YU201H10 • 序列号： FJ694683 /FJ694514 • 文献： TITLE Circumpolar synchrony in big river
bacterioplankton • 序列长度：353 • 相似比： 99% • 核酸序列 • 分类地位
• Clustalx比对结果是构建系统发育树的前提
具体步骤
• 根据需要，选定要比对的菌株及相应的序列。将序列COPY至记事本

进化树数学统计-概述说明以及解释

进化树数学统计-概述说明以及解释1.引言文章1.1 概述部分的内容可以是：进化树是生物学中一种重要的工具，用于展示物种之间的进化关系和演化历史。

它是一种树状图结构，将不同物种连接在一起，形成一个分支系统，从而揭示了它们之间的亲缘关系。

数学统计则是一门研究数据收集、分析和解释的学科。

它将数学的方法应用于收集的数据中，通过统计分析来得出结论，并从中推断出总体的特征和规律。

本文将探讨进化树和数学统计在生物学研究中的应用。

首先，我们将介绍进化树的概念和构建方法，包括系统发育学的基本原理和常用的建树算法。

接着，我们将详细介绍数学统计的基本原理和常用的统计方法，包括假设检验、回归分析等。

通过将进化树和数学统计结合起来，研究者可以更准确地推断物种间的进化历史和演化路径，揭示出隐藏在生物物种之间的演化规律和关联性。

这不仅有助于理解生物多样性的形成和演化机制，还能为生物分类学、生态学以及遗传学等领域的研究提供重要的参考和依据。

总之，进化树和数学统计是现代生物学研究中不可或缺的工具。

本文将深入探讨它们的原理、方法和应用，并展望未来在这些领域的发展前景。

通过进一步研究和应用，我们相信进化树和数学统计将为解开生命之谜提供更多的线索和启示。

1.2 文章结构文章结构在本文中，我们将探讨进化树和数学统计这两个重要的主题。

文章将分为引言、正文和结论三个部分。

引言部分将提供一些背景信息和概述，介绍本文的重要性和目的。

我们将讨论进化树和数学统计在生物学和其他领域中的应用，以及它们的潜在影响和意义。

正文部分将深入探讨进化树和数学统计的概念、原理和方法。

在2.1节中，我们将详细介绍进化树的定义、构建和分析方法，包括距离法、最大简约法和贝叶斯推断等。

在2.2节中，我们将介绍数学统计的基本概念和常用方法，例如假设检验、参数估计和回归分析等。

结论部分将对本文进行总结，并展望未来的研究方向。

我们将强调进化树和数学统计在新闻推荐、基因组学和社会网络分析等领域的潜在应用，以及需要进一步研究和发展的问题。

单倍型的分子系统树

单倍型的分子系统树一、概述单倍型的分子系统树是一种基于DNA序列数据构建的进化树，它能够反映物种间的亲缘关系和演化历史。

在单倍型分子系统树中，只考虑一个个体所拥有的一套染色体中某一个位点上的等位基因，这就是所谓的单倍型。

本文将从单倍型分子系统树的构建方法、应用领域、优缺点等方面进行详细介绍。

二、构建方法1. 样本收集：首先需要收集不同物种或个体之间相同位点上的DNA 序列数据。

2. 序列比对：将收集到的DNA序列进行比对，以确定它们之间的异同。

3. 构建进化模型：通过比对结果来确定不同物种或个体之间遗传差异程度，并选择合适的进化模型。

4. 构建进化树：利用选择出来的进化模型构建进化树。

三、应用领域1. 生物分类学研究：单倍型分子系统树可以被用来探究不同物种或亚种之间的亲缘关系和演化历史，为生物分类学研究提供了有力支持。

2. 种群遗传学研究：单倍型分子系统树可以被用来研究种群间的遗传结构和遗传多样性，为种群遗传学研究提供了有力工具。

3. 进化生物学研究：单倍型分子系统树可以被用来探讨不同物种或个体之间的进化历史和演化模式，为进化生物学研究提供了有力支持。

四、优缺点1. 优点：（1）能够准确反映物种间的亲缘关系和演化历史；（2）数据收集方便，成本较低；（3）能够对不同物种或个体之间的遗传差异进行量化比较。

2. 缺点：（1）只考虑一个个体所拥有的一套染色体中某一个位点上的等位基因，无法全面反映整个基因组的信息；（2）在构建进化树时需要选择合适的进化模型，选择不当可能会导致结果产生误差。

五、结论总之，单倍型分子系统树是一种重要的分子生物学工具，在生物分类学、种群遗传学和进化生物学等领域都有广泛应用。

虽然它也存在一些缺点，但是其优点仍然使它成为研究生物进化和演化历史的重要工具之一。

生物大数据分析中的进化遗传树构建方法与技巧

生物大数据分析中的进化遗传树构建方法与技巧进化遗传树（Phylogenetic Tree）是生物学研究中用于分析物种关系和演化历程的重要工具。

通过构建进化树，我们可以了解不同物种之间的进化关系，揭示物种的演化历史以及预测它们之间的共同祖先。

在生物大数据分析中，构建进化遗传树有着重要的意义，因为它可以帮助我们理解生物的遗传多样性、物种起源以及群体分化等重要生物学问题。

在构建进化遗传树的过程中，我们需要根据生物学数据来推断物种间的关系。

这些生物学数据可以是DNA或RNA序列、蛋白质序列、形态特征等。

为了准确地构建进化遗传树，我们需要选择合适的方法和技巧。

下面将介绍一些常用的进化遗传树构建方法和技巧。

1. 距离法（Distance-based methods）:距离法是通过计算物种间的相似度或差异度来构建进化遗传树的方法。

常用的距离法包括最邻近法（Neighbor Joining）、最小进化法（Minimum Evolution）和最大简约法（Maximum Parsimony）等。

这些方法根据不同的算法和模型，通过计算物种间的距离矩阵来构建进化关系。

2. 贝叶斯方法（Bayesian methods）:贝叶斯方法是一种基于统计模型和概率推断的进化遗传树构建方法。

它通过采用贝叶斯推断和蒙特卡洛马尔科夫链蒙特卡洛算法（MCMC）来估计进化树的拓扑结构和参数。

贝叶斯方法具有高度灵活性和更准确的模型，适用于复杂的进化树推断问题。

3. 最大似然方法（Maximum likelihood methods）:最大似然方法是一种常用的基于概率统计的进化遗传树构建方法。

它通过最大化观测到的数据出现的概率，推断出可能的进化树。

最大似然方法考虑了模型中的参数估计问题，并用参数化的模型来描述进化过程，从而提高了推断结果的准确性。

在进行进化遗传树构建时，还有一些技巧需要注意，以保证结果的准确性和可靠性：1. 数据质量的控制:数据质量是构建进化遗传树的关键因素之一。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

分子进化树构建及数据分析的简介开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。

而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。

考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。

粗略地归纳一下，我大致将提出的问题分为下述的几类：1．涉及基本概念。

例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。

2．关于构建进化树的方法的选择。

例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。

3．关于软件的选择。

例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。

还有各个分支等数值的意思，说明的问题等”，等等。

4．蛋白家族的分类问题。

例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。

5．新基因功能的推断。

例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。

6．计算基因分化的年代。

例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。

7．进化树的编辑。

例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。

由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。

同时，作者归纳的这七个问题也并不完全代表所有的提问。

对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。

对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

这里，作者在这里对问题2-6进行简要地解释和讨论，并希望能够初步地解答初学者的一些疑问。

二、方法的选择首先是方法的选择。

基于距离的方法有UPGMA、ME（Minimum Evolution，最小进化法）和NJ（Neighbor-Joining，邻接法）等。

其他的几种方法包括MP（Maximum parsimony，最大简约法）、ML（Maximum likelihood，最大似然法）以及贝叶斯（Bayesian）推断等方法。

其中UPGMA法已经较少使用。

一般来讲，如果模型合适，ML的效果较好。

对近缘序列，有人喜欢MP，因为用的假设最少。

MP一般不用在远缘序列上，这时一般用NJ或ML。

对相似度很低的序列，NJ往往出现Long-branch attraction（LBA，长枝吸引现象），有时严重干扰进化树的构建。

贝叶斯的方法则太慢。

对于各种方法构建分子进化树的准确性，一篇综述（Hall BG. Mol Biol Evol 2005, 22(3):792-802）认为贝叶斯的方法最好，其次是ML，然后是MP。

其实如果序列的相似性较高，各种方法都会得到不错的结果，模型间的差别也不大。

对于NJ和ML，是需要选择模型的。

对于各种模型之间的理论上的区别，这里不作深入的探讨，可以参看Nei的书。

对于蛋白质序列以及DNA序列，两者模型的选择是不同的。

以作者的经验来说，对于蛋白质的序列，一般选择Poisson Correction（泊松修正）这一模型。

而对于核酸序列，一般选择Kimura 2-parameter（Kimura-2参数）模型。

如果对各种模型的理解并不深入，作者并不推荐初学者使用其他复杂的模型。

Bootstrap几乎是一个必须的选项。

一般Bootstrap的值>70，则认为构建的进化树较为可靠。

如果Bootstrap的值太低，则有可能进化树的拓扑结构有错误，进化树是不可靠的。

对于进化树的构建，如果对理论的了解并不深入，作者推荐使用缺省的参数。

需要选择模型的时候（例如用NJ或者ML建树），对于蛋白序列使用Poisson Correction模型，对于核酸序列使用Kimura-2参数模型。

另外需要做Bootstrap检验，当Bootstrap值过低时，所构建的进化树其拓扑结构可能存在问题。

并且，一般推荐用两种不同的方法构建进化树，如果所得到的进化树类似，则结果较为可靠。

三、软件的选择表1中列出了一些与构建分子进化树相关的软件。

构建NJ树，可以用PHYLIP（写得有点问题，例如比较慢，并且Bootstrap检验不方便）或者MEGA。

MEGA是Nei开发的方法并设计的图形化的软件，使用非常方便。

作者推荐MEGA 软件为初学者的首选。

虽然多雪列比对工具ClustalW/X自带了一个NJ的建树程序，但是该程序只有p-distance模型，而且构建的树不够准确，一般不用来构建进化树。

构建MP树，最好的工具是PAUP，但该程序属于商业软件，并不对学术免费。

因此，作者并不建议使用PAUP。

而MEGA和PHYLIP也可以用来构建进化树。

这里，作者推荐使用MEGA 来构建MP树。

理由是，MEGA是图形化的软件，使用方便，而PHYLIP则是命令行格式的软件，使用较为繁琐。

对于近缘序列的进化树构建，MP方法几乎是最好的。

构建ML树可以使用PHYML，速度最快。

或者使用Tree-puzzle，速度也较快，并且该程序做蛋白质序列的进化树效果比较好。

而PAML则并不适合构建进化树。

ML的模型选择是看构出的树的likelihood值，从参数少，简单的模型试起，到likelihood值最大为止。

ML也可以使用PAUP或者PHYLIP来构建。

这里作者推荐的工具是BioEdit。

BioEdit集成了一些PHYLIP 的程序，用来构建进化树。

Tree-puzzle是另外一个不错的选择，不过该程序是命令行格式的，需要学习DOS命令。

PHYML的不足之处是没有win32的版本，只有适用于64位的版本，因此不推荐使用。

值得注意的是，构建ML树，不需要事先的多序列比对，而直接使用FASTA 格式的序列即可。

贝叶斯的算法以MrBayes为代表，不过速度较慢。

一般的进化树分析中较少应用。

由于该方法需要很多背景的知识，这里不作介绍。

表1 构建分子进化树相关的软件软件网址说明ClustalX http://bips.u-strasbg.fr/fr/Documentation/ClustalX/图形化的多序列比对工具ClustalW /biosi/research/biosoft/Downloads/clustalw.html命令行格式的多序列比对工具GeneDoc /biomed/genedoc/多序列比对结果的美化工具（可以导入fasta格式的文件，出来的图可用于发表，我用过）BioEdit /BioEdit/bioedit.html序列分析的综合工具MEGA /图形化、集成的进化分析工具，不包括MLPAUP /商业软件，集成的进化分析工具PHYLIP /phylip.html免费的、集成的进化分析工具PHYML http://atgc.lirmm.fr/phyml/最快的ML建树工具PAML /software/paml.html ML建树工具Tree-puzzle http://www.tree-puzzle.de/较快的ML建树工具MrBayes /基于贝叶斯方法的建树工具MAC5 /software/mac5/基于贝叶斯方法的建树工具TreeView /rod/treeview.html进化树显示工具（加红色标注的为最通用的分析软件）需要注意的几个问题是，其一，如果对核酸序列进行分析，并且是CDS编码区的核酸序列，一般需要将核酸序列分别先翻译成氨基酸序列，进行比对，然后再对应到核酸序列上。

这一流程可以通过MEGA 3.0以后的版本实现。

MEGA3现在允许两条核苷酸，先翻成蛋白序列比对之后再倒回去，做后续计算。

其二，无论是核酸序列还是蛋白序列，一般应当先做成FASTA 格式。

FASTA格式的序列，第一行由符号“>”开头，后面跟着序列的名称，可以自定义，例如user1，protein1等等。

将所有的FASTA格式的序列存放在同一个文件中。

文件的编辑可用Windows自带的记事本工具，或者EditPlus（google搜索可得）来操作。

文件格式如图1所示：图1 FASTA格式的序列另外，构建NJ或者MP树需要先将序列做多序列比对的处理。

作者推荐使用ClustalX进行多序列比对的分析。

多序列比对的结果有时需要后续处理并应用于文章中，这里作者推荐使用GeneDoc工具。

而构建ML树则不需要预先的多序列比对。

因此，作者推荐的软件组合为：MEGA 3.1 + ClustalX + GeneDoc + BioEdit。

四、数据分析及结果推断一般碰到的几类问题是，（1）推断基因/蛋白的功能；（2）基因/蛋白家族分类；（3）计算基因分化的年代。

关于这方面的文献非常多，这里作者仅做简要的介绍。

推断基因/蛋白的功能，一般先用BLAST工具搜索同一物种中与不同物种的同源序列，这包括直向同源物（ortholog）和旁系同源物（paralog）。

如何界定这两种同源物，网上有很多详细的介绍，这里不作讨论。

然后得到这些同源物的序列，做成FASTA格式的文件。

一般通过NJ构建进化树，并且进行Bootstrap分析所得到的结果已足够。

如果序列近缘，可以再使用MP构建进化树，进行比较。

如果序列较远源，则可以做ML树比较。

使用两种方法得到的树，如果差别不大，并且Bootstrap总体较高，则得到的进化树较为可靠。

基因/蛋白家族分类。

这方面可以细分为两个问题。

一是对一个大的家族进行分类，另一个就是将特定的一个或多个基因/蛋白定位到已知的大的家族上，看看属于哪个亚家族。