系统发育树构建步骤

合集下载

系统发育进化树构建

系统发育进化树构建【实用版】目录一、什么是系统发育进化树二、系统发育进化树的构建方法三、系统发育进化树的应用四、总结正文一、什么是系统发育进化树系统发育进化树是一种用来表示物种或基因间亲缘关系的树状图，它可以利用树状分支图形来展示生物之间的进化关系。

系统发育进化树主要用于研究物种或序列的进化和系统分类，其研究对象通常包括碱基序列或氨基酸序列。

二、系统发育进化树的构建方法系统发育进化树的构建过程称为分支系统发育分析，它通过数理统计算法来计算生物间的进化距离，并以此为基础构建进化树。

以下是构建系统发育进化树的主要步骤：1.选择研究对象：首先需要选择合适的研究对象，例如碱基序列或氨基酸序列。

2.获取数据：搜集研究对象的相关数据，这通常需要通过实验或数据库获取。

3.计算进化距离：利用数理统计算法（如距离法、最大似然法等）计算不同生物间的进化距离。

4.构建进化树：根据进化距离构建树状分支图，通常使用聚类方法或最小生成树算法。

5.检验树状图：对构建好的进化树进行检验，以确保其符合生物学实际情况。

三、系统发育进化树的应用系统发育进化树在生物学研究中有广泛的应用，主要包括：1.物种分类和演化关系研究：通过构建进化树，可以了解不同物种之间的亲缘关系和演化历史。

2.基因功能预测：根据基因在进化树上的位置，可以推测基因的功能和作用。

3.基因调控关系分析：进化树可以帮助研究者了解基因之间的调控关系，从而揭示生物过程的调控机制。

4.病原体演化研究：对于病原体，进化树可以揭示其演化历程，有助于疫苗设计和疾病防治。

四、总结系统发育进化树是一种重要的生物学研究方法，它可以帮助研究者揭示物种或基因间的亲缘关系和演化历史。

系统发育树主要的四种构建方法

系统发育树主要的四种构建方法系统发育树（PhylogeneticTree）是生物学中最重要的概念之一，代表着物种的演变和发展关系，因此在基因组学、进化生物学等领域被广泛使用。

系统发育树以树状结构来组织物种之间的关系，这种结构形象地描绘了物种发展演化脉络，以及物种之间的亲缘关系。

通常情况下，系统发育树构建通过收集系统发育记录内容，通过分析物种间的相似性和距离，将这些信息映射到一个空间，以构建一个描述系统发育关系的树状结构。

本文将介绍构建系统发育树的四种主要方法，并结合实例详细说明其原理、优缺点。

第一种方法是基于分支的构建方法。

该方法的原理是从物种之间的共有特性出发，基于一组物种形态上的关系构建树。

该方法对物种之间的亲缘关系比较友好，但是它忽略了物种之间的根源关系，无法从真实的物种演化关系中考虑更多的信息。

以拟南芥（Arabidopsis thaliana）为例，其系统发育树利用了分支的构建方法，以体内的形态特征（如叶片的外形）为基础，把它与附近的物种进行比较，得到了拟南芥系统发育树的结构。

第二种方法是基于遗传标志物的构建方法。

在这种方法中，研究者采集物种的遗传标志物，包括核酸序列和蛋白质序列等，然后从遗传标志物间的相似性出发，计算出物种之间的进化距离，最后构建系统发育树。

此外，通过分析核酸序列的变异情况，也可以得到更准确的系统发育树。

以海岸铃声花（Lobelia cardinalis）为例，在其系统发育树的构建中，研究者采集了它的核酸序列、蛋白质序列，并与附近的物种进行比较，分析其遗传标志物的相似性，从而得到了海岸铃声花系统发育树的结构。

第三种方法是基于表型特征的构建方法。

表型特征是物种形态上可以观察到的特征，而表型比较可以帮助我们更好地分析物种间的进化距离，为物种系统发育树的构建提供依据。

以金星兰（Phalaenopsis amabilis）为例，其系统发育树利用了表型特征的构建方法，以金星兰的叶片形态等特征，与附近的物种进行比较，从而得到了金星兰的系统发育树结构。

系统发育树构建教程(PHYLIP)

系统发育树构建教程（PHYLIP）PHYLIP网址：/phylip.html（一）序列的前期准备1．用ENTREZ或SRS搜索同源DNA/蛋白质序列(same sequence in different organisms) 2．用CLUSTALX进行多条序列比对，在output format option选定PHY格式,构建进化树需要这个phy文件。

Figure 4.1 用clustalx进行多条序列比对3．解压缩phylip-3.68.exe，得到三个文件夹，doc文件夹里是关于所有PHYLIP子程序的使用说明，exe文件夹里是直接可以使用的各个子程序，src文件夹里是所有程序的源文件。

4．打开exe文件夹，双击SEQBOOTt子程序（SEQBOOT是一个利用bootstrap方法产生伪样本的程序），输入刚刚生成的phy文件的路径，点击enter。

5．所有PHYLIP程序默认的输入文件名为infile, 输出文件名为outfile。

如果在exe文件夹里找不到默认的输入文件，会提示can’t find input file “infile”。

Figure 4.2 seqboot程序起始界面6．进入程序参数选择页面（Figure 4.3）。

第一列中的D、J、%、B、R、W、C、S等代表可选的参数。

想改变哪个参数，就键入此参数对应的字母，并点击回车键，对应参数将会发生改变。

当我们设置好所有参数后，（这里我们可以不做任何修改），键入Y，按回车。

此时程序询问“random numbe r seed? <must be odd>”，这是询问生成随机数的种子是多少，输入一个4N+1的数，点击回车程序开始运行，输出结果到文件outfile，保存在当前文件夹里。

.Figure 4.3 seqboot程序参数选择页面主要参数解释：D: 数据类型，有Molecular sequence、discrete morphology、restriction sites和gene frequencies4个选项。

系统发育树构建

1、找模式菌株
Blast后，在LPSN内先找到属，再找到种，点击序列号，fasta后，复制文档至记事本，备注名称为（储藏所编号，序列号）
2、比对
打开GENEDOC，file-import-下载的序列，project-edit sequences list 删除不需要的序列，edit-pairwise alignment-align，edit-clear gap columns，+—号，人工比对（左键添加gaps,右键删除gaps），掐头去尾（edit-select columns-选择需要删除的末尾列-edit-delete all data）-file-export
输出的序列----最上面一行输入序列长度，然后将文档中的>和点号替换掉，除blast登录号外，其他的删除。

3、建树
打开TREECONW，找到treeconw exe打开，distantce estimation –start distantce estimation-找到文档，选择所有文件-打开目标文件-select all-taken into account，yes-ok-boots samples-1000, 后面选择YES,OK。

最后draw phylogenetic tree，点file下的空白。

标尺0.1，统计学50%。

File-copy-任一word文档
4、修改名字
种名（斜体），保藏号，模式菌株加上标T，括号blast序列号。

系统发育树构建的三种方法(一)

系统发育树构建的三种方法(一)三种系统发育树构建方法在生物学中，系统发育树是指生物种类之间的亲缘关系。

通过构建系统发育树，我们可以了解不同生物种类之间的演化历程和联系。

下面我们来介绍三种系统发育树构建的方法。

距离法距离法是一种常用的构建系统发育树的方法。

它的基本思想是根据不同生物种类之间的距离进行分类。

距离可以是基于相似性的度量，也可以是基于差异性的度量。

常见的距离度量包括曼哈顿距离、欧几里德距离、切比雪夫距离等。

距离矩阵是距离法的重要组成部分，它是一个方阵，包含了所有生物种类之间的距离值。

构建系统发育树的过程就是通过对距离矩阵进行聚类（clustering）实现的，聚类的目标是将所有生物种类分为几个亚类，使得每个亚类内部的距离较小，不同亚类之间的距离较大。

距离法的优点是计算简单，易于理解和实现，但它也存在一些缺点，如可能会受到距离度量方法的影响，对于复杂的数据集不够精确等问题。

最大简约法最大简约法（Maximum Parsimony）是另一种常用的构建系统发育树的方法。

它的基本思想是在所有可能的构建树中，选择最优的一棵树使得总的分支长度最短。

在最大简约法中，每个生物种类都被认为有一个共同的祖先，并且所有的演化事件都发生在该祖先的分支上。

最大简约法的优点是具有高度的准确性和可靠性，但计算复杂度较高，需要考虑多个参数的优化问题。

最大似然法最大似然法（Maximum Likelihood）是一种统计学方法，它的基本思想是估计不同系统发育树的概率，并选择具有最高概率的一棵树。

最大似然法的关键在于建立一个模型，该模型需要考虑生物种类之间的演化速率、基因突变率、特征亲缘关系等因素。

最大似然法计算量较大，但是它的结果在重复实验中更加可靠和稳定。

三种系统发育树构建方法各有优缺点，在实际应用中，我们需要结合具体的研究问题和数据特点来选择最适合的方法。

通过不断的探索和实践，才能更好地理解和探索生命的奥秘。

总结系统发育树的构建是生物学和生物信息学中一个重要的研究领域。

构建系统发育树的步骤

构建系统发育树的步骤
1. 收集种群样本：首先要选择一组相关的生物种群作为研究对象，并从不同地理区域或时间点采集具有代表性的样本。

2. 提取DNA：从样本中提取DNA，通常使用PCR技术扩增并纯化DNA。

3. 测序：对DNA进行测序，可以通过Sanger测序或高通量测序方法。

4. 序列比对：将不同样本的DNA序列进行比对，查找共有的相同或不同点。

5. 构建系统发育树：根据不同生物之间DNA序列的相似度，对各种生物类群进行分类和排列，以此建立系统发育树。

6. 验证树的假设：进行统计推断和深入分析，验证系统发育树的假设，确保树的枝条和叶节点都具有生物学意义。

7. 解释结果：解释树的拓扑结构和演化关系，关注不同物种或层级之间的相似性和差异性，并从中探究生物的进化历史和机制。

MEGA软件——系统发育树构建方法

MEGA软件——系统发育树构建方法（图
文讲解）
一、序列文本的准备
构树之前先将目标基因序列都分别保存为txt文本文件中（或者把所有序列保存在同一个txt文本中,可以用“>基因名称”作为第一行，然后重起一行编辑基因序列），序列只包含序列字母（ATCG或氨基酸简写字母）。

文件名名称可以已经您
的想法随意编辑。

二、序列导入到Mega 5软件
（1）打开Mega 5软件，界面如下
（2）导入需要构建系统发育树的目的序列
OK
选择分析序列类型（如果是DNA序列，点击DNA，如果是蛋白序列，点击Prot
ein）
出现新的对话框，创建新的数据文件
选择序列类型
导入序列
导入序列成功。

（3）序列比对分析
点击工具栏中“W”工具，进行比对分析，比对结束后删除两端不能够完全对齐
碱基
（4）系统发育分析
关闭窗口，选择保存文件路径，自定义文件名称
三、系统发育树构建
根据不同分析目的，选择相应的分析算法，本例子以N—J算法为例
Bootstrap 选择1000，点击Compute，开始计算
计算完毕后，生成系统发育树。

文档
根据不同目的，导出分析结果，进行简单的修饰，保存。

最大似然法系统发育树原理步骤

一、概述系统发育树是生物学领域中常用的一种分类学方法，通过比较不同物种的遗传信息，构建它们之间的亲缘关系，从而揭示它们的进化历史和演化路径。

而最大似然法则是系统发育树构建的常用方法之一，它基于遗传信息的统计学原理，通过计算各种拓扑结构的概率来确定系统发育树的最优结构。

二、最大似然法的原理在构建系统发育树时，我们首先需要收集物种的遗传信息，比如DNA 序列，蛋白质序列等。

然后我们需要假设一个系统发育树的拓扑结构，即物种之间的亲缘关系，接着利用这些遗传信息来评估这个拓扑结构的合理性。

而最大似然法则就是基于遗传信息的统计学原理，来评估不同拓扑结构的合理性。

三、最大似然法的步骤最大似然法构建系统发育树的步骤通常可以分为以下几个步骤：1. 假设模型：我们需要选择一个适当的进化模型，用来描述物种进化的过程。

比较常用的模型包括Jukes-Cantor模型、Kimura模型、GTR模型等。

这些模型会考虑不同的进化因素，比如碱基替换率、碱基组成偏好等。

2. 构建系统发育树：在选择好模型后，我们需要利用这些遗传信息来构建系统发育树。

通常我们会有多个不同拓扑结构的备选方案，比如三叉结构、四叉结构等。

而最大似然法则会根据已有的遗传信息来评估这些备选方案的合理性。

3. 计算概率：最大似然法则通过计算每个拓扑结构出现的概率来评估其合理性。

这里的概率通常是指给定遗传信息的情况下，某拓扑结构出现的可能性。

而这个概率通常是利用进化模型和统计学原理计算得来的。

4. 确定最优结构：通过比较不同拓扑结构的概率，我们可以确定系统发育树的最优结构。

通常我们会选择概率最大的那个拓扑结构作为最终的系统发育树。

四、总结通过最大似然法则构建系统发育树的步骤，我们可以在遗传信息的基础上，找到最优的物种亲缘关系，从而揭示它们的进化历史和演化路径。

最大似然法则基于遗传信息的统计学原理，通过计算不同拓扑结构的概率来评估其合理性，从而确定系统发育树的最优结构。

系统发育树构建教程(PHYLIP)

4．打开exe文件夹，双击SEQBOOTt子程序（SEQBOOT是一个利用bootstrap方法产生伪样本的程序），输入刚刚生成的phy文件的路径，点击enter。

5．所有PHYLIP程序默认的输入文件名为infile, 输出文件名为outfile。

如果在exe文件夹里找不到默认的输入文件，会提示can’t find input file “infile”。

Figure 4.2 seqboot程序起始界面6．进入程序参数选择页面（Figure 4.3）。

第一列中的D、J、%、B、R、W、C、S等代表可选的参数。

想改变哪个参数，就键入此参数对应的字母，并点击回车键，对应参数将会发生改变。

当我们设置好所有参数后，（这里我们可以不做任何修改），键入Y，按回车。

.Figure 4.3 seqboot程序参数选择页面主要参数解释：D: 数据类型，有Molecular sequence、discrete morphology、restriction sites和gene frequencies4个选项。

upgma系统发育构建原理

upgma系统发育构建原理UPGMA（Unweighted Pair Group Method with Arithmetic Mean）是一种常用的系统发育构建方法，也被称为加权平均群组法。

它基于一种原理，即越相似的物种在进化过程中越早分离，而越不相似的物种在进化过程中越晚分离。

UPGMA方法的基本思想是通过计算物种间的距离来构建进化树。

距离可以根据物种间的相似性或差异性来衡量。

在UPGMA中，距离被定义为物种间的平均距离，即将两个物种的距离相加后除以2。

这样做的好处是避免了过分关注某些个别物种的距离，使得整个进化树更加平衡。

UPGMA方法的构建过程如下：1. 首先，计算物种间的距离矩阵。

这可以通过比较它们的特征或基因序列等来实现。

距离矩阵是一个对称矩阵，其中的每个元素表示两个物种之间的距离。

2. 选择距离最小的两个物种作为一对，并将它们合并成一个新的群组。

这个新的群组的距离可以通过计算这两个物种的距离的平均值来获得。

3. 更新距离矩阵。

合并后的群组与其他物种的距离需要重新计算。

这可以通过计算新的群组与其他物种的平均距离来实现。

4. 重复步骤2和步骤3，直到所有的物种都被合并成一个群组，形成一颗完整的进化树。

UPGMA方法的优点是简单易懂，计算速度快。

但它也有一些局限性，比如对于一些复杂的进化关系，它可能无法准确地反映出物种间的真实关系。

总结起来，UPGMA方法是一种基于物种间距离的系统发育构建方法。

通过计算物种间的平均距离，并逐步合并最相似的物种，可以构建出一颗简单而合理的进化树。

这种方法在研究物种间的亲缘关系和进化历史时具有重要的应用价值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如何建树
step 1. 将16S rDNA序列在NCBI上进行BLAST比对(/BLAST/) BLAST是目前常用的数据库搜索程序，它是Basic Local Alignment Search Tool的缩写，意为“基本局部相似性比对搜索工具”(Altschul et al.,1990 [62];1997[63])。

国际著名生物信息中心都提供基于Web的BLAST服务器。

BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段，并作为内核向两端延伸，以找出尽可能长的相似序列片段。

首先登录到提供BLAST服务的常用网站，比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。

这些网站提供的BLAST服务在界面上差不多，但所用的程序有所差异。

它们都有一个大的文本框，用于粘贴需要搜索的序列。

把序列以FASTA格式(即第一行为说明行，以“>”符号开始，后面是序列的名称、说明等，其中“>”是必需的，名称及说明等可以是任意形式，换行之后是序列)粘贴到那个大的文本框，选择合适的BLAST程序和数据库，就可以开始搜索了。

如果是DNA序列，一般选择BLASTN搜索DNA数据库。

这里以NCBI为例。

登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。

BLASTN结果如何分析(参数意义)：
例如：
>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence
Score = 2020 bits (1019), Expect = 0.0
Identities = 1382/1497 (92%), Gaps = 8/1497 (0%)
Strand = Plus / Plus
Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60
|||||||||||||||||||||||||||||||||||||||||| ||||||||| |||||
Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58
Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120
|| ||||||||||||||||||||||||||||||| | |||||| |||||||||||||
Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118
其中，Score指的是提交的序列和搜索出的序列之间的分值，越高说明越相似。

Expect指的是比对的期望值。

比对越好，expect越小，一般在核酸层次的比对，expect小于1e-10，就比对很好了，多数情况下为0。

Identities指的是提交的序列和参比序列的相似性，如上所指为1497个核苷酸中二者有1382个相同。

Gaps指的是一般翻译成空位，指的是对不上的碱基数目。

Strand指的是链的方向，Plus / Minus意味着提交的序列和参比序列是反向互补的，如果是Plus / Plus则二者皆为正向。

挑选与目的菌株具有较近亲源关系的模式种（type strain）序列将这些序列用记事本保存成dna.seq文件。

>M.mulatta
AAGCTTTTCT GGCGCAACCA TCCTCATGAT
>M.fascicularis
AAGCTTCTCC GGCGCAACCA CCCTTA TAA T
step 2. 用CLUSTALX对已知DNA序列做多序列比对
1 双击clustalx.exe运行程序。

2 点File→Load Sequence，打开dna.seq。

3 点ALIGNMENT→Do complete Alignment，在新出现的窗点ALIGNMENT→Do complete Alignment口中点击ALIGN进行比对。

4 点FILE→Save sequence，点击OK。

5 将开始和末尾处长短不同的序列剪切整齐。

这里，因为测序引物不尽相同，所以比对后序列参差不齐。

一般来说，要“掐头去尾”，以避免因序列前后参差不齐而增加序列间的差异。

6 剪切后的文件进行再次比对，点FILE→Save sequence as FASTA格式。

step 3. 用MEGA建立进化树
1 打开Mega程序，转化为mega格式，File-Convert To MEGA Format- C:\temp\ jc-b.fas → C:\temp\ jc-b.meg，关闭Text Editor窗口-(Do you want to save your changes before closing?-Yes)。

2 激活目标文件，Click me to activate a data file- C:\temp\jc-b.meg-OK-(Protein-coding nucleotide sequence data?-No)。

3 Phylogeny-construct Phylogeny -Neighbor-Joining(NJ)
4 Options-Models-Nucleotide: Kimura 2-parameter;
5 d: Transitions+Transversions;
6 Include Sites-Pairwise Deletion
7 Test of Phylogeny-Bootstrap; Replications 1000; Random Seed 64238
8 OK；开始compute，得到结果；
9 Image-Copy to Clipboard-粘贴至Word文档进行编辑。

此外，Subtree中提供了多个命令可以对生成的进化树进行编辑，Mega窗口左侧提供了很多快捷键方便使用；View中则给出了多个树型的模式。

下面只介绍几种最常用的：Subtree-Swap：任意相邻两个分支互换位置；
-Flip：所选分支翻转180度；
-Compress/Expand：合并/展开多个分支；
-Root：定义外群；
View-Topology：只显示树的拓扑结构；
-Tree/Branch Style：多种树型转换；
-Options：关于树的诸多方面的改动。