系统发育分析

合集下载

生物信息基础第6章系统发育分析

https :///arti cles/s41586-020-2012-7
生物信息基础 - Basics in Bioinformatics 模式识别与智能系统实验室 5
•• 例2:冠状病毒全
基因组核酸序列的系统发育树
[1] Peter Forster et al., Phylogenetic network analysis of SARS - CoV - 2 genomes, PNAS 2020.
表型特征
• 基因组数据方面的差异
– 数据丰富 – 建立了严格的数学模型
基因型特征
生物信息基础 - Basics in Bioinformatics 模式识别与智能系统实验室
7
表型特征的局限性
• 表型特征的局限性
– 趋同进化的影响（表型相似并不总反映基因相似）
• 人、软体动物、蝗虫
– 难以选择合适的表型特征
叶结点排列整齐，内部结点可以反映进化时间的顺序
分枝长度与物种/序列的进化时间成正比
两种树都可在分枝上标注信息(分支长度、进化时间以及其它数值)
生物信息基础 - Basics in Bioinformatics 模式识别与智能系统实验室
12
2. 叉树 (内部结点的分叉)
二歧分叉
2G I
•
计算方法
优化算法
聚类算法
简约法(MP) Parsimony
最大似然法 (ML) MaximumLikelihood
数据类型距离数据特征数据
进化距离最小二乘法
UPGMA法
邻接法 (NJ) NeighborJoining
生物信息基础 - Basics in Bioinformatics 模式识别与智能系统实验室

第九章系统发育分析

第九章系统发育分析Mark A. Hershkovitz and Detlef D.LeipeNational Center for Biotechnology InformationNational Library of MedicineNational Institutes of HealthBethesda,Maryland系统发育学研究的是进化关系，系统发育分析就是要推断或者评估这些进化关系。

通过系统发育分析所推断出来的进化关系一般用分枝图表（进化树）来描述，这个进化树就描述了同一谱系的进化关系，包括了分子进化（基因树）、物种进化以及分子进化和物种进化的综合。

因为”clade”这个词（拥有共同祖先的同一谱系）在希腊文中的本意是分支，所以系统发育学有时被称为遗传分类学(cladistics)。

在现代系统发育学研究中，研究的重点已经不再是生物的形态学特征或者其他特性，而是生物大分子尤其是序列。

尽管本章的目的是想描述一个万能的系统发育分析方法，但是这个目标过于天真，是不可能实现的(Hills et al.,1993)。

虽然人们已经设计了大量的用于系统发育的算法、过程和计算机程序，这些方法的可靠性和实用性还是依赖于数据的结构和大小，因此关于这些方法的优点和缺点的激烈争论成了分类学和系统发育学期刊的热门课题（Avise, 1994:Saitou, 1996; Li, 1997; Swofford et al., 1996a）。

Hillis等人（1993）曾经极其简单地介绍过系统发育学。

比起许多其它学科而言，用计算的方法进行系统发育分析很容易得到错误的结果，而且出错的危险几乎是不可避免的；其它学科一般都会有实验基础，而系统发育分析不太可能会拥有实验基础，至多也就是一些模拟实验或者病毒实验（Hillis et al., 1994）；实际上，系统发育的发生过程都是已经完成的历史，只能去推断或者评估，而无法再现了。

生物信息学第八章系统发育分析

第八章系统发育分析
系统发生（或种系发生、系统发育，phylogeny）是指生物形成或进化的历史。系统发生学(phylogenetics)研究物种之间的进化关系，其基本思想是比较物种的特征，并认为特征
相似的物种在遗传学上接近。系统发生研究的结果往往以系统发生树（phylogenetic tree）表
8.1.3 距离和特征
用于构建系统发生树的分子数据分成两类：（1）距离（distances）数据，常用距离矩阵描述，表示两个数据集之间所有两两差异；（2）特征(characters)数据，表示分子所具有的特征。分子系统发生分析的目的是探讨物种之间的进化关系，其分析的对象往往是一组同源的序列。这些序列取自于不同生物基因组的共同位点。序列比对是进行同源分析的一种基本手段，是进行系统发生分析的基础，一般采用基于两两比对渐进的多重序列比对方法，如 ClustalW 程序。通过序列的比对，可以分析序列之间的差异，计算序列之间的距离。无论是 DNA 序列，还是蛋白质序列，都是由特定字母表中的字符组成的。计算序列之间距离的一个前提条件是要有一个字符替换模型，替换模型影响序列多重比对的结果，影响系统发生树的构造结果。在具体的分析过程中，需要选择一个合理的字符替换模型，参见第 3 章的各种打分模型或代价、距离模型。距离（或者相似度）是反映序列之间关系的一种度量，是建立系统发生树时所常用的一类数据。在计算距离之前，首先进行序列比对，然后累加每个比对位置的得分。可以应用第
的连线称为分支，其中一端与叶节点相连的为外支，不与叶节点相连的为内支。
系统发生树有许多形式：可能是有根树（rooted tree），也可能是无根树（unrooted tree）；
可能是一般的树，也可能是二叉树；可能是有权值的树（或标度树，scaled tree，树中标明

基于系统发育分析的物种分类研究

基于系统发育分析的物种分类研究物种分类是生物学的重要分支之一。

它通过对生物多样性的研究，将物种按照一定的规则进行归类和命名，促进了人们对生物多样性的认识和理解。

基于系统发育分析的物种分类研究，是指通过对物种的遗传变异和演化历史进行分析，来重新构建物种分类系统的一种方法。

一、系统发育分析的原理系统发育分析的基本原理是：物种是基于演化关系分类的，每个物种都来源于一个共同的祖代。

通过比较不同物种的基因序列或形态特征，可以推断出它们之间的进化距离和关系。

具有较近进化关系的物种，其基因序列或形态特征的相似度也会较高。

因此，系统发育分析是一种通过遗传距离来重新分类物种的方法。

二、系统发育分析在物种分类中的应用系统发育分析在物种分类中的应用十分广泛。

它可以用来重新分类现有的物种，也可以用来发现新的物种。

例如，在众多的啄木鸟物种中，有一些物种的分类一直存在争议。

如果只依据形态特征进行分类，那么其分类的准确性会受到很大的挑战。

但是，通过对啄木鸟基因序列的分析，可以准确地重新分类这些物种。

此外，系统发育分析还可以用于发现新的物种。

通常情况下，新物种的发现需要依据形态特征和生态分布等多种因素进行综合判断。

但是，如果两个个体之间的遗传距离较远，那么可以将它们作为两个不同物种进行分类。

例如，在新西兰海域的深海中，有一种虾类的分类一直没有确定。

但是通过对虾类基因序列的分析，发现有两个不同的遗传分支，因此可以将它们分别归为两个不同的物种。

三、系统发育分析的优势与传统的物种分类方法相比，系统发育分析有以下优势：1. 高度准确性系统发育分析是一种基于遗传距离的分类方法，它可以准确地反映物种间的进化距离和关系。

因此，通过系统发育分析得到的分类结果，准确性往往比传统方法更高。

2. 可重复性强系统发育分析基于的是遗传距离，这种距离是可以被客观地测量和比较的。

因此，不同的实验室或研究者得到的分类结果也往往是可以复制和重现的。

3. 对不同类型物种适用性强系统发育分析不仅对哺乳动物、鸟类等较为复杂的物种适用，同时也可以用来分类昆虫、植物等不同类型的物种。

浅谈系统发育分析及进化树制作课件

浅谈系统发育分析及进化树制作课件
THE FIRST LESSON OF THE SCHOOL YEAR
目录CONTENTS
• 系统发育分析简介 • 进化树基本概念 • 进化树的制作方法 • 系统发育分析的挑战与未来发展 • 实践案例分享 • 总结与展望
01
系统发育分析简介
定义与重要性
定义
系统发育分析是一种研究生物种群进化历程和亲缘关系的方法，通过比较不同物种间的基因、蛋白质等分子序列差异，构建进化树来揭示生物的演化关系。
重复构建
为确保结果的稳定性，对同一数据集进行多次重复构建进化树。
01
系统发育分析的挑战与未来发展
当前面临的主要问题
数据获取与整合
系统发育分析需要大量的基因序列数据，如何高效获取和整合这些数据是一个挑战。
算法复杂度与计算
资源
随着数据量的增长，传统的系统发育分析算法面临计算效率和资源消耗的挑战。
物种间基因序列差
异
不同物种的基因序列存在较大差异，如何准确识别和比较这些差异是系统发育分析的关键。
未来发展方向与趋势
Байду номын сангаас
01
大数据技术的应用
利用大数据技术对海量基因序列数据进行处理和分析，提高系统发育分析的效率和准确性。
02
算法优化和并行计算
通过算法优化和并行计算技术，降低系统发育分析的计算复杂度，提高计算效率。
基于已知物种的进化关系，构建一棵假设树，常用软件如RAxML。
贝叶斯法
基于贝叶斯统计理论，模拟基因序列的进化过程，常用软件如MrBayes。
参数设置与优化
模型选择
根据基因序列的特点选择合适的进化模型，如GTR、 GTR+I+G等。

实习五：系统发育分析-PHYLIP,MEGA,MrBayes[宝典]

实习五：系统发育分析－PHYLIP，MEGA, MrBayes学号姓名专业年级实验时间提交报告时间实验目的：1. 学会使用PHYLIP，MEGA和MrBayes构建进化树2. 学会分析建树结果，体会各种方法差异实验内容：系统发育（phylogeny）也称系统发展，是与个体发育相对而言的，它是指某一个类群的形成和发展过程。

系统发育学的目的是研究进化关系，系统发育分析就是要推断或者评估这些进化关系。

多序列比对的目标是发现多条序列的共性。

本次实验旨在使用PHYLIP，MEGA和MrBayes构建进化树，并通过分析构树的结果，了解各方法的差异性。

作业：1. List the title of the orthologous nucleotide and protein sequences you found from Practice 1. Build phylogenetic trees with PHYLIP, MEGA and MrBayes respectively. Make a simple comparison the trees you have got, and try to explain the difference.核酸序列使用的是来自Trifolium repens（白车轴草）硬粒小麦（Triticum durum）Camellia sinensis（山茶）Cicer arietinum （鹰嘴豆）及Glycine max（大豆）dehydrin的编码脱水素（dehydrin）的DNA序列，这些物种将分别以TF，TC，Cam，Cic及Gly表示；首先对于PHYLIP中的关系，通过五种算法的构树结果可以发现其树形的差异不大。

如何利用生物大数据进行系统发育分析

如何利用生物大数据进行系统发育分析生物大数据的迅速积累和高精度的分析工具的发展，为生物学研究提供了前所未有的机会。

其中，生物大数据在系统发育分析方面的应用尤其引人关注。

系统发育学旨在揭示物种之间的进化关系，了解生命的起源、进化和分布等基本问题。

本文将介绍如何利用生物大数据进行系统发育分析，并探讨其在生物学研究中的潜在价值。

1. 数据收集与整理首先，要进行系统发育分析，需要收集和整理一定数量和质量的生物序列数据。

这些数据可以是DNA、RNA或蛋白质序列，可以通过公开数据库（如GenBank、NCBI等）获取。

为了确保数据的准确性，可以对获取的数据进行筛选和清理，去除低质量序列和存在缺失的数据。

2. 序列比对与建立进化树获取和整理好的生物序列数据，可以通过序列比对软件进行比对。

常用的序列比对软件包括BLAST、MAFFT、Clustal等。

通过比对，可以找到序列之间的相似性，为后续的进化树构建提供基础。

建立进化树是系统发育分析的核心步骤之一。

进化树揭示了物种之间的亲缘关系，可以指导物种分类和演化研究。

常用的建树方法有最大简约法、最大似然法和贝叶斯推演法等。

这些方法可以结合已知的物种分类信息和序列比对结果，构建出一棵合理的进化树。

3. 进化模型选择与分析在建立进化树之前，需要选择合适的进化模型。

进化模型描述了序列的进化过程，不同模型具有不同的复杂度和解释能力。

选择合适的进化模型可以提高分析结果的准确性。

常用的进化模型选择方法有AIC（赤池信息准则）、BIC（贝叶斯信息准则）和LRT（似然比检验）等。

这些方法通过对比不同模型的假设和数据拟合情况，选择最合适的模型进行进化分析。

4. 分子钟估计与进化速率分析在建立进化树的基础上，可以通过分子钟推断方法估计物种分化的时间。

这需要根据已知的地质事件等时间点，将进化树的分支长度与时间进行关联。

分子钟估计方法包括最小二乘法、贝叶斯方法等。

进化速率可以用来研究物种的演化速度和适应性。

系统发育树的构建与分析方法

系统发育树的构建与分析方法概述系统发育树是生物学中重要的研究工具，通过构建系统发育树可以探究生物之间的关系，研究进化过程和生物多样性。

本文将介绍系统发育树的构建和分析方法。

系统发育树的构建方法系统发育树的构建方法可以分为以下几种：1. 相似性分析法相似性分析法是最简单和常用的构建系统发育树的方法之一。

该方法通过比较不同物种的形态、行为、生理等特征的相似性，判断它们之间的亲缘关系。

这种方法的局限性在于很多特征可能出现多次独立进化，而不是从共同祖先继承的。

2. 分子序列分析法由于DNA或蛋白质序列的进化是按照分子钟模型进行的，因此分子序列分析成为当前构建系统发育树的最常用和最准确的方法之一。

该方法通过比较生物体DNA或蛋白质序列的差异，建立相似度矩阵，并在此基础上运用数学模型进行树的构建。

3. 基因组分析法基因组分析法通过直接比较不同生物体的基因组，从而确定它们之间的进化关系。

这种方法包括全基因组比较和重构古基因组。

4. 形态-分子组合分析法形态-分子组合分析法是将形态特征和分子特征结合起来分析生物之间的进化关系。

在这种方法中，形态特征通常用于解决分子序列存在误差的问题。

系统发育树的分析方法系统发育树的分析方法包括静态分析和动态分析两种。

静态分析静态分析是指对系统发育树形态和拓扑关系的分析，这种方法主要依靠人工分析和软件分析两种方式。

1. 人工分析法人工分析法主要是通过比较不同树之间的拓扑结构和相应的节点值，判断它们之间的相关性。

人工分析法需要手动绘制树，并用统计方法比较不同树之间的相似性。

2. 软件分析法软件分析法主要是应用多种专业软件进行计算和模拟，比如molecular evolution software suite (MEGA)、PAUP和PhyML等。

这种方法可以减少人力工作，提高分析准确性。

动态分析动态分析是指以时间序列为基础，考察系统发育树演化的过程和趋势。

这种方法主要依靠统计分析方法，如马尔科夫链蒙特卡罗(MCMC)、Bayesian标记链蒙特卡罗（MCMC）等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实习四: 系统发育分析－PHYLIP, MEGA, MrBayes实习目的1. 学会使用PHYLIP，MEGA和MrBayes构建进化树2. 学会分析建树结果，体会各种方法差异实习内容：一、PHYLIPPHYLIP网址： /PHYLIP.htmlPHYLIP是一个免费的系统发育树构建软件，它的功能比较全面，可用距离法、最大简约法和最大似然法分别进行建树，还可以对进化树可靠性进行检验。

PHYLIP没有多序列比对功能，所以先要用其它序列比对软件完成序列比对，并保存为phy格式后，才可提交给PHYLIP 进行分析。

1.1 比对序列的准备1．将教学材料里demo sequence.zip文件解压到D盘根目录下，分别用其中的mRNA和protein序列学习进化树构建。

首先我们用实习2学过的多序列比对软件对序列进行比对。

这里以CLUSTAX为例来说明。

强烈建议：将你的所有同源核酸（或蛋白质）序列存到一个文本文档里，将”>”之后那行只保留物种名称，或物种名称_蛋白（或基因）名称，方便后面分析比较。

2．用CLUSTALX进行多条序列比对，在Alignment - output format option选中PHYLIP 格式，对序列进行比对（Alignment - Do complete alignment）。

将生成的phy文件保存，此文件可以用写字板打开浏览，里面内容是多条序列比对结果。

（Figure 1.1）Figure 1.1 用clustalx进行多条序列比对及生成的phy文件3．双击解压PHYLIP-3.69.zip文件，得到三个文件夹，其中doc文件夹里是关于所有PHYLIP 子程序的使用说明，exe文件夹里是直接可以使用的可执行程序，src文件夹里是所有程序的源代码。

4．打开PHYLIP的exe文件夹，将上步保存的phy文件复制到exe文件夹中。

5．上课时我们是先将序列用某种方法建树后，然后做bootstrap检验，看树的可靠性。

但一般情况下用你的序列直接构建出来的树与伪样本建出来的一致树（consensus tree）是非常相似的，所以这里我们先做bootstrap，直接用伪样本建树。

6．双击SEQBOOT子程序（SEQBOOT是一个利用bootstrap方法产生伪样本的程序），所有PHYLIP子程序默认的输入文件名为infile, 输出文件名为outfile。

如果在exe 文件夹里找不到默认的输入文件，会提示can’t find input file “infile”。

输入刚刚生成的phy文件名，点击回车。

（Tip: 如果你的phy文件不在exe文件夹中，需要输入phy文件的完整路径；或者你也可以直接把phy文件拖到这个程序窗口里来。

）Figure 1.2 seqboot程序起始界面7．进入程序参数选择页面（Figure 1.3）。

第一列中的D、J、%、B、R、W、C、S等代表可选的参数。

想改变哪个参数，就键入此参数对应的字母，并点击回车键，对应参数将会发生改变。

当我们设置好所有参数后，（这里我们可以不做任何修改），键入Y表示接受所有参数，按回车。

此时程序询问“random number seed? <must be odd>”，这是询问随机抽列产生伪样本时，生成随机数的种子是多少，输入一个（4N+1）的数即可（如5，9，13等），点击回车程序开始运行，输出结果到文件outfile，保存在当前exe文件夹里。

.Figure 1.3 seqboot程序参数选择页面主要参数解释：D：数据类型，有Molecular sequence（分子序列）、discrete morphology（离散表型）、restriction sites（限制酶切位点）和gene frequencies （基因频率）4个选项。

J：伪样本产生方法，有Bootstrap, Jackknife（打乱一半位点）, Permute（打乱每个位点的物种次序）和rewrite（将phy文件转变为其它格式）4个选项。

B：自举法窗口大小选择，默认为1，也可任意设定。

R：产生伪样本的数目，默认100个。

W：输入文件为字符还是权重，我们是比对结果，所以是字符。

S：输出文件为字符数据还是权重，与输入要保持一致。

I：phy文件格式是顺序的（sequential）还是分块的(interleaved)。

Tip: 如果用MUSCLE进行多序列比对，在命令中加入参数 –phyl，(example: muscle –in mrna.txt –out mrna.out –phyl) 即可生成phy格式的比对结果。

在用SEQBOOT读入序列时，将I参数改为No，即可读入结果，进行伪样本的构建。

后面用到其它程序分析的时候，都要将I参数改为No。

Figure 1.4 seqboot程序运行过程页面程序默认产生100个伪样本，点击回车关闭seqboot程序后，将outfile更名为seqb, 用写字板打开seqb，可以看到里面是100套多条序列比对结果。

（Figure 1.5）注意：实习指导里每一步都将outfile和outtree的重命名，重命名的文件名是为了方便各位识别哪个文件由哪个程序产生，不是必须这样命名，你完全可以按照你的习惯进行重命名。

Figure 1.5 seqboot运行后输出文件内容1.2 最大简约法建树（Maximum Parsimony）PHYLIP中对核酸序列进行最大简约法建树的程序有两个，DNAPARS和DNAPENNY，其中DNAPARS在搜索最优树时采用的是启发式算法，而DNAPENNY是完全算法，所以前者不能保证得到最优树，而后者可以，但后者运行所需时间也相应要长。

我们这里介绍如何用DNAPARS建树。

1. 打开DNAPARS（PROTPARS如果序列是蛋白质），将刚才生成的seqb文件名输入。

（Figure 1.6）如果上一步输出的outfile文件你忘了更名，将会有警告，询问你如何处理已存在的outfile，是用新生成的文件替换掉R，还是在原文件后面续写A，或结果输出到另一个文件F或退出程序Q。

所以一定记得重命名每步新生成的outfile和outtree。

Figure 1.6 DNAPARS程序起始页面2.因为我们前面用seqboot生成了100个伪样本，所以要改M参数为分析多个数据 (multiple data sets，Figure 1.7），输入M回车，程序会提问是分析多个数据还是多个权重？输入D（数据），程序提问有多少个数据要分析？输入你在SEQBOOT里生成的replicate的数目100。

程序会再要求输入一个随机数种子（random number seed），作为打乱输入序列次序的随机数种子，同样给一个4N+1的数，然后输入打乱序列次序的次数，一般10次就可以了。

打乱输入序列的次序，是为了得到不受输入序列次序影响，更可靠的系统发育树，每打乱一次，建树就要多花1倍的时间。

Figure 1.7 DNAPARS程序参数选择页面主要参数解释：U：是否自动寻找自佳树，还是利用使用者所提供的树S：寻找最佳树的搜寻方式，more thorough（运行时间较长）或 less thorough（运行时间较短）V：保存多少个树 number of trees to save （当最优树不止一个的时候）J：是否更改输入序列的次序，由于输入序列的次序有时会影响分析结果，可以打乱输入序列次序以得到更可靠的结果。

如果选是，会要求输入一个4N+1的数做种子，然后询问打乱次数，一般打乱10次以上会提高结果的可靠性。

O：外群位置，默认不设外群，可以更改为任意一条序列。

T：每个位点进化步骤（替换次数）是否要设定阈值，如果设置了阈值，当实际进化步骤大于阈值时，忽略多出部分。

目的是平衡各位点对于建树结果的影响。

N：转换和颠换是否全部计算在内。

W：位点之间是否权重不同M：是否分析多个数据。

由于我们第一步seqboot产生了100个伪样本，每一步都要更改这个参数。

参数0-4都是关于显示方面的选择。

5：是否推断节点（node）上的祖先序列。

6：是否将建好的树写入树文件。

点击回车键，程序运行。

将生成两个文件outfile和outtree，将outfile更名为mpfile，将outtree更名为mptree。

用写字板打开mpfile（Figure 1.8），用TREEVIEW打开mptree(Figure 1.9)后，可以看到这两个文件都含有100个进化树。

Figure1.9显示共有101棵树，这是因为有时会生成不止1个最大简约树。

Figure 1.8 outfile（更名为mpfile）用写字板打开Figure 1.9 outtree（更名为mptree）用treeview打开3.打开CONSENSE（将多个伪样本建成的进化树，根据majority原则，得出一致树）软件，将刚才生成的mptree文件输入。

生成两个文件outfile和outtree。

Outfile 可用记事本打开，outtree可用TREEVIEW打开，两个文件是最后得到的一致树。

将两个文件更名为cmpfile和cmptree。

至此我们采用MP方法，并使用bootstrap检验，得到了最优树。

Figure 1.10 CONSENSE软件界面参数C是选择构建一致树的方法，Strict consensus只将在所有树中完全相同的部分显示在一致树中；MR, MRe and M1 产生的都是根据多数原则产生一致树。

默认的MRe方法将在50%以上自举树中出现的分枝列入一致树；M1允许使用者指定一致性百分阈值。

参数O是询问是否设定外群，和将哪条序列定为外群，默认是不设定的。

参数R是选择输出有根树还是无根树，默认为无根树。

用写字板打开cmpfile，（Figure 1.11）首先给出了输入序列的次序，注意，这里zebrafish 是第一条序列。

接下来是一致树上采用了的branch pattern的总结。

左边一列是branch pattern图示，用 dot(.)和 star(*)表示，dot (.) 代表这个物种不出现在这枝上，*代表这个物种出现在这枝上。

. 和 * 出现的次序就是上面的物种次序，第一行前2个物种是.，中间两个是*，后面3个是.，意思是说物种3（rat）和4(mouse)聚为一枝。

右边这列是这种branch pattern的支持率，第一行支持率为100%，说明101棵自举树都把物种3和4聚为一枝。

特别要注意的是，PHYLIP在不设外群的时候，总是把第一个物种，这里是zebrafish，放在最外层，也就是右边一致树最下面那枝，这并不是说这个物种离其它物种最远，只是这个软件的设置。