分子进化和系统发育分析 PPT
合集下载
第11章 分子进化与系统发育

主讲人:王茂先
(四)TREE-PUZZLE
采用最大似然法构建系统发育树
(五)MrBayes
采用贝叶斯方法进行系统发育树构建
(六)PhyML
根据最大似然法原理,采用更加简便的爬山算法来 同时估计树的拓扑结构和树的分枝长。
主讲人:王茂先
三、系统发育分析示例
(一)利用MEGA4构建系统发育树 1、序列获取
主讲人:王茂先
(二)PAUP--phylogenetic analysis using parsimony
(三)MEGA—molecular evolutionary genetics analysis 主要功能模块包括:通过网络进行数据的搜索、 遗传距离的估计、多序列比对、系统发育树的 构建和进化假说检验等。
第二节 分子系统发育树的构建方法
利用生物大分子数据重建系统进化树,目前最常用 的有4种方法,即距离法、最大简约法、最大似然法 和贝叶斯法,其中,最大简约法主要适用于序列相 似性很高的情况;距离法在序列具有比较高的相似 性时适用;最大似然法和贝叶斯法可用于任何相关 的数据序列集合。从计算速度来看,距离法的计算 速度最快,其次是最大简约法和贝叶斯方法,然后 是最大似然法。
1、选择合适的分子序列 2、多序列比对 3、选择合适的建树方法 4、系统发育树的评估
重复抽样检验、内枝检验
主讲人:王茂先
二、常见系统发育树的软件简介 (一)PHYLIP—the phylogeny inference package 主要程序组:
分子序列组:蛋白质序列组,如ptotpars、proml; 核苷酸序列组,如dnapenny、dnapars 距离矩阵组:fitch、kitsch、neighbor 基因频率组:gendist、contrast、contml 离散字符组:pars、mix、penny 进化树绘制组:drawgram、drawtree、consense
(四)TREE-PUZZLE
采用最大似然法构建系统发育树
(五)MrBayes
采用贝叶斯方法进行系统发育树构建
(六)PhyML
根据最大似然法原理,采用更加简便的爬山算法来 同时估计树的拓扑结构和树的分枝长。
主讲人:王茂先
三、系统发育分析示例
(一)利用MEGA4构建系统发育树 1、序列获取
主讲人:王茂先
(二)PAUP--phylogenetic analysis using parsimony
(三)MEGA—molecular evolutionary genetics analysis 主要功能模块包括:通过网络进行数据的搜索、 遗传距离的估计、多序列比对、系统发育树的 构建和进化假说检验等。
第二节 分子系统发育树的构建方法
利用生物大分子数据重建系统进化树,目前最常用 的有4种方法,即距离法、最大简约法、最大似然法 和贝叶斯法,其中,最大简约法主要适用于序列相 似性很高的情况;距离法在序列具有比较高的相似 性时适用;最大似然法和贝叶斯法可用于任何相关 的数据序列集合。从计算速度来看,距离法的计算 速度最快,其次是最大简约法和贝叶斯方法,然后 是最大似然法。
1、选择合适的分子序列 2、多序列比对 3、选择合适的建树方法 4、系统发育树的评估
重复抽样检验、内枝检验
主讲人:王茂先
二、常见系统发育树的软件简介 (一)PHYLIP—the phylogeny inference package 主要程序组:
分子序列组:蛋白质序列组,如ptotpars、proml; 核苷酸序列组,如dnapenny、dnapars 距离矩阵组:fitch、kitsch、neighbor 基因频率组:gendist、contrast、contml 离散字符组:pars、mix、penny 进化树绘制组:drawgram、drawtree、consense
系统发育树构建PPT(共10张PPT)

Unweightedpair group method using arithmetic average (UPGMA) 非加权分组平均法
距离进标尺化:生分物枝体或(序C列la之d间e差)异:的的是数指字尺由度。同一生物进化而来的单一系统群。
序序列列实将 将显显体示示屏屏抽幕幕的的象窗窗口口为中中。。节点,实体间的进化关系抽象为连接 • 研究对象: 系统发育树构建分析步骤
窗口上面的下N拉e菜ig单h可b让o你r 选jo择in传i统n多g重(N比J对)和邻轮位廓比归对需并要的法所有选项。
距窗离口法 上面>最的大下简拉约菜法单可>最让大你似选然择法传统多重比对和轮廓比对需要的所有选项。 将NC序B列I—C—OBPLYA至S记T—事—本输入序列对比——记录好以下几方面:
Character-based methods 基于特征的方法 并系用统系 进统化进树化的树主来要概构括成生:物间的这种亲缘关系。
• PHYLIP
• MEGA
• PHYML
• PAUP
• BEAST
系统发育树构建软件
• Figtree (树形显示软件)
• TreeView (树形显示软件)
6
系统发育树构建的基本方法
Distance-based methods 基于距离的方法
Unweightedpair group method using arithmetic average (UPGMA) 非加 权分组平均法 距系离统法 发育>最树大构简建约分法析步>最骤大似然法
bacterioplankton • 序列长度:353
• 相 似 比: 99%
• 核酸序列 • 分类地位
打开软件clustalx
距离进标尺化:生分物枝体或(序C列la之d间e差)异:的的是数指字尺由度。同一生物进化而来的单一系统群。
序序列列实将 将显显体示示屏屏抽幕幕的的象窗窗口口为中中。。节点,实体间的进化关系抽象为连接 • 研究对象: 系统发育树构建分析步骤
窗口上面的下N拉e菜ig单h可b让o你r 选jo择in传i统n多g重(N比J对)和邻轮位廓比归对需并要的法所有选项。
距窗离口法 上面>最的大下简拉约菜法单可>最让大你似选然择法传统多重比对和轮廓比对需要的所有选项。 将NC序B列I—C—OBPLYA至S记T—事—本输入序列对比——记录好以下几方面:
Character-based methods 基于特征的方法 并系用统系 进统化进树化的树主来要概构括成生:物间的这种亲缘关系。
• PHYLIP
• MEGA
• PHYML
• PAUP
• BEAST
系统发育树构建软件
• Figtree (树形显示软件)
• TreeView (树形显示软件)
6
系统发育树构建的基本方法
Distance-based methods 基于距离的方法
Unweightedpair group method using arithmetic average (UPGMA) 非加 权分组平均法 距系离统法 发育>最树大构简建约分法析步>最骤大似然法
bacterioplankton • 序列长度:353
• 相 似 比: 99%
• 核酸序列 • 分类地位
打开软件clustalx
ma分子进化基础PPT课件

▪ 如果一个群体由在这类性状方面相互无差别的个体所组 成则它将不会受到自然选择选择,导致等位基因频率随 时间而变。然而,仅仅是等位基因频率从一代到另一代 发生变化并不一定表示自然选择在起作用,别的过程例 如随机遗传漂变也能导致等位基因频率随时间的改变。
-
▪ 基因型的适合度fitness ,通常用w 表示,是一个关 于该个体的生存和增殖能力的尺度,不过由于一个 群体的大小通常受其所处环境的负载容量限制,所 以某一个体的进化成功不是由其绝对适合度 absolute fitness 而是由其与群体中其他基因型相比 的相对适合度(relative fitness)所决定的。
▪ 点阵法 ▪ 顺序距离法
-
How do you extract this information from an alignment?
-
Figure 21.4
-
3.4 核苷酸替换数的间接估计
▪ 在估计两序列间核苷酸替换数方面最完全的 解决可通过比较它们的核苷酸顺序而得到。 不过替换数也可从其他类型的分子数据,象 限制酶图谱或者DNA-RNA杂交得到的数据, 间接地推断出来。
▪ 对于一个要增加频率的突变型等位基因来说,必须是某 些因子而不是突变来掺入作用,这些因子包括自然选择、 随机遗传漂变、重组和迁徙。
▪ 为了认识进化的过程我们必须研究以上因子是如何影响
-
等位基因频率的变化的。
▪ 本书里我们只讨论自然选择和随机遗传漂变, 在涉及形态学性状的经典进化研究中自然选 择被看成是进化的主要驱动力量。
-
▪ 前20 年时间里关于中性突变假说的激烈争论给分 子进化带来了很大影响。
▪ 首先,它导致了在考虑分子变化的进化动力学时随 机漂变的作用不容忽视这一点得到普遍承认。
-
▪ 基因型的适合度fitness ,通常用w 表示,是一个关 于该个体的生存和增殖能力的尺度,不过由于一个 群体的大小通常受其所处环境的负载容量限制,所 以某一个体的进化成功不是由其绝对适合度 absolute fitness 而是由其与群体中其他基因型相比 的相对适合度(relative fitness)所决定的。
▪ 点阵法 ▪ 顺序距离法
-
How do you extract this information from an alignment?
-
Figure 21.4
-
3.4 核苷酸替换数的间接估计
▪ 在估计两序列间核苷酸替换数方面最完全的 解决可通过比较它们的核苷酸顺序而得到。 不过替换数也可从其他类型的分子数据,象 限制酶图谱或者DNA-RNA杂交得到的数据, 间接地推断出来。
▪ 对于一个要增加频率的突变型等位基因来说,必须是某 些因子而不是突变来掺入作用,这些因子包括自然选择、 随机遗传漂变、重组和迁徙。
▪ 为了认识进化的过程我们必须研究以上因子是如何影响
-
等位基因频率的变化的。
▪ 本书里我们只讨论自然选择和随机遗传漂变, 在涉及形态学性状的经典进化研究中自然选 择被看成是进化的主要驱动力量。
-
▪ 前20 年时间里关于中性突变假说的激烈争论给分 子进化带来了很大影响。
▪ 首先,它导致了在考虑分子变化的进化动力学时随 机漂变的作用不容忽视这一点得到普遍承认。
系统发生树构建PPT课件

➢ The branching pattern in a tree is called tree topology(拓扑结构).
13
分子进化分析介绍
基础生物信息学及应用
2009.09
1
第Ⅲ部分 生物分子信息的分析
基
础 生
第八章
分子进化分析——
物 信
系统发生树构建
息
学
及
应
用
2
本章内容:
基 础
➢ 分子进化分析介绍
生 物
➢ 系统发生树构建方法
信 息
➢ 系统发生树构建实例
学
及
应
用
3
第一节 分子进化分析介绍
基本概念:
基 础
➢ 系统发生(phylogeny)——是指生物形成或进化
物
similar function.
信 息
➢ Paralogs(旁系同源):
学
Homologous sequences within a single species that arose by gene
及
duplication. 。
应 用
➢ 以上两个概念代表了两个不同的进化事件。用于分子进化分析中 的序列必须是直系同源的,才能真实反映进化过程。
及
应
用
6
分子进化分析介绍
➢ 主要假定条件:To use molecular data to reconstruct
evolutionary history requires making a number of
基
reasonable assumptions:
础
生 物 信
The first is that the molecular sequences used in phylogenetic construction are homologous, meaning that they share a common origin and subsequently diverged through time.
分子进化与系统发育

分子进化与系统发育的未来发展方向
研究分子进化与系统 发育的关系,为物种 起源和演化提供新的
视角
利用分子进化与系统 发育的研究成果,为 医学、农业等领域提
供新的技术手段
探索分子进化与系统 发育的关系,为环境 保护和生物多样性保
护提供新的思路
研究分子进化与系统 发育的关系,为理解 生命起源和演化提供
新的理论基础
感谢您的观看
汇报人:XX
物种形成:物种形成是分子进 化的结果,新物种的形成需要 一定的突变和自然选择压力。
分子进化的意义
揭示生物进化 的机制和规律
帮助科学家了 解生物多样性 的起源和演化
过程
为药物研发提 供新的靶点和
思路
指导人类疾病 的预防和治疗
2 系统发育
系统发育的概念
系统发育:研究生物 类群之间的进化关系
和历史
目的:了解生物多样 性的形成和演化过程
分子进化与系统发育
XX,a click to unlimited possibilities
汇报人:XX
目录 /目录
01
分子进化
02
系统发育
03
分子进化与系 统发育的关系
1 分子进化
分子进化的概念
分子进化:指生 物体内分子水平 的进化过程,包 括基因、蛋白质 等分子的变化。
基因突变:基因 在复制过程中发 生的随机变化, 是分子进化的重 要机制之一。
自然选择:环境 对生物体基因突 变的选择,有利 于适应环境的突 变被保留下来。
分子钟:通过比 较不同物种的基 因序列差异,估 算物种之间的进 化关系和进化时 间。
分子进化的证据
基因序列比较:不同物种的基因序列比较,揭示了分子进化的证据
第四章 分子进化分析

1.2.3 最大似然法(ML)
最大似然法(maximum likelihood,ML) ML对 系统发育问题进行了彻底搜查。ML期望能够 搜寻出一种进化模型(包括对进化树本身进 行搜索),使得这个模型所能产生的数据与 观察到的数据最相似.
进化模型可能只是简单地假定所有核苷酸(或 AA)之间相互转变的概率相同,程序会把所有 可能的核苷酸轮流置于进化树的内部节点上, 并且计算每个这样的序列产生实际数据的可能 性(比如两个姊妹群都有核苷酸A,那么如果 假定原先的核苷酸C得到现在的A的可能性比起 假定原先就是A的可能性要小得多),所有可 能性的几率被加总,产生一个特定位点的似然 值,然后这个数据集的所有比对位点的似然值 的加和就是整个进化树的似然值。
2.选择适当的分析方法 如你分析的是DNA数据,可以选择简约法 (DNAPARS),似然法(DNAML, DNAMLK), 距离法等(DNADIST)。。。 3.进行分析 选择好程序后,执行,读入分析数据,选 择适当的参数,进行分析,结果自动保存为 outfile,outtree。
Outfile是一个记录文件,记录了分析的 过程和结果,可以直接用文本编辑器(如写 字板)打开。 Outtree是分析结果的树文件,可以用 phylip提供的绘树程序打开查看,也可以用 其他的程序来打开,如treeview。
paralogs
orthologs
1.1.2 类
群
祖先类群(ancestral group):如果一个类群(物种)至少有一 个子裔群,这个原始的类群就称为祖先类群 单系类群(monophyletic group)包含一个祖先类群所有子裔 的群组称为单系类群,其成员间存在共同祖先关系 并系类群(paraphyletic group)和复系类群(polyphyletic group):不满足单系类群要求,各成员间又具有共同祖先特征 的群组称为并系类群;各成员不具有共同衍生特征也不具有共 同祖先特征,只具有同型特征的分类群组称为复系类群 内类群(ingroup):一项研究所涉及的某一特定类群可称为内类 群
生物信息学第六章分子系统发育分析 ppt课件
姊妹群是单系类群的一种常见类 型。
• 图4-1示出树6个分类群(A-F)进 行不同划分所产生的单系、并系 和复系类群的例子。图4-1(a)中 单系类群为:{A,B},{E,D, F}、{C,D,E,F}、 {A,B,C,D,E,F}
• 图4-1 (b)中并系类群为:{C, D,E}、 {B,C,D, E, F}等
第四章 分子系统发育分析
§4.1分子进化的基本概念
• 系统发生学是进化生物学的一个重要研究领域,系统发生分 析早在达尔文时代就已经开始。从那时起,科学家们就开始 寻找物种的源头,分析物种之间的进化关系,给各个物种分 门别类。
• 经典系统发生学研究所涉及的特征主要是生物表型 (phenotype)特征,所谓的表型特征主要指形态学的(结构的) 特征,如生物体的大小、颜色、触角个数,也包括某些生理 的、生化的以及行为习性的特征。通过表型比较来推断生物 体的基因型(genotype),研究物种之间的进化关系。但是, 利用表型特征是有局限性的。有时候关系很远的物种也能进 化出相似的表型,这是由称为趋同进化的过程造成的。
4.1.1同源性与同源性状
• 同源性(homology)是比较生物学中的一个中心概念。第3章 和第4章中已涉及序列同源性检索方面的内容。这里,将进 一步讨论有关序列同源性分析的基本概念。同源,最基本的 意义就是具有共同祖先。一般来说,如果两个物种中有两个 性状(状态)满足以下两个条件中的任意一个,就可以称这两 个性状为一对同源性状(homologous character):
• 用表型来判定进化关系的另一个问题是,对于许多生物体很难检 测到可用来进行比较的表型特征。例如,即使用显微镜检查,也 难以发现细菌的明显特性。
• 当我们试图比较关系较远的生物体的时候,第三个问题又出现了, 即什么样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺 乳动物,它们之间的共同特征实在是少之又少。
分子进化与系统发育分析
分子进化与系统发育分析
汇报人:XX
目录
• 引言 • 分子进化理论与方法 • 系统发育分析方法 • 分子标记与基因组学在系统发育分析中应用 • 系统发育树评估与优化 • 挑战与展望
01
引言
分子进化与系统发育关系
分子进化是生物进化的重要组成部分,涉及基 因和蛋白质序列的变异、选择和遗传漂变等过 程。
似然比检验(Likelihood ratio test):通过 比较不同模型下的似然值,评估分支长度的 统计显著性。
提高系统发育树准确性策略
增加数据量
使用更多的基因或物种数据,以提高系统发 育树的分辨率和准确性。
选择适当的进化模型
对于存在异质性的基因数据,可以采用分区 (partition)或基因树-物种树(gene treespecies tree)等方法进行处理,以提高系统
生物学与数学
数学家可以为生物学家提供强大的统计和计算工具,帮助 解析复杂的生物类群系统发育关系。
生物学与地球科学
地球科学家可以提供关于生物演化的地质历史背景信息, 为生物学家解析生物类群系统发育关系提供重要线索。
感谢您的观看
THANKS
最大似然法
基于统计模型
通过构建一定的统计模型,估计模型参数,使得观测数据出现的概 率最大,从而重建系统发育关系。
代表性方法
ML(最大似然法)等。
适用范围
适用于数据量较大,且进化模型较复杂的情况,如分子序列数据分析 。
贝叶斯推断法
基于概率模型
通过构建概率模型,利用贝叶斯定理计算后验概率, 从而重建系统发育关系。
对原始序列数据进行质量评估和 控制,包括去除低质量序列、污 染序列等。
将不同物种或个体的DNA序列进 行比对,找出同源序列并确定序 列间的差异。
汇报人:XX
目录
• 引言 • 分子进化理论与方法 • 系统发育分析方法 • 分子标记与基因组学在系统发育分析中应用 • 系统发育树评估与优化 • 挑战与展望
01
引言
分子进化与系统发育关系
分子进化是生物进化的重要组成部分,涉及基 因和蛋白质序列的变异、选择和遗传漂变等过 程。
似然比检验(Likelihood ratio test):通过 比较不同模型下的似然值,评估分支长度的 统计显著性。
提高系统发育树准确性策略
增加数据量
使用更多的基因或物种数据,以提高系统发 育树的分辨率和准确性。
选择适当的进化模型
对于存在异质性的基因数据,可以采用分区 (partition)或基因树-物种树(gene treespecies tree)等方法进行处理,以提高系统
生物学与数学
数学家可以为生物学家提供强大的统计和计算工具,帮助 解析复杂的生物类群系统发育关系。
生物学与地球科学
地球科学家可以提供关于生物演化的地质历史背景信息, 为生物学家解析生物类群系统发育关系提供重要线索。
感谢您的观看
THANKS
最大似然法
基于统计模型
通过构建一定的统计模型,估计模型参数,使得观测数据出现的概 率最大,从而重建系统发育关系。
代表性方法
ML(最大似然法)等。
适用范围
适用于数据量较大,且进化模型较复杂的情况,如分子序列数据分析 。
贝叶斯推断法
基于概率模型
通过构建概率模型,利用贝叶斯定理计算后验概率, 从而重建系统发育关系。
对原始序列数据进行质量评估和 控制,包括去除低质量序列、污 染序列等。
将不同物种或个体的DNA序列进 行比对,找出同源序列并确定序 列间的差异。
第九章 分子进化与系统发育
UPGMA法
距离最短,代表亲 缘关系最近
d=e=10/2=5
c=19/2=9.5
g=c-d=9.5-5=4.5
d(DE)A=(AE+AD)/2=(41+39)/2=40
A B (CDE)
A -
B 22 -
(CDE) 39.5 41.5 -
a=b=22/2=11
d(CDE)A=(AE+AD+AC)/3=(41+39+39)/3=39.5
• 自20 世纪中叶,随着分子生物学的不断发 展,进化研究也进入了分子进化(molecular evolution)研究水平,并建立了一套依赖于 核酸、蛋白质序列信息的理论和方法。 • 分子进化(molecular evolution): 研究较长时 间内生物遗传信息改变的原因和结果的学 科领域。
直系同源与旁系同源
• 直系同源(orthologs): 同源的基因是由于 共同的祖先基因进化而产生的。 • 旁系同源(paralogs): 同源的基因是由于基 因复制产生的。
paralogs
orthologs
paralogs
orthologs
以上两个概念代表了两个不同的进化事件
用于分子进化分析中的序列必须是直系同源 的,才能真实反映进化过程。
• 用于构建系统树的数据有二种类型: • 特征数据(character-based data): 它提供了基因、 个体、群体或物种的信息。 • 距离数据(distance-based data): 它涉及的则是 成对基因、个体、群体或物种的信息。距离数 据可由特征数据计算获得,但反过来则不行。 这些数据可以矩阵的形式表达。距离或相似性 的计算总体上是要依据一定的遗传模型,并能 够表示出两个分类单位间的变化量。
贵中医-分子进化发育系统
主要内容
关于分子进化简介 分子进化的模式
分子系统发育分析 分子系统发育分析软件介绍
第二节 分子进化的模式 DNA突变的模式:替代,插入,缺失,倒位; 核苷酸替代:转换 (Transition) & 颠换
(Transversion)
转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代
颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代
无根树,有根树,外类群
archaea
archaea
archaea
eukaryote
eukaryote
无根树
eukaryote
eukaryote
通来通来确过通 来确过定外确过定外树类定外树类根群树类根群根群
有有有根根根树树树 根
bacteria outgroup 外外外类类类群群群
archaea archaea archaea
系统发育树重建分析步骤
多序列比对(自动比对,手工校正) 选择建树方法以及替代模型 建立进化树 进化树评估
系统发育树重建的基本方法
1. 最大简约法 (maximum parsimony, MP) 适用序列有很高相似性时
2. 距离法 (distance) 适用序列有 likelihood, ML) 可用于任何相关序列集合
eukaryote eukaryote
eukaryote eukaryote
无根树和有根树:潜在的数目
#Taxa
无根树
有根树
3
1
3
4
3
15
5
15
105
6
105
945
7
945
10,395
…
30
~3.58X1036 ~2.04X1038
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
20世纪50年代
正确地推断出人和猿比它们和其 它灵长类动物有更近的共同祖先
1902和1904
5
生物进化理论
• 达尔文进化论:
• 进化:变异的遗传 • 自然选择:解释为何演变发生的机制
种群中个体变异的遗传学基础:孟德尔遗传
• 孟德尔豌豆实验:杂交的表现特征是基因表达 的结果,而不是基因杂交遗传
• 中性进化论:并非所有种群中保留下来的突 变都由自然选择所形成;大多数突变是中性 或接近中性,不妨碍种群的生存与繁衍。
蛋白质分子 • 基本假设:核苷酸和氨基酸序列中含有生物
进化历史的全部信息。
8
分子进化的模式
• DNA突变的模式:替代,插入,缺失,倒位; • 核苷酸替代:转换 (Transition) & 颠换
(Transversion) • 基因复制:多基因家族的产生以及伪基因的产
生
–A. 单个基因复制 – 重组或者逆转录 –B. 染色体片断复制 –C. 基因组复制
21
5.3.1 重建系统发生树的术语
• 系统发生树有时也称为系统树图,它是由一系列的 节点和分支组成的,其中每个节点代表一个分类单 元。
分支末端的节点(外 部节点)对应一个基 因或生物体; 内部节点代表一个推 断的共同祖先,它在 过去的某个时候分歧 出两个独立的分支。
22
5.3.1 重建系统发生树的术语
Ⅰ
ⅡⅢ ⅣⅤ
Ⅰ
Ⅱ
Ⅴ
Ⅲ
根
时间
Ⅳ
⑴ 有根树
⑵ 无根树
有根树种,单一的节点指派为共同的祖先,从祖先节点只有唯 一的路径进化到达其他任何节点。
无根树只表明了节点之间的关系,而没有关于进化发生方向的
信息;
24
5.3.2 有根树和无根树
• 只考虑3个物种的时候,有3棵有根树,一棵无根树,如下图 所示:
Ⅰ Ⅱ Ⅲ Ⅰ Ⅲ ⅡⅢ Ⅱ Ⅰ Ⅰ
Charles Darwin (1809-1882)
4
研究者一直致力于研究DNA序列以及 基因组信息,目前DNA数据比任何分 子信息都要丰富
研究者开始能够获得基因组信息, 特别是DNA序列
20世纪70年代后至今 20世纪70年代
蛋白质测序成为可能
20世纪60年代
分子数据开始被广泛应用于 系统发生研究
13
分子进化研究的目的
• 物种分类及关系:从物种的一些分子特性出发, 构建系统发育树,进而了解物种之间的生物系统 发生的关系 —— tree of life
• 大分子功能与结构的分析:同一家族的大分子, 具有相似的三级结构及生化功能,通过序列同源 性分析,构建系统发育树,进行相关分析;功能 预测
• 进化速率分析:例如,HIV的高突变性;哪些位 点易发生突变?
19
5.3 系统发生树
• 概念 系统发生树:三个或者更多基因或生物体 之间 进化关系的典型图示;
大部分系统发生研究都是围绕系统发生树的概 念进行的,它不仅表示了数据之间的关系,还体 现了他们的分歧时间和他们共同祖先的特征。
20
5.3 系统发生树
5.3.1 重建系统发生树的术语 5.3.2 有根树和无根树 5.3.3 基因树和物种树 5.3.4 特征和距离数据
14
Tree of Life: 16S rRNA
15
Out of Africa
53个人的线粒体基因组(16,587bp)
人类迁移的路线
16
同源性与相似性
• 相似性 (Similarity)
–序列比对过程中用来描述检测序列和目标序列 之间相似DNA碱基或氨基酸残基序列所占比例;
–定量描述;
• 同源性 (Homology)
Ⅱ
有根树
Ⅲ
无根树
25
5.3.2 有根树和无根树
描述少量物种之间可能的进化关系的有根树和无根树的数目
物种数目 有根树数目
无根树数目
2
1
1
3
3
1
4
15
3
5
105
15
10
34 459 425
2 207 025
15
213 458 046 767 875
5个物种 (Ⅰ,Ⅱ, Ⅲ, Ⅳ, Ⅴ) 之间的进化关系的系统发生树
Ⅰ
ⅡⅢ
ⅣⅤ
外部节点
A
B
内部节点
C D
根节点
系统发生树结构的基本信息在计算机程序中常用一组嵌套的
圆括号表示,称为 Newick 格式,用该格式来表示上图中的树,
可写成 ( ( (Ⅰ,Ⅱ) , (Ⅲ, Ⅳ ) ) , Ⅴ)
23
5.3.2 有根树和无根树
序.2 分子系统发生分析的优点
比较分析
表型分析
①具有一定的局限性 ②许多生物体没有可 用来进行比较的易于 研究的表型 ③什么样的表型特征 能用来比较也不特别 明了
分子系统发生分析 基于DNA和蛋白质 序列的分析,能够 克服表型分析的缺 点问题,能够对生 物体进行正确的分 组,对于所得数据 比较可靠。
第五讲 分子进化与系统发育分析
5.1
分子系统发生学的历史
5.2
分子系统发生分析的优点
5.3
系统发生树
5.4
距离矩阵法
5.5
最大似然法
5.6
相关软件
3
5.1 分子系统发生学的历史
系统发生学是研究物种之间的进化关系的,是进化生物 学的一个重要研究领域,系统发生分析在达尔文时代就已经 开始。从那时起,科学家们就开始寻找物种的源头,分析物 种之间的进化关系,给各个物种分门别类。
9
DNA突变的模式
替代
插入
缺失
倒位
10
核苷酸替代:转换 & 颠换
• 转换:嘌呤被嘌呤 替代,或者嘧啶被 嘧啶替代
• 颠换:嘌呤被嘧啶 替代,或者嘧啶被 嘌呤替代
11
基因复制:单个基因复制
重组 逆转录
12
基因复制:基因组复制
酿酒酵母 克鲁雄酵母
研究结果: 克鲁雄酵母 中的同源基 因数量与酿 酒酵母相比 为1:2
–两个基因或蛋白质序列具有共同祖先的结论; –定性判断;
• 相似不一定同源,同源不一定相似。 • 氨基酸序列相似性超过30%,很可能同源。
17
序列同源性模型中的进化假设
• 所有的生物都起源于同一个祖先;
• 序列不是随机产生,而是在进化上,不断 发生着演变;
• 基本假设:
序列保守性
结构保守性
注意:反之未必
6
研究生物进化历史的途径 • 1. 最确凿证据是:生物化石!—— 零散、
不完整
• 2.比较形态学、比较解剖学和生理学等:确 定大致的进化框架 —— 细节存很多的争议
7
分子进化
• 1964年,Linus Pauling提出分子进化理论; • 从物种的一些分子特性出发,从而了解物种
之间的生物系统发生的关系。 • 发生在分子层面的进化过程:DNA, RNA和
正确地推断出人和猿比它们和其 它灵长类动物有更近的共同祖先
1902和1904
5
生物进化理论
• 达尔文进化论:
• 进化:变异的遗传 • 自然选择:解释为何演变发生的机制
种群中个体变异的遗传学基础:孟德尔遗传
• 孟德尔豌豆实验:杂交的表现特征是基因表达 的结果,而不是基因杂交遗传
• 中性进化论:并非所有种群中保留下来的突 变都由自然选择所形成;大多数突变是中性 或接近中性,不妨碍种群的生存与繁衍。
蛋白质分子 • 基本假设:核苷酸和氨基酸序列中含有生物
进化历史的全部信息。
8
分子进化的模式
• DNA突变的模式:替代,插入,缺失,倒位; • 核苷酸替代:转换 (Transition) & 颠换
(Transversion) • 基因复制:多基因家族的产生以及伪基因的产
生
–A. 单个基因复制 – 重组或者逆转录 –B. 染色体片断复制 –C. 基因组复制
21
5.3.1 重建系统发生树的术语
• 系统发生树有时也称为系统树图,它是由一系列的 节点和分支组成的,其中每个节点代表一个分类单 元。
分支末端的节点(外 部节点)对应一个基 因或生物体; 内部节点代表一个推 断的共同祖先,它在 过去的某个时候分歧 出两个独立的分支。
22
5.3.1 重建系统发生树的术语
Ⅰ
ⅡⅢ ⅣⅤ
Ⅰ
Ⅱ
Ⅴ
Ⅲ
根
时间
Ⅳ
⑴ 有根树
⑵ 无根树
有根树种,单一的节点指派为共同的祖先,从祖先节点只有唯 一的路径进化到达其他任何节点。
无根树只表明了节点之间的关系,而没有关于进化发生方向的
信息;
24
5.3.2 有根树和无根树
• 只考虑3个物种的时候,有3棵有根树,一棵无根树,如下图 所示:
Ⅰ Ⅱ Ⅲ Ⅰ Ⅲ ⅡⅢ Ⅱ Ⅰ Ⅰ
Charles Darwin (1809-1882)
4
研究者一直致力于研究DNA序列以及 基因组信息,目前DNA数据比任何分 子信息都要丰富
研究者开始能够获得基因组信息, 特别是DNA序列
20世纪70年代后至今 20世纪70年代
蛋白质测序成为可能
20世纪60年代
分子数据开始被广泛应用于 系统发生研究
13
分子进化研究的目的
• 物种分类及关系:从物种的一些分子特性出发, 构建系统发育树,进而了解物种之间的生物系统 发生的关系 —— tree of life
• 大分子功能与结构的分析:同一家族的大分子, 具有相似的三级结构及生化功能,通过序列同源 性分析,构建系统发育树,进行相关分析;功能 预测
• 进化速率分析:例如,HIV的高突变性;哪些位 点易发生突变?
19
5.3 系统发生树
• 概念 系统发生树:三个或者更多基因或生物体 之间 进化关系的典型图示;
大部分系统发生研究都是围绕系统发生树的概 念进行的,它不仅表示了数据之间的关系,还体 现了他们的分歧时间和他们共同祖先的特征。
20
5.3 系统发生树
5.3.1 重建系统发生树的术语 5.3.2 有根树和无根树 5.3.3 基因树和物种树 5.3.4 特征和距离数据
14
Tree of Life: 16S rRNA
15
Out of Africa
53个人的线粒体基因组(16,587bp)
人类迁移的路线
16
同源性与相似性
• 相似性 (Similarity)
–序列比对过程中用来描述检测序列和目标序列 之间相似DNA碱基或氨基酸残基序列所占比例;
–定量描述;
• 同源性 (Homology)
Ⅱ
有根树
Ⅲ
无根树
25
5.3.2 有根树和无根树
描述少量物种之间可能的进化关系的有根树和无根树的数目
物种数目 有根树数目
无根树数目
2
1
1
3
3
1
4
15
3
5
105
15
10
34 459 425
2 207 025
15
213 458 046 767 875
5个物种 (Ⅰ,Ⅱ, Ⅲ, Ⅳ, Ⅴ) 之间的进化关系的系统发生树
Ⅰ
ⅡⅢ
ⅣⅤ
外部节点
A
B
内部节点
C D
根节点
系统发生树结构的基本信息在计算机程序中常用一组嵌套的
圆括号表示,称为 Newick 格式,用该格式来表示上图中的树,
可写成 ( ( (Ⅰ,Ⅱ) , (Ⅲ, Ⅳ ) ) , Ⅴ)
23
5.3.2 有根树和无根树
序.2 分子系统发生分析的优点
比较分析
表型分析
①具有一定的局限性 ②许多生物体没有可 用来进行比较的易于 研究的表型 ③什么样的表型特征 能用来比较也不特别 明了
分子系统发生分析 基于DNA和蛋白质 序列的分析,能够 克服表型分析的缺 点问题,能够对生 物体进行正确的分 组,对于所得数据 比较可靠。
第五讲 分子进化与系统发育分析
5.1
分子系统发生学的历史
5.2
分子系统发生分析的优点
5.3
系统发生树
5.4
距离矩阵法
5.5
最大似然法
5.6
相关软件
3
5.1 分子系统发生学的历史
系统发生学是研究物种之间的进化关系的,是进化生物 学的一个重要研究领域,系统发生分析在达尔文时代就已经 开始。从那时起,科学家们就开始寻找物种的源头,分析物 种之间的进化关系,给各个物种分门别类。
9
DNA突变的模式
替代
插入
缺失
倒位
10
核苷酸替代:转换 & 颠换
• 转换:嘌呤被嘌呤 替代,或者嘧啶被 嘧啶替代
• 颠换:嘌呤被嘧啶 替代,或者嘧啶被 嘌呤替代
11
基因复制:单个基因复制
重组 逆转录
12
基因复制:基因组复制
酿酒酵母 克鲁雄酵母
研究结果: 克鲁雄酵母 中的同源基 因数量与酿 酒酵母相比 为1:2
–两个基因或蛋白质序列具有共同祖先的结论; –定性判断;
• 相似不一定同源,同源不一定相似。 • 氨基酸序列相似性超过30%,很可能同源。
17
序列同源性模型中的进化假设
• 所有的生物都起源于同一个祖先;
• 序列不是随机产生,而是在进化上,不断 发生着演变;
• 基本假设:
序列保守性
结构保守性
注意:反之未必
6
研究生物进化历史的途径 • 1. 最确凿证据是:生物化石!—— 零散、
不完整
• 2.比较形态学、比较解剖学和生理学等:确 定大致的进化框架 —— 细节存很多的争议
7
分子进化
• 1964年,Linus Pauling提出分子进化理论; • 从物种的一些分子特性出发,从而了解物种
之间的生物系统发生的关系。 • 发生在分子层面的进化过程:DNA, RNA和