介绍几个进化树分析及其相关软件
如何做系统进化树

大家好:我在此介绍几个进化树分析及其相关软件的使用和应用范围。
这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN (LINUX)。
在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。
进化树也称种系树,英文名叫“Phyligenetic tree”。
对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。
做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。
⑵要构建一个进化树(To reconstrut phyligenetic tree)。
构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。
所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。
而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。
进化树枝条的长度代表着进化距离。
独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
⑶对进化树进行评估。
主要采用Bootstraping法。
进化树的构建是一个统计学问题。
我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。
如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。
常用生物软件

常用生物软件常用生物软件(Windows 版)一、基因芯片1、基因芯片综合分析软件。
ArrayVision 7.0 一种功能强大的商业版基因芯片分析软件,不仅可以进行图像分析,还可以进行数据处理,方便protocol的管理功能强大,商业版正式版:6900美元。
Arraypro 4.0 Media Cybernetics公司的产品,该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者,相信arraypro也不会差。
phoretix™ Array Nonlinear Dynamics公司的基因片综合分析软件。
J-express 挪威Bergen大学编写,是一个用JAVA语言写的应用程序,界面清晰漂亮,用来分析微矩阵(microarray)实验获得的基因表达数据,需要下载安装JAVA运行环境JRE1.2后(5.1M)后,才能运行。
2、基因芯片阅读图像分析软件ScanAlyze 2.44 ,斯坦福的基因芯片基因芯片阅读软件,进行微矩阵荧光图像分析,包括半自动定义格栅与像素点分析。
输出为分隔的文本格式,可很容易地转化为任何数据库。
3、基因芯片数据分析软件Cluster 斯坦福的对大量微矩阵数据组进行各种簇(Cluster)分析与其它各种处理的软件。
SAM Significance Analysis of Microarrays 的缩写,微矩阵显著性分析软件,EXCEL软件的插件,由Stanford大学编制。
4.基因芯片聚类图形显示TreeView 1.5 斯坦福开发的用来显示Cluster软件分析的图形化结果。
现已和Cluster成为了基因芯片处理的标准软件。
FreeView 是基于JAVA语言的系统树生成软件,接收Cluster生成的数据,比Treeview增强了某些功能。
5.基因芯片引物设计Array Designer 2.00 DNA微矩阵(microarray)软件,批量设计DNA和寡核苷酸引物工具二、RNA二级结构RNA Structure 3.5 RNA Sturcture 根据最小自由能原理,将Zuker的根据RNA一级序列预测RNA二级结构的算法在软件上实现。
生物信息学软件 (2)

生物信息学软件
生物信息学软件是一类专门用于处理、分析和解释生物学
数据的软件工具。
这些软件通常用于基因组学、蛋白质组学、转录组学和代谢组学研究中。
以下是一些常用的生物
信息学软件:
1. BLAST:用于快速在数据库中搜索相似序列的工具,对
于序列比对和亲缘关系分析非常有用。
2. ClustalW:用于多序列比对的软件,可以比较多个序列
之间的相似性和差异。
3. GROMACS:用于分子动力学模拟和分子力学计算的软件,可以模拟蛋白质、核酸等生物分子的结构和动态行为。
4. PHYLIP:用于构建进化树和系统发育分析的软件,可以根据序列的差异性推断出生物物种之间的进化关系。
5. R:一种统计软件,提供了广泛的生物信息学功能和数据处理方法。
6. Cytoscape:用于网络分析和可视化的软件,可以分析和可视化基因调控网络、蛋白质相互作用网络等。
7. NCBI工具包:由美国国家生物技术信息中心(NCBI)开发的一组工具,包括BLAST、Entrez等,用于生物序列和文献检索。
8. Galaxy:一个基于云计算的生物信息学分析平台,提供了大量的工具和工作流,方便生物学家进行数据分析和可视化。
9. MetaboAnalyst:用于代谢组学数据分析的软件,可以进行代谢物注释、统计分析、通路分析等。
10. Geneious:用于序列分析和比对、系统发育分析、基因预测等多种生物信息学任务的集成软件。
以上只是一小部分常用的生物信息学软件,随着科学研究的进展,新的软件工具不断涌现。
植物基因家族进化树的构建

植物基因家族进化树的构建一、数据收集在构建植物基因家族进化树之前,需要收集相关的基因序列数据。
这些数据可以通过各种数据库,如NCBI、Ensembl等获取。
在收集数据时,需要注意以下几点:1. 选择具有代表性的物种,覆盖尽可能多的系统发育分支;2. 确保所收集的基因序列数据质量可靠,无测序错误和拼接错误;3. 对于每个基因家族,应尽可能收集多个成员的序列,以便进行多序列比对和树的构建。
二、序列比对在获得基因序列数据后,需要进行多序列比对。
比对的目的是为了找到不同物种间基因序列的相似性和差异性,从而确定它们之间的系统发育关系。
常用的多序列比对软件有MUSCLE、CLUSTAL W等。
在进行多序列比对时,需要注意以下几点:1. 选择合适的比对参数,以保证比对结果的准确性和可靠性;2. 在比对过程中,需要注意保持基因序列的原始阅读框,避免引入不必要的拼接错误;3. 对于较长的基因序列,可以分段进行比对,以提高计算效率和准确性。
三、距离矩阵计算在多序列比对的基础上,需要计算不同物种间基因序列之间的距离。
距离矩阵的计算是树构建的重要步骤之一。
常用的距离矩阵计算方法有:1. 欧氏距离法:直接计算不同物种间基因序列的差异数目,得到距离矩阵;2. Kimura距离法:基于Kimura模型计算不同物种间基因序列的差异概率,得到距离矩阵;3. Jukes-Cantor距离法:考虑基因序列的突变率和进化速率,计算不同物种间基因序列的差异概率,得到距离矩阵。
在选择距离矩阵计算方法时,需要根据具体情况选择适合的方法。
如果数据量较大或序列较短时,可以考虑使用欧氏距离法;如果数据量较小或序列较长时,可以考虑使用Kimura或Jukes-Cantor距离法。
四、树构建方法选择在获得距离矩阵后,需要选择合适的树构建方法来构建进化树。
常用的树构建方法有:1. UPGMA(Unweighted Pair Group Method with Arithmetic Mean):将距离矩阵中的行或列进行聚类分析,根据聚类结果构建树;2. Neighbor Joining:基于距离矩阵中的最近邻关系构建树;3. Maximum Parsimony:基于树的构建准则函数(如最小改变数、最小代价等)构建树。
介绍几个进化树分析及其相关软件

大家好:我在此介绍几个进化树分析及其相关软件的使用和应用范围。
这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN (LINUX)。
在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。
进化树也称种系树,英文名叫“Phyligenetic tree”。
对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。
做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。
⑵要构建一个进化树(To reconstrut phyligenetic tree)。
构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。
所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。
而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。
进化树枝条的长度代表着进化距离。
独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
⑶对进化树进行评估。
主要采用Bootstraping法。
进化树的构建是一个统计学问题。
我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。
如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。
手把手教你用FastTree快速构建序列进化树

手把手教你用FastTree快速构建序列进化树
手把手教你用Fast Tree 快速构建序列进化树
常见的建树方法有:贝叶斯法(Bayesian),最大似然法(Maximum likelihood,ML),最大简约法(Maximum parsimony,MP),邻接法(Neighbor-Joining,NJ),最小进化法(Minimum Evolution,ME),类平均法(UPGMA)。
一般来讲,如果模型合适,最大似然法的效果较好。
对于近缘序列,最大简约法用的假设最少,各种方法结果相似。
而对于远缘序列,一般使用最大似然法或邻接法。
对相似度很低的序列,邻接法往往出现Long-branch attraction(LBA,长枝吸引现象),严重干扰进化树的构建。
对于各种方法构建分子进化树的准确性,Hall 认为贝叶斯的方法最好,其次是最大似然法,然后是最大简约法。
其实如果序列的相似性较高,各种方法结果差别不大。
最大似然法和邻接法需要选择模型。
对于蛋白质序列,一般选择Poisson Correction(泊松修正)模型。
而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2 参数)模型。
表1. 构建进化树的常用软件
软件名称简介Clustal X图形化的序列比对工具GeneDoc多序列比对结果美化工具BioEdit序列分析综合工具MEGA图形化比对,进化分析综合工具PAUP进化分析工具Phylip
进化分析工具PhyML最大似然法建树工具PAML最大似然
法建树工具MrBayes贝叶斯法建树工具FastTree最大似然法建树工具(速度快)TreeView进化树显示工具。
系统进化树构建方法及软件应用

•实例讲解 双击刚才保存的meg文件.
选择数据类型,在本次测试中我们用的是 核苷酸序列,对于右边的参数信息请点击 help按钮。
更具实际的情况我们这 里选择No选项
•实例讲解 下一步进入建树的最后阶段
参数设置好之后点击 compute.
这里我们选在了A型禽流感 病毒,当然在这次练习中您 喜欢的任意类型。当您确定 之后请点击 Show results
•实例讲解 当您点击完 Show results 之后你要做的就是选在我们所需的序列了
•实例讲解
因为禽流感病毒 不像别的很多别 的病毒只有核苷 酸序列,它拥有 八个或者七个 Negative -sense RNA。
•构建系统进化树的所涉及的工具
PUZZLE TreeView
应用quarter puzzling方法(一种最大简约法)构建系 统树
英国University of Glasgow开发,进化树显示工具
Phylogeny
欧洲生物信息研究所(EBI)的系统发育分析软件
PHYML MrBayes MAC5
快速的ML建树工具 基于贝叶斯方法的建树工具 基于贝叶斯方法的建树工具
•软件的选择
构建NJ树,可以用PHYLIP或者MEGA 构建MP树,可以使用PHYLIP或者MEGA 构建ML树可以使用PHYML,速度快,同时构建ML树还可以用PHYLIP,或者可以使用
BioEdit 贝叶斯的算法以MrBayes为代表,不过速度比较慢 关于系统发育分析的更多知识请参阅: /biology/bioinfo2/78842.shtml
•构建系统进化树的主要步骤
• 大体来说构建系统进化树的步骤有三步: 1. 序列比对 (ClustalX2)
免费分子生物学软件

AnTheProt包括蛋白质研究领域的大多数内容,功能非常强大。应用此软件包,使用个人电脑,便能进行各种蛋白质序列分析与特性预测,包括:进行蛋白质序列二级结构预测;在蛋白质序列中查找符合PROSITES数据库的特征序列;绘制出蛋白质序列的所有理化特性曲线;在互联网或本地蛋白质序列数据库中查找类似序列;计算蛋白质序列相对分子质量,计算蛋白质序列滴定曲线与等电点及计算信号肽潜在的断裂位点等许多功能。网址为:http://www.ibcp.fro
免费分子生物学软件
互联网上有许多免费分子生物学软件,一些是在线使用的,也有一些可以下载在PC机上使用。
(一)质粒作图软件(P1asmidProcessor)
PlasmidProcessor是一种免费绘制质粒图软件,可以绘制线状或环状DNA。用户定义限制位点、基因段与多克隆位点,还可插入或删除DNA片段,支持剪贴板、打印和存盘功能。下载站点:http://u.fi/_kiviraum/plasmid/plasmid.html。
(九)进化树生成与分析软件(PHYLIP)
PHYLIP用来进行进化树分析。它可以分析DNA与蛋白质序列,并可绘制进化树。
程序含有许多选项可以精确控制与分析。下载网站地址为:http:///phylip.html。
(十)进化树打印软件(TreeView)
(五)序列格式转换软件(Forቤተ መጻሕፍቲ ባይዱon)
ForCon是核酸与蛋白质不同序列格式文件的转换软件,可双向转换各种常见的多序列格式文件。下载站点为:http://bioc-www.Uia.ac.be/u/jraes。
(六)序列格式转换软件(SeqVerter)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大家好:我在此介绍几个进化树分析及其相关软件的使用和应用范围。
这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)。
在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。
进化树也称种系树,英文名叫“Phyligenetic tree”。
对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。
做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。
⑵要构建一个进化树(To reconstrut phyligenetic tree)。
构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。
所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。
而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。
进化树枝条的长度代表着进化距离。
独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
⑶对进化树进行评估。
主要采用Bootstraping法。
进化树的构建是一个统计学问题。
我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。
如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。
模拟的进化树需要一种数学方法来对其进行评估。
不同的算法有不同的适用目标。
一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。
如果分析的序列较多,有可能要花上几天的时间才能计算完毕。
UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。
这种算法得到的进化树相对来说不是很准确,现在已经很少使用。
邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。
其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。
另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。
最好是我们来发展一个更好的算法来解决它。
但无疑这是非常难的。
我想如果有人能建立这样一个算法的话,那他(她)完全可以在A.上发一篇高质量的文章。
下面介绍几个软件的使用。
首先是PHYLIP。
其是多个软件的压缩包,下载后双击则自动解压。
当你解压后就挥发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。
ii,序列数据转变成距离数据后,对距离数据分析的软件。
iii,对基因频率和连续的元素分析的软件。
iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。
v,按照DOLLO简约性算法对序列进行分析的软件。
vi,绘制和修改进化树的软件。
在此,我主要对前两种功能软件进行说明。
我们现在有几个序列如下:Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCATMo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo12 ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCATMo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT要对这8个序列进行进化树分析,按照上面的步骤,首先用CLUSTALX排列序列,输出格式为 *.PHY。
用记事本打开如下图:图中的8和50分别表示8个序列和每个序列有50个碱基。
然后,打开软件SEQBOOT,如下图:按路径输入刚才生成的 *.PHY文件,并在Random number seed (must be odd) ?的下面输入一个4N+1的数字后,屏幕显示如下:图中的D、J、R、I、O、1、2代表可选择的选项,键入这些字母,程序的条件就会发生改变。
D选项无须改变。
J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。
文章上面提到用Bootstraping法对进化树进行评估,所谓Bootstraping法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。
这样,一个序列就可以变成了许多序列。
一个多序列组也就可以变成许多个多序列组。
根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。
将生成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最“逼真”的进化树。
Jackknife则是另外一种随机选取序列的方法。
它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。
Permute是另外一种取样方法,其目的与Bootstrap和Jackknife法不同,这里不再介绍。
R选项让使用者输入republicate的数目。
所谓republicate就是用Bootstrap法生成的一个多序列组。
根据多序列中所含的序列的数目的不同可以选取不同的republicate。
当我们设置好条件后,键入Y按回车。
得到一个文件outfileOutfile用记事本打开如下:这个文件包括了100个republicate。
打开DNAPARS(最大简约性法)或DNAML(最大可能性法)软件。
将刚才生成的outfile文件更名后输入。
如下图:选项O是让使用者设定一个序列作为outgroup。
一般选择一个亲缘关系与所分析序列组很接近的序列作为outgroup(本例子不选outgroup),outgroup选择的好坏将直接影响到最后的进化树的好坏。
选项M是输入刚才设置的republicate的数目。
设置好条件后,键入Y按回车。
生成两个文件outfile和treefile。
Outfile打开如下图:该文件包括了227个进化树。
Treefile可以用TREEVIEW软件打开同样包含了这227个进化树。
打开CONSENSE软件,将刚才生成的treefile文件更名后输入。
如下图:键入Y按回车。
生成两个文件outfile和treefile。
Treefile用TREEVIEW打开,如下图:Outfile打开如下图:我们看出两个树是同样的。
但在outfile的树上的数字表示该枝条的Bootstrap 支持率(除以100.6)。
到现在,8个序列的进化树分析(最大简约法)已经完成。
如果要用邻位相连法对这8个序列进行分析的话,也首先执行SEQBOOT软件将这8个序列变成100个republicate。
然后,打开DNADIST软件,把SEQBOOT生成的文件输入,如下图:选项D有四种距离模式可以选择,分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。
选项T一般键入一个15-30之间的数字。
选项M键入100。
运行后生成文件如下图:这个文件包含了与输入文件相同的100个republicate,只不过每个republicate 是以两两序列的进化距离来表示。
文件中的每个republicate都省略了第一排的Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。
以这个输出文件为输入文件,执行NEIGHBOR软件。
如下图:选项M键入100。
生成两个文件outfile和treefile用记事本和TREEVIEW打开后,发现这两个文件都含有100个进化树。
再将treefile文件更名后输入CONSENSE软件,又得到两个文件outfile和treefile,这就是最后的结果。
以上是对DNA序列的分析,如果要对蛋白质序列进行分析,PROTDIST、PROTPARS 等软件。
其他软件的用法可以参照PHYLIP的documents。
下面介绍PUZZLE软件。
它是用最大可能性的方法来构建进化树的一个软件,并且对树进行bootstrap评估。
该软件搜寻进化树时用的算法是quartet puzzling,这个算法相对较快,但如要分析的序列较多时,也相当耗时。
另有LINUX版,运行起来相对较快。
PUZZLE的输入格式为PHYLIP INTERLEAVED。
CLUSTAL可以生成此格式文件。
PUZZLE的界面与PHYLIP类似,也是MS-DOS下的软件。
PHYLO-WIN是LINUX下的一个软件。
界面友好,极易操作。
该界面如下图:Puzzle: http//:www.tree-puzzle.dePhylo-win: http//:www.evolution.bmc.uu.sePhylip、Treeview and Clustalx: http//:(注:可编辑下载,若有不当之处,请指正,谢谢!)。