介绍几个进化树分析及其相关软件
如何做系统进化树

大家好:我在此介绍几个进化树分析及其相关软件的使用和应用范围。
这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN (LINUX)。
在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。
进化树也称种系树,英文名叫“Phyligenetic tree”。
对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。
做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。
⑵要构建一个进化树(To reconstrut phyligenetic tree)。
构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。
所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。
而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。
进化树枝条的长度代表着进化距离。
独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
⑶对进化树进行评估。
主要采用Bootstraping法。
进化树的构建是一个统计学问题。
我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。
如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。
各类生物软件汇总

三维分子类RASMOL 2.7.2.1 观看生物分子3D微观立体结构的软件。
非常有名,巨棒!RasTop 2.03 为RasMol 2.7.1的图形用户界面软件CHIME 2.6 SP5 直接在浏览器中观看3D分子。
MolMol 2k.2 将pdb等格式的蛋白文件通过微调,存成普通的图形文件。
CrystInfo 1.0 用来快速、容易地构建、观察与检查晶体3d结构。
PDViewer PDB格式文件的查看程序。
DS ViewerPro 5.0 trail 3维分子浏览工具。
ICMLite 2.8 3维分子浏览工具,有一些其他软件没有的功能。
VMD 1.82 3维分子浏览工具,可以进行动态显示。
CN3D 4.1 3D分子结构观察软件。
WPDB 2.2 PDB文件检索显示分析软件。
DTMM 4.1 Demo 3维分子模型显示、编辑与构建程序。
gopenmol2.32 显示并分析分子结构及其特性的软件。
POV-Ray 3.6b3 生成三维图像工具软件。
WinMegaPov 1.0 3D渲染软件POV-Ray非官方编译软件。
MolPOV 2.0.8 将PDB文件转化为POV格式文件的软件。
Mol2Mol 5.2.1Demo 分子文件格式转换软件。
PovChem 2.1.1 将PDB文件转化为POV格式文件的软件。
Ortep-3 for Windows 1.076 生成分子的热椭圆形点图软件。
PLATON1.07 通用结晶学软件工具。
Mage 6.35 读取并演示Kinemage格式文件的专用软件。
Prekin 6.35 将PDB格式文件转换为Kinemage格式文件的软件。
Swiss-PdbViewer 3.7 sp5 PDB文件显示与分析软件。
DINAMO 蛋白序列排队比较编辑与三维模型构建工具软件。
PCMolecule2 Lite 查看PDB格式文件的免费软件。
StrukEd Demo 化学分子编辑与三维模型生成软件。
常用生物软件

常用生物软件常用生物软件(Windows 版)一、基因芯片1、基因芯片综合分析软件。
ArrayVision 7.0 一种功能强大的商业版基因芯片分析软件,不仅可以进行图像分析,还可以进行数据处理,方便protocol的管理功能强大,商业版正式版:6900美元。
Arraypro 4.0 Media Cybernetics公司的产品,该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者,相信arraypro也不会差。
phoretix™ Array Nonlinear Dynamics公司的基因片综合分析软件。
J-express 挪威Bergen大学编写,是一个用JAVA语言写的应用程序,界面清晰漂亮,用来分析微矩阵(microarray)实验获得的基因表达数据,需要下载安装JAVA运行环境JRE1.2后(5.1M)后,才能运行。
2、基因芯片阅读图像分析软件ScanAlyze 2.44 ,斯坦福的基因芯片基因芯片阅读软件,进行微矩阵荧光图像分析,包括半自动定义格栅与像素点分析。
输出为分隔的文本格式,可很容易地转化为任何数据库。
3、基因芯片数据分析软件Cluster 斯坦福的对大量微矩阵数据组进行各种簇(Cluster)分析与其它各种处理的软件。
SAM Significance Analysis of Microarrays 的缩写,微矩阵显著性分析软件,EXCEL软件的插件,由Stanford大学编制。
4.基因芯片聚类图形显示TreeView 1.5 斯坦福开发的用来显示Cluster软件分析的图形化结果。
现已和Cluster成为了基因芯片处理的标准软件。
FreeView 是基于JAVA语言的系统树生成软件,接收Cluster生成的数据,比Treeview增强了某些功能。
5.基因芯片引物设计Array Designer 2.00 DNA微矩阵(microarray)软件,批量设计DNA和寡核苷酸引物工具二、RNA二级结构RNA Structure 3.5 RNA Sturcture 根据最小自由能原理,将Zuker的根据RNA一级序列预测RNA二级结构的算法在软件上实现。
生物信息学软件 (2)

生物信息学软件
生物信息学软件是一类专门用于处理、分析和解释生物学
数据的软件工具。
这些软件通常用于基因组学、蛋白质组学、转录组学和代谢组学研究中。
以下是一些常用的生物
信息学软件:
1. BLAST:用于快速在数据库中搜索相似序列的工具,对
于序列比对和亲缘关系分析非常有用。
2. ClustalW:用于多序列比对的软件,可以比较多个序列
之间的相似性和差异。
3. GROMACS:用于分子动力学模拟和分子力学计算的软件,可以模拟蛋白质、核酸等生物分子的结构和动态行为。
4. PHYLIP:用于构建进化树和系统发育分析的软件,可以根据序列的差异性推断出生物物种之间的进化关系。
5. R:一种统计软件,提供了广泛的生物信息学功能和数据处理方法。
6. Cytoscape:用于网络分析和可视化的软件,可以分析和可视化基因调控网络、蛋白质相互作用网络等。
7. NCBI工具包:由美国国家生物技术信息中心(NCBI)开发的一组工具,包括BLAST、Entrez等,用于生物序列和文献检索。
8. Galaxy:一个基于云计算的生物信息学分析平台,提供了大量的工具和工作流,方便生物学家进行数据分析和可视化。
9. MetaboAnalyst:用于代谢组学数据分析的软件,可以进行代谢物注释、统计分析、通路分析等。
10. Geneious:用于序列分析和比对、系统发育分析、基因预测等多种生物信息学任务的集成软件。
以上只是一小部分常用的生物信息学软件,随着科学研究的进展,新的软件工具不断涌现。
植物基因家族进化树的构建

植物基因家族进化树的构建一、数据收集在构建植物基因家族进化树之前,需要收集相关的基因序列数据。
这些数据可以通过各种数据库,如NCBI、Ensembl等获取。
在收集数据时,需要注意以下几点:1. 选择具有代表性的物种,覆盖尽可能多的系统发育分支;2. 确保所收集的基因序列数据质量可靠,无测序错误和拼接错误;3. 对于每个基因家族,应尽可能收集多个成员的序列,以便进行多序列比对和树的构建。
二、序列比对在获得基因序列数据后,需要进行多序列比对。
比对的目的是为了找到不同物种间基因序列的相似性和差异性,从而确定它们之间的系统发育关系。
常用的多序列比对软件有MUSCLE、CLUSTAL W等。
在进行多序列比对时,需要注意以下几点:1. 选择合适的比对参数,以保证比对结果的准确性和可靠性;2. 在比对过程中,需要注意保持基因序列的原始阅读框,避免引入不必要的拼接错误;3. 对于较长的基因序列,可以分段进行比对,以提高计算效率和准确性。
三、距离矩阵计算在多序列比对的基础上,需要计算不同物种间基因序列之间的距离。
距离矩阵的计算是树构建的重要步骤之一。
常用的距离矩阵计算方法有:1. 欧氏距离法:直接计算不同物种间基因序列的差异数目,得到距离矩阵;2. Kimura距离法:基于Kimura模型计算不同物种间基因序列的差异概率,得到距离矩阵;3. Jukes-Cantor距离法:考虑基因序列的突变率和进化速率,计算不同物种间基因序列的差异概率,得到距离矩阵。
在选择距离矩阵计算方法时,需要根据具体情况选择适合的方法。
如果数据量较大或序列较短时,可以考虑使用欧氏距离法;如果数据量较小或序列较长时,可以考虑使用Kimura或Jukes-Cantor距离法。
四、树构建方法选择在获得距离矩阵后,需要选择合适的树构建方法来构建进化树。
常用的树构建方法有:1. UPGMA(Unweighted Pair Group Method with Arithmetic Mean):将距离矩阵中的行或列进行聚类分析,根据聚类结果构建树;2. Neighbor Joining:基于距离矩阵中的最近邻关系构建树;3. Maximum Parsimony:基于树的构建准则函数(如最小改变数、最小代价等)构建树。
一文读懂进化树

⼀⽂读懂进化树声明:本⽂转载⾃“微⽣物⽣态”公众号,⼀个有⼲货的公众号系统发育树系统发育树(Phylogenetic tree)⼜称为系统进化树,是⽤⼀种类似树状分⽀的图形来概括各物种之间的亲缘关系,可⽤来描述物种之间的进化关系。
1.系统发育树构建步骤2.多序列⽐对系统发育树构建的第⼀步是进⾏多序列⽐对,常⽤的软件包括MEGA, clusterX,Muscle,phylip等。
(都很常⽤,就看哪个顺⼿)MEGA是最常⽤的⽐对建树软件,优点是可视化图形界⾯,简单⽅便;缺点是⽐对速度慢,输出格式单⼀。
Cluster X 的优点是图形界⾯,可输出多种格式(如phy);缺点也是慢。
Muscle和phylip 的优点是运算快,不过需要输⼊简单地代码,可能不适合初学者。
3.选择建树⽅法系统发育树构建的基本⽅法有如下⼏种:1、Distance-based methods 距离法:(基于距离的⽅法:⾸先通过各个物种之间的⽐较,根据⼀定的假设(进化距离模型)推导得出分类群之间的进化距离,构建⼀个进化距离矩阵。
进化树的构建则是基于这个矩阵中的进化距离关系。
)· Unweightedpair group method using arithmetic average(UPGMA)⾮加权分组平均法· Minimum evolution(ME)最⼩进化法· Neighbor joining(NJ)邻位归并法2、Character-based methods 特征法:(基于特征的⽅法:不计算序列间的距离,⽽是将序列中有差异的位点作为单独的特征,并根据这些特征来建树。
)· Maximum parsimony(MP) 最⼤简约法· Maximum likelihood method(ML) 最⼤似然法模型选择的依据如下图:其中UPGMA法已经较少使⽤。
⼀般来讲,如果模型合适,ML的效果较好。
免费分子生物学软件

AnTheProt包括蛋白质研究领域的大多数内容,功能非常强大。应用此软件包,使用个人电脑,便能进行各种蛋白质序列分析与特性预测,包括:进行蛋白质序列二级结构预测;在蛋白质序列中查找符合PROSITES数据库的特征序列;绘制出蛋白质序列的所有理化特性曲线;在互联网或本地蛋白质序列数据库中查找类似序列;计算蛋白质序列相对分子质量,计算蛋白质序列滴定曲线与等电点及计算信号肽潜在的断裂位点等许多功能。网址为:http://www.ibcp.fro
免费分子生物学软件
互联网上有许多免费分子生物学软件,一些是在线使用的,也有一些可以下载在PC机上使用。
(一)质粒作图软件(P1asmidProcessor)
PlasmidProcessor是一种免费绘制质粒图软件,可以绘制线状或环状DNA。用户定义限制位点、基因段与多克隆位点,还可插入或删除DNA片段,支持剪贴板、打印和存盘功能。下载站点:http://u.fi/_kiviraum/plasmid/plasmid.html。
(九)进化树生成与分析软件(PHYLIP)
PHYLIP用来进行进化树分析。它可以分析DNA与蛋白质序列,并可绘制进化树。
程序含有许多选项可以精确控制与分析。下载网站地址为:http:///phylip.html。
(十)进化树打印软件(TreeView)
(五)序列格式转换软件(Forቤተ መጻሕፍቲ ባይዱon)
ForCon是核酸与蛋白质不同序列格式文件的转换软件,可双向转换各种常见的多序列格式文件。下载站点为:http://bioc-www.Uia.ac.be/u/jraes。
(六)序列格式转换软件(SeqVerter)
一步一步教你如何做系统进化树

一步一步教你如何做系统进化树在此介绍几个进化树分析及其相关软件的使用和应用范围。
这几个软件分别是PHYLIP 、PUZZLE 、PAUP 、TREEVIEW 、CLUSTALX 和PHYLO-WIN (LINUX )。
在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。
进化树也称种系树,英文名叫“Phyligenetic tree ”。
对于一个完整的进化树分析需要以下几个步骤:⑴ 要对所分析的多序列目标进行排列(To align sequences )。
做ALIGNMENT 的软件很多,最经常使用的有CLUSTALX 和CLUSTALW ,前者是在WINDOW 下的而后者是在DOS 下的。
⑵ 要构建一个进化树(To reconstrut phyligenetic tree )。
构建进化树的算法主要分为两类:独立元素法(discrete character methods )和距离依靠法(distance methods )。
所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。
而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。
进化树枝条的长度代表着进化距离。
独立元素法包括最大简约性法(Maximum Parsimony methods )和最大可能性法(Maximum Likelihood methods );距离依靠法包括除权配对法(UPGMAM )和邻位相连法(Neighbor-joining )。
⑶ 对进化树进行评估。
主要采用Bootstraping 法。
进化树的构建是一个统计学问题。
我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大家好:我在此介绍几个进化树分析及其相关软件的使用和应用范围。
这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN (LINUX)。
在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。
进化树也称种系树,英文名叫“Phyligenetic tree”。
对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。
做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。
⑵要构建一个进化树(To reconstrut phyligenetic tree)。
构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。
所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。
而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。
进化树枝条的长度代表着进化距离。
独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
⑶对进化树进行评估。
主要采用Bootstraping法。
进化树的构建是一个统计学问题。
我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。
如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。
模拟的进化树需要一种数学方法来对其进行评估。
不同的算法有不同的适用目标。
一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。
如果分析的序列较多,有可能要花上几天的时间才能计算完毕。
UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。
这种算法得到的进化树相对来说不是很准确,现在已经很少使用。
邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。
其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。
另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。
最好是我们来发展一个更好的算法来解决它。
但无疑这是非常难的。
我想如果有人能建立这样一个算法的话,那他(她)完全可以在A.上发一篇高质量的文章。
下面介绍几个软件的使用。
首先是PHYLIP。
其是多个软件的压缩包,下载后双击则自动解压。
当你解压后就挥发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。
ii,序列数据转变成距离数据后,对距离数据分析的软件。
iii,对基因频率和连续的元素分析的软件。
iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。
v,按照DOLLO简约性算法对序列进行分析的软件。
vi,绘制和修改进化树的软件。
在此,我主要对前两种功能软件进行说明。
我们现在有几个序列如下:Mo3 ATGTA TTTCGTACA TTACTGCCAGCCACCATGAA TA TTGCACGGTACCA TMo5 ATGTA TTTCGTACA TTACTGCCAGCCACCATGAA TA TTGTACGGTACCATMo6 ATGTA TTTCGTACA TTACTGCCAGCCACCATGAA TA TTGTACGGTACCATMo7 ATGTA TTTCGTACATTACTGCCAGCCACCATGAA TATTGTACAGTACCA TMo8 ATGTA TTTCGTACA TTACTGCCAGCCACCATGAA TA TTGTACAGTACCATMo9 ATGTA TCTCGTACATTACTGCCAGCCACCATGAA TA TTGTACGGTACCA TMo12 ATGTA TTTCGTACA TTACTG CCAGCCACCATGAA TA TTGTACGGTACCATMo13 ATGTA TCTCGTACA TTACTGCCAGCCACCATGAA TATTGTACGGTACCA T要对这8个序列进行进化树分析,按照上面的步骤,首先用CLUSTALX排列序列,输出格式为*.PHY。
用记事本打开如下图:图中的8和50分别表示8个序列和每个序列有50个碱基。
然后,打开软件SEQBOOT,如下图:按路径输入刚才生成的*.PHY文件,并在Random number seed (must be odd) ?的下面输入一个4N+1的数字后,屏幕显示如下:图中的D、J、R、I、O、1、2代表可选择的选项,键入这些字母,程序的条件就会发生改变。
D选项无须改变。
J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。
文章上面提到用Bootstraping法对进化树进行评估,所谓Bootstraping法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。
这样,一个序列就可以变成了许多序列。
一个多序列组也就可以变成许多个多序列组。
根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。
将生成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最“逼真”的进化树。
Jackknife则是另外一种随机选取序列的方法。
它与Bootstrap 法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。
Permute 是另外一种取样方法,其目的与Bootstrap和Jackknife法不同,这里不再介绍。
R选项让使用者输入republicate的数目。
所谓republicate就是用Bootstrap法生成的一个多序列组。
根据多序列中所含的序列的数目的不同可以选取不同的republicate。
当我们设置好条件后,键入Y按回车。
得到一个文件outfile Outfile用记事本打开如下:这个文件包括了100个republicate。
打开DNAPARS(最大简约性法)或DNAML(最大可能性法)软件。
将刚才生成的outfile文件更名后输入。
如下图:选项O是让使用者设定一个序列作为outgroup。
一般选择一个亲缘关系与所分析序列组很接近的序列作为outgroup(本例子不选outgroup),outgroup选择的好坏将直接影响到最后的进化树的好坏。
选项M是输入刚才设置的republicate的数目。
设置好条件后,键入Y按回车。
生成两个文件outfile和treefile。
Outfile打开如下图:该文件包括了227个进化树。
Treefile可以用TREEVIEW软件打开同样包含了这227个进化树。
打开CONSENSE软件,将刚才生成的treefile文件更名后输入。
如下图:键入Y按回车。
生成两个文件outfile和treefile。
Treefile用TREEVIEW打开,如下图:Outfile打开如下图:我们看出两个树是同样的。
但在outfile的树上的数字表示该枝条的Bootstrap支持率(除以100.6)。
到现在,8个序列的进化树分析(最大简约法)已经完成。
如果要用邻位相连法对这8个序列进行分析的话,也首先执行SEQBOOT软件将这8个序列变成100个republicate。
然后,打开DNADIST软件,把SEQBOOT 生成的文件输入,如下图:选项D有四种距离模式可以选择,分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。
选项T一般键入一个15-30之间的数字。
选项M键入100。
运行后生成文件如下图:这个文件包含了与输入文件相同的100个republicate,只不过每个republicate是以两两序列的进化距离来表示。
文件中的每个republicate都省略了第一排的Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。
以这个输出文件为输入文件,执行NEIGHBOR软件。
如下图:选项M键入100。
生成两个文件outfile和treefile用记事本和TREEVIEW打开后,发现这两个文件都含有100个进化树。
再将treefile文件更名后输入CONSENSE软件,又得到两个文件outfile和treefile,这就是最后的结果。
以上是对DNA序列的分析,如果要对蛋白质序列进行分析,PROTDIST、PROTPARS 等软件。
其他软件的用法可以参照PHYLIP的documents。
下面介绍PUZZLE软件。
它是用最大可能性的方法来构建进化树的一个软件,并且对树进行bootstrap评估。
该软件搜寻进化树时用的算法是quartet puzzling,这个算法相对较快,但如要分析的序列较多时,也相当耗时。
另有LINUX版,运行起来相对较快。
PUZZLE的输入格式为PHYLIP INTERLEA VED。
CLUSTAL可以生成此格式文件。
PUZZLE的界面与PHYLIP类似,也是MS-DOS 下的软件。
PHYLO-WIN是LINUX下的一个软件。
界面友好,极易操作。
该界面如下图:Puzzle: http//:www.tree-puzzle.dePhylo-win: http//:www.evolution.bmc.uu.sePhylip、Treeview and Clustalx: http//:。