(完整)应用PHYLIP构建进化树的完整详细过程

合集下载

进化树(Phylogenetictree)

确定运行后就会出现下面这个
采用变通的办法，下载新版Dnapars ver3.61
同样修改参数M
成功运行！
最后Dnapars ver3.61输出二个文件，分别命名为dnapars,outfile和dnapars,outtree
最后运行consense，导入dnapars,outtree
打开consense,outfile
2
To reconstrut phyligenetic tree，构建一个进化树；
3
对进化树进行评估。主要采用Bootst：最大简约法
1
首先用ClustalW比对序列。
2
使用SEQBOOT产生重复随机序列。
3
使用DNAPARS构造进化树。
4
使用CONSENSUS分析一致性。
首先用CLUSTALX对齐序列，输出1.phy，文本编辑器打开后如下图：
共8个序列，每个序列50个碱基。
然后，打开软件SEQBOOT，如下图
输入刚才生成的1.PHY文件输入一个4N+1的数字后，比如5。
Bootstraping法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最“逼真” 的进化树。
如图：
对比两种方法得到的进化树结果
谢谢。
用PHYLIP构建进化树
冯伟，北医三院血管医学研究所 snooppyyy@

系统发育树构建教程(PHYLIP)

系统发育树构建教程（PHYLIP）PHYLIP网址：/phylip.html（一）序列的前期准备1．用ENTREZ或SRS搜索同源DNA/蛋白质序列(same sequence in different organisms) 2．用CLUSTALX进行多条序列比对，在output format option选定PHY格式,构建进化树需要这个phy文件。

Figure 4.1 用clustalx进行多条序列比对3．解压缩phylip-3.68.exe，得到三个文件夹，doc文件夹里是关于所有PHYLIP子程序的使用说明，exe文件夹里是直接可以使用的各个子程序，src文件夹里是所有程序的源文件。

4．打开exe文件夹，双击SEQBOOTt子程序（SEQBOOT是一个利用bootstrap方法产生伪样本的程序），输入刚刚生成的phy文件的路径，点击enter。

5．所有PHYLIP程序默认的输入文件名为infile, 输出文件名为outfile。

如果在exe文件夹里找不到默认的输入文件，会提示can’t find input file “infile”。

Figure 4.2 seqboot程序起始界面6．进入程序参数选择页面（Figure 4.3）。

第一列中的D、J、%、B、R、W、C、S等代表可选的参数。

想改变哪个参数，就键入此参数对应的字母，并点击回车键，对应参数将会发生改变。

当我们设置好所有参数后，（这里我们可以不做任何修改），键入Y，按回车。

此时程序询问“random numbe r seed? <must be odd>”，这是询问生成随机数的种子是多少，输入一个4N+1的数，点击回车程序开始运行，输出结果到文件outfile，保存在当前文件夹里。

.Figure 4.3 seqboot程序参数选择页面主要参数解释：D: 数据类型，有Molecular sequence、discrete morphology、restriction sites和gene frequencies4个选项。

phylosuite建树使用方法

phylosuite建树使用方法phylosuite是一款功能强大的生物信息学工具，可以用于基因组学研究中的多样性和进化分析。

其中，建树是phylosuite的一个重要功能，可以根据序列数据构建系统进化树，帮助研究人员了解不同物种或样本之间的进化关系。

下面将介绍phylosuite建树的使用方法。

我们需要准备好用于建树的序列数据。

phylosuite支持多种不同的序列类型，如DNA、RNA和蛋白质序列。

可以通过在phylosuite 中导入FASTA格式的序列文件或手动输入序列数据来准备建树分析。

接下来，我们打开phylosuite软件，并选择建树功能。

在主界面的菜单栏中，点击"Tree"选项，然后选择"Build Tree"子选项。

这将打开一个新的建树分析界面。

在建树分析界面中，我们需要选择适合的建树方法。

phylosuite提供了多种常用的建树算法，如最大似然法（Maximum Likelihood，ML）、最小进化法（Minimum Evolution，ME）、邻接法（Neighbor Joining，NJ）等。

根据研究的需要和数据的特点，选择适合的建树方法。

在选择建树方法后，需要设置一些参数。

例如，可以设置进化模型（Evolutionary Model）和基因座（Loci）等。

进化模型描述了序列数据的进化特征，常用的进化模型有Jukes-Cantor模型、Kimura 2-parameter模型、General Time Reversible模型等。

选择适合的进化模型可以提高建树的准确性。

基因座是指在建树分析中使用的序列区域，可以根据需要选择使用全部序列还是只使用特定的区域。

设置好参数后，我们可以点击"Next"按钮进行下一步。

在下一步中，可以选择是否进行Bootstrap分析以评估建树的可靠性。

Bootstrap分析是通过对原始序列数据进行有放回重抽样的方法，产生多个数据集，然后利用这些数据集进行建树分析，最终得到多个进化树。

构建系统进化树的详细步骤-生物信息学交流论坛-生物秀论坛『中国生物科学论坛』-...

构建系统进化树的详细步骤-生物信息学交流论坛-生物秀论坛『中国生物科学论坛』-...1. 建树前的准备工作1.1 相似序列的获得——BLASTBLAST是目前常用的数据库搜索程序，它是Basic Local Alignment Search Tool的缩写，意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。

国际著名生物信息中心都提供基于Web的BLAST服务器。

BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段，并作为内核向两端延伸，以找出尽可能长的相似序列片段。

首先登录到提供BLAST服务的常用网站，比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。

这些网站提供的BLAST服务在界面上差不多，但所用的程序有所差异。

它们都有一个大的文本框，用于粘贴需要搜索的序列。

把序列以FASTA格式(即第一行为说明行，以“>”符号开始，后面是序列的名称、说明等，其中“>”是必需的，名称及说明等可以是任意形式，换行之后是序列)粘贴到那个大的文本框，选择合适的BLAST程序和数据库，就可以开始搜索了。

如果是DNA序列，一般选择BLASTN搜索DNA数据库。

这里以NCBI为例。

登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。

BLASTN结果如何分析(参数意义)：>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequenceScore = 2020 bits (1019), Expect = 0.0Identities = 1382/1497 (92%), Gaps = 8/1497 (0%)Strand = Plus / PlusQuery: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60|||||||||||||||||||||||||||||||||||||||||| ||||||||| |||||Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120|| ||||||||||||||||||||||||||||||| | |||||| |||||||||||||Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118Score ：指的是提交的序列和搜索出的序列之间的分值，越高说明越相似；Expect：比对的期望值。

PHYLIP和PAUP建立系统树的详细步骤

1距离法构建系统系树1.将要分析的所有序列存在“txt”文件里。

序列名为“>XXXXX”，“X”不能为汉字、标点。

2.打开CLUSTALX.EXE 软件，①file→→load sequences→→选择你要比对的序列文件；②alignment→→output format options→→在Output Files里选择PHYLIP format（Phylip 建树用的文件格式）、NEXUS format（PAUP 建树用的格式），CLUSTAL format（可以直接看到树），可以多选几个，下边的两个OFF 改成ON →→CLOSE.。

③alignment→→do complete alignment，会自动产生3个文件：“*.nxs”（PAUP 建树用的格式）、“*.aln”、“*.phy”（Phylip 建树用的文件格式）。

此时简单的方法是将“*.aln”文件直接拉到TREEVIEW中，即可产生一个树状图（距离分析法NJ 模式的树状图）。

我们一般不用，只是参考。

3.手工修改，用BioEdit软件打开“*.phy”文件进行手工修改。

（这步很重要）。

4.打开SALAMAND软件。

5. 在SALAMAND软件下打开打开PHYLIP软件，将先前已存好的*.phy文件复制到PHYLIP 下并重命名为infile文件。

6. 运行SEQBOOT.exe文件，给一个运行数字，一般是4N+1，以保证每次都按此数字运行。

然后按R后回车，以更改重复次数，一般不低于1000，然后按Y回车。

这样就自动产生一个outfile文件，按F3查看此文件，将outfile 改为infile。

7.距离分析法：运行DNADIST，进入DNADIST后，进行如下操作：①按D，选择一种运算方法，有四种距离模式可以选择，分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood 和Jukes-Cantor（J-C) ,可以任选一种。

phylip软件使用及使用的详细过程

phylip软件使用PHYLIP是一个综合的系统发生分析软件包，由华盛顿大学的Joseph Felsenstein 开发的。

现在该软件包可完成许多系统发生分析。

软件包中可用的方法包括了简约法、距离矩阵和似然法，以及bootstrap和一致性树。

可以处理的数据类型有分子序列、基因频率、限制性位点、距离矩阵（powmarker）和二进制离散字符(010101)。

下载地址：/phylip.html对于windows操作系统有三个下载文件（phylipw.exe, phylipwx.exe, phylipwy.exe），下载之后解压到一个文件夹中，里面包含了所有的程序，手册也在其中。

画图程序（drawgram, drawtree）需要安装X windows开发环境，否则会报错。

用户界面：程序通过一个菜单来控制，用户设置选项。

数据从一个文本文件中读入程序，这个文本文件不能是有特殊格式的文字处理器（office word）。

有些序列比对程序，如clustalX，可将数据文件写为PHYLIP格式。

而大部分的程序自动寻找在infile文件中的数据。

如果它们没有找到这个文件，它们将提示用户自己输入数据文件名。

输出的内容将被写到特定的文件中，如：outfile和outtree。

Outtree中的树是newick格式的，这是一个正式的标准，由1986年被主要系统发生软件包的作者所确定的。

Getting started注意保持记录。

记录每步的实验过程是非常重要的，甚至是在计算分析时。

也许你会对许多的结果文件感到头痛，那么最好的方法就是给结果文件改一个有意义的名字。

序列比对。

PHYLIP的输入文件是比对过的序列，并且是PHYLIP格式的。

文件的后缀名是.phy 的。

比对可用clustalX:http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html一定要把比对的序列保存为phylip格式的。

构建进化树

用CLUSTALX和PHYLIP软件从DNA序列推导进化树一、用CLUSTALX软件对已知DNA序列（如下）做多序列比对。

M._mulattaM._fascicularisM._sylvanusHomo_sapiensGorillaPongoSaimiri_sciureusLemur_catta操作步骤：1、双击进入CLUSTALX程序，点FILE进入LOADSEQUENCE，打开dna.seq文件。

2、点ALIGNMENT，在默认alignment parameters下，点击Do complete Alignment 。

在新出现的窗口中点击ALIGN进行比对。

3、点FILE进入Save sequence as,在format 框中选PHYLIP，文件在PHYLIP软件目录下以DNA.phy存在，点击OK，。

4、将PHYLIP软件目录下的DNA.phy文件拷贝到EXE文件夹中。

用计事本方式打开的DNA.phy文件的部分序列如下：8 898M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTTM._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTTM._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTTHomo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCTGorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCATPongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCTSaimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGTLemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT二、用PHYLIP软件推导进化树。

基因进化树的构建

基因进化树的构建
基因进化树（Phylogenetic tree）是用来描述不同物种或个体之间基因演化关系的一种图形表示方法。

构建基因进化树可以帮助我们了解物种之间的亲缘关系和演化历史。

以下是构建基因进化树的一般步骤：
1.收集基因序列数据：首先，需要收集感兴趣物种或个体的基因序列数据。

这些基因序列可以是DNA序列、蛋白质序列或其他分子标记。

2.序列比对：将收集到的基因序列进行比对，找出相同的区域。

这可以通过使用比对算法（如ClustalW、MAFFT等）来完成。

比对后的序列将有助于确定物种或个体之间的相似性。

3.构建进化模型：选择适合你的数据的进化模型。

进化模型描述了基因在演化过程中的变化方式。

常见的进化模型包括Jukes-Cantor模型、Kimur a模型、GTR模型等。

选择适当的模型可以提高进化树的准确性。

4.构建进化树：使用构建进化树的方法，如最大似然法（Maximum Li kelihood）、贝叶斯推断（Bayesian Inference）或距离法（Distance-based m ethods）来构建进化树。

这些方法基于序列的相似性和进化模型来计算物种或个体之间的进化距离或相似性。

5.进化树评估和解释：评估构建的进化树的可靠性和准确性。

可以使用统计方法（如Bootstrap分析）来评估节点的支持度。

解释进化树的结果，包括物种或个体之间的亲缘关系和演化历史。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、获取序列一般自己通过测序得到一段序列（已知或未知的都可以），通过NCBI的BLAST获取相似性较高的一组序列，下载保存为FASTA格式。

用BIOEDIT等软件编辑序列名称，注意PHYLIP在DOS下运行,文件名不能超过10位，超过的会自动截留前面10位。

二、多序列比对目前一般应用CLASTAL X进行，注意输出格式选用PHY格式。

生成的指导树文件(DND文件)可以直接用T REEVIEW打开编辑，形式上和最终生成的进化树类似，但是注意不是真正的进化树.三、构建进化树1.N—J法建树依次应用PHYLIP软件中的SEQBOOT。

EXE、DNADIST。

EXE、NEIGHBOR.EXE和CONSENSE.EXE打开.具体步骤如下:（1）打开seqboot。

exe输入文件名:输入你用CLASTAL X生成的PHY文件(＊.phy）.R为bootstrap的次数，一般为1000 （设你输入的值为M，即下两步DNADIST。

EXE、NEIGHBOR.EXE中的M值也为1000）odd number：（4N+1)(eg：1、5、9…）改好了y得到outfile(在phylip文件夹内）改名为2(2）打开Dnadist。

EXE输入2修改M值，再按D，然后输入1000（M值）y得到outfile（在phylip文件夹内）改名为3（3）打开Neighboor。

EXE输入3M=1000（M值）按Y得到outfile和outtree(在phylip文件夹内）改outtree为4，outfile改为402（4）打开consense。

exe输入4y得到outfile和outtree（在phylip文件夹内）Outfile可以改为＊。

txt文件，用记事本打开阅读。

四、进化树编辑和阅读outtree可改为*.tre文件,直接双击在treeview里看；也可以不改文件扩展名，直接用treeview、PHYLODRA W、NJPLOT等软件打开编辑.TREEVIEW可以显示BOOTSTRAN值，序列较多（60条以上）的时候打开直接显示有明显的重叠，可以在打印预览中显示，或输出为EMF WMF图片文件看，但是序列较多时BOOTS TRAN值的显示位置比较乱,和序列名称有重叠。

PHYLODRAW的编辑功能较强，可以自由调节X、Y轴的长度。

输出格式为BMP、PS格式.缺点是不能直接显示BOOTSTRAN值，包括打开TREEVIEW输出的NEX文件，而且输出的BMP文件不全，类似截屏文件,我用PHOTOSHOP进行拼接合成，添加BOOTSTRAN值和注解符号等.据说也可以将PS文件用记事本打开，改变其中的字号，然后通过ADOBE DISTRILLOR将PS转化为PDF,就可以解决问题。

如果发现还有重叠，可以再次改变PS文件中的字号大小，直到合适为止。

NJPLOT可以显示BOOTSTRAN值和分值长度。

但是不能调节图片X、Y轴的长度。

建MP,ML树将Dnadist和Neighboot两步分别改为Dnapars和Dnaml，其余步骤相同。

据说ML法序列较多是非常耗时，我没有尝试.因为我的序列较多。

也可以用CLASTAL X中的BOOTSTRAN N-J TREE法生成进化树,TREE菜单输出格式选项（OUTPUT F ORMAT OPTION）中的BOOTSTRAN LABELS ON 选NODE（节点).在treeview里，选择tree菜单,然后把show internal edge lables 的选项打勾了，直接打开生成的文件bootstrap的值就可以显示出来。

下面介绍几个软件的使用。

首先是 PHYLIP。

其是多个软件的压缩包,下载后双击则自动解压。

当你解压后就挥发现PHYLIP 的功能极其强大，主要包括五个方面的功能软件：i，DNA 和蛋白质序列数据的分析软件。

ii，序列数据转变成距离数据后,对距离数据分析的软件。

iii，对基因频率和连续的元素分析的软件。

iv，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态时，对序列进行分析的软件.v,按照 DOLLO 简约性算法对序列进行分析的软件。

vi，绘制和修改进化树的软件.在此，我主要对前两种功能软件进行说明。

我们现在有几个序列如下：Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCATMo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo12 ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCATMo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT要对这8个序列进行进化树分析,按照上面的步骤，首先用 CLUSTALX排列序列，输出格式为＊。

PHY。

用记事本打开如下图：图中的 8 和 50 分别表示 8 个序列和每个序列有 50 个碱基。

然后,打开软件SEQBOOT，如下图:按路径输入刚才生成的＊。

PHY文件，并在Random number seed （must be odd） ?的下面输入一个4N+1 的数字后，屏幕显示如下：图中的 D、J、R、I、O、1、2 代表可选择的选项，键入这些字母，程序的条件就会发生改变。

D选项无须改变。

J 选项有三种条件可以选择,分别是Bootstrap、Jackknife 和 Permute。

文章上面提到用 Bootstraping 法对进化树进行评估,所谓Bootstraping 法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。

这样，一个序列就可以变成了许多序列。

一个多序列组也就可以变成许多个多序列组.根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。

将生成的许多进化树进行比较,按照多数规则（majority-rule)我们就会得到一个最“逼真”的进化树。

Jackknife则是另外一种随机选取序列的方法。

它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。

Permute是另外一种取样方法，其目的与 Bootstrap和Jackknife法不同,这里不再介绍。

R 选项让使用者输入 republicate 的数目。

所谓 republicate 就是用 Bootstrap 法生成的一个多序列组。

根据多序列中所含的序列的数目的不同可以选取不同的republicate。

当我们设置好条件后，键入 Y按回车。

得到一个文件outfileOutfile用记事本打开如下：这个文件包括了100个republicate。

打开DNAPARS（最大简约性法）或DNAML（最大可能性法)软件.将刚才生成的outfile文件更名后输入。

如下图：选项O是让使用者设定一个序列作为outgroup。

一般选择一个亲缘关系与所分析序列组很接近的序列作为outgroup（本例子不选outgroup）,outgroup 选择的好坏将直接影响到最后的进化树的好坏。

选项 M 是输入刚才设置的 republicate 的数目。

设置好条件后,键入 Y按回车。

生成两个文件outfile和treefile。

Outfile打开如下图：该文件包括了227个进化树.Treefile可以用TREEVIEW 软件打开同样包含了这227个进化树.打开CONSENSE 软件，将刚才生成的treefile文件更名后输入。

如下图:键入 Y 按回车.生成两个文件 outfile 和 treefile。

Treefile 用 TREEVIEW 打开，如下图:Outfile打开如下图：我们看出两个树是同样的。

但在 outfile 的树上的数字表示该枝条的 Bootstrap 支持率(除以100。

6）。

到现在,8个序列的进化树分析（最大简约法)已经完成。

如果要用邻位相连法对这 8 个序列进行分析的话，也首先执行 SEQBOOT 软件将这8个序列变成100个republicate。

然后,打开DNADIST软件，把SEQBOOT生成的文件输入,如下图：选项 D 有四种距离模式可以选择，分别是 Kimura 2-parameter、Jin/Nei、Maximum—likelihood 和 Jukes—Cantor。

选项 T 一般键入一个 15—30 之间的数字。

选项M 键入100。

运行后生成文件如下图：这个文件包含了与输入文件相同的100个republicate，只不过每个 republicate是以两两序列的进化距离来表示。

文件中的每个republicate都省略了第一排的Mo3Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。

以这个输出文件为输入文件, 执行NEIGHBOR 软件。

如下图：选项 M 键入 100。

生成两个文件 outfile 和 treefile 用记事本和 TREEVIEW 打开后，发现这两个文件都含有 100 个进化树。

再将 treefile 文件更名后输入CONSENSE 软件，又得到两个文件 outfile和treefile，这就是最后的结果。

以上是对DNA序列的分析，如果要对蛋白质序列进行分析，PROTDIST、PROTPARS等软件.其他软件的用法可以参照PHYLIP 的documents。