Phylip构建进化树操作程序

合集下载

应用PHYLIP构建进化树的完整详细过程

一、获取序列一般自己通过测序得到一段序列（已知或未知的都可以），通过NCBI的BLAST获取相似性较高的一组序列，下载保存为FASTA格式。

用BIOEDIT等软件编辑序列名称，注意PHYLIP在DOS下运行，文件名不能超过10位，超过的会自动截留前面10位。

二、多序列比对目前一般应用CLASTAL X进行，注意输出格式选用PHY格式。

生成的指导树文件（DND文件）可以直接用TR EEVIEW打开编辑，形式上和最终生成的进化树类似，但是注意不是真正的进化树。

三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。

具体步骤如下：（1）打开seqboot.exe输入文件名：输入你用CLASTAL X生成的PHY文件（*.phy）。

R为bootstrap的次数，一般为1000 （设你输入的值为M，即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000）odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile（在phylip文件夹内）改名为2（2）打开Dnadist.EXE输入2修改M值，再按D，然后输入1000（M值）y得到outfile（在phylip文件夹内）改名为3（3）打开Neighboor.EXE输入3M=1000（M值）按Y得到outfile和outtree（在phylip文件夹内）改outtree为4，outfile改为402(4)打开consense.exe输入4y得到outfile和outtree（在phylip文件夹内）Outfile可以改为*.txt文件，用记事本打开阅读。

四、进化树编辑和阅读outtree可改为*.tre文件，直接双击在treeview里看；也可以不改文件扩展名，直接用treeview、PHYLODRAW 、NJPLOT等软件打开编辑。

PHYLIP和PAUP建立系统树的详细步骤

1距离法构建系统系树1.将要分析的所有序列存在“txt”文件里。

序列名为“>XXXXX”，“X”不能为汉字、标点。

2.打开CLUSTALX.EXE 软件，①file→→load sequences→→选择你要比对的序列文件；②alignment→→output format options→→在Output Files里选择PHYLIP format（Phylip 建树用的文件格式）、NEXUS format（PAUP 建树用的格式），CLUSTAL format（可以直接看到树），可以多选几个，下边的两个OFF 改成ON →→CLOSE.。

③alignment→→do complete alignment，会自动产生3个文件：“*.nxs”（PAUP 建树用的格式）、“*.aln”、“*.phy”（Phylip 建树用的文件格式）。

此时简单的方法是将“*.aln”文件直接拉到TREEVIEW中，即可产生一个树状图（距离分析法NJ 模式的树状图）。

我们一般不用，只是参考。

3.手工修改，用BioEdit软件打开“*.phy”文件进行手工修改。

（这步很重要）。

4.打开SALAMAND软件。

5. 在SALAMAND软件下打开打开PHYLIP软件，将先前已存好的*.phy文件复制到PHYLIP 下并重命名为infile文件。

6. 运行SEQBOOT.exe文件，给一个运行数字，一般是4N+1，以保证每次都按此数字运行。

然后按R后回车，以更改重复次数，一般不低于1000，然后按Y回车。

这样就自动产生一个outfile文件，按F3查看此文件，将outfile 改为infile。

7.距离分析法：运行DNADIST，进入DNADIST后，进行如下操作：①按D，选择一种运算方法，有四种距离模式可以选择，分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood 和Jukes-Cantor（J-C) ,可以任选一种。

系统发育树构建教程(PHYLIP)

系统发育树构建教程（PHYLIP）PHYLIP网址：/phylip.html（一）序列的前期准备1．用ENTREZ或SRS搜索同源DNA/蛋白质序列(same sequence in different organisms) 2．用CLUSTALX进行多条序列比对，在output format option选定PHY格式,构建进化树需要这个phy文件。

Figure 4.1 用clustalx进行多条序列比对3．解压缩phylip-3.68.exe，得到三个文件夹，doc文件夹里是关于所有PHYLIP子程序的使用说明，exe文件夹里是直接可以使用的各个子程序，src文件夹里是所有程序的源文件。

4．打开exe文件夹，双击SEQBOOTt子程序（SEQBOOT是一个利用bootstrap方法产生伪样本的程序），输入刚刚生成的phy文件的路径，点击enter。

5．所有PHYLIP程序默认的输入文件名为infile, 输出文件名为outfile。

如果在exe文件夹里找不到默认的输入文件，会提示can’t find input file “infile”。

Figure 4.2 seqboot程序起始界面6．进入程序参数选择页面（Figure 4.3）。

第一列中的D、J、%、B、R、W、C、S等代表可选的参数。

想改变哪个参数，就键入此参数对应的字母，并点击回车键，对应参数将会发生改变。

当我们设置好所有参数后，（这里我们可以不做任何修改），键入Y，按回车。

此时程序询问“random numbe r seed? <must be odd>”，这是询问生成随机数的种子是多少，输入一个4N+1的数，点击回车程序开始运行，输出结果到文件outfile，保存在当前文件夹里。

.Figure 4.3 seqboot程序参数选择页面主要参数解释：D: 数据类型，有Molecular sequence、discrete morphology、restriction sites和gene frequencies4个选项。

phylip构建进化树详细操作过程

phylip构建进化树详细操作过程一、获取序列将要比对的序列放到一个fasta文件中，文件内容类似如下： >gi|213627058|gb|热带爪蟾BC170657.1| Xenopus tropicalis ABO blood group (transferase A, alpha 1-3-N-acetylgalactosaminyltransferase; transferase B, alpha 1-3-galactosyltransferase), mRNA (cDNA clone MGC:197384 IMAGE:9039915), complete cdsMVAFFCSLSWYAVKDRKWDPSIQHSCEEYWFRINGQKENRLQRMLYPKPETLKPPRTDVLTVSPWLAPIVWEGSFNTE ILNNQFRQKGWRVGLTTFAIKKYIRFLKPFIETAEKFFMVGLPVNYYVFTDQASNVTDLNIIVGTGRQIIILEVPSYE RWQDVTMRRMQMISDVCQQRFASEVDYLVCVDVDMRFQDHVGVEILSDVFGTLHPAFFVKGRDKFTYERRPESQAYIP EDEGDFYYAGGYFGGKVEEVYKLTNHCHHAMLTDKANNIEAIWHDESYLNSYFLYNKKPTKILSPEYLWNEMDGTAFY LRKIRFIALQKNMAEVRT >gi|homoMAEVLRTLAGKPKCHALRPMILFLIMLVLVLFGYGVLSPRSLMPGSLERGFCMAVREPDHLQRVSLPRMVYPQPKVLT PCRKDVLVVTPWLAPIVWEGTFNIDILNEQFRLQNTTIGLTVFAIKKYVAFLKLFLETAEKHFMVGHRVHYYVFTDQP AAVPRVTLGTGRQLSVLEVRAYKRWQDVSMRRMEMISDFCERRFLSEVDYLVCVDVDMEFRDHVGVEILTPLFGTLHP GFYGSSREAFTYERRPQSQAYIPKDEGDFYYLGGFFGGSVQEVQRLTRACHQAMMVDQANGIEAVWHDESHLNKYLLR HKPTKVLSPEYLWDQQLLGWPAVLRKLRFTAVPKNHQAVRNP注意PHYLIP在DOS下运行，文件名不能超过10位，超过的会自动截留前面10位。

作系统进化树的方法

作系统进化树的方法系统进化树（Phylogenetic tree）是一种表示生物物种之间进化关系的图形结构。

它基于生物的遗传物质或形态特征等数据，通过一定的算法和模型来构建，以揭示物种之间的亲缘关系和进化历程。

以下是构建系统进化树的一般步骤：1. 数据收集：首先需要收集用于构建进化树的基因或形态特征数据。

这通常涉及从各种来源获取DNA、蛋白质或其他分子序列数据，或者从博物馆和标本馆获取生物形态特征数据。

2. 序列比对：对于DNA或蛋白质序列数据，需要将这些序列进行比对，以确保它们可以一起进行比较和分析。

3. 选择适当的距离度量：在构建系统进化树时，需要计算物种之间的“距离”。

这些距离是基于序列或形态特征的差异来计算的。

有多种方法可以计算这些距离，例如基于遗传物质的p距离（代表两个序列之间的差异比例）或形态特征的欧几里得距离。

4. 选择合适的建树算法：系统进化树可以通过多种算法来构建，包括但不限于UPGMA（Unweighted Pair Group Method with Arithmetic Mean）、WPGMA（Weighted Pair Group Method with Arithmetic Mean）、WPGMC（Weighted Pair Group Method with Centroid Linkage）、Neighbor Joining、Fitch-Margoliash、Maximum Parsimony、Maximum Likelihood等。

选择哪种算法取决于你的具体需求和所处理数据的性质。

5. 构建系统进化树：使用选择的算法和距离度量，将物种按照它们的亲缘关系分组。

这一步通常涉及到一个迭代过程，其中算法会尝试不同的分组方案，直到找到一个最优解。

6. 评估和验证树：一旦构建了系统进化树，就需要对其进行评估和验证，以确保其合理性和可靠性。

这通常涉及使用多种统计测试和可视化工具，例如Bootstrapping、P-distance、Tree-bisection-reconnection (TBR) 操作等。

phylosuite建树使用方法

phylosuite建树使用方法phylosuite是一款功能强大的生物信息学工具，可以用于基因组学研究中的多样性和进化分析。

其中，建树是phylosuite的一个重要功能，可以根据序列数据构建系统进化树，帮助研究人员了解不同物种或样本之间的进化关系。

下面将介绍phylosuite建树的使用方法。

我们需要准备好用于建树的序列数据。

phylosuite支持多种不同的序列类型，如DNA、RNA和蛋白质序列。

可以通过在phylosuite 中导入FASTA格式的序列文件或手动输入序列数据来准备建树分析。

接下来，我们打开phylosuite软件，并选择建树功能。

在主界面的菜单栏中，点击"Tree"选项，然后选择"Build Tree"子选项。

这将打开一个新的建树分析界面。

在建树分析界面中，我们需要选择适合的建树方法。

phylosuite提供了多种常用的建树算法，如最大似然法（Maximum Likelihood，ML）、最小进化法（Minimum Evolution，ME）、邻接法（Neighbor Joining，NJ）等。

根据研究的需要和数据的特点，选择适合的建树方法。

在选择建树方法后，需要设置一些参数。

例如，可以设置进化模型（Evolutionary Model）和基因座（Loci）等。

进化模型描述了序列数据的进化特征，常用的进化模型有Jukes-Cantor模型、Kimura 2-parameter模型、General Time Reversible模型等。

选择适合的进化模型可以提高建树的准确性。

基因座是指在建树分析中使用的序列区域，可以根据需要选择使用全部序列还是只使用特定的区域。

设置好参数后，我们可以点击"Next"按钮进行下一步。

在下一步中，可以选择是否进行Bootstrap分析以评估建树的可靠性。

Bootstrap分析是通过对原始序列数据进行有放回重抽样的方法，产生多个数据集，然后利用这些数据集进行建树分析，最终得到多个进化树。

phylip使用说明

Phylogeny ProgramsUPGMA (PHYLIP: neighbour)除权配对法Neighbour Joining (PHYLIP: neighbour)临近距离法Fitch-Margoliash (PHYLIP: fitch)Maximum Parsimony 最大简约性法DNA sequences (PHYLIP: dnapars)Protein sequences (PHYLIP: protpars)Maximum Likelihood 最大可能性法DNA sequences (PHYLIP: fastDNAML, Molphy: nucML)Protein sequences (Molphy: protML)对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行排列（T o align sequences）。

⑵要构建一个进化树（T o reconstrut phyligenetic tree）。

构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。

独立元素法：指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。

独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。

进化树枝条的长度代表着进化距离。

距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。

⑶对进化树进行评估。

一步一步教你如何做系统进化树

一步一步教你如何做系统进化树在此介绍几个进化树分析及其相关软件的使用和应用范围。

这几个软件分别是PHYLIP 、PUZZLE 、PAUP 、TREEVIEW 、CLUSTALX 和PHYLO-WIN （LINUX ）。

在介绍软件之前，我先简要地叙述一下有关进化树分析的一些方法学问题。

进化树也称种系树，英文名叫“Phyligenetic tree ”。

对于一个完整的进化树分析需要以下几个步骤：⑴ 要对所分析的多序列目标进行排列（To align sequences ）。

做ALIGNMENT 的软件很多，最经常使用的有CLUSTALX 和CLUSTALW ，前者是在WINDOW 下的而后者是在DOS 下的。

⑵ 要构建一个进化树（To reconstrut phyligenetic tree ）。

构建进化树的算法主要分为两类：独立元素法（discrete character methods ）和距离依靠法（distance methods ）。

所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。

而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。

进化树枝条的长度代表着进化距离。

独立元素法包括最大简约性法（Maximum Parsimony methods ）和最大可能性法（Maximum Likelihood methods ）；距离依靠法包括除权配对法（UPGMAM ）和邻位相连法（Neighbor-joining ）。

⑶ 对进化树进行评估。

主要采用Bootstraping 法。

进化树的构建是一个统计学问题。

我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、先导树
1.运行dnadist.exe程序，导入.Phy文件
2.左端命令行进行模型选择，输入D并回车，如选择Kimura-2-parameter等
3.输入Y，回车，生成outfile文件（建议修改文件名称）
4.运行neighbour.exe程序
5.生成2个文件，outfile和outtree，其中outtree文件为先导树
6.可将outtree修改成.tre
7.使用treeview、MEGA或其他软件打开
二、验证树
1.运行seqboot.exe程序，输入.phy文件
8.修改R值为1000，输入Y后回车，生成outfile文件（建议修改文件名称）
2.运行dnadist.exe程序，输入seqboot生成的outfile文件
3.设置M，有D/W两个选项，输入D
4.回车后数据对设置时输入1000
5.回车生成outfile文件（建议修改文件名称）
6.运行neighbour.exe程序，设置M值为1000（random seed number为4N+1）
7.回车，生成outfile和outtree两个文件（建议修改outtree文件名）
8.运行consense.exe程序，输入neighbour.exe生成的outtree文件
9.输入Y，回车，生成的outtree文件即为验证树文件
10.使用treeview、MEGA或其他软件打开。