phylip软件使用及使用的详细过程

phylip软件使用及使用的详细过程
phylip软件使用及使用的详细过程

phylip软件使用

PHYLIP是一个综合的系统发生分析软件包,由华盛顿大学的Joseph Felsenstein 开发的。现在该软件包可完成许多系统发生分析。软件包中可用的方法包括了简约法、距离矩阵和似然法,以及bootstrap和一致性树。可以处理的数据类型有分子序列、基因频率、限制性位点、距离矩阵(powmarker)和二进制离散字符(010101)。

下载地址:

https://www.360docs.net/doc/7218526826.html,/phylip.html

对于windows操作系统有三个下载文件(phylipw.exe, phylipwx.exe, phylipwy.exe),下载之后解压到一个文件夹中,里面包含了所有的程序,手册也在其中。

画图程序(drawgram, drawtree)需要安装X windows开发环境,否则会报错。

用户界面:

程序通过一个菜单来控制,用户设置选项。数据从一个文本文件中读入程序,这个文本文件不能是有特殊格式的文字处理器(office word)。有些序列比对程序,如clustalX,可将数据文件写为PHYLIP格式。

而大部分的程序自动寻找在infile文件中的数据。如果它们没有找到这个文件,它们将提示用户自己输入数据文件名。输出的内容将被写到特定的文件中,如:outfile和outtree。Outtree中的树是newick格式的,这是一个正式的标准,由1986年被主要系统发生软件包的作者所确定的。

Getting started

注意保持记录。

记录每步的实验过程是非常重要的,甚至是在计算分析时。也许你会对许多的结果文件感到头痛,那么最好的方法就是给结果文件改一个有意义的名字。

序列比对。

PHYLIP的输入文件是比对过的序列,并且是PHYLIP格式的。文件的后缀名是.phy 的。比对可用clustalX:

http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html

一定要把比对的序列保存为phylip格式的。

PHYLIP程序的运行

这些程序要按照一定的顺序来运行。前一个程序的输出作为下一个程序的输入。如何合理的组合这些程序也很关键。

在windows中,PHYLIP程序可通过双击程序的图标来启动,或是在命令行中输入程序的名称来启动。我们建议使用命令行方式,因为你也许能看到一些错误提示。它启动的方是:开始->所有程序->附件->命令提示符。

大部分PHYLIP程序运行方法相同。程序把infile作为默认输入文件,如果没有找到它将要求用户输入数据文件的名称。输出结果写在outfile文件中。有些则写在outfile和outtree或plotfile中。

因为大部分程序使用默认的输入和输出文件名,所以在下一步的分析前,要重命名你想保存的文件。比如,你用Dnadist得到了距离矩阵(outfile),你还想试试不同的设置,那么再做矩阵计算前,你可以把outfile重命名为

dnadist_out_F84,或其它名称,这样你就能区别两次的结果了。

程序

距离方法:

顺序使用这些程序。首先,用dandist或protdist程序计算序列比对结果的距离矩阵。接着这个矩阵被fitch、kitsch或 neighbor程序转换为树。Dandist 和protdist程序的输出文件是outfile。在运行fitch、kitsch或neighbor 前,outfile应该重命名为infile或另外的名字。fitch、kitsch和neighbor的输出文件是outfile和outtree。

Dnadist DNA距离矩阵计算器

Protdist 蛋白质距离矩阵计算器

Fitch 没有分子时钟的Fitch-Margoliash树

Kitsch 有分子时钟的Fitch-Margoliash树

Neighbor Neighbor-Joining和UPGMA树

基于字符的方法

这些程序读入一个序列对,它们的输出文件是outfile和outtree。

Dnapars DNA简约法

Dnapenny DNA简约法using branch-and-bound

Dnaml DNA最大似然,无分子时钟

Dnamlk DNA最大似然,有分子时钟

Protpars 蛋白质简约法

Proml 蛋白质最大似然法

重抽样工具

该程序生成一系列的特殊的随机样本,保存在outfile中。这些样本在后继的分析中作为一个序列对文件,要设置选项M(use multiple datasets)。

Seqboot 生成随机样本,用bootstrap和jack-knife方法。

画树

这些程序可画newick格式的树。如,danml程序生成的树。Drawgram和drawtree 生成文件为plotfile,而retree生成outtree。

Drawgram 画有根树

Drawtree 画无根树

Retree interactive tree-rearrangement

一致树

用多重树构建一致树。如,dnapars可生成多重树,可用consense程序来汇总。Bootstrap的结果也由它来汇总为一棵majority rule tree。

Consense draws consensus trees from multiple trees

树的距离

计算多个树间的基于拓朴结构的距离。该方法可用来比较不同分析方法的结果。

Treedist 计算树拓朴结构间的距离

Quick start

这里以DNA序列数据为例说明。构建和画树,用F84进化模式的NJ方法。

距离方法

比对你的DNA序列并且保存比对结果为PHYLIP格式,如:alignment.phy。启动dnadist程序,双击图标或在命令行中输入dnadist。

Dnadist首先检查该程序所在文件夹中是否有infile文件。如果没有找到infile,它就会提示你输入序列比对文件。

Dnadist: can't find input file "infile"

Please enter a new file name> alignment.phy

注意,将程序与数据文件放在同一个文件夹中,使用起来会容易一些。如果数据文件在另外的文件夹中,你就要输入该文件的全部路径,比如文件在D:/data

文件夹中,

Dnadist: can't find input file "infile"

Please enter a new file name> D:\data\alignment.phy

所有的PHYLIP程序都是菜单提示的。下面就是dnadist的菜单。每行都是以一个字母或数字开始的。通过输入每行前面的字母或数字,来修改相应的程序设置。例如,输入”D”按回车将循环得到不同的进化模式。修改完后输入“Y”,按回车,开始运行该程序。

Nucleic acid sequence Distance Matrix program, version 3.66

Settings for this run:

D Distance (F84, Kimura, Jukes-Cantor, LogDet)? F84

G Gamma distributed rates across sites? No

T Transition/transversion ratio? 2.0

C One category of substitution rates? Yes

W Use weights for sites? No

F Use empirical base frequencies? Yes

L Form of distance matrix? Square

M Analyze multiple data sets? No

I Input sequences interleaved? Yes

0 Terminal type (IBM PC, ANSI, none)? ANSI

1 Print out the data at start of run No

2 Print indications of progress of run Yes

Y to accept these or type the letter for one to change

y

两两序列的距离保存在outfile文件中。你可以将它重命名为outfile.txt,那么以后双击它时就可自动用记事本打开了。

Distances calculated for species

Rabbit ....

Human ...

Opossum ..

Chicken .

Frog

Distances written to file "outfile"

Done.

接着把outfile重命名为infile,运行neighbor程序(输入neighbor)。该程序从infile文件中读取距离数据。这里不需要设置,输入Y按回车。

Neighbor-Joining/UPGMA method version 3.66

Settings for this run:

N Neighbor-joining or UPGMA tree? Neighbor-joining

O Outgroup root? No, use as outgroup species 1

L Lower-triangular data matrix? No

R Upper-triangular data matrix? No

S Subreplicates? No

J Randomize input order of species? No. Use input order

M Analyze multiple data sets? No

0 Terminal type (IBM PC, ANSI, none)? ANSI

1 Print out the data at start of run No

2 Print indications of progress of run Yes

3 Print out tree Yes

4 Write out trees onto tree file? Yes

Y to accept these or type the letter for one to change

y

运行完之后,树包含在outfile和outtree。可以用文本编辑器来看outfile中的树。

画树

下面我们用drawgram程序把outtree画成一棵好看的树吧。首先,把outtree 重命名为intree,并把font文件的其中一个重命名为fontfile,启动drawgram 程序。该程序首先寻找文件fontfile,如果找不到它(如果你没有把字体文件之一改为fontfile 的话),它会提示输入一个字体文件。接着就会出现菜单。你需要将选项P对应的最终画图设备改为MS-windows bitmap。它还要要求你输入树的维数,比如说640x400。设置好后输入Y按回车。

Drawgram打开一个新的窗口,你可以看到一棵树,如果你满意这个结果,选择file菜单中的plot。在当前文件夹中出现一个plotfile文件。如果你将它重命名为plotfile.bmp,就可用图形工具将它打开了。

树支的长度是核苷酸或氨基酸改变的数目,改变的数目用dandist程序进化模式来估算。

氨基酸序列

所用的程序与上面所举的例子类似。只要把dnadist换成protdist就行了。

#################

详细说明

#################

除了基于距离的方法外,还有基于字符的方法:最大简约法和最大似然法。

根据实际情况,除了数据分析和画之外,我们还要验证数据的可靠性,比如用bootstrap方法。

如果运行有些程序之前,你还运行过别的程序,在文件夹中已经存在了outfile 文件的话,程序会有这样的提示:

Dnadist: the file "outfile" that you wanted to

use as output file already exists.

Do you want to Replace it, Append to it,

write to a new File, or Quit?

(please type R, A, F, or Q)

#####DNA数据####

Dnadist的菜单

Nucleic acid sequence Distance Matrix program, version 3.66

Settings for this run:

D Distance (F84, Kimura, Jukes-Cantor, LogDet)? F84

G Gamma distributed rates across sites? No

T Transition/transversion ratio? 2.0

C One category of substitution rates? Yes

W Use weights for sites? No

F Use empirical base frequencies? Yes

L Form of distance matrix? Square

M Analyze multiple data sets? No

I Input sequences interleaved? Yes

0 Terminal type (IBM PC, ANSI, none)? ANSI

1 Print out the data at start of run No

2 Print indications of progress of run Yes

D——距离计算方法,进化模式。是争对替换问题和转换颠换的。Jukes-Cantor 距离假设所有替换的概率都相等。Kimura距离有两个不同的替换率,一个对应转换,一个对应颠换。这些模式都假设每个碱基的频率是相等,且等于0.25。F84距离,转换和颠换率不同,碱基的频率也不同。 LogDet距离在序列间有较大的碱基频率差异时使用。LogDet距离不能复制含糊的代码,必须是确定的序列。

PHYLIP构建进化树的完整详细过程

一、获取序列

一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。

二、多序列比对

目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。生成的指导树文件(DND 文件)可以直接用TREEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。

三、构建进化树

1.N-J法建树

依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。具体步骤如下:

(1)打开seqboot.exe

输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。

R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)

odd number: (4N+1)(eg: 1、5、9…)

改好了y

得到outfile(在phylip文件夹内)

改名为2

(2)打开Dnadist.EXE

输入2

修改M值,再按D,然后输入1000(M值)

y

得到outfile(在phylip文件夹内)

改名为3

(3)打开Neighboor.EXE

输入3

M=1000(M值)

按Y

得到outfile和outtree(在phylip文件夹内)

改outtree为4,outfile改为402

(4)打开consense.exe

输入4

y

得到outfile和outtree(在phylip文件夹内)

Outfile可以改为*.txt文件,用记事本打开阅读。

四、进化树编辑和阅读

outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。TREEVIEW可以显示BOOTSTRAN值,序列较多(60条以上)的时候打开直接显示有明显的重叠,可以在打印预览中显示,或输出为EMF WMF图片文件看,但是序列较多时BOOTSTRAN值的显示位置比较乱,和序列名称有重叠。

PHYLODRAW的编辑功能较强,可以自由调节X、Y轴的长度。输出格式为BMP、PS格式。缺点是不能直接显示BOOTSTRAN值,包括打开TREEVIEW输出的NEX文件,而且输出的BMP文件不全,类似截屏文件,我用PHOTOSHOP进行拼接合成,添加BOOTSTRAN值和注解符号等。据说也可以将PS文件用记事本打开,改变其中的字号,然后通过ADOBE DISTRILLOR将PS转化为PDF,就可以解决问题。如果发现还有重叠,可以再次改变PS文件中的字号大小,直到合适为止。

NJPLOT可以显示BOOTSTRAN值和分值长度。但是不能调节图片X、Y轴的长度。

建MP,ML树将Dnadist和Neighboot两步分别改为Dnapars和Dnaml,其余步骤相同。据说ML法序列较多是非常耗时,我没有尝试。因为我的序列较多。

也可以用CLASTAL X中的BOOTSTRAN N-J TREE法生成进化树,TREE菜单输出格式选项(OUTPUT FORMAT OPTION)中的BOOTSTRAN LABELS ON 选NODE(节点)。在treeview里,选择tree菜单,然后把show internal edge lables 的选项打勾了,直接打开生成的文件bootstrap的值就可以显示出来。

IE安全漏洞及防范措施

IE安全漏洞及防范措施 摘要 谈到联网的计算机,就能想到它百纳海川的资讯,可以在网络的世界里找到自己想了解到的,自己想探索到的新知识,但是要想了解到这些资讯我们需要借助到一个工具,这就是我们每一个人都熟悉的----IE浏览器。技术的进步,离不开知识的传播。时代的需求就是我们的责任,我们要抓住信息时代的脉搏,在Internet飞速发展的今天,互联网成为人们快速获取、发布和传递信息的重要渠道,从而倍受人们的重视。互联网上信息的查找又要通过浏览器的浏览来实现,所以希望通过对IE浏览器的安全漏洞和防范措施的探讨让大家对网络及网络资源搜索的认识以及浏览器的各个功能。 关键词:IE浏览器/漏洞/措施

IE Security vulnerabilities and preventive measures ABSTRACT The PC is popular and the brilliant Computer-Culture is developing rapidly by drived of the Financial globalization,Assimilation of information and the Industrial knowledge-ization.Studying computer knowledge is becoming a consciousness action for many back-hoping people in the Boundary of the century.There are many progresses in the information industry,the time of the network and so on.We can see that more person's work and life are never left by a computer.It isn't left the spread of knowledge by technological progress.The demanding of the time is our responsibility.In the days of the internet developing fastly,we should catch the pulse of it,make the internet become a basilic channel that make people getting,issuancing and passing the news at a rapid rate.And then made the internet receives people's emphasis increasingly.One looking for the information by the browser's browsing,so I hope everyone should increasing Browser vulnerabilities and preventive measures and all kinds of functions of the browser by my paper. Keyword: Internet Explorer /vulnerabilities/measure

Mrbayes中文使用说明

< >内为需要输入的内容,但不包括括号。所有命令都需要在MrBayes >的提示下才能输入。 文件格式: 文件输入,输入格式为Nexus file(ASCII,a simple text file,如图): 或者还有其他信息: interleave=yes 代表数据矩阵为交叉序列interleaved sequences nexus文件可由MacClade或者Mesquite生成。但Mrbayes并不支持the full Nexus standard。 同时,Mrbayes象其它许多系统软件一样允许模糊特点,如:如果一个特点有两个状态2、3,可以表示为:(23),(2,3),{23}或者{2,3}。但除了DNA{A, C, G, T, R, Y, M, K,S, W, H, B, V, D, N}、RNA{A, C, G, U, R, Y, M, K, S, W, H, B, V, D, N}、Protein {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X}、二进制数据{0, 1}、标准数据(形态学数据){0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9}外,并不支持其他数据或者符号形式。 执行文件: execute 或缩写exe ,注意:文件必须在程序所在的文件夹(或者指明文件具体路径),文件名中不能含有空格,如果执行成功,执行窗口会自动输出文件的简单信息。 选定模型: 通常至少需要两个命令,lset和prset,lset用于定义模型的结构,prset用于定义模型参数的先验概率分布。在进行分析之前可以执行showmodel命令检查当前矩阵模型的设置。或者执行help lset检查默认设置(如图): 略 Nucmodel用于指定DNA模型的一般类型。我们通常选取标准的核苷酸替代模型nucleotide substitution model,即默认选项4by4。另外,Doublet选项用于paired stem regions of ribosomal DNA的分析,Codon选项用于DNA sequence in terms of its codons的分析。 替代模型的一般结构一般由Nst设置决定。默认状态下,所有的置换比率相同,对应于F81模型(JC model)。一般我们选用GTR模型,即nst=6。 Code设置只有在DNA模型设置为codon的情况下才使用。Ploidy设置也与我们无关。 Rates通常设置为invgamma (gamma-shaped rate variation with a proportion of invariable sites),Ngammacat(the number of discrete categories used to approximate the gamma distribution)一般采用默认选项4。通常这个设置已经足够,增加该选项设置的数量可能会增加似然计算的精确性,但所花时间也成比例增加,大多数情况下,由增加该数值对结果的影响可以忽略不计。 余下的选项中,只有Covarion和Parsmodel与单核苷酸模型相关,而我们既不会采用parsimony model,也不会采用the covariotide model,故保留默认状态。 在对矩阵作了以上修改后,重新输入help lset命令,可以查看变化后的设置。 设置先验参数prior: 现在可以为模型设置先验参数了。模型有6种类型的参数:the topology, the branch lengths, the four stationary frequencies of the nucleotides, the six different nucleotide substitution rates, the proportion of invariable sites, and

spyglass中文使用说明

望远镜用户指南

概览............................................... (5) 关于本指南 望远镜 概观 按钮 手势 最多显示头---(HUD)的 工具和手段 入门................................................ (17) 版本和功能 硬件和软件兼容性说明............................................. (17) 启用定位服务 设置最多望远镜 开始标记和跟踪对象............................................. . (22) ViewVinder ................................................. . (23) 设置颜色 设置最多的HUD 快速切换 HUD的操作模式 缩放 指南针................................................. (28) 校准

增强现实和三维罗盘............................................. .. (29) 寻找目标对象 设置最多罗盘 罗盘定位模式............................................... .. (32) 罗经................................................. .. (34) 开始使用罗经............................................... .. (34) 确定启动轴承............................................... .. (35) 漂移和调整 全球定位系统................................................. . (37) 设置最多的GPS 获取GPS数据 设置单位 查找................................................. .. (39) 概观 按钮 快速目标标记 添加目标 管理目标 寻找和跟踪 在地图上观测地点的目标............................................. .. (47) 跟踪................................................. .. (48) 设置跟踪

外研社版高二英语选修六单词表(带音标、词性、中文)

英文音标词性中文 small talk 闲谈,聊天 informal /in'f?:ml/ adj. 非正式的 serious /'s??r??s/ adj. 严肃的 confidently /'k?nfid?ntli/ adv. 自信地 make friends 交朋友,建立友谊 lack /l?k/ v. 缺乏,缺少 be nervous about对……神经紧张/害怕/胆怯/焦虑不安advance /?d'vɑ:ns/adj. 预先的,在前的 think of 想起,回忆起 nod /n?d/ v. 点头 body language 身体语言,肢体语言 yawn /j?:n/ v. 打呵欠 sigh /sa?/ v. 叹气,叹息 look away from 把目光从……移开 social rules 社交规则 in addition 除此之外,另外 find out 了解(到);找出(信息)opportunity /,?p?'tju:n?t?/ n. 机会 obligation /??bl?'ge??n/ n. 责任;义务 prize /pra?z/ n. 奖品,奖金 application /??pl?'ke??n/ n. 申请 form /f?:rm/ n. 表格 immigration /??m?'gre??n/ n. 移民 visa /'v?:z?/ n. 签证 impolite /??mp?'la?t/ adj. 不礼貌的 tidy /'ta?d?/ v. 使……整洁,整理 refund /r?:'f?nd/ n. 退款 favour /'feiv?/ n. 恩惠,照顾 reception /r?'sep?n/ n. 欢迎会;招待会 embassy /'emb?s?/ n. 使馆 certain /'s?:tn/ pron. 某些 reply /r?'pla?/ n. 回答,答复,回信 saleswoman /se?lz?w?m?n/ n. 女推销员,女销售员 firm /f?:m/ n. 公司 fax /f?ks/ n. 传真(机) outspoken /,aut'sp?uk?n/ adj. 直言不讳的,坦率的,不客气的human being 人类 motto /'m?t??/ n. 座右铭,格言 put one’s foot in 犯使人难堪的错误,说错话 one’s mouth shortcoming /??:t,k?mi?/n. 缺点,短处 absence /'?bs?ns/ n. 缺乏,不存在 as a consequence 因此,结果

相关文档
最新文档