生物学利用MEGA5.0和Clustalx软件构建进化树

生物学利用MEGA5.0和Clustalx软件构建进化树
生物学利用MEGA5.0和Clustalx软件构建进化树

生物学利用MEGA5.0和Clustalx1.83软件构建进化

MEGA是一个关于序列分析以及比较统计的工具包,从3.1版本到后来的4.0版本一直都广为大家熟悉,现在推出了Mega5.0版本。功能比以前多有改进。现主要介绍使用Mega 5.0构建系统进化树的方法。供大家参考。

用MEGA构建进化树有以下步骤:

1、测序:

将克隆扩增测序得到的16S rDNA序列进行测序。

2、NCBI上做Blast

https://www.360docs.net/doc/a113156186.html,/blast/Blast.cgi

找到相似度最高的几个序列,确定一下你分离的细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个,然后寻找相似性最高的细菌,通常把该属的序列(Fasta格式文件)下载下来,或点击GenBank登录号,复制FSATA 格式,整合在一个*.txt文档中(单独建立一个文件夹存放,后面的很多文件会自动装入该文件夹),如

>XXXX

AGGCTTAACACA TGCAAGTCGAGCGGAGCGAGGGTGCTTGCACCTTAGCTTAGCGGCG GACGGGTGAGTAA TGCTTAGGAA TCTGCCTA TTAGTGGGGGACAACATTCCGAAAGGA ATGCTAATACCGCATACGCCCTACGGGGGAAAGCAGGGGA TCTTCGGACCTTGCGCTAA TAGATGAGCCTAAGTCGGA TTAGCTAGTTGGTGGG

>gi|289469964|gb|GU388381.1| Acinetobacter tandoii strain DSM 14970 16S ribosomal RNA gene, partial sequence ACTTAGCGGCGGACGGGTGAGTAATGCTTAGGAATCTGCCTATTAGTGGGGGACAACA TTCCGAAAGGGATGCTAATACCGCA TACGCCCTACGGGGGAAAGCAGGGGATCTTCGG ACCTTGCGCTAATAGATGAGCCTAAGTCGGATTAGCTAGTTGGTGGGGTAAAGGCCTAC CAAGGCGACGA TCTGTAGCGGGTCTGAGAGGATGA……

…………………….

参考序列选择注意事项:

1、不选非培养(unclutured)微生物为参比;

2、不选未定分类地位的微生物,最相近的仅作参考;c,在保证同属的前提下,优先选择16S rDNA全长测序或全基因组测序的种;d,每个种属选择一个参考序列,如果自己的序列中同一属的较多,可适当选择两个参考序列。

3、使用clustalx1.83进行序列比对

打开压缩文件clustalx1.83,运行其中的clustalx.exe文件,如图:

点击File/load sequences,将整理好的*.txt序列文件导入clustalx1.83,如图

接着点击Alignment/Do Complete Aligment

程序自动运行,得出结果,自动输出*.aln和* .dnd 为后缀的两个文件,并自动存入你*.txt 文件所在的文件夹内。

序列比对也可以直接用MEGA来做。

4、运行程序MEGA 5.0,如下图所示:

点击:File导入Clustal程序得到的*.aln文件。再点File/Convert to MEGA Format,打开转换文件对话框,从目的文件夹中选中Clustal 对比分析后所产生的*.aln文件,转换为*.meg文件。转换时一路确认相关界面。最后查看meg序列文件最后是否正常,命名新文件存盘保存*.meg文件,*.meg文件会和aln文件保存在上述*.txt同一个文件夹中。

5、关闭转换窗口,回到主窗口,现在点面板上的“Click me to activate a data file”打开刚才的*.meg文件。

如果为核酸序列,选择“Nucleotide sequence”,点击“OK”,得到以下图示。

选择默认的Standard,点击OK后,如图所示。

点击程序中的,可以得到下图

在另外一个窗口内,出现以下数据文件点击选择和编辑数据分类图标,可对所选择的序列进行编辑,完成后点击close即可。

序列编辑完成后,可进行保存,点击保存后出现以下界面,点击ok即可。

构建进化树的算法两类主要方法简要说明:

独立元素法(discrete character methods)是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。

距离依靠法(distance methods)是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。

(1)phylogeny→UPGMA

(2)用Bootstrap构建进化树,MEGA的主要功能就是做Bootstrap验证的进化树分析,Bootstrap验证是对进化树进行统计验证的一种方法,可以作为进化树可靠性的一个度量。各种算法虽然不同,但是操作方法基本一致。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。

具体构建过程如下

①参数的设置:点击,选择该菜单中的Construct/test Neighbor-Joining tree,

选择前面转换得到的*meg文件,得到下图

点击OK

对下图的参数进行设置:

说明:

系统进化树的测试方法Test of Phylogeny,通常要选择Bootstrap method,也可以选择不进行测试;

重复次数No. of bootstrap Replications——通常设定至少要大于100比较好,随机数种子可以自己随意设定,不会影响计算结果。一般选择500或1000。

Model/Method——通常选择Kimura 2-paramete r。

设定完成,点compute,开始计算得到进化树构建的结果。如下图所示;

该窗口中有两个属性页,一个是原始树Original tree,一个是bootstrap验证过的一致树Bootstrap concensus tree。树枝上的数字表示bootstrap验证中该树枝可信度的百分比。

得到构建的进化树后可以对该进化树进行优化。

(本文参考网友的文章,同Mega的其它版本使用基本相同,在此表示感谢。以下进化树的优化部分直接引用)

(1)利用该软件可得到不同树型,如下图所示:

除此之外,还可以有多种树型,根据需要来选择。

2)显示建树的相关信息:点击图标i。

3)点击优化图标,可进行各项优化:

Tree栏中,可以进行树型选择:rectangular tree/circle tree/radiation tree。每种树都可以进行长度,宽度或角度等的设定

Branch:可对树枝上的信息进行修改。

Lable:可对树枝的名字进行修改。

Scale:标尺设置

Cutoff:cut off for consensus tree。一般为50%。

9、进化树的分类优化

Place root on branch:可以来回转换。

Flip subtree:180度翻转分枝,名字翻转180度。

Swab subtree:交换分枝,名字不翻转。

Compress/expand subtree与Set divergent time:可以把同一分枝的基因压缩或扩展。

点击Compress/expand subtree后,在要压缩的分枝处点击,出现以下界面,在name/caption 中输入文件名(例如wwww),其他还有很多的选项,设置好了,点击OK。

所得到的结果,可以在压缩和扩展之间转换。

10. 调整进化树

根据所的进化树的效果,要进行调整,包括多余序列删除、不足序列添加、种属名称标注等等,还要根据投稿杂志要求在PHOTOSHOP中修改等。完成后的进化树应包含充足的信息。参考网友的进化树完成图如下:

基础上,分享给大家的,仅供参考)

构建进化树方法比较

【转载】分子进化树构建及数据分析的简介 分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf [1] lylover. Email: lylover_2005@https://www.360docs.net/doc/a113156186.html, 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类:1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint 进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

如何做系统进化树

大家好: 我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN (LINUX)。 在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树,英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树(To reconstrut phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就

微生物多样研究—关联分析及系统发生进化关系

微生物多样研究—关联分析及系统发生进化关系 展开全文 一、关联分析 1.RDA/CCA分析 RDA或者CCA是基于对应分析发展而来的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。 此分析是主要用来反映菌群与环境因子之间关系。RDA是基于线性模型,CCA是基于单峰模型。分析可以检测环境因子、样本、菌群三者之间的关系或者两两之间的关系。 1)RDA或CCA模型的选择原则:先用species-sample数据(97%相似性的样本OTU表)做DCA分析,看分析结果中

Lengthsof gradient 的第一轴的大小,如果大于4.0,就应该选CCA,如果3.0-4.0之间,选RDA和CCA均可,如果小于3.0,RDA的结果要好于CCA。 2)通过bioenv函数判断环境因子与样本群落分布差异的最大Pearson相关系数,通过最大相关系数得到环境因子子集。3)将样本物种分布表与环境因子或环境因子子集分别做CCA或者RDA分析。 4)通过类似于ANOV A的permutest分析来判断CCA或者RDA分析的显著性。 注:图中数字表示样本名,不同颜色或形状表示不同环境或条件下的样本组;箭头表示环境因子;图中蓝色倒三角表示不同的细菌类型;物种与环境因子之间的夹角代表物种与环境因子间的正、负相关关系(锐角:正相关;钝角:负相关;直角:无相关性);由不同的样本向各环境因子做垂线,投影点越相近说明样本间该环境因子属性值越相似,即环境因子对样本的影响程度相当。 2.OTU共表达网络分析 生态学中一般认为功能上关系密切的群落往往表现出丰度的“同升同降”,根据微生物群落丰度信息计算样本中物种之间的相关性,并据此划分不同的共变化组(Co-abundancegroup,CAG)。

Mega的使用以及进化树的绘制

1.MEGA构建系统进化树的步骤 2.CLUSTALX进行序列比对 1.MEGA构建系统进化树的步骤 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。如图: 2. 打开MEGA软件,选择"Alignment" - "Alignment Explorer/CLUSTAL",在对话框中选择Retrieve sequences from a file, 然后点OK,找到准备好的序列文件并打开,如图: 。 3. 在打开的窗口中选择”Alignment”-“Align by ClustalX” 进行对齐,对齐过程需要一段时间,对齐完成后,最好将序列两端切齐,选择两端不齐的部分,

单击右键,选择delete即可,如图: 。 4. 关闭当前窗口,关闭的时候会提示两次否保存,第一次无所谓,保存不保存都可以,第二次一定要保存,保存的文件格式是.meg。根据提示输入Title,然后会出现一个对话框询问是否是Protein-coding nucleotide sequence data, 根据情况选择Yes或No。最后出现一个对话框询问是否打开,选择Yes,如图: 。 5. 回到MEGA主窗口,在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” -“Neighbor-joining”,打开一个窗口,里面有很多参数可以设

置,如何设置这些参数请参考详细的MEGA说明书,不会设置就暂且使用默认值,不要修改,点击下面的Compute按钮,系统进化树就画出来了,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Minimun-evolution”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Maximun-parsimony”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“UPGMA”,

进化树的构建

烦请各位看看,有没有什么大的问题,请直接贴上你的意见和建议,我会尽快修改。主要是针对初学者,写得尽量简单一些。 谢谢! phylogentics_lylover.doc (73.0k) lz还真勤劳,一个字:顶 Amazing! Thank you for your hard work! oldfish的批评意见也一并上传。写得不错。呵呵 phylogentics_lylover_with_comments.doc (105.5k) 晕,出丑了...改过来了。谢谢 再贴一个来自yzwpf 的批评意见。写得很不错。 NJ,ML,Bayes均需要选择模型,对PAUP和MrBayes而言,ModelTest有专门的版本可自动选择模型,意味着它会输出两者专用的设置模型的命令,用户需要的只是将该命令简单的复制粘贴。 MrBayes和MAC5均可利用gap信息构建进化树。 ml法无需比对应该是错误的。至少在paup中未比对会出错。 计算基因分化的年代,这个更一般的是知道进化树中某两个或更多物种的分歧时间,然后可以使用r8s软件分析进化树中其他序列的分歧时间。在mega中打开树后也可进行极为简单的年代分析,但必须满足分子钟假设且无法根据多个分歧时间进行校正! > 楼主,这是我写的帖子呀!怎么变成了mediocrebeing,呵呵! NJ,ML,Bayes均需要选择模型,对PAUP和MrBayes而言,ModelTest有专门的版本可自动选择模型,意味着它会输出两者专用的设置模型的命令,用户需要的只是将该命令简单的复制粘贴。 MrBayes和MAC5均可利用gap信息构建进化树。 ml法无需比对应该是错误的。至少在paup中未比对会出错。 计算基因分化的年代,这个更一般的是知道进化树中某两个或更多物种的分歧时间,然后可以使用r8s软件分析进化树中其他序列的分歧时间。在mega中打开树后也可进行极为简单的年代分析,但必须满足分子钟假设且无法根据多个分歧时间进行校正!

环境微生物学6-(补充)系统发育树

测序结果分析 ?获得基因序列 将所测得的DNA序列,利用Ribosomal Database ProjectII软件Classifier对分离的菌株进行分类,在GenBank上注册得到注册编号,通过Blast检索,与GenBank中的已知菌株的序列进行同源性分析,确定与鉴定菌株同源性程度最高的序列。 ?全序列菌种鉴定 给定结果中已经确定菌株种类Dear Dr. Li: We have received the following 9 sequence submissions from you: BankIt1464287 ,BankIt1464297 , BankIt1464298 , BankIt1464299 , BankIt1464300 , BankIt1464301,BankIt1464302 , BankIt1464303 ,BankIt1464304 Please provide the following information about your sequence submissions: [1] Are these sequences from: a) pure culture: a culture that contains only one microbial species or b) enrichment culture: use of selective culture media to enrich for a set of microorganisms with a particular phenotypic property, resulting in a partially purified, mixed culture. Please do not choose this option for purified strains or c) bulk environmental DNA: PCR-amplified directly from source/host DNA using: i) universal primers or ii) species-specific primers [2] You have not provided valid organism names. You have simply listed the isolation source. Please provide more detailed organism name if possible. For example are these from uncultured bacterium, uncultured fungus, etc. [3] Provide unique names (such as clone, isolate, strain, or laborator designation) that we can use to distinguish the separate sequence submissions. For a more detailed explanation, see below. [4] Provide additional details describing the environmental conditions and geographic location where these sequences or organisms were isolated. Please provide this as a spreadsheet or tab-delimited table: If you submitted using BankIt:bankitno. sequenceID identifier environment bankit123456 Seq1 abc1 soil ,bankit123457 Seq2 def2 ocean water If you submitted using sequin:SeqID identifier environment AB1 abc1 soil, CD2 def2 ocean water For your reference, please find your preliminary flatfiles below with the information we currently have. Sincerely, Linda Frisse, PhD 基因序号的获得 Dear Dr. Linda Thank you for your letter. I'll give you more information about the 9 sequence submissions. [1] All the sequences are from enrichment culture. [2] From your letter, I can't understand clearly what is organism names. So I as I understand provides all names. If you have any problem you can ask me. The organism names about the bacteriais following: BankIt1464287 Staphylococcus. YA1, BankIt1464297 Pseudomonas. YA6 BankIt1464298 Aeromonas. SB9, BankIt1464299 Sphingobacterium. BB11 BankIt1464300 Aeromonas. TB13, BankIt1464301 Staphylococcus. JB17 BankIt1464302 Comamonas. CB22, BankIt1464303 Arthrobacter. JB18 BankIt1464304 Galactomyces geotrichum. SE3 [3] unique names are all strain. [4] All enviroment informations are shown in following table bankitno. name environment BankIt1464287 YA1 Sludge from Songjiang sewage treatment plant aeration anaerobic zone BankIt1464297 YA6 Sludge from Songjiang sewage treatment plant aeration anaerobic zone BankIt1464298 SB9 Activated sludge from Songjiang sewage treatment plant second pond BankIt1464299 BB11 Soil from cabbage fields in Songjiang BankIt1464300 TB13 Soil from Songjiang University city’s refectory BankIt1464301 JB17 Soil from gas station beside the university subway station BankIt1464302 CB22 Songjiang sewage treatment plant effluent BankIt1464303 JB18 Soil from gas station beside the university subway station BankIt1464304 SE3 Activated sludge from Songjiang sewage treatment plant second pond Sincerely, Shan Li Dear GenBank Submitter: Thank you for your direct submission of sequence data to GenBank. We have provided GenBank accession numbers for your nucleotide sequences: BankIt1464287 BankIt1464287 JN226389, BankIt1464297 BankIt1464297 JN226390 BankIt1464298 BankIt1464298 JN226391, BankIt1464299 BankIt1464299 JN226392 BankIt1464300 BankIt1464300 JN226393, BankIt1464301 BankIt1464301 JN226394 BankIt1464302 BankIt1464302 JN226395, BankIt1464303 BankIt1464303 JN226396 BankIt1464304 BankIt1464304 JN226397 We strongly recommend that these GenBank accession numbers appear in any publication that reports or discusses these data, as they give the community unique labels with which they may retrieve your data from our on-line servers. Sincerely, Linda Frisse, PhD The GenBank Direct Submission Staff Bethesda, Maryland USA

运用mega5构建系统发生进化树.

1.准备序列文件 准备fasta格式序列文件(fasta格式:大于号>后紧跟序列名,换行后是序列。举例如下)。每条序列可以单独为一个文件,也可以把所有序列放在同一文件内。 核酸序列: >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列: >sequence2_name MQSPINSFKKALAEGRTQIGF 2.多序列比对 打开MEGA 5,点击Align,选择Edit/Build Alignment,选择Create a new alignment,点击OK。

这时需要选择序列类型,核酸(DNA)或氨基酸(Protein)。 选择之后,在弹出的窗口中直接Ctrl + V粘贴序列(如果所有序列在同一个文件中,即可全选序列,复制)。也可以:点击Edit,选择Insert Sequence From File,选择序列文件(可多选)。

序列文件加载之后,呈蓝色背景(为选中状态)。点击按钮,选择Align DNA (如果是氨基酸序列,则会出现Align Protein)。弹出的窗口中设置比对参数,一般都是采用默认参数即可。点击OK,开始多序列比对。

比对完成后,呈现以下状态。 这时需要截齐两端含有---的序列:选中含有---的序列,按键Delete删除(注意:两端都需要截齐)。截齐之后,保存文件为:filename.mas

3.构建系统进化树 多序列比对窗口,点击Data,选择Phylogenetic Analysis,弹出窗口询问:所用序列是否编码蛋白质,根据实际情况选择Yes或No。此时,多序列比对文件就激活了,可以返回MEGA 5主界面建树了。

进化树软件使用综述

建议用Mega相对比较简单些,速度也快点。phylip首先是要用比对好的序列,然后用seeqboot产生bootsrap的序列,然后用prodist(假如是核苷酸序列就用dnadist),然后用neighbor,然后用consense得到最终的树。这个可以参看phylip 的说明文档,还是比较详细的。假如你比对的序列同源度不是太好,可能会有个别步骤报错,好像phylip官方由一个bug修订。假如你熟悉perl的话,我以前写过一个脚本纠正这个bug。。。 在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)。 在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树,英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树(To reconstrut phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序

mega5进化树构建

mega5进化树构建 图文详解MEGA 5构建系统发育树 1.准备序列文件 准备fasta 格式序列文件(fasta 格式:大于号>后紧跟序列名,换行后是序列。举例如下)。每条序列可以单独为一个文件,也可以把所有序列放在同一文件内。 核酸序列: >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列: >sequence2_name MQSPINSFKKALAEGRTQIGF 2.多序列比对 打开MEGA 5,点击Align ,选择Edit/Build Alignment,选择Create a new alignment ,点击OK 。 → 这时需要选择序列类型,核酸(DNA )或氨基酸(Protein )。 选择之后,在弹出的窗口中直接Ctrl + V粘贴序列(如果所有序列在同一个文件中,即可全选序列,复制)。也可以:点击Edit ,选择Insert Sequence From File,选择序列文件(可多选)。 序列文件加载之后,呈蓝色背景(为选中状态)。点击按钮,选择Align DNA (如果是氨基酸序列,则会出现Align Protein)。弹出的窗口中设置比对参数,一般都是采用默认参数即可。点击OK ,开始多序列比对。 比对完成后,呈现以下状态。 这时需要截齐两端含有---的序列:选中含有---的序列,按键Delete 删除(注意:两端都需要截齐)。截齐之后,保存文件为:filename.mas ↓ 3.构建系统进化树 多序列比对窗口,点击Data ,选择Phylogenetic Analysis,弹出窗口询问:所用序列是否编码蛋白质,根据实际情况选择Yes 或No 。此时,多序列比对文件就激活了,可以返回MEGA 5主界面建树了。 MEGA 5主界面。点击Phylogeny ,选择Construct/Test

构建系统进化树的方法步骤

构建系统进化树的方法步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;

用MEGA构建进化树

如何用MEGA构建进化树 MEGA3.1是一个关于序列分析以及比较统计的工具包,其中包括有距离建树法和MP 建树法;可自动或手动进行序列比对,推断进化树,估算分子进化率,进行进化假设测验,还能联机的Web数据库检索。下载后可直接使用,主要包括几个方面的功能软件:i)DNA 和蛋白质序列数据的分析软件。ii)序列数据转变成距离数据后,对距离数据分析的软件。iii)对基因频率和连续的元素分析的软件。iv)把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。v)绘制和修改进化树的软件,进行网上blast搜索。 用MEGA构建进化树有以下步骤: 1. 16S rDNA测序和参考序列选取 从环境中分离到单克隆,去重复后扩增16S rDNA序列并测序,然后与数据库https://www.360docs.net/doc/a113156186.html,/blast/Blast.cgi比对,找到相似度最高的几个序列,确定一下你分离的细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个,然后找一到两个同科的,再找一到两个同目的,再找一到两个同纲的细菌,把序列全部下下来,以FSATA形式整合在TXT文档中,如 >TS1 GCAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAA CACGTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCG GA TAGGACCTCGGGA TGCA TGTTCCGGGGTGGAAAGGTTTTCCGGTGCAGGATGGGCC >gi|117572706|gb|EF028124.1| Rhodococcus sp. Atl25 16S ribosomal RNA gene, partial sequence CGATTAGAGTTTGA TCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAA GTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAACAC GTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAA TACCGGA T >TS2 TGCAAGTCGAGCGAATGGA TTAAGAGCTTGCTCTTA TGAAGTTAGCGGCGGACGGGTG AGTAACACGTGGGTAACCTGCCCA TAAGACTGGGATAACTCCGGGAAACCGGGGCTAA TACCGGATAACA TTTTGAACTGCATGGTTCGAAA TTGAAAGGCGGCTTCGGCTGTCACT >gi|56383044|emb|AJ809498.1| Bacillus cereus partial 16S rRNA gene, strain TMW 2.383 GA TGAACGCTGGCGGCGTGCCTAA TACATGCAAGTCGAGCGAA TGGATTAAGAGCTTG CTCTTA TGAAGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCCATAAGAC TGGGATAACTCCGGGAAACCGGGGCTAATACCGGATAACATTTTGAACYGCATGGTTC …………………………. …………………………. 参考序列选择有几个原则:a,不选非培养(unclutured)微生物为参比;b,所选参考序列要正确,里面无错误碱基;c,在保证同属的前提下,优先选择16S rDNA全长测序或全基因组测序的种;d,每个种属选择一个参考序列,如果自己的序列中同一属的较多,可适当选择两个参考序列。

MEGA构建系统进化树的步骤(以MEGA7为例)

MEGA构建系统进化树的步骤(以MEGA7为例) 本文是看中国慕课山东大学生物信息学课程总结出来的 分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA 序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。 2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),弹出窗口询问“Nothing selected for alignment,Select all?”选择“OK”。 4. 之后,弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。MEGA的所有默认参数都是经过反复考量设置的,这保证了MEGA傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别要求的时候,直接点击“OK”,接受这些默认参数,开始多序列比对。

进化树软件MEGA最新6.06说明书

第一步:打开软件 下面介绍菜单的使用: Data菜单: Creat a new :创建一个新的数据比对文件,也就是说当我们比对完一组后,想接着比对另一组,那么使用它就可以不用退出直接把数据文件导入; Open :打开先前已经比对并保存好的文件,它包含两个子菜单:retive sequence from file 和saved aligment session ; Close: 关闭当前的比对数据文件;

Save session :保存当前比对结果,可以给比对的结果一个文件名; Export alignment :将当前的序列比对结果输出到指定文件,有两种输入格式可供选 择:MGTA 和FASTA. DNA sequence :使用它来选择输入的数据DNA 序列,这里需要说明的是如果你输入的数据是氨基酸序列的话,比对窗口只显示一个标签,若是DNA 序列的话则显示两个标签,一个是DNA 序列的,另一个是氨基酸序列的。 Protein sequences :选择输入的氨基酸序列,选择后,所以的位点就被当作氨基酸残 基位点来对待。 Translate/untranslate :只有比对的序列是编码蛋白的DNA序列的时候才可用。它可以根据指定的遗传密码表将DNA 序列翻译成特定的氨基酸序列。 Select genetic code table :使用它将编码蛋白的DNA 翻译成特定的蛋白序列。 R everse complement :将选择的一整行的DNA 序列变为与之互补配对碱基序列。Exit alignment explorer :退出序列比对的资源管理窗口 Edit 菜单: 使用这个菜单可以对我们的比对序列进行想要的一些编辑工作具体为 Undo:撤销上一步操作; Copy:复制;Cut:剪切;Paste:粘贴;这三个操作都可以只针对一个碱基或 氨基酸残基也可以是一段甚至是整个序列; Delete:从比对表格中删除一段序列; Delete gaps:去掉序列中的空缺; Insert blank sequence:重新插入一空行;标签和序列都是空的; Insert sequence from file :从已保存的文件中插入新的序列;

用MEGA构建进化树

如何用MEGA构建进化树 MEGA3、1就是一个关于序列分析以及比较统计得工具包,其中包括有距离建树法与MP建树法;可自动或手动进行序列比对,推断进化树,估算分子进化率,进行进化假设测验,还能联机得Web数据库检索。下载后可直接使用,主要包括几个方面得功能软件:i)DNA与蛋白质序列数据得分析软件。ii)序列数据转变成距离数据后,对距离数据分析得软件。iii)对基因频率与连续得元素分析得软件。iv)把序列得每个碱基/氨基酸独立瞧待(碱基/氨基酸只有0与1得状态)时,对序列进行分析得软件。v)绘制与修改进化树得软件,进行网上blast搜索。 用MEGA构建进化树有以下步骤: 1、16S rDNA测序与参考序列选取 从环境中分离到单克隆,去重复后扩增16S rDNA序列并测序,然后与数据库比对,找到相似度最高得几个序列,确定一下您分离得细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定您分离得到得就就是Blast到得那个,然后找一到两个同科得,再找一到两个同目得,再找一到两个同纲得细菌,把序列全部下下来,以FSATA形式整合在TXT文档中,如 >TS1 GCAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAACACGTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGATAGGACCTCGGGA TGCATGTTCCGGGGTGGAAAGGTTTTCCGGTGCAGGATGGGCC >gi|117572706|gb|EF028124、1| Rhodococcus sp、Atl25 16S ribosomal RNAgene,partial sequence CGATTAGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGGGTGA TCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGAT >TS2 TGCAAGTCGAGCGAATGGA TTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGA CGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGATAACTCCGG GAAACCGGGGCTAATACCGGATAACATTTTGAACTGCATGGTTCGAAATTGAAAGGCGGCTTCGGCTGTCACT >gi|56383044|emb|AJ809498、1|Bacillus cereus partial16S rRNA gene, strainTMW 2、383 GA TGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAATGGATTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGA TAACTCCGGGAAACCGGGGCTAA TACCGGATAACA TTTTGAACYGCA TGGTTC…………………………、 …………………………、 参考序列选择有几个原则:a,不选非培养(unclutured)微生物为参比;b,所选参考序列要正确,里面无错误碱基;c,在保证同属得前提下,优先选择16S rDNA全长测序或全基因组测序得种;d,每个种属选择一个参考序列,如果自己得序列中同一属得较多,可适当选择两个参考序列。 2、序列比对

相关文档
最新文档