序列谱进化树方法

合集下载

进化树算法

2）要构建一个进化树（to reconstrut phyligenetic tree）构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点的状态，当多个序列进行进化树分析时，进化树的拓扑形状也就决定着这些碱基的状态了）。而距离依靠法是指进化树的拓扑形状由两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立法包括最大简约法（maximum parsimony methouds,MP）和最大可能性法（maximum likelihood methods，ML）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（neighbor-Joining，NJ）。
3）对进化树进行评估主要采用Bootstraping 法。进化树的构建是一个统计学的问题，构建出来的进化树只是对真实进化关系的评估或者模拟。如果采用一个适当的方法，那么所构建的进化树就会更接近真实的“进化树”模拟的进化树需要一个数学的方法来对其进行评估。不同的算法有不同的适用目标。一般来说，MJ适用于符合以下条件的多序列：
Hale Waihona Puke ①所要比较的碱基差别小；②对于序列上的每一个碱基有近似相等的变异率；③没有过多的颠换/转换的倾向；④所检验的序列碱基数目较多(大于几千个碱基），用ML分析序列则不用上述诸多条件，但是此种方法计算及其耗时，如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一个分子钟。这个算法的得到的进化树相对来说不是很准确，现在已很少使用。NJ是一个经常被使用的算法，它构建的进化树相对准确，而且计算快捷。其缺点是序列上的所有位点都被同等对待，而且，所分析的序列的进化距离不可能太大。另外，需要特别指出的是对于一个特定多序列对象来说可能没有任何一个现存的算法非常适合它。最好是发展一个更好的算法来解决它，当无疑非常困难。如果有人能建立这样的算法的话，那他（她）完全可以在Proc.Natl A上发一篇高质量的文章。

构建进化树的步骤

构建进化树的步骤通常包括以下几个关键环节：
1. 数据收集：收集相关的生物序列数据，这些数据可以来自于公共数据库，如NCBI的GenBank，也可以通过实验获得。

序列数据包括DNA或蛋白质序列。

2. 序列alignment（序列比对）：使用比对软件如Clustal Omega、MAFFT、MUSCLE等，将收集到的序列进行比对，以确保序列的同源性，并消除由于序列变异导致的噪音。

3. 序列拼接和校正：对测序得到的正向和反向序列进行拼接和校正，以获得完整的序列。

常用的拼接软件有Contig Express、Geneious 和Sequencher等。

4. 选择合适的模型：根据序列数据选择合适的进化模型。

可以使用软件如Modeltest来评估不同的进化模型，选择BIC（Bayesian Information Criterion）分数最低的模型。

5. 建树：选择合适的软件和建树方法来构建进化树。

常用的软件有MEGA、PhyML、MrBayes等，建树方法包括NJ（邻接法）、MP （最大简约法）、ML（最大似然法）等。

6. 建树检验：使用如Bootstrap方法等来检验所建树的稳定性和可靠性。

Bootstrap方法通过重复抽样来检验建树的节点支持度。

7. 绘制进化树：使用软件如TreeDraw、FigTree或在线工具来绘制进化树的图像，以便于分析和展示。

系统进化树绘制

MEGA：系统进化树绘制1.从测序公司获取可以用TXT格式打开的菌株16SrDNA序列文本信息；2.打开NCBI网站（https:///），依次点击BlAST—>Microbes，进入最下图所示界面。

3.将序列信息粘贴到黄色文本框内，点击BLAST按钮，进入比对结果页面，根据所需选择20条（参考）相似序列信息，点击Download，下载FASTA（aligned sequences）格式序列信息到电脑；4.将测序所得序列信息与Blast所得序列信息合并到同一个Text文件中；5.打开MEGA软件（以MEGA6.06为例），点击Align—>Edit/Build Alignment，选择Creat a new alignment并点击OK，点击DNA，进入最下图界面，最大化子界面；6.点击下图红线圈出的图标或通过Edit—>Insert Sequence From File Ctrl+I，进入第二个图所示界面，将文件格式由ABI改为Text，选择所选序列信息文件，点击打开；7.按住Shift，鼠标点击首条和最后一条多余的序列信息，即可选择某一需要删除的序列信息区域，点击Delete删除多余序列信息，并编辑各序列名称，点击保存编辑好的序列信息；8.点击Data—>Phylogenetic Analysis（系统进化分析），点击“Yes”完成系统进化分析；9.回到MEGA主页面，依次点击Analysis—>Phylogeny—>Construct/Test Neighbor-Joining Tree...，在跳出的界面中点击“Yes”，接着将跳出页面中的Test of Phylogeny项的None改为Bootstrap method，点击Compute，系统完成运算，生成系统进化树；10.依次点击Image—>Save as PDF file,保存成PDF格式系统发育树图谱。

怎样使用MEGA建立进化树

如何使用建立进化树1、首先是双击软件打开如下图所示
2、现在是处于DNA序列,而我们要做蛋白质的进化树的话,就如下操作
3、接下来我们要进行序列的输入,点击左边那个红箭头,则出现下面的窗口；
4、然后右击sequence 1,修改名字,如改成DPV
5、然后从Word 里复制蛋白质序列,然后在下面的位置粘贴
6、则可出现如下图的序列了
7、然后点击窗口上的保存图标保存
8、重复从3开始,直到你的序列输入完
9、序列输入完后进行最后的保存,方法如下：
要输入ul7两次保存名字—然后关闭这个窗口; 接下来打开
出现下面这个窗口
接下来就可以建立各种样式的进化树
嗯,只是把过程写出来,方便大家建立进化树,不足的地方,大家补充好。

手把手教你用FastTree快速构建序列进化树

手把手教你用FastTree快速构建序列进化树
手把手教你用Fast Tree 快速构建序列进化树
常见的建树方法有：贝叶斯法（Bayesian），最大似然法（Maximum likelihood，ML），最大简约法（Maximum parsimony，MP），邻接法（Neighbor-Joining，NJ），最小进化法（Minimum Evolution，ME），类平均法（UPGMA）。

一般来讲，如果模型合适，最大似然法的效果较好。

对于近缘序列，最大简约法用的假设最少，各种方法结果相似。

而对于远缘序列，一般使用最大似然法或邻接法。

对相似度很低的序列，邻接法往往出现Long-branch attraction（LBA，长枝吸引现象），严重干扰进化树的构建。

对于各种方法构建分子进化树的准确性，Hall 认为贝叶斯的方法最好，其次是最大似然法，然后是最大简约法。

其实如果序列的相似性较高，各种方法结果差别不大。

最大似然法和邻接法需要选择模型。

对于蛋白质序列，一般选择Poisson Correction（泊松修正）模型。

而对于核酸序列，一般选择Kimura 2-parameter（Kimura-2 参数）模型。

表1. 构建进化树的常用软件
软件名称简介Clustal X图形化的序列比对工具GeneDoc多序列比对结果美化工具BioEdit序列分析综合工具MEGA图形化比对，进化分析综合工具PAUP进化分析工具Phylip
进化分析工具PhyML最大似然法建树工具PAML最大似然
法建树工具MrBayes贝叶斯法建树工具FastTree最大似然法建树工具（速度快）TreeView进化树显示工具。

进化树制作

二、ITS序列分析，学习进化树的制作
1
3
2
ห้องสมุดไป่ตู้
二、ITS序列分析，学习进化树的制作
二、ITS序列分析，学习进化树的制作
找出所有序列都有的第一列碱基，将第一列碱基之前的删掉（拉黑序列 +delete），找到所有序列都有的最后一列碱基，同上操作，保存，关闭窗口。
二、ITS序列分析，学习进化树的制作
二、ITS序列分析，学习进化树的制作
1、测序完成后，会得到拼接好的序列。 2 、复制拼接的序列，在NCBI BLAST上搜索，可以找到和自己的序列相似的其他序列，选择多条序列，下载，利用 MEGA 5.10,制作进化树。
二、ITS序列分析，学习进化树的制作
二、ITS序列分析，学习进化树的制作
选择刚刚保存的文件
二、ITS序列分析，学习进化树的制作
Test of phylogeny： Bootstrap method
No. of Bootstrap Replication:500/10 00(节点处的数字为 500/1 000次自引导值中该节点存在的百分数。 )
二、ITS序列分析，学习进化树的制作
青霉属
新萨托菌属
曲霉属

进化树方法

进化树方法
进化树方法（phylogenetic tree methods）是一种通过分析生物序列、形态等特征，建立生物分类理论模型的方法。

其基本原理是将不同生物样本的特征数据进行比对和分析，计算出它们之间的相似性和差异性，并按照一定的规则将它们归类，最后绘制出一棵进化树（phylogenetic tree）。

该方法主要用于研究生物进化和系统发育等领域，可以帮助我们更好地理解不同生物之间的关系和演化历程。

常见的进化树方法包括距离法、最小进化原理法和最大简约原则法等。

其中距离法基于不同生物的遗传距离来建立进化树，最小进化原理法则是寻找最小的进化路径，而最大简约原则法则是保留最少的节点和分支，以得到最简洁的进化树。

进化树方法与分子时钟方法、分子标记等方法相结合，可以使研究更加准确和全面。

进化树构建方法-MEGA

利用MEGA 来构建进化树（molecular evolutionary genetics analysis 分子进化遗传分析）打开mega5，选择Align----edit/built alignment----create a new alignment—OK选择DNA/protein出现新的对话框Open------选择已经保存好的用clustalx 经过比对保存的以.aln格式的文件打开之后，出现下面的页面双击文件名可以进行修改的。

我的就是从这里开始修改把A,B,C 都去掉，只留号码就好右键菜单点击delete 删除带※的那一行。

得到下面的图示，点击保存，重新起名字。

之后点击此图内的Alignment 选择Align by clustalW即可。

默认设置即可，点击OK就进行比对了，此后会出现一个过渡对话框，显示的是两两比对和多序列比对的过程之后回到初始页面，就是这个页面之后点File---点开，把刚才保留的文件点开然后出现下面的页面多了几个内容，点击TA的那个框框。

之后出现这样的框框图片然后在主程序中选择phylogeny---construct/test neighbor-joining tree,然后出现下面的页面黄色框框处的的参数是可以改变的，该图为我已经改变好的，把Bootstrap 的值改为1000 Methods根据文献上的参考改为了Kimura2-parameter model.之后点击compute,就出现了，而且还带有必需的支持率即自展值，是用来检验你所计算的进化树分支可信度的。

简单地讲就是把序列的位点都重排，重排后的序列再用相同的办法构树，如果原来树的分枝在重排后构的树中也出现了，就给这个分枝打上一分，如果没出现就给0分，这样经过你给定的repetitions 次（至少1000次）重排构树打分后，每个分枝就都得出分值，计算机会给你换算成bootstrap值。

重排的序列有很多组合，值越小说明分枝的可信度越低，最好根据数据的情况选用不同的构树方法和模型。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

活性中心序列谱及系统发育树的制作
杨曼丽
1 序列谱的制作
1.1 搜集数据
查找数据。

在CAZy数据库（）中找到目标家族。

All显示的是该家族所有的序列条目，Structure显示的是结构已经被实验解析的条目，Characterized显示的是有功能标注的条目。

数据显示按Archaea、Bacteria和Eukaryota分类。

排列按字母顺序。

数据库中分别显示蛋白的名称、EC号、来源、GeneBank、Uniprot及PDB数据。

图1
下载PDB文件。

将目标PDB文件下载。

在同种蛋白含有不同PDB文件的时候注意文件的选取。

可以通过上传时间、发表文献等找出最原始的结构，其他相关结构一般为该原始结构的突变结构。

下载Uniprot序列。

将目标Uniprot文件下载，保存为Fasta格式。

一般文件命名原则为：物种_EC号_Uniprot 号_PDB号（如果有的话）。

物种用A、B、E标注。

没有Uniprot号的用GenBank号代替。

为了方便后续的建树，可以先将每个序列文件抬头（一般为第一行”>”标识）名称改为文件所命之名，这样可以省去在建树后改leaf名称的麻烦
1.2 活性中心架构的获取
底物的选取。

用Pymol打开下载好的PDB文件，用present->ligands找出底物。

也可显示全序列，查找序列末端。

注意一般底物为BGC等糖环，而非ACT等小分子。

有的底物在结构解析时有丢失，因此需要详细研究整个家族的PDB，以便将一些底物进行拼接。

图2
切点和方向的确定。

找好底物后将整条糖链横向放置，找出非还原端和还原端（一般非还原端在左，还原端在右）。

查找原始文献，找到切点位置，记录为0点。

0点往非还原端方向的糖环分别为-1、-2、-3、-4……，往还原端方向的糖环分别为+1、+2、+3、+4……。

活性中心氨基酸的筛选。

从一个糖环开始选取其邻近氨基酸。

以5埃为例。

选择第一个糖环的氧原子（如O6），Pymol的log会显示该原子的序号（如6006）。

在CUI中输入命令：select near O6, resi 6006 around 5 。

将选取出来的氨基酸保存后进行下一个原子周围的选取。

统计。

用EXCEL对数据进行统计。

一般首列为PDB号，首行为相对位置。

比如一个氨基酸离-4位糖环的O4比较近，则命名此列为-4 O4。

氨基酸的命名方法是位置号码+氨基酸名，如111A指的是111位的丙氨酸。

将不同PDB的底物和相关氨基酸进行拼凑，至少保证每个位点上有一个氨基酸。

结构比对。

打开VMD，Extension->Analysis->Multiseq. 输入PDB文件。

选择Tools->Stamp Structural Alignment进行结构比对。

比对完后找到目标氨基酸，将其同一位点所有结果都记录在EXCEL中。

注意，空位点用“-”表示。

图3
注意：VMD使用的一些问题。

①文件名不要超过8个字符否则会报错。

因此之前为了建树方便的命名需要进行删减
②在随后的结构模建中，用Swiss-model模建的结构有时候会有配体，而配体在源代码中显示为Z轴。

这是VMD所不能识别的。

因此，在结构比对之前需要把配体删除（如果是带有配体的PDB原文件则不影响）
③结构比对如果出错不能比对可能原因是这些结构中含有某个差异太大导致比对不能的结构。

因此一般再比对是不要一开始就选全部比对（数据量大的话比对时间长如果有差异大的数据则这些时间等于浪费，数据量小可以先尝试全部比对），可以少量多次标记再进行。

1.3 序列谱的绘制
数据的处理。

用UltraEdit对数据进行处理。

从EXCEL中复制所有氨基酸到UltraEdit中，并将所有数字和空格删除。

一般选取列阵模式，可以竖行删除。

图4
序列谱的绘制。

打开WEBLOGO主页: /点击Creat创建序列谱。

在Multiple Sequence Alignment输入上一步编辑好的结果。

Colours选项选择Custom。

颜色设置一般如下：KRH->GREEN; DE->BLUE; FWY->PUPPLE; MV ALI->RED; G-ÆBLACK; NQ->RGB=>FFB300; TSPC->RGB=>FFB3FF。

注意，一般可以根据位点数量调节图片大小比例。

序列谱的验证。

用Consurf数据库（http://consurf.tau.ac.il）对序列进行打分。

进入页面后按提示操作即可。

2 进化树的构建
数据筛选。

将CAZy数据库中Characterized条目的Uniprot数据用Pfam进行搜索，保留本家族结构域，去除CBM等其他结构域。

（linker的保留与否视情况而定）
序列比对。

打开MEGA5。

新建Alignment（选择protein），输入筛选好的数据，点击比对。

保存文件
图5
制作进化树。

打开比对文件，选择Analysis中的系统发育树构建，选择NJ法构建进化树。

一般次数选
择1000次（比500次准一些，经验值）
图6
预处理及输出文件。

选择Bootstrap consensus tree。

在VIEW中有对树的一些显示方式。

其中的OPTION
可以设置枝的粗细等。

选择IMAGE可以输出图像文件。

在File中还可以输出NEWICK文件（以备后用）。

3 绘图与美化
进化树的美化。

进化树的美化有多种方式，这里介绍一种比较简单的工具。

iTOL（http://itol.embl.de/）
是EMBL制作的一个网站工具，这个工具可以对进化树进行很多美化处理。

图7
注册后开始添加文件。

一般一个新的Project需要输入的就是上文提到的Newick文件。

在主页面可以对树进行初步选择。

此外还可以对树进行颜色等编辑。

具体操作请参阅HELP页面。

选取颜色时建议
使用取色器读取RGB数值。

图8
图9
4 其他软件
在做生物信息学数处理时，为了保证数据的准确性和美观性，常使用不止一种软件或方法进行实验。

在此不详细说明，只列举。

序列比对：MEGA5可以进行序列比对。

其他一般用Clustalx等
结构比对：除了VMD外还有STRAP，这个软件相比VMD的优点是不卡，但是数据量大的话耗时也长。

模建：有些没有PDB结构的序列需要进行模建。

通常使用Swiss-model。

它的优点是返回数据块，模建事会自动把两段linker进行删减，缺点是有些模建的结构含有底物，会用Z轴标注，VMD不能识别，需要删除。

此外还有MODWEB也可对结构进行模建。

优点是在SLOW模式下能模建出一些Swiss模建的不好的结构，缺点是过于缓慢，一般SLOW模式需要1-2天，而FAST模式的模建结果不是很好。

绘图：进化树的绘制还可用FigTree；ACDchemSketch可以非常方便的绘制化学结构；一般用Photoshop 处理图片，但是矢量图用CorelDraw效果会更好；一些更好看的模式图可能需要MATLAB和3DMAX；蛋白质结构一般可用POV-RAY打光渲染。

以上提到的全部软件均有免费版本。