分子进化树构建的简要步骤(以蛋白为例)

PhyML利用氨基酸序列建树步骤

（核酸建树也可以作为参考）

前言：本文阅读对象适合建树新手，生物信息学高手请勿嘲笑，其中有什么错误还恳请指点。为什么要建树及其你要解决什么问题这里不做讨论，只是一个纯粹的建树过程，前期的序列收集过程自己费心，根据自己的需要来做。这里主要是最大似然法来建树，NJ法像mega这些软件中都有集成，最新的mega7也集成ML法，不过模型及各种参数不一定适合你，所以学习多种多种方法也是有用的，PhyML速度较慢，如果数列数量较多、步长检验次数多，等待时间会很长，有可能达到几十小时，也与电脑配置有关，一般时间都是以小时计数，所以要有心理准备，如果数据量大，推荐用RaxML或其他方法建树，它处理速度要比PhyML 快，不过RaxML是纯命令操作，对不熟悉命令及参数意义的人有一定难度，我只在linux 下操作过，在win下没有使用过。本文是用氨基酸建树过程，如果你是用核酸序列建树，也可以参考这个过程，核酸替代模型请用jmodeltest或其他同功软件计算。

由于PhyML计算过程比较长，做一遍比较耗时，推荐你用其他软件用NJ法先行试验建树，看看你选择的序列是否有效及符合你的预期结果，调整好序列后再用PhyML跑一遍看结果是否符合自己的要求。

PhyML有线上版本，只需要提交序列比对结果，设置模型参数，留下邮箱等待就会给你返回结果，不过时间不可控，根据自身情况选择线上还是本地自己建树。水平有限，如有错误遗漏恳请各位指点。如果在文库不能下载，可以去网盘下载，见文末。

●建树过程：序列准备-模型选择-建树及树的验证。

●环境准备：电脑^-^Windows或者Linux都可以（没试过mac，如果是mac环境，请参考

具体的操作手册）、ProtTest、PhyMl及序列比对的软件，线上或本地都可以。

1.序列准备：

在自己熟悉的数据库中（我自己比较熟悉Ncbi）上做blast，选取跟要建树蛋白同源的各物种序列，下载到本地，整合到一个fasta文件中，注意修改物种名称，字数最好不要太长，序列比对后.phy格式文件对文件名长度有限制（这个可能跟软件有关系，只要自己知道是什么物种，不至于混淆就行），注意规范性，fasta文件中最好除了>头标，字母及下划线不要有其他不相关的字符，因为如果后面你要用软件分析.phy文件的时候这些软件对.phy的格式要求比较变态，有其他多余字符它都会报错的（你如果在dos 下用命令合并文件请注意文件中最后一行的字符，请删除）。做序列分析，常用的分析软件有clustalW系列，mega也集成了蛋白比对工具，线上线下各种软件自由选择，区别不大，保存的格式可以选择多一点，主要是看你后续操作。如clustalx 比对可以保存的结果格式如图1所示。选中你希望的格式保存即可。

图1.clustalx2输出文件设置

注：有的软件运行打开你需要比对的FASTA格式文件时候是不能有中文路径的，比如clustalx这货就打不开保存在中文路径下的文件。

2.用ProtTest选择建树中所需要的模型

注：如果*.bat批处理文件打开一闪而过，可能是因为你电脑没有java环境，因为这些程序是基于Java的，自行安

装即可，文末百度网盘链接里面包含了所需的建树软件，官网下载，放心使用，也可自行去官网下载。

Windows下点击runXProtTestHPC.bat 运行prottest软件（注意这货执行文件不能放到有中文字符路径中，Linux平台下你知道如何运行的^-^，好像也有线上平台，我没有试过），打开（flie-loading）你要建树的phy格式文件，如果文件没有问题，打开界面如图2，如果打开文件中有其他非规范性字符就会报错。

图2.ProtTest打开文件界面

点analysis----compute likelihood scores （图3）出现图4设置界面，替代模型默认全部选择，可以不用管，直接默认就好，rate variation 全选默认不变，categories默认是4，这个范围可以设置4-8，数值应该是越大越好，但会增加计算时间，根据你的情况选择，如果不明白就保持默认4。Amino-acid frequencies 勾选Empirical，如果不选这个，计算模型变为60个，会减少计算时间，推荐勾选，最后一个Starting topolpgy 选型改为Maximum Likelihood tree，最后点击Compute计算，长时间等待……..（看你用的机器配置情况咯，没办法）

图3. ProTest analysis选项

图4.analysis设置界面

经过长时间等待后计算完成，返回结果，如图5，看不到这个界面请查看“selection”

选项。第一行deltaAIC值为0的即使所需要的建树模型。在结果中翻出如下数据，记下标红这的两个参数，在后面用PhyML建树中会用到这两个模型参数。到这里，模型选择算是完成了。

Model................................ : LG+I+G+F

Number of parameters............... : 50 (21 + 29 branch length estimates)

gamma shape (6 rate categories).. = 0.524

proportion of invariable sites... = 0.13

aminoacid frequencies............ = observed (see above)

-lnL................................ = 8665.99

(seconds))

图5.ProTest 结算结果

3.PhyML建进化树：

模型选择好后就是建树了，请把前面做好比对的filename.phy文件复制到PhyML执行文件同一个文件夹中，点击phyml.bat打开PhyML软件（Linux下你知道如何运行的^-^），打开界面见图6，输入phy格式文件名字，eg：filename.phy，注意要带格式后缀。

图6. PhyML界面

输入文件名后出现图7的界面，设置各种参数，选D，改为AA（氨基酸）type，输入序列格式根据你的文件类型选择，有两种，区别见图8。

图7. PhyML参数设置界面

图8.Interleaved sequential类型区别

安“+”号进入下一项模型设置，界面见图9，按M可以选择不同模型，根据前面prottest 做的结果选择你需要的模型，按“V”设置proportion of invariable sites，按“A”设置gamma 值。再次提醒，这两个值就是prottest计算结果中的我标红加粗的这个。

Model................................ : LG+I+G+F

Number of parameters............... : 50 (21 + 29 branch length estimates)

gamma shape (6 rate categories).. = 0.524

proportion of invariable sites... = 0.13

aminoacid frequencies............ = observed (see above)

-lnL................................ = 8665.99

(seconds))

注意“C”选项，根据你前面prottest中设置的categories值来确定，两者最好是一致的。

图9. 模型设置

最后设置好后应该是图10这个样子。

图10，模型设置完成

模型设置好后继续按“+”，回车进入下一项设置，这里主要涉及到分析速度相关项，设置好后如图11。想要结果精确一点就计算速度慢一点，所花时间就长，当然也有其他选项，根据自己情况选择。（原谅我对是否增加随机树这个不是很清楚，我试了一遍好像没什么影响，对这个也不是特别理解）。

图11. 设置

继续“+”“enter”，进入下一项bootstrap 检验设置，“B”选项设置验证次数，数值为100的倍数，数值越大，建树过程越长，如图12

图12. Bootstrap设置

设置好这些后检查没有问题就按“Y”，回车开始计算过程，经过一段时间的计算(时间不等,看序列多少,机器配制)，结果以文本文档形式保存，如图13。其中的filename.phy_trees.txt就是树文件了，可以用treeview打开，编辑美化就OK了。

图13.建树结果文件

用PhyML建树过程基本上就是这样，如有什么遗漏错误欢迎指正，有其他问题也欢迎一起探讨，能看这个的也是专业人士了，哈哈，微：464021669。

更新：有人问我要软件，这些软件都是开源软件，网上都有正版下载的，我就打包放在网盘里面吧，有需要的自取。pan点baidu点com/s/1VFfwSSe_0k82DW12j0UmNg

另：核酸建树过程一样，只是中间模型设置的时候有点不一样，可以用Jmodetest 选模型，操作跟protest一模一样，结果中会显示你需要的修改的模型参数，跟下面一段话中的6个数字代码对应上就可以了。

The default string is ‘000000’, which means that the six relative rates of nucleotide changes: A ? C, A ? G, A ? T, C ? G, C ? T andG ? T, are equal. The string ‘010010’ indicates that the rates A ?G and C ?T are equal and distinct from A ? C = A ? T = C ? G = G ? T. This model corresponds to HKY85 (default) or K80 if the nucleotide frequencies are all set to 0.25. ‘010020’ and ‘012345’ correspond to TN93 and GTR models respectively.