ClustalX使用方法解读

合集下载

基础工具-Clustalx用法

基础工具-Clustalx用法下载地址：/Clustal是一种利用渐近法（progressive alignment）进行多条序列比对的软件。

即先将多个序列两两比较构建距离矩阵，反应序列之间两两关系；然后根据距离矩阵计算产生系统进化指导树；然后从多条序列中最相似（距离最近）的两条序列开始比对，按照各个序列在引导树上的位置，由近及远的逐步引入其它序列重新构建比对，直到所有序列都被加入形成最终的比对结果为止（Figure 1）。

Figure 1 clustal 算法Clustal软件有两个版本，其中clustalw采用命令行的形式在DOS/Linux下运行的，Clustalx是可视化界面的程序，可在window 电脑运行，我们今天学习Clustalx的使用。

1 安装clustalx下载clustalx软件，按照默认安装到自己的电脑上。

2 准备要比对的序列将上节课搜索到的同源核酸fasta文件，全部粘贴到一个文本文件中，所有的蛋白质序列存入另一个文本文件。

TIP:可以在fasta序列“>”之后加上物种名称，加空位，方便看树时了解进化关系。

3 载入序列点击开始－程序－clustalX2－clustalX2。

点主菜单File，选择Load Sequence-选择刚保存的序列文件，点打开。

注意：ClustalX程序无法识别汉字、带空位的文件夹名，如my document。

不要将序列文件保存在桌面上或带汉字的文件夹中，推荐保存在D盘根目录下。

载入序列后在左侧窗口里是fasta格式序列的标识号，取自序列第一行“>”后的字符。

(Figure 2)TIP：如果每条序列单独保存为一个文件，可以使用File-Append sequence选项将序列一条条添加进来。

Figure 2 载入序列4 比对参数的设置比对前先要设置两条序列比对的参数和多条序列比对的参数。

a.两条序列比对的参数点击Alilgnment菜单，选择Alignment Parameters,再选择Pairwise Alignment Parameters,如Figure 3，首先可以选择比对的效果，是slow/accurate 还是fast/approximate。

Clustalx的中文使用说明书

Clustalx的中文使用说明书
生物
用ClustalX做多序列比对分析图示
1、打开程序如下图所示：
2、Load Sequnce, 载入序列如下图所示：
3、选择序列文件,FASTA格式的如下图所示：
4、用文本编辑器察看FASTA序列文件内容,这里用的是记事本,推荐用EditPlus或者Ultraedit 如下图所示：
5、序列Load进去之后如下图所示：
6、Do Complete Alignment, 通常情况下直接选这个即可,无须修改比对参数如下图所示：
7、点Do Complete Alignment之后弹出的文件对话框,.dnd的是输出的指导树文件,.aln 的是序列比对结果,它们都是纯文本文件如下图所示：
点“ALIGN”之后开始等待,如果序列不多,很快就可以算完,如果数据很多,可能要等一段时间,这时候可以用眼睛盯着ClustalX的状态栏,那里会有程序运行状态和现在正在比对那两条序列的提示信息,看看可以消磨时间。

8、比对结束之后,我们可以看到这个结果如下图所示：
9、这时候我们可以发现ClustalX已经生成了.dnd和.aln两个文件,仍然用文本编辑器打开来看,这时.aln文件,这个文件可以用Mega2做进一步的bootstrap进化树分析如下图所示：
10、这是.dnd文件(指导树) 如下图所示：
11、可以用Treeview打开dnd文件,看上去就像这样子如下图所示
图3-15 ClustalX所识别的文件输入格式。

Clustalx 多重序列比对图解教程(图解使用)

Clustalx 多重序列比对图解教程(By Raindy)本帖首发于Raindy'blog,转载请保留作者信息，谢谢！欢迎有写生物学软件专长的战友，加入生信教程写作群：，接头暗号：你所擅长的生物学软件名称软件简介:CLUSTALX－是CLUSTAL多重序列比对程序的Windows版本。

Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。

序列将显示屏幕的窗口中。

采用多色彩的模式可以在比对中加亮保守区的特征。

窗口上面的下拉菜单可让你选择传统多重比对和轮廓比对需要的所有选项。

主要功能：你可以剪切、粘贴序列以更改比对的顺序；你可以选择序列子集进行比对；你可以选择比对的子排列(Sub-range)进行重新比对并可插入到原始比对中；可执行比对质量分析，低分值片段或异常残基将以高亮显示。

当前版本:1.83PS:如果你是新手或喜欢中文界面,推荐使用本人汉化的Clustalx 1.81版链接地址::ist&ID=7435(请完整复制)应用:Clustalx比对结果是构建系统发育树的前提实例：植物呼肠孤病毒属外层衣壳蛋白P8(AA序列)为例流程：载入序列―>编辑序列―>设置参数―>完全比对―>比对结果1.载入序列：运行ClustalX，主界面窗口如下所图（图1），依次在程序上方的菜单栏选择“File”－“Load Sequence”载入待比对的序列，如图2所示，如果当前已载入序列，此时会提示是否替换现有序列(Replace existing sequences)，根据具体情形选择操作。

图1图22.编辑序列：对标尺(Ruler)上方的序列进行编辑操作，主要有Cut sequences(剪切序列)、Paste sequences(粘贴)、Select All sequences(选定所有序列)，Clear sequence Selection(清除序列选定)、Search for string(搜索字串)、Remove All gaps(移除序列空位)、Remove Gap-Only Columns(仅移除选定序列的空位)图33.参数设置：可以根据分析要求设置相对的比对参数。

JModeltest使用说明

工具：JModeltest下载地址：http://darwin.uvigo.es/补充工具：Clustalx下载地址：/1.使用Clustalx 工具进行多序列比对，将结果存储为FASTA 格式2.Clustalx 工具是一种多序列比对工具。

本次实验我使用的是2.0.12 版本，和以前的输出格式相比，又多了一种新的输出格式——FASTA 格式，这个格式是将比对结果中的gap 用“- ”替换，然后存储成一般的序列格式，这个格式对接下去JModeltest 的使用十分重要。

一般情况下FASTA 格式并不是默认的输出格式，需要在设置中添加。

首先，打开Clustalx, 再选择Alignment -> Output Format Options ，在弹出的对话框中将FASTA format 打上勾即可。

另外，Jmodeltest 也可以使用NEXUS 格式。

下面是一个例子，假设有两条序列（虽然是个多序列比对工具，还是举个两条序列的简单例子比较容易理解）：>P1ATGGGGTTTAGA TAA>P2ATGTTTAGTTAA比对之后存储的FASTA 结果应该是：>P1ATGGGGTTTAGA TAA>P2- - - ATGTTTAGTTAA注意事项：A. 输出时记得要对输出的文件名进行修改，否则会把原来的文件替换掉；B. 进行比对时，比对文件必须放在纯英文的路径下，否则软件无法读取；2. JModeltest 的使用：JModeltest 下载下来后不需要再安装，直接运行即可。

使用起来也简单易懂。

首先，点击File -> Load DNA alignment ，读取比对结果的FASTA 格式文件文件，之后选择需要进行测试的模型，点击Analysis -> Compute likelihood scores ，弹出对话框：对话框提供了4 种不同模式进行计算，每种模式包含的模型具体如下：3 schemes: JC, HKY and GTR.5 schemes: JC, HKY, TN, TPM1, and GTR.7 schemes: JC, HKY, TN, TPM1, TIM1, TVM and GTR.11 schemes: JC, HKY, TN, TPM1, TPM2, TPM3, TIM1, TIM2, TIM3, TVM and GTR.选择好这后就可以点击开始计算。

【软件使用】clustalX2使用以及相关的问题

【软件使⽤】clustalX2使⽤以及相关的问题Clustalx的操作第⼀步：输⼊序列⽂件。

第⼆步：设定⽐对的⼀些参数。

参数设定窗⼝。

第三步：开始序列⽐对。

第四步：⽐对完成，选择保存结果⽂件的格式相关问题CLUSTALX－是CLUSTAL多重序列⽐对程序的Windows版本。

Clustal X为进⾏多重序列和轮廓⽐对和分析结果提供⼀个整体的环境。

这⾥总结⼀下在使⽤做序列⽐对过程中⼀些常见的问题~1，从⽹上看来说CLUSTALX软件使⽤的时候，开始要输⼊FASTA格式准备的DNA序列test.seq⽂件。

请问这种⽂件怎么⽣成啊?记事本?其实没有规定的⽂件名，不⼀定是叫test.seq，任何你想要的都可以，除了中⽂名（下⾯会说明）。

主要⾥⾯的内容是正确的格式就⾏了~。

Clustal⽀持的格式有多种，如NBRF/PIR, EMBL/SWISSPROT, Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), GCG9/RSF and GDE 等2，什么使⽤时，总是导⼊不了序列，出现 ERROR:Can not open output file??这个问题挺多⼈碰到过的~这是因为你导⼊的⽂件的路径包含有中⽂名。

把⽂件放在其它地⽅看看。

最好路径也不要有空格了。

当然前提是你的格式要正确了。

这个问题同样适⽤于ClustalW或其它dos类的软件3，ClustalX⽐对后的结果中.aln⽂件是什么？这个是序列⽐对结果的⽂件。

关于这部分，你可以看4，ClustalX⽐对后的结果中.dnd⽂件是什么？。

Clustal多重序列比对图解教程图解使用

C l u s t a l x多重序列比对图解教程(B y R a i n d y) 本帖首发于Raindy'blog软件简介:CLUSTALX－是CLUSTAL多重序列比对程序的Windows版本。

ClustalX为进行多重序列和轮廓比对和分析结果提供一个整体的环境。

序列将显示屏幕的窗口中。

采用多色彩的模式可以在比对中加亮保守区的特征。

窗口上面的下拉菜单可让你选择传统多重比对和轮廓比对需要的所有选项。

当前版本:1.83PS:如果你是新手或喜欢中文界面,推荐使用本人汉化的Clustalx1.81版链接地址:ist&ID=7435(请完整复制)应用:Clustalx比对结果是构建系统发育树的前提实例：植物呼肠孤病毒属外层衣壳蛋白P8(AA序列)为例流程：载入序列―>编辑序列―>设置参数―>完全比对―>比对结果1.载入序列：运行ClustalX，主界面窗口如下所图（图1），依次在程序上方的菜单栏选择“File”－“LoadSequence”载入待比对的序列，如图2所示，如果当前已载入序列，此时会提示是否替换现有序列(Replaceexistingsequences)，根据具体情形选择操作。

图1图22.编辑序列：对标尺(Ruler)上方的序列进行编辑操作，主要有Cutsequences(剪切序列)、Pastesequences(粘贴)、SelectAllsequences(选定所有序列)，ClearsequenceSelection(清除序列选定)、Searchforstring(搜索字串)、RemoveAllgaps(移除序列空位)、RemoveGap-OnlyColumns(仅移除选定序列的空位)图33.参数设置：可以根据分析要求设置相对的比对参数。

Clustalx 的实例操作1(1)

距离依靠法是指迚化树的拓扑形状由两两序列的迚化距离决定的。迚化树枝条的长度代表着迚化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。
将clustal比对结果.ALN 文件转换
将比对好的ALN文件转换成meg格式
转换好的meg格式，会弹出提示信息，点击ok
保存前无效字符要删除
点存盘保存meg文件，meg文件会和aln文件保存在同一个目录。
关闭转换窗口，回到主窗口，现在点面板上的 “Click me to activate a data file”
Clustalx 的实例操作
蛋白质序列分析二班陈雯 2010602128
Why to use it ？

在寻找基因和致力于収现新蛋白的努力中，人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能，丌管它们是双重比对还是多序列比对，都可以回答大量的其它的生物学问题。丼例来说，面对一堆搜集的比对序列，人们会研究隐含于蛋白之中的系统収生的关系，以便于更好地理解蛋白的迚化。人们并丌只是着眼于某一个蛋白，而是研究一个家族中的相关蛋白，看看迚化压力和生物秩序如何结合起来创造出新的具有虽然丌同但是功能相关的蛋白。研究完多序列比对中的高度保守区域，我们可以对蛋白质的整个结构迚行预测，并且猜测这些保守区域对于维持三维结构的重要性。
原始树
数字表示该树枝可信度的百分比
迚化树的优化：
得到丌同树形
对迚化树迚行优化

Clustalx多重序列比对现用图解教程(现用图解使用)

Clustalx 多重序列比对图解教程(By Raindy)本帖首发于Raindy'blog,转载请保留作者信息，谢谢！欢迎有写生物学软件专长的战友，加入生信教程写作群：13559330，接头暗号：你所擅长的生物学软件名称软件简介:CLUSTALX－是CLUSTAL多重序列比对程序的Windows版本。

Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。

序列将显示屏幕的窗口中。

采用多色彩的模式可以在比对中加亮保守区的特征。

窗口上面的下拉菜单可让你选择传统多重比对和轮廓比对需要的所有选项。

当前版本:1.83PS:如果你是新手或喜欢中文界面,推荐使用本人汉化的Clustalx 1.81版链接地址:/index.php?Go=Show:ist&ID=7435 (请完整复制)应用:Clustalx比对结果是构建系统发育树的前提实例：植物呼肠孤病毒属外层衣壳蛋白P8(AA序列)为例流程：载入序列―>编辑序列―>设置参数―>完全比对―>比对结果1.载入序列：运行ClustalX，主界面窗口如下所图（图1），依次在程序上方的菜单栏选择“File”－“Load Sequence”载入待比对的序列，如图2所示，如果当前已载入序列，此时会提示是否替换现有序列(Replace existing sequences)，根据具体情形选择操作。

clustalx中文说明

ClustalX Help可以在下列地址得到 ClustalX 的最新版本:ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalX/General help for CLUSTAL X (1.8)Clustal X 是一个windows 界面多序列对比程序。

可以用剪切和粘贴的方法改变对比的顺序；可以在比对中选择较小的区域重新比对，并将比对的结果插回到原来的比对结果中。

能够进行比对质量评定，低分片断和多余的残基将突出显示。

序列输入序列和轮廓（已经存在的比对）利用菜单文件输入，所有的序列必须放到一个文件中，7种序列可以被自动识别： NBRF/PIR, EMBL/SWISSPROT, Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), 除用于表示间隙的"-" 例外 ("." in MSF/RSF)，所有的非字母字符将被忽略。

序列和轮廓比对Clustal X 有两种比对格式: 多重比对格式和轮廓比对格式。

做一系列序列的多重比对时要保证选择多重比对模式，然后展示单一序列数据。

比对菜单既可以产生比对的指导树又可根据指导树进行比对，还可以做全多重比对。

在轮廓比对模式下，出现两个序列数据区，允许对两个比对结果进行比对。

轮廓允许添加新序列到旧的比对中，或者应用二级结构指导比对进程。

旧比对中的间隙用 "-"表示。

轮廓可以用以下任何一种格式输入，只有用 "-" (or "." for MSF/RSF) 代表每一个间隙位置。

在轮廓比对状态下， "Lock Scroll"按钮 is displayed which allows you to scroll the two profiles together using a single scroll bar. When the Lock Scroll is turned off, the two profiles can be scrolled independently.进化树进化树可以从旧的比对或新比对中产生。

clustalx多序列比对结果建树

clustalx多序列比对结果建树
在ClustalX中进行多序列比对后，可以使用其提供的建树工
具将比对结果转化为树状结构。

以下是使用ClustalX建树的
步骤：
1. 打开ClustalX软件，点击"File"，选择"Open Alignment"，选择之前进行多序列比对的文件。

2. 点击"Tree"，选择"Build Tree"，进入建树参数设置界面。

3. 在参数设置界面中，可以选择不同的建树方法，如
Neighbor-Joining、UPGMA等。

可以根据需要选择合适的方法。

4. 设置完参数后，点击"OK"开始建树过程。

5. 建树完成后，可以在软件界面的右侧窗口中查看树状结构。

可以通过点击树状图上的节点来展开或折叠子树。

需要注意的是，ClustalX建树功能只是提供了一种简单的可视
化方法，用于初步了解序列的进化关系。

如果需要更加精确的进化关系推断，可以考虑使用其他更专业的建树软件如PhyML、PAUP*等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一步：输入序列文件。
第二步：设定比对的一些参数。
参数设定窗口。
第三步：开始序列比对。
第四步：比对完成，选择保存结果文件的格式
在线的clustalw分析
1.EBI提供的在线clustalw服务
/clustalw/
2.我们构建的在线clustalw服务
• 使用clustalx程序，对给定的多序列，选择合适的参数，进行多序列比对，输出结果文件维phylip格式。 • 相同的文件，使用ebi和我们提供的在线服务，进行多序列比对。
• 对上述计算机程序比对的结果进行手工改动（bioedit，seaview），使得多序列比对结果跟符合要求。
1.同步法将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大，对于计算机系统的资源要求比较高，一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。
自动多序列比对的算法
2.其基本思想就是基于相似序列通常具有进化相关性的这一假设。
Clustalx的工作界面（多序列比对模式）
Clustalx的工作界面（剖面(profile)比对模式）
Clustal的工作原理
Clustal输入多个序列快速的序列两两比对，计算序列间的距离，获得一个距离矩阵。邻接法(NJ)构建一个树（引导树）根据引导树，渐进比对多个序列。
Clustal的应用
/biopro/clustalw.html
EBI提供
的在线
Clustalw
服务
更为详细的教程
可以在这里得到更多关于clustal的帮助：
trasbg.fr/BioInfo/ClustalX/Top.html
实际操作
多序列比对的方法
基本上多序列比对可以分为 1.手工比对（辅助编辑软件如bioedit， seaview，Genedoc等）
通过辅助软件的不同颜色显示不同残基，靠分析者的观察来改变比对的状态。
2.计算机程序自动比对
通过特定的算法（如同步法，渐进法等），由计算机程序自动搜索最佳的多序列比对状态。
自动多序列比对的算法
多序列比对工具－clustalX
Clustal是一个单机版的基于渐进比对的多序列比对工具，由Higgins D.G. 等开发。有应用于多种操作系统平台的版本，包括 linux版，DOS版的clustlw，windows版本的clustalx等。
Clustal简介
• CLUSTAL是一种渐进的比对方法，先将多个序列两两比对构建距离矩阵，反应序列之间两两关系；然后根据距离矩阵计算产生系统进化指导树，对关系密切的序列进行加权；然后从最紧密的两条序列开始，逐步引入临近的序列并不断重新构建比对，直到所有序列都被加入为止。
多序列比对的意义
• 用于描述一组序列之间的相似性关系，以便了解一个基因家族的基本特征，寻找motif，保守区域等。 • 用于描述一个同源基因之间的亲缘关系的远近，应用到分子进化分析中。 • 其他应用，如构建profile，打分矩阵等。
多序列比对的方法
• 同源性分析中常常要通过多序列比对来找出序列之间的相互关系，和blast的局部匹配搜索不同，多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程，特别是序列数目多，且序列长的情况下。
1.输入输出格式。
输入序列的格式比较灵活，可以是前面介绍过的 FASTA格式，还可以是PIR、SWISS-PROT、 GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择，有ALN、GCG、PHYLIP 和NEXUS等，用户可以根据自己的需要选择合适的输出格式。
Clustal的应用
Clustal的渐进比对过程
在比对过程中，先对所有的序列进行两两比对并计算它们相似性分值，然后根据相似性分值将它们分成若干组，并在每组之间进行比对，计算相似性分值。根据相似性分值继续分组比对，直到得到最终比对结果。在比对过程中，相似性程度较高的序列先进行比对而距离较远的序列添加在后面。
多序列比对的原理以及 clustal在多序列比对中的应用
内容提要
• • • • • 多序列比对的意义多序列比对的方法自动多序列比对的算法 Clustalx的使用（clustal法）实例分析
序列相似性比较和序列同源性分析
序列相似性比较：就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；
2.两种工作模式。
a.多序列比对模式。
b.剖面(profile)比对模式。
3.一个实际的例子。
多序列比对实例
输入文件的格式(fasta)： >KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN…… >DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK……. >KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN…… >DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD…… >1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……