Clustalx_实验指南(一步一步很详细)
生物信息学大实验_实验指导

实验1基因组序列组装(软件CAP3的使用)一、实验目的1.了解基因组测序原理和主要策略;2.掌握CAP3序列组装软件的使用方法。
二、实验原理基因组测序常用的两种策略是克隆法(clone-based strategy)和全基因组鸟枪法(whole genome shotgun method)。
克隆法先将基因组DNA打成大的片段,连到载体上,构建DNA文库;再对每一个大片段(克隆)打碎测序。
序列组装时先组装成克隆,再组装成染色体。
克隆测序法的好处在于序列组装时可以利用已经定位的大片段克隆, 所以序列组装起来较容易, 但是需要前期建立基因组物理图谱, 耗资大, 测序周期长。
全基因组鸟枪法测序无需构建各类复杂的物理图谱和遗传图谱,采用最经济有效的实验设计方案,直接将整个基因组打成不同大小的DNA片段构建Shotgun文库,再用传统Sanger测序法或Solexa等新一代测序技术对文库进行随机测序。
最后运用生物信息学方法将测序片段拼接成全基因组序列。
该方法具有高通量、低成本优势。
序列组装时,先把把单条序列(read)组装成叠连群(contig)、再把叠连群组装成“支架”(scaffold),最后组装成染色体。
本实验将练习在Linux环境下用CAP3软件组装流感病毒基因组。
1.CAP3序列组装程序简介Huang Xiaoqiu. 和 Madan,A. 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征:1. 应用正反向信息更正拼接错误、连接contigs。
2. 在序列拼接中应用 reads 的质量信息。
3. 自动截去 reads5`端、3`端的低质量区。
4. 产生 Consed 程序可读的ace 格式拼接结果文件。
5. CAP3 能用于Staden软件包的中的GAP4 软件。
2.下载此软件可以免费下载,下载地址:http:///download.html。
填写基本信息表格,即可下载。
基础工具-Clustalx用法

基础工具-Clustalx用法下载地址:/Clustal是一种利用渐近法(progressive alignment)进行多条序列比对的软件。
即先将多个序列两两比较构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树;然后从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在引导树上的位置,由近及远的逐步引入其它序列重新构建比对,直到所有序列都被加入形成最终的比对结果为止(Figure 1)。
Figure 1 clustal 算法Clustal软件有两个版本,其中clustalw采用命令行的形式在DOS/Linux下运行的,Clustalx是可视化界面的程序,可在window 电脑运行,我们今天学习Clustalx的使用。
1 安装clustalx下载clustalx软件,按照默认安装到自己的电脑上。
2 准备要比对的序列将上节课搜索到的同源核酸fasta文件,全部粘贴到一个文本文件中,所有的蛋白质序列存入另一个文本文件。
TIP:可以在fasta序列“>”之后加上物种名称,加空位,方便看树时了解进化关系。
3 载入序列点击开始-程序-clustalX2-clustalX2。
点主菜单File,选择Load Sequence-选择刚保存的序列文件,点打开。
注意:ClustalX程序无法识别汉字、带空位的文件夹名,如my document。
不要将序列文件保存在桌面上或带汉字的文件夹中,推荐保存在D盘根目录下。
载入序列后在左侧窗口里是fasta格式序列的标识号,取自序列第一行“>”后的字符。
(Figure 2)TIP:如果每条序列单独保存为一个文件,可以使用File-Append sequence选项将序列一条条添加进来。
Figure 2 载入序列4 比对参数的设置比对前先要设置两条序列比对的参数和多条序列比对的参数。
a.两条序列比对的参数点击Alilgnment菜单,选择Alignment Parameters,再选择Pairwise Alignment Parameters,如Figure 3,首先可以选择比对的效果,是slow/accurate 还是fast/approximate。
序列比对-Dotplot和Clustalx

实习二:序列比对-Dotplot和Clustalx一、实习目的:(1)掌握利用点阵法进行两条序列比对(2)学会使用Clustalx软件进行多条序列比对二、实习内容:(一)Dotplot点阵法是非常简单、直观的一种两条序列比对的方法,它能展示出两条序列所有可能配对的区域,由研究者决定最有意义或自己感兴趣的区域。
通过点阵法还可以对序列自身进行比对,寻找序列内部的正向或反向重复区域或互补区域。
正向重复为与主对角线平行的折线区域,而反向重复为与主对角线垂直的折线区域。
/molkit/dnadot/主要设置:窗口大小(Window Size):即在两条序列中同时比较的字符串的长度。
此软件要求窗口大小必须为奇数。
错配限制(Mismatch Limit):在给定窗口里,允许错配的数目。
如果错配数量小于等于此数目,则在图上标记点,否则,不做标记。
窗口大小越小,图上出现的点的数目越多,反之越小。
错配限制越小,图上出现的点越少,反之越小。
尝试改变这两个参数,体会其对比对结果的影响。
主要作用:1.通过序列自身比对,寻找其重复和反向重复区域。
2.查找同源序列,在entrez或srs系统,查寻不同物种中的同源序列再进行Dotplot分析。
(二)ClustalXClustal是一种利用渐近法(progressive alignment)进行多条序列比对的软件。
即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。
Clustalx比对结果是构建系统发育树的前提。
运用流程:载入序列―>编辑序列―>设置参数―>完全比对―>比对结果三、作业1、简要说明你如何搜索不同物种的同源序列,并解释这些序列进行dotplot分析得到的结果。
答:主要有以下几个步骤:1)、首先进入entrez或srs系统,我选择的是entrez系统。
2)、点击,进入界面。
Clustalx的中文使用说明书

Clustalx的中文使用说明书
生物
用ClustalX做多序列比对分析图示
1、打开程序如下图所示:
2、Load Sequnce, 载入序列如下图所示:
3、选择序列文件,FASTA格式的如下图所示:
4、用文本编辑器察看FASTA序列文件内容,这里用的是记事本,推荐用EditPlus或者Ultraedit 如下图所示:
5、序列Load进去之后如下图所示:
6、Do Complete Alignment, 通常情况下直接选这个即可,无须修改比对参数如下图所示:
7、点Do Complete Alignment之后弹出的文件对话框,.dnd的是输出的指导树文件,.aln 的是序列比对结果,它们都是纯文本文件如下图所示:
点“ALIGN”之后开始等待,如果序列不多,很快就可以算完,如果数据很多,可能要等一段时间,这时候可以用眼睛盯着ClustalX的状态栏,那里会有程序运行状态和现在正在比对那两条序列的提示信息,看看可以消磨时间。
8、比对结束之后,我们可以看到这个结果如下图所示:
9、这时候我们可以发现ClustalX已经生成了.dnd和.aln两个文件,仍然用文本编辑器打开来看,这时.aln文件,这个文件可以用Mega2做进一步的bootstrap进化树分析如下图所示:
10、这是.dnd文件(指导树) 如下图所示:
11、可以用Treeview打开dnd文件,看上去就像这样子如下图所示
图3-15 ClustalX所识别的文件输入格式。
ClustalX使用方法解读

第一步:输入序列文件。
第二步:设定比对的一些参数。
参数设定窗口。
第三步:开始序列比对。
第四步:比对完成,选择保存结果文件的格式
在线的clustalw分析
1.EBI提供的在线clustalw服务
/clustalw/
2.我们构建的在线clustalw服务
• 使用clustalx程序,对给定的多序列, 选择合适的参数,进行多序列比对,输 出结果文件维phylip格式。 • 相同的文件,使用ebi和我们提供的在线 服务,进行多序列比对。
• 对上述计算机程序比对的结果进行手工 改动(bioedit,seaview),使得多序 列比对结果跟符合要求。
1.同步法 将序列两两比对时的二维动态规划矩 阵扩展到三维矩阵。即用矩阵的维数来 反映比对的序列数目。这种方法的计算 量很大,对于计算机系统的资源要求比 较高,一般只有在进行少数的较短的序 列的比对的时候才会用到这个方法。
自动多序列比对的算法
2.其基本思想就是基于相似序列通常具 有进化相关性的这一假设。
Clustalx的工作界面 (多序列比对模式)
Clustalx的工作界面 (剖面(profile)比对模式)
Clustal的工作原理
Clustal输入多个序列 快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。 邻接法(NJ)构建一个树(引导树) 根据引导树,渐进比对多个序列。
Clustal的应用
/biopro/clustalw.html
EBI提供
的在线
Clustalw
服务
更为详细的教程
可以在这里得到更多关于clustal的帮助:
trasbg.fr/BioInfo/ClustalX/Top.html
clustalx的应用

利用clustalx 2.1对蛋白进行多序列比对目录1. 方法介绍1.1概念1.2理论基础1.3任务1.4目的2研究内容3. 工具3.1 clustalx简介3.2 clustalx 后台运作流程3.3 clustalx的下载3.4 clustalx菜单设置4.操作步骤4.1获取目标序列4.2执行比对4.3 treeview软件制作进化树5. 结果分析正文1. 方法介绍:多序列比对1.1 概念:多序列比对即通过多个核苷酸或氨基酸的序列进行比较,确定序列之间可能由于功能、结构或进化上的关联而形成的相似片段。
1.2 理论基础:1)生物学一个最基本的假设是地球上所有物种都有共同的祖先,从这个祖先开始以树状形式发展,通常称为生命之树。
2)基于序列比对的同源即具有共同祖先。
同源序列一般相似;相似可以用百分比来描述。
序列不一定是同源的,相似序列在进化上具有趋同性。
序列决定结构,结构决定功能。
3)现有的基因、蛋白质等携带生物学信息、具有生物学功能的分子都是由原有的分子演化而来;现有的基因及其他核酸序列,都是由已经存在的基因或其他序列经过复制、转移、合并、删减等方式形成的;不同物种的基因、蛋白质在结构、序列上的相似性与其进化上亲缘关系密切相关。
1.3 任务:发现序列之间的相似性,找出序列之间共同的区域,辨别序列之间的差异。
1.4 目的:通过“相似序列→相似的结构→相似的功能“来判别序列之间的同源性,进而推测序列之间的进化关系。
2. 研究内容:通过对人类、家鼠、大鼠和鸡体内BMP-2(bone morphogeneticprotein 2)即骨形态发生蛋白2的多序列比对得到的dnd结果文件来揭示在四种生物中的该蛋白的同源性。
3. 工具:clustalx 2.13.1 clustalx简介:Clustal是用来对核酸与蛋白序列进行多序列比对的软件,可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子进化分析方面均有很大帮助。
【软件使用】clustalX2使用以及相关的问题

【软件使⽤】clustalX2使⽤以及相关的问题Clustalx的操作第⼀步:输⼊序列⽂件。
第⼆步:设定⽐对的⼀些参数。
参数设定窗⼝。
第三步:开始序列⽐对。
第四步:⽐对完成,选择保存结果⽂件的格式相关问题CLUSTALX-是CLUSTAL多重序列⽐对程序的Windows版本。
Clustal X为进⾏多重序列和轮廓⽐对和分析结果提供⼀个整体的环境。
这⾥总结⼀下在使⽤做序列⽐对过程中⼀些常见的问题~1,从⽹上看来说CLUSTALX软件使⽤的时候,开始要输⼊FASTA格式准备的DNA序列test.seq⽂件。
请问这种⽂件怎么⽣成啊?记事本?其实没有规定的⽂件名,不⼀定是叫test.seq,任何你想要的都可以,除了中⽂名(下⾯会说明)。
主要⾥⾯的内容是正确的格式就⾏了~。
Clustal⽀持的格式有多种,如NBRF/PIR, EMBL/SWISSPROT, Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), GCG9/RSF and GDE 等2,什么使⽤时,总是导⼊不了序列,出现 ERROR:Can not open output file??这个问题挺多⼈碰到过的~这是因为你导⼊的⽂件的路径包含有中⽂名。
把⽂件放在其它地⽅看看。
最好路径也不要有空格了。
当然前提是你的格式要正确了。
这个问题同样适⽤于ClustalW或其它dos类的软件3,ClustalX⽐对后的结果中.aln⽂件是什么?这个是序列⽐对结果的⽂件。
关于这部分,你可以看4,ClustalX⽐对后的结果中.dnd⽂件是什么?。
BioEdit和Clustalx进行序列比对步骤

1、将要进行序列比对的信息保存为.txt文本文档类型(如11.txt和21.txt)
2、打开BioEdit,选择“New Alignment”图1,在file下拉菜单中选择”import”→“sequence
alignment file”图2选择刚才新建的两个或多个文本,点击保存,保存类型为“Fasta”
生成文件名为.fas。
图1
图2
3、打开Clustalx软件,选择“文件”→“载入序列”,打开刚才保存的文件(注意,该文
件应该与ClustalX在同一文件夹中),选择“序列比对”→“完全序列比对”,这时会生成两个文件,.aln和.dnd文件,其中.aln为序列比对文件,而.dnd为树文件。
打开BioEdit软件,选择选择“New Alignment”,在file下拉菜单中选择”import”→“sequence alignment file”找到刚才生成的.aln文件打。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验三:多条序列比对——Clustalx
(一)ClustalX
Clustal是一种利用渐近法(progressive alignment)进行多条序列比对的软件。
即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。
(Figure 3.1)
/
1.安装clustalx程序。
双击安装clustalx-2.0.12-win.msi.exe文件到自己的电脑上。
也可从/download/current/下载,列表中的倒数第二个文件。
clustalx-2.0.12-win.msi
Figure 3.1 clustal 算法
2.准备要比对的序列
请查找至少存在于5个物种中的同源序列(核酸或蛋白质皆可),并保存为fasta格式,存为文本文件(所有的序列请粘贴到同一个文本文件中)。
选择NM、XM或NP打头的序列,不要选择NC或NW打头的序列,那是全基因组序列。
做法可参照邮箱中的preparations for practice3.doc文件。
3.打开clustalX程序
开始菜单-程序-clustalX2- clustalX2
4.载入序列
点最上方的File菜单,选择Load Sequence-选择你刚保存的序列文件,点打开。
在左侧窗口里是fasta格式序列的标识号,取自序列第一行“>”后的字符。
(Figure 3.2) 注意:ClustalX程序无法识别汉字,无法识别带空位的文件夹名,如 my document。
各位同学保存的序列文件不要保存在桌面上或带汉字的文件夹中,推荐保存在D盘根目录下。
常见文件打开错误原因:
1.序列格式有问题,非正确的fasta格式。
2.文件中有序列重复粘贴。
TIPS: 想要方便识别序列所属物种,可在每条序列“>”后输入物种名,加空位即可。
EXAMPLE:原格式:>gi|262050536|ref|NM_002218.4| Homo sapiens inter-alpha (globulin) inhibitor H4 (plasma Kallikrein-sensitive glycoprotein) (ITIH4), transcript variant 1, mRNA
改为:>human gi|262050536|ref|NM_002218.4| Homo sapiens inter-alpha (globulin) inhibitor H4 (plasma Kallikrein-sensitive glycoprotein) (ITIH4), transcript variant 1, mRNA
Figure 3.2 载入序列
5.比对参数的选择
可以对两条序列比对的参数和多条序列比对的参数进行设置。
a.两条序列比对的参数设置
点击Alilgnment菜单,选择Alignment Parameters,再选择Pairwise Alignment Parameters,得到Figure 3.3.首先可以选择比对的效果,是slow/accurate 还是fast/approximate。
第一种模式采用的是动态规划算法进行比对的,第二种模式采用的是启发式的算法。
除非序列非常长,一般采用第一种模式。
可以选择空位罚分系统,要使用的DNA或蛋白质替换矩阵,也可以自己上传某个替换矩阵进行比对。
Figure 3.3 Pairwise Alignment Parameters
b.多条序列比对参数设置
点击Alilgnment菜单,选择Alignment Parameters,再选择Multiple Alignment Parameters,得到Figure 3.4.
Figure 3.4 Multiple Alignment Parameters
Delay divergent sequence是指当两条序列的差异大于某个值(百分比)的时候,这两条序列的比对将推迟进行,它们的比对结果会在最后加入到最终的多条序列比对结果。
DNA
transition Weight等于0的时候,程序将转换(transition)当作错配(mismatch)看待,等于1的时候,将转换(transition)当作颠换(transversion)看待。
当参与比对的序列差异较大时,DNA transition Weight应该选择的小些(接近0),如果参与比对的序列差异较小时,DNA transition Weight可选择的大些(接近1)。
6.更改输出格式
点击Alignment菜单,选择Output Format Options,页面如Figure 3.5 。
默认的是输出clustal format,如果需要其它格式,可在复选框里打勾。
PHYLIP格式是利用PHYLIP软件进行建树时,需要输入的格式,我们将在实验6系统发育树构建中用到。
Figure 3.5 输出格式选项
7.进行比对
点击Aliglnment菜单,选择Do Complete Alignment.此时出现一个对话框,提示你比对结果保存的位置,你在上一步选择了多少种输出格式,这里就会给出多少个文件的路径。
选择好了点OK即可。
要得到理想的比对结果,你可能需要选择不同的参数,进行多次比对,最后再对各种比对结果进行分析,选择哪个是最合理的结果(the result making biological sense)。
比对结束后生成的aln文件是多条序列比对的结果,可以用记事本打开浏览(Figure 3.6)。
在某一列比对结果下方如果出现*,说明这列是完全匹配。
dnd文件是比对过程中生成的进化树,可以用treeview(压缩包中的treev32.rar文件)打开浏览(Figure 3.7)。
Figure 3.6 记事本打开生成的aln文件
Figure 3.7 Treeview打开dnd文件
8.迭代比对
如果序列比对结果不理想,可以采用迭代选项,多次迭代寻找最佳比对结果。
点击Alignment菜单,选择iteration,选择iterate each alignment step或iterate final alignment.
然后再点击Aliglnment菜单,选择Do Complete Alignment进行比对。
9.概型(Profile)比对模式
以上介绍的都是Multiple alignment Mode,ClustalX还提供了一个概型比对模式,在菜单栏下方选择Profile Alignment Mode,可以对两个比对结果(alignment, termed profile here)进行再比对,或将一条序列与一个比对结果(profile)进行比对。
(Figure 3.8)还
可以利用二级结构信息指导多条序列比对。
Figure 3.8 Profile Alignment Mode
(二)Treeview
Clustalx产生的guide tree(即后缀为dnd文件),可以通过treeview软件浏览。
解压缩并安装treev32.rar文件。
双击后缀为dnd文件,选择treeview程序打开即可。
其它不详之处请参考clustalx_help.html或clustalx.pdf两个文件。
作业:
1.Clustalx是多条序列比对软件,为什么需要设置两条序列比对的参数?
2.利用entrez或srs搜索来自于不同物种的同源序列(othologs),利用clustalX进行比对,
给出所选序列简要信息(fasta格式第一行),比对所用的参数,比对过程中产生的guide
tree(dnd文件),并分析比对结果(序列之间相似度关系,保守位点所在位置等)。