实验3 两条序列比对与多序列比对

合集下载

实验3 两条序列比对与多序列比对

实验三：两条序列比对与多序列比对实验目的：学会使用MegAlign，ClustalX和MUSCLE进行两条序列和多条序列比对分析实验内容：双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式。

两条序列比对是生物信息学最基础的研究手段。

第一次实验我们用dotplot方法直观地认识了两条序列比对。

但是dotplot仅仅是展示了两条序列中所有可能的配对，并不是真正意义上的序列比对。

这里介绍进行两条序列比对的软件-MegAlign。

多序列比对是将多条序列同时比对，使尽可能多的相同（或相似）字符出现在同一列中。

多序列比对的目标是发现多条序列的共性。

如果说序列两两比对主要用于建立两条序列的同源关系，从而推测它们的结构和功能，那么，同时比对多条序列对于研究分子结构、功能及进化关系更为有用。

多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。

我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。

一、MegAlignDNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件，它包含了7个模块。

其中MegAlign可进行两条或多条序列比对分析。

1. 两条序列比对1.1 安装程序解压DNASTAR Lasergene软件压缩包，双击Lasergene710WinInstall.exe文件，按照默认路径安装软件到自己电脑上。

1.2 载入序列a.点击开始－程序－Lasergene－MegAlign，打开软件。

我们首先用演示序列（demo sequence）学习软件的使用。

演示序列所在位置：C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\。

b. 点击主菜单File—Enter sequence－选择序列所在文件夹，选择序列tethis21.seq和tethis22.seq，点击Add，这两条序列将出现在右侧selected sequences框中（Figure 3.1），选择完毕点击Done回到程序页面。

多序列比对方法

[编辑] 双序列比对双序列比对方法涉及寻找（局部）最优匹配片断或蛋白质（氨基酸）或DNA（核酸）全局比对。
[编辑] 全局比对全局比对是指将参与比对的两条序列里面的所有字符进行比对。全局比对主要被用来寻找关系密切的序列。由于这些序列也都很易通过本地比对方法找到，现在全局比对也有些被认为只是一种技巧。另外，全局比对在应用于分子进化时也有些问题（比如domain shuffling -见下)，这也限制了这种方法的可用性。
发博文
博文搜×索
人-机-地的时空交互
/gistime [订阅] [手机订阅]ຫໍສະໝຸດ 首页博文目录图片关于我
个人资料
Geoinformatics
Qing
微博
正文
字体大小：大中小
序列分析(序列比对) (2012-02-15 18:32:40)
标签：校园分类：工作篇
序列分析是指通过一定的方法确定DNA上核苷酸排列的顺序，包括序列比对。序列分析是分子生物学的重要技术之一。
参考条目 l 序列比对
外部链接 l Sequence analysis - 123 Genomics l Nucleic sequence analysis - 巴斯德研究院
加好友写留言
发纸条加关注
艺术类期刊《金田》编辑部征稿正规期刊论文
材料作文“树根的命运”写作指柳栖士
更多>>
推荐博文
美女大学生激励球队的背后（图）昕薇
全美国实习薪水最高的10家技术北外网院
那年，我的饭香四溢的高三春黛同安
盘点2013加拿大最受学子青睐启德教育集团
【留澳需知】承认高考成绩的12 启德教育集团
【原创】拿下美国大学offer 启德北京

实习四：多序列比对(Multiple alignment)

实习四：多序列比对（Multiple alignment）学号姓名专业年级实验时间提交报告时间实验目的：1. 学会利用MegAlign进行多条序列比对2. 学会使用ClustalX、MUSCLE 和T-COFFEE进行多条序列比对分析3. 学会使用HMMER进行HMM模型构建，数据库搜索和序列比对实验内容：多序列比对是将多条序列同时比对，使尽可能多的相同（或相似）字符出现在同一列中。

多序列比对的目标是发现多条序列的共性。

例如，某些在生物学上有重要意义的相似区域只能通过将多个序列同时比对才能识别。

只有在多序列比之后，才能发现与结构域或功能相关的保守序列片段，而两两序列比对是无法满足这样的要求的。

多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻以及PCR引物设计等具有非常重要的作用。

作业：1.Align the orthologous nucleotide and protein sequences from 5 organisms you found from first practice with MegAlign. Describe the sequences you used (the title of each sequence), explain whether the phylogenetic tree is consistent with the species tree from NCBI taxonomy database. Set the alignment report to show consensus strength and decorate the residues different from consensus with green shade.(Hint: use the taxonomy common tree from NCBI to get the evolutionary relationship among the organisms. Save your organism name in a text file with each organism name in a line, and upload the file, choose Add from file, and you will see the relationship among the specified organisms) /Taxonomy/CommonTree/wwwcmt.cgiHint 2：Change the accession number in your fasta or genPept format sequence file to organism name, so that the phylogenetic tree can be easily understood.方法与结果：打开Megalign，选择FILE下的Enter sequence ，打开之前保存的来自于五个物种的蛋白(或核酸)序列；首先选择打分矩阵，点击“Align”，选择Set residue Weight Table 选择矩阵：PAM100(核酸则设为weighted)，通过“method parameters”查看参数，使用Clustal V的默认值；其次进行序列的比对，选择Align下的“by Clustal V Method”开始比对，再次待其结束后，进行比对结果的显示，选择view下的“Phylogenetic Tree”，显示出树形图；（图）与NCBI上找到的树形图进行对比（图）；接下来点击View 下的“Alignment reports ”，选择OPTIONS下的“Alignment report contents”勾中“show consensus strength”,即在序列中显示出相似性条块；在OPTIONS下选择“New decorations”对decoration parameters 下选“shade—residues differing from—the consensus”把字符选择现实的颜色为绿色，结果显示如下：（图）同法可以得到核酸的树形图：（图）分析：系统发育树与NCBI上的物种树有很大的差异，因为可能这些物种间含有很多同源序列，我们不能单凭几条相似序列的同源关系来判断物种的亲缘关系，而应该考虑到物种更多相似序列的同源关系。

第三章序列两两比对

7
序
言
序列相似（similarity）与序列一致（identity）
序列比对中用到的另一对相关术语是序列相似与序列一致。这两个概念对于核苷酸序列是同义的。而对于蛋白质序列，这两个概念是非常不同的。在蛋白质序列比对中，序列一致是指待比对的两条序列中相同残基匹配的比例；序列相似是指待比对的两条序列中很容易彼此替换具有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。一种方法是用两条序列的全部长度，而另一种是利用较短的序列进行标准化。第一种方法用如下公式计算序列相似度： S=[(Ls*2)/(La+Lb)]*100 其中S是序列相似的百分比，Ls是相似的残基数目，La和Lb分别是两条序列的长度。
3
序
进化基础
言
DNA和蛋白质是进化的产物。它们可以被认为是编码数百万年进化史的分子化石。在进化史上，这些分子经历了随机变化过程，期中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变和交叉，进化的痕迹在序列的某些部分被保留下来从而可以识别它们共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作用的残基倾向于被自然选择所保留；而另一些不起关键作用的残基倾向于频繁的改变。例如，一个酵母家族的活性位点残基倾向于被保存下来是由于它们对催化功能起作用。所以，通过序列比对，保守的和改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不同序列之间的进化关系。反之，序列之间的差别反映了在进化的过程中序列以替换、插入和删除残基的形式发生了变化。
15
序列比对的方法
16
序列比对的方法
17
序列比对的方法
点阵方法
点阵法有许多变形。例如，一条序列可以和它自身比对以识别内部重复元素。在自比对当中会存在一条主对角线以表示其完美匹配。如果内部重复元素存在，会观察到在主对角线的上方或下方有短的对角线。 DNA序列的自补（也叫反向重复），例如那些存在发夹结构的家族，也能用点距阵法识别。在这种情况下，一条DNA序列与它的反向补序列进行比较。平行的对角线代表反向重复。为了比较蛋白质序列，必须使用一个权重系统来描述氨基酸残基的相似度。

多序列比对

的序列，结果不理想。
• 目前应用最广的多序列比对算法。
34 /93
ClustalW2
• （ /Tools/msa/clustalw2 ）目前应用最广的多序列比对工具。 • 3个步骤：
1.) Construct pairwise alignments（构建双序列比对）
0 1 A 0 1 A 1 -2 A 2 T 3 T 3 G 3 -4 C 4 C
x coordinate y coordinate
--
A
T
G
C
•
13 /93
Alignment Paths
• Align 3 sequences: ATGC, AATC,ATGC
0 1 A 0 1 A 0 0 1 -2 A 1 2 T 3 T 2 3 G 3 -3 4 C 4 C 4
之前我们进行的是序列与序列的比对。 Can we align a sequence against a profile?
Can we align a profile against a profile?
Profile和pattern都可以表示多序列比对，哪个更好？
29 /93
Multiple Alignment: 贪婪算法
v1 v2 v3 v4
v1,3 v1,3,4 v1,2,3,4
Calculate: = alignment (v1, v3) = alignment((v1,3),v4) = alignment((v1,3,4),v2)
• 之前进行的是双序列比对
• 如果多个序列进行比对呢？如何进行？
4 /93
Multiple Alignment versus Pairwise Alignment

Clustalx多序列比对-生物信息学

Clustalx多序列比对-生物信息学实验三:多条序列比对——Clustalx实习目的:了解掌握Clustalx软件的应用，学会做多条序列比对并分析。

实习内容:一、ClustalX的使用Clustal是一种利用渐近法(progressive alignment)进行多条序列比对的软件。

即从多条序列中最相似(距离最近)的两条序列开始比对，按照各个序列在进化树上的位置，由近及远的将其它序列依次加入到最终的比对结果。

1. 准备要比对的序列请查找至少存在于5个物种中的同源序列(核酸或蛋白质皆可)，并保存为fasta格式，存为文本文件(所有的序列请粘贴到同一个文本文件中)。

选择NM、XM或NP打头的序列，不要选择NC或NW打头的序列，那是全基因组序列。

建议关键词:hemoglobin，trypsin, peroxidase, p53, Superoxide Dismutase, h5n1, etc.2. 打开clustalX程序开始菜单,程序,clustalX2- clustalX23. 载入序列点最上方的File菜单，选择Load Sequence-选择你刚保存的序列文件，点打开。

”后的字符。

注意:ClustalX程序无法识别汉字，无法识别在左侧窗口里是fasta格式序列的标识号，取自序列第一行“>带空位的文件夹名，如 my document。

各位同学的序列文件不要保存在桌面上或带汉字的文件夹中，推荐保存在D盘根目录下。

4. 比对参数的选择可以对两条序列比对的参数和多条序列比对的参数进行设置。

a. 两条序列比对的参数设置点击Alilgnment菜单，选择Alignment Parameters,再选择Pairwise Alignment Parameters。

首先可以选择比对的效果，是slow/accurate 还是fast/approximate。

第一种模式采用的是动态规划算法进行比对的，第二种模式采用的是启发式的算法。

第四章：双序列比对

Finding k-tups
position 1 2 3 4 5 6 7 8 9 10 11 protein 1 n c s p t a . . . . . protein 2 . . . . . a c s p r k position in offset amino acid protein A protein B pos A - posB ----------------------------------------------------a 6 6 0 c 2 7 -5 k 11 n 1 p 4 9 -5 r 10 s 3 8 -5 t 5 ----------------------------------------------------Note the common offset for the 3 amino acids c,s and p A possible alignment is thus quickly found protein 1 n c s p t a | | | protein 2 a c s p r k
比对的算法
Needleman-Wunsch Smith-Waterman算
算法适用于整体水平上相似性程度较高的 2个序列。是整体比对算法，其结果反映了两个序列中所有残基地整体相似性。
法在识别局部相似性时，具有很高的灵敏度，但只是寻找序列中一些小的、具有局部相似性的片断。
Basic Pairwise Alignment
列片断，称为k-tuple. 用于蛋白质序列比对时，k- tuple长度为1～2个残基，用于DNA序列比对时， k- tuple长度最多为6个碱基。通过比较2个序列中断片断及其相对位置可以构成一个动态规划矩阵地对角线方向上的一些匹配片断期望值E：E值越接近0，表明2序列第匹配不大可能是由随机因素造成的，即E值越低，置信度越高。

实验3两条序列比对与多序列比对

两条序列比对是生物信息学最基础的研究手段。

第一次实验我们用dotplot方法直观地认识了两条序列比对。

但是dotplot仅仅是展示了两条序列中所有可能的配对，并不是真正意义上的序列比对。

这里介绍进行两条序列比对的软件-MegAlign。

多序列比对是将多条序列同时比对，使尽可能多的相同（或相似）字符出现在同一列中。

多序列比对的目标是发现多条序列的共性。

多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。

我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。

一、MegAlignDNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件，它包含了7个模块。

其中MegAlign可进行两条或多条序列比对分析。

1. 两条序列比对1.1 安装程序解压DNASTAR Lasergene软件压缩包，双击Lasergene710WinInstall.exe文件，按照默认路径安装软件到自己电脑上。

1.2 载入序列a.点击开始－程序－Lasergene－MegAlign，打开软件。

我们首先用演示序列（demo sequence）学习软件的使用。

演示序列所在位置：C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

两条序列比对是生物信息学最基础的研究手段。

第一次实验我们用dotplot方法直观地认识了两条序列比对。

但是dotplot仅仅是展示了两条序列中所有可能的配对，并不是真正意义上的序列比对。

这里介绍进行两条序列比对的软件-MegAlign。

多序列比对是将多条序列同时比对，使尽可能多的相同（或相似）字符出现在同一列中。

多序列比对的目标是发现多条序列的共性。

多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。

我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。

一、MegAlignDNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件，它包含了7个模块。

其中MegAlign可进行两条或多条序列比对分析。

1. 两条序列比对1.1 安装程序解压DNASTAR Lasergene软件压缩包，双击Lasergene710WinInstall.exe文件，按照默认路径安装软件到自己电脑上。

1.2 载入序列a.点击开始－程序－Lasergene－MegAlign，打开软件。

我们首先用演示序列（demo sequence）学习软件的使用。

演示序列所在位置：C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\。

Figure 3.1 载入序列此时程序窗口分为三部分，最左侧较窄的是sequence name，中间显示的是序列起始位置，最右侧显示序列末尾部分，可以通过拖动窗口底部滚动条，查看序列其它部分（Figure 3.2）。

若想改变字体显示方式，点击主菜单OPTIONS，选择Font改变字体，选择Size改变字号大小。

若要移除序列，选中sequence name的序列名，右击，选clear。

Figure 3.2 载入序列后（注意标注的绿色箭头，即为坐标位置）1.3 设定序列比对位置MegAlign允许使用者选择序列的一部分进行比对分析，例如，可以根据GenBank格式的序列中Features部分关于编码区（CDS）位置的描述，设定只对此编码区进行分析。

a. 点击最左侧Sequence Name框中的第一条序列tethis，然后选择主菜单OPTIONS－Set sequence limits－from feature table。

（Figure 3.3）此时根据feature内容，出现四个可以选择的片段，第一个为全长，从序列起始到末尾（1-906），其它三个则只包括序列的一部分，选择最后一个Histone H2B-1—CDS，点击Change the Reset，点击OK，同样对第二条序列进行上述操作，回到主界面工作区，此时窗口中的序列起始和终止位置已经发生了变化。

（Figure 3.4）Figure 3.3 利用Feature Table选择序列特定部分Figure 3.4 选择序列特定部分b. 我们还可以通过设定序列坐标进行部分序列比对，首先选定序列，选择主菜单OPTIONS－Set sequence limits－by coordinates，输入起始和终止位置坐标来选择部分序列进行分析。

注意：只有genbank格式的序列才可以Set sequence limits from feature table，fasta格式的序列因为没有feature那一项内容，只可以Set sequence limits by coordinates。

1.4 进行两条序列比对如果输入两条序列后不设置序列起始和终止位置，默认是全长序列进行比对。

按住Shift选择序列tethis21和tethis22，然后点击主菜单Align-One pair，由于目前输入的是核酸序列，此时有两个选项，Wilbur-Lipman Method和Martiner NW Method。

如果输入的是蛋白质序列，这两个选项将是灰色，只能用Lipman-Pearson Method进行比对。

Wilbur-Lipman Method是一种以word为单位的（word-based）启发式局部比对方法；Martiner NW Method是一种改进了的全局动态规划算法。

Lipman-Pearson Method是序列相似度搜索软件Fasta的比对算法，也是一种以word为单位的快速启发式算法。

选择其中一个，出现比对参数设定窗口（Figure 3.5），选择默认参数不做更改，直接点击OK即可。

Figure 3.5 Wilbur-Lipman比对方法参数设定这时出现一个新窗口，即为比对结果。

可以选择OPTION-size，放大字号观察比对结果。

可以看到在窗口上部显示的是比对方法名称，所用参数，两条序列各自的起止位置，相似度值，比对结果中空位数目，长度和一致序列的长度。

随后就是比对结果部分，其中第一行是第一条序列，它上面的v70是标尺，其中的“V”的位置对应的是第一条序列的第70个核苷酸所在位置；第三行是第二条序列，它下方的数字同样对应该序列位置坐标；中间那行是根据两条序列比对结果中匹配部分推断出来的一致序列（consensus sequence），错配或空位显示为空白（Figure 3.6）。

Figure 3.6 Wilbur-Lipman方法比对结果设置比对结果显示方式：点击比对结果窗口最左侧的按钮，出现Alignment View Options窗口，可以选择匹配，错配和一致序列的字符颜色和其它显示选项。

推荐使用设置：选择match为红色，mismatch为绿色，consensus为蓝色，并选择show identities as vertical bars （一致序列显示为竖线），则得到Figure 3.7。

还可以尝试选中或不选show header, show ruler，show names，show contest四个选项，看看显示结果有何变化。

Figure 3.7 Alignment View OptionsTIP：MegAlign分析自己下载的序列时要注意序列扩展名如果是从NCBI直接下载的fasta格式文件，可以象上面一样，用enter sequence直接将序列读入程序。

但是如果序列文件是复制粘贴到txt文档中的，MegAlign程序是无法识别扩展名为txt的文件。

此时可将每条序列文件（fasta或genbank格式皆可）扩展名改为MegAlign可以识别的类型（核酸序列为seq，蛋白质序列为pro）,即可从File-Enter sequence 载入。

更改文件扩展名的方法：找到你要更改扩展名的文件，将.txt改为.seq或 .pro，此时会弹窗口，提示“如果改变文件扩展名，可能会导致文件不可用。

确实要更改吗？”选择“是”，文件图标会变成MegAlign特定图标，说明修改成功。

若扩展名自动隐藏，打开文件夹，点击窗口上的主菜单工具－文件夹选项，在打开的页面选择选项卡查看，去掉“隐藏已知文件类型的扩展名”前面的对勾，确定退出。

然后再用上述方法更改扩展名。

2. 多序列比对2.1 载入序列进行多条序列比对的演示序列（demo sequence）在c:\program files\ dnastar\ lasergene\ demo megalign\ Calmodulin Sequences\ 文件夹里。

点击主菜单File-Enter Sequence-根据路径到达Calmodulin Sequences文件夹，点击Add All，此时14条序列全都出现在右侧的selected sequences框中，点击Done，回到主程序工作区。

（Figure 3.8）这是来自14个物种的钙调蛋白。

Figure 3.8载入14条序列2.2 序列比对第一步，选择比对所用的打分矩阵。

点击主菜单Align－Set residue Weight Table，由于钙调蛋白比较保守，我们选择PAM100作为打分矩阵，点击OK结束设定(Figure 3.9)。

Figure 3.9 选择打分矩阵此时还可以通过点击Align-Method Parameters设定比对所用的其它参数。

打开的新窗口中包含三个选项卡，Jotun Hein、Clustal V和Clustal W，对应程序中多条序列比对可用的三种算法。

推荐大家不做修改，使用默认参数即可。

第二步，比对。

点击Align-by Clustal V Method，此时出现窗口显示比对进度，比对结束后，回到原来工作窗口，显示比对结果。

注意序列上方彩色条块，颜色代表对应列中相似程度，相似度由低到高，依次以深蓝、浅蓝、绿、黄、桔、红几种颜色代表。

(Figure 3.10)Figure 3.10 比对后结果2.3 查看比对结果此时可以通过几种方式观察比对结果。

a.点击View-Sequence Distances出现新窗口，显示两两序列percent identity(上半部分)和divergence（下半部分）。

Figure 3.11 比对结果－一致度（identity）b.点击View-Residue Substitutions出现新窗口，显示比对中所有替换的类型和数目。

Figure 3.12 比对结果－替换情况c.点击View-Phylogenetic Tree出现新窗口，显示根据14条序列比对结果构建出的进化树。

Figure 3.13 比对结果－进化树d.点击View-Alignment Reports出现新窗口，显示比对结果报告。

点击OPTIONS-Alignment report contents，选中show consensus strength，其它不变，点击OK。

在序列上方出现条块，显示每一列序列的相似程度。

Figure 3.14选择show consensus strength显示结果设置比对结果显示方式：突出显示匹配或错配的氨基酸。

实验3 两条序列比对与多序列比对

实验3 两条序列比对与多序列比对

多序列比对方法

实习四：多序列比对(Multiple alignment)

第三章 序列两两比对

多序列比对

Clustalx多序列比对-生物信息学

第四章：双序列比对

实验3两条序列比对与多序列比对

第三章序列两两比对