多序列比对_I

合集下载

生物信息学中的多序列比对算法研究

生物信息学中的多序列比对算法研究

生物信息学中的多序列比对算法研究一、引言生物信息学是利用计算机及统计学方法来研究生物学问题的新兴领域。

在生物大数据时代,生物信息学的发展进入了一个快速发展的阶段。

在生物序列比对中,多序列比对(Multiple sequence alignment,MSA)是一个非常重要的问题。

多序列比对的研究及其算法的不断完善,对于研究生物学问题有着重要的意义。

二、多序列比对的定义多序列比对是指在多个序列之间查找相似性并对齐的过程。

在多种生物学研究中,多个同源或各异的序列的比对是相当常见和有意义的。

三、多序列比对的应用多序列比对在生物信息学中有着重要的应用,它可以用于以下几个方面:1. 生物系统学:由于多序列比对可以获得序列进化模型,因此多序列比对是解决生物系统学问题的重要工具。

2. 同源性分析:通过分析多序列比对结果,可以推断不同物种中相似序列的同源性,即是否来自于共同的祖先。

3. 结构预测:多序列比对可以用来预测蛋白质结构。

4. 动物分类学:由于时空因素影响,不同物种中的同源序列经过不同速率的进化,因此多序列比对的结果可以用于物种分类。

四、多序列比对的挑战多序列比对过程面临各种挑战,如序列长度、序列间差异、计算时间等。

序列长度:随着序列长度的增加,多序列比对算法的计算时间和空间开销也随之增加。

因此,序列长度的增加往往会给计算带来极大的压力。

序列间差异:多序列比对要求不同序列间具有相同或相似的部分,但同时要处理序列间差异性的问题,这增加了多序列比对的复杂度。

计算时间:多序列比对是一个复杂的计算问题,需要大量的计算时间和计算资源。

因此,如何降低计算时间和计算资源的开销也是多序列比对需要解决的问题。

五、多序列比对算法1. 基于局部比对的算法:局部比对算法是一种快速的多序列比对算法,该算法从每个序列的局部匹配开始,并在此基础上扩展。

其中,CLUSTALW算法就是一种基于局部比对的算法。

2. 基于全局比对的算法:全局比对算法是一种精确的多序列比对算法。

序列比对的基本方法

序列比对的基本方法

序列比对的基本方法序列比对是生物信息学中重要的一项任务,它用于比较和分析不同生物序列之间的相似性和差异性。

序列比对方法既可以应用于DNA序列之间的比较,也可以用于蛋白质序列之间的比较。

本文将介绍序列比对的基本方法,包括全局比对、局部比对和多序列比对。

一、全局比对全局比对是将整个序列进行比对,得到两个序列之间的最佳匹配。

最常用的全局比对方法是Needleman-Wunsch算法,该算法用动态规划的方式计算两个序列之间的最佳匹配。

其基本思想是在两个序列中插入一个空位,并为每个空位赋予一定的惩罚分数,然后通过计算每种插入方式的得分来确定最佳插入位置,从而得到最佳匹配。

二、局部比对局部比对是在两个序列中寻找最佳匹配的子序列。

最常用的局部比对算法是Smith-Waterman算法,该算法也是基于动态规划的方法。

不同于全局比对,局部比对将得分为负值的子序列直接设为0,从而忽略掉匹配较差的部分。

该算法在序列比对中应用广泛,可以用于发现序列中的保守区域以及识别重复序列。

三、多序列比对多序列比对是指将多个序列进行比对,从而得到它们之间的相似性和差异性。

多序列比对方法有多种,包括ClustalW、MAFFT和Muscle等。

这些方法常用于计算进化关系,识别保守区域和功能位点等。

其中,ClustalW是最常用的多序列比对软件之一,它使用的是基于目标函数的方法,在多个序列中寻找最佳的全局匹配。

MAFFT和Muscle则分别使用多种算法来处理不同类型的序列,从而提高比对的准确性和效率。

四、快速比对算法传统的序列比对方法在处理大规模序列数据时效率较低。

为了提高比对速度,研究者提出了一系列快速比对算法,如BLAST、 FASTA和Smith-Waterman-Gotoh算法等。

这些算法常用于初步比对和预测,可以在较短的时间内找到相似序列,从而提高工作效率。

其中,BLAST是最常用的快速比对算法之一,其基本思想是将查询序列与参考数据库中的序列进行比对,并根据匹配得分对结果进行排序,从而找到相似序列。

多序列比对——精选推荐

多序列比对——精选推荐

多序列⽐对在寻找基因和致⼒于发现新蛋⽩的努⼒中,⼈们习惯于把新的序列同已知功能的蛋⽩序列作⽐对。

由于这些⽐对通常都希望能够推测新蛋⽩的功能,不管它们是双重⽐对还是多序列⽐对,都可以回答⼤量的其它的⽣物学问题。

举例来说,⾯对⼀堆搜集的⽐对序列,⼈们会研究隐含于蛋⽩之中的系统发⽣的关系,以便于更好地理解蛋⽩的进化。

⼈们并不只是着眼于某⼀个蛋⽩,⽽是研究⼀个家族中的相关蛋⽩,看看进化压⼒和⽣物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋⽩。

研究完多序列⽐对中的⾼度保守区域,我们可以对蛋⽩质的整个结构进⾏预测,并且猜测这些保守区域对于维持三维结构的重要性。

显然,分析⼀群相关蛋⽩质时,很有必要了解⽐对的正确构成。

发展⽤于多序列⽐对的程序是⼀个很有活⼒的研究领域,绝⼤多数⽅法都是基于渐进⽐对(progressive alignment)的概念。

渐进⽐对的思想依赖于使⽤者⽤作⽐对的蛋⽩质序列之间确实存在的⽣物学上的或者更准确地说是系统发⽣学上的相互关联。

不同算法从不同⽅⾯解决这⼀问题,但是当⽐对的序列⼤⼤地超过两个时(双重⽐对),对于计算的挑战就会很令⼈⽣畏。

在实际操作中,算法会在计算速度和获得最佳⽐对之间寻求平衡,常常会接受⾜够相近的⽐对。

不管最终使⽤的是什么⽅法,使⽤者都必须审视结果的⽐对,因为再次基础上作⼀些⼿⼯修改是⼗分必要的,尤其是对保守的区域。

由于本书偏重于⽅法⽽不是原理,这⾥只讨论⼀⼩部分现成的程序。

我们从两个多序列⽐对的⽅法开始,接下去是⼀系列的利⽤蛋⽩质家族中已知的模体或是式样的⽅法,最后讨论两个具有赠送的⽅法,因为绝⼤多数公开的算法不能达到出版物的数量。

在本章结尾部分将会列出更详细的多序列⽐对的算法。

渐进⽐对⽅法CLUSTAL WCLUSTAL W算法是⼀个最⼴泛使⽤的多序列⽐对程序,在任何主要的计算机平台上都可以免费使⽤。

这个程序基于渐进⽐对的思想,得到⼀系列序列的输⼊,对于每两个序列进⾏双重⽐对并且计算结果。

生物信息学中的多序列比对方法

生物信息学中的多序列比对方法

生物信息学中的多序列比对方法生物信息学是一门研究生命科学数据的计算机科学学科,主要用于从大量基因组、蛋白质组、代谢组等生命组学数据中发现、分析和研究基因、蛋白质、代谢途径等生命过程的规律。

其中的多序列比对(Multiple Sequence Alignment,MSA)技术是一个比较重要的研究方法,其主要应用于多种生物信息学研究方向,如物种分类、基因结构和功能研究、蛋白质结构和功能研究等。

本文就生物信息学中的多序列比对方法进行简要介绍。

一、多序列比对的意义及难点多序列比对是将多条生物序列进行比对,在把它们对齐之后确定它们之间的共同位点及其差异位点的过程,从而分析出序列间的相似性和异质性等结构、功能上的关联。

这一过程主要分为四步:选择序列、生成比对矩阵、进行比对分析和生成比对结果。

通过多序列比对可以揭示序列进化、注释微小RNA、寻找共同结构域、定位功能残基等关键性生物学问题。

多序列比对的难点主要包括以下几个方面:(1)大数据量。

由于生物序列的数据量是非常庞大的,比如对于人和马之间的比对,需要对他们的约3000万个碱基进行比对,而且每个人的基因组或每个生物的蛋白质组都是高度复杂和大量重复的,因此进行多序列比对的计算复杂度非常大,需要使用高效的计算方法,充分利用计算资源。

(2)序列多样性。

生物序列相互之间具有高度的多样性,包括同一物种内的不同个体、不同物种之间的比对和不同基因家族的比对等,这些差异给多序列比对带来很大的挑战,需要使用不同的比对算法、策略和参数,才能得到最优的结果。

(3)精度和可信度。

生物序列不同的比对方法可能会得到不同的结果,因此必须对比和评估多种方法的参数和性能指标,同时要考虑到数据的来源、质量和格式等,以提高比对结果的精度和可信度。

(4)效率和实时性。

多序列比对通常是大数据、高计算量的任务,因此需要使用高性能计算环境或分布式计算架构,同时要考虑到任务的时间复杂度、并行度和负载均衡等问题,从而提高比对效率和实时性。

多序列比对

多序列比对

的序列,结果不理想。
• 目前应用最广的多序列比对算法。
34 /93
ClustalW2
• ( /Tools/msa/clustalw2 )目前应用 最广的多序列比对工具。 • 3个步骤:
1.) Construct pairwise alignments(构建双序列比对)
0 1 A 0 1 A 1 -2 A 2 T 3 T 3 G 3 -4 C 4 C
x coordinate y coordinate
--
A
T
G
C

13 /93
Alignment Paths
• Align 3 sequences: ATGC, AATC,ATGC
0 1 A 0 1 A 0 0 1 -2 A 1 2 T 3 T 2 3 G 3 -3 4 C 4 C 4
之前我们进行的是序列与序列的比对。 Can we align a sequence against a profile?
Can we align a profile against a profile?
Profile和pattern都可以表示多序列比对,哪个更好?
29 /93
Multiple Alignment: 贪婪算法
v1 v2 v3 v4
v1,3 v1,3,4 v1,2,3,4
Calculate: = alignment (v1, v3) = alignment((v1,3),v4) = alignment((v1,3,4),v2)
• 之前进行的是双序列比对
• 如果多个序列进行比对呢? 如何进行?
4 /93
Multiple Alignment versus Pairwise Alignment

6.多序列比对

6.多序列比对

CLUSTALW
Sequences should all be in 1 file. 7 formats accepted: NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF. Enter the name of the sequence file: anti.fasta<rtn> Sequence format is Pearson Sequences assumed to be PROTEIN Sequence 1: ANP4_PSEAM Sequence 2: ANP_LIMFE Sequence 3: ANPA_PSEAM Sequence 4: ANPX_PSEAM Sequence 5: ANPY_PSEAM 85 aa 97 aa 82 **** CLUSTAL W (1.8) Multiple Sequence Alignments ******** 1.Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 2<rtn>
一个多序列比对例子
VTISCTGSSSNIGAG-NHVKWYQQLPG QLPG VTISCTGTSSNIGS--ITVNWYQQLPG QLPG LRLSCSSSGFIFSS--YAMYWVRQAPG QAPG LSLTCTVSGTSFDD--YYSTWVRQPPG QPPG PEVTCVVVDVSHEDPQVKFNWYVDG-ATLVCLISDFYPGA--VTVAWKADS-AALGCLVKDYFPEP--VTVSWNSG--VSLTCLVKGFYPSD--IAVEWWSNG--

生物信息学中多序列比对算法的研究与改进

生物信息学中多序列比对算法的研究与改进

生物信息学中多序列比对算法的研究与改进生物信息学是研究生物学领域中的大规模生物数据的收集、存储、处理和分析的一门学科。

其中,多序列比对是生物信息学中一个重要的任务,可以帮助我们理解生物序列的相似性和差异性,从而揭示生物进化、功能和结构的信息。

本文将介绍多序列比对算法的基本原理、常用的方法和一些改进策略。

多序列比对的基本原理是将多个生物序列在一定的比对模型下进行比对,找到它们之间的共有特征和差异。

而这种比对过程是通过构建一个比对矩阵来完成的,该矩阵记录了每对序列之间的相似性得分。

常用的比对模型包括全局比对、局部比对和连续比对。

全局比对是将所有序列从头至尾进行比对,适合于序列相似性较高且较短的情况。

常用的算法有Needleman-Wunsch算法和Smith-Waterman算法。

Needleman-Wunsch算法使用了动态规划的思想,通过计算不同序列位置之间的得分矩阵,找到最优的比对方案。

Smith-Waterman算法是对Needleman-Wunsch算法的改进,它引入了负得分以处理局部比对的情况。

局部比对是将序列的某个片段与其他序列进行比对。

这种比对方法适用于序列相似性低或存在插入/缺失的情况。

常用的算法有BLAST、FASTA和PSI-BLAST。

BLAST算法使用了快速查找的技术,先找到一些高度相似的序列片段,再进行进一步的比对。

FASTA算法也是通过生成比对矩阵来找到相似片段,但它比BLAST更加灵敏。

PSI-BLAST算法将多次比对与序列数据库的搜索相结合,用于找到蛋白质序列中的保守和演化区域。

连续比对是将序列中的一个或多个连续子序列与其他序列进行比对。

这种比对方法可用于寻找序列中的结构域和功能区域。

常用的算法有HMMER和COBALT。

HMMER算法使用了隐马尔可夫模型和HMM-profile来比对序列中的结构域,具有较好的准确性和灵敏性。

COBALT算法是一种基于Conserved Domain Database (CDD) 的比对方法,通过利用数据库中的结构域信息来找到序列中的结构域。

多序列比对PublicLibraryofBioinformatics

多序列比对PublicLibraryofBioinformatics

多序列比对PublicLibraryofBioinformatics多序列比对简介:双序列比对是序列分析的基础。

然而,对于构成基因家族的成组的序列来说,我们要建立多个序列之间的关系,这样才能揭示整个基因家族的特征。

多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。

多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。

与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上。

因此,正如我们不能对双序列比对的结果得出"正确或错误"的简单结论一样,多序列比对的结果也没有绝对正确和绝对错误之分,而只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。

目前,构建多序列比对模型的方法大体可以分为两大类:第一类是基于氨基酸残基的相似性,如物化性质、残基之间的可突变性等。

另一类方法则主要利用蛋白质分子的二级结构和三级结构信息,也就是说根据序列的高级结构特征确定比对结果。

这两种方法所得结果可能有很大差别。

一般说来,很难断定哪种方法所得结果一定正确,应该说,它们从不同角度反映蛋白质序列中所包含的生物学信息。

基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。

蛋白质序列是经过DNA序列转录翻译得到的。

从信息论的角度看,它应该与DNA分子所携带的信息更为"接近"。

而蛋白质结构除了序列本身带来的信息外,还包括经过翻译后加工修饰所增加的结构信息,包括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白质结构。

因此,这也是对完全基于序列数据比对方法批评的主要原因。

如果能够利用结构数据,对于序列比对无疑有很大帮助。

不幸的是,与大量的序列数据相比,实验测得的蛋白质三维结构数据实在少得可怜。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

GAPS
• 线性罚分矩阵 Wn = nγ, n= 缺口数 , γ = 空位罚分 • 亲缘空位罚分 Wn= g + nγ,
=缺口数, γ = 空位拓展罚分 g = 空位开放罚分
简化比对统计
我们怎样告诉别人基于分值的比对的好坏?当两个随机序列在比对时得 到近似的分值的可能性有多大? 考虑一个简单的问题-在随机的硬币投掷过程中,获得头像 l 的最大可 能概率? 均匀的硬币 p = 0.5 且 ErdÖs and Rén yi – 最大可能概率= log1/p(n) 这里 log2(n). 如果 n=100, 最大可能概率是 6.65 对长度分别为 n 和 m 的两个序列,我们做 nm 比对,这样预测的最长序 列匹配将是 log1/p(mn) 更确确的说,期望值,或者最长匹配的平均值将是 E(M)~=log1/p(Kmn) 这里 K 是依赖于氨基酸组成的常数。
对所有 20 个氨基酸的处 理
给定 fab = 配对交换频率
直接假设 — 第一顺序马尔柯夫链转化模型
步骤 2 : 计算 a 率
Pa = 氨基酸 a 的概率
b 交换对的相对概
fab = a 和 b 之间的替代数量 fa = 含有氨基酸 a 的替代模式总 数
f = 在相关序列组中产生变异的总数量 =
PAM250 矩阵表中数据的来源? 步骤 6 :计算关联几率 序列比对中两个氨基酸来自于由进化的相关蛋白几率,和它们来自于 两个不相关的蛋白质比对的几率 Mab =相关蛋白中 b 取代 a 的几率 - vs - Paran =非相关蛋白中 b 取代 a 的几率 …… 它们是随机的
现在, Paran = fa ,氨基酸 a 发生的频率
最大: 对角线 从左到右 从上到下
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
全局比对: Needleman-Wunsch- Sellers O(n2) 利用线形空位处罚
最大: 对角线 从左到右 从上到下
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
对角线 从左到右 从上到下
全局和局部比对程序 生物工作平台: / Bill Pearson 的网页 / NCBI, Expassy
氨基酸替代矩阵
Margaret Dayhoff, 1978, PAM 矩阵
可选择的办法是比对所有可能的特征对 ( 配对和错配,也很好 的考虑到了空位,保持比对的数量的易处理性。 ) 这种方法也 叫动力学设计。在算术上证明了产生最佳比对。 需要置换或相似矩阵和考虑到空位的方法。 怎样记下比队得分的例子:写下两条序列
序列 #1 序列 #2 置换矩阵得分
得分 =Σ ( AA 配对得分) - 缺口处罚 =15
步骤 5 :计算进化距离尺度 只有 1/1000 的氨基酸产生变化
M aa 表示氨基酸守衡
实例
( Phe 突变的调整概率)
** 用尺度因子 λ , M aa 是 ~0.99 也就是变异概率是 ~1%
也就是定义 PAM1 矩阵… .
λ 是进化尺度因子
…… 对于任何特别的突变概率, λMab 反应了 在 1PAM 上氨基酸 b 替代氨基酸 a 的可能性的 标准尺度。
PAM 250 矩阵- 250 %期望变化
序列仍然有 ~15-30 %序列相似性, 如,苯丙氨酸与苯丙氨酸 有 ~ 32% 的匹配概率 丙氨酸与丙氨酸 有 ~ 13% 的匹配概率
期望值 %相似性 其它的 PAM 矩阵: PAM120 - 40% PAM80 - 50% PAM60 - 60% PAM250 – 15-30% 相似性 相似性序列的使用
局部比对是从 x 序列子列到 y 序列子列比对中得分最好的 。 重要的并不是比对到序列结束。
对序列 x ,残基 1 , 2 , 3……N ,能够得到 ~N2 个子链,也 就是说启始点 a= 1,2….N ,结束点 b= 1, 2….n 。 Y 序列也一 样,得到 ~M 2 个子链。对于任意两个子链,由于有旧的 O(mn) 比对问题,所以可能比对的总数目是 ~ N2M 2(NM)=O(M 3N3)— 很不好!!!!在多项式时间 中是可以 解决的,但需要一个大的多项式。
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
源追踪 :
当正方形比对完成之后,从较低的右边开始,以后的工作 根据箭头观察怎样到那儿……
源追踪引起的比 对 :
只有向后看才能理解生活,但是要生活好,必须向前看。 — Søren Kierkegaard
局部比对
Temple Smith 和 Michael Waterman , 1981— 修改了 Needleman-Wunsch-Sellers
接下来,假定在每个位置的变异独立于前面的变异。因此 计算关系稍远的相关蛋白的变化,该蛋白质进行了 N 次变异, 每一百个氨基酸通过乘以 PAM1 矩阵对其变异次数 N 的值 例子: PAM2 矩阵:
PAM250 矩阵
• 将 PAM1 自乘 250 次!
有 Mab 个值。如进化 互相关联的蛋白质在 PAM250 中一个氨基 酸取代另一个氨基酸 的几率
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
注意 — 线形空位处罚: γ(n)=nA ,其中 A= 空位处罚
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
空位 空位
因此得到 Sij 必须知道 S(i-1, j-1) 和 S(i, j1) and S(i-1, j)…… 因此需要回归。我们用 解决小问题的方法解决大问题。我们必须 记录怎样得到 Sij 。例如表格式矩阵中的中 间解答。计算机科学家称这为动力学设计 ,其中“设计”即矩阵,并不是某种计算 机编码。
** 进化模型 ** 以一个小数据库为基础。
假设是对称的: 假设短时间周期的氨基酸替代模型能够推测出长时间周 期的替代模型。 71 组蛋白质序列, 1572 个相似氨基酸 85% 发生改 变。 功能蛋白质→由自然选择“接受”变异 PAM1 矩阵意味着在蛋白质之间有 1% 的分歧 – 也就是说每 100 个残基中有 1 个氨基酸变异。一些文章也重述了这个情况 ,每个氨基酸变成另一个氨基酸的概率是 ~1% ,而不变的概 率是 ~99% 。
PAM250 矩阵表中数据的来源?
步骤 6 :计算关联几率
进化的关联几率而不是偶然几率
PAM250 矩阵表中数据的来源?
步骤 7 :计算对数值 ( 关联几率 ) 和乘以十来清楚碎片值 例子: Phe→Tyr ( 必须= Tyr→ Phe)
因此平均值= (5.7+8.3)/2=7…PAM250 中的数据
M’ab 的相对概率定义为:
步骤 3 :依比例确定相对概率,即获得任意一 个氨基酸变成另一个不同的氨基酸 1% 总机会
i.s. 测量 M’ 来确定 :
步骤 4 :定义“相对易变性” 给每个氨基酸指定 ma
含有氨基酸 a 的突 变数量
‘a’ 变异的方向 Prob(a)* 每 100 个位点中加权变异的 总数
局部比对

再一次地,动力学设计可以补救!
动力学设计的基本设置与以前一样…… 错配时相似矩阵 MUST 产生负值 -- 和 -**** 在得分矩阵中,计算位置的值是负数时,这个 值就被设置成 0 。
比对就此结束
SmithWaterman:
首先沿着侧边从上到下写下一个序列。
空位 空位
局部比对: 最大:
步骤 1 :在相关蛋白质家族内测量每个氨基酸 的成对替代频率
构建 Dayhoff 矩阵: PAM1
900 个 Phe (F)….+ 另外 100 个可能的 Phe 但是… 100 个 Phe (F) → 80 Tyr (Y), 3 Trp (W), 2 His (H)….
给了 fab, 也就是
…… 通过进化!
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
空位 空位
全局比对: Needleman-WunschSellers O(n2) 利用线形空位处罚
最大: 对角线 从左到右 从上到下
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
空位 空位
全局比对: Needleman-WunschSellers O(n2) 利用线形空位处罚
糟糕的例子
O(kn) = 指数时间…… . 恐怖!!!!
NP 问题 — 不知道多项式时间解决办法 = 非确定性多项式问题。
递归和动力学设计
比对两个没有空位的蛋白序列 — 大概是一个 O(mn) 问题。 没有空位 — 适合于计算天文学,直接比对方法不能做。 (= 22L/√(2πL); L= 序列长度 )
PAM30 矩阵,用非空位比对得分最高的一个
替代氨基酸矩阵
Dayhoff 的问题: • 基于氨基酸,不是核苷酸。 • 假定进化模型具有直接系统发生关系,循环讨论:序列→ 矩阵 ; 矩阵→ 新的序列 • 基于一小部分关系紧密的分子 • Gonnett, Cohen & Benner • 所有的模型是用达尔文的 1,700,000 匹配对所有的数据库极性 匹配 直接在不同 PAM 编译进化矩阵 • BLOSUM = 空位氨基酸替代矩阵- Henikoff&Henikoff 1992 基于一个较大的数据库,该数据库从 ~500Prosite 家族得到,这些 家族用用每个家族定义的保守氨基酸模式” 块”由 Bairoch 确认 典型的用多序列比对 AA 替代注释,得到对数几率比率 例如…块模式 60 %确认得到 Blosum60 矩阵,等等 … 如:基于非缺口比对的保守函数块。 Blosum62 -在信息内容和数据量最优匹配 不是基于直接的进化模型
要点大纲(续)
多序列比对: MSA, Clustal 阻断分析 特殊位置得分矩阵 (PSSM)
相关文档
最新文档