04序列比较

合集下载

(生物信息学)lecture04双序列比对

(生物信息学)lecture04双序列比对
GATK软件具有准确度高、可扩展性强和易于使用等特点,广泛应用于全 基因组关联分析、突变检测和基因组组装等领域。
SAMtools软件
1
SAMtools是一个用于处理和分析序列对齐映射 (SAM)格式数据的生物信息学软件工具。
2
SAMtools软件提供了多种用于双序列比对的工 具,如SAMtools sort、SAMtools index和 SAMtools view等。
BLAST软件具有高效、准确和灵活的特点,广泛应用于生物信息学领域的序列比对 和相似性搜索。
GATK软件
GATK(Genome Analysis Toolkit)是一个用于分析高通量测序数据的生 物信息学软件工具集。
GATK软件提供了多种用于双序列比对的工具,如Smith-Waterman算法 和Burrows-Wheeler变换等。
药物作用机制研究
通过比对药物作用前后的基因或蛋白质序列,分析药物对生 物分子的影响和作用机制,有助于深入理解药物的作用原理 和潜在副作用。
05
双序列比对的挑战与未来发展
数据规模与计算复杂度
数据规模
随着测序技术的快速发展,产生的序列数据量呈指数级增长,给 双序列比对带来了巨大的挑战。
计算复杂度
双序列比对的算法复杂度较高,尤其是在处理大规模数据时,需 要消耗大量的计算资源和时间。
通过比对患者与健康人的基因序列,寻找与疾病相关的基因变异位点,有助于定位和阐明疾病发生的分子机制。
药物靶点发现
通过比对不同物种的基因或蛋白质序列,寻找与药物分布、活化等相关的靶点,有助于发现新的药物候选分子。
药物发现与设计
药物靶点筛选
通过比对已知药物靶点序列与数据库中的序列,筛选出潜在 的药物靶点,有助于发现新的药物作用机制和候选药物。

第三章 序列相似性比较

第三章 序列相似性比较

序列比对的衡量标准
两个序列进行比对,会有产生许多不同的对齐形式, 需要一定的标准对比对结果进行比较评估,以找出 最佳的对齐结果。 通常采用计分矩阵(scoring matrix)来计算比对分 值,以得到一个评价优劣的标准。
计分矩阵
A
A T 1 -1
T
-1 1
C
-1 -1
G
-1 -1
C
G
-1
-1
-1
序列比对问题
基因在进化中存在插入/缺失突变,序列比对时应该 将这些考虑这些突变,以便获得到更好的对齐结果。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
比对-3

ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | || | | | | CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | || | | | | CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT

生物信息学中的序列比对方法效率评估

生物信息学中的序列比对方法效率评估

生物信息学中的序列比对方法效率评估序列比对是生物信息学研究中的一个基本任务,它用于比较两个或多个生物序列之间的相似性和差异性。

序列比对的目的是识别序列中的共有区域,以便研究这些序列之间的结构和功能关系。

在生物信息学领域中,有许多不同的序列比对方法可供选择。

本文将介绍一些常见的序列比对方法,并评估它们的效率。

1. 简单比对方法最简单的序列比对方法是全局比对和局部比对。

全局比对将整个序列进行比对,而局部比对则仅仅比对两个序列中的一部分。

全局比对会对整个序列进行全面比较,适合于相似性较高的序列。

然而,全局比对在序列长度较长时,计算复杂度较高。

局部比对由于只比对部分序列,因此适用于不相似的序列,但有时也会导致遗漏相似区域。

2. 基于动态规划的算法Smith-Waterman算法和Needleman-Wunsch算法是两种经典的基于动态规划的序列比对方法。

这些方法可以在不同长度和类型的序列之间找到最佳匹配。

然而,动态规划算法的计算复杂度很高,适用于较小的序列比对。

对于长度较长的序列,动态规划算法会变得非常耗时。

3. 基于启发式策略的方法由于动态规划算法的复杂度问题,研究人员提出了一些基于启发式策略的序列比对方法,以提高计算效率。

其中最著名的方法是基于Smith-Waterman算法的BLAST算法。

BLAST算法通过建立一个预先计算的索引库,将查询序列和数据库中的序列进行比对,从而大大加快了比对速度。

然而,BLAST算法仍然需要较长的计算时间,尤其是当比对序列数量非常大时。

4. 基于散列算法的方法近年来,随着计算能力的提高,基于散列算法的序列比对方法成为常用的选择。

这些方法使用散列函数来映射序列到特征空间,并将相似性比对转化为搜索相似特征的问题。

基于散列算法的序列比对方法可以在很短的时间内找到全局匹配和局部匹配。

同时,由于散列函数的高效性,这些方法也可以用于处理大规模数据集。

5. 机器学习方法最近,机器学习方法在序列比对领域也取得了一些进展。

序列比对4

序列比对4

• 第一种比对
• GACGGATTAG• GATCGGAATAG
第二种比对:
GA-CGGATTAG GATCGGAATAG
13 /108
• 序列的差异都是由突变引起的。
• 常见的突变是替换、插入和删除,其中后两者都导致比对 中引入空格。
• 注意: • 一个碱基的替换可能导致也可能不导致相应位置氨基酸的 变化,但一个碱基的插入或删除则肯定影响该位置氨基酸 的编码。
40 /108
• GCM矩阵常用于进化距离的计算,其优点是计算结果可 以直接用于绘制进化树,但是它在蛋白质序列比对尤其是 相似程度很低的序列比对中很少被使用。
41 /108
42 /108
• (3) 疏水矩阵 • 该矩阵(见表 5-6 )是根据氨基酸残基替换前后疏水 性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不 发生太大的变化,则这种替换得分高,否则替换得分低。
26 /108
27 /108
• 练习 • 应用blast打分矩阵寻找下面两条序列的最佳匹配: • AGCACACA • ACACACTA
28 /108
• 局部比对的算法 • 点阵图分析序列相似性
29 /108
点阵图分析两序列间的相似性
• 点标(dot plot)是两序列对位排列中最基本也是最直观的 方法。设序列A和B的长度不同,但很接近。我们可以用 二维坐标来标定每个位点上的对位情况。如图5-1所示, 序列A为X轴,序列B为Y轴。如Ai=Bj,,坐标(i, j)处赋值 为“*”,其余赋值为“空白”。逐个比较所有的字符对 ,最终形成点阵列。
• (5)w(c,d)是字符c和d按照替换计分矩阵计算的得分。
23 /108
• 按照规则建立得分矩阵:

生物信息学中的序列比对与分析教程

生物信息学中的序列比对与分析教程

生物信息学中的序列比对与分析教程序列比对与分析在生物信息学中扮演着非常重要的角色。

通过对不同生物体的DNA、RNA或蛋白质序列进行比较和分析,我们可以揭示它们之间的相似性和差异性,从而推断它们的功能和进化关系。

本教程将介绍序列比对的基本概念、工具和方法,并探讨如何进行常见的序列分析。

1. 序列比对的基本概念序列比对是用于比较两个或多个生物序列之间的相似性和差异性的过程。

在序列比对中,我们会使用特定的算法和方法,将不同序列中的相似区域进行匹配,以找到它们之间的共同点。

常用的序列比对算法包括全局比对(如Needleman-Wunsch算法)和局部比对(如 Smith-Waterman算法)等。

2. 序列比对的工具现在有许多序列比对工具可供选择,其中一些是免费提供的。

其中最常用的工具之一是BLAST(Basic LocalAlignment Search Tool)。

BLAST可以快速找到一个或多个与给定序列相似的其他序列,并给出相似性得分。

除了BLAST,还有一些其他的序列比对工具,比如ClustalW、MUSCLE和T-Coffee等。

3. DNA序列比对DNA序列比对是研究生物体间遗传关系和进化关系的重要工具。

DNA序列之间的相似性可以用来确定物种的亲缘关系、寻找共同的进化起源以及研究基因的功能。

在DNA序列比对中,常用的方法是使用BLAST等工具,通过将查询序列与数据库中的已知序列进行比对来找到相似的区域。

4. RNA序列比对RNA序列比对主要用于研究基因表达和功能相关的RNA分子。

与DNA序列比对相似,RNA序列比对也可以通过BLAST等工具进行。

此外,对于非编码RNA序列的比对,可以使用RAPSearch和PIRCH等专门的工具。

5. 蛋白序列比对蛋白序列比对是分析蛋白质结构和功能的关键步骤。

蛋白质序列比对可以通过BLAST等工具进行,还可以使用更高级的算法和方法,如Smith-Waterman算法和多序列比对算法,来找到更为精确的比对结果。

生物信息学中的序列比对算法综述

生物信息学中的序列比对算法综述

生物信息学中的序列比对算法综述序列比对是生物信息学领域中的一个重要问题,指的是比较两个生物序列(DNA,RNA或蛋白质序列)之间的相似性和差异性。

序列比对是许多研究任务中的第一步,如基因识别、物种分类、进化关系的推断等等。

在本文中,我们将介绍序列比对算法的基本概念、方法和软件,包括全局比对、局部比对、多序列比对等方面。

一、序列比对的基本概念序列比对的目的是找出两个序列之间的相似性和差异性,根据相似性分析序列的结构、功能以及进化关系。

相似性可以被表示成一个比对得分,即正数表示相似性,负数表示差异性。

比对得分的计算取决于匹配分、替换分和缺失分。

匹配分是指在比对中找到相同的位置并且相等的分数。

替换分是指找到不同的位置并且不相等的分数。

缺失分是指在任意序列中找不到匹配的分数。

计算得分的方法有很多种,其中最流行的方法是 Needleman-Wunsch 算法和 Smith-Waterman 算法。

二、全局比对算法全局比对算法是一种比较两个序列的整个长度的算法,使得它们之间的相似性或差异性能够被准确地测量。

全局比对算法通常用于比较高度相似的序列或同一物种中相似的序列。

Needleman-Wunsch 算法与 Smith-Waterman 算法是全局比对中最为经典的算法。

Needleman-Wunsch 算法: Needleman-Wunsch 算法是最经典的全局比对算法之一。

该算法通过构建一个二维矩阵,其中每个元素代表在比对过程中两个序列的一个指定位置。

该算法通过分配一个比对得分并使用动态规划来计算所有可能的比对方式。

通过比对得分的计算,算法确定序列之间的最佳比对方式,使比对得分最大化。

该算法常用于比较高度相似的序列,或者已知序列的情况下以寻找相同物种中潜在基因组之间的相似性信息。

Smith-Waterman 算法: Smith-Waterman 算法是一种类似Needleman-Wunsch 算法的全局比对算法。

基因组序列比较的原理

基因组序列比较的原理

基因组序列比较的原理
基因组序列比较是通过比较不同个体的基因组序列来研究它们之间的相似性和差异性的过程。

其主要原理包括以下几个方面:
1. 序列比对:将两个基因组序列进行比对,寻找它们之间的相同和不同之处。

这可以通过使用算法和方法(如Smith-Waterman算法、Needleman-Wunsch 算法等)来对序列进行比较和对齐,找出序列中的共同部分。

2. 基因组注释:对比对后的序列进行注释,确定其在基因组中的位置和功能。

这可以通过对比对后的序列进行基因预测和功能注释,识别出可能编码蛋白质的基因、RNA等。

3. 寻找变异位点:通过比较基因组序列中的差异,可以找到不同个体之间的变异位点。

这些变异可能包括单核苷酸多态性(SNP)、插入/缺失以及结构变异等。

这些变异位点的发现对于了解基因组之间的差异、研究遗传性疾病等具有重要意义。

4. 重复序列和基因家族的确定:通过比较基因组序列,可以确定其中的重复序列和基因家族。

重复序列指的是基因组中多次重复出现的相似序列,而基因家族指的是具有相似序列和功能的一组基因。

基因组序列比较的原理主要包括上述几个方面,通过对序列的比对、注释和分析,
可以对不同个体的基因组序列进行研究和比较,揭示它们之间的相似性和差异性。

四种测序对比(四代测序比较)

四种测序对比(四代测序比较)

原理应用一代测序DNA双脱氧核苷酸末端终止法,即在测序过程中掺入四种不同的ddNTP,由于ddNTP末端没有羟基,所以双链无法继续延伸,DNA合成终止。

这样合成的终产物包括了很多长短不一的片段,利用电泳分离该混合物,依据电泳条带即可读出片段序列。

第一次人类全基因组测序二代测序边合成边测序,即将待测序列变性后锚定与于固相表面,在每一个待测序簇进行延伸互补时,每加入一个被荧光标记的dNTP就会释放出对应的荧光,通过对荧光信号进行捕捉来转换成测序峰图,继而得到待测片段的序列信息,通过生物信息学工具将可以将片段信息进行组合,得到整个基因中国大熊猫种群测序,大规模基因组测序,宏观了解基因组和基因组学相关信息三代测序基于纳米孔相关技术的单分子测序技术,或可称为直接测序技术。

首先建立纳米级别的孔径,使DNA分子单独通过孔径,由于碱基化学组成不同,其电导率也不同,根据电导率可以直接读出相应的碱基序列。

某些罕见病的低突变率位点鉴定基因芯片基因芯片技术基于DNA杂交原理,通过将数以万记的寡核苷酸探针固定于面积很小的固相上制成阵列,将待测序列用荧光进行标记,待测序列与核酸探针互补,洗脱后确定荧光强度最强的位置,获得该组探针的序列,通过生物信息学工具重组靶核苷酸全部序列。

农作物筛选和代谢酶相关基因检测测序方法比较优势劣势技术原理简单,成本低基于PCR技术,对DNA合成质量要求很高。

每次只能读取一条序列。

测序长度有严格的限制。

快速,操作简便,成本较低基于PCR技术,对DNA合成质量要求很高。

测序长度有严格的限制。

后续结果处理需要大量生物信息学支持。

不涉及PCR,测序精确,快速,大批量样本易降低成本,可以连续检测较长的DNA序列。

后续结果处理需要大量生物信息学支持。

高通量检测,容易实现自动化。

寡核苷酸探针组成复杂,条件不易统一,进而造成假阳性和假阴性,对重复序列还没有很好的解决方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
序列相先序列。它们很可能有相似的空间结构 和生物学功能 ,因此对于一个已知序列但未知结构和功能的蛋白质,如果 与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和 功能的蛋白质的结构和功能。 结构相似?功能相似?
序列相似性
一致度(identity)与相似度(similarity) 一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一致度定义 为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度 的百分数。
G -4 -4 -4 5
序列比对打分方法
蛋白质序列比对的替换记分矩阵 1. 等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的 匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。 2. PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基 酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。 PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础的PAM-1矩 阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得 到)。PAM-1自乘n次,可以得到PAM-n ,即发生了更多次突变。
相似的序列
序列相似性
序列相似性的重要性 相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构 和生物学功能 ,因此对于一个已知序列但未知结构和功能的蛋白质,如果 与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和 功能的蛋白质的结构和功能。 结构相似?功能相似?
序列相似性
序列 2 : CIHL
问题:哪个残基与哪个残 基算作相似? 答:残基两两相似的量化 关系被替换记分矩阵所定 义。
一致度 = 2/4 = 50%
相似度 = 3/4 = 75%
BLOSUM-62 对角线上的数值为匹 配氨基酸的得分;其 他位置上,≥0的得分 代表对应氨基酸对为 相似氨基酸。
序列相似性
序列相似性
一致度(identity)与相似度(similarity) 一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一致度定义 为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度 的百分数。
相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义 为他们对应位置上相似的 残基与相同的残基的数目 序列 1 : CLHK 和占总长度的百分数。
生物信息学 第四讲:序列比较 I
2013.3.13
认识序列
序列就是个字符串(string)。 s=abcdefghijklmnopqrstuvwxyz si代表序列s的第i个字符,比如s4=d s’=abcde,序列s’是序列s的子序列(substring)
DNA序列
>name CTCCTGACCTCAGGCGATTCGCCCGCCTCGGCCTCCCAAAGTGCTAGGATTACAGGCGTG AGCCACCACGCCCGGCCACACTAACTTTTTAAGAGCCAAGAGTTCGATCGGTAGCGGGAG CGGAGAGCGGACCCCAGAGAGCCCTGAGCAGCCCCACCACCACCGCTGGCCTAGCTACCA TCACACCCCGGGAGGAGCCGCAGCTGCCGCAGCCGGCCCCAGTCACCATCACCACAACCT TGAGCAGCGAGGCCGAGACCCAGCAGCCGCCCGCCGCTTGCCGCTCGCCGCCCCCCGCCC TCAGCGCCGGTGACACCACGCCCGGCACTACGGGCAGCGGCACAGGAAACGGTGGCCCGG GAGGCTTCACATCAGCAGCACCTGCCGGCGGGGACAAGAAGGTCATCGCAACGAAGGT
A T C G A 1 0 0 0 T 0 1 0 0 C 0 0 1 0 G 0 0 0 1

A T C G
A T C G 1 -5 -5 -1 -5 1 -1 -5 -5 -1 1 -5 -1 -5 -5 1

A T C G
A 5 -4 -4 -4
T -4 5 -4 -4
C -4 -4 5 -4
由4个不同的字母(碱基)排列组合而成。
FASTA格式: 第一行:大于号加名称或其它注释;第二行以后:每行60个字母。
蛋白质序列
>name MHHHHHHSSGRENLYFQGKLPEPQFYAEPHTYEEPGRAGRSFTREIEASRIHIEKIIGSG DSGEVCYGRLRVPGQRDVPVAIKALKAGYTERQRRDFLSEASIMGQFDHPNIIRLEGVVT RGRLAMIVTEYMENGSLDTFLRTHDGQFTIMQLVGMLRGVGAGMRYLSDLGYVHRDLAAR NVLVDSNLVCKVSDFGLSRVLEDDPDAAXTTTGGKIPIRWTAPEAIAFRTFSSASDVWSF GVVMWEVLAYGERPYWNMTNRDVISSVEEGYRLPAPMGCPHALHQLMLDCWHKDRAQRPR FSQIVSVLDALIRSPESLRATATVS
序列比对打分方法
蛋白质序列比对的替换记分矩阵 1. 等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的 BLOSUM-62 匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。 对角线上的数值为匹 2. PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基 配氨基酸的得分;其 酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。 他位置上,≥0的得分 PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础的 代表对应氨基酸对为 PAM-1矩 阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得 相似氨基酸。 到)。PAM-1自乘n次,可以得到PAM-n,即发生了更过次突变。 3. BLOSUM矩阵(blocks substitution matrix):BLOSUM矩阵是通过关系较 远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高(>85%)的 序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。 即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘 外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM80, BLOSUM62。80代表该矩阵是由一致性≥80%的序列计算而来,同理, 62是指该 矩阵由一致性≥62%的序列计算而来。
序列比对打分方法
蛋白质序列比对的替换记分矩阵 PAM-? 还是 BLOSUM-?
BLOSUM-80
BLOSUM-62
BLOSUM-45
PAM-1
亲缘关系较近的 序列之间的比对
PAM-120
PAM-250
亲缘关系较远的 序列之间的比对
对于关系较远的序列之间的比对,由于PAM-250是推算而来,所以其准确度受到 一定限制,BLOSUM-45更具优势。对于关系较近的序列之间的比对,用PAM或 BLOSUM矩阵做出的比对结果,差别不大。最常用的:BLOSUM-62
序列比对打分方法
蛋白质序列比对的替换记分矩阵 1. 等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的 匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。 2. PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基 酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。 PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础的PAM-1矩 阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得 到)。PAM-1自乘n次,可以得到PAM-n,即发生了更多次突变。 3. BLOSUM矩阵(blocks substitution matrix):BLOSUM矩阵是通过关系较 远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高(>85%)的 序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。 即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘 外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM-80, BLOSUM-62。80代表该矩阵是由一致性≥80%的序列计算而来,同理, 62是指 该矩阵由一致性≥62%的序列计算而来。
BLAST
……
> 100,000
序列相似性
序列相似性的重要性 相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构 和生物学功能 ,因此对于一个已知序列但未知结构和功能的蛋白质,如果 与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和 功能的蛋白质的结构和功能。 相似的结构 相似的功能
相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义 为他们对应位置上相似的 残基与相同的残基的数目 和占总长度的百分数。
问题:哪个残基与哪个残 基算作相似? 答:残基两两相似的量化 关系被替换记分矩阵所定 义。
替换记分矩阵
DNA序列比对的替换记分矩阵 1. 等价矩阵(unitary matrix):最简单的替换记分矩阵,其中,相同核苷酸之 间的匹配得分为1,不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和 不区别对待不同的替换,在实际的序列比对中较少使用。 2. 转换-颠换矩阵(transition-transversion matrix):核酸的碱基按照环结构 特征被划分为两类,一类是嘌呤(腺嘌呤A、鸟嘌呤G),它们有两个环;另一类 是嘧啶(胞嘧啶C、胸腺嘧啶T),它们只有一个环。如果DNA碱基的替换保持环 数不变,则成为转换,如A → G、C → T;如果环数发生变化,则成为颠换,如A → C、A → T等。在进化过程中,转换发生的频率远比颠换高。为了反映这一情 况,通常该矩阵中转换的得分为-1,而颠换的得分为-5。 3. BLAST矩阵:经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分 为+5,反之为-4,则比对效果较好。这个矩阵广泛地被DNA序列比对所采用。 BLAST是目前最流行的核酸序列数据库搜索程序。 ①
相关文档
最新文档