3序列比对原理

合集下载

3_1.序列比对基础与BLAST入门

3_1.序列比对基础与BLAST入门
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
一、序列比对(alignment)的概念、目的
序列比对的主要目的在于阐明序列之间的同源 性关系,以及从已知序列预测新序列的结构和 功能。
序列比对基于一种生物学推断(进化论): 相似性 同源性 相似的结构和功能
序列的全长进行比对。 局部比对(local alignment)对两条核苷酸或氨基酸序
列的一部分进行比对。
TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
序列比对要考虑的问题 2
2、是否存在插入和缺失?(gap,空位罚分的问题 教材Page71)
连字号(-)标记插入或缺失的事件。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | |
算法(构建打分矩阵) 数学
编程
计算机
打分
搜索数据库
计算机
给出比对结果(比对分数、显著性检验)
问题
什么是序列比对? 概念、目的、比对形式、 基本原理
序列比对有何用? 应用
怎样进行序列比对? 算法、程序
四、序列比对(alignment)的应用
序列比对的主要目的在于阐明序列之间的同源性关 系,以及从已知序列预测新序列的结构和功能。 评价实验结果(鉴定一条序列的身份) 为实验提供新思路指导进一步的实验设计 寻找和鉴定新基因的重要手段 蛋白质结构预测和分子设计的基础(同源建模) 研究生物进化和种属分类的基本方法(系统发生分析) 基因组信息分析

3.序列比对和数据库搜索(生物信...

3.序列比对和数据库搜索(生物信...

3.序列比对和数据库搜索(生物信...文章目录• 3.1 序列两两比对• 3.2 多序列比对生物信息学教程系列第三章3 序列比对和数据库搜索比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。

在生物信息学研究中,比对是最常用和最经典的研究手段。

最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。

进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。

此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。

比对还是数据库搜索算法的基础,将查询序列与整个数据库]的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。

近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。

3.1 序列两两比对序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。

序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。

在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。

但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。

课件第3讲 序列比对与数据库搜索

课件第3讲 序列比对与数据库搜索


两序列比对位置上的元素(核酸或氨基酸)大部分相同 两序列比对位置上的元素(氨基酸)相似 两序列来自一个共同的祖先序列

序列同源性

序列比较

• Dot matrix 分析 (intuitive) • 序列比对计算DP algorithm (exact) • Word or k-tuple (FASTA, BLAST) (heuristic)



words.
The main assumption in a word-based method assumes that related sequences are more likely to share several common Increasing the word size, enables searches to be performed faster, but reduces the sensitivity


矩阵名中的数字代表产生矩阵所用序列集的相似度
BLOSUM62 (lower part)
PAM矩阵和BLOSUM矩阵的比较

PAM矩阵的突变率来自一个明确的进化模型,该模型中氨基 酸的替换可从近亲蛋白质的系统发生树分支得知,而远亲蛋 白质的关系则可用外推过程建立模型,但BLOSUNM矩阵 却是通过直接观测保守区域中氨基酸的替换几率建立的 PAM矩阵基于序列全局比对观测到的突变,包括了保守区域 和可变区域,而BLOSUM矩阵仅基于高度保守的序列,不允 许有空位的出现 一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择

FASTA
找出高相似短序列
打分,精细匹配
拼接,去除不可能区段

第三章 序列比对

第三章 序列比对

英文名
Glycine Alanine
缩写 简称
Gly Ala G A
中文名
苏氨酸 半胱氨酸
英文名
Threonine Cystine
缩写 简称
Thr Cys T C
缬氨酸
亮氨酸 异亮氨酸 脯氨酸 苯丙氨酸 酪氨酸 色氨酸
Valine
Leucine Isoleucine Proline Phenylalanine Tyrosine Tryptophan

并系同源(paralogy)基因是指同一基因组(或同系物种的 基因组)中,由于始祖基因的加倍而横向(horizontal)产生 的几个同源基因

直系与并系的共性是同源,都源于各自的始祖基因。区别在 于:

在进化起源上,直系同源是强调在不同基因组中的垂直传递,并系 同源则是在同一基因组中的横向加倍;

PAM矩阵的制作步骤:


构建序列相似(99%)的比对 计算氨基酸 j 的相对突变率mj(j被其它氨基酸替换的 次数) 针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 替换次数除以相对突变率(mj) 利用每个氨基酸出现的频度对j 进行标准化 取常用对数,得到PAM-1(i, j) 将PAM-1自乘N次,可以得到PAM-N
3 0 1 0 0 0 0 -1 -1 -1 0 -1 0 -2 0 -3 -3 -5 T
6 1 -1 -1 -1 -1 0 0 0 -1 -2 -2 -3 -1 -5 -5 -6 P 2 1 0 0 0 0 -1 -2 -1 -1 -1 -2 0 -4 -3 -6 A 5 0 1 0 -1 -2 -3 -2 -3 -3 -4 -1 -5 -7 -7 G 2 2 1 1 2 0 1 -2 -2 -3 -2 -2 -2 -4 N

第三章序列比对

第三章序列比对
多重序列比对: • 用于描述一组序列之间的相似性关系,以便了解一个
基因家族的基本特征,寻找motif,保守区域等。 • 用于描述一个同源基因之间的亲缘关系的远近,应用
到分子进化分析中。 • 其他应用,如构建profile,打分矩阵等。
3.3.1 序列对数据库的比对检索分 析
• 一条序列对整个数据库进行相似性分析,以发 现其同源性是生物信息学分析中一个极重要的 方面。本质上,这种分析方法类似于将序列两 两对齐重复成百上千次。
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它 们是同源的。这里不存在同源性的程度问题。 这两条序列之间要么是同源的,要么是不同源 的。
• 所谓同源序列,简单地说,是指从某一共同祖 先经趋异进化而形成的不同序列。
• 同源蛋白质的氨基酸序列具有明显的相似性,这 种相似性称为序列同源性。
生物软件网: /
• 当然,DNAStar、DNAMan等软件也 可以进行比对。
• 载入的序列必须是fasta格式, 存储在记事本(.txt)中。
参数可以选择,或者默 认。
Clustal比对后的结果
3.3 多条序列比对方法
3.3.1 序列对数据库的比对检索分析 3.3.2 多重序列的本地化软件对齐 3.3.3 Clustal比对结果的编辑
• 对于DNA序列需要具有75%以上的同源性才可 能具有潜在的生物学意义。
3.2.2 采用本地化软件进行两条序列比 对
• 做多重比对分析的本地软件也可以做 两两比对分析,如clustalX软件等。
• Clustal是一个单机版的基于渐进比对 的多序列比对工具。其基本思想就是 基于相似序列通常具有进化相关性的 这一假设。
• BioEdit软件不能识别“.aln”格式,但可识别 “.pir”或“.phy”格式文件。

第三讲 序列比对

第三讲 序列比对

•替换次数除以相对突变率(mj)
•利用每个氨基酸出现的频度对j 进行标准化 •取常用对数,得到PAM-1(i, j) •将PAM-1自乘N次,可以得到PAM-n
PAM矩阵与BLOSUM矩阵的选择
序列比对的算法
双序列比对的三种算法: • 点阵分析法 • 动态规划法:Needleman-Wunsch、Smith-Waterman • 词或K串法(BLAST or FASTA中应用,后面会提到)
不同的blast命令:blastn、blastp、 blastx、tblastn、tblastx/blastall –p *
升级数据库:update_blastdb.pl
Makeblastdb主要参数 makeblastdb.exe [-h] [-help] [-in input_file] [-
input_type type]-dbtype molecule_type [-title
database_title] [-parse_seqids][-hash_index] [-
mask_data mask_data_files] [-gi_mask][gi_mask_name gi_based_mask_names] [-out
等价矩阵表 A A T 1 0 T 0 1 C 0 0 G 0 0 A T BLAST矩阵 A 5 -4 -4 T -4 5 -4 C G A T -4 -4 -4 -4 转移矩阵 A 1 -5 -1 T -5 1 -5 C G -5 -1 -1 -5
C
G
0
0
0
0
1
0
0
1
C
G
-4 -4
5
-4
C
G
-5 -1 1

序列比对

序列比对

第二节序列比对1引言序列比对是生物信息学的基本组成和重要基础。

序列比对的基本思想是,基于生物学中序列决定结构,结构决定功能的普遍规律,将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似性,发现生物序列中的功能、结构和进化的信息。

序列比对包括双序列比对(pair alignment)和多序列比对(multiple alignment),主要有三个方面的应用。

1.序列功能预测:了解未知序列和已知序列的相同和不同点,可以推测未知序列的结构和功能。

2.分子进化分析:通过多序列比对,分析序列的相似性,判别序列之间的同源性,推测不同序列在结构、功能以及进化上的联系,进行分子进化上的研究。

3.搜索序列数据库,找到已发布的相似性和同源性序列。

值得注意的是,在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。

一级结构序列相似的分子在高级结构和功能上并不必然有相似性,反之,序列不相似的分子,可能折叠成相同的空间形状,并具有相同的功能。

一般的序列比对主要是针对一级结构序列上的比较。

序列和结构之间的比对方面也已经有不少研究,有兴趣的读者可以参考“文献“中的”序列和结构之间的比对“部分。

1部分内容取自Weir B.S.Genetic Data AnalysisⅡ—Methods for Discrete Population Genetic Data, Sunderland:Sinauer Associates Inc.Publishes,1996双序列比对双序列比对的算法主要分为两类:1.整体比对(global alignment)从全长序列出发,考虑序列的整体相似性,即。

Needleman-Wunsch算法是一种经典的基于动态规划的整体比对算法,其最佳比对中包括了全部的最短匹配序列。

2.局部比对(Local alignment)考虑序列部分区域的相似性,即有时两个序列总体并不很相似,但某些局部片断相似性很高。

3序列比对原理

3序列比对原理

100个残基发生一次替换的Dayhoff’s PAM-1矩阵
针对不同的进化距离采用PAM 矩阵
序列相似度 = 40% | 打分矩阵 = PAM120
50% | PAM80
60% | PAM 60
PAM250
→ 14% - 27%
第三节 序列比对算法 Dotplot算法
评估两条序列相似度最简单的方法之一是利用点阵图。
• 假设两条序列:CACGA和CGA,使用统一的空位和 失配罚分 • 则:1、给第一条序列加一个空位
2、给第二条序列加一个空位 3、两条序列都不加空位
如果知道了ACGA与GA最佳比对的得分,就可以立即计算出表中第一行的 得分。同样地,如果知道了表中第二、第三行剩余序列的最佳比对的得 分,就可以计算出起始位点的不同的三种比对得分。
(a)Leabharlann (b)(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋 白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球 蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈 值为8。
常用对比软件:BLAST(bl2seq)
动态规划: Needleman 和 Wunsch 算法
第三章 序列 比对原理
Principles of Sequence Alignment
• Biology
- What is the biological question or problem?
• Data
-What is the input data? -What other supportive data can be used ?
• 考虑这样的两条核苷酸序列: AATCTATA和AAGATA 仅有三种比对方式
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档