第四章 双序列比对的动态规划算法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

5
相似性得分
6
第二节 打分矩阵
• (1)核酸打分矩阵设DNA序列所用的字母表为 = { A,C,G,T }
a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转移矩阵(transition,transversion) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
0
1
C
G
-4 -4
5
-4
C
G
-5 -1 1
-5
-4 5
-5 1
(2)蛋白质打分矩阵
• (i)等价矩阵
1 i j Rij 0 i j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
• (ii) 氨基酸突变代价矩阵GCM • (iii)疏水矩阵 • (iv)PAM矩阵(Point Accepted Mutation) (Dayhoff模型:可接受点突变) • (v) BLOSUM矩阵 (Blocks Amino Acid Substitution Matrices )
C
C K K C F C K C V 3 3 4 3 4 2 2 0
K 3 4 3 3 2 2 3 1 0
H 3 3 3 3 2 2 2 1 0
V 3 3 3 3 2 2 2 1 1
F 2 2 2 2 3 2 2 1 0
C 1 1 1 2 1 2 1 2 0
R 1 1 1 1 1 1 1 1 0
V 1 1 1 1 1 1 1 0 1
1 1 1 1
1 1 1 0 0 0
C K K C F C K C V
C 1
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
1 1 1 1
1 1 1 0 0 0
C K K C F C K C V
C 1
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
1 1 1 1 0 1
1 1 0 1 0
0 0 0
C 1
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
1 2 1 2 0 1 1 1 0 1 1 0 1
1 1 0 1 0 0 0 0 0
C
C K K C F C K C V 2 2 0
K
H
V
F
3 1 0
2 1 0
2 1 1
2 1 0
C 1 1 1 2 1 2 1 2 0
R 1 1 1 1 1 1 1 1 0
• 第I行第j列单元的值为
Ij本身的值 + i+1行第j个单元之后所有单元的最大值 或 j+1列第i个单元之后所有单元的最大值
举例说明
• 让我们用一个例子来解释上述过程: • CKHVFCRVCI
• CKKCFCKCV
• 若在匹配位置用1标出,而不匹配则留空。
可得以下矩阵
C K K C F C K C V
C K K C F C K C V
C 1
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
1 1 1 1 0 1
1 1 0 1 0
0 0 0
C K K C F C K C V
C 1
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
1 1 1 1 1 0 1
1 1 0 1 0
0 0 0
C K K C F C K C V
1
2 1 2 2 1 0 1 2 2 2 1 2 1 2 2
1
1 1 2 2 2 1 0 2 1 1 2 2 2 1 2
1
2 2 1 1 2 2 2 0 1 2 2 2 1 2 2
1
2 1 1 2 2 2 1 1 0 2 2 1 1 1 1
2
1 2 2 2 2 2 1 2 2 0 1 1 2 2 2
K
V T P E D N I Q R F Y C H M W
2
1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
2
2 1 1 2 2 1 1 2 1 1 1 1 2 2 1
2
1 2 2 1 1 2 2 2 1 2 2 1 2
2
1 2 1 2 2 2 1 1 1 1 2 2 1
0
2 1 2 1 2 1 1 1 1 2 2 2 2 1 2
1
2 2 2 1 2 2 2 1 2 2 2 2 2 2 2
2
2 2 2 2 1 1 2 2 2 2 1 2 1 2 2
2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 111 1 1
疏水矩阵
R R K D E B Z S N Q G X K D E B Z S N Q G X T H A C M P V L I Y F W 10 10 9 9 8 8 6 6 6 5 5 5 5 5 10 10 9 9 8 8 6 6 6 5 5 5 5 5 9 9 10 10 8 8 7 6 6 6 5 5 5 5 9 9 10 10 8 8 7 6 6 6 5 5 8 8 8 8 10 10 8 8 8 8 7 7 7 7 8 8 8 8 10 10 8 8 8 8 7 7 7 7 6 6 7 7 8 8 10 10 10 10 9 9 9 9 6 6 6 6 8 8 10 10 10 10 9 9 9 9 6 6 6 6 8 8 10 10 10 10 9 9 9 9 5 5 6 6 8 8 10 10 10 10 9 9 9 9 5 5 5 5 7 7 9 9 9 9 10 10 10 10 5 5 5 5 7 7 9 9 9 9 10 10 10 10 5 5 5 5 7 7 9 9 9 9 10 10 10 10 5 5 5 5 7 7 9 9 9 9 10 10 10 10 4 4 5 5 6 6 8 8 8 8 9 9 9 9 3 3 4 4 6 6 8 8 8 8 9 9 9 9 3 3 4 4 6 6 7 8 8 8 8 8 9 9 3 3 4 4 5 5 7 7 7 8 8 8 8 8 3 3 3 3 5 5 7 7 7 7 8 8 8 8 3 3 3 3 5 5 7 7 7 7 8 8 8 8 2 2 3 3 4 4 6 6 6 6 7 7 7 7 1 1 2 2 4 4 6 6 6 6 7 7 7 7 0 0 1 1 3 3 4 4 4 5 5 5 5 5
C 1
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
1 1 1 1
1 1 1
连续求和
C K K C F C K C V
C 1
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
1 1 1 1
1 1 1
从最后的单元开始
C K K C F C K C V
C 1
ຫໍສະໝຸດ Baidu
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
C 1 1 1 2 1 2 1 2 0
R 1 1 1 1 1 1 1 1 0
V 1 1 1 1 1 1 1 0 1
C 1 0 0 1 0 1 0 1 0
I 0 0 0 0 0 0 0 0 0
• 从最高分值单元开始找出最大分值路径, 也就是最佳匹配
C K K C F C K C V
C 5 3 3 4 3 4 2 2 0
K 3 4 3 3 2 2 3 1 0
H 3 3 3 3 2 2 2 1 0
V 3 3 3 3 2 2 2 1 1
F 2 2 2 2 3 2 2 1 0
C 1 1 1 2 1 2 1 2 0
R 1 1 1 1 1 1 1 1 0
V 1 1 1 1 1 1 1 0 1
H 3 3 3 3 2 2 2 1 0
V 3 3 3 3 2 2 2 1 1
F 2 2 2 2 3 2 2 1 0
C 1 1 1 2 1 2 1 2 0
R 1 1 1 1 1 1 1 1 0
V 1 1 1 1 1 1 1 0 1
C 1 0 0 1 0 1 0 1 0
I 0 0 0 0 0 0 0 0 0
8
• 氨基酸突变代价矩阵GCM
一个氨基酸残基转变到另一个氨基酸残基 所需的密码子碱基变化数目 1 或 2 只有Met到Tyr为 3
9
10
GCM矩阵
A A S G L 0 1 1 2 S 1 0 1 1 G 1 1 0 2 L 2 1 2 0 K 2 2 2 2 V 1 2 1 1 T 1 1 2 2 P 1 1 2 1 E 1 2 1 2 D 1 2 1 2 N 2 1 2 2 I 2 1 2 1 Q 2 2 2 1 R 2 1 1 1 F 2 1 2 1 Y 2 1 2 2 C 2 1 1 2 H 2 2 2 1 M 2 2 2 1 W 2 1 1 1 Z 2 2 2 2 B 2 2 2 2 X 2 2 2 2
2
2 2 2 2 1 1 2 2 2 1 0 1 1 3 2
2
2 2 2 2 2 2 2 2 1 1 1 0 2 2 1
2
2 2 1 2 1 1 2 1 1 2 1 2 0 2 2
1
1 1 2 2 2 2 1 2 1 2 3 2 2 0 2
2
2 2 2 2 2 2 2 2 1 2 2 1 2 2 0
表3.1 等价矩阵表 A A T 1 0 T 0 1 C 0 0 G 0 0 A T 表3.2 BLAST矩阵 A 5 -4 -4 T -4 5 -4 C G A T -4 -4 -4 -4 表3.3 转移矩阵 A 1 -5 -1 T -5 1 -5 C G -5 -1 -1 -5
C
G
0
0
0
0
7
1
0
V 1 1 1 1 1 1 1 0 1
C 1 0 0 1 0 1 0 1 0
I 0 0 0 0 0 0 0 0 0
C
C K K C F C K C V
K
H
V
3 4 2 2 0
2 2 3 1 0
2 2 2 1 0
2 2 2 1 1
F 2 2 2 2 3 2 2 1 0
C 1 1 1 2 1 2 1 2 0
第四章 双序列比对
概念
– 同源(homology)- 具有共同的祖先
• 直向同源(Orthologous ) • 共生同源(paralogous )
– 相似(similarity)
同源序列一般是相似的,相似序列不 一定是同源的
2
3
通过点矩阵进行序列比较
4
编辑距离(Edit Distance)
R 1 1 1 1 1 1 1 1 0
V 1 1 1 1 1 1 1 0 1
C 1 0 0 1 0 1 0 1 0
I 0 0 0 0 0 0 0 0 0
C
C K K C F C K C V 4 3 4 2 2 0
K
H
3 2 2 3 1 0
3 2 2 2 1 0
V 3 3 3 3 2 2 2 1 1
2
0 2 2 1 1 2 1 2 2 1 2 2 2 1 2
1
2 0 1 2 2 1 1 2 1 2 2 2 2 1 2
2
2 1 0 2 2 2 2 1 1 2 2 2 1 2 2
1
1 2 2 0 1 2 2 1 2 2 2 2 2 2 2
2
1 2 2 1 0 1 2 2 2 2 1 2 1 2 2
C 1 0 0 1 0 1 0 1 0
I 0 0 0 0 0 0 0 0 0
C K K C F C K C V
C 5 3 3 4 3 4 2 2 0
K 3 4 3 3 2 2 3 1 0
H 3 3 3 3 2 2 2 1 0
V 3 3 3 3 2 2 2 1 1
F 2 2 2 2 3 2 2 1 0
T
H A
125
5
动态规划算法
• 动态规划算法 • 整体比对算法
– Needleman-Wunsch算法
• 间隔罚分 • 局部比对算法
– Simth-Waterman算法
• 矩阵的基本形式是 • 将两序列中匹配的残基所对应的单元设 为1,不匹配的为0 • 对矩阵中的每个单元进行连需求和,即 把能够到达该位置的所有单元中的最大 值与该位置的值相加
C 1
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
1 1 1 1 1 1 0 1 1 0 1
1 1 0 1 0 0 0 0 0
C K K C F C K C V
C 1
K
1
H
V
F
C 1
R
V
C 1
I
1 1 1 1 1 1
1 1 1 1 0 1 1 0 1
1 1 0 1 0 0 0 0 0
1
C K K C F C K C V
V 1 1 1 1 1 1 1 0 1
C 1 0 0 1 0 1 0 1 0
I 0 0 0 0 0 0 0 0 0
C
C K K C F C K C V 4 2 2 0
K
H
V
F
2 3 1 0
2 2 1 0
2 2 1 1
2 2 1 0
C 1 1 1 2 1 2 1 2 0
R 1 1 1 1 1 1 1 1 0
F 2 2 2 2 3 2 2 1 0
C 1 1 1 2 1 2 1 2 0
R 1 1 1 1 1 1 1 1 0
V 1 1 1 1 1 1 1 0 1
C 1 0 0 1 0 1 0 1 0
I 0 0 0 0 0 0 0 0 0
C
C K K C F C K C V 3 4 3 4 2 2 0
K
3 3 2 2 3 1 0
相关文档
最新文档