DNA模体建模与识别

合集下载

HMM建模训练和人脸识别工作流程

HMM建模训练和人脸识别工作流程

HMM 建模训练和人脸识别工作流程为了要识别人脸,必须先训练出一批人脸的隐马尔可夫模型。

在识别时,人脸库中的每个人脸就是一个人脸的隐马尔可夫模型表示。

每个模型可以用单幅或多幅图像进行训练,训练按以下步骤进行:(1)把要训练的人脸图像进行同一分割(Uniformly Segmentation )提取出人脸特征相联系的观察值序列,1i O i T ≤≤。

(2)建立一个通用的HMM 模型(,,)A B λπ=,确定模型的状态数,允许的状态转移和观测序列向量的大小。

(3)将训练数据均匀分割,与N 个状态对应,计算隐马尔可夫模型的初始参数,状态之间的转移概率矩阵A 在这里初始化。

设定状态i 只能返回到本身或者转移到1j i =+状态,即0ij a =,j i 〈或者1j i 〉+,即对于初始状态概率分布,我们设定1(0,1)i i πππ==≠,即假设HMM 是从第一个状态开始的。

而对于观察概率矩阵B 的初始化,我们假设:1,1,1ik b i N k M M=≤≤≤≤,这样,就初始化出一个隐马尔可夫模型(,,)A B λπ=。

(4)最后采样前向-后向算法或者Viterbi 算法计算出观察向量O 在这个模型下的(|)P O λ。

用Viterbi 分割取代平均分割,重新进行参数的初始估计。

(5)初始模型确定以后,利用Baum -Welch 重估算法对初始隐马尔可夫模型进行重新计算。

隐马尔可夫模型的各个参数在这个步骤中得以重新估计,得到initial A =11a0 012a 00 0 22a0 0 0 0 23a0 00 0NNa 1,N N a -01,1N N a --0一个新的(,,)A B λπ'''=。

然后利用前向-后向算法或者Viterbi 算法计算出观察值序列O 在这个模型下的(|)P O λ'。

为了估计出最接近于观察值序列O 的模型,设定门限值(Threshold)C ,当|(|)(|)|P O P O C λλ-〈时(此时(|)P O λ收敛),即得到训练出的隐马尔可夫模型,否则令λλ'=,重复此步骤,直至(|)P O λ收敛,得到接近于观察值序列的隐马尔可夫。

dna分子结构模型

dna分子结构模型

dna分子结构模型DNA分子结构模型是指现代生物学研究中对DNA分子的结构和功能进行描述的模型。

DNA是指生物体内获得遗传信息的重要物质,因此对其结构、功能以及遗传规律的研究有着重要的科学意义。

下面分步骤介绍DNA分子结构模型:第一步,DNA分子的基本结构及组成DNA分子的基本结构由四种不同的核苷酸组成,这四种核苷酸分别是腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。

它们的不同排列和组合形成了脱氧核糖核苷酸,脱氧核糖核苷酸是构成DNA的基本单元。

第二步,DNA的二级结构DNA分子的二级结构是指DNA分子的排列方式。

DNA分子能够串联成长的螺旋形结构,在这个结构之上搭建了进一步更大的分子结构。

DNA的双螺旋结构分别由两股DNA链构成,这两股链以互补的配对方式相对结合。

也就是说,腺嘌呤与胸腺嘧啶之间进行互补配对,而胞嘧啶则与鸟嘌呤进行互补配对。

第三步,DNA的三级结构DNA分子的三级结构描述了DNA分子的空间结构,也就是DNA分子有哪些形态和骨架结构。

DNA分子的空间结构通常被描述为一条长长的双螺旋线。

同时,DNA分子也存在一些辅助性的结构,如启动子、转录因子和紧密包含的核小体等。

第四步,DNA的功能DNA分子的功能通常被描述为遗传信息的传递和储存。

DNA分子携带着生物体内的基因,它们指示了生物体的各种形态、特征和功能。

这些基因能够传递到后代中,并对后代的生物性状进行控制和调节。

研究DNA分子结构模型是现代生物学研究中的重要内容,它对生命科学的研究和应用产生了巨大的影响。

通过深入研究和理解DNA分子的结构模型,我们能够更好地探寻生命规律和生物进化的历程,为人类的健康和生命做出巨大贡献。

Choosing the Right Tool for the Job剖析

Choosing the Right Tool for the Job剖析

Choosing the Right Tool for the Job:RNAi, TALEN, or CRISPR选择一个恰当的方式:RNAi,TALEN,CRISPR 摘要:研究基因功能最常见的方法是减少或阻断基因的正常表达。

十多年来,RNAi一直是这一领域的王者,它提供了一个奇妙的方法来阻断许多生物的基因的表达。

然而随着新技术的涌现(尤其是CRISPR技术),正逐渐瓦解RNAi在哺乳动物细胞研究中的统治地位。

日新月异的技术发展也给研究者们带来了一个问题,“到底应该在实验中选择那一种技术呢?”这篇文章就是通过比较和对比这些技术而形成的一篇指导性文章。

引言:人类基因组计划测序的成功(Lander et al., 2001) ,给人们提供了关于人类的基本内在作用方式的全新的深入了解,也使得人们向治愈大多数疾病迈进了一大步。

在其完成了的15年多后,生物学家仍在继续致力于把攻坚于大量的基因组序列编码的成千上万的未知功能的基因(Birney et al., 2007)。

基因组测序是一个惊人的挑战,但是,具有广大的前景,而且只是最初的一小步。

最困难的挑战摆在面前:破译3.3亿DNA碱基对隐藏的意义,通过设定成千上万的基因的功能来说明它们是怎样一起作用使我们之所以成为人类的。

这是一个伟大的生物学承诺,但还尚未实现,随着最近新的生物学技术的发展,最大的发现还在后面。

破译基因功能的金标准就是阻断正常的基因表达和研究其产生的表型。

这种功能失活实验从Thomas Morgan发现了基因位于染色体上而且携带导致变异表型的突变基因开始,已经运用了100多年,在此基础上,数代科学家们致力于用基因突变、化学物质、放射线和病毒整合来映射每一个表型到相应的特异突变基因。

这种正向遗传学方法已经被运用了数十年,由于技术上充满了许多挑战(技术上的限制),使得这个过程(试图随机映射和在基因组DNA海洋里的表面上微小病变都)复杂化了。

DNA的结构ppt课件

DNA的结构ppt课件


基本骨架;碱基排列在内侧。
③两条链上的碱基通过 氢键连接成碱基对,并且碱基配
对具有一定的规律。A与T配对,G与C配对。碱基之间的
这种配一一对应的关系叫做

碱基互补配对原则
任务三:DNA分子的特性
思考:DNA作为主要的遗传物质,具有哪些特性?
T
A
A
T
A
T
C
G
C
G
G
C
A
T
A
T
A
T
G
C
G
C
G
C
T
A
T
A
DNA在细胞中始终处于水环境中。
假说一
假说二
பைடு நூலகம்
假说三
假说四
模型建构三:建构脱氧核酸
资料四: 富兰克林发现:碱基疏水,磷酸亲水,DNA在细胞中始终处于水环境中。
假说二
假说三
模型建构三:建构脱氧核酸
资料五:①嘌呤和嘧啶的分子结构图如下,嘌呤的长度较长,嘧啶 的长度较短,但DNA具有稳定的直径,两条链之间恒定在2nm。
谢谢

G
T A
C


DNA平面结构
DNA立体结构
归纳总结DNA的结构特点
活动四:小组合作,构建DNA的结构模型,并归纳总结DNA的结构特点
任务二:DNA的结构特点
① DNA是由两条 脱氧核苷酸链 构成, 这两条链按 式盘旋成 双螺旋结构 。
反向平行

②DNA中的 脱氧核糖和磷酸交替排连接排列在外侧,构

H ②
P
o

T
非常稳定,在25℃,pH7.0的水溶液中,

制作DNA双螺旋结构模型中遇到的几个问题及应对

制作DNA双螺旋结构模型中遇到的几个问题及应对
一些制作模型的材料在长时间使用或暴露 于特定环境中可能会发生颜色变化或褪色 ,导致模型失去原有的视觉效果。这不仅 影响模型的外观,还可能影响使用者对 DNA双螺旋结构的认知。
比例失调
总结词
模型中的各部分比例与实际DNA双螺 旋结构比例不匹配。
详细描述
在制作模型时,由于尺寸控制不精确 或对DNA双螺旋结构理解不足,可能 导致模型的比例失调。这种失调可能 使使用者对DNA双螺旋结构的理解产 生偏差,影响学习效果。
04
应对策略与解决方案
材料优化
总结词
选择合适的材料是制作DNA双螺旋结构模型的关键,直接影响到模型的精度和稳定性 。
详细描述
在制作过程中,应选择高精度、高稳定性的材料,如塑料、金属或木质等,以确保模型 的精确度和持久性。同时,要确保所选材料具有良好的可塑性和耐久性,以便能够准确
地呈现DNA双螺旋结构的细节。
详细描述
在制作过程中,需要仔细研究DNA的 结构特点,并尽可能在模型中呈现这 些特点。例如,A与T配对,G与C配对 的关系需要在模型中明显地展示出来 。
颜色与原型的匹配度
总结词
颜色的准确性对于模型的逼真度和认知度都很重要,特别是 对于DNA这样的生物分子模型。
详细描述
为了使模型的颜色与实际DNA结构相匹配,可以使用天然的 或人工合成的染色剂,根据实际DNA的颜色进行染色。此外 ,还可以使用不同颜色的标记物来区分不同的组成部分,如 碱基、磷酸和糖环。
完成调整后,要将模型保存在干燥、阴凉的地方,避免阳 光直射和潮湿环境。在使用过程中,要小心轻放,避免损 坏模型。
THANKS
谢谢您的观看
选择合适的材料
根据制作目的和预算,选择合适的材 料。例如,塑料、纸板、泡沫塑料等 都是常见的材料,但每种材料都有其 优缺点,需要综合考虑。

基于数学建模方法对DNA序列分类的探究

基于数学建模方法对DNA序列分类的探究

基于数学建模方法对DNA序列分类的探究摘要运用模糊聚类数学建模方法对DNA序列进行分类。

对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵比较方法进行DNA序列分类。

关键词模糊聚类分析;DNA分类;数学建模中图分类号O242 文献标识码 A 文章编号1673-9671-(2012)052-0202-021 概述2000年6月,人类基因组计划中DNA全序列草图完成。

DNA序列由A、T、C、G4种碱基按一定规律排列而成。

当前生物信息学最重要的课题之一是研究由这4种碱基排列成的序列中蕴藏的规律。

目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。

这种被称为粗粒化和模型化的方法往往有助于研究其规律性和结构。

现已知20个人工序列1~10属于A类,11~20属于B类,要求运用数学建模方法发掘已知类别DNA序列的特征,从而据此对未知类别的20个DNA序列进行分类。

本文对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵方法对DNA序列进行分类。

2 模糊聚类分析模型2.1 主要研究步骤通过观察发现,A类DNA序列中G碱基含量较多,T碱基含量较少,而B 类DNA序列则刚好相反。

所以可用这20条DNA序列中T和G碱基在自身序列中所占的频率作为基本研究对象,并对T、G碱基所占的比例的原始数据进行标准化,放大差异。

再建立相应的模糊相似矩阵,模糊等价矩阵和λ截矩阵,找出一个最优的λ值进行DNA序列分类并使分类准确度达到最高。

最后用上述方法以及λ值对另外20个未明类别的序列进行分类。

2.2 原始数据标准化先对T和G碱基频率作标准化处理。

平移—标准差变换(i=1,2…,20;j=2,4)其中xi是第i个DNA序列,x’ij是指碱基A,G,C,T在第i个DNA序列中出现的频率,x”ij是对x’ij进行标准化后的标准频率值,,,(j=2,4)。

DNA分子的结构青年教师大赛获奖示范课公开课一等奖课件省赛课获奖课件

2.沃森和克里克在构建模型的过程中,出现过哪些错误? 他们是如何看待和纠正这些错误的?
3.沃森和克里克默契配合,发现DNA双螺旋构造的过程, 作为科学家合作研究的典范,在科学界传为佳话。 他们这种工作方式予以你哪些启示?
构成DNA的基本单位:脱氧核苷酸 构成DNA的碱基:
腺嘌呤(A)鸟嘌呤(G) 胞嘧啶(C)胸腺嘧啶(T) 因此,脱氧核苷酸也有4种
1953年,美国生物学家沃森 (J.D.Watson,1928—)和英国物理 学家克里克(F.Crick,1916—2004), 共同提出了DNA分子的双螺旋构造模型。
这是20世纪继爱因斯坦发现相对论之后的 又一划时代发现,它标志着生物学的研究进入 分子的层次。因为这项“生物科学中最具有革 命性的发现”,两位科学家获得了1962年度诺 贝尔生理学或医学奖。
某些规律。
∵ A = T ,G = C
∴ A+G=T+C
∴ A+G
T+C
(A+T+C+G ) (A+T+C+G
)50%
也能够写成下列形式:
A + G ( A + C ) ( T + G ) …… 1 T+C ( T+G ) (A+C )
规律概括:在DNA双链中,任意两个不互补碱基之 和 相等 ,并为碱基总数的 50% 。
资料2:DNA是由许多个脱氧核苷酸连接 而成的长链。
资料3:1951年,英国科学家威尔金斯和 富兰克林提供了DNA的X射线衍射图谱 。
资料4:奥地利出名生物化学家查哥夫研究得出:腺嘌呤 (A)的量总是等于胸腺嘧啶(T)的量(A=T),鸟嘌呤 (G)的量总是等于胞嘧啶(C)的量(G=C)。

【中级】DNA分子模型

DNA分子模型种瓜得瓜种豆得豆生命的遗传是由什么决定的?DNADNA到底是什么?d eoxyribo n ucleic a cid脱氧核糖核酸的酸脱氧核糖核酸DNA双螺旋模型它在哪里?脑细胞脂肪细胞肌肉细胞血红细胞神经细胞细胞DNA 细胞核染色体为什么不一样?为什么不一样?为什么不一样?德国牧羊犬日本柴犬它们的DNA看起来“一样”,真的是完全相同的吗?相同不相同这些是什么?糖-磷酸螺旋(相同)碱基对(不同)四种不同碱基糖-磷酸螺旋(相同)碱基对(不同)_____种不同碱基DNA到底是怎样实现不同的?碱基对A 五碳糖磷酸碱基腺嘌呤G鸟嘌呤C 胞嘧啶T 胸腺嘧啶DNA 由四种核苷酸组成A C G T ……………………反向平行两条链G TA C …………人细胞核中一个DNA含有30亿个碱基对,它们的排列顺序能够蕴藏大量的遗传信息。

DNA长链中碱基对的种类、数量、排列顺序的不同,造成了生物性状的多样化。

DNA控制性状自己动手拼接DNA平面模型吧…………拼接的时候需要注意什么?你发现了什么?A和T配对,G和C配对四种核苷酸可以随意排列DNA的立体结构是怎样发现的?莱纳斯·卡尔·鲍林Linus Carl Pauling 1901-1994鲍林 最早认定DNA具有螺旋结构,但他错误地认为DNA是三条链螺旋,使得他误入歧途没有得到真实的及结构。

罗莎琳德·富兰克林Rosalind Franklin1920-1958莫里斯·威尔金斯MauriceHugh Frederick Wilkins1916-2004富兰克林使用X射线衍射技术拍摄到了DNA的衍射图像并确定DNA为双螺旋结构威尔金斯使计算出DNA分子螺旋直径与长度詹姆斯·杜威·沃森James Dewey Watson 1928-?弗朗西斯·克里克Francis Crick1916-2004沃森和克里克受到富兰克林的晶体衍射图像的启发,最终确定DNA的结构。

DNA分子结构3D模型

DNA分⼦结构3D模型⽣物信息资源更新越来越快,使⽤可视化的⽅法来分析DNA序列已成为⽣物信息学的⼀个研究热点,⽤图形表⽰DNA序列的⽅法也越来越成熟。

2011年,著名杂志《Science》发表⼀篇引起轰动的⽂章:《Presenting the Human Genome:Now is 3D!》,这篇⽂章完全给我们描述了⼈类基因组测序未来的蓝图,可见3D技术在很多领域都是发展⽅向。

使⽤mono可以快速的创建DNA分⼦结构⽴体模型,效果如下:当然简单的呈现DNA分⼦结构,仅仅是⼀部分功能,如果将mono和专业的DNA分析仪结合,不仅可以发现病症,更重要的是预测病症的发⽣,治病于未发,这将是⼈类的福⾳。

除了研究⼈类基因之外,我们还可以对农作物的进⾏DNA3D模型化,并加以分析,对农业的发展和粮⾷安全⽅⾯都会有积极的意义。

使⽤mono创建3D模型最⼤的特点就是快,代码不过⼏⼗⾏,使⽤Editor更是不需要代码量。

本⽂的效果图通过代码实现,核⼼代码如下:function createDNA(box, x, y, z, colors){var count=20+Math.random()*50;var dist=50;var parent=createNode(box, 10, 0,0,0,'red');for(var i=0;i<count;i++){var angle=Math.PI*2/360*15*i;var radius = (i % 2==0) ? 10 : 7;var color = colors[i%2]var node1=createPairNode(box, dist, radius, i, angle, color);var node2=createPairNode(box, dist*0.3, radius, i, angle, color);node1.setParent(parent);node2.setParent(parent);if(i % 2==0){var link=createLink(box, node1, node2, dist, angle, 'gray');var node3=createPairNode(box, dist*0.58, radius*0.4, i, angle, 'cyan');var node4=createPairNode(box, dist*0.72, radius*0.4, i, angle, 'cyan');link.setParent(parent);node3.setParent(parent);node4.setParent(parent);}}parent.setPosition(x,y,z);parent.setStyle('m.visible',false);return parent;}。

dna分子结构模型知识点

dna分子结构模型知识点DNA分子结构模型知识点DNA(脱氧核糖核酸)是生物体内负责存储和传递遗传信息的分子。

在科学界,对DNA的研究由20世纪初的不完全认识逐渐演变为对其分子结构和功能的深入理解。

在这篇文章中,我们将一步一步回答关于DNA分子结构模型的问题,以帮助读者更好地了解DNA的特点和功能。

第一步:DNA的发现和基本特点在了解DNA分子结构模型之前,我们首先需要了解DNA的发现和基本特点。

DNA的存在于1869年由瑞士化学家弗里德里希·米谢尔(Friedrich Miescher)首次提出。

DNA分子由两个长串的核苷酸链构成,每个核苷酸单元由一个糖(脱氧核糖)和一个碱基(A、T、G、C中的一种)以及一个磷酸基团组成。

第二步:DNA的多层级结构DNA的多层级结构是指它的组织方式以及不同层次的结构。

从最基本的层级开始,我们可以将DNA分子看作由两个互相缠绕的链形成的螺旋结构,这就是著名的DNA双螺旋结构。

这个结构可以想象为一条绳子上两根纽扣相互扣在一起,形成一个紧密的螺旋结构。

第三步:双螺旋的构成元素DNA双螺旋的构成元素是核苷酸。

每个核苷酸由一个糖分子连接一种碱基和一个磷酸基团。

对于DNA,其糖分子是脱氧核糖,碱基有四种选择:腺嘌呤(Adenine,简称A)、胸腺嘧啶(Thymine,简称T)、鸟嘌呤(Guanine,简称G)和胞嘧啶(Cytosine,简称C),磷酸基团则负责连接糖分子和碱基。

第四步:碱基的配对规则DNA分子的稳定性和双螺旋结构的形成主要是由碱基的配对规则决定的。

这个规则是指A和T以及G和C之间的互补配对。

具体来说,A永远与T 配对,而G则与C配对。

这个配对规则保证了DNA分子的稳定性,并且可以允许分子的信息通过复制过程进行传递。

第五步:DNA的三维结构除了双螺旋结构之外,DNA还有更复杂的三维结构。

DNA分子可以通过不同的方式弯曲和交叉,在空间中形成各种形状。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 建立权矩阵
Gibbs 采样算法 III
3. 随机选择一条序列
Gibbs 采样算法 IV
4. 用权矩阵给序列中可能的位点打分
可能性 (概率)
Gibbs 采样算法 V
5. 抽样一具有相似可能性的位点
可能性 (概率)
Gibbs 采样算法 VI
6. 升级权矩阵
可能性 (概率)
Gibbs 采样算法 VII
• 沿序列滑动 WMM ttgacctagatgagatgtcgttcacttttactgagctacagaaaa
….. 为每个 9 碱基窗口赋分值 用临界值预测 5’ 端潜在剪接位点
5’ 剪接位点柱状图
“Decoy” 5’ 剪接 位点
真实 5’ 剪接 位点
得分( 1/10 比特单位) 测量精度: 灵敏度:真实位点 w/ score 百分数 > 临界值 特异性:位点 w/ score 百分数 > 临界值 为真实位点
This slide courtesy of M. Yaffe
信息论
Courtesy of M. Yaffe
假设 20 种氨基酸有同样的可能性: Hbefore=4.32 , Hafter=0 因此,该位点编码信息量为 4.32-0=4.32 , 模体中另一个位置包含 20 种氨基酸: Hbefore=4.32 , Hafter=4.32 因此,该位点编码信息量为 4.32-4.32=0
s= “actactgtatcgtactgactgattaggccatgactgcat”
模体位点 A Lawrence et al. Science 1993
准备好
Gibbs 采样算法的描述: •图片 •文字 •视频
Gibbs 采样算法 Ⅰ
1. 在每条序列中选择随机位点
序列组 模体例子
Gibbs 采样算法 Ⅱ
Lawrence et al., Science 1993
如果有,这个算法实现了什么(除 了让我们的电脑忙于运算外)?
强模体序列输入
累 积 频 率
输入序列(弱模体)
gcggaagagggcactagcccatgtgagagggcaaggacca atctttctcttaaaaataacataattcagggccaggatgtgtcac gagctttatcctacagatgatgaatgcaaatcagctaaaagat aatatcgaccctagcgtggcgggcaaggtgctgtagattcgggt accgttcataaaagtacgggaatttcggtatacttttaggtcgttat gttaggcgagggcaaaagtcactctgccgattcggcgagtgat cgaagagggcaatgcctcaggatggggaaaatatgagacca ggggagggccacactgcacacgtctagggctgtgaaatctctg ccgggctaacagacgtgtcgatgttgagaacgtaggcgccga ggccaacgctgaatgcaccgccattagtccggttccaagagg gcaactttgtctgcgggcggcccagtgcgcaacgcacagggc aaggtttatgtgttgggcggttctgaccacatgcgagggcaacct cccgtcgcctaccctggcaattgtaaaacgacggcaatgttcg cgtattaatgataaagaggggggtaggaggtcaactcttcaatg cttataacataggagtagagtagtgggtaaactacgtctgaacc ttctttatgcgaagacgcgagggcaatcgggatgcatgtctgac aacttgtccaggaggaggtcaacgactccgtgtcatagaattc catccgccacgcggggtaatttggatcccgtcaaagtgccaac ttgtgccggggggctagcagctacagcccgggaatatagacg cgtttggagtgcaaacatacacgggaagatacgagttcgatttc aagagttcaaaacgtgcccgataggactaataaggacgaaa cgagggcgatcaatgttagtacaaacccgctcacccgaaagg agggcaaatacctagcaaggttcagatatacagccagggga gacctataactcgtccacgtgcgtatgtactaattgtggagagc aaatcatt -
常见模体形容词: 精密、精确 与 退化 强 与 弱(好 与 差) 高信息量 与 低信息量
信息论
• 我们以 Shannon’s 著名的公式结束
其中 H = 比对中每个 位点包含的比特 “信 息熵” 这表示什么? H 是熵或随机性或无序性的度量 …… 它告诉我们在模体某一位置有不同氨基酸丰度的不确定度
章节 模型 对象 结构相关性 权矩阵 模型
3/2 3/4
无相关性
隐马尔可 夫模型
局部相关性
3/9
能量模型 共体模型
无局部相关性
Байду номын сангаасNA 模体的发现与建模
• • • • 回顾——剪切位点的权矩阵模型 模体的信息量 模体的发现与搜索的问题 Gibbs 抽样
• 模体模型——权矩阵之上
见 Mount 的第四章
模体搜索例子: Gibbs 采样
Gibbs 采样是一种蒙特卡罗方法,可以从输入序列数据中搜索最大似然率函数。 在 A 位置有模体的序列 s 的似然率函数 权矩阵 背景频率矢量
P(S , A|Θ,θB) = θB, a × ... × θB,a ×Θ1, t×Θ2, a× ... ×Θ8, c×θB, t ×... ×θB, t
7. 迭代至收敛(位点 /Θ 不改变)
Gibbs 采样算法文字描述 I
假设有宽度 W 期望模体,长度为 L 的序列 N : 步骤 1 ) 在每条序列中选择随机位点:序列 1 a1 ,序列 2 a2 ,…,序列 n an 。 步骤 2 ) 在序列组中随机选择序列(比如,序列 1 )。 步骤 3 ) 为所有序列中宽度 W 的位点建立权矩阵,第 2 步中选中的序列除外。 步骤 4 ) 用第三步中建立的权矩阵为序列 1 中每个位点设 置概率: p = { p1, p2, p3, …, pL-W+1 }
DNA 模体的信息含量
• 位点 j 所包含的信息: Ij = Hbefore -Hafter • 模体概率: pk (k = A, C, G, T) • 背景概率: qk = 1/4 (k = A, C, G, T)
Log base 2 gives entropy/information in ‘bits’
7.91 / 7.36 / BE.490 第三讲 2004-03-02
DNA 模体建模与发现
Chris Burge
DNA 序列比较与比对回顾
• 目标序列和错配罚分 • 真核基因结构 • 比较基因组学应用: -Pipmaker (两序列比对) - 系统发育投影(多序列) • DNA 序列模体介绍
主题结构
Lawrence et al., Science 1993
Gibbs 采样算法文字描述 II
假设有宽度 W 期望模体,长度为 L 的序列 N 步骤 5 ) 根据该概率分布在序列 1 中抽样起始点,设该 新位点为 a1 。 步骤 6 ) 从序列组中随机选取序列(比如说,序列 2 ) 。 步骤 7 ) 为所有序列个位点建立宽度 W 的权矩阵模型, 第 6 步中选中序列除外。 步骤 8 ) 用第七步建立的权矩阵,为序列 2 中每个位点 赋予概率 步骤 9 ) 按照该 dist, 为序列 2sample 起始点 步骤 10 )重复直至收敛
剪切位点 Ⅰ
5‘ 剪切位点
分支点
3‘ 剪切位点
权矩阵模型
5‘ 端剪接 信号
可能性
II
背景
可能性 普通的
概率系数
背景同源模型,假设为独立
权矩阵模型 III
概率系数
得分
Neyman-Pearson 定理: 最优化判别规则的形式: R>C 因为 log 是单调函数, log2(R) > C’
权矩阵模型 IV
模体的平均比特得分
• 比特分数: log2 ( pk/qk ) • 平均比特分数:(模体宽度 w, n = 4w, qk=1/4w )
经验规律 * :每 2mb 随机序列有 w/m 比特的模体信 息
* 在常规表达中大约符合,在其他模体中符合
模体搜索的问题
未比对 Cgggcactagcccatgtgagagggcaaggaccagcggaa gtaattcagggccaggatgtatctttctcttaaaaataacatatcct acagatgatgaatgcaaatcagcgtcacgagctttggcgggc aaggtgcttaaaagataatatcgaccctagcgattcgggtacc gttcataaaagtacgggaatttcgggtaggttatgttaggcgag ggcaaaagtcatatacttttaggtcaagagggcaatgcctcctc tgccgattcggcgagtgatcggatggggaaaatatgagacca ggggagggccacactgcagctgccgggctaacagacaca cgtctagggctgtgaaatctgtaggcgccgaggccaacgctg agtgtcgatgttgagaacattagtccggttccaagagggcaac tttgtatgcaccgccgcggcccagtgcgcaacgcacagggc aaggtttactgcggccacatgcgagggcaacctccctgtgttg ggcggttctgagcaattgtaaaacgacggcaatgttcggtcgc ctaccctggataaagaggggggtaggaggtcaactcttccgt attaataggagtagagtagtgggtaaactacgaatgcttataac atgcgagggcaatcgggatctgaaccttctttatgcgaagactc caggaggaggtcaacgactctgcatgtctgacaacttggtcat agaattccatccgccacgcggggtaatttggacgtgtgccaac ttgtgccggggggctagcagcttcccgtcaaacgcgtttggag tgcaaacatacacagcccgggaatatagaaagatacgagttc gatttcaagagttcaaaacgtgacggggacgaaacgagggc gatcaatgcccgataggactaataagtagtacaaacccgctc acccgaaaggagggcaaataccttatatacagccaggggag acctataactcagcaaggttcagcgtatgtactaattgtggaga gcaaatcattgtccacgtg - 已比对 Gcggaagagggcactagcccatgtgagagggcaaggacca atctttctcttaaaaataacataattcagggccaggatgtgtcacg agctttatcctacagatgatgaatgcaaatcagctaaaagataat atcgaccctagcgtggcgggcaaggtgctgtagattcgggtac cgttcataaaagtacgggaatttcggtatacttttaggtcgttatgtt aggcgagggcaaaagtcactctgccgattcggcgagtgatcg aagagggcaatgcctcaggatggggaaaatatgagaccagg ggagggccacactgcacacgtctagggctgtgaaatctctgcc gggctaacagacgtgtcgatgttgagaacgtaggcgccgagg ccaacgctgaatgcaccgccattagtccggttccaagagggc aactttgtctgcgggcggcccagtgcgcaacgcacagggcaa ggtttatgtgttgggcggttctgaccacatgcgagggcaacctcc cgtcgcctaccctggcaattgtaaaacgacggcaatgttcgcgt attaatgataaagaggggggtaggaggtcaactcttcaatgctta taacataggagtagagtagtgggtaaactacgtctgaaccttcttt atgcgaagacgcgagggcaatcgggatgcatgtctgacaactt gtccaggaggaggtcaacgactccgtgtcatagaattccatcc gccacgcggggtaatttggatcccgtcaaagtgccaacttgtgc cggggggctagcagctacagcccgggaatatagacgcgtttg gagtgcaaacatacacgggaagatacgagttcgatttcaagag ttcaaaacgtgcccgataggactaataaggacgaaacgaggg cgatcaatgttagtacaaacccgctcacccgaaaggagggca aatacctagcaaggttcagatatacagccaggggagacctata actcgtccacgtgcgtatgtactaattgtggagagcaaatcatt -
相关文档
最新文档