隐马尔科夫模型在多序列比对中的应用

合集下载

利用马尔可夫模型进行基因序列分析的教程(五)

利用马尔可夫模型进行基因序列分析的教程(五)

基因序列分析是生物信息学领域的重要研究内容之一。

利用马尔可夫模型进行基因序列分析可以帮助研究者理解基因的结构和功能,从而为疾病的治疗和预防提供重要的信息。

本文将介绍利用马尔可夫模型进行基因序列分析的基本原理和方法,希望读者能够通过本文了解基因序列分析的基本知识,并能够在实际研究中应用马尔可夫模型进行基因序列分析。

1. 马尔可夫模型简介马尔可夫模型是一种描述随机过程的数学模型,它具有“马尔可夫性质”,即未来的状态仅仅取决于当前的状态,与过去的状态无关。

在基因序列分析中,可以利用马尔可夫模型描述DNA序列中碱基的分布规律,从而推断基因的结构和功能。

2. 马尔可夫模型在基因序列分析中的应用在基因序列分析中,马尔可夫模型通常被用来预测DNA序列中的隐含Markov 模型和隐含马尔可夫模型,以及用在基因识别中。

通过对已知基因序列的训练,可以建立马尔可夫模型,然后利用该模型对未知的基因序列进行预测和分析。

3. 利用马尔可夫模型进行DNA序列的建模在利用马尔可夫模型进行基因序列分析时,首先需要对DNA序列进行建模。

通常情况下,可以将DNA序列中的碱基分为四类:A、C、G和T。

然后,可以利用马尔可夫模型描述碱基之间的转移概率。

以二阶马尔可夫模型为例,可以建立一个4*4的矩阵,表示从一个碱基转移到另一个碱基的概率。

4. 马尔可夫模型参数的估计在建立马尔可夫模型之后,需要对模型的参数进行估计。

参数估计的方法通常包括极大似然估计和贝叶斯估计。

通过对已知的训练数据进行统计分析,可以估计马尔可夫模型中的转移概率和初始状态概率。

5. 利用马尔可夫模型进行基因识别基因识别是基因序列分析的重要任务之一。

利用马尔可夫模型可以对DNA序列进行分析,从而识别其中的基因区域。

通过对DNA序列进行标记,可以利用马尔可夫模型进行概率推断,从而识别基因区域和非基因区域。

6. 马尔可夫模型在基因序列比对中的应用除了基因识别外,马尔可夫模型还可以应用于基因序列比对。

生物信息学中的计算方法和工具

生物信息学中的计算方法和工具

生物信息学中的计算方法和工具生物信息学是生命科学中的一个重要领域,它研究如何从大量的生物数据中提取信息,以更好地理解生物学现象和生物学系统的运作规律。

在生物学的研究中,生物信息学可用于DNA、RNA、蛋白质等生物分子的序列分析,以及基因功能研究、治疗和预防疾病、新药开发等。

本文将重点介绍生物信息学领域中的计算方法和工具。

基本概念生物信息学中的计算方法和工具主要涉及以下方面:1. 序列比对:指将两段或多段序列进行对比,以确定它们的相似程度和差异点。

比对方法包括全局比对、局部比对和多序列比对等。

2. 基因预测:指对一个序列或一组序列进行分析,以确定其中是否存在基因序列和其位置、结构和功能等。

基因预测通常使用的方法包括基于序列或基于比对的方法。

3. 基因注释:指为已知或新发现的基因序列提供更多相关信息的过程。

根据序列相似性和功能分析,可以对其进行已知基因注释、预测基因注释、轨迹注释等。

4. 进化分析:研究生物种系的进化关系、起源和分化过程,主要方法包括序列比对、物种树和系统发育树分析等。

5. 蛋白质结构预测:指根据氨基酸序列对蛋白质结构进行模拟和预测的方法。

此外,还可以通过生物标记分析、三维结构分析、功能域分析等多种方法进行细化分析。

生物信息学计算方法和工具1. BLASTBLAST是生物信息学领域最常用的序列比对工具之一。

它可以通过比对数据库中所有已知序列,快速找出输入序列与之相似的序列,并提供序列相似度和信心度评估等信息。

2. HMMERHMMER是一种基于隐马尔可夫模型(HMM)的序列比对工具,主要用于蛋白质序列的域注释和拓扑域分析。

HMMER与BLAST相比,在序列的相对差异较大情况下,更具优势。

3. NCBI EntrezNCBI Entrez是一个基于网络的生物学检索系统,它允许通过NCBI中不同数据库与序列进行搜索。

4. ClustalWClustalW是一种多序列比对工具,它可以对两个或多个序列进行全局或局部比对,并产生序列的进化关系树。

生物信息学中的序列比对工具对比总结

生物信息学中的序列比对工具对比总结

生物信息学中的序列比对工具对比总结序列比对是生物信息学中的核心技术之一,它是通过对比两个或多个生物序列的相似性和差异性来研究其结构、功能和演化关系的重要方法。

为了进行序列比对,科学家们开发了许多不同的序列比对工具。

本文将对一些常用的序列比对工具进行对比和总结。

1. BLAST (Basic Local Alignment Search Tool)BLAST 是最常用的序列比对工具之一。

它可以在短时间内快速比对大量生物序列。

BLAST 提供了多种不同的比对算法,包括常见的BLASTN(nucleotide序列比对)和BLASTP(蛋白质序列比对)。

BLAST 的优点是速度快、易用性好,适用于快速筛选大量相似序列。

2. ClustalWClustalW 是多序列比对的常用工具之一。

它使用多重序列比对算法,将多个序列的相似部分按照最佳的方式对齐。

ClustalW 可以在网页界面或命令行中使用,对于中小规模的序列比对非常高效。

3. MUSCLE (MUltiple Sequence Comparison by Log-Expectation)与ClustalW 类似,MUSCLE 也是一种常用的多序列比对工具。

它采用较新的比对算法,能够更加准确和高效地进行大规模序列比对。

MUSCLE 的优点是能处理大量序列,且能够生成高质量的比对结果。

4. MAFFT (Multiple Alignment using Fast Fourier Transform)MAFFT 是一种高性能的多序列比对工具,其算法基于快速傅立叶变换。

它可以处理大规模序列,且比对结果质量高。

MAFFT还提供了许多可选参数,以满足用户对比对过程的个性化需求。

5. T-Coffee (Tree-based Consistency Objective Function for Alignment Evaluation)T-Coffee 是一种基于树的多序列比对工具,它利用树模型来提高序列比对的准确性。

生物信息学中多序列比对算法的研究与改进

生物信息学中多序列比对算法的研究与改进

生物信息学中多序列比对算法的研究与改进生物信息学是研究生物学领域中的大规模生物数据的收集、存储、处理和分析的一门学科。

其中,多序列比对是生物信息学中一个重要的任务,可以帮助我们理解生物序列的相似性和差异性,从而揭示生物进化、功能和结构的信息。

本文将介绍多序列比对算法的基本原理、常用的方法和一些改进策略。

多序列比对的基本原理是将多个生物序列在一定的比对模型下进行比对,找到它们之间的共有特征和差异。

而这种比对过程是通过构建一个比对矩阵来完成的,该矩阵记录了每对序列之间的相似性得分。

常用的比对模型包括全局比对、局部比对和连续比对。

全局比对是将所有序列从头至尾进行比对,适合于序列相似性较高且较短的情况。

常用的算法有Needleman-Wunsch算法和Smith-Waterman算法。

Needleman-Wunsch算法使用了动态规划的思想,通过计算不同序列位置之间的得分矩阵,找到最优的比对方案。

Smith-Waterman算法是对Needleman-Wunsch算法的改进,它引入了负得分以处理局部比对的情况。

局部比对是将序列的某个片段与其他序列进行比对。

这种比对方法适用于序列相似性低或存在插入/缺失的情况。

常用的算法有BLAST、FASTA和PSI-BLAST。

BLAST算法使用了快速查找的技术,先找到一些高度相似的序列片段,再进行进一步的比对。

FASTA算法也是通过生成比对矩阵来找到相似片段,但它比BLAST更加灵敏。

PSI-BLAST算法将多次比对与序列数据库的搜索相结合,用于找到蛋白质序列中的保守和演化区域。

连续比对是将序列中的一个或多个连续子序列与其他序列进行比对。

这种比对方法可用于寻找序列中的结构域和功能区域。

常用的算法有HMMER和COBALT。

HMMER算法使用了隐马尔可夫模型和HMM-profile来比对序列中的结构域,具有较好的准确性和灵敏性。

COBALT算法是一种基于Conserved Domain Database (CDD) 的比对方法,通过利用数据库中的结构域信息来找到序列中的结构域。

多序列比对算法

多序列比对算法

多序列比对算法多序列比对算法是一种可用来比较多个相应序列之间的结构和功能差异的序列分析工具。

它可以被用来比较两个或多个序列,以发现它们之间的结构和功能差异。

多序列比对算法的核心思想是比较序列之间的相似性,搜索最适合的生物序列分析方法。

它是一种两个或多个生物分子序列之间的相似性分析和比较方法。

多序列比对算法具有广泛的应用,主要用于生物信息学中许多重要的问题,如深入了解功能性蛋白质、研究RNA结构和功能、设计药物靶点等。

它还可以用于挖掘基因的结构和功能,提升蛋白质的结构和功能,研究核酸、蛋白质和多种细胞的进化古迹,以及研究蛋白质的生物信息学。

多序列比对算法可以利用其卓越的识别能力找出两个或多个相互关联的序列中的相似片段。

许多多序列比对算法都基于概率模型,能够更准确地找出两个或多个序列之间有用的序列特征。

例如,多序列比对算法可以用于研究序列模式和相似性预测。

多序列比对算法可以应用于基因组定位,获得与序列相关的基因、转录因子和调控元件的功能和结构信息。

这种序列比对算法也可以用来预测基因在基因组中的位置,提供关于生物活性的结构信息,甚至可以用来挖掘复杂的信号转导网络中的基础关系。

此外,多序列比对算法可用于发现复杂对称结构,这对于研究生物体结构是非常有用的。

它也可以用于预测氨基酸序列或基因组中的结构和功能,它们是一种可以被用来预测基因表达状态和发挥作用的分子模型。

因此,多序列比对算法在生物序列分析领域占据了重要的地位。

多序列比对算法有很多种,如Smith-Waterman算法、Needleman-Wunsch算法、BLAST算法、Sequence Alignment算法、Clustal算法、HMM算法和全局模式填充法等,它们使用不同的功能来完成多序列比对任务。

Smith-Waterman算法是一种计算最长公共子字串的动态规划算法,可以找到最佳比对结果。

而Needleman-Wunsch算法是一种全局比对算法,该算法可以找到两个序列之间最佳比对结果,甚至可以是局部比对的变体。

HMM(隐马尔可夫模型)及其应用

HMM(隐马尔可夫模型)及其应用

HMM(隐马尔可夫模型)及其应用摘要:隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,创立于20世纪70年代。

80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。

本文先是简要介绍了HMM的由来和概念,之后重点介绍了3个隐马尔科夫模型的核心问题。

关键词:HMM,三个核心问题HMM的由来1870年,俄国有机化学家Vladimir V. Markovnikov第一次提出马尔可夫模型。

马尔可夫在分析俄国文学家普希金的名著《叶夫盖尼•奥涅金》的文字的过程中,提出了后来被称为马尔可夫框架的思想。

而Baum及其同事则提出了隐马尔可夫模型,这一思想后来在语音识别领域得到了异常成功的应用。

同时,隐马尔可夫模型在“统计语言学习”以及“序列符号识别”(比如DNA序列)等领域也得到了应用。

人们还把隐马尔可夫模型扩展到二维领域,用于光学字符识别。

而其中的解码算法则是由Viterbi和他的同事们发展起来的。

马尔可夫性和马尔可夫链1. 马尔可夫性如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程。

马尔可夫性可用如下式子形象地表示:X(t+1)=f(X(t))2. 马尔可夫链时间和状态都离散的马尔可夫过程称为马尔可夫链。

记作{Xn=X(n), n=0,1,2,…}这是在时间集T1={0,1,2,…}上对离散状态的过程相继观察的结果。

链的状态空间记作I={a1, a2,…}, ai ∈R.条件概率Pij(m, m+n)=P{ Xm+n = aj | Xm = aj }为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj的转移概率。

3. 转移概率矩阵如下图所示,这是一个转移概率矩阵的例子。

由于链在时刻m从任何一个状态ai出发,到另一时刻m+n,必然转移到a1,a2…,诸状态中的某一个,所以有当与m无关时,称马尔可夫链为齐次马尔可夫链,通常说的马尔可夫链都是指齐次马尔可夫链。

隐Markov模型在生物信息中的应用及其算法的改进的开题报告

隐Markov模型在生物信息中的应用及其算法的改进的开题报告

隐Markov模型在生物信息中的应用及其算法的改进的开题报告题目:隐Markov模型在生物信息中的应用及其算法的改进摘要:隐Markov模型(Hidden Markov Model,HMM)是一种常用的分类和预测方法,在生物信息学领域也有广泛的应用。

本文将介绍隐Markov模型的基本原理和生物信息学中的应用,探讨现有算法的局限性及改进方向,提出一种改进的算法,并通过实验验证其性能的提升。

关键词:隐Markov模型;生物信息学;分类;预测;算法改进一、背景隐Markov模型(HMM)是一种基于概率论的统计模型,最早由S.E. K. Dealer和A. Baumberg于1974年提出,用于语音识别和自然语言处理。

隐Markov模型在计算机科学、信号处理、统计学、物理学、生物信息学等领域有广泛的应用。

隐Markov模型是一个包含隐藏状态的模型,它的输出只能由概率计算得出。

在隐Markov模型中,由一些状态连接一些输出。

状态之间的转移和输出的选择都是基于概率的。

因此,隐Markov模型可以描述一个过程,这个过程是在给定一些输入的情况下进行的,这些输入可能是有噪声的。

因此,隐Markov模型可以用于识别和预测,尤其是在有时序性、结构复杂的数据上,表现出了很好的效果。

生物信息学是应用计算机科学和数学工具研究生命科学问题的一门学科。

生物信息学中的任务包括DNA序列比对、蛋白质结构预测、基因定位和功能预测等。

隐Markov模型在生物信息学中的应用包括蛋白质和DNA序列的分类和识别、生物通路分析、基因和蛋白质结构的预测等领域。

二、研究内容本文将介绍隐Markov模型的基本原理和在生物信息学中的应用,重点探讨现有算法的局限性及改进方向,提出一种改进的算法,并通过实验验证其性能的提升。

具体内容如下:(1)隐Markov模型的基本原理介绍隐Markov模型的定义、状态转移概率、输出概率等基本概念,以及隐Markov模型的三个基本问题:概率计算问题、精确匹配问题和状态路径问题。

生物信息学中的基因序列比对方法

生物信息学中的基因序列比对方法

生物信息学中的基因序列比对方法生物信息学是一门研究生命科学中生物数据的存储、检索、分析和解释的学科。

在生物信息学中,基因序列比对是一项重要的分析技术,它可以用于比较不同生物物种之间的基因组序列,以及找到相同或类似的序列模式。

基因序列比对不仅可以帮助研究者理解基因的功能和演化,还能发现与一些重要生物学问题相关的基因变异。

在生物信息学中,常用的基因序列比对方法包括全局比对、局部比对和迭代比对。

全局比对是一种用于比较两个较长序列的方法。

其中最著名的算法就是史密斯-沃特曼算法(Smith-Waterman algorithm)。

这个算法通过引入一个“得分矩阵”来评估两个序列的相似性。

得分矩阵中不同的配对得分反映了不同碱基(A、T、C、G)之间的相似程度。

该算法通过计算每个位置处的最高得分来确定两个序列的最佳比对位置。

全局比对方法适用于两个序列相似性较高且长度相近的情况。

局部比对是一种主要用于比较较短序列或在指定区域内比较的方法。

其中最著名的算法是基于隐马尔可夫模型(Hidden Markov Model, HMM)的Smith-Waterman算法的改进——Gotoh算法。

与全局比对不同的是,局部比对方法将序列的一部分(而不是整个序列)与其他序列进行比较。

这种方法可以在相似性不高、但存在区域相似的序列中找到最佳的比对。

迭代比对是一种通过多次迭代比对来提高比对准确性的方法。

迭代比对通常由两个步骤组成:第一步是使用一种快速算法,如BLAST(Basic Local Alignment Search Tool),利用预先构建的数据库搜索相似的序列。

在第二步中,将这些相似序列与查询序列进行进一步的比对,以获得更准确的结果。

迭代比对方法可以帮助研究者发现比较遥远、相似性较低的基因序列。

此外,还有一些其他的基因序列比对方法,如滑动窗口比对、多重比对和北斗星比对。

滑动窗口比对是一种通过将一个固定大小的窗口滑过一个较大的序列来寻找局部相似性的方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

隐马尔科夫模型在多序列比对中的应用摘要:序列比对是生物信息学研究中的一个重要的方法, 是生物信息学的基础。

随着测序技术及生物信息学的高速发展,目前已经获得了大量的生物序列和数据结构,传统研究生物序列的方法已经无法再满足人们的需求,而隐马尔科夫模型(HMM)也渐渐在生物序列分析中脱颖而出。

隐马尔科夫模型是一个双重随机过程,具有一定状态数的隐马尔科夫链和显示随机函数集,该模型用于生物序列分析是生物信息学(Bioinformatics) 研究的新领域。

本文主要介绍了HMM在多序列比对中的应用。

关键词:隐马尔科夫模型(HMM);生物信息学;多序列比对1 生物序列比对的意义及概念序列比对是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。

序列比对的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。

研究序列相似性的目的之一是,通过相似序列的序列得到相似的结构或相似的功能。

序列比对的理论基础是进化学说。

许多生物学的事实表明:不同的核酸或蛋白质序列可能源于同一原始序列,经过序列内残基的取代、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。

在残基-残基比对中,可以明显看到序列中某些残基比其他位置上的残基更保守,这些信息揭示了这些保守位点上的残基对序列的结构和功能是至关重要的。

因此,序列比对可用于蛋白质的功能域识别、二级结构预测、基因识别以及分子系统发育分析等方面的研究。

序列比对根据同时进行比对的数目分为双序列比对(Pair-Wise Sequence Alignment)和多重序列比对(Multiple Sequence Alignment)。

双序列比对是将两个序列的各个字符按照对应等同或者置换的关系进行对比排列,其结果是找出两个序列共有的排列顺序,这是学列相似程度的一种定性描述。

与序列两两比对不一样,多重序列比对研究的是多个序列的相似性。

序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。

2 隐马尔科夫模型隐马尔科夫模型(Hidden Markov Models, HMM)是一种概率论模型,这种方法已经成功地应用于多个领域,如语音识别、光学字符识别等。

HMM在生物信息学领域中也有着重要的应用,如基因识别、序列分析、进化发育分析及蛋白质结构预测研究等。

隐马尔科夫模型可以用五个元素来描述:(1)N,模型的隐状态数目。

虽然这些状态是隐含的,但在许多实际应用中,模型的状态通常有具体的物理意义;(2)M,每个状态的不同观测值的数目;(3)A ,状态转移概率矩阵。

描述了HMM模型中各个状态之间的转移概率。

其中A_{IJ}= P(A_{T+1} =S_{J} | Q_{T}=S_{I}),1≤I,J≤N. 表示在T时刻、状态为SI的条件下,在T+1时刻状态是SJ的概率;(4)B ,观测概率矩阵。

其中BJ(K) = P[VK(T) | QT = SJ]; 1≤J≤N,1≤K≤M.表示在T时刻、状态是SJ条件下,观察符号为VK(T)的概率;(5)π初始状态概率矩阵π={π_{J}| π_{J}= P[Q_{1} = S_{J}];1≤J≤N.表示在初始T=1时刻状态为SJ的概率。

一般的,可以用λ=(A,B,π)来简洁的表示一个隐马尔科夫模型。

给定了N,M,A,B,π后,隐马尔科夫模型可以产生一个观测序列 O=O1O2O3…OT。

表示DNA序列的HMM如图1所示(方框表示各种状态,方框之间的连线表示状态转换):3 基于隐马尔科夫模型的多重序列比对算法迭代比对是另一类有效的多重序列比对策略。

它基于一个能产生比对的算法,并通过一系列的迭代方式改进多重序列比对,直到比对结果不再改善为止。

这类算法根据改善比对的策略可以分为确定型和随机迭代比对方法。

最简单的迭代比对类型是确定性。

随机迭代方法包括Prrp,隐马尔科夫模型,模拟退火,遗传算法以及其他方法。

某些方法可能是渐进方法和迭代方法的混合。

隐马尔科夫模型是最近几年在机器学习领域都得到成功应用的关于序列分析的重要统计模型。

隐马尔科夫模型最早用于语音识别,在80年代末90年代初开始用于生物信息学,目前已经用于DNA 模型构建,多重序列比对,蛋白质二级结构预测,基因预测等方向。

生物的基因组可以认为是某祖先基因经过若干代的进化而来的,这个祖先基因经过插入、删除和匹配而不断进化,最终衍变为一个基因家族。

因此,隐马尔科夫模型之所以在生物序列分析中得到普遍应用是因为它正好模拟了生物基因的突变、插入、缺失、匹配过程。

3.1基于隐马尔科夫模型的多重序列比对具体实现过程解决多重序列比对问题,就是通过对序列碱基的匹配、插入和删除操作,获得一个在某个评价模型下比分最优的结果集。

基于隐马尔科夫模型具体实现过程为:(1)预处理即序列特征统计。

由于生物序列本身的统计学特征,在某一位置出现字母表中字符的概率并不是均等的,因此需要获得一组给定相似序列组S (i )的序列特征统计,一般被称为统计图谱或特征统计矩阵;(2)训练模型。

即以一组给定序列相似组S (i )作为训练序列,采用期望最大算法获取该序列组的隐马尔科夫模型参数Θ,构建隐马尔科夫模型M ;(3)新序列评估。

即采用前向-后向算法将未知序列X (i )与M 比对,根据其相似成素,所得到的比对融入多重比对以完善模型;(4)构造多重比对。

根据M 进行多重序列的比对,及采用Viterbi 算法求解在模型M 条件下生成未知序列X (i )的状态序列,并根据状态序列构造多重序列比对结果X (i )'。

3.2 DNA 序列的比对中的隐马尔科夫模型定义一个长度为L 的序列特征统计P 是一系列的概率集合e i (b) , e i (b)表示在第i (1≤i≤L) 个位置上出现字母表中字符b 的概率,并定义p(b)是字母b 的背景出现频率。

一个基因的HMM 模型,有L 个“匹配”状态的M 1,M 2,···,M L ,它们对应于特征统计的匹配。

所有这些状态顺序连接起来,即状态M J 连接到后继M J+1,如下图所示。

其中,从状态M J 释放字符b 的概率为e J (b)。

为了在比对中允许插入“空格”操作,在上述基本模型中加入“插入”状态I 0 ,I 1,···,I L ,并假设Θ∀b∈A e Ij(b)=p(b)图1 DNA 序列的HMM对于每个插入状态I J ,有一个来自相应匹配状态M J 的连接,有一个匹配到状态M J+1的连接,还有一个自循环连接。

根据“空位”的惩罚原则,给这些状态转换赋予适当的概率。

为了允许“删除”操作,可以进一步加入“删除”状态D 1,D 2 ,···,D L ,这些状态不能释放任何字符。

删除状态依然顺序裂解,同时增加从D 1到I J 的连接以及从I J 到D J+1的连接。

完整的HMM 模型如下图所示。

对于DNA 多重序列比对,隐马尔科夫链可以看成在DNA 序列上运动,从一个起始状态开始,以某概率进入配对、插入、删除状态之间的某一个,其中配对和插入状态将产生一个新的碱基,删除状态从原始DNA 序列中去掉一个特定的碱基。

每个状态结束之后,模型转换到下一个状态,同样,在新的状态,又可以进入配对、插入、删除状态。

于是当隐马尔科夫链经历了从起始状态到结束状态时,便可得到两个学列,一是状态序列(观察不到),而是A,C,G,T 组成的字母序列(可观察到)。

对于与模型想复合的序列,能以较大的概率产生该序列;若不与该模型符合的序列,则按此模型产生改序列的概率会较小。

采用上述模型具有以下优点:(1)模型中采用的是位置序列,每一个位置都考虑了所有氨基酸的分布;(2)在连续的两个位置之间考虑了忽略某一位置及插入额外的氨基酸;(3)允许连续的插入碱基。

3.3 DNA 序列观察概率的计算:前向—后向算法设O = O1 ,O2 , ⋯, OT 是一个观察序列( DNA 序列) ,记t 时刻的状态为q t ,q 0= s 0 = Begin ,q T+1 = S T+1 = End 。

该序列O = O1 ,O2 , ⋯, OT 的概率P( O | λ) 的计算可用前向—后向算法解决。

·定义前向变量:αt ( i) = P(O1 ,O2 , ⋯, Ot ,q t = s i | λ) (1)这就是说,前向变量αt ( i) 是指在给定模型λ的条件下,产生t 以前的部分观察序列{ O1 ,O2 , ⋯, Ot } ,且t 时又处于状态s i 的概率,前向变量αt ( i) 可按下列步骤进行迭代计算:1) 初始化α1( i) = α0i b i (O1) 1 ≤ i ≤ N (3)2) 迭代计算αt+1(j) = [ ∑αt (i )αij ]b j (o t+1) t =1,2,···,T −1 1≤j ≤N N i=1 (4)·后向算法与前向算法相类似,定义后向变量:βt ( i) = P(O t+1 ,O t+2 , ⋯, O t ,q t = s i | λ)(5)图2 多重序列比对问题HMM 图即在给定模型λ和t 时状态为s i 的条件下,从t + 1 时到最后的部分观察序列{ O t+1 ,O t+2 ,···, O t } 的概率, 可按下步骤进行迭代计算:1) 初始化ΒT (i)= αi, T+1 1 ≤ i ≤ N (6)2)迭代计算βt (i )=∑αij b j (o t+1)βt+1(j ) t =T −1,T −2,···,1 1≤i ≤N N j=1 (7)·在给定模型λ下,产生观察序列O 的概率P (O |λ)=∑αt (i )βt (i ) 1≤t ≤T N i=1 (8)特别 P (O |λ)=∑αT (i )αi,T+1N i=1 (9)3.4 现有算法分析在理论上基于动态规划的同步算法可以求得多序列的精确解。

但是,随着序列数量的增加,算法复杂度也不断增加,呈指数规律增长,因此这类方法对于计算机的系统资源要求较高。

在实际应用中,比对三台哦序列是很容易实现。

如果仅仅搜索N 维空间上有限的区域(序列长度在100之内),7条和8条序列比对是可以管理的,但超过这个限度之后,组合数将剧增,外加上存储空间和计算时间的限制,通常不能满足大而长的序列比对需求。

所以,同步法只能进行序列数目在10条之内,长度不超过100的少量、短序列的比对。

CLUSTAL 算法作为渐进比对算法中比较成功的算法,已经发展很成熟了,它的优点是算法简单,运算速度快,但仍然存在着一些不足之处。

相关文档
最新文档