生物信息学及其主要数学算法
生物信息学的算法和工具

生物信息学的算法和工具生物信息学是一门多学科交叉的科学,涵盖了计算机科学、生物学、数学、统计学等诸多领域。
其研究对象主要是生物分子,如蛋白质、基因等,以及这些生物分子在生命现象中的相互作用。
在生物信息学研究中,算法和工具是不可或缺的部分。
下面,我们将介绍一些常用的生物信息学算法和工具。
一、序列比对算法序列比对是生物信息学中最基本的算法之一。
其可以对比两个或多个生物分子(如蛋白质或DNA/RNA序列)之间的相似性。
常用的序列比对算法包括:1. Needleman-Wunsch算法:是一种全局比对算法,可以比对任何长度的序列。
该算法基于动态规划的思想,将序列的比对问题转换为矩阵的最大值问题。
2. Smith-Waterman算法:是一种局部比对算法,可以找出两个序列中最相似的片段。
该算法同样基于动态规划的思想,但是不同于全局比对算法的初始化,该算法初始化各单元格为0,即无比对。
二、序列组装算法序列组装是生物信息学中的一个重要问题,其主要是将碎片化的DNA序列通过匹配拼接成整个基因组。
该过程是蛋白质功能研究、遗传疾病诊断和治疗、生命起源与进化等研究中的关键环节。
常用的序列组装算法包括:1. De Bruijn算法:是一种基于k-mer的序列组装算法。
该算法把DNA序列拆分成多个长度相等的k-mer,然后创建k-mer图。
最后通过图的遍历得到序列组装结果。
2. Overlap-Layout-Consensus (OLC) 算法:是一种传统的序列组装算法,主要依靠遗传重叠关系把碎片化的DNA或RNA序列重组成连续的序列。
该算法把编码相似区域的序列对齐在一起,再通过重叠序列片段的共识来组装序列。
三、基因预测算法基因预测是根据DNA序列信息推断出含有开放阅读框(ORFs)的基因的位置和大小。
常用的基因预测算法包括:1. 基于光学标记数据的基因组预测算法:该算法利用长读长技术生成大量拥有高精度的序列数据来提高基因预测的准确度。
生物信息学中的计算方法和工具

生物信息学中的计算方法和工具生物信息学是生命科学中的一个重要领域,它研究如何从大量的生物数据中提取信息,以更好地理解生物学现象和生物学系统的运作规律。
在生物学的研究中,生物信息学可用于DNA、RNA、蛋白质等生物分子的序列分析,以及基因功能研究、治疗和预防疾病、新药开发等。
本文将重点介绍生物信息学领域中的计算方法和工具。
基本概念生物信息学中的计算方法和工具主要涉及以下方面:1. 序列比对:指将两段或多段序列进行对比,以确定它们的相似程度和差异点。
比对方法包括全局比对、局部比对和多序列比对等。
2. 基因预测:指对一个序列或一组序列进行分析,以确定其中是否存在基因序列和其位置、结构和功能等。
基因预测通常使用的方法包括基于序列或基于比对的方法。
3. 基因注释:指为已知或新发现的基因序列提供更多相关信息的过程。
根据序列相似性和功能分析,可以对其进行已知基因注释、预测基因注释、轨迹注释等。
4. 进化分析:研究生物种系的进化关系、起源和分化过程,主要方法包括序列比对、物种树和系统发育树分析等。
5. 蛋白质结构预测:指根据氨基酸序列对蛋白质结构进行模拟和预测的方法。
此外,还可以通过生物标记分析、三维结构分析、功能域分析等多种方法进行细化分析。
生物信息学计算方法和工具1. BLASTBLAST是生物信息学领域最常用的序列比对工具之一。
它可以通过比对数据库中所有已知序列,快速找出输入序列与之相似的序列,并提供序列相似度和信心度评估等信息。
2. HMMERHMMER是一种基于隐马尔可夫模型(HMM)的序列比对工具,主要用于蛋白质序列的域注释和拓扑域分析。
HMMER与BLAST相比,在序列的相对差异较大情况下,更具优势。
3. NCBI EntrezNCBI Entrez是一个基于网络的生物学检索系统,它允许通过NCBI中不同数据库与序列进行搜索。
4. ClustalWClustalW是一种多序列比对工具,它可以对两个或多个序列进行全局或局部比对,并产生序列的进化关系树。
生物信息学的算法研究与应用

生物信息学的算法研究与应用生物信息学是一门聚焦于生物学数据的研究分支,主要研究如何利用计算机技术处理和分析大量的生物学数据。
在近年来,随着基因测序技术的不断发展,生物学数据的规模和复杂程度也不断增加,而算法的优化和创新正日益成为生物信息学研究中最为重要的一部分。
因此,本文将简略介绍一些常见的生物信息学算法及其应用。
1. 序列比对算法序列比对是生物信息学研究的一个核心问题,它的目的是找到两个序列之间的相似性。
比对的结果可以用于推测物种之间的亲缘关系、基因结构、蛋白质功能等信息,同时也可以应用于药物研发、基因编辑等多个领域。
最常见的比对算法是基于动态规划的Smith-Waterman算法和Needleman-Wunsch算法。
它们的复杂度较高,但是能够找到最优解并对其进行优化,因此被广泛使用。
此外,还有一些启发式的算法,如BLAST和FASTA算法等,它们虽然不能保证找到最优解,但能够在时间复杂度上得到更好的优化,因此广受欢迎。
2. 基因预测算法基因预测是生物信息学中的一个重要问题,因为基因对生物体的生长和发育起着至关重要的作用。
基因预测的目标就是根据基因组序列推测基因的位置和结构,从而理解生物体的基因表达和功能。
常见的基因预测算法包括基于序列的算法和基于结构和统计学特征的算法。
前者利用序列中的信息,如开放阅读框架(ORFs)、启动子、终止子和剪切位点等,来推测序列中的基因位置;后者则考虑基因的结构和统计学特征,如外显子长度、剪接事件、核苷酸频率等,以推测基因的存在性和边界。
随着基因组学技术的进步,目前也有许多机器学习算法被应用于基因预测问题。
3. 蛋白质结构预测算法蛋白质结构预测是生物信息学中的一个重要问题,它的目标是根据蛋白质序列推测出其三维结构,以探究蛋白质的功能和结构。
目前,蛋白质结构预测仍然是生物信息学研究中的一个巨大挑战,此领域中有很多未解之谜等待处理。
常见的蛋白质结构预测算法包括了序列比对、同源建模、分子动力学模拟、进化算法等。
生物信息学的算法研究

生物信息学的算法研究随着科技的不断发展,生物学研究已不再局限于实验室内进行,越来越多的数据需要被收集和分析。
这就有赖于生物信息学产生了。
生物信息学将计算机科学和生物学相结合,旨在利用计算机技术解决生物学中的问题。
算法在生物信息学中扮演着至关重要的角色。
本文将详细介绍生物信息学中的几种常见算法及其应用。
1.序列分析算法序列分析是生物信息学中最常见的问题之一。
生物学家们需要对DNA、RNA和蛋白质序列进行研究。
序列分析算法主要包括序列比对和序列搜索。
序列比对可以帮助我们确定两个或多个序列的相似性或差异性。
序列搜索算法可以在大型数据库中搜索含有特定序列或特定模式的序列。
著名的序列分析工具包括BLAST和ClustalW。
BLAST(Basic Local Alignment Search Tool)是一个非常常用的序列比对工具,它使用一种局部比对算法,可以在大型数据库中快速搜索相似性序列;ClustalW则是一个流行的多序列比对工具,它能够对一组多个蛋白质或DNA序列进行比对和分析。
2.基因组学数据分析基因组学数据分析是现代生物学家面临的最棘手的问题之一。
要处理大量的基因组数据,数据挖掘和机器学习算法是必不可少的。
一些基于机器学习的算法用于基因组序列分类和识别,如随机森林和支持向量机(SVM)。
另外,深度学习(比如人工神经网络)也被用于基因组数据分析中。
3.结构生物学算法结构生物学是生物信息学的重要组成部分。
它包括分析蛋白质、核酸和其他生命体分子的结构。
晶体学和核磁共振成像技术可以用于标定生命体分子的三维结构。
而分子动力学模拟则可以用于计算生命体分子如何运动和交互。
代表性的结构生物学软件包括Rosetta和PyMOL。
Rosetta使用分子模拟技术搜索蛋白质可折叠结构并优化分子能量。
而PyMOL可用于三维结构的可视化和分析。
结论在生物信息学中,算法作为一种重要的工具帮助生物学家们更好地理解生命的奥秘。
数学算法在生物信息学中的应用

数学算法在生物信息学中的应用生物信息学是一门结合生物学和计算机科学的学科,应用于基因组、蛋白质、序列分析、结构预测以及系统生物学等领域。
数学算法在生物信息学中起着重要的作用,能够帮助科学家们更好地理解和分析生物学数据。
本文将探讨数学算法在生物信息学中的应用。
一、序列比对算法序列比对是生物信息学中最基础的任务之一。
可以通过比对不同物种之间的基因组序列,来理解它们之间的差异和共同点。
在序列比对中,动态规划算法是一种常用的数学算法。
它可以计算两个序列之间的最佳匹配情况,找到它们的相似性和差异性。
二、聚类算法聚类是将具有相似特征的数据对象分组的过程。
在生物信息学中,聚类算法被广泛应用于基因表达数据的分析。
聚类算法可以帮助研究者找到具有相似表达模式的基因,并进一步研究它们在生物过程中的功能。
三、隐马尔可夫模型隐马尔可夫模型是一种常用的概率模型,可以用来描述序列数据中的隐藏状态和可观察状态之间的关系。
在生物信息学中,隐马尔可夫模型可以用于基因识别、蛋白质结构预测等任务。
通过学习隐马尔可夫模型的参数,可以对生物数据进行建模和分析。
四、贝叶斯网络贝叶斯网络是一种概率图模型,用于表示变量之间的依赖关系。
在生物信息学中,贝叶斯网络可以用于基因调控网络的建模以及生物数据的分类问题。
通过分析变量之间的依赖关系,可以更好地理解生物过程中的相互作用。
五、支持向量机支持向量机是一种常见的机器学习算法,可以用于分类和回归问题。
在生物信息学中,支持向量机可以用于蛋白质二级结构的预测、基因表达数据的分类等任务。
支持向量机通过构建一个高维空间,将不同类别的数据样本分隔开来,从而实现分类或回归的目的。
六、蚁群算法蚁群算法是一种模拟蚁群觅食行为的启发式优化算法。
在生物信息学中,蚁群算法可以用于DNA序列的组装、蛋白质折叠问题等。
通过模拟蚂蚁在寻找食物时的行为规律,蚁群算法可以帮助生物学家们解决一些复杂的优化问题。
总结:数学算法在生物信息学中具有重要的应用价值。
生物信息学中的数值计算方法研究

生物信息学中的数值计算方法研究生物信息学是一个知识广泛而且深度较大的领域,需要数学、生物学、计算机科学等多个学科知识的支持。
数值计算方法在生物信息学中起着重要的作用,涉及到多个重要的应用,如基因序列比对、蛋白质结构预测和分析、代谢组学研究等。
本文将介绍生物信息学中的一些常见的数值计算方法及其应用,以期对生物信息学相关领域的学习和研究有所帮助。
一、生物序列比对生物序列比对是生物信息学中的一个重要问题,主要用于比较两个或多个生物序列的相似性和差异性。
基于序列比对结果,可以研究生物序列的进化历程和功能分析,是生物信息学研究的基础。
目前,常见的序列比对方法包括全局比对、局部比对和FASTA等。
其中,全局比对方法用于比较两个完整序列的相似性,在全局比对的过程中,需要考虑整个序列,因此适用于相似性较高、长度差异较小的序列。
局部比对则用于比较两个序列的一部分,适用于相似性较低、长度差异较大的序列。
FASTA方法是一种开创性的生物序列比对方法,由 William R. Pearson 和 David J. Lipman 开发。
FASTA方法主要通过比较两个序列之间的匹配情况,以及相似序列切割成片断后的比对,来确定两个序列的相似性。
二、生物网络分析生物网络是指生物体中一系列分子间的相互作用关系,生物网络分析是指研究这些相互作用关系对生物过程的影响和调节。
常用的生物网络分析方法如下:1. 基于邻居的方法:在这种方法中,给定一个网络中的一个节点,我们可以通过查看它的邻居节点来分析它的功能和特性。
2. 基于模块的方法:这种分析方法将网络划分为多个子网络,每个子网络表示一组具有相似功能的节点,这种方法可以帮助我们创建更好的功能注释和分类方法。
3. 基于中心节点的方法:这种方法是通过度数或介数中心性来确定网络中最重要的节点。
4. 基于路径的方法:这种方法基于网络中两个节点之间的路径长度,评估节点之间的相似性和连接程度。
三、蛋白质结构预测蛋白质结构预测是生物信息学中的另一个重要问题,这个问题涉及到如何从氨基酸序列推断出蛋白质的三维结构。
生物信息学算法
生物信息学算法一、引言生物信息学是一门综合性学科,结合了生物学、计算机科学和统计学等多个学科的知识,旨在从海量的生物数据中提取有用的信息。
在生物信息学研究中,算法是至关重要的工具之一,它们能够帮助我们处理、分析和解释生物数据。
本文将介绍几种常用的生物信息学算法及其应用。
二、序列比对算法序列比对是生物信息学中最基本的问题之一,其目的是找出两个或多个序列之间的相似性和差异性。
著名的序列比对算法包括Smith-Waterman算法和Needleman-Wunsch算法。
Smith-Waterman 算法通过动态规划的方法寻找两个序列之间的最优局部比对,适用于寻找相似区域。
Needleman-Wunsch算法则是一种全局比对算法,通过填充一个二维矩阵来找到两个序列的最优全局比对。
三、基因组组装算法基因组组装是将短序列片段拼接成完整的基因组序列的过程。
由于新一代测序技术的发展,我们可以获得大量的短序列片段,但这些片段通常较短且存在重叠区域。
基因组组装算法的目标是恢复原始的基因组序列。
常用的基因组组装算法包括重叠图算法和de Bruijn 图算法。
重叠图算法通过寻找序列片段之间的重叠关系来进行拼接,而de Bruijn图算法则将序列片段切分成较短的k-mer,并通过构建k-mer之间的连接关系来进行拼接。
四、基因表达分析算法基因表达分析是研究基因在不同组织或条件下的表达水平变化的过程。
在生物信息学中,我们可以通过RNA测序技术获得基因表达的定量信息。
常用的基因表达分析算法包括差异表达分析和聚类分析。
差异表达分析通过比较不同条件下的基因表达水平来寻找差异表达的基因。
聚类分析则是将基因按照其表达模式进行分组,从而揭示基因表达的潜在模式。
五、蛋白质结构预测算法蛋白质是生物体内最重要的功能分子之一,其结构与功能密切相关。
然而,通过实验手段确定蛋白质结构的成本较高且耗时较长。
因此,蛋白质结构预测算法成为了研究的热点。
生物信息学常用算法简介
➢动态规划算法是一种优化算法, 它本质上是一种有效的穷举法。
➢它的基本想法是最优路径上的 每一段都应该是局部的最优路 径。
➢动态规划算法的典型应用:序 列比对。
序列比对应用举例
➢ 序列组装 ➢ 进化分析 ➢ 保守区发现 ➢ 蛋白质结构与功能预测 ➢ cDNA的基因组定位 ➢ 基因结构与功能分析
序列比对模型
➢ 类型:全局比对与局部比对 ➢ 需考虑的因素:替换,插入,删除 ➢ 例:AGCTA–CGTACATACC
AGCTAGCGTA– –TAGC ➢ 打分系统:替换矩阵。记为:
σ(a,b) 其中a, b为我们考虑的字符集中的元素。
比对算法的目标,
就是找到在给定打 分系统下,得分最 高的比对方式。
动态规划算法(全局比对)
其他DNA打分矩阵 及其对比对结果的影响
➢ 例如:
(a, b)
1,(a b) 3,(a b)
➢ 若得分大于(a罚,分) ,则(可,b得) 到长11的0,,,((有延开较长始 多)) 插入 删除的结果;反之,则得到短的,局部的比对
结果。
蛋白质序列比对的打分矩阵
➢ PAM矩阵(Persent Accepted Mutation): 基于进化模型的打分矩阵。
➢ 表中各列满足
20
M ij 1
j 1
➢ 若fi (i =1~20)表示20种氨基酸在自然界中
的分布,该矩阵还满足20来自fi 1i 1
20
20
f i M ij
f i (1 M ii ) 0 .01
i 1 i j
i 1
20
f i M ii 0.99
i 1
➢ 由于fi 是自然界中氨基酸经过长期进化后形成
生物信息学的算法
生物信息学的算法1.序列比对算法:序列比对是生物信息学中最基本和重要的任务之一,通过比较两个或多个生物序列的相似性来推断其进化关系和功能。
常用的序列比对算法包括Smith-Waterman算法和Needleman-Wunsch算法。
这些算法基于动态规划的思想,能够找到最优的序列比对方案。
2.DNA测序算法:DNA测序是获取DNA序列信息的过程,其中最常用的测序技术是第二代测序技术,例如Illumina测序和454测序。
这些测序技术需要识别并记录大量序列碱基。
DNA测序算法用于处理这些原始测序数据,并将其转化为可识别的DNA序列。
3.基因预测算法:基因预测是识别DNA序列中编码蛋白质的基因的过程。
这是生物信息学中非常重要的任务之一、基因预测算法基于不同的原理和方法,例如基于序列比对的方法、基于统计模型的方法和机器学习方法。
这些算法可以预测基因的位置、外显子和内含子的边界以及基因的功能。
4.蛋白质折叠算法:蛋白质折叠是指蛋白质从线性氨基酸序列折叠成特定的三维结构的过程。
蛋白质折叠算法是基于物理模型和统计模型的方法,通过计算力学潜能和熵等能量参数来预测蛋白质的最稳定结构。
这些算法对于理解蛋白质的功能和研究蛋白质相关疾病具有重要意义。
5.基因表达分析算法:基因表达分析是衡量基因在特定条件下的表达水平的过程。
常用的基因表达分析算法包括聚类分析、差异表达分析和功能富集分析。
这些算法可以帮助研究人员理解基因的功能、寻找基因表达模式以及发现与特定疾病相关的基因。
6.蛋白质互作网络分析算法:蛋白质互作网络分析是用于分析蛋白质间相互作用关系的方法。
这些算法基于蛋白质互作网络中的拓扑结构和网络特征来研究蛋白质的功能和相互作用网络的组织。
常用的蛋白质互作网络分析算法包括网络聚类、模块发现和关键节点识别等。
这些算法只是生物信息学领域中的一小部分示例,随着技术的发展和研究的深入,会有越来越多的算法被开发出来,用于解决不同的生物学问题。
生物信息学的算法与模型分析研究
生物信息学的算法与模型分析研究生物信息学是生物学和计算机科学的交叉学科,它利用计算机和统计学的方法来研究生物学数据,并运用这些分析结果来理解生物学的基本原理和生物系统的功能。
生物信息学的算法和模型分析是该领域的核心内容,它们在生命科学研究、基因组学、蛋白质研究等方面起到了重要的作用。
一、序列比对算法序列比对是生物信息学中最基本的问题之一,它是将两个或多个序列进行比较,以找出它们之间的相似性和差异性。
比对的结果可以用于预测函数、结构和进化关系等。
在序列比对算法中,最常用的方法是动态规划算法。
动态规划算法通过在序列间构建成对法则,来寻找最优比对。
BLAST(Basic Local Alignment Search Tool)是一种常用的序列比对算法,它利用局部序列匹配进行数据库搜索,快速找出相似序列。
二、基因表达分析模型基因表达分析是评估基因在不同组织或条件下表达水平的过程。
为了理解及预测基因调控的机制,研究人员使用基因表达数据进行模型分析。
其中,聚类分析是最常用的方法之一,它可以将相似的基因或样本聚类在一起,揭示基因表达模式之间的关联性。
另外,差异表达分析可以帮助我们找出在不同实验组间表达差异显著的基因,进一步研究这些差异基因的功能和调控机制。
三、蛋白质结构预测算法蛋白质是生物体内的重要分子,它们的结构与功能密切相关。
然而,实验测定蛋白质的二级和三级结构仍然非常困难和昂贵。
因此,研究人员开发了许多蛋白质结构预测算法,以推测蛋白质结构。
其中,蛋白质序列比对、折叠模拟和机器学习等方法被广泛应用于蛋白质结构预测中。
这些算法不仅提供了预测的蛋白质结构,还有助于理解蛋白质的功能和相互作用。
四、遗传算法在生物学中的应用遗传算法是一种模拟生物演化过程的计算方法,通过循环迭代和适应度选择,优化搜索问题的解。
在生物学中,遗传算法被广泛应用于基因选择、基因组装、进化模型构建等方面。
例如,在基因组装中,遗传算法可以通过找到最佳序列组合来恢复基因组的完整序列;在进化模型构建中,遗传算法可以优化不同的参数,以拟合观察数据,并推断出系统的进化关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学及其主要数学算法吴春艳,王靖飞*(中国农业科学院哈尔滨兽医研究所动物疫病诊断与流行病学中心,哈尔滨黑龙江 150001)摘要简要介绍了生物信息学( Bioinformatics )及其发展历程,讨论了生物信息学与其它学科之间的联系,其研究的主要内容和数学方法。
关键词:生物信息学;数学算法Bioinformatics and Its Mathematical ArithmeticsWU Chun-Yan, W ANG Jing-Fei*, LI Jing, JI Zeng-Tao, YANG Yan-Tao( Center for Diagnosis and Epidemiology of Animal Infectious Diseases, Harbin Veterinary Research Institute, CAAS, Harbin, Heilongjiang Province, 150001 )Abstract The bioinformatics and its history were briefly introduced at the beginning of the paper. And then, we discussed the relationship between Bioinformatics and other subjects. Both the main research directions and mathematical arithmetics were also described in the later parts of the paper.Key words Bioinformatics; mathematical arithmetics1前言生物信息学是一门多学科交叉科学,综合运用生物学、信息学、统计学、数学、物理学、化学、计算机及网络科学等为主要工具和手段,发展各种软件,对逐日大量增长的DNA序列、蛋白质的序列和结构进行收集、处理、存储、管理、分配、加工、分析和解释等,来阐明和理解大量数据,使之成为具有明确生物意义的生物信息。
通过对生物信息的查询、检索、比较和分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等。
生物信息学的发展经历了如下几次主要历程。
1954 年Crick 提出了遗传信息传递的规律,DNA 是合成RNA 的模板,RNA 又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。
1956 年美国田纳西州盖特林堡召开的“生物学中的信息理论研讨会”,首次产生了生物信息学的概念。
1963 年Nirenberg 和Matthai通过实验研究,编码20 氨基酸的遗传密码得到了破译。
限制性内切酶的发现和重组DNA 的克隆(clone)奠定了基因工程的技术基础。
正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。
20世纪80年代末随着人类基因组计划的启动而兴起一门新兴学科——基因组信息学,后改为生物信息学。
1987 年林华安博士正是称这一领域为“生物信息学(Bioinformatics)”。
近年来,计算机和因特网的快速发展更是为生物信息的传递提供了硬件基础和便利条件。
(生物信息学的实质就是运用计算机科学及网络技术来解决生物学问题。
)2001 年2 月,人类基因组工程测序的完成,使生物信息学走向一个高潮。
作者简介:吴春艳,女(1975-),满族,硕士,主要从事生物信息学研究。
*通讯作者Tel:(0451)85935090,E-mail:jingfei_wang@。
2 生物信息学研究应具备条件生物信息学研究应具备多方面的科学基础,需要数理统计、模式识别、动态规划、密码解读、语意解析、信令传递、神经网络、遗传算法及隐马氏模型等各种工具。
生物信息学研究涉及到分子生物学、遗传学、细胞生物学、发育生物学、生物化学、生理学、免疫学、药物学、农业生物学、环境生物学等生命科学中的许多分支,同时必须有数学、物理学、化学、信息科学、计算机科学等多个学科的参与。
因此,研究生物信息学应具备主要条件:首先,应具有一定的计算能力,包括掌握相应的软、硬件设备;要有各种数据库或能与国际、国内的数据库系统进行有效的交流;要有发达、稳定的互联网络系统;需要强有力的创新算法和软件,如果没有算法创新,生物信息学就无法获得持续的发展;最后,它要与实验科学,特别是与自动化的大规模高通量的生物学研究方法与技术建立广泛而紧密的联系。
3 生物信息学研究主要数据库从80年代初开始,美国、欧洲及日本相继成立了国际性的生物信息数据中心,这三个数据库每天都要交换数据以保证能够全面覆盖每一个站点的数据。
以西欧各国为主的欧洲分子生物学网络组织(European Molecular Biology Network, EMBNet),是目前国际最大的分子生物信息研究、开发和服务机构,通过计算机网络使英、德、法、瑞士等国生物信息资源实现共享。
国际上著名的公共数据库有Genebank、Swiss-prot、PIR、PDB等。
核酸序列数据库:美国国家生物技术信息中心(Genbank),./欧洲生物信息研究所(EMBL),/embl.html日本国家遗传学研究所(DDBJ),http://www.ddbj.nig.ac.jp/蛋白质信息数据库:PIR,/SWISS-PROT/TrEMBL,http://www.expasy.ch/sprot生物大分子结构数据库:如PDB,/pdb/4 生物信息学主要研究内容生物信息学在学科方面衍生的学科包括序列基因组学(Sequence genomics)、结构基因组学(Structural genomics)、功能基因组学(Functional genomics)、比较基因组学(Comparative genomics)、蛋白质学、药物基因组学、中药基因组学、肿瘤基因组学、分子流行病学和环境基因组学等。
其中序列基因组学主要研究测序和核苷酸序列;结构基因组学研究遗传图谱、物理图谱和测序等;功能基因组学着重于研究以转录图为基础的基因组表达图谱;比较基因组学研究对不同进化阶段基因组的比较和不同种群和群体基因组的比较。
蛋白质组学主要研究蛋白质组的研究技术与方法、双向凝胶电泳图谱及对不同条件下蛋白质组变化的比较分析等。
具体说就是从核酸和蛋白质序列出发,分析序列中所表达的结构功能信息。
目前,生物信息学已经形成了多个研究方向[1-7],主要有:①序列比对(Sequence Alignment)②蛋白质结构比对和预测③基因识别、非编码区分析研究④分子进化和比较基因组学⑤序列重叠群(Contigs)装配⑥遗传密码的起源⑦基于结构的药物设计⑧其他:如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。
5 生物信息学研究中的数学方法生物信息学研究的基因序列、转录序列和蛋白质序列等的分析问题都可以从数学方面描述成字母的排序问题,但它们所用的方法和研究的问题不同。
如基因组序列,关键的问题是基因测序;蛋白质序列,关键问题是发现蛋白质分子上的功能性模体和使用这些模体来给新的基因序列进行有效的分类。
改进的现有理论分析方法,如统计方法、隐含马尔科夫过程方法、非线性动力系统方法、特别是混浊和分维方法,神经网络方法,复杂性分析方法,密码学方法,多序列比较方法等。
与生物信息学相关的数学方法[8-13]:⑴概率论与随机过程理论,如隐马尔科夫链模型(Hidden Markov Model, HMM),在生物信息学中有重要应用。
概率统计是较早进入生命科学研究领域的学科之一,早在20世纪40~50 年代Fisher和Wright 就用它研究过数量遗传学。
近年来兴起的隐马尔科夫链模型在生物信息学中有重要应用。
HMM将完全随机的由A、T、C、G四个字母表示DNA的四种核苷酸组成的长序列构造出一个离散随机的过程,即马尔科夫链。
此过程中每个字母的位置是随机的,单字母的“状态概率”和字母间的“转移概率”都平等,然后用实际的DNA 序列构造出相应的马尔科夫链,用此模型去验证另一个给定的DNA序列是否属于该物种[14];该模型还可用于数据库的搜索、序列比较、建立蛋白质模型及发现新基因等研究。
当同族蛋白质的HMM建立后,可以用此模型搜索PIR,SWISS-PROT数据库来发现同族的其它蛋白质。
如果建立关于蛋白质基元(motif)或域的模型,则可以检验这种motif或域在数据库中的存在。
⑵运筹学,如动态规划(Dynamic Programming)是序列比对的基本工具。
20世纪50年代初美国数学家R.E.Bellman等人在研究多阶段决策过程( Multistep decision process )的优化问题时,提出了著名的最优化原理( Principle of optimality ),把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类过程优化问题的新方法——动态规划。
动态规划是运筹学的一个分支,是求解决策过程最优化的数学方法,在状态空间中,根据目标函数,通过递推,求出一条从状态起点到状态终点的最优路径(代价最小的路径),通过动态规划回溯法即可得到序列比对的最优结果。
动态规划在生物信息学研究中用得最多的方面是DNA 序列或者蛋白质序列的两两对比排列。
⑶信息论,在分子进化、蛋白质结构预测、序列比对中有重要应用[15],而人工神经网络方法(Artificial Neuralnetwork,ANN)则用途极为广泛[16]。
随着人类基因组计划的实施和生物信息学研究的兴起,ANN模型已广泛地应用于核酸和蛋白质序列的分析。
例如,在核酸序列研究中,ANN 模型在原核生物的转录终端的预测及对启动子、外显子和内含子的鉴别;用于确定DNA序列与其性质之间的映射关系的过程中,例如转录控制信号的分析和DNA曲率的分析等。
在生物信息学研究中,应用得最多的ANN模型是多层前馈网络模型,这种模型使用最广泛的算法是BP算法,也叫BP神经网络。
为了提高序列信息估算方法的准确度,许多人用神经网络与其他算法结合使用,推出新的算法,以求达到更高的精度。
如1994年,A.A.Salamov 和V.Solovyev[17]利用改进的人工神经网络和最近相邻法,减少了计算的时间,在序列联配方面所得到的计算精度超过了当时计算精度最高的多层神经网络方法。
1999年,将最近相邻法作了进一步改进,用一种可变的最近相邻法与神经网络结合,进行预测蛋白质的二级结构序列,预测精度得到进一步提高。