生物信息学的内容及发展
生物信息学的发展历程和应用情况

生物信息学的发展历程和应用情况随着计算机技术、生物学研究方法及数据采集方法的进步,生物信息学逐渐崭露头角。
生物信息学是一门交叉学科,它将计算机科学、统计学、生物学和化学等多个领域的知识整合起来,应用于生物数据的分析和理解,旨在帮助生物学家探索生命的奥秘。
本文将介绍生物信息学的发展历程和应用情况。
一、生物信息学的历史生物信息学最早起源于20世纪60年代。
当时,基因组学和蛋白质组学开始引起生物学家的关注。
由于基因组和蛋白质组数据太过庞大,传统的生物学研究方法远远不够高效。
生物学家开始尝试使用计算机分析这些数据,深入研究生命体系结构和功能。
在20世纪70年代,出现了一种新型的人工智能技术——“专家系统”,它能够与人类专家类似地推理和解决问题。
生物学家开始使用这种系统分析生物数据,并取得了一系列重要的成果。
此外,20世纪80年代,高通量技术的出现使得生物学数据的处理速度和质量得到了极大提升。
这也推动了生物信息学的发展。
二、生物信息学的应用1. 基因组学生物信息学在基因组学中的应用非常广泛。
通过基因组测序技术获取基因组序列数据,通过生物信息学技术对基因组序列进行分析和挖掘,可以识别出基因、启动子、转录因子结合位点等基因组特征。
通过比较不同物种的基因组序列可以发现物种之间的亲缘关系,并推断是否存在某些共同的祖先。
2. 蛋白质组学生物信息学在蛋白质质谱分析中也有应用。
通过蛋白质质谱数据分析算法,可以扫描蛋白质中所有已知的肽段序列,并计算它们与质谱数据的相似度,从而推断蛋白质的氨基酸序列。
这种方法可以帮助研究蛋白质在细胞内的位置、互作关系、表达水平等方面。
3. 药物研发生物信息学在药物研发中也有广泛应用。
药物的研发需要寻找合适的分子靶点,确定药物和靶标的相互作用方式。
生物信息学技术可以通过分子对接、蛋白质结构与功能分析等方法来预测分子靶点和药物作用方式。
4. 生物多样性研究生物信息学技术也可以帮助研究生物多样性。
生物信息学技术发展与应用

生物信息学技术发展与应用生物信息学是一个涵盖生物学、计算机科学和统计学等多个领域的交叉学科。
它主要利用计算机科学和统计学等现代信息技术,对生物学领域的生物信息进行收集、整理、存储、分析和应用。
随着生物技术的不断发展,生物信息学技术也在不断发展和创新,为生命科学、医学研究以及其他相关学科的发展提供了强大的工具和方法。
本文将从生物信息学技术的发展和应用两个方面进行探讨。
一、生物信息学技术的发展随着高通量测序技术、生物芯片技术等新兴生物技术的发展,生物信息学技术的发展速度也变得越来越快。
目前,生物信息学技术主要包括以下几个方面:1. 生物序列分析技术生物序列分析是生物信息学技术的基础。
它主要是从DNA、RNA、蛋白质等生物分子的序列信息中提取有用的信息,如基因的位置、结构、功能等。
当前,生物序列分析技术已经成为生物学研究中不可或缺的一部分,也是生物信息学技术的重要领域。
2. 生物信息数据库技术生物信息数据库是存储和管理生物序列、生物信息和生物数据的平台。
当前,生物信息数据库已经成为生物信息学研究的重要资源。
目前最著名的生物信息数据库有GenBank、SwissProt、KEGG等。
3. 生物信息可视化技术生物信息可视化技术是利用计算机技术将生物信息数据通过图形化的方式呈现出来,使得人们更加直观、清晰的了解生物信息的关联及其分布情况。
4. 生物信息数据挖掘技术生物信息数据挖掘技术是利用计算机和统计学等方法挖掘大规模生物数据中的隐藏信息,发现生物学的新规律和新知识。
例如,利用数据挖掘技术可对有临床表型数据的生物样本进行研究,以探索不同基因型之间的生物学差异性。
以上几个领域是目前生物信息学技术的主要研究方向,也是生物信息学技术发展的关键。
这些技术的发展,不仅推动了生命科学的发展和进步,也为其他相关学科的研究提供了重要的技术手段。
二、生物信息学技术的应用生物信息学技术在医药行业、生物科技企业、学术研究机构等领域均有广泛的应用。
生物信息学的发展与趋势

生物信息学的发展与趋势在现代生命科学的发展过程中,人们通过不断地研究和探索,已经逐渐认识到了生物信息学在该领域的重要性和影响力。
生物信息学是一门较为年轻的交叉学科,它将数学、信息科学、计算机科学等多学科的方法和技术与生物学相结合,成功地促进了生命科学的研究和应用,同时也带来了新的机遇和挑战。
本文将从生物信息学的概念、历史发展、技术方法和未来趋势等几个方面进行阐述。
一、生物信息学的概念生物信息学是一门研究利用计算机技术处理和分析生物学数据的学科,它的研究内容主要包括生物信息的收集、存储、管理、分析、可视化等方面。
在生物学领域,生物信息学已经成为了处理和分析生物学研究数据的主要手段,尤其是随着高通量测序技术和大规模生物样品库的建立,生物信息学的应用前景更是被看好。
二、生物信息学的历史发展生物信息学的历史可以追溯到上世纪60年代,当时科学家们已经开始通过计算机技术来研究蛋白质结构和DNA序列等生命科学中的问题。
此后,生物信息学得以得到迅速发展,1980年代末期,生物信息学在生命科学领域中的应用已经成为一个备受关注的热门话题。
在1990年代,人类基因组计划的启动和实施加速了生物信息学的发展。
这个计划的宣布,推动了生物信息学技术的研究和实践,尤其是在基因序列方面的研究,大大促进了生物信息学的发展和应用。
同时,这也加速了生命科学领域的发展和对安全、药物、食品、能源等关键问题的解决。
随着新一代测序技术的出现,生物信息学得以得到进一步发展。
例如,Illumina、IonTorrent、PacBio、Nanopore等常见的测序方式,使得研究人员们可以迅速、精确的获取大量的基因组序列信息,这一进步不仅带来了标志性的技术变革,而且也推进了医学、药学等重要领域对于相应的基础研究进展。
三、生物信息学的技术方法生物信息学的技术方法主要包括基础的生物计算、生物物理学、生物科学、以及DNA、RNA和蛋白质等生物学大分子的结构、功能和互作关系的研究分析。
生物信息学

生物信息学生物信息学是植物学、生物学、化学、数学、计算机科学等多学科交叉的一个新兴学科,其主要研究内容是如何获得、存储、传输、分析和应用生物信息数据。
生物信息学涉及到生物信息的采集、整合、处理、分析和应用等多个方面,包括大量生物数据的处理、生成和管理,数据的挖掘、重建和应用,基于计算机辅助的生物数据分析和建模等。
一、生物信息学的基本概念1. 生物信息学:是指将计算机科学、生物学、统计学、数学和物理学等多学科交叉的技术,用于对生物学数据进行收集,整合,存储,分析和模拟等。
2. 生物数据:是指在基因组、转录组、蛋白质组、代谢组、细胞组等层次,通过实验技术获得的关于生物的各种信息,包括基因序列、蛋白质序列、代谢产物组成、RNA表达水平等的各种数据。
3. 生物数据库:是指在系统地整合和存储生物数据的基础上为生物信息学研究提供的数据资源。
生物数据库一般包含了基因、蛋白质、代谢产物、表观遗传学等方面的数据,主要用于生物信息学的数据挖掘和分析。
4. 生物信息学技术:是指将生物数据通过计算机技术进行处理、分析和建模的技术手段。
包括基于算法的生物序列分析技术、分子建模和仿真技术,基于数据挖掘的分析技术、图像分析等。
二、生物信息学的发展历程生物信息学的发展历程可以从20世纪50年代开始,当时人们通过研究DNA、RNA和蛋白质的结构,探索生物学以及分子生物学的基本问题。
19世纪70年代到80年代,开始有科学家通过计算机分析生物序列数据,这是生物信息学的萌芽阶段;90年代,信息技术大爆发,计算机性能的不断提升奠定了生物信息学发展的基础,同时,国际人类基因组计划的启动和完成,也推动了生物信息学领域的迅速发展。
近年来,生物数据的爆炸式增长和高通量测序技术迅速发展,使得生物信息学成为一个新兴的领域,其研究范围涵盖了全球相关领域的学者。
三、生物信息学在生物学领域的应用1. 生物序列分析:通过处理生物序列数据,研究生物学中基因结构、调控、蛋白质结构和功能等基础方面,以及富含信息内容的非编码RNA和代谢物等,目前已成为一个成熟的技术。
生物信息学的发展及其应用

生物信息学的发展及其应用生物信息学是一门跨学科的学科,它结合了计算机科学、生物学、数学和统计学等领域的知识与技术。
随着近些年来科技水平的不断提高,生物信息学的发展也越来越迅速,被广泛用于基因组学、转录组学、蛋白质组学等领域的研究。
本文将介绍生物信息学的发展及其应用。
一、生物信息学的发展1. 基因组学生物信息学最初的应用领域是基因组学。
20世纪90年代,人类基因组计划(Human Genome Project)的启动,推进了基因组学领域的发展,同时也使得生物信息学走向了公众视野。
生物信息学在基因组学方面的应用主要包括:基因功能注释、基因定位、基因家族分析、基因表达分析等方面。
2. 转录组学随着基于DNA芯片和RNA测序技术的快速发展,转录组学的研究也取得了长足的进展。
生物信息学在转录组学领域的应用主要包括:基因表达分析、启动子寻找、可变剪接分析等方面。
3. 蛋白质组学蛋白质组学是基因组学和转录组学的补充,是对生物体内所有蛋白质进行系统性研究的领域。
生物信息学在蛋白质质谱数据分析、蛋白质定量、蛋白质互作网络建立等方面得到广泛应用。
4. 生物医学工程生物医学工程是生物信息学领域的一个重要应用方向。
通过生物信息学的技术手段,研究人员可以对医学图像、基因组数据等进行分析,从而实现疾病的早期诊断和个体化治疗。
二、生物信息学的应用1. 疾病诊断与预测生物信息学技术可以从基因、转录本、蛋白质等层面上揭示基因与疾病之间的关系。
医学研究人员通常会分析患者基因组和转录组信息,以了解其所患疾病的特征和可能的预后。
此外,生物信息学技术还可以帮助医生实现疾病的早期诊断,提高治疗效果和生存期。
2. 药物发现药物发现是一项复杂而漫长的过程。
生物信息学技术可以帮助药物研究人员加速药物发现的进程。
通过生物信息学技术,可以对药物分子进行结构、性能、动力学等方面的模拟和分析,从而筛选出更优质的药物分子。
3. 农业生物信息学在农业领域的应用也越来越受到重视。
生物信息学的研究进展与未来发展方向

生物信息学的研究进展与未来发展方向生物信息学是一个将计算机技术、生物学和统计学等学科相融合的交叉领域。
它为生物学家们提供了一种强大的工具,可以在基因组水平研究生物体的基因组,寻找基因、研究基因调控机制、诊断和治疗疾病等方面提供全新的视角。
本文将介绍生物信息学的发展历程及其未来发展方向。
一、生物信息学的发展历程生物信息学的概念最早出现于20世纪90年代,为了更好地分析和解释庞大的序列数据,人们开始尝试将计算机技术和生物学相结合。
在那个时代,计算机和基因组学的发展同步进行,利用计算机处理大数据的技术,为生物学提供了新的思路和新的方式。
在这个时期,人们开始利用生物信息学分析基因组数据。
以人类基因组计划为例,该计划中,人们利用了200多台计算机同时处理数据,并开发了软件工具,包括基因识别、序列比对、可视化工具等,为人们研究基因组提供了强有力的支持。
接着,人们开始注重生物信息学的应用。
生物信息学成为了药物研究、基因诊断、疾病治疗的重要工具。
生物信息学不仅帮助人们发现了新的蛋白质、基因和生物标志物,而且也为研究药物疗效和适应症提供了新的方法和新的思路。
二、生物信息学的未来发展方向1. 量级扩大:数据技术的进步和更高质量的数据来源,将促使生物信息学的规模得到进一步的扩大。
2. 联合分析:当生物信息学的技术广泛应用于不同领域时,多学科的交叉使得生物科学的前沿变得更加复杂。
因此,联合分析将得到更多应用,用于揭示生物系统的性能,并开发更具针对性的药物。
3. 基于AI的发展:生物信息学是一个融合多学科的领域,其中人工智能技术将扮演重要的角色。
人工智能将为科学家们提供处理大量数据和解释生物活动的新方法和工具。
4. 个性化医疗:利用生物信息学,可以发现患者的个体化特征,从而更好地预测和治疗疾病。
基于大数据和人工智能的技术,促进了根据个体的基因组和分子分析结果制定治疗计划的实现。
5. 模型化生物学:生物信息学的新方法和技术,将帮助我们产生更真实的计算模型来描绘生物进程。
生物信息学在生命科学中的作用和研究进展

生物信息学在生命科学中的作用和研究进展随着现代科技的不断发展,生物信息学作为生命科学的重要分支,已经逐渐成为了生物学研究的重要工具和手段。
从最初的基因组测序到后来的蛋白质组学、代谢组学等高通量技术的出现,生物信息学在生命科学领域中的作用越来越重要。
本文将介绍生物信息学的发展历程,以及其在生命科学中的作用和研究进展。
一、生物信息学的发展历程生物信息学是一门综合性科学,其研究内容涉及生物信息的获取、处理、存储和分析等方面。
其起源可以追溯到上个世纪。
20世纪60年代末至70年代初,DNA的序列测序技术发生了革命性的变化。
随着测序速度越来越快,人们开始意识到将计算机应用于生物学研究是一个不错的选择。
因此,生物信息学就此诞生。
随着计算机技术的发展,生物信息学也迅速发展起来。
人类基因组计划的启动,更是极大地推动了生物信息学的研究进展。
如今,生物信息学已成为了生命科学中不可或缺的一部分。
二、生物信息学在生命科学中的作用基因组学研究就是从基因组水平上了解生物的全貌。
它通过对细胞或者物种的完全基因组测序,对组成这些基因组的遗传信息进行研究和分析,最终得到一个总体的基因全貌。
生物信息学不仅可以加速基因测序中的数据处理,也可以应用于分析测序数据,从而推断遗传信息的作用和表达方式等等。
通过基因组学研究,人们能够更全面、全局性地了解生物的遗传信息,研究生物遗传特性的变异及其对物种进化等方面有了更深入的认识,同时也为基因诊疗的发展提供了重要的数据支持。
2. 蛋白质组学研究蛋白质组学是指研究细胞或生物体内所有蛋白质的组成结构、功能和相互作用等信息的一门技术。
生物信息学通过筛选、分离、鉴定大量蛋白质样本,并结合生物信息学方法,可以预测蛋白质的结构、功能和相互作用等信息。
同时,这种技术可以在不同样本之间进行比较分析,以揭示生物复杂机理的相互联系和调控机制。
蛋白质组学的发展可以对发现蛋白质标志物和开发新药物大有裨益。
生物信息学在药物研究领域中的应用,能够大大缩短药物研发周期。
生物信息学研究的重点及未来展望

生物信息学研究的重点及未来展望生物信息学是近年来快速发展的学科之一,它将计算机技术应用于生物学领域,为生物学研究提供了一个新的角度和方法。
生物信息学可用于研究生物信息的收集、分析、存储、传输和管理,为生物学家提供了有效而全面的工具。
本文将探讨生物信息学研究的重点和未来展望。
一、生物信息学的研究重点(1)基因组学基因组学研究生物的基因组结构和基因组数据的分析。
基因组学的目标是确定细胞、病理学和进化基因组的组成、顺序和互作模式。
生物信息学在基因组学中的应用有:基于DNA序列比对的各种数据分析、预测和注释工具的设计和运用,如基因寻找、基因结构预测、基因重编码、引物设计、遗传计图制图等。
还可研究生物基因组中的单核苷酸多态性和单基因突变等。
(2)蛋白质组学蛋白质组学研究蛋白质的产生、表达、修饰、定位、互作和功能。
蛋白质质谱学技术是蛋白质组学的关键技术,可用于确定蛋白质种类和含量、识别蛋白质质量、分析蛋白质结构和特性等。
生物信息学在蛋白质组学中的应用主要包括:蛋白质序列识别、结构预测、动态域注释、基础蛋白质互作和复合物分析等。
(3)结构生物学结构生物学研究蛋白质、核酸和复合物的分子结构和功能,提供在药物研发中的重要信息。
生物信息学在结构生物学中的应用包括:蛋白质结构预测和模拟、基于结构的药物设计、3D可视化等。
(4)生物信息系统生物信息系统研究通过整合信息和数据流的不同来源,为生物学家提供生成、存储、共享和管理生物信息的新方法,并把这些信息加以整合以研究生物系统的疾病和功能等。
生物信息学在生物信息系统中的应用有:数据挖掘、数据标准化、数据库设计、数据流转和系统分析等。
(5)表观遗传学表观遗传学研究基因表达的调控及其与环境的相互作用,特别是生命特征及其遗传素材在发育生物中的表现。
生物信息学在表观遗传学中的应用有:基因组和表观基因组学的平台操作、分析和可视化工具的开发和布署等。
(6)系统生物学系统生物学是一种以整体、动态和系统的方式来研究生物学的学科,它致力于深入研究基因、蛋白质和代谢通路等生物大分子的互作和网络调控。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学的内容及发展学生:XXX(X学院XXX班,学号:XXXXXXXXXXXXX)摘要:生物信息学(Bioinformatics)是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。
广义地说,生物信息学是用数理和信息科学的理论、技术和方法去研究生命现象、组织和分析呈现指数增长的生物数据的一门学科。
伴随着人类基因组计划的胜利完成,生物信息学的作用愈显重要。
关键字:生物信息学;科学技术;内容;发展生物信息学以计算机为其主要工具,发展各种软件,对逐日增长的浩如烟海的DNA和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、分析和研究,目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本质,破译隐藏在DNA序列中的遗传语言,揭示生物体生理和病理过程的分子基础,为探索生命的奥秘提供最合理和有效的方法或途径。
生物信息学已经成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量,也是药物设计、环境监测的重要组成部分。
一、生物信息学的定义与定位生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。
它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。
其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。
(Luscombe,2001) 具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。
基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。
从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:⑴新算法和统计学方法研究;⑵各类数据的分析和解释;⑶研制有效利用和管理数据新工具。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。
生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
二、生物信息学的研究内容和方向生物信息学的主要研究内容:基因组学 - 蛋白质组学- 系统生物学- 比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。
以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。
同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。
然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初级阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。
以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。
(一)序列比对序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性。
从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。
在各种试验条件下从探测数据中决定物理和基因图存贮,遍历和比较数据库中的DNA序列,比较两个或多个序列的相似性,在数据库中搜索相关序列和子序列,寻找核苷酸的连续产生模式,找出蛋白质和DNA序列中的信息成分。
序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。
两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达10^9bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。
因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。
(二)蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。
蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。
蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。
氨基酸的序列内在的决定了蛋白质的3维结构。
一般认为,蛋白质有四级不同的结构。
研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。
直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息。
蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。
从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。
同源建模(homology modeling)和指认(Threading)方法属于这一范畴。
同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。
然而,蛋白结构预测研究现状还远远不能满足实际需要。
(三)基因识别非编码区分析研究基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。
(四)分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。
既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。
通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。
(五)序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。
逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。
从算法层次来看,序列的重叠群是一个NP-完全问题。
(六)基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。
基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。
为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。
这一领域目的是发现新的基因药物,有着巨大的经济效益。
(七)生物系统的建模和仿真随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究热点-系统生物学。
(八)生物信息学技术方法的研究生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。
海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。
巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难,需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。
高维数据的分析需要偏最小二乘(partialleast squares,PLS)等特征空间的压缩技术。
在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的可实现性。
(九)其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。
从现在的发展不难看出,基因工程已经进入了后基因组时代。
我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识。
三、生物信息学的发展及挑战生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。
研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。
1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。
与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。
1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。
DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。
这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。
他们的理论奠定了分子生物学的基础。
DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。
DNA的复制需要一个DNA作为模板。
Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。
Crick 于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。