生物信息学中的数据库资源及其应用

合集下载

生物信息学数据库的构建与应用

生物信息学数据库的构建与应用

生物信息学数据库的构建与应用生物信息学数据库是存储、管理和分析生物信息学数据的重要工具,广泛应用于基因组学、蛋白质组学、转录组学等领域。

本文将从生物信息学数据库的构建和应用两个方面来阐述其重要性和作用。

首先,生物信息学数据库的构建是生物信息学研究的基础。

随着高通量测序技术的快速发展,大量的生物数据被生成,如基因组序列、蛋白质序列、基因表达数据等。

这些数据需要进行有效的存储和管理,以便后续的分析和挖掘。

生物信息学数据库的构建能够实现数据的集中存储、标准化管理和高效检索,提供给研究人员便捷的使用接口和数据分析工具。

例如,NCBI(National Center for Biotechnology Information)是一个重要的生物信息学数据库构建机构,它提供丰富的生物学数据库和分析工具,支持科学家和研究人员进行基因功能注释、序列比对、结构预测、基因表达分析等。

其次,生物信息学数据库的应用对于生物学研究和医学领域具有重要意义。

通过对生物信息学数据库的挖掘和分析,可以揭示基因组的结构和功能,探索基因之间的相互作用和调控机制。

例如,人类基因组计划(Human Genome Project)的完成就依赖于大规模的生物信息学数据库和基因组测序技术,为人类疾病的研究提供了重要的基础。

生物信息学数据库也在药物研发领域发挥着重要作用,帮助研究人员挖掘和筛选候选药物靶点,并加速新药的开发过程。

此外,生物信息学数据库还为个性化医疗提供支持,通过对患者基因组数据的分析和比对,可以实现精准医疗和个性化治疗。

生物信息学数据库的构建和应用还存在一些挑战和问题。

首先,生物信息学数据库的数据量巨大且不断增长,管理和存储这些数据需要应对海量数据的技术和方法。

其次,数据的质量和准确性是生物信息学数据库的关键问题,需要建立完善的数据标准和质量控制流程。

此外,生物信息学数据库之间的数据集成和共享也是一个挑战,需要统一的数据格式和标准,以便不同数据库之间的数据交流和整合。

初二生物生物信息数据库资源概述

初二生物生物信息数据库资源概述

初二生物生物信息数据库资源概述在现代生物学研究中,信息数据库资源扮演着至关重要的角色。

生物信息数据库资源广泛涵盖了许多方面的生物学数据,包括基因组、蛋白质、代谢途径、细胞结构等。

本文将概述初二生物学学习中常用的一些生物信息数据库资源。

一、基因组数据库资源基因组数据库资源主要用于存储和访问各种生物的基因组序列信息。

其中,最为著名的是国际基因组浏览器(International Genome Browser),它提供了包括人类、小鼠、果蝇、斑马鱼等多个物种的基因组信息。

学生们可以通过该数据库资源了解各物种的基因组结构和基因的功能。

二、蛋白质数据库资源蛋白质数据库资源主要用于存储和查询蛋白质序列和结构的信息。

蛋白质数据银行(Protein Data Bank)是全球最大的蛋白质结构数据库,其中收录了大量的蛋白质三维结构。

除了蛋白质结构信息外,蛋白质相互作用数据库(Protein-Protein Interaction Database)还提供了蛋白质间相互作用的信息,帮助学生们理解蛋白质的功能和相互作用网络。

三、代谢途径数据库资源代谢途径数据库资源主要用于存储和查询生物体内代谢途径的信息。

KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个常用的代谢途径数据库资源,它包含了多个物种的代谢途径图和相关基因的信息。

学生们可以通过该数据库资源了解细胞内各种代谢途径的组成和相互关系。

四、基因调控数据库资源基因调控数据库资源主要用于存储和查询基因的调控信息。

对于初二生物学学习来说,了解基因调控的基本概念和机制是非常重要的。

TRANSFAC是一个常用的基因调控数据库资源,该数据库中包含了转录因子、调控元件及其相互作用的信息。

学生们可以通过该数据库资源了解基因调控的基本原理和调控网络的组成。

五、细胞结构数据库资源细胞结构数据库资源主要用于存储和查询细胞器结构和功能的信息。

生物信息学实验教学中的网络资源及其利用

生物信息学实验教学中的网络资源及其利用

生物信息学实验教学中的网络资源及其利用生物信息学是一门交叉学科,将计算机科学、生物学和统计学等知识应用于生物学研究中。

在生物信息学实验教学中,网络资源是非常重要的学习工具。

本文将介绍几种常见的生物信息学网络资源及其在实验教学中的利用。

1. 生物信息学数据库生物信息学数据库是生物学和计算机科学相结合的产物,存储了大量的生物学数据和相关信息。

常见的生物信息学数据库包括GenBank、UniProt、Ensembl等。

这些数据库涵盖了基因序列、蛋白质序列、基因组数据等多种类型的数据,可以帮助学生了解和分析生物学数据。

在实验教学中,可以引导学生使用这些数据库查找相关的生物学信息,比如搜索特定基因的序列、查询蛋白质的功能等。

2. 生物信息学工具生物信息学工具是用于分析和处理生物学数据的软件和算法。

学生可以通过网络资源获得免费的生物信息学工具,并在实验中应用这些工具进行数据分析。

常见的生物信息学工具包括BLAST、ClustalW、FASTA等。

这些工具可以帮助学生进行序列比对、同源性分析、蛋白质结构预测等任务,培养学生的数据处理和分析能力。

3. 在线教学平台在线教学平台是指通过网络提供教学内容和资源的平台。

在生物信息学实验教学中,可以利用在线教学平台发布实验指导书、实验数据和实验报告等教学资源。

学生可以通过在线教学平台获取实验资料、提交实验结果,并与教师和同学进行交流和讨论。

教师可以通过在线教学平台进行作业和考试,提供实时的反馈和评价。

4. 生物信息学论坛和社区生物信息学论坛和社区是生物信息学学术交流和合作的平台。

学生可以参与生物信息学论坛和社区的讨论,与其他研究者分享自己的研究成果和经验。

通过与专业人士的互动,学生可以深入了解生物信息学研究的最新进展和发展趋势,拓宽自己的视野和思路。

生物信息学论坛和社区也可以为学生提供求职和合作的机会,促进学生的职业发展。

网络资源在生物信息学实验教学中具有重要的作用。

通过利用生物信息学数据库、工具、在线教学平台和论坛社区等网络资源,可以帮助学生快速获取生物学数据和研究资料,提高数据处理和分析能力,培养科研思维和合作能力。

生物信息学中的数据库和计算工具

生物信息学中的数据库和计算工具

生物信息学中的数据库和计算工具生物信息学是一门综合性学科,应用范围十分广泛。

生物信息学研究的是生物体内的遗传信息的获取、存储、分析和应用。

它结合了生物学、信息学、计算机科学、数学等多个学科,旨在解决生物大数据的存储、分析和挖掘问题。

本文将介绍生物信息学中的数据库和计算工具,以及它们在生物信息学中的应用。

一、生物信息学中的数据库生物信息学中的数据库是受到生物学家和计算机科学家制作和维护的存储和组织生物数据的资源。

这些数据库包括基因组、蛋白质、代谢、信号转导、基因表达谱等生物信息学数据库。

生物信息学中的数据库已经成为研究生物学的常规工具,研究人员可以通过分析数据库中的信息来更好地理解生物学现象。

1. 基因组数据库基因组数据库是生物信息学中最重要的数据库之一。

它存储了各种物种的基因组信息。

基因组数据库的应用包括基因预测、基因注释、基因功能鉴定、基因组进化分析等。

最知名的基因组数据库包括 GenBank、EMBL、Ensembl 等。

其中 GenBank 是最大的公共基因组数据库之一,它由美国国家生物技术信息中心(NCBI)维护。

2. 蛋白质数据库蛋白质数据库是存储蛋白质结构和序列信息的数据库。

其中,PDB是最著名的蛋白质数据库之一,它提供了大量的蛋白质三维结构的信息。

此外,UniProt 是另一重要的蛋白质数据库,它整合了多个独立的蛋白质数据库,提供了关于蛋白质序列、结构和功能的详细信息。

3. 引用数据库引用数据库存储了生物学家在论文、会议和其他出版物中发表的研究结果。

它们经常被生物信息学家用于构建生物信息学算法的基础,并分析特定领域的研究趋势。

PubMed 和 Web of Science 是引文数据库的代表性例子。

二、生物信息学中的计算工具随着数据量的增加和分析复杂度的提高,生物信息学中出现了大量的计算工具用于帮助生物科学家完成各种分析任务。

这些工具包括序列比对、序列拼接、批量序列处理、统计分析、数据可视化、机器学习等。

生物信息数据库资源及其应用

生物信息数据库资源及其应用
Zh n io a g Gu rng
( irr,H bi oma U i rt f cec Tc nl y Q n un doHee 0 6 0 C ia Lbay e e N r l nv syo ine& eh oo , ih ag a bi 6 04, hn ) ei S g
了生物信息数 据库在序列 比对与 电子克隆 、 白质结构 比对 与预测、 子进化和 比较基 因组 学研究 、 于结构 蛋 分 基
的药物设计等 方面 的应用 策略 , 以期为我 国学 者提供免费 的生物信 息数 据库 资源 , 为生 命科 学各领域 的研究
构建信息平 台 。 关键词 : 生物信息学 ; 据库 ; 数 数据 挖掘 ; 用 应
20 0 3年 , 、 、 德 、 、 等 6国 科 学 家 中 美 日、 法 英
信息 学进 入 了飞速 发 展 的 阶 段 。2 纪 8 0世 0年代
宣布人类基因组序列 图绘制 成功 , 人类基 因组计 划的所有 目标全部实现 , 拉开 了大规模测序 的序 幕, 截至 2 0 0 9年 8月已经有 63 3 9 个物种完成基 因组 全序 列 测 序 。这 种 大 规 模 的研 究 工 作 , 起 引 了科 学 界 及 社 会 广 泛 关 注 , 得 生 物 信 息 学 使 ( inomac) 了 本 世 纪 初 最 耀 眼 的 学 科 , Bo fr t s成 i i 并 被许多著名科学家称为 2 世纪 自然科学 的核心 1 领域。 生物信息学是计算机和网络大发展及各种生
中 图分 类 号 : 2 3 ( 0 ; 文献 标识码 : A 文 章 编 号 :6 27 9 ( 0 0 0 -1 13 17 -9 1 2 1 ) 1 2 44 0
Bi -n o m ai n Da a a e Re o r e n er Ap H a o o i f r t t b s s u c s a d Th i p e f n o i

生物信息学实验教学中的网络资源及其利用

生物信息学实验教学中的网络资源及其利用

生物信息学实验教学中的网络资源及其利用生物信息学是一门综合性学科,融合了生物学、计算机科学和统计学的知识,在分析和解释生物大数据方面有着重要的应用。

随着互联网的发展和普及,网络资源在生物信息学实验教学中的应用也越来越广泛。

本文将介绍一些常用的网络资源及其在生物信息学实验教学中的利用。

1. 生物信息学数据库和工具生物信息学数据库和工具是生物信息学研究中常用的网络资源。

一些常用的数据库包括NCBI(国家生物技术信息中心)的GenBank数据库、EMBL(欧洲分子生物学实验室)的EMBL数据库和UniProt(蛋白质序列和功能数据库)等。

这些数据库提供了大量的生物序列、结构和功能等信息,可以用于教学中的生物信息学实验。

2. 生物信息学在线课程网络资源还提供了丰富的生物信息学在线课程,如Coursera、edX和MOOCs等平台上的生物信息学课程。

这些课程提供了系统的生物信息学教学内容,包括基本概念、实验方法、数据分析和解释等。

教师可以引导学生通过在线课程进行学习,提高他们的理论知识和实践能力。

网络资源中还有许多生物信息学学习资料和教学工具,如在线教材、视频教程、软件和应用程序等。

这些资源可以帮助学生理解生物信息学的基本概念和实验方法,并进行实际操作和数据分析。

教师可以根据实际需要选择适合的资源进行教学,提高学生的学习效果和兴趣。

4. 生物信息学研究论文和期刊网络资源提供了大量的生物信息学研究论文和期刊,如PubMed和ScienceDirect等数据库。

这些研究论文和期刊可以用于教学中的文献阅读和研究讨论,让学生了解最新的生物信息学研究进展并培养科研能力。

1. 在线讨论和互动教师可以引导学生通过网络资源进行在线讨论和互动,分享学习心得和实验经验,解决问题和疑惑,并进行小组合作和集体学习。

这种方式可以扩大教学范围,促进学生之间的交流和合作,提高学习效果。

2. 实践操作和数据分析教师可以引导学生通过网络资源进行实践操作和数据分析,学习和掌握生物信息学实验的方法和技巧。

流行病学研究中的生物信息学数据库与资源应用

流行病学研究中的生物信息学数据库与资源应用

流行病学研究中的生物信息学数据库与资源应用随着科技的不断发展和进步,生物信息学在流行病学研究中的应用变得越来越重要。

生物信息学数据库和资源成为流行病学研究人员的重要工具,可以提供宝贵的数据和信息,帮助研究人员深入了解疾病的发生和传播机制。

本文将详细介绍流行病学研究中常用的生物信息学数据库和资源,以及它们的应用。

一、SNP数据库SNP(single nucleotide polymorphism)数据库是研究流行病学中最常用的数据库之一。

SNP是指基因组中的单个核苷酸变异,可用来研究人与人之间的遗传差异以及遗传变异与疾病之间的关系。

常见的SNP数据库包括dbSNP、HapMap和1000 Genome等。

这些数据库存储了大量的SNP信息,研究人员可通过检索和分析这些数据库中的数据,揭示SNP与疾病的相关性,为流行病学研究提供重要的依据。

二、基因表达数据库基因表达数据库存储了不同组织和细胞中的基因表达水平信息,对于分析疾病的遗传机制和发生发展过程起着重要作用。

常见的基因表达数据库包括Gene Expression Omnibus(GEO)和The Cancer Genome Atlas(TCGA)等。

研究人员可通过这些数据库获取基因在特定组织或疾病状态下的表达水平信息,进一步研究基因与疾病的关联性。

三、蛋白质数据库蛋白质数据库存储了大量的蛋白质序列和结构信息,对于研究疾病的发生机制和蛋白质功能起着重要作用。

常见的蛋白质数据库包括UniProt、Protein Data Bank(PDB)和STRING等。

研究人员可通过这些数据库获取蛋白质的序列、结构和功能信息,揭示蛋白质与疾病之间的关系,为流行病学研究提供有力支持。

四、基因组数据库基因组数据库存储了各种物种的基因组序列信息,为研究物种的遗传特性和基因功能提供了重要数据。

常见的基因组数据库包括GenBank、Ensembl和UCSC Genome Browser等。

生物大数据技术在生物信息学研究中的重要数据库介绍

生物大数据技术在生物信息学研究中的重要数据库介绍

生物大数据技术在生物信息学研究中的重要数据库介绍生物信息学是利用生物学、计算机科学和统计学等多个学科的知识和技术研究生物信息的一门交叉学科。

近年来,随着高通量测序技术和大规模实验方法的发展,大量的生物信息数据积累起来,对于科学家来说,如何有效地管理和分析这些生物信息数据成为一项重要的任务。

生物大数据技术应运而生,成为解决这一问题的重要工具之一。

在生物大数据技术的支持下,科学家们逐渐构建了许多重要的数据库,为生物信息学研究提供了丰富的资源。

本文将介绍一些在生物信息学研究中起重要作用的数据库。

1. 基因组数据库基因组数据库是存储各种生物的基因组序列和相关信息的数据库。

其中,NCBI GenBank和ENSEMBL是两个非常重要的基因组数据库。

NCBI GenBank是一个庞大的公共数据库,存储了全球各种生物的基因组序列和其他关联信息。

ENSEMBL则是一个整合了多个数据库的资源,提供了全面的基因组序列和功能注释信息。

这些基因组数据库不仅为科学家们提供了基因组资源和注释信息,还为进一步的基因功能研究提供了重要的支持。

2. 蛋白质数据库蛋白质数据库是存储蛋白质序列和相关信息的数据库。

UniProt是最为知名和广泛使用的蛋白质数据库之一,它整合了多个已知蛋白质数据库的信息,包含了对蛋白质的功能、结构和相互作用等方面的注释。

此外,PDB是存储蛋白质三维结构信息的重要数据库,为研究蛋白质结构和功能提供了宝贵的资源。

蛋白质数据库的建立和维护为研究人员提供了更准确和全面的蛋白质信息,促进了蛋白质研究的深入开展。

3. 转录组数据库转录组数据库存储了各种生物体在特定条件下的转录组信息,包括基因的表达水平、调控网络和功能注释信息等。

GEO和EBI ArrayExpress是两个重要的转录组数据库。

GEO是一个公共数据库,包含了从全基因组水平到单基因水平的转录组数据,研究人员可以通过GEO访问到大量已发布的转录组数据。

EBI ArrayExpress是一个整合了全球转录组数据的资源,为用户提供了数据访问、分析和比较的功能。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学中的数据库资源及其应用摘要:伴随着生物信息学的发展,生物信息数据库日趋完善。

现对生物信息学、数据库的建设及其应用情况进行了综述,并展望生物信息学的发展前景。

关键词:生物信息学;数据库的建设及其应用生物信息学(Bioinformatics)是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。

广义地说,生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。

美国人类基因组计划中[1],对基因组信息学有这样的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。

这一定义包含着两方面的内容,一方面是发展有效的信息分析工具,构建适合于基因组研究的数据库,用于搜集,管理,使用人类基因组和模式生物基因组的巨量信息。

另一方面是配合实验研究,确定约30亿个碱基对的人类基因组完整核苷酸顺序,找出全部约10万个人类基因在染色体上的位置以及包括基因在内的各种DNA片段的功能,也就是“读懂”人类基因组[2]。

正如基因组信息学的定义所确定的,它的研究内容主要包含两个部分,一是基因组相关数据的收集与管理,另一个是基因组数据内涵的分析与解释,也就是遗传密码的破译。

生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。

前基因组时代的标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。

三个阶段虽无明显的界限,却真实地反映了整个研究重心的转移变化历程[3]。

1 生物信息学数据库简介近年来随着大量生物学实验数据的积累,众多的生物学数据库也相继出现,它们各自按照一定的标准收集和处理生物学实验数据,并提供相关的数据查询、处理等服务。

而数据库的类型则几乎覆盖了生命科学的各个领域[4]。

国际上主要的DNA序列数据库有GenBank,EMBL,DDJB,ESTdb,OMIM,GDB,GSDB 等;蛋白质一级结构数据库有SWISS-PROT,PIR,OWL,ISSD,MIPS等;蛋白质二级结构数据库有PROSITE,BLOCKS,PRINTS等;蛋白质和其他生物大分子的三维结构数据库有PDB,NDB,CCSD 等;与蛋白质结构分类有关的数据库有SCOP,CATH,FSSP 等[5]。

上述这些数据库只是对原始生物学实验数据进行简单的整理和归类,可称它们为基本数据库;随着生物数据库在种类和数量上的急剧增长,其复杂程度也不断增加,这就对数据库的管理带来了挑战,一些将多个基本数据库整合在一起提供综合服务的二次数据库便出现了,常用的有UniGene,TransFac,EPD,Prosite,Prints,Pfam,Blocks,Prof iles,DSSP,PubMed 等数据库。

这样用户可以方便地进行多个数据库的多种查询。

现在大多数数据库能实现自动投送数据、在线查询、在线计算和空间结构的可视化浏览等多种功能[6]。

目前,几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下载或提供免费服务。

1.1 生物信息学数据库的分类及特点按照处理对象分类,生物信息学中的数据库主要有四种类型:核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库和基因组数据库。

根据建库的方式,现有的生物信息数据库也可以大致分为四类:一级数据库是最基础的,一般是国家或国际组织建设和维护的数据库,如由美国NCBI所维护的GenBank 等。

二级数据库是在一级数据库的基础上,结合工作的需要将部分数据从一级数据库中取出,经过重新组合( 包括一定的修正或调整) 而成的数据库。

其专一性很强,数据量相对较少,但质量高,数据库结构设计精制。

专家库是一种特殊的二级数据库,但它是通过有经验的专家经过人工校对标识之后建立的。

这种数据库质量很高,使用方便可靠,但更新和发展都比较慢。

SWISS-PROT就是一个典型的专家库。

还有一种是整合数据库,它是将不同数据库的内容按照一定的要求整合而成,为一定的目的服务,许多商业和内部数据库实质上就整合数据库。

生物信息学数据库具有以下一些特点:数据库种类的多样性,生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库、蛋白质序列数据库、蛋白质的三维结构数据库、文献数据库如Medline等,多达数百种。

数据库的更新和增长很快,数据库的更新周期越来越短,有些数据库每天都要更新,数据的规模也以指数形式增长。

数据库的复杂性增加,层次加深,许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB 就与蛋白质二级数据库、蛋白质结构分类数据库和蛋白质折叠数据库等几十种数据库直接关联。

数据库使用的高度计算机化和网络化,越来越多的生物信息学数据库与互联网联结,从而为生物学家利用这些信息资源提供了前所未有的机遇,特别是绝大多数网上生物信息学数据库的信息资源可以免费检索或下载使用[7]。

1.2 常用生物学数据库1.2.1 核酸序列数据库目前,国际上最权威、最主要的3大核酸序列数据库是:美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)所维护的GenBank数据库,欧洲生物信息学研究所(European Bioinformatics Institute,EBI)的EMBL(European Molecular Biology Laboratory)数据库和日本国立遗传学研究所(Japan National Institute of Genetics for Information Biology )的DDBJ(DNA Data Bank of Japan)数据库。

1998年它们共同成立了国际核苷酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC),每天进行数据交换,同步更新,确保用户在任何一家数据库得到的信息是完整、全面的[8]。

除3大核酸数据库外,还有很多特殊类型的核酸序列数据库,如人类基因组数据库(HGD)、非编码RNA数据库(ncRNA)、表达序列标签数据库(dbEST)、核苷酸三维结构数据库(NDB)、人类基因变异数据库(HMGD)等,更细类别的核苷酸数据库如miRBase、tRNAdb等[9]。

GenBank是具有目录和生物学注释的核酸序列综合公共数据库。

该数据库中包含已公开的可获得的38万余种以属或属以下水平命名的生物核酸序列,这些数据主要来源于序列发现者提交的序列、成批提交的表达序列标签、基因组勘测序列和其它测序中心提供的高通量数据,还包括美国专利商标局提供的已发表的序列数据,自GenBank建立以来,随着测序技术的不断发展,数据库的序列数据量持续呈指数增长,大约每35个月翻一番[11]。

EMBL核酸序列数据库是欧洲最主要的、世界上最早的核酸序列数据库,收存了欧洲大部分核酸序列生物等生物学数据,其序列来源于基因组测序中心、世界各地的研究人员、欧洲专利局及其合作伙伴GenBank和DDBJ交换的数据。

该数据库目前由欧洲生物息学研究所EBI负责维护[12]。

DDBJ数据库是亚洲唯一的核酸序列数据库,由日本国立遗传学研究所遗传信息中心维护。

其数据库首先是反映日本所产生的DNA数据,同时与GenBank和EMBL合作,互通有无,同步更新,每年4版。

DDBJ数据库与GenBank的格式一致。

1.2.2 蛋白质序列数据库蛋白质序列数据库有很多,主要有PIR-PSD、Swiss-Prot和TrEMBL等。

PIR是较全面和权威注释的蛋白质序列数据库,具有非冗余、高质量和全面的分类等特点。

Swiss-Prot由瑞士生物信息学研究所和欧洲生物信息学研究所EBI 共同维护,通常认为Swiss-Prot中的蛋白质注释信息是黄金标准,有经验的分子生物学家和蛋白质化学家通过计算机查阅相关文献资料仔细核实了该数据库的所有序列条目。

TrEMBL提供蛋白质序列的自动注释信息。

2002年,PIR、Swiss-Prot和TrEMBL在美国国立卫生研究院(NIH)的资助下,将PIR、Swiss-Prot和TrEMBL合并,建立了全球范围内统一的蛋白质序列和功能数据库——UniProt(Universal Protein Resource)。

1.2.3 生物大分子结构数据库如蛋白质结构数据库(Protein Data Bank,PDB)是目前国际上著名的生物大分子结构数据库,含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括DNA、RNA、蛋白质与核酸复合物的三维结构。

同核酸序列数据库一样,可通过网络直接向PDB数据库递交结构数据。

截止2013年9月5日,PDB数据库中共含有93624个结构数据[13]。

由于PDB主要由生物大分子三维结构所组成,具有以下几种功能:能够查找目的蛋白质的结构;可进行蛋白质一级到高级结构的简单分析;与互联网上的其他一些数据库链接,如GenBank、Swiss-Prot、PIR等,从而可查询蛋白质的其他信息;通过关键词或PDB标识符等进行查询,可下载有关的结构信息以供进一步使用。

在蛋白质分析中,PDB主要应用于蛋白质结构预测和结构相似性比较。

1.2.4 基因组数据库如Ensembl,是一个综合基因组数据库,它是由欧洲生物信息学研究所(EBI)与Sanger研究所、Wellcome基金会(Wellcome Trust Sanger Institute,WTSI)共同合作开发的一个系统。

Ensembl是一个有关人类基因组和其他物种基因组的全面资源的基因组信息库,为研究人员提供了全面的基因组信息,包括基因数据存储、信息整合、数据分析及生物信息可视化处理等功能。

Ensembl 试图跟踪这些基因组的序列片段,并将其组装成单个长序列,分析这些经过组装的DNA序列,搜索其中基因,发现生物学家或医学工作者感兴趣的特征。

此外,Ensembl数据库还提供疾病、细胞等方面的信息,且提供数据搜索、数据下载、统计分析等服务。

目前,Ensembl共收录50多个物种的数据[14]。

2 数据库的应用2.1 序列比对与电子克隆数据库检索是一个重要工具,在分子生物学研究中,研究者获得的新的核酸或蛋白序列,并不一定知道其相应的生物功能。

相关文档
最新文档