生物信息学第二章 GenBank序列数据库

合集下载

genbank格式解读

genbank格式解读
GenBank是一个用于存储和分享生物信息数据的数据库，它包含了大量的
DNA序列、蛋白质序列和其他生物学信息。

GenBank格式是一种用于描述这些生
物信息数据的标准格式。

GenBank格式包含了多个部分，每个部分提供了不同的信息。

以下是GenBank
格式的主要部分：
1. LOCUS：这部分包含了序列的名称、长度和描述信息。

它告诉我们序列的
基本属性。

2. DEFINITION：在这部分，我们可以找到对序列的简要描述，包括它的来源、功能和重要性等信息。

3. ACCESSION：这部分提供了序列的唯一标识符，以便于搜索和引用。

4. VERSION：这部分包含了序列的版本号，表示数据的更新和修订历史。

5. FEATURES：这是一个关键部分，描述了序列中的各个功能区域和特征，如
基因、启动子、编码区等。

6. ORIGIN：这部分包含了序列的碱基序列，以及用于排列序列的行号。

通过解读GenBank格式，我们能够获取到序列的基本信息、描述、标识符和功能区域等重要内容。

这对于了解和研究生物信息非常有帮助。

需要注意的是，GenBank格式并不限于DNA和蛋白质序列，它还可以包含其
他类型的生物信息数据，比如RNA序列、基因组装序列等。

因此，掌握GenBank格式的解读方法，对于生物信息学研究人员和生命科学领域的专业人士来说，是非常重要的。

通过准确理解和解读GenBank格式，我们能
够更好地挖掘和利用这些宝贵的生物信息资源，为生物学研究作出贡献。

GenBank数据库检索及其应用(1)

简介
GenBank数据库是由美国国立生物技术信息中心（NCBI）维护的一级核酸序列数据库。
GenBank数据库的数据来源有三种： 1、直接来源于测序工作者提交的序列； 2、与其它数据机构协作交换的数据； 3、美国专利局提供的专利数据。
编辑课件ppt
11
GenBank数据库
简介检索界面
1、基本检索界面
文献数据库分子数据库
基因组数据库
编辑课件ppt
5
NCBI的资源与工具
工具
编辑课件ppt
6
NCBI的资源与工具
检索工具
数据分析工具
下载工具程序软件
编辑课件ppt
7
NCBI的资源与工具
数据提交
编辑课件ppt
8
NCBI的资源与工具
培训
编辑课件ppt
9
GenBank数据库
编辑课件ppt
10
GenBank数据库
编辑课件ppt
25
GenBank数据库基本检索功能
“ras”[GENE]
编辑课件ppt
26
GenBank数据库基“ra本s”检[G索EN功E]能
编辑课件ppt
27
GenBank数据库
简介检索界面基本检索功能
（一）字段限制检索（二）特殊标志符检索
编辑课件ppt
28
特殊标志符的格式（核酸序列）：
（1）mRNA 记录（NM_*）: e.g.:NM_000492
（2）基因组的DNA重叠群（NT_*）: e.g.:NT_000347
（3）完整的基因组或染色体（NC_*）: e.g.:NC_000907
（4）基因组的局部区域（NG_*）: e.g.:NG_000019

GenBankDNA序列库

GenBankDNA序列库编辑：刘慧萍陈梅红GenBank简介GenBank检索与查询方式向GenBank递交数据GenBank 概况（/Web/Genbank/index.html）•GenBank 是什么?GenBank 是NIH 的基因序列数据库，是所有公开的DNA序列的集合(NucleicAcids Research 1998 Jan 1;26(1):1-7). 截至1998年12月，GenBank大约收集了2,162,000,000 个碱基、3,044,000 个序列。

作为示例，你可以察看一下neurofibromatosis gene的纪录。

也可以阅读关于当前版本的Genbank的完整的release notes（发布说明）。

每两个月会发布一个新的版本（release）。

GenBank 也是国际核酸序列数据库协作（International Nucleotide Sequence DatabaseCollaboration）的一部分，国际核酸序列数据库协作由以下几个部分组成：日本DNA 数据库（DNA DataBank of Japan (DDBJ)），欧洲分子生物学实验室（the European Molecular Biology Laboratory (EMBL)）和NCBI的GenBank ，这三个组织每天都交换数据。

•向GenBank提交数据许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息（submission of sequence information），因为这样的话，一个序列访问号码（accession number）就可以出现在文章中。

NCBI有一个WWW形式的表格叫做BankIt，它提供了一种快速而简便的序列提交方法。

另一种方法是使用Sequin，NCBI开发的新的可以独立运行于MAC, PC, and UNIX平台的序列递交软件，可以从FTP获得它，使用Sequin 时，用于直接提交的输出文件可以通过E-mail 发送到NCBI，也可以将数据文件拷贝到软盘上邮寄给NCBI。

#GenBankDNA序列库

GenBankDNA序列库编辑：刘慧萍陈梅红GenBank简介GenBank检索与查询方式向GenBank递交数据GenBank 简况<）•GenBank 是什么?GenBank 是 NIH 的基因序列数据库，是所有公开的DNA序列的集合 (Nucleic Acids Research 1998 Jan 1。

26(1>:1-7>. 截至1998年12月，GenBank大约收集了2,162,000,000 个碱基、3,044,000 个序列。

作为示例，你可以察看一下neurofibromatosis gene的纪录。

也可以阅读关于当前版本的Genbank的完整的release notes <发布说明）。

每两个月会发布一个新的版本< release）。

GenBank 也是国际核酸序列数据库协作<International Nucleotide Sequence DatabaseCollaboration）的一部分，国际核酸序列数据库协作由以下几个部分组成：日本DNA数据库<DNA DataBank of Japan (DDBJ>），欧洲分子生物学实验室< theEuropean Molecular Biology Laboratory (EMBL>）和 NCBI的GenBank ，这三个组织每天都交换数据。

•向GenBank提交数据许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息<submissionof sequence information），因为这样的话，一个序列访问号码 <accession number）就可以出现在文章中。

NCBI有一个WWW形式的表格叫做 BankIt，它提供了一种快速而简便的序列提交方法。

另一种方法是使用 Sequin，NCBI开发的新的可以独立运行于MAC, PC, and UNIX平台的序列递交软件，可以从FTP获得它，使用Sequin时，用于直接提交的输出文件可以通过 E-mail 发送到NCBI，也可以将数据文件拷贝到软盘上邮寄给NCBI。

(2)第二章核酸数据库及核酸序列的分析(第二节序列数据库检索)

生物信息学
杭州师范大学生命与环境科学学院向太和
生物信息学
杭州师范大学生命与环境科学学院向太和
作者姓名检索
在检索框内按照姓+名缩写(不用标点)的格式键入作者姓名，如Smith JA，Huang JF，系统会自动在作者字段内进行检索。可以在姓名后加[AU]或[au] au—author
生物信息学
杭州师范大学生命与环境科学学院向太和
3）获取原文及相关资源
联机获取原文（linkout ）
相关文献查找（related article) NCBI其他数据库资源（生物信息学等）
生物信息学
杭州师范大学生命与环境科学学院向太和
PubMed与MEDLINE光盘检索比较
PubMed
内容涉及：医学、药学、牙医学、护理学、卫生保健、兽医学等专业。
记录标注[PubMed - indexed for MEDLINE]
生物信息学
杭州师范大学生命与环境科学学院向太和
OLDMEDLINE for pre-1966 citations
In-process citations
是临时性医学文献数据库，每天接收新数据，经MeSH词表标引后，每周向medline 移加一次。
生物信息学
杭州师范大学生命与环境科学学院向太和
生物信息学
杭州师范大学生命与环境科学学院向太和
自动词语匹配：
PubMed能自动利用它的“自动词语匹配”功能将重要的词语结合在一起，并将不规范的词语转换成规范的用词。如：输入vitamin c common cold，系统会将自动转换成
7种文献类型限制 7种语种 12种子集
生物信息学

生物信息学第二章 GenBank序列数据库

第二章GenBank序列数据库简介一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯，以致于我们很少会去考虑这些普遍存在的工具是如何建立的。

但是如果我们能够了解这些序列是如何汇集到一起的，这将有助于我们加深对生物学的理解，并且能够更加充分地发掘这些记录中蕴藏的信息。

GenBank是美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸以及蛋白质序列。

每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。

这些文件按类别分为几组：有些按照系统发生学划分，另外一些则按照生成这些序列数据的技术方法划分。

目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。

这些作者将序列数据作为论文的一部分来发表，或将数据直接公开。

GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立，与日本DNA数据库（DDBJ）以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库（EMBL）一起，都是国际核苷酸序列数据库合作的成员。

所有这三个中心都可以独立地接受数据提交，而三个中心之间则逐日交换信息，并制作相同的充分详细的数据库向公众开放（虽然格式上有细微的差别，并且所使用的信息系统也略有不同）。

这一章描述GenBank数据库是如何构成的，它如何与蛋白质数据库相衔接，以及如何解释其中的数据成分。

关于序列数据库，前人已经作了大量的工作，具体可参见（Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997）。

所有这些论文都指出了数据库快速增长的趋势，并对如何利用这些生物学资源提出了建议。

出于科学研究的考虑，以及由于历史的原因，序列数据被分别存放在核苷酸和蛋白质数据库中。

GenBank数据库检索及其应用

（1）mRNA 记录（NM_*）:
e.g.:NM_000492
（2）基因组DNA重叠群（NT_*）: e.g.:NT_000347
（3）完整的基因组或染色体（NC_*）:
e.g.:NC_000907 （4）基因组的局部区域（NG_*）:
e.g.:NG_000019
（5）从人类基因组序列注释、加工得到的序列模型记录（XM，XP， or XR_*）：
（二）特殊标志符检索
（三）序列长度检索
（四）分子重量检索（五）范围检索
范围检索：中间用冒号连接

1、序列接受号范围检索： AF114696:AF114714[ACCN] 2、序列长度范围检索： 3000：4000[SLEN] 3、分子重量范围检索： 2002：2009[MOLWT] 4、日期范围检索： 2005/01：2006/09/26[MDAT]or[PDAT]
限制检索界面：
限制检索界面：
检索结果显示界面：
限制检索（Limits）：
限制检索范围
ras
限制检索范围
排除某种类型的序列
限制分子类型
限制分子类型
限制基因位点
限制基因位点
限制序列片段的显示
限制序列片段的显示
限制数据来源
限制数据来源
限制数据修订日期
限制数据修订日期
限制检索（Limits）
限制检索界面：
限制检索界面：
核苷酸序列数据库分为三个子数据库：

EST :表达序列标记数据库 GSS :基因组测序序列数据库
CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列

核苷酸序列数据库检索界面：

GenBank数据库的简略介绍

GenBank主页
GenBank查找页面及描述部分
GenBank序列文件
特性表
关键字
CDs are recurring units in polypeptide
chains
CD s编码序列，含终止密码子 polyA signal 多聚A信号
CDs are recurring units in polypeptide chains
• 数据格式为FastA
GenBank数据库—数据库格式
FASTA格式 • 将一个DNA或者蛋白质序列表示为一个带有一些标记的核
苷酸或氨基酸字符串。 • 大于号（>）表示一个新文件的开始 • 结束用（//） GenBank纯文本文件格式：GenBank，flatfile，GBFF
FASTA格式序列的提交
序列本身
序列结束
4859 bp
GenBank数据记录
GenBank注释内容
• 序列条目关键字： – LOCUS (代码), – DEFINITION (说明)， – ACCESSION(编号)， – NID符(核酸标识), – KEYWORDS (关键词)， – SOURCE (数据来源)， – REFERENCE (文献)， – FEATURES (特性表)， – BASE COUNT (碱基组成) – ORIGIN (碱基排列顺序)。
• 新版的核酸序列数据库将引入新的关键词SV (序列版本号)，用“编号.版本号” 表示，并取代关键词NID
谢谢观赏
GenBank数据库的简略介绍
数据库的作用
• 序列搜素 • 文献搜索 • 功能信息查询 • 引物设计 • Blast序列分析
GenBank数据库结构
• 完整的 GenBank数据库包括序列文件，索引文件以及其它有关文件。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二章GenBank序列数据库简介一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯，以致于我们很少会去考虑这些普遍存在的工具是如何建立的。

但是如果我们能够了解这些序列是如何汇集到一起的，这将有助于我们加深对生物学的理解，并且能够更加充分地发掘这些记录中蕴藏的信息。

GenBank是美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸以及蛋白质序列。

每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。

这些文件按类别分为几组：有些按照系统发生学划分，另外一些则按照生成这些序列数据的技术方法划分。

目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。

这些作者将序列数据作为论文的一部分来发表，或将数据直接公开。

这一章描述GenBank数据库是如何构成的，它如何与蛋白质数据库相衔接，以及如何解释其中的数据成分。

所有这些论文都指出了数据库快速增长的趋势，并对如何利用这些生物学资源提出了建议。

出于科学研究的考虑，以及由于历史的原因，序列数据被分别存放在核苷酸和蛋白质数据库中。

核苷酸序列是查询核苷酸数据库以及蛋白质数据库时的主要出发点，并且目前有一种趋势，将核苷酸数据库介入到蛋白质数据库的管理之中（正如我们下面将要看到的那样）。

这并不奇怪，因为数据库维护者与数据提交者之间的直接通讯将有利于保证数据的真实性与准确性（提交者需要一个检索号，并且他们想要得到他们添加到数据库中的新记录）。

在很多情况下，这种对数据的关注意味着提供适当的信息来注释CDS（coding sequence：编码序列），并告诉我们如何得到翻译产物。

这种对蛋白质和核酸序列统一管理的倾向也明显地体现在NCBI的Entrez之中，在GenBank的管理之中，以及在GenPept格式记录的生成过程之中。

在欧洲，EBI的工作人员统一维护管理Swiss-Prot和TREMBL，这些工作人员也负责EMBL核苷酸数据库的管理工作。

还有Amos Bairoch和他在日内瓦大学的研究组。

（见本章后的列表）。

尽管如此，建立核苷酸和蛋白质数据库的初衷还是有区别的。

本章还初步讨论了将在第六章详细描述的数据模型。

这一章主要是从GenBank flatfile的角度介绍序列数据，但必须明确的是，“flatfile”（不论是GenBank, EMBL, Swiss-Prot或PIR），都只是ASN.1报告的一个方面。

而ASN.1才是代表了NCBI数据模型的语言。

GenBank 以DNA为核心，包含了许多计算生物学资源。

历史上，蛋白质数据库先于核苷酸数据库。

在60年代初，Dayhoff和他的同事们收集了所有当时已知的氨基酸序列，这就是“蛋白质序列与结构图册”（Dayhoffet al., 1965）。

这一蛋白质数据库后来成为PIR（George et al., 1997）。

这本书为今天整个生物信息学界日常工作所依赖的计算生物学资源播下了种子。

这个在1965年可以很容易地存放在一张软盘上的数据集（尽管那时并不存在软盘这种存储介质），是一小群人多年的工作成果。

今天，任何一个DNA或蛋白质数据库每天增加的数据量都数倍于此。

最早的DNA序列数据库于1982年在欧洲分子生物学实验室诞生，随即就开始了一个数据库爆炸的时代。

（见图2.1）。

R. Cook-Deegan(1993)在《基因战争》中详细描述了这一时期人类基因组计划的历史。

此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。

两个中心都致力于发展输入方式，这主要是将学术刊物上公开发表的论文转换为更适合计算机使用的电子格式。

日本的DNA数据库（DDBJ），在几年后加入了数据收集的合作。

在1988年一次三方会议之后（现在称之为“国际DNA序列数据库合作计划”）达成了一项协议，对数据库的记录采用共同的格式，并且每个数据库只负责更新提交到这一数据库的那些数据。

现在三个中心都收集直接提交的数据，并在三者之间发布。

这样，任何一个中心都拥有并发布所有的序列数据。

这种方式下每条记录只被生成这条记录的数据库所拥有，也就是说只有生成这条记录的数据库可以对记录进行更新，这就防止了“更新冲突”。

否则如果每个数据库都可以修改任一条记录，并覆盖其他数据库的数据，就必定会发生错误。

近年来的安排保证了没有一个数据库可以覆盖其他数据库更新的记录。

所有的序列数据库也都是计算生物学中心，并且越发表明序列数据不能简单地由自动化方式来生成。

每个数据库都成为了一个中心，在那里生成序列数据，并由生物学家进行验证，同时还开发一些利用这些信息的工具（例如NCBI的Entrez，见第5章，以及EBI现在正在开发的SRS）。

很明显的一点是一些专职的，介入到收集数据、提供发现与检索工具，并且作为研究机构来研究新算法、发掘公共数据库并在最高水平进行科学活动的机构将能够最大限度地服务于用户群体。

在这一环境下，知识被最高效率地获取与共享，并且新的研究与理解这样大量数据的方法也不断涌现。

这一章的着重介绍GenBank核苷酸数据库，GenBank是包含了三个重要蛋白质数据库（Swiss-Prot, PIR和PDB）的一系列数据库中的一个。

这一系列数据库中的每一个都对数据库现在和将来的使用方法产生了或产生过重大影响。

PDB 是关于核酸和蛋白质结构的数据库，将在第三章中详细介绍。

Swiss-Prot和PIR 可以称为二级数据库，它比已经存在于一级数据库中的数据提供了更多的信息。

Swiss-Prot和PIR中的蛋白质序列主要来源于核苷酸数据库，另外一小部分是直接向Swiss-Prot提交的（这些蛋白质是直接测序的）或者是从公开发表的论文中搜索到的。

这里没有详细讨论这些情况，我们建议读者通过其他途径了解更多的详情（Bairoch and Apweiller, 1997; George et al., 1997）。

需要注意的是，如同在第六章和第十四章中一样，这里的“GenBank”指的是DDBJ/EMBL/GenBank。

DDBJ和EMBL核苷酸数据库与GenBank紧密合作，逐日交换数据。

他们从不同的地点，用不同的格式发布同样的信息。

他们也都是提供其他数据、工具和服务的研究机构。

这些虽然从理论上是无关的活动，但实际上很难分开。

例如，Entrez（见第5章）是NCBI的一个计划，它包含了GenBank 数据在其中。

但Entrez和GenBank（都是NCBI的产品）从本质上是不同的，前者是一个信息检索系统，而后者是一个Entrez从中进行检索的数据库。

一级和二级数据库一级和二级数据库之间存在着本质的差别。

序列数据库对科学界最重要的贡献就是这些序列本身。

一级数据库记录了实验结果，以及一些初步的解释。

而更进一步分析工作的结论只能从二级数据库中查找到。

一级数据库中的核苷酸序列记录是从直接实验得到的，这些记录是对存在于某个实验室的试管中的生物分子测序的结果。

它们不代表共有序列（虽然是多次读取同一克隆，或相同的基因来源），它们也不代表一些计算机生成的字符串。

这在序列分析的解释中很重要，也意味着在大多数情况下一个给定的序列就是研究者所需要的全部。

每一个这样的DNA或RNA序列都将被注释以描述对实验结果的分析，这一分析阐明了为什么这一序列会被这样确定。

在DNA序列记录中的一种常见的注释是编码序列（CDS）。

大多数蛋白质序列都不是直接由实验确定的，而是通过DNA序列得到的。

这在实验、计算以及相似性比对工作中占有很大的比重。

这并行于赋予一个产物名称，或者功能说明（通过对相似性比对的分析）。

这一方法很有效，但也有误导的可能。

DNA，RNA 和蛋白质序列都是计算分析工作的对象，它们是一级数据库中有价值的成分。

那些在DNA序列记录的基础上进行计算、分析或其他工作的研究者通常认为他们所处理的是原始信息。

但是在很多情况下，氨基酸序列从某种程度上说是解释的结果，而并非是直接测序得到的。

这样，在使用和说明由这些序列得到的结果时就需要格外小心。

由mRNA序列数据推导出蛋白质序列通常并不难，但必须选择正确的启始编码子。

对于原核生物或低等真核生物序列的注释通常相对简单，但研究者同样需要注意避免缺少注释或增加不必要的注释。

（见第10章以及Cannon et al., 1997）。

将序列标记为CDS通常需要格外小心，因为这是蛋白质数据库全自动或半自动生成的开始步骤。

格式与内容：计算机与人数据库被用来存放原始数据，以及一系列附加的注释。

不同的检索工具和程序利用了这些信息中的不同部分。

纵观各种格式，我们可以发现其中应用了一些共同的规则，以使得多种情况下在不同格式之间生成和交换数据成为可能。

最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的（例如GenBank flatfile，见附录2.1和2.2，这是一种人可以阅读的ASN.1版本）。

这些记录还有二进代码版，更加紧凑，计算机处理也更快。

但不幸的是，由于历史的原因，对一种固定格式的频繁使用使得引入另一种格式极为困难，尽管新的格式可能更加富含信息，更加准确，易于复制和计算，易于抽取信息，易于使用。

（但我们并未放弃尝试，见第3、6、14章）。

GBFF的简单性，使我们都可以获得易用的工具，这也是EMBL和GBFF极大通用性的重要原因。

作为最简单的格式，一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。

这里是一个以FASTA（或Pearson格式）文件表示的核苷酸序列数据：>L04459*******************或同样的，一个蛋白质记录：>P31373*******************FASTA格式广泛应用于许多分子生物学软件包之中。

作为最简单的情况（正如上面所显示的），大于号（>）表示一个新文件的开始。

标记符上面第一个例子开始部分的L04459后面是大写或小写字母的DNA序列，通常60个字符一行（但这并非是标准规定）。

生物信息学 第二章 GenBank序列数据库

genbank格式解读

GenBank数据库检索及其应用(1)

GenBankDNA序列库

#GenBankDNA序列库

(2)第二章核酸数据库及核酸序列的分析(第二节序列数据库检索)

生物信息学 第二章 GenBank序列数据库

GenBank数据库检索及其应用

GenBank数据库的简略介绍

生物信息学第二章 GenBank序列数据库

生物信息学第二章 GenBank序列数据库