第六章 NCBI数据模型

合集下载

生物信息学 第二章 GenBank序列数据库

生物信息学 第二章 GenBank序列数据库

第二章GenBank序列数据库简介一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些普遍存在的工具是如何建立的。

但是如果我们能够了解这些序列是如何汇集到一起的,这将有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。

GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。

每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。

这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。

目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。

这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。

GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。

所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。

这一章描述GenBank数据库是如何构成的,它如何与蛋白质数据库相衔接,以及如何解释其中的数据成分。

关于序列数据库,前人已经作了大量的工作,具体可参见(Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997)。

所有这些论文都指出了数据库快速增长的趋势,并对如何利用这些生物学资源提出了建议。

出于科学研究的考虑,以及由于历史的原因,序列数据被分别存放在核苷酸和蛋白质数据库中。

NCBI_功能详细介绍

NCBI_功能详细介绍

NCBI_功能详细介绍GenBank Overview基本信息什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。

每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。

GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。

纪录样本- 关于GenBank的各个字段的详细描述,以及同Entrez 搜索字段的交叉索引。

访问GenBank - 通过Entrez Nucleotides来查询。

用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。

关于Entrez更多的信息请看下文。

用BLAST来在GenBank和其他数据库中进行序列相似搜索。

用E-mail来访问Entrez 和BLAST可以通过Query 和BLAST服务器。

另外一种选择是可以用FTP下载整个的GenBank和更新数据。

增长统计- 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank 增长)小节。

公布通知,最新- 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。

公布通知,旧- 同上相同,是过去公布的统计。

遗传密码- 15个遗传密码的概要。

用来确保GenBank中纪录的编码序列被正确的翻译。

(向)GenBank提交(数据)关于提交序列数据,收到accession number,和对纪录作更新的一般信息。

BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。

(请在提交前用VecScreen去除载体)Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。

可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。

蛋白质序列数据库

蛋白质序列数据库
▪ The UniProt Archive (UniParc) stores all publicly available protein sequences, containing the history of sequence data with links to the source databases.
2 作者
▪ 数据或文章的作者是系统联系相关数据和科学研究的关键 因素;
▪ GenBank数据库的作者的输入全称姓和名的首字母
3 文章
▪ 最常见的生物科学文献是期刊文献,对于生物数据库的引用格式缺省 是期刊文献
▪ 文章也可出现在书、手稿及电子期刊上。 ▪ 期刊名、年份、文章的首页以及文章作者的姓
4 专利权
属性。
5 序列描述:
是在生物和(或)生物文献的上下文中描述一个生 物序列或生物序列集;
生物源(BioSource)-来源生物的信息; 分子信息(MolInfo)--描述器指示分子类型,如基因,
mRNA,EST,肽链信息。
蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。
▪ 2个大写字母(分:基因信息号,核酸序列和蛋白质序列均有gi号; ▪ gi的来源:由源数据库提供;序列仅当其完整地被提交公
共数据库处理后,才最终达到一个序列号和一个gi号; ▪ 位置:在VERSION行中,版本号,gi号 ▪ 修改记录时,新记录与原先记录不同时(哪怕是一个碱基
a. 所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核 实。

第六章 NCBI数据模型

第六章 NCBI数据模型

第六章NCBI数据模型前言数据模型什么是数据模型生物学家大都熟悉用动物模型来研究人体疾病。

尽管人体疾病有可能在动物中找不到完全相同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的数据来推断人体的疾病过程。

通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆臂,可以得到描述肌肉骨骼运动的数学模型。

这样的模型可以对更多复杂的生物系统进行有意义的预测和检验。

显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟的自然现象的预测和理解就更有意义。

八年前,NCBI介绍了一种新的序列相关信息模型。

这种新模型使基于Entrez系统的完整数据库GenBank的建立以及相应的软件得到快速的发展。

该模型具有如下优点:它能轻而易举的从已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第5章)。

该模型的优点对生物学家使用Entrez有很大的帮助。

但是很少有生物学家了解该模型的基础。

当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank数据,且模型本身更好理解的实际数据模型。

这一章不深入讨论细节,只介绍一些实用的索引及NCBI模型所起的作用。

模型的一些例子GenBank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编码蛋白质的DNA序列。

限定符/translation="MLLYY"描述了将CDS特征翻译成的氨基酸顺序。

其它的DNA特征(例如mat-肽)有时被GenBank 数据应用来描述未命名蛋白质(部分由/translation描述)的切分产物,但这不是一种令人满意的解决方法。

相反,大多数蛋白质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基酸对应关系)。

NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。

NCBI使用方法

NCBI使用方法

NCBI使用方法默认分类 2008-03-24 15:14 阅读2903 评论12字号:大中小NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心[url]/[/url]NCBI是NIH的国立医学图书馆(NLM)的一个分支。

NCBI提供检索的服务包括:1.GenBank(NIH遗传序列数据库):一个可以公开获得所有的DNA序列的注释过的收集。

Gen Bank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库的。

它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。

这三个组织每天交换数据。

其中的数据以指数形式增长,最近的数据为它已经有来自47000个物种的30亿个碱基。

2.Molecular Databases(分子数据库):Nucleotide Sequence(核酸序列库):从NCBI其他如Genbank数据库中收集整理核酸序列,提供直接的检索。

Protein Sequence (蛋白质序列库):与核酸类似,也是从NCBI多个不同资源中编译整理的,方便研究者的直接查询。

Structure(结构)-——关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问三维蛋白质结构的分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。

MMDB:分子模型数据库—一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。

Taxonomy(分类学)——NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。

其目的是为序列数据库建立一个一致的种系发生分类学。

3.Literature Databases(文献数据库)(1)PubMed是NLM提供的一项服务,能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参与的出版商网络站点的全文文章和其他相关资源。

NCBI数据库和软件

NCBI数据库和软件

美国国立医学图书馆(NLM)于1988年11月4日建立国家生物技术信息中心(National Center of Biotechnology Information,简称NCBI)。

该中心的主要任务为:为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;促进生物学研究人员和医护人员应用数据库和软件;努力协作以获取世界范围内的生物技术信息。

NCBI首先创建GenBank数据库,在重点开发GenBank的同时,又于1991年开发了Entrez 数据库检索系统。

该系统整合了GenBank、EMBL、PIR和SWISS-PROT等数据库的序列信息以及MEDLINE 有关序列的文献信息,并通过相关链接,将他们有机地结合在一起。

PubMed一个关于生物医药科学的检索系统,包括引用、摘要和杂志的索引术语。

它包括直接由出版商提供给NCBI 的文献引用以及链接到在出版商网址上的全文的URLs。

PubMed 包括MEDLINE 和PREMEDLINE的完整内容。

它还包括一些被MEDLINE认为超出范围的文章和杂志,(这些文章或杂志)由于内容或在某一时期不在索引范围内。

因此PubMed 是比MEDLINE的更大的集合。

Books同书籍出版商合作NCBI为网络改编了教科书,并把他们链接到PubMed-生物医药书目数据库。

这是为了给PubMed提供背景信息,这样使用者可以探究在PubMed搜索结果中不熟悉的概念。

目前收录的书有: Molecular Biology of the Cell, 3rd ed. Alberts B., Bray D., Lewis J., Raff M., Roberts K., Watson J.D., 1994, Garland Publishing.Nucleotide该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。

生物信息学-06-1-NCBI-PubMed and PMC BMC


Entrez的用途
• PubMed书目文献数据 • 获取GenBank, EMBL等数据库的核酸序列; • 获 取 Swiss-port,PIR,PRF,PDB 等 蛋 白 质 序 列;从核酸序列翻译到蛋白质的序列; • 蛋白质三维结构数据及大分子模式 (MMDB)等其他生物信息数据库检索 • 获取基因组图谱信息
• 国家生物技术信息中心(National Center for Biotechnology Information, 简称 NCBI) 是美国国家医学图书馆(NLM)的一部 分(该图书馆是美国国家卫生研究所的一部 分). • NCBI位于马里兰州的贝塞斯达, 建立于 1988年. NCBI保管GenBank的基因测序数 据和Medline的生物医学研究论文索引. 所
#4 Search child* aids prevent* Field: Title/Abstract,Limits:Review
检索式:(child* aids nursing) OR( #4)
规范化检索式: ( children aids nursing) OR (#4)
743
三、辅助检索区(2):
三、辅助检索(1): Limits
• 功能:
将搜索范围设定在一个特定的域
• • •
将搜索限定在某一语种出版的某一特定的文献类型
设定只搜索包含标题/摘要的文献 设定搜索范围为PubMed的一个子数据库 将搜索范围设定在特定的年龄组、性别组、人 类等
辅助检索区:预检( Preview/Index )
NCBI的四项计划
1. 2. 3. 4. 基本研究 数据库和软件 教育 训练
• NCBI有一个多学科的研究小组包括计算机科学家, 分子生物学家,数学家,生物化学家,实验物理 学家,和结构生物学家,集中于计算分子生物学 的基本的和应用的研究。这些研究者不仅仅在基 础科学上做出重要贡献,而且往往成为应用研究 活动产生新方法的源泉。他们一起用数学和计算 的方法研究在分子水平上的基本的生物医学问题。 这些问题包括基因的组织,序列的分析,和结构 的预测。

NCBI数据库及其应用精品PPT课件


NCBI数据库检索
1. ENTREZ高级检索系统:
在检索框中输入检索词,检索词间默认 逻辑关系为AND
还可用来检索核酸与蛋白质序列、 MEDLINE相关文献或专利(PubMed)、 基 因组及MMDB分子结构模型库信息。
• 显示格式 :
Summary Report格式 GenBank Report格式 FASTA Report格式
★2210130101------刘思远 ★2210130102------肖泽友 ★2210130103------江宜铮
NCBI分子生物学数据库 http://
美国国立医学图书馆(NLM)于1988 年11月4日建立国家生物技术信息中心 (National Center of Biotechnology Information,简称NCBI)。
Sequin:
可供MAC、PC\Windows、UNIX 用户使用的递交软件,可输入有关 数据的详细资料。
三、检索途径与方法
• 基本检索 - Basic Search
• 高级检索 - Advanced Search

(preview/index)
• 限定检索 - Limits Search
• 期刊检索 – Journal Databases
• 显示格式选择 Display旁的下拉菜单,选择记录格式: summary默认、brief、Abstract、Citation、 ASN.1、MEDLINE、XML等格式 • 纯文本格式 Sent to-Text
2、排序
无序(Sort) 著者(Author) 刊名(Journal) 出版日期(Pub Date)
• 主题词检索 - MeSH Databases

生物数据库介绍——NCBI

⽣物数据库介绍——NCBINCBI(National Center for Biotechnology Information,美国国家⽣物技术信息中⼼)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源。

NCBI资源包括Entrez、Entrez编程组件、MyNCBI、PubMed、PudMed Central、PubReader、Gene、the NCBI Taxonomy Browser、BLAST、Pimer-Blast、COBALT、RefSeq、UniGene、HomoloGene、ProtEST、dbMHC、dbSNP、dbVar、Epigenomics、the Genetic Testing Registry、Genome和相关⼯具、⽐对查看器、跟踪存档、Sequence Read Archive、BioProject、BioSample、ClinVar、MedGen、HIV-1/⼈类蛋⽩质相互作⽤数据库、Gene Expression Omnibus、Probe、Online Mendelian Inheritance in Animals、the Molecular Modeling Database、the Conserved Domain Database、the Conserved Domain Architecture Retrieval Tool、Biosystem、Protein Clusters and thePubChem suite of small molecule databases,所有这些资源可以在NCBI主页找到。

Databases⼀个提供有关基因组组装结构,装配名称和其他元数据,统计报告以及基因组序列数据链接等信息的数据库。

⼀个有关培养物、动植物样本和其他⾃然样本的精选元数据集。

记录显⽰样本状态,有关馆藏的机构的信息,以及NCBI中相关数据链接。

NCBI分子生物学数据库网络生物医学教学


基因map view
向 下 找
15显示结果
(四) EST (表达序列标签数据库)
expressed sequence tags
• 得到的部分 cDNA序列,长度一般为200~500bp
• 表达序列标签(EST)在基因组作图、克隆基因、新 基因的识别、蛋白质组研究等许多方面具有重要 的用途. <<生物技术通讯>>2003年 第14卷 第01 期,题目:表达序列标签及其应用 作者: 陈红歌, 贾新成,本文介绍了E用.
可直接进行交互访问使用。通过相关链
接,Entrez将这些数据库有机地结合在 一起,可以进行序列、结构、生物分类 及文献数据的相关交叉检索。
注意
All Databases 在NCBI主页) 的搜索框中(输入presenilin 1)搜 索的结果是一致的。
二、数据库资源
(一) Nucteotide (核苷酸序列数据库)
Protein数据库中提供的 “Blink”(BLAST Link)链接为Entrez所有 蛋白序列在Blast数据库中的结果显示。它与 “Related Sequences”链接不同, Related Sequences链接显示了相似序列文 献的题目,而Blink链接则显示其图形的信息, 图中不仅显示了该蛋白序列的主要信息,还
(七) PopSet (种群组数据库)
该数据库收录来自种群研究、种系发生研究或 突变研究的数据。包括核酸和蛋白质序列数据库
(八) OMIM (人类孟德尔遗传数据库)
该数据库收集了人类基因与遗传疾病的各种信 息,包括原文、图片和参考信息,同事还可以链 接到Entre系统的Medline数据库中相关文献和序
• 所有已知的核苷酸序列 • 与之相关的生I物L6 学信息 • 参考文献
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章NCBI数据模型前言数据模型什么是数据模型生物学家大都熟悉用动物模型来研究人体疾病。

尽管人体疾病有可能在动物中找不到完全相同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的数据来推断人体的疾病过程。

通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆臂,可以得到描述肌肉骨骼运动的数学模型。

这样的模型可以对更多复杂的生物系统进行有意义的预测和检验。

显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟的自然现象的预测和理解就更有意义。

八年前,NCBI介绍了一种新的序列相关信息模型。

这种新模型使基于Entrez系统的完整数据库GenBank的建立以及相应的软件得到快速的发展。

该模型具有如下优点:它能轻而易举的从已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第5章)。

该模型的优点对生物学家使用Entrez有很大的帮助。

但是很少有生物学家了解该模型的基础。

当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank数据,且模型本身更好理解的实际数据模型。

这一章不深入讨论细节,只介绍一些实用的索引及NCBI模型所起的作用。

模型的一些例子GenBank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编码蛋白质的DNA序列。

限定符/translation="MLLYY"描述了将CDS特征翻译成的氨基酸顺序。

其它的DNA特征(例如mat-肽)有时被GenBank 数据应用来描述未命名蛋白质(部分由/translation描述)的切分产物,但这不是一种令人满意的解决方法。

相反,大多数蛋白质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基酸对应关系)。

NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。

翻译的过程是由两种序列间的关系决定而不是由一种对另一种的解释确定。

和蛋白质相关的注解(例如肽切分产物)是由蛋白质序列特征直接注释。

这样,用BLAST或其他序列搜索工具去分析由CDS特征得到蛋白质序列就变容易了,尽管返回基因时可能会丢失精确的中间联系。

一组DNA序列和由它翻译的蛋白质被称为核酸—蛋白质组,它是NCBI为使用这些数据的中间数据。

GenBank数据格式只是人类可读的一种特殊数据形式。

它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以DNA为中心的视角)。

Entrez的目标是更直接的反映数据的低层结构。

由BLAST实现的从GenBank到蛋白质序列的翻译实际上是从蛋白质—核酸组得到蛋白质序列。

Part A:LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 1 and 2.ACCESSION U17993NID g727256KEYWORDS .SEGMENT 1 of 3…LOCUS RNKOR2 658bp DNA ROD 25-MA-1995DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 3.ACCESSION U17994NID g727257KEYWORDS .SEGMENT 2 of 3…LOCUS RNKOR3 4048bp DNA ROD 25-MA-1995DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 4 and completecds.ACCESSION U17995NID g727258KEYWORDS .SEGMENT 3 of 3Part B:LOCUS RNKOR 6463bp DNA ROD 25-MA-1995DEFINITION Rattus norvegicus kappa opioid receptor gene. ACCESSION ZZ123456NID g2182225KEYWORDS .SOURCE Norway rat.ORGANISM Rattus norvegicusEukauyotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus.REFERENCE 1 (base 1 to 1757)AUTHORS Yakovlev, A.G., Krueger, K.E. and Faden,A.I.TITLE Structure and expression of a rat kappa opioid receptor gene JOURNAL J. Biol. Chem.270, 641-6424(1995)MEDLINE 95204422PUBMED 7896774REFERENCE 2 (bases 1 to 1757)AUTHORS Yakovlev,A.G.TITLE Direct SubmissionJOURNAL Submitted(02-DEC_1994) Alexander G. Yakovlev, Georgetown University School of Medicine, Neurology, 3900 Reservoir Rd., Washington, DC 20007, USAFEATURES Location/QualifiersSource 1..1757/organism=”Rattus norvegicus”/strain=”Sprague-Dawley”/sex=”maile”CONTIG join(U17993:1..1757,gap(200),U17994:1..658,gap(),U17995:1..4048)图6.1 A:从GenBank中一条记录的部分。

GenBank格式仅仅指出了记录是有顺序的序列的一部分;它不提供关于其他部分是什么或它们之间如何联系的。

完整的该记录见/htbin-post/Entrez/query?uid=2182225&form=6&d b=n&Dopt=gB:新的CON中片段代表,新的GenBank格式的延续,容许片段记录之间建立联系,CONTIG行可以包含单个序列,已知长度的间隔,未知长度的间隔。

尽管这种格式中没有特征及序列,但每个组成成分仍以传统格式表达。

GenBank格式也隐藏了一些DNA序列的多序列性。

例如一般意义上,一个基因的三个外显子是有顺序的,或是被侧面的非编码区或DNA内含子密集包围着,而内含子的整个长度是没有被测序的。

这时候在GenBank的数据中会有三条记录,每一个对应一个外显子。

没有一个特征能清楚地代表该编码区完整的序列顺序(三个外显子是有一定的顺序并被一定长度的未翻译的DNA序列隔断)。

在GenBank 格式中,这时会有SEGMENT行指出第一个记录是SEGMENT 1 of 3、第二个记录是SEGMENT 2 of 3、第三个记录是SEGMENT 3 of 3,但这仅告诉使用者这是一些没有确定顺序的片段(图6.1A)。

从整个GenBank角度来看,使用一种被称为LOCUS的算法将无序片段正确定位,组合在一起的片段使用相同的起始字母,以不同的数字结尾,例如RNKOR1,RNKOR2,RNKOR3。

显然当LOCUS名字中包含其它与该序列不相关的干扰时,这种复杂的安排会遇到问题。

况且还没有一个序列记录包含了全部的片段,也没有任何方法可以描述片段之间的距离。

因为在EMBI序列数据库中根本没有分割片段的信息,所以任何从这种形式派生出来的记录都缺乏一些基本的信息。

NCBI数据模型定义了一种直接代表片段的格式,被成为“片段序列”。

其包含的元素不是A,G,C,T,而是由怎样从其它序列构造的方法组成。

所以以上面的例子为例,片段序列将包含:RNKOR1-200bp间隔-RNKOR2-未知长度的间隔-RNKOR3。

该片段序列和其他记录一样有自己的名称(RNKOR)、序列号、特征、位点和注解。

通常我们将这种形式的存储方式称为包含RNKOR1、RNKOR2、RNKOR3、所有中间联系和特征的序列RNKOR片段集。

当GenBank以核酸-蛋白质组形式发行时,片段集被分成多条记录,片段集就消失了。

然而从Entrez图的视角看片段集,片段集象一条线将它的组分连接在一起。

DDBJ/EMBL/GenBank最近同意了一种方法用于代表构造结构,它将被放在新的CON分割中(图6.1B)。

不同于GenBank格式,NCBI片段序列不要求片段间有间隙,事实上片段可以重叠。

这使得片段序列适合用于代表诸如细菌基因的长序列,这恰恰就是Entrez 基因分离细菌基因和其它诸如酵母等全染色体基因中所做的。

NCBI软件工具包(Ostell,1996:见本章末尾的内部资源)包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。

这为图象视角、GenBank结构视角、FASTA视角或对离散数据进行全染色体分析提供了可能。

这种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。

在越来越大的区域进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上处理的思想是完全不现实的。

ASN.1处理方法NCBI数据模型经常被提到或和“NCBI ASN.1”或“ASN.1数据模型”混淆。

Abstract Syntax Notation 1(ASN.1)是国际标准组织(ISO)的标准之一,是为描述结构数据和保障允许各计算机和各种软件之间交换结构和内容可靠翻译数据。

说一个数据模型是用ASN.1写的就象一个计算机程序是用C或FORTRAN写的,指明了语言而不是指程序本身。

从特殊的以DNA为中心的视角来看,熟悉的GenBank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的数据关系的描述。

从这个简单的形式看,我们创造了一系列的人可读的格式如Entrez,GenBank和BLAST数据库。

没有这些一般意义上的格式的存在,Entrez (见第5章)中相邻或连接关系的存在是不可能的。

这一章是关于NCBI数据的结构和内容以及它作为生物药学数据库和工具的作用。

相关文档
最新文档