常用分子生物学数据库检索方法与及数据格式

合集下载

一步一步教你使用NCBI数据库资源解读

一步一步教你使用NCBI数据库资源随着ncbi数据库各种资源的涌现，NCBI已经成为科研工作者必不可少的资料查找，数据分析的工具。

那么NCBI 数据如何使用，新手入门一步一步教你认识和使用NCBI数据库。

一综合数据库NCBI数据库集美国国立生物技术信息中心(National Center for Biotechnology Information)，即我们所熟知的NCBI 是由美国国立卫生研究院(NIH)于1988年创办。

创办NCBI 的初衷是为了给分子生物学家提供一个信息储存和处理的系统。

除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库，其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外，NCBI还可以提供众多功能强大的数据检索与分析工具。

目前，NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能，而且都可以在NCBI的主页上找到相应链接，其中多半是由BLAST功能发展而来的。

1 NCBI最新进展1.1 PubMed搜索功能的增强去年，NCBI对PubMed进行了几项改进工作，改动最大的是搜索界面和摘要浏览界面。

其中，搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合)，并且增加了一个新的窗口，用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。

而且，“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。

现在，在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。

第四章生物信息学数据库(一)主要库及其文件格式

包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等；
（2）人类基因组图谱，
包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱，所有这些图谱都可以被直观地显示出来；
（3）人类基因组中的变化，
包括基因突变和基因多态性，加上等位基因频率数据。
• 所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。
除了蛋白质序列数据之外，PIR还包含以下信息：
(1)蛋白质名称、蛋白质的分类、蛋白质的来源； (2)关于原始数据的参考文献； (3)蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等；
生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据建立生物分子数据库生物分子数据库几个明显的特征生物分子数据库几个明显的特征1数据库的更新速度不断加快数据量呈指数增长趋势2数据库使用频率增长更快3数据库的复杂程度不断增加4数据库网络化5面向应用6先进的软硬件配置核酸序列数据的增长趋势核酸序列数据的增长趋势纵轴代表总的核酸序列长度单位百万纵轴代表总的核酸序列长度单位百万bpbp生物分子数据库一级数据库数据库中的数据直接来源于实验获得的原始数据只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理分类的结果是在一级数据库实验数据和理论分析的基础上针对特定的应用目标而建立的
TIGR的真菌基因组数据库：/tdb/fungal 线虫基因组数据库 WormBase（the C. elegans genome database）：
四膜虫基因组数据库 TGD (Tetrahymena Genome Database): 疟原虫基因组数据库 PlasmoDB(Plasmodium Genome Resource)：

生物信息学总结

一、生物学数据库总共三大数据库GenBank (隶属于NCBI) , DDBJ(日本) , EBI(欧洲)。

1. NCBIPubMed：美国国家医学图书馆提供的搜索服务，主要用于搜索paper。

Entrez ：将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究以及全基因组组装数据整合成的一个系统，其实就是个工具，平常你点的search，是个查询、提取、显示系统。

Blast ：基础局部比对搜索工具，主要用于搜索相似DNA或蛋白质序列。

OMIM ：在线人类孟德尔遗传性状数据库，主要用于搜索人类基因和遗传异常序列。

BooksTaxonomy：生物类别的分类浏览器（古细菌、细菌、真核生物、病毒）Structure：分子模型数据库（MMDB,PDB）GenBank：数据量极大DbEST：表达序列标签数据库，GenBank的子库。

Unigene：为每一个gene创造一个条目，一个具体的基因可能对应于许多EST，但是只对应一个Unigene。

提供作为EST记录来源的cDNA库的组织区域分布列表，并且给出了对应于基因的EST列表，允许使用者对它们进行深入研究。

RefSeq：GenBank数据量太大，是冗余的，对应于某个基因的索引号可能有很多，但是其RefSeq仅有一个。

2. EBIEMBL:储存DNA、RNA序列的数据库，对DDBJ,GENBANK是互补的。

SWISS-PROT：现存的最好的标有注释的蛋白数据库TrEMBL：翻译后的EMBLMSD：蛋白质结构数据库Ensembl：基因组数据浏览器ArrayExpress：基因表达数据库3.其他生物学数据库PIR：蛋白信息数据库UniProt：将Swiss-Prot、PIR、TrEMBL三者合一ExPASy ：专家蛋白分析系统PDB：蛋白三维结构，存储格式为pdb，用RasMol软件看二、数据库检索数据库检索是指对数据库中的注释信息进行关键词匹配查找1、Entrez使用方法登录NCBI，在Search处选择数据库，输入检索词之后回车检索格式genepept、fasta序列的fasta格式：1. 每条记录的第一行以大于号（>）开始2. 大于号后是序列的描述信息3. 从第2行开始为序列本身。

生物信息数据库

NCBI：
二、重要生物信息数据库
生物信息学数据的表示形式
生物信息学数据的表示形式
平面文件 (flat-file)
– 信息在文件中顺序存放且具有特定格式 – 记录(Entry)通过“获得号”(accession #)
唯一确定 – 同一文件间和不同文件间信息的联系均
通过ac认为这些蛋白质具有相同的折叠方式。在这些情况下，结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。
蛋白质结构分类数据库CATH
类型Class、构架Architecture 、拓扑结构Topology和同源性Homology 。
分类基础是蛋白质结构域。与SCOP不同的是，CATH 把蛋白质分为4类，即a主类、b主类，a-b类（a/b型和a+b型）和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。
描述了结构和进化关系。 SCOP数据库从不同层次对蛋白质结构进行分类，以反
映它们结构和进化的相关性。第一个分类层次为家族，通常将序列相似性程度在30%
以上的蛋白质归入同一家族，有比较明确的进化关系。超家族：序列相似性较低，结构和功能特性表明它们有
共同的进化起源，将其视作超家族。折叠类型：无论有无共同的进化起源，只要二级结构单
EMBL格式：欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件，每一行最前面是由两个大写字母组成的识别标志，常见的识别标志列举在后面的表中。识别标志 “特性表”FT包含一批关键字，它们的定义已经与 GenBank和DDBJ统一。下欧洲国家的许多数据库如 SWISS-PROT、ENZYME、TRANSFAC等，都采用与EMBL一致的格式。
1）头部包含关于整个序列的信息（描述字符），从 LOCUS行到 ORIGIN行；

06第六章常用生物信息学数据库简介

英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列数据库，于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ，得到数据库管理系统所签发的登录注册号。二是从生物医学期刊上收录已经发表的序列资料。

文献检索和阅读各大生物分子数据库

实验一文献检索和阅读各大生物分子数据库一、实验目的1、学习文献检索方式2、了解生物信息学经常使用数据库的结构二、实验内容文献检索是每一个科研工作者必需具有的能力，那个地址要紧以我校的资源为例，说明网络文献检索的一些大体方式。

国际上已经成立起许多分子公共数据库，包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库及生物大分子结构数据库等。

这些数据库由专门的机组成立和保护，他们负责搜集、组织、治理和发布生物分子数据，并提供数据检索和分析工具，向生物学研究人员提供大量有效的信息，为他们的研究效劳。

本实验通过登岸GenBank、EMBL、DDBJ三个国际上权威的核酸序列数据库、GDB基因组数据库、人类基因组数据库Ensembl、表达序列标记数据库dbEST、序列标记位点数据库dbSTS，和PIR、SWISS-PROT、TrEMBL蛋白质序列数据库、蛋白质数据仓库UniProt、生物大分子数据库PDB等，了解各数据库的结构，。

三、实验仪器、设备及材料运算机（联网）四、实验原理成立生物分子数据库的动因是由于生物分子数据的高速增加，而另一方面也是为了知足分子生物学及相关领域研究人员迅速取得最新实验数据的要求。

生物分子信息分析已经成为分子生物学研究必备的一种方式。

数据库及其相关的分析软件是生物信息学研究和应用的重要基础，也是分子生物学研究必备的工具。

核酸序列是了解生物体结构、功能、发育和进化的起点。

国际上权威的核酸序列数据库有三个，别离是美国生物技术信息中心（NCBI）的GenBank（）、欧洲分子生物学实验室的EMBL-Bank（简称EMBL，）及日本遗传研究所的DDBJ（）。

三个数据库中的数据大体一致，仅在数据格式上有所不同，关于特定的查询，三个数据库的响应结果一样。

以EMBL数据库为例，其每一个序列，相关数据包括序列名称、序列、位点、关键字、来源、生物种类、参考文献、注释、序列中具有重要生物学意义的位点等。

分子生物学数据库

• 三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交从生物医学杂志收录已发表的序列资料
三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html）是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的

（2）最小冗余
• 尽量将相关的数据归并，降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。
（3）与其它数据库的连接
对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。现有的交叉索引有：到EMBL核酸序列数据库的索引，到PROSITE模式数据库的索引，到生物大分子结构数据库PDB的索引等。
（4）WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作（基于3W服务器）
（1）序列查询最简单的查询就是通过序列的登录号（如X58929）或序列名称（如SCARGC）直接查询。
如果找到所查询的序列，则服务器将查询结果以HTML文件返回给用户如果数据库中该序列有到MEDLINE的交叉索引，则系统同时返回与包含参考文献摘要等信息的MEDLINE链接如果该序列有到其它数据库的交叉索引，也返回相应的链接

生物信息学教学资料：生物信息学常用数据库

生物信息学方法与实践
Bioinformatics Method and Practice
1
生物信息学常用数据库
• 一级数据库
–数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释。
• 二级数据库
–对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis elegans
rat
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
– FlyBase (Drosophila genome database) – BDGP (Berkeley Drosphila genome project)
Danio rerio (Zebrafish)
– ZFIN (Zebrafish Information Network at University of Oregon, USA) – WashU-Zebrafish Genome Resources (Zebrafish EST database at Washington University, USA)
ftpncbinlmnihgovbloacidsequencednasequencetblastxblastxblastntblastnblastpnucleotidedatabaseproteindatabasenucleotidedatabasenucleotidedatabaseproteindatabasetranslatedtranslatedtransstpproteinprotein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的关系进行seg过滤blastnnucleotidenucleotide比较核酸序列与核酸数寻找较高分值的匹配对较远的关系不太适blastxnucleotideprotein比较核酸序列理论上的六个读码框的所有转换结果和蛋白质数据库用于新的dna序列和ests的分析可转译搜索序列tblastnproteinnucleotide比较蛋白质序列和核酸序列数据库动态转换为六个读码框的结果用于寻找数据库中没有标注的编码区可转译数据库序列tblastxnucleotidenucleotide比较核酸序列和核酸序列数据库经过两次动态转换为六个读码框的结果转译搜索序列与数据库序列32wwwniuwkcom牛牛文档分以blastx为例6

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

GenBank）都在最后一行以 // 结尾。
实验过程
• 5. PDB 文件的获得
• 进入PDB数据库 • 查询某蛋白质的结构（eg：1d3y） • 下载结构到本地电脑 • 用写字板（记事本）打开
源自PDB结构记录的内容
• PDB记录包括两个序列信息备份：隐性序列和显性序列。
• 显性序列在PDB文件中以关键词SEQRES打头逐行存储。
• 隐性序列蕴涵在由PDB文件中的ATOM记录及相应（X，Y，Z）位置坐标构成的化学立体结构中。
• 实践中，许多PDB文件浏览器，如Rasmol，仅用隐性序列重构PDB记录蛋白质的化学图象，而忽略由 SEQRES引导的显性序列信息。
文件头部
显性序列
隐性序列
作业：格式同实验一
• 1.写出Genbank flatfile的详细结构组成。 • 2.写出PDB文件的详细组成。
生物信息学实验课件
实验二
常用分子生物学数据库检索方法及数据格
式
实验目的
• 1. 了解ncbi所提供的在线entrez检索方法。 • 2.了解EBI所提供的SRS检索方法。 • 3.熟悉查询swiss-prot蛋白质序列数据库的查
询。 • 4.详细了解三大核酸序列数据库之一的
GenBank数据库平面文件Flat file。 • 5.详细了解蛋白质结构数据库PDB数据库中的
• 4.GenBank flatfile（GBFF）内容。 • 是GenBank数据库的基本信息单位，也是最广
泛地用以表示生物序列的格式之一。
• GenPept文件 • GBFF可以分成三个部分，头部包含关于整个记
录的信息（描述符）。
• 第二部分包含了注释这一记录的特性， • 第三部分是核苷酸序列自身。 • 所有的核苷酸数据库记录（DDBJ/ EMBL/
实验过程
• GenPept文件下载
• 平面文件获得
• 查询某一条核酸序列 • 获得平面文件 • 保存或者下载 • 用写字板（记事本）打开
实验过程
• 2. SRS检索方法。
• EBI • SRS@EBI • choice database • 查询某一关键词（eg. Helicase，insulin，
topoisomerase，gyrase，hemoglobin。）
实验过程
• 3. Swiss-prot查询方法。
• Swiss-prot • SRS@EBI • choice database • 查询某一关键词（eg. Helicase，insulin，
topoisomerase，gyrase，hemoglobin。）
pdb文件。
实验材料
• 计算机方法
• NCBI • All database • Entrez • All database • 查询某一关键词（eg. Helicase，insulin，
topoisomerase，gyrase，hemoglobin。） • 依次点击各个数据库查看