第四章生物信息学数据库(一)主要库及其文件格式

合集下载

生物信息学数据格式

生物信息学数据格式
生物信息学数据格式主要有以下几种：
1.FASTA格式：这是一种简单的文本格式，用于表示DNA序列、蛋白质序列和其他序列数据。

在FASTA格式中，序列以>开始，后面跟着序列的名称和描述信息，然后是序列本身。

序列中的所有字母都将转换为大写。

2.GFF格式：这是一种用于表示基因组注释数据的格式。

GFF格式中，每行表示一个注释记录，包括注释类型、注释的坐标和其他相关信息。

3.GTF格式：这是一种用于表示基因表达数据的格式。

GTF格式中，每行表示一个基因的表达数据，包括基因的名称、表达值和其他相关信息。

4.BED格式：这是一种用于表示基因组区间数据的格式。

BED格式中，每行表示一个区间，包括区间的起始位置、终止位置和名称等信息。

5.PIR格式：这是一种早期的生物信息学数据格式，用于表示蛋白质序列和其他相关数据。

PIR格式中，每行表示一条记录，包括记录的类型、名称和描述等信息。

6.SRA格式：这是一种用于表示高通量测序数据的格式。

SRA格式中，每行表示一个测序样本，包括样本的名称、测序结果和其他相关信息。

这些数据格式都有其特定的用途和结构，可以根据实际需要选择适合的数据格式来存储和处理生物信息学数据。

第四章生物信息学数据库(一)主要库及其文件格式

/plasmo 果蝇基因组数据库 FlyBase：（另可参看BDGP：
）拟南芥信息资源 tair（The Arabidopsis Information Resource）：
（另可参看The TIGR Arabidopsis thaliana Database：
NCBI
( National Center for Biotechnology Information) 美国生物技术信息中心
– / – 全球最大的生物信息资源中心 – DNA 序列、蛋白质序列、出版物、数据挖掘工具等
▪美国的GenBank从 1979年开始建设， 1982年正式运行；
目前，UniGene中包括人类、大鼠、小鼠、牛的相关数据，因为这些生物有大量的EST数据。
第三节蛋白质序列数据库
1、PIR（Protein Information Resource）
• 目的：帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组。
• 它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。
3、 Ensembl (/）
Ensembl包括所有公开的人类基因组DNA序列，通过注释形成的关于序列的特征。现在包括脊椎动物和其他真核生物基因组，如大鼠、小鼠、线虫、果蝇等。
例如：基因 •通过实验发现的 •或者是通过GenScan程序预测的
其他的特征：单核苷酸多态性（SNP）、重复序列等
包含最终将要集成到SWISS-PROT的数据，所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的登录号。
SWISS-PROT中的数据来源于不同源地：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR挑选出合适的数据；（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据

常用生物数据库及数据格式

PUBMED 7871890
......
FEATURES
Location/Qualifiers
CDS
<1..206
/codon_start=3
/product="TCP1-beta"
/protein_id="AAA98665.1"
/db_xref="GI:1293614"
/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE 1 (bases 1 to 5028)
AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
TITLE Cloning and sequence of REV7, a gene whose function is required for
TITLE Cloning and sequence of REV7, a gene whose function is required for
DNA damage-induced mutagenesis in Saccharomyces cerevisiae
JOURNAL Yeast 10 (11), 1503-1509 (1994)
......
4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
// 所有序列数据库记录都在最后一行以“//”结尾

生物信息数据库

NCBI：
二、重要生物信息数据库
生物信息学数据的表示形式
生物信息学数据的表示形式
平面文件 (flat-file)
– 信息在文件中顺序存放且具有特定格式 – 记录(Entry)通过“获得号”(accession #)
唯一确定 – 同一文件间和不同文件间信息的联系均
通过ac认为这些蛋白质具有相同的折叠方式。在这些情况下，结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。
蛋白质结构分类数据库CATH
类型Class、构架Architecture 、拓扑结构Topology和同源性Homology 。
分类基础是蛋白质结构域。与SCOP不同的是，CATH 把蛋白质分为4类，即a主类、b主类，a-b类（a/b型和a+b型）和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。
描述了结构和进化关系。 SCOP数据库从不同层次对蛋白质结构进行分类，以反
映它们结构和进化的相关性。第一个分类层次为家族，通常将序列相似性程度在30%
以上的蛋白质归入同一家族，有比较明确的进化关系。超家族：序列相似性较低，结构和功能特性表明它们有
共同的进化起源，将其视作超家族。折叠类型：无论有无共同的进化起源，只要二级结构单
EMBL格式：欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件，每一行最前面是由两个大写字母组成的识别标志，常见的识别标志列举在后面的表中。识别标志 “特性表”FT包含一批关键字，它们的定义已经与 GenBank和DDBJ统一。下欧洲国家的许多数据库如 SWISS-PROT、ENZYME、TRANSFAC等，都采用与EMBL一致的格式。
1）头部包含关于整个序列的信息（描述字符），从 LOCUS行到 ORIGIN行；

生物信息学数据库的分类和注释要求

KEYWORDS
KEYWORDS (关键词)字段：由该序列的提交者提供，包括
• 该序列的基因产物 • 其它相关信息
SOURCE
SOURCE (数据来源)字段：说明该序列是从什么生物体、什么组织得到的次关键字ORGANISM (种属)：指出该生物体的分类学地位
REFERENCE
REFERENCE(文献)字段：说明该序列中的相关文献，包括
FASTA格式特点：
• 只存储了最少量的信息 • 它将所存储的信息转化为简单的字符串 • 人和计算机对其存储的信息都具有极大的可读性
FASTA格式在许多分子生物学软件包中得到广泛应用。
GenBank数据库—数据库格式(2)
GenBank纯文本文件格式(GenBank flatfile, GBFF): GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库，它们是怎样交换数据的呢？
GenBank数据库结构
GenBank中最常用的是序列文件。序列文件的基本单位：是序列条目，包括核苷酸碱基排列顺序和注释两部分。生物信息资源中心通过计算机网络提供该数据库文件。注释条目：文章的格式
(
Genbank
Genbank 查找页面
D31716
描述部分
CDs are recurring units in polypeptide chains (sequence and structure motifs), the extents of which can be determined
TITLE Cloning and sequence of REV7, a gene whose function is required for
DNA damage-induced mutagenesis in Saccharomyces cerevisiae

生物信息学相关数据库资源介绍

ling pathway db
CSNDB - Cell Signaling Networks db
DNA和蛋白质相互作用数据库

DPInteract - DNA-Proteins interactions db
特定基因或蛋白质的数据库

AAA - AAA family of ATPases server Acetylcholinesterases ALDH - Aldehyde dehydrogenase （醛脱氢酶，醛氧化酶）gene superfamily db Aminoacyl-tRNA synthetases in SWISS-PROT List of aminoacyl-tRNA synthetases in SWISSPROT AARSDB - Aminoacyl-tRNA synthetases db Allergens in SWISS-PROT - Nomenclature and index（命名和索引） of allergens（过敏原） in SWISS-PROT
tmRDB - tmRNA dB
tRNA - tRNA compilation（编辑） from the University of Bayreuth

uRNADB - uRNA db
5）其他核酸数据库

RNA editing - RNA editing site

RNAmod db - RNA modification db

5）其它核酸数据库

PlantCARE - Plant cis-acting regulatory DNA elements db

生物信息学数据库概览及应用

常用生物信息学数据库概览
生物信息学作为一门交叉学科，在现代生物学研究中扮演着越来越重要的角色。随着高通量测序技术的发展和大数据时代的到来，生物信息学数据库已成为存储、管理和分析海量生物学数据的关键工具。本概览将带您深入了解常用的生物信息学数据库，探讨它们在基因组学、转录组学、蛋白质组学等领域的应用，以及如何有效利用这些资源来推动生物医学研究信息学数据分析中扮演更重要的角色。这些技术可以帮助研究者从复杂的生物学数据中发现新的模式和规律，提高数据解释的准确性和效率。
未来的数据库将更注重多组学数据的整合和分析。通过结合基因组、转录组、蛋白质组等多层次数据，研究者可以获得更全面的生物系统认知，推动系统生物学和精准医疗的发展。
UCSC Genome Browser：基因组数据可视化利器
基因组浏览器
UCSC Genome Browser是一个强大的基因组数据可视化工具，允许用户在线浏览和分析多个物种的基因组序列。它提供了直观的图形界面，可以显示基因结构、保守区域、表达数据等多层次信息。研究者可以自定义显示的数据轨道，实现个性化的基因组分析。
随着个人化医疗的发展，生物信息学数据库将面临更严格的数据安全和隐私保护要求。未来的数据库设计将更加注重数据加密、访问控制和匿名化技术，以平衡数据共享和隐私保护的需求。
GEO：基因表达数据的宝藏
数据提交
研究者可以通过GEO（Gene Expression Omnibus）提交高通量基因表达数据，包括芯片数据和测序数据。GEO提供了标准化的提交流程和元数据模板，确保数据的质量和一致性。
数据存储和组织
GEO采用层次化的数据组织结构，包括Series（实验系列）、Samples（样本）和 Platforms（平台）。这种结构使得用户可以方便地浏览和检索相关实验数据，同时也便于数据的管理和更新。

生物信息学数据库

BLAST：美国NCBI（国家生物技术信息中心）支持。 FASTA：是英国EBI（生物信息研究所）负责维护。
BLAST：碱基局部对准检索工具
Basic Locul Alignment Search Tool
可进行核苷酸序列、蛋白质序列方面的同源性分析，能在8秒内在整个DNA数据库中进行序列比较。
diabetes
顺序号中第1位数字表示所涉及基因的遗传类型： 1：常染色体显性（1994.5.15前创建） 2：常染色体隐性（1994.5.15前创建） 3：X连锁基因座或表现型 4：Y连锁基因座或表现型 5：线粒体基因座或表现型 6：常染色体基因座或表现型（1994.5.15后创建的条目）
比较结果页面
彩色积分图
序列相似存贮号描述
描述
积分
检索范围
E值统计
链接
相似率为100%
序列对准描述
三、基因组数据库
1、Genome：可获得800多种生物体的基因组数据，部分已完成测序。
2、人类基因组资源： human genome resources
整合了多种相关的分子生物学数据库和公共分析软件，为科研人员提供了自动化的实验数据获得、加工和整理途径，为基因区域的预测和基因功能预测提供了一系列便捷的方法。
序列数据库结构数据库生物信息学数据库的种类图谱数据库突变数据库文献数据库
专业杂志生物信息学数据库的查找方法专门数据库目录的网站
著名的生物信息学中心
参见教材p227--p242
NCBI数据库组织
一、NCBI中的生物信息数据库
1）、PubMed：生物医学文献数据库 2）、Nucleotide：核酸序列数据库 3）、Protein sequence database：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

21 Mar 2003 37,943,364,438 bases in
24,353,128 records.
▪日本于1984年开始建立国家级的核酸数据库DDBJ，并于 1987年正式服务。
NCBI、EBI和DDBJ之间的区别与联系
• 三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。
包含最终将要集成到SWISS-PROT的数据，所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的登录号。
UniGene( /UniGene/) 数据库将GenBank中的序列进行自动分类，形成面向基因群的非冗余集合。
每个UniGene群包含: 代表一个唯一基因的多个序列，附有该基因相关的信息，
如基因表达的组织类型、定位图谱
除了基因的序列之外，还包括大量的EST序列。
http://rgp.dna.affrc.go.jp/E/index.html 苜蓿属基因组数据库：/medicago 玉米基因组数据库 maizegdb：斑马鱼信息网 ZFIN(Zebrafish Information Network)：（另可参看The Danio rerio Sequencing Project：
TIGR的真菌基因组数据库：/tdb/fungal 线虫基因组数据库 WormBase（the C. elegans genome database）：
四膜虫基因组数据库 TGD (Tetrahymena Genome Database): 疟原虫基因组数据库 PlasmoDB(Plasmodium Genome Resource)：
第四章生物信息学数据库
生物分子数据高速增长
分子生物学及相关领域研究人员迅速获得最新实验数据
建立生物分子数据库
生物分子数据库几个明显的特征：
（1）数据库的更新速度不断加快数据量呈指数增长趋势
（2）数据库使用频率增长更快（3）数据库的复杂程度不断增加（4）数据库网络化（5）面向应用（6）先进的软硬件配置
STS（Sequence Tagged Sites）是序列标记位点 dbSTS（/dbSTS/）是NCBI的一个数据源，包含基因组短标记序列（STS）的组成和定位信息。可以通过BLAST搜索STS序列。
6、面向基因聚类数据库UniGene
(4)序列中相关的位点、功能区域。
2、SWISS-PROT
SWISS-PROT (/sprot ）是由瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护（1986年）是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的
3、 Ensembl (/）
Ensembl包括所有公开的人类基因组DNA序列，通过注释形成的关于序列的特征。现在包括脊椎动物和其他真核生物基因组，如大鼠、小鼠、线虫、果蝇等。
例如：基因 •通过实验发现的 •或者是通过GenScan程序预测的
其他的特征：单核苷酸多态性（SNP）、重复序列等
生物信息学常用数据库种类
– 通用生物信息学数据库 – 特定（数据）数据库 – 特定（物种）数据库 – 各种通路数据库 – 结构（图形生物信息学数据库
国际上三大权威数据库
(1)美国生物技术信息中心（NCBI）的GenBank （/Genbank/）
3、TrEMBL
TrEMBL (/trembl/index.html) 是与 SWISS-PROT相关的一个数据库。
包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。
TrEMBL有两个部分：（1）SP-TrEMBL(SWISS-PROT TrEMBL)
▪ 欧洲分子生物学实验室的EMBL数据库也于1982 年开始服务
EMBL (Germany)
EMBL-EBI (UK)
密苏里植物园主页
EBI, Hinxton (Cambridge), UK 2004年2月22日摄
/embl/
/Databases/
（2）最小冗余
• 尽量将相关的数据归并，降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。
（3）与其它数据库的连接
对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。现有的交叉索引有：
到EMBL核酸序列数据库的索引，到PROSITE模式数据库的索引，到生物大分子结构数据库PDB的索引等。
• 所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。
除了蛋白质序列数据之外，PIR还包含以下信息：
(1)蛋白质名称、蛋白质的分类、蛋白质的来源； (2)关于原始数据的参考文献； (3)蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等；
2、其他生物基因组数据库
大肠杆菌K12基因组数据库
酵母基因组数据库
线虫基因组数据库
果蝇基因组数据库
小鼠基因组数据库
玉米基因组数据库
部分生物基因组计划网址大肠杆菌K12基因组数据库 ecogene：白色念珠菌基因组数据库 CGD （Candida Genome Database）：
NCBI
( National Center for Biotechnology Information) 美国生物技术信息中心
– / – 全球最大的生物信息资源中心 – DNA 序列、蛋白质序列、出版物、数据挖掘工具等
▪美国的GenBank从 1979年开始建设， 1982年正式运行；
Ensembl
Ensembl提供多种查询方式
• 通过关键字查询
•用BLAST进行相似序列的搜索
• 另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点，逐层放大浏览整个基因组
人的第9号染色体及大鼠对应的染色体片段
4、表达序列标记数据库dbEST
EST（Expressed Sequence Tags）方法已被证明是识别转录序列的最有效方法，EST序列大约覆盖了人类基因的90%。
SWISS-PROT中的数据来源于不同源地：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR挑选出合适的数据；（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据
SWISS-PROT有三个明显的特点：
（1）注释
在SWISS-PROT中，数据分为核心数据和注释两大类。
/tdb/e2k1/ath1
部分生物基因组计划网址
水稻基因组数据资源： 1、中国国际水稻基因组计划(IRGSP)：
/12chr/database_irgsp.htm 2、中国水稻信息系统（RISe）： 3、美国 4、日本 RGP（Rice Genome Research Program）：
目前，UniGene中包括人类、大鼠、小鼠、牛的相关数据，因为这些生物有大量的EST数据。
第三节蛋白质序列数据库
1、PIR（Protein Information Resource）
• 目的：帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组。
• 它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。
(2)欧洲分子生物学实验室(EMBL)( http://www.embl-heidelberg.de ) 的 nucleotide sequence database（/embl/）
(3)日本遗传研究所的DDBJ （ http://www.ddbj.nig.ac.jp/ ）
/plasmo 果蝇基因组数据库 FlyBase：（另可参看BDGP：
）拟南芥信息资源 tair（The Arabidopsis Information Resource）：
（另可参看The TIGR Arabidopsis thaliana Database：
• 这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。
第二节核酸序列数据库
1、基因组数据库（GDB）
The Genome Database
人类基因组计划所得到的图谱数据 2008年6月关闭
GDB包含对下述三种对象的描述：
（1）人类基因组区域
包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等；
（2）人类基因组图谱，
包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱，所有这些图谱都可以被直观地显示出来；
（3）人类基因组中的变化，
包括基因突变和基因多态性，加上等位基因频率数据。
TIGR的微生物资源数据库 CMR：
/tigr-scripts/CMR/CmrHomePage.cgi 日本的微生物基因组数据库 MBGD：http://mbgd.genome.ad.jp 酵母基因组数据库 SGD（Saccharomyces Genome Database）：
/Projects/D_rerio ）小鼠基因组数据库 MGI (Mouse Genome Informatics )：
HIV 序列数据库 HIV Databases：/content/index
核酸序列数据的增长趋势（纵轴代表总的核酸序列长度，单位：百万bp）
❖生物分子数据库
一级数据库
❖数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释
二级数据库
❖对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。