生物信息数据库(二)

合集下载

生物信息学数据库分类整理汇总

生物信息学数据库分类整理汇总生物信息学数据库是存储和管理生物学领域的大量数据的重要工具和资源，对于生物信息学研究、基因组学、蛋白质组学、转录组学等领域的研究具有重要的意义。

本文将对生物信息学数据库进行分类整理和汇总，方便生物信息学研究者更好地使用和了解这些数据库。

1.基因组数据库：- GenBank：美国国家生物技术信息中心（NCBI）维护的基因序列数据库，包含已知基因的核酸序列。

- Ensembl：英国恩格斯尔基因组项目维护的一个综合性基因组数据库，包含多种物种的基因组数据。

- UCSC Genome Browser：加利福尼亚大学圣克鲁兹分校开发的一个基因组浏览器，提供多种物种的基因组序列和注释信息。

2.蛋白质数据库：- UniProt：一个综合性的蛋白质数据库，集成了多个蛋白质序列和注释信息资源。

- Protein Data Bank (PDB)：存储大量已解析的蛋白质结构数据的数据库，提供原子级别的结构信息。

- Protein Information Resource (PIR)：收集和整理蛋白质序列、结构和功能信息的数据库。

3.转录组数据库：- NCBI Gene Expression Omnibus (GEO)：存储和共享大量的高通量基因表达数据的数据库。

- ArrayExpress：欧洲生物信息学研究所（EBI）开发的一个基因表达数据库，包含多种生物组织和疾病的表达数据。

4.疾病数据库：- Online Mendelian Inheritance in Man (OMIM)：记录人类遗传疾病和相关基因的数据库。

- Orphanet：收集和整理罕见疾病和相关基因的数据库。

5.代谢组数据库：- Human Metabolome Database (HMDB)：一个综合性的人类代谢物数据库，包括代谢产物的结构和功能信息。

- Kyoto Encyclopedia of Genes and Genomes (KEGG)：包含多种生物体代谢途径的数据库。

第二章生物学数据库及其检索

二级数据库（ Secondary database ）：在一级数据库的信息基础上进行计算机加工处理并增加了许多的人为注释而构成的（例如：NCBI的RefSeq数据库等）。
Primary vs. Secondary Databases
Curators
Sequencing Centers
Labs
➢ DDBJ的英文版网址： http://www.ddbj.nig.ac.jp/index-e.html/
国际上最权威的核酸序列数据库
日本国立遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/searches-e.html
（二）基因组数据库GDB
• 基因组数据库(GDB)创建于1990年，是一个专门汇集人类基因组数据的数据库，为人类基因组计划(HGP)保存和处理基因组图谱数据。
计算机文档，是统一管理的相关数据的集合，其储存形式有利于数据信息的检索与调用。
二、生物学数据库
在生物信息学者们的努力下，人类基因组序列数据连同其它多种模式生物的序列数据及各自相应的基因结构与功能信息皆可供众多生物学家们免费接入与使用。
模式生物
Ureaplasma urealyticum
Chapter 2
第二节常用数据库
常用数据库
类序列
型一次数据库
核酸
基因组序列
一次数据库
一次数据库
蛋
白
质
复合数据库
二次数据库
名称 Genebank EMBL DDBJ GDB SWISS-PROT PIR TrEMBL UniProt MIPS
GenPept NRL-3D
NRDB OWL SWISS-PROT＋ TrEMBL PROSITE PRINTS BLOCKS Pfam IDENTIFY COGs ProDom

(完整版)生物信息学教学资料：生物信息学常用数据库

6
• Access to GenBank • GenBank is available for searching at NCBI via several methods. • The GenBank database is designed to provide and encourage access
http://ratmap.gen.gu.se
生物信息学方法与实践
Bioinformatics Method and Practice
1
生物信息学常用数据库
• 一级数据库
–数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释。
• 二级数据库
–对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
prior to publication so that an accession number may appear in the paper. NCBI has a WWW form, called BankIt, for convenient and quick submission of sequence data. Sequin, NCBI's stand-alone submission software for MAC, PC, and UNIX platforms, is also available by FTP. When using Sequin, the output files for direct submission should be sent to GenBank by electronic mail. • There are specialized, streamlined procedures for batch submissions of sequences, such as EST, STS, and HTG sequences.

生物信息数据库

NCBI：
二、重要生物信息数据库
生物信息学数据的表示形式
生物信息学数据的表示形式
平面文件 (flat-file)
– 信息在文件中顺序存放且具有特定格式 – 记录(Entry)通过“获得号”(accession #)
唯一确定 – 同一文件间和不同文件间信息的联系均
通过ac认为这些蛋白质具有相同的折叠方式。在这些情况下，结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。
蛋白质结构分类数据库CATH
类型Class、构架Architecture 、拓扑结构Topology和同源性Homology 。
分类基础是蛋白质结构域。与SCOP不同的是，CATH 把蛋白质分为4类，即a主类、b主类，a-b类（a/b型和a+b型）和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。
描述了结构和进化关系。 SCOP数据库从不同层次对蛋白质结构进行分类，以反
映它们结构和进化的相关性。第一个分类层次为家族，通常将序列相似性程度在30%
以上的蛋白质归入同一家族，有比较明确的进化关系。超家族：序列相似性较低，结构和功能特性表明它们有
共同的进化起源，将其视作超家族。折叠类型：无论有无共同的进化起源，只要二级结构单
EMBL格式：欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件，每一行最前面是由两个大写字母组成的识别标志，常见的识别标志列举在后面的表中。识别标志 “特性表”FT包含一批关键字，它们的定义已经与 GenBank和DDBJ统一。下欧洲国家的许多数据库如 SWISS-PROT、ENZYME、TRANSFAC等，都采用与EMBL一致的格式。
1）头部包含关于整个序列的信息（描述字符），从 LOCUS行到 ORIGIN行；

生物信息学常用数据库(已分类)

枯草芽胞杆菌(Bacillus subtilis)基因组 PlasmoDB /
疟原虫属(Plasmodium)基因组酵母基因组数据库(SGD) /Saccharomyces 酿酒酵母基因组 TIGR微生物数据库 /tdb/mdb/mdbcomplete.html
COMPEL http://compel.bionet.nsc.ru/ 复合调控元件（Composite regulatory elements）
CUTG http://www.kazusa.or.jp/codon/ 遗传密码使用表
DBTBS http://dbtbs.hgc.jp/ 枯草杆菌反式作用因子和启动子
ArkDB /sites.html 农业相关和其他动物的基因组数据库
综合的微生物资源(CMR) /tigr-scripts/CMR2/CMRHomePage.spl 已完成测序的微生物基因组
CropNet / 农作物基因组图谱
CyanoBase http://www.kazusa.or.jp/cyano/
Synechocystis sp.基因组
EMGlib http://pbil.univ-lyon1.fr/emglib/emglib.html 已完成基因组测序的细菌、古细菌、酵母
EcoGene /EcoGene/EcoWeb/ 大肠杆菌(E.coli)K-12的序列
帖子
441
积分
20
金币
339
贡献值 3 点
最后登录 10-5-10
名称地址说明
AceDB /Software/Acedb/ 线虫(C.elegans),酵母(S.pombe)的序列和基因组信息
AmmtDB r.it/mitochondriome/ 寄生虫(Metazoan)线粒体DNA序列

生物信息学数据库概览及应用

常用生物信息学数据库概览
生物信息学作为一门交叉学科，在现代生物学研究中扮演着越来越重要的角色。随着高通量测序技术的发展和大数据时代的到来，生物信息学数据库已成为存储、管理和分析海量生物学数据的关键工具。本概览将带您深入了解常用的生物信息学数据库，探讨它们在基因组学、转录组学、蛋白质组学等领域的应用，以及如何有效利用这些资源来推动生物医学研究信息学数据分析中扮演更重要的角色。这些技术可以帮助研究者从复杂的生物学数据中发现新的模式和规律，提高数据解释的准确性和效率。
未来的数据库将更注重多组学数据的整合和分析。通过结合基因组、转录组、蛋白质组等多层次数据，研究者可以获得更全面的生物系统认知，推动系统生物学和精准医疗的发展。
UCSC Genome Browser：基因组数据可视化利器
基因组浏览器
UCSC Genome Browser是一个强大的基因组数据可视化工具，允许用户在线浏览和分析多个物种的基因组序列。它提供了直观的图形界面，可以显示基因结构、保守区域、表达数据等多层次信息。研究者可以自定义显示的数据轨道，实现个性化的基因组分析。
随着个人化医疗的发展，生物信息学数据库将面临更严格的数据安全和隐私保护要求。未来的数据库设计将更加注重数据加密、访问控制和匿名化技术，以平衡数据共享和隐私保护的需求。
GEO：基因表达数据的宝藏
数据提交
研究者可以通过GEO（Gene Expression Omnibus）提交高通量基因表达数据，包括芯片数据和测序数据。GEO提供了标准化的提交流程和元数据模板，确保数据的质量和一致性。
数据存储和组织
GEO采用层次化的数据组织结构，包括Series（实验系列）、Samples（样本）和 Platforms（平台）。这种结构使得用户可以方便地浏览和检索相关实验数据，同时也便于数据的管理和更新。

06第六章常用生物信息学数据库简介

英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列数据库，于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ，得到数据库管理系统所签发的登录注册号。二是从生物医学期刊上收录已经发表的序列资料。

生物信息学数据库

BLAST：美国NCBI（国家生物技术信息中心）支持。 FASTA：是英国EBI（生物信息研究所）负责维护。
BLAST：碱基局部对准检索工具
Basic Locul Alignment Search Tool
可进行核苷酸序列、蛋白质序列方面的同源性分析，能在8秒内在整个DNA数据库中进行序列比较。
diabetes
顺序号中第1位数字表示所涉及基因的遗传类型： 1：常染色体显性（1994.5.15前创建） 2：常染色体隐性（1994.5.15前创建） 3：X连锁基因座或表现型 4：Y连锁基因座或表现型 5：线粒体基因座或表现型 6：常染色体基因座或表现型（1994.5.15后创建的条目）
比较结果页面
彩色积分图
序列相似存贮号描述
描述
积分
检索范围
E值统计
链接
相似率为100%
序列对准描述
三、基因组数据库
1、Genome：可获得800多种生物体的基因组数据，部分已完成测序。
2、人类基因组资源： human genome resources
整合了多种相关的分子生物学数据库和公共分析软件，为科研人员提供了自动化的实验数据获得、加工和整理途径，为基因区域的预测和基因功能预测提供了一系列便捷的方法。
序列数据库结构数据库生物信息学数据库的种类图谱数据库突变数据库文献数据库
专业杂志生物信息学数据库的查找方法专门数据库目录的网站
著名的生物信息学中心
参见教材p227--p242
NCBI数据库组织
一、NCBI中的生物信息数据库
1）、PubMed：生物医学文献数据库 2）、Nucleotide：核酸序列数据库 3）、Protein sequence database：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Fig 2.6 GenBank中DNA序列条目.
• 序列每行前面标有数字，以显示片断位置。序列计数或序列校检求和的值可被计算机程序用来鉴定序列成分，所以除非程序本身也改变计数，序列计数是不能被改变的。 • GenBank序列格式通常需要改变以适应序列分析软件。
ACCESSION Organism no ..123 Escherichia. coli ..124 ..125 ..125 Escherichia Coli Saccharomyces. CEREVISIAE Homo. Sapiens Reference Name Medline1, ...... Medline2, ...... Medline3,. ...... Medline4,. ...... LexA protein UmuD protein GAL4 protein glucoCorticoid receptor Keywords Sequence SOS regulon, ATG.. repressor, transcriptional regulator, .. SOS regulon, .. GTA.. transcriptional regulator, .. transcriptional regulator, .. CAT.. TGT..
Fig 2.8 EMBL序列格式.
3 SwissProt序列格式 4 FASTA序列格式 5 NBRF序列格式
• SwissProt蛋白序列数据库条目的格式和EMBL非常相似，但它提供了更多的关于蛋白质的物理和生化性质的信息。 • FASTA 序列格式包括三个部分：1.在注释行的第一列用字符“>”标识，后面是序列的名字和来源；2.标准的单字符标记的序列；3.可选的“*”表示序列的结束，它可能出现也可能不出现，但它是许多序列分析程序正确读取序列所必须的。FASTA格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径，因为序列中没有数字或其他非字符。FASTA序列格式和蛋白质信息资源 NBRF格式很相似。
LOCUS
name of locus, length and type of sequence, classification of organism, data of entry DEFINITION desicription of entry ACCESSION accession number of original source KEYWORDS key words for cross referencing this entry SOURCE source organism of DNA ORGANISM description of organism REFERENCE COMMENT biological function of database information FEATURES information about sequence by base position or range of positions source range of sequence, source organism misc_signal range of sequence, type of function or signal mRNA range of sequence, mRNA CDS range of sequence, protein coding region intron range of sequence, position of intron mutation sequence position, change in sequence for mutation BASE COUNT count of A, C, G, T and other symbols ORIGIN text indicating start of sequence 1 gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc 51 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg // database symbol for end of sequence
1. GenBank中DNA序列格式
• GenBank中数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下：给出描述每一个序列的信息，包括文献参考、序列的功能信息、mRNA和编码区域的位置，以及重要突变的位置。这些序列信息以字段的形式进行组织，每一行最前端都有一个标识符。在某些条目中，标识符可能缩写成两个字母(例如RF代表reference)，某些字段可能还有次级字段。计算机程序中的序列条目位于标识符“ORIGIN”和“//”之间。这些字段提供的信息可以参见网页 /Sitemap/samplerecord.html
>YCZ2_YEAST protein in EMR 3’ region MKAVVIEDGKAVVKEGVPIPELEEGFV GNPTDWAHIDYKVGPQGSILGCDAAGQ IVKLGPAVDPKDFSIGDYIYGFIHGSS VRFPSNGAFAEYSAISTVVAYKSPNEL KFLGEDVLPAGPVRSLEGAATIPVSLT*
HSSP的网址： http://www.cmbi.kun.nl/gv/hssp/
四、数据库格式简介
历史原因：没有完全统一的数据库格式；了解所用数据库格式的重要性一般由两部分组成：文字注释序列
（一）不同数据库的序列格式
• 在运行序列分析软件中遇到的首要问题就是如何通过不同的程序使用不同的序列格式。这些格式都是标准 ASCII码文件，但在显示各种信息或序列本身的某些字符或字有所不同。下面将讨论几种常用的序列格式。
Prosite的网址：/prosite/
3、蛋白质结构二级数据库
DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库
DSSP的网址：http://www.cmbi.kun.nl/gv/dssp/
ID identification code for sequence in the database AC accession number giving origin of sequence DT dates of entry and modification KW key cross-reference words for lookup up this entry OS, OC source organism RN, RP, RX, RA, RT, RL literature reference or source DR i. d. In other databases CC Description of biological function FH, FT information about sequence by base position or range of positiions source range of sequence, source organism misc_signal range of sequence, type of function or signal mRNA range of sequence, mRNA CDS range of sequence, position of intron mutation sequence position, change in sequence for mutation SQ count of A, C, G, T and other symbols gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc cttttgctgt 60 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg ttaacggcca 120 . . // symbol to indicate end of sequence
Fig 2.7 GenBank数据库的组织. 常被计算机检索程序ENTREZ利用。
2 EMBL序列格式
• The European Molecular Biology Laboratory(EMBL)序列条目与GenBank类似，通过大量信息来描述每个序列。该信息组织成一个个字段，每个字段有一个标识符。这些标识符缩写成两个字母，某些字段还有次级字段。每行序列后面的数字显示片断的位置。 • 计算机程序可以利用序列计数或校检求和的值来保证序列的完整性和精确性。正是由于这个原因，除非程序本身也改变计数，条目的序列片断是不能被改变的。 • 这种序列格式用于各种序列分析软件时也要进行改变。
1 GenBank中DNA序列格式 2 EMBL序列格式 7 GCG序列格式 8 PIR/CODATA序列格式
3 SwissProt序列格式
4 FASTA序列格式 5 NBRF序列格式 6 Intelligenetics序列格式
9 Plain/ASCII.Staden序列格式
10 ASN.1序列格式 11 GDE格式
目前计算机中用得最广泛的字符集及其编码，是由美国国家标准局 (ANSI)制定的ASCII码（American Standard Code for Information Interchange，美国标准信息交换码），它已被国际标准化组织（ISO）定为国际标准，称为ISO 646标准。适用于所有拉丁文字字母，一个ASCll 码由8位二进制数码组成的。其中，用于表达字符的二进制码有7个，最后一个用于检测错误，或空闲不用。
三、二级数据库简介图表等方式显示数据库内容；一级数据库与二级数据库之间并无明确的界限。（例如：
GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色）