生物信息数据库

合集下载

第四章生物信息学数据库(一)主要库及其文件格式

包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等；
（2）人类基因组图谱，
包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱，所有这些图谱都可以被直观地显示出来；
（3）人类基因组中的变化，
包括基因突变和基因多态性，加上等位基因频率数据。
• 所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。
除了蛋白质序列数据之外，PIR还包含以下信息：
(1)蛋白质名称、蛋白质的分类、蛋白质的来源； (2)关于原始数据的参考文献； (3)蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等；
生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据建立生物分子数据库生物分子数据库几个明显的特征生物分子数据库几个明显的特征1数据库的更新速度不断加快数据量呈指数增长趋势2数据库使用频率增长更快3数据库的复杂程度不断增加4数据库网络化5面向应用6先进的软硬件配置核酸序列数据的增长趋势核酸序列数据的增长趋势纵轴代表总的核酸序列长度单位百万纵轴代表总的核酸序列长度单位百万bpbp生物分子数据库一级数据库数据库中的数据直接来源于实验获得的原始数据只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理分类的结果是在一级数据库实验数据和理论分析的基础上针对特定的应用目标而建立的
TIGR的真菌基因组数据库：/tdb/fungal 线虫基因组数据库 WormBase（the C. elegans genome database）：
四膜虫基因组数据库 TGD (Tetrahymena Genome Database): 疟原虫基因组数据库 PlasmoDB(Plasmodium Genome Resource)：

生物信息学数据库分类整理汇总

生物信息学数据库分类整理汇总生物信息学数据库是存储和管理生物学领域的大量数据的重要工具和资源，对于生物信息学研究、基因组学、蛋白质组学、转录组学等领域的研究具有重要的意义。

本文将对生物信息学数据库进行分类整理和汇总，方便生物信息学研究者更好地使用和了解这些数据库。

1.基因组数据库：- GenBank：美国国家生物技术信息中心（NCBI）维护的基因序列数据库，包含已知基因的核酸序列。

- Ensembl：英国恩格斯尔基因组项目维护的一个综合性基因组数据库，包含多种物种的基因组数据。

- UCSC Genome Browser：加利福尼亚大学圣克鲁兹分校开发的一个基因组浏览器，提供多种物种的基因组序列和注释信息。

2.蛋白质数据库：- UniProt：一个综合性的蛋白质数据库，集成了多个蛋白质序列和注释信息资源。

- Protein Data Bank (PDB)：存储大量已解析的蛋白质结构数据的数据库，提供原子级别的结构信息。

- Protein Information Resource (PIR)：收集和整理蛋白质序列、结构和功能信息的数据库。

3.转录组数据库：- NCBI Gene Expression Omnibus (GEO)：存储和共享大量的高通量基因表达数据的数据库。

- ArrayExpress：欧洲生物信息学研究所（EBI）开发的一个基因表达数据库，包含多种生物组织和疾病的表达数据。

4.疾病数据库：- Online Mendelian Inheritance in Man (OMIM)：记录人类遗传疾病和相关基因的数据库。

- Orphanet：收集和整理罕见疾病和相关基因的数据库。

5.代谢组数据库：- Human Metabolome Database (HMDB)：一个综合性的人类代谢物数据库，包括代谢产物的结构和功能信息。

- Kyoto Encyclopedia of Genes and Genomes (KEGG)：包含多种生物体代谢途径的数据库。

生物信息学中的数据库和计算工具

生物信息学中的数据库和计算工具生物信息学是一门综合性学科，应用范围十分广泛。

生物信息学研究的是生物体内的遗传信息的获取、存储、分析和应用。

它结合了生物学、信息学、计算机科学、数学等多个学科，旨在解决生物大数据的存储、分析和挖掘问题。

本文将介绍生物信息学中的数据库和计算工具，以及它们在生物信息学中的应用。

一、生物信息学中的数据库生物信息学中的数据库是受到生物学家和计算机科学家制作和维护的存储和组织生物数据的资源。

这些数据库包括基因组、蛋白质、代谢、信号转导、基因表达谱等生物信息学数据库。

生物信息学中的数据库已经成为研究生物学的常规工具，研究人员可以通过分析数据库中的信息来更好地理解生物学现象。

1. 基因组数据库基因组数据库是生物信息学中最重要的数据库之一。

它存储了各种物种的基因组信息。

基因组数据库的应用包括基因预测、基因注释、基因功能鉴定、基因组进化分析等。

最知名的基因组数据库包括 GenBank、EMBL、Ensembl 等。

其中 GenBank 是最大的公共基因组数据库之一，它由美国国家生物技术信息中心（NCBI）维护。

2. 蛋白质数据库蛋白质数据库是存储蛋白质结构和序列信息的数据库。

其中，PDB是最著名的蛋白质数据库之一，它提供了大量的蛋白质三维结构的信息。

此外，UniProt 是另一重要的蛋白质数据库，它整合了多个独立的蛋白质数据库，提供了关于蛋白质序列、结构和功能的详细信息。

3. 引用数据库引用数据库存储了生物学家在论文、会议和其他出版物中发表的研究结果。

它们经常被生物信息学家用于构建生物信息学算法的基础，并分析特定领域的研究趋势。

PubMed 和 Web of Science 是引文数据库的代表性例子。

二、生物信息学中的计算工具随着数据量的增加和分析复杂度的提高，生物信息学中出现了大量的计算工具用于帮助生物科学家完成各种分析任务。

这些工具包括序列比对、序列拼接、批量序列处理、统计分析、数据可视化、机器学习等。

生物信息数据库

NCBI：
二、重要生物信息数据库
生物信息学数据的表示形式
生物信息学数据的表示形式
平面文件 (flat-file)
– 信息在文件中顺序存放且具有特定格式 – 记录(Entry)通过“获得号”(accession #)
唯一确定 – 同一文件间和不同文件间信息的联系均
通过ac认为这些蛋白质具有相同的折叠方式。在这些情况下，结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。
蛋白质结构分类数据库CATH
类型Class、构架Architecture 、拓扑结构Topology和同源性Homology 。
分类基础是蛋白质结构域。与SCOP不同的是，CATH 把蛋白质分为4类，即a主类、b主类，a-b类（a/b型和a+b型）和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。
描述了结构和进化关系。 SCOP数据库从不同层次对蛋白质结构进行分类，以反
映它们结构和进化的相关性。第一个分类层次为家族，通常将序列相似性程度在30%
以上的蛋白质归入同一家族，有比较明确的进化关系。超家族：序列相似性较低，结构和功能特性表明它们有
共同的进化起源，将其视作超家族。折叠类型：无论有无共同的进化起源，只要二级结构单
EMBL格式：欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件，每一行最前面是由两个大写字母组成的识别标志，常见的识别标志列举在后面的表中。识别标志 “特性表”FT包含一批关键字，它们的定义已经与 GenBank和DDBJ统一。下欧洲国家的许多数据库如 SWISS-PROT、ENZYME、TRANSFAC等，都采用与EMBL一致的格式。
1）头部包含关于整个序列的信息（描述字符），从 LOCUS行到 ORIGIN行；

第三章生物信息数据库

部分生物基因组计划网址

老鼠(Mouse) /mgd.html 小鼠(Rat) http://ratmap.gen.gu.se 狗(Dog) /dog.html 牛(Cow) http://locus.jouy.inra.fr/cgibin/bovmap/intro2.pl 猪(Pig) /pigmap/pigbase/pigbase.html 羊(Sheep) 鸡(Chicken) /chickmap/chickbase/manager.html 斑马鱼(Zebra fish) 线虫 (C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.ht ml 果蝇(Drosophila) 蚊子(Mosquito) 拟南芥(Arabidopsis) /Arabidopsis 棉花(Cotton) 玉米(Maize) 水稻(Rice) http://www.staff.or.jp 大豆(Soya) :8000/main.html 树(Trees)

2、蛋白质序列数据库
SWISS-PROT (欧洲) PIR (美国)
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html）由瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护；在EMBL和GenBank数据库上均建立了镜像站点；

SWISSPROT

到EMBL核酸序列数据库的索引，到PROSITE模式数据库的索引，到生物大分子结构数据库PDB的索引等
PIR （Protein Information Resource）

生物信息学中常用的数据类型和数据库类型

生物信息学中常用的数据类型和数据库类型
在生物信息学中，常用的数据类型包括：
1. 基因组序列数据：包括DNA和RNA序列的原始数据，如FASTA格式或FASTQ格式。

2. 转录组数据：包括基因表达谱、剪接变异等，如RNA-seq数据。

3. 蛋白质序列数据：包括蛋白质的氨基酸序列，如UniProt数据库。

4. 基因组结构数据：包括基因位置、外显子、内含子等信息。

5. 遗传变异数据：包括SNP、INDEL、CNV等遗传变异信息。

6. 蛋白质结构数据：包括蛋白质的三维空间结构，如PDB数据库。

在生物信息学中，常用的数据库类型包括：
1. 基因组数据库：如NCBI GenBank、ENSEMBL等，存储基因组序列和注释信息。

2. 转录组数据库：如NCBI SRA、ENA等，存储RNA-seq和其他转录组数据。

3. 蛋白质数据库：如UniProt、Swiss-Prot等，存储蛋白质序列和注释信息。

4. 遗传变异数据库：如dbSNP、ClinVar等，存储遗传变异信息。

5. 蛋白质结构数据库：如PDB、CATH等，存储蛋白质的三维结构信息。

6. 功能注释数据库：如GO数据库、KEGG数据库等，存储基因和蛋白质的功能注释信息。

7. 互作数据库：如STRING数据库、BioGRID数据库等，存储基因和蛋白质之
间的相互作用信息。

06第六章常用生物信息学数据库简介

英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列数据库，于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ，得到数据库管理系统所签发的登录注册号。二是从生物医学期刊上收录已经发表的序列资料。

第四章生物信息学数据库(二)-生技用

相似性和同源性关系
序列的相似性和序列的同源性有一定的关系，一般来说序列间的相似性越高的话，它们是同源序列的可能性就更高，所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系，很多时候对序列的相似性和同源性就没有做很明显的区分，造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80％一说。
核酸序列蛋白质序列生物大分子结构基因组数据生物分类数据库孟德尔人类遗传学数据（OMIM） Pubmed
Entrez集成系统结构如图4.8所示。
图4.8、Entrez数据库系统结构图
各个参数选项
帮助信息填入搜索序列
FastA的最新版本是FastA3软件包，下表2列出FastA3 家族所有成员：
程序
FastA FASTX FASTY TFastA TFASTX TFASTY FASTS TFASTS FASTF TFASTF
查询序列类型
DNA 蛋白质 DNA 蛋白质蛋白质
序列相似性比较和序列同源性分析
序列相似性比较：就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；
PDB MMDB NDB
（Protein Data Bank）
(Molecular Modeling Database) 实际上是PDB的一个编辑版本

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

22 November 2010
3
Database Growth
• Exponential growth in sequence data • Not much growth in sequence size • Expect exponential growth in annotation information What are we to do with all this data?
二级数据库包括：
由上述三类数据库和文献资料为基础构建的数据库。
10
分子生物信息数据库
11
三、基因组数据库（genome databases）
基因组数据库的主体是模式生物基因组数据库，此外基因组信息资源还包括染色体、基因突变、遗传疾病、分类学等各种数据库。
GDB —— 人类（Homo sapiens）基因组数据库 AceDB —— 线虫 (Caenorhabditis elegans) 基因组数据库
12
人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述：
（1）人类基因组区域包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等；（2）人类基因组图谱包含细胞遗传学图谱、连接图谱、辐射混合图谱、 contig 图谱、集成图谱，所有这些图谱都可以被直观地显示出来；（3）人类基因组中的变化包括基因突变和基因多态性，加上等位基因频率数据。
38
常用分子生物信息学数据库-2
数据库名称 EMEST SWISS-PROT TREMBL DSSP FSSP SBASE HUMREP CPGISLE TRANSFAC YPD KABATP PROSITEDOC 数据库内容 EMBL数据库中EST部分蛋白质序列 EMBL翻译所得蛋白质序列蛋白质二级结构参数已知空间结构蛋白质家族蛋白质结构域序列人类基因组中重复序列 CpG岛序列转录因子酵母基因组免役球蛋白蛋白质序列蛋白质功能位点文献摘要
4
生物分子数据高速增长
分子生物学及相关领域研究人员迅速获得最新实验数据
建立生物分子数据库
5
生物信息数据库应满足5个方面的主要需求：
（1）时间性（2）注释
（3）支撑数据
（4）数据质量
（5）集成性
6
Challenges of Large Databases
• Storage
– Indexing, physical layout, memory management
21Байду номын сангаас
SWISS-PROT
• •
ID AC DT DT DT DE GN OS OC OC OX RN RP RC RX RA RT RT RL …
Defined by SWISS-PROT database
– Includes annotation, other info
Example:
BRC1_MOUSE STANDARD; PRT; 1812 AA. P48754; Q60957; Q60983; 01-FEB-1996 (Rel. 33, Created) 01-NOV-1997 (Rel. 35, Last sequence update) 16-OCT-2001 (Rel. 40, Last annotation update) Breast cancer type 1 susceptibility protein homolog. BRCA1. Mus musculus (Mouse). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. NCBI_TaxID=10090; [1] SEQUENCE FROM N.A. STRAIN=C57BL/6; TISSUE=Embryo; MEDLINE=96177659; PubMed=8634697; Abel K.J., Xy J., Yin G.Y., Lyons R.H., Meisler M.H., Weber B.L.; "Mouse Brca1: localization sequence analysis and identification of evolutionarily conserved domains."; Hum. Mol. Genet. 4:2265-2273(1995).
13
14
15
16
四、序列数据库（Sequence databases）
序列数据库是分子生物信息数据库中最基本的数据库，包括核酸和蛋白质两类，以核苷酸碱
基顺序或氨基酸残基顺序为基本内容，并附有
注释信息。
17
（一）核酸序列数据库
国际上权威的核酸序列数据库
GenBank －美国国家信息中心的核酸数据库（1979） EMBL －欧洲分子生物学实验室的核酸
• Modeling
– Relational, hierarchical, semi-structured
• Efficiency
– Update, query, analysis
• Interpretation
– Visualization
7
生物信息数据库几个明显的特征：
（1）数据库的更新速度不断加快，数据量呈指数增长趋势（2）数据库使用频率增长更快（3）数据库的复杂程度不断增加（4）数据库网络化（5）面向应用（6）先进的软硬件配置
39
常用分子生物信息学数据库-3
数据库名称 BLOCKS PRODOM ENZYME OMIM SEQANALREF MEDLINE FLYGENES RHDB P53 PK CUTG TAXONOMY BIOCAT 数据库内容同源蛋白序列模块蛋白质结构域酶人类遗传缺陷基因序列分析文献目录医学文献目录果蝇基因组放射杂交 P53蛋白突变丙酮酸激酶遗传密码使用频度分类学生物信息学程序目录
PDB的网址：/pdb(美国) PDBsum的网址：/bsm/pdbsum
24
25
26
六、二次数据库
根据生命科学不同研究领域的实际需要，对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建具有特殊生物学意义和专门用途的二次数据库，这是数据库开发的有效途径。近年来，世界各国的生物学家和计算机科学家合作，已经开发了几百个二次数据库和复合数据库，也称专门数据库、专业数据库、专用数据库。
31
中华民族基因多态性数据库
32
蛋白质二硫键数据库
33
水稻矮缩病毒基因组数据库
34
转录因子细胞特异表达数据库
35
蛋白质回环数据库
36
37
常用分子生物信息学数据库-1
数据库名称 EMBL PIR OWL PDB HSSP PDBFINDER SUBTILST VECTOR RDP ECDC KABATN PROSITE 数据库内容核酸序列蛋白质序列非冗余蛋白质序列蛋白质三维空间结构同源蛋白家族 PDB数据库注释信息枯草杆菌序列克隆载体核糖体序列大肠杆菌序列免役球蛋白核酸序列蛋白质功能位点
数据库（1982）
DDBJ －日本遗传研究所的核酸数据库（1987）
18
GenBank
•
•
Flat file format used by GenBank
– Annotation, author, version, etc.
Example (just the top)
MMU35641 5538 bp mRNA linear ROD 18-OCT-1996 Mus musculus Brca1 mRNA, complete cds. U35641 U35641.1 GI:1040960 . house mouse strain=C57Bl/6. Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. 1 (bases 1 to 5538) Sharan,S.K., Wims,M. and Bradley,A. Murine Brca1: sequence and significance for human missense mutations Hum. Mol. Genet. 4 (12), 2275-2278 (1995) 96177660 8634698 19
分子生物信息数据库
（Molecular Bioinformatics Databases）
一、简介二、分子生物信息数据库三、基因组数据库四、序列数据库五、结构数据库六、二次数据库七、NCBI分子生物学数据库
1
一、简介
已经完成全序列测定的基因组
2
Total nucleotides:
301,588,430,608
TrEMBL —— Translation of EMBL
20
SWISS-PROT
(http://www.expasy.ch/sprot/sprot-top.html）是目前国际上比较权威的蛋白质序列数据库, 其中的蛋白质序列是经过注释的. SWISS-PROT中的数据来源于不同源地：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR挑选出合适的数据；（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据

生物信息数据库

第四章生物信息学数据库(一)主要库及其文件格式

生物信息学数据库分类整理汇总

生物信息学中的数据库和计算工具

生物信息数据库

第三章生物信息数据库

生物信息学中常用的数据类型和数据库类型

06第六章 常用生物信息学数据库简介

第四章 生物信息学数据库(二)-生技用

06第六章常用生物信息学数据库简介

第四章生物信息学数据库(二)-生技用