生物信息学_常用数据库介绍_20131204
生物信息学数据库分类整理汇总

生物信息学数据库分类整理汇总生物信息学数据库是存储和管理生物学领域的大量数据的重要工具和资源,对于生物信息学研究、基因组学、蛋白质组学、转录组学等领域的研究具有重要的意义。
本文将对生物信息学数据库进行分类整理和汇总,方便生物信息学研究者更好地使用和了解这些数据库。
1.基因组数据库:- GenBank:美国国家生物技术信息中心(NCBI)维护的基因序列数据库,包含已知基因的核酸序列。
- Ensembl:英国恩格斯尔基因组项目维护的一个综合性基因组数据库,包含多种物种的基因组数据。
- UCSC Genome Browser:加利福尼亚大学圣克鲁兹分校开发的一个基因组浏览器,提供多种物种的基因组序列和注释信息。
2.蛋白质数据库:- UniProt:一个综合性的蛋白质数据库,集成了多个蛋白质序列和注释信息资源。
- Protein Data Bank (PDB):存储大量已解析的蛋白质结构数据的数据库,提供原子级别的结构信息。
- Protein Information Resource (PIR):收集和整理蛋白质序列、结构和功能信息的数据库。
3.转录组数据库:- NCBI Gene Expression Omnibus (GEO):存储和共享大量的高通量基因表达数据的数据库。
- ArrayExpress:欧洲生物信息学研究所(EBI)开发的一个基因表达数据库,包含多种生物组织和疾病的表达数据。
4.疾病数据库:- Online Mendelian Inheritance in Man (OMIM):记录人类遗传疾病和相关基因的数据库。
- Orphanet:收集和整理罕见疾病和相关基因的数据库。
5.代谢组数据库:- Human Metabolome Database (HMDB):一个综合性的人类代谢物数据库,包括代谢产物的结构和功能信息。
- Kyoto Encyclopedia of Genes and Genomes (KEGG):包含多种生物体代谢途径的数据库。
生物信息数据库简介

2、蛋白质序列二级数据库
Prosite(蛋白质序列功能位点数据库) 始建于 1990 年代初,由瑞典生物信息学研究所 SIB 负责维 护。 基于对蛋白质家族中同源序列多重序列比对得到的保守区 域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件Prosite;说明文件 PrositeDoc。
1 GenBank中DNA序列格式 2 EMBL序列格式 7 GCG序列格式 8 PIR/CODATA序列格式
3 SwissProt序列格式
4 FASTA序列格式 5 NBRF序列格式 6 Intelligenetics序列格式
9 Plain/ASCII.Staden序列格式
10 ASN.1序列格式 11 GDE格式
• NBRF序列格式(或称PIR格式)已经被用于the National Biomedical Research Foundation/Protein Information Resource(NBRF)。网站()中 的PIR数据库中得到并不是这种紧缩格式,而是一种包括 很多信息的扩展格式。Fig 2.10显示了PIR序列格式的一 个例子。第一行包括一个起始的“>”字符,接着是一个双 字符编码,例如P表示完整序列,F表示片断,后面的1或 2显示了序列的类型,接着是一个分号,接着是一个4到6 个字符的条目名称。第二行则显示了序列的全称,连字号, 接着序列来源。
Fig 2.6 GenBank中DNA序列条目.
• 序列每行前面标有数字,以显示片断位置。序列计数或 序列校检求和的值可被计算机程序用来鉴定序列成分, 所以除非程序本身也改变计数,序列计数是不能被改变 的。 • GenBank序列格式通常需要改变以适应序列分析软件。
生物信息学中的数据库和计算工具

生物信息学中的数据库和计算工具生物信息学是一门综合性学科,应用范围十分广泛。
生物信息学研究的是生物体内的遗传信息的获取、存储、分析和应用。
它结合了生物学、信息学、计算机科学、数学等多个学科,旨在解决生物大数据的存储、分析和挖掘问题。
本文将介绍生物信息学中的数据库和计算工具,以及它们在生物信息学中的应用。
一、生物信息学中的数据库生物信息学中的数据库是受到生物学家和计算机科学家制作和维护的存储和组织生物数据的资源。
这些数据库包括基因组、蛋白质、代谢、信号转导、基因表达谱等生物信息学数据库。
生物信息学中的数据库已经成为研究生物学的常规工具,研究人员可以通过分析数据库中的信息来更好地理解生物学现象。
1. 基因组数据库基因组数据库是生物信息学中最重要的数据库之一。
它存储了各种物种的基因组信息。
基因组数据库的应用包括基因预测、基因注释、基因功能鉴定、基因组进化分析等。
最知名的基因组数据库包括 GenBank、EMBL、Ensembl 等。
其中 GenBank 是最大的公共基因组数据库之一,它由美国国家生物技术信息中心(NCBI)维护。
2. 蛋白质数据库蛋白质数据库是存储蛋白质结构和序列信息的数据库。
其中,PDB是最著名的蛋白质数据库之一,它提供了大量的蛋白质三维结构的信息。
此外,UniProt 是另一重要的蛋白质数据库,它整合了多个独立的蛋白质数据库,提供了关于蛋白质序列、结构和功能的详细信息。
3. 引用数据库引用数据库存储了生物学家在论文、会议和其他出版物中发表的研究结果。
它们经常被生物信息学家用于构建生物信息学算法的基础,并分析特定领域的研究趋势。
PubMed 和 Web of Science 是引文数据库的代表性例子。
二、生物信息学中的计算工具随着数据量的增加和分析复杂度的提高,生物信息学中出现了大量的计算工具用于帮助生物科学家完成各种分析任务。
这些工具包括序列比对、序列拼接、批量序列处理、统计分析、数据可视化、机器学习等。
常用的生物数据库(一)

常用的生物数据库(一)引言概述:本文将介绍一些常用的生物数据库,这些数据库在生命科学研究中起到了重要的作用。
生物数据库是存储和管理生物学数据的平台,为科学家们提供了丰富的数据资源,便于他们进行进一步的研究和分析。
在本文中,我们将介绍五个常用的生物数据库,分别是A数据库、B数据库、C数据库、D数据库和E数据库。
正文:一、A数据库1. A数据库是一个广泛应用于基因组学研究的生物数据库。
2. A数据库提供了大量的基因序列和蛋白质序列,以及与这些序列相关的注释信息。
3. A数据库还提供了丰富的基因组数据和表达数据,可以帮助研究人员了解基因的功能和调控机制。
4. A数据库还提供了工具和资源,用于基因组比较和功能注释分析。
5. A数据库不仅仅适用于基础研究,也为生物技术和药物开发提供了重要的数据支持。
二、B数据库1. B数据库是一个专门用于蛋白质相关研究的生物数据库。
2. B数据库提供了大量的蛋白质序列和结构信息,以及与这些蛋白质相关的功能和互作信息。
3. B数据库还提供了工具和资源,用于预测蛋白质结构和功能,并对蛋白质相互作用网络进行分析。
4. B数据库不仅仅适用于基础研究,也为药物设计和生物工程提供了重要的数据支持。
5. B数据库的数据来源于多个实验室的研究成果,经过严格的质量控制和标准化处理。
三、C数据库1. C数据库是一个应用于植物研究的生物数据库。
2. C数据库提供了大量的植物基因组数据和表达数据,以及与这些数据相关的注释信息和功能注释分析结果。
3. C数据库还提供了工具和资源,用于植物基因功能分析和代谢途径研究。
4. C数据库不仅仅适用于基础研究,还为农业和生物能源领域的研究提供了重要的数据支持。
5. C数据库的数据来源于多个研究机构和实验室的合作项目,经过严格的数据收集和整理。
四、D数据库1. D数据库是一个广泛应用于微生物研究的生物数据库。
2. D数据库提供了大量的微生物基因组数据和表达数据,以及与这些数据相关的功能注释信息和分类信息。
(完整版)生物信息学教学资料:生物信息学常用数据库

• Access to GenBank • GenBank is available for searching at NCBI via several methods. • The GenBank database is designed to provide and encourage access
http://ratmap.gen.gu.se
生物信息学方法与实践
Bioinformatics Method and Practice
1
生物信息学常用数据库
• 一级数据库
–数据库中的数据直接来源于实验获得的原始数 据,只经过简单的归类整理和注释。
• 二级数据库
–对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础 上针对特定的应用目标而建立的。
prior to publication so that an accession number may appear in the paper. NCBI has a WWW form, called BankIt, for convenient and quick submission of sequence data. Sequin, NCBI's stand-alone submission software for MAC, PC, and UNIX platforms, is also available by FTP. When using Sequin, the output files for direct submission should be sent to GenBank by electronic mail. • There are specialized, streamlined procedures for batch submissions of sequences, such as EST, STS, and HTG sequences.
生物大数据技术在生物信息学研究中的重要数据库介绍

生物大数据技术在生物信息学研究中的重要数据库介绍生物信息学是利用生物学、计算机科学和统计学等多个学科的知识和技术研究生物信息的一门交叉学科。
近年来,随着高通量测序技术和大规模实验方法的发展,大量的生物信息数据积累起来,对于科学家来说,如何有效地管理和分析这些生物信息数据成为一项重要的任务。
生物大数据技术应运而生,成为解决这一问题的重要工具之一。
在生物大数据技术的支持下,科学家们逐渐构建了许多重要的数据库,为生物信息学研究提供了丰富的资源。
本文将介绍一些在生物信息学研究中起重要作用的数据库。
1. 基因组数据库基因组数据库是存储各种生物的基因组序列和相关信息的数据库。
其中,NCBI GenBank和ENSEMBL是两个非常重要的基因组数据库。
NCBI GenBank是一个庞大的公共数据库,存储了全球各种生物的基因组序列和其他关联信息。
ENSEMBL则是一个整合了多个数据库的资源,提供了全面的基因组序列和功能注释信息。
这些基因组数据库不仅为科学家们提供了基因组资源和注释信息,还为进一步的基因功能研究提供了重要的支持。
2. 蛋白质数据库蛋白质数据库是存储蛋白质序列和相关信息的数据库。
UniProt是最为知名和广泛使用的蛋白质数据库之一,它整合了多个已知蛋白质数据库的信息,包含了对蛋白质的功能、结构和相互作用等方面的注释。
此外,PDB是存储蛋白质三维结构信息的重要数据库,为研究蛋白质结构和功能提供了宝贵的资源。
蛋白质数据库的建立和维护为研究人员提供了更准确和全面的蛋白质信息,促进了蛋白质研究的深入开展。
3. 转录组数据库转录组数据库存储了各种生物体在特定条件下的转录组信息,包括基因的表达水平、调控网络和功能注释信息等。
GEO和EBI ArrayExpress是两个重要的转录组数据库。
GEO是一个公共数据库,包含了从全基因组水平到单基因水平的转录组数据,研究人员可以通过GEO访问到大量已发布的转录组数据。
EBI ArrayExpress是一个整合了全球转录组数据的资源,为用户提供了数据访问、分析和比较的功能。
生物信息学中常用的数据类型和数据库类型

生物信息学中常用的数据类型和数据库类型
在生物信息学中,常用的数据类型包括:
1. 基因组序列数据:包括DNA和RNA序列的原始数据,如FASTA格式或FASTQ格式。
2. 转录组数据:包括基因表达谱、剪接变异等,如RNA-seq数据。
3. 蛋白质序列数据:包括蛋白质的氨基酸序列,如UniProt数据库。
4. 基因组结构数据:包括基因位置、外显子、内含子等信息。
5. 遗传变异数据:包括SNP、INDEL、CNV等遗传变异信息。
6. 蛋白质结构数据:包括蛋白质的三维空间结构,如PDB数据库。
在生物信息学中,常用的数据库类型包括:
1. 基因组数据库:如NCBI GenBank、ENSEMBL等,存储基因组序列和注释信息。
2. 转录组数据库:如NCBI SRA、ENA等,存储RNA-seq和其他转录组数据。
3. 蛋白质数据库:如UniProt、Swiss-Prot等,存储蛋白质序列和注释信息。
4. 遗传变异数据库:如dbSNP、ClinVar等,存储遗传变异信息。
5. 蛋白质结构数据库:如PDB、CATH等,存储蛋白质的三维结构信息。
6. 功能注释数据库:如GO数据库、KEGG数据库等,存储基因和蛋白质的功能注释信息。
7. 互作数据库:如STRING数据库、BioGRID数据库等,存储基因和蛋白质之
间的相互作用信息。
生物信息学常用数据库(已分类)

疟原虫属(Plasmodium)基因组 酵母基因组数据库(SGD) /Saccharomyces 酿酒酵母基因组 TIGR微生物数据库 /tdb/mdb/mdbcomplete.html
COMPEL http://compel.bionet.nsc.ru/ 复合调控元件(Composite regulatory elements)
CUTG http://www.kazusa.or.jp/codon/ 遗传密码使用表
DBTBS http://dbtbs.hgc.jp/ 枯草杆菌反式作用因子和启动子
ArkDB /sites.html 农业相关和其他动物的基因组数据库
综合的微生物资源(CMR) /tigr-scripts/CMR2/CMRHomePage.spl 已完成测序的微生物基因组
CropNet / 农作物基因组图谱
CyanoBase http://www.kazusa.or.jp/cyano/
Synechocystis sp.基因组
EMGlib http://pbil.univ-lyon1.fr/emglib/emglib.html 已完成基因组测序的细菌、古细菌、酵母
EcoGene /EcoGene/EcoWeb/ 大肠杆菌(E.coli)K-12的序列
帖子
441
积分
20
金币
339
贡献值 3 点
最后登录 10-5-10
名称 地址 说明
AceDB /Software/Acedb/ 线虫(C.elegans),酵母(S.pombe)的序列和基因组信息
AmmtDB r.it/mitochondriome/ 寄生虫(Metazoan)线粒体DNA序列
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据库
• 文献检索 – HighWire Press
• / • HighWire Press是全球最大的提供免费全文的学术文献 出版商,于1995年由美国斯坦福大学图书馆创立。最 初仅出版著名的周刊“Journal of Biological Chemistry”, 目前已收录电子期刊710多种,文章总数已达230多万 篇,其中超过77万篇文章可免费获得全文;这些数据 仍在不断增加。通过该界面还可以检索Medline收录的 4500种期刊中的1200多万篇文章,可看到文摘题录。 • HighWire Press收录的期刊覆盖以下学科:生命科学、 医学、物理学、社会科学
– Cross-references
数据库
• UCSC Genome Bioinformatics – /
– 快速浏览整个基因组 – 整合了大量的基因组注释数据 – 支持数据库检索和序列比对
数据库
• UCSC Genome Bioinformatics – /
同学们的建议
文献检索 具体介绍 • 分子标记技术以及分析方法 • 与蛋白质结构测定相关的最近进展 • 肿瘤和表观遗传相关,新发现的功能基因 • 以后常用的一些搜索软件和搜索方法,比 如NCBI上的all databases都用于干什么, 怎么用geneID去查找基因序列等
数据库
• NCBI (National Center for Biotechnology Information) – / – Claude Pepper, 1988.11.04 • NCBI职能
数据库
• UCSC Genome Bioinformatics – / – 查看特定序列在基因组上的位置 Zoom out 3x
数据库
• 文献检索 – PubMed (Public + Medicine)
• /pubmed • 免费的检索引擎,提供生物医学方面的论文检索以及 摘要。它的数据库来源为MEDLINE。其核心主题为医 学,但也包括其他与医学相关的领域,像是护理学或 者其他健康学科。它同时也提供对于相关生物医学信 息上相当全面的支持,像是生物化学与细胞生物学。 由美国国立医学图书馆提供,作为 Entrez 检索系统的 一部分。PubMed 并不包括期刊论文的全文,但可能提 供指向全文提供者(付费或免费)的链接。
分子类型 基因组DNA mRNA RNA 蛋白质 格式 NC_###### NM_###### NR_###### NP_######
数据库
• NCBI数据库
– HomoloGene
• 同源基因数据库
数据库
进入:/homologene
键入TARDBP,点Search
实例
GDS4513 结肠癌表达谱芯片数据
– GSE18088 – GSM452148-GSM452200 (53 patients) – GPL570( [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array )
• NCBI数据库
数据库
– 利用数学和计算的方法在分子水平研究基本的生物医学 问题 – 为生物医学研究开发数据库和软件 – 制定数据库、数据存储与交换、命名规则的标准 – 维持与其他研究机构的合作,促进学术交流
• NCBI所有数据库介绍
– /guide/all/#databases_
– 查找基因的所有转录本及序列
数据库
• UniProt ( Universal Protein ) – /
– 信息最丰富、资源最广的蛋白质数据库。它由整合SwissProt、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。他的数 据主要来自于基因组测序项目完成后,后续获得的蛋白 质序列。它包含了大量来自文献的蛋白质的生物功能的 信息。
– GEO (Gene Expression Omnibus )
GDS4513 结肠癌表达谱芯片数据
单击
• NCBI数据库
数据库
– GEO (Gene Expression Omnibus )
GDS4513 结肠癌表达谱芯片数据
• NCBI数据库
数据库
– GEO (Gene Expression Omnibus )
数据库
• ENSEMBL – /index.html
– 查找基因的所有转录本及序列
数据库
• ENSEMBL – /index.html
– 查找基因的所有转录本及序列
数据库
• ENSEMBL – /index.html
数据库
• NCBI (National Center for Biotechnology Information) – /
• NCBI数据库
数据库
– GenBank (/genbank)
• International Nucleotide Sequence Database Collaboration • EMBL, DDBJ
原始芯片数据(CEL 或者 GPR文件) 标准化后的数据(矩阵) 重要的样本注释信息(对照组,实验组及处理的剂量等) 实验设计信息(原始数据与样本的对应关系,生物重复 与技术重复) – 芯片的注释信息(探针的序列,探针对应的基因) – 样品制备和数据处理的方法(标准化的方法) – – – –
Minimum Information About a Microarray Experiment
MIAME
• NCBI数据库
数据类型 Series Samples Platforms DataSets
数据库
– GEO (Gene Expression Omnibus )
编号格式 GSE###### GSM###### GPL###### GDS#### 数据统计 43,265 1,037,453 12,290 3,413
数据库
• 文献检索 – ISI Web of Knowledge
• / • ISI Web of Knowledge是Thomso Scientific公司开发的信 息检索平台,通过这个平台用户可以检索关于自然科 学、社会科学、艺术与人文学科的文献信息,包括国 际期刊、免费开放资源、图书、专利、会议录、网络 资源等,可以同时对多个数据库(包括专业数据库和 多学科综合数据库)进行单库或跨库检索,可以使用 分析工具,可以利用书目信息管理软件。
生物信息学
常用数据库介绍
陈小伟 非编码核酸实验室 中国科学院生物物理研究所 2013.12.04
常用数据库介绍
• 同学们的建议 • 常用数据库
– NCBI – ENSEMBL – UniProt – UCSC Genome Browser
• 文献检索
– PubMed – HighWire Press – ISI Web of Knowledge
谢谢大家!
GDS4513 结肠癌表达谱芯片数据
• NCBI数据库
– SRA (Sequence Read Archive)
数据库
数据库
• ENSEMBL – /index.html
– ENSEMBL是一项生物信息学研究计划,旨在开发一种能够 对真核生物基因组进行自动诠释(automatic annotation)并 加以维护的软件。该计划由英国Sanger研究所Wellcome基 金会及欧洲分子生物学实验室所属分部欧洲生物信息学 研究所共同协作运营。
• 新发现的DNA或者 RNA的序列可以提 交到GenBank • 我们实验室发现的 中等长度的非编码 RNA:HQ292100
• NCBI数据库
– Genome
• 超过1000个物种的基因组 (细菌,古细菌和真核生物) • viruses, phages, viroids, plasmids, and organelles
数据库
• NCBI数据库
– RefSeq (Reference Sequence)
• 经过整理后的没有冗余的基因组DNA,转录本和蛋白质的 序列。 • 将为中心法则中自然存在的分子,从染色体到mRNA到蛋白 提供参考序列标准。 • RefSeq标准为人类基因组的功能注解提供一个基础。它们 为突变分析,基因表达研究,和多态发现提供一个稳定的 参考点
数据库
• UniProt ( Universal Protein ) – /
– ( Universal Protein ) – /
– 查询蛋白质的信息
Q13148
– – – – – – – – Names and origin Protein attributes General annotation (Comments) Ontologies Binary interactions Sequence annotation (Features) Sequences References
数据库
• UCSC Genome Bioinformatics – / – 查看特定序列在基因组上的位置
Tools-->Blat
数据库
• UCSC Genome Bioinformatics – / – 查看特定序列在基因组上的位置
• NCBI数据库
– HomoloGene
• 同源基因数据库
数据库
TARDBP 同源基因
• NCBI数据库
– HomoloGene
• 同源基因数据库
数据库
TARDBP 同源基因
• NCBI数据库
数据库
– GEO (Gene Expression Omnibus )
• 存储基因芯片数据,二代测序数据及其他高通量技术获得 的数据 • 支持MIAME