生物分子数据库

合集下载

数据搜索时有用的生物大分子数据库扫描

数据搜索时有用的生物大分子数据库扫描

生物大分子数据库扫描根据“Nucleic Acids Research”最新(指2007年)公布的数据,目前已有968个有关生物大分子数据库(参见文献Galperin M Y, The Molecular Biology Database Collection, 2007, 35: D3)。

有兴趣的读者可以参阅网站“/nar/database/a”。

我们这里将主要类型的数据库列于表4-2。

面这段是一个完整的SwissProt条目,现解释如下:ID 104K_THEPA STANDARD; PRT; 924 AA.AC P15711;DT 01-APR-1990 (Rel. 14, Created)DT 01-APR-1990 (Rel. 14, Last sequence update)DT 01-AUG-1992 (Rel. 23, Last annotation update)DE 104 kDa microneme-rhoptry antigen.OS Theileria parva.OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;OC Theileria.OX NCBI_TaxID=5875;RN [1]RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,RA Musoke A.J.;RT "Characterisation of the gene encoding a 104-kilodalton microneme-RT rhoptry protein of Theileria parva.";RL Mol. Biochem. Parasitol. 39:47-60(1990).CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.CC -------------------------------------------------------------------------- CC This Swiss-Prot entry is copyright. It is produced through a collaboration uniprot_sprot.datCC the European Bioinformatics Institute. There are no restrictions on its CC use as long as its content is in no way modified and this statement is not CC removed.CC -------------------------------------------------------------------------- DR EMBL; M29954; AAA18217.1; -.DR PIR; A44945; A44945.KW Antigen; Repeat; Sporozoite.FT DOMAIN 1 19 Hydrophobic.FT DOMAIN 905 924 Hydrophobic.SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64;MKFLILLFNI LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYLQVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSGDAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRNGHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDKYVPISQKNYE TGIVKLKDYK HAYHPVDLDI KDIDYTMFHL ADATYHEPCF KIIPNTGFCITKLFDGDQVL YESFNPLIHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEATTHPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGSEVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFTQEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDSSKEGKKPGSG KKPGPAREHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK SPRTASPTRRPSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYDDYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPKDPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPRSPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDPGRM AKDASGKPVK LKRSKSFDDLTTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKPKKPDSAYIPS ILAILVVSLI VGIL//ID 是指其身份号,924 AA是指有该序列有924个氨基酸残基AC 获取号;DT 序列测得的时间DE 对该序列必要的信息的说明,如该分子的分子量为104 kDa .OS 来源OX NCBI分类身份号RN [1]RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX 有关Medline的出版号RA 作者RT 引用文献题目RL 杂志名称,出版日期,卷期页CC 有关它的功能描述及其它相关信息方面的描述DR EMBL数据库中的获取号DR PIR数据库中的获取号KW 关键词FT 功能区的描述SQ 有关序列方面的信息,这部分是最主要的,因为该蛋白质的序列就列在下面。

第三章生物信息数据库

第三章生物信息数据库

部分生物基因组计划网址


老鼠(Mouse) /mgd.html 小鼠(Rat) http://ratmap.gen.gu.se 狗(Dog) /dog.html 牛(Cow) http://locus.jouy.inra.fr/cgibin/bovmap/intro2.pl 猪(Pig) /pigmap/pigbase/pigbase.html 羊(Sheep) 鸡(Chicken) /chickmap/chickbase/manager.html 斑马鱼(Zebra fish) 线虫 (C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.ht ml 果蝇(Drosophila) 蚊子(Mosquito) 拟南芥(Arabidopsis) /Arabidopsis 棉花(Cotton) 玉米(Maize) 水稻(Rice) http://www.staff.or.jp 大豆(Soya) :8000/main.html 树(Trees)


2、蛋白质序列数据库
SWISS-PROT (欧洲) PIR (美国)
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 由瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究 所(EBI)合作维护; 在EMBL和GenBank数据库上均建立了镜像站点;

SWISSPROT

到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等
PIR (Protein Information Resource)

生物数据库介绍

生物数据库介绍

GenPept Sequence Records (which contain the amino acid translations from GenBank/EMBL/DDBJ records that have a coding region feature annotated on them)
各种登录号(索引号)的类型(续) Type of Record Protein Sequence Records from PRF RefSeq Nucleotide Sequence Records Sample Accession Format A series of digits (often six or seven) followed by a letter, e.g.:1901178A Two letters, an underscore bar, and six digits, e.g.: mRNA records (NM_*):NM_000492 genomic DNA contigs (NT_*):NT_000347 complete genome or chromosome (NC_*):NT_000907 genomic region (NG_*):NG000019 Two letters (NP), an underscore bar, and six digits, e.g.:NP_000483
生物信息学数据库的分类:
生物信息学数据库
一级数据库
二级数据库
一级数据库
直接来源于实验获得的原始数据(DNA序
列、蛋白质序列、蛋白质结构等),只经 过简单的归类、整理和注释。
一级核酸数据库(3):GenBank数据库、EMBL数
据库、DDBJ数据库 一级蛋白质序列数据库(2):SWISS-PROT库、PIR 蛋白信息数据库 一级蛋白质结构数据库(1):PDB数据库

06第六章 常用生物信息学数据库简介

06第六章 常用生物信息学数据库简介

英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列 数据库,于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权 威生物学刊物都要求作者在文章发表之前将所测定的 序列提交给EMBL、GenBank或DDBJ,得到数据库管 理系统所签发的登录注册号。 二是从生物医学期刊上收录已经发表的序列资料。

分子生物学数据库

分子生物学数据库

• 三个数据库中的数据基本一致,仅在数据格 式上有所差别,对于特定的查询,三个数据库 的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据 库,每条记录代表一个单独、连续、附有注释 的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交 从生物医学杂志收录已发表的序列资 料
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的

(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
(4)WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作(基于3W服务器)
(1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。
如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包 含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返回相应的链接

分子生物学相关数据库

分子生物学相关数据库

分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。

因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。

EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。

EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。

核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。

生命科学中最常用的5个数据库介绍

生命科学中最常用的5个数据库介绍

生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象的各种研究。

对于生命科学的研究,特别是在分子水平上进行的研究,需要大量的数据支持。

这些数据包括分子序列、蛋白质结构、代谢途径等等。

为了有效地管理这些数据,生命科学中广泛应用了各种数据库。

本文将介绍生命科学中最常用的5个数据库。

1. GenBankGenBank是全球最大的分子生物学数据库,包含了全球各地实验室提交的DNA和RNA序列。

它由美国国家生物技术信息中心(NCBI)维护。

GenBank包含了数十亿条序列记录,其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。

与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。

GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。

2. PubMedPubMed是美国国家医学图书馆(NLM)维护的一个生命科学文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。

PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话题时更加方便。

除了搜索全文的功能,PubMed还提供了很多额外的服务,如翻译摘要、相关文章推荐、绘制图表等。

3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台,专门用于处理各种生命科学的数据。

Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。

Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。

4. Protein Data Bank (PDB)蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。

PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析,包括了大多数已知的蛋白质家族和酶。

NCBI分子生物学数据库应用简介

NCBI分子生物学数据库应用简介

Nucleotide 包含: • 所有的核苷酸及蛋白质序列 • 与之相关的生物学信息 • 参考文献
二 . Genome
即基因组数据库,提供 了多种基因组、完全染色体、 临近序列图谱以及一体化基 因物理图谱。
三. Structures
即结构数据库或称分子模型 数 据 库 〔MMDB〕 , 包 含 来 自 X 线晶体学和三维结构的实验数据。 MMDB 的 数 据 从 PDB〔Protein Data Bank〕获得。
3. 向GenBank递交数据
GenBank数据的一个主要来源是通过 作者直接递交;目前许多期刊也希望刊 登的 文章中的DNA或氨基酸序列能在发 表前输入数据库。
NCBI为此设计了方便、快捷的数 据递交软 件:
BankIt: 直接通过WWW进行简便、快 捷的递交。
Sequin:
可供MAC、PC\Windows、UNIX 用户使用的递交软件,可输入有关 数据的详细资料。
四. Taxonomy
即生物学门类数据库,可 以按生物学门类进行检索或浏 览其核苷酸序列、蛋白质序列、 结构等。
五. PopSet
包含研究一个人群、一个种 系发生或描述人群变化的一组组 联合序列。PopSet既包含核酸序 列数据又包含蛋白质序列数据。
六. OMIM
孟德尔遗传学(OMIM)数据库是人类 基因和基因疾病的目录数据库。该数据 库包括原文信息、图片和参考信息,同 时还可以链接到Entrez系统MEDLINE数 据库中相关文献和序列信息。
…………..
2. BLAST相似性检索系统
BLAST 〔Basic Local Alignment Search Tool〕
是用于序列相似性检索的一个重要数 据库,是区分基因和基因特征的工具。 该软件能在15秒内完成整个DNA数据库 的序列检索。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


LOCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995 DEFINITION Rat mRNA for obese. ACCESSION D49653 KEYWORDS . SOURCE Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiated adipose cDNA to mRNA. ORGANISM Rattus norvegicus Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus. REFERENCE 1 (bases 1 to 539) AUTHORS Murakami,T. and Shima,K. TITLE Cloning of rat obese cDNA and its expression in obese rats JOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995) STANDARD full automatic COMMENT Submitted (10-Mar-1995) to DDBJ by: Takashi Murakami Department of Laboratory Medicine School of Medicine University of Tokushima Kuramotocho 3-chome Tokushima 770 Japan Phone: +81-886-33-7184 Fax: +81-886-31-9495.
“国际DNA序列数据库合作计划”
• 数据库的记录采用共同的格式(FASTA、FlatFile)
• 每个数据库只负责更新提交到该数据库的数据
核酸序列数据的增长趋势 (纵轴代表总的核酸序列长度,单位:百万bp)
• 三个数据库中的数据基本一致,仅在数据格
式上有所差别。
• 三个数据库是综合性的DNA和RNA序
NCBI gi: 995614 FEATURES Location/Qualifiers source 1..539 /organism="Rattus norvegicus" /strain="OLETF, LETO and Zucker" /dev_stage="differentiated" /sequenced_mol="cDNA to mRNA" /tissue_type="adipose" CDS 30..533 /partial /note="NCBI gi: 995615" /codon_start=1 /product="obese"
/translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLE NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQ LDLSPEC"
啮齿类动物
其它哺乳动物 其它脊椎动物 无脊椎动物
PLN
BCT RNA
Plant, fungal, algal
Bacterial Structural RNA
植物、真菌、藻类
细菌 结构RNA
VRL
PHG SYN UNA
Viral
Bacteriophage Synthetic Unannotated
病毒
核酸数据库 蛋白序列数据库 特殊功能的蛋白质 三维结构原子坐标
TransFac、EPD、Vector、CUTG Prosite、Prints、Pfam、Blocks
Kabat、PKinase DSSP、FSSP、HSSP
北大生物信息中心构建Loops
第二节 核酸序列数据库
国际上权威的核酸序列数据库
GenBank数据库
GenBank汇集并注释了所有公开的核酸序列。 每个记录代表了一个单独的、连续的、带有注释 的DNA或RNA片段。 目前,GenBank中的记录均来自于最初作者向 DNA序列数据库的直接提交,这些作者将序列数 据作为论文的一部分来发表,或将数据直接公开。
>100,000 species are represented in GenBank all species viruses bacteria Archaea(古生物) 128,941 6,137 31,262 2,100
细菌噬菌体 合成产物 未注明来源
EST
PAT STS GSS
Expressed Sequence Tags
Patent Sequence Tagged Sites Genome Survey Sequences
表达序列标记
专利 序列标记位点 基因组概览序列
HTG
High Throughput Genomic Sequences
AUTHORS(RA)
TITLE (RT) JOURNAL(RL) MEDLINE REMARK COMMENT(OC) FEATURES(FH) BASE COUNT ORIGIN // (//)
相关文献作者,或递交序列的作者
相关文献题目 相关文献刊物杂志名,或递交序列的作者单位 相关文献 Medline引文代码 相关文献注释 关于序列的注释信息 序列特征表起始 碱基种类统计数 序列 序列结束标志
高通量基因组序列
序列文件格式--FASTA
(1)序列标题以“>”开头,下一行为具体的序 列
(2)核苷酸符号大小写均可,氨基酸一般大写 (3)一般每行的字符数不超过80个 (4)没有特殊的序列结束标志
(5)多条序列格式即将该格式连续列出
>gi|995614|dbj|D49653|RATOBESE Rat mRNA for obese.
CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCC TGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGAT GACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGC AGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCC CATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACC AGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACC TCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAG AAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTG GCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCC CTGAATGCTGAGGTTTC
多条序列的联配
>seq1 CAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGT GCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCC TATCCACAAAGTCCAGGATGACACC >seq2 AAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACAC ACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATT CCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTG GCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAA >seq3 ACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCC ATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCC TGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTAC TCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTC
GenBank的子库
• 按照种属来源,如哺乳类、病毒等
• 根据序列来源,如专利序列、人工合成序列等
GenBank的17个子数据库名称和含义
代码 PRI 英文含义 Primate 中文含义 灵长类动物
ROD
MAM VRT INV
Rodent
Other mammalian Other vertebrate Invertebrate
(1)美国生物技术信息中心的GenBank
/genbank/
(2)欧洲分子生物学实验室的EMBL
http://www.embl-heidelberg.de
(3)日本遗传研究所的DDBJ
http://www.ddbj.nig.ac.jp/
1988年
以上这个FASTA文件中包含了gi号码、GenBank检索号码、 LOCUS名称、以及GenBank记录中的DEFINATION字段。
最简单的FASTA序列形式
>D49653
相关文档
最新文档