分子生物学相关数据库

合集下载

分子生物学数据库---计算生物学的摇篮

分子生物学数据库---计算生物学的摇篮

分子生物学数据库——计算生物学的摇篮1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具有的基因数却少于线虫,这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。

人类基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这其中也含有大量的冗余序列。

在获得了如此多的核算信息后,大量的蛋白质信息也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。

针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。

在美国最初提出人类基因组计划时,成立了一个由42位专家组成的生物信息研究小组,专门处理获得的相关信息。

随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。

在此背景下,计算生物学和生物信息学应运而生。

计算生物学和生物信息学都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。

总的来讲,计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题,这些问题常常需要海量的数据,计算和分析。

生物信息学网站网址(全)

生物信息学网站网址(全)

生物信息学网站分子生物学数据库综合目录1. SRS序列查询系统(分子生物学数据库网络浏览器) http://www.embl-heidelberg.ed/srs5/2. 分子生物学数据库及服务器概览/people/pkarp/mimbd/rsmith.html3. BioMedNet图书馆4. DBGET数据库链接http://www.genome.ad.jp/dbget/dbget.links.html5. 哈佛基因组研究数据库与精选服务器6. 约翰. 霍普金斯大学(Johns Hopkins University) OWL网络服器/Dan/proteins/owl.html7. 生物网络服务器索引,USCS /network/science/biology/index.html8. 分子生物学数据库列表(LiMB) gopher:///11/molbio/other9. 病毒学的WWW服务器,UW-Madison /Welcome.html10. UK MRC 人类基组图谱计划研究中心/11. 生物学家和生物化学家的WWW资源http://www.yk.rim.pr.jp/~aisoai/index.html12. 其他生物网络服务器的链接/biolinks.html13. 分子模型服务器与数据库/lap/rsccom/dab/ind006links.html14. EMBO实际结构数据库http://xray.bmc.uu.se/embo/structdb/links.html15. 蛋白质科学家的网络资源/protein/ProSciDocs/WWWResources.html16. ExPASy分子生物学服务器http://expasy.hcuge.ch/cgi-bin/listdoc17. 抗体研究网页18. 生物信息网址http://biochem.kaist.ac.kr/bioinformatics.html19. 乔治.梅森大学(George Mason University)的生物信息学与计算分子生物学专业/~michaels/Bioinformatics/20. INFOBIOGEN数据库目录biogen.fr/services/dbcat/21. 国家生物技术信息研究室/data/data.html22. 人类基因组计划情报/TechResources/Human_Genome23. 生物学软件及数据库档案/Dan/software/biol-links.html24. 蛋白质组研究:功能基因组学的新前沿(著作目录) http://expasy.hcuge.ch/ch2d/LivreTOC.html序列与结构数据库一.主要的公共序列数据库1. EMBL WWW服务器http://www.EMBL-heidelberg.ed/Services/index.html2. Genbank 数据库查询形式(得到Genbank的一个记录) /genbank/query_form.html3. 蛋白质结构数据库WWW服务器(得到一PDB结构) 4. 欧洲生物信息学研究中心(EBI) /5. EBI产业支持/6. SWISS-PROT(蛋白质序列库) http://www.expasy.ch/sprot/sprot-top.html7. 大分子结构数据库/cgi-bin/membersl/shwtoc.pl?J:mms8. Molecules R Us(搜索及观察一蛋白质分子) /modeling/net_services.html9. PIR国际蛋白质序列数据库/Dan/proteins/pir.html10. SCOP(蛋白质的结构分类),MRC /scop/data/scop.l.html11. 洛斯阿拉莫斯的HIV分子免疫数据库/immuno/index.html12. TIGR数据库/tdb/tdb.html13. NCBI WWW Entrez浏览器/Entrez/index.html14. 剑桥结构数据库(小分子有机的及有机金属的结晶结构) 15. 基因本体论坛/GO/二. 专业数据库1. ANU生物信息学超媒体服务(病毒数据库、分类及病毒的命名法) .au/2. O-GL YCBASE(O联糖基化蛋白质的修订数据库) http://www.cbs.dtu.dk/OGLYCBASE/cbsoglycbase.html3. 基因组序列数据序(GSDB)(已注释的DNA序列的关系数据序) 4. EBI蛋白质拓扑图/tops/Serverintermed.html5. 酶及新陈代谢途径数据库(EMP) /6. 大肠杆菌数据库收集(ECDC)(大肠杆菌K12的DNA序列汇编) http://susi.bio.uni-giessen.de/ecdc.html7. EcoCyc(大肠杆菌基因及其新陈代谢的百科全书) /ecocyc/ecocyc.html8. Eddy实验室的snoRNA数据库/snoRNAdb/9. GenproEc(大肠杆菌基因及蛋白质) /html/ecoli.html10. NRSub(枯草芽胞杆菌的非冗余数据库) http://pbil.univ-lyonl.fr/nrsub/nrsub.html11. YPD(酿酒酵母蛋白质) /YPDhome.html12. 酵母基因组数据库/Saccharomyces/13. LISTA、LISTA-HOP及LISTA-HON(酵母同源数据库汇编) /14. MPDB(分子探针数据库) http://www.biotech.est.unige.it/interlab/mpdb.html15. tRNA序列及tRNA基因序列汇编http://www.uni-bayreuth.de/departments/biochemie/trna/index/html16. 贝勒医学院(Baylor College of Medicine)的小RNA数据库/dbs/SRPDB/SRPDB.html17. SRPDB(信号识别粒子数据库) /dbs/SRPDB/SRPDB.html18. RDP(核糖体数据库计划) /19. 小核糖体亚蛋白RNA结构http://rrna.uia.ac.be/ssu/index.html20. 大核糖体亚蛋白RNA结构http://rrna.uia.ac.be/lsu/index.html21. RNA修饰数据库/RNAmods/22. 16SMDB及23SMDB(16S和23S核糖体RNA突变数据库)/Departments/Biology/Databases/RNA.html23. SWISS-2DPAGE(二维凝胶电泳数据库) http://expasy.hcuge.ch/ch2d/ch2d-top.html24. PRINTS /bsm/dbbrowser/PRINTS/PRINTS.html25. KabatMan(抗体结构及序列信息数据库) /abs26. ALIGN(蛋白质序列比对一览) /bsm/dbbrowser/ALIGN/ALIGN.html27. CATH(蛋白质结构分类系统) /bsm/cath28. ProDom(蛋白质域数据库) http://protein.toulouse.inra.fr/29. Blocks数据库(蛋白质分类系统) /30. HSSP(按同源性导出的蛋白质二级结构数据库) http://www.sander.embl-heidelberg.de/hssp/31. FSSP(基于结构比对的蛋白质折叠分类) /dali/fssp/fssp.html32. SBASE蛋白质域(已注释的蛋白质序列片断) http://www.icgeb.trieste.it/~sbasessrv/33. TransTerm(翻译控制信号数据库) /Transterm.html34. GRBase(参与基因调控的蛋白质的相关信息数据库) /~regulate/trevgrb.html35. REBASE(限制性内切酶和甲基化酶数据库) /rebase/36. RNaseP数据库/RNaseP/home.html37. REGULONDB(大肠杆菌转录调控数据库) http://www.cifn.unam.mx/Computational_Biology/regulondb/38. TRANSFAC(转录因子及其DNA结合位点数据库) http://transfac.gbf.de/39. MHCPEP(MHC结合肽数据库) .au/mhcpep/40. ATCC(美国菌种保藏中心) /41. 高度保守的核蛋白序列的组蛋白序列数据库/Baxevani/HISTONES42. 3Dee(蛋白质结构域定义数据库) /servers/3Dee.html43. InterPro(蛋白质域以及功能位点的完整资源) /interpro/序列相似性搜索1. EBI序列相似性研究网页/searches/searches.html2. NCBI: BLAST注释/BLAST3. EMBL的BLITZ ULTRA快速搜索/searches/blitz_input.html4. EMBL WWW服务器http://www.embl-heidelberg.de/Services/index.html#55. 蛋白质或核苷酸的模式浏览/compbio/PatScan/HTML/patscan.html6. MEME(蛋白质超二级结构模体发现与研究) /meme/website7. CoreSearch(DNA序列保守元件的识别) http://www.gsf.de/biodv/coresearch.html8. PRINTS/PROSIT浏览(搜索motif数据库) /cgi-bin/attwood/SearchprintsForm.pl9. 苏黎世ETH服务器的DARWIN系统http://cbrg.inf.ethz.ch/10. 利用动态规划找出序列相似性的Pima IIhttp://bmerc-www.bu.ede/protein-seq/pimaII-new.html11. 利用与模式库进行哈希码(hashcode)比较找到序列相似性的DashPat /protein-seq/dashPat-new.html12. PROPSEARCH(基于氨基酸组成的搜索) http://www.embl-heidelberg.de/aaa.html13. 序列搜索协议(集成模式搜索) /bsm/dbbrowser/protocol.html14. ProtoMap(SEISS-PROT中所有蛋白质的自动层次分类) http://www.protomap.cs.huji.ac.il/15. GenQuest(利用Fasta、Blast、Smith-Waterman方法在任意数据库中搜索) http://www.gdb.rog/Dan/gq/gq.form.html16. SSearch(对特定数据库的搜索) http://watson.genes.nig.ac.jp/homology/ssearch-e_help.html17. Peer Bork搜索列表(motif/模式序列谱搜索) http://www.embl-heidelberg.de/~bork/pattern.html18. PROSITE数据库搜索(搜索序列的功能位点) /searches/prosite.html19. PROWL(Skirball研究中心的蛋白质信息检索) /index.html序列和结构的两两比对1. 蛋白质两两比对(SIM) http://expasy.hcuge.ch/sprot/sim-prot.html2. LALNVIEW比对可视化观察程序ftp://expasy.hcuge.ch/pub/lalnview3. BCM搜索装置(两两序列比对) /seq-search/alignment.html4. DALI蛋白质三维结构比较/dali/5. DIALIGN(无间隙罚分的比对程序) http://www.gsf.de/biodv/dialign/html多重序列比对及系统进行树1. ClustalW(BCM的多重序列比对) /multi-align/multi-align.html2. PHYLIP(推测系统进行树的程序) /phylip.html3. 其它系统进行树程序,PHYLIP文档的汇编http://expasy.hcuge.ch/info/phylogeny.html4. 系统进行树分析程序(生命树列表) /tree/programs/programs.html5. 遗传分类学软件(Willi hennig协会提供的列表) /education.html6. 用于多重序列比对的BCM搜索装置/multi-align/multi-align.html7. AMAS(分析多重序列比对中的序列) /servers/amas_server.html8. 维也纳RNA二级结构软件包http://www.tbi.univie.ac.at/~ivo/RNA/四. 有代表性的预测服务器1. PHD蛋白质预测服务器,用于二级结构、水溶性以及跨膜片断的预测http://www.embl-heidelberg.de/predictprotein/predictprotein.html2. PhdThreader(利用逆折叠方法预测、识别折叠类) http://www.embl-heidelberg.de/predictprotein/phd_help.html3. PSIpred(蛋白质结构预测服务器) /psipred4. THREADER(戴维. 琼斯) /~jones/threader.html5. TMHMM(跨膜螺旋蛋白的预测) http://www.cbs.dtu.dk/services/TMHMM/6. 蛋白质结构分析,BMERC /protein-seq/protein-struct.html7. 蛋白质域和折叠预测的提交表http://genome.dkfz-heidelberg.de/nnga/def-query.html8. NNSSP(利用最近相邻法预测蛋白质的二级结构) /pss/pss.html9. Swiss-Model(基于知识的蛋白质自动同源建模服务器) http://www.expasy.ch/swissmod/SWISS-MODEL.html10. SSPRED(用多重序列比对进行二级结构预测) /jong/predict/sspred.html11. 法国IBCP的SOPM(自寻优化预测方法、二级结构) http://pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopm.html12. TMAP(蛋白质跨膜片断的预测服务) http://www.embl-heidelberg.de/tmap/tmap_info.html13. TMpred(跨膜区域和方向的预测) /software/TMPRED_form.html14. MultPredict(多重序列比对的序列的二级结构) /zpred.html15. BCM搜索装置(蛋白质二级结构预测) /seq-search/struc-predict.html16. COILS(蛋白质的卷曲螺旋区域预测) /software/coils/COILS_doc.html17. Coiled Coils(卷曲螺旋) /depts/biol/units/coils/coilcoil.html18. Paircoil(氨基酸序列中的卷曲螺旋定位) /bab/webcoil.html19. PREDATOR(由单序列预测蛋白质二级结构) http://www.embl-heidelberg.de/argos/predator/predator_info.html20. EV A(蛋白质结构预测服务器的自动评估) /eva/五. 其他预测服务器1. SignalP (革兰氏阳性菌、革兰氏阴性菌和真核生物蛋白质的信号肽及剪切位点) http://www.cbs.dtu.dk/services/SignalP/2. PEDANT(蛋白质提取、描述及分析工具) http://pedant.mips.biochem.mpg.de/六. 分子生物学软件链接1. 生物信息学可视化工具/alan/VisSupp/2. EBI分子生物学软件档案/software/software.html3. BioCatalog /biocat/e-mail_Server_ANAL YSIS.html4. 生物学软件和数据库档案/Dan/softsearch/biol-links.html5. UC Santa Cruz的序列保守性HMM的SAM软件/research/compbio/sam.html七. 网上博士课程1. 生物计算课程资源列表:课程大纲http://www.techfak.uni-bielefeld.de/bcd/Curric/syllabi.html2. 生物序列分析和蛋白质建模的Ph.D课程http://www.cbs.dtu.dk/phdcourse/programme.html3. 分子科学虚拟学校/vsms/sbdd/4. EMBnet 生物计算指南http://biobase.dk/Embnetut/Universl/embnettu.html5. 蛋白质结构的合作课程/PPS/index.html6. 自然科学GNA虚拟学校http://www.techfak.uni-bielefeld.de/bcd/Vsns/index.html7. 分子生物学算法/education/courses/590bi。

生物信息学数据库

生物信息学数据库
欧洲生物信息学研究所计算基因组研究组/research/CGG/index.html
欧洲生物信息学研究所完整基因组数据库/genomes/
欧洲生物信息学研究所序列数据库研究组/seqdb/index.html
加拿大生物信息学资源http://cbr-rbc.nrc-cnrc.gc.ca/index_e.php
这是加拿大生物信息学资源(CBR)的网站。该网站由加拿大国家研究委员会(NRC)创建,旨在为国家研究委员会与其它**、学术部门的科学家提供广泛使用的生物信息学工具和共享数据。加拿大生物信息学资源部分由一个专门使用该资源的委员会管理,而且其资源在用于教育和非盈利研究时只需注册均可免费作用。网站还提供有关新闻、服务与下载等信息。
法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可
检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件
,是更灵敏的同源搜索软件。例如线虫的CED4是apoptosis 的调控蛋白,含有涉
及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜
相似的功能。另有,按PHI- BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型
拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90
型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA
引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得
,稍有变化。expect简称E-value ,已经考虑了数据库的因素。其意义是:当用
咨询序列搜索一个数据库(如非冗余的SwissProt ,现有77419 条序列,共27864727

06第六章 常用生物信息学数据库简介

06第六章 常用生物信息学数据库简介

英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列 数据库,于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权 威生物学刊物都要求作者在文章发表之前将所测定的 序列提交给EMBL、GenBank或DDBJ,得到数据库管 理系统所签发的登录注册号。 二是从生物医学期刊上收录已经发表的序列资料。

分子生物学数据库

分子生物学数据库

• 三个数据库中的数据基本一致,仅在数据格 式上有所差别,对于特定的查询,三个数据库 的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据 库,每条记录代表一个单独、连续、附有注释 的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交 从生物医学杂志收录已发表的序列资 料
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的

(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
(4)WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作(基于3W服务器)
(1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。
如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包 含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返回相应的链接

分子生物学相关数据库

分子生物学相关数据库

分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。

因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。

EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。

EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。

核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。

分子生物学数据库

分子生物学数据库

/misc/formdrugs.htm/ 美国食品药物管理局(Food and Drug Administration,FDA)
中国医药信息网 国家药品监督管理局 中国中医药信息网 国家中医药管理局中医药文献检索中心

1、序列查询
◦ 可进行序列查询,用特定的登录号或者序列名称直接查 询

2、核酸同源性搜索
◦ fastA格式:EMBL和GenBank中的主要内容与格式

UCSC
◦ 约一半的注释信息来自公开的序列数据计算得出,另一半 来自世界各地的科学工作者
◦ /
对设计的引物的效能进行简单的 评估
吕军英 7.24

核酸、基因组数据库 药物相关数据库资源 SNP或体细胞突变、疾病相关基因 二代测序相关的数据处理工具




网上获取医学文献全文的途径
其他可能会用到的数据库或软件


国际上权威的核酸数据库
(1)欧洲分子生物学实验室的EMBL /embl/ (2)美国生物技术信息中心的GenBank /genbank/ (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/

/forums/showthread. php?t=43

访问免费电子期刊网站
http://www.health.library.mcgill.ca/ejournal/ fulltext.htm/ /lists/freeart.dt

基因组数据库
(4)UCSC Genome Browser / (5)人类基因组数据库Ensembl /index.html

GenBank、EMBL、DDBJ建立了相互交换数据的合作关系。 GenBank可通过Entrez数据库查询进行查询,这个系统 将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合 在一起。

分子生物学中常用数据库

分子生物学中常用数据库

分子生物学中常用数据库综合数据库:来源:/news/science/article/90048.html生物信息学网址链接:http://www.bioinformatics.ca/links_directory/Nucleic Acid Research Database Issue:/content/vol32/suppl_2/一、蛋白相关数据库蛋白质结构域预测工具Esignal:/esignal/信号传导系统蛋白的结构域预测工具,凡是涉及到信号传导系统的蛋白用这个预测效果最佳SignalP:http://www.cbs.dtu.dk/services/SignalP/信号肽预测工具,适合定位于非胞质位置的蛋白质Emotif:/emotif-search/结构域预测工具,由于其用motif电子学习的方法产生结构域模型,故预测效果比Prosite好Ematrix:/ematrix/是用Matrix的方法创建的结构域数据库,可与emotif互相印证。

其速度快,可快速搜索整个基因组InterPro:/InterProScan/EBI提供的服务,用图形的形式表示出搜索的结构域结果TRRD:http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/转录因子结构域预测的最好数据库。

但不会用Protscale:/cgi-bin/protscale.pl可分析该序列的各种性状如活动度、亲水性(Kyte&Doolittle)、抗原性(Hopp&Woods)等通过寻找MOTIF和Domain来分析蛋白质的功能A. MOTIF是蛋白中较小的保守序列片断,其概念比Domain小PROSITE:/tools/scanprosite/是专门搜索蛋白质Motif的数据库,其中signature seqs是最重要的motif信息B. Domain:若干motif可形成一个Domain,每个Domain形成一个球形结构,Domain与Domain之间通常像串珠一样相连Pfam:可以搜索某段序列中的Domain,并以图形化表示出来。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。

因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。

EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。

EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。

核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。

GenBank 每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录单位(transcription units)、突变或修饰位点(sites of mutationsormodifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。

参考文献还给出其在MEDLINE上的特定标识号。

EMBL-EBI欧洲分子生物学实验室(EuropeanMolecularBiology Laboratory)于1974年由欧洲14个国家加上亚洲的以色列共同发起建立,包括一个位于德国Heidelberg的核心实验室,及三个位于德国Hamburg,法国Grenoble 及英国Hinxton的研究分部,是欧洲最重要和最核心的分子生物学基础研究和教育培训机构。

.EMBL-DNA数据库于1982年由EMBL建立,为欧洲最主要的核酸序列数据库,与美国的GenBank 及日本的DDBJ共同组成全球性的国际DNA数据库。

EBI即现在的欧洲生物信息研究所,是EMBL在英国Hinxton的分部,主要负责建立EMBL-DNA数据库,可进行核苷酸序列检索及序列相似性查询。

目前此数据库由其分支机构—EBI(the European Bioinformatics Institute,欧洲生物情报研究所)维护。

DDBJ日本DNA数据库DDBJ(DNA Data Bank of Japan),于1984年建立,是世界三大DNA数据库之一,与NCBI的GenBank,EBI的EMBL数据库共同组成国际DNA数据库,每日交换更新数据和信息,并主持两个国际年会-国际DNA数据库咨询会议和国际DNA数据库协作会议。

DDBJ 主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列,数据库通过WWW环球网,匿名FTP,e-mail或Gopher方式为广大研研究人员服务。

蛋白数据库:ExPASyExPASy 是由位于瑞士日内瓦的 Swiss Institute of Bioinformatics 所建立,为全世界最重要的蛋白质资料库之一,也是GCG 最主要的蛋白质资料来源。

主要内容包括蛋白质序列,构造及2-D PAGE (Two -dimentional polyacrylamide gel electrophoresis ) 的多个重要资料库,以及蛋白质序列和构造工具,FTP Server 和相关讯息。

有许多用于分析上所需的工具,包括蛋白质功能预测、序列搜寻及比对,二级,三级和四级结构的预测等等。

ExPASy Proteomics tools包括Protein identification tools ,Protein characterization tool s,以及Sequence analysis tools三大部分,具体有:✓Aldente:利用肽指纹图谱来辨别蛋白质。

✓Rasmol:观看生物分子3D微观立体结构的软件,可以旋转,以多个模式观看,并可以存成普通图形文件。

✓MolMol:将PDB等格式的蛋白质文件通过微调,存成普通的图形文件。

✓CLUSTALW:用来对蛋白质序列进行多序列比较的工具。

多序列比较在分子生物学中是一个及基本方法,用来发现序列特征,进行蛋白质分类,证明序列见得同源性,帮助预测序列二级结构与三级结构,确定PCR引物,以及分子进化分析。

✓Fasta3:在internent上有许多的在线FASTA 查找服务,查找某数据库中的同源序列,也可下载后离线使用。

✓BLAST:在数据库中查找某一序列的类似序列,目前在internet上有许多的在线查找BLAST程序。

专门用于查找各大数据库中与用户提交序列类似的序列,分别为blastp,blastn,blastx,tblastn,tb lastn.✓VMD: 用来显示生物分子的微观立体结构,可以利用内建的功能,做出动画效果。

✓Swiss-PdbViewer:是一个界面友好的应用程序,使用方便,可以同时分析几个蛋白质的PDB文件,可以将几个蛋白质叠加起来用来分析结构类似性,比较活性位点或其他有关位点,通过菜单操作与直观的图形,可以很容易获得氢键,角度,原子距离,氨基酸突变等数据。

✓Astex Viewer:三维分子显示控件,用来在网页中以及office各个软件的文件中,VB,VC应用程序中显示三维分子,支持许多标准的三维分子格式。

✓PHYLIP:进行进化树分析,可以分析DNA与蛋白质序列,限制位点等,可以绘制进化树,程序含有多种选项可以精确控制与分析。

✓TREE PUZZLE:核酸序列,蛋白质序列相似性分析以及进化树构建工具,根据序列数据的最大相似性来构建进化树,可对大量数据进行快速分析构建,程序还包含多个统计测试。

✓FindMod:预测潜在的蛋白质翻译后修饰和蛋白质中潜在的单氨基酸替换.✓FindPept:综合分子量的信息、化学修饰,翻译后修饰等其他信息共同来鉴定蛋白✓GlycoMod:预测可能的oligosaccharide结构.✓SWISS-MODEL:一个自动的蛋白质建模服务,如果一个3维结构未知的蛋白质的序列和已知三维结构的蛋白质的序列有很近的相似关系,那么就可以使用这个工具来构建这个蛋白的3维模型.✓ProtParam:计算一个蛋白质序列的理化参数例如氨基酸残基位置,等电点,原子位置等✓ScanProsite:输入序列或SWISS-PROT 编号即可,能够得到超过50 种待测蛋白的特征。

可沿序列计算每个残基位点的移动平均疏水性,并给出疏水性-序列曲线。

PDB/RCSB (Protein Database)Protein Data Bank (PDB)是美国RCSB (Reserach Collaborotory for Structural Bioinformatics;由Rutger大学、位于UCSD之San Diego Supercomputer Center及National Institute of Standards and Technology所组成)所维持的蛋白质数据库,收集了包括以x-ray diffraction及NMR取得之生物大分子3D结构信息。

在2002年9月,它包含有16823种蛋白,761种蛋白核酸complex,1089种核酸及18种碳水化合物的3D结构 (图二)。

PIR亦自PDB选取部分结构成立NRL-3D数据库,使用ATLAS这种multi-database information retrieval program进行搜寻大分子序列数据。

PDB除了有自行开发之软件外,亦可连接至主要之crystallograph, NMR, modeling and simulation软件/网站。

SWISS-PROTSWISS-PROT 数据库是最齐全的注释精炼的蛋白序列库,建立于1986年,1987年起由日内瓦大学(University of Geneva)医学生物化学系和EMBL 数据馆(即现在的欧洲生物信息研究所EBI)共同维护。

是欧洲最主要的蛋白序列数据库,世界两大蛋白序列数据库之一。

SWISS-PROT由EMBL核苷酸序列库翻译而来,附件TrEMBL数据库含有126,995条蛋白质序列,包括34,178,645个氨基酸残基。

每条蛋白质序列条目按照各种数据行的格式书写排列。

PIRPIR(Protein Identification Resource)为PIR-International 这个大分子序列资料收集中心所维持的蛋白质序列鉴定数据库。

由美国国家生物医学研究基金会(National Biomedical Research Foundation)维护。

是美国最主要的蛋白序列数据库,为世界两大蛋白序列数据库之一。

此中心包括National Biomedical Research Foundation (NBRF) 的Protein Information Resource (PIR),日本的Japan International Protein Information Database及Martinscried Institute for Protein Sequence (MIPS)。

搜寻之程序可自NBRF-PIR数据库网页取得。

相关文档
最新文档