生物信息学 生物信息数据库及其信息检索

合集下载

生物信息学 第三章 生物信息数据库及其信息检索 ppt课件

生物信息学 第三章 生物信息数据库及其信息检索 ppt课件
因组数据。
核酸序列数据库 GenBank( ) EMBL( ) DDBJ ( ) 三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋白
序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG C.基因可变剪接数据库ASDB D.转录因子数据库TRANSFAC
生物信息学数 据库类型
序列数据库 结构数据库 功能数据库 其ws、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物 学实验中测序获得的核酸和蛋白质序列。
生物信息学 第三章 生物信息数据库 及其信息检索
第三章 生物信息数据库及其信息检索
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
elegans
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)

生物信息学网站网址(全)

生物信息学网站网址(全)

生物信息学网站分子生物学数据库综合目录1. SRS序列查询系统(分子生物学数据库网络浏览器) http://www.embl-heidelberg.ed/srs5/2. 分子生物学数据库及服务器概览/people/pkarp/mimbd/rsmith.html3. BioMedNet图书馆4. DBGET数据库链接http://www.genome.ad.jp/dbget/dbget.links.html5. 哈佛基因组研究数据库与精选服务器6. 约翰. 霍普金斯大学(Johns Hopkins University) OWL网络服器/Dan/proteins/owl.html7. 生物网络服务器索引,USCS /network/science/biology/index.html8. 分子生物学数据库列表(LiMB) gopher:///11/molbio/other9. 病毒学的WWW服务器,UW-Madison /Welcome.html10. UK MRC 人类基组图谱计划研究中心/11. 生物学家和生物化学家的WWW资源http://www.yk.rim.pr.jp/~aisoai/index.html12. 其他生物网络服务器的链接/biolinks.html13. 分子模型服务器与数据库/lap/rsccom/dab/ind006links.html14. EMBO实际结构数据库http://xray.bmc.uu.se/embo/structdb/links.html15. 蛋白质科学家的网络资源/protein/ProSciDocs/WWWResources.html16. ExPASy分子生物学服务器http://expasy.hcuge.ch/cgi-bin/listdoc17. 抗体研究网页18. 生物信息网址http://biochem.kaist.ac.kr/bioinformatics.html19. 乔治.梅森大学(George Mason University)的生物信息学与计算分子生物学专业/~michaels/Bioinformatics/20. INFOBIOGEN数据库目录biogen.fr/services/dbcat/21. 国家生物技术信息研究室/data/data.html22. 人类基因组计划情报/TechResources/Human_Genome23. 生物学软件及数据库档案/Dan/software/biol-links.html24. 蛋白质组研究:功能基因组学的新前沿(著作目录) http://expasy.hcuge.ch/ch2d/LivreTOC.html序列与结构数据库一.主要的公共序列数据库1. EMBL WWW服务器http://www.EMBL-heidelberg.ed/Services/index.html2. Genbank 数据库查询形式(得到Genbank的一个记录) /genbank/query_form.html3. 蛋白质结构数据库WWW服务器(得到一PDB结构) 4. 欧洲生物信息学研究中心(EBI) /5. EBI产业支持/6. SWISS-PROT(蛋白质序列库) http://www.expasy.ch/sprot/sprot-top.html7. 大分子结构数据库/cgi-bin/membersl/shwtoc.pl?J:mms8. Molecules R Us(搜索及观察一蛋白质分子) /modeling/net_services.html9. PIR国际蛋白质序列数据库/Dan/proteins/pir.html10. SCOP(蛋白质的结构分类),MRC /scop/data/scop.l.html11. 洛斯阿拉莫斯的HIV分子免疫数据库/immuno/index.html12. TIGR数据库/tdb/tdb.html13. NCBI WWW Entrez浏览器/Entrez/index.html14. 剑桥结构数据库(小分子有机的及有机金属的结晶结构) 15. 基因本体论坛/GO/二. 专业数据库1. ANU生物信息学超媒体服务(病毒数据库、分类及病毒的命名法) .au/2. O-GL YCBASE(O联糖基化蛋白质的修订数据库) http://www.cbs.dtu.dk/OGLYCBASE/cbsoglycbase.html3. 基因组序列数据序(GSDB)(已注释的DNA序列的关系数据序) 4. EBI蛋白质拓扑图/tops/Serverintermed.html5. 酶及新陈代谢途径数据库(EMP) /6. 大肠杆菌数据库收集(ECDC)(大肠杆菌K12的DNA序列汇编) http://susi.bio.uni-giessen.de/ecdc.html7. EcoCyc(大肠杆菌基因及其新陈代谢的百科全书) /ecocyc/ecocyc.html8. Eddy实验室的snoRNA数据库/snoRNAdb/9. GenproEc(大肠杆菌基因及蛋白质) /html/ecoli.html10. NRSub(枯草芽胞杆菌的非冗余数据库) http://pbil.univ-lyonl.fr/nrsub/nrsub.html11. YPD(酿酒酵母蛋白质) /YPDhome.html12. 酵母基因组数据库/Saccharomyces/13. LISTA、LISTA-HOP及LISTA-HON(酵母同源数据库汇编) /14. MPDB(分子探针数据库) http://www.biotech.est.unige.it/interlab/mpdb.html15. tRNA序列及tRNA基因序列汇编http://www.uni-bayreuth.de/departments/biochemie/trna/index/html16. 贝勒医学院(Baylor College of Medicine)的小RNA数据库/dbs/SRPDB/SRPDB.html17. SRPDB(信号识别粒子数据库) /dbs/SRPDB/SRPDB.html18. RDP(核糖体数据库计划) /19. 小核糖体亚蛋白RNA结构http://rrna.uia.ac.be/ssu/index.html20. 大核糖体亚蛋白RNA结构http://rrna.uia.ac.be/lsu/index.html21. RNA修饰数据库/RNAmods/22. 16SMDB及23SMDB(16S和23S核糖体RNA突变数据库)/Departments/Biology/Databases/RNA.html23. SWISS-2DPAGE(二维凝胶电泳数据库) http://expasy.hcuge.ch/ch2d/ch2d-top.html24. PRINTS /bsm/dbbrowser/PRINTS/PRINTS.html25. KabatMan(抗体结构及序列信息数据库) /abs26. ALIGN(蛋白质序列比对一览) /bsm/dbbrowser/ALIGN/ALIGN.html27. CATH(蛋白质结构分类系统) /bsm/cath28. ProDom(蛋白质域数据库) http://protein.toulouse.inra.fr/29. Blocks数据库(蛋白质分类系统) /30. HSSP(按同源性导出的蛋白质二级结构数据库) http://www.sander.embl-heidelberg.de/hssp/31. FSSP(基于结构比对的蛋白质折叠分类) /dali/fssp/fssp.html32. SBASE蛋白质域(已注释的蛋白质序列片断) http://www.icgeb.trieste.it/~sbasessrv/33. TransTerm(翻译控制信号数据库) /Transterm.html34. GRBase(参与基因调控的蛋白质的相关信息数据库) /~regulate/trevgrb.html35. REBASE(限制性内切酶和甲基化酶数据库) /rebase/36. RNaseP数据库/RNaseP/home.html37. REGULONDB(大肠杆菌转录调控数据库) http://www.cifn.unam.mx/Computational_Biology/regulondb/38. TRANSFAC(转录因子及其DNA结合位点数据库) http://transfac.gbf.de/39. MHCPEP(MHC结合肽数据库) .au/mhcpep/40. ATCC(美国菌种保藏中心) /41. 高度保守的核蛋白序列的组蛋白序列数据库/Baxevani/HISTONES42. 3Dee(蛋白质结构域定义数据库) /servers/3Dee.html43. InterPro(蛋白质域以及功能位点的完整资源) /interpro/序列相似性搜索1. EBI序列相似性研究网页/searches/searches.html2. NCBI: BLAST注释/BLAST3. EMBL的BLITZ ULTRA快速搜索/searches/blitz_input.html4. EMBL WWW服务器http://www.embl-heidelberg.de/Services/index.html#55. 蛋白质或核苷酸的模式浏览/compbio/PatScan/HTML/patscan.html6. MEME(蛋白质超二级结构模体发现与研究) /meme/website7. CoreSearch(DNA序列保守元件的识别) http://www.gsf.de/biodv/coresearch.html8. PRINTS/PROSIT浏览(搜索motif数据库) /cgi-bin/attwood/SearchprintsForm.pl9. 苏黎世ETH服务器的DARWIN系统http://cbrg.inf.ethz.ch/10. 利用动态规划找出序列相似性的Pima IIhttp://bmerc-www.bu.ede/protein-seq/pimaII-new.html11. 利用与模式库进行哈希码(hashcode)比较找到序列相似性的DashPat /protein-seq/dashPat-new.html12. PROPSEARCH(基于氨基酸组成的搜索) http://www.embl-heidelberg.de/aaa.html13. 序列搜索协议(集成模式搜索) /bsm/dbbrowser/protocol.html14. ProtoMap(SEISS-PROT中所有蛋白质的自动层次分类) http://www.protomap.cs.huji.ac.il/15. GenQuest(利用Fasta、Blast、Smith-Waterman方法在任意数据库中搜索) http://www.gdb.rog/Dan/gq/gq.form.html16. SSearch(对特定数据库的搜索) http://watson.genes.nig.ac.jp/homology/ssearch-e_help.html17. Peer Bork搜索列表(motif/模式序列谱搜索) http://www.embl-heidelberg.de/~bork/pattern.html18. PROSITE数据库搜索(搜索序列的功能位点) /searches/prosite.html19. PROWL(Skirball研究中心的蛋白质信息检索) /index.html序列和结构的两两比对1. 蛋白质两两比对(SIM) http://expasy.hcuge.ch/sprot/sim-prot.html2. LALNVIEW比对可视化观察程序ftp://expasy.hcuge.ch/pub/lalnview3. BCM搜索装置(两两序列比对) /seq-search/alignment.html4. DALI蛋白质三维结构比较/dali/5. DIALIGN(无间隙罚分的比对程序) http://www.gsf.de/biodv/dialign/html多重序列比对及系统进行树1. ClustalW(BCM的多重序列比对) /multi-align/multi-align.html2. PHYLIP(推测系统进行树的程序) /phylip.html3. 其它系统进行树程序,PHYLIP文档的汇编http://expasy.hcuge.ch/info/phylogeny.html4. 系统进行树分析程序(生命树列表) /tree/programs/programs.html5. 遗传分类学软件(Willi hennig协会提供的列表) /education.html6. 用于多重序列比对的BCM搜索装置/multi-align/multi-align.html7. AMAS(分析多重序列比对中的序列) /servers/amas_server.html8. 维也纳RNA二级结构软件包http://www.tbi.univie.ac.at/~ivo/RNA/四. 有代表性的预测服务器1. PHD蛋白质预测服务器,用于二级结构、水溶性以及跨膜片断的预测http://www.embl-heidelberg.de/predictprotein/predictprotein.html2. PhdThreader(利用逆折叠方法预测、识别折叠类) http://www.embl-heidelberg.de/predictprotein/phd_help.html3. PSIpred(蛋白质结构预测服务器) /psipred4. THREADER(戴维. 琼斯) /~jones/threader.html5. TMHMM(跨膜螺旋蛋白的预测) http://www.cbs.dtu.dk/services/TMHMM/6. 蛋白质结构分析,BMERC /protein-seq/protein-struct.html7. 蛋白质域和折叠预测的提交表http://genome.dkfz-heidelberg.de/nnga/def-query.html8. NNSSP(利用最近相邻法预测蛋白质的二级结构) /pss/pss.html9. Swiss-Model(基于知识的蛋白质自动同源建模服务器) http://www.expasy.ch/swissmod/SWISS-MODEL.html10. SSPRED(用多重序列比对进行二级结构预测) /jong/predict/sspred.html11. 法国IBCP的SOPM(自寻优化预测方法、二级结构) http://pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopm.html12. TMAP(蛋白质跨膜片断的预测服务) http://www.embl-heidelberg.de/tmap/tmap_info.html13. TMpred(跨膜区域和方向的预测) /software/TMPRED_form.html14. MultPredict(多重序列比对的序列的二级结构) /zpred.html15. BCM搜索装置(蛋白质二级结构预测) /seq-search/struc-predict.html16. COILS(蛋白质的卷曲螺旋区域预测) /software/coils/COILS_doc.html17. Coiled Coils(卷曲螺旋) /depts/biol/units/coils/coilcoil.html18. Paircoil(氨基酸序列中的卷曲螺旋定位) /bab/webcoil.html19. PREDATOR(由单序列预测蛋白质二级结构) http://www.embl-heidelberg.de/argos/predator/predator_info.html20. EV A(蛋白质结构预测服务器的自动评估) /eva/五. 其他预测服务器1. SignalP (革兰氏阳性菌、革兰氏阴性菌和真核生物蛋白质的信号肽及剪切位点) http://www.cbs.dtu.dk/services/SignalP/2. PEDANT(蛋白质提取、描述及分析工具) http://pedant.mips.biochem.mpg.de/六. 分子生物学软件链接1. 生物信息学可视化工具/alan/VisSupp/2. EBI分子生物学软件档案/software/software.html3. BioCatalog /biocat/e-mail_Server_ANAL YSIS.html4. 生物学软件和数据库档案/Dan/softsearch/biol-links.html5. UC Santa Cruz的序列保守性HMM的SAM软件/research/compbio/sam.html七. 网上博士课程1. 生物计算课程资源列表:课程大纲http://www.techfak.uni-bielefeld.de/bcd/Curric/syllabi.html2. 生物序列分析和蛋白质建模的Ph.D课程http://www.cbs.dtu.dk/phdcourse/programme.html3. 分子科学虚拟学校/vsms/sbdd/4. EMBnet 生物计算指南http://biobase.dk/Embnetut/Universl/embnettu.html5. 蛋白质结构的合作课程/PPS/index.html6. 自然科学GNA虚拟学校http://www.techfak.uni-bielefeld.de/bcd/Vsns/index.html7. 分子生物学算法/education/courses/590bi。

医学生物信息学 第4讲 生物信息学信息资源检索的常用工具

医学生物信息学 第4讲 生物信息学信息资源检索的常用工具

1、数据采集
从互联网上抓取网页,数据靠使用机器人 (robot)、蜘蛛(spiders)、爬虫(crawlers)等网 络搜索软件进行采集的。
它们在Web空间不停地自动寻找、挖掘 和收集各种信息资源,根据其访问链接的数 量进行初步处理,去除无法链接的死链接点, 从互联网上自动收集网页。
2. 数据天网 263搜索引擎
中华网 盖世引擎 悠游 茉莉之窗 Goyoyo Excite Lycos InfoSeek Index Magellan HotBot
OpenTex
一、搜索引擎的类型
(一)按检索功能分 常将网络检索工具概称为搜索引擎,搜索
引擎包括两种网络检索服务。
通用型检索工具
帮助在网上查找资源的生物医学“导航图” 和 “指南针”。
一、英文搜索引擎( search engine )
(一)Google ()
Google 是一个功能强大、网络信息资源非常丰富的 搜索引擎。由斯坦福大学计算机科学系1998年创建。现 已拥有30多亿网页,支持30多种语言检索,包括中文简 体和中文繁体,并设有中文 Google 网页
• 爱里克·斯科米特,Google公司现任CEO
Google排名全球第一。因此可以说它是 目前世界范围内人气最旺的搜索引擎。
Google主页简洁明晰。 检索框栏设有所 有网站( Web )、图像( Images )、新闻组群 (groups)和网页目录(directory)四种选项 便于直接按所需内容查询。关键词查询提供 基本检索和高级检索两种界面。
为满足学者、用户获取信息的需求,网络公司和 信息机构相继开发了多种网络检索工具或搜索引擎。
指南针,航海图,定位仪
“工欲善其事,必先利其器”,选

生物信息学检索系统

生物信息学检索系统
14
15
16
SRS与ENTREZ的区别
布林逻辑运算 结果信息量 查询速度
NCBI AND,OR,BUT 小

SRS &, I, !


17
18
19
20
21
22
Байду номын сангаас
23
24
THE END
25
搜索 ▪ 序列分子量搜索 ▪ 区域搜索 ▪ 通配符搜索
7
8
9
10
11
12
2. SRS
▪ SRS(Sequence Retrieval System) 是EMBL研制的一个基于WEB的查询系 统,是目前生物信息界应用最为广泛的数 据库系统。
▪ SRS在中国的镜像站点建立在北京大学 生物信息中心。
三、数据库检索工具简介
▪ Entrez ▪ SRS
1
1、Entrez
Entrez的特点
▪ 链接的数据库多 ▪ 使用方便 ▪ 实际匹配、相近匹配、查询结果按匹配
程度排列
2
Entrez集成的各种数据库
核酸序列 蛋白质序列 生物大分子结构 基因组数据 生物分类数据库 孟德尔人类遗传学数据(OMIM) Pubmed
13
▪ SRS采用全菜单驱动方式
• 包括EMBL、EMBL_NEW、SwissProt、 PIR等一级数据库
• 还包括许多二级数据库 如蛋白质家族和结构域数据库Prosite、限 制酶数据库ReBase、PDB序列子集数据库 NRL_3D、真核基因启动子数据库EPD、 E.coli 数据库ECD、酶名称和反应数据库 ENZYME、生物计算文献数据库 SEQANALREF等,还有与功能、疾病相关 的数据库,总共有80个数据库。

华侨大学课件系列:《生物信息学_数据库及查询》02

华侨大学课件系列:《生物信息学_数据库及查询》02

如何获取GenBank中的序列?
同样存在限制字段: 常用的有: Author: Bao YM[au] title: SNARE[ti] organism: rice[organism] 或者直接输入: Accession: AY077725[Accession] Gene Name: ZFP15[Gene Name] Protein Name: ZFP15[Protein Name] 如: Bao YM[au] AND SNARE[ti] AND rice[organism] 如果没有限定,就是任意字段。
复杂检索
2. 布尔逻辑运算: AND、OR、NOT必须大写。
逻辑符的运算次序是从左至右,括号内的检索式可作为一个 单元,优先运行。 布尔逻辑检索允许在检索词后面附加字段标识
例如:rice[ti] AND Bao YM[au] AND 2008:2009[dp]]
在PubMed页面上选择Advanced :
全球
86
89
92
95
98
01
04
19
19
19
19
19
20
20
1/5
1/20
20
07中国Google vs 查中文生物文献29
Google scholar(学术搜索)
查英文生物文献
关键词的选择
不是特殊情况,尽量使用名词原形,不 使用复数、所有格等 尽量使用专业用语,不使用 the, of, and, research等常用词作为关键词 为了减少遗漏,使用尽可能少而精的关 键词
23
EMBL和GenBank数据格式的对比文献查找Google 中国期刊网 PubMed
学术介绍

06第六章 常用生物信息学数据库简介

06第六章 常用生物信息学数据库简介

英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列 数据库,于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权 威生物学刊物都要求作者在文章发表之前将所测定的 序列提交给EMBL、GenBank或DDBJ,得到数据库管 理系统所签发的登录注册号。 二是从生物医学期刊上收录已经发表的序列资料。

生物信息学与生物数据库

生物信息学与生物数据库

生物信息学与生物数据库生物信息学在现代生物科学研究中扮演着至关重要的角色。

随着技术的进步和数据的爆发性增长,生物数据库成为了整合、存储和检索海量生物信息的重要工具。

本文将介绍生物信息学的基本概念、生物数据库的种类和应用,以及未来生物信息学的发展趋势。

一、生物信息学的基本概念生物信息学是一门跨学科的科学,结合了生物学、计算机科学和统计学的理论与方法,旨在研究生物学中的大规模数据和复杂信息。

生物信息学的主要任务包括序列分析、结构预测、功能注释、系统生物学等。

通过分析和挖掘生物大数据,生物信息学可以帮助我们深入理解生物系统的组成、功能和演化。

二、生物数据库的种类和应用1. 基因组数据库基因组数据库存储了许多物种的基因组序列信息,例如人类基因组数据库、小鼠基因组数据库和植物基因组数据库等。

这些数据库不仅包含了基因序列,还提供了丰富的注释信息,如基因功能、结构特征和遗传变异等。

基因组数据库的应用范围广泛,从基础研究到医学诊断都发挥着重要作用。

2. 蛋白质数据库蛋白质数据库收集了各种物种的蛋白质序列和结构信息,如Uniprot和PDB等。

蛋白质数据库不仅提供了蛋白质序列和结构的详细描述,还包括相关的功能注释、亚细胞定位和相互作用等信息。

蛋白质数据库的应用非常广泛,包括药物设计、蛋白质功能预测和疾病研究等领域。

3. 代谢组数据库代谢组数据库存储了生物体内代谢产物的信息,如HMDB和KEGG等。

代谢组数据库提供了广泛的代谢产物和代谢通路的注释信息,可以帮助研究人员理解代谢网络的结构和功能。

代谢组数据库在代谢研究、药物开发和植物生物学等领域有重要的应用价值。

4. 基因调控数据库基因调控数据库存储了基因的调控关系和表达数据,如Gene Expression Omnibus和ENCODE等。

基因调控数据库提供了基因表达的时间、空间和条件特异性信息,可以帮助研究人员理解基因调控的机制和模式。

基因调控数据库在基因表达调控和疾病研究中起着关键作用。

生物信息学常用数据资源介绍

生物信息学常用数据资源介绍

生物信息学常用数据资源介绍生物信息学是一门将大量数据和信息与生命科学相结合的学科,随着技术的不断发展,越来越多的生物信息学数据资源得到了广泛应用,使得生物信息学研究呈现出爆发式增长的态势。

在接下来的文章中,我将介绍一些常用的生物信息学数据资源。

1. 基因组浏览器基因组浏览器是生物信息学研究中非常常见的一种工具,在基因组浏览器中,用户可以利用多种查询方式快速定位以及查找基因序列、变异位点、基因表达等数据,具体的使用方法可以参考NCBI、UCSC和ENSEMBL等公共数据库。

2. 数据库公共数据库是生物信息学在数据共享和协作方面发挥重要作用的平台之一,NCBI、ENSEMBL、UniProt和GenBank等是生物信息学具有代表性的公共数据库,这些数据库为用户提供了一系列的基因组、转录组、蛋白质、代谢物等多种数据资源,这些数据可以帮助研究者进行基因预测及分析,杂交研究、协同研究等多种生物信息学研究。

3. 软件工具与数据库不同的是,软件工具主要起到数据分析与处理的作用。

对于不同的数据分析任务,不同的软件工具适应程度也不同,因此在生物信息学研究过程中需要不断尝试和探索,比如在转录组分析中,DESeq2和edgeR是非常常用的工具。

4. 人类基因组计划人类基因组计划是一项耗时多年,费用庞大的生命科学研究计划,目的是把人类的基因组解码,并制定新的医学治疗方案等。

在该项目结束后,因为庞大的数据量,成千上万名的研究者可以在其基础上继续开展基因组学研究,这进一步推动了生命科学领域的发展。

5. 元分析数据集随着生物信息学领域的快速发展,元分析数据集作为新工具出现了。

它是由几个相对独立的研究组合而成,旨在研究特定生物过程的数据,比如癌症发病的前因后果,它们包括多个数据来源和测序仪,提供了更全面、多元化的基因数据,为进一步研究确定新的生物标志物和治疗方法提供了更加可靠的基础。

综上,以上我们介绍了一些生物信息学研究中使用频率较高的数据资源,它们共同构成了生物信息学领域的基础设施,在加速科研发展、优化研究流程、减少人力物力成本等方面发挥重要作用,一方面可以帮助科研工作者得到更准确的结果,另一方面又能为更广泛的生命科学研究打开更广的视野。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质-蛋白质相互作用数据库 DIP(/) 由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信 息和检测相互作用的实验技术 IntAct(/intact ) 提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相 互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结 构域注释进行网络的扩充 代谢网络和信号途径 KEGG大百科(http://www.genome.ad.jp/kegg/ ) 系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和 部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的 细胞生化过程和同系保守的子通路等信息; LIGAND数据库收录关于化学物质、 酶分子和酶反应等信息。
核酸序列数据库 GenBank( /Genbank ) EMBL( /embl/ ) DDBJ ( http://www.ddbj.nig.ac.jp/ )
三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋 白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG C.基因可变剪接数据库ASDB D.转录因子数据库TRANSFAC
亚细胞定位数据库 PSORTdb(/ ) DBSubLoc(/dbsubloc.html ) 膜蛋白质数据库TMPDB(http://bioinfo.si.hirosaki-u.ac.jp/~TMPDB/) 线粒体蛋白质数据库MitoP2(http://www.mitop.de:8080/mitop2/) 蛋白翻译后修饰 dbPTM(.tw/ ) 磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息。 O-GlycBase(http://www.cbs.dtu.dk/databases/OGLYCBASE/) 只收录O糖基化数据 PhosphoBase(/) 只收录磷酸化位点的数据 RESID(/RESID/) 收录蛋白质修饰的注释和结构的数据
plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians reptiles birds mammals
104 105 106 107 108 109 1010 1011
蛋白质序列数据库 UniProt() 由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注 释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考 簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。 IPI (/IPI/ ) 国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而 构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt, Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整 合过程中,直接接受手工注释结果。 Nr( /refseq/ ) NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号, 并将序列完全一致的非冗余蛋白质合并成簇。
序列数据库 结构数据库 功能数据库 其ws、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学 实验中测序获得的核酸和蛋白质序列。 基因组序列数据库: Genome Database(GDB)数据库 ( / ) 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL - EBI和 Sanger研究所联合开发。 UCSC Genome Browser (/) 加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基 因组数据。
第三章 生物信息数据库及其信息检索
生物科学与技术学院
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
大规模组学实验
大量零碎数据
海量组学数据
elegans
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
GenBank
UniGene
Algorithms
GenBank中测序最多的20个物种
yticum
Bacillus subtilis
Drosophila melanogaster
二、结构数据库
核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也 有同源建模等计算方法获得。 结构数据库(核酸) NDB核酸结构数据库(/) 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT (the AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可 以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片 Rfam数据库(/ ) RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非 编码RNA家族的变异模式
结构数据库(蛋白质) PDB(/pdb/ ) RCSB(Research Collaboratory for Structural Bioinformatics)专门用于处理和发 布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据 文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物 大分子三维结构。 蛋白质结构分类数据库SCOP( /scop/ ) 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库。 NCBI蛋白结构数据库(/sites/entrez?db=structure/) 包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的 PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二 级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核 酸链进行分类的分子匹配。
NCBI (National Center of Biotechnology Information) 美国国立生物技术信息中心
三大数据库之间的联系
Primary vs. Derivative Databases
Curators
Sequencing Centers
Labs
TATAGTACTCAGGCTACTGAGCTACTGAGCCG
数据收集整理
数据存储、注释
数据库
检索查询
理论分析
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据
库专刊,收录最主要的生物学相关数据库,归类并展示在
/nar/database/c/。
核酸序列数据库 RNA序列数据库 蛋白质序列数据库 结构数据库 基因组数据库(非脊椎动物) 代谢与信号通路数据库 人类与其他脊椎动物基因组 人类基因与疾病 微阵列数据库与其他基因表达数据库 蛋白质组资源 其他分子生物学数据库 细胞器数据库 植物数据库 免疫学数据库 细胞生物学数据库
生物信息学数 据库类型
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis
rat
反应通路(KEGG)
glycolysis pathway(糖 酵解)
京都基因与基因组百科全 书(Kyoto Encyclopedia of Genes and Genomes)
全细胞通路
四、其它专业数据库
人类基因和疾病数据库 OMIM(/sites/entrez?db=omim) 收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊 断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物 模型及其参考文献等信息dbSNP (/sites/entrez?db=SNP ) 收录已经识别的SNPs的数据库 HapMap Project() 收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具 有相对代表性 CGED(http://lifesciencedb.jp/cged/) 收录多种癌症的临床和基因表达数据,更新到2007年
基于电泳和生物质谱的蛋白质组数据库 SWISS-2DPAGE(/ch2d/) 收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息 PRIDE(/pride/) 数据库收集国际蛋白质组计划所产出的鉴定结果数据 PeptideAtlas(/) 收录大规模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库 dbLEP() 为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质 量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年
相关文档
最新文档