分子生物学数据库
分子生物学数据库---计算生物学的摇篮

分子生物学数据库——计算生物学的摇篮1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具有的基因数却少于线虫,这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。
人类基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这其中也含有大量的冗余序列。
在获得了如此多的核算信息后,大量的蛋白质信息也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。
针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。
在美国最初提出人类基因组计划时,成立了一个由42位专家组成的生物信息研究小组,专门处理获得的相关信息。
随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。
在此背景下,计算生物学和生物信息学应运而生。
计算生物学和生物信息学都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。
总的来讲,计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题,这些问题常常需要海量的数据,计算和分析。
生物信息学第三章分子生物信息数据库

同源蛋白家族数据库Pfam
同源蛋白结构域数据库Blocks
二次数据库的种类
3. 以具有特殊功能的蛋白质为基础:
免疫球蛋白数据库Kabat 蛋白激酶数据库PKinase
4. 以三维结构原子坐标为基础:
蛋白质二级结构构象参数数据库DSSP 已知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白数据库HSSP
二次数据库 1. 容量小,更新速度较慢,可以不用大型商
业数据库软件支持。 2. 许多二次库的开发基于Web浏览器。其优
点是使用方便,使用者不需要有丰富的计 算机专业知识。
DBCat
由法国生物信息研究中心Infobiogen建立维护。 DBCat(Database Catalog,生物信息数据库目录)
搜集了500多个数据库的名称、内容、数据格式、联 系地址、网址等详细信息。 DBCat按DNA、RNA、蛋白质、基因图谱、结构、 文献等分类,其中大部分数据库可以免费下载。
MetaBase
MetaBase是一个生物学数据库清单, 目前收集了1799个不同的数据库,可 直接输入数据库名称进行搜索,也可 以浏览目录。
计算机数据管理技 术广泛应用
分子生物学数据库建立并不断发展, 成为相关研究的主要数据来源和数据
交换手段。
➢计算机网络的发展和互联网在全球的普及, 为分子生物信息数据库的利用开辟了广阔 的前景。
➢测序中心和生物学家得到的各种生物学数 据都可以通过互联网直接向国际数据中心 递交。
分子生物信息数据库的种类
The databases are described in a semistructured way by using templates and entries can carry various user comments and annotations.
生物分子信息数据库

第4章生物分子数据库国际上已建立起许多公共生物分子数据库,包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。
这些数据库由专门的机构建立和维护,他们负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为他们的研究服务。
4.1 引言建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。
生物分子信息分析已经成为分子生物学研究必备的一种方法。
如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。
数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。
从数据库使用的角度来看,公共生物分子数据库应满足以下5个方面的主要需求:(1)时间性对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连网访问。
(2)注释对于每一个基本数据(如序列),应附加一致的、深层次的辅助说明信息。
(3)支撑数据在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始数据的方法。
数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数据。
(4)数据质量必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和专家提出的意见。
(5)集成性三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。
对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。
例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能的信息。
分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如DNA序列与蛋白质序列之间的联系,基因调控信息与基因表达数据之间的联系。
分子生物学数据库

• 三个数据库中的数据基本一致,仅在数据格 式上有所差别,对于特定的查询,三个数据库 的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据 库,每条记录代表一个单独、连续、附有注释 的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交 从生物医学杂志收录已发表的序列资 料
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的
(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
(4)WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作(基于3W服务器)
(1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。
如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包 含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返回相应的链接
分子生物学相关数据库

分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。
EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。
EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。
核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。
第二章 生物分子数据库

数据主要来源于全世界不同实验室和大规模测序
计划项目 大约12%来源于Homo sapiens 排列前6的物种:Homo sapiens、Mus musculus、 Rattus norvegicus、Bos taurus、Zea mays、Danio rerio (zebrafish)
GenBank核酸序列格式
一、NCBI简介/GenBank数据库
• GenBank 由 美 国 国 家 医 学 图 书 馆 的 国 家 生 物 技 术 信 息 中 心 (NCBI)构建、维护和管理, NCBI位于美国马里兰国家健康研究 所(NIH)。GenBank数据库的序列数据来源于序列发现者提 交的序列、批量提交的表达序列标签(expressed sequence tag,
3、蛋白质三维结构数据库
显示分子结构(RasMol , ChemView )
4、miRNA数据库
miRNA gene
转录RNA
microRNA (miRNA)的形成
折叠形成 pri-miRNA
pre-miRNA
miRNA
RISC携带 有活性的miRNA
Science 309:1522 (2005)
第二节 核酸序列数据库
国际上权威的核酸序列数据库
(1)欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank /Web/Genbank/index. html (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/
Ensembl 数据库结构图
2、表达序列标签数据库dbEST
dbEST (/dbEST ) 是
生命科学中最常用的5个数据库介绍

生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象的各种研究。
对于生命科学的研究,特别是在分子水平上进行的研究,需要大量的数据支持。
这些数据包括分子序列、蛋白质结构、代谢途径等等。
为了有效地管理这些数据,生命科学中广泛应用了各种数据库。
本文将介绍生命科学中最常用的5个数据库。
1. GenBankGenBank是全球最大的分子生物学数据库,包含了全球各地实验室提交的DNA和RNA序列。
它由美国国家生物技术信息中心(NCBI)维护。
GenBank包含了数十亿条序列记录,其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。
与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。
GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。
2. PubMedPubMed是美国国家医学图书馆(NLM)维护的一个生命科学文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。
PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话题时更加方便。
除了搜索全文的功能,PubMed还提供了很多额外的服务,如翻译摘要、相关文章推荐、绘制图表等。
3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台,专门用于处理各种生命科学的数据。
Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。
Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。
4. Protein Data Bank (PDB)蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。
PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析,包括了大多数已知的蛋白质家族和酶。
生物分子数据库

1995年,流感嗜血杆菌的基因组DNA信息被破解,它具有1738个ORF,其中包含1473个具有重要功能的基因。
人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6500个基因被测序出来,这是第一个完成测序的真核生物完整基因组;从1980年代中期开始的线虫基因组测序工作,于1998年完成,这是人类获得了第一个多细胞生物的基因组,了解到它含有19100个基因,并发现其中的1/3基因与哺乳动物的相似;2000年,果蝇的基因组信息被破解,它有13600个基因。
通过基因序列比对,发现289个与人类疾病有关的基因中的60%在果蝇中找到了相近的匹配序列。
这意味着果蝇将是一种很好的研究人类疾病的模式生物;2000年,拟南芥的基因组DNA被测序出来,它有1.16亿个碱基对,编码大约26000个基因。
2002年,由中国科学家主持并完成了水稻基因组测序任务,研究结果表明水稻基因组仅有约4.4亿碱基对,编码32000个基因。
启动于1990年的人类基因组计划,到2003年其99.9%的人类基因组序列都被精确地绘图。
在获得了如此多的核酸信息后,包括蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等蛋白质信息也可以随之获得。
面对如此大量的信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。
随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。
在此背景下,生物信息学应运而生。
该学科应用数学的和计算机的科学方法来处理海量的生物学数据并进行计算和分析。
主要工作包括生物学信息的采集、储存、分析处理和可视化等方面。
第一章生物分子数据库如今,生物信息学已成为生命科学最为活跃的研究领域之一。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
陈成
一、国内的一些有针对性的数据库
BIOSINO
我国的核酸序列公共数据库
更像是一个论坛,有一些提问,互动等功能,信息的筛选也不是特别的严格。
但是规模较小
0条记录可以看出网站的维护和使用都不怎么频繁。
其他许多网站也没有明显的巨大差距。
二、国内的一些大型数据库
中国知网
大部分高校已经购买了它的资源,是国内较权威、全面的数据库。
主要是文献下载,不针对我们实验过程中对数据遇到问题时的解答。
冀鼎觉SciFinder
SciFinder使用简介
SciFinder Scholar是美国化学学会(ACS)旗下的化学文摘服务社CAS (Chemical Abstract Service)所出版的《Chemical Abstract》化学文摘的在线版数据库学术版。
其内容涵盖应用化学、化学工程、普通化学、物理、生物学、生命科学、医学、聚合体学、材料学、地质学、食品科学和农学等诸多领域。
/products/scifinder/
SciFinder是可以与交大图书馆相连的,在找到文献时,可以直接连接到交大图书馆进行检索帮助。
下面以检索Molecular Dynamics为例简单解释其使用。
在登进SciFinder之后会进入检索界面。
上图即为SciFinder的文献检索界面,可以对文件类型,语言,作者等信息作初步筛选。
除此之外也可以看到左面可以选择对作者,公司,杂志,专利进行直接检索。
在搜索之后会出现题目和内容相关两种文献分类,如我们选择内容相关Molecular dynamics,点进Get Reference。
这是检索完成的结果。
我们可以看到,在Reference字样之后又Getsubstances等字样,我们可以通过这些选项获取选定文献中相关的物质、反应、相关的引用及被引用等。
在右侧可以看到Analysis以及Refine选项。
现在显示的是Analysis中的Journal Name选项,可以看到对于MD来说,JCP, JPC, Biochemistry, JACS等杂志具有较多的信息。
除此之外,还有对作者,公司的分析,为我们对相关内容的行业情况的了解提供了方便。
Refine即对相关文献进行提炼,即对标题,语言等选项进行选择。
如图为对选中的文献进行refine,选择出是中文的文献。
Explore Reference模块大致就是如此。
除此之外的对物质及反应的搜索模块Explore Substances和Explore Reactions的界面类似,同样十分友好,大家可以自行探索。
刘士毅UCSC Genome Bioinformatics
UCSC Genome Bioinformatics /
5100809083 刘士毅
这是一个非常常用的基因搜索工具,包含了许许多多实验室最新的测序结果。
这是基因搜索界面,可以定位想要搜索的基因的位置
进到如上界面时我们可以通过界面看到所有不同结果(左列)在基因区域的分布
子项供选择
彭思杰IntAct
链接:/intact/
介绍:EBI下的一个蛋白质互作信息数据库,里面包含了模式生物以及常见生物的蛋白质互作信息。
除了通过搜索查找蛋白质互作的信息,IntAct还提供了一些tools:Proviz和Validator,前者用于图形可视化,后者未使用过,所以不是很清楚。
这两个软件以及数据库的资料都可以免费在ftp中进行下载。
如上图就是IntAct的一个搜索结果界面。
里面包括了参与反应的两个分子以及反应类型等信息,左上角也提供了各种格式的结果下载,可以进行批量下载。
沈方舟InterPro
InterPro:/interpro/
简介:
InterPro
是大型综合生物信息学数据库EMBL-EBI 下属的一个数据库,该
数据库的功能是蛋白质序列分析与分类,该数据库通过多种特征将蛋白质按家族分类并且预测域(domain)和功能性位点。
InterPro 可以提供域、蛋白质家族
及位点的相关信息。
数据库使用:
1. 网页搜索:
如下图所示,直接搜索ID 可以得到ID 的相关信息,包括综述、相关蛋白质、域组织、通路与相互作用、物种、结构、文献和交叉引用。
InterPro 支持搜索的ID 除了其自身数据库的ID,还可以用pfam(蛋白质域数据库)或GO(基因注释)的ID 进行搜索。
除此之外,InterPro 还支持关键字搜索,如下图所示,搜索关键字的结果一
般会有许多结果。
从图中左侧可以看出InterPro 所包含的信息有四种,包括蛋白质家族、域、蛋白质重复和位点。
另外右上的show
more
data 可以链接到EMBL
-EBI 以获取更多的相关信息。
最后,作为作为蛋白质序列分析的数据库,InterPro 也支持直接分析蛋白质序列,下图是序列搜索结果的页面。
2. 数据下载
除了在网页上搜索外,要获得更多的数据可以登陆其FTP 进行下载。
石逸飞Manet数据库
Manet数据库的介绍
Manet数据库很小,它的的特点是提供定性和定量的生物系统中分子相互作用的网络。
而且,这个数据库对蛋白结构的进化非常感兴趣,事实上,这正是这个数据库一开始建立的目的,那就是查找某个代谢的酶的祖先和代谢本身的进化途径。
而现在,这个网站和多个知名的生物代谢网络网站都有合作,比如KEGG和SCOP,对于文献中每一个蛋白或者酶,都提供KEGG的具体说明。
目前它的引用文献只有九篇。
其网址是。
张少博CAZY数据库
全称:Carbohydrate-Active enZYmes databases
链接:/
是一个专门用来收集,研究碳水化合物活性酶的基因组,结构生化信息的数据库。
是一个专门领域研究的人比较常用的数据库。
目前,有5个大的家族在数据库中。
使用比较简单。
对每一个大家族的信息很详细,而且分类做的很好。
每一个大的家族下的一个小的家族为例,对这些分类也很做的很详细,分为了细菌,真菌,有结构的酶。
而且每个酶都提供了基因,结构的链接(到genbank,uniprot,pdb等数据库)
多,而且对于研究同一家族的酶的研究者来说会很有帮助。
杨佳蓓Protein lounge
/Default.aspx
这是一个涵盖了代谢途径,蛋白质,siRNA等的数据库。
部分代谢途径数据还是对外开放的。
这个数据库的特色在于他提供了相关的图片和视频,让用户更清晰地看到代谢途径的过程。
图片如下:(可能详细信息需要注册)
视频如下:(开放免费)
视频的相关介绍以及其他链接。
姚翔宇OMIM
1.Database introduction which is not included in the class
OMIM is the abbreviation of Online Mendelian Inheritance in Man /
e.g enter the disorder of human or illness of your interest such as alzheimer
you get 338 hits around this topic
choose search result id #104300 as an example to illustrate what the database has
Phenotype Gene Relationships
4p14-p13 is the location of the gene and phenotype is late-onset Alzheimer disease
Clinical Synopsis
A number of sign is used with this entry because of evidence that familial Alzheimer disease-1 is caused by mutation in the gene encoding the amyloid precursor protein(APP,104760)on chromosome 21q.。