生物信息研究中常用蛋白质数据库的总结
生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。
尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。
随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。
一个新手面对如此浩瀚的数据量往往无从下手。
本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。
蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。
蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。
这些数据库是分子生物信息学的基本数据资源。
上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。
信息的传播储存甚为不便。
随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。
进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。
伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。
但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。
同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
生物信息学数据库分类整理汇总

生物信息学数据库分类整理汇总生物信息学数据库是存储和管理生物学领域的大量数据的重要工具和资源,对于生物信息学研究、基因组学、蛋白质组学、转录组学等领域的研究具有重要的意义。
本文将对生物信息学数据库进行分类整理和汇总,方便生物信息学研究者更好地使用和了解这些数据库。
1.基因组数据库:- GenBank:美国国家生物技术信息中心(NCBI)维护的基因序列数据库,包含已知基因的核酸序列。
- Ensembl:英国恩格斯尔基因组项目维护的一个综合性基因组数据库,包含多种物种的基因组数据。
- UCSC Genome Browser:加利福尼亚大学圣克鲁兹分校开发的一个基因组浏览器,提供多种物种的基因组序列和注释信息。
2.蛋白质数据库:- UniProt:一个综合性的蛋白质数据库,集成了多个蛋白质序列和注释信息资源。
- Protein Data Bank (PDB):存储大量已解析的蛋白质结构数据的数据库,提供原子级别的结构信息。
- Protein Information Resource (PIR):收集和整理蛋白质序列、结构和功能信息的数据库。
3.转录组数据库:- NCBI Gene Expression Omnibus (GEO):存储和共享大量的高通量基因表达数据的数据库。
- ArrayExpress:欧洲生物信息学研究所(EBI)开发的一个基因表达数据库,包含多种生物组织和疾病的表达数据。
4.疾病数据库:- Online Mendelian Inheritance in Man (OMIM):记录人类遗传疾病和相关基因的数据库。
- Orphanet:收集和整理罕见疾病和相关基因的数据库。
5.代谢组数据库:- Human Metabolome Database (HMDB):一个综合性的人类代谢物数据库,包括代谢产物的结构和功能信息。
- Kyoto Encyclopedia of Genes and Genomes (KEGG):包含多种生物体代谢途径的数据库。
生物信息学总结

一、生物学数据库总共三大数据库GenBank (隶属于NCBI) , DDBJ(日本) , EBI(欧洲)。
1. NCBIPubMed:美国国家医学图书馆提供的搜索服务,主要用于搜索paper。
Entrez :将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究以及全基因组组装数据整合成的一个系统,其实就是个工具,平常你点的search,是个查询、提取、显示系统。
Blast :基础局部比对搜索工具,主要用于搜索相似DNA或蛋白质序列。
OMIM :在线人类孟德尔遗传性状数据库,主要用于搜索人类基因和遗传异常序列。
BooksTaxonomy:生物类别的分类浏览器(古细菌、细菌、真核生物、病毒)Structure:分子模型数据库(MMDB,PDB)GenBank:数据量极大DbEST:表达序列标签数据库,GenBank的子库。
Unigene:为每一个gene创造一个条目,一个具体的基因可能对应于许多EST,但是只对应一个Unigene。
提供作为EST记录来源的cDNA库的组织区域分布列表,并且给出了对应于基因的EST列表,允许使用者对它们进行深入研究。
RefSeq:GenBank数据量太大,是冗余的,对应于某个基因的索引号可能有很多,但是其RefSeq仅有一个。
2. EBIEMBL:储存DNA、RNA序列的数据库,对DDBJ,GENBANK是互补的。
SWISS-PROT:现存的最好的标有注释的蛋白数据库TrEMBL:翻译后的EMBLMSD:蛋白质结构数据库Ensembl:基因组数据浏览器ArrayExpress:基因表达数据库3.其他生物学数据库PIR:蛋白信息数据库UniProt:将Swiss-Prot、PIR、TrEMBL三者合一ExPASy :专家蛋白分析系统PDB:蛋白三维结构,存储格式为pdb,用RasMol软件看二、数据库检索数据库检索是指对数据库中的注释信息进行关键词匹配查找1、Entrez使用方法登录NCBI,在Search处选择数据库,输入检索词之后回车检索格式genepept、fasta序列的fasta格式:1. 每条记录的第一行以大于号(>)开始2. 大于号后是序列的描述信息3. 从第2行开始为序列本身。
生物信息学在蛋白质表达研究中的应用

生物信息学在蛋白质表达研究中的应用蛋白质表达是生物学研究中的重要环节,它涉及到从基因到蛋白质的转录和翻译过程。
随着生物信息学的发展,越来越多的工具和方法被应用于蛋白质表达研究中,提高了研究的效率和准确性。
本文将介绍生物信息学在蛋白质表达研究中的应用,并探讨其在该领域的前景。
1. 基因和蛋白质数据库的利用生物信息学提供了各种基因和蛋白质数据库,如GenBank和UniProt,这些数据库收集和整理了大量的基因和蛋白质序列信息。
研究人员可以通过这些数据库查询特定基因的序列,并从而确定合适的启动子、引物和蛋白质表达宿主等,以提高蛋白质表达的效率。
2. 启动子的预测和设计生物信息学能够预测和设计合适的启动子序列,以控制目标基因在宿主中的表达水平。
通过分析启动子序列的结构和功能区域,研究人员可以选择合适的启动子进行基因表达调控,从而提高目标蛋白质的表达量。
3. 引物的设计和优化引物是蛋白质表达研究中不可或缺的一环,它们用于扩增目标基因的片段,并作为模板进行蛋白质表达。
利用生物信息学的方法,研究人员可以设计和优化引物的序列,以提高特异性和扩增效率,从而提高蛋白质表达的成功率。
4. 蛋白质结构预测和模拟生物信息学可以预测和模拟蛋白质的三维结构,从而更好地理解蛋白质的功能和性质。
通过模拟蛋白质在特定条件下的结构和构象变化,研究人员可以预测蛋白质与其他分子的相互作用方式,并优化蛋白质的表达和折叠过程。
5. 基于大数据的蛋白质表达分析随着高通量测序技术的广泛应用,产生了大量的蛋白质表达数据。
生物信息学通过应用机器学习和数据挖掘等方法,对这些数据进行分析和解读,可以发现潜在的蛋白质表达规律和调控机制,从而为蛋白质表达研究提供新的思路和方法。
尽管生物信息学在蛋白质表达研究中发挥了重要作用,但仍面临一些挑战。
首先,蛋白质表达是一个复杂的过程,受到多种因素的影响,如细胞环境、转录后修饰等,因此需要综合运用多种生物信息学方法进行研究。
生物大数据技术在生物信息学研究中的重要数据库介绍

生物大数据技术在生物信息学研究中的重要数据库介绍生物信息学是利用生物学、计算机科学和统计学等多个学科的知识和技术研究生物信息的一门交叉学科。
近年来,随着高通量测序技术和大规模实验方法的发展,大量的生物信息数据积累起来,对于科学家来说,如何有效地管理和分析这些生物信息数据成为一项重要的任务。
生物大数据技术应运而生,成为解决这一问题的重要工具之一。
在生物大数据技术的支持下,科学家们逐渐构建了许多重要的数据库,为生物信息学研究提供了丰富的资源。
本文将介绍一些在生物信息学研究中起重要作用的数据库。
1. 基因组数据库基因组数据库是存储各种生物的基因组序列和相关信息的数据库。
其中,NCBI GenBank和ENSEMBL是两个非常重要的基因组数据库。
NCBI GenBank是一个庞大的公共数据库,存储了全球各种生物的基因组序列和其他关联信息。
ENSEMBL则是一个整合了多个数据库的资源,提供了全面的基因组序列和功能注释信息。
这些基因组数据库不仅为科学家们提供了基因组资源和注释信息,还为进一步的基因功能研究提供了重要的支持。
2. 蛋白质数据库蛋白质数据库是存储蛋白质序列和相关信息的数据库。
UniProt是最为知名和广泛使用的蛋白质数据库之一,它整合了多个已知蛋白质数据库的信息,包含了对蛋白质的功能、结构和相互作用等方面的注释。
此外,PDB是存储蛋白质三维结构信息的重要数据库,为研究蛋白质结构和功能提供了宝贵的资源。
蛋白质数据库的建立和维护为研究人员提供了更准确和全面的蛋白质信息,促进了蛋白质研究的深入开展。
3. 转录组数据库转录组数据库存储了各种生物体在特定条件下的转录组信息,包括基因的表达水平、调控网络和功能注释信息等。
GEO和EBI ArrayExpress是两个重要的转录组数据库。
GEO是一个公共数据库,包含了从全基因组水平到单基因水平的转录组数据,研究人员可以通过GEO访问到大量已发布的转录组数据。
EBI ArrayExpress是一个整合了全球转录组数据的资源,为用户提供了数据访问、分析和比较的功能。
蛋白质数据库使用说明

引言:蛋白质数据是生物信息学领域中非常重要的资源之一,它提供了大量关于蛋白质序列、结构、功能以及相互作用等方面的信息。
本文旨在介绍如何使用蛋白质数据库,帮助用户更好地利用这一资源进行研究。
概述:蛋白质数据库是一个集成了许多蛋白质信息的在线资源,用户可以通过搜索、浏览、等方式获取所需的信息。
其中,常用的蛋白质数据库包括NCBI、UniProt、PDB等。
这些数据库提供了丰富的蛋白质数据,并且不断更新以满足用户需求。
正文内容:1.数据库搜索功能1.1.关键词搜索1.1.1.输入蛋白质名称1.1.2.输入序列片段1.1.3.输入关键词1.2.高级搜索选项1.2.1.提供更精确的搜索结果1.2.2.支持过滤和排序功能1.2.3.可以根据相关字段进行搜索2.数据库浏览功能2.1.蛋白质分类2.1.1.按物种分类2.1.2.按功能分类2.1.3.按家族分类2.2.数据表格浏览2.2.1.查看蛋白质基本信息2.2.2.查看蛋白质序列2.2.3.查看蛋白质结构2.3.数据图谱浏览2.3.1.查看蛋白质相互作用网络2.3.2.查看蛋白质结构域分布2.3.3.查看蛋白质功能注释3.数据库功能3.1.蛋白质序列数据3.1.1.全部序列3.1.2.特定物种的序列3.2.蛋白质结构数据3.2.1.已解析的蛋白质结构3.2.2.蛋白质结构预测结果3.3.蛋白质相互作用数据3.3.1.已验证的相互作用数据3.3.2.预测的相互作用数据4.数据库工具与资源4.1.序列比对工具4.1.1.BLAST4.1.2.PSIBLAST4.2.结构预测工具4.2.1.SWISSMODEL4.2.2.Phyre24.3.功能注释资源4.3.1.GeneOntology4.3.2.InterPro4.4.数据库交互接口4.4.1.提供API接口4.4.2.支持数据提交与5.数据库更新与维护5.1.数据更新频率5.2.数据质量保证5.3.用户反馈与支持5.4.数据库版本与历史记录总结:蛋白质数据库为研究人员提供了丰富的蛋白质信息资源,通过搜索、浏览、等功能,用户可以轻松地获取需要的数据。
蛋白质研究数据库

一、蛋白质数据库1.UniProt (The Universal Protein Resource)网址://uniprot/简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。
2.PIR(Protein Information Resource)网址:/简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。
3.BRENDA(enzyme database)网址:简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。
4.CORUM(collection of experimentally verified mammalian protein complexes)网址:http://mips.gsf.de/genre/proj/corum/index.html简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database)网址:.au/cybase简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。
6.DB-PABP网址:/DB_PABP/简介:聚阴离子结合蛋白数据库。
聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。
生物信息学 第4章 蛋白质序列数据库

ftp:///sequin/
EMBL数据库
EMBL建立于1980年,EMBL核苷序列数据库(http:// /embl/)是欧洲主要的核苷序列收集单位,欧洲生物 信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库
EMBL: European Molecular Biology Laboratory EBI: European Bioinformatics Institute
核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以 及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。
EMBL数据库
DDBJ数据库
日本DNA数据库(DDBJ: www.ddbj.nig.ac.jp )是在亚洲唯一 的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据 库,并且发放给数据提交者国际认证的核酸序列编号。 由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和 GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时 候都享有相同数据。
/nuccore/221078348?report=fasta
Genbank格式
Genbank格式
Genbank格式
Genbank格式
电子提交序列到Genbank
两种主要的电子提交途径
1、互联网交互方式的提交 2、软件提交,Sequin
DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据 和发放编号给任何其他国家的研究者。
DDBJ数据库
INSDC
1998年,GenBank、EMBL和DDBJ共同成立了国际 核酸序列数据库协会 (International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进 行交换共享,保证数据信息的完整与同步,每两个 月更新一次版本。 /
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。
尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。
随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。
一个新手面对如此浩瀚的数据量往往无从下手。
本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。
蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。
蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。
这些数据库是分子生物信息学的基本数据资源。
上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。
信息的传播储存甚为不便。
随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。
进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。
伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。
但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。
同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
图1两大类蛋白质数据库1建库方式的分类蛋白质数据库种类繁多。
一个的数据库记录通常包括两部分:原始数据和对这些数据进行的生物学意义的注释。
以建库的方式而论,大致可以分为四类:一、最基础的一级数据库。
这些数据库一般是由国家或国际组织建设和维护的数据库。
如EMBL,PDB等。
这样的数据库的优点是完整,更新及时,并提供了一些较好的服务软件和平台计算条件。
缺点是对于数据的创新性,精确性和准确性没有权威的评价,数据过多,重复,分类较粗。
二、二级数据库,(如图2)。
二级数据库是在一级库德基础上,结合工作的需要将部分数据从一级库中取出,重新组合而成的特定数据库。
这类数据库专一性强,数据量相对较少,但质量高。
数据库结构设计精致。
三、专家库。
这是一种特殊的二级库。
与一般二级库不同之处在于它是经过有经验的专家进行人工校对标识之后建立的。
这样的库质量很高,使用方便可靠,但是更新发展较为缓慢。
这类库的典型代表是SWISS-PORT。
[2]图2 蛋白质二级结构数据库的逻辑结构⎧⎫⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎩⎭⎧⎫⎨⎬⎩⎭蛋白质功能位点数据库:Prosite 蛋白质序列指纹图谱数据库:Prints 以蛋白质序列数据库为基础构建的二级库同源蛋白质家族数据库:Pfam 同源蛋白质结构域数据库:Blocks 免疫球蛋白数据库:Kabat 蛋白质二级库以具有特殊功能的蛋白质为基础构建的二级库蛋白激酶数据库:Pkinase 蛋白质二级结构构象参数数据库DSSP 以三维结构原子坐标为基础构建的二级库已⎧⎫⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎧⎫⎪⎪⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎪⎩⎭⎪⎪⎪⎩⎭知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白质数据库HSSP2 蛋白质序列数据库:UniProt 数据库UniProt 属于蛋白质序列数据库。
如今的蛋白质序列数据库中,有的收集实验测定的序列,有的收集根据DNA 序列等翻译预测的蛋白质序列,有的这两者都有收录。
SWISS-PROT 、TrEMBL 、PIR 是曾经用的很广泛的蛋白质序列数据库。
而今都并入了UniProt 中。
现在UniProt 有三个层次的数据库:UniParc (UniProt Archive )收录所有UniProt 数据库子库中的蛋白质序列,虽然很大,但是信息比较粗糙。
既包括重复的序列也包括未加注释的序列;UniRef (UniProt Reference Clusters )是归纳UniProt 几个主要数据库并将重复的序列去除后的数据库。
其中UniRef100是只去除完全重复的序列的数据库,UniRef90是去除相似性在90%以上的相似序列数据库;UinProtKB (UniProt Knowledgebase )是有详细注释并与其他数据库及文献有链接的数据库,分为UinProtKB/SWISS-PROT 与UinProtKB/TrEMBL 两部分。
2.1 SWISS-PROTSWISS-PORT 是含有详细注释内容的蛋白质序列数据库。
1987年由日内瓦大学医学生物化学系(Department of Medical Biochemistry of the University of Geneva )与EMBL 共同维护,现由EMBL 的分支机构EBI 进行维护。
网址为:http://www.expasy.ch/sprot/sprot-top.html 。
一般地,任何蛋白质序列数据的搜索和比较都应从SWISS-PORT 开始[3]。
2.2 TrEMBL (Translated EMBL)EMBL是指实验室欧洲分子生物学实验室EMBL(The European Molecular Biology Laboratory),TrEMBL 是EMBL-DNA数据库中的核算序列翻译后产生的核酸序列数据库。
EMBL-DNA数据库于1982年由EMBL建立,全球性的国际DNA数据库,近年来发展很快,可进行核苷酸序列检索及序列相似性查询。
传统的蛋白质序列数据库的一种来源是通过对核酸序列数据库中的核算按照密码子人工翻译后,再用实验核实。
但是对于EMBL-DNA数据库中的核酸序列翻译进行核实远远落后EMBL-DNA数据库中数据量的发展。
EMBL-DNA数据库中含有众多的由计算机直接分析得到的在SWISS-PORT数据库中并不存在的氨基酸序列。
为了克服这一缺点,人们又开发了另一个数据库—EMBL核酸序列翻译数据库,即TrEMBL(Translated EMBL)。
该数据库中包含了EMBL数据库中的所有编码序列的信息。
网址为:http://www.expasy.ch/sprot/sprot-top.html。
这是SWISS-PROT数据库的重要补充,但是其中的数据质量要有所保留。
TrEMBL是从EMBL库中的核酸序列翻译出来的氨基酸序列,它们已经完成自动注释。
分为两部分:SP-TrEMBL的条目已经由专家人工分类并且赋予了SWISS-PORT库的索取号,但是还没有通过人工审读并最终收入SWISS-PORT。
REM-TrEMBL(REMaining TrEMBL)包含了由于某种原因没有被收入到SWISS-PORT的条目。
2.3 PIR数据库蛋白质信息资源数据库PIR(Protein Information Resource)是在很多文献中都要简绍的一个蛋白质序列数据库,其主要目的是提供按同源性和分类学组织的综合性,非冗余数据库。
不过目前它的大部分服务已经停止使用。
1984年建成PIR数据库,在2005年其序列信息相应并入UniProt中的SWISS-PROT与TrEMBL中。
3蛋白质结构数据库蛋白质结构的内容为被测定的蛋白质分子空间结构原子坐标,PDB数据库、SCOP数据库、CATH数据库是几个常用的交重要的蛋白质结构数据库。
3.1 PDB蛋白质数据库(Protein databank, PDB)由美国自然科学基金会,能源部和国立卫生研究院共同投资建立。
主要由X射线晶体衍射和核磁共振(NMR)测得的生物大分子三维结构所组成。
用户可直接查询,调用和观察库中所收录的任何大分子三维结构。
网址为:/pdb/。
随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。
90年代以来,随着多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。
蛋白质分子结构数据库的数据量迅速上升。
据2000年5月统计,PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽和病毒。
此外,还有核酸、蛋白和核酸复合物以及少量多糖分子。
近年来,核酸三维结构测定进展迅速。
PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。
除了原子坐标外,还包括物种来源、化合物名称、结构递交以及有关文献等基本注释信息。
此外,还给出分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。
每个PDB文件可能分割成一系列行,由行终止符终止。
在记录文件中每行由80列组成。
每条PDB记录末尾标志应该是行终止符。
PDB文件中每行都是自我识别的。
每行的前六列存放记录名称,左对齐空格补足.必须和规定的记录名称一致。
PDB文件也可看成是各种记录类型的总和。
每个记录类型包括一行或多行又被更深一层分成各字段。
以下是PDB文件存储数据格式的一个完整简洁的说明:一、标题部分1 HEADER(分子类,公布日期、ID号)2 OBSLTE (注明此ID号已改为新号)3 TITLE(说明实验方法类型)4 CA VEA T(可能的错误提示)5 COMPND(化合物分子组成)6 SOURCE(化合物来源)7 KEYWDS(关键词)8 EXPDTA(测定结构所用的实验方法)9 AUTHO(结构测定者)10 REVDA T(修订日期及相关内容)11 SPRSDE(已撤销或更改的相关记录)12 JRNL(发表坐标集的文献)13 REMARK:REMARK 1(有关文献)、REMARK 2(最大分辨率)、REMARK 3(用到的程序和统计方法)、REMARK 4-999。
二、一级结构1 DBREF(其他序列库的有关记录)2 SEQADV ( PDB与其他记录的出入)3 SEQRES(残基序列)4 MODRES (对标准残基的修饰)三、杂因子1 HET (非标准残基)2 HETNAM(非标准残基的名称)3 HETSNY (非标准残基的同义字)4 FORMOL(非标准残基的化学式)四、二级结构1 HELIX(螺旋)2 SHEET(折叠片)3 TURN(转角)五、连接注释1 SSBOND (二硫键)2 LINK(残基间化学键)3 HYDBND(氢键)4 SLTBRG(盐桥)5 CISPEP(顺式残基)六、簿记1 MASTER (版权拥有者)2 END(文件结束)另外,使用Rosmol程序可以利用PDB中的数据直接观察蛋白质的三维结构[3](如图3)。