生物信息研究中常用蛋白质数据库的总结复习进程
生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。
尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。
随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。
一个新手面对如此浩瀚的数据量往往无从下手。
本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。
蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。
蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。
这些数据库是分子生物信息学的基本数据资源。
上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。
信息的传播储存甚为不便。
随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。
进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。
伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。
但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。
同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
蛋白质数据库介绍

SWISS-PROT或TrEMBL /sprotPIRMIPSJIPID已经和ExPASy 三、蛋白质二级结构预测网站(数据库)4始建于基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。
数据库包括两个数据库文件:数据文件Prosite5蛋白质二级结构构象参数数据库DSSP6蛋白质家族数据库FSSP7同源蛋白质数据库HSSP在前面已经述说过了。
第二节、蛋白质序列分析方法一、多序列比对双序列比对是序列分析的基础。
序列之间的关系,生物学模式方面起着相当重要的作用。
多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,法建立在某个数学或生物学模型之上。
因此,正如我们不能对双序列比对的结果得出果也没有绝对正确和绝对错误之分,相似性关系以及它们的生物学特征。
我们称比对前序列中残基的位置为绝对位置。
置Ⅰ相对位置。
显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。
绝对位置是序列本身固有的属性,也就比对过程赋予它的属性。
算法复杂性多序列比对的计算量相当可观,时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积,用(的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。
这样算法复杂性就变成了(例如,如果用某种颜色表示一组高度保守的残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。
颜色的选择可以根据主观愿望和喜好,但最好和常规方法一致。
用来构筑三维模型的按时氨基酸残基组件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。
多序列比对程序的另一个重要用途是定量估计序列间的关系,关系。
关系。
相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错误之处2同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。
其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。
蛋白质结构生物信息学研究的方法和技术

蛋白质结构生物信息学研究的方法和技术蛋白质是生物体内重要的分子机器,参与多种生物过程的调控和催化反应。
了解蛋白质的结构及其功能对于揭示生物学机制和疾病治疗具有重要意义。
随着计算机科学和生物学的快速发展,蛋白质结构生物信息学成为了研究蛋白质结构和功能的有效工具。
本文将介绍一些常用的蛋白质结构生物信息学研究的方法和技术。
一、蛋白质序列分析蛋白质序列是蛋白质结构和功能研究的基础。
蛋白质序列分析涉及到基本的序列比对、蛋白质家族的分类和预测。
常用的序列比对工具有BLAST和FASTA等,它们可以通过比对已知的蛋白质序列来预测未知序列的功能和结构。
除了序列比对外,蛋白质序列的功能和结构也可以通过机器学习和深度学习等方法进行预测和分类。
二、蛋白质结构预测蛋白质结构预测是蛋白质生物信息学研究的重要方向。
由于实验确定蛋白质结构的成本高昂和时间耗费较多,利用计算方法来预测蛋白质的结构具有重要意义。
蛋白质结构预测可以分为两类:基于序列的预测和基于结构的预测。
基于序列的预测主要通过模板比对、拟同源建模和蛋白质折叠动力学等方法进行。
而基于结构的预测则借助核磁共振、X射线晶体学和电子显微镜等实验手段,通过解析已有蛋白质的结构来预测目标蛋白质的结构。
三、蛋白质结构功能注释蛋白质结构功能注释是指通过蛋白质的结构信息来推断其功能。
结构功能注释包括激活位点的预测、配体结合位点的鉴定和蛋白质间相互作用的预测等。
这些注释信息可以帮助科研人员理解蛋白质结构与功能之间的关系,并为药物设计和疾病治疗提供依据。
注释工具和数据库,如PDB、UniProt和CATH等,为蛋白质结构功能研究提供了重要的资源。
四、蛋白质网络分析蛋白质网络分析是研究蛋白质间相互作用和信号传导的重要方法。
蛋白质网络可以通过大规模实验技术(例如质谱)或计算生物学方法(如基于数据库的预测)进行构建。
蛋白质网络分析可以揭示蛋白质间的相互作用关系、信号通路以及蛋白质在疾病发展中的作用。
蛋白质数据库使用说明

引言:蛋白质数据是生物信息学领域中非常重要的资源之一,它提供了大量关于蛋白质序列、结构、功能以及相互作用等方面的信息。
本文旨在介绍如何使用蛋白质数据库,帮助用户更好地利用这一资源进行研究。
概述:蛋白质数据库是一个集成了许多蛋白质信息的在线资源,用户可以通过搜索、浏览、等方式获取所需的信息。
其中,常用的蛋白质数据库包括NCBI、UniProt、PDB等。
这些数据库提供了丰富的蛋白质数据,并且不断更新以满足用户需求。
正文内容:1.数据库搜索功能1.1.关键词搜索1.1.1.输入蛋白质名称1.1.2.输入序列片段1.1.3.输入关键词1.2.高级搜索选项1.2.1.提供更精确的搜索结果1.2.2.支持过滤和排序功能1.2.3.可以根据相关字段进行搜索2.数据库浏览功能2.1.蛋白质分类2.1.1.按物种分类2.1.2.按功能分类2.1.3.按家族分类2.2.数据表格浏览2.2.1.查看蛋白质基本信息2.2.2.查看蛋白质序列2.2.3.查看蛋白质结构2.3.数据图谱浏览2.3.1.查看蛋白质相互作用网络2.3.2.查看蛋白质结构域分布2.3.3.查看蛋白质功能注释3.数据库功能3.1.蛋白质序列数据3.1.1.全部序列3.1.2.特定物种的序列3.2.蛋白质结构数据3.2.1.已解析的蛋白质结构3.2.2.蛋白质结构预测结果3.3.蛋白质相互作用数据3.3.1.已验证的相互作用数据3.3.2.预测的相互作用数据4.数据库工具与资源4.1.序列比对工具4.1.1.BLAST4.1.2.PSIBLAST4.2.结构预测工具4.2.1.SWISSMODEL4.2.2.Phyre24.3.功能注释资源4.3.1.GeneOntology4.3.2.InterPro4.4.数据库交互接口4.4.1.提供API接口4.4.2.支持数据提交与5.数据库更新与维护5.1.数据更新频率5.2.数据质量保证5.3.用户反馈与支持5.4.数据库版本与历史记录总结:蛋白质数据库为研究人员提供了丰富的蛋白质信息资源,通过搜索、浏览、等功能,用户可以轻松地获取需要的数据。
生物信息学蛋白质序列数据库解读

生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
八、蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
七、疾病相关基因数据库
(1)OMIM:
• OMIM(Online Mendelian Inheritance in Man)是 美国Jonhs Hopkins大学Dr. Victor A. McKusick等人 建立和编辑的有关人类基因和遗传病目录的电子 版。
• 于本世纪60年代创立,旨在为临床医师和遗传病 研究工作者提供服务。
• OMIM包含大量的及时更新的有关人类基因及其突 变序列数据和遗传病的临床特征等信息和相关参 考文献。
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
生物信息学蛋白质序列数据库解读
OMIM数据库基本信息
• MIM----概述、克隆、 基因结构、物理图、 基因功能、 生化特征、 分子遗传学、 动物模型、 等位突变、 参考文献、 编辑史等.
生物信息学方法在蛋白质研究中的应用

生物信息学方法在蛋白质研究中的应用随着基因测序技术的飞速发展,人类已经可以了解到许多蛋白质的基本信息,例如其分子量、氨基酸序列等。
但是,要更加深入地了解蛋白质的结构和功能,需要进一步的研究。
生物信息学方法就是一种非常重要的手段,可以从大量的蛋白质数据中分析蛋白质的性质、功能和结构等,为研究者提供更加精确、全面的信息。
1. 蛋白质序列分析生物信息学中最重要的任务之一是对蛋白质序列的分析。
蛋白质序列可以被用来分析蛋白质的结构和功能,以及其参与的生物过程。
一种常见的生物信息学方法叫做序列比对,它可以将两个或多个蛋白质序列进行比较。
如果两个序列相似度很高,则说明它们来自于同一个基因家族或者是同一个细胞机构中的不同成员。
此外,比对多个序列还能够帮助鉴定高度保守区域和相似性蛋白质之间的差异。
在对蛋白质结构进行分析时,有时需要破解蛋白质序列中特定区域的密码,这通常称为预测功能域或者结构域。
2. 蛋白质结构预测另一个生物信息学方法非常重要的任务就是蛋白质结构预测。
蛋白质结构预测在许多领域有用,特别是在生物学和医学上。
通常情况下,预测蛋白质结构要使用的方法是基于序列相似度和晶体学结构分析来完成的。
例如,生物信息学可以通过在蛋白质序列中识别共同的区域,然后把这些区域合并在一起,最终建立出一个具有可靠结构的蛋白质模型。
然而,尽管这些方法对于一些高度保守的蛋白质结构来说可能是有用的,它们对于那些不太相似或者难以理解的蛋白质是没用的。
3. 预测蛋白质相互作用生物信息学同样对预测和描述蛋白质相互作用至关重要。
蛋白质相互作用是许多生物过程所必需的,也是疾病发生和发展的重要因素。
在过去,研究人员主要通过实验方法来研究蛋白质相互作用。
然而,这种方法仅限于实验条件,而难以获取生物体内不同环境中的数据。
生物信息学提供了一种非常有效的方法,即利用计算化学和计算机科学方法情境创建计算工具和算法,识别和预测蛋白质相互作用。
神经网络是一种重要的生物信息学方法,可以分析大量的蛋白质数据库以预测或识别相互作用分子之间的复杂性之间的细微差异。
蛋白质组学研究中常用的网站和数据库

蛋白质组学研究中常用的网站和数据库蛋白质, 数据库, 研究本帖引用网址:/thread-35586-1-1.html一、蛋白质数据库1.UniProt (The Universal Protein Resource) 网址://uniprot/简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。
2.PIR(Protein Information Resource) 网址:/简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。
3.BRENDA(enzyme database) 网址:简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。
4.CORUM(collection of experimentally verifiedmammalian protein complexes) 网址:http://mips.gsf.de/genre/proj/corum/index.html简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database) 网址:.au/cybase简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。
6.DB-PABP 网址:/DB_PABP/简介:聚阴离子结合蛋白数据库。
生物信息学复习的总结

生物信息期末总结1.生物信息学〔Bioinformatics〕定义:〔第一章〕★生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来说明和理解大量数据所包含的生物学意义。
〔或:〕生物信息学是运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进展分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。
〔NSFC〕2. 科研机构与网络资源中心:NCBI:美国国立卫生研究院NIH下属国立生物技术信息中心;EMBnet:欧洲分子生物学网络;EMBL-EBI:欧洲分子生物学实验室下属欧洲生物信息学研究所;ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统;(Expert Protein Analysis System)Bioinformatics Links Directory;PDB (Protein Data Bank);UniProt 数据库3. 生物信息学的主要应用:1.生物信息学数据库;2.序列分析;3.比拟基因组学;4.表达分析;5.蛋白质结构预测;6.系统生物学;7.计算进化生物学与生物多样性。
4.什么是数据库:★1、定义:数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。
〔记录record、字段field、值value〕2、生物信息数据库应满足5个方面的主要需求:〔1〕时间性;〔2〕注释;〔3〕支撑数据;〔4〕数据质量;〔5〕集成性。
3、生物学数据库的类型:一级数据库和二级数据库。
〔国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT等;蛋白质结构库有PDB等。
〕4、一级数据库与二级数据库的区别:★1〕一级数据库:包括:a.基因组数据库----来自基因组作图;b.核酸和蛋白质一级结构序列数据库;c.生物大分子(主要是蛋白质)的三维空间结构数据库,(来自X-衍射和核磁共振结构测定);2〕二级数据库:是对原始生物分子数据进展整理、分类的结果,是在一级数据库、实验数据和理论分析的根底上针对特定的应用目标而建立的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息研究中常用蛋白质数据库的总结生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞 2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。
尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。
随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。
一个新手面对如此浩瀚的数据量往往无从下手。
本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。
蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。
蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。
这些数据库是分子生物信息学的基本数据资源。
上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。
信息的传播储存甚为不便。
随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。
进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。
伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。
但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。
同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
图1两大类蛋白质数据库1建库方式的分类蛋白质数据库种类繁多。
一个的数据库记录通常包括两部分:原始数据和对这些数据进行的生物学意义的注释。
以建库的方式而论,大致可以分为四类:一、最基础的一级数据库。
这些数据库一般是由国家或国际组织建设和维护的数据库。
如EMBL,PDB等。
这样的数据库的优点是完整,更新及时,并提供了一些较好的服务软件和平台计算条件。
缺点是对于数据的创新性,精确性和准确性没有权威的评价,数据过多,重复,分类较粗。
二、二级数据库,(如图2)。
二级数据库是在一级库德基础上,结合工作的需要将部分数据从一级库中取出,重新组合而成的特定数据库。
这类数据库专一性强,数据量相对较少,但质量高。
数据库结构设计精致。
三、专家库。
这是一种特殊的二级库。
与一般二级库不同之处在于它是经过有经验的专家进行人工校对标识之后建立的。
这样的库质量很高,使用方便可靠,但是更新发展较为缓慢。
这类库的典型代表是SWISS-PORT。
[2]图2 蛋白质二级结构数据库的逻辑结构⎧⎫⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎩⎭⎧⎫⎨⎬⎩⎭蛋白质功能位点数据库:Prosite 蛋白质序列指纹图谱数据库:Prints 以蛋白质序列数据库为基础构建的二级库同源蛋白质家族数据库:Pfam 同源蛋白质结构域数据库:Blocks 免疫球蛋白数据库:Kabat 蛋白质二级库以具有特殊功能的蛋白质为基础构建的二级库蛋白激酶数据库:Pkinase 蛋白质二级结构构象参数数据库DSSP 以三维结构原子坐标为基础构建的二级库已⎧⎫⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎧⎫⎪⎪⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎪⎩⎭⎪⎪⎪⎩⎭知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白质数据库HSSP2 蛋白质序列数据库:UniProt 数据库UniProt 属于蛋白质序列数据库。
如今的蛋白质序列数据库中,有的收集实验测定的序列,有的收集根据DNA 序列等翻译预测的蛋白质序列,有的这两者都有收录。
SWISS-PROT 、TrEMBL 、PIR 是曾经用的很广泛的蛋白质序列数据库。
而今都并入了UniProt 中。
现在UniProt 有三个层次的数据库:UniParc (UniProt Archive )收录所有UniProt 数据库子库中的蛋白质序列,虽然很大,但是信息比较粗糙。
既包括重复的序列也包括未加注释的序列;UniRef (UniProt Reference Clusters )是归纳UniProt 几个主要数据库并将重复的序列去除后的数据库。
其中UniRef100是只去除完全重复的序列的数据库,UniRef90是去除相似性在90%以上的相似序列数据库;UinProtKB (UniProt Knowledgebase )是有详细注释并与其他数据库及文献有链接的数据库,分为UinProtKB/SWISS-PROT 与UinProtKB/TrEMBL 两部分。
2.1 SWISS-PROTSWISS-PORT 是含有详细注释内容的蛋白质序列数据库。
1987年由日内瓦大学医学生物化学系(Department of Medical Biochemistry of the University of Geneva )与EMBL 共同维护,现由EMBL 的分支机构EBI 进行维护。
网址为:http://www.expasy.ch/sprot/sprot-top.html 。
一般地,任何蛋白质序列数据的搜索和比较都应从SWISS-PORT 开始[3]。
2.2 TrEMBL (Translated EMBL)EMBL是指实验室欧洲分子生物学实验室EMBL(The European Molecular Biology Laboratory),TrEMBL 是EMBL-DNA数据库中的核算序列翻译后产生的核酸序列数据库。
EMBL-DNA数据库于1982年由EMBL建立,全球性的国际DNA数据库,近年来发展很快,可进行核苷酸序列检索及序列相似性查询。
传统的蛋白质序列数据库的一种来源是通过对核酸序列数据库中的核算按照密码子人工翻译后,再用实验核实。
但是对于EMBL-DNA数据库中的核酸序列翻译进行核实远远落后EMBL-DNA数据库中数据量的发展。
EMBL-DNA 数据库中含有众多的由计算机直接分析得到的在SWISS-PORT数据库中并不存在的氨基酸序列。
为了克服这一缺点,人们又开发了另一个数据库—EMBL核酸序列翻译数据库,即TrEMBL(Translated EMBL)。
该数据库中包含了EMBL数据库中的所有编码序列的信息。
网址为:http://www.expasy.ch/sprot/sprot-top.html。
这是SWISS-PROT数据库的重要补充,但是其中的数据质量要有所保留。
TrEMBL是从EMBL库中的核酸序列翻译出来的氨基酸序列,它们已经完成自动注释。
分为两部分:SP-TrEMBL的条目已经由专家人工分类并且赋予了SWISS-PORT库的索取号,但是还没有通过人工审读并最终收入SWISS-PORT。
REM-TrEMBL(REMaining TrEMBL)包含了由于某种原因没有被收入到SWISS -PORT的条目。
2.3 PIR数据库蛋白质信息资源数据库PIR(Protein Information Resource)是在很多文献中都要简绍的一个蛋白质序列数据库,其主要目的是提供按同源性和分类学组织的综合性,非冗余数据库。
不过目前它的大部分服务已经停止使用。
1984年建成PIR数据库,在2005年其序列信息相应并入UniProt中的SWISS-PROT与TrEMBL中。
3蛋白质结构数据库蛋白质结构的内容为被测定的蛋白质分子空间结构原子坐标,PDB数据库、SCOP数据库、CATH数据库是几个常用的交重要的蛋白质结构数据库。
3.1 PDB蛋白质数据库(Protein databank, PDB)由美国自然科学基金会,能源部和国立卫生研究院共同投资建立。
主要由X射线晶体衍射和核磁共振(NMR)测得的生物大分子三维结构所组成。
用户可直接查询,调用和观察库中所收录的任何大分子三维结构。
网址为:/pdb/。
随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。
90年代以来,随着多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。
蛋白质分子结构数据库的数据量迅速上升。
据2000年5月统计,PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽和病毒。
此外,还有核酸、蛋白和核酸复合物以及少量多糖分子。
近年来,核酸三维结构测定进展迅速。
PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。
除了原子坐标外,还包括物种来源、化合物名称、结构递交以及有关文献等基本注释信息。
此外,还给出分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。
每个PDB文件可能分割成一系列行,由行终止符终止。
在记录文件中每行由80列组成。
每条PDB记录末尾标志应该是行终止符。
PDB文件中每行都是自我识别的。
每行的前六列存放记录名称,左对齐空格补足.必须和规定的记录名称一致。
PDB文件也可看成是各种记录类型的总和。
每个记录类型包括一行或多行又被更深一层分成各字段。
以下是PDB文件存储数据格式的一个完整简洁的说明:一、标题部分1 HEADER(分子类,公布日期、ID号)2 OBSLTE (注明此ID号已改为新号)3 TITLE(说明实验方法类型)4 CAVEA T(可能的错误提示)5 COMPND(化合物分子组成)6 SOURCE(化合物来源)7 KEYWDS(关键词)8 EXPDTA(测定结构所用的实验方法)9 AUTHO(结构测定者)10 REVDAT(修订日期及相关内容)11 SPRSDE(已撤销或更改的相关记录)12 JRNL(发表坐标集的文献)13 REMARK:REMARK 1(有关文献)、REMARK 2(最大分辨率)、REMARK 3(用到的程序和统计方法)、REMARK 4-999。
二、一级结构1 DBREF(其他序列库的有关记录)2 SEQADV ( PDB与其他记录的出入)3 SEQRES(残基序列)4 MODRES (对标准残基的修饰)三、杂因子1 HET (非标准残基)2 HETNAM(非标准残基的名称)3 HETSNY (非标准残基的同义字)4 FORMOL(非标准残基的化学式)四、二级结构1 HELIX(螺旋)2 SHEET(折叠片)3 TURN(转角)五、连接注释1 SSBOND (二硫键)2 LINK(残基间化学键)3 HYDBND(氢键)4 SLTBRG(盐桥)5 CISPEP(顺式残基)六、簿记1 MASTER (版权拥有者)2 END(文件结束)另外,使用Rosmol程序可以利用PDB中的数据直接观察蛋白质的三维结构[3](如图3)。