生物信息学第4章蛋白质序列数据库
生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。
尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。
随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。
一个新手面对如此浩瀚的数据量往往无从下手。
本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。
蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。
蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。
这些数据库是分子生物信息学的基本数据资源。
上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。
信息的传播储存甚为不便。
随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。
进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。
伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。
但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。
同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
生物信息学 第四章 双序列比对

中可以利用计算机程序实现上述序列比对的基本算法。然而,序列比对不仅需要考虑子序列 之间的匹配,而且需要对整个序列进行比较。也就是说,必须考虑两个序列中所有残基的匹 配。这就意味着,不可能使所有残基都能严格匹配。在这种情况下,比对过程中确定空位的 过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹 配数。我们知道,空位的引入,意味着两个序列之间残基的插入或删除。如果对引入空位不 加限制,所得比对结果即使分值较高,也缺乏生物学依据。因此,必须有一种机制,对空位 的引入加以限制。常用的方法就是空位罚分,即每插入一空位就在总分值中罚去一定分值, 即加上一负分值,包括起始空位罚分和延伸空位罚分。所谓起始空位,是指序列比对时,在 一个序列中插入一个空位,使两个序列之间有更好的匹配;所谓延伸空位,是指在引入一个 或几个空位后,继续引入下一个连续的空位,使两个序列之间有更好的匹配。延伸空位罚分 值可以与起始空位罚分值相同,也可以比起始空位罚分值小。因此,序列比对最终结果的分 数值是两个序列之间匹配残基的总分值与空位罚分的总和。 上述序列比对过程中,只考虑了残基的同一性,即两个序列之间完全相同的匹配残基 数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为 1 和 0 的分数矩阵(见表 6.1),即相同残基的分数值为 1,不同残基的分数值为 0。这种矩阵通常称为稀疏矩阵,因 为矩阵大多数单元的值为 0。显然,这种单一的相似性分数矩阵具有很大局限性。改进分数 矩阵的表征性能,找出那些潜在的具有生物学意义的最佳匹配,提高数据库搜索的灵敏度, 而又不至于降低信噪比,是序列比对算法的核心。 相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建,是基于远距离 进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间相似性程度。恰当选 择相似性分数矩阵,可以提高序列比对的敏感度,特别是两个序列之间完全相同的残基数比 较少的情况下。必须说明,相似性分数矩阵有其固有的噪声,因为它们在对两个具有一定相 似性的不同残基赋予某个相似性分值时的同时,也引进了比对过程的噪声。这就意味着随着 微弱信号的增强,随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的 问题,而只对两个常用的相似性分数矩阵作简单介绍,即突变数据矩阵和残基片段替换矩阵。 4.7.1 突变数据矩阵 突变数据矩阵(Mutation Data Matrix,简称 MD,Dayhoff 等,1978)是基于单点可接 受突变的概念,即 Point Accepted Mutation,简称 PAM。1 个 PAM 的进化距离表示在 100 个 残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩 阵,可以通过对原始矩阵进行一定的数学处理获得。例如,PAM250 相似性分数矩阵相当于 在两个序列之间具有 20%的残基匹配。 在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机
生物信息学-蛋白质分析

有关注释内容的文献、蛋白质名称词典和其他有助于文献
挖掘的人文语言处理技术开发的信息、数据库校正、蛋白 质名称标记和功能注释标准体系(ontology)。使用
iProLINK可以获得描述蛋白质记录的文本文献资源,在
UniProtKB记录(生物词典)中加入蛋白质或基因命名的 图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋
分类分布、分级和功能域结构,以及家族
成员,包括功能、结构、传导通路、功能
注释标准体系(ontology)和家族分类。
利用这些信息可以获得蛋白质的准确功能 或预测的功能和该蛋白质所属家族成员共 有的其他特征。
• 4. iProLINK-蛋白质文献、信息和知识整合数据库 iProLINK(/iprolink/)提供
Pfam
• 蛋白质一般是由一个或多个功能区域组成,这些 功能区域通常称作域(domain)。在不同的蛋白 质中不同的域以不同的组合出现,导致在自然界 发现多种多样组成成分的蛋白质。识别出现在蛋
白质中的域可以了解蛋白质的功能。
• Pfam数据库(/)是一个
PIR信息库资源
PIR主要数据库:
• • • • 1. UniProt-通用蛋白质资源库 2. iProClass-蛋白质知识整合数据库 3. PIRSF-蛋白质家族分类系统 4. iProLINK-蛋白质文献、信息和知识整合 数据库
• 1.UniProt-通用蛋白质资源库 UniProt (/)是存储和链接其他 蛋白质数据库的资源库,并且是蛋白质序列和具 有综合功能注释目录的中心资源库。使用 UniprotKB可以检索准确、可靠的蛋白综合信息。 使用UniRef可以减少冗余,加速序列相似性搜索。 使用UniParc可以检索存档序列和它们来源的数 据库。
生物信息学数据库

BLAST:碱基局部对准检索工具
Basic Locul Alignment Search Tool
可进行核苷酸序列、蛋白质序列方面的 同源性分析,能在8秒内在整个DNA数据库 中进行序列比较。
diabetes
顺序号中第1位数字表示所涉及 基因的遗传类型: 1:常染色体显性(1994.5.15前创建) 2:常染色体隐性(1994.5.15前创建) 3:X连锁基因座或表现型 4:Y连锁基因座或表现型 5:线粒体基因座或表现型 6:常染色体基因座或表现型 (1994.5.15后创建的条目)
比较结果页面
彩色积 分图
序 列 相 似 存贮号 描 述
描述
积分
检索 范围
E值 统计
链接
相似率为100%
序列对准 描述
三、基因组数据库
1、Genome:可获得800多种生物体的基 因组数据,部分已完成测序。
2、人类基因组资源: human genome resources
整合了多种相关的分子生物学数据库和 公共分析软件,为科研人员提供了自动化 的实验数据获得、加工和整理途径,为基 因区域的预测和基因功能预测提供了一系 列便捷的方法。
序列数据库 结构数据库 生物信息学数据库的种类 图谱数据库 突变数据库 文献数据库
专业杂志 生物信息学数据库的查找方法 专门数据库目录的网站
著名的生物信息学中心
参见教材p227--p242
NCBI数据库组织
一、NCBI中的生物信息数据库
1)、PubMed: 生物医学文献数据库 2)、Nucleotide:核酸序列数据库 3)、Protein sequence database:
生物信息学 第4章 蛋白质序列数据库

ftp:///sequin/
EMBL数据库
EMBL建立于1980年,EMBL核苷序列数据库(http:// /embl/)是欧洲主要的核苷序列收集单位,欧洲生物 信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库
EMBL: European Molecular Biology Laboratory EBI: European Bioinformatics Institute
核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以 及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。
EMBL数据库
DDBJ数据库
日本DNA数据库(DDBJ: www.ddbj.nig.ac.jp )是在亚洲唯一 的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据 库,并且发放给数据提交者国际认证的核酸序列编号。 由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和 GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时 候都享有相同数据。
/nuccore/221078348?report=fasta
Genbank格式
Genbank格式
Genbank格式
Genbank格式
电子提交序列到Genbank
两种主要的电子提交途径
1、互联网交互方式的提交 2、软件提交,Sequin
DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据 和发放编号给任何其他国家的研究者。
DDBJ数据库
INSDC
1998年,GenBank、EMBL和DDBJ共同成立了国际 核酸序列数据库协会 (International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进 行交换共享,保证数据信息的完整与同步,每两个 月更新一次版本。 /
生物信息学教学资料:生物信息学常用数据库

Bioinformatics Method and Practice
1
生物信息学常用数据库
• 一级数据库
–数据库中的数据直接来源于实验获得的原始数 据,只经过简单的归类整理和注释。
• 二级数据库
–对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础 上针对特定的应用目标而建立的。
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis elegans
rat
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
– FlyBase (Drosophila genome database) – BDGP (Berkeley Drosphila genome project)
Danio rerio (Zebrafish)
– ZFIN (Zebrafish Information Network at University of Oregon, USA) – WashU-Zebrafish Genome Resources (Zebrafish EST database at Washington University, USA)
ftpncbinlmnihgovbloacidsequencednasequencetblastxblastxblastntblastnblastpnucleotidedatabaseproteindatabasenucleotidedatabasenucleotidedatabaseproteindatabasetranslatedtranslatedtransstpproteinprotein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的关系进行seg过滤blastnnucleotidenucleotide比较核酸序列与核酸数寻找较高分值的匹配对较远的关系不太适blastxnucleotideprotein比较核酸序列理论上的六个读码框的所有转换结果和蛋白质数据库用于新的dna序列和ests的分析可转译搜索序列tblastnproteinnucleotide比较蛋白质序列和核酸序列数据库动态转换为六个读码框的结果用于寻找数据库中没有标注的编码区可转译数据库序列tblastxnucleotidenucleotide比较核酸序列和核酸序列数据库经过两次动态转换为六个读码框的结果转译搜索序列与数据库序列32wwwniuwkcom牛牛文档分以blastx为例6
PIR蛋白质序列数据库-PPT课件

UniProt数据库的构成
• UniProt数据库
UniProt知识库(UniProtKB) UniProt档案(UniParc) UniProt参考资料库(UniRef) UniProt元基因组学 环境微生物序列数据库(UniMES)
19
1.UniProt知识库(UniProtKB)
• UniProt知识库是一个专家级的数据库,它 可以通过与其它资源进行交互查找的方式 为用户提供一个有关目的蛋白质的全面的 综合信息。UniProtKB包括两个组成部分: UniProtKB/Swiss-Prot UniProtKB/TrEMBL。
4
除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因 表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。
5
PIR提供三种类型的检索服务:
一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息和蛋白质家族 信息的高级搜索, 包括按注释分类的相似性搜索、结构域搜索等。
三、序列特征
Uniprot中一个蛋白质的例子
/uniprot/P10962
四、蛋白质结构域组成和蛋白质家族
Uniprot中一个蛋白质的例子
/uniprot/P10962
五、其他特征:结构、参与的蛋白质互作
Pfam
• 蛋白质一般是由一个或多个功能区域组成,这些 功能区域通常称作域(domain)。在不同的蛋白 质中不同的域以不同的组合出现,导致在自然界 发现多种多样组成成分的蛋白质。识别出现在蛋
整理(蛋白质序列数据库)

蛋白质序列数据库我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。
因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。
PIR历史上,蛋白质数据库的出现先于核酸数据库。
在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。
从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR(Protein Information Resource)。
PIR是由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。
它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。
所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。
PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。
目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。
至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。
除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。
对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。
PIR中一个具体的登录项如图4.4所示。
PIR提供三种类型的检索服务。
一是基于文本的交互式查询,用户通过关键字进行数据查询。
二是标准的序列相似性搜索,包括BLAST、FastA等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Genbank格式
Genbank格式
电子提交序列到Genbank
两种主要的电子提交途径 1、互联网交互方式的提交 2、软件提交,Sequin ftp:///sequin/
专业数据库或专用数据库。
核酸序列数据库---三大核酸序 列数据库
GenBank
EMBL(的核酸数据库)
DDBJ
GenBank数据库
GenBank是具有目录和生物学注释的核酸序列 综合数据库,
由美国国家医学图书馆(NLM)的国家生物技 术信息中心(NCBI)构建、维护和管理。
该中心位于美国马里兰国家健康研究所 (NIH)。
GenBank数据库页面
GenBank数据库
GenBank(/genbank/) 该核酸数据库中包含了已经公开的30万余种不
同物种生物的核酸序列,这些数据主要来源于 全世界不同实验室和大规模测序计划项目。
GenBank数据库
GenBank数据库每天与欧洲分子生物学实验室的 核酸序列数据库(European Molecular Biology Laboratory Nucleotide Sequence Database, EMBL)和日本的DNA数据库(DNA Data Bank of Japan DDBJ)进行数据交换,以保证数据库内容 在全世界范围的同步性。
EMBL数据库
EMBL建立于1980年,EMBL核苷序列数据库(http:// /embl/)是欧洲主要的核苷序列收集单位,欧洲生物 信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库
EMBL: European Molecular Biology Laboratory EBI: European Bioinformatics Institute
核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以 及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。
EMBL数据库
DDBJ数据库
日本DNA数据库(DDBJ: www.ddbj.nig.ac.jp )是在亚洲唯一 的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据 库,并且发放给数据提交者国际认证的核酸序列编号。
GenBank数据库记录格式
Nucleotide通常用FASTA和GenBank两种格式显示。
FASTA格式仅包括该序列的简要特征,并以G、A、T、C四种碱基 列出核苷酸序列,简单明了(各个数据库通用的格式,属于最简 洁明了的格式)。
而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列 的详细信息( GenBank 所独有的格式)。
由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和 GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时 候都享有相同数据。
DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据 和发放编号给任何其他国家的研究者。
DDBJ数据库
INSDC
1998年,GenBank、EMBL和DDBJ共同成立了国际 核酸序列数据库协会
(International Nucleotide Sequence Database Collaboration,INSDC)
三大核酸数据库之间每天将新测定或更新的数据进 行交换共享,保证数据信息的完整与同步,每两个 月更新一次版本。
FASTA格式序列
>gi|221078348|gb|EU755370.2| Solanum lycopersicum isolate WRKY1000.3 WRKY mRNA, complete cds ATTTTAAGCTTTTTGGATTTGTTGGAATTTTATTAAGAAGAAATTAAAGCAATGGAAT TCACAAGTTTGGTTGATACTTCCTTGGATTTGAGTTTTAGACCTCTTCCAGTTCTTG ATAAAGTGCTGAAACAAGAAGTTCAGAGTAATTTCACTGGATTGAGCAGAGACAAT ATGCTGGTGAAAGATGAGGCAGGTGATTTGTTGGAGGAACTGAACAGAGTGAGCA GTGAAAACAAGAAACTAACAGAGATGCTCACAGTGGTGTGTGAAAATTACAATGCA TTAAGAAACCAACTAATGGAGTATATGAACAACCAGAATAATGGTGTAGTAGATGAT AGTGCTGGATCAAGGAAAAGAAAAGCTGAAAATATCTCCAATCCCAACAACAACAA CAACAACAAAAACAACAACTTGGATATTGTTTGTGGACGTTTATCAGAAAGCAGTTC AAGTGATGAAGAGTCTTGTTGCAAGAAACCTAGAGAAGAGCACATAAAAACTAAGG TTTCTGTCGTTTCTATGAGGACAGAAGCATCTGATACCTCTCTTATTGTAAA
第4章 DNA、RNA和 蛋白质序列数据库
生物信息学数据库
生物信息数据库种类繁多,就目前来看, 大体可以分为四个大类:
一 1.基因组数据库; 次 2.核酸和蛋白质一级结构序列数据库; 数 据 3.生物大分子(主要是蛋白质)三维空间结构数据库; 库
4.根据以上三类数据库和文献资料为基础构建的二次数据库。 也称专门数据库、
GenBank数据库
NCBI的GenBank: /genbank
NCBI: National Center for Biotechnology Information
NLM: National Library of Medicine NIH: National Institute of Health