蛋白质结构域数据库

合集下载

蛋白质序列分析及结构预测

蛋白质序列分析及结构预测

整理课件
13
蛋白质三级结构
二级结构进一步折叠形成的结构域
整理课件
14
三级结构:蛋白质的多肽链在各种二级结构的基础上再进一步盘曲或 折迭形成具有一定规律的三维空间结构,称为蛋白质的三级结构( tertiary structure)。蛋白质三级结构的稳定主要靠次级键,包括氢 键、疏水键、盐键以及范德华力(Van der Wasls力)等。
b. 来自人pi型谷胱甘肽-S-转硫酶中单个亚基中连续主链的部分β折叠结构(2DGQ.pdb)侧面视
图,可见转角(turn);
c. 来自人pi型谷胱甘肽-S-转硫酶一个亚基中连续主链的部分β折叠结构顶部视图,可见转角
(turn);
d. 来自人信号传递蛋白SMAD4(1DD1.pdb)的一个亚基中部分β折叠结构顶部视图,可见到大
整理课件
24
3. 蛋白质结构数据库
PDB( protein data bank , PDB) /pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病 毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结 构研究的研究机构, 并由结构生物学合作研究协会( RCSB) 维护和注释。
整理课件
17
二、蛋白质数据库
依据蛋白质的结构层次, 将蛋白质数据库分为:
1. 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些数据库的 数据主要以蛋白质的序列为主, 并赋予相应的注释; 2. 蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数据库主要 收集了蛋白质的保守结构域和功能域的特征序列; 3. 蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质的结构测 量数据为主; 4. 蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中有以序列 比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。

尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。

随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。

一个新手面对如此浩瀚的数据量往往无从下手。

本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。

关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。

蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。

蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。

这些数据库是分子生物信息学的基本数据资源。

上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。

信息的传播储存甚为不便。

随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。

进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。

伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。

但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。

本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。

同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

PIR-PSD 蛋白质序列数据库

PIR-PSD 蛋白质序列数据库

PIR的产生
PIR(Protein Information resouce, 蛋白质数据库)的出现 先于核酸数据库。在 1960年左右,Dayhoff (1925 - 1983)和其 同事们搜集了当时所有 已知的氨基酸序列,编 著了《蛋白质序列与结 构图册》。从这本图册 中的数据,演化为后来 的蛋白质信息资源数据 库
谢谢观赏
Make Presentation much more fun
PIR是由美国国家生物医学 基金会(NBRF)于1984年 建立,位于乔治敦大学。
PIR是一个集成了关于蛋白 质功能预测数据的公共资 源的数据库,其目的是支 持基因组/蛋白质组研究。 PIR与其他组织合作,共同 构成了PIR-国际蛋白质序 列数据库(PSD).
发展至今日830,000条非冗余蛋白质序列, 提供了36,000多PIR蛋白质超家族, 145,000多蛋白质家族,4,000多蛋白质 结构域,13,000多模体和555,000多相 似的蛋白质聚类信息。
PIR的功能
目的: 帮助研究者鉴别和解释蛋白质序列信息,
研究分子进化、功能基因组。
它是一个全面的、经过注释的、非冗余的蛋白质序 列数据库。
所有序列数据都经过整理,超过99%的序列已按蛋 白质家族分类,一半以上还按蛋白质超家族进行了 分
除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达 、翻译后处理、活化等; (4)序列中相关的位点、功能区域。
蛋白质一般信息
交叉引用文献
相关蛋白质家族信息
点击此处
此处链接 UniProt databases.

蛋白质结构域 名词解释

蛋白质结构域 名词解释

蛋白质结构域名词解释
蛋白质结构域是指蛋白质分子中具有特定结构和功能的独立模块。

这些结构域通常由100~300个氨基酸残基组成,可以折叠成稳定的三
维结构,并参与蛋白质的特定功能,如结合其他分子、催化化学反应、信号传导等。

蛋白质结构域的存在使得蛋白质能够在不同的生物过程
中发挥各种不同的功能。

蛋白质结构域的发现对于我们理解蛋白质的功能和进化具有重要
意义。

通过研究蛋白质结构域,科学家们可以预测蛋白质的功能、相
互作用和信号传导途径。

此外,蛋白质结构域的模块化性质使得研究
人员能够重新组合和改变蛋白质的功能,从而设计出具有特定功能的
蛋白质。

蛋白质结构域可在蛋白质数据库中进行存储和查询。

目前已经发
现了许多不同的蛋白质结构域,其中一些具有广泛的功能和分布,而
另一些则是特定物种或特定蛋白质家族所特有的。

研究人员可以通过
比对已知的蛋白质结构域来预测新发现的蛋白质中是否存在类似的结
构域,并进一步探究其功能和作用机制。

总之,蛋白质结构域是蛋白质分子中具有特定结构和功能的独立模块,对于研究蛋白质功能和设计功能性蛋白质具有重要意义。

通过研究蛋白质结构域,我们能够深入了解蛋白质的功能和相互作用,为生物学、药物研发等领域的研究提供了基础。

生物信息学

生物信息学

已知蛋白质序列往往进行如图所示的一系类列的分析下面用pfam软件进行结构域的简单分析:结构域的分析(pfam)•结构域(structure domain)蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元。

•25~300个氨基酸残基组成。

•五种类型:全平行结构域,反平行结构域,α+β结构域,α/β结构域,其他折叠类型。

蛋白质通常由一个或多个功能区域,通常称为域。

不同领域的出现在不同的组合在不同的蛋白质产生不同的曲目在自然界发现的蛋白质。

识别领域存在于一种蛋白质可以提供见解,蛋白质的功能。

Pfam软件简介:Pfma数据库是一个收藏的大量蛋白质域的家庭。

每个家庭由多个序列校准,以及“隐藏式马尔科夫模型(HMMS)。

有两个等级的品质,pfam家庭:一个和Pfma b。

Pfma a条目包含了许多来自底层序列数据库,称为Pfam seq,这是由最近发布的UniProtKB在给定的时间点。

Pfam a家庭由许多一个策划种子含有少量的对齐代表家族成员,剖面隐马尔可夫模型(HMMS)由种子对齐和一个自动生成的全排列,其中包含所有蛋白质序列检测属于家庭定义为HMM搜索数据库的主序列。

Pfam b家庭联合国注释和低质量为他们从集群自动生成非冗余的最新加入释放。

尽管低的质量,pfam b家庭可以用于识别功能守恒的地区没有发现了pfam a一个条目。

•利用pafm进行蛋白质结构域及功能位点分析MSRQAWIETSALIECISEYGTKCSFDTFQGLTINDISTLSNLM NQISV ASVGFLNDPRTPLQAMSCEFVNFISTADRHAYMLQK NWFDSDV APNVTTDNFIATYIKPRFSRTVSDVLRQVNNFALQ PMENPKLISRQLGVLKAYDIPYSTPINPMDV ARSSANVVGNV SQRRALSTPLIQGAQNVTFIVSESDKIIFGTRSLNPIAPGNFQI NVPPWYSDLNVVDARIYFTNSFLGCTIQNVQVNA VNGNDPV ATITVPTDNNPFIVDSDSVVSLSLSGGAINVTTA VNLTGYAIAI EGKFNMQMNASPSYYTLSSLTIQTSVIDDFGLSAFLEPFRIR LRASGQTEIFSQSMNTLTENLIRQYMPANQA VNIAFVSPWY RFSERARTILTFNQPLLPFASRKLIIRHLWVIMSFIA VFGRYY TVNkeywor d seaSignificant Pfam-A Matches Show or hide all alignments.Description EntrytypeClanEnvelope AlignmentStart End Start Endefhand_like Phosphoinositide-specificphospholipase C, efhand-likeDomain C L0220 245 318 250 318PI-PLC-X Phosphatidylinositol-specificphospholipase C, X domainFamily CL0384 322 465 322 465SH2SH2 domain Domain n/a550 639 550 639 SH2SH2 domain Domain n/a668 741 668 741 SH3_1SH3 domain Domain C L0010 797 843 797 843PI-PLC-Y Phosphatidylinositol-specificphospholipase C, Y domainFamily CL0384 952 1070 952 1070C2C2 domain Domain C L01541090 1177 1092 1176 nsignificant Pfam-A Matches Show or hide all alignments.Family Description EntrytypeClanEnvelope Alignment HMMBiscoStart End Start End From ToPH PH domain Domain C L026634 142 40 139 8 101 24.nsignificant Pfam-A Matches Show or hide all alignments.EF_hand_4EF-handdomainDomain C L0220 156 192 157 183 2 28 10.PH PH domain Domain C L0266 489 575 490 533 2 38 13.PH PH domain Domain C L0266 842 931 873 929 44 102 16. Pfam-B Matches Show or hide all alignments.Pfam-B_12554n/a n/a n/a37 232 45 164#HMM kPKfcpfrLssDesaLiWyskkkeKr..lkLSsvsriiiGqrTavFery....lrpeke #MATCH +P f++ +++++W + + + + + + +i +G+ + F ry + + #PP 5777788888888*****9996555566*********************5443223468 #SEQ R PERKTFQVKLETRQITWSRG ADKIEga IDIREIKEIRPGKTSRDFDRY qedpAFRPD QComments or questions on the site? Send a mail to pfam-help@。

蛋白质序列数据库

蛋白质序列数据库
▪ PIR-PSD的另一个重要特征是其对蛋白质超家族 的分类,提供序列的等级聚类信息,揭示序列间 的进化关系。
4 UniPro
▪ 蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI) 和瑞士生物信息学研究所(SIB)合作,于2002年共同组 建世界蛋白质资源(the Universal Protein Resource, UniPro)。
▪ UniPro把Swiss-Prot、TrEMBL和PIR等蛋白质数据库整 合在一起,是目前国际上最全面的蛋白质信息库。
综上所述,蛋白质序列数据库种类多且各有特色,因 此,用户在分析蛋白质序列时,应根据实际情况,尽可能 选择几个不同的数据库,并对结果加以比较。
The Universal Protein Resource (Uபைடு நூலகம்iProt)
属性。
5 序列描述:
是在生物和(或)生物文献的上下文中描述一个生 物序列或生物序列集;
生物源(BioSource)-来源生物的信息; 分子信息(MolInfo)--描述器指示分子类型,如基因,
mRNA,EST,肽链信息。
蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。
信息、注释、蛋白质序列等(如:Acetyltransferase)。
3D structure
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。

UNIPROT蛋白数据库概论

UNIPROT蛋白数据库概论

INDUCTION INTERACTION MASS SPECTROMETRY MISCELLANEOUS PATHWAY PHARMACEUTICAL POLYMORPHISM PTM RNA EDITING SIMILARITY SUBCELLULAR LOCATION SUBUNIT TISSUE SPECIFICITY TOXIC DOSE
UniProt相关网上工具列表
InterProScan: InterPro是个合作的方案, 目的是基于大多数普通的数据库之上,对蛋白 质家簇,区域、功能位点的进行独特的、无冗 余的描述。InterPro库结合了PROSITE、 PRINTS、P fam、ProDom、SMART和 TIGRFAMs这些数据库以及一些预置的数据 库。是一个用XML格式的、分布式的并且可以 在InterPro协会版权允范围下自由使用的。主 页地址是: /InterProScan。
描述刺激蛋白合成的成分或者环境 描述蛋白-蛋白相互作用的信息 报告通过质谱方法测定的蛋白或者其部分的分子重量 不属于其他已经定义的专题内容 描述蛋白的代谢通路 描述蛋白在制药学上的作用 描述蛋白多态性 描述翻译后的调节 描述RNA编辑是否引起一个或者多个的氨基酸改变 描述蛋白和其他蛋白序列是否有同源性 描述成熟蛋白的亚细胞定位 描述蛋白四级结构的一个亚单位信息 描述蛋白的组织特异性 描述蛋白的致命和致病剂量
InterPro相关数据库和算法
Pfam 收集了大量的多序列比对和Hmm,覆盖了几乎所有蛋白结 构域 PROSITE 关于蛋白质家族和结构域的数据库 ProDom 根据PSI-BLAST程序来查找同源蛋白结构域的数据库 SMART 用于发现和注释可移动蛋白多肽中得结构域 PRINTS 蛋白质指纹图谱数据库 Gene3D 通过HMMs预测蛋白结构,是CATH结构数据库得补充 TIGRFAMs 基于序列鉴定相关蛋白功能的工具 PANTHER 根据家族功能的特异性区分蛋白家族和亚家族 SUPERFAMILY 超家族和已知结构蛋白数据库

tbtools蛋白结构域

tbtools蛋白结构域

TBtools蛋白结构域1. 简介TBtools(Tools for Biologists)是一个用于生物学数据分析和可视化的集成工具。

其中,TBtools蛋白结构域模块提供了一系列功能,用于分析和可视化蛋白质结构域。

2. 蛋白结构域的概念蛋白质结构域是指具有一定功能和稳定空间结构的蛋白质片段。

它们通常由连续的氨基酸序列组成,并且在进化过程中被保留下来。

蛋白质结构域可以通过许多不同的方法进行识别和分类,例如序列比对、结构预测和功能注释等。

3. TBtools蛋白结构域功能3.1 蛋白结构域识别TBtools提供了多种常用的蛋白质结构域识别工具,例如HMMER、InterProScan、SMART等。

用户可以根据需要选择适当的工具进行分析。

这些工具可以基于不同的算法和数据库对输入的蛋白质序列进行扫描,并输出相应的结构域信息。

3.2 结果可视化TBtools提供了多种可视化方式,帮助用户更直观地理解和分析蛋白质结构域。

其中包括:•蛋白质结构域图:将蛋白质序列上的结构域标注在一条线上,颜色和形状表示不同的结构域类型。

用户可以通过缩放、平移和旋转等操作来查看详细信息。

•蛋白质结构域热图:将多个蛋白质序列的结构域信息绘制成热图,颜色表示结构域的存在与否以及其相对位置。

这种可视化方式可以帮助用户比较不同蛋白质之间的结构域差异。

•蛋白质结构域树:将蛋白质序列根据其结构域组成进行聚类,并绘制成树状图。

这种可视化方式可以帮助用户发现具有相似结构域组成的蛋白质群体。

3.3 结果分析TBtools还提供了一些功能,用于进一步分析和挖掘蛋白质结构域的信息。

其中包括:•结构域注释统计:统计输入序列中各个结构域类型的数量和频率,并生成统计图表。

用户可以通过这些统计信息来了解不同结构域类型的分布情况。

•结构域功能富集分析:根据结构域注释和GO、KEGG等数据库,对结构域的功能进行富集分析。

富集分析可以帮助用户发现与特定生物学过程或通路相关的结构域。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档