Discovery Studio官方教程--预测蛋白质序列性质(PTM、抗原表位、亲水疏水性等)
蛋白质修饰位点预测

蛋白质修饰位点预测
蛋白质修饰位点预测是生物信息学领域的一个重要研究方向。
蛋白质修饰是一种在蛋白质翻译后发生的化学变化,对蛋白质的功能和活性产生重要影响。
目前,许多生物信息学方法已经被开发用于预测蛋白质修饰位点,主要包括以下几种:
1. 基于机器学习的方法:这类方法通过训练一个分类器(如支持向量机(SVM)、神经网络等)来预测蛋白质修饰位点。
这类方法通常需要大量的已知修饰位点和非修饰位点的蛋白质序列作为训练数据。
例如,研究人员针对水稻蛋白质磷酸化位点开发了一种基于SVM的预测工具[1]。
2. 基于氨基酸序列特征的方法:这类方法通过分析蛋白质序列中的氨基酸特征(如氨基酸频率、组成等)来预测修饰位点。
这类方法不需要依赖蛋白质结构信息,仅通过序列信息进行预测。
例如,研究人员利用氨基酸频率计算方法来进行特征提取,并结合SVM算法构建了一种针对水稻蛋白质磷酸化位点的预测工具[2]。
3. 基于结构的方法:这类方法通过分析蛋白质三维结构来预测修饰位点。
由于蛋白质结构与功能密切相关,这类方法具有较高的预测准确性。
然而,结构信息通常不易获取,且计算成本较高。
4. 集成学习方法:这类方法将多个预测模型进行集成,以提高预测准确性。
例如,研究人员将多个基于机器学习的预测模型进行集成,构建了一种针对蛋白质翻译后修饰位点的预测工具[3]。
总之,蛋白质修饰位点预测是一个具有挑战性的课题。
随着生物信息学技术的发展,未来可能会出现更多高效、准确的预测方法。
同时,蛋白质修饰位点预测在生物学研究中的应用也将越来越广泛,有助于揭示蛋白质功能和调控机制。
蛋白质序列结构的分析与预测

蛋白质体学报告生物数据库简介蛋白质序列结构的分析与预测-Ⅱ(5/9)演讲老师:吕平江老师指导老师:李永安老师生命科学系四组长:曾瓘钧 488340444组员:林泰宏 488340030廖智凯 488340195李岳锜 488340547 前言:这本书之前的章节关于数据库得到知识的讨论,可以运用不同的数据库得到大量可用的序列讯息,当我们准备看核甘酸序列及所有的蛋白质序列时,无论是直接决定,或是经由核甘酸序列中open reading frame的转译,这些包含决定其结构及功能的内在讯息,不幸的,实验针对这些讯息不能用未加工的讯息数据来产生,一些判定的技术,像是circulardichroism spectroscopy、optical rototary dispersion、X-ray晶体绕射(X-ray crystallography)及核磁共振(NMR),对于结构的特性是非常强而有力,但这些费时的技术实行,需要高度熟练和技术性上高要求的操作,在蛋白质序列和结构数据库的大小上比较中,SWISS-PORT中有87143个蛋白质(Release 39.0),但只有12624的蛋白质结构在PDB 中出现(July, 2000),试图关掉环绕在预测结构跟功能的方法中的gap center,然后这些方式可以在生化资料缺乏时,提供一个看的见蛋白质特性的方法。
此章节焦点集中在计算的技术,可以提供学上的发现基于本身蛋白质序列或其本身蛋白质家族的比较,不像核甘酸序列,是由4个化学上相似的base所组成,蛋白质中找到20个胺基酸,提供了结构及功能非常大的变异,这些残基具有不同的化学构造,因为胺基酸是碱或是酸、是亲水性或是厌水性、还是直炼或是具有分支链、或是芳香族,所以每一个残基皆可影响蛋白质全部物理特性,因此,在蛋白质domain上,每一个残基具有某一倾向去形成不同型的结构,这些特性,基于一个生化中心的教条:序列详述构造。
实验五蛋白质序列分析

<40 stable >40 unstable
10
(二)蛋白质疏水性分析
• 疏水作用是蛋白质折叠的主要驱动力 • 分析蛋白质氨基酸亲疏水性是了解蛋白质折叠的
第一步 • 氨基酸疏水分析为蛋白质二级结构预测提供佐证 • 是分析蛋白质跨膜区重要一步
11
蛋白质亲疏水性分析
• ProtScale工具 /tools/protscale.html
直接填写swissprottremblac号accessionnumber直接在搜索框中粘贴氨基酸序列输入swissprottremblac号打开proteintxt将蛋白质序列粘贴在搜索框中输入swissprottremblac号分不同的功能域肽段以p02699为例输出结果功能域用户自定义区段点击不同功能域得到以下结果氨基酸数目相对分子质量理论pi氨基酸组成正负电荷残基数消光系数半衰期原子组成分子式总原子数不稳定系数脂肪系数总平均亲水性40stable40unstable10二蛋白质疏水性分析分析蛋白质氨基酸亲疏水性是了解蛋白质折叠的第一步是分析蛋白质跨膜区重要一步11protscale工具http
②将目的序列粘贴到序列输入框中,选择BLOSUM62 记分矩阵运行BlastP程序。NCBI的BlastP程序要求输 入格式为FASTA格式;
③如果BlastP检测到了高度同源的序列,将有可能提 示目的序列的生物学功能
42
基于序列同源的蛋白质功能预测
序列相似性比较作为一个非常有效的工具用于同源 基因的发现
• 典型的有亮氨酸拉链,存在7残基 重复结构(heptad repeat),以a,
b, c,d,e,f,g位置表示,其中a 和d位置为疏水性氨基酸,而其他位 置 残 基为亲水性
discoverystudio 蛋白功能域

discoverystudio 蛋白功能域蛋白功能域是指在一条蛋白质的氨基酸序列中具有特定功能的部分。
每个蛋白质通常由一个或多个功能域组成,这些功能域可以分别或共同承担特定的生化功能。
研究蛋白功能域的作用和结构可以帮助我们更好地理解蛋白质的功能和进化过程。
本文将重点介绍蛋白功能域的定义、特征和各种类型。
蛋白功能域的定义和特征蛋白功能域是指在蛋白质中能够独立地折叠成稳定结构并执行特定功能的连续氨基酸序列。
这些功能域通常具有相对独立的结构和功能,它们能够通过与其他蛋白质分子或其他分子的相互作用来完成特定的生化过程。
相比于整个蛋白质,蛋白功能域更为小巧,因此在蛋白质的进化和结构中具有重要的功能和作用。
蛋白功能域的特征有以下几个方面:首先,功能域在蛋白质的序列中通常具有较高的保守性,这是因为它们在进化过程中承担着重要的功能。
其次,功能域通常具有较好的折叠性,能够在蛋白质的结构中形成相对稳定的空间结构。
最后,功能域通常具有特定的功能基团或结构域,使其具有特定的生化功能。
蛋白功能域的分类和例子根据功能域的结构和功能的差异,蛋白功能域可以分为多种类型。
下面将介绍几种常见的功能域及其例子。
结构域:结构域是最常见的蛋白功能域类型,它通常由一段具有稳定结构的氨基酸序列组成。
结构域可以承担蛋白质的折叠和稳定结构的功能。
其中,alpha螺旋和beta折叠是最常见的结构域形式。
例子包括胰岛素和G蛋白。
酶活性域:酶活性域是能够催化化学反应的功能域。
它通常包含特定的氨基酸残基,这些残基可与底物结合并催化底物的转化。
酶活性域的例子包括蛋白激酶、蛋白酶和脂肪酶。
配体结合域:配体结合域是能够与其他分子结合的功能域。
它通常通过与配体的非共价作用(如氢键、离子键和范德华力)来实现与配体的结合。
配体结合域的例子包括抗体的抗原结合位点和核酸酶的核酸结合位点。
信号转导域:信号转导域是能够参与细胞信号转导的功能域。
它可以通过与其他蛋白质的相互作用来传递信号,并进一步调节细胞的生理过程。
第7讲蛋白质性质和结构预测

•
•
• •
AACompIdent tool 输入界面
结果
4,信号肽预测工具
• 信号肽(signal peptide),是引导新合成肽链转移到内质网上的一段多肽, 位于新合成肽链的N端,一般16~30个氨基酸残基,含有6-15个带正电荷的非 极性氨基酸,由于信号肽又是引导肽链进入内质网腔的一段序列,又称开始 转移序列(start transfer sequence)。
/too ls/protparam.html
理化性质预测软件
可预测参数
• ProtParam is a tool which allows the computation of various physical and chemical parameters for a given protein stored in Swiss-Prot or TrEMBL or for a user entered sequence. The computed parameters include the molecular weight, theoretical pI, amino acid composition, atomic composition, extinction coefficient, estimated half-life, instability index, aliphatic index and grand average of hydropathicity (GRAVY) 。 • 分子量、等电位点、氨基酸组成、原子组成、消光系数、估计半衰期、
结果
2,ProtParam tool
• ProtParam computes various physico-chemical properties that can be deduced from a protein sequence. No additional information is required about the protein under consideration。
Discovery Studio官方教程--丙氨酸扫描、饱和突变指导蛋白理性设计

虚拟氨基酸突变(Calculate Mutation Energy)教程介绍蛋白的氨基酸定点突变可以用于酶与抗体的设计,但是由于进行氨基酸选择时的盲目性而导致效率低下。
虚拟氨基酸突变可以通过丙氨酸扫描和饱和突变确定最佳的氨基酸突变组合,从而为实验中的氨基酸定点突变提供指导。
本教程使用Calculate Mutation Energy (Binding)对一个蛋白-配体复合物进行基于相互作用力的虚拟氨基酸突变,确定了活性位点中的关键氨基酸,以及能提高亲和力的氨基酸突变目标。
使用Calculate Mutation Energy (Stability)对一个蛋白进行基于热稳定性的虚拟氨基酸突变,预测了能提高蛋白热稳定性的突变目标,并利用Predict Stabilizing Mutations预测了最佳的氨基酸突变组合。
本教程涵盖如下内容:●虚拟氨基酸突变提高酶与底物的亲和力●虚拟氨基酸突变提高蛋白热稳定性●预测提高热稳定性的最佳氨基酸突变组合虚拟氨基酸突变提高酶与底物的亲和力在文件浏览器(Files Explorer)中,找到Samples| Tutorials| Receptor Ligand Interaction中的1aq1.pdb,双击打开在分子窗口中显示。
分子窗口中展示出了一个带有配体的蛋白的结构(图1)图1在Hierarchy窗口(CTRL+H)中选择Water,点击键盘Delete以删去结晶结构中的结晶水。
在Hierarchy窗口(CTRL+H)中双击1aq1的<Chain>链,将配体重命名为Ligand。
在工具浏览器(Tools Explorer)中,展开Macromolecules | Prepare Protein,点击Clean Protein对蛋白的结构进行预处理。
然后在工具浏览器(Tools Explorer)中,展开Simulation | Change Forcefield,点击Apply Forcefield,将蛋白赋上CHARMm力场。
蛋白质序列分析和结构预测

4.2 针对蛋白质的预测方法传统的生物学认为,蛋白质的序列决定了它的三维结构,也就决定了它的功能。
由于用X光晶体衍射和NMR核磁共振技术测定蛋白质的三维结构,以及用生化方法研究蛋白质的功能效率不高,无法适应蛋白质序列数量飞速增长的需要,因此近几十年来许多科学家致力于研究用理论计算的方法预测蛋白质的三维结构和功能,经过多年努力取得了一定的成果。
1. 从氨基酸组成辨识蛋白质根据组成蛋白质的20种氨基酸的物理和化学性质可以分析电泳等实验中的未知蛋白质,也可以分析已知蛋白质的物化性质。
ExPASy工具包中提供了一系列相应程序:AACompIdent:根据氨基酸组成辨识蛋白质。
这个程序需要的信息包括:氨基酸组成、蛋白质的名称(在结果中有用)、pI和Mw(如果已知)以及它们的估算误差、所属物种或物种种类或“全部(ALL)”、标准蛋白的氨基酸组成、标准蛋白的SWISS-PROT编号、用户的Email地址等,其中一些信息可以没有。
这个程序在SWISS-PROT和(或)TrEMBL数据库中搜索组成相似蛋白。
AACompSim:与前者类似,但比较在SWISS-PROT条目之间进行。
这个程序可以用于发现蛋白质之间较弱的相似关系。
除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。
程序作者用144种不同的物化性质来分析蛋白质,包括分子量、巨大残基的含量、平均疏水性、平均电荷等,把查询序列的这些属性构成的“查询向量”与SWISS-PROT和PIR中预先计算好的各个已知蛋白质的属性向量进行比较。
这个工具能有效的发现同一蛋白质家族的成员。
可以通过Web使用这个工具,用户只需输入查询序列本身。
ExPASy的网址是:http://www.expasy.ch/tools/。
PROSEARCH的网址是:http://www.embl-heidelberg.de/prs.html。
2. 预测蛋白质的物理性质从蛋白质序列出发,可以预测出蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。
Discovery Studio官方教程--ADMET预测药物代谢动力学

使用Discovery Studio进行化合物ADMET性质预测教程介绍ADMET性质是指分子在有机体内的吸收、分布、代谢、排泄和毒性等性质。
如果在药物研发的早期阶段就能依据化合物的ADMET性质对先导化合物进行有针对性的选取和优化改造,这对提高药物研发的成功率以及减少药物研发后期过程中由于ADMET性质问题所造成的资金浪费问题,是非常必要的。
ADMET描述符可以有助于及早排除ADMET性质不好的化合物从而避免后期耗资巨大的结构改造,同时也可以评价结构优化的效果,是否确实改善了ADMET属性,从而避免合成所支出的过多资源。
本教程主要介绍了在Discovery Studio中如何进行化合物ADMET性质的预测,以及预测结果的分析。
本教程包括:•运行ADMET性质计算流程•分析ADMET性质预测结果Discovery Studio中可以计算的ADMET性质包括:•25摄氏度下水溶解度(aqueous solubility)•血脑屏障通透性(Blood brain barrier penetration,BBB)•细胞色素P450 2D6抑制性(Cytochrome P4502D6 inhibition)•肝毒性(hepatotoxicity)•人类肠道吸收性(human intestinal absorption,HIA)•血浆蛋白结合率(plasma protein binding)运行ADMET性质计算流程1. 导入小分子化合物文件在文件浏览器(Files Explorer)中,展开Samples | Tutorials | QSAR,双击打开pk-test.sd文件。
在表格浏览器中可以看到一共有20个丙酮酸盐激酶抑制剂。
2. 选择计算性质,运行计算流程在工具浏览器(Tools Explorer)中,展开Small Molecules | Calculate Molecular Properties,点击ADMET Descriptors,打开ADMET Descriptors对话框。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质序列的分析预测教程
目的:通过此教程,了解Discovery Studio中预测蛋白质二硫键的操作过程。
所需功能和模块:Discovery Studio Client,DS Sequence Analysis
所需数据文件:1jfq.fasta
所需时间:1小时
介绍
Predict Protein Sequence功能可基于单一蛋白序列预测并计算如下性质:
➢基于蛋白序列预测蛋白翻译后修饰(PTM)位点:
氧化位点、糖基化位点、水解位点、脱酰胺基位点、裂解位点、天冬氨酸异构化位点➢基于蛋白序列预测抗体中保守氨基酸残基
➢基于蛋白序列预测抗原表位
➢基于蛋白序列识别半胱氨酸、二硫键中的半胱氨酸的识别(需提供蛋白结构)
➢基于蛋白序列计算生物物理学性质,包括分子量、等电点、净电荷、摩尔消光系数、包涵体表达发生几率;
➢基于蛋白序列预测蛋白亲疏水性、跨膜区。
蛋白质序列的分析预测
首先从RCSB网站下载1jfq.fasta文件,将文件中的冒号改为"_",将文件中的"|"改为空格,在写字板中删除轻链(L)部分。
在文件浏览器(Files Explorer)中,找到1jfq.fasta文件,双击打开在分子窗口中显示。
图1
在工具浏览器(Tools Explorer)中,展开Macromolecules| Analyze Sequences,点击Predict Sequence Properties。
流程对应参数在参数浏览器中打开。
Input Sequences设置为1jfg:All。
如有相应蛋白结构,则可设置Input Protein Structures参数,若无法提供,则该参数空着即可。
设置Calculate Biophysical Properties参数为True,用于计算蛋白的分子量、等电点、净电荷、摩尔消光系数、包涵体表达发生几率等生物物理学性质。
点击Annotation Types下拉菜单,可勾选Sequence motifs,基于PROSITE预测蛋白翻译后修饰位点(PTM位点);也可勾选Conserved amino acids识别出抗体中的保守残基;也可勾选Antigenic regions预测蛋白潜在的抗原线性表位。
点击Motifs参数右侧按钮,弹出对话框。
(图2)
可选择不同的翻译后修饰位点类型。
其余参数设置为默认参数,点击Run运行。
(图3)
图2
图3
点击Background等待作业运行。
作业完成后,展开作业浏览器(Jobs Explorer)中该任务并点击Report链接,在Html窗口中打开Report页面。
结果分析
在Report页面中可以看到Summary一栏显示了所有基于蛋白序列预测计算得到的信息(图
4)。
图4
点击表格中Sequence Features栏的19Features链接,会打开一张表格。
(图5)
该表格中显示了该蛋白序列中预测出的19个sequence feature及每个feature所对应的序列。
图5
在Report页面中点击View Results。
会打开两个窗口。
(图6)
其中一个窗口为序列窗口,不同sequence feature对应序列用不同颜色进行标注;另一窗口用色块标注出了所有预测的sequence feature。
这两个窗口可以交互式对应,如在下图右侧窗口中选中相应sequence feature,则左侧窗口中相应序列即被选中。
图6。