ProFaM：一个蛋白质序列家族挖掘算法

基于一级序列预测蛋白质亚细胞定位的超级学习机方法

基于一级序列预测蛋白质亚细胞定位的超级学习机方法石峰;陈洪;熊慧娟【期刊名称】《数据挖掘》【年(卷),期】2013(003)001【摘要】蛋白质一级序列的亚细胞定位在基因组注释、蛋白质功能预测、药物发现等领域起着重要作用。

超级学习机是近年来新兴的机器学习方法。

本文探讨了超级学习机在蛋白质亚细胞定位预测中的潜力。

为此,我们首先给出了一种新的特征提取策略,将每个蛋白质一级序列表示成25维的数值向量。

在此基础上,我们将852组分枝杆菌蛋白质数据分别用基于新特征的支持向量机方法、基于新特征的超级学习机方法和已有的基于伪氨基酸组成特征的支持向量机方法做数值试验。

这852组数据从Swiss-Prot 48数据库中选取,分属于四个不同种类。

通过在这些数据上做五折交叉数值比较发现,基于新特征提取策略的超级学习机方法的准确率最高,达到了97.2%,超过基于新特征的支持向量机方法的96.4%的准确率以及基于伪氨基酸组成特征的支持向量机方法的95.2%的准确率。

【总页数】6页(P6-11)【作者】石峰;陈洪;熊慧娟【作者单位】[1]华中农业大学理学院,武汉;;[1]华中农业大学理学院,武汉;;[1]华中农业大学理学院,武汉【正文语种】中文【中图分类】Q5【相关文献】1.蛋白质亚细胞定位预测中的序列编码技术研究 [J], 马军伟;高新中;张杰2.一种基于最优局部信息融合的蛋白质亚细胞定位预测方法 [J], 张树波;赖剑煌;何建国3.基于分段伪氨基酸组成成分特征提取方法预测蛋白质亚细胞定位 [J], 杨会芳;程咏梅;张绍武;潘泉4.蛋白质亚细胞定位预测中的序列编码技术 [J], 王正华;张振慧;王勇献5.基于序列关联的蛋白质亚细胞定位识别 [J], 贾芸;因版权原因，仅展示原文概要，查看原文内容请购买。

pfam数据库

PFAM数据库PFAM数据库是一个用于蛋白质序列家族分类的工具。

它基于蛋白质序列的共同结构和功能特征，将蛋白质序列分组成家族，从而帮助研究人员理解蛋白质的功能和进化过程。

本文将介绍PFAM数据库的基本概念、分类方法和应用情况。

1. PFAM数据库简介PFAM数据库是一个用于预测蛋白质结构和功能的数据库。

它采用蛋白质序列的保守特征，将相似的序列归类为同一个家族。

PFAM数据库包含了大量的蛋白质家族信息，可以帮助研究人员在蛋白质序列中发现潜在的功能和结构信息。

2. PFAM数据库的分类方法PFAM数据库主要基于蛋白质序列的保守结构域来进行分类。

它将蛋白质序列中相同或相似的结构域组合成家族，每个家族都包含了具有相似结构和功能的蛋白质。

PFAM数据库还提供了丰富的注释信息，帮助用户更好地理解每个家族的功能和特点。

3. PFAM数据库的应用情况PFAM数据库在生物信息学和分子生物学领域被广泛应用。

研究人员可以利用PFAM数据库来预测新发现的蛋白质的结构和功能，通过比对已知家族信息来推测未知蛋白质的特性。

此外，PFAM数据库还可以用于蛋白质序列的分类和进化分析，帮助研究人员揭示不同蛋白质家族之间的关系和进化过程。

4. 结语PFAM数据库作为一个用于蛋白质家族分类的重要工具，在生物信息学研究中扮演着重要的角色。

通过分析蛋白质序列的保守结构域，PFAM数据库可以帮助研究人员更好地理解蛋白质的功能和进化过程，为生物学研究提供了有力的支持。

希望本文介绍的内容能够帮助读者更深入地了解PFAM数据库及其在蛋白质研究中的应用。

蛋白质测序

• The amino acid sequence of the protein can then be deduced from its DNA sequence using the genetic code.
（三）测序前的准备工作
1、蛋白质的纯度鉴定纯度要求，97%以上，且均一，纯度鉴定方法。（两种以上才可靠） ⑴聚丙烯酰胺凝胶电泳(PAGE)要求一条带 ⑵DNS—cL（二甲氨基萘磺酰氯）法测N端氨基酸
（一）蛋白质测序的一般步骤
（1）测定蛋白质分子中多肽链的数目。（2）拆分蛋白质分子中的多肽链。（3）测定多肽链的氨基酸组成。（4）断裂链内二硫键。
蛋白质测序的一般步骤
（5）分析多肽链的N末端和C末端。（6）多肽链部分裂解成肽段。（7）测定各个肽段的氨基酸顺序（8）确定肽段在多肽链中的顺序。（9）确定多肽链中二硫键的位置。
2、测定分子量
用于估算氨基酸残基n= 方法：凝胶过滤法、沉降系数法
3、确定亚基种类及数目
多亚基蛋白的亚基间有两种结合方式： ⑴非共价键结合 8mol/L尿素，SDS SDS-PAGE测分子量 ⑵二硫键结合过甲酸氧化：
—S—S—+HCOOOH → SO3H β巯基乙醇还原：
举例：血红蛋白 (α2β2)
Location of Disulfide Cross-Bridges
Disulfide bridges typically are cleaved prior to determining the primary structure of a polypeptide. Consequently, the positions of disulfide links are not obvious from the sequence data. To determine their location, a sample of the polypeptide with intact SOS bonds can be fragmented and the sites of any disulfides can be elucidated from fragments that remain linked. Diagonal electrophoresis is a technique for identifying such fragments. (a) A protein digest in which any disulfide bonds remain intact and link their respective Cys-containing peptides is streaked along the edge of a filter paper and (b) subjected to electrophoresis. (c) A strip cut from the edge of the paper is then exposed to performic acid fumes to oxidize any disulfide bridges. (d) Then the paper strip is attached to a new filter paper so that a second electrophoresis can be run in a direction perpendicular to the first. (e) Peptides devoid of disulfides experience no mobility change, and thus their pattern of migration defines a diagonal. Peptides that had disulfides migrate off this diagonal and can be easily identified, isolated, and sequenced to reveal the location of cysteic acid residues formerly involved in disulfide bridges.

蛋白质结构分析原理及工具-文献综述【精选】

蛋白质结构分析原理及工具（南京农业大学生命科学学院生命基地111班）摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。

文章侧重于工具的列举，并没有对原理和方法做详细的介绍。

文章还列举了蛋白质分析中常用的数据库。

关键词：蛋白质；结构预测；跨膜域；保守结构域1 蛋白质相似性检测蛋白质数据库。

由一个物种分化而来的不同序列倾向于有相似的结构和功能。

物种分化后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。

因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。

表一列出了常用的蛋白质序列数据库和它们的特点。

表一常用蛋白质数据库网址可能有更新氨基酸替代模型。

进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。

氨基酸替代模型可用来估计氨基酸替换的速率。

目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。

序列相似性搜索工具。

序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。

成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。

分为局部联配和全局联配。

常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman 算法。

全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。

多序列相似性搜索常用于构建系统发育树，这里不阐述。

表二列举了常用的成对序列相似性比对搜索工具表二成对序列相似性比对搜索工具网址可能有更新2 蛋白质一级结构分析（含保守结构域）蛋白质结构的基本信息来源于它的一级结构，分析蛋白质一级结构的第一步是将它们分成其组成部分，然后处理每个部分的结构[4]。

蛋白质家族数据库 Pfam - 上海交通大学生物信息学与生物

蛋白质家族数据库 Pfam蛋白质家族数据库（Pfam）是蛋白质家族的集合，每个蛋白质家族由多序列比对和隐马尔科夫模型描述文件表示。

Pfam是在1995年由Erik Sonnhammer，Sean Eddy和Richard Durbin建立起来的，最初的目的是为了收集常见蛋白结构域，这些结构域可用于注释多细胞动物的复合蛋白质。

他们工作的灵感来自于Cyrus Chothia的预测：世界上存在1500个左右不同的蛋白质家族，大部分的蛋白质来自于不超过1000个蛋白质家族。

所以Pfam的科学意义在于完整和精确地分类蛋白家族和结构域。

直至2013年11月4日，Pfam已经发布了27.0，其中包含了14831个人工管理的条目，覆盖了UniProtKB将近80%的序列信息。

在Pfam中，蛋白质家族被分为质量高低的两类：Pfam-A和Pfam-B。

Pfam-A是高质量的、人工管理的蛋白质家族。

其中的条目来自于Pfamseq（Pfam的序列数据库），这个数据库的建立基于最新发布的UniProtKB。

每个Pfam-A家族由种子的比对（包含家族中一小部分具有代表性的序列），来自种子的序列比对的隐马尔科夫模型（HMMs）的描述以及一个自动生成的全局比对（包含家族中所有可以找到的蛋白序列，找到哪些蛋白序列由搜索序列数据库得到的HMM描述决定）。

Pfam-B是未经注释的、从最新发布的ADDA中非冗余聚类中自动生成的低质量蛋白质家族。

ADDA（Automatic Domain Decomposition Algorithm）是一个用于对所有蛋白质结构域家族进行结构域分解和聚类的自动算法，专门用于建立Pfam-B家族。

虽然Pfam-B的质量很差，但是在找功能保守性区域且在Pfam-A 中找不到结果的时候，Pfam-B家族就显得非常有用了。

Pfam的条目用四种方式进行分类，家族（相关蛋白区域的集合）、结构域（一个结构单元）、重复（单独存在不稳定但是多次出现能形成稳定结构的短的单元）和模体（在球形域以外的短单元）。

motif finding 算法

motif finding 算法在生物信息学中，motif finding 是一种用于识别DNA、RNA或蛋白质序列中的保守模式或“motif”的算法。

这些motif通常与特定的生物功能或过程相关联，因此这种算法在基因组学、转录组学和其他生物学领域的研究中非常重要。

以下是一些常用的motif finding算法：1. Gibbs motif finding (Gibbs Motif Sampler): 这是一个基于概率的算法，通过迭代方式搜索序列中的潜在motif。

它使用一个滑动窗口来评估每个潜在的motif，并使用一个概率模型来计算每个位置属于motif的概率。

2. MEME (Multiple Em for Motif Elicitation): 这是一个基于统计模型的算法，旨在识别DNA或蛋白质序列中的非冗余motif。

它使用EM（期望最大化）算法来估计模型参数，并使用这些参数来识别潜在的motif。

3. Weeder: 这是一个基于窗口的算法，通过在序列中滑动窗口来搜索潜在的motif。

它使用一个启发式方法来评估每个窗口，并选择具有最高得分的前几个窗口作为潜在的motif。

4. MDScan: 这是一个基于频率的算法，通过比较给定序列与其他序列的频率模式来识别潜在的motif。

它使用一个滑动窗口来计算每个位置的频率，并使用这些频率来识别潜在的motif。

5. HMM (Hidden Markov Model): 这是一个基于统计模型的算法，通过将序列视为隐藏状态序列来识别潜在的motif。

它使用一个概率模型来描述状态之间的转移和观察值的生成，并使用Viterbi算法或其他算法来解码隐藏状态序列。

以上都是非常常见的motif finding算法，每个算法都有其特点和适用场景。

选择适合的算法需要考虑数据的性质、计算资源和所需精度等因素。

蛋白质msa算法 -回复

蛋白质msa算法-回复什么是蛋白质MSA算法？蛋白质多序列比对（MSA）是一个基本的计算生物学问题，目的是在多个相关的蛋白质序列之间建立一个最优的比对。

MSA算法是一种系统的方法，用于通过比较蛋白质序列间的相似性和差异性来分析它们之间的结构和功能。

蛋白质MSA算法被广泛应用于预测生物的进化关系、结构域和功能的预测、新蛋白质的分类和预测以及药物设计等领域。

步骤一：序列收集和预处理首先，收集一组相关的蛋白质序列。

这些序列可以来自于不同物种中的同一蛋白质家族，或者来自于同一物种中的不同蛋白质家族。

然后，对这些序列进行预处理，包括去除冗余信息和不完整的序列，一般需要使用其他工具或数据库来进行预处理。

步骤二：序列比对在进行序列比对之前，需要选择合适的比对算法。

常用的比对算法包括CLUSTAL、Muscle和MAFFT等。

这些算法使用不同的方法和策略来优化比对结果，可以根据不同的需求选择合适的算法。

比对算法的主要目标是最大化序列之间的相似性和保留结构和功能相关的位置。

步骤三：评估比对质量在获得比对结果后，需要评估比对的质量。

常用的评估指标包括Gap percentage、Entropy和Conservation等。

这些指标可以帮助判断比对结果的可靠性和准确性。

比对质量的评估可以帮助我们选择合适的比对结果。

步骤四：进一步分析在蛋白质比对结果获得后，可以进行进一步的分析。

其中的一项重要任务是检测和分析高度保守的位点，这些位点对于蛋白质的结构和功能可能具有关键的作用。

另外，还可以通过比对结果预测蛋白质的结构域和功能以及进行蛋白质进化研究。

步骤五：可视化为了更好地理解比对结果，可以使用可视化工具将比对结果呈现出来。

常用的工具有Jalview、BioEdit和UCSFChimera等。

这些工具可以帮助我们直观地观察比对结果，识别保守位点和结构域，以及进行结构和功能的分析。

总结：蛋白质MSA算法是一种用于比对多个相关蛋白质序列的系统方法。

生物信息学-05 蛋白质的一般分析

蛋白质亚细胞定位
和信号肽与跨膜区结构一样，蛋白质的亚细胞定位往往也和该蛋白质的功能密切相关。基于神经网络算法构建的蛋白质亚纽胞定位数据库可用于对蛋白质序列进行亚细胞定位分析。
SubLoc v1.0
/SubLoc/
PSORT : / TargetP 1.1 Server
二、跨膜区分析
Tools online：
Protein Secondary Structure Prediction on BCM
/seqsearch/struc-predict.html
TMHMM-2.0
http://www.cbs.dtu.dk/services/TMHMM-2.0/
http://www.cbs.dtu.dk/services/TMHMM-2.0/
/software/TMPRED_form.html
/tools/protscale.html
三、前导肽预测和蛋白质亚细胞定位
前导肽一般具有如下性质： ①带正电荷的碱性氨基酸(特别是精氨酸) 含量较为丰富，它们分散于不带电荷的氨基酸序之间； ②缺失带负电荷的酸性氨基酸； ③羟基氨基酸(特别是丝氨酸)含量较高; ④有形成两亲(即有亲水又有疏水部分) α-螺旋结构的能力。
http://www.cbs.dtu.dk/services/SignalP/
InterProScan是EBI 开发的一个集成了蛋白质结构域和功能位点的数据库，其中把SWISSPROT,TrEMBL.PROTSITE.PRINTS.PFAM.ProDom等数据库提供的蛋白质序列中的各种局域模式，如结构域，motif等信息统一起来，提供了一个较为全面的分析工具。
/Tools/InterProScan/

pfam基因序列

pfam基因序列Pfam是一个广泛使用的蛋白质家族数据库，它为我们提供了蛋白质家族和结构域的准确且完整的分类。

通过Pfam，研究人员可以查询蛋白质家族或蛋白质结构域的注释、结构以及多序列比对信息，从而更好地理解蛋白质的功能和演化。

在Pfam数据库中，每个蛋白质家族都由多个序列比对和隐马尔可夫模型（HMMs）所描述。

这些家族是通过对大量的蛋白质序列进行比对和分析而得到的，它们代表了具有相似结构和功能的蛋白质群体。

Pfam数据库包含了两个质量级别的家族数据库：Pfam-A和Pfam-B。

Pfam-A是基于最新的UniProtKB数据库建立的，质量较高，它包含了经过严格筛选和注释的蛋白质家族。

而Pfam-B则作为Pfam-A的补充，是一个未注释的低质量数据库，主要由ADDA 数据中的非冗余cluster自动生成。

尽管Pfam-B的质量相对较低，但它对于鉴定Pfam-A无法覆盖到的功能保守区域仍然非常有用。

对于基因序列的研究，Pfam数据库提供了丰富的资源。

通过比对蛋白质序列，研究人员可以确定蛋白质所属的家族，并进一步探索该家族的特点和功能。

这对于理解基因的功能、调控机制以及疾病的发生发展具有重要意义。

例如，在研究某个特定基因时，研究人员可以通过将该基因的蛋白质序列与Pfam 数据库中的家族进行比对，来确定该蛋白质是否属于某个已知的家族。

如果比对结果显示该蛋白质与某个家族具有高度的相似性，那么研究人员就可以利用该家族已有的知识和信息来推断该蛋白质的功能和性质。

此外，Pfam数据库还提供了多序列比对的功能，这使得研究人员可以对多个相关的蛋白质序列进行同时比对和分析。

通过多序列比对，研究人员可以发现序列之间的保守区域和变异区域，从而更好地理解蛋白质的结构和功能。

总之，Pfam数据库是一个强大的工具，它为研究人员提供了丰富的蛋白质家族和结构域信息。

通过利用Pfam数据库，研究人员可以更加深入地理解基因序列的特点和功能，为生物医学研究提供有力的支持。

UNIPROT蛋白数据库概论

INDUCTION INTERACTION MASS SPECTROMETRY MISCELLANEOUS PATHWAY PHARMACEUTICAL POLYMORPHISM PTM RNA EDITING SIMILARITY SUBCELLULAR LOCATION SUBUNIT TISSUE SPECIFICITY TOXIC DOSE
UniProt相关网上工具列表
InterProScan： InterPro是个合作的方案，目的是基于大多数普通的数据库之上，对蛋白质家簇，区域、功能位点的进行独特的、无冗余的描述。InterPro库结合了PROSITE、 PRINTS、P fam、ProDom、SMART和 TIGRFAMs这些数据库以及一些预置的数据库。是一个用XML格式的、分布式的并且可以在InterPro协会版权允范围下自由使用的。主页地址是： /InterProScan。
描述刺激蛋白合成的成分或者环境描述蛋白－蛋白相互作用的信息报告通过质谱方法测定的蛋白或者其部分的分子重量不属于其他已经定义的专题内容描述蛋白的代谢通路描述蛋白在制药学上的作用描述蛋白多态性描述翻译后的调节描述RNA编辑是否引起一个或者多个的氨基酸改变描述蛋白和其他蛋白序列是否有同源性描述成熟蛋白的亚细胞定位描述蛋白四级结构的一个亚单位信息描述蛋白的组织特异性描述蛋白的致命和致病剂量
InterPro相关数据库和算法
Pfam 收集了大量的多序列比对和Hmm，覆盖了几乎所有蛋白结构域 PROSITE 关于蛋白质家族和结构域的数据库 ProDom 根据PSI-BLAST程序来查找同源蛋白结构域的数据库 SMART 用于发现和注释可移动蛋白多肽中得结构域 PRINTS 蛋白质指纹图谱数据库 Gene3D 通过HMMs预测蛋白结构，是CATH结构数据库得补充 TIGRFAMs 基于序列鉴定相关蛋白功能的工具 PANTHER 根据家族功能的特异性区分蛋白家族和亚家族 SUPERFAMILY 超家族和已知结构蛋白数据库