用多样性增量特征选择技术识别 蛋白质磷酸化位点

合集下载

磷酸化是最重要的蛋白质翻译后修饰之一, 白质磷酸化和去磷酸化为...

磷酸化是最重要的蛋白质翻译后修饰之一, 白质磷酸化和去磷酸化为...

摘要磷酸化是最重要的蛋白质翻译后修饰之一,蛋白质磷酸化和去磷酸化为真核细胞提供了调节机制。

随着高通量鉴定磷酸化蛋白质技术的发展,尤其是质谱技术在蛋白质组学中的应用,磷酸化修饰数据不断积累,从现有数据中挖掘规律从而对未知蛋白质进行磷酸化修饰位点预测的条件日益成熟。

将计算方法引入磷酸化蛋白质组学的研究中,将有利于发现新的磷酸化修饰规律并为生物学实验提供验证信息,从而推动磷酸化蛋白质组学的发展。

计算智能领域的方法可以很好地应用于位点预测问题。

但对于生物信息学来说,除了给出较为准确的预测结果外,还需要给出对判断结果易于理解的解释才能够增加预测方法的可信度。

规则抽取不但可以提供合理的解释来指导生物学实验,而且可以从现有数据中发现新的具有生物学意义的磷酸化修饰规律为磷酸化蛋白质的进一步研究提供有价值的参考信息。

本文深入分析了磷酸化修饰位点数据的特点,采用支持向量机分类方法试验和比较了多种特征构造提取、特征选择和分类方法的有效性;提出用AdaBoost 方法对筛选后的氨基酸性质和邻近序列位置进行特征选择并进行分类器训练,形成了新的磷酸化位点预测算法AproPhos,该算法在特异性高于已有预测算法(约2个百分点)的基础上,大大提高了预测的灵敏度(约10个百分点)。

同时设计了一种新的基于AdaBoost方法的规则抽取方法,可以给出可理解的修饰位点邻近序列上氨基酸性质分布规律,并对分类结果进行解释。

AproPhos及其规则抽取算法扩展了磷酸化位点预测方法在实际中的应用范围,既可以用于提供充分信息的位点预测,又可以用来提高磷酸化蛋白质质谱鉴定效率。

最后本文提出了一种利用串联质谱同位素信息进行分子式预测的算法和系统FFP(Fragment ion Formula Prediction),无论从计算效率上还是预测精度上较以前的方法都有了很大的提高。

使分子式预测可以广泛用于质谱的预处理和蛋白质(包括磷酸化蛋白质)的鉴定,提高鉴定效率。

蛋白质组学研究中的磷酸化分析技术与策略:揭示修饰调控的多样性与复杂性

蛋白质组学研究中的磷酸化分析技术与策略:揭示修饰调控的多样性与复杂性

蛋白质组学研究中的磷酸化分析技术与策略:揭示修饰调控的多样性与复杂性蛋白质组学通过全面分析和解析蛋白质组中的成分和功能,帮助我们理解细胞内的生物过程和调控机制。

磷酸化是一种常见的蛋白质修饰类型,通过在蛋白质分子中引入磷酸基团来调控其功能和相互作用。

蛋白质组学研究中的磷酸化分析技术与策略对于揭示修饰调控的多样性和复杂性具有重要意义。

图1。

一、蛋白质组学研究中的磷酸化分析技术:1.质谱分析技术:包括质谱仪和液相色谱技术等,用于鉴定和定量磷酸化蛋白质,并确定磷酸化位点的位置。

2.磷酸化酶和磷酸酶的应用:通过激酶和磷酸酶的作用,实现对磷酸化修饰的调控和定量分析。

图2。

二、磷酸化分析策略与方法:1.定性磷酸化分析:通过质谱技术鉴定和定位蛋白质中的磷酸化修饰位点,帮助理解蛋白质磷酸化修饰的多样性和动态变化。

2.定量磷酸化分析:结合标记和非标记的定量方法,实现对磷酸化修饰的定量分析,揭示磷酸化的丰度变化与细胞信号通路和生物过程的相关性。

三、磷酸化修饰的调控多样性与复杂性:1.磷酸化修饰的多样性:磷酸化修饰可发生在不同氨基酸残基上,如丝氨酸、苏氨酸和酪氨酸等,形成不同类型的磷酸化修饰。

2.磷酸化修饰的复杂性:磷酸化修饰可以发生在单个蛋白质上的多个位点,形成复杂的磷酸化修饰网络,参与多个生物过程的调控。

四、磷酸化分析的研究价值与应用:1.研究细胞信号通路:磷酸化分析可帮助揭示细胞信号通路中磷酸化修饰的动态调控过程,从而深入了解细胞的功能和调控机制。

2.发现新的药物靶点:通过分析磷酸化修饰的变化,可以发现新的疾病标志物和药物靶点,为疾病治疗提供新的策略和目标。

蛋白质组学研究中的磷酸化分析技术与策略对于揭示修饰调控的多样性与复杂性具有重要意义。

通过研究磷酸化修饰在蛋白质组中的定位和功能调控,我们可以更深入地理解细胞信号通路和生物过程的调控机制。

磷酸化分析在细胞生物学、疾病研究和药物开发等方面具有广阔的应用前景。

磷酸化位点鉴定

磷酸化位点鉴定

磷酸化位点鉴定磷酸化是细胞内一种重要的化学修饰方式,通过磷酸化修饰蛋白质分子,可以调控细胞信号传导、基因转录、蛋白质结构和功能等关键生物过程。

因此,磷酸化位点的准确鉴定对于揭示蛋白质功能和疾病机制具有重要意义。

在过去的几十年里,研究人员通过多种方法对磷酸化位点进行了鉴定。

其中最常用的方法是质谱分析技术。

质谱分析技术基于蛋白质分子的质量和电荷特性,可以准确测定蛋白质中磷酸化位点的位置和数量。

质谱分析技术通常包括前处理、质谱仪测定和数据分析三个步骤。

前处理是质谱分析的第一步,其主要目的是从复杂的蛋白质混合物中提取目标蛋白,去除其他干扰物。

前处理方法包括蛋白质提取、蛋白质消化和磷酸化肽片段富集等。

蛋白质提取是将目标蛋白从细胞或组织中提取出来,常用的方法有细胞裂解、组织切片和血清分离等。

蛋白质消化是将蛋白质分子酶解成肽段,常用的酶有胰蛋白酶和胃蛋白酶等。

磷酸化肽片段富集是通过化学反应或亲和层析等方法富集含磷酸化位点的肽段,以提高其在质谱分析中的检测灵敏度。

质谱仪测定是质谱分析的核心步骤,其主要目的是测定蛋白质和肽段的质量和电荷特性。

常用的质谱仪包括MALDI-TOF、ESI-TOF和Q-TOF等。

MALDI-TOF质谱仪基于基质辅助激光解析电离离子化技术,可以测定蛋白质的分子质量。

ESI-TOF质谱仪基于电喷雾电离技术,可以测定蛋白质和肽段的质量和电荷比。

Q-TOF质谱仪基于四极杆和时间飞行二次质谱仪的结合,具有高分辨率和高灵敏度。

质谱仪测定的结果通常以质谱图的形式呈现,通过质谱图可以确定磷酸化位点的位置和数量。

数据分析是质谱分析的最后一步,其主要目的是从质谱数据中提取有用的信息。

数据分析方法包括数据库搜索、序列比对和谱图解析等。

数据库搜索是将质谱数据与已知蛋白质序列进行比对,以确定磷酸化位点的位置和数量。

序列比对是将质谱数据与已知蛋白质序列进行比对,以确定磷酸化位点的保守性和功能。

谱图解析是将质谱数据与已知谱图进行比对,以确定磷酸化位点的质量和电荷特性。

蛋白质磷酸化位点的识别

蛋白质磷酸化位点的识别

内蒙古工业大学学报JOU RN AL O F IN N ER M ON G OL IA第30卷第2期U N IV ERSIT Y OF T ECHN O LO GY V ol.30No.22011文章编号:1001-5167(2011)03-0081-05蛋白质磷酸化位点的识别*白海艳,吕军,张颖,计美珍,秦丹丹(内蒙古工业大学理学院呼和浩特010051)摘要:磷酸化是蛋白质重要的翻译后修饰之一,磷酸化位点的理论识别是计算生物学的重要研究内容。

磷酸化位点附近存在保守残基片段,而这种保守性又与激酶类型相关。

选择注释数据相对较多的CK2,PK A和PK C三种激酶催化的磷酸化位点作为研究对象,以序列组分特征,残基位置特异性特征和残基的非近邻关联特征为参数,采用延森-香农离散量(Jensen-Shanno n Div erg ence,JSD)作为各特征差异度量,再使用二次判别分析算法组合不同特征,对磷酸化位点进行预测。

对CK2,PK A和P KC三种激酶磷酸化位点7-fold交叉检验,总精度分别达到了90%,90%和86%,这一结果要好于当前其它预测模型。

关键词:蛋白质磷酸化位点,延森-香农离散量,二次判别分析中图分类号:Q61文献标识码:A0引言蛋白质翻译后修饰在生命活动中具有十分重要的作用,它使蛋白质的结构更为复杂,功能更为完整,调节更为精细,作用更为专一。

常见的蛋白质翻译后修饰过程有六种,如泛素化,磷酸化,糖基化,酯基化,甲基化和乙酰化,其中磷酸化是蛋白质最重要的翻译后修饰之一。

蛋白质磷酸化和去磷酸化过程是生物体内普遍存在的信息传导方式,几乎涉及所有的生理及病理过程。

真核蛋白质约30%-50%要经历磷酸化过程[1],而脊椎动物基因组中有5%的基因编码蛋白激酶或磷酸酯酶,激酶的失活会导致一系列的疾病,如癌症等。

因此,了解特定蛋白质激酶的磷酸化作用机制将会影响当前分子生物学的许多领域,对疾病的相关研究以及药物设计等方面也都有很大帮助。

蛋白质多位点磷酸化

蛋白质多位点磷酸化

蛋白质多位点磷酸化蛋白质多位点磷酸化是一种常见的蛋白质修饰方式,对细胞信号传导、基因转录和细胞周期调控等生物学过程起着重要作用。

本文将从蛋白质多位点磷酸化的概念、调控机制、生物学功能和研究方法等方面进行探讨。

一、蛋白质多位点磷酸化的概念蛋白质多位点磷酸化,指的是蛋白质分子上同时发生多个位点的磷酸化修饰。

磷酸化是通过磷酸化酶将磷酸基团与蛋白质分子特定的氨基酸残基(如丝氨酸、苏氨酸和酪氨酸)结合而形成的一种共价修饰。

多位点磷酸化是蛋白质磷酸化修饰的一种常见形式,特点是磷酸基团同时结合于蛋白质分子的不同位点。

蛋白质多位点磷酸化的发生和调控涉及多种因素。

首先,磷酸化酶和脱磷酸酶是调控蛋白质磷酸化状态的重要因素。

磷酸化酶能够催化蛋白质磷酸化反应,而脱磷酸酶则能够催化蛋白质磷酸化位点的去磷酸化反应。

其次,蛋白质激酶和蛋白质磷酸酶是调控蛋白质磷酸化的另外两类重要因素。

蛋白质激酶能够磷酸化蛋白质分子的特定位点,而蛋白质磷酸酶则能够去磷酸化蛋白质分子的特定位点。

三、蛋白质多位点磷酸化的生物学功能蛋白质多位点磷酸化在细胞信号传导、基因转录和细胞周期调控等生物学过程中发挥着重要作用。

例如,蛋白质多位点磷酸化可以调节蛋白质的活性、稳定性和亚细胞定位。

此外,蛋白质多位点磷酸化还能够调控蛋白质与其他蛋白质或核酸的相互作用,从而影响细胞内的信号传递和基因表达。

四、蛋白质多位点磷酸化的研究方法研究蛋白质多位点磷酸化通常需要使用多种实验方法。

其中,质谱技术是一种常用的方法,可以通过质谱仪对蛋白质样品进行分析,确定其磷酸化位点和修饰水平。

此外,还可以利用免疫印迹、免疫共沉淀和酶活检测等方法来检测磷酸化蛋白质的存在和修饰水平。

此外,还可以利用基因敲除、基因过表达和测序技术等方法来研究蛋白质多位点磷酸化对生物学功能的影响。

蛋白质多位点磷酸化是一种重要的蛋白质修饰方式,对细胞信号传导、基因转录和细胞周期调控等生物学过程起着重要作用。

研究蛋白质多位点磷酸化的调控机制和生物学功能有助于深入理解细胞的调控网络和疾病的发生机制。

磷酸化蛋白质组如何鉴定

磷酸化蛋白质组如何鉴定

磷酸化蛋白质组如何鉴定磷酸化蛋白质(Phosphorylated protein)是指在特定氨基酸残基上附加了一个磷酸基团(PO4)的蛋白质。

磷酸化是一种重要的蛋白质修饰方式,可以调节蛋白质的结构、功能和相互作用,进而控制细胞的信号转导、代谢和增殖等生物学过程。

因此,鉴定磷酸化蛋白质组对于理解蛋白质调控网络具有重要意义。

本文将介绍几种常用的磷酸化蛋白质组鉴定方法。

一、质谱法质谱法是目前最常用的鉴定磷酸化蛋白质组的方法之一,主要分为两种:质谱分析前磷酸化富集和质谱分析后磷酸化识别。

1.质谱分析前磷酸化富集质谱分析前磷酸化富集主要包括亲和富集、非亲和富集和凝胶富集等。

亲和富集是利用特定亲和剂与磷酸化蛋白质结合,然后用洗脱剂将磷酸化蛋白质洗脱出来进行质谱分析。

常用的亲和剂有磷酸化特异性抗体、磷酸化结合结构域和亲和岛等。

非亲和富集是利用质谱分析前的蛋白质化学改变,如巯基化、新生代谢标记等来增加磷酸化蛋白质的质谱分析信号,进而富集磷酸化蛋白质。

凝胶富集是将细胞提取物先进行电泳分离,然后使用聚焦法将不同等电点区域的蛋白质提取,再进行质谱分析。

2.质谱分析后磷酸化识别质谱分析后磷酸化识别主要通过质谱数据分析软件来鉴定磷酸化位点。

质谱分析常用的方法包括肽段质谱法、质谱配对法和磷酸化肽酶法等。

其中,肽段质谱法是将蛋白质经酶切分解成肽段后进行质谱分析,通过质谱数据分析鉴定磷酸化位点;质谱配对法是对酶切后的肽段进行残基识别和质谱数据匹配,进而确定磷酸化位点;磷酸化肽酶法是酶切肽段后通过特定的肽酶去除非磷酸化肽段,进而富集磷酸化肽段进行质谱分析。

二、免疫化学检测法免疫化学检测法是利用抗体与磷酸化蛋白质特异性结合,并使用标记物进行检测的方法。

常用的免疫化学检测方法有免疫印迹、免疫荧光和免疫组化等。

1.免疫印迹免疫印迹是利用抗体与磷酸化蛋白质特异性结合,然后使用辅助抗体与标记物结合,通过酶学反应或化学发光的方式检测磷酸化蛋白质的存在。

蛋白质磷酸化位点分析

蛋白质磷酸化位点分析

百泰派克生物科技
蛋白质磷酸化位点分析
蛋白质磷酸化是一类由蛋白激酶催化的重要的蛋白质翻译后修饰,是在蛋白激酶的作用下,三磷酸腺苷(ATP)或三磷酸鸟苷(GTP)的末端磷酸分子断裂并与底物蛋白氨基酸残基共价结合的过程。

蛋白质磷酸化位点分析主要研究蛋白质磷酸化发生在肽链的几号位氨基酸上以及发生在何种氨基酸上。

可通过磷酸酶法或串联质谱测序法进行检测,将样品蛋白进行酶解,得到肽段混合物,然后特异性识别并富集发生磷酸化的肽段,再对该肽段的氨基酸序列进行分析,找出发生磷酸化的位点。

百泰派克生物科技使用Thermo公司最新推出的Obitrap Fusion Lumos质谱仪结合Nano-LC,为广大科研工作者提供蛋白质磷酸化分析一站式服务,只需要将您的需求告诉我们并寄送样品,百泰派克生物科技负责项目所有后续,包括蛋白提取、蛋白酶切、磷酸化或糖基化肽段富集、肽段分离、质谱分析、质谱原始数据分析、生物信息学分析所有事宜,并为您提供详细的中英文双语版技术报告。

磷酸化蛋白质组学研究的主要内容和方法

磷酸化蛋白质组学研究的主要内容和方法

磷酸化蛋白质组学研究的主要内容和方法磷酸化蛋白质组学研究是一种重要的生物学研究方法,主要用于揭示蛋白质磷酸化在细胞信号传导和调控中的作用机制。

本文将介绍磷酸化蛋白质组学研究的主要内容和方法。

一、磷酸化蛋白质组学研究的主要内容磷酸化蛋白质组学研究主要包括以下几个方面的内容:1. 磷酸化蛋白质的鉴定:通过质谱技术,对细胞或组织中的蛋白质进行分离、提取和纯化,然后利用质谱仪对蛋白质进行鉴定和定量分析,确定其磷酸化状态和磷酸化位点。

2. 磷酸化蛋白质的功能研究:通过生物信息学分析、蛋白质相互作用网络等方法,研究磷酸化蛋白质在细胞信号传导和调控中的功能和作用机制,揭示磷酸化蛋白质在生物体内的生理和病理过程中的重要作用。

3. 磷酸化蛋白质的动态调控研究:通过时间序列实验和药物刺激等方法,研究磷酸化蛋白质在不同生理和病理条件下的动态调控,分析其变化规律和潜在的调控机制。

二、磷酸化蛋白质组学研究的主要方法磷酸化蛋白质组学研究主要依赖于以下几种方法:1. 蛋白质提取和纯化:通过细胞裂解、离心、蛋白质抽提和纯化等步骤,将目标蛋白质从复杂的生物样品中分离出来,使其具备进一步分析的条件。

2. 质谱分析:利用质谱仪对蛋白质进行分析和鉴定。

常用的质谱技术包括质谱仪联用气相色谱、液相色谱、飞行时间质谱等,可以鉴定蛋白质的氨基酸序列、磷酸化位点等信息。

3. 生物信息学分析:通过计算机分析和比较不同蛋白质的氨基酸序列、结构和功能,预测磷酸化位点和磷酸化蛋白质的功能。

4. 蛋白质相互作用网络分析:通过构建蛋白质相互作用网络,研究磷酸化蛋白质与其他蛋白质的相互作用关系和信号传导通路。

5. 功能验证实验:通过基因敲除、过表达、药物干预等实验手段,验证磷酸化蛋白质的功能和调控机制。

总结起来,磷酸化蛋白质组学研究主要涉及磷酸化蛋白质的鉴定、功能研究和动态调控研究,主要依赖于蛋白质提取和纯化、质谱分析、生物信息学分析、蛋白质相互作用网络分析和功能验证实验等方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hans Journal of Computational Biology 计算生物学, 2018, 8(1), 24-32Published Online March 2018 in Hans. /journal/hjcbhttps:///10.12677/hjcb.2018.81004Identification of Protein PhosphorylationSites by Diversity Increment FeatureSelection TechniqueShisai Hu, Zhen Liang, Yuxiang Chen, Ying Zhang*, Jun Lv*College of Science, Inner Mongolia University of Technology, Hohhot Inner MongoliaReceived: Apr. 25th, 2018; accepted: May 15th, 2018; published: May 22nd, 2018AbstractPhosphorylation is one of the most important protein post-translational modifications and plays important roles in numerous biological processes by significantly affecting proteins’ structure and dynamics. The development of computational biological methods for the accurate identification of phosphorylation sites helps to our understanding of key signal transduction mechanisms. In this paper, a kinase independent phosphorylation site identification model was presented, called FSID_PhSite. The model is featured by component of k-spaced amino acid pairs and the position conservation of residues surrounding the phosphorylation sites. Applying diversity incremental feature selection technique to feature selection and inputting the selected features into the sup-port vector machine algorithm for recognition, when the ratio of positive and negative samples is 1:1, on independent testing dataset validation, the accuracy of identification for serine, threonine and tyrosine sites is 84.34%, 82.32% and 68.89%, respectively. The results were superior to the existing kinase independent phosphorylation sites identification model.KeywordsProtein Phosphorylation Site, Feature Selection Based on Increment of Diversity, Support Vector Machine用多样性增量特征选择技术识别蛋白质磷酸化位点胡世赛,梁珍,陈宇翔,张颖*,吕军*内蒙古工业大学理学院,内蒙古呼和浩特*通讯作者。

胡世赛 等收稿日期:2018年4月25日;录用日期:2018年5月15日;发布日期:2018年5月22日摘要磷酸化是最重要的蛋白质翻译后修饰之一,在许多细胞过程中扮演重要角色。

发展磷酸化位点精确识别的计算生物学方法,有助于对磷酸化信号转导机制的理解。

本文给出一种激酶无关的磷酸化位点识别模型,称为FSID_PhSite 。

模型以k 间隔氨基酸对组分和位置保守氨基酸组分为特征,应用多样性增量特征选择技术进行特征筛选,将选出的特征输入到支持向量机算法进行识别。

在正负样本数之比为1:1的情形下,对磷酸化丝氨酸、苏氨酸和酪氨酸在独立测试集检验,识别精度分别达到84.34%、82.32%和68.89%。

结果优于现有的激酶无关磷酸化位点识别模型。

关键词蛋白质磷酸化位点,多样性增量特征选择,支持向量机Copyright © 2018 by authors and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY). /licenses/by/4.0/1. 引言磷酸化是最常见的真核生物蛋白质翻译后修饰之一,是一个能量依赖的化学过程。

在广泛的细胞过程中,磷酸化参与了转录调控、DNA 修复、代谢、免疫反应、环境应激反应和细胞运动等。

磷酸化过程是在特异的磷酸激酶的催化下,高能磷酸盐供体ATP/GTP 等的末端磷酸基团加到特异蛋白链的特异受体氨基酸分子底物上,特异氨基酸的磷酸化改变了这一蛋白的酶活性。

一条蛋白质链的磷酸化一般只发生在丝氨酸(serine, S),苏氨酸(threonine, T)或酪氨酸(tyrosine, Y)这三个残基上。

约30%~50%的真核蛋白质要经历磷酸化过程[1]。

磷酸化/去磷酸化在不同细胞组织存在的广泛性,以及它与疾病的密切相关性,使得蛋白质磷酸化问题成为分子生物学研究的重要课题。

近年来,随着实验技术的不断提升,蛋白质翻译后修饰位点数据不断扩充,极大地推动了蛋白质翻译后修饰的研究进展。

然而实验方法往往费时费力,成本较高,因此大大推动了高效、精准预测翻译后修饰位点的计算方法的发展。

对磷酸化位点预测的计算生物学模型大体可分为三类,一是激酶特异模型[2] [3] [4] [5],二是物种或组织特异模型[6] [7] [8],三是物种和激酶无关的模型[9] [10] [11] [12] [13]。

特征信息来源一般是,底物序列片段的残基位置保守性,给定窗口残基组分或关联组分,进化保守性等。

最近,Audagnotto 和Dal Peraro [14]对蛋白质翻译后修饰的生物信息学预测工具进行了一个综述,给出了这些模型的Web 服务器链接,方便研究者查询。

由于一个蛋白质中,被修饰的位点是少数,与非修饰位点数相比相差悬殊,因此多数模型的预测精度均是在设定正负集样本数之比为1:1情形下给出的。

现有模型普遍存在输入特征维数高的缺点,进而致使模型出现严重的过学习情况。

尤其是物种和激酶无关的模型,输入特征偏多且预测精度偏低[9] [10] [11] [12] [13]。

随着被研究问题的复杂性的增加,特征向量的维数越来越高,以期获得更高的预测精度。

但是,高维特征将导致对样本的过拟合进而导致结果的泛化能力降低。

因此,应用特征选择技术进行数据分析和特征优化越来越受到人们的关注。

Drotár 等[15]在8个二分类的生物医学数据集上,比较了10个最先进Open Access胡世赛等的特征选择方法,发现基于熵的特征选择方法(information gain, IG) [16]具有最高的稳定性,而最小冗余最大相关(Minimal Redundancy Maximal Relevance, mRMR)方法[17]具有最高的预测精度。

2016年,Zou 等提出称为最大相关最大距离(Max-Relevance-Max-Distance, MRMD)的特征选择方法[18]。

在2017年,我们提出了一个新的特征选择方法——多样性增量特征选择(Feature Selection based on Increment of Di-versity, FSID) [19]。

我们将该方法应用于蛋白质柔性/刚性分类预测[19]问题中,发现FSID方法具有高效的特征降维能力,优于IG和MRMD方法。

蛋白质磷酸化位点识别是一个典型的高维特征问题。

因此,采用特征选择技术实现特征降维,是实现精确识别磷酸化位点的可行路线之一。

在本文中,我们提出一个新的与激酶无关的磷酸化位点识别模型FSID_PhSite。

在一个较大的蛋白质磷酸化位点注释数据集上,我们以k间隔氨基酸对组分和磷酸化底物片段位置保守残基组分为特征源,采用FSID方法进行特征选择,并结合支持向量机算法进行识别,获得了较高的识别精度。

2. 材料与方法2.1. 数据集本文数据集分为两部分:训练集和独立检验集。

两部分数据均来自Zhao等文献[12]的补充材料。

其中训练集中的正样本,即实验上确定的磷酸化位点,来源于Phospho.ELM数据库8.1版本(2008年8月12日发布) [20]。

训练集包括5725个蛋白质,其中磷酸化丝氨酸(serine, S)位点12373个、磷酸化苏氨酸(threonine, T)位点2525个,磷酸化酪氨酸(tyrosine, Y)位点1826个,这些位点组成训练集的正集。

训练集中的负样本也来源于这5725个蛋白质。

一个蛋白质序列中除磷酸化位点外,其余与任一磷酸化位点间距在50个氨基酸以上的S/T/Y残基,均被认为是非磷酸化位点,该负样本选取方案也被Biswas等[11]所采用。

由于非磷酸化位点数远大于磷酸化位点数,Zhao等[12]采取分别选择了十组与磷酸化位点等量的非磷酸化位点作为负集。

也即,一个训练正集对十个等量的训练负集。

为了公平地比较不同预测模型的性能,Zhao等[12]还收集到一个新的独立检验集。

该独立检验集取自Phospho.ELM数据库2008年8月12日之后的新增数据。

经去冗余处理后,将独立检验集中的蛋白质序列相似性降低到40%以下。

最后,在独立检验集中包含837个蛋白质,其中磷酸化丝氨酸位点1450个、磷酸化苏氨酸位点835个、磷酸化酪氨酸位点286个。

相关文档
最新文档