蛋白质复合体识别

合集下载

细胞生物学名词解释

细胞生物学名词解释

1.细胞生物学:从细胞整体水平、亚细胞水平和分子水平三个层次研究细胞的结构、功能及生命活动本质与规律的科学。

2.生物大分子:细胞内由若干小分子亚单位相连组成的具有复杂结构和独特性质的多聚体,能够执行细胞内生命活动的所有功能。

包括蛋白质,核酸,多糖。

3.蛋白质分子的α-螺旋:肽链以右手螺旋盘绕而成空心桶装构象,是蛋白质二级结构的一种。

它每3.6个氨基酸盘旋一周,整个结构借相邻两圈螺旋肽键的=N-H基的氢原子与=C=O基的氧原子之间形成的氢键维系。

4.β-片层结构:一条肽链回折而成的平行排列构象,是蛋白质二级结构的一种,这时多肽链的各段走向都与其相邻肽段的走向相反。

相邻肽段之间形成的氢键使彼此牢固结合。

5.蛋白质的亚单位:组成蛋白质四级结构的两条或两条以上呈独立三级结构的肽链中的每条肽链称为蛋白质亚单位。

6.碱基互补配对原则:组成DNA的两条多核苷酸链的碱基之间通过氢键有规律地互不配对的原则,即A和T配对,G和C配对。

7.内膜系统(endomembrane system):通过细胞膜内陷而形成的膜细胞器的总称,是真核细胞特有的结构,包括内质网,高尔基体,溶酶体,过氧化物酶体,内体等,它们共同完成细胞多种重要的生命活动过程。

8.信号肽(signal peptide):核糖体合成蛋白质时,在新合成的蛋白质的N末端有一段由信号密码翻译出的由16~26个疏水氨基酸组成的序列,它引导核糖体与内质网膜结合,并使多肽链穿过内质网膜进入内质网腔,最后被信号肽酶水解掉。

9.信号识别颗粒(signal recognition partical,SRP):存在于胞质内,是一核糖核酸蛋白质复合体,由6个多肽亚单位和1个RNA分子组成。

可识别并结合信号肽和SPR受体,对蛋白质多肽穿过内质网膜进入内质网腔的过程起重要作用。

10.信号识别颗粒受体(SRP receptor):存在于内质网膜中的整合蛋白,为异二聚体。

SRP受体能与SRP-核糖体复合体结合,并把它们引导至内质网膜上被称为移位子的通道蛋白处。

siRNA的名词解释

siRNA的名词解释

siRNA的名词解释siRNA(short interfering RNA),也称为短干扰RNA,是一种短小的双链RNA分子,通常由21到23个碱基对组成。

与其它类型的RNA分子不同,siRNA在细胞内发挥着关键的调控作用。

在过去的几十年里,科学家对siRNA进行了广泛的研究,并且已经发现了许多关于siRNA的重要发现。

1. siRNA的发现和起源siRNA最早是在1998年由美国的科学家发现的。

当时,他们发现引入双链RNA分子到寄生虫的细胞中,能够抑制特定基因的表达。

这个发现引起了科学界的广泛关注,并且开创了RNA干扰研究的新领域。

之后的研究表明,siRNA并不仅存在于寄生虫中,而且在许多其他的生物中也有广泛存在。

这些研究揭示了siRNA起源的普遍性和重要性。

2. siRNA的作用机制siRNA发挥作用的机制可以分为两个阶段:siRNA的合成和siRNA的靶向降解。

首先,siRNA通过一个复杂的合成过程来产生。

通常,siRNA是由一种酶(Dicer 酶)切割长的双链RNA前体,形成短双链RNA。

然后,短双链RNA被一个蛋白质复合体(RNA诱导沉默复合体)识别。

该复合体将siRNA中的其中一个链条加载到复合体中,并将其用作导向靶标基因降解的模板。

一旦siRNA和复合体形成,它们会与目标mRNA相互作用。

通常情况下,siRNA与mRNA的特定部位产生互补配对,形成siRNA-mRNA复合体。

这个复合体随后会被其他蛋白质复合体(RNase H和Exonuclease)识别和降解,以此来抑制目标mRNA的翻译和功能。

通过这种机制,siRNA能够选择性地沉默或抑制目标基因的表达。

这使得siRNA成为一种非常有潜力的生物分子工具,在基因功能研究、疾病治疗和生物技术应用等方面有着广泛的应用前景。

3. siRNA在基因功能研究中的应用由于siRNA能够有效地沉默特定基因,它被广泛应用于基因功能研究中。

科学家可以设计并合成特定的siRNA分子,用于沉默感兴趣的基因。

蛋白质鉴定

蛋白质鉴定

百泰派克生物科技
蛋白质鉴定
蛋白质的分子结构分为四级,其中一级结构是指蛋白质多肽链中氨基酸的序列。

蛋白质鉴定主要是对蛋白质的一级结构进行分析。

百泰派克生物科技提供基于质谱的蛋白质鉴定服务。

蛋白质
蛋白质主要是由C、H、O、N等化学元素构成,是一类重要的生物大分子。

蛋白质的基本组成单元是氨基酸,多个氨基酸经过脱水缩合连接在一起从而形成蛋白质,蛋白质中的氨基酸常被称为氨基酸残基。

为了能够执行生物学功能,蛋白质会折叠成一个或多个特定的空间构象,这些特定的构象是由许多非共价相互作用(例如氢键、离子相互作用、范德华力和疏水堆积)驱动的。

蛋白质鉴定与蛋白结构
蛋白质的分子结构分为四级:一级结构,是指蛋白质多肽链中氨基酸的序列;二级结构,是指实际多肽主链上的高度规则的局部亚结构,如α螺旋和β折叠;三级结构,是指多个二级结构空间排列所形成的三维结构;四级机构,是指由两个或两个以上单个多肽链(亚基)聚集而成的三维结构,它们作为一个功能单元发挥作用。

蛋白质的一级结构决定了蛋白质其它高级结构,并定义了蛋白质的功能。

蛋白质鉴定,也叫蛋白鉴定,主要是对蛋白质的一级结构进行分析鉴定,包括蛋白质分子量的测定、氨基酸序列分析以及翻译后修饰信息等。

质谱鉴定蛋白质

质谱鉴定蛋白质

百泰派克生物科技
质谱鉴定蛋白质
质谱鉴定蛋白质,是利用质谱的相关方法对蛋白质进行鉴定工作。

百泰派克生物科技提供质谱鉴定蛋白质服务。

质谱鉴定蛋白质
质谱法是精确测定蛋白质质量和表征蛋白质的一个重要方法。

质谱鉴定蛋白质的应用包括蛋白质的鉴定、蛋白质翻译后修饰的鉴定,蛋白质复合体分析,蛋白质的亚基和功能互作的鉴定,以及蛋白质组学中蛋白质的整体测量。

它也可用于将蛋白质定位于各种细胞器,并确定不同蛋白质之间以及蛋白质与膜脂之间的相互作用。

质谱鉴定蛋白质的基础
质谱仪的核心包括离子化源、质量分析器和离子检测器。

其中,蛋白质样品离子化是质谱能够应用于鉴定蛋白质的重要基础。

质谱鉴定蛋白质,要求将溶液或固态蛋白质在注入并在电场或磁场中加速分析之前,先在气相中转变成离子化形式。

蛋白质电离的两种主要方法是电喷雾电离(ESI)和基质辅助激光解吸电离(MALDI),MALDI是在激光脉冲激发下使分析物从基质晶体中挥发出来并离子化,ESI则是使分析物从溶液相中电离。

ESI适合与液相分离技术联用,如ESI-MS与液相色谱联用可用于复杂样品的分析。

MALDI适用于较简单样品的分析。

大肠杆菌磷酸转移酶系统蛋白蛋白复合体的三维结构

大肠杆菌磷酸转移酶系统蛋白蛋白复合体的三维结构

大肠杆菌磷酸转移酶系统蛋白蛋白复合体的三维结构
大肠杆菌(Escherichia coli)磷酸转移酶系统主要包括磷酸转移酶
I(phosphotransferase system I, PTS I)和磷酸转移酶 II (phosphotransferase system II, PTS II)两个部分。

PTS I主要负责
将葡萄糖转运进胞内,而PTS II则负责转运其他糖类物质。

PTSI的蛋白蛋白复合体主要由三个亚单位组成,分别是磷酸转移酶HPr、磷酸转移酶EⅡA和磷酸转移酶EⅡB。

这三个亚单位分别承担着不
同的功能。

磷酸转移酶HPr是磷酸转移酶系统的信号转导分子,它通过磷
酸化和去磷酸化来传递信号,调节系统的功能。

磷酸转移酶EⅡA则是底
物结合蛋白,它通过与底物结合来传递信号,并将底物转移到磷酸转移酶
EⅡB上。

磷酸转移酶EⅡB是磷酸转移酶系统的最终底物酶,负责将底物
的磷酸转移给内源性的受体蛋白。

PTSII的蛋白蛋白复合体主要由磷酸转移酶ⅡA和磷酸转移酶ⅡB组成。

磷酸转移酶ⅡA同样是底物结合蛋白,它通过与底物结合来传递信号,并将底物转移到磷酸转移酶ⅡB上。

磷酸转移酶ⅡB则是磷酸转移酶系统
的最终底物酶,负责将底物的磷酸转移给内源性的受体蛋白。

这些蛋白质之间通过蛋白质间相互作用结合在一起,形成一个稳定的
蛋白复合体。

这些相互作用包括蛋白质的结构域与域之间的相互作用、蛋
白质的互补表面上的氢键和范德华力的作用等。

这些相互作用对于蛋白质
复合体结构的稳定起到了至关重要的作用。

f1f0复合体的名词解释

f1f0复合体的名词解释

f1f0复合体的名词解释F1F0复合体是细胞内一种关键的蛋白质复合体,在能量转换和细胞呼吸过程中起着重要的作用。

本文将对F1F0复合体的结构、功能以及其在生物学中的重要性进行解释。

1. F1F0复合体的结构F1F0复合体主要由两个部分组成,即F1部分和F0部分。

F1部分位于细胞的基质内,由α、β、γ、δ、ε五个亚基组成,呈现一个六角形结构。

F0部分则嵌入到细胞膜上,由a、b、c三个亚基组成,呈现一个环形结构。

2. F1F0复合体的功能F1F0复合体的主要功能是将化学能转化为细胞内的能量,即将腺苷三磷酸(ATP)合成。

具体而言,F1部分通过水解一分子无机磷酸根(Pi)的同时将一分子ADP和一分子磷酸根(Pi)合成一个分子ATP。

而F0部分则通过质子梯度驱动ADP和Pi的转运,从而使F1部分的合成过程能够进行。

3. F1F0复合体在生物学中的重要性F1F0复合体在生物学中的重要性体现在多个方面。

首先,它是生物体能量转换的核心机制之一。

通过ATP的合成和分解,F1F0复合体可以调节细胞内的能量平衡,维持生物体的正常代谢功能。

其次,F1F0复合体也参与细胞的呼吸作用。

在线粒体内,通过氧化还原反应和F1F0复合体的协同作用,细胞能够将有机物质氧化成二氧化碳、水和能量。

此外,F1F0复合体还与细胞内的离子通道有关,通过质子梯度的建立和维持,调控细胞内的离子平衡和电位。

4. F1F0复合体的研究进展随着对F1F0复合体的研究深入,人们对其结构和功能的了解也越来越深入。

通过使用X射线晶体学、电子显微镜、核磁共振等技术手段,科学家们成功解析了F1F0复合体的高分辨率结构,揭示了其催化机制和能量转换途径。

此外,也有研究者通过基因工程技术对F1F0复合体进行改造和调控,以期探索其在生物能源领域的潜在应用。

总结:F1F0复合体作为细胞内一个重要的复合蛋白质,承担着细胞能量转换和呼吸作用的关键任务。

它的结构和功能各具特点,通过ATP的合成和分解,维持了生物体的能量平衡和正常代谢。

组织特异性蛋白质复合体的识别

组织特异性蛋白质复合体的识别

组织特异性蛋白质复合体的识别丁霞;张晓飞;易鸣【摘要】In this paper, we study the identification problem of tissue-specific protein complexes. By using a variety of typical clustering algorithm to cluster the network, we construct a tissue-specific protein-protein interaction network based on the protein-protein interaction net-works as well as the tissue-specific gene expression data, then merge the results with non-negative matrix factorization model to obtain tissue-specific protein complexes. The results show that clustering effect has been significantly improved, and can identify tissue-specific protein complexes.%本文研究了组织特异性蛋白质复合体的识别问题.利用蛋白质相互作用网络数据以及组织特异性基因表达数据构建组织特异性蛋白网络,利用多种代表性聚类算法对该网络进行聚类,并利用非负矩阵分解对聚类结果进行合并聚类,得到了组织特异性蛋白质复合体.结果表明,聚类效果得到明显提升,并且能识别出组织特异性蛋白质复合体.【期刊名称】《数学杂志》【年(卷),期】2017(037)005【总页数】8页(P1093-1100)【关键词】蛋白质相互作用网络;复合体识别;组织特异性;非负矩阵分解【作者】丁霞;张晓飞;易鸣【作者单位】武汉大学数学与统计学院,湖北武汉 430072;华中师范大学数学与统计学学院,湖北武汉 430079;华中农业大学理学院,湖北武汉 430070【正文语种】中文【中图分类】O212.4;O212.5在现如今的后基因组时代,对细胞间模块以及基因的关系进行系统分析和全面了解是一个非常重要的课题.随着生物信息学的高速发展,基因组学中大规模的高通量技术,如基于质谱的串联亲和纯化[1,2]、酵母双杂交[3,4]以及蛋白芯片技术为我们提供了海量的大规模生物网络,也为我们对生物网络进行系统的分析创造了可能.众所周知,蛋白质很少单独行动,它们往往结合在一起形成复合体在生命体中进行生物功能[5].蛋白质复合体的综合研究有助于揭示蛋白质-蛋白质相互作用网络的结构、预测蛋白质的功能,更有助于阐明各种疾病的细胞机制[6].经过10多年的快速发展,已经涌现出了许多基于不同聚类机理的蛋白质相互作用网络功能模块检验方法.尽管在此方面已经有不少研究,但是这些方法主要关注静态的蛋白质相互作用网络,而忽略了蛋白质功能作用的动态变化及组织特异机制.幸运的是,DNA微阵列技术的出现,使数以千计的基因的差异表达的各种实验条件被同时且定量监视,它提供了许多有关于时间以及组织特异的信息[7].目前也有少许算法研究动态网络,并探测动态复合体,但还没有算法涉及到组织特异的复合体侦测.本文通过结合组织特异性基因表达数据以及人类蛋白质相互作用网络构建出一系列组织特异性蛋白网络,尝试探索组织特异功能模块的研究.本文的主要方法为对所构建的组织特异性蛋白网络利用多种方法对其进行聚类,并对结果进行组装,最后使用非负矩阵分解模型对组装的结果进行有效合并.实验结果表明,本文的方法与其他聚类方法相比,在检测蛋白质复合体上结果更好.因为组织特异性蛋白复合体对于理解生物学功能以及确定生物标志物和功能靶标十分重要[8],因此探索组织特异功能模块很有必要.在本节中,本文首先介绍如何构建组织特异性蛋白网络,随后介绍如何检测组织特异性复合体.组织特异性蛋白网络是结合蛋白质相互作用网络以及组织特异性基因表达数据两者来构建的.给定一个PPI网络,可以用图G=(V,E)来表示[9],其中V包含|V|=N个蛋白质,而E包含|E|条边.图G可以表示成一个邻接矩阵A,其中若有一条边连接蛋白质i与j,则Aij=1,否则Aij=0,在这种情况下,识别蛋白质复合体这一问题就转化为点的聚类问题.组织特异性基因表达数据是这N个蛋白质在T个组织中的基因水平,可以用一个N×T维矩阵F表示.本文将利用矩阵A以及矩阵F来构建组织特异性蛋白网络.若蛋白质i与j有相关关系,即Aij=1,并且在组织t中,蛋白质i与蛋白质j均显著表达,即Fit>0并且Fjt>0,则蛋白质i与蛋白质j在组织t中存在相关关系.根据上述方法,对T个组织进行构建,则可得到T个组织特异性蛋白网络.在本节中,本文先对组织特异性蛋白质相关关系网络中的每一个组织分别使用基本聚类方法,并使用非负矩阵分解模型来合并相似组织特异性蛋白质复合物,得到新的复合体,算法的基本流程如图1所示.2.2.1 基本聚类方法本文首先利用7种基本的聚类方法分别对这T个组织特异蛋白网络进行聚类,构建蛋白质复合体,所用的7种方法分别为MCL、MCODE、MINE、ClusterONE、DPClus、SPICi、CoAch.MCL是通过模拟在PPI网络中流的自由行走来检测蛋白质复合体的经典算法,它定义了指派节点概率的Expansion操作和改变节点游走概率的In fl ation操作来模拟随机游走的扩展和收缩行为[10,11].MCODE是一种基于蛋白质的连接值来检测蛋白质复合体的计算方法,它首先利用节点的局部邻域密度给PPI网络中每个节点进行加权,然后选择具有最高权值的节点作为初始聚类的种子节点,并由种子节点向外扩张形成最后的簇(蛋白质模块)[11,14].MINE是一种类似于MCODE的凝聚聚类算法,但它使用了一个改进的顶点加权策略,并且可以衡量网络模块性,而这两者都有助于避免使用生长群内包含的临界点来定义模块的边界[13].DPClus是一种通过簇边界的跟踪进行聚类的算法,它不仅利用模块密度而且利用新定义的粗特性CP完成复合体检验[11,14].ClusterONE是一种能识别带重叠的蛋白质复合体的一种算法,它依赖于重叠领域扩张[15].CoAch是一种利用核心依附关系进行复合体检测的算法,该算法分为两个阶段,第1阶段从邻接图中定义核心顶点,然后从中检测蛋白质复合体的核心蛋白质,第2阶段为将附属蛋白质逐个连接到核心蛋白质所代表的复合体中[11,16].SPICi是一种高效算法,SPICi种子集群根据其加权度的节点,如果支撑足够高,并且集群的密度低于用户定义的阈值,则此非集群节点将会添加到集群中,否则,群集被输出,这个簇的节点将会从网络中移除[17].2.2.2 非负矩阵分解模型对每一个组织,分别使用上述7种聚类方法,可以得到7个复合体矩阵V1,V2,···,V7,Vi(i=1:7)为N×Pi(i=1:7)矩阵,其中N代表蛋白质的个数,Pi为第i 种聚类方法所识别的蛋白质复合体的个数.对于矩阵Vi,若蛋白质Ni,Nj,···,Nk组成第e个复合体(1<=e<=Pi),则在第e列中,除了蛋白质Ni,Nj,···,Nk所对应的元素为1外,其余元素为0.将这7个复合体矩阵V1,V2,···,V7横向排列,得到矩阵V=[V1,V2,···,V7],V为N行P列的矩阵依造此方法,可构建出T个矩阵.接着,我们使用了非负矩阵分解模型来合并相似瞬时蛋白质复合物.它提供了一种对非负矩阵的低秩逼近,并且已被广泛地运用到聚类当中[18,19].Lee和Seung的非负矩阵分解方法,设定模型为利用更新法则最后得到矩阵W(N×K)和H(K×P),本文只对矩阵W进行研究,将其横向归一,即令Uik=Wik/Wi..得到U之后,设定过滤阈值τ,若Uij>τ,则蛋白质Ni是复合体Kj的组成部分.由上可知,本次算法共有两个参数,所识别的复合体的个数K以及过滤阈值τ.由于复合体大多是由3个及3个以上的蛋白质组合而成,因此对所识别出的复合体进行过滤,将蛋白质个数<2的复合体舍去.本文从BIOGPS项目中的Af f ymetrix数据集中获得了83个人体组织和细胞系的转录水平[20],并从BioGrid网站[21]中下载到人体蛋白质-蛋白质相互作用关系,构建了83个组织特异性蛋白网络,具体处理数据以及构造方法详见文献[20],本文挑选了蛋白质对个数>10000的26个组织进行分析,这26个组织或者细胞分别为:BDCA 4+树突状细胞、支气管上皮细胞、CD105+内皮、CD19+B细胞、髓细胞、造血干细胞、CD4+T细胞、CD56+自然杀伤细胞、CD71+早期红细胞前体细胞、CD8+T细胞、心脏肌细胞、肠和直肠腺癌、慢性粒细胞性白血病k-562、早幼粒细胞性白血病淋巴细胞(MOLT-4)、白血病HL-60、淋巴瘤burkitt(Daudi)、淋巴瘤burkitt(Raji)、日间松果体、夜间松果体、前额叶皮层、视网膜、前列腺、平滑肌、甲状腺、全血.为了衡量所检测出的复合体的精确性,本文选择了一个广泛使用的复合体标准作为黄金标准,该标准是从哺乳动物蛋白质复合体的CORUM[22]数据库中得到,最终获得由2151个蛋白质组成的324个复合体,本文中只选取其中蛋白质个数大于3个的复合体.我们将判断预测的复合体是否能很好地对应到已知的复合体作为评判标准.ACC[23]是用来测量几何精度的,在这项研究中,它被用来评估预测的复合体与参考的复合体之间的相似性.MMR(the Maximum Matching Ratio)由Paccanaro提出的用来评估相对于参考蛋白质复合体来说预测的蛋白质复合体是否符合期望的一个评价标准.MCL有一个用来调整聚类的间隔尺寸的参数,俗称膨胀率,本文设定其取值范围从3.0到5.0,步长为0.2;MCODE设定蛋白质个数为3,其余参数默认;MINE设定蛋白质个数为3,其余参数默认;DPCLUS有两个参数,最小密度d以及最小聚类性质参数cp,本文设定其值分别为0.7以及0.5;ClusterOne参数设为默认;CoAch有一个参数ω,用来过滤冗余的核心蛋白质,本文设定取值范围为0.225到0.925,步长为0.05;SPICi有两个参数,其中我们设定密度阈值这一参数的取值范围为0.1到1,步长为0.1.对于以上7种算法,挑选出使得每种算法的ACC和MMR的调和平均数最大的参数值作为最后选定的参数值.本文的算法中,共有两个参数K以及τ,K为所识别的蛋白质复合体的个数,根据过往者的经验,设定其取值范围从600到1600,步长为200,τ为过滤阈值,设置其取值范围为0到0.9,步长为0.1.在对26个组织分别进行上述算法后,得到表1.在对所有组织计算中发现,一般复合体个数在600-2000并且阈值在0或者0.1的情况下表现良好,由于篇幅有限,仅挑选出4个组织进行参数分析,分别为:甲状腺、B细胞、前额叶皮层、T细胞,如图2.在这一章中,我们将本文的算法与其他7种算法对这26个组织或者细胞的蛋白质网络进行聚类之后的结果进行比较.对于其他7种基本聚类方法,我们取其ACC和MMR的调和平均数为这26个组织最后的结果,从表1中可以看出,本文的算法最后得到的ACC值在24个组织中处于最大值,两个组织中居于第二.本文将26个组织所用的7种方法得到的最高值与本文所用的方法进行比较,提升最高的组织是前列腺,提高值为13%.在与其他7种方法分别单独比较时,提高最高的百分比分别为:51.61%、33.33%、39.53%、122.22%、27.03%、25.00%、27.91%,具体提升情况可参见图3,从图中我们可以看出,MCODE算法所得到的结果最差,在26个组织中,使用非负矩阵分解得到的结果均比其提高30%以上;其次是MCL,提高了8%到40%;而CLusterONE表现最好,有两个组织比本文的算法分别高出1.96%、3.08%.从上述结果中可以看出,本文所提出的算法与其他7种方法相比是具有优越性的. 组织特异性蛋白质复合体对于理解生物学功能以及确定生物标志物和功能靶标十分重要,这也是本文的研究动机.同一个蛋白质在不同的组织中会与不同的蛋白质相结合,举例来说,转运蛋白1(TNPO1)在树突状细胞中与蛋白质CD4、PPP3CA、TNPO3结合,在髓细胞中与SRP19、TNPO3相结合,而在平滑肌中则与蛋白质IPO5、IPO7、NUTF2、RAN、SRP19结合形成复合体,由此可以看出在不同的组织中其会与不同的蛋白质相结合,而TNPO1与TNPO3则同时出现在不同组织的同一个复合体中,这与生命活动也是相符合的.在真正的生命活动中,蛋白质会在不同的组织中与不同的蛋白质相结合,而许多现有的检测蛋白质复合物模型都是在静态PPI网络模型中直接检测,而忽略了蛋白质复合体的空间特异性.本文利用多种方法对不同的组织构建组织特异性蛋白质相互作用网络,并使用非负矩阵分解模型对其他聚类结果进行合并聚类,并在获取组织特异性蛋白质复合体时得到了良好的结果.同时,本文也有一些不足,虽然本文的结果在ACC标准中表现良好,但在MMR这一标准中仍需改进,同时,本文仅选取一个黄金标准复合体,在接下来的工作中,我们可以参考多组黄金标准复合体进行方法之间的比较.【相关文献】[1]Aebersold R,Mann M.Mass spectrometry-based proteomics[J].Nature,2003,422(6928):198-207.[2]Ho Y,Gruhler A,Heilbut A,et al.Systematic identif i cation of protein complexes in Saccharomyces cerevisiae by mass spectrometry[J].Nature,2002,415(6868):180-183. [3]Ito T,Chiba T,Ozawa R,Yoshida M,Hattori M,Sakaki Y.A comprehensive two-hybrid analysis to explore the yeast protein interactome[J].Proceed.National Acad.Sci.United States America, 2001,98(8):4569-4574.[4]Uetz P,Giot L,Cagney G,Mansf i eld T A,et al.A comprehensive analysis of protein-protein interactions in Saccharomyces cerevisiae[J].Nature,2000,403(6770):623-627. [5]Gavin A C,B sche M,Krause R,et al.Functional organization of the yeast proteome by systematic analysis of protein complexes[J].Nature,2002,415(6868):141-147.[6]Lage K,Karlberg E O,Størling Z M,et al.A human phenome-interactome network of protein complexes implicated in genetic disorders[J].Nature Biotechnology,2007,25(3):309-316.[7]Lo K,Raftery A E,Dombek K M,et al.Integrating external biological knowledge in the construction of regulatory networks from time-series expression data[J].BMCSys.Bio.,2012,6(2):101.[8]Vasmatzis G,Klee E W,Kube D M,Therneau T M,Kosari F.Quantitating tissue specif i city of human genes to facilitate biomarker discovery[J].Bioinformatics,2007,23(11):1348-1355.[9]Li D,Li J,Ouyang S,Wang J,Wu S,Wan P,Zhu Y,Xu X,He F.Protein interaction networks of Saccharomyces cerevisiae,Caenorhabditis elegans and Drosophila melanogaster:large-scale organization and robustness[J].Proteomics,2006,6(2):456-461.[10]Enright A J,Dongen S V,Ouzounis C A.An efficient algorithm for largescale detection of protein families[J].Nucleic Acids Res,2012,30(7):1575-1584.[11]冀俊忠,刘志军,刘红欣,刘椿年.蛋白质相互作用网络功能模块检测的研究综述[J].自动化学报,2014, 40(4):577-593.[12]Bader G D,Hogue C W V.An automated method for f i nding molecular complexes in large protein interaction networks[J].BMC Bioinformatics,2003,4(1):2.[13]Rhrissorrakrai K,Gunsalus K C.MINE:module identif i cation in networks[J].BMC Bioinformatics, 2011,12(1):192.[14]Altaf-Ul-Amin M,Shinbo Y,Mihara K,Kurokawa K,Kanaya S.Development and implementation of an algorithm for detection of protein complexes in large interaction networks[J].BMC Bioinformatics,2006,7(1):207.[15]Nepusz T,Yu H,Paccanaro A.Detecting overlapping protein complexes in protein-protein interaction networks[J].Nature Methods,2012,9(5):471-472.[16]Wu M,Li X L,Kwoh C K,Ng C K.A core-attachment based method to detect proteincomplexes in PPI networks[J].BMC Bioinformatics,2009,10(1):169.[17]Jiang P,Singh M.SPICi:a fast clustering algorithm for large biologicalnetworks[J].Bioinformatics, 2010,26(8):1105-1111.[18]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization[J].Nature, 1999,401(6755):788-791.[19]Ding C,He X F,Simon H D.On the equivalence of nonnegative matrix factorization and spectral clustering[J].Siam Intern.Confer.Data Min.,2005,5:606-610.[20]Lopes T J,Schaefer M,Shoemaker J,Matsuoka Y,Fontaine J F,Neumann G,Andrade-Navarro M A,Kawaoka Y,Kitano H.Tissue-specif i c subnetworks and characteristics of publicly available human protein interaction databases[J].Bioinformatics,2011,27(17):2414-2421.[21]Chatr-aryamontri A,Breitkreutz B J,Heinicke S,et al.The Biogrid interaction database:2013 update[J].Nucleic Acids Research,2013,41(2):816-823.[22]Havugimana P C,Hart G T,Nepusz T,et al.A census of human soluble protein complexes[J].Cell, 2012,150(5):1068-1081.[23]Li X,Wu M,Kwoh C K,et putational approaches for detecting protein complexes from protein interaction networks:a survey[J].BMC Genomics,2010,11(4):S3.[24]Ou-Yang L,Dai D Q,Zhang X F.Protein complex detection via weighted ensemble clustering based on bayesian nonnegative matrix factorization[J].Plos One,2013,8(5):639-642.[25]Ou-Yang L,Dai D Q,Li X L,Wu M,Zhang X F,Yang P.Detecting temporal protein complexes from dynamic protein-protein interaction networks[J].BMC Bioinformatics,2014,15(1):16001-16005.[26]Zhang X F,Dai D Q,Ou-Yang L,Yan H.Detecting overlapping protein complexes based on a generative model with functional and topological properties[J].BMC Bioinformatics,2014,15(2):836-842.[27]Zhang W,Zou X F.A new method for detecting protein complexes based on the three node cliques[J]. IEEE/ACM Trans Comput.Biol.Bioinform,2015,12(4):879-886.[28]涂俐兰.两两序列比对的一种新方法[J].数学杂志,2006,26(1):67-70.。

蛋白质互作

蛋白质互作

SH2结构域
约100个氨基酸序列,识别磷酸化的酪氨 酸及相邻的3-6个氨基酸残基。
SH3结构域
由50个氨基酸残基组成,存在于各种蛋 白激酶和衔接蛋白中,识别富含脯氨酸 的序列R/KXXPXXP或PXXPXR/K,其亲和力 与脯氨酸残基及相邻氨基酸残基组成相 关。
PH结构域
100-120个氨基酸残基组成,存在于多种 细胞骨架蛋白,蛋白激酶、PLC超家族中。
兼具结合脂类和蛋白质的能力,参与细 胞信号转导。
WW结构域
30-40个氨基酸残基组成的三股反平行β 片层结构域,含两个高度保守的色氨酸 WW而得名,识别富含脯氨酸的序列XPPXY, 参与非受体信号转导、转录调节和蛋白 质降解等过程。
PDZ结构域
由80-100个氨基酸残基组成,包含2个 α-螺旋和6个β-折叠,常以串联重复拷 贝存在,是构成支架蛋白的重要结构, 在细胞膜蛋白质的聚集中发挥重要作用。
结构域是蛋白质中折叠较为紧密且具有 一定功能的球状和纤维状的结构,以模 块方式具有多种不同功能的分子。
蛋白质相互作用结构域专指那些可以识 别其他蛋白质的特殊结构,从而介导两 个蛋白之间发生相互作用的结构域,一 般由50-100个氨基酸组成。
结构域结构域相互作用 结构域-肽段模体相互作用
protein2) SH3-SH2-SH3 NCK(noncatalytic region of tyrosine
kinase) SH3-SH3-SH3-SH2 Scaffold protein JIP-1(JNK-interacting protein1)
PPI 研究的医学意义
PPI异常可导致细胞活动失控
相互作用能力的丧失可丧失原有的正常调节。 突变也可产生新的相互作用。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质复合体识别
报告
: 杨
2009.10.16
学习报告的内容
1. 背景介绍 2. 相关研究问题 3. 主要研究内容与具体研究工作
背景介绍
蛋白质
蛋白质是由多种氨基酸按特定的 排列顺序通过肽键连接成有一定 结构的高分子化合物。
蛋白质复合体
在相同时间和空间通过相互作用 组成一个多分子机制的一组蛋白 质,例如转录因子复合物和RNA 拼接等。
评价
预测蛋白质复合物(Predicted complexes, Pc)与已知蛋白 质复合物(Known complexes, Kc)匹配程度OS(Pc,Kc)的计算 公式:
| V Pc I V Kc | 2 OS ( Pc , Kc ) = | V Pc | × | V Kc |
敏感度是指已知蛋白质复合物中被算法标识出来的部分所占 比重:
蛋白质相互作用网络
蛋白质网络可以被表示成为一个无向图,其中每个节点 表示一个蛋白质,每条边表示一对蛋白质节点之间的相互作 用。
研究目的
复合体模块 是蛋白质相互作用网络中的重要组成部分 描述功能团/进程 传递信息 重要结构形式 了解蛋白质网络
学习报告的内容
1. 背景介绍 2. 相关研究问题 3. 主要研究内容与具体研究工作
主要研究内容与具体研究工作
训练已有的数据集
利用有监督的搜索算法
利用尽可能多的拓扑结构
所有子图的共同特征
考虑复合体的生物属性
主要研究内容与具体研究工作
分析蛋白质复合物的拓扑结构
在蛋白质复合体数据集中复合物的拓扑结构有很多种,如下图:
蛋白质生物特征
结合复合体的拓扑结构和生物特征,因此选择多个拓 扑特征和序列信息对复合体进行描述。
存在的问题及可以进一步研究的方向
如何体现复合物或功能模块之间的交叠关系 提高预测蛋白质复合体的准确性 应用于其它物种的蛋白质复合体识别,像 human.
基于图划分的方法
主要包括RNSC;Qcut/Hcut 优点:简单 缺点:聚类得到的结果的每个蛋白质节点只能属于一个簇
基于密度的局部搜索方法
主要包括Maximal,CPM/CFinder,LCMA,MCODE,DPClus 优点:可以识别交叠的蛋白质复合物或功能模块 缺点:无法识别蛋白质网络中那些非稠密的子图结构
Given a PPI graph identify the subsets of interacting proteins that form complexes
获得复合体方法:
实验方法 计算方法
实验测定的方法
Gavin, et al. (Nature, 2002)
TAP : Tandem Affinity Purification
谢 谢! 周末愉快!
Question?
蛋白质网络拓扑特征
蛋白质相互作用网络特点:
网络直径与特征路径长度 度的分布特性及度与度的相关性 聚集系数(cluster coefficient) 间隔, 等等
拓扑特征
小世界特性 聚集系数和特征路径长度 无尺度网络特性 幂规律分布;增长和偏好连接 向心特性 模块化结构特征
蛋白质复合体的识别
Problem statement:
example
算法原理
数据集
MIPS(216,1078),TAP06(97,835),PPI(12319对,4546个)
采用有监督的图聚类算法,因此需要反例集合, 根据 正例集合MIPS中复合体大小的分布情况,采用数据拟 合技术,生成反例集合。
基于SVM的图聚类算法
算法输入: 蛋白质相互作用网络(PPI) 复合体正反例集合 输出: 搜索到的复合体集合 模型参数估计: : 从正反例集中提取特征 利用SVM工具包训练得出参数模型 搜索复合体: 对网络中的节点按度的高低排序,从度高的节点进行搜索
Ho, et al. (Nature, 2002)
HMS-PCI: High-throughput Mass Spectromic Protein Complex Identification
基于计算的方法
• • •
层次聚类的方法 基于图划分的方法 基于密度的局部搜索方法
基于层次聚类的方法
G-N算法及改进算法,HCS,MoNet 优点:能够以树状结构呈现整个蛋白质网络的层次化模块组成方 式 缺点:很难识别交叠的蛋白质复合物或功能模块 对噪声很敏感
Sn = TP法识别的蛋白质复合物中识别正确的部分所占 比重:
Sp = TP TP + FP
综合评价指标F综合考虑敏感度和特异性两个方面:
F = 2 × Sp × Sn Sp + Sn
实验结果
结论
有监督的方法可以识别出更多的复合体。 考虑到生物特征。
进一步工作
更好的搜索算法 新的特征
相关文档
最新文档