浅谈最常用的代谢组学分析方法

浅谈最常用的代谢组学分析方法
浅谈最常用的代谢组学分析方法

代谢组学是一门对某一生物或细胞所有低分子质量代谢产物(以相对分子质量<1000的有机和无机的代谢物为研究核心区)进行分析的新兴学科。生物样本通过NMR、GC-MS、LC-MS等高通量仪器分析检测后,能产生大量的数据,这些数据具有高维,少样本、高噪声等复杂特征,同时代谢物多且代谢物之间联系密切,因此从复杂的代谢组学数据中确定与所研究的现象有关的代谢物,筛选出候选生物标记物成为代谢物组学研究的热点和难点。

代谢组学分析数据用于统计分析时,数据集通常为一个N ×K 的矩阵(X矩阵),N表示N个样本数,每一行代表一个样品,K表示K个变量,每一列代表一个变量,在代谢组学中变量通常是指代谢物含量。常用的分析方法如图1所示:

数据分析方法

单变量分析

多变量分析差异倍数分析

显著性检验

无监督分析

有监督分析

PLS-DA

PCA

OPLS-DA

图1 代谢组学常用的数据分析方法

单变量分析

单变量分析方法仅分别分析单个变量,不考虑多个变量的相互作用与内在联系。具有简单性、易应用性和可解释性。但是无法基于整

体数据对所测样品的优劣、差异进行综合评价和分析。

(1)差异倍数分析

差异倍数变化大小(Fold Change,FC)表示实验组与对照组的含量比值,可以快速考察各个代谢物在不同组别之间的含量变化大小。(2)显著性检验

p值即概率,反映某一事件发生的可能性大小,用于区分该变量是否具有统计显著性,通常认为p<0.05具有统计显著性。常用的检验方法有t-test、方差分析(Analysis of Variance,ANOVA),但是由于代谢组学的变量较多,必要时需要进行多重假设检验,对p值进行校正,减少Ⅰ类错误,降低假阳性。

多变量分析

多变量分析方法能同时处理数百或数千个变量,并且能处理变量之间的相互关系。利用变量之间的协方差或相关性,使原始数据在较低维空间上的投影能尽可能地捕获数据中的信息。但是如果存在大量无信息变量可能会妨碍多变量分析的能力,无信息变量的数量越多,减少真阳性数量的效果就越显著。

多变量分析分为无监督分析方法和有监督分析方法。在代谢组学分析中无监督学习有主成分分析(Principal Component Analysis,PCA),只需要数据集X,而有监督分析方法主要是偏小二乘判别分析(Partial Least Squares Discrimination Analysis, PLS-DA)和正交偏小二乘判别分析(Orthogonal Partial Least Squares

Discrimination Analysis , OPLS-DA),这类方法在分析时除了需要数据集X,还需对样品进行指定并分组, 这样分组后模型将自动加上另外一个隐含的数据集Y,通常Y的赋值用-1/1或者0/1表示类别信息。

(1)PCA

PCA是一种使用广泛的数据降维算法,先找出数据X矩阵的方差大方向作为PC1,在与PC1正交的平面中找出使得方差大的作为PC2,依次类推。从而建立低维平面或空间(通常2~5 维), 以此分析和概览整个数据集。PCA不是一种分类方法,但能提供对复杂数据集的直观解释,并从中揭示出数据集中观测数据的分组、趋势以及离群。对明显不同于大部分样品的离群样品,可加以甄别或剔除。如图2所示。另外,如果存在质控样品,PCA还可进行质控,如果质控样品很分散或具有一定的变化趋势,则说明检测质量存在一定的问题。

图2 对照组与实验组的PCA得分图

PLS-DA在降维的同时结合了回归模型,并利用一定的判别阈值对回归结果进行判别分析。通过多元线性回归技术来找到数据集(X)和类别数据集(Y)之间的大协方差的方向,建立两个独立数据集(X ?Y) 潜在关联分析方法, 即基于X 变量数据信息, 建立Y 变量预测模型(X→Y)。

这种模型计算的方法强行把各组分开, 有利于发现不同组间的异同点。对于组间差异不够明显的样品, 采用PCA 方法常常无法区分样品的组间差异, 这种情况下采用PLS-DA 模型可能更加有效。如图3所示。同时也能识别潜在的生物标记物,适用于两组或者两组以上分析,在需要同时观察多组别样品相似性和差异性时体现更大价值。但是如果主成分过多或分组过于复杂而出现过拟合现象(over-fitting), 会造成模型失真, 在实际数据分析时应注意

验证模型有效性和可靠性。

图3 对照组与实验组PLS-DA得分图

数据集X总会含有一些与研究无关的干扰信号,如人的生活方式,植物的生长环境或检测仪器的噪音干扰等。若能滤掉这些噪音会有助于发现重要的变量,提高模型的有效性。

与PLS相比,OPLS根据数据集Y的差异将数据集X的差异分为两个部分,第一部分代表与Y相关的差异, 第二部分代表与Y不相关(正交垂直)的差异,OPLS-DA可将这两部分差异进行区分,控制与Y正交或者无关的X的变化并加以滤除。通过这种方式,OPLS-DA可以更好地区分组间差异,提高模型的有效性和解析能力。如图4所示,OPLS-DA将组间差异主要集中在第一个预测主成分上,即X轴。OPLS-DA常用于对两组样品的代谢组学数据进行判别分析, 能清晰展现组间样品差别并能直接解释和识别潜在的生物标志物。

图4 对照组与实验组OPLS-DA得分图

迈维代谢提供的服务包括针对各种不同类型的标本制备(包括血液、尿液、组织提取液和脊髓液等,可根据客户的实际要求来设计和优化实验方案)和不同平台的质谱数据采集及解析、统计学及代谢通路分析。迄今为止,迈维代谢已经为中国市场的客户提供超过30000份的标本分析服务,项目类别涵盖临床研究、疾病机理、动植物研究及中药药理等多个领域。

代谢组学的研究方法和研究流程

代谢组学的研究方法和研究流程分子微生物学112300003林兵 随着人类基因组计划等重大科学项目的实施,基因组学、转录组学及蛋白质组学在研究人类生命科学的过程中发挥了重要的作用,与此同时, 代谢组学(metabolomics)在20世纪90年代中期产生并迅速地发展起来,与基因组学、转录组学、蛋白质组学共同组成系统生物学。基因组学、转录组学、蛋白质组学和代谢组学等各种组学0在生命科学领域中发挥了重要的作用,它们分别从调控生命过程的不同层面进行研究, 使人们能够从分子水平研究生命现象, 探讨生命的本质, 逐步系统地认识生命发展的规律.这些组学手段加上生物信息学, 成为系统生物学的重要组成部分。 代谢组学的出现和发展是必要的, 同时也是必须的。对于基因组学和蛋白质组学在生命科学研究中的缺点和不足, 代谢组学正好可以进行弥补。代谢组学研究的是生命个体对外源性物质(药物或毒物)的刺激、环境变化或遗传修饰所做出的所有代谢应答, 并且检测这种应答的全貌及其动态变化。代谢组学方法为生命科学的发展提供了有力的现代化实验技术手段, 同时也为新药临床前安全性评价与实践提供了新的技术支持与保障. 1 代谢组学的概念及发展 代谢组学最初是由英国帝国理工大学Jeremy N icholson教授提出的,他认为代谢组学是将人体作为一个完整的系统,机体的生理病理过程作为一个动态的系统来研究, 并且将代谢组学定义为生物体对病理生理或基因修饰等刺激产生的代谢物质动态应答的定量测定。2000年,德国马普所的Fiehn等提出了代谢组学的概念,但是与N ichols on提出的代谢组学不同, 他是将代谢组学定位为一个静态的过程,也可以称为/代谢物组学, 即对限定条件下的特定生物样品中所有代谢产物的定性定量分析。同时Fiehn还将代谢组学按照研究目的的不同分为4类: 代谢物靶标分析,代谢轮廓(谱)分析, 代谢组学,代谢指纹分析。现在代谢组学在国内外的研究都在迅速地发展, 科学家们对代谢组学这一概念也进行了完善, 作出了科学的定义: 代谢组学是对一个生物系统的细胞在给定时间和条件下所有小分子代谢物质的定性定量分析,从而定量描述生物内源性代谢物质的整体及其对内因和外因变化应答规律的科学。 与基因组学、转录组学、蛋白质组学相同, 代谢组学的主要研究思想是全局观点。与传统的代谢研究相比, 代谢组学融合了物理学、生物学及分析化学等多学科知识, 利用现代化的先进的仪器联用分析技术对机体在特定的条件下整个代谢产物谱的变化进行检测,并通过特殊的多元统计分析方法研究整体的生物学功能状况。由于代谢组学的研究对象是人体或动物体的所有代谢产物, 而这些代谢产物的产生都是由机体的内源性物质发生反应生成的,因此,代谢产物的变化也就揭示了内源性物质或是基因水平的变化,这使研究对象从微观的基因变为宏观的代谢物,宏观代谢表型的研究使得科学研究的对象范围缩小而且更加直观,易于理解, 这点也是代谢组学研究的优势之一. 代谢组学的优势主要包括:对机体损伤小,所得到的信息量大,相对于基因组学和蛋白质组学检测更加容易。由于代谢组学发展的时间较短, 并且由于代谢组学的分析对象是无偏向性的样品中所有的小分子物质,因此对分析手段的要求比较高, 在数据处理和模式识别上也不成熟,存在一些不足之处。同时生物体代谢物组变化快, 稳定性较难控制,当机体的生理和药理效应超敏时,受试物即使没有相关毒性,也可能引起明显的代谢变化,导致假阳性结果。 代谢组学应用领域大致可以分为以下7个方面:

代谢组学方法与应用许国旺张强

第1章绪论 随着人类基因组测序工作的完成,基因功能的研究逐渐成为热点,随之出现了一系列的“组学”研究,包括研究转录过程的转录组学(transcriptomics)、研究某个生物体系中所有蛋白质及其功能的蛋白质组学(proteomics)及研究代谢产物的变化及代谢途径的代谢组学(metabolomics或metabonomics)(图1-1)。 代谢组学是众多组学中的一种,是随着生命科学的发展而发展起来的。与其他组学不同,代谢组学是通过考察生物体系(细胞、组织或生物体)受刺激或扰动后(如将某个特定的基因变异或环境变化后),其代谢产物的变化或其随时间的变化,来研究生物体系的一门科学[1]。所谓代谢组(metabolome)是基因组的下游产物也是最终产物,是一些参与生物体新陈代谢、维持生物体正常功能和生长发育的小分子化合物的集合,主要是相对分子质量小于1000的内源性小分子。代谢组中代谢物的数量因生物物种不同而差异较大,据估计,植物王国中代谢物的数量在200000种以上,单个植物的代谢物数量在5000~25000,甚至简单的拟南芥(Arabidopsisthaliana)也产生约5000种代谢产物,远远多于微生物中的代谢产物(约1500种)和动物中的代谢产物(约2500种)[2]。实际上,在人体和动物中,由于还有共存的微生物代谢、食物及其代谢物本身的再降解,到目前为止,还不能估计出到底有多少种代谢产物,浓度分布范围有7~9个数量级。因此对代谢组学的研究,无论从分析平台、数据处理及其生物解释等方面均面临诸多挑战。本章对代谢组学发展的历史、国内外现状、研究方法、典型应用领域及研究热点等给予了介绍。 1.1代谢组学简介 生命科学是研究生命现象、生命活动的本质、特征和发生、发展规律,以及各种生物之间和生物与环境之间相互关系的科学。自从1953年Watson和Crick建立了DNA 双螺旋结构模型后,生命科学研究的面貌便焕然一新。在此基础上发展的分子生物学使得生命的基本问题,如遗传、发育、疾病和进化等,都能从分子机制上得到诠释。生物学研究进入了对生命现象进行定量描述的阶段。分子生物学的飞速发展极大地推动了人们从分子组成水平对生物系统进行深人的了解。基因组计划向人们展示了包括大肠杆菌、酵母、线虫、果蝇、小鼠等模式生物以及人类的所有遗传信息的组成,生命的奥秘就存在于这些序列中。技术上的突破使得基因组数据的获得已经不再是生命

代谢组学的数据分析技术

代谢组学的数据分析技术 摘要:代谢组学是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。其研究对象大都是相对分子质量1000以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。文章主要综述了将代谢组学中的图谱、数据信息转换为相应的参数所采用的分析方法。 关键词:代谢组学;数据分析方法 代谢组学是以代谢物分析的整体方法来研究功能蛋白如何产生能量和处理体内物质,评价细胞和体液内源性和外源性代谢物浓度及功能关系的新兴学科,是系统生物学的重要组成部分,其相应的研究能反映基因组、转录组和蛋白组受内外环境影响后相互协调作用的最终结果,更接近反映细胞或生物的表型,因此被越来越广泛地应用。而代谢组学的数据分析包括预处理和统计分析方法,多元统计分析方法主要分为两大类:非监督和监督方法,非监督方法包括主成分分析PCA;聚类分析CA等;监督方法包括显著性分析、偏最小二乘法等,本文就是主要综述代谢组学图谱信息转化为参数信息所采用的数据分析方法。 1预处理 数据的预处理过程包括以下:谱图的处理;生成原始的数据矩阵;数据的归一化以及标准化处理过程。针对实验性质、条件以及样品等因素采用不同的预处理方法。在实际应用过程中,预处理可以通过实验系统自带的软件如XCMS软件。进行,因此一般较容易获得所需的数据形式。 2数据分析方法 2.1 主成分分析PCA是多元统计中最常用的一种方法,它是在最大程度上提取原始信息的同时对数据进行降维处理的过程,其目的是将分散的信息集中到几个综合指标即主成分上,有助于简化分析和多维数据的可视化,进而通过主成分来描述机体代谢变化的情况。PCA 的具体过程是通过一种空间转换,形成新的样本集,按照贡献率的大小进行排序,贡献率最大的称为第一主成分,依次类推。经验指出,当累计贡献率大于85%时所提取的主成分就能代表原始数据的绝大多数信息,可停止提取主成分。在代谢组数据处理中,PCA是最早且广泛使用的多变量模式识别方法之一。,具有不损失样品基本信息、对原始数据进行降维处理的同时避免原始数据的共线性问题等优点,但在实际应用过程中,PCA存在着自身的缺点[1]:离群样本点的存在严重影响其生物标志物的寻找;非保守性的代谢组分扰乱正确的分类以及尺度的差异影响小浓度组分的表现等,其他的问题之前也有讨论[2]。针对PCA 的缺陷采用了不同的改进措施,与此同时,为了简化计算,侯咏佳等[3]。提出了一种主成分分析算法的FPGA实现方案,通过Givens算法和CORD IC算法的矢量旋转,用简单的移位和加法操作来实现协方差矩阵的特征分析,只需计算上三角元素,因此计算复杂度小、迭代收敛速度快。 2.2 聚类分析CA是用多元统计技术进行分类的一种方法。其主要原理是:利用同类样本应彼此相似,相类似的样本在多维空间里的彼此距离应较小,而不同类的样本在多维空间里的

代谢组学在医药领域的应用与进展

代谢组学在医药领域的应用与进展 一、学习指导 1.学习代谢组学的概念及内涵,掌握代谢组学的研究对象与分析方法。 2.熟悉代谢组学数据分析技术手段 3.了解代谢组学优势特点 4.了解代谢组学在医药领域的应用 5.了解代谢组学发展趋势 二、正文 基因组功能解析是后基因组时代生命科学研究的热点之一,由于基因功能的复杂性和生物系统的完整性,必然要从“整体”层面上来理解构成生物体系的各个模块功能。随着新的测量技术、高通量的分析方法、先进的信息科学和系统科学新理论的发展,加上生物学研究的深入和生物信息的大量积累,使得在系统水平上研究由分子生物学发现的组件所构成的生命体系成为可能[1]。系统生物学家们认为,将生命科学上升为“综合”科学的时机已经成熟,生命科学再次回到整合性研究的新高度,逐步由分子生物学时代进入到系统生物学时代[2]。系统生物学不同以往的实验生物学仅关注个别基因和蛋白质,它要研究所有基因、蛋白质,代谢物等组分间的所有相互关系,通过整合各组成成分的信息,以数学方法建立模型描述系统结构[3,4]。 (一)代谢组学的概念及内涵 代谢组学是继基因组学、转录组学和蛋白质组学之后,系统生物学的重要组成部分,也是目前组学领域研究的热点之一。代谢组学术语在国际上有两个英文名,即metabolomics 和metabonomics。Metabolomics是由德国的植物学家Fiehn等通过对植物代谢物研究提出来的,认为代谢组学(metabolomics)是定性和定量分析单个细胞或单一类型细胞的代谢调控和代谢流中所有低分子量代谢产物,从而监测机体或活细胞中化学变化的一门科学[5]。英国Nicholson研究小组从毒理学角度分析大鼠尿液成份时提出了代谢组学(Metabonomics)的概念,认为代谢组学是通过考察生物体系受扰动或刺激后(如某个特定基因变异或环境变化后),其代谢产物的变化或代谢产物随时间的变化来研究生物体系的代谢途径的一种技术[6]。国内的代谢组学研究小组基本用metabonomics一词来表示“代谢组学”。严格地说,代谢组学所研究的对象应该包括生物系统中所有的代谢产物。但由于实际分析手段的局限性,只对各种代谢路径底物和产物的小分子物质(MW<1Kd)进行测定和分析。 (二)代谢组学优势特点 代谢组学作为系统生物学的一个重要组成部分,代谢组可以更好地反映体系表型生物机体是一个动态的、多因素综合调控的复杂体系,在从基因到性状的生物信息传递链中,机体需通过不断调节自身复杂的代谢网络来维持系统内部以及与外界环境的正常动态平衡[7]。

基因组学的研究内容

基因组学的研究内容 结构基因组学: 基因定位;基因组作图;测定核苷酸序列 功能基因组学:又称后基因组学(postgenomics基因的识别、鉴定、克隆;基因结构、功能及其相互关系;基因表达调控的研究 蛋白质组学: 鉴定蛋白质的产生过程、结构、功能和相互作用方式 遗传图谱 (genetic map)采用遗传分析的方法将基因或其它dNA序列标定在染色体上构建连锁图。 遗传标记: 有可以识别的标记,才能确定目标的方位及彼此之间的相对位置。 构建遗传图谱 就是寻找基因组不同位置上的特征标记。包括: 形态标记; 细胞学标记; 生化标记;DNA 分子标记 所有的标记都必须具有多态性!所有多态性都是基因突变的结果! 形态标记: 形态性状:株高、颜色、白化症等,又称表型标记。 数量少,很多突变是致死的,受环境、生育期等因素的影响 控制性状的其实是基因,所以形态标记实质上就是基因标记。

细胞学标记 明确显示遗传多态性的染色体结构特征和数量特征 :染色体的核型、染色体的带型、染色 体的结构变异、染色体的数目变异。优点:不受环境影响。缺点:数量少、费力、费时、对生物体的生长发育不利 生化标记 又称蛋白质标记 就是利用蛋白质的多态性作为遗传标记。 如:同工酶、贮藏蛋白 优点: 数量较多,受环境影响小 ?

缺点: 受发育时间的影响、有组织特异性、只反映基因编码区的信息 DNA 分子标记: 简称分子标记以 DNA 序列的多态性作为遗传标记 优点: ? 不受时间和环境的限制 ? 遍布整个基因组,数量无限 ?

不影响性状表达 ? 自然存在的变异丰富,多态性好 ? 共显性,能鉴别纯合体和杂合体 限制性片段长度多态性(restriction fragment length polymorphism , RFLP ) DNA 序列能或不能被某一酶酶切,

代谢组学技术及在毒理学研究中的应用

代谢组学技术及在毒理学研究中的应用 摘要:代谢组学是定性和定量分析某一生物或细胞所有低分子量代谢产物,从而监测机体或活细胞中化学变化的一门科学,是系统生物学的重要组成部分。作为系统生物学重要组成部分的“代谢组学”,通过考察机体受毒物刺激后体液或组织中代谢物的整体动态变化轨迹,结合模式识别的多元分析方法,快速筛选毒性相关的分子标志物,进而更系统、更全面的揭示毒物作用于机体的典型特征,为相关毒性作用模型建立、环境或药物中毒性化学物的快速高通量筛选以及相关疾病的预防与治疗提供重要的科学依据。本文将从代谢组学的概况、代谢组学在毒理学中的应用进行综述。 关键词:代谢组学;毒理学;应用 “代谢组学”(metabonomics)是指对机体因环境因素刺激、病理生理扰动或遗传修饰等引起的多种代谢指标动态变化的系统性定量检测新方法,该技术广泛用于植物学、药理学、毒理学、遗传学等学科领域。“代谢组学”最早是在1999年由英国的Jeremy Nicholson提出的,是在利用核磁共振技术检测生物体液组成成分的基础上结合模式识别的分析方法发展而来,主要是通过考察生物体系受环境刺激或病理生理扰动后的代谢产物动态变化,分析代谢产物整体的变化轨迹,以此阐述某种病理(生理)过程中所发生的一系列生物学事件及机制。 毒理学是研究毒物与机体交互作用的一门学科,一方面探讨毒物对机体各种组织细胞、分子、特别是生物大分子作用及损害的机制,阐明毒物分子结构与其毒作用之间的关系;另一方面,也研究毒物的体内过程(吸收、分布、代谢转化、排泄)及机体防御体系对毒物作用的影响。“代谢组学”一经提出,其崭新的研究思路和无损伤的整体研究方法在包括药物开发、毒性评价及预测、营养和食物安全性评价等在内的众多领域得到日益广泛的重视和应用。 1. 代谢组学的概况 1.1代谢组学的定义及发展[1] 代谢组学是以组群指标分析为基础,以高通量检测和数据处理为手段,以信息建模与系统整合为目标的系统生物学的一个分支,是继基因组学、转录组学、

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

代谢组学分析技术的新进展

系统生物学的飞速发展促使科学研究体系发生了巨大 变化,研究理念从以往的“个体论”过渡到当今的“整体论”。而各种“组学”的研究也应运而生,代谢组学即是其中一个重要分支。代谢物是细胞生理活动的最终产物。当细胞所处环境发生变化,如遗传信息改变、毒物药物作用、细菌病毒侵入等时,均会使细胞产生的内源性生物小分子发生相应变化,而代谢组学就是通过研究这些小分子物质来推断生物系统对基因或环境变化而产生的最终应答[1-4]。代谢组学作为一门新兴学科,已广泛应用于毒理学研究、药物研发、疾病的诊断和治疗等方面。与此同时,代谢组学的分析技术也随着研究的深入而不断发展。 代谢组学的概念 早在1983年,Nicholson等[5]首先应用核磁共振氢谱(1H NMR)来检测血浆、血清中的小分子代谢物。而直到1999年,Nicholson等[6]才正式将代谢组学定义为,以动物的体液和组织为研究对象,研究生物体对病理生理刺激或基因修饰产生的代谢物质其质和量的动态变化,关注的对象为相对分子质量在1000以下的小分子化合物。2000年,Fiehn等[7]正式提出“代谢组学(metabolomics)”这个名词。 Fiehn[3]将生物体系的代谢产物分析分为4个层次。 ①代谢物靶标分析:可对代谢物组中某一个特定的组分进行分析,主要用于筛选和要求高灵敏度物质的分析。②代谢物谱分析:可对一种特定的代谢物进行分析,如碳水化合物、氨基酸等,主要在药物研究中描述特定化学药品分解代谢途径[8]。代谢物谱这个概念目前应用已十分广泛,甚至已代替原有的“代谢组学”概念[9]。③代谢物组分析:可在限定条件下对特定生物样品中所有代谢物组分进行定性和定量分析。代谢物组包括细胞内代谢物及细胞外液代谢物,必须要有严格的样品制备和分析技术。④代谢物指纹分析:细胞产生的代谢物通过核磁共振(NMR)或质谱(MS)分析,得到的光谱就是这个代谢物的“指纹”。这种分析方法不分离鉴定具体单一组分,只是对样品进行快速分类。 代谢组学相关技术及进展 代谢组学研究过程包括3个步骤,即样品的制备、代谢物的分离和检测、数据分析及模型的建立[10]。 一、代谢组学的研究样品 因尿液、血清或血浆包含上百种待测物质,获取途径也较方便,已成为目前代谢组学研究中最常用的样本[11],其他如脑脊液、胆汁、消化液、唾液、精液、羊水等,亦可作为代谢组学研究的样本。 血液样本反映机体对病理或生理刺激的瞬时信息,评价机体的动态平衡。尿液标本常包含一段时间内产生的代谢信息,反映机体当前的生理或病理状态、生物学年龄,也可预测各种先天不足或外环境影响的致病率。组织包含的代谢物可帮助判断该组织所属器官发生生物学进程改变后所产生的分子信息,因此可用来解释机体如何对刺激作出生化应答[11]。 当然,因为样本的制备过程及获取途径不同,选取不同样本,得到的数据会有相应差异。如在血制品中,血浆和血清都可作为代谢组学的研究样本。Liu等[12]通过气相色谱-飞行时间质谱(GC-TOF-MS)方法分别检测血清和血浆中的代谢物谱,发现在血清或血浆的准备过程中,血液的待检时间会影响代谢物的峰面积。这对血浆的影响更大,等待时间越长,血清中某些代谢物含量会显著增高,而血浆中则大大减少,故认为血清更适合作为代谢组学的研究样本。 样品存储也是代谢组学研究中一个重要的环节,主要目的就是尽可能保留最原始的代谢信息,避免实验误差。最佳保存方式是液氮或-80℃的低温冰箱。 二、代谢产物分析技术 NMR光谱技术和MS技术是目前最常用的2种代谢组学分析方法。 1.NMR光谱:NMR技术是最早被用于代谢组学研究的技术之一[5],其利用原子核在磁场中的能量变化来获得相关核信息。目前常用的有1H-NMR、碳谱(13C-NMR)和磷谱(31P-NMR),其中以1H-NMR应用最为广泛[13]。 NMR技术几乎不需要进行样品前处理,可快速对样本进行分析,即使样本量极少,也可获得大量信息[14]。NMR为非侵入性操作,不破坏样本,是现有代谢组学分析技术中唯一能用于活体和原位研究的技术。同时利用NMR弛豫特性 ·综述· 代谢组学分析技术的新进展 邱青青,燕敏,李琛 (上海交通大学医学院附属瑞金医院外科,上海200025)关键词:代谢组学;分析技术;核磁共振氢谱 中图分类号:R364.2文献标识码:C文章编号:1671-2870(2011)01-0082-04 基金项目:上海市自然科学基金(10411967000) 通讯作者:李琛E-mail:leechendoc@https://www.360docs.net/doc/7a6369440.html,

代谢组学技术在烟草研究中的应用进展_王小莉

2016-02,37(1)中国烟草科学 Chinese Tobacco Science 89 代谢组学技术在烟草研究中的应用进展 王小莉,付博,赵铭钦*,贺凡,王鹏泽,刘鹏飞 (河南农业大学烟草学院,国家烟草栽培生理生化研究基地,郑州 450002) 摘要:简述了作为研究植物生理生化和基因功能新方法的代谢组学在烟草研究中的主要技术流程及其应用现状,归纳了不同生态环境和不同组织中烟草代谢物差异及产生原因,总结了生物和非生物胁迫及化学诱导处理等条件下的烟草生理生化变化及相关基因功能。最后提出了目前烟草代谢组学研究所面临的问题,并指出与其他组学整合应用是代谢组学在烟草研究领域的发展趋势。 关键词:烟草;代谢组学;胁迫;化学诱导;基因功能 中图分类号:S572.01 文章编号:1007-5119(2016)01-0089-08 DOI:10.13496/j.issn.1007-5119.2016.01.016 Research of Metabolomics in Tobacco WANG Xiaoli, FU Bo, ZHAO Mingqin*, HE Fan, WANG Pengze, LIU Pengfei (College of Tobacco Science, Henan Agricultural University, National Tobacco Physiology and Biochemistry Research Center, Zhengzhou 450002, China) Abstract: Metabolomics has been considered one of the most effective means of investigating physiological and biochemical processes and gene function of plants. Here we review the main process of metabolomics and its application status in tobacco research, the regulation mechanisms of physiological and biochemical reactions when tobacco responds to different environmental, biotic and abiotic stresses, chemically induced processes and genetic modifications. Finally, issues of critical significance to current tobacco metabolomics research are discussed and it is noted that integration with other omics is the trend of metabolomics research in tobacco. Keywords: tobacco; metabolomics; stress; chemical induction; gene function 代谢组学与基因组学、转录组学和蛋白质组学分别从不同层面研究生物体对环境或基因改变的响应,它们都是系统生物学的重要组成部分。植物代谢组学是21世纪初产生的一门新学科,主要通过研究植物的次生代谢物受环境或基因扰动前后差异来研究植物代谢网络和基因功能[1-2]。与微生物和动物相比,植物的独特性在于它拥有复杂的代谢途径,目前发现的次生代谢产物达20万种以上[3]。代谢物差异是植物对基因或环境改变的最终响应[4],因此,对代谢物进行全面解析,探索相关代谢网络和基因调控机制,是从分子层面深入认识植物生命活动规律的一个重要环节[5-7]。 烟草不仅是重要的经济作物,同时还是一种重要的模式植物,作为生物反应器在研究植物遗传、发育、防御反应和转基因等领域中具有重要意义[8-10]。烟草代谢物非常丰富,目前从烟叶中已鉴定出3000多种[11],且代谢物理化性质和含量差异较大,给烟草化学及代谢规律研究带来挑战。传统的烟草化学主要集中于研究某一类化学成分或某几种重要物质,如萜类[12]、生物碱类[13]、多酚类等[14],这很难全面地系统地阐述烟草代谢网络。随着系统生物学的发展,烟草越来越广泛地被用于基因组学、转录组学、蛋白质组学和代谢组学的研究中,例如采用系统生物学的方法找出 基金项目:中国烟草总公司浓香型特色优质烟叶开发(110201101001 TS-01);上海烟草集团责任有限公司“浓香型特色优质烟叶风格定位研究及样品检测”(szbcw201201150) 作者简介:王小莉(1983-),女,博士研究生,主要从事烟草生理生化研究。E-mail:xiaoliwang325@https://www.360docs.net/doc/7a6369440.html, *通信作者,E-mail:zhaomingqin@https://www.360docs.net/doc/7a6369440.html, 收稿日期:2015-09-09 修回日期:2015-11-19

植物代谢组学的研究方法及其应用

植物代谢组学的研究方法及其应用 ★★★ BlueGuy(金币+3)不错,谢谢! 近年来,随着生命科学研究的发展,尤其是在完成拟南芥(Arabidopsis thaliana) 和水稻(Oryza sativa) 等植物的基因组测序后,植物生物学发生了翻天覆地的变化。人们已经把目光从基因的测序转移到了基因的功能研究。在研究DNA 的基因组学、mRNA 的转录组学及蛋白质的蛋白组学后,接踵而来的是研究代谢物的代谢组学(Hall et al.,2002)。代谢组学的概念来源于代谢组,代谢组是指某一生物或细胞在一特定生理时期内所有的低分子量代谢产物,代谢组学则是对某一生物或细胞在一特定生理时期内所有低分子量代谢产物同时进行定性和定量分析的一门新学科(Goodacre,2004)。它是以组群指标分析为基础,以高通量检测和数据处理为手段,以信息建模与系统整合为目标的系统生物学的一个分支。 代谢物是细胞调控过程的终产物,它们的种类和数量变化被视为生物系统对基因或环境变化的最终响应(Fiehn,2002)。植物内源代谢物对植物的生长发育有重要作用(Pichersky and Gang,2000)。植物中代谢物超过20万种,有维持植物生命活动和生长发育所必需的初生代谢物;还有利用初生代谢物生成的与植物抗病和抗逆关系密切的次生代谢物,所以对植物代谢物进行分析是十分必要的。 但是,由于植物代谢物在时间和空间都具有高度的动态性(stitt and Fernie,2003)。尤其是次生代谢物种类繁多、结构迥异,且产生和分布通常有种属、器官、组织以及生长发育时期的特异性,难于进行分离分析,所以人们一直在寻找更为强大的检测分析工具。在代谢物分析领域,人们已经提出了目标分析、代谢产物指纹分析、代谢产物轮廓分析和代谢表型分析、代谢组学分析等概念。20世纪90年代初,Sauter 等(1991)首先将代谢组分析引入植物系统诊断,此后关于植物代谢组学的研究逐年增多。随着拟南芥等植物的基因组测序完成以及代谢物分析手段的改进和提高,今后几年进入此研究领域的科学家和研究机构将越来越多。 1研究方法 代谢组学分析流程包括样品制备、代谢物成分分析鉴定和数据分析与解释。由于植物中代谢物的种类繁多,而目前可用的成分检测和数据分析方法又多种多样,所以根据研究对象不同,采用的样品制备、分离鉴定手段及数据分析方法各不相同。 1.1样品制备 植物代谢物样品制备分为组织取样、匀浆、抽提、保存和样品预处理等步骤(Weckwerth and Fiehn,2002)。代谢产物通常用水或有机溶剂(如甲醇和己烷等)分别提取,获得水提取物和有机溶剂提取物,从而把非极性的亲脂相和极性相分开。分析之前,通常先用固相微萃取、固相萃取和亲和色谱等方法进行预处理(邱德有和黄璐琦,2004)。然而植物代谢物千差万别,其中很多物质稍受干扰结构就会发生改变,且对其分析鉴定所采用的设备也不同。目前还没有适合所有代谢物的抽提方法,通常只能根据所要分析的代谢物特性及使用的鉴定手段选择合适的提取方法。而抽提时间、温度、溶剂成分和质量及实验者的技巧等诸多因素也将影响样品制备的水平。

代谢组学综述

代谢组学综述 摘要:代谢组学是20世纪90年代中期发展起来的对某一生物或细胞所有低相对分子质量代谢产物进行定性和定量分析的一门新学科,由于其广泛的应用前景,目前已成为系统生物学的重要组成部分。现简要介绍了代谢组学的含义、代谢组学研究的历史沿革、当前代谢组学研究中的分析技术、数据解析方法,综述了代谢组学在药物毒理学研究、疾病诊断、植物和中药等领域的应用情况,并对当前代谢组学研究中存在的问题及发展趋势进行探讨。 关键词:代谢组学研究技术 随着人类基因组计划等重大科学项目的实施,基因组学、转录组学及蛋白质组学在研究人类生命科学的过程中发挥了重要的作用, 与此同时, 代谢组学(metabolomics)在20世纪90年代中期产生并迅速地发展起来, 与基因组学、转录组学、蛋白质组学共同组成系统生物学。基因组学、转录组学、蛋白质组学和代谢组学等各种组学0在生命科学领域中发挥了重要的作用, 它们分别从调控生命过程的不同层面进行研究, 使人们能够从分子水平研究生命现象, 探讨生命的本质, 逐步系统地认识生命发展的规律。这些组学手段加上生物信息学, 成为系统生物学的重要组成部分。 代谢组学的出现和发展是必要的, 同时也是必须的。对于基因组学和蛋白质组学在生命科学研究中的缺点和不足, 代谢组学正好可以进行弥补。代谢组学研究的是生命个体对外源性物质(药物或毒物)的刺激、环境变化或遗传修饰所做出的所有代谢应答, 并且检测这种应答的全貌及其动态变化。代谢组学方法为生命科学的发展提供了有力的现代化实验技术手段, 同时也为新药临床前安全性评价与实践提供了新的技术支持与保障。 1 代谢组学的概念及发展 代谢组学最初是由英国帝国理工大学Jeremy N icholson教授提出的, 他认为代谢组学是将人体作为一个完整的系统, 机体的生理病理过程作为一个动态的系统来研究, 并且将代谢组学定义为生物体对病理生理或基因修饰等刺激产生的代谢物质动态应答的定量测定。2000年, 德国马普所的Fiehn等提出了代谢组学的概念, 但是与N icholson提出的代谢组学不同, 他是将代谢组学定位为一个静态的过程, 也可以称为/代谢物组学, 即对限定条件下的特定生物样品中所有代

代谢组学分析系统技术指标

代谢组学分析系统 1.工作条件: 1.1 电压:220V(±10%)单相,50Hz(±1)。 1.2 环境温度:19-22o C 1.3 相对湿度:<70% * 2.设备用途和基本组成 2.1 仪器用途:所提供仪器为高分辨率,高灵敏度、高通量的分析系统,配以 专业的数据分析处理软件构成代谢组学专用分析系统,从而快速 寻找标记物。 2.2 仪器组成 2.2.1 仪器由超效液相色谱-四极杆/二级碰撞室/飞行时间质谱组成的系统,和 专用代谢组学分析软件以及代谢物分析软件构成,具有先进的中医药代 谢组学研究分析功能。 * 2.2.2 质谱主机要求配置同一厂家生产的液相色谱仪,具有良好的兼容性。 * 2.2.3 具备准确质量测定功能 准确质量测定的内标必须有独立于实测样品的通道进入离子源,内标不得 干扰实际样品的数据结果,并且质量准度<2ppm。 2.2.4 真空系统 要求完全被保护的多级真空系统,具有自动断电保护功能,采用分子涡轮 泵。离子源和质谱间有隔断阀。便于源清洗和日常维护。 * 2.2.5 碰撞室具有两级碰撞功能。分为以下部分: 捕获富集单元:具有离子传输富集、碰撞室两种功能 传输单元:具有离子传输、碰撞室两种功能 * 2.2.6 检测器 检测器由单个微通道板离子计数检测,可检测正负离子和采集MS和 MS/MS的数据, TDC转换速率>4.0 GHz。 * 2.2.7 数据采集和处理系统 工作站用于仪器控制和采集, 1024MB RAM, 200GB硬盘,DVD-ROM,

刻录光盘驱动器,1.44MB 3.5英寸软驱。 软件基于Windows XP 操作系统的应用软件包括集成化的仪器控制、数据处理等软件,代谢组学分析软件以及代谢物分析软件等。 3 仪器的详细技术指标 3.1 液相色谱仪 * 液相色谱仪必须是能够耐超高压(1000bar)的超高效液相色谱仪(UPLC)。3.1.1 可编程二元梯度泵。 溶剂数量:4 流速范围:0.010 - 2mL/min,步进0.001mL/min, 流速精度:< 0.075% RSD,流速准确度:±1%, 泵耐压:0 - 15000psi(1000bar) 梯度设定范围:0 - 100% *系统延迟体积:< 120uL 3.1.2 二极管阵列检测器 波长范围:190-700nm. *测量范围:0.0001~4.0000AUFS *采样速率:40点/秒 流通池:500nl低扩散 3.1.3 自动进样器系统 样品数量:96孔板、384孔板、24x4ml瓶、48x2ml瓶 进样范围:0.1- 50 μL, “针内针”样品探针。 温度范围:4-40摄氏度 3.1.4 在线脱气系统 真空脱气:六通道在线脱气机 3.1.5 柱加热系统 控温范围:室温+5---65摄氏度 3.1.6 专用色谱柱; * 1.7μ, 2.1 mm x 50 mm Column

代谢组学在植物研究领域中的应用

Botanical Research 植物学研究, 2016, 5(1), 26-33 Published Online January 2016 in Hans. https://www.360docs.net/doc/7a6369440.html,/journal/br https://www.360docs.net/doc/7a6369440.html,/10.12677/br.2016.51005 Application of Metabolomics in Plant Research Guixiao La1, Xi Hao1, Xiangyang Li1, Mingyi Ou2, Tiegang Yang1* 1Industrial Crops Research Institute, Henan Academy of Agricultural Sciences, Zhengzhou Henan 2China Tobacco Guizhou Industrial Co. Ltd., Guiyang Guizhou Received: Dec. 10th, 2015; accepted: Dec. 25th, 2015; published: Dec. 30th, 2015 Copyright ? 2016 by authors and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). https://www.360docs.net/doc/7a6369440.html,/licenses/by/4.0/ Abstract Metabolomics is an emerging omics technology after genomics and proteomics, which can qualify and quantify all small molecular weight metabolites in an organism or cells in a short time. With the technology development of gas chromatography-mass spectrometer (GC-MS), liquid chroma-tography-mass spectrometer (LC-MS) and capillary electrophoresis-mass spectrometry (CE-MS), and the improvement of data process method and presented huge advantages, plant metabolomics has been used in multiple research fields such as functional genomics, metabolism pathway, crop improvement... In this paper, we reviewed the recent progress in plant metabolomics and the put-ative problem in this research field. Moreover, the application prospects of the plant metabolom-ics were also forecasted. Keywords Metabolomics, Plant, Advance, Prospect 代谢组学在植物研究领域中的应用 腊贵晓1,郝西1,理向阳1,欧明毅2,杨铁钢1? 1河南省农业科学院经济作物研究所,河南郑州 2贵州中烟工业有限责任公司,贵州贵阳 *通讯作者。

浅谈最常用的代谢组学分析方法

代谢组学是一门对某一生物或细胞所有低分子质量代谢产物(以相对分子质量<1000的有机和无机的代谢物为研究核心区)进行分析的新兴学科。生物样本通过NMR、GC-MS、LC-MS等高通量仪器分析检测后,能产生大量的数据,这些数据具有高维,少样本、高噪声等复杂特征,同时代谢物多且代谢物之间联系密切,因此从复杂的代谢组学数据中确定与所研究的现象有关的代谢物,筛选出候选生物标记物成为代谢物组学研究的热点和难点。 代谢组学分析数据用于统计分析时,数据集通常为一个N ×K 的矩阵(X矩阵),N表示N个样本数,每一行代表一个样品,K表示K个变量,每一列代表一个变量,在代谢组学中变量通常是指代谢物含量。常用的分析方法如图1所示: 数据分析方法 单变量分析 多变量分析差异倍数分析 显著性检验 无监督分析 有监督分析 PLS-DA PCA OPLS-DA 图1 代谢组学常用的数据分析方法 单变量分析 单变量分析方法仅分别分析单个变量,不考虑多个变量的相互作用与内在联系。具有简单性、易应用性和可解释性。但是无法基于整

体数据对所测样品的优劣、差异进行综合评价和分析。 (1)差异倍数分析 差异倍数变化大小(Fold Change,FC)表示实验组与对照组的含量比值,可以快速考察各个代谢物在不同组别之间的含量变化大小。(2)显著性检验 p值即概率,反映某一事件发生的可能性大小,用于区分该变量是否具有统计显著性,通常认为p<0.05具有统计显著性。常用的检验方法有t-test、方差分析(Analysis of Variance,ANOVA),但是由于代谢组学的变量较多,必要时需要进行多重假设检验,对p值进行校正,减少Ⅰ类错误,降低假阳性。 多变量分析 多变量分析方法能同时处理数百或数千个变量,并且能处理变量之间的相互关系。利用变量之间的协方差或相关性,使原始数据在较低维空间上的投影能尽可能地捕获数据中的信息。但是如果存在大量无信息变量可能会妨碍多变量分析的能力,无信息变量的数量越多,减少真阳性数量的效果就越显著。 多变量分析分为无监督分析方法和有监督分析方法。在代谢组学分析中无监督学习有主成分分析(Principal Component Analysis,PCA),只需要数据集X,而有监督分析方法主要是偏小二乘判别分析(Partial Least Squares Discrimination Analysis, PLS-DA)和正交偏小二乘判别分析(Orthogonal Partial Least Squares

相关文档
最新文档