代谢组学数据分析的统计学方法

代谢组学数据分析的统计学方法*

柯朝甫1张涛2武晓岩1李康1Δ

【期刊名称】中国卫生统计

【年(卷),期】2014(031)002

【总页数】4

代谢组学是近年发展快速的一门学科，目前在医学、植物学、微生物学、毒理学、药物研发等诸多领域中得到了广泛的应用［1-5］。代谢组学研究产生大量的数据，这些数据具有高维、小样本、高噪声等复杂特征。如何从复杂的代谢组学数据中提取出有价值的信息，筛选出潜在的生物标志物成为近年来代谢组学研究的热点和难点。据此，本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。

代谢组学数据的特点

代谢组学是系统生物学领域中继基因组学和蛋白质组学之后新近发展起来的一门学科，它通过检测生物体在受到外源刺激或基因修饰后其体内代谢物质的变化来探索整个生物体的代谢机制［6］。其研究对象为生物体内所有内源性小分子代谢物（分子量＜1000Da），研究手段为高通量检测技术和数据处理方法，最终目标是数据建模和生物标志物的筛选。生物样品如血浆、尿液、组织等，经过GC/MS、NMR、LC/MS等高通量仪器检测后，得到大量的图谱数据，使用XCMS［7］等软件对这些图谱数据进行转换，获得用于统计分析的标准格式的数据。归纳起来，代谢组学数据具有以下特点：

（1）高噪声：生物体内含有大量维持自身正常功能的内源性小分子，具有特定研究意义的生物标志物只是其中很少一部分，绝大部分代谢物和研究目的无关。