基于全基因组关联分析的基因(环境)交互作用统计学方法进展

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

万方数据

万方数据

708

图lMDR基本步骤示意图

划分为不同的分类,也就是图中的单元格。单元格中左侧直方图表示病例,右侧直方图表示对照。

第4步:在n维的每个多因子分类(单元格)中,计算病例数和对照数的比值,若病例数与对照数之比达到或超过某个阈值(例如≥1),则标为高危,反之则为低危。这样就把n维的结构降低到一维两水平。

第5步:多因子分类的集合中包含了MDR模型中各因子的组合。在所有的两因子组合中,选择错分最小的那个MDR模型,该两位点模型在所有模型中将具有最小的预测误差。

第6步:通过十重交叉验证评估模型的预测误差,一以及单元格分配时的相对误差。也就是说,模型拟合9/10的数据(训练样本),其预测误差将通过剩下1/10的数据(检验样本)来衡量。选择预测误差最小的模型作为最终的模型,取lO次检验的预测误差平均值,作为模型相对预测误差的无偏估计。由于数据分组的方式对交叉验证的结果影响较大,因此,十重交叉验证过程将重复进行10次,对n个因子可能的集合将重复进行10×10次的交叉验证。

通过十重交叉验证,在一定程度上可以避免因数据转换的偶然性,使I类错误增大而产生假阳性结果的影响。预测误差是衡量MDR模型在独立检验的亚组中预测危险状态的指标,通过十重交叉验证的亚组中每一个的预测误差的平均值来计算。根据交叉验证的预测误差的平均值,选择最佳的Tl因子模型,并根据不同的因子数重复以上过程。最终筛选出最有可能存在交互作用的基因。

MDR的优势在于不需要考虑疾病的遗传模型,它利用计算机运算速度快的优势,对多个基因进行随机组合,按照上述方法找出存在交互作用的基因位点。但当主效应存在时,用MDR方法很难得到最终模型,且同样受遗传异质性的影响;它只是一种数据挖掘方法,不是严格意义上的统计方法,还无法判断它的I类错误和检验功效。

MDR分析软件包可在http://www.epistasis.org/mdr.html免费下载。

4基于复合LD的交互作用分析法

吴学森等Ⅲ’提出基于复合LD的交互作用的分析法。该方法以病例一对照试验设计为基础,基于LD计算方法,构建完全有别于以上方法的一种新型基因间交互作用的统计分析方法:(1)用两个位点(基因)单倍型的外显率(只。)与等位基因的边际外显率的乘积(Pa·P。)的偏差(6.口=PA。一只·P8),分别定义病例组和对照组两个位点交互作用的度量.进而综合两组交互作用度量构造检验交互作用的统计量;(2)对于基因一环境交互作用模型的构建,则将环境(分类型变量)变量视为“虚拟位点”(例如E=l表示环境暴露。E=0表示即非暴露),则同样依据上述方法构建其模型。4.1基因型数据的联合概率分布及其表达对于基因之间、基因与环境之间的交互作用统计量的构建,无论是二阶或高阶情形,均至少涉及两个变量。在本研究中,均以病例一对照试验设计为基础,个体的基因数据一律用其基因型表示。无论是病例组还是对照组,均设两个位点的等位基因分别为A,a;B,b,则它们的联合基因型分布可表述为表3的形式:

则.配子的LD系数为:6.。=%一PAP。;非配子的LD系数为:乳口=九日一只-匕,其中,P.e=尸竺+PAB舳+碟+P竺;JD∥。=P竺+P竺+P::+形:。但是,当计算病例组或对照组的6.。时,需要知道双杂合子的概率P苫、P::。然而。当它们的相未知时,则无法确定其值,只能进行单倍型推断。由于单倍型推断总是存在误差,这给后面构造的检验交互作

用的统计量带来很多不确 

万方数据

万方数据

相关文档
最新文档