基于全基因组关联分析的基因(环境)交互作用统计学方法进展

合集下载

复杂疾病全基因组关联研究进展——遗传统计分析

关键词: 全基因组关联研究; 检验效能; 多重检验校正; 人群混杂; 重复
Genome-wide association study on complex diseases: genetic statistical issues
YAN Wei-Li
School of Public Health, Xinjiang Medical University, Urumqi 830054, China
HEREDITAS (Beijing) 200253-9772
DOI: 10.3724/SP.J.1005.2008.00543
综述
复杂疾病全基因组关联研究进展——遗传统计分析
严卫丽
新疆医科大学公共卫生学院, 乌鲁木齐 830054
545
1.1 基于无关个体(Unrelated individual)的关联分析
基于无关个体的研究设计分为病例对照研究设计(Case-control study)和基于随机人群的关联分析 (Population-based association analysis)两种情况。前者主要用来研究质量性状(是否患病), 而后者主要用来研究数量性状。根据研究设计不同和研究表型的不同, 采用的统计分析方法亦不同。如病例对照研究设计(质量性状), 比较每个 SNP 的等位基因频率在病例和对照组中的差别可采用 4 格表的卡方检验, 计算相对危险度(Odds Ratio, OR 值)及其 95%的可信限 , 进而可以计算归因分数 (Attributable fraction, AF)和归因危险度(Attributable risk, AR)。需要调整主要的混杂因素, 如年龄、性别等, 则采用 logistic 回归分析, 以研究对象患病状态为因变量, 以基因型和混杂因素作为自变量进行分析。当研究设计是基于随机人群时 (数量性状), 如研究 SNP 与某一疾病数量表型的关联时, 如 BMI, 我们比较该位点 3 种基因型携带者 BMI 水平是否有差别(单因素方差分析), 当需要调整混杂因素时, 采用协方差分析或者线性回归方程。

基于全基因组关联分析的基因_环境_交互作用统计学方法进展_吴学森

(dummy), 见表 2。然后再用 Logistic回归检测基因 -环境变量间的交互作用。他们认为对数据这样处理后检验功效会
更高 , 但该文并没有进一步给予论证 , 因此 , 这种变换的可靠
性还有待进一步验证。
表 2 不同暴露水平的哑变量定义
基因
i=0 i=0 i=1 i=1
境 (E)之间的交互作用。 AP的绝对值越大 , 基因 (G)与环境
(E)之间的交互作用越强。
(3)纯交互作用归因比 (AP＊)
蚌埠医学院学报 2008年 11月第 33卷第 6期
707
AP＊ =A-(B+C-1) A-1
(1.3)
意义 :AP＊表示由基因 (G)与环境 (E)两因素引起的效
用 ;S<1 时 , 两因子间有负交互作用 ;S的绝对值越大 , 基因
(G)与环境 (E)之间的交互作用越强。
(2 )交互作用归因比 (attributable proportion of
interaction, AP)
A-(B+C-1) AP=
A
(1.2)
意义 :AP表示总效应中有多大比例归因于基因 (G)与环
[ 收稿日期 ] 2008-10-05 [ 作者单位 ] 蚌埠医学院流行病与卫生统计学教研室 , 安徽蚌埠
233030 [ 作者简介 ] 吴学森 (1964 -), 男 , 博士 , 教授 .
互作用的最基本的方法之一 , 群体病例对照研究、病例父母亲对照研究、病例同胞对照研究、队列研究设计类型的资料均可用叉生分析方法分析基因与环境之间的交互作用。 1.1 叉生分析表 1所示的 2 ×4 叉生分析是基因与环境因素相互作用研究中的基本研究单元 , 它表示基因 (G)、环境因素 (E)均为二分类变量而组成的 4种可能的组合表。同时暴露于两因素相对于同时不暴露于两因素的危险性 (比值比 , OR)记为 ORge(简记为 A);单独暴露于基因或环境因素的危险性分别记为 ORg、ORe(分别简记为 B、C);两因素均未暴露的病例和对照组作为共同参比组 , OR=1。

基因环境交互作用的统计学研究方法

基因环境交互作用的统计学研究方法基因环境交互作用是指基因和环境之间相互影响的现象，其中基因和环境的作用不是简单的加法，而是一种相互作用的关系。

基因环境交互作用对个体的发育和进化具有重要作用。

因此，为了研究基因环境交互作用的统计学方法，已成为现代遗传学和生态学的重要研究方向之一。

基因环境交互作用的研究需要考虑两个要素：遗传变异和环境变异。

遗传变异指不同个体之间的基因差异，而环境变异则包括不同个体之间或同一个体在不同环境条件下的表现差异。

这两个要素的交互影响导致了基因环境交互作用的现象。

在现代生物技术的帮助下，研究基因环境交互作用的方法不断发展。

统计学方法在生物研究中有着广泛的应用，也成为研究基因环境交互作用的重要工具。

下面将详细介绍几种常用的统计学研究方法。

1. 方差分析方差分析（ANalysis of VAriance，ANVOA）是研究基因环境交互作用的常用方法之一。

它通过比较不同处理组之间的方差大小来分析基因和环境之间的关系。

方差分析可通过单因素方差分析和双因素方差分析进行。

单因素方差分析是研究基因或环境对表现型影响的一种方法。

例如，我们想研究不同基因型对某一性状的影响，就可以将不同基因型的个体分成不同处理组，并进行方差分析。

如果不同处理组间的方差显著，则说明基因型对性状有影响。

双因素方差分析则是同时分析基因和环境对表现型影响的方法。

例如，我们想研究不同基因型在不同环境条件下对某一性状的影响，就可以将不同基因型的个体分成不同处理组，然后在不同环境条件下进行方差分析。

如果不同处理组间的方差显著，则说明基因环境交互作用存在。

2. 回归分析回归分析是一种寻找变量间关系的方法，它可以用来研究基因和环境间的交互作用。

回归分析可分为线性回归和非线性回归两类。

线性回归是一种用来寻找变量间线性关系的方法，它可以用来研究基因环境交互作用对表现型的影响。

例如，我们想研究不同基因型和环境条件对某一性状的影响，就可以利用线性回归进行分析。

基因与环境交互作用

公共卫生策略的优化和创新
基于基因-环境交互作用的研究成果，公共卫生策略将不断优化和创新，更加注重针对不同人群和环境的个性化预防和治疗措施。
伦理和法律问题的探讨
随着基因-环境交互作用研究的广泛应用，相关的伦理和法律问题也将逐渐凸显，需要进行深入探讨和制定相应的规范。
XX
REPORTING
2023 WORK SUMMARY
农业生产管理优化
智能农业
结合物联网、大数据和人工智能等技术，对农业生产环境进行实时监测和调控，提高农业生产效率和质量。
精准施肥
根据土壤养分含量和作物需求，制定个性化施肥方案，减少化肥使用量，提高肥料利用率。
生物防治
利用天敌、昆虫不育技术等生物防治方法，控制农作物病虫害，减少化学农药使用量。
药物研发与优化
药物靶点发现
研究基因与环境交互作用有助于发现新的药物靶点，为药物研发提供新的思路。
药物设计与优化
通过分析基因和环境因素对药物代谢和药效的影响，可以指导药物的设计和优化，提高药物的疗效和安全性。
临床试验策略
基因与环境交互作用的研究可以为临床试验提供更精准的患者分层和入组标准，提高临床试验的效率和成功率。
的表达。
代谢物介导的机制
03
环境因素可以影响生物体内的代谢过程，产生具有生物活性的
代谢物，这些代谢物可以作为信号分子调控基因的表达。
PART 03
基因与环境交互作用研究方法
基因组学技术
基因测序
利用高通量测序技术对基因组进行测序，获得基因组的完整序列信息，为基因与环境交互作用研究提供基础数据。
代谢组学技术
代谢物检测与分析
利用质谱、核磁共振等技术对生物样本中的代谢物进行检测和分析，研究代谢物的种类、数量和功能，以及基因与环境交互作用对代谢水平的影响。

基因环境交互作用分析方法在流行病学研究中的应用

垦堕垦堂童生皇堕塑查垫!!竺!旦第42卷第1期Int J Med Parasit Dis，January 2015，V01．42，No．1 ·49··综述·基因一环境交互作用分析方法在流行病学研究中的应用何健杨坤+【摘要】基因一环境交互作用(gene．environment interac ti on)分析方法适合探讨流行病学中遗传和环境多种因素对于疾病发生或传播的作用，并逐渐成为流行病学研究的重要研究手段。

该文从基因．环境交互作用方法的研究设计和统计学方法两方面，综述此方法的最新国内外研究进展．期望拓展在寄生虫病等研究领域的应用。

【关键词1基因．环境交互作用；流行病学；统计学分析Applic ation of ge ne·en vi ro nm en t in t er a c ti o n an a l ys i s in epide miol ogica l st udie s He Ji an，Ya ngKun*．Jiangsu Institute of Parasitic Di s e a s e s，K e y L a b o r a t o r y of Parasitic D i se a s e Control a nd Prevention，Min蠡try of Heal th，J ia rt gsu Provincial Key Laboratory ofParasite Molecular Biolog y,Wu xi 214064,C h i na+Corresponding author：Yang Kun,Em ail：ji pdy k@163．comSu pp on ed b y N a t i o n a l N a t u r a l S c i en c e F o u n d a t i o n of China(81101275)【Abstract】Gen e．en vironm ent interaction anal ysi s，as me tho d of m uh i．fa ct or s tu dv，c an explore the roleof genetic and envi ronment al factors in the prevalenc e an d transmission of di s e a se s，a n d it has be c o meveryi m p or t a n t m eans of ep i d e m i o l o g i c al s t u d y．R e s e a r c h d e s i g n a n d statistical met hods of g e n e—e n v i ro n m e nt inter-action metho d were revie we d in this paper,aiming at pro vi di n g re f er en c e in the flied of parasitic d i s e a se ss tu d y．【Key words】Gene-environment inte ra ct io n；E pi dem io lo gy；St at is tic al a na ly si s随着人们对于疾病发生认识的改观，发现诸互作用分析方法的进展，以期为流行病学病因研如癌症[I之]、慢性病[3-4]、精神疾病[5-6]、媒介传播究提供参考。

全基因组关联分析剖析

对家系数据进行检查,排除样本混淆、亲子关系错误等问题,控制家系关系的正确性。
全基因组关联分析的结果验证
验证检查
对于全基因组关联分析的结果,需要进行严格的验证检查,以确保结果的可靠性和重复性。
重复实验
在不同的人群或样本中重复实验,比较结果是否一致进一步的功能实验,探讨基因变异与表型之间的机制。
全基因组关联分析的统计方法
统计分析
全基因组关联分析通常采用统计模型对遗传标记与表型之间的关联进行测试,如线性回归、logistic 回归等。
多重检验校正
由于基因组级别的大量比较检验,需要采用Bonferroni、FDR等方法进行多重检验校正,以控制I型错误风险。
机器学习方法
近年来,全基因组关联分析也开始采用机器学习技术,如Ridge回归、Lasso回归等方法,以提高检测能力。
全基因组关联分析的研究热点
1 复杂疾病研究
全基因组关联分析被广泛应用于探索复杂疾病如糖尿病、心血管疾病、肿瘤等的遗传学基础。
3 交互作用研究
多基因、基因-环境等交互作用的研究是全基因组关联分析的重要方向。
2 药物反应预测
全基因组分析有助于识别影响药物反应的基因变异,助力个体化精准医疗。
生物学解释
从统计上显著关联的遗传位点到生物学功能解释存在鸿沟,需要更深入的研究。
跨人群适用性
现有大多数研究集中于欧美人群,如何推广到其他人群是一大挑战。
全基因组关联分析的研究进展
多组学整合
研究者正在探索将全基因组关联分析与转录组学、表观遗传学等多种组学数据相结合的方法,以更全面地了解复杂疾病的遗传学机制。
新型统计方法
学者们不断开发基于机器学习、贝叶斯统计等的创新分析方法,以提高检测复杂遗传变异和基因-环境相互作用的能力。

全基因组关联分析及遗传基因组学的研究进展

全基因组关联分析及遗传基因组学的研究进展随着基因技术的快速发展，遗传基因组学成为目前最具前景的研究领域之一。

在遗传基因组学中，全基因组关联分析（GWAS）被广泛应用于疾病的遗传研究中，是目前最有效的基因分析方法之一。

本文将重点介绍全基因组关联分析及遗传基因组学的研究进展，以期提供对该领域的深入了解。

一、全基因组关联分析的概念及原理全基因组关联分析是一种高通量的基因分析方法，其原理是比较大量样本中的遗传变异与表型间的关联，以确定影响表型的基因及其变异。

具体而言，全基因组关联分析通过扫描整个基因组，检查单核苷酸多态性（SNP）与研究对象表型之间的关联性，如果发现某些基因与表型有显著相关性，就可以将这些基因作为疾病的潜在风险因素进行研究。

全基因组关联分析所用的DNA样本源于大量人群，其优点在于可以检测到多个基因之间的相互作用，缺点是高度依赖统计学方法，并且会出现假阳性率高的问题。

为了减少假阳性率，全基因组关联分析研究通常采用Bonferroni校正或FDR校正等方法。

二、全基因组关联分析的应用全基因组关联分析主要应用于人类的疾病遗传研究中，如糖尿病、肥胖症、阿尔茨海默病、乳腺癌和鳞状细胞癌等疾病。

近年来，全基因组关联分析也被广泛应用于畜禽的遗传研究，如猪的生长性状和奶牛的产奶量等。

除了疾病的遗传研究，全基因组关联分析还可以用于预测个体对药物的反应，从而实现个体化用药。

例如，全基因组关联分析可以确定与药物代谢相关的基因，以此为基础预测不同个体对药物的代谢情况，为实现个体化用药提供依据。

三、遗传基因组学的研究进展遗传基因组学研究除了全基因组关联分析以外，还包括单细胞遗传学、转录组学、表观遗传学和功能基因组学等方面的研究。

这些研究方法的开展使得人们对基因组学的理解更加深入，为了更好地了解遗传基因组学的研究进展，以下将分别进行介绍。

1.单细胞遗传学单细胞遗传学是一种新型的研究方法，该方法可以对单个细胞进行遗传分析。

银屑病基因-环境、基因-基因交互作用研究进展论文

ｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎ，ＭＤＲ）：
万方数据
生堡麈瓞型塞查２Ｑ！垒生！！旦箜垒！鲞筮！！塑￡丛！』坠！墅煎！！：盟Ｑ！！塑ｂ丛！Ｑ！垒：ｙ！！．盟：盥！：！！
是一种非参数、无遗传模型的方法，将多位点基因型之间的基因一基因或基因一环境交互作用转换成一个具有两水平（即高危、低危）的新变量，从而将高维的结构降低到一维，避免Ｌｏｇｉｓｔｉｃ回归分析等方法在分析交互作用中出现的“维度困扰”现象，使高阶交互作用的分析更易实现。适用于平衡的病例对照研究和不一致同胞对研究；④其他：全交互作用模型（ｆｕｌｌ
１４０５．１４１３．
ｐｓｏｒｉａｓｉｓ［ＪＪ．Ａｃｔａ
ＳＣ，Ｙｅｕｎｇ
Ｄｅｒｍａｔｏｖｅｎｅｒｏｌ
Ｃｒｏａｔ，２００２，１０（４）：２２ｌ一
（收稿日期：２０１３—１２．２５）
（本文编辑：颜艳）
Ｊ，Ｃｈｒｅｎ
ＭＭ．Ｓｃａｌｐｄｅｘ：ａｑｕａｌｉｔｙ—ｏｆ－ｌｉｆｅ
［１２］
Ｃｈｅｎ
银屑病基因一环境、基因一基因交互作用研究进展
ｃｈｒｏｎｉｃｐｌａｑｕｅ
ＪＤｅｒｍａｔ０１．２０１３．１６９（３）：５１９—５２７．

Ｍａｌａｙｓｉａ［ＪＪ．ＭｅｄＪＭａｌａｙｓｉａ，２００４，５９（３）：３３０—３３４．［６］
ＣｈｅｎＨ｝ＬＴｓｅｎｇＭＰ．ＴｓａｉＴＦ．ＡｎｅｐｉｄｅｍｉｏｌｏｇｉｅｓｔｕｄｙｏｆＴａｉｗａｎｅｓｅｐｓｏｒｉａｔｉｃｐａｔｉｅｎｔｓｉｎ
ａ
［１７］
Ｓｉｎｉｃａ，
Ｐｕｉｇ
Ｌ，ＲｉｂｅｒａＭ，ＨｅｒｎａｎｚＪＭ，ｅｔａ１．Ｔｒｅａｔｍｅｎｔｏｆｓｃａｌｐｐｓｏｒｉａｓｉｓ：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

万方数据
万方数据
７０８
图ｌＭＤＲ基本步骤示意图
划分为不同的分类，也就是图中的单元格。

单元格中左侧直方图表示病例，右侧直方图表示对照。

第４步：在ｎ维的每个多因子分类（单元格）中，计算病例数和对照数的比值，若病例数与对照数之比达到或超过某个阈值（例如≥１），则标为高危，反之则为低危。

这样就把ｎ维的结构降低到一维两水平。

第５步：多因子分类的集合中包含了ＭＤＲ模型中各因子的组合。

在所有的两因子组合中，选择错分最小的那个ＭＤＲ模型，该两位点模型在所有模型中将具有最小的预测误差。

第６步：通过十重交叉验证评估模型的预测误差，一以及单元格分配时的相对误差。

也就是说，模型拟合９／１０的数据（训练样本），其预测误差将通过剩下１／１０的数据（检验样本）来衡量。

选择预测误差最小的模型作为最终的模型，取ｌＯ次检验的预测误差平均值，作为模型相对预测误差的无偏估计。

由于数据分组的方式对交叉验证的结果影响较大，因此，十重交叉验证过程将重复进行１０次，对ｎ个因子可能的集合将重复进行１０×１０次的交叉验证。

通过十重交叉验证，在一定程度上可以避免因数据转换的偶然性，使Ｉ类错误增大而产生假阳性结果的影响。

预测误差是衡量ＭＤＲ模型在独立检验的亚组中预测危险状态的指标，通过十重交叉验证的亚组中每一个的预测误差的平均值来计算。

根据交叉验证的预测误差的平均值，选择最佳的Ｔｌ因子模型，并根据不同的因子数重复以上过程。

最终筛选出最有可能存在交互作用的基因。

ＭＤＲ的优势在于不需要考虑疾病的遗传模型，它利用计算机运算速度快的优势，对多个基因进行随机组合，按照上述方法找出存在交互作用的基因位点。

但当主效应存在时，用ＭＤＲ方法很难得到最终模型，且同样受遗传异质性的影响；它只是一种数据挖掘方法，不是严格意义上的统计方法，还无法判断它的Ｉ类错误和检验功效。

ＭＤＲ分析软件包可在ｈｔｔｐ：／／ｗｗｗ．ｅｐｉｓｔａｓｉｓ．ｏｒｇ／ｍｄｒ．ｈｔｍｌ免费下载。

４基于复合ＬＤ的交互作用分析法
吴学森等Ⅲ’提出基于复合ＬＤ的交互作用的分析法。

该方法以病例一对照试验设计为基础，基于ＬＤ计算方法，构建完全有别于以上方法的一种新型基因间交互作用的统计分析方法：（１）用两个位点（基因）单倍型的外显率（只。

）与等位基因的边际外显率的乘积（Ｐａ·Ｐ。

）的偏差（６．口＝ＰＡ。

一只·Ｐ８），分别定义病例组和对照组两个位点交互作用的度量．进而综合两组交互作用度量构造检验交互作用的统计量；（２）对于基因一环境交互作用模型的构建，则将环境（分类型变量）变量视为“虚拟位点”（例如Ｅ＝ｌ表示环境暴露。

Ｅ＝０表示即非暴露），则同样依据上述方法构建其模型。

４．１基因型数据的联合概率分布及其表达对于基因之间、基因与环境之间的交互作用统计量的构建，无论是二阶或高阶情形，均至少涉及两个变量。

在本研究中，均以病例一对照试验设计为基础，个体的基因数据一律用其基因型表示。

无论是病例组还是对照组，均设两个位点的等位基因分别为Ａ，ａ；Ｂ，ｂ，则它们的联合基因型分布可表述为表３的形式：
则．配子的ＬＤ系数为：６．。

＝％一ＰＡＰ。

；非配子的ＬＤ系数为：乳口＝九日一只－匕，其中，Ｐ．ｅ＝尸竺＋ＰＡＢ舳＋碟＋Ｐ竺；ＪＤ∥。

＝Ｐ竺＋Ｐ竺＋Ｐ：：＋形：。

但是，当计算病例组或对照组的６．。

时，需要知道双杂合子的概率Ｐ苫、Ｐ：：。

然而。

当它们的相未知时，则无法确定其值，只能进行单倍型推断。

由于单倍型推断总是存在误差，这给后面构造的检验交互作
用的统计量带来很多不确　
万方数据
万方数据。