全基因组关联分析的原理和方法

合集下载

全基因组关联分析2篇

全基因组关联分析2篇

全基因组关联分析2篇全基因组关联分析(GWAS)是一种流行的研究方法,可以识别与人类复杂疾病相关的基因变异和遗传因素。

它通过对大规模的基因数据进行分析,寻找与疾病风险相关的单核苷酸多态性(SNP)位点。

本文将介绍GWAS的基本原理、优点和限制,并探讨如何将GWAS结果应用于临床实践中。

一、GWAS的基本原理GWAS的基本原理是将患病个体和正常个体之间的基因差异进行比较,以确定疾病的遗传基础。

GWAS使用全基因组SNP 芯片来确定大量SNP位点的遗传结构差异,并对这些位点进行关联分析。

GWAS基本流程如下:(1)研究样本的选择:GWAS要求大量研究个体,通常从多个人群中招募病例组和对照组。

(2)SNP芯片分析:研究人员使用SNP芯片对每个个体进行基因扫描,并确定他们的SNP位点。

(3)关联分析:将疾病风险和SNP位点之间的关系进行关联分析。

(4) GWAS结果的验证:以多个人群中的患者和正常个体进行复制研究以验证GWAS结果。

(5)功能研究:进一步分析GWAS结果中表观基因、基因调控元件或基因组变异是如何在疾病发生中作用的。

二、GWAS的优点(1)识别新潜在基因:GWAS是发现新潜在疾病基因的最有效方法之一。

通过GWAS分析,可以确定在某些疾病的发生和发展中,可能存在以前未发现的基因。

(2)覆盖广泛的基因组区域:GWAS分析可以同时针对基因组中数百万个SNP位点进行分析,包括那些不在编码区域的SNP位点,这使得该方法能够发现以前未知的功能区域。

(3)便于筛选疾病风险:GWAS的结果可用于评估某个特定基因或SNP位点与疾病风险之间的关系。

这可以帮助医生预测个体患某种疾病的风险,并制定个性化的预防和治疗方案。

三、GWAS的限制(1)复杂遗传模式:因为大多数疾病都具有复杂的遗传模式,所以很难在单个基因或SNP位点处揭示疾病的遗传机制。

(2)静态分析:GWAS只能提供静态遗传数据,不能提供关于变异类型、环境因素或表观遗传学变化的信息。

生物大数据技术的全基因组关联分析方法

生物大数据技术的全基因组关联分析方法

生物大数据技术的全基因组关联分析方法近年来,随着生物大数据技术的快速发展,全基因组关联分析方法已成为生物学、医学研究领域中的重要工具。

全基因组关联分析(GWAS)是一种寻找基因与某一特定性状或疾病之间相互关联的分析方法。

本文将介绍全基因组关联分析的原理和方法,并探讨其在研究中的应用和挑战。

全基因组关联分析的基本原理是将多个个体的基因组数据与其具体的性状或疾病状态进行比较,寻找基因位点与性状或疾病之间的关联。

这种分析方法的关键在于基因型-表型关联的检测。

在全基因组关联分析中,研究对象通常是单核苷酸多态性(SNP)位点,因为SNP是个体基因组中最常见的变异类型。

全基因组关联分析方法通常包括以下几个步骤。

首先,收集研究对象的基因组数据和相关性状或疾病的表型数据。

其次,通过基因组测序技术或芯片技术对个体的基因组进行分析,得到其SNP位点的基因型数据。

然后,通过统计学方法计算基因型与表型之间的关联。

最后,对这些关联进行统计分析,判断是否存在显著的关联信号。

在全基因组关联分析中,常用的统计学方法包括卡方检验、线性回归分析和逻辑回归分析等。

卡方检验适用于疾病的风险和基因型之间的关联分析;线性回归和逻辑回归分析则适用于连续性和二分性表型特征的关联分析。

不同的统计方法适用于不同的研究问题和数据类型。

全基因组关联分析方法在生物学、医学研究中的应用广泛。

它可以揭示基因变异与疾病发生发展之间的关系,有助于发现潜在的疾病风险基因和药物靶标。

全基因组关联分析还可以帮助了解个体在药物代谢、药物反应和药物副作用方面的差异,实现个体化医疗的目标。

此外,全基因组关联分析还可以为遗传病的早期筛查和诊断提供重要依据。

然而,全基因组关联分析也存在一些挑战。

首先,全基因组关联分析需要大样本量来获得可靠的结果,并且需要考虑到样本的种族和人口结构,以避免虚假关联的出现。

其次,全基因组关联分析结果需要进行复制实验来验证其确切性。

此外,全基因组关联分析还需要解决对多个检验进行校正和纠正,以降低虚假关联的发生概率。

全基因组关联研究技术及其应用

全基因组关联研究技术及其应用

全基因组关联研究技术及其应用随着基因科学的飞速发展,全基因组关联研究技术(GWAS)成为现代生物医学研究的重要手段之一。

通过对人类基因组中的上百万个DNA位点进行分析,GWAS技术可以寻找人类遗传变异与疾病发生的潜在关联。

在近年来的生物医学研究中,GWAS技术已经被广泛应用,为人类疾病的预防、诊治和治疗提供了重要的科学依据。

在本文中,我们将详细介绍GWAS技术的原理、流程及其应用。

一、GWAS技术的原理GWAS技术是一种大规模的关联分析技术,基于假设:如果某个单核苷酸多态性(SNP)与某种疾病的发生存在显著相关,那么这个SNP就可能是影响这种疾病的关键基因。

因此,通过研究不同个体间SNP的差异,可以寻找影响疾病发生的重要基因。

在GWAS研究中,研究对象通常是一组“病例-对照”样本组。

病例组包括某种特定疾病的患者,对照组则是与病例组性别、年龄和人种相似的健康人群。

然后,将这两组人群的DNA进行大规模的基因分型,筛选出存在差异的SNP位点。

最终,通过统计分析,可以将这些差异SNP与目标疾病的关系进行关联推断。

二、GWAS技术的流程GWAS技术一般包括以下几个步骤:1.样本筛选:选择适当的样本组,包括病例组和对照组,并设计合理的样本数量;2.基因分型:将样本组中的DNA序列进行大规模分型,得到SNP的变异情况;3.数据处理:对基因分型数据进行质量控制,去除质量不佳的SNP和样本;4.关联分析:将样本组中不同个体的SNP差异和疾病发生进行关联分析;5.生物信息学分析:对具有显著差异的SNP进行生物信息学分析,确定这些SNP的生物学意义,辅助研究人员进行基因功能的预测和功能注释。

三、GWAS技术的应用GWAS技术已经被广泛应用于多种疾病的研究中,如心血管疾病、肺癌、乳腺癌、糖尿病、帕金森病等等。

通过GWAS技术,研究人员可以寻找与疾病发生密切相关的基因,为疾病的发生机制和治疗手段的开发提供了重要的科学依据。

gwas原理

gwas原理

gwas原理GWAS(全基因组关联研究)原理引言:GWAS是一种广泛应用于遗传学研究的方法,通过分析大规模样本中的基因变异与表型特征的相关性,从而寻找与人类疾病和特征相关的基因位点。

本文将介绍GWAS的基本原理及其在疾病研究中的应用。

一、GWAS的基本原理GWAS是一种观察性研究,旨在寻找基因多态性与表型特征之间的关联。

其基本流程包括以下几个步骤:1.样本收集:研究人员需要收集大规模的样本,包括患者组和对照组。

患者组是指患有特定疾病或表现出特定特征的个体,而对照组是与患者组相似但不具备该特征的个体。

2.基因分型:对样本进行基因分型,通常采用SNP(单核苷酸多态性)芯片或全基因组测序技术。

这些技术可以检测大量的基因位点,从而获取个体的基因型信息。

3.统计分析:使用适当的统计方法,比如卡方检验或回归模型,来评估基因型与表型特征之间的关联。

通过计算P值,可以判断该关联是否具有统计学意义。

4.结果验证:为了验证GWAS结果的可靠性,研究人员通常需要在独立的样本集中进行复制性研究。

只有在多个独立样本集中得到一致的结果时,才能认为该基因位点与表型特征之间存在真实的关联。

二、GWAS在疾病研究中的应用GWAS已经在许多疾病的研究中取得了重要的突破,如癌症、心血管疾病、糖尿病等。

通过GWAS,我们可以发现与疾病风险相关的基因变异,从而为疾病的预防、诊断和治疗提供新的靶点和策略。

1.疾病易感基因的发现:GWAS可以帮助我们找到与疾病易感性相关的基因位点。

例如,在2型糖尿病研究中,GWAS发现了多个与疾病发生风险显著相关的基因位点,如TCF7L2、CDKAL1等。

2.疾病机制的解析:GWAS还可以揭示疾病的发病机制。

通过研究基因变异与表型特征之间的关联,我们可以了解这些基因对疾病的影响,从而深入了解疾病的发生和发展过程。

例如,在帕金森病研究中,GWAS发现了多个与该疾病相关的基因位点,如SNCA、LRRK2等,为帕金森病的研究提供了重要线索。

免疫学研究中的全基因组关联分析技术

免疫学研究中的全基因组关联分析技术

免疫学研究中的全基因组关联分析技术免疫学是研究免疫系统及其功能和异常的学科,是研究人类健康的重要分支之一。

全基因组关联分析技术(GWAS)是一种重要的基因组学研究方法,已在许多疾病的研究中得到了广泛应用。

本文将介绍免疫学研究中的全基因组关联分析技术,并探讨其在研究免疫系统相关性疾病中的应用。

一、全基因组关联分析技术全基因组关联分析技术是一种通过高通量基因芯片或次代测序技术,对大量人群进行基因组广泛扫描,寻找与特定性状关联的单核苷酸多态性(SNP)位点的方法。

该技术可从整个基因组范围内筛选出与免疫相关性疾病的遗传风险有关的基因,以此探讨免疫性疾病的遗传机制和发病机制。

二、免疫学研究中的全基因组关联分析技术GWAS技术的应用已经在多种免疫性疾病中得到了广泛的应用,如炎症性肠病、风湿性关节炎、多发性硬化症、类风湿性关节炎等。

其中以类风湿性关节炎和炎症性肠病研究最为深入。

类风湿性关节炎 (RA) 是一种慢性炎症性自身免疫性疾病,其遗传因素的贡献在RA的发病机制中占有重要地位。

近年来,通过GWAS,发现了一些与RA发病相关的候选基因,如PTPN22、STAT4和TRAF1/C5等。

其中PTPN22基因突变与T细胞信号转导中的减弱作用相关联,使免疫细胞更容易引起炎症反应。

研究还发现,TRAF1/C5基因编码的蛋白与实体肿瘤坏死因子(TNF)通路中的信号传导相关,因此可以作为探讨RA复杂病理机制的一个重要基因。

炎症性肠病(IBD) 是一种慢性炎症性肠道疾病,包括溃疡性结肠炎和克罗恩病。

GWAS技术为IBD研究提供了有力的工具,至今已经发现了大约230个与IBD发病相关的基因和基因区段。

比如,NOD2基因的编码和IBD发病有关,该基因编码的蛋白在肠道上皮细胞中发挥重要的免疫调节作用。

另外,保守性基因FEZ1在IBD的发生、发展中发挥重要作用,FEZ1蛋白参与了肠道内菌群的稳态平衡调控过程。

三、全基因组关联分析技术存在的问题随着GWAS技术的发展,其应用范围在不断扩展,但在实践中也遇到了一些问题。

全基因组关联分析的研究及其趋势

全基因组关联分析的研究及其趋势

全基因组关联分析的研究及其趋势全基因组关联分析(GWAS)是一种通过比较遗传变异和特定表现型之间的关联来识别常见病遗传因素的方法。

GWAS在过去的几年中得到了广泛的应用,帮助人们对许多疾病的发病机制有了更深入的认识。

本文将介绍GWAS的基本原理、发展历程以及未来的发展趋势。

一、GWAS的基本原理GWAS基于基因多态性的假设,即常见疾病的发生可能与多个基因之间的遗传变异有关。

GWAS研究会对数千名个体进行基因型分析,以寻找与特定表现型(如疾病)相关的指定单核苷酸多态性(SNP)。

统计分析用于确定这些SNP是否与表现型的变异有关。

GWAS是一种有潜力的方法,可以为疾病的发病机制提供补充信息。

它可以提高对疾病基因型的理解,通过发现几个共同遗传因素,可以为更个性化的临床治疗方案提供基础。

二、GWAS的发展历程第一项GWAS研究是2005年发表的关于亚洲人口的基因变异和糖尿病的关联研究。

在那以后不久,GWAS就成为了一种热门的研究方法。

随着技术和生物信息学方法的发展,越来越多的基因变异可以被检测,并将被纳入GWAS的分析中。

在许多大规模的GWAS研究中,指向数千个潜在基因影响多个疾病和特征的基因变异已被发现。

这些研究为许多疾病的研究和治疗提供了深入的洞察力,包括骨质疏松症,心血管疾病,痴呆症,心理疾病以及各种癌症。

三、GWAS的未来趋势在未来几年,GWAS将继续成为基因相关研究中的主要方法。

越来越多的疾病现在可以使用GWAS来探索其潜在的基因贡献。

在长时间的GWAS研究中,我们可以看到关于疾病病因的更多信息的出现,甚至在没有疾病症状的人身上也可以看到这种基因负载。

这将使我们更具有针对性地开发个性化的治疗方法,同时在疾病预防方面也具有更积极的作用。

GWAS的未来趋势还包括创新的技术和更加灵活的研究设计。

通过在抗击传染病和新兴病原体方面的应用,GWAS正在以更广泛的方式帮助生物医学界。

总的来说,GWAS是一种非常有前途的研究方法,其对于识别与疾病相关的基因位点具有巨大的潜力。

全基因组关联分析剖析

全基因组关联分析剖析

对家系数据进行检查,排 除样本混淆、亲子关系 错误等问题,控制家系关 系的正确性。
全基因组关联分析的结果验证
验证检查
对于全基因组关联分析的结果,需要进行严格的验证检查,以确保结果的可靠性和重复性。
重复实验
在不同的人群或样本中重复实验,比较结果是否一致进一步的功能实验,探讨基因变异与表型之间的机制。
全基因组关联分析的统计方法
统计分析
全基因组关联分析通常采用统计模型对遗传标记与表型之间的关联进行测试,如线性回归、logistic 回归等。
多重检验校正
由于基因组级别的大量比较检验,需要采用Bonferroni、FDR等方法进行多重检验校正,以控制I型错 误风险。
机器学习方法
近年来,全基因组关联分析也开始采用机器学习技术,如Ridge回归、Lasso回归等方法,以提高检测 能力。
全基因组关联分析的研究 热点
1 复杂疾病研究
全基因组关联分析被广 泛应用于探索复杂疾病 如糖尿病、心血管疾病 、肿瘤等的遗传学基础 。
3 交互作用研究
多基因、基因-环境等交 互作用的研究是全基因 组关联分析的重要方向 。
2 药物反应预测
全基因组分析有助于识 别影响药物反应的基因 变异,助力个体化精准医 疗。
生物学解释
从统计上显著关联的遗 传位点到生物学功能解 释存在鸿沟,需要更深入 的研究。
跨人群适用性
现有大多数研究集中于 欧美人群,如何推广到其 他人群是一大挑战。
全基因组关联分析的研究进 展
多组学整合
研究者正在探索将全基因组 关联分析与转录组学、表观 遗传学等多种组学数据相结 合的方法,以更全面地了解 复杂疾病的遗传学机制。
新型统计方法
学者们不断开发基于机器学 习、贝叶斯统计等的创新分 析方法,以提高检测复杂遗 传变异和基因-环境相互作 用的能力。

遗传学研究中的全基因组关联分析

遗传学研究中的全基因组关联分析

遗传学研究中的全基因组关联分析全基因组关联分析(GWAS)是一种广泛应用于遗传学研究中的分析方法,用于探究基因对复杂性疾病和特征的贡献。

全基因组关联分析的目标是发现与特定疾病或特征相关的遗传变异。

全基因组关联分析的基本原理是基于常见遗传变异(如单核苷酸多态性,SNP)与疾病或特征之间的关联。

它使用大样本量的个体,通过比较有疾病或特征的个体与无疾病或正常个体之间的遗传变异的差异来确定遗传变异与疾病或特征的关联。

全基因组关联分析涉及以下几个步骤:1.样本选择和数据收集:首先,需要选择一个大样本量的群体,包含有疾病或特征的个体以及正常个体。

然后,收集这些个体的基因组数据,包括基因型和表型信息。

2.标记选择和基因型分析:接下来,从基因组数据中选择SNP作为标记进行分析。

通常选择常见的SNP,因为它们更有可能与疾病或特征相关。

然后,对这些SNP进行基因型分析。

3.数据清洗和质量控制:对基因型数据进行清洗和质量控制是非常重要的,以保证得到准确可靠的结果。

这包括去除存在错误或欠缺的数据点,并对基因型数据进行基础统计分析。

4.关联分析:在进行关联分析时,通常使用统计学方法,如卡方检验和线性回归模型来评估基因型和疾病或特征之间的关联。

这些方法可以根据SNP的基因型和疾病或特征之间的分布情况来计算p值,表示关联的强度。

5.校正和复制:进行全基因组关联分析时,需要考虑到许多可能的干扰因素,如种群结构、家族关系和性别。

为了减少这些干扰因素的影响,可以进行校正和复制分析,以验证在不同种群中的关联结果的一致性。

6.功能注释和生物信息学分析:找到与疾病或特征相关的遗传变异后,需要进一步进行功能注释和生物信息学分析,以了解这些遗传变异对基因功能和疾病机制的影响。

全基因组关联分析在遗传学研究中作为一种有力的工具出现,并在识别与复杂性疾病和特征相关的遗传变异方面取得了很大进展。

然而,需要注意的是,全基因组关联分析只能发现单个SNP与疾病或特征之间的关联,而不能确定遗传变异的功能和机制。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism ,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。

随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。

近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。

全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。

人类的疾病分为单基因疾病和复杂性疾病。

单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。

复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。

目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。

全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。

(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。

2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。

我国学者则通过对12 000 多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5 个红斑狼疮易感基因, 并确定了4 个新的易感位点( Han 等. 2009) 。

截至2009 年10 月, 已经陆续报道了关于人类身高、体重、血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果, 累计发表了近万篇论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。

) 标记基因的选择:1)Hap Map是展示人类常见遗传变异的一个图谱, 第1 阶段完成后提供了4 个人类种族[ Yoruban ,Northern and Western European , and Asian( Chinese and Japanese) ] 共269 个个体基因组, 超过100 万个SNP( 约1SNP / 3kb ) 及连锁不平衡区域( linkage disequilibrium, LD ) 关系的图谱。

第二阶段增加了其它的人类种族数据。

基于Hap Map可以选择500 000 到1 000 000 个覆盖全基因组的SNP。

2)基因组拷贝数变异( copy number variations ,CNV ) 是20 世纪80年代发现的在人类基因组中存在的多种类型的染色体数目和结构变异。

是指与参考序列相比,基因组中? 1 kb 的DNA 片段插入、缺失和/ 或扩增,及其互相组合衍生的复杂染色体结构变异。

与SNP相似,部分CNV 在不同人群中以不同频率分离并具有显著性差异, 并可能影响基因表达和表型改变, 因此CNV也是一种引起疾病或增加复杂疾病发病风险的重要遗传变异。

GWAS采用的研究方式与传统的候选基因病例—对照(case-control) 关联分析一致, 即如果人群基因组中一些SNP与某种疾病相关联, 理论上这些疾病相关SNP 等位基因频率在某种疾病患者中应高于未患病对照人群。

动物重要经济性状即复杂性状GWAS分析方法的原理是,借助于SNP分子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分型,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。

GWAS的具体研究方法与传统的候选基因法相类似:1)单阶段方法,即选择足够多的样本,一次性地在所有研究对象中对目标SNP进行基因分型,然后分析每个SNP与目标性状的关联,统计分析关联强度和OR值(计算出的OR值等于1时,则该因素的疾病发生不起任何作用;大于1时,该因素为危险因素;小于1 时,该因素为保护因素。

)。

2)目前GWAS研究主要采用两阶段方法/ 多阶段方法。

第一阶段用覆盖全基因组范围的SNP进行对照分析,统计分析后筛选出较少数量的阳性SNP进行。

可以以个体为单位,也可以采用DNAp ooling 的方法(后者可大大降低及基因分型的成本和工作量)。

但是DNA pooling 的基因分型结果与对所有个体进行基因分型的结果仍有一定差异, DNA pooling 估计的等位基因频率标准差在1 % ~ 4% 的范围, 因而若单独以DNApooling 来估计等位基因频率, 那么这种误差对全基因组的病例—对照研究的检验效能( power of test) 有重要影响。

第二阶段或随后的多阶段中采用更大样本的对照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分析。

这种设计需要保证第一阶段筛选与目标性状相关SNP的敏感性和特异性,尽量减少分析的假阳性或假阴性,并在第二阶段应用大量样本群进行基因分型验证。

结果的统计和分析:1)在GWAS用于病例- 对照研究设计时,比较病例和对照组中每个SNP等位基因频率差别多采用4 格表的卡方检验( chi-square test ) , 并计算OR及其95%的可信区间( confidence interval , CI) , 归因分数( attributable fraction , AF) 和归因危险度( attributable risk ,AR) ; 同时需对如年龄、性别等主要混杂因素采用Logistic 回归分析, 以基因型和混杂因素作为自变量, 研究对象患病状态为因变量进行分析。

2)GWAS用于研究随机人群的SNP与某一数量性状关联时( 如身高、体重、血压等) , 主要应用单因素方差分析( one-way ANOVA) 比较SNP 位点3 种基因型与所研究的数量性状水平的关系, 需要调整混杂因素时则采用协方差分析( analysis o f covariance) 或线性回归引起结果误差的主要原因有人群分层和多重假设检验调整。

无论是GWAS两阶段/ 多阶段设计, 还是采用Bonferroni 校正等遗传统计方法, 都难以解决人群分层及多重比较导致的假阳性或假阴性问题。

GWAS不能仅凭P 值判断某个SNP 是否与疾病真正关联, 多种族、多群体、大样本的重复验证研究(replication) 才是提高检验效能、确保发现真正疾病关联SNP的关键。

【例】全基因组关联分析在乳腺癌易感位点筛选的应用2007 年6 月,乳腺癌关联协作组( Breast Cancer Association Consortium ,BCAC) 首先报告了乳腺癌GWAS的结果,该研究共包括三个阶段:第一阶段: 408 例家族性乳腺癌患者和400 名对照,266 722 个SNP;第二阶段: 3990 例乳腺癌患者和3916 名对照,12 711 个SNP;第三阶段: 22 例病例-对照研究,合计21 860 例患者和22 578 名对照,30 个SNP。

研究结果最终发现了5 个乳腺癌的易感性位点,4 个位于已知基因: FGFR2 ( rs2981582) 、TNRC9 /LOC643714( rsl2443621 ) 、MAP3K1( rs889312) 和LSPl ( rs3817198) ,而rsl3281615 位于染色体8q24。

虽然GWAS结果在很大程度上增加了对复杂性状分子遗传机制的理解, 但也显现出很大的局限性。

首先,通过统计分析遗传因素和复杂性状的关系, 确定与特定复杂性状关联的功能性位点存在一定难度。

通过GWAS发现的许多SNP位点并不影响蛋白质中的氨基酸, 甚至许多SNP位点不在蛋白编码开放阅读框(open reading frame ,ORF) 内, 这为解释SNP 位点与复杂性状之间的关系造成了困难。

而且,就目前来说GWAS难以检测的部分可能主要集中在最小等位基因频(minor allele frequency ,MAF)介于0 . 5 % ~ 5 %之间的少见变异, 或者MAF<0 . 5 % 的罕见变异, 现有的基因分型芯片较难有效地发现这些遗传变异但是,由于复杂性状很大程度上是由数量性状的微效多基因决定的,SNP位点可能通过影响基因表达量对这些数量性状产生轻微的作用,它们在RNA的转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调节基因的转录表达或影响其RNA剪接方式。

因此,在找寻相关变异时应同时注意到编码区和调控区位点变异的重要性。

其次,等位基因结构( 数量、类型、作用大小和易感性变异频率) 在不同性状中可能具有不同的特征。

在GWAS研究后要确定一个基因型- 表型因果关系还有许多困难,由于连锁不平衡的原因,相邻的SNP之间会有连锁现象发生。

同样,在测序时同样存在连锁不平衡现象,而且即使测序的费用降到非常低的水平,要想如GWAS研究一般地获得大量样本的基因组数据还是非常困难的。

* llumina 宣布HiSeq X Ten 测序系统将会于1 月份重磅回归,该技术的早期运用还需要等待一段时间,然而GEN预测了Illumina X Ten在2015年可能会实现的6大应用。

Illumina X Ten的测序功能非常强大,一台机器一年能完成18000 个人类基因组测序,尽管大规模基因组测序还会面临一系列挑战,但是现在可以将这些顾虑暂时搁置,思考一下科学家们可以利用该技术完成哪些有趣的工作呢?下面就是GEN预测的6 大应用。

1 新生儿与儿科疾病预测新生儿重症监护病房和儿童医院每年都会收治大量患有严重疾病的患儿,而其中很多致命的疾病都存在其遗传基础。

相关文档
最新文档