全基因组关联分析的原理和方法题库
GWAS全基因组关联分析summarystatistic概括统计meta-analysis综合分析

GWAS全基因组关联分析summarystatistic概括统计meta-analysis综合分析有很多概念需要明确区分:⼈有23对染⾊体,其中22对常染⾊体autosome,另外⼀对为性染⾊体sex chromosome,XX为⼥,XY为男。
染⾊体区带命名:在标⽰⼀特定的带时需要包括4项:①染⾊体号;②臂的符号;③区号;④在该区内的带号。
1p22表⽰为1号染⾊体短臂2区2带。
等位基因其实是⼀个集合,在同⼀个locus出现得基因型互为等位基因。
Aa不能叫等位基因,正确的逻辑是:A和a是⼀组等位基因。
由等位基因可以定义纯合和杂合。
⼆倍体与多倍体细胞的某些染⾊体上,在同⼀基因座上有相同的等位基因,这类细胞称为纯合⼦/同型合⼦(homozygous)。
若是相同基因座上含有不同的等位基因,则称作杂合⼦/异型合⼦(heterozygous)。
summary statistic顾名思义,就和R⾥⾯的summary函数⼀样,是对GWAS数据的⼀个概括总结,包含了结果中最核⼼的信息。
GWAS的基本原理如何跑GWAS?转到姊妹篇:PowerEffect sizeMajor allele,Minor allele,Minor allele frequency (MAF),Missingness per genotype,Missingness per individuals,metrics that we look at includelinkage disequilibrium (LD),variance inflation factor (VIF),runs of homozygosity (ROH),These provide a broad 'summary' of the data and allow us to appropriately set thresholds for quality control. It would be wrong, for example, to run a statistical test on a genotype with high missingness because the resulting P value would be misleading and could lead to erroneous conclusions from the data.PLINK is usually the 'go to' program for analysing GWAS data, but there are other alternatives. It is also possible to read PLINK data into R and do your own analyses, but for now there are not many programs to do that.A tutorial on conducting genome‐wide association studies: Quality control and statistical analysisClumping: This is a procedure in which only the most significant SNP (i.e., lowest p value) in each LD block is identified and selected forfurther analyses. This reduces the correlation between the remaining SNPs, while retaining SNPs with the strongest statistical evidence. Co‐heritability: This is a measure of the genetic relationship between disorders. The SNP‐based co‐heritability is the proportion of covariance between disorder pairs (e.g., schizophrenia and bipolar disorder) that is explained by SNPs.Gene: This is a sequence of nucleotides in the DNA that codes for a molecule (e.g., a protein)Heterozygosity: This is the carrying of two different alleles of a specific SNP. The heterozygosity rate of an individual is the proportion of heterozygous genotypes. High levels of heterozygosity within an individual might be an indication of low sample quality whereas low levels of heterozygosity may be due to inbreeding.Individual‐level missingness: This is the number of SNPs that is missing for a specific individual. High levels of missingness can be an indication of poor DNA quality or technical problems.Linkage disequilibrium (LD): This is a measure of non‐random association between alleles at different loci at the same chromosome in a given population. SNPs are in LD when the frequency of association of their alleles is higher than expected under random assortment. LD concerns patterns of correlations between SNPs.Minor allele frequency (MAF): This is the frequency of the least often occurring allele at a specific location. Most studies are underpowered to detect associations with SNPs with a low MAF and therefore exclude these SNPs.Population stratification: This is the presence of multiple subpopulations (e.g., individuals with different ethnic background) in a study. Because allele frequencies can differ between subpopulations, population stratification can lead to false positive associations and/or mask true associations. An excellent example of this is the chopstick gene, where a SNP, due to population stratification, accounted for nearly half of the variance in the capacity to eat with chopsticks (Hamer & Sirota, 2000).Pruning: This is a method to select a subset of markers that are in approximate linkage equilibrium. In PLINK, this method uses the strength of LD between SNPs within a specific window (region) of the chromosome and selects only SNPs that are approximately uncorrelated, based on a user‐specified threshold of LD. In contrast to clumping, pruning does not take the p value of a SNP into account. Relatedness: This indicates how strongly a pair of individuals is genetically related. A conventional GWAS assumes that all subjects are unrelated (i.e., no pair of individuals is more closely related than second‐degree relatives). Without appropriate correction, the inclusion of relatives could lead to biased estimations of standard errors of SNP effect sizes. Note that specific tools for analysing family data have been developed.Sex discrepancy: This is the difference between the assigned sex and the sex determined based on the genotype. A discrepancy likely points to sample mix‐ups in the lab. Note, this test can only be conducted when SNPs on the sex chromosomes (X and Y) have been assessed.Single nucleotide polymorphism (SNP): This is a variation in a single nucleotide (i.e., A, C, G, or T) that occurs at a specific position in the genome. A SNP usually exists as two different forms (e.g., A vs. T). These different forms are called alleles. A SNP with two alleles has three different genotypes (e.g., AA, AT, and TT).SNP‐heritability: This is the fraction of phenotypic variance of a trait explained by all SNPs in the analysis.SNP‐level missingness: This is the number of individuals in the sample for whom information on a specific SNP is missing. SNPs with a high level of missingness can potentially lead to bias.Summary statistics: These are the results obtained after conducting a GWAS, including information on chromosome number, position of the SNP, SNP(rs)‐identifier, MAF, effect size (odds ratio/beta), standard error, and p value. Summary statistics of GWAS are often freely accessible or shared between researchers.The Hardy–Weinberg (dis)equilibrium (HWE) law: This concerns the relation between the allele and genotype frequencies. It assumes an indefinitely large population, with no selection, mutation, or migration. The law states that the genotype and the allele frequencies are constant over generations. Violation of the HWE law indicates that genotype frequencies are significantly different from expectations (e.g., if the frequency of allele A = 0.20 and the frequency of allele T = 0.80; the expected frequency of genotype AT is 2*0.2*0.8 = 0.32) and the observed frequency should not be significantly different. In GWAS, it is generally assumed that deviations from HWE are the result of genotyping errors. The HWE thresholds in cases are often less stringent than those in controls, as the violation of the HWE law in cases can be indicative of true genetic association with disease risk.Meta-analysisGenerally, if a sample includes multiple ethnic groups (e.g., Africans, Asians, and Europeans), it is recommended to perform tests of association in each of the ethnic groups separately and to use appropriate methods, such as meta‐analysis (Willer, Li, & Abecasis, 2010), to combine the results.。
全基因组关联分析的原理和方法

全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism ,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。
随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。
近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。
全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。
人类的疾病分为单基因疾病和复杂性疾病。
单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。
复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。
目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。
全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。
(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。
2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。
全基因组关联分析在畜禽上的应用题库

全基因组关联分析在畜禽上的应用摘要:随着数量遗传学、分子生物学以及计算机水平的高速发展,出现了数量遗传学与分子遗传学的结合,动物育种中也不断出现新的方法,全基因组关联分析(GWAS)以及全基因组选择(GS)。
本文主要介绍了GWAS及其在几种畜禽上的应用和问题。
关键字:GWAS,牛,猪,鸡,应用对畜禽实施标记辅助选择可提高遗传进展,但是我们首先需要找到影响畜禽重要性状的主效基因。
候选基因分析和标记QTL连锁分析策略使我们对一些基因的功能和作用方式有所了解,也找到了一些主效基因。
但是生物基因组中有庞大的基因数目,很多控制畜禽经济性状的基因还无法分离和鉴定,这就需要一种全新的研究手段,最好能无偏地覆盖所有基因,并能高通量检测和适应不断更新的物种基因组序列。
20世纪80年代后期90年代初期,随着数量遗传学理论研究的不断深入、分子生物学的飞跃发展、计算机水平的日新月异,开始出现数量遗传学与分子遗传学结合研究的热潮,发展为现在的分子数量遗传学。
动物育种中也在传统育种方法的基础上不断提出新的方法:全基因组关联分析(Genome-Wide Association Studies,GWAS)以及全基因组选择。
GWAS就可以解决以上问题,GWAS是一种对全基因组范围内的常见遗传变异:单核苷酸多态性(Single nucleotide polymorphism,SNP)和拷贝数变异(Copy number variation,CNV)进行总体关联分析的方法,其核心思想是利用全基因组范围的连锁不平衡来确定影响复杂性状或数量性状的基因[1]。
GWAS目前主要是应用在人类的复杂疾病上,2005年,自从《Science》杂志上首次报道了Klein等利用Affymetrix100K的基因芯片对年龄相关性视网膜黄斑变性进行GWAS的结果之后,一大批有关复杂疾病的GWAS报道不断出现。
已经陆续报导和公布了视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种疾病全基因组关联研究的结果[2]。
gwas的原理

gwas的原理GWAS(全基因组关联研究)是一种用于研究基因与疾病关联的方法。
它通过比较大量受试者的基因组数据和疾病表型数据,寻找基因与疾病之间的相关性。
GWAS的原理基于两个假设:常见变异假设和独立等位基因假设。
常见变异假设认为,常见的遗传变异(例如单核苷酸多态性,SNP)在疾病的发生中起到重要作用。
独立等位基因假设认为,不同基因座上的变异相互独立,即它们在遗传上是独立的。
基于这两个假设,GWAS通过以下步骤进行研究:1. 定义研究人群:首先,需要选择符合研究目的的研究人群。
这些人群应包括足够的疾病患者和对照组,以确保研究结果的统计学有效性。
2. 收集数据:研究人员需要收集参与者的基因组数据和疾病表型数据。
基因组数据可以通过高通量测序技术或基因芯片来获取,而疾病表型数据可以是疾病的临床特征或生物标记。
3. 数据预处理:在进行统计分析之前,需要对收集到的数据进行预处理。
这可能包括去除低质量的基因型数据、纠正基因型频率的偏差以及调整表型数据的影响因素。
4. 统计分析:接下来,研究人员使用适当的统计方法来分析基因型数据和表型数据之间的关联。
常见的方法包括卡方检验、学生t检验和逻辑回归分析等。
5. 校正多重检验:在进行多个统计检验时,为了控制错误发现率,需要进行多重检验校正。
常用的方法包括Bonferroni校正、Benjamini-Hochberg校正等。
6. 结果解释:最后,研究人员对得到的结果进行解释和验证。
他们可以通过进一步的功能研究、人工实验或复制性研究来验证GWAS 的结果。
GWAS的优势在于它可以全面而高效地筛选出与疾病相关的基因变异。
然而,它也存在一些限制。
首先,GWAS只能发现与疾病相关的共享变异,而不能解释个体之间的差异。
其次,GWAS的结果往往只能提供关联性,并不能证明因果关系。
此外,由于GWAS需要大样本量支持,因此对于罕见疾病或复杂疾病,其效果可能有限。
GWAS作为一种高通量的基因与疾病关联研究方法,已经在许多疾病的研究中取得了重要的突破。
GWAS原理和流程全基因组关联分析Linkagedisequilibrium(LD)连锁不。。。

GWAS原理和流程全基因组关联分析Linkagedisequilibrium(LD)连锁不。
GWAS⼊门必看教程:名词解释和基本问题:关联分析:就是AS的中⽂,全称是GWAS。
应⽤基因组中数以百万计的单核苷酸多态;SNP为分⼦遗传标记,进⾏全基因组⽔平上的对照分析或相关性分析,通过⽐较发现影响复杂性状的基因变异的⼀种新策略。
在全基因组范围内选择遗传变异进⾏基因分析,⽐较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与⽬标性状之间的关联性⼤⼩,选出最相关的遗传变异进⾏验证,并根据验证结果最终确认其与⽬标性状之间的相关性。
连锁不平衡:LD,P(AB)= P(A)*P(B)。
不连锁就独⽴,如果不存在连锁不平衡——相互独⽴,随机组合,实际观察到的群体中单倍体基因型 A和B 同时出现的概率。
P (AB) = D + P (A) * P (B) 。
D是表⽰两位点间LD程度值。
曼哈顿图:在⽣物和统计学上,做频率统计、突变分布、GWAS关联分析的时候,我们经常会看到⼀些⾮常漂亮的manhattan plot,能够对候选位点的分布和数值⼀⽬了然。
位点坐标和pvalue。
map⽂件⾄少包含三列——染⾊体号,SNP名字,SNP物理位置。
assoc⽂件包含SNP名字和pvalue。
haploview即可画出。
SNP的本质属性是什么?⼴义上讲是变异:most common type of genetic variation,平级的还有indel、CNV、SV。
Each SNP represents a difference in a single DNA building block, called a nucleotide. 狭义上讲是标记:biological markers,因为SNP是单碱基的,所以SNP⼜是⼀个位点,标记了染⾊体上的⼀个位置。
⼤部分⼈的基因组,99%都是⼀模⼀样的,还有些SNP的位点,就是⼀些可变的位点,在⼈群中有差异。
gwas原理

gwas原理GWAS(全基因组关联研究)原理引言:GWAS是一种广泛应用于遗传学研究的方法,通过分析大规模样本中的基因变异与表型特征的相关性,从而寻找与人类疾病和特征相关的基因位点。
本文将介绍GWAS的基本原理及其在疾病研究中的应用。
一、GWAS的基本原理GWAS是一种观察性研究,旨在寻找基因多态性与表型特征之间的关联。
其基本流程包括以下几个步骤:1.样本收集:研究人员需要收集大规模的样本,包括患者组和对照组。
患者组是指患有特定疾病或表现出特定特征的个体,而对照组是与患者组相似但不具备该特征的个体。
2.基因分型:对样本进行基因分型,通常采用SNP(单核苷酸多态性)芯片或全基因组测序技术。
这些技术可以检测大量的基因位点,从而获取个体的基因型信息。
3.统计分析:使用适当的统计方法,比如卡方检验或回归模型,来评估基因型与表型特征之间的关联。
通过计算P值,可以判断该关联是否具有统计学意义。
4.结果验证:为了验证GWAS结果的可靠性,研究人员通常需要在独立的样本集中进行复制性研究。
只有在多个独立样本集中得到一致的结果时,才能认为该基因位点与表型特征之间存在真实的关联。
二、GWAS在疾病研究中的应用GWAS已经在许多疾病的研究中取得了重要的突破,如癌症、心血管疾病、糖尿病等。
通过GWAS,我们可以发现与疾病风险相关的基因变异,从而为疾病的预防、诊断和治疗提供新的靶点和策略。
1.疾病易感基因的发现:GWAS可以帮助我们找到与疾病易感性相关的基因位点。
例如,在2型糖尿病研究中,GWAS发现了多个与疾病发生风险显著相关的基因位点,如TCF7L2、CDKAL1等。
2.疾病机制的解析:GWAS还可以揭示疾病的发病机制。
通过研究基因变异与表型特征之间的关联,我们可以了解这些基因对疾病的影响,从而深入了解疾病的发生和发展过程。
例如,在帕金森病研究中,GWAS发现了多个与该疾病相关的基因位点,如SNCA、LRRK2等,为帕金森病的研究提供了重要线索。
全基因组关联分析的原理

全基因组关联分析的原理
全基因组关联分析(GWAS)是一种研究基因与特定疾病之间关系的研究方法。
它可以帮助研究人员更好地理解基因如何影响疾病的发生,从而为疾病的预防和治疗提供重要的信息。
GWAS的原理是通过比较大量的基因组数据,来检测与特定疾病相关的基因变异。
它使用大量的样本,比较患者和健康者的基因组数据,以确定与疾病相关的基因变异。
GWAS可以检测出与疾病相关的基因变异,从而为疾病的预防和治疗提供重要的信息。
GWAS的优势在于它可以检测出与疾病相关的基因变异,而不需要事先知道哪些基因可能与疾病有关。
它还可以检测出与疾病相关的基因变异,而不受基因组大小的限制。
GWAS的缺点是它只能检测出与疾病相关的基因变异,而不能提供有关基因如何影响疾病发生的信息。
此外,GWAS也受到样本大小的限制,因为它需要大量的样本才能检测出与疾病相关的基因变异。
总之,全基因组关联分析是一种研究基因与特定疾病之间关系的研究方法,它可以检测出与疾病相关的基因变异,从而为疾病的预防和治疗提供重要的信息。
它具有检测出与疾病相关的基因变异的优势,但也受到样本大小的限制。
全基因组关联分析剖析

对家系数据进行检查,排 除样本混淆、亲子关系 错误等问题,控制家系关 系的正确性。
全基因组关联分析的结果验证
验证检查
对于全基因组关联分析的结果,需要进行严格的验证检查,以确保结果的可靠性和重复性。
重复实验
在不同的人群或样本中重复实验,比较结果是否一致进一步的功能实验,探讨基因变异与表型之间的机制。
全基因组关联分析的统计方法
统计分析
全基因组关联分析通常采用统计模型对遗传标记与表型之间的关联进行测试,如线性回归、logistic 回归等。
多重检验校正
由于基因组级别的大量比较检验,需要采用Bonferroni、FDR等方法进行多重检验校正,以控制I型错 误风险。
机器学习方法
近年来,全基因组关联分析也开始采用机器学习技术,如Ridge回归、Lasso回归等方法,以提高检测 能力。
全基因组关联分析的研究 热点
1 复杂疾病研究
全基因组关联分析被广 泛应用于探索复杂疾病 如糖尿病、心血管疾病 、肿瘤等的遗传学基础 。
3 交互作用研究
多基因、基因-环境等交 互作用的研究是全基因 组关联分析的重要方向 。
2 药物反应预测
全基因组分析有助于识 别影响药物反应的基因 变异,助力个体化精准医 疗。
生物学解释
从统计上显著关联的遗 传位点到生物学功能解 释存在鸿沟,需要更深入 的研究。
跨人群适用性
现有大多数研究集中于 欧美人群,如何推广到其 他人群是一大挑战。
全基因组关联分析的研究进 展
多组学整合
研究者正在探索将全基因组 关联分析与转录组学、表观 遗传学等多种组学数据相结 合的方法,以更全面地了解 复杂疾病的遗传学机制。
新型统计方法
学者们不断开发基于机器学 习、贝叶斯统计等的创新分 析方法,以提高检测复杂遗 传变异和基因-环境相互作 用的能力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。
随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。
近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。
全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。
人类的疾病分为单基因疾病和复杂性疾病。
单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。
复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。
目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439个。
全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。
(2005年, Science杂志首次报道了年龄相关性视网膜黄斑变性 GWAS结果,在医学界和遗传学界引起了极大的轰动,此后一系列GWAS陆续展开。
2006年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的 GWAS结果 (Herbert等. 2006);2007年, Saxena等多个研究组联合报道了与 2型糖尿病( T2D )关联的多个位点, Samani等则发表了冠心病 GWAS结果( Samani 等. 2007); 2008年, Barrett等通过 GWAS发现了 30个与克罗恩病( Crohns ' disrease)相关的易感位点; 2009年, W e is s等通过 GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。
我国学者则通过对 12 000多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了 5个红斑狼疮易感基因, 并确定了 4个新的易感位点( Han 等. 2009)。
截至 2009年 10月,已经陆续报道了关于人类身高、体重、血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的 GWAS结果, 累计发表了近万篇论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和 SNP变异。
)标记基因的选择:1)Hap Map是展示人类常见遗传变异的一个图谱 ,第 1阶段完成后提供了4个人类种族 [ Yoruban ,Northern and Western European , and Asian ( Chinese and Japanese) ]共 269个个体基因组,超过 100万个SNP (约1 SNP / 3kb )及连锁不平衡区域 ( linkage disequilibrium, LD )关系的图谱。
第二阶段增加了其它的人类种族数据。
基于 Hap Map可以选择 500 000到1 000 000个覆盖全基因组的 SNP。
2)基因组拷贝数变异 ( copy number variations ,CNV )是 20世纪 80年代发现的在人类基因组中存在的多种类型的染色体数目和结构变异。
是指与参考序列相比,基因组中∃1 kb的 DNA 片段插入、缺失和 /或扩增,及其互相组合衍生的复杂染色体结构变异。
与 SNP相似,部分 CNV在不同人群中以不同频率分离并具有显著性差异, 并可能影响基因表达和表型改变,因此 CNV也是一种引起疾病或增加复杂疾病发病风险的重要遗传变异。
GWAS采用的研究方式与传统的候选基因病例—对照(case-control)关联分析一致, 即如果人群基因组中一些 SNP与某种疾病相关联, 理论上这些疾病相关 SNP等位基因频率在某种疾病患者中应高于未患病对照人群。
动物重要经济性状即复杂性状GWAS分析方法的原理是,借助于SNP分子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分型,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。
GWAS的具体研究方法与传统的候选基因法相类似:1)单阶段方法,即选择足够多的样本,一次性地在所有研究对象中对目标SNP进行基因分型,然后分析每个SNP与目标性状的关联,统计分析关联强度和OR值(计算出的OR值等于1时,则该因素的疾病发生不起任何作用;大于1时,该因素为危险因素;小于1时,该因素为保护因素。
)。
2)目前GWAS研究主要采用两阶段方法/多阶段方法。
第一阶段用覆盖全基因组范围的SNP进行对照分析,统计分析后筛选出较少数量的阳性SNP进行。
可以以个体为单位,也可以采用DNA pooling的方法(后者可大大降低及基因分型的成本和工作量)。
但是 DNA pooling的基因分型结果与对所有个体进行基因分型的结果仍有一定差异, DNA pooling估计的等位基因频率标准差在 1 % ~ 4% 的范围, 因而若单独以 DNApooling来估计等位基因频率, 那么这种误差对全基因组的病例—对照研究的检验效能 ( power of test)有重要影响。
第二阶段或随后的多阶段中采用更大样本的对照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分析。
这种设计需要保证第一阶段筛选与目标性状相关SNP的敏感性和特异性,尽量减少分析的假阳性或假阴性,并在第二阶段应用大量样本群进行基因分型验证。
结果的统计和分析:1)在GWAS用于病例-对照研究设计时,比较病例和对照组中每个 SNP等位基因频率差别多采用 4 格表的卡方检验 ( chi-square test ) ,并计算OR及其 95%的可信区间 ( confidence interval , CI) ,归因分数( attributable fraction , AF)和归因危险度 ( attributable risk , AR ); 同时需对如年龄、性别等主要混杂因素采用 Logistic回归分析,以基因型和混杂因素作为自变量,研究对象患病状态为因变量进行分析。
2)GWAS用于研究随机人群的SNP与某一数量性状关联时 (如身高、体重、血压等) ,主要应用单因素方差分析 ( one-way ANOVA )比较 SNP位点 3种基因型与所研究的数量性状水平的关系,需要调整混杂因素时则采用协方差分析( analysis o f covariance)或线性回归引起结果误差的主要原因有人群分层和多重假设检验调整。
无论是 GWAS两阶段/多阶段设计, 还是采用 Bonferroni校正等遗传统计方法, 都难以解决人群分层及多重比较导致的假阳性或假阴性问题。
GWAS不能仅凭 P 值判断某个 SNP是否与疾病真正关联, 多种族、多群体、大样本的重复验证研究(replication)才是提高检验效能、确保发现真正疾病关联 SNP的关键。
【例】全基因组关联分析在乳腺癌易感位点筛选的应用2007 年 6 月,乳腺癌关联协作组 ( Breast Cancer Association Consortium,BCAC) 首先报告了乳腺癌 GWAS 的结果,该研究共包括三个阶段: 第一阶段: 408 例家族性乳腺癌患者和400 名对照,266 722 个 SNP;第二阶段: 3990 例乳腺癌患者和3916 名对照,12 711 个SNP;第三阶段: 22 例病例-对照研究,合计21 860 例患者和22 578 名对照,30 个 SNP。
研究结果最终发现了5 个乳腺癌的易感性位点,4 个位于已知基因: FGFR2 ( rs2981582) 、TNRC9 /LOC643714( rsl2443621 ) 、 MAP3K1( rs889312) 和 LSPl ( rs3817198) ,而 rsl3281615 位于染色体8q24。
虽然 GWAS结果在很大程度上增加了对复杂性状分子遗传机制的理解,但也显现出很大的局限性。
首先,通过统计分析遗传因素和复杂性状的关系,确定与特定复杂性状关联的功能性位点存在一定难度。
通过GWAS发现的许多SNP位点并不影响蛋白质中的氨基酸,甚至许多SNP位点不在蛋白编码开放阅读框(open reading frame ,ORF)内,这为解释 SNP位点与复杂性状之间的关系造成了困难。
而且,就目前来说 GWAS难以检测的部分可能主要集中在最小等位基因频(minor allele frequency ,MAF)介于 0 . 5 % ~ 5 %之间的少见变异, 或者MAF< 0 . 5 %的罕见变异,现有的基因分型芯片较难有效地发现这些遗传变异但是,由于复杂性状很大程度上是由数量性状的微效多基因决定的,SNP位点可能通过影响基因表达量对这些数量性状产生轻微的作用,它们在RNA的转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调节基因的转录表达或影响其RNA剪接方式。
因此,在找寻相关变异时应同时注意到编码区和调控区位点变异的重要性。
其次,等位基因结构 (数量、类型、作用大小和易感性变异频率)在不同性状中可能具有不同的特征。
在GWAS研究后要确定一个基因型-表型因果关系还有许多困难,由于连锁不平衡的原因,相邻的SNP之间会有连锁现象发生。
同样,在测序时同样存在连锁不平衡现象,而且即使测序的费用降到非常低的水平,要想如GWAS研究一般地获得大量样本的基因组数据还是非常困难的。
*llumina宣布HiSeq X Ten测序系统将会于1月份重磅回归,该技术的早期运用还需要等待一段时间,然而GEN预测了Illumina X Ten在2015年可能会实现的6大应用。
Illumina X Ten的测序功能非常强大,一台机器一年能完成18000个人类基因组测序,尽管大规模基因组测序还会面临一系列挑战,但是现在可以将这些顾虑暂时搁置,思考一下科学家们可以利用该技术完成哪些有趣的工作呢?下面就是GEN预测的6大应用。
1 新生儿与儿科疾病预测新生儿重症监护病房和儿童医院每年都会收治大量患有严重疾病的患儿,而其中很多致命的疾病都存在其遗传基础。