gwas 综述

合集下载

GWAS全基因组关联分析summarystatistic概括统计meta-analysis综合分析

GWAS全基因组关联分析summarystatistic概括统计meta-analysis综合分析有很多概念需要明确区分：⼈有23对染⾊体，其中22对常染⾊体autosome，另外⼀对为性染⾊体sex chromosome，XX为⼥，XY为男。

染⾊体区带命名：在标⽰⼀特定的带时需要包括4项：①染⾊体号；②臂的符号；③区号；④在该区内的带号。

1p22表⽰为1号染⾊体短臂2区2带。

等位基因其实是⼀个集合，在同⼀个locus出现得基因型互为等位基因。

Aa不能叫等位基因，正确的逻辑是：A和a是⼀组等位基因。

由等位基因可以定义纯合和杂合。

⼆倍体与多倍体细胞的某些染⾊体上，在同⼀基因座上有相同的等位基因，这类细胞称为纯合⼦/同型合⼦（homozygous）。

若是相同基因座上含有不同的等位基因，则称作杂合⼦/异型合⼦（heterozygous）。

summary statistic顾名思义，就和R⾥⾯的summary函数⼀样，是对GWAS数据的⼀个概括总结，包含了结果中最核⼼的信息。

GWAS的基本原理如何跑GWAS？转到姊妹篇：PowerEffect sizeMajor allele,Minor allele,Minor allele frequency (MAF),Missingness per genotype,Missingness per individuals,metrics that we look at includelinkage disequilibrium (LD),variance inflation factor (VIF),runs of homozygosity (ROH),These provide a broad 'summary' of the data and allow us to appropriately set thresholds for quality control. It would be wrong, for example, to run a statistical test on a genotype with high missingness because the resulting P value would be misleading and could lead to erroneous conclusions from the data.PLINK is usually the 'go to' program for analysing GWAS data, but there are other alternatives. It is also possible to read PLINK data into R and do your own analyses, but for now there are not many programs to do that.A tutorial on conducting genome‐wide association studies: Quality control and statistical analysisClumping: This is a procedure in which only the most significant SNP (i.e., lowest p value) in each LD block is identified and selected forfurther analyses. This reduces the correlation between the remaining SNPs, while retaining SNPs with the strongest statistical evidence. Co‐heritability: This is a measure of the genetic relationship between disorders. The SNP‐based co‐heritability is the proportion of covariance between disorder pairs (e.g., schizophrenia and bipolar disorder) that is explained by SNPs.Gene: This is a sequence of nucleotides in the DNA that codes for a molecule (e.g., a protein)Heterozygosity: This is the carrying of two different alleles of a specific SNP. The heterozygosity rate of an individual is the proportion of heterozygous genotypes. High levels of heterozygosity within an individual might be an indication of low sample quality whereas low levels of heterozygosity may be due to inbreeding.Individual‐level missingness: This is the number of SNPs that is missing for a specific individual. High levels of missingness can be an indication of poor DNA quality or technical problems.Linkage disequilibrium (LD): This is a measure of non‐random association between alleles at different loci at the same chromosome in a given population. SNPs are in LD when the frequency of association of their alleles is higher than expected under random assortment. LD concerns patterns of correlations between SNPs.Minor allele frequency (MAF): This is the frequency of the least often occurring allele at a specific location. Most studies are underpowered to detect associations with SNPs with a low MAF and therefore exclude these SNPs.Population stratification: This is the presence of multiple subpopulations (e.g., individuals with different ethnic background) in a study. Because allele frequencies can differ between subpopulations, population stratification can lead to false positive associations and/or mask true associations. An excellent example of this is the chopstick gene, where a SNP, due to population stratification, accounted for nearly half of the variance in the capacity to eat with chopsticks (Hamer & Sirota, 2000).Pruning: This is a method to select a subset of markers that are in approximate linkage equilibrium. In PLINK, this method uses the strength of LD between SNPs within a specific window (region) of the chromosome and selects only SNPs that are approximately uncorrelated, based on a user‐specified threshold of LD. In contrast to clumping, pruning does not take the p value of a SNP into account. Relatedness: This indicates how strongly a pair of individuals is genetically related. A conventional GWAS assumes that all subjects are unrelated (i.e., no pair of individuals is more closely related than second‐degree relatives). Without appropriate correction, the inclusion of relatives could lead to biased estimations of standard errors of SNP effect sizes. Note that specific tools for analysing family data have been developed.Sex discrepancy: This is the difference between the assigned sex and the sex determined based on the genotype. A discrepancy likely points to sample mix‐ups in the lab. Note, this test can only be conducted when SNPs on the sex chromosomes (X and Y) have been assessed.Single nucleotide polymorphism (SNP): This is a variation in a single nucleotide (i.e., A, C, G, or T) that occurs at a specific position in the genome. A SNP usually exists as two different forms (e.g., A vs. T). These different forms are called alleles. A SNP with two alleles has three different genotypes (e.g., AA, AT, and TT).SNP‐heritability: This is the fraction of phenotypic variance of a trait explained by all SNPs in the analysis.SNP‐level missingness: This is the number of individuals in the sample for whom information on a specific SNP is missing. SNPs with a high level of missingness can potentially lead to bias.Summary statistics: These are the results obtained after conducting a GWAS, including information on chromosome number, position of the SNP, SNP(rs)‐identifier, MAF, effect size (odds ratio/beta), standard error, and p value. Summary statistics of GWAS are often freely accessible or shared between researchers.The Hardy–Weinberg (dis)equilibrium (HWE) law: This concerns the relation between the allele and genotype frequencies. It assumes an indefinitely large population, with no selection, mutation, or migration. The law states that the genotype and the allele frequencies are constant over generations. Violation of the HWE law indicates that genotype frequencies are significantly different from expectations (e.g., if the frequency of allele A = 0.20 and the frequency of allele T = 0.80; the expected frequency of genotype AT is 2*0.2*0.8 = 0.32) and the observed frequency should not be significantly different. In GWAS, it is generally assumed that deviations from HWE are the result of genotyping errors. The HWE thresholds in cases are often less stringent than those in controls, as the violation of the HWE law in cases can be indicative of true genetic association with disease risk.Meta-analysisGenerally, if a sample includes multiple ethnic groups (e.g., Africans, Asians, and Europeans), it is recommended to perform tests of association in each of the ethnic groups separately and to use appropriate methods, such as meta‐analysis (Willer, Li, & Abecasis, 2010), to combine the results.。

人类基因组学的研究进展

人类基因组学的研究进展人类基因组学是揭示人类本质、探究疾病成因、研究人类进化等重要领域的基础学科之一。

近年来，随着高通量测序技术的发展和普及，人类基因组学研究进展迅速，为人类健康和生活带来了重大影响。

本文将就人类基因组学研究进展进行综述。

一、人类基因组计划人类基因组计划是人类基因组学研究的重要里程碑，1990年启动，2003年完成。

该计划最终确定了人类基因组序列，并发现了一些致病基因和调控元件。

二、GWAS与疾病基因基因组宽关联分析（GWAS）是在人类基因组计划以后被广泛应用的一种研究人类和其他生物物种基因与疾病关系的方法。

经过大规模的人群研究，GWAS已经鉴定了许多与多种疾病有关的基因、单核苷酸多态性和复杂性状。

这些发现可以促进我们深入了解疾病的遗传机制和开发相应的治疗方案。

三、CRISPR-Cas9基因编辑技术近年来，CRISPR-Cas9基因编辑技术已成为人类基因组学研究的重要工具之一。

该技术可以精准地修改基因组序列，从而探究基因的功能、研究疾病机制、开发基因治疗等。

尽管CRISPR-Cas9基因编辑技术存在一些伦理和安全问题，但其前景依然非常广阔。

四、人类进化历程人类基因组学研究也对人类的进化历程提供了一定的启示。

通过对人类和其他灵长类动物基因组的比较研究，我们可以发现一些人类进化的重要步骤和途径，例如人类大脑进化和语言能力的形成等。

五、个性化医疗人类基因组学研究的一个重要应用是个性化医疗。

通过对个体基因组的检测和分析，医生可以根据患者的基因信息制定出更精准的治疗方案。

目前，一些癌症、遗传性疾病以及心血管疾病的个性化诊治已经应用于临床实践。

六、全基因组测序在人类基因组计划之后，全基因组测序技术得到了长足发展，成为人类基因组学研究的重要手段之一。

全基因组测序可以全面、准确地识别基因组中的每个碱基，为后续的基因功能研究和个性化医疗提供了重要数据基础。

综上所述，人类基因组学的研究进展涉及基因组计划、GWAS、CRISPR-Cas9基因编辑技术、人类进化历程、个性化医疗、全基因组测序等多个方面。

gwas遗传概念

gwas遗传概念1. 概述GWAS（Genome-Wide Association Study，全基因组关联研究）是一种广泛应用于遗传学研究的方法，旨在寻找基因与特定性状或疾病之间的关联。

通过对大规模样本进行基因组广泛扫描，GWAS可以揭示遗传变异与复杂性状之间的关系。

本文将深入探讨GWAS的原理、应用和挑战。

2. GWAS原理GWAS通过对大规模样本进行基因组扫描来寻找与特定性状或疾病有关的遗传变异。

这种方法利用单核苷酸多态性（SNP）来检测个体间的遗传差异。

SNP是一种常见的遗传变异形式，其在人类基因组中广泛存在。

GWAS将SNP与个体表型数据相关联，并通过统计学方法来确定SNP与表型之间是否存在显著相关。

3. GWAS流程3.1 样本选择：GWAS需要大规模样本数据以获得足够统计功效。

样本选择要尽可能代表目标人群，并且要考虑到可能存在的人群结构和亲缘关系。

3.2 基因组扫描：利用高通量测序技术，对样本进行基因组广泛扫描，检测SNP的存在和分布。

通常采用芯片或测序技术进行SNP分型。

3.3 关联分析：将样本的基因型数据与表型数据进行关联分析，以确定SNP与表型之间的关联。

常用的统计方法包括卡方检验、线性回归和逻辑回归等。

3.4 多个测试校正：由于GWAS涉及大量的统计检验，需要对多个测试进行校正以控制假阳性率。

常用的校正方法包括Bonferroni校正、FDR（False Discovery Rate）等。

4. GWAS应用4.1 复杂性疾病研究：GWAS广泛应用于复杂性疾病的遗传研究，如心血管疾病、精神障碍和肿瘤等。

通过GWAS可以发现与这些复杂性疾病相关的遗传变异，并揭示其潜在机制。

4.2 药物反应个体差异：GWAS可以帮助解释药物反应个体差异。

通过将药物反应表型与基因组数据相关联，可以发现影响药物代谢、药物靶点和药物作用途径的遗传变异。

4.3 人种和种群遗传学研究：GWAS还被用于研究人种和种群之间的遗传差异。

GWAS

GWAS全基因组关联研究（Genome Wide Association Studies,GWAS）是一种检测特定物种中不同个体间的全部或大部分基因，从而了解不同个体间的基因变化有多大的一种方法。

不同的变化带来不同的性状，如各种疾病的不同。

在人类中，这种技术发现了特定基因与疾病的关联，如被称为年龄相关性黄斑变性的眼部疾病和糖尿病。

在人类中，数百或数千人通常用于单个DNA突变（单核苷酸多态性或SNPs）进行测试，约600人通过GWAS 来检查150 疾病和相关性状，发现800个SNP具有关联性。

他们在发现疾病的分子途径时非常有用，但是通常在发现预测疾病风险的基因是却不是很有用。

[1]这些研究通常比较两组参与者的DNA：有疾病的人（病例）和相同条件的无该疾病的人（对照）。

每个人都提供些作为样本的细胞，如从口腔内侧擦下了的表皮细胞。

DNA可以从这些细胞中提取，并涂布在基因芯片上，该芯片上可以读取上百万个DNA序列。

这些芯片被读入计算机，在那里通过生物信息学技术对其进行分析，而不是阅读的全部DNA序列，这些系统通常读的是各个SNP，这些SNP被是成组的DNA变异（单倍型）的标记。

如果在患者中某基因型的变异很频繁，那么就说该变异与该疾病“相关”。

相关的遗传变异所在的人类基因组区域被视为标示点，基因组的该区域可能是致病原因的所在。

有两种方法用来寻找疾病相关的突变：假说驱动和非假设驱动的方法。

假设驱动的方法为一开始假设一个特殊的基因可能与某种疾病，并试图找出关联。

非假设驱动的研究用蛮力的方法来扫描整个基因组，看那些基因与该病有关联。

GWAS一般采用非假说驱动。

令人惊讶的是，与疾病相关的SNP变异大多不是在编码蛋白质的DNA 区域。

相反，他们通常位于染色体上编码基因间的大型非编码区域上，或者位于编码基因的内含子上，该内含子通常在蛋白质的表达过程中被剪切掉。

这些是有控制其他基因能力的可能的DNA序列。

但通常，他们的蛋白质功能是不知道的。

全基因组关联分析的研究及其趋势

全基因组关联分析的研究及其趋势全基因组关联分析（GWAS）是一种通过比较遗传变异和特定表现型之间的关联来识别常见病遗传因素的方法。

GWAS在过去的几年中得到了广泛的应用，帮助人们对许多疾病的发病机制有了更深入的认识。

本文将介绍GWAS的基本原理、发展历程以及未来的发展趋势。

一、GWAS的基本原理GWAS基于基因多态性的假设，即常见疾病的发生可能与多个基因之间的遗传变异有关。

GWAS研究会对数千名个体进行基因型分析，以寻找与特定表现型（如疾病）相关的指定单核苷酸多态性（SNP）。

统计分析用于确定这些SNP是否与表现型的变异有关。

GWAS是一种有潜力的方法，可以为疾病的发病机制提供补充信息。

它可以提高对疾病基因型的理解，通过发现几个共同遗传因素，可以为更个性化的临床治疗方案提供基础。

二、GWAS的发展历程第一项GWAS研究是2005年发表的关于亚洲人口的基因变异和糖尿病的关联研究。

在那以后不久，GWAS就成为了一种热门的研究方法。

随着技术和生物信息学方法的发展，越来越多的基因变异可以被检测，并将被纳入GWAS的分析中。

在许多大规模的GWAS研究中，指向数千个潜在基因影响多个疾病和特征的基因变异已被发现。

这些研究为许多疾病的研究和治疗提供了深入的洞察力，包括骨质疏松症，心血管疾病，痴呆症，心理疾病以及各种癌症。

三、GWAS的未来趋势在未来几年，GWAS将继续成为基因相关研究中的主要方法。

越来越多的疾病现在可以使用GWAS来探索其潜在的基因贡献。

在长时间的GWAS研究中，我们可以看到关于疾病病因的更多信息的出现，甚至在没有疾病症状的人身上也可以看到这种基因负载。

这将使我们更具有针对性地开发个性化的治疗方法，同时在疾病预防方面也具有更积极的作用。

GWAS的未来趋势还包括创新的技术和更加灵活的研究设计。

通过在抗击传染病和新兴病原体方面的应用，GWAS正在以更广泛的方式帮助生物医学界。

总的来说，GWAS是一种非常有前途的研究方法，其对于识别与疾病相关的基因位点具有巨大的潜力。

GWAS分析详解

GWAS分析详解GWAS（基因组关联分析）是一种用于研究基因与表型（如疾病或其他复杂性特征）之间的关联的方法。

在过去的几十年里，GWAS已经成为揭示遗传基础和疾病环境互作的重要工具。

在GWAS分析中，研究人员会对大规模的样本进行基因组数据和表型数据的收集和分析，以鉴定与表型相关的基因变异。

GWAS的基本流程包括样本选择、基因型测定、质控过滤、关联分析和结果解释。

首先，研究人员需要选择一组合适的样本进行GWAS分析。

通常需要收集大量的样本，以确保具有足够的统计功效来发现与表型相关的基因变异。

样本选择时要考虑清楚研究对象的表型特征、基因型频率和族群结构等因素。

然后，进行基因型测定。

目前常用的测定方法是基于单核苷酸多态性（SNP）的芯片或基因组测序技术。

测定结果会生成一个巨大的基因型数据集，包含了每个样本的数百万个SNP的基因型信息。

接下来，需要进行质控过滤来排除低质量的样本和SNP。

这些质量控制筛选步骤包括基于基因型质量、样本质量和连锁不平衡等因素的过滤。

只有通过质控筛选的高质量样本和SNP才能进入下一步的关联分析。

关联分析是GWAS的核心步骤。

关联分析的目标是发现是否存在一些SNP与表型之间的显著关联。

最常用的方法是对每个SNP进行单点关联分析，统计每个SNP的变异与表型之间的相关性。

常用的统计学方法包括卡方检验、Fisher精确检验和线性回归分析等。

这些方法可以根据研究对象的特点和分析的目的进行选择。

在关联分析过程中，还需要考虑到多重比较的问题。

由于GWAS涉及到数百万个SNP的分析，因此需要进行多重比较校正来控制误报率。

常用的校正方法包括波恩弗罗尼校正、FDR（False Discovery Rate）校正和Permutation等。

最后，需要对关联结果进行解释和验证。

获得的关联结果往往是大量的SNP和基因，需要进行生物信息学和功能注释的分析来理解这些获得的关联。

此外，还需要在独立的样本集中进行验证，以确保所发现的关联结果的可靠性。

全基因组关联分析（GWAS）解决方案

全基因组关联分析（GWAS）解决⽅案全基因组关联分析(GWAS)解决⽅案※概述全基因组关联研究（Genome-wide association study，GWAS）是⽤来检测全基因组范围的遗传变异与可观测的性状之间的遗传关联的⼀种策略。

2005年，Science杂志报道了第⼀篇GWAS研究——年龄相关性黄斑变性，之后陆续出现了有关冠⼼病、肥胖、2型糖尿病、⽢油三酯、精神分裂症等的研究报道。

截⾄2010年底，单是在⼈类上就有1212篇GWAS⽂章被发表，涉及210个性状。

GWAS主要基于共变法的思想，该⽅法是⼈类进⾏科学思维和实践的最重要⼯具之⼀；统计学研究也表明，GWAS很长时期内都将处于蓬勃发展期（如下图所⽰）。

基因型数据和表型数据的获得，随着诸多新技术的发展变得⽇益海量、廉价、快捷、准确和全⾯：如Affymetrix和Illumina公司的SNP基因分型芯⽚已经可以达到2M的标记密度；便携式电⼦器械将产⽣海量的表型数据；新⼀代测序技术的迅猛发展，将催⽣更⾼通量、更多类别的基因型，以及不同类别的⾼通量表型。

基于此，我们推出GWAS的完整解决⽅案，协助您⼀起探索⽣物奥秘。

※实验技术流程※基于芯⽚的GWASAffymetrix公司针对⼈类全基因组SNP检测推出多个版本检测芯⽚，2007年5⽉份，Affymetrix公司发布了⼈全基因组SNP 6.0芯⽚，包含90多万个⽤于单核苷酸多态性（SNP）检测探针和更多数量的⽤于拷贝数变化（CNV）检测的⾮多态性探针。

因此这种芯⽚可检测超过180万个位点基因组序列变异，即可⽤于全基因组SNP分析，⼜可⽤于CNV分析，真正实现了⼀种芯⽚两种⽤途，⽅便研究者挖掘基因组序列变异信息。

Illumina激光共聚焦微珠芯⽚平台为全世界的科研⽤户提供了最为先进的SNP（单核苷酸多态性）研究平台。

Illumina的SNP芯⽚有两类，⼀类是基于infinium技术的全基因组SNP检测芯⽚（Infinium? Whole Genome Genotyping），适⽤于全基因组SNP分型研究及基因拷贝数变化研究，⼀张芯⽚检测⼏⼗万标签SNP位点，提供⼤规模疾病基因扫描(Hap660,1M)。

简述GWAS的原理与应用

简述GWAS的原理与应用1. 什么是GWAS?GWAS（Genome-wide association study），全基因组关联研究，是一种用于探索基因与复杂疾病关联性的方法。

通过对大规模人群的基因型数据和表型数据进行分析，寻找与特定疾病或性状相关的位点和基因。

2. GWAS的原理在进行GWAS研究时，首先需要收集大规模人群的基因型和表型信息。

基因型信息可以通过基因芯片、测序等技术获得，而表型信息则包括对疾病发病率、生理参数等的测量。

接下来，对基因型数据进行质控和分析。

常见的质控步骤包括对单个位点和被测个体的质量进行评估和过滤，以确保数据的准确性和可靠性。

随后，使用适当的统计方法，比较基因型和表型数据，寻找与目标性状或疾病相关的基因。

GWAS的关键在于关联分析。

基于某个位点的基因型和表型数据之间的关系，可以使用不同的统计方法来计算其关联强度和显著性。

常用的关联分析方法包括卡方检验、线性回归等。

通过对整个基因组进行关联分析，可以得到与疾病或性状相关的数千个位点，形成一个关联图谱。

3. GWAS的应用GWAS作为一种高效的基因关联研究方法，在科研和临床中具有重要的应用价值。

3.1 揭示疾病的遗传基础GWAS通过大规模人群的基因型和表型数据分析，能够发现和疾病或性状有关的基因和位点。

通过对这些位点的进一步研究，可以揭示疾病的遗传基础，为疾病的预防、诊断和治疗提供理论依据。

3.2 解析疾病发病机制通过GWAS分析得到的关联位点和基因，可以为疾病发病机制的探索提供线索。

进一步的功能研究和生物信息学分析可以帮助揭示疾病发病的分子机制。

3.3 个体化医学和药物定制GWAS可以为个体化医学和药物定制提供支持。

通过研究不同基因型与药物疗效之间的关联，可以预测患者对特定药物的反应和副作用，从而指导个体化的治疗和用药方案。

3.4 农业育种和种子改良GWAS不仅适用于人类研究，还可以用于农业育种和种子改良。

通过对植物或动物基因型和表型数据的分析，可以发现与农作物产量、品质等性状相关的基因和位点，为农业育种提供科学依据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅谈全基因组关联分析周小青（湖南师范大学生命科学学院410081）摘要全基因组关联分析（Genome-wide association study,GWAS）是应用人类基因组中数以百万计的单核苷酸多态性（single nucleotide ploymorphism,SNP）为标记进行病例对照分析，以期发现影响复杂性疾病发生的遗传特征的一种新策略。

近年来，随着人类基因组计划的实施以及基因芯片技术的发展，人们已通过GWAS方法发现并鉴定了大量与人类复杂性疾病关联的遗传变异，为进一步了解控制人类复杂性疾病的遗传特征提供了重要的线索。

本文介绍了近几年年来全基因组关联研究在复杂疾病研究领域内的主要发现、全基因组关联研究设计原理，总结了人类全基因组关联研究所取得成就和存在的问题,并对全基因组关联研究未来的研究重点和要解决的问题进行了展望。

关键词全基因组关联分析单核苷酸多态性复杂疾病Abstract Genomewide association study (GW AS) is a novel strategy for discovering genetic basis of human complex diseases , through using millions of single nucleotide polymorphism(SNPs) as marks to conduct case-control association studies. In recent years ,following the implementation of Human Genome Project and development of Genome Chips, large number of human complex diseases associated genetic variants has been identified through GWAS method,which provides important cluesfor understanding the mechanisms of related diseases. The present paper reviewed some common comments in whole genome association study on complex diseases, including achievements of genome-wide asso-ciation studies on complex traits or diseases, the method of GW AS，and the achievements of GW AS study.Key words Genome-wide association study（GW AS）single nucleotide polymorphism(SNPs) complex diseases人类基因组精细图的公布，标志着现代医学的发展已逐步进入基因组医学时代。

人类功能基因组学研究就是以全基因组为背景，开展人类基因及其编码蛋白的功能研究，从而尽可能全面地揭示生命的奥秘。

目前，基因组医学对疾病诊断、恶性肿瘤、器官移植、精神疾病、心血管疾病、制药、医学伦理以及基因治疗等方面的重要影响已初见端倪，人类基因组为药物开发提供了新源泉。

遗传因素, 或其与环境因素之间的相互作用参与了几乎所有的人类疾病的发生过程。

根据导致疾病的基因数量,传统上将有遗传因素参与的疾病分为单基因疾病和复杂性疾病。

单基因疾病是指由于单个基因的突变导致的疾病。

近20年来,通过家系连锁分析的定位克隆方法,研究者已发现了大量如囊性纤维化、亨廷顿病等单基因疾病的致病基因,这些基因的突变多改变了相应的编码蛋白氨基酸序列或者产量,从而产生符合孟德尔遗传方式的疾病表型[1] 。

但对于复杂性疾病,连锁分析的作用非常有限。

复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。

很久以来,人们已认识到大部分人类性状和复杂性疾病的产生受到多个基因和环境因素的影响,但是发现并鉴定这些影响“复杂性疾病”的遗传变异却困难重重。

近年,随着人类基因组计划和基因组单倍体图谱计划的实施,研究者开始对影响人类性状形成和复杂性疾病产生的遗传特征进行了探索。

短短几年内,已经发现并鉴定了大量与人类性状或复杂性疾病关联的遗传变异(下图) ,为进一步了解控制人类复杂性疾病发生的遗传特征提供了重要线索[2] 。

截至2009年6月, 439项G W AS发现的与人类性状或复杂性疾病关联SNP 位点,不同灰度圆点代表不同性状或疾病人类基因组计划完成后，国际上人类基因组的研究已经进入新阶段，一种新型技术——全基因组关联分析技术的重大革新及其推广应用，极大地推动了基因组医学的发展。

全基因组关联分析（Genome-wide association study,GW AS)是一种对全基因组范围内的常见遗传变异: 单核苷酸多态性(Singlenuc leotide polymorphism , SNP) 进行总体关联分析的方法,即在全基因组范围内选择遗传变异进行基因分型, 比较病例和对照间每个变异频率的异差, 计算变异与疾病的关联强度, 选出最相关的变异进行验证并最终确认与疾病相关[3] 。

2005年Science杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果，引起医学界和遗传界极大地轰动，此后一系列GWA S研究陆续展开[8] 。

2006年，波士顿大学医学院联合哈佛大学等多个研究单位报道了关于肥胖的GWAS研究结果[13] ；2007年，Sa xena等多个研究机构联合报道了Ⅱ型糖尿病关联的多个位点，Sa mani等则发表了冠心病关联基因[5] ；2008年，Barrett等通过G WAS发现了30多个与克罗恩病相关的易感基因位点，；2009年，W eiss等运用GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。

我国学者则通过对12000多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5个红斑狼疮易感基因，并确定了4个新的易感位点。

截至2010年4月，已陆续报道了关于人类身高、体重、血压等主要性状，以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS 结果，累计发表了近万篇论文，确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异[19] 。

GWAS采用的研究方式与传统的候选基因病例对照关联分析一致，即如果人群基因组中一些SNP与某种疾病相关联，理论上这些疾病相关SNP等位基因频率在某种疾病患者中应该高于未患病对照人群[6] 。

目前GWAS分为单阶段和两阶段或多阶段设计。

单基因阶段是选择足够的病例和对照样本，一次性在所有研究对象中对选中的SNP进行基因分型，然后分析每个SNP与疾病的关联，分别计算关联强度,在早期GWAS主要采取此类方法。

目前GW AS研究主要采用两阶段或多阶段研究：在第一阶段用覆盖全基因组范围的SNP进行病例对照分析，统计分析后筛选出较少数量的阳性SNP进行第二阶段或随后的多阶段中采用更大样本的病例对照样本群进行基因分型，然后结合两阶段或多阶段的结果进行分析。

这种设计需要保证第一阶段筛选与疾病相关的SNP的敏感性和特异性，尽量减少分析的假阳性与假阴性的发生，并在第二阶段应用大量样本人群，甚至在多种人群中进行基因分型验证。

如下图;GWAS流程示意图虽然 GWAS结果在很大程度上增加了人们对人类疾病分子遗传机制的理解 ,但也显现出很大的局限性。

首先 ,通过统计分析遗传因素和性状 /复杂性疾病的关系 ,确定与特定性状 /复杂性疾病关联的功能性位点存在一定难度。

通过 GWAS发现的许多 SNP位点并不影响蛋白质中氨基酸 ,甚至许多SNP位点不在蛋白编码开放阅读框( open reading frame,ORF)内,这为解释 SNP位点与性状 /复杂性疾病产生之间的关系造成了一定的困难。

但是 ,由于性状 /复杂性疾病很大程度上是由数量性状决定 ,SNP位点可能通过影响基因表达量对这些数量性状产生轻微的作用 (如胰岛素基因启动子中的遗传变异增加 1型糖尿病风险 ),它们在 RNA的转录或翻译效率上发挥作用 ,可能在基因表达上产生短暂的或依赖时空的多种影响 ,刺激调节基因的转录表达或影响其 RNA剪接方式[10] 。

因此 ,研究者在找寻疾病相关变异时 ,应同时注意到编码区和调控区位点变异的重要性。

其次 ,等位基因结构 (数量、类型、作用大小和易感性变异频率 )在不同性状 /疾病中可能具有不同特征。

例如年龄依赖性黄斑变性 ,大部分这种常见疾病即由少数几个具有较大效应 (的常见遗传变异所致 ,而其它许多疾病如克罗恩病 ,虽然已发现多个遗传变异与该病相关 ,但是只有部分该病病例可用这些遗传变异进行解释(下图);又如 ,目前通过纳入上万人的 G WAS已发现至少有 40个 SNP位点与人类身高 (遗传度约为 80% )关联 ,但这些 SNP位点仅解释了约5%的身高表型变异[17] 。

因此 ,大部分常见遗传变异可能通过单独或联合作用轻度增加疾病发生风险,而这些变异仅可解释部分人群中因遗传引起的表型变异。

随着现代遗传学、基因组学和医学研究的不断深入 ,我们对基因的认识也日趋深化。

人类基因组计划初步完成后 , GWAS为研究人类性状 /复杂性疾病揭开了新的序幕。

短短数年 ,通过 GWAS已经发现许多以前未知的与性状或疾病相关的位点和染色体区域 ,为了解人类复杂性疾病的分子发病机制提供了更多的线索。

然而与最初的期望差距甚远的是 ,目前的 GWAS结果显得庞杂无序:一些 SNP仅与疾病危险因子或诱发因子有关而非直接与疾病关联;很多常见 SNP对阐明大多数性状或疾病遗传特征的作用似乎微乎其微;几乎所有已发现的 SNP仅轻度增加疾病风险 ,大多数疾病的遗传关联仍然难以解释;而应用 GWAS结果进行疾病的早期预测和个体化的治疗更非想象的那样简单[13] 。

但是,事物发展总是前进性和曲折性的统一 ,虽然目前GWAS结果的临床意义很有限 ,但是这些研究仍然应该继续进行 ,而且应该避免急功近利 ,回归理性、实事求是地进行更长远的科学分析和研究。

尽管研究人员已经揭开了人类基因组中的部分秘密，但还有很多问题等着他们去研究。

在发现与疾病相关的遗传变异方面，GWAS取得了不错的成绩，不过今后的研究历程会更加艰难。

研究人员使用GWA获得了一些成果，同时也对GWA有了更深入的认识。