全基因组关联分析

合集下载

GWAS全基因组关联分析summarystatistic概括统计meta-analysis综合分析

GWAS全基因组关联分析summarystatistic概括统计meta-analysis综合分析有很多概念需要明确区分：⼈有23对染⾊体，其中22对常染⾊体autosome，另外⼀对为性染⾊体sex chromosome，XX为⼥，XY为男。

染⾊体区带命名：在标⽰⼀特定的带时需要包括4项：①染⾊体号；②臂的符号；③区号；④在该区内的带号。

1p22表⽰为1号染⾊体短臂2区2带。

等位基因其实是⼀个集合，在同⼀个locus出现得基因型互为等位基因。

Aa不能叫等位基因，正确的逻辑是：A和a是⼀组等位基因。

由等位基因可以定义纯合和杂合。

⼆倍体与多倍体细胞的某些染⾊体上，在同⼀基因座上有相同的等位基因，这类细胞称为纯合⼦/同型合⼦（homozygous）。

若是相同基因座上含有不同的等位基因，则称作杂合⼦/异型合⼦（heterozygous）。

summary statistic顾名思义，就和R⾥⾯的summary函数⼀样，是对GWAS数据的⼀个概括总结，包含了结果中最核⼼的信息。

GWAS的基本原理如何跑GWAS？转到姊妹篇：PowerEffect sizeMajor allele,Minor allele,Minor allele frequency (MAF),Missingness per genotype,Missingness per individuals,metrics that we look at includelinkage disequilibrium (LD),variance inflation factor (VIF),runs of homozygosity (ROH),These provide a broad 'summary' of the data and allow us to appropriately set thresholds for quality control. It would be wrong, for example, to run a statistical test on a genotype with high missingness because the resulting P value would be misleading and could lead to erroneous conclusions from the data.PLINK is usually the 'go to' program for analysing GWAS data, but there are other alternatives. It is also possible to read PLINK data into R and do your own analyses, but for now there are not many programs to do that.A tutorial on conducting genome‐wide association studies: Quality control and statistical analysisClumping: This is a procedure in which only the most significant SNP (i.e., lowest p value) in each LD block is identified and selected forfurther analyses. This reduces the correlation between the remaining SNPs, while retaining SNPs with the strongest statistical evidence. Co‐heritability: This is a measure of the genetic relationship between disorders. The SNP‐based co‐heritability is the proportion of covariance between disorder pairs (e.g., schizophrenia and bipolar disorder) that is explained by SNPs.Gene: This is a sequence of nucleotides in the DNA that codes for a molecule (e.g., a protein)Heterozygosity: This is the carrying of two different alleles of a specific SNP. The heterozygosity rate of an individual is the proportion of heterozygous genotypes. High levels of heterozygosity within an individual might be an indication of low sample quality whereas low levels of heterozygosity may be due to inbreeding.Individual‐level missingness: This is the number of SNPs that is missing for a specific individual. High levels of missingness can be an indication of poor DNA quality or technical problems.Linkage disequilibrium (LD): This is a measure of non‐random association between alleles at different loci at the same chromosome in a given population. SNPs are in LD when the frequency of association of their alleles is higher than expected under random assortment. LD concerns patterns of correlations between SNPs.Minor allele frequency (MAF): This is the frequency of the least often occurring allele at a specific location. Most studies are underpowered to detect associations with SNPs with a low MAF and therefore exclude these SNPs.Population stratification: This is the presence of multiple subpopulations (e.g., individuals with different ethnic background) in a study. Because allele frequencies can differ between subpopulations, population stratification can lead to false positive associations and/or mask true associations. An excellent example of this is the chopstick gene, where a SNP, due to population stratification, accounted for nearly half of the variance in the capacity to eat with chopsticks (Hamer & Sirota, 2000).Pruning: This is a method to select a subset of markers that are in approximate linkage equilibrium. In PLINK, this method uses the strength of LD between SNPs within a specific window (region) of the chromosome and selects only SNPs that are approximately uncorrelated, based on a user‐specified threshold of LD. In contrast to clumping, pruning does not take the p value of a SNP into account. Relatedness: This indicates how strongly a pair of individuals is genetically related. A conventional GWAS assumes that all subjects are unrelated (i.e., no pair of individuals is more closely related than second‐degree relatives). Without appropriate correction, the inclusion of relatives could lead to biased estimations of standard errors of SNP effect sizes. Note that specific tools for analysing family data have been developed.Sex discrepancy: This is the difference between the assigned sex and the sex determined based on the genotype. A discrepancy likely points to sample mix‐ups in the lab. Note, this test can only be conducted when SNPs on the sex chromosomes (X and Y) have been assessed.Single nucleotide polymorphism (SNP): This is a variation in a single nucleotide (i.e., A, C, G, or T) that occurs at a specific position in the genome. A SNP usually exists as two different forms (e.g., A vs. T). These different forms are called alleles. A SNP with two alleles has three different genotypes (e.g., AA, AT, and TT).SNP‐heritability: This is the fraction of phenotypic variance of a trait explained by all SNPs in the analysis.SNP‐level missingness: This is the number of individuals in the sample for whom information on a specific SNP is missing. SNPs with a high level of missingness can potentially lead to bias.Summary statistics: These are the results obtained after conducting a GWAS, including information on chromosome number, position of the SNP, SNP(rs)‐identifier, MAF, effect size (odds ratio/beta), standard error, and p value. Summary statistics of GWAS are often freely accessible or shared between researchers.The Hardy–Weinberg (dis)equilibrium (HWE) law: This concerns the relation between the allele and genotype frequencies. It assumes an indefinitely large population, with no selection, mutation, or migration. The law states that the genotype and the allele frequencies are constant over generations. Violation of the HWE law indicates that genotype frequencies are significantly different from expectations (e.g., if the frequency of allele A = 0.20 and the frequency of allele T = 0.80; the expected frequency of genotype AT is 2*0.2*0.8 = 0.32) and the observed frequency should not be significantly different. In GWAS, it is generally assumed that deviations from HWE are the result of genotyping errors. The HWE thresholds in cases are often less stringent than those in controls, as the violation of the HWE law in cases can be indicative of true genetic association with disease risk.Meta-analysisGenerally, if a sample includes multiple ethnic groups (e.g., Africans, Asians, and Europeans), it is recommended to perform tests of association in each of the ethnic groups separately and to use appropriate methods, such as meta‐analysis (Willer, Li, & Abecasis, 2010), to combine the results.。

全基因组关联分析

单倍体型分析
LCYE associations across seasons
Mixed Model Environment Avg, Observation No. 157 2003 154 Ratio Across Environments** 2002 44 2003 156 2004 154 2005 156 2003
0.5
Ear diameter (Low population structure)
a.
0.4 Simple Q 0.3 K Q+K 0.3
b.
0.4
Simple Q 0.4
c.
Q GC Q+K 0.3 Simple
Cumulative P
K
0.2 0.2 GC 0.1 GC 0.1 0.1 0.2 Q+K
6.02
HYD1 HYD2 IspFg ZDS
7.02
8.02
9.02
DXSe
10.02
6.03 IPP1 IPP2 6.04
7.03
8.03
9.03
10.03
7.04
8.04
பைடு நூலகம்9.04
10.04
DXSc 6.05
7.05
LYCe 8.05
9.05
10.05
δ- Carotene LCY-b α- Carotene HYD-e Lutein
0 0 (0) 0.2 (0.8) 0.4 (3.3) 0.6 (7.1) 0.8 (11.9) 1 (17.4)
0
Genetic effect (Phenotypic variation explained in %)

全基因组关联分析的原理和方法

全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism ，SNP)为分子遗传标记，进行全基因组水平上的对照分析或相关性分析，通过比较发现影响复杂性状的基因变异的一种新策略。

随着基因组学研究以及基因芯片技术的发展，人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。

近年来，这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。

全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用，尤其是其在复杂疾病研究领域中的应用，使许多重要的复杂疾病的研究取得了突破性进展，因而，全基因组关联分析研究方法的设计原理得到重视。

人类的疾病分为单基因疾病和复杂性疾病。

单基因疾病是指由于单个基因的突变导致的疾病，通过家系连锁分析的定位克隆方法，人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因，这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量，从而产生了符合孟德尔遗传方式的疾病表型。

复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。

目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。

全基因组关联分析技术的重大革新及其应用，极大地推动了基因组医学的发展。

(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。

2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。

癌症遗传学研究中的全基因组关联分析技术应用

癌症遗传学研究中的全基因组关联分析技术应用癌症是一种由多种因素导致的复杂疾病，包括基因突变、环境因素和生活方式等。

近年来，随着研究技术的发展，全基因组关联分析技术在癌症遗传学研究中扮演着重要的角色。

本文将介绍全基因组关联分析技术在癌症遗传学研究中的应用。

一、全基因组关联分析技术的原理全基因组关联分析技术是一种用于检测基因与疾病之间关系的方法。

其基本原理是通过对大量个体的基因数据进行比较，找出与疾病相关的基因或基因组变异。

全基因组关联分析技术可以检测单核苷酸多态性（SNP）和结构变异（SV）等多种表型相关的遗传变异。

二、全基因组关联分析技术在癌症遗传学研究中的应用1. 病因研究全基因组关联分析技术可以帮助研究人员确定与癌症发生相关的遗传变异。

通过对大样本群体的基因数据进行分析，可以确定与特定癌症类型相关的多个位点。

这些位点可能存在于基因组的各个区域，包括非编码区域和编码区域。

全基因组关联分析技术的应用可以帮助揭示癌症的病因机制，为早期诊断和治疗提供依据。

2. 癌症风险评估基于全基因组关联分析技术的研究成果，科学家们可以建立预测模型，评估个体患癌症的风险。

通过对基因数据进行分析，可以计算个体在患癌症方面的遗传风险得分。

这对于早期筛查和个体化防治非常重要。

通过这种方式，可以更准确地对癌症高风险个体进行干预和管理，减少癌症的发生和死亡率。

3. 药物研发全基因组关联分析技术还可以用于药物研发。

通过对药物治疗效果和基因变异进行关联分析，可以确定哪些基因变异可能会影响特定药物的疗效。

这有助于发现新的治疗靶标和个体化治疗策略。

全基因组关联分析技术在药物研发方面的应用可以加速新药的开发过程，并提高疗效。

4. 疾病预后评估在癌症遗传学研究中，全基因组关联分析技术还可以用于预后评估。

通过对基因变异与疾病进展、治疗效果等临床数据的关联分析，可以找到与预后相关的基因标记。

这有助于预测患者的病情发展，为制定个体化的治疗方案提供科学依据。

全基因组关联分析的进展与反思

病的基因数量，传统上将有遗传因素参与的疾病分为单基因疾病（ｍｏｎｏｇｅｎｉｃｄｉｓｅａｓｅ／ｍｅｎｄｅｌｉａｎｄｉｓ—ｅａｓｅ）和复杂性疾病（ｃｏｍｐｌｅｘｄｉｓｅａｓｅ）。

单基因疾病是指由于单个基因的突变导致的疾病。

近２０年来，通过家系连锁分析（ｆａｍｉｌｙ—ｂａｓｅｄｌｉｎｋａｇｅｓｔｕｄｉｅｓ）的定位克隆（ｐｏｓｉｔｉｏｎａｌｃｌｏｎｉｎｇ）方法，研究者已发现了大量如囊性纤维化（ｃｙｓｔｉｃｆｉｂｒｏ－ｓｉｓ）、亨廷顿病（Ｈｕｎｔｉｎｇｔｏｎ７ｓｄｉｓｅａｓｅ）等单基因疾病的致病基因，这些基因的突变多改变了相应的编码蛋白氨基酸序列或者产量，从而产生符合孟德尔遗传方式的疾病表型…。

但对于复杂性疾病，连锁分析的作用非常有限。

生堡魁堂进屋！Ｑ！！生筮！！鲞筮！翘复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。

很久以来，人们已认识到大部分人类性状和复杂性疾病的产生受到多个基因和环境因素的影响，但是发现并鉴定这些影响“复杂性疾病”的遗传变异却困难重重旧’。

近年，随着人类基因组计划和基因组单倍体图谱计划（ＩｎｔｅｒｎａｔｉｏｎａｌＨｕｍａｎＨａｐＭａｐＰｒｏｊｅｃｔ）的实施，研究者开始对影响人类性状形成和复杂性疾病产生的遗传特征进行了探索。

短短几年内，已经发现并鉴定了大量与人类性状或复杂性疾病关联的遗传变异（图１），为进一步了解控制人类复杂性疾病发生的遗传特征提供了重要线索‘３，４３。

图ｌ截至２００９年６月，４３９项ＧＷＡＳ发现的与人类性状或复杂性疾病关联ＳＮＰ位点（Ｐ＜５×１０“）不间灰度圆点代表不同性状或疾病全基因组关联分析（ｇｅｎｏｍｅｗｉｄｅａｓｓｏｃｉａｔｉｏｎｓｔｕｄｉｅｓ，ＧＷＡＳ）是应用人类基因组中数以百万计的单核苷酸多态性（ｓｉｎｇｌｅｎｕｃｌｅｏｔｉｄｅｐｏｌｙｍｏｒｐｈｉｓｍ，ＳＮＰ）为标记进行病例一对照关联分析，以期发现影响复杂性疾病发生的遗传特征的一种新策略１２Ｊ。

全基因组关联分析和群体遗传结构的研究

全基因组关联分析和群体遗传结构的研究人类遗传学是一门研究人类基因与遗传信息传递的学科。

我们可以通过研究人类基因，了解个体之间发生的差异及其与生物学、行为和疾病等方面的联系。

其中，全基因组关联分析和群体遗传结构的研究有助于我们深入地了解人类遗传学。

本文将介绍全基因组关联分析和群体遗传结构，以及它们在人类遗传学领域的应用。

全基因组关联分析（GWAS）是一种在群体中寻找基因突变与表型特征相关性的方法。

通过高通量测序技术和大规模生物信息学分析，我们可以确定一些基因与某些不同表型特征之间的联系，如疾病和生理特征。

GWAS可以帮助我们更好地理解复杂疾病的遗传学基础，从而找到新的治疗方式。

GWAS分析已经在乳腺癌、阿尔茨海默病、哮喘等多种疾病的研究中取得了巨大成功。

群体遗传结构是一组个体之间基因变异的分布，反映了人类基因组的多样性。

人类基因组中约有99.9％是相同的，而剩余的0.01％是基因序列的差异。

这个差异在群体中的分布与演化有关，并导致了不同群体之间基因多样性的不同。

群体遗传结构研究有助于我们更好地理解人类演化、人类移民和环境适应等方面的信息。

在人类遗传学领域，全基因组关联分析和群体遗传结构对于疾病治疗和人口遗传学的研究都非常重要。

研究人员可以通过GWAS探索与疾病表型相关的遗传变异，如SNP（单核苷酸多态性）和各种复杂遗传疾病。

例如，有某些SNP可能与糖尿病、癌症、心血管病以及罕见疾病等疾病有关。

此外，GWAS也可以为致病基因研究提供一个更全面的可视化框架，这可以帮助研究人员更好地理解基因之间的相互作用。

群体遗传结构的研究则可以帮助我们了解多个人群之间的遗传变异，如人类移民和人口的演化和分化。

此外，研究人员还可以利用群体遗传结构对生物多样性和主观的族群认同进行系统的调查。

群体遗传结构对随着时间和环境变化而变化的基因库的跟踪具有重要意义，可以为人类进化和适应性提供更深入的理解。

总之，全基因组关联分析和群体遗传结构是人类遗传学领域中的两个核心内容。

全基因组关联分析一般流程图

全基因组关联分析一般流程图下载温馨提示:该文档是我店铺精心编制而成，希望大家下载以后，能够帮助大家解决实际的问题。

文档下载后可定制随意修改，请根据实际需要进行相应的调整和使用，谢谢!并且，本店铺为大家提供各种各样类型的实用资料，如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等，如想了解不同资料格式和写法，敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!全基因组关联分析流程。

1. 研究设计和样本收集。

确定研究目标和假设。

人类疾病的全基因组关联分析

人类疾病的全基因组关联分析是近年来引起了广泛关注的一个领域。

这种方法是研究人类疾病的遗传基础的重要手段之一。

它能够通过全基因组扫描的方式来寻找与特定疾病相关的基因变异和单核苷酸多态性（SNP）。

在疾病的诊断和治疗方面，全基因组关联分析有着广泛的应用前景。

全基因组关联分析可以通过对大规模疾病患者和健康人群的遗传信息进行比较，寻找与该疾病相关的基因型和频率。

这种方法最大的优势在于其高通量、高效率的基因型检测技术，能够快速鉴定与疾病相关的位点和基因。

因此，该方法已经成为疾病基因组学研究领域中的重要手段。

在全基因组关联分析中，通常需要考虑以下几个步骤：首先是样本的选择和处理，包括患病和对照样本的选择和处理。

接着是基因检测和分析，包括基因芯片和测序技术的应用。

最后是数据分析和解释，包括单臂连锁不平衡（linkage disequilibrium）、二级结构和功能分析等。

这一整个过程都需要采用高度精确的技术和方法，才能够保证结果的可靠性和有效性。

全基因组关联分析在疾病研究和诊疗中的应用已经非常广泛。

例如，在癌症研究中，该方法已经被用于从大规模基因芯片数据中筛选出与肿瘤相关的基因型，为癌症的早期预测和治疗提供了有力的基础。

在心血管疾病研究中，全基因组关联分析也已经发挥了重要作用，有助于寻找与冠心病、高血压等疾病相关的基因位点和基因型。

此外，在药物研发领域，全基因组关联分析也被广泛应用于药物靶点鉴定、药物副作用的分析等方面。

虽然全基因组关联分析在疾病研究和诊疗中的应用前景非常广阔，但也存在着一些难题和争议。

其中，最大的挑战之一就是如何保证样本的准确性和代表性。

样本的选择和处理可能会对研究结果造成很大的影响，因此需要采用高级统计学和生物信息学方法来解决这个问题。

此外，全基因组关联分析也需要考虑多基因互作和环境因素的影响，才能够更全面地了解疾病的发生机制。

综上所述，在疾病研究和诊疗方面有着重要作用。

随着生物技术的发展和数据处理技术的不断提高，全基因组关联分析将会越来越广泛地应用于各种疾病的研究和治疗中。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

通过统计分析遗传因素和性状/ 通过统计分析遗传因素和性状/复杂疾病关联确定与特定性状 /复杂性疾病关联的功能性位复杂性疾病关联的功能性位点存在一定难度——同义突变、不在ORF等。存在一定难度——同义突变、不在ORF等。
33
局限性
大部分常见遗传变异可能通过单独或联合作用轻度增加疾病发生风险，而这些变异仅可解释部分人群中因遗传引起的表型变异。
基因分型验证
28
遗传统计分析
GWAS比较每个比较每个SNP等位基因频率差别多采用格表的卡方检验，同时需对如年等位基因频率差别多采用4格表的卡方检验比较每个等位基因频率差别多采用格表的卡方检验，性别等主要混杂因素采用Logistic回归分析。龄、性别等主要混杂因素采用回归分析
人群分层(population stratification)和多重假设检验调整 (multiple 在GWAS中,人群分层中人群分层和 testing adjusting) 是引起研结果分析误差的最主要原因
34
局限性
最后 , GWAS是一种发现符合常见疾病 -常见变异假 GWAS是一种发现符合常见疾病说 ( common disease common variant hypothesis) 相关位点的方法 ,其可以确定相关位点但不能直接确定基其可以确定相关位点但不能直接确定基因本身 ,且在任何特定人群中 GWAS都不能方便地识 GWAS都不能方便地识别罕见的风险等位基因位点（下图）罕见的风险等位基因位点（下图）
21
进行 GWAS时需满足 GWAS时需满足
病例必须携带导致疾病的遗传因素选择覆盖全基因组的SNP或选择覆盖全基因组的SNP或CNV 研究样本量达到足够的检验效能采用高效可靠的数据分析方法以及进行重复验证检验等条件
22
研究方式
23
研究方式
24
研究方式
GWAS目前分和 GWAS目前分为单阶段研究和多阶段研究 GWAS目前分为单阶段研究和多阶段研究
囊性纤维化病
亨廷顿病性痴呆
5
背景
单基因遗传性状
6
背景
单基因遗传性状
7
背景
家系连锁分析的家系连锁分析的定位克隆
单基因家系连锁分析
8
背景
但对于复杂疾病，连锁分析的作用非常有限。
9
研究基础
进行 GWAS时 ,选择的表型定义要准确和精确
应尽可能选择那些可定量反映疾病危险程度的指标、应尽可能选择那些可定量反映疾病危险程度的指标、可用于分定量反映疾病危险程度的指标析疾病临床亚型的特征 ,或可用于诊断和鉴别诊断疾病的表型或可用于诊断和鉴别诊断疾病的表型特征。特征。
16
CNV
CGH 检测 31例肝癌 DNA 变异频率结果图.
染色体左侧的线条表示DNA丢失的范围;右侧的线条表示DNA增加的范围,粗线条表示扩增.
17
研究基础
基因分型技术和遗传信息学的发展
近年来，基因分型技术不断进步，近年来，基因分型技术不断进步，分型成本显著降低，基因芯片技术为代表的超高通显著降低，以基因芯片技术为代表的超高通量分型技术更是得到了飞速的发展全基因组测序商业化和公司之间的竞争使得基因组测序成本越来越低
SNPs。 SNPs。
2
引言
概念
全基因组范围内的全基因组范围内的SNP
3
引言
概念
全基因组范围内的SNP对某一全基因组范围内的SNP对某一复杂疾病/性状的影响的影响——关联复杂疾病/性状的影响——关联
身高间的差异
4
背景
单基因遗传
利用家系连锁分析的利用家系连锁分析的定位克隆方法，发现了大量单基克隆方法，发现了大量单基因疾病，如囊性纤维化病、亨廷顿病性痴呆
19
成果
截止到2010年12月GWAS发现的与人类性状或复杂疾病关联SNP位点（p<5× 截止到2010年12月GWAS发现的与人类性状或复杂疾病关联SNP位点（p<5×10-8）
不同颜色圆点代表不同性状或疾病
20
成果
“GWAS第一次高潮” GWAS第一次高潮”
GWAS方法学（如研 GWAS方法学（如研究设计、统计分析、结果的解释）也取得了极大的进步得了极大的进步
缺血性脑卒中可能涉及血栓脱落或者脑动脉粥样硬化等不同的发病机制,但在人群中却常常同时出现而难以区分
10
研究基础
单核苷酸多态性（SNP）和拷贝数变异单核苷酸多态性（SNP）和拷贝数变异 (CNV)—GWAS的主要对象 (CNV)—GWAS的主要对象
随着人类基因组单体型计划的完成，收录了成千上百万的随着人类基因组单体型计划的完成， SNP，SNP是人类基因组中最常见的遗传变异 SNP，SNP是人类基因组中最常见的遗传变异，现已被用是人类基因组中最常见的遗传变异，作第三代遗传标识。作第三代遗传标识。 CNV是指与参考序列相比 CNV是指与参考序列相比 ,基因组中 ≥1 kb 的 DNA 片段插入、缺失和 /或扩增 ,及其互相组合衍生的复杂染色体结构变异。发现了成千上万的基因组拷贝数变异变异。发现了成千上万的基因组拷贝数变异 (copy number variations, CNV ) ，它们能显著影响基因的表达。它们能显著影响基因的表达。
单阶段研究即选择足够的样本 , 一次性在所有研究对象中对选中的SNP进行基因分型研究对象中对选中的SNP进行基因分型 ,然后研究对象中对选中的SNP进行基因分型 ,然后 SNP与疾病的关联分析每个 SNP与疾病的关联 , 在早期 GWAS 多使用
25
研究方式
多阶段研究多为两阶段研究多阶段研究多为两阶段研究
局限性
SNP在 RNA 的转录或翻译效率上发挥作用 ,可能在基因表达上产生短暂的或依赖时空的多种影响 ,刺激调节基因的转录表达或影响其 RNA 剪接方式。因此 , 研究者在找寻疾病相关变异时 ,应同时注意到编码区和调控区位点变异的重要性。
例如：胰岛素基因启动子中的遗传变异增加Ⅰ 例如：胰岛素基因启动子中的遗传变异增加Ⅰ型糖尿病风险
694个体 694个体→ 个体→
923个体 923个体→ 个体→
26
两阶段研究第一阶段的分析可以是以个体为单位，也可以采用DNA pooling的方法，筛选出也可以采用DNA pooling的方法，筛选出较少量的阳性SNP 较少量的阳性SNP
注意：要保证SNP的敏感性和特异性要保证SNP的敏感性和特异性注意：要保证SNP的敏感性和特异性
29
人群分层
人群分层是导致许多大样本研究出现假阳性或假阴性结果的一个主要原因
如Campbell等(2005)采用欧裔美国人研究与身高表型等采用欧裔美国人研究与身高表型乳糖酶基因型的关联 ,其结果在其他人群难以重复的其结果在其他人群难以重复的原因即是受研究对象在不同地域存在极大差异引起的人群分层影响人群分层产生的问题即使在研究对象是同一种族人群时也仍然存在 ,而且现有的研究方法尚未能有效地解决此类问题一种可能的策略是采用基于家系的关联研究 ,该方法可以避免人群分层对关联分析结果的影响
15
CNV
2006年11月23日,一个国际研究小组在Nature(2006, 444: 444)上发表研究报告称,通过分析270名亚洲、非洲和欧洲健康者的DNA样本,发现了约2900个基因(至少占人类基因总数的10%)含有特异DNA片段拷贝数变异(CNV)。研究者认为,这些变异会影响基因活性,造成疾病易感性的个体差异。此前学术界认为人类个体间基因组序列一致性达99.9%,该研究结果对此提出了置疑。另外,随着第一代人类基因组拷贝数变异图谱的完成,人们审视疾病与基因的关系又多了一种视角, 除了检测单核苷酸多态性(SNP),或者显微镜检染色体异常外, 还可对中间长度(数百万核苷酸)的DNA片段变异进行评价。
35
局限性
36
反思
“所有的改变 , 即使是最令人期待的, 也有令人惆怅的即使是最令人期待的, 一面, 我们抛在脑后的一切仍如影随形”— 一面, 我们抛在脑后的一切仍如影随形”—阿纳托尔 ·法朗士 (Anatole France, 1844～1924） 1844～1924）现在发现这种全基因组分析是高出低收 :昂贵的全基因组关联研究（每人份的花费预计高达数百万美元 ) 所得的结果庞杂无序，大多数的基因变异与疾病并不关联。在已实施的100余项GWAS和几千例患者样本的分析联。在已实施的100余项GWAS和几千例患者样本的分析结果发现，许多基因变异都是罕见的基因变异而不是关键基因，有一些变异仅仅与疾病危险因子、诱发因子、影响因子有关，而不是疾病直接相关联的基因
14
CNV
2004年, Iafrate 等和Sebat等首次描述了人类基因组CNV, 2006年 Redon 等确定了覆盖12% (300 Mb) 人类基因组的1 447个CNV区域(CNV region, CNVR) CNV 可能通过数量作用和质量作用两种机制引起的基因剂量改变导致表型改变 , 所以CNV全基因组关联分析(CNV association analysis) 可能更容易检测到致病遗传变异
全基因组关联分析
引言
概念
全基因组关联分析—— 全基因组关联分析—— 英文名字叫Genome英文名字叫Genomewide association study简 study简 ——GWAS 称——GWAS 全基因组关联分析—— 全基因组关联分析—— 是指在人类全基因组范围内找出存在的序列变异，即单核苷酸多态 SNP），性（SNP），从中筛选出与疾病/ 出与疾病/性状相关的
CNV
基因组拷贝数变异 ( copy number variations, CNV )