GWAS原理剖析资料

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

全基因组关联分析（Genome-wide Association Study）是利用高通量基因分型技术，分析数以万计的单核苷酸多态性（SNPs）以及这些SNPs与临床表型和可测性状的相关性。简单地理解全基因组关联分析，GW AS就是标记辅助选择在全基因组范围上的应用，在全基因组层面上开展大样本的、多中心的、重复验证的技术，并对相关基因与复杂性状进行关联研究，从而全面地揭示出不同复杂性状的遗传机制和基础。GW AS是一项开创性的研究方法，因为它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究，且不受与疾病有关的先验性假设的限制，GWAS在全基因组范围、零假设性较候选基因研究都迈出了重要的一步，而且随着高通量测序成本的降低，GW AS在人类疾病以及畜禽经济性状的研究上都表现出巨大的优势。

GW AS的优势除了可以一次性检测到数以万计的SNPs信息，从而提高试验效率以及检验功效以外，其还有其他两个显著的优势，主要表现在：（1）对未知信息的基因进行定位探索。传统的QTL定位仅仅限于对已知的候选基因进行分析探索，而GW AS是对全基因组的范围内的所有位点进行关联分析，因此其拥有更广泛的关联信息，相比候选基因分析GW AS 更有可能找到与性状真正关联的候选基因，因此不再受到预先假设的候选基因的限制。（2）对于GWAS在研究不同的复杂性状之前，不需要像以往的研究一样“盲目地”预设一些假定条件，而是通过在病理和对照组中，有目的地比较全基因组范围内所有SNPs的等位基因频率或者通过家系进行传递不平衡检验（TDT，Transmission disequilibrium test），从而找出与复杂性状显著相关的序列变异。到目前为止，利用全基因组关联分析研究已经挖掘出众多与各种复杂性状相关联的基因和染色体区域，在这些被新鉴定出的位点和区域中，只有小部分结果位于以前对这些性状研究的区域之中或者附近，绝大多数位于以前从未被研究过的区域，GW AS的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分

重要的，这也是以往的研究水平所不能达到的。全基因组关联分析为进一步研究复杂性状的遗传机理提供了新的线索，为复杂性状的研究开辟了新的研究道路。

1、全基因组关联分析SNPs分型及质量控制

1.1基因分型过程

基因分型技术的发展在GWAS变成现实的过程中起着重要作用。现在上百万的遗传变异可以在预先设计的寡核苷酸微阵列（Affymetrix或Illumina）中同时检测到。这些芯片多数检测的是SNPs，同时有些芯片可以检测到拷贝数变异（copy number variants，CNV）。DNA 基因分型产生一系列的杂交强度，这需要转变成实际的基因型，这个过程称为基因分型（genotype calling）。

1.2分型SNPs的质量控制

质量控制是用于评价样本和基因分型芯片的基因型性能的操作。在试验中存在很多影响因素，如DNA降解，加样错误或是芯片杂交失败等，因此在下一步基因型分析之前评价试验性能是很重要的。同时，确定和排除那些很有可能确实或者错误分型的SNPs是十分重要的。

对于某一个单个样本的质控标准主要包括：（1）样本检出率（sample call rate），是指对于某个样本个体而言，通过测序并成功判型的SNPs与所有检测的SNPs的比值，通常的标准应当在80%或90%以上。（2）杂合型的程度（heterozygosity），这个标准过高即被排除，因为过度的杂合说明样本可能被污染，从而导致杂合基因型数目不相称。通常的标准应当控制在23%-30%之间。

对于单核苷酸多态性的质量控制主要包括了：（1）SNP检出率（SNP call rate），同样指对于某一个SNP位点，被成功检测到的样本与所有样本的比值，一般要求在90%以上。（2）较小等位基因频率（minor allele frequency，MAF），对于那些MAF较小的SNPs，能得到的信息量很少，而且目前GWAS对这些SNP的检验效能也不高。通常对于MAF的要求需要在3%以上。（3）哈代-温伯格平衡（Hardy-Weinberg equilibrium，HWE）检验，HWE可以有助于确定那些有明显基因分型错误的SNPs。因此一般要求位点SNP的等位基因频率符合哈代-温伯格平衡。

1.3 GWAS结果多重检验校正

多重假设检验所引起的I型错误扩大和假阳性关联是全基因组关联分析研究面临的难题之一。多重假设检验的次数取决于待研究的基因组标记的数量，而检验的效率又取决于多重假设检验的次数。如今，有多种方法可以用来校正GW AS中多重检验后的P值，用来减少假阳性的出现。

1.4 Bonferroni校正法

即对于每个检验位点的校正阈值，将原本的显著性阈值（0.05）除以进行假设检验的次数设定为校正后的显著性阈值，再与假设检验得到的每个位点的P值进行比较，如果小于校正阈值，则可判断该位点与性状之间的关联存在显著性。这种校正方法是多重比较中对P 值的调整最为严格和保守的一种方法，虽然确保而且减低了假阳性的发生率，但是过度的校正反而容易导致加阴性的概率。

1.5 臵换检验法

臵换检验的核心思想就是数据重排（permutation），数据重排的观念最早是由Fisher和Yates在1949年提出的。该方法的主要有两种思路：（1）将分析样本的表型值固定，然后将其基因型随机地进行打乱重排（一般保证在10000次左右），每次重排都可以计算得出一个P值，然后对所有的P值构建一个经验分布，并设定5%处的P值为校正后的显著性阈值，最后与实际关联分析得出的P值进行比较，若小于校正阈值，则说明与性状关联。（2）将分析样本的基因型值固定，对表型进行随机重排，后续工作与前者相同。

1.6控制错误发现率法

控制错误发现率（FDR，False discovery rate）法，即FDR法是由Benjamini和Hochberg 提出的通过控制错误发现的概率对P值进行调整的方法。该方法与递减调整法有相似之处，同样先将关联分析得到的所有P值从小到大进行排列，但最后乘以的系数有所改变，FDR 的加成系数是总检验次数即所有位点数除以该检验位点在从小到大排序的排位。最后得到的校正P值与显著性阈值0.05进行比较，若小于0.05则说明性状与该位点显著关联。

2 基因型数据

本研究中的60个无关个体的耳组织利用天根试剂盒进行DNA提取，后均采用Illumina 公司的Porcine SNP 70K Beadchip（Illumina Inc., San Diego, CA）芯片进行SNP分型。利用Illumina公司提供的BeadStudio软件将测序的原始数据进行可视化处理并导出成文本格式文件。通过运用R语音程序编写对文件进行编译修改成满足PLINK软件包对GWAS分析所需要的文件格式。进一步通过R语言编辑成满足ROADRTRIPS在关联分析上需要的文件格式。

2.1 Illumina Porcine SNP 60K Beadchip