全基因组关联性研究的基因型填补

合集下载

全基因组关联研究技术及其应用

全基因组关联研究技术及其应用

全基因组关联研究技术及其应用随着基因科学的飞速发展,全基因组关联研究技术(GWAS)成为现代生物医学研究的重要手段之一。

通过对人类基因组中的上百万个DNA位点进行分析,GWAS技术可以寻找人类遗传变异与疾病发生的潜在关联。

在近年来的生物医学研究中,GWAS技术已经被广泛应用,为人类疾病的预防、诊治和治疗提供了重要的科学依据。

在本文中,我们将详细介绍GWAS技术的原理、流程及其应用。

一、GWAS技术的原理GWAS技术是一种大规模的关联分析技术,基于假设:如果某个单核苷酸多态性(SNP)与某种疾病的发生存在显著相关,那么这个SNP就可能是影响这种疾病的关键基因。

因此,通过研究不同个体间SNP的差异,可以寻找影响疾病发生的重要基因。

在GWAS研究中,研究对象通常是一组“病例-对照”样本组。

病例组包括某种特定疾病的患者,对照组则是与病例组性别、年龄和人种相似的健康人群。

然后,将这两组人群的DNA进行大规模的基因分型,筛选出存在差异的SNP位点。

最终,通过统计分析,可以将这些差异SNP与目标疾病的关系进行关联推断。

二、GWAS技术的流程GWAS技术一般包括以下几个步骤:1.样本筛选:选择适当的样本组,包括病例组和对照组,并设计合理的样本数量;2.基因分型:将样本组中的DNA序列进行大规模分型,得到SNP的变异情况;3.数据处理:对基因分型数据进行质量控制,去除质量不佳的SNP和样本;4.关联分析:将样本组中不同个体的SNP差异和疾病发生进行关联分析;5.生物信息学分析:对具有显著差异的SNP进行生物信息学分析,确定这些SNP的生物学意义,辅助研究人员进行基因功能的预测和功能注释。

三、GWAS技术的应用GWAS技术已经被广泛应用于多种疾病的研究中,如心血管疾病、肺癌、乳腺癌、糖尿病、帕金森病等等。

通过GWAS技术,研究人员可以寻找与疾病发生密切相关的基因,为疾病的发生机制和治疗手段的开发提供了重要的科学依据。

全基因组关联研究

全基因组关联研究

全基因组关联研究近年来,全基因组关联研究逐渐兴起,其作用日益凸显。

全基因组关联研究是一种从全基因组水平上调查表型变异的研究方法。

通过对全基因组的大规模多个位点,可以深入揭示疾病、肥胖、营养状况及其他表型的遗传基础。

本文从全基因组关联研究的历史背景、研究内容、研究思路、研究进展以及未来发展等角度,进行综述。

一、基因组关联研究的历史背景全基因组关联研究的历史可以追溯到20世纪90年代中期,当时基因组学研究已开始取得突破性进展,从理论上预计基因定位技术能够从大型性状中进行精确定位。

由于血缘和种质分析不能提供细节而受到限制,因此开发了全基因组关联分析(GWAS),它可以从宽泛的表型谱系中利用全基因组单项位点多态性进行研究,以确定具有致病和/或易感性基因的位点。

二、基因组关联研究的研究内容全基因组关联研究的研究内容主要是基因与表型的关联。

具体来说,它是通过研究大量受试者的DNA样本,以及其表现的表型,来发现和验证与表型的联系的一种方法。

这种方法利用了基因组上的位点变异和个体表现的表型变异之间的关系,以探索疾病、特定表型或生物学过程的遗传基础。

三、基因组关联研究的研究思路全基因组关联研究的研究思路由数据采集、实验设计、质量控制、数据分析四个环节组成。

具体地说,数据采集是抽取受试者的DNA样本,并从每个受试者中检测基因组变异。

实验设计旨在解决GWAS的具体研究问题,确定研究的受试者来源,考虑受试者的年龄、种族、性别等,设计样本分层、家系和对照组等。

质量控制是指对数据质量进行筛查,使得原始数据和统计分析的结果更准确可靠。

最后,数据分析就是利用统计学方法来衡量位点变异和功能变异之间的关联,以根据具体的统计模型检验结果,以达到对研究结果重要性的统计学判断。

四、基因组关联研究的研究进展近年来,全基因组关联研究的研究进展非常迅速,已成功用于探索癌症、心脏病、脑病、血糖异常等多种重大疾病及其亚型的遗传根源,并为后续单基因研究奠定了基础。

全基因组关联研究的应用

全基因组关联研究的应用

全基因组关联研究的应用全基因组关联研究是一种用于探究遗传变异与疾病关系的方法,其原理是通过对比个体基因组的差异,发现彼此之间发生疾病时所存在的相似性,从而推断其某些基因可能是疾病的致病因素。

全基因组关联研究已经广泛应用于心血管疾病、肿瘤、糖尿病、哮喘等多种疾病的研究,其在疾病预警、诊断、治疗等方面具有重要应用价值。

全基因组关联研究的流程包括分别对一组患者与健康对照者进行基因芯片测序,得到一组发生疾病的基因变异序列和一组正常基因变异序列。

然后将这两组序列以此对比,找出在发生疾病的组中出现的疾病相关基因。

这些基因可能是某些疾病的致病因素,其进一步的研究和探索有助于发现疾病的本质和治疗方法。

全基因组关联研究的优势在于,与传统研究方法相比,其能够更容易地发现复杂疾病的致病基因,从而为疾病的预防和治疗提供更好的基础。

例如,全基因组关联研究已经在糖尿病的研究中发挥了重要作用。

该病的发生与遗传基因密切相关,而全基因组关联研究能够通过对糖尿病得病者及其健康对照者的基因组进行全面比较,找出可能与糖尿病发病相关的基因。

这些基因的发现和后续研究,为研究糖尿病的发病机理、诊断及治疗奠定了重要的基础。

除了与疾病相关的基因发现外,全基因组关联研究还能够预测成年后的健康状况。

例如,某些基因可能与乳腺癌、前列腺癌等恶性肿瘤的发生密切相关。

通过对这些基因进行研究,可以预测某些人是否更容易发生这些癌症,从而提醒他们采取相应的预防措施。

此外,全基因组关联研究还可以基于个体遗传信息,为个人定制个体化的药物治疗方案,提高治疗效果和降低不良反应的发生。

总之,全基因组关联研究是一种通过大规模测序比较个体基因组,发现遗传变异与疾病发生的相关性的新型方法。

其应用广泛,可以为疾病的预防、诊断和治疗提供重要的依据。

虽然全基因组关联研究在研究中存在复杂性和挑战性,但可以预见的是,全基因组关联研究在未来的医学领域将发挥越来越重要的作用。

全基因组关联性研究的基因型填补

全基因组关联性研究的基因型填补

( u iecm a sn 进行校正后 , WA m lp pr o ) tl o i G S的效率仍然 高于连锁研究 ( naes d ) 1 kg uy 。且常 由于不需要事先 i t 选定 候选 基 因 (a ddt gn ) G cn ia ee , WA e S较 关联 性 研究
类 主要 用 于基 于家 庭 的 G S WA 。两 种 方 法 的原 理
基 本类 似 , 本文 主要 介绍 前者 。
常见变异(o mo a at) cm nvr n 的频率 , i s 进而判断该位点 是否与疾病存在关联性¨ ] 。一般认 为, 便 在 针 对 多 重 比较 mo ea e 即
参照 数 据 ( 自于 HaMa 来 p p计 划 或 10 nme计 0 0Geo
察 对象 已有 基 因型 , 未 进 行 基 因分 型 ( eoyig 对 gntpn ) 的位点 之等 位 基 因 (ll) 行 预 测 的方 法 ] ae 进 le 。填 补 能增 加 G WAS中单 核 苷 酸 多 态 性 (igen c od s l—ul te n ei
划) 获得单体型信息 。再根据样本观察到的基因型推 测该 样本 最有 可能携 带 的单 体 型 , 据 此 将 该 单体 型 并 上相应位点的等位基 因作为最有可能的填补值。
目前 在 G WAS中 , 为 常 用 的填 补 软 件 包 括 : 较
M ACH ] I ue L 3 mp t
第一 号染 色进行 填 补 。在 经 过性 别 检 测 、 缘关 系检 亲
测、 最小等位基因频率 ( i r ll f qec , F 、 m n le euny MA ) o ae r
缺失 比例 、 ad — ibr 衡检验 等质 控过 程后 , H ryWe eg平 n 一

全基因组关联研究在遗传疾病研究中的应用

全基因组关联研究在遗传疾病研究中的应用

全基因组关联研究在遗传疾病研究中的应用随着科技的不断进步,人们对基因的了解也越来越深入。

全基因组关联研究(GWAS)是一种利用大样本量的基因表型数据来快速鉴定的一种遗传变异,在研究遗传疾病的发病机制、临床诊断、药物应用等方面都有着广泛的应用。

一、GWAS技术的基本原理GWAS技术的基本思路是通过对大量的DNA样本进行研究,寻找常见疾病和复杂性疾病的相关遗传因素。

这一技术是以人类基因组计划完成后的新一代高通量测序技术为基础的,利用这些新技术可发现人类基因组中的单核苷酸多态性(SNP)和遗传结构差异等。

GWAS技术的核心技术是高通量测序技术。

这种技术可以快速、准确地检测出多个位点的基因型,然后将这些基因型与疾病的发病机制进行对比,以发现基因型与疾病之间的关联性。

二、GWAS技术的在遗传疾病研究中的应用1、了解遗传疾病的发病机理GWAS技术可以帮助研究人员发现具有疾病相关性的SNP位点。

通过研究这些SNP位点,研究人员可以了解某个人群中遗传变异的具体情况,从而了解遗传因素在疾病发生中的作用和机理。

这些结果可以更好地指导医生对患者进行个性化诊疗,同时也可以帮助疾病研究人员进一步深入探究疾病的发病机理。

2、疾病筛查和早期预警GWAS技术可以在大样本量下筛查出与某种疾病相关的遗传因素,能够有效地发现患病人群中的高危人群和可能成为患病者的人群,从而对医疗资源进行科学合理的分配,为患者的治疗提供更好的帮助。

此外,GWAS技术还可以在早期发现患病迹象,从而及早地进行预警和干预。

3、精准治疗和药物研发通过GWAS技术,研究人员可以获得有关基因组的蛋白质编码的信息,进而了解到疾病发生和发展的具体机制。

基于这些认识,研究人员可以发现与某种疾病相关的关键基因,从而探讨精准治疗的策略,帮助患者更好地治疗疾病。

同时,GWAS技术可以发现与某种基因相关的药物作用机制,“个性化医学”依据某些特定的基因型和临床表现来预测一个人对药物的反应和潜在药物副作用。

全基因组关联分析(GWAS)解决方案

全基因组关联分析(GWAS)解决方案

全基因组关联分析(GWAS)解决⽅案全基因组关联分析(GWAS)解决⽅案※概述全基因组关联研究(Genome-wide association study,GWAS)是⽤来检测全基因组范围的遗传变异与可观测的性状之间的遗传关联的⼀种策略。

2005年,Science杂志报道了第⼀篇GWAS研究——年龄相关性黄斑变性,之后陆续出现了有关冠⼼病、肥胖、2型糖尿病、⽢油三酯、精神分裂症等的研究报道。

截⾄2010年底,单是在⼈类上就有1212篇GWAS⽂章被发表,涉及210个性状。

GWAS主要基于共变法的思想,该⽅法是⼈类进⾏科学思维和实践的最重要⼯具之⼀;统计学研究也表明,GWAS很长时期内都将处于蓬勃发展期(如下图所⽰)。

基因型数据和表型数据的获得,随着诸多新技术的发展变得⽇益海量、廉价、快捷、准确和全⾯:如Affymetrix和Illumina公司的SNP基因分型芯⽚已经可以达到2M的标记密度;便携式电⼦器械将产⽣海量的表型数据;新⼀代测序技术的迅猛发展,将催⽣更⾼通量、更多类别的基因型,以及不同类别的⾼通量表型。

基于此,我们推出GWAS的完整解决⽅案,协助您⼀起探索⽣物奥秘。

※实验技术流程※基于芯⽚的GWASAffymetrix公司针对⼈类全基因组SNP检测推出多个版本检测芯⽚,2007年5⽉份,Affymetrix公司发布了⼈全基因组SNP 6.0芯⽚,包含90多万个⽤于单核苷酸多态性(SNP)检测探针和更多数量的⽤于拷贝数变化(CNV)检测的⾮多态性探针。

因此这种芯⽚可检测超过180万个位点基因组序列变异,即可⽤于全基因组SNP分析,⼜可⽤于CNV分析,真正实现了⼀种芯⽚两种⽤途,⽅便研究者挖掘基因组序列变异信息。

Illumina激光共聚焦微珠芯⽚平台为全世界的科研⽤户提供了最为先进的SNP(单核苷酸多态性)研究平台。

Illumina的SNP芯⽚有两类,⼀类是基于infinium技术的全基因组SNP检测芯⽚(Infinium? Whole Genome Genotyping),适⽤于全基因组SNP分型研究及基因拷贝数变化研究,⼀张芯⽚检测⼏⼗万标签SNP位点,提供⼤规模疾病基因扫描(Hap660,1M)。

全基因组关联分析及遗传基因组学的研究进展

全基因组关联分析及遗传基因组学的研究进展

全基因组关联分析及遗传基因组学的研究进展随着基因技术的快速发展,遗传基因组学成为目前最具前景的研究领域之一。

在遗传基因组学中,全基因组关联分析(GWAS)被广泛应用于疾病的遗传研究中,是目前最有效的基因分析方法之一。

本文将重点介绍全基因组关联分析及遗传基因组学的研究进展,以期提供对该领域的深入了解。

一、全基因组关联分析的概念及原理全基因组关联分析是一种高通量的基因分析方法,其原理是比较大量样本中的遗传变异与表型间的关联,以确定影响表型的基因及其变异。

具体而言,全基因组关联分析通过扫描整个基因组,检查单核苷酸多态性(SNP)与研究对象表型之间的关联性,如果发现某些基因与表型有显著相关性,就可以将这些基因作为疾病的潜在风险因素进行研究。

全基因组关联分析所用的DNA样本源于大量人群,其优点在于可以检测到多个基因之间的相互作用,缺点是高度依赖统计学方法,并且会出现假阳性率高的问题。

为了减少假阳性率,全基因组关联分析研究通常采用Bonferroni校正或FDR校正等方法。

二、全基因组关联分析的应用全基因组关联分析主要应用于人类的疾病遗传研究中,如糖尿病、肥胖症、阿尔茨海默病、乳腺癌和鳞状细胞癌等疾病。

近年来,全基因组关联分析也被广泛应用于畜禽的遗传研究,如猪的生长性状和奶牛的产奶量等。

除了疾病的遗传研究,全基因组关联分析还可以用于预测个体对药物的反应,从而实现个体化用药。

例如,全基因组关联分析可以确定与药物代谢相关的基因,以此为基础预测不同个体对药物的代谢情况,为实现个体化用药提供依据。

三、遗传基因组学的研究进展遗传基因组学研究除了全基因组关联分析以外,还包括单细胞遗传学、转录组学、表观遗传学和功能基因组学等方面的研究。

这些研究方法的开展使得人们对基因组学的理解更加深入,为了更好地了解遗传基因组学的研究进展,以下将分别进行介绍。

1.单细胞遗传学单细胞遗传学是一种新型的研究方法,该方法可以对单个细胞进行遗传分析。

全基因组关联分析技术的应用和优化

全基因组关联分析技术的应用和优化

全基因组关联分析技术的应用和优化随着基因测序技术的不断发展,人们对基因组信息的了解也越来越深入,这种信息已经成为了医学、生物学、农业等领域研究的重要内容。

近年来,全基因组关联分析技术已经成为了一种广泛应用的基因组研究方法,能够帮助科学家们更加准确地研究人类疾病、药物反应、性状及表现型等方面。

本文将对全基因组关联分析技术的应用和优化进行介绍。

一、全基因组关联分析技术的基本原理全基因组关联分析技术是一种基于多样体的遗传学分析方法,通过对群体中疾病或表型相关的遗传变异进行高通量的基因型检测,并与疾病或表型进行相关分析,以确定遗传因素与疾病或表型的关联性。

该方法主要基于单核苷酸多态性(SNP)位点,通过高通量测序技术对各个位点进行基因型检测,构建出群体中各个位点的基因型扫描图,进而对这些基因型与疾病或表型的相关性进行分析。

二、全基因组关联分析技术在疾病研究中的应用2.1 单基因遗传性疾病的研究全基因组关联分析技术在单基因遗传性疾病的研究中发挥了重要作用。

以先天性失聪为例,早期因单基因导致的失聪常常与突变相关,并不便于全基因组的关联分析,而现在,可以通过全基因组关联方法对复杂性失聪进行研究,比如探究和研究导致失聪的各种复杂遗传因素、基因环境相互作用等。

2.2 常见并发症的研究全基因组关联分析技术在疾病并发症的研究中,也有很大的作用。

如研究2型糖尿病的并发症,除了已知的高血压、冠心病、中风等疾病之外,还可以利用全基因组关联分析技术找到新的并发症情况,以找出潜在的危险基因和预测疾病患者的具体风险。

2.3 候选基因筛选和定位在全基因组关联分析技术中,通过对多感兴趣的基因进行进行测序分析,以及找到关键性状的最关键位点,从而验证和澄清这些位点与疾病的关联位置,这种方法可以促进疾病基因筛选,并阐明关键基因的机制。

三、全基因组关联分析技术的优化3.1 样本数量的增加数据量是影响全基因组关联分析优化的最关键因素之一,样本数量的增加是提高全基因组分析方法产量和某些特定种群的大规模DNA测序时的重要方法,其中样本数量必须足够大,以支持显著性测试的结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

·612·
中国卫生统计 2011 年 12 月第 28 卷第 6 期
dose、. mlqc 和. mlprob 等 5 个文件。其中,. mlgeno 文 件为填补后的基因型; . mlinfo 包括各 SNP 的填补质量 信息,MACH 给出了平均后验概率和 R2 两种质量信 息,而后者反映了填补后的 SNP 和 周 围 位 点 的 相 关 性,较前者更为常用。
·610·
·论著·
中国卫生统计 2011 年 12 月第 28 卷第 6 期
全基因组关联性研究的基因型填补*
南京医科大学公共卫生学院流行病与卫生统计学系( 210029)
赵 杨 戴俊程 柏建岭 彭志行 于 浩 沈洪兵 陈 峰△
【提 要】 目的 以肺癌全基因组关联性研究为例,介绍基因型填补的基本原理和过程。方法 利用 MACH 软件, 基于 1000Genome 模板,以一号染色体体为例,对 Affymatrix 公司 6. 0 芯片上的位点进行基因型填补。结果 填补后,一号 染色体上共有 531497 个位点。结论 基因型填补可以恢复全基因组关联性研究中未基因分型或缺失的位点的信息。
1. 准备工作 首先 需 将 样 本 的 GWAS 数 据 整 理 为 Merlin 或 Linkage 对应的格式。以 Merof Health Statistics,Dec 2011,Vol. 28,No. 6
·611·
分别以. ped 和. dat 结尾文件。. ped 文件为个体基因型 数据,其格式为 1 1001 0 0 M A A C T C C …… 2 2001 0 0 M A C C T G C …… 其中,前五列分别表示家庭编号、个体编号、父亲编号、 母亲编号、性别,之后每两列代表一个位点对应的两个 等位基因。等位基因可以 A、T、C 和 G 表示,也可以分 别用 1、2、3 和 4 表示。
给出相应的提示: Warning: Allele * ( at *****) has frequency
**. ** in phased haplos,but **. ** in the sample.
这种情况往往出现在 SNP 为 A / T 或 C / G 的位点 上。因为若所测样本 SNP 为 A / T,即便 模 板 与 之 相 反,其 SNP 仍然为 A / T; C / G 也有类似情形,故此时autoFlip 选项也无法解决问题。需要对 log 文件进行 逐行阅读,对样本链和模板链 MAF 相差较大的,进行 手动对齐,或者将这些 SNP 全部删除。
【关键词】 全基因组关联性研究 缺失 基因型填补 MACH
全 基 因 组 关 联 性 研 究 ( genome-wide association study,GWAS) 可以同时对非常宽的染色体区域中几十 万甚至上百万个位点进行扫描,比较病例和对照中常 见变异( common variants) 的频率,进而判断该位点是 否与疾病 存 在 关 联 性〔1,2〕。 一 般 认 为,对 于 中 度 效 应 ( moderate) 的变异的检测,即便在针对多重比较( multiple comparison) 进行校正后,GWAS 的效率仍然高于 连锁研究( linkage study) 。且常由于不需要事先选定 候选基因( candidate gene) ,GWAS 较关联性研究更容 易发现容易得到验证的位点。
根据这一原理,基因型填补首先利用密度更高的 参照数据( 来自于 HapMap 计划或 1000 Genome 计划) 获得单体型信息。再根据样本观察到的基因型推测该 样本最有可能携带的单体型,并据此将该单体型上相 应位点的等位基因作为最有可能的填补值。
目前 在 GWAS 中,较 为 常 用 的 填 补 软 件 包 括: MACH〔3〕、Impute〔4,5〕和 fastPHASE〔6〕。一 些 被 广 泛 使 用的 GWAS 数据分析软件,如 plink〔7〕,也包含了填补 模块。
填补过程
这里以一项肺癌的全基因组关联性性研究为 例〔8〕,基于 Linux 操作系统,采用 MACH 软件,介绍填 补的过程及操作。该研究对应的研究人群为汉族,采 用 Affymatrix 公司 6. 0 芯片。为简单起见,本文只对第 一号染色进行填补。在经过性别检测、亲缘关系检测、 最小等位基因频率( minor allele frequency,MAF) 、缺失 比例、Hardy-Weinberg 平衡检验等质控过程后,一号染 色体上剩下 42028 个 SNP。单体型模板文件使用 1000 Genome 计划于 2010 年 3 月公布的 Pilot 1 数据。在 MACH 网站上,有已转换成可供 MACH 直接调用的文 件下载 ( 见 http: / / www. sph. umich.edu / csg / yli / mach / download /1000G - 2010 - 06. html) 。
群的 GWAS 中,利用非亲属个体的信息进行填补,另 一类主要用于基于家庭的 GWAS。两种方法的原理基 本类似,本文主要介绍前者。
SNP 间 存 在 着 连 锁 不 平 衡 ( linkage disequilibrium) ,因而人类的 DNA 序列可以认为是由很多的单体 型( haplotype) 构成。单体型之内的位点的等位基因间 存在着相关性,意味着在同一单体型内,某 SNP 为某 个等位基因时,或某些 SNP 具有某种组合时,另一个 SNP 将有较大可能出现某一等位基因。
基本原理
填补的方式主要分为两类,一类是在基于一般人
* : 国家自然科学基金( 30901232,81072389 ) ,江苏省高校自然科学基 金重大项目( 10KJA33034) ,江苏省高校优势学科建设工程资助项目 △通讯作者: 陈峰,E-mail: fengchen@ njmu. edu. cn
. dat 文件存放了 SNP 信息,其内容为 M rs1 M rs2 M rs3 …… 需注意的是,常用于 GWAS 分析的 plink 软件的 默认. ped 文件格式与 Merline 格式有所不同,表现为 在“性别”列之后,还有一个 phenotype 列,在进行填补 前,需将其删除。另外,. ped 和. dat 文件中的 SNP 必 须已经按物理顺序排序。 除了上述. ped 和. dat 文件( 这里分别称为 Chr1. ped 和 Chr1. dat) 外,还需已经做好 haplotype 分型的模 板文件,这里需要用到从 MACH 网站下载的. hap 和. snps 文件,内容分别是 60 个高加索人的单体性数据和 相应的 SNP,这 里 我 们 也 将 其 命 名 为 Chr1. hap 和 Chr1. snps。若用户需要使用特定的模板,该网站也提 供了相应的转换工具。 2. 等位基因一致性检查 DNA 有两条链,基于任何一条链进行关联性研究 都是可以的。但在进行填补时,这却成为工作中的一 个难点。进行基因分型时,样本 SNP 所在的 DNA 链 不一定与模板数据库中 DNA 所在的链相同,此时等位 基因被称为是“不一致的”( inconsistent) 。MACH 软件 可以对此进行自动检测,其命令为: mach1-pedfile Chr1. ped-datfile Chr1. dat-haps Chr1. hap-snps Chr1. snps-greedy-autoFlip 这里,-pedfile、-datfile、-haps 和-snps 选 项 分 别 指 定样本基因型信息,样本 SNP 信息,模板单体型信息 和模板 SNP 信息对应的文件。autoFlip 选项的目的是 进行 DNA 链一致性检测。打开后,MACH 软件将计算 样本和模板在同一位点上不同的等位基因类别数,若 等位基因类别超过 2 个,则提示可能存在不一致的情 形( inconsistent) ,log 中将会提示 Fixed alleles for marker * * * * * … Phased Haps: [* ,* ]Pedigree: [* ,* ] 并在第 3 步建立模型时自动对等位基因进行取补 操作( 即 A→T,C→G) 。 此后,MACH 将再比较模板和样本中各位点最小 等位基因的频率,若差别有统计学意义,则会在 log 中
这里我们将手动对齐或全部删除可疑 SNP 之后 得到的. ped 和. dat 文件分别命名为 Chr1_Flipped. ped 和 Chr1_Flipped. dat。
当条件允许时,笔者建议在填补前将基因组数据 统一对齐到正链上。
3. 估计模型参数 在一致性检查完成后,需建立样本和模板单体型 间的关系模型。 mach1-pedfile Chr1 _ Flipped. ped-datfile Chr1 _ Flipped. dat-haps Chr1. hap-snps Chr1. snps-greedy-autoFlip-rounds 100-states 200-prefix par1 除了-pedfile、-datfile、-haps 和-snps 选 项 外,其 他 选项的含义为: -rounds 指定 MACH 所用算法中 markov 链迭代 次数,一般 100 次左右即可,次数越多,准确性越高; -states 指定更新每个人信息时,所用单体型个数, 默认为使用所有单体型,但 200 也可得到满意的结果; -prefix 指定产生的 hap 信息的文件的前缀。 该步骤耗时较长,400 例样本,耗时可能需 1 天。 减少 rounds 和 states 的取值,可以减少资源占用并加 快速度,但可能会以牺牲精确性为代价。完成运行后, 将生成 par1. erate 和 par1. rec 文件。前者反映了每个 位点的误差率,后者反映了每一个区段的交叉( crossover) 率,描述了样本和模板共有的单体型的断点。 4. 进行填补 填补命令为: mach1-pedfile Chr1 _ Flipped. ped-datfile Chr1 _ Flipped. dat-haps Chr1. hap-snps Chr1. snps-crossover par1. rec-errormap par1. erate-greedy-mle-mldetails-prefix Imputed_Chr_1 有关选项的含义为 -crossover 指定. rec 文件; -errormap 指定. erate 文件; -mle 指定对缺失基因型采用极大似然估计进行 填补; -mledetails 同上。 运行完毕后,MACH 将生成. mlgeno、. mlinfo、. ml-
相关文档
最新文档