基于SNP的连锁不平衡分析

连锁不平衡原理

生物信息——连锁不平衡 Linkage Disequilibrium 不同基因座位的各等位基因在人群中以一定的频率出现。在某一群体中,不同座位某两个等位基因出现在同一条染色体上的频率高于预期的随机频率的现象,称连锁不平衡 (linkage disequilibrium) 由于HLA 不同基因座位的某些等位基因经常连锁在一起遗传,而连锁的基因并非完全随机地组成单体型,有些基因总是较多地在一起出现,致使某些单体型在群体中呈现较高的频率,从而引起连锁不平衡。 例如两个相邻的基因A B, 他们各自的等位基因为a b. 假设A B 相互独立遗传,则后代群体中观察得到的单倍体基因型 AB 中出现的P(AB)的概率为 P(A) * P(B).实际观察得到群体中单倍体基因型 AB 同时出现的概率为P(AB)。计算这种不平衡的方法为: D = P(AB)- P(A) * P(B). 连锁不平衡又称等位基因关联(allelic association),其原理其实很简单。假定两个紧密连锁的位点1,2,各有两个等位型(A,a;B,b),那么在同一条染色体上将有四种可能的组合方式:A—B,A—b,a—B,和a—b。假定等位型A的频率为Pa,B的频率为Pb,那么如果不存在连锁不平衡(如组成单倍型的等位型间相互独立,随机组合)单倍型A—B的频率就应为PaPb。而如果A与B是相关联的,单倍型A—B的频率则应为PaPb+D,D是表示两位点间LD程度的值。 如果位点2上的等位型B与疾病易患性有关,那么将会观察到等

位型A的频率在病人群体中高于对照群体。换句话说,等位型A与该疾病性状相关。 事实上,可以检测遍布基因组中的大量遗传标记位点,或者候选基因附近的遗传标记来寻找到因为与致病位点距离足够近而表现出与疾病相关的位点,这就是等位基因关联分析或连锁不平衡定位基因的基本思想

基于连锁不平衡的标签SNP预测

华中科技大学 硕士学位论文 基于连锁不平衡的标签SNP预测 姓名:方哲翔 申请学位级别:硕士 专业:生物信息技术 指导教师:周艳红 20071110

华中科技大学硕士学位论文 摘要 单核苷酸多态性(single nucleotide polymorphism, SNP)是人类基因组中最丰富的遗传变异,占人类基因组遗传多态性的90%以上。基因组上的SNP位点及其相应单体型的信息已经广泛地应用于疾病易感基因定位和药物基因组学研究。近来研究表明,许多SNP位点间存在着一定的关联性,小规模的SNP位点—标签SNP(tagSNP)就可以提供全体SNP的遗传模式信息。将标签SNP位点应用于复杂遗传疾病以及药物反应的关联分析中,可以极大地减少SNP基因分型的费用,提高关联分析的效率。因此,如何有效地预测标签SNP已经成为当前生物信息学领域的研究热点之一。为此,开展了标签SNP预测的相关研究。 针对SNP基因型数据集,开发了基于连锁不平衡(linkage disequilibrium, LD)的标签SNP预测程序tagSNPPRE。首先以SNP序列中成对SNP间的连锁不平衡为基础,划分模糊单体域(haplotype block);并使用贪心穷举的混合算法预测出所有候选标签SNP集;再融合单个SNP位点的基因型分型率(%genotype)、最小等位基因频率(MAF)以及哈迪-温伯格平衡P值(HWPval)三个统计特征对所有候选标签SNP集进行筛选,最终得出最佳的标签SNP集。在广泛使用的基因型数据集上进行测试,测试结果显示tagSNPPRE具有较好的预测效果。 为了方便标签SNP相关新特征的挖掘和发现,初步构建了本地二级数据库—SNP数据库。以国际知名的数据库dbSNP作为数据来源,对dbSNP数据库进行了分析和处理,完成了SNP数据库的初步构建工作,并提供SNP查询服务。 关键词:单核苷酸多态性; 标签SNP; 连锁不平衡; 单体域; 单体型

基于关联或连锁不平衡的分析方法

基于关联或连锁不平衡的分析方法 中山大学公共卫生学院医学统计与流行病学系李彩霞博士 licx@https://www.360docs.net/doc/5918054004.html,(020)87330673-83 (引用时请注明资料来源以及作者信息) 如果两个基因座上的等位基因是随机关联的,即不独立,这种情况就叫做等位基因关联(allelic association)或者连锁不平衡(linkage disequilibrium,LD)。关联通常反映了分子标记与性状功能突变之间在统计学上的非独立性(连锁不平衡),但并不一定意味着因果关系。 如果一个群体在初始状态下连锁不平衡(δ0≠0),在随机婚配条件下,在n代以后,有δn=(1-θ)nδ0。因此连锁不平衡状态随着代数增加逐渐演变为平衡状态。当连锁很弱,即重组率θ很大(接近1/2)时,连锁不平衡参数将随着代数的增加而迅速减小。如果两个基因座紧密连锁,重组率θ很小(接近0),则不平衡状态将持续很多代。 连锁分析考察重组,因此,考察连锁必须有家庭数据,而由等位基因关联性(或连锁不平衡性)可以由一般的群体数据观察到,有的连锁不平衡现象可能是因为群体混杂造成的,但过大的连锁不平衡通常被视为紧密连锁的证据。传统的连锁分析的结果通常是将基因定位在较大(例如~30cM)的基因组区域,而连锁不平衡被视为一种精细定位的方法。Ott(1999)指出,对于那些远系繁殖的大群体,连锁不平衡通常只能延伸到0.3cM。 群体关联分析 传统的病例-对照研究是基于群体而非家系的疾病关联分析,它通过随机选择病例和对照,然后比较其在标记等位基因和基因型频率上的差异来说明位点与疾病的关联性。其缺点是:阳性结果可能由混杂因素造成,如不同分层人群(stratified populations)混杂在一起造成的虚假联系。为了克服不同分层人群混杂的影响,相应产生了基于家庭的病例-对照研究方法。 单倍型相对风险分析(HRR,haplotype relative risk) 单倍型相对风险分析是基于家系的病例-对照研究方法。例如:假定在一个标记基因座上有两个等位基因,假设确定了n个患病的子女,他们分别来自n个不同的家庭。在这n

关联分析

应用STRUCTRE软件(Pritchard 2000),是对群体进行基于数学模型的类群划分,并计算材料相应的Q值(第i材料其基因组变异源于第k群体的概率)。分析的大致理念是,首先假定样本存在K个等位变异频率特征类型数(即服从Hardy-Weinberger平衡的亚群,这里K 可以是未知的),每一类群标记位点由一套等位变异频率表征,将样本中各材料归到(或然率用Bayesian方法估计)第k个亚群,使得该亚群群体内位点频率都遵循同一个Hardy-Weinberg 平衡。 群体结构的问题探讨 一网友问了以下问题: 你好,我也想请问一下关联分析中遇到的几个疑问, 1.所谓的群体结构的消除是指群体结构越简单越好吗?为什么有的植物研究中分了好多的群,如果分布不是很均匀就是存在群体结构? 2.在群体结构分析过程中选择标记越多越好好,是每个染色体平均距离的选几个最合适?有没有明确的规定啊? 希望能得到您的赐教,谢谢 我的回复: (1)首先需要搞清楚群体结构的定义(见以下幻灯)。在现实群体中,很难有(a)类理想群体,因此在绝大多数情况下,我们在统计分析时都要将群体结构造成的伪关联考虑进去,而不是消除。常见的办法就是应用STRUCTRE软件,进行基于数学模型的类群划分,计算材料相应的Q值(第i材料其基因组变异源于第k群体的概率)。分析的大致原理是,首先假定样本存在K个等位变异频率特征类型数(即服从Hardy-Weinberger平衡的亚群,这里K 可以是未知的),每一类群SSR位点由一套等位变异频率表征,将样本中各材料归到(或然率用Bayesian方法估计)第k个亚群,使得该亚群群内位点频率都遵循同一个Hardy-Weinberg 平衡。所得Q值会作为协变量纳入后续的关联分析的回归方程。 (2)群体结构分析过程中选择标记的多少,已有模拟研究的结果,详见文献: Simulation Appraisal of the Adequacy of Number of Background Markers for Relationship Estimation in Association Mapping;Jianming Y u,* et al;Published in The Plant Genome 2:63–77. Published 18 Mar. 2009.;doi: 10.3835/plantgenome2008.09.0009 文章的建议是: For Q,>1000 single nucleotide polymorphisms or 100 simple sequence repeats for maize. For K (a minimum of several hundred SNPs spread over the whole genome is recommended ... 选取标记时注意:标记距离要远些,距离近的标记不适合Structure软件分析,正如软件说明所述“The model assumes that markers are not in linkage disequilibrium (LD) within

相关主题
相关文档
最新文档