plink去除连锁不平衡方法
基于SNP芯片数据分析不同奶牛场基因组近交系数及筛选功能性基因

畜牧兽医学报 2023,54(7):2848-2857A c t a V e t e r i n a r i a e t Z o o t e c h n i c a S i n i c ad o i :10.11843/j.i s s n .0366-6964.2023.07.017开放科学(资源服务)标识码(O S I D ):基于S N P 芯片数据分析不同奶牛场基因组近交系数及筛选功能性基因王振宇1,张赛博1,刘文慧1,梁 栋1,任小丽2,闫 磊2,闫跃飞2,高腾云1,张 震2,3*,黄河天1*(1.河南农业大学动物科技学院,郑州450046;2.河南省奶牛生产性能测定中心,郑州450045;3.河南省种业发展中心,郑州450046)摘 要:旨在利用基因组长纯合片段(r u n s o f h o m o z y g o s i t y,R OH )信息评估河南省不同中国荷斯坦牛群体的全基因组近交水平,并通过R OH 检测鉴定基因组R OH 富集区域,筛选与奶牛经济性状相关的候选基因㊂本研究基于G G P B o v i n e 150K 芯片对来自河南省7个牧场900头荷斯坦牛进行全基因组R OH 检测,统计R OH 在荷斯坦群体中的数目㊁长度及频率,根据R OH 计算基因组近交系数(F R O H ),并对高频R OH 区域进行基因注释㊂结果表明,在全部900个体中共检测出55908个R OH 片段,平均长度4.23M b ㊂7个牧场平均近交系数(F R O H )的变化范围从0.082(H 7)到0.123(H 2),平均F R O H 为0.106㊂在R OH 的高频区域内共鉴定到79个与奶牛经济性状相关的基因,如与牛体型㊁体高有关的基因A K A P 3㊁C 5H 12o r f 4㊁F G F 6,与胴体及繁殖性状相关的基因C A P N 3,与妊娠维持和胎儿生长直接相关的基因C H S T 14,影响牛奶蛋白质组成的基因I L 5R A ,参与调节胎儿卵泡生成的基因F G F 10㊂其中,在14号染色体上检测到一个高频率的R OH 区域(22.78~23.38M b ),超过80%的个体都在该区域内发生R OH 片段,并在此区域鉴定到与生长和饲料转化率相关的基因T G S 1㊁L Y N ㊁C H C HD 7㊂基于R OH 信息的奶牛近交评估可为奶牛场的选种选配提供指导,在高频R OH 区域鉴定到的候选基因可作为奶牛分子育种中进行标记辅助选择的基因㊂关键词:长纯合片段(R OH );基因组近交系数;候选基因;中国荷斯坦牛中图分类号:S 823.91 文献标志码:A 文章编号:0366-6964(2023)07-2848-10收稿日期:2022-11-22基金项目:国家现代农业产业技术体系(C A R S 36);河南省现代农业(奶牛)产业技术体系建设专项资金(H A R S -22-14-S );河南省重点研发专项(221111111100);河南省科技攻关项目(222102110342;222102110254)作者简介:王振宇(1996-),男,河南永城人,硕士生,主要从事动物遗传育种研究,E -m a i l :w z yh a n 2017@163.c o m *通信作者:黄河天,主要从事动物遗传育种研究,E -m a i l :h u a n gh t @h e n a u .e d u .c n ;张 震,主要从事动物遗传育种与繁育研究,E -m a i l :z z gx u @163.c o m G e n o m i c I n b r e e d i n g C o e f f i c i e n t A n a l y s i s a n d F u n c t i o n a l G e n e S c r e e n i n gi n D i f f e r e n t D a i r y F a r m s B a s e d o n S N P C h i p Da t a WA N G Z h e n y u 1,Z H A N G S a i b o 1,L I U W e n h u i 1,L I A N G D o n g 1,R E N X i a o l i 2,Y A N L e i 2,Y A N Y u e f e i 2,G A O T e n g yu n 1,Z H A N G Z h e n 2,3*,HU A N G H e t i a n 1*(1.C o l l e g e o f A n i m a l S c i e n c e a n d T e c h n o l o g y ,H e n a n A g r i c u l t u r a l U n i v e r s i t y ,Z h e n g z h o u 450046,C h i n a ;2.H e n a n D a i r y H e r d I m p r o v e m e n t C e n t e r ,Z h e n gz h o u 450045,C h i n a ;3.H e n a n S e e d I n d u s t r y D e v e l o p m e n t C e n t e r ,Z h e n gz h o u 450046,C h i n a )A b s t r a c t :T h i s s t u d y a i m e d t o e s t i m a t e w h o l e -g e n o m e i n b r e e d i n gl e v e l s o f C h i n e s e H o l s t e i n c a t t l e f r o m d i f f e r e n t h e r d s i n H e n a n p r o v i n c e b y u s i n g t h e r u n s o f h o m o z y g o s i t y (R O H ),a n d i d e n t i f yR O H e n r i c h e d r e gi o n s a n d s c r e e n c a n d i d a t e g e n e s a s s o c i a t e d w i t h t h e t r a i t s o f e c o n o m i c i n t e r e s t .7期王振宇等:基于S N P芯片数据分析不同奶牛场基因组近交系数及筛选功能性基因A t o t a l o f900C h i n e s e H o l s t e i n c a t t l e f o r m7d a i r y h e r d s i n H e n a n p r o v i n c e w e r e u s e d t o d e t e c t g e n o m e-w i d e R OH b y t h e G G PB o v i n e150K B e a d c h i p.T h e n u m b e r,l e n g t h a n d f r e q u e n c y o f R O H i n H o l s t e i n p o p u l a t i o n w a s c o u n t e d.T h e g e n o m e i n b r e e d i n g c o e f f i c i e n t(F R O H)w a s c a l c u-l a t e d a c c o r d i n g t o R O H,a n d t h e h i g h f r e q u e n c y R O H r e g i o n s w e r e a n n o t a t e d.R O H w a s i d e n t i-f i e d i n a l l a n i m a l s,55908R O H w e r e i d e n t i f i e d,w i t h a m e a n l e n g t h o f4.23M b.T h e e s t i m a t e d i n b r e e d i n g c o e f f i c i e n t s o f R O H i n7h e r d s r a n g e d f r o m0.082(H7)t o0.123(H2),w i t h a n a v e r-a g e F R O H o f0.106i n a l l a n i m a l s.M o r e o v e r,79g e n e s r e l a t e d t o t h e e c o n o m i c t r a i t s o f d a i r y c o w s i n t h e g e n o m i c r e g i o n w i t h h i g h f r e q u e n c y R O H w e r e i d e n t i f i e d.A m o n g t h e s e g e n e s,A K A P3, C5H12o r f4,a n d F G F6w e r e r e l a t e d t o t h e b o d y s i z e a n d h e i g h t o f c a t t l e,C A P N3w a s a s s o c i a t e d w i t h c a r c a s s a n d r e p r o d u c t i v e t r a i t s,C H S T14w a s d i r e c t l y r e l a t e d t o p r e g n a n c y m a i n t e n a n c e a n d f e t a l g r o w t h,t h e t r a i t s o f m i l k p r o t e i n c o m p o s i t i o n w e r e a f f e c t e d b y I L5R A,a n d F G F10w a s i n-v o l v e d i n r e g u l a t i n g f e t a l f o l l i c u l o g e n e s i s.N o t a b l y,a h i g h-f r e q u e n c y R O H r e g i o n w a s d e t e c t e d o n c h r o m o s o m e14(22.78-23.38M b),w h e r e m o r e t h a n80%o f i n d i v i d u a l s c a r r i e d R O H f r a g-m e n t s.T h e g e n e s T G S1,L Y N a n d C H C HD7r e l a t e d t o g r o w t h a n d f e e d c o n v e r s i o n w e r e i d e n t i-f i e d i n t h i s r e g i o n.E v a l u a t i o n o f d a i r y c a t t l e i n b r e e d i n g b a s e d o n R O H i n f o r m a t i o n c o u l d b e a u s e f u l t o o l f o r s e l e c t i o n a n d m a t i n g s t r a t e g i e s.T h e c a n d i d a t e g e n e s i d e n t i f i e d c o u l d b e u s e d f o r m a r k e r-a s s i s t e d s e l e c t i o n i n d a i r y c a t t l e b r e e d i n g.K e y w o r d s:r u n s o f h o m o z y g o s i t y(R O H);g e n o m i c i n b r e e d i n g c o e f f i c i e n t;c a n d i d a t e g e n e;C h i-n e s e H o l s t e i n c a t t l e*C o r r e s p o n d i n g a u t h o r s:HU A N G H e t i a n,E-m a i l:h u a n g h t@h e n a u.e d u.c n;Z H A N G Z h e n,E-m a i l:z z g x u@163.c o m基因组长纯合片段(r u n s o f h o m o z y g o s i t y, R OH)一般存在于二倍体生物中,它是亲代将单倍型基因中同源相同(i d e n t i t y b y d e s c e n t,I B D)的片段遗传给子代,并且在子代的基因组中形成连续性的纯合片段[1],即子代从亲代继承了同源的染色体片段,从而导致后代基因组中的纯合片段产生并上升到R O H[2]㊂连锁不平衡㊁种群瓶颈㊁遗传漂变㊁近亲交配和选择都可能是引起R O H产生的因素[1,3-4]㊂不同的群体历史会产生不同长短的R OH,长片段R O H通常由群体近几个世代近交产生,短片段R O H通常来自更远的祖先[5-7]㊂因此,通过全基因组R OH特征的检测,可以了解种群历史㊁结构㊁近交情况㊂R O H最早在人类染色体基因组发现,并被认为可能对人类健康有重要影响㊂随着R O H在人类群体遗传学中研究的深入[8-10],不同畜禽的R O H 分析研究也逐渐开展[11-13]㊂基于R O H估计基因组近交系数已成为利用全基因组信息评估近交的常用方法,即利用R O H计算基因组近交系数F R O H(i n-b r e e d i n g c a l c u l a t e d f r o m R O H),它可以准确计算个体近交系数㊂现已有多项研究证明了基于系谱信息计算的近交系数要低于真实的近交系数㊂杨湛澄等[14]利用牛54K S N P芯片数据对北京地区2107头荷斯坦牛基因组R O H分布进行了统计,并计算了基因组近交系数和系谱近交系数,发现基于R O H 计算的基因组近交系数能更准确地反映个体的真实近交情况㊂P e r i p o l l i等[15]利用770K S N P芯片数据比较了2908头吉尔牛(G y r)基于R O H(F R O H)㊁基因组关系矩阵(g e n o m i c r e l a t i o n s h i p m a t r i x, F G R M)㊁基因组纯合子百分比(h o m o z y g o s i t y, F H OM)㊁系谱信息(p e d i g r e e,F P E D)4种方法计算的近交系数,结果表明在没有系谱记录的情况下, F R O H可用作近交估计的替代方法㊂此外,通过识别群体的高频R O H片段,鉴定到了与产奶量㊁乳成分㊁热适应相关的基因㊂N a n i和P eña g a r i c a n o[16]研究发现,基因组R O H与荷斯坦公牛繁殖性状显著相关,公牛群体中高度纯合的基因组区域与公牛繁殖性状呈现负相关,并在低繁殖力公牛R O H富集区域鉴定到与精子生物学和雄性生育能力密切相关的基因㊂L i u等[17]利用简化基因组测序的方法,通过R O H与综合单倍型评分(i n t e g r a t e d h a p l o t y p e s c o r e,i H S)分析,检测到与上海荷斯坦奶牛群体健9482畜牧兽医学报54卷康㊁繁殖㊁环境适应等有关的候选基因㊂通过对全基因组R O H进行检测,可以更准确地掌握群体的近交程度,帮助研究者在育种实践中制定科学合理的选种选配方案㊂鉴定全基因组的R O H也可以更好的了解R O H在染色体上的分布规律,进而挖掘可能影响畜禽重要性状的候选基因[18-20]㊂在我国,北京[14]㊁上海[17]㊁宁夏[21]基于荷斯坦牛群体基因组R OH估算群体近交系数㊁检测与经济性状相关候选基因及选育过程中的选择信号等的研究,为中国荷斯坦奶牛育种提供了重要数据参考㊂然而,通过基因组R O H信息估计不同牧场荷斯坦奶牛群体近交水平和检测群体选择特征的研究仍然较少㊂本研究旨在利用奶牛150K S N P芯片数据对河南省7个奶牛场荷斯坦牛进行全基因组R O H检测,计算R O H的长度㊁频率㊁数目和分布以及基因组近交系数F R O H,比较不同牧场荷斯坦牛基因组近交程度,并在高频R O H区域注释与荷斯坦牛经济性状相关的候选基因㊂以期为详细了解河南省荷斯坦牛群体基因组R O H分布特征及基因组近交程度,为牧场今后选种选配提供参考㊂也可通过R OH富集区域鉴定一些与奶牛经济性状相关的基因,为奶牛标记辅助选择提供候选基因信息,为奶牛场科学选种选配提供指导㊂1材料与方法1.1试验动物根据系谱㊁生产数据记录的完整性,筛选出7个存栏量在150~5000头的规模化牧场,按存栏量10%的比例抽取牧场核心群个体进行血液样本采集,最终共采集了900头荷斯坦牛㊂具体样本分布情况详见表1㊂1.2S N P芯片分型及数据质量控制采集尾椎静脉血,提取D N A,利用G G P B o v i n e 150K芯片进行基因分型㊂用P L I N K(v1.90)[22]对原始数据进行质控,设定条件:1)S N P检出率大于95%;2)个体检出率大于99%;3)最小等位基因频率大于0.01;4)哈迪-温伯格平衡P值大于10-6;5)保留常染色体数据㊂1.3群体结构及连锁不平衡分析基于S N P信息,使用G C T A(v1.93)软件[23]对900头荷斯坦牛群体进行主成分分析(p r i n c i p a l c o m p o n e n t a n a l y s i s,P C A)㊂采用P o p L D d e c a y (v3.42)软件[24]计算每个牧场的连锁不平衡(l i n k-a g e d i s e q u i l i b r i u m,L D)程度,并使用软件自带的P l o t_M u l t i P o p.p l脚本绘制L D衰减曲线图㊂1.4R O H检测及基因组近交系数的计算R O H检测使用P L I N K软件[22],使用滑动窗口的方法对常染色体进行检测,具体检测参数如下: 1)滑动窗口阈值使用0.05;2)滑动窗口设置50个S N P s位点;3)每一个滑动窗口中允许丢失的基因型为5个;4)每一个滑动窗口中允许的杂合子数目为1个;5)组成R O H的S N P的最大间隔为1M b;6)组成R O H的S N P的最低密度为每50k b1个S N P;7)R O H片段的最小长度设为500k b;8)每个R O H至少由50个S N P s组成㊂利用R OH计算近交系数(F R O H),公式如下:F R O H=ðL R O HL g e n o m e其中,ðL R O H为常染色体上R OH片段长度之和,L g e n o m e为常染色体基因组物理长度之和(2.49G b)㊂1.5高频R O H区域候选基因鉴定使用R语言统计每个S N P在奶牛群体中参与组成R O H的次数占样本数的比例,并将前1%的S N P s区域作为高频的R O H区域㊂基于高频R O H 区段的物理位置,并通过生物数据库E n s e m b l[25]中的B i o M a r t模块与牛参考基因组(B o s_t a u r u s.A R S-U C D1.2)进行比对,检索基因,然后依据N CB I (h t t p s://w w w.n c b i.n l m.n i h.g o v/)㊁G e n eC a r d s (h t t p s://w w w.g e n e c a r d s.o r g/)网站及文献查询基因功能㊂运用K O B A S(h t t p://b i o i n f o.o r g/k o-b a s/)[26]在线数据库对注释到的基因进行K E G G 通路富集分析,当P<0.05时,则表示显著富集㊂2结果2.1S N P质控结果及群体遗传结构和连锁不平衡分析在质控后每个个体保留了96789个S N P s位点,相邻S N P s之间的平均距离为25.72k b,以供后续分析㊂图1A显示了7个牧场荷斯坦牛群体的P C A分析结果㊂从图1可以看出,7个牛场主要分为了5个亚群㊂采用P o p L D d e c a y分别计算各牧场群体的成对r2值,用于比较不同荷斯坦牛群体的L D 水平(图1B)㊂L D分析显示,7个牧场奶牛群体L D 衰减的顺序为:H7>H4&H5>H2&H3&H6>H1㊂05827期王振宇等:基于S N P芯片数据分析不同奶牛场基因组近交系数及筛选功能性基因A.主成分分析图;B .L D 衰减图㊂H 1~H 7代表牧场编号A.P r i n c i p a l c o m p o n e n t a n a l y s i s o f H o l s t e i n c a t t l e p o p u l a t i o n ;B .L D d e c a y o f H o l s t e i n c a t t l e p o p u l a t i o n .H 1-H 7r e pr e s e n t s pa s t u r e n u mb e r 图1 群体遗传结构及连锁不平衡F i g .1 P o p u l a t i o n g e n e t ic s t r u c t u r e a nd l i n k a ge d i s e qu i l i b r i u m 2.2 R O H 数目㊁长度及分布的统计由表1可以看出,在7个牧场荷斯坦牛群体中共检测出55908个R O H ,R O H 的平均长度为4.23M b ,范围在1.90~14.07M b ㊂其中H 6号牛场R O H 平均长度最小,为3.27M b ;H 2号牛场R OH 平均长度最大为4.49M b ㊂在0~5M b 长度上,R O H 总体比例占76.21%,其中H 1㊁H 6牧场R OH 比例较大(83.70%㊁84.30%),其余牧场R O H 比例范围为73.33%~76.52%;在5~10M b长度上,R O H 总体比例占15.14%,其中H 1㊁H 6牧场R O H 比例较小(10.26%㊁10.67%),其余牧场R O H 比例范围为14.89%~17.06%;在>10M b长度上,R O H 总体比例占8.64%,其中H 1㊁H 6牧场R O H 比例较小(6.03%,5.04%),其余牧场R O H 比例范围为7.61%~9.61%㊂图2展示了常染色体上不同长度R O H 的数目㊂表1 不同奶牛场荷斯坦牛R O H 长度和数量T a b l e 1 T h e m e a n l e n g t h a n d n u m b e r o f r u n s o f h o m o z y g o s i t y (R O H )i n H o l s t e i n o f d i f f e r e n t d a i r y f a r m s 牛场编号F a r m n u m b e r 牛群数量N u m b e ro f c a t t l e 成母牛数量N u m b e ro f c o w s样本数S a m pl e s i z e 总R OH 数量T o t a l n u m b e ro f R OHR OH 平均长度/M bT h e m e a n l e n gt h o f R OH 均值M e a n标准差S D最小值M i n最大值M a xH 1152721411163.470.442.754.26H 23631983624634.490.523.575.71H 3185991912234.380.653.525.91H 451522600530325494.361.262.1014.07H 513106*********4.400.872.676.50H 610055019371663.270.622.185.41H 711265109747404.211.061.908.52平均A v e r a ge 132866212979874.080.782.677.20合计T o t a l92934632900559084.231.161.9014.072.3 基因组近交系数评估不同牧场荷斯坦牛群体基于R O H 的近交系数及变化范围见表2㊂全群中基于R O H 的基因组F R O H 范围为0.021~0.447,近交系数平均值为0.106,标准差为0.040㊂其中H 2号牧场平均F R O H最高(0.123),H 7号牧场平均F R O H 最低(0.082),其他牧场分别为0.112㊁0.114㊁0.109㊁0.108㊁0.103㊂在个体层面中,F R O H 最低的个体出现在H 71582畜 牧 兽 医 学 报54卷图2 染色体上不同长度R O H 的数目F i g .2 N u m b e r o f R O H w i t h d i f f e r e n t l e n gt h o n c h r o m o s o m e 号牛场中(0.021),F R O H 最高的个体出现在H 4号牛场中(0.447)㊂2.4 高频R O H 区域及候选基因鉴定与注释㊁富集图3展示了在1~29号染色体上组成R O H 的S N P s 占群体的百分率㊂通过选择组成R O H 中前1%S N P s ,以确定统计阈值,本研究选取频率大于29.78%作为高频率的R O H 区域阈值㊂共检测到8个高频区域,并通过E n s e m b l 数据库对R O H 中的高频区域进行基因注释,共注释到79个基因,见表3㊂其中,14号染色体上22.78~23.38M b 位置的区域,80%的个体都在该区域内发生R O H 片段,并注释到3个基因㊂利用K O B A S 对注释到的基因进行K E G G 通路富集分析,结果见表4㊂分析得出表2 基于R O H 的不同奶牛场的近交系数(F R O H )T a b l e 2 I n b r e e d i n g c o e f f i c i e n t (F R O H )o f d i f f e r e n t d a i r yf a r m s b a s e d o n R O H 牛场编号F a r m n u m b e r 样本数S a m pl e s i z e 近交系数(F R O H )I n b r e e d i n g co e f f i c i e n t 均值M e a n标准差S D最小值M i n最大值M a xH 1140.1120.0260.0620.156H 2360.1230.0190.0840.163H 3190.1140.0680.0680.173H 45300.1090.0430.0290.447H 51110.1080.0360.0280.213H 6930.1030.0310.0410.196H 7970.0820.0350.0210.226平均A v e r a ge 1290.1070.0370.0470.225合计T o t a l9000.1060.0400.0210.447图3 R O H s 中S N P s 百分比曼哈顿图F i g .3 M a n h a t t a n p l o t o f S N P s p e r c e n t a ge s i n R O H s 25827期王振宇等:基于S N P 芯片数据分析不同奶牛场基因组近交系数及筛选功能性基因79个基因显著富集于酮体的合成与降解(s yn t h e s i s a n d d e gr a d a t i o n o f k e t o n e b o d i e s )㊁缬氨酸㊁亮氨酸和异亮氨酸降解(v a l i n e ,l e u c i n e a n d i s o l e u c i n ed e gr a d a t i o n )㊁丁酸代谢(b u t a n o a t e m e t a b o l i s m )㊁R a s 信号通路(r a s s i g n a l i n g p a t h w a y)等11个信号通路㊂表3 荷斯坦牛高频R O H 区域及候选基因T a b l e 3 H i g h -f r e q u e n c y R O H r e gi o n s a n d c a n d i d a t e g e n e s i n H o l s t e i n c a t t l e 染色体C h r o m o s o m e物理位置/M b P h ys i c a l d i s t a n c e S N P s 数目N u m b e r o f S N P s 基因G e n e5105.514~105.77639A K A P 3㊁C 5H 12o r f 4㊁F G F 23㊁F G F 61035.989~38.53083B A H D 1㊁C 10H 15o r f 62㊁C A P N 3㊁C C ND B P 1㊁C H A C 1㊁C H P 1㊁C H S T 14㊁D L L 4㊁G A N C ㊁G C H F R ㊁H A U S 2㊁I T P K A ㊁I V D ㊁J M J D 7㊁K N L 1㊁K N S T R N ㊁M A P K B P 1㊁M G A ㊁P L A 2G 4B ㊁R A D 51㊁R P U S D 2㊁R T F 1㊁S N A P 23㊁S P I N T 1㊁T M E M 62㊁T Y R O 3㊁Z F Y V E 19㊁V P S 181421.726~25.698323R G S 20㊁M R P L 15㊁S O X 17㊁R P 1㊁X K R 4㊁T G S 1㊁L Y N ㊁C H C HD 7㊁F AM 110B ㊁U B XN 2B ㊁S D C B P1710.153~10.55516P R M T 9205.444~6.070134C P E B 4㊁C 20H 5o r f 47㊁N S G 224.070~33.323299E S M 1㊁C S P G 4B ㊁A R L 15㊁M O C S 2㊁E M B ㊁H C N 1㊁F G F 10㊁P A I P 1㊁C 20H 5o r f 34㊁C C L 28㊁T M E M 267㊁HM G C S 1㊁S E L E N O P ㊁O X C T 1㊁P L C X D 3㊁C 62222.914~23.31715C R B N ㊁I L 5R A2937.108~39.90862M S 4A 15㊁M S 4A 10㊁C C D C 86㊁T M E M 109㊁T M E M 132A ㊁C D 6㊁C D 5㊁P A G 10㊁P A G 12㊁P A G 8㊁P G A 5㊁T K F C ㊁T M E M 138㊁T M E M 216表4 高频R O H 区域基因的K E G G 通路富集分析(P <0.05)T a b l e 4 K E G G p a t h w a y e n r i c h m e n t a n a l y s i s o f g e n e s i n h i g h -f r e q u e n c y R O H r e gi o n s (P <0.05)通路P a t h w a y注释D e s c r i pt i o n 基因数NP 值P v a l u e基因G e n eb t a 04974:P r o t e i n d i g e s t i o n a n d a b s o r pt i o n 蛋白质消化吸收42.99ˑ10-4P A G 8㊁P A G 12㊁P A G 10㊁P G A 5b t a 00280:V a l i n e ,l e u c i n e a n di s o l e u c i n e d e gr a d a t i o n 缬氨酸㊁亮氨酸和异亮氨酸降解34.36ˑ10-4I V D ㊁HM G C S 1㊁O X C T 1b t a 00072:S y n t h e s i s a n d d e gr a d a t i o n o f k e t o n e b o d i e s酮体的合成与降解25.60ˑ10-4HM G C S 1㊁O X C T 1b t a 05224:B r e a s t c a n c e r乳腺癌48.42ˑ10-4F G F 6㊁F G F 10㊁D L L 4㊁F G F 23b t a 05218:M e l a n o m a黑色素瘤31.18ˑ10-3F G F 6㊁F G F 10㊁F G F 23b t a 00650:B u t a n o a t e m e t a b o l i s m 丁酸代谢23.03ˑ10-3HM G C S 1㊁O X C T 1b t a 05200:P a t h w a ys i n c a n c e r 癌症的通路63.73ˑ10-3I L 5R A ㊁D L L 4㊁R A D 51㊁F G F 6㊁F G F 10㊁F G F 23b t a 04014:R a s s i g n a l i n g p a t h w a y R a s 信号通路44.61ˑ10-3P L A 2G 4B ㊁F G F 10㊁F G F 23㊁F G F 6b t a 04611:P l a t e l e t ac t i v a t i o n血小板活化34.76ˑ10-3P L A 2G 4B ㊁L Y N ㊁S N A P 23b t a 04010:MA P K s i g n a l i n g p a t h w a y MA P K 信号通路48.76ˑ10-3P L A 2G 4B ㊁F G F 10㊁F G F 23㊁F G F 6b t a 05226:G a s t r ic c a n c e r胃癌38.95ˑ10-3F G F 6㊁F G F 10㊁F G F 233 讨 论3.1 荷斯坦牛群体基因组R O H 基本统计分析不同育种目标及选择强度会引起不同荷斯坦牛群体中R O H 数目㊁长度及分布情况的差异[5-6,27]㊂K i m 等[7]通过比较3个北美荷斯坦牛群体在产奶性状不同选择强度下基因组R O H 的变化,揭示了总体R O H 频率和分布方面的显著差异,结果显示3582畜牧兽医学报54卷群体内R OH平均长度约为6M b,小于5M b的R OH片段数目占总片段数目的53%㊂而与K i m 等[7]的研究结果相比,本研究中荷斯坦牛群体R OH平均长度为4.23M b,小于5M b的R O H片段的数目占总片段数目的76.21%㊂另外对比不同牧场群体,小于5M b的R O H片段数目所占比例也有差异㊂在基因组R O H长度上,M a r r a s等[28]利用50K S N P芯片对5个意大利公牛品种进行R O H分析,结果表明相较于其他品种,乳用品种荷斯坦牛和意大利布朗牛的平均R O H长度更大(3.6㊁3.9M b),其中荷斯坦牛群体的R OH平均长度与本研究的结果相近㊂在牧场群体方面,H1和H6号牧场群体在小于5M b的R O H片段数目占总片段数目最高(83.70%㊁84.30%),而大于10M b的R O H片段数目占总片段数目比例最低(6.03%㊁5.04%)㊂研究显示,较近世代的共同祖先会造成长R O H片段的形成,短的R OH来源于关系较远的共同祖先[7,29]㊂此外,各个牧场奶牛群体R O H平均长度㊁变化范围也有差异,这与不同牧场奶牛群体来源以及选配过程中使用不同国别的冷冻精液有关㊂因此,本研究基于对不同牧场群体基因组R O H的数目㊁长度及分布的研究,评估群体近交情况,为牧场今后的选种选配提供参考㊂3.2基于R O H的基因组近交系数目前,R OH常用来计算个体近交系数,且具有较高的准确性[15,30-33]㊂本研究中,河南荷斯坦牛群体总平均F R O H(0.106)与宁夏[21](0.101)㊁北京[14] (0.007~0.312)荷斯坦牛群体F R O H相近,与上海[17]荷斯坦牛群体(0.363)相差较大㊂上海与北京作为我国的南㊁北奶牛养殖业的代表地区,由于选育目标㊁强度㊁气候等因素的影响,群体近交程度出现差异,河南地理位置上属于中原地区,在奶牛育种策略和群体近交情况上与北方更相近㊂近交水平在一定程度上也可以反映牧场选种选配管理状况㊂在牧场选配管理上,由表2可以看到,H1㊁H2㊁H3号牧场平均F R O H较高(0.112㊁0.123㊁0.114),H7号牧场平均F R O H较低(0.082),不同牧场之间的差异侧面反映出这些牧场在选配过程中对群体近交问题的管理程度;在牧场规模上,H1㊁H2㊁H3号牧场规模较小,群体数量较少,平均F R O H较高(0.112㊁0.123㊁0.114),H4号牧场规模较大,群体数量多,平均F R O H较低(0.109)㊂此外,在H4号牧场中有些个体的F R O H明显较高(>0.285),最大F R O H达到0.458,反映出该牧场在个体选种选配过程中未充分考虑近交问题㊂因此,通过对近交系数的计算可以了解不同牧场群体近交状况,从而在实际选种选配工作中能更有效的避免近交,减少经济损失㊂3.3基因组高频R O H区域的候选基因分析本研究在高频R O H区域中共鉴定到了79个基因,其中包含与奶牛经济性状有关的基因,如A K A P3㊁C5H12o r f4㊁C A P N3㊁A R L15㊁X K R4㊁C R B N㊁I L5R A等㊂5号染色体上A K A P3㊁C5H12o r f4㊁F G F6基因与体型㊁体高有关[34-36]㊂10号染色体上C A P N3基因与胴体㊁繁殖性状相关[37-38]㊂C H S T14基因与妊娠维持和胎儿生长直接相关[39]㊂22号染色体上I L5R A基因影响牛奶蛋白质组成[40]㊂此外还有一些基因与繁殖㊁生长等性状有关,如F G F10基因参与调节胎儿卵泡生成[41]㊂值得注意的是,14号染色体上22.78~ 23.38M b区域是R O H频率最高的区域,80%的个体都在该区域内发生R O H片段(图3)㊂发现该区域与宁夏[21]荷斯坦牛群体高频区域(21.61~ 24.99M b)高度重合,这可能与不同地区育种目标及选择强度有关,并随着选育的推进,在基因组中出现相近的长纯合区域㊂这个高频区域注释到T G S1㊁L Y N㊁C H C HD7基因,这些基因与生长㊁胴体相关性状[42-43]和饲料效率有关[35,44-45]㊂因此,本研究在R O H富集区域鉴定的基因可以为荷斯坦奶牛分子育种提供候选基因信息㊂4结论本研究对河南省荷斯坦牛群体进行全基因组R O H检测与分析,发现R OH在不同牧场群体中的数目㊁长度及频率存在差异,基于R OH计算的近交系数范围在0.082~0.123,反映出不同牧场近交水平存在差异,这有助于了解河南省荷斯坦牛群体近交程度,为牧场选育过程中避免近交提供指导㊂在全基因组范围内检测到8个高频R O H富集区域,共筛选出79个与奶牛经济性状相关的基因,如A K A P3㊁C5H12o r f4㊁C A P N3㊁A R L15㊁X K R4㊁C R B N㊁I L5R A等,可作为奶牛分子育种中进行标记辅助选择的候选基因㊂参考文献(R e f e r e n c e s):[1] C E B A L L O S F C,J O S H I P K,C L A R K D W,e t a l.R u n s o f h o m o z y g o s i t y:w i n d o w s i n t o p o p u l a t i o n45827期王振宇等:基于S N P芯片数据分析不同奶牛场基因组近交系数及筛选功能性基因h i s t o r y a n d t r a i t a r c h i t e c t u r e[J].N a t R e v G e n e t,2018,19(4):220-234.[2] B R OMA N K W,W E B E R J L.L o n g h o m o z y g o u sc h r o m o s o m a l s e g m e n t s i n r e f e r e n c e f a m i l i e s f r o m t h eC e n t r e d E t u d e d u P o l y m o r p h i s m e H u m a i n[J].A m JH u m G e n e t,1999,65(6):1493-1500.[3] C U R I K I,F E R E N㊅C A K O V I C'M,SÖL K N E R J.I n b r e e d i n g a n d r u n s o f h o m o z y g o s i t y:a p o s s i b l es o l u t i o n t o a n o l d p r o b l e m[J].L i v e s t S c i,2014,166:26-34.[4] MU L I M H A,B R I T O L F,P I N T O L F B,e t a l.C h a r a c t e r i z a t i o n o f r u n s o f h o m o z y g o s i t y,h e t e r o z y g o s i t y-e n r i c h e d r e g i o n s,a n d p o p u l a t i o ns t r u c t u r e i n c a t t l e p o p u l a t i o n s s e l e c t e d f o r d i f f e r e n tb r e e d i n g g o a l s[J].B M C G e n o m ic s,2022,23(1):209.[5] Z HA N G Q Q,G U L D B R A N D T S E N B,B O S S E M,e ta l.R u n s o f h o m o z y g o s i t y a n d d i s t r ib u t i o n o ff u n c t i o n a l v a r i a n t s i n t h e c a t t l eg e n o m e[J].B M CG e n o m i c s,2015,16(1):542.[6] P U R F I E L D D C,B E R R Y D P,M C P A R L A N D S,e ta l.R u n s o f h o m o z y g o s i t y a n d p o p u l a t i o n h i s t o r y i nc a t t l e[J].B M C G e n e t,2012,13:70.[7] K I M E S,C O L E J B,HU S O N H,e t a l.E f f e c t o fa r t i f i c i a l s e l e c t i o n o n r u n s o f h o m o z y g o s i t y i n U.S.H o l s t e i n c a t t l e[J].P L o S O n e,2013,8(11):e80813.[8] L E N C Z T,L AM B E R T C,D E R O S S E P,e t a l.R u n s o fh o m o z y g o s i t y r e v e a l h i g h l y p e n e t r a n t r e c e s s i v e l o c i i ns c h i z o p h r e n i a[J].P r o c N a t l A c a d S c i U S A,2007,104(50):19942-19947.[9] C O R R E I A-C O S T A G R,S G A R D I O L I I C,S A N T O SA P D,e t a l.I n c r e a s e d r u n s o f h o m o z y g o s i t y i n t h ea u t o s o m a l g e n o m e o f B r a z i l i a n i n d i v i d u a l s w i t hn e u r o d e v e l o p m e n t a l d e l a y/i n t e l l e c t u a l d i s a b i l i t y a n d/o r m u l t i p l e c o n g e n i t a l a n o m a l i e s i n v e s t i g a t e d b yc h r o m o s o m a l m i c r o a r r a y a n a l y s i s[J].G e n e t M o lB i o l,2022,45(1):e20200480.[10] D A C R U Z P R S,A N A N I N A G,S E C O L I N R,e t a l.D e m o g r a p h i c h i s t o r y d i f f e r e n c e s b e t w e e n H i s p a n i c sa n d B r a z i l i a n s i m p r i n t h a p l o t y p e f e a t u r e s[J].G3(B e t h e s d a),2022,12(7):j k a c111.[11]刘家鑫,魏霞,邓天宇,等.绵羊全基因组R OH检测及候选基因鉴定[J].畜牧兽医学报,2019,50(8):1554-1566.L I U J X,W E I X,D E N G T Y,e t a l.G e n o m e-w i d e s c a nf o r r u n o f h o m o z yg o s i t y a n d i d e n t i f i c a t i o n o fc o r r e s p o nd i n g c a n d i d a te g e n e s i n s h e e p p o p u l a t i o n s[J].A c t a V e t e r i n a r i a e t Z o o t e c h n i c a S i n i c a,2019,50(8):1554-1566.(i n C h i n e s e)[12] G O R S S E N W,M E Y E R MA N S R,J A N S S E N S S,e ta l.A p ub l ic l y a v a i l a b l e r e p o s i t o r y o f R OH i s l a nd sr e v e a l s s i g n a t u r e s o f s e l e c t i o n i n d i f f e r e n t l i v e s t o c ka n d p e t s p e c i e s[J].G e n e t S e l E v o l,2021,53(1):2.[13]赵国耀.基于肉牛基因组纯合片段的性状关联与预测[D].北京;中国农业科学院,2021.Z HA O G Y.A s s o c i a t i o n a n d p r e d i c t i o n o f t r a i t s b a s e do n g e n o m i c h o m o z y g o u s s e g m e n t s i n b e e f c a t t l e[D].B e i j i n g:C h i n e s e A c a d e m y o f A g r i c u l t u r a l S c i e n c e s,2021.(i n C h i n e s e)[14]杨湛澄,黄河天,闫青霞,等.利用高密度S N P标记分析中国荷斯坦牛基因组近交[J].遗传,2017,39(1):41-47.Y A N G Z C,HU A N G H T,Y A N Q X,e t a l.E s t i m a t i o n o f g e n o m i c i n b r e e d i n g c o e f f i c i e n t s b a s e do n h i g h-d e n s i t y S N P m a r k e r s i n C h i n e s e H o l s t e i nc a t t l e[J].H e r ed i t a s,2017,39(1):41-47.(i n C h i ne s e)[15] P E R I P O L L I E,S T A F U Z Z A N B,MU N A R I D P,e ta l.A s s e s s m e n t o f r u n s o f h o m o z y g o s i t y i s l a n d s a n de s t i m a t e s ofg e n o m i c i n b r e e d i n g i n G y r(B o s i n d i c u s)d a i r y c a t t l e[J].B M C Ge n o m i c s,2018,19(1):34.[16] N A N I J P,P EÑA G A R I C A N O F.W h o l e-g e n o m eh o m o z y g o s i t y m a p p i n g r e v e a l s c a n d i d a t e r e g i o n sa f f e c t i n gb u l l f e r t i l i t y i n U S H o l s t e i nc a t t l e[J].B M CG e n o m i c s,2020,21(1):338.[17] L I U D Y,C H E N Z L,Z HA O W,e t a l.G e n o m e-w i d es e l e c t i o n s i g n a t u r e s d e t e c t i o n i n S h a n g h a i H o l s t e i nc a t t l e p o p u l a t i o n ide n t if i e dg e n e s r e l a t e d t o a d a p t i o n,h e a l t h a n d r e p r o d u c t i o n t r a i t s[J].B M C G e n o m i c s,2021,22(1):747.[18] MA K A N J U O L A B O,MA L T E C C A C,M I G L I O R F,e t a l.I d e n t if i c a t i o n o f u n i q u e R OH r eg i o n s w i t hu n f a v o r a b l e e f f e c t s o n p r o d u c t i o n a n d f e r t i l i t y t r a i t s i nC a n a d i a n H o l s t e i n s[J].G e n e t S e l E v o l,2021,53(1):68.[19] L I U J X,S H I L Y,L I Y,e t a l.E s t i m a t e s o f g e n o m i ci n b r e e d i n g a n d i d e n t i f i c a t i o n o f c a n d i d a t e r e g i o n s t h a td i f fe r b e t w e e n C h i n e s e i n d i g e n o u s s h e e p b r e e d s[J].JA n i m S c iB i o t e c h n o l,2021,12(1):95.[20]史良玉,王立刚,张鹏飞,等.不同来源大白猪总产仔数近交衰退评估[J].畜牧兽医学报,2021,52(10):2772-2782.S H I L Y,WA N G L G,Z HA N G P F,e t a l.E v a l u a t i o no f i n b r e e d i n g d e p r e s s i o n o n t h e t o t a l n u m b e r s o fp i g l e t s b o r n i n d i f f e r e n t g r o u p s o f l a r g e w h i t e p i g s[J].A c t a V e t e r i n a r i a e t Z o o t e c h n i c a S i n i c a,2021,525582畜牧兽医学报54卷(10):2772-2782.(i n C h i n e s e)[21]刘丽元.GWA S㊁C N V及R OH挖掘宁夏地区荷斯坦奶牛重要性状候选基因的研究[D].银川:宁夏大学,2021.L I U L Y.I n t e g r a t i n g GWA S,C N V a n d R OH a n a l y s i sr e v e a l s c a n d i d a t e g e n e s o f i m p o r t a n t t r a i t s i n N i n g x i ah o l s t e i n c o w[D].Y i n c h u a n:N i n g x i a U n i v e r s i t y,2021.(i n C h i n e s e)[22] C HA N G C C,C HOW C C,T E L L I E R L C A M,e ta l.S e c o n d-g e n e r a t i o n P L I N K:r i s i n g t o t h e c h a l l e n g eo f l a r g e r a n d r i c h e r d a t a s e t s[J].G i g a s c i e n c e,2015,4(1):7.[23] Y A N G J A,L E E S H,G O D D A R D M E,e t a l.G C T A:a t o o l f o r g e n o m e-w i d e c o m p l e x t r a i t a n a l y s i s[J].A m J H u m G e n e t,2011,88(1):76-82.[24] Z HA N G C,D O N G S S,X U J Y,e t a l.P o p L D d e c a y:af a s t a n d e f f e c t i v e t o o l f o r l i n k ag e d i s e q u i l i b r i u m d e c a ya n a l y s i sb a s e d o n v a r i a n tc a l l f o r m a t f i l e s[J].B i o i n f o r m a t i c s,2019,35(10):1786-1788.[25] C U N N I N G HAM F,A L L E N J E,A L L E N J,e t a l.E n s e m b l2022[J].N u c l e i c A c i d s R e s,2022,50(D1):D988-D995.[26] B U D C,L U O H T,HU O P P,e t a l.K O B A S-i:i n t e l l i g e n t p r i o r i t i z a t i o n a n d e x p l o r a t o r y v i s u a l i z a t i o no f b i o l o g i c a l f u n c t i o n s f o r g e n e e n r i c h m e n t a n a l y s i s[J].N u c l e i c A c i d s R e s,2021,49(W1):W317-W325.[27] HOWA R D J T,MA L T E C C A C,HA I L E-MA R I AMM,e t a l.C h a r a c t e r i z i n g h o m o z y g o s i t y a c r o s s U n i t e dS t a t e s,N e w Z e a l a n d a n d A u s t r a l i a n J e r s e y c o w a n db u l l p o p u l a t i o n s[J].B M C G e n o m ic s,2015,16(1):187.[28] MA R R A S G,G A S P A G,S O R B O L I N I S,e t a l.A n a l y s i s o f r u n s o f h o m o z y g o s i t y a n d t h e i rr e l a t i o n s h i p w i t h i n b r e e d i n g i n f i v e c a t t l e b r e e d sf a r m e d i n I t a l y[J].A n i m G e n e t,2015,46(2):110-121.[29] K E L L E R M C,V I S S C H E R P M,G O D D A R D M E.Q u a n t i f i c a t i o n o f i n b r e e d i n g d u e t o d i s t a n t a n c e s t o r sa n d i t s d e t e c t i o n u s i n g d e n s e s i n g l e n u c l e o t i d ep o l y m o r p h i s m d a t a[J].G e n e t i c s,2012,189(1):237-249.[30] F E R E N C A K O V I C M,HAM Z I C E,G R E D L E R B,e ta l.R u n s o f h o m o z y g o s i t y r e v e a l g e n o m e-w i d ea u t o z y g o s i t y i n t h e A u s t r i a n F l e c k v i e h c a t t l e[J].A g r i c C o n s p e c S c i,2011,76(4):325-329.[31] Z HA N G Q Q,C A L U S M P L,G U L D B R A N D T S E NB,e t a l.E s t i m a t i o n o f i n b r e e d i n g u s i n g p e d i g r e e,50kS N P c h i p g e n o t y p e s a n d f u l l s e q u e n c e d a t a i n t h r e ec a t t l e b r e ed s[J].B M C Ge n e t,2015,16:88.[32] F O R U T A N M,MA H Y A R I S A,B A E S C,e t a l.I n b r e e d i n g a n d r u n s o f h o m o z y g o s i t y b e f o r e a n d a f t e rg e n o m i c s e l e c t i o n i n N o r t h A m e r i c a n H o l s t e i n c a t t l e[J].B M C G e n o m i c s,2018,19(1):98.[33] L O Z A D A-S O T O E A,T I E Z Z I F,J I A N G J C,e t a l.G e n o m i c c h a r a c t e r i z a t i o n o f a u t o z y g o s i t y a n d r e c e n ti n b r e e d i n g t r e n d s i n a l l m a j o r b r e e d s o f U S d a i r yc a t t l e[J].J D a i r y S c i,2022,105(11):8956-8971.[34]J I A N G J C,C O L E J B,F R E E B E R N E,e t a l.F u n c t i o n a l a n n o t a t i o n a n d B a y e s i a n f i n e-m a p p i n gr e v e a l s c a n d i d a t e g e n e s f o r i m p o r t a n t a g r o n o m i c t r a i t si n H o l s t e i n b u l l s[J].C o m m u n B i o l,2019,2(1):212.[35] G HO R E I S H I F A R S M,E R I K S S O N S,J OHA N S S O N A M,e t a l.S i g n a t u r e s o f s e l e c t i o nr e v e a l c a n d i d a t e g e n e s i n v o l v e d i n e c o n o m i c t r a i t s a n dc o ld a c c l i m a t i o n i n f i ve S w e d i s h c a t t l e b r e e d s[J].G e n e t S e l E v o l,2020,52(1):52.[36] F A N G L Z,C A I W T,L I U S L,e t a l.C o m p r e h e n s i v ea n a l y s e s o f723t r a n s c r i p t o m e s e n h a n c e g e n e t i c a n db i o l o g ic a l i n t e r p r e t a t i o n s f o r c o m p l e x t r a i t s i n c a t t l e[J].G e n o m e R e s,2020,30(5):790-801.[37] Z HA N G Y Y,X U E X L,L I U Y,e t a l.G e n o m e-w i d ec o m p a r a t i v e a n a l y s e s r e v e a l s e l e c t i o n s i g n a t u r e su n d e r l y i n g a d a p t a t i o n a n d p r o d u c t i o n i n T i b e t a n a n dP o l l D o r s e t s h e e p[J].S c i R e p,2021,11(1):2466.[38] WA N G J F,L I B Z,Y A N G X R,e t a l.I n t e g r a t i o n o fR N A-s e q a n d A T A C-s e q i d e n t i f i e s m u s c l e-r e g u l a t e dh u b g e n e s i n c a t t l e[J].F r o n t V e t S c i,2022,9:925590.[39] S I G D E L A,B I S I N O T T O R S,P EÑA G A R I C A N O F.G e n e s a n d p a t h w a y s a s s o c i a t e d w i t h p r e g n a n c y l o s s i nd a i r y c a t t l e[J].S c i Re p,2021,11(1):13329.[40] Z HO U C H,L I C,C A I W T,e t a l.G e n o m e-w i d ea s s o c i a t i o n s t u d y f o r m i l k p r o t e i n c o m p o s i t i o n t r a i t si n a c h i n e s e h o l s t e i n p o p u l a t i o n u s i n g a s i n g l e-s t e pa p p r o a c h[J].F r o n t G e n e t,2019,10:72.[41] F R E I T A S P H F,O L I V E I R A H R,S I L V A F F,e ta l.S h o r t c o mm u n i c a t i o n:t i m e-d e p e n d e n t g e n e t i cp a r a m e t e r s a n d s i n g l e-s t e p g e n o m e-w i d e a s s o c i a t i o na n a l y s e s f o r p r e d i c t e d m i l k f a t t y a c i d c o m p o s i t i o n i nA y r s h i r e a n d J e r s e y d a i r y c a t t l e[J].J D a i r y S c i,2020,103(6):5263-5269.[42] C H E R U I Y O T E K,B E T T R C,AM I MO J O,e t a l.S i g n a t u r e s o f s e l e c t i o n i n a d m i x e d d a i r y c a t t l e i nt a n z a n i a[J].F r o n t G e n e t,2018,9:607.6582。
pcr数据处理教程

PCR数据处理教程引言PCR(聚合酶链式反应)是一种常用的分子生物学技术,用于扩增DNA片段。
PCR 实验数据需要经过处理和分析,以获取准确的结果。
本文将介绍PCR数据处理的基本步骤和常用方法。
数据预处理1.去除引物序列:PCR实验通常使用引物来选择特定的DNA片段进行扩增。
在数据处理过程中,首先需要去除引物序列,只保留扩增后的目标片段。
2.去除低质量数据:PCR实验中可能会产生一些低质量的数据,比如噪音和杂质。
这些数据会影响后续分析的准确性,因此需要进行去除。
数据分析1.碱基质量评估:通过观察PCR数据中每个碱基的质量值,可以评估测序数据的准确性。
一般来说,质量值高于Q20的数据被认为是高质量的。
2.序列比对:将PCR数据与参考序列进行比对,可以确定PCR扩增的目标片段的位置和准确性。
3.异常数据处理:在PCR实验中,可能会出现一些异常的数据,比如插入或缺失的碱基。
这些异常数据需要进行处理,以确保结果的准确性。
4.数据统计及可视化:对PCR数据进行统计分析和可视化,可以直观地了解样本的基本特征和扩增效果。
结果解读1.扩增效果评估:根据PCR数据的分析结果,可以评估扩增效果的好坏。
一般来说,有效扩增的片段应该具有明确的信号和清晰的峰值。
2.突变检测:通过对PCR数据进行分析,可以检测样本中可能存在的突变情况,比如基因突变或插入缺失情况。
3.目标片段定量:通过PCR数据的定量分析,可以确定目标片段在样本中的相对丰度或绝对拷贝数。
结论PCR数据处理是PCR实验的重要环节,直接影响结果的准确性和解读的可靠性。
合理的数据处理方法和准确的结果分析是PCR实验的关键步骤,需要科学严谨地进行。
以上就是PCR数据处理的基本步骤和常用方法。
希望本文对PCR实验数据的处理和分析有所帮助,能够提高实验的准确性和结果的可靠性。
16个X-STR基因座的连锁不平衡检验和突变率调查

16个X-STR基因座的连锁不平衡检验和突变率调查李莉;刘俊宏;朱如心;林源【摘要】目的:检测X染色体上16个STR基因座的连锁不平衡情况,并对其遗传稳定性进行调查。
方法从华东汉族群体选取女性无关个体500名、家系885个,提取血样DNA,利用自主研发的IDtyperX-16试剂盒对16个X-STR基因座进行多重PCR扩增和毛细管电泳分型,使用PowerMarker v3.25软件对基因座进行连锁不平衡检验,并分析各个基因座的突变率。
结果16个X-STR基因座彼此之间不存在连锁不平衡现象;有10个基因座检见突变,其中DXS6809和DXS7132的突变率均高达0.0048。
结论对于IDtyperX-16试剂盒中的16个X-STR基因座,在亲权鉴定中应用时可运用乘积原理计算似然率,但若遇到不符合遗传规律的情形(尤其是DXS6809、DXS7132基因座),应考虑存在突变的可能。
%Objective To assess the patterns oflinkage disequilibrium (LD ) of16 STR loci on X chrom o-som e and investigate the genetic stability. Methods G enom ic DNA samples extracted from blood stains from 500 unrelated individuals and 885 lineage m em bers from E astern C hinese H an population were genotyped through m ultiplex am plification using ID typerX-16 kit by our independent research followed by capillary electrophoresis. LD was assessed by PowerM arker v3.25 software and m utation rate of every locus was analyzed. Results LD were not found at the 16 X-STR loci. A llele m utations were observed at 10 loci. A m ong them ,m utation rates of DXS6809 and DXS7132 were both up to 0.004 8. Conclusion W hen the 16 X-ST R loci included in ID typerX-16 kit were used for parentage testing, product princi-ples can be applied to calculatethe likelihood, but m utation should be taken into consideration in the case that the genotypes do not m eet the genetic law(especially atDXS6809 and DXS7132).【期刊名称】《法医学杂志》【年(卷),期】2014(000)006【总页数】4页(P437-440)【关键词】法医遗传学;X染色体;短串联重复序列;连锁不平衡;突变率【作者】李莉;刘俊宏;朱如心;林源【作者单位】司法部司法鉴定科学技术研究所上海市法医学重点实验室,上海200063;司法部司法鉴定科学技术研究所上海市法医学重点实验室,上海 200063; 华东政法大学研究生教育学院,上海 200042;司法部司法鉴定科学技术研究所上海市法医学重点实验室,上海 200063;司法部司法鉴定科学技术研究所上海市法医学重点实验室,上海 200063【正文语种】中文【中图分类】DF795.2X染色体有着特殊的遗传方式,即女性的X染色体可以遗传给儿子和女儿,而男性的X染色体只能遗传给女儿。
面板数据stata处理步骤介绍

xA6_Panel_Data - Printed on 2011-11-25 10:43:02 149 reg y x dum1 dum2 dum3, nocons 150 est store m_pooldum3 151 152 *-M2:放入两个虚拟变量,三家公司有一个公共的截距项 153 reg y x dum2 dum3 154 est store m_pooldum2 155 156id t 158 xtreg y x, fe 159 est store m_fe 160 est table m_*, b(%6.3f) star(0.1 0.05 0.01) 161 162 163 *-6.1.4.3 stata的估计方法解析 164 165 * 目的:如果截面的个数非常多,那么采用虚拟变量的方式运算量过大 166 * 因此,要寻求合理的方式去除掉个体效应 167 * 因为,我们关注的是 x 的系数,而非每个截面的截距项 168 * 处理方法: 169 * 170 * y_it = u_i + x_it*b + e_it (1) 171 * ym_i = u_i + xm_i*b + em_i (2) 组内平均 172 * ym = um + xm*b + em (3) 样本平均 173 * (1) - (2), 可得: 174 * (y_it - ym_i) = (x_it - xm_i)*b + (e_it - em_i) (4)//within估计 175 * (4)+(3), 可得: 176 * (y_it-ym_i+ym) = um + (x_it-xm_i+xm)*b + (e_it-em_i+em) 177 * 可重新表示为: 178 * Y_it = a_0 + X_it*b + E_it 179 * 对该模型执行 OLS 估计,即可得到 b 的无偏估计量 180 181 egen y_meanw = mean(y), by(id) /*公司内部平均*/ 182 egen y_mean = mean(y) /*样本平均*/ 183 egen x_meanw = mean(x), by(id) 184 egen x_mean = mean(x) 185 gen dy = y - y_meanw + y_mean 186 gen dx = x - x_meanw + x_mean 187 reg dy dx 188 est store m_stata 189 190 est table m_*, b(%6.3f) star(0.1 0.05 0.01) 191 192 193 *-6.1.4.4 解读 xtreg,fe 的估计结果 194 195 use invest2.dta, clear 196 tsset id t 197 edit 198 xtreg market invest stock, fe 199 200 *-- R^2 201 * y_it = a_0 + x_it*b_o + e_it (1) pooled OLS 202 * y_it = u_i + x_it*b_w + e_it (2) within estimator 203 * ym_i = a_0 + xm_i*b_b + em_i (3) between estimator 204 * 205 * -> R-sq: within 模型(2)对应的R2,是一个真正意义上的R2 206 * -> R-sq: between corr{xm_i*b_w,ym_i}^2 207 * -> R-sq: overall corr{x_it*b_w,y_it}^2 208 209 *-- F(2,93) = 33.23 检验除常数项外其他解释变量的联合显著性 210 * 93 = 100-2-5 211 212 *-- corr(u_i, Xb) = 0.5256 213 214 *-- sigma_u, sigma_e, rho 215 * rho = sigma_u^2 / (sigma_u^2 + sigma_e^2) 216 dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2) 217 dis 1023.5914^2 / (1023.5914^2 + 370.9569^2) 218 219 *-- 个体效应是否显著?(假设检验) 220 * F(4, 93) = 97.68 H0: a1 = a2 = a3 = a4 = 0 221 * Prob > F = 0.0000 表明,固定效应高度显著 222 Page 3
GATK使用方法详解-plob最详尽说明书

GATK使用方法详解一、使用GATK前须知事项:(1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验设计(RNA-Seq)的分析方法。
(2)GATK是一个应用于前沿科学研究的软件,不断在更新和修正,因此,在使用GATK进行变异检测时,最好是下载最新的版本,目前的版本是2.8.1(2014-02-25)。
下载网站:/gatk/download。
(3)在GATK使用过程中(见下面图),有些步骤需要用到已知变异信息,对于这些已知变异,GATK只提供了人类的已知变异信息,可以在GATK的FTP 站点下载(GATK resource bundle)。
如果要研究的不是人类基因组,需要自行构建已知变异,GATK提供了详细的构建方法。
(4)GATK在进行BQSR和VQSR的过程中会使用到R软件绘制一些图,因此,在运行GATK之前最好先检查一下是否正确安装了R和所需要的包,所需要的包大概包括ggplot2、gplots、bitops、caTools、colorspace、gdata、gsalib、reshape、RColorBrewer等。
如果画图时出现错误,会提示需要安装的包的名称。
二、GATK的使用流程GATK最佳使用方案:共3大步骤,即:原始数据的处理 --> 变异检测--> 初步分析。
原始数据的处理1. 对原始下机fastq文件进行过滤和比对(mapping)对于Illumina下机数据推荐使用bwa进行mapping。
Bwa比对步骤大致如下:(1)对参考基因组构建索引:例子:bwa index -a bwtsw hg19.fa。
构建索引时需要注意的问题:bwa构建索引有两种算法,两种算法都是基于BWT 的,这两种算法通过参数-a is 和-a bwtsw进行选择。
其中-a bwtsw对于短的参考序列是不工作的,必须要大于等于10Mb;-a is是默认参数,这个参数不适用于大的参考序列,必须要小于等于2G。
DNA来源人种族推断研究进展

DNA来源人种族推断研究进展聂昊;林子清;莫晓婷;魏以梁;孙启凡【摘要】随着跨地域跨国犯罪明显增加,通过对生物检材DNA深度遗传信息挖掘进行来源人特征刻画已成为研究热点,其中种族推断是非常重要的研究方向。
用于种族推断常用的遗传标记称为祖先信息位点(AIMs),它是指在不同人群之间频率差异非常大的多态性基因位点,包括单核苷酸多态性(SNPs)、插入缺失(InDels)多态性等位点,其中SNPs成为筛选AIMs位点、分析人群遗传结构的重要遗传标记。
本文重点对DNA来源人种族推断领域的研究现状、研究方法等进行论述,希冀对相关研究和实践提供参考和借鉴。
%ABSTRACT:Due to the increase of floating population, the current trans-regional and cross-boundary crimes increase signiifcantly. Human phenotype description studies covering race, age, appearance and other physiological characteristics, are of high interest in genetic association studies. With the extracted genetic information, the biologic evidence could reveal its origin and aid in criminal investigation. Among these is racial inference, which remains an important topic in forensic context. Ancestry informative markers (AIMs) are genetic sites with great different frequency between populations. It can be used to describe the genetic components of a population, to infer the ancestral origin of a DNA sample and then the possible physical characteristics of DNA donor. Of those said above, single nucleotide polymorphism (SNP) is the most commonly used because of its larger number and wider distribution in genome. The panel of SNPs can be designed by calculating the genetic parameters such as Fst, In, and othersof the kind. The available techniques for SNP typing include multiple single base extension SNP (SNaPshot), SNPstream and MassArray. Many panels of ancestry informative SNPs have been proposed in recent years. These techniques are playing important roles in practical cases and thus enhance the ability of forensic genetic technology in mining human genetic information. Here we present the development, application and the research on the inference of human race from DNA evidence, aiming to provide a reference for further studies and the application of this technology in a wide range.【期刊名称】《刑事技术》【年(卷),期】2016(000)001【总页数】4页(P16-19)【关键词】种族推断;祖先信息位点;单核苷酸多态性【作者】聂昊;林子清;莫晓婷;魏以梁;孙启凡【作者单位】公安部物证鉴定中心,北京 100038; 中国刑事警察学院,沈阳110854;中国刑事警察学院,沈阳 110854;公安部物证鉴定中心,北京 100038; 北京市现场物证检验工程技术研究中心,北京 100038; 法医遗传学公安部重点实验室,北京 100038;清华大学医学院生物医学工程系,北京 100084; 天津医科大学表观遗传中心,天津 300070;公安部物证鉴定中心,北京 100038; 北京市现场物证检验工程技术研究中心,北京 100038; 法医遗传学公安部重点实验室,北京100038【正文语种】中文【中图分类】DF795.2随着国际化和全球经济化速度不断加快,不同地域间人口、财产、物资流动频繁,跨地区、跨国的犯罪数量日益上升,社会危害性大,侦查取证困难。
笔记GWAS操作流程2-4:哈温平衡检验

笔记GWAS操作流程2-4:哈温平衡检验「什么是哈温平衡?」「怎么做哈温平衡检验?」「哈温平衡过滤和MAF过滤的区别?」「两个目的:」o计算所有位点的哈温检测结果o删除SNP中不符合哈温平衡的位点1. 计算所有位点的HWE的P值plink --bfile HapMap_3_r3_8 --hardyplink.hwe的数据格式:o CHR 染色体o SNP SNP的IDo TEST 类型o A1 minor 位点o A2 major 位点o GENO 基因型分布:A1A1, A1A2, A2A2o O(HET) 观测杂合度频率o E(HET) 期望杂合度频率o P 哈温平衡的卡方检验P-value值结果预览:2. 提取哈温p值小于0.0001的位点这里我们使用awk:awk '{if($9 < 0.0001) print $0}' plink.hwe >plinkzoomhwe.hwe共有123个位点,其中UNAFF为45个位点。
3. 设定过滤标准1e-4plink --bfile HapMap_3_r3_8 --hwe 1e-4 --make-bed --out HapMap_3_r3_9日志:Options in effect:--bfile HapMap_3_r3_8--hwe 1e-4--make-bed--out HapMap_3_r3_9515185 MB RAM detected; reserving 257592 MB for main workspace.1073788 variants loaded from .bim file.163 people (79 males, 84 females) loaded from .fam.112 phenotype values loaded from .fam.Using 1 thread (no multithreaded calculations invoked).Before main variant filters, 112 founders and 51 nonfounders present.Calculating allele frequencies... done.Total genotyping rate is 0.998136.--hwe: 45 variants removed due to Hardy-Weinberg exact test.1073743 variants and 163 people pass filters and QC.Among remaining phenotypes, 56 are cases and 56 are controls. (51 phenotypesare missing.)--make-bed to HapMap_3_r3_9.bed + HapMap_3_r3_9.bim + HapMap_3_r3_9.fam ...done.可以看到,共有45个SNP根据哈温的P值过滤掉了,和上面手动计算的一样。
TASSEL的简介及遗传关系对表型变异贡献的分析方法_杨小红

基因型的数据格式1——Phylip
材料数 序列长度
材 料 名 称
7
基因型数据格式2——polymorphism1
标记名称
材
料
名
基因型
称
缺失数据
8
基因型数据格式2——polymorphism2
标记名称
材
料
名
基因型
称
缺失数据
9
基因型数据格式3——plink
.map
遗传距离 物理距离
染色体
标记名称
1
3
2
4
27
亲缘关系对表型的贡献——TASSEL结果
σ2a σ2e
28
材料名称
性状名称
14
V2.1——数据模块
Load 基因型的转化
15
V2.1——基因型数据格式——Polymorphism
多态性位点数目
材 料 数 目
材 料 名 称
标题行数 标记名称
16
V2.1——Polymorphism数据格式转换
1
3
2
4
17
V2.1——Polymorphism数据格式转换结果
22
二、遗传关系对表型变异贡献 的分析方法
23
群体结构对表型变异的贡献——SAS Code1
材
料性
群
编状
体
号名
名
称Leabharlann 称表型值个体基因组在所属 类群所在的比例
24
群体结构对表型变异的贡献——SAS Code2
25
群体结构对表型表型的贡献——SAS 结果
26
亲缘关系对表型的贡献——TASSEL1
混合线性模型5结果模块6基因型的数据格式1phylip基因型的数据格式1phylip材料数序列长度材料料名称7基因型数据格式2polymorphism1基因型数据格式2polymorphism1标记名称材料料名称称基因型缺失数据8基因型数据格式2polymorphism2基因型数据格式2polymorphism2标记名称材料名称基因型缺失数据缺失数据9基因型数据格式3plinkmapped遗传距离遗传距离物理距离材料名称父本编号父本编号母本编号性别染色体标记名称标记名称家系编号性别10基因型数据格式4hapmap基因型数据格式4hapmap标等标记名称称因物物理位置置等位基因染色体正反链材料编号材料编号11q矩阵或pca数据格式q矩阵或pca数据格式亚群名称材料名称个体基因个体基因组在某个类群的百分比分比12k矩阵数据格式k矩阵数据格式材料总数材料名称两两个体之间的两两个体之间的亲缘关系系数13表型数据格式性状名称材料名称14v21数据模块load基因型的转化基因型的转化15v21基因型数据格式polymorphism基因型数据格式yp多态性位点数目标题行数材料数数目标记名称标记名称材料名称称16v21polymorphism数据格式转换yp133数据格式转换224417v21polymorphism数据格式转换结果v21polymorphism数据格式转换结果18v21群体结构格式v21群体结构格式亚群数目标题行数材料数目亚群名称材料名称称19v21表型数据格式v21表型数据格式性状数性状数目标题行数标题行数材料料数目标题行数标题行数材料名称20数据的输入和输出dataloadfiledataexport
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
plink去除连锁不平衡方法
摘要:
1.连锁不平衡现象概述
2.PLINK软件介绍
3.去除连锁不平衡方法
4.方法原理及步骤
5.实例分析
6.总结与展望
正文:
连锁不平衡是指基因组中两个或多个标记(如SNP)在某些人群中存在明显的非随机分布现象。
这种现象在遗传学研究中具有重要意义,因为它可能影响关联分析的结果。
PLINK是一款广泛应用于遗传数据分析的软件,可以有效地去除连锁不平衡。
本文将详细介绍如何使用PLINK去除连锁不平衡方法,并通过实例进行分析。
一、连锁不平衡现象概述
连锁不平衡是指在基因组中,两个或多个标记在某些人群中存在非随机分布的现象。
这种现象可能导致关联分析结果的偏差,从而影响我们对遗传变异与表型之间关系的理解。
连锁不平衡的程度可以通过Hardy-Weinberg平衡检验进行评估。
二、PLINK软件介绍
PLINK是一款由Purcell等人开发的遗传数据分析软件,具有易于使用、
功能强大等特点。
它可以处理大量遗传数据,支持多种数据格式,并提供丰富的分析功能。
在连锁不平衡分析方面,PLINK可以计算连锁不平衡程度,并去除不平衡的标记。
三、去除连锁不平衡方法
1.计算连锁不平衡程度:PLINK软件可以计算连锁不平衡程度,通常使用R^2值表示。
R^2值越大,表示两个标记之间的连锁程度越高。
2.设定阈值:根据实际需求和实验设计,设定合适的R^2值阈值。
一般来说,阈值越小,去除的不平衡标记越多,但可能导致关联分析的准确性降低。
3.去除不平衡标记:将R^2值大于阈值的标记视为不平衡标记,并从数据中移除。
四、方法原理及步骤
1.输入数据:将原始数据导入PLINK软件,数据格式可为PED、MAP 等。
2.质量控制:PLINK可以自动进行质量控制,如剔除低质量的标记和个体。
3.计算连锁不平衡:PLINK软件计算标记之间的连锁不平衡程度。
4.设定阈值:根据实际需求设定R^2值阈值。
5.去除不平衡标记:PLINK软件根据设定的阈值去除不平衡标记。
6.输出结果:将去除不平衡标记后的数据输出,以便进行后续关联分析。
五、实例分析
以下是一个简化的例子,展示如何使用PLINK去除连锁不平衡:
1.导入数据:使用PLINK的“ ped”文件格式导入数据。
2.质量控制:设置个体数量、排除低质量标记等参数。
3.计算连锁不平衡:在PLINK中选择“连锁不平衡分析”功能,计算标记之间的R^2值。
4.设定阈值:根据实验设计和实际需求,设定R^2值阈值为0.5。
5.去除不平衡标记:PLINK软件自动识别并去除R^2值大于0.5的标记。
6.输出结果:将去除不平衡标记后的数据导出,进行后续关联分析。
六、总结与展望
本文介绍了如何使用PLINK软件去除连锁不平衡方法。
通过设定合适的R^2值阈值,可以有效地降低连锁不平衡对关联分析的影响。
然而,在实际应用中,阈值的选取仍具有一定的主观性,未来研究可以进一步探索更客观的阈值确定方法。