玉米Dof转录因子家族基因的全基因组分析

玉米Dof转录因子家族基因的全基因组分析
玉米Dof转录因子家族基因的全基因组分析

玉米Dof转录因子家族基因的全基因组分析

来源:《生物信息学》.-2 0 1 0 ,8(3).-198-20 作者:江海洋等阅读次数: 769 摘要:Dof转录因子家族在植物生长发育和基因表达调控过程中具有重要的作用,本文利用公布的玉米基因组草图数据,利用生物信息学方法对玉米全基因组Dof基因的结构、系统进化关系和保守motif进行了分析。结果表明:玉米中共有18个Dof类型基因,命名为ZmDof1 - Zm Dof18,其蛋白质长度在211aa至618aa之间,通过系统进化树分析后, 18个Dof基因可以明显的分为三类,此外玉米Dof基因的数目远远小于水稻和拟南芥,基因复制现象较少是玉米Dof基因数量较少的原因之一,M EME分析证实了Dof基因含有三个保守的motif。对玉米Dof类型基因的系统分析,将有助于玉米Dof类型基因的克隆和功能的进一步研究。

转录因子( transcrip tion factor) ,又称反式作用因子( transacting f actor) ,是指能够与真核基因的顺式作用元件( cis acting element)发生特异性相互作用并对转录有激活或抑制作用的DNA结合蛋白,转录因子调控复杂的蛋白间的互作网络。典型的转录因子含有DNA结合区、转录调控区、寡聚化位点及核定位信号区等功能。有关转录因子结构和功能的研究是植物分子生物学研究的前沿领域,因其含有DNA结合蛋

白的不同可以划分为不同的基因家族。因为转录因子在植物基因表达过程中的重要作用,因此从全基因组角度研究某一类型调控因子具有重要的意义。对拟南芥和水稻全基因组的转录因子研究表明,拟南芥中共含有3 018个转录因子,占基因总数的16. 8%。

Dof (DNA bindingwith one finger)基因家族是一类植物专有的转录因子,在果蝇、秀丽线虫和酿酒酵母的基因组中尚未发现有Dof基因的存在。它含有一个独特的富含Cys残基的单锌指(C2 -C2 )保守结构域,命名为Dof结构域,含有Dof结构域的蛋白质通称为Dof蛋白家族。Dof蛋白通常包含2个主要的结构域:一个位于N末端的保守的DNA结合结构域和一个位于C末端的调控结构域。在N 末端有52 个氨基酸组成的高度保守的DOf结构域,在此结构域中CX2CX21 CX2 C基序形成一个单锌指结构,此单锌指结构中1个Zn可与4个Cys残基共价结合。

并且Dof基因的锌指结构亮氨酸残基与锌离子结合方式特殊,造成其与其它的锌指结构有明显不同。Dof蛋白的转录调控结构域位于C末端,如玉米的ZmDofl的转录激活结构域是位于C末端的44个氨基酸残基。并且两个结构域之间拥有一个Ser骨架,可能作为分子铰链连接这两个结构域。研究表明Dof转录因子在植物生长发育过程中参与多种生物学过程,参与植物体内多种基因的表达调控,包括种子贮藏蛋白合成、糖代谢过程光调控、植物防卫机制、种子萌发、赤霉素反应等基因。在玉米中已经克隆了2个Dof转录因子,主要功能是特异性的结合启动子的AAAAGG核心序列,并且有增强启动子活性的功能。

随着测序技术的进一步升级,植物全基因组测序物种再进一步扩大,拟南芥、水稻、苜蓿、杨树等模式生物都已经完成全基因组测序,大大加快了这些物种的基因克隆和功能基因组学研究,特别是对特定一类基因家族的全基因组分析研究近年来取得了一定得进展。玉米属于禾本科玉米属植物,原产于美洲大陆的墨西哥、秘鲁、智利等地,玉米作为三大粮食作物之一,是人类生存的基本食物来源和主要的动物饲料原料,同时玉米也是研究作物和光合作用代谢的模式植物。其全基因草图数据于2 008年完成,对玉米基因组信息的分析和挖掘工作是目前研究的热点。本文利用公布的玉米基因组草图数据,对全基因组Dof转录因子基因家族进行筛选,分析Dof转录因子的数目并进行分类,同时进行系统发生学分析并与水稻的Dof转录因子比较分析,该研究全面了解玉米Dof基因家族的信息和特点,对于玉米Dof基因的克隆、功能鉴定具有重要的意义。1数据与方法

1. 1数据下载

玉米B73全基因组数据和蛋白质数据从国际玉米基因组网站http: / /www. maizegenome. org/data_portal. html下载。

1. 2Dof类型基因的鉴定

首先,从Sanger中心的数据库中选取Dof结构域的氨基酸序列( PF 02701) ,然后利用Blastp 程序,P - value设为10- 4 ,对玉米全基因组蛋白质数据库进行搜索,寻找玉米基因组中所有的候选含Dof蛋白。所有

符合要求的序列再通过Pfam (蛋白家族数据库, http: / /pfam. wustl. e du /hmmsearch. shtml)来验证是否含有Dof结构域( threshold = 0. 9)。第三步,所有已被选取基因的核苷酸序列通过Clust2alW的方法进行多序列排列,根据排列的结果,去除候选基因中的重复序列。

1. 3Dof基因系统进化树的构建

由于Dof蛋白氨基酸序列具有较高的相似性,根据排序结果,利用M EGA4. 0软件对所有序列使用距离法(Neighbor - Joiningmethod)构建

系统进化树。

1. 4Dof基因保守motif分析

玉米Dof类型基因的保守motif分析通过MEME(Multip le Expect ation Maximization for Motif Elicita2tion)在线分析,MEME是圣地亚哥超级计算机中心(SDSC)开发的一套用来寻找一组相关的DNA序列或

者蛋白质序列的基序(motif)的程序。利用此软件对玉米Dof类型基因的保守motif进行分析。

2结果与分析

2. 1Dof类型基因的确定

对玉米全基因组基因进行分析, 利用标准的Dof结构域氨基酸序列,通过B last分析获得候选Dof基因,首先通过序列比对以去除重复的基因,然后利用Pfam数据库分析证实候选基因存在Dof结构域,去除结构不完成的候选基因,最终共得到18个玉米Dof家族基因,并命名为Zm Dof1 - ZmDof18(表1略) ,蛋白的氨基酸长度从211aa至618aa,长度差异较大,但是每一个蛋白质经过pfam分析都含有典型的锌指结构,具有典型的Dof结构域。玉米基因组远远大于模式植物拟南芥和水稻,但在水稻中共发现30个Dof类型基因,拟南芥中发现36个Dof类型基因,都远远的大于玉米中的18个Dof基因。此外,因为玉米基因组并没有拼接完整。对Dof进行BAC定位,发现18个基因分别位于不同的BAC克隆上,通过下面的系统进化树分析把18 个玉米Dof基因分为a、b、c三类。

2. 2Dof类型基因的结构域分析

对18个玉米Dof基因的Dof结构域氨基酸序列进行ClustalW排列

分析(图1略) ,可以明显的看出18个基因都含有一个明显的锌指结构,这也是Dof结构域的重要特点,其中18个基因同时都含有保守的4个半胱氨酸C (图2略) ,同时在保守的锌指结构之中,黑色部分标注的氨基酸序列完全一致,进一步要说明了该18个候选基因确实都含有了Dof结构域的所有的功能单元。

2. 3Dof类型基因的系统进化树分析

经过分析,玉米基因组中共含有18个Dof类型基因,为了研究基因之间的进化关系, 我们利用MEGA4. 0软件的NJ 法对18个基因构建系统进化树(图2略) 。从进化树可以看到,玉米中Dof基因具有较高的同源性, 18个Dof类型基因可以明显的分为3个分枝,其中最大的分枝a含有12个基因,而分枝b含有2个基因,分枝c含有4个基因。水稻和拟南芥的Dof基因家族都划分为4类,与玉米具有明显不同的特点和进化模式。

2. 4Dof类型基因保守motif分析

对Dof基因的蛋白序列在MEME网站进行在线分析motif结构与类型,可以明显的看出不同的Dof基因所含有的保守motif的数目和位置都有较大的差异(图3 略) , 其中ZmDof3、ZmDof6、ZmDof8、ZmDof 2含有3个保守的motif,而ZmDof12、ZmDof7、ZmDof17、ZmDof1、ZmDof9、ZmDof14、ZmDof16、ZmD2of13、ZmDof11、ZmDof18含有2个保守motif,而Zm2Dof4、ZmDof5、ZmDof10、ZmDof15只含有1个保守的motif。进一步对保守的motif序列进行分析(表2) ,motif1含有47个氨基酸,motif2含有30个氨基酸,而motif3含有16个氨基酸。3讨论

随着基因组学的不断发展,全基因组测序变得越来越简单,生物信息学的发展十分的迅速,利用生物信息学方法研究基因组中的遗传信息近年来成为热点。植物转录因子在细胞的发育、抗逆、信号转导方面具有重要的作用, Dof基因作为转录因子家族重要的一员,在植物种子贮藏蛋白合成基因的调控和植物防卫机制上具有重要的作用。随着植物基因组测序的不断公布,利用全基因组数据分析和研究某一家族基因对于该

基因家族的克隆和功能验证具有重要的意义。水稻、拟南芥是最先测序的两个模式植物,对于它们的Dof基因家族分析已经完成,大大的增强了我们对于Dof基因家族的理解,认识了Dof基因家族的类型、分布以及结构特点。

玉米目前已经克隆了2个Dof类型的基因,对基因功能的研究证实了它们在种子萌发、光调节基因的调控上发挥了重要的作用。利用了玉米全基因组数据,利用生物信息学方法分析得到了18个玉米Dof类型基因,蛋白质的长度从211aa至618aa都有分布,蛋白长度的变化较大一方面说明了Dof基因的起源和进化模式复杂,另一方面也说明了Dof类型基因在功能上多样性,不同的Dof基因可以参与不同的代谢途径调控。此外水稻基因组中共含有30个Dof基因,拟南芥基因组中共含有36个Dof基因,玉米基因组大约是水稻的4倍,拟南芥的16倍,但是Dof类型基因的数目却远远小于这两种模式植物,说明基因组大小与Dof基因家族大小并不成正比。同样的现象我们在对于玉米抗病基因的分析中也观察到,结果证实是由于玉米抗病基因发生的基因复制现象较少引起的的。在对玉米和拟南芥中的Dof基因中的基因复制现象进行分析后发现,拟南芥中的Dof基因复制现象大于玉米(数据未展示) ,证实了玉米D of基因偏少的原因在于Dof基因发生基因复制的现象较少。

对玉米的Dof基因的结构域和系统进化树分析表明,玉米Dof类型基因结构上具有较高的相似性,进化树具有3个明显的分枝,我们命名为a、b、c三种类型,水稻和拟南芥都分为4种类型。一方面说明了Dof 基因在不同植物中的进化模式有所不同,另一方面也说明了不同植物D of基因的功能上也有所差异。

4结论

Dof转录因子基因家族是植物中专有的一类基因家族,在植物生长发育和基因表达调控过程中发挥重要的作用。目前玉米中对这类基因的研究并不多见,其功能大多也处于未知状态。本研究利用玉米基因组草图数据,采用生物信息学方法全基因组分析了玉米的Dof转录因子基因类型、结构和进化关系。在玉米中共发现含有18个Dof类型基因,基因

数目少于同是单子叶植物的水稻。玉米Dof转录因子基因较少的原因是发生基因复制现象较少。此外通过系统进化关系的分析把Dof转录因子家族基因分为了3个类型,利用MEME工具分析了Dof转录因子蛋白的保守motif,在Dof转录因子蛋白共有3个motif被发现。对玉米Do f类型基因的全基因组分析,将有助于玉米Dof转录因子基因克隆和其功能的进一步研究。

毛果杨PP2C基因家族生物信息学分析

毛果杨PP2C基因家族生物信息学分析 摘要:蛋白磷酸酯酶2C(PP2C)是蛋白磷酸酯酶中的一大类,广泛参与逆境信号的传递过程。本实验采用比较基因组学的方法,利用已知的拟南芥PP2C蛋白序列为检索序列,在全基因组水平上搜索毛果杨的PP2C基因的同源序列。最终确定了毛果杨45个PP2C候选基因。对同源序列作进一步的多序列联配、ESTs、MEME和系统发生表达分析。 关键词:毛果杨比较基因组学基因家族 Abstract: Protein phosphatase 2C (PP2C) is a protein phosphatase in a large class, the broad participation of adversity signal transmission process. In this study, we searched the homologous sequence from Populus trichocarpa protein database based on the complete genome by using comparative genomics methods and taking the Arabidopsis thaliana PP2C protein which has been isolated as the retrieval sequence. The results showed that 45 PP2C-like protein were identified from Populus trichocarpa. Further, we also analyzed the sequence alignment, MEME, EST and phylogenetic. Keywords: Populus trichocarpa comparative genomics genne family 真核生物基因组中,编码蛋白磷脂酶的基因远远少于蛋白激酶,一般只有蛋白激酶基因数的四分之一至三分之一。在过去的研究中,蛋白质可逆磷酸化研究的重点主要针对蛋白激酶,不过,现在越来越多的研究显示,在信号转导中,蛋白磷酸酶和蛋白激酶同样重要[1]。 根据底物蛋白分子上去磷酸化的氨基酸残基的种类,PP主要分为三个家族:酪氨酸蛋白磷酸酶(protein tyrosine phosphatases, PTPs)、丝氨酸蛋白磷酸酶(protein serine phosphatases, PPPs)和双特异性蛋白磷酸酶(dual specificity phosphatases, PSPs)。根据酶对底物选择的特异性和对抑制剂的敏感程度,PPPs分为PP1和PP2。根据亚基的结构、二价离子的依赖性和底物特异性,PP2又可进一步分为PP2A、PP2B和PP2C[2]。大量研究表明,PP2A在进化过程中,高度保守且广泛表达。PP2B是由催化亚基A和调节亚基B构成的二聚体,也是唯一受Ca2+/CaM调节的丝氨酸蛋白磷酸酶,在介导Ca2+信号到细胞应答中发挥了重要作用。在所有PSPs的亚类中,只有PP2C没有调控亚基,是一种单体蛋白磷酸酶,活性依赖于Mg2+或Mn2+[4]。PP2C与其他类型的PPP类蛋白磷酸酶相比,没有较明显的氨基酸序列同源性,但是蛋白质三维结构的相似性却揭示这些蛋白磷酸酶可能拥有相似的催化机制或相同的催化底物。PP2C类蛋白磷酸酶的一个重要的结构特征是在其催化区域内含有11个保守的结构亚区[3]。与哺乳动物PP2Cs相比,植物PP2Cs具有独特的结构模式,即植物中多数PP2C类磷酸酶C端具有保守的催化区域,而N端却是保守性不强、长度不一的延伸区域,在这些延伸区域内,含有与胞内信号相关的序列包括跨膜区域和激酶互作区域等,从而赋予了PP2C 不同的功能[1]。 蛋白磷酸酶结构的复杂性是功能广泛性的基础。随着植物中越来越多的蛋白磷酸酶基因及其相关蛋白的分离、纯化与鉴定,以及基因特性与生理生化的深入研究,其众多的功能也陆续的被确定。迄今为止,蛋白磷酸酶已经被证实与植物的生长发育、信号转导、细胞周期、渗透胁迫以及活性氧胁迫等各种抗逆性反应相关联。如今,毛果杨的全基因组测序已经完成,数据库Populus trichocarpa v1.1(https://www.360docs.net/doc/f715821588.html,/Poptrl_1/Poptrl_1.home.html)公布了全部序列。此后,在第一测序的基础上,进行了第二次补充测序。毛果杨全基因组最新数据已经包含在数据库Phytozome v7.0(https://www.360docs.net/doc/f715821588.html,/poplar)。本实验运用生物信息学

全基因组关联分析的原理和方法

全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中 数以百万计的单核苷酸多态性(single nucleotide ploymorphism ,SNP)为分子 遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。 随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。 全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。 人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。我国学者则通过对12 000 多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5 个红斑狼疮易感基因, 并确定了4 个新的易感位点( Han 等. 2009) 。截至2009 年10 月, 已经陆续报道了关于人类身高、体重、 血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分 裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果, 累计发表了近万篇 论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。) 标记基因的选择: 1)Hap Map是展示人类常见遗传变异的一个图谱, 第1 阶段完成后提供了 4 个人类种族[ Yoruban ,Northern and Western European , and Asian ( Chinese and Japanese) ] 共269 个个体基因组, 超过100 万个SNP( 约1

基因家族生信分析

基因家族生信分析 一、什么是基因家族 概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷 贝而构成的一组基因,他们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。 划分: 按功能划分:把一些功能类似的基因聚类,形成一个家族。 按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。 1.常见基因家族: WRKY基因家族:是植物前十大蛋白质基因家族之一,大量研究表明,WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。 NBS-LRR抗病基因家族:是植物中最大类抗病基因家族之一。 MADS-BOX基因家族:是植物体内的重要转录因子,它们广泛地调控着植物的生长、发育和生殖等过程。在植物中参与花器官的发育,开花时间的调节,在果实,根,茎,叶的发育中都起着重要的作用。 热激蛋白70家族(HSP70)是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。 二、基因家族分析流程:

●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩 阵文件(*.hmm) ●在数据库(Ensemble 、JGI、NVBI)下载你所需要的物种的基因组数 据(*.fa,*.gff) ●在虚拟机中Bio-Linux中的hummsearch程序,用隐马尔科夫模型矩 阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白 ●将蛋白序列导入MEGA软件构建进化树(可以阐明成员之间系统进化 关系,从进化关系上揭示其多样性) ●利用MEME搜索蛋白质的保守结构域 利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能,如果他们都含有相同的motif表明其功能具有 相似性,如果部分家族成员含有其他不同的motif,很可能这些成员有 其他特异功能,或者可以归分为一个亚族 ●绘制基因染色体位置图 从*.gff文件中抽取我们搜索到的基因位置信息,http://mg2c.iask.in/mg2c_v2.0/在线绘制基因染色体位置图 通过染色体位置分布,可以了解基因主要分布字哪条染色体上,及是 否能形成基因簇(被认为是通过重组与错配促进基因交流) ●基因结构分析 从gff文件中抽取基因的结构信息,绘制转录本结构图。 ●计算串联重复基因的Ka,Ks 1.首先将筛选到的基因的cds序列进行多序列对比,筛选identity > 75%,tength大于对比的两条序列中较长的那条的长度的75%,将 筛选到的基因分别用clustalw进行比对,比对结果导入 KsKs_Calculster计算Ka,Ks、 Ka/ks比,计算核苷酸的非同义替代(ka)与核苷酸的同义替代 (ks)的平均速率。 2.Ka/ks比值<1表明:通过纯化选择降低了氨基酸变化的速率;比 值=1表示中性选择;比值>1,表明这些基因可能已经收到积极选 择,有利于适应性遗传,这些受正向选择的基因将作为以后的研 究重点。 软件的安装 从图片中获得进入NCBI-blast官网复制blast-linux版本的链接

基因家族分析套路.docx

基因家族分析套路(一)近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥); 一、基本分析内容 ?数据库检索与成员鉴定 ?进化树构建 ?保守domain和motif分析. ?基因结构分析. ?转录组或荧光定量表达分析. 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了 ?Brachypodiumdb: ?Rice?Genome?Annotation?Project?:. 2)已鉴定的家族成员获取。 ? ? ??如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找: ???a.?NCBI:?nucleotide?and?protein?db.

谢谢你的观赏 2、比对工具。一般使用blast和hmmer,具体使用命令如下: ?Local?BLAST formatdb–i?db.fas–p?F/T; blastall–p?blastp(orelse)?–i?known.fas–d?db.fas–m?8?–b?2(or?else)?e?1e-5?– o?alignresult.txt. -b:output?two?different?members?in?subject?sequences?(db). ?Hmmer?(hidden?Markov?Model)?search.?Thesame?as?PSI-BLAST?in?function.?It?has?a ?higher?sensitivity,?but?the?speed?islower. Command: 3、过滤。 ?Identity:?至少50%. ?Cover?region:?也要超过50%或者蛋白结构域的长度. ?EST?支持 ??Blast?and?Hmmer同时检测到 4、通过上述操作获得某家族的所有成员 基因家族分析套路(二) 本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。 谢谢你的观赏

基因家族分析套路

近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥); 一、基本分析内容 数据库检索与成员鉴定 进化树构建 保守domain和motif分析. 基因结构分析. 转录组或荧光定量表达分析. 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了 Brachypodiumdb Genome Annotation Project : NCBI基因组数据库:)已鉴定的家族成员获取。 如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找: a. NCBI: nucleotide and protein d b. b. EBI: c. UniProtKB、比对工具。一般使用blast 和hmmer,具体使用命令如下:

Local BLAST formatdb–i –p F/T; blastall–p blastp(orelse) –i –d –m 8 –b 2(or else) e 1 e-5 –o . -b:output two different members in subject sequences (db). Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It has a higher sensitivity, but the speed islower. Command: 、过滤。 Identity: 至少50%. Cover region: 也要超过50%或者蛋白结构域的长度. domain: 必须要有完整的该蛋白家族的。工具pfamdb 和 NCBI Batch CD- search. 支持 Blast and Hmmer同时检测到 4、通过上述操作获得某家族的所有成员 基因家族分析套路(二) 本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。 一、构建进化树的基本步骤 1、多序列比对. Muscle program.

全基因组关联分析(GWAS)解决方案

全基因组关联分析(GWAS)解决方案 ※ 概述 全基因组关联研究(Genome-wide association study,GWAS)是用来检测全基因组范围的遗传变异与 可观测的性状之间的遗传关联的一种策略。2005年,Science杂志报道了第一篇GWAS研究——年龄相关性黄 斑变性,之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症等的研究报道。截至2010年 底,单是在人类上就有1212篇GWAS文章被发表,涉及210个性状。GWAS主要基于共变法的思想,该方法是 人类进行科学思维和实践的最重要工具之一;统计学研究也表明,GWAS很长时期内都将处于蓬勃发展期(如 下图所示)。 基因型数据和表型数据的获得,随着诸多新技术的发展变得日益海量、廉价、快捷、准确和全面:如 Affymetrix和Illumina公司的SNP基因分型芯片已经可以达到2M的标记密度;便携式电子器械将产生海量的表型 数据;新一代测序技术的迅猛发展,将催生更高通量、更多类别的基因型,以及不同类别的高通量表型。基于 此,我们推出GWAS的完整解决方案,协助您一起探索生物奥秘。 ※ 实验技术流程 ※ 基于芯片的GWAS Affymetrix公司针对人类全基因组SNP检测推出多个版本检测芯片,2007年5月份,Affymetrix公司发布了 人全基因组SNP 6.0芯片,包含90多万个用于单核苷酸多态性(SNP)检测探针和更多数量的用于拷贝数变化(CNV)检测的非多态性探针。因此这种芯片可检测超过180万个位点基因组序列变异,即可用于全基因组 SNP分析,又可用于CNV分析,真正实现了一种芯片两种用途,方便研究者挖掘基因组序列变异信息。 Illumina激光共聚焦微珠芯片平台为全世界的科研用户提供了最为先进的SNP(单核苷酸多态性)研究平 台。Illumina的SNP芯片有两类,一类是基于infinium技术的全基因组SNP检测芯片(Infinium? Whole Genome Genotyping),适用于全基因组SNP分型研究及基因拷贝数变化研究,一张芯片检测几十万标签SNP位点,提 供大规模疾病基因扫描(Hap660,1M)。另一类是基于GoldenGate?特定SNP位点检测芯片,根据研究需要挑选SNP位点制作成芯片(48-1536位点),是复杂疾病基因定位的最佳工具。 罗氏NimbleGen根据人类基因组序列信息设计的2.1M超高密度CGH芯片,可以在1.1Kb分辨率下完成全基 因组检测,可有效检测人基因组中低至约5kb大小的拷贝数变异。

全基因组关联分析

全基因组关联分析(Genome-wide association study,GWAS) 是一种对全基因组范围内的常见遗传变异: 单核苷酸多态性(Single nucleotide polymorphism , SNP) 进行总体关联分析的方法, 即在全基因组范围内选择遗传变异进行基因分型, 比较病例和对照间每个变异频率的异差, 计算变异与疾病的关联强度, 选出最相关的变异进行验证并最终确认与疾病相关。 单核苷酸多态性(英语:Single Nucleotide Polymorphism,简称SNP,读作/snip/)指的是由单个核苷酸—A,T,C或G的改变而引起的DNA序列的改变,造成包括人类在内的物种之间染色体基因组的多样性。 在后GWAS时代,利用已有的GWAS数据在多个人群间进行meta分析已经成为一种常用的分析手 段,这不仅可以进一步扩大样本量,更重要的是提高了统计效能。GWAS meta分 析已经成功应该用在多种复杂疾病的遗传学研究,发现一批新的易感基因。 全基因组关联水平(P_meta < 5.0×10-8)罕见等位基因(MAF < 5%), 基因型填补(imputation):依据已分型位点的基因型对数据缺失位点或未分型位点进行基因型预测的方法。可用于精细定位(fine-mapping),填补已确认的关联位点附近的位点,以便评价相邻SNP位点的关联证据。加快复杂性疾病易感基因的定位。 连锁与连锁不平衡(linkage disequilibrium,LD): 连锁:如果同一条染色体上2个位点的位置比较近,则这2个位点上的等位基因倾向于一起传递给下一代。 连锁不平衡:又称等位基因关联,是指同一条染色体上,两个等位基因间的非随机相关。即当位于同一条染色体上的两个等位基因同时存在的概率大于人群中因随机分布而同时出现的概率时,就称这两个位点处于LD状态。所谓的连锁不平衡是一种遗传标记的非随机性组合。比如,一个基因有两个位点,一个位点有两种基因型,那么子代应该有2的2次方,即4种基因型。但是发现子代的基因型往往会少于4种,这就是连锁不平衡现象。这是由于两个位点距离较近引起的两个位点上的等位基因经常同时出现在同一染色体上。

基因家族分析套路

基因家族分析套路(一) 近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥); 一、基本分析内容 ?数据库检索与成员鉴定 ?进化树构建 ?保守domain和motif分析. ?基因结构分析. ?转录组或荧光定量表达分析. 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了 ?Brachypodiumdb:https://www.360docs.net/doc/f715821588.html,/ ?TAIR:https://www.360docs.net/doc/f715821588.html,/ ?Rice Genome Annotation Project :https://www.360docs.net/doc/f715821588.html,/. ?Phytozome:https://www.360docs.net/doc/f715821588.html,/ ?Ensemble:https://www.360docs.net/doc/f715821588.html,/genome_browser/index.html ?NCBI基因组数据库:https://www.360docs.net/doc/f715821588.html,/assembly/?term= 2)已鉴定的家族成员获取。

如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找: a. NCBI: nucleotide and protein d b. b. EBI: http://www.ebi.a https://www.360docs.net/doc/f715821588.html,/. c. UniProtKB:https://www.360docs.net/doc/f715821588.html,/uniprot/ 2、比对工具。一般使用blast和hmmer,具体使用命令如下: ?Local BLAST formatdb–i db.fas–p F/T; blastall–p blastp(orelse) –i known.fas–d db.fas–m 8 –b 2(or else) e 1e-5 –o alignresult .txt. -b:output two different members in subject sequences (db). ?Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It h as a higher sensitivity, but the speed islower. Command: hmmbuild--informatafaknown.hmmalignknown.fa; hmmsearchknown.hmmdb.fas>align.out. 3、过滤。 ?Identity: 至少50%. ?Cover region: 也要超过50%或者蛋白结构域的长度.

基因家族分析套路

基因家族分析套路

————————————————————————————————作者: ————————————————————————————————日期:

基因家族分析套路(一) 近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥); 一、基本分析内容 ?数据库检索与成员鉴定 ?进化树构建 ?保守domain和motif分析. ?基因结构分析. ?转录组或荧光定量表达分析. 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了 ?Brachypodiumdb: ?TAIR: ?Rice Genome Annotation Project :. ?Phytozome: ?Ensemble: ?NCBI基因组数据库:

2)已鉴定的家族成员获取。 如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找: a. NCBI: nucleotide and protein db. b. EBI: . c. UniProtKB: 2、比对工具。一般使用blast和hmmer,具体使用命令如下: ?Local BLAST formatdb–i db.fas–p F/T; blastall–p blastp(orelse)–i known.fas–d db.fas–m 8 –b 2(or else) e 1e-5 –o alignresult.txt. -b:output twodifferent members in subject sequences (db). ?Hmmer (hidden Markov Model) search. Thesame as PSI-BLAS T in function. It has a higher sensitivity, but the speed islower. Command: hmmbuild--informatafaknown.hmmalignknown.fa;

GWAS原理剖析资料

全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分析数以万计的单核苷酸多态性(SNPs)以及这些SNPs与临床表型和可测性状的相关性。简单地理解全基因组关联分析,GW AS就是标记辅助选择在全基因组范围上的应用,在全基因组层面上开展大样本的、多中心的、重复验证的技术,并对相关基因与复杂性状进行关联研究,从而全面地揭示出不同复杂性状的遗传机制和基础。GW AS是一项开创性的研究方法,因为它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究,且不受与疾病有关的先验性假设的限制,GWAS在全基因组范围、零假设性较候选基因研究都迈出了重要的一步,而且随着高通量测序成本的降低,GW AS在人类疾病以及畜禽经济性状的研究上都表现出巨大的优势。 GW AS的优势除了可以一次性检测到数以万计的SNPs信息,从而提高试验效率以及检验功效以外,其还有其他两个显著的优势,主要表现在:(1)对未知信息的基因进行定位探索。传统的QTL定位仅仅限于对已知的候选基因进行分析探索,而GW AS是对全基因组的范围内的所有位点进行关联分析,因此其拥有更广泛的关联信息,相比候选基因分析GW AS 更有可能找到与性状真正关联的候选基因,因此不再受到预先假设的候选基因的限制。(2)对于GWAS在研究不同的复杂性状之前,不需要像以往的研究一样“盲目地”预设一些假定条件,而是通过在病理和对照组中,有目的地比较全基因组范围内所有SNPs的等位基因频率或者通过家系进行传递不平衡检验(TDT,Transmission disequilibrium test),从而找出与复杂性状显著相关的序列变异。到目前为止,利用全基因组关联分析研究已经挖掘出众多与各种复杂性状相关联的基因和染色体区域,在这些被新鉴定出的位点和区域中,只有小部分结果位于以前对这些性状研究的区域之中或者附近,绝大多数位于以前从未被研究过的区域,GW AS的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分

玉米穗行数全基因组关联分析

作物学报 ACTA AGRONOMICA SINICA 2014, 40(1): 1?6 https://www.360docs.net/doc/f715821588.html,/ ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@https://www.360docs.net/doc/f715821588.html, 本研究由国家自然科学基金项目(31201219)和国家重点基础研究发展计划(973计划)项目(2011CB100106)资助。 * 通讯作者(Corresponding authors): 翁建峰, E-mail: jfweng@https://www.360docs.net/doc/f715821588.html,; 李新海, E-mail: lixinhai@https://www.360docs.net/doc/f715821588.html, 第一作者联系方式: E-mail: zhanghuanxin150@https://www.360docs.net/doc/f715821588.html, Received(收稿日期): 2013-06-19; Accepted(接受日期): 2013-09-16; Published online(网络出版日期): 2013-10-22. URL: https://www.360docs.net/doc/f715821588.html,/kcms/detail/11.1809.S.20131022.1730.016.html DOI: 10.3724/SP.J.1006.2014.00001 玉米穗行数全基因组关联分析 张焕欣 翁建峰* 张晓聪 刘昌林 雍洪军 郝转芳 李新海* 中国农业科学院作物科学研究所 / 作物分子育种国家工程实验室, 北京100081 摘 要: 穗行数是玉米产量的重要组成性状, 其遗传解析对高产育种具有指导意义。本文以203份主要玉米自交系为材料, 2007年在新疆乌鲁木齐、吉林公主岭和海南三亚进行穗行数测定; 采用分布于玉米基因组的41 101个单核苷酸多态性(SNP)标记对穗行数进行关联分析。共鉴定出9个与穗行数显著关联(P < 0.0001)的SNP, 分别位于染色体框1.02、1.10、7.03、8.02、9.06和10.03。8个SNP 位于已定位的数量性状座位(QTL)区间内。在显著SNP 位点LD 区域内发掘出4个候选基因, 分别编码含F-box 结构域的生长素受体蛋白、玉米kn1蛋白、AP2结构域蛋白和富亮氨酸重复的跨膜蛋白激酶。采用全基因组关联分析策略发掘穗行数基因位点及候选基因, 将为克隆控制玉米产量性状基因奠定基础。 关键词: 玉米; 穗行数; 全基因组关联分析; 候选基因 Genome-wide Association Analysis of Kernel Row Number in Maize ZHANG Huan-Xin, WENG Jian-Feng *, ZHANG Xiao-Cong, LIU Chang-Lin, YONG Hong-Jun, HAO Zhuan-Fang, and LI Xin-Hai * Institute of Crop Science, Chinese Academy of Agricultural Sciences / National Engineer Laboratory of Crop Molecular Breeding, Beijing 100081, China Abstract: Kernel row number (KRN) is one of grain yield components in maize (Zea mays L.). Investigation of its genetic archi-tecture will help develop high-yield varieties in maize. In this study, the KRN in a panel of 203 maize inbred lines was detected in Urumqi of Xinjiang, Gongzhuling of Jilin, and Sanya of Hainan in 2007, and used to perform the genome-wide analysis for KRN using MaizeSNP50 BeadChip. A total of nine SNPs were found to be significantly associated with KRN at a threshold of P < 0.0001, which were on chromosome Bins 1.02, 1.10, 7.03, 8.02, 9.06, and 10.03, respectively. Eight of these SNPs were located in the QTL intervals reported previously. Meanwhile, four candidate genes were scanned, encoding auxin signaling F-box containing protein, kn1 protein, AP2 domain containing protein and leucine-rich repeat transmembrane protein kinase respectively. In sum-mary, these identified genes and SNPs will offer essential information for cloning yield-related genes in maize. Keywords: Maize; Kernel row number; Genome-wide association analysis; Candidate gene 玉米穗行数(kernel row number, KRN)形成于小穗分化期, 由小穗成对分生组织数目决定[1]。穗行数是决定玉米产量的主要构成因素, 属于数量性状, 广义遗传力较高[2], 其遗传解析对玉米高产育种具有指导意义。分子标记的发展使得QTL 作图成为解析穗行数遗传结构的有效方法[3]。目前, 关于穗行数定位研究报道较多, 影响穗行数的QTL 在玉米10条染色体上均有分布。Ma 等[4]利用综3×87-1构建 的294份重组自交系(recombinant inbred line, RIL)群体检测出13个穗行数QTL, 分别位于第1、第3、第4、第5、第8、第9和第10染色体。Lu 等[5]利用掖478×丹340的150个F 2:3家系共定位到13个控制穗行数的QTL, 位于染色体框7.03位点来自丹340的穗行数主效QTL qkrn7可解释平均表型变异17.86%。Guo 等[6]用郑58×昌7-2的231个F 2:3家系在两种播种密度下进行穗行数QTL 定位, 分别检测

基因家族分析套路

基因家族分析套路(一) 近年来,测序价格得下降,导致越来越多得基因组完成了测序,在数据库中形成了大量得可用资源。如何利用这些资源呢?今天小编带您认识一下不测序也能发文章得思路--全基因组基因家族成员鉴定与分析(现在这一领域可就是很热奥); 一、基本分析内容 ?数据库检索与成员鉴定 ?进化树构建 ?保守domain与motif分析、 ?基因结构分析、 ?转录组或荧光定量表达分析、 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载您要分析物种得基因组相关数据。一般也就就是下面这些数据库了 ?Brachypodiumdb: ?TAIR: ?Rice Genome Annotation Project :、 ?Phytozome: ?Ensemble: ?NCBI基因组数据库:

2)已鉴定得家族成员获取。 如何获得其她物种已发表某个基因家族得所有成员呢,最简单得就就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中得ID,找到对应成员。对于没有全基因组鉴定得,可以下列数据库中找: a、 NCBI: nucleotideand protein d b、 b、EBI:、 c、 UniProtKB: 2、比对工具。一般使用blast与hmmer,具体使用命令如下: ?Local BLAST formatdb–i db、fas–p F/T; blastall–p blastp(orelse) –i known、fas–d db、fas–m 8 –b 2(or else) e 1e-5 –o alignresult、txt、 -b:output two different members in subject sequences (db)、 ?Hmmer (hidden Markov Model) search、 Thesame as PSI-BL AST in function、 It has a higher sensitivity, but the speed islowe r、 mand:

相关文档
最新文档