基因家族生信分析

合集下载

水稻基因组序列的生物信息学分析

水稻基因组序列的生物信息学分析水稻是全球最重要的粮食作物之一，为了更好地理解水稻的基因组和基因功能，水稻基因组序列的生物信息学分析在近年来成为了研究的热点。

同时，水稻的基因组序列数据也为水稻育种和改良提供了更广泛的基础。

水稻基因组序列数据源对于生物信息学分析而言，首先需要收集数据。

水稻基因组序列的数据可以来源于GenBank、Ensembl Plants、Gramene等数据库，这些数据库中收录的水稻基因组数据具有较高的准确性和可靠性。

基因组注释基因组注释是指将序列上的信息以可识别的形式进行描述和标注，其中包括基因定位、基因结构、启动子区域、编码序列和非编码序列等。

水稻基因组注释早已有较为完善的结果，并且此外，大量的转录组数据也为基因功能识别和分析提供了更多的信息。

目前，水稻是全球拥有最齐全和全面的基因组注释和基因功能信息的农作物之一。

基因家族分析基因家族是指具有相似序列和保守功能的基因集合。

水稻基因组中大量的基因家族的分析对于理解水稻基因功能及其演化，以及水稻与其他物种基因组之间的关系具有关键作用。

例如NBS-LRR家族被广泛研究并被归属于水稻抗病基因家族之一。

基因家族的分析可以为水稻品种改良提供指导，从而增加其抗病性和生产力。

微卫星和SNP分析微卫星和单核苷酸多态性（SNP）是常见的分子标记方式，它们被普遍用于物种分类、进化和基因定位。

其中，微卫星序列在水稻中比较常见，并作为生物的DNA指纹来应用。

同时，SNP可以对现代育种和种质资源管理提供帮助。

微卫星和SNP分析可以用于水稻种质资源的变异程度评估和亲缘关系分析。

差异表达基因分析差异表达基因（DEGs）是指在不同生物学状态下，在两个或多个组织或物种中表达量不同的基因。

对于水稻而言，如未受到逆境处理的基因表达模式与受到逆境处理后的差异表达模式将会不同。

由于DEGs分析有助于识别水稻中与逆境响应相关的基因，因此可作为提高水稻逆境抗力的重要依据。

家族基因生信分析基本流程

家族基因生信分析基本流程下载温馨提示:该文档是我店铺精心编制而成，希望大家下载以后，能够帮助大家解决实际的问题。

文档下载后可定制随意修改，请根据实际需要进行相应的调整和使用，谢谢!并且，本店铺为大家提供各种各样类型的实用资料，如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等，如想了解不同资料格式和写法，敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!《家族基因生信分析基本流程》一、准备工作阶段1. 确定研究目的：明确家族基因生信分析的目的，例如研究家族性疾病的遗传模式、寻找致病基因等。

亚洲棉CBL基因家族鉴定及生物信息学分析

棉花科学，２０２１，４３（２）：１４－２１前沿与创新亚洲棉ＣＢＬ基因家族鉴定及生物信息学分析杨秀，邓艳凤，肖水平，刘新稳，王涛，杨绍群（江西省棉花研究所／国家棉花产业技术体系鄱阳湖综合试验站，江西九江３３２１０５）收稿日期：２０２１０２１９基金项目：国家重点研发计划（２０１８ＹＦＤ０１００４０４）；国家重点研发计划（２０１６ＹＦＤ０１０１４１４）；江西省现代农业产业技术体系专项（ＪＸＡＲＳ２２）。

作者简介：杨秀（１９９１），女，研究实习员，硕士，从事棉花新品种选育与栽培研究工作，ｙａｎｇｘｉｕ０１１７＠１６３ｃｏｍ。

通信作者：杨绍群，农艺师，从事棉花新品种选育与栽培研究工作，５２３６３９５１５＠ｑｑｃｏｍ。

摘要：为了探究ＣＢＬ（钙调磷酸酶Ｂ亚基蛋白）基因参与棉花非生物胁迫响应。

利用生物信息学的方法对亚洲棉ＣＢＬ家族成员进行鉴定，并对其成员的理化性质、进化关系、基因结构、蛋白结构、染色体定位、顺式作用元件进行分析。

结果表明，在亚洲棉中获得２０个ＣＢＬ基因，该基因成员蛋白的理化性质差异不大，大多数ＣＢＬ基因成员的等电点为４～５５，ＣＢＬ蛋白中的氨基酸大部分为酸性；系统进化树分析得出两个组，ＧｒｏｕｐＩＩ包含的成员最多，ＧｒｏｕｐＩ中仅有ＧａＣＢＬ４１、ＧａＣＢＬ４２、ＧａＣＢＬ４３和ＧａＣＢＬ８共４个成员；结构域和保守基序分析发现所有的ＣＢＬ基因均含有至少一个ＥＦｈａｎｄ结构域，且同一类群中的大多数成员具有相似的ｍｏｔｉｆ；基因结构分析发现同一类群中外显子－内含子结构比较相似，不同组之间的基因结构差异较大。

染色体定位分析发现１８个ＣＢＬ基因被定位在１０条染色体上，而ＧａＣＢＬ２５和ＧａＣＢＬ２６不能定位到任何染色体上。

ＧａＣＢＬ家族基因成员启动子区域中均含有多个能够应答逆境和植物激素的顺式作用元件。

综上表明，亚洲棉各ＣＢＬ基因参与不同的生物学过程并发挥着不同的功能。

关键词：亚洲棉；ＣＢＬ；基因鉴定；生物信息分析中图分类号：Ｓ５６２０３５　文献标识码：Ａ　文章编号：２０９５－３１４３（２０２１）０２－００１４－０８ＤＯＩ：１０３９６９／ｊｉｓｓｎ２０９５－３１４３２０２１０２００２ＩｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄＢｉｏｉｎｆｏｒｍａｔｉｃｓＡｎａｌｙｓｉｓｏｆＧＡＣＢＬＦａｍｉｌｙＧｅｎｅｉｎＧｏｓｓｙｐｉｕｍＡｒｂｏｒｅｔｕｍＹａｎｇＸｉｕ，ＤｅｎｇＹａｎｆｅｎｇ，ＸｉａｏＳｈｕｉｐｉｎｇ，ＬｉｕＸｉｎｗｅｎ，ＷａｎｇＴａｏ，ＹａｎｇＳｈａｏｑｕｎ（ＣｏｔｔｏｎＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅｏｆＪｉａｎｇｘｉＰｒｏｖｉｎｃｅ／ＰｏｙａｎｇＬａｋｅＣｏｍｐｒｅｈｅｎｓｉｖｅＥｘｐｅｒｉｍｅｎｔａｌＳｔａｔｉｏｎｏｆＮａｔｉｏｎａｌＣｏｔｔｏｎＩｎｄｕｓｔｒｉａｌＴｅｃｈｎｏｌｏｇｙＳｙｓｔｅｍ．，Ｊｉｕｊｉａｎｇ，Ｊｉａｎｇｘｉ３３２１０５，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＩｎｏｒｄｅｒｔｏｅｘｐｌｏｒｅｔｈｅｉｎｖｏｌｖｅｍｅｎｔｏｆＣＢＬ（ｃａｌｃｉｎｅｕｒｉｎＢｓｕｂｕｎｉｔｐｒｏｔｅｉｎ）ｇｅｎｅｓｉｎａｂｉｏｔｉｃｓｔｒｅｓｓｒｅｓｐｏｎｓｅｉｎｃｏｔｔｏｎ．ＵｓｉｎｇｂｉｏｉｎｆｏｒｍａｔｉｃｓｍｅｔｈｏｄｓｔｏｉｄｅｎｔｉｆｙｔｈｅｍｅｍｂｅｒｓｏｆＧａＣＢＬｆａｍｉｌｙ，ａｎｄｔｈｅｐｈｙｓｉｃｏｃｈｅｍｉ·４１·《棉花科学》欢迎投稿，欢迎订阅！棉花科学２０２１年（第４３卷）第２期杨秀，等：亚洲棉ＣＢＬ基因家族鉴定及生物信息学分析ｃａｌｐｒｏｐｅｒｔｉｅｓ，ｅｖｏｌｕｔｉｏｎａｒｙｒｅｌａｔｉｏｎｓｈｉｐｓ，ｇｅｎｅｓｔｒｕｃｔｕｒｅ，ｐｒｏｔｅｉｎｓｔｒｕｃｔｕｒｅ，ｃｈｒｏｍｏｓｏｍｅｌｏｃａｔｉｏｎａｎｄｃｉｓ－ａｃｔｉｎｇｅｌｅｍｅｎｔｓｏｆｔｈｅｍｅｍｂｅｒｓｗｅｒｅａｎａｌｙｚｅｄ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｅｄｔｈａｔ２０ＣＢＬｇｅｎｅｓｗｅｒｅｏｂｔａｉｎｅｄｆｒｏｍＧ．ａｒｂｏｒｅｕｍ，ａｎｄｔｈｅｐｈｙｓｉｃａｌａｎｄｃｈｅｍｉｃａｌｐｒｏｐｅｒｔｉｅｓｏｆｔｈｅｉｒｍｅｍｂｅｒｐｒｏｔｅｉｎｓｗｅｒｅｎｏｔｓｉｇｎｉｆｉｃａｎｔｌｙｄｉｆｆｅｒｅｎｔ．ＴｈｅｉｓｏｅｌｅｃｔｒｉｃｐｏｉｎｔｓｏｆｍｏｓｔｍｅｍｂｅｒｓｏｆＧａＣＢＬｇｅｎｅｓｗｅｒｅｂｅｔｗｅｅｎ４ｔｏ５５，ｔｈａｔｍｏｓｔｏｆｔｈｅａｍｉｎｏａｃｉｄｓｉｎＧａＣＢＬｐｒｏｔｅｉｎｓｗｅｒｅａｃｉｄｉｃ．Ｐｈｙｌｏｇｅｎｅｔｉｃｔｒｅｅａｎａｌｙｓｉｓｏｆｔｗｏｇｒｏｕｐｓ，ＧｒｏｕｐＩＩｃｏｎｔａｉｎｅｄｔｈｅｍｏｓｔｍｅｍｂｅｒｓ，ｗｈｉｌｅＧｒｏｕｐＩｏｎｌｙｃｏｎｔａｉｎｅｄＧａＣＢＬ４１，ＧａＣＢＬ４２，ＧａＣＢＬ４３ａｎｄＧａＣＢＬ８．Ｔｈｒｏｕｇｈｄｏｍａｉｎａｎｄｃｏｎｓｅｒｖｅｄｍｏｔｉｆａｎａｌｙｓｉｓ，ｆｏｕｎｄｔｈａｔａｌｌＧａＣＢＬｇｅｎｅｓｃｏｎｔａｉｎａｔｌｅａｓｔｏｎｅＥＦｈａｎｄｄｏｍａｉｎ，ａｎｄｍｏｓｔｍｅｍｂｅｒｓｏｆｔｈｅｓａｍｅｇｒｏｕｐｈａｖｅｓｉｍｉｌａｒｍｏｔｉｆｓ．Ｔｈｅａｎａｌｙｓｉｓｏｆｇｅｎｅｓｔｒｕｃｔｕｒｅｆｏｕｎｄｔｈａｔｔｈｅｅｘｏｎｉｎｔｒｏｎｓｔｒｕｃｔｕｒｅｏｆｔｈｅｓａｍｅｇｒｏｕｐｗａｓｓｉｍｉｌａｒ，ａｎｄｔｈｅｄｉｆｆｅｒｅｎｃｅｏｆｇｅｎｅｓｔｒｕｃｔｕｒｅｂｅｔｗｅｅｎｄｉｆｆｅｒｅｎｔｇｒｏｕｐｓｗａｓｇｒｅａｔ．Ｃｈｒｏｍｏｓｏｍａｌｌｏｃａｔｉｏｎａｎａｌｙｓｉｓｒｅｖｅａｌｅｄｔｈａｔ１８ＧａＣＢＬｇｅｎｅｓｗｅｒｅｌｏｃａｔｅｄｏｎ１０ｃｈｒｏｍｏｓｏｍｅｓ，ｗｈｉｌｅＧａＣＢＬ２５ａｎｄＧａＣＢＬ２６ｃｏｕｌｄｎｏｔｂｅｌｏｃａｔｅｄｏｎａｎｙｃｈｒｏｍｏｓｏｍｅ．ＴｈｅｐｒｏｍｏｔｅｒｒｅｇｉｏｎｓｏｆｍｅｍｂｅｒｓｏｆｔｈｅＧａＣＢＬｆａｍｉｌｙｏｆｇｅｎｅｓｃｏｎｔａｉｎｓｅｖｅｒａｌｃｉｓａｃｔｉｎｇｅｌｅｍｅｎｔｓｔｈａｔｒｅｓｐｏｎｄｔｏｓｔｒｅｓｓａｎｄｐｌａｎｔｈｏｒｍｏｎｅｓ．Ｉｎｃｏｎｃｌｕｓｉｏｎ，ｄｉｆｆｅｒｅｎｔＧａＣＢＬｐａｒｔｉｃｉｐａｔｅｉｎｄｉｆｆｅｒｅｎｔｂｉｏｌｏｇｉｃａｌｐｒｏｃｅｓｓｅｓａｎｄｐｌａｙｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ．Ｋｅｙｗｏｒｄｓ：Ｇｏｓｓｙｐｉｕｍａｒｂｏｒｅｕｍ；ＣａｌｃｉｎｅｕｒｉｎＢｌｉｋｅｐｒｏｔｅｉｎｓ；Ｇｅｎｅｔｉｃｉｄｅｎｔｉｆｉｃａｔｉｏｎ；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓａｎａｌｙｓｉｓ土壤盐碱化会引起离子毒性、高渗透胁迫和氧化等次生胁迫从而对植物造成危害［１］。

生物信息学中的基因家族分析方法研究

生物信息学中的基因家族分析方法研究生物信息学是近年来崛起的学科，是生命科学、计算机科学、数学等多学科的交叉领域。

生物信息学致力于将大量的生物数据，如基因序列、蛋白质序列、代谢物变化等，用数字化的方式进行存储、分析和解释。

生物信息学的应用范围很广，尤其是在基因领域中，其中基因家族分析方法更是受到了广泛关注。

基因家族是指在不同物种中起着相同或相似生理功能的基因序列，它们通常由相同的基因结构和序列组成，但具有不同的功能。

基因家族的发现和研究对生物学和医学领域具有十分重要的意义。

通过基因家族的分析，可以深入了解基因的功能、进化和分类等重要问题，找出与某些疾病相关的基因，有助于新药研发和疾病预防等。

基因家族的分析方法主要有两种：序列比对和聚类分析。

序列比对是指将两个或多个基因序列进行比较，找出相同部分和不同部分，以了解它们之间的关系。

聚类分析是将待研究的基因序列分为不同的族群（聚类），以便于分析每一族群之间的异同和进化关系。

序列比对方法是最常用的基因家族分析方法之一。

在序列比对中，需要选择适当的序列比对工具和算法来比对一组基因序列，以寻找相同的序列段来确定它们之间的关系。

其中，T-Coffee、MUSCLE 和 CLUSTALX 等是比较流行的基因序列比对工具。

有些比对工具采用局部比对（例如 BLAST），即只比对相似序列的局部区域，有些则采用全局比对（例如 Needleman-Wunsch 算法），即比对整个序列。

聚类分析方法分为层次聚类和非层次聚类两种。

在层次聚类中，先根据基因序列的相似性将它们分到一个个小组（或簇）中，再将相似的簇合并成更大的簇，直到所有基因都被分到同一个簇中。

常见的层次聚类算法有 UPGMA、NJ 和WPGMA 等。

在非层次聚类中，基因之间的相似性表示为一个距离矩阵，然后将相似的基因分为一组，形成基因簇。

常见的非层次聚类算法有 K-means、自组织映射和谱聚类等。

这些方法的应用和效果依赖于基因家族的大小和复杂度。

小麦miR164基因家族的生物信息学分析及靶基因预测

小麦miR164基因家族的生物信息学分析及靶基因预测武宁静;徐渴;曹慧雯;张树华;赵勇;杨学举【期刊名称】《中国科技论文在线精品论文》【年(卷),期】2024(17)1【摘要】miR164家族是植物中一类特有的保守小RNA分子,广泛参与植物的生长发育及各种逆境胁迫响应。

为了解小麦Tae-miR164基因家族成员的进化特征、表达模式及功能,对PmiREN数据库中Tae-miR164基因进行了生物信息学分析。

结果共鉴定到13个家族成员,成簇于小麦Chr1、Chr2和Chr6等3条染色体上。

序列比对发现Tae-miR164家族13个成员的成熟序列均为21 bp,且相似性较高,仅在5’端第21个核苷酸处存在差异,前体序列均能形成稳定的二级茎环结构,成熟的miRNA序列处于5’端臂上。

进化树分析表明,拟南芥、水稻、玉米、二穗短柄草、大麦、谷子、苜蓿、番茄和小麦中Tae-miR164家族成员主要分为4个分支。

靶基因预测表明,Tae-miR164基因家族成员对应的靶基因为NAC转录因子家族成员。

转录组数据分析表明,Tae-miR164a/b/c/d/e/f/g/h/i/m在小麦6个组织中均有表达,Tae-miR164j/k/l在花和籽粒中几乎不表达。

实时荧光定量PCR结果表明,低温(4℃)胁迫处理48 h的小麦茎基部中Tae-miR164家族成员呈明显上调的表达模式。

本研究为小麦Tae-miR164家族成员的功能鉴定奠定了理论基础。

【总页数】9页(P50-58)【作者】武宁静;徐渴;曹慧雯;张树华;赵勇;杨学举【作者单位】河北农业大学农学院【正文语种】中文【中图分类】S512【相关文献】1.油菜miR169基因家族的生物信息学分析及靶基因预测2.葡萄miR164家族生物信息学分析及靶基因预测3.植物发育相关miR828基因家族靶基因预测及生物信息学分析4.陆地棉miR156基因家族生物信息学分析及靶基因预测5.小麦中MIR160基因家族的生物信息学分析及靶基因鉴定因版权原因，仅展示原文概要，查看原文内容请购买。

杨树NRAMP_基因家族全基因组鉴定与生物信息学分析

中图分类号Ｓ７９２．１１文献标识码Ａ
文章编号０５１７－６６１１（２０２３）１４－００９０－０５
ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．０５１７－６６１１．２０２３．１４．０２２
开放科学（资源服务）标识码（ＯＳＩＤ）：
Ｇｅｎｏｍｅ⁃ｗｉｄｅＩｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄＢｉｏｉｎｆｏｒｍａｔｉｃｓＡｎａｌｙｓｉｓｏｆＰｏｐｌａｒＮＲＡＭＰＧｅｎｅＦａｍｉｌｙ
镉和铁等有吸收和转运功能［４，１０－１２］。
植物在生长过程中，如遇重金属污染，过量的重金属会
ｓｉｓｔａｎｃｅ⁃ａｓｓｏｃｉａｔｅｄｍａｃｒｏｐｈａｇｅｐｒｏｔｅｉｎ，ＮＲＡＭＰ）是一类参与金
对植物细胞膜系统造成伤害，影响植物的生长发育。如镉胁
。ＮＲＡＭＰ蛋白属于一种具有典型膜
细胞的有丝分裂速度，使植物生长缓慢；锰虽然是植物必需
摘要为研究杨树自然抗性相关巨噬细胞蛋白（ＮＲＡＭＰ）家族成员的结构和功能，利用生物信息学方法，从杨树全基因组数据库中筛选
并鉴定ＮＲＡＭＰ家族基因序列，并对该家族成员的理化性质、二级结构、基因结构、保守基序、染色体定位、进化树和组织表达量进行分
析。结果表明：从杨树基因组中共鉴定出６个ＮＲＡＭＰ基因家族成员，编码的氨基酸数量差异较大，为５０３～１３１０，亚细胞定位表明其均
ＯｓＮＲＡＭＰ３、ＯｓＮＲＡＭＰ５、ＯｓＮＲＡＭＰ６和ＯｓＮＲＡＭＰ７对锌、锰、
严重，威胁生态系统，影响人类健康
［１］
。杨树适应性较强，广
根系发达，对毒性物质具有较强的耐性，对重金属具有较强
的富集及转运能力
［２］
。天然抗性相关巨噬蛋白（ｎａｔｕｒａｌｒｅ⁃

马铃薯SOD基因家族生信分析及其在块茎愈伤活性氧产生中的功能研究

马铃薯SOD基因家族生信分析及其在块茎愈伤活性氧产生中的功能研究马铃薯SOD基因家族生信分析及其在块茎愈伤活性氧产生中的功能研究引言马铃薯（Solanum tuberosum）是世界上最重要的主食作物之一，其块茎作为全球人类饮食中的主要营养来源之一。

然而，块茎在生长和发育过程中容易受到环境胁迫的影响，例如氧化应激。

活性氧（reactive oxygen species，ROS）是一种常见的氧化应激物质，过量的ROS可以导致细胞膜脂质过氧化、氧化蛋白和DNA损伤等。

在植物中，超氧化物歧化酶（superoxide dismutase，SOD）是抵御ROS的关键酶类。

本文旨在通过生信分析探讨马铃薯SOD基因家族在块茎愈伤过程中的调控功能。

I. 马铃薯SOD基因家族的鉴定和分析1. 数据获取与预处理从公共数据库（如NCBI）中获取马铃薯基因组和转录组的序列数据，并进行质量控制和预处理，如去除低质量序列和适当的过滤处理。

2. 马铃薯SOD基因家族的鉴定通过拓展和修改SOD基因家族保守Motif的方法，使用HMMER 软件对马铃薯基因组和转录组进行搜素和筛选，以鉴定马铃薯SOD基因家族成员。

3. 马铃薯SOD基因家族的生物信息学分析通过生物信息学工具对鉴定出的马铃薯SOD基因家族的基因结构、编码蛋白的理化性质以及亲缘关系进行分析，包括基因长度、氨基酸序列长度、等电点、亲缘关系树等。

II. 马铃薯SOD基因家族的表达模式分析1. 马铃薯SOD基因家族的表达谱分析通过对不同组织和发育阶段马铃薯样品中的转录组数据进行分析，了解马铃薯SOD基因家族在不同组织和发育阶段中的表达模式。

2. 马铃薯SOD基因家族的响应分析通过对抽提自不同胁迫处理和处理时间的马铃薯样品中的转录组数据进行分析，研究马铃薯SOD基因家族在氧化胁迫条件下的响应模式和基因调控网络。

III. 马铃薯SOD基因家族在块茎愈伤活性氧产生中的功能研究1. 块茎愈伤活性氧产生的定量分析使用荧光探针方法或化学试剂法测定马铃薯块茎在不同阶段和胁迫处理下的ROS含量，以了解块茎愈伤过程中活性氧的动态变化。

草莓MADS-box基因家族生物信息学分析

草莓MADSbox基因家族生物信息学分析摘要：通过生物信息学的方法，利用拟南芥、水稻的MADS-box基因对草莓MADS-box基因家族进行鉴定和分析，共得到83个草莓MADS-box候选基因，且MADS-box结构域高度保守。

进化分析表明，FvMADS1-FvMADS33可被细分为10个亚组，分别为AG、AGL12、AGL6、AGL2、SE、SVP、FLC、AP3、SOC1、AGL17；FvMADS34-FvMADS83可被细分为4个亚组，分别为Mα（22个成员）、Mβ（1个成员）、Mγ（17个成员）、Mδ（10个成员）。

关键词：草莓；MADS-box转录因子；基因家族；生物信息学S668.403文献标志码： A：1002-1302（2015）11-0021-05收稿日期：2014-12-22基金项目：中国教育学会学校文化研究分会“十二五”教育科研课题（编号：0613278A）。

作者简介：马明臻（1979—），女，山东寿光人，硕士，副教授，主要从事园艺植物栽培研究。

E-mail：[email protected]。

草莓因其浆果营养丰富、鲜红亮丽、酸甜可口、芳香多汁而深受消费者喜爱，我国是世界草莓第一生产大国，但产量水平仍不足发达国家的1/2[1-2]。

由于草莓存在高杂合性、多倍性等问题，使其常规育种周期长、工作量大、效率低。

近年来，随着分子生物学的兴起和发展，草莓生物技术育种获得了极大进步。

MADS-box 基因广泛参与植物花和果实的发育、成熟等多个过程。

开展草莓MADS-box转录因子的研究，有利于探索和解析草莓花、果实在发育成熟等生理过程中的调控机制，并能为生物技术育种提供有价值的信息。

MADS-box转录因子的N末端区域含有一段约为60个氨基酸残基的保守域，称为MADS-box 保守域，负责绑定目的基因中调控区域的CArG盒子（CC（A/T）6GG）[3]。

MADS-box基因家族成员可根据进化关系分为类型Ⅰ（Type Ⅰ）和类型Ⅱ（Type Ⅱ）[4]。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基因家族生信分析一、什么是基因家族概念：是来源于同一个祖先，有一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因，他们在结构和功能上具有明显的相似性，编码相似的蛋白质产物。

划分：按功能划分：把一些功能类似的基因聚类，形成一个家族。

按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。

1.常见基因家族：WRKY基因家族：是植物前十大蛋白质基因家族之一，大量研究表明，WRKY 基因家族的许多成员参与调控植物的生长发育，形态建成与抗病虫。

NBS-LRR抗病基因家族：是植物中最大类抗病基因家族之一。

MADS-BOX基因家族：是植物体内的重要转录因子，它们广泛地调控着植物的生长、发育和生殖等过程。

在植物中参与花器官的发育，开花时间的调节，在果实，根，茎，叶的发育中都起着重要的作用。

热激蛋白70家族（HSP70）是一类在植物中高度保守的分子伴侣蛋白，在细胞中协助蛋白质正确折叠。

二、基因家族分析流程：●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩阵文件（*.hmm）●在数据库（Ensemble 、JGI、NVBI）下载你所需要的物种的基因组数据（*.fa,*.gff）●在虚拟机中Bio-Linux中的hummsearch程序，用隐马尔科夫模型矩阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白●将蛋白序列导入MEGA软件构建进化树（可以阐明成员之间系统进化关系，从进化关系上揭示其多样性）●利用MEME搜索蛋白质的保守结构域利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能，如果他们都含有相同的motif表明其功能具有相似性，如果部分家族成员含有其他不同的motif,很可能这些成员有其他特异功能，或者可以归分为一个亚族●绘制基因染色体位置图从*.gff文件中抽取我们搜索到的基因位置信息，_v2.0/在线绘制基因染色体位置图通过染色体位置分布，可以了解基因主要分布字哪条染色体上，及是否能形成基因簇（被认为是通过重组与错配促进基因交流）●基因结构分析从gff文件中抽取基因的结构信息，绘制转录本结构图。

●计算串联重复基因的Ka,Ks1.首先将筛选到的基因的cds序列进行多序列对比，筛选identity > 75%，tength大于对比的两条序列中较长的那条的长度的75%，将筛选到的基因分别用clustalw进行比对，比对结果导入KsKs_Calculster计算Ka，Ks、Ka/ks比，计算核苷酸的非同义替代（ka）与核苷酸的同义替代（ks）的平均速率。

2.Ka/ks比值<1表明：通过纯化选择降低了氨基酸变化的速率；比值=1表示中性选择；比值>1,表明这些基因可能已经收到积极选择，有利于适应性遗传，这些受正向选择的基因将作为以后的研究重点。

软件的安装从图片中获得进入NCBI-blast官网复制blast-linux版本的链接在Linux终端1.blast的安装#wget blast链接#tar xvfz 文件名解压缩文件# mv 解压缩文件/root/local/app# mv 解压缩文件blast# vi .bashrc#在最后一行添加export $PATH=/root/local/app/blast/bin:$PATH 并保存退出#source .bashrc 运行#blastp -version 查看是否安装成功。

2．hummer的安装#yum install -y wget //安装wget#wget hmmer源码链接#tar -zxvf hmmer-3.2.1# vi .bashrc#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-#yum install -y gcc#./configure#make#make check#make install#which hmmsearch 查看是否安装成功。

3.perl的安装#wget 源代码链接# tar xvfz perl- 解压缩#cd perl-5.28.1#./configure#make#make install 安装完成。

3.bioperl 的安装#wget -O - | bash#perlbrew install-cpanm#/root/perl5/perlbrew/bin/cpanm Bio::Perl三、具体操作：1.保守域结构分析下载蛋白保守结构域文件、cds、cDNA、gff注释文件和隐马尔科夫矩阵模型。

以拟南芥为例：下载完成后，需要将文件传到Linux系统上进行分析：打开虚拟机输入ip a将虚拟机IP连接到Xshell上，在Xshell上进行操作，将文件通过xftp（同样需要连接IP）传到Linux系统上，然后进行解压。

(一个命令解压多个文件:gunzip*.gz)接下来用hummsearch寻找含有该蛋白保守结构域的蛋白及核酸序列安装hummsearchyum install -y wget //安装wget#wget hmmer源码链接#tar -zxvf hmmer-3.2.1# vi .bashrc#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-#yum install -y gcc#./configure#make#make check#make install#which hmmsearch 查看是否安装成功。

解压文件移动到APP目录下面在app目录下面新建文件夹 mkdir hmmer将hmmer- mmove -v c:/hmmer-3.2.1 c:/hmmer删除安装包打开文字编辑器vi ~/.bashrc在文字编辑器里最后一行添加以上内容安装好wget如果make check出现错误百度用以下方法解决出现complete安装完成#source ~/.bashrc#which hmmsearch至此hmmer安装完成。

虚拟机操作：1.导入下载好的文件；2.hmmsearch --cut_tc –domtblout NB-ARC.txt NB-ARC.hmm Arabidopsis_thaliana.TAIR10可以用editplus打开.txt文件3. perl domain_xulie.pl 结果文件.txt 蛋白序列文件domain.fa 1e-204.clustalw进行多序列比对，得到aln文件和dnd文件。

5.hmmbuild 拟南芥特异的hmm模型文件domain.aln6.hmmsearch –cut_tc –domtblout result.txt newhmm文件蛋白质序列文件7.在Excel中，根据特定的evalue进行筛选，并对第一列进行去重复，得到第一列去重复的id，保存为id.txt8. 用perl脚本根据id提取序列Per get_fa_by_id.pl id.txt 蛋白序列wenjain >结果输出文件可以根据的得到的序列文件进行后续的构建进化树、motif分析等。

2.搜索基因家族成员的MOTIF2.1 需要准备的文件1. 拟南芥NBS基因蛋白质序列2. 蛋白保守结构域的隐马尔科夫模型矩阵文件2.2 MOTIF的搜索使用meme软件命令：meme nbs_pep.fa -protein -oc nbs_motif -nostatus -maxsize 600000 -mor anr -nmotifs 10 -minw 6 -maxw 50搜索结果存放在nbs_motif文件夹中。

文件夹中的eps文件可以用AI打开编辑，可以另存为png或jpg格式，也可打开网页版，也可用tbtools软件打开，下载motif在基因上的位置信息。

3. 绘制基因在染色体上的位置图3.1 需要准备的文件1. 拟南芥NBS基因id2. 拟南芥的注释文件（gff3文件）3. 拟南芥基因组长度4.1在线绘图工具：MapGene2Chrom4.2 samtools faidx 拟南芥. 可得到拟南芥. 该文件包括各个染色体，染色体长度。

4.3 对基因的id文件在Excel中进行分列，去重复处理。

4.4 使用处理过的id文件，对拟南芥的注释文件进行筛选使用perl脚本得到基因在染色体上的位置。

命令：perl get_gene_gff.pl -in1 基因的id文件-in2 拟南芥gff3文件-out 新文件名称4.5 新文件存放的是基因在染色体上的位置4.6在在线文件MapGene2chrom 中，将基因在染色体上的位置信息文件复制到，input1框中，在input2中粘入samtools得到的fai文件。

4.绘制转录本的结构图4.1 需要准备的文件1. 拟南芥NBS基因转录本id（通过家族成员鉴定得到的蛋白id文件）2.拟南芥基因的注释文件（gtf文件）3.在线绘图工具：Gene Structure Display Server 2.0http：//4.2 具体方法1. 准备gtf文件：输入命令：gffread gff3注释文件-T -o 输出文件（gtf文件）2.editplus 打开gtf文件，去除”transcript:”3. 使用perl脚本提取拟南芥转录本结构信息：命令：perl get_gtf.pl -in1 拟南芥转录本id文件-in2 gtf文件-out 输出文件（nbs_gtf.txt）4.通过在线绘图工具，进行绘图。

5.筛选出串联重复基因5.1准备文件1.拟南芥NBS基因CDS序列串联重复基因筛选标准【（a）length of alignable sequence covers>75% of longergene,and(b) similarity of aligned regions >75%】参考文献：Extent of gene duplication in the genomes of Drosophila, nematode, and yeast.2.由于筛选时产生的文件较多，因此创建新的目录：mkdir 新目录3.用editplus 打开家族成员的id文件，对转录本id进行处理，使一个基因只拿一个转录本。

4.把id复制到Excel，首先排序处理，然后进行分列，然后以第一列删除重复值。

最后将第一列和第二列进行合并。

将处理好的id导入Linux。

5.使用perl脚本提取cds序列：命令：perl get_fa_by_id.pl id文件拟南芥cds 序列文件> cds.fa6.使用blast软件筛选串联重复基因6.1建立目标序列的数据库：makeblastdb -in cds.fa -dbtype nucl -title cds.fa 6.2 进行多序列比对：blastn -query cds.fa -db cds.fa -evalue 1e-20 -outfmt 9 -out result.txt6.3 用editplus打开6.4 得到cds序列的长度，使用samtools工具建立索引：命令：samtools faidx cds.fa6.5 用perl脚本对result.txt进行筛选，perl KAKS_SHAIXUAN.pl -in1 -in2 result.txt -out cleanresult.txt6.6 用editplus打开，将内容复制到Excel，在id后插入一列用公式：if （A1>B1,A1&B1,B1&A1）。