基因家族生信分析
毛果杨PP2C基因家族生物信息学分析

毛果杨PP2C基因家族生物信息学分析摘要:蛋白磷酸酯酶2C(PP2C)是蛋白磷酸酯酶中的一大类,广泛参与逆境信号的传递过程。
本实验采用比较基因组学的方法,利用已知的拟南芥PP2C蛋白序列为检索序列,在全基因组水平上搜索毛果杨的PP2C基因的同源序列。
最终确定了毛果杨45个PP2C候选基因。
对同源序列作进一步的多序列联配、ESTs、MEME和系统发生表达分析。
关键词:毛果杨比较基因组学基因家族Abstract: Protein phosphatase 2C (PP2C) is a protein phosphatase in a large class, the broad participation of adversity signal transmission process. In this study, we searched the homologous sequence from Populus trichocarpa protein database based on the complete genome by using comparative genomics methods and taking the Arabidopsis thaliana PP2C protein which has been isolated as the retrieval sequence. The results showed that 45 PP2C-like protein were identified from Populus trichocarpa. Further, we also analyzed the sequence alignment, MEME, EST and phylogenetic.Keywords: Populus trichocarpa comparative genomics genne family真核生物基因组中,编码蛋白磷脂酶的基因远远少于蛋白激酶,一般只有蛋白激酶基因数的四分之一至三分之一。
生物信息学中的基因家族分析方法研究

生物信息学中的基因家族分析方法研究生物信息学是近年来崛起的学科,是生命科学、计算机科学、数学等多学科的交叉领域。
生物信息学致力于将大量的生物数据,如基因序列、蛋白质序列、代谢物变化等,用数字化的方式进行存储、分析和解释。
生物信息学的应用范围很广,尤其是在基因领域中,其中基因家族分析方法更是受到了广泛关注。
基因家族是指在不同物种中起着相同或相似生理功能的基因序列,它们通常由相同的基因结构和序列组成,但具有不同的功能。
基因家族的发现和研究对生物学和医学领域具有十分重要的意义。
通过基因家族的分析,可以深入了解基因的功能、进化和分类等重要问题,找出与某些疾病相关的基因,有助于新药研发和疾病预防等。
基因家族的分析方法主要有两种:序列比对和聚类分析。
序列比对是指将两个或多个基因序列进行比较,找出相同部分和不同部分,以了解它们之间的关系。
聚类分析是将待研究的基因序列分为不同的族群(聚类),以便于分析每一族群之间的异同和进化关系。
序列比对方法是最常用的基因家族分析方法之一。
在序列比对中,需要选择适当的序列比对工具和算法来比对一组基因序列,以寻找相同的序列段来确定它们之间的关系。
其中,T-Coffee、MUSCLE 和 CLUSTALX 等是比较流行的基因序列比对工具。
有些比对工具采用局部比对(例如 BLAST),即只比对相似序列的局部区域,有些则采用全局比对(例如 Needleman-Wunsch 算法),即比对整个序列。
聚类分析方法分为层次聚类和非层次聚类两种。
在层次聚类中,先根据基因序列的相似性将它们分到一个个小组(或簇)中,再将相似的簇合并成更大的簇,直到所有基因都被分到同一个簇中。
常见的层次聚类算法有 UPGMA、NJ 和WPGMA 等。
在非层次聚类中,基因之间的相似性表示为一个距离矩阵,然后将相似的基因分为一组,形成基因簇。
常见的非层次聚类算法有 K-means、自组织映射和谱聚类等。
这些方法的应用和效果依赖于基因家族的大小和复杂度。
基因家族生信分析

基因家族生信分析一、什么是基因家族概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,他们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
划分:按功能划分:把一些功能类似的基因聚类,形成一个家族。
按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。
1.常见基因家族:WRKY基因家族:是植物前十大蛋白质基因家族之一,大量研究表明,WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。
NBS-LRR抗病基因家族:是植物中最大类抗病基因家族之一。
MADS-BOX基因家族:是植物体内的重要转录因子,它们广泛地调控着植物的生长、发育和生殖等过程。
在植物中参与花器官的发育,开花时间的调节,在果实,根,茎,叶的发育中都起着重要的作用。
热激蛋白70家族(HSP70)是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。
二、基因家族分析流程:●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩阵文件(*.hmm)●在数据库(Ensemble 、JGI、NVBI)下载你所需要的物种的基因组数据(*.fa,*.gff)●在虚拟机中Bio-Linux中的hummsearch程序,用隐马尔科夫模型矩阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白●将蛋白序列导入MEGA软件构建进化树(可以阐明成员之间系统进化关系,从进化关系上揭示其多样性)●利用MEME搜索蛋白质的保守结构域利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能,如果他们都含有相同的motif表明其功能具有相似性,如果部分家族成员含有其他不同的motif,很可能这些成员有其他特异功能,或者可以归分为一个亚族●绘制基因染色体位置图从*.gff文件中抽取我们搜索到的基因位置信息,http://mg2c.iask.in/mg2c_v2.0/在线绘制基因染色体位置图通过染色体位置分布,可以了解基因主要分布字哪条染色体上,及是否能形成基因簇(被认为是通过重组与错配促进基因交流)●基因结构分析从gff文件中抽取基因的结构信息,绘制转录本结构图。
生物信息学在基因家族研究中的应用

生物信息学在基因家族研究中的应用在当今生命科学的研究领域中,基因家族的研究占据着至关重要的地位。
而生物信息学作为一门融合了生物学、计算机科学和统计学等多学科知识的新兴学科,为基因家族的研究提供了强大的工具和方法,极大地推动了这一领域的发展。
基因家族是指一组在结构和功能上具有相似性的基因。
它们通常由共同的祖先基因经过复制和变异演化而来。
对基因家族的研究有助于我们深入了解基因的功能、进化以及生物体的生理和病理过程。
然而,由于基因家族的复杂性和数据的海量性,传统的实验方法在研究基因家族时往往面临诸多挑战。
这时,生物信息学的出现就为解决这些问题提供了可能。
生物信息学在基因家族研究中的一个重要应用是基因家族成员的鉴定。
通过对基因组数据库的搜索和比对,可以利用特定的算法和软件来识别那些具有相似序列特征的基因,从而确定一个基因家族的成员。
例如,BLAST(Basic Local Alignment Search Tool)是一种常用的序列比对工具,它可以快速地在大量的基因序列中找到相似的片段。
通过设定合适的阈值,研究者可以筛选出可能属于同一基因家族的基因。
在基因家族的进化分析方面,生物信息学也发挥着关键作用。
利用系统发生学的方法,可以构建基因家族的进化树,揭示基因家族成员之间的亲缘关系和进化历程。
通过比较不同物种中基因家族的成员和结构,可以了解基因家族在物种进化过程中的变化和适应性。
例如,通过对多个物种的同源基因进行比对和分析,可以推断出基因的复制事件发生的时间和频率,以及基因在进化过程中的丢失和获得情况。
基因表达分析是了解基因功能的重要途径之一。
生物信息学为基因家族的表达分析提供了高效的手段。
利用基因芯片和 RNA 测序等技术产生的大量表达数据,可以通过各种数据分析方法和软件,来确定基因家族成员在不同组织、不同发育阶段以及不同生理和病理条件下的表达模式。
这有助于揭示基因家族在生物体生命活动中的作用和调控机制。
生物信息学中的序列比对和基因家族研究

生物信息学中的序列比对和基因家族研究生物信息学是一门治理生物信息的学科,涉及到生物学、计算机科学、数学统计学等多个领域,为对生物体的基因组、蛋白质组、代谢组等高通量数据进行收集、处理和分析提供了有力的工具。
其中序列比对和基因家族研究是生物信息学中的两个重要研究方向,下面我们将重点论述这两个方向在生物信息学中的主要作用。
序列比对是生物信息学中最为基础的研究方法之一,其主要用于寻找序列之间的相似性和差异性。
在基因组测序和蛋白质组研究中,序列比对可以帮助我们确定相同物种或不同物种间基因的同源性关系,同时可以寻找同物种不同个体、不同组织甚至不同细胞状态下的DNA序列和蛋白质序列中的差异。
可以说,序列比对是高通量分析中必备的一项技术,其在不同领域中具有广泛的应用,如医学、农业、动物学和生态学等。
序列比对的主要算法包括全局比对、局部比对、基因组级比对和多序列比对等。
全局比对是序列比对中最为基础和最容易实现的算法之一,其可以解决全序列的比对问题,如基因组序列的比对,常用的算法有Needleman-Wunsch和Smith-Waterman等。
但是全局比对的方法在比对长序列或大量序列时时间和空间复杂度较高,运算时间过长,因此需要使用更加高效的算法,如局部比对和基因组级比对等。
局部比对是序列比对中另一种较常见的比对算法,其主要用于比对两个长度不同的序列,如DNA修复检查、基因的分子演化等。
常用的算法包括Smith-Waterman算法、Gotoh算法和BLAST算法等。
其中BLAST算法是基于BLAST软件开发的快速局部散列搜索算法,其主要特点是速度快、精度高和数据量大,在生物信息学中的基因鉴定和序列注释方面有着非常广泛的应用。
基因组级比对是序列比对中另一种重要算法,其主要用于比对两个基因组间的序列和基因结构。
它可以帮助我们确定基因组重组、插入和删除,间接地确定哪些基因序列是寄生或编码的,为在一个物种和物种间进行基因组比较研究提供了重要的手段。
生物信息学中的基因家族与进化分析

生物信息学中的基因家族与进化分析随着科学技术的不断发展,我们开始更加深入地研究生物世界,尤其是基因与DNA等方面的内容。
而生物信息学则可以说是基因与DNA研究的一个重要分支,旨在利用计算机和数学等工具分析和理解生物信息。
其中,基因家族以及进化分析便是生物信息学领域的两个重要研究内容。
基因家族是指在基因组中存在的一组类似或相同的基因,这些基因的相似性来自于它们的祖先。
基因家族可以分为两种类型,即单基因家族和跨基因家族。
单基因家族是指具有相近序列和功能的单个基因,例如血红蛋白基因家族;而跨基因家族则是指具有相同序列和相似结构,但在不同基因组位置上存在的基因,例如免疫球蛋白基因家族。
进化是生物学中的一个重要概念,也是生物信息学领域中的核心研究内容。
基因家族的进化研究是生物信息学中的一个重要研究内容之一,它可以揭示基因家族的来源、分布和演化历史等信息。
在进行基因家族的进化分析时,有两种常用的方法,分别是同源性分析和非同源性分析。
同源性分析通常基于基因序列的相似性来推断基因家族的演化历史,而非同源性分析则通过研究不同物种中存在相似序列或结构的基因来推断基因家族的演化历史。
同源性分析主要依据分子进化理论,通过电脑算法构建物种进化树或基因家族进化进程图,推断家族基因间的相似性类型、起源和演化史,以及家族间的动态关系等。
同源性分析中最常用的方法是多序列比对和同源性搜索。
多序列比对是将多个相关序列进行比对,找到最具代表性的序列,通过这些序列的比对可以得到基因家族中不同成员的相似性和差异性信息。
同源性搜索是将一个已知的序列与数据库中的其他序列进行比对,以发现同源区域。
非同源性分析则更多依据蛋白质的结构、功能等方面推断基因间的关系,例如序列相似性比较、三维结构预测等方法。
利用这些方法,可以揭示基因家族的多样性和复杂性,并且相对于同源性分析可以更加准确地研究不同物种之间的基因家族演化。
进化分析所揭示的基因家族演化历史可以对生物学的其他领域产生很大的影响。
基因家族生信分析

基因家族生信分析一、什么是基因家族概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,他们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
划分:按功能划分:把一些功能类似的基因聚类,形成一个家族。
按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。
1.常见基因家族:WRKY基因家族:是植物前十大蛋白质基因家族之一,大量研究表明,WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。
NBS-LRR抗病基因家族:是植物中最大类抗病基因家族之一。
MADS-BOX基因家族:是植物体内的重要转录因子,它们广泛地调控着植物的生长、发育和生殖等过程。
在植物中参与花器官的发育,开花时间的调节,在果实,根,茎,叶的发育中都起着重要的作用。
热激蛋白70家族(HSP70)是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。
二、基因家族分析流程:●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩阵文件(*.hmm)●在数据库(Ensemble 、JGI、NVBI)下载你所需要的物种的基因组数据(*.fa,*.gff)●在虚拟机中Bio-Linux中的hummsearch程序,用隐马尔科夫模型矩阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白●将蛋白序列导入MEGA软件构建进化树(可以阐明成员之间系统进化关系,从进化关系上揭示其多样性)●利用MEME搜索蛋白质的保守结构域利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能,如果他们都含有相同的motif表明其功能具有相似性,如果部分家族成员含有其他不同的motif,很可能这些成员有其他特异功能,或者可以归分为一个亚族●绘制基因染色体位置图从*.gff文件中抽取我们搜索到的基因位置信息,_v2.0/在线绘制基因染色体位置图通过染色体位置分布,可以了解基因主要分布字哪条染色体上,及是否能形成基因簇(被认为是通过重组与错配促进基因交流)●基因结构分析从gff文件中抽取基因的结构信息,绘制转录本结构图。
基因家族生信分析报告

基因家族生信分析一、什么是基因家族概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,他们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
划分:按功能划分:把一些功能类似的基因聚类,形成一个家族。
按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。
1.常见基因家族:WRKY基因家族:是植物前十大蛋白质基因家族之一,大量研究表明,WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。
NBS-LRR抗病基因家族:是植物中最大类抗病基因家族之一。
MADS-BOX基因家族:是植物体的重要转录因子,它们广泛地调控着植物的生长、发育和生殖等过程。
在植物中参与花器官的发育,开花时间的调节,在果实,根,茎,叶的发育中都起着重要的作用。
热激蛋白70家族(HSP70)是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。
二、基因家族分析流程:●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩阵文件(*.hmm)●在数据库(Ensemble 、JGI、NVBI)下载你所需要的物种的基因组数据(*.fa,*.gff)●在虚拟机中Bio-Linux中的hummsearch程序,用隐马尔科夫模型矩阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白●将蛋白序列导入MEGA软件构建进化树(可以阐明成员之间系统进化关系,从进化关系上揭示其多样性)●利用MEME搜索蛋白质的保守结构域利用MEME搜索基因家族成员的motif可以揭示基因家族在物种的多样化及其功能,如果他们都含有相同的motif表明其功能具有相似性,如果部分家族成员含有其他不同的motif,很可能这些成员有其他特异功能,或者可以归分为一个亚族●绘制基因染色体位置图从*.gff文件中抽取我们搜索到的基因位置信息,http://mg2c.iask.in/mg2c_v2.0/在线绘制基因染色体位置图通过染色体位置分布,可以了解基因主要分布字哪条染色体上,及是否能形成基因簇(被认为是通过重组与错配促进基因交流)●基因结构分析从gff文件中抽取基因的结构信息,绘制转录本结构图。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因家族生信分析一、什么是基因家族概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,他们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
划分:按功能划分:把一些功能类似的基因聚类,形成一个家族。
按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。
1.常见基因家族:WRKY基因家族:是植物前十大蛋白质基因家族之一,大量研究表明,WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。
NBS-LRR抗病基因家族:是植物中最大类抗病基因家族之一。
MADS-BOX基因家族:是植物体内的重要转录因子,它们广泛地调控着植物的生长、发育和生殖等过程。
在植物中参与花器官的发育,开花时间的调节,在果实,根,茎,叶的发育中都起着重要的作用。
热激蛋白70家族(HSP70)是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。
二、基因家族分析流程:●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩阵文件(*.hmm)●在数据库(Ensemble 、JGI、NVBI)下载你所需要的物种的基因组数据(*.fa,*.gff)●在虚拟机中Bio-Linux中的hummsearch程序,用隐马尔科夫模型矩阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白●将蛋白序列导入MEGA软件构建进化树(可以阐明成员之间系统进化关系,从进化关系上揭示其多样性)●利用MEME搜索蛋白质的保守结构域利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能,如果他们都含有相同的motif表明其功能具有相似性,如果部分家族成员含有其他不同的motif,很可能这些成员有其他特异功能,或者可以归分为一个亚族●绘制基因染色体位置图从*.gff文件中抽取我们搜索到的基因位置信息,http://mg2c.iask.in/mg2c_v2.0/在线绘制基因染色体位置图通过染色体位置分布,可以了解基因主要分布字哪条染色体上,及是否能形成基因簇(被认为是通过重组与错配促进基因交流)●基因结构分析从gff文件中抽取基因的结构信息,绘制转录本结构图。
●计算串联重复基因的Ka,Ks1.首先将筛选到的基因的cds序列进行多序列对比,筛选identity >75%,tength大于对比的两条序列中较长的那条的长度的75%,将筛选到的基因分别用clustalw进行比对,比对结果导入KsKs_Calculster计算Ka,Ks、Ka/ks比,计算核苷酸的非同义替代(ka)与核苷酸的同义替代(ks)的平均速率。
2.Ka/ks比值<1表明:通过纯化选择降低了氨基酸变化的速率;比值=1表示中性选择;比值>1,表明这些基因可能已经收到积极选择,有利于适应性遗传,这些受正向选择的基因将作为以后的研究重点。
软件的安装从图片中获得进入NCBI-blast官网复制blast-linux版本的链接在Linux终端1.blast的安装#wget blast链接#tar xvfz 文件名解压缩文件# mv 解压缩文件/root/local/app# mv 解压缩文件blast# vi .bashrc#在最后一行添加export $PATH=/root/local/app/blast/bin:$PATH 并保存退出#source .bashrc 运行#blastp -version 查看是否安装成功。
2.hummer的安装#yum install -y wget //安装wget#wget hmmer源码链接#tar -zxvf hmmer-3.2.1# vi .bashrc#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-3.2.1/binaries#yum install -y gcc#./configure#make#make check#make install#which hmmsearch 查看是否安装成功。
3.perl的安装#wget 源代码链接# tar xvfz perl-5.28.1.tar.gz 解压缩#cd perl-5.28.1#./configure#make#make install 安装完成。
3.bioperl 的安装#wget -O - https://install.perlbrew.pl | bash#perlbrew install-cpanm#/root/perl5/perlbrew/bin/cpanm Bio::Perl三、具体操作:1.保守域结构分析下载蛋白保守结构域文件、cds、cDNA、gff注释文件和隐马尔科夫矩阵模型。
以拟南芥为例:下载完成后,需要将文件传到Linux系统上进行分析:打开虚拟机输入ip a将虚拟机IP连接到Xshell上,在Xshell上进行操作,将文件通过xftp(同样需要连接IP)传到Linux系统上,然后进行解压。
(一个命令解压多个文件:gunzip*.gz)接下来用hummsearch寻找含有该蛋白保守结构域的蛋白及核酸序列安装hummsearchyum install -y wget //安装wget#wget hmmer源码链接#tar -zxvf hmmer-3.2.1# vi .bashrc#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-3.2.1/binaries #yum install -y gcc#./configure#make#make check#make install#which hmmsearch 查看是否安装成功。
解压文件移动到APP目录下面在app目录下面新建文件夹 mkdir hmmer将hmmer-3.2.1移到hmmer目录下面 mmove -v c:/hmmer-3.2.1 c:/hmmer删除安装包打开文字编辑器vi ~/.bashrc在文字编辑器里最后一行添加以上内容安装好wget如果make check出现错误百度用以下方法解决出现complete安装完成#source ~/.bashrc#which hmmsearch至此hmmer安装完成。
虚拟机操作:1.导入下载好的文件;2.hmmsearch --cut_tc –domtblout NB-ARC.txt NB-ARC.hmm Arabidopsis_thaliana.TAIR10 pep.all.fa可以用editplus打开.txt文件3. perl domain_xulie.pl 结果文件.txt 蛋白序列文件domain.fa 1e-204.clustalw进行多序列比对,得到aln文件和dnd文件。
5.hmmbuild 拟南芥特异的hmm模型文件domain.aln6.hmmsearch –cut_tc –domtblout result.txt newhmm文件蛋白质序列文件7.在Excel中,根据特定的evalue进行筛选,并对第一列进行去重复,得到第一列去重复的id,保存为id.txt8. 用perl脚本根据id提取序列Per get_fa_by_id.pl id.txt 蛋白序列wenjain >结果输出文件可以根据的得到的序列文件进行后续的构建进化树、motif分析等。
2.搜索基因家族成员的MOTIF2.1 需要准备的文件1. 拟南芥NBS基因蛋白质序列2. 蛋白保守结构域的隐马尔科夫模型矩阵文件2.2 MOTIF的搜索使用meme软件命令:meme nbs_pep.fa -protein -oc nbs_motif -nostatus -maxsize 600000 -mor anr -nmotifs 10 -minw 6 -maxw 50搜索结果存放在nbs_motif文件夹中。
文件夹中的eps文件可以用AI打开编辑,可以另存为png或jpg格式,也可打开网页版,也可用tbtools软件打开,下载motif在基因上的位置信息。
3. 绘制基因在染色体上的位置图3.1 需要准备的文件1. 拟南芥NBS基因id2. 拟南芥的注释文件(gff3文件)3. 拟南芥基因组长度4.1在线绘图工具:MapGene2Chrom4.2 samtools faidx 拟南芥.dna.toplevel.fa 可得到拟南芥.dna.fa.fai文件该文件包括各个染色体,染色体长度。
4.3 对基因的id文件在Excel中进行分列,去重复处理。
4.4 使用处理过的id文件,对拟南芥的注释文件进行筛选使用perl脚本得到基因在染色体上的位置。
命令:perl get_gene_gff.pl -in1 基因的id文件-in2 拟南芥gff3文件-out 新文件名称4.5 新文件存放的是基因在染色体上的位置4.6在在线文件MapGene2chrom 中,将基因在染色体上的位置信息文件复制到,input1框中,在input2中粘入samtools得到的fai文件。
4.绘制转录本的结构图4.1 需要准备的文件1. 拟南芥NBS基因转录本id(通过家族成员鉴定得到的蛋白id文件)2.拟南芥基因的注释文件(gtf文件)3.在线绘图工具:Gene Structure Display Server 2.0http:///index.php4.2 具体方法1. 准备gtf文件:输入命令:gffread gff3注释文件-T -o 输出文件(gtf文件)2.editplus 打开gtf文件,去除”transcript:”3. 使用perl脚本提取拟南芥转录本结构信息:命令:perl get_gtf.pl -in1 拟南芥转录本id文件-in2 gtf文件-out 输出文件(nbs_gtf.txt)4.通过在线绘图工具,进行绘图。
5.筛选出串联重复基因5.1准备文件1.拟南芥NBS基因CDS序列串联重复基因筛选标准【(a)length of alignable sequence covers>75% of longer gene,and(b) similarity of aligned regions >75%】参考文献:Extent of gene duplication in the genomes of Drosophila, nematode, and yeast.2.由于筛选时产生的文件较多,因此创建新的目录:mkdir 新目录3.用editplus 打开家族成员的id文件,对转录本id进行处理,使一个基因只拿一个转录本。
4.把id复制到Excel,首先排序处理,然后进行分列,然后以第一列删除重复值。