功能基因的克隆及生物信息学分析

功能基因的克隆及生物信息学分析
功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析

摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学(structural genomics)转向功能基因组学(functional genomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等),其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1],它代表了基因分析的新阶段,已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。

关键词:功能基因、克隆、生物信息学分析。

1.功能基因的克隆

1.1 图位克隆方法

图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因(控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2 基因克隆[5]等)也通过图位克隆法获得。

1.2 同源序列克隆目的基因

首先根据已知的基因序列设计PCR引物,在已知材料中扩增到该片段,并经克隆测序验证,利用放射性同位素标记或其他非同位素标记该PCR片段作为探针,与待研究材料的cDNA文库杂交,就可以获得该基因cDNA克隆,利用克隆进一步筛选基因组文库,挑选阳性克隆,亚克隆并测序,从中就可以筛选到该基因的完整序列。

1.3结合连锁和连锁不平衡的分析方法

结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6]。(Linkage disequilibrium, LD)。与连锁分析不同, 连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上, 这样就只有相隔很近的标记才能不被重组掉, 从而形成大小不同的单倍型片段(Haplotype block)。这样经过很多世代的重组, 只有相隔很近的基因, 才能仍处在相同的原始单倍型片段上, 基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析, 可以实现目的基因的精细定位。林木大多为自由授粉的异交物种, 所以连锁不平衡程度很低, 林木基因组中的LD可能会仅局限于非常小的区域, 这就为目的基因的精细定位提供了可能, 结合SNP 检测技术, 科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来, 进行数量性状寡核苷酸(Quantitative trait nucleotide, QTN)作图。当然除了相隔很近的基因, 某些相隔较远的基因, 由于受相同的选择压力, 也可能产生连锁不平衡。但通过家系分析, 首先可以进行目的基因的粗略定位, 将目的基因首先限定到一个较小的区域, 只针对该区域内的SNP 进行相关性分析, 从而消除非由连锁引起的连锁不平衡干扰。随着林木全基因组测序的发展, 连锁图谱与LD 分析相结合的方法将是在林木中实现未知基因克隆的最有效的方法[6]。

1.4电子克隆

近年来又兴起一种新的基因克隆方法--电子克隆,它是近年来伴随着基因组

计划和EST计划发展起来的基因克隆新方法,它的主要原理是利用日益发展的生物信息学技术,借助电子计算机的巨大运算能力,通过EST或基因组的序列组装和拼接,利用RT-PCR的方法快速获得功能基因,具有投入低、速度快、技术要求低和针对性强等优点[7]。

1.4.1利用EST数据库信息

首先选择感兴趣的水稻, EST作为查询探针,搜索水稻dbEST数据库,找到部分重叠的EST进行拼接,然后再以拼接好的EST重叠群为新的查询探针,继续搜索dbEST库,直到没有新的EST可供拼接为止,最后根据拼接好的完整序列设计PCR引物,通过RT-PCR的方法获得目的cDNA克隆并进行序列测定验证[7]。

图1为利用EST数据库信息克隆水稻功能基因的试验流程。

图1 利用水稻EST数据库进行电子克隆的策略

1.4.2利用基因组信息

利用基因组信息资料进行电子克隆的最大优点就是基因的克隆不受作物发育时期或特殊环境条件的限制:可以用来源于任何时期或组织的水稻和其他物种的EST或全长cDNA序列作为信息探针搜索位于

GenBank或者我国华大公布的水稻基因组序列: 随后根据内含子的规则通过人工拼接或相应的计算机软件预测: 可以得到该基因完整的开放读码框,根据拼接的序列结果设计PCR引物: 进一步采取RT-PCR的方法获得目的基因的cDNA克隆并进行序列测定[7]。具体实验流程见图2

2 生物信息学分析

生物信息学(bioinformatics)是在生命科学、计算机科学和数学的基础上逐步

发展而形成的一门新兴交叉学科,是为理解各种数据的生物学意义,运用数学与计算机科学手段进行生物信息的收集、加工、存储、传播、分析与解析的科学[8-10]。由于历史原因,有的研究者也使用计算生物学(computational biology)或计算分子生物学(computational molecular biology) 等不同的术语。在后基因组时代,生物信息学的研究内容主要可分为两个重要组成部分:基因组信息学和蛋白质组信息学[11]。后基因组时代,除了继续序列和结构分析外,更多的研究力量则投入到功能分析,也就是分析研究遗传型到表型的过程[12]。

2.1 基因序列同源性比对及其应用

基因序列同源性的比对,对于分析基因组DNA序列以及完成新基因的染色体定位也是极为便捷的。将确定的新基因的编码基因序列作为参照,对于GenBank数据库中高通量基因序列(htgs)数据库中基因组DNA序列进行同源性对比,当发现与新基因的cDNA序列完全同源的基因组DNA序列时,根据Chambon原则,内含子(intron)的序列总是以GT开始,以AG结束,就可以确定该基因的基因组DNA序列的结构,及外显子(exon)-内含子序列结构。因为在htgs 数据库收录的基因组DNA序列,其染色体的来源是十分清楚的,因此就很容易、很方便地将该基因组进行染色体的定位,而不再需要进行荧光原位杂交(FISH)的常规的基因染色体定位技术。可见基因的生物信息学技术的发展对于基因组DNA序列的确定和在染色体上的定位是多么重要。迟光红等在香蕉中获得一个柠檬酸合酶基因的cDNA序列。用NCBI Blastx分析,得出它具有植物柠檬酸合酶基因的特征结构域,并与其他植物中柠檬酸合酶基因的同源性较高,进一步证明了该cD NA编码香蕉中的柠檬酸合酶[13]。李学农等通过Internet查询美国国家生物信息中心数据库,数据库采用BLAST,依据Genecard和Ense- mbl获得将MGC39325基因定位于人染色体8q12[14]。

2.2 结构分析与功能预测

结构分析的研究重点在于研究蛋白质的空间结构。利用分子模拟技术结合计算机图形技术可以更形象、更直观地研究蛋白质等生物大分子的结构,蛋白质的

空间结构的更清晰的表述和研究对揭示蛋白质的结构和功能的关系、总结蛋白质结构的规律、预测蛋白质肽链折叠和蛋白质结构等,都是有力的帮助和促进。同时,也可以对已经被测定的生物大分子的三维结构进行显示和编辑操作。分子模型的建立为下一步进行的分子模拟以及了解结构与功能的关系打下了基础。蛋白质结构预测是利用已知的一级,二级序列来构建蛋白质的立体结构模型,对蛋白质进行结构预测需要具体问题具体分析,在不同的已知条件下对于不同的蛋白质采取不同的策略。杨波等以LRP16 基因转录产物为目标序列,在人类基因组数据库中搜索开放阅读框(ORF),利用计算机辅助系统预测LRP16蛋白的一级结构、二级结构和三级结构;利用结构域搜索LRP16 编码蛋白的同源或相似结构蛋白[15]。

2.3 蛋白质的同源性检索及系统发生进化树分析

将推导出的蛋白质序列登录到NCBI网站( http://www.ncbi.nlm.n ih.gov /)上,用BL AST程序进行序列的同源性检索[16-18]。王安娜等。结果发现大豆的C4H蛋白质与绿豆、马铃薯、棉、辣椒、橄榄、烟草、律草属啤酒花等的C 4 H 蛋白质有着很显著的同源性。在BLA ST p分析的基础上,选择与其同源性较高的几条序列做聚类分析,对C4H蛋白和其他C4H蛋白的同源性做进一步分析。在DNAMA N 6.0 的Treeview显示的结果。结果表明大豆C4 H和绿豆的C4H 亲缘关系最近,同源性达95%,来自于同一个分枝;其次是紫苜蓿、红车轴草、鹰嘴豆、豌豆,来自同—个次分枝[19]。

参考文献

[1] 黎裕、王天宇、贾继增. 植物功能基因组学的发展现状与发展趋势. 生物技术通报2000;6-10

[2] 刘斌.生命科技的前沿领域,HIGH TECHNOLOGY AND INDUSTRIALIZATION AUGUST 2006;48-54

[3] Frary A, Nesbitt T.C, Frary A, Grandillo S, van der Knaap E, Cong B, Liu J, Meller J, Elber R, Alpert KB, Tanksley SD. Fw2.2: A quantitative trait locus key to the evolution of tomato fruit size. Science, 2000, 289(期): 85–88.

[4] Li C, Zhou A, Sang T. Rice domestication by reducing shattering. Science, 2006, 311(5266): 1936–1939.

[5] Yan L, Loukoianov A, Blechl A, Tranquilli G, Ramakrishna W, SanMiguel P, Bennetzen JL, Echenique V, Dubcovsky J. The wheat VRN2 gene is a flowering repressor down-regulated by vernalization. Science, 2004, 303(5664): 1640–1644.

[6] 尹佟明HEREDITAS (Beijing) 2010年7月, 32(7): 677―684.

[7] 黄骥张红生曹雅君钱晓茵杨金水水稻功能基因的电子克隆策略. 中国水稻科学,2002,16(4);295-298.

[8] Baldi P, Brunak S.Bioinformatics:The Machine Learning App roach [M].Cambridge,Mass.:MIT Press,2001.

[9] 欧阳曙光,贺福初.生物信息学:生物实验数据和计算技术结合的新领域[ J ].科学通报,1999,44 ( 14 ):1457—1468.

[10] 陈润生.当前生物信息学的重要研究任务[ J ] .生物工程进展,1999,19 (4) :11—14.

[11] 王正华王勇献后基因组时代生物信息学的新进展国防科技大学学报:1001—2486 (2003); 01-06.

[12] 陈铭, 后基因组时代的生物信息学, 生物信息学,1672-5565(2004)-02-06.

[13] 迟光红,周雪丽,李美英,徐碧玉,金志强香蕉柠檬酸合酶基因MaGCS的克隆及生物信息学分析.热带农业科学, 2009,12-18.

[14] 李学农,李亚玲,刘国炳,丁彦青肿瘤相关未知功能基因MGC 39325的克隆及生物信息学分析World Chin J Digestol ) :1059 —1064 (2005) 1059-1064.

[15] 杨波,卢学春迟小华韩为东于力楼方定基于生物信息学分析人类LRP16 基因功能初步研究癌症2009,28 (1)1283-1290

[16] 李玉花,刘靖华,徐启江,等.现代分子生物学模块实验指南[ M] .北京:高等教育出版社,2006:295—311.

[17] 孙啸,陆祖宏.生物信息学基础[M] .北京:清华大学出版社,2005.

[18] 钟扬,王莉,张亮.生物信息学[M] .北京:高等教育出版社,2003 .

[19] 王安娜,王婵婵,吴蕾,李业成,刘成,马凤鸣大豆C4H基因克隆及生物信息学分析东北农业大学学报2010.41 (4):12 ~ 15.

【高中生物】功能基因的克隆及生物信息学分析

(生物科技行业)功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析 摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学(structuralgenomics)转向功能基因组学(functionalgenomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等),其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1],它代表了基因分析的新阶段,已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。 关键词:功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1图位克隆方法 图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多

控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因(控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2基因克隆[5]等)也通过图位克隆法获得。 1.2同源序列克隆目的基因 首先根据已知的基因序列设计PCR引物,在已知材料中扩增到该片段,并经克隆测序验证,利用放射性同位素标记或其他非同位素标记该PCR片段作为探针,与待研究材料的cDNA文库杂交,就可以获得该基因cDNA克隆,利用克隆进一步筛选基因组文库,挑选阳性克隆,亚克隆并测序,从中就可以筛选到该基因的完整序列。 1.3结合连锁和连锁不平衡的分析方法 结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6]。(Linkagedisequilibrium,LD)。与连锁分析不同,连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上,这样就只有相隔很近的标记才能不被重组掉,从而形成大小不同的单倍型片段(Haplotypeblock)。这样经过很多世代的重组,只有相隔很近的基因,才能仍处在相同的原始单倍型片段上,基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析,可以实现目的基因的精细定位。林木大多为自由授粉的异交物种,所以连锁不平衡程度很低,林木基因组中的LD可能会仅局限于非常小的区域,这就为目的基因的精细定位提供了可能,结合SNP检测技术,科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来,进行数量性状寡核苷酸

JMJD2B基因的生物信息学分析

JMJD2B基因的生物信息学分析 2006级本硕一班谢泽飞 指导老师:吴炳礼,许丽艳,李恩民 一对该基因的初步认识 JMJD2B基因是JMJB2基因家族中的一员,而说到该基因的来龙去脉还得从它的家族谈起。JMJD2家族是通过体外克隆的方式从一个编号为KIAA0867的人脑分粒cDNA文库中获得的,而且通过与JMJD1C基因的比较,更加明确了该基因家族的结构特点。该基因家族主要含有一个JmjN,JmjC,JD2H功能域,两个TUDOR功能域。有趣的是在该基因家族的C端末尾的第二个TUDOR功能域上有一个双向的出核入核定位信号,而这似乎提示了某些问题。现在我们对这整个家族有了一个初步的认识,再来看JMJD2B这个基因: 定位:19p13.3 全长:1096 AA 分子量:121896 Da 等电点:6.79 含有2个锌指结构,均为PHD型: 731-789 MCFTSGGENT EPLPANSYIG DDGTSPLIAC GKCCLQVHAS CYGIRPELVN EGWTCSRCA 851-907 KCVYCRKRMK KVSGACIQCS YEHCSTSFHV TCAHAAGVLM EPDDWPYVVS ITCLKHK 在15-57 处含有JmjN功能域,146-309含有JmjC功能域. 二该基因的主要生物学功能 第一点,通过进化树的分析,显示该基因在马这一动物中高度保守。

通过分析该基因的序列,在数据库中查找其同源序列,进而选取不同物种的代表基因进行进化树分析,我们可以看到,马这个物种的被归到了低等的昆虫中去了,按照进化的理论,应该不会出现这种情况的,于是,我们推断,该基因在马这个物种中特别保守,所以进化中的变异非常的小。再进一步想,该基因对马这个物种可能是很重要的,那么为什么这个基因会如此重要呢?通过查找文献,我得出下面的另一个结论,就是该基因的生物学功能:该基因具有去甲基化作用。当然,由于实验不是在马身上做的,我们也就只能得出一般性的结论。 第二点,参与组蛋白去甲基的作用,主动且有普遍特异性。 很显然,越来越多的研究表明,在真核细胞中组蛋白的甲基化修饰水平是该细胞的表观遗传的活跃程度的一个很重要指标。而JMJD2B的这个功能的意义是重大的,其能够使染色体核周异染色体的核周组蛋白去甲基化,进而对细胞的遗传进行表观遗传的调控。研究人员利用间接荧光免疫法进行追踪发现,在两组对照的雌鼠JMJD2B-GFP底物系统中,JMJD2B基因过度表达的一组,H3K9me3水平明显低于另外正常的那一组,都转变为H3K9me1的构型,这说明了JMJD2B 的特异去甲基作用,而且这一过程是主动的,都发生在细胞染色体复制前的一瞬间,速度非常快。但是,在巨大组蛋白中,该基因有表现出可以同时参与H3K9me3和H3K9me2的去甲基作用。

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

甘蔗MYB2转录因子的电子克隆和生物信息学分析

第9卷第1期2011年3月生物信息学 China Journal of Bioinformatics Vol.9No.1Mar.,2011 收稿日期:2010-04-29;修回日期:2010-09-06.基金项目:国家948项目(2010-C21)。 作者简介:李国印,男,山东菏泽,硕士研究生E -mail :lyion029@163.com. *通讯作者:许莉萍,女,福建莆田,博士,博导、研究员,E -mail :xlpmail@yahoo.com.cn. doi :10.3969/j.issn.1672-5565.2011.01.006 甘蔗MYB2转录因子的电子克隆和生物信息学分析 李国印,阙友雄,许莉萍* ,郭晋隆,闫学兵,陈如凯 (福建农林大学农业部甘蔗遗传改良重点开放实验室,福建福州350002) 摘要:用电子克隆方法获得甘蔗MYB2基因,采用生物信息学方法,对该基因编码蛋白从氨基酸组成、理化性质、跨膜结构 域、 疏水性/亲水性、亚细胞定位、高级结构及功能域等方面进行了预测和分析。结果表明:甘蔗MYB2基因全长991bp ,包含570bp 的ORF ,编码189个氨基酸。甘蔗MYB2基因包含有MYB 功能域,在序列组成、高级结构及活性位点等方面,与玉米等其它植物的MYB2基因具有高度的相似性。研究结果为该基因的实验克隆奠定基础。关键词:甘蔗;MYB2基因;电子克隆;生物信息学中图分类号:Q785 文献标识码:A 文章编号:1672-5565(2011)-01-024-04 Electronic cloning and characterization of MYB 2gene from Saccharum officinarum using bioinformatics tools LI Guo-yin ,QUE You-xiong ,XU Li-ping *,GUO Jin-long ,YAN Xue-bing ,CHEN Ru-kai (Key Laboratory of Sugarcane Genetic Improvement ,Ministry of Agriculture ,Fujian Agriculture&Forestry University ,Fuzhou 350002,China ) Abstract :An novel MYB2gene from Saccharum officinarum was cloned in silico based on the EST seqences from Unigene of NCBI.Some characters of the MYB2encodes amino acid were analyzed and predicted by the tools of bioinformatics in the following aspects ,including the compositon of amino acid sequence ,hydrophobicity or hydro-philicity ,secondary and tertiary structure of protein and funcion.Bioinformatical analysis showed that the full -length of MYB2gene from S.officinarum was 991bp and it contained a complete ORF which encoded 189amino acid.The MYB2gene contained an typical MYB domain and was highly conservative compared with MYB2from several different plant species in sequence compositon ,advanced structure and activity sites.The results will pro-vide the basis for MYB2gene cloning in experiment. Key words :Saccharum officinarum ,MYB2gene ,In silico cloning ,Bioinformatics 在植物中首先从玉米中克隆了含有MYB 结构 域的转录因子C1基因[1] , 此后在植物中发现的MYB 相关基因的数量迅速增加。对其功能的研究表明,植物MYB 转录因子具有广泛的生理功能,几乎参与植物发育和代谢的各个方面,重点是调控环境胁迫,如干旱和病害逆境胁迫、次生代谢调节、激素调控应答及控制细胞分化等。 植物MYB2转录因子是MYB 大家族中一个小的亚族,虽然不同植物的MYB2基因具有不同的生物学功能 [2,3] ,但它们都是在转录水平上调控植物 各个阶段的生长发育。通过突变体及基因敲除技 术,已克隆了很多植物MYB 类基因,但在甘蔗MYB 方面研究甚少。 以NCBI 数据库为基础,电子克隆得到甘蔗中编码MYB2的cDNA 序列,利用生物信息学方法,对该基因编码蛋白从氨基酸组成、理化性质、疏水性、亚细胞定位及结构功能等方面进行预测和分析,为后续通过实验手段克隆甘蔗MYB2基因和基因功能研究奠定基础。

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

红豆杉中MYB家族基因克隆及表达分析 开题报告 于凯

毕业设计/论文 开题报告 课题名称红豆杉中MYB家族基因克隆及表达分析类别毕业论文 系别城市建设学院 专业班生物工程0701班 姓名于凯 评分 指导教师 华中科技大学武昌分校

华中科技大学武昌分校学生毕业论文开题报告

癌活性,对于治疗卵巢癌、乳腺癌等疗效突出。但是由于含量少、提取困难等诸多因素,高纯度紫杉醇价格昂贵,每公斤200万元人民币左右。因此,近年来国内外许研究人员、实验室和公司一直试图通过生物合成、化学合成、微生物提取、组织和细胞培养、寻找类似物等途径来解决紫杉醇的药源短缺问题。 研究紫杉醇的生物合成,尤其一些限速反应步骤机理的阐明对于人为定向的提高合成效率,克隆重组形成关键酶基因从而提高紫杉醇的产量意义重大。从理论上来说这是一个好方法,但是紫杉醇的合成途径非常复杂,涉及到多种酶以及很多分支途径,单纯依靠转化一、两种限速酶基因,只能保证转入的限速酶表达量提高,使之不再是限速因素,但其它阶段对于最终产量的限制依然存在,而且同时转入多种基因的可行性非常低,这种方法的缺陷很明显。 若采用化学合成,如从红豆杉植物中分离得到的巴卡亭Ⅲ经过四步化学过程可合成紫杉醇,为合成紫杉醇提供了新途径[5]。但化学合成从实质意义上说还没有取得彻底的突破,目前还不具备应用价值。 如果从共生真菌中直接提取紫杉醇,能够利用真菌生长速度快的优势,但目前分离的菌株无论从种类还是数量上都远不够工业化的要求,而且还存在很多不确定因素[1]。生产紫杉醇的微生物大多是与红豆杉共生的真菌,其紫杉醇含量极微,并且这些真菌的培养和大规模发酵困难,菌株衰退也是一个难题。 另外,红豆杉愈伤组织和细胞培养生产紫杉醇是研究的热点之一,是工厂化大规模生产紫杉醇的重要手段之一。但运用植物组织、细胞培养技术生产紫杉醇仍处在实验室阶段,如何获得高含量、产紫杉醇稳定的愈伤组织一直都是组织培养、细胞培养生产紫杉醇的关键。 1.1.3关于MYB基因 ①MYB基因 目前,在几乎所有的真核生物中都发现了与禽类逆转录病毒癌基因和细胞原癌基因c-MYB相似的基因,它们的编码产物在结构和功能上具有高度保守的DNA结合域,是一类转录因子[6]。在植物中首先从玉米中克隆了含有MYB结构域的转录因子C1基因,之后在植物中发现的MYB相关基因的数量迅速增加[7]。

功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析 摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学(structural genomics)转向功能基因组学(functional genomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等),其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1],它代表了基因分析的新阶段,已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。 关键词:功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1 图位克隆方法 图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因(控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2 基因克隆[5]等)也通过图位克隆法获得。

生物信息学分析

4、生物信息学分析 通过核苷酸序列数据库和基因序列同源性在线分析途径初步对Rv2029c基因进行分类整理。由于结核分枝杆菌耐利福平野生株与核苷酸序列数据库KEGG GENES中的结核分枝杆菌标准株H37Rv的匹配率为100%,以下对基因的分析按照结核分枝杆菌标准株H37Rv的数据库信息进行,即完全匹配的1020bp长度序列(本次提取基因中包含上下游引物等序列,较长,1346bp)。 4.1基本信息 表1 基因基本信息 4.2基因组信息 表2 基因组信息

5、PLN02341(PfkB型碳水化合物激酶家族蛋白),位点208-294 6、PTZ0029(核糖激酶),位点205-301 药物靶点1、同源基因没有药物靶点 2、非同源但序列相似基因没有药物靶点 图3 蛋白结构域 4.3蛋白表达 4.3.1 二级结构分析 预测结果显示,PfkB蛋白的二级结构中β转角占46.61%,α螺旋占33.63%,β折叠占19.76%。转角结构和螺旋结构构成了结核分枝杆菌PfkB蛋白二级结构的骨架。

图4 蛋白二级结构 4.3.2 跨膜区分析 Tuberculist跨膜蛋白预测结果表明:蛋白长度339aa,预测跨膜蛋白数0。 图5 蛋白跨膜区分析 4.3.3 信号肽预测 Predict Protein分析表明PfkB蛋白氨基酸残基没有信号肽,由此推断此蛋白不包含信号肽,不是分泌型蛋白质。

图6 蛋白信号肽预测 4.3.4 疏水性分析 分析结果显示,蛋白最大疏水指数为2.411,最小疏水指数为-2.372。

图7 蛋白疏水性分析 4.3.5 DNA同源性分析 表3 基因同源性分析 菌株序列覆盖 率 E值一致性 Mycobacterium tuberculosis strain Beijing-like, complete genome 100% 0.0 100% Mycobacterium bovis subsp. bovis AF2122/97 complete genome 100% 0.0 100% Mycobacterium tuberculosis 18b genome 100% 0.0 100% Mycobacterium tuberculosis H37RvSiena, complete genome 100% 0.0 100% Mycobacterium tuberculosis str. Kurono DNA, complete genome 100% 0.0 100% Mycobacterium tuberculosis 49-02 complete 100% 0.0 100%

乳糖酶基因的克隆及生物信息学分析

乳糖酶基因的克隆及生物信息学分析 【摘要】目的:克隆并分析保加利亚德氏乳杆菌中的乳糖酶基因。方法:利用PCR技术从保加利亚德氏乳杆菌中克隆出乳糖酶基因、测序并生物信息学分析。结果:成功的从保加利亚德氏乳杆菌中克隆出全长为3 024 bp的乳糖酶基因,利用生物软件分析,推测乳糖酶基因共编码1 008个氨基酸,蛋白分子量为114 KDa,等电点为4.9,氨基酸序列中共有9处潜在的糖基化位点。并将此基因与不同来源的乳糖酶基因进行同源性比较。结论:成功的克隆出乳糖酶基因,并利用生物分析软件对其进行生物信息学分析。了解该酶的性质特征,为进一步研究及低成本表达该酶奠定基础。 【关键词】乳糖酶基因;克隆;生物信息学分析 Clone and bioinformatics analysis of lactase gene WANG Zheng1, 2, MA Wen li1, ZHENG Wen ling1 (1.Institute of Gene Project, South Medical University Guangzhou 510510, China; 2.Key Laboratory of Molecular Biology, Hainan Medical College Haikou 571101, China ) [ABSTRACT]Objective: To clone and analyze lactase gene from Lactobacillus delbrueckii bulgaricus. Methods: Cloned lactase gene from Lactobacillus delbrueckii bulgaricus with PCR, made sequencing and bioinformatics analysis. Results: Cloned lactase gene (3 024 bp) successfully. It was presumed that the lactase gene encode 1 008 amino acids, with protein molecule 114 KDa, isoelectric point 4.9, 9 potential glycosylation sites in amino acid sequence. Made homology comparison with other lacteses. Conclusion: The lactase gene is cloned successfully and the bioinformatics analysis is made by biological analysis software to investigate its character. It provides foundation for further study and colonization at low cost. [KEY WORDS]Lactase gene; Clone; Bioinformatics analysis 乳及乳制品含有丰富的优质蛋白质、脂肪、碳水化合物以及几乎全部已知的维生素和多种矿物质,还含有免疫球蛋白等抗病因子,易被人体消化吸收,是人类改善营养、增强体质的理想食品[1]。除此之外,在牛乳等制品当中还含有5%左右的乳糖,它是牛奶中主要的碳水化合物,对人体有着重要的作用。主要表现在于乳糖能促进钙质吸收及整理肠道的功效,特别是乳糖被分解后的半乳糖是婴儿脑发育的必需物质,与婴儿大脑的迅速成长有密切关系。然而,人体却不能直接利用乳糖,它必须被乳糖酶分解为单糖的葡萄糖及半乳糖后才能被吸收和利用。据研究发现,世界各国人口都有不同程度的乳糖酶缺乏,东方人乳糖酶缺乏高达85%[2],从而导致“乳糖不耐症”的发生。 乳糖酶(EC3.2.1.23,又名β 半乳糖苷酶)能将牛乳中的乳糖水解为葡萄糖和半乳糖,并具有半乳糖苷的转移作用[3]。利用该酶生产低乳糖制品或口服酶制剂,能够有效解决“乳糖不耐症”问题。乳糖酶广泛存在于扁桃、桃、杏、苹果和咖啡豆等植物中,大肠杆菌、乳酸杆菌、酵母菌和霉菌等微生物中,以及有效哺乳动物的小肠等器官和皮肤组织中。然而,

用于新基因的生物信息学分析

用于新基因的生物信息 学分析 ★★★★★ reasonspare(金币+5,VIP+0):谢谢分享,欢迎常来! lwf991229(金币+0,VIP+0):置为资源帖~~ 2-9 16:12 lwf991229(金币+0,VIP+0):高亮~ 2-9 16:13 核酸序列的基本分析 运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用BioEdit(版本7.0.5.3)软件对基因做酶切谱分析。 碱基同源性分析 运用NCBI信息库的BLAST程序对基因进行碱基同源性分析(Translated query vs.protien database(blastx))网站如下:https://www.360docs.net/doc/4c7513033.html,/BLAST/ 参数选择:Translated query-protein database [blastx];nr;stander1 开放性阅读框(ORF)分析 利用NCBI的ORF Finder程序对基因做开放性阅读框分析,网址如下: https://www.360docs.net/doc/4c7513033.html,/projects/gorf/orfig.cgi 参数选择:Genetic Codes:1 Standard 对蛋白质序列的结构功能域分析 运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)对基因的ORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。 网址如下:http://smart.embl-heidelberg.de/ 运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析 参数选择:Search Database:CDD v2.07-11937PSSM

绿色荧光蛋白基因克隆及表达结果分析

3 结果与分析 3.1质粒提取 用醋酸铵法提取pET-28a 和pEGFP-N3质粒后,进行琼脂糖电泳检测质粒是否提取成功。得到电泳结果,如图一所示,3、4号泳道有明显清晰的条带说明pEGFP-N3提取成功。1、2泳道同样有明显清晰的条带,说明pET-28a 提取成功。 3.2 双酶切 用BamH1和Not1分别对pEGFP-N3和pET-28a 双酶切。1、2号泳道为pEGFP-N3的酶切结果,如图二所示,电泳会得到两条带,说明pEGFP-N3酶切成功。4号泳道为pET-28a 的酶切产物的电泳有明显条带,证明酶切成功。 3.3 抗性筛选 通过氯化钙法制备DH5α感受态细胞,用热激发将pET-28a-GFP 转入DH5α感 图 1 pET-28a 和pEGFP-N3质粒提取电泳图 1、2泳道为pET-28a 电泳结果 3、4号泳道为pEGFP-N3电泳结果 图 2 BamH1、Not1双酶切 pEGFP-N3和pET-28a 1、2号泳道为pEGFP-N3酶切产物 3号泳道为pEGFP-N3原始质粒 4号泳道为pET-28a 酶切产物 5号用泳道为pET-28a 原使质粒

受态细胞。转化重组质粒后涂平板,进行重组质粒的抗性筛选。因为28a中含有 抗卡那基因,所以筛选后可以得到含28a的重组质粒。从图中可以看出1号平板 长出较多菌落,说明DH5α感受态细胞存活。2号平板无菌落生长,说明DH5α中 不含抗卡那基因。3号板生长出较少菌落,证明卡那有活性。4号板无菌落生长。 失败原因其一可能是在倒了第一个平板加入卡那后,由于倒平板速度太慢,导致 培养基凝固,影响了卡那的浓度和活性。其二可能是在转化过程中,离心后,弃 上清的过程中,将沉淀和上清混在了一起,影响了溶液的浓度。 图3重组质粒转化DH5α感受态细胞 1号图为不含卡那的阴性对照 2号图为含卡那的阴性对照 3号图为含卡那的自提pET-28a的阳性对照 4号图为含卡那的连接产物结果 3.4PCR鉴定 经PCR扩增后,进行琼脂糖凝胶电泳检测是否扩增成功,得到电泳结果如图 四所示,结果表明,1、2泳道的条带约为700bp,说明成功扩增出含有GFP的基 因。DNA电泳检验扩增片段,选出能够得到700bp左右片段的阳性克隆。 图4阳性重组菌的PCR鉴定 1、2号泳道为重组质粒转化结果

生物信息学分析方法

核酸和蛋白质序列分析 蛋白质, 核酸, 序列 关键词:核酸序列蛋白质序列分析软 件 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.360docs.net/doc/4c7513033.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.360docs.net/doc/4c7513033.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.360docs.net/doc/4c7513033.html,/fasta33/)和BLAST (https://www.360docs.net/doc/4c7513033.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两

第五章基因克隆技术

第五章基因克隆技术 基因克隆技术是分子生物学的核心技术,其目的是获得某一基因或DNA片段的大量拷贝,用于深入分析基因的结构与功能,并可达到人为改造细胞以及物种遗传性状的目的。基因克隆的一项关键技术是DNA重组技术,它利用酶学方法将不同来源的DNA分子进行体外特异性切割,重新拼接组装成一个新的杂合DNA分子。在此基础上将杂合DNA分子转入一定宿主细胞中进行扩增,形成大量的子代分子,此过程称基因克隆。有目的地通过基因克隆技术,人为操作改造基因,改变生物遗传性状的系列过程总称为基因工程。 基因克隆的一般程序为: 一、获取目的基因 目的基因就是需要研究的特定基因或DNA片段。获取目的基因的主要方法: 1、用限制性内切酶酶解染色体DNA,构建基因组文库,再从基因组文库中筛选目的基因。该法的优点是获得的目的基因的组织结构与天然基因完全相同,在结构基因中也含有内含子序列,但是也正因为这一点构成了该法最大缺点,即含有内含子的基因在原核细胞中不能表达。原因是原核细胞不能识别并剪切插入顺序(内含子),因而也不能表达出正确的基因产物。 2、分离纯化细胞中的mRNA,以mRNA为模板,在反转录酶作用下生成cDNA第一链,再以cDNA第一链为模板在DNA聚合酶作用下生成双链cDNA,构建cDNA文库,从中筛选所需的目的基因。此法仅用于筛选为蛋白质编码的结构基因。因成熟的mRNA分子中已经切除了内含子序列,具有完整的阅读框架,可在原核细胞中正确表达。 3、人工体外合成基因:由于当前人工体外合成DNA的长度有限,此法仅用于制备小分子生物活性多肽基因和小分子量蛋白基因。在基因较大情况下,常需先合成多个DNA片段,然后拼接成完整的基因,此法还要求目的基因的全部碱基顺序已被阐明。 4、PCR法扩增基因:PCR(聚合酶链式反应)技术的出现和发展,为目的基因的寻找提供了有力技术工具。用PCR法可选择性扩增基因组中所要研究的个别基因或DNA片段,或用反向PCR技术,先将特定mRNA反转录为cDNA第一链,然后再进行扩增。用PCR法筛选基因,需要对目的基因的DNA序列至少有部分了解。 二、选择适当的载体 按上述方法制备的目的基因如果没有合适的载体协助,很难进入受体细胞,即使能进入,往往也不能进行复制和表达,因为这些外源性DNA一般不带有复制调控系统。为了保证目的基因或外源DNA片段能在细胞内克隆,必须将它们与适当的载体连接。理想的载体应该是:(1)分子量较小,能在细胞内自主复制的环状或线状DNA分子;(2)具有特异的限制性酶切位点,便于外源DNA片段的插入,且有明显的遗传筛选标志,如抗药性或插入失活等,以利于阳性克隆的筛选;(4)具有生物安全性。常用的克隆载体可分为三类,即质粒、噬菌体及病毒。由于天然载体用于基因克隆存在许多缺点,现用载体实际上是在天然载体基础上进行改造而成。 1、质粒载体质粒是细菌染色体外小型环状DNA复制子,质粒载体是在天然质粒的基础上人工改造拼接而成。质粒载体具有如下特点:分子相对较小(3~10kb);含松弛型复制子因而在

生物信息学考试复习

——古 A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 同源性:两个基因或蛋白质序列具有共同祖先的结论。13.

L_乳酸脱氢酶基因克隆及功能分析

20卷5期2004年9月生 物 工 程 学 报Chinese Jou rnal o f Biotechnology Vol.20 No.5 September 2004 收稿日期:2004_03_08,修回日期:2004_05_31。 *通讯作者。 Tel:86_22_23505967;Fax:86_22_23505967;E_mail:meor@https://www.360docs.net/doc/4c7513033.html, L_乳酸脱氢酶基因克隆及功能分析 李 剑 唐 梁凤来 张心平 刘如林 * (南开大学生命科学学院,天津 300071) 摘 要 构建了一株产D,L_乳酸的乳杆菌(Lactobacillus sp.)MD_1的基因文库。利用乳酸脱氢酶和丙酮酸裂解酶缺陷的Escherichia coli FMJ144作为宿主,通过互补筛选分离克隆到乳酸脱氢酶基因(ldh L )。核酸序列分析表明,该基因以ATG 为起始密码子编码316个氨基酸残基组成的蛋白质,预测的分子量为33 84kD;5 端存在典型的启动子结构,3 端的终止子是不依赖于 因子的转录终止子。ldh L 编码的蛋白质有3个保守区域,其中Gly13~Asp50保守区域是NADH 的结合位点,Asp73~Ile100和Asn123~Arg154保守区是酶的活性部位。该ldhL 和其他乳杆菌的ldhL 基因和编码的氨基酸序列相似性较低,核苷酸序列相似性最高仅为64 1%,氨基酸序列相似性最高仅为68 9%,是新的L_乳酸脱氢酶基因。 关键词 乳杆菌(Lactobacillus sp.)MD_1,L_乳酸脱氢酶基因,互补筛选,功能分析中图分类号 Q93 文献标识码 A 文章编号1000 3061(2004)05 0725 05 乳酸在食品、医药、化工、环保等领域有广泛的用途。L_乳酸的生产及其聚合物作为可降解塑料和医用材料的研究日益深入。D_乳酸的聚合物可以用于药物的缓释技术和可降解环保农药的前体物。因此,高光学纯度的D_乳酸或L_乳酸均具有广阔的应用前景[1] 。 乳酸脱氢酶(LDH )是以NAD H 为辅酶,将丙酮酸经过生化反应生成乳酸,因此LDH 是乳酸菌合成乳酸的关键酶。产D,L_乳酸的乳杆菌中存在L 和D 两种依赖NADH 的LDH,分别催化丙酮酸生成L_乳酸和D_乳酸。作者筛选到一株产DL_乳酸的乳杆菌(Lactobacillus sp.)MD_1,能在48 含200g L 葡萄糖的发酵液中快速生长并生产乳酸,72h 产量可达 140g L 以上。如果使乳杆菌的D_乳酸脱氢酶基因(ldhD )缺失,则只生产高光学纯度的L_乳酸(理论上光学纯度可达到100%),同时可以大幅提高L_乳酸产量。反之,如果使L_乳酸脱氢酶基因(ldhL )缺 失,则生产高光学纯度的D_乳酸。 本文报道了Lactobacillus sp.MD_1菌株的ldhL 序列,同时对ldhL 及编码的蛋白质的一级结构进行了初步分析。 1 材料与方法 1 1 菌株与质粒 本文所用的菌株和质粒见表1。质粒pJDC9、菌株E .coli FMJ144由Jean Delcour 教授惠赠。 表1 菌株和质粒 Table 1 Bacterial strains and plasmids used in this study Strain or plas mi d Characteri stic(s) Source or reference Lactobacillus .s p.MD_1 Wild_type s train this study E .coli FMJ144 ldh pfl ::Cam r t rpR his _29(Am )pro _2ary _427deo B arc ts x IN (rrnD _rrnE )lacY 2 TG1suoE hsd 5thi (lac _proAB ) F (traD 36)ProAB +lac I q lacZ M 15 3Plas mid pJDC9Em r ;l dhZ 4 pLZD3083 Em r ;pJ DC9wi th a 3 11Bam H fragment from s train MD_1 this study Em r ,Ap r and Cm r indicate resistance to erythro myci n,ampicillin,and chl oramphenicol,respectivel y

相关文档
最新文档