生物信息学在新基因全长cDNA电子克隆中的应用
生物信息学期末复习资料(小字)

生物信息学期末复习资料(小字)名词解释或辨析。
1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。
利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。
3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。
其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。
20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。
5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。
同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。
相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。
当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。
如果两条系列有一个共同进化的祖先,那么他们是同源的。
这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。
1.生物信息学:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。
包括生物学数据的研究、存档、显示、处理和模拟,基因组遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
2.蛋白质组:指由一个基因组,或一个细胞、组织表达的所有蛋白质。
克隆全长cDNA的方法及其在兽药研究中的应用

克隆全长cDNA的方法及其在兽药研究中的应用
谢馥交;卢向阳
【期刊名称】《中国兽药杂志》
【年(卷),期】2006(40)5
【摘要】综述了获取基因全长cDNA序列的方法,即全长cDNA文库的构建、cDNA末端快速扩增和电子克隆;重点介绍了Oligo-capping、CAPture、Cap-trapper及SMART构建全长cDNA文库的方法,并阐述了其在兽药研究中的应用.【总页数】5页(P39-43)
【作者】谢馥交;卢向阳
【作者单位】湖南农业大学生物科学与技术学院,湖南,长沙,410128;湖南农业大学生物科学与技术学院,湖南,长沙,410128
【正文语种】中文
【中图分类】S785
【相关文献】
1.生物信息学在克隆去势SD大鼠cDNA消减差异片段SCn4的全长cDNA及其序列分析中的应用 [J], 王松;沈霖;陈国庆;金丽
2.从全长cDNA克隆恢复猪瘟病毒方法的研究 [J], 范运峰;赵启祖;赵耘;邹兴启;张仲秋;王琴;宁宜宝
3.西伯利亚鲟β-actin基因cDNA全长克隆、序列分析及其作为内参基因的应用研究 [J], 施志仪;程千千;宋佳坤
4.cDNA文库与RACE方法结合克隆马铃薯DnaJ-like基因全长cDNA [J], 李广
存;金黎平;王晓武;谢开云;谢丙炎;屈冬玉
5.全长cDNA克隆的三种方法的比较研究 [J], 李玉昌;林俊堂;张会勇;李文强;魏明旭;沈萍;韩鸿鹏;徐存拴
因版权原因,仅展示原文概要,查看原文内容请购买。
全长cDNA在功能基因组学中的意义

全长cDNA在功能基因组学中的意义cDNA(complementary DNA)是指从mRNA反转录而得到的DNA,是mRNA的一个可靠的拷贝。
由于cDNA已经经过了剪接,而且含有完整的CDS,因此cDNA是研究基因功能以及基因结构的重要资源。
采用一般的方法构建的cDNA文库,其全长的比例往往比较低,主要是因为在cDNA第一链的生成过程中,反转录酶在还没有生成完整的第一链的情况下就脱离了反应,以致得到不完整的cDNA。
CDNA第一链的生成一般使用polyT作引物,因此,一般cDNA文库中,含有大量的3’端EST,而mRNA5’端的信息较少。
但在功能基因组的研究中,5’端序列更有意义。
因此,构建富含全长的cDNA克隆的文库显得更加重要。
1富含全长cDNA的文库的构建(sequence 全长cDNA就是含有完整的3’和5’端的cDNA,mRNA的3’端具有polyA作为“标签序列”tag)用于辩别mRNA或cDNA是否含有完整的3’端。
在生成第一链cDNA的过程中一般采用polyT 作引物,所以,得到的cDNA克隆一般都含有完整的3’端。
mRNA的5’端与3’端不同,它没有高度保守的序列可用作“标签序列”来通过DNA/DNA或DNA/RNA杂交进行5’端鉴定,只有帽子结构(CAP)。
因此为了分离到全长cDNA克隆,研究者一般利用“帽子结构”在mRNA的5’端加上一段序列或者其他标记物。
1.1.1 常规方法这里说的常规方法,也就是够建一般的cDNA文库所采用的方法。
分离出mRNA后,以mRNA为模板、带接头的polyT作引物合成第一链cDNA,再以用第一链作模板合成双链cDNA,加上5’端接头,便可连到载体上。
1.1.2 Oligo—CAP的方法Oligo—CAP的方法是在mRNA的5’端加上一段寡核苷酸取代5’CAP。
具体过程如图1所示。
其原理是在BAP(bacterial alkaline phosphatase)和TAP(tobacco acid pyrophosphatase)的作用下,完整的mRNA(含CAP)的5’端的G被切除,剩下一个一个磷酸基团,可以在RNA连接酶的作用下与Oligo adapter连接;而不含CAP的mRNA的5’端则是一个羟基,无法与Oligo adapter连接。
生物信息学论文

⽣物信息学论⽂⽣物信息学课程论⽂⼀个⽟⽶ Mlo 基因的电⼦克隆与⽣物信息学分析姓名:学号:班级:⽣科2班⼀个⽟⽶ Mlo 基因的电⼦克隆与⽣物信息学分析摘要:Mlo 基因家族在植物抗病⽅⾯有极⼤的优势,但有些 Mlo 基因的功能还未知。
经序列拼接电⼦克隆得到 1 个⽟⽶的 Mlo 基因,采⽤⽣物信息学⽅法预测分析了编码蛋⽩的⼀、⼆、三级结构,并对其功能进⾏了预测。
结果表明:⽟⽶ Mlo 基因编码的蛋⽩有⼀个保守的 DUF1084 结构域,此结构域功能在植物中尚未知。
⽣物信息学分析表明,此蛋⽩很可能是⼀种类似于 G 蛋⽩偶联受体的膜结合转运蛋⽩⽽参与到信号传递过程中。
关键词:⽟⽶;Mlo 基因;电⼦克隆;⽣物信息学植物在长期的⽣物进化中形成了⼀系列复杂⽽严密的防御机制,使⾃⾝免受病原物的侵害[1,2]。
抗病基因是植物防御体系中的最重要组成部分。
Mlo 基因最初在⼤麦中被发现,这类基因在植物中编码⼀个七次跨膜结构域的蛋⽩家族,可能起到与 G 蛋⽩偶联受体(G Protein Coupled Receptor,GPCR)类似的功能。
他们的拓扑结构、亚细胞定位和序列多样化与动物和真菌的 G 蛋⽩偶联受体很相似。
野⽣型 mlo 基因赋予⼤麦对⽩粉菌的⼴谱抗性[3]。
⽩粉病是由⽩粉菌引起的真菌性病害,⽩粉菌能侵染650 多种单⼦叶植物和 9 000 多种双⼦叶植物[4,5]。
⽬前已对拟南芥、⽔稻和杨树中的 Mlo 基因家族有深⼊的研究[6]。
电⼦克隆法是近年来基于表达序列标签(Expressed Sequence Tag,EST)和基因组数据库发展起来的基因克隆新型技术[7],具有效率⾼、成本低、对实验条件要求低等特点。
因此可以快速获得⼀些新基因,从⽽使新基因的应⽤成为可能。
挖掘⽟⽶中未知的抗病基因对⽟⽶的抗病育种有很⼤帮助。
本研究以⽟⽶为材料,对其中的⼀个 Mlo 基因进⾏电⼦克隆,并对其进⾏部分⽣物信息学⽅⾯分析,为⽟⽶ Mlo 基因的应⽤及⽟⽶的抗病育种提供理论依据。
生物信息学在基因组学研究中的应用

生物信息学在基因组学研究中的应用随着高通量测序技术的快速发展,基因组学研究已成为现代生物学领域的关键。
生物信息学的发展和广泛应用,为基因组学的研究提供了强大的支持和推动。
生物信息学通过整合、存储、分析和解释海量的基因组数据,提供了深入探索基因组功能、结构和进化的方法和工具。
下面将从基因组测序、基因组注释、基因表达谱和基因组功能预测四个方面介绍生物信息学在基因组学研究中的应用。
基因组测序是基因组学研究的基础。
生物信息学在测序技术中的应用主要包括测序质量控制、序列比对和变异鉴定。
测序质量控制是通过生物信息学方法对产生的测序数据进行质量过滤和修剪,删除低质量的序列,提高数据质量。
序列比对是将测序数据与已有的参考基因组进行比对,确定序列的来源和位置。
变异鉴定是通过比对结果,识别出患者或物种个体与参考基因组的差异,发现并分析其与表型相关的位点,从而揭示个体或物种的遗传变异信息。
基因组注释是对基因组进行功能解析和标注的过程。
生物信息学在基因组注释中的应用主要包括基因预测、基因结构注释和功能注释。
基因预测是通过生物信息学工具和算法预测基因组中的基因编码区域,并对其进行注释。
基因结构注释是对基因的外显子、内含子、启动子、终止子等结构特征进行注释,确定基因的结构。
功能注释是通过比对基因序列与已知基因数据和功能数据库,对基因的功能进行注释,包括基因的功能分类、蛋白质结构域和功能模体等的预测。
基因表达谱是研究基因在不同组织、不同时期以及不同环境条件下的表达水平和模式的方法。
生物信息学在基因表达谱研究中的应用主要包括RNA测序数据的处理与分析、差异表达基因的筛选与注释、基因调控网络的构建和功能模块的识别。
通过生物信息学方法,可以对大量的RNA测序数据进行数据清洗、表达水平计算、差异表达分析等,揭示基因在不同条件下的表达变化和调控机制。
基因组功能预测是基因组学研究中的一个重要方向。
生物信息学在基因组功能预测中的应用主要包括蛋白质功能预测和非编码RNA功能预测。
利用表达序列标签电子克隆cDNA全序列的策略

利用表达序列标签电子克隆cDNA全序列的策略孙淼;赵茂林【摘要】基因组计划的进展及表达序列标签数据的迅速扩增使得电子克隆方法孕育而生,为进行基因克隆开辟了一条新的路径.介绍了表达序列标签和电子克隆的原理及过程,重点分析电子克隆过程中遇到的问题及解决方法,展望其在新基因功能研究中的作用.【期刊名称】《生物技术通报》【年(卷),期】2010(000)001【总页数】4页(P49-52)【关键词】表达序列标签;电子克隆;聚类;叠连群【作者】孙淼;赵茂林【作者单位】首都师范大学生命科学学院,北京,100048;北京市农林科学院农业生物技术研究中心,北京,100097【正文语种】中文Abstract: The progress of genome project and the rapid expansion of expressed sequence tags(ESTs),make in silico cloning brought on,which for us has opened a new path to gene cloning.In this article,an overview of EST,the principle andmethod of in silico cloningwere discussed,focusing on analysis of problems and solutions during in silico cloning process,also,it prospected the roles in the study of the new gene function.Key words: Expressed sequence tags In silico cloning Clustering Contig随着基因组计划的深入进行,很多实验室采用cDNA文库大规模测序、差异显示PCR(different display PCR,DDRT-PCR)、代表性差异分析 (representation difference analysis,RDA)及抑制性消减杂交(suppression subtractive hybridization,SSH)等技术发现了大量具有潜在应用价值的新基因片段。
生物信息学在基因组学研究中的应用教程

生物信息学在基因组学研究中的应用教程生物信息学是一个快速发展的交叉学科领域,其在各个生命科学领域中扮演着重要角色。
其中,基因组学是生物信息学在大规模生物数据分析和基因组研究中的一个重要应用方向。
本文将为您介绍生物信息学在基因组学研究中的应用,并为您提供一些基本教程。
生物信息学在基因组学研究中的应用基因组学研究旨在理解和研究生物体基因组的结构、功能和演化。
生物信息学为解决这些问题提供了强大的工具和方法。
下面是生物信息学在基因组学研究中常见的应用领域:1. 基因组测序分析:生物信息学为基因组测序分析提供了重要的工具和方法。
通过对测序数据的处理和分析,可以获得生物体的基因序列、单核苷酸多态性(SNP)和结构变异等信息。
这些信息有助于理解基因组的组成、功能和演化。
2. 基因组注释:基因组注释是指对基因组中的DNA序列进行解读,找出其中的基因和其功能。
生物信息学在基因组注释中扮演着核心角色。
通过比对已知基因和蛋白质序列数据库,结合基因预测算法和功能注释工具,可以鉴定出新的基因和预测它们的功能。
3. 基因表达与调控研究:生物信息学在基因表达和调控研究中发挥着重要作用。
通过分析转录组和表观遗传组数据,可以发现基因表达变化和调控机制,揭示基因在细胞和组织中的功能。
这些研究对于理解疾病的发生机制和发展新的治疗方法非常重要。
4. 基因组比较与演化:基因组比较与演化研究可以揭示物种之间的进化关系和基因家族的起源与演化。
生物信息学为基因组比较和演化研究提供了一系列的工具和方法,如DNA序列比对、基因家族分析和进化树构建等。
生物信息学基因组学中的工具和方法生物信息学在基因组学研究中使用的工具和方法繁多,下面列举一些常用的工具和方法,并为您提供简要的教程:1. 序列比对分析:序列比对是生物信息学中的基本任务,它用于将新的DNA或蛋白质序列与已知的序列进行比较,以寻找相似性和共享功能。
常用的序列比对软件包括BLAST和Bowtie等。
生物信息学技术在基因分析中的应用

生物信息学技术在基因分析中的应用现代生物学愈加注重生物学的量化、高通量等特征,大规模的分子生物学数据和基因数据逐渐成为了快速发展的数据资源,而生物信息学技术则成为了这些数据的重要分析和处理手段之一。
生物信息学技术在现代生物学中的应用越来越广泛,其中基因分析便是生物信息学技术应用的重要方面。
本文旨在介绍生物信息学技术在基因分析中的应用,让读者了解生物信息学技术在基因分析中的重要性和优势。
一、生物信息学技术在基因分析中的重要性随着基因测序技术的不断发展,越来越多的基因序列数据得到了提取和存储。
然而,这些数据的处理和分析也成为了一个重要的问题。
因为没有比较和分析这些数据,决策者很难了解这些数据和结论是否可靠。
因此,生物信息学技术在基因分析中扮演着一个重要的角色。
在基因分析中,生物信息学技术的应用使得处理和分析大量基因数据已成为可能。
只有通过这些技术分析基因数据,才能了解基因的秘密。
总之,生物信息学技术在基因分析中的应用是必不可少的。
二、生物信息学技术在基因分析中的优势1. 提高了基因数据处理和分析的效率和准确率基因数据量庞大,如果仅依靠人工分析,效率极低。
但生物信息学技术处理和分析大量基因数据的方法得以解决了这个问题,特别是在寻找基因功能,基因家族关系等方面已经取得了显著的成果。
其高效性和准确性在处理和分析大规模的基因数据方面,起到了非常重要的作用。
2. 使基因分析更有针对性通过使用生物信息学技术分析基因数据,可以更加精确表示基因的特点及其作用。
这些数据在基础和应用研究中具有重要的价值。
大规模测序数据分析得出的基因数据也可以为疾病的预防和治疗提供重要的提示及基础。
更加准确地表示基因的特点及其作用,能够提高基因分析的针对性。
3. 提供有利于跨学科研究的数据资源生物信息学技术集成了计算方法学、统计学、信息学等多学科的技术。
生物信息学技术可以整合不同生物学层面(如分子、细胞、组织、器官、生物群体、环境等)的数据,并将其与其他学科(如医学、地质、化学等)相关联,从而提供具有交叉学科性的数据资源。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物技术通报BIOTECHNOLOGYBULLETIN・技术与方法・2007年第4期收稿日期:2007-01-31作者简介:胡皝(1984-),男,在读硕士,研究方向:生物信息学随着人类基因组测序工作的基本完成,人类进入到了后基因组时代,基因组学的研究从结构基因组学过渡到了功能基因组学[1],即从“是什么”过渡到“为什么”的研究。
然而,全基因组序列的解读,并不能使人类对编码基因这一层次有更明确的认识。
因此,cDNA的测序成为人们了解编码基因结构与功能的关键所在。
要理解新基因的结构和功能,仅有不完整的cDNA片段是不够的。
全长cDNA的获得是基因克隆的重要内容,也是目前基因组研究中的一个重要方面。
目前获取基因全长cDNA序列较常见的方法有:cDNA文库筛选法[2]、快速cDNA末端扩增法[3]和电子克隆法[4]等。
电子克隆法是近年来基于表达序列标签(expressedsequencetag,EST)和基因组数据库发展起来的基因克隆新型技术,其利用生物信息学知识和计算机技术对EST或基因组数据库中进行同源性比较分析、整理拼接出新基因的编码序列,确认完整后根据序列设计引物进行RT-PCR验证获得全长基因。
具有效率高、成本低、对实验条件要求低等特点[5]。
现以新基因全长cDNA电子克隆与分析的步骤为顺序,就生物信息学在其间的应用作一简单介绍。
1新基因全长cDNA电子克隆的方法及生物信息学在其中的应用1.1基于EST数据库的电子克隆EST是从cDNA克隆中随机挑选出来进行一次性测序的结果,一般长约200bp ̄500bp,通常作为基因的标志。
近年来EST数据库容量扩增迅速,基于EST数据库由一个已知的基因利用生物信息学的方法进行功能基因的电子克隆已经成为目前最常用的基因克隆手段,许多新基因就是通过EST序列的拼接发现的[6,7]。
基于EST数据库的电子克隆大致步骤如下:第一步,选择其他物种尤其是亲缘关系较近的物种某生物信息学在新基因全长cDNA电子克隆中的应用胡皝萧浪涛(湖南农业大学生物科学技术学院,长沙410128)摘要:新基因全长cDNA序列的获得常常是生物学工作者面临的难题,电子克隆是利用生物信息学手段得到新基因全长cDNA序列的新方法。
介绍了电子克隆的方法及其生物信息学在其间的具体应用,并概述了一些生物信息学在序列分析中的应用。
关键词:生物信息学电子克隆全长cDNAApplicationofBioinformaticsinFull-lengthcDNASequenceinSiliconCloningofNovelGenesHuHuangXiaoLangtao(CollegeofBioscienceandBiotechnology,HunanAgriculturalUniversity,Changsha410128)Abstract:Toobtainthefull-lengthcDNAsequenceofanovelgeneisaproblemforresearchers.Insilicocloningwasanewwayofobtainthefull-lengthcDNAsequencebybioinfomatics.Thisarticleintroducesthewayofinsilicocloningandthebioinformaticsapplicationinit.Itwasalsosummarizationofthebioinformaticsapplicationinthesequenceanalyse.Keywords:BioinformaticsInsiliconcloningFull-lengthcDNA生物技术通报BiotechnologyBulletin2007年第4期基因全长cDNA序列或EST序列为查询探针或者以该物种某基因EST为查询探针,搜索EST数据库进行Blast比对,得到许多EST序列,从中寻找感兴趣的EST(标准的选择与可预计的同源基因的同源程度有关。
通常为:同源长度≥100bp,同源性50%以上,85%以下)。
第二步,把感兴趣的EST基于GenBank中的非冗余数据库进行Blast分析,判断其是否是已知基因的一部分,筛选出新颖的EST。
第三步,将筛选出的EST在该物种的EST数据库中进行搜索,找到部分重叠的EST进行拼接,经严格聚类分析,尽量避免含有旁系同源基因,拼接后产生的序列重叠群),相当于实验中的一部分cDNA步移工作。
第四步,以新获得的重叠群为新的查询探针,继续搜索EST数据库,直到没有新的EST可供拼接为止。
将拼接得到的序列对非冗余数据库进行搜索,以证明这是一个全新的序列。
这种策略也存在一定的局限性,许多拷贝数较低的基因很难涵盖在EST数据库中,这些基因只能通过分析基因组序列才能被发现。
EST序列的拼接是电子克隆中非常重要的环节,用于EST序列的拼接的软件有很多,表1列出了一些比较常用的拼接软件[8],使用者可按具体情况选择不同的拼接软件以得到最好的结果。
另外,还可以将序列提交到NCBI的UniGene[9]数据库上。
NCBI的Unigene系统是GenBank中的序列另外分离出来形成一个非冗余的基因簇。
数据库中除包含已确定的基因以外,还包括数以万计的表达序列标签,每个簇包含惟一的非冗余的基因序列,表达的组织类型和基因图谱位点。
现在数据库中已经包括大量模式或重要生物的EST序列,其中人类、老鼠和水稻的序列最多。
通过Unigene系统可以很方便地进行序列的拼接得到新基因。
表1常用的拼接软件及网址1.2基于基因组数据库的电子克隆人类基因组及其他许多模式、重要物种基因组测序工作的完成,基于基因组序列的新基因预测软件的开发为我们利用生物信息学的方法克隆新基因带来了新的策略。
近年来,许多新基因[10]就是通过分析基因组序列发现的。
基于基因组数据库的电子克隆大致步骤如下:第一步,选择其他物种尤其是亲缘关系较近的物种某基因全长cDNA序列或EST序列为查询探针或者以该物种某基因EST为查询探针,基于GenBank中的非冗余数据库nr进行Blast分析,从结果中筛选出同源性较高、含外显子的该物种基因组重叠群或BAC克隆,并通过超级链接得到其所在的基因组序列,同时根据比对的结果对基因组序列可能造成的移码测序错误进行修正。
第二步,将这些外序列根据内含子和外显子的剪接特征“GU...AG”,通过人工拼接,或者通过基因预测软件预测,得到可能的新基因序列。
第三步,把可能的新基因序列基于非冗余数据库做BLAST分析,检验其新颖性。
第四步,把筛选后的新基因序列提交到dbEST数据库做BLAST分析并延伸,进一步确认其真实度。
用于基因预测的软件有很多,国际上使用最广泛的有GenScan、GeneFinder和FGENESH等,此外还有一些针对某一物种的专用基因预测软件,如水稻基因预测软件RiceHMM、玉米基因预测软件SplicePredictor和人类基因预测软件HumGene[11]等。
由于各种预测软件依据的原理不用,得出的结果也有所差异,使用者可同时利用几种预测软件的分析结果并结合自己的经验综合考虑,确定最有可能的基因结构。
实际操作中常常将上述两种方法结合起来使用,使最后所得的序列更加准确。
首先进行EST序列的拼接,无法拼接后再进行基因组比较和外显子预测,以判断EST拼接的完整性和正确性。
1.3全长cDNA的判断运用以上方法得到的cDNA序列还不能确定942007年第4期其为全长的cDNA序列,需要进行判断。
直接从序列上可以从如下几个方面[12]进行判断。
5′端:(1)有同源全长基因的比较,通过与其它生物已有的对应基因末端进行Blast来判断。
(2)无同源基因的新基因,I.判断编码框架是否完整,a.在开放阅读框架的第一个ATG上游有同框架的终止密码,需要注意的是有时真正的翻译起始密码子并非是出现在mRNA中的第一个ATG,在有的真核细胞中,在起始密码子ATG的上游非编码区会有可能出现一到几个ATG,这称为非编码的5′ATG。
以这种5′ATG并不是真是的起始密码子,以其开始的开放阅读框常常很快遇到终止密码子。
b.无终止密码的则考虑有保守的Kozak[13]序列;Ⅱ.判断是否自转录起始点,有资料表明,在5′帽结构后一般都有一段富含嘧啶的区域,另外如果cDNA5′序列与基因组序列中经S1酶切保护的部分相同,则可以确定得到的cDNA是全长的。
3′端:(1)有同源全长基因的比较,方法同5′端;(2)编码框架的下游有终止密码;(3)有一个以上的polyA加尾信号;(4)无明显加尾信号的则也有polyA尾。
同源全长基因的比较可以用Blast比对或多重序列比对软件来实现,首先搜索到其他物种(以相似性比较高的物种为宜)该基因全长cDNA序列,再将这些序列做Blast或多重比对,ClustalW[14]是目前使用最广泛的多重比对软件,使用者可以将序列提交到http://www.ebi.ac.uk/clustalw/进行在线分析,或者下载该软件到本地进行比对。
确定得到的cDNA序列为全长的cDNA序列还只是在计算机上的“虚拟克隆”,最终还必须通过RT-RCR、序列测定和Northern杂交等方法进行实验验证,以保证序列的准确性。
2生物信息学在新基因全长cDNA电子克隆和序列分析中的应用生物信息学对新基因序列的分析也有很大的指导作用,可以对该序列及其所编码的蛋白质进行结构和功能的详细分析,能为使用者节约大量的时间。
表2列出了一些常用的分析软件及网址。
表2常用的分析软件及网址3讨论与展望综上主要介绍了基于Internet网上生物信息资源新基因全长cDNA的电子克隆策略,对于那些需要经常进行序列分析,或者分析规模较大的实验室,我们可以构建本地的生物信息学数据分析平台,把一些重复性的、可程序化的过程直接交由计算机完成,用户的主要精力就可转移到对分析结果进行后续分析及实验设计上,能节约大量的人力和物力,具体的构建方法可以查阅有关此方面的一系列论著[15,16]。
生物信息技术的应用使新基因全长cDNA克隆和分析的方法不断更新,朝着快速、经济、准确的方向发展,但鉴于生物大分子结构和功能的复杂性,许多分析软件的输出结果存在较大的偏差,因此利用生物信息学进行的"虚拟"克隆的结果尚需回到实验室进行验证。
但是,这种分析方法为实验研究提供了重要的线索,对随后的研究起到了“事半功倍”的作用,避免走弯路,极大地提高了工作效率。
可以相信随着基因组序列信息的日益丰富,计算方法和数据库的不断完善,生物信息学将在基因全长cDNA克隆和分析中扮演更加重要的角色。
参考文献1StuartK,Kim.CurrentBiology,2001,11:85 ̄87.2CaiY,GaoY,etal.MolReprodDev,2002,61(1):126 ̄134.3SchaeferBC.AnalyticalBiochemistry,1995,227:255 ̄273.4SandroBanfi,AlessandroGuffanti.TrendsinGenetics,1998,14:80 ̄81.胡皝等:生物信息学在新基因全长cDNA电子克隆中的应用95生物技术通报BiotechnologyBulletin2007年第4期人类基因功能研究和疾病基因治疗开辟了一个革命性的新领域[23]。