辣椒actin基因电子克隆与生物信息学分析

徐婉莉，裴徐梨，荆赞革，等．辣椒actin 基因电子克隆与生物信息学分析［

J ］．江苏农业科学，2014，42（5）：46－48．辣椒actin 基因电子克隆与生物信息学分析

徐婉莉1，裴徐梨2，荆赞革1，2，熊自立

（1．温州科技职业学院，浙江温州325006；2．南京农业大学园艺学院，江苏南京210095）

摘要：利用拟南芥actin 基因序列为探针，采用电子克隆方法获得辣椒actin 基因cDNA 序列，对其编码氨基酸序列

组成、理化性质、二级结构特点进行分析，并与其他植物actin 的进化关系进行了研究。结果表明，辣椒actin 基因cD-NA 全长为1865bp ，包含1个完整的开放读码框（1134bp ），编码377个氨基酸，其分子量为41700．6u ，等电点为5.31，为亲水蛋白。辣椒actin 与拟南芥actin2同源性为99．0%，进化关系上与番茄actin97亲缘关系较近。

关键词：辣椒；电子克隆；生物信息学

中图分类号：S641．301文献标志码：A

文章编号：1002－1302（2014）05－0046－03

收稿日期：2013－08－02

基金项目：浙江省公益性技术应用研究计划（编号：2012C22045）。作者简介：徐婉莉（1975—），女，硕士，从事蔬菜遗传育种研究。E －mail ：wzxwl0921@163．com 。

通信作者：荆赞革，博士，助理研究员，从事蔬菜遗传育种与生物技术研究。E －mail ：jingzange@aliyun．com 。

辣椒（Capsicum annum L．）别称秦椒、

辣子、番椒等，属茄科辣椒属一年生或多年生草本植物，原产于拉丁美洲热带地区。辣椒以其特殊的口感与高维生素C 含量而深受消费者喜爱，在我国大部分地区均有栽培，是重要的蔬菜作物。随着基因高通量测序技术的迅猛发展，数据库表达序列标签（ex-pressed sequence tags ，EST ）序列数量激增，电子克隆（in silico cloning ）作为快速克隆目标基因技术应用愈加广泛。电子克隆主要基于EST 数据进行基因分析及试验验证，与传统的克隆方法相比，具有高效率、低成本、操作简单等优

点，目前已在多种作物中得到了应用［1－11］

。本研究以拟南芥actin 基因序列为探针，利用电子克隆方法获得1条辣椒actin

基因序列，并对该基因及其编码蛋白进行生物信息学分析，旨在为开发辣椒资源提供依据。1材料与方法1．1

材料

以拟南芥actin 基因（GenBank 登录号：U37281）的cDNA 序列为探针序列，采用电子克隆方法，获得辣椒actin 基因。1．2

方法

1．2．1BLAST 搜索辣椒EST 数据库以拟南芥actin 基因（GenBank 登录号：U37281）的cDNA 序列编码区为探针序列，搜索辣椒表达序列标签（EST ）数据库。选择EST 序列，利用CAP3在线拼接软件（http ：//pbil．univ －lyon1．fr /cap3．php ）进行序列拼接，将拼接后的序列作为探针再次BLAST 搜索辣椒表达序列标签数据库，直至序列无法延伸为止。最后得到的拼接序列即为电子克隆得到的辣椒actin 基因序列。1．2．2辣椒actin 基因序列生物信息学分析利用NCBI 开放读码框搜寻软件OＲF finder （http ：//www．ncbi．nlm．nih．gov /gorf /gorf．html ）寻找电子克隆到的辣椒actin 基因序列开

放读码。采用多序列比对软件Clustalw 2．1将其与拟南芥ac-tin2基因编码的蛋白进行相似性比对分析。在线分析辣椒actin 编码蛋白的一级结构特点（http ：//www．expasy．org /tools /protparam．html ），二级结构在（http ：//npsa －pbil．ibcp．

fr /cgi －bin /npsa _automat．pl ？page =/NPSA /npsa _sopma．ht-ml ）进行分析，采用ProtScale 程序（http ：//web．expasy．org /protscale ）分析疏水性。1．2．3

辣椒actin 基因编码蛋白同源性和进化分析从Gen-Bank 中选择多个物种的actin 基因序列，利用MEGA 5．05程

序对编码氨基酸序列进行同源性比对，利用Clustal X 软件进行氨基酸序列同源性比对分析，并构建系统发育树。2结果与分析

2．1

辣椒actin 基因EST 序列的搜索、拼接

以辣椒actin 基因编码区为探针，在NCBI 网站辣椒EST 数据库中进行检索，得到7条（E －value =0）同源性EST 序列，将序列保存到FASTA 文件中，采用在线拼接软件CAP3进行拼接，得到3个contig ，以contig2为探针继续对辣椒EST 数据库进行BLAST 搜索，得到21条序列（E －value =0），拼

接得到最终contig ，

长度为1865bp ，且此contig 无法再延伸，因此判定其为电子克隆得到的辣椒actin 基因cDNA 编码

序列。

2．2辣椒actin 基因序列生物信息学分析2．2．1

辣椒actin 基因序列开放读码分析利用OＲF finder

软件对辣椒actin 基因的cDNA 序列进行分析，获得最长开放读码框1134bp ，起始密码子位于第355bp ，终止密码子位于第1489bp ，编码377个氨基酸（图1）。2．2．2

同源分析

利用Clustalw 1．83软件对拟南芥与辣椒actin 基因编码的氨基酸序列进行同源比对，结果显示，二者

同源性为99%（图2）。

2．2．3辣椒actin 蛋白的一级结构特点

辣椒actin 蛋白的

一级结构特点分析结果表明，该蛋白由Ala 、

Arg 等20种氨基酸组成。其中Gly 含量最高（8．0%），Trp 最低（1．1%），分子量为41700．6u ，等电点为5．31，分子式为C 1849H 2915N 493O 563

S 20，由5840个原子组成，消光系数为44600（280nm ），估计半衰期为30h （哺乳动物网状细胞，体外），热稳定指数（Ⅱ）

—64—江苏农业科学2014年第42卷第5期

为34．75，表明其为稳定蛋白，脂溶指数为84．59，总平均亲水性为－0．190（图3）。

2．2．4辣椒actin蛋白的二级结构特点辣椒actin蛋白二级结构预测结果表明，其含有α－螺旋（Hh）33．16%、延伸链（Ee）24．40%、无规卷曲（Cc）34．75%、β－折叠（Tt）7．69%。疏水性分析结果表明，117位亲水性最高（－2．367），140位Leu疏水性最高（2．200），推断其为亲水性蛋白质。

2．2．5辣椒actin进化分析从NCBI网站下载拟南芥（Ara-bidopsis thaliana）、番茄（Solanum tuberosum）、水稻（Oryza sati-va）3个物种9条actin基因编码蛋白序列，同辣椒actin蛋白一起采用MEGA5．05软件构建Neighbor－joining系统发育树。从图4可以看出，10条序列可分为两大分支，番茄actin8

—

江苏农业科学2014年第42卷第5期

（XP_004244002）、番茄actin7（XP_004250065）单组分开聚类，番茄actin97（XP_004249286）、番茄actin58（XP_ 004236747）、拟南芥actin11（NP_187818）聚为1个亚组，电子克隆到的辣椒actin与番茄actin97（XP_004236747）亲缘关系最近，聚在1个亚组，拟南芥actin8（NP_175350）、拟南芥ac-tin2（NP_188508）聚为1个亚组。

3结论与讨论

肌动蛋白普遍存在于真核生物中，植物actin基因起源于共同的祖先，通过多次复制与变异保留下来，因此actin基因

在核苷酸与氨基酸水平上具有高度保守性、同源性。actin

基

因编码蛋白一般由375 377个氨基酸组成，分子量约42ku，是细胞骨架的主要成分之一［12］。本试验获得的辣椒actin基因编码377个氨基酸，分子量为41ku，与多种植物actin基因核苷酸序列的同源性在83%以上，氨基酸同源性在97%以上，表明actin基因的高度保守性，可能与其参与构成细胞骨架的重要功能紧密相关。拟南芥上至少发现了20个actin基因，水稻、杨树、棉花上分别发现了18个、22个、15个［13］。不同的基因编码、不同类型的肌动蛋白异形体参与不同的生理活动与生命过程，如细胞器运动、花粉管顶端生长、细胞形状控制、细胞有丝分裂等。actin基因家族因其保守性高，在各种组织中表达相对稳定，被视为看家基因，是研究其他基因表达调控模式的分子内标，在定量与半定量PCＲ研究中用作内参，以确定目标基因的相对表达量［14］。内参基因actin的克隆是研究特定植物基因的重要基础，近年来已在多个物种中分离鉴定出actin基因。

参考文献：

［1］马光，梁菲菲，郭继平，等．白菜黄烷酮－3－羟化酶基因的电子克隆与序列分析［J］．北方园艺，2012（17）：116－118．

［2］刘志勇，王孝宣，高建昌，等．番茄S－腺苷蛋氨酸脱羧酶基因SlSAMDC1的克隆与序列分析［J］．园艺学报，2008，35（8）：1137－1146．

［3］冯爱芹，何晓红，叶绍辉，等．猪原癌基因JunB的电子克隆及比较基因组学分析［J］．江苏农业科学，2012，40（10）：33－36．［4］方静平，苏亚春，游倩，等．甘蔗β－1，3－葡聚糖酶基因的电子克隆与分析［J］．生物信息学，2012，10（3）：199－207．

［5］杨胡，杨军厚．斑节对虾1种lectin基因的电子克隆及分析［J］．江苏农业科学，2012，40（8）：34－36．

［6］马光，郭继平，高小宽，等．萝卜干细胞决定基因WUS的电子克隆与序列分析［J］．生物技术，2012，22（4）：46－49．

［7］巩元勇，郭书巧，束红梅，等．陆地棉GhNIP5．J基因的电子克隆及生物信息学分析［J］．江苏农业学报，2013，29（3）：682－684．［8］畅丽萍，魏琦超，周岩．马铃薯促分裂原活化蛋白激酶激酶基因的电子克隆与生物信息学分析［J］．广东农业科学，2012（15）：159－162．

［9］李萌，张爱华，白雪飞，等．甜瓜玉米黄质环氧化酶基因的电子克隆及生物信息学分析［J］．华北农学报，2011，26（增刊1）：23－28．

［10］王俊生，范小芳，李成伟，等．小麦Ta－UBX1基因的电子克隆和生物信息学分析［J］．江苏农业科学，2012，40（6）：29－32．［11］邬晓勇，孙雁霞，何钢，等．一个玉米Mlo基因的电子克隆与生物信息学分析［J］．玉米科学，2011，19（1）：148－152．［12］陈颖，王刚，赵俊霞．高等植物体内的肌动蛋白［J］．生物学通报，2003，38（1）：13－15．

［13］杨亚军，王新超，马春雷．茶树肌动蛋白基因（CsActin1）全长cD-NA克隆与生物信息学分析［J］．植物研究，2012，32（1）：69－76．

［14］荆赞革，柳李旺，龚义勤，等．萝卜扩展蛋白基因ＲsEXPB1克隆与表达特征分析［J］．分子植物育种，2009，7（4）：801－805．

—

—江苏农业科学2014年第42卷第5期

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序，是首次对一个物种的基因组进行测序，用生物信息学的分析方法对测序所得序列进行组装，从而获得该物种的基因组序列图谱。目前国际上通用的基因组De Novo测序方法有三种： 1. 用Illumina Solexa GA IIx 测序仪直接测序； 2. 用Roche GS FLX Titanium直接完成全基因组测序； 3. 用ABI 3730 或Roche GS FLX Titanium测序，搭建骨架，再用Illumina Solexa GA IIx 进行深度测序，完成基因组拼接。采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件，并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究，为后续的相关研究奠定基础。实验流程：公司服务内容 1.基本服务：DNA样品检测；测序文库构建；高通量测序；数据基本分析（Base calling，去接头，去污染）；序列组装达到精细图标准 2.定制服务：基因组注释及功能注释；比较基因组及分子进化分析，数据库搭建；基因组信息展示平台搭建 1.基因组De Novo测序对DNA样品有什么要求？

(1) 对于细菌真菌，样品来源一定要单一菌落无污染，否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上)， OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；每次样品制备需要10 μg样品，如果需要多次制备样品，则需要样品总量=制备样品次数*10 μg。 (2) 对于植物，样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品，最好为纯合或单倍体。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (3) 对于动物，样品来源应选用肌肉，血等脂肪含量少的部位，同一个体取样，最好为纯合。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证，用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式目前3种测序技术 Roche 454，Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中，Roche 454的单端测序读长可以达到400 bp，经常用于基因组骨架的组装，而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例，对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序(图2)。图1 Single-read文库构建方法图2 Paired-end文库构建方法

【高中生物】功能基因的克隆及生物信息学分析

（生物科技行业）功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析摘要：随着多种生物全基因组序列的获得，基因组研究正从结构基因组学（structuralgenomics）转向功能基因组学(functionalgenomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等)，其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1]，它代表了基因分析的新阶段，已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物，发展和应用新的实验手段，通过在基因组或系统水平上全面分析基因的功能，使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究，是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因，也成为我们面临的一个课题，本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。关键词：功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1图位克隆方法图位克隆又称定位克隆，它是根据目标基因在染色体上确切位置，寻找与其紧密连锁的分子标记，筛选BCA克隆，通过染色体步移法逐步逼近目的基因区域，根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因，得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息，从突变体开始，逐步找到基因，最后证实该基因就是造成突变的原因。通过图位克隆许多

控制质量性状的单基因得以克隆，最近也有报道某些控制数量性状的主效基因（控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2基因克隆[5]等）也通过图位克隆法获得。 1.2同源序列克隆目的基因首先根据已知的基因序列设计PCR引物，在已知材料中扩增到该片段，并经克隆测序验证，利用放射性同位素标记或其他非同位素标记该PCR片段作为探针，与待研究材料的cDNA文库杂交，就可以获得该基因cDNA克隆，利用克隆进一步筛选基因组文库，挑选阳性克隆，亚克隆并测序，从中就可以筛选到该基因的完整序列。 1.3结合连锁和连锁不平衡的分析方法结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6]。(Linkagedisequilibrium,LD)。与连锁分析不同,连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上,这样就只有相隔很近的标记才能不被重组掉,从而形成大小不同的单倍型片段(Haplotypeblock)。这样经过很多世代的重组,只有相隔很近的基因,才能仍处在相同的原始单倍型片段上,基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析,可以实现目的基因的精细定位。林木大多为自由授粉的异交物种,所以连锁不平衡程度很低,林木基因组中的LD可能会仅局限于非常小的区域,这就为目的基因的精细定位提供了可能,结合SNP检测技术,科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来,进行数量性状寡核苷酸

基因组学与生物信息学教案

《基因组学与生物信息学》教案授课专业：生物学大类各专业课程名称：基因组学与生物信息学主讲教师：夏庆友程道军赵萍徐汉福

课程说明一、课程名称：基因组学与生物信息学二、总课时数：36学时（理论27学时实验9学时）三、先修课程：遗传学、分子生物学、基因工程四、使用教材：杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社，2002. 五、教学参考书： T.A.布朗著，袁建刚译著，基因组(2rd版)，北京：科学出版社,2006. 沈桂芳，丁仁瑞，走向后基因组时代的分子生物学，杭州：浙江教育出版社，2005. 罗静初译，生物信息学概论，北京：北京大学出版社，2002. 六、考核方式：考查七、教案编写说明：教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标，以教学大纲为依据，在熟悉教材、了解学生的基础上，结合教学实践经验，提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课（指同一主题连续1~2节课）设计编写。教案编写说明如下： 1、编号：按施教的顺序标明序号。 2、教学课型表示所授课程的类型，请在相应课型栏内选择打“√”。 3、题目：标明章、节或主题。 4、教学内容：是授课的核心。将授课的内容按逻辑层次，有序设计编排，必要时标以“*”、“#”“？” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法，如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、标本、挂图、音像等教学工具。 6、讨论、思考题和作业：提出若干问题以供讨论，或作为课后复习时思考，亦可要求学生作为作业来完成，以供考核之用。 7、参考书目：列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

生物信息学分析实践

水稻瘤矮病毒(RGDV)外层衣壳蛋白 P8的同源模建高芳銮(Raindy) 同源模建(homology modeling) ，也叫比较模建(Compatative modeling)，其前提是一个或多个同源蛋白质的结构已知，当两个蛋白质的序列同源性高于35%，一般情况下认为它们的三维结构基本相同；序列同源性低于30%的蛋白质难以得到理想的结构模型。同源模建是目前最为成功且实用的蛋白质结构预测方法， SWISS-MODEL 是由SwissProt 提供的目前最著名的蛋白质三级结构预测服务器，创建于1993年，面向全世界的生物化学与分子生物学研究工作者提供免费的自动模建服务。SWISS-MODEL 服务器提供的同源模建有两种工作模式：首选模式(First Approach mode)和项目模式(Project mode)。本实例以RGDV P8蛋白为研究对象采用首选模式进行同源模建。图1 SWISS-MODEL 的主界面操作流程如下： 1.选择模式单击左侧的“MENU ”菜单下方的“First Approach mode ”，右侧窗口自动SWISS-MODEL 工作窗口，在相应文本框中分别输入的E-mail 、项目标题、待模建的蛋白质序列，SWISS-MODEL 支持以FASTA 格式直接输入或提交UniProt 的登录号，如图2所示。《生物信息学分析实践》样稿

图2 SWISS-MODEL 的序列提交页面 2.参数设置当前版本只有一个选项可设置，如果用户需要使用指定的模板，可在“Use a specific template ”后的输入框填入ExPDB 晶体图像数据库中的模板代码，其格式为“PDBCODE+ChainID ”，如“1uf2P ”。本例不使用指定模板，默认留空。完毕，点击“Submit Modeling Request ”提交模建请求，服务器返回提交成功的提示，如图3所示：图3 成功提交 SWISS-MODEL WORKSPACEW 页面会自动刷新，直至模建完成，如图4所示，同时模建结果也会发送到指定的邮箱。 3结果解读点击下图右上方的“Print/Save this page as ”后的图标，可以将整个结果以PDF 文档格式保存到本地计算机中。模建结果给出了五个部分的信息：模建详情(Model Details)、比对信息(Alignment)、模建评价 (Anolea/Gromos/Verify3D)、模建日志(Modelling log)、模板选择日志(Template Selection Log)。《生物信息学分析实践》样稿

大基因组大数据与生物信息学英文及翻译

Big Genomic Data in Bioinformatics Cloud Abstract The achievement of Human Genome project has led to the proliferation of genomic sequencing data. This along with the next generation sequencing has helped to reduce the cost of sequencing, which has further increased the demand of analysis of this large genomic data. This data set and its processing has aided medical researches. Thus, we require expertise to deal with biological big data. The concept of cloud computing and big data technologies such as the Apache Hadoop project, are hereby needed to store, handle and analyse this data. Because, these technologies provide distributed and parallelized data processing and are efficient to analyse even petabyte (PB) scale data sets. However, there are some demerits too which may include need of larger time to transfer data and lesser network bandwidth, majorly. 人类基因组计划的实现导致基因组测序数据的增殖。这与下一代测序一起有助于降低测序的成本，这进一步增加了对这种大基因组数据的分析的需求。该数据集及其处理有助于医学研究。因此，我们需要专门知识来处理生物大数据。因此，需要云计算和大数据技术（例如Apache Hadoop项目）的概念来存储，处理和分析这些数据。因为，这些技术提供分布式和并行化的数据处理，并且能够有效地分析甚至PB级的数据集。然而，也有一些缺点，可能包括需要更大的时间来传输数据和更小的网络带宽，主要。 Introduction The introduction of next generation sequencing has given unrivalled levels of sequence data. So, the modern biology is incurring challenges in the field of data management and analysis. A single human's DNA comprises around 3 billion base pairs (bp) representing approximately 100 gigabytes (GB) of data. Bioinformatics is encountering difficulty in storage and analysis of such data. Moore's Law infers that computers double in speed and half in size every 18 months. And reports say that the biological data will accumulate at even faster pace [1]. Sequencing a human genome has decreased in cost from $1 million in 2007 to $1 thousand in 2012. With this falling cost of sequencing and after the completion of the Human Genome project in 2003, inundate of biological sequence data was generated. Sequencing and cataloguing genetic information has increased many folds (as can be observed from the GenBank database of NCBI). Various medical research institutes like the National Cancer Institute are continuously targeting on sequencing of a million genomes for the understanding of biological pathways and genomic variations to predict the cause of the disease. Given, the whole genome of a tumour and a matching normal tissue sample consumes 0.1 T B of compressed data, then one million genomes will require 0.1 million TB, i.e. 103 PB (petabyte) [2]. The explosion of Biology's data (the scale of the data exceeds a single machine) has made it more expensive to store, process and analyse compared to its generation. This has stimulated the use of cloud to avoid large capital infrastructure and maintenance costs. In fact, it needs deviation from the common structured data (row-column organisation) to a semi-structured or unstructured data. And there is a need to develop applications that execute in parallel on distributed data sets. With the effective use of big data in the healthcare sector, a

甘蔗MYB2转录因子的电子克隆和生物信息学分析

第9卷第1期2011年3月生物信息学 China Journal of Bioinformatics Vol．9No．1Mar．，2011 收稿日期：2010－04－29；修回日期：2010－09－06．基金项目：国家948项目（2010－C21）。作者简介：李国印，男，山东菏泽，硕士研究生E －mail ：lyion029@163．com． *通讯作者：许莉萍，女，福建莆田，博士，博导、研究员，E －mail ：xlpmail@yahoo．com．cn． doi ：10.3969/j．issn．1672－5565．2011．01．006 甘蔗MYB2转录因子的电子克隆和生物信息学分析李国印，阙友雄，许莉萍* ，郭晋隆，闫学兵，陈如凯（福建农林大学农业部甘蔗遗传改良重点开放实验室，福建福州350002）摘要：用电子克隆方法获得甘蔗MYB2基因，采用生物信息学方法，对该基因编码蛋白从氨基酸组成、理化性质、跨膜结构域、疏水性/亲水性、亚细胞定位、高级结构及功能域等方面进行了预测和分析。结果表明：甘蔗MYB2基因全长991bp ，包含570bp 的ORF ，编码189个氨基酸。甘蔗MYB2基因包含有MYB 功能域，在序列组成、高级结构及活性位点等方面，与玉米等其它植物的MYB2基因具有高度的相似性。研究结果为该基因的实验克隆奠定基础。关键词：甘蔗；MYB2基因；电子克隆；生物信息学中图分类号：Q785 文献标识码：A 文章编号：1672－5565（2011）－01－024－04 Electronic cloning and characterization of MYB 2gene from Saccharum officinarum using bioinformatics tools LI Guo-yin ，QUE You-xiong ，XU Li-ping *，GUO Jin-long ，YAN Xue-bing ，CHEN Ru-kai （Key Laboratory of Sugarcane Genetic Improvement ，Ministry of Agriculture ，Fujian Agriculture＆Forestry University ，Fuzhou 350002，China ） Abstract ：An novel MYB2gene from Saccharum officinarum was cloned in silico based on the EST seqences from Unigene of NCBI．Some characters of the MYB2encodes amino acid were analyzed and predicted by the tools of bioinformatics in the following aspects ，including the compositon of amino acid sequence ，hydrophobicity or hydro-philicity ，secondary and tertiary structure of protein and funcion．Bioinformatical analysis showed that the full －length of MYB2gene from S．officinarum was 991bp and it contained a complete ORF which encoded 189amino acid．The MYB2gene contained an typical MYB domain and was highly conservative compared with MYB2from several different plant species in sequence compositon ，advanced structure and activity sites．The results will pro-vide the basis for MYB2gene cloning in experiment． Key words ：Saccharum officinarum ，MYB2gene ，In silico cloning ，Bioinformatics 在植物中首先从玉米中克隆了含有MYB 结构域的转录因子C1基因［1］，此后在植物中发现的MYB 相关基因的数量迅速增加。对其功能的研究表明，植物MYB 转录因子具有广泛的生理功能，几乎参与植物发育和代谢的各个方面，重点是调控环境胁迫，如干旱和病害逆境胁迫、次生代谢调节、激素调控应答及控制细胞分化等。植物MYB2转录因子是MYB 大家族中一个小的亚族，虽然不同植物的MYB2基因具有不同的生物学功能［2，3］，但它们都是在转录水平上调控植物各个阶段的生长发育。通过突变体及基因敲除技术，已克隆了很多植物MYB 类基因，但在甘蔗MYB 方面研究甚少。以NCBI 数据库为基础，电子克隆得到甘蔗中编码MYB2的cDNA 序列，利用生物信息学方法，对该基因编码蛋白从氨基酸组成、理化性质、疏水性、亚细胞定位及结构功能等方面进行预测和分析，为后续通过实验手段克隆甘蔗MYB2基因和基因功能研究奠定基础。

基因组学与生物信息学课后作业

基因组学与生物信息学课后作业2016/2/23 名词解释 1 基因组：基因组是指生物体内遗传信息的集合，是某个特定物种细胞内全部DNA分子的总和 2 基因组学：是一门新兴的学科，是在全基因组范围内研究基因的结构、功能、组成及进化的科学，包括多个分支学科 3 C值：指一个单倍体基因组中DNA的总和，一个特定的物种具有其特征性的C值 4 基因家族：来自于一个共同的祖先基因，由基因重复及其突变产生。序列相似，功能相近。 5 假基因：来源于功能基因，但以失去活性的DNA序列，有沉默的假基因，也有可转录的假基因 6 人类基因组计划：旨在为30多亿碱基对构成的人类基因组精确测序，发现所有人类基因并搞清其在染色体上的位置，破译人类全部遗传信息问答题

简述真核生物染色体与原核生物染色体的差别。答：真核生物基因组都由分散的长链线性DNA分子组成，每个DNA分子都与蛋白质结合组成染色体；原核生物基因组有2种独立结构的遗传物质，一种为拟核里的染色质，一种为质粒另外，真核生物基因组含大量非编码序列（高度重复序列，多位于着丝粒、端粒）、断裂基因，而原核生物大部分基因都可以编码名词解释突变:基因组小区段范围内DNA分子发生的突然的、可遗传的变异现象。重组:指基因组中大范围区段发生重新组合。同源重组:指发生在非姐妹染色单体（sister chromatin) 之间或同一染色体上含有同源序列的DNA分子之间或分子之内的重新组合转座:一段DNA片段或其拷贝从染色体的一个位置转移到另一位置，并在插入位点两侧产生一对短的正向重复序列基因重复:含有基因的DNA片段发生重复，可能因同源重组作用出错而发生，或是因为反转录转座与整个染色体发生重复所导致比较基因组学:在基因组水平上研究不同物种和品系之间在基因组结构与功能方面的亲缘关系及其内在联系的一门新兴交叉学科

红豆杉中MYB家族基因克隆及表达分析开题报告于凯

毕业设计/论文开题报告课题名称红豆杉中MYB家族基因克隆及表达分析类别毕业论文系别城市建设学院专业班生物工程0701班姓名于凯评分指导教师华中科技大学武昌分校

华中科技大学武昌分校学生毕业论文开题报告

癌活性，对于治疗卵巢癌、乳腺癌等疗效突出。但是由于含量少、提取困难等诸多因素，高纯度紫杉醇价格昂贵，每公斤200万元人民币左右。因此，近年来国内外许研究人员、实验室和公司一直试图通过生物合成、化学合成、微生物提取、组织和细胞培养、寻找类似物等途径来解决紫杉醇的药源短缺问题。研究紫杉醇的生物合成，尤其一些限速反应步骤机理的阐明对于人为定向的提高合成效率，克隆重组形成关键酶基因从而提高紫杉醇的产量意义重大。从理论上来说这是一个好方法，但是紫杉醇的合成途径非常复杂，涉及到多种酶以及很多分支途径，单纯依靠转化一、两种限速酶基因，只能保证转入的限速酶表达量提高，使之不再是限速因素，但其它阶段对于最终产量的限制依然存在，而且同时转入多种基因的可行性非常低，这种方法的缺陷很明显。若采用化学合成，如从红豆杉植物中分离得到的巴卡亭Ⅲ经过四步化学过程可合成紫杉醇，为合成紫杉醇提供了新途径[5]。但化学合成从实质意义上说还没有取得彻底的突破，目前还不具备应用价值。如果从共生真菌中直接提取紫杉醇，能够利用真菌生长速度快的优势，但目前分离的菌株无论从种类还是数量上都远不够工业化的要求，而且还存在很多不确定因素[1]。生产紫杉醇的微生物大多是与红豆杉共生的真菌，其紫杉醇含量极微，并且这些真菌的培养和大规模发酵困难，菌株衰退也是一个难题。另外，红豆杉愈伤组织和细胞培养生产紫杉醇是研究的热点之一，是工厂化大规模生产紫杉醇的重要手段之一。但运用植物组织、细胞培养技术生产紫杉醇仍处在实验室阶段，如何获得高含量、产紫杉醇稳定的愈伤组织一直都是组织培养、细胞培养生产紫杉醇的关键。 1.1.3关于MYB基因 ①MYB基因目前，在几乎所有的真核生物中都发现了与禽类逆转录病毒癌基因和细胞原癌基因c-MYB相似的基因，它们的编码产物在结构和功能上具有高度保守的DNA结合域，是一类转录因子[6]。在植物中首先从玉米中克隆了含有MYB结构域的转录因子C1基因，之后在植物中发现的MYB相关基因的数量迅速增加[7]。

功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析摘要：随着多种生物全基因组序列的获得，基因组研究正从结构基因组学（structural genomics）转向功能基因组学(functional genomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等)，其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1]，它代表了基因分析的新阶段，已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物，发展和应用新的实验手段，通过在基因组或系统水平上全面分析基因的功能，使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究，是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因，也成为我们面临的一个课题，本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。关键词：功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1 图位克隆方法图位克隆又称定位克隆，它是根据目标基因在染色体上确切位置，寻找与其紧密连锁的分子标记，筛选BCA克隆，通过染色体步移法逐步逼近目的基因区域，根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因，得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息，从突变体开始，逐步找到基因，最后证实该基因就是造成突变的原因。通过图位克隆许多控制质量性状的单基因得以克隆，最近也有报道某些控制数量性状的主效基因（控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2 基因克隆[5]等）也通过图位克隆法获得。

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3) 什么是GO？ (3) GO和KEGG注释之前，为什么要先进行序列比对（BLAST）？ (3) GO注释的意义？ (3) GO和GOslim的区别 (4) 为什么有些蛋白没有GO注释信息？ (4) 为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致？ (4) 什么是差异蛋白的功能富集分析&WHY？ (4) GO注释结果文件解析 (5) Sheet TopBlastHits (5) Sheet protein2GO/protein2GOslim (5) Sheet BP/MF/CC (6) Sheet Level2_BP/Level2_MF/Level2_CC (6) CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7) WHY KEGG pathway annotation? (7) KEGG通路注释的方法&流程？ (7) KEGG通路注释的意义？ (7) 为什么有些蛋白没有KEGG通路注释信息？ (8) 什么是差异蛋白的通路富集分析&WHY？ (8) KEGG注释结果文件解析 (8) Sheet query2map (8) Sheet map2query (9) Sheet TopMapStat (9) CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10) WHY Feature Selection? (10)

聚类分析（Clustering） (10) 聚类结果文件解析 (10) CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12) 蛋白质相互作用网络分析的意义 (12) 蛋白质相互作用 VS生物学通路？ (12) 蛋白质相互作用网络分析结果文件解析 (12)

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。 2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。 5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。（来自百度） 6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。（来自百度） 7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。 8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度）9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。 10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。（来自百度） 11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。（来自文献） 12.Gene Ontology 协会： 13.HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。 17.Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。（来自百度） 18.Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。（来自百度）

乳糖酶基因的克隆及生物信息学分析

乳糖酶基因的克隆及生物信息学分析【摘要】目的：克隆并分析保加利亚德氏乳杆菌中的乳糖酶基因。方法：利用PCR技术从保加利亚德氏乳杆菌中克隆出乳糖酶基因、测序并生物信息学分析。结果：成功的从保加利亚德氏乳杆菌中克隆出全长为3 024 bp的乳糖酶基因，利用生物软件分析，推测乳糖酶基因共编码1 008个氨基酸，蛋白分子量为114 KDa，等电点为4.9，氨基酸序列中共有9处潜在的糖基化位点。并将此基因与不同来源的乳糖酶基因进行同源性比较。结论：成功的克隆出乳糖酶基因，并利用生物分析软件对其进行生物信息学分析。了解该酶的性质特征，为进一步研究及低成本表达该酶奠定基础。【关键词】乳糖酶基因；克隆；生物信息学分析 Clone and bioinformatics analysis of lactase gene WANG Zheng1, 2, MA Wen li1, ZHENG Wen ling1 (1.Institute of Gene Project, South Medical University Guangzhou 510510, China; 2.Key Laboratory of Molecular Biology, Hainan Medical College Haikou 571101, China ) ［ABSTRACT］Objective: To clone and analyze lactase gene from Lactobacillus delbrueckii bulgaricus. Methods: Cloned lactase gene from Lactobacillus delbrueckii bulgaricus with PCR, made sequencing and bioinformatics analysis. Results: Cloned lactase gene (3 024 bp) successfully. It was presumed that the lactase gene encode 1 008 amino acids, with protein molecule 114 KDa, isoelectric point 4.9, 9 potential glycosylation sites in amino acid sequence. Made homology comparison with other lacteses. Conclusion: The lactase gene is cloned successfully and the bioinformatics analysis is made by biological analysis software to investigate its character. It provides foundation for further study and colonization at low cost. ［KEY WORDS］Lactase gene; Clone; Bioinformatics analysis 乳及乳制品含有丰富的优质蛋白质、脂肪、碳水化合物以及几乎全部已知的维生素和多种矿物质，还含有免疫球蛋白等抗病因子，易被人体消化吸收，是人类改善营养、增强体质的理想食品［1］。除此之外，在牛乳等制品当中还含有5%左右的乳糖,它是牛奶中主要的碳水化合物，对人体有着重要的作用。主要表现在于乳糖能促进钙质吸收及整理肠道的功效，特别是乳糖被分解后的半乳糖是婴儿脑发育的必需物质，与婴儿大脑的迅速成长有密切关系。然而，人体却不能直接利用乳糖，它必须被乳糖酶分解为单糖的葡萄糖及半乳糖后才能被吸收和利用。据研究发现，世界各国人口都有不同程度的乳糖酶缺乏，东方人乳糖酶缺乏高达85%［2］，从而导致“乳糖不耐症”的发生。乳糖酶(EC3．2．1．23，又名β 半乳糖苷酶)能将牛乳中的乳糖水解为葡萄糖和半乳糖，并具有半乳糖苷的转移作用［3］。利用该酶生产低乳糖制品或口服酶制剂，能够有效解决“乳糖不耐症”问题。乳糖酶广泛存在于扁桃、桃、杏、苹果和咖啡豆等植物中，大肠杆菌、乳酸杆菌、酵母菌和霉菌等微生物中，以及有效哺乳动物的小肠等器官和皮肤组织中。然而，

生物信息学分析

生物信息学分析生物信息学难吗？经常有人向我问这个问题，这有什么疑问吗？如果不难学，根本就不用问我这个问题。也无需投入那么多时间精力就能掌握，更无需花费三四千元参加线下的培训班，也不会月薪过万。所以，答案很肯定，道理很简单：生物信息比较难学。为什么难学？我总结里几点原因。首先，这是一个交叉学科，要求你既要有生物学的基础，又要有很强的计算机操作技能。这个就有点困难了。因为只是一个生物学就包括多个门类，有很多东西需要去学习，还需要学习计算机知识。很多人一门内容还没学明白，现在还得在加一门，这就属于祸不单行，雪上加霜，屋漏偏逢连夜雨。因此，这种既懂生物学，又懂计算机的复合型人才就比较短缺。而且，生物信息本质上属于数据挖掘，除了生物，计算机，到后面还需要极强的统计学知识才能做好数据分析，所以，还得加上统计学，也就是生物信息学=生物学+计算机科学+统计学三门学科的知识，这也就是为什么生物信息学比较难学。第二个原因，生物信息本身就包括很多内容，比如DNA的分析，RNA的分析，甲基化的分析，蛋白质的分析等方面，每一

门类又完全不同，从物种方面来分，动物，植物，微生物，医学等有差别很大，很难有一劳永逸，放之四海而皆准的分析方法。第三个原因就是生物信息是一门快速发展的学习，会出现很多新的测序方法，比如sanger测序，illumina，BGIseq，PacBio，IonTorrent，Nanopore等，每一个平台技术原理完全不同，因此数据特点也完全不同，这就需要针对每一个平台的数据做专门的学习，而且每个平台又在不断的推陈出现，可能今天你刚开发好的方法，产品升级了，都得推倒重来。还有很多新的技术，例如现在比较火的单细胞测序，Hi-C测序，Bionano测序等等内容，以后还出现更多新技术新方法，足够让你活到老，学到老。当然，你先要能活到老，吾生也有涯，而知也无涯。以有涯随无涯，殆已！高风险才有高收益当然啦，虽然你已经看到学习生物信息肯定是不容易了，门槛很高，但是呢，门槛高也有很多好处，就是挡住了一部分人，当你学会了，迈过门槛，你的身价就提高了。如果人人都很容易掌握了，那么也就不值钱了。所以，生物信息，前途是光明的，道路是曲折的。

绿色荧光蛋白基因克隆及表达结果分析

3 结果与分析 3.1质粒提取用醋酸铵法提取pET-28a 和pEGFP-N3质粒后，进行琼脂糖电泳检测质粒是否提取成功。得到电泳结果，如图一所示，3、4号泳道有明显清晰的条带说明pEGFP-N3提取成功。1、2泳道同样有明显清晰的条带，说明pET-28a 提取成功。 3.2 双酶切用BamH1和Not1分别对pEGFP-N3和pET-28a 双酶切。1、2号泳道为pEGFP-N3的酶切结果，如图二所示，电泳会得到两条带，说明pEGFP-N3酶切成功。4号泳道为pET-28a 的酶切产物的电泳有明显条带，证明酶切成功。 3.3 抗性筛选通过氯化钙法制备DH5α感受态细胞，用热激发将pET-28a-GFP 转入DH5α感图 1 pET-28a 和pEGFP-N3质粒提取电泳图 1、2泳道为pET-28a 电泳结果 3、4号泳道为pEGFP-N3电泳结果图 2 BamH1、Not1双酶切 pEGFP-N3和pET-28a 1、2号泳道为pEGFP-N3酶切产物 3号泳道为pEGFP-N3原始质粒 4号泳道为pET-28a 酶切产物 5号用泳道为pET-28a 原使质粒

受态细胞。转化重组质粒后涂平板，进行重组质粒的抗性筛选。因为28a中含有抗卡那基因，所以筛选后可以得到含28a的重组质粒。从图中可以看出1号平板长出较多菌落，说明DH5α感受态细胞存活。2号平板无菌落生长，说明DH5α中不含抗卡那基因。3号板生长出较少菌落，证明卡那有活性。4号板无菌落生长。失败原因其一可能是在倒了第一个平板加入卡那后，由于倒平板速度太慢，导致培养基凝固，影响了卡那的浓度和活性。其二可能是在转化过程中，离心后，弃上清的过程中，将沉淀和上清混在了一起，影响了溶液的浓度。图3重组质粒转化DH5α感受态细胞 1号图为不含卡那的阴性对照 2号图为含卡那的阴性对照 3号图为含卡那的自提pET-28a的阳性对照 4号图为含卡那的连接产物结果 3.4PCR鉴定经PCR扩增后，进行琼脂糖凝胶电泳检测是否扩增成功，得到电泳结果如图四所示，结果表明，1、2泳道的条带约为700bp，说明成功扩增出含有GFP的基因。DNA电泳检验扩增片段,选出能够得到700bp左右片段的阳性克隆。图4阳性重组菌的PCR鉴定 1、2号泳道为重组质粒转化结果