2、原核基因结构的MED模型及多迭代自学习预测基因的MED系统
复习题分子生物学

习题第一章1.什么是分子生物学?2.列举分子生物学开展历程中的10个重大事件。
3.简述分子生物学的研究内容与研究热点。
4.根据你所学的知识谈谈分子生物学在生命科学以及社会经济活动中的地位与作用。
5.简述分子生物学开展史中的三大理论发现和三大技术创造。
6. 21世纪是生命科学的世纪。
20世纪后叶分子生物学的突破性成就,使生命科学在自然科学中的位置起了革命性的变化。
试阐述分子生物学研究领域的三大根本原那么,三大支撑学科和研究的三大主要领域?第二章一.名词解释:基因、端粒酶、假基因、Alu序列家族、断裂基因、重叠基因、变性、复性、C值矛盾中心法那么、增色效应二、选择题〔单项选择或多项选择〕1.证明DNA是遗传物质的两个关键性实验是:肺炎球菌在老鼠体内的毒性和T2噬菌体感染大肠杆菌。
这两个实验中主要的论点证据是〔〕。
A.从被感染的生物体内重新别离得到DNA作为疾病的致病剂B.DNA突变导致毒性丧失C.生物体吸收的外源DNA〔而并非蛋白质〕改变了其遗传潜能D.DNA是不能在生物体间转移的,因此它一定是一种非常保守的分子E.真核心生物、原核生物、病毒的DNA能相互混合并彼此替代2.1953年Watson和Crick提出〔〕。
A.多核苷酸DNA链通过氢键连接成一个双螺旋B.DNA的复制是半保存的,常常形成亲本-子代双螺旋杂合链C.三个连续的核苷酸代表一个遗传密码D.遗传物质通常是DNA而非RNAE.别离到回复突变体证明这一突变并非是一个缺失突变3.DNA双螺旋的解链或变性打断了互补碱基间的氢键,并因此改变了它们的光吸收特性。
以下哪些是对DNA的解链温度的正确描述?〔〕A.哺乳动物DNA约为45℃,因此发烧时体温高于42℃是十分危险的B.依赖于A-T含量,因为A-T含量越高那么双链分开所需要的能量越少C.是双链DNA中两条单链分开过程中温度变化范围的中间值D.可通过碱基在260nm的特征吸收峰的改变来确定E.就是单链发生断裂〔磷酸二酯键断裂〕时的温度4.DNA的变性〔〕。
基因组学(结构基因组学和功能基因组学)

问:基因组学、转录组学、蛋白质组学、结构基因组学、功能基因组学、比较基因组学研究有哪些特点?答:人类基因组计划完成后生物科学进入了人类后基因组时代,即大规模开展基因组生物学功能研究和应用研究的时代。
在这个时代,生命科学的主要研究对象是功能基因组学,包括结构基因组研究和蛋白质组研究等。
以功能基因组学为代表的后基因组时代主要为利用基因组学提供的信息。
基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(struc tural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics)。
结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。
功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。
功能基因组学(functional genomics)又往往被称为后基因组学(postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。
这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。
研究内容包括基因功能发现、基因表达分析及突变检测。
基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。
新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。
鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。
功能基因组学中文名称:功能基因组学英文名称: Functional Genomics学科分类:遗传学注释:运用遗传技术,通过识别其在一个或多个生物模型中的作用来认识新发现基因的功能。
课件第8讲 基因预测方法

组(12.1Mb)的2/5
2、绝大部分原核生物基因组由一个单一的 环状DNA分子组成; 3、原核生物的基因通常比真核生物的少;
E. coli:4000多个基因,人:~30000个
4、原核生物的基因绝大多数是连续基因, 不含间隔的内含子;基因组结构紧密,重 复序列远少于真核生物的基因组。
著名原核基因预测软件
1、GeneMark系列软件(包括最新版本GeneMarkS)
Borodovsky等,1993~2001
——Borodovsky, M. and McIninch. J. (1993) GENMARK: parallel gene recognition for both DNA strands. Comput. Chem., 17, 123-134. ——Besemer, J., Lomsadze, A. and Borodovsky, M. (2001) GeneMarkS: a self-training method for prediction of gene starts in microbial genomes genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Res., 29: 2607-2618.
二、 原核生物基因组中的基因预测
• 原核基因预测概述 • 预测算法举例:MED原核基因预测方法 • 预测性能的评价
• ForCon:核酸与氨基酸不同序列格式之间的 转换
3
2011/11/21
(一)原核基因预测概述
医学遗传学(第3版)配套习题集:第3章 人类基因组学

第三章人类基因组学基因组指一个生命体的全套遗传物质。
从基因组整体层次上研究各生物种群基因组的结构和功能及相互关系的科学即基因组学。
基因组学的研究内容包括三个基本方面,即结构基因组学,功能基因组学和比较基因组学。
人类基因组计划(HGP)是20世纪90年代初开始,由世界多个国家参与合作的研究人类基因组的重大科研项目。
其基本目标是测定人类基因组的全部DNA序列,从而为阐明人类全部基因的结构和功能,解码生命奥秘奠定基础。
人类基因组计划的成果体现在人类基因组遗传图,物理图和序列图的完成,而基因图的完成还有待大量的工作。
后基因组计划(PGP)是在HGP的人类结构基因组学成果基础上的进一步探索计划,将主要探讨基因组的功能,即功能基因组学研究。
由此派生了蛋白质组学,疾病基因组学,药物基因组学,环境基因组学等分支研究领域,同时也促进了比较基因组学的展开。
后基因组计划研究的进展,促进了生命科学的变革,可以预见会对医学、药学和相关产业产生重大影响。
HGP的成就加速了基因定位研究的进展,也提高了基因克隆研究的效率。
基因的定位与克隆是完成人类的基因图,进而解码每一个基因的结构和功能的基本研究手段。
一、基本纲要1.掌握基因组,基因组学,结构基因组学,功能基因组学,比较基因组学,基因组医学,后基因组医学的概念。
2.熟悉人类基因组计划(HGP)的历史,HGP的基本目标;了解遗传图,物理图,序列图,基因图的概念和构建各种图的方法原理。
3.了解RF1P,STR和SNP三代DNA遗传标记的特点。
4.熟悉后基因组计划(PGP)的各个研究领域即功能基因组学、蛋白质组学、疾病基因组学、药物基因组学,比较基因组学、生物信息学等的概念和意义。
5.了解基因定位的各种方法的原理。
6.了解基因克隆的三种研究策略。
7.了解全基因组扫描的策略和方法。
8.熟悉基因组医学与遗传病研究的关系。
9.熟悉基因组医学与个体化治疗的关系。
二、习题(一)选择题(A型选择题)1.人类基因组计划仍未完成的基因组图为OA.遗传图B.物理图C.序列图D.连锁图E.基因图2.下列不属于基因组学分支学科的是oA.基因组文库B.环境基因组学C.疾病基因组学D.药物基因组学E.比较基因组学3.HGP的任务是oA.构建遗传图B.物理图C.确定DNA序列D.定位基因E.以上都是4.HGP是美国科学家在年率先提出的。
NCBI功能详介分解

GenBank Overview基本信息∙什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。
每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。
GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
∙纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
∙访问GenBank - 通过Entrez Nucleotides来查询。
用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。
关于Entrez更多的信息请看下文。
用BLAST来在GenBank和其他数据库中进行序列相似搜索。
用E-mail来访问Entrez和BLAST可以通过Query 和BLAST服务器。
另外一种选择是可以用FTP下载整个的GenBank和更新数据。
∙增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank 增长)小节。
∙公布通知,最新 - 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
∙公布通知,旧 - 同上相同,是过去公布的统计。
∙遗传密码 - 15个遗传密码的概要。
用来确保GenBank中纪录的编码序列被正确的翻译。
(向)GenBank提交(数据)∙关于提交序列数据,收到accession number,和对纪录作更新的一般信息。
∙BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。
(请在提交前用VecScreen去除载体)∙Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。
可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。
现代分子生物学 第三版 课后习题及答案(整理版)

朱玉贤-现代分子生物学第三版课后习题及答案(整理版)现代分子生物学课后习题及答案(共10章)第一章绪论1.你对现代分子生物学的含义和包括的研究范围是怎么理解的?答:分子生物学是从分子水平研究生命本质的一门新兴边缘学科,它以核酸和蛋白质等生物大分子的结构及其在遗传信息和细胞信息传递中的作用为研究对象,是当前生命科学中发展最快并正在与其它学科广泛交叉与渗透的重要前沿领域。
狭义:偏重于核酸的分子生物学,主要研究基因或DNA的复制、转录、表达和调节控制等过程,其中也涉及与这些过程有关的蛋白质和酶的结构与功能的研究。
分子生物学的发展为人类认识生命现象带来了前所未有的机会,也为人类利用和改造生物创造了极为广阔的前景。
所谓在分子水平上研究生命的本质主要是指对遗传、生殖、生长和发育等生命基本特征的分子机理的阐明,从而为利用和改造生物奠定理论基础和提供新的手段。
这里的分子水平指的是那些携带遗传信息的核酸和在遗传信息传递及细胞内、细胞间通讯过程中发挥着重要作用的蛋白质等生物大分子。
这些生物大分子均具有较大的分子量,由简单的小分子核苷酸或氨基酸排列组合以蕴藏各种信息,并且具有复杂的空间结构以形成精确的相互作用系统,由此构成生物的多样化和生物个体精确的生长发育和代谢调节控制系统。
阐明这些复杂的结构及结构与功能的关系是分子生物学的主要任务。
2.分子生物学研究内容有哪些方面?答:分子生物学主要包含以下三部分研究内容:A.核酸的分子生物学,核酸的分子生物学研究核酸的结构及其功能。
由于核酸的主要作用是携带和传递遗传信息,因此分子遗传学(moleculargenetics)是其主要组成部分。
由于50年代以来的迅速发展,该领域已形成了比较完整的理论体系和研究技术,是目前分子生物学内容最丰富的一个领域。
研究内容包括核酸/基因组的结构、遗传信息的复制、转录与翻译,核酸存储的信息修复与突变,基因表达调控和基因工程技术的发展和应用等。
遗传信息传递的中心法则(centraldogma)是其理论体系的核心。
合成生物学_山东大学中国大学mooc课后章节答案期末考试题库2023年
合成生物学_山东大学中国大学mooc课后章节答案期末考试题库2023年1.标准化是所有工程学科的关键部分。
答案:正确2.生物安全包括哪些方面?答案:合成生物的泄露对研究人员造成的伤害_合成生物的泄露对公共环境造成的伤害_用合成生物技术发动生化战争3.单输入和多输入都是串联结构。
答案:正确4.关于核糖体结合位点的叙述,错误的是:答案:核糖体结合位点可以启动基因的转录。
5.现代生命科学的发展历史上,所经历的3次革命是:答案:合成生物学革命_基因组学革命_分子生物学革命6.单输入SIM的特点是,子模块表达的顺序与其功能相吻合。
答案:正确7.能与阻遏蛋白相结合的调控序列,叫做答案:operator8.分解代谢的中间产物,经常对代谢途径具有正反馈作用。
答案:正确9.当细胞对某种物质的需求量较高时,通常采用前馈的调节方式。
答案:错误10.“或”门逻辑的一致性前馈C1-FF结构,对于上升刺激的影响具有延迟效应,但对下降刺激的影响,则没有延迟效应。
答案:错误11.关于生物模块(biological module)叙述错误的是:答案:生物模块在细胞内,是与Part、Device和System并列的一个层次结构。
12.合成生物学是汇聚研究范式的典型。
答案:正确13.合成生物学工程化的研究策略中涉及的概念有:答案:抽提_解耦_标准化14.相比于基因工程,合成生物学又拓展出的一些工具包括:答案:抽提_标准化_DNA的从头合成15.合成生物学在生物医药领域里的应用体现在哪些方面:答案:个体化医疗_免疫细胞设计_开发天然药物_开发生产疫苗16.常见的装置的种类有:答案:基因开关_逻辑门_接收器_蛋白质生成装置17.下列哪些是组合型Part (composite part) ?答案:蛋白质生成装置_转换器18.与基因工程相比较,合成生物学的特点包括:答案:学科交叉的特点_网络分析是其核心内容之一_广泛使用数学模拟工具_标准化零件的特点19.一个标准的生物砖(BioBrick),其前后缀之间不能含有EcoRI酶切位点。
细胞真题名词解释
2017一、名词解释1.胞质溶胶Lipid raft 自噬溶酶体亚线粒体小泡染色体骨架联会复合体原初反应Cotransport 信号斑多能干细胞与单能干细胞2016一、名词解释胚胎诱导端粒酶Tight junction 核纤层蛋白Cyclin 抑癌基因信号识别颗粒氧化磷酸化核纤层Cell communication2015一、名词解释1.细胞学说2.核孔复合体3.多线染色体4.化学渗透学说:解释氧化磷酸化过程中电子传递与磷酸化之间偶联机制的一种学说。
其主要要点为电子传递链不对称分布,起着质子泵的作用,在电子传递莱奶过程中所释放的能量转化成跨膜的PH梯度和电位梯度,由于内膜具有完整性,因此在将质子从内室泵至外室时,质子只能从ATP合成酶返回基质,该酶便用其能量合成ATP。
5.端粒6.信号转导7.限制点:是细胞周期监控点之一。
8.肿瘤抑制基因I(抑癌基因)9.细胞周期10微管组织中心2014一、名词解释1.肌质网2.异噬溶酶体中心体分子伴侣重组小节成帽反应极细胞核定位信号细胞外被肌球蛋白2013一、名词解释胚胎干细胞胚胎诱导细胞拆合联会复合体生殖质程序性细胞死亡嵌合体多线染色体收缩环随体2012一、名词解释1.细胞学说2细胞识别3.细胞拆合4.原生质:原生质是细胞内生命物质的总称。
它的主要成分是糖类、蛋白质、核酸、脂质等。
原生质分化产生细胞膜、细胞质和细胞核,构建成具有特定结构体系的原生质体,即细胞。
一个动物细胞就是一个原生质体。
植物细胞由原生质体和细胞壁组成。
5.重组小节6.细胞外被7.核小体8.多核糖体:在蛋白质合成过程中,同一条mRNA分子能够同多个核糖体结合,同时合成若干条蛋白质多肽链,结合在同一条mRNA上的核糖体就称为多聚核糖体(polysome 或polyribosomes).在电镜下观察呈现各种各样的结构。
蛋白质合成时多聚核糖体的形成对生命活动的意义在于:节省了遗传信息量,减轻了核的负担.原9.癌基因点突变:这是原癌基因激活的途径之一,有的癌细胞基因激活是由于原癌基因本身一定部位的核苷酸序列发生了变化,合成了异常的蛋白质产物,从而使细胞出现转化表型,所谓的点突变就是基因中只有一对碱基发生了突变。
生物信息学名词解释
名词解释:Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。
1、FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
2、Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。
3、genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
4、模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
5、查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
6、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
7、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
8、PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。
PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
9、Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
生物信息学复习题已附答案
本卷的答案仅做参考,如有疑问欢迎提出。
后面的补充复习题要靠你们自己整理答案了。
生物信息学复习题一、填空题1、 识别基因主要有两个途径即2、 表达序列标签是从 mRNA 中生成的一些很短的序列( 300-500bp ),它们代表在特定组织或发育阶段表达的基因。
3、 序列比对的基本思想,是找出 检测基因 和 目标序列 的相似性,就是通过在序列中插入 空位的方法使所比较的序列长度达到一致。
比对的数学模型大体分 为两类,分别— 和局部比对 。
4、 2-DE 的基本原理是根据蛋白质 和 分子量 不同,进行两次电泳将之分 离。
第一向是 等电聚焦分离 ,第 —S D S-P AGE 分离 o5、 蛋白质组研究的三大关键核心技术是 质谱鉴定技术 、 计算机图像数据处理与蛋白质数据库二、 判断题1、 生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,是真核生物基因组的特点之一。
(对)2、 CDS 一定就是 ORF 。
(对)3、 两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源 ,就具有共同的祖先。
(错)4、 STS,是一段 200-300bp 的特定 DNA 序列,它的序列已知,并且在基因组中属于 单拷贝。
(对)5、 非编码 DNA 是“垃圾 DNA',不具有任何的分析价值,对于细胞没有多大的作用。
(错)6、 基因树和物种树同属于系统树,它们之间可以等同。
(错)7、 基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。
&对任意一个 DNA 序列,在不知道哪一个碱基代表 CDS 的起始时,可用 获得6个潜在的蛋白质序列。
(对)9、 一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。
(对)10、 外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的 外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以 不同。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物基因组复杂结构信息及其演化探索生物基因组复杂结构信息及其演化探索佘振苏佘振苏加州大学洛杉矶分校数学系加州大学洛杉矶分校数学系,,北京大学湍流与复杂系统国家重点实验室北京大学湍流与复杂系统国家重点实验室,, 北京大学理论生物学中心北京大学理论生物学中心朱怀球朱怀球北京大学湍流与复杂系统国家重点实验室北京大学湍流与复杂系统国家重点实验室,,北京大学理论生物学中心1、前言前言生物由原核生物和真核生物组成,前者包括蓝细菌、细菌、古细菌、放线菌、立克次氏体、螺旋体、枝原体和衣原体等,后者包括动物、植物、真菌等。
据不完全估计,目前在地球的生物圈里存在大约20~30亿种微生物,其中原核生物是微生物的最主要组成部分。
原核生物的生命形态要比真核生物简单,但它们同样完美地表现出生命复杂系统的所有特征——有组织的结构、新陈代谢、复制繁殖、侦察与适应环境等。
作为存储全部遗传信息的原核生物基因组,构成了运行上述复杂生命现象的基础。
研究原核生物基因结构及其演化规律,对于认识生物进化规律有重要的意义。
在包括人类基因组在内的各种模式生物基因组计划实施以来,已经有200多种原核生物的全基因组序列实现了完全测序并得到对它们的基因注释信息。
根据现代分子遗传学知识,原核生物基因组可以看成是由许多编码蛋白质或RNA的基因序列和携带各种调控信息的非编码序列等诸多元素所组成的复杂系统,我们称之为基因系统。
例如,大肠杆菌(E. coli )K-12的全基因组长度为460多万个核苷酸,其中包含已知的4288个基因,既有长达7149核苷酸的编码基因,也有300多条短于300核苷酸的编码基因。
这些基因可分为多个功能组,分别参与翻译、转录、DNA复制、细胞分裂、生物合成、信号传导……等10多大类以及上百小类的复杂的生命活动,组成了一个复杂的时空网络,其中还有多达359条基因被证明来自其它原核生物,这种基因的水平转移是在漫长的基因组演化过程中发生的。
可见原核生物的基因系统是一个开放的复杂巨系统,对它的研究无疑是对复杂系统研究的一种有意义的探索。
原核生物一般分为两个界:细菌(Bacteria )和古细菌(A rchaea )。
后者由Woese 等在1977年利用16S r RNA 做进化树来研究物种亲缘关系时提出。
现在人们认为古细菌和细菌大约在40亿年以前从它们的最近共同祖先分叉进化产生,而现代的真核生物又是从古细菌分叉进化形成的。
虽然古细菌在细胞结构以及代谢途径方面与细菌相似,但是如果考虑某些大分子结构和遗传特征(如基因的转录以及翻译机制)的话,会发现古细菌比细菌更接近于真核生物。
因此,古细菌开始成为一种引人注目的生命形式。
因此,对细菌和古细菌的基因组复杂结构信息的研究以及对它们基因组之间的比较研究对生物进化具有重要的科学意义。
2、原核基因结构的原核基因结构的MED MED MED模型及多迭代自学习预测基因的模型及多迭代自学习预测基因的模型及多迭代自学习预测基因的MED MED MED系统系统系统原核生物的基因主要表现为一段连续的编码序列(称为开放阅读框)以及序列前区(非编码区)的调控序列。
开放阅读框是由连续的三核苷酸(称为密码子)排列而成,根据遗传密码表翻译成氨基酸链,进而合成具有生物活性的蛋白质分子。
调控序列包含了被调控基因(即其后的开放阅读框)的转录、翻译等基因表达相关的时空调控信息。
计算分子生物学研究原核生物的一个最主要任务就是从基因组的DNA序列中识别编码蛋白质的基因,以及调控基因表达的各种信号(例如调控翻译的核糖体结合位点(ribosomal binding site),简称R BS)。
为了准确地识别DNA序列上的基因,首先必须对编码序列及其翻译调控序列的特征有准确的刻画和认识。
通过建立基因结构的模型,设计原核生物基因预测的算法。
经过近十年的努力,人们已经发展了许多原核基因预测的算法及相应的软件,但这些算法基本上是基于对随机序列刻画的隐马氏模型。
隐马氏模型的刻画构成对序列的高维参数拟合,具有参数多、结构复杂、生物学意义隐晦等特点。
基于隐马氏模型的基因预测方法虽然在基因预测应用上取得一定的成果,但对于理解基因结构的生物学意义上始终停滞不前。
因此,探索基因预测的新模型成为我们过去一段时间研究的目标。
目前影响原核基因预测水平的实际困难有两点:(1)、在同一个开放阅读框的末端,存在唯一的翻译终止密码子,但起始端可能存在多个可能的起始密码子,其中只有一个是翻译起始位点。
基因起始位置(即翻译起始位点(translation initiation site),简称TIS)往往不能随终止密码子而唯一确定。
因此,基因起始位置的预测精度要远远低于基因终止位置的预测精度;(2)、由于统计平均模型对短基因(通常短于300核苷酸)的刻画存在较大的涨落,因此短基因的预测水平较低。
建立基因系统的简明模型,也应该在解决上述实际困难方面有所建树。
我们近年来运用复杂系统的研究方法,根据原核基因的复杂结构特征,发展了一个刻画原核基因系统的ME D统计模型,这是一个包含两个模块的二组元统计模型(见图1)。
该模型首先提出了熵密度分布(Entropy D ensity Profile,简称E D P)模块,对一段DNA序列的编码潜能进行统计语言学的刻画。
E D P是基于Shannon的人工语言理论提出的,对一段任意有限长度DNA序列进行关键统计词汇使用频率的整体刻画,它将任意一组DNA序列(通常是对应开放阅读框的序列)表现为n维空间上的点集(n为关键词汇的个数)。
对公开发表的数据分析表明,迭代计算会很快收敛到与物种相关的点集,构成对物种的一个有生物学意义的刻画,也对序列产生一个与物种相关的编码性能的量度。
其次,模型对基因翻译起始位点以及前区的调控信号构造了包含4组具有生物学意义的统计参数的R BS模块。
这四组参数为P1、P2、P3、P4,其中P1表示阅读框中不同位置的起始密码子能成为翻译起始位点的可能性,P2表示翻译起始位点及其邻域的序列特征,P3是处于基因起始位点前区的核糖体结合位点及其邻域的序列特征,P4我们设计了一种综合集成的表示核糖体结合位点对其下游的编码基因起到翻译调控的可能性。
基于E D P模块和R BS模块,、多迭代循环的、自学习的基因预测系统——ME D系统(见图2)。
该系统可以对输入的任意新测序的原核生物全基因组DNA序列进行自动分析,并根据迭代自学习得到的模块参数对全基因组序列进行注释,标注出序列上所有编码蛋白质基因的位点信息,以及调控该物种基因翻译的核糖体结合位点的关键序列。
ME D系统在对原核生物全基因组序列进行基因注释时,不依赖任何有关该物种的先验知识以及经验参数,而是在迭代学习的过程中自动获取这些参数。
这种自学习过程的实现反映了生物进化过程中存在的普适因素,特别是在构造E D P模块的根序列时运用的初始特征点集以及在进行判别分析所用到的决策树的参数,都与物种无关。
对于这些普适参数的分析还没有完成,我们目前正在进行这项工作。
我们相信,ME D方法对于认识原核生物基因系统中蕴藏的普遍规律具有重要的意义。
由于ME D 方法把握了这些普适因素,它在预测新测序的原核基因组时有明显的优势,在微生物研究及微生物工程中具有很好的应用前景。
P… A T G Φ2以枯草芽胞杆菌(B. subtilis )全基因组序列的分析结果为例,基因组全长4,214,814核苷酸,目前数据库GeneBank 中已注释的编码基因4100个。
运行ME D系统对枯草芽胞杆菌全基因组序列进行分析,可以预测到基因前存在一些保守字串“GG A GG”、“AAA GG”、“A GG A G”,它们应该是调控基因翻译的核糖体结合位点的信号。
如果对所有编码基因前区20核苷酸的序列片段作logo图,logo图是采用信息熵的方法将保守序列用图示化的方法;字符的高度和在保守序列里面出现的频率成正比(Schneider 和 Stephens, 1990)。
得到的结果与ME D系统分析的3个信号几乎是一致的(见图3),表明ME D系统能够很好地抓住原核基因系统中R BS 的特征,对R BS 复杂结构建立的模型是非常有效的。
图3 枯草芽胞杆菌基因翻译调控区(起始位点前11个核苷酸的窗口序列)的logo图表1. 10条短基因与10条非编码阅读框序列(来自枯草芽胞杆菌全基因序列的基因注释)下面介绍一下ME D系统对短基因的识别精度。
对于大多数统计模型而言,短序列的统计性质会因为序列太短存在较大的涨落。
运用ME D 方法发展的原核基因预测软件ME D2.0对枯草芽胞杆菌全基因组序列进行基因预测,结果表明短基因的识别精度已经达到国际上最好的水平(见表1,与当前国际上最好的原核基因预测软件GeneMarkS 、Glimmer 2.02和ZCU R V E 1.0相比)。
表1 Comparison of MED 2.0, GeneMarkS, Glimmer 2.02 and ZCURVE 1.0 on three short gene datasets of B. subtilis . 测试 数据集 短基因数目 Genes detected (3’ end) (%) Genes exactly predicted (both 5’ and 3’ ends) (%)ends) (%) MED2.0GeneMar kS Glimme r 2.02 ZCURVE 1.0 MED 2.0 GeneMar kS Glimme r 2.02 ZCURVE 1.0 Bsub123 123 92.792.791.9 91.1 91.9 84.684.6 81.3 68.3 78.0 Bsub72 72 93.193.193.1 91.7 93.1 90.390.3 86.1 68.1 86.1 Bsub51 51 92.2 94.194.1 88.2 90.2 92.292.2 88.2 64.7 84.34、MED MED方法对古细菌基因组转录方法对古细菌基因组转录方法对古细菌基因组转录、、翻译调控信号的分析翻译调控信号的分析从进化关系来看,古细菌是介于细菌和真核生物之间的一类特殊的物种,目前国际基因组数据库GenBank 中已经测序并得到基因注释的物种大约有20种。
GenBank 给出的注释很大程度上也是采用预测软件得到的。
这里,我们运用我们发展的ME D 方法对古细菌基因组进行注释和分析,发现古细菌基因结构表现出与细菌和真核生物都不同的特征。
我们主要针对翻译起始位点上游的与基因调控相关的信号进行分析,目前已经取得了一些初步结果。
下面主要以古细菌Pyrococcus abyssi (以下简称P.aby )来介绍最近的进展。