真核生物基因组DNA序列的复杂度
真核生物基因组

第二讲真核生物基因组真核生物的基因组比较庞大,并且不同生物种间差异很大,例如人的单倍体基因组由3.16×109 bp组成。
在人细胞的整个基因组中实际上只有很少一部份(约占2%~3%)的DNA序列用以编码蛋白质。
第一节真核生物基因组特点真核生物体细胞内的基因组分细胞核基因组与细胞质基因组,细胞核基因组是双份的(二倍体,diploid),即有两份同源的基因组;细胞质基因组可有许多拷贝。
真核细胞基因转录产物为单顺反子,一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。
细胞核基因组存在重复序列,重复次数可达百万次以上,大多为非编码序列;因此,基因组中不编码的区域多于编码区域。
大部分基因含有内含子,因此,基因是不连续的。
真核生物基因组远远大于原核生物的基因组,具有许多复制起点,但每个复制子的长度较小。
一、细胞核基因组与细胞质基因组(一)细胞核基因组细胞核基因组的DNA与蛋白质结合形成染色体(chromosome)。
除配子细胞外,体细胞有两个同源染色体,因此基因组有两份同源的基因组。
染色体储存于细胞核内,是基因组遗传信息的载体。
(二)线粒体基因组线粒体基因组DNA(mitochondrial DNA,mtDNA)为双链环状超螺旋分子,类似于质粒DNA,分子量小,大多在1~200×106之间,如人类mtDNA仅由16569bp组成。
mtDNA的复制属于半保留复制,可以是θ型复制,或滚环复制,或D环复制,由线粒体DNA聚合酶催化完成。
线粒体基因组主要编码与生物氧化有关的一些蛋白质和酶,如:呼吸链中的细胞色素氧化酶有七个亚基,其中三个亚基由mtDNA编码,其余四个亚基由细胞核DNA编码;细胞色素还原酶有七个亚基,基中的一个亚基由mtDNA编码;ATP酶含有十个亚基,其中四个亚基由mtDNA编码。
线粒体基因组可能还包括一些抗药性基因。
此外,线粒体基因组有自己的rRNA,tRNA,核糖体等系统,因此线粒体本身的一些蛋白质基因也可以在线粒体内独立地进行表达。
真核生物基因组的特点

六、基因重叠(gene overlapping)
指基因组DNA中某些序列被两个或两个以上的基 因所共用。线粒体基因组DNA具有基因重叠现象。
七、端粒与端粒酶 (一)端粒的结构 端粒是位于染色体3’末端的一段富含G的DNA重复序 列,端粒和端粒结合蛋白组成核蛋白复合物。不同种 类细胞的端粒重复单位不同,大多数长 5~8bp,由这 些重复单位组成的端粒,突出于其互补链12~16个核 苷酸内。人类端粒由5′TTAGGG3′的重复单位构成, 长度在5~15kb范围。端粒的功能是可以为染色体加 “帽”,防止染色体发生降解、融合、重组和丢失,维 持染色体的稳定性。
四 多基因ene)
具有相似功能的基因成簇或分散在基因组中,构成 基因家族。多基因家族是指由某一祖先基因经过重复和 变异所产生的一组同源基因。分为两类:一类是一个基 因的多次拷贝、序列高度同源、成簇地排列在同一条染 色体上,形成一个基因簇;如α-珠蛋白基因簇由7个相 关基因组成,排列在16号染色体。另一类是一个基因家 族的不同成员成簇地分布不同染色体上,它们序列有些 不同,但编码一类功能相关的蛋白。 假基因是指基因家族中因突变而失去功能的基因, 不能产生具有生物活性的蛋白。没有启动子而不能表达。
真核生物基因组特点 一 单顺反子结构 二 断裂基因 三 重复序列 四 多基因家族与假基因 五 多态性 六 基因重叠 七 端粒与端粒酶
一 单顺反子结构(monocistron)
一个编码基因转录生成一个mRNA分子,经翻译产 生一条多肽链。
二 断裂基因(splite gene)
真核结构基因两侧存在有不被转录的非编码序列, 往往是基因表达的调控区。在编码基因内部尚有一些 不为蛋白质编码的间隔序列,称内含子(intron),而编 码序列称外显子(exon),因此真核基因是不连续的。 内含子与外显子相间排列,同时被转录。
简述真核生物基因组的结构特点

简述真核生物基因组的结构特点
真核生物基因组的结构特点总结归纳如下:
1真核基因组庞大,一般都远大于原核生物的基因组。
2真核基因组存在大量的重复序列。
3真核基因组的大部分为非编码序列,占整个基因组序列的90%以上,该特点是真核生物与细菌和病毒之间最主要的区别。
4真核基因组的转录产物为单顺反子。
5真核基因是断裂基因,有内含子结构。
6真核基因组存在大量的顺式作用元件,包括启动子、增强子、沉默子等。
7真核基因组中存在大量的DNA多态性。
DNA多态性是指DNA序列中发生变异而导致的个体间核苷酸序列的差异,主要包括单核苷酸多态性和串联重复序列多态性。
8真核基因组具有端粒结构。
第3章真核生物基因组

4.大部分基因有内含子,所以基因是不连续的。 5.真核生物基因组远远大于原核生物基因组,具有许多复
制起点,但每个复制子的长度较小。
一、细胞核基因组与细胞质基因组
(一)细胞核基因组 细胞核基因组的DNA与蛋白质结合形成染色
●内含子(intron):
是结构基因中的非编码序列,往往与编码序列呈间隔排列。 当基因转录后,在mRNA的成熟过程中被剪切(splicing)。
●外显子(exon):
是结构基因中的编码序列,往往被内含子所间隔, 当基因 转录后,mRNA在成熟过程中切去内含子,外显子才被拼接成 完整的序列,成为成熟的mRNA作为指导蛋白质合成的模板。
DNA的复性动力学研究:非编码区往往都是重 复序列。
第一节 真核生物基因组特点
1.分为细胞核基因组与细胞质基因组: 细胞核基因组是双份的(二倍体,diploid),即有两份
同源的基因组。 细胞质基因组可有许多拷贝。
2.真核细胞基因转录产物为单顺反子:一个结构基因经过 转录和翻译生成一个mRNA分子和一条多肽链。
第三章 真核生物基因组
第三章 真核生物基因组
引言: 真核生物基因组比较庞大,并且不同生物种间 差异很大。
例如,人类单倍体基因组由3.16x109bP组成,如果以 1000个碱基编码一种蛋白质来计算,理论上可有300万 个基因。但实际上只有很少部分(约占2%—3%)的DNA 序列用于编码蛋白质。基因总数大概3.5万个。
④与进化有关:具有种属特异性,但相近种属又有相似性; ⑤与个体特征有关:同一种属中不同个体的高度重复序列的 重复次数不一样,这可以作为每个个体的特征,即DNA指 纹;
基因组的结构和功能

13
③ 微卫星DNA/短串联重复序列(microsatellite DNA/short tandem repeat, STR):
其重复单位为2~5 bp,存在于常染色体,常见 于内含子中。
人类基因组DNA中平均每6~10kb就有一个
STR位点 。不同个体之间在一个同源STR位点
的重复次数不同。 由于重复单位及重复次数不
同,使其在不同种族,不同人群之间的分布具
有很大差异性,构成了STR遗传多态性。
编辑ppt
14
➢ 同一种属中不同个体的高度重复顺序的重复 次数不一样,这可以作为每一个体的特征, 即DNA指纹 。
编辑ppt
4
3. 基因组中存在大量的重复序列以及非编码序 列。真核生物基因组内非编码序列占90%以 上,是与细菌、病毒的重要区别,在一定程 度上也是生物进化的标尺。
4. 真核生物基因组中也存在一些可移动的DNA
序列(转座元件)。
编辑ppt
5
一、真核生物基因组中重复序列的结构与功能
真核生物基因组中通常存在大量的重复序列, 可占整个基因组DNA的90%以上。
编辑ppt
23
➢典型的长散在核元件(LINEs)是KpnⅠ重复序 列家族,因在其序列中存在限制酶KpnⅠ的切 点而得名。
➢KpnⅠ家族的重复单位一般为6 ~ 7 kb或更长,
其两侧也各有一段正向重复序列,功能上与Alu
家族相似。
编辑ppt
24
(三)单拷贝序列: ➢ 单拷贝序列在基因组中只出现一次或几次, 因此复性速度很慢。 ➢ 单拷贝序列属于结构基因,它储存了巨大 的遗传信息,编码各种功能不同的蛋白质。
真核生物DNA复制起始复杂物的结构与功能分析

真核生物DNA复制起始复杂物的结构与功能分析真核生物DNA复制是细胞生命周期中最基本的过程之一,它确保了基因遗传信息的准确复制和传递。
而DNA复制起始复杂物(origin recognition complex, ORC)则是这个过程中不可或缺的组件之一,它在控制DNA复制时起到了至关重要的作用。
那么,什么是ORC,它的结构和功能是什么,它在真核生物的DNA复制中扮演了什么角色?本文将对此进行详细阐述。
一、ORC的定义和特点ORC是由六种蛋白质组成的复合物,它存在于所有真核生物的细胞中。
该复合物具有高度保守性,意味着其在不同物种中的结构和功能相对保持不变。
在细胞周期的S期,ORC被招募到DNA双链螺旋的特定部位上,这些部位被称为起始点(origin),并启动DNA复制。
二、ORC的结构ORC是一个由六个不同蛋白质亚基组成的复合物。
这些亚基分别是ORC1、ORC2、ORC3、ORC4、ORC5和ORC6。
从序列和结构上看,它们属于不同类型的蛋白质,但都可以进行互作用和复合。
ORC的结构变化比较复杂,研究人员通过X-射线晶体结构分析和电镜重构技术等多种方法绘制了其不同构象下的结构图。
当前,已经有了一些ORC复合物的高分辨率结构质量报告,使我们对其结构了解更加深入。
三、ORC的功能ORC在DNA复制的初期阶段发挥着至关重要的作用。
它是DNA复制因子的重要载体,能够在DNA起始点招募其余的DNA复制因子进行复制。
此外,ORC 也具有结构稳定性和纽带断裂能力等功能。
ORC被认为是真核生物DNA复制的重要调节因子之一。
它可以通过调节多种特定的复制因子来激活或抑制DNA复制,从而确保DNA在S期时完全保留。
此外,ORC在细胞周期的其他几个生理状态下也发挥着功能,例如DNA修复,甚至影响染色体结构的形成和分离等过程。
四、ORC与人类疾病的关系ORC与许多人类疾病有关。
例如,ORC的缺失或功能变化可能导致延迟DNA 复制,被认为是一些与先天性疾病和肿瘤相联系的基因失活和突变的原因。
人类DNA的复杂性与医学价值
人类DNA的复杂性与医学价值近年来,科学技术的发展让人类对自身的基因有了更深入的理解。
人类基因组在2001年被完整地测序,从而开启了探索人类基因组奥秘的历程。
通过对基因组的研究,我们了解到人类DNA的复杂性和医学价值。
一、DNA的复杂性DNA是轴突中的基本遗传信息单位,由核苷酸单元组成。
人类基因组的大小约为3亿个核苷酸单元,其中包含大约20,000-25,000个基因。
每个基因都编码一种蛋白质,这些蛋白质决定了人的特征和功能。
然而,即使两个个体的基因组存在相同的部分,它们也可能因为基因变异而表现出截然不同的特征。
人类基因组的复杂性在于它的三维结构和基因调控。
除了基本的结构和功能,DNA还具有三维结构的复杂性。
DNA不像绳索或电线那样呈直线,而是缠绕成一个巨大的复杂结构。
DNA的三维结构可能对基因表达起关键作用。
同样的基因,三位空间不同的结构可能会导致不同的表达。
这解释了为什么相同的基因组可造就不同的人类。
另外,DNA的基因调控也是DNA复杂性的产生因素之一。
基因调控是指分别管理基因表达和关闭的一组生物分子。
基因表达的高低决定了不同功能的细胞之间的差异。
分子机制是如此复杂,以至于科学家们仍在试图解释基因调控过程中发现的难解难题。
二、DNA的医学价值基因组的研究对医学的发展影响极大。
基因检测和个性化医疗等技术已经应用于基因组学的研究中。
借助DNA分析,医生可以根据患者基因信息提供更精确的诊断和治疗方案。
DNA检测也可以用来预测长期健康和特定疾病的风险。
一些基因检测可用于预测癌症、糖尿病等疾病发展的可能性。
最近,个性化医疗已成为基因组研究应用的重点。
个性化医疗是一种以患者个体化信息为依据的新型医疗模式,它将个体基因信息与药物疗效和不良反应等方面联系起来。
基因靶向性药物是一种逐步发展的个体化医疗,它们是根据患者的基因信息开发,以达到更精确的治疗效果。
目前,基于基因组学的药物已经用于乳腺癌、肺癌、前列腺癌和淋巴瘤等癌症的治疗。
原核生物基因组和真核生物基因组比较区别
原核生物基因组和真核生物基因组的区别:1、真核生物基因组指一个物种的单倍体染色体组(1n)所含有的一整套基因。
还包括叶绿体、线粒体的基因组。
原核生物一般只有一个环状的DNA分子,其上所含有的基因为一个基因组。
2、原核生物的染色体分子量较小,基因组含有大量单一顺序(unique-sequences),DNA仅有少量的重复顺序和基因。
真核生物基因组存在大量的非编码序列。
包括:.内含子和外显子、.基因家族和假基因、重复DNA序列。
真核生物的基因组的重复顺序不但大量,而且存在复杂谱系。
3、原核生物的细胞中除了主染色体以外,还含有各种质粒和转座因子。
质粒常为双链环状DNA,可独立复制,有的既可以游离于细胞质中,也可以整合到染色体上。
转座因子一般都是整合在基因组中。
真核生物除了核染色体以外,还存在细胞器DNA,如线粒体和叶绿体的DNA,为双链环状,可自主复制。
有的真核细胞中也存在质粒,如酵母和植物。
4、原核生物的DNA位于细胞的中央,称为类核(nucleoid)。
真核生物有细胞核,DNA序列压缩为染色体存在于细胞核中。
5、真核基因组都是由DNA序列组成,原核基因组还有可能由RNA组成,如RNA病毒。
原核生物和真核生物区别(从细胞结构、基因组结构和遗传过程分析)主要差别由真核细胞构成的生物。
包括原生生物界、真菌界、植物界和动物界。
真核细胞与原核细胞的主要区别是:【从细胞结构】1.真核细胞具有由染色体、核仁、核液、双层核膜等构成的细胞核;原核细胞无核膜、核仁,故无真正的细胞核,仅有由核酸集中组成的拟核2.真核细胞有内质网、高尔基体、溶酶体、液泡等细胞器,原核细胞没有。
真核细胞有发达的微管系统,其鞭毛(纤毛)、中心粒、纺锤体等都与微管有关,原核生物则否。
3.真核细胞有由肌动、肌球蛋白等构成的微纤维系统,后者与胞质环流、吞噬作用等密切相关;而原核生物却没有这种系统,因而也没有胞质环流和吞噬作用。
真核细胞的核糖体为80S型,原核生物的为70S型,两者在化学组成和形态结构上都有明显的区别。
[重点]原核生物基因组和真核生物基因组比较区别
原核生物基因组和真核生物基因组的区别:1、真核生物基因组指一个物种的单倍体染色体组(1n)所含有的一整套基因。
还包括叶绿体、线粒体的基因组。
原核生物一般只有一个环状的DNA分子,其上所含有的基因为一个基因组。
2、原核生物的染色体分子量较小,基因组含有大量单一顺序(unique-sequences),DNA仅有少量的重复顺序和基因。
真核生物基因组存在大量的非编码序列。
包括:.内含子和外显子、.基因家族和假基因、重复DNA序列。
真核生物的基因组的重复顺序不但大量,而且存在复杂谱系。
3、原核生物的细胞中除了主染色体以外,还含有各种质粒和转座因子。
质粒常为双链环状DNA,可独立复制,有的既可以游离于细胞质中,也可以整合到染色体上。
转座因子一般都是整合在基因组中。
真核生物除了核染色体以外,还存在细胞器DNA,如线粒体和叶绿体的DNA,为双链环状,可自主复制。
有的真核细胞中也存在质粒,如酵母和植物。
4、原核生物的DNA位于细胞的中央,称为类核(nucleoid)。
真核生物有细胞核,DNA序列压缩为染色体存在于细胞核中。
5、真核基因组都是由DNA序列组成,原核基因组还有可能由RNA组成,如RNA病毒。
原核生物和真核生物区别(从细胞结构、基因组结构和遗传过程分析)主要差别由真核细胞构成的生物。
包括原生生物界、真菌界、植物界和动物界。
真核细胞与原核细胞的主要区别是:【从细胞结构】1.真核细胞具有由染色体、核仁、核液、双层核膜等构成的细胞核;原核细胞无核膜、核仁,故无真正的细胞核,仅有由核酸集中组成的拟核2.真核细胞有内质网、高尔基体、溶酶体、液泡等细胞器,原核细胞没有。
真核细胞有发达的微管系统,其鞭毛(纤毛)、中心粒、纺锤体等都与微管有关,原核生物则否。
3.真核细胞有由肌动、肌球蛋白等构成的微纤维系统,后者与胞质环流、吞噬作用等密切相关;而原核生物却没有这种系统,因而也没有胞质环流和吞噬作用。
真核细胞的核糖体为80S型,原核生物的为70S型,两者在化学组成和形态结构上都有明显的区别。
基因组的特点
基因组的特点真核生物基因组的特点:1.基因组较大。
真核生物的基因组由多条线形的染色体构成,每条染色体有一个线形的DNA分子,每个DNA分子有多个复制起点;2.不存在操纵子结构。
真核生物的同一个基因簇的基因,不会像原核生物的操纵子结构那样,转录到同一个mRNA上;3.存在大量的重复序列。
真核生物的基因组里存在大量重复序列,通过其重复程度可将其分成高度重复序列、中度重复序列、低度重复序列和单一序列;4.有断裂基因。
大多数真核生物为蛋白质编码的基因都含有“居间序列”,即不为多肽编码,其转录产物在mRNA前体的加工过程中被切除的成分;5.真核生物基因转录产物为单顺反子;6.功能相关基因构成各种基因家族。
原核生物基因组的特点:1.基因组较小,通常只有一个环形或线形的DNA分子;2.通常只有一个DNA复制起点;3.非编码区主要是调控序列;4.存在可移动的DNA序列;5.基因密度非常高,基因组中编码区大于非编码区;6.结构基因没有内含子,多为单拷贝,结构基因无重叠现象;7.重复序列很少,重复片段为转座子;8.有编码同工酶的等基因;9.基因组的大部分序列是用来编码蛋白质的,基因之间的间隔序列很短;10.功能相关的序列常串连在一起,由共同的调控元件调控,并转录成同一mRNA分子,可指导多种蛋白质的合成,这种结构称操纵子。
病毒基因组的特点:1.不同病毒基因组大小相差较大;2.不同病毒基因组可以是不同结构的核酸;3.除逆转录病毒外,通常为单倍体基因组;4.有的病毒基因组是连续的,有的病毒基因组分节段;5.有的基因有内含子;6.病毒基因组大部分为编码序列;7.基因重叠,即同一段DNA片段能够编码两种或两种以上的蛋白质分子,这种现象在其他生物细胞中仅见于线粒体和质粒DNA。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节 真核生物基因组DNA序列的复杂度 一、重复序列的检测 真核生物基因组DNA C值的巨大差异提出了一个重要的问题,是否C值愈大的物种就含有更多的基因?还是基因数目并未增加而是含有大量不编码蛋白质的重复序列DNA?如果是基因数目随着C值大小而增加,那么编码这些结构基因的单一DNA序列的数量也应随之增加,相反如基因组中DNA含大量不编码的重复序列,那么基因的数目就不一定与C值成比例增加。为此可通过复性动力学来检测基因组DNA序列的复杂性(sequence complesity of DNA poputation)。也就是通过DNA的变性(denaturation)和复性(renaturation)反应的动力学过程分析DNA序列的性质,由于复性的速率取决于互补的DNA序列之间的随机碰撞,
所以DNA复性是一个双分子二级反应。单链消失速度 其中:C为单链DNA的浓度(单位是每升的核苷酸摩尔数); t为时间(单位为s); k为重组速率常数(单位是L/mol·s),k取决于阳离子浓度、温度、片段大小和DNA序列的复杂性。
当t=0时,C=C0,表明所有DNA都是单链,C0为DNA总浓度。 复性的分数C/C0是起始浓度和经过时间的乘积C0t的函数,这样的函数绘成图称为C0t曲线(图7-3)。 从方程式可见控制复性反应的参数是C0t,如当t=t1/2时,即 如果基因组中每一种基因只有一个,即都是单拷贝序列,那么基因组愈大则基因组的复杂性愈大,复性速率愈小,k也愈小,所以C0t1/2与非重复序列的基因组大小呈正比。即
图6-3表明,C0t1/2与基因组的大小成正比。其中polyU+polyA,其kC0t1/2=1个核苷酸对,因而复性最快;MS2是RNA噬菌体,T4为DNA噬菌体,每个基因组的大小用箭头标于图的上方。 二、DNA序列的类别 不同生物基因组的C0t1/2是不相同的,C0t1/2的位置除了决定于基因组的大小以外,还取决于每个基因的核苷酸序列的重复次数,重复次数愈少则复性愈慢,C0t1/2的位置愈后,重复次数愈多,C0t1/2位置愈前。真核生物基因组的复性曲线往往出现两个或3个明显不同的C0t1/2位置,说明这类基因组中包含着重复次数显然不同的几个成分(图7-4),该图是假设的一个真核生物基因组复性曲线。 从上图可以看出,最后复性这部分DNA的C0t1/2=630,它占全部DNA的45%,相当于3.0×108bp,重复频率为1;中间这部分DNA的C0t1/2=1.4,占全部DNA的30%,相当于60×105bp,该DNA序列重复频率为350;复性最快部分DNA的C0t1/2
=0.0013,占基因组DNA的25%,相当于340bp,重复频率为5×105。显然第一
部分,即复性最慢的部分是单拷贝DNA序列,第二部分为少量重复或中度重复DNA序列,第三部分为高度重复DNA序列。因此真核生物基因组序列大致可分为许多类型。 (一)单拷贝序列(unique sequence)亦称非重复序列(nonrepetitive sequence)在一个基因组中只有一个拷贝或2-3个拷贝。真核生物的大多数基因在单倍体中都是单拷贝的。不同生物基因组中单拷贝序列所占的比例是不同的(图7-5)。原核生物中一般只含有非重复序列,较低等的真核生物中大部分DNA也是单拷贝的。动物细胞基因组中将近50%DNA是中度或高度重复的,特别是植物和两栖类生物中单拷贝DNA序列降低,而中度和高度重复序列增加。从图中还可看出,随着生物的基因组大小的增加,非重复DNA片段长度也随之增加,通常单拷贝序列比较短,只有1000bp左右,故所占的DNA的百分比也很低。两栖类和植物基因组C值的增加并非是单拷贝序列的增加,而是重复序列DNA比例的增加。非重复DNA很少达到2×109bp的。由此可见,非重复DNA含量和生物的相对复杂程度是一致的。而且大多数结构基因是位于基因组的非重复DNA序列之中。单拷贝的基因编码许多重要的蛋白质,例如,丝心蛋白单拷贝基因能够合成高达104的mRNA分子,每个mRNA分子又可合成出105个蛋白质分子,这充说明单拷贝基因的高度表达能力。当然也不是所有的单拷贝序列都是编码多肽链的结构基因,因为真核生物基因组中编码的序列不过只有百分之几。 (二)中度重复序列(moderately repetitive sequence)中度重复序列中的重复单位平均长度约300bp,重复次数为10~102,人的珠蛋白(红血蛋白)基因属于这种少量重复序列,人的珠蛋白基因中除了包括已确定的8个珠蛋白功能基因和3个珠蛋白假基因外,还有一个近年发现的基因。假基因也属于少量重复序列。另一类中度重复序列的重复次数为103~105,该序列常以回文序列方式出现在基因组的许多位置上,一些回文序列中间间隔着单拷贝序列,另一些中间不存在单拷贝序列,所以经变性复性后,前者可观察到茎-环结构,后者则形成发夹图像(图7-6)。中度重复序列一般是不编码的序列,这种重复序列和非重复序列一样都不是一个长序列,它们都要被其他组分所隔断。
(三)高度重复序列(highly repetitive sequence)顾名思义,高度重复序列就是在基因组中存在大量拷贝的序列,一般重复次数在106以上。通常这些序列的长度为6~200bp,如卫星DNA。这些重复序列大部分集中在异染色质区,特别是在着丝粒和端粒附近。高度重复序列中常有一些AT含量很高的简单串联重复序列。因序列简单,缺乏转录所必需的启动子,故没有转录能力。然而DNA复制能力却和单一序列复制得一样快。大多数高等真核生物DNA都有20%以上的高度重复序列,而且数目变化很大,这类序列的多少对C值的影响可能最大。一般认为大多数重复序列是过剩的DNA,但其中某些重复序列具有特殊的功能,如调节基因的表达,增强同源染色体之间的配对和重组,维持染色体结构的稳定性,调节mRNA前体的加工过程,参与DNA复制等,此外重复序列还可能是进化的源泉之一。但是,重复序列的确切生物学意义尚有待阐明。 三、卫星DNA 卫星DNA(satellite DNA)是一类高度重复的DNA序列。各种DNA在氯化铯梯度离心中,平衡时的浮力密度决定于它的GC含量,GC含量越高,浮力密度越大。真核生物的DNA一般含有30%~50%GC含量,在DNA的不同区段,GC含量约相差10%。对一个物种来说,当基因组DNA切断成数百个碱基对的片段进行超离心时,其浮力密度曲线是覆盖一定浮力密度范围的一条宽带,但是有些DNA片段都含有异常高或低的GC含量,常在主要DNA带的前面或后面有一个次要的DNA带相伴随,这些小的区带就像卫星一样围绕着DNA主带,故称卫星DNA。有的高度重复序列的碱基组成与基因组DNA总体的碱基组成差异不大,接近于平均值,因而并非所有的高度重复序列都能形成卫星DNA。复性动力学鉴定发现高度重复的DNA与卫星DNA一样,具有串联集中分布的特点。因此有时把这种高度重复序列称为隐蔽卫星DNA(cryptic satellite DNA)。卫星DNA的重复单位长短不一,牛的卫星DNA是1400bp,某些猴的卫星DNA是172bp,蟹的卫星DNA大部分是AT的重复序列,有时在30个左右的碱基对中才偶尔插入一个GC对,因而AT含量达到97%。果蝇(D.virilis)有3条卫星DNA区带,也是多为AT对,并且还有一个隐蔽卫星(表7-2)。Miklos 1985年的研究指出,果蝇D.nasutoides基因组的60%由卫星DNA构成,而它们全部都处在4对染色体的一对最大的染色体上,而这对染色体看来几乎不含别的DNA。
根据卫星DNA的浮力密度可以分成Ⅰ、Ⅱ、Ⅲ、Ⅳ4类,它们的浮力密度分别是1.687、1.693、1.647和1.700g/cm3。 卫星DNA在染色体上的位置可以用放射性标记探针作DNA分子原位杂交(in situ hybri dization)来鉴定,发现4类卫星DNA都能与人的各条染色体杂交,而且杂交的带型也很相似。说明这4类卫星DNA也存在于人的染色体上,而且分布的状况也相同。卫星DNA分布于着丝粒附近的异染色质区。由于异染色质区是高度螺旋化的,DNA是不表达的。卫星DNA在着丝粒处的集中分布可能与细胞分裂时染色体的运动有关。 哺乳动物的卫星DNA常常是多等级的,即一个大的重复单位是由若干个彼此相似的小重复单位串联组成,每个小重复单位又由若干个彼此相似的更小的重复单位串联组成。如小鼠卫星DNA用限制性内切酶EcoRⅡ切割,得到234~240bp的一系列片段,序列分析发现其中234bp的带在60%~70%的卫星DNA里都有这种序列。若将234bp的左、右各一半的各117bp排列起来进行比较,发现只有22个bp不同,差异为19%。说明234bp的重复单位是由117bp亚重复单位重复而来,由于突变而积累了差异。117bp的亚单位又可分成两个58bp的1/4亚单位。4个58bp亚单位之间的差异达到40%。58bp的亚单位又可分成两个1/8的亚单位,其中之一是28bp(α亚单位),另一部分是30bp(β亚单位)。8个1/8亚单位之间的差异达61%。如果再将1/8亚单位分成3个部分,每一部分都含有GAAAAACGT、GAAAAATGA、GAAAAAACT近似序列。由此推测小鼠的234bp高度重复序列可能是由一个9bp的祖先序列例如GAAAAATGT演化而来的。其演化原理可能是在某特定时刻由于某种原因使一个DNA序列横向扩增产生多个串联重复单位,经9→27→58→117→234bp4轮的横向扩增和突变积累过程,在这个过程中,使不同的重复单位失去同一性,也可能产生插入突变,致使现在的234bp的重复序列也并不完全相同。 一般说卫星DNA不受任何选择压的影响,因为它不编码蛋白质或RNA,因而小鼠卫星DNA各个拷贝的序列有相似性而不完全相同。然而有些卫星DNA如节肢动物的卫星DNA是由几乎相同的重复单位组成的。值得注意的是在人的第17号染色体上串联分布的U2snRNA基因有10~20个拷贝。每个重复单位约6000bp,而其编码序列却只有188bp。选择压作用于编码序列而使其保持相同,这是不言而喻的。难以理解的是其余5800bp的间隔序列为什么也会保持相同?虽然其中有100bp左右的转录起始、终止以及转录后处理的信号,它们必须是保守的。对其剩余的5700bp的保守性形成的机制以及上述节肢动物卫星DNA的实例中,人们认为:任何串联重复的DNA序列,不论其中是否含有编码的遗传信息,都将经受均一化作用(homogenization),使串联重复的DNA序列保持均一化。一般认为有两种机制:一是交换固定(crossover fixation),二是基因转变(gene conversion)。这两种机制与基因扩增一道维持了串联重复序列的均一化。