真核生物基因组

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二讲真核生物基因组

真核生物的基因组比较庞大,并且不同生物种间差异很大,例如人的单倍体基因组由3.16×109 bp组成。在人细胞的整个基因组中实际上只有很少一部份(约占2%~3%)的DNA序列用以编码蛋白质。

第一节真核生物基因组特点

真核生物体细胞内的基因组分细胞核基因组与细胞质基因组,细胞核基因组是双份的(二倍体,diploid),即有两份同源的基因组;细胞质基因组可有许多拷贝。真核细胞基因转录产物为单顺反子,一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。细胞核基因组存在重复序列,重复次数可达百万次以上,大多为非编码序列;因此,基因组中不编码的区域多于编码区域。大部分基因含有内含子,因此,基因是不连续的。真核生物基因组远远大于原核生物的基因组,具有许多复制起点,但每个复制子的长度较小。

一、细胞核基因组与细胞质基因组

(一)细胞核基因组

细胞核基因组的DNA与蛋白质结合形成染色体(chromosome)。除配子细胞外,体细胞有两个同源染色体,因此基因组有两份同源的基因组。染色体储存于细胞核内,是基因组遗传信息的载体。

(二)线粒体基因组

线粒体基因组DNA(mitochondrial DNA,mtDNA)为双链环状超螺旋分子,类似

于质粒DNA,分子量小,大多在1~200×106之间,如人类mtDNA仅由16569bp组成。mtDNA的复制属于半保留复制,可以是θ型复制,或滚环复制,或D环复制,由线粒体DNA聚合酶催化完成。

线粒体基因组主要编码与生物氧化有关的一些蛋白质和酶,如:呼吸链中的细胞色素氧化酶有七个亚基,其中三个亚基由mtDNA编码,其余四个亚基由细胞核DNA编码;细胞色素还原酶有七个亚基,基中的一个亚基由mtDNA编码;ATP酶含有十个亚基,其中四个亚基由mtDNA编码。线粒体基因组可能还包括一些抗药性基因。此外,线粒体基因组有自己的rRNA,tRNA,核糖体等系统,因此线粒体本身的一些蛋白质基因也可以在线粒体内独立地进行表达。

近几年的研究发现,哺乳动物mtDNA的遗传密码与通用的遗传密码有以下区别:①UGA不是终止密码,而是编码色氨酸的密码;②多肽内部的甲硫氨酸由AUG和AUA 两个密码子编码,而起始甲硫氨酸由AUG、AUA、AUU和AUC四个密码子编码;③AGA、AGG不是精氨酸的密码子,而是终止密码子,因此,在线粒体密码翻译系统中有4个终止密码子(UAA、UAG、AGA、AGG)。

二、单顺反子结构

真核细胞结构基因为单顺反子(monocistron),一个结构基因经过转录生成一个单顺反子mRNA分子,翻译成一条多肽链,真核生物基本上没有操纵子结构。

三、断裂基因

真核细胞基因组的大部分序列属于非编码区,不编码具有生物活性的蛋白质或多肽。编码区通常为结构基因,结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),因此,真核细胞的基因大多由不连续的几个编码序列所组成,称之为断裂基因(split gene)。

(一)内含子与外显子

内含子(intron)是结构基因中的非编码序列,往往与编码序列呈间隔排列。当基因转录后,在mRNA的成熟过程中被剪切(splicing)。

外显子(exon)是结构基因中的编码序列,当基因转录后,mRNA在成熟过程中切去内含子,外显子才被拼接成完整的序列,成为成熟的mRNA作为指导蛋白质合成的模板。

(二)间隔区DNA

真核生物基因之间存在编码空白区或转录的空白区,称之为间隔区DNA(spacer DNA),这些序列往往在单拷贝的结构基因之侧翼,并使结构基因彼此分开,间隔区DNA也可以存在于rDNA区。间隔区DNA大小与基因组的大小有关,一般来说,基因组愈大,间隔区DNA所占的比例也愈高。

四、重复序列

(一)高度重复序列

真核生物基因组中普遍存在着重复序列,其中重复频率高,可达百万(106)以上的重复序列,称之为高度重复序列。在人类基因组中约占20%。由于高度重复序列中碱基组成的复杂度很低,因此其复性速率很快。高度重复序列又按其结构特点分为三种:1.反向(倒位)重复序列这种重复序列复性速度极快,即使在极稀的DNA浓度下,也能很快复性,因此又称零时复性部分,人基因组中约占5%。倒位重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基配对而形成发夹式或“+”字形结构。倒位重复(即两个互补拷贝)之间可有若干个核苷酸的间隔,也可以没有间隔。没有间隔的又称之为回文(palindrome)结构,回文结构约占所有倒位重复的三分之一。

2.卫星DNA(satellite DNA)重复序列的重复单位一般由2~10bp组成,且成串排列。由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星DNA或随体DNA。在人类基因组中卫星DNA约占5~6%。

3. 高度重复顺序的功能主要有:①参与复制水平的调节。反向序列常存在于DNA 复制起点区的附近;另外,许多反向重复序列是一些蛋白质(包括酶)和DNA的结合位点。②参与基因表达的调控。③参与转位作用。几乎所有转位因子的末端都包含反向重复序列,长度由几个bp到1400bp。④与进化有关。不同种属的高度重复序列的核苷酸序列不同,具有种属特异性,但相近种属又有相似性。⑤与个体特征有关。同一种属中不同个体的高度重复序列的重复次数不一样,这可以作为每个个体的特征,即DNA 指纹。⑥与染色体减数分裂时染色体配对有关。

(二)中度重复序列

中度重复序列是指在真核基因组中重复数十至数万次(<105)的重复序列。其复性

速度快于单拷贝顺序,但慢于高度重复序列。少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。依据重复序列的长度,中度重复序列可分为两种类型。

1.短分散片段(short interspersed repeated segments,SINES)重复序列的平均长度为300bp(一般<500bp),与平均长度为1000bp左右的单拷贝序列间隔排列,拷贝数可达10万左右。如Alu家族、Hinf家族等属于这种类型的中度重复序列。

Alu家族是哺乳动物基因组中含量最丰富的一种中度重复顺序家族,约占人类基因组的3%~6%。Alu家族每个成员的长度约300bp,每个单位长度中有一个限制性内切酶Alu的切点(AG↓CT),Alu可将其切成两段,130bp和170bp,因而定名为Alu 序列(或Alu家族)。Alu序列分散在基因组中,在间隔区DNA,内含子中都发现有Alu序列。Alu序列具有种特异性,以人的Alu序列制备的探针只能用于检测人的基因组中的Alu序列,由于在大多数的含有人的DNA的克隆中都含有Alu序列,因此,可用以人的Alu序列制备的探针与克隆杂交来进行筛选。

2.长分散片段(long interspersed repeated segments,LINES)重复序列的长度大于1000bp,平均长度为3500~5000bp,如KpnⅠ家族等。中度重复序列在基因组中所占比例在不同种属之间差异很大,在人类基因组中约为12%。中度重复序列大多不编码蛋白质。其功能可能类似于高度重复序列。有些中度重复序列则是编码蛋白质或rRNA的结构基因,如HLA基因、rRNA基因、tRNA基因、组蛋白基因、免疫球蛋白基因等。中度重复序列可存在于结构基因之间、基因簇之中,甚至存在于内含子内部等。中度重复序列一般具有种属特异性,因此在适当的情况下,可以应用它们作为探针以区分不同种属哺乳动物细胞来源的DNA。

KpnⅠ家族 是中度重复顺序中仅次于Alu家族的第二大家族,用限制性核酸内切酶KpnⅠ消化人类及其它灵长类动物的DNA,在电泳图谱上可以看到4个不同长度的片段,分别为1.2、1.5、1.8和1.9kb,在人类基因组中,KpnⅠ家族的拷贝数约为3000~4800个,约占基因组的1%。

(2)组蛋白基因在各种生物体内重复的次数不一样,组蛋白基因没有一定的排列方式,组蛋白基因不含内含子,组蛋白基因序列都很相似,从而编码的组蛋白在结构上和功能上也极为相似,具有高的保守性。

(三)低度重复序列(单拷贝序列)

相关文档
最新文档