第一章 基因和基因组
分子生物学笔记完全版

分子生物学笔记第一章基因的结构第一节基因和基因组一、基因(gene)是合成一种功能蛋白或RNA分子所必须的全部DNA序列.一个典型的真核基因包括①编码序列—外显子(exon)②插入外显子之间的非编码序列—内合子(intron)③5'-端和3'-端非翻译区(UTR) ④调控序列(可位于上述三种序列中) 绝大多数真核基因是断裂基因(split-gene) ,外显子不连续。
二、基因组(genome) 一特定生物体的整套(单倍体)遗传物质的总和,基因组的大小用全部DNA的碱基对总数表示。
人基因组3X1 09(30亿bp),共编码约10万个基因。
每种真核生物的单倍体基因组中的全部DNA量称为C值,与进化的复杂性并不一致(C-value Paradox)。
人类基因组计划( human genome project, HGP )基因组学( genomics ),结构基因组学( structural genomics )和功能基因组学( functional genomics )。
蛋白质组( proteome )和蛋白质组学( proteomics )第二节真核生物基因组一、真核生物基因组的特点:,①真核基因组DNA在细胞核内处于以核小体为基本单位的染色体结构中.②真核基因组中,编码序列只占整个基因组的很小部分(2 —>% ),三、基因家族(gene family) 一组功能相似且核苷酸序列具有同源性的基因. 可能由某一共同祖先基因(ancestral gene) 经重复(duplication) 和突变产生。
基因家族的特点:①基因家族的成员可以串联排列在一起,形成基因簇(gene cluster)或串联重复基因(tandemly repeated genes),如rRNA、tRNA和组蛋白的基因;②有些基因家族的成员也可位于不同的染色体上,如珠蛋白基因;③有些成员不产生有功能的基因产物,这种基因称为假基因(Pseudogene) . ¥ a1表示与a1相似的假基因.四、超基因家族(Supergene family ,Superfamily) 由基因家族和单基因组成的大基因家族,结构上有程度不等的同源性,但功能不同.第四节细菌和病毒基因组一、细菌基因组的特点。
第一章基因和基因组及基因工程的概念[1]
![第一章基因和基因组及基因工程的概念[1]](https://img.taocdn.com/s3/m/cf8dcf7a6137ee06eef9183b.png)
PPT文档演模板
第一章基因和基因组及基因工程的概 念[1]
(四)、目的基因高效表达规律
1. 目的蛋白无须变形和复性就具有生物活性的表达方式 2. 对于翻译后需要修饰蛋白质结构,能够进行目的蛋白结构修饰的
PPT文档演模板
第一章基因和基因组及基因工程的概 念[1]
4-2 多肽的修饰: ① N末端信号肽的切除 ② 二硫键的形成 ③ 线性多肽呈现出一定空间结构 ④ 多肽链的糖基化等
PPT文档演模板
第一章基因和基因组及基因工程的概 念[1]
(二)、原核生物基因表达的特点
① 原核生物只有一种RNA聚合酶(真核细胞 有三种)识别原核细胞的启动子,催化所 有RNA的合成。
前胰岛素原,它比胰岛素原的N末端上多一段肽链,即信号肽,含20个 氨基左右,其中多是疏水侧链残基。
生成过程:前胰岛素原在信号肽的引导下进入内质网腔。待肽链进入腔 后,立即被信号肽酶切去“前”顺序。形成的胰岛素原后,又被运输 到高尔基体然后贮存在贮存颗粒中,并在特异肽酶的作用下转变为活 性胰岛素,肽酶催化胰岛素原的二个特定肽键的断裂,释放出一段中 间的肽链,这个端肽链又在肽酶的作用下从链的两端各除去2个氨基 酸残基而生长C肽。
(一)、基因表达的基础知识
1 概念:
1-1 以mRNA为模板的 蛋白质合成过程称为 翻译或转译
1-2 mRNA: 从DNA到 蛋白质的信息传递载 体
PPT文档演模板
第一章基因和基因组及基因工程的概 念[1]
1-3 遗传密码:
02医学遗传学:第一章 人类基因和基因组

表观遗传学(epigenetics) • 表观遗传:基因的核苷酸序列不发生突
变,由基因的修饰导致基因的活性改变, 使基因决定的表型出现变化,且可传递 少数世代的遗传现象。
• 原因:DNA甲基化、组蛋白的乙酰化
第二节 基因的化学本质
基因的化学本质:
大部分生物:DNA(脱氧核酸) 少数病毒:RNA(核糖核酸)
侧翼序列
侧翼序列
侧翼序列(flanking sequence) 作用:调控序列、保持基因完整性必需。
侧翼序列
侧翼序列
二、基因组的组成
(一)单拷贝序列
定义:又称非重复序列;在基因组中仅有 单一拷贝或少数拷贝。
长度:800bp~1000bp之间
编码:各种蛋白质和酶——结构基因 在基因组中的比例:45%
第三节 人类基因和基因组的 结构特点
基因组(genome):一个物种的单倍体染 色体数目及所有包含的全部遗传物质 人类基因组:人体的所有遗传信息的总和; 人类基因组=核基因组(nuclear genome)
+
线粒体基因组(mitochondrial genome)
注:如无特别注明,人类基因组通常指核基因组
例如:烟草花叶病毒(TMV)
一、DNA分子组成
• 基本单位:脱氧核苷酸
腺嘌呤(A) P
5’
O 4’
碱基
1’ 2’
鸟嘌呤(G)
胞嘧啶(C)
胸腺嘧啶(T)
脱氧核糖
3’
图:脱氧核苷酸
• 单链连接方式:3’, 5’-磷酸二酯键
P
4’ 5’
O
1’
T
5’
3’
3’
2’
3’, 5’-磷酸二酯键
基因与基因组知识点资料整理总结

第一章基因与基因组1.基因的概念:基因是指合成有功能的蛋白质多肽链或RNA所必需的全部核酸序列(通常指DNA)。
2.基因的结构:①真核生物的结构基因不是连续编码的,而是由编码序列和非编码序列两部分构成,二者相互间隔排列,因此这种基因又称作割裂基因(split gene).②人类编码基因主要由外显子、内含子和侧翼序列组成.③能转录、并存在于成熟RNA中的序列称为外显子(exon)④能转录、但不存在于成熟RNA中的序列称为内含子(intron)(注:GT-AG法则:每个内含子的5’端开始的两个核苷酸都是GT,3’端末尾的两个核苷酸都是AG。
)⑤不同数目的外显子和内含子组成的各个基因大小各不相同;无内含子的基因一般较小,有较大内含子的基因一般较大。
⑥每个结构基因的第一个外显子和最后一个外显子外侧,即基因的5′端和3′端都有一段不被转录的DNA序列,对基因的转录表达及表达水平具有重要的调控作用。
包括:启动子、增强子和终止子,属顺式调控因子,称为调控序列。
(启动子 (Promoter),通常位于基因转录起点上游的100bp范围内,是RNA聚合酶的结合部位,促进转录过程,包括TATA框、Hogness框(TATA box, Hogness box)、CAAT框(CAAT box)和GC框(GC box)。
终止子 (Terminator),一段回文序列以及特定的序列,例如:5’-AATAAA-3’是RNA停止工作的信号。
增强子(Enhancer),启动子上游或下游的一段DNA序列,无明显方向性,但具有组织特异性,可增强启动子转录的效率)3.基因家族、基因簇和假基因①基因家族 (gene family):基因组中来源相同、结构相似、功能相关且常成簇存在的一组基因。
②基因簇:家族成员成簇排列在同一条染色体上,形成一个基因簇;不同成员成簇地分布在几条不同的染色体上,形成几个基因簇。
基因簇成员可能同时表达,也可能在不同发育阶段或不同部位表达。
分子生物学笔记

第一章基因的结构第一节基因和基因组一、基因(gene)是合成一种功能蛋白或RNA分子所必须的全部DNA序列.一个典型的真核基因包括①编码序列—外显子(exon)②插入外显子之间的非编码序列—内合子(intron)③5'-端和3'-端非翻译区(UTR)④调控序列(可位于上述三种序列中)绝大多数真核基因是断裂基因(split-gene),外显子不连续。
二、基因组(genome)一特定生物体的整套(单倍体)遗传物质的总和,基因组的大小用全部DNA的碱基对总数表示。
人基因组3X1 09(30亿bp),共编码约10万个基因。
每种真核生物的单倍体基因组中的全部DNA量称为C值,与进化的复杂性并不一致(C-value Paradox)。
人类基因组计划(human genome project, HGP)基因组学(genomics),结构基因组学(structural genomics)和功能基因组学(functional genomics)。
蛋白质组(proteome)和蛋白质组学(proteomics)第二节真核生物基因组一、真核生物基因组的特点:,①真核基因组DNA在细胞核内处于以核小体为基本单位的染色体结构中.②真核基因组中,编码序列只占整个基因组的很小部分(2—3%),二、真核基因组中DNA序列的分类?(一)高度重复序列(重复次数>lO5)卫星DNA(Satellite DNA)(二)中度重复序列1.中度重复序列的特点①重复单位序列相似,但不完全一样,②散在分布于基因组中.③序列的长度和拷贝数非常不均一,④中度重复序列一般具有种属特异性,可作为DNA标记.⑤中度重复序列可能是转座元件(返座子),2.中度重复序列的分类①长散在重复序列(long interspersed repeated segments.) LINES②短散在重复序列(Short interspersed repeated segments) SINES SINES:长度<500bp,拷贝数>105.如人Alu序列LINEs:长度>1000bp(可达7Kb),拷贝数104-105,如人LINEl(三)单拷贝序列(Unique Sequence)包括大多数编码蛋白质的结构基因和基因间间隔序列,三、基因家族(gene family)一组功能相似且核苷酸序列具有同源性的基因.可能由某一共同祖先基因(ancestral gene)经重复(duplication)和突变产生。
第一章 基因组和基因

真核生物基因组特点
① 基因组很大 ② 有大量重复序列 两栖动物其基因组DNA中90%为重复序列 ③ 大部分为非编码序列 真核生物与细菌和病毒之间最主要 的区别,如哺乳动物的DNA中,大约只有2%是用来编码蛋 白质的,其余大多数在基因表达调控中起作用 ④ 转录产物为单顺反子
3、核小体
Nucleosomes
真核生物DNA序列类型
单一序列: 在一个基因组中只有一个拷贝,主要编码蛋
白质。 白基因。 中度重复序列:在一个基因组中有10-几百个拷贝,不编码序 列,在基因调控中起重要作用。
轻度重复序列:在一个基因组中有2-10个拷贝,如组蛋
高度重复序列:在一个基因组中有几百-几百万个拷贝,如
串联重复基因
组蛋白基因: 编码H1、H2A、H2B、H3、H4这五种蛋白的 基因彼此靠近构成一个重复单位。 rRNA 基因: 大量的 rRNA基因与蛋白质合成需要相适应。 原核生物有 5S、16S、23S三种 rRNA。真核生 物中有5.8S、18S、28S、5S四种rRNA tRNA 基因: tRNA长70-80 b, 而基因长约140 bp, 也是串 联重复排列。
基因组计划
…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA
TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCT CCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTC GCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…
推测:
许多DNA序列可能不编码蛋 白质,是没有生理功能的。
第一章基因与基因组

-35 大肠杆菌基因启动子 -10 +1
(2)终止子:
6 沉默子 (silencer)
• 作用:抑制转录 • 机制:与反式作用因子结合,对基因转 录起阻遏作用。
(三)基因的基本结构特点
• 1 原核生物的基本结构特点 • 形式:5’-启动子-结构基因-转录终止子 -3’
–功能上相关的结构基因常常串联在一起, 由一套转录调控序列控制其转录,构成操纵 子(operon)。
• 相关基因丛集,可形成多顺反子。 • 基因可连续或间断。噬菌体基因是连续 的,真核细胞病毒基因是不连续的, • 非编码区少。 • 基因组是单倍体。
第六章 基因组学、功能基因组 学、蛋白质组学(自学)
Genomics, Functional Genomics and Proteomics
第一节基因组学
(4)正调控蛋白结合位点
• 位置 弱启动子附近 • 作用 与转录激活蛋白(如代谢物基因 激活蛋白,CAP)结合,帮助RNA聚合酶 转录。
Gene Structure
Transcription
Transcription start site Translation stop site
5’(CAP)
根据出现频率将DNA序列分为三类:
高度重序列
中度重复序列
单拷贝序列
高度重复序列
重复次数为106 反向重复序列 (5%)
卫星DNA(重复序列短,2-10bp组成)
医学遗传学——人类基因

⑵超基因家族(gene superfamily)
3.假基因(pseudogene)
4.串联重复基因(tandem repetitive sequence)
1.单一基因(solitary gene):在单倍体基因组中 只有一份。
基因的修饰如DNA甲基化(DNA methylation) 和 组蛋白乙酰化也可能导致基因的活性发生 改变, 使基因决定的表型出现变化,且可传 递少数世代。通过有丝分裂 (mitosis) 或减数 分裂(meiosis)来传递 非DNA序列信息的现象 表观遗传(epigenetic inheritance)
核基因组是指人类体细胞中24条DNA的全部遗传信息
线粒体基因组=16569bp≈16.6kb
1 Mb(兆碱基对)=1000 kb(千碱基对)=1000,000 bp(碱基对)
2.1万个结构基因
3.0×109bp
37个基因 16569bp
13种与细胞 氧化磷酸化 相关多肽链
一、基因的分类(重点)
在 重 复 序 列 长散在重复元件(LINE
) long interspersed nuclear element
6000~7000bp
102~104
微卫星DNA与亲子鉴定(parentage test) 微卫星DNA即短串联重复序列 (STR,Short tandem repeats)
每个单倍体基因组有200个 rRNA基因,串联排列在5条染色体的 核仁组织者上。rRNA基因(rDNA)是染色体上伸出的DNA袢环 rRNA基因串联排列在核仁组织者上 高速转录产生rRNA组织核仁
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
断裂基因在进化中的意义: (1)通过不同的剪切方式可产生多种不同的mRNA,编码多种 不同功能的蛋白。因此有利于储存信息,增加信息量。 (2)内含子保守性差,变异性强,有利于形成新的基因。
(3)有些内含子可能在基因表达过程中有一定的调节控制作用。
II、重叠基因 (Overlapping gene)
按蛋白质的功能可分为 结构基因:基因产物是酶和其他不直接影响基因表达的蛋白质。 调节基因:通过最终产物蛋白质或RNA来控制其他基因表达的基因 按表达方式 组成型表达基因:在任何组织部位和任何发育时期都表达的基因 选择性表达基因:只在特定的组织部位或特定发育阶段表达的基因 根据拷贝数 单拷贝基因:在基因组中只有一个拷贝 多拷贝基因:在基因组中有多个拷贝
哺乳动物血红蛋白类α -珠蛋白基因家族、类β -珠蛋白基因家 族都是由功能基因和假基因形成的一个基因簇
三:基因的功能
1. 遗传信息的储存 2. 基因的复制 3. 基因的表达
3. 基因与疾病
1.多基因病(polygenic disorders):遗传疾病的发生不是由一对等位基 因决定,而是由两对或两对以上的等位基因所决定, 因此这类疾病称 为多基因病,同时疾病的形成还受环境因子的影响,也称为多因子疾病 (multi-factorial disorders)。 2.单基因遗传病(monogenic disease; Single Gene Disorder)是指由于 单个基因的突变而引起的遗传病,符合孟德尔遗传方式,所以称为孟 德尔式遗传病。 在线人类孟德尔遗传数据库(OMIM)最新统计:截止2011年2月21日, 人类单基因疾病、性状和基因座已达 20356 种,其中常染色体遗传 19094种,X连锁遗传1138种,Y连锁遗传59种,线粒体遗传65种。 3.线粒体遗传病:由线粒体DNA突变导致的疾病。
三、基因结构的多样性
I. 断裂基因
一个基因由几个不相邻的编码序列组成,编码序列之间被 非编码的序列隔开,这样的基因被称为断裂基因。 外显子(Exon): 断裂基因中的编码部分,将包含在成熟 的RNA中。内含子(Intron):断裂基因中非编码部分,在 初始转录物加工成成熟RNA时被除去。 5‘UTR E I E I E 3‘UTR
在一个基因的编码顺序内存在着另一种基因的遗传信息, 这样的基因被叫做重叠基因。 1. 重叠基因的发现: 重叠基因是1977年由英国剑桥大学Sanger在研究ΦX174时发 现的。ΦX174是一种单链DNA病毒,宿主为大肠杆菌,因此, 又是噬菌体。它感染大肠杆菌后共合成11个蛋白质分子,总 分子量为25万左右,相当于6078个核苷酸所容纳的信息量。 而该病毒DNA本身只有5375个核苷酸,最多能编码总分子量 为20万的蛋白质分子,Sanger在分析了ΦX174 DNA的全序列 之后,才了解到这11个基因原来是有重叠的。
2. 启动子 启动子(promoter)包括下列几种不同顺序,能促进转录过程:
(1)TATA框(TATA box):其一致顺序为TATAATAAT。它 在基因转录起始点上游约-25bp处,基本上由A-T碱基对组成, 是决定基因转录起始的选择,为RNA聚合酶的结合处之一, RNA聚合酶与TATA框牢固结合之后才能开始转录。
6. DNA的双螺旋结构以及复制机制的提出
1953年, 美国的Jim Watson and 英国Francis Crick 提出DNA双螺旋结构 和复制模型,这一模型后来被证明是正确的,为了解遗传信息传递机制奠 定了基础。
7. 基因精细结构的分析
1955年,Benzer用T4噬菌体做遗传分析,发现了基因的精细结构,发现基 因具有可分割性,并提出顺反子的概念。
II、重复多拷贝基因 (repetitive gene)
根据对多种生物DNA所作的详细分析表明,在真核 基因组存在有四种不同类型的DNA序列: (1) 不重复的唯一序列(只有一个拷贝); (2) 低度重复序列(<10个拷贝); (3) 中度重复序列(10到上万个拷贝); (4) 高度重复序列(几万到几百万个拷贝)。 重复基因,即在基因组中有多个拷贝的基因。在真核生物基因 组中发现这种现象,真核生物中的重复基因可以达到30%, 重复 基因主要是为了满足生物体对某种基因产物的大量需要。 例如组蛋白基因、rRNA基因和tRNA基因在基因组中一般都 是多拷贝的重复基因,他们往往成簇存在,形成基因簇(gene cluster)。
(5)原核生物只有一种RNA聚合酶, 启动子比较短(不 超过几百个bp)。真核生物有三种RNA聚合酶,启动子比 较长(上千个bp)。
II. 真核生物基因的结构
真核生物基因都由控制序列和转录序列组成,控制序列包括 启动子和增强子,转录序列包括外显子和内含子。
终止子
1.外显子和内含子 大多数真核生物的基因为不连续基因(interruptesd或 discontinuous gene)。所谓不连续基因就是基因的编码顺序在 DNA分子上是不连续的,被非编码顺序所隔开。编码的顺序称 为外显子(exon),是一个基因表达为多肽链的部分;非编码 顺序所称为内含子(intron),又称插入顺序(intervening sequence,IVS)。内含子只转录,在前mRNA(pre-mNRA)时被 剪切掉。如果一个基因有n个内含子,一般总是把基因的外显子 分隔成n+1部分。内含子的核苷酸数量可比外显子多许多倍。 人外显子平均1340bp,人内含子平均长度3.3kb,人含内含子最 多的基因有233个内含子。
至目前为止,关于基因的概念一般是这样定义的:
遗传学定义:基因是遗传的物理和功能单位。
分子生物学定义:基因是产生蛋白质或RNA所必 须的全部DNA序列。
其他定义:基因是DNA序列中能被转录为一个初始 RNA分子的区域。
第二节 基因分类
一、基因的种类
按基因的最终产物可分为 蛋白质基因:通过转录和翻译最终产物是蛋白质的基因。 大多数的基因属于此类。产生的蛋白质参与细胞构成、酶 催化、基因表达调节等。 RNA基因:通过转录最终产物是RNNA, miRNA等。这些RNA也被叫做非 编码RNA(non-coding RNA, ncRNA)。这些RNA主要参 与基因调控、染色体复制、RNA修饰加工、mRNA翻译及 稳定性、蛋白质降解等过程,近年来受到重视。
8. 基因信息的传递过程 20世纪60 年代,提出了中心法则,确定了三联体密码,提出了 操纵子学说。这些成就使得人们对遗传信息传递和基因表达调 控机制有了初步理解。
9. 基因结构的多样性以及基因的人为操纵 20世纪70年代和80年代以后,由于许多重大技术的突破,对 基因的认识又有了新的发展,发现了基因结构的多样性,例如 断裂基因、重叠基因、重复基因、转座基因等。另外,基因工 程技术的诞生,使人们可以合成基因、改造基因、测定基因、 利用基因。基因既是一种客观存在,又可以被人们主观应用, 利用基因定向改造生物变为现实。
3. 基因的三位一体概念
1910年,Morgan 的果蝇杂交实验,基因的染色体学说,基因是遗传的 基本单位,在染色体上排列。
4. 基因的化学本质是DNA
1944年,Avery 的肺炎双球菌转化实验(细菌表面光滑和粗糙的遗 传),证明了细菌的遗传物质是DNA而不是蛋白质。 Hershey-Chase experiment:噬菌体用32P标记DNA, 35S标记蛋白质, 然后侵染细菌,搅拌后离心沉淀细菌,发现32P标记与细菌共沉淀,而 35S标记与细菌分开。表明噬菌体的DNA进入细菌,DNA是遗传物质。
5. 对基因功能的了解,基因型如何决定表现型
1941年,斯坦福大学George Beadle的真菌突变体的营养缺陷型实验。 诱发突变,检测维生素缺陷型,用遗传学方法证明突变株是在基因位点
发生了突变,用生物化学方法证明了突变株某个代谢步骤发生了故障,
从而提出:基因是通过它的产物,即具有催化功能的酶,来决定生物的 性状。由此,“一个基因,一个酶”的理论诞生。
基因多为不连续的,被插入序列(IS)所分隔,这种现象称为 断裂基因(split gene) 断裂基因由内含子(intron)(非编码序列)和外显子 (exon)(编码序列)交替组成。 内含子和外显子在编码不同蛋白的时可转换角色 除少数蛋白(a,ß -interferon和组蛋白)外几乎所有基因都 有内含子。
rRNA基因簇的转录产生了一系列小基质块,每个小基质 块对应一个转录单位,它们和后面的基质块通过非转录区 隔开。
III、假基因( pseudo-gene )
假基因(pseudo-gene)最初由Jacq等人提出。他们在非洲爪蟾 DNA中克隆了一个5SrRNA相关基因,比较其功能基因后发现, 这个基因的5’端有16bp的缺失以及另外14bp的错配,就将这个 截短的5SrRNA的同源物描述为假基因。随着大量不同家族的假 基因的发现,假基因就被明确限定为具有与功能基因相似的序列, 但不翻译为功能蛋白质(或RNA)的基因片段。
3.增强子 在真核基因转录起始点的上游或下游,一般都有增强子 (enhancer),它不能启动一个基因的转录,但有增强转录的作 用。此外,增强子顺序可与特异性细胞因子结合而促进转录的 进行。研究表明,增强子的作用通常有组织特异性,这是因为 不同细胞有不同的特异因子与增强子结合,从而使基因表达表 现出组织细胞特异性、发育阶段特异性、环境特异性。
二、编码基因的一般结构、功能 I. 原核生物基因的特点
(1)多以操纵子形式存在(生物学功能相近的基因聚在一 起,受一个启动子和调控元件的控制)。真核生物中一般没 有这种基因聚集现象。 (2)操纵子调控多是通过抑制子的负调控,诱导子的作用 可以解除抑制。真核生物基因调控要复杂的多,并以正调控 为主。 (3)原核生物基因多数是多顺反子结构,真核生物基因绝 大多数是单顺反子。 (4)原核生物基因转录与翻译同时进行,没有5‘帽子,没 有3’polyA, 没有内含子。而这三个结构在真核生物基因普 遍存在。