8、生物信息学基因组和基因预测

合集下载

生物信息学中的基因组分析方法

生物信息学中的基因组分析方法生物信息学是一门研究生物学数据以及利用计算机科学和统计学方法来解析生物学问题的学科。

在现代生物学研究中，基因组的分析是非常重要的一环。

基因组是指生物体内存储遗传信息的全部基因、非编码序列和其他调控元件的总和。

基因组的分析方法可以帮助我们理解生物体内基因的结构、功能以及调控机制。

在生物信息学的研究中，有一些经典的基因组分析方法被广泛应用于科研和医学领域。

其中一个重要的方法是基因预测。

基因预测是指通过生物信息学方法来识别DNA序列中的基因位置和结构。

基因预测方法可以归纳为两种主要类型：比较基因组学和基于统计模型的方法。

比较基因组学是一种通过比较不同物种的基因组序列来识别基因的方法。

这种方法基于假设，即功能相似的序列在不同物种间是保守的。

通过比较多个物种基因组序列中的保守区域，可以确定可能的基因位置。

此外，还可以使用基于蛋白质编码区域的序列片段来识别基因的编码区域。

比较基因组学方法对于分析物种间的进化关系和演化过程有着重要意义。

另一种基因预测方法是基于统计模型的方法。

这种方法基于已知的基因序列和氨基酸序列间的相关性，构建统计模型来判断新的序列是否为基因。

其中一个常用的统计模型是隐马尔可夫模型（HMM）。

隐马尔可夫模型将基因作为隐藏的随机变量，根据统计学概率推断出序列中的基因位置和结构。

除了基因预测，基因组分析还包括了很多其他方法。

其中一个重要的方法是基因表达分析。

基因表达分析研究的是基因在不同条件下的表达水平和模式。

这种分析主要依赖于转录组数据，即基因在特定时期或条件下转录产生的RNA序列。

通过对转录组数据的分析，可以了解到基因调控的机制，以及基因在不同生理过程中的作用。

此外，还有一些其他的基因组分析方法，如基因功能注释、基因调控网络分析等。

基因功能注释是指将基因与已知的功能信息进行关联，从而推断出基因的功能。

这种方法可以帮助我们了解基因在细胞过程中的作用。

基因调控网络分析则是研究基因之间的相互作用关系，以及基因调控网络在不同生理过程中的变化。

生物信息学中的基因组结构与功能预测

生物信息学中的基因组结构与功能预测第一章：基因组结构的概念与研究方法（200字）基因组是指生物体中的全部遗传信息的总和，包括基因序列、非编码DNA序列以及调控元件等。

研究基因组结构的目的是理解基因组的组织方式和基因之间的相互关系，以便深入探究基因功能的机制。

基因组结构与功能预测是生物信息学领域的重要研究课题，涉及到多种研究方法和技术。

第二章：基因组序列的特征与分析方法（400字）基因组序列是指一个生物体的全部DNA序列，它包含了基因以及其他非编码的DNA序列。

基因组序列的特征与分析方法是研究基因组结构的基础。

通过分析基因组序列，可以识别基因、预测基因的结构和功能，揭示基因组中的重要调控元件等。

基因识别是通过计算机算法和统计学方法来识别基因序列的起始位点和终止位点。

常用的基因识别方法包括基于序列比对的方法、基于统计模型的方法和基于机器学习的方法等。

此外，通过分析基因组序列的保守性、剪接位点和调控序列等特征，还可以预测基因的剪接事件和调控机制。

第三章：蛋白质编码基因的结构和功能预测（400字）蛋白质编码基因是基因组中的一类特殊基因，其编码产物是蛋白质。

对于蛋白质编码基因的结构和功能预测是生物信息学中的重要任务之一。

基因结构预测可以通过比对序列数据库、分析保守性和寻找编码框架等方法来实现。

功能预测则是通过比对已知蛋白质数据库、分析蛋白质结构、进行功能域和结构域的预测等来实现。

基于序列比对的方法和结构预测算法是较为常用的方法。

其中，比对方法可以通过相似性比对算法（如BLAST、Smith-Waterman算法）来进行。

蛋白质功能预测则可以通过预测功能域、分析结构、比对已知功能蛋白质等方法来实现。

第四章：非编码DNA的结构和功能研究（400字）非编码DNA是指基因组中不具有编码蛋白质的DNA序列。

尽管不编码蛋白质，但非编码DNA在调控基因表达、维持基因组稳定性等方面发挥着重要的功能。

对非编码DNA的结构和功能进行研究，可以深入理解生物体的基因组以及调控机制。

生物信息学研究的基因功能预测

生物信息学研究的基因功能预测引言：生物信息学是一门综合性学科，它将计算机科学、统计学、数学和生物学等多个学科的知识融合在一起，以解决生物数据的分析和解释问题。

在生物信息学中，基因功能预测是一个重要的研究方向。

基因功能预测的目标是根据基因序列和相关的生物学信息，推断出基因可能的功能和作用。

本文将探讨基因功能预测的方法和应用。

一、基因功能预测的方法1. 基于序列相似性的方法基因功能预测的最早方法之一是基于序列相似性的方法。

这种方法通过比较待预测基因与已知功能基因的序列相似性，来推断待预测基因的功能。

常用的序列相似性比较算法包括BLAST和Smith-Waterman算法。

然而，由于基因序列的多样性和功能的复杂性，仅仅依靠序列相似性进行功能预测存在一定的局限性。

2. 基于基因组学的方法随着基因组学的发展，基于基因组学的方法在基因功能预测中得到了广泛应用。

这种方法通过分析基因组中的共线基因、基因簇和基因家族等信息，来推断基因的功能。

例如，如果一个基因位于某个基因簇中，而该基因簇已经被鉴定为特定功能的基因簇，那么可以推断该基因可能具有相似的功能。

3. 基于蛋白质互作网络的方法蛋白质互作网络是生物体内蛋白质之间相互作用的网络。

基于蛋白质互作网络的方法利用蛋白质之间的相互作用关系，来推断基因的功能。

例如，如果一个基因编码的蛋白质与已知功能蛋白质之间存在相互作用关系，那么可以推断该基因可能具有相似的功能。

二、基因功能预测的应用1. 新基因功能的发现基因功能预测可以帮助科研人员发现新基因的功能。

在基因组测序的过程中，会发现大量的未知基因，这些基因的功能还不清楚。

通过基因功能预测的方法，可以对这些未知基因进行功能预测，从而帮助科研人员进一步研究这些基因的功能和作用。

2. 疾病基因的鉴定基因功能预测还可以用于鉴定与疾病相关的基因。

通过比较患者和正常人的基因组数据，可以找到与疾病相关的基因。

然后，通过基因功能预测的方法，可以推断这些与疾病相关的基因的功能，从而帮助科研人员进一步研究这些基因与疾病之间的关系。

生物信息学中的序列分析与基因预测研究

生物信息学中的序列分析与基因预测研究序列分析和基因预测是生物信息学领域中一项重要的研究内容。

通过对生物序列的分析，科学家们可以探索生物体的遗传信息以及蛋白质的结构和功能，为生物学的研究和应用提供重要的基础。

在生物信息学中，序列分析包括了对DNA、RNA以及蛋白质序列的研究和解读。

而基因预测是从这些序列中识别出可能的基因序列，并推测它们的结构和功能。

序列分析的第一步是序列比对。

比对可以将一个未知序列与已知序列进行比较，以寻找相似之处并推测其功能。

最常见的序列比对方法是基于两个序列的相似性来进行比较。

基于相似性的比对方法有全局比对和局部比对。

全局比对可用于推测相似的序列部分和整体结构，而局部比对则强调序列中的相似区域。

在序列比对的基础上，可以进行序列聚类和分类。

聚类是将相似序列进行分组，以便更好地理解它们之间的关系。

分类是将序列分为不同的类别，例如根据物种、功能或结构特征。

基因预测是序列分析的核心内容之一。

它主要通过检测基因的编码区域、剪接位点和启动子等特征来预测基因的存在和功能。

基因预测可以使用多种方法，例如基于统计模型的方法和基于机器学习的方法。

其中基于统计模型的方法包括启动子识别、开放阅读框检测和剪接位点预测等。

在基因预测的过程中，遗传密码是非常重要的知识。

遗传密码规定了DNA序列如何被转录成RNA序列，并进一步被翻译成蛋白质序列。

了解遗传密码的规律，可以帮助科学家更准确地预测基因序列中的编码区域并推测蛋白质的氨基酸序列。

除了基因预测，序列分析还可以用于预测蛋白质的结构和功能。

通过分析蛋白质序列的保守区域和结构域，科学家可以推测出蛋白质的结构和功能信息。

这对于药物设计和生物工程等领域具有重要意义。

近年来，随着高通量测序技术的发展，生物序列数据的量急剧增加。

如何有效地处理大规模的序列数据成为了一个挑战。

在这方面，序列分析和基因预测的算法和软件的研发也变得愈发重要。

目前常用的序列分析软件包括NCBI工具箱、EMBOSS和BLAST等。

生物信息学中的基因序列分析与预测

生物信息学中的基因序列分析与预测生物信息学是一门综合学科，它将计算机科学、数学和统计学等技术应用于生物学领域。

基因序列分析与预测是生物信息学中的重要研究领域之一，它涉及到对基因序列的分析、注释和预测。

基因序列是生物体内以DNA或RNA形式存在的遗传信息。

通过对基因序列的分析，我们可以了解基因的功能和结构，进而深入研究生物体的生理过程和疾病发生机理。

基因序列的注释则是对基因序列进行功能和结构的解读和标记，在基因组学研究和生物学研究中起到关键作用。

基因序列的预测是通过生物信息学技术对未知基因序列进行功能和结构的预测。

在基因组学研究中，大量基因序列还没有被准确注释，因此基因序列的预测对于深入研究生物体的特征和功能非常重要。

基因序列预测可以通过多种算法和技术来实现，其中最常用的方法包括序列比对、开放阅读框（ORF）预测、蛋白质结构预测等。

序列比对是基因序列分析的基本方法之一，它通过比较待分析序列与已知序列数据库中的序列进行比较，从而找到相似的区域和序列特征。

根据比对结果，可以判断待分析序列与已知序列的亲缘关系、功能和结构等信息。

开放阅读框（ORF）预测是对基因序列中的蛋白编码区域进行预测。

开放阅读框是指在核苷酸序列中没有起始密码子和终止密码子的连续核苷酸序列。

通过使用启动子预测算法和终止密码子识别算法，可以准确地预测基因序列中的开放阅读框，进而推断蛋白编码区域的位置和功能。

蛋白质结构预测是预测待分析基因序列所编码的蛋白质的三维结构。

蛋白质的结构对于其功能和相互作用非常关键，因此准确地预测蛋白质结构对于研究蛋白质的功能和疾病发生机制具有重要意义。

蛋白质结构预测方法主要分为比较模型和折叠模型两种，通过比对已知结构的同源蛋白质，或者通过物理化学规则和算法，可以预测待分析蛋白质的结构。

在生物信息学中，基因序列分析与预测常常是多领域合作的结果，涉及到计算机科学、生物学、数学和统计学等多学科的知识与技术的融合。

随着高通量测序技术的不断发展，我们可以获取到大量的基因序列数据，这为基因序列分析与预测提供了更多的机会和挑战。

课件第8讲基因预测方法

1、原核生物基因组一般比真核生物基因组小得多; E. coli的基因组(4.6Mb)约为酵母基因
组(12.1Mb)的2/5
2、绝大部分原核生物基因组由一个单一的环状DNA分子组成； 3、原核生物的基因通常比真核生物的少；
E. coli：4000多个基因，人：~30000个
4、原核生物的基因绝大多数是连续基因，不含间隔的内含子；基因组结构紧密，重复序列远少于真核生物的基因组。
著名原核基因预测软件
1、GeneMark系列软件（包括最新版本GeneMarkS）
Borodovsky等，1993~2001
——Borodovsky, M. and McIninch. J. (1993) GENMARK: parallel gene recognition for both DNA strands. Comput. Chem., 17, 123-134. ——Besemer, J., Lomsadze, A. and Borodovsky, M. (2001) GeneMarkS: a self-training method for prediction of gene starts in microbial genomes genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Res., 29: 2607-2618.
二、原核生物基因组中的基因预测
• 原核基因预测概述 • 预测算法举例：MED原核基因预测方法 • 预测性能的评价
• ForCon：核酸与氨基酸不同序列格式之间的转换
3
2011/11/21
（一）原核基因预测概述

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科.它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2、数据库(Database）是按照数据结构来组织、存储和管理数据的仓库，它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

数据库有很多种类型，从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

3、表达序列标签从一个随机选择的cDNA 克隆进行5'端和3’端单一次测序获得的短的cDNA 部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。

EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库，因此EST也能说明该组织中各基因的表达水平。

4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列，可编码相应的蛋白.ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。

ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列，并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构，也叫初级结构或基本结构。

蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础.6、基因识别是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

生物信息学在基因组学研究中的应用

生物信息学在基因组学研究中的应用随着高通量测序技术的快速发展，基因组学研究已成为现代生物学领域的关键。

生物信息学的发展和广泛应用，为基因组学的研究提供了强大的支持和推动。

生物信息学通过整合、存储、分析和解释海量的基因组数据，提供了深入探索基因组功能、结构和进化的方法和工具。

下面将从基因组测序、基因组注释、基因表达谱和基因组功能预测四个方面介绍生物信息学在基因组学研究中的应用。

基因组测序是基因组学研究的基础。

生物信息学在测序技术中的应用主要包括测序质量控制、序列比对和变异鉴定。

测序质量控制是通过生物信息学方法对产生的测序数据进行质量过滤和修剪，删除低质量的序列，提高数据质量。

序列比对是将测序数据与已有的参考基因组进行比对，确定序列的来源和位置。

变异鉴定是通过比对结果，识别出患者或物种个体与参考基因组的差异，发现并分析其与表型相关的位点，从而揭示个体或物种的遗传变异信息。

基因组注释是对基因组进行功能解析和标注的过程。

生物信息学在基因组注释中的应用主要包括基因预测、基因结构注释和功能注释。

基因预测是通过生物信息学工具和算法预测基因组中的基因编码区域，并对其进行注释。

基因结构注释是对基因的外显子、内含子、启动子、终止子等结构特征进行注释，确定基因的结构。

功能注释是通过比对基因序列与已知基因数据和功能数据库，对基因的功能进行注释，包括基因的功能分类、蛋白质结构域和功能模体等的预测。

基因表达谱是研究基因在不同组织、不同时期以及不同环境条件下的表达水平和模式的方法。

生物信息学在基因表达谱研究中的应用主要包括RNA测序数据的处理与分析、差异表达基因的筛选与注释、基因调控网络的构建和功能模块的识别。

通过生物信息学方法，可以对大量的RNA测序数据进行数据清洗、表达水平计算、差异表达分析等，揭示基因在不同条件下的表达变化和调控机制。

基因组功能预测是基因组学研究中的一个重要方向。

生物信息学在基因组功能预测中的应用主要包括蛋白质功能预测和非编码RNA功能预测。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

18
C value paradox of nucleotide
显花植物鸟类哺乳类爬行类
两栖类
硬骨鱼类软骨鱼类棘皮类甲壳类昆虫类软体动物
蠕虫类霉菌
藻类真菌 G+细菌 G-细菌支原体
A 生物体进化程度与大 C值不成明显正相关
B 亲缘关系相近的生物间大C值相差较大
C 一种生物内大C值与小c值相差极大
最小C值 (Minimum c value)
The total amount of DNA for encoding the genes information is termed its Minimum c value （编码基因信息的总DNA含量）
基因组的大小和C值矛盾
某生物单倍体的DNA总量称C值，C值与生物的进化程度不完全对应。
分散的重复顺序
(40%)
长分散顺序(LINEs)
卫星 DNA(长 100～5000kb)
成簇的重复顺序小卫星 DNA(长 100bp～20kb,VNTRs)
(60%)
微卫星 DNA(4bp,CA 重复)
图 10－37（b）人类基因组的序列
2、细菌基因组及其特点
a.细菌的“染色体”通常有一个环状或线型DNA分子组成，只有一个复制起点。不少细菌含有若干个小的环状DNA，被称作质粒(plasmid)。有些质粒可以从一个细菌转移到另一个细菌，不少经过改造的质粒在基因工程中被用作基因转移的载体。
病毒基因组大小相差较大，与细菌或真核细胞相比，病毒的基因组很小
病毒基因组可以由DNA组成，也可以由RNA组成多数RNA病毒的基因组是由连续的核糖核酸链组成基因重叠即同一段DNA片段能够编码两种甚至三种蛋白质分子病毒基因组的大部分是用来编码蛋白质的病毒基因组DNA序列中功能上相关的蛋白质的基因或rRNA的基因往
12000 35000
25000
11.3kb 16.3kb
二、典型生物的基因组特征
1、真核生物基因的特点
• 真核生物基因组DNA与蛋白质结合形成染色体，储存于细胞核内，除配子细胞外，体细胞内的基因的基因组是双份的（即双倍体，diploid），即有两份同源的基因组。
• 真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。
E.coli含有的各种DNA结合蛋白
蛋白结构
功能
含量/每细相当于核基因
胞
蛋白
HU
α 和 β 亚使DNA压缩、类核 4万个二聚 H2B
hup
基，每个 9KD
凝聚，刺激复制，和1HF有关
体
A.B
H
两个相同促使双链的互补、 3万个二聚 H2A
？
亚基，各 28KD
复性
（Euk. 人体 c = C/10） ( Prok. Φx174 c ＞C )
某些生物的基因组数据
物种基因组大小基因数目基因长度
ΦX174 λ噬菌体大肠杆菌
0.7kb 45Kb 4.2Mb
10 100 4200
1.2kb
酿酒酵母 13.5Mb
6300
1.4kb
果蝇 14 Mb
人
3.3Gb
拟南芥 70Gb
DNA from a lysed E. coli cell. In this electron micrograph several small, circular plasmid DNAs are indicated by white arrows. The black spots and white specks are artifacts of the preparation.
Theory of the gene (1926 T. H. Morgan)
• 基因是染色体上的实体
• 基因像链珠(bead)一样，孤立地呈线状地排列在染色体上 • 基因是：
功能(functional unit) 突变(mutation unit) 交换(cross-over unit)
“三位一体”的 (Three in one)
基因组的大小：C值
C值通常指一种生物单倍体基因组DNA的总量。
最大C值 (Maximum C value) The total amount of DNA in the genome of haploid is a characteristic of each living species known as its Maximum C value (单倍体基因组总DNA 的含量)
病毒是最简单的生物形式，完整的病毒颗粒包括外壳蛋白和内部的基因组DNA或RNA（有些病毒的外壳蛋白外面有一层由宿主细胞构成的被膜（envelope），被膜内含有病毒基因编码的糖蛋白。）病毒不能独立地复制，必需进入宿主细胞中借助细胞内的一些酶类和细胞器才能使病毒得以复制。外壳蛋白（或被膜）的功能是识别和侵袭特定的宿主细胞并保护病毒基因组不受核酸酶的破坏。
基因重叠示意图
乙肝病毒的基因组
1978 Gilbert 真核生物基因的新概念
（2）内含子和外显子
人们在研究小鸡卵清蛋白基因时发现其转录形成的mRNA只有该基因长度的1/4，其原因是基因中一些间隔序列的转录物在RNA成熟过程中被切除了这些间隔序列叫内含子，基因中另一些被转录形成RNA的序列叫外显子。小鸡的卵清蛋白基因中至少含7个内含子。因而从基因转录效果看，基因由外显子和内含子构成。
组织特异性基因 tissue-specific gene 特定类型细胞中为其执行特定功能蛋白质编码的基因
（4）基因的游动性早在20世纪40年代美国遗传学家麦克林托克（B.McClintock）在玉米研究中发现“转座因子”，直至1980年夏皮罗（J.Shapiro）等人证实了可移位的遗传基因存在，说明某些基因具有游动性。为此，这位“玉米夫人”荣获了1983年度诺贝尔奖
• 基因是DNA分子中含有特定遗传信息的一段核苷酸序列，是遗传物质的最小功能单位
• 对于编码蛋白质的结构基因来说，基因是决定一条多肽链的DNA片段
基因的由来
孟德尔（Gregor Johann Mendel 1822～1884），
《植物杂交试验》一文中指出，生物每一个性状都是通过遗传因子来传递的，遗传因子是一些独立的遗传单位
• 存在重复序列，重复次数可达百万次以上。 • 基因组中不编码的区域多于编码区域。
• 大部分基因含有内含子，因此，基因是不连续的。
• 基因组远远大于原核生物的基因组，具有许多复制起点，而每个复制子的长度较小。
非编码顺序
基因和 ( > 90%)
基因相
关顺序编码顺序
(20－30％) (< 10%)
生物信息学第6讲基因组学与基因预测
课堂内容
一、基因、基因组的概念二、典型生物的基因组特征三、人类基因组计划四、核酸测序技术五、基因组测序六、基因转录组测序七、基因的功能和预测
一、基因、基因组的概念
1、基因的概念
• 基因是原核、真核生物以及病毒的DNA和RNA分子中具有遗传效应的核苷酸序列，是遗传的基本单位。
c) 某些转座因子（Tn3）对同类转座因子的插入具有排他性（免疫性）
d) 靶序列在转座因子两侧会形成正向重复(DR) e) 转座因子的切除与转座将产生复杂的遗传学效应
2、基因组的概念
基因组：细胞内遗传信息的携带者DNA的总体
• 基因组中不同的区域具有不同的功能 • 有些区域编码蛋白质的结构基因 • 有些区域是复制及转录的调控序列 • 有些区域的功能尚不清楚
Hale Waihona Puke DNA转座现象的一般遗传特点：
a) 不依赖 Donor site 与 Target site 间序列的同源性 (非同源重组过程，不依赖 recA 酶)
b) 转座插入的靶位点并非完全随机（插入专一型） Hotspots (热点) Regional preference ( 在3kb区域内的随机插入)
①从细胞遗传学的角度来看，基因组是指一个生物物种单倍体的所有染色体数目的总和； ②从经典遗传学的角度来看，基因组是一个生物物种的所有基因的总和； ③从分子遗传学的角度来看，基因组是一个生物物种所有的不同核酸分子的总和； ④从现代生物学的角度来看，基因组是指导一个生物物种的结构和功能的所有遗传信息的总和，包括全部的基因和调控元件等核酸分子。
Exon（外显子）is any segment of an interrupted gene that is represented in the mature RNA product. Intron（内含子）is a segment of DNA that is transcribed, but removed from within the transcript by splicing together the sequences (exons) on either side of it.
往丛集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。
除了反转录病毒以外，一切病毒基因组都是单倍体，每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。
噬菌体（细胞病毒）的基因是连续的；而真核细胞病毒的基因是不连续的
三、人类基因组计划
人类基因组计划的启动 1986 年诺贝尔奖获得者
Ovalbumin DNA X cDNA
Electro-microscope
7 introns 8 exons
（3）管家基因和奢侈基因管家基因 house-keeping gene
生物体各类细胞中都表达，对维持细胞存活和生长所必需的蛋白质编码的基因。如糖酵解和柠檬酸循环所需酶的编码基因等奢侈基因 luxury gene