第三章3 核酸序列的基本分析 (2010)
核酸序列特征分析

核酸序列特征分析核酸序列特征分析是一种利用bioinformatics工具技术来探究生物体基因组DNA/RNA序列中的特征信息,以及基因组DNA/RNA序列之间存在的关联性。
核酸序列特征分析在生物医学研究中具有重要的应用价值。
一、核酸序列特征分析的背景1、DNA是生物体基因组的主要构成元素,有着极重要的意义。
DNA的构成分子是DNA的主要单位,其中含有许多信息。
包括基因的信息、细胞生物学过程的信息、发育过程的信息、衰老过程的信息等。
核酸序列特征分析就是基于这些信息,利用相关方法把DNA序列转化为特殊符号,进而探究基因组中DNA序列的特征信息及其与基因组DNA序列之间的关联性。
2、研究表明,基因组DNA/RNA序列中存在着丰富的特征信息,其中包括基因的结构信息、功能信息以及遗传物质的表达信息等。
此外,基因组DNA/RNA序列之间也存在着一定的关联性,比如伴随关系、控制关系等。
对这些特征信息和序列间关联性的深入研究和分析,可以为解决相关生物学问题提供有力的支持。
二、核酸序列特征分析的方法核酸序列特征分析包括DNA特征分析、RNA特征分析和DNA-RNA 互作特征分析三大类。
其中,DNA特征分析是探究基因组DNA序列中的特征信息,主要包括序列密度分析、保守区域检测、单碱基构象分析、内含子检测、集合核苷酸模式挖掘和保守元件的检测等。
而RNA特征分析是探究基因组RNA序列特征信息,主要包括序列特征分析、microRNA检测、可变剪接位点预测、次级结构模式挖掘等。
最后,DNA-RNA互作特征分析是以DNA序列为基础探究DNA和RNA序列之间的相互关联性,主要包括DNA-RNA互作互作特性检测、DNA和RNA序列的共鉴定等。
三、核酸序列特征分析的应用在生物医学研究中,核酸序列特征分析可以为研究基因组中基因的信息、发育过程、衰老过程和药物等相关生物医学问题提供有力的支持。
比如,利用核酸序列特征分析,可以进行miRNA-病毒序列特征鉴定、慢病毒检测等;可以进行病毒的毒性预测,探究病毒引发疾病的发生机制;可以预测蛋白质的功能,指导新药的研发;可以检测抗药性基因等。
生物信息学核酸序列的一般分析和结构分析

顺式调控元件: 启动子、增强子、沉默子
关于生物复杂性:
生物的复杂性不仅仅是基因的数目 人类基因约为30000个 线虫有20000个基因
230000/220000=210000≌103000
酵母基因组两联核苷酸频率表
对酵母基因组两 联核苷酸的统计 结果
其中核苷酸对出 现频率最高的达 到0.119
而出现频率最低 的只有0.028
三联核苷酸——基因密码子:
• 在进行编码区域识别时,常常需要对三联 核苷酸进行统计分析,这实际上是分析密 码子的使用偏性。
– 由于密码子的简并性(degeneracy),每个氨 基酸至少对应1种密码子,最多有6种对应的密 码子。
• 这三种阅读顺序称为阅读框(reading frames)
基因可变剪切示意图
基因可变剪切示意图
gene A
序列翻译、ORF查找
1. Generunner http:// 2. 在线的ORF finder http://
Generunner
功能: 序列编辑与类似序列查找、建立自己
的序列数据库进行查找、序列比较、序列 翻译、蛋白序列分析等,还包括DNA分析 常用到的一些功能,如碱基百分组成、分 子量计算等。
– 发现功能位点特征 – 识别功能位点
四、序列翻译、ORF查找
对于一条新的核酸序列,除了对数据库进行 类似性检索和同源性比较外,还有许多其他分析 内容。例如:计算DNA的碱基组成、检索内部重复 序列、检索DNA的特殊位点或信号、开放读框的查 找、鉴定DNA的编码区和翻译基因序列等。
核酸的序列测定

核酸的序列测定
DNA序列是指携带遗传信息的DNA分子中的A、C、G、T的序列。
分析方法主要有两种,一种是Maxam-Gilbert化学法,另一种是Sanger的双脱氧法。
现在一般都采用后者,其基本原理是:
1.用凝胶电泳分离待测的DNA片段(用作模板)。
2.将模板、引物、4种dNTP、合适的聚合酶置于4个试管,每一试管按精确比例各加入一种ddNTP,用同位素或荧光物质标记。
3.利用ddNTP可特异地终止DNA链延长的特点,4个试管的聚合反应可以得到一系列大小不等、被标记的片段。
4.将4个反应管同时加到聚丙烯凝胶上电泳,标记片段按大小分离,放射自显影后可按谱型读出DNA序列。
在以上两种方法的基础上,通过与计算机技术和荧光技术的结合,发明了自动测序仪。
目前,常用的测序策略是“鸟枪法”,形象地说是将较长的基因片段打断,构建一系列的随机亚克隆,然后测定每个亚克隆的序列,用计算机分析以发现重叠区域,最终对大片段的DNA定序。
1。
核酸序列的一般分析

• 而真实基因组的核苷酸分布则是非均匀的
核苷酸 A C G T
频率 0.3248693727808 0.1751306272192 0.1751306272192 0.3248693727808
酵母基因组核苷酸出现频率
• 在统计过程中,如果同时计算DNA的正反 两条链,则根据碱基配对原则,A和T、C 和G的出现频率相同。 • 如果仅统计一条链,则虽然A和T、C和G的 A T C G 出现频率不同,但是非常接近。
• 对于任何给定的核酸序列(单链DNA或 mRNA),根据密码子的起始位置,可 以按照三种方式进行阅读。 • 例如,序列ATTCGATCGCAA (1) ATTCGA TCGCAA (2) ATTCGAT CGCAA (3) AT TCGATCGCAA • 这三种阅读顺序称为阅读框(reading frames)
基因表达调控信息隐藏在基因的上游区域,在组 成上具有一定的特征,可以通过序列分析识别这 些特征。
1. DNA序列分析步骤 序列分析步骤
• 在DNA序列中,除了基因之外,还包含许多其它 信息,这些信息大部分与核酸的结构特征相关联, 通常决定了DNA与蛋白质或者DNA与RNA的相互 作用。 • 存放这些信息的DNA片段称为功能位点 – 如 启 动 子 ( Promoter ) 、 基 因 终 止 序 列 (Terminator sequence)、剪切位点(Splice site)等。
– 通过对密码子的聚类分析,可以很清晰地将具有不同 三级结构蛋白质的编码基因分成不同的类,而具有相 似三级结构蛋白的编码基因则大致聚在同一类中,从 而证明基因密码子的使用偏性与蛋白质三级结构具有 密切的相关性。
• 在不同物种中,类型相同的基因具有相近的同义 密码子使用偏性
第三章序列特征分析

POLYAH在线页面
ห้องสมุดไป่ตู้
用POLYAH预测AC002390序列的转录终止信号的结果
四、启动子—promoters
启动子是基因的一个组成部分,是位于结构基因5'端 上游区的DNA序列,控制基因表达(转录)的起始时间和 表达的程度。启动子本身并不控制基因活动,而是通过与 称为转录因子的蛋白质结合而控制基因活动的。转录因子 就像一面“旗子”,指挥RNA聚合酶的活动。如果基因的 启动子部分发生突变,则会导致基因表达的调节障碍。这 种突变常见于恶性肿瘤。
分析DNA序列,除了进行序列比对之外,更重要的工作 是从序列中找到基因及其表达调控信息。寻找基因的工作有 两个:一是识别与基因相关的特殊序列信号,如启动子、起 始密码子,通过信号识别大致确定基因所在的区域;二是预 测基因的编码区域,或预测外显子所在的区域。在此基础上, 结合两个方面的结果确定基因的位置和结构。绝大部分基因 表达调控信息隐藏在基因序列的上游区域,在组成上具有一 定的特征,可以通过序列分析识别这些特征。
利用PromoterScan预测分析启动子区域
BioInformatics and Molecular Analysis Section 网站的PromoterScan软件是预测分析启动子区域的 在线工具。
其网址为: /molbio/proscan/
PromoterScan在线网页
原核生物基因结构:
一个完整的原核基因结构是从基因的5'端启动子区域开 始,到3'端终止区域结束。基因的转录开始位置由转录起始 位点确定,转录过程直至遇到转录终止位点结束,转录的内 容包括5'端非翻译区、开放阅读框及3'端非翻译区。基因翻 译的准确起止位置由起始密码子和终止密码子决定,翻译的 对象即为介于这两者之间的开放阅读框ORF。
核酸序列特征分析

核酸序列特征分析核酸序列特征分析是生物信息学研究中重要的一个方面。
它可以帮助我们更深入地理解基因组及基因表达研究。
本文旨在介绍核酸序列特征分析,其中包括核酸序列分析、核酸序列特征抽取和质粒抽取等内容。
首先,介绍核酸序列分析,其中包括特征分类、序列特征检测、序列分类和序列比对等。
核酸特征分类是将核酸序列分为有用的和无用的,从而排除噪声。
核酸序列特征检测包括对不同类型的基因、基因组表达、基因功能和结构等特征的检测,以及比较不同物种序列或不同基因组结构的检测。
核酸序列分类是用特征抽取技术分析序列长度,以确定序列的分类及特征。
序列比对是比较两个或多个序列的相似性,以发现可能的相似性或共同特征。
其次,介绍核酸序列特征抽取。
它分为特征抽取和质粒抽取两大类。
特征抽取的主要目的是抽取出序列的非特定特征,比如k-mer特征,基于序列单位的反向字典学习(RLD)等方法。
质粒抽取的目的是抽取出序列以及其表达周围的特定特征,比如突变、位点突变、基因连接等。
特征抽取是对序列的概括,抽取出重要的特征,而质粒抽取是对序列表达的概括,可以捕捉到序列的精细结构信息。
最后,介绍核酸序列特征分析的一些应用。
一方面,核酸序列特征分析可以用于揭示基因组结构和功能特征。
例如,可以利用序列比对技术对不同物种序列进行对比,揭示出不同物种的关键基因。
另一方面,核酸序列特征分析也可以用于揭示表达调控机制。
例如,可以用特征分类和序列特征抽取技术,结合表达评价结果,探索基因表达调控的内在机制。
综上所述,核酸序列特征分析是生物信息学研究中重要的一个方面。
它可以用来探索基因组结构和功能特征,揭示表达调控机制,改进基因调控机制,为临床实验提供分析指导,并帮助我们更加深入地了解基因组研究和基因表达研究。
因此,核酸序列特征分析的研究将给生物信息学领域带来许多新的机会。
生物化学与分子生物学进展:核酸序列分析

物的平均长度可通过标记 反应中dNTP浓度(高浓度 能得到长的产物)或终止反 应的ddNTP:dNTP来调整。
Sanger第二步:荧光检测
Gel Electrophoresis
DNA Fragment Size Determination
• DNA 带负电
• DNA在电泳胶中的迁移率
光染料中的 1种标记(每种荧光 染料被激光照射时可发出特定波 长的光)。
• ddNTPs 是反应终止剂
可以当作正常碱基参与复制,一旦掺 入DNA中,其后就不能再继续连 接。
• 反应体系中dNTPs的浓度远高于
ddNTPs。
ddNTPs参与下的DNA复制
1. Sanger法测序产物的平均
链长取决于ddNTP: dNTP的比例,比例高时, 得到较短的产物;
2. 所有标记的DNA片段混合物经过电泳分离大小不同的片段,并对这四 种标记的片段进行扫描。然后通过某一程序判断条码的顺序并预测序 列。
Sanger双脱氧链终止法
5’末端
磷酸二酯键 3’末端
ddNTP
脱氧核苷酸 与 双脱氧核苷酸 结构比较
少一个-OH
*
DNA链末端合成终止法 – Sanger 法 四种 2’-脱氧核苷酸(dNTP) 四种2’,3’-双脱氧核苷酸(ddNTP)
➢ 另外一种方法是对所有相互重叠的亚克隆进行测序,然后直 接通过计算机程序根据其重叠部分进行“拼装”。
大规模基因组测序的两种 策略
• 逐步克隆法
(Clone by Clone)
• 全基因组霰弹法
(Whole Genome Shot-gun)
逐步克隆法(Clone by Clone)
核酸和蛋白质序列分析

核酸和蛋白质序列分析在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。
通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。
通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。
通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。
尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。
此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。
上述技术路线可为其它类似分子的生物信息学分析提供借鉴。
本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(htt p://gene.b .cn/science/b ioinfomati cs.htm),可以直接点击进入检索网站。
下面介绍其中一些基本分析。
值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是m RNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。
(一)核酸序列分析1、双序列比对(pai rwise alig nment)双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以N eedleman-W unsch算法和Sm ith-Waterm an算法为代表。
由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。