基因识别问题及其算法实现83893
识别靶基因序列的原理

识别靶基因序列的原理
靶基因序列的识别原理可以通过以下几个步骤来实现:
1. 靶基因序列库构建:首先,需要构建一个包含可能的靶基因序列的数据库,这可以通过收集已知的靶基因序列、进行基因组测序和注释等方法来实现。
2. 序列比对:将待识别的基因序列与构建好的靶基因序列库进行比对,一般使用序列比对算法(如BLAST、Smith-Waterman等)来进行比对。
3. 比对结果分析:根据比对结果,通过计算相似度或其他评估方法来判断待识别的基因序列与靶基因序列的关系。
如果待识别的基因序列与某一靶基因序列高度相似,那么可以判断该基因序列可能是靶基因。
4. 验证和确认:最后需要进行验证和确认,可以通过实验室实验,例如测定表达水平、敲除或过量表达等方式,验证待识别的基因序列是否是靶基因。
靶基因序列的识别原理是基于比对和分析待识别的基因序列与已知的靶基因序列的相似性,从而判断待识别的基因序列是否是靶基因。
基因表达数据的聚类算法研究及其实现的开题报告

基因表达数据的聚类算法研究及其实现的开题报告一、选题背景随着高通量测序技术的发展,大量的基因表达数据被产生和积累。
为了从这些数据中挖掘出有价值的信息,需要采用聚类算法将相似的基因表达数据分组,使得同一组内的基因在表达模式上具有一定的共性。
而且,基因表达数据的聚类在生物学研究中具有重要的应用,如发现基因调控网络、分类癌症等。
因此,基于基因表达数据的聚类算法研究及其实现具有重要的意义。
二、选题内容本文将重点研究基于聚类算法的基因表达数据分析方法,探讨现有聚类算法的优缺点,并针对其不足之处提出改进方法。
具体包括以下几个方面:1. 研究现有聚类算法,包括层次聚类、K-means聚类、密度聚类等,在不同应用场景下的优缺点。
2. 引入信息熵、互信息、核互信息等指标,评价聚类算法的性能,并进行实验比较。
3. 针对现有聚类算法的不足,提出改进方法,包括基于模型的方法和基于特征选择的方法。
4. 采用Python等编程语言实现改进的聚类算法,并对实验结果进行分析。
三、研究意义基于基因表达数据的聚类算法的研究对生物学研究具有重要的意义。
通过分组分析,可以促进发现生物体内的基因调控网络,了解基因与疾病之间的关系,以及进行药物筛选和精准医疗等。
本文提出的改进方法不仅可以提升聚类算法的准确性和效率,还有望推动基因表达数据在生物医学研究中的应用。
四、拟定工作计划第一阶段:文献调研与总结(2周)1. 调研现有基于聚类算法的基因表达数据分析方法;2. 学习信息熵、互信息、核互信息等指标及其在聚类性能评价中的应用;3. 总结现有聚类算法在不同应用场景下的优缺点。
第二阶段:算法改进与实现(6周)1. 基于模型的方法改进聚类算法,如混合高斯模型聚类算法等;2. 基于特征选择的方法改进聚类算法,如LASSO正则化、基于PCA 的方法等;3. 实现改进后的聚类算法,与现有聚类算法进行对比分析。
第三阶段:实验结果分析与总结(2周)1. 采用信息熵、互信息、核互信息等指标分析聚类算法性能;2. 分析实验结果,总结改进方法的效果和局限性,提出未来改进方向。
DNA的序列分析与基因识别

DNA的序列分析与基因识别DNA,即脱氧核糖核酸,是构成生物遗传信息的基本分子。
通过对DNA序列的分析,我们可以了解生物的遗传特征、进化关系以及疾病的发生机制等。
而基因识别则是通过分析DNA序列中的基因编码区域,确定其中的基因。
DNA序列分析是一项复杂而重要的工作。
在过去,科学家们只能通过实验室的手工方法逐个测序,耗时且费力。
然而,随着高通量测序技术的出现,我们现在可以在短时间内获得大量的DNA序列数据。
这为DNA序列分析提供了更广阔的可能性。
DNA序列分析的第一步是序列比对。
通过将待测序列与已知的DNA序列进行比对,我们可以确定它们之间的相似性和差异性。
这可以帮助我们了解基因的进化关系以及物种间的亲缘关系。
此外,序列比对还可以帮助我们寻找特定的基因区域,如启动子、转录因子结合位点等。
在序列比对的基础上,我们可以进行进一步的分析,如基因预测和注释。
基因预测是指通过分析DNA序列中的编码区域,确定其中的基因。
这是一个复杂的过程,需要考虑到编码区域的特征,如起始密码子、终止密码子等。
同时,我们还需要考虑到非编码区域的干扰,如转座子和重复序列等。
基因注释是指对已经预测出的基因进行功能和结构的注释。
这需要将基因序列与已知的基因数据库进行比对,并通过功能预测算法进行分析。
通过基因注释,我们可以了解基因的功能、参与的代谢途径以及与疾病的关联等。
这对于研究生物的生理过程和疾病的发生机制具有重要意义。
除了基因识别,DNA序列分析还可以用于研究基因组结构和变异。
通过比较不同个体的DNA序列,我们可以了解基因组中的变异情况,并研究其与个体特征、疾病易感性等之间的关系。
这对于个性化医学和疾病预防具有重要意义。
DNA序列分析在医学领域有着广泛的应用。
通过分析患者的DNA序列,我们可以确定其患有的遗传疾病、药物代谢能力以及潜在的疾病风险。
这为个体化治疗和疾病预防提供了依据。
此外,DNA序列分析还可以用于研究疾病的发生机制和进化关系,为新药的研发和治疗策略的制定提供指导。
基因启动子的预测与识别算法研究

基因启动子的预测与识别算法研究第一章研究背景随着基因技术和生物信息学的快速发展,越来越多的基因序列数据被揭示出来。
其中基因启动子序列是基因的重要组成部分,不仅决定了基因的表达,也是诱导基因表达的重要因素之一。
因此,基因启动子序列的预测和识别显得尤为重要。
基于此,本文将重点研究基因启动子的预测与识别算法。
第二章基因启动子定义及组成基因启动子是指位于基因编码区域上游的DNA区域,包含了基因的转录起始点和调控元件等诸多功能序列。
在转录启动点上游一定范围内,会存在一些顺式调节元件,如增强子,启动子、转录因子结合位点等,这些调节元件共同协调基因集合的转录。
基因启动子序列通常由三部分组成:核心启动子,启动子上游增强子和启动子下游增加子。
其中核心启动子包含有TATA盒、CAAT盒或GC盒等基本保守元件,这些元件对于启动子的转录活性和选择性起重要的作用。
第三章基因启动子预测与识别算法3.1 基于特征提取的方法该方法通过提取基因启动子序列的特征,如K-mer频率、二级结构、进化信息等,通过建立模型,进行分类预测。
该方法适用于大规模的基因序列分析。
3.2 基于机器学习的方法该方法利用监督学习的方法,采用分类器对已知的基因启动子序列进行分类,进而预测未知的基因启动子序列。
该方法需要较多的标注数据,但是可以提高预测的准确性。
3.3 基于深度学习的方法该方法利用深度神经网络模型,通过对基因序列的高维特征进行表征,进而实现基因启动子的预测和分类。
该方法具有较高的准确性和灵敏度,但需要较多的计算资源和训练时间。
第四章基因启动子识别实例本文将以基于深度学习的方法实现基因启动子识别为例进行实例说明。
深度学习模型的核心是卷积神经网络(CNN)和循环神经网络(RNN)。
基于CNN的方法主要针对基因序列中的序列位置信息进行特征提取;基于RNN的方法主要针对序列之间的关联性进行建模。
本文基于CNN模型,使用Keras框架编写深度学习模型。
基因组学数据分析算法

基因组学数据分析算法基因组学数据分析算法是利用计算机技术处理和分析大规模基因组学数据的一种方法。
该算法可以用于研究基因的功能、进化、疾病与治疗等方面的问题。
本文将介绍基因组学数据分析的背景和主要算法,并探讨其在生物学研究中的重要性和应用。
背景随着高通量测序技术的快速发展,基因组学数据的规模和复杂性大大增加。
这些数据包含了生物体的整个基因组序列、基因表达谱、DNA甲基化和染色质结构等信息。
要理解这些数据的意义,需要开发出一系列高效的算法和工具,将原始数据转化为可解释的生物学知识。
主要算法1. 基因组测序算法基因组测序是基因组学数据的基础。
测序算法通过将DNA或RNA序列转化为计算机可读的数据,揭示基因组的组成和序列变异等信息。
常见的测序算法有Sanger测序、Illumina测序和PacBio测序等。
这些算法通过不同的实验技术和数据处理方法,提高了测序的准确性和吞吐量。
2. 序列比对算法序列比对是将测序后的 Reads(测序片段)与参考基因组进行比对的过程。
通过序列比对算法,可以确定Reads与参考基因组的相对位置和差异。
常用的序列比对算法有Bowtie、BWA和BLAST等。
不同的算法具有不同的对齐策略和效率,可根据数据特点选择合适的算法进行比对。
3. 基因变异检测算法基因变异是指基因组序列中发生变化的部分,包括单核苷酸多态性(SNP)、插入/缺失(Indel)和结构变异等。
基因变异检测算法通过分析测序数据,鉴定个体或群体中的基因变异,从而研究基因与疾病之间的关系。
常用的基因变异检测算法有GATK、Samtools和VarScan等。
这些算法通过比对与参考基因组的差异,识别潜在的变异位置,并进行变异类型和频率的统计。
4. 基因表达分析算法基因表达分析是通过检测特定基因在不同时间点或条件下的表达水平来研究基因功能的一种方法。
基因表达分析算法可以将原始测序数据转化为基因表达谱,进一步搜索不同ially 表达基因或预测基因调控网络。
基因组信号分析技术和算法

基因组信号分析技术和算法近年来,随着生物技术的不断发展,基因组学已经成为生物学和医学研究的重要领域。
研究基因组学,需要大量的数据分析和生物信息学技术的支持。
而基因组信号分析技术和算法,就是生物信息学中一个重要的分支。
基因组信号分析技术是利用高通量测序和微阵列技术等手段,对基因组水平上的信息进行分析和处理的过程。
该技术可以发现基因组中的信号,如DNA甲基化、组蛋白修饰、转录因子结合和染色质构象,这些信号在基因表达和调控中起着重要作用。
利用基因组信号分析技术进行数据分析,需要应用到一系列的算法,如信号处理、统计分析、机器学习和数据挖掘等。
下面就针对一些常见的基因组信号进行分析和介绍。
一、DNA甲基化DNA甲基化是一种重要的表观遗传学修饰方式,它的发生涉及到多种基因表达和调控过程。
目前,利用测序和微阵列技术可以高通量地探测基因组DNA甲基化的变化。
在数据处理方面,常用的算法包括比较组分析、聚类分析、寻找富集区域、机器学习和深度学习等。
二、染色质构象染色质构象是指基因组DNA在三维空间中的排列方式,它直接影响到基因表达和调控。
在对染色质构象的分析中,常用的技术包括Hi-C测序和3C技术。
在数据处理方面,常用的算法包括染色质联系图绘制、染色质结构转化、聚类分析和深度学习等。
三、转录因子结合转录因子是调控基因表达的关键因子,它的结合特异性直接影响着基因的表达水平。
通过利用测序和微阵列技术可以高通量地探测基因组转录因子的结合模式。
在数据处理方面,常用的算法包括寻找富集区域、转录因子与染色质互作的分析、TFBS预测和功能注释等。
总之,基因组信号分析技术和算法是进行基因组学研究的重要工具。
随着计算机技术和人工智能的不断发展,基因组信号分析技术和算法也会愈加成熟和强大,为生物学和医学研究提供更加丰富的信息和更高的精度。
《基因组重排事件识别算法研究》范文
《基因组重排事件识别算法研究》篇一一、引言随着生物信息学和基因组学的快速发展,基因组重排事件的识别与研究显得愈发重要。
基因组重排是指染色体结构变异的过程,包括染色体易位、倒位、重复等。
准确识别这些事件不仅有助于了解基因的调控机制和疾病发生机理,还可以为疾病诊断和治疗提供重要的参考信息。
本文将详细介绍基因组重排事件识别算法的研究背景、意义、研究内容和方法。
二、研究背景及意义近年来,基因组学在生物学、医学和农业等多个领域发挥着重要作用。
通过大规模的基因组重测序技术,我们可以获得大量关于基因组重排事件的序列数据。
这些数据为疾病发生机理的研究提供了宝贵的资源。
因此,开发准确、高效的基因组重排事件识别算法具有重要意义。
首先,准确识别基因组重排事件有助于了解基因的调控机制和疾病发生机理。
通过分析重排事件与疾病之间的关系,可以揭示某些疾病的遗传基础和发病机制,为疾病的预防和治疗提供新的思路。
其次,基因组重排事件识别算法的研究对于推动生物信息学和基因组学的发展具有重要意义。
随着生物信息技术的不断进步,大量基因组数据不断涌现,对数据处理和分析的需求也越来越高。
因此,开发高效的算法和工具来处理和分析这些数据,是推动生物信息学和基因组学发展的关键。
三、研究内容本文的研究内容主要包括以下几个方面:1. 数据收集与预处理:收集公开的基因组重排事件数据集,并进行预处理,包括数据清洗、质量评估等。
2. 算法设计与实现:基于机器学习和深度学习等算法,设计并实现基因组重排事件识别算法。
3. 算法性能评估:利用独立的测试集对算法进行性能评估,包括准确率、召回率、F1值等指标的评估。
4. 算法优化与改进:根据性能评估结果,对算法进行优化和改进,提高算法的准确性和效率。
5. 实例分析:结合实际生物样本数据,应用优化后的算法进行基因组重排事件的识别和分析。
四、研究方法1. 数据收集与预处理方法:采用公开的基因组重排事件数据集,通过编程语言(如Python)进行数据清洗、质量评估等预处理工作。
基于生物信息学的基因识别和分析技术研究
基于生物信息学的基因识别和分析技术研究 随着科技的不断发展,生物信息学日益成为生物学领域中一个重要的分支。基于生物信息学的基因识别和分析技术,为解读生命的密码提供了有力的工具和方法。本文将就这一课题进行讨论,探索该领域的最新进展和未来发展方向。
一、基因识别与分析的概念 基因是指生物体内的遗传信息单位,指导了生命起源、演化和发展的全部程序。因此,基因识别和分析技术的研究,就是通过一系列的分析手段和算法,对基因产生的影响进行探究。该技术不仅可以解剖基因的结构和序列,更能够探究基因表达调控机制,借此来揭示生物学和医学中的一系列重要问题。
二、基因识别与分析技术的常用方法 (1)DNA测序技术 以测序技术为例,基因序列按照不同的算法进行测定和分析。如链终止法、萃取法和荧光原位杂交等,这些方法均可通过扩增DNA获取基因序列信息,从而加深我们对基因的认识。
(2)基因芯片技术 基因芯片技术是评论学家关注的热点问题之一,此技术利用DNA探针“粘”的能力,通过蛋白质识别技术来网络式进行生理实验的分析。如:癌症诊断、疾病预测等领域方面。
(3)基因表达芯片技术 基因表达芯片技术是一种能够同时测定数万个基因表达量的高通量技术,它可检测生物体内基因表达量的变化与环境因素之间的关系,从而深入探究基因表达调控机制,生命起源、演化和发展的全部程序。 三、基因识别与分析技术的应用前景 随着技术的不断进步和应用的广泛推广,基于生物信息学的基因识别和分析技术已经广泛应用于医疗领域。其中最为重要的领域之一就是基因检测与诊断。基因检测与诊断包括各种癌症、遗传病的诊断。传统的疾病诊断方式往往需进行多次检查,花费大量时间和费用,而基于生物信息学的基因识别和分析技术则可以大大简化此类诊断过程,从而更为精准地进行病情分析和治疗。
此外,基于生物信息学的基因识别和分析技术还可以用于药物研发,帮助科学家更快地找到适合的医学原料或药品。
四、生物信息学技术与个人隐私的保护 生物信息学技术的普及也引发了对个人隐私的担忧,例如基因染色体的检测等。生物信息学技术虽然具有很高的应用价值,但在应用过程中要注意保护患者和公众的隐私权。
第五章 基因识别讲解
4)确定基因数目和对应的ORF
/software/software.html
AAT分析举例 /faculty/huang.html
• AAT(/aat/aat/aat.html)
——Besemer, J., Lomsadze, A. and Borodovsky, M. (2001) GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Res., 29: 2607-2618.
原核基因识别——重点在于识别编,根据密码子 的起始位置,可以按照三种方式进行解释。 例如,序列ATTCGATCGCAA
(1)ATT CGA TCG CAA (2) TTC GAT CGC AAN (3) TCG ATC GCA ANN
• 这三种阅读顺序称为阅读框(reading frames)
GeneMark举例
1) GeneMark(/GeneMark/ 或 /GeneMark/genemark_prok_gms
_plus.cgi )
2) 选择适合原核生物基因识别程序 a)GeneMark-P 和GeneMark.hmm-P连用的预测程序 b)GeneMarkS预测程序
基因鉴定体系计算
基因鉴定体系计算基因鉴定(Genetic testing)是指通过对个体的基因进行分析,识别其中一特定基因突变或其中一特定基因型,以评估个体的健康状况、遗传风险和疾病风险的技术。
基因鉴定体系计算(Genetic testing system calculation)是指通过建立一个完善的计算模型和算法,对基因鉴定的过程进行数学建模和计算分析,从而提高基因鉴定的准确率和可靠性的技术。
下面将从基因鉴定的原理和方法、计算模型的构建和算法设计、基因鉴定体系的应用等方面进行详细阐述。
基因鉴定的原理和方法主要包括PCR(聚合酶链式反应)、SNP(单核苷酸多态性)分析、DNA测序和核酸杂交等技术。
其中PCR是一种将DNA片段扩增为大量复制的方法,通过PCR可以将微量的DNA样本进行扩增,从而使其能够被检测到。
SNP分析是一种基于DNA突变的分析方法,通过检测个体DNA中单个碱基的替代,确定其中一基因的突变情况。
DNA测序是一种通过测定DNA序列来识别特定基因型或基因突变的方法,通过测定DNA序列的组成,可以确定其基因型和突变情况。
核酸杂交是一种通过将目标DNA序列与已知的探针进行杂交,从而确定目标DNA序列的方法。
基因鉴定体系计算的核心是建立一个完善的计算模型和算法,对基因鉴定的过程进行数学建模和计算分析。
首先,需要确定基因鉴定所依据的分子标记(marker),例如SNP、STR(短串联重复序列)等。
然后,根据已知的分子标记数据和其对应的基因型或基因突变情况,构建一个基因型数据集。
接下来,根据已有的基因型数据集,利用统计学方法和机器学习算法,建立一个计算模型,通过对待测个体的基因型数据进行计算和分析,得出其可能的基因型和基因突变情况。
最后,通过对计算结果进行验证和评估,对基因鉴定的准确率和可靠性进行验证。
基因鉴定体系计算的算法设计主要包括特征选择、模型训练和模型优化等步骤。
特征选择是指从基因型数据中选择具有区分性和预测能力的特征,用于构建计算模型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
百度文库 - 好好学习,天天向上 -1 基因识别问题及其算法实现
一、背景介绍 DNA是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid,缩写为DNA)。DNA分子是一种长链聚合物,DNA序列由腺嘌呤(Adenine, A),鸟嘌呤(Guanine, G),胞嘧啶(Cytosine, C),胸腺嘧啶(Thymine, T)这四种核苷酸()符号按一定的顺序连接而成。其中带有遗传讯息的DNA片段称为基因(Gene)(见图1第一行)。其他的DNA序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。 在真核生物的DNA序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence)片段,称为外显子(Exon),不编码的部分称为内含子(Intron)。外显子在DNA序列剪接(Splicing)后仍然会被保存下来,并可在
图1真核生物DNA序列(基因序列)结构示意图 蛋白质合成过程中被转录()、复制(replication)而合成为蛋白质(见图2)。DNA序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质()上去并实现各种生命功能。
图2蛋白质结构示意图
DNA序列 外显子(Exon) 内含子(Intron)
DNA序列 基因(Gene) 蛋白质序列 剪接、转录、 复制
基因(Gene) 百度文库 - 好好学习,天天向上
-2 对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。” 随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。
二、数字序列映射与频谱3-周期性:
对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。 基因预测问题的一类方法是基于统计学的[1]。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据集来确定模型中的参数,从而提高模型的预测水平。但在对基因信息了解不多的情况下,基因识别的准确率会明显下降。 因此在目前基因预测研究中,采用信号处理与分析方法来发现基因编码序列也受到广泛重视 [4]。 1. 数字序列映射 在DNA序列研究中,首先需要把A、T、G、C四种核苷酸的符号序列,根据一定的规则映射成相应的数值序列,以便于对其作数字处理。 令{,,,}IATGC,长度(即核苷酸符号个数,又称碱基对(Base Pair)长度,单位记为bp)为N的任意DNA序列,可表达为 {[]|[],0,1,2,1}SSnSnInN 即A、T、G、C的符号序列S:[0],[1],,[1]SSSN。现对于任意确定的bI,令 百度文库 - 好好学习,天天向上 -3 1,[][]0,[]bSnbnSnbu
, 0,1,2,1nN
称之为Voss映射[5],于是生成相应的0-1序列(即二进制序列){[]}bun:[0],[1],,bbuu, [1]buN (bI)。
例如,假设给定的一段DNA序列片段为S = ATCGTACTG,则所生成的四个0-1序列分别为: {[]}Aun:{1,0,0,0,0,1,0,0,0}; {[]}Gun:{0,0,0,1,0,0,0,0,1};
{[]}Cun:{0,0,1,0,0,0,1,0,0}; {[]}Tun:{0,1,0,0,1,0,0,1,0}。
这样产生的四个数字序列又称为DNA序列的指示序列(indicator Sequence)。 2. 频谱3-周期性
为研究DNA编码序列(外显子)的特性,对指示序列分别做离散Fourier变换(DFT) 210[[]],0,1,,1nkNjNbbnUkunekN
(1)
以此可得到四个长度均为N的复数序列{[]}bUk,bI。计算每个复序列{[]}bUk的平方功率谱,并相加则得到整个DNA序列S的功率谱序列{[]}Pk: 2222[][][][][],0,1,1ATGCPkUkUkUkUkkN (2)
对于同一段DNA序列,其外显子与内含子序列片段的功率谱通常表现出不同的特性
01002003004005006000500010000
kP(k)
01002003004005006000500010000kP(k)
图3 编号为的酵母基因DNA序列的功率谱(因为对称性,实际这里只给出了功率谱图的一半)。 (a) 上图是基因上一段外显子(区间为[81787,82920],长1134bp) 对应的指示序列映射的功率谱,它具有3-周期性;(b) 下图是基因上一段内含子(区间为[96361,97551],长1191bp)的指示序列的功率谱,它不具有 百度文库 - 好好学习,天天向上 -4 3-周期性。 可以看到:外显子序列的功率谱曲线在频率3Nk处,具有较大的频谱峰值(Peak Value),而内含子则没有类似的峰值。这种统计现象被称为碱基的3-周期(3-base Periodicity) [2][3]。
记DNA序列S的总功率谱的平均值为 10[]NkPkEN
(3)
而将DNA序列在特定位置,即3Nk处的功率谱值,与整个序列S的总功率谱的平均值的比率称为DNA序列的“信噪比”(Signal Noise Ratio,SNR),即 []3NPRE (4)
DNA序列的信噪比值的大小,既表示频谱峰值(Peak Value)的相对高度,也反映编码或非编码序列3-周期性的强弱。 信噪比R大于某个适当选定的阈值0R(比如02R),是DNA序列上编码序列片段(外显子)通常满足的特性,而内含子则一般不具有该性质[6]。 在DNA序列{[]Sn, 0,1,2,1}nN中,若N为3的倍数,将核苷酸符号b{,,,}IATGC出现在该序列的0,3,6,... N-3与1,4,7,…N-2以及2,5,8,…N-1等位置
上的频数分别记为,bbxy和bz,则3N处的总功率谱值即为[3][6]
[]3NP2[]3bbINU
2222113300[][]NnNNjjnNbbbInbInuneune
222
33jjbbbbIxyeze
222()bbbbbbbbbbIxyzxyxzyz
易见,当四种核苷酸符号b(bI)在序列的上述第一、第二、第三个子序列上出现的频数,,bbbxyz越接近相等时,3N处的谱值也就越接近于零。所以,基因外显子序列的功率谱曲线,在3N频率处具有较大的频谱峰值(Peak Value),反映了在基因外显子片段上,四种核苷酸符号在序列的三个子序列上分布的“非均衡性”。通常认为这种现象源于编码基因序列百度文库 - 好好学习,天天向上 -5 “密码子”(coden)使用的偏向性(bias)。虽然目前对此现象产生的“机理”还不是十分地清楚,但是频谱的3-周期性被普遍认为是可用于识别基因编码序列(外显子)的一个重要的特征信息。 3. 基因识别 频谱峰值特征的发现,或者频谱与信噪比概念的引入,其最终目的是要探测、预报一个尚未被注释的完整的DNA序列的所有基因编码序列(外显子)片段。
图4 基于序列频谱3—周期性的的基因预测方法流程图 已经有一些研究者提出了识别基因的算法(如参见[6]及其后面的文献)。目前利用信噪比的基因识别算法通常有两种:一是固定长度窗口滑动法[2] [3];另一是移动信噪比曲线识别法[6]。 基于固定长度滑动窗口上频谱曲线的基因识别方法: 对一个DNA序列S和它的指示序列{[]}bun,bI,0,1,2,1nN。取长度M(通常取为3的倍数,例如M=99, 129, 255, 513等)作为固定窗口长度。 对任意n(01nN),在以n为中心的长度为M的序列片段[n12M,n12M]上(当n接近序列的两端时,窗口实际有效长度可能会小于M),作四个指示序列的离散Fourier变换(DFT) 12122[[]],0,1,,1MMinikjMbbinUkuiekM
并求出它在3M处总频谱(;)3Mpn,即 2222[][][][][](;)333333ATGCMMMMMMPUUUUpn
把这样得到的频谱值(;)3Mpn,0,1,2,1nN,经过标准化处理(即除以最大频谱值01max{(;)}3nNMpn),并画出其频谱曲线
数值化 映射 DFT 变换 功率谱或 信噪比计算 外显子 判别分类
阈值
DNA序列 预测结果