数学建模竞赛试题--基因识别问题及其算法实现

合集下载

数学建模遗传算法例题

数学建模遗传算法例题

数学建模遗传算法例题数学建模中,遗传算法是一种基于进化思想的优化算法,可以应用于复杂的优化问题中。

本文将介绍一些遗传算法的例题,帮助读者更好地理解遗传算法的应用。

例题一:背包问题有一个体积为V的背包和n个物品,第i个物品的体积为vi,价值为wi。

求这个背包最多能装多少价值的物品。

遗传算法的解决步骤:1. 初始化种群:随机生成一定数量的个体作为初始种群。

2. 适应度函数:将每个个体代入适应度函数,计算其适应度值。

3. 选择:根据每个个体的适应度值,选择一定数量的个体进入下一代。

4. 交叉:对被选中的个体进行交叉操作,生成新的个体。

5. 变异:对新的个体进行变异操作,引入新的基因。

6. 重复以上步骤,直到符合终止条件。

在背包问题中,适应度函数可以定义为:背包中物品的总价值。

交叉操作可以选择单点交叉或多点交叉,变异操作可以选择随机变异或非随机变异。

例题二:旅行商问题有n个城市,旅行商需要依次经过这些城市,每个城市之间的距离已知。

求旅行商经过所有城市的最短路径。

遗传算法的解决步骤:1. 初始化种群:随机生成一定数量的个体作为初始种群,每个个体代表一种旅行路线。

2. 适应度函数:将每个个体代入适应度函数,计算其适应度值。

3. 选择:根据每个个体的适应度值,选择一定数量的个体进入下一代。

4. 交叉:对被选中的个体进行交叉操作,生成新的个体。

5. 变异:对新的个体进行变异操作,引入新的基因。

6. 重复以上步骤,直到符合终止条件。

在旅行商问题中,适应度函数可以定义为:旅行商经过所有城市的总距离。

交叉操作可以选择顺序交叉或部分映射交叉,变异操作可以选择交换或反转基因序列。

总结:遗传算法是一种强大的优化算法,可以应用于多种复杂的优化问题中。

在数学建模中,遗传算法的应用也越来越广泛。

本文介绍了背包问题和旅行商问题的遗传算法解决步骤,希望对读者有所帮助。

2020华为杯数学建模C题(试题、答案和解析)

2020华为杯数学建模C题(试题、答案和解析)
针对问题二:在解决问题一时选择了 20 个通道作为数据的训练特征,在此基础上,为 了提高模型预测的准确度,对数据集进行特征选择。特征选择分成两部分进行,首先采用 主成分分析法,对数据集进行降维,使数据集从原有的 20 维下降到 10 维,然后在此基础 上,结合随机森林模型在训练结束后给出的特征重要性程度排序,统计各个特征在重要性 分布配合特征热力图,选择性的删除重要程度靠后的特征通道,经过多次重复操作,选择 出最佳的 10 个特征通道作为数据集训练特征。使用通道选择后的数据训练模型并测试, 随机森林模型准确率为 94%,平均召回率为 93%,性能相对于通道选择之前有所提升。综 合问题一的结果,数据降维后的模型性能略高于高维数据的结果,泛化性能与之前相比有 较大的提升。
针对问题四:睡眠数据中使用四种脑电波信号做一个多分类的睡眠预测模型。由于数
1
据量的限制采用神经网络和机器学习的方法对数据进行建模,将睡眠分期预测问题转化为 一个五分类问题来解决,通过预测效果对分类性能进行分析。对数据集进行训练集和测试 集的划分,具体采用随机的方式,对数据集进行多次随机打散,以 8:2 的比例首次划分训 练集和测试集,分别使用 XGBoost 和 MLP 训练模型,由于数据量过小,多次训练使用的 数据在前一次划分的基础上再次打散随机划分。在不断重复的情况下按比例划分训练集和 测试集,机器学习模型和神经网络模型两个的训练结果在测试集上预测的准确率分别为 76%和 72%。在训练数据过少的情况下进行多分类任务,机器学习模型和神经网络模型均 表现出较好的效果,但是神经网络模型在效率上略差于机器学习模型。 关键字:脑电信号;随机森林;特征选择;XGBoost
中国研究生创新实践系列大赛
“华为杯”第十七届中国研究生 数学建模竞赛

2022年MathorCup高校数学建模挑战赛A题

2022年MathorCup高校数学建模挑战赛A题

2022年第十二届MathorCup 高校数学建模挑战赛题目A 题 大规模指纹图像检索的模型与实现在生物特征识别领域,指纹作为最具独特性与持久性的生物特征之一,被广泛应用于身份识别。

指纹识别过程分为特征提取和比对两个环节。

其中特征提取环节会提取用于指纹识别的指纹特征,一般国际上最为常见的指纹特征为“细节点”特征,其可视化展示形式如图1中的浅蓝色小圆圈及对外伸出的浅蓝色短线段,短线段用于指示细节点处纹线方向。

细节点一般采用三元存储格式: ,分别表示x 轴像素坐标、y 轴像素坐标及细节点方向。

一般而言:(1)指纹图像坐标体系:左上角为坐标原点,且x 轴方向向右,y 轴方向向下;(2)细节点表达约定:细节点x , y 的位置采用指纹图像坐标系表达,其方向规定:零度方向为x 轴正方向(向右),90度方向为y 轴负方向(向上),180度方向为x 轴负方向(向左),270度方向为y 轴正方向(向下),最大角度为359度。

角度的最小区分单位为1度。

图1 指纹识别原理(,,)x y q在指纹匹配环节,需要对两幅指纹图像的“同一性”进行定量评价,通常采用相似度指标。

常见的两枚指纹之间的相似度评价主要依据每枚指纹图像中各个细节点之间的匹配关系。

如图1所示,相互具有匹配关系的细节点之间用一根跨越两幅图像的红线将其互相连接,用于可视化展示。

在指纹图像匹配环节,常需要考虑如下的情况:考虑到在采集指纹图像时,手指按压图像采集设备的角度、轻重及位置各不相同,因此两幅指纹图像需要做图像的旋转、平移后才能相互对准。

由于手指皮肤较为柔软,通过按压方式采集到的指纹图像会发生一定程度的不规则弹性形变,在图1中会发现两幅指纹图像中,某些相互匹配的细节点在对准时,不能完全“重叠”,有一定幅度的位置及角度的偏差。

这一现象也可以从“跨越两幅图像的红线并不是都平行”现象中观察到。

考虑到手指可能存在临时性蜕皮、褶皱等因素,且空气中的湿度及皮肤表面的干燥程度或粘附在皮肤上的异物等都会导致采集到的指纹图像存1中可以观察到并不是所有的细节点都有对应的红线进行关联。

23年数学建模c题

23年数学建模c题

23年数学建模c题2023年数学建模竞赛C题:题目:基于深度学习的图像识别问题描述:随着人工智能技术的不断发展,图像识别已成为日常生活中不可或缺的一部分。

图像识别技术广泛应用于人脸识别、自动驾驶、智能安防等领域。

为了提高图像识别的准确率和效率,深度学习技术被广泛应用于图像识别领域。

任务要求:1. 请简要介绍深度学习的基本原理。

2. 请简述在图像识别中常用的深度学习模型及其特点。

3. 请给出一种基于深度学习的图像识别算法的实现步骤。

4. 请设计一个实验,验证所提出的图像识别算法的有效性。

解题思路:1. 深度学习的基本原理:深度学习通过构建多层神经网络来模拟人脑的认知过程,通过不断地学习和优化,神经网络能够自动提取输入数据的特征,从而实现复杂的分类和识别任务。

2. 常用深度学习模型及其特点:在图像识别中,常用的深度学习模型包括卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)等。

CNN适用于处理图像数据,能够有效地提取图像中的局部特征;RNN适用于处理序列数据,在图像文字识别等领域有广泛应用;GAN能够生成逼真的图像,常用于图像生成和修复等任务。

3. 基于深度学习的图像识别算法实现步骤:首先,需要收集大量的标注数据,用于训练和验证模型;然后,选择合适的深度学习模型,并根据任务需求进行模型设计和参数调整;接着,使用训练数据对模型进行训练,并使用验证数据对模型进行验证和调整;最后,使用测试数据对模型进行测试,评估模型的性能。

4. 实验设计:为了验证所提出的图像识别算法的有效性,需要设计一个严谨的实验。

首先,需要准备实验数据集,包括不同类别的图像数据和对应的标注;然后,将数据集分为训练集、验证集和测试集,分别用于训练、验证和测试模型;接着,使用训练集训练模型,并使用验证集对模型进行验证和调整;最后,使用测试集对模型进行测试,评估模型的性能。

评估指标可包括准确率、精确率、召回率和F1分数等。

2023研究生数学建模国赛e题

2023研究生数学建模国赛e题

标题:指纹识别中的模式匹配算法研究摘要指纹识别作为一种常见的生物识别技术,在现代社会中得到广泛应用。

本文针对指纹识别中的模式匹配算法进行研究,探讨了传统的指纹特征提取和匹配算法的局限性,并介绍了一种基于深度学习的指纹识别算法。

通过对比实验,证明了基于深度学习的指纹识别算法在准确性和鲁棒性方面的优势。

本研究为指纹识别技术的进一步发展提供了一种新的思路和方法。

引言指纹作为一种独特的生物特征,具有不可伪造性和稳定性,因此在安全验证领域被广泛应用。

指纹识别的关键任务之一是通过模式匹配算法,实现指纹图像的识别和比对。

传统的指纹识别算法主要基于特征提取和匹配的两个步骤。

然而,传统算法在对指纹图像的光照、旋转和变形等干扰下,容易出现准确性和鲁棒性不足的问题。

因此,本文旨在通过研究和比较不同算法,探索指纹识别中的模式匹配算法的优化方案。

传统模式匹配算法传统的指纹识别算法通常采用Minutiae特征提取和匹配的方法。

Minutiae特征是指指纹图像中细小特征点的位置和方向信息,如脊线和分叉点等。

传统算法会首先对指纹图像进行预处理,包括图像增强和去噪等操作,然后提取Minutiae特征。

特征提取通常通过对指纹图像进行滤波和边缘检测等操作,以获取特征点的位置和方向信息。

提取得到的Minutiae特征会被转换为可比较的特征向量,并用于后续的模式匹配。

传统的模式匹配算法通常基于相似性度量,如欧氏距离、曼哈顿距离等,来计算待比对指纹图像和数据库中指纹图像的相似性。

然而,传统算法在处理光照变化、旋转和变形等情况时,容易出现准确性下降的问题。

特别是在指纹图像质量较低的情况下,传统算法的准确性更加有限。

因此,为了提高指纹识别算法的性能,需要引入更加高级的算法模型。

基于深度学习的指纹识别算法近年来,深度学习技术在图像识别领域取得了巨大的突破,在指纹识别中也引起了研究者的广泛关注。

基于深度学习的指纹识别算法通常采用卷积神经网络(CNN)作为基本模型。

11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评

11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评

2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。

第十九届华为杯全国研究生数学建模竞赛 题目解析

第十九届华为杯全国研究生数学建模竞赛 题目解析

第十九届华为杯全国研究生数学建模竞赛题目解析摘要:I.竞赛背景与介绍A.第十九届华为杯全国研究生数学建模竞赛B.竞赛的举办方与目的C.参赛人员与规模II.竞赛题目解析A.题目一:基因识别问题及其算法实现1.题目背景与要求2.解题思路与方法3.算法模型与实现B.题目二:数模研赛1.题目背景与要求2.解题思路与方法3.算法模型与实现C.题目三:其他题目1.题目背景与要求2.解题思路与方法3.算法模型与实现III.竞赛成果与意义A.获奖情况B.竞赛对研究生培养的作用C.竞赛对数学建模领域的推动正文:第十九届华为杯全国研究生数学建模竞赛于2022 年举行,该竞赛由华为公司冠名,由中国学位与研究生教育学会、中国科协青少年科技中心等单位主办,旨在提高研究生创新能力和解决实际问题的能力。

本届竞赛共有来自全国各地的465 家研究生培养单位的63345 名研究生参赛,规模空前。

竞赛题目分为三个部分,分别涉及基因识别问题及其算法实现、数模研赛以及其他题目。

其中,题目一要求参赛者针对基因识别问题提出一种或多种算法,并实现这些算法。

在解题过程中,参赛者需要深入研究基因识别领域的相关知识,结合数学建模方法,提出具有创新性的解决方案。

题目二要求参赛者通过数模研赛的方式,对某一具体问题进行建模与求解。

此题考查参赛者对数学建模方法的理解与运用能力,需要参赛者具备较强的实际问题解决能力。

其他题目则涉及不同领域,要求参赛者具备广泛的知识面和灵活的思维方式。

本届竞赛的获奖情况显示,我国研究生在数学建模领域取得了丰硕的成果。

这些成果不仅体现了参赛者个人的优秀能力,也展示了我国研究生教育在培养创新型人才方面的成果。

此外,竞赛的成功举办对提高研究生培养质量、增强研究生解决实际问题的能力、培养研究生在工作中的科学态度和严谨学风等方面都起到了积极作用。

研究生数学建模竞赛

研究生数学建模竞赛

历年竞赛试题
第七届(2010)(NPMCM)A题:确定肿瘤的重要
基因信息 第七届(2010)(NPMCM)B题:与封堵溃口有关 的重物落水后运动过程的数学建模 第七届(2010)(NPMCM)C题:神经元的形态分 类和识别 第七届(2010)(NPMCM)D题:特殊工件磨削加 工的数学建模

历年竞赛试题
第五届(2008)
(NPMCM)A题:汶川地震唐家山 堰塞湖泄洪问题 第五届(2008) (NPMCM)B题:城市道路交通信 号实时控制问题 第五届(2008) (NPMCM)C题:货运列车的编组 调度问题 第五届(2008) (NPMCM)D题:中央空调系统节 能设计问题
历年ห้องสมุดไป่ตู้赛试题
第六届(2009) (NPMCM)A题:我国就业人数 或城镇登记失业率的数学建模 第六届(2009) (NPMCM)B题:枪弹头痕迹自动 比对方法的研究 第六届(2009) (NPMCM)C题:多传感器数据融 合与航迹预测 第六届(2009) (NPMCM)D题:110警车配置及 巡逻方案
2013年, 第十届竞赛由中南大学承办 来自全国332家研究生培养单位的3884支参赛队、 11643名选手参加了比赛。较上届相比,本届参赛 单位增加了81家,参赛人数提高了55%,竞赛规模 创历史新高。经过上百名专家评审,共评选出一等 奖101支、二等奖678支、三等奖参赛队881支。

历年竞赛试题
第六条 经费


参赛队向组委会交纳报名费,每队二百元。 承办单位的资助。 社会各界的赞助。
竞赛的由来
2003年,在一批参加过大学生数学建模竞赛
的研究生的要求下,东南大学、南京大学、 中国科技大学、合肥工业大学等江苏、安徽 省12所高校研究生会联合发起了“南京及周 边地区研究生数学建模竞赛”,有20所学校 近200名研究生参加。东南大学“长江计划 特聘教授”、生命科学专家陆祖宏赞助了这 次竞赛,竞赛的成功举办在研究生中产生较 大的反响。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基因识别问题及其算法实现一、背景介绍DNA 是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid ,缩写为DNA )。

DNA 分子是一种长链聚合物,DNA 序列由腺嘌呤(Adenine, A ),鸟嘌呤(Guanine, G ),胞嘧啶(Cytosine, C ),胸腺嘧啶(Thymine, T )这四种核苷酸(nucleotide )符号按一定的顺序连接而成。

其中带有遗传讯息的DNA 片段称为基因(Gene )(见图1第一行)。

其他的DNA 序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。

在真核生物的DNA 序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence )片段,称为外显子(Exon ),不编码的部分称为内含子(Intron )。

外显子在DNA 序列剪接(Splicing )后仍然会被保存下来,并可在图1真核生物DNA 序列(基因序列)结构示意图蛋白质合成过程中被转录(transcription )、复制(replication )而合成为蛋白质(见图2)。

DNA 序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(protein )上去并实现各种生命功能。

DNA 序列外显子(Exon ) 内含子(Intron)DNA序列剪接、转录、复制蛋白质序列图2蛋白质结构示意图对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。

诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。

一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。

” 随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。

二、数字序列映射与频谱3-周期性:对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。

基因预测问题的一类方法是基于统计学的[1]。

很多国际生物数据网站上也有“基因识别”的算法。

比如知名的数据网站/GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。

但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。

另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据集来确定模型中的参数,从而提高模型的预测水平。

但在对基因信息了解不多的情况下,基因识别的准确率会明显下降。

因此在目前基因预测研究中,采用信号处理与分析方法来发现基因编码序列也受到广泛重视 [4]。

1. 数字序列映射在DNA 序列研究中,首先需要把A 、T 、G 、C 四种核苷酸的符号序列,根据一定的规则映射成相应的数值序列,以便于对其作数字处理。

令{,,,}I A T G C =,长度(即核苷酸符号个数,又称碱基对(Base Pair )长度,单位记为bp )为N 的任意DNA 序列,可表达为{[]|[],0,1,2,1}S S n S n I n N =∈=-即A 、T 、G 、C 的符号序列S :[0],[1],,[1]S S S N -。

现对于任意确定的b I ∈,令1,[][]0,[]b S n b n S n bu =⎧⎨≠⎩=, 0,1,2,1n N =-称之为Voss 映射[5],于是生成相应的0-1序列(即二进制序列){[]}b u n :[0],[1],,b b u u ,[1]b u N - (b I ∈)。

例如,假设给定的一段DNA 序列片段为S = ATCGTACTG ,则所生成的四个0-1序列分别为:{[]}A u n :{1,0,0,0,0,1,0,0,0}; {[]}G u n :{0,0,0,1,0,0,0,0,1}; {[]}C u n :{0,0,1,0,0,0,1,0,0}; {[]}T u n :{0,1,0,0,1,0,0,1,0}。

这样产生的四个数字序列又称为DNA 序列的指示序列(indicator Sequence )。

2. 频谱3-周期性为研究DNA 编码序列(外显子)的特性,对指示序列分别做离散Fourier 变换(DFT )21[[]],0,1,,1nk N j N b b n U k u n e k N π--===-∑ (1)以此可得到四个长度均为N 的复数序列{[]}b U k ,b I ∈。

计算每个复序列{[]}b U k 的平方功率谱,并相加则得到整个DNA 序列S 的功率谱序列{[]}P k :2222[][][][][],0,1,1A T G C P k U k U k U k U k k N =+++=- (2)对于同一段DNA 序列,其外显子与内含子序列片段的功率谱通常表现出不同的特性500010000kP (k )500010000kP (k )图3 编号为BK006948.2的酵母基因DNA 序列的功率谱(因为对称性,实际这里只给出了功率谱图的一半)。

(a ) 上图是基因上一段外显子(区间为[81787,82920],长1134bp ) 对应的指示序列映射的功率谱,它具有3-周期性;(b) 下图是基因上一段内含子(区间为[96361,97551],长1191bp )的指示序列的功率谱,它不具有3-周期性。

可以看到:外显子序列的功率谱曲线在频率3Nk =处,具有较大的频谱峰值(Peak Value ),而内含子则没有类似的峰值。

这种统计现象被称为碱基的3-周期(3-base Periodicity )[2][3]。

记DNA 序列S 的总功率谱的平均值为1[]N k P k E N-==∑ (3)而将DNA 序列在特定位置,即3Nk =处的功率谱值,与整个序列S 的总功率谱的平均值的比率称为DNA 序列的“信噪比”(Signal Noise Ratio ,SNR ),即[]3NP R E=(4) DNA 序列的信噪比值的大小,既表示频谱峰值(Peak Value )的相对高度,也反映编码或非编码序列3-周期性的强弱。

信噪比R 大于某个适当选定的阈值0R (比如02R =),是DNA 序列上编码序列片段(外显子)通常满足的特性,而内含子则一般不具有该性质[6]。

在DNA 序列{[]S n , 0,1,2,1}n N =-中,若N 为3的倍数,将核苷酸符号b {,,,}I A T G C ∈=出现在该序列的0,3,6,... N -3与1,4,7,…N -2以及2,5,8,…N -1等位置上的频数分别记为,b b x y 和b z ,则3N处的总功率谱值即为[3][6] []3N P 2[]3b b INU ∈==∑22221133[][]N n N N jjn Nbb b In b In u n eu n eππ⋅----∈=∈=⋅=⋅∑∑∑∑22233jjb b b b Ix y ez eππ-∈=+⋅+⋅∑222()b b b b b b b b b b Ix y z x y x z y z ∈=++---∑ 易见,当四种核苷酸符号b (b I ∈)在序列的上述第一、第二、第三个子序列上出现的频数,,b b b x y z 越接近相等时,3N处的谱值也就越接近于零。

所以,基因外显子序列的功率谱曲线,在3N频率处具有较大的频谱峰值(Peak V alue ),反映了在基因外显子片段上,四种核苷酸符号在序列的三个子序列上分布的“非均衡性”。

通常认为这种现象源于编码基因序列“密码子”(coden )使用的偏向性(bias )。

虽然目前对此现象产生的“机理”还不是十分地清楚,但是频谱的3-周期性被普遍认为是可用于识别基因编码序列(外显子)的一个重要的特征信息。

3. 基因识别频谱峰值特征的发现,或者频谱与信噪比概念的引入,其最终目的是要探测、预报一个尚未被注释的完整的DNA 序列的所有基因编码序列(外显子)片段。

图4 基于序列频谱3—周期性的的基因预测方法流程图已经有一些研究者提出了识别基因的算法(如参见[6]及其后面的文献)。

目前利用信噪比的基因识别算法通常有两种:一是固定长度窗口滑动法[2] [3];另一是移动信噪比曲线识别法[6]。

基于固定长度滑动窗口上频谱曲线的基因识别方法:对一个DNA 序列S 和它的指示序列{[]}b u n ,b I ∈,0,1,2,1n N =-。

取长度M (通常取为3的倍数,例如M =99, 129, 255, 513等)作为固定窗口长度。

对任意n (01n N ≤≤-),在以n 为中心的长度为M 的序列片段[n 12M --,n 12M -+]上(当n 接近序列的两端时,窗口实际有效长度可能会小于M ),作四个指示序列的离散Fourier 变换(DFT )12122[[]],0,1,,1M M i n ikj M b bi n U k u i e k M π--=+-=-==-∑并求出它在3M 处总频谱(;)3Mp n ,即 2222[][][][][](;)333333A T G C M M M M M M P U U U U p n ∆=+++= 把这样得到的频谱值(;)3Mp n ,0,1,2,1n N =-,经过标准化处理(即除以最大频谱值01max {(;)}3n N Mp n ≤≤-),并画出其频谱曲线nucleotide position nD N A s p e c t r u m p (n )图5 固定长度滑动窗口的频谱(;)3Mp p n =曲线(人类线粒体基因,NC_012920_1.fasta ) 图中红色水平细线条是DNA 序列实际的基因外显子的区间。

滑动窗口频谱(;)3Mp n 曲线的峰与基因外显子区间具有“对应”关系。

基于DNA 序列上“移动序列”信噪比曲线的基因识别方法: 设已知DNA 序列S 和它的指示序列{[]}b u n ,b I ∈,0,1,2,1n N =-。

对任意n(01n N <≤-),通常n 取3的倍数并逐渐增大。

在n 的左边一个长度为n 的序列片段[0,n -1]上,相应的子序列0~1n S -称为DNA 序列S 的“移动子序列”,作该移动子序列对应的四个指示序列的离散Fourier 变换(DFT )21[[]],0,1,,1iki n j M b b i U k u i e k n π=--===-∑并求出移动子序列0~1n S -,0,1,,1n N =-上的信噪比[]R n2222[][][][][]33333[][][]A T G C n n n n n U U U U P R n E n E n +++==,01n N <≤-其中[]E n 为移动子序列0~1n S -的功率谱的平均值1[][]n k P k E n n-==∑。

相关文档
最新文档