DNA序列的分类与判别分析

合集下载

DNA序列分析与结构比对

DNA序列分析与结构比对

DNA序列分析与结构比对DNA(脱氧核糖核酸)是构成遗传物质的分子,它指导所有生命的形成和发展。

DNA序列是由不同的碱基对组成的排列顺序,而这些碱基对的不同排列顺序,决定了不同的生物体的基因特征。

因此,DNA序列的分析和比对,对于理解生命的机理、诊断和治疗疾病都具有非常重要的意义。

一、DNA序列的分析DNA序列的分析是指对DNA序列进行测序、注释、分类、比对等过程。

DNA测序是一项基础的实验前提,通过它我们可以获取到DNA序列的数据。

DNA注释是将测序数据进行翻译、比对和分类,并以一定的方式存储。

在分类的过程中,我们可以将DNA序列根据不同的类型进行分类,如线粒体DNA、叶绿体DNA和核DNA等等。

我们可以通过对DNA序列的分析,来研究基因,从而探索生命的本质和各种生物体的演化过程。

二、DNA序列的比对DNA序列的比对是将两个DNA序列进行对比,确定其相同和不同之处的过程。

DNA序列的比对可以用于基因检测、病理诊断、动物进化研究等领域。

在DNA序列的比对当中,比对技术是非常核心的一部分。

目前,主要有以下两种DNA序列比对的算法:1、全局比对:通过比对整个DNA序列来确定差异。

全局比对的优点在于比对的结果非常准确,但是由于比对的长度过长,所以计算速度相对较慢。

2、局部比对:主要是针对两个DNA序列中长度较短的区域,进行匹配和比对。

局部比对的优点在于比对速度非常快,但是比对的结果可能仅限于某一段序列,因此需要进行针对性的分析。

三、DNA序列的结构比对DNA序列的结构比对指的是查找DNA序列中的一些结构特征,例如基础对序列、序列的二级结构以及序列的三级结构等。

DNA序列的结构比对可以通过计算序列的折叠情况、组合情况来求出序列的结构差异。

通过比对不同的序列结构,我们可以获得更精确的结构信息,这些信息在疾病预测、治疗和药物设计上具有重要的价值。

在DNA序列的分析和比对中,遗传多样性是非常重要的一部分。

DNA序列的遗传多样性涵盖了种类、强度、频率等多个方面。

法医学 法医DNA分型

法医学 法医DNA分型
RFLP 技术、 PCR 技术
二、DNA水平的遗传标记
1、 DNA的分子结构
DNA的二级结构---双螺旋结构
1953年, Watson 和Crick 提出了DNA 双螺旋结构模式。
变性:双链间氢键的断裂,形成两条多核苷酸单链的过程
引起 DNA 变性的因素主要有高温、强酸强碱、 有机溶剂等。 DNA变性后,性质发生改变。
法医学上常用的序列多态性分析技术
?PCR-ASO 技术——HLA-DQAl 基因座 ?PCR-RFLP 技术——ABO基因、 mtDNA ?DNA序列分析——mtDNA 分型
PCR-RFLP 技术
利用两个片段之间的序列差异,而且这 种差异刚好构成一个限制性核酸内切酶识别 位点,或使原有的限制酶识别位点丢失或识 别位点移动了位置,选择合适的限制酶切割 PCR 产物,从长度不一的DNA酶切片段,可 以判断等位基因及基因型。
操作简单,经济实用。因为片段长度范围 选择受限制,能够同时扩增的基因座个数有 限。
荧光标记的自动检测系统
常采用复合扩增即在同一反应管中同时 扩增多个STR 基因座,自动化的激光荧光检 测系统进行PCR 产物分型
原理:荧光染料标记在一条PCR 引物的5′ 端,在PCR 扩增时,PCR 产物带上荧光标记。 电泳时,标记有荧光染料的 DNA片段由激光 诱发荧光而被检测。
DNA纹印:
RFLP 分析杂交时使用 单基因座探针,高度 严格杂交条件下,仅 与一个小卫星基因座 等位片段杂交,形成 单基因座 RFLP 图谱。
DNA指纹:
RFLP 分 析 杂 交 时 , 使用多基因座探针, 不严格杂交条件下, 与多个小卫星基因 座等位片段杂交, 形成多基因座 RFLP 图谱。
5-12

DNA序列分类

DNA序列分类

DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。

知识扩展DNA序列分类DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。

DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。

主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。

DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。

其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。

FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。

欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。

公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。

11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评

11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评

2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。

DNA鉴定方法

DNA鉴定方法

DNA鉴定方法DNA鉴定方法DNA鉴定是一种通过对DNA序列的比较分析,确定个体之间的亲缘关系或确认身份的方法。

DNA鉴定在刑侦、亲子鉴定、遗传病诊断等领域有广泛应用。

本文将介绍DNA鉴定的基本原理和常用方法。

DNA鉴定的原理在于人类DNA的独特性和遗传性。

DNA是一种包含遗传信息的分子,由四种碱基(腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶)组成,它们按照一定的规则排列成两条螺旋状的链。

每个人的DNA序列都是独一无二的,除了一些双胞胎之外。

鉴定方法主要利用DNA的这种独特性,通过比较个体的DNA序列,确定是否具有亲缘关系或是否为同一人。

常用的DNA鉴定方法包括:1. RFLP(限制性片段长度多态性)分析:RFLP分析是DNA鉴定的经典方法之一。

它通过利用限制性内切酶将DNA切割成多个不同长度的片段,然后使用凝胶电泳将这些片段进行分离,并利用射入探针的杂交方法进行检测。

不同个体之间的DNA序列差异会导致不同的片段长度,从而可以通过比较片段长度来确定个体之间的亲缘关系。

2. PCR(聚合酶链式反应)分析:PCR是一种快速有效的DNA复制技术,可以从微量DNA中扩增出足够数量的DNA片段用于分析。

PCR分析常用于亲子鉴定、法医学和遗传病诊断。

PCR分析通常配合其他技术如序列分析、飞行时间质谱和DNA芯片等来进行。

3. STR(短串联重复)分析:STR分析是目前最常用的DNA 鉴定方法之一。

STR序列是由2-6个碱基重复单元组成的,不同个体之间的STR序列重复单元数目存在差异。

STR分析通过PCR扩增DNA片段,然后利用凝胶电泳分离,并通过比较STR重复单元数目来鉴定个体之间的亲缘关系或身份。

DNA鉴定的过程包括取样、提取DNA、扩增DNA片段、分离和检测。

取样可以采用血液、口腔拭子、毛发等样品。

提取DNA需要将样品中的DNA从细胞核和细胞器中分离出来。

DNA扩增通过PCR技术,可以在短时间内从微量DNA样品中复制出大量DNA片段。

第9章_DNA序列分析

第9章_DNA序列分析

第9章_DNA序列分析DNA序列分析是指对DNA序列进行系统性研究和分析的过程。

DNA序列是生物体内的遗传信息的载体,对于了解基因功能、生物演化、疾病发生机制等具有重要意义。

本章将介绍DNA序列分析的方法和应用。

DNA序列分析的方法包括序列比对、基因预测、遗传变异检测和进化分析等。

序列比对是将已知DNA序列与未知序列进行对比,寻找相似之处,从而推断未知序列的功能。

常用的序列比对工具有BLAST、Bowtie等。

基因预测是利用生物信息学方法预测未知DNA序列中的基因位置和功能。

常用的基因预测工具有GeneMark、Glimmer等。

遗传变异检测是通过比较不同个体之间的DNA序列差异,寻找与疾病相关的遗传变异。

进化分析是利用DNA序列比较不同物种之间的遗传差异,推断它们的亲缘关系和演化过程。

常用的进化分析方法有多序列比对、系统发育树构建等。

DNA序列分析在生物学研究和应用领域具有广泛的应用。

在基础研究方面,DNA序列分析可以帮助研究人员了解基因的功能和调控机制。

通过比对不同物种之间的DNA序列,可以揭示物种的进化关系和演化过程。

在医学研究方面,DNA序列分析可以用于疾病的诊断和预测。

通过检测DNA序列中的遗传变异,可以发现与疾病相关的基因突变,并为疾病的治疗和预防提供理论基础。

在农业研究方面,DNA序列分析可以应用于作物和畜禽的遗传改良。

通过分析作物和畜禽的DNA序列,可以挖掘有益基因和导育改良品种,提高农作物和畜禽的产量和品质。

随着高通量测序技术的发展,DNA序列分析在研究领域的应用也得到了大幅度的提升。

高通量测序技术可以快速、准确地获取大量的DNA序列信息,为DNA序列分析提供了更为丰富的数据。

同时,也为DNA序列分析提供了更多的挑战,如序列比对的速度和精度、大规模数据的储存和分析等。

因此,进一步研发和改良DNA序列分析的方法和工具,提高分析效率和准确性,将是今后的研究重点。

综上所述,DNA序列分析是一项重要的生物信息学研究方法,具有广泛的应用前景。

遗传学中的DNA序列解析

遗传学中的DNA序列解析DNA序列是生物学的基础,是生命的编码手段。

对于生物学研究者来说,解析DNA序列是相当重要的一项工作,它能够帮助我们深刻地了解生物的进化历程、物种的遗传信息以及基因的功能。

遗传学中的DNA序列解析,为我们提供了深入认识生物奥秘的工具。

本文将从DNA序列的本质和作用入手,分析遗传学中的DNA序列解析,为读者带来全新的生物学认知。

DNA序列的本质和作用DNA分子是生命存在的物质基础,它是由核苷酸链组成的双螺旋结构。

在这个双螺旋结构中,每条链上都附着着四种碱基:腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)。

这些碱基按照一定的规则排列起来,便形成了我们所称的DNA序列。

其中,A和T以及G和C之间通过氢键连接,使得两条链相互联系,从而构建了DNA的结构。

通过对DNA序列进行解析,我们可以探究生命的起源、物种的进化和个体的遗传特征,从而对生物学有着重要的意义。

遗传学中的DNA序列解析DNA的功能多种多样,不仅决定着物种的基本形态结构,还影响着遗传信息的传递和表达。

因此,对于遗传学研究而言,DNA序列解析是一个非常重要的过程。

从一般意义上讲,DNA序列解析是指将DNA测序的结果进行识别和翻译的过程。

而从实际操作上看,DNA序列解析又可分为以下几个部分。

1. 基因组测序基因组测序是指对物种基因组的总体DNA序列进行测定,它能够揭示出物种的基因组结构和组成。

随着测序技术的不断发展,目前已经可以对复杂物种的基因组进行高通量测序,大大提高了遗传学的解析效率和深度。

2. 基因的定位基因的定位是指找出物种基因组中某一特定基因的位置信息。

这个过程可以借助于众所周知的基因芯片技术,通过芯片上面的人体基因序列信息来识别基因位置。

例如,我们可以通过基因芯片检测来判定一个人是否携带某种基因突变,进而预测个体是否患有疾病。

3. 基因的注释和解析基因的注释和解析是指理解基因序列中的具体信息,从而得出基因表达和功能特性。

最新A题DNA序列的类别(南昌大学全国一等奖)

用判别分析的方法判定DNA序列的类别摘要判别分析法是多元统计分析中的重要内容之一。

近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。

本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。

通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(<1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。

关键词:DNA序列、Fisher判别法、判别函数、错判率。

一、问题提出1.背景人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。

这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。

在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。

对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。

2.问题有20个已知类别的人工序列:A类,B类。

1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。

2..对另给出的182个自然序列进行分类。

二.问题的分析本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:1)来源于已知样本。

2)具有给予未知类别的DNA序列分类的功能。

3)能较好的接受检验样本的检验。

全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。

DNA重复序列的识别和分析研究

DNA重复序列的识别和分析研究DNA是由核酸组成的双螺旋结构,它包含了遗传信息,是细胞和生命的基础。

然而,DNA并非完全由单一的基本单位组成,而是由多种序列组成的复合体。

其中,DNA重复序列是一种重要的DNA组成部分,这些序列增加了基因组的大小,并且在不同物种中表现出了高度的多样性。

DNA重复序列的识别和分析,对于深入了解生命遗传学和生态学等学科领域非常重要。

DNA重复序列的定义DNA重复序列是指在同一基因组中存在多个拷贝的DNA序列,这些序列可从数个到上百万个。

DNA重复序列通常分为两类:串联重复序列和散在重复序列。

串联重复序列指的是在染色体上成串排列的一组高度重复的序列单元,这些序列单元之间没有边界,它们的长度可以从几十个碱基对到数千个碱基对不等。

而散在重复序列则是指那些在染色体上位置分散的、无规则排列的重复序列,这些序列的大小通常比串联重复序列要小得多。

DNA重复序列的分类按照序列特征和生物学功能,可以将DNA重复序列分为多个子类。

其中,最常见的包括:1.转座子:是一种自由活动的DNA分子,它可以通过剪切和粘贴的方式在基因组中移动。

转座子的特点是在其两端有着相同或相似的重复序列,这些重复序列称为翻转复制子,可以促进转座子的插入和删除。

2.干扰素:是一种短的重复序列,长度通常在10到50个碱基对之间。

它们可以在基因组中重复出现,并且可以在转录时对基因表达产生影响。

3.Satellite序列:是一种重复出现的DNA序列,长度通常为几十到数百个碱基对不等。

它们通常在染色体的某个区域上以卫星形式出现,因此得名。

DNA重复序列的识别方法DNA重复序列在基因组中复杂多样,因此,需要采用一些特殊的方法来识别和分析它们。

下面介绍几种常见的DNA重复序列的识别方法。

1.同源比对:将已知的重复序列与当前基因组中的DNA序列进行比对,根据重复序列的特点在基因组中查找相似的序列。

同源比对可以同时识别和分类DNA 重复序列。

dna分类的原理及应用

DNA分类的原理及应用原理DNA分类是通过对DNA序列进行分析和比较来确定物种和个体之间的差异和相似性的方法。

它基于DNA的遗传信息和进化过程,通过比较DNA序列的相似性程度来确定物种之间的亲缘关系和进化关系。

DNA分类的原理主要包括以下几个步骤:1.DNA提取:首先从待分类的样本中提取DNA,在实验室条件下进行处理和净化,以获取高质量的DNA样本。

2.PCR扩增:利用聚合酶链式反应(PCR)技术,选择特定的DNA片段进行扩增。

这些DNA片段通常是高度保守的基因区域,如线粒体DNA或核糖体DNA。

3.DNA测序:将扩增后的DNA片段进行测序,获取DNA序列信息。

目前,高通量测序技术的发展使得DNA测序变得更加快速和经济高效。

4.数据分析:将测序获得的DNA序列进行比对和分析。

常用的方法包括序列比对、相似性评估、系统发育分析等。

通过比较样本之间的DNA序列差异和相似性,可确定物种分类和进化关系。

应用DNA分类的应用非常广泛,涵盖了生物学、医学、农业、环境科学等多个领域。

以下是一些常见的应用场景:1.物种鉴定:DNA分类可用于识别和鉴定不同物种之间的差异和相似性。

对于复杂的生物样品或濒临灭绝的物种,DNA分类可以提供更精确和可靠的鉴定结果。

2.犯罪侦查:DNA分类在刑侦领域有重要的应用。

通过分析凶案现场的DNA样本与嫌疑人的DNA样本之间的关系,可以提供有力的证据来确定犯罪嫌疑人。

3.医学诊断: DNA分类可用于疾病的诊断和预测。

对于一些遗传性疾病,通过检测与疾病相关的基因突变,可以对患者进行早期诊断、预防和个体化治疗。

4.农业育种:DNA分类在农业生产中起着重要的作用。

通过对农作物和家畜的DNA序列比较和分析,可以筛选出高产、抗病或具有其他有益性状的品种,实现农业产量的提高和质量的保证。

5.生物多样性保护:DNA分类是研究生物多样性和保护濒危物种的重要工具。

通过对不同物种的DNA序列进行比较和分析,可以更准确地了解物种的分布、遗传多样性和进化关系,为生物多样性保护提供科学依据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DNA序列的分类与判别分析摘要: 本文对DNA 序列分类问题进行了讨论.。

从“不同序列中碱基含量不同”入手,建立了欧氏距离判别模型、马氏距离判别模型以及Fisher准则判定模型。

接着,本文对三种分类算法进行了对比, 对算法的稳定性进行了讨论。

关键词:DNA分类;欧氏距离;马氏距离;Fisher判别;DNA sequence classification and discriminant analysisMA FuyuSchool of Management and Economics, China University of Geosciences, P.R.China, 430074Abstract: In this paper, the classification of DNA sequences are discussed. From the “content of different base sequence in a different” approach, the establishment of a discriminant model of Euclidean distance, Mahalanobis distance, as well as Fisher discriminant model to determine the model guidelines. Then, this paper three classification algorithms were compared, the stability of the algorithm are discussed.Keywords: DNA taxonomy; Euclidean distance; Mahalanobis distance; Fisher Discriminant1、问题的重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。

这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。

破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。

在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。

虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。

例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。

又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。

此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。

这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。

目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。

这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。

作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A 类,11-20为B类。

请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。

然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类;B类。

2、模型的条件和假设1)假设可以用DNA序列中的各碱基的百分含量的多少来对DNA序列进行分类。

2)假设可以根据DNA序列本身的碱基排列顺序的相关性的平均值的大小来判别。

3、符号约定na:任一给定序列中碱基A的百分含量; ng:任一给定序列中碱基G 的百分含量;nt:任一给定序列中碱基T的百分含量; nc:任一给定序列中碱基C 的百分含量;Gi:由某些具有相同属性的个体组成的类。

4、问题的分析和解答首先,我们考虑采用序列中的A , G, T , C 的含量百分比作为该序列的特征. 这样的抽取特征的方法具有其生物学的意义. 前面提到过, 在不用于编码蛋白质的序列片断中,A 和T 的含量多些, 因此以某些碱基特别丰富作为特征去研究DNA序列的结构是具有可行性的. 将序列中的A , G, T , C 的含量百分比分别记为na, ng , n t, nc, 则得到一组表征该序列特征的四维向量(na, ng , n t, nc). 考虑到na, n t, ng , nc 线性相关(na+ ng + n t+ nc= 1) , 所以我们采用简化的三维向量(na, n t, ng ) 来进行计算. 对于标号为i 的序列, 记它的特征向量为X i . 显然, 任意序列的特征向量与一个3 维空间的点对映.一般的判别问题为: 设有k 个类别G1, G2, &#8943;, Gk , 对任意一个属于Gi 类样品x , 其特征向量X 的值都可以获得. 现给定一个由已知类别的一些样品x 1, x 2, &#8943;, x n 组成的学习样本, 要求对一个来自这k 个类别的某样品x , 根据其特征向量X 的值作出其所属类别的判断.在本题DNA 序列分类中, k=2, G1= A , G2= B ,特征向量X 是三维的. 学习样本共包含n=20个样本, 其中10个属于A , 后10个属于B. 我们分别采用了欧氏距离(Euclid) 分类模型, 马氏距离(M ahalanob is) 分类模型和F isher 判别模型来对序列样本分类.4.1、欧氏距离(Euclid) 分类模型在欧氏距离(Euclid) 分类模型中, 把每个样本视为三维空间的一个点, 以其到不同集合几何中心的欧氏距离作为判据. 具体的算法如下:1)计算属于A 类与属于B类的10个样本点的集合各自的几何中心:计算得:A(0.28665,0.154177,0.383251);B(0.383251,0.501818,0.100909)对于给定的样本点,分别计算该点到的欧氏距离, 以及该点到的欧氏距离;2)判别准则如下:(1) 若,则将点判为A 类;(2) 若, 则将点判为B 类;(3) 若, 则将点判为不可判类;用上述算法对已知样学习样本A 1—A 20 进行分类, 结果是除了A 4 被错误的分到了B类外, 其余的19 个样本全部正确, 分类准确率达到95%.用上述算法对未知的人工序列A 21—A 40 进行分类, 得到的结果是:A 类: 22, 23, 25, 27, 29, 30, 32, 34, 35, 36, 37, 39;B 类: 21, 24, 26, 28, 31, 33, 38, 40.用欧氏距离作为判别依据虽然简便直观, 但存在着明显的缺陷: 从概率统计的角度来看, 用欧氏距离描述随机点之间的距离并不好. 因此当待分类样本是随机样本, 具有一定的统计性质时, 这个模型并不能很好的描述两个随机点之间的接近程度.4.2、马氏距离(Mahalanobis) 分类模型为了克服采用欧氏距离时的缺陷, 我们采用马氏距离来代替欧氏距离. 改进后的算法如下:设: 三维总体G 的均值为u=(u1,u2,u3)T , 协方差矩阵为非奇异阵V 3*3, 则三维样本X到总体G的马氏距离为:其中未知的L可用学习样本的均值来代替, 协方差矩阵V 可用学习样本的样本协方差矩阵来代替.将马氏距离用于判别模型, 遵循判据如下:若dm (X ,A ) d&not;m (X ,B ) , 则判定x 为B 类;若dm (X ,A ) = dm (X ,B ) , 则判定x 为不可判类;用上述算法对已知样学习样本A 1—A 20 进行分类, 结果是除了A 4 被错误的分到了B类外, 其余的19 个样本全部正确, 分类准确率达到95%.用上述算法对未知序列A 21—A 40 进行分类, 得到的结果是:A 类: 22, 23, 25, 27, 29, 30, 32, 33, 34, 35, 36, 37;B 类: 21, 24, 26, 28, 31, 38, 39, 40.4.3、Fisher准则分类模型在多维空间里分类的方法不仅仅是距离分类法一种, 常用的Fisher 分类法就是另一种基于几何特性的分类法. 在距离判别模型中, 三维空间的样品X 被映射为一维的距离 d 来作判断. Fisher 分类法的思想也是把三维空间的样本映射为一维的特征值y , 并依据y 来进行判别. 具体的作法是先引入一个与样本同维的待定向量u, 再将y 取为X 坐标的线性组合y = uT x. 而u 的选取. 要使同一类别产生的y 尽量聚拢, 不同类别产生的y 尽量拉开.这样, 我们便可将样品X 到某一类G 的距离定义为y = uT x 与y c= uT c 之间的欧氏距离:其中c 为G 的几何中心.Fisher 分类的判据为:若L (X ,A ) L (X ,B ) , 则判定x 为B 类;若L (X ,A ) = L (X ,B ) , 则判定x 为不可判类.根据对u的要求, Fisher 提出了比较有效的选择算法, 利用该算法, 从学习样本中获得:u = (0. 3365, - 0. 087, 0. 9377)TL (X ,A ) = |0133653 (na - 0. 2860) - 0. 0873 (nt - 0. 1550) + 0. 93773 (ng - 0. 3830) |L (X ,B ) = |0133653 (na - 0. 2940) - 0. 0873 (nt - 0. 5010) + 0. 93773 (ng - 0. 1010) |用上述算法对已知样学习样本A 1—A 20进行分类, 结果仍然是除了A 4被错误的分到了B 类外, 其余的19 个样本全部正确, 分类准确率达到95%.对于未知序列A 21—A 40 进行分类, 得到的结果是:A 类: 22, 23, 25, 27, 29, 34, 35, 36, 37;B 类: 21, 24, 26, 28, 30, 31, 32, 33, 38, 39, 405、三种距离判别模型的比较这三种模型在判别结果上有一定的区别, 对于序列A 30,A 32,A 33 及A 39, 三种方法给出了不同结果, 见表1:对于这种情况, 我们提出一个联合判定准则: 对于任一个序列, 当三种分类法结果完全一致时, 认为它判别有效; 若不然,当三种分类法结果不一致时, 认为该序列为不可判类.对于三种方法都无法正确分类的A 4 序列, 可认为是异常情况, 不影响算法的性能.6、算法的稳定性前面比较算法的时候, 曾多次提到分类算法的稳定性问题. 分类算法的稳定性是除了算法的成功率之外的另一较重要的指标.所谓分类算法的稳定性, 是指算法在样本发生了轻微变化时作出正确判别的能力.对于本题,是指算法在样本序列发生了轻微的碱基缺失,错位,错排情况时作出正确判别的能力.因为本题要求我们研究的是DNA 序列粗粒化和模型化的问题,所以分类时是对序列的整体特征进行区分.局部碱基的组成变化应该对算法的分类结果没有影响.我们所提出的几个模型均较好的满足了这一点.参考文献:[ 1 ]孙乃恩, 孙东旭, 朱德煦.分子遗传学[M]. 南京:南京大学出版社, 1996.1 [ 2 ]白其峥.数学建模案例分析[M].北京:海洋出版社, 2000.1[ 3 ]潘德惠.数学模型的统计方法[M]. 辽宁:辽宁科学技术出版社, 1986.1 [ 4 ]阎平凡.黄端旭.人工神经网络[M]. 安徽:安徽教育出版社, 1991.1[ 5 ]李振刚.分子遗传学概论[M]. 安徽:中国科学技术大学出版社, 1990.1。

相关文档
最新文档