DNA序列的一种分类方法

合集下载

DNA序列分类与分析

DNA序列分类与分析

DNA序列分类与分析DNA序列是基因组研究中最重要的数据,是生命科学研究不可或缺的基础。

DNA序列分类与分析技术的发展为研究生物进化、基础医学、人类遗传学等领域提供了有力的工具。

本文将从DNA 序列分类、序列比对、序列聚类和序列分析四个方面论述DNA序列分类与分析技术的基本概念、方法和应用。

一、DNA序列分类DNA序列分类是基因组研究中的重要分支,通常使用分类系统将物种分类成类群进行研究。

在DNA序列分类中,常用的指标是DNA序列的异构性,即在DNA序列长度、结构及单个核苷酸中的差异。

异构性与物种的共同祖先和进化历史密切相关。

DNA序列分类中,最常用的方法是构建系统发育树。

系统发育树是生物分类学中用于描述不同物种、亚种或种群之间演化关系的结构图。

它是基于DNA序列比对而建立的,通过序列的相似性和区别,揭示物种之间的亲缘关系。

传统上,系统发育树的构建是基于蛋白质或RNA序列,但由于DNA序列具有更高的信息含量和进化精度,现在大多数学者使用DNA序列构建系统发育树。

二、DNA序列比对DNA序列比对是确定DNA序列异构性的关键步骤,它包括两种基本类型的比对:序列比对和结构比对。

序列比对是将两条DNA序列首尾相连,并建立匹配方式,计算相似性和不同之处。

结构比对是在DNA序列中发现二级和三级结构的变化,这些变化可能引起不同函数特性的遗传标记。

DNA序列比对的目的是识别序列的同源和非同源性。

同源性表示两者基因组DNA是从相同物种或相同基因家族的不同成员中产生而来,而非同源性表示它们来自于不同的物种或基因家族。

比对常用的方法是计算DNA序列的氨基酸比例和碱基对比率。

这个过程称为比对分析,得到的结果称为比对分析结果。

三、DNA序列聚类DNA序列聚类是一种独特的DNA分析方法,通过相似性的度量,在群体或物种间创建基于聚类的关系。

聚类是一种用于不同对象的分组方法,目的是将相似的对象放在同一组中,并将不同的对象放在不同组中。

基于DNA Barcoding技术的生物多样性研究

基于DNA Barcoding技术的生物多样性研究

基于DNA Barcoding技术的生物多样性研究1. 引言生物多样性是自然界的重要组成部分,不同物种之间具有独特的生命形态和生物学特性。

随着人类活动的加剧,许多物种受到了严重威胁,成为濒危甚至灭绝物种。

因此,研究生物多样性和物种分类成为了一个重要的研究领域。

近年来,随着基因技术的发展,DNA Barcoding技术在生物多样性研究中得到了广泛应用。

2. DNA Barcoding技术基本原理DNA Barcoding技术是一种基于分子生物学的技术,通过测定物种间特定的DNA序列,来进行分类和识别。

目前,DNA Barcoding技术常用的基因为线粒体DNA的COI基因。

COI基因具有以下优点:在不同物种之间的保守性较高,易于扩增和测序,所以成为了DNA Barcoding技术的主要基因。

在使用DNA Barcoding技术进行生物分类和识别时,需要经过以下步骤:提取并纯化样品的DNA,扩增COI基因,测序并构建系统发育树以辅助分类和物种识别。

通过COI基因在不同物种之间的差异,可以有效地识别和分类目标物种。

3. DNA Barcoding技术在生物多样性研究中的应用3.1 空间分布模式研究DNA Barcoding技术可以通过对不同生物样品的COI基因序列进行比对,研究其空间分布模式。

利用DNA Barcoding技术,可以快速、准确地识别和分类样品,进而揭示其分布特征。

在生态学领域,DNA Barcoding技术也可以用于研究物种群体的空间分布、种间物种竞争等问题。

3.2 物种鉴定和分类在生物多样性研究中,物种鉴定和分类是一个重要的研究方向。

传统的物种鉴定和分类方法需要对生物形态、生理学、行为等进行研究,耗时且易造成分类误差。

而DNA Barcoding技术可以通过其高度标准化的测量手段,快速建立物种鉴定和分类模型。

同时,DNA Barcoding技术还可以揭示物种的交叉聚类现象和多样性来源等问题,从而帮助深入研究物种的进化与分化历史。

人类基因组dna的分类

人类基因组dna的分类

人类基因组dna的分类人类基因组DNA的分类人类基因组DNA是指构成人类遗传信息的一系列DNA序列,它根据不同的功能和特征可以被分类。

这些分类对于我们了解人类基因组的结构和功能非常重要,有助于研究人类遗传性疾病的发生机制,以及人类进化和种群起源的研究。

本文将介绍人类基因组DNA的分类,并对每个分类进行简要说明。

1. 编码DNA编码DNA是指人类基因组中具有编码蛋白质的功能序列。

它包含了一系列基因,每个基因都含有一段能够编码特定蛋白质的DNA序列。

根据最新的研究,人类基因组中大约有20,000至25,000个编码基因。

这些编码基因决定了我们身体的结构和功能,包括生长发育、免疫系统、代谢过程等。

2. 非编码DNA非编码DNA是指在人类基因组中不具有编码蛋白质的功能序列。

尽管非编码DNA不参与蛋白质的编码,但它们在维持基因组的结构和功能上起着重要的作用。

非编码DNA可以分为多个子类,其中包括:- 转录调控区域:转录调控区域是位于编码基因附近的DNA序列,它们通过与转录因子结合来调控基因的转录过程。

转录调控区域对于基因的表达调控至关重要,决定了基因在不同组织和不同发育阶段的表达模式。

- 基因间区域:基因间区域是指编码基因之间的DNA序列。

虽然这些区域不含有编码蛋白质的序列,但研究发现它们可能包含一些重要的非编码RNA序列,这些RNA可能在基因调控和细胞过程中发挥作用。

- 重复序列:重复序列是指在基因组中重复出现的DNA序列。

它们可以分为两类:串联重复序列和散在重复序列。

串联重复序列是连续重复出现的DNA序列,如端粒重复序列和线粒体DNA重复序列。

散在重复序列是在基因组中分散出现的DNA序列,如转座子和微卫星序列。

3. 突变DNA突变DNA是指人类基因组中发生的突变,包括单核苷酸多态性(SNP)和结构变异。

SNP是指在基因组中单个核苷酸发生突变的现象,它是人类基因组中最常见的遗传变异形式。

结构变异是指基因组中较大片段的插入、缺失、倒位或重复等突变。

DNA序列的分类方法

DNA序列的分类方法

DNA序列的分类方法摘要:本文通过对20个已知类别的DNA序列进行统计分析,由浅入深进行研究,建立了五种DNA序列分类的模型。

模型一利用单个碱基在序列中的含量不同,提出单碱基分类标准;模型二根据碱基c,g的百分比之和与碱基a,t的百分比之和的比值α=++进行分类;模型三根据各序列中氨基酸分布不同引入分类参数β得到C G A T()/()分类标准;模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系,对未知类别的DNA相对于不同类别集合的距离进行分类;模型五利用模糊聚类分析法对DNA进行分类.关键词:DNA 分类模糊聚类分析一、问题的提出及分析1953年,诺贝尔奖获得者沃森(Watson)和克里克(Crick)创造了DNA链的双螺旋模型,并提出遗传信息由DNA传递给蛋白质的基本法则——中心法则.DNA(脱氧核糖核酸)链是由四种不同的核苷酸(a, t, g, c)排列而成,在DNA中,每三个核苷酸顺序组成一种氨基酸,共64种排列方式对应着20种氨基酸(其中有些不同排列对应同一种氨基酸).对于一个DNA来说,我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA 中的含量及排序方式.不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质.我们对DNA进行分类时,就应该考虑分布与排序所表示出来的特性,而将特性相近的DNA分为一类.在本文,我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性,对DNA进行分类.二、模型的基本假设与符号说明(一)基本假设(1)题中所列40个数据为40个不同DNA的40个片段,且包含着每个DNA 中我们所关注的主要信息;(2)182个DNA序列也为182个DNA中的片段,其中包含着以上40个数据中我们所关注的主要信息;(3)上面的所有DNA序列起始处都为一个完整氨基酸的起始处,每三个一组代表着不同氨基酸的排列.(二)符号说明a, t, g, c分别表示腺嘌呤,胸腺嘧啶,鸟嘌呤,胞嘧啶;,,,A T G C表示DNA片段中分别含a, t, g, c的百分比含量;a, t, g, c中任意3字符的组合为一个氨基酸(包括终止符);()/()C G A Tα=++;β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).三、模型的建立与求解模型一单碱基分类法通过对A,B类DNA序列的细致观察,容易看出,A类的碱基g的个数较多,而B类中碱基t的个数明显多于其他碱基,于是我们对A,B 类序列进行统计得到表1.表1A类中碱基百分比含量 B类中碱基百分比含量上述表格中的数据表明,除第4个数据外,A类中的t的百分比都小于0.19,g的百分比大于0.36, 而B类除倒数第4个数据(第17个序列)中的t的百分比含量大于0.45,g的百分比含量小于0.146.由此得到分类标准为:若0.2636G≥,则该序列属于A类;若T≤且0.1802G<,则该序列属于B类.T≥且0.18020.2883对21~40序列进行统计得到表2.表2 21~40序列中碱基百分比含量根据序列21~40的数值结果(见表2),对序列21~40进行分类可得如下结果:A类:22,23,25,27,29,30,34,35,36,37,39(共11个);B类:21,28,38,40(共4个);评析:此模型易于辨别,对于某些特征较显著的DNA序列的分类较有效,但对DNA中深入的研究缺少足够的理论支持,于是我们对模型进行进一步改进.模型二:参变量α分类法α的值[]1不根据DNA基因技术理论,不同来源的DNA序列()()T=+GC+Aα,得到A类,B类以及序列21~40关于α的数同,引进参数()()T=+AGC+据(见表3、表4).表3 A、B类关于α的数据表表4 序列21~40关于α的数据表通过以上数据的分析,我们发现A类中α的值在0.85~2.1429之间(除第4个数据外),B类中α的值在0.1702~0.6176之间,我们认为A类具有α>0.85这一特征,即B类中含有碱基a、t的数量较c、g多,以α为标准对序列21~40进行分类可得A类:22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39(共11个);B类:21 、24、 28、 38、40(共5个);评析:根据来源不同的DNA序列中,碱基a、t的数量与c、g的数量比例的不同,制定一个较为合理的标准,来区分序列21~40,且具有实际的生物意义[]1和价值.模型三:氨基酸含量分类法我们尝试从氨基酸的分布着手,找出属于A 类(或B 类)DNA 的数据特征,就认为未知DNA 序列只有A 类(或B 类)的性质.我们对A 类和B 类DNA 序列统计出20种氨基酸(剔除休止符)的分布,考虑各DNA 序列长度的不同,对20种氨基酸的百分比的分布绘图,如图所示(含数据):按生物学理论]1[对氨基酸进行分析,由分布图形可以断定,A 类中精氨酸(cga 、cgg 、cgc 、cgt 、aga 、agg )和甘氨酸(ggc 、ggt 、gga 、ggg ),B 类中赖氨酸(aaa 、aag )和苯丙氨酸(ttt 、ttc )为特征氨基酸,引入参数β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).并求得A 、B 类以及序列21~40关于β的数值(见表5、表6).表5 A 、B 类关于β的数值表表6 序列21~40关于β的数值表容易得出分类标准为:当0≤≤β 1.4,则序列属于 A 类;当0≤≤β 1.4,则序列属于B 类;当1.45.1≤≤β时,则序列无法区分.根据上述分类标准,对序列21~40进行分类得: A 类:22,23,25,27,29,34,35,36,37,39(共10个) B 类:21,24,26,28,30,31,32,33,38,40(共10个) 模型四:中心距离分类法对任何的DNA 序列中的各种氨基酸的百分比含量,容易统计求得,不妨设氨基酸的向量1220(,,,)i i i i S s s s = ,则i S 为一个20维的向量,对于己知的DNA 序列,A,B 类氨基酸的含量百分比和均值分别为:1220(,,,),1,2,,10A A A Ai i i i S s s s i == ; 1220(,,,),1,2,,10B B B B i i i i S s s s i == ; 1011,1,2,,2010A Ajij i S S j ===∑ ;1011,1,2,,2010B Bjij i S S j ===∑ .A 类DNA 序列氨基酸的空间重心为1220(,,,)A A A AS S S S = ;B 类DNA 序列氨基酸的空间重心为1220(,,,)B B B BS S S S = .我们定义i S 到A,B 中序列的氨基酸向量重心的中心距离分别为:20()1,1,2,,10i A Aij j j dS S i ==-=∑ .20()1,1,2,,10i B Bij j j dS S i ==-=∑ .A 类中各序列的氨基酸向量到B 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i A B ABij j j dS S i ==-=∑ ;B 类中各序列的氨基酸向量到A 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i BA BAij j j dS S i ==-=∑ . 我们认为两个DNA 序列的氨基酸向量的距离越近,则这两个序列的氨基酸拟合程度越高,这样确定如下分类准则:(1)DNA 序列的氨基酸向量与A 的重心A S 的距离0.7733d <时,则序列属于A 类;(2)DNA 序列的氨基酸向量与B 的重心B S 的距离0.6660d <时,则序列属于B 类;(3)否则说明该DNA 序列无法归类.应该说明的是,由数值结果(见下表)知,这种准则不会将己知的A 类归于B 类,己知的B 类中的序列归于己知的A 类. 数据结果如下:根据序列21-40的如下的数据结果:用上述的分类准则对序列21-40进行分类得: A 类:27,34,35 B 类:28评析:模型四引入DNA 的氨基酸向量到己知类别(A 类,B 类)重心的距离,提出分类准则,对未知DNA 序列进行分类,具有很好的新意,这样就把一个DNA 序列的排列问题转化为一个空间向量的距离问题.若某DNA 中序列的氨基酸含量的百分比向量到己知的类别的重心距离小,则说明这个DNA 中的序列各种氨基酸含量的百分比与己知类别的氨基酸含量的百分比拟合程度较高,则归入己类别,具有很高的生物学参考价值.模型五:模糊聚类分析分类法如题目已知:DNA 序列1~20,按一定的方法分成A,B 二类,我们用模糊聚类分析方法建立A,B 二类合并后的20个序列的相似矩阵2020()ij R r ⨯=,其中20AB AB AB AB ijikjkij SSSSr --=∑然后通过平方法求其他传递闭包R ',我们取λ水平为0.73,这样将20个序列分为二类A '类和B '类,与原来的A 、B 两类唯一区别是A 类中序列4通过处理后划分到B '类中去,这种分类方法与原来已分好的A ,B 类所形成的差异,其原因可能有以下几种(1) 原来的分类方法有误 (2) 序列4数据有误 (3) 数据信息特征的提炼不够当然我们用某些特殊方法使得分类结果与原来假定的分类吻合.如凡以gt 开头的序列划分为B 类,但这仅仅是一种数字游戏,看不出实际的意义,而且对后面的数据划分无从下手.为了避免A 中序列4的异类特性对A 类整体特征的影响,我们将它从 A 类中删除,只留下其余9个序列作为进一步分析的对象. 我们将待分类的20个序列的集合定义为C .C 中序列i C 与A 中(或B 中)每个元素)9,,1( =i a i 或)10,,1( =i b i 的相关系数的平均值定义为ia r (或ib r )对于C 中任一元素i c ,如ib ia r r >,且6.0>ia r ,则认为i c 隶属于A 类:如ia ib r r >,且6.0>ib r ,则认为i c 隶属于B 类。

DNA序列分类

DNA序列分类

DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。

知识扩展DNA序列分类DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。

DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。

主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。

DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。

其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。

FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。

欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。

公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。

11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评

11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评

2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。

DNA序列的分类

第31卷第1期2001年1月数学的实践与认识M AT HEM A TICS IN PRACTICE A ND T HEORYV ol.31 N o.1 Jan.2001 任意选出比较多的(为了保证较高的准确性),利用key w ord作为分类标准,然后利用本文提供的加权系数的确定方法就可以定出一个具体的定量标准.具有一定实用价值.参考文献:[1] 李 涛,贺勇军等.M AT LAB工具箱应用指南——应用数学篇.电子工业出版社.[2] 袁亚湘.最优化方法.科学出版社.[3] 张乃孝,裘宗燕.数据结构——c++与面向对象的途径.高教出版社.[4] 汪仁官.概率论引论.北京大学出版社.[5] 陈家鼎,孙山泽等.数理统计学讲义.高教出版社.The Grouping of DNA Sequences ModelYANG Jian, WANG Chi, YANG Yong(Peking U niv ersity,Beijing 100871)Abstract: In this paper,a metho d to classify the DN A sequences is pro po sed.M at hem aticalmethods such as statist ics and optimizatio n ar e used to build t he model.T he data is analysedsufficiently and the“cr itical w or ds”is g ot,w hich can r epresent the char acter istics o f eachgr oup.A ccor ding to this,a quant itative standard for gr ouping is br ought fo rw ar d.T his modelcan pr operly classify t he g iv en data thr oug h t esting.Fir st,t he str ings w hich appear repeatedly(called w or ds)in t he g iv en data ar e scanned out.T he sta ndard frequency and dispersion foreach wo rd ar e calculat ed.Seco nd,using the L east Squar es method,t he pr io rit y functio n isfix ed.T hr oug h stepwise optimizat ion,the co efficients ar e made stable.T hird,the key wo rdsar e selected out and calculate the w eig ht accor ding t o t he pr io rity functio n.A t last,using the“analyse hier ar chy pro cess”,the undeterm ined dat a is classified.T his met ho d can classify theundeter mined data(N o.21—N o.40)fair ly w ell,it can also g iv e g oo d result fo r the last182sequences.DNA序列的分类韩轶平, 余 杭, 刘 威指导老师: 杨启帆(浙江大学,杭州 310027)编者按: 本文借助于计算机符号处理的能力来把握序列中不同碱基的丰度特征,从而进行了利用数理统计方法的分类研究.而后引入相关度分类判别算法及反馈机制来比较碱基的相对位置,在既定方向上颇具新意地把工作推向深入.不足之处在于,未能使用相关度工具对各类样本分别进行分析;此外,“纯数学”必须与其他学科紧密结合才会有优秀的建模工作,本文虽然对编码氨基酸的三联体进行初步探讨,着墨处自是轻淡许多.摘要: 本文对A 题中给出的DNA 序列分类问题进行了讨论.从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型,马氏距离判别模型以及Fisher 准则判定模型;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法,并进一步研究了带反馈的相关度分类判别算法.对于题中所给的待分类的人工序列和自然序列,本文都一一作了分类.接着,本文又对其它各种常见的分类算法进行了讨论,并着重从分类算法的稳定性上对几种方法作了比较.1 问题的重述(略)2 模型的条件和假设(略)3 符号约定na :任一给定序列中碱基A 的百分含量;ng :任一给定序列中碱基G 的百分含量;nt:任一给定序列中碱基T 的百分含量;nc :任一给定序列中碱基C 的百分含量.Gi :由某些具有相同属性的个体组成的类4 问题的分析和解答4.1 概述根据题意,我们首先要提取出一个序列的特征,然后给出它的数学表示,最后选择并构造基于这种数学表示的分类方法.对于一个任意一个DNA 序列,我们认为,反映该序列特征的方面有两个:1.碱基的含量,反映了该序列的内容;2.碱基的排列情况,反映了该序列的形式.4.2 基于碱基含量特征分类的模型首先,我们考虑采用序列中的A ,G ,T ,C 的含量百分比作为该序列的特征.这样的抽取特征的方法具有其生物学的意义.前面提到过,在不用于编码蛋白质的序列片断中,A 和T 的含量特别多些,因此以某些碱基特别丰富作为特征去研究DN A 序列的结构是具有可行性的.将序列中的A ,G ,T ,C 的含量百分比分别记为na ,ng ,nt ,nc ,则得到一组表征该序列特征的四维向量(na ,ng ,nt ,nc ).考虑到na ,nt ,ng ,nc 线性相关(na +ng +nt +nc =1),所以我们采用简化的三维向量(na ,nt ,ng )来进行计算.对于标号为i 的序列,记它的特征向量为X i .显然,任意序列的特征向量与一个3维空间的点对映.一般的判别问题为:设有k 个类别G 1,G 2,…,G k ,对任意一个属于G i 类样品x ,其特征向量X 的值都可以获得.现给定一个由已知类别的一些样品x 1,x 2,…,x n 组成的学习样本,要求对一个来自这k 个类别的某样品x ,根据其特征向量X 的值作出其所属类别的判断.在本题DNA 序列分类中,k =2,G 1=A ,G 2=B ,特征向量X 是三维的.学习样本共包含n =20个样本,其中10个属于A ,10个属于B .我们分别采用了欧氏距离(Euclid)分类模型,马氏距离(Mahalanobis)分类模型和Fisher 判别模型来对序列样本分类.391期韩轶平等:DN A 序列的分类4.2.1 欧氏距离(Euclid)分类模型在欧氏距离(Euclid)分类模型中,把每个样本视为三维空间的一个点,以其到不同集合几何中心的欧氏距离作为判据.具体的算法如下:1.计算属于A类与属于B类的10个样本点的集合各自的几何中心:C A=110∑10i=1X i C B=110∑20i=11X i 2.对于给定的样本点X i,分别计算该点到C A的欧氏距离D A=ûX i-C Aû,以及该点到C B的欧氏距离D B=ûX i-C Bû;3.判别准则如下:(1)若D A<D B,则将X i点判为A类;(2)若D A>D B,则将X i点判为B类;(3)若D A=D B,则将X i点判为不可判类;用上述算法对已知样学习样本A1—A20进行分类,结果是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%.用上述算法对未知的人工序列A21—A40进行分类,得到的结果是:A类:22,23,25,27,29,30,32,34,35,36,37,39;B类:21,24,26,28,31,33,38,40用上述算法对未知的自然序列N1—N182进行分类,得到的结果见附录.(略)用欧氏距离作为判据虽然简便直观,但存在着明显的缺陷:从概率统计的角度来看,用欧氏距离描述随机点之间的距离并不好.因此当待分类样本是随机样本,具有一定的统计性质时,这个模型并不能很好的描述两个随机点之间的接近程度.4.2.2 马氏距离(Mahalanobis)分类模型为了克服采用欧氏距离时的缺陷,我们采用马氏距离来代替欧氏距离.改进后的算法如下:设:三维总体G的均值为L=(L1,L2,L3)T,协方差矩阵为非奇异阵V3x3,则三维样本X 到总体G的马氏距离为:dm(X,G)=(X-L)T V-1(X-L)其中未知的L可用学习样本的均值来代替,协方差矩阵V可用学习样本的样本协方差矩阵来代替.将马氏距离用于判别模型,遵循判据如下:1.若dm(X,A)<dm(X,B),则判定x为A类;2.若dm(X,A)>dm(X,B),则判定x为B类;3.若dm(X,A)=dm(X,B),则判定x为不可判类;用上述算法对已知样学习样本A1—A20进行分类,结果是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%.用上述算法对未知序列A21—A40进行分类,得到的结果是:A类:22,23,25,27,29,30,32,33,34,35,36,37B类:21,24,26,28,31,38,39,40用上述算法对未知的自然序列N1—N182进行分类,得到的结果见附录.(略)40数 学 的 实 践 与 认 识31卷4.2.3 Fisher 准则分类模型在多维空间里分类的方法不仅仅是距离分类法一种,常用的Fisher 分类法就是另一种基于几何特性的分类法.在距离判别模型中,三维空间的样品X 被映射为一维的距离d 来作判断.Fisher 分类法的思想也是把三维空间的样本映射为一维的特征值y ,并依据y 来进行判别.具体的作法是先引入一个与样本同维的待定向量u ,再将y 取为X 坐标的线性组合y =u T x .而u 的选取.要使同一类别产生的y 尽量聚拢,不同类别产生的y 尽量拉开.这样,我们便可将样品X 到某一类G 的距离定义为y =u Tx 与y c =u Tc 之间的欧氏距离:L (X ,G )=ûy -y c û=ûu T(x -c )û其中c 为G 的几何中心.Fisher 分类的判据为:1若L (X ,A )<L (X ,B ),则判定x 为A 类;2若L (X ,A )>L (X ,B ),则判定x 为B 类;3若L (X ,A )=L (X ,B ),则判定x 为不可判类.根据对u 的要求,Fisher 提出了比较有效的选择算法,利用该算法,从学习样本中获得:u =(0.3365,-0.087,0.9377)TL (X ,A )=û0.3365*(na -0.2860)-0.087*(nt -0.1550)+0.9377*(ng -0.3830)ûL (X ,B )=û0.3365*(na -0.2940)-0.087*(nt -0.5010)+0.9377*(ng -0.1010)û 用上述算法对已知样学习样本A1—A20进行分类,结果仍然是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%.对于未知序列A 21—A 40进行分类,得到的结果是:A 类:22,23,25,27,29,34,35,36,37;B 类:21,24,26,28,30,31,32,33,38,39,40用上述算法对未知的自然序列N 1-N 182进行分类,得到的结果见附录.(略)4.2.4 三种距离分类模型的比较表1欧氏距离法马氏距离法Fisher 准则法30A A B 32A A B 33B A B 39ABB这三种模型在分类结果上有一定的区别,对于序列A30,A32,A33及A 39,三种方法给出了不同结果,见表1.对于这种情况,我们提出一个联合判定准则:对于任一个序列,当三种分类法结果完全一致时,认为它判别有效;若不然,当三种分类法结果不一致时,认为该序列为不可判类.对于三种方法都无法正确分类的A4序列,可认为是异常情况,不影响算法的性能.4.3 基于碱基位置特征分类的模型虽然上述采用碱基A,T ,G,C 在DN A 序列里的含量作为该序列的特征的方法有一定的生物学意义并且在DNA 序列的分类中获得了比较理想的结果.但是,用这种方法抽取特征,没有充分体现碱基排列的信息量,仅仅考虑碱基含量并没有体现碱基在序列中的排列情况.例如,序列(AT GC)与序列(CGT A)有着相同的碱基含量,他们的特征向量是完全一样的,并不能体现在排列结构上的不同.因此,直接从序列本身的碱基排列顺序来考察序列就成为一种更加合适的提取特征的方式.因此采纳数值序列中的相关性分析设计了算法.411期韩轶平等:DN A 序列的分类通常任意两个数值序列的相关性都是通过这两个序列的相关函数来刻画的.由于本题中的DNA 序列是非数值的序列,同时无法将碱基按通常的方式进行数值化,因而刻画任意两个序列的相关程度的变量需要重新定义.表2ªA G T C A 1000G 0100T 0010C14.3.1 定义一:相关运算“á”对于任意碱基m 和n ,相关运算“m án ”的值由表2定义:4.3.2 定义二:哑元O除四个碱基外,我们另行定义一个哑元O ,规定任意碱基与哑元作相关运算的结果都为0.4.3.3 定义三:序列的延拓对于任意一个长度为N 的序列A i (其中0≤i <N ),定义它的延拓为如下一个无限序列:A +j :当0≤j <N 时,A +j =A j ;当-∞<j <0及N ≤j <∞时,A +j =O .即在该序列的左右两端均用哑元O 填充.4.3.4 定义四:序列的相关度对于任意的两个序列A N ,B M ,定义序列A 和序列B 的相关序列S i 为:S i =∑∞k =0A+k +2-iáB +k (0F i F n +m -1) 定义序列B 对序列A 的相关度为:S =M A X {S i } (0F i F n +m -1) 例如对于序列A {T ,C ,T }与序列B {A ,G ,T ,C ,T ,C },相关序列及相关度的计算步骤如下:第一项:S 0=A 2ªB 0=T ªA =0…A +-1A +0A +1A +2A +3A +4A +5A +6A +7A +8……O T C T O O O O O O ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…第二项:S 1=A 1ªB 0+A 2ªB 1=T ªG +C ªA =0…A +-2A +-1A +0A +1A +2A +3A +4A +5A +6A +7……O O T C T O O O O O ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…第三项:S 2=A 0ªB 0+A 1ªB 1=T ªT +G ªC +A ªT =1…A +-3A +-2A +-1A +0A +1A +2A +3A +4A +5A +6……O O O T C T O O O O ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…以下类推得(表略):第四项:S 3=A 0áB 1+A 1áB 2+A 2áB 3=T áC +C áT +T áG =042数 学 的 实 践 与 认 识31卷第五项:S 4=A 0áB 2+A 1áB 3+A 2áB 4=T áT +C áC +T áT =3第六项:S 5=A 0áB 3+A 1áB 4+A 2áB 5=T áC +C áT +T áC =0第七项:S 6=A 0áB 4+A 1áB 5=C áC +T áT =2第八项:S 7=A 0áB 5=T áC =0第八项:S 7=A 0ªB 5=T ªC =0…A +-8A +-7A +-6A +-5A +-4A +-3A +-2A +-1A +0A +1……O O O O O O O O T C ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…两序列的相关度为S =M AX {S i }=S 5=3;4.3.5 定理一:任意给定三个序列S ,A ,B ,若A 与S 的相关度大于B 与S 的相关度且B 与A 等长,则A 与S 属同一类的可能性大于B 与S 属同一类的可能性4.3.6 基于相关度的分类算法:利用上述概念,我们构造了一个基于相关度的分类算法,如下:1.对于序列A21—A40,N1—N182中的任意一个序列,将其与序列A 1—A20中的每一个依次作求相关度的运算,结果记为SS1,SS2,SS3……SS20;2.对于前十个相关度,求出它们的平均相关度SA =(SS 1+SS 2+……SS 10)/10,并定义其为与A 类的相关度;3.对于后十个相关度,求出它们的平均相关度SB=(SS11+SS12+……SS20)/10,并定义其为与B 类列的相关度;4.记W =SA /SB ,根据定理一,判别依据为:若W>1,则将X 点判为A 类;若W<1,则将X 点判为B 类;若W =1,则将X 点判为不可判类;5.W 可作为衡量该序列分类的可信性的一个标准.显然当W 越接近于1,该序列与A 类的相关性和与B 类的相关性区别就越小,分类结果就越不可信;反之,W 与1差的越远,该序列与A 类的相关性和与B 类的相关性区别就越小,分类结果就越可信.这个变量对我们下面带有反馈的相关度分类算法具有重要的意义.用上述算法对已知样学习样本A1-A20进行分类,得到的结果是分类完全正确,A,B 类可以完全分开,准确率达到100%.对于未知序列A 21—A 40进行分类,得到的结果是:A 类:222325272934353637B 类:2124262830313233383940用上述算法对未知的自然序列N 1—N 182进行分类,得到的结果见附录(略).4.3.7 相关度分类算法的改进——带有反馈的分类算法上述的相关度分类算法是一次性学习过程,学习的过程只体现在学习样本的过程中,而在对未知样本分类的过程中没有对已分类情况作出修正,即是属于无反馈型的学习.然而,采用反馈型的学习过程会有更好的分类结果.一般说来,带反馈的算法以神经网络算法最具有代表性.但对于一般的分类算法而言,可以采用多次反复分类的办法来实现反馈的目431期韩轶平等:DN A 序列的分类44数 学 的 实 践 与 认 识31卷的.针对上述的相关度分类算法,我们设计了如下带反馈的相关度分类算法:1.对全部182个样本进行相关度分类;2.计算全部182个W的值3.在所有被判为A类的待分类序列中,取出W值最大的一个,作为标准学习样本,加入到A类的标准样本中(若有多个,则全部加入到A类中,若无被判为A类的序列,则保持A类标准学习样本不变.)4.在所有被判为B类的待分类序列中,取出W值最小的一个,作为标准学习样本,加入到B类的标准样本中(若有多个,则全部加入到B类中,若无被判为B类的序列,则保持B类标准学习样本不变.)5.重复对剩余的待分类序列进行相关度分类,并按上述步骤不断扩充标准学习样本,直至全部的待分类序列都被加入到标准学习样本中.我们用新算法编程对182个序列进行了重新分类,得到了不同于原无反馈分类算法的结果,而且新的分类结果的W值明显与1离开的更大,这使我们有理由相信,反馈对算法的性能有一定的改进.5 进一步研究的问题5.1 基于生物学的特征抽取我们上述的两种特征抽取方法更多的是从纯数学眼光来研究序列的特征.除此之外,我们还可以考虑DNA序列在生物学意义下的数学特征.一个比较容易考虑到的方面便是三联体在DNA序列中的出现.由于具有三联体形式的遗传密码子对蛋白质的合成具有决定性作用,有理由认为它在序列中的出现体现了该序列的本质特征.题中没有明确的指明所给的序列是全序列还是序列片断,我们无法对三联体在序列中的出现位置进行定位,一种代替的方法是将序列假定为全序列,从第一个碱基开始三个三个一组的划分为密码子,然后统计64个密码子的出现概率,形成64维的向量.再使用距离分类等模型,或利用生物学的知识先将64维向量的某几维合并,降维后再分类.我们编程演算后,觉得该种分类方法比较依赖于密码子的划分,一位碱基的缺失或错位均会造成分类错误,所以必须加以修改,一条思路是尝试将序列移一位或二位再划分密码子,由于时间所限,没有进一步研究.5.2 基于人工神经网络的模型人工神经网络是一种带反馈的自适应算法,随着计算机速度提高被广泛应用.对于本题的情况采用神经网络模型是合适的,它可以在给定特征向量的情况下代替一般的距离分类模型.对于基于碱基含量的特征向量(na,nt,ng),构造了如下的反向传播算法:1.网络简单的分为两层,一层为输入层,有3个单元,分别为权重a,b,c;一层为输出层,有1个单元,为判别结果;各单元均为Sigmo id型函数激励.2.设定(a,b,c)的初值为(0,0,0);A类学习样本的标准输出定为1;B类学习样本的标准输出定为03.对每一个学习样本,计算S=a*na+b*nt+c*ng作为输出;4.将学习样本的标准输出与S相减,所得的差用来指导权重的改变,权重的改变遵从Widro w-H off准则.5.反复学习样本,到权重值稳定收敛.6.代入待分类样本,分类.用上述算法所得到的结果与普通的分类模型没有区别.事实上当权值稳定收敛后,S =a *na +b *nt +c *ng 就是特征空间的一张(超)平面,从这一点来说,人工神经网络模型与一般的距离分类模型得到的结果没有两样.考虑到人工神经网络模型还存在结果对初值有较强敏感性,缺乏选择理想步长的准则和收敛性等问题,在一定的时间内,我们无法较好的解决这些问题,所以我们也没有作进一步讨论.6 算法的稳定性前面比较算法的时候,曾多次提到分类算法的稳定性问题.分类算法的稳定性是除了算法的成功率之外的另一较重要的指标.所谓分类算法的稳定性,是指算法在样本发生了轻微变化时作出正确判别的能力.对于本题,是指算法在样本序列发生了轻微的碱基缺失,错位,错排情况时作出正确判别的能力.因为本题要求我们研究的是DNA 序列粗粒化和模型化的问题,所以分类时是对序列的整体特征进行区分.局部碱基的组成变化应该对算法的分类结果没有影响.我们所提出的几个模型均较好的满足了这一点.参考文献:[1] 孙乃恩,孙东旭,朱德煦.《分子遗传学》.南京大学出版社,1996.[2] 白其峥.《数学建模案例分析》.海洋出版社,2000.[3] 潘德惠.《数学模型的统计方法》.辽宁科学技术出版社,1986.[4] 阎平凡,黄端旭.《人工神经网络》.安徽教育出版社,1991.[5] 李振刚.《分子遗传学概论》.中国科学技术大学出版社,1990.[6] Du ane Hanselman.Bruce Littlefield 《M asterin g M AT LAB:a comp rehensive tutorial and reference 》.Prentice Hall,1996.Classification of DNA SequencesHAN Yi -ping , YU Hang , LIU Wei(Zhejiang U niv.,Hang zho u 310027)Abstract : T his paper pr oposes sever al metho ds fo r the classificatio n of DN A sequences.W e noticed that differ ent sequences hav e different alkali r adicals and t her efo re set up models using Euclidean distance ,M ahalano bis distance a nd F isher principle .We also no ticed that differ ent sequences hav e differ ent permutat ions o f alkali r adicals a nd an alg or ithm using r elativ ity analy sis is pr oposed.F ur ther w e discussed a r elativity analy sis alg or it hm w ith feed-back mechanism.A s to t he natural and art ificial data g iv en our alg or ithms w o rk well and fine r esults ar e giv en .A t last sever al o ther co mmon algo rithms are co mpar ed ,especia lly o n theirstabilities .451期韩轶平等:DN A 序列的分类。

DNA序列分析方法的研究

DNA序列分析方法的研究DNA序列分析是生物学领域中的重要问题之一,因为DNA序列包含了基因表达、物种演化和生命起源等诸多方面的信息。

因此,开发高效的DNA序列分析方法是生物学研究的关键之一。

本文将从DNA序列分析方法的常见分类、研究现状和挑战以及发展趋势几个方面进行探究。

一、DNA序列分析方法的常见分类DNA序列分析方法主要可以分为两类:基本分析和高级分析。

1. 基本分析基本分析包括了序列比对、序列注释、序列可视化等几个方面。

其中,序列比对是指将一组新的序列与一组已知的序列进行比较,以了解它们之间的相关性。

序列注释是将DNA序列的信息(例如基因位点、蛋白质编码等)与外部数据库中的信息进行关联。

序列可视化则是将DNA序列以图形化的方式呈现。

2. 高级分析高级分析包括了序列聚类、序列演化、序列预测等几个方面。

其中,序列聚类是将序列按照其相似度进行分组,以便识别相同的序列。

序列演化是通过DNA序列推断物种之间的演化关系,以及推测这些演化过程发生的时间和模式。

序列预测则是基于DNA序列构建生物学模型,在不同应用场景中进行生物学预测。

二、DNA序列分析方法的研究现状和挑战DNA序列分析方法涉及到的生物信息学问题有:序列存储、数据提取、序列比对、定位基因突变、预测功能等,都具有多样化和复杂性的特点。

随着现代测序技术的不断普及,大量复杂DNA序列的快速处理越来越成为一个实际需求。

虽然基于大数据等新技术的DNA序列分析已经成为一种趋势,但仍然存在一些问题和挑战,具体如下:1. 数据质量和预处理DNA序列在测序过程中,可能出现像碱基置信度变差等清除方面问题。

此外,也存在在大规模比对过程中,带有不确定度的区域较难处理,泛指标本质也存在困扰。

因此,如何实现高质量的数据、相应的预处理工作仍然是一个挑战。

2. 数据集的选择对于一个给定生物问题,可以与之相应的数据集通常被认为是决定该研究方向是否行之有效的关键因素之一。

由于数据来源的多样性和规模的巨大性,如何进行评估、收集和整合数据集仍然是一个问题。

最新A题DNA序列的类别(南昌大学全国一等奖)

用判别分析的方法判定DNA序列的类别摘要判别分析法是多元统计分析中的重要内容之一。

近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。

本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。

通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(<1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。

关键词:DNA序列、Fisher判别法、判别函数、错判率。

一、问题提出1.背景人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。

这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。

在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。

对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。

2.问题有20个已知类别的人工序列:A类,B类。

1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。

2..对另给出的182个自然序列进行分类。

二.问题的分析本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:1)来源于已知样本。

2)具有给予未知类别的DNA序列分类的功能。

3)能较好的接受检验样本的检验。

全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。

DNA序列分析方法及应用

DNA序列分析方法及应用随着人类基因组计划的完成,人们对基因组的研究变得越来越深入。

在基因组研究中,DNA序列分析是一项非常重要的技术。

DNA序列分析是指对DNA序列进行分析,从中发现或确认相关的生物学特性。

大致可以分为以下几个步骤:1. 序列获得DNA序列可以通过多种方法获得,包括Sanger测序、Next Generation Sequencing (NGS),还有第三代测序等。

Sanger测序是一种最早也是最常用的测序方法。

这种方法通过不断补充碱基链来构建DNA序列。

NGS技术相对于Sanger测序新一些,但也已经广泛应用于DNA序列分析中。

NGS技术可以同时测序大量的DNA片段,往往需要进行大量的数据预处理。

第三代测序则是最新的一种DNA测序技术,其基于单分子二代测序原理,具有低样本、快速、高通量等特点。

2. 数据预处理DNA序列数据通常需要进行数据预处理。

数据预处理的目的是去除低质量的序列、过滤冗余序列、对序列进行拼接和修复错误等。

目前存在的DNA序列数据处理软件很多,例如Trimmomatic、Prinseq、BBduk、Cutadapt等。

3. 序列比对DNA序列比对是指将已知的DNA序列与未知的DNA序列进行比对,从而发现基因组中已知的特定区域。

这是一项非常关键的技术,可用于研究基因功能、基因表达调节等。

常用的DNA序列比对软件包括Bowtie、BWA、BLAST等。

4. 序列注释DNA序列注释是指将已知基因序列与未知的DNA序列进行分析,从而确定DNA序列中的基因和调节元件等重要区域。

这个过程通常涉及到对DNA序列进行基因识别、蛋白质预测、功能注释等分析。

常用的DNA序列注释软件包括GeneMark、Glimmer、Augustus、Prodigal、PROSITE、KEGG、GO等。

DNA序列分析的应用非常广泛。

以下列出一些典型的应用:1. 基因组功能注释通过分析DNA序列中的基因、转录因子结合位点和其他重要元件,可以确定DNA序列的功能信息,加深对生物学过程的理解。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2002203210
作者简介:刘志(1965—
)男,山东东平人,空军工程大学工程师文章编号:100123857(2002)Sup.20114203
D NA 序列的一种分类方法
刘 志
(空军工程大学导弹学院,陕西西安713800)
摘 要:基于小波变换和相关技术,提出了一种DNA 序列的分类方法.首先将DNA 序列转换成数字序列,然后对此序列进行Matlab 快速分解,计算未知类别序列与已知类别序列的相关系数,由此判定序列的类别.结果表明,该方法是切实可行的.
关键词:DNA 序列;相关技术;小波变换
中图分类号:O357 文献标识码:A
2000年6月,人类基因组计划中DNA 全部草图完成,预计2002年可以完成精确的全序列图,此后人类将拥有一本记录着自己生老病死及遗传进化的全部信息的“天书”.这本大自然写成的“天书”是由4个字符A ,T ,C ,G 按一定的顺序排成的长约30亿的序列,其中没有“断句”也没有“标点符号”,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂.破译这部世界上最巨量信息的天书是21世纪最重要的任务之一.虽然人类对这部天书知之甚少,但也发现了DNA 序列中的一些规律和结构.例如,在全序列中有一些是用于,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸.此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等.本文利用小波变换和相关技术,提出了一种DNA 序列的分类方法.
1 Matlab 快速算法
信号的小波分析相当于对信号加上一个可调的时—频窗.Matlab 根据多分辨分析的观点,利用共轭正交镜像滤波器,给出了离散小波变换的金字塔算法,使信号快速分解和重构得以实现.在Matlab 算法基础上,进一步对高频信号进行分解,将信号分解到不同的频带上,滤波时根据需要,选取所需频带内的信号进行重构,就可以完成信号的多通带滤波.小波变换不改变信号所引起的小波变换系数的极值点的位置,而噪声所引起的小波变换系数的极值点主要表现在第一、二尺度上,且随着尺度增大,小波系数的极值点越来越少.由第三级小波变换系数重构的信号的自相关函数的极大值的位置和原函数的自相关函数的极大值的位置完全相同,这是本文所提方案的依据.由第三级小波变换系数重构的信号的自相关函数图形比较光滑,而且,没有影响自相关函数的极大值的位置.此结论对信号检测非常有用.
根据多分辨分析理论,在二进正交小波基下,Matlab 快速算法[1]为
A k
j f =∑n ∈Z h (n -2k )A n
j -1f , j =1,2,…,J .第30卷 专 辑
陕西师范大学学报(自然科学版)Vol.30 Sup. 2002年5月Journal of Shaanxi Normal University (Natural Science Edition )May.2002 
D k
j f =∑n ∈Z g (n -2k )A n j -1f , k =0,1,…,2-j N - 1.(1)
其中h (n )和g (n )分别是由正交尺度函数基和正交小波基确定的低通和高通滤波器的冲击
响应,g (n )=(-1)1-n h (1-n ),式中j 表示分解级数,N 为第j 级中具有k 点的信号逼近表
示,D k j f 为信号的细节表示,A n 0f 不断分解下去,得到的序列{D k 1f ,D k 2f ,…,D k j f ,A k 1f }就是f (n )的二进正交小波变换,重构公式为
A k
j -1f =∑n ∈Z h (k -2n )A k j f +∑n ∈Z g (k -2n )D k j f .(2)
2 D NA 字符串特征分析
从所给的DNA 序列观察发现,很多字符串重复出现的频率很高,而且有些字符串在A 类和B 类中出现的次数有很明显的差异,这就是说把某些字符串可以作为A 、B 类的一个分类标准.所以应对A 、B 两类已知样本做统计分析,找出A 、B 两类已知字符串的类内相关性和类间
差异性,然后选定一个判别准则,判别未知类字符串的类别[2].
3 D NA 分类方法
(ⅰ)在DNA 序列中,令A =0,T =3,C =1,G =2,则DNA 序列就转换成DNA 数字序列.
(ⅱ)对DNA 数字序列进行Matlab 快速算法.
(ⅲ)计算未知类别序列第三级Matlab 分解系数与全部已知类别序列第三级Matlab 分解系数的相关系数[3].找出相关系数的最大值,由相关系数最大值的大小,判定未知序列的类别.4 D NA 分类结果
对于20个已知类别的人工制造的序列,其中序列标号1—10为A 类,11—20为B 类.作为对DNA 序列的结构的尝试,对另外20个未标明类别的人工序列(标号21—40),利用本文提出的方法对序列进行分类,取小波为Daubechies.图1、图2和图3
分别为一已知类别的基因
图1 已知类别的一个基因序列和未知类别的一个基因序列
序列和未知类别的基因序列的图形、小波变换系数以及小波变换系数之间的相关函数.按照相关系数的大小来确定未知基因的类别.当相关系数很小时,认为无法分类.用上述方法对已知的序列A1—A20进行分类,结果是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%,
专 辑刘志:DNA 序列的一种分类方法115
图2 对应图1序列的小波变换系数
图3 已知类别序列和未知类别序列
小波变换系数的相关函数
用上述方法对A21—A40进行分类,得到的结果
是:
A 类:22,23,25,27,29,30,32,34,35,36,37;
B 类:21,24,26,28,31,38,40.
其中A33和A39为不可判类.
用上述方法对已知的182条自然序列进行分类,
分类结果和基于人工神经网络的分类结果基本一
致[4].但本文提出的分类方法比人工神经网络的分类
方法简单.
5 结论DNA 序列中存在一些规律和结构,充分发掘序
列的结构对理解DNA 全序列是十分有意义的.利用本文提出的分类方法,能够有助于研究DNA 序列的规律性和结构.
参考文献:
[1]胡昌华,张军波.基于Matlab 的系统分析与设计———小波分析[M ].西安:西安电子科技大学出版社,
1999.
[2]潘德惠.数学模型的统计方法[M ].沈阳:辽宁科学技术出版社,1986.
[3]张贤达,保铮.非平稳信号分析与处理[M ].北京:国防工业出版社,1998.
[4]闫平凡.人工神经网[M ].合肥:安徽教育出版社,1991.
〔责任编辑 王 勇〕
A classif ication method of D NA sequence
L IU Zhi
(Missile Institute ,Air Force Engineering University ,Sanyuan 713800,Shaanxi ,China )Abstract :Based on wavelet transform and correlation technique ,a method to classify the DNA sequence is presented.First ,transforming the DNA sequence into digital sequence ,performing Mallat decomposition of sequence ,then calculating the coefficient between the unknown sequence and the known one ,the DNA sequence can be classified by means of the correlation coefficient.The classification results show that this method is practical and feasible.
K ey w ords :DNA sequence ;correlation technique ;wavelet transform 116 陕西师范大学学报(自然科学版)第30卷。

相关文档
最新文档