主分量分析法和K_近邻法应用于基因芯片数据分析
基因芯片的数据分析

基因表达谱芯片的数据分析基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。
然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。
基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。
根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。
(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。
1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。
1.1倍数变化(fold change, FC)倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。
一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。
由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。
处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。
该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。
生物信息学讲义——基因芯片数据分析

生物信息学讲义——基因芯片数据分析生物信息学是指运用计算机技术和统计学方法来解析和理解生物领域的大规模生物数据的学科。
基因芯片数据分析是生物信息学研究的一个重要方向,通过对基因芯片数据进行分析,可以揭示基因在生物过程中的功能和调节机制。
本讲义将介绍基因芯片数据的分析方法和应用。
一、基因芯片数据的获取与处理基因芯片是一种用于检测和测量基因表达水平的高通量技术,可以同时检测上千个基因的表达情况。
获取基因芯片数据的第一步是进行基因芯片实验,如DNA芯片实验或RNA芯片实验。
实验得到的数据一般为原始强度值或信号强度值。
接下来,需要对这些原始数据进行预处理,包括背景校正、归一化和过滤噪声等步骤,以消除实验误差和提高数据质量。
二、基因表达分析基因芯片数据的最主要应用之一是进行基因表达分析。
基因表达分析可以揭示在不同条件下基因的表达模式和差异表达基因。
常用的基因表达分析方法包括差异表达分析、聚类分析和差异共表达网络分析等。
差异表达分析常用来寻找在不同条件下表达差异显著的基因,如差异表达基因的筛选和注释;聚类分析可以将表达模式相似的基因分为一组,如聚类分析可以将不同样本中的基因按照表达模式进行分类;差异共表达网络分析可以找到一组在差异表达样本中共同表达的基因,揭示潜在的功能模块。
三、功能富集分析对差异表达基因进行功能富集分析可以帮助我们理解这些基因的生物学功能和参与的生物过程。
功能富集分析可以通过对差异表达基因进行GO(Gene Ontology)注释,找到在特定条件下富集的生物学过程、分子功能和细胞组分等。
另外,功能富集分析还可以进行KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析,找到差异表达基因在代谢通路和信号传导通路中的富集情况。
四、基因调控网络分析基因调控网络分析可以帮助我们揭示基因间的调控关系和寻找关键调控基因。
基因调控网络是基于差异表达数据构建的,它可以包括转录因子-靶基因调控网络和miRNA-mRNA调控网络等。
免疫学中基因芯片的应用及数据分析方法

免疫学中基因芯片的应用及数据分析方法基因芯片是一种新型的生物技术工具,它被广泛运用于生物学研究、医学诊断以及农业等领域。
在免疫学研究中,基因芯片可以用来分析基因表达,研究免疫系统的生物学和病理生理学,以及开发新的免疫疗法。
本文将探讨免疫学中基因芯片的应用及数据分析方法。
一、基因芯片在免疫学研究中的应用基因芯片技术基于DNA序列互补的原理,可以同时探测几千个基因在不同生理和病理条件下的表达水平。
在免疫学研究中,基因芯片技术可以用来研究免疫系统中与疾病相关的基因表达变化,为免疫治疗的开发提供重要的信息。
1. 免疫系统基因表达谱的分析免疫系统是一种复杂的网络,包括免疫细胞、激素和细胞因子等多种成分。
在不同生理和病理条件下,免疫系统中的基因表达模式会发生变化,这些变化与多种疾病的发生和发展密切相关。
利用基因芯片技术可以对免疫系统中的基因表达谱进行全面的分析,从而发现与免疫系统相关的新的治疗靶点。
2. 免疫治疗的监测免疫治疗是一种新兴的治疗模式,包括肿瘤免疫治疗、自身免疫病治疗以及感染病治疗等。
基因芯片技术可以用来监测免疫治疗的效果,并评估治疗的预后。
例如,利用基因芯片技术可以分析免疫治疗后T细胞的基因表达谱,从而预测治疗是否成功。
3. 病原体识别和分析免疫系统的主要功能是识别和清除病原体,基因芯片技术可以用来识别和分析各种病原体的基因表达模式,从而发现新的病原体治疗靶点,为针对性治疗提供依据。
二、基因芯片数据分析方法基因芯片技术可以同时测量成千上万个基因的表达水平,产生的数据量很大,数据分析也是一个复杂的过程。
一般情况下,基因芯片数据分析包括数据预处理、差异基因筛选、聚类分析、生物学意义的解释等几个步骤。
1. 数据预处理数据预处理指的是原始的基因芯片数据清洗与归一化的过程,这是数据分析的关键步骤。
数据预处理的目的是剔除芯片噪声、基准样本处理、将不同芯片数据进行标准化处理,提高数据质量和可靠性,为后续分析打下基础。
基因组学研究中的表达谱数据分析方法解析

基因组学研究中的表达谱数据分析方法解析概述:基因组学研究是研究生物体基因组的编码和非编码序列的科学。
在基因组学研究中,表达谱数据是一种重要的数据类型,由于其高维度和复杂性,需要采用一系列的分析方法和技术来解析。
本文将介绍基因组表达谱数据的分析方法,包括数据预处理、差异表达分析、聚类分析、富集分析以及网络分析。
一、数据预处理:数据预处理是基因组表达谱数据分析的第一步,目的是清除原始数据中的噪声、去除非生物学的变异以及纠正技术上的偏见。
常用的数据预处理步骤包括数据质量控制、归一化和基因过滤。
1. 数据质量控制:首先需要对原始数据进行质量控制,该步骤可通过查看测序质量分数和测序错误率来评估。
常用的工具有FastQC和Trimmomatic等。
该步骤的目的是排除测序引入的噪声。
2. 归一化:由于不同样本之间的表达量存在显著的差异,我们需要对数据进行归一化处理,以消除样本间的偏差。
常用的归一化方法有TPM、FPKM和RPKM等。
归一化后的数据便于后续的比较和统计分析。
3. 基因过滤:在分析表达谱数据时,一些基因的表达量非常低,对分析结果产生较小的影响并增加运算复杂性。
因此,我们通常会对表达量低于一定阈值的基因进行过滤处理,从而提高分析效率。
常用的过滤标准包括表达量百分位数和表达量阈值。
二、差异表达分析:差异表达分析是基因表达谱数据分析的核心内容之一,旨在发现不同条件下存在差异表达的基因。
通常,差异表达分析包括基于假设检验的方法和机器学习方法。
1. 基于假设检验的方法:这类方法通常基于统计学原理,将样本分组,通过计算差异表达的显著性水平来判断基因是否差异表达。
常用的方法包括Student's t-test、Wilcoxon秩和检验和Fisher's确切检验等。
这些方法基于不同的假设,在数据有明确的分布前提下,可以得到比较可靠的差异表达结果。
2. 机器学习方法:机器学习方法对差异表达分析具有较高的灵活性和预测能力。
模式识别主成分分析和KL变换

模式识别:主成分分析和KL变换什么是模式识别?模式识别是一种利用计算机算法和数学方法,通过对给定数据进行处理和分析,找出其内在规律和模式的一种技术。
模式识别在许多领域中都有应用,在人工智能、机器学习、数据挖掘等领域中都有广泛的应用。
主成分分析主成分分析(Principal Component Analysis,PCA)是一种数据降维技术,可以将高维数据降到低维,同时尽可能地保留数据的信息。
PCA的一般思路是找到一个新的坐标系,将数据映射到这个新的坐标系中,从而达到数据降维的目的。
主成分分析的基本实现步骤如下:1.数据中心化。
将各维度数据减去其均值,使其在新坐标系中保持原有的方差(即去除数据的线性相关性)。
2.计算协方差矩阵。
协方差矩阵的每个元素表示数据在不同维度上的相关程度。
3.计算协方差矩阵的特征值和特征向量。
特征向量描述了协方差矩阵的方向,而特征值表示协方差矩阵沿该方向的大小。
4.选择最大特征值对应的特征向量,作为新的坐标系。
5.将数据映射到新的坐标系中。
,PCA算法是将高维数据转化为低维数据的过程,它可以快速识别数据的内在结构,发现隐藏数据之间的相关性信息。
KL变换KL变换(Karhunen-Loève Transform,KLT)又称作Hotelling变换,它是一种优秀的信号处理技术,也常被用于模式识别。
KL变换的主要目的是分离信号中的信息和噪声成分,将重要信息提取出来,以便实现信号的压缩和去噪等操作。
KL变换的主要思路是将一组信号的协方差函数分析,然后求出其特征分解,从而得到KL基函数。
KL基函数是一组正交函数,它基于信号中的协方差函数进行计算。
KL基函数的特点是垂直于噪声分布的方向,能够很好地去除信号中的噪声成分。
对于一个N维随机向量X,KL变换可以描述为下列公式:KL变换公式KL变换公式式中,X是一个N维随机向量,K是一个N*N的矩阵,其列向量是单位正交向量。
KL变换可以针对任意信号类型进行处理,对于平稳信号而言,KL变换还可以处理非平稳性的问题,得到良好的结果。
基因芯片数据分析中的标准化算法和聚类算法

基因芯片数据分析中的标准化算法和聚类算法北京大学生命科学院 生物信息专业王向峰 学号:10211058摘要:基因芯片技术已经广泛的应用于各种模式生物的功能基因组的研究中,应用芯片技术可以高效,高通量的检测基因表达行为。
芯片数据分析中的标准化主要分为芯片内标准化和芯片间标准化,芯片内标准化根据目的不同可分为消除染色偏差的Lowess Normalization ,消除点样针头引起的空间差异的Print-tip Normalization 。
常用的芯片间标准化有Quantile Normalization ,Global Normalization 。
芯片数据分析中常见的聚类算法有分层聚类(Hierarchical clustering)、K 均值聚类(K-means clustering)、自组织图谱SOM (self organizing map)、PCA (principle component analysis)等等。
所有的聚类方法归结为有监督的学习和无监督的学习两种方法。
第一部分 基因芯片的数据标准化(Normalization)对基因芯片数据的标准化处理,主要目的是消除由于实验技术所导致的表达量(Intensity)的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到具有生物学意义的基因表达量的变化。
标准化的方法根据芯片的种类、数据处理的阶段和目的不同而有所差异。
这里主要讨论一下双荧光染色(Red and Green Chip)的cDNA 微列阵(cDNA microarray)的标准化方法。
一、实验数据的预处理(data transformation )的细胞进行培养(Cultured Cell),以保证绝大部分的基因可以表达。
样本基因是根据试验设计的目的从不同组织,不同发育阶段,不同条件下培养的细胞中提取的cDNA 样本。
通过样本基因对参照基因的比值,而判断不同条件下的基因表达量的变化。
k最近邻法填补数据-概述说明以及解释

k最近邻法填补数据-概述说明以及解释1.引言1.1 概述在数据分析和机器学习领域中,数据的完整性对于模型的准确性和可靠性至关重要。
然而,现实世界中经常会出现数据缺失的情况,这给数据分析带来了很大的挑战。
为了解决数据缺失问题,很多填补方法被提出,其中k最近邻法是一种广泛应用且有效的方法之一。
k最近邻法是一种基于相似性的方法,它的核心思想是利用已有的数据样本来预测缺失值。
具体而言,该方法的原理是找到与缺失值最相似的k个样本,然后利用这些样本的属性值来估计缺失值。
通过使用k个相似样本的特征值加权平均的方法,k最近邻法能够在一定程度上准确地填补缺失值。
k最近邻法在数据填补中有广泛的应用。
无论是处理数值型数据还是处理分类型数据,k最近邻法都能够得到较为准确的结果。
在处理数值型数据时,我们可以使用k最近邻法来填补缺失的连续型特征。
在处理分类型数据时,k最近邻法可以根据邻居样本的分类情况来填补缺失的类别值。
除了能够有效地填补缺失值外,k最近邻法还具有一些其他的优点。
首先,它不需要对数据做任何假设,这使得它在处理各种类型的数据时都能够灵活应用。
其次,k最近邻法能够较好地保持原始数据的分布特征,不会引入额外的偏差。
最后,由于使用了相似样本的信息,k最近邻法在一定程度上能够减少填补后数据的误差。
尽管k最近邻法在数据填补中具有广泛的应用和一定的优点,但也存在一些限制和挑战。
首先,选择合适的k值是关键,不同的k值可能会对填补结果产生不同的影响。
其次,k最近邻法对于高维数据和大样本量的数据会面临计算复杂度和存储空间的挑战。
此外,k最近邻法对于异常值和数据分布的异常情况比较敏感,需要进行合理的预处理。
总之,k最近邻法是一种常用且有效的数据填补方法。
通过寻找和利用与缺失值最相似的样本,k最近邻法能够在一定程度上准确地填补缺失值,不仅能够保持数据的分布特征,还能够灵活应用于不同类型的数据。
然而,在使用k最近邻法时需要注意选择合适的k值,并合理处理异常值和数据分布的异常情况。
基因芯片及其数据分析

基因芯片及其数据分析基因芯片(gene chip)是一种高通量的基因表达分析工具,也被称为基因表达芯片或基因表达板。
它可以同时检测和分析数以万计的基因,以了解基因在细胞或组织中的表达情况。
基因芯片的制备过程包括两个主要步骤:生物实验和芯片制造。
首先,采集感兴趣的生物样本,例如人体组织或细胞。
然后,从这些样本中提取RNA或DNA,将其转录为互补DNA(cDNA),并进行标记。
接着,将这些标记的cDNA片段加入芯片上的特定位置,称为探针。
这些探针是经过设计和合成的特定序列,可以与目标基因或RNA分子特异性结合。
在数据分析方面,基因芯片的分析流程包括数据预处理、差异分析和功能注释等步骤。
数据预处理主要是对原始芯片数据进行质量控制、标准化和归一化等处理,以消除技术偏差和样本间的差异。
差异分析是通过比较不同处理组的表达谱,找到差异表达的基因或通路,从而揭示不同条件下基因表达的变化。
功能注释是将识别出的差异基因进行生物学功能描述,包括基因本体论(Gene Ontology)、通路富集分析等,从而理解这些基因的生物学意义和参与的生物过程。
基因芯片的应用非常广泛。
在生物医学研究中,它常被用于筛选差异表达的基因,发现与特定疾病相关的生物标志物,探寻病理生理过程中的致病机制等。
例如,通过对癌症患者和正常人组织样本的基因芯片分析,可以发现不同癌症类型的分子标记物,用于早期诊断和治疗监测。
此外,基因芯片还被广泛应用于农业、食品安全、环境监测等领域,用于研究植物生长发育、种子品质、环境胁迫等相关问题。
然而,基因芯片的数据分析也面临一些挑战。
首先,由于芯片技术的快速发展,数据量急剧增加。
如何高效地处理和存储这些庞大的数据成为一个问题。
其次,芯片技术本身存在一定的误差和噪音,如何准确地分析和解释数据结果也是一个难题。
此外,芯片分析常常需要结合其他实验验证结果,以确认差异表达基因的生物学意义。
总的来说,基因芯片及其数据分析是现代生物学和医学研究中的重要工具。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第9卷第1期北华大学学报(自然科学版)Vol .9No .12008年2月JOURNAL OF BE I HUA UN I V ERSI TY (Natural Science Editi on )Feb .2008文章编号:100924822(2008)0120012204主分量分析法和K 2近邻法应用于基因芯片数据分析胡 煜(广东工贸职业技术学院,广东广州 510500)摘要:应用主分量分析法和K 2近邻法对基因芯片(微阵列)数据进行分析.主分量分析法是一种提取海量数据有效特征的有效方法,可以获得与原来基因芯片数据更为接近的成分的提取特征的效果.实验结果表明,用主分量分析法预先对数据处理可以提高基因芯片数据分析的准确性.关键词:基因芯片;主分量分析;K 2近邻法中图分类号:O235 文献标识码:A 收稿日期:2007207206作者简介:胡煜(1964-),男,讲师,硕士,主要从事模式识别与数据挖掘研究.Applyi n g Pri n ci ple Component Analysis and K 2NearestNe i ghbor on Dat a Analysis of Gene Chi pHU Yu(Guangdong V ocational College of Industry and Co mm erce,Guangzhou 510500,China )Abstract:The data of gene chi p (m icoarray )is analyzed by app lying the p rinci p le component analysis (PCA )and K 2Nearest Neighbor .PCA ,a devel oped and efficient method for analyzing numer ous data,can extract the features much cl oser t o the gene data exp ressi on of originality .It shows that when PCA is p re 2dis posing of thedata set,the accuracy of classificati on of gas oline is i m p r oved noticeably .Key words:Gene chi p;Princi p le component analysis (PCA );K 2Nearest Neighbor (K NN )1 引 言基因表达数据通常是测定几十个样本中成千上万个基因的表达值,得到的数据矩阵的变量数(基因数)通常为几千个,而样本数通常为70~80个.所以,直接对这么庞大的矩阵使用分类方法处理基因数据不仅计算量大,而且效果也不理想.在实际操作上,我们一般先通过特征选择或者特征提取,得到考察基因的某个特征子集,然后再使用此子集进行模型比较[1].本文讨论的基于统计方法的模式识别系统主要由三个部分组成:数据获取和预处理,特征提取与选择,分类决策.我们的主要工作是比较无降维分类的K 2近邻法(K NN )统计判别得出分类的效果和主分量分析(PCA,也称主成分分析)降维分类的K 2近邻法统计判别得出分类的效果.文中选用的Leuke m ia 基因数据库样本数为72个,基因数为3571个.2 PCA 特征提取主成分分析在降维的过程中能最大限度地减少方差,因而更能做出正确的选择.主成分分析法是寻找变量的线性组合———称之为主成分,使这些主成分间不相关.为了能用尽量少的主成分去反映原始变量间提供的变异信息,要求各主成分的方差从大到小排列,其中,第一主成分最能反映数据间的差异.主成分分析通过合并原来维数数据的特征得到更少维数数据的“有效”特征来表示对象,同时要求新维数数据的特征必须尽可能地反映原有维数数据的特征所反映的信息,并且只有较少的信息丢失.主成分分析有助于简化分析和多维数据的可视化[2],是把原来多个变量化为少数几个综合指标的一种统计分析方法.这是一种降维处理方法,而且使经处理后的这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的.为了提取原始数据的有效特征,主成分分析把数据降维映射到新的变量空间上,它与矩阵的奇异值分解(S VD )密切相关,且主成分分析和矩阵的奇异值分解作用在数据的协方差矩阵上是相同的.设有N 个样本排成一个d ×N 阶矩阵X ,即X =(X 1,X 2,…,X N ),样本均值μ=1N∑Ni =1X i.设 X为X 的中心化矩阵,即 X =(X 1-μ,X 2-μ,…,X N -μ)[3],则有总差异矩阵S t =∑Ni =1(X i -μ)(X i -μ)T= X X T.主成分分析应用于生物基因分析,目的就是找到一个线性变换,或者称为投影矩阵W PCA ∈ d ×d ′,将原来d 维的样本空间投影到d ′维的样本特征空间(d ′<d )[4],并且使得投影后的训练样本对应的总差异矩阵的行列式最大,即W PCA =arg m ax W ∈ d ×d ′W TS t W=[w 1,w 2,…,w d ′],‖w i ‖=1,i =1,2,…,d ′,{w i i =1,2,…,d ′}为S t 中对应于前面d ′个最大特征值的维数为d 的特征向量.S VD 是矩阵分析中正规矩阵酉对角化的推广.设矩阵A 为m ×n 阶的且秩为r ,它的奇异值是指n 阶方阵A T A (或m 阶方阵AA T)的正特征值的平方根.S VD 分解的形式是A =UΔ00V T,其中U 和V 为酉矩阵,Δ=diag (σ1,σ2,…,σr ),σi =λi ,λi ∈σ(A T A )或σ(AA T),λi >0,i =1,2,…,r .由于A T A 与AA T的非零特征值是一样的,由此得U i =1σiAV i ,i =1,2,…,r ,(2.1)其中U i ,V i 分别对应于U 与V 的第i 列.由S VD 理论,只需求出 S t = X TX 的非零特征值与对应的特征向量,此处, S t 是N ×N 阶矩阵,通常N =d,因此,问题的规模将大量减小.然后根据两者的关系式(2.1)就可以求出所需要的特征向量及相应的投影矩阵W PCA .最后,通过投影矩阵,我们可以得到新的样本特征[526]:Y i =W TPCA X i ∈ d ′.3 K NN 分类判别分析是依据样本的某些特性,在用某种方法将研究对象分成若干类的前提下建立判别函数,用以判定未知对象属于已知类别中的哪一类.这种方法是将各类训练样本划分成若干子类,并在每个子类中确定代表点,一般用子类的质心或邻近质心的某一样本为代表点,测试样本的类别则以其与这些代表点距离最近作决策.计算测试样本与这些“代表点”的距离,并以最近邻者的类别作为决策,这种方法就是近邻法的基本思想.3.1 K 2近邻密度估计K 2近邻密度估计是一种简单的密度估计方法.记点x ′落入以点x 为中心的体积为V 的区域内的概率为θ=∫Vp (x )d x .当体积较小时,有θ~p (x )V,(3.1)概率θ可用落入V 内的样本比例来近似.如果k 是n 个样本中落入V 内的样本数(k 是x 的函数),那么,31第1期 胡 煜:主分量分析法和K 2近邻法应用于基因芯片数据分析θ~kn,(3.2)结合式(3.1)和式(3.2)得到K2近邻密度的近似为p^(x)=knV.(3.3)K2近邻密度估计就是要确定比率k/n,并测定以x为中心包含k个样本的体积V.例如,如果xk是点x的第k个近邻,那么V可以是以x为中心,‖x-xk‖为半径的球.k值是需要选定的参数之一,如果k值太大,估计结果将变得平滑且细节将趋于平均;如果k值太小,概率密度估计就有可能出现尖峰.3.2 K2近邻决策规则K2近邻决策就是将已获得的密度估计表达式用于判别规则中.假定第1组的k个样本中有km个样本位于ωm 类(∑cm=1km=k),类ωm中的样本数为nm(∑cm=1nm=n为样本总数),那么,类ωm的条件密度ρ(xωm)可估计为r^(xωm )=kmnmV,先验概率ρ(ωm)可估计为ρ^(ωm)=nmn,于是决策规则就是:若对所有i,有ρ^(ωm x)≥ρ^(ωix),则将x归于ωm类,或者运用贝叶斯定理,对所有i,有kmnmVnmn≥kiniVnin,即若对所有i,k m ≥ki,则将x归于ωm类.3.3 最近邻决策最近邻决策是一种特殊的K2近邻法(k=1).它将测试样本归于与之最近邻样本的类别.对一个C类别问题,每类有Ni 个样本,i=1,2,…,c,则第i类ωi的判别函数gi(X)=m in1≤k≤Ni‖X-X ki‖,(3.4)其中,X ki 表示ωi类的第k个样本.以式(3.4)为判别函数的决策规则为:如果gj(X)=m in1≤i≤cgi(X),则决策X∈ωj.由此可见,最近邻法在原理上最直观,方法上也十分简单,只要对所有样本进行N(N=∑ci=1Ni)次距离运算,然后以最小距离者的类别作决策.4 实验分析在处理海量基因数据时,通常只考察基因的某个子集,一般的做法是先选择一个基因子集,再使用此子集进行模型比较.我们采用t2统计量[728]来实行选择,这里t=( x1- x2)/s21/n1+s22/n2,其中,n1和n2为类的样本数, x1和 x2为类的均值,s1和s2为类的方差.然后,对每个基因计算t值,按t值的大小顺序排列,最后取出Q个基因,其中,Q/2个基因是t值排在最前面的(对应此类基因在类1中有高表达值),而另外Q/2个基因是t值排在最后面的(对应此类基因在类2中有高表达值).4.1 模式识别系统的设计与实现用一定数量的样本(称训练集或学习集)进行分类器的设计,用所设计的分类器对识别的样本进行分类决策.整个系统的算法步骤如下:Step.1 把基因库分为包含nTrain 个样本的训练集Train和包含nTest个样本的测试集Test(nTrain +nTest=n),记XTrain为nTrain×p阶的训练数据矩阵,XTest为nTest×p阶的测试样本矩阵,通过对训练集使用交叉验证确定基因分量个数R.Step.2 从所有基因中使用t2统计量选择包含Q个基因的子集,从而形成nTrain ×Q阶矩阵X3Train和n Test ×Q阶矩阵X3Test.Step.3 使用PCA降维方法,记WQ×R为包含投影向量的矩阵,R为特征向量个数.然后把训练数据集投影到W上得到训练分量矩阵ZTrain =X3Train×W;同样,把测试数据集投影到W上得到测试分量矩阵ZTest=41北华大学学报(自然科学版) 第9卷X 3Test ×W .Step.4 利用训练分量矩阵Z Train 去构造分类器,然后利用该分类器对测试分量矩阵Z Test 中的测试样本进行预测.Step.5 重复G 次,计算每种方法总的分类错误率:TCPE =∑Gg =1∑nTesti =1φ(x i-x^i ),x 表示观察的类标,x ^表示预测的类标,φ(x )为一个指标函数[9].4.2 Leuke m ia 基因数据的实验结果4.2.1 基因数据描述及实验参数设置本文研究的基因数据来源于白血病(Leuke m ia )患者的组织样本.基因数据库由72个样本组成,每个样本包含3571个基因.首先,我们对基因数据库进行标准化处理,然后计算Leuke m ia 基因的t 2统计量,根据前面提到的方法构造基因子集,其基因数为Q (取Q =200).随机把基因子集分成两个数据集:训练集包含25个样本(n Train=25),测试集包含47个样本(n Test =47),选取判别特征数R =3.利用训练集构造分类器,利用测试集评估分类效果,重复实验200次[9].最后,计算平均识别率并比较两种方法的分类效果.4.2.2 实验效果的比较比较分类算法K NN 在进行无降维分类和PCA 降维分类的基础上的结果,目的是考察有降维分类方法除了能提高识别速度外,识别的效果是否也优于无降维分类方法.借助Matlab 进行8组实验[10],每组训练200次.实验效果见表1和图1.表1 不同KNN 分类的平均识别率Tab .1Average recogn iti on rate of vari ous KNN cl assi f i ers /%Result K NN PCA +K NN 10.91650.919720.91980.923730.92070.922240.91590.923150.91380.918860.91650.919770.91980.923780.92070.9222图1 不同KNN 分类的平均识别率的效果对比F i g .1 Effect con tra st of average recogn iti on ra te ofvar i ous KNN cl a ssi f i ers 从表1的数据与图1上点的位置可以得出实验结果:PCA +K NN 分类的平均识别率高于K NN 分类.面对海量的数据,PCA 可以提高基因芯片数据分析的准确性.参考文献:[1]Zhou Xiaobo,W ang Xiaodong,Dougherty ER .A Bayesian App r oach t o Nonlinear Pr obit Gene Selecti on and Classify 2Cati on[J ].Journal of the Franklin I nstitute,2004,341(122):1372156.[2]Yeung KY,Ruzzo WL.Princi pal Component Analysis f or Clustering Gene Exp ressi on Data [J ].Computer Science andEngineering,2001,17(9):7632774.[3]高惠旋.应用多元统计分析[M ].北京:北京大学出版社,2005:1812337.[4]L iu A,Zhang Y,Gehan E,et al .B l ock Princi pal Co mponent Analysis with App licati on t o Gene M icr oarray Data Classificati on[J ].StatMed,2002,21:346523474.[5]Si m on Haykin .神经网络原理[M ].叶世伟,史忠植,译.北京:机械工业出版社,2004.[6]W ang A,Gehan E A.Gene Selecti on forM icr oarray Data Analysis U sing Princi pal Component Analysis[J ].Stat Med,2005,24:206922087.[7]Nguyen DV,Rocke DM.Tu mor Classificati on by Partial Least Squares U sing M icr oarray Gene Exp ressi on Data [J ].B i oinf or matics,2003,18(1):39250.[8]Par m igiani G,Garrett E S,Irizarry R A,et al .The Analysis of Gene Exp ressi on Data:Methods and Soft w are[M ].New York:Sp ringer 2Verlag,2003.[9]Andre w R W ebb .Statistical Pattern Recogniti on[M ].Hoboken:John W iley and S ons L td,2002:282117.[10]Stephen J Chapman .MAT LAB Pr ogra mm ing f or Engineers[M ].Glenr othes:Thom s on 2Engineering,2001:812137.【责任编辑:伍林】51第1期 胡 煜:主分量分析法和K 2近邻法应用于基因芯片数据分析。