自组织数据挖掘与回归分析方法的比较研究

合集下载

数据挖掘中的分类与回归算法

数据挖掘中的分类与回归算法

数据挖掘中的分类与回归算法数据挖掘是一门从大量数据中提取有用信息的学科。

其中分类和回归算法是数据挖掘中非常常用的方法。

分类算法是通过将数据集中的数据按照某种规则分成不同的类别,从而确定数据的类别或标签,而回归算法则是预测一个连续值的过程。

一、分类算法1.1 决策树分类算法决策树分类算法是一种基于树型结构的算法,通过对样本特征的判断,不断划分样本空间,最终得到一系列的叶子节点,每个叶子节点都表示一个类别。

决策树分类算法的优点是易于理解、计算成本低,但是在分类时容易出现过拟合的情况。

1.2 支持向量机分类算法支持向量机分类算法是一种基于数据结构的算法,通过将样本映射到高维空间,然后找到样本空间中的最大超平面来进行分类。

支持向量机分类算法的优点是鲁棒性好、适用于高维数据和非线性分类问题,但是需要进行特征选择和调参。

1.3 朴素贝叶斯分类算法朴素贝叶斯分类算法是一种基于贝叶斯定理的算法,它假设样本的各个属性是相互独立的,从而对每个样本进行分类。

朴素贝叶斯分类算法的优点是计算速度快、对缺失数据适应性好,但是需要做出属性独立性的假设。

二、回归算法2.1 线性回归算法线性回归算法是一种通过建立线性模型来预测连续变量的方法。

该方法建立一个线性方程,通过拟合样本数据求解未知的系数,从而得到预测结果。

线性回归算法的优点是计算简单、容易解释结果,但是对非线性数据的拟合效果差。

2.2 非线性回归算法非线性回归算法是一种通过建立非线性模型来预测连续变量的方法。

该方法可以更好地拟合非线性数据,但是计算成本较高,需要用到复杂的优化算法。

2.3 回归树算法回归树算法是一种基于树形结构建立回归模型的方法。

它与决策树分类算法类似,通过不断将样本空间划分成更小的子空间来预测连续变量,从而得到预测结果。

回归树算法的优点是易于理解、计算成本低,但是容易出现过拟合的情况。

总之,数据挖掘中的分类和回归算法都是非常重要的方法,根据不同的数据和任务需求可以选择适当的算法进行分析和预测。

生物信息学中的数据挖掘与分析方法研究

生物信息学中的数据挖掘与分析方法研究

生物信息学中的数据挖掘与分析方法研究引言:随着生物学和计算机科学的迅猛发展,生物信息学已经成为一个独立的学科领域。

生物信息学旨在通过利用计算机科学的方法来解析和理解生物学数据,从而推动生物学的研究。

在生物信息学的研究领域中,数据挖掘与分析方法被广泛应用于生物信息的处理和生物学知识的发现。

本文将介绍生物信息学中常用的数据挖掘与分析方法以及它们的应用。

一、生物信息学中的数据挖掘方法1. 序列分析:序列分析是生物信息学中一个重要的数据挖掘方法。

在基因组学的研究中,序列分析被用来识别基因、寻找编码区域、解析基因调控元件等。

常见的序列分析方法包括序列比对、序列分类和序列比较等。

2. 数据聚类:数据聚类是生物信息学中常用的一种数据挖掘方法,它用于将相似的样本归为一类,以便进行更深入的研究。

在基因表达谱的分析中,数据聚类被广泛应用于识别基因表达的模式和鉴定与生物学特征相关联的基因集。

3. 异常检测:在生物信息学中,异常检测是识别与正常生物状态不一致的样本或信号的一种方法。

在基因组学中,异常检测用于鉴定基因组异常,如染色体缺失、复制数变异等。

异常检测方法包括统计学方法、机器学习方法和聚类分析等。

4. 关联规则挖掘:关联规则挖掘是发现数据集中项之间关联关系的一种方法。

在生物信息学中,关联规则挖掘被用于寻找基因之间的相互作用关系,从而揭示生物学系统的复杂性。

二、生物信息学中的数据分析方法1. 基因表达谱分析:基因表达谱分析是研究基因组中表达的基因在不同组织、发育阶段和环境条件下的变化规律的一种方法。

基因表达谱分析可以帮助我们理解基因调控网络和功能基因的发现。

2. 蛋白质结构预测:蛋白质结构预测是根据蛋白质的氨基酸序列推断蛋白质的三维结构的过程。

蛋白质结构预测可以为药物设计、疾病治疗等提供重要的理论依据。

3. 基因组注释:基因组注释是将DNA序列与基因和蛋白质功能相联系的过程。

基因组注释可以帮助我们理解基因的功能,预测基因的调控元件以及研究基因组的进化。

数据挖掘中的分类与回归算法比较与分析

数据挖掘中的分类与回归算法比较与分析

数据挖掘中的分类与回归算法比较与分析数据挖掘是从大量的数据中提取出有价值的信息和知识的过程,是一种通过发现数据中的潜在模式和关联关系来预测未来行为、进行决策支持的技术。

数据挖掘中常用的两种主要算法是分类和回归算法,它们在数据分析和预测模型建立中具有重要作用。

本文将比较和分析几种常见的分类与回归算法,旨在帮助读者了解它们的不同特点和适用场景。

1. 分类算法1.1 决策树算法决策树是一种基于树状结构的分类模型,它通过对特征属性进行逐步划分来实现对数据集的分类。

决策树算法具有易于理解和解释的特点,可以处理离散和连续特征,并且在处理缺失数据时表现良好。

然而,决策树算法容易产生过拟合问题,需要进行剪枝处理。

1.2 朴素贝叶斯算法朴素贝叶斯算法是基于贝叶斯定理和特征条件独立性假设的分类算法。

它通过计算给定特征的条件下目标变量的后验概率来进行分类。

朴素贝叶斯算法具有简单和高效的特点,适用于处理大规模数据集。

然而,朴素贝叶斯算法假设特征之间相互独立,这在某些情况下可能不符合实际情况,会导致分类结果不准确。

1.3 支持向量机算法支持向量机算法是基于统计学习理论中的结构风险最小化原则的分类算法。

它通过构建一个最优超平面将不同类别的样本分隔开来。

支持向量机算法具有高准确率和泛化能力强的特点,适用于处理高维数据集。

然而,支持向量机算法对于大规模数据集计算复杂度高,训练时间长。

2. 回归算法2.1 线性回归算法线性回归算法是一种用于建立线性关系的回归模型的方法,它通过拟合一个线性方程来预测连续目标变量的值。

线性回归算法具有简单和快速的特点,适用于处理大规模数据集。

然而,线性回归算法对于非线性关系的数据拟合效果不好。

2.2 逻辑回归算法逻辑回归算法是一种用于建立分类模型的回归算法,它通过将线性回归模型的输出映射到[0, 1]之间的概率值来进行分类。

逻辑回归算法具有计算简单、解释性强的特点,适用于处理二分类问题。

然而,逻辑回归算法对于非线性关系的数据分类效果差。

数据挖掘与统计学方法的比较分析

数据挖掘与统计学方法的比较分析

数据挖掘与统计学方法的比较分析在当今大数据时代,数据挖掘和统计学方法成为了从庞大数据中提取有用信息的重要手段。

数据挖掘(Data Mining)是通过从大量数据中发现潜在模式、关联性和规律来获得有价值的知识的过程。

而统计学是通过对数据进行收集、分析和解释来揭示数据背后的规律和趋势。

本文将对数据挖掘和统计学方法进行比较分析,并探讨它们各自的优势和适用场景。

一、数据挖掘方法数据挖掘方法基于大数据的特点,旨在从数据中提取隐藏的模式和知识。

数据挖掘方法使用了多种算法和技术:1.聚类分析:聚类分析是将数据根据相似性进行分类的方法。

它可以帮助我们找到数据集中的不同群组,并揭示数据之间的相似性和差异性。

2.分类模型:分类模型是通过已知标签的数据样本来预测新数据的分类。

它可以帮助我们做出预测和分类,并为未来的决策提供参考。

3.关联规则:关联规则是发现数据中的相关性和依赖性的方法。

它可以帮助我们找到数据中的隐藏关系,从而进行交叉销售、市场调研等应用。

二、统计学方法统计学方法是一种收集、处理、分析和解释数据的科学方法。

统计学方法侧重于对数据的描述和解释,通过运用各种统计技术来揭示数据的潜在模式和规律:1.描述统计:描述统计是对数据进行总结和描述的方法。

它通过计算平均值、中位数、标准差等指标来揭示数据的分布和趋势。

2.推断统计:推断统计是通过对样本数据进行统计分析来推断总体特征的方法。

它通过假设检验、置信区间等技术来做出总体特征的估计和推断。

3.回归分析:回归分析是研究变量之间关系的方法。

它可以帮助我们了解变量之间的因果关系,并进行预测和建模。

三、数据挖掘与统计学方法的比较数据挖掘方法和统计学方法有许多相似之处,也有一些不同之处:1.数据需求:数据挖掘方法通常需要大规模的数据集来获得准确的模式和规律,而统计学方法可以使用小样本数据来进行推断和分析。

2.数据处理:数据挖掘方法侧重于数据的清洗、转换和预处理,以便生成可供模型训练的数据集,而统计学方法则更加注重数据的描述和解释。

回归分析方法在数据挖掘中的应用研究

回归分析方法在数据挖掘中的应用研究

回归分析方法在数据挖掘中的应用研究随着信息时代的到来,数据量的不断增长,需要有效的分析方法来帮助我们从其中挖掘出有用的信息。

回归分析方法是一种常见的数据挖掘方法,它可以通过建立数学模型来预测变量之间的关系。

本文将介绍回归分析方法在数据挖掘中的应用研究。

一、回归分析方法的基本原理回归分析是一种统计学方法,它通过建立数学模型来研究一个或多个自变量和因变量之间的关系。

回归分析方法包括线性回归、多项式回归、非线性回归等,其中线性回归是最常见的一种方法。

线性回归是一种利用线性模型来建立因变量与自变量之间关系的方法。

在线性回归中,自变量通常有多个,因变量只有一个。

通过建立一个线性模型,我们可以预测因变量在不同自变量条件下的数值。

线性回归通常用于探索一个自变量-因变量的简单关系,也可以用于多个自变量与因变量之间的复杂关系。

二、回归分析方法在数据挖掘中的应用回归分析方法在数据挖掘中有广泛的应用,例如:1. 预测模型的建立回归分析方法可以用于建立预测模型,通过预测未来的趋势或进行产品销量的预测。

例如,对于一个电商平台而言,可以利用历史数据来建立销售预测模型,预测未来店铺以及产品的销售情况,以便于进行相关促销活动的配合和库存的控制。

2. 变量的重要性分析回归分析方法可以用来分析自变量的重要性以及对因变量的影响大小。

通过这种方式,我们可以根据因变量的重要性来进行重要特征的筛选,以减少计算量和降低过拟合风险。

3. 模型参数的估计回归分析方法可以用来估计模型参数,从而确定模型的准确性和优良性。

通过分析参数的系数,可以探索相关因素之间的影响、相互关系及重要程度。

4. 模型评价和调整回归分析方法可以通过模型评价指标来对模型进行评价和调整,例如通过均方差、R平方等指标来判断模型预测的准确性和拟合程度,进而确定模型的优化方向。

三、回归分析方法在实际应用中的案例分析回归分析方法在实际应用中有很多成功的案例,如下:1. 金融预测回归分析方法可以用于金融预测,例如预测利率、股市等。

回归分析在数据挖掘中的应用

回归分析在数据挖掘中的应用

回归分析在数据挖掘中的应用随着互联网和各种信息技术的快速发展,数据已成为人类社会的重要资源之一。

而数据挖掘作为从海量数据中提取有价值信息的一种手段,在各个领域得到了广泛应用。

回归分析作为数据挖掘中的一种重要方法,在构建预测模型、分析数据关系等方面起着不可替代的作用。

回归分析是一种统计方法,用于研究两个或多个变量之间的关系,其中一个变量被视为因变量,其他变量被视为自变量。

在数据挖掘中,回归分析通常用于进行预测模型的构建,以此来预测因变量。

例如,在销售领域,我们可以使用回归分析来预测某种产品在不同广告投资下的销售额。

回归分析可以通过多种方式来实现,最常用的是线性回归和非线性回归。

线性回归是回归分析中最基本的形式之一,它用一条直线来描述自变量和因变量之间的关系。

非线性回归则是将自变量和因变量之间的关系描述为一个非线性函数。

这两种方法在数据挖掘中都有着广泛的应用,具体选择哪一种方法取决于数据分析的需求和数据属性。

回归分析在数据挖掘中的应用除了预测以外,还有很多其他的方面。

例如,回归分析可以用来分析变量之间的相关性,以及这些变量对极端值的响应程度。

回归分析还可以用来检验自变量和因变量之间的关系是否显著,以及确定哪些自变量对因变量的预测最为重要。

在回归分析的应用中,还需要注意一些常见的问题和方法。

首先是多重共线性,即多个自变量之间存在高度相关性。

为了避免多重共线性对模型的影响,可以使用一些方法如主成分回归,来减少自变量间的相关性。

其次是选择最佳模型。

在选择模型时,需要根据数据的实际情况进行比较,避免选择过度拟合或欠拟合的模型。

数据挖掘中的回归分析不仅可以用于实现预测,还可以帮助数据分析师更好地理解数据。

回归分析能帮助分析人员识别数据中的趋势和相关性,进而帮助其更好地解读数据并做出更合理的决策。

总之,回归分析在数据挖掘中的应用十分广泛,它不仅可以用于实现预测模型,还可以帮助分析人员更好地理解数据关系,揭示数据中的趋势和影响因素。

数据挖掘中的特征选择方法研究与比较分析

数据挖掘中的特征选择方法研究与比较分析

数据挖掘中的特征选择方法研究与比较分析数据挖掘是一种从大量数据中提取有用信息的技术,而特征选择则是数据挖掘过程中的一个重要环节。

特征选择的目标是从原始数据中选择出最具有代表性和区分度的特征,用于训练和构建模型。

在数据挖掘领域,存在多种特征选择方法,本文将对其中一些常用的方法进行研究与比较分析。

一、过滤式特征选择方法过滤式特征选择方法是在数据预处理阶段对特征进行选择,不依赖于具体的学习算法。

常用的过滤式特征选择方法有相关系数、方差阈值、互信息等。

相关系数方法通过计算特征和目标之间的相关程度来进行特征选择。

常用的相关系数方法有皮尔逊相关系数和斯皮尔曼相关系数。

皮尔逊相关系数适用于连续型数据,而斯皮尔曼相关系数适用于有序类别型数据。

相关系数方法的优点是计算简单,但只能捕捉到线性相关关系,对于非线性相关关系表现较差。

方差阈值方法根据特征的方差来进行选择,低于某个阈值的特征将被排除。

方差阈值方法适用于二分类或多分类问题,能够排除方差较小的特征,减少特征维度。

然而,方差阈值方法无法处理特征之间的相关性,如果存在高度相关的特征,可能会排除掉其中的一部分。

互信息方法是一种非参数的特征选择方法,可以捕捉到非线性相关关系。

互信息方法用于衡量特征和目标之间的依赖程度,选择互信息值较大的特征。

然而,互信息方法比较复杂,需要估计特征之间的联合分布和边缘分布,计算量较大。

二、包裹式特征选择方法包裹式特征选择方法是在特征子集上进行评估,根据学习算法的性能来选择最佳的特征子集。

常用的包裹式特征选择方法有递归特征消除(RFE)和基于遗传算法的特征选择。

递归特征消除(RFE)是一种迭代的特征选择方法,首先使用学习算法对所有特征进行训练和评估,然后根据学习算法的权重来进行特征排序,剔除权重较低的特征。

然后再次使用学习算法对剩余的特征子集进行训练和评估,重复此过程直到达到指定的特征数量。

递归特征消除方法的优点是能够考虑特征之间的相互作用,但计算量较大,时间复杂度较高。

Python中的数据挖掘和回归

Python中的数据挖掘和回归

Python中的数据挖掘和回归Python是一种非常流行的多用途编程语言,也被广泛应用于数据挖掘和回归分析中。

数据挖掘和回归分析是从数据中挖掘出有价值信息以及寻找数据之间相互关联的过程。

首先,本文首先介绍Python的数据挖掘和回归分析的基本概念。

然后,探讨在Python中数据挖掘和回归分析的常用工具以及应用。

最后,总结并展望Python在数据挖掘和回归分析领域的前景。

一、Python的数据挖掘和回归分析基本概念数据挖掘是从大量数据中发现、提取、分析及评估模式或规律的过程。

而回归分析则是寻找变量之间的依赖性,以预测或分析一个或多个变量对另一个或多个变量可能发生的影响。

Python中的数据挖掘和回归分析方法基于统计学、机器学习和人工智能的原理。

这些方法的目的是在大数据集中,发现隐藏于数据背后的模式和趋势,用于预测未来的趋势和行为,并能够帮助我们更好地理解和解释数据。

二、Python中数据挖掘工具1. PandasPandas是一个用于数据操作和数据分析的开源库,它基于Numpy数组构建,提供了高效的数据操作和快速的数据结构。

Pandas可以处理各种类型的数据,包括时间序列数据、关系型数据和非结构化数据,而且它有很多内置的函数和方法,支持数据的筛选、排序、聚合、分组等操作。

2. NumpyNumpy是Python中的核心科学计算库,它是用于处理数值计算的Python包。

Numpy提供了高效的多维数组操作、并行化操作、广播操作和线性代数操作,这些都是处理大规模数据集合的必要功能。

3. Scikit-learnScikit-learn是Python中的一个机器学习库,它支持许多监督和无监督学习任务,包括分类、回归和聚类。

它还提供了各种算法,如支持向量机、决策树、随机森林和神经网络等,可以用于建模和预测任务。

4. MatplotlibMatplotlib是Python中的一个数据可视化库,它可以帮助我们将数据可视化,从而更好地理解数据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2004-10-18;修回日期:2005-01-24。

基金项目:国家自然科学基金资助课题(70271073)作者简介:郑明翠(1981-),女,硕士研究生,主要研究方向为管理科学,数据挖掘与经济系统的复杂性研究。

E -mail :zhenghuisc @自组织数据挖掘与回归分析方法的比较研究郑明翠,贺昌政(四川大学工商管理学院,四川成都610064) 摘 要:采取定性分析、理论分析和实验研究相结合的方式,从三方面对自组织数据挖掘方法与回归分析方法进行比较:包括二者的算法过程,对不同对象的拟合和预测效果以及二者的联系。

结果不仅揭示了二者的区别和联系,而且表明,自组织数据挖掘方法是复杂系统模拟预测的有效工具。

关键词:自组织数据挖掘;回归分析;拟合与预测;复杂系统中图分类号:N94 文献标识码:AComparison bet w een the self 2organizing datamining and regression analysisZHEN G Ming 2cui ,HE Chang 2zheng(School of Management ,Sichuan U niv.,Chengdu 610064,China ) Abstract :The qualitative analysis ,theoretic analysis and experimental research are exerted to do the comparison between the above two methods from three aspects ,including the algorithm process ,the approximating and forecast 2ing effect in different objects ,and the relationship.The result unveils the difference and relationship between the self 2organizing data mining and regression analysis ,it also proves that self 2organizing data mining is an efficient approach to the research on approximating and forecasting of complex systems.K ey w ords :self 2organizing data mining ;regression analysis ;approximating and forecasting ;complex systems1 引 言当今,科学研究时常面临着对所采集的样本数据如何选择建模方法的问题。

在众多的实验数据建模方法中,回归分析是最基本的一种,它在自然科学和社会科学的研究中得到了广泛的应用,受到很多领域专家的高度重视。

著名的计量经济学家、纽约州西点美国军事学院社会科学系Damodar N.Gujarati 教授在他的专著《Basic Econometrics 》第1章第一句话就指出:“回归分析是计量经济学的主要工具。

”然而,由乌克兰科学院A.G.I 2vakhnenko 院士在1967年提出的一种新的实验数据建模方法———自组织数据挖掘方法经过三十多年的发展,如今在复杂系统的模拟、预测、模式识别等诸方面,自组织数据挖掘以其独特的思想和方法成为辅助人们进行复杂系统分析和决策的强有力工具。

2 自组织数据挖掘方法与回归分析方法的区别和联系 自组织数据挖掘的核心技术是GMDH (group methodof data handling )算法,它是一种基于进化与筛选的演化方法,它依据给定准则从一系列候选模型集合中挑选最终模型。

GMDH 算法通过遗传、变异和筛选,产生很多具有不断增长复杂度的候选模型,直至模型在观测样本数据上产生过拟合为止。

该方法需要一定量的初始模型,这些初始模型(或称神经元)可以通过微分或差分方程组,或者是它们的解来描述(例如:多项式),一般地,应挑选出适合研究对象特质的参考函数来产生初始模型。

通常可以用高阶的K olmogorov 2G aber (简称K 2G )多项式作为参考函数。

2.1 算法过程的比较(1)模型的生成过程GMDH 算法的特点是数据分组和贯穿于整个建模过程中的内、外准则的运用。

它将观测样本数据分为训练集(training set )和测试集(testing set ),从参考函数构成的初始模型(函数)集合出发,在训练集上利用内准则(最小二乘法)进行参数估计得到中间待选模型(遗传、变异),在测试集上利用外准则进行中间候选模型的选留(选择)。

重复这样一个遗传、变异、选择和进化的过程,使中间候选模型的复杂度不断增加,直至得到最优复杂度模型。

2005年10月系统工程与电子技术Oct.2005第27卷 第10期Systems Engineering and Electronics Vol.27 No.10文章编号:10012506X (2005)1021748204回归分析方法根据先验知识确定模型结构(曲线类型),再在整个样本数据集上利用最小二乘法进行系数估计。

它使用逐次回归分析法进行变量的筛选以生成最优回归模型:即是将因子一个个引入,引入因子的条件是,该因子的偏回归平方和经检验是显著的。

同时,每加入一个因子后,要对老因子逐个检验,将偏回归平方和变为不显著的因子删除。

最后,对最终生成的回归模型做方差分析和假设检验,判断最终得到的回归方程是否有意义。

自组织数据挖掘方法进行数据划分,在训练集上建立模型,并利用新鲜信息(测试集的数据)通过外准则来进行模型筛选,是它区别于回归分析方法的重要特征。

(2)停止法则自组织数据挖掘算法的停止法则由最优复杂度原理[7]给出:当模型的复杂度逐渐增加时,具有“外补充”性质的称为外准则的准则值达到极小,全局极小的实现标示最优复杂度模型的存在。

GMDH算法是通过不能再改善外准则值停止的,其停止法则可以保证在一定噪声水平下得到数据拟合精度和预测能力之间实现最优平衡的最优复杂度模型。

逐步回归分析方法是通过不能再剔除也不能引入显著性变量停止的,它面临着一个较大的困难是F-检验的显著性水平α的选择,因而其模型选择带有主观因素的成分。

α选得太大,则最后得到的模型含较多的自变量;相反,模型所含的自变量则偏少。

在每一步,是在一组相关的F2变量中找出最大值或最小值,作F2检验。

直观上,供选择的自变量愈多,所找出的最大值(或最小值)也就愈大(或愈小)。

显然除了一些极端情况外,这些变量并不服从F分布,因而并不能保证所挑选的回归方程在某种准则下是好的或较好的。

2.2 对系统拟合和预测效果的比较Aksenova[7]研究了下述问题:在什么条件下,一个无偏的结构(物理模型)才能保证关系重现的误差极小呢?其研究表明:总存在一个噪声水平,使得无偏的结构不是J2最优的。

随着预测范围的增大,具有无偏结构的模型(即物理模型)的预测误差比具有简化结构的模型(即非物理模型)的预测误差要大。

因此,数据样本中噪声方差水平σ2限定了应该使用的最优算法。

基于物理模型的回归分析应当用在输入数据样本是精确的情况下;当在小数据样本中存在相当大的噪声时,所得到的回归模型是过拟合的。

这时,更精确的拟合和预测是通过GMDH方法得到的非物理模型[1]。

本节采用理论结合实验研究的方法验证上述结论,并比较回归分析与GMDH方法的模型拟合与预测效果。

2.2.1 二者对模型的拟合效果的理论分析比较文献[1]对自组织数据挖掘的多层算法有如下定理:在不进行数据划分的情况下,运用自组织数据挖掘的多层算法(它仅筛选出线性模型)得到的最优复杂度模型与y的回归方程是一致的。

当自组织数据挖掘进行数据分组时,其对线性模型的拟合效果与回归分析又有何区别联系呢?先分析利用外准则进行模型筛选的几何解释与回归分析最小二乘法的几何解释之间有何关联。

这里为分析方便,自组织数据挖掘的外准则就以最小偏差准则为例。

在回归分析中设样本空间是n维,观测向量Y=(Y1, Y2,…,Y n),矩阵X有p个n维列向量,样本空间L(X)是p维,回归分析就是要找p维向量β=^b使得由向量^Y= Xb确定的点^Y LS是线性空间L(X)中离Y最近的点,即是使S(β)=(Y-Xβ)′(Y-Xβ)最小的点,几何上^YLS必定是Y到线性空间L(X)的垂线的垂足,因为S(β)为常数,就确定了以垂足^YLS为中心,以[S(β)-S(b)]1/2=[S(b)・pn-pF(p,n-p,1-α)]1/2为半径的p维球面,这个球的内域就定出了Xβ的水平为1-α的置信域[4],图1中是以p=2的情况下^Y LS为圆心的圆形。

图1 以最小偏差外准则筛选模型的几何解释图结合前面分析的结果,当样本数据比较精确即噪声比较小时,自组织数据挖掘所寻求的模型点更有可能落在p 维球内(图1中是以圆为例),即落在回归分析所求得的模型的1-α置信域内,因此二者所求得的模型拟合效果都可以接受,基于图1的几何解释比较,回归分析的拟合精度较自组织数据挖掘算法高些。

但是当样本数据噪声比较大且自变量个数较高时,回归分析所求得的模型置信度(假定其置信域不变的情况下)就会降低,当降到一定程度时就会不被接受,这时也容易产生过拟合的现象。

而自组织数据挖掘算法杜绝过拟合,必然会出现自组织数据挖掘算法的拟合效果要较回归分析至少有好的趋势。

当因变量Y对自变量X是非线性时,有同样结果,只是由于因变量Y对自变量X是非线性,样本数据噪声势必会增加对回归分析最小二乘法所寻求的模型置信度的敏感度,样本数据噪声越大,回归分析得到的模型的置信度就越低。

而自组织数据挖掘算法不存在此问题,相反,自组织数据挖掘由于样本数据分组和外准则的使用,样本数据噪声越大越能体现其拟合的优越性。

因此当存在样本数据噪声且因变量Y对自变量X是非线性时,自组织数据挖掘算法的拟合效果要较回归分析好些。

这也验证了文献[1]的结论:对非线性模型自组织数据挖掘的拟合效果要优于回归分析,尤其当样本数据噪声较大时。

 第27卷 第10期自组织数据挖掘与回归分析方法的比较研究・1749 ・ 2.2.2 二者对模型的预测效果的理论分析回归分析的预测误差一部分是预测模型结构时产生的误差,另一部分是本身。

前者与样本数据有关,模型的预测误差随数据噪声的增大而增加;而后者与样本数据无关,可见回归分析并不能降低样本数据噪声对预测模型精度的干扰。

相关文档
最新文档