数据挖掘(三)数据归约
简述数据归约的概念

简述数据归约的概念
数据归约是指在数据处理过程中,通过删除冗余和不必要的数据,将数据集转换为更小、更简单和更易处理的形式。
数据归约是数据挖掘和统计分析等领域中的一个重要概念,可以帮助分析人员在处理海量数据时提高处理效率,同时也可以减少错误和误解的可能
性。
数据归约的目标是缩小原始数据集的规模,同时保留足够的信息,以便能够得到准确
的分析结果。
归约操作可以在多个层面上进行,包括数据的属性空间、实例空间和特征空
间等。
对于属性空间的归约,通常采用删除冗余属性和合并相关属性等方法,以减少数据集
中属性的数量和复杂性。
这种方法通常可以提高数据处理和统计分析的效率,并减少错误
的可能性。
总之,数据归约是数据处理和分析中非常重要的概念,可以帮助分析人员在处理大量
数据时提高处理效率和准确性,同时也可以提高分析结果的可靠性和可解释性。
四川理工学院-数据挖掘-名词解释

---------------------------名词解释--------------------- 1.数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。
2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
3.OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。
4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。
5.数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。
规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。
6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。
如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。
7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
8.OLTP:OLTP为联机事务处理的缩写,OLAP是联机分析处理的缩写。
前者是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据进行查询和增、删、改等处理。
9.ROLAP:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。
10.MOLAP:是基于类似于“超立方”块的OLAP存储结构,由许多经压缩的、类似于多维数组的对象构成,并带有高度压缩的索引及指针结构,通过直接偏移计算进行存取。
11.数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
数值归约的常用方法

数值归约的常用方法数值归约是将大量数据中的信息压缩为有限数量的值或度量,以便更好地理解和处理数据。
数值归约的目的是减少数据维度,同时保留重要的信息,从而简化数据的处理和分析。
在实际应用中,数值归约常用于数据挖掘、模式识别、数据压缩等领域。
1. 直方图法直方图法是将连续区间离散化为若干个区间,然后计算每个区间的频率,最终得到一个频率分布直方图。
这种方法可以将连续数据转化为离散数据,从而使得数据更易于处理和分析。
在直方图法中,区间的数量和大小需要根据数据集的特征来进行选择,以便得到更准确的结果。
2. 抽样方法抽样方法是从大量数据中随机选取一部分样本数据进行分析和处理。
可以使用不同的随机抽样方法,如简单随机抽样、分层抽样和系统抽样等。
这种方法可以减少数据量,提高处理效率,并且可以得到相对准确的结果。
抽样方法需要注意样本的选取方法和数量,以避免抽样误差的影响。
3. 熟悉规则熟悉规则是针对一些特定领域的专业知识和经验,将数据转化为易于理解和处理的规则或模型。
在医疗领域,可以根据某些病症的特征和治疗效果,建立疾病诊断或治疗规则。
这种方法可以大大减少数据量,同时保留核心信息,提高数据处理和分析的效率。
4. 主成分分析法主成分分析法是将多维数据转化为少数几个主成分,以表示原始数据的主要特征。
主成分分析可以通过对数据的协方差矩阵进行特征值分解,得到主成分向量和特征值,从而得到原始数据的主要信息。
这种方法可以减少数据的复杂度,同时保留重要的信息。
主成分分析也可能忽略一些次要因素或特征,因此需要根据具体问题进行判断和分析。
5. 聚类分析法聚类分析法是将数据集中的对象进行分类和聚集,以便得到相似的数据对象,并且将不同类别的数据对象区分开来。
聚类分析可以根据不同的特征和距离度量方法,将数据对象进行划分和分组。
这种方法可以大大减少数据量,从而简化数据的处理和分析过程。
聚类分析需要考虑不同数据对象之间的相似性和差异性,以避免分类误差的影响。
数据规约方法

数据规约方法数据规约是数据预处理的一个重要步骤,其目的是通过减少数据量和数据维度,提高数据的处理效率和模型的精确度。
在实际应用中,数据规约方法的选择对数据挖掘和机器学习的结果有着重要的影响。
本文将介绍几种常见的数据规约方法,包括维度规约、数值规约和属性规约。
维度规约是指通过减少数据的维度来降低数据的复杂度。
在实际应用中,数据往往具有大量的属性,而其中很多属性可能是冗余的或者无关的。
因此,通过维度规约可以去除这些冗余属性,从而减少数据的维度。
常见的维度规约方法包括主成分分析(PCA)和线性判别分析(LDA)。
主成分分析通过将原始属性空间映射到一个低维的子空间来实现维度规约,而线性判别分析则是通过寻找最能区分不同类别的投影方向来实现维度规约。
数值规约是指通过对数据进行数值变换来减少数据的数量。
在实际应用中,数据往往具有大量的重复值或者近似值,而这些重复值和近似值可能会对数据挖掘和机器学习的结果产生影响。
因此,通过数值规约可以将这些重复值和近似值合并,从而减少数据的数量。
常见的数值规约方法包括直方图法和聚类法。
直方图法通过将连续的数值划分为若干个区间,然后用区间的代表值来代替原始数值,从而实现数值规约。
而聚类法则是通过将相似的数值聚集在一起,然后用聚类的中心值来代替原始数值,从而实现数值规约。
属性规约是指通过选择最重要的属性来减少数据的属性数量。
在实际应用中,数据往往具有大量的属性,而其中很多属性可能是无关的或者冗余的。
因此,通过属性规约可以选择最重要的属性,从而减少数据的属性数量。
常见的属性规约方法包括递归特征消除法和信息增益法。
递归特征消除法通过不断地训练模型,并且选择对模型影响最大的属性来实现属性规约,而信息增益法则是通过计算每个属性对分类的信息增益,然后选择信息增益最大的属性来实现属性规约。
综上所述,数据规约方法是数据预处理的一个重要步骤,其目的是通过减少数据量和数据维度,提高数据的处理效率和模型的精确度。
项目3数据规约

项目3 数据规约3.1 实验目的(1)理解维归约、案例归约与值技术归约(即数据压缩)的区别;(2)理解数据挖掘过程的预处理阶段中数据归约的优点;(3)重点掌握利用主成分分析方法对数据进行维归约,理解特征构成和特征选择的基本原则;(4)重点掌握案例归约技术,学会不同情况进行数据归约处理。
3.2 实验原理在海量数据上进行复杂的数据分析和挖掘将需要很长的时间,使得这种分析不现实或不可行。
虽然大型数据集有得到更佳挖掘结果的潜力,但并不能保证就一定能获得比小型数据集好的挖掘结果。
假如是多维数据,一个主要问题是,在所有维度中搜寻所有挖掘方案之前,是否可以确定这种方法在已归约数据集的挖掘和发现中发挥得淋漓尽致。
更一般得是,从一个可用特征得子集或案例得到一个通解,并且即使搜索空间扩大是也将会保持不变。
数据规约技术可以用来得到数据集的规约表示,它小得多,但仍接近于保持原数据的完整性。
这样,在规约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。
数据规约的策略包括:数据立方体聚集、属性子集选择、维度规约、数值规约、离散化和概念分层产生。
这里简单介绍维度归约、案例归约与值技术归约。
离散化和概念分层产生将在第5章进行介绍。
3.2.1 维规约用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。
维规约通过删除不相关的属性(或维)减少数据量。
通常使用属性子集选择方法。
属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。
在压缩的属性集上挖掘还有其它的优点。
它减少了出现在发现模式上的属性的数目,使得模式更易于理解。
对于属性子集选择,通常使用压缩空间的启发式算法。
通常,这些算法是贪心算法,在搜索属性空间时,总是做看上去是最佳的选择。
它们的策略是做局部最优选择,期望由此导致全局最优解。
在实践中,这种贪心算法是有效的,并可以逼近最优解。
“最好的”(或“最差的”)属性使用统计意义的测试来选择。
cda考试二级笔记

cda考试二级笔记CDA(Certified Data Analyst)考试是中国数据分析师协会认证的数据分析师考试。
下面是CDA考试二级的笔记,供您参考:一、数据挖掘与机器学习基础1. 数据挖掘定义:从大量数据中提取有价值的信息的过程。
2. 机器学习定义:利用计算机算法从数据中自动学习并改进模型的过程。
3. 数据挖掘与机器学习的关系:数据挖掘是应用,机器学习是方法。
4. 常用数据挖掘算法:决策树、聚类、关联规则、分类、回归等。
5. 常用机器学习算法:线性回归、逻辑回归、支持向量机、神经网络等。
二、数据预处理1. 数据清洗:处理缺失值、异常值、重复值等。
2. 数据集成:将多个数据源的数据整合到一起。
3. 数据归约:降低数据集的大小,如主成分分析、特征选择等。
4. 数据变换:将数据转换成适合分析的格式或形式,如特征编码、数据标准化等。
三、数据分析与可视化1. 描述性统计:均值、中位数、方差等统计量。
2. 探索性分析:发现数据的分布、趋势和异常。
3. 可视化工具:Tableau、Excel、PowerBI等。
4. 常用图表类型:柱状图、折线图、饼图、散点图等。
四、预测与决策分析1. 时间序列预测:ARIMA模型、指数平滑等。
2. 回归分析:线性回归、逻辑回归等。
3. 分类分析:决策树、支持向量机等。
4. 决策树分析:构建决策树模型,进行分类或预测。
5. 关联规则分析:发现数据之间的关联规则,如购物篮分析。
五、高级主题1. 大数据处理技术:Hadoop、Spark等。
2. 数据挖掘中的隐私保护技术:差分隐私、k-匿名等。
3. 数据可视化中的高级技术:热力图、气泡图等。
4. 机器学习中的集成学习、深度学习等技术。
数据挖掘数据清洗

数据挖掘数据清洗数据挖掘数据清洗是在数据挖掘过程中的一个重要环节,它是为了提高数据质量和准确性而进行的一系列数据处理操作。
数据清洗的目标是去除数据中的噪声、错误和冗余,使得数据更加可靠和适用于后续的分析和挖掘工作。
数据清洗的过程包括以下几个步骤:1. 数据收集:首先需要收集原始数据,可以是从数据库、文件、网络等不同的数据源中获取。
收集到的数据可能包含有缺失值、异常值、重复值等问题。
2. 缺失值处理:缺失值是指数据中的某些项缺失或者为空的情况。
处理缺失值的方法有多种,常见的有删除含有缺失值的记录、使用平均值或中位数填充缺失值、使用插值法进行填充等。
3. 异常值处理:异常值是指与大部分数据明显不同的数值。
异常值可能是由于测量误差、录入错误等造成的。
处理异常值的方法可以是删除异常值、使用平均值或中位数进行替代、使用统计方法进行修正等。
4. 重复值处理:重复值是指数据集中存在两条或多条完全相同的记录。
重复值会对数据分析和挖掘造成不必要的干扰。
处理重复值的方法是删除重复的记录,保留一条即可。
5. 数据格式化:数据格式化是将数据转换为适合分析和挖掘的格式。
例如,将日期字段转换为标准的日期格式,将文本字段转换为数字或分类变量等。
6. 数据集成:数据集成是将来自不同数据源的数据进行合并和整合。
在数据集成过程中,需要处理不同数据源之间的数据不一致问题,例如字段名称不同、数据单位不同等。
7. 数据转换:数据转换是对数据进行变换,使得数据更加适合进行分析和挖掘。
例如,进行数据标准化、数据平滑、数据离散化等操作。
8. 数据归约:数据归约是通过选择和变换数据,减少数据集的规模。
例如,可以通过抽样方法减少数据集的大小,或者通过特征选择方法选取最相关的特征。
9. 数据验证:数据验证是对清洗后的数据进行验证,确保数据的质量和准确性。
可以使用统计方法、可视化方法等进行数据验证。
总结起来,数据挖掘数据清洗是一个非常重要的数据预处理过程,通过对数据进行缺失值处理、异常值处理、重复值处理、数据格式化、数据集成、数据转换、数据归约和数据验证等操作,可以提高数据的质量和准确性,为后续的数据分析和挖掘工作提供可靠的数据基础。
数据归约名词解释

数据归约名词解释嘿,咱今天来唠唠数据归约这个事儿哈!你说数据就像一个超级大的宝库,里面啥都有。
但有时候这个宝库太大了,咱找起东西来就费劲啦,就好像在大海里捞针一样!这时候数据归约就闪亮登场啦!数据归约呢,就好比是给这个大宝库做个整理,把那些不太重要的、重复的东西给清理掉一些,让宝库变得更精简、更有秩序。
它可不是随随便便删减哦,那可是有讲究的嘞!你想想看,要是没有数据归约,咱面对那海量的数据,不就像一只无头苍蝇到处乱撞嘛!数据归约就像是给咱指了一条明路呀。
它能让我们更快地找到关键信息,就像在一堆杂物里一下子就找到了我们最想要的宝贝一样。
比如说,咱有一堆数据记录了人们每天买啥东西,那可老多了。
但通过数据归约,咱可以把那些偶尔买一次的不太重要的东西先放一边,着重关注那些大家经常买的热门商品,这不就简单明了多啦?这数据归约厉害吧!而且啊,数据归约还能帮我们节省存储空间呢!那么多数据要是都存起来,得占多大地方呀!但经过归约后,数据量变小了,存储就没那么费劲啦。
这就好比你的衣柜,把不常穿的衣服清理掉一些,衣柜不就宽敞多了嘛!它还能提高数据分析的效率呢!原本要在一堆杂乱无章的数据里找规律,那得多难呀!但经过归约,数据变得有规律可循,分析起来就轻松多啦。
这不就像在一堆乱麻里找到了线头,一下子就能把线理顺了嘛!咱再换个角度想想,要是没有数据归约,那我们面对那么多数据岂不是要晕头转向啦?有了它,我们就像是有了一把神奇的钥匙,能打开数据宝库的大门,轻松找到我们想要的东西。
这可不是一般的厉害呀!所以说呀,数据归约可真是个好东西呀!它让我们的数据世界变得更加清晰、有序、高效。
它就像是我们在数据海洋中航行的灯塔,指引着我们前进的方向。
难道不是吗?咱可得好好珍惜这个好帮手,让它为我们的数据分析和处理发挥更大的作用呀!。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.对已知的特征的所有值进行分类。 1.对已知的特征的所有值进行分类。 2.大概在指定每个箱中分类的相邻值(vi)的均 2.大概在指定每个箱中分类的相邻值( 等数目,箱子数已给定。 3.当减少全局距离误差(ER)(所有从每个vi到 3.当减少全局距离误差(ER)(所有从每个v 其指定箱子的均值或众数的距离之和) 其指定箱子的均值或众数的距离之和)时, 把边界元素v 从一个箱中移到下一个( 把边界元素vi从一个箱中移到下一个(或前 一个) 一个)箱中。
特征子集选择的两种方法 1.自底向上方法:从空集开始,然后从初始 1.自底向上方法:从空集开始,然后从初始 特征集选择最相关的特征来写入此集。这 种方法采用一种基于一些试探式的特征评 估标准。 2.自顶向下方法:从原始特征的的完整集合 2.自顶向下方法:从原始特征的的完整集合 开始,然后根据所选的试探式评估尺度一 个一个挑选出不相关的特征,并将其去除。
基于均值和方差的检验公式 设A和B是两个不同类特征的值的集 合,n 合,n1和n2是相应的样本数。
SE ( A − B ) = (var( A ) / n 1 + var( B ) / n 2 ) TEST : mean ( A ) − mean ( B ) / SE ( A − B ) > 阈值
结果分析:选择X进行归约,因它均值 接近,检验结果小于阈值。Y不需要归 约,它可能是两类间的区别特征。 上述方法分别检验特征。当分别考虑时, 一些特征可能是有用的,但是在预测能 力上它们可能会是冗余的。如果对特征 进行总体的而不是单个的检查,我们就 可获得一些关于它们的特性的额外信息。
3.3 值归约
0 . 01 / 3 + 0 . 0133 / 3 = 0 . 0875
mean ( X A ) − mean ( X B ) / SE ( X A − X B ) = 0 . 4667 − 0 . 4333 / 0 . 4678 = 0 . 0735 < 0 . 5 mean ( Y A ) − mean ( Y B ) / SE ( Y A − Y B ) = 0 . 6 − 0 . 8333 / 0 . 0875 = 2 . 6667 > 0 . 5
上式基于这样一种假设,已知特征独 立于其他特征。主要用于分类问题。
例题:下表是一组数据集,有两个输 入特征X 入特征X和Y,C是把样本分成两类 的附加特征。假设检验阈值为0.5 的附加特征。假设检验阈值为0.5
X 0.3 0.2 0.6 0.5 0.7 0.4 Y 0.7 0.9 0.6 0.5 0.7 0.9 C A B A A B B
一种可行的特征选择技术是基于均值和方 差的比较。它适用于特征的分布是未知的 情况,实际情况也不知道特征的分布,如 果假设分布是正态,利用统计学可获得好 的结果。这种技术仅是一种试探式的、不 严密的数学建模工具。 如果一个特征描述了不同种类的实体,用 特征的方差对特征的均值进行标准化,进 行不同类之间的比较。如果均值偏离很远, 此特征具有分别两样本的能力,否则该特 征的意义不大。
例如,若一个数据集有3个特征{A1,A2,A3}, 例如,若一个数据集有3个特征{A1,A2,A3}, 特征出现或不出现取值0,1,共有2 特征出现或不出现取值0,1,共有23个归约的 特征子集, 特征子集, {0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1}, {1,1,0},{1,1,1} 特征选择的任务是搜索空间中的每一种状态 都指定可能特征的一个子集。此问题n=3, 都指定可能特征的一个子集。此问题n=3, 空间较小,但大多数挖掘应用,n>20,搜 空间较小,但大多数挖掘应用,n>20,搜 索起点和搜索策略相当重要,常常用试探 搜索代替穷举搜索。
例如:有一特征f 例如:有一特征f的值集合是: {3,2,1,5,4,3,1,7,5,3}, {3,2,1,5,4,3,1,7,5,3}, 通过分类组成一个有序集合: {1,1,2,3,3,3,4,5,5,7} 分为3个箱: {1,1,2, 3,3,3, 4,5,5,7} 4,5,5,7} BIN1 BIN2 BIN3 下面分别中数、均值和边界对其平整。
特征归约的目标与任务: 1.特征选择-基于应用领域的知识和挖掘 1.特征选择-基于应用领域的知识和挖掘 的目标,选择初始数据集中特征的一个子 集。 2.特征构成-有一些数据的转换对挖掘方 2.特征构成-有一些数据的转换对挖掘方 法的结果有惊人影响,因此特征构成是一 个比特殊的挖掘技术更有决定性因素。特 征构成依赖于应用的知识,交叉学科知识 的应用有利于数据准备的改进。 的应用有利于数据准备的改进。
3,3,3, BIN2
4,4,4,7} 4,4,4,7} BIN3
主要问题是找到最好的分割点。理论上, 分割点不能独立其他特征来决定。但很多 挖掘应用每个特征的试探性决策独立地给 出了合适的结果。 值归约问题可表述为一个选择k 值归约问题可表述为一个选择k个箱的最优 化问题:给出箱的数量k 化问题:给出箱的数量k,分配箱中的值, 使得一个值到它的箱子的均值或中值的平 均距离最小。算法可能非常复杂,通常采 均距离最小。算法可能非常复杂,通常采 用近似最优化算法,下面是一个改进的试 探性程序过程步骤:
第三章 数据归约
本章目标 明确基于特征、案例维归约与值归约的区别。 解释数据挖掘过程的预处理阶段中进行数据 归约的优点。 应用相应的统计方法,理解特征选择和特征 构成的基本原则。
3.1 大型数据集的维度
对数据描述,特征的挑选、 对数据描述,特征的挑选、归约或转换可能 是决定挖掘方案质量的最重要的问题。 是决定挖掘方案质量的最重要的问题。除了 影响到数据挖掘算法的属性, 影响到数据挖掘算法的属性,它也能决定问 题量否可解,或所得到的挖掘模型有多强大。 题量否可解,或所得到的挖掘模型有多强大。 为什么要数据归约: 1.一旦特征数量达到数百,而只有上百条样 一旦特征数量达到数百, 本用于分析时,对挖掘是相对不够的。 本用于分析时,对挖掘是相对不够的。 2.由高维度引起的数据超负,使一些挖掘算 由高维度引起的数据超负, 法不适用。 法不适用。
特征选择方法: 1.特征排列算法:特征等级列表是根据特有的评 1.特征排列算法:特征等级列表是根据特有的评 估测量标准进行排序的。测量标准基于可用数据 的精度、一致性、信息内容、样本之间的距离和 特征之间的最终统计相关性。它仅指出特征间的 相关性,不提供子集。 相关性,不提供子集。 2.最小子集算法:返回一个最小特征子集,子集 2.最小子集算法:返回一个最小特征子集,子集 中的特征之间没有等级区别。子集中的特征与挖 掘过程相关,其余的则是不相关的。 掘过程相关,其余的则是不相关的。 在特征选择过程中需要建立特征评估方案来确定 等级排列或特征子集选择,这一点很重要。
3.4 案例归约
如果我们没有参与数据收集过程,那么在 挖掘时可看作是二次数据分析,挖掘过程 与收集数据和选择初始数据的样本集的最 优方法没有联系,样本是已知的,质量或 好或坏,或者没有先验知识,需要解决案 例数据集中使用的维数和样本数目,或者 说数据表中的行数。因此案例归约是数据 归约中最复杂的任务。
在数据归约操作时的目标过程: 1.计算时间:较简单的数据,也即经过数据归 1.计算时间:较简单的数据,也即经过数据归 约后的结果,可减少挖掘所消耗的时间。 约后的结果,可减少挖掘所消耗的时间。 2.预测/描述精度:多数挖掘模型的主要度量 2.预测/描述精度:多数挖掘模型的主要度量 标准,它估量了数据归纳和慨括为模型的好 坏。 3.数据挖掘模型的描述:简单的描述通常来自 3.数据挖掘模型的描述:简单的描述通常来自 数据归约,意味着模型能得到更好的理解。 理想的情况是维归约后既能减少时间,又能 同时提高精度和简化描述。
预处理数据集的三个主要维度:列(特 预处理数据集的三个主要维度:列(特 征),行(案例或样本)和特征的值。它 们以平面文件的形式出现。 数据归约过程3个基本操作:删除列、删 数据归约过程3个基本操作:删除列、删 除行、减少列中值的数量(平整特征)。 例如:用分箱方法减少值的数量,用特征 合并代替原来特征(身体素质指标代替人 的身高和体重特征) 数据归约的约定是不要降低结果的质量。 数据归约的约定是不要降低结果的质量。
数据归约算法的特征: 1.可测性:已归约的数据集可精确确定近似结果的质 1.可测性:已归约的数据集可精确确定近似结果的质 量。 2.可识别性:挖掘前能执行归约算法时能确定近似结 2.可识别性:挖掘前能执行归约算法时能确定近似结 果的质量。 3.单调性:算法是可迭代的,结果的质量是时间和输 3.单调性:算法是可迭代的,结果的质量是时间和输 入数据质量的一个非递减的函数。 4.一致性:结果的质量与时间和输入数据质量有关。 4.一致性:结果的质量与时间和输入数据质量有关。 5.收益递增:方案在迭代早期可获得大的改进,但随 5.收益递增:方案在迭代早期可获得大的改进,但随 时间递减。 6.中断性:算法可在任何时刻停止并给出答案。 6.中断性:算法可在任何时刻停止并给出答案。 7.优先权:算法可以暂停并以最小的开销新开始。 7.优先权:算法可以暂停并以最小的开销新开始。
3.2 特征归约
在进行数据归约时不但要处理干扰数 据和污染数据,而且要处理不相关、 相关、冗余数据。为了提高效率,通 常单独处理相关特征,只选择与挖掘 应用相关的数据,以达到用最小的测 量和处理量获得最好的性能。特征归 约的目标:
更少的数据,以便挖掘算法能更快的学 习。 更高的挖掘处理精度,以便更好地从数 据中归纳出模型。 简单的挖掘处理结果,以便理解和使用 起来更加容易。 更少的特征,以便在下一次数据收集中, 通过去除冗余或不相关特征做到节俭。
X和Y特征的值的子集: XA={0.3,0.6,0.5},XB={0.2,0.7,0.4} YA={0.7,0.6,0.5},YB={0.9,0.7,0.9} 计算特征子集的均值和方差: var(XA)=0.0233, var(XB)=0.6333 var(YA)=0.01, var(YB)=0.0133