缺失值的处理----理论
数据分析及统计实训报告

一、引言随着信息技术的飞速发展,大数据已成为当今社会的重要资源。
为了培养我们具备数据分析及统计能力,提升对数据处理的实际操作能力,我们参加了本次数据分析及统计实训。
本次实训通过实际案例,让我们深入了解数据分析及统计的理论知识,掌握数据分析的流程和技巧。
二、实训内容1. 数据采集本次实训选取了某电商平台用户购买数据作为分析对象。
数据集包含用户ID、购买时间、商品ID、商品价格、用户年龄段、性别、职业等字段。
2. 数据清洗(1)缺失值处理:通过删除含有缺失值的行或使用均值、中位数等方法填充缺失值。
(2)异常值处理:使用箱线图识别异常值,并对异常值进行剔除或修正。
(3)数据类型转换:将部分字段从字符串类型转换为数值类型,便于后续分析。
3. 数据分析(1)描述性统计:计算用户购买频率、平均购买金额、用户年龄段分布、性别比例等指标。
(2)相关性分析:分析商品价格与用户年龄段、性别、职业等字段的相关性。
(3)聚类分析:根据用户购买行为,将用户分为不同群体,并分析各群体特征。
(4)时间序列分析:分析用户购买行为随时间的变化趋势。
4. 数据可视化(1)图表展示:利用柱状图、折线图、饼图等展示描述性统计结果。
(2)散点图:展示商品价格与用户年龄段、性别、职业等字段的相关性。
(3)热力图:展示用户购买行为随时间的变化趋势。
三、实训结果与分析1. 描述性统计通过描述性统计,我们得知该电商平台用户购买频率较高,平均购买金额适中。
用户年龄段以20-30岁为主,性别比例较为均衡,职业分布较为广泛。
2. 相关性分析相关性分析结果显示,商品价格与用户年龄段、性别、职业等字段的相关性较弱。
这表明商品价格主要受商品本身属性影响,而非用户特征。
3. 聚类分析通过聚类分析,我们将用户分为三个群体:年轻群体、中年群体和老年群体。
年轻群体购买频率较高,购买金额适中;中年群体购买频率适中,购买金额较高;老年群体购买频率较低,购买金额较高。
4. 时间序列分析时间序列分析结果显示,用户购买行为呈现一定的周期性,尤其在节假日、促销活动期间购买频率明显增加。
数据收集整理中的理论基础与案例分析教案

数据收集整理中的理论基础与案例分析教案数据收集和整理是数据科学家和分析师在数据处理的过程中不可或缺的步骤。
对于数据收集和整理过程,其主要目的是确保数据的准确性和可用性,并将这些数据转换为可用于数据分析和报告的格式。
本篇文章将重点讨论数据收集和整理的理论基础,以及通过案例分析的方式来解释如何有效地收集和整理数据。
一、数据收集中的理论基础1、数据生命周期理论数据被认为是一种有生命的实体,其生命周期包括数据采集、数据存储、数据分析和数据报告。
数据生命周期理论可以帮助数据科学家充分了解数据处理的过程,从而更好地管理数据资产。
2、数据类型在数据收集的过程中,需要了解不同类型的数据,以便将其分为结构化数据和非结构化数据。
结构化数据是一种按照特定格式存储的数据,包括数值、日期、时间、地址、电子邮件等。
非结构化数据则不包含特定格式的数据,包括文本、图像和视频等数据类型。
3、数据源数据源是一个数据分析项目的基础,它包括数据库、文件、网络、传感器和API等各种数据来源。
数据科学家需要了解数据源的类型和格式,从而正确采集数据并进行处理。
同时,数据科学家还要注意数据源中潜在的缺陷和错误。
二、案例分析:如何收集和整理数据接下来我们将通过一个案例分析来解释如何有效地收集和整理数据。
例:分析 Online Retailer 的销售数据Online Retailer 是一家在线零售商,它提供各种商品,如礼品、文具、办公用品和玩具。
该公司希望了解其销售数据并进行数据分析。
1、数据收集在数据收集的阶段,首先需要确定数据源。
对于 Online Retailer 来说,数据源可以是其网站上的销售记录、在线收银机的数据或其内部销售系统中的数据。
对于这些数据,在数据收集时需要注意以下几点:(1)数据格式:表格、CSV、JSON、TXT等不同格式的数据需要有不同的方法进行采集和整理。
(2)数据来源:数据可能来自多个来源,需要通过不同的方法采集和整理。
统计学中的评分标准

统计学中的评分标准
一、数据收集
数据收集是统计学中的基础步骤,其评分标准主要包括以下几个方面:
1.1明确研究目的和问题:数据收集应有明确的研究目的和问题,确保收集的数据能够满足研究需求。
1.2确定数据来源:根据研究目的和问题,选择合适的数据来源,确保数据的可靠性和有效性。
1.3设计调查问卷或采集方法:根据数据来源和目的,设计调查问卷或采集方法,确保数据的准确性和完整性。
二、数据清洗
数据清洗是数据预处理的重要步骤,其评分标准主要包括以下几个方面:
2.1缺失值处理:对缺失值进行合理处理,如填充缺失值或删除含有缺失值的记录。
2.2异常值处理:识别并处理异常值,如去除异常值或将其标记为异常值。
2.3格式统一化:确保数据格式统一,方便后续处理和分析。
三、描述性统计
描述性统计是通过对数据进行描述来了解数据的基本特征,其评分标准主要包括以下几个方面:
3.1平均值、中位数、众数等数值统计量:利用这些统计量描述数据的集中趋势。
3.2方差、标准差等变异统计量:利用这些统计量描述数据的离散程度。
3.3偏度、峰度等形态统计量:利用这些统计量描述数据的分布形态。
四、推论性统计
推论性统计是通过样本数据来推断总体特征,其评分标准主要包括以下几个
方面:
4.1参数估计:利用样本数据估计总体参数,如总体均值、总体比例等。
4.2假设检验:根据假设检验理论,对总体参数进行检验,确定样本数据是否支持假设。
缺失数据统计处理方法的研究进展

· 136·
Chinese Journal of Health Statistics, Feb 2013 , Vol. 30 , No. 1
④最近距离填补( nearest neighbor imputation) 最近距离填补法是利用辅助变量, 定义一个测量 单元间距离的函数, 在缺失值临近的回答单元中, 选择 满足所设定距离条件的辅助变量中的单元所对应的变 即在填补类中按匹配变量 量的回答单元作为填补值, 找到与受者记录最接近的供者记录 。用于定义赋值单 位的距离函数可以有很多类型, 马氏距离就是其中一 种。由于距离函数有不同类型, 用最近距离函数得到 的填补值具有伪随机性, 这给考察最近距离填补估计 量的性质带来了挑战。 ⑤热卡填补( hot deck imputation) 热卡填补中常见的有随机热卡填补法和序贯热卡 填补法。 随机热卡填补是通过对变量 Y 的回答单元 进行有放回的简单随机抽样获得填补值 。这里的填补 值是随机的, 避免了均值填补中方差低估的缺点。 序 贯热卡填补法首先对数据分层, 然后在每层中按照某 种顺序对单元排序, 对于有数据缺失的单元, 用同一层 中最后一个被计算机读取的数据进行填补 。该方法存 在的问题是填补值的选择是由辅助变量决定的 , 用不 同的变量进行排序, 得到的序列不同, 对某一缺失值来 说可能采用的填补值也就不同。 因此, 应该选择与研 究变量性质高度相关的排序变量, 使得排列位置相邻 〔15 - 16 〕 。 的单位在研究性质上也相近 ⑥冷卡填补( cold deck imputation) 冷卡填补法是相对于热卡填补而言的, 指填补值 不是从当前的调查, 而是从以往的调查或者其他历史 数据中获得的。 上述单一的填补方法通常可能会扭曲目标变量的 分布, 使填补变量的方差被低估, 还可能歪曲变量与变 〔4 , 15 〕 。 另外一 量间的关系, 无法得到真实的效应结果 个问题是基于填补的数据推断参数, 无法解释填补的 不确定性。 ( 2 ) 多重填补( multiple imputation, M I) 〔1 〕 多重填补由 Rubin 在 1978 年提出 , 它通过某种 方法对每个缺失值都构造 d 个替代值 ( d ≥2 ) , 以形成 D 个完整的数据集, 对每个数据集均采用相同的针对 完整数据集的统计方法分析, 将得到的结果综合, 产生 M I 能反映 最终的统计推断。与单一的填补方法相比, 由缺失数据带来的不确定性, 增加了估计的效率。 多重填补中最关键的问题是如何进行有效的填 , 补 从理论上讲缺失值可以从联合后验预测分布中进 行抽取。但在实际中尤其是复杂问题中要做到这点并 不容易, 特别是在多变量数据及涉及非线性关系等情 况下。近十年里, 逐渐形成了两种最常见的对多元数 据进行填补的策略, 分别是联合模型法和全条件定义 法。 JM ) ①联合模型法( joint modeling ,
如何使用粗糙集理论进行数据分析

如何使用粗糙集理论进行数据分析粗糙集理论是一种用于数据分析的方法,它可以帮助我们处理不完美或者不确定的数据。
在这篇文章中,我将介绍粗糙集理论的基本原理和应用,以及如何使用它进行数据分析。
首先,让我们来了解粗糙集理论的基本概念。
粗糙集理论是由波兰学者Pawlak 于1982年提出的,它是一种处理不确定性和模糊性的数学工具。
在粗糙集理论中,我们将数据集划分为不同的等价类,每个等价类代表了一种决策规则。
这种划分是基于属性之间的关系和相似性来进行的。
在使用粗糙集理论进行数据分析时,我们首先需要进行数据的预处理。
这包括数据的清洗、去除噪声和缺失值的处理等。
然后,我们可以根据数据的属性进行等价类划分。
这个过程可以通过计算属性之间的依赖度来实现。
依赖度越高,表示属性之间的关系越紧密。
接下来,我们可以利用粗糙集理论进行特征选择。
特征选择是指从原始数据中选择出最具有代表性和相关性的属性。
通过粗糙集理论,我们可以计算每个属性对决策规则的贡献度,然后选择贡献度最高的属性作为特征。
除了特征选择,粗糙集理论还可以用于数据分类和聚类分析。
在数据分类中,我们可以根据属性之间的关系和相似性将数据分为不同的类别。
而在聚类分析中,我们可以根据数据的属性将数据分为不同的簇。
这些分析结果可以帮助我们更好地理解数据的结构和特征。
此外,粗糙集理论还可以用于决策支持系统的构建。
决策支持系统是指通过收集、整理和分析数据来辅助决策的工具。
通过粗糙集理论,我们可以提取出数据中的关键信息,帮助决策者做出更准确和可靠的决策。
总结起来,粗糙集理论是一种用于数据分析的有效工具。
它可以帮助我们处理不完美或者不确定的数据,提取出数据中的关键信息,并辅助决策和问题解决。
通过对数据的等价类划分、特征选择、数据分类和聚类分析等操作,我们可以更好地理解和利用数据。
希望本文对您理解和应用粗糙集理论有所帮助。
数据缺失值的4种处理方法

数据缺失值的4种处理⽅法⼀、缺失值产⽣的原因缺失值的产⽣的原因多种多样,主要分为机械原因和⼈为原因。
机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,⽐如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集⽽⾔)。
⼈为原因是由于⼈的主观失误、历史局限或有意隐瞒造成的数据缺失,⽐如,在市场调查中被访⼈拒绝透露相关问题的答案,或者回答的问题是⽆效的,数据录⼊⼈员失误漏录了数据。
⼆、缺失值的类型缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全⾮随机缺失。
完全随机缺失(missing completely atrandom,MCAR)指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。
随机缺失(missing at random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。
完全⾮随机缺失(missing not at random,MNAR)指的是数据的缺失依赖于不完全变量⾃⾝。
从缺失值的所属属性上讲,如果所有的缺失值都是同⼀属性,那么这种缺失成为单值缺失,如果缺失值属于不同的属性,称为任意缺失。
另外对于时间序列类的数据,可能存在随着时间的缺失,这种缺失称为单调缺失。
三、缺失值的处理⽅法对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。
对于主观数据,⼈将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据⼀般不推荐插补的⽅法。
插补主要是针对客观数据,它的可靠性有保证。
1.删除含有缺失值的个案主要有简单删除法和权重法。
简单删除法是对缺失值进⾏处理的最原始⽅法。
它将存在缺失值的个案删除。
如果数据缺失问题可以通过简单的删除⼩部分样本来达到⽬标,那么这个⽅法是最有效的。
当缺失值的类型为⾮完全随机缺失的时候,可以通过对完整的数据加权来减⼩偏差。
粗糙集

粗糙集理论的应用及发展摘要:粗糙集理论是一种新型的处理模糊和不确定知识的数学工具, 被广泛应用于不确定环境下的信息处理。
本文主要介绍了粗糙集理论的基本概念、研究对象,叙述了其在各领域的应用发展情况,然后对粗糙集理论应用进行了论述, 最后对粗糙集理论今后的研究方向进行了展望。
关键词:粗糙集、应用、数据挖掘、数据分析、发展趋势粗糙集(Rough sets) 理论是由波兰数学家Z. Pawlak 在1982 年提出的, 该理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1 ] 。
1992 年至今,每年都召开以RS 为主题的国际会议,推动了RS 理论的拓展和应用。
国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家。
目前,粗糙集这一新的数学理论已经成为信息科学领域的研究热点之一,它在机器学习、知识获取、决策分析、过程控制等许多领域得到了广泛的应用。
1、粗糙集理论的基本概念1. 1 知识的含义粗糙集理论建立在分类机制的基础上,并将等价关系对空间的划分与知识等同。
粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。
在粗糙集理论中,“知识”被认为是一种分类能力,也就是将知识理解为对数据的划分。
用集合的概念表示就是使用等价关系集R 对离散表示的空间U 进行划分,知识就是R 对U 划分的结果。
由此,在U 和R 的意义下,知识库可以定义为:属于R 中的所有可能的关系对U 的划分,记为K = ( U , R) (1)这样给定一组数据U 与等价关系集R ,在R 下对U 的划分, 称为知识, 记为U/ R 。
如果一个等价关系集对数据的划分存在矛盾, 则将导致不确定划分,可用粗糙度来度量。
1. 2 集合的上近似和下近似粗糙集理论的不确定性是建立在上、下近似的概念之上的。
缺失数据

多重插补方法
多重插补建立在贝叶斯理论基础之上,基于EM算 法(最大期望算法 )来实现对缺失数据的处理。 分为三个步骤: ①为每个空值产生一套可能的插补值,这些值反映了 无响应模型的不确定性;每个值都可以被用来插补 数据集中的缺失值,产生若干个完整数据集合。 ②每个插补数据集合都用针对完整数据集的统计方法 进行统计分析。 ③对来自各个插补数据集的结果,根据评分函数进行 对来自各个插补数据集的结果,
该方法就是在回归插补值的基础上再加上残 差项。 残差项的分布可以包括正态分布,也可以是 其他的非正态分布。
单一插补法优缺点
单一插补法改变了传统方法将缺失值忽略不考虑的 习惯,使得各种统计分析均可以在插补后的完整数 据集上展开。 但单一插补法的缺点也是显而易见的:
无论采用何种方法,都存在扭曲样本分布的问题
计到很接近真实值的结果。 计到很接近真实值的结果。
多重插补
多重插补法的出现,弥补了单一插补法的缺陷。 第一,多重插补过程产生多个中间插补值,可以利 用插补值之间的变异反映无回答的不确定性,包括 无回答原因已知情况下抽样的变异性和无回答原因 不确定造成的变异性。 第二,多重插补通过模拟缺失数据的分布,较好地 保持变量之间的关系。 第三,多重插补能给出衡量估计结果不确定性的大 量信息,单一插补给出的估计结果则较为简单。
选择,产生最终的插补值。 选择,产生最终的插补值。
假设一组数据,包括三个变量Y1,Y2,Y3,它们的联合分布 为正态分布,将这组数据处理成三组,A组保持原始数据,B组 仅缺失Y3,C组缺失Y1和Y2。在多值插补时,对A组将不进行 任何处理,对B组产生Y3的一组估计值,对C组作产生Y1和Y2 的一组成对估计值。 当用多值插补时,对A组将不进行处理,对B、C组将完整的 样本随机抽取形成为m组(m为可选择的m组插补值),每组 个案数只要能够有效估计参数就可以了。对存在缺失值的属性 的分布作出估计,然后基于这m组观测值,对于这m组样本分 别产生关于参数的m组估计值,给出相应的预测即,这时采用 的估计方法为极大似然法,在计算机中具体的实现算法为期望 最大化法(EM)。对B组估计出一组Y3的值,对C将利用 Y1,Y2,Y3它们的联合分布为正态分布这一前提,估计出一组 (Y1,Y2)。 的联合分布为正态分布。 上例中假定了Y1,Y2,Y3的联合分布为正态分布。这个假设 是人为的,但是已经通过验证( 是人为的,但是已经通过验证(Graham和Schafer于 1999),非正态联合分布的变量,在这个假定下仍然可以估 ),非正态联合分布的变量 非正态联合分布的变量,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺失值的处理
一、缺失值产生的原因
缺失值的产生的原因多种多样,主要分为机械原因和人为原因。
机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。
人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。
二、缺失值的类型
缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。
完全随机缺失(missing completely at random,MCAR)指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。
随机缺失(missing at random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。
完全非随机缺失(missing not at random,MNAR)指的是数据的缺失依赖于不完全变量自身。
从缺失值的所属属性上讲,如果所有的缺失值都是同一属性,那么这种缺失成为单值缺失,如果缺失值属于不同的属性,称为任意缺失。
另外对于时间序列类的数据,可能存在随着时间的缺失,这种缺失称为单调缺失。
三、缺失值的处理方法
对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。
对于主观数据,人将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。
插补主要是针对客观数据,它的可靠性有保证。
1.删除含有缺失值的个案
主要有简单删除法和权重法。
简单删除法是对缺失值进行处理的最原始方法。
它将存在缺失值的个案删除。
如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。
当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差。
把数据不完全的个案标记后,将完整的数据个案赋予不同的权重,个案的权重可以通过logistic或probit回归求得。
如果解释变量中存在对权重估计起决定行因素的变量,那么这种方法可以有效减小偏差。
如果解释变量和权重并不相关,它并不能减小偏差。
对于存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算的难度,降低预测的准确性,这时权重法并不理想。
2.可能值插补缺失值
它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。
在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至几百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法。
常用的有如下几种方法。
(1)均值插补。
数据的属性分为定距型和非定距型。
如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理,
用该属性的众数(即出现频率最高的值)来补齐缺失的值。
(2)利用同类均值插补。
同均值插补的方法都属于单值插补,不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。
假设X=(X1,X2…Xp)为信息完全的变量,Y为存在缺失值的变量,那么首先对X或其子集行聚类,然后按缺失个案所属类来插补不同类的均值。
如果在以后统计分析中还需以引入的解释变量和Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍。
(3)极大似然估计(Max Likelihood ,ML)。
在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。
这种方法也被称为忽略缺失值的极大似然估计,对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization,EM)。
该方法比删除个案和单值插补更有吸引力,它一个重要前提:适用于大样本。
有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。
但是这种方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。
(4)多重插补(Multiple Imputation,MI)。
多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。
具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。
根据某种选择依据,选取最合适的插补值。
多重插补方法分为三个步骤:①为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。
②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。
③对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。
假设一组数据,包括三个变量Y1,Y2,Y3,它们的联合分布为正态分布,将这组数据处理成三组,A组保持原始数据,B组仅缺失Y3,C组缺失Y1和Y2。
在多值插补时,对A组将不进行任何处理,对B组产生Y3的一组估计值(作Y3关于Y1,Y2的回归),对C组作产生Y1和Y2的一组成对估计值(作Y1,Y2关于Y3的回归)。
当用多值插补时,对A组将不进行处理,对B、C组将完整的样本随机抽取形成为m 组(m为可选择的m组插补值),每组个案数只要能够有效估计参数就可以了。
对存在缺失值的属性的分布作出估计,然后基于这m组观测值,对于这m组样本分别产生关于参数的m组估计值,给出相应的预测即,这时采用的估计方法为极大似然法,在计算机中具体的实现算法为期望最大化法(EM)。
对B组估计出一组Y3的值,对C将利用Y1,Y2,Y3它们的联合分布为正态分布这一前提,估计出一组(Y1,Y2)。
上例中假定了Y1,Y2,Y3的联合分布为正态分布。
这个假设是人为的,但是已经通过验证(Graham和Schafer于1999),非正态联合分布的变量,在这个假定下仍然可以估计到很接近真实值的结果。
多重插补和贝叶斯估计的思想是一致的,但是多重插补弥补了贝叶斯估计的几个不足。
(1)贝叶斯估计以极大似然的方法估计,极大似然的方法要求模型的形式必须准确,如果参数形式不正确,将得到错误得结论,即先验分布将影响后验分布的准确性。
而多重插补所依据的是大样本渐近完整的数据的理论,在数据挖掘中的数据量都很大,先验分布将极小的影响结果,所以先验分布的对结果的影响不大。
(2)贝叶斯估计仅要求知道未知参数的先验分布,没有利用与参数的关系。
而多重插补对参数的联合分布作出了估计,利用了参数间的相互关系。
以上四种插补方法,对于缺失值的类型为随机缺失的插补有很好的效果。
两种均值插补方法是最容易实现的,也是以前人们经常使用的,但是它对样本存在极大的干扰,尤其是当插补后的值作为解释变量进行回归时,参数的估计值与真实值的偏差很大。
相比较而言,极大似然估计和多重插补是两种比较好的插补方法,与多重插补对比,极大似然缺少不确定成
分,所以越来越多的人倾向于使用多值插补方法。
四、小结
插补处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实。
以上的分析都是理论分析,对于缺失值由于它本身无法观测,也就不可能知道它的缺失所属类型,也就无从估计一个插补方法的插补效果。
另外这些方法通用于各个领域,具有了普遍性,那么针对一个领域的专业的插补效果就不会很理想,正是因为这个原因,很多专业数据挖掘人员通过他们对行业的理解,手动对缺失值进行插补的效果反而可能比这些方法更好。
缺失值的插补是在数据挖掘过程中为了不放弃大量的信息,而采用的人为干涉缺失值的情况,无论是那种处理方法都会影响变量间的相互关系,在对不完备信息进行补齐处理的同时,我们或多或少地改变了原始的数据的信息系统,对以后的分析存在潜在的影响,所以对缺失值的处理一定要慎重。
对缺失值的处理
(1) 剔除有缺失值的观测单位, 即删除SPSS 数据列表中缺失值所在的数据行; 在SPSS 的统计分析程序中, 打开op t ions 按钮, 便会出现缺失值的处理栏(m issing values) , 可分别选择下列选项: exclude cases analysis by analysis (剔除正在分析的变量中带缺失值的观察单位) ; exclude case list w ise (剔除所有分析变量中带缺失值的观察单位) ;
(2) 对缺失值进行估计后补上. 主要有两种方法:一是根据文献报道等知识经验进行估计; 二是用SPSS 提供的工具进行估计. 在“transfo rm ”菜单下的“rep lace m issing values”列出了5 种替代的方法: (a) series mean: 以列的算术平均值进行替代; (b)mean of nearly po int: 以缺失值邻近点的算术平均值进行替代; (c)M edian of nearly po int: 以缺失值临近点的中位数替代; (d) linear interpo lat ion: 根据缺失值前后的2 个观察值进行线性内查法估计和替代; (e) linear t rend at po int: 用线形回归法进行估计和替代;
(3) 将缺失值作为常数值, 如: 作为“0”.。