缺失数据插补方法比较研究
缺失数据填补方法研究

缺失数据填补方法研究缺失数据是数据分析中常见的问题,对于研究者而言,如何有效地填补缺失数据是至关重要的。
本文将探讨一些常用的缺失数据填补方法,并分析其优劣势,旨在为研究者提供一些有益的指导。
首先,我们需要了解缺失数据的类型。
在实际应用中,缺失数据可以分为完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)三种类型。
MCAR指的是样本中某些观测值完全随机地丢失,与其他观测值和样本特征无关;MAR指的是某些观测值丢失与其他观测值有关,但与未观测到的特征无关;NMAR指的是某些观测值丢失与未观测到的特征有关。
针对不同类型的缺失数据,我们可以采用不同方法进行填补。
下面将介绍一些常见且有效的填补方法。
1. 删除法(Deletion)删除法是最简单直接但也最不理想和最不推荐使用到方法之一。
该方法直接删除含有缺失值或者含有过多缺失值的样本或变量。
然而,这样做可能会导致样本量的减少,从而降低统计分析的效果。
因此,除非缺失数据非常严重,否则不推荐使用删除法。
2. 插补法(Imputation)插补法是一种常用的缺失数据填补方法。
该方法通过利用已有数据的信息来推测缺失值。
常见的插补方法包括均值插补、中位数插补、众数插补、回归插补等。
均值插补是一种简单而常见的填补方法,它假设缺失值与其他变量之间没有关联,并用该变量在其他观测值上的均值来填充缺失值。
中位数和众数插补与均值插补类似,只是分别使用中位数和众数来填充缺失值。
回归插补则是利用其他相关变量与待填充变量之间的关系来进行预测和填充。
具体步骤包括选择相关变量、建立回归模型、预测待填充变量,并将预测结果作为填充结果。
3. 多重揭露(Multiple Imputation)多重揭露是一种更为复杂但也更为准确的填补方法。
该方法通过生成多个完整的数据集来模拟缺失数据的不确定性,并在每个数据集上进行分析。
最后,将多个分析结果进行合并得到最终结果。
多重揭露的优势在于能够更准确地估计参数的标准误差,并能够更好地反映缺失数据的不确定性。
生长发育监测指标缺失数据插补方法比较

Vo 1 . 2 6
No .5
2 0 1 3
文章编号 : 1 0 0 4 — 4 3 3 7 ( 2 0 1 3 ) 0 5 — 0 5 1 4 — 0 3
中图分 类号 : R 3 1 1
吸收相关性. 中国新药与临床 杂志, 2 0 0 5 , 2 4 ( 7 ) : 5 0 8  ̄5 1 1 .
1 魏树礼 , 张强. 生物药剂学与药物动力学. 第2 版. 北京 : 北京大学
医学出版社 , 2 0 0 4 : 1 1 6  ̄1 1 8 .
2 Ol O . 1 7 ~ 5 8 .
数字特征如均值等 , 无 法反 映概率分 布 的全 貌 。而 NP S M 既 可获取随机变量 的数字特 征 , 又可用 数值 反映概 率分 布 的完
整动态过程 。
7 杨明世 , 游本 刚, 杨 明华 ,等.脱卷积法进行 自制尼群地平缓 释制
剂体 内外 相 关 性 研 究 . 药学学报 , 2 0 0 4 , 3 9 ( 9 ) : 7 3 8 ~7 4 1 .
意义上 的纯吸收速率 ; 这些均视 了 1 P及 RP具体剂型而定 。 统计矩法虽亦属非 参数 随机方 法 , 但所 求为 随机 变量 的
5 范世贵 , 令前华 , 郭婷. 信号与系统.第 1 版. 西安 : 西北工业大学出
版社 , 2 0 1 0 , 1 ~3 3 .
6 杨智 , 范 正 平.自动 控 制原 理.第 1版. 北京: 清 华 大 学 出版 社 ,
模 型有随机抽 取替 代 模型 、 均 值 替代 模 型、 最 近临 域替 代 模 型、 多重插补 、 基于 E M 算法 的替 代模 型 和 回归 模 型等_ 5 ] 。
二分类变量缺失数据处理方法的比较研究

Statistics and Application 统计学与应用, 2023, 12(5), 1376-1384Published Online October 2023 in Hans. https:///journal/sahttps:///10.12677/sa.2023.125142二分类变量缺失数据处理方法的比较研究余雪勤重庆理工大学理学院,重庆收稿日期:2023年9月23日;录用日期:2023年10月19日;发布日期:2023年10月26日摘要本文介绍了随机缺失模式下一些常用的插补方法,着重介绍了多重插补法和回归插补法两种方法,并且通过模拟实际案例中的响应变量不同的缺失率进一步探讨了这几种方法的插补效果。
结果表明,在缺失率较低的情况下,基于逻辑回归的多重插补与回归插补效果差别不大,但基于逻辑回归的多重插补下,插补1次和插补5次后的模型个别参数系数及标准误与完整数据系数差别较大;然而在缺失率较大的情况下,基于逻辑回归的多重插补的效率明显低于回归插补,插补1次的效果与插补5次的效果差别不大,插补后参数系数及标准误与完整数据系数差别大。
关键词二分类变量,随机缺失,回归插补,多重插补Comparative Study on Methods for Handling Missing Data in Binary VariablesXueqin YuSchool of Science, Chongqing University of Technology, ChongqingReceived: Sep. 23rd, 2023; accepted: Oct. 19th, 2023; published: Oct. 26th, 2023AbstractThis article introduces some commonly used imputation methods for random missing patterns, with a focus on two methods: multiple imputation and regression imputation. It further explores the imputation effectiveness of these methods by simulating different missing rates for the re-sponse variable in real-life cases. The results show that, at lower missing rates, there is not much difference in the effectiveness between multiple imputation based on logistic regression and re-gression imputation. However, under multiple imputation based on logistic regression, the esti-mated coefficients and standard errors of the model after 1 or 5 imputations differ significantly余雪勤from those of the complete data set. On the other hand, at higher missing rates, multiple imputa-tion based on logistic regression is noticeably less efficient than regression imputation. The effec-tiveness does not differ much between 1 and 5 imputations, but the estimated coefficients and standard errors after imputation differ greatly from those of the complete data set. KeywordsBinary Variables, Missing at Random, Regression Imputation, Multiple ImputationThis work is licensed under the Creative Commons Attribution International License (CC BY 4.0)./licenses/by/4.0/1. 引言1.1. 研究背景数据作为现代科技的核心,已经渗透到社会各个领域。
统计学中的缺失数据处理与插补方法

统计学中的缺失数据处理与插补方法在统计学中,缺失数据是一种常见的问题。
缺失数据指的是在数据收集过程中,某些变量或观测值无法获取或丢失的情况。
这可能是由于实验条件、技术限制、调查对象的拒绝或其他原因导致的。
缺失数据的存在会对统计分析结果产生不良影响,因此需要采用适当的方法进行处理和插补。
一、缺失数据的类型在进行缺失数据处理之前,我们需要了解不同类型的缺失数据。
常见的缺失数据类型包括:1. 完全随机缺失(MCAR):缺失数据的出现与观测值本身或其他变量无关,是完全随机的。
在这种情况下,缺失数据对统计分析结果没有影响。
2. 随机缺失(MAR):缺失数据的出现与观测值本身无关,但与其他变量相关。
在这种情况下,缺失数据对统计分析结果可能产生偏差。
3. 非随机缺失(NMAR):缺失数据的出现与观测值本身相关,并且与其他变量相关。
在这种情况下,缺失数据对统计分析结果产生严重偏差。
二、插补方法针对不同类型的缺失数据,统计学家们提出了各种插补方法。
下面介绍几种常见的插补方法:1. 删除法:对于缺失数据较少且缺失数据是MCAR的情况,可以选择直接删除缺失数据所在的观测值。
这种方法简单快捷,但会导致样本容量减小,可能影响统计分析结果的准确性。
2. 最小二乘法插补:对于MAR类型的缺失数据,可以使用最小二乘法进行插补。
该方法通过建立一个回归模型,利用已有数据预测缺失数据的值。
然后,将预测值代替缺失数据进行分析。
3. 多重插补法:多重插补法是一种常用的处理缺失数据的方法。
该方法通过多次模拟生成多个完整的数据集,每个数据集都包含通过预测模型得到的不同插补值。
然后,基于这些完整的数据集进行统计分析,并将结果进行汇总。
4. 均值插补法:对于MCAR类型的缺失数据,可以使用均值插补法。
该方法将缺失数据的均值或中位数代替缺失值,使得数据集的整体分布不发生明显改变。
5. 模型法插补:对于NMAR类型的缺失数据,可以使用模型法进行插补。
九种常用缺失值插补方法的比较

九种常用缺失值插补方法的比较
数据集中缺失值的存在是一个常见但难于处理的问题,它会增大统计分析的复杂性和难度,导致分析结果的偏倚,降低统计工作的效率。
虽然事前预防是避免缺失值最简单有效的方法,但是由于种种常规原因和现实条件,事前预防并不能完善地解决问题。
因此,对缺失值的事后处理显得尤为重要,也越来越受到研究者们的高度重视。
常见的缺失值的处理方法主要有直接删除法和数据插补法两种,鉴于直接删除法会导致数据信息的再次损失,所以本文主要从数据插补方面入手,先对统计学中常用的九种缺失值的插补方法——均值插补、随机插补、回归插补、多重插补、k最近邻插补、决策树插补、支持向量机插补和神经网络插补等方法的插补原理作了介绍;接着按数据量从小到大的顺序选取3个数据集salary、iris和Airfoil,以10%的样本量缺失率,在R中按单个变量随机缺失和多个变量随机缺失两种模式生成相应的缺失数据集(这里随机缺失的含义是将其中随机抽取的10%的数据替换为缺失值),然后用上述九种插补方法对两种缺失模式的数据集进行插补。
为评价和比较各种插补方法的插补效果,本文从两方面进行比较:(1)从数据插补误差的角度,把单个变量缺失模式下的3个数据集的九种插补方法生成的诸插补值与对应的数据真值(随机缺失前)进行比较,计算对应的平均绝对误差(MAE)和均方误差(MSE),按这两个指标的大小评价比较这九种插补方法的优劣。
(2)从模型的角度,用缺失前的完整数据集和先缺失再插补后的诸数据集各自建立多元线性回归模型,估计相应的回归系数(向量),计算出相应的判定系数,再进行比较和评价。
最后指出了各插补方法的特点和异同,对本文的研究结果进行归纳总结,并
说明有待改进之处和可以进一步研究的内容。
时间序列数据缺失的填补方法研究

时间序列数据缺失的填补方法研究时间序列数据的缺失是研究者在数据分析过程中常常会遇到的一个问题。
当数据缺失时,需要采取合适的方法进行填补,以保证数据分析的准确性和可靠性。
本文将探讨几种常用的时间序列数据缺失的填补方法,并对它们的优缺点进行比较。
一、删除法删除法是最简单直接的一种填补方法,它只需将缺失数据所在的时间点从数据集中删除。
删除法的优点是简单快速,不需要额外的计算和处理。
然而,删除法也有一些明显的缺点。
首先,删除缺失数据可能导致样本量的减少,从而影响到分析结果的可靠性。
其次,删除法忽略了缺失数据与其他变量的关联性,忽略了可能存在的潜在联系和趋势,从而可能导致分析结论的偏差。
二、插值法插值法是一种常用的时间序列数据缺失填补方法。
插值法通过已有数据点的值来推测缺失点的值。
其中,线性插值法是最简单的一种插值法,它根据已知数据点的斜率来估计缺失点的值。
然而,线性插值法的缺点是过于简单粗糙,忽略了可能的非线性关系和趋势。
因此,在实际应用中,常常采用更复杂的插值方法来提高填补效果。
例如,样条插值法和多项式插值法可以更好地拟合数据,保留数据的原有特点,但也可能引入过度拟合的问题。
三、平均法平均法是一种常用的均值填补方法,它通过计算已有数据点的均值来估计缺失点的值。
平均法的好处是简单易懂,不需要复杂的计算和处理。
然而,平均法也存在一些问题。
首先,平均法仅考虑了数据的整体特征,而忽略了不同时间点之间的差异性。
其次,平均法可能导致填补后的数据失去原有的细节信息和波动性,从而使分析结果缺乏准确性。
四、回归分析法回归分析法是一种通过建立回归模型来填补缺失数据的方法。
它利用已有数据点的相关变量与缺失变量之间的关系,以预测缺失点的值。
回归分析法的优点是能够利用相关性更准确地填补缺失数据,而不仅仅是根据已有数据的平均值或插值来估计。
然而,回归分析法也需要明确变量间的相关性,并假设相关关系在缺失数据时间段内保持不变,否则填补结果可能引入额外的偏差。
缺失数据的多重插补及其改进

缺失数据的多重插补及其改进一、本文概述数据插补是统计学中处理缺失数据的一种常用方法,其目标是通过已知信息来估计和填充数据集中的缺失值。
多重插补(Multiple Imputation)是其中的一种重要技术,它通过创建缺失数据的多个可能值来减少插补过程中可能引入的偏差。
然而,多重插补方法也存在一些挑战,如插补值的生成可能不符合数据的真实分布,或者在处理复杂数据结构时可能难以应用。
本文旨在深入探讨缺失数据的多重插补方法,分析其在实际应用中的优缺点,并提出一些改进策略。
我们将首先回顾多重插补的基本原理和常用方法,然后讨论现有方法在处理不同类型缺失数据时面临的挑战,最后提出一些新的改进方法,以提高多重插补的准确性和适用性。
通过本文的研究,我们期望为处理缺失数据提供更有效、更可靠的工具和方法。
二、缺失数据及其影响在统计分析和数据挖掘的实践中,缺失数据是一个普遍且重要的问题。
缺失数据,即数据集中某些观测值的不完整或未知,可能是由于各种原因造成的,如数据采集时的疏漏、设备故障、被访者拒绝回答等。
缺失数据的存在不仅降低了数据的完整性和可靠性,而且可能对后续的统计分析结果产生严重的偏差和误导。
缺失数据的影响主要体现在以下几个方面:它可能导致样本容量的减少,从而降低了统计推断的精确性和可靠性。
缺失数据可能导致数据分布的变化,使得某些统计量(如均值、中位数等)的估计不准确。
当缺失数据是非随机分布时,它可能引入系统性的偏差,进一步影响统计推断的有效性。
因此,对缺失数据进行适当的处理和分析显得尤为重要。
多重插补作为一种常用的缺失数据处理方法,能够有效地解决这一问题。
通过生成多个可能的插补值来替代缺失数据,多重插补能够充分利用数据中的信息,减少由缺失数据带来的偏差和不确定性。
然而,传统的多重插补方法在某些情况下可能无法完全解决缺失数据的问题,需要进一步的改进和优化。
在接下来的部分中,我们将详细介绍多重插补方法的基本原理和步骤,并探讨其在实际应用中的优势和局限性。
缺失数据处理方法比较研究

缺失数据处理方法比较研究概述在数据分析和研究中,缺失数据是一个常见的问题。
缺失数据指的是在数据集中某些变量的某些观测值未被记录或者无法获取。
处理缺失数据是一个重要的任务,因为缺失值可能会导致分析结果不准确或者产生偏见。
为了解决这个问题,研究人员提出了各种各样的方法来处理缺失数据。
本文将比较和评估几种常见的缺失数据处理方法。
一、删除法删除法是最简单和最直接的一种处理缺失数据的方法。
它包括删除包含缺失值的观测样本或者删除包含有任何一个变量有缺失值的观测样本。
这种方法简单易行,但是会导致信息损失和样本偏差。
二、插补法插补法是一种常见且有效的处理缺失数据的方法。
它通过使用已有观测值来估计并填补被遗漏观测值。
插补法可以分为单变量插补和多变量插补两类。
1. 单变量插补单变量插补指使用同一变量中其他已知观测值来估计缺失值。
最简单的单变量插补方法是均值插补,即用变量的均值来填补缺失值。
均值插补的优点是简单易行,但是它忽略了观测样本之间的差异,可能导致估计结果不准确。
另一种常见的单变量插补方法是回归插补,它使用其他相关变量来建立回归模型,并利用该模型预测缺失值。
回归插补方法考虑了观测样本之间的差异,并且可以提高估计结果的准确性。
2. 多变量插补多变量插补指使用其他相关变量来估计缺失值。
多变量插补方法考虑了多个相关变量之间的关系,并通过建立联合分布模型来预测缺失数据。
常见的多变量插补方法包括期望最大化算法、马尔科夫链蒙特卡洛法和多重填充法等。
三、模型法模型法是一种高级且复杂的处理缺失数据的方法。
它通过建立统计模型来处理和预测缺失数据。
常见的模型法包括EM算法、贝叶斯统计方法和随机森林等。
模型法可以利用数据集中的其他变量和已有观测值来建立模型,并通过模型来预测缺失值。
模型法的优点是可以更准确地估计缺失值,并且可以提供更多的信息用于数据分析和研究。
四、其他方法除了上述提到的方法,还有一些其他方法可以用于处理缺失数据。
例如,完全数据分析法是一种将完全观测样本与含有缺失值的样本进行比较和分析的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺失数据插补方法比较研究
一、缺失数据的产生机制
在抽样调查中,经常会遇到调查问卷中某些项目没有回答的情况,这就是数据缺失的问题。
数据缺失问题无论是在市场调查、政府调查还是学术调查中都呈现越来越严重的趋势。
这是由多种原因造成的。
首先,公民越来越重视个人的隐私权,不愿意透露一些个人信息;其次,不规范的市场调查影响了调查的严肃性,使得受访者对各类调查不屑一顾,不能认真对待;第三,问卷设计不规范,问卷内容过长或过难,尤其是市场调查中的各类“搭车调查”使得问卷过长,造成受访者的厌倦心理;第四,调查主办单位不重视访问员的培训,访问员缺乏一些必备的追问、补问、查漏等基本技巧。
缺失数据根据其产生机制可以分为完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)。
完全随机缺失是指这样一种情况:缺失情况相对于所有可观测和不可观测的数据来说,在统计学意义上是独立的。
比如说,受访者在街头接受访问时,突然沙粒吹进了眼睛导致问卷后面的问题无法回答,从而造成了数据缺失。
随机缺失是一个观测出现缺失值的概率是由数据集中不含缺失值的变量决定的,而不是由含缺失值的变量决定的。
非随机缺失是与缺失数据本身存在某种关联,比如问题设计过于敏感造成的缺失。
识别缺失数据的产生机制是极其重要的。
首先这涉及到代表性问题。
从统计上说,非随机缺失的数据会产生有偏估计,因此不能很好地代表总体。
其次,它决定数据插补方法的选择。
随机缺失数据处理相对比较简单,但非随机缺失数据处理比较困难,原因在于偏差的程度难以把握。
缺失数据的插补是指选择合理的数据代替缺失数据。
不同的插补法对总体推断会产生较大的影响,尤其是在缺失数量较大的情况下。
目前国内学者对缺失数据的插补问题尚未有充分的认识。
笔者发现,研究者在抽样调查报告中很少会说明缺失值的处理方法,但事实上,绝大部分社会科学调查(包括市场调查)都会包含不完整的数据,理应对此有所说明。
二、几种常见的缺失数据插补方法
(一)个案剔除法(Listwise Deletion)
最常见、最简单的处理缺失数据的方法是用个案剔除法(listwise deletion),也是很多统计软件(如SPSS和SAS)默认的缺失值处理方法。
在这种方法中如果任何一个变量含有缺失数据的话,就把相对应的个案从分析中剔除。
如果缺失值所占比例比较小的话,这一
方法十分有效。
至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。
有学者认为应在5%以下,也有学者认为20%以下即可。
然而,这种方法却有很大的局限性。
它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。
在样本量较小的情况下,删除少量对象就足以严重影响到数据的客观性和结果的正确性。
因此,当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。
(二)均值替换法(Mean Imputation)
在变量十分重要而所缺失的数据量又较为庞大的时候,个案剔除法就遇到了困难,因为许多有用的数据也同时被剔除。
围绕着这一问题,研究者尝试了各种各样的办法。
其中的一个方法是均值替换法(mean imputation)。
我们将变量的属性分为数值型和非数值型来分别进行处理。
如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,就根据统计学中的众数原理,用该变量在其他所有对象的取值次数最多的值来补齐该缺失的变量值。
但这种方法会产生有偏估计,所以并不被推崇。
均值替换法也是一种简便、快速的缺失数据处理方法。
使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。
但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。
(三)热卡填充法(Hotdecking)
对于一个包含缺失值的变量,热卡填充法在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。
不同的问题可能会选用不同的标准来对相似进行判定。
最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。
然后把所有个案按Y的取值大小进行排序。
那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。
与均值替换法相比,利用热卡填充法插补数据后,其变量的标准差与插补前比较接近。
但在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,而且这种方法使用不便,比较耗时。
(四)回归替换法(Regression Imputation)
回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值进行替换。
与前述几种插补方法比较,该方法利用了数据库中尽量多的信息,而且一些统计软件(如Stata)也已经能够直接执行该功能。
但该方法也有诸多弊端,第一,这虽然是一个无偏估计,但是却容易忽视随机误差,低估标准差和
其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。
第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。
(五)多重替代法(Multiple Imputation)
多重估算是由Rubin等人于1987年建立起来的一种数据扩充和统计分析方法,作为简单估算的改进产物。
首先,多重估算技术用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性。
然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。
最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。
由于多重估算技术并不是用单一的值来替换缺失值,而是试图产生缺失值的一个随机样本,这种方法反映出了由于数据缺失而导致的不确定性,能够产生更加有效的统计推断。
结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。
NORM统计软件可以较为简便地操作该方法。
三、五种插补方法的实证比较
为了比较这五种缺失值插补方法的不同结果,我们使用实际数据库进行实证研究。
数据来源于云南农村169位农民进行的居民生活调查。
我们以此次调查中涉及到的4个变量为例:年龄、收入、精神生活满意度、压力感得分。
其中,年龄没有缺失值。
收入以“千”为单位,有21%的缺失值。
精神生活满意度为6项指标得分之和,总分为30分,有2%的缺失值。
压力感得分(本次调查的因变量)为3项指标得分之和,总分为15分,有16%的缺失值。
(一)描述性指标比较
我们首先比较采用5种方法插补后,每个变量的均值和标准差的变化。
除了在个案剔除法中有58位个案被剔除之外,其余4种方法都有169个个案参与计算与分析。
采用不同的插补方法,其变量的均值和标准差是不同的。
当变量的缺失值比较少时(如精神生活满意度),采用5种方法插补后的均值和标准差差异较小。
但当缺失值所占比例增大时(如收入、压力感得分),采用不同方法后的均值和标准差差异较大。
5种方法中,使用个案剔除法后各变量的标准差都明显增大,使用均值替换法后各变量的标准差都明显减小。
(二)回归分析比较
我们以压力感得分为因变量,其余3个变量为自变量进行回归分析。
由于回归分析中,各个变量是相互关联的,所以虽然年龄变量没有缺失值,但由于其他变量存在缺失,导致年龄变量在回归方程中的系数也会发生变化。
从表2中可以看出这种变化是比较大的,其中T值从
-0.38变化至1.01,与之相应的P值也从0.314变化至0.71。
这提醒我们,在进行多元分析时,尤其要注重缺失数据插补方法的使用,因为它不仅会影响到有缺失值的变量,而且影响没有缺失值的变量。
采用不同插补方法对“收入”变量的影响较大。
其中,使用热卡填充法后的系数是最大的,并且明显高于了采用其他方法插补后的系数。
从P值上看,使用热卡填充法该变量的影响不是显著的,但使用其他插补方法,却可以使得该变量对因变量的影响是显著的。
这和前面的分析是一致的,即在回归分析中,用热卡填充法获得的系数是不稳定不可靠的。
应该说上述5种缺失值插补方法各有利弊,研究者在选用插补方法时应该综合考虑缺失数据产生机制、缺失值所占比例、研究能力、时间限制等因素,具体情况具体分析,寻找到在当前条件下最适宜的方法。
对于各类插补,共同的目的在于使不完全样本的已有信息得到最佳利用。