缺失数据统计处理方法的研究进展

合集下载

统计学中的缺失数据处理方法与技巧

统计学中的缺失数据处理方法与技巧

统计学中的缺失数据处理方法与技巧缺失数据是指在统计分析中某些变量或观测值缺乏数据的情况。

缺失数据可能由于各种原因导致,比如数据采集过程中的错误、被访者拒绝回答某些问题等。

在统计学中,如何处理这些缺失数据成为一个重要问题。

本文将介绍一些常用的缺失数据处理方法和技巧。

一、删除法删除法是一种比较简单粗暴的处理缺失数据的方法。

当缺失数据不多且对整体数据影响不大时,可以考虑直接将包含缺失值的观测数据删除。

然而,使用删除法的前提是缺失数据是随机产生的,而不是与待研究变量或其他变量相关。

如果删除的数据不满足这个条件,可能会引入样本偏差,使结果失真。

二、替代法替代法是指将缺失值用某个特定的值或者一组特定的值填充。

常见的替代值包括平均值、中位数、众数等。

这种方法适用于缺失值数量较少的情况。

然而,替代法可能会导致估计值的偏差,因为替代值无法完全代表原有数据的真实情况。

三、最大似然估计法最大似然估计是一种使用统计模型来估计缺失数据的方法。

在这种方法中,假设数据的缺失是有规律可循的,并且基于已有数据的概率分布来预测缺失数据。

最大似然估计法需要对数据进行概率模型的建立和参数的估计,相对较复杂且需要一定的统计知识。

四、多重插补法多重插补法是指通过建立模型来生成多个可能的缺失值,从而更加准确地预测缺失数据。

多重插补法的核心思想是使用其他相关变量的信息来估计缺失数据。

这种方法能够准确地估计缺失数据的分布,并且通过多次插补生成多个完整数据集,从而使得统计分析结果更加准确可靠。

五、模型建立法模型建立法是一种利用已有数据建立预测模型来预测缺失数据的方法。

这种方法通常需要有一定的预测变量和已知的非缺失数据样本,可以使用机器学习、回归分析等方法进行建模和预测。

模型建立法需要提前对数据进行处理和特征工程,相对较为复杂。

综上所述,统计学中的缺失数据处理方法和技巧有很多种。

选择合适的方法需要根据缺失数据的情况、数据类型和分析目的来决定。

需要注意的是,在进行缺失数据处理时,要充分了解数据的特点和背景,避免方法选择上的盲目性,并进行适当的统计检验和灵敏度分析,以确保处理结果的可靠性和稳定性。

统计学中的缺失数据处理与插补方法

统计学中的缺失数据处理与插补方法

统计学中的缺失数据处理与插补方法在统计学中,缺失数据是一种常见的问题。

缺失数据指的是在数据收集过程中,某些变量或观测值无法获取或丢失的情况。

这可能是由于实验条件、技术限制、调查对象的拒绝或其他原因导致的。

缺失数据的存在会对统计分析结果产生不良影响,因此需要采用适当的方法进行处理和插补。

一、缺失数据的类型在进行缺失数据处理之前,我们需要了解不同类型的缺失数据。

常见的缺失数据类型包括:1. 完全随机缺失(MCAR):缺失数据的出现与观测值本身或其他变量无关,是完全随机的。

在这种情况下,缺失数据对统计分析结果没有影响。

2. 随机缺失(MAR):缺失数据的出现与观测值本身无关,但与其他变量相关。

在这种情况下,缺失数据对统计分析结果可能产生偏差。

3. 非随机缺失(NMAR):缺失数据的出现与观测值本身相关,并且与其他变量相关。

在这种情况下,缺失数据对统计分析结果产生严重偏差。

二、插补方法针对不同类型的缺失数据,统计学家们提出了各种插补方法。

下面介绍几种常见的插补方法:1. 删除法:对于缺失数据较少且缺失数据是MCAR的情况,可以选择直接删除缺失数据所在的观测值。

这种方法简单快捷,但会导致样本容量减小,可能影响统计分析结果的准确性。

2. 最小二乘法插补:对于MAR类型的缺失数据,可以使用最小二乘法进行插补。

该方法通过建立一个回归模型,利用已有数据预测缺失数据的值。

然后,将预测值代替缺失数据进行分析。

3. 多重插补法:多重插补法是一种常用的处理缺失数据的方法。

该方法通过多次模拟生成多个完整的数据集,每个数据集都包含通过预测模型得到的不同插补值。

然后,基于这些完整的数据集进行统计分析,并将结果进行汇总。

4. 均值插补法:对于MCAR类型的缺失数据,可以使用均值插补法。

该方法将缺失数据的均值或中位数代替缺失值,使得数据集的整体分布不发生明显改变。

5. 模型法插补:对于NMAR类型的缺失数据,可以使用模型法进行插补。

统计学中缺失数据的处理方法

统计学中缺失数据的处理方法

统计学中缺失数据的处理方法在统计学中,数据的完整性对于研究结果的准确性至关重要。

然而,在实际数据收集和处理过程中,经常会遇到数据缺失的情况。

数据缺失可能是由于调查对象未提供相关信息、记录错误、设备故障等原因造成的。

如何有效地处理缺失数据,成为统计学研究中一个重要的问题。

本文将介绍统计学中常用的几种处理缺失数据的方法。

一、删除法删除法是最简单直接的缺失数据处理方法之一。

当数据中存在缺失值时,可以选择直接删除缺失值所在的行或列。

这样做的好处是简单快捷,不会对原始数据进行修改,但缺点是可能会造成数据量的减少,丢失了一部分信息,从而影响统计结果的准确性。

二、均值、中位数、众数插补法均值、中位数、众数插补法是一种常用的缺失数据处理方法。

对于数值型数据,可以用整个变量的均值、中位数或众数来替代缺失值;对于分类变量,可以用出现频率最高的类别来替代缺失值。

这种方法的优点是简单易行,不会改变原始数据的分布特征,但缺点是可能会引入一定的偏差。

三、最近邻插补法最近邻插补法是一种基于样本相似性的缺失数据处理方法。

该方法的思想是找到与缺失样本最相似的样本,然后用这些样本的观测值来插补缺失值。

这种方法的优点是能够更好地保留原始数据的特征,缺点是对样本相似性的定义和计算比较主观,可能会引入较大的误差。

四、回归插补法回归插补法是一种基于回归分析的缺失数据处理方法。

该方法的思想是利用其他变量的信息来预测缺失变量的取值。

通过建立回归模型,利用已有数据对缺失值进行估计。

这种方法的优点是能够利用其他变量之间的相关性来填补缺失值,缺点是对模型的选择和拟合要求较高。

五、多重插补法多重插补法是一种结合模型建立和随机抽样的缺失数据处理方法。

该方法的思想是通过多次模拟,生成多个完整数据集,然后对这些数据集进行分析,最后将结果进行汇总。

多重插补法能够更好地反映数据的不确定性,提高了数据处理的准确性。

六、EM算法EM算法是一种迭代优化算法,常用于缺失数据的处理。

有关缺失数据的统计分析要点

有关缺失数据的统计分析要点

有关缺失数据的统计分析要点摘要:缺失数据有许多可能的来源,影响整个受试者或特定项目。

缺失数据可能有许多原因,其中并不都与研究相关。

可以出现不同程度的数据不完整。

即可能只有基线测定值。

或可能漏了一个或几次随访评价。

即使完成了研究方案,仍可能有些数据未收集到。

对缺失值有不同的调整方法,不同的方法各有特点。

本文将围绕上述问题进行讨论。

关键词:缺失数据;统计分析;要点缺失数据违反严格的原则,即:测定所有的结果而不论其是否遵守方案;按照分配的进行分析而不论实际接受的如何。

全分析集一般需要填补未记录的数据的值。

实际上,即使是符合方案集可能也需要使用某些填补的值。

一、缺失数据的弥补方法方差分析的数据一般是按计划安排试验得到的,在实际工作中可能发生这种情况,由于意外的原因而使试验计划没有完整的完成,实验数据与计划相比缺失一个或两个,补做试验又不可能,进行方差分析必须有完整的数据才能计算,但我们不能因为缺失一两个数据而使其他大部分数据白白浪费,这就需要给出缺失数据的估计值,用估计值代替弥补成完整的数据以便计算。

二、缺失值对数据分析和数据解释的影响如果简单地从分析中排除有缺失结果的所有患者来处理缺失值,则以下问题会影响试验结果的解释。

1.把握度和变异样本量和结果变异影响临床试验的把握度。

样本量越大则把握度越大,并且变异越小。

由于数据不完整而减少可用于分析的有效可能会导致统计学把握度降低,缺失值的数量越大则把握度降低越明显。

此外,数据不完整者有极端值的可能性更大。

因此这些数据不完整者的缺失会导致变异被低估,因此人为地使统计结果的可信区间变窄。

2.偏倚偏倚是由缺失数据所导致的最重要的担心。

虽然统计学把握度的降低主要与缺失值的数量相关,但估计治疗作用时偏倚的风险取决于缺失、治疗和结果之间的关系。

在多数情况下,很难或不可能阐明缺失值和未观察的结果变量之间是否完全无相关性。

因此最好是采用保守的方法,把缺失值当作偏倚的一个潜在来源。

统计数据缺失值产生的主要原因及解决方法研究

统计数据缺失值产生的主要原因及解决方法研究

统计数据缺失值产生的主要原因及解决方法研究作者:柳丹来源:《经营管理者·下旬刊》2017年第04期摘要:调查数据缺失值是日常统计工作中一种不可避免的现象。

它的出现不仅给统计工作造成了诸多不便,而且使统计调查的准确性受到影响。

因此分析各种调查数据缺失现象产生的原因,并根据具体情况找到适宜的解决办法,是历来统计调查的一项重点工作。

针对这一问题从不同方面总结归纳,并提出了解决方法。

关键词:统计数据缺失值插补一、统计数据缺失的主要原因社会经济的高速发展,离不开统计调查和分析工作,做好统计工作重点是提高调查数据的精度和分析的准确性。

出现统计数据缺失值是日常统计工作中的一种常见现象,造成统计数据缺失现象的原因也多种多样,归纳起来主要有一下几个方面:1.统计信息被遗漏。

这种情况发生在统计过程的很多阶段,如:统计调查阶段,被调查者认为所调查的问题不够重要,有关的问题没有填写完整,造成统计数据被遗漏,或者是被调查者由于知识水平的原因不能理解问题不能给出相应问题的答案而造成统计数据被遗漏,或者是对于敏感性的问题(如收入、年龄等等),被调查者不愿意被其他人知道而采取避而不答,造成我们得到的统计数据就不完整;在数据录入过程中,由于操作人员的失误也会使得一些统计数据被遗漏,如:调查问卷上这方面的数据是有的,但在录入计算机的过程被遗漏了,还有可能是统计数据在录入计算机的过程中,计算机突然发生故障或是人为操作原因导致统计数据存储失败。

2.很多统计信息无法得到。

如:不公开的统计数据或者没有准确的获取数据的途径。

我们正处于一个大数据时代,很多人就想分析一下其他行业或商家的交易信息怎么样,或者是做微商的人们想了解同行业交易信息情况,但是这些商家或竞争对手并没有公开这些数据,致使我们没有办法得到这方面的信息;还有一些行政记录的统计数据,我们缺乏数据的获取手段或是出于数据保密性的原因,行政部门不公开这些数据,或没有义务公开相关的数据,造成我们也是没办法得到的该方面数据;还有很多统计数据我们目前没有准确的测定方法,如:我们国家一个非常重要的宏观经济政策就是改善民生,这几年我国居民对民生改善的满意度怎么评价,我们就无法找到一个合适的统计指标来测定,这些方面也没有一个成熟的、有说服力的或者是统一的口径。

不完全数据分析与统计学中的缺失值处理方法

不完全数据分析与统计学中的缺失值处理方法

不完全数据分析与统计学中的缺失值处理方法在数据分析和统计学领域,缺失值是一种常见的问题。

缺失值是指在数据集中某些变量的某些观测值缺失或未被记录的情况。

这可能是由于记录错误、数据采集过程中的问题或者被调查者拒绝回答问题等原因造成的。

缺失值的存在会对数据分析和统计推断产生不利影响,因此需要采取适当的方法来处理缺失值。

一、删除法删除法是最简单和直接的缺失值处理方法之一。

它的核心思想是将包含缺失值的观测值或变量从数据集中删除,以确保数据集的完整性。

这种方法适用于缺失值的比例较低且缺失值没有特定的模式的情况。

然而,使用删除法会导致数据集的样本量减少,可能会影响统计推断的准确性。

二、插补法插补法是一种常用的缺失值处理方法,它通过根据已有的数据来估计缺失值,并将估计值代替原始的缺失值。

常见的插补方法包括均值插补、回归插补和多重插补等。

1. 均值插补均值插补是一种简单而直接的插补方法,它将缺失值替换为变量的平均值。

这种方法适用于缺失值的比例较低且缺失值与其他变量之间没有明显关联的情况。

然而,均值插补忽略了变量之间的相关性,可能会引入估计误差。

2. 回归插补回归插补是一种基于回归模型的插补方法,它通过建立一个回归模型来预测缺失值。

回归插补的核心思想是利用其他变量与缺失变量之间的关系来估计缺失值。

这种方法适用于缺失值与其他变量之间存在一定的相关性的情况。

然而,回归插补的准确性依赖于回归模型的选择和建立的质量。

3. 多重插补多重插补是一种基于蒙特卡洛模拟的插补方法,它通过多次生成缺失值的估计值来减少估计误差。

多重插补的核心思想是通过模拟多个可能的数据集来估计缺失值,并将这些估计值的平均值作为最终的插补结果。

这种方法适用于缺失值的比例较高且缺失值与其他变量之间存在复杂的关联的情况。

然而,多重插补的计算复杂度较高,需要进行多次模拟,因此在大规模数据集上可能不太实用。

三、模型法模型法是一种基于建立模型的缺失值处理方法,它通过建立一个包含缺失值的模型来处理缺失值。

因子分析中的缺失数据处理技巧分享(四)

因子分析中的缺失数据处理技巧分享(四)

因子分析是一种常用的统计方法,用于分析变量之间的关系和结构。

在因子分析中,处理缺失数据是一个常见的问题,因为缺失数据会对结果产生影响。

因此,需要掌握一些处理缺失数据的技巧,以确保因子分析的准确性和可靠性。

首先,当面对缺失数据时,我们需要了解数据的缺失机制。

数据的缺失机制可以分为完全随机缺失、随机缺失和非随机缺失三种类型。

完全随机缺失意味着缺失数据的出现与其他变量无关,随机缺失表示缺失数据的出现与其他变量有关,但是缺失的概率是随机的,而非随机缺失表示缺失的数据与其他变量有关,并且缺失的概率是非随机的。

其次,针对不同的缺失机制,我们可以采用不同的处理方法。

对于完全随机缺失,最常用的处理方法是删除带有缺失数据的观测样本。

这种方法简单直接,但是会减少样本的数量,从而影响统计分析的结果。

对于随机缺失,我们可以使用插补方法来处理缺失数据,比如均值插补、回归插补、最大似然估计等。

而对于非随机缺失,则需要更加复杂的处理方法,比如多重插补、模型融合等。

此外,我们还可以利用现有的变量信息来估计缺失数据。

比如,我们可以利用其他变量的信息来估计缺失数据的数值,然后进行插补。

这种方法可以在一定程度上减少插补的误差,提高数据的准确性。

在因子分析中,处理缺失数据的技巧还包括对模型的适应性进行评估。

我们可以使用各种统计指标来评估因子分析模型的拟合程度,比如卡方值、拟合优度指数、均方根误差等。

通过对模型的适应性进行评估,我们可以更好地理解缺失数据对因子分析结果的影响,从而采取相应的处理方法。

最后,我们需要注意在因子分析中,缺失数据处理过程中可能会引入一定的误差。

因此,我们需要在结果的解释和解读过程中谨慎对待。

在解释因子分析结果时,我们需要考虑到缺失数据处理方法的影响,避免对结果的过度解读。

总的来说,处理缺失数据是因子分析中的一个重要问题,需要我们掌握一定的技巧和方法。

通过了解数据的缺失机制、采用合适的处理方法、评估模型的适应性以及谨慎对待结果的解释,我们可以有效地处理缺失数据,提高因子分析的准确性和可靠性。

大数据分析中如何处理缺失数据(八)

大数据分析中如何处理缺失数据(八)

在大数据分析中,如何处理缺失数据是一个至关重要的问题。

大数据分析是指通过对海量数据进行收集、存储和分析,从中挖掘出有价值的信息和规律。

然而,在实际应用中,往往会遇到数据缺失的情况,这就需要对缺失数据进行有效处理,以保证数据分析的准确性和可靠性。

首先,我们需要了解缺失数据的类型。

数据缺失可以分为完全缺失和部分缺失。

完全缺失是指某个数据项的数值完全缺失,而部分缺失是指某个数据项的某些数值缺失。

针对不同类型的数据缺失,需要采取不同的处理方法。

对于完全缺失的数据,我们可以选择删除这部分数据。

当数据的完全缺失比例较小的时候,删除这部分数据并不会对整体数据分析造成太大影响。

但是当完全缺失的数据占比较大的时候,我们需要考虑其他处理方法。

针对部分缺失的数据,我们可以采用填充的方式进行处理。

常见的填充方法有:均值填充、中位数填充、众数填充、以及使用机器学习模型进行填充等。

这些填充方法可以根据实际情况来选择,以保证填充后的数据尽可能接近真实值。

除了以上的处理方法,我们还可以考虑使用插值的方法对缺失数据进行处理。

插值是一种数学方法,可以根据已知数据来推测缺失数据的值。

常见的插值方法有线性插值、多项式插值、样条插值等。

这些方法可以在一定程度上恢复缺失数据的真实值。

在实际应用中,除了对缺失数据进行处理外,我们还需要考虑如何评估处理后的数据质量。

数据质量的评估可以通过比较处理前后数据的差异来进行。

另外,我们还可以使用一些统计指标,如均值、方差、相关系数等来评估数据的质量。

通过对数据质量的评估,可以保证数据分析结果的准确性和可靠性。

总的来说,在大数据分析中,如何处理缺失数据是一个重要且复杂的问题。

我们需要根据数据的特点和缺失情况,选择合适的处理方法,以保证数据分析的准确性和可靠性。

同时,对处理后的数据进行质量评估也是必不可少的,只有经过严格的评估和验证,才能得出可信的数据分析结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
〔 &- 〕 决因预测变量高度相关引起的共线性问题 。
算法, 该算法为处理缺失数据带来了新的革命; 正是基 于这一算法, B=C%* 在 %" 年代末提出了多重填补的 在 &’’% 年提出了对多变量缺
〔 ’〕
方法; D-E$>9/ A F&)9*
〔 %〕
失值 的 多 重 填 补 法; B(C%*)、 B(:*%:GH0 A IE$( J%*
〔 !) # !’ 〕 有意义” 。 〔 &- 〕 @AB 由 C#! D..$"! 等提出 , 它在填补时不考
( 0+2/ /"01 ’,-.&#&’+!) #冷卡填补 冷卡填补法是相对于热卡填补而言的, 指填补值 不是从当前的调查, 而是从以往的调查或者其他历史 数据中获得的。 上述单一的填补方法通常可能会扭曲目标变量的 分布, 使填补变量的方差被低估, 还可能歪曲变量与变
〔 !( 〕 98 最早由 :#!!"$ ; <+!( 提出, 分为借补步
( 4,-.&#&’+!, 4 步) 和后验步 ( =+%&"$’+$, = 步) 。若在第
( *) * 次迭代时 ! 的一个抽取值为 ! , 那么 ( * , !) ( *) + 步: 抽取 ! , 使其具有密度 , ( ! %&’ + ! ()’ , ! ) %&’ ( * , !) ,! $ 步: 抽取 ! , 使其具有密度 , ( ! + ! *%&’ , ! ()’ )
〔 !" # !$ 〕 的单位在研究性质上也相近 。
73 在给定数据 ! 和模型参数 ! 下假定参数的多 元密度分布为 $ ( ! + !) , 在给定一个 ! 的适当的先验分 布和上述假定下, 利用贝叶斯理论从联合后验预测分 布$ ( ! %&’ + ! ()’ ) 中抽取产生填补值, 通常是在可忽略的 缺失机制 ( ,’%%’!( #& 5#!/+,, 385 ) 下。该方法能产 生对参数的有效推断, 被认为是适当的填补。73 通常 需要特殊的方法来实现, 数据扩张 ( /#&# #.(,"!&#&’+!, 98) 即是基于此策略的填补方法。
〔 *〕
等 对 $""& 年 发 表 在 456、 6757、 8$*-9: 和
;9< !*+&$*3 6(=/*$& (> 593%-%*9 期刊上的随机对照试 验分析后发现, 缺失数据在这些试验中普遍存在, 但未 得到很好的处理和分析。缺失数据的出现给数据分析 和研究推论带来困难, 尤其当完全观测数据和不完全 观测数据存在系统差异时, 常规处理方法得到的结果 通常不能代表整体。处理不当时可能导致方差增大, 检验效能降低, 无法得到科学合理的解释和结论。如 何有效处理缺失数据, 怎样才能充分利用数据信息, 准 确地反映研究群体的特征, 达到预期研究目的, 已成为 当前统计研究中的难点和热点问题。本文将就当前国 内外缺失数据的处理方法进行一综述。 常见的处理缺失数据的方法 $" 世纪 #" 年代后期, 国外学者对缺失数据问题 的研究开始重视并日渐增多。 ?9#@):9/, 8$%/3 A B=" C%*
+ 步中的缺失值是从给定已观测数据和当前的参 数值后的条件分布进行抽取。$ 步中参数的抽取可以 看作是从完整数据后验分布的一个抽取。因此, 进行 数据扩张将产生 ! %&’ 的后验预测分布的一个抽取值和 ! 的后验分布的一个抽取值。这一迭代过程可以产生 给定 ! ()’ 下 ! %&’ 和 ! 的联合后验分布中的一个抽取。 迭代过程收敛到一个给定 ! ()’ 下 ( ! %&’ , 的联 当 * 时, !) 合分布的抽取。 ( >.22? 0+!/’&’+!#2 %-"0’>’0#&’+!, %全 条 件 定 义 法 @AB) 73 的理论是可靠的, 但缺乏对模型设定的灵活 性, 尤其在数据特征比较特殊时, 可能还会导致结论的 偏倚。有学者通过模拟研究分析发现 73 在一些情况 下表现不佳, 认为 “ 分别进行回归可能比联合模型更
〔 #〕
首先提出了一种有效处理缺失数据的算法"!5
〔 &〕
( 393=-%L9 %#@=:$:%(*) "演绎填补 演绎填补法是通过可以搜集到的复杂资料, 依据 逻辑和常规, 对缺失数据进行推断, 找出填补值。用公 式表示就是 ! " /( # $" ) , 其中 % " 为第 " 个缺失数据的填 补值, $ " 是辅助变量, ( # !) 是根据缺失数据的目标变 量 & 与辅助变量 $ 之间的逻辑运算关系构造的函数。 该方法操作简单, 在有高质量的辅助信息下, 可以提供 准确或近乎准确的填补值, 但其效率很大程度上依赖 于辅助资料是否充分。 ( /9+/9))%(* %#@=:$:%(*) #回归填补 回归填补是由单元的缺失项对观测项的回归, 用 预测值代替缺失值。通常由观测变量及缺失变量都有 观测的单元进行回归计算。填补中还可以给填补值增 加一个随机成分, 这种方法称为随机回归填补。它是 用回归填补值加上一个随机项, 预测出一个缺失值的 替代值, 该随机项反映所预测的值的不确定性影响。 随机回归填补法能够较好的利用数据提供的信息, 解
( 项目编号: !"#$%&’ ) !本文获国家自然科学基金项目资助 &( 四川省人民医院健康管理中心 $( 四川大学华西公共卫生学院卫生统计教研室 !( 美国华盛顿大学公共卫生学院生物统计学 李晓松, !"#$%&: &%’%$()(*+&&"&) &$* , -(# "通信作者:
・ &・
A)’!"%" 7+.$!#2 +> E"#2&) B&#&’%&’0%, @"* &-!* , C+2F *- , G+F !
方法对每个缺失值都构造 " 个替代值 ( "* & ) , 以形成 # 个完整的数据集, 对每个数据集均采用相同的针对 完整数据集的统计方法分析, 将得到的结果综合, 产生 最终的统计推断。与单一的填补方法相比, 34 能反映 由缺失数据带来的不确定性, 增加了估计的效率。 多重填补中最关键的问题是如何进行有效的填 补, 从理论上讲缺失值可以从联合后验预测分布中进 行抽取。但在实际中尤其是复杂问题中要做到这点并 不容易, 特别是在多变量数据及涉及非线性关系等情 况下。近十年里, 逐渐形成了两种最常见的对多元数 据进行填补的策略, 分别是联合模型法和全条件定义 法。 ( 6+’!& ,+/"2’!(, 73) $联合模型法
( *) %&’ ( *) ()’ ( * 0! ) ( *) ! ! 3& 2 $ ( 3& / -, 3 3& , …, 3 , ) !& ! , 1
!! 1
( *)
( *) ( *) ( *) 2 $ ( !1 / -, 3 ()’ 3 3& , …, 3 1 , ! , 1 0! )
( *) ( *) ( *) ( *) ( *) 3 2 $ ( 3 %&’ / -, 3 ()’ 3 3& , …, 3 ) !! 1 1 1 , ! , 1 , 1
〔 % # !" 〕 量间的关系, 无法得到真实的效应结果 , 另外一
个问题是基于填补的数据推断参数, 无法解释填补的 不确定性。 (& ) 多重填补 ( ,.2&’-2" ’,-.&#&’+!, 34)
〔 !〕 多重填补由 5.*’! 在 !’() 年提出 , 它通过某种
虑被填补变量和已观测变量的联合分布, 而是利用单 个变量的条件分布建立一系列回归模型逐一进行填 !. ( !! , !& , …, !. ) 为. 补。假设 - 为无缺失变量集, 个带缺失值的变量, @AB 迭代地从下面形式的条件分 布中进行抽取: $ ( !! / - , ! 0! , !! ) $ ( !1 / -, ! 01 , !1 ) 每一次迭代包括对所有 ! 1 进行抽取的一个循环。 具体在第 * 次迭代中, 有:
〔 &" 〕

&’’- 年 提 出 了 以 估 计 缺 失 概 率 为 基 础 的 加 权 法; 和 K$*+
〔 && 〕
等学者在 $""$ 年和 $""! 年分别提
出了两种不同的运用似然函数的半参数方法来处理不 可忽略缺失数据机制的问题。我们将这些学者提出的 方法大概归为三类, 分别是: 基于填补的方法, 基于参 数似然的方法和基于加权调整的方法。 &( 基于填补的方法
( !"#$"%& !"’()*+$ ’,-.&#&’+!) !最近距离填补 最近距离填补法法是利用辅助变量, 定义一个测 量单元间距离的函数, 在缺失值临近的回答单元中, 选 择满足所设定距离条件的辅助变量中的单元所对应的 变量的回答单元作为填补值, 即在填补类中按匹配变 量找到与受者记录最接近的供者记录。用于定义赋值 单位的距离函数可以有很多类型, 马氏距离就是其中 一种。由于距离函数有不同类型, 用最近距离函数得 到的填补值具有伪随机性, 这给考察最近距离填补估 计量的性质带来了挑战。 ( )+& /"01 ’,-.&#&’+!) "热卡填补 热卡填补中常见的有随机热卡填补法和序贯热卡 填补法。随机热卡填补是通过对变量 ! 的回答单元 进行有放回的简单随机抽样获得填补值。这里的填补 值是随机的, 避免了均值填补中方差低估的缺点。序 贯热卡填补法首先对数据分层, 然后在每层中按照某 种顺序对单元排序, 对于有数据缺失的单元, 用同一层 中最后一个被计算机读取的数据进行填补。该方法存 在的问题是填补值的选择是由辅助变量决定的, 用不 同的变量进行排序, 得到的序列不同, 对某一缺失值来 说可能采用的填补值也就不同。因此, 应该选择与研 究变量性质高度相关的排序变量, 使得排列位置相邻
相关文档
最新文档