单一插补方法与多重插补方法的对比及分析(行业二类)
单一插补方法与多重插补方法的对比及分析

单一插补方法与多重插补方法的对比及分析0.缺失数据说明Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)。
MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的真实情况,是严格意义上的随机缺失;MAR表示某些变量数据的缺失与回答者的真实情况是独立的;NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。
实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方面:数据统计的功效以及会带来有偏估计。
Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来18.3%全部信息的丢失。
Quinten和Raaijmakers(1999)的研究表明10%~35%的数据缺失会带来35%~98%的信息丢失。
可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。
故而,在数据分析中,对缺失数据的处理至关重要,同时该部分也是目前新兴学科——数据挖掘技术的重要组成部分。
在处理缺失数据时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。
缺失数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。
其中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成真实信息的大量丢失,仅仅适用于极少量的数据缺失情况。
相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。
根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。
1.单一插补与多重插补概念单一插补是指采用一定方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数据的位置上,替代后构造出一个完整的数据集。
多重插补是由哈佛大学的Rubin教授在1977年首先提出的,该方法是从单一插补的基础上衍生而来的。
指给每个缺失值都构造m个替代值(m>1),从而产生了m个完全数据集,然后对每个完全数据集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。
数据处理中的缺失数据处理策略

数据处理中的缺失数据处理策略在进行数据处理时,经常会遇到一些数据缺失的情况。
缺失数据是指数据采集或记录过程中出现的缺失情况,它可能会给我们的分析过程带来一定的问题。
因此,我们需要合适的策略来处理缺失数据,确保数据的准确性和可靠性。
下面将介绍一些常用的缺失数据处理策略。
1. 删除缺失数据当数据缺失情况严重且没有办法恢复缺失值时,我们可以选择直接删除缺失数据。
这种策略适用于样本量足够大的情况下,且缺失数据不会对整体分析结果产生较大的偏差。
但是,需要注意的是,删除缺失数据可能会导致样本量的减少,从而影响到统计推断结果的稳定性。
2. 插补缺失数据另一种常见的策略是对缺失数据进行插补。
插补的目的是利用已有的信息对缺失值进行估计,从而填补数据集中的空缺。
插补方法可以分为两大类:单一插补和多重插补。
单一插补方法包括均值插补、中位数插补、众数插补等。
这些方法适用于缺失数据符合正态分布、偏态分布或离散分布的情况。
例如,当某个变量的数据缺失时,我们可以使用该变量的均值来代替缺失值。
但是,单一插补方法的缺点是会降低数据的方差,从而可能影响结果的准确性。
多重插补方法则使用了更加复杂的统计模型来对缺失数据进行估计。
这些方法可以利用数据集中其他变量之间的相关关系来估计缺失值。
多重插补方法相对于单一插补方法更加灵活和准确,但也更加复杂和耗时。
3. 使用虚拟变量在特定情况下,我们可以使用虚拟变量来处理缺失数据。
虚拟变量是一种哑变量,用于表示某个变量的缺失情况。
例如,我们可以为某个变量创建一个虚拟变量,将缺失值设置为1,非缺失值设置为0。
这样,我们就可以在后续分析中将缺失数据作为一类进行处理,避免直接删除或插补缺失值带来的偏差。
4. 敏感度分析除了上述策略外,敏感度分析也是一种常用的缺失数据处理方法。
敏感度分析的目的是检验缺失值对于结果的稳定性和可靠性的影响。
通过对不同的缺失值处理策略进行实验,我们可以评估结果在不同策略下的变化情况。
缺失数据插补方法的比较研究

DOI:10.13546/ki.tjyjc.2020.18.002理论探讨缺失数据插补方法的比较研究宋亮,万建洲(南阳理工学院数学与统计学院,河南南阳473000)摘要:文章通过对样本数据缺失值问题的分析,在随机缺失模式下选择科学有效的插补法对数据缺失问题进行研究,然后以市场中顾客对商品E喜爱度作为调查对象,构建模型对其进行实证分析,并在与多重插补法结合运用的基础上研究不同缺失率下的插补效果。
结果显示,随着缺失率的提高,调查中所获得的数据可用性减少,同时插补法的效果也随之降低。
在四种插补法中,EM插补和多重插补的插补效果优于其余两种,同时运用模型与多重插补相结合的插补效果也不错。
因此根据不同的缺失率,需要选择合适的插补法对数据进行插补。
关键词:抽样调查;缺失值;插补法;逻辑回归分析中图分类号:0212.1文献标识码:A文章编号:1002-6487(2020)18-0010-050引言样本数据出现缺失在各行各业都有不同程度的体现。
如机械自身原因导致数据错误,内容无法引起被调査者的兴趣,或是涉及隐私,还有可能是在录入数据阶段错录或漏录等,这些事件造成的数据缺失都会使分析的复杂性呈几何级数的增加,甚至得到错误结论等。
一旦数据出现缺失,最直接的方法是删除。
我们用到的很多软件也默认这种处理,但是这种方法的弊端就是当变量很多或者数据缺失比重较大时,就会导致大量个案被删除,从而影响结论的可靠性,因此对数据的缺失值进行插补也许是一种更好的模型。
本文在梳理相关文献的基础上做了以下几方面工作:第一,基于不同缺失率条件的限制,在单一变量缺失和多变量缺失的前提下,对四种插补方法的插补效果进行比较分析;第二,对于插补效果评价较好的多重插补法,基于真实调査的数据,建立回归模型在多变量数据缺失的情况下进行实证分析;第三,将R软件的程序代码应用于实际案例进行分析,包括对缺失数据的预分析、缺失值的处理和处理结果的定量分析,从而达到较好的缺失值处理效果。
因子分析中的缺失数据处理技巧分享

因子分析是一种常见的数据分析方法,用于揭示变量之间的潜在结构和关系。
在实际应用中,我们经常会遇到数据缺失的情况,这就需要我们对因子分析中的缺失数据进行有效处理。
本文将分享一些处理缺失数据的技巧,帮助读者更好地应用因子分析方法。
1. 数据缺失的影响数据缺失是指在数据收集过程中,某些变量的取值未能获得或记录。
这会对因子分析的结果产生影响,因为缺失数据可能导致样本量减少、样本偏倚、结果不稳定等问题。
因此,我们需要采取合适的方法来处理缺失数据,以确保因子分析结果的准确性和可靠性。
2. 处理缺失数据的方法删除法删除法是最简单的处理缺失数据的方法之一,即直接删除包含缺失值的样本或变量。
但是,这种方法会导致样本量减少,可能会引入样本选择偏倚,降低结果的可信度。
因此,在使用删除法时需要慎重考虑,尽量避免盲目删除数据。
插补法插补法是指使用其他观测值的信息来估计缺失数据。
常见的插补方法包括均值插补、回归插补、最大似然估计等。
这些方法可以有效地填补缺失数据,提高因子分析的效果。
但是在使用插补法时需要注意插补的准确性和合理性,避免引入额外的误差。
多重插补多重插补是一种较为复杂的插补方法,它通过多次模拟生成缺失值的可能取值,然后对这些模拟值进行因子分析。
多重插补可以更好地反映数据的不确定性和变异性,提高因子分析结果的稳健性和可靠性。
但是多重插补需要较多的计算资源和时间成本,适合于样本量较大、缺失情况较为复杂的数据。
3. 案例分析为了更好地理解因子分析中的缺失数据处理技巧,我们以某市民健康调查数据为例进行分析。
该数据包括身体健康、生活方式、医疗保健等多个方面的变量,其中存在一定比例的缺失数据。
我们首先对数据进行描述性统计和缺失情况分析,然后应用删除法、插补法和多重插补等方法进行数据处理,最终比较不同方法得到的因子分析结果,评估它们的优劣和适用性。
4. 结论与建议在因子分析中处理缺失数据时,我们应根据具体情况选择合适的方法,避免盲目应用某一种方法。
缺失数据的多重插补方法

摘要:插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。
本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。
关键词:多重插补;缺失数据一、引言在数据处理和数据分析中经常会出现缺失数据(missingdata)或不完全数据(incompletedata),从抽样调查的角度,把这些数据归结为无回答数据集。
一般把无回答分为“单位无回答”和“项目无回答”。
“项目无回答”是指被调查单位虽然接受了调查,但只回答了其中的一部分而非全部的问题,或者对某些项目提供的资料是无用的。
对于“项目无回答”,如果重新调查来获得准确数据,会浪费大量的时间、人力和财力,是不现实的。
因此对“项目无回答”的弥补处理多采用插补法(imputationmethod)。
插补法是指采取一定的方式为调查中的每一个缺失数据寻找一个合理的替补值插补到原缺失数据的位置上,对得到的“完全数据集”使用完全数据统计分析方法分析并进行统计推断的一种方法。
插补的目的并不是预测单个缺失值,而是预测缺失数据所服从的分布。
通过插补,一方面,填补了缺失数据的空白,使得原来有缺失数据的数据集成为一个完整数据集,弥补了统计分析的不便;另一方面,减少了由于数据缺失造成的估计量的偏差。
二、多重插补的提出迄今为止,学术界已提出并发展了30多种插补方法。
在抽样调查中应用的主要是单一插补和多重插补。
单一插补指对每个缺失值,从其预测分布中抽取一个值填充缺失值后,使用标准的完全数据分析进行处理。
单一插补方法大致可以归为两类:随机插补和确定性插补,具体包括:均值插补、热卡插补、冷卡插补、回归插补和模型插补等。
但是单一插补假定好像缺失值在完全数据分析中是已知的,并未反映出位置缺失数据的预测的不确定性,容易扭曲变量关系,无法反映无回答模型的不确定性,并且参数估计的估计方差结果将是有偏的。
统计学中的缺失数据处理方法与技巧

统计学中的缺失数据处理方法与技巧缺失数据是指在统计分析中某些变量或观测值缺乏数据的情况。
缺失数据可能由于各种原因导致,比如数据采集过程中的错误、被访者拒绝回答某些问题等。
在统计学中,如何处理这些缺失数据成为一个重要问题。
本文将介绍一些常用的缺失数据处理方法和技巧。
一、删除法删除法是一种比较简单粗暴的处理缺失数据的方法。
当缺失数据不多且对整体数据影响不大时,可以考虑直接将包含缺失值的观测数据删除。
然而,使用删除法的前提是缺失数据是随机产生的,而不是与待研究变量或其他变量相关。
如果删除的数据不满足这个条件,可能会引入样本偏差,使结果失真。
二、替代法替代法是指将缺失值用某个特定的值或者一组特定的值填充。
常见的替代值包括平均值、中位数、众数等。
这种方法适用于缺失值数量较少的情况。
然而,替代法可能会导致估计值的偏差,因为替代值无法完全代表原有数据的真实情况。
三、最大似然估计法最大似然估计是一种使用统计模型来估计缺失数据的方法。
在这种方法中,假设数据的缺失是有规律可循的,并且基于已有数据的概率分布来预测缺失数据。
最大似然估计法需要对数据进行概率模型的建立和参数的估计,相对较复杂且需要一定的统计知识。
四、多重插补法多重插补法是指通过建立模型来生成多个可能的缺失值,从而更加准确地预测缺失数据。
多重插补法的核心思想是使用其他相关变量的信息来估计缺失数据。
这种方法能够准确地估计缺失数据的分布,并且通过多次插补生成多个完整数据集,从而使得统计分析结果更加准确可靠。
五、模型建立法模型建立法是一种利用已有数据建立预测模型来预测缺失数据的方法。
这种方法通常需要有一定的预测变量和已知的非缺失数据样本,可以使用机器学习、回归分析等方法进行建模和预测。
模型建立法需要提前对数据进行处理和特征工程,相对较为复杂。
综上所述,统计学中的缺失数据处理方法和技巧有很多种。
选择合适的方法需要根据缺失数据的情况、数据类型和分析目的来决定。
需要注意的是,在进行缺失数据处理时,要充分了解数据的特点和背景,避免方法选择上的盲目性,并进行适当的统计检验和灵敏度分析,以确保处理结果的可靠性和稳定性。
缺失数据下智能温室控制模型的数据插补技术研究

软件工程 SOFTWARE ENGINEERING 第24卷第6期2021年6月V ol.24 No.6Jun. 2021文章编号:2096-1472(2021)-06-24-03DOI:10.19644/ki.issn2096-1472.2021.06.006缺失数据下智能温室控制模型的数据插补技术研究陈秀寓(大连东软信息学院高等职业技术学院,辽宁 大连 116023)*********************.cn摘 要:针对智能温室控制模型中,实时温度数据因通信和设备故障等问题造成的数据缺失现象,提出了在常规神经网络模型基础上,利用模糊控制进行补偿的插补方法。
利用搭建在温室大棚的智能监控系统对人工温室中的温度参数进行采集,并利用所测数据对上述模型进行插补验证实验。
实验结果表明:与通用模型相比,所提出的模糊神经网络插补模型改变了传统处理方式中插补数据不精确的现状,为实时温度数据缺失提供了有效地处理方法,也为建立智能温室模型提供了数据基础。
关键词:缺失数据;智能温室;数据插补;模糊神经网络中图分类号:TP399 文献标识码:AResearch on Data Interpolation Technology of Intelligent GreenhouseControl Model under Missing DataCHEN Xiuyu(Higher V ocational Technical College , Dalian Neusoft University of Information , Dalian 116023, China )*********************.cnAbstract: Aiming at real-time temperature data missing caused by communication and equipment failure in intelligent greenhouse control model, this paper proposes an interpolation method based on conventional neural network model and fuzzy control for compensation. An intelligent monitoring system built in the greenhouse is used to collect temperature parameters in the artificial greenhouse, and the measured data is used to perform an interpolation verification experiment on the above model. The experimental results show that: compared with the general model, the proposed fuzzy neural network interpolation model improves the precision of interpolation data in traditional processing methods, provides an effective processing method for real-time temperature data missing, and lays a data foundation for the establishment of intelligent greenhouse model.Keywords: missing data; intelligent greenhouse; data interpolation; fuzzy neural network1 引言(Introduction)准确的温室环境参数对建立智能温室模型,实施温室种植环境的科学化调控,防止环境异常变化造成的损失具有十分重要的经济和现实价值[1-2]。
数据处理中的缺失数据处理策略(一)

数据处理中的缺失数据处理策略在现代社会中,数据被广泛应用于各个领域,从商业到科学研究,从社会调查到医疗健康。
然而,在实际应用中,我们往往会遇到一些数据缺失的情况,这对于数据处理和分析带来了一定的困扰。
因此,如何有效地处理缺失数据成为了一个重要的研究领域。
本文将探讨几种常见的缺失数据处理策略,并讨论它们的优缺点。
一、删除法删除法是最简单直接的缺失数据处理方法之一。
该方法的原理是将包含有缺失数据的样本或变量从数据集中删除,以避免对分析结果的影响。
例如,在某次实验中,样本数据中有一些缺失值,我们可以选择直接删除这些样本。
然而,删除法存在着严重的问题,即可能引入样本选择偏差。
由于缺失数据往往不是随机的,通过删除缺失数据会导致样本不再代表整个数据集的特征,从而影响分析结果的准确性。
二、单一插补法单一插补法是指使用一个固定的值来替代缺失数据。
常见的插补值包括均值、中位数、众数等。
例如,在某次问卷调查中,某个问题的部分样本缺失了回答,我们可以用该问题的均值来替代这些缺失值。
单一插补法的优点在于其简单易用,适用于样本量较大、缺失数据较少的情况。
然而,该方法忽视了缺失数据的随机性和变异性,可能会引入估计偏差和方差的问题。
三、多重插补法相比于单一插补法,多重插补法更加复杂,但能够更好地处理缺失数据。
多重插补法的基本思想是通过生成多个完整数据集,然后对每个数据集进行分析,最后将分析结果进行汇总。
具体实施时,我们需要利用已有数据的其他变量建立模型,预测缺失值。
这个过程可以通过多种方法实现,如回归模型、贝叶斯网络等。
多重插补法考虑了缺失数据的随机性、变异性和不确定性,能够提供更加准确的估计结果。
四、模型法模型法是一种利用已有数据来预测缺失值的方法。
与多重插补法类似,模型法也需要建立预测模型。
不同之处在于,模型法利用所有可用的信息,包括缺失值本身的特征,来进行预测。
例如,在某个医疗数据集中,我们需要对患者的肿瘤大小进行估计,但是部分患者的肿瘤大小信息缺失。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单一插补方法与多重插补方法的对比及分析
0.缺失数据说明
Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)。
MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的真实情况,是严格意义上的随机缺失;MAR表示某些变量数据的缺失与回答者的真实情况是独立的;NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。
实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方面:数据统计的功效以及会带来有偏估计。
Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来18.3%全部信息的丢失。
Quinten和Raaijmakers(1999)的研究表明10%~35%的数据缺失会带来35%~98%的信息丢失。
可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。
故而,在数据分析中,对缺失数据的处理至关重要,同时该部分也是目前新兴学科——数据挖掘技术的重要组成部分。
在处理缺失数据时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。
缺失数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。
其中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成真实信息的大量丢失,仅仅适用于极少量的数据缺失情况。
相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。
根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。
1.单一插补与多重插补概念
单一插补是指采用一定方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数据的位置上,替代后构造出一个完整的数据集。
多重插补是由哈佛大学的Rubin教授在1977年首先提出的,该方法是从单一插补的基础上衍生而来的。
指给每个缺失值都构造m个替代值(m>1),从而产生了m个完全数据集,然后对每个完全数据集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。
多重插补可分为三个阶段:(1)对目标变量的估计,(2)创建完全数据集,(3)目标变量的确定。
其中最关键的阶段为目标变量的估计,该阶段需要确定估计缺失值的方法,即缺失值是以何种方法或者模型被估计出来,该阶段直接影响统计推断的有效性。
理想的多重插补一般都按照以下方案进行:每个插补模型,对无回答Y[,m]的m次插补,实际就是从Y[,m]的后验预测分布中进行m次独立重复抽取,即从与数据和无回答机制相对
应的贝叶斯模型中独立抽取参数和无回答数值。
实践中在选择模型时应考虑三个重要问题:模型是显性的还是隐性的,是可忽略的还是不可忽略的,以及插补模型是否适当?显性模型在数理统计中经常使用的方法,比如正态线性回归、多元正态模型等。
隐性模型被认为是潜在的隐含的“修补”特定数据结构的方法,比如非参数方法、最近距离法等。
尽管在理论上显性模型被认为是理想的多重插补技术,但实践中经常采用的却是隐性模型,或是显性模型和隐性模型的结合。
例如,Herzog和Rubin曾在美国普查局的热卡法的基础上,改进生成一种结合显性回归模型和隐性配对模型反复插补的方法。
插补模型,无论是显性还是隐性,都可按照无回答机制分为可忽略的模型和不可忽略的模型。
例如,X是数据中所有单元都回答的变量,Y有回答也有无回答。
可忽略的(Ignorable)模型假设具有相同X值的回答者和无回答者的差异都是随机的。
不可忽略的(Non-ignorable)模型则假设即使具有相同的X值,回答者和无回答者之间的Y值具有系统差异。
在实际数据中,如果没有直接证据能验证无回答机制的假设,可以利用多个模型来研究其敏感性。
插补模型,无论是显性还是隐性,可忽略或是不可忽略,必须是适当的模型,才可能得出有效推断。
使用适当插补模型的本质在于,在利用模型进行重复插补时可以正确反映抽样的变异性,从而才能得出有效推论。
例如在可忽略的无回答假设下,具有相同X值的回答者和无回答者的Y值差异都是随机的,但是从相同X值的Y回答值中随机抽取插补值,忽略了抽样变异性,即被抽取的相同X值的Y回答值与相同X值的总体Y值的随机差异性。
要正确反映这种变异性,才能在既定无回答机制下得出多重插补的有效推断。
利用近似贝叶斯靴环法(ABB)可以满足这一要求。
在可忽略的无回答机制下,假设收集相同X值的n个单位的资料,其中有n[,r]个回答者,n[,m]=n-n[,r]个无回答者。
ABB首先从n[,r]个回答值中有放回随机抽取n[,r]个值,作为Y的n[,r]个可能值,再从该n[,r]个可能值中有放回随机抽取n[,m]个无回答插补数据。
这里从n[,r]个可能值而不是n[,r]个回答值中抽取插补值,至少在简单随机大样本条件下可以反映不同插补之间的变异性。
ABB还可用于不可忽略机制的无回答的插补,比如在第一步不是简单随机抽取,而是按照Y的某函数(比如Y[2])独立抽取n[,r]个值。
这样就可以生成偏态分布的无回答,比如无回答者的Y值大于相同X值的回答者的Y值。
2.单一插补方法分类
均值插补:
分为无条件均值插补和有条件均值插补。
无条件均值插补指用所有有回答单元的均值来代替缺失值,若在MCAR条件下,该方法为无偏估计。
然而,由于插补值是所有有回答的均值,该数值过于集中,扭曲了变量的经验分布,总体方差和协方差被低估。
为了得到更精确的数值,学者提出了有条件均值插补,分为分层均值插补、回归均值插补和BUCK方法。
其中,分层均值插补:在插补之前,对变量按照某种规律进行分层,然后用每一层中的均值来代替本层中的缺失值。
回归均值插补:在单调缺失数据模式下,利用回归的预测值来代替
缺失值。
BUCK方法:
将回归插补推广到更一般的无回答数据模式,首先基于回答单元获得样本均值μ和协方差阵Σ,然后使用这些估计,对每一种无回答数据模式计算含有无回答的变量关于回答变量的最小二乘线性回归,在此基础上,用回归预测值代替无回答值。
随机插补
与条件均值插补方法类似,只不过在均值插补的基础上加上随机项,该方法通过增加缺失值的随机性,改善缺失值分布过于集中的缺陷。
同样可分为两类:分层随机插补和随机回归插补。
其中随机回归插补可表示为:
热卡插补
该方法指从每一个缺失数据的估计分布中抽取插补值替代缺失值,使用回答单元的抽样分布作为未回答单元的抽取分布。
从回答单元中产生插补值所采用的抽样方式决定了在热卡插补下有关总体参数估计量的性质,根据获得插补值的不同,热卡插补又可分为:随机抽样热卡插补、分层热卡插补、最近距离热卡插补和序贯热卡插补。
冷卡插补
冷卡插补表示从以前的调查数据中获取信息,如历史数据。
同样该方法不能消除估计偏差。
演绎插补
该方法是一种辅助变量的插补方法,主要通过演绎辅助资料,查找插补值。
插补的有效性很大程度上取决于辅助资料的充分与否以及演绎过程是否合理。
3.多重插补方法分类
单调缺失模式:当一个个体观测值的变量缺失则意味着后面的所有变量也缺失时,则变量的缺失可认为为单调缺失模式。
回归预测法:
倾向得分法:
蒙特卡罗的马氏链法:
4.两种方法的优缺点
5.总结
单一插补
名词解释:
后验概率:源于贝叶斯模型中的概念。
后验概率是指在得到"结果"的信息后重新修正的概率,如贝叶斯公式中的,是"执果寻因"问题中的"果".先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。
它的本质是条件概率。
P(A|B)=P(B|A)*P(A)/P(B)
Pr(A)是A的先验概率或边缘概率。
之所以称为"先验"是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。