调查中零频数过多的统计分析方法

合集下载

数据统计分析实用指南

数据统计分析实用指南

数据统计分析实用指南第1章数据统计分析基础 (3)1.1 数据与统计分析概念 (3)1.2 统计分析的基本步骤 (3)1.3 统计分析的方法与工具 (3)第2章数据收集与整理 (4)2.1 数据来源与收集方法 (4)2.1.1 数据来源 (4)2.1.2 数据收集方法 (5)2.2 数据清洗与预处理 (5)2.2.1 数据清洗 (5)2.2.2 数据预处理 (5)2.3 数据整理与存储 (5)2.3.1 数据整理 (5)2.3.2 数据存储 (6)第3章描述性统计分析 (6)3.1 频数与频率分布 (6)3.2 图表展示 (6)3.3 统计量度与集中趋势 (6)3.4 离散程度分析 (6)第4章概率论基础 (7)4.1 随机事件与概率 (7)4.1.1 随机实验与样本空间 (7)4.1.2 随机事件 (7)4.1.3 概率的定义与性质 (7)4.1.4 条件概率与贝叶斯定理 (7)4.2 离散型随机变量 (7)4.2.1 离散型随机变量的定义 (7)4.2.2 离散型随机变量的概率分布 (7)4.2.3 离散型随机变量的期望与方差 (7)4.3 连续型随机变量 (7)4.3.1 连续型随机变量的定义 (7)4.3.2 连续型随机变量的概率密度函数 (8)4.3.3 连续型随机变量的期望与方差 (8)4.4 大数定理与中心极限定理 (8)4.4.1 大数定理 (8)4.4.2 中心极限定理 (8)第5章假设检验 (8)5.1 假设检验的基本原理 (8)5.2 单样本假设检验 (8)5.3 双样本假设检验 (9)5.4 非参数检验 (9)第6章方差分析 (9)6.1 单因素方差分析 (9)6.1.1 基本概念 (9)6.1.2 假设条件 (9)6.1.3 方差分析步骤 (10)6.2 多因素方差分析 (10)6.2.1 基本概念 (10)6.2.2 假设条件 (10)6.2.3 方差分析步骤 (10)6.3 重复测量方差分析 (10)6.3.1 基本概念 (10)6.3.2 假设条件 (11)6.3.3 方差分析步骤 (11)第7章相关分析与回归分析 (11)7.1 相关分析 (11)7.1.1 皮尔逊相关系数 (11)7.1.2 斯皮尔曼等级相关系数 (11)7.1.3 判定相关系数的显著性 (11)7.1.4 相关分析的注意事项 (11)7.2 线性回归分析 (11)7.2.1 一元线性回归模型 (11)7.2.2 最小二乘法估计 (11)7.2.3 线性回归模型的假设检验 (12)7.2.4 线性回归分析的应用案例 (12)7.3 多元回归分析 (12)7.3.1 多元线性回归模型 (12)7.3.2 参数估计与假设检验 (12)7.3.3 多元回归分析中的多重共线性问题 (12)7.3.4 多元回归分析的应用实例 (12)7.4 非线性回归分析 (12)7.4.1 非线性回归模型及其特点 (12)7.4.2 非线性回归模型的参数估计 (12)7.4.3 非线性回归分析的应用实例 (12)7.4.4 非线性回归分析中的模型选择与评估 (12)第8章主成分分析与因子分析 (12)8.1 主成分分析 (12)8.1.1 主成分分析的基本概念 (12)8.1.2 主成分分析的步骤 (12)8.1.3 主成分分析的优缺点 (13)8.2 因子分析 (13)8.2.1 因子分析的基本概念 (13)8.2.2 因子分析的步骤 (13)8.2.3 因子分析的优缺点 (13)8.3 主成分分析与因子分析的应用 (13)8.3.1 主成分分析的应用 (13)8.3.2 因子分析的应用 (13)第9章聚类分析 (13)9.1 聚类分析基本概念与方法 (13)9.2 层次聚类分析 (14)9.3 Kmeans聚类分析 (14)9.4 聚类分析的其他方法 (14)第10章时间序列分析与预测 (15)10.1 时间序列基本概念 (15)10.2 平稳性检验与白噪声过程 (15)10.3 自相关函数与偏自相关函数 (15)10.4 时间序列模型与预测方法 (15)第1章数据统计分析基础1.1 数据与统计分析概念数据是信息的一种表现形式,它可以通过数字、文字、图像等多种方式来记录和传递现实世界中的现象和事实。

第十二章.调查资料整理与分析

第十二章.调查资料整理与分析

3、准确性 即检查问卷或调查表中的项目是否存在填答错误,一般也有 三种情形: (1)逻辑性错误,表现为某些答案明显地不符合事实,或者 前后不一致。对这类错误能够用电话核实的可进行更正,无法核 实的按“不详值”对待; (2)答非所问的答案,一旦发现应通过电话询问进行纠正, 或按“不详值”对待; (3)乏兴回答的错误,如所有问题都选择同一固定编号答案, 或者一笔带过若干个问题。如这种乏兴回答仅属个别问卷,应彻 底抛弃,如这类回答的问卷有一定的数目,且集中出现在同一类 问题群上,应把这些问卷作为一个独立的子样本看待,在资料分 析时给予适当的注意。
数字资料分组的步骤
1、分组标志的选择
数据资料分组的关键是选择分组标志。分组标志是说明总体特征 的名称,可以分为品质标志和数量标志。
定性: 品质标志表示事物的质的特征,是不能用数值直接表示的
属性,如人的性别、民族等。 定量: 数量标志表示事物的量的特征,是可以用数值直接表示的, 如人的年龄、收入等。 分组标志就是分组的依据或标准,分组标志一经选定,各组的性 质界限和数量界限也就确定了。
一般方式:
复查和回访
主要内容包括:
•资料的时效性—准 •资料的完整性—缺 •资料的正确性—误
调查资料审核的主要内容
(1)完备性 (2)完整性 (3)正确性 (4)时效性 (5)真伪性
1、完备性
即检查收回的问卷或调查表的份数是否齐全,是否达到了调查方 案设计的样本量的要求。如果调查问卷或调查表份数不够,应查明原 因,采取补救措施,如重新拜访或更换调查对象。
4、时效性
主要是对调查问卷或调查表的访问时间、有关数据的时间属 性进行检查,以评价调查数据是否符合时效性的要求。 一般地,访问员应在规定的时间内完成所有样本单位的访问, 如延迟了访问,则应作出不同情况的处理:如延迟访问对调查结 果没有什么影响,则问卷仍是合格的;若延迟访问影响到数据的 时间属性不一致时,则应废弃这样的调查表或问卷。

统计学(第四版)期末复习资料

统计学(第四版)期末复习资料

第一章统计和统计数据名词解释1.统计学:收集处理分析解释数据并从数据中得出结论的科学。

2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。

3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。

4.分类数据:只能归于某一类别的非数字型数据。

5.顺序数据:只能归于某一有序类别的非数字型数据。

6.数值型数据:按数字尺度测量的观察值。

7.总体:包含所研究的全部个体(数据)的集合。

8.样本:从总体中抽取的一部分元素的集合。

9.参数:用来描述总体特征的概括性数字度量。

10.变量:说明现象某种特征的概念。

11.分类变量:说明事物类别的一个名称。

12.顺序变量:说明事物有序类别的一个名称。

13.数值型变量:说明事物数字特征的一个名称。

14.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

15.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

16.简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。

17.分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。

18.整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。

19.系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先规则确定其它样本单位。

20. 抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差简答题。

1.概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。

操作简便,时效快,成本低,专业要求不很高。

概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。

提出精度要求。

2.数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求3.误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。

调查研究统计学方法

调查研究统计学方法

调查研究统计学方法
1. 描述性统计:通过对数据的集中趋势、离散程度和分布形态等特征进行描述,帮助我们了解数据的基本情况。

常用的描述性统计指标包括均值、中位数、标准差、方差等。

2. 频数分析:用于统计数据中各个数值出现的次数或频率,以了解数据的分布情况。

通过频数分析,我们可以发现数据中的模式、趋势和异常值。

3. 假设检验:用于判断样本数据与总体参数之间是否存在显著差异。

常见的假设检验方法包括 t 检验、方差分析(ANOVA)等。

这些方法可以帮助我们确定研究中的因素是否对结果产生了显著影响。

4. 相关分析:用于研究变量之间的线性关系。

通过计算相关系数(如皮尔逊相关系数),我们可以评估两个变量之间的相关性强度和方向。

5. 回归分析:用于建立自变量和因变量之间的数学模型。

通过回归分析,我们可以预测因变量的值,并了解自变量对因变量的影响程度。

6. 因子分析:用于将多个相关变量归结为几个较少的因子,以简化数据结构和发现潜在的结构关系。

7. 聚类分析:将数据对象按照相似性或相关性进行分组,以便于对数据进行分类和分析。

8. 信度和效度分析:用于评估测量工具(如问卷)的可靠性和有效性。

这些统计学方法在调查研究中具有重要作用,可以帮助研究者从数据中提取有用信息、验证研究假设,并得出可靠的结论。

在应用这些方法时,需要根据研究问题的性质和数据的特点选择合适的统计技术,并正确理解和解释统计结果。

调查问卷的分析方法有

调查问卷的分析方法有

调查问卷的分析方法有调查问卷是一种常用的数据收集工具,被广泛应用于社会科学研究、市场调研、教育评估等领域。

在进行问卷调查后,如何对收集到的数据进行分析是至关重要的。

本文将介绍几种常见的调查问卷分析方法。

首先,我们可以使用描述性统计分析方法来对问卷数据进行整体的概括和描述。

这种方法可以计算出各个问题的频数、百分比、均值、中位数、标准差等统计指标,帮助我们了解被调查对象的整体情况。

通过描述性统计分析,我们可以得出被调查对象的一般特征和整体趋势。

其次,卡方检验是一种常用的统计方法,适用于分析两个或多个分类变量之间的关系。

通过卡方检验,我们可以判断两个变量之间是否存在相关性。

例如,我们可以使用卡方检验来分析性别与购买决策之间的关系,以了解性别是否对购买行为有影响。

另外,因子分析是一种用于探索数据结构的多变量统计方法。

通过因子分析,我们可以将众多变量归纳为少数几个因子,从而简化数据分析过程。

例如,我们可以将多个问题关于消费者偏好的变量进行因子分析,得出几个主要的消费者偏好因子,以便更好地理解消费者的行为和需求。

此外,回归分析是一种常见的统计方法,用于探究自变量与因变量之间的关系。

通过回归分析,我们可以建立模型,预测因变量的变化情况,并确定自变量对因变量的影响程度。

例如,我们可以使用回归分析来探究广告投入与销售额之间的关系,以了解广告对销售的贡献度。

最后,我们还可以使用质性分析方法来对问卷数据进行分析。

质性分析强调对数据的深入理解和解释,通过对文本或图像数据的分析,挖掘出隐藏的信息和主题。

例如,我们可以对问卷中的开放性问题进行质性分析,探索被调查对象的意见、看法和感受。

综上所述,调查问卷的分析方法有多种选择,包括描述性统计分析、卡方检验、因子分析、回归分析和质性分析等。

选择合适的分析方法取决于研究目的、研究问题和数据类型。

研究人员应根据实际情况灵活运用这些方法,以得出准确、可靠的结论。

社会调查与统计分析方法作业指导书

社会调查与统计分析方法作业指导书

社会调查与统计分析方法作业指导书第一章绪论 (2)1.1 社会调查概述 (2)1.1.1 客观性 (3)1.1.2 系统性 (3)1.1.3 可靠性 (3)1.1.4 广泛性 (3)1.2 统计分析方法简介 (3)1.2.1 描述性统计 (3)1.2.2 假设检验 (3)1.2.3 相关分析 (3)1.2.4 回归分析 (4)1.2.5 聚类分析 (4)第二章社会调查的设计与实施 (4)2.1 调查目的与类型 (4)2.2 调查问卷设计 (4)2.3 调查样本选择 (4)2.4 调查实施与质量控制 (5)第三章数据收集与整理 (5)3.1 数据收集方法 (5)3.1.1 文献资料法 (5)3.1.2 调查问卷法 (5)3.1.3 访谈法 (6)3.1.4 观察法 (6)3.1.5 实验法 (6)3.2 数据整理技巧 (6)3.2.1 数据分类 (6)3.2.2 数据排序 (6)3.2.3 数据编码 (6)3.2.4 数据表格化 (6)3.3 数据清洗与预处理 (6)3.3.1 缺失值处理 (6)3.3.2 异常值处理 (6)3.3.3 数据转换 (7)3.3.4 数据合并与分割 (7)3.4 数据录入与存储 (7)3.4.1 数据录入 (7)3.4.2 数据存储 (7)第四章描述性统计分析 (7)4.1 频率分布与图表展示 (7)4.2 集中趋势与离散程度 (7)4.3 数据可视化方法 (8)4.4 描述性统计分析软件应用 (8)第五章假设检验与推断性统计分析 (8)5.1 假设检验的基本原理 (9)5.2 单样本假设检验 (9)5.3 双样本假设检验 (9)5.4 多样本假设检验 (9)第六章方差分析 (10)6.1 方差分析的基本概念 (10)6.2 单因素方差分析 (10)6.3 多因素方差分析 (11)6.4 方差分析的应用实例 (11)第七章相关分析与回归分析 (11)7.1 相关分析的基本原理 (11)7.1.1 皮尔逊相关系数 (11)7.1.2 斯皮尔曼等级相关系数 (12)7.2 线性回归分析 (12)7.2.1 一元线性回归 (12)7.2.2 多元线性回归 (12)7.3 多元线性回归分析 (12)7.3.1 多元线性回归模型的建立 (13)7.3.2 多元线性回归模型的检验 (13)7.4 回归分析的应用实例 (13)第八章时间序列分析 (13)8.1 时间序列的基本概念 (13)8.2 平稳时间序列分析 (14)8.3 非平稳时间序列分析 (14)8.4 时间序列预测方法 (14)第九章聚类分析与判别分析 (15)9.1 聚类分析的基本原理 (15)9.2 常见聚类方法 (15)9.3 判别分析的基本原理 (16)9.4 判别分析方法应用 (16)第十章统计分析方法在实际应用中的案例分析 (16)10.1 教育领域案例分析 (16)10.2 经济领域案例分析 (17)10.3 医疗领域案例分析 (17)10.4 社会管理领域案例分析 (17)第一章绪论1.1 社会调查概述社会调查作为一种科学研究方法,旨在通过收集和分析社会现象的数据,揭示社会规律,为解决社会问题提供依据。

论文中的描述性统计分析方法

论文中的描述性统计分析方法在进行科学研究时,描述性统计分析是不可或缺的一部分。

它通过对数据进行整理、总结和解释,帮助研究者更好地理解数据的特征和规律。

本文将介绍几种常见的描述性统计分析方法,包括频数分析、均值分析、标准差分析和相关性分析。

频数分析是一种用于统计数据中各类别出现次数的方法。

通过统计各个类别的频数,我们可以了解到数据中各个类别的分布情况。

例如,在一项调查中,我们想了解参与者的性别分布情况,可以通过频数分析得到男性和女性的人数,进而计算出男女比例。

频数分析可以直观地展示数据的分布情况,为后续的分析提供基础。

均值分析是描述性统计分析中最常用的方法之一。

它通过计算数据的平均值,来反映数据的集中趋势。

均值是将所有数据加起来再除以数据个数得到的。

例如,在一组学生的考试成绩中,我们可以计算出平均分,以了解整体的考试水平。

均值分析可以帮助我们了解数据的中心位置,以及数据整体的水平。

标准差分析是描述性统计分析中用于衡量数据波动程度的方法。

标准差是数据离均值的平均距离,其值越大表示数据的离散程度越大,反之亦然。

例如,在一组销售数据中,我们可以计算出销售额的标准差,以了解销售额的稳定性。

标准差分析可以帮助我们判断数据的分散程度,从而对数据的稳定性和可靠性进行评估。

相关性分析是描述性统计分析中用于衡量两个变量之间关系强度的方法。

通过计算相关系数,我们可以了解两个变量之间的线性相关程度。

例如,在一项调查中,我们想了解学习时间和考试成绩之间的关系,可以通过相关性分析得到两者之间的相关系数。

相关性分析可以帮助我们判断变量之间的相关性,从而为后续的预测和决策提供依据。

除了以上介绍的几种方法,还有其他一些描述性统计分析方法,如百分位数分析、偏度分析和峰度分析等。

这些方法在不同的研究领域和问题中有着广泛的应用。

通过运用这些方法,我们可以更全面地了解数据的特征和规律,为进一步的研究和分析提供基础。

总之,描述性统计分析是科学研究中不可或缺的一环。

社会学研究方法课件-分析和综合之定量(统计)分析


表1.
学 历 小学以下 中学 高中 中专 大专 大学 硕士 博士 Missing Total
97年学历分布
人 1 72 44 13 52 58 4 7 49 300 数 Percent .3 24.0 14.7 4.3 17.3 19.3 1.3 2.3 16.3 100(n=300)
(1)描述统计的基本技术
社会学-研究方法
分析和综合之定量(统计) 分析
所谓定量(统计)分析,就是对社会研究收 集来的数据资料进行计算、统计检验、分析 解释,并以此为依据,做出科学推断,揭示 社会现象中所蕴涵的规律的一种方法。 统计分析包括描述统计和推断统计两种类型。 统计分析方法的内容还可以根据变量的多少 划分为单变量分析、双变量分析和多变量分 析,前两者可称为初等统计,后者可称为高 等统计。
例:由单值分组求算术平均值
工人日产量(件) 工人人数(人) 工人人数比重(%)
10 11 12 13 14
合 计
70 150 380 150 100
800
8.75 12.50 47.50 18725 12.50
100.00
x1 f1 x2 f 2 xn f n xf x f1 f 2 f n f 9710 12.1375 800
④由组距分组资料求中位数 f f为次数)。 第一步:确定中位数所处位置,按 O 确定(
m
第二步:采用公式计算 上限法:用“以上累计”法确定中位数。
2
fm 下限法:用“以下累计”法确定中位数。 f S m 1 2 Me L i fm
其中:U是中位数所在组的上限,L是中位数所在组的下限,fm是中位 数所在组的次数,Sm+1是中位数所在组后面各组累计数, Sm-1是中位 数所在组前面各组累计数,i是中位数所在组的组距。

质量数据及分析、统计基本方法-

18
▪ 特殊原因
▪ 一种间断性的,不 可预计的,不稳定 的变差来源。有时 被称为可查明原因, 存在它的信号是: 存在超过控制线的 点或存在在控制线 之内的链或其他非 随机性的情形。
普通原因 造成变差的一个原因, 它影响被研究过程输 出的所有单值;在控 制图分析中,它表现 为随机过程变差的一 部分。
2
b.计数值数据
计数值数据是不能连续取值,只能 以个数计算的数据。
如不合格品数,缺陷数等
3
2、总体和样本
a. 总体:又叫“母体”是指要分析研究对象
的全体。可以是一个过程,也可以是 这一过程的结果即产品。
➢ 组成总体的每个单元(产品)叫做个体。
➢ 总体中所含的个体数叫做总体含量,也称总
体大小。通常用N表示。
不良数 31 18 13 7 2 2 73
不良率 42.5% 22.7% 17.8% 9.6% 2.7% 2.7% 100%
累计不良率 42.5% 67.2% 85% 94.6% 97.3% 100%
23
排列图不良率与累计不良率计算
1:不良率 P=单项不良数/总不良数
2:累计不良率 Np=P1+P2+P3+P4…
27
第二步:计算极差
• R= Xmax-Xmin=30.0-17.4=12.6
第三步:设定组数,计算组距
确定组数(k)表
数据个数(n)
组数(k)
50以内
5~7
50-100
6~10
100-250
7~12
250以上
10~12
▪ 有上表,设定组数k=10,测量值最小单位为0.1 ▪ 则 组距(h)=R/k=12.6/10=1.26≈1.3

市场调查数据分析的基本方法概述.pptx

第五章 市场调查的数据分析
市场调查数据分析的基本方法 假设检验法 方差分析法 聚类分析法 判别分析法
5.1 市场调查数据分析的基本方法
频数、频率分析 数据集中趋势分析
算术平均数 中位数 众数
数据分散趋势分析
全距(极差) 四分位差 标准差
5.1.1 频数、频率分析(1)
例1:假设有样本数据
ABCDE FGH
I
J
1
1
2
2
1
4
6
5
3
3
2
2
6
1
1
2
2
3
2
5
4
3
3
4
4
1
3
3
1
4
3
3
5
4
1
3
4
56Biblioteka 4246
3
53521121146
6
2
6
3
4
5
5
1
3
2
2
7
6
3
6
6
2
3
6
5
1
1
8
4
1
5
3
3
6
4
6
3
4
95132522262
10 3
2
5
2
3
4
1
4
4
5
5.1.1 频数、频率分析(2)
22
20
18
16
14
2
2
双样本百分比差异的检验(U)
假设有
H 0 : P1 P2
H 1 : P1 P2
选取统计量
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第34卷第5期 2015年5月 绵阳师范学院学报 

Joumal of Mianyang Normal Univ ,2015 

调查中零频数过多的统计分析方法 赵国敏,李国东 (新疆财经大学,乌鲁木齐830012) 

摘要:无论是在自然科学领域还是在人文社会科学领域,我们会遇到各种各样的计数数据.对于社会生 活、生产、管理中的一些计数数据通常是用泊松分布以及泊松过程来描述具有非常好的拟合效果.然而实际环境 中,由于受各种因素影响与制约,出现了很多频数为零的数据.此时对含零特别多的计数数据,我们仍用泊松回归 模型拟合就有些不合适了[ ,因此人们开始构造新的模型,其中对于这种数据拟合效果比较好的一种模型就是零 过多泊松分布模型(zer0一Inflated Poisson Distribution)C3,51. 

关键词:零过多泊松分布(ZIP);泊松分布;用车发生问题次数 中图分类号:0212 文献标志码:A 文章编号:1672-612x(2015)05-0008-04 

1 资料来源 大陆汽车俱乐部有限公司跟踪了8700位车主在2007年全年的用车情况,总结了2007年中国汽车问 题使用年度报告.报告显示:在这些车主的用车过程中,有2895位车主的汽车发生了问题,发生问题车辆 数约为样本总量的33.28%.也即没有发生问题的车辆数约占样本总量的66.72%.调查得知平均每辆车 发生问题的次数约为0.72次,如果用泊松分布来拟合(A=0.72),则汽车发生问题次数K=0的概率约为 49.74%.对所得数据进行泊松检验,P值远小于0.001,数据不符合泊松分布. 为了进一步说明该数据不符合泊松分布,还可把观测值的分布与模拟泊松分布数据相比较(如表1), 由图1可看出观察值与泊松分布拟合比较差. 表1拟合数据相比 Tab.1 Comparison of fitting data 

2零过多泊松分布模型实例应用 2.1零过多泊松分布模型 由以上数据及图表可以看出观测值车辆发生问题次数为零的数 据明显偏多,此时仍用泊松分布来拟合就不合适了,因此人们开始构 造新的模型,其中对于这种数据拟合效果比较好的一种模型就是零 过多泊松分布模型(Zero—Inflated Poisson Distribution),ZIP模型是目 前情况下处理零过多资料常用的一种分析方法.此模型是由一个在 零处具有概率质量的退化分布和一个普通泊松分布混合形成的.ZIP 

收稿日期:2014—02—20 作者简介:赵国敏(1988一),女,河北人,硕士研究生,研究方向:数据挖掘与分析; 通讯作者:李国东,男,黑龙江人,教授,研究生导师,研究方向:数据挖掘与分析 

图1拟合数据相比 Fig.1 Comparison of fitting data ・9・ 赵国敏等:调查中零频数过多的统计分析方法 第5期 模型具体形式表示如下 l,~f 0’,、、 ・p。 , p 、 (1) Ipoisson(A),W.P. (1-p) 即令随机变量Y以概率P服从退化的零点分布,以概率1一P服从参数为A的泊松分布,其中P∈(0, 1),我们称这样的分布为零过多泊松分布(z,P),并记Y—ZIP(A,P).Y的概率分布为心・ ] { ‘y ? p+‘ -一p )e -A.' :o (2) 【P(Y=k)=(1一P)e A /k!,k=1,2,… 、 随机变量Y的数学期望和方差为 fE 、-,P)A、, 、 (3)V 【ar(Y)=A(1一P)(1+Ap) 、 

2.2零过多泊松分布极大似然估计 我们可用极大似然方法估计零过多泊松分布的参数.若随机变量Y~ (A,P),并且Y。,Y ,…,Y 是来自ZIP( ,P)的一个样本,观测值为y。,y ,…y ,取值为[0,K]之间的整数.令y=(Y ,Y ,…y ), 

/n,由零过多泊松分布的概率密度函数可以得到其似然函数为 

L( ,p;y)=H(p+1(1一p)e一 [ j 。]‘, ((1一p)e- ̄'k J/yj!)I[yi≠。](yi) (4) 等式(4)两边分别取对数为 logL(入,p;y)=I[, :。](yj)∑log(p+(1一p)e-k)+I[ i 。](yj)∑log((1一p)e一 /yj!) (5) 公式(4)和公式(5)中 ](x = 盒 

令 =(1一P)(1一e ),用ni表示n个样本Y ,Y ,…,Y 中取值为i样本数,i取值为[0,k]之间的 整数,于是对数似然函数(5)变换为 

logL( ,‘P)=n。log(1一‘p)+∑ni[1og((1一e-k)一 ‘P)+i(1ogk)一 一logi!], 

=n。1og(1一‘p)+(n—nO)logq ̄+∑ni[一log((1一e一 )+i(1og)一 一logi!] (6) 分别对公式(6)中入和 求偏导 一 /'to十 考~ (7) 

1 lO (A, )=一 e一 +(耋帆) 1一 k n。=。 

因为∑,∑in =n ,由公式(7)解得方程为 f咖=(n一?。)/ 2(n—n。)A+ (e~一1):0 (8) 

:1一 /(卜 一i) 由此可得参数的极大似然估计 , . 2.3实例应用估计值 如果以上用车发生问题的调查数据服从零过多泊松分布,根据极大似然估计表达式便可求得参数P,A 第34卷 绵阳师范学院学报(自然科学版) ‘10。 观测值 零过多泊松分布 5805 58O4.64 1O67 1025.73 897 

927.98 567 559.70 260 253.18 104 128.40 

2.4实例应用结论 对于分布的拟合检验有多种方法,其中以 检验最为常用.资料中用车发生问题次数为离散型数据, 用拟合优度的 检验较为合适且简便.因此对以上用车发生问题的实例便可用 统计量对观测值和零 

过多泊松分布的理论频数进行估计,由 =∑ 来计算,可得 =7.610442,在excel中利用 CHITEST函数计算P值为0.1791,即认为观察频数和估计频数是一致的.由此数据可以得出零过多泊松 分布模型的拟合效果比较好.因此我们认为用车发生问题的次数是符合零过多泊松分布,而不是服从泊松 分布. 

3讨论 在社会生产、生活及管理领域中,零过多计数数据是很容易产生的,对于这类数据比较好的处理方法 是用ZIP模型,如果忽略这些零数据的存在,对参数的估计就会产生偏差[6].就本例数据而言,在对零过 多数据进行拟合时,均值为0.72时,如果用泊松分布,零的概率为49.74%,而本例零的概率为66.72%,同 时拟合优度的卡方值为5174.287,自由度为5,P值远小于0.001,所以用泊松分布来拟合是不合适的,而零 过多分布模型可以将数据分为两部分,使得模型可以比泊松分布模型容纳更多的零.因此在实际的统计数 据中,如果含有零的比例超出了预期模型中零出现的概率范围,就可以用零过多泊松分布模型来处理这种 问题,可以提高对数据的拟合效果,更有利于对问题作统计推断.在实际环境中,零过多泊松分布模型在交 通及保险等行业已得到广泛应用. 

参考文献 [1]方开泰,许建伦.统计分布[M].北京:科学出版社,1987:283—286. [2]Andy HL,Kui W.Analysis of zero—inflated Poisson data incorporating extent of exposure[J].Biometrical Journal,2001,43: 963—975. [3] Andy HL,Kui Wang,Jane AS,e t a 1.Multilevel zero—inflated Poisson regression modeling of correlated count data with ex— tess zeros[J].Star Methods Med Res,2006,15:47—61. [4]Poston DL,McKibben SL.Using zero—inflated count regression models to estimate the fertility of US women[J].Jourmal of Modern Applied Statistical Methods,2003,2:371—379. [5] Andy H.Lee,Mark R Stevenson,Kui Wang,Kelvin K.W.Yau.Modeling young driver motor vehicle crashes:data with ex— tra zeros,Accident Analysis and Prevention,2002,34:515—521. [6]Getachew AD Hierarchical Bayesian analysis of correlated zero—inflated count data[J].Biometrical Journal,2004,46:653— 663. 赵国敏等:调查中零频数过多的统计分析方法 第5期 A Statistical Method for Extra Zero in Survey ZHAO Guo——min LI Guo—・dong (Scheel of Applied Mathematics,Xinjiang UniVersity of Finance&Economics,Ummqi,Xinjiang 830012) 

Abstract:Whether in the field of Natural Sciences or in the field of Humanities and Social Sciences.a varie. 

ty of count data will be used.The Poisson regression model is commonly used to fit the count data in the social 

life,social production and social management.However,there are lots of data 0f extra zeI.0 in the influence and 

restriction of various factors in the real life.At the same time,the Poisson regression mode1.which is n0t appro- 

pilate,is also used to fit the count data of extra zero. So people begin to construct new roode1s,amon which the 

相关文档
最新文档