单变量描述统计

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第十章单变量的描述统计

调查所得的原始资料经过审核、整理与汇总后，还需要进行系统的统计分析，才能揭示出调查资料所包含的众多信息，才能得出调查的结论。根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。在这一讲中我们先介绍单变量的统计分析。

单变量统计分析可以分为两个大的方面，即描述统计和推论统计。描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。推论统计是用样本调查中所得到的数据资料来推断总体的情况。这一讲我们讲解单变量的描述统计方法。

一、变量的分布 (Distributions)

变量的分布分为两类，一类是频数分布，一类是频率分布。频数分布就是变量的每一取值出现的次数；频率分布是用变量每一取值的频数除以总个案数，它是一个相对指标，可以用来比较不同样本。频数分布与频率分布一般以统计表与统计图的形式表达。

1、统计表

（1）统计表就是以表格的形式来表示变量的分布。如下表所示：

表9-1甲校学生的父亲职业

数值中的小数的取舍：

通俗的做法是“四舍五入”。“四舍”没有问题，但无原则的“五入”就会产生一定的误差。例如数值、、、和的总合是。如果对原数的最后一位小数作简单的四舍五入，原数就变成、、、，其总合是，把原来的总合变大了。近代统计学有一项新原则，就是“前单五入”，即“五”前面是单数就进位，若是双数就舍掉（0也算双数）。

（2）对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。如下所示：

表9-2甲校学生之父亲教育水平

2、统计图

统计图是以图形表示变量的分布情况。与统计表相比，统计图更直观、生动、醒目，但不够精确。统计图有圆瓣图、条形图、直方图和折线图。

（1）圆瓣图：多用于描述定类变量的分布，主要目的为显示各部分在整体中所占的比重，以及各部分之间的比较。如表9-1的资料可用下图

（图1）所示：

农民部分=360°×%=°

工人部分=360°×%=°

干部部分=360°×%=72°

(图一)甲校学生的父亲职业分布

（2）条形图：多用于描述定类与定序变量的分布，它是以长条的高度表示变量不同取值的频数（率）分布的，其中长条的宽度没有意义，一般均画成等宽长条。为求清楚，长条之间可以分开。如表9-2的资料可用下图（图2）所示：

（图二）甲校学生的父亲教育水平

表示频数（率）的大小，长条的纵轴高度表示频数（频率）密度{密度=频数（率）/组距}，长条的宽度表示组距。直方图仅适用于定距变量。如表9-3的资料可用下图（图3）所示：

表9-3 甲校学生的家庭每月总收入

组限（class limits），就是每组的范围，包括上限（upper limit）和下限（lower limit）。例如表9-3中的“700~899”组，上限是899，下限是700。但要注意，统计表上所标示的组限（stated limits）是让读者容易领会，但不是真实的组限(real limits)。上表的真实组限是~、~、~、~等等。如果某家庭的收入与真实组限之值相同，一般是采用四舍五入的原则，如把元归“700~899”组。真实组限与标示组限的关系，可以下式表示：

真实下限=标示下限－

真实上限=标示上限＋

组距（class width），就是组的真实上限与真实下限之差，如上表的

“700~899”组的组距是：－=200。

组中点（class midpoint），就是真实上限与真实下限的平均数，如“700~899”组的中点是：（＋）÷2=。

（4）折线图：折线图是用直线连接直方图中条形顶端的中点而成的。

二、集中趋势分析

集中趋势是从一组数据中抽象出一个代表值，代表现象的共性和一般水平。这种方法有一个特殊意义，就是可以根据这个代表值（或称典型值）来估计或预测每个研究对象（即个案）的数值。这样的估计或预测，当然会有错误，但由于所根据的数值最有代表性，故所发生之错误的总和理应是最小的。集中趋势测量指标有三类：众数、中位值、平均数。

1、众数

众数（M。）就是出现频数或频率最多的变量值。因为众数最有代表性，故此具有估计或预测的意义，长远来说，以众数作预测所犯的错误总数是最小的。求众数的方法如下：

（1）对原始资料：如下例：1，2，3，5，5，5，6，6，7，9

其M。=5

（2）对单值分组资料：如下表9-3某实验小组成员的年龄分布：

表9-3某实验小组成员年龄分布

年龄数量

13 3

14 4

15 6

16 8

17 4

18 3

19 3

其 M。=16

（3）组距分组资料：众数是频数最大的区间的组中值。如对于表9-5所示的资料其M。=350

2、中位数

中位数（Md）是最中间的数值。它用于描述定序变量以上层次的变量。长远来说，以中位数去估计定序变量的数值，所犯的错误总数是最小的。求中位数的方法如下：

（1）对原始资料：原始资料计算中位值的公式是：Md位置= 21

n 例：9个人的日工资分别如下：47，42，50，51，92，112，71，83，108

首先，从小到大排列：42，47，50，51，71，83，92，108，112。

其次，由中位值的位置公式可知Md=21

= 21

最后，求Md=71

如果n为偶数，则将位于最中央的两个数值的平均值作为中位值。（2）对单值分组资料：

如下表9-4的资料：

表9-4学生的学业成绩

由公式可知Md位置= 21

=21

80+

=40．5从累加频数中可知这个位置的值在丙值内，故Md=丙。

（3）对组距分组资料：组距分组资料的中位值公式为：

Md=L+

)

(

×i

其中L为中位数所在组的下限值，cf(m-1)为中位数所在组以

上的累计频数，fm为中位数所在组的频数，i为中位数所在组的组距。

例：表9-5某企业100名职工收入的分布

收入（元）职工数（人）累计频数组中值 Xf

100—199 10 10 150 1500 200—299 10 20 250 2500 300—399 40 60 350 14000 400—499 20 80 450 9000