第十章单变量描述统计

合集下载

单变量描述性统计

么它的平均数的计算公式是：
特点：信息利用充分，灵敏度高，易受极端值影响。
第21页，本讲稿共22页
例_离中趋势的说明
例6 试比较甲乙两位运动员的射击成绩（环）：
甲：６，６，８，１０，１０
乙：７，７，８，９，９
第22页，本讲稿共22页
第19页，本讲稿共22页
例_中位数_某车间职工文化程度的分布情况
例5 某车间职工文化程度的分布情况
文化程度
人数
向下累计频次
小学
５
初中
１５
高中
１４
本科
２
硕士
１
５
２０Байду номын сангаас３４
３６３７
中位数处于频次分布的中点，在数据对称分布的情况下，中位数的代表性较好。
第20页，本讲稿共22页
平均数（均值）的公式
假定变量X有N个观察值：X1，X2，X3，…XN，那
第2页，本讲稿共22页
一、变量的分布
1．频次分布例 2．频率分布例
第3页，本讲稿共22页
二、统计表与统计图
1．统计表 2．统计图（1）圆瓣图（2）条形图（3）直方图（4）折线图
第4页，本讲稿共22页
三、变量分布的特征
一、集中趋势分析
１．众数（Mode）２．中位数（Median）３．平均数（Mean）
众数出现次数越多，所占比重越大，代表性越好。众数不受极端值影响。
例_众数_某高中甲班学生的年龄分布
第18页，本讲稿共22页
例_中位数_某学习小组７位同学的考试成绩
例如，某学习小组７位同学的考试成绩分别为： 58，73，92，60，85，89，60。
欲求其中位数，可先将其排序：

第十章单变量的描述统计PPT课件

1、异众比率
异众比率（Vr）就是非众数的次数与全部个案数目的比率。可见异众比率是对众数的补充，异众比率越小，说明众数的代表性越好；反之，异众比率越大，则说明众数的代表性越差。
异众比率的公式：
n fmo
Vr=
n
极差
极差又称全距，它是一组数据中最大值与最小值之差。极差是对定序及以上尺度的变量离散程度的测量。
第九章单变量的描述统计
一、变量的分布二、集中趋势分析三、离散趋势分析
一、变量的分布
变量的分布分为两类，一类是频数分布，一类是频率分布。频数分布就是变量的每一取值出现的次数；频率分布是用变量每一取值的频数除以总个案数，它是一个相对指标，可以用来比较不同样本。
统计表：
表10-1甲校学生的父亲职业
150
100
50
0Leabharlann 一级二级三级
四级
五级
水平
二、集中趋势分析
1、众数众数（M。）就是出现频数或频率最多的变量值。
求众数的方法：（1）对原始资料：如下例：1，2，3，5，5，5，6， 6，7，9
（2）对单值分组资料
表9-3某实验小组成员年龄分布
年龄
13 14 15 16 17 18 19
数量
3 4 6 8 4 3 3
职业
工人农民干部
总数
f
p
152 1.276 288 2.524 110 0． 200
27．6 52．4 20．0
550 1．000 100．0
统计表：
表10-2甲校学生之父亲教育水平
教育
一级二级三级四级五级
f cf
68 550 90 482 158 106 392 264 193 286 457 93 93

统计学－单变量描述性统计

统计学－单变量描述性统计复习⼀遍统计学基础，准备spss的考试。

拿到⼀组陌⽣的数据，就像遇见⼀个陌⽣⼈，我们遇到⼀个陌⽣⼈，第⼀件事往往就是打量打量ta，处理数据也是如此。

描述性统计就是在打量⼀组数据，对数据有个⼤概对了解。

⼀般来说，对数据做三个处理：集中趋势central tendency，离散趋势dispersion tendency，分布形态distribution tendency。

虽然简单，但是最为基础，是我们后续数据分析的前提，通过对数据的描述性统计，我们才能选择合适的统计⽅法，以防误⽤。

单变量统计分析在⼀些书上⼜被叫做⼀元统计，只⾯对⼀个变量，⽅法⽐较死板固定单⼀。

part one：central tendency⼀种位置的统计量，把⼀个变量的不同观测（observation）集中到⼀个值上来表⽰。

1.mean（x－bar），算数均值（the average）⼀个东西。

——注意，使⽤时，数据要呈现正态分布，即使不满⾜，也应该要单峰&基本对称分布。

有极端值时不要选择⽤算数均值2.median，位置的中间数的值。

先找位置，再找值。

位置：（n+1）／2，奇数位置对应值，偶数?.5左右两个数字的mean。

——任意分布形态均可使⽤3.mode，众数4.其他：4.1截尾均数trimmed mean，⼜叫修正均数。

去除Max、Min5%。

好处是去掉了极端值的影响——有极端值时可以选⽤。

缺点是，10%的数据本⾝是真实信息，去掉了使得信息减少。

4.2⼏何均数 G(geometric mean)医学统计学中多使⽤，当data分布不对称，但是转换后呈现对称分布可以使⽤。

4.3调和均数mean和median相⽐，应该说mean的使⽤更⼴，使⽤的信息更全，在抽样调查中，mean的值随样本的变化⽽变化的幅度⼩，更为稳定，应该说是⼀个更好的统计量，但是⼀旦有极端值的存在，mean将会受到很⼤影响，因此此时应该使⽤median。

单变量的统计描述

定距变量制表需要考虑的问题
1、组数组数太少会掩盖变量变动时频次的变化，组数太多，会使每组内频次过少，看不出明显的规律。一般根据理论和经验进行分组。
2、等距分组与非等距分组一般情况下采用等距分组，但研究一些特殊问题，如贫困问题，需要对低收入分得细一些。 3、组限（class limits）就是每组的范围，包括上限和下限。对于离散型变量一般采取相邻组限不重叠的原则，而对于连续型变量，可能出现相邻组限重叠的情况，这时采取的原则就是“上组限不在内”原则。 4、分组步骤第一，搜集数据; 第二，在数据中找出最大值L，最小值S及极差值R; 第三，把数据分组，如K组; 第四，计算组距h; 第五，计算组中值。
使用面积均值标准差变异系数
租用公房户
34.99
14.44
0.413
原有私房户
41.27
27.03
0.658
房改中获得私房户
48.06
22.15
0.461
单变量统计描述与SPSS统计软件

１、频数分析
分析步骤：（１）单击Analysis菜单，选择Descriptive statistics中的Frequencies选择项，打开相应的对话框。在左侧的源变量框中选择一个或多个变量，单击向右箭头按钮，使其进入Variable框中；（２）根据需要选择相应的选择项 Display Frequency Table选择此项将显示频数分布表。选择Statistics，打开统计量选择对话框。在对话框中选择输出统计量。可选择的统计量分四组，每组中的统计量可以同时选择。

定义组限，并赋予一个新值。
三、二变量的统计描述
1, 交叉分组与列联表交叉分组下的频数、频率分析的主要任务有两个：第一、根据搜集到的样本数据产生表2、表3 的二维交叉列联表；第二，在交叉列联表的基础上，分析和比较两两变量之间是否具有独立性或相关性。

《单变量的描述统计》课件

提供更有力的支持。
THANKS
茎叶图
01
总结词：展示数据分布的详细信息
02
详细描述：茎叶图是一种描述单变量的统计图形，它将一组数据按照其数值大小进行排序，并将每个数据点用线段连接起来。通过茎叶图可以清晰地看到数据的分布情况，包括数据的集中趋势、分散程度以及
异常值等。
03
总结词：适用于小数据集分析
04
详细描述：由于茎叶图需要将所有数据点都表示出来，因此适用于数据量较小的情况。对于大数据集，茎叶图可能会过于复杂，不易于理解和分析。
实例二：考试成绩的描述统计
总结词
考试成绩是典型的连续型数据，通过描述统计可以了解成绩的分布情况。
详细描述
对一组考试成绩进行描述统计，可以计算出成绩的平均数、中位数和众数等指标，同时还可以绘制成绩分布直方图或正态分布曲线图，以直观地展示成绩分布的形态和特征。
实例三：股票价格的描述统计
总结词
股票价格数据具有动态变化的特点，通过描述统计可以分析价格的波动和趋势。
04
单变量描述统计的实例分析
实例一：身高数据的描述统计
总结词
身高数据呈现了单变量的基本特征，如集中趋势、离散程度和分布形态。
详细描述
通过对一组身高数据进行描述统计，可以计算出平均数、中位数、众数等集中趋势指标，以及方差、标准差等离散程度指标。这些指标可以帮助我们了解这组数据的典型性和波动情况。
详细描述
箱线图也称为箱状图或箱状分布图，它通过将一组数据的中位数、四分位数和异常值等统计量表示在图上，从而直观地展示数据的分布特征。箱线图能够清晰地呈现数据的分散程度、异常值以及数据的倾斜程度。
箱线图
总结词

第十章单变量描述统计

第十章单变量的描述统计调查所得的原始资料经过审核、整理与汇总后，还需要进行系统的统计分析，才能揭示出调查资料所包含的众多信息，才能得出调查的结论。

根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。

在这一讲中我们先介绍单变量的统计分析。

单变量统计分析可以分为两个大的方面，即描述统计和推论统计。

描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。

推论统计是用样本调查中所得到的数据资料来推断总体的情况。

这一讲我们讲解单变量的描述统计方法。

一、变量的分布(Distributions)变量的分布分为两类，一类是频数分布，一类是频率分布。

频数分布就是变量的每一取值出现的次数；频率分布是用变量每一取值的频数除以总个案数，它是一个相对指标，可以用来比较不同样本。

频数分布与频率分布一般以统计表与统计图的形式表达。

1、统计表（1）统计表就是以表格的形式来表示变量的分布。

如下表所示：表9-1甲校学生的父亲职业数值中的小数的取舍：通俗的做法是“四舍五入”。

“四舍”没有问题，但无原则的“五入”就会产生一定的误差。

例如数值6.25、4.45、3.75、和7.15的总合是21.60。

如果对原数的最后一位小数作简单的四舍五入，原数就变成 6.3、4.5、3.8、7.2，其总合是21.8，把原来的总合变大了。

近代统计学有一项新原则，就是“前单五入”，即“五”前面是单数就进位，若是双数就舍掉（0也算双数）。

（2）对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。

如下所示：表9-2甲校学生之父亲教育水平2、统计图统计图是以图形表示变量的分布情况。

与统计表相比，统计图更直观、生动、醒目，但不够精确。

统计图有圆瓣图、条形图、直方图和折线图。

（1）圆瓣图：多用于描述定类变量的分布，主要目的为显示各部分在整体中所占的比重，以及各部分之间的比较。

如表9-1的资料可用下图（图1）所示：农民部分=360°×52.4%=188.64°工人部分=360°×27.6%=99.36°干部部分=360°×20.2%=72°(图一)甲校学生的父亲职业分布变量不同取值的频数（率）分布的，其中长条的宽度没有意义，一般均画成等宽长条。

资料统计分析——单变量描述统计

注：▲ 表示该数据类型最适合用的测度值
众数、中位数和平均数的比较2

平均数比中位数利用了更多的数据信息，对总体的描述更全面和准确。平均数很容易受到极端值变化的影响，而中位值不会受到这种影响。

对于抽样调查来说，平均数是一种比中位数更为稳定的量度，它随样本的变化比较小。
众数、中位数和均值的关系

频数分布表和频率分布表实例

注意的是，对于一项有一定规模的调查样本来说，一般不宜对如年龄、收入、时间等定比变量做频数分布表或频率分布表。因为，此时类别很多，而每一类别中个案数不多，所得结果繁杂不适用。
二、集中趋势分析

集中趋势测量：用某一个典型的变量值或特征值来代表全体变量的问题，这个典型的变量值或特征值就称作集中值或集中趋势。
小结
1、集中趋势测量和离散趋势测量具有互补性，集中趋势反映的是资料的代表性，离散趋势反映的是资料的差异情况；
2、选何种方法，要注意变量的测量层次，彼此的关系综合如下：
定类变量定序变量集中趋势离散趋势众值中位值定距变量均值标准差
异众比率四分位值
四、异众比率（variation ratio）

指的是一组数据中非众数的次数相对于总体全部单位的比率。用VR表示。

其意义是指众数所不能代表的其他数值在总体中的比重。异众比率越大，则众数代表性越小；异众比率越小，则众数代表性越大。
5、离散系数（coefficient of variation）
1.甲、乙、丙命中的总环数分别为93、93、91，所以丙理应先被淘汰。 2.甲、乙命中环数的平均数均为9.3，计算标准差。S甲= 0.21 ，S乙= 3.在总成绩相同的情况下，理应派发挥较稳定的甲参加比赛。

单变量的统计描述分析社会统计学

特点概率密度函数关于均值对称。
偏态分布的概念与特点
概念：偏态分布是指概率密度函数不对称于均值的情况。
特点
01
分布曲线可能有一个或多个
峰值。
02
03
分布曲线可能偏向均值的一侧或两侧。
04
05
分布的离散程度可能大于正态分布。
正态性与偏态性的判断与检验
判断方法
可以通过观察数据的直方图或Q-Q 图来判断数据的分布形态。正态分布的直方图应该呈现钟形，而偏态分布的直方图则可能呈现其他形状。
如果四分位距较大，说明数据分布较为分散，存在较大的异常值；如果四分位距较小，说明数据分布较为集中，异常值的影响较小。
06 正态分布与偏态分布
正态分布的概念与特点
概念：正态分布是一种连续概率分布，其概率密度函数以均值为中心，呈钟形对称。
曲线下的面积为1，代表所有可能结果的概率总和。
分布曲线是单峰的，即只有一个峰值。
直方图是一种用直条矩形面积代表各组频数，各矩形面积总和代表频数的累积，以扇形面积代表各组出现的频率的统计图。
直方图可以直观地展示数据的分布情况，帮助我们了解数据的离散程度和集中趋势。
在制作直方图时，需要选择合适的分组方法和组距，并根据数据的特征和需求进行合理的调整。
饼图与环形图
• 饼图是一种圆形图表，用于表示各部分在总体中所占的比例。
03
中位数主要用于描述偏态分布的数据，对于异常值不敏感。
众数
01
众数是数据中出现次数最多的数值。
02
对于未分组的数据，众数是一组数据中出现次数最多的数值；
对于分组数据，众数是某一组别的频数最高。
众数主要用于描述分类数据的集中趋势，不适用于连续型数据。

10 单变量统计描述小结

单变量统计描述小结
全面描述：分布，统计图，统计表特征值描述：集中趋势离散趋势
众值中位值均值异众比率：适用于定类、定序、定距变量；极差、四分互差：适用于定序、定距变量；方差、标准差：适用于定距变量。
特征值：
观察值理论值频率概率频率分布概率分布频率密度概率密度向上累计频率分布函数样本均值数学期望样本方差
p(λ);λ=np
• 连续型随机变量分布（定距变量） x • 正态分布 N , 2 Z • 标准正态分布 N 0,1
•
分布：参数-自由度K
2
( Z1 ) P( Z Z1 )

2
2 P ( 2 )
Z1

• t 分布：参数-自由度K
正态（对称） 3 0
正（右）偏态 3 0
负（左）偏态 3 0
正态峰，正态分布 4 0
尖峰，正峰态 4 0
扁平峰，负峰态 4 0
• 离散型随机变量分布大总体（N>>n），独立，重复抽样：二项分布，三项分布小群体，非独立，非重复抽样：超几何分布（二项；三项） 1.随机变量如果满足二点分布，则其概率分布为：p ( 0) q p ( 1) p —— 二点分布的分布律。
总体方差
大数定理：大量观察贝努里大数定理：样本成数（样本频率）总体成数（总体概率）切贝谢夫大数定理：样本均值数学期望（总体均值）
• 分布：观察值：直方图、折线图理论值：概率密度曲线图 • 特征值：偏度系数；峰度系数
中心极限定理：大量观察，随机变量之和，随机变量均值的分布——正态分布
• F 分布：参数-自由度K1，K2
P( F F )

第十章单变量描述统计

根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。

在这一讲中我们先介绍单变量的统计分析。

单变量统计分析可以分为两个大的方面，即描述统计和推论统计。

描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。

推论统计是用样本调查中所得到的数据资料来推断总体的情况。

这一讲我们讲解单变量的描述统计方法。

一、变量的分布(Distributions)变量的分布分为两类，一类是频数分布，一类是频率分布。

频数分布就是变量的每一取值出现的次数；频率分布是用变量每一取值的频数除以总个案数，它是一个相对指标，可以用来比较不同样本。

频数分布与频率分布一般以统计表与统计图的形式表达。

1、统计表（1）统计表就是以表格的形式来表示变量的分布。

如下表所示：表9-1甲校学生的父亲职业数值中的小数的取舍：通俗的做法是“四舍五入”。

“四舍”没有问题，但无原则的“五入”就会产生一定的误差。

例如数值6.25、4.45、3.75、和7.15的总合是21.60。

如果对原数的最后一位小数作简单的四舍五入，原数就变成6.3、4.5、3.8、7.2，其总合是21.8，把原来的总合变大了。

近代统计学有一项新原则，就是“前单五入”，即“五”前面是单数就进位，若是双数就舍掉（0也算双数）。

（2）对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。

如下所示：表9-2甲校学生之父亲教育水平f cf cf c c2、统计图统计图是以图形表示变量的分布情况。

与统计表相比，统计图更直观、生动、醒目，但不够精确。

统计图有圆瓣图、条形图、直方图和折线图。

（1）圆瓣图：多用于描述定类变量的分布，主要目的为显示各部分在整体中所占的比重，以及各部分之间的比较。

如表9-1的资料可用下图（图1）所示：农民部分=360°×52.4%=188.64°工人部分=360°×27.6%=99.36°干部部分=360°×20.2%=72°(图一)甲校学生的父亲职业分布（2）条形图：多用于描述定类与定序变量的分布，它是以长条的高度表示变量不同取值的频数（率）分布的，其中长条的宽度没有意义，一般均画成等宽长条。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。

在这一讲中我们先介绍单变量的统计分析。

单变量统计分析可以分为两个大的方面，即描述统计和推论统计。

描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。

推论统计是用样本调查中所得到的数据资料来推断总体的情况。

这一讲我们讲解单变量的描述统计方法。

一、变量的分布(Distributions)变量的分布分为两类，一类是频数分布，一类是频率分布。

频数分布就是变量的每一取值出现的次数；频率分布是用变量每一取值的频数除以总个案数，它是一个相对指标，可以用来比较不同样本。

频数分布与频率分布一般以统计表与统计图的形式表达。

1、统计表（1）统计表就是以表格的形式来表示变量的分布。

如下表所示：表9-1甲校学生的父亲职业数值中的小数的取舍：通俗的做法是“四舍五入”。

“四舍”没有问题，但无原则的“五入”就会产生一定的误差。

例如数值6.25、4.45、3.75、和7.15的总合是21.60。

如果对原数的最后一位小数作简单的四舍五入，原数就变成 6.3、4.5、3.8、7.2，其总合是21.8，把原来的总合变大了。

近代统计学有一项新原则，就是“前单五入”，即“五”前面是单数就进位，若是双数就舍掉（0也算双数）。

（2）对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。

如下所示：表9-2甲校学生之父亲教育水平2、统计图统计图是以图形表示变量的分布情况。

与统计表相比，统计图更直观、生动、醒目，但不够精确。

统计图有圆瓣图、条形图、直方图和折线图。

（1）圆瓣图：多用于描述定类变量的分布，主要目的为显示各部分在整体中所占的比重，以及各部分之间的比较。

为求清楚，长条之间可以分开。

如表9-2的资料可用下图（图2）所示：（图二）甲校学生的父亲教育水平的宽度表示组距。

直方图仅适用于定距变量。

如表9-3的资料可用下图（图3）所示：表9-3 甲校学生的家庭每月总收入组限（class limits），就是每组的范围，包括上限（upper limit）和下限（lower limit）。

例如表9-3中的“700~899”组，上限是899，下限是700。

但要注意，统计表上所标示的组限（stated limits）是让读者容易领会，但不是真实的组限(real limits)。

上表的真实组限是499.5~699.5、699.5~899.5、899.5~1099.5、1099.5~1299.5等等。

如果某家庭的收入与真实组限之值相同，一般是采用四舍五入的原则，如把699.5元归“700~899”组。

真实组限与标示组限的关系，可以下式表示：真实下限=标示下限－0.5真实上限=标示上限＋0.5组距（class width），就是组的真实上限与真实下限之差，如上表的“700~899”组的组距是：899.5－699.5=200。

组中点（class midpoint），就是真实上限与真实下限的平均数，如“700~899”组的中点是：（699.5＋899.5）÷2=799.5。

（4）折线图：折线图是用直线连接直方图中条形顶端的中点而成的。

二、集中趋势分析集中趋势是从一组数据中抽象出一个代表值，代表现象的共性和一般水平。

这种方法有一个特殊意义，就是可以根据这个代表值（或称典型值）来估计或预测每个研究对象（即个案）的数值。

这样的估计或预测，当然会有错误，但由于所根据的数值最有代表性，故所发生之错误的总和理应是最小的。

集中趋势测量指标有三类：众数、中位值、平均数。

1、众数众数（M。

）就是出现频数或频率最多的变量值。

因为众数最有代表性，故此具有估计或预测的意义，长远来说，以众数作预测所犯的错误总数是最小的。

求众数的方法如下：（1）对原始资料：如下例：1，2，3，5，5，5，6，6，7，9其M。

=5（2）对单值分组资料：如下表9-3某实验小组成员的年龄分布：表9-3某实验小组成员年龄分布年龄数量13 314 415 616 817 418 319 3其M。

=16（3）组距分组资料：众数是频数最大的区间的组中值。

如对于表9-5所示的资料其M。

=3502、中位数中位数（Md）是最中间的数值。

它用于描述定序变量以上层次的变量。

长远来说，以中位数去估计定序变量的数值，所犯的错误总数是最小的。

求中位数的方法如下：（1）对原始资料：原始资料计算中位值的公式是：Md位置= 21+n例：9个人的日工资分别如下：47，42，50，51，92，112，71，83，108 首先，从小到大排列：42，47，50，51，71，83，92，108，112。

其次，由中位值的位置公式可知Md=21+n= 219+=5最后，求Md=71如果n为偶数，则将位于最中央的两个数值的平均值作为中位值。

（2）对单值分组资料：如下表9-4的资料：表9-4学生的学业成绩由公式可知Md位置= 21+n=2180+=40．5从累加频数中可知这个位置的值在丙值内，故Md=丙。

（3）对组距分组资料：组距分组资料的中位值公式为：Md=L+mm f cfn)1(2--×i其中L 为中位数所在组的下限值，cf(m-1)为中位数所在组以上的累计频数，fm 为中位数所在组的频数，i 为中位数所在组的组距。

例：表9-5某企业100名职工收入的分布收入（元）职工数（人）累计频数组中值 Xf 100—199 10 10 150 1500 200—299 10 20 250 2500 300—399 40 60 350 14000 400—499 20 80 450 9000 500—599 20 100 550 11000 合合计 100首先求出中间位置为（100+1）=50．5，再从累计频数栏中找到中位数所在组为“300—399”这一组，最后利用公式计算Md=300+402050-×100=375平均数：仅适用于定距及定距以上变量，但有时也可用于定序变量，如求平均等级。

长远来说，以平均数估计定距变量的资料，错误最小。

（1）对原始资料：平均数的公式为X =nX∑其中∑x 为各个个案数值之和，n 表示全部个案数。

（2）对单值分组资料：平均数的公式用加权平均数公式：X =nxf∑如对下表9-6中的资料求平均数：表9-6某年级150名学生的年龄分布年龄频数累积频数 ↓ 累积频数↑17 10 10 15018 25 35 14019 50 85 11520 40 125 6521 20 145 2522 5 150 5合计150平均年龄为：X=15052220214020501925181017⨯+⨯+⨯+⨯+⨯+⨯=19．3（3）对组距分组资料：一般用组中值来代替变量值，然后按加权平均数公式来计算平均数。

总之，如要测量集中趋势，即找出一个最有代表性之值，定类变项的资料可用众数；定序变项可用众数，但以中位数较适宜，因为后者能够应用资料中所具有的等级数学特质。

定距变项可用众数，也可用中位数，但以均值最适宜，因为均值能应用资料中所具有的分组资料中的加减数学特质。

然而，有两种情况下不宜用均值：一种是在分组资料中的极端没有组限时(如表9-的资料)，不能求出均值，只能用中位值；另一种情况是变项中有个别的数值非常特殊（过高或过低），则均值的代表性就有疑问，用中位值较为合适。

1表9- 青年人阅读小说的数目1李沛良．社会研究的统计应用．社会科学文献出版社2001，51。

三、离散趋势分析离散趋势是要求出一个值来表示个案与个案之间的差异情况。

这种测量法，与集中趋势测量法有互补的作用。

资料的离散程度表明了集中趋势的代表性如何，凡离散程度愈大，则集中趋势的代表性就愈小，离散程度愈小，则集中趋势的代表性愈大。

1、异众比率：异众比率（Vr ）就是非众数的次数与全部个案数目的比率。

可见异众比率是对众数的补充，异众比率越小，说明众数的代表性越好；反之，异众比率越大，则说明众数的代表性越差。

公式如下：Vr=n f n mo-其中fmo 为众数的次数。

如对于表9-1的资料其Vr =n f n mo -=550288550-2、极差：极差又称全距，它是一组数据中最大值与最小值之差。

极差是对定序？及以上尺度的变量离散程度的测量。

极差越小，表明资料越集中，集中趋势统计量的代表性越高。

但由于它的值是由端点的差决定的，因此个别远离群体的极值会极大改变极差，以至使它不能真实反映资料的分散程度。

例：某校3个系各选5名同学，参加智力竞赛，他们的成绩分别如下：中文系：78、79、80、81、82 数学系：65、72、80、88、95 英语系：35、78、89、98、100 则三个代表队的全距分别为：中文系：82-78=4（分）数学系：95-65=30（分）英语系：100-35=65（分）3、四分位差：四分位差是对定序及定序以上测量尺度的变量离散程度的测量指标。

四分位差的计算方法是先将一组数据按大小排列成序，然后四等分，各段分界点上的数叫做四分位数，第一个四分位置的值（Q1）与第三四分位置的值（Q3）的差异，就是四分位差（Q）。

Q2就是中位值（Md），两边各有50%的个案，也就是在中位值两旁的Q1和Q3之间，共有50%的个案。

因此，四分位差越大，表示有50%的个案越远离中位值，因而中位值的代表性就越小。

计算四分位差时，先求出Q1和Q3的位置，然后计算在这两个位置上的差异。

Q1和Q3的位置公式是：Q1位置=41+ nQ3位置=4)1(3+n以下是计算四分位差的方法：（1）对原始资料：例：调查11位同学的年龄如下：17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。

首先，求出Q1和Q3的位置：Q1 的位置=41+n=4111+=3Q3的位置=4)1(3+n=4)111(3+⨯=9其次，从数序中找出Q1=18，Q3=21则四分位差Q= Q3—Q1=21—18=3例：甲村有8户人家，每户人数如下：2，3，4，7，9，10，12，12首先，求出Q1位置= 418+=2．25Q1=3+0．25（4—3）=3．25Q3 位置=418(3）+⨯ =6．75Q3=10+0．75（12—10）=11．5 所以Q=11．5— 3．25=8．25 （2）对单值分组资料：如表9-4所示的学生学业成绩，据公式可知：Q1位置= 4180+ =20．25Q3位置= 4)180(3+⨯ =60．75从累积次数分布表中，很易看到在这两个位置上的值分别是丁级和乙级，所以Q=乙—丁=两个等级（3）对组距分组资料：对组距分组资料Q1和Q3的计算公式为：Q1=L1+[114f cf n-]w1Q3=L3+[3433f cf n-]w3 其中 L1=Q1属组之真实下限L3= Q3属组之真实下限 f1=Q1属组之次数 f3= Q3属组之次数cf1=低于Q1属组下限之累积次数 cf3=低于Q3属组下限之累积次数 w1=Q1属组之组距 w3=Q3属组之组距 n 为全部个案数如表9-5所示的资料，其Q1位置= 41+n =41100+ =25．25，所以Q1在300—399组内；Q3位置=4)1(3+n =4)1100(3+ =75．75，所以Q3在400—499组内。

第十章 单变量描述统计

单变量描述性统计

第十章单变量的描述统计PPT课件

统计学－单变量描述性统计

单变量的统计描述

《单变量的描述统计》课件

第十章单变量描述统计

资料统计分析——单变量描述统计

单变量的统计描述分析社会统计学

10 单变量统计描述小结

第十章 单变量描述统计

第十章单变量描述统计

第十章单变量描述统计