第四章集中趋势测量法
社会统计的应用 例题举要

社会研究的统计应用 李沛良第二篇 统计叙述:单变项与双变项 2~3 简化一个、两个变项之分布1.关于数值中小数的取舍问题。
“四舍五入”之“四舍”没有问题,同时结合“前单五入”,即“五”前面是单数就进位,若是双数则舍掉(0算双数)。
2.所谓集中趋势测量法,就是找出一个数值来代表变项的分布,以反映资料的集结情况。
此法的意义在于,可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。
这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。
众值 (Mo ):次数最多的值。
中位值(Md ):在一个序列的中央位置之值。
均值 ():变项的各个数值之和,求取一个平均数。
3.离散趋势测量法,是要求出一个值来表示个案与个案之间的差异情况。
该法与集中趋势测量法具有互相补充的作用。
集中趋势测量法所求出的是一个最能代表变项所有资料的值,但其代表性的高度却要视乎各个个案之间的差异情况。
如果个案之间的差异很大,则众值、中位值、均值的代表性就会甚低;此时以这三个值作估计或预测,所犯的错误就会很大。
离异比率(V ):非众值的次数与全部个案数目的比率。
质异指数(IQV ):其作用是求出各个类别之间在理论上最多的可能差异中实际上出现了多少差异。
(k=变项的类别数目,f=每个类别的实际次数)四分位差(Q ):将个案由低至高排列后分为四个等分,第一个四分位置的值Q1与第三个四分位置的值Q3的差异。
标准差(S ):将各数值(x )与其均值()之差的平方和除以全部个案数目,然后取其平方根。
公式中x 与相差,就是表示以均值作为代表值时会引起的偏差或错误。
总之,集中趋势测量法与离散趋势测量法并用,可以一方面知道资料的代表值,有助于估计或预测的工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。
正态分布与标准值? 简化两个变项之分布 统计相关交互分类与百分表简化相关与消减误差相关测量与假设检定相关测量法,目的是要理解两个变项在“样本”(随机与非随机样本均可)中的相关“强弱”程度及方向。
社会统计学笔记

1·社会学研究:就是运用科学的方法来搜集和分析社会事实,以理解社会现象之间的关系。
2·科学研究:就是运用客观的、逻辑的和系统的方法来搜集事实及分析事实。
3·社会学研究的整个历程,大致上可以分为三个阶段:(1)筹划,(2)执行,(3)总结。
4·初步探索步骤:(1)收集有关的文献,(2)咨询那些对研究的题目有经验、有知识的人,进行了解,(3)观察个案。
5·假设:就是根据我们对问题的了解,假定现象与现象之间的关系。
就是假定某一现象的变化与另一种现象的变化具有某种关系。
假设的方式:函数式(要求变项之数值有高低之分)、差异式(不存在高低之分)6·较为常用的研究方式:实验法、社会调查法。
(皆可验证假设)①实验法的逻辑:有意的改变A变项,然后看看B变项是否随着变化;如果B变项显然是随着A变项的变化而变化,就说明A变项对B变项有影响。
②社会调查法特点:在研究过程中不改变社会现状,只求就地取材,然后以统计方法推算变项与变项之间的关系。
7·能够有效地验证假设的实验法称为典型或理想实验法8·社会调查法可以分为两大类:一是叙述性调查(重点是报道社会事实,较少分析社会事实(即变项)之间的因果关系),一是解释性调查(目的是要证明不同的变项之间是否有因果关系)。
9·全体调查:就是从所有研究对象中搜集资料。
抽样调查:就是从全体的研究对象中科学的抽出一个数目较少的样本,然后据此样本的资料推论全体的情况。
10·个案研究:就是选择一个或几个个案(即研究对象),作深入的接触和观察,目的是对所研究的问题作深入的了解。
11·横剖研究:指的是在同一时期搜集资料,目的是理解各种社会现象(即变项)在某时期的相关情况的研究。
纵贯研究:是指在不同时期搜集的,目的在了解社会现象(即变项)在不同时期中的变动情况的研究。
12·纵贯研究分为两种:趋势研究、同组研究(指的是在不同时期调查相同的样本)。
卢淑华 《社会统计学》讲义 整理翔实

3、四分互差 Q 是定序以上变量度量分散程度的方法。其优点是可以克服极值对分散度量的
干扰。把一组数据按序排列,然后分成四个数据数目相等的段落,各段分界点上的数叫做四
分位数,即第一个四分位数 Q1 以下包括了 25%的数据,Q2 是中位数,第三个四分位数 Q3
以下包括了总数据中的 75%的数据。四分互差就是第三个四分位数与第一个四分位数的差,
(1)三者设计的目的相同,都是希望通过比较一个数值来描述整体特征,以便简化资料,
都反映了变量的集中趋势。众值适用于定类、定序和定距变量;中位值适用于定序和定距变
量;均值适用于定距变量。
(2)众值的资料使用不完全;中位值考虑了变量的顺序和居中位置,和总体频次分布有关,
但因为只考虑了居中位置,故其它变量值比中位值大多少或小多少不影响中位值;均值考虑
量,众数可直接从变量的频率分布中观察到;对于定距变量,如果变量是在第 i 组具有最高的
频率密度,则用第 i 组的组中值表示变量的众数。
2、中位数 就是数据序列之中央位置的变量值。
(1)未分组数据:①根据原始资料:观察总数 N 为奇数时 =
+
;观察总数 N 为偶数时
中位值取居中位置左右两数的平均值为中位值。
规模的影响,因而可以用来比较不同的样本。一般频率分布使用比率的形式表示的。
2、统计表就是以表格形式来表示变量的分布。在制作统计表时,若有未回答或回答不合要
求的情况有两种处理方法:(A)仍以调查总数为基础计算频率,这时应加入一类:未详。(B)
以有效回答为基数计算频率,这时应在表的下面、紧接着表的地方注明:未详****户。
是它可能取某一区间内所有的值。
社会统计学公式总结及要点

3.一个变项,1个样本 :
①(n≥100):
②(n≤30): , df=b-1
4.1个变项,2个样本 1 2
n=n1+n2>100 →
五、归类总结之五:有关消减误差比例
1.
有消减误差比例意义,且对称
、G、Q拉系数、rs2、r2、rxy.12、、Ry.122= Ry.x1x22
2.有无自由度的表达
G、r、F、x2结果解释加上“其显著度水平达到或没有达到……水平”
3.有关r净相关系数
(两个定距变项)
r=rxy.1——引入第三个变项时对X、Y变项产生共同影响。
rx(y-1)——引入第三个变项时,只对Y产生影响,无消减误差意义。
ry(x-1)——引入第三个变项时,只对X产生影响,无消减误差意义。
Q= Q3- Q1
有单个数(n为偶数时会出现偏离)、区间之分。
(有几种Q,就有几种S计算法)
当为区间表格时(n/4)
①计算向上累加数cf;②Q1位置= ,Q3位置= ;
③Q1=L1+ W1,Q3= L3+ W3;④Q= Q3- Q1P57
5.标准差
①单个数:S= ,②区间:S= P60
对S的解释:如以均值来估计各个个案的数值,所犯的错误 平均是S。用均值作估计变项数值时所犯错误的大小。
社会统计学公式汇总及要点2011.09.09-09.10
(仅供参考,如不能显示公式,请安装Microsoft公式3.0)
一、归类总结之一
测量层次
特质
数学特质
单变项:X
定类变项
只分类
Mo、V
比例、比率、对比值、
集中趋势的测量包括

集中趋势的测量包括
以下是集中趋势的测量方式:
1. 平均数:平均数是将一组数值相加后除以其个数得到的结果。
它能够反映出数据的中心位置。
2. 中位数:中位数是将一组数值按照大小顺序排列后,位于中间位置的数值。
它能够表示出数据的中心位置,不受极端值的影响。
3. 众数:众数是数据集中出现次数最多的数值。
它可以告诉我们数据中最常出现的数值是什么。
4. 分位数:分位数将数据集划分为等分的若干个部分,在统计学中常用的分位数有四分位数和百分位数。
四分位数将数据分为四个等分,分别是上四分位数、下四分位数和中位数。
百分位数以百分比来表示数据的位置,例如,第75百分位数表示在整个数据集中有75%的数值小于或等于它。
5. 范围:范围是一组数据中最大值与最小值之间的差值。
它可以反映出数据的概括性,但不考虑数据的分布情况。
6. 方差和标准差:方差和标准差是测量数据离散程度的指标,方差表示数据的平均偏差的平方,而标准差则是方差的正平方根。
7. 箱线图:箱线图是一种可视化集中趋势和离散程度的方法,通过绘制数据的最大值、最小值、中位数和四分位数等来展示数据的分布情况。
这些测量方式可以帮助我们了解数据的中心位置、分布情况和离散程度,从而更好地理解数据的特征。
数据的集中趋势-教案

数据的集中趋势-教案教案标题:数据的集中趋势-教案教案目标:1. 了解数据的集中趋势概念及其在统计学中的重要性。
2. 学习计算和解释常见的数据集中趋势测量指标,如均值、中位数和众数。
3. 掌握使用数据集中趋势测量指标进行数据分析和比较的方法。
教案步骤:1. 引入(5分钟)- 引发学生对数据的集中趋势的兴趣,例如通过提供一个有趣的统计数据或现实生活中的例子。
- 引导学生思考数据集中趋势的重要性,并提出问题,如“为什么我们需要了解数据的集中趋势?”和“如何计算数据的集中趋势?”。
2. 理论讲解(15分钟)- 解释数据的集中趋势的概念,即数据分布中数据值聚集的程度。
- 介绍常见的数据集中趋势测量指标:- 均值:将所有数据值相加后除以数据的个数。
- 中位数:将数据按大小顺序排列,找出中间位置的数值。
- 众数:在数据中出现最频繁的数值。
- 解释每个测量指标的优缺点和适用场景。
3. 示例与练习(20分钟)- 提供一些示例数据集,要求学生计算均值、中位数和众数,并解释结果的含义。
- 引导学生思考如何使用数据集中趋势测量指标进行数据分析和比较,例如比较不同班级的平均分数或不同地区的平均年龄。
4. 小组讨论(10分钟)- 将学生分成小组,要求他们讨论和分享自己计算数据集中趋势测量指标的方法和结果。
- 鼓励学生讨论如何应用数据集中趋势测量指标解决实际问题,例如如何确定市场上最受欢迎的产品。
5. 总结与评估(10分钟)- 总结数据的集中趋势的重要性和常见的测量指标。
- 提供一些评估题目,要求学生应用所学知识计算和解释数据的集中趋势。
- 对学生的表现进行评估,并提供反馈。
教案延伸活动:1. 学生可以收集自己感兴趣的数据,并计算数据的集中趋势,以进一步加深对概念和测量指标的理解。
2. 学生可以进行小研究,比较不同群体或不同时间段的数据集中趋势,以探索数据背后的趋势和变化。
3. 学生可以使用电子表格软件或统计软件进行数据分析和可视化,以更直观地展示数据的集中趋势。
集中趋势测量法

05 集中趋势测量法的案例分 析
案例一:算术平均数的应用
场景描述
某公司需要评估员工的薪资水 平,采用算术平均数作为测量
指标。
数据收集
收集公司所有员工的薪资数据 。
计算 数。
结果分析
通过比较算术平均数与市场薪 资水平,可以评估公司薪资水
平的竞争力和合理性。
在社会学中的应用
描述社会现象
01
集中趋势测量法可用于描述社会现象的中心趋势或典型情况,
如人口平均年龄、平均教育水平等。
分析社会差异
02
通过比较不同社会群体的集中趋势指标,可以分析社会差异和
不平等现象。
预测社会变迁
03
基于历史数据的集中趋势分析,可以对未来社会变迁进行预测
和研究,为社会规划和政策制定提供参考。
案例二:中位数的应用
场景描述
某市场研究机构需要分析某地区家庭 收入分布情况,采用中位数作为测量 指标。
数据收集
收集该地区所有家庭的收入数据。
计算方法
将家庭收入数据按照从小到大的顺序 排列,找到位于中间位置的数值,即 为中位数。
结果分析
通过比较中位数与平均数的大小,可 以判断家庭收入分布是否均衡,以及 是否存在极端值的影响。
03
特点
中位数不受极端值影响,对于偏态分布的数据较为适用。
众数
定义
众数是一组数据中出现次数最多的数。如果数据分布没有明显的集中趋势,则可能没有众 数;如果有两个或两个以上的数出现次数相同且最多,则这组数据有多个众数。
计算步骤
统计每个数据出现的次数,找到出现次数最多的数。
特点
众数反映了数据的集中趋势和分布情况,但可能受数据分组的影响。
报告中实证分析的统计方法与工具详解

报告中实证分析的统计方法与工具详解统计方法和工具是实证分析中不可或缺的重要组成部分。
通过运用适当的统计方法和工具,研究者能够更准确地了解和揭示数据之间的关系。
本文将从不同角度详解一些常用的统计方法和工具,并解释其在实证分析中的应用。
一、描述统计分析方法描述统计分析方法用于整理、总结和展示数据的基本特征。
它通常用于研究数据的分布、集中趋势和变异程度。
1.频数和百分比频数是一种简单直观的描述统计方法,用于计算某一特定数值在数据集中出现的次数。
百分比是在频数的基础上计算得出的占比,用于展示某一特定数值在总体中的相对比例。
频数和百分比可以帮助研究者了解数据的分布情况,从而揭示其中的规律和趋势。
2.集中趋势测量集中趋势测量是描述数据中心位置的统计方法。
常用的集中趋势测量有均值、中位数和众数。
均值是所有观测值的平均数,可以反映数据的平均水平;中位数是将所有观测值按大小排列后位于中间的值,可以反映数据的中心位置;众数是在一组数据中出现最频繁的值,可以反映数据的分布特点。
集中趋势测量可以帮助研究者了解数据的平均水平和中心位置。
3.离散程度测量离散程度测量是描述数据变异程度的统计方法。
常用的离散程度测量有标准差和方差。
标准差是所有观测值与均值之差的平方和的平均值的平方根,可以反映数据的离散程度;方差是所有观测值与均值之差的平方和的平均值。
离散程度测量可以帮助研究者了解数据的变异程度,从而判断数据的可靠性和一致性。
二、推断统计分析方法推断统计分析方法用于从样本数据中得出总体特征的结论。
它基于概率理论,通过对样本数据进行分析和推断,从而对总体进行估计和推断。
1.参数估计参数估计是推断统计分析中常用的方法之一,用于根据样本数据对总体参数进行估计。
常用的参数估计方法有点估计和区间估计。
点估计通过单一数值来估计总体参数的值,例如样本均值可以估计总体均值;区间估计通过给出一定的区间来估计总体参数的范围,例如置信区间可以给出总体均值的一个范围。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 集中趋势测量法
统计资料经分类整理后,已经使杂乱无章的资料成为有系统有条理的资料。
为从中获取有用信息,寻求一简单数值以代表总体(或样本)是最起码的,这就提出了平均指标的计算问题。
平均指标的功用是表明现象总体在一定条件下某一数量标志所达到的一般水平。
第一节 算术平均数
在社会统计学中.算术平均数是反映集中趋势最常用、最基本的平均指标。
由于统计总体的标志总量通常都是各总体单位标志值之和,而且是与其总体单位数相对应的,因此用总体标志总量除以总体单位数即得算术平均数。
算术平均数一般用X 表示,它在推论统计中被称为均值。
算术平均数表示某一总体之总体单位平均所得的标志值的水平。
在实际工作中,由于统计资料整理的情况不尽相同,我们在运用定义计算算术平均数时,要视资料有没有分组加以区别对待。
在形式上,分组资料的计算式与未分组资料的计算式是有区别的,尽管它们在本质上并没有什么不同。
以后我们将看到,其他平均和变异指标的计算也同样如此。
1.对于未分组资料
对于未分组资料,计算算术平均数要用原始式。
2.对于分组资料
对于分组资料,计算算术平均数要用加权式。
对于单项数列,很显然,算术平均数X 不仅受各变量值(i X )大小的影响,而且受各组单位数(频数)的影响。
由于i X 对于总体的影响要由频数(i f )大小所决定,所以i f 也被称为权数。
值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。
这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。
对于组距数列,由于每一组变量值不止一个,因此先要用每一组的组中值权充该组统一的变量值,然后再计算给定数列的算术平均数。
3.算术平均数的性质
(1) 各变量值与算术平均数的离差之和等于0。
(2)各变量值对算术平均数的离差的平方和,小于它们对任何其他数(X ’)偏差的平方和。
也就是说,各变量值与算术平均数的离差的平方和为最小值。
在统计学中,这被称为“最小平方”性质。
(3)算术平均数受抽样变动影响微小,通常它是反映总体分布集中趋势的最佳指标。
(4)算术平均数受极端值的影响颇大,遇到这种情况时,就不宜用它来代表集中趋势了。
(5)分组资料如通有开放组距时,不经特殊处理,算术平均数将无法得到。
第二节 中位数
把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值,即为中位数,用d M 表示。
中位数是把某一变量的全部数值分成了相等的两部分,一半数值比它大,
一半数值比它小,它居中。
所以,中位数也是一种能够反映现象一般水平和集中趋势的代表性数值。
中位数只与变量值的排序有关,因而它可以用于定距、定比资料,也可以用于定序资料。
1.对于未分组资科
先把所有数据按大小顺序排列,如果总体单位数N 为奇数,则取第
2
1+N 位上的变量值为中位数,如果总体单位数N 为偶数。
因为居中的数值不存在,按惯例,取第2
N 位和第2N +1位上的两个变量值的平均作为中位数。
2.对于分组资料
当根据单项数列求中位数时,先根据N /2在累计频数分布中判定中位数所在组,然后便知该组所属的变量值就是中位数了。
当根据组距数列求中位数时,要采用所谓的比例插值法:先根据N /2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用相应公式求出中位数。
3.中位数的性质
(1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数(X ’)之差的绝对值总和。
(2)中位数不受极端值的影响。
(3)分组资料有不确定组距时,仍可求得中位数。
(4)中位数受抽样变动的影响较算术平均数略大,因此中位数作为表示总体资料集中趋势的指标,使用也很广泛。
4.其他分割法
变量值经顺序排列后,中位数系将研究总体的所有单位分为相等的两部分,所以它又被称为二分位数。
类似于求中位数,我们还可以很容易求出四分位数、十分位数、百分位数等等。
第三节 众 数
“众”即多的意思。
众数是在一组资料中,出现次数(或频数)呈现出“峰”值的那些变量值,用M o 表示。
众数也是一个比较常用的反映现象集中趋势的代表性数值。
众数只与变量值出现的次数有关,因而它可以用于定距、定比资料,也可以用于定序、定类资料。
1.对于未分组资料
对于未分组资料,确定众数的方法比较简单,可直接观察。
首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。
从这个意义上,众数和中位数被统称为位置平均数。
2.对于分组资料
对于分组资料,如果是单项数列,众数确定方法同未分组的情况,只是更直观、更容易,观察频数分布就可以了。
当根据组距式变量数列求众数时,也要采取比例插值法求众数。
3.众数的性质
(1)在分组资料中,众数仅受上下相邻两组频数大小的影响。
而不受极端值的影响,因而对开口组资料,仍可计算众数。
(2)受抽样变动影响大。
(3)对于给定资料,其反映集中趋势的指标,只有众数不唯一确定。
有的资料只有一个众数,有的资料没有众数,有的资料则存在好几个众数。
(4)在频数分布中,众数标示为其“峰”值所对应的变量值,它的优点是帮助我们很容易区分出偏态以及单峰分布和多峰分布。
第四节几何平均数、调和平均数及其他
集中趋势还有两种常见的测定方法,这就是几何平均数和调和平均数。
1.几何平均数
几何平均数也是测定集中趋势的一种平均指标,它被定义为:N个变量值连乘积的N
次方根,用M g表示。
几何平均数是一种具有特殊用途的平均数。
主要适用于两种场合:①用以计算某种比率的平均数,如用于指数分析;②用以计算大致具有几何级数关系的一组数字的平均数,如世界各国都用这种平均法计算经济指标的平均发展速度。
几何平均数亦可分为未加权式和加权式。
必须指出,用以计算几何平均数的各项数值必须大于0,否则就不能计算几何平均数或计算结果无实际意义。
2.调和平均数
调和平均数也是测定集中趋势的一种平均指标,它被定义为:N个变量值倒数算术平均数的倒数,也称倒数平均数,用M h表示。
调和平均数也是一种具有特殊用途的平均数。
作为算术平均数的变形而使用的调和平均数适用于以下场合:如掌握的情况是总体标志总量而缺少总体单位数的资料,则可以采用调和平均数的公式计算平均数。
调和平均数亦有未加权式和加权式之分。
必须指出,用以计算调和平均效的各项数值不能出现0,否则不能就资料算出调和平均数。
3.各种平均数的关系
首先,算术平均数与中位数、众数之间存在着一定关系,这种关系决定于总体中频数分布状况。
在统计中,最多最常见的频数分布形式是所谓钟形分布。
如前所述,钟形分布又分为对称的正态分布和不对称的偏态分布。
当总体呈对称的正态分布时,算术平均数、中位数
和众数三者完全相等。
当总体呈不对称的偏态分布时,M d总是位于X和M o之间。
当X―M o>0时为正偏;当X―M o<0时为负偏。
另外,算术平均数、几何平均数和调和平均数可统称为数值平均数。
从数量关系的角度分析,算术平均数和调和平均数易受极端值影响,算术平均数受极大值的影响较大,调和平均数受极小值的影响较大,而几何平均数受极端值的影响相对较小。
因此,如用同一资料计
算这三种平均数,其结果可用下述不等式表示:X≥M g≥M h 。
只有当所有变量值都相同时,上述三种平均数才相等。