第二章 单变量的统计描述分析(2)
第二章数值型变量的统计描述

例:某公司五名职员的薪水分别是: 10,100,1000,10000,100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一:分析资料
分析资料:计算有关指标,反映数据的综合特 征, 阐明事物内在联系和规律 (1)统计描述(descriptive statistics):指用统计
指标、统计表、统计图等方法,对资料的数量特 征及其分布规律进行测定和描述 。
(2)统计推断(inferential statistics):指如何根
n 2 n 1 2
2
求:中位数
第1组数:1、4、 3、 2、 3 第2组数: 3、 2、1、 3 第3组数:1、2、 1、 2
(2)频数表法:
适用于样本例数较大的资料(百分位数法)
步骤: ①从小到大计算累计频数和累计频数; ②确定中位数和百分位数所在组段;
③计算中位数M和百分位数PX
i Px= L n x % f L fx
考考你: BUN组段(1)
BUN组段(2)
2.00~2.40 2.40~2.80 2.80~3.20 3.20~3.60
BUN组段(3)
2.00~ 2.40~ 2.80~ 3.20~3.60
2.00~2.30
2.40~2.70 2.80~3.10 3.20~3.50
4、列表划记(数频数):统计各组段内的
例2-3
二、几何均数(geometric mean)
社会统计学第二章第二三节

间距,% 10-19 20-29 30-39 40-49 50-59 频次 7 16 21 12 4 共60
37
38
27
28
• 四分位差值之间可以进行比较,值小的那个资料, 以中位值来估计或预测时所犯的错误就较小。 • 十分位差、百分位差和四分位差的计算方法和意 义相同。
29
平均每月工资(2005年)
30
三、定距变量:标准差
• 方差和标准差
方差:资料中每一个数值和均值之差的平方和除以 观察总数。用S² 来表示。 标准据原始资料求均值:
∑希腊字母(大写Σ,小写σ),符号表示求和, ∑读音为sigma
13
• 根据分组资料求均值:
14
15
• 如果要测量变量的集中趋势: 众值最适合于定类变量;中位值最适合于定序变 量;均值最适合于定距变量。 • 测量层次较高的变量可以使用测量层次要求较低 的统计方法,但是当统计法能够尽量使用变量的 数学特征时,才是最合适的统计方法。
7
二、定序变量:中位值(Md)
• 中位值:一个序列中间位置的那个值。有一半取 值比它大,有一半取值比它小。 • 以中位值去估计定序变量的取值,所犯的错误总 数是最小的。
8
• 分组资料的中位值
9
关于分组
10
表2-6的直方图
11
三、定距变量:均值(X)
均值:将定距变量的各个数值相加起来,求取一个 平均的数值。 • 以均值来估计定距变量的取值所犯错误总数最小。
16
离散趋势
用一个统计值表达资料的差异情况
17
离散趋势测量法
医学统计学-第二章 统计描述

1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
卫生统计学知识点(笔记)

第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
社会统计学2

第一节分布、统计表和统计图
• 一、变量及其测量划分 • 变量是所研究问题的特征或性质,也称作指标。在自然科学中,
变量是可以通过仪器进行测量的。在社会学研究中,变量往往通 过向被访者问问题来进行测量。落实在变量的设计上,就需要根 据调查研究的问题的不同,设计出不同层次的变量,具体划分为 定类变量、定序变量、定距变量、定比变量。
• 1、定类变量
• 定类变量是最低的变量层次,它的取值只有类别属性之分,而无 大小程度之别,如民族、婚姻、职业等变量。
• 2、定序变量
• 定序变量的取值除了有类别属性之外,还有等级次序的差别,其 层次高于定类变量,常见的定序变量,如受教育程度、满意度、 幸福感、社会经济地位等。在使用量表测量时,往往是基于定序 变量。
如贫困问题,需要对低收入段分得细一些。研究老龄化问题,则 需要对老年群体分得细一些。这些都会带来非等距分组。
• 3、组限
• 组限是指每组的范围,即每组的上限和下限。对于离散型变量一 般采取相邻组限不重叠的原则,而对于连续型变量,可能出现相 邻组限重叠的情况,这时采取的原则就是“上组限不在内”原则。 对于开口组求组中值,是依据相邻组的组距加减其一半求得。
• 箱体图反映数据的集中程度,也反映出均值的代表性程度。
• 图2-8显示,流动人口中,女性的平均年龄略低于男性,女性的年 龄更加集中。
第二节 集中趋势测量法
• 集中趋势测量法是找出一个数值来代表该变量数据集结情况的方 法。该方法的优劣在于,由于是根据一个代表值来估计或预测每 个研究对象的数值,因此运用该方法要舍去变量的某些信息,但 由于该数据是最有代表性的数值,以该数值做代表所产生的误差 最小。
• 1、点线图
• 线代表变量,线上标明的是变量的取值,线上方的每一个点代表 一个观测值。点线图的优点是直接,能够看到哪些地方观测值密 集,哪些地方观测值稀少,不丢失任何信息。
教育与心理统计学 第二章 常用统计参数考研笔记-精品

第二章常用统计参数第二章常用统计参数用参数来描述一组变量的分布特征,便于我们对数据分布状况进行更好的代表性的描述,也有利于我们更好地了解数据的特点。
常见的统计参数包括三类:集中量数、差异量数、地位量数(相对量数X相关量数。
描述统计的指标通常有五类。
第一类集中量数:用于表示数据的集中趋势,是评定一组数据是否有代表性的综合指标,比如平均数、中数、众数等。
概述[不背]第二类差异量数:用于表示数据的离散趋势,是说明一组数据分散程度的指标,比如方差、标准差、差异系数等。
第三类地位量数:是反映个体观测数据在团体中所处位置的量数,比如百分位数、百分等级和标准分数等。
第四类相关量数:用于表示数据间的相互关系,是说明数据间关联程度的指标,比如积差相关、肯德尔和谐系数、①相关等。
第五类:是反映数据的分布形状,比如偏态量和峰度等(不作介绍I第一节集中量数(一)集中量数的定义(种类、作用)[湖南12名]描述数据集中趋势的统计量数称为集中量数。
集中量数能反映大量数据向某一点集中的情况。
常用的集中量数包括算术平均数、加权平均数、几何平均数、中数、众数等等,它们的作用都是用于度量次数分布的集中趋势。
(二)算术平均数(平均数、均数)(一级)简述算术平均数的定义和优缺点。
(1)平均数的含义算术平均数可简称为平均数或均数,符号可记为M。
算术平均数即数据总和除以数据个数,即所有观察值的总和与总频数之比。
只有在为了与其他几种集中.数洞区别时,如几何平均数、调和平均数、加权平均数,才全称为算术平均数。
如果平均数是由变量计算的,就用相应的变量表示,如又匕算术平均数是用以度量连续变量次数分布集中趋势及位置的最常用的集中量数,在一组数据中如果没有极端值, 平均数就是集中趋势中最有代表性的数字指标,是真值的最佳估计值。
(2)平均数的优缺点简述算术平均数的使用特点[含优缺点]算术平均数优点①反应灵敏。
观测数据中任1可一个数值或大或小的变化,甚至细微的变化,在计算平均数时,都能反映出来。
卫生统计学简答题汇总

统计学简答汇总第一章:绪论(无)第二章:定量变量的统计描述1.均数﹑几何均数和中位数的适用范围有何异同?答:相同点,均表示计量资料集中趋势的指标。
不同点:表2-5.表2-5 均数,几何均数和中位数的相异点平均数意义应用场合均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布几何均数平均增减倍数①等比资料;②对数正态分布资料中位数位次居中的观①偏态资料;②分布不明资料;③分布一端或两察值水平端出现不确定值2.中位数与百分位数在意义上﹑计算和应用上有何区别与联系?答:1)意义:中位数是百分位中的第50分位数,常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。
百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的百分位是P50即中位数。
多个百分位数结合使用,可更全面地描述总体或样本的分布特征。
(2)计算:中位数和百分位数均可用同一公式计算,即Px=L+(i/f x)(n·x%-Σf L)可根据研究目的选择不同的百分位数代入公式进行计算分析。
(3)应用:中位数常用于描述偏态分布资料的集中趋势;百分位数常用于医学参考值范围的确定。
中位数常和其它分位数结合起来描述分布的特征,在实际工作中更为常用。
百分位数还可以用来描述变量值的离散趋势(四分位数间距)。
3.同一资料的标准差是否一定小于均数?答:不一定。
同一资料的标准差的大小与均数无关,主要与本资料的变异度有关。
变异大,标准差就大,有时比均数大;变异小,标准差小。
4.测得一组资料,如身高或体重等,从统计上讲,影响其标准差大小的因素有哪些?(1)样本含量的大小,样本含量越大,标准差越稳定。
(2)分组的多少(3)分布形状的影响,偏态分布的标准差较近似正态分布大(4)随机测量误差大小的影响(5)研究总体中观察值之间变异程度大小5.标准差与变异系数的异同点有哪些?答:标准差:是以算数平均数为中心,反映各观测值离散程度的一个绝对指标.当需要对同一总体不同时期或对不同总体进行对比时,缺乏可比性.当总体平均水平不同或计量单位不同时,用标准差是无法实现两组数据离散程度大小对比的.变异系数:标准差与平均数的比值称为变异系数,记为C·V.变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
单变量的统计描述分析社会统计学

特点 概率密度函数关于均值对称。
偏态分布的概念与特点
概念:偏态分布是指概率密 度函数不对称于均值的情况。
特点
01
分布曲线可能有一个或多个
峰值。
02
03
分布曲线可能偏向均值的一 侧或两侧。
04
05
分布的离散程度可能大于正 态分布。
正态性与偏态性的判断与检验
判断方法
可以通过观察数据的直方图或Q-Q 图来判断数据的分布形态。正态分布 的直方图应该呈现钟形,而偏态分布 的直方图则可能呈现其他形状。
如果四分位距较大,说明数据分布较为分散,存在较大的异 常值;如果四分位距较小,说明数据分布较为集中,异常值 的影响较小。
06 正态分布与偏态分布
正态分布的概念与特点
概念:正态分布是一种连续概率分布, 其概率密度函数以均值为中心,呈钟形 对称。
曲线下的面积为1,代表所有可能结果的 概率总和。
分布曲线是单峰的,即只有一个峰值。
直方图是一种用直条矩形面积代表各组频数,各矩形面积总和代表频数的累积,以 扇形面积代表各组出现的频率的统计图。
直方图可以直观地展示数据的分布情况,帮助我们了解数据的离散程度和集中趋势。
在制作直方图时,需要选择合适的分组方法和组距,并根据数据的特征和需求进行 合理的调整。
饼图与环形图
• 饼图是一种圆形图表,用于表示各部分在总体中所 占的比例。
03
中位数主要用于描述偏态分布的数据,对于异常值不敏感。
众数
01
众数是数据中出现次数最多的数值。
02
对于未分组的数据,众数是一组数据中出现次数最多的数值;
对于分组数据,众数是某一组别的频数最高。
众数主要用于描述分类数据的集中趋势,不适用于连续型数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
13
定类数据的众数 (例)
【例3.1】根据第二章表2-1中的数据,计算众数
表2-1 某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广 告 其他广告 合计 人数(人) 112 51 9 16 10 2 200 比例 0.560 0.255 0.045 0.080 0.050 0.010 1
50
322.5 562.5 940.0 1715.0 1275.0 795.0 550.0
6160.0
X
X
i 1 K i 1
K
i
Fi
i
Fຫໍສະໝຸດ 6160 123.(个) 2 50
32
加权均值:权数对均值的影响
甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(X ): 0 20 100 人数分布(F ): 1 1 8 乙组: 考试成绩(X ): 0 20 100 人数分布(F ): 8 1 1
挠头的数值
公司员工的月薪如下:
(元)
经理 副经 职员 职员 职员 职员 职员 职员 职员 A B C D E F G 员工 理 月薪 6000 4000 1700 1300 1200 1100 1100 1100 500
我们有三种方法选择集中趋势: (1)根据频数:哪个变量值出现次数越 多,就选择哪个变量值,比如民主决策的表决 机制。 (2)根据居中:比如一个城镇居民的生活 水平,居中的是小康家庭,那么就用小康家庭 来代表该城镇的生活水平。 (3)根据平均:用平均数来代表变量的 平均水平。
如下:
N cf Md L ( 2 ).w f
81 4950
51 94.5
132 5950
=4950+
189 81 ( 2 ) 1000 5215 美元 51
数值型分组数据的中位数:例
【 例 3.5】 根据第二 章 表 2-5 中 的数据, 计算50 名 工人日加 工零件数 的中位数
不同类型的数据用不同的集中趋势测量 值
低层次数据的集中趋势测量值适用于高 层次的测量数据,反过来,高层次数据 的集中趋势测量值并不适用于低层次的 测量数据 选用哪一个测量值来反映数据的集中趋 势,要根据所掌握的数据的类型来确定
下面是一个小故事: 一个人到某公司求职,经过调查,得出关 于该公司工资的一些数据,如果是你,应 该如何选择?
表2-5 按零件数分组 105~110 110~115 115~120 下界值L 120~125 上界值U 125~130 130~135 135~140 合计 某车间50名工人日加工零件数分组表 频数(人) 3 5 8 14 10 6 4 50 3 8 16 30 40 46 50 累积频数
下界累计频数Sm-1 上界累计频数Sm
2000-2900 3000-3900 4000-4900 5000-5900 6000-6900 7000-7900 总 和
1950-2950 2950-3950 3950-4950 4950-5950 5950-6950 6950-7950
17 26 38 51 36 21 189
17 43 81 132 168 189
按零件数分组
某车间50名工人日加工零件均值计算表
组中值(Xi) 频数(Fi) XiFi
105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
107.5 112.5 117.5 122.5 127.5 132.5 137.5
—
3 5 8 14 10 6 4
X甲 X乙
Xi
i=1
Xi
i=1
n
0×1+20×1+100×8
10
0×8+20×1+100×1 10
33
82(分) 12(分)
n
均值:数学性质
1. 各变量值与均值的离差之和等于零
(X X ) 0
i 1 i
n
2. 各变量值与均值的离差平方和最小, 小于任何其他数的偏差平方和。 n
萨姆:每周100元又是怎么回事呢?
吉斯莫:那称为众数,是大多数人挣的 工资。 吉斯莫:老弟,你的问题是出在你不懂 平均数、中位数和众数之间的区别。 萨姆:好,现在我可懂了。我……我辞 职!
一、定类变项:众值(Mode)
众值(Mode):众值(Mo)就是次数 最多之值。对于定类变项,以众值 作预测所犯的错误是最小的。 众值适合于分析定类变项,也可以 用来分析定序、定距变项的资料。 不受极端值的影响。
Mo=商品广告
定序数据的众数 (例)
【例3.2】根据第二章表2-2中的数据,计算众数
表2-2 甲城市家庭对住房状况评价的频数分布
甲城市
回答类别
非常不满意 不满意 一般 满意 非常满意 合计
户数 (户) 24 108 93 45 30
300
百分比 (%) 8 36 31 15 10
100.0
解:这里的数据为 定序数据。变量为 “回答类别”。甲 城市中对住房表示 不满意的户数最多 ,为108户,因此众 数为“不满意”这 一类别,即 Mo=不满意
15
二、定序变项: 中位值(Median)
中位值(Md )就是在一个序列的中央位置之值, 即高于此值的有50%的研究个案,低于此值的也 有50%。即:按大小次序排列的N个数值的中间 值。 50% 50%
如果个案数是奇数,中位数就是中间个数的记 分数。如果N是偶数,按惯例,我们取两个中间 个案的平均值。
—
50 16 M d 120 2 5 123.21(个) 14
26
三、均值(MEAN)
所有变量值的和除以变量的个数。
算术平均数是反映集中趋 势最常用、最基本的平均指标。 它只适用于定距以上的变量。
1、未分组资料
(1)根据原始资料求均值X=
x
N
例 7,3,11,10,4
14
频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
解:这里的变量为“广 告类型”,这是个定类 变量,不同类型的广告 就是变量值。我们看到 , 在 所 调 查 的200 人 当 中,关注商品广告的人 数 最 多 , 为 112 人 , 占 总被调查人数的56%, 因此众数为“商品广告 ”这一类别,即
一、众数:众数的不唯一性
无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据:
6 5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
12
众数:众数的不唯一 性
无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据:
6 5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
第二章 集中趋势的测量法
一. 定类数据:众数
二. 定序数据:中位数 三. 定距和定比数据:均值
四. 众数、中位数和均值的比较
1
统计分析首先要解决的问题,就是寻求 一个简单数值以代表搜集所得的资料。 所谓集中趋势测量法,就是找出一个数 值来代表变项的资料分布,以反映资料 的集中情况。 集中趋势测量法有一个特殊意义,就是 可以根据这个代表值来估计或预测每个 研究对象(即个案)的数值。这样的估计 或预测,由于所根据的数值最有代表性, 故所发生错误的总和是最小的。
19
例: 学生的学业成绩
等级 甲 乙 丙 丁 总数 f 5 20 30 25 80 cf 80 75 55 25
解:中位值的位置:
(N+1)/2=(80+1)/2=40.5 从累加次数(cf)中很易见到在这个 位置上的值应在丙级内 故Md =丙
根据分组资料计算中位值
公式;Md=L+(
关于集中趋势的一个故事
吉斯莫先生有一个小工厂,生产超级小 玩意儿。 管理人员由吉斯莫先生、他的弟弟、六 个亲戚组成。工作人员由5个领工和10个 工人组成。工厂经营得很顺利,现在需 要一个新工人。 现在吉斯莫先生正在接见萨姆,谈工作 问题。
吉斯莫:我们这里报酬不错。平均薪金 是每周300美元。你在学徒期间每周得75 美元,不过很快就可以加工资。 萨姆工作了几天之后,要求见厂长。
从分组的数据计算中位数时,我们把给 定间距中的所有个案看作等距分布在整 个间距内。
我们要找到包含中间或N/2个个案的间距, 这里189/2=94.5,显然中位值在 4950~5950这一组。 则中位值组的真实下限L =4950 中位值组的频数f=51 低于中位值组真实下限的累加次数cf=81 中位值组的组距W=1000 全部个案数N=189
3、均值与中位值的比较
(1)均值受极端值的变化影响,而中位值则 不受影响,除非中位值本身变化。 (2)均值随样本变化较少,所以与中位数相 比,均值一般是比较稳定的量度,因此, 往往不同的样本之间,中位数比均值有更 大的差异。 (3)均值比较容易进行算术运算 (4)计算均值以定距尺度为前提,中位数既 可用于定序的,也可以用于定距的尺度
N 1 5 1 位置 3 2 2
中位数 22
18
数值型未分组数据的中位数:6个数据的例子
原始数据: 10 5 9 12 6 8 排序: 5 6 8 9 10 12 位置: 1 2 3 4 5 6
位置 N+1 6+1 3.5 2 2 8+9 中位数 8.5 2