2.1 定量资料的统计描述

合集下载

定量资料的统计描述解析

定量资料的统计描述解析
定量资料的统计描述
第一节 频数分布表与频数分布图
统计描述是统计分析的最基本内容,也 是统计分析的重要一部分.在统计学中经常 用统计指标和统计图表来揭示和反映原始 资料的数量特征和信息.
频数分布表
➢ 用于反映各变量(观察单位的某种特征)值及其 相应频数之间关系的一类表格,我们称之为频 数表.这里频数指对一种变量在多个观察单位 中进行多次观察,其中某一变量值重复出现的 次数.
数表法两种。
(1)直接法 当观察例数 n 不大时,此法常用。
先将观察值按大小顺序排列,选用下列公式
求 M。
当 n 为奇数时
为偶数时
M=
X
n 2
X
n 1 2
2
例 某病患者 8 人的潜伏期(天)分别为 2,3,3,4,7,8, 10,18,求它们的中位数。
本例 n=8 为偶数,将 8 人潜伏期从小到大排列,用公式算 得
➢ 不同的资料类型编制频数表难易程度不同,其 中计数资料和等级资料比较简单,而计量资料 相对较繁杂些.
计量资料频数表的编制
一般情况下,样本含量小于30的统计资料 无须编制频数表,但对于大样本含量的资料, 编制频数表有利于进一步的统计分析、且频 数表本身也具有统计描述的作用.
编制频数表的步骤
一般 8- 15 之间
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用
符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
N
xi 2
2 i1
N
n
xi
X
2
S 2 i1
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示,

2.1 频率分布表与频率分布图

2.1 频率分布表与频率分布图
26~ 28~30 合计
频数 (2)
1 3 6 8 12 20 27 18 12 8 4 1 120
频率(%) (3) 0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83
100.00
累计频数 (4) 1 4 10 18 30 50 77 95 107 115 119 120 —
100.0
累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0
4
频率分布 图
30 频 率 25 (%)
20
15
10
5
0
0
1
2
3
4
5 >5
产前检查次数
图21 某地96名妇女产前检查次率分布
横坐标:产前检查次数; 纵坐标:频率, 检查k次的妇女 所占的比例(%) 等宽矩形长条:高度为检查次 数的频率
试编制血清含量的频率分布表。
6
编 制 步 骤 : 2
计 算 全 距 (range,R),又 称 极 差
(1)找• 出R = 最最大 值小-值最=小7值.4=229.647.42 = 22.22
3
确 定 组 段 数最与大组值距 = 29.64
•组 段 数 一 般 在 10 左 右 下 限 : 组 段 的 左 端 点
第二章 定量资料的统计描述
一、频率分布表与频率分布图


当变量值个数较多时,对各变量值出现的频率列表即为频 率分布表(frequency distribution table),简称频率表。
频率分布表的图形表示即为频率分布图。
2
1、离散型定量变量的频率分布

医学统计学-第二章 统计描述

医学统计学-第二章 统计描述
变异系数(Coefficient of variation,CV)
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。

医学统计学:定量资料的统计描述

医学统计学:定量资料的统计描述
n
统计学家在实际应用时发现,按 x x 2 式求出的值总是比实际偏小,于是再
n
做一些校正,得到 x x 2 。
n 1
这就是离散趋势的衡量指标——标准差,其表达式是 S= x x 2 ,计算式是
n 1
第 3 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
x2 x2
S
n。
n 1
依此,例 1 的四组数据可得到标准差为:1.5811,7.9057,15.8113,9.5131。
《医学统计学》定量资料的统计描述讲稿
定量资料的统计描述
课时:3 学时
教学目的与要求: 正确理解平均水平和离散趋势的概念 学会均数、标准差、变异系数的计算 理解频数分布表的含义 理解正态分布的特征,学会医学参考值范围的估算
本课重点与难点: 1、求均数和标准差是定量资料统计描述的基本功。关键还要记
第 2 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
三组数据更加松散,第四组数据有紧有松,可是均数是一模一样,怎么谈得上是“特 征”呢?
这提示我们,对于一组数据,光靠一个指标来描述“特征”是不够的,就像要记 住一个人的特征,不能只看眼睛,要眼睛加上嘴巴,或鼻子加上身材,等等。看来我 们要再寻找一个描述数据内在松紧形式的指标。
X2 =170.0cm,S2 =7.1cm,如何评价? 从总体上说,两个学校三年级男生的身高是一样的(因为身高的平均水平一样),
但从个体上看,甲校男生的身高十分一致(因为身高的标准差很小),形象地说,是 标准的“仪仗队”,而乙校男生的高度就显得参差不齐(因为身高的标准差很大)。
也可以用变异系数(CV)来考量。 CV= S 100%
离均差平方和—— x x2 ,它克服了离均差之和恒等于零的缺点,在统计学中

卫生统计学 第二章 定量资料的统计描述

卫生统计学 第二章 定量资料的统计描述
正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
负偏态分布:集中位置偏向数值大的一侧。
32
3、描述资料的分布特征
集中趋势:血清铁含量向中央部分集中,即中
等含量者居多,集中在18 这个组段,这种现
象为集中趋势
离散趋势:从中央部分到两侧的频数分布逐渐
减少,而且血清铁含量的值参差不齐,最低的 接近6 最高的接近30,这种现象称为离散趋势
组段下限(L):每个组段的起点 组段上限(U):每个组段的终点
①两端的组段应分别包含最小值或最大值; ②尽量取较整齐的数值作为组段的端点,便于对 数据进行表述; ③最后一个组段应同时写出上限和下限来
17
L X U
4、列表整理、统计各组段的频数、频率
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一
28
25 人 数 20 15 10 5 0 14 17 20 23 26 29 32 35 38 41 44 47
血清转氨酶(mmol/L)
115名正常成年女子血清转氨酶的频数分布
29
负偏态(峰)分布
101名正常人的血清肌红蛋白( g/mL )含量分布
肌红蛋白含量 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50 人 数 2 3 7 9 10 22 23 14 9 2
划记
频数
1 3 6 8 12 20 27 18 12 8 4 1
合计
120
18
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52

定量资料的统计描述

定量资料的统计描述
定量资料的统计描述
1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)

定量资料的统计描述

定量资料的统计描述

编制频数分布表的步骤
第一组段包括最小值,最后 一组段包括最大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
一般 8- 15 之间 求出极差 确定组段数 确定组距
列出各个组段
确定每一组段频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
常用的平均数有: 算术平均数(均数)(mean) 几何平均数(geometric mean)
中位数 (median)与百分位数(percentile)
众数(mode)
一、算术平均数
算术平均数:简称均数(mean)
可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置
的指标值。
1、算术平均数的计算方法
M X 9 1 X 5 15
2
பைடு நூலகம்
如果只调查了8家外企,则
2 14 15 2 14.5 M X X 8 8 1 2 2
频数分布表资料的中位数
M 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) M L i fm
i , fm
下限值L
中位数M
上限值U
例1 频数表中位数的计算
N=∑f
中位数=71+3x[(130x50%-59)/26]=71.69
2、中位数的应用
各种分布类型的资料
特别适合大样本偏态分布资料或者 分布末端无确切数值的资料。
第二节 描述集中趋势的统计指标
统计上使用平均数(average)这一指标体系来描述 一组变量值或观察值的集中位置或平均水平。

定量资料的统计描述

定量资料的统计描述

四分位数 间距
方差与标 准差 变异系数
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的
手术病人数,一年里的新生儿数。
2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分
1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


定义:将一组观察值从小到大排序后居 于中间位置的那个数值 计算:

离散型变量
1 当n为偶数时: M ( X ( n ) X ( n 1) ) 2 2 2
当n为奇数时: M X
(
n 1 ) 2
中位数的计算

连续型变量:
i50 n M L50 ( fL ) f 50 2
对称分布 偏态分布: 对数正态分布 偏态分布
集中趋势
均数
离散趋势
方差、标准差 变异系数 对数值的方差 或标准差 极差、四分位 数间距
几何均数 中位数ຫໍສະໝຸດ 本章重点

频数表的意义和应用。 集中趋势的各个描述指标及其应 用条件。 离散趋势的各个指标及其应用条 件。 正态分布和偏态分布资料的描述 指标选择。
iX 公式:PX LX (n X % f L ) fX
式中符号的意义同中位数所用公式,只是把 中位数改为第X百分位数。
小结




频数表和频数图的制作以及频数分布类 型和频数表的用途。 算术均数的定义、特性、适用条件和两 种计算方法。 几何均数的定义、适用条件和两种计算 方法。 中位数的应用及计算
1.该生为优等生,总评成绩为92; 2.该生为良等生,总评成绩为80; 3.该生为中等生,总评成绩为74.55; 4.该生为差等生,总评成绩为17.
几个实例

甲、乙两实验员在实验技术考核中,分 别对同一标准样品进行5次平行样测定, 结果如下,问哪一个的实验技术好(标样 的真值为100)?
甲 乙 80 90 90 96 100 100 110 104 120 110

求极差 R=Xmax-Xmin
划分组段 统计各组段内的数据频数
频率与累计频率
表1. 100名HIV阳性男子年龄的频数分布表
年龄 (岁) 25~
30~ 35~ 40~ 45~
频数 18
38 24 13 4
频率(%) 18.0
38.0 24.0 13.0 4.0
50~ 合计
3 100
3.0 100.0
各种平均数的意义、计算及其应用场合 平均数 均数 意义 平均数量水平 计算 应用场合 适用于对称分布,特别是正态分布的 资料。 (1)等比级数资料 几何均数 平均增(减)倍数 (2)对数正态分布 (3)观察值不能有 0 (4)观察值不能同时有正值和负值 n 为奇数时: M M
( n1 ) 2
四分位数间距(Q)=QU(P75)-QL(P25)

优缺点:

包括了全部变量值中居于中间水平的一半, 比极差稳定。
仍未考虑到每个观察值的变异度。

3、方差和标准差 variance and standard deviation



方差是每个观察值与总体均数离差的 平方的平均值,可以较全面的反映该 组资料的变异情况,方差的单位是原 始数据单位的平方。 将方差开方即得标准差。标准差与原 始数据的单位相同,描述了个体值间 的变异。 样本方差与总体方差分别用S2和σ2表示。




频数分布表与频数分布图
集中趋势的描述
离散趋势的描述
定量资料的统计分析
集中趋势 统计描述 离散趋势 统计分析 参数估计 假设检验
统计推断
例:100名HIV阳性男子的年龄(岁)
49 35 28 30 32 33 36 42 42 30 36 36 30 32 28 34 34 34 30 35 33 40 38 37 29 33 28 34 42 52 30 27 34 46 36 34 44 49 25 48 30 31 37 29 30 30 30 25 26 32 27 33 29 36 33 35 40 40 28 27 30 39 32 30 36 27 39 42 41 33 41 40 38 51 29 31 40 30 35 31 34 29 37 34 38 51 33 39 27 37 32 31 37 33 38 38 40 32 26 36
x
x
n
G Lg
1
Lgx) (
n
将一组观察值从小到大 中位数 排序后,位次居中的观 察值水平
n 为偶数时:
M [ x n x n
2
(1)偏态分布
( 1) 2
]/ 2
(2)分布不明 (3)分布末端无确定值
若为频数表资料:
M L i n ( fL ) * fX 2
4、变异系数 (Coefficient of variation CV)

公式:
S CV 100% X

应用:
a: 比较度量衡单位不同的多组资料 的变异度。 b: 比较均数相差悬殊的多组资料的 变异度。
小结

极差、四分位数间距、方差、标准差的 定义、适用条件和计算方法。
指标
极差 R
四分位 数间距 Q
众数
频数最多的取值或组段 (组中值为代表) 观察值 x 倒数之均数的 倒数
M0 L
H
fU (i ) * f L fU
1
定量资料的集中趋势描述
调和均数
1 1 n x
求平均速度、平均样本含量
* 式中 L 为 M0 所在组段(即频数最多的组段)的下限,U 为上限,i 为组距;fL 为小于 L 的相邻组段的频数,fU 为大于 U 的相 邻组段的频数。
平均差 M.D. 方差 σ2 或 s2
标准差 s
描述离散趋势统计指标的意义及其应用场合 指标含义 计算公式 应用场合及特点 用于小样本或分布不清时。 简单明了,但缺点是: 亦称全距。即一组观察值 1. 除最大值和最小值外,不能反映 中, 最大值与最小值之差。 R=最大值-最小值 组内其他数据的变异度; 单位与原观察值相同。 2. 样本例数悬殊时不宜比较其极 差; 3. 极差的抽样误差较大, 不够稳定。 四分位数间距 Q 即上四分 适用于描述偏态分布资料的离散趋 位数 QU(即第 75 百分位 数)与下四分位数 QL(即 势。 Q=QU-QL 第 25 百分位数)之差,包 四分位数间距比极差稳定,但仍未考 括了全部变量值中居于中 虑到每个观察值的变异度。 间水平的一半。 指数列中各项数值对其平 | xx | 用来测定数列中各项数值对其平均 均数离差绝对值之和的算 M .D. 数离散趋势的一种尺度。 N 术平均数。 方差是每个观察值与总体 正态分布资料。 (x x)2 2 均数离差的平方的平均 可以较全面地反映该组资料的变异 s n 1 值。 情况。单位是原始数据单位的平方。 标准差的计算有直接法和加 权法两种。 直接法: 将方差开方即得标准差。 正态分布资料。主要用于: (x x)2 同质两组资料,在两组均 s 1. 表示观察值的变异程度; 数相近的条件下,S 大, n 1 2. 结合均数描述正态分布特征; 说明该组的资料分散,均 x 2 ( x ) 2 / n 3. 结合均数计算变异系数; 数的代表性差;S 小,说 4. 结合样本含量计算标准误等。 n 1 明该组的资料集中,均数 加权法: 的代表性好。
定量资料的统计描述
Descriptive of quantitative data
几个实例

记者的贫困山村调查 某记者到某山村进行了两次调查,基本 数据为:
改革前: 100人,总年纯收入3万元 改革三年后: 100人,总年纯收入100万元

美国房地产开发
几个实例

某学生在某年的几门功课考试中,成绩分别为 98、92、92、92、83、80、78、75、65、48、 17。在对该生进行评价时,四位教师有四种意 见:
标准差:Standard Deviation

标准差的计算:

( X X )2 直接法:S n 1
2 2 fX ( fX ) / f f 1
频数表法:S
其中,X是各组段的组中值,f是相应的频数。
标准差的应用
a:表示观察值的变异程度
b: 结合均数描述正态分布特征 c: 结合均数计算变异系数 d: 结合样本含量计算标准误等
几何均数(Geometric mean)
中位数(Median)
算术均数(均数)Mean

计算:

直接法(小样本): x
x1 x2 xn n
加权法(大样本,频数表资料):
x
fx f
应用:用于对称分布,特别是正态 分布资料的集中趋势描述。
几何均数:Geometric mean
一、频数分布表与频数分布图


频数表的概念
频数表的编制 频数表的用途

常用频数分布图
1. 频数表(frequency table)的概念


数:将资料的观察值按组段分组,
各组段所包括的变量值个数。

频数表:描述各组段及相应频数分布的 统计表称为频数分布表,简 称频数表。
2. 频数表的编制


计算

直接法:
G n x1 x2 xn
f lg x G lg f
1
加权法:
几何均数的应用

等比资料的统计 对数正态分布资料 注意:

观察值不能为0 观察值不能同时包含正、负值
例:某村某年的家庭总收入分布图

均数
中位数 Median
3.频数表的用途

揭示频数分布特征

集中趋势 离散趋势
对称分布 正偏态分布 偏态分布 负偏态分布

揭示资料的分布类型
便于发现过大或过小可疑值 便于进一步的统计工作 资料的陈述形式
相关文档
最新文档