定量资料的统计描述分析
定量资料统计描述——集中趋势与离散程度

度量单位不同资料之间离散度的比较; 均数相差悬殊的资料之间离散度的比较。
【例4-11】
某研究收集了100例7岁男孩的身高和体重的资料,身高均数为 123.10cm,标准差为4.71cm;体重均数为22.92kg,标准差为 2.26kg,比较这100例7岁男孩的身高和体重的变异度。
身高 CV
4.71 100 % 3.83 %
M X n1
当n为奇数时,
() 2
, 位置居中的观察值
当n为偶数时,
M
(X n ()
X n )/ ( 1)
2 ,计算出位次居中的两个观察值的均数
2
2
例:7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。
本例n=7,为奇数
M X 71 X 4 5(天 ) () 2
例:8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。
本例n=8,为偶数
M
1
2
X 8
() 2
X 8
( 1) 2
1 2
X
4
X5
1 3 5 4(小时)
2
(二) 中位数的应用
中位数可用于各种分布的资料,在正态分布资料中,中位数等于 均数,在对数正态分布资料中,中位数等于几何均数。
中位数不受极端值的影响,因此,实际工作中主要用于不对称分 布类型的资料、两端无确切值(>100)或分布不明确的资料。
患者编号:1 2 3 4 5 6 7 8 9 ... 117 118 119 120 住院天数:1 2 2 2 3 3 4 4 5 ... 40 40 42 45
n=120,120*5%=6,为整数:
P5
定量的统计描述分析课件

总结
频数分析(Frequencies ):频数分布表、条图和直方图以及 集中趋势和离散趋势的各种统计量。 描述统计(Descriptives ):描述近似正态分布定量变量的集 中趋势和离散趋势的各种统计量,对变量做标准化转换(Z 转换)。 探索分析(Explore ):未知分布类型数据的统计描述,对 数据的分布形态进行检验,功能强大。
End Thanks
中位数
各种分布类型的资料,特别是偏峰分布资料; 分布一端或两端无确切数值的资料; 分布类型不明
百分位数 各种分布类型的资料
离散趋势
指标
应用条件
极差
对资料类型没有要求
四分位数 间距
方差与标 准差
变异系数
各种分布类型的资料,特别是偏峰分布资料
对称分布,特别是正态或近似正态分布 观察指标单位不同时变异程度的比较; 均数相差较大时变异程度的比较
重点掌握 1.频数分布图和频数分布表的制作 2.定量资料统计指标的计算
离散Байду номын сангаас定量资料
下面我们打开SPSS软件自带的数据demo.sav,找到reside, 这是一组同居人数的资料,我们将结合这组数据学习离散型 定量资料频数分布表和频数分布图的绘制。
变量视图
输出结果
输出结果
连续型定量资料
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分 1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
定量资料的统计描述

•定量资料的统计分析定量资料的统计描述主要内容•频数分布表•集中趋势指标•离散趋势指标•频数/频率分布表(frequency distribution table•频数:将定量资料的变量值进行分组,则某组段所包含的变量值的个数称为频数,以f表示。
频率是频数在总例数中所占的百分比。
•频数表(频率表):表示各组段及它们对应的频数(频率)的表格称为频数表或频数分布表。
频数分布表格•编制频数表的步骤1.求全距(R)。
R=最大值-最小值=84.3-64.3=20(g/L)2.确定组数和组距。
频数表一般设8-15组。
各组段的起点和终点分别称为下限和上限。
组距为相邻两组段的下限差。
组距i=R/组数≈R/10.本例w=20/10=2(g/L)3.确定组段值。
原始数据表第一组段应包含最小值,最末组段应包含最大值并写出其下限和上限值。
4.列出频数表。
采用划记法或计算机汇总。
•编制频数表的意义:•⑴由频数表可以看出频数分布的两个重要特征:集中趋势和离散趋势。
•⑵可以根据频数分布的不同类型,选择适当的统计方法,进行计算与分析。
频数分布的两个特征:①集中趋势(central tendency):变量值集中位置。
②离散(/中)趋势(tendency of dispersion):变量值围绕集中位置的分布情况。
离“中心”位置越远,频数越小;且围绕“中心”左右对称。
频数分布的类型:对称分布例题直方图偏态分布(集中位置偏向小的一侧叫正偏态,偏向大的一侧叫负偏态)。
偏态分布图示频数表的用途:1. 揭示资料的分布特征和分布类型2. 发现特大值和特小值3. 由组中值近似代表原始数据,便于手工计算集中趋势指标与离散趋势指标。
•集中趋势指标•平均数(average)•描述一组性质相同的观察值的集中趋势、中心位置或平均水平的指标•平均数是一组数据典型或有代表性的值。
•常用平均数的种类有:•算术均数•几何均数•中位数• 众数*• 调和均数*• 一、算术均数(arithmetic mean )1.适用资料:算术均数简称为均数(mean ),适用于正态分布或近似正态分布资料。
定量资料数据的统计描述.

1. 极差(range ,R) 也称为全距,用R表示,即一组资料中,最大值与最 小值之差。 缺点:1)除了最大、最小值外,不能反映组内其他 数据的变异度。2)样本例数越多,抽到较大或较小变量 值的可能性越大,因而极差可能越大。3)即使样本含量 相同,极差也不够稳定。
2. 四分位数间距(quartile range ,Q)
52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.74705
二)几何均数应用的注意事项:
1)几何均数常用于等比级数资料或对数
正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。
(三)中位数和百分位数
中位数(median,M):将一组变量值从小到大按顺序排列,
位次居中的那个变量值就是中位数。
2. 便于进一步计算统计指标和进行统计分析处理。
3. 便于发现某些特大或特小的可疑值。
110名7岁男童身高(cm)的频数分布
90 ~ 92 ~ 94 ~ 96 ~ 98 ~ 100 ~ 110 ~ 112 ~ 114 ~ 116 ~ 118 ~ 120 ~ 122 ~ 124 ~ 126 ~ 128 ~ 130 ~ 132 ~ 134 ~ 136 1 0 0 0 0 0 1 3 9 9 15 18 21 14 10 4 3 2 1
组段的起点数据。 下限:每个组段的起点(最小值) 。 上限:每个组段的终点(近似最大值)。 注:最后一个组段应同时写出上限和下限来。
(4) 绘制整理表
“下限≤x<上限”
注:各组段的频数之和应等于总的观察例数。
表2
120名正常成年男子血清铁含量的频数分布表 划记
一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一
定量资料的统计描述

例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。
定量资料的统计描述

x i
i 1
N
2
N
S
x X
n i 1 i
2
n 1
xi xi i 1 i 1 n 1
n 2 n
2
n
步骤如下:
R=160.8-129.4=31.4。
组段数=10;组距=R/10=3.14≈30(cm);按要
求确定每一组段上下限。
分组统计每一组段的频数,编制频数表。
计量资料频数分布表
118 例 13 岁女孩身高(cm)资料频数表。 身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~ 159~162 合计 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118 组中值 (3) 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5 —
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用 符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
2
x
i 1
N
i
2
N
S2
x X
n i 1 i
2
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示, 样本标准差用S表示。计算公式分别为:
集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势 分布特征 离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都 有频数分布,而不是所有频数分布在集中位置的趋势。
报告中的定量数据分析方法

报告中的定量数据分析方法定量数据是指以数值形式来表示、度量和记录的数据,它能够提供客观、具体的信息,被广泛应用于各个领域的研究和决策中。
定量数据分析方法是指对这些数据进行统计和数学分析的过程,以从中获取有意义的结论和信息。
在报告中,我们常常需要使用定量数据分析方法来支撑我们的论述和结论,本文将从以下六个方面进行详细论述。
一、描述性统计分析描述性统计分析是定量数据分析的基础,它通过计算和总结定量数据的主要特征来描述数据的分布和变化。
常用的描述性统计方法包括中心趋势测度(如均值、中位数、众数)、离散程度测度(如标准差、方差)以及分布形状测度(如偏度、峰度)。
通过对数据进行描述性统计分析,我们可以对数据的特点有一个初步的了解,为后续的分析提供基础。
二、相关性分析相关性分析是研究两个或多个变量之间关系的方法,它能够帮助我们了解变量之间的相关程度以及变量对彼此的影响。
常用的相关性分析方法包括皮尔逊相关系数和斯皮尔曼相关系数。
通过相关性分析,我们可以探索变量之间的关联关系,为后续的回归分析和预测建模提供依据。
三、回归分析回归分析是一种通过建立数学模型来研究自变量对因变量的影响程度和方向的方法。
它可以帮助我们确定自变量和因变量之间的关系,预测因变量在给定自变量条件下的取值。
常用的回归分析方法包括线性回归、逻辑回归和多元回归等。
通过回归分析,我们可以深入研究变量之间的因果关系,并进行预测和决策。
四、假设检验假设检验是一种通过对样本数据进行统计推断,判断统计总体参数是否满足某个给定的假设的方法。
常用的假设检验方法包括单样本检验、双样本检验和方差分析等。
通过假设检验,我们可以对数据的差异和关联进行验证,从而得出结论和推断。
五、时间序列分析时间序列分析是一种根据时间顺序对数据进行建模、分析和预测的方法,它能够帮助我们揭示时间变化规律和趋势。
常用的时间序列分析方法包括趋势分析、季节性分析、周期性分析以及自回归移动平均模型等。
定量资料的统计描述

1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)