定量资料的统计描述

合集下载

(精选)定量资料统计描述

(精选)定量资料统计描述
当数据分布对称时,理论上中位数等于算术均数,当数 据经对数转换后分布对称时,理论上中位数等于几何均数。
因此,中位数可用于任何分布的定量资料。 但对于能用算术均数或几何均数描述集中趋势的资料, 应尽量使用算术均数或几何均数。
24
百分位数常用于确定医范围指特定健康人群的解剖、生理、 生化等指标的波动范围。
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
适用于原始数据分布不对称,但经对数转换后对 称分布的资料;或各观察值之间呈倍数变化(等比关 系)的资料。
Gn X1X2Xn
Glg1(
lgX )
n
18
当资料中有相同观察值时,也可用加权 法计算几何均数
Glg1(
f lgX )
n
19
几何均数的应用 ① 常用于对数正态分布资料或等比资料:
如抗体平均滴度和平均效价、卫生事业 平均发展速度、人口几何增长的资料等。 ② 观察值不能有 0,不等同时有正有负。

定量资料数据的统计描述

定量资料数据的统计描述

f lg X lg f
1
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
例2-6 52例慢性迁延性肝炎患者的HBsAg滴度 数据见表2-4,求其平均滴度。
2 1.20412 7 1.50515 ... 7 2.7027 G lg 1 52 lg 1 108.06977/ 52 lg 2.7017 119.74705
①两端的组段应分别包含最小值或 步骤: 最大值; (1) 求全距:(极差) R=29.64-7.42=22.22 ②尽量取较整齐的数值作为组段的 端点,便于对数据进行表述; (2) 定组段数与组距 : 8~15个组段,组距i=全距/组段数 ③组距以相等为宜。 (3) 划组段:以一个稍小于或等于最小值的整数作为第一个
理的各种因素在个体之间都不会完全相同,即个体间存在差
异,因此导致某地18-35岁健康男性居民血清铁含量不会完全 相同,而是呈现或大或小的离散趋势。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ 表
四、频数分布的类型
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。 正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
频数分布
负偏态分布:集中位置偏向数值大的一侧。
频数表的用途
1. 揭示频数分布的分布特征和分布类型。文献中常 将频数表作为陈述资料的形式。
图中横轴为血清铁含量,纵轴为频率密度,直条面 积等于相应组段的频率。

定量资料的统计描述

定量资料的统计描述

例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。

定量资料的统计描述

定量资料的统计描述
定量资料的统计描述
LOREM IPSUM DOLOR
主要内容
频数分布 集中趋势 离散趋势
被平均
中国人公共假期每年已有115天; 中国全国家庭平均住房面积116.4㎡; 北京平均月薪9227元; 中国男性平均身高174.2厘米; 中国人平均生育1.18个孩子; 中国家庭资产平均为121.69万元,城市家庭平均为
( kg )原始 数据如下, 试编制频数
表。
25.2 34.9 34.3 38.1 41.3 27.8 33.8 37.7 28.4 33.5 47.3 34.8 30.5 36.2 51.0 38.0 43.8 40.9 37.5 36.6 33.4 47.4 36.4 41.4 36.5 42.5 33.7 29.3 39.6 37.5 39.6 33.2 32.1 29.9 43.7 33.8 35.1 37.8 32.4 38.5 28.2 36.5 23.4 35.8 34.1 27.6 42.6 23.1 37.1 44.0 35.6 44.5 46.5 35.0 31.8 36.4 36.2 47.9 38.7 20.5 37.1 29.2 38.2 41.1 36.2 43.5 32.8 36.3 31.8 30.6 38.5 39.6 28.7 33.7 35.1 42.9 20.1 35.4 26.5 42.0 39.6 38.7 35.4 51.2 31.4 34.1 25.3 29.6 38.2 43.7 33.8 24.5 29.2 45.9 32.5 23.5 36.8 27.2 34.0 34.7 44.4 41.2 35.3 42.6 34.1 30.0 31.4 40.8 27.3 48.6 35.8 29.7 45.6 41.8 33.0 28.3 33.3 35.1 40.6 38.2 37.6 25.5 37.3 37.5 41.5 38.4 44.2 43.2 31.5 40.2 34.5 37.4

定量资料的统计描述

定量资料的统计描述
定量资料的统计描述
1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)

定量资料的统计描述

定量资料的统计描述

编制频数分布表的步骤
第一组段包括最小值,最后 一组段包括最大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
一般 8- 15 之间 求出极差 确定组段数 确定组距
列出各个组段
确定每一组段频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
常用的平均数有: 算术平均数(均数)(mean) 几何平均数(geometric mean)
中位数 (median)与百分位数(percentile)
众数(mode)
一、算术平均数
算术平均数:简称均数(mean)
可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置
的指标值。
1、算术平均数的计算方法
M X 9 1 X 5 15
2
பைடு நூலகம்
如果只调查了8家外企,则
2 14 15 2 14.5 M X X 8 8 1 2 2
频数分布表资料的中位数
M 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) M L i fm
i , fm
下限值L
中位数M
上限值U
例1 频数表中位数的计算
N=∑f
中位数=71+3x[(130x50%-59)/26]=71.69
2、中位数的应用
各种分布类型的资料
特别适合大样本偏态分布资料或者 分布末端无确切数值的资料。
第二节 描述集中趋势的统计指标
统计上使用平均数(average)这一指标体系来描述 一组变量值或观察值的集中位置或平均水平。

定量资料的统计描述

定量资料的统计描述

四分位数 间距
方差与标 准差 变异系数
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的
手术病人数,一年里的新生儿数。
2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分
1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )

定量资料的统计描述

定量资料的统计描述
定量资料的统计描述
一、基本概念
总体与样本 变量 误差 概率
二、资料和统计分析
资料的两种类型
定量资料(计量资料) 定性资料(分类资料) 连续 离散 二项分类 多项分类
无序
有序(等级)
根据变量取值特点,计量资料分为:
连续性资料:变量值可以在实数轴上连续变
动。如红细胞数、身高、体重。
定量资料统计描述过程:
定量 资料 统计 描述
一、Descriptives过程
进行一般性的统计描述(统计指标) 适用于服从正态分布的定量资料 特殊功能:可对原变量进行标准正态 变换N(0,1)
Descriptives过程:
标准 正态 变换: Z+?
峰度系数、 偏度系数
二、Frequencies过程
涉及的统计指标比Descriptives过程全 面,可产生详细的频数表,并给出常用统 计图。 更适用于对分类资料以及不服从正态分 布的连续性变量进行描述。
Frequencies过程:
产生 频数 表
Frequencies过程:
正态 曲线
三、Explore 过程(探索性分析)
三个过程中功能最强大,对变量的描 述统计更深入详尽; 适用于对资料的性质、分布特点完全 不清楚时; 特殊功能:茎叶图、箱式图
2.Descriptive Statistic
3.Descriptives
optins
几何均数的计算
教材P45 例4.4 数据录入 分析过程
对数转换:Transform Compute
生成 新变 量lgx
Transform
Compute:
函数 组
练习
课后习题P394 第3题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

x
n
i
例3-3 现有10名6岁女孩的身高值(cm)为110.9, 120.4,108.2,121.2,112.3,121.8,117.0,111.4, 117.2,108.3,试求其算术均数。
110 .9 120 .4 108 .3 X 114 .87 10
计算方法 2. 加权法 f1 x1 f 2 x 2 f n xn fi xi x f1 f 2 f n fi
129~132 130.5
加权法
x =Σfixi/Σfi
=13887/120=115.725(cm)
直接法计算出的均数为115.7567。因 此,加权法计算出的为近似值。
见SAS程序
第二节 集中趋势的描述
二、几何均数( geometric mean)
定义:n个观察值的乘积开n次方所得到的 值,记为G。 适用条件:资料呈偏态分布,且差距相差较 大,如细菌计数;数值呈倍数递 增或递减的资料,如抗体滴度。
30
频 数
20
10
0
0 1 2 3 4 5 6 7 8
乳牙数
图3-1 某年某市120名1岁男童乳牙数的频数分布
见SAS程序
二、连续型定量资料的频数分布
例3-2 某市2000年l20名6岁女孩的身高(cm)资料如下,试编制频数表。
105.4 119.5 105.7 105.8 106.2 123.4 108.3 113.9 119.8 112.3 112.8 122.8 113.2 104.3 127.8 118.9 103.8 112.4 110.9 116.1 114.1 121.1 121.6 121.1 118.7 113.3 115.8 124.0 122.6 115.0 120.4 114.4 118.8 116.5 119.2 124.6 119.0 112.2 118.5 117.5 104.0 128.1 108.2 118.8 116.7 110.3 113.5 125.7 107.0 110.7 115.7 123.1 126.5 110.9 121.2 116.1 113.4 119.1 112.5 122.5 106.8 112.7 116.7 113.7 116.0 125.1 112.3 108.4 122.2 118.4 123.1 121.0 114.2 110.8 110.3 124.1 117.5 114.4 121.8 114.5 118.1 106.3 116.6 124.4 101.2 115.6 118.0 125.3 110.3 110.2 117.0 109.0 121.2 115.3 129.5 120.9 114.9 109.2 113.0 117.8 120.1 112.0 111.4 116.8 114.0 121.0 112.3 111.3 114.1 116.0 118.5 108.7 113.2 116.4 117.2 110.8 116.7 107.5 126.8 112.5
4.同组数据的G小于算术均数。
第二节 集中趋势的描述
三、中位数和百分位数 (median and percentile) 1.中位数 定义:是指把一组数据从小到大按顺序排列, 位置居中的那个数值。记为M。 适用条件:资料呈明显的偏态分布,资料一端或 两端无确定值,资料的分布不清楚。 2.百分位数 定义:一组数据从小到大按顺序排列,分为100等 份,第x位置上的点称第x个百分位数
lg 640) / 8] lg 1 (1.752575 56.57 )
G lg 1 [(lg5 lg10 lg 20 lg 40 lg 80 lg160 lg 320
计算方法 2. 加权法
f lg xi f1 lg x1 f 2 lg x2 f n lg xn 1 i G lg ( ) lg ( ) f1 f 2 f n fi
计算方法 2.频数表法
i 中位数: M L (n 50% f L ) fM
i 百分位数:Px L (n x% f L ) fx
x% (1-x)%
Px
表3-5某市60名正常成年女子总胆固醇(mmol/L)测定结果
组段 (1) 2.5~ 2.8~ 3.1~ 3.4~ 3.7~ 4.0~ 4.3~ 4.6~ 4.9~ 5.2~ 5.5~5.8 合计 频数f (2) 2 5 8 12 11 6 5 4 4 2 1 60 累计频数 (3) 2 7 15 27 38 44 49 53 57 59 60 - 累计频率 (%) (4) 3.33 11.67 25.00 45.00 63.33 73.33 81.67 88.33 95.00 98.33 100.00 -
计算方法 1.中位数的直接算法
M xn 1
1 M [ xn x n ] 2 2 ( 2 1)
2
n为奇数 n为偶数
例3-7 某医生观察5名小细胞未分化型肺癌患者, 其生存期(月)为:4,18,21,23,41,求中 位数。 M=21(月)
百分位数的直接算法(补充)
n个数据从小到大排列,第x个百分位数的 计算公式:
其中xi为每组组中值,fi为每组的频数 。
表3-2 120名6岁女童身高频数分布
身高 组中值xi 频数fi
fixi 100.5 310.5 852.0 1642.5 2250.0 2772.0 2251.5 1822.5 1245.0 510.0 130.5 13887.0
f i xi2
99~ 102~ 105~ 108~ 111~ 114~ 117~ 120~ 123~ 126 合计
第 三 章 定量资料的统计描述
卫生统计学教研室

定量资料(quantitative data):计量资料、 数值变量资料,它是通过测量每个观察 单位某项指标值大小得到的资料,一般 有度量衡单位。
定 量 资 料
Байду номын сангаас
离散型资料(discrete data)
变量取值可以一一列举,为不连续的资料
连续型资料(continuous data)
表3-2 某市120名6岁女孩身高频数分布
身高 99~ 102~ 105~ 正 108~ 正正正 111~ 正正正正 114~ 正正正正 117~ 正正正 120~ 正正正 123~ 正正 126 129~132 合计 一 划记 频数 频率( % ) 累积频数 累积频率( % ) 1 3 8 15 20 24 19 15 10 4 1 120 0.83 2.50 6.67 12.50 16.67 20.00 15.83 12.50 8.33 3.33 0.83 100.00 1 4 12 27 47 71 90 105 115 119 120 0.83 3.33 10.00 22.50 39.17 59.17 75.00 87.50 95.83 99.17 100.00
离散趋势(tendency of dispersion)
随着身高值的逐渐变大或变小,人数越 来越少,向两端分散。
频数分布的类型
1.正态分布或对称分布。
2.偏态分布
正偏态分布 负偏态分布
正偏态分布: 集中位置偏向于左侧,尾部偏右 负偏态分布:集中位置偏向于右侧,尾部偏左
25
20
Frequency
15
计算方法
1.直接法 公式 G n x1 x2 xn
lg xi lg x1 lg x2 lg xn 1 ) lg ( ) = lg ( n n
1
例3-4 有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640,求平均抗体 效价。
第二节 集中趋势的描述
一、算术均数(arithmetic mean) 定义:它是一组已知性质相同的数值之 和除以数值个数所得到的商。 表示符号:总体均数用希腊字母μ表,样 本均数用 x 表示。 适用条件:是资料正态或近似正态分布。
计算方法 1.直接法
x1 x2 x3 xn i 1 当n<30时,x n n
患者 1 2 3 4 住院天数 1 2 2 2 5 3 6 3 7 4 8 4 9 5 … … 117 118 40 40 119 120 42 45
(1) n=120, 1205%=6, 为整数, P5=1/2[X6+X7]=(3+4)/2=3.5(天) (2) n=120,12099%=118.8, 取整后为118, P99=X[118+1]=42(天)
某年某市120名1岁男童乳牙数的频数分布
频数f (2) 2 4 7 9 14 21 28 24 11 120 频率(%) (3) 1.67 3.33 5.83 7.50 11.67 17.50 23.33 20.00 9.17 100.00 累计频数 (4) 2 6 13 22 36 57 85 109 120 - 累计频率(%) (5) 1.67 5.00 10.83 18.33 30.00 47.50 70.83 90.83 100.00 -
100.5 103.5 106.5 109.5 112.5 115.5 118.5 121.5 124.5 127.5
1 3 8 15 20 24 19 15 10 4 1 120
10100.25 32136.75 90738.00 179853.80 253125.00 320166.00 266802.80 221433.80 155002.50 65025.00 17030.25 1611414.15
计算中位数及P25、P75 P25=3.1+(0.3/8)(60 25%-7)=3.40(mmol/L)
频数分布图
30
身 高 频 数
20
10
相关文档
最新文档