计量资料的统计描述-

合集下载

计量资料的统计描述

计量资料的统计描述
抗体滴度 人数(f) 滴度倒数(x) lgx flgx
1︰ 2 1︰4 1︰8 1︰16 1︰32 1︰64 1︰128
2 11 18 36 22 8 3
2 4 8 16 32 64 128
0.3010 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072
0.6020 6.6231 16.2558 43.3476 33.1122 14.4496 6.3216
含义 离散趋势是指计量资料所有观察值偏离中
心位置的程度,反映一组同质变量值相互之间参
差不齐的程度,即离散度或变异度。
常用指标 全距、方差、标准差、变异系数。
1、全距(range, R)
又称极差,是一组变量值中最大值与最小值的差。
优点 缺点
计算简单 仅考虑了资料的最大值和最小值,不能反映
组内其它数据的变异程度。
是其它许多统计方法的理论基础
标准正态分布
(standard normal distribution)
正态分布是一个分布簇,对应于不同参数其位置和形状均 不相同,为应用方便,可进行变量转换:
u
X

式中的u值称为标准正态变量,其频数曲线图即为标准正
态分布( u分布),一般的正态分布N(μ,σ2)即转化为标准正态 分布N(0,1)。其面积分布可直接查表。
是一个度量相对离散程度的指标。
例1: 身高 体重
CV = 4.95/166.06× 100% = 2.98% CV = 4.96/53.72 × 100% = 9.23%
例2:新生儿 CV = 3/50 × 100%= 6%
几种重要的连续性随机变量分布:
正态分布 标准正态分布X75%统

计量资料的统计描述

计量资料的统计描述

中位数(M)和百分位数(P)
中位数(median, M)是将一组观察值从小到大 按顺序排列,位次居中的数值对应的观察值就是 中位数。因而全部观察值中,大于和小于中位数 的观察值的个数相等。 百分位数(percentile,P)是指把一组资料的全 部观测值分为两部分,理论上讲,有x%的观测值 比Px小,有(100-x)%的观测值比Px大。中位数 是特定的百分位数,即P50,它是表示一组资料集 中位置的指标。
计算器功能简介
MODE或D·R·G:模式转换
DEG:degree 角度 RAD:radian 弧度 GRA:gradient 梯度
INV、 SHIFT或2nd F:第二功能键 SD 或 STAT:统计分析功能 x ,n,Σx,Σx2, σn (σX , σ),σn-1(sX , s)。 X 、 data 或DT:数据储存
标准差的应用
标准差是反映数据变异程度的指标,其大 小受每一个观察值的影响。 常用于描述对称分布,尤其是正态分布或 近似正态分布资料的离散程度。 随着样本量增大,标准差逐渐趋于稳定。
变异系数(CV)
CV =s/ x ×100% 它是反映相对变异度的指标。 变异系数常用于:
测量单位不同的几组资料变异度的比较; 均数相差悬殊的几组资料变异度的比较。
H = R 1 + 3 . 322 lg N
第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限;最后一个组段应该包 括最大值,并且封口,但最后一个组段的上限不 能等于最大值。
频数表的编制
3.列表划记,统计各组段频数。 4.计算频率与累计频率
频数分布的两个特征
体重虽有轻有重,但都向35~组段集中,数据大多 数集中在32~38组段,共83人,占总人数的55%, 这种趋势称为集中趋势 集中趋势。 集中趋势 另一方面,随体重逐渐变大或变小,仍有小部分变 量值存在,称这种特征为离散趋势 离散趋势。 离散趋势 集中趋势和离散趋势是频数分布的两个重要特征。

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
11111,11111,11111 中位数是50%位的数值,其为百分位数的特殊形式。
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不

2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S

计量资料的统计描述

计量资料的统计描述

第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。

(2)频数分布的类型。

(3)频数分布表的用途。

2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。

算术均数、几何均数、中位数。

3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。

极差、四分位数间距、方差、标准差、变异系数。

(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。

二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。

常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。

(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。

对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。

如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。

对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。

制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。

确定组段和组距。

每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。

3.写出组段,逐一划记。

频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。

(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。

1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。

第二章 计量资料的统计描述

第二章 计量资料的统计描述
全距(R ):即极差,最大值与最小值之差。
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2

xi
x2

计量资料的统计描述

计量资料的统计描述
医学参考值范围的制定方法
*
选择适当的百分范围。
正态分布法计算医学参考值范围。 单侧: 双侧:
百分位数法计算医学参考值范围。
百分位数法与正态分布法
*
前者适合任何分布类型的资料,实际中最为常用。后者仅适用于正态分布资料,则结果不稳定。后者的结果比较稳定。
三、频数分布表的用途
*
可代替繁杂的原始资料,便于进一步分析。
01
01
02
03
04
便于观察数据的分布类型。
便于发现资料中某些远离群体的特大或特小的可疑值。
当样本含量较大时,可用各组段的频率作为概率的估计值。
02
03
04
图2-2 115名正常成年女子的血清转氨酶的频数分布 右偏态分布或正偏态分布 图2-3 101名正常人的血清肌红蛋白的频数分布 左偏态分布或负偏态分布
第二节 集中趋势的描述
平 均 数(average)
*
平均数是描述一组观察值集中位置和平均水平的统计指标。常用的平均数包括: 算数均数(mean) 几何均数(geometric mean)
中位数(median)和百分位数(percentile)
算 数 均 数
*
直接法 加权法 均数的应用 适用用于对称分布或偏度不大的资料,能够很好的反映数据的集中位置和平均水平。 算数均数容易受到频数分布尾端极大或极小值的影响。
01
02
03
101名正常成年女子的血清总胆固醇
直接法:
加权法:
几何均数(geometric mean)
观察值间按倍数变化的资料可以计算几何均数(G)以描述其平均水平。
01
计算公式为:
02
加权法为:
03
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A parameter is a numerical quantity that describes some characteristics of a population.
如μ、σ、总体中位数等皆为参数。 大多数时候得不到总体数据 => 参数为未

总体与样本
统计主要问题在于如何透过样本的统计量来推估 或检证总体的参数。
➢ 大多社会学/卫生防疫的指标确定的依据 ➢ 注意时效性、变化性 ➢ 传染病报告制度,地震伤亡等都属于普查
普查的缺点:耗时耗力,成本高;无法搜集较为
深入、详细的信息;普查错误机率大。
抽样研究:从总体中抽取少量的样本,计算 样本统计量来帮我们推估总体的性质。
总体与样本
参数(parameters):总体的统计学特性的数 字表达,包括总体均数、总体方差、总体 标准差
一个完整的统计指标包括指标名称和指标数 值两部分。
➢ 指标名称是指标本质的抽象概括,对总体数量特 征的规定性,它一般反映一定的社会经济范畴; 有时也被当作统计指标;
➢ 指标数值是指标量的规定,它是根据指标的内容 所计算出来的具体数值。应该包括总体范围、时 间、地点、数值及单位等。
统计指标和指标体系 数据(统计指标)的四种计量尺度:
随机事件的概念
随机现象:在基本条件相同的情况下,却 可能出现不同的结果,究竟出现哪一种结 果,随“机遇”而定,带有偶然性。内在 的规律性?如何研究它们?
研究随机现象:进行观察或实验,这些观 察和实验统称为随机试验(Experiment), 把基本条件每实现一次称为进行一次试验 ,试验的结果中所发生的现象叫做事件。 例如:掷一次硬币,是一次随机试验。
描述统计学与推断统计学
描述统计学与推断统计学的关系
➢ 二者是统计学发展的不同阶段:大致以20世纪20年代 小样本分布理论的出现为界
✓ 之前集中在数据的采集和指标的计算上; ✓ 之后推断统计学蓬勃发展,称为主流。
➢ 推断统计学不能代替描述统计学: ✓ 纵有难易之别,绝无(层次)高低之分 ✓ 描述统计是基本的统计方法,是推断统计的基础 ✓ 描述统计学有助于培养对数据的“感觉”(统计 观念)
变异(variation) 同质个体间的差异。来源于一些未加控制或
无法控制的甚至不明原因的因素。是统计学存在的基础。
从本质上说:统计学就是通过对个体变 异的研究,揭示同质事物的本质特征与 规律。
总体与样本
总体---参数(parameter)
根据研究目的确定的研究对象的全体,即性质相同的 所有观察对象的集合;分为有限总体和无限总体。
本例,组距= 24.3/10= 2.43,我们取为 2 cm。
组段:上限、下限
列表划记
身高组段
110~
112~ 114~
116~ 118~ 120~ 122~ 124~ 126~ 128~ 130~ 132~ 134~136
合计
某市1995年110名7岁男童身高的频数分布
频数 频率(%) 累计频数
样本---统计量(statistics)
总体中的部分;研究对象。
总体与样本的关系
统计学解决的问题:正确从样本特征推测总体水平。
抽样:从总体中选择样本的过程。 样本量(sample size):样本所包含的个体数目。
普查 与 抽样
普查(census):全面调查,根据研究目的 确定总体,人口普查,肿瘤普查
分类数据。
(2)定序尺度(Ordinal Scale)
也称顺序尺度 例如健康状况、质量等级 可对等级、大小等排序 未测量出类别之间的准确差值 根据定序尺度得到的数据为顺序数据。
(3)定距尺度(Interval Scale)
也称间隔尺度 例如年份、摄氏温度 数据表现为“数值” 可以进行加减运算 “0”是只是尺度上的一个点,不代表
科学的判断:
➢ 收集数据 :每年发生很多次地震 ➢ 整理数据:分布,指标…… ➢ 分析数据:各年对比,趋势分析…… ➢ 解释数据:得出结论,结论的可靠性……
统计学:从数据到结论(到决策)
统计研究的过程
统计设计
实际问题
收集数据 (取得数据)
整理数据 (处理数据)
解释数据 (结果说明)
分析数据 (研究数据)
81.82 90.91 94.55 97.27 99.09 100.00
频数表的用途
✓ 根据频数表,进而可以绘制频数图。 ✓ 揭示资料的分布特征和分布类型:资料的分
布范围、峰(单峰或多峰)和离散情况。 对于单峰分布资料,
对称分布,其中一种特殊的分布叫做正态分布; 非对称分布,又称偏态分布。
✓ 便于发现可疑值; ✓ 便于进一步计算指标和统计分析处理。
必然事件
不可能 事件
随机事件
随机事件的概念
(1)导体通电时,发热 (2)抛一石块,下落 (3)在常温下,焊锡融化 (4)在标准大气压下且温度
< 0摄氏度时,冰融化 (5)掷一枚硬币,出现正面 (6)某人射击一次,中靶
同质与变异
同质(homogeneity)事物某方面的性质 、影响条件或背景相同或相近。
“不存在” 根据定距尺度得到的数据为间距数据。
(4)定比尺度 (Ratio Scale)
也称比率尺度 例如体重、身高 数据表现为“数值” 可以进行加减、乘除运算 “0”表示“没有”或“不存在” 根据定比尺度得到的数据为比
率数据。
四种计量尺度的比较
四种计量尺度的比较
计量尺度
定类尺度 定序尺度 定距尺度 定比尺度
数学特性
分类( = ,≠ )




排序( < ,> )



间距( + ,- )


比值( × ,÷ )

四种计量尺度的比较
四种尺度所包含的信息量是依次递增的, 级别由低到高。
根据较高层次的计量尺度可以获得较低 层次的计量尺度。
不同的尺度数据对应着不同数据显示方 法和分析方法。
数据的类型
医学统计学
计量资料的统计描述
大理学院 巫秀美
2012年10月18日
Refresh
如何学好《医学统计学》
➢ 学习目标:工具课,学以致用。 ➢ 掌握基本概念 ➢ 统计方法的适用的条件、基本思想 ➢ 能够进行计算分析
如何进行科学的判断?
直观的看,近几年全球的地震活动似乎越来越活 跃。地震的强度和次数仿佛有增加的趋势……
BREAK!
统计数据的描述
集中趋势: 一、众数 二、中位数 三、均值 四、众数、中位数和均值的比较
数据的计量尺度
定类尺度 定序尺度 定距尺度 定比尺度
数据的计量尺度与类型
国籍: 中国 健康状况: 良好 出生年份: 1980
体重:134公斤
定类尺度 精
定序尺度 确
定距尺度

度 定比尺度
(1)定类尺度 (Nominal Scale)
也称分类尺度 例如:性别、民族、职业 数据表现为“类别” 各类之间无等级次序 各类别可以用数字代码表示 根据定类尺度得到的数据为
描述统计与推断统计的关系
反映客观现 象的数据
概率论
(包括分布理论、大数定律 和中心极限定理等)
样本数据
描述统计
总体数据
(统计数据的搜集、整 理、显示和分析等)
推断统计
(利用样本信息和概率 论对总体的数量特征进
行估计和检验等)
总体内在的 数量规律性
统计指标和指标体系
统计指标(指标):说明总体的综合数量特 征的概念和数值。
计量资料的统计描述
Descriptions of Measurement Data
主要内容
1. 频数表 2. 集中趋势 3. 离散趋势 4. 正态分布 5. 医学参考值的制定
频数分布
频数表的编制 编制步骤: 1. 求极差(即全距)R; 2. 确定组数n、组距i,并写出组段; 3. 列表划记。
统计学基本概念
随机事件(random event) v.s. 必然事件 变异(variation) v.s. 同质(homogeneity) 总体(population) v.s. 样本(sample) 抽样研究与抽样误差(sampling error) 参数(parameter) v.s. 统计量(statistics)
累计频率(%)
1
0.91
1
0.91
3
2.73
4
3.64
9
8.18
13
11.82
9
8.18
22
15
13.64
37
18
16.36
55
21
19.09
76
20.00 33.64 50.00 69.09
14
12.73
90
10
9.091004源自3.641043
2.73
107
2
1.82
109
1
0.91
110
110
100.00
统计数据是采用某种计量尺度对事物进行计量的结果。
采用不同的计量尺度
不同类型的统计数据:
定性数据 定量数据
定性数据(品质数据)(Qualitative data):说明的 是事物的品质特征,不能用数值表示。(由定类尺度或 定序尺度计量形成)
定量数据(数量数据)(Quantitative data):说明的 是事物的数量特征,能够用数值表示。(定距尺度或定 比尺度计量形成)
某市1995年110名7岁男童的身高资料 (cm)
114.4 119.2 124.7 125.0 115.0 112.8 120.2 110.2 120.9 120.1 125.5 120.3 122.3 118.2 116.7 121.7 116.8 121.6 115.2 122.0 121.7 118.8 121.8 124.5 121.7 122.7 116.3 124.0 119.0 124.5 121.8 124.9 130.0 123.5 128.1 119.7 126.1 131.3 123.8 114.7 122.2 122.8 128.6 122.0 132.5 122.0 123.5 116.3 126.1 119.2 126.4 118.4 121.0 119.1 116.9 131.1 120.4 115.2 118.0 122.4 114.3 116.9 126.4 114.2 127.2 118.3 127.8 123.0 117.4 123.2 119.9 122.1 120.4 124.8 122.1 114.4 120.5 115.0 122.8 116.8 125.8 120.1 124.8 122.7 119.4 128.2 124.1 127.2 120.0 122.7 118.3 127.1 122.5 116.3 125.1 124.4 112.3 121.3 127.0 113.5 118.8 127.6 125.2 121.5 122.5 129.1 122.6 134.5 118.3 132.8
相关文档
最新文档