2.计量资料(定量资料)的统计描述资料

合集下载

医学统计学复习资料(完整版)

医学统计学复习资料(完整版)

第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。

1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。

2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。

分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。

反映总体特征的指标为参数,常用小写希腊字母表示。

3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。

(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。

4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。

抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。

其根源在于总体中的个体存在变异性。

只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。

统计分析主要是针对抽样误差而言。

5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。

各类资料间可相互转化。

①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。

6.误差:实测值与真实值之差。

可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。

①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。

公卫执业医师-卫生统计学知识点整理

公卫执业医师-卫生统计学知识点整理

①②③④⑤第一章绪论1、统计工作的基本步骤:研究设计-搜集资料-整理资料-分析资料设计是整个研究过程中最关键的一环;研究设计是统计工作的基础和关键。

统计推断包括参数估计和假设检验。

2.计量资料(定量资料):是用定量的方法对每一个观察单位的某项指标进行测定所得的资料。

其变量值是定量的,表现为数值大小,一般具有度量衡单位。

可分为离散型变量(如现有子女数、儿童龋齿数、胎次)和连续型变量(身高、体重、血红蛋白)。

计数资料(定性资料、分类资料):是把观察单位按某种属性(性质)或类别进行分组、清点各组观察单位数所得资料。

各观察数值是定性的,一般无度量衡单位。

各属性之间互不相容(只有“阴、阳”性或···)例:性别、职业、血型。

等级资料:是把观察单位按属性程度或等级顺序分组,清点各组观察单位所得资料。

医学领域的三类资料可以相互转换。

3、同质:是指所研究的观察对象具有某些相同的性质或特征。

变异:是同质个体的某项指标之间的差异,即个体变异或个体差异性。

总体:是根据研究目的确定的同质研究对象的全体(或全部同质观察单位)。

观察单位优先的总体称为有限总体;无法确定数量的总体称为无限总体。

样本:从总体中具有代表性的一部分个体。

抽样误差:由随机抽样造成的样本指标与总体指标之间、样本指标与样本指标之间的差异称为抽样误差。

抽样误差的根源在于个体变异,在抽样研究中是不可避免的。

概率(P):是随机事件发生的可能性大小的数值度量。

P=1的事件称为必然事件;P=0的事件为不可能的事件;0<P<1的事件称为随机事件;P≤0.05的随机事件称为小概率事件。

第二章计量资料的统计描述1、频数表和频数分布图的用途:①揭示计量资料的分布类型;②揭示计量资料分布的重要特征——集中趋势与离散趋势;③便于发现特大或特小的可疑值;④作为陈述资料的形式。

例数大时可以频率估计概率;⑤便于资料的进一步统计分析。

2、集中趋势:①(算数)均数:总体均数μ和样本均数x ;用于计量资料的正态分布或近似正态分布资料②几何均数G:应用于对数正态分布或近似正态分布资料,也可用于呈倍数关系的等比资料。

医学统计学第1-2章(2015)

医学统计学第1-2章(2015)
36
3. 方差(variance , 2 , S2)和标准差 (standard deviation , S)
2 X 2
N
S2
2
XX
n1
总体方差
样 本 方 差
37
4.标准差:
X 2
N
总 体 标 准 差
标准差或方差越大,说明个体差异越大,则均数的 代表性越差。
•应用: 对称分布,尤其是正态分布
7
101-
10
104-
18
107-
25
110-
21
113-
15
116-
15
119-
7
122-125
1
合计
120
19
115名正常成年女子的血清转氨酶 (mmol/L)含量分布
血清转氨酶含量
人数
12-
2
15-
9
18-
14
21-
23
24-
19
27-
14
30-
11
33-
9
36-
7
39-
4
42-45
3
20
第二节 集中趋势的描述——平均数
66.67
7
25
32
21.88
62
40
102
60.78
6
分组 血栓组 正常组 合计
表 3. 9 正常妇女和血栓形成者的血型分布
A型
B型
AB 型 O 型
合计
32
8
10
9
59
51
19
12
70
152
83
27
22

定量资料的统计描述

定量资料的统计描述

中位数
各种分布类型的资料,特别是偏峰分布资料; 分布一端或两端无确切数值的资料; 分布类型不明
百分位数 各种分布类型的资料
离散趋势
指标
应用条件
极差
对资料类型没有要求
四分位数 间距
方差与标 准差
变异系数
各种分布类型的资料,特别是偏峰分布资料
对称分布,特别是正态或近似正态分布 观察指标单位不同时变异程度的比较; 均数相差较大时变异程度的比较
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分 1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
End Thanks
写出组段
输出结果
输出结果
如果只需获得频数分布图,且对组段与组距没有什么特殊要求,可以通过如下操作 来完成。
输出结果
描述性统计指标
集中趋势:描述定量变量的平均水平 离散趋势:描述定量变量的变异情况
集中趋势
指标
应用条件
算术均数 对称分布,特别是正态或近似正态分布
几何均数 对数正态分布 等比数据资料(如抗体滴度资料)
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差

医学统计学学习笔记

医学统计学学习笔记

医学统计学笔记一、绪论及基本概念1. 资料类型①计量资料(定量资料、数值变量资料):连续型、离散型②计数资料(定性资料、无序分类变量、名义变量):二分类、多分类③等级资料(半定量资料、有序分类变量)信息量:计量资料>等级资料>计数资料2.误差类型①过失误差:可避免②系统误差:具有明确的方向性,可避免③随机误差:分为随机测量误差和随机抽样误差,没有固定的大小和方向,不可避免3.核心概念参数:u、σ;固定的常数,总体的统计指标,参数大小客观存在,但往往未知。

统计量:X̅,S,P;样本的统计指标,参数附近波动的随机变量。

概率为参数,频率为统计量。

4.医学统计工作的基本步骤:设计、收集资料、整理资料、分析资料二、计量资料的统计描述1.集中趋势的描述a.算术均数,简称均数(mean):主要适用于对称分布或偏度不大的资料,尤其适合正态分布资料。

不能用于开口型资料。

u(总体均数),X(样本均数)。

b.几何均数(geometric mean,G):适用于经对数转换后呈对称分布。

观察值不能为0 、不能同时有正有负。

同一资料算得的几何均数小于算术均数。

c.中位数(median, M)和百分位数(precentile, Px):适用于各种分布类型资料。

当计量资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。

用频数表法计算百分位数时,组距不一定要相等。

P x=L x+i x(n∗x%−∑f L)f xL x:第x百分位数所在组段的下限i x:第x百分位数所在组段的组距f x:第x百分位数所在组段的频数∑f L:第x百分位数所在组段上一组段累计频数d.调和均数(harmonic mean,H):适用于表达呈极严重的正偏态分布资料的平均水平。

计算方法为求倒数的均值后再取其倒数。

SPSS:在Transform中输入公式。

2.离散(dispersion)趋势的描述a.极差(range,R):也称为全距。

b.四分位数间距(quartile range,Q):即统计图中箱子的高度,常用于偏态资料离散度的描述,多与M 合用。

《医学统计学》第四章定性资料的统计描述

《医学统计学》第四章定性资料的统计描述

1、不要把构成比与率相混淆。即分析时不能以构成 比代率;这是常见的错误。
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年 龄增大而减少。该作者把构成比当作率进行分析,犯了以比代率的错误。
2、使用相对数时分母不宜过小。分母过小时相对数 不稳定。
3、注意资料的可比性;
不同时期、不同地区、不同条件下的资料比较时应注意具有 可比性。
12965.2
46.3

265
660291.4
40.1
说明该地市区非吸烟女性饮酒者的肺癌发病率是
非吸烟女性不饮酒者的1.15倍。
3.比数比
比数比( Odds ratio ,OR) : 常用于流行病学
中病例-对照研究资料,表示病例组和对照组中的 暴露比例与非暴露比例的比值之比,是反映疾病 与暴露之间关联强度的指标。其计算公式为
一般的,两个地方的出生率、死亡率、发病率、不同级别 医院某病的治愈率等不能直接比较。
无可比性的实例:
由表2-7可见,无论有无腋下淋巴结转移,省医院的5年生存 率均高于市医院,但从总生存率看,省医院的5年生存率低于市 医院。这不符合常理。因此,省医院与市医院的总生存率就不能 直接比较(标准化后再比)。
感谢聆听

某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
例4-1 某单位在2009年有3128名职工,该单位 每年对职工进行体检,在这一年新发生高血压 病人12例,则

《医学统计学》第1-2章

《医学统计学》第1-2章
21
常用平均数的意义及其应用场合
平均数
意义
应用场合
均数 平均数量水平
几何均数 平均增减倍数
中位数 位次居中的观 察值水平
应用甚广,最适用于对称分布, 特别是正态分布
①等比资料;②对数正态分布 资料
①偏态资料;②分布不明资料; ③分布一端或两端出现不确定 值
22
1. 均数 (mean):
, X
应用:正态分布或近似正态分布的定量资料。
女 B 14.67 37.8
疗效
显效 有效 有效 无效
男B
16.80
37.6 无效
标识变量
用于数据管理
分析变量-表示试验效应或观察结果大小的
分组变量
变量或指标
反应变量
5
处理 复方哌唑嗪 复方降压片 安慰剂
合计
表 3.8 三种药物治疗高血压的疗效
有效
无效
合计
有效率(%)
35
5
40
87.50
20
10
30
15
定量资料的频数表和频数图(直方图)
表2.2 某市120名5岁女孩 身高频数表
组段(cm)
频数(f)
95-
1
98-
7
101-
10
104-
18
107-
25
110-
21
113-
15
116-
15
119-
7
122-125
1
合计
120
图2.1 某市城区120名5岁女孩身高频数分布
16
1、 频数分布的特征
如何选用正确的统计指标描述一个定量 资料?
14
第一节 频数分布

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018/10/28
8
1. 频数表的编制步骤 列出各组段 第一组段
最后一组段
2018/10/28
9Leabharlann 1. 频数表的编制步骤(3)列表划记
将原始数据一一对 应入每个组段,通 过划“正” 字,来 统计每个组段内的 数据
2018/10/28
10
1. 频数表的编制步骤
(3)列表划记
统计每个组段内的 频数(例数) 频数的合计数等于 样本含量
2018/10/28
24
1.算术均数
(arithmetic mean)
又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母 表示,样本均数用 x 表示 计算方法:
直接法: 频数表法:
应用: 正态分布或近似正态分布资料
2018/10/28
25
从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频 数分布逐渐减少,是为离散趋势。
集中趋势和离散趋势是频数分布的两个重要侧面,从这两 方面就可全面的分析所研究的事物。
2018/10/28
18
4.频数分布的类型
频数分布又可分为对称分布和偏态分布
对称分布:集中位置在正中,左右两侧频数分布
第十一章 资料的描述性分析
第十一章 资料的描述性分析
第一节 第二节 统计图表 计量资料的统计描述方法 计数资料的统计描述方法
2018/10/28
2
第一节 计量资料的统计描述方法
常用的描述定量资料分布规律的统计方法 有两类:
统计图表:频数分布表/图 选用适当的统计指标:
集中趋势指标:均数、中位数 离散趋势指标:极差、标准差
(2)划分组段 确定各组段的上下限:
每个组段的起点称为该组的下限(low limit), 终点称为上 限(upper limit), 上限=下限+组距; 第一组段必须包括最小值,因此其下限取包含最小值、较 为整齐的数值; 例8.1 第一组段下限为 3.60,上限为3.60+0.20=3.80 各组段不能重叠,每一组段均为半开半闭区间,即包括下 限,不包含上限。 例8.1 第一组段为3.60~ 即[3.60,3.80);以此类推。 最后一组段,须包括最大值,且要列出这一组段的下限和 上限,即5.40~5.60, [5.40,5.60]
2018/10/28
3
第一节 数值变量资料的频数分布
频数分布表( frequency distribution table ): 将变量值化分为若干个组段,清点并记录各组段 变量值的个数,称为频数表(frequency
table ) 。
2018/10/28
4
第一节 数值变量资料的频数分布
最小 值
大体对称
偏态分布:集中位置偏向一侧,频数分布不对称
正偏态分布:集中位置偏向年龄小的一侧 负偏态分布:集中位置偏向年龄大的一侧
不同类型的分布,应采用相应的统计分析方 法。
2018/10/28
19
4.频数分布的类型
正态分布 ( normal distribution )
中间高、两边低、左右对称 属于对称分布的一种 许多医学资料都属于这种分布, 例如人体正常的生理生化指标
2018/10/28
11
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 频率
每组的频数 样本含量
2018/10/28
12
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 累计频率 =本组段的频率+上 一组段的累计频率
2018/10/28
13
1. 频数表的编制步骤
2018/10/28
14
负偏态分布
(negative skewed)
2018/10/28
22
5.频数表的用途
频数表可揭示资料的分布特征和分布类型 便于进一步计算统计指标和统计分析处理(第二节) 便于发现某些特大或特小可疑值,便于资料的校对。
2018/10/28
23
一、集中趋势指标
算术均数(arithmetic mean) 几何均数(geometric mean) 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组 变量值的集中位置,代表其平均水平或是集中 位置的特征值。
2.绘制频数分布直方图
绘制频数分布直方图 坐标轴
横坐标:变量值即研究指标,无需从0开始,以单位尺度 划分。 纵坐标:为频数f,必须从0开始(f为每一组段内的人数)
直条
直条的宽度:组距 直条的高度:每一组段的频数
累计
2018/10/28
15
2.绘制频数分布直方图
2018/10/28
1.算术均数
计算方法
直接法:即将所有观察值x1,x2,x3,…,xn直接相加 再除以观察值的个数,写成公式
最 大 值
2018/10/28
5
第一节 数值变量资料的频数分布
1. 频数表的编制步骤 (1)求数据的极差: 极差(range)是全部数
据中的最大值与最小值之差,它描述了数据的变 异幅度。
公式:R=XMax-XMin 例8.1: XMax =5.59
XMin =3.60
R=5.59-3.60=1.99
正态分布
2018/10/28
20
4.频数分布的类型
a.尖峭峰 b.正态峰 c.平阔峰
2018/10/28
21
4.频数分布的类型
正偏态分布:峰偏左,尾部向右侧延伸 如:以儿童为主的传染病发病人数的分布 右偏态
正偏态分布
(positive skewed)
负偏态分布:峰偏右,尾部向左侧延伸 如:以老年人为主的慢性病发病人数的分布 左偏态
16
2.绘制频数分布直方图
2018/10/28
17
3、频数分布的特征 从频数表可以看到频数分布的两个重要的特征
集中趋势(central tendency)
血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居 多,是为集中趋势。
离散趋势(tendency of dispersion)
2018/10/28
6
1. 频数表的编制步骤
(2)划分组段 确定组数: n>100,10~15组;n<100,8~10组 确定组距:
组距可以相等也可以不相等,一般采用等距分组, 组距=极差/组数 例8.1 1.99/10≈2,故组距=2mmol/L
2018/10/28
7
1. 频数表的编制步骤
相关文档
最新文档