第2讲 计量资料的基本统计分析方法

合集下载

计量的统计分析 PPT

计量的统计分析 PPT

将原始数据采用划记法或计算机汇
总,得到各个组段的观察单位数
(频数),列成频数表。
计量的统计分析
6
表2-2 某地140名正常男子红细胞数的频数表
累计频 数:某 一指定 组段及 前面各 组段的 频数之 和。
累计频数 除以总各频组频数分别 数的比除值以总频数的 称为累比计值称为频率。 频率。各它组频率之和 描述了应累为100%。 计频数频在率描述了各 全体中组所频数在全体 占的比中重所。占的比重。
正偏态分布:长尾向右延伸
0.5
3.5
6.5
9.5 12.5 15.5 18.5 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5 54.5 57.5
计量的统计分析
11
三、频数表的用途
1.作为陈述资料的形式,可代替原始资料,便 于进一步分析 2.便于观察数据的分布类型 3.便于发现资料中某些远离群体的特大或特小 的可疑值 4.当样本含量比较大时,可用各组段的频率作 为概率的估计值
熟悉:百分位数。
计量的统计分析
2
计量资料的统计描述
方法计有量两资类料:(measurement data):对每个
1. 统观计察图对表象的观察指标用定量方法测定 主其要数是值频大数小分所布得表的、资频料数,分一布般图有度量
(直衡方单图位)。
2. 选用适当的统计指标 集中趋势指标、变异程度指标
计量的统计分析
如何有效地组织、整理和表达数据的信息?
计量的统计分析
5
一、频数表 (Frequency Tabl区间内出现的频数。 确定组数k 通常选择在8~15之间
确定组距 确定组段 列表划记

2.计量资料的统计描述

2.计量资料的统计描述

2021/8/3
22
(100X)%
PX
百分位数示意图
2021/8/3
23
PXLXifX X(nX%fL)
Lx Px所在组段的下限
ix Px所在组段的组距
fx Px所在组段的频数
fL 该组段之前的累计频数
n 总例数
2021/8/3
24
百分位数例
利用上表,求P50,P25,P75
P 5 01 43 4 0 7 1 2 5% 0 0 3 5 1.4 9(c 2 4)m
2021/8/3
35
4.标准差 standard deviation
符号: σ—总体标准差
S —样本标准差
计算: (x)2
N
S (xx)2
n1
意义:标准差越大,观察值的变异就越大
,数据越分散,均数的代表性越差;反之
,资料越集中,均数的代表性越好。
适用条件:对称分布、正态分布资料
2021/8/3
算术均数 几何均数 中位数
2021/8/3
12
第二节 描述集中趋势的指标
算数均数(mean) 简称均数 适用条件:对称分布,尤其是正态分布或近似正态分布
x 表示:总体均数用μ表示;样本均数用 表示
意义:描述一组同质资料的平均水平。 计算方法:
直接法 间接法(频数表法)
2021/8/3
13
1、 算 术 均 数 ( arithm etic m ean)
2021/8/3
32
2、四分位数间距 quantile range 符号: Q(中间一半观察值的极差) 计算 :Q=P75-P25
下四分位数: QL P25
上四分位数: QU P75

计量资料的统计描述

计量资料的统计描述

分 层 抽 样
整 群 抽 样

7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可计算的,其样本统计量是参数估计 和计算误差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主观、有目的、为方便进行抽样; • 不能计算抽样误差,或一般按简单随机抽样计算误差。配额抽样、滚雪球/识别
计量资料的统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。 是统计学存在的基础。
M
X
8+X
2
8+1 2
2 (X 4+X5)2 (14+15)2 14.5(天)
42
百分位数
• 将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。 中位数是百分位的特殊形式P50 。同样还有四分位数、十分位数等。
TG
31
第二节 计量资料的常用统计指标
一、集中趋势的描述-平均值
平均值是一组数据典型或有代表性的值。由于这样典型 的值趋向于落在根据数据大小排列的数据的波峰位置, 因此可以用于度量集中位置。
常用几种平均值:
1.算术均数 2.几何均数 3.中位数
32
1.算术均数(均数)
• 意义:一组性质相同的观察值在数量上的平均水平。 • 表示: (总体) X(样本) • 计算:直接法、频数表法 • 特征: ∑(X- X)=0 • 注意:应用于正态分布或近似正态分布,才能求均数,

计量资料的统计学方法

计量资料的统计学方法

计量资料的统计学方法
首先,计量资料的统计学方法包括描述统计和推断统计。

描述
统计用于总结和展示数据的特征,包括均值、中位数、标准差、频
数分布等。

这些统计量可以帮助我们了解数据的集中趋势、离散程
度和分布形态。

推断统计则用于从样本数据中推断总体的特征,包
括参数估计和假设检验。

参数估计可以帮助我们对总体参数(如均值、比例)进行估计,而假设检验则可以帮助我们对总体参数的假
设进行检验。

其次,计量资料的统计学方法还包括回归分析和方差分析。


归分析用于研究自变量和因变量之间的关系,可以帮助我们预测因
变量的取值。

常见的回归分析包括简单线性回归和多元线性回归。

方差分析则用于比较多个总体均值是否相等,可以帮助我们判断不
同组别之间的差异是否显著。

此外,计量资料的统计学方法还包括相关分析和时间序列分析。

相关分析用于研究两个变量之间的相关关系,可以帮助我们了解它
们之间的相关性强弱和方向。

时间序列分析则用于研究时间序列数
据的特征和规律,包括趋势、季节性和周期性等,可以帮助我们进
行未来的预测和规划。

综上所述,计量资料的统计学方法涵盖了描述统计、推断统计、回归分析、方差分析、相关分析和时间序列分析等多个方面,可以
帮助我们全面深入地理解和解释数据的特征和规律。

在实际应用中,研究者可以根据具体问题的特点和要求选择合适的统计方法进行分
析和解释。

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

第2讲 计量资料的基本统计分析方法

第2讲 计量资料的基本统计分析方法
118
149 138 156
148
165 148 149
158
160 139 135
163
119 168 148
138
174 160 138
156
137 120 133
134
152 151 150
140
154 121 132
152
140 146 153
132
122 135 140
148
133 145 145 146 123 140
常用指标:算术均数、中位数等。
(一)算术均数(mean)
1. 定义:简称均数,符号为 数记为μ)。定义公式为
x (相应的总体均
x x n
2.均数的应用与特点
算术均数适合于对称分布的资料 ,如分布均匀的 小样本数据或近似正态分布的大样本数据; 算术均数容易受极端值的影响。
(二)中位数(median)
中位数将变量值一分为二,一半比它小,一半比它大。符号为
将一组变量值按大小顺序排列,位次居中的变量值即为中位数。
M、 M d 。
1. 中位数的计算
x( n 1 ) / 2 Md xn / 2 x1 n / 2 2 n为奇数 n为偶数
2. 中位数的应用与特点
中位数将频数等分为二,所以中位数适合各种类型 的资料,尤其适合于大样本偏态分布的资料。 由于中位数总处在居中的位置上,因而它不受特大 或特小值的影响。
3.16228 4.74342 2.91548
丙组 3 乙组 2 甲组 1
0 20 24 28 32 36 40
(三)方差与标准差的应用
方差或标准差属同类变异指标,它们多用来描 述均匀分布或近似正态分布的资料,大、小样本均 可,其中以标准差的应用最广,通常与均数结合使 用。比如在许多医学研究报告中常用

2计量资料统计分析

2计量资料统计分析

(
xxi2
( x)2
xi )2 n
x2 (
x)2 n
n 1
n 1n 1
n 1
式中n-1称为自由度
(四)标准差
1、直接法:
S (x x)2
n 1

x2

( x)2
n
n 1
例:三组同年龄、同性别儿童的体重(kg) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
5
3.85
125
96.15
156~
3
2.31
128
98.46
160~164
2
1.54
130
100.00
合计
130 100.00


二、集中趋势指标
包括:算术均数、几何均数、中位数 意义:
1. 反映一组同质变量值的平均 水平或分布的集中位置。
2. 作为一组资料的代表值,便 于组间的分析比较。
(一)算术均数
G

lg
1
lg
10

lg
100

lg
1000 5
lg
10000

lg
100000

lg 13 1000
5个人的平均血清抗体效价为1:1000
2、加权法
G

lg
1
f lg f
x


lg 1
f1
lg
x1
f2 f1
lg x2 f2 fk
fk
lg
xk

3、几何均数的应用

计量资料的统计分析

计量资料的统计分析

4.25
4.5 〜
4.75
5.0 〜
5.25
5.5 〜
5.75
6.0 〜
6.25
6.5 〜
6.75
7.0 〜
7.25
合计
f
fx
3 9.75
6 22.50
20 85.00
22 104.50
31 162.75
26 149.50
18 112.50
5 33.75
1 7.25
132 687.50
fx2 31.69 84.38 361.25 496.38 854.44 859.62 703.12 227.81 52.56 3671.25
本例可将各抗体效价的倒数代入公式,求平均效价数的倒数。
G lg 1 lg10 lg 20 lg 40 lg 80 lg160 lg 11.6522 45
6
该6份血清的平均抗体效价为1:45。
3、中位数
M ,P50 (注意与百分位数的关系) 一组按大小排列的资料中处于中间位置的数
值. 适用于任何分布的计量资料,但较粗糙。
=57.8(小时)
p 95
48
12 12
164
95 100
146
情景资料
1、如果1、2班的平均身高均为160cm,是否 可以认为二个班的身高情况没有差别?
2、可以用哪些指标反映身高的变异程度?哪 个最合适?为什么?
3、计算本班身高的变异程度? 4、举例说明,什么情况下需要计算变异系数?
描述本班身高变异程度时是否需要用该指标?
x f1xx f 2 x2 f k xk fx
f1 f2 fk
f
=687.50/132=5.21mmol/L
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

135
127 134 141 121 143 139
146
132 143 150 143 140 140
158
155 128 152 130 140 125
137
134 147 125 141 147 147
153
138 137 147 150 130 129
142
139 142 144 128 141 149
定义:将观察单位按某种属性或类别分组计数, 分组汇总得到各组观察单位数称为计数资料。 特点:计数排列是无序分组,同组各观察单位之
间没有量的差别,但各组间有质的不同,各组互不
相容。
二项分类和多项分类
各战期战士破伤风病死率比较
战期 第一战期 第二战期 第三战期 合计 死亡人数 28 7 12 47 存活人数 14 16 10 40 合计 42 23 22 87
24
三组均数 均为30
第二讲 计量资料的基本统计分析方法
Quantitative data Statistical Analysis
胆管癌患者部分指标
编号 性别 年龄(岁) 部位 分化程度 分期 肝转移 (1) (2) (3) (4) (5) (6) (7) 1 2 3 4 5 … 男 女 女 女 男 … 61 58 63 71 59 … 上 中 上 下 上 … 低分化 高分化 高分化 中分化 高分化 … Ⅰ Ⅱ Ⅳ Ⅱ Ⅲ … 阳性 阴性 阴性 阳性 阴性 … PCNA 指数 (8) 52 89 93 78 85 … 生存时间(月) (9) 14 20 19 5 35 …
中位数将变量值一分为二,一半比它小,一半比它大。符号为
将一组变量值按大小顺序排列,位次居中的变量值即为中位数。
M、 M d 。
1. 中位数的计算
x( n 1 ) / 2 Md xn / 2 x1 n / 2 2 n为奇数 n为偶数
2. 中位数的应用与特点
中位数将频数等分为二,所以中位数适合各种类型 的资料,尤其适合于大样本偏态分布的资料。 由于中位数总处在居中的位置上,因而它不受特大 或特小值的影响。
常用指标:算术均数、中位数等。
(一)算术均数(mean)
1. 定义:简称均数,符号为 数记为μ)。定义公式为
x (相应的总体均
x x n
2.均数的应用与特点
算术均数适合于对称分布的资料 ,如分布均匀的 小样本数据或近似正态分布的大样本数据; 算术均数容易受极端值的影响。
(二)中位数(median)
3.等级资料(或半定量资料,有序分类变量)
ranked data,semi-quantitative data, ordinal category data

定义:将观察单位按某个指标量的大小分成等级或
某种属性的不同程度分成等级后分组计数,分类汇总各
组的观察单位数称为等级资料。
特点:等级是有序分组。同计数资料的区别是:属
140
154 121 132
152
140 146 153
132
122 135 140
148
133 145 145 146 123 140
135
127 134 141 121 143 139
146
132 143 150 143 140 140
158
155 128 152 130 140 125
137
134 147 125 141 147 147
计量资料的统计描述 Statistical Description
某市110名健康男性工人的血红蛋白量(g/L)
118
149 138 156
148
165 148 149
158
160 139 135
163
119 168 148
138
174 160 138
156
137 120 133
134
152 151 150
统计资料的分类
1.计量资料(或定量变量) measurment data ,quantitative data,
定义:测定每个观察单位的某项指标量的大小, 所得的资料称为计量资料。其变量值是定量的,一 般带有度量衡或其它单位。 特点:每个观察单位的观察值之间有量的区别。
某市110名健康男性工人的血红蛋白量(g/L)
变异指标
变异指标——又称离散指标,用以描述一组计量 资料各观察值之间参差不齐的程度。
变异指标越大,观察值之间差异愈大,说明平均
数的代表性就越差;反之亦然。
三组同性别、同年龄儿童体重
甲组 乙组 26 24 28 27 30 30 32 33 34 36
丙组
丙组 3
乙组 2 甲组 1
26
29
30
31
153
138 137 147 150 130 129
142
139 142 144 128 141 149
155
131 119 131 142 126 142
114
142 139 162 150 151 154
147
135 131 138 107 149 151
平均数指标
平均数(average) 是描述一群同质变量值集中位置的特征值, 用以说明同类现象或事物数量的中等水平(集中趋势)。
118
149 138 156
148
165 148 149
158
160 139 135
163
119 168 148
138
174 160 138
156
137 120 133
134
152 151 150
140
154 121 132
152
140 146 153
132
122 135 140
148
133 145 145 146 123 140
155
131 119 131 142 126 142
114
142 139 162 150 151 154
147
135 131 138 107 149 151
2.计数资料(或定性变量,无序分 类变量)
enumeration data, qualitative data, unordered category data
性的分组有程度的差别,各组按一定顺序排列;与计量
资料的区别是:每个观察单位未确切定量,所以又称为 半定量资料。
ቤተ መጻሕፍቲ ባይዱ
某地居民体内核黄素营养状况调查结果
季节 缺乏 夏季 冬季 5 11
营养状况 不足 7 9 适宜 8 2 合计 20 22
*核黄素营养状况评价标准:缺乏为<400μg,不足为 400~1000μg,适宜为>1000μg。
相关文档
最新文档