第二章统计数据的描述方案
医学统计学-第二章 统计描述

1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
【统计学】04 第二章 定量资料的统计描述

频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X
2h第二章 定量资料的统计描述

频数与频数分布
对称分布:频数最多的组段在中央,图2-2 正偏峰分布:峰向左侧偏移的分布,右侧的 组段数多于左侧,为右偏峰分布。图2-3 负偏峰分布:峰向右侧偏移的分布,左侧的 组段数多于右侧,称为左偏峰分布。 图21
定量变量的特征数
集中趋势统计指标 对于连续型定量变量,描述集中趋势常 用的统计量为算术均数、几何均数和中位 数。 算术均数:适合描述对称分布资料的集中位 置(也称为平均水平)。其计算公式为
频数与频数分布
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
统计学 第2章 统计数据的描述

第2章统计数据的描述练习:2.1为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。
服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。
调查结果如下:B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB ACDE A B D D CA DBC C A ED C BC B C ED B C C B C(1) 指出上面的数据属于什么类型;(2)用Excel制作一张频数分布表;(3) 绘制一张条形图,反映评价等级的分布。
2.2某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元):152 124 129 116 100 103 92 95 127 104105 119 114 115 87 103 118 142 135 125117 108 105 110 107 137 120 136 117 10897 88 123 115 119 138 112 146 113 126(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率;(2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业,105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
2.3某百货公司连续40天的商品销售额如下(单位:万元):41 25 29 47 38 34 30 38 43 4046 36 45 37 37 36 45 43 33 4435 28 46 34 30 37 44 26 38 4442 36 37 37 49 39 42 32 36 35根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
生物统计第二章资料的整理与描述

大样本与小样本; 随机样本(random sample);
非随机样本(non-random sample)。
总体与样本的关系
由样本推断总体虽然有很大可靠 性,也有一定错误率。俗语说“不 可不信,不可全信”,这是我们对 待统计推断的正确态度。
2、参数与统计数 用总体的全体观察值计算的、描述总 体的特征数称为参数(parameter)。
玉米的穗行数等
上一张 下一张 主 页 退 出
(二)质量性状资料
质量性状是指只能观察而不能测量的性状。
如花药、种子、果实、叶片的颜色、籽粒的
饱满度、芒的有无等。 质量性状本身不能用数值表示,要获得这 类性状的资料,须对其观察结果作数量化
处理。数量化方法可分为以下两种:
统计次数法 评分法
上一张 下一张 主
页 退
出
1、统计次数法
在一定的总体或样本内,根据某一质量性状的
类别统计其次数,以次数作为质量性状的数据。
【例如】红花豌豆与白花豌豆的 【例如】 玉米果穗 杂交试验,统计F2不同花色植株, 上甜粒与 在1000个F2植株中,红花266株、 非甜粒的 分离比率。 紫花494株、白花240株。 这种利用统计次数法对质量性状 数量化得来的资料又叫次数资料。
这一条件的约束,能自由变动的
离均差的个数是 n-1 。当 n-1 个离均差确定 后,第n个离均差也就随之而定,不能再任 意变动。
【例】有5个观察值3、4、6、8、9,其平均数6。
5个察值的离均差为-3,-2,0,2,3,满足:
(x x) 0
一般,在计算离均差平方和时,若约束条 件为k个,则其自由度dƒ=n-k。
如:总体平均数 ---- μ
医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
第二章 数值变量资料的统计描述

频数分布的类型
频数分布分为对称分布和偏态分布两种类型。 频数分布分为对称分布和偏态分布两种类型。 对称分布是指集中位置在正中, 对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如上表所示。 数分布大体对称,如上表所示。若将其绘制 成频数分布直方图,则更清楚。 成频数分布直方图,则更清楚。 直方图是以x 本例为体重) 为横坐标 , 直方图是以 x( 本例为体重 ) 为横坐标, 频 数或百分数为纵坐标, 数或百分数为纵坐标,用矩形面积大小表示 频数多少。 频数多少。
某地150名12岁男童体重频数分布图 名 岁男童体重频数分布图 某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重(kg)
频数分布的类型
偏态分布指集中位置偏向一侧, 偏态分布指集中位置偏向一侧 , 频数分布 不对称。 不对称。 一些以儿童为主的传染病, 一些以儿童为主的传染病 , 患者的年龄分 布 , 集中位置偏于年龄小的一侧, 频数尾 集中位置偏于年龄小的一侧 , 部向右侧延伸, 称为正偏态 ( 部向右侧延伸 , 称为正偏态( 峰 ) 分布 , 分布, 如图
一、频数分布表(frequency table)的编制 频数分布表( table)
某地儿研所测得该地150名12岁健康男童体重 某地儿研所测得该地150名12岁健康男童体重 kg)原始数据如下,试编制频数表。 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
《医学统计学》第二章定量数据的统计描述

累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
按性别分组 人数(万人) 比重(%)
男
63 629
50.98
女
61 181
49.02
合计
124 810
100
• 按数量标志分组时,可先将数据进行排序, 然后再根据需要进行分组。按数量标志分 组的方法很多,主要有两种:一是单变量 值分组,二是组距分组。
单变量值分组
2
2
中位数 960 1080 1020 2
分组数据中位数的计算
• 单值分组:先根据公式N/2确定中位数的位置,
再根据累计频数确定其所在组,对应的变量值即 为中位数。
就形成了一张频数分布表。我们把全部数据
按其分组标志在各组内的分布状况称为频数
分布或次数分布,分布在各组内的数据个数
称为频数或次数,各组频数与全部频数之和
的比值称为频率或比重。对数据进行分组的 过程也就是频数分布的形成过程。
按品质标志分组的同时计算出各组的频数或频率,就形成我 们所需要的频数分布表。
均;基尼系数在0.2至0.4之间是比较适当的,即 一个社会既有效率又没有造成极大的分配不公; 基尼系数在0.4被认为是收入分配不公平的警戒 线,超过了0.4应该采取措施缩小这一差距。
A B
2.2 分布集中趋势的测度
一、众数 二、中位数 三、四分位数 四、均值 五、几何均值 六、众数、中位数和均值的比较
(折线图的绘制)
折折线线图图与与直直方方图图
12
下下的的面面积积相相等等!!
8
4
0 80
90
100
110
120
130
某某车车间间工工人人周周加加工工零零件件折折线线图图
次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几几种种常常见见的的频频数数分分布布
U型分布
2.1.5洛伦茨曲线与基尼系数
• 在对统计数据进行整理时,首先需要进行审核,以保证数据 的质量,为进一步整理与分析打下基础。从不同渠道取得的 统计数据,在审核的内容与方法上都有所不同。对于通过直 接调查取得的原始数据应主要从完整性和准确性两个方面去 审核。完整性审核主要是检查应调查的单位或个体是否有遗 漏,所有的调查项目或指标是否填 写齐全等。准确性审核主 要包括两个方面,一是检查数据资料是否真实地反映了客观 实际情况,内容是否符合实际;二是检查数据是否有错误, 计算是否正确等。审核数据准确性的方法主要有逻辑检查 数 据的审核和计算检查 。
合计
人数 3 7 13 5 2 30
2.1.4次数分配直方图
Excel
直方图
(histogram)
1. 用矩形的宽度和高度来表示频数分布的图
形,实际上是用矩形的面积来表示各组的
频数分布 2. 在直角坐标中,用横轴表示数据分组,纵
轴表示频数或频率,各组与相应的频数就 形成了一个矩形,即直方图 3. 直方图下的总面积等于1
按笔画则有笔多少的升序降序之分。交替运用不同 方式排序在汉字型数据的检错纠错过程中十分有用, 应予重视 。
2.1.2统计数据的分组
• 统计分组是数据整理中的一项重要工作,它 是根据统计研究的需要,将数据按照某种特 征或标准分成不同的组别。分组时所依据的 特征或标准称为统计分组标志,它有品质标 志和数量标志两种。
50%
Me
2. 不受极端值的影响
50%
3. 主要用于顺序数据,也可用数值型数据,但不能 用于分类数据
4. 各变量值与中位数的离差绝对值之和最小,即 n xi M e min i1
中位数
(位置的确定)
原始数据:
数据个数N为奇数时 中位数位置 N 1 2
数据个数N为偶数时 中位数位置在N 和 N 1之间
洛伦茨曲线
1. 20 世 纪 初 美 国 经 济 学 家 、 统 计 学 家 洛 伦茨 (M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成
2. 描述收入和财富分配性质
的曲线,分析该国家或地区累积
分配的平均程度
的 收
入
百
分
比
绝对公平线
A B
累积的人口百分比
22
分组数据:
中位数位置 N 2
数值型数据的中位数
(9个数据的算例)
【例】
原始数据: 排 序:
位 置:
9个家庭的人均月收入数据
1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
12 3 4 5 6 7 8 9
• (二)数据的排序
• 数据排序是按一定顺序将数据排列,以便于研究者 通过浏览数据发现一些明显的特征趋势或解决问题 的线索,除此之外,排序还有助于对数据检查纠错, 以及为重新归类分组等提供依据。在某些场合,排 序本身就是分析的目的之一。
• 排序可借助于计算机很容易地完成。对于数字型数 据排序只有两种:递增和递减。市场调查中的数据 许多是属于定性的,对于字母型数据排序也有升序 降序之分,但习惯上升序用得多些,因升序与字母 的自然顺序相同。汉字型数据的排序方式 最多, 按拼音方式排列与字母型数据排序完全一样, 而
众数
众数
(mode)
1. 一组数据中出现次数最多的变量值 2. 适合于数据量较多时使用 3. 不受极端值的影响 4. 一组数据可能没有众数或有几个众数 5. 主要用于分类数据,也可用于顺序数据和
数值型数据
无众数 原始数据:
众数
(不惟一性)
10 5 9 12 6 8
一个众数 原始数据:
6 59 8 5 5
• 数据筛选
• 对审核过程中发现的错误,应尽可能予以纠 正,在调查结束后,当对数据中发现的错误 不能予以纠正,或者有些数据不符合调查的 要求而又无法弥补时,就需要对数据进行筛 选。数据筛选包括两方面内容:一是将某些 不符合要求的数据或有明显错误的数据予以 剔出;二是将符合特定条件的数据筛选出来, 而不符合特定条件的数据予以剔出。数据的 筛选对通过市场调查取得的数据十分必要。
多于一个众数 原始数据: 25 28 28 36 42 42
根据单变量数列众数的确定
某班学生按年龄分组
按年龄分组(岁) 17 18 19众数 20 21 合计
人数(人) 6 14 18频数最大 9 3 50
根据组距数列确定众数
i
fi
按零件加工数分组
人数
80-90
3
90-100
7
100-110
13
• 单变量值分组是把每一个变量值作为一组, 这种分组方法通常只适合于离散变量,且 变量值较少的情况下使用。在数据较多的 情况下,单变量值分组由于组数较多而不 便于观察数据分布的特征和规律,而且对 于连续变量或变量值较多的情况,可采用 组距分组。
组距分组
(要点)
1. 它是将全部变量值依次划分为
若干个区间,并将这一区间的 ~
位置 n 1 9 1 5 22
中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9 10
位置 n 1 10 1 5.5
• 品质标志是说明事物的性质和属性特征的, 它不能用数值来表现。数量标志是说明事物 数量特征的,它可以具体表现为数值。
• 将统计数据按分组标志进行分组的过程,就 是次数分配形成的过程。次数分配就是观测 值按其分组标志分配在各组内的次数。
2.1.3次数分配
• 按某种标志对数据进行分组后,再计算出所 有类别或数据在各组中出现的次数或频数,
变量值作为一组。 2. 适合于连续变量 3. 适合于变量值较多的情况 4. 需要遵循“不重不漏”的原则
~ ~ ~
5. 可采用等距分组,也可采用不 ~
等距分组
组距分组
(步骤)
பைடு நூலகம்
1. 确定组数:组数的确定应以能够显示数据
的分布特征和规律为目的
k
1
log1N0 log120
2. 确定组距:组距 (class width)是一个组的上限 与下限之差,可根据全部数据的最大值和最小
基尼系数
1. 20世纪初意大利经济学家基尼(G. Gini)根据洛伦 茨曲线给出了衡量收入分配平均程度的指标
基尼系数 A
A B
1. A表示实际收入曲线与绝对平均线之间的面积 2. B表示实际收入曲线与绝对不平均线之间的面积 3. 如果A=0,则基尼系数=0,表示收入绝对平均 4. 如果B=0,则基尼系数=1,表示收入绝对不平均 5. 基尼系数在0 和1之间取值 6. 一 般认 为,基尼 系数若小于 0.2,表明 分配平
110-120
5
120-130
2
合计
30
根据组距数列确定众数
• 下限公式:
M0
L
(
f
f f1 f1) ( f
i f 1 )
• 上限公式:
M0
U
f
f f1
f1 f
i
f1
组距分组众数的计算
下限公式:
M0
L
f
f f1
f1 f
值及所分的组数来确定,即
组距=( 最大值 - 最小值)÷ 组数
3. 统计出各组的频数并整理成频数分布表