第二章统计数据的描述方案

合集下载

医学统计学-第二章统计描述

变异系数（Coefficient of variation,CV）
1. 首先对资料作分布类型的判定； 2. 针对分布类型先用合适的指标描述：
均值、标准差；常记录为 X S
中位数、四分位间距；常录为M（Ql, Qu）
一、集中趋势:用于描述一组计量资料的集中位置，说明这种变量值大小的平均水平（average）表示。
频数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
（三）频数表的用途：
1.揭示频数的分布特征
频数
分布特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
（central tendency)
离散趋势
（tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称分布
频数分布
正偏
非对称分布
负偏
集中部位在中部，两端渐少，左右两侧的
基本对称，为对称（正态）分布。
集中部位偏于较小值一侧(左侧)，较大值方向渐减少，为
正偏态分布。
集中部位偏于较大值一侧(右侧)，较小值方向渐减少，
为负偏态分布。
(2) 定量资料的描述指标
描述指标：集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图（frequency distribution figure）：
根据频数分布表，以变量值为横坐标，频数为纵坐标，绘制的直方图。

【统计学】04 第二章定量资料的统计描述

频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18～35岁健康男性居民血清铁含量(μmmo/L),数据如下。试编制血清铁含量的频率分布表。
首先，分析资料类型？定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式：直接法和频数表法。
（1）直接法公式：
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X

2h第二章定量资料的统计描述

血清铁（μ mol/L）
频数与频数分布
对称分布：频数最多的组段在中央，图2-2 正偏峰分布：峰向左侧偏移的分布，右侧的组段数多于左侧，为右偏峰分布。图2-3 负偏峰分布：峰向右侧偏移的分布，左侧的组段数多于右侧，称为左偏峰分布。图21
定量变量的特征数
集中趋势统计指标对于连续型定量变量，描述集中趋势常用的统计量为算术均数、几何均数和中位数。算术均数：适合描述对称分布资料的集中位置（也称为平均水平）。其计算公式为
频数与频数分布
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52

统计学第2章统计数据的描述

第2章统计数据的描述练习：2.1为评价家电行业售后服务的质量，随机抽取了由100家庭构成的一个样本。

服务质量的等级分别表示为：A.好；B.较好；C.一般；D.差；E.较差。

调查结果如下：B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB ACDE A B D D CA DBC C A ED C BC B C ED B C C B C(1) 指出上面的数据属于什么类型；(2)用Excel制作一张频数分布表；(3) 绘制一张条形图，反映评价等级的分布。

2.2某行业管理局所属40个企业2002年的产品销售收入数据如下（单位：万元）：152 124 129 116 100 103 92 95 127 104105 119 114 115 87 103 118 142 135 125117 108 105 110 107 137 120 136 117 10897 88 123 115 119 138 112 146 113 126(1)根据上面的数据进行适当的分组，编制频数分布表，并计算出累积频数和累积频率；(2)如果按规定：销售收入在125万元以上为先进企业，115万～125万元为良好企业，105万～115万元为一般企业，105万元以下为落后企业，按先进企业、良好企业、一般企业、落后企业进行分组。

2.3某百货公司连续40天的商品销售额如下（单位：万元）：41 25 29 47 38 34 30 38 43 4046 36 45 37 37 36 45 43 33 4435 28 46 34 30 37 44 26 38 4442 36 37 37 49 39 42 32 36 35根据上面的数据进行适当的分组，编制频数分布表，并绘制直方图。

生物统计第二章资料的整理与描述

样本容量；
大样本与小样本；随机样本(random sample)；
非随机样本(non-random sample)。
总体与样本的关系
由样本推断总体虽然有很大可靠性，也有一定错误率。俗语说“不可不信，不可全信”，这是我们对待统计推断的正确态度。
2、参数与统计数用总体的全体观察值计算的、描述总体的特征数称为参数(parameter)。
玉米的穗行数等
上一张下一张主页退出
（二）质量性状资料
质量性状是指只能观察而不能测量的性状。
如花药、种子、果实、叶片的颜色、籽粒的
饱满度、芒的有无等。质量性状本身不能用数值表示，要获得这类性状的资料，须对其观察结果作数量化
处理。数量化方法可分为以下两种：

统计次数法评分法
上一张下一张主
页退
出
1、统计次数法
在一定的总体或样本内，根据某一质量性状的
类别统计其次数，以次数作为质量性状的数据。
【例如】红花豌豆与白花豌豆的【例如】玉米果穗杂交试验，统计F2不同花色植株，上甜粒与在1000个F2植株中，红花266株、非甜粒的分离比率。紫花494株、白花240株。这种利用统计次数法对质量性状数量化得来的资料又叫次数资料。
这一条件的约束，能自由变动的
离均差的个数是 n-1 。当 n-1 个离均差确定后，第n个离均差也就随之而定，不能再任意变动。
【例】有5个观察值3、4、6、8、9，其平均数6。
5个察值的离均差为-3，-2，0，2，3，满足：

(x x) 0
一般，在计算离均差平方和时，若约束条件为k个，则其自由度dƒ=n-k。
如：总体平均数 ---- μ

医学统计学第二章计量资料的统计描述

肌红蛋白含量
人数
0～
2
5～
3
10～
7
15～
9
20～
10
25～
22
30～
23
35～
14
40～
9
45～50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血清肌红蛋白（μg / m L）
图 2-3 101 名正常人血清肌红蛋白的频数分布
医学统计学第二章计量资料的统计描述
计量资料（定量资料、数值变量资料）总体：有限或无限个（定量）变量值样本：从总体随机抽取的n个变量值：
X1,X2,X3,……,Xn
n为样本例数（样本大小、样本含量）
2
统计描述——描述其分布规律 1、用频数分布表（图）
要求：大样本如 n〉30
2、用统计指标描述集中趋势离散趋势
6
➢制表步骤了解分布
1. 求极差（range）极差也称全距，即最大值和最小值之差，记作R。本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2．确定组距(i) :
组段数通常取组 10-15组本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率（%） (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

第二章数值变量资料的统计描述

频数分布的类型
频数分布分为对称分布和偏态分布两种类型。频数分布分为对称分布和偏态分布两种类型。对称分布是指集中位置在正中，对称分布是指集中位置在正中，左右两侧频数分布大体对称，如上表所示。数分布大体对称，如上表所示。若将其绘制成频数分布直方图，则更清楚。成频数分布直方图，则更清楚。直方图是以x 本例为体重）为横坐标，直方图是以 x（本例为体重）为横坐标，频数或百分数为纵坐标，数或百分数为纵坐标，用矩形面积大小表示频数多少。频数多少。
某地150名12岁男童体重频数分布图名岁男童体重频数分布图某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重（kg）
频数分布的类型
偏态分布指集中位置偏向一侧，偏态分布指集中位置偏向一侧，频数分布不对称。不对称。一些以儿童为主的传染病，一些以儿童为主的传染病，患者的年龄分布，集中位置偏于年龄小的一侧，频数尾集中位置偏于年龄小的一侧，部向右侧延伸，称为正偏态（部向右侧延伸，称为正偏态（峰）分布，分布，如图
一、频数分布表（frequency table）的编制频数分布表（ table）
某地儿研所测得该地150名12岁健康男童体重某地儿研所测得该地150名12岁健康男童体重 kg）原始数据如下，试编制频数表。（kg）原始数据如下，试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9

《医学统计学》第二章定量数据的统计描述

630
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
－
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表，试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10～ 0.40～ 0.70～ 1.00～ 1.30～ 1.60～ 1.90～ 2.20～ 2.50～ 2.80～ 3.10～
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1，4，3，3，2，5，8，16小时，
求中位数。
n=8，为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例某传染病11名患者的潜伏期(天)分别为1，3，2，2，3，7，5，6，
4，7，9，求中位数。
n=11，为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态负偏态
正偏态：集中位置偏向数值小的一侧负偏态：集中位置偏向数值大的一侧
医学统计学（第7版）
正态分布
医学统计学（第7版）
正偏态
集中位置偏向数值小的一侧
负偏态
集中位置偏向数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)

统计学(第四版)袁卫庞皓贾俊平杨灿 (02)第2章统计数据的描述(袁卫)

i 1 n i
n
2. 各变量值与平均数的离差平方和最小
(x
i 1
5 - 36
i
x ) min
2
统计学
STATISTICS
几何平均数
统计学
STATISTICS
几何平均数
(geometric mean)
n 个变量值乘积的 n 次方根 2. 适用于对比率数据的平均 3. 主要用于计算平均增长率 4. 计算公式为
QM
25%
QU
2. 不受极端值的影响 3. 主要用于顺序数据，也可用于数值型数据，但不能用于分类数据
5 - 27
统计学
STATISTICS
四分位数
(位置的确定)
n 1 QL 位置 4 Q 位置 3(n 1) U 4 n QL 位置 4 Q 位置 3n U 4
去掉大小两端的若干数值后计算中间数据的均值 2. 在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用 3. 计算公式为
1.
x
5 - 41
x( n 1) x( n 2) x( n n ) n 2 n
1 2
n 表示观察值的个数；α表示切尾系数，0
f
i
i i
样本平均数
5 - 34
f
i 1
i
统计学
STATISTICS
加权平均数 (例题分析)
x
x f
i 1 k
k
i i
f
i 1
i
3110 103.67 （件） 30
5 - 35
统计学
STATISTICS
平均数

统计学第三版书后答案第二章

第2章统计数据的描述●9.某百货公司6月份各天的销售额数据如下（单位：万元）：257 276 297 252 238 310 240 236 265 278271 292 261 281 301 274 267 280 291 258272 284 268 303 273 263 322 249 269 295（1）计算该百货公司日销售额的均值、中位数和四分位数；（2）计算日销售额的标准差。

解：（1）将全部30个数据输入Excel表中同列，点击列标，得到30个数据的总和为8223，于是得该百货公司日销售额的均值：(见Excel练习题2.9)x=xn∑=822330=274.1（万元）或点选单元格后，点击“自动求和”→“平均值”，在函数EVERAGE()的空格中输入“A1：A30”，回车，得到均值也为274.1。

在Excel表中将30个数据重新排序，则中位数位于30个数据的中间位置，即靠中的第15、第16两个数272和273的平均数：M e=2722732+=272.5（万元）由于中位数位于第15个数靠上半位的位置上，所以前四分位数位于第1～第15个数据的中间位置(第8位)靠上四分之一的位置上，由重新排序后的Excel表中第8位是261，第15位是272，从而：Q L=261+2732724-=261.25（万元）同理，后四分位数位于第16～第30个数据的中间位置(第23位)靠下四分之一的位置上，由重新排序后的Excel表中第23位是291，第16位是273，从而：Q U=291－2732724-=290.75（万元）。

（2）未分组数据的标准差计算公式为：s =302 1()1iix xn=--∑利用上公式代入数据计算是个较为复杂的工作。

手工计算时，须计算30个数据的离差平方，并将其求和，()再代入公式计算其结果：得s=21.1742。

(见Excel练习题2.9)我们可以利用Excel表直接计算标准差：点选数据列(A列)的最末空格，再点击菜单栏中“∑”符号右边的小三角“▼”，选择“其它函数”→选择函数“STDEV”→“确定”，在出现的函数参数窗口中的Number1右边的空栏中输入：A1:A30，→“确定”，即在A列最末空格中出现数值：21.17412，即为这30个数据的标准差。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1998年我国大陆人口按性别分组表
按性别分组人数（万人）比重（%）
男
63 629
50.98
女
61 181
49.02
合计
124 810
100
• 按数量标志分组时，可先将数据进行排序，然后再根据需要进行分组。按数量标志分组的方法很多，主要有两种：一是单变量值分组，二是组距分组。
单变量值分组
2
2
中位数 960 1080 1020 2
分组数据中位数的计算
• 单值分组：先根据公式N/2确定中位数的位置，
再根据累计频数确定其所在组，对应的变量值即为中位数。
就形成了一张频数分布表。我们把全部数据
按其分组标志在各组内的分布状况称为频数
分布或次数分布，分布在各组内的数据个数
称为频数或次数，各组频数与全部频数之和
的比值称为频率或比重。对数据进行分组的过程也就是频数分布的形成过程。
按品质标志分组的同时计算出各组的频数或频率，就形成我们所需要的频数分布表。
均；基尼系数在0.2至0.4之间是比较适当的，即一个社会既有效率又没有造成极大的分配不公；基尼系数在0.4被认为是收入分配不公平的警戒线，超过了0.4应该采取措施缩小这一差距。
A B
2.2 分布集中趋势的测度
一、众数二、中位数三、四分位数四、均值五、几何均值六、众数、中位数和均值的比较
(折线图的绘制)
折折线线图图与与直直方方图图
12
下下的的面面积积相相等等！！
8
4
0 80
90
100
110
120
130
某某车车间间工工人人周周加加工工零零件件折折线线图图
次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几几种种常常见见的的频频数数分分布布
U型分布
2.1.5洛伦茨曲线与基尼系数
• 在对统计数据进行整理时，首先需要进行审核，以保证数据的质量，为进一步整理与分析打下基础。从不同渠道取得的统计数据，在审核的内容与方法上都有所不同。对于通过直接调查取得的原始数据应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏，所有的调查项目或指标是否填写齐全等。准确性审核主要包括两个方面，一是检查数据资料是否真实地反映了客观实际情况，内容是否符合实际；二是检查数据是否有错误，计算是否正确等。审核数据准确性的方法主要有逻辑检查数据的审核和计算检查。
合计
人数 3 7 13 5 2 30
2.1.4次数分配直方图
Excel
直方图
(histogram)
1. 用矩形的宽度和高度来表示频数分布的图
形，实际上是用矩形的面积来表示各组的
频数分布 2. 在直角坐标中，用横轴表示数据分组，纵
轴表示频数或频率，各组与相应的频数就形成了一个矩形，即直方图 3. 直方图下的总面积等于1
按笔画则有笔多少的升序降序之分。交替运用不同方式排序在汉字型数据的检错纠错过程中十分有用，应予重视。
2.1.2统计数据的分组
• 统计分组是数据整理中的一项重要工作，它是根据统计研究的需要，将数据按照某种特征或标准分成不同的组别。分组时所依据的特征或标准称为统计分组标志，它有品质标志和数量标志两种。
50%
Me
2. 不受极端值的影响
50%
3. 主要用于顺序数据，也可用数值型数据，但不能用于分类数据
4. 各变量值与中位数的离差绝对值之和最小，即 n xi M e min i1
中位数
(位置的确定)
原始数据：
数据个数N为奇数时中位数位置 N 1 2
数据个数N为偶数时中位数位置在N 和 N 1之间
洛伦茨曲线
1. 20 世纪初美国经济学家、统计学家洛伦茨 (M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成
2. 描述收入和财富分配性质
的曲线，分析该国家或地区累积
分配的平均程度
的收
入
百
分
比
绝对公平线
A B
累积的人口百分比
22
分组数据：
中位数位置 N 2
数值型数据的中位数
(9个数据的算例)
【例】
原始数据: 排序:
位置:
9个家庭的人均月收入数据
1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
12 3 4 5 6 7 8 9
• （二）数据的排序
• 数据排序是按一定顺序将数据排列，以便于研究者通过浏览数据发现一些明显的特征趋势或解决问题的线索，除此之外，排序还有助于对数据检查纠错，以及为重新归类分组等提供依据。在某些场合，排序本身就是分析的目的之一。
• 排序可借助于计算机很容易地完成。对于数字型数据排序只有两种：递增和递减。市场调查中的数据许多是属于定性的，对于字母型数据排序也有升序降序之分，但习惯上升序用得多些，因升序与字母的自然顺序相同。汉字型数据的排序方式最多，按拼音方式排列与字母型数据排序完全一样，而
众数
众数
(mode)
1. 一组数据中出现次数最多的变量值 2. 适合于数据量较多时使用 3. 不受极端值的影响 4. 一组数据可能没有众数或有几个众数 5. 主要用于分类数据，也可用于顺序数据和
数值型数据
无众数原始数据:
众数
(不惟一性)
10 5 9 12 6 8
一个众数原始数据:
6 59 8 5 5
• 数据筛选
• 对审核过程中发现的错误，应尽可能予以纠正，在调查结束后，当对数据中发现的错误不能予以纠正，或者有些数据不符合调查的要求而又无法弥补时，就需要对数据进行筛选。数据筛选包括两方面内容：一是将某些不符合要求的数据或有明显错误的数据予以剔出；二是将符合特定条件的数据筛选出来，而不符合特定条件的数据予以剔出。数据的筛选对通过市场调查取得的数据十分必要。
多于一个众数原始数据: 25 28 28 36 42 42
根据单变量数列众数的确定
某班学生按年龄分组
按年龄分组（岁） 17 18 19众数 20 21 合计
人数（人） 6 14 18频数最大 9 3 50
根据组距数列确定众数
i
fi
按零件加工数分组
人数
80-90
3
90-100
7
100-110
13
• 单变量值分组是把每一个变量值作为一组，这种分组方法通常只适合于离散变量，且变量值较少的情况下使用。在数据较多的情况下，单变量值分组由于组数较多而不便于观察数据分布的特征和规律，而且对于连续变量或变量值较多的情况，可采用组距分组。
组距分组
(要点)
1. 它是将全部变量值依次划分为
若干个区间，并将这一区间的 ~

位置 n 1 9 1 5 22
中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】：10个家庭的人均月收入数据
排序: 660 750 780 850 960 1080 1250 1500 1630 2000
位置: 1 2 3 4 5 6 7 8 9 10

位置 n 1 10 1 5.5
• 品质标志是说明事物的性质和属性特征的，它不能用数值来表现。数量标志是说明事物数量特征的，它可以具体表现为数值。
• 将统计数据按分组标志进行分组的过程，就是次数分配形成的过程。次数分配就是观测值按其分组标志分配在各组内的次数。
2.1.3次数分配
• 按某种标志对数据进行分组后，再计算出所有类别或数据在各组中出现的次数或频数，
变量值作为一组。 2. 适合于连续变量 3. 适合于变量值较多的情况 4. 需要遵循“不重不漏”的原则
~ ~ ~
5. 可采用等距分组，也可采用不 ~
等距分组
组距分组
(步骤)
பைடு நூலகம்
1. 确定组数：组数的确定应以能够显示数据
的分布特征和规律为目的
k
1
log1N0 log120
2. 确定组距：组距 (class width)是一个组的上限与下限之差，可根据全部数据的最大值和最小
基尼系数
1. 20世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标
基尼系数 A
A B
1. A表示实际收入曲线与绝对平均线之间的面积 2. B表示实际收入曲线与绝对不平均线之间的面积 3. 如果A=0，则基尼系数=0，表示收入绝对平均 4. 如果B=0，则基尼系数=1，表示收入绝对不平均 5. 基尼系数在0 和1之间取值 6. 一般认为，基尼系数若小于 0.2，表明分配平
110-120
5
120-130
2
合计
30
根据组距数列确定众数
• 下限公式：
M0

L
(
f

f f1 f1) ( f

i f 1 )
• 上限公式：
M0
U

f

f f1
f1 f

i
f1
组距分组众数的计算
下限公式：
M0

L
f

f f1
f1 f
值及所分的组数来确定，即
组距＝( 最大值 - 最小值)÷ 组数
3. 统计出各组的频数并整理成频数分布表

第二章统计数据的描述方案

医学统计学-第二章 统计描述

【统计学】04 第二章 定量资料的统计描述

2h第二章 定量资料的统计描述

统计学 第2章 统计数据的描述