×第二章 统计数据的描述
第二章 统计数据的描述练习题答案

2)绘制直方图
15 次 数 ( 10 单 位 : 天 5 )
0
25 30 35 40 45 50 销售额(单位:万元)
2019年3月29日星期五
• 下面是A、B两个班学生的数学考试成绩数据:
表:A班和B班学生的数学考试成绩 44 57 59 60 61 61 62 63 63 65
66
A班 73 76 85 35
85
75 65 55 45
35
北 京
长 春
南 京
郑 州
武 汉
广 州
成 都
昆 明
兰 州
西 安
2019年3月29日星期五
某百货公司6月份各天的销售额数据如下(单位:万元)
257 276 297 252 238 310 240 236 265 278
271 292 261 281 301 274 267 280 291 258 272 284 268 303 273 263 322 249 269 295 (1)计算该百货公司日销售额的均值、中位数和四分位数; (2)计算日销售额的标准差。
树茎
3
4 5
6
7 8 9 10
0
2019年3月29日星期五
000
3
• 1997年我 国几个主 要城市各 月份的平 均相对湿 度数据如 下表,试 绘制箱线 图,并分 析各城市 平均相对 湿度的分 布特征。
2019年3月29日星期五
月 份 1 2 3 4 5 6
北 京 49 41 47 50 55 57
x
242.5 4 257.5 5 272.5 10 287.5 5 302.5 4 317.5 2 275.5 30
第二章数值型变量的统计描述

例:某公司五名职员的薪水分别是: 10,100,1000,10000,100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一:分析资料
分析资料:计算有关指标,反映数据的综合特 征, 阐明事物内在联系和规律 (1)统计描述(descriptive statistics):指用统计
指标、统计表、统计图等方法,对资料的数量特 征及其分布规律进行测定和描述 。
(2)统计推断(inferential statistics):指如何根
n 2 n 1 2
2
求:中位数
第1组数:1、4、 3、 2、 3 第2组数: 3、 2、1、 3 第3组数:1、2、 1、 2
(2)频数表法:
适用于样本例数较大的资料(百分位数法)
步骤: ①从小到大计算累计频数和累计频数; ②确定中位数和百分位数所在组段;
③计算中位数M和百分位数PX
i Px= L n x % f L fx
考考你: BUN组段(1)
BUN组段(2)
2.00~2.40 2.40~2.80 2.80~3.20 3.20~3.60
BUN组段(3)
2.00~ 2.40~ 2.80~ 3.20~3.60
2.00~2.30
2.40~2.70 2.80~3.10 3.20~3.50
4、列表划记(数频数):统计各组段内的
例2-3
二、几何均数(geometric mean)
统计学原理(第二章)

数据的计量和类型
一、数据的计量尺度 4.定比尺度:又称为比例尺度或是比较水平, 是对事物之间比值的一种测度,它是最高层 次的测量,可用于参数和非参数统计推断。 它是与定距尺度属于同一层次的一种计量尺 度,但其功能比定距尺度更强一些。
在日常生活中,大多数情况下使用的都是 定比尺度。例如,年龄、收入、某地区每年的 失业人数、罪犯人数等。
数值数据的描述
一、数值数据的 分组
为什么要进行数据的分组?
品质数据的描述
某电脑公司50名销售代表某季度电脑销售量按从小 到大排序如下表:
107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 126 127 127 128 128 129 130 131 133 133 134 134 135 139 139 139
204 80.00% 105 41.17%
235 92.16% 51 20%
255 100% 20 7.84%
— 100% —
品质数据的描述
二、品质数据的 图示 1.条形图:是用宽度相同的条形的高度或长 短来表示数据变动的图形,横置的称为带形 图,纵置的称为柱形图(直方图)。
柱形图(直方图)
120 100 80 60 40 20
定类变量、定序变量、 数值型变量(离散变量、连续变量)
第二节 品质数据的描述
一、品质数据的描述 二、数据的类型品质数据的图示 三、品质数据的分布特征描述
品质数据的描述
一、品质数据的 描述 1.频数:是落在某一特定类别(或组)中的 数据的个数。把各个类别及其相应的频数全 部列出来则形成频数分布。
第二章 统计数据的描述

第二章统计数据的描述一、填空题:1.统计分组有等距分组与异距分组两大类。
2. 频率是每组数据出现的次数与全部次数之和的比值。
3. 统计分组的关键在于确定组数和组距。
4. 统计表从形式上看,主要由表头(总标题)、横行标题、纵栏标题和数字资料(指标数值)四部分组成。
5. 均值是测度集中趋势最主要的测度指标,标准差是测度离散趋势最主要的测度指标。
6.当平均水平和计量单位不同时,需要用变异系数(离散系数)来测度数据之间的离散程度。
7.众数是一组数据中出现次数最多的变量值。
8.对于一组数据来说,四分位数有 3 个。
二、单项选择题:1. 次数是分配数列组成的基本要素之一,它是指( B )。
A、各组单位占总体单位的比重B、分布在各组的个体单位数C、数量标志在各组的划分D、以上都不对2. 某连续变量数列,其末组为600以上。
又如其邻近组的组中值为560,则末组的组中值为( D )。
A、620B、610C、630D、6403. 变量数列中各组频率的总和应该是( B )。
A、小于1B、等于1C、大于1D、不等于14. 某连续变量数列,其首组为500以下。
又如其邻近组的组中值为520,则首组的组中值为( C )。
A、460B、470C、480D、4905. 在下列两两组合的指标中,哪一组的两个指标完全不受极端数值的影响(D )A、算术平均数和调和平均数B、几何平均数和众数C、调和平均数和众数D、众数和中位数6. 在编制等距数列时,如果全距等于56,组数为6,为统计运算方便,组距应取(D )A、9.3B、9C、6D、107. 一项关于大学生体重的调查显示,男生的平均体重是60公斤,标准差为5公斤;女生的平均体重是50公斤,标准差为5公斤.据此数据可以推断( B) 用变异系数算A、男生体重的差异较大B、女生体重的差异较大C、男生和女生的体重差异相同D、无法确定8. 某生产小组有9名工人,日产零件数分别为10,11,14,12,13,12,9,15,12.据此数据计算的结果是( A ) 众数12 中位数12 平均数12A、均值=中位数=众数B、众数>中位数>均值C、中位数>均值>众数D、均值>中位数>众数9. 按连续型变量分组,最后一组为开口组,下限值为2000。
统计学简答题参考答案

统计学简答题参考答案统计学简答题参考答案第⼀章绪论1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是⼀门收集、整理、显⽰和分析统计数据的科学。
统计学与统计数据存在密切关系,统计学阐述的统计⽅法来源于对统计数据的研究,⽬的也在于对统计数据的研究,离开了统计数据,统计⽅法以致于统计学就失去了其存在意义。
2.简要说明统计数据的来源。
答:统计数据来源于两个⽅⾯:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查⽅式来获得,如普查和抽样调查。
间接的数据:从报纸、图书杂志、统计年鉴、⽹络等渠道获得。
3.简要说明抽样误差和⾮抽样误差。
答:统计调查误差可分为⾮抽样误差和抽样误差。
⾮抽样误差是由于调查过程中各环节⼯作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利⽤样本推断总体时所产⽣的误差,它是不可避免的,但可以控制的。
4.解释描述统计和推断统计的概念?(P5)答:描述统计是⽤图形、表格和概括性的数字对数据进⾏描述的统计⽅法。
推断统计是根据样本信息对总体进⾏估计、假设检验、预测或其他推断的统计⽅法。
第⼆章统计数据的描述1描述次数分配表的编制过程。
答:分⼆个步骤:(1)按照统计研究的⽬的,将数据按分组标志进⾏分组。
按品质标志进⾏分组时,可将其每个具体的表现作为⼀个组,或者⼏个表现合并成⼀个组,这取决于分组的粗细。
按数量标志进⾏分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为⼀个组;组距式分组将变量的取值范围(区间)作为⼀个组。
统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。
2. ⼀组数据的分布特征可以从哪⼏个⽅⾯进⾏测度?答:数据分布特征⼀般可从集中趋势、离散程度、偏态和峰度⼏⽅⾯来测度。
常⽤的指标有均值、中位数、众数、极差、⽅差、标准差、离散系数、偏态系数和峰度系数。
3.怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的⼀般⽔平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的⼀种反映,在统计推断中显⽰出优良特性,由此均值在统计中起到⾮常重要的基础地位。
统计学第三版书后答案第二章

第2章统计数据的描述●9.某百货公司6月份各天的销售额数据如下单位万元257 276 297 252 238 310 240 236 265 278 271 292 261 281 301 274 267 280 291 258 272 284 268 303 273 263 322 249 269 295 1计算该百货公司日销售额的均值、中位数和四分位数2计算日销售额的标准差。
解1将全部30个数据输入Excel表中同列点击列标得到30个数据的总和为8223 于是得该百货公司日销售额的均值见Excel练习题2.9 xxn822330274.1万元或点选单元格后点击“自动求和”→“平均值”在函数EVERAGE 的空格中输入“A1A30”回车得到均值也为274.1。
在Excel表中将30个数据重新排序则中位数位于30个数据的中间位置即靠中的第15、第16两个数272和273的平均数Me2722732272.5万元由于中位数位于第15个数靠上半位的位置上所以前四分位数位于第1第15个数据的中间位置第8位靠上四分之一的位置上由重新排序后的Excel 表中第8位是261第15位是272从而QL2612732724261.25万元同理后四分位数位于第16第30个数据的中间位置第23位靠下四分之一的位置上由重新排序后的Excel表中第23位是291第16位是273从而QU2912732724290.75万元。
2未分组数据的标准差计算公式为s30211iixxn 利用上公式代入数据计算是个较为复杂的工作。
手工计算时须计算30个数据的离差平方并将其求和再代入公式计算其结果得s21.1742。
见Excel练习题2.9 我们可以利用Excel表直接计算标准差点选数据列A列的最末空格再点击菜单栏中“∑”符号右边的小三角“▼”选择“其它函数”→选择函数“STDEV”→“确定”在出现的函数参数窗口中的Number1右边的空栏中输入A1:A30→“确定”即在A列最末空格中出现数值21.17412即为这30个数据的标准差。
医学统计学--第二章 计量资料的统计描述

4.13 4.28 4.91 3.95 4.23 3.75 4.57 3.51
2.78 3.26 3.18 5.08 3.57 3.98 3.80 3.86
4.26 3.50 3.68 4.53 4.83 4.13 3.93 3.02
3.58 2.70 4.83 3.92 3.52 4.26 3.78 3.70
1
lg X ) lg (
n
1
ቤተ መጻሕፍቲ ባይዱ
lg10 lg 20 lg 40 lg 40 lg160 ( ) 34.8 5
(2)加权法 公式:
G lg (
1
f lg X f
)
例2-5 69例类风湿关节炎(RA)患者血清EBV-VCAlgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均 抗体滴度。
三、频数表和频数分布图用途
1.描述频数分布的 类型 (1)对称分布 :若 各组段的频数以频数 最多组段为中心左右 两侧大体对称,就认 为该资料是对称分布
25
20 15
Æ µ Ê ý
10 5
0
2.45
3.05
3.65
4.25
4.85
5.45
6.10
Ñ Ç × µ ¹ ´ £ mmol/L£ ª å Ü ¨Ì ¼ ¨ ©
G 公式: X 1 X 2 X n
n
或
G lg
1
lg X ) (
n
例2-4 某地5例微丝蚴血症患者治疗七年后用间接 荧光抗体试验测得其抗体滴度倒数分别为,10, 20,40,40,160,求几何均数。
G 10 20 40 40 160 34.8
5
G lg
统计学(第四版)袁卫 庞皓 贾俊平 杨灿 (02)第2章 统计数据的描述(袁卫)

n
2. 各变量值与平均数的离差平方和最小
(x
i 1
5 - 36
i
x ) min
2
统计学
STATISTICS
几何平均数
统计学
STATISTICS
几何平均数
(geometric mean)
n 个变量值乘积的 n 次方根 2. 适用于对比率数据的平均 3. 主要用于计算平均增长率 4. 计算公式为
QM
25%
QU
2. 不受极端值的影响 3. 主要用于顺序数据,也可用于数值型数据, 但不能用于分类数据
5 - 27
统计学
STATISTICS
四分位数
(位置的确定)
n 1 QL 位置 4 Q 位置 3(n 1) U 4 n QL 位置 4 Q 位置 3n U 4
去掉大小两端的若干数值后计算中间数 据的均值 2. 在电视大奖赛、体育比赛及需要人们进行 综合评价的比赛项目中已得到广泛应用 3. 计算公式为
1.
x
5 - 41
x( n 1) x( n 2) x( n n ) n 2 n
1 2
n 表示观察值的个数;α表示切尾系数,0
f
i
i i
样本平均数
5 - 34
f
i 1
i
统计学
STATISTICS
加权平均数 (例题分析)
x
x f
i 1 k
k
i i
f
i 1
i
3110 103.67 (件) 30
5 - 35
统计学
STATISTICS
平均数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、中位数 (median)
中位数(Median),是指将统计总体当中的各个变量值 按大小顺序排列起来,形成一个数列,处于变量数列中 间位置的变量值就称为中位数,用Me表示。
1.排序后处于中间位置上的值
50%
Me
50%
2.主要用于顺序数据,也可用数值型数据,但不能用于分类 数据
数值型数据的中位数
某车间工人周加工零件直方图
用矩形的宽度和高度来表示频数分布的图形,实际 上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频 数或频率,各组与相应的频数就形成了一个矩形, 即直方图 直方图下的总面积等于1
2. 折线图
1. 折线图也称频数多边形图 2. 是在直方图的基础上,把直方图顶部的中点(组中值) 用直线连接起来,再把原来的直方图抹掉 3. 折线图的两个终点要与横轴相交,具体的做法是
lg( n) K 1 lg( 2)
3. 根据分组整理成频数分布表
组距分组
(几个概念)
1. 2. 3. 4.
下 限:一个组的最小值 上 限:一个组的最大值 组 距:上限与下限之差 组中值:下限与上限之间的中点值
组中值=
下限值+上限值
2
简单次数分布数列的编制实例
[练习、例]数据资料
10~15年 15~20年 20年以上 数量标志分组
P16,两个分组的概念
二、统计分组的方法
1、品质分组的方法 2、数量分组的方法 (1)单项式分组 就是以一个变量值为一组。如对 居民家庭按家庭人口数进行分组:按家庭人口数 分为:1人,2人,3人,4人,5人及以上。 (2)组距式分组:是以变量值变化的一个区间为一 组的分组方法。 等距分组 异距分组
30 15
90.0
74.0 37.5
45~50 合计
6 40
15.0 100
40 100 --
6
15.0 --
四、次数分配直方图
1.直方图 2.折线图 3.次数分配曲线类型
1. 直方图
我一眼就看出 来了,周加工 零 件 在 100 ~ 110 之 间 的 人 数最多!
12
8
4
0 80 90 100 110 120 130
[分析] 根据排序后的变量序列清点各数据区间的频数并计 算比重,也可利用Excel统计软件进行。
简单次数分布数列的编制实例
编制步骤之六——绘制表格
某车间工人日产零件分组表
日产零件数量 (件) 50-60 60-70 70-80 80-90 90-100 合计 工人数(人) 4 8 13 10 5 40 比重(%) 10.00 20.00 32.50 25.00 12.50 100.00
某车间40名工人日产零件如下:
65 72 66 57 90 86 83 68 75 65 84 66 59 67 70 79 51 81 54 68 78 86 94 64 77 74 76 96 62 76 98 85 71 79 84 65 72 89 75 78
简单次数分布数列的编制实例
编制步骤之一——数据排序并确定全距
某车间工人周加工零件折线图
3. 次数分配曲线的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
五、洛仑兹曲线和基尼系数
洛伦兹曲线(Lorenz curve),也译为“劳 伦兹曲线”。就是,在一个总体(国家、地 区)内,以“最贫穷的人口计算起一直到最 富有人口”的人口百分比对应各个人口百分 比的收入百分比的点组成的曲线。为了研究 国民收入在国民之间的分配问题,美国统计 学家(或说奥地利统计学家)M.O.洛伦兹 (Max Otto Lorenz)1907年(或说 1905年)提出了著名的洛伦兹曲线。
3、种类
简单分组
按分组标志的多少不同 按分组标志的性质不同 复合分组
品质标志分组
数量标志分组
例 1 为了了解某地区银行存款的构成,可以选用 存款性质、期限两个标志分别进行分组: 按存款性质分组 存款同时按其性质及期限分组 企业存款 企业存款 简单 储蓄存款 分组 活期 财政性存款 定期 按存款期限分组 品 储蓄存款 质 活期存款 活期 复合 标 定期存款 志 分组 定期 分 财政性存款 组 例2 企业职工按工龄分组: 活期 5年以下 定期 5~10年
将数据从低到高排列,形成如下变量序列: 51 54 57 59 62 64 65 65 66 66 67 68 70 71 72 72 74 75 75 76 76 77 78 78 79 81 83 84 84 84 85 86 86 88 89 90 93 94 96 98 计算全距=98-51=47
众数
(不惟一性)
无众数 原始数据: 10 5 9 12 6 8
一个众数 原始数据:
6
5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
对于分组数据,众数通常采用下面的近似公 式计算:
MO:表示众数 L:表示众数组的下组限 表示众数组次数与前一组次数之差 表示众数组次数与后一组次数之差 i 表示众数组的组距
分组数据中位数的确定
1、可以用中位数所在组的组中值近似作为中位数值; 2、也可以用下面的近似公式计算:
N S m 1 Me L 2 i fm
Me : 表示中位数 L:表示中位数组的下组限 fm: 表示中位数组的次数 Sm-1:表示中位数组以前各组的累积次数 i 表示中位数组的组距
中位数性质
北京师范大学收入分配与贫困研究中心主任 李实牵头的中国社科院居民收入分配研究课 题组在过去20多年间进行了4次关于基尼指 数的大型调查和测算,结果分别为:1988 年0.382,1995年0.455,2002年0.454, 2007年0.48。这也是目前比较权威的数据。 中国国家统计局自从2000年公布中国基尼 系数为0.412之后,就再也没有对这项统计 公布过具体数字。
例1、单项数列:某厂第二季度工人平均日产 量
工人平均日产量 (件)
2 3 4 5 6
工人数
绝对数(人)
10 15 30 40 20 115
比重(%)
8.7 13.0 26.1 34.8 17.4 100
合计
例2、等距组距数列:某工厂工人完成生产定额情 况表
工人按完成生产定额 分组(%)
工人数 绝对数(人)
1:稳健性 中位数是从位置上来确定的,因此个别极 端大值或极端小值的变化不影响中位数数值。
《2011年城乡居民收入增长情况》报告显示,2011年 农村居民人均纯收入中位数为6194元,2011年城镇居 民人均可支配收入中位数为19118元,两者均较上年 有所增长
2:中位数与数据值的距离最短 数据值与中位数之差的绝对值之和最小。
30 40 60 30 20 180
比重(%)
16.7 22.2 33.3 16.7 11.1 100
80~90 90~100 100~110 110~120 120~130
合计
单项式分组
(要点)
1. 2. 3.
将一个变量值作为一组 适合于离散变量 适合于变量值较少的情况
~ ~ ~ ~ ~
组距分组
(步骤)
1. 确定组数:组数的确定应以能够显示数据的分布特征和规 律为目的。在实际分组时,可以按 Sturges (斯特吉斯组 数公式)提出的经验公式来确定组数K
2. 确定各组的组距:组距(Class Width)是一个组的上限 与下限之差,可根据全部数据的最大值和最小值及 所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数
第一个矩形的顶部中点通过竖边中点(即该组频数一半 的位置)连接到横轴,最后一个矩形顶部中点与其竖边 中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者所表 示的频数分布是一致的
分组数据的图示
(折线图的绘制)
折线图与直方图 下的面积相等!
12
8
4
0 80 90 100 110 120 130
单变量值分组表
(实பைடு நூலகம்)
表
零件数 (个)
107 108 110 112 113 114 115 117 118
某车间50名工人日加工零件数分组表
频数 (人)
1 2 1 2 1 1 1 3 3
零件数 (个)
119 120 121 122 123 124 125 126 127
频数 (人)
1 2 1 4 4 3 2 2 3
中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 序: 位置: 660 750 780 850 960 1080 1250 1500 1630 2000
1
2
3
4
5
6
7
8
9
10
n 1 10 1 位置 5 .5 2 2
960 1080 中位数 1020 2
(9个数据的算例)
【例】
9个家庭的人均月收入数据
1 2 3 4 5 6 7 8 9
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置:
n 1 9 1 位置 5 2 2
零件数 (个)
128 129 130 131 133 134 135 137 139
频数 (人)
2 1 1 1 2 2 1 1 2