第二章 描述统计
合集下载
第二章--定量资料的统计描述

定量资料的统计描述
分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29
分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29
第2章 描述统计:数量方法

第二章
描述统计:数量方法
STAT
4、评价 (1)测度数据的重心位置。
年龄(x) 人数(f) 36 1 A、Mean=38 37 1 离差:2+1=1+2 38 1 B、Mean=38.3333 39 1 离差:2.3333+1.3333+0.3333 40 1( 2) =0.6667+1.66672
STAT
[例]某人早、中、晚购买蔬菜的资料如下,求平均价格。
总金额 价格 数量 3元 xf x =0.26 总数量 数量 11.5斤 f
第二章
描述统计:数量方法
STAT
二、调和平均数(Harmonic Mean ,P35) 1、定义:变量值①倒数②的算术平均数③的倒数④ 。 2、公式推导 ( 1 )变量值: x1 , x2 ,, xn
1 1 1 1 (2)倒数: , ,, 令yi x1 x2 xn xi 1 1 1 1 x x x y 2 n (3)求算术平均数: y 1 x n 111 n n (4)倒数: H “简单调和平均数” 1 x
均值 78.67 77.78
[例2]2000年哈佛大学研究生部6个最大专业录取情况如下:
专业 男性报名人数 录取率(%) 女性报名人数 录取率(%) A 825 62 108 82 B 560 63 25 68 C 325 37 593 34 D 417 33 375 35 E 191 28 393 24 F 373 6 341 7
STAT
第二节
一、概念 1、集中趋势:越靠近中间水平,出现的频数越多,反之亦反。 2、离中趋势:离开并分散在中间水平两侧的趋势。 按年龄分组(岁) 38 39 40 41 42 合计 人数(人) 10 30 70 40 20 170
第二章数值型变量的统计描述

1
例:某公司五名职员的薪水分别是: 10,100,1000,10000,100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一:分析资料
分析资料:计算有关指标,反映数据的综合特 征, 阐明事物内在联系和规律 (1)统计描述(descriptive statistics):指用统计
指标、统计表、统计图等方法,对资料的数量特 征及其分布规律进行测定和描述 。
(2)统计推断(inferential statistics):指如何根
n 2 n 1 2
2
求:中位数
第1组数:1、4、 3、 2、 3 第2组数: 3、 2、1、 3 第3组数:1、2、 1、 2
(2)频数表法:
适用于样本例数较大的资料(百分位数法)
步骤: ①从小到大计算累计频数和累计频数; ②确定中位数和百分位数所在组段;
③计算中位数M和百分位数PX
i Px= L n x % f L fx
考考你: BUN组段(1)
BUN组段(2)
2.00~2.40 2.40~2.80 2.80~3.20 3.20~3.60
BUN组段(3)
2.00~ 2.40~ 2.80~ 3.20~3.60
2.00~2.30
2.40~2.70 2.80~3.10 3.20~3.50
4、列表划记(数频数):统计各组段内的
例2-3
二、几何均数(geometric mean)
例:某公司五名职员的薪水分别是: 10,100,1000,10000,100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一:分析资料
分析资料:计算有关指标,反映数据的综合特 征, 阐明事物内在联系和规律 (1)统计描述(descriptive statistics):指用统计
指标、统计表、统计图等方法,对资料的数量特 征及其分布规律进行测定和描述 。
(2)统计推断(inferential statistics):指如何根
n 2 n 1 2
2
求:中位数
第1组数:1、4、 3、 2、 3 第2组数: 3、 2、1、 3 第3组数:1、2、 1、 2
(2)频数表法:
适用于样本例数较大的资料(百分位数法)
步骤: ①从小到大计算累计频数和累计频数; ②确定中位数和百分位数所在组段;
③计算中位数M和百分位数PX
i Px= L n x % f L fx
考考你: BUN组段(1)
BUN组段(2)
2.00~2.40 2.40~2.80 2.80~3.20 3.20~3.60
BUN组段(3)
2.00~ 2.40~ 2.80~ 3.20~3.60
2.00~2.30
2.40~2.70 2.80~3.10 3.20~3.50
4、列表划记(数频数):统计各组段内的
例2-3
二、几何均数(geometric mean)
统计学原理(第二章)

数据的计量和类型
一、数据的计量尺度 4.定比尺度:又称为比例尺度或是比较水平, 是对事物之间比值的一种测度,它是最高层 次的测量,可用于参数和非参数统计推断。 它是与定距尺度属于同一层次的一种计量尺 度,但其功能比定距尺度更强一些。
在日常生活中,大多数情况下使用的都是 定比尺度。例如,年龄、收入、某地区每年的 失业人数、罪犯人数等。
数值数据的描述
一、数值数据的 分组
为什么要进行数据的分组?
品质数据的描述
某电脑公司50名销售代表某季度电脑销售量按从小 到大排序如下表:
107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 126 127 127 128 128 129 130 131 133 133 134 134 135 139 139 139
204 80.00% 105 41.17%
235 92.16% 51 20%
255 100% 20 7.84%
— 100% —
品质数据的描述
二、品质数据的 图示 1.条形图:是用宽度相同的条形的高度或长 短来表示数据变动的图形,横置的称为带形 图,纵置的称为柱形图(直方图)。
柱形图(直方图)
120 100 80 60 40 20
定类变量、定序变量、 数值型变量(离散变量、连续变量)
第二节 品质数据的描述
一、品质数据的描述 二、数据的类型品质数据的图示 三、品质数据的分布特征描述
品质数据的描述
一、品质数据的 描述 1.频数:是落在某一特定类别(或组)中的 数据的个数。把各个类别及其相应的频数全 部列出来则形成频数分布。
医学统计学-第二章 统计描述

变异系数(Coefficient of variation,CV)
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
第二章 集中趋势的统计描述

1.集中趋势(central tendency):平均水 平,向中间集中,中等数据的人数最多。 2.离散趋势(tendency dispersion):变 异水平,即随着红细胞数测量值逐渐变大 或变小,人数越来越少,向两端分散。
频数表的主要用途
1.作为陈述资料的形式,可以替代繁杂的原始资料, 便于进一步分析 2.便于观察数据的分布类型 3.便于发现资料中某些远离群体的特大或特小的 可疑值
xi x1 x2 xn x n n
例2.1 见书P10
式(2-1)
加权法
适用条件:当无原始数据或观察例数很多又 缺乏计算机及统计软件时,若用直接法很 容易出错,可以用加权法处理。
f i X i f1 X 1 f 2 X 2 f n X n x f i f1 f 2 f n
x
二、特征: ∑(X-
x )=0
估计误差之和为0。
三、适用资料类型: 1.描述正态分布和近似正态分布资料集中 趋势的最好指标。 2. 适用于大多数正常人的生理、生化指标。 四、计算方法:
1.直接法
2.加权法
直接法
适用条件: 当观察例数不多时,或观察例数虽然 很多,但有计算机及统计软件,宜选择直接法。
0 .0 15 0 .0 14 0 .0 13 0 .0 12 0 .0 11 0 .0 10 00 9. 00 8. 00 7. 00 6. 00 5. 00 4. 00 3. 00 2. 00 1. 00 0.
400
300
200
100
0
TG
对数据的描述指标也分为两类: 1. 描述集中趋势(central tendency)或 平均水平的指标。 2. 描述离散趋势(tendency dispersion) 或变异水平的指标。
统计学第二章计量资料的统计描述

数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
第二章 描述性统计分析SPSS应用

萨姆:每周100元又是怎么回事呢? 吉斯莫:那称为众数,是大多数人挣 的工资。 吉斯莫:老弟,你的问题是出在你不 懂平均数、中位数和众数之间的区别。 萨姆:好,现在我可懂了。我……我 辞职!
描述集中趋势的统计量
Mean(均值) Median(中位值) Mode(众值)
(一)均值(定距变量)
定距变量资料分布常用曲线
J形曲线
U形曲线
峰状曲线
对称与不对称曲线
注意:适用于较低测量层次的统计法,也适 用于较高的层次。 图形也同样:饼图主要是用于定类变量 条形图主要是用于定序变量;直方图、折线图 等主要是用于定距变量
练习:城镇自杀率的分组次数分布
自杀率 次数 组中值 向上累积次数
如果只看次数,乙机关已婚者远高于甲机关, 但从百分比来看,甲机关已婚的比例则较大。 频数分布表是不同类别的绝对数量的分布情况, 百分比分布表则是不同类别在总体中的相对数 量分布,因此,百分比分布除具备频数分布的 特点外,还可以十分方便地进行不同总体或不 同类别之间的比较,应用更为广泛。
3. 对比值(ratio):不同类别数值之间的比 值,用x:y的形式表示 如出生性别比为105:100,则表示每出生 100个女孩则有105个男孩出生 某班男女生比率为3:5
你会吗?
2. 对于分组资料:(1)单项数列
根据N/2在累计频数分布中找到中位数所在组, 该组变量值就是Md 。 X f F 3 4 中 位 数 5 6 7 8 9 3 9 25 34 20 7 1 3 12 37 71 91 98 99
10
合计
1 100
100 —
(2)组距数列
按中位数所在组的下限:
统计分析首先要解决的问题,就是寻求
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
合计
频数 4 8 5 2 1
20
末组组中值=(U+L)/2=[L+(L+i)]/2
=L+i/2=L+邻组i/2
6、对重叠组限,该组的频数统计遵循“上组限不在本组内”的原
则。
江西财经大学统计学院 23
统计学 第二节 概括数量数据
五、相对频数分布与百分比频数分布 我们以定义质量数据同样的方式来定义数量数据的相对频
方法如下:A、用SAS软件中的INSIGHT作频数统计的步骤。
江西财经大学统计学院 25
统计学 第二节 概括数量数据
江西财经大学统计学院 26
统计学 第二节 概括数量数据
B、用编程的方法绘制频数分布表
江西财经大学统计学院 27
统计学 第二章 概括数量数据
江西财经大学统计学院 28
江西财经大学统计学院 4
统计学 第一节 图表法
一、 统计表 (一)定义:容纳与表现统计资料的表格。 (二)制作:上下粗线、中间细线、两边开口。 (三)结构 1.从形式看 (1)总标题:时间、空间、总体、指标
2000年A国工业企业固定资产投资情况 → 总标题
按地区分组 完成投资额(亿元) 增长率(%) 比重(%)
江西财经大学统计学院 21
统计学 第二节 概括数量数据
3、确定组限(上限、下限) 不重叠设计、第一组的下限<最小值、最末组的上限>最大值
审计时间(天) 10—14 15—19 20—24 25—29 30—34
合计
频数 4 8 5 2 1
20
注意:若数据中有异常 值,则应设置开口组。
江西财经大学统计学院 22
甲
(1)
(2)
(3)
横 东部地区
行 标
中部地区
题 西部地区
12,188 4,121 2,387
17、5 20、7 21、1
65、2 22、0 12、8
纵栏 标题
指标 数值
江西财经大学统计学院 5
统计学 第四节 图表法
(2)横行标题:总体或其分组的名称; (3)纵栏标题:指标名称; (4)指标数值。 2.从内容来看 (1)主词:说明的对象; (2)宾词:指标名称、指标数值。
14、19、18、15、15、18、17、20、27、22、23、22、21、33、 28、14、18、16、13。
试将其整理成合适的变量数列。 1、确定互不重叠的分组数量。(组数)
一般分5~20个组。 2、确定每组组距。
全距(R)=Xmax –Xmin=33—12=18 组距=全距/组数=18/5=4.2≈5
统计学 第一节 图表法
二、次数分布图
(一)图示法
1、直方图:X轴“变量”; 人数f
Y轴 “次数”。
15
宽i,高各组f。 次数分布表
12
身高
人数
9
80—90
3
6
90—100
7
100—110 13
3
110—120
5
120—130
2
30
80 90 100 110 120 130
身高x
江西财经大学统计学院 7
2000年A国工业企业固定资产投资情况 → 总标题
按地区分组 完成投资额(亿元) 增长率(%) 比重(%)
甲
(1)
(2)
(3)
纵栏 标题
横 东部地区
行 标
中部地区
题 西部地区
主词
12,188
4,121
2,387
宾
17、5
20、7
21、1
词
65、2 22、0 12、8
指标 数值
江西财经大学统计学院 6
江西财经大学统计学院 2
统计学 第二章 描述统计
要对上面的数据进行分析,你应该做些什么? 江西财经大学统计学院 3
统计学 第二章 描述统计
本章学习重点
1、理解数据图示的必要性,了解数据图示在数据分析中地位。 2、熟练数值平均数和位置平均数的计算。 3、理解变异指标的。
本章学习难点
1、变异指标的应用。 2、至少掌握一种软件分析工具制作频数分布表和各种图形。
数分布和百分比频数分布。
六、散点图及直方图(自学)
七、累积分布和累积频数图 累积分布所显示的是小于或等于每个分组的上限值观测值
的数量,而不是每组的频数。 又分累积相对频数分布、累积百分比频数分布。 累积分布的图形称为累积频数图。
江西财经大学统计学院 24
统计学 第二节 概括数量数据
附录:1、用EXCEL软件绘制频数分布 2、用SAS软件绘制频数分布
统计学 第一节 图表法
江西财经大学统计学院 8
统计学 第一节 图表法
江西财经大学统计学院 9
统计学 第一节 图表法
江西财经大学统计学院 10
统计学 第一节 图表法
江西财经大学统计学院 11
统计学 第一节 图表法
江西财经大学统计学院 12
统计学 第一节 图表法
江西财经大学统计学院 13
统计学 第一节 图表法
江西财经大学统计学院 14
统计学 第一节 概括质量数据
二、相对频数分布与百分比频数分布 1、定义
对于有n个观测值的数据集,每组的相对频数=组的频 数/n;
每组百分比频数=相对频数100。 2、举例:书中的表2-3 3、特点:用概括性表格数据的形式显示每组的相对频 数和每组的百分比频数。 三、条形图与饼图(自学)
顾客在交回问卷后,就对他们所购买的商品打九五折,以 表感谢。下面的A表是问卷回收后的原始记录。
江西财经大学统计学院 1
统计学
调查结束后,该超市针对顾客在调查中提出的问题,对员工 进行了培训,以改善服务质量。为比较改善服务质量后是否使 销售额有所提高,超市又对2004年第三季度各天的销售进行了 统计,结果如下表。
江西财经大学统计学院 16
统计学 第二节 概括数量数据
二、频数分布的类型
1、钟形分布 特征:中间大、两头小。
[例]身高、体重、智商、纤维长度、细纱强度、粮食作物产量等。 (1)对称分布:正态分布及t分布。
年龄 人数
(2)偏态分布(不对
17
5
人数
称分布)
18
10
A、右(正)偏有
极大值;
19 20
15 10
统计学 第二节 概括数量数据
4、组中值=(上限+下限)/2 推测本组平均水平。 (1)闭口组;(2)开口组。 首组组中值=(U+L)/2 =[U+(U-i)]/2 =U-i/2 =U-邻组i/2 假定:数据均匀分布或对称分布。
审计时间(天) 10—14 15—19 20—24 25—29 30—34
江西财经大学统计学院 15
统计学 第二节 概括数量数据
一、频数分布 1、如何编制数量数据的频数分布表 A、确定互不重叠的分组数量。(组数) B、确定每组组距。 C、确定组限(上限、下限、组中值)。(组限的选择以数
量数据的精确度来衡量,采用不重叠的方式)
2、举例:表2—6 3、特点:它提供了数量数据是如何分布的,提供了比原 始数据更多的信息,比原始数据更易理解。
供
年龄
(1)正J分布:右大左小;
给
(
“供给曲线”。
需 求
)
(2)反J分布:左大右小;
“需求曲线”。
价格
江西财经大学统计学院 19
统计学 第二节 概括数量数据
三、数量数据频数分布(变量数列)的类型 1、单项式数列:一个变量值代表一组。 2、组距式数列:依组距分组等距数列、异距数列。
某地人口分布表
年 龄 人数(万人)
统计学 第二章 描述统计
统计实例 超市逐渐成为人们的主要购物场所。随着我国加入WTO,
国外的一些大型零售商也在国内的一些城市开设了连锁超市, 这无疑加剧了零售业的竞争态势。2003年,一家超市面对业界 新的形式,除了在硬件设施上加大投入外,更希望在服务质量 上下功夫。为了解顾客对服务质量的要求,这家超市随机抽取 了100名前来购物的顾客,让他们填写一份简单的调查问卷, 对本店的服务质量进行评价。其中的一个问题是:“你认为本 店服务质量如何?请在下面列出的选项上划‘’”。A.好 B. 较好 C.一般 D.较差 E.差
0—10
7
10—20
11
20—30
24
30—40
8
40—50
2
合计
52
A 班学生年龄分布表
年龄 人数 频率
17
6
0.12
18
14
0.28
19
18
0.36
20
9
0.18
21
3
0.06
合计 50
1.00
江西财经大学统计学院 20
统计学 第二节 概括数量数据
四、变量数列的编制 以下是某小型会计师事务所对20个客户年终审计所需天数:12、
B、左(负)偏 有极小值。
21
5
22
3
23
1
年龄
合计 49
江西财经大学统计学院 17
统计学 第二节 概括数量数据
江西财经大学统计学院 18
统计学 第二节 概括数量数据
2、U形分布
死
亡
分布特征:两头大、中间小。 率
[例]人或动物分年龄段的死亡率、 产品按使用时间的故障率。
3、J形分布
分布特征:一边大、一边小。
频数 4 8 5 2 1
20
末组组中值=(U+L)/2=[L+(L+i)]/2
=L+i/2=L+邻组i/2
6、对重叠组限,该组的频数统计遵循“上组限不在本组内”的原
则。
江西财经大学统计学院 23
统计学 第二节 概括数量数据
五、相对频数分布与百分比频数分布 我们以定义质量数据同样的方式来定义数量数据的相对频
方法如下:A、用SAS软件中的INSIGHT作频数统计的步骤。
江西财经大学统计学院 25
统计学 第二节 概括数量数据
江西财经大学统计学院 26
统计学 第二节 概括数量数据
B、用编程的方法绘制频数分布表
江西财经大学统计学院 27
统计学 第二章 概括数量数据
江西财经大学统计学院 28
江西财经大学统计学院 4
统计学 第一节 图表法
一、 统计表 (一)定义:容纳与表现统计资料的表格。 (二)制作:上下粗线、中间细线、两边开口。 (三)结构 1.从形式看 (1)总标题:时间、空间、总体、指标
2000年A国工业企业固定资产投资情况 → 总标题
按地区分组 完成投资额(亿元) 增长率(%) 比重(%)
江西财经大学统计学院 21
统计学 第二节 概括数量数据
3、确定组限(上限、下限) 不重叠设计、第一组的下限<最小值、最末组的上限>最大值
审计时间(天) 10—14 15—19 20—24 25—29 30—34
合计
频数 4 8 5 2 1
20
注意:若数据中有异常 值,则应设置开口组。
江西财经大学统计学院 22
甲
(1)
(2)
(3)
横 东部地区
行 标
中部地区
题 西部地区
12,188 4,121 2,387
17、5 20、7 21、1
65、2 22、0 12、8
纵栏 标题
指标 数值
江西财经大学统计学院 5
统计学 第四节 图表法
(2)横行标题:总体或其分组的名称; (3)纵栏标题:指标名称; (4)指标数值。 2.从内容来看 (1)主词:说明的对象; (2)宾词:指标名称、指标数值。
14、19、18、15、15、18、17、20、27、22、23、22、21、33、 28、14、18、16、13。
试将其整理成合适的变量数列。 1、确定互不重叠的分组数量。(组数)
一般分5~20个组。 2、确定每组组距。
全距(R)=Xmax –Xmin=33—12=18 组距=全距/组数=18/5=4.2≈5
统计学 第一节 图表法
二、次数分布图
(一)图示法
1、直方图:X轴“变量”; 人数f
Y轴 “次数”。
15
宽i,高各组f。 次数分布表
12
身高
人数
9
80—90
3
6
90—100
7
100—110 13
3
110—120
5
120—130
2
30
80 90 100 110 120 130
身高x
江西财经大学统计学院 7
2000年A国工业企业固定资产投资情况 → 总标题
按地区分组 完成投资额(亿元) 增长率(%) 比重(%)
甲
(1)
(2)
(3)
纵栏 标题
横 东部地区
行 标
中部地区
题 西部地区
主词
12,188
4,121
2,387
宾
17、5
20、7
21、1
词
65、2 22、0 12、8
指标 数值
江西财经大学统计学院 6
江西财经大学统计学院 2
统计学 第二章 描述统计
要对上面的数据进行分析,你应该做些什么? 江西财经大学统计学院 3
统计学 第二章 描述统计
本章学习重点
1、理解数据图示的必要性,了解数据图示在数据分析中地位。 2、熟练数值平均数和位置平均数的计算。 3、理解变异指标的。
本章学习难点
1、变异指标的应用。 2、至少掌握一种软件分析工具制作频数分布表和各种图形。
数分布和百分比频数分布。
六、散点图及直方图(自学)
七、累积分布和累积频数图 累积分布所显示的是小于或等于每个分组的上限值观测值
的数量,而不是每组的频数。 又分累积相对频数分布、累积百分比频数分布。 累积分布的图形称为累积频数图。
江西财经大学统计学院 24
统计学 第二节 概括数量数据
附录:1、用EXCEL软件绘制频数分布 2、用SAS软件绘制频数分布
统计学 第一节 图表法
江西财经大学统计学院 8
统计学 第一节 图表法
江西财经大学统计学院 9
统计学 第一节 图表法
江西财经大学统计学院 10
统计学 第一节 图表法
江西财经大学统计学院 11
统计学 第一节 图表法
江西财经大学统计学院 12
统计学 第一节 图表法
江西财经大学统计学院 13
统计学 第一节 图表法
江西财经大学统计学院 14
统计学 第一节 概括质量数据
二、相对频数分布与百分比频数分布 1、定义
对于有n个观测值的数据集,每组的相对频数=组的频 数/n;
每组百分比频数=相对频数100。 2、举例:书中的表2-3 3、特点:用概括性表格数据的形式显示每组的相对频 数和每组的百分比频数。 三、条形图与饼图(自学)
顾客在交回问卷后,就对他们所购买的商品打九五折,以 表感谢。下面的A表是问卷回收后的原始记录。
江西财经大学统计学院 1
统计学
调查结束后,该超市针对顾客在调查中提出的问题,对员工 进行了培训,以改善服务质量。为比较改善服务质量后是否使 销售额有所提高,超市又对2004年第三季度各天的销售进行了 统计,结果如下表。
江西财经大学统计学院 16
统计学 第二节 概括数量数据
二、频数分布的类型
1、钟形分布 特征:中间大、两头小。
[例]身高、体重、智商、纤维长度、细纱强度、粮食作物产量等。 (1)对称分布:正态分布及t分布。
年龄 人数
(2)偏态分布(不对
17
5
人数
称分布)
18
10
A、右(正)偏有
极大值;
19 20
15 10
统计学 第二节 概括数量数据
4、组中值=(上限+下限)/2 推测本组平均水平。 (1)闭口组;(2)开口组。 首组组中值=(U+L)/2 =[U+(U-i)]/2 =U-i/2 =U-邻组i/2 假定:数据均匀分布或对称分布。
审计时间(天) 10—14 15—19 20—24 25—29 30—34
江西财经大学统计学院 15
统计学 第二节 概括数量数据
一、频数分布 1、如何编制数量数据的频数分布表 A、确定互不重叠的分组数量。(组数) B、确定每组组距。 C、确定组限(上限、下限、组中值)。(组限的选择以数
量数据的精确度来衡量,采用不重叠的方式)
2、举例:表2—6 3、特点:它提供了数量数据是如何分布的,提供了比原 始数据更多的信息,比原始数据更易理解。
供
年龄
(1)正J分布:右大左小;
给
(
“供给曲线”。
需 求
)
(2)反J分布:左大右小;
“需求曲线”。
价格
江西财经大学统计学院 19
统计学 第二节 概括数量数据
三、数量数据频数分布(变量数列)的类型 1、单项式数列:一个变量值代表一组。 2、组距式数列:依组距分组等距数列、异距数列。
某地人口分布表
年 龄 人数(万人)
统计学 第二章 描述统计
统计实例 超市逐渐成为人们的主要购物场所。随着我国加入WTO,
国外的一些大型零售商也在国内的一些城市开设了连锁超市, 这无疑加剧了零售业的竞争态势。2003年,一家超市面对业界 新的形式,除了在硬件设施上加大投入外,更希望在服务质量 上下功夫。为了解顾客对服务质量的要求,这家超市随机抽取 了100名前来购物的顾客,让他们填写一份简单的调查问卷, 对本店的服务质量进行评价。其中的一个问题是:“你认为本 店服务质量如何?请在下面列出的选项上划‘’”。A.好 B. 较好 C.一般 D.较差 E.差
0—10
7
10—20
11
20—30
24
30—40
8
40—50
2
合计
52
A 班学生年龄分布表
年龄 人数 频率
17
6
0.12
18
14
0.28
19
18
0.36
20
9
0.18
21
3
0.06
合计 50
1.00
江西财经大学统计学院 20
统计学 第二节 概括数量数据
四、变量数列的编制 以下是某小型会计师事务所对20个客户年终审计所需天数:12、
B、左(负)偏 有极小值。
21
5
22
3
23
1
年龄
合计 49
江西财经大学统计学院 17
统计学 第二节 概括数量数据
江西财经大学统计学院 18
统计学 第二节 概括数量数据
2、U形分布
死
亡
分布特征:两头大、中间小。 率
[例]人或动物分年龄段的死亡率、 产品按使用时间的故障率。
3、J形分布
分布特征:一边大、一边小。