04 数据的概括性度量
【统计学】4.数据的概括性度量

【统计学】4.数据的概括性度量【统计学】4.数据的概括性度量4.1 集中趋势的度量4.2 离散程度的度量4.3 偏态与峰态的度量学习⽬标1.集中趋势各测度值的计算⽅法2.集中趋势各测度值的特点及应⽤场合3.离散程度各测度值的计算⽅法4.离散程度各测度值的特点及应⽤场合5.偏态与峰态的测度⽅法6.⽤excel 计算描述统计量并进⾏统计4.1 集中趋势的度量集中趋势(central tendency )1.⼀组数据向其中⼼值靠拢的倾向和程度,反映了⼀组数据中⼼点位置所在2.测度集中趋势就是寻找数据⽔平的代表值或中⼼值3.不同类型的数据不同的集中趋势测度值4.低层次数据的测度值适⽤于⾼层次的测量数据,但⾼层次的数据的测度值并不适⽤于低层次的测量数据4.1.1 分类数据:众数众数(mode )1.⼀组数据中出现次数最多的变量值2.⼀般仅适合数据量较多时使⽤3.不受极端值得影响4.⼀组数据可能没有众数或有⼏个众数(众数可能不唯⼀也可能不存在)5.主要⽤于分类数据(分类数据只对应分类的频数),也可⽤于顺序数据和数值型数据4.1.2 顺序数据:中位数和分位数中位数(median )1.⼀组数据排序后处于中间位置上的值2.中位数不受极端值的影响3.中位数主要⽤于顺序数据,也可⽤于数值型数据,但不适⽤于分类数据中位数(位置和数值的确定)排序位置确定n +12数值确定M e =x (n +12),n 为奇数12[x (n2)+x (n2+1)],n 为偶数因此中位数不⼀定是原数据中的某个变量值四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.计算公式Q L 位置=n4,Q U 位置=3n4,4.如果是在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按⽐例分摊位置两侧数值的差值(加权平均数概念){{4.1.3 数值型数据:平均数平均数(mean )1.也称为均值2.集中趋势的最常⽤测度值3.⼀组数据的均衡点所在4.体现了数据的必然性5.易受极端值的影响6.有简单平均数和加权平均数之分7.根据总体数据计算,称为平均数,即为µ,根据样本数据计算的,称为样本平均数,即为x 简单平均数(算数平均数)设⼀组数据为:x 1,x 2,...x n (总体数据x N )样本平均数¯x =x 1+x 2+...+x n n =∑n i =1x i n 总体平均数µ=x 1+x 2+...+x N N =∑Ni =1x iN加权平均数(Weighted mean )设各组的组中值为:M 1,M 2,...,M k 相应的频数为:f 1,f 2,...f k 样本加权平均¯x =M 1f 1+M 2f 2+...M k f kf 1+f 2+...+f k=∑k i =1M i f in总体加权平均µ=M 1f 1+M 2f 2+...M k f kf 1+f 2+...+f k=∑⼏何平均数(geometric mean )1. n 个变量值乘积的n 次⽅根2. 适⽤于对⽐率数据的平均3. 主要⽤于计算平均增长率4. 计算公式为G =nx 1×x 2×...×x n =nn∏i =1xi4.1.4众数、中位数和平均数的⽐较1. 众数不受极端值影响具有不唯⼀性数据量较⼤时众数才有意义数据分布偏斜程度较⼤且有明显峰值时应⽤2. 中位数不受极端值影响数据分布偏斜程度较⼤时应⽤3. 平均数利⽤了全部数据信息,数学性质优良易受极端值影响数据对称分布或接近对称分布时应⽤4.2 离散程度的度量离中趋势1.数据分布的⼀个重要特征2.反映各变量值远离其中⼼值的程度(离散程度)3.从另⼀个侧⾯说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值4.2.1 分类数据:异众⽐率异众⽐率(variation ratio )1. 对分类数据离散程度的测度2. ⾮众数组的频数占总频数的⽐例3. 计算公式v r =∑f i −f m ∑f i=1−f m∑f i4.⽤于衡量众数是否具有代表性4.2.2 顺序数据:四分位差四分位差(quartile deviation )1. 对顺序数据离散程度的测度2. 也称为内距或四分间距3. 上四分位数与下四分位数之差Q d =Q U −Q L4. 反映了中间50%数据的离散程度5. 不受极端值影响√√6. ⽤于衡量中位数是否具有代表性4.2.3 数值型数据:⽅差和标准差极差(range)1. ⼀组数值型数据的最⼤值和最⼩值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布,数据利⽤率低5. 计算公式为R=max(x i)−min(x i)标准差(mean deviation)1. 各变量值与其平均数离差绝对值的平均数2. 能全⾯反映⼀组数据的离散程度3. 数学性质差,实际应⽤较少4. 计算公式未分组数据M d=∑n i=1|x i−¯x|n组距分组数据Md=∑k i=1|M i−¯x|fin⽅差和标准差(variance and standard deviation)1. 各变量与其平均数离差平⽅的平均数2. 数据离散程度的最常⽤测度值3. 反映了各变量与均值的平均差异4. 根据总体数据计算的,称为总体⽅差(标准差)σ2(σ)根据样本数据计算的,称为样本⽅差(标准差)s2(s)⽅差的计算公式未分组数据s2=∑n i=1(x i−¯x)2n−1组距分组数据s2=∑k i=1(M i−¯x)2fin−1标准差的计算公式未分组数据s=∑n i=1(x i−¯x)2n−1组距分组数据s=∑k i=1(M i−¯x)2fin−1为什么是除以n-1⽽不是n?⾃由度(degree of freedom)1. ⾃由度是指数据个数与附加给独⽴观测值的约束或限制的个数之差2. 从字⾯涵义看,⾃由度是指⼀组数据中可以⾃由取值的个数3. 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以⾃由取值,其中必有⼀个数据不能⾃由取值。
统计学第4章学习指导

第4章(数据的概括性度量)学习指导数据分布的特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。
掌握计算、特点及其应用场合。
主要内容学习要点2.1 集中趋势的度量众数▶概念:众数。
▶众数的特点。
中位数和分位数▶概念:中位数,四分位数。
▶中位数和四分位数的特点。
▶中位数和四分位数的计算。
平均数▶概念:平均数,简单平均数,加权平均数,调和平均数,几何平均数。
▶简单平均数和加权平均数的计算。
▶用Excel中的统计函数计算平均数。
▶几何平均数的计算和应用场合。
众数、中位数和平均数的比较▶众数、中位数和平均数在分布上的关系。
▶众数、中位数和平均数的特点及应用场合。
异众比率▶概念:异众比率异众比率的计算和应用场合。
2.2离散程度的度量四分位差(内距)概念:四分位差。
四分位差的计算。
用Excel中的统计函数计算四分位差。
方差和标准差概念:极差,平均差,方差,标准差。
样本方差和标准差的计算。
用Excel计算标准差。
离散系数概念:离散系数。
离散系数的计算。
离散系数的用途。
2.3偏态与峰态的度量偏态及其测度概念:偏态,偏态系数。
用Excel计算偏态系数。
偏态系数数值的意义。
峰态及其测度概念:峰态,峰态系数。
用Excel计算峰态系数。
峰态系数数值的意义。
Excel统计函数的应用。
一)判断题1,各变量值与其平均数的离差之和为最小值。
( )2.当各组的变量值所出现的频率相等时,加权算术平均数中的权数就失去作用,因而,加权算术平均数也就等于简单算术平均数( )3.比较两总体的平均数的代表性,离散系数较小的总体,平均数代表性亦小。
( )4,平均数与次数和的乘积等于各变量值与次数乘积的和。
( )5.若两总体的平均数不同,而标准差相同,则离散系数也相同。
( )6.并非任意一个变量数列都可以计算其算术平均数、中位数和众数。
统计学第四章统计数据的概括性度量

4-3
经济、管理类 基础课程
统计学
一、统计数据的概括性度量方法—统计指标
1、概念:统计指标是反映现象总体综合数量特征的基本概念及其具体 数值的总称 2、特点:同质事物的可量性和量的综合性 3、作用: (1)是记录社会经济现象发展变化情况的工具,也是反映社会经济现 象数量规律的手段 (2)是进行社会经济管理和科学研究的基本依据 4、种类: (1)按作用和表现形式的不同分为:总量指标、相对指标、平均指标、 离散指标和形状指标 (2)按其所反映的内容和数量性质不同分为:数量指标和质量指标 (3)按其反映现象的时间状况不同分为:静态指标和动态指标 (4)按其计算范围不同分为:总体指标和样本指标 (5)按其计量单位不同可分为:实物指标、价值指标和劳动量指标
经济、管理类 基础课程
统计学
第四章 统计数据的概括性度量
4-1
经济、管理类 基础课程
统计学
第一节 第二节 第三节 第四节
第四章 统计数据的概括性度量
统计数据的概括性度量理论 集中趋势的度量 离散程度的度量 偏态与峰态的度量
4-2
经济、管理类 基础课程
统计学
第一节 统计数据的概括性度量理论
一、统计数据的概括性度量方法——统计指标 二、总量指标 三、相对指标 四、数据分布的特征及度量 (集中趋势、离中趋势、分布形状的测度)
4-8
经济、管理类 基础课程
统计学
三、相对指标
5、种类与计算方法
(3)比例相对数:是总体内部分与部分的数据对比,反映事物各组成部分 之间的数量联系程度,常用系数或倍数,以及n:1或n:100或1:m:n 的连比等形式表示 公式为: 比例相对指标=(总体中某一部分数值÷总体中另一部分数值)×100% 注意:分子分母指标可以互换、对比数值可以大于1或小于1,这一特点与 结构相对数不同。该指标有助于认识客观现象是否按比例协调发展 (4)比较相对数:是同类现象在不同国家、地区、部门、单位之间的数值 对比,用以表现同类现象在不同空间条件下的数量对比关系。常用百 分数、系数、倍数等表示。 公式为: 比较相对指标=某条件下的某类指标数值÷另一条件下同类指标数值 注意:分子分母可以互换,根据研究需要决定
第4章 数据的概括性度量(数据特征的描述PPT课件

满意
45
270
非常满意
30
300
合计
300
—
解:QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225
从累计频数看, QL在“ 不满意”这一组别中; QU 在“一般”这一组别中。因 此
QL = 不满意 QU = 一般
18.08.2020
22
数值型数据的四分位数
9个家庭的人均月收入数据
离散程度 (离中趋势)
离散程度:反映各数据远离中心的趋势
18.08.2020
5
分布形状 (偏态和峰态)
分布形状:反映数据分布的偏态和 峰态
18.08.2020
6
数据分布特征的测度
数据特征的测度
集中趋势
众数 中位数 均值
18.08.2020
离散程度
分布的形状
异众比率 四分位差 方差和标准差 离散系数
Mi
成交额 (元)
Mi fi
成交量 (公斤)
fi
甲 1.20 18000 15000 乙 0.50 12500 25000 丙 0.80 6400 8000
合计 — 36900 48000
解:由公式
Hm
Mi fi Mi fi
Mi fi
fi
Mi
所以 H m
成交额
成交额 批发价格
36900 0.769(元) 48000
调和平均数:是均值的另一种表现形式。 它易受极端值的影响。
计算公式为:
Hm
Mi fi Mi fi
Mi fi fi
Mi
18.08.2020
31
例题分析:调和平均数
【例4.10】某蔬菜批发市场三种蔬菜的日成交数 据如下表,计算三种蔬菜该日的平均批发价格.
统计学各章计算题公式及解题方法

统计学各章计算题公式及解题方法第四章数据的概括性度量1.组距式数值型数据众数的计算:确定众数组后代入公式计算:下限公式:;上限公式:,其中,L为众数所在组下限,U为众数所在组上限,为众数所在组次数与前一组次数之差,为众数所在组次数与后一组次数之差,d为众数所在组组距2.中位数位置的确定:未分组数据为;组距分组数据为3.未分组数据中位数计算公式:4.单变量数列的中位数:先计算各组的累积次数(或累积频率)—根据位置公式确定中位数所在的组-对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在该组内均匀分布)5.组距式数列的中位数计算公式:下限公式:;上限公式:,其中,为中位数所在组的频数,为中位数所在组前一组的累积频数,为中位数所在组后一组的累积频数6.四分位数位置的确定:未分组数据:;组距分组数据:7.简单均值:8.加权均值:,其中,为各组组中值统计学各章计算题公式及解题方法9.几何均值(用于计算平均发展速度):10.四分位差(用于衡量中位数的代表性):11.异众比率(用于衡量众数的代表性):12.极差:未分组数据:;组距分组数据:13.平均差(离散程度):未分组数据:;组距分组数据:14.总体方差:未分组数据:;分组数据:15.总体标准差:未分组数据:;分组数据:16.样本方差:未分组数据:;分组数据:17.样本标准差:未分组数据:;分组数据:18.标准分数:19.离散系数:第七章参数估计1.的估计值:置信水平α90%0.1 0。
05 1.65495% 0。
05 0.025 1.9699% 0.01 0。
005 2。
58统计学各章计算题公式及解题方法2.不同情况下总体均值的区间估计:总体分布样本量σ已知σ未知大样本(n≥30)正态分布小样本(n<30)非正态分布大样本(n≥30)其中,查p448 ,查找时需查n—1的数值3.大样本总体比例的区间估计:4.总体方差在置信水平下的置信区间为:5.估计总体均值的样本量:,其中,E为估计误差6.重复抽样或无限总体抽样条件下的样本量:,其中π为总体比例第八章假设检验1.总体均值的检验(已知或未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]假设双侧检验左侧检验右侧检验假设形式已知统计量未知拒绝域值决策,拒绝2.总体均值检验(未知,小样本,总体正态分布)假设双侧检验左侧检验右侧检验统计学各章计算题公式及解题方法假设形式已知统计量未知拒绝域值决策,拒绝注:已知的拒绝域同大样本3.一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中为假设的总体比例)假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策,拒绝4.总体方差的检验(检验)假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策,拒绝5.统计量的参考数值0.1 0。
第四章数据的概括性度量

第四章数据的概括性度量一、填空题1.一组数据向某一中心值靠拢的倾向反映了数据的———————。
2. ————是一组数据中出现次数最多的变量值。
3.一组数据排序后处于中间位置上的变量值称——————。
4.不受极端值影响的集中趋势度量指标有————、————和————。
5.一组数据的最大值与最小值之差称————。
6. —————是一组数据的标准差与其相应的平均数之比。
7.数据分布的不对称性是——————。
8.数据分布的平峰或尖峰程度称——————9.计算比率的平均数一般用—————,它实际上是各变量值对数的—————。
二、单项选择题1.对于对称分布的数据,众数、中位数和平均数的关系是:A.众数>中位数>平均数B.众数=中位数=平均数C.平均数>中位数>众数D.中位数>众数>平均数2.可以计算平均数的数据类型有:A.分类型数据B.顺序型数据C.数据型数据D.所有数据类型3.顺序数据的集中趋势测度指标有:A.众数B.中位数C.四分位差D.标准分数4.数据型数据的离散程度测度方法中,受极端变量值影响最大的是:A.极差B.方差C.均方差D.平均差5.当偏态系数为正数时,说明数据的分布是:A.正态分布B.左偏分布C.右偏分布D.双峰分布三、多项选择题1.数据的分布特征可以从哪几个方面测度和描述:A.集中趋势B.分布的偏态C.分布的峰态D.离散程度E.长期趋势2.受极端变量值影响的集中趋势度量指标是A.众数B.中位数C.算术平均数D.调和平均数E.几何平均数3.加权算术平均数大小的影响因素有:A.变量值B.样本容量C.权数D.分组的组数E.数据的类型4.数据型数据离散程度的测度指标有:A.异众比率B.极差C.标准差D.四分位数E.离散系数5.离散系数的主要作用是:A.说明数据的集中趋势B.比较不同计量单位数据的离散程度C.说明数据的偏态程度D.比较不同变量值水平数据的离散程度E.说明数据的峰态程度四、简答题1.什么是数据的集中趋势?反映数据集中趋势的指标有哪些?2.什么是数据的离散程度?常用的测度离散程度的指标有哪些?3.怎样理解平均数在统计学中的地位4.简述众数、中位数和均值的特点和应用场合。
(04)第4讲 数据的概括性度量

20112011-3-12
Jinling College of Nanjing University
数据分布的特征
集中趋势 (位置 位置) 位置 离散趋势 (分散程度 分散程度) 分散程度 偏态和峰态 (形状) 形状)
20112011-3-12
Jinling College of Nanjing University
4.1.3
数值型数据:平均数
20112011-3-12
Jinling College of Nanjing University
平均数
(mean) 1. 也称为均值 2. 集中趋势的最常用测度值 3. 一组数据的均衡点所在 x 体现了数据的必然性特征 易受极端值的影响 有简单平均数和加权平均数之分 根据总体数据计算的,称为平均数,记为µ; 根据样本数据计算的,称为样本平均数, 记为x
20112011-3-12
第 4 章 数据的概括性度量
本讲主要内容 4.1 集中趋势的度量 4.2 离散程度的度量 4.3 偏态与峰态的度量
20112011-3-12
Jinling College of Nanjing University
第 4 章 数据的概括性度量
本讲主要内容 4.1 集中趋势的度量 4.2 离散程度的度量 4.3 偏态与峰态的度量
集中趋势
(central tendency)
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值 4. 低层次数据的测度值适用于高层次的测量数据,但高 层次数据的测度值并不适用于低层次的测量数据
20112011-3-12
Jinling College of Nanjing University
《统计学原理》随堂作业2020春华南理工大学网络教育答案

第一章 绪论1. 统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律的过程。
T 参考答案:√2.描述统计学是研究如何根据样本数据去推断通体数量特征的方法。
F 参考答案:×3. 描述统计学是整个统计学的基础,推断统计学是现代统计学的主要内容。
4. 推断统计学在现代统计学中的地位和作用越来越重要,已成为统计学的核心内容。
11. 考试成绩分为优、良、中、及格、不及格,这是按定类尺度划分的。
参考答案:× 12. 考试成绩用“百分制”度量,这是按定比尺度划分的。
参考答案:× 13. 将全部人口分为男女两部分,男性所占比重就是比率相对数。
参考答案:× 14. 动态数列就是将某同时期的各指标数值按照组别进行排序得到的数列。
参考答案:× 15. “企业数”、“年龄”都是离散变量。
参考答案:× 16. “性别”、“产品等级”属于数量变量。
参考答案:×17. 数据的加工处理方法、数据分布特征的概括与分析方法等属于描述统计学的内容。
参考答案:√ 18. 人的身高、体重、机器设备台数等都是连续变量。
参考答案:× 19. 离散变量的变量值只能按整数计算,不可能有小数。
参考答案:×20. 价值单位是以货币形式对现象进行度量,如国民生产总值、商品销售额等。
参考答案:√第二章 统计数据的搜集与整理1. 统计数据的直接来源主要有专门组织的调查和科学试验两个渠道。
2. 由《中国统计年鉴》获得的数据属于直接的统计数据。
4. 普查一般要规定统一的标准调查时间,以避免调查数据的重复或遗漏。
统计学原理 - 随堂练习参考答案:√T参考答案:√5. 统计数据的计量尺度分为定类尺度、定序尺度、定距尺度和定比尺度。
参考答案:√6. 定量数据说明的是现象的数量特征,是能够用数值来表现。
7. 定性数据说明的是现象的品质特征,是不能用数值来表参考答案:×3. 普查具有调查费用低、时效性高、适应面广、准确性高等特点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
经管类 核心课程
统计学
一个众数 原始数据: 5
一个众数 原始数据: 5 6
众数(众数的不唯一性)
7
9
8
7
7
6
7
8
7
7
多于一个众数 原始数据: 25 28 28 36 42 42 48 无众数 原始数据:10 5 9 12 6 8
经管类 核心课程
统计学
分类数据的众数(例题)
解:这 里的变 量为 “饮料 品牌 ” ,是 个分类 变量 , 不同 的品牌 就是变 量值 。在 所 调查 的 50人 中,购 买可口 可乐 的人 数 最多 , 为15 人,因 此众数 为 “ 可口可 乐 ”这 一品 牌,即
M =可口可乐
【例4.1】根据第三章表3-4 中的数据,计算“饮料品牌 ”众数
数据类型
品质数据 汇总表 原始数据
数值型数据 分组数据 时序数据 多变量数据
条 饼 环 形 图 形 图 图
茎 叶 图
箱 线 图
直 方 图
线 图
散 点 图
气 泡 图
雷 达 图
经管类 核心课程
统计学
§2.4 合理使用图表
3.4.1 鉴别图形优劣的准则 3.4.2 统计表的设计
经管类 核心课程
统计学
3.4.1 鉴别图形优劣的准则
经管类 核心课程
统计学
数值型数据的四分位数(例题)
【例4.6】在某城市中随机抽取9个家庭,调查得到 每个家庭的人均月收入数据如下(单位:元)。要求 计算人均月收入的四分位数。 750 780 850 960 1080 1250 1500 1630 2000
1.一张精心设计的图形是展示数据的最有效工 具,精心设计的图形可以准确表达数据所要 传递的信息。 2.在设计图形时,应绘制得尽可能简洁,以能 够清晰地显示数据、合理地表达统计目的为 依据 3.在绘制图形时,应避免一切不必要的修饰, 过于花哨的修饰往往会使人注重图形本身, 而掩盖了图形所要表达的信息。
一般 满意 非常满意 合计
78 64 38 198 262 300
300 1 中位数位置 2 150 .5
300
-
故M e 一般
经管类 核心课程
统计学
数值型数据的中位数(例题)
【例4.5】在某城市中随机抽取9个家庭,调查得到 每个家庭的人均月收入数据如下(单位:元)。要求 计算人均月收入的中位数。 1500 750 780 1080 850 960 2000 1250 1630 解:先将上面的数据排序,结果如下: 750 780 850 960 1080 1250 1500 1630 2000
行 标 题
调查户数 平均每户家庭人口 平均每户就业人口 平均每户就业面 平均一就业者负担人数 平均每人全部年收入 #可支配收入 平均每人消费性支出
3.01 1.58 52.49 1.91 9061.22 8472.20 6510.94
资料来源:《中国统计年鉴2004》,359页,北京,中国统计出版社,2004。 附 注:本表为城镇居民家庭收支抽样调查材料。
Mo=不满意
【例4.2】根据第三章甲城市 家庭对住房状况评价的数据 ,计算众数
表3-6 甲城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意
甲城市
户数 (户) 24 108 93 45 30 百分比 (%) 8 36 31 15 10
合计
300
பைடு நூலகம்
100.0
经管类 核心课程
经管类 核心课程
统计学
统计表的比较与选用
经管类 核心课程
统计学
统计表的比较与选用
经管类 核心课程
统计学
统计表的比较与选用
经管类 核心课程
统计学
第四章 数据分布特征的测度
经管类 核心课程
统计学
第四章 数据分布特征的测度
§4.1 集中趋势的测度 §4.2 离散程度的测度 §4.3 偏态与峰态的测度
( 2 )
Me
x
n ( ) 2
x 2
n ( 1) 2
n为 偶 数
经管类 核心课程
统计学
顺序数据的中位数(例题)
【例4.4】根据第三章甲城市 解:这是顺序数据。 家庭对住房状况评价的数据 变量为“回答类别” ,计算中位数 。其中的五个选项即 表3-6 甲城市家庭对住房状况评价的频数分布 为变量值。由于变量 甲城市 回答类别 值本身就是排序的, 户数 (户) 向上累积频数 根据中位数的位置确 24 24 非常不满意 定公式有: 108 132 不满意
经管类 核心课程
统计学
鉴别图形优劣的准则
塔夫特还提出了5种鉴别图形优劣的准则: (1)一张好的图形应当精心设计,有助于洞察问题 的实质: (2)一张好的图形应当使复杂的观点得到简明、确 切、高效地阐述: (3)一张好的图形应能在最短的时间内以最少的笔 墨给读者提供最大量的信息。 (4)一张好的图形应当是多维的。 (5)一张好的图形应当表述数据的真实情况。
统计学
顺序数据的众数
解:这里的数据 为顺序数据。变 量为“回答类别 ”。乙城市中对 住房表示不满意 的户数最多,为 99户,因此众数 为“不满意”这 一类别,即
Mo=不满意
根 据第 三章乙城市家庭对 住房状况评价的数据,计算 众数
表3-7 乙城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意
一般 满意 非常满意 合计 93 45 30 300 225 270 300 -
300 1 中位数位置 2 150 .5
故M e 一般
经管类 核心课程
统计学
顺序数据的中位数(例题)
根据第三章乙城市家庭 解:这是顺序数据。 对住房状况评价的数据,计 变量为“回答类别” 算中位数 。其中的五个选项即 表3-7 乙城市家庭对住房状况评价的频数分布 为变量值。由于变量 乙城市 回答类别 值本身就是排序的, 户数 (户) 向上累积频数 根据中位数的位置确 非常不满意 21 21 定公式有: 不满意 99 120
9 1 中位数位置 5 2
所以中位数是1080,即Me=1080元。
经管类 核心课程
统计学
数值型数据的中位数(例题)
如果数据个数为偶数时怎样计算中位数。假定在例 4.5中抽取了10个家庭,每个家庭的人均月收入数 据排序后为: 660 750 780 850 960 1080 1250 1500 1630 2000
经管类 核心课程
统计学
中位数的位置确定
未分组数据计算中位数的步骤:
(1)对数据进行排序:
设一组数据为: x2, ,xn, x1,
按从小到大排序后:),x( 2), ,x( n), x(1 n 1 (2)确定中位数的位置: 中位数位置 2 (3)求出中位数的值: x n 1 n为 奇 数
经管类 核心课程
统计学
数据的预处理
上节内容总结
1.数据的审核:检查数据中的错误 原始数据:完整性和准确性 二手数据:适用性和时效性 2.数据的筛选:找出符合条件的数据 3.数据排序:升序和降序 数据的整理
1.品质数据的整理:数据的分类 2.数值型数据的整理:数据的分组
经管类 核心课程
统计学
数据的图示
加
经管类 核心课程
统计学
统计表的设计
1.合理安排统计表的结构 2.表头一般包括表号、总标题和表中数据的单位等内 容。总标题内容应满足3W (时间、地点、何种数 据)要求 3.数据计量单位相同时,可放在表的右上角标明,不 同时应放在每个指标后或单列出一列标明 4.表中的上下两条横线一般用粗线,其他线用细线 5.通常情况下,统计表的左右两边不封口 6.表中的数据一般是右对齐,有小数点时应以小数点 对齐,而且小数点的位数应统一 7.对于没有数字的表格单元,一般用“—”表示 8.必要时可在表的下方加上注释
经管类 核心课程
统计学
4.1.1. 4.1.2. 4.1.3. 4.1.4.
§4.1 集中趋势的测度
分类数据:众数 顺序数据:中位数和分位数 数值型数据:平均数 众数、中位数和平均数的比较
经管类 核心课程
统计学
一.
集中趋势
1. 集中趋势(Central tendency)是指一组数据向其中心 值靠拢的倾向和程度,它反映了一组数据中心点 的位置所在。 2. 不同类型的数据用不同的集中趋势测度值
经管类 核心课程
统计学
鉴别图形优劣的准则
塔夫特(Tufte)指出,一张好的图形应包括以下基 本特征: (1)显示数据。 (2)让读者把注意力集中在图形的内容上,而不是 制作图形的程序上 (3)避免歪曲。 (4)强调数据之间的比较。 (5)服务于一个明确的目的。 (6)具有对图形的统计描述和文字说明
经管类 核心课程
统计学
四分位数的确定
计算四分位数的步骤:
(1)对数据进行排序:
x(1),x( 2), ,x( n),
(2)确定四分位数的位置:
n 3n 下四分位数QL 位置 上四分位数QU 位置 4 4
(3)求出四分位数的值:如果位置是整数,四分位数 就是该位置对应的值;如果是在0.5的位置上,则取 该位置两侧的平均数;如果是在0.25或0.75的位置 上,则四分位数等于该位置的下侧值加上按比例分 摊两侧的差值。
乙城市
户数 (户)
21 99 78 64 38
百分比 (%)
7.0 33.0 26.0 21.3 12.7
合计
300