统计学 第2章 统计数据的描述

合集下载

统计学之统计数据的描述

统计学之统计数据的描述

则必然取2,而不能取其他
离散系数
离散系数
(coefficient of variation)
1. 标准差与其相应的均值之比 2.对数据相对离散程度的测度 3.消除了数据水平高低和计量单位的影

4v.用 较于对不同组别数v据s 离散程xs度的比
【 例 】某管理局抽查了所属的8家企业 ,其产品销售数据如表。试比较产品销售 额与销售利润的离散程度
累积的收入百分比
绝对公平线
A B
累积的人口百分比
基尼系数
1. 20世纪初意大利经济学家基尼(G. Gini)根据
洛伦茨曲线给出了衡收入分配平均程度的指
标 基尼系数=
A
A B
2. A表示实际收入曲线与绝对平均线之间的面积 3. B表示实际收入曲线与绝对不平均线之间的面

A B
• 如果A=0,则基尼系数=0,表示收入绝对 平均
一般用x表示变量;用f表示频数(次数) 。
2.1.3 次数分配图
分组数据—直方图和折线图
Excel
用直方形的宽度和高度来表示次数分 布的图形。
绘制直方图时,横轴表示各组组限, 纵轴表示次数(一般标在左方)和比 率(或频率,一般标在右方)。
分组数据的图示
我一眼就看 出来了,销 售量在170~ 180之间的天 数最多!
1. 一组数据中可以自由取值的数据的个数
2. 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其
中必有一个数据则不能自由取值
3.
例如,样
x3=9,则
本有
x
3个数值,即
= 5。当 x
x=1=52,确x定2=4后,,x
1

医学统计学-第二章 统计描述

医学统计学-第二章 统计描述
变异系数(Coefficient of variation,CV)
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。

【统计学】04 第二章 定量资料的统计描述

【统计学】04 第二章 定量资料的统计描述

频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X

统计学 第2章 统计数据的描述

统计学 第2章 统计数据的描述

第2章统计数据的描述练习:2.1为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。

服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。

调查结果如下:B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB ACDE A B D D CA DBC C A ED C BC B C ED B C C B C(1) 指出上面的数据属于什么类型;(2)用Excel制作一张频数分布表;(3) 绘制一张条形图,反映评价等级的分布。

2.2某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元):152 124 129 116 100 103 92 95 127 104105 119 114 115 87 103 118 142 135 125117 108 105 110 107 137 120 136 117 10897 88 123 115 119 138 112 146 113 126(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率;(2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业,105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。

2.3某百货公司连续40天的商品销售额如下(单位:万元):41 25 29 47 38 34 30 38 43 4046 36 45 37 37 36 45 43 33 4435 28 46 34 30 37 44 26 38 4442 36 37 37 49 39 42 32 36 35根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。

统计学PPT第二章:描述资料

统计学PPT第二章:描述资料
• 次数分布 • 找到分布最多的观测值
▪ 众数不一定存在,也不一定唯一 ▪ 事实上,连续型变量很难精确地找到众数
▪ 分布
众数位置
8
6
frequency
4
2

7
13 17 20 23 26 29 32 35 38 42
49
61
james
众数
▪ 位置:最多分布为9 ▪ 众数:33
xj 25, xd 33
分位数
▪ q分位数:观测值从小到大排序后,q等分,处 于分界点上的数
• 二分位数(中位数) • 三分位数(tertiles) • 四分位数(quartiles) • 五分位数(quintiles) • 六分位数(sextiles) • 十分位数(deciles) • 十二分位数(duo-deciles) • 二十分位数(vigintiles) • 百分位数(percentiles) • 千分位数(permilles)
右偏
正态分布(normal distribution)
▪ 也叫高斯分布(gaussian distribution)是一 种完美的、对称的钟型分布,可以用函数精确 地表达出来
▪ 实践中大量的变量逼近正态分布,换而言之, 一个变量大约成正态分布才是正常(normal) 的
杜兰特
10 15 20 25 30
詹姆斯
60
50
40
james
30
20
10
0
20
40
60
80
100
no
杜兰特
50
40
durant
30
20
0
20
40
60
80
100

统计数据的描述(统计学)

统计数据的描述(统计学)

可以添加误差线来表示数据的波动范 围。
适用于展示定类变量和定比变量的数 据,如示时间序列数 据的变化趋势,便于 观察数据随时间的变 化规律。
可以添加趋势线来预 测未来的发展趋势。
适用于展示定比变量 的数据,如某品牌在 不同年份的销售数据。
饼图
用以展示分类数据的占比关系, 便于比较不同类别之间的比例大
在统计学中,许多随机变量遵循正态分布,例如人类的身高、考试分数 等。
偏态分布
偏态分布是指数据分布不对称的情况, 即数据偏向某一方向。
偏态分布的原因可能是数据本身的特性 偏态分布的描述需要使用中位数、均值
或测量误差。
和众数等统计量来全面了解数据特征。
峰态分布
峰态分布是指数据分布的形状 较为尖锐或平坦的情况。
峰态分布的判断可以使用峰 度系数来衡量,该系数描述 了数据分布的陡峭程度。
在峰态分布中,数据值在均值 附近较为集中,远离均值的数 据较少,形成较为尖锐或平坦
的分布形状。
05
数据的异常值处理
识别异常值的方法
统计检验法
通过统计检验,如Z分数、IQR等方 法,识别出异常值。
经验判断法
根据业务经验和专业知识,判断某些 数据是否异常。
小。
适用于展示定类变量的数据,如 某公司各部门的销售额占比。
可以添加图例来解释各部分所代 表的含义。
散点图
用以展示两个变量之间的相关 关系,便于发现变量之间的关 联和趋势。
适用于展示定比变量的数据, 如广告投入与销售额之间的关 系。
可以添加回归线来表示变量之 间的线性关系。
03
统计数据的数值描述
THANKS
感谢观看
统计数据的描述(统 计学)

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

统计学第二章

统计学第二章

按性别分组 男生 女生 合计
人数 30 20 50
百分比 % 60 40 100

三、按数量标志分组
按照数量或数值等定量指标分组,称为按数量 标志分组。
(1)单变量分组:一个变量值为一组,适合离散 变量,且变量值较少。步骤是先排序再分组。 (2)组距分组:
将全部变量值划分为若干区间,并将这一区间的变量值 作为一组,适用于连续变量或变量值较多的情况。 需要遵循“不重不漏”的原则,可采用等距分组,也可 采用不等距分组。
2.1 统计数据的整理
2.1.0 2.1.1 2.1.2 2.1.3 2.1.4 数据的预处理 统计数据的分组 次数分配 次数分配直方图 洛伦茨曲线
2.1.0 数据的预处理
一、数据的审核 对原始数据,审核完整性和准确性。前者指 调查单位是否遗漏、项目是否齐全等;后者 指数据是否真实、是否错误等。方法是逻辑 检查和计算检查。 对二手数据审核完整性和准确性外,着重审 核数据的适用性和时效性。前者应清楚数据 的来源、口径和背景,后者应注意数据的时 间,使用最新的数据。
当f-1=f+1时如图(a),当f-1>f+1时如图(b), 当f-1<f+1时如图(c)。
(a)
(b)
(c)
②公式计算:
上限公式
f f 1 M0 U ( f f 1) ( f f f f 1 M0 L ( f f 1) ( f f
1
2.1.2 次数分配
对于例2-1采用组距分组,计算组数K=1+1g30/ 1g2=5(组),组距 =(128-84)/ 5=8.8,组距取10件,整理成频数分布表2-3。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第2章统计数据的描述练习:2.1为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。

服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。

调查结果如下:B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB ACDE A B D D CA DBC C A ED C BC B C ED B C C B C(1) 指出上面的数据属于什么类型;(2)用Excel制作一张频数分布表;(3) 绘制一张条形图,反映评价等级的分布。

2.2某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元):152 124 129 116 100 103 92 95 127 104105 119 114 115 87 103 118 142 135 125117 108 105 110 107 137 120 136 117 10897 88 123 115 119 138 112 146 113 126(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率;(2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业,105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。

2.3某百货公司连续40天的商品销售额如下(单位:万元):41 25 29 47 38 34 30 38 43 4046 36 45 37 37 36 45 43 33 4435 28 46 34 30 37 44 26 38 4442 36 37 37 49 39 42 32 36 35根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。

2.4为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果如下:700 716 728 719 685 709 691 684 705 718706 715 712 722 691 708 690 692 707 701708 729 694 681 695 685 706 661 735 665668 710 693 697 674 658 698 666 696 698706 692 691 747 699 682 698 700 710 722694 690 736 689 696 651 673 749 708 727688 689 683 685 702 741 698 713 676 702701 671 718 707 683 717 733 712 683 692693 697 664 681 721 720 677 679 695 691713 699 725 726 704 729 703 696 717 688(1)利用计算机对上面的数据进行排序;(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;(3)绘制茎叶图,并与直方图作比较。

2.5下面是北方某城市1~2月份各天气温的记录数据:-3 2 -4 -7 -11 -1 7 8 9 -6 -7-14 -18 -15 -9 -6 -1 0 5 -4 -9 -3-6 -8 -12 -16 -19 -15 -22 -25 -24 -19 -21-8 -6 -15 -11 -12 -19 -25 -24 -18 -17 -24-14 -22 -13 -9 -6 0 -1 5 -4 -9 -3-3 2 -4 -4 -16 -1 7 5 -6 -5(1)指出上面的数据属于什么类型;(2)对上面的数据进行适当的分组;(3)绘制直方图,说明该城市气温分布的特点。

2.6下面是某考试管理中心对2002年参加成人自学考试的12000名学生的年龄分组数据:年龄18~19 21~21 22~24 25~29 30~34 35~39 40~44 45~59% 1.9 34.7 34.1 17.2 6.4 2.7 1.8 1.2(1)对这个年龄分布作直方图;(2)从直方图分析成人自学考试人员年龄分布的特点。

2.7下面是A、B两个班学生的数学考试成绩数据:A班:44 57 59 60 61 61 62 63 63 6566 66 67 69 70 70 71 72 73 7373 74 74 74 75 75 75 75 75 7676 77 77 77 78 78 79 80 80 8285 85 86 86 90 92 92 92 93 96B班:35 39 40 44 44 48 51 52 52 5455 56 56 57 57 57 58 59 60 6161 62 63 64 66 68 68 70 70 7171 73 74 74 79 81 82 83 83 8485 90 91 91 94 95 96 100 100 100(1)将两个班的考试成绩用一个公共的茎制成茎叶图;(2)比较两个班考试成绩分布的特点。

2.81997年我国几个主要城市各月份的平均相对湿度数据如下表,试绘制箱线图,并分析月份北京长春南京郑州武汉广州成都昆明兰州西安1 49 70 76 57 77 72 79 65 51 672 41 68 71 57 75 80 83 65 41 673 47 50 77 68 81 80 81 58 49 744 50 39 72 67 75 84 79 61 46 705 55 56 68 63 71 83 75 58 41 586 57 54 73 57 74 87 82 72 43 427 69 70 82 74 81 86 84 84 58 628 74 79 82 71 73 84 78 74 57 559 68 66 71 67 71 81 75 77 55 6510 47 59 75 53 72 80 78 76 45 6511 66 59 82 77 78 72 78 71 53 7312 56 57 82 65 82 75 82 71 52 72资料来源:《中国统计年鉴1998》,中国统计出版社1998,第10页。

2.9某百货公司6月份各天的销售额数据如下(单位:万元):257 276 297 252 238 310 240 236 265 278271 292 261 281 301 274 267 280 291 258272 284 268 303 273 263 322 249 269 295(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。

2.10甲乙两个企业生产三种产品的单位成本和总成本资料如下:产品名称单位成本(元)总成本(元)甲企业乙企业ABC152030210030001500325515001500比较哪个企业的总平均成本高?并分析其原因。

2.11在某地区抽取的120家企业按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)200~300 19300~400 30400~500 42500~600 18600以上11合计120计算120家企业利润额的均值和标准差。

2.12一项关于大学生体重状况的研究发现,男生的平均体重为60公斤,标准差为5公斤;女生的平均体重为50公斤,标准差为5公斤。

请回答下面的问题:(1)是男生的体重差异大还是女生的体重差异大?为什么?(2)以磅为单位(1公斤=2.2磅),求体重的平均数和标准差。

(3)粗略地估计一下,男生中有百分之几的人体重在55公斤到65公斤之间?(4)粗略地估计一下,女生中有百分之几的人体重在40公斤到60公斤之间?2.13对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如下:成年组166 169 172 177 180 170 172 174 168 173幼儿组68 69 68 70 71 73 72 73 74 75(1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么?(2)比较分析哪一组的身高差异大?2.14一种产品需要人工组装,现有三种可供选择的组装方法。

为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。

下面是15个工人分别用三种方法在相同的时间内组装的产品数量(单位:个):方法A 方法B 方法C164 129 125167 130 126168 129 126165 130 127170 131 126165 130 128164 129 127168 127 126164 128 127162 128 127163 127 125166 128 126167 128 116166 125 126165 132 125(1)你准备采用什么方法来评价组装方法的优劣?(2)如果让你选择一种方法,你会作出怎样的选择?试说明理由。

2.15在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。

预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。

下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。

在股票市场上,高收益率往往伴随着高风险。

但投资于哪类股票,往往与投资者的类型有一定关系。

(1)你认为该用什么样的统计测度值来反映投资的风险?(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?(3)如果你进行股票投资,你会选择商业类股票还是高科技类股票?-30 0 30 60 -30 0 30 60收益率收益率(a)商业类股票(b) 高科技类股票2.16下图给出了2000年美国人口年龄的金字塔,其绘制方法及其数字说明与【例2.10】相同,试对该图反映的人口、政治、社会、经济状况进行分析。

频数25502550频数2000年美国人口年龄结构金字塔-20-10010200-4(96-00)5-9(91-95)10-14(86-90)15-19(81-85)20-24(76-80)25-29(71-75)30-34(66-70)35-39(61-65)40-44(56-60)45-49(51-55)50-54(46-50)55-59(41-45)60-64(36-40)65-69(31-35)70-74(26-30)75-79(21-25)80-84(16-20)85-89(11-15)90-94(06-10)95-99(01-05)年龄人数(百万)女男答案2.1 (1)属于顺序数据。

相关文档
最新文档