数据特征的测度

合集下载

统计学第四章课后习题答案

第四章一.思考题1、一组数据的分布特征可以从哪几个方面进行测度？答：可以从三个方面进行测度和描述：一是分布的集中趋势，反映各数据向其中心值靠拢或聚集的程度；二是分布的离散程度，反映各数据远离其中心值的趋势；三是分布的形状，反映数据分布的偏态和峰态。

2、怎样理解平均数在统计学中的地位？答：平均数在统计学中具有重要的地位，它是进行统计分析和统计推断的基础。

从统计学思想上看，平均数是一组数据的重心所在，是数据误差相互抵消后的必然结果。

3、简述四分位数的计算方法。

答：四分位数是一组数据排序后处于25%和75%位子上的值。

四分位数是通过3个点将全部数据等分成4分，其中每部分包含25%的数据。

中间的四分位数就是中位数，因此通常所说的四分位数是指处在25%位置上的数值和处在75%位置上的数值。

它是根据为分组数据计算四分位数时，首先对数据进行排序，然后确定四分位数所在的位置，该位置上的数据就是四分位数。

4、对于比率数据的平均数为什么采用几何平均？答：几何平均数是适用于特殊数据的一种平均数，主要适用于计算平均比率。

当所掌握的变量值本身是比率的形式时，采用几何平均法计算平均比率更为合理。

5、简述众数、中位数、平均数的特点和应用场合。

答：众数是数据中出现次数次数最多的变量值。

主要应用于分类数据。

中位数是一组数据排序后处于中间位置的变量值，其适用于顺序数据。

平均数也称均值，它是一组数据相加后除以数据个数的结果，是集中去世的主要测量值，它适用于数值型数据。

6、简述异众比率、四分位差、方差、标准差的使用场合。

答：异众比率主要适合测度分类数据的离散程度，对于顺序数据以及数值型数据也可以计算异众比率。

四分位差主要用于测度顺序数据的离散程度。

方差和标准差适用于测度数值型数据的离散程度。

7、标准分数有哪些用途？答：首先是比较不同单位和不同质数据的位置。

其次是和正态分布结合起来，求得概率和标准分值之间的对应关系。

还有就是在假设检验和估计中应用。

数据分布特征的描述

邋（ x -x )= 0 或者（ x -x )f= 0
2019/9/1
版权所有 BY 统计学课程组
15
算术平均数的性质
2019/9/1
版权所有 BY 统计学课程组
16
算术平均数（均值）特征：
1. 集中趋势的最常用测度值； 2. 一组数据的均衡点所在； 3. 易受极端值的影响； 4. 由组距分组资料计算的均值有近似值性质； 5、用于数值型数据，不能用于分类数据和顺
（CM）（人）
152
1
154
2
155
2
156
4
157
1
158
2
159
2
160 12
161
7
162
8
163
4
2019/9/1
身高人数
（CM）（人）
164
3
165
8
166
5
167
3
168
7
169
1
170
5
171
2
172
3
174
1
总计 83
版权所有 BY 统计学课程组
STAT
众数
32
注意：
众数不仅适用于测度顺序数据和数值型数据的集中趋势，而且适用于测度不能计算平均数的分类数据的集中趋势。
2019/9/1
版权所有 BY 统计学课程组
3
数据分布的特征：
一、集中趋势:反映数据向其中心靠拢或聚集

程度；
二、离中趋势；数据远离中心的趋势(又称离散
程度)；
三、偏态和峰态；偏态是对数据分布对称性的度
量；峰度是指数据分布的平峰或尖峰程度

综合数据分析2

的平均水平在时间上的变化，说明总体的发展过程和
趋势
二、平均指标的作用
(四)利用平均指标，可以分析现象之间
的依存关系 (五)平均指标可作为某些科学预测、决策和某些推算的依据

算术平均数
一、算术平均数的基本形式

总体标志总量算术平均数总体单位总数
二、算术平均数的计算方法

(一)简单算术平均数
程度的指标。
(二)标志变异指标的作用 1.标志变异指标可以衡量平均数代表性的大小。 2.标志变异指标可以反映社会经济活动过程的
节奏性和均衡性。
3.标志变异指标可以反映总体单位标志值的均
匀性和稳定性。
4.标志变异指标是科学地确定必要的抽样单位
数应考虑的重要因素。
二、标志变异指标的计算方法
分类数据的众数
不同品牌饮料的频数分布饮料品牌可口可乐旭日升冰茶百事可乐汇源果汁露露频数比例百分比 (%)
解：这里的变量为“饮料品牌”，这是个分类变量，不同类型的饮料就是变量值在所调查的 50 人中，购买可口可乐的人数最多，为 15 人，占总被调查人数的30%，因此众数为 “可口可乐”这一品牌，即 Mo＝可口可乐
( x x)
2
f
f

pq
方差：

2
( x x)
2
f
f
pq
(四)标准差系数
V

X
注:用变异系数可以比较同类现象的不同水平的变异程度,也可以进行不同现象的标志变异比较
f1
f2
X3 Xn
f3
fn
X
f
众数

统计学习题答案 4~9章

经管类核心课程
统计学
第4章数据分布特征的测度
4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位：台)排序后如下： 2 4 7 10 10 10 12 12 14 15 要求： (1)计算汽车销售量的众数、中位数和平均数； M 0 10，M e 10，x 9.6， (2)根据定义公式计算四分位数；QL 5.5，QU 12， (3)计算销售量的标准差；
n ( xi x )3 1.08
(4)计算偏态系数和峰态系数；
(n 1)(n 2) s 4 2 2 n(n 1) ( xi x ) 3[ ( xi x ) ] (n 1)
3
(n 1)(n 2)(n 3)s
4
0.77
(5)对网民年龄的分布特征进行综合分析。样本数据的均值为24岁,但标准差较大,说明网民年龄之间差异较大.
0
30
60
经管类核心课程
统计学
第3章数据的整理与显示
3.1 为评价家电行业售后服务的质量，随机抽取了由 100家庭构成的一个样本。服务质量的等级分别表示为：A.好；B.较好；C.一般；D.较差；E.差。调查结果如下表：
B E C C A D C B A E
D
A B C D B
A
D A B A E
SK 0.203，K 0.688
600以上
合计
11
120
(2) 计算分布的偏态系数和峰态系数。
经管类核心课程
统计学
第4章数据分布特征的测度
4.7 为研究少年儿童的成长发育状况，某研究所的一位调查人员在某城市抽取100名7～17岁的少年儿童作为样本，另一位调查人员则抽取了 1000名7~17岁的少年儿童作为样本。请回答下面的问题，并解释其原因。 (1)哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大？或者这两组样本的平均身高相同？ (2)哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大？或者这两组样本的标准差相同？

统计测度定义

统计测度定义
1.统计测度：指用统计方法来衡量某些总体或样本的特征或特性的一种指标。

它是用来表示人为或物质由其细微状态推出其总体性质的一种数字描述法。

它反映了数据集中变量的关系，常常用于衡量和比较不同变量的大小。

2.抽样统计测量：是用抽样的方式来检验一个大的总体的可能特性或特征的一种技术。

它可以看作在总体中的一个抽样或分析，以便于获得总体的有限的信息，通过这些信息来对总体进行估计，也就是说可以推算出总体的全部特性。

这种方法可以节省资源，降低研究的成本。

二、应用
1.在科学研究方面，统计测量是大量应用的，它可以帮助科学家把宏观结果简化到客观的数据，从而更好地理解原理以及研究的方向。

2.它也可以用来对比和对比一组数据，从而更好地发现潜在的规律性和假设。

3.在经济学研究中，统计测量也可以通过收集和分析经济数据来进行分析，以获得更好地经济政策制定。

4.在教育方面，它可以用来检测学生的学习情况，从而指导教师与学生进行有效的教学活动。

- 1 -。

应用统计学考点

应用统计学考点：第一章绪论（重点：统计数据的分类，参数、统计量的定义）一、统计数据的分类1.(按计量尺度分)（1）分类数据：对事物进行分类的结果；数据表现为类别，用文字来表述；例如，人口按性别分为男、女两类。

（2）顺序数据：对事物类别顺序的测度；数据表现为类别，用文字来表述；例如，产品分为一等品、二等品、三等品、次品等（3）数值型数据：对事物的精确测度；结果表现为具体的数值；例如：身高为175cm 、168cm 、183cm2.(按收集方法分)（1）观测的数据：通过调查或观测而收集到的数据；在没有对事物人为控制的条件下而得到的；有关社会经济现象的统计数据几乎都是观测数据（2）试验的数据：在试验中控制试验对象而收集到的数据；比如，对一种新药疗效的试验，对一种新的农作物品种的试验等；自然科学领域的数据大多数都为试验数据3.(按时间状况分)（1）截面数据：在相同或近似相同的时间点上收集的数据；描述现象在某一时刻的变化情况；比如，2002年我国各地区的国内生产总值数据（2）时间序列数据：在不同时间上收集到的数据；描述现象随时间变化的情况；比如，1996年至2002年国内生产总值数据二、参数和统计量1.参数：研究者想要了解的总体的某种特征值。

所关心的参数主要有总体均值( )、标准差()、总体比例()等。

总体参数通常用希腊字母表示。

2.统计量：根据样本数据计算出来的一个量。

所关心的样本统计量有样本均值( x)、样本标准差(s)、样本比例(p)等。

样本统计量通常用小写英文字母来表示三、变量：说明现象某种特征的概念。

如商品销售额、受教育程度、产品的质量等级等。

变量的具体表现称为变量值，即数据变量可以分为：1.分类变量：说明事物类别的一个名称;2.顺序变量：说明事物有序类别的一个名称;3.数值型变量：说明事物数字特征的一个名称(离散变量：取有限个值;连续变量：可以取无穷多个值 )第2章统计数据的搜集(重点：五方法的区别、定义)统计调查的五中方式：1.抽样调查：从总体中随机抽取一部分单位(样本)进行调查；目的是推断总体的未知数字特征；最常用的调查方式；具有经济性、时效性强、适应面广、准确性高等特点2.普查：为特定目的专门组织的非经常性全面调查。

统计学依据数据的计量尺度

统计学依据数据的计量尺度将数据划分为三类：定距型数据（Scale）、定序型数据（Ordinal）、定类型数据（Nominal）。

定距型数据通常是指诸如身高、体重、血压等的连续型数据，也包括诸如人数、商品件数等离散型数据；定序型数据具有内在固有大小或高低顺序，但它又不同于定距型数据，一般可以数值或字符表示。

如职称变量可以有低级、中级、高级三个取值，可以分别用1、2、3等表示，年龄段变量可以有老、中、青三个取值，分别用 A B C表示等。

这里，无论是数值型的1、2 、3 还是字符型的 A B C ，都是有大小或高低顺序的，但数据之间却是不等距的。

因为，低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的；定类型数据是指没有内在固有大小或高低顺序，一般以数值或字符表示的分类数据。

如性别满’回’‘变量中的男、女取值，可以分别用1、2表示，民族变量中的各个民族，可以用‘汉’‘满’，都不存在内部固有回’‘等字符表示等。

这里，无论是数值型的1、 2 还是字符型的‘汉’‘的大小或高低顺序，而只是一种名义上的指代。

我觉得教育年限应该设置成定距型数据（Scale）吧。

因为，教育年限应该是一个连续的变量，它不存在内在的大小或高低顺序问题。

将可变的数量标志抽象化就称其为变量，其取值称为变量值或标志值。

变量分为确定性变量和随机变量。

确定性变量是指受必然性因素的作用，各变量值呈现出上升或下降惟一方向性变动的变量；随机变量是指受偶然性因素的作用，变量值呈现出随机的混沌状态变动的变量。

根据变量的取值是否连续划分，有连续型变量和离散型变量。

连续型变量是指在一个取值区间内可取无穷多个值。

连续型变量值要用测量或计算的方法取得；离散型变量是指在一个取值区间内变量仅可取有限个可列值。

离散型变量值只能用计数的方法取得。

离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得.如果变量可以在某个区间内取任一实数，即变量的取值可以是连续的，这随机变量就称为连续型随机变量，1）无偏性。

统计学术语

统计学术语1. 平均数：平均值，又称平均算术，是统计学中分析数据及描述数据特征的常用统计量。

2. 中位数：中位数是一组有序数据中居于中间位置的数据项。

3. 众数：一组数据中出现次数最多的数据项即为众数。

4. 极差：极差是最大值减去最小值的结果，用来表示一组数据范围大小的统计量。

5. 标准差：标准差是一组数据离均值偏差程度的反映，用来衡量一组数据离散程度。

6. 方差：方差是一组数据平均分布情况的反映，用来衡量一组数据离散度。

7. 协方差：协方差是一组数据关联和变化特征的反映，用来统计数据间的线性相关程度。

8. 相关系数：相关系数是对数据关联程度的反映，用来统计数据间的线性相关性。

9. 相关分析：相关分析是统计学中的研究方法，用来研究两个或两个以上变量之间的关系和联系。

10. 误差估计：误差估计是统计学及其应用中经常使用的统计量，用来研究某统计量的估计值和真实值之间的差异。

11. 测度：测度是衡量变量本质特征的方法，可以用来研究变量的取值范围大小、数据的分布特点等。

12. 抽样技术：抽样技术是指在样本中抽取部分数据进行定量研究的方法，使用的抽样方法有简单随机抽样、系统抽样、分层抽样和多方抽样等。

13. 模拟：模拟是指根据现实中或实验中的相关数据，以近似真实环境的方式模拟出理论模型，计算机模拟是应用最广泛的一种数学模拟方法。

14. 回归分析：回归分析是指研究两变量或多变量之间相互关系，并用线性等数学模型对该关系进行拟合和估计的统计学分析方法。

15. 分类分析：分类分析是对对象进行分组的统计学分析方法，可以使用适当的统计方法进行分类比较，以揭示不同群体之间的差异。

16. 抽象数量分析：抽象数量分析是指使用抽象的统计模型分析实验数据的方法，准确确定模型参数，有效地估计观察值。

17. 分位数：分位数是一组有序数据中，从最小到最大排列后比例所处位置的数值，它可以用来衡量数据中位置分布的特点。

18. 箱线图：箱线图是一种用来表示数据分布特征的统计图，可以观察分布的中位数、四分位数等重要信息。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据特征的测度数据特征的测度数据特征的测度统计数据经过整理和显示后，我们对数据分布的类型和特点就有了一个大致的了解，但这种了解只是表面上的，还缺少代表性的数量特征值准确地描述出统计数据的分布。

为进一步掌握数据分布的特征和规律，进行更深入的分析，还需要找到反映数据分布特征的各个代表值。

对统计数据分布的特征，我们可以从三个方面进行测度和描述：一是分布的集中趋势，反映各数据向其中心值靠拢或聚集的程度；二是分布的离散程度，反映各数据远离其中心值的趋势；三是分布的偏态和峰度，反映数据分布的形状。

这三个方面分别反映了数据分布特征的不同侧面，这里我们主要讨论集中趋势和离散程度的测度方法。

（一）集中趋势的测度集中趋势是指一组数据向某一中心值靠拢的倾向，测度集中趋势也就是寻找数据一般水平的代表值或中心值。

集中趋势的测度值主要有众数、中位数、均值、几何平均数等几种。

众数是一组数据中出现次数最多的变量值，用M 0表示。

例如，下面是抽样调查的10个家庭住房面积（单位：平方米）的数据：55 75 75 90 90 90 90 105 120 150这10个家庭住房面积的众数为90。

即M 0＝90（平方米）众数是一个位置代表值，它的特点是不受数据中极端值的影响。

2. 中位数中位数是一组数据按一定顺序排序后，处于中间位置上的数值，用M e 表示。

显然，中位数将全部数据等分成两部分，每部分包含50％的数据，一部分数据比中位数大，另一部分则比中位数小。

根据未分组数据计算中位数时，要先对数据进行排序，然后确定中位数的位置，其公式为：式中的n 为数据的个数，最后确定中位数的具体数值。

设一组数据为x 1，x 2，…，x n ，按从小到大排序后为x (1) ，x (2) ，…，x (n ) ，则中位数可表示为：当n 为奇数时⎧x n +1M e =⎧1⎧⎧⎧ x n +x n ⎧当n 为偶数时+1⎧2 ⎧22⎧⎧⎧例如，在某城市中随机抽取9个家庭，调查得到每个家庭的人均月收入数据如下（单位：750 780 850 960 1080 1250 1500 1650 2000中位数位置＝（9＋1）÷2＝5，中位数为1080，即M e ＝1080（元）。

假定我们抽取了10个家庭，每个家庭的人均月收入数据为： 660 750 780 850 960 1080 1250 1500 1650 2000 这时，中位数位置＝（10＋1）÷2＝5.5，中位数为1020，即：960+1080=1020（元）中位数是一个位置代表值，其特点是不受极端值的影响，在研究收入分配时很有用。

3. 均值均值也称为算术平均数，它是全部数据的算术平均。

均值在统计学中具有重要的地位，是集中趋势的最主要测度值，根据所掌握数据的不同，均值有不同的计算形式和计算公式。

（1）简单均值。

根据未经分组整理的原始数据计算均值。

设一组数据为x 1，x 2，…，x n ，则均值x （读作x-bar ）的计算公式为：x 1+x 2+ +x n例如，根据下面的例子，计算10个家庭的平均住房面积。

55 75 75 90 90 90 90 105 120 15055+75+ +120+150=94（平方米）（2）加权均值。

根据分组整理的数据计算均值。

设原始数据被分成k 组，各组的组中值为x 1，x 2，…，x k ，各组变量值出现的频数分别为f 1，f 2，…，f K ，则均值的计算公式可以写为：x f +x 2f 2+ +x k f k x =11=f 1+f 2+ +f k∑x i f i例如，假定我们在某城市中随机抽取50个家庭，调查住房面积，经分组后结果如表。

计算50个家庭的平均住房面积。

计算过程见表。

4-7 某城市50个家庭住房面积均值计算表代入上面的公式得：∑x i f i=98. 8（平方米） 50从加权均值可以看出，其数值的大小不仅受各组变量值（x i ）大小的影响，而且受各组变量值出现的频数即权数（f i ）大小的影响。

如果某一组的权数较大，说明该组的数据较多，那么该组数据的大小对均值的影响就越大，反之则越小。

实际上，我们将加权均值变形为下面的形式，就能更清楚地看出这一点。

∑x i f i=∑x i ⋅由上式可以清楚地看出，加权均值受各组变量（x i ）值大小和各组权数f i∑f i 大小的影响。

当我们掌握的不是各组变量值出现的频数，而是频率时，也可直接根据上面的公式计算均值。

均值在统计学中具有重要的地位，它是进行统计分析和统计推断的基础。

从统计思想上看，均值是一组数据的重心所在，是数据误差相互抵消后的必然性结果。

比如我们对同一事物进行多次测量，若所得结果不一致，可能是由于测量误差所致，也可能是其他因素的偶然影响，利用均值作为其代表值，则可以使误差相互抵消，反映出事物必然性的数量特征。

均值的缺点是容易受极端值的影响。

4. 几何平均数几何平均数是n 个变量值乘积的n 次方根，计算公式为：G =x 1⨯x 2⨯⨯x n =∏x i式中：G 表示几何平均数，∏为连乘符号。

几何平均数是适用于特殊数据的一种平均数，它主要用于计算比率或速度的平均。

当我们所掌握的变量值本身是比率的形式，而且各比率的乘积等于总的比率，这时就应采用几何平均法计算平均比率。

在实际应用中，几何平均数主要用于计算社会经济现象的平均发展速度。

例如，一位投资者持有一种股票，在1996、1997、1998和1999年收益率分别为4.5％、2.0％、3.5％、5.4％。

计算该投资者在这四年内的平均收益率。

解：根据几何平均数的计算公式得：G =x 1⨯x 2⨯⨯x n=. 5%⨯102. 0%⨯103. 5%⨯105. 4%＝103.84％即该投资者的年平均收益率为103.84％－100％＝3.84％。

（二）离散程度的测度集中趋势只是数据分布的一个特征，它所反映的是各变量值向其中心值聚集的程度。

而各变量值之间的差异状况如何呢？这就需要考查数据的分散程度。

数据的分散程度是数据分布的另一个重要特征，它所反映的是各变量值远离其中心值的程度。

我们知道，集中趋势的各测度值是对数据一般水平的一个概括性度量，它对一组数据的代表程度，取决于该组数据的离散水平。

数据的离散程度越大，集中趋势的测度值对该组数据的代表性就越差，离散程度越小，其代表性就越好。

数据离散程度测度值有很多，这里我们主要介绍极差、标准差和离散系数等。

1. 极差极差也称全距，它是一组数据的最大值与最小值之差。

即：极差＝最大值－最小值例如，根据上面10个家庭月人均收入的数据，计算的极差为：极差＝139－107＝32（件）。

极差是描述数据离散程度的最简单测度值，计算简单，易于理解，但它容易受极端值的影响。

由于极差只是利用了一组数据两端的信息，不能反映出中间数据的分散状况，因而不能准确描述出数据的分散程度。

标准差是各变量值与其均值离差平方和的平均数的平方根，它是数测量数据离散程度的最主要方法，也是实际中应用最广泛的离散程度测度值。

设标准差为σ，对于未经整理的原始数据，标准差的计算公式为：∑(x i -x ) 2对于组距分组数据，标准差的计算公式为：∑(x -x ) 2f i标准差与变量值的计量单位相同，其实际意义比较清楚。

因此，在对社会经济现象进行分析时主要使用标准差。

例如，根据表4-7中的数据，计算50个家庭住房面积的标准差。

计算过程见表。

某城市50个家庭住房面积标准差计算表根据上面的计算公式得：∑(x -x ) 2f i=23. 8（平方米） 50结果表明，每个家庭的住房面积与平均数相比，平均相差23.8平方米。

3. 离散系数上面介绍的标准差是反映数据分散程度的绝对值，其数值的大小一方面取决于原变量值本身水平高低的影响，也就是与变量的均值大小有关，变量值绝对水平高的，离散程度的测度值自然也就大，绝对水平小的离散程度的测度值自然也就小；另一方面，它们与原变量值的计量单位相同，采用不同计量单位计量的变量值，其离散程度的测度值也就不同。

因此，对于平均水平不同或计量单位不同的几组数据，是不能用上述离散程度的测度值直接比较其离散程度的。

为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。

离散系数通常是就标准差来计算的，因此也称为标准差系数，它是一组数据的标准差与其相应的均值之比，是测度数据离散程度的相对指标，其计算公式为：离散系数的作用主要是用于比较对不同组别数据的离散程度。

离散系数大的说明数据的离散程度也就大，离散系数小的说明数据的离散程度也就小。

例如，某集团公司所属的8家子公司，其产品销售数据如表。

试比较产品销售额与销售利润的离散程度。

需要计算离散系数。

由表中数据计算得：x 1＝536.25（万元）σ1＝289.22（万元） V 1=289. 22=0. 539536. 25=0. 664 x 2＝32.5215（万元）σ2＝21.60（万元） V 2=32. 5125计算结果表明，V 1 V 2，说明产品销售额的离散程度小于销售利润的离散程度。