统计数据的描述.

统计数据的描述.
统计数据的描述.

第二章统计数据的描述

在对一组统计数据的分布变化进行深入研究之前,我们首先研究一组数据的特征。为了比较精确地描述一组统计资料的特征,需要使用一些统计指标来描述它。一组数据的统计特征通常包括以下四个方面:

1、集中趋势,也称作中心位置。即表示一组数据的中心位置的数据点是在什么地方,也就是数据位置的度量。

2、离散性。即一组数据的分散程度,也就是数据散布的范围。

3、倾斜度。一组数据所描述的曲线既可以是左右对称的,也可能是倾斜的,即通过曲线最高点的垂线把曲线分为两半,是左右对称还是并不对称。

4、尖削度。这就是一组数据所描绘的曲线顶部的峰态特征。根据一组数据所描绘的曲线顶部既可能是尖峰状的,也可能是扁平状的。即使根据两组数据所描绘的曲线具有相同的中心位置和离散程度,但它们的尖削度也可能是不一样的。

在管理科学中,我们最感兴趣的常常是数据的集中趋势和离散程度,本章就主要介绍度量这两个特征的统计量。

第一节数据集中趋势的度量

一组数据的集中趋势通常用平均数、中位数和众数等来表示。这些统计量均称为平均指标。它表明同类社会经济现象的各单位的某一数量指标在一定时间、地点等条件下达到的平均水平。

平均指标的特点是将一组数据中各个数据之间的差异抽象化,用一个指标来代表各个数据的一般水平,它反映了一组数据中各个数据的典型水平、中心位置或集中趋势。

一、平均数

管理统计中常用的平均数有算术平均数、调和平均数和几何平均数等几种。但这里我们主要介绍算术平均数。算术平均数又称均值,常用x来表示。根据计算方法的不同,算术平均数又可分为简单算术平均数和加权算术平均数。

1、简单算术平均数

简单算术平均数的计算公式如下:

x

x x x

N

x

N

N

i

i

N =

+++

==

∑121

式中:N 是数据的个数;

21

22

x i 是各数据的观察值。

2、加权算术平均数

如一组数据是已经经过分组的,共有N 组。x i 为各相应组中数据的观察值或每一组的中心值,f i 是观察值为x i 的相应组中数据出现的次数,又称为频率,则可以采用加权平均法来计算其均值,其公式为

x x f x f x f f f f x

f f

N N

N

i

i

i N

i

i N =++++++=

==∑∑11221211

式中:x i 是各相应组中数据的观察值;

f i 是观察值为x i 的相应组中数据出现的次数,又称为频率; N 是组数。

均值在度量数组的集中化趋势的统计量中是应用最广的。这是因为任何一组数据都有一个平均数,而且只有一个平均数。计算平均数时全部数据都参加运算,因此,用它来反映一组数据的集中化趋势的代表性比较好。但是它也有缺点,主要的问题是因为平均数是根据一组数据中的全部数据来计算的,会受到资料中那些没有代表性的极端值的影响。因此,有时在计算平均数时先剔除个别缺乏代表性的特殊值所得到的结果可能会具有更大的代表性。

二、中位数

将数据的各观察值x x x n 12,,, 按其数值由小到大的顺序排列后,处于数列中间位置上的观察值称为中位数。如果数据个数为奇数,则中位数数值恰为(n+1)/2位置上的数值。如果数据个数为偶数,则中位数数值为最中间位置上两个数值的平均值。

中位数不是一个数组中各数据的算术平均值,它主要受一组数据中的中间位置上的数值的影响,用中位数来反映一个数组中各数据大小的一般水平并不很精确。但中位数计算简单,与平均数相比,中位数不受数据中两端异常的特殊值的影响。从这个意义上它可以作为数据平均指标的代表值。对于数据分布不很规则的情况,中位数是度量数据集中趋势的较合理的统计量之一。同时,无论是分组资料还是不分组资料都可以计算中位数。 但是中位数也有它的缺点。对于有些问题,中位数的处理比平均数更为复杂。在计算中位数之前必须把数据依次加以排列,这对于观察值个数很多的资料来说是很费时的。

对于未分组的数据的中位数的求法如上所述比较简单,但对于按分段形式组织起来的分组数据,要计算出中位数一般就比较繁琐。下面我们就介绍分组数据的中位数的求法。我们先用对于未分组数据的方法找出中位数所在的组,然后再在假设中位数所在组的所有数据的标志值都均匀分布的前提下,运用线性插值公式来求出中位数。

23

如图2-1所示,设L 和U 分别为中位数所在的组,即累计频数达到

n 2

的组的下限和上限.则组距d=U-L 。设f m 为中位数所在组的频数。F m -1为中位数所在组前一组的累计频数,F m 为中位数所在组的累计频数,n 为各组单位数的总和。则中位数M e 即为

M L n F

f d e m m

=+-?-21

M U F n f d e m m

=--?2

事实上,从图2-1可以看出,中位数处于累计频率为

n

2

一组的上,下限之间的某一数值。这一数值是中位数所在组的下限加上按一定比例分配所得的那段组距。

令 M e =L+X

因为 x

d n F

f m m

=--21 .

x n F

f d m m

=-?-21

所以 M L n F

f d e m m

=+-?-21

同样可得: M U F n f d e m m

=-

-?2

。 三、众数

众数是指数据中出现次数最多的那个变量值。众数并没有通常意义上的

“平均”的含义。但众数在数据中出现的次数最频繁,说明该数值在数据中最具有代表性,因而从另一个侧面反映了数据的集中化趋势。同中位数一样,众数不会受到资料中极端值的影响。但并不是每一组数据都是具有众数的,只有当数组中不同数值的数据出现的次数具有明显的差异时,才有众数可言。对于分组数据而言,众数常常依赖于分组的情况,分组数改变时,众数可能就要有较大的变化,稳定性较差。众数也可能是不唯一的。

在管理实践中,有时没有必要计算算术平均数,只需要掌握最普遍、最常见的标志值就能说明社会经济现象的一般水平,这时就可以采用众数。例如,要反映市场上某种商品的一般价格水平,价格中的众数就是最好的代表值。要预测市场上对服装或鞋子大小的需求情况时往往也需要应用众数。但众数作为度量中心趋势的指标并不象平均数和中位数那样应用得广泛,而且对于有的资料而言众数根本就不存在。

例1-1。对某城市某商品在不同商店中的零售价格调查所得到的观察值如下:

195,186,179,168,156,113,148,179,179

请分别计算出反映价格平均水平的统计指标。

这是一个未经分组的数组,可计算得到这组数据的算术平均数:

x=(195+186+179+168+156+113+148+179+179)/9=167

把原数组按从小到大排列以后,就得到:

113,148,156,168,179,179,179,186,195

该数组共有9个数据,按中位数的定义应当取第5个数据为中位数。于是得到其中位数为179,同时我们发现众数也是179。

例1-2。根据对某单位300名职工每月平均存款数的调查,结果如表1-1所示。请分别计算出反映平均存款水平的统计指标。

根据上述分组数据,我们以组中值作为各组的代表值,计算其平均值如下:x=(50*39+150.5*63+250.5*98+350.5*41+450.5*26+

550.5*23+650.5*6+750.5*3+900.5*1)/300=272.6

这一分组数据的中位数应落在第155个观察值与第156个观察值之间,显然是落在

表2-1:某单位300名职工每月平均存款数组别频率

0-100 39

101-200 63

201-300 98

301-400 41

401-500 26

501-600 23

601-700 6

700-800 3

801-1000 1

24

201-300的一组内,我们把这一组称为中位数组。但是中位数的具体值还是应通过在这一组内的插值来确定。计算如下:

M

e

=201+(150-102)*99/98=300-(200-150)*99/98=249.5

这一分组数据的众数就是201-300一组,称为众数组。

综上所述,当数组的分布比较有规则,不存在极端的数值时,用均值来代表整个数组的集中趋势效果较好,而在数组包含有极端值时,则用中位数更合适,众数尽管稳定性最差,但有时却十分方便而有用。

第二节数据离散趋势的度量

仅仅用集中趋势来描述数据的分布特征是不够的。我们经常碰到平均数相同的两组数据其离散程度可以是相当不同的。一组数据的分布可能比较集中,差异较小,则平均数的代表性较好。另一组数据可能比较分散,变异较大,则平均数的代表性就较差。离散趋势的度量常用标志变异指标来描述,常用的指标有极差、平均差、方差和标准差。

一、极差

极差又称全距,是指一组数据的观察值中的最大值和最小值之差。用公式表示为:

极差=M.D=最大观察值-最小观察值

极差的计算简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。两组数据的最大值和最小值可能相同,于是它们的极差相等,但是离散的程度可能相当不一致。由此可见,极差往往不能反映一组数据的实际离散程度,实际上极差所反映的是一组数据的最大的离散值。

二、平均差

平均差是指一组数据中的各数据对平均数的离差绝对值的平均数。一组数据中的各数据对平均数的离差有正有负,其和为零,因此平均差必须用离差的绝对值来计算。平均差愈大,表示数据之间的变异程度愈大,反之则变异程度愈小。

平均差通常用字母A.D来表示,计算公式为:

A.D =

x x

n

-

25

26

三、方差和标准差(σ2和σ)

平均差用绝对值来进行度量,虽然避免了正负离差求和时相互抵消,但不便于运算。因此,通常用方差来度量一组数据的离散性。方差通常用字母σ2

来表示。对于未分组的数据其计算公式为: ()

σ

x x n

-∑2

对于分组数据,计算公式为: ()σ

x x f

f

-∑∑2

为了使统计量的单位同观察值的单位相一致,通常将方差开平方,即得到标准差σ,标准差也称为均方差。其计算公式相应地变为:

()

σ=

-∑x x n

2

由定义可知,方差和标准差所反映的是一组数据对其均值为代表的中心的某种偏离程度。而且我们可以猜测到,标准差(或方差)较小的分布一定是比较集中在均值附近的,反之则是比较分散的。标准差的缺点是计算起来比较麻烦。标准差也是根据全部数据来计算的,因此,资料中的极端值对它的影响要比极差小一些,但是它也会受到极端值的一定的影响。标准差的计算要比平均差方便,因此,标准差是用得最经常的描述数组离散趋势的量。

在统计中我们通常用σ2

和σ分别表示总体(总体的具体概念将在下章中讨论)的方差和标准差。当总体中的个体数很大时,我们希望通过抽样,用样本标准差来估计总体的标准差时,就需要计算样本的方差和标准差。但为了使估计更正确,我们需要对相应的计算公式作一调整。此时,样本的方差和标准差分别记作S 2

和S ,其计算公式如下: (

)

S x x

n 2

2

1

=

--∑

(

)

S x x

n =

--∑2

1

值得注意的是,在计算样本的方差和标准差时分母是n-1,而不是n ,其原因我们在第三章中将加以说明。

标准差的概念在统计上具有重要的作用。对于任意一个总体,在确定了标准差以后就可以精确地确定总体中的单位落在平均数两侧某个范围内的频率大小。统计学中的契比雪夫定理证明,不管是何种形状的分布,至少有75%的数值落在分布的平均数加减两个标准差的范围内。至少有89%的数值落在平均数加减三个标准差的范围内。对于正态分布的情形,在下一章中我们将介

绍数据落在某个特定范围内概率的更精确的结果。

四、离散系数

标准差是表示所有数据离散性大小的一个绝对值,其度量单位与原数据的度量单位相同。因此,标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较显然就不合适了。例如,如果一个总体的标准差是20,均值是10。如果另有一个总体的标准差是30,均值是3000。如果直接用标准差

来进行比较,后一总体的标准差是前一总体标准差的1.5倍,似乎前一总体的分布集中而后一总体的分布分散。但前一总体用标准差来衡量的各数据的差异量是其均值的两倍。后一总体用标准差来衡量的各数据差异是其均值的1/100,是微不足道的。可见用标准差与均值的比值大小来衡量不同总体数据的分散程度更合理。统计上把这一比例称为离散系数。离散系数是一个表示标准差相对于平均数的大小的相对量,即标准差相对于均值的百分比,其计算公式如下:

离散系数=σ

μ

?100%

其中:σ为数组的标准差;

μ为数组的平均值。

例1-3。某公司过去10年间的年利润如表1-2所示。要求计算出反映该公司历年利润波动的指标。

表2-2:某公司过去10年的利润表单位:百万元

年份1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 利润163 280 170 190 285 290 300 350 390 400 该公司过去十年利润波动的最大值就是极差,结果为:

M.D=400-163=237

为了计算平均差,我们先计算均值:

x=(163+280+170+190+285+290+300+350+390+400)/10=281.8

于是,平均差为:

A.D=(118.8+1.8+111.8+91.8+3.2+8.2+18.2+68.2+108.2+118.2)/10

=64.84

方差为:

σ2=(118.8+1.8+111.8+91.8+3.2+8.2+18.2+68.2+108.2+118.2)/10

=(14113.44+3.24+12499.24+8427.24+10.24+67.24+331.24+4651.24

+11707.24+13971.24)/10=6578.16

标准差为:

σ=81.10

27

练习题

要求:(1)计算中位数,(2)计算全距和平均差,(3)计算算术平均数和标准差。

2、某快递公司抽样调查包裹的结果如下:

单只包裹重量(公斤)邮包数量

0 ~9.99 28

10.0~19.99 25

20.0~29.99 14

30.0~39.99 8

40.0~49.99 4

50以上 1

计算单只包裹的平均重量和中位数。

3、某工厂12名工人完成同一工件所需的时间(分钟)为:

31 34 29 32 35 38 34 30 29 32 31 26

试计算这些数据的众数,中位数,平均数,极差,方差和标准差。

28

29

描述统计与推断统计

描述统计与推断统计-心理学统计与测量经典习题1 第一章描述统计 名词解释 1.描述统计(吉林大学2002研) 答:描述统计主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。具体内容有:数据如何分组,如何使用各种统计表与统计图的方法去描述一组数据的分组及分布情况,如何通过一组数据计算一些特征数,减缩数据,进一步显示与描述一组数据的全貌。 2.相关系数(吉林大学2002研) 答:相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标。作为样本的统计量用r表示,作为总体参数一般用ρ表示。相关系数不是等距的度量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,而不能进行加减乘除。 3.差异系数(浙大2003研) 答:差异系数,又称变异系数、相对标准差等,它是一种相对差异量,为标准差对平均数的百分比。其公式如下: 常用于:①同一团体不同观测值离散程度的比较;②对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。 4.二列相关(中科院2004研) 答:如果两列变量均属于正态分布,其中一列变量为等距或等比的测量数据,另一列变量虽然也是正态分布,但被人为地划分为两类。求这样两列变量的相关用二列相关。 5.集中量数与差异量数(浙大2000研,苏州大学2002研) 答:集中趋势和离中趋势是次数分布的两个基本特征。数据的集中趋势就是指数据分布中大量数据向某方向集中的程度,离中趋势是指数据分布中数据彼此分散的程度。用来描述一组数据这两种特点的统计量分别称为集中量数和差异量数。 6.中位数(南开大学2004研) 答:中位数,又称中点数,中数,是指位于一组数据中较大一半和较小一半中间位置的那个数,用Md或Mdn来表示。 7.品质相关(华东师大2002研)

第2章统计数据的描述

第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2)用Excel制作一张频数分布表; (3) 绘制一张条形图,反映评价等级的分布。 解:(1)由于表中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频数)频率% A1414 B2121 C3232 D1818

E1515 合计100100 (3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题。即得到如下的条形图: 700716728719685709691684705718 706715712722691708690692707701 708729694681695685706661735665 668710693697674658698666696698 706692691747699682698700710722 694690736689696651673749708727 688689683685702741698713676702 701671718707683717733712683692 693697664681721720677679695691 713699725726704729703696717688 (1)利用计算机对上面的数据进行排序;

统计学第二章 统计数据的收集、整理与显示试题及答案

第二章统计数据的收集、整理与显示 二、单项选择题 1、人口普查的调查单位是(C )。 A、每一户 B、所有的户 C、每一个人 D、所有的人 2、对一批商品进行质量检验,最适宜采用的调查方法是(B )。 A、全面调查 B、抽样调查 C、典型调查 D、重点调查 3、下列调查中,调查单位与填报单位一致的是(D )。 A、企业设备调查 B、人口普查 C、农村耕畜调查 D、工业企业生产经营现状调查 4、抽样调查与重点调查的主要区别是(D )。 A、作用不同 B、组织方式不同 C、灵活程度不同 D、选取调查单位的方法不同 5、先对总体中的个体按主要标志加以分类,再以随机原则从各类中抽取一定的单位进行调查,这种抽样调查形式属于( D )。 A、简单随机抽样 B、等距抽样 C、整群抽样 D、类型抽样 6、对某省饮食业从业人员的健康状况进行调查,调查单位是该省饮食业的(D )。 A、全部网点 B、每个网点 C、所有从业人员 D、每个从业人员 7、调查时限是指(B )。 A、调查资料所属的时间 B、进行调查工作的期限 C、调查工作登记的时间 D、调查资料的报送时间 8、对某市全部商业企业职工的生活状况进行调查,调查对象是(B )。 A、该市全部商业企业 B、该市全部商业企业的职工 C、该市每一个商业企业 D、该市商业企业的每一名职工 9、作为一个调查单位(D )。 A、只能调查一个统计标志 B、只能调查一个统计指标 C、可以调查多个统计指标 D、可以调查多个统计标志 10、某市规定2018年工业经济活动成果年报呈报时间是2019年1月31日,则调查期限为( B )。 A、一天 B、一个月 C、一年 D、一年零一个月 11、统计分组对总体而言是( B ) A、将总体区分为性质相同的若干部分 B、将总体区分为性质不同的若干部分 C、将总体单位区分为性质相同的若干部分 D、将总体单位区分为性质不相同的若干部分 12、按某一标志分组的结果表现为( B )

Excel 在描述统计中的应用

第三节Excel 在描述统计中的应用 在使用Excel 进行数据分析时,要经常使用到Excel 中一些函数和数据分析工具。其中,函数是Excel 预定义的内置公式。它可以接受被称为参数的特定数值,按函数的内置语法结构进行特定计算,最后返回一定的函数运算结果。例如,SUM 函数对单元格或单元格区域执行相加运算,PMT 函数在给定的利率、贷款期限和本金数额基础上计算偿还额。函数的语法以函数名称开始,后面是左圆括号、以逗号隔开的参数和右圆括号。参数可以是数字、文本、形如TRUE 或FALS E 的逻辑值、数组、形如#N/A 的错误值,或单元格引用。给定的参数必须能产生有效的值。参数也可以是常量、公式或其它函数。 Excel 还提供了一组数据分析工具,称为“分析工具库”,在建立复杂的统计分析时,使用现成的数据分析工具,可以节省很多时间。只需为每一个分析工具提供必要的数据和参数,该工具就会使用适宜的统计或数学函数,在输出表格中显示相应的结果。其中的一些工具在生成输出表格时还能同时产生图表。如果要浏览已有的分析工具,可以单击“工具”菜单中的“数据分析”命令。如果“数据分析”命令没有出现在“工具”菜单上,则必须运行“安装”程序来加载“分析工具库”。安装完毕之后,必须通过“工具”菜单中的“加载宏”命令,在“加载宏”对话框中选择并启动它。

一、描述统计工具 (一)简介:此分析工具用于生成对输入区域中数据的单变量分析,提供数据趋中性和易变性等有关信息。 (二)操作步骤: 1.用鼠标点击工作表中待分析数据的任一单元格。 2.选择“工具”菜单的“数据分析”子菜单。 3.用鼠标双击数据分析工具中的“描述统计”选项。 4.出现“描述统计”对话框,对话框内各选项的含义如下:输入区域:在此输入待分析数据区域的单元格范围。一般情况下Excel 会自动根据当前单元格确定待分析数据区域。分组方式:如果需要指出输入区域中的数据是按行还是按列排列,则单击“行”或“列”。 标志位于第一行/列:如果输入区域的第一行中包含标志项(变量名),则选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项,则选中“标志位于第一列”复选框;如果输入区域没有标志项,则不选任何复选框,Excel 将在输出表中生成适宜的数据标志。 均值置信度:若需要输出由样本均值推断总体均值的置信区间,则选中此复选框,然后在右侧的编辑框中,输入所要 使用的置信度。例如,置信度95%可计算出的总体样 本均值置信区间为10,则表示:在5%的显著水平下总 体均值的置信区间为( X -10, X +10)。

第二章数据收集、整理与显示

第二章数据搜集、整理与显示 Ⅰ.学习目的 本章阐述统计数据搜集、整理与显示的理论与方法,通过学习,要求: 1.了解统计数据的类型及其搜集方法; 2.了解普查、统计报表、抽样调查、重点调查等各种统计调查组织形式的特点及其适用场合; 3.掌握统计分组方法;4能够编制分布数列;5.能够运用各种统计图表。 Ⅱ.课程内容要点 第一节数据的搜集 一、数据搜集 数据是人们对现象进行调查研究所搜集、整理、分析和解释的事实和数字,是对客观现象进行计量的结果。 数据搜集就是根据统计研究预定的目的和任务,运用相应的科学的调查方法与手段,有计划、有组织地搜集资料的过程。 数据的计量尺度有四种 定类尺度是按照某种属性对客观事物进行平行分类或分组的一种测度,定类尺度的值是以文字表述的,可以用数值标识,但仅起标签作用。 定序尺度是把各类事物按一定特征的大小、高低、强弱等顺序排列起来,构成定序数据。它是对事物之间等级或顺序差别的一种测度。定序尺度不仅可以测度类别差,还可以测度次序差,并可比较大小,但其序号仍不能进行加减乘除计算。 定距尺度是对事物类别或次序之间间距进行的一种测度。定距尺度不仅

能区分事物的类别、进行排序、比较大小,而且可以精确地计量大小的差异,可以进行加减运算,没有绝对零点。 定比尺度是对事物之间比值的一种测度,定比尺度能区分类别、排序、比较大小、求出大小差异、可采用加减乘除运算,具有绝对零点。 从不同方面数据划分为不同类型。 根据数据反映的现象的特征不同,可以归结为两类:品质数据(亦称定性数据)和数量数据(亦称定量数据)。品质数据是由定距尺度和定比尺度计量所形成的数据,数量数据是由定距尺度和定比尺度计量所形成的数据。 根据数据反映的现象的时间不同,可以将数据分为横截面数据和时间序列数据。横截面数据是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。时间序列数据是指在不同时间对同一总体的数量表现进行观察而获得的数据。 根据数据的搜集方法,可以将数据分为观察数据和实验数据。 根据数据的来源渠道,可以将数据分为直接数据和间接数据。 二、数据搜集的方法 数据搜集的方法有直接观察法、报告法(通讯法)、采访法、登记法和实验设计调查法。 三、统计调查的形式 普查是一种非经常性的全面调查,通过普查可以掌握大量、详细、全面的资料。 统计报表制度是依照国家有关法规自上而下地统一布置,按照统一的表式、统一的项目、统一的报送时间和程序,自下而上地逐级地定期地提供统计资料的一种调查方式。 抽样调查是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据所获得的样本数据,对调查对象总体特征作出科学推断。 重点调查是在调查对象中,只选择一部分重点单位进行的非全面调查。重点调查的前提是必须存在重点单位。 典型调查是从众多的调查研究对象中,有意识地选择若干个具有代表性的典型单位进行深入、周密、系统地调查研究。典型调查有解剖麻雀型和划类选典型两种类型。

第四章统计数据的描述

第四章统计数据的描述 (一)判断题 1、以最低限度为任务提出的计划指标,计划完成程度以不超过100%为好。() 2、全国人均国民生产总值,属于强度相对数。() 3、标志总量是指总体单位某一数量标志值的总和。() 4、在计算相对指标时,分子、分母可以互换的相对指标唯一只有强度相对数。() 5、某企业工人劳动生产率,计划提高5%,实际提高10%,则劳动生产率的计划完成程度为%。() 6、权数的实质是各组单位数占总体单位数的比重。() 7、在算术平均数中,若每个变量值减去一个任意常数a,等于平均数减去该数a。() 8、各个变量值与其平均数离差之和可以大于0,可以小于0,当然也可以等于0。() 9、各个变量值与任意一个常数的离差之和可以大于0,可以小于0,当然也可以等于0。 () 10、各个变量值与其平均数离差的平方之和一定等于0。() 11、各个变量值与其平均数离差的平方之和可以等于0。() 12、各个变量值与其平均数离差的平方之和为最小。() 13、已知一组数列的方差为9,离散系数为30%,则其平均数等于30。() 14、交替标志的平均数等于P。() 15、对同一数列,同时计算平均差和标准差,两者数值必然相等。() 16、平均差和标准差都表示标志值对算术平均数的平均距离。() 17、某分布数列的偏态系数为,说明它的分布曲线为左偏。() (二)单项选择题 1、某种商品的年末库存额是()。 A. 时期指标和实物指标

B. 时点指标和实物指标 C. 时期指标和价值指标 D. 时点指标和价值指标 2、绝对指标的基本特点是计量单位都是() A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 3、相对指标数值的表现形式有() A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 4、相对指标数值的大小() A. 随总体范围扩大而增大 B. 随总体范围扩大而减小 C. 随总体范围缩小而减小 D. 与总体范围大小无关 5、人口自然增长率,属于() A. 结构相对数 B. 比较相对数 C. 强度相对数 D. 比例相对数 6、平均数反映了总体分布的()。 A. 集中趋势 B. 离中趋势 C. 长期趋势

数据分布特征的统计描述习题

第三章 数据分布特征的统计描述 思考与练习 一、选择题 1.有n 辆汽车在同一距离的公路上行驶的速度资料,确定汽车平均每小时行驶速度的平均数公式是:( C ) A . n x ∑ B .∑∑f xf C .∑x n 1 D .∑∑x m m 2.权数对加权算术平均数的影响,取决于( B ) A. 权数所在组标志值的大小; B. 权数的大小; C. 各组单位数的多少; D. 总体单位数的多少 3.是非标志不存在变异时,意味着:( B ,C ) A. 各标志值遇到同样的成数; B. 所有单位都只具有某种属性 C. 所计算的方差为0; D. 所计算的方差为0.25 4.能够综合反映总体各个单位标志值的差异,对总体标志变异程度作全面客观评定的指标有( A ,C ) A.方差 B.算术平均数 C.标准差 D.全距 二、判断题 1.甲乙两地,汽车去程时速20公里,回程时速30公里,其平均速度为25公里。 [答]错。本题应采用调和平均法计算平均速度。 2.权数起作用的前提是各组的变量必须互有差异。 [答]对。 3.变量同减某个数再同除于另一数然后求其方差,其方差等于原方差乘于除数的平方。 [答]对。 4.与平均数相比,中位数比较不受极端值的影响。 [答]对。 三、计算题 1.甲乙两企业生产三种产品的单位成本和总成本资料如下表,试比较哪个企业的平均成本高,并分析其原因。产品 单位成本(元) 总成本(元) 甲企业 乙企业 A B C 15 20 30 2100 3000 1500 3255 1500 1500 [解] 甲企业的平均成本210030001500660019.4118210030001500340 152030 ++= ==++

第四章 数据特征与统计描述

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第四章数据特征与统计描述 第四章数据特征与统计描述 1/ 105

本章结构? ???第一节第二节第三节第四节频数分布表与频数分布图计量资料的常用统计指标计数资料的常用统计指标统计图表

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第一节频数分布表与频数分布图 3/ 105

一、频数分布表 (frequency table)用途:用于描述资料的分布特征频数:在一批样本中,相同情形出现的次数称为该情形的频数。 资料类型计数和等级计量组段观察结果的所有分类根据观察结果重新划分频数相同类别出现的次数分组统计P44 表4-1,4-2,4-3

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 表4-3 某地150名正常成年男子红细胞数(1012/L)编号红细胞数12 3 4 5 6 73.984.54 4.74 5.13 4.43 4.81 4.98编号… 143 144 145 146 147 148红细胞数… 4.67 5.40 5.29 4.77 5.38 5.158 …3.79 …1491504.645.19 5/ 105

统计数据的整理和显示习题

第三章统计数据的整理和显示习题 一、填空题 1.统计数据分组的关键在于。 2.一般说来,统计分组具有三方面的作用:(1) ;(2);(3)。 3.根据分组标志的不同,统计分组可以有分组和分组。 4.按每个变量值分别列组所编制的变量分布数列叫,其组数等于。 5.在组距式数列中,表示各组界限的变量值叫。各组中点位置上的变量值叫。 6.组距式变量数列,根据各组的组距是否相等可以分为和。 7.已知一个数列最后一组的下限为900,其相邻的组中值为850,则最后一组的上限和组中值分别为和。 8.统计资料的表现形式主要有和。 9.从形式上看,统计表主要由、、和四部分组成;从内容上看,统计表由和两部分组成。 10.统计数据整理就是对搜集得到的进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的的工作过程。 11.数据的预处理是数据整理先行步骤,它是在对数据分类或分组之前对和所做的必要处理,包括对数据的、和。 12.直方图是用——的宽度和高度来表示频数分布的图形。 13.雷达图是一种的图示方法。 二、单项选择题 1.统计分组的关键问题是( ) A确定分组标志和划分各组界限B确定组距和组数 C确定组距和组中值D确定全距和组距 2.要准确地反映异距数列的实际分布情况,必须采用( ) A次数B累计频率C频率D次数密度 3.按品质标志分组,分组界限的确定有时会发生困难,这是由于( ) A组数较多B标志变异不明显C两种性质变异间存在过渡形态D分组有粗有细4.某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为( ) A260 B 215 C 230 D 185 5.下列分组中按品质标志分组的是( ) A人口按年龄分组B产品按质量优劣分组 C企业按固定资产原值分组D乡镇按工业产值分组 6.对企业先按经济类型分组,再按企业规模分组,这样的分组,属于( ) A简单分组B平行分组C复合分组D再分组 7.用组中值代表各组内的一般水平的假定条件是( ) A各组的次数均相等B各组的组距均相等 C各组的变量值均相等D各组次数在本组内呈均匀分布 8.对统计总体按两个及以上标志分组后形成的统计表叫( ) A简单表B简单分组表C复合分组表D汇总表 9.对某地区的全部商业企业按实现的销售额多少进行分组,这种分组属于( )

数据的统计描述和分析

第十章 数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。 我们将用Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 §1 统计的基本概念 1.1 总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如x )来表示,如一件产品是合格品记0=x ,是废品记1=x ;一个身高170(cm )的学生记170=x 。 从总体中随机产生的若干个个体的集合称为样本,或子样,如n 件产品,100名学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记作n x x x ,,,21 ,n 称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2 频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1 学生的身高和体重

《统计学》--数据分布特征的统计描述练习

第三章数据分布特征的统计描述 练习题 一、单项选择题 1、一组数据排序后处于25%和75%位置上的值称为(C) A、众数 B、中位数 C、四分位数 D、均值 2、离散系数的主要用途是(C) A、反映一组数据的离散程度 B、反映一组数据的平均水平 C、比较多组数据的离散程度 D、比较多组数据的平均水平 3、离散系数(C) A、只能消除一组数据的水平对标准差的影响 B、只能消除一组数据的计量单位对标准差的影响 C、可以同时消除数据的水平和计量单位对标准差的影响 D、可以准确反映一组数据的离散程度 4、峰态通常是与标准正态分布相比较而言的,如果一组数据服从标准正态分布,则峰态系数的值(A) A、等于0 B、大于0 C、小于0 D、等于1 5、如果峰态系数K>0,表明该组数据是(A) A、尖峰分布 B、扁平分布 C、左偏分布 D、右偏分布 6、某大学经济管理学院有1200名学生,法学院有800名学生,医学院有320名学生,理学院有200名学生。在上面的描述中,众数是(B) A、1200 B、经济管理学院 C、200 D、理学院 7、某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户,描述该组数据的集中趋势宜采用(A) A、众数 B、中位数 C、四分位数 D、均值 8、甲、乙两组工人的平均日产量分别为18件和15件。若甲、乙两组工人的平均日产量不变,但是甲组工人数占两组工人总数的比重下降,则两组工人总平均日产量(B)

A、上升 B、下降 C、不变 D、可能上升,也可能下降 9、权数对平均数的影响作用取决于(C)。在统计计算中,用来衡量总体中各单位标志值在总体中作用大小的数值叫权数。 A、各组标志值的大小 B、各组的次数多少 C、各组次数在总体单位总量中的比重 D、总体单位总量 10、当各个变量值的频数相等时,该变量的(A) A、众数不存在 B、众数等于均值 C、众数等于中位数 D、众数等于最大的数据值 11、有8名研究生的年龄分别为21,24,28,22,26,24,22,20岁,则他们的年龄中位数为(B) A、24 B、23 C、22 D、21 12、下列数列平均数都是50,在平均数附近离散程度最小的数列是(b) A、0 20 40 50 60 80 100 B、0 48 49 50 51 52 100 C、0 1 2 50 98 99 100 D、0 47 49 50 51 53 100 13、如果你的业务是提供足球运动鞋的号码,那么,哪一种平均指标对你更有用?(d) A、算术平均数 B、几何平均数 C、中位数 D、众数 14、假定某人6个月的收入分别是1800元,1840元,1840元,1840元,1840元,8800元,反映其月收入一般水平应该采用(C) A、算术平均数 B、几何平均数 C、众数 D、调和平均数 15、某组数据分布的偏度系数为正时,该数据的众数、中位数、均值的大小关系是(B ) A、众数>中位数>均值 B、均值>中位数>众数 C、中位数>众数>均值 D、中位数>均值>众数 二、填空题 1、某班的经济学成绩如下表所示: 43 55 56 56 59 60 67 69 73 75 77 77 78 79 80 81 82 83 83 83 84 86 87 88 88 89 90 90 95 97

数据的统计描述和分析

第十章数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。 我们将用Matlab的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 § 1 统计的基本概念 1.1总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如x)来表示,如 一件产品是合格品记X =0,是废品记x =1;一个身高170(cm)的学生记X = 170。 从总体中随机产生的若干个个体的集合称为样本,或子样,如n件产品,100名 学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数 据,不妨记作x1,x2 ,L ,x n,n称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1学生的身高和体重 学校随机抽取100名学生,测量他们的身高和体重,所得数据如表 身高体重身高体重身高体重身高体重身高体重 172 75 169 55 169 64 171 65 167 47 171 62 168 67 165 52 169 62 168 65 166 62 168 65 164 59 170 58 165 64 160 55 175 67 173 74 172 64 168 57 155 57 176 64 172 69 169 58 176 57 173 58 168 50 169 52 167 72 170 57 166 55 161 49 173 57 175 76 158 51 170 63 169 63 173 61 164 59 165 62 167 53 171 61 166 70 166 63 172 53 173 60 178 64 163 57 169 54 169 66 178 60 177 66 170 56 167 54 169 58 173 73 170 58 160 65 179 62 172 50

第2章统计数据的描述

第二章统计数据的描述 一、单项选择题 1.下列中,最粗略、计量层次最低的计量尺度是() A.间隔尺度 B.顺序尺度 C.比例尺度 D.列名尺度 2.将全国人口按“民族”划分为汉、白、彝、回、藏…..,这里使用的计量尺度是() A.比例尺度 B.列名尺度 C.间隔尺度 D.顺序尺度 3.某个人对某一事物的态度可以划分为非常同意、同意、保持中立、不同意、非常不同意,这里使用的计量尺度是() A.列名尺度 B.间隔尺度 C.顺序尺度 D.比例尺度 4.下列中,计量层次的最高、最精确的计量尺度是() A.比例尺度 B.间隔尺度 C.顺序尺度 D.列名尺度 5.下列调查方式中,只能调查一些最基本、最一般现象的调查方式是() A.抽样调查 B.重点调查和典型调查 C.统计报表 D.普查 6.实际中应用最为广泛的一种调查方式是() A.重点调查 B.统计报表 C.普查 D.抽样调查 7.某城市拟对占全市储蓄额4/5的几个大储蓄所进行调查,以了解全市储蓄的一般情况,则这种调查方式是() A.抽样调查 B.典型调查 C.重点调查 D.普查 8.一次性调查是指() A.只做过一次的调查 B.调查一次以后不再调查 C.间隔一段时间在进行一次调查 D.只隔一年就进行一次的调查 9.在统计分析中,对累积的次数分配用得最直接的是() A.供给曲线 B.需求曲线 C.洛伦茨曲线 D.边际需求曲线 10.专门用来衡量和反映收入分配平均程度的统计指标是() A.基尼系数 B.可决系数 C.相关系数 D.离散系数 11.一般认为,基尼系数在()之间是比较恰当的。

A.0.1— —0.4 C.— —0..8 12.一般认为,基尼系数等于( )是收入分配不公平的警戒线。 A.0.2 B.0.6 C. 利用公式计算众数的基本假定之一是众数组的频数在该组内呈( ) A.正态分布 分布 C.均匀分布 D.偏态分布 14.计算中位数时,假定中位数所在组的频数在该组内呈( ) A.左偏分布 B.正态分布 C.右偏分布 D.均匀分布 15.反映数据分布集中趋势的最主要的测度值是( ) A.众数 B.中位数 C.均值 D.几何平均数 16.各个变量值与均值的离差之和( ) A.大于0 B.小于0 C.等于0 D.等于一个不为0的常数 17.各个变量值与均值的离差平方和( ) A.为最大 B.为最小 C.为0 D.为一个不为0的常数 18.下列中,专门用来衡量众数代表性大小的离散程度测度值是( ) A.异众比率 B.四分位差 C.方差或标准差 D.极差 19.下列中,专门用来衡量中位数代表性大小的离散程度测度值是( ) A.方差和标准差 B.内距 C.异众比率 D.平均差 20.下列中,适用于列名数据的集中趋势测度值是( ) A.众数 B.中位数 C.均值 D.几何均值 21.描述数据离散程度最简单的测度值是( ) A.平均差 B.方差和标准差 C.极差 D.四分位差 22.经验法则表明,当一组数据呈对称分布时,大约有95%的数据在( )范围之内。 A.σ±X B.σ2±X C.σ3±X D.σ4±X 23.用来对两组数据的差异程度进行比较的统计分析指标是( ) A.基尼系数 B.标准差系数 C.相关系数 D.可决系数 24.测定数据分布偏斜程度需要计算( )

统计数据的描述

第二章统计数据的描述 在对一组统计数据的分布变化进行深入研究之前,我们首先研究一组数据的特征。为了比较精确地描述一组统计资料的特征,需要使用一些统计指标来描述它。一组数据的统计特征通常包括以下四个方面: 1、集中趋势,也称作中心位置。即表示一组数据的中心位置的数据点是在什么地方,也就是数据位置的度量。 2、离散性。即一组数据的分散程度,也就是数据散布的范围。 3、倾斜度。一组数据所描述的曲线既可以是左右对称的,也可能是倾斜的,即通过曲线最高点的垂线把曲线分为两半,是左右对称还是并不对称。 4、尖削度。这就是一组数据所描绘的曲线顶部的峰态特征。根据一组数据所描绘的曲线顶部既可能是尖峰状的,也可能是扁平状的。即使根据两组数据所描绘的曲线具有相同的中心位置和离散程度,但它们的尖削度也可能是不一样的。 在管理科学中,我们最感兴趣的常常是数据的集中趋势和离散程度,本章就主要介绍度量这两个特征的统计量。 第一节数据集中趋势的度量 一组数据的集中趋势通常用平均数、中位数和众数等来表示。这些统计量均称为平均指标。它表明同类社会经济现象的各单位的某一数量指标在一定时间、地点等条件下达到的平均水平。 平均指标的特点是将一组数据中各个数据之间的差异抽象化,用一个指标来代表各个数据的一般水平,它反映了一组数据中各个数据的典型水平、中心位置或集中趋势。 一、平均数 管理统计中常用的平均数有算术平均数、调和平均数和几何平均数等几种。但这里我们主要介绍算术平均数。算术平均数又称均值,常用x来表示。根据计算方法的不同,算术平均数又可分为简单算术平均数和加权算术平均数。 1、简单算术平均数 简单算术平均数的计算公式如下: x x x x N x N N i i N = +++ == ∑121 式中:N 是数据的个数; 21

相关文档
最新文档