第2章 统计数据的描述

第2章   统计数据的描述
第2章   统计数据的描述

第二章统计数据的描述

一、单项选择题

1.下列中,最粗略、计量层次最低的计量尺度是()

A.间隔尺度

B.顺序尺度

C.比例尺度

D.列名尺度

2.将全国人口按“民族”划分为汉、白、彝、回、藏…..,这里使用的计量尺度是()

A.比例尺度

B.列名尺度

C.间隔尺度

D.顺序尺度

3.某个人对某一事物的态度可以划分为非常同意、同意、保持中立、不同意、非常不同意,这里使用的计量尺度是()

A.列名尺度

B.间隔尺度

C.顺序尺度

D.比例尺度

4.下列中,计量层次的最高、最精确的计量尺度是()

A.比例尺度

B.间隔尺度

C.顺序尺度

D.列名尺度

5.下列调查方式中,只能调查一些最基本、最一般现象的调查方式是()

A.抽样调查

B.重点调查和典型调查

C.统计报表

D.普查

6.实际中应用最为广泛的一种调查方式是()

A.重点调查

B.统计报表

C.普查

D.抽样调查

7.某城市拟对占全市储蓄额4/5的几个大储蓄所进行调查,以了解全市储蓄的一般情况,则这种调查方式是()

A.抽样调查

B.典型调查

C.重点调查

D.普查

8.一次性调查是指()

A.只做过一次的调查

B.调查一次以后不再调查

C.间隔一段时间在进行一次调查

D.只隔一年就进行一次的调查

9.在统计分析中,对累积的次数分配用得最直接的是()

A.供给曲线

B.需求曲线

C.洛伦茨曲线

D.边际需求曲线

10.专门用来衡量和反映收入分配平均程度的统计指标是()

A.基尼系数

B.可决系数

C.相关系数

D.离散系数

11.一般认为,基尼系数在()之间是比较恰当的。

A.0.1—0.2

B.0.2—0.4

C.0.4—0.6

D.0.6—0..8

12.一般认为,基尼系数等于()是收入分配不公平的警戒线。

A.0.2

B.0.6

C.0.4

D.0.8

13.利用公式计算众数的基本假定之一是众数组的频数在该组内呈()

A.正态分布

B.t分布

C.均匀分布

D.偏态分布

14.计算中位数时,假定中位数所在组的频数在该组内呈()

A.左偏分布

B.正态分布

C.右偏分布

D.均匀分布

15.反映数据分布集中趋势的最主要的测度值是()

A.众数

B.中位数

C.均值

D.几何平均数

16.各个变量值与均值的离差之和()

A.大于0

B.小于0

C.等于0

D.等于一个不为0的常数

17.各个变量值与均值的离差平方和()

A.为最大

B.为最小

C.为0

D.为一个不为0的常数

18.下列中,专门用来衡量众数代表性大小的离散程度测度值是()

A.异众比率

B.四分位差

C.方差或标准差

D.极差

19.下列中,专门用来衡量中位数代表性大小的离散程度测度值是()

A.方差和标准差

B.内距

C.异众比率

D.平均差

20.下列中,适用于列名数据的集中趋势测度值是( )

A.众数

B.中位数

C.均值

D.几何均值 21.描述数据离散程度最简单的测度值是( )

A.平均差

B.方差和标准差

C.极差

D.四分位差

22.经验法则表明,当一组数据呈对称分布时,大约有95%的数据在( )范围之内。 A.σ±X B.σ2±X C.σ3±X D.σ4±X

23.用来对两组数据的差异程度进行比较的统计分析指标是( ) A.基尼系数 B.标准差系数 C.相关系数 D.可决系数 24.测定数据分布偏斜程度需要计算( )

A.标准差系数

B.峰度系数

C.基尼系数

D.偏态系数 25.一组数据的偏态系数SK=0,可以判断该组数据呈( ) A.正态分布 B.对称分布 C.t 分布 D.均匀分布

26.一组数据的偏态系数SK>0,可以判断该组数据呈( ) A.对称分布 B.右偏分布 C.扁平分布 D.左偏分布

27.一组数据的偏态系数SK<0,可以判断该组数据呈( )

A.对称分布

B.右偏分布

C.扁平分布

D.左偏分布 二、多项选择题

1. 计量结果表现为类别,不能进行加减乘除运算的计量尺度为( )

A .间隔尺度 B.比例尺度 C.列名尺度 D.顺序尺度 E.以上答案都不正确 2.抽样调查( )

A.是一种全面调查

B.是一种经常性调查

C.是一种非全面调查

D.是一种一次性调查

E.利用随机样本对总体数量特征进行推断 3.普查( )

A.是一种非全面调查

B.是一种非全面调查

C.是一种经常性调查

D.是一种一次性调查

E.需要规定统一的标准调查时间 4.抽样调查具有( )等特点。

A.经济性强

B.调查工作量大

C.时效性高

D.适应面广

E.、准确性高 5.下列中,属于登记性误差的是( )

A.调查中不回答产生的误差

B.违背随机原则产生的系统误差

C.不完整的抽样框导致的误差

D.由于样本的代表性产生的误差

E.调查方案中有关规定或解释不明确所导致的填报、抄录、汇总等错误 6.单变量值分组主要是用于( )等场合。

A.离散变量

B.连续变量

C.数据较少且重复次数多

D.数据较多且重复次数少

E.以上答案均正确 7.实际工作中,为了便于计算,组距( )

A.宜取5或10的倍数

B.第一组的下限值要大于最小的变量值

C.第一组的下限值要小于最小变量值

D.最后一组的上限值要小于最大变量值

E.最后一组的上限值要大于最大变量值

8.数据的预处理主要包括( )

A.数据的搜集

B.数据的审核

C.数据的分组

D.数据的筛选

E.数据的排序 9.下列中属于位置平均数的是( )

A.几何均值

B.众数

C.算术均值

D.调和均值

E.中位数 10.下列中属于静态平均数的是( )

A.算术均值

B.序时均值

C.众数和中位数

D.几何均值

E.调和均值

11.下列说法中正确的是()

A.众数是一组数据中出现次数最多的那个数据

B. 众数易受极端值影响

C.众数不受极端值影响

D.一组数据可以有一个或多个众数,也可以没有众数

E.众数属于位置平均数,即适用于品质数据,也适用于数量数据

12. 中位数具有()等特点。

A.均衡性

B.稳健性

C.差异性

D.客观性

E.各个数据与中位数的离差绝对值之和最小

13.下列中,属于离散程度测度值的是()

A.异众比率和四分位差

B.可决系数

C.方差和标准差

D.相关系数

E.离散系数

14.下列中,可以用来衡量均值代表性大小的离散程度测度值有()

A.异众比率

B.平均差

C.内距(四分位差)

D.方差和标准差

E.极差

15.极差()

A.是一组数据最大值和最小值之差

B.是离散程度最简单的测度值

C.不受极端值影响

D.易受极端值影响

E.未考虑数据的分布

16.下列中,适用于顺序数据的集中趋势测度值是()

A.均值

B.众数

C.调和均值

D.中位数

E.四分位数

17.下列中,适用于间隔数据的集中趋势测度值是()

A.众数

B.中位数

C.调和均值

D.均值

E.四分位数

18.下列中,适用于比例数据的集中趋势测度值是()

A.几何均值

B.调和均值

C.均值

D.中位数和四分位数

E.众数

19.下列中,反映数据分散绝对程度的离散程度测度值是()

A.方差和标准差

B.极差

C.离散系数

D.平均差

E.四分位差(内距)

20.下列中,适用于顺序数据的离散程度测度值有()

A.方差和标准差

B.四分位差

C.极差和平均差

D.异众比率

E.离散系数

21.标准分数()

A.也称为标准化值

B.对某一个值在一组数据中相对位置的度量

C.可用于判断一组数据是否有离群点

D.用于对变量的标准化处理

E.计算公式为

s x

x z i i -

=

22.箱线图由一组数据的()等特征值绘制而成。

A.最大值

B.均值

C.中位数

D.最小值

E.四分位差(内距)

23.从形式上看,统计表主要由()等部分构成。

A.总标题

B.行标题

C.列标题

D.数字部分

E.表外附注

24.设计统计表的总的要求是()

A.客观

B.科学

C.实用

D.简练

E.美观

三、填空题

1. 列名尺度是按照某种属性对事物进行的________________。

2.分类的原则是类别__________和______________。

3.顺序尺度不但对事物进行____________,而且还进行___________。

4.顺序尺度计量得到的数据表现为_________,但只能___________,不能进行___________。

5.统计数据的来源,一是_____________,二是___________________。一般地,前一种来源

得到的数据又称之为_______________,后一种来源得到的数据又称之为_____________。

6.统计分组的结果要最大限度地显示“________________”和“_________________”。

7.统计分组对于全部数据来说它是________,而对于单个的数据来说它是____________。

8.统计分组的标志包括_____________和_____________。

9.组距分组一定要遵循“___________”和“_____________”原则。

10.组距=(_________________—_______________ )÷组数

11.对原始数据的审核,主要审核___________和__________两个方面。

12.对二手数据的审核,主要审核___________和___________两个方面。

13.品质数据的审核方法主要是_____________;数量数据审核的方法主要是___________。

14.变量值在各组出现的次数,称之为___________;各组变量值出现次数在变量值总个数中的比重,称之为____________。

15.数量数据的分组方法有_______________和_________________。

16.组距分组可以分为_______________和_______________两种。

17.组距分组时,组数的确定应以_________________________________为目的。

18.组中值是下限和上限之间的____________,它的文字计算公式为____________________。

19.环形图主要用于展示_____________数据。

20.缺下限开口组(××以下)的组中值的文字计算公式为___________________;缺上限开口组(××以上)的组中值的文字计算公式为:

21.等距分组的各组频数的分布不受________的影响,可直接根据_________来观察频数分布的特征。

22.不等距分组的各组频数的分布受___________的影响,需要用___________来反映频数分布的实际状况。

23.直方图是用____________________来表示频数分布的图形,直方图下的总面积=_____,它主要用来展示____________数据。

24.频数密度是指单位组距中所包含的频数多少,即频数密度=___________÷_________。

25.正态分布是一种________________分布,它成____________________形状。

26.集中趋势是指一组数据向______________靠拢的倾向,测定集中趋势目的就是要寻找______________的代表值或中心值。

27.分布集中趋势测度值是指反映_____________________或_________________的统计指标,主要使用____________________来测度。

28.平均数是指将一个________总体中各个单位的数量差异抽象化,用以反映和代表______的统计指标。

29.对于组距分组数据,众数的数值与其相邻两组的频数分布有一定关系,若众数组前面一组的频数等于众数组后面一组的频数,此时众数=__________________。

30.利用公式计算众数有两条基本假定,一是数据分布呈明显的________________,二是众数组的频数在该组内呈____________分布。

31.从众数的计算公式可以看出,众数所体现的统计思想是在一组数据的中心点附近,变量值出现频数_________,根据众数组及相邻两组的频数分布,确定_________的位置。32.中位数将全部数据分成两部分,一部分___________________,一部分________________。

33.中位数是将_________从中间分成__________________的两个部分。

34.四分位数就是将一组数据________________后中间的各个分位点,其中第二个四分位数实际上就是______________。

35.四分位差又称为___________,它是等于_____________减去_____________。

36.均值就是全部数据的__________________,又称之为________________。

37.根据分组数据计算均值时,均值的大小不仅受_________________的影响,而且受________________的影响。

38.根据分组数据计算均值时,各组的频数对均值的大小起着______________作用,故称之为____________。

39.根据组距分组数据计算均值时,只能用__________________近似地作为各组的变量值,因此计算出的均值只是一个________值。 40.利用各组组中值作为各组的变量值时,有一个基本的假定是各组数据在组中是_______分布的。 41.∑

=

F

F

X

X 表明均值的大小取决于___________________和____________________

两个因素。

42.从统计思想看,均值反映了一组数据的______或_______,是数据误差________后的客观事物必然性数量特征的一种反映。

43.几何平均数主要适用于计算_________或__________的平均。 44.简单几何平均数适用于变量值__________________的场合。

45.切尾均值是指去掉_______________后,再用______________计算的均值。

46.切尾均值是结合了________利用数据信息充分和________不受极端值影响的两个优点而形成的新型统计量。

47.___________和____________是切尾均值的两种特例。 48.离散程度是数据分布的一个重要特征,它反映的是___________远离其_________的程度,它与集中趋势相对应,故又称之为_____________。

49.集中趋势测度值代表性的大小,直接取决于该组数据的___________________的大小。 50.对于一组数据而言,内距(四分位差)就是舍去数据中___________和____________,仅用“中间部分的数据的全距”来反映“集中于中间50%(即:1/2)的数值”的差异程度 51.作为数据集中趋势的代表值,均值是“统计分布”的____________。 52.作为集中趋势测度值,均值最适合于_________数据和_________数据。

53.离散程度测度值是用来测度数据分布_____________和_______________的统计指标。 54.平均差是各变量值与其____________离差绝对值的平均数,故又称之为____________。 55.从理论上说,凡是________________________与其相应的_____________________之比,都属于广义离散系数的范畴。

56.狭义的离散系数,仅指________________,是指__________与___________的比值。 57.异众比率主要适用于____________数据,但对于其他计量层次高的数据它也同样适用。 58.________________和__________________是数据分布的两个重要特征。 59.偏态是对数据分布偏斜的__________和___________的测度。

60.偏态系数是对数据__________和_________的测度,用_________表示。 61.比较常用的偏态系数是指________________除以____________________。

62.峰度是数据分布__________的形状,它通常是与____________相比较而言。

63.在_____相同的情况下,若数据分布的形状比___________更廋更高,则称为尖峰分布,反之则为________分布。

64.若正态分布的峰度系数为3,则峰度系数K>3,说明数据分布呈______________;峰度系数K<3,则说明数据分布呈______________。 65.茎叶图由_______和_________两部分构成,用于显示________________________的分布。 66.绘制茎叶图的关键是设计好________________。

67.箱线图用于显示__________________________的分布。

68.从内容上看,统计表主要包括___________和______________两个部分。

69.统计表的总标题一般要表明_____________________、_____________________和________________________。 四、判断题

1. 普查一般需要规定统一的标准调查时间,其目的主要是为了避免数据的重复或遗漏。( )

2.抽样调查不可避免地存在抽样误差,但抽样误差可以估计和控制。( )

3.列名尺度和顺序尺度计量得到的数据,属于“数量数据”,可以进行加减乘除运算。( )

4.比例尺度没有固定的“0”点,它的0是一个有意义的数。( )

5.抽样误差就是指由于抽样的随机形式的样本的代表性不足、利用样本推断总体时所产生的误差。( )

6.统计调查阶段是统计研究的第一步,是直接搜集统计数据的阶段。( )

7.统计的整个工作过程,就是对数据的处理过程。( )

8.抽样误差就是指在抽样过程中完全遵循了随机原则但由于各环节工作中的失误产生的误差。( ) 9.如果全部数据的最大值和最小值悬殊较大时,一般要采用等距分组。( ) 10.品质数据表现为“数值”,不能用文字来表示。( ) 11.数量数据表现为“数值”,能用文字来表示。( ) 12.组距是一组的上限值和下限值之差。( ) 13.向上累计就是指“由大到小累计”,而向下累计则是指“由小到大累计”。( ) 14.直方图和折线图下的面积有时相等,有时不相等。( ) 15.现实中许多现象的分布都服从或渐进服从正态分布。( ) 16.基尼系数等于0,表示收入分配绝对不公平。( ) 17.基尼系数等于1,表示收入分配绝对不公平。( )

18.对于组距分组数据,如果众数组前面一组的频数小于众数组后面一组的频数,则众数小于组中值。( ) 19. 对于组距分组数据,如果众数组前面一组的频数大于众数组后面一组的频数,则众数小于组中值。( )

20.众数是一个位置代表值,它受极端值的影响。( ) 21.中位数就是在任何一组数据中处于中间位置的那个数据。( ) 22.中位数也是一个位置代表值,但不受极端值的影响。( ) 23.∑|X-Me|=min 这一性质表明:中位数与各数据的距离最短。( ) 24.简单算术均值只是加权算术均值的一种特殊形式。( ) 25.作为数据集中趋势的代表值,均值是统计分布的均衡点。( ) 26.几何平均数使N 个变量连乘积的N 次方根。( ) 27.当一组数据中有一个小于或等于0,则不能计算其几何平均数。( ) 28.切尾均值是中位数和均值的一种折中。( ) 29.在单峰分布的条件下,若一组数据呈对称分布,则X M M e

O

==。( ) 30.在单峰分布的条件下,若一组数据呈左偏分布,则X M M e

O <<。( ) 31.在单峰分布的条件下,若一组数据呈右偏分布,则X M

M

e

O >>

。( )

32.根据英国统计学家卡尔.皮尔逊的经验公式,若数据呈偏态分布且偏斜程度不大是,M e

到X 得距离约等于M

O

到X 距离的

3

2。( )

33.数据的离散程度越大,则该组数据的集中趋势测度值的代表性就越大。( ) 34.异众比率是指非众数组的频数占总频数中的比重。( )

35.异众比率越大,则众数的代表性就越好。( )

36.几何均值是均值的一种变形,它的对数是各变量值对数的算术平均数。( ) 37.对于顺序数据而言,最适合的集中趋势测度值是众数。( ) 38.内距(四分位差)越大,则中位数的代表性就越好。( )

39.方差是测定数量数据离散程度的最主要的方法,它一般没有量纲。( ) 40.标准差是方差的立方根,它有量纲。( )

41.样本方差:则是用“样本数据个数n ”或“样本数据总频数Σf ”减去“1”再去除“离差平方和”的。( ) 42.自由度是指一组数据中可以自由取值的数据个数。( ) 43.标准差表明每一个数据与其均值相比,平均相差多少。( )

44.总体方差等于各个变量值平方的平均数减去各个变量值均值的平方。( )

45.各个变量值对其均值的方差总是小于各个变量值对任意数的方差,这是方差的重要数学性质之一。( ) 46.标准差系数越小,则说明数据的离散程度越大。( ) 47.偏态和峰度,就是对数据分布形状的测度。 ( )

48.经验法则表明约有99%的数据在平均数加减1个标准差的范围之内。( ) 49.经验法则表明约有68%的数据在平均数加减1个标准差的范围之内。( ) 50.对于正态分布,只要知道了均值和方差,就可以确定其分布。( ) 五、简答题

1.什么叫抽样调查?它有什么特点?

2.什么叫普查?它有什么特点?

3.一个完整的调查方案一般应包括哪些具体内容?

4.简述分布集中趋势测度值的作用。

5.什么叫权数?

6.什么叫数据分布集中趋势?它有哪些测度值?

7.什么叫数据分布离散程度?它有哪些测度值?

8.离散系数有什么用途?

9.简述样本方差与总体方差的区别。

10.从数据分布的角度,简述众数、中位数和均值三者之间的关系。

六、计算题

1.某百货公司6月份各天的销售额数据如下(单位:万元):

257 276 297 252 238 310 240 236 265 278

271 292 261 281 301 274 267 280 291 258

272 284 268 303 273 263 322 249 269 295

要求:

(1)计算该百货公司日销售额的均值、中位数和四分位数。

(2)计算日销售额的标准差。

2.甲乙两个企业生产三种产品的单位成本和总成本资料如下表:

将两个车间放在一起,计算两个生产车间日加工产品数的总均值及其标准差。

么?

5.一项关于大学生体中的研究发现,男生的平均体重为60千克,标准差为5千克;女生的平均体重为50千克,标准差为5千克。请回答以下问题:(1)是男生体重的差异大还是女生体重的差异大?为什么?(2)粗略估计一下,男生中有百分之几的人体重在55千克到65千克之间?(3)粗略估计一下,女生中有百分之几的人体重在40千克到60千克之间?

6.某班共有60名学生,在期末统计学考试中,男生考试成绩的均值为75分,标准差为6分;女生考试成绩的均值为80分,标准差为6分。请您根据给出的条件回答下列问题:(1)如果该班的男女学生各占一半,那么全班考试成绩的均值是多少?标准差是多少?(2)如果该班中男生为36人,女生为24人,那么全班考试成绩的均值又是多少?标准差又是多少?(3)如果该班中男生为24人,女生为36人,那么全班考试成绩的均值又是多少?标准差又是多少?(4)比较(1)、(2)、(3)的考试均值有何变化?并解释其变化的原因。(5)比较(2)、(3)的标准差有何变化?并解释其原因。(6)如果该班的男女学生各占一半,那么全班学生中考试成绩在64.5分到90.5分之间的人数大概是多少?

7.

要求:(1)计算这120家企业利润额的众数、中位数和四分位数。(2)计算这120家企业的均值和标准差。(3)计算该组数据的偏态系数和峰度系数。

又知:2班统计学期中考试成绩的均值772

=X ,标准差

82

。试问期中考试成绩的均

值哪一个班的代表性更好?

第2章统计数据的描述

第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2)用Excel制作一张频数分布表; (3) 绘制一张条形图,反映评价等级的分布。 解:(1)由于表中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频数)频率% A1414 B2121 C3232 D1818

E1515 合计100100 (3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题。即得到如下的条形图: 700716728719685709691684705718 706715712722691708690692707701 708729694681695685706661735665 668710693697674658698666696698 706692691747699682698700710722 694690736689696651673749708727 688689683685702741698713676702 701671718707683717733712683692 693697664681721720677679695691 713699725726704729703696717688 (1)利用计算机对上面的数据进行排序;

第二章 定量变量的描述性统计

第二章定量变量的描述性统计(中大.公卫学院.医学统计与流行病学系.骆福添.020-********) 第一节频数分布 ·收集到的数据必须给读者介绍一下,例2-1数据 怎么讲,读出来? 介绍特征,有何特征? ·例:肿瘤什么年龄多发?对发病年龄分组整理 ·脉搏:不妨对脉搏进行分组整理 一、频数分布表 例2-1测得130健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。 66 77 64 67 76 75 75 71 65 62 76 72 71 60 67 75 75 73 79 66 69 79 78 70 72 70 72 78 72 67 72 80 68 70 61 70 73 72 71 81 70 66 75 71 63 77 74 76 68 65 77 69 77 75 79 64 79 73 76 61 80 64 69 70 73 68 65 70 69 66 81 63 64 80 74 78 76 66 70 73 60 76 82 73 64 65 73 73 63 80 68 76 70 79 77 64 70 66 69 73 78 76 制作频数表的步骤为: 1.计算极差极差R=84 -57=27 (次/分)。 2.决定组数、组距和组段 (1)组数:10组左右 (2)组距:等组距(取方便数) (3)组段:下限(最小值)、上限(最大值.空穴)、组中值(代表值.正中)注意:组段应包含全部数据(上下封顶、取方便数) 3.列表划记特别简单、特难全对 表2-1 130名健康成年男子脉搏(次/分)的频数分布表 组段划记频数相对频数(%) 频数频数(%) (1) (2) (3) (4)=(3)/N(5)=(3) (6)=(5)/N 56~ 2 1.54 2 1.54 59~正 5 3.85 7 5.38 62~正正12 9.23 19 14.62 65~正正正15 11.54 34 26.15 68~正正正正正25 19.23 59 45.38 71~正正正正正一26 20.00 85 65.38 74~正正正19 14.62 104 80.00 77~正正正15 11.54 119 91.54 80~正正10 7.69 129 99.23 83~85 一 1 0.77 130 100.00 合计130 ·频数表有2个重要特征: (1)集中趋势划记的杠杠(数据)多数向中间集中 (2)离散趋势划记的杠杠(数据)少数向两头分散

统计学 第2章 统计数据的描述

第2章统计数据的描述 练习: 2.1为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的 等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2)用Excel制作一张频数分布表; (3) 绘制一张条形图,反映评价等级的分布。 2.2某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元): 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97 88 123 115 119 138 112 146 113 126 (1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率; (2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业, 105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。 2.3某百货公司连续40天的商品销售额如下(单位:万元): 41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42 36 37 37 49 39 42 32 36 35 根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 2.4为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果 如下: 700 716 728 719 685 709 691 684 705 718 706 715 712 722 691 708 690 692 707 701

第二章 统计数据的描述

第二章统计数据的描述 一、填空题: 1.统计分组有等距分组与异距分组两大类。 2. 频率是每组数据出现的次数与全部次数之和的比值。 3. 统计分组的关键在于确定组数和组距。 4. 统计表从形式上看,主要由表头(总标题)、横行标题、纵栏标题和数字资料(指标数值)四部分组成。 5. 均值是测度集中趋势最主要的测度指标,标准差是测度离散趋势最主要的测度指标。 6.当平均水平和计量单位不同时,需要用变异系数(离散系数)来测度数据之间的离散程度。 7.众数是一组数据中出现次数最多的变量值。 8.对于一组数据来说,四分位数有 3 个。 二、单项选择题: 1. 次数是分配数列组成的基本要素之一,它是指( B )。 A、各组单位占总体单位的比重 B、分布在各组的个体单位数 C、数量标志在各组的划分 D、以上都不对 2. 某连续变量数列,其末组为600以上。又如其邻近组的组中值为560,则末组的组中值为 ( D )。 A、620 B、610 C、630 D、640 3. 变量数列中各组频率的总和应该是( B )。 A、小于1 B、等于1 C、大于1 D、不等于1 4. 某连续变量数列,其首组为500以下。又如其邻近组的组中值为520,则首组的组中值为 ( C )。 A、460 B、470 C、480 D、490 5. 在下列两两组合的指标中,哪一组的两个指标完全不受极端数值的影响(D ) A、算术平均数和调和平均数 B、几何平均数和众数 C、调和平均数和众数 D、众数和中位数 6. 在编制等距数列时,如果全距等于56,组数为6,为统计运算方便,组距应取(D )

A、9.3 B、9 C、6 D、10 7. 一项关于大学生体重的调查显示,男生的平均体重是60公斤,标准差为5公斤;女生的平均体重是50公斤,标准差为5公斤.据此数据可以推断( B) 用变异系数算 A、男生体重的差异较大 B、女生体重的差异较大 C、男生和女生的体重差异相同 D、无法确定 8. 某生产小组有9名工人,日产零件数分别为10,11,14,12,13,12,9,15,12.据此数据计算的结果是( A ) 众数12 中位数12 平均数12 A、均值=中位数=众数 B、众数>中位数>均值 C、中位数>均值>众数 D、均值>中位数>众数 9. 按连续型变量分组,最后一组为开口组,下限值为2000。已知相邻组的组距为500,则最后一组组中值为(B ) A、2500 B、2250 C、2100 D、2200 10. 下列数据是某班所有学生的统计学考试成绩:72,90,91,84,85,57,90,84,77,84,69,77,66,87,85,95,86,78,86,45,87,92,73,82。这些成绩的极差是(B) A、78 B、50 C、45 D、40 11. 下列关于众数的叙述中,不正确的是( C ) A、一组数据可能存在多个众数 B、一组数据可能没有众数 C、一组数据的众数是唯一的 D、众数不受极端数值的影响 三、多项选择题: 1. 下列分组哪些是按品质标志分组?(BCDE ) A、职工按工龄分组 B、科技人员按职称分组 C、人口按民族分组 D、企业按所有制分组 E、人口按地区分组 F、职工按收入水平分组 2. 下列分组哪些是按数量标志分组(AF )。 A、职工按工龄分组 B、科技人员按职称分组 C、人口按民族分组 D、企业按所有志分组 E、人口按地区分组 F、职工按收入水平分组 3. 下列哪些属于离散程度的测度指标(BDE )。 A、几何平均数 B、极差 C、中位数 D、方差 E、离散系数 4. 下列哪些属于集中趋势的测度指标(AC )。

统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案

第2章 定量资料的统计描述 案例2-1(P27) 答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。 对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下: 25507523.5(23825%20) 4.7(mol/kg) 6625.5(23850%86) 6.6(mol/kg) 602 7.5(23875%146)8.9(mol/kg) 48(%) x x L x i P L n x f f P u P u P u =+?==+?==+?==+?S

离散程度指标: 四分位间距=P75-P25=8.9-4.7=4.2umol/kg。 故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,

思考与练习(P31) 1. 答: (1) 某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布 Group Frequency Percent Cumulative Percent 49.0- 1 .8 .8 50.0- 4 3.3 4.2 51.0- 8 6.7 10.8 52.0- 6 5.0 15.8 53.0- 19 15.8 31.7 54.0- 18 15.0 46.7 55.0- 14 11.7 58.3 56.0- 26 21.7 80.0 57.0- 10 8.3 88.3 58.0- 9 7.5 95.8 59.0- 4 3.3 99.2 61.0-62.0 1 .8 100.0 Total 120 100.0

第2章 统计描述思考与练习参考答案

第2章统计描述 思考与练习参考答案 一、最佳选择题 1. 编制频数表时错误的作法是( E )。 A. 用最大值减去最小值求全距 B. 组距常取等组距,一般分为10~15组 C. 第一个组段须包括最小值 D. 最后一个组段须包括最大值 E. 写组段,如“~3,3~5, 5~,…” 2. 描述一组负偏峰分布资料的平均水平时,适宜的统计量是(A)。 A. 中位数 B. 几何均数 C. 调和均数 D. 算术均数 E. 众数 3. 比较5年级小学生瞳距和他们坐高的变异程度,宜采用(A)。 A. 变异系数 B. 全距 C. 标准差 D. 四分位数间距 E. 百分位数与的间距 4. 均数X和标准差S的关系是(A)。 A. S越小,X对样本中其他个体的代表性越好 B. S越大,X对样本中其他个体的代表性越好 C. X越小,S越大 D. X越大,S越小 E. S必小于X 5. 计算乙肝疫苗接种后血清抗-HBs的阳转率,分母为(B)。 A. 阳转人数 B. 疫苗接种人数 C. 乙肝患者数 D. 乙肝病毒携带者数 E. 易感人数 6. 某医院的院内感染率为人/千人日,则这个相对数指标属于(C)。 A. 频率 B. 频率分布 C. 强度 D. 相对比 E. 算术均数 7. 纵坐标可以不从0开始的图形为(D)。

A. 直方图 B. 单式条图 C. 复式条图 D. 箱式图 E. 以上均不可 二、简答题 1. 对定量资料进行统计描述时,如何选择适宜的指标 答:详见教材表2-18。 教材表2-18 定量资料统计描述常用的统计指标及其适用场合 描述内容指标意义适用场合 平均水平均数个体的平均值对称分布 几何均数平均倍数取对数后对称分布 中位数位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众数频数最多的观察值不拘分布形式,概略分析 调和均数基于倒数变换的平均值正偏峰分布资料 变异度全距观察值取值范围不拘分布形式,概略分析 标准差(方差)观察值平均离开均数的 程度 对称分布,特别是正态分布资料 四分位数 间距居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 2. 举例说明频率和频率分布的区别和联系。 答:2005年某医院为了调查肺癌患者接受姑息手术治疗1年后的情况,被调查者150人,分别有30人病情稳定,66人处于进展状态,54人死亡。 当研究兴趣只是了解死亡发生的情况,则只需计算死亡率54/150=36%,属于频率指标。当研究者关心患者所有可能的结局时,则可以算出反映3种结局的频率分别为20%、44%、36%,它们共同构成所有可能结局的频率分布,是若干阳性率的组合。

第二章 统计数据的描述

第二章统计数据的描述 一、单项选择题 1.当数据呈对称分布或接近对称分布时,应选择( )作为集中趋势的代表值。 A .众数 B .均值 C .中位数 D .几何平均数 2.( )是用来对两组数据的差异程度进行相对比较的。 A .标准差 B .离散系数 C .平均差 D .全距 3.由组距数列确定众数时,如果众数相邻两组的次数相等时,则( )。 A .众数为零 B .众数就是那个最大的变量值 C .众数组的组中值就是众数 D .众数就是当中那一组的变量值 4.某连续变量数列,其首组为50以下。又知其邻近组的组中值为75,则首组的组中值为( ) A 24 B 25 C 26 D 27 5.两组数据相比较( )。 A.标准差大的离散程度也就大 B.标准差大的离散程度就小 C .离散系数大的离散程度也就大 D.离散系数大的离散程度就小 6.某连续变量分为5组:第一组为40—50,第二组为50—60,第三组为60—70,第四组为70—80,第五组为80以上,则( ) A.50在第一组,70在第四组 B.60在第三组,80在第五组 C.70在第三组,80在第五组 D.80在第四组,50在第二组 7.若某总体次数分布呈左偏分布,则成立的有()。 A.x >e M >o M B.x o M >e M D.以上都不对 8.统计分组的依据是() A.标志 B.指标 C.标志值 D.变量值 9.统计分组的关键在于() A.正确选择分组标志 B.正确划分各组界限 C.正确确定组数和组限 D.正确选择分布数列种类 10.在全距一定的情况下,组距的大小与组数的多少成() A.正比B.反比C.无比例关系D.有时成正比有时成反比 11.按某一标志分组的结果表现为() A.组内同质性,组间同质性 B.组内同质性,组间差异性 C.组间差异性,组间同质性 D.组间差异性,组间差异性 12.不能全面反映总体各单位标志值变异程度的标志变异指标是() A.全距B.平均差C.标准差 D.标准差系数 13.某单位职工最大年龄与最小年龄之差称为该单位职工年龄的 ( ) A.标 志 B.全距 C.平均差 D.众 数 14.某企业的职工工资水平比上年提高5%,职工人数增加2%,则企业工资总额增长( )。 A. 10% B. 7.1% C. 7% D. 11%

第2章 统计数据的描述

第2章 统计数据的描述 练习: 2 比较哪个企业的总平均成本高?并分析其原因。 2. 11在某地区抽取的120家企业按利润额进行分组,结果如下: 按利润额分组(万元) 企业数(个) 200~300 19 300~400 30 400~500 42 500~600 18 600以上 11 合计 120 计算120家企业利润额的均值和标准差。 2. 12对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如下: 成年组 166 169 172 177 180 170 172 174 168 173 幼儿组 68 69 68 70 71 73 72 73 74 75 (1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么? (2)比较分析哪一组的身高差异大? 答案 2.10 (1)甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。 2.11 x =426.67(万元);48.116=s (万元)。 2.12 (1)离散系数,因为它消除了不同组数据水平高地的影响。 (2)成年组身高的离散系数: 024.01.1722 .4== s v ; 幼儿组身高的离散系数: 032.03.713 .2== s v ; 由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度 相对较大。

第5章参数估计 练习: 5.1从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。 (1)样本均值的抽样标准差x σ等于多少? (2)在95%的置信水平下,允许误差是多少? 5.2某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客 组成了一个简单随机样本。 (1)假定总体标准差为15元,求样本均值的抽样标准误差; (2)在95%的置信水平下,求允许误差; (3)如果样本均值为120元,求总体均值95%的置信区间。 5.3某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽 取36人,调查他们每天上网的时间,得到下面的数据(单位:小时): 3.3 3.1 6.2 5.8 2.3 4.1 5.4 4.5 3.2 4.4 2.0 5.4 2.6 6.4 1.8 3.5 5.7 2.3 2.1 1.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5 4.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5 求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。 5.4从一个正态总体中随机抽取容量为8 的样本,各样本值分别为:10,8,12,15,6,13,5,11。 求总体均值95%的置信区间。 5.5某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样 本,他们到单位的距离(公里)分别是: 10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2 求职工上班从家里到单位平均距离95%的置信区间。 5.6在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视 机。其中拥有该品牌电视机的家庭占23%。求总体比率的置信区间,置信水平分别为90%和95%。 5.7某居民小区共有居民500户,小区管理者准备采取一向新的供水设施,想了解居民是否 赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。 (1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%; (2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查? 答案 5.1 (1) 79 .0 = x σ;(2)E=1.55。 5.2 (1) 14 .2 = x σ;(2)E=4.2;(3)(115.8,124.2)。 5.3 (2.88,3.76);(2.80,3.84);(2.63,4.01)。 5.4 (7.1,12.9)。 5.5 (7.18,11.57)。 5.6 (18.11%,27.89%);(17.17%,22.835)。

第二章 统计数据的描述习题及答案

第一章统计数据的描述习题及答案 1.简述众数、中位数和均值的特点和应用场合。 答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。 2.为什么要计算离散系数? 答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。 3.某百货公司6月份各天的销售额数据如下(单位:万元): 257 276 297 252 238 310 240 236 265 278 271 292 261 281 301 274 267 280 291 258 272 284 268 303 273 263 322 249 269 295 (1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。 解:(1)将全部30个数据输入Excel表中同列,点击列标,得到30个数据的总和为8223,于是得该百货公司日销售额的均值: 或点选单元格后,点击“自动求和”→“平均值”,在函数EVERAGE()的空格中输入“A1:A30”,回车,得到均值也为274.1。在Excel表中将30个数据重新排序,则中位数位于30个数据的中间位置,即靠中的第15、第16两个数272和273的平均数: 由于中位数位于第15个数靠上半位的位置上,所以前四分位数位于第1~第15个数据的中间位置(第8位)靠上四分之一的位置上,由重新排序后的Excel表中第8位是261,第15位是272,从而: 同理,后四分位数位于第16~第30个数据的中间位置(第23位)靠下四分之一的位置上,由重新排序后的Excel表中第23位是291,第16位是273,从而: (2)未分组数据的标准差计算公式为:

第二章 数据描述与基本操作

C语言程序设计详解 第二章数据描述与基本操作 一、主要知识点 (一)C的基本类型节 (二)常量和符号常量 1、常量定义:在程序运行过程中,其值不能被改变的量称为常量。常量常区分不同的类型,如1 2、0、-3为整型常量,‘a’、‘D’为字符常量。 2、符号常量:用一个标示符代表一个常量的,称为符号常量,即标示符形式的常量。常量不同于变量,它的值在作用域不能改变,也不能再被赋值。 (三)变量 1、变量定义:其值可以改变的量称为变量。 2、标识符的命名规范和其它高级语言一样,用来标识变量名、符号常量名、函数名、数组名、类型名、文件名的有效字符序列称为标识符,C语言中的标识符命名规范为:○1变量名只能由字母、数字和下划线三种字符组成,且第一个字符必须是字母或者下划线。 ○2C语言中标识符的长度(字符个数)无统一规定,随系统而不同。许多系统取前7个字符。 ○3C语言有32个关键字它们已有专门含义,不应该采用与它们同名的变量名。 ○4C语言将大小写字母认为是两个不同字。习惯上符号常量名用大写,变量名用小写来示区别,但大写字母作变量名并无错误。 (四)整型数据 1、整型常量 整型常量即整常数。C语言整常数可用以下三种表示形式。 ○1十进制表示。如321,-234,34.324 ○2八进制表示。以0开头的数是八进制数。如0123

○3十六进制表示。以Ox开头的数是16进制。如Ox123 2、整型变量 整型变量分为:基本型、短整型、长整型和无符号型4种。 ○1基本型,以int表示 ○2短整型,以short int表示或short表示 ○3长整型,以long int表示或long表示 ○4无符号型,存储单元中全部二进制位(bit)用作存数本身,而不包括符号。 3、整型数据的取值范围 4、整型常量的分类 ○1一个整常量,如果其值在-32768~32767范围内,认为他是int型,他可以赋值给int 型和long int型变量。 ○2一个整常量,如果其值超过了上述范围,而在-2147483648~2147483647范围内,则认为它是long int型,可以将它赋值给一个ling int型变量。 ○3在一个整常量后面加一个字母l或L,则认为是ling int型常量。 (五)实型数据 1、实型常量 实数在C语言中又称为浮点数。实数有两种表示形式: ○1十进制形式。它由数字和小数点组成(注意必须有小数点)。例:0.123、.123、123.0、0.0都是hi十进制数形式。 ○2指数形式。如123.56e4或123.56E4都代表123.56 *10^4。但字母e(或E)之前必须有数字,e后面指数必须为整数。例如:e3、1.2e3.5、.e3、e都是不合法的指数形式。 例:下面四个选项中,均是不合法的浮点数的选项是 B 。 A、160. 0.12 e3 B、123 2e4.2 .e5 C、-.18 123e4 0.0 D、-.e3 .234 1e3 2、实型变量 C实型变量分为单精度(float型)和双精度(double型)两类。 在一般系统中,一个单精度型数据在内存中占4个字节(32位),一个double型数据占8个字节。一个单精度型变量能接收7位有效数字,一个double型变量能接收17位有效数字,数值的范围随机器系统而异。

第二章 简单统计描述分析

第二章单变量和双变量统计描述分析 第一节单变量统计描述基本技术 一、变量的计量尺度/层次 1、定类变量——最低层次的变量类型。只有类别属性之分,无大小程度之分。根据变量值,只能知道研究对象的异同。从数学运算特性来看,定类变量只有等于或不等于的性质。 2、定序变量——层次高于定类变量。取值除类别属性外,还有等级、次序之分。数学运算特性除等于或不等于外,还有大于或小于。 3、定距变量——层次高于定序变量。取值除类别属性、次序之外,取值之间的距离可以用标准化的举例度量。数学运算特性除等于不等于,大于小于之外,还可以加减。如收入,以1元为标准化距离,则2000元比1500元多了500元。 4、定比变量——最高层次变量。除了上述三种属性外,可以进行乘除运算。 1、社会学研究中,能够满足定距而不能同时满足定比要求的变量不多。如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。当前社会统计方法很少要求达到定比层测,所以只介绍前三种层次变量。 2、在社会学研究当中,有些变量的层次是不统一可变的,可用定序层次也可用定距层次,根据研究需要。高层次变量可以降低层次来使用。一般来说,测量层次越高越好,数学特性就越多,统计分析就越方便,能了解资料的程度就越深入。 二、基本技术 1、次数分布(定类)——针对定类变量 最基本的统计分析方法。面对大量的数据资料,首先要组织整理,第一步就是要采用次数分布来简化资料,看某变量的每一个值出现的次数是多少。 定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,一个观察值只能归入一类,对于分组数据遵循上限不包括在内原则。 次数分布可简化资料,但不能比较样本,因为样本量不同。 2、比、比例和比率(通常保留一位或两位小数) 比:某两类的次数相除,如性别比=男性/女性 比例:某类次数除以总数,老年人口比例=老年人口数/总人口数×100% 比率:某一确定变量相对应的某些事件发生的频率。分子和分母不存在隶属关系,有时是不同的变量,如人均GDP,患病率。 3、累加次数和累加百分比(定序和定距)

STATA 第二章 描述性统计命令与输出结果说明

第二章描述性统计命令与输出结果说明 上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。 计算资料均数,标准差命令summarize,以述资料为例: . summarize Variable Obs Mean Std. Dev. Min Max x1 11 4.710909 1.302977 2.6 6.53 x2 13 3.354615 1.304368 1.67 5.78 Mean 均值;Std.Dev.标准差 即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。 计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize 以及子命令detail,仍以述资料为例:

. summarize x1 x2,detail x1 Percentiles Smallest 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11 25% 3.73 3.73 Sum of Wgt. 11 50% 4.73 Mean 4.710909 Largest Std. Dev. 1.302977 75% 5.78 5.58 90% 6.4 5.78 Variance 1.697749 95% 6.53 6.4 Skewness -.0813446 99% 6.53 6.53 Kurtosis 1.809951 x2 Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% 2.33 2.33 Sum of Wgt. 13 50% 3.6 Mean 3.354615 Largest Std. Dev. 1.304368 75% 4.17 4.17 90% 4.82 4.57 Variance 1.701377 95% 5.78 4.82 Skewness .2963943 99% 5.78 5.78 Kurtosis 1.875392 . 结果: Percentiles 显示了从1%到99%的分位数的取值。第二列是最小和最大的5个数。第三列从上到下:obs观测值数目、mean平均数、std.dev标准差、variance 方差。 skewness偏度:偏度的绝对值越小,表明该数据的正态对称性越好。 kurtosis峰度:峰度值越大表明该数据的正态峰越明显。 95%可信限计算: 正态数据:ci 变量名 0-1 数据:ci 变量名,binomial poisson分布数据:ci变量名,poisson 90%可信限计算(其它可信限类推) 正态数据:ci 变量名,level(90) 0-1数据:ci 变量名,level(90) binomial poisson分布数据:ci 变量名,level(90) poisson ci x1 x2 . ci x1 x2 Variable Obs Mean Std. Err. [95% Conf. Interval] x1 11 4.710909 .3928624 3.835557 5.586261 x2 13 3.354615 .3617667 2.566393 4.142837 [95%Conf.Interval]为95%的可信限,因此x1的95%可信限为[3.8356,5.5863],x2的95%可信限为[2.5664,4.1428]。 根据样本数,样本均数和标准差计算可信限。

第二章 数据分布特征的测度

第二章数据分布特征的测度 对数据分布特征主要从三个方面进行测度和描述:一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏斜程度和峰度。本章主要介绍如何使用函数以及“数据分析”工具对数据分布特征进行测度和描述。 第一节函数的介绍 本节主要介绍在统计分析中需要用到的一些函数,其中包括我们本章(描述统计)中以及在概率分布、参数估计与假设检验、方差分析、相关与回归等分析中涉及到的函数,读者在后面章节的学习中可以参阅本节的内容。 一、统计计算中经常用到的函数(函数列表)★ Excel为用户提供了数学、三角函数、统计函数、数据库函数、财务函数、工程函数、逻辑函数、文本函数、时间和日期函数、信息函数、查找和引用函数等10类300多种,可以满足多方面的需要。其中,统计函数最多达78种;此外还有14种数据库函数,以及在统计中经常使用的数学函数20种,合计112种。下面将这些函数名称及功能列表显示。 ★本小节摘自: 安维默主编,《统计电算化》第34~37页,中国统计出版社,2000

表2-1 可用于统计分析的函数(续2)

1、函数的语法 工作表函数包括两个部分:函数名和紧跟的一个或多个参数。函数名,例如SUM和A VERAGE,表明函数要执行的操作;参数则指定函数所使用的值或单元格。例如,在公式“=SUM(C3:C5)”中,SUM为函数名,C3:C5为参数。此函数计算单元格C3、C4和C5中值的总和。函数的参数可以为数值类型。例如,公式“=SUM(327,209,176)”中的SUM 函数将数字327、209和176求和。不过通常的做法是,先在工作表的单元格中输入使用的数字,然后将这些单元格作为函数的参数使用。请注意函数参数两端的括号:开括号表示参数的开始,必须紧跟在函数名后。如果在函数名和括号之间输入了空格或其他字符,那么Excel会显示错误信息“Microsoft Excel 在公式中发现了错误。建议更正如下:是否接受建议的修改?”如果单击【是】按钮,则Excel会自动更新公式;如果单击【否】按钮,则单元格中将显示错误值﹟NAME?。 如果在函数中使用多个参数,则要用逗号将参数隔开。例如,公式“=PRODUCT (C1,C2,C5)”告诉Excel将单元格C1,C2,和C5的数值相乘。函数中可使用的参数多达30个,但公式的长度不能超过1024个字符。参数可以是工作表中包括任意数目单元格的区域。例如,函数“=SUM(A1:A5,C2:C10,D3:D7)”只有3个参数,但对29个单元格的数据进行求和运算(第一个参数A1:A5,指从A1到A5的所有单元格,依此类推)。反过来,引用的单元格中也可以包括公式,这些公式引用更多的单元格或单元格区域。使用这些参数,就可以轻松地创建复杂的公式来执行功能强大的各种操作。 2、函数的输入 对一些单变量和比较简单的函数,可用键盘直接输入。其方法与在单元格中输入公式相

第二章课本习题答案

第2章统计数据的描述 练习题部分: 2.1为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的 等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (2)用Excel制作一张频数分布表; (3)绘制一张条形图,反映评价等级的分布。 2.2某行业管理局所属40个企业2008年的产品销售收入数据如下(单位:万元): 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97 88 123 115 119 138 112 146 113 126 (1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率; (2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业, 105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。 2.3某百货公司连续40天的商品销售额如下(单位:万元): 41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42 36 37 37 49 39 42 32 36 35 根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 2.4为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果 如下: 700 716 728 719 685 709 691 684 705 718 706 715 712 722 691 708 690 692 707 701 708 729 694 681 695 685 706 661 735 665 668 710 693 697 674 658 698 666 696 698 706 692 691 747 699 682 698 700 710 722 694 690 736 689 696 651 673 749 708 727

第2章描述性统计分析实例

第2章 描述性统计分析实例 当进行数据分析时,如果研究者得到的数据量很小,那么就可以通过直接观察原始数据来获得所有的信息;如果得到的数据量很大,那么就必须借助各种描述指标来完成对数据的描述工作。用少量的描述指标来概括大量的原始数据,对数据展开描述的统计分析方法被称为描述性统计分析。常用的描述性统计分析有频数分析、描述性分析、探索分析、列联表分析。下面我们将一一介绍这几种方法在实例中的应用。 2.1 实例1——频数分析 2.1.1 频数分析的功能与意义 SPSS的频数分析(Frequencies)是描述性统计分析中比较常用的方法之一。通过频数分析,我们可以得到详细的频数表以及平均值、最大值、最小值、方差、标准差、极差、平均数标准误、偏度系数和峰度系数等重要的描述统计量,还可以通过分析得到合适的统计图。所以进行频数分析不仅可以方便地对数据按组进行归类整理,还可以对数据的分布特征形成初步的认识。 2.1.2 相关数据来源 下载资源\video\chap02\... 下载资源\sample\2\正文\原始数据文件\案例2.1.sav 【例2.1】表2.1给出了山东省某学校50名高二学生的身高。试分析这50名学生的身高分布特征,计算平均值、最大值、最小值、标准差等统计量,并绘制频数表、直方图。 表2.1 山东省某学校50名高二学生的身高 编号身高(cm) 001 175 002 163 003 156 004 174 005 167 … … 048 158 049 164 050 163

15 第2章 描述性统计分析实例 2.1.3 SPSS分析过程 在用SPSS 进行分析之前,我们要把数据录入到SPSS 中。本例中有两个变量,分别是编 号和身高。我们把编号定义为字符型变量,把身高定义为数值型变量,然后录入相关数据。录入完 成后,数据如图2.1所示。 图2.1 案例2.1数据 先做一下数据保存,然后开始 展开分析,步骤如下: 进入SPSS 24.0,打开相关数据文件,选 择“分析”|“描述统计”| “频率”命令,弹出如图2.2所示的对话框。 选择进行频数分析的变量。在“频率”对 话框的左侧列表框中选择“身高”选项,单击中间 的按钮使之进入“变量”列表框。 选择是否输出频数表格。选中“频率”对 话框左下角的“显示频率表”复选框,要求输出频数表格。 选择输出相关描述统计量。单击“频率”对话框右上角的“统计”按钮,弹出如图 2.3所示的对话框,在该对话框中可以设置相关描述统计量。我们在“百分位值”选项组中选中“四分位数”“分割点”复选框;在“集中趋势”选项组中选中“平均值”“中位数”“众数”“总和”复选框;在“离散”选项组中选中“标准差”“方差”“范围”“最小值”“最大值”“标 准误差平均值”复选框;在“分布”选项组中选中“偏度”“峰度”复选框。设置完毕后,单击“继续”按钮返回“频率”对话框。 设置图表的输出。单击“频率”对话框中的“图表”按钮,弹出如图 2.4所示的对话 框,选择有关的图形输出。在此我们选择直方图,并且带正态曲线。 图2.2 “频率”对话框

相关文档
最新文档