统计学第三版袁卫编辑课后答案

统计学第三版袁卫编辑课后答案
统计学第三版袁卫编辑课后答案

统计学

第一章

1.什么是统计学?怎样理解统计学与统计数据的关系?

答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。

2.简要说明统计数据的来源

答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。

3.简要说明抽样误差和非抽样误差

答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。

4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品

(2)变量:口味(如可用10分制表示)

(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。

(4)从匹配样本的观察值中推断两品牌口味的相对好坏。

第二章、统计数据的描述

思考题

1描述次数分配表的编制过程

答:分二个步骤:

(1)按照统计研究的目的,将数据按分组标志进行分组。

按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。

按数量标志进行分组,可分为单项式分组与组距式分组

单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。

统计分组应遵循“不重不漏”原则

(2)将数据分配到各个组,统计各组的次数,编制次数分配表。

2.解释洛伦兹曲线及其用途

答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。

3. 一组数据的分布特征可以从哪几个方面进行测度?

答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常

用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。

4 怎样理解均值在统计中的地位?

答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。

5 对比率数据的平均,为什么采用几何平均?

答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均。

6. 简述众数、中位数和均值的特点和应用场合。

答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。

7 为什么要计算离散系数?

答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。

练习题:

1. 频数分布表如下:

服务质量等级评价的频数分布

服务质量等级家庭数(频率)频率%

A1414

B2121

C3232

D1818

E1515

合计100100

条形图(略)

2 (1)采用等距分组:

n=40 全距=152-88=64 取组距为10

组数为64/10=6.4 取6组

频数分布表如下:

(2) 某管理局下属40个企分组表

按销售收入分组(万元) 企业数(个)

频率(%) 先进企业 良好企业 一般企业 落后企业 11 11 9 9 27.5 27.5 22.5 22.5 合计

40

100.0

3 采用等距分组 全距=49-25=24

n=40 取组距为5,则组数为 24/5=4.8 取5组

F r e q u e n c y

4. .(1)排序略。

(2)频数分布表如下:

100只灯泡使用寿命非频数分布

按使用寿命分组(小时) 灯泡个数(只) 频率(%)

650~660 2

2 660~670 5 5 670~680 6 6 680~690 14 14 690~700 26 26 700~710 18 18 710~720 1

3 13 720~730 10 10 730~740 3 3 740~750 3 3 合计

100

100

直方图(略)。

5 等距分组

n=65 全距=9-(-25)=34 取组距为5,组数=34/5=6.8, 取 7组

F r e q u e n c y

且平均成绩较A 班低 8.

9.(L U 。

(2)17.21=s (万元)。

10.甲企业平均成本3

1113

111i

i i

i i

m x m x

===

∑∑=19.41(元),

乙企业平均成本3

2123

112i

i i

i i

m x m x

===

∑∑=18.29(元);

原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。

11.x =

11

k

i i

i k

i

i x f

f

==∑∑426.67(万元);

s =

116.48(万元)

13(1)离散系数,因为它消除了不同组数据水平高低的影响。

(2)成年组身高的离散系数:024.01.1722

.4==

s v ; 幼儿组身高的离散系数:032

.03.713.2==s v ;

由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。

14 .

先考虑平均指标,在平均指标相近时考虑离散程度指标。

应选择方法A ,其均值远高于其他两种方法,同时离散程度与其他两组相近。

15.(1)风险的度量是一个不断发展的问题,在古典金融理论中,主要采用标准差这个统计测度来反映,现代金融中,采用在险值(value at risk )。 (2)无论采用何种风险度量,商业类股票较小

(3)个人对股票的选择,与其风险偏好等因素有关。

第四章

1.总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推断的对象。从总体中随机抽取容量为n 的样本()12,,,n x x x ,它的分布

称为样本分布。由样本的某个函数所形成的统计量()12,,,n f x x x ,它的分布称

为抽样分布(如样本均值、样本方差的分布)

2.重复抽样和不重复抽样下,样本均值的标准差分别为:

因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数

3.解释中心极限定理的含义

答:在抽样推断中,中心极限定理指出,不论总体服从何种分布,只要其数学期望和方差存在,对总体进行重复抽样时,当样本容量充分大,样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论基础。

第四章、参数估计

1.简述评价估计量好坏的标准

答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数θ的

估计量有1?θ和2?θ,如果()

1?E θθ=,称1?θ是无偏估计量;如果1?θ和2?θ是无偏估计量,且()1?D θ小于()

2?D θ,则1?θ比2

?θ更有效;如果当样本容量n →∞,1?θθ→,则1?θ是相合估计量。

2.说明区间估计的基本原理

答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。

3.解释置信水平为95%的置信区间的含义

答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。

4.简述样本容量与置信水平、总体方差、允许误差的关系

答:以估计总体均值时样本容量的确定公式为例:()2

2/22

z n E ασ=

样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。

练习题:

2. 解:由题意:样本容量为49n = (1)

若15, 2.143x σσ==

=

= (2)

/2

0.05, 1.96*2.143 4.20028E z αα====

(3)

若()()/2/2

120,120 4.20028,120 4.20028115.7997,124.20028x x z x z αα?

=-+=-+ ?

=

2.解:由题可得:36, 3.317, 1.609n x s ===

尽管采用不重复抽样,但因为样本比例很小(不到0.5%),其抽样误差与重复抽样下近似相同,采用重复抽样的抽样误差公式来计算。

36n =为大样本,则在α的显著性水平下的置信区间为:

/2/2

x z x z αα?

-+ ?

当/20.1, 1.64z αα==,置信区间为(2.88,3.76) 当/20.05, 1.96z αα==,置信区间为(2.80,3.84) 当/20.01, 2.56z αα==,置信区间为(2.63,4.01) 5解:假设距离服从正态分布,16,9.375, 4.113n x s ===

平均距离的95%的置信区间为((

0.0250.0251515x t x t ?

-+ ?=

(7.18,11.57) 7解:由题意:32

50,64%50

n p ==

=。 因为(),1np n p -均超过5,大样本

(1)总体中赞成比率的显著性水平为α的置信区间为

//p z p z αα? -+ ?

当0.05α=时,/13.3%E z α=== 置信区间为(50.7%,77.3%)

(2)如果要求允许误差不超过10%,置信水平为95%,则应抽取的户数:

()()2

2/222

1 1.96*0.8*0.2620.1z n E αππ-==≈

8.此题需先检验两总体的方差是否相等:

2222

012112:,:H H σσσσ=≠

在5%的显著性水平下,22

12

/96.8/102.00.949F s s === 0.0250.9750.025(13,6) 5.37,(13,6)1/(6,13)1/3.60.28F F F ====,不拒绝原假设

认为两总体方差是相同的。

(1)

()(

120.05190%,199.89.8 1.729*4.55x x t α-=-±=±=±

即(1.93,17.669) (2)

()(

120.025195%,199.89.8 2.093*4.55x x t α-=-±=±=±即(0.27,19.32)

11.大样本的情况 ()

12p p z α-±(1)90%

置信度下

()40%30%10% 6.979%-±=±(3.021%,16.979)

(2)

95%置信度下

()40%30%10%8.316%-±=±(1.684%,18.316%)

12.解:由题可计算:222

212

0.242,0.076s s == 两个总体方差比22

12/σσ在95%的置信区间为:

()()()22221212

/21

21/212//, 4.06,14.351,11,1s s s s F n n F n n αα-??= ? ?----?? 14.解:由题意:/2120, 1.96,20z E ασ===

则必须抽取的顾客数为:()2

222

/22

2

1.96*12013920z n E ασ=

==

第五章、假设检验 思考题

1.1.理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则. 答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有: (1)原假设和备择假设是一个完备事件组。(2)一般先确定备择假设。再确定原假设。(3)等号“=”总是放在原假设上。(4)假设的确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒绝原假设。

2.第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系? 答:第I 类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为α。第II 类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为β。在其他条件不变时,α增大,β减小;β增大,α减小。

3.什么是显著性水平?它对于假设检验决策的意义是什么? 答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的。

4.什么是p 值?p 值检验和统计量检验有什么不同?

答:p 值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P 值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平α,来控制犯第一类错误的上限,p 值可以有效地补充α提供地关于检验可靠性的有限信息。p 值检验的优点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性。

5.什么是统计上的显著性?

答:一项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义在于“非偶然的

练习题

3.解(1)第一类错误是,供应商提供的炸土豆片的平均重量不低于60克,但店方拒收并投诉。

(2)第二类错误是,供应商提供的炸土豆片的平均重量低于60克,但店方没有拒收。 (3)顾客会认为第二类错误很严重,而供应商会将第一类错误看得较严重。

4.解:提出假设 02:6,:6H H μμ≤> 已知 1.19,100,0.05n σα===

(1) 检验统计量为()6

0,1a

x Z N

σ

-=

(2) 拒绝规则是:若Z z α>,拒绝0H ;否则,不拒绝0H (3) 由 6.35x =

得:0.056.356

2.94 1.641.19Z z -=

=>=,拒绝0H ,认为改进工艺能提高其平均强度。

5解: 设μ为如今每个家庭每天收看电视的平均时间(小时) 需检验的假设为:01: 6.70,: 6.70H H μμ

调查的样本为:200,7.25, 2.5n x s ===

大样本下检验统计量为:0.55*14.14

3.112.5x z =

===

在0.01的显著性水平下,右侧检验的临界值为0.01 2.33z =

因为 2.33z >,拒绝0H ,可认为如今每个家庭每天收看电视的平均时间增加了

6. 解:提出假设 2222

201:0.75,:0.75TV

VCR TV H H σσσ≤=> 已知:230,2,0.05n s α===

检验统计量()()222

0.0522

129*21032942.5570.75

VCR

n s χχσ-=

=

=>= 拒绝0H ,可判定电视使用寿命的方差显著大于VCR 7. 解:提出假设:012112:5,:5H H μμμμ-=-≠

120.02,100,50n n α===,独立大样本,则检验统计量为:

514.810.45 5.1458x x z ----=

==-

而0.01z =2.33 因为/2z z α>,拒绝0H ,平均装配时间之差不等于5分钟 8. 解:匹配小样本 提出假设:01:,:a b a b H H μμμμ≤>

由计算得:0.625, 1.302,8,0.05d d s n α====,检验统计量为

()

0.05

1.35777 1.8946

d

t t

===<=,不拒绝

H,不能认为广告提高了潜在购买力的平均得分。

9.解:提出假设:

012112

:,:

H H

ππππ

≥<

已知:

1122

197301

288,0.684,367,0.82,0.1

288367

n p n pα

=======大样本,则检验统计量为:

1122

12

288*0.684367*0.82

0.76

288367

p n p n

p

n n

++

===

++

4.0476

z===-

0.1

1.29

z=,因为

0.1

z z

<-,拒绝

H,可认为信息追求者消极度假的比率显著小于非信息追求者。

10.解:提出假设:2222

012112

:,:

H H

σσσσ

=≠

由题计算得:

1122

25,0.221,22,0.077

n s n s

====

检验统计量为:

22

1

22

2

0.221

8.2376

0.077

s

F

s

===,而()

0.025

24,21 2.37

F=

()

/212

1,1

F F n n

α

>--,所以拒绝

H,认为两种机器的方差存在显著差异。

第七章相关与回归分析

思考题

1.相关分析与回归分析的区别与联系是什么?

答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。

3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?

答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自

变量的函数:()()

i i i

E Y X f X X

αβ

==+,或

i i i

Y X u

αβ

=++。总体回归函数是

确定的和未知的,是回归分析所估计的对象。样本回归函数是根据样本数据所估

计出的因变量与自变量之间的函数关系:???i i y x αβ=+或??i i i y x e αβ=++。回归分析的目的是用样本回归函数来估计总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参

数,αβ是确定的,而样本回归函数的系数??,α

β是随机变量;总体回归函数中的误差项i u 不可观察的,而样本回归函数中的残差项i e 是可以观察的。 4. 什么是随机误差项和残差?它们之间的区别是什么?

答:随机误差项i u 表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。残差项i e 指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式:

()()()()()

垐?垐?i i i i i i i i

e y x x u x x u αβαβαβααββ=-+=++-+=-+-+

5.为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假定?

答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,最小二乘估计量才是BLUE 。

15. .为什么在多元回归中要对可决系数进行修正?

答:在样本容量一定下,随着模型中自变量个数的增加,可决系数2R 会随之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。 16.在多元线性回归中,对参数作了t 检验后为什么还要作方差分析和F 检验? 答:t 检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和F 检验就是对回归方程的整体统计显著性进行的检验方法。

练习题

1. 解:设简单线性回归方程为:12y x ββε=++

(1) 采用OLS 估计:()()()

22

334229.09?0.786425053.73i i i x x y y x x β--===-∑∑ 11

??549.80.786*647.8840.566y x ββ=-=-=

回归系数经济意义:销售收入每增加1万元,销售成本会增加0.786万元。

(2) 可决系数为:()()()()

2

22

22

334229.090.9998425053.73*262855.25i i i i x x y y R x x y y ??--??===--∑∑∑

回归标准误:

? 2.29σ

===

=

(3) 检验统计量为:

()

2

2??223.76?t Se ββ==

=

=

所以2β是显著不为零

(4) 预测:12???40.5660.786*800669.366f f y x ββ=+=+= 95%

区间为

? 1.96*669.366f y σ±=±即( 664.579 ,674.153)

2. (1)

(2)负相关关系

(3)

_cons 6.017831 1.05226 5.72 0.001 3.529632 8.50603

x -.0704144 .0141757 -4.97 0.002 -.1039346 -.0368941 y Coef. Std. Err. t P>|t| [95% Conf. Interval] Total .819155592 8 .102394449 Root MSE = .16082 Adj R-squared = 0.7474 Residual .181036906 7 .025862415 R-squared = 0.7790 Model .638118686 1 .638118686 Prob > F = 0.0016 F( 1, 7) = 24.67 Source SS df MS Number of obs = 9

(4)估计的斜率系数为-7.0414,表示航班的正点率每提高1%,百万名乘客的投诉次数会下降:7.0414*0.01=0.070414次。

(5)如果0.8f x =,则 6.01787.0414*0.80.38468f y =-=次 3.

Results of multiple regression for y

Summary measures

Multiple R 0.9521 R-Square 0.9065 Adj R-Square 0.8910 StErr of Est 3.3313

ANOVA Table

Source df SS

MS F p-value Explained 3 1937.7485 645.9162 58.2048

0.0000

Unexplained 18

199.7515

11.0973

Regression coefficients

Coefficient

Std Err t-value p-value Lower limit

Up

Constant 32.9931 3.1386 10.5121 0.0000 26.3991 x1 0.0716 0.0148 4.8539 0.0001 0.0406 x2 16.8727 3.9956 4.2228 0.0005 8.4782 x3

17.9042

4.8869

3.6637 0.0018

7.6372

4.

Source SS df MS Number of obs = 29 F( 1, 27) = 3034.13 Model 2.9873e+10 1 2.9873e+10 Prob > F = 0.0000 Residual 265831846 27 9845623.91 R-squared = 0.9912 Adj R-squared = 0.9909 Total 3.0139e+10 28 1.0764e+09 Root MSE = 3137.8 consump Coef. Std. Err. t P>|t| [95% Conf. Interval]

gnp .5459054 .0099106 55.08 0.000 .5255705 .5662403 _cons 2426.563 809.8789 3.00 0.006 764.829 4088.298 Source SS df MS Number of obs = 29

F( 1, 27) = 3034.13

Model 2.9873e+10 1 2.9873e+10 Prob > F = 0.0000

Residual 265831769 27 9845621.08 R-squared = 0.9912

Adj R-squared = 0.9909

Total 3.0139e+10 28 1.0764e+09 Root MSE = 3137.8

consump Coef. Std. Err. t P>|t| [95% Conf. Interval]

gnpf .5459054 .0099106 55.08 0.000 .5255705 .5662403

_cons 131260.2 1869.528 70.21 0.000 127424.3 135096.2

5.

Source SS df MS Number of obs = 28 F( 2, 26) =12845.95 Model 6.2442e+10 2 3.1221e+10 Prob > F = 0.0000 Residual 63190678.2 26 2430410.7 R-squared = 0.9990 Adj R-squared = 0.9989 Total 6.2505e+10 28 2.2323e+09 Root MSE = 1559 consump Coef. Std. Err. t P>|t| [95% Conf. Interval]

gnp .1325853 .0398154 3.33 0.003 .0507435 .2144272 consump_lag .8546615 .0781069 10.94 0.000 .6941105 1.015213

_cons 1211.364 377.8058 3.21 0.004 433.2588 1989.47 consump_lag .7797504 .0710054 10.98 0.000 .633512 .9259889 gnp .1603467 .0352595 4.55 0.000 .0877283 .2329651 consump Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 2.9132e+10 27 1.0790e+09 Root MSE = 1338.3 Adj R-squared = 0.9983 Residual 44777396.2 25 1791095.85 R-squared = 0.9985 Model 2.9088e+10 2 1.4544e+10 Prob > F = 0.0000 F( 2, 25) = 8120.05 Source SS df MS Number of obs = 28

_cons .6662515 .0048402 137.65 0.000 .6563202 .6761829 gnp -6.59e-07 5.92e-08 -11.13 0.000 -7.81e-07 -5.38e-07 consump_ra~o Coef. Std. Err. t P>|t| [95% Conf. Interval] Total .053090118 28 .001896076 Root MSE = .01875 Adj R-squared = 0.8145 Residual .009495109 27 .000351671 R-squared = 0.8212 Model .043595009 1 .043595009 Prob > F = 0.0000 F( 1, 27) = 123.97 Source SS df MS Number of obs = 29

7. 解

(1)样本容量:115TSS n df =+=

(2)660426596577RSS TSS ESS =-=-= (3)15312,12RSS ESS df n k df k =-=-==-= (4)2659650.998866042ESS R TSS =

==,()()22114

11110.99880.998612

n R R n k -=--=--=- (5)用F 检验:()()/165965/2

5140/77/12

ESS k F RSS n k -===-,()0.052,12 3.89F =

23,x x 整体对y 有显著影响,但不能确定单个对y 的贡献。

统计学第三版袁卫编辑课后答案

统计学 第一章 1.什么是统计学?怎样理解统计学与统计数据的关系? 答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。 2.简要说明统计数据的来源 答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。 3.简要说明抽样误差和非抽样误差 答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。 4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品 (2)变量:口味(如可用10分制表示) (3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。 (4)从匹配样本的观察值中推断两品牌口味的相对好坏。 第二章、统计数据的描述 思考题 1描述次数分配表的编制过程 答:分二个步骤: (1)按照统计研究的目的,将数据按分组标志进行分组。 按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。 按数量标志进行分组,可分为单项式分组与组距式分组 单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。 统计分组应遵循“不重不漏”原则 (2)将数据分配到各个组,统计各组的次数,编制次数分配表。 2.解释洛伦兹曲线及其用途 答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。 3. 一组数据的分布特征可以从哪几个方面进行测度? 答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常

统计学第三版答案

第1章统计和统计数据 第2章 1.1 指出下面的变量类型。 (1)年龄。 (2)性别。 (3)汽车产量。 (4)员工对企业某项改革措施的态度(赞成、中立、反对)。 (5)购买商品时的支付方式(现金、信用卡、支票)。 详细答案: (1)数值变量。 (2)分类变量。 (3)数值变量。 (4)顺序变量。 (5)分类变量。 1.2 一家研究机构从IT从业者中随机抽取1000人作为样本进行 调查,其中60%回答他们的月收入在5000元以上,50%的人回答他 们的消费支付方式是用信用卡。 (1)这一研究的总体是什么?样本是什么?样本量是多少? (2)“月收入”是分类变量、顺序变量还是数值变量? (3)“消费支付方式”是分类变量、顺序变量还是数值变量? 详细答案: (1)总体是“所有IT从业者”,样本是“所抽取的1000名IT从业者”,样本量是1000。 (2)数值变量。 (3)分类变量。 1.3 一项调查表明,消费者每月在网上购物的平均花费是200元, 他们选择在网上购物的主要原因是“价格便宜”。

(1)这一研究的总体是什么? (2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值变量? 详细答案: (1)总体是“所有的网上购物者”。 (2)分类变量。

1.4 某大学的商学院为了解毕业生的就业倾向,分别在会计专业 抽取50人、市场营销专业抽取30、企业管理20人进行调查。 (1)这种抽样方式是分层抽样、系统抽样还是整群抽样? (2)样本量是多少? 详细答案: (1)分层抽样。 (2)100。 第2章用图表展示数据

(3)帕累托图如下: (4)饼图如下: 2.2 为确定灯泡的使用寿命(单位:小时),在一批灯泡中随机抽取100只进行测试,所得数据如下:

统计学课后习题答案(袁卫)

统计学课后习题答案(袁卫、庞皓、曾五一、贾俊平)第三版 第1章绪论 1.什么是统计学?怎样理解统计学与统计数据的关系? 2.试举出日常生活或工作中统计数据及其规律性的例子。 3..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2 440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536 kg。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)描述推断。 答:(1)总体:最近的一个集装箱内的全部油漆; (2)研究变量:装满的油漆罐的质量; (3)样本:最近的一个集装箱内的50罐油漆; (4)推断:50罐油漆的质量应为4.536×50=226.8 kg。 4.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)一描述推断。 答:(1)总体:市场上的“可口可乐”与“百事可乐” (2)研究变量:更好口味的品牌名称; (3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好。 第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型;

统计学教材课后答案 第三版 袁卫 庞皓 曾五一 贾俊平主编

第四章、参数估计 1.简述评价估计量好坏的标准 答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数θ的 估计量有1?θ和2?θ,如果()1?E θθ=,称1?θ是无偏估计量;如果1?θ和2 ?θ是无偏估计量,且()1?D θ小于() 2?D θ,则1?θ比2?θ更有效;如果当样本容量n →∞,1?θθ→,则1?θ是相合估计量。 2.说明区间估计的基本原理 答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。 3.解释置信水平为95%的置信区间的含义 答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。 4.简述样本容量与置信水平、总体方差、允许误差的关系 答:以估计总体均值时样本容量的确定公式为例:()22/22 z n E ασ= 样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。 练习题: ●1. 解:已知总体标准差σ=5,样本容量n =40,为大样本,样本均值x =25, (1)样本均值的抽样标准差 σ5=0.7906 (2)已知置信水平1-α=95%,得 α/2Z =1.96, 于是,允许误差是E = α/2Z 6×0.7906=1.5496。 ●2. 解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为 x σ15=2.1429

(2)已知置信水平1-α=95%,得 α/2Z =1.96, 于是,允许误差是E =α/2Z 6×2.1429=4.2000。 (3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2Z =1.96, 这时总体均值的置信区间为 ±α/2x Z 0±4.2=124.2115.8 可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。 ●3. 解:⑴计算样本均值x :将上表数据复制到Excel 表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到x =3.316667, ⑵计算样本方差s :删除Excel 表中的平均值,点击自动求值→其它函数→STDEV →选定计算数据列→确定→确定,得到s=1.6093 也可以利用Excel 进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=(a7-3.316667)^2”,回车,即得到各数据的离差平方,在最下行求总和,得到: ∑2 i (x -x )=90.65 再对总和除以n-1=35后,求平方根,即为样本方差的值 。 ⑶计算样本均值的抽样标准误差: 已知样本容量 n =36,为大样本, 得样本均值的抽样标准误差为 x σ s 1.6093⑷分别按三个置信水平计算总体均值的置信区间: ① 置信水平为90%时: 由双侧正态分布的置信水平1-α=90%,通过2β-1=0.9换算为单侧正态分 布的置信水平β=0.95,查单侧正态分布表得 α/2Z =1.64, 计算得此时总体均值的置信区间为 ±α/2s x Z 7±1.64×0.2682= 3.75652.8769 可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(2.87,3.76)小时; ② 置信水平为95%时:

最新《统计学》答案_第三版

第2章 统计数据的描述——练习题 ●2. 解:(1)要求对销售收入的数据进行分组, 全部数据中,最大的为152,最小的为87,知数据全距为152-87=65; 为便于计算和分析,确定将数据分为6组,各组组距为10,组限以整10划分; 为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值87可能落在最小组之下,最大值152可能落在最大组之上,将最小组和最大组设计成开口形式; 按照“上限不在组内”的原则,用划记法统计各组内数据的个数——企业数,也 可以用Excel 进行排序统计(见Excel 练习题2.2),将结果填入表内,得到频数分布表如下表中的左两列; 将各组企业数除以企业总数40,得到各组频率,填入表中第三列; 在向上的数轴中标出频数的分布,由下至上逐组计算企业数的向上累积及频率的 向上累积,由上至下逐组计算企业数的向下累积及频率的向下累积。 整理得到频数分布表如下: ●13. 因为女生的离散系数为 V= s x =550 =0.1 男生体重的离散系数为 V= s x =560 =0.08 对比可知女生的体重差异较大。 (2) 男生:x = 602.2公斤公斤=27.27(磅),s =2.25公斤 公斤=2.27(磅); 女生:x = 2.250公斤公斤=22.73(磅),s =2.25公斤 公斤 =2.27(磅); (3)68%; (4)95%。 14 解:(1)应采用离散系数,因为成年人和幼儿的身高处于不同的水平,采用标准差比较

不合适。离散系数消除了不同组数据水平高低的影响,采用离散系数就较为合理。 (2)利用Excel 进行计算,得成年组身高的平均数为172.1,标准差为4.202,从而得: 成年组身高的离散系数:024.01 .1722 .4== s v ; 又得幼儿组身高的平均数为71.3,标准差为2.497,从而得: 幼儿组身高的离散系数: 2.497 0.03571.3 s v = =; 由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。 第四章参数估计 (1) ●1. 解:已知总体标准差σ=5,样本容量n =40,为大样本,样本均值x =25, (1)样本均值的抽样标准差 x σσ5 =0.7906 (2)已知置信水平1-α=95%,得 α/2Z =1.96, 于是,允许误差是E = α/2 σ Z 6×0.7906=1.5496。 ●2. 解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为 x σσ15 =2.1429 (2)已知置信水平1-α=95%,得 α/2Z =1.96, 于是,允许误差是E = α/2 σ Z 6×2.1429=4.2000。 (3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2Z =1.96, 这时总体均值的置信区间为 ±α/2 σ x Z 0±4.2=124.2115.8 可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。 ●3. 解:⑴计算样本均值x :将上表数据复制到Excel 表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到x =3.316667, ⑵计算样本方差s :删除Excel 表中的平均值,点击自动求值→其它函数→STDEV →选定计算数据列→确定→确定,得到s=1.6093 也可以利用Excel 进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=(a7-3.316667)^2”,回车,即得到各数据的离差平方,在最下行求总和,得到: ∑ 2i (x -x )=90.65

袁卫《统计学》笔记和典型题(含历年真题)详解(数据与统计学)【圣才出品】

第1章数据与统计学 1.1 复习笔记 一、统计数据与统计学 1.统计学的概念 统计学是研究如何搜集数据、整理数据、分析数据,以便从中做出正确推断的认识方法论科学。实际上,它是一门方法论的科学而不是实质性科学。 2.统计学和统计数据的关系 统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究。离开了统计数据,统计方法乃至统计学就失去了其存在的意义。 二、统计学的产生与发展 最早的统计是作为国家重要事项的记录,从统计的产生和发展过程来看,可以把统计学划分为三个时期:一是统计学的萌芽时期,主要有国势学派和政治算术学派;二是统计学的近代时期,主要有数理统计学派和社会统计学派;三是统计学的现代期,主要表现为统计学吸收数学营养的程度越来越迅速;统计学向其他学科领域渗透的能力越来越强;统计学的应用日趋广泛和深入,所发挥的功效日益增强。 三、统计学的分科

1.描述统计和推断统计 描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法。推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。推断统计主要有两种类型,即参数估计和假设检验。 2.理论统计和应用统计 理论统计是指统计学的数学原理。由于现代统计科学用到了几乎所有的数学知识,要成为优秀的统计工作者就必须经过严格的数学训练,特别是从事统计理论和方法研究的人员就必须有很好的数学基础。 四、统计数据的种类与来源 1.数据的种类 数据的种类按性质可以分为:(1)定位的数据;(2)定性的数据;(3)定量的数据;(4)定时的数据。 数据的种类按表现形式可以分为:(1)结构型数据;(2)非结构型数据。 2.数据的来源 统计数据来源于直接组织的调查、观察和科学试验,称之为第一手数据或直接的数据;或者来源于已有的数据,称之为第二手数据或间接的数据。 五、统计数据的质量 1.抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差。这种误差虽然不可避免,但是可以控制。 2.非抽样误差是相对于抽样误差而言的,是指除了抽样误差之外的,由于其他原因引起的样本观察值与总体真值之间的差异。非抽样误差特别是其中的系统偏差是可以避免,但

袁卫《统计学》配套题库【课后习题】(时间序列分析与预测)【圣才出品】

第8章时间序列分析与预测 思考题 1.联系实际举出三个时间序列的例子,并分别判断这些时间序列的性质。 答:(1)已知某人2010年全年的月收入时间序列,如表8-1所示。此时间序列各个不同时期的指标值是可以相加的,这属于时期指标时间序列。 表8-1 某人2010年全年各月收入(单位:元) (2)2003~2009年某省城镇总人口数时间序列,如表8-2所示。此时间序列各个时点的指标值是不能相加的,这属于时点指标时间序列。 表8-2 2003~2009年某省城镇总人口数(单位:万人) (3)某厂全体职工2004~2010年间各年的人均年收入时间序列,如表8-3所示。此时间序列的各个指标值也不能够直接相加,这属于平均指标时间序列。 表8-3 某厂全体职工2004~2010年间各年的人均年收入(单位:元) 2.时间序列有哪些速度分析指标?它们之间的关系是什么? 答:(1)时间序列的速度分析指标有发展速度和增长速度。

①时间序列中报告期水平与基期水平之比,称为发展速度,说明现象报告期水平较基期水平的相对发展程度。其计算公式为: 发展速度=报告期水平/基期水平=x t/x0 ②由增长量与基期水平对比可计算增长速度,说明报告期水平较基期水平增长的相对程度。起计算公式为: 增长速度=增长量/基期水平=(报告水平-基期水平)/基期水平 (2)发展速度与增长速度之间的关系为: 增长速度=发展速度-1 3.为什么平均发展速度要用几何平均法计算?计算平均发展速度的几何平均法的特点是什么? 答:(1)平均发展速度是各期环比发展速度的序时平均数,通常采用几何平均法去计算。这是由于现象发展的总速度并不等于各期环比发展速度之和,而是等于各期环比发展速度的连乘积,所以各期环比发展速度的序时平均数,不能在速度代数和基础上按算术平均方法去计算,而只能在速度连乘积基础上按几何平均法去计算。 (2)用几何平均法计算平均发展速度的特点是着眼于期末水平,不论中间水平变化过程怎样,只要期末水平确定,对平均发展速度的计算结果没有影响。或者说用几何平均法计算平均发展速度隐含着一个假定:从时间序列的最初水平出发,以计算的平均发展速度代替各期的环比发展速度,计算出的期末水平与实际的期末水平相一致。所以,计算平均发展速度的几何平均法也称为“水平法”。 4.甲企业近四年产品销售量分别增长了9%、7%、8%、6%,乙企业这四年产品的次

统计学(第三版袁卫_庞皓_曾五一_贾俊平主编)各章节课后习题答案

附录1:各章练习题答案 第1章 绪论(略)第2章 统计数据的描述 2.1 (1) 属于顺序数据。(2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频率)频率%B 2121C 3232D 1818E 1515合计1001002.2 (1)频数分布表如下: 40个企业按产品销售收入分组表 按销售收入分组(万元)企业数(个)频率(%)向上累积向下累积企业数频率企业数频率100以下100~110110~120120~130130~140140以上591274312.522.530.017.510.07.55142633374012.535.065.082.592.5100.04035261473100.087.565.035.017.57.5合计40100.0———— (2) 某管理局下属40个企分组表 按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业111127.527.5

一般企业落后企业9922.522.5合计40100.0 某百货公司日商品销售额分组表 (万元)25~3030~3535~4040~4545~5046159610.015.037.522.515.0合计40100.0 直方图(略)。 2.4 (1)排序略。 (2)频数分布表如下: 100只灯泡使用寿命非频数分布 按使用寿命分组(小时)灯泡个数(只)频率(%)660~67055670~68066680~6901414690~7002626700~7101818710~7201313720~7301010730~74033740~75033合计100100 (3)茎叶图如下: 6518 6614568 67134679 6811233345558899

袁卫《统计学》(第3版)章节题库-数据与统计学(圣才出品)

第三部分章节题库 第1章数据与统计学 一、单项选择题 1.被马克思誉为“政治经济学之父,在某种程度上也是统计学的创始人”的是()。 A.布莱斯·帕斯卡 B.威廉·配第 C.费马 D.约翰·格朗特 【答案】B 【解析】布莱斯·帕斯卡和费马是古典概率论的奠基人;约翰·格朗特是人口统计的创始人。 2.统计学的两大分类是()。 A.统计资料的收集和分析 B.理论统计和运用统计 C.统计预测和决策 D.描述统计和推断统计 【答案】D 3.下列不属于描述统计问题的是()。

A.根据样本信息对总体进行的推断 B.了解数据分布的特征 C.分析感兴趣的总体特征 D.利用图、表或其他数据汇总工具分析数据 【答案】A 【解析】描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法;推断统计是研究如何利用样本数据来推断总体特征的统计方法。 4.下列叙述中,采用推断统计方法的是()。 A.用饼图描述某企业职工的学历构成 B.反映大学生统计学成绩的条形图 C.一个城市在1月份的平均汽油价格 D.从一个果园中采摘36个橘子,利用这36个橘子的平均重量估计果园中橘子的平均重量 【答案】D 【解析】推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。由题可知,根据36个橘子的平均重量估计果园中橘子的平均重量属于推断统计方法。 5.如果一个样本因人故意操纵而出现偏差,这种误差属于()。 A.抽样误差 B.非抽样误差 C.设计误差

D.实验误差 【答案】B 【解析】非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,人为干扰造成的误差,调查中由于被调查者不回答产生的误差等。 6.下列说法错误的是()。 A.抽样误差只存在于概率抽样中 B.非抽样误差只存在于非概率抽样中 C.无论是概率抽样还是非概率抽样都存在非抽样误差 D.在全面调查中也存在非抽样误差 【答案】B 【解析】抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差;非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机误差,只是存在于概率抽样中,非抽样误差则不同,无论是概率抽样、非概率抽样,或是在全面性调查中,都有可能产生非抽样误差。 7.指出下面的说法哪一个是错误的?() A.抽样误差是可以避免的 B.非抽样误差是可以避免的 C.抽样误差是不可避免的 D.抽样误差是可以控制的

统计学第三版(袁卫、庞浩)课后习题答案

各章练习题答案 2.1 (1)属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频率)频率% A1414 B2121 C3232 D1818 E1515 合计100100 (3)条形图(略) 2.2 (1)频数分布表如下: 40个企业按产品销售收入分组表 按销售收入分组(万元)企业数 (个) 频率 (%) 向上累积向下累积 企业数频率企业数频率 100以下100~110 110~120 120~130 130~140 140以上 5 9 12 7 4 3 12.5 22.5 30.0 17.5 10.0 7.5 5 14 26 33 37 40 12.5 35.0 65.0 82.5 92.5 100.0 40 35 26 14 7 3 100.0 87.5 65.0 35.0 17.5 7.5 合计40 100.0 ————(2)某管理局下属40个企分组表 按销售收入分组(万元)企业数(个)频率(%) 先进企业良好企业一般企业落后企业11 11 9 9 27.5 27.5 22.5 22.5 合计40 100.0 2.3 频数分布表如下: 某百货公司日商品销售额分组表 按销售额分组(万元)频数(天)频率(%) 25~30 30~35 35~40 40~45 45~50 4 6 15 9 6 10.0 15.0 37.5 22.5 15.0 合计40 100.0 直方图(略)。 2.4 (1)排序略。 (2)频数分布表如下: 100只灯泡使用寿命非频数分布 按使用寿命分组(小时)灯泡个数(只)频率(%)

650~660 2 2 660~670 5 5 670~680 6 6 680~690 14 14 690~700 26 26 700~710 18 18 710~720 13 13 720~730 10 10 730~740 3 3 740~750 3 3 合计100 100 直方图(略)。 (3)茎叶图如下: 65 1 8 66 1 4 5 6 8 67 1 3 4 6 7 9 68 1 1 2 3 3 3 4 5 5 5 8 8 9 9 69 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 9 70 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 9 71 0 0 2 2 3 3 5 6 7 7 8 8 9 72 0 1 2 2 5 6 7 8 9 9 73 3 5 6 74 1 4 7 2.5 (1)属于数值型数据。 (2)分组结果如下: 分组天数(天) -25~-20 6 -20~-15 8 -15~-10 10 -10~-5 13 -5~0 12 0~5 4 5~10 7 合计60 (3)直方图(略)。 2.6 (1)直方图(略)。 (2)自学考试人员年龄的分布为右偏。 2.7 (1)茎叶图如下: A班 树茎B班 数据个数树叶树叶数据个数 0 3 59 2 1 4 4 0448 4 2 97 5 122456677789 12 11 97665332110 6 011234688 9 23 98877766555554443332100 7 00113449 8 7 6655200 8 123345 6 6 632220 9 011456 6

袁卫 曾五一 贾俊平统计学第五版课后习题 答案

各章练习题答案第2章统计数据的描述 2.1 (1)属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频率)频率% A1414 B2121 C3232 D1818 E1515 合计100100 (3)条形图(略) 2.2 (1)频数分布表如下: (2)某管理局下属40个企分组表 按销售收入分组(万元)企业数(个)频率(%) 先进企业良好企业一般企业落后企业11 11 9 9 27.5 27.5 22.5 22.5 合计40 100.0 2.3 频数分布表如下: 某百货公司日商品销售额分组表 按销售额分组(万元)频数(天)频率(%) 25~30 30~35 35~40 40~45 45~50 4 6 15 9 6 10.0 15.0 37.5 22.5 15.0

合计40 100.0 直方图(略)。 2.4 (1)排序略。 (2)频数分布表如下: 100只灯泡使用寿命非频数分布 按使用寿命分组(小时)灯泡个数(只)频率(%)650~660 2 2 660~670 5 5 670~680 6 6 680~690 14 14 690~700 26 26 700~710 18 18 710~720 13 13 720~730 10 10 730~740 3 3 740~750 3 3 合计100 100 直方图(略)。 2.5 (1)属于数值型数据。 (2)分组结果如下: 分组天数(天) -25~-20 6 -20~-15 8 -15~-10 10 -10~-5 13 -5~0 12 0~5 4 5~10 7 合计60 (3)直方图(略)。 2.6 (1)直方图(略)。 (2)自学考试人员年龄的分布为右偏。 2.7 (1)茎叶图如下:

统计学名词解释汇总袁卫版

统计学名词解释 统计学:是收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学方法:描述统计和推断统计;理论统计和应用统计。 统计数据的来源:第一手数据(直接数据);第二手数据(间接数据)。 基本概念: 总体(人们研究的所有基本单位总和) 变量(总体中个体单位所具有的特征) 样本(总体的一部分) 统计数据类型: 按采取计量尺度,分类数据(定性)、顺序数据(定性)、数值型数据(定量);按统计数据收集方法,观测数据、实验数据; 按被描述对象与时间关系,截面数据、时间序列数据(动态数据) 变量分类: 分类变量,顺序变量,数值型变量; 随机变量(某次试验结果的数值性描述),非随机变量; 经验变量,理论变量。 离散型变量和连续型变量 离散型变量,只能取有限个数值; 连续型变量,取一个或多个区间中任何值; 均值:亦数学期望,是随机变量所有可能取值的一个加权平均 参数估计:用样本统计量去估计总体的参数 估计量:用来估计总体参数的统计量的名称 点估计:用样本估计量的值作为总体参数的估计值 区间估计:在点估计的基础上,给出总体参数估计的一个范围 置信区间: 在区间估计中,由样本统计量所构造的总体参数的估计区间; 置信系数:置信区间中包含总体参数真值的次数所占的比率

评价估计量的标准:无偏性、有效性、一致性; 假设:对总体参数的具体数值所作的陈述;假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设假设是否成立的过程。 方差分析:检验多个总体均值是否相等的统计方法 数据的预处理包括哪些内容? 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。 直方图和条形图有什么区别? ①条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组 频数,矩形的高度表示每一组的频数或频率,宽度表示组距, ②直方图各矩形连续排列,条形图分开排列, ③条形图主要展示分类数据,直方图主要展示数值型数据。 ④茎叶图和直方图相比有什么优点? 茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。一组数据的分布特征可以从哪几方面进行测度: 一是分布的集中趋势,反映数据向其中心靠拢或聚集的程度; 二是分布的离散程度,反映各数据远离其中心值的趋势; 三是分布的形状,反映数据分布偏斜程度和峰度。 简述众数、中位数、平均数的特点和应用场合。 众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数主要作为分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。 均值是就数值型数据计算的,具有优良的数学性质,缺点是易受数据极端值的影响。均值主要适合于作为数值型数据的集中趋势测度值。 为什么要计算离散系数第一,极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小取决于原变量值本身水平高低的影响。

统计学(第三版)课后习题答案

附录1:各章练习题答案 2.1 (1)属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频率)频率% A1414 B2121 C3232 D1818 E1515 合计100100 (3)条形图(略) 2.2 (1)频数分布表如下: (2)某管理局下属40个企分组表 按销售收入分组(万元)企业数(个)频率(%) 先进企业良好企业一般企业落后企业11 11 9 9 27.5 27.5 22.5 22.5 合计40 100.0 2.3 频数分布表如下: 某百货公司日商品销售额分组表 按销售额分组(万元)频数(天)频率(%) 25~30 30~35 35~40 40~45 45~50 4 6 15 9 6 10.0 15.0 37.5 22.5 15.0 合计40 100.0 直方图(略)。 2.4 (1)排序略。 (2)频数分布表如下: 100只灯泡使用寿命非频数分布 按使用寿命分组(小时)灯泡个数(只)频率(%)650~660 2 2 660~670 5 5

670~680 6 6 680~690 14 14 690~700 26 26 700~710 18 18 710~720 13 13 720~730 10 10 730~740 3 3 740~750 3 3 合计100 100 直方图(略)。 2.5 (1)属于数值型数据。 (2)分组结果如下: 分组天数(天) -25~-20 6 -20~-15 8 -15~-10 10 -10~-5 13 -5~0 12 0~5 4 5~10 7 合计60 (3)直方图(略)。 2.6 (1)直方图(略)。 (2)自学考试人员年龄的分布为右偏。 2.7 (1 (2)A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低。 2.8 箱线图如下:(特征请读者自己分析)

袁卫《统计学》配套题库【课后习题】(统计指数)【圣才出品】

第9章统计指数 思考题 1.统计指数与数学上的指数函数有何不同?广义指数与狭义指数有何差异? 答:与数学上的“指数函数”不同,统计学中的指数是一种对比性的分析指标,可以反映不同时间(时期、时点)或不同空间(国家、地区、部门、企业等)现象水平的数量对比关系,以及现象的实际水平与计划(规划或目标)水平的数量对比关系。在经济分析的各个领域,指数工具都获得了广泛应用,因此,统计指数常常也被称为“经济指数”。 指数有广义和狭义之分。广义地讲,任何两个数值对比形成的相对数都可以称为指数;狭义地讲,指数是用于测定多个项目在不同场合下综合变动的一种相对数。从指数理论和方法上看,指数所研究的主要是狭义的指数。 2.与一般相对数比较,总指数所研究的现象总体有何特点? 答:一般相对数是考察总体中个别现象或个别项目的数量对比关系的指数;总指数是考察整个总体现象的数量对比关系的指数。它与一般相对数的区别不仅在于考察范围不同,还在于考察方法不同。总指数不能简单地沿用一般相对数的计算分析方法,也不一定能够具备一般相对数的某些直观分析性质。 3.有人认为,不同商品的销售量是不同度量的现象,因为它们的计量单位可以不同;而不同商品的价格则是同度量的现象,因为它们的计量单位相同,都是货币单位。这种看法是否正确?为什么?

答:这种看法是不完全正确的。 在统计学中,一般把相乘以后使得不能直接相加的指标过渡到可以直接相加的指标的那个因素,叫做同度量因素。同度量因素作为对比指标的媒介转化因素必须是一个水平相对固定的因素(即在同一综合指数的分子和分母中具有相同的水平),否则,它就不是同度量因素,而成为另一个对比指标了。不同商品的销售量是不同度量的现象,不仅因为它们的计量单位可以不同,而且直接加总的结果也没有实际经济意义。而不同商品的价格由于直接加总的结果没有实际意义,所以它也是不同度量的现象。 4.总指数有哪两种基本编制方式?它们各自有何特点? 答:总指数的编制有综合指数的编制和平均指数的编制两种方式。 综合指数是由两个总量指标对比形成的指数,凡是一个总量指标可以分解为两个或者两个以上的因素指标时,将其中一个或一个以上的因素固定下,仅观察其中一个因素指标的变动程度,这样编制出来的总指数称为综合指数。被固定的因素指标称为同度量因素。被研究的因素指标称为指数化指标。综合指数的特点是“先综合,后对比” 平均指数是从个体指数出发来编制总指数,也就是先算出各种产品或商品的数量指标或质量指标的个体指标,然后进行加权平均计算。是编制总指数的一种重要形式。包括加权算术平均数指数和加权调和平均数指数。平均指数的特点是“先对比,后综合” 5.有人认为,在编制价格指数时,采用帕氏公式计算得到的结果“现实经济意义”较强,因而不能采用拉氏公式。对此,你有何看法? 答:这种观点是不正确的。 因为帕氏价格指数的分子与分母之差,即∑p1q1-∑p0q1=∑(p1-p0)q1能够表明计

统计学名词解释汇总情况 袁卫版

统计学名词解释 统计学:是收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学方法:描述统计和推断统计;理论统计和应用统计。 统计数据的来源:第一手数据(直接数据);第二手数据(间接数据)。 基本概念: 总体(人们研究的所有基本单位总和) 变量(总体中个体单位所具有的特征) 样本(总体的一部分) 统计数据类型: 按采取计量尺度,分类数据(定性)、顺序数据(定性)、数值型数据(定量);按统计数据收集方法,观测数据、实验数据; 按被描述对象与时间关系,截面数据、时间序列数据(动态数据) 变量分类: 分类变量,顺序变量,数值型变量; 随机变量(某次试验结果的数值性描述),非随机变量; 经验变量,理论变量。 离散型变量和连续型变量 离散型变量,只能取有限个数值; 连续型变量,取一个或多个区间中任何值; 均值:亦数学期望,是随机变量所有可能取值的一个加权平均 参数估计:用样本统计量去估计总体的参数 估计量:用来估计总体参数的统计量的名称 点估计:用样本估计量的值作为总体参数的估计值 区间估计:在点估计的基础上,给出总体参数估计的一个围 置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间; 置信系数:置信区间中包含总体参数真值的次数所占的比率 评价估计量的标准:无偏性、有效性、一致性; 假设:对总体参数的具体数值所作的述;

假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设假设是否成立的过程。 方差分析:检验多个总体均值是否相等的统计方法 数据的预处理包括哪些容? 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。 直方图和条形图有什么区别? ①条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积 表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距, ②直方图各矩形连续排列,条形图分开排列, ③条形图主要展示分类数据,直方图主要展示数值型数据。 ④茎叶图和直方图相比有什么优点? 茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。一组数据的分布特征可以从哪几方面进行测度: 一是分布的集中趋势,反映数据向其中心靠拢或聚集的程度; 二是分布的离散程度,反映各数据远离其中心值的趋势; 三是分布的形状,反映数据分布偏斜程度和峰度。 简述众数、中位数、平均数的特点和应用场合。 众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数主要作为分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。 均值是就数值型数据计算的,具有优良的数学性质,缺点是易受数据极端值的影响。均值主要适合于作为数值型数据的集中趋势测度值。 为什么要计算离散系数。

统计学第三版课后答案

统计学第三版答案 第一章 1.什么是统计学?怎样理解统计学与统计数据的关系? 答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。 2.简要说明统计数据的来源 答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。 3.简要说明抽样误差和非抽样误差 答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。 4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品 (2)变量:口味(如可用10分制表示) (3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。 (4)从匹配样本的观察值中推断两品牌口味的相对好坏。 第二章、统计数据的描述 思考题 1描述次数分配表的编制过程 答:分二个步骤: (1)按照统计研究的目的,将数据按分组标志进行分组。 按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。 按数量标志进行分组,可分为单项式分组与组距式分组 单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。统计分组应遵循“不重不漏”原则 (2)将数据分配到各个组,统计各组的次数,编制次数分配表。 2.解释洛伦兹曲线及其用途 答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。 3. 一组数据的分布特征可以从哪几个方面进行测度? 答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。 4 怎样理解均值在统计中的地位? 答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分, 具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统

袁卫《统计学》(第3版)课后习题-数据与统计学(圣才出品)

第二部分课后习题 第1章数据与统计学 1.什么是统计学?怎样理解统计学与统计数据的关系? 答:统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。 统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究。离开了统计数据,统计方法乃至统计学就失去了其存在的意义。 2.试举出日常生活或工作中统计数据及其规律性的例子。 答:(1)对人类性别比例的调查,新生婴儿男女性别比为105:100,如果没有人为的干扰,其规律是婴幼儿时男性略多于女性,中青年时男女人数大致相同,老年时女性又略多于男性。 (2)施肥量与粮食产量之间的数量关系的调查研究,其规律性为某种粮食作物的产量会随某种施肥量的增加而增加。当开始增加施肥量时,产量增加较快。以后增加同样的施肥量,粮食产量的增加量逐渐减少。当施肥量增加到一定数值量,产量不再增加。这时如果再增加肥料,产量反而会减少。 (3)商品广告费用与销售额的关系的调查,其规律性为,随着广告费用的增加,商品的知名度和销售额会相应增加。

3.简要说明统计数据的来源。 答:统计数据的来源大致分为两种,其中来源于直接组织的调查、观察和科学试验的数据,称为第一手数据或直接的数据;来源于已有的数据,称为第二手数据或间接的数据。 4.获取直接统计数据的渠道主要有哪些? 答:(1)对于社会经济管理和决策而言,主要是通过统计调查的方式获取数据,如客户满意度调查、电视收视率调查、家庭收支情况调查、居民闲暇时间利用调查等。 (2)在自然科学和工程的研究领域,通常是通过科学实验的方法获得研究的统计数据。 5.简要说明抽样误差和非抽样误差。 答:(1)抽样误差是利用样本推断总体时产生的误差;抽样误差对任何一个随机样本来讲都是不可避免的。但它又是可以计量的,并且是可以控制的。在坚持随机原则的条件下,一般来讲,样本量越大,抽样误差就越小。 (2)非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差等。非抽样误差在普查、抽样调查中都可能发生。显然,从理论上看,这类误差是可以避免的。 6.一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536kg。要求:

相关文档
最新文档