统计学第五版贾俊平版课后习题答案

统计学

第五版贾俊平版课后题答案(部分)

第4章 数据的概括性度量

4.1(1)众数:100=M 。

中位数:5.5211021=+=+=n 中位数位置,10210

10=+=e M 。

平均数:6.910

96

101514421

==++++=

=

∑= n x

x n

i i

(2)5.24

10

4===n Q L 位置 ,5.5274=+=L

Q 。 5.74

10

343=?==n Q U 位置,1221212=+=U Q 。 (3)

2.49

4

.1561

10)6.915()6.914()6.94()6.92(1)(2

2221

2

==

--+-++-+-=

--=∑= n x x

s n

i i

(4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布。

4.2(1)从表中数据可以看出,年龄出现频数最多的是19和23,所以有两个众数,即

19

0=M 和

23

0=M 。

将原始数据排序后,计算的中位数的位置为:132

12521=+=+=n 中位数位置,第

13个位置上的数值为23,所以中位数23=e M 。 (2)25.64

254===

n Q L 位置,19)1919(25.019=-?+=L Q 。

75.184

25

3=?=

位置U Q ,56.252-7257.052=?

+=)(U Q 。 (3)平均数2425

600

25231715191

==++++=

=

∑= n x

x n

i i

65.61

251062

1

25)2423()2417()2415()2419(1)(2

2221

2

=-=

--+-++-+-=

--=∑= n x x

s n

i i

(4)偏态系数:()

08.165

.6)225)(125(24253

3

=?---=

∑i x SK 。

峰态系数:[]

77.065

.6)325)(225)(125()

125()24(3)24()125(254

2

24=?-------+=

∑∑i i x x K 。

(5)分析:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。

由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,由于偏态系数大于1,所以偏斜程度很大。由于峰态系数为正值,所以为尖峰分布。

4.3(1)茎叶图如下:

茎 叶 数据个数

5 5 1

6 6

7

8 3 7

1 3 4 8 8

5

(2)79

63

98.78.76.65.5==++++=

x 。

714.08

08

.419)78.7()78.7()76.6()75.5(2222==--+-++-+-= s 。

(3)由于两种排队方式的平均数不同,所以用离散系数进行比较。 第一种排队方式:274.02.797.11==

v ;102.07

714.02==v 。由于21v v >,表明第一种排队方式的离散程度大于第二种排队方式。

(4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。

4.4(1)1.27430

8223

1

==

=

∑=n x

x n

i i

5.152

130=+=中位数位置,5.2722273272=+=e

M 。 (2)5.74

30

==位置L Q ,5.2592261258=+=

L Q 。 5.224

30

3=?=位置U Q ,5.2872291284=+=

U Q 。 (3)17.211

307

.130021)(1

2

=-=

--=

∑=n x x

s n

i i

4.5(1)41.19340

6600

30

1500203000152100150030002100==++++==总产量总成本甲企业的平均成本。

92.18342

55

6230

1500200051152553150000515523==++++==总产量总成本乙企业的平均成本.

原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所

占比重较大,因此拉低了总平均成本。 4.6(1)平均数计算过程见下表:

按利润额分组 组中值 i M 企业数 i f i i f M

200~300 250 19 4750 300~400 350 30 10500 400~500 450 42 18900 500~600 550 18 9900 600以上 650 11 7150 合计

120

51200

67.426120

51200

1

==

=

∑=n

f M

x k

i i

i

偏态系数:203.048

.1161204

.38534964)(3

313=?=

-=

∑=ns f x M

SK i i

i

。 峰态系数:688.0348

.1161204

.851087441643)(4

4

1

4-=-?=

--=

∑=ns f x M

K k

i i

i

4.7(1)两位调查人员所得到的平均身高应该差不多相同,因为均值的大小基本上不受样本大小的影响。

(2)两位调查人员所得到的身高的标准差应该差不多相同,因为标准差的大小基

本上不受样本大小的影响。

(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。

4.8 (1)要比较男女学生体重的离散程度应该采用离散系数。女生体重的离散系数为1.0505

==

女v ,男生体重的离散系数为08.060

5==男v ,所以女生的体重差异大。

(2)男生:1322.260=?=x (磅),112.25=?=s (磅); 女生:1102.250=?=x (磅),112.25=?=s (磅);

(3)假定体重为对称分布,根据经验法则,在平均数加减1个标准差范围内的数据个数大约为68%。因此,男生中大约有68%的人体重在55kg 到65kg 之间。 (4)假定体重为对称分布,根据经验法则,在平均数加减2个标准差范围内的数据个数大约为95%。因此,女生中大约有95%的人体重在40kg 到60kg 之间。 4.9 通过计算标准分数来判断:

115100115=-=-=

A A A A s x x z ;5.050

400

425=-=-=B B B B s x x z 。 该测试者在A 项测试中比平均分数高出1个标准差,而在B 项测试中只高出平均

分数0.5个标准差,由于A 项测试的标准分数高于B 项测试,所以A 项测试比较理想。

4.10 通过标准分数来判断,各天的标准分数如下表:

日期 周一 周二 周三 周四 周五 周六 周日 标准分数Z 3

-0.6

-0.2

0.4

-1.8

-2.2

周一和周六两天失去了控制。

4.11(1)应该采用离散系数,因为它消除了不同组数据水平高低的影响。

(2)成年组身高的离散系数:024.01.1722

.4==

s v ; 幼儿组身高的离散系数:035.03

.715

.2==s v ;

由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。

4,11(1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比较时,应该采用离散系数。

(2)下表给出了用Excel 计算一些主要描述统计量。

从三种方法的集中趋势来看,方法A 的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为:

013.06.16513.2==

A v ,014.073.12875.1==

B v ,022.053

.12577

.2==C v 。方法A 的离散程度最小。因此应选择方法A 。

4.12(1)用方差或标准差来评价投资的风险。

(2)从直方图可以看出,商业类股票收益率的离散程度较小,说明投资风险也就较小。

(3)从投资风险角度看,应该选择风险较小的商业类股票。当然,选择哪类股票还与投资者的主观判断有很大关系。

第7章 抽样与参数估计

7.1(1)已知:5=σ,40=n ,25=x ,05.0=α,96.1205.0=z 。 样本均值的抽样标准差79.040

5==

=n

x σ

σ。

(2)估计误差55.140

5

96.12

=?

==n

z E σ

α

7.2(1)已知:15=σ,49=n ,120=x ,05.0=α,96.1205.0=z 。 样本均值的抽样标准差14.249

15==

=n

x σ

σ。

(2)估计误差20.449

15

96.12

=?

==n z E σ

α

(3)由于总体标准差已知,所以总体均值μ的95%的置信区间为:

20.412049

15

96.11202

±=?

±=±n z x σ

α,即(115.8,124.2)。

7.3已知:100=n ,85414=σ,104560=x ,05.0=α,96.1205.0=z 。

由于总体标准差已知,所以总体均值μ的95%的置信区间为:

144.16741104560100

8541496.1104560±=?

±=±n

z x σ

α,即(87818.856,

121301.144)。

7.4(1)已知:100=n ,81=x ,12=s ,1.0=α,645.121.0=z 。 由于100=n 为大样本,所以总体均值μ的90%的置信区间为:

974.181100

12

645.181±=?

±=±n

s z x α,即(79.026,82.974)。

(2)已知:05.0=α,96.1205.0=z 。

由于100=n 为大样本,所以总体均值μ的95%的置信区间为:

352.281100

12

96.181±=?±=±n s z x α,即(78.648,83.352)。

(3)已知:01.0=α,58.2201.0=z 。

由于100=n 为大样本,所以总体均值μ的99%的置信区间为:

096.381100

12

58.2812

±=?

±=±n

s z x α,即(77.940,84.096)。

7.5(1)已知:25=x ,5.3=σ,60=n ,05.0=α,96.1205.0=z 。

由于总体标准差已知,所以总体均值μ的95%的置信区间为:

89.02560

5

.396.125±=?

±=±n

z x σ

α,即(24.11,25.89)。

(2)已知:6.119=x ,89.23=s ,75=n ,02.0=α,33.2202.0=z 。 由于75=n 为大样本,所以总体均值μ的98%的置信区间为:

43.66.11975

89

.2333.26.1192±=?±=±n s z x α,即(113.17,126.03)。

(3)已知:419.3=x ,974.0=s ,32=n ,1.0=α,645.121.0=z 。

由于32=n 为大样本,所以总体均值μ的90%的置信区间为:

283.0419.332

974.0645.1419.3±=?

±=±n

s z x α,即(3.136,3.702)。

7.6(1)已知:总体服从正态分布,500=σ,15=n ,8900=x ,05.0=α,96.1205.0=z 。

由于总体服从正态分布,所以总体均值μ的95%的置信区间为:

03.253890015

50096.189002

±=?

±=±n

z x σ

α,即(8646.97,9153.03)。

(2)已知:总体不服从正态分布, 500=σ,35=n ,8900=x ,05.0=α,

96.1205.0=z 。 虽然总体不服从正态分布,但由于35=n 为大样本,所以总体均值μ的95%的置

信区间为:

65.165890035

500

96.189002

±=?

±=±n

z x σ

α,即(8734.35,9065.65)。

(3)已知:总体不服从正态分布,σ未知,35=n ,8900=x ,500=s ,1.0=α,

645.121.0=z 。

虽然总体不服从正态分布,但由于35=n 为大样本,所以总体均值μ的90%的置信区间为:

03.139890035

500

645.18900±=?

±=±n

s

z x α,即(8760.97,9039.03)。 (4)已知:总体不服从正态分布,σ未知,35=n ,8900=x ,500=s ,01.0=α,

58.201.0=z 。

虽然总体不服从正态分布,但由于35=n 为大样本,所以总体均值μ的99%的置信区间为:

05.218890035

500

58.28900±=?

±=±n s

z x α,即(8681.95,9118.05)。

7.7已知:36=n ,当α为0.1、0.05、0.01时,相应的645.121.0=z 、96.1205.0=z 、58.201.0=z 。

根据样本数据计算得:32.3=x ,61.1=s 。

由于36=n 为大样本,所以平均上网时间的90%的置信区间为:

44.032.336

61.1645.132.3±=?

±=±n

s z x α,即(2.88,3.76)。

平均上网时间的95%的置信区间为:

53.032.33661.196.132.32

±=?

±=±n s z x α,即(2.79,3.85)。

平均上网时间的99%的置信区间为:

69.032.336

61.158.232.32

±=?±=±n

s z x α,即(2.63,4.01)。

7.8已知:总体服从正态分布,但σ未知,8=n 为小样本,05.0=α,365.2)18(205.0=-t 。

根据样本数据计算得:10=x ,46.3=s 。 总体均值μ的95%的置信区间为:

89.2108

46.3365.2102

±=?

±=±n

s t x α,即(7.11,12.89)。

7.9已知:总体服从正态分布,但σ未知,16=n 为小样本,05.0=α,131.2)116(205.0=-t 。

根据样本数据计算得:375.9=x ,113.4=s 。 从家里到单位平均距离的95%的置信区间为:

191.2375.916

113

.4131.2375.9±=?

±=x ,即(7.18,11.57)。

36=n ,5.149=x ,05.0=α,96.1205.0=z 。

由于36=n 为大样本,所以零件平均长度的95%的置信区间为:

63.05.14936

93.196.15.149±=?

±=±n

s z x α,即(148.87,150.13)。

(2)在上面的估计中,使用了统计中的中心极限定理。该定理表明:从均值为μ、方差为2

σ的总体中,抽取容量为n 的随机样本,当n 充分大时(通常要求30≥n ),样本均值x 的抽样分布近似服从均值为μ、方差为n 2

σ

的正态分布。

7.11(1)已知:总体服从正态分布,但σ未知,50=n 为大样本,05.0=α,96.1205.0=z 。

根据样本数据计算得:32.101=x ,63.1=s 。 该种食品平均重量的95%的置信区间为:

45.032.10150

63.196.132.101±=?

±=±n

s z x α,即(100.87,101.77)。

(2)根据样本数据可知,样本合格率为9.050

45

==

p 。该种食品合格率的95%的

置信区间为:

08.09.050

)

9.01(9.096.19.0)1(2

±=-±=-±n p p z p α,即(0.82,0.98)。 7.12已知:总体服从正态分布,但σ未知,25=n 为小样本,01.0=α,797.2)125(201.0=-t 。 根据样本数据计算得:128.16=x ,871.0=s 。 总体均值μ的99%的置信区间为:

487.0128.1625

871.0797.2128.162

±=?

±=±n

s t x α,即(15.64,16.62)。

7.13已知:总体服从正态分布,但σ未知,18=n 为小样本,1.0=α,740.1)118(21.0=-t 。

根据样本数据计算得:56.13=x ,80.7=s 。

网络公司员工平均每周加班时间的90%的置信区间为:

20.356.1318

80

.7740.156.13±=?

±=x ,即(10.36,16.76)。 44=n ,51.0=p ,01.0=α,58.2201.0=z 。

总体总比例的99%的置信区间为:

19.051.044

)

51.01(51.058.251.0)1(2

±=-±=-±n p p z p α,即(0.32,0.70); (2)已知:300=n ,82.0=p ,05.0=α,96.1205.0=z 。 总体总比例π的95%的置信区间为:

04.082.0300

)

82.01(82.096.182.0)1(2

±=-±=-±n p p z p α,即(0.78,0.86); (3)已知:1150=n ,48.0=p ,1.0=α,645.121.0=z 。 总体总比例π的90%的置信区间为:

02.048.01150

)

48.01(48.0645.148.0)1(2

±=-±=-±n p p z p α,即(0.46,0.50)。

7,15已知:200=n ,23.0=p ,α为0.1和0.05时,相应的645.121.0=z ,

96.1205.0=z 。

总体总比例π的90%的置信区间为:

05.023.0200

)

23.01(23.0645.123.0)1(2

±=-±=-±n p p z p α,即(0.18,0.28)。

总体总比例π的95%的置信区间为:

06.023.0200

)

23.01(23.096.123.0)1(2

±=-±=-±n p p z p α,即(0.17,0.29)。 7.16已知:1000=σ,估计误差200=E ,01.0=α,58.2201.0=z 。 应抽取的样本量为:167200100058.2)(2

2222

22=?==

E z n σα。 7.17(1)已知:02.0=E ,40.0=π,04.0=α, 2.05204.0=z 。

应抽取的样本量为:252202.0)40.01(40.005.2)

1()(2

2222=-?=-?=

E z n ππα。 (2)已知:04.0=E ,π未知,05.0=α, 1.96205.0=z 。

由于π未知,可用使用0.5。

应抽取的样本量为:60104.0)50.01(50.096.1)

1()(2

2222=-?=-?=

E z n ππα。 (3)已知:05.0=E ,55.0=π,1.0=α, 1.64521.0=z 。

应抽取的样本量为:26805

.0)55.01(55.0645.1)

1()(2

2222=-?=-?=

E z n ππα。 7.18(1)已知:50=n ,64.050

32

==p ,05.0=α, 1.96205.0=z 。

总体中赞成该项改革的户数比例的95%的置信区间为:

13.064.050

)

64.01(64.096.164.0)1(2

±=-±=-±n p p z p α,即(0.51,0.77)。 (2)已知:80.0=π,05.0=α, 1.9605.0=z 。 应抽取的样本量为:621

.0)80.01(80.096.1)

1()(2

22

22=-?=-?=

E z n ππα。

第13章 时间序列分析和预测

1(1)时间序列图如下:

从时间序列图可以看出,国家财政用于农业的支出额大体上呈指数上升趋势。 (2)年平均增长率为:

%55.131%55.113121

.11076.10851180=-=-=-=n

n Y Y G 。 (3)88.1232%)55.131(76.1085?2000

=+?=Y 。 2(1)时间序列图如下:

(2)2001年的预测值为:

2.14215

7106

5151914691272147913672001==++++=

F

2001年时的预测值为:

8.14212.1380)3.01(15193.0)1(2001=?-+?=-+=t t F Y F αα

5.0=α时的预测值为:

1.14631.1407)5.01(15195.0)1(2001=?-+?=-+=t t F Y F αα 比较误差平方可知,5.0=α更合适。

3(1)第19个月的3期移动平均预测值为:

33.6303

1891

366064458719==++=

F

(2)由Excel 输出的指数平滑预测值如下表:

时的预测值:

5.5959.567)3.01(6603.019=?-+?=F ,误差均方=87514.7。

4.0=α时的预测值:

7.6181.591)4.01(6604.019=?-+?=F ,误差均方=62992.5.。

5.0=α时的预测值:

3.6335.606)5.01(6605.019=?-+?=F ,误差均方=50236。

比较各误差平方可知,5.0=α更合适。

输出的回归结果如下:

回归统计

Multiple R 0.9673 R Square

0.9356

Adjusted R Square 0.9316 标准误差 31.6628

观测值 18

方差分析

df

SS MS F Significance F

回归分析 1 232982.5 232982.5

232.3944

5.99E-11 残差 16 16040.49

1002.53

总计 17

249022.9

Coefficients 标准误差 t Stat P-value Lower 95%

Upper 95% Intercept 239.73203 15.57055 15.3965 5.16E-11 206.7239 272.7401 X Variable 1

21.928793

1.438474 15.24449

5.99E-11

18.87936

24.97822

t Y t

9288.2173.239?+=。 4(1)趋势图如下:

(2)从趋势图可以看出,我国财政用于文教、科技、卫生事业费指出额呈现指数增长趋势,因此,选择指数曲线。经线性变换后,利用Excel 输出的回归结果如下:

回归统计

Multiple R 0.998423 R Square 0.996849 Adjusted R Square 0.996674 标准误差 0.022125

观测值

20

方差分析

df

SS MS F Significance F

回归分析 1 2.787616 2.787616

5694.885

5.68E-24

残差 18 0.008811

0.000489

总计 19

2.796427

Coefficients

标准误差 t Stat P-value Lower 95%

Upper 95% Intercept 2.163699 0.010278 210.5269 5.55E-32 2.142106 2.185291 X Variable 1

0.064745

0.000858

75.46446

5.68E-24

0.062942

0.066547

163699.2)log(0=b ,78.1450=b ;064745.0)log(1=b ,1608.11=b 。所以,

指数曲线方程为:t t

Y

1608.178.145??=。 2001年的预测值为:9.33381608.178.145?21

2001

=?=Y 。

5(1)趋势图如下:

(2)从图中可以看出,纱产量具有明显的线性趋势。用Excel 求得的线性趋势方程为:

t Y

9495.135202.69?+= 2000年预测值为:

65.585379495.135202.69?2000

=?+=Y =585.65(万吨)。

6(1)原煤产量趋势图如下:

从趋势图可以看出,拟合二阶曲线比较合适。 (2)用Excel 求得的二阶曲线趋势方程为:

20309.09674.05824.4?t t Y t

-+= 2001年的预测值为:

27.11210309.0219674.05824.4?22001

=?-?+=Y 。 7(1)趋势图如下:

从趋势图可以看出,每一年的各月份数据没有趋势存在,但从1997—2001年的变化看,订单金额存在一定的线性趋势。

(2)由于是预测各月份的订单金额,因此采用移动平均法或指数平滑法比较合适。 (3)用Excel 采用12项移动平均法预测的结果为:4.711/2002=F 。

用Excel 采用指数平滑法(4.0=α)预测的预测结果为:5.721/2002=F 。

季节变动图如下:

根据分离季节因素后的数据计算的趋势方程为:t Y t

7064.16392.2043?+=。

相关文档
最新文档