统计学第五版贾俊平版课后习题答案
统计学
第五版贾俊平版课后题答案(部分)
第4章 数据的概括性度量
4.1(1)众数:100=M 。
中位数:5.5211021=+=+=n 中位数位置,10210
10=+=e M 。
平均数:6.910
96
101514421
==++++=
=
∑= n x
x n
i i
。
(2)5.24
10
4===n Q L 位置 ,5.5274=+=L
Q 。 5.74
10
343=?==n Q U 位置,1221212=+=U Q 。 (3)
2.49
4
.1561
10)6.915()6.914()6.94()6.92(1)(2
2221
2
==
--+-++-+-=
--=∑= n x x
s n
i i
(4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布。
4.2(1)从表中数据可以看出,年龄出现频数最多的是19和23,所以有两个众数,即
19
0=M 和
23
0=M 。
将原始数据排序后,计算的中位数的位置为:132
12521=+=+=n 中位数位置,第
13个位置上的数值为23,所以中位数23=e M 。 (2)25.64
254===
n Q L 位置,19)1919(25.019=-?+=L Q 。
75.184
25
3=?=
位置U Q ,56.252-7257.052=?
+=)(U Q 。 (3)平均数2425
600
25231715191
==++++=
=
∑= n x
x n
i i
。
65.61
251062
1
25)2423()2417()2415()2419(1)(2
2221
2
=-=
--+-++-+-=
--=∑= n x x
s n
i i
(4)偏态系数:()
08.165
.6)225)(125(24253
3
=?---=
∑i x SK 。
峰态系数:[]
77.065
.6)325)(225)(125()
125()24(3)24()125(254
2
24=?-------+=
∑∑i i x x K 。
(5)分析:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。
由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,由于偏态系数大于1,所以偏斜程度很大。由于峰态系数为正值,所以为尖峰分布。
4.3(1)茎叶图如下:
茎 叶 数据个数
5 5 1
6 6
7
8 3 7
1 3 4 8 8
5
(2)79
63
98.78.76.65.5==++++=
x 。
714.08
08
.419)78.7()78.7()76.6()75.5(2222==--+-++-+-= s 。
(3)由于两种排队方式的平均数不同,所以用离散系数进行比较。 第一种排队方式:274.02.797.11==
v ;102.07
714.02==v 。由于21v v >,表明第一种排队方式的离散程度大于第二种排队方式。
(4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。
4.4(1)1.27430
8223
1
==
=
∑=n x
x n
i i
。
5.152
130=+=中位数位置,5.2722273272=+=e
M 。 (2)5.74
30
==位置L Q ,5.2592261258=+=
L Q 。 5.224
30
3=?=位置U Q ,5.2872291284=+=
U Q 。 (3)17.211
307
.130021)(1
2
=-=
--=
∑=n x x
s n
i i
。
4.5(1)41.19340
6600
30
1500203000152100150030002100==++++==总产量总成本甲企业的平均成本。
92.18342
55
6230
1500200051152553150000515523==++++==总产量总成本乙企业的平均成本.
原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所
占比重较大,因此拉低了总平均成本。 4.6(1)平均数计算过程见下表:
按利润额分组 组中值 i M 企业数 i f i i f M
200~300 250 19 4750 300~400 350 30 10500 400~500 450 42 18900 500~600 550 18 9900 600以上 650 11 7150 合计
—
120
51200
67.426120
51200
1
==
=
∑=n
f M
x k
i i
i
。
偏态系数:203.048
.1161204
.38534964)(3
313=?=
-=
∑=ns f x M
SK i i
i
。 峰态系数:688.0348
.1161204
.851087441643)(4
4
1
4-=-?=
--=
∑=ns f x M
K k
i i
i
。
4.7(1)两位调查人员所得到的平均身高应该差不多相同,因为均值的大小基本上不受样本大小的影响。
(2)两位调查人员所得到的身高的标准差应该差不多相同,因为标准差的大小基
本上不受样本大小的影响。
(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。
4.8 (1)要比较男女学生体重的离散程度应该采用离散系数。女生体重的离散系数为1.0505
==
女v ,男生体重的离散系数为08.060
5==男v ,所以女生的体重差异大。
(2)男生:1322.260=?=x (磅),112.25=?=s (磅); 女生:1102.250=?=x (磅),112.25=?=s (磅);
(3)假定体重为对称分布,根据经验法则,在平均数加减1个标准差范围内的数据个数大约为68%。因此,男生中大约有68%的人体重在55kg 到65kg 之间。 (4)假定体重为对称分布,根据经验法则,在平均数加减2个标准差范围内的数据个数大约为95%。因此,女生中大约有95%的人体重在40kg 到60kg 之间。 4.9 通过计算标准分数来判断:
115100115=-=-=
A A A A s x x z ;5.050
400
425=-=-=B B B B s x x z 。 该测试者在A 项测试中比平均分数高出1个标准差,而在B 项测试中只高出平均
分数0.5个标准差,由于A 项测试的标准分数高于B 项测试,所以A 项测试比较理想。
4.10 通过标准分数来判断,各天的标准分数如下表:
日期 周一 周二 周三 周四 周五 周六 周日 标准分数Z 3
-0.6
-0.2
0.4
-1.8
-2.2
周一和周六两天失去了控制。
4.11(1)应该采用离散系数,因为它消除了不同组数据水平高低的影响。
(2)成年组身高的离散系数:024.01.1722
.4==
s v ; 幼儿组身高的离散系数:035.03
.715
.2==s v ;
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。
4,11(1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比较时,应该采用离散系数。
(2)下表给出了用Excel 计算一些主要描述统计量。
从三种方法的集中趋势来看,方法A 的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为:
013.06.16513.2==
A v ,014.073.12875.1==
B v ,022.053
.12577
.2==C v 。方法A 的离散程度最小。因此应选择方法A 。
4.12(1)用方差或标准差来评价投资的风险。
(2)从直方图可以看出,商业类股票收益率的离散程度较小,说明投资风险也就较小。
(3)从投资风险角度看,应该选择风险较小的商业类股票。当然,选择哪类股票还与投资者的主观判断有很大关系。
第7章 抽样与参数估计
7.1(1)已知:5=σ,40=n ,25=x ,05.0=α,96.1205.0=z 。 样本均值的抽样标准差79.040
5==
=n
x σ
σ。
(2)估计误差55.140
5
96.12
=?
==n
z E σ
α
。
7.2(1)已知:15=σ,49=n ,120=x ,05.0=α,96.1205.0=z 。 样本均值的抽样标准差14.249
15==
=n
x σ
σ。
(2)估计误差20.449
15
96.12
=?
==n z E σ
α
。
(3)由于总体标准差已知,所以总体均值μ的95%的置信区间为:
20.412049
15
96.11202
±=?
±=±n z x σ
α,即(115.8,124.2)。
7.3已知:100=n ,85414=σ,104560=x ,05.0=α,96.1205.0=z 。
由于总体标准差已知,所以总体均值μ的95%的置信区间为:
144.16741104560100
8541496.1104560±=?
±=±n
z x σ
α,即(87818.856,
121301.144)。
7.4(1)已知:100=n ,81=x ,12=s ,1.0=α,645.121.0=z 。 由于100=n 为大样本,所以总体均值μ的90%的置信区间为:
974.181100
12
645.181±=?
±=±n
s z x α,即(79.026,82.974)。
(2)已知:05.0=α,96.1205.0=z 。
由于100=n 为大样本,所以总体均值μ的95%的置信区间为:
352.281100
12
96.181±=?±=±n s z x α,即(78.648,83.352)。
(3)已知:01.0=α,58.2201.0=z 。
由于100=n 为大样本,所以总体均值μ的99%的置信区间为:
096.381100
12
58.2812
±=?
±=±n
s z x α,即(77.940,84.096)。
7.5(1)已知:25=x ,5.3=σ,60=n ,05.0=α,96.1205.0=z 。
由于总体标准差已知,所以总体均值μ的95%的置信区间为:
89.02560
5
.396.125±=?
±=±n
z x σ
α,即(24.11,25.89)。
(2)已知:6.119=x ,89.23=s ,75=n ,02.0=α,33.2202.0=z 。 由于75=n 为大样本,所以总体均值μ的98%的置信区间为:
43.66.11975
89
.2333.26.1192±=?±=±n s z x α,即(113.17,126.03)。
(3)已知:419.3=x ,974.0=s ,32=n ,1.0=α,645.121.0=z 。
由于32=n 为大样本,所以总体均值μ的90%的置信区间为:
283.0419.332
974.0645.1419.3±=?
±=±n
s z x α,即(3.136,3.702)。
7.6(1)已知:总体服从正态分布,500=σ,15=n ,8900=x ,05.0=α,96.1205.0=z 。
由于总体服从正态分布,所以总体均值μ的95%的置信区间为:
03.253890015
50096.189002
±=?
±=±n
z x σ
α,即(8646.97,9153.03)。
(2)已知:总体不服从正态分布, 500=σ,35=n ,8900=x ,05.0=α,
96.1205.0=z 。 虽然总体不服从正态分布,但由于35=n 为大样本,所以总体均值μ的95%的置
信区间为:
65.165890035
500
96.189002
±=?
±=±n
z x σ
α,即(8734.35,9065.65)。
(3)已知:总体不服从正态分布,σ未知,35=n ,8900=x ,500=s ,1.0=α,
645.121.0=z 。
虽然总体不服从正态分布,但由于35=n 为大样本,所以总体均值μ的90%的置信区间为:
03.139890035
500
645.18900±=?
±=±n
s
z x α,即(8760.97,9039.03)。 (4)已知:总体不服从正态分布,σ未知,35=n ,8900=x ,500=s ,01.0=α,
58.201.0=z 。
虽然总体不服从正态分布,但由于35=n 为大样本,所以总体均值μ的99%的置信区间为:
05.218890035
500
58.28900±=?
±=±n s
z x α,即(8681.95,9118.05)。
7.7已知:36=n ,当α为0.1、0.05、0.01时,相应的645.121.0=z 、96.1205.0=z 、58.201.0=z 。
根据样本数据计算得:32.3=x ,61.1=s 。
由于36=n 为大样本,所以平均上网时间的90%的置信区间为:
44.032.336
61.1645.132.3±=?
±=±n
s z x α,即(2.88,3.76)。
平均上网时间的95%的置信区间为:
53.032.33661.196.132.32
±=?
±=±n s z x α,即(2.79,3.85)。
平均上网时间的99%的置信区间为:
69.032.336
61.158.232.32
±=?±=±n
s z x α,即(2.63,4.01)。
7.8已知:总体服从正态分布,但σ未知,8=n 为小样本,05.0=α,365.2)18(205.0=-t 。
根据样本数据计算得:10=x ,46.3=s 。 总体均值μ的95%的置信区间为:
89.2108
46.3365.2102
±=?
±=±n
s t x α,即(7.11,12.89)。
7.9已知:总体服从正态分布,但σ未知,16=n 为小样本,05.0=α,131.2)116(205.0=-t 。
根据样本数据计算得:375.9=x ,113.4=s 。 从家里到单位平均距离的95%的置信区间为:
191.2375.916
113
.4131.2375.9±=?
±=x ,即(7.18,11.57)。
36=n ,5.149=x ,05.0=α,96.1205.0=z 。
由于36=n 为大样本,所以零件平均长度的95%的置信区间为:
63.05.14936
93.196.15.149±=?
±=±n
s z x α,即(148.87,150.13)。
(2)在上面的估计中,使用了统计中的中心极限定理。该定理表明:从均值为μ、方差为2
σ的总体中,抽取容量为n 的随机样本,当n 充分大时(通常要求30≥n ),样本均值x 的抽样分布近似服从均值为μ、方差为n 2
σ
的正态分布。
7.11(1)已知:总体服从正态分布,但σ未知,50=n 为大样本,05.0=α,96.1205.0=z 。
根据样本数据计算得:32.101=x ,63.1=s 。 该种食品平均重量的95%的置信区间为:
45.032.10150
63.196.132.101±=?
±=±n
s z x α,即(100.87,101.77)。
(2)根据样本数据可知,样本合格率为9.050
45
==
p 。该种食品合格率的95%的
置信区间为:
08.09.050
)
9.01(9.096.19.0)1(2
±=-±=-±n p p z p α,即(0.82,0.98)。 7.12已知:总体服从正态分布,但σ未知,25=n 为小样本,01.0=α,797.2)125(201.0=-t 。 根据样本数据计算得:128.16=x ,871.0=s 。 总体均值μ的99%的置信区间为:
487.0128.1625
871.0797.2128.162
±=?
±=±n
s t x α,即(15.64,16.62)。
7.13已知:总体服从正态分布,但σ未知,18=n 为小样本,1.0=α,740.1)118(21.0=-t 。
根据样本数据计算得:56.13=x ,80.7=s 。
网络公司员工平均每周加班时间的90%的置信区间为:
20.356.1318
80
.7740.156.13±=?
±=x ,即(10.36,16.76)。 44=n ,51.0=p ,01.0=α,58.2201.0=z 。
总体总比例的99%的置信区间为:
19.051.044
)
51.01(51.058.251.0)1(2
±=-±=-±n p p z p α,即(0.32,0.70); (2)已知:300=n ,82.0=p ,05.0=α,96.1205.0=z 。 总体总比例π的95%的置信区间为:
04.082.0300
)
82.01(82.096.182.0)1(2
±=-±=-±n p p z p α,即(0.78,0.86); (3)已知:1150=n ,48.0=p ,1.0=α,645.121.0=z 。 总体总比例π的90%的置信区间为:
02.048.01150
)
48.01(48.0645.148.0)1(2
±=-±=-±n p p z p α,即(0.46,0.50)。
7,15已知:200=n ,23.0=p ,α为0.1和0.05时,相应的645.121.0=z ,
96.1205.0=z 。
总体总比例π的90%的置信区间为:
05.023.0200
)
23.01(23.0645.123.0)1(2
±=-±=-±n p p z p α,即(0.18,0.28)。
总体总比例π的95%的置信区间为:
06.023.0200
)
23.01(23.096.123.0)1(2
±=-±=-±n p p z p α,即(0.17,0.29)。 7.16已知:1000=σ,估计误差200=E ,01.0=α,58.2201.0=z 。 应抽取的样本量为:167200100058.2)(2
2222
22=?==
E z n σα。 7.17(1)已知:02.0=E ,40.0=π,04.0=α, 2.05204.0=z 。
应抽取的样本量为:252202.0)40.01(40.005.2)
1()(2
2222=-?=-?=
E z n ππα。 (2)已知:04.0=E ,π未知,05.0=α, 1.96205.0=z 。
由于π未知,可用使用0.5。
应抽取的样本量为:60104.0)50.01(50.096.1)
1()(2
2222=-?=-?=
E z n ππα。 (3)已知:05.0=E ,55.0=π,1.0=α, 1.64521.0=z 。
应抽取的样本量为:26805
.0)55.01(55.0645.1)
1()(2
2222=-?=-?=
E z n ππα。 7.18(1)已知:50=n ,64.050
32
==p ,05.0=α, 1.96205.0=z 。
总体中赞成该项改革的户数比例的95%的置信区间为:
13.064.050
)
64.01(64.096.164.0)1(2
±=-±=-±n p p z p α,即(0.51,0.77)。 (2)已知:80.0=π,05.0=α, 1.9605.0=z 。 应抽取的样本量为:621
.0)80.01(80.096.1)
1()(2
22
22=-?=-?=
E z n ππα。
第13章 时间序列分析和预测
1(1)时间序列图如下:
从时间序列图可以看出,国家财政用于农业的支出额大体上呈指数上升趋势。 (2)年平均增长率为:
%55.131%55.113121
.11076.10851180=-=-=-=n
n Y Y G 。 (3)88.1232%)55.131(76.1085?2000
=+?=Y 。 2(1)时间序列图如下:
(2)2001年的预测值为:
2.14215
7106
5151914691272147913672001==++++=
F
2001年时的预测值为:
8.14212.1380)3.01(15193.0)1(2001=?-+?=-+=t t F Y F αα
5.0=α时的预测值为:
1.14631.1407)5.01(15195.0)1(2001=?-+?=-+=t t F Y F αα 比较误差平方可知,5.0=α更合适。
3(1)第19个月的3期移动平均预测值为:
33.6303
1891
366064458719==++=
F
(2)由Excel 输出的指数平滑预测值如下表:
时的预测值:
5.5959.567)3.01(6603.019=?-+?=F ,误差均方=87514.7。
4.0=α时的预测值:
7.6181.591)4.01(6604.019=?-+?=F ,误差均方=62992.5.。
5.0=α时的预测值:
3.6335.606)5.01(6605.019=?-+?=F ,误差均方=50236。
比较各误差平方可知,5.0=α更合适。
输出的回归结果如下:
回归统计
Multiple R 0.9673 R Square
0.9356
Adjusted R Square 0.9316 标准误差 31.6628
观测值 18
方差分析
df
SS MS F Significance F
回归分析 1 232982.5 232982.5
232.3944
5.99E-11 残差 16 16040.49
1002.53
总计 17
249022.9
Coefficients 标准误差 t Stat P-value Lower 95%
Upper 95% Intercept 239.73203 15.57055 15.3965 5.16E-11 206.7239 272.7401 X Variable 1
21.928793
1.438474 15.24449
5.99E-11
18.87936
24.97822
t Y t
9288.2173.239?+=。 4(1)趋势图如下:
(2)从趋势图可以看出,我国财政用于文教、科技、卫生事业费指出额呈现指数增长趋势,因此,选择指数曲线。经线性变换后,利用Excel 输出的回归结果如下:
回归统计
Multiple R 0.998423 R Square 0.996849 Adjusted R Square 0.996674 标准误差 0.022125
观测值
20
方差分析
df
SS MS F Significance F
回归分析 1 2.787616 2.787616
5694.885
5.68E-24
残差 18 0.008811
0.000489
总计 19
2.796427
Coefficients
标准误差 t Stat P-value Lower 95%
Upper 95% Intercept 2.163699 0.010278 210.5269 5.55E-32 2.142106 2.185291 X Variable 1
0.064745
0.000858
75.46446
5.68E-24
0.062942
0.066547
163699.2)log(0=b ,78.1450=b ;064745.0)log(1=b ,1608.11=b 。所以,
指数曲线方程为:t t
Y
1608.178.145??=。 2001年的预测值为:9.33381608.178.145?21
2001
=?=Y 。
5(1)趋势图如下:
(2)从图中可以看出,纱产量具有明显的线性趋势。用Excel 求得的线性趋势方程为:
t Y
9495.135202.69?+= 2000年预测值为:
65.585379495.135202.69?2000
=?+=Y =585.65(万吨)。
6(1)原煤产量趋势图如下:
从趋势图可以看出,拟合二阶曲线比较合适。 (2)用Excel 求得的二阶曲线趋势方程为:
20309.09674.05824.4?t t Y t
-+= 2001年的预测值为:
27.11210309.0219674.05824.4?22001
=?-?+=Y 。 7(1)趋势图如下:
从趋势图可以看出,每一年的各月份数据没有趋势存在,但从1997—2001年的变化看,订单金额存在一定的线性趋势。
(2)由于是预测各月份的订单金额,因此采用移动平均法或指数平滑法比较合适。 (3)用Excel 采用12项移动平均法预测的结果为:4.711/2002=F 。
用Excel 采用指数平滑法(4.0=α)预测的预测结果为:5.721/2002=F 。
季节变动图如下:
根据分离季节因素后的数据计算的趋势方程为:t Y t
7064.16392.2043?+=。