统计分析方法实验课后习题

统计分析方法实验课后习题
统计分析方法实验课后习题

第四章实验二

描述

支付方式统计量标准误

消费金额现金支付均值8.8392 .85657

均值的 95% 置信区间下限7.1036

上限10.5748

5% 修整均值8.6812

中值7.4050

方差27.881

标准差 5.28024

极小值 1.09

极大值20.48

范围19.39

四分位距8.74

偏度.435 .383

峰度-.859 .750 个人支票均值42.7320 2.47003

均值的 95% 置信区间下限37.7359

上限47.7281

5% 修整均值42.7256

中值41.3400

方差244.043

标准差15.62186

极小值 2.67

极大值78.16

范围75.49

四分位距21.88

偏度-.033 .374

峰度.267 .733 信用卡支付均值40.8768 3.17111

均值的 95% 置信区间下限34.2821

上限47.4715

5% 修整均值40.7751

中值45.3300

方差221.230

标准差14.87382

极小值14.44

极大值69.77

范围55.33

四分位距25.98

偏度-.117 .491 峰度-1.000 .953

M-估计器

支付方式Huber 的 M-估

计器a Tukey 的双权重b Hampel 的 M-估

计器c

Andrews

波d

消费金额现金支付8.3486 8.4076 8.5938 8.4097

个人支票42.6936 42.6233 42.7790 42.6423

信用卡支付41.3742 41.4101 40.9178 41.4139

a. 加权常量为 1.339。

b. 加权常量为 4.685。

c. 加权常量为 1.700、3.400 和 8.500

d. 加权常量为 1.340*pi。

均值和M均值没有较大差异,说明数据中没有异常值

由于样本是大样本,所以看Kolmogorov-Smirnov检验,个人支票Sig.值为0.2,现金支付和信用卡支付Sig.值都为0.088,大于0.05,接受原假设,即服从正态分布。

方差齐性检验

Levene 统计

量df1 df2 Sig.

消费金额基于均值15.832 2 97 .000

基于中值12.568 2 97 .000

基于中值和带有调整后

的 df

12.568 2 68.577 .000

基于修整均值15.940 2 97 .000

由于P值均小于0.05,所以认为三组数据的方差不相等。

从茎叶图、Q-Q图等可以看出其较好的符合正态分布。从箱体图可以看出各种支付方式不存在奇异值。(图略)实验三

卡方检验

值df 渐进 Sig. (双

侧)

Pearson 卡方24.733a22 .310

似然比23.435 22 .378

有效案例中的 N 37

a. 46 单元格(100.0%) 的期望计数少于 5。最小期望计数

为 .16。

从卡方检验的结果看出,各种检验方法的显著性水平均大于0.05,因此接受原假设,认为处分情况和上网时间是不相关的。

第五章

实验一

age * sex

age

sex 均值N 标准差

男78.47 40 7.158

女79.85 40 7.177

总计79.16 80 7.155

实验结果表明,女性的年龄平均比男性要高,但二者年龄的标准差大致相当,说明二者年龄的差异性大致相当。

age * area

age

area 均值N 标准差

长江以北78.60 40 7.253

长江以南79.73 40 7.104

总计79.16 80 7.155

实验结果表明,生活在长江以南的人的年龄平均比生活在长江以北的人的年龄要高,但二者年龄的标准差大致相当,说明二者年龄的差异性大致相当。

实验二

单个样本统计量

N 均值标准差均值的标准误

纤度 6 1.4767 .07448 .03040

实验结果表明。双侧t检验的显著性水平Sig.取值为0.477,大于0.05,所以不拒绝原假设,即认为样本均值与总体均值没有显著的差异。

实验三

组统计量

激励方

法N 均值标准差均值的标准

业绩增长d

i

m

e

n

s

i

o

n

1

甲7 17.0143 .63095 .23848 乙7 16.5143 .50474 .19077

由表可得,甲乙两种激励方法业绩增长的均值差距不大,但标准差略有差距。

由表可得,方差方程的 Levene 检验的显著性水平为0.734,远大于0.05,所以认为两样本的方差是相等的,因此我们选择第一行的结果,由于t检验的显著性水平为0.128,大于0.05,所以不拒绝原假设,即认为两样本的均值是相等的,即甲乙两种激励方法的效果不存在显著性差异。

实验四

成对样本统计量

均值N 标准差均值的标准误

对 1 卷A 149.60 20 2.542 .568

由表可知,卷A结果的得分的均值与卷B结果的得分的均值大致相当,标准差也大致相当

成对样本相关系数

N 相关系数Sig.

对 1 卷A & 卷B 20 .711 .000

由表可知,t检验的显著性水平为0.130,大于0.05,即认为两套问卷所得结果的平均值没有显著差异。第七章

实验一

描述性统计量

均值标准差N

投入人年数2144.387 1634.3769 31

课题总数(当年)960.000 838.1887 31

相关性

投入人年数课题总数(当

年)

投入人年数Pearson 相关性 1 .959**

显著性(双侧).000

平方与叉积的和8.014E7 3.941E7

协方差2671187.845 1313583.600

N 31 31

课题总数(当年)Pearson 相关性.959** 1

显著性(双侧).000

平方与叉积的和 3.941E7 2.108E7

协方差1313583.600 702560.333

N 31 31

**. 在 .01 水平(双侧)上显著相关。

从表中可以看出Pearson相关系数为0.959,即课题总数与投入人年数的相关系数为0.959,双侧检验值为0.000,小于0.05,拒绝原假设,认为总体相关系数与0有显著差异,因此认为二者存在相关关系,由于0.959接近于1,所以认为二者存在较强的线性关系。

同理,课题总数与投入高级职称的人年数存在较强线性关系(相关系数0.944)

课题总数与投入科研事业费存在较强线性关系(相关系数0.862)

课题总数与专著数存在较强线性关系(相关系数0.868)

课题总数与论文数存在较强线性关系(相关系数0.887)

课题总数与获奖数不存在较强线性关系(相关系数0.665)

实验二

相关性

控制变量

城镇居民家

庭人均消费城镇居民家

庭人均可支

配收入

农村居民家

庭人均纯收

-无-a城镇居民家庭人均消

费相关性 1.000 .990 .990 显著性(双

侧)

. .000 .000 df 0 14 14

城镇居民家庭人均可支配收入相关性.990 1.000 .995 显著性(双

侧)

.000 . .000 df 14 0 14

农村居民家庭人均纯收入相关性.990 .995 1.000 显著性(双

侧)

.000 .000 . df 14 14 0

农村居民家庭人均纯收入城镇居民家庭人均消

相关性 1.000 .385

显著性(双

侧)

. .157

df 0 13 城镇居民家庭人均可

支配收入

相关性.385 1.000

显著性(双

侧)

.157 .

在一般相关分析下,城镇居民家庭人均消费与城镇居民家庭人均可支配收入相关系数取值为0.990,其Sig.值为0.000,小于0.01,说明二者相关性是显著的。

但在控制了农村居民家庭人均纯收入这个变量的偏相关分析下,乡姑纳西助威0.385,Sig.值为0.157,大于0.05,说明此事二者的相关性是不显著的。

同理

城镇居民家庭人均消费与农村居民家庭人均纯收入在一般相关分析下相关性显著,偏相关分析下不显著。

输入/移去的变量b

模型输入的变量移去的变量方法相关性

控制变量

城镇居民家庭人均消费农村居

民家庭

人均纯

收入

城镇居

民家庭

人均可

支配收

-无-a城镇居民家庭

人均消费相关性 1.000 .990 .990 显著性

(双侧)

. .000 .000 df 0 14 14

农村居民家庭人均纯收入相关性.990 1.000 .995 显著性

(双侧)

.000 . .000 df 14 0 14

城镇居民家庭人均可支配收入相关性.990 .995 1.000 显著性

(双侧)

.000 .000 . df 14 14 0

城镇居民家庭人均可支配收入城镇居民家庭

人均消费

相关性 1.000 .284

显著性

(双侧)

. .305

df 0 13 农村居民家庭

人均纯收入

相关性.284 1.000

显著性

(双侧)

.305 .

df 13 0

a.单元格包含零阶 (Pearson) 相关。、第八章实验一

进入法下,五个变量都进入了。

从表中可以看出,本里的拟合优度是0.997.说明拟合程度非常高。

Anova b

模型平方和df 均方 F Sig.

1127.806 .000a

1 回归 1.382E7 5 2763773.20

2

残差24505.740 10 2450.574

总计 1.384E7 15

a. 预测变量: (常量), X5, X3, X4, X2, X1。

b. 因变量: Y

从表中可以得到,回归模型的Sig.值接近0,说明该回归模型有显著的统计意义。

系数a

模型

非标准化系数

标准系数 t Sig. 共线性统计量

B

标准 误差

试用版 容差 VIF 1

(常量)

451.138 178.12

7

2.533

.030

X1

.354

.085 2.447 4.151 .002 .001 1963.6

69

X2 -.561 .125 -2.48

5

-4.47

6

.001 .001 1740.7

24

X3 -.007 .002 -.083 -3.51

.006 .315

3.172

X4 21.57

7

4.031 .531

5.353 .000 .018 55.490

X5 .435 .052 .564 8.439 .000 .040 25.194

a. 因变量: Y

从表中可以看出,本里的拟合结果是Y=0.354X1-0.561X2-0.007X3+21.577X4+0.435X5+451.138,而且每个变量的系数的Sig.值都接近于0,说明每个系数都是有统计学意义的。

因此,就不进行共线性诊断了。 实验二

经过结果分析,认为二次曲线的模型最符合实际,现将二次曲线模型拟合优度的检验结果进行分析。

其调整的判定系数值为0.600,说明模型的拟合效果很好。

从方差分析表中可以看出,其P 值为0,说明该模型具有显著的统计学意义。

系数

从各系数的P值可知,各系数Sig.值都小于0.05,说明各系数具有显著的统计学意义。因此我们可以得到拟合方程: Y=5.280+6.302X-3.996X^2

其他两种(线性和三次方的模型)为什么不行的原因:

线性也可以,但拟合优度为0.832,不如二次模型,所以二次模型更好。

而对于三次模型

系数

未标准化系数标准化系

t Sig.

B 标准误Beta

Advertising

spending

3.471 1.701 2.967 2.041 .055

Advertising

spending ** 2

-.422 .474 -2.663 -.891 .384

Advertising

spending ** 3

.015 .041 .603 .377 .710

(常数) 3.283 1.811 1.813 .085

其每个系数的Sig.值都大于0.05,且二次项和三次项还超出很多,说明其各系数并不具有统计学意义。第九章

实验一

聚类表

阶群集组合

系数首次出现阶群集

下一阶

群集 1 群集 2 群集 1 群集 2

1 5 33 1.209 0 0 13

2 22 24 1.215 0 0 24

3 10 12 1.241 0 0 11

4 13 19 1.317 0 0 10

5 1 7 1.777 0 0 7

6 16 1

7 1.782 0 0 8

7 1 4 1.838 5 0 9

8 2 16 1.841 0 6 12

9 1 3 1.971 7 0 12

10 11 13 2.541 0 4 11

11 10 11 2.754 3 10 14

12 1 2 2.791 9 8 17

13 5 31 2.876 1 0 19

14 10 14 3.238 11 0 17

15 26 27 3.440 0 0 21

16 18 30 3.477 0 0 22

17 1 10 3.611 12 14 18

18 1 15 3.724 17 0 19

19 1 5 3.945 18 13 20

20 1 32 4.059 19 0 22

21 25 26 4.305 0 15 33

22 1 18 4.529 20 16 23

23 1 6 4.671 22 0 25

24 21 22 5.092 0 2 30

25 1 20 5.380 23 0 26

26 1 8 5.787 25 0 27

27 1 9 5.791 26 0 28

28 1 23 6.053 27 0 29

29 1 28 6.840 28 0 30

30 1 21 7.814 29 24 31

31 1 34 9.216 30 0 32

32 1 29 12.913 31 0 33

33 1 25 14.932 32 21 0

这个聚类表表示了一步步的聚类过程,5和33先合并成一类,到了第13步再和31再聚成一类,接下来是第19步,以此类推。另一方面,22和24也合成一类,并同上不断聚类。聚类的依据是最短距离,距离最短的两个个案优先聚成一类。

第十章实验一

相关矩阵

年末实有道路长度(公里)年末

实有

道路

面积

(万

平方

米)

城市

桥梁

(座)

城市

排水

管道

长度

(公

里)

城市

污水

日处

理能

力(万

立方

米)

城市

路灯

(盏)

相关年末实有道

路长度(公

里)

1.000 .983 .783 .939 .896 .883

从表中可以看出各个变量之间具有高度的相关性,可以用因子分析

KMO 和 Bartlett 的检验

取样足够度的 Kaiser-Meyer-Olkin 度量。.856

Bartlett 的球形度检验近似卡方281.248 df 15 Sig. .000

KMO检验的结果是0.856,比较接近0.9,比较适合做因子分析。Bartlett 的球形度检验的Sig.区只是0.000,表示拒绝原假设,各个变量不是相互独立的。

公因子方差

初始提取

年末实有道路长度(公里) 1.000 .954

年末实有道路面积(万平方

米)

1.000 .919

城市桥梁(座) 1.000 .742

城市排水管道长度(公里) 1.000 .924

城市污水日处理能力(万立方

米)

1.000 .882

城市路灯(盏) 1.000 .859

提取方法:主成份分析。

表格的提取列数据说明了提取的公共因子对各变量的方差所做出的贡献,如对年末实有道路长度的贡献为95.4%

解释的总方差

成份初始特征值提取平方和载入

合计方差

的 % 累积 % 合计

方差

的 % 累积 %

年末实有道

路面积(万

平方米)

.983 1.000 .738 .940 .853 .867

城市桥梁

(座)

.783 .738 1.000 .759 .873 .719

城市排水管

道长度(公

里)

.939 .940 .759 1.000 .845 .916

城市污水日

处理能力

(万立方

米)

.896 .853 .873 .845 1.000 .822

城市路灯

(盏)

.883 .867 .719 .916 .822 1.000

从表中可以看出,提取的第一个主成分特征根为5.280,方差贡献率为88.001%,第一个的贡献率就超过了80%,所以本例只选出了一个因子。

从碎石图中也可以看出,第一个主成分相对其他主成分而言比较高。

成份矩阵a

成份

1

年末实有道路长度(公里).977

.959

年末实有道路面积(万平方

米)

城市桥梁(座).862

城市排水管道长度(公里).961

.939

城市污水日处理能力(万立方

米)

城市路灯(盏).927

提取方法 :主成份。

a. 已提取了 1 个成份。

从因子载荷矩阵中看出各变量的因子表达式;

X1=0.977F1,以此类推

成份得分系数矩阵

成份

1

年末实有道路长度(公里).185

年末实有道路面积(万平方

.182

米)

城市桥梁(座).163

城市排水管道长度(公里).182

.178

城市污水日处理能力(万立方

米)

城市路灯(盏).176

提取方法 :主成份。

从因子得分系数矩阵可以得出:

F1=0.185X1+0.182X2+0.163X3+0.182X4+0.178X5+0.176X6

相关主题
相关文档
最新文档