数据分析大作业讲解

数据分析大作业讲解
数据分析大作业讲解

第一章数据描述分析

(一)目的与要求:

掌握利用统计软件求样本的数据特征、数据的分布,并理解所求各统计值的实际意义及作用,能把数据特征及数据分布用以解决实际问题。

掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法。

理解相关的本质含义,并会判断几个变量的相关性,掌握几种不同相关性的差别方法;能利用软件输出的结果判断变量的相关性。

(二)重点与难点:

掌握求数据的数字特征的程序结构,并能看懂程序输出的结果。区别不同的程序过程能求得一些相同的结果,但它们的功能上的区别;掌握几种描述数据分布软件处理方法、意义、实际应用;掌握平均数与中位数的区别与优劣;理解并能利用程序计算结果计算上、下截断点,会利用上、下截断点判别一组数据中是否有截断点,会处理异常值。

掌握多元数据的数字特征及相关性的判断,并会应用程序结果。

1.1 某小学60名11岁学生的身高(单位:cm)数据如下:

(1)计算均值、方差、标准差、变异系数、偏度、峰度;

(2)计算中位数、下和上四分位数、四分位极差、三均值;

(3)作出直方图;

(4)作出茎叶图;

α=);

(5)进行正态W检验(0.05

(6)进行经验分布函数的2χ检验。

126 149 143 141 127 123 137 132 135 134 146 142

135 141 150 137 144 137 134 139 148 144 142 137

147 138 140 132 149 131 139 142 138 145 147 137

135 142 151 146 129 120 143 145 142 136 147 128

142 132 138 139 147 128 139 146 139 131 138 149

1.2 1949-1980年全国历年人口(单位:亿人)如下:

(1)计算均值、方差、标准差、变异系数、偏度、峰度;

(2)计算中位数、下、上四分位数、四分位极差、三均值;

(3)作出直方图;

(4)作出茎叶图;

(5)找出异常值。

α=);

(6)进行正态W检验(0.05

(7)进行经验分布函数的2χ检验。

5.4167 5.5196 5.6300 5.7482 5.8796

6.0266

6.1465 6.2828 6.4653 6.5994 6.7207 6.6207

6.5859 6.7295 6.9172

7.0499 7.2538 7.4542

7.6368 7.8534 8.0671 8.2992 8.5229 8.7177

8.9211 9.0859 9.2420 9.3717 9.4974 9.6259

9.7542 9.8705 10.0072 10.1541 10.2495

10.3475 10.4532

1.3 1978年至1999年我国居民消费数据如表1.3所示

(1)计算均值、方差、标准差、变异系数、偏度、峰度;

(2)计算中位数、下、上四分位数、四分位极差、三均值;

(3)作出直方图;

(4)作出茎叶图;

(5)找出异常值。

1978 184 138 405

1979 207 158 434

1980 236 178 496

1981 262 199 562

1982 284 221 576

1983 311 246 603

1984 354 283 662

1985 437 347 802

1986 485 376 920

1987 550 417 1089

1988 693 508 1431

1989 762 553 1568

1990 803 571 1686

1991 896 621 1925

1992 1070 718 2356

1993 1331 855 3027

1994 1746 1118 3891

1995 2336 1434 4874

1996 2641 1768 5430

1997 2834 1876 5796

1998 2972 1895 6217

1999 3180 1973 6651

1.4 2002年11月以及1至11月全国各省、市、区财政预算收入数据如下:

(1)计算均值、方差、标准差、变异系数、偏度、峰度;

(2)计算中位数、下、上四分位数、四分位极差;

(3)作出直方图;

(4)作出经验分布函数图;

(5)X1和X2的观测值的pearson相关系数与spearman相关系数。

北京35.22 499.80

天津10.41 161.37

河北17.22 273.29

山西10.70 134.79

内蒙古10.29 90.92

辽宁18.66 348.99

吉林 4.41 106.89

黑龙江 6.24 196.44

上海49.72 656.95

江苏47.70 580.70

浙江36.55 518.10

安徽14.85 179.41

福建19.46 250.16

江西10.93 122.06

山东40.26 552.74

河南19.82 268.20

湖北19.49 221.43

湖南16.01 197.68

广东99.32 1080.26

广西14.77 160.60

海南 3.96 39.51

重庆10.49 111.76

四川21.71 250.09

贵州13.06 95.87

云南20.34 183.62

西藏0.77 6.08

陜西11.38 133.50

甘肃 3.66 64.86

青海 1.21 18.30

宁夏 2.31 23.81

新疆 3.24 103.81

1.5 对某民族的21人测量其血液4种成分的含量,观测数据如下:求总体均值向量μ及总体协方差矩阵∑的估计。

18.8 28.1 5.1 35.1

17.4 25.6 4.9 33.9

16.0 27.4 5.0 32.2

19.3 29.5 1.7 29.1

17.4 27.4 4.5 35.6

15.3 25.3 3.6 32.2

16.7 25.8 4.4 33.0

17.4 26.7 4.4 33.0

16.2 25.7 2.3 33.9

16.7 26.7 6.4 35.0

18.2 28.0 3.2 29.7

16.7 26.7 2.1 34.9

18.1 26.7 4.3 31.5

16.7 26.0 3.0 32.7

18.1 30.2 7.0 34.9

20.2 30.5 4.8 34.4

20.2 29.5 5.5 36.2

21.5 31.5 5.8 36.5

18.8 30.6 5.4 35.4

21.6 27.8 5.4 34.1

21.3 29.5 5.8 35.8

1.7 一组人体的胸部、腹部、手臂部分皮肤的有关数据如下:

(1) 计算观测数据均值向量和中位数向量;

(2) 计算观测数据的pearson相关矩阵,spearman相关矩阵及各元素对应的检验值,并做相关性的显著性检验。

9.0 12.0 3.0

8.5 15.0 3.0

13.0 19.0 3.0

10.0 7.0 4.0

7.0 13.0 2.5

15.5 28.5 5.0

22.5 20.0 4.5

5.5 8.5 3.0

25.0 35.0 6.5

15.0 19.0 4.0

12.5 20.0 3.0

17.0 19.5 5.0

16.0 17.5 6.0

20.0 20.0 7.5

12.0 17.0 4.0

22.0 20.0 6.0

17.0 28.0 5.5

16.0 18.0 3.0

21.0 27.5 6.0

13.0 14.0 4.0

21.0 13.0 9.0

21.0 6.0 3.5

13.5 6.5 3.5

5.0 7.5 3.5

16.0 20.0 5.5

14.5 14.5 4.0

10.0 23.0 6.0

11.0 13.0 6.0

10.5 12.0 3.5

15.0 15.5 3.0

9.0 12.5 5.0

23.0 24.0 6.5

14.0 21.0 6.5

16.0 11.0 3.0

16.5 17.0 4.0

16.0 15.0 3.0

12.0 15.5 3.5

9.0 4.0 2.0

12.0 6.0 5.0

5.0 14.0 3.0

17.0 15.0 4.5

16.0 11.0 3.0

17.5 18.0 3.0

11.5 15.0 3.0

4.0 3.0 2.0

17.5 15.0 4.5

9.5 11.5 2.5

26.0 38.0 4.0

15.0 13.0 4.5

19.0 12.0 3.0

第二章 线性回归分析

(一)目的与要求:

掌握建立多元回归方程的方法,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制。

(二)重点与难点:

会对实际数据建立有效的多元回归模型,能对回归模型作残差分析;掌握SAS 输出结果中用于判别回归方程优良性的不同统计量;能对回归模型进行运用,对实际问题进行预测或控制。

2.4 某公司管理人员为了了解某化妆品在一个城市的月销售量Y (单位:箱)与该城市中适合使用该化妆品的人数X 1(单位:千人)以及他们人均月收入X 2(单位:元)之间的关系,在某个月中对15个城市作了调查,得到的观测值如下:

(1) 求回归系数012,,βββ的最小二乘估计和误差方差2σ的估计,写出回归方程并对回归系数

作解释;

(2) 求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方2R 的值并解释其意义;

(3) 分别求1β和2β的置信度为95%的置信区间;

(4) 对0.05α=,分别检验人数X 1及收入X 2对销量Y 的影响是否显著,利用与回归系数有关的一般假设方法检验X 1和X 2的交互作用(即X 1X 2)对Y 的影响是否显著;

(5) 该公司欲在一个适宜使用该化妆品的人数X 01=200,人均月收入X 02=2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间;

(6) 求Y 的拟合值,残差及学生化残差,根据对学生化残差,根据对学生化残差正态性的频率检验及正态QQ 图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?作出各种残差图,分析模型有关假定的合理性。 162 274 2450

120 180 3254

223 375 3802

131 205 2838

67 86 2347

169 265 3782

81 98 3008

192 330 2450

116 195 2137

55 53 2560

252 430 4020

232 372 4427

144 236 2660

103 157 2088

212 370 2605

2.5 下面的数据是由特定模型产生的20组模拟数据

(1) 首先拟合Y 关于X 的线性回归模型,结果如何?通过残差分析(尤其是残差图分析)并参考Y 与X 的散点图,选择你认为合理的回归函数形式,拟合你所选择的回归模型,再通过残差分析考察所设定的模型的合理性,最后,将你所拟合的回归方程与真实模型(25(1),~(0,0.625)Y X N εε=+-+)比较,你是否给出了正确的模型形式。

(2) 如果对因变量作BOX-COX 变换,求变换参数的值,拟合变换后的变量关于X 的简单线性回归模型,结果如何?你对BOX-COX 变换有何新的认识?

0.05 5.9421

0.15 5.4691

0.25 5.8724

0.35 5.1815

0.45 5.1955

0.55 5.2487

0.65 5.1356

0.75 5.2260

0.85 5.0813

0.95 5.2236

1.05 4.7349

1.15 4.5949

1.25 5.1543

1.35 5.2844

1.45 5.3448

1.55 5.1462

1.65 5.4091

1.75 5.6500

1.85 6.0256

1.95 5.5350

2.6 在林业工程中,研究树干的体积与离地面一定高度的树干直径和树干高度之间的关系具有重要的实用意义,下面给出了31棵树的相关数据:

(1) 首先拟合线性回归模型01122Y X X βββε=+++,通过残差分析考察模型的合理性,是否需要对数据作变换?

(2)对因变量Y 作BOX-COX 变换,求变换参数的值。对变换后的因变量重新拟合与X 1,X 2

的线性回归模型并作残差分析, BOX-COX 变换的效果如何?

8.3 70 10.3

8.6 65 10.3

8.8 63 10.2

10.5 72 16.4

10.7 81 18.8

10.8 83 19.7

11.0 66 15.6

11.0 75 18.2

11.1 80 22.6

11.2 75 19.9

11.3 79 24.2

11.4 76 21.0

11.4 76 21.4

11.7 69 21.3

12.0 75 19.1

12.9 74 22.2

12.9 85 33.8

13.3 86 27.4

13.7 71 25.7

13.8 64 24.9

14.0 78 34.5

14.2 80 31.7

14.5 74 36.3

16.0 72 38.3

16.3 77 42.6

17.3 81 55.4

17.5 82 55.7

17.9 80 58.3

18.0 80 51.5

18.0 80 51.0

20.6 87 77.0

2.9 某医院为了了解病人对医院工作的满意程度和病人的年龄、病情的严重程度和病人的忧虑程度之间的关系,随机调查了该医院的23位病人,得数据如下:

(1) 拟合线性回归模型0112233Y X X X ββββε=++++,通过残差分析考察模型及有关误差分布正态性假定的合理性;

(2) 若(1)中模型合理,分别在(i)2()a R p 、(ii)p C 和(iii)p PRESS 准则下选择最优回归方程,各

准则下的选择结果是否一致?

(3) 对0.10E D αα==,用逐步回归法选择最优回归方程,其结果和(2)中的是否一致?

(4) 对选择的最优回归方程作残差分析,与(1)中的相应结果比较,有何变化?

50 51 2.3 48

36 46 2.3 57

40 48 2.2 66

41 44 1.8 70

28 43 1.8 89

49 54 2.9 36

42 50 2.2 46

45 48 2.4 54

52 62 2.9 26

29 50 2.1 77

29 48 2.4 89

43 53 2.4 67

38 55 2.2 47

34 51 2.3 51

53 54 2.2 57

36 49 2.0 66

33 56 2.5 79

29 46 1.9 88

33 49 2.1 60

55 51 2.4 49

29 52 2.3 77

44 58 2.9 52

43 50 2.3 60

第三章方差分析

(一)目的与要求:

能利用原始数据与误差分析作方差分析,并能理解各因素对观测的影响和作用;能根据SAS输出结果进行有无交互效应的分析。

(二)重点与难点:

理解观测数据在单因素和两因素下的总平方和分解表达式,两因素中无交互效应的分析,能利用方差分析的SAS过程解决有关实际应用问题。

3.4 考察四种不同催化剂对某一化工产品得率的影响,在四种不同催化剂下分别作了6次试验,得数据如下:

α=,检验四种不同催化假定各种催化剂下产品的得率服从同方差的正态分布,试在下0.05

剂对该化工产品的得率有无显著影响。

a1 0.88

a1 0.85

a1 0.79

a1 0.86

a1 0.85

a1 0.83

a2 0.87

a2 0.92

a2 0.85

a2 0.90

a2 0.80

a3 0.84

a3 0.78

a3 0.81

a3 0.80

a3 0.85

a3 0.83

a4 0.81

a4 0.86

a4 0.90

a4 0.87

a4 0.78

a4 0.79

3.5 为了了解生产某种电子设备的公司在过去三年中的科研经费投入(分为低、中、高三档)对当年生产能力提高的影响,调查了共计27家生产该设备的公司,对当年生产能力较之三年前的提高量作评估,得数据如下:

(1) 建立方差分析表,在显著水平0.05α=下检验过去三年科研经费投入的不同是否对当年生产力的提高有显著影响。

(2) 分别以L M μμ、和H μ记在过去三年科研经费投入为低、中、高情况下当年生产能力提高

量的均值,分别给出L M μμ、和H μ的置信度为95%的置信区间以及差值L M μμ-、L H μμ-和M H μμ-的置信度不小于95%的Bonferroni 置信区间。是否过去三年科研经费投入越高,当

年生产能力的改善越显著?

a1 7.6

a1 8.2

a1 6.8

a1 5.8

a1 6.9

a1 6.6

a1 6.3

a1 7.7

a1 6.0

a2 6.7

a2 8.1

a2 9.4

a2 8.6

a2 7.8

a2 7.7

a2 8.9

a2 7.9

a2 8.3

a2 8.7

a2 8.4

a3 8.5

a3 9.7

a3 10.1

a3 7.8

a3 9.6

a3 9.5

3.6 为研究两种形式的铁离子(Fe3+和Fe2+)在不同计量下在动物体内的存留量是否有显著不同,进行了如下试验:将108只小白鼠随机地分为6组,每组均为18只,其中3组分别给以三种不同剂量(高、中、低剂量)的三价铁Fe3+;另3组给以相应剂量的二价铁Fe2+。经过一段时间后,测量各小白鼠体内两种铁离子的存留量关于最初服用剂量的百分比,其数据如下:

(1) 求出各组合水平的观测值的样本均值和标准差。各水平组合上的标准差差异是否明显?你认为假定误差的等方差性是否合理?

(2) 对观测数据作自然变换,再进行(1)中分析。此时,各组合水平上的标准差是否趋于一致?

α=下,因素的交互(3) 对变换后的数据进行方差分析,建立方差分析表,在显著水平0.05

效应是否显著?各因素的交互效应是否显著?各因素的影响是否显著?

(4) 分别求各因素在其不同水平上的均值的置信度为95%的置信区间以及两两均值之差的置信度不小于95%的Bonferroni置信区间,并对结果作解释。

a1 b1 0.71

a1 b1 1.66

a1 b1 2.01

a1 b1 2.16

a1 b1 2.42

a1 b1 2.42

a1 b1 2.56

a1 b1 2.60

a1 b1 3.31

a1 b1 3.64

a1 b1 3.74

a1 b1 3.74

a1 b1 4.39

a1 b1 4.50

a1 b1 5.07

a1 b1 5.26

a1 b1 8.15

a1 b1 8.24

a1 b2 2.20

a1 b2 2.93

a1 b2 3.08

a1 b2 3.49 a1 b2 4.11 a1 b2 4.95 a1 b2 5.16 a1 b2 5.54 a1 b2 5.68 a1 b2 6.25 a1 b2 7.25 a1 b2 7.90 a1 b2 8.85 a1 b2 11.96 a1 b2 15.54 a1 b2 15.89 a1 b2 18.30 a1 b2 18.59 a1 b3 2.25 a1 b3 3.93 a1 b3 5.08 a1 b3 5.82 a1 b3 5.84 a1 b3 6.89 a1 b3 8.50 a1 b3 8.56 a1 b3 9.44 a1 b3 10.52 a1 b3 13.46 a1 b3 13.57 a1 b3 14.76 a1 b3 16.41 a1 b3 16.96 a1 b3 17.56 a1 b3 22.82 a1 b3 29.13 a2 b1 2.20 a2 b1 2.69 a2 b1 3.54 a2 b1 3.75 a2 b1 3.83 a2 b1 4.08 a2 b1 4.27 a2 b1 4.53 a2 b1 5.32 a2 b1 6.18 a2 b1 6.22

a2 b1 6.33 a2 b1 6.97 a2 b1 6.97 a2 b1 7.52 a2 b1 8.36 a2 b1 11.65 a2 b1 12.45 a2 b2 4.04 a2 b2 4.16 a2 b2 4.42 a2 b2 4.93 a2 b2 5.49 a2 b2 5.77 a2 b2 5.86 a2 b2 6.28 a2 b2 6.97 a2 b2 7.06 a2 b2 7.78 a2 b2 9.23 a2 b2 9.34 a2 b2 9.91 a2 b2 13.46 a2 b2 18.40 a2 b2 23.89 a2 b2 26.39 a2 b3 2.71 a2 b3 5.43 a2 b3 6.38 a2 b3 6.38 a2 b3 8.32 a2 b3 9.04 a2 b3 9.56 a2 b3 10.01 a2 b3 10.08 a2 b3 10.62 a2 b3 13.80 a2 b3 15.99 a2 b3 17.90 a2 b3 18.25 a2 b3 19.32 a2 b3 19.87 a2 b3 21.60 a2 b3 22.25

3.7 为研制一种治疗枯草热病的药物,将两种成分(A 和B )各按三种不同剂量(高、中、低)混合,将36位自愿受试患者随机分成9组,每组4人服用各种剂量混合下的药物,记录其病情缓解的时间(单位:小时)如下:

(1) 计算每个水平组合(A i ,B j )上的均值ij μ的估计值(,1,2,3)ij y i j =,做出形如图3.2的图形,判断A 与B 的交互效应是否显著?

(2) 假设所给数据服从方差分析模型,建立方差分析表,A 与B 的交互效应在0.05α=是否显著?

(3) A 与B 的交互效应显著,分别就A 的各水平A i (i=1,2,3),给出在B 的各水平B j 上的均值ij μ的置信度为95%的置信区间以及两两均值之差的置信度不小于95%的Bonferroni 置信区

间。固定B 的各水平B j ,关于因素A 作类似分析,你能选出最佳是水平组合?

a1 b1 2.4

a1 b1 2.7

a1 b1 2.3

a1 b1 2.5

a1 b2 4.6

a1 b2 4.2

a1 b2 4.9

a1 b2 4.7

a1 b3 4.8

a1 b3 4.5

a1 b3 4.4

a1 b3 4.6

a2 b1 5.8

a2 b1 5.2

a2 b1 5.5

a2 b1 5.3

a2 b2 8.9

a2 b2 9.1

a2 b2 8.7

a2 b2 9.0

a2 b3 9.1

a2 b3 9.3

a2 b3 8.7

a2 b3 9.4

a3 b1 6.1

a3 b1 5.7

a3 b1 5.9

a3 b1 6.2

a3 b2 9.9

a3 b2 10.5

a3 b2 10.6

a3 b2 10.1

a3 b3 13.5

a3 b3 13.0

a3 b3 13.3

a3 b3 13.2

3.8 有四名工人W i,i=1,…,4,分别操作机床A1,A2,A3各一天,生产同样产品,其日产量(单位:件)如下:

α=下,四名工人的日产量有无显著差异?各台机床对日产量(1) 建立方差分析表,在0.05

有无显著差异?

(2) 分别求各工人的平均日产量的两两之差以及机床平均日产量的两两均值之差的置信度不小于90%的Bonferroni置信区间,并对结果作解释。

a1 w1 50

a1 w2 47

a1 w3 47

a1 w4 53

a2 w1 63

a2 w2 54

a2 w3 57

a2 w4 58

a3 w1 52

a3 w2 42

a3 w3 41

a3 w4 48

第四章主成分分析与典型相关分析

(一)目的与要求:

能利用原始数据与相关矩阵、协主差矩阵作主成分分析,并能理解标准化变量主成分与原始数据主成分的联系与区别;能根据SAS输出结果选出满足要求的几个主成分。

能利用原始数据作典型相关分析,能根据SAS输出结果分析典型相关对。

(二)重点与难点:

理解标准化主成分与原始数据主成分的区别,会求主成分和典型相关对,能解释主成分和典型相关对的含义,即会综合解释指标。

4.4 从1975年1月至1976年12月,对纽约政券交易所的三种化工股票和两种石油股票的周反弹率进行连续100周的观测,

周反弹率=(本周五收盘价-上周五收盘价)/上周五收盘价

求得其样本相关系数矩阵为

(1) 从R出发做主成分分析,求各主成分及其贡献率。

(2) 前两个主成分的累计贡献率为多少?你能否给出这两个主成分的合理解释。

x1 1.000 0.577 0.509 0.387 0.462

x2 0.577 1.000 0.599 0.389 0.322

x3 0.509 0.599 1.000 0.436 0.426

x4 0.387 0.389 0.436 1.000 0.523

x5 0.462 0.322 0.426 0.523 1.000

4.5 下面给出了1991年我国30个省、区、市城镇居民的月平均消费数据(单位:元/人)X1:人均粮食支出;X2:人均副食品支出;X3:人均烟酒茶支出;X4:人均其它副食品支出;X5:人均衣着商品支出;X6:人均日用品支出;X7:人均燃料支出;X8:人均非商品支出;

(1) 求样本相关系数矩阵R。

(2) 从R出发做主成分分析,求各主成分及其贡献率。

(3) 求出前两个主成分并解释其意义。按第一主成分得分将30个省、区、市排序,结果如何?

山西8.35 23.53 7.51 8.62 17.42 10.00 1.04 11.21

内蒙古9.25 23.75 6.61 9.19 17.77 10.48 1.72 10.51

吉林8.19 30.50 4.72 9.78 16.28 7.60 2.52 10.32

黑龙江7.73 29.20 5.42 9.43 19.29 8.49 2.52 10.00

河南9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76

甘肃9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35

青海10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81

河北9.09 28.12 7.40 9.62 17.26 11.12 2.49 12.65

陕西9.41 28.20 5.77 10.80 16.36 11.56 1.53 12.17

宁夏8.70 28.12 7.21 10.53 19.45 13.30 1.66 11.96

新疆 6.93 29.85 4.54 9.49 16.62 10.65 1.88 13.61

湖北8.67 36.05 7.31 7.75 16.67 11.68 2.38 12.88

云南9.98 37.69 7.01 8.94 16.15 11.08 0.83 11.67

湖南 6.77 38.69 6.01 8.82 14.79 11.44 1.74 13.23

安徽8.14 37.75 9.61 8.49 13.15 9.76 1.28 11.28

贵州7.67 35.71 8.04 8.31 15.13 7.76 1.41 13.25

辽宁7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29

四川7.18 40.91 7.32 8.94 17.60 12.75 1.14 14.80

山东8.82 33.70 7.59 10.98 18.82 14.73 1.78 10.10

江西 6.25 35.02 4.72 6.28 10.03 7.15 1.93 10.39

福建10.60 52.41 7.70 9.98 12.53 11.70 2.31 14.69

广西7.27 52.65 3.84 9.16 13.03 15.26 1.98 14.57

海南13.45 55.85 5.50 7.45 9.55 9.52 2.21 16.30

天津10.85 44.68 7.32 14.51 17.13 12.08 1.26 11.57

江苏7.21 45.79 7.66 10.36 16.56 12.86 2.25 11.69

浙江7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87

北京7.78 48.44 8.00 20.51 22.12 15.73 1.15 16.61

西藏7.94 39.65 20.97 20.82 22.52 12.41 1.75 7.90

上海8.28 64.34 8.00 22.22 20.06 15.12 0.72 22.89

广东12.47 76.39 5.52 11.24 14.52 22.00 5.46 25.50

4.6 下面是49位女性在空腹情况下三个不同时刻的血糖含量(用X1,X2,X3表示)和在摄入等量食糖一小时后的三个时刻的血糖含量(用Y1,Y2,Y3表示)的观测值(单位:mg/100ml),数据如下:

分别从样本协方差矩阵S和样本相关系数矩阵R出发做主成分分析,求各主成分及其贡献率。在两种情况下,你认为应保留几个主成分,其意义如何解释?就此题,基于S和R的分析哪个更为合理?

1 60 69 6

2 97 69 98

2 56 5

3 8

4 103 78 107

3 80 69 76 66 99 130

4 5

5 80 90 80 85 114

5 62 75 68 11

6 130 91

6 74 64 70 109 101 103

7 64 71 66 77 102 130

8 73 70 64 115 110 109

9 68 67 75 76 85 119

10 69 82 74 72 133 127

11 60 67 61 130 134 121

12 70 74 78 150 158 100

13 66 74 78 150 131 142

14 83 70 74 99 98 105

15 68 66 90 119 85 109

16 78 63 75 164 98 138

17 103 77 77 160 117 121

18 77 68 74 144 71 153

19 66 77 68 77 82 89

20 70 70 72 114 93 122

21 75 65 71 77 70 109

22 91 74 93 118 115 150

23 66 75 73 170 147 121

24 75 82 76 153 132 115

25 74 71 66 143 105 100

26 76 70 64 114 113 129

27 74 90 86 73 106 116

28 74 77 80 116 81 77

29 67 71 69 63 87 70

30 78 75 80 105 132 80

31 64 66 71 83 94 133

32 71 80 76 81 87 86

33 63 75 73 120 89 59

34 90 103 74 107 109 101

35 60 76 61 99 111 98

36 48 77 75 113 124 97

37 66 93 97 136 112 122

38 74 70 76 109 88 105

39 60 74 71 72 90 71

40 63 75 66 130 101 90

41 66 80 86 130 117 144

42 77 67 74 83 92 107

43 70 67 100 150 142 146

44 73 76 81 119 120 119

45 78 90 77 122 155 149

46 73 68 80 102 90 122

47 72 83 68 104 69 96

48 65 60 70 119 94 89

49 52 70 76 92 94 100

4.8 从某校初一学生中随机选取n=140名,考察四个指标,学生的得分值的样本相关系数矩阵如下:

X1:阅读速度;X2:阅读理解力;Y1:计算速度;Y2:计算正确程度;

(1)求各典型变量对及典型相关系数;

α=,检验各典型变量对是否显著相关,并解释显著相关的典型变量(2)给定显著水平0.05

对的意义。

x1 1.00 0.63 0.24 0.06

x2 0.63 1.00 -0.06 0.07

y1 0.24 -0.06 1.00 0.42

y2 0.06 0.07 0.42 1.00

4.9 下面是25个家庭的成年长子的头长、头宽与成年次子的头长、头宽的观测数据:

试分别从样本协方差矩阵∑和样本相关系数矩阵R出发做典型相关分析,求各典型变量对

α=)。两种情况下的结果有何异及典型相关系数,检验各典型变量对是否显著相关(0.05

同。

1 191 155 179 145

2 195 149 201 152

3 181 148 185 149

4 183 153 188 149

5 17

6 144 171 142

6 208 15

7 192 152

7 189 150 190 149

8 197 159 189 152

9 188 152 197 159

10 192 150 187 151

11 179 158 186 148

12 183 147 174 147

13 174 150 185 152

14 190 159 195 157

15 188 151 187 158

16 163 137 161 130

17 195 155 183 158

18 186 153 173 148

19 181 145 182 146

20 175 140 165 137

21 192 154 185 152

22 174 143 178 147

23 176 139 176 143

24 197 167 200 158

25 190 163 187 150

4.10 下面是49位女性在空腹情况下三个不同时刻的血糖含量(用X1,X2,X3表示)和在摄入等量食糖一小时后的三个时刻的血糖含量(用Y1,Y2,Y3表示)的观测值(单位:mg/100ml),数据如下:

对X=(X1,X2,X3)T和Y=( Y1,Y2,Y3)T作典型相关分析,求各典型变量对及典型相关系

α=),并解释显著相关的典型变量对的意义。数,检验各典型变量对是否显著相关(0.05

1 60 69 6

2 97 69 98

2 56 5

3 8

4 103 78 107

3 80 69 76 66 99 130

4 5

5 80 90 80 85 114

5 62 75 68 11

6 130 91

6 74 64 70 109 101 103

7 64 71 66 77 102 130

8 73 70 64 115 110 109

9 68 67 75 76 85 119

10 69 82 74 72 133 127

11 60 67 61 130 134 121

12 70 74 78 150 158 100

13 66 74 78 150 131 142

14 83 70 74 99 98 105

15 68 66 90 119 85 109

16 78 63 75 164 98 138

17 103 77 77 160 117 121

18 77 68 74 144 71 153

19 66 77 68 77 82 89

20 70 70 72 114 93 122

21 75 65 71 77 70 109

22 91 74 93 118 115 150

23 66 75 73 170 147 121

24 75 82 76 153 132 115

25 74 71 66 143 105 100

26 76 70 64 114 113 129

27 74 90 86 73 106 116

28 74 77 80 116 81 77

29 67 71 69 63 87 70

30 78 75 80 105 132 80

31 64 66 71 83 94 133

32 71 80 76 81 87 86

33 63 75 73 120 89 59

34 90 103 74 107 109 101

35 60 76 61 99 111 98

36 48 77 75 113 124 97

37 66 93 97 136 112 122

38 74 70 76 109 88 105

39 60 74 71 72 90 71

40 63 75 66 130 101 90

41 66 80 86 130 117 144

42 77 67 74 83 92 107

43 70 67 100 150 142 146

44 73 76 81 119 120 119

45 78 90 77 122 155 149

46 73 68 80 102 90 122

47 72 83 68 104 69 96

48 65 60 70 119 94 89

49 52 70 76 92 94 100

第五章判别分析

(一)目的与要求:

能对两个总体与多个总体建立判别函数,并作判别分析。理解距离判别与Bayes判别的条件与结果的区别。

(二)重点与难点:

掌握分类的方法并能应用;

能针对多个总体协方差相等与不相等两种情况建立判别函数,并能利用判别函数作具体的分析。

5.1 下面是某地区气象综合因子的观测数据,假定两总体的协方差相等,进行判别分析,并给出误判率的回代估计与交叉确认估计。

G1 24.8 -2.0

G1 24.1 -2.4

G1 26.6 -3.0

G1 23.5 -1.9

G1 25.5 -2.1

G1 27.4 -3.1

G2 22.1 -0.7

G2 21.6 -1.4

G2 22.0 -0.8

G2 22.8 -1.6

G2 22.7 -1.5

G2 21.5 -1.0

G2 22.1 -1.2

G2 21.4 -1.3

5.3 下面给出了1991年我国30个省、区、市城镇居民的月平均消费数据(单位:元/人),设前20个省份为第1类G1,21-27号为第2类G2,最后三个省份待判:

进行距离判别,给出线性及二次判别函数,并给出误判率的回代估计与交叉确认估计。

山西G1 8.35 23.53 7.51 8.62 17.42 10.00 1.04 11.21

内蒙古G1 9.25 23.75 6.61 9.19 17.77 10.48 1.72 10.51

吉林G1 8.19 30.50 4.72 9.78 16.28 7.60 2.52 10.32

黑龙江G1 7.73 29.20 5.42 9.43 19.29 8.49 2.52 10.00

河南G1 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76

甘肃G1 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35

青海G1 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81

河北G1 9.09 28.12 7.40 9.62 17.26 11.12 2.49 12.65

陕西G1 9.41 28.20 5.77 10.80 16.36 11.56 1.53 12.17

宁夏G1 8.70 28.12 7.21 10.53 19.45 13.30 1.66 11.96

新疆G1 6.93 29.85 4.54 9.49 16.62 10.65 1.88 13.61

湖北G1 8.67 36.05 7.31 7.75 16.67 11.68 2.38 12.88

云南G1 9.98 37.69 7.01 8.94 16.15 11.08 0.83 11.67

湖南G1 6.77 38.69 6.01 8.82 14.79 11.44 1.74 13.23

安徽G1 8.14 37.75 9.61 8.49 13.15 9.76 1.28 11.28

贵州G1 7.67 35.71 8.04 8.31 15.13 7.76 1.41 13.25

辽宁G1 7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29

四川G1 7.18 40.91 7.32 8.94 17.60 12.75 1.14 14.80

山东G1 8.82 33.70 7.59 10.98 18.82 14.73 1.78 10.10

江西G1 6.25 35.02 4.72 6.28 10.03 7.15 1.93 10.39

福建G2 10.60 52.41 7.70 9.98 12.53 11.70 2.31 14.69

广西G2 7.27 52.65 3.84 9.16 13.03 15.26 1.98 14.57

海南G2 13.45 55.85 5.50 7.45 9.55 9.52 2.21 16.30

天津G2 10.85 44.68 7.32 14.51 17.13 12.08 1.26 11.57

江苏G2 7.21 45.79 7.66 10.36 16.56 12.86 2.25 11.69

浙江G2 7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87

北京G2 7.78 48.44 8.00 20.51 22.12 15.73 1.15 16.61

西藏* 7.94 39.65 20.97 20.82 22.52 12.41 1.75 7.90

上海* 8.28 64.34 8.00 22.22 20.06 15.12 0.72 22.89

广东* 12.47 76.39 5.52 11.24 14.52 22.00 5.46 25.50

5.4 在有关地震预报的研究中,遇到砂基液化的问题。选择了7个有关因素X1-X7。今从已

实验设计与数据处理大作业及解答

《实验设计与数据处理》大作业 班级:姓名:学号: 1、用Excel(或Origin)做出下表数据带数据点的折线散点图 (1)分别做出加药量和剩余浊度、总氮TN、总磷TP、COD Cr的变化关系图(共四张图,要求它们的格式大小一致,并以两张图并列的形式排版到Word 中,注意调整图形的大小); (2)在一张图中做出加药量和浊度去除率、总氮TN去除率、总磷TP去除率、COD Cr去除率的变化关系折线散点图。 2、对离心泵性能进行测试的实验中,得到流量Q v、压头H和效率η的数据如表所示,绘制离心泵特性曲线。将扬程曲线和效率曲线均拟合成多项式(要求作双Y轴图)。 流量Qv、压头H和效率η的关系数据 序号123456 Q v(m3/h) H/m 0.0 15.00 0.4 14.84 0.8 14.56 1.2 14.33 1.6 13.96 2.0 13.65 η0.00.0850.1560.2240.2770.333

序号789101112 Q v(m3/h) H/m η 2.4 13.28 0.385 2.8 12.81 0.416 3.2 12.45 0.446 3.6 11.98 0.468 4.0 11.30 0.469 4.4 10.53 0.431 3、用分光光度法测定水中染料活性艳红(X-3B)浓度,测得的工作曲线和样品溶液的数据如下表: (1)列出一元线性回归方程,求出相关系数,并绘制出工作曲线图。 (2)求出未知液(样品)的活性艳红(X-3B)浓度。 4、对某矿中的13个相邻矿点的某种伴生金属含量进行测定,得到如下一组数据: 试找出某伴生金属c与含量距离x之间的关系(要求有分析过程、计算表格以及回归图形)。 提示:⑴作实验点的散点图,分析c~x之间可能的函数关系,如对数函数y=a+blgx、双曲函数(1/y)=a+(b/x)或幂函数y=dx b等;⑵对各函数关系分别建立数学模型逐步讨论,即分别将非线性关系转化成线性模型进行回归分析,分析相关系数:如果R≦0.553,则建立的回归方程无意义,否则选取标准差SD最小(或R最大)的一种模型作为某伴生金属c与含量距离x之间经验公式。 5、测定了10个苯甲腈、苯乙腈衍生物对发光细菌的毒性影响,得到如下表所示的结果,试求回归方程。已知试验指标Y与X1、X2、X3间近似满足关系式:Y=a+b1X1+b2X2+b3X3+b12X1X2+b23X2X3,试求待定系数,并将回归结果输出。

数据分析作业

一、第4题方差分析 1.1 建立数据文件 由题意可知,在同一浓度和温度下各做两次实验,将每一次的实验结果看作一个样本量,共342=24 ??个样本量。 (1) 在“变量视图”下,名称分别输入“factor1”、“factor1”、“result”,类型设为“数值”,小数均为“0”,标签分别为“浓度”、“温度”、“收率”,factor1的值“1=A1,2=A2,3=A3”,factor2的值“1=B1,2=B2,3=B3,4=B4”,对齐选择“居中”。 (2) 在“数据视图”下,根据表中数据输入对应的数据。 数据文件如图1所示,其中“factor1”表示浓度,“factor2”表示温度,“result”表示收率。三种不同浓度分别用1、2、3表示,四种不同温度分别用1、2、3、4表示。 图1.1 SPSS数据文件格式 1.2 基本思路 ,利用单因素方差分析,对 (1) 设“浓度对收率的影响不显著”为零假设H 该假设进行判定。 ,则可 (2) 设“它们间的交互作用对收率没有显著影响”分别依次为假设H 是否成立。 以通过多因素方差分析工具,利用得出的结果即能证明假设H 1.3 操作步骤 (1) 单因素的方差分析操作 ①分析—比较均值—单因素;因变量列表:收率;因子:浓度; ②两两比较:选中“LSD”复选框,定义用LSD法进行多重比较检验;显著性水平:0.05,单击“继续”; ③选项:选中“方差齐次性检验”,单击“继续”; ④单击“确定”。 (2) 有交互作用的两因素方差分析操作

①分析—一般线性模型—单变量;因变量:收率;固定因子:温度、浓度; ②绘制。水平轴:factor1,选择浓度作为均值曲线的横坐标,单图:factor2,选择温度作为曲线的分组变量;单击添加—继续。 ③选项。显示均值:factor1,定义估计因素1的均值;显著性水平:0.05;单击“继续”; ④单击“确定”。 1.4 结果分析 (1) “浓度对收率有无显著影响”结果分析 执行上述操作后,生成下表。 表1.1 方差齐性检验 表1中Levene统计量的取值为0.352,Sig.的值为0.708,大于0.05,所以认为各组的方差齐次。 表1.2 单因素方差分析 从表2可以看出,观测变量收率的总离差平方和为119.58;如果仅考虑浓度单因素的影响,则收率总变差中,浓度可解释的变差为39.083,抽样误差引起的变差为80.875,它们的方差分别为19.542、3.851,相除所得的F统计量的观测值为5.074,对应的概率P值为0.016,小于显著性水平0.05,则应拒绝原假设,认为不同浓度对收率产生了显著影响,它对收率的影响效应不全为0。

常用数据分析方法详细讲解

常用数据分析方法详解 目录 1、历史分析法 2、全店框架分析法 3、价格带分析法 4、三维分析法 5、增长率分析法 6、销售预测方法 1、历史分析法的概念及分类 历史分析法指将与分析期间相对应的历史同期或上期数据进行收集并对比,目的是通过数据的共性查找目前问题并确定将来变化的趋势。 *同期比较法:月度比较、季度比较、年度比较 *上期比较法:时段比较、日别对比、周间比较、 月度比较、季度比较、年度比较 历史分析法的指标 *指标名称: 销售数量、销售额、销售毛利、毛利率、贡献度、交叉比率、销售占比、客单价、客流量、经营品数动销率、无销售单品数、库存数量、库存金额、人效、坪效 *指标分类: 时间分类 ——时段、单日、周间、月度、季度、年度、任意 多个时段期间 性质分类 ——大类、中类、小类、单品 图例 2框架分析法 又叫全店诊断分析法 销量排序后,如出现50/50、40/60等情况,就是什么都能卖一点但什么都不 好卖的状况,这个时候就要对品类设置进行增加或删减,因为你的门店缺少 重点,缺少吸引顾客的东西。 如果达到10/90,也是品类出了问题。 如果是20/80或30/70、30/80,则需要改变的是商品的单品。 *单品ABC分析(PSI值的概念) 销售额权重(0.4)×单品销售额占类别比+销售数量权重(0.3) × 单品销售数量占类别比+毛利额权重(0.3)单品毛利额占类别比 *类别占比分析(大类、中类、小类) 类别销售额占比、类别毛利额占比、 类别库存数量占比、类别库存金额占比、

类别来客数占比、类别货架列占比 表格例 3价格带及销售二维分析法 首先对分析的商品按价格由低到高进行排序,然后 *指标类型:单品价格、销售额、销售数量、毛利额 *价格带曲线分布图 *价格带与销售对数图 价格带及销售数据表格 价格带分析法 4商品结构三维分析法 *一种分析商品结构是否健康、平衡的方法叫做三维分析图。在三维空间坐标上以X、Y、Z 三个坐标轴分别表示品类销售占有率、销售成长率及利润率,每个坐标又分为高、低两段,这样就得到了8种可能的位置。 *如果卖场大多数商品处于1、2、3、4的位置上,就可以认为商品结构已经达到最佳状态。以为任何一个商品的品类销售占比率、销售成长率及利润率随着其商品生命周期的变化都会有一个由低到高又转低的过程,不可能要求所有的商品同时达到最好的状态,即使达到也不可能持久。因此卖场要求的商品结构必然包括:目前虽不能获利但具有发展潜力以后将成为销售主力的新商品、目前已经达到高占有率、高成长率及高利润率的商品、目前虽保持较高利润率但成长率、占有率趋于下降的维持性商品,以及已经决定淘汰、逐步收缩的衰退型商品。 *指标值高低的分界可以用平均值或者计划值。 图例 5商品周期增长率分析法 就是将一段时期的销售增长率与时间增长率的比值来判断商品所处生命周期阶段的方法。不同比值下商品所处的生命周期阶段(表示) 如何利用商品生命周期理论指导营运(图示) 6销售预测方法[/hide] 1.jpg (67.5 KB) 1、历史分析法

大数据结构大作业报告材料

数据结构课程设计课题名称 专业名称 学生姓名 学号+电话 指导教师

评分细则

目录 评分细则----------------------------------------------------------------------------------------------------------------- 2 一、课题描述 ---------------------------------------------------------------------------------------------------------- 4 二、需求分析 ---------------------------------------------------------------------------------------------------------- 4 2.1 ------------------------------------------------------------------------------------------------------------------ 4 2.2- ------------------------------------------------------------------------------------------------------------------4 2.3--------------------------------------------------------------------------------------------------------------------4 三、概要设计 ---------------------------------------------------------------------------------------------------------- 4 3.1 结构分析 ----------------------------------------------------------------------------------------------------------- 4 3.2函数------------------------------------------------------------------------------------------------------------ 4 3.2.1 malloc() --------------------------------------------------------------------------------------------- 4 3.2.2getchar() ----------------------------------------------------------------------------------------------------- 5 3.2.3 list_create() ------------------------------------------------------------------------------------------------ 5 3.2.4 list_disp() --------------------------------------------------------------------------------------------------- 5 3.2.5 list_sort() --------------------------------------------------------------------------------------------------- 5 四、详细设计 ---------------------------------------------------------------------------------------------------------- 5 4.1课题分析 ----------------------------------------------------------------------------------------------------- 5 4.1.1选择 ------------------------------------------------------------------------------------------------- 5 4.1.2冒泡 --------------------------------------------------------------------------------------------------------- 5 4.1.3 堆------------------------------------------------------------------------------------------------------------ 6 4.1.4 快速--------------------------------------------------------------------------------------------------------- 6 4.1.5 基数--------------------------------------------------------------------------------------------------6 4.1.6 希尔--------------------------------------------------------------------------------------------------------- 6 4.1.7 归并--------------------------------------------------------------------------------------------------6 4.2课题实现 ----------------------------------------------------------------------------------------------------- 7 五、测试数据及结果------------------------------------------------------------------------------------------------- 9 六、调试分析及总结----------------------------------------------------------------------------------------------- 10

数据分析spss作业

数据分析方法及软件应用 (作业) 题目:4、8、13、16题 指导教师: 学院:交通运输学院 姓名: 学号:

4、在某化工生产中为了提高收率,选了三种不同浓度,四种不同温度做试验。在同一浓度与温度组合下各做两次试验,其收率数据如下面计算表所列。试在α=0.05显著性水平下分析 (1)给出SPSS数据集的格式(列举前3个样本即可); (2)分析浓度对收率有无显著影响; (3)分析浓度、温度以及它们间的交互作用对收率有无显著影响。 解答:(1)分别定义分组变量浓度、温度、收率,在变量视图与数据视图中输入表格数据,具体如下图。 (2)思路:本问是研究一个控制变量即浓度的不同水平是否对观测变量收率产生了显著影响,因而应用单因素方差分析。假设:浓度对收率无显著影响。 步骤:【分析-比较均值-单因素】,将收率选入到因变量列表中,将浓度选入到因子框中,确定。 输出: 變異數分析 收率 平方和df 平均值平方 F 顯著性 群組之間39.083 2 19.542 5.074 .016 在群組內80.875 21 3.851 總計119.958 23 显著性水平α为0.05,由于概率p值小于显著性水平α,则应拒绝原假设,认为浓度对收率有显著影响。

(3)思路:本问首先是研究两个控制变量浓度及温度的不同水平对观测变量收率的独立影响,然后分析两个这控制变量的交互作用能否对收率产生显著影响,因而应该采用多因素方差分析。假设,H01:浓度对收率无显著影响;H02:温度对收率无显著影响;H03:浓度与温度的交互作用对收率无显著影响。 步骤:【分析-一般线性模型-单变量】,把收率制定到因变量中,把浓度与温度制定到固定因子框中,确定。 输出: 主旨間效果檢定 因變數: 收率 來源第 III 類平方 和df 平均值平方 F 顯著性 修正的模型70.458a11 6.405 1.553 .230 截距2667.042 1 2667.042 646.556 .000 浓度39.083 2 19.542 4.737 .030 温度13.792 3 4.597 1.114 .382 浓度 * 温度17.583 6 2.931 .710 .648 錯誤49.500 12 4.125 總計2787.000 24 校正後總數119.958 23 a. R 平方 = .587(調整的 R 平方 = .209) 第一列是对观测变量总变差分解的说明;第二列是观测变量变差分解的结果;第三列是自由度;第四列是均方;第五列是F检验统计量的观测值;第六列是检验统计量的概率p值。可以看到观测变量收率的总变差为119.958,由浓度不同引起的变差是39.083,由温度不同引起的变差为13.792,由浓度和温度的交互作用引起的变差为17.583,由随机因素引起的变差为49.500。浓度,温度和浓度*温度的概率p值分别为0.030,0.382和0.648。 浓度:显著性<0.05说明拒绝原假设(浓度对收率无显著影响),证明浓度对收率有显著影响;温度:显著性>0.05说明不拒绝原假设(温度对收率无显著影响),证明温度对收率无显著影响;浓度与温度: 显著性>0.05说明不拒绝原假设(浓度与温度的交互作用对收率无显著影响),证明温浓度与温度的交互作用对收率无显著影响。 8、以高校科研研究数据为例:以课题总数X5为被解释变量,解释变量为投入人年数X2、投入科研事业费X4、专著数X6、获奖数X8;建立多元线性回归模型,

数据分析经典测试题含解析

数据分析经典测试题含解析 一、选择题 1.某校男子足球队的年龄分布如图所示,则根据图中信息可知这些队员年龄的平均数,中位数分别是( ) A .15.5,15.5 B .15.5,15 C .15,15.5 D .15,15 【答案】D 【解析】 【分析】 【详解】 根据图中信息可知这些队员年龄的平均数为: 132146158163172181 268321 ?+?+?+?+?+?+++++=15岁, 该足球队共有队员2+6+8+3+2+1=22人, 则第11名和第12名的平均年龄即为年龄的中位数,即中位数为15岁, 故选D . 2.某实验学校女子排球队12名队员的年龄分布如图所示,则这12名队员的年龄的众数、平均数分别是( ) A .15岁,14岁 B .15岁,15岁 C .15岁,156 岁 D .14岁,15岁 【答案】A 【解析】 【分析】 根据众数、平均数的定义进行计算即即可. 【详解】

观察图表可知:人数最多的是5人,年龄是15岁,故众数是15. 这12名队员的年龄的平均数是:123131142155161 1412 ?+?+?+?+?= 故选:A 【点睛】 本题主要考查众数、平均数,熟练掌握众数、平均数的定义是解题的关键. 3.某学校组织学生进行社会主义核心价值观的知识竞赛,进入决赛的共有20名学生,他们的决赛成绩如下表所示: 决赛成绩/分 95 90 85 80 人数 4 6 8 2 那么20名学生决赛成绩的众数和中位数分别是( ) A .85,90 B .85,87.5 C .90,85 D .95,90 【答案】B 【解析】 试题解析:85分的有8人,人数最多,故众数为85分; 处于中间位置的数为第10、11两个数, 为85分,90分,中位数为87.5分. 故选B . 考点:1.众数;2.中位数 4.在某次训练中,甲、乙两名射击运动员各射击10发子弹的成绩统计图如图所示,对于 本次训练,有如下结论:①22 s s >甲乙;②22 s s <甲乙;③甲的射击成绩比乙稳定;④乙的射 击成绩比甲稳定.由统计图可知正确的结论是( ) A .①③ B .①④ C .②③ D .②④ 【答案】C 【解析】 【分析】 从折线图中得出甲乙的射击成绩,再利用方差的公式计算,即可得出答案.

最新初中数学数据分析解析

最新初中数学数据分析解析 一、选择题 1.在一次数学答题比赛中,五位同学答对题目的个数分别为7,5,3,5,10,则关于这组数据的说法不正确的是() A.众数是5 B.中位数是5 C.平均数是6 D.方差是3.6 【答案】D 【解析】 【分析】 根据平均数、中位数、众数以及方差的定义判断各选项正误即可. 【详解】 A、数据中5出现2次,所以众数为5,此选项正确; B、数据重新排列为3、5、5、7、10,则中位数为5,此选项正确; C、平均数为(7+5+3+5+10)÷5=6,此选项正确; D、方差为1 5 ×[(7﹣6)2+(5﹣6)2×2+(3﹣6)2+(10﹣6)2]=5.6,此选项错误; 故选:D. 【点睛】 本题主要考查了方差、平均数、中位数以及众数的知识,解答本题的关键是熟练掌握各个知识点的定义以及计算公式,此题难度不大. 2.某校组织“国学经典”诵读比赛,参赛10名选手的得分情况如表所示: 那么,这10名选手得分的中位数和众数分别是() A.85.5和80 B.85.5和85 C.85和82.5 D.85和85 【答案】D 【解析】 【分析】 众数是一组数据中出现次数最多的数据,注意众数可以不只一个; 找中位数要把数据按从小到大的顺序排列,位于最中间的一个数(或两个数的平均数)为中位数. 【详解】 数据85出现了4次,最多,故为众数; 按大小排列第5和第6个数均是85,所以中位数是85. 故选:D. 【点睛】 本题主要考查了确定一组数据的中位数和众数的能力.一些学生往往对这个概念掌握不清

楚,计算方法不明确而误选其它选项.注意找中位数的时候一定要先排好顺序,然后再根据奇数和偶数个来确定中位数,如果数据有奇数个,则正中间的数字即为所求.如果是偶数个则找中间两位数的平均数. 3.在只有15人参加的演讲比赛中,参赛选手的成绩各不相同,若选手要想知道自己是否进入前8名,只需要了解自己的成绩以及全部成绩的( ) A.平均数B.中位数C.众数D.以上都不对 【答案】B 【解析】 【分析】 此题是中位数在生活中的运用,知道自己的成绩以及全部成绩的中位数就可知道自己是否进入前8名. 【详解】 15名参赛选手的成绩各不相同,第8名的成绩就是这组数据的中位数, 所以选手知道自己的成绩和中位数就可知道自己是否进入前8名. 故选B. 【点睛】 理解平均数,中位数,众数的意义. 4.某校四个绿化小组一天植树的棵数如下:10,x,10,8,已知这组数据的众数与平均数相等,则这组数据的中位数是( ) A.8 B.9 C.10 D.12 【答案】C 【解析】 【分析】 根据这组数据的众数与平均数相等,可知这组数据的众数(因10出现了2次)与平均数都是10;再根据平均数是10,可求出这四个数的和是40,进而求出x的数值;然后把这四个数据按照从大到小的顺序排列,由于是偶数个数据,则中间两个数的平均数就是中位数. 【详解】 当x=8时,有两个众数,而平均数只有一个,不合题意舍去. 当众数为10,根据题意得(10+10+x+8)÷4=10,解得x=12, 将这组数据按从小到大的顺序排列为8,10,10,12, 处于中间位置的是10,10, 所以这组数据的中位数是(10+10)÷2=10. 故选C. 【点睛】 本题为统计题,考查平均数、众数与中位数的意义,解题时需要理解题意,分类讨论.

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

数值分析作业思考题汇总

¥ 数值分析思考题1 1、讨论绝对误差(限)、相对误差(限)与有效数字之间的关系。 2、相对误差在什么情况下可以用下式代替 3、查阅何谓问题的“病态性”,并区分与“数值稳定性”的不同点。 4、取 ,计算 ,下列方法中哪种最好为什么(1)(3 3-,(2)(2 7-,(3) ()3 1 3+ ,(4) ()6 1 1 ,(5)99- , 数值实验 数值实验综述:线性代数方程组的解法是一切科学计算的基础与核心问题。求解方法大致可分为直接法和迭代法两大类。直接法——指在没有舍入误差的情况下经过有限次运算可求得方程组的精确解的方法,因此也称为精确法。当系数矩阵是方的、稠密的、无任何特殊结构的中小规模线性方程组时,Gauss消去法是目前最基本和常用的方法。如若系数矩阵具有某种特殊形式,则为了尽可能地减少计算量与存储量,需采用其他专门的方法来求解。 Gauss消去等同于矩阵的三角分解,但它存在潜在的不稳定性,故需要选主元素。对正定对称矩阵,采用平方根方法无需选主元。方程组的性态与方程组的条件数有关,对于病态的方程组必须采用特殊的方法进行求解。 数值计算方法上机题目1 1、实验1. 病态问题 实验目的: 算法有“优”与“劣”之分,问题也有“好”和“坏”之别。所谓坏问题就是问题本身的解对数据变化的比较敏感,反之属于好问题。希望读者通过本实验对此有一个初步的体会。 数值分析的大部分研究课题中,如线性代数方程组、矩阵特征值问题、非线性方程及方程组等都存在病态的问题。病态问题要通过研究和构造特殊的算法来解决,当然一般要付出一些代价(如耗用更多的机器时间、占用更多的存储空间等)。 $ r e x x e x x ** * ** - == 141 . ≈)61

数据分析经典测试题含答案解析

数据分析经典测试题含答案解析 一、选择题 1.某校九年级数学模拟测试中,六名学生的数学成绩如下表所示,下列关于这组数据描述正确的是() A.众数是110 B.方差是16 C.平均数是109.5 D.中位数是109 【答案】A 【解析】 【分析】 根据众数、中位数的概念求出众数和中位数,根据平均数和方差的计算公式求出平均数和方差. 【详解】 解:这组数据的众数是110,A正确; 1 6 x=×(110+106+109+111+108+110)=109,C错误; 21 S 6 = [(110﹣109)2+(106﹣109)2+(109﹣109)2+(111﹣109)2+(108﹣109)2+ (110﹣109)2]=8 3 ,B错误; 中位数是109.5,D错误; 故选A. 【点睛】 本题考查的是众数、平均数、方差、中位数,掌握它们的概念和计算公式是解题的关键. 2.一组数据2,x,6,3,3,5的众数是3和5,则这组数据的中位数是() A.3 B.4 C.5 D.6 【答案】B 【解析】 【分析】 由众数的定义求出x=5,再根据中位数的定义即可解答. 【详解】 解:∵数据2,x,3,3,5的众数是3和5, ∴x=5,

则数据为2、3、3、5、5、6,这组数据为35 2 =4. 故答案为B. 【点睛】 本题主要考查众数和中位数,根据题意确定x的值以及求中位数的方法是解答本题的关键. 3.如图,是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图,下面关于该班50名同学一周锻炼时间的说法错误的是() A.平均数是6 B.中位数是6.5 C.众数是7 D.平均每周锻炼超过6小时的人数占该班人数的一半 【答案】A 【解析】 【分析】 根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数,由图可知锻炼时间超过6小时的有20+5=25人.即可判断四个选项的正确与否. 【详解】 A、平均数为1 50 ×(5×7+18×6+20×7+5×8)=6.46,故本选项错误,符合题意; B、∵一共有50个数据, ∴按从小到大排列,第25,26个数据的平均值是中位数, ∴中位数是6.5,故此选项正确,不合题意; C、因为7出现了20次,出现的次数最多,所以众数为:7,故此选项正确,不合题意; D、由图可知锻炼时间超过6小时的有20+5=25人,故平均每周锻炼超过6小时的人占总数的一半,故此选项正确,不合题意; 故选A. 【点睛】 此题考查了中位数、众数和平均数的概念等知识,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数,如果中位数的概念掌握得不好,不把数据按要求重新排列,就会错误地将这组数据最中间的那个数当作中位数.

统计与数据分析数据分析作业

《统计与数据分析》 数据分析实验作业 数据来源于大肠杆菌Escherichia coli K-12 MG1655注释的4289个编码蛋白基因的长度l(单位:核苷酸,NT)及其GC含量r(%)。其中,第1列为基因序号,第2列为基因的长度l(单位:核苷酸,NT),第3列为基因的GC含量r(%)。试针对这一组数据完成下列数据分析工作: 一. 将全部4289个基因视为总体Y,请完成如下工作: 1. 严格按照要求(注意:软件自动生成的结果视为无效作业),分别画出基因长度l和基因GC含量r的频率直方图和箱线图,并对这两类数据的异常值进行分析; 2. 分别求出基因长度l和基因GC含量r的均值、标准差、极差、中位数、众数、变异系数,并在k≤10范围内依次、完整地检验Chebyshev定理; 3. 基于总体Y,考察l与GC含量r比值l/r,请设计抽样对l/r进行比值估计与单随机变量估计的抽样效率的比较分析,并以合适的图示表示比较结果; 4. 基于总体Y,根据中心极限定理构造一个基于GC含量r值的模拟总体数据X,并以合适的图示表示,要求总体X为经过显著性水平α=0.01下的K-S检验的标准正态分布,且X的个体数目也为4289,取值可表示为R。(提示:简单随机抽样的样本均值R近似服从正态分布,样本容量n自定。) 二. 基于服从标准正态分布的总体X,请完成如下工作: 1. 从中进行1次简单随机抽样(容量n=277),求出样本均值和样本标准差,并画出这一样本的频率直方图和箱线图;由此估计总体X的正态分布参数(方法不限,需写出具体求解过程),并分别采用自举法(Bootstrap)重复抽样1000次,分别确定该样本均值和该样本标准差是否处于90%的置信区间(以上下5%分位数来定义90%的置信区间),并以合适的图示表示自举法重复抽样1000次以及该置信区间的结果; 2. 进一步地,进行100次容量为n=61的简单随机抽样,分别画出样本均值、样本标准差的频率直方图,考察同样参数估计方法所估计参数的90%置信区间的情况,并以合适的图示表示(提示:(1)相关分布的分位数表可参考本课程讲义;(2)请参考本课程讲义的表示方式。)。 三. 对于总体Y,将全部4289个基因视为从某一总体中进行1次简单随机抽样的样本(容量n=4289),给定显著性水平为10%,试考察基因长度l与GC含量r是否相互独立。要求写出具体的分析过程。(提示:相关分布的分位数表可参考本课程讲义。) 要求: (1)本次数据分析以实验报告形式打印、装订提交,请在第一页注明学号、姓名; (2)请保证独立完成本作业,鼓励自行编程完成上述数据分析,也可使用相关软件(不限);(3)本作业占课程总成绩15%。

数据分析练习题

数据分析练习题 第 小组 姓名: 练习一: 1、老师在计算学期总平均分的时候按如下标准:作业占100%、测验占30%、期中占35%、期末考试占35% x 小关 = . x 小兵 = . 2、结果如下表:(单位:小时) 求这些灯泡的平均使用寿命? . x = .小时 3、在一个样本中,2出现了x 1次,3出现了x 2次,4出现了x 3次,5出现了x 4次,则这个样本的平均数为 . 4、某人打靶,有a 次打中x 环,b 次打中y 环,则这个人平均每次中靶 环。 5、某校为了了解学生作课外作业所用时间的情况,对学生作课外作业所用时间进行调查,下表是该校初二某班50名学生某一天做数学课外作业所用时间的情况统计表 (1)、第二组数据的组中值是多少? (2)、求该班学生平均每天做数学作业所用时间 答:(1)组中值为: . (2)解: 6、某公司有15名员工,他们所在的部门及相应每人所创的年利润如下表该公司每人所创年利润的平均数是多少万元?

7、为调查居民生活环境质量,环保局对所辖的50个居民区进行了噪音(单位:分贝)水平的调查,结果如下图,求每个小区噪音的平均分贝数。 8、某公司销售部有营销人员15人,销售部为了制定某种商品的销售金额,统计了这15个人的销售量如下(单位:件) 1800、510、250、250、210、250、210、210、150、210、150、120、120、210、150 求这15个销售员该月销量的中位数和众数。 假设销售部负责人把每位营销员的月销售定额定为320件,你认为合理吗?如果不合理,请你制定一个合理的销售定额并说明理由。 练习二: 1. 数据8、9、9、8、10、8、99、8、10、7、9、9、8的中位数是 ,众数是 2. 一组数据23、27、20、18、X 、12,它的中位数是21,则X 的值是 . 3. 数据92、96、98、100、X 的众数是96,则其中位数和平均数分别是( ) A.97、96 B.96、96.4 C.96、97 D.98、97 4. 如果在一组数据中,23、25、28、22出现的次数依次为2、5、3、4次,并且没有其他的数据, 则这组数据的众数和中位数分别是( ) A.24、25 B.23、24 C.25、25 D.23、25 请你根据上述数据回答问题: (1).该组数据的中位数是什么? (2).若当气温在18℃~25℃为市民“满意温度”,则我市一年中达到市民“满意温度”的大约有多少天? 60 噪音/分贝 80 70 50 40 90

数据分析与挖掘习题

数据分析与挖掘习题 第一章作业 1.1什么是数据挖掘?在你的回答中,强调以下问题: (a) 它是又一个骗局吗? 数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘可以与用户或知识库交互。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。 (b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性: 1.处理大量实际数据更强势,且无须太专业的统计背景去使用Data Mining的工具 2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,Data Mining 的工具更符合企业需求; 3. 纯就理论的基础点来看,Data Mining和统计分析有应用上的差别,毕竟Data Mining 目的是方便企业终端用户使用而非给统计学家检测用的。 (c) 解释数据库技术发展如何导致数据挖掘 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。 (d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。 知识发现过程以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。 1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗? 由于统计学基础的建立在计算机的发明和发展之前,所以常用的统计学工具包含很多可以手工实现的方法。因此,对于很多统计学家来说,1000个数据就已经是很大的了。但这个“大”对于英国大的信用卡公司每年350,000,000笔业务或A T&T每天200,000,000个长

相关文档
最新文档