SPSS数理统计软件与应用作业

《统计软件及应用》课程论文

我国区域农业经济聚类分析

一、提出问题

农业是通过培育动植物生产食品及工业原料的产业，是支撑国民经济建设与发展的基础产品。农业问题的本质及其重大意义。农业是国之根本，它的发展关系到其他两大产业的繁荣与否。与此同时，面对复杂多变的国内国际政治、经济环境，中国在农业方面的基础地位日渐薄弱。然而，在强劲的GDP增速背后，农民的收入水平却提高不够。由于受自然、经济等因素的影响，农业发展具有很强的区域性。不同地区农业发展水平发展方式很是不同。对区域农业进行聚类分析对针对性的制定区域农业发展战略政策有很强的指导性。

二、数据收集

为了对我国区域农业经济进行聚类分析，这里选择与区域农业发展相关的11个评价指标，它们分别代表农业发展的总量方面，水利设施、除涝面积方面，家庭土地经营方面。具体而言，总量方面包括地区生产总值x1（亿元），农业生产总值x2(亿元)；水利设施、除涝面积方面包括水库数x3 座)，水库总容量x4(亿立方米)，除涝面积x5(千公顷)，水土流失治理面积x6(百万元)四项；家庭土地经营方面包括经营耕地面积x7(亩/人)，经营山地面积x8(亩/人)，园地面积x9（亩/人）、牧草地面积x10(亩/人)、养殖水面面积x11(亩/人)五项。

这些指标中国统计年鉴上取得，其原始数据如表1 。

表1 房地产业发展水平的原始数据

地区x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11

北京14113.

58 124.36 82 93.8716 149.77 542.8 0.5335 0.061

0.140

0.053

天津9224.4

6 145.58 28

26.21342

9 377.22 46.43 1.4862

0.006

0.024

8 0.037

河北20394.

2562.8

1 1066

161.3647

1648.6

4 6290.31 1.981

0.118

0.079

山西9200.8

6 554.48 733

57.53152

6 89.13 5352.495 2.4314

0.034

0.200

7 0.0079

内蒙古11672 1095.2

8 497 167.891 277 10897.47 9.6537

0.232

0.021

126.75

辽宁18457.

1631.0

8 951

359.2693

985.25

3 6333.716 3.4984

0.197

0.084

0.039

吉林8667.5

1050.1

5 1643

320.3943

17 1021.4 3586.565 7.7491

0.135

0.020

黑龙江10368.

6 1302.9 913 178.7056 3334.9 4690.5

11.678

0.009

0.005

3 0.0217

上海17165.

98 114.15 55.35 0.2826

0.046

0.052

江苏41425.

48 2540.1 910

189.1796

2802.5

1052.269

1 1.1232

0.008

0.017

0.142

浙江27722.

1360.5

6 4217

398.0666

96 496.71 2431.64 0.6027

0.425

0.152

3 0.059

安徽12359.

1729.0

2 4819

326.5100

2269.0

5 2136.082 1.8662

0.336

0.048

0.107

福建14737.

1363.6

7 3225

185.3876

129.58

1470.802

6 0.8831

1.235

0.290

0.089

江西9451.2

1206.9

8 9809

293.7193

375.71

4514.041

62 1.6078

1.047

0.064

0.049

山东39169.

3588.2

8 6291

227.6167

92 2651.8 4651.521 1.5554

0.042

0.101

0.014

河南23092.

3258.0

9 2352

402.2094

1958.9

7 4428.695 1.68

0.023

8 0.034

0.007

湖北15967.

61 2147 5848 992.1486

1219.1

71 4666.472 1.6932

0.668

0.053

0.127

湖南16037.

96 2325.5

1209

2 402.29

3 486.3

4 2898.99

5 1.2504

0.531

0.074

4 0.0259

0.056

广东46013.

2286.9

8 7437

429.0038

88 514.49 1378.454 0.6475

0.308

0.117

0.069

广西9569.8

1675.0

6 4367

378.4462

209.57

1873.769

3 1.4335

0.641

0.142

9 0.0331

0.022

海南2064.5 539.83 996 100.0175 17.513 32.726 1.2842 0.818

0.577

0.024

重庆7925.5

8 685.38 2840

74.06409

3 2312.33 1.1854

0.343

0.066

1 0.005

0.019

四川17185.

2482.8

9 6759 214.9343 93.98 6329.638 1.0835

0.264

0.048

0.025

贵州4602.1

6 625.03 2073

354.2742

54.001

3109.126

43 1.1029

0.323

0.031

5 0.0205

云南7224.1

1108.3

8 5558

131.6991

64 253.99 5555.644 1.5028

0.843

0.285

2 0.0093

西藏507.46 68.72 75 12.86658

2 22.34 40.40828 2.017 0.003

35.457

陕西10123.

48 988.45 1021 77.05584

130.80

5 9120.677 1.9433

0.305

0.302

6 0.0918

甘肃4120.7

5 599.28 313

103.0722

41 12.48 7944.67 2.6758

0.776

0.117

6 0.1564

青海1350.4

3 134.92 157

341.9392

86 825.49 2.0897

0.236

0.011

6 22.977

宁夏1689.6

5 159.29 226

26.94758

2 10.5 1865.78 4.75

0.140

0.058

6 0.6681

新疆

5437.4

1078.6

3 575

135.7384

7 43.56 420.42 4.7601

0.094

0.272

6 8.1019

数据来源：中国统计年鉴2011

三、数据统计处理

(一)聚类分析

为了对农业区域发展水平进行分析，对31个省份的数据进行聚类。采用欧式距离（Euclidean

Distance）计算法计算定距变量个体间距离。图1给出了我国省际层面31个地区的聚类谱系图。

由图2可以看出，从大的方面来说，我国省际层面第三产业发展程度分4类较为合理。

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

浙江 11 ─┐

福建 13 ─┼─┐

黑龙江 8 ─┘├───┐

江西 14 ───┘│

内蒙古 5 ─┐├─────┐

云南 25 ─┤││

新疆 31 ─┼─┐││

吉林 7 ─┘├───┘├─────────────┐

陕西 27 ───┘││

辽宁 6 ─┬─┐││

广西 20 ─┘├─────────┘│

安徽 12 ───┘│

北京 1 ─┐├─────────────────────┐

上海 9 ─┤││

天津 2 ─┤││

青海 29 ─┼───────────┐││

宁夏 30 ─┤│││

西藏 26 ─┘├─────────────┘│

山西 4 ─┐││

海南 21 ─┼─┐││

贵州 24 ─┤├─────────┘│

甘肃 28 ─┘││

重庆 22 ───┘│

河北 3 ─┐│

江苏 10 ─┼─────┐│

四川 23 ─┘├─────────────────────┐│

湖南 18 ─┬───┐│││

广东 19 ─┘├─┘├───────────────────┘

湖北 17 ─────┘│

山东 15 ─────────┬───────────────────┘

河南 16 ─────────┘

图1. 31个省市区农业发展水平的聚类谱系图

第一类是北京、天津、山西、上海、海南、重庆、贵州、西藏、甘肃、青海、宁夏。农业生产总值最低，可以称为农业极不发达区。

第二类是内蒙古、辽宁、吉林、黑龙江、浙江、安徽、福建、江西、广西、云南、山西、新疆。农业生产总之较低，可称为农业不发达区。

第三类是河北、江苏、湖北、湖南、广东、四川。农业生产总值较高，可称为农业较发达区。

第四类是山东、河南。农业生产总之很高，可称为农业发达区。

（二）对聚类分析结果进行特征描述

聚类分析后，为了更好的了解每个类别的特征，这里对聚类结果进行特征描述。首先要对数据按照类别进行拆分，然后再进行特征描述，描述结果如表2。

表1. 31个省市区农业发展水平的聚类分析结果的特征描述

第一类有11个省市其总地区生产总值、农业生产总值、水库数、水库总容量、除涝面积、水土流失治理面积、经营耕地面积、经营山地面积、园地面积、牧草地面积、养殖水面面积均最低。第二类有12个省市，其总地区生产总值、农业生产总值、水库数、水库总容量、除涝面积、水土流失治理面积、经营耕地面积、经营山地面积、园地面积、牧草地面积、养殖水面面积均均处于下游水平。第三类有6个省市，其总地区生产总值、农业生产总值、水库数、水库总容量、除涝面积、水土流失治理面积、经营耕地面积、经营山地面积、园地面积、牧草地面积、养殖水面面积均位于第二。第四类有2个省市，各项指数均位于四类之首。

（三）K-Means聚类分析

对地区进行K-Means聚类分析，要求分成4类，初始类中心点由SPSS自行确定。得出如下数据。

表6

表2展示了4个类的初始类中心点的情况。4个初始类中心点的数据分别是69，1108，2326，3588。可见，

第4类数据是最优的，第3类次之，第2类紧随其后，第1类最不理想。

表3展示了4个中心点每次迭代时的偏移情况。第一次迭代后，4个类的中心点分别偏移了161.446，18.108，29.171，165.095，第4类中心点偏移最大。第二次迭代后，4个类的中心点分别偏移了76.398，85.722，.000，.000，第2类中心点偏移最大。第三次迭代后，4个类的中心点分别偏移了34.438，86.97，.

94.551，.000，第3类中心点偏移最大。第四次迭代后，4个类的中心点的偏移均小于指定的判定标准（0.02），聚类分析结束。

表4展示了4个类的最终中心点的情况。4个最终类中心点的数据分别是341，1299，2391，3423。仍然可见第4类各项指标是最优的，第3类次之，第2类随后，第1类最不理想。

表6展示了4个类的类成员情况。第一类有11个省市自治区，第2类有12个省市自治区，第3类有6个省市自治区，第4类有2个省市自治区。

四、结果分析及对策建议

(一)结果分析

通过以上聚类分析，我们不难看出，区域间的农业发展水平存在很强的差异性。每个类别中的城市分布不尽相同，农业发展水平较低的类别中不乏经济水平发达的中心城市。这充分说明了，中国农业和工业的发展已经出现了失衡，工业和城市得到迅猛发展，城市居民收入一天天增加，而农业和农村发展却掉队了。

相比较发达国家，我国的农业发展总体水平落后，家庭式的农业生产普遍，农业生产效率低下，投入产出不协调，总而造成了农村大量劳动力的浪费。于是，农业的可持续发展日渐提上日程，被人们所关注。

中国农业的生产结构包括种植业、林业、畜牧业、渔业和副业；但数千年来一直以种植业为主。由于人口多，耕地面积相对较少，粮食生产尤占主要地位。在传统观念中，种植五谷，几乎就是农业生产的同语。

我国农业是社会效益高，自身效益低的产业，农业的发展是全民经济发展的基础，由于国家长期在资源配置上的倾斜政策，农村投资比重小，农业基础设施不健全，造成长期以来我国的农业一直生产率低下，机械化程度不高，农业经济发展缓慢；农民在生产中为降低成本，使用价格低廉、高毒、高残留农药，导致农业污染严重；随着人口的增加和经济的发展，我国耕地被侵占现象日益严重，与此同时，大量土地被粗放利用，甚至浪费。再有水土流失，土地沙漠化，次生盐渍化面积扩大，土地肥力下降，农业水利设施投入不足等严重问题阻碍着农业的发展。

(二)对策建议

.要调整农业内部结构，发展优质高效农业。调整种植业结构，适当减少粮食作物的播种面积，增加饲料用粮、经济作物的种植面积；同时，还要提升农业结构，发展生态农业、都市农业、休闲农业引导富余劳动力向非农产业和城镇转移。

生态农业是农业发展的新型模式，是农业可持续发展的重要途径。生态农业的生产以资源的永续利用和生态环境保护为重要前提，充分发挥资源潜力和物种多样性优势，促进农业持续稳定地发展，实现经济、社会、生态效益的统一。发展生态农业要大力普及农业科技知识。强化基层农业科技指导机构的作用，指导农民进行科学的农业生产，降低农业成本。发展生态农业要把环境建设同经济发展紧密结合起来，在加快城市化的过程中，同时也保证了农业的基础地位。杜绝地区强征耕地，损害农民利益的行为，加强政府廉政建设。发展生态农业需要我们继续关注农业的发展，提高农业生产效率，对农民进行农业生产再教育，同时也应该进行政策引导，鼓励农业院校高材生到基层农业部门就业，指导农业生产。与此同时，大力投入农业建设资金，继续推进农业机械化。

由现代技术代替传统农业技术，是农业现代化最重要的基础。农业生产力现代化的主流是农业机械化，农业机械化是农业生产力的重要标志。

实现农业的可持续发展还需要政府政策的强有力支持与引导。加快“三农”建设、社会主义新农村建设。按照工业反哺农业、城市支持农村和“多予少取放活”的方针，有计划有步骤的推进，确保农民安居乐业，使农民实现现实利益和长期稳定收入，充分提高农民在农业方面的生产积极性。

大力发展农业科学技术的研究和创新.由现代技术代替传统农业技术，是农业现代化最重要的基础。农业生产力现代化的主流是农业机械化，农业机械化是农业生产力的重要标志。

加快政治体制改革和经济体制改革，实现公平的社会分配制度,强化政府部门职能，加强对有关部门的监督，规范政府部门行为，克服官僚主义，建立现代企业制度。

教育统计学与SPSS课后作业答案祥解题目

教育统计学课后作业一、P118 1 题目：10位大一学生平均每周所花的学习时间与他们的期末考试成绩见表6-17.试问：（1）学习时间与考试成绩之间是否相关？（2）比较两组数据谁的差异程度大一些？（3）比较学生2与学生9的期末考试测验成绩。表6-17 学习时间与期末考试成绩 1 2 3 4 5 6 7 8 9 10 学习时间考试成绩40 58 43 73 18 56 10 47 25 58 33 54 27 45 17 32 30 68 47 69 解题步骤：（1）第一步：定义变量：“xuexishijian”、“xuexichengji”后，输入数据.如下图： 1

第二步：单击选择“分析(Analyze)”中的“相关(Correlate)”中的“双变量(Bivariate Correlations)”，将上图中的“xuexishijian”和“xuexichengji”添加到右边变量框中，如下图：第三步：点击“确定“后，输出结果如下图：第四步：分析结果

3 由上图可知：学习时间与学习成绩之间的pearson 相关系数为0.714，p （双侧）为0.20。自由度 df=10-2=8时，查“皮尔逊积差相关系数显著临界值表”知：r 0.05= 0.623 ； r 0.01=0.765。因为0.765 > 0.714 >0.623，所以在0.05水平上学习时间和学习成绩是相关显著的。（2）SPSS 软件分析结果如下图：由上图可知：学习时间标准差和平均值为：S 1=12.037 ?X 1= 29.00 ；学习时间标准差和平均值为：S 2=12.437?X 2=56.00 根据差异系数公式可知：学习时间差异系数为：%100?=X S CV S =12.037/29.00×100%=41.51% 学习成绩差异系数为：%100?= X S CV S =12.437/56.00×100%=22.27% 有上述结果可知学习时间差异程度大于学习成绩差异程度。（4）把学生2和学生9的期末考试成绩转化成标准分数： Z 2=(X -?X) /S= (73—56)/12.437=1.367 Z 9=(X-?X)/S=(68—56)/12.437=0.965 由上计算可知：学生2期末考试测验成绩优于学生9的期末考试测验成绩。二、P119 2 题目：某班数学的平均成绩为90，标准差10；化学的平均分为85，标准差为8；物理的平均分为79，标准差为15.某生这三科成绩分别为95,80,80.试问（1）该生在哪一学科上突出一些？（2）该班三科成绩的差异度如何？有无学习分化现象？（3）该生的学期分数是多少？（4）三科的总平均和总标准差是多少？解题步骤：

SPSS大作业-环境保护

当代大学生对全球气候变化认知程度的研究摘要：随着我国经济建设的飞速发展,人们向大自然排放的有害物质与日俱增,环境问题日益严重。环境污染问题不仅影响我国人民的生存环境和生存质量,也危害人民的身体健康,在环境污染中城市环境污染已经成为制约社会发展的重要问题。本研究采样方式为匿名方式随机投放网络问卷以及纸质问卷，采用SPSS statistics软件分析采样数据，得到频率表以及考虑性别的交叉表。本文考虑性别、城乡等差异，分别从基本的环保知识到主动投身环保事业等各方面加以分析，研究当代大学生对环境污染问题认知程度的差异。关键字：性别；气候变化；差异；SPSS 一、研究背景我国改革开放30多年的经济发展迅速，主要是以粗放式发展为主要模式。由此而带来的就是高增长、高能耗、高排放的三高企业，我国是发展中国家，在经济发展的过程中，政府对环境破坏的监管不力，睁一眼闭一眼，所以我国改革开放30年快速发展以牺牲能源、破坏环境为代价的，尤其我国的经济发展又极不平衡，主要是以城市主力军，这样城市的环境恶化就很严重。同样，农村人口环境保护意识淡薄，农村环境恶化也不可小觑，我国高速发展的近几十年来，环境的恶化程度逐年增加，应该引起政府环保部门的重视。环境污染对人们的生活影响越来越严重，我们现在出门看到的最打眼的一景就是戴口罩的人越来越多，人们越来越感受到空气污染对

自己身心健康的威胁，据统计，世界儿童死亡80%是由于空气污染导致的，这个数字让人触目惊心。环境污染很大因素是由于企业恣意排放污染物，但在日常生活中，民众的环保意识与环保行为对生活污染——尤其是随处可见的污染——有较大的影响。性别、年龄等不同，对气候变化认知程度也会存在差异。本文考虑到男女性别的差异、城乡区别，分别从基本的环保知识到主动投身环保事业等各方面加以分析，研究不同性别对环境污染问题认知程度的差异。二、研究方法及样本描述（一）研究方法本研究采样方式为匿名方式随机投放网络问卷以及纸质问卷调查的方法，与2014年5月在西安交通大学进行问卷调查。调查面向西安交大本科生以及研究生，最终获得有效问卷431份。（二）样本特征描述 431位被访者中，女性209位，占48.5%；男性222位，占51.5%。如图1所示，样本主要来自大一、大二以及大三群体，总共381位，占88.4%；大四毕业生以及研究生占11.6%。被访者所读专业性质也有较大差别，文科生178位，占41.3%；工科生人数122位，占28.3%；理科生108位，占比25.1%，如表1所示。

spss软件操作步骤

1、在spss中打开你要处理的数据，在菜单栏上执行：analyse-compare means--one-way anova，打开单因素方差分析对话框。 2、在这个对话框中，将因变量放到dependent list中，将自变量放到factor中，这个研究中有两个因变量，所以把两个因变量都放到上面的列表里。 3、点击post hoc，打开一个对话框，设置事后检验的方法。 4、在这个对话框中，我们在上面的方差齐性的方法中选择tukey和REGWQ，在方差

不齐性的方法中选择dunnetts，点击continue继续。 5、回到了anova的对话框，点击options按钮，设置要输出的基本结果。 6、这里选择描述统计结果和方差齐性检验，点击continue按钮。

7、点击ok按钮，开始处理数据。 8、我们看到的结果中，第一个输出的表格就是描述统计，从这个表格里我们可以看到均值和标准差，在研究报告中，通常要报告这两个参数。

9、接着看方差齐性检验，方差不齐性的话是不能够用方差齐性的方法来检验的，还好，这里显示，显著性都没有达到最小值0.05，所以是不显著的，这证明方差是齐性的。 10、接着看单因素方差分析表，反应时sig值不显著，而错误率达到了显著的水平，这说明实验处理对错误率产生了影响，但是对反应时没有影响。 11、接着看事后检验，因为反应时是没有显著差异的，所以就不必再看反应时的事后检验，直接看错误率的事后检验，从图中标注的红色方框可以看到，第一组和二三组都有显著的差异，而第二组和第三组没有显著差异。关于dunnet方法，它适合在方差不齐性的时候使用，因为方差齐性，不必去看这个方法的检验结果了。

spss作业15-17

CHAPTER 15 西北研究院蔡嘉驰131246 15.4 (i) What we choose is part of u t. Then gMIN t and u t are correlated, which causes OLS to be biased and inconsistent. (ii) I think it is uncorrelate because gGDP t controls for the overall performance of the U.S. economy. (iii) The change of U.S. minimum may someway change the state minimum and vice versa. If the state minimum is always the U.S. minimum, then gMIN t is exogenous in this equation and we would just use OLS. 15.7 (i) Because students that would do better anyway are also more likely to attend a choice school. (ii) Since u1 does not contain income, random assignment of grants within income class means that grant designation is not correlated with unobservables such as student ability, motivation, and family support. (iii) The reduced form is choice= π0 + π1faminc + π2grant + v2, and we need π2≠ 0. (iv) The reduced form for score is just a linear function of the exogenous variables: score= α0 + α1faminc + α2grant + v1. This equation allows us to directly estimate the effect of increasing the grant amount on the test score, holding family income fixed.So it is useful. C15.1 (i) The regression of log(wage) on sibs gives

spss期末作业

吉林财经大学《SPSS统计软件分析》作业（2010——2011学年第一学期）学院信息学院专业班级电子商务0806班学生姓名王瑞霞学号1403080616

1、对未分组资料频数分析从中国统计局中获得从11月21日至30日国内50个城市主要食品平均价格变动情况，以该数据为例为例，进行频数分析。首先输入数据：选择Analyze中Descriptive Statistics——Frequencies，打开Frequencies对话框；将需处理的变量键入变量框中

单击Statistics…按钮统计量子对话框12指标，选中所需要计算的指标：单击Charts …按钮,选择需绘制的统计图：单击OK按钮开始运行，运行结果为：

从上图中可以看出数据中缺失值为0，花生油的平均价格104.84是最高的，而巴氏牛奶的平均价格1.81最低，全部食品平均价格的平均数为16.5327，标准差为22.4668，各种食品的平均价格差距较大。

条形图、饼形图以及直方图是用不同的图形表示方法来说明数据的指标，其实质是一样的，从图中可以看出平均价格在0—22元之间的食品是最多的，20—40元之间的食品数次之，接下来是40—60元之间的食品，不存在平均价格在60—100之间的食品。 2、以食品平均价格为依据对数据进行分组并对分组后的数据进行频数分析： Transform —Recode—Into same V ariables ，将要分组的变量放入Numeric 栏中，单击Old and new V alues分组：

分组结果如下图所示：回到数据编辑窗，定义变量的V alue labels ：再对食品平均价格进行频数分析，分析结果如下截图所示

SPSS基本操作傻瓜教程

目录一、SPSS界面介绍 (2) 1、如何打开文件 (2) 2、如何在SPSS中打开excel表 (3) 3、数据视图界面 (3) 4、变量视图界面 (4) 二、如何用SPSS进行频数分析 (11) 三、如何用SPSS进行多变量分析 (15) 四、如何对多选题进行数据分析 (18) 1、对多选题进行变量集定义 (18) 2、对多选题进行频数分析 (21) 3、对多选题进行多变量交互分析 (24) 五、如何就SPSS得出的表在excel中作图 (27)

一、SPSS界面介绍提前说明：第一，我这里用的是SPSS 20.0 中文汉化版。第二，我教的是傻瓜操作，并不涉及理论讲解，具体的为什么和用什么理论公式来解释请认真去听《社会统计学》的课程。第三，因为是根据我自己的操作和理解来写的，所以可能有些地方显的不那么科学，仍然要说请大家认真去听《社会统计学》的课程，那个才是权威的。 1、如何打开文件这个东西打开之后界面是这样的：我们打开一个文件：

要提的一点就是，SPSS保存的数据拓展名是.sav： 2、如何在SPSS中打开excel表在上图的下拉箭头里找到excel这个选项：然后你就能找到你要打开的excel表了。 3、数据视图界面我现在打开了一个数据库。可以看到左下角这个地方有两个框，两个是可以互相切换的，跟excel切换表一样，跟excel切换表一样：现在的页面是数据视图，也就是说这一页都是原始数据，这里的一行就是一张问卷，一列就是一个问题，白框里的1234代表的是选项。这个表当时录数据的时候为了方便看，是把ABCD都转换成了1234，所以显示的是1234，当然直接录ABCD也可以，根据具体情况看怎么录，只要能看懂。多选题的录入全部都是细化到每个选项，比如第四题，选项A选了就是“是”，没选就是

《spss统计软件》练习题库及答案

华中师范大学网络教育学院《SPSS统计软件》练习题库及答案(本科) 一、选择题（选择类） (A)1、在数据中插入变量的操作要用到的菜单是： A Insert Variable; B Insert Case; C Go to Case; D Weight Cases (C)2、在原有变量上通过一定的计算产生新变量的操作所用到的菜单是： A Sort Cases； B Select Cases； C Compute； D Categorize Variables — (C)3、Transpose菜单的功能是： A 对数据进行分类汇总； B 对数据进行加权处理； C 对数据进行行列转置； D 按某变量分割数据 (A)4、用One-Way ANOVA进行大、中、小城市16岁男性青年平均身高的比较，结果给出sig.=，说明： A. 按照显著性水平，拒绝H0，说明三种城市的平均身高有差别； B. 三种城市身高没有差别的可能性是； C. 三种城市身高有差别的可能性是；、 D. 说明城市不是身高的一个影响因素 (B)5、下面的例子可以用Paired-Samples T Test过程进行分析的是：A 家庭主妇和女大学生对同种商品喜好的差异； B 服用某种药物前后病情的改变情况； C 服用药物和没有服用药物的病人身体状况的差异； D性别和年龄对雇员薪水的影响二、填空题（填空类） 6、Merge Files菜单用于合并数据库有两种情况：如果两数据库变量相同，是_观测对象__的合并；如果不同，则是_变量__的合并。 7、用于对计数资料和有序分类资料进行统计描述和简单的统计推断，在分析时可以产生二维或多维列联表，在统计推断时能进行卡方检验的菜单是_ Crosstabs __。 % 8、One-Samples T Test过程用于进行样本所在总体均数___与__已知总体均数_的比较。三、名词解释（问答类） 9、Repeated Measures：重复测量的方差分析，指的是一个因变量被重复测量好几次，从而同一个个体的几次观察结果间存在相关，这样就不满足普通分析的要求，需要用重复测量的方差分析模型来解决。 10、Chi-Square test：卡方检验，它是非参数检验的一种方法，来检验变量的几个取值所占百分比是否和我们期望的比例没有统计学差异。比如我们在人群中抽取了一个样本，可以用该方法来分析四种血型所占的比例是否相同（都是25%），或者是否符合我们所给出的一个比例（如分别为10%、30%、40%和20%）。四、简答题（问答类） 11、用SPSS对数据进行分析的基本流程是什么答：（1）、将数据输入SPSS，并保存； { （2）、进行必要的预分析（分布图、均数标准差等的描述等），以确定应采用的检验方法；（3）、按题目要求进行统计分析； (4)、保存和导出分析结果。 12、对数据进行方差分析时，Univariate菜单和Multivariate菜单最大的区别是什么答：当因变量只有一个时，使用Univariate菜单，当因变量不止一个时，使用Multivariate菜单。 13、简述SPSS打开其它格式数据的几种方法答：(1)、直接打开：选择菜单File==>Open==>Data或直接单击快捷工具栏上的打开按钮； (2)、使用数据库查询打开：选择菜单File==>Open Database==>New Query，根据向导打开数据； (3)、使用文本向导读入文本文件：选择菜单File==>Read Text Data ） 14、指定数据按某个变量进行排序需要用到哪个菜单

spss课后作业答案

SPSS课后作业第一章 1-1、spss的运行方式有几种？分别是什么？答：SPSS的运行方式有三种，分别是批处理方式、完全窗口菜单运行方式、程序运行方式。1-2、SPSS中“DataView”所对应的表格与一般的电子处理软件有什么区别？答：与一般电子表格处理软件相比，SPSS的“Data View”窗口还有以下一些特性：（1）一个列对应一个变量，即每一列代表一个变量（Variable）或一个被观测量的特征；（2）行是观测，即每一行代表一个个体、一个观测、一个样品，在SPSS中称为事件（Case）；（3）单元包含值，即每个单元包括一个观测中的单个变量值；（4）数据文件是一张长方形的二维表。第二章 2-1、在SPSS中可以使用那些方法输入数据？答：SPSS中输入数据一般有以下三种方式：（1）通过手工录入数据；（2）可以将其他电子表格软件中的数据整列（行）的复制，然后粘贴到SPSS中；（3）通过读入其他格式文件数据的方式输入数据。 2-2、对于缺失值，如何利用SPSS进行科学替代？答：选择“Transform”菜单的Replace Missing Values命令，弹出Replace Missing Values 对话框。先在变量名列中选择1个或多个存在缺失值的变量，使之添加到“New Variable(s)”框中，这时系统自动产生用于替代缺失值的新变量。最后选择合适的替代方式即可。 2-3、在计算数据的加权平均数时，如何对变量进行加权？答：选择“Data”菜单中的Weight Cases命令，出现如图2-22所示的Weight Cases对话框。其中， Do not weight cases项表示不做加权，这可用于取消加权；Weight cases by 项表示选择1个变量做加权。 2-4、如何对变量进行自动赋值？答：变量的自动赋值可以将字符型、数字型数值转变成连续的整数，并将结果保存在一个新的变量中。具体操作的过程如下：选择“Transform”菜单中的Automatic Recode命令，在出现的对话框中，从左边的变量列表中选择需要自动赋值的变量，将它添加到Variable -> New Name框中，然后在下面New Name右边的文本框中输入新的变量名称，单击New Name 按钮，将新的变量名添加到上面的框中。从Recode Starting from框中有两个选项中选择一个，然后单击OK按钮，即可完成自动赋值运算。 3-1、一组数据的分布特征可以从哪几个方面进行测度？答：一组数据的分布特征可以从平均数、中位数、众数、方差、百分位、频数、峰度、偏度等方面描述。 3-2、简述众数、中位数和均值的特点及应用场合。答：均值是总体各单位某一数量标志的平均数。平均数可应用于任何场合，比如在简单时序预测中可用一定观察期内预测目标的时间序列的均值作为下一期的预测值。中位数是指将数据按大小顺序排列起来，形成一个数列，居于数列中间位置的那个数据。中位数的作用与算术平均数相近，也是作为所研究数据的代表值。在一个等差数列或一个正态分布数列中，中位数就等于算术平均数。在数列中出现了极端变量值的情况下，用中位数作为代表值要比用算术平均数更好，因为中位数不受极端变量值的影响。众数是指一组数据中出现次数最多的那个数据。它主要用于定类（品质标志）数据的集中趋势，当然也适用于作为定序（品质标志）数据以及定距和定比（数量标志）数据集中趋势的测度值。 3-3、

SPSS操作实验作业1(附答案)

SPSS操作实验 (作业1) 作为华夏儿女都曾为有着五千年的文化历史而骄傲过，作为时代青年都曾为中国所饱受的欺压而愤慨过，因为我们多是炎黄子孙。然而，当代大学生对华夏文明究竟知道多少呢某研究机构对大学电气、管理、电信、外语、人文几个学院的同学进行了调查，各个学院发放问卷数参照各个学院的人数比例，总共发放问卷250余份，回收有效问卷228份。调查问卷设置了调查大学生对传统文化了解程度的题目，如“佛教的来源是什么”、“儒家的思想核心是什么”、“《清明上河图》的作者是谁”等。调查问卷给出了每位调查者对传统文化了解程度的总得分，同时也列出了被调查者的性别、专业、年级等数据信息。请利用这些资料，分析以下问题。问题一：分析大学生对中国传统文化的了解程度得分，并按了解程度对得分进行合理的分类。问题二：研究获得文化来源对大学生了解传统文化的程度是否存在影响。要求：直接导出查看器文件为.doc后打印（导出后不得修改）对分析结果进行说明，另附(手写、打印均可)。于作业布置后，1周内上交本次作业计入期末成绩

答案问题一操作过程 1.打开数据文件作业。同时单击数据浏览窗口的【变量视图】按钮，检查各个变量的数据结构定义是否合理，是否需要修改调整。 2.选择菜单栏中的【分析】→【描述统计】→【频率】命令，弹出【频率】对话框。在此对话框左侧的候选变量列表框中选择“X9”变量，将其添加至【变量】列表框中，表示它是进行频数分析的变量。 3.单击【统计量】按钮，在弹出的对话框的【割点相等组】文本框中键入数字 “5”，输出第20％、40％、60％和80％百分位数，即将数据按照题目要求分为等间隔的五类。接着，勾选【标准差】、【均值】等选项，表示输出了解程度得分的描述性统计量。再单击【继续】按钮，返回【频率】对话框。

SPSS调查报告期末作业

S P S S调查报告期末作业 Document serial number【LGGKGB-LGG98YT-LGGT8CB-LGUT-

---------------------------------------------装--------------------------------- --------- 订 ---------------------------------------- -线----------------------------------- -- - --

上表表明，5中不同年级形式下共有80个样本，大一的均值最高，大二的均值次之，接着，大四的均值排第三，而大三的均值是最低的。由于在录入数据当中，选择调查问卷中选项A“是”，身边有请人带过课的同学，则录为1:；选择调查问卷中选项B“否”，身边没有请人带过课的同学，则录为2。所以，均值的结果表明，数值越大，则身边出现代课同学越少，数值越小，则表明身边出现的代课同学越多。因此，大三中的代课同学是最多的，大四次之，大二次之，大一最少。上表表明，不同年级下代课情况的方差齐性检验值为，概率为,。如果显着性水平为，由于概率值大于显着性水平，不应拒绝零假设，认为不同年级下代课情况的总体方差无显着差异，满足方差分析的前提要求。上表分别显示了两两不同年级下代课情况均值检验的结果。通过两两比较，最终可以得出，大一的均值>大二的均值>大三的均值，大四的均值大小情况不能确定，基本上得出的结论与实际情况相符。五、建议在以上对数据的分析过程当中，我们提到了逃课现象严重，收费代课行为愈发普遍的原因，这里稍微再做一下总结。原因如下： a.一些专业课程，教学内容循规蹈矩，考试题目照本宣科，无法引起学生兴趣； b.学校管理有较大漏洞，上课学生中“替身”大量潜伏而不知； c.学生自身自制力不够，容易受到外界的影响，不能静心学习； d.社会就业压力大，导致学生青睐于早点实习；针对以上这些导致收费代课产生的原因，我想提出几点建议：（一）学校在专业设置、教师的互动性教学、知识的创新性和灵活体现、教学管理体系建设等诸多方面，都应反思，并采取一定的措施。高校则应该实行自主办学措施，在课程设置、专业方向设置上应当有自我特色。与其大张旗鼓地对“收费代课”现象进行大力批判，还不如放开手来，从根本上指导学生如何学会自主学习，如何利用有限的学习时间。倘若不加以反思，做出课程设置、教师互动性教学的改进，而是纯粹地一味加强考勤管理，必然会扼杀一部分学生的学习积极性，“人在心不在”的上课状态恐怕也难以培养出符合时代需求的大学生。 (二)学生应该分清楚学习和工作的不同意义，学习是一种能力的提高过程。大学生应当学会对自己的现在以及未来负责。大学四年，是相当宝贵的青春年华。我们年轻，我们活动，但是这些都不应该成为我们虚度时间，不学习的理由。调查结果中显示，大三的收费代课现象是最为严重的，这样的结果确实应该引起学生的重视了。我们都知道，大三是专业学习的主要一年，很多的专业课都在大三进行安排。可是大三的同学的不认真学习专业课，选择请人代课，这不是明显浪费了学习专业课的机会吗所以，这里，我想提醒本部的同学们，要合理地定位自己的身份与任务，不要在该学习的阶段去实习或娱乐。另外，也要明确自己上大学的初衷，不要因为大学生活的闲适，而慢慢丢失了自己的理想。（三）政府要给大学生提供公平的就业环境，打击不规范的就业行为，消除掉大学生的就业焦虑。为大学生就业，提供更加全面完整的服务系统，让大学生在大学期间安心学

SPSS使用说明

SPSS25.0新功能介绍： 1、高级统计模块中贝叶斯统计执行新的贝叶斯统计函数，包括回归、方差分析和t检验。贝叶斯统计数据正变得非常流行，因为它绕过了标准统计数据带来的许多误解。贝叶斯没有使用p值拒绝或不拒绝零假设，而是对参数设置了不确定性，并从所观察到的数据中获取所有相关信息。我们对贝叶斯统计数据的方法是独一无二的，因为我们的贝叶斯程序和我们的标准统计测试一样容易运行。只需几次点击，你就可以运行线性回归，ANOVA，一个样本，pair - sample，独立样本t检验，二项比例推理，泊松分布分析，Pairwise Pearson相关，和log线性模型来测试两个分类变量的独立性。新图表模板，可实现word等微软家族中编辑这个新功能，通俗的说，就是SPSS输出的图表，你可以不用在原始的输出界面进行编辑修改，可以直接保存到word等里面，在进行修改。想想都比较高大上！建造现代化、吸引人的、详细的图表从来都不容易。你可以把大多数图表复制成微软的图形对象，这样你就可以在Microsoft Word、PowerPoint 或Excel中编辑标题、颜色、样式，甚至图表类型。另外，SPSS还提供了图表构建器，也就是图表的模板，可以选择模板点击创建发布质量图表。还可以在构建图表时指定图表颜色、标题和模板。而且，默认的模板即使没有修改，也确保了一个漂亮的图表。在SPSS的图表从来都不是这么容易的。所有这些图表功能都在基本版本中找到。将高级统计分析扩展到混合、genlin混合、GLM和UNIANOVA。新版软件增加了最受欢迎的高级统计功能的大部分增强功能。在混合线性模型(混合)和广义

SPSS调查报告 - 期末作业

---------------------------------------------装--------------------------------- --------- 订 -----------------------------------------线---------------------------------------- 班级姓名学号 - 广东财经大学答题纸（格式二）课程数据处理技术与SPSS 20 15 －20 16 学年第 1 学期成绩评阅人评语：＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝（题目）关于本部学生对收费代课现象支持度的调查报告（正文）一、调查背景如今，大学生逃课现象屡见不鲜，随之衍生了“收费代课”的现象。据了解，在全国近百所高校中，存在“收费代课”现象的高校居然有一半之多。当“收费代课”现象衍变成了一种行业，成为有领导、有组织、有规模、有纪律的机构，不仅仅应当引起社会的关注，更应引起校方对教育方式的深刻反思。“有偿代课”作为一种不正常的校园现象，有其存在的社会土壤，其原因有多方面，值得让人对当前大学教育深思。在“收费代课”现象蔚然成风之时，我们学校的学生们也加入了这支大队伍。对于这样的一种收费代课的行为，同学们褒贬不一，每个人都有自己的看法。然而，这种行为经常在我们的身边发生着，无疑应该引起我们的关注，并引发我们的深思，形成一定的判别能力与认知能力。

二、调查目的我们希望通过本次调查了解广东财经大学本部学生选择收费代课的原因，以及对本专业学习、实习实践的认知程度，是否支持放弃学习去实习或者做自己的事情，是否支持收费代课。同时，我们也希望通过这份调查报告揭露出的一些情况，一方面，帮助学生更好地权衡学习与实习的利弊，更加理性地对待收费代课的行为，做出对自己正确合适的选择；另一方面，引起学校对这种收费代课现象的重视，给学校提一些建议，希望学校采取一些措施改善这种不良校风。三、调查方法从可行性角度出发，本次调查采用非概率随机抽样的街头拦截法，集中对象为本部大三大四的同学，以自愿形式对本部同学分发调查问卷，总共发出80份问卷，回收80份，有效问卷80份。收集问卷之后，利用spss软件进行数据整理与分析，最后把结论整理成调查报告。调查报告中采用的数据分析方法主要有：频数分析、多选项分析、交叉列联表行列变量间关系的分析、单因素方差分析等。四、描述统计 1、对样本性别作频数分析从上表可以看出，这次填写问卷的女生较多，占了样本的66.3%，这与我们学校男女比例不均衡有很大的关系，样本的男女比例不相等，也可以较好地接近学校的实际情况，有利于我们得到更为准确的结论。 2、对样本年级作频数分析从上表可知，参加问卷调查的大三大四学生比例明显比较高，这与一开始我们预期相符，样本中大三大四学生所占比例较多，有利于我们得到更为有针对性的结论。

SPSS调查报告期末作业

广东财经大学答题纸（格式二）课程数据处理技术与SPSS 20 15 —20 16学年第1学期成绩评阅人评语: （题目）关于本部学生对收费代课现象支持度的调查报告（正文）一、调查背景如今，大学生逃课现象屡见不鲜，随之衍生了“收费代课”的现象。据了解，在全国近百所高校中，存在“收费代课”现象的高校居然有一半之多。当“收费代课” 现象衍变成了一种行业，成为有领导、有组织、有规模、有纪律的机构，不仅仅应当引起社会的关注，更应引起校方对教育方式的深刻反思。“有偿代课”作为一种不正常的校园现象，有其存在的社会土壤，其原因有多方面，值得让人对当前大学教育深思。在“收费代课”现象蔚然成风之时，我们学校的学生们也加入了这支大队伍。对于这样的一种收费代课的行为，同学们褒贬不一，每个人都有自己的看法。然而，这种行为经常在我们的身边发生着，无疑应该引起我们的关注，并引发我们的深思，形成一定的判别能力与认知能力。

二、调查目的我们希望通过本次调查了解广东财经大学本部学生选择收费代课的原因，以及对本专业学习、实习实践的认知程度，是否支持放弃学习去实习或者做自己的事情，是否支持收费代课。同时，我们也希望通过这份调查报告揭露出的一些情况，一方面, 帮助学生更好地权衡学习与实习的利弊，更加理性地对待收费代课的行为，做出对自己正确合适的选择；另一方面，引起学校对这种收费代课现象的重视，给学校提一些建议，希望学校采取一些措施改善这种不良校风。三、调查方法从可行性角度出发，本次调查采用非概率随机抽样的街头拦截法，集中对象为本部大三大四的同学，以自愿形式对本部同学分发调查问卷，总共发出80份问卷，回收80份，有效问卷80份。收集问卷之后，利用spss软件进行数据整理与分析，最后把结论整理成调查报告。调查报告中采用的数据分析方法主要有：频数分析、多选项分析、交叉列联表行列变量间关系的分析、单因素方差分析等。四、描述统计 1、对样本性别作频数分析从上表可以看出，这次填写问卷的女生较多，占了样本的66.3%，这与我们学校男女比例不均衡有很大的关系，样本的男女比例不相等，也可以较好地接近学校的实际情况，有利于我们得到更为准确的结论。 2、对样本年级作频数分析从上表可知，参加问卷调查的大三大四学生比例明显比较高，这与一开始我们预期相符，样本中大三大四学生所占比例较多，有利于我们得到更为有针对性的结论。

SPSS期末大作业-完整版

第1题：基本统计分析1 分析：本题要求随机选取80%的样本，因而需要选用随机抽样的方法，在此选择随机抽样中的近似抽样方法进行抽样。其基本操作步骤如下：数据→选择个案→随机个案样本→大约（A）80 所有个案的%。 1、基本思路：（1）由于存款金额为定距型变量，直接采用频数分析不利于对其分布形态的把握，因而采用数据分组，先对数据进行分组再编制频数分布表。此处分为少于500元，500~2000元，2000~3500元，3500~5000元，5000元以上五组。分组后进行频数分析并绘制带正态曲线的直方图。（2）进行数据拆分，并分别计算不同年龄段储户的一次存取款金额的四分位数，并通过四分位数比较其分布上的差异。操作步骤：（1）数据分组：【转换→重新编码为不同变量】，然后选择存取款金额到【数字变量→输出变量（V）】框中。在【名称（N）】中输入“存取款金额1”，单击【更改（H）】按钮；单击【旧值和新值】按钮进行分组区间定义。存取款金额1 频率百分比有效百分比累积百分比有效1.00 82 34.6 34.6 34.6 2.00 76 32.1 32.1 66.7 3.00 10 4.2 4.2 70.9 4.00 22 9.3 9.3 80.2 5.00 47 19.8 19.8 100.0 合计237 100.0 100.0 （2）【分析→描述统计→频率】；选择“存款金额分组”变量到【变量（V）】框中；单击【图标（C）】按钮，选择【直方图】和【在直方图上显示正态曲线】；选中【显示频率表格】，确定。

（3）【数据→拆分文件】，选择“年龄”变量到【分组方式】框中，选中【比较组】和【按分组变量排序文件】，确定；【分析→描述统计→频率】，选择“存款金额”到【变量】框中，单击【统计量】按钮，选择【四分位数】→继续→确定。统计量存(取)款金额 20岁以下 N 有效 1 缺失 0 百分位数 25 50.00 50 50.00 75 50.00 20~35岁 N 有效 131 缺失 0 百分位数 25 500.00 50 1000.00 75 5000.00 35~50岁 N 有效 73 缺失 0 百分位数 25 500.00 50 1000.00 75 4500.00 50岁以上 N 有效 32 缺失 0 百分位数 25 525.00 50 1000.00 75 2000.00 结果及结果描述：频数分布表表明，有一半以上的人的一次存取款金额少于2000元，且有34.6%的人的存取款金额少于500元，19.8%的人的存取款金额多于5000元，下图为相应的带正态曲线的直方图。

spss统计软件期末课程考试题

《SPSS统计软件》课程作业要求：数据计算题要求注明选用的统计分析模块和输出结果；并解释结果的意义。完成后将作业电子稿发送至 1. 某单位对100名女生测定血清总蛋白含量，数据如下：计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度，并给出均值的置信水平为95%的置信区间。解：描述统计量标准误血清总蛋白含量均值.39389 均值的95% 置信区间下限上限 5% 修整均值中值方差

标准差极小值极大值范围四分位距偏度.054.241 峰度.037.478 样本均值为：；中位数为：；方差为：；标准差为：；最大值为：；最小值为：；极差为：；偏度为：；峰度为：；均值的置信水平为95%的置信区间为：【，】。 2. 绘出习题1所给数据的直方图、盒形图和QQ图，并判断该数据是否服从正态分布。解：

正态性检验 Kolmogorov-Smirnov a Shapiro-Wilk 统计量 df Sig. 统计量 df Sig. 血清总蛋白含量 .073 100 .200* .990 100 .671 a. Lilliefors 显着水平修正 *. 这是真实显着水平的下限。表中显示了正态性检验结果，包括统计量、自由度及显着性水平，以K-S 方法的自由度sig.=,明显大于，故应接受原假设，认为数据服从正态分布。 3. 正常男子血小板计数均值为9 22510/L , 今测得20名男性油漆工作者的血小板计数值（单位：9 10/L ）如下： 220 188 162 230 145 160 238 188 247 113 126 245 164 231 256 183 190 158 224 175 问油漆工人的血小板计数与正常成年男子有无异常

SPSS操作步骤汇总

S P S S操作步骤汇总 Company Document number：WUUT-WUUY-WBBGB-BWYTT-1982GT

SPSS学习第一章数据文件的建立数据编码 Type：Numeric：数值型 string：字符串型 Missing： Measure：scale定量变量 nominal定性变量根据已有的变量建立新变量 1、对于数据进行重新编码 Transform—recode into different variables—选择input variable output variable –定义新变量的名称—change—开始定义新旧变量—continue 2、通过SPSS函数建立新变量 Transform—compute variable –从function group中选择公式范围下面选择具体的公式—if 中设置要改变—continue—OK(可以对变量进行各种计算) 第二章清除数据与基本统计分析 1、对不合理的数据检查并清理检查：analysis-description statistic-frequencies—选入要检查的数据—OK 结果：频数统计表—看是否有错误—missing system 清理： 1.对系统缺失值的清理

Data—select case—if condition is satisfied—if—function group（missing）--下面选（missing）--continue—output（delete unselected cases）--OK—对num为哪一位的进行修改 2.对sex=3的清理（直接就清除了） Data—select case—if condition is satisfied—if—sex调入再输入=3—continue-- output（delete unselected cases）--OK—对num为哪一位的进行修改 2. 对相关变量间逻辑性检查和清理 Data—select case—if condition is satisfied—if—输入表达式（前后逻辑不相符合的表达式）-- continue-- output（delete unselected cases）--OK—对num为哪一位的进行修改 3.统计描述正态分布统计描述 1、正态性检验：Analysis—nonparametric tests—legacy dialogs—1-sample K-S—one-sample Kolomogorov Smirnov test –normal—ok/ 2、统计描述：Analysis—descriptives--time选入—options—ok 3、按照男女统计描述：data—split file –compare group –sex调入—ok Analysis-descriptive statistic – descriptive—time 调入—options选择—OK非正态分布资料统计描述 1、正态性检验nonparametric 2、Analysis—descriptive statistics—frequencies 选入-- statistics选择—OK 第三章T检验

SPSS数理统计软件与应用作业

《统计软件及应用》课程论文

我国区域农业经济聚类分析一、提出问题农业是通过培育动植物生产食品及工业原料的产业，是支撑国民经济建设与发展的基础产品。农业问题的本质及其重大意义。农业是国之根本，它的发展关系到其他两大产业的繁荣与否。与此同时，面对复杂多变的国内国际政治、经济环境，中国在农业方面的基础地位日渐薄弱。然而，在强劲的GDP增速背后，农民的收入水平却提高不够。由于受自然、经济等因素的影响，农业发展具有很强的区域性。不同地区农业发展水平发展方式很是不同。对区域农业进行聚类分析对针对性的制定区域农业发展战略政策有很强的指导性。二、数据收集为了对我国区域农业经济进行聚类分析，这里选择与区域农业发展相关的11个评价指标，它们分别代表农业发展的总量方面，水利设施、除涝面积方面，家庭土地经营方面。具体而言，总量方面包括地区生产总值x1（亿元），农业生产总值x2(亿元)；水利设施、除涝面积方面包括水库数x3 座)，水库总容量x4(亿立方米)，除涝面积x5(千公顷)，水土流失治理面积x6(百万元)四项；家庭土地经营方面包括经营耕地面积x7(亩/人)，经营山地面积x8(亩/人)，园地面积x9（亩/人）、牧草地面积x10(亩/人)、养殖水面面积x11(亩/人)五项。这些指标中国统计年鉴上取得，其原始数据如表1 。表1 房地产业发展水平的原始数据地区x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 北京14113. 58 124.36 82 93.8716 149.77 542.8 0.5335 0.061 0.140 6 0.053 9 天津9224.4 6 145.58 28 26.21342 9 377.22 46.43 1.4862 0.006 5 0.024 8 0.037 河北20394. 26 2562.8 1 1066 161.3647 2 1648.6 4 6290.31 1.981 0.118 1 0.079 4 山西9200.8 6 554.48 733 57.53152 6 89.13 5352.495 2.4314 0.034 8 0.200 7 0.0079 内蒙古11672 1095.2 8 497 167.891 277 10897.47 9.6537 0.232 2 0.021 9 126.75 57 辽宁18457. 27 1631.0 8 951 359.2693 6 985.25 3 6333.716 3.4984 0.197 4 0.084 7 0.039 6 吉林8667.5 8 1050.1 5 1643 320.3943 17 1021.4 3586.565 7.7491 0.135 7 0.020 1 黑龙江10368. 6 1302.9 913 178.7056 3334.9 4690.5 11.678 1 0.009 5 0.005 3 0.0217 上海17165. 98 114.15 55.35 0.2826 0.046 5 0.052 9 江苏41425. 48 2540.1 910 189.1796 59 2802.5 06 1052.269 1 1.1232 0.008 9 0.017 8 0.142 8 浙江27722. 31 1360.5 6 4217 398.0666 96 496.71 2431.64 0.6027 0.425 5 0.152 3 0.059 安徽12359. 33 1729.0 2 4819 326.5100 56 2269.0 5 2136.082 1.8662 0.336 7 0.048 1 0.107 2 福建14737. 12 1363.6 7 3225 185.3876 2 129.58 3 1470.802 6 0.8831 1.235 9 0.290 3 0.089 3 江西9451.2 6 1206.9 8 9809 293.7193 72 375.71 5 4514.041 62 1.6078 1.047 9 0.064 7 0.049 2 山东39169. 92 3588.2 8 6291 227.6167 92 2651.8 4651.521 1.5554 0.042 7 0.101 7 0.014 2 河南23092. 36 3258.0 9 2352 402.2094 67 1958.9 7 4428.695 1.68 0.023 8 0.034 0.007 5 湖北15967. 61 2147 5848 992.1486 1219.1 71 4666.472 1.6932 0.668 8 0.053 4 0.127 5 湖南16037. 96 2325.5 1209 2 402.29 3 486.3 4 2898.99 5 1.2504 0.531 2 0.074 4 0.0259 0.056 7 广东46013. 06 2286.9 8 7437 429.0038 88 514.49 1378.454 0.6475 0.308 8 0.117 2 0.069 7 广西9569.8 5 1675.0 6 4367 378.4462 97 209.57 2 1873.769 3 1.4335 0.641 1 0.142 9 0.0331 0.022 2 海南2064.5 539.83 996 100.0175 17.513 32.726 1.2842 0.818 7 0.577 3 0.024 5 重庆7925.5 8 685.38 2840 74.06409 3 2312.33 1.1854 0.343 9 0.066 1 0.005 0.019 2 四川17185. 48 2482.8 9 6759 214.9343 93.98 6329.638 1.0835 0.264 5 0.048 2 0.025 8