数据分析及其应用软件习题
《数据分析及其应用软件》习题
姓名__ 学号_ _ _成绩
习题1:出钢时所用盛钢水的钢包,因钢水对耐火材料的侵蚀,容积不断增大
我们希望找出使用次数与增大的容积之间的关系,试验数据如下:
写出分析报告(内容包括以下四点) 1. 用双曲线1/y = a+b/x 作曲线拟合:(1)画出散点图, (2
)写出回归方程, (3)进行检验, (4)分析结果, (α= 0.05)
2. 用指数曲线y = ae b/x 作曲线拟合: (1)画出散点图, (2)写出回归方程, (3)进行检验, (4)分析结果, (α= 0.05)
3. 比较两种曲线后,写出较优的曲线回归方程.
4. 使用较优的曲线回归方程预测当使用次数为17次时钢包的容积增大多少?
习题2:1.研究货运总量Y (万吨)与工业总值1X (亿元)、农业总产值2
X (亿元)、居民非商品支出3X (亿元)的关系。数据见下表
(1)计算出 321,,,X X X Y 的相关系数矩阵;
(2)求Y 关于321,,X X X 的三元线性回归方程; (3)对所求得的回归方程作拟合优度检验; (4)对回归方程做显著性检验; (5)对每一个回归系数做显著性检验;
(6)如果有的回归系数没有通过显著性检验,将其剔除。
重新建立回归方程,再作回归方程的显著性检验和回归系数显著性
检验;
(7)求出每一个回归系数的之置信水平为95%的置信区间; (8)求出标准化回归方程;
(9)求当01X =75,02X =42,03X =3.1时的0Y 值,给定置信水平为99%,
用SPSS 软件计算精确置信区间,用手工计算近似预测区间;
(10)结合回归方程对问题作一些基本分析。
习题3:为研究某地区人口死亡状况,已按某种方法将15个已知样品分为3
类,指标及原始数据如下表。利用费歇线性判别函数,判定另外4个待判样品属于哪一类?
某地区人口死亡状况指标及原始数据表
组别
序 号
1X = 0岁组 死亡概率
2X =1岁组
死亡概率 3X = 1 0岁
组死亡概率 4X =55岁
组死亡概率 5X =80岁
组死亡概率
6X =平均
预期寿命 第一组 1
34.16 7.44 1.12 7.87 95.19
69.30 2 33.06 6.34 1.08 6.77 94.08 69.70 3 36.26 9.24 1.04 8.97 97.30 68.80 4
40.17 13.45 1.43 13.88 101.20 66.20 5 50.06 23.03 2.83 23.74 112.52 63.30 第二组 1 33.24 6.24 1.18 22.90 160.01 65.40 2 32.22
4.22
1.06
20.70
124.70
68.70
3 41.15 10.08 2.32 32.8
4 172.06 65.85
4 53.04 25.74 4.06 34.87 152.03 63.50
5 38.03 11.20 6.07 27.84 146.32 66.80
第三组1 34.03 5.41 0.07 5.20 90.10 69.50
2 32.11 3.02 0.09 3.14 85.15 70.80
3 44.12 15.12 1.08 15.15 103.12 64.80
4 54.17 25.03 2.11 25.1
5 110.14 63.70
5 28.07 2.01 0.07 3.02 81.22 68.30
待判样品1 50.22 6.66 1.08 22.54 170.60 65.20
2 34.64 7.3
3 1.11 7.78 95.16 69.30
3 33.42 6.22 1.12 22.95 160.31 68.30
4 44.02 15.36 1.07 16.4
5 105.30 64.20
习题4:对中国乡镇企业绩效的进行聚类分析.数据见表1.
表1、原始数据
地区净利润营业收入增加值率企业个数盈利个数全员劳动生
产率
北京567266957155522.3711875411710020698天津12206851575286522.0612132912083629242河北61142747629386225.67101298497937023661山西11957221494204826.1529413927756816115内蒙古31118703042581528.4591116190511321476辽宁42858946396648124.591028432101591337607吉林15306421908703827.1776461675591722758黑龙江5347651175591624.1724586924574618796上海9233362066361121.29376922190242769江苏25947579544800921.4490345688540128529浙江558280712780678421.171081514101026832250安徽17909902418081328.3771077469501714342福建23348785598871822.6280702274024125070江西9472041454694425.8571768069355713515山东460250510975897121.62048217195013520274河南52980536045882726.091081731104332418701湖北20054034524197222.8592620789102317094湖南42554536960145625.712226562216951420262广东42776458555757323.7276655772689323573广西9896342288975920.5986790783250910570海南120524*********.12407193981114270重庆271802922573523.6410669110528415351四川9102813735576419.341374560134800214009贵州669816638103125.5237299632033912429
云南8306821779090522.0565492365034110539西藏
陕西11032862016227525.1189749186828512591甘肃419893670157922.322490822266810595青海3461664922720.9854865532287394宁夏109083156505524.161303571295077644新疆191764307149724.683165243045699248
续表一、原始数据
地区流动资产固定资产职工人数银行借款资本金
北京46593893931311101811710243082924903
天津49432904148950120486311804932303981
河北12465461174841758226605403808610332912
山西3557340578089028042019385412934108
内蒙古3227037526749640168664602903333205
辽宁87633139329875453961919997246980228
吉林2372734361468524945265133102409414
黑龙江1861422267900714516925633401871204
上海108326757789596137983726841616258380
江苏32606238250730037680355809673016462531
浙江34257475297148538311974997997220763537
安徽50893237351798474788014500824952914
福建9853152111604455436920164688310778050
江西2264148339994030258628441162425545
山东256102812644708212671968628459614179543
河南1126250515312738838931627116299442756
湖北841918810129567621641120276426427542
湖南75572589399762926239316990736723945
广东24910272322305539232307673624019485556
广西3234113526962034712068715653214208
海南278001796182275868182675465657
重庆2418088226702314998826243481656726
四川65693077031491593804925046475130203
贵州3241104177418514062175419972387169
云南33014615809520254676510317432912189
西藏
陕西32245703934343385060011482872769354
甘肃1364007173503115317555010741124357
青海176344363754232662124070209130
宁夏411855679716484183147424429111
新疆7909811266081752463263604677916
习题5:利用主成分分析方法和下表中20个城市高新技术产业化能力数据,《对20个城市高新技术产业化能力进行横向评价》
20个城市高新技术产业化能力指标和数值表(2006年原始数据)
一级指标高新技术产业化
二级指标高新技术产业化水平高新技术产业化效益
三级指标高技术产
业增加值
占工业增
加值比重
知识密集
型产业增
加值占生
产总值比
重
高新技术
产品出口
额占商品
出口额比
重
新产品销
售收入占
产品销售
收入比重
高技术产
业劳动生
产率
高技术
产业增
加值率
知识密集
型产业劳
动生产率
地区% % % % 万元/人% 万元/人北京26.57 32.45 46.01 17.64 21.51 18.38 21.94 天津24.39 10.01 47.39 28.12 30.63 26.38 17.39 沈阳9.32 8.93 27.36 19.57 11.76 27.29 19.09 大连10.45 12.33 14.41 10.91 15.56 27.81 37.70 长春 3.22 10.35 6.81 45.11 10.33 42.24 21.18 哈尔滨14.01 8.72 4.24 15.95 10.09 30.91 16.88 上海19.24 17.72 40.60 30.14 21.56 20.79 26.80 南京16.95 10.70 26.00 19.50 18.63 18.39 31.90 苏州31.84 7.28 65.83 7.52 12.92 22.17 69.21 杭州12.51 12.36 34.32 16.56 16.08 14.76 33.48 宁波 6.59 9.94 5.89 13.97 5.91 17.62 49.76 厦门42.41 10.92 32.90 22.61 17.82 25.53 44.63 济南34.45 10.99 10.19 17.73 29.76 38.37 29.39 青岛8.80 7.74 11.63 32.41 16.33 24.69 38.84 武汉17.26 11.47 26.82 10.65 24.94 37.12 19.23 广州8.81 12.08 23.71 17.88 9.15 23.59 34.99 深圳51.82 13.02 48.22 15.53 15.00 20.68 51.15 重庆 6.24 8.14 4.37 31.46 10.70 34.78 10.22 成都16.85 12.50 20.88 17.97 14.38 37.13 25.71 西安27.80 14.32 13.82 12.94 9.32 33.70 13.42 全国11.04 9.67 29.04 14.80 13.08 23.94 14.59
(数据参见附件表2:“2003-2006年高新技术产业化”数据。利用其中2006年-未经过修正
的原始数据)
习题6: 对中国乡镇企业绩效的进行因子分析.数据见表1.
解题要求:
①一律用SPSS软件做(并下载计算结果,包括相应的图、表等)。
②答案用A4纸打印,小标题用4号字黑体,正文用小4号字。
③ 2012年5月9日(周3 )下午3:00交至8-603A(打印版
和电子版)。
《数据分析》练习题
《数据分析》练习题 1.一个地区某月前两周从星期一到星期五各天的最低气温依次是(单位:℃):x 1, x 2, x 3, x 4, x 5和x 1+1, x 2+2, x 3+3, x 4+4, x 5+5,若第一周这五天的平均最低气温为7℃,则第二周这五天的平均最低气温为 。 2.有10个数据的平均数为12,另有20个数据的平均数为15,那么所有这30个数据的平均数是( ) A .12 B. 15 C. 1 3.5 D. 14 3.一组数据8,8,x ,6的众数与平均数相同,那么这组数据的中位数是 ( ) A. 6 B. 8 C.7 D. 10 4.某校在一次考试中,甲乙两班学生的数学成绩统计如下: 请根据表格提供的信息回答下列问题: (1)甲班众数为 分,乙班众数为 分,从众数看成绩较好的是 班; (2)甲班的中位数是 分,乙班的中位数是 分; (3)若成绩在80分以上为优秀,则成绩较好的是 班;、 (4)甲班的平均成绩是 分,乙班的平均成绩是 分,从平均分看成绩较好的是 班. 5.在方差的计算公式 ()()()222 21210120202010 s x x x ??= -+-+???+-??中, 数字10和20分别表示的意义可以是( ) A .数据的个数和方差 B .平均数和数据的个数 C .数据的个数和平均数 D .数据组的方差和平均数 6..如果将所给定的数据组中的每个数都减去一个非零常数,那么该数组的 ( ) A.平均数改变,方差不变 B.平均数改变,方差改变 C.平均输不变,方差改变 D.平均数不变,方差不变 7..已知7,4,3,,321x x x 的平均数是6,则_____________321=++x x x . 8..已知一组数据-3,-2,1,3,6,x 的中位数为1,则其方差为 . 9..已知一组数据x 1,x 2,x 3,x 4,x 5的平均数是2,方差是 3 1 ,那么另一组数据3x 1-2,3x 2-2,3x 3-2, 3x 4-2,3x 5-2的平均数是和方差分别是 . 10..关于一组数据的平均数、中位数、众数,下列说法中正确的是( ) A.平均数一定是这组数中的某个数 B. 中位数一定是这组数中的某个数 C.众数一定是这组数中的某个数 D.以上说法都不对 分数 50 60 70 80 90 100 人数 甲 1 6 12 11 15 5 乙 3 5 15 3 13 11
数据分析期末试题及答案
数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系
上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。
2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。
数据分析基础测试题含答案
数据分析基础测试题含答案 一、选择题 1.已知一组数据a,b,c的平均数为5,方差为4,那么数据a﹣2,b﹣2,c﹣2的平均数和方差分别是.() A.3,2 B.3,4 C.5,2 D.5,4 【答案】B 【解析】 试题分析:平均数为(a?2 + b?2 + c?2 )=(3×5-6)=3;原来的方差: ;新的方差: ,故选 B. 考点:平均数;方差. 2.甲、乙、丙三个不同品种的苹果树在同一地区进行对比试验,从每个品种的苹果树中随机各抽取10棵,对它们的产量进行统计,绘制统计表如下: 品种甲乙丙 平均产量/(千克/棵)9090 方差10.224.88.5 若从这三个品种中选择一个在该地区推广,则应选择的品种是() A.甲B.乙C.丙D.甲、乙中任选一个【答案】A 【解析】 【分析】 根据平均数、方差等数据的进行判断即可. 【详解】 根据平均数、方差等数据的比较可以得出甲品种更适在该地区推广. 故选:A 【点睛】 本题考查了平均数、方差,掌握平均数、方差的定义是解题的关键. 3.某射击俱乐部将11名成员在某次射击训练中取得的成绩制成如图所示的条形统计图,由图可知,11名成员射击成绩的众数和中位数分别是()
A.8,9 B.8,8 C.8,10 D.9,8 【答案】B 【解析】 分析:中位数,因图中是按从小到大的顺序排列的,所以只要找出最中间的一个数(或最中间的两个数)即可,本题是最中间的那个数;对于众数可由条形统计图中出现频数最大或条形最高的数据写出. 详解:由条形统计图知8环的人数最多, 所以众数为8环, 由于共有11个数据, 所以中位数为第6个数据,即中位数为8环, 故选B. 点睛:本题主要考查了确定一组数据的中位数和众数的能力.注意找中位数的时候一定要先排好顺序,然后再根据奇数和偶数个来确定中位数,如果数据有奇数个,则正中间的数字即为所求.如果是偶数个,则找中间两个数的平均数. 4.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4,