第2章 数据分析(梅长林)习题题答案
多元统计分析第二章部分课后习题

第二章课后习题1.现选取内蒙古、广西、贵州、云南、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省区。
选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口等五项能够较好的说明各地区社会经济发展水平的指标,验证一下边远及少数民族聚居区的社会经济发展水平与全国平均水平有无显著差异。
边远及少数民族聚居区社会经济发展水平的指标数据地区人均GDP(元)三产比重(%)人均消费(元)人口增长(%)文盲半文盲(%)内蒙古506831.121418.2315.83广西407634.220409.0113.32贵州234229.8155114.2628.98云南435531.3205912.125.48西藏371643.5155115.957.97宁夏427037.3194713.0825.56新疆622935.4 274512.8111.44甘肃345632.8161210.0428.65青海436740.9204714.4842.92资料来源:《中国统计年鉴(1998)》,北京,中国统计出版社,1998。
五项指标的全国平均水平为:)15.789.5297232.8701.6212(0'=μ解:(1)先利用SPSS软件检验各变量是否遵从多元正态分布(见输出结果1-1)输出结果1-1正态性检验Kolmogorov-Smirnov a Shapiro-Wilk统计量Df Sig. 统计量df Sig.人均GDP .219 9 .200*.958 9 .781 三产比重.145 9 .200*.925 9 .437 人均消费.209 9 .200*.873 9 .131 人口增长.150 9 .200*.949 9 .682 文盲半文盲.246 9 .124 .898 9 .242 *. 这是真实显著水平的下限。
a. Lilliefors 显著水平修正上表给出了对每一个变量进行正态性检验的结果,因为该例中样本数n=9,所以此处选用Shapiro-Wilk 统计量。
第三章数据分析(梅长林)习题答案

第三章习题一、习题3.4解:由于各种催化剂下产品的得到率服从同方差的正态分布,所以此利用proc anova过程得到方差分析表如下所示:同催化剂对产品的得到率无显著影响。
二、习题3.5anova过程进行方差分析,其通过计算得到F=15.72, 检验p值为小于0.0001,认为该电子科技公司过去三年的研究经费投入对当年生产能力的提高有显著差异。
(2)给出不同经费投入对生产提高的均值及其区间估计:为95%的置信区间为:95%的Bonferroni 同时置信区间为:Bonferroni 同时置信区间都位于负值区间可知随着三年科研经费的投入越高,当年生产能力的改善越显著。
三、习题3.6解:(1)首先利用SAS 的proc anova 过程的means 语句,求出各水平的均值和标准差:如下所示:由上表可知,(a1,b1)组合和(a1,b3)组合的标准差分别为2.030875、2.8067751与其他组合的标准差相差较大,所以我认为假定误差的等方差性不太合理。
故不能直接进行方差分析。
(2)由(1)可知直接进行方差分析是不合理的,所以对观测数据做对数变换,首先来分析个水平组合是否是方差齐性的。
由以上结果可以看出各组合水平上的标准差趋于一致,各组之间的标准差差异比较小。
说明各组合的离散程度比较接近。
故可以利用变换之后的数据在进行方差分析。
(3)由SAS系统的proc anova过程对进行自然对数变换后的数据进行方差分析,得到如下的误差分析表:x1*x2的影响是不显著的,检验P=0.3143>0.05,即两种铁离子残留量的百分比差异在不同剂量水平下可认为是相同的。
而由因素A和因素B对残留量的百分比的影响均显著,检验P值分别为0.0161和<.0001,所以两种铁离子残留量的百分比是有显著差异的,不同剂量水平下残留量的百分比也是有显著差异的。
(4)求出各因素在不同水平下的均值以及估计区间:SAS系统的proc anova过程对数据进行方差分析,得到各因素两两的Bonferroni同时置信区间为:均值之差的置信度为95%(注:可编辑下载,若有不当之处,请指正,谢谢!)。
数据分析方法实验(范金城梅长林)习题报告

习题4.5实验报告一、实验目的问题描述:在习题1.5表1.9中,列出了历年人口出生率、死亡率和自然增长率(单位:%)。
设对应于人口出生率、人口死亡率、自然增长率的数据变量分别为x1,x2,x3。
(1)分别从样本协方差矩阵S及样本相关矩阵R出发,求x1,x2,x3的样本主成分y1,y2,计算各样本主成分的贡献率。
(2)分别从样本协方差矩阵S及样本相关矩阵R出发,将第一样本主成分y1从小到大排序,并给与分析。
二、所用方法及工具(1)主成分分析法与贡献率:主成分分析法即构造原变量的一系列线性组合,使各线性组合在彼此不相关的前提下尽可能多地反映原变量的信息,即使其方差最大。
求的各主成分,等价于求它的协方差矩阵的各特征值及相应的正交单位化特征向量.按特征值由大到小所对应的正交单位化特征向量为组合系数的X,Xz ,…,X,的线性组合分别为X的第一,第二、直至第p个主成分,而各主成分的方差等于相应的特征值。
(2)SAS编程:SAS语言是一种专用的数据管理与分析语言,它提供了一种完善的编程语言。
类似于计算机的高级语言,SAS用户只需要熟悉其命令、语句及简单的语法规则就可以做数据管理和分析处理工作。
因此,掌握SAS编程技术是学习SAS的关键环节。
在SAS中,把大部分常用的复杂数据计算的算法作为标准过程调用,用户仅需要指出过程名及其必要的参数。
这一特点使得SAS编程十分简单。
三、实验内容本次实验采用SAS编程实现,代码如下:data a;set sjfx.rk1;run;proc princomp n=2 cov out=out1;var x1 x2 x3;run;proc sort data=out1 out=a1;by prin1;run;proc print data=a1;run;proc princomp n=2 out=out2;var x1 x2 x3;run;proc sort data=out2 out=a2;by prin1;run;proc print data=a2;run;实验结果:PRINCOMP 过程。
《数据的分析》测试题(含答案)

《数据的分析》单元测试题一、选择题1.某班七个兴趣小组人数分别为 3,3,4,4,5,5,6,则这组数据的中位数是( )A. 2B. 4C. 4.5D. 5 2.数据2、4、4、5、5、3、3、4的众数是( )A. 2B. 3C. 4D. 53.一城市准备选购一千株高度大约为2m 的某种风景树来进行街道绿化,•有四个苗圃生产基地投标(单株树的价格都一样).•采购小组从四个苗圃中都任意抽查了20株树苗的高度,得到的数据如下:请你帮采购小组出谋划策,应选购( )A .甲苗圃的树苗B .乙苗圃的树苗;C .丙苗圃的树苗D .丁苗圃的树苗 4.将一组数据中的每一个数减去50后,所得新的一组数据的平均数是2,•则原来那组数据的平均数是( )A .50B .52C .48D .25.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为( )A .8,9B .8,8C .8.5,8D .8.5,96.为鼓励市民珍惜每一滴水,某居委会表扬了100个节约用水模范户,8月份节约用水的情况如下表:那么,8月份这100户平均节约用水的吨数为(精确到0.01t ) ( )A .1.5tB .1.20tC .1.15tD .1t7.已知一组数据-2,-2,3,-2,-x ,-1的平均数是-0.5,•那么这组数据的众数与中位数分别是( )A .-2和3B .-2和0.5C .-2和-1D .-2和-1.5 8.方差为2的是( )A .1,2,3,4,5B .0,1,2,3,5C .2,2,2,2,2D .2,2,2,3,39.甲、乙两班举行电脑汉字输入速度比赛,•参赛学生每分钟输入汉字的个数经统计计算后结果如下表:某同学根据上表分析得出如下结论: (1)甲、乙两班学生成绩的平均水平相同;(2)乙班优秀的人数多于甲班优秀的人数;(每分钟输入汉字≥150个为优秀) (3)甲班成绩的波动情况比乙班成绩的波动小 上述结论中正确的是( )A .(1)(2)(3)B .(1)(2)C .(1)(3)D .(2)(3)10.某校把学生的纸笔测试、实践能力、成长纪录三项成绩分别按50%、20%•、•30%的比例计入学期总评成绩,90分以上为优秀.甲、乙、•丙三人的各项成绩如下表(单位:分),学期总评成绩优秀的是( )A .甲B .乙丙C .甲乙D .甲丙 二、填空题11.下图是根据某地近两年6•月上旬日平均气温情况绘制的折线统计图,通过观察图形,可以判断这两年6月上旬气温比较稳定的年份是_____年.12.在演唱比赛中,8位评委给一名歌手的演唱打分如下:9.3,9.5,9.9,9.4,9.3,8.9,9.2,9.6,若去掉一个最高分和一个最低分后的平均分为得分,则这名歌手最后得分约为________. 13.一名学生军训时连续射靶10次,命中的环数分别为8,7,8,6,8,5,9,10,7,,10•则这名学生射击环数的方差是_________.14.某人开车旅行100km ,在前60km 内,时速为90km ,在后40km 内,时速为120km ,则此人的平均速度为_________.15.将5个整数从大到小排列,中位数是4;如果这个样本中的惟一众数是6,•则这5个整数可36次甲乙能的最大的和是_____.16.某公司欲招聘工人,对候选人进行三项测试:语言、创新、综合知识,并按测试得分1:4:3的比例确定测试总分,已知三项得分分别为88,72,50,•则这位候选人的招聘得分为________. 三、解答题17.某校规定学生期末数学总评成绩由三部分构成:卷面成绩、•课外论文成绩、平日表现成绩(三部分所占比例如图),若方方的三部分得分依次是92、80、84,则她这学期期末数学总评成绩是多少?18. 文具商店共有单价分别为10元、15元和20元的3种文具盒出售,该商店统计了2011年3月份这三种文具盒的销售情况,并绘制统计图如下:图1文具商店2011年3月份3种文具盒销售情况扇形统计图2003种文具盒销售情况条形统计图图220元15元个数300400(1)请在图2中把条形统计图补充完整;(2)小亮认为该商店三月份这三种文具盒总的平均销售价格为(10+15+20)/3=15元,你认为小亮的计算方法正确吗?如果不正确,请计算总的平均销售价格.19(1)计算这10户家庭的平均月用水量;(2)如果该小区有500户家庭,根据上面的计算结果,估计该小区居民每月共用水多少吨?20.某乡镇企业生产部有技术工人15人,•生产部为了合理制定产品的每月生产定额,统计了15人某月的加工零件个数:(1)写出这15人该月加工零件数的平均数、中位数和众数.(2)假如生产部负责人把每位工人的月加工零件数定为260(件),•你认为这个定额是否合理,为什么?21.甲、乙两人在相同的条件下各射靶5次,每次射靶的成绩情况如图所示:⑴ 你根据图中的数据填写下表:⑵ 从平均数和方差相结合看,分析谁的成绩好些.22.下表是某校八年级(1(1)若这20名学生成绩的平均分数为82分,求x 和y 的值;(2)在(1)的条件下,设这20名学生本次测验成绩的众数为a ,中位数为b ,求a ,b 的值.23. 为了普及环保知识,增强环保意识,某中学组织了环保知识竞赛,初中三个年级根据初赛成绩分别选出了10名同学参加决赛,这些选手的决赛成绩(满分为100分)如下表所示:⑴请你填写下表:⑵请从以下两个不同的角度对三个年级的决赛成绩进行分析:①从平均数和众数相结合看(分析哪个年级成绩好些);②从平均数和中位数相结合看(分析哪个年级成绩好些)③如果在每个年级分别选出3人参加决赛,你认为哪个年级的实力更强一些?并说明理由. 答案:1. B2. C 3.D 4.B 5.B 6.A 7.D 8.A 9.B 10.C 11.2005 12.9.4分13.3 14.100km/h15.21 16.65.•75分17.解:9070%8020%8410%70%20%10%⨯+⨯+⨯++=88.8(分)18.(1)图略(2)不合理10150153602090=14.5150+360+90⨯+⨯+⨯19.(1)14(吨);(2)7000吨.20.(1)平均数:260(件)中位数:240(件)众数:240(件);(2)不合理,•因为表中数据显示,每月能完成260件的人数一共是4人,还有11人不能达到此定额,尽管260是平均数,但不利于调动多数员工的积极性,因为240既是中位数,又是众数,是大多数人能达到的定额,故定额为240较为合理.21⑴甲:6,6,0.4 乙:6,6,2.8 ⑵甲、乙成绩的平均数都是6,且<,所以,甲的成绩较为稳定,甲成绩比乙成绩要好些.22.(1)x=5,y=7;(2)a=90,b=80.23. ⑴七年级众数是80;八年级中位数是86;九年级的平均数为85.5,众数为78.⑵①从平均数和众数相结合看,八年级的成绩好些.②从平均数和中位数相结合看,七年级成绩好些.⑶九年级.。
数据分析答案完整版(整理)

x n n x j ( x j x) n 1 n 1 n 1
n2
x j x( j ) x j
服 从 正 态 分 布 。 故 有 E xi x E i
1 n j 0 , n j 1
1 n 1 n n 1 2 D xi x D i j E i j ,故 xi x 服从分 n n n j 1 j 1
N (0, 2 I n ) , (1 , 2 ,
, n ) ,则
,1 .
N (0, 2 ( I n H n )) 。其中:
1
1 1 n 1 , H n n 1, n 1 1
n n 1
n 1 n 2 n n 1 2
——证毕—— 3.条件同第 2 题,证明: (1) x N 0, n
2
(2) N 1 S 2 / 2 x2 n 1 , (4 ) t n
x t n 1
由与此变换为正交变换知, yi 2 xi 2 ,同时 x1 , x2 , , xn 为相互独
i 1 i 1
n
n
立的正态分布。
密度函数 f x1 , x2 ,
xi 1 2 2 i 1 由于正交的雅可比行列 , xn e 2 n
2
1 , n 1 , 1 ,由正交性有 n 1
2 , 3n,
a
数据分析答案梅长林

数据分析答案梅长林【篇一:1.1一维数据数字特征】013学年第一学期主讲教师李晓燕课程名称数据分析课程类别专业限选课学时及学分 68;4授课班级信息101 102使用教材《数据分析方法》系(院.部) 数理系教研室(实验室) 信息和计算科学教研室数据分析总学时:68 理论38.上机28 适用专业:信息和计算科学内容:? sas软件介绍 3学时 ? 数据的描述性分析10学时 ? 线性回归分析 13学时 ? 方差分析 10学时 ? 主成分分析和典型相关分析8学时? 判别分析 8学时 ? 聚类分析 8学时 ? 学生报告 8学时教材:《数据分析方法》,梅长林、范金城编,高等教育出版社.2006. 参考资料:《实用统计方法》,梅长林编,科学出版社;《使用多元统计分析》,高惠璇编,北京大学出版社,2005;《使用统计方法和sas系统》,高惠璇编,北京大学出版社,2001;《多元统计分析》(二版),何晓群编,中国人民大学出版社,2008;《使用回归分析》(二版),何晓群编,中国人民大学出版社,2007;《统计建模和r软件》,薛毅编著,清华大学出版社,2007. 考核:期末成绩(闭卷测试+上机测试):70%。
平时成绩(平时作业+考勤+大报告):30%。
课程作业(1)作业题目在网络教学平台公布,按格式要求,以电子版方式通过平台提交。
(2)大报告:2-3人一组,每组一个选题,成员按相同的成绩计分。
收集数据,撰写小论文,做ppt讲解。
每组讲10-20分钟,提问环节。
同学打分。
课时授课计划课次序号: 01一、课题:1.1 一维数据的数字特征及相关系数二、课型:新授课三、目的要求:1.掌握数据的数字特征(均值、方差等);2.掌握几种描述性分析的sas过程和作图过程计算这些数字特征及进行描述性分析.四、教学重点:均值、方差等数字特征.教学难点:基本概念的理解.五、教学方法及手段:传统教学和上机实验相结合.六、参考资料:1.《实用统计方法》,梅长林,周家良编,科学出版社;2.《sas统计分析使用》,董大钧主编,电子工业出版社.七、作业:1.1八、授课记录:九、授课效果分析:0 绪论0.1 课程内涵数据分析(即多元统计学statistics):是以数据为依据,以统计方法为理论、计算机及软为工具,研究多变量问题、挖掘数据的统计规律的学科. 通过收集数据、整理数据、分析数据和由数据得出结论的一组概念、原则和方法。
数据分析参考答案

数据分析参考答案数据分析参考答案数据分析是一项重要的技能,它帮助我们从大量的数据中提取有用的信息和洞察力。
在当今信息爆炸的时代,数据分析已经成为了各行各业的必备技能。
无论是企业决策、市场营销还是科学研究,数据分析都扮演着重要的角色。
在本文中,我将提供一些数据分析的参考答案,帮助读者更好地理解和应用数据分析。
首先,数据分析的第一步是数据清洗和整理。
在进行数据分析之前,我们需要确保数据的质量和准确性。
这包括删除重复数据、处理缺失值、解决异常值等。
只有经过清洗和整理的数据才能真正反映出问题的本质和规律。
其次,数据分析需要选择合适的方法和工具。
根据问题的性质和数据的类型,我们可以选择不同的数据分析方法。
常见的数据分析方法包括描述性统计、推断统计、机器学习等。
同时,我们还需要选择适合的数据分析工具,如Excel、Python、R等。
选择合适的方法和工具可以提高数据分析的效率和准确性。
第三,数据可视化是数据分析的重要环节。
通过数据可视化,我们可以将抽象的数据转化为直观的图表和图形,更好地理解数据的分布和趋势。
数据可视化不仅可以提高数据分析的效果,还可以帮助我们向他人传达分析结果。
在进行数据可视化时,我们需要选择适当的图表类型,如柱状图、折线图、散点图等,以及合适的颜色和字体。
第四,数据分析需要进行合理的假设和推断。
在进行数据分析时,我们需要建立合理的假设,并通过数据进行验证。
通过统计方法和推断统计学,我们可以对数据进行推断和预测。
然而,我们需要注意的是,数据分析只能提供相关性而非因果性的结论。
因此,在进行数据分析时,我们需要谨慎解读结果,并避免错误的推断。
最后,数据分析需要不断的学习和实践。
数据分析是一个不断发展和演进的领域,新的方法和工具不断涌现。
为了保持竞争力,我们需要不断学习新的数据分析技术,并将其应用到实际问题中。
同时,我们还需要通过实践不断提高自己的数据分析能力,不断优化分析结果和方法。
综上所述,数据分析是一项重要的技能,它帮助我们从大量的数据中提取有用的信息和洞察力。
大数据技术与应用习题答案第1-2章

1)请阐述什么是大数据?大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2)大数据对当今世界有哪些影响?大数据是一种新兴的产业,从提出概述至今不断在推动着世界经济的转型和进一步的发展。
如法国政府在2013年投入近1150万欧元,用于7个大数据市场研发项目。
目的在于通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展。
法国政府在《数字化路线图》中列出了五项将大力支持的战略性高新技术,大数据就是其中一项。
综上所述,从各种各样的大数据中,快速获得有用的信息的能力,就是大数据技术。
这种技术已经对人们的产生和生活方式有了极大的影响,并且还在快速的发展中,不会停下来。
3)大数据有哪些框架?按照对所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类:批处理系统、流处理系统和混合处理系统。
4)企业应当如何应对大数据时代的挑战?大数据在许多企业应用程序中的确扮演着相当重要的角色,大数据的应用对于企业带来的好处有以下几点:(1)结合各种传统企业数据对大数据进行分析和提炼,带给企业更深入透彻的洞察力。
它可以带来更高的生产力,更大的创新和更强的竞争地位。
(2)正确的数据分析可以帮助企业做出明智的业务经营决策的工具。
这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。
而商业智能能够辅助的业务经营决策既可以是作业层的,也可以是管理层和策略层的决策。
(3)促进企业决策流程:增进企业的资讯整合与资讯分析的能力,汇总公司内、外部的资料,整合成有效的决策资讯,让企业经理人大幅增进决策效率与改善决策品质,很大程度上影响了企业的经营和绩效。
5)大数据和云计算的联系和区别是什么?如果将云计算与大数据进行一些比较,最明显的区分在两个方面:第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2章 习 题
一、习题
(1)回归模型
15,2,1,22110 =+++=i x x y i i i i εβββ
调用proc reg
:
]
由此输出得到的回归方程为:
2100920.049600.045261.3X X y ++=∧
由最后一列可以看出,使用化妆品的人数X1和月收入X2对化妆品的销售数量有着显著影响。
46521.30=∧
β可以理解为该化妆品作为一种必需品每个月的销售量。
当购买该化妆品的人数固定时,月收入没增加一个一个单位,改化妆品的销售数量将增加个单位。
同理,当购买该化妆品的人均月收入固定时,购买该化妆品的人数每增加一千人,该化妆品的销售数量将增加个单位。
p
n SSE
-=
∧2
σ
是2σ的无偏估计,所以2σ的估计值是. (2)调用
由此可到线性回归关系显著性检验:
0至少有一个为0:2,1:1210ββββH H ↔==
的统计量/(1)/()SSR p MSR
F SSE n p MSE
-=
=-的观测值47.56790=F ,检验的p 值
0001.0)(000<>==F F p p H
另外9989.053902
53845
2===
SST SSR R ,2R 描述了由自由变量的线性关系函数值所能反映的Y 的总变化量的比例。
2R 越大,表明线性关系越明显。
这些结果均表明Y 与X1,X2之间的回归关系高度显著。
(3)若置信水平05.0=α,由17881.2)12(975.0=t ,利用参数估计值得
到21,0,βββ的置信区间分别为:
对,0β2942.54516.343065.21781.245216.3±=⨯±,即)7458.8,8426.1(-) 对1β:01318.049600.000605.01781.249600.0±=⨯±,即)50198.0,48282.0( )
2β:0021
.000920.00009681.01781.200920.0±=⨯±,即)00113.0,0071.0(-
(4)首先检验X1对Y 是否有显著性影:
假设其约简模型为:15,2,
1,220 =++=i x y i i i εββ 由观测数据并利用proc reg 过程拟合此模型求得:
88137.484)(=R SSE 13215=-=R f 88357.56)(=F SSE 12315=-=R f
由[()()]()
()/R F F
SSE R SSE F f f F SSE F f --=
求得检验统计量的值为:
3
.9012/88357.5688357
.5688137.4840=-=
F
05.0))13,1(()(0000<>==>==F F P F F p p H
由此拒绝原假设,所以x2对Y 有显著影响。
~
同理检验X2对Y 是否有显著性影:
假设其约简模型为:15,2,
1,110 =++=i x y i i i εββ 由观测数据并利用proc reg 过程拟合此模型求得: 31872)(=R SSE 13215=-=R f
88357.56)(=F SSE 12315=-=R f
由[()()]()
()/R F F
SSE R SSE F f f F SSE F f --=
求得检验统计量的值为:
12/88357.5688357.56318720-=
F 05.0))13,1(()(0000<>==>==F F P F F p p H
由此拒绝原假设,所以x2对Y 有显著影响。
检验X1、x2交叉项对Y 是否有显著性影: |
假设其全模型为:15,2,
1,21322110 =++++=i x x x x y i i i i i i εββββ
检验X1、X2的交互作用是否显著即检验假设0:30=βH 是否能被拒
绝。
由观测数据并利用proc reg 过程拟合此模型求得: 72.56)(=F SSE 11415=-=F f
88357.56)(=R SSE 12315=-=R f
由[()()]()
()/R F F
SSE R SSE F f f F SSE F f --=
求得检验统计量的值为:
0317.011
/72.5672
.5688357.560=-=
F
05.0138.0)0317.0)11,1(()(000>=>==>==F P F F p p H
由此接受原假设,也即X1*X2对Y 无显著影响,即模型中没有必要引进交叉项。
(5)关于Y 的预测: ·
对于给定的X1,X2的值(220,2500),由回归方程可以得到0y 的预测值:
573.135250000920.022049600.045261.30=⨯+⨯+=y
为了得到0y
1
)(-X X T。
由
0(1,220,2500)T x =, 4.74030MSE =,求得
y 的置信度为95%的置信区
间为:
0.975(12)135.5726 2.1788 2.2818135.5726 4.9716y t ±=±⨯=±
即(130.6010,140.5442)
(6)利用proc reg 过程可根据要求输出学生化残差:
:
利用学生化残差,检验模型误差项的正态性假定的合理性:
○1频率检验法:
·
学生化残差中有10/15=(约)落在(-1,1)内;有13/15=(约)落在(,)内;有15/15=1(约)落在(-2,2)内。
由此可见,学生化残差在上述各区间内的频率与N(0,1)分布的相应概率相差均不大,因此模型误差项的正态性假定是合理的。
②正态QQ图
利用proc capability直接作出学生化残差的正态QQ图,如下所示:
通过sas 计算得到),(
q r 再利用proc corr 得到学生化残差与相应标准正态分布的分位数的pearson 相关系数矩阵。
可以看出学生化残差与相应标准正态分布的分位数的相关系数为<,所以学生化残差与相应标准正态分布的分位数显著相关。
为了进一步验证模型假设的合理性,利用proc gplot的做出的几个残差图:
、
由这些残差图可知,它们均没有明显的趋势,结合以上分析的结果我们认为相应的线性回归模型以及误差的独立正态分布的假设是合理
的。
二、习题 回归模型
15,2,1,22110 =+++=i x x y i i i i εβββ
调用
|
调用
根据上述回归模型,画出学生化残差正态QQ 图以及Y 的拟合值的残差图如下所示:
~
从图中可以看出,学生化残差图明显不在同一条直线上,求得学生化残差与相应标准正态分布的分位数的相关系数为<,与1相差较大。
另外拟合值的图像也表明Y 与X1和X2不能满足线性关系。
(2)对因变量Y 做Box-Cox 变换,对不同的λ值,利用sas 系统中的
),(λ
λZ SSE ),(λλZ SSE λ 由图可知),(λZ SSE 在31.0=λ时取得最小值,因此Box-Cox 变换中λ取 ,记变换后的因变量为YY,对拟合后的变量重新做线性回归,得到以下结果:
YY的拟合值都有明显的改观。
而且求得学生化残差与相应标准正态分布的分位数的相关系数达到了,并且检验p值小于差分析,认为YY与XX1、XX2之间的线性关系较为合理。
拟合YY与X1、X2的线性回归模型,其方差分析以及参数估计如下所示。