多元分析SAS上机实验(密码shiyan)
数据分析与统计软件-sas-第一章上机实验-

数据分析与统计软件上机实验报告实验目的初步掌握sas软件的使用方法和语言结构学会运用sas软件进行简单的数据处理实验内容1某小学60名11岁学生的身高(单位cm)的数据如下126 149 143 141 127 123 137 132 135 134 146 142 135 141 150 137 144 137 134 139 148 144 142 137 147 138 140 132 149 131 139 142 138 145 147 137 135 142 151 146 129 120 143 145 142 136 147 128 142 132 138 139 147 128 139 146 139 131 138 149 (1)计算均值、方差、标准差、变异系数、偏度、峰度;(2)计算中位数,上、下四分位数,四分位极差,三均值;(3)做出直方图;(4)做出茎叶图;解答变异系数=标准差/均值=5.08%2)部分结果在问题(1)中中位数:139.0000四分位极差=Q3-Q1=144.75-135=9.75三均值=0.25*Q1+0.5*M+0.25*Q3=139.4375 3)使用软件画图得到4)使用sas软件画图得到程序附录(1)DATA DQGZ;INPUT X @@;CARDS;126 149 143 141 127 123 137 132 135 134 146 142 135 141 150 137 144 137 134 139 148 144 142 137 147 138 140 132 149 131 139 142 138 145 147 137 135 142 151 146 129 120 143 145 142 136 147 128 142 132 138 139 147 128 139 146 139 131 138 149 PROC MEANS N MEAN STD VAR USS CSS;RUN;(4)身高 Stem-and-Leaf PlotFrequency Stem & Leaf1.00 Extremes (=<120)1.00 12 . 35.00 12 . 678897.00 13 . 112224418.00 13 . 555677777888899999 13.00 14 . 011222222334413.00 14 . 55666777789992.00 15 . 01Stem width: 10.00Each leaf: 1 case(s)。
《多元统计分析》实验四

实验四 上市公司财务报表数据的因子分析(王学民 编写)一、实验目的1.掌握如何使用SAS 软件来进行因子分析;2.看懂和理解SAS 输出的结果,并学会以此来作出分析;3.掌握对实际数据如何来进行因子分析;4.了解异常值对数据分析的影响 二、实验内容数据集sasuser.case4中含有2001年沪市611家上市公司年财务报表的十个主要财务指标。
对这些数据进行因子分析,可将这十个指标成功地归结于三个公共因子,达到较好的降维目的,并给出符合实际背景和意义的解释。
在作因子分析之前需先进行预分析,找出影响因子分析的不合理数据和异常数据。
通过因子分析,对各因子的得分大小进行排序分析,同时结合各上市公司的三个因子得分用SAS 软件建立旋转图,通过三维图形的旋转进行分析和描述。
由于图中有600多个散点,故需巧妙地运用SAS 软件不断地对图形作出调节使之能更清楚地用来进行观测。
实验1剔除不合理数据和异常数据。
实验2进行因子分析。
实验3利用SAS 软件观测和调节含600多个散点的旋转图。
三、实验要求1.用SAS 软件完成因子分析的计算;2.根据SAS 输出结果完成因子分析;3.学会利用软件观测含有众多散点的旋转图。
四、实验指导1.剔除不合理数据和异常数据(1)注意到,如每股净资产(6x )值接近于零或为负,通常将使净资产收益率(7x )没有意义或数值特大。
为发现这些值,在inshigt环境下打开数据集sasuser.case4,见图1。
选菜单过程如下:在图1中,选x6⇒在数据区域点击右键,出现上托菜单⇒选排序…图1随即得到图1中按每股净资产值从小到大的排序。
每股净资产最小的三只股票:“PT郑百”(66.166x=-元),“ST同达”(60.488x=-元)和“PT红光”(60.006x=元)必须被删去。
其原因有两个:(i)这三只股票的每股净资产为负或非常接近于零,它们的净资产收益率没有意义。
(ii) “PT红光”和“ST同达”的净资产收益率(7x)分别是621.15和82.34,在数值上比排名第三的40.20要大许多,特别是前者为一个非常大的异常值,会对因子分析的结果产生明显的不良影响。
多元统计分析-实验报告-计算协方差矩阵-相关矩阵-SAS

(一)院系:数学与统计学学院专业:__ _统计学年级: 2009级课程名称:统计分析学号:姓名:指导教师:2012年 4月 28 日(一)实验名称1.编程计算样本协方差矩阵和相关系数矩阵;2.多元方差分析MANOVA。
(二)实验目的1.学习编制sas程序计算样本协方差矩阵和相关系数矩阵;2.对数据进行多元方差分析。
(三)实验数据第一题:第二题:(四)实验内容1.打开SAS软件并导入数据;2.编制程序计算样本协方差矩阵和相关系数矩阵;3.编制sas程序对数据进行多元方差分析;4.根据实验结果解决问题,并撰写实验报告;(五)实验体会(结论、评价与建议等)第一题:程序如下:proc corr data=sasuser.shan cov;proc corr data=sasuser.shan nosimple cov;with x3 x4;partial x1 x2;run;结果如下:(1)协方差矩阵(2)相关系数矩阵第二题:程序如下:proc anova data=sasuser.huang; class kind; model x1-x4=kind; manova h=kind; run;结果如下:(1)分组水平信息(2)x1、x2、x3、x4的方差分析(3)多元方差分析根据多元分析结果,p指小于0.05,表明在0.05的显著水平下,四个变量有显著差异。
(注:文档可能无法思考全面,请浏览后下载,供参考。
可复制、编制,期待你的好评与关注!)。
多元统计分析实验报告,计算协方差矩阵,相关矩阵,SAS

院系:数学与统计学学院专业:__统计学年级:2009 级课程名称:统计分析 ____学号:____________姓名:_________________指导教师:____________2012年4月28日(一)实验名称1. 编程计算样本协方差矩阵和相关系数矩阵;2. 多元方差分析MANOVA。
(二)实验目的1. 学习编制sas程序计算样本协方差矩阵和相关系数矩阵;2. 对数据进行多元方差分析。
(三)实验数据第一题:第二题:(四)实验内容1. 打开SAS软件并导入数据;2. 编制程序计算样本协方差矩阵和相关系数矩阵;3. 编制sas程序对数据进行多元方差分析;4. 根据实验结果解决问题,并撰写实验报告;(五)实验体会(结论、评价与建议等)第一题:程序如下:proc corr data=sasuser.sha n cov;proc corr data=sasuser.sha n no simple cov;with x3 x4;partial x1 x2;run;结果如下:(1)协方差矩阵$AS亲坯曲;15 Friday, Apr: I SB,沙DOCOUR过程x4目由度=30Xi x2x3x4x5X?-10.I9B4944-0.45E2GJ5I.3347097-G.1193E48-£0.e75»GS-ID. 188494669,36&Q3?9-7.22IO&OS1J5692043I5.49ee^91S.Oa97SM-8.45S2645■7,221050829.S78&S46-6.372E47I-15.3084183-21.7352376-11.56747851.3841097 1.G5S2M7t.3726171IJ24«17B 4.e093011 4.4C124732.B747CM-G. I1S3S49 1.GS92043-is.soul aa 4.B09B01I68.7978495劣』S670971S.57ai1B3-IH.05l6l?a15.43S6569-J1.73S2376孔耶124TB27.0387097105.103225&S7.3505S7E:-2D K5752??319-11337204-1L55M7S52r9747?3i19,573118337.3S0&87E33.3SQ6452 (2) 相关系数矩阵Pearson相关系数” N =引当HO: Rho=0 时.Prob > |r|Xi Xixl1.QQ000x2-C.239540.2061x3-0,304590.0957x40.18975Q.3092x5'0.141570.4475x6-0.837870.0630-0.492920.0150x2-0.23354 1.00000-0.162750.143510.022700.181520.24438 x20.20C10.31:1?0.441?0.90350.32640.1761x3-0.30459-0.16275 1.00000-0.06219-0.34641-0.^797-0.23674 x30.095?0.381?<.00010.0563o.oses0 JS97x40.1S8760.14351-0.86219L000000.400540,313650.22610 x40.30920.4412<.0001 D.02EG Q.085S0.2213x5-0J 41570.02270-0.946410.40054 1.000000.317370.26750 x50.4J750.90350.0G68Q.025&0.08130+1620x6-0.33?e?0.1S162-0.397970.813650.31787LOOOOO0.82976 x60.0S300.32840.02660.08580.0813C0001辺-0.432920.24938-0.288740.22810 D.267600.92976 1.00000 x70,01500J7610.19970.22130JG20<.0001第二题:程序如下:proc anova data=sasuser.hua ng;class kind;model x1-x4=k ind;manova h=k ind;run;结果如下:(1)分组水平信息The ANNA ProcedureCla^s Level Informat ionClass Level®Valueskind 3 123Number of observatIons CO(2) x1、x2、x3、x4的方差分析Dependent Variable : xl xlSource DFSum of SquaresMea n Square F Value Pr > F Model 25221.30000 2610.650003.380.0411Error57 44069.55000773.15000Corrected Total 5949290.85000R-Square Coeff Var Rcot MSE xl Mean 0.10592832.3508727.8055785.95000Source DF Anova SS Mean Square F ValuePr > F kind25221.300000 2610.6500003.380.0411The ANOVA ProcsdureDependent Variable : x2 x2S UB ofSource DFSquares Mean Square F ValuePr > F Model 2 518.533333 259.26666?1.620.2078Error57 9148.050000160.492105Corrected Total 599666.583333R-Square Coeff Var Root MSE 0.05364222.9988812.6685555.08333Source DF Anova SS Mean Square F ValuePr > Fkind2518.5333333259.26666671.620.2078The ANOVA Procedure)epende 「t Variable : x:3 x3S UM ofSource DF Squares Mean SquareF Value Pr > FModel2 2480.8333 1240.41670.170.8478Error57 427028.50007491.7281Corrected Total 59429509.3333R-Square Coeff Var Root MSE x3 Mean0.00577621.1798088.55477408.66672480.8333331240.4166670.17 0.8478The ANOVA Procedurex2 Mean SourceAnova SS Mean Square F Value Pr > Fkind(3) 多元方差分析The ProcedureMulti var I ate Ana lysis of Vari sinceCharacteri st ic Roots and Vectors of :: E Inverse 水 H, whereH =舫ow SSCP Matrix for kindE = Error SSCP MatrixChareucteri st icRoot Percent Characteristic Vector V F EV=1x1 x2 x30.33804686 73J7 -0.00045795 -0.00379096 0.00090988 0.00279339 0.12323983 26,C3 0.00424111 0.00236878 0.00D01B42 0.00002832 0.00000000 0.00 0.00121062 -0.00032401 0.00157046 -0.00006539 0.000000000,00-0.003177880.010435260.000070140.00078872MANOVA Test Criteria and F ApproxI nat Ions for the Hypothesis of No Overall kind EffectH 二 Anova SSCP Matr ix for kindE = Error SSCP MatrixS=2M=0*5 N=26 Stat ist icVa 1 ueF Value Num DFDsn DF Pr > F Wilks' Lambda0*660359533.04 8 IDS 0.0040 Pi 1lai f s Trace0.36123585 3,03 e 110 0.0041 Hote11 ing-Law 1ey Trace Q.45927921 3.07 e 74.85G0.0048 Roy s Greatest Root 0.336045804.624550.0027NOTE : F Statistic for Roy's Greatest Root iis an upper boundsNOTE: F Statist ic f or Wilks' Lambdei is exact.根据多元分析结果,p 指小于0.05,表明在0.05的显著水平下,四个变量有 显著差异SourceDF Sum of Squares Mean iSouare F ValuePr > F Model239529,3000 192B4.8E0D 8.010.0009Error57 197115.10002405.5281Corrected Totiii59175644.4000R-SqusreGreff Vir Root M SE x4 Mean0.21936018.96604 49.04610 250.6000SourceDFA JWVI SSMean ^4j&re F V&luePr > F kind2 38529.3000019264.650008.010.0009The ANOVA ProcedureDependent Var iabls : x4 x4。
多元分析SAS上机实验修改

实验1. 应用SAS作一元线性回归分析
data ex;input x y @@;
Error
6 601.80823 100.30137
C Total 7 14743.54875
Root MSE 10.01506 R-square Dep Mean 43.51250 Adj R-sq C.V. 23.01651
0.9592 0.9524
RA2 d
j
R2
p(1 R2 ) n p1
INTERCEP
X
INTERCEP 0.2249182623 -0.005520346
X
-0.005520346 0.0003049915
Y
2019/5/11
5.9223664747 2.0768029572
Y 5.9223664747 2.0768029572 601.80822932
6
Dep Var Predict Std Err Lower95% Upper95% Obs Y Value Predict Predict Predict 1 46.3000 35.6206 3.603 9.5773 61.6640 2 30.7000 34.9976 3.613 8.9459 61.0493 3 144.6 149.8 9.630 115.8 183.8 4 69.2000 53.0658 3.631 26.9988 79.1327 5 16.0000 21.0830 4.013 -5.3172 47.4833 6 12.3000 22.5368 3.957 -3.8127 48.8863 7 2.7000 8.6222 4.601 -18.3464 35.5908 8 26.3000 22.3291 3.965 -4.0274 48.6856 9 . 47.4584 3.556 21.4532 73.4636
应用多元分析实验三报告

应用多元分析实验报告实验二主成份分析班级应数08-1班姓名马相敏学号 24一、实验目的:通过本实验掌握使用sas进行主成份分析的方法。
二、实验内容,程序代码及结果分析:表3-1给出的是美国50个州每100000个人中犯罪的比率数据,是对表中数据编程进行主成分分析。
从相关矩阵出发进行主成分分析程序如下:proc princomp data=exec76 out=prin;var x1-x7;proc sort;by prin1;proc print;id state;var prin1 prin2 prin3;proc sort;by prin2;proc print;id state;var prin1 prin2 prin3;proc sort;by prin3;proc print;id state;var prin1 prin2 prin3;proc plot data= prin;plot prin2*prin1 $ obs='*'/haxis=-4 to 5.5 by 1vaxis=-3 to 3 by 0.5; run;proc plot data= prin;plot prin3*prin2 $ obs='*'/haxis=-3 to 3 by 0.5vaxis=-1.8 to 2.8 by 0.5;run;(1)、描述性统计量和相关矩阵如图表一图表 1(2)、样本相关矩阵的特征值,每个主成分的贡献率,及累计贡献率,如图表二。
前三个主成份的累计贡献率达到86.85%,故选取前三个主成份就能较好的概括这组数据。
图表 2(3)相关矩阵的特征向量如图三,从中可以看出前三个主成份分别为:*7*6*5*4*3*2*110.295177 0.357360 0.4401570.396652 0.396875 0.4317590.300279ˆx x x x x x x y ++++++=*7*6*5*4*3*2*120.502421 0.402319 0.2033410.3435280.042247 169435.00.629174- ˆx x x x x x x y +++-+-=*7*6*5*4*3*2*13568384.0539231.0209895.0069510.00.495861 244198.00.178254ˆx x x x x x x y +---+-=可以看出,第一主成分1ˆy在所有变量上都有近似相等的正载荷,反映了每个州的综合犯罪程度,可成为综合犯罪率;而第二主成份在*5x 、*6x 、*7x 上有较高的正载荷,在其他变量上有较低的正载荷或负载荷,该成分度量了盗窃及交通犯罪的程度;而第三主成分在*1x 、*3x 、*7x 有较高的载荷,度量了杀人抢劫和汽车犯罪的程度;三个成分总体上以汽车犯罪为主要因素,可见美国当今以交通犯罪为主。
多元统计分析实验报告计算协方差矩阵相关矩阵SAS
多元统计分析实验报告计算协方差矩阵相关矩阵SAS实验目的:通过对多元统计分析中的协方差矩阵和相关矩阵的计算,探究变量之间的相关性,并使用SAS进行实际操作。
实验步骤:1.数据准备:选择一个数据集,例如学生的成绩数据,包括数学成绩、语文成绩和英语成绩。
2.数据整理:将数据转化为矩阵形式,每一行代表一个学生,每一列代表一个变量(即成绩),记为X。
3. 计算协方差矩阵:根据公式计算协方差矩阵C,其中元素Cij表示变量Xi和Xj之间的协方差。
计算公式为Cij = cov(Xi, Xj) = E((Xi - u_i)(Xj - u_j)),其中E为期望值,u_i和u_j分别是变量Xi和Xj的均值。
4. 计算相关矩阵:根据协方差矩阵计算相关矩阵R,其中元素Rij表示变量Xi和Xj之间的相关性。
计算公式为Rij = cov(Xi, Xj) / (sigma_i * sigma_j),其中sigma_i和sigma_j分别是变量Xi和Xj的标准差。
5.使用SAS进行实际操作:使用SAS软件导入数据集,并使用PROCCORR和PROCPRINT命令进行协方差矩阵和相关矩阵的计算和输出。
实验结果:通过计算协方差矩阵和相关矩阵,可以得到变量之间的相关性信息。
协方差矩阵的对角线上的元素表示每个变量的方差,非对角线上的元素表示不同变量之间的协方差。
相关矩阵的对角线上的元素都是1,表示每个变量与自身的相关性为1,非对角线上的元素表示不同变量之间的相关性。
使用SAS进行实际操作后,我们可以得到一个包含协方差矩阵和相关矩阵的输出表格。
该表格可以帮助我们更直观地理解变量之间的相关性情况,从而为后续的统计分析提供参考。
实验总结:通过本次多元统计分析实验,我们了解了协方差矩阵和相关矩阵的计算方法,并使用SAS软件进行实际操作。
这些矩阵可以帮助我们评估变量之间的相关性,为后续的统计分析提供重要的基础信息。
在实际应用中,我们可以根据协方差矩阵和相关矩阵的结果,选择合适的统计方法和模型,并做出恰当的推断和决策。
多元统计实验SAS软件应用基础
6 90 78 82 75 97
7 75 73 88 97 89
8 93 84 83 68 88
9 87 73 60 76 84
10 95 82 90 62 39
11 76 72 43 67 78
12 85 75 50 34 37
请计算各门成绩的均值、方差、标准差、变异系数、偏度、峰度。
二,实验原理
对于样本容量为n的一个样本:
有如下概念:
均值(Mean):
方差():
偏度(SKEWNESS):
峰度(KURTOSIS):
中位数(MEDIUM):
分位数:
上四分位数:
下四分位数:
三均值:
极差(RANGE)
Proc步具有大致相同的程序结构:
PROC过程名<option(s)> <statistic-keyword(s)>;
2.学生管理数据库中数据集如下:
姓名
出生日期
年龄
学号
数学
英语
王红
1977-06-02
22
9810012
90
73
李明
1978-03-23
21
9810004
88
68
徐凯歌
1978-11-14
21
9810034
92
78
吴青云
1978-04-12
21
9810023
89
84
李清华
1978-10-24
21
9810024
②plot:要求对所分析的各变量的观测值产生一个茎叶图(或水平直方图)、一个箱线图和一个正态QQ图。若某区间的观测值超过48,则不绘制茎叶图,而改绘制直方图。在正态QQ图中,以“*”表示正态QQ图上的点,以“+”表示相应的参考直线。
多元分析实验报告典型相关分析
多元分析实验报告—典型相关分析院系:数学与信息科学系专业:数学与应用数学姓名:***学号:540910020103一实验名称:典型相关分析二实验目的:通过本实验掌握使用SAS进行典型相关分析的方法。
三实验内容:编程作典型相关分析四实验代码及结果分析:练习1典型相关分析的程序代码如下:输出1典型相关系数及检验结果分析:典型相关系数,包括典型相关系数,修正的典型相关系数,近似标准误差及典型相关系数的平方。
在本题中,第一典型相关系数p1=0.394506. 检验在这个总体中当前的典型相关系数及比它小的所有典型相关系数均为0的假设。
包括似然比统计量,近似的F统计量,分子自由度,分母自由度及检验的p值。
似然比值为0.84036276,近似F统计量,454.09,且p值都很小,所以都显著。
输出2 关于两组变量的原始典型相关系数结果分析:从原始变量出发的典型相关系数。
输出3标准化的典型系数结果分析:从标准化变量出发的典型相关系数,第一对典型变量为:V*=1.2568x1*-1.0253x2*,W1*=1.1045y1*-0.4527y2*,第二对典型变量为:V2*=0.2970x1*+0.7852x2*,W2*=-0.0182y1*+1.0076y2*。
练习2执行典型相关分析的程序代码如下:输出1变量间的相关系数矩阵输出2 典型相关系数及检验结果分析:典型相关系数,包括典型相关系数,修正的典型相关系数,近似标准误差及典型相关系数的平方。
在本题中,第一典型相关系数p1=0.788508。
检验在这个总体中当前的典型相关系数及比它小的所有典型相关系数均为0的假设。
包括似然比统计量,近似的F统计量,分子自由度,分母自由度及检验的p值。
似然比值为0.37716288,近似F统计量为6.60,概率水平值为0.0003,故在=0.1的显著水平下,否定所有典型相关系数为0的假设,也就是至少有一个典型相关是显著的。
输出3 标准化的典型系数结果分析:从标准化变量出发的典型相关系数,第一对典型变量为:U1*=0.5522x1*+0.5215x2* ,V1*=0.5044y1*+0.5383y2*,如果需要,还可写出第二对典型变量。
实验四回归分析SAS过程
课时授课计划课次序号:10 一、课题:实验四回归分析SAS过程(1)———统计推断与预测二、课型:上机实验三、目的要求:1.掌握利用SAS建立多元回归方程的方法;2.能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.四、教学重点:会对实际数据建立有效的多元回归模型;能对回归模型进行运用,对实际问题进行预测或控制.教学难点:多元回归模型的建立.五、教学方法及手段:传统教学与上机实验相结合.六、参考资料:《应用多元统计分析》,高惠璇编,北京大学出版社,2005;《使用统计方法与SAS系统》,高惠璇编,北京大学出版社,2001;《多元统计分析》(二版),何晓群编,中国人民大学出版社,2008;《应用回归分析》(二版),何晓群编,中国人民大学出版社,2007;《统计建模与R软件》,薛毅编著,清华大学出版社,2007.七、作业:2.3(单) 2.4八、授课记录:九、授课效果分析:实验四回归分析SAS过程(1)2学时一、实验目的和要求掌握利用SAS建立多元回归方程的方法,掌握PROC REG过程,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.二、实验内容1. PROC REG过程一般格式:PROC REG <DATA=SAS data set>;MODEL 因变量=回归变量/ <选项部分>;其它选择语句;OUTPUT OUT=SAS数据集名关键字名=输出数据集中的变量名;RUN;(1)PROC REG语句此语句是PROC REG过程的必需语句,指出要进行分析的数据集.省略此项,SAS系统对最新建立的数据集进行分析.(2)MODEL语句中的选项部分该语句定义建模用的因变量、回归变量(自变量)、模型的选择及拟合结果输出的选择.在关键词“Model”之后,应指明因变量,等号后依次列出回归变量,每个变量间用空格分开.此语句的选项部分提供了最优模型的选择方法和其他拟合结果的输出选项,其中包括:1)选择合适的建立模型方法:SELECTION=name其中“name”可以是FORWARD(或F)、BACKW ARD(或B)、STEPWISE、RSQUARE、ADJRSQ、CP等之一.SELECTION=FORWARD SLENTRY=显著性水平向前选择最优模型法(FORWARD):从仅含常数项的回归模型开始,逐个加入自变量,对每一个尚不在方程内的自变量按一定显著性水平,根据其一旦进入模型后对模型的贡献大小逐步引入方程,直至再没有对模型有显著贡献的自变量.“SLENTRY=显著性水平”为自变量进入模型的控制水平,写在选择方法语句之后.若省去此句,则SAS系统默认的水平为SLENTRY=0.05.●SELECTION=BACKWARD SLSTAY=显著性水平向后删除法(BACKWARD):先建立包含全部自变量的线性回归模型,然后按一定的显著性水平从模型中逐步剔除变量.缺省SLSTAY =0.1●SELECTION=STEPWISE SLENTRY =入选水平SLSTAY=剔除水平逐步回归法(STEPWISE):按向前选择法(前进法)进入变量,再对模型内所有变量检验,看是否有因新变量引入而对模型的贡献变得不显著,若有就剔除,若无则保留,直至方程内所有变量均显著.逐步法有两个控制水平,即选入水平(SLENTRY=入选水平)和剔除水平(SLSTAY=剔除水平),而且剔除水平应低于选入水平.缺省SLENTRY =0.15 SLSTAY =0.15●SELECTION=RSQUARE在所有可能的回归方程中用2pR准则选择最优模型的方法.在每一个给定的自变量个数的水平上,打印出使2pR达到最大的那个回归模型的拟合结果.●SELECTION=ADJRSQ:修订的2pR准则选择最优模型法.●SELECTION=CP:p C准则选择最优模型法.注意:以上方法只可在选项部分写出其中一种,不可并用.2)对模型选取细节的选项●DETAILS:对模型选取方法FORWARD、BACKWARD、STEPWISE,若打印出每一步引入和删除自变量及相关信息选用此项.如一个自变量选入模型时的偏F值、模型的2R值和一个自变量被剔除时模型2R值及有关参数估计的信息.●NOINT:取消回归模型的常数项,即拟合过原点的回归方程.3)对估计细节内容的选择:在选项部分,还可以选择一个或多个(中间用空格分开)参数估计和拟合残差等相关内容,常用的有:●CORRB:输出参数估计的相关系数矩阵,第i行第j列为∧iβ与∧jβ相关系数估计.●COVB:输出估计参数的协方差矩阵,即MSE(X T X)-1.●P:输出因变量拟合值、观测值、拟合残差.若已选CLI、CLM、R,无需该选项.● R :输出有关残差及用于影响性分析的各量,包括拟合值的标准差、残差、学生化残差(残差除以标准差)及Cook 距离(度量了当删除某观测值后,参数估计的总变化量).● I :输出矩阵1)(-X X T .输出形式为⎥⎥⎦⎤⎢⎢⎣⎡∧∧-SSE T ββX X T 1)( 注意:以上选择内容可以和最优模型选择方法并用于Model 语句的“选项部分”.对BACKWARD 、FORWARD 、STEPWISE 的模型选择方法,以上估计细节内容只是最终选择模型的相应结果;对RSQUARE 准则,只给出全模型的相应结果;对于ADJRSQ 和CP 方法,给出具有最大2a R 和p C 值的模型的相应结果. (3)OUTPUT 语句——建立SAS 的输出结果数据集此语句建立一个与估计内容有关的SAS 数据集.语句格式为:OUTPUT OUT=SAS 数据集名 关键字名=输出数据集中的变量名;● 关键字名为需要的统计量名,它们有PREDICTED (或P )=name :因变量拟合值,指定名称为name ;RESIDUAL (或R )=name :残差及指定的名称;STUDENT=name :标准化(或学生化)残差;L95M=name :因变量期望值的95%的置信区间的置信下限;U95M=name :因变量期望值的95%的置信上限;L95=name :因变量值的95%置信区间的置信下限;U95=name :因变量值的95%的置信区间的置信上限;COOKD (COOK 氏D 值)=name :Cooki 距离,用于影响性分析的统计量;H=name :杠杆量,即T i T i x x 1)(-X X ,n i ,,2,1 =,i x 是设计矩阵X 的第i 行;PRESS=name :)(p d i 值,用以估计第i 组观测值对拟合值的影响;DFFITS=name :用以估计第i 组观测值对参数估计的影响;STDP=name :期望值的标准误差STDR=name :残差的标准误差;STD I =name :预测值的标准误差;其中等号前的部分为输出语句的关键词,后面的name 飞等号前的变量指定一名称.以上介绍了一些常用的选项.无论选项如何,PROC REG 过程总是自动输出相应模型的参数估计值及其标准差,检验参数是否为零的t 统计量值及相应的p 值.方差分析表、检验回归关系显著性的F 统计量和p 值,复相关系数及其平方值等.2.示例例1(书上例2.3)某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y 与他们研究成果(论文、著作等)的质量指标1X 、从事研究工作时间2X 、能获得资助的指标3X .为此按一定设计方案调查了24位此类型的数学家,得数据如书上表2.3所示.(1)假设误差服从),0(2σN 分布,建立Y 与321,,X X X 之间的线性回归方程并研究相应的统计推断问题;(2)假设某位数学家的关于321,,X X X 的值为)(2.7,20,1.5),,(030201=x x x ,试预测他的年工资额并给出置信度为95%的置信区间.解:(1)建立回归模型进行统计推断设Y 与321,,X X X 回归模型εββββ++++=3322110X X X Y ,观测值满足i i i i i x x x y εββββ++++=3322110,24,,2,1 =i其中i ε(24,,2,1 =i )相互独立,且),0(~2σεN i .即 ,εX βY += ),(~2I 0εσN1)SAS 系统回归分析的proc reg 过程进行统计推断程序:data examp2_3;input y x1-x3;cards ; 33.2 3.5 9 6.1 40.3 5.3 20 6.4 38.7 5.1 18 7.4 46.8 5.8 33 6.7 41.4 4.2 31 7.5 37.5 6.0 13 5.9 39.0 6.8 25 6.0 40.7 5.5 30 4.0 30.1 3.1 5 5.8 52.9 7.2 47 8.3 38.2 4.5 25 5.031.8 4.9 11 6.443.3 8.0 23 7.6 44.1 6.5 35 7.0 42.8 6.6 39 5.0 33.6 3.7 21 4.4 34.2 6.2 7 5.5 48.0 7.0 40 7.0 38.0 4.0 35 6.0 35.9 4.5 23 3.5 40.4 5.9 33 4.9 36.8 5.6 27 4.3 45.2 4.8 34 8.0 35.1 3.9 15 5.0 ;run ;proc reg data =examp2_3; /* 调用回归分析的reg 过程 */model y=x1-x3/i; /* 模型因变量y,自变量x1、x2、x3,输出Hessian 矩阵*/run ;2)由方差分析表进行统计推断Analysis of Variance 方差分析表Sum of MeanSource DF Squares Square F Value Pr > F方差来源 自由度 平方和(SS ) 均方(MS ) F 0=MSR/MSE 检验p 值0pModel p-1=3 SSR=627.81700 MSR=SSR/3=209.27233 F 0=68.12 <.0001Error n-p=24-4=20 SSE=61.44300 MSE=SSE/20=3.07215Corrected Total 23 SST=689.26000Root MSE 1.75276 R-Square 0.9109Dependent Mean 39.50000 Adj R-Sq 0.8975Coeff Var 4.43735从方差分析表得出0722.32==∧MSE σ;线性回归关系显著性检验: 0:3210===βββH 统计量)20,3(~0F MSEMSR F H 真=,其观测值119.680=F 0001.0)(00=≥=F F P p H ,拒绝0H ,认为Y 与321,,X X X 的线性回归关系是高度显著的.另外,由方差分析表给出9109.026.689817.6272===SST SSR R , 也表明线性回归关系高度显著.3) 回归参数的统计推断的SAS 输出结果Parameter Estimates参数估计表Parameter StandardVariable DF Estimate Error t Value Pr > |t|参数 参数估计值k ∧β 标准差估计值)(k s ∧β t 值k t 0 |)||(|00k k H t t P p ≥= Intercept 1 17.84693 2.00188 8.92 <.0001x1 1 1.10313 0.32957 3.35 0.0032x2 1 0.32152 0.03711 8.66 <.0001x3 1 1.28894 0.29848 4.32 0.0003由程序结果给出参数估计值k ∧β,检验假设0:0=k k H β,3,2,1=k )20(~0t c c t kk k H kk kk k ∧∧∧∧=-=σβσββ真对给出显著性水平05.0=α,由参数估计表最后一列检验k p 0值看出,05.0|)||(|000<≥=k k H k t t P p k ,拒绝k H 0,认为k X (3,2,1=k )对Y 均有显著影响.4)回归参数的区间估计进一步,取置信水平05.0=α,由于086.2)20()(975.021==--t p n tα,利用表中的参数估计值和相应的标准差估计式)()20(975.0k k s t ∧∧±ββ,求得4210,,,ββββ的置信度95%的置信区间分别为)0229.22,6709.13(0019.2086.28469.17)()20(:0975.000=⨯±=±∧∧βββs t)7906.1,4156.0(3296.0086.21031.1:1=⨯±β )3989.0,2441.0(0371.0086.23215.0:2=⨯±β)9116.1,6662.0(2985.0086.22889.1:3=⨯±β(2)关于Y 的预测The REG ProcedureModel: MODEL1Dependent Variable: yX'X Inverse, Parameter Estimates, and SSE1)(-X X T 参数估计 SSEVariable Intercept x1 x2 x3 y 回归参数值Intercept 1.3044630488 -0.101873528 0.0004420084 -0.121579266 17.846930636x1 -0.101873528 0.035355881 -0.001674335 -0.007647007 1.1031303951x2 0.0004420084 -0.001674335 0.0004482371 -0.000443861 0.3215196814x3 -0.121579266 -0.007647007 -0.000443861 0.028******* 1.2889408958y 17.846930636 1.1031303951 0.3215196814 1.2889408958 SSE =61.443003635由上表1-4行,2-5列构成的矩阵为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡----------=-02900.000044.000765.012158.000044.000045.000167.000044.000765.000167.003536.010187.012158.000044.010187.030446.1)(1X X T 4430.61=SSE ,T T )2889.1,3215.0,1031.1,8469.17()(1==-∧Y X XX β,代入得3212889.13215.01031.18469.17X X X +++=∧Y --------经验回归方程 对于给定321,,X X X 的值)2.7,20,1.5(),,(030201=x x x ,由经验回归方程可得0y 预测值1828.392.72889.1203215.01.51031.18469.170=⨯+⨯+⨯+=∧y令T T x x x )2.7,20,1.5,1(),,,1(0302010==x ,由0722.3=MSE 直接计算可得 0y 的置信度为95%的置信区间)0236.43,3420.35(8412.1086.21828.39])(1[)20(010975.00=⨯±=+±-∧x X X x T TMSE t y 此置信区间的长度较小,因而对实际有较好的参考价值.求因变量均值和因变量均值的置信区间:OUTPUT OUT=b L95M=u1 U95M=u2 L95=v1 U95=v2;Proc print data=b;run;结果:The SAS System 08:32 Wednesday, September 22, 2012 3 y 置信下限 置信上限 y 置信下限 上限])(1[)20(1975.0i i T Ti MSE t y x X X x -∧+± Obs y x1 x2 x3 u1 u2 v1 v21 33.2 3.5 9 6.1 30.8968 34.0314 28.4861 36.44212 40.3 5.3 20 6.4 37.4854 39.2609 34.6107 42.13563 38.7 5.1 18 7.4 37.4707 40.1261 34.9086 42.68824 46.8 5.8 33 6.7 42.5205 44.4618 39.7083 47.27405 41.4 4.2 31 7.5 40.4232 43.8053 38.0859 46.14266 37.5 6.0 13 5.9 34.8524 37.6481 32.3359 40.16457 39.0 6.8 25 6.0 39.8817 42.3580 37.2597 44.98008 40.7 5.5 30 4.0 37.1681 40.2629 34.7453 42.68579 30.1 3.1 5 5.8 28.5559 32.1443 26.2774 34.422810 52.9 7.2 47 8.3 49.6366 53.5616 47.4495 55.748711 38.2 4.5 25 5.0 36.2392 38.3482 33.4885 41.098912 31.8 4.9 11 6.4 33.7304 36.3460 31.1552 38.921213 43.3 8.0 23 7.6 41.7930 45.9327 39.6615 48.064314 44.1 6.5 35 7.0 44.1509 46.4352 41.4626 49.123515 42.8 6.6 39 5.0 42.5368 45.6863 40.1307 48.092516 33.6 3.7 21 4.4 32.9302 35.7734 30.4289 38.274617 34.2 6.2 7 5.5 32.1359 35.9164 29.9103 38.142018 48.0 7.0 40 7.0 46.0530 48.8515 43.5374 51.367019 38.0 4.0 35 6.0 39.6197 42.8729 37.2446 45.248020 35.9 4.5 23 3.5 33.0568 36.3778 30.7017 38.732821 40.4 5.9 33 4.9 40.0280 42.5347 37.4163 45.146422 36.8 5.6 27 4.3 36.9005 39.5954 34.3514 42.144523 45.2 4.8 34 8.0 42.6520 46.1184 40.3390 48.431324 35.1 3.9 15 5.0 32.2029 34.6304 29.5643 37.2690说明:10程序窗口直接调入Txt数据文件做回归分析Example2_3数据存在桌面ex2-3.txt文件里,无变量名,调用Txt文件做回归分析,程序:DATA examp2_3;INFILE 'C:\Users\Administrator\Desktop\ex2-3.txt';INPUT Y X1 X2 X3;PROC PRINT;RUN;proc reg data=examp2_3; /* 调用回归分析的reg过程 */model Y=X1-X3/i; /* 模型因变量y,自变量x1、x2、x3,输出Hessian矩阵*/ run;输出结果同上。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Mean Square F Value Prob>F 14141.74052 140.992 0.0001 100.30137
R-square Adj R-sq
0.9592 0.9524
p(1 R 2 ) R2 n p1
为校正后的决定系数.
16
2013-9-9
Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > |T| INTERCEP 1 5.922366 4.74969580 1.247 0.2589 X 1 2.076803 0.17490302 11.874 0.0001 Model Crossproducts X'X X'Y Y'Y X'X INTERCEP X INTERCEP 8 144.8 X 144.8 5899.66 Y 348.1 13109.99
2 RA d j
Mean Square F Value Prob>F 14141.74052 140.992 0.0001 100.30137
R-square Adj R-sq
0.9592 0.9524
p(1 R 2 ) R2 n p1
为校正后的决定系数.
14
2013-9-9
Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > |T| INTERCEP 1 5.922366 4.74969580 1.247 0.2589 X 1 2.076803 0.17490302 11.874 0.0001 Model Crossproducts X'X X'Y Y'Y X'X INTERCEP X INTERCEP 8 144.8 X 144.8 5899.66 Y 348.1 13109.99
退出SAS有两种方法: (1) 点击 File 菜单中的 Exit 命令; 2013-9-9 点击窗口右上角的×。 (2)
5
以下是用SAS程序绘制的二维正态分布分布密度函数 的示意图。所用的SAS程序为: data ex;do x=-3 to 3 by 0.25; do y=-3 to 3 by 0.25; p=exp(-((x*x+y*y)*5/4+x*y*3/2)/2)/2/3.1416; output;end;end; proc g3d;plot y*x=p;run;
Y 348.1 13109.99 29890.25
X'X Inverse, Parameter Estimates, and SSE INTERCEP X INTERCEP 0.2249182623 -0.005520346 X -0.005520346 0.0003049915 Y 5.9223664747 2.0768029572 2013-9-9
Y 348.1 13109.99 29890.25
X'X Inverse, Parameter Estimates, and SSE INTERCEP X INTERCEP 0.2249182623 -0.005520346 X -0.005520346 0.0003049915 Y 5.9223664747 2.0768029572 2013-9-9
多元统计分析第一次实验 指导老师:肖枝洪
建立数据集, 熟悉SAS软件的操作界面,掌握编 写SAS程序的基本语言常识和程序结构及作图; 掌握SAS程序中的reg过程的基本语法结构,理解 程序结果的意义 ,并进行预报!
2013-9-9
1
2013-9-9
2
2013-9-9
3
Statistical Analysis System 简称为SAS,可用来分析数 据和编写报告.它是美国SAS研究所的产品,在国际 上被誉为标准软件,在我国深受医学、农林、财经、社 会科学、行政管理等众多领域的专业工作者的好评。 有关SAS的最新信息,可以查看 。 SAS采用积木式模块结构, 其中的SAS/STAT模块是目前功能最强的多元统 计分析程序集,可以做回归分析、聚类分析、判别分析、 主成分分析、因子分析、典型相关分析 以及各种试验设计的方差分析和协方差分析。 本讲义围绕SAS的应用,讲述以下四部分内容: (1)SAS应用基础; (2) SAS常用语句; (3)SAS服务过程; (4)描述性统计程式。
201Байду номын сангаас-9-9 8
4.应用SAS计算卡方分布的分位数 在SAS中有cinv(p,df)函数,用此函数可以求p分位数. SAS程序为 data ex; input p df@@; c=cinv(p,df);list; cards; 0.025 4 0.05 4 0.1 4 0.9 4 0.95 4 0.975 4 ; proc print;run; 输出的结果如下: 0.025 4 0.4844185571 0.05 4 0.7107230214 0.1 4 1.0636232168 0.9 4 7.7794403397 0.95 4 9.4877290368 2013-9-9 9 0.975 4 11.143286782
Y 46.3 30.7 144.6 69.2 16.0 12.3 2.7 26.3
PRESIDI 12.2667 -4.9405 -69.4832 18.5761 -6.0554 -12.1305 -7.5067 4.7089
ˆ PRESIDi y i y i ( i )
ˆ 是第个观测值的预测残差,而 y i ( i )
2013-9-9
11
实验1. 应用SAS作一元线性回归分析 data ex;input x y @@; cards; 14.3 46.3 14 30.7 69.3 144.6 22.7 69.2 7.3 16 8 12.3 1.3 2.7 7.9 26.3 20 . ; proc gplot; plot y*x; /* 以y为纵坐标,以x为横坐标*/ symbol i=rl v=dot; /* i=rl表示画回归直线*/ /* v=dot表示观测值对应的点标记为小圆点*/ proc reg;model y=x/cli xpx i; output out=a press=presidi; proc print;run; /*y=x表示以y为因变量,以x为自变量, */ /* cli表示要求预测值的95%置信区间*/ 2013-9-9 /* xpx表示求增广矩阵, i表示求逆矩阵*/
2013-9-9
6
2013-9-9
7
3.应用SAS计算标准正态分布的分位数
在SAS中有probit(p)函数,用此函数可以求p分位数. SAS程序为 data ex; input p@@; u=probit(p);list; cards; 0.025 0.05 0.1 0.9 0.95 0.975 ; proc print; run; 输出的结果如下: -1.959963985 0.025 -1.644853627 0.05 -1.281551566 0.1 1.2815515655 0.9 1.644853627 0.95 1.9599639845 0.975
Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press)
2013-9-9
0 601.8082 5610.2160
18
OBS 1 2 3 4 5 6 7 8
X 14.3 14.0 69.3 22.7 7.3 8.0 1.3 7.9
Y 5.9223664747 2.0768029572 601.80822932 15
Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Source DF Squares Model 1 14141.74052 Error 6 601.80823 C Total 7 14743.54875 Root MSE 10.01506 Dep Mean 43.51250 C.V. 23.01651
12
Y 150 140 130 120 110 100 90 80 70 60 50
2013-9-9
40
13
Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Source DF Squares Model 1 14141.74052 Error 6 601.80823 C Total 7 14743.54875 Root MSE 10.01506 Dep Mean 43.51250 C.V. 23.01651
Lower95% Upper95% Predict Predict Residual 9.5773 61.6640 10.6794 8.9459 61.0493 -4.2976 115.8 183.8 -5.2448 26.9988 79.1327 16.1342 -5.3172 47.4833 -5.0830 -3.8127 48.8863 -10.2368 -18.3464 35.5908 -5.9222 -4.0274 48.6856 3.9709 21.4532 73.4636 .
2013-9-9 4
SAS的显示管理系统
启动计算机,点击SAS图标后,即可进入SAS的显示管理 系统.在View中有四个主要的窗口(其他的先不考虑): (1)编辑窗口(program editor):编辑程式和数据文件; (2)日志窗口(log):记录运行情况, 显示error信息; (3)输出窗口(output):输出运行的结果; (4)图形窗口(graph):输出图形. 点击 View 菜单中的 Program editor、Log、Output、 Graph 命令可以进入编辑、日志、输出及图形窗口. 按功能键F5、F6、F7也可以进入编辑、日志及输出窗口.