sas编程习题与实例应用

一、数据集整理与SAS基本编程

1、试用产生标准正态分布函数的随机函数normal（seed）产生均值为170，方差为64的正态随机数100个,并计算其常规统计量（均值、标准差、变异系数、偏度和峰度）。

data date1;

mu=170;

sigma=8;

do i=1to100;

y=mu+sigma*RANNOR(0);

output ;

end;

run;

proc means data=data1 mean std cv stderr skewness;

var y;

output out=result;

run;

2、设已知数据集class中有5个变量：name, sex, age, height 和weight，请编写程序新建数据集class1，其中class1只包含name, sex, age三个变量，且把name重命名为id。

data class;

input name$ sex$ age heigh weigh;

cards;

小明男 15 160 50

;

run;

data class1;

set class;

keep name sex age;

rename name=id ;

run;

proc print data=class1;

;

run

3、SAS的逻辑库可分为永久库和临时库两种，请编写一段程序直接建立永久库sasuser中的下例数据集，并按降序排序。

数据名tong：20 13 20 16 23 19 19 16

data Sasuser.tong;

input x@@;

cards;

20 13 20 16 23 19 19 16

;

run;

proc sort data=Sasuser.tong;

by descending x ;

run;

proc print data=Sasuser.tong;

run;

4、设已知数据集data1和数据集data2

请编写程序串接data1和data2，且分组变量为number。

data data1;

input number province$;

cards;

1 Hebei

3 Zhejiang

5 Gansu

;

run;

data data2;

input number city$;

cards;

2 Chengdu

4 Nanjing

;

run;

data data;

set data1 data2;

by number;

run;

proc print data=data;

run;

二、描述统计

1、下表记录了某超市一个月内每天的营业额(千元)，现用SAS 过程做描述统计，请根据给出的结果回答以下问题：

（1）、该超市一个月内的平均营业额，哪天最大、最小？

（2）、营业额的偏度、变异系数；

（3）、数据是否服从正态分布？（0.05

α=）data data1;

input number province$;

cards;

1 Hebei

3 Zhejiang

5 Gansu

;

run;

data data2;

input number city$;

cards;

2 Chengdu

4 Nanjing

;

run;

data data;

set data1 data2;

by number;

run;

proc print data=data;

run;

data a;

input date total;

cards;

;

proc univariate data=a ;

var total;

run;

2、假设某学校大学生的身高为X （记总体X 的均值为1μ，方差为21σ），体重为Y （记总体Y 的均值为2μ，方差为22σ），今从全校随机抽取100名学生，测得身高、体重数据如下，请根据输出结果回答以下问题：

1、身高、体重的均值12,μμ和方差2212,σσ的90%的置信区间；

data a;

input heigh@@ weigh@@; cards ; ; run ;

proc ttest data =a alpha =0.1; run ;

{169.31，171.09}{60.201，62.307}

2、分析100名学生身高数据频率直方图；

proc gchart data =a; vbar heigh/type =freq; run ;

3、对身高均值170cm μ=和方差2230cm σ=做假设检验；

0.7072>0.05 接受原假设

没有显著差异；

4、体重数据是否来自正态总体？

proc univariate data=a normal;

var weight;

run;

样本少于2000看第一个大于2000看第二个

因为0.4639大于0.05所以接受原假设

所以来自正态总体

三、假设检验

1、某生产企业进行技术改造，为考察改造是否对生产量有提高，记录改造前后各10天的产量（吨/天）的数据：

技术改造对产量是否有显著的影响（0.05α=）？

data test; input a b@@; cards ; run ;

proc ttest data =test; paired a*b; run ;

因为0.0384<0.05 拒绝原假设，使用新技术后有显著差异。

2、某工厂有两台不同型号的机器生产同一种产品，为检验这两台机器的产量是否有显著的差异，记录了某段时间的生产数据如下：

甲乙的产量是否有显著的差异（0.01α=）？

data test2;

input a$ b@@;

cards;

run;

proc ttest data=test2 alpha=0.01;

class a;

var b;

run;

因为0.6189>0.01,所以方差相等，看第一个equal,0.0024<0.01

拒绝原假设，两个独立样本有显著差异。

四、方差分析

1、生产配方问题。生产某种产品需要两种原材料：A和B；考察的指标为产品的产量Y。设因子A有三个品牌：A1，A2，A3；因子B有四个品牌：B1，B2，B3，B4。对这12中配搭的每一种，安排两次实验，得数据如下表（每次实验的产量）：

（1）、原材料A的不同品牌对产量是否有显著的差别？哪个品牌更好些（0.05

α=）？

（2）、原材料B的不同品牌对产量是否有显著的影响？

（3）、A和B对产量的影响哪个更大些？

（4）、A和B是否有交互作用？

（5）、使产量达到最大的生产条件是什么？

data test3;

do a=1to3;

do b=1to4;

do c=1to2;

input x @@;

output;

end;

cards;

run;

proc glm data=test3;

class a b;

model x=a b a*b;

means a b a*b/t; /*多重比较设置*/

run;

因为0.0036<0.05 拒绝原假设，A品牌对产量有显著影响。

0.001<0.05 拒绝原假设，A品牌对产量有显著影响。

0.8995>0.05 接受原假设，A、B相互没有作用。

在A品牌中分成两组，a2和a1、a3.因为a2均值最大所以最好。

（如何判断看a1a3可分成一组看上面那个表格第五行，只要差值小于1.4596，即可看成一组，两个效果差不多。）

同理，b4最好。

若A、B相互不影响，那么使产量最大的组合可直接选择A、B分

别均值最大那个，即a2*b4.

若A、B相互影响，那么看这个表格均值最大那个。

2、考虑合成纤维收缩率（因子A）和总拉伸倍数（因子B）对纤维弹性Y的影响。设收缩率（A）有4个水平：A1，A2，A3，A4；总拉伸倍数（B）也有4个水平B1，B2，B3，B4。在每个组合下重复二次试验，弹性的数据如下表：

（1）、收缩率对弹性Y是否有显著的影响？哪个收缩率影响更大些？（0.05

α=）

（2）、不同拉伸倍数对产量是否有显著的影响？

（3）、收缩率和拉伸倍数是否有交互作用？

（4）、使弹性达到最大的生产条件是什么？

五、回归分析

1、某厂生产的一种产品的销售额Y与生产成本

x及销售成本2x有

关。现有10个城市销售数据记录如下，

（1）、建立销售量Y与生产成本

x及销售成本2x的回归关系式，

说明回归方程在0.05

α=的水平上是否显著？并解释回归系数的含义。data sale;

input x1 x2 y;

cards;

run;

proc reg data=sale;

model y=x1 x2 / r;

run;

因为0.0078小于0.05，所以模型达到显著水平。

回归关系式:y=79.88271+0.37176x1-0.31736x2

（2）、对回归模型进行初步诊断，并指出有无可疑点或异常点？

根据 Student Residual 或星星判断，得观测1、8、9的残差较大，说明这三个模型的预测结果不是很理想。

（3）、写出模型的决定系数、均方误差、均方误差的根，并说明决定系数的含义。

决定系数： R-Square=0.7499>0.5,说明多元回归模型的拟合程度较好。

均方误差：Mean Square Error =270.21070

均方误差的根：Root MSE=16.43809

（4）、该回归模型回归系数是否显著？可以从哪些方面对模型进行改进？

X1的回归系数p值=0.1265>0.05，不显著。

X2的回归系数p值=0.0029<0.05,显著。

（5）、如果

1170

x=元及2160

x=元，试预测该厂的销售量。

代进去。

2、某地区对某种电器的销售量Y进行调查，它与以下4个量有关：

x=居民可支配收入，2x=该电器平均价格指数，3x=该电器保有1

量，

x=其他电器平均价格指数。现有10个历史数据记录如下，

（1）、建立销售量Y与

x x的回归关系式，说明回归方程在

α=的水平上是否显著？

0.05

（2）、对回归模型进行初步诊断，并指出有无可疑点或异常点？

（3）、写出模型的决定系数、均方误差、均方误差的根，并说明决定系数的含义。

（4）、该回归模型回归系数是否显著？可以从哪些方面对模型进行改进？

六、属性数据分析

1、下表是对195名顾客的购买手机意愿（分为品牌机、山寨机、无所谓）的调查数据，同时记录了每位顾客的年收入经济状况（分为贫穷、下、中、上四个等级）。

请问购买何种手机是否与顾客的经济状况有关（0.01

α=）？如果有关两者有何趋势？

data test;

input a$ b$ x;

label a='购买手机意愿' b='经济状况';

cards;

品牌机贫穷30

品牌机下 15

品牌机中 11

品牌机上 12

山寨机贫穷7

山寨机下 18

山寨机中 19

山寨机上 29

无所谓贫穷 5

无所谓下 23

无所谓中 7

无所谓上 19

;

run;

proc freq data=test;

table a*b/expected chisq norow measures nopercent alpha=0.01;

weight x;

run;

2、巴西医生马廷思收集了580名犯有各种贪污、受贿罪的官员和580名廉洁官员之寿命调查数据，试分析贪污与寿命之间有无显著的关系？

请问短寿是否与贪污有关？如果有关两者有何趋势？