sas编程习题与实例应用

一、数据集整理与SAS基本编程

1、试用产生标准正态分布函数的随机函数normal（seed）产生均值为170，方差为64的正态随机数100个,并计算其常规统计量（均值、标准差、变异系数、偏度和峰度）。

data date1;

mu=170;

sigma=8;

do i=1to100;

y=mu+sigma*RANNOR(0);

output ;

end;

run;

proc means data=data1 mean std cv stderr skewness;

var y;

output out=result;

run;

2、设已知数据集class中有5个变量：name, sex, age, height 和weight，请编写程序新建数据集class1，其中class1只包含name, sex, age三个变量，且把name重命名为id。

data class;

input name$ sex$ age heigh weigh;

cards;

小明男 15 160 50

;

run;

data class1;

set class;

keep

name sex age; rename name=id ; run ;

proc print data =class1; run ;

3、SAS 的逻辑库可分为永久库和临时库两种，请编写一段程序直接建立永久库sasuser 中的下例数据集，并按降序排序。数据名tong ：20 13 20 16 23 19 19 16

data Sasuser.tong; input x@@; cards ;

20 13 20 16 23 19 19 16 ; run ;

proc sort data =Sasuser.tong; by descending x ; run ;

proc print data =Sasuser.tong; run ;

4、设已知数据集data1和数据集data2

number province 1 Hebei 3 Zhejiang 5

Gansu

请编写程序串接data1和data2，且分组变量为number 。

data data1;

input number province$; cards ; 1 Hebei 3 Zhejiang

number city 2 Chengdu 4

Nanjing

5 Gansu

;

run;

data data2;

input number city$;

cards;

2 Chengdu

4 Nanjing

;

run;

data data;

set data1 data2;

by number;

run;

proc print data=data;

run;

二、描述统计

1、下表记录了某超市一个月内每天的营业额(千元)，现用SAS 过程做描述统计，请根据给出的结果回答以下问题：

日期营业额日期营业额日期营业额日期营业额日期营业额

1 6.14 7 14.76 13 42.41 19 11.13 25 33.87

2 48.35 8 39.18 14 30.21 20 1.07 26 20.09

3 0.95 9 36.87 15 15.62 21 17.12 27 34.73

4 18.61 10 15.64 16 40.47 22 8.33 28 43.86

5 37.89 11 30.44 17 8.81 23 8.59 29 7.56

6 3.48 12 23.38 18 2.5 24 4.08 30 23.44 （1）、该超市一个月内的平均营业额，哪天最大、最小？（2）、营业额的偏度、变异系数；

（3）、数据是否服从正态分布？（0.05

α=）data data1;

input number province$;

cards;

1 Hebei

3 Zhejiang

5 Gansu

;

run;

data data2;

input number city$;

cards;

2 Chengdu

4 Nanjing

;

run;

data data;

set data1 data2;

by number;

run;

proc print data=data;

run;

data a;

input date total;

cards;

;

proc univariate data=a ;

var total;

run;

2、假设某学校大学生的身高为X （记总体X 的均值为1μ，方差为21σ），体重为Y （记总体Y 的均值为2μ，方差为22σ），今从全校随机抽取100名学生，测得身高、体重数据如下，请根据输出结果回答以下问题：

身高体重身高体重身高体重身高体重身高体重 172.4 75 169.3 54.8 169.3 64 171.4 64.8 166.5 47.4 171.4 62.2 168.2 66.9 165.1 52 168.8 62.2 167.8 65 165.8 62.2 167.8 65 164.4 58.7 169.9 57.5 164.9 63.5 160.3 55.2 175 66.6 172.5 73.5 172 64 168.4 57 155 57 175.5 63.9 172.3 69 168.6 58 176.4 56.9 173.2 57.5 167.5 50 169.4 52.2 166.7 72 169.5 57 165.7 55.4 161.2 48.5 172.8 57 175.1 75.5 157.5 50.5 169.8 62.9 168.6 63.4 172.6 61 163.8 58.5 165.1 61.5 166.7 52.5 170.9 61 166.1 69.5 166.2 62.5 172.4 52.6 172.8 60 177.8 63.9 162.7 56.8 168.8 54 169.1 66.2 177.5 60 177 66.2 169.9 55.9 167.4 54.4 169.3 58.4 172.8 72.8 169.8 58 160 65.3 179.1 62.2 172.3 49.8 163.3 46.5 172.9 66.7 165.4 58 175.8 63.2 162.3 52.2 165.4 65.7 171.5 59.3 176.6 66.3 181.7 68.6 175.2 74.9 169.5 59.5 169.6 61.5 169.1 63.1 185.5 77 173.9 65.5 162.5 50 171.5 58.5 175.6 59.8 166 75.5 167.2 63.3 171.9 57 176.6 58.4 177.3 67 169.2 71.8 166.2 49.8 181.7 63 175.8 68.3 172.3 55.5 172.7 58.5 174.3 64 171.2

174.8

165.4

55.5

169.1

64.8

167.9

176.8 64 183.5 69.9 165.5 48.6 171 70.5 170.3 58.5

1、身高、体重的均值12,μμ和方差2212,σσ的90%的置信区间；

data a;

input heigh@@ weigh@@; cards ; ; run ;

proc ttest data =a alpha =0.1; run ;

{169.31，171.09}{60.201，62.307}

2、分析100名学生身高数据频率直方图；

proc gchart data =a; vbar heigh/type =freq; run ;

3、对身高均值170cm μ=和方差2230cm σ=做假设检验；

0.7072>0.05 接受原假设

没有显著差异；

4、体重数据是否来自正态总体？

proc univariate data=a normal;

var weight;

run;

样本少于2000看第一个大于2000看第二个

因为0.4639大于0.05所以接受原假设

所以来自正态总体

三、假设检验

1、某生产企业进行技术改造，为考察改造是否对生产量有提高，记录改造前后各10天的产量（吨/天）的数据：

改

造前3.3 11.7

2 3.1 5.

3 3.7 21.8 17.6

改

造

后

33 30.8

42.6 5.8 1.6 19 22.4 30.2

技术改造对产量是否有显著的影响（0.05

α=）？

data test;

input a b@@;

cards;

run;

proc ttest data=test;

paired a*b;

run;

因为0.0384<0.05 拒绝原假设，使用新技术后有显著差异。

2、某工厂有两台不同型号的机器生产同一种产品，为检验这两台机器的产量是否有显著的差异，记录了某段时间的生产数据如下：性别甲甲甲甲甲甲甲乙乙乙乙乙乙乙

产量7576807780777382808585788782甲乙的产量是否有显著的差异（0.01

α=）？

data test2;

input a$ b@@;

cards;

run;

proc ttest data=test2 alpha=0.01;

class a;

var b;

run;

因为0.6189>0.01,所以方差相等，看第一个equal,0.0024<0.01

拒绝原假设，两个独立样本有显著差异。

四、方差分析

1、生产配方问题。生产某种产品需要两种原材料：A和B；考察的指标为产品的产量Y。设因子A有三个品牌：A1，A2，A3；因子B有四个品牌：B1，B2，B3，B4。对这12中配搭的每一种，安排两次实验，得数据如下表（每次实验的产量）：

B1 B2 B3 B4 A1 19.3，19.2 24，27.3 26,28.5 27.8，28.5

A2 21.7,22.6 27.5，30.3 29，28.7 30.2,29.8

A3 20,20.1 24.2,27.3 24.5，27.1 28.1，27.7 （1）、原材料A的不同品牌对产量是否有显著的差别？哪个品牌更好些（0.05

α=）？

（2）、原材料B的不同品牌对产量是否有显著的影响？

（3）、A和B对产量的影响哪个更大些？

（4）、A和B是否有交互作用？

（5）、使产量达到最大的生产条件是什么？

data test3;

do a=1to3;

do b=1to4;

do c=1to2;

input x @@;

output;

end;

cards;

run;

proc glm data=test3;

class a b;

model x=a b a*b;

means a b a*b/t; /*多重比较设置*/

run;

因为0.0036<0.05 拒绝原假设，A品牌对产量有显著影响。

0.001<0.05 拒绝原假设，A品牌对产量有显著影响。

0.8995>0.05 接受原假设，A、B相互没有作用。

在A品牌中分成两组，a2和a1、a3.因为a2均值最大所以最好。

（如何判断看a1a3可分成一组看上面那个表格第五行，只要差值小于1.4596，即可看成一组，两个效果差不多。）

同理，b4最好。

若A、B相互不影响，那么使产量最大的组合可直接选择A、B分

别均值最大那个，即a2*b4.

若A、B相互影响，那么看这个表格均值最大那个。

2、考虑合成纤维收缩率（因子A）和总拉伸倍数（因子B）对纤维弹性Y的影响。设收缩率（A）有4个水平：A1，A2，A3，A4；总拉伸倍数（B）也有4个水平B1，B2，B3，B4。在每个组合下重复二次试验，弹性的数据如下表：

B1（=460）B2（=520）B3（=560）B4（=640）A1（=0）71,73 72,73 75,73 77,75

A2（=4）73,75 76,74 78,77 74,74

A3（=8）76,73 79,77 74,75 74,73

A4（=12）75,73 73,72 70,71 69,69 （1）、收缩率对弹性Y是否有显著的影响？哪个收缩率影响更大些？（0.05

α=）

（2）、不同拉伸倍数对产量是否有显著的影响？

（3）、收缩率和拉伸倍数是否有交互作用？

（4）、使弹性达到最大的生产条件是什么？

五、回归分析

1、某厂生产的一种产品的销售额Y 与生产成本1x 及销售成本2x 有关。现有10个城市销售数据记录如下，

x （元） 2x （元） Y （个） 1x （元） 2x （元） Y （个） 120 100 102 155 210 46 140 110 100 175 150 93 190 90 120 125 250 26 130 150 77 145 270 69 120

100

102

180

300

（1）、建立销售量Y 与生产成本1x 及销售成本2x 的回归关系式，说明回归方程在0.05α=的水平上是否显著？并解释回归系数的含义。

data sale; input x1 x2 y; cards ; run ;

proc reg data =sale; model y=x1 x2 / r;

run ;

因为0.0078小于0.05，所以模型达到显著水平。

回归关系式:y=79.88271+0.37176x1-0.31736x2

（2）、对回归模型进行初步诊断，并指出有无可疑点或异常点？

根据 Student Residual 或星星判断，得观测1、8、9的残差较大，说明这三个模型的预测结果不是很理想。

（3）、写出模型的决定系数、均方误差、均方误差的根，并说明决定系数的含义。

决定系数： R-Square=0.7499>0.5,说明多元回归模型的拟合程度较好。

均方误差：Mean Square Error =270.21070

均方误差的根：Root MSE=16.43809

（4）、该回归模型回归系数是否显著？可以从哪些方面对模型进行改进？

X1的回归系数p值=0.1265>0.05，不显著。

X2的回归系数p值=0.0029<0.05,显著。

（5）、如果

1170

x=元及2160

x=元，试预测该厂的销售量。

代进去。

2、某地区对某种电器的销售量Y 进行调查，它与以下4个量有关：1x =居民可支配收入，2x =该电器平均价格指数，3x =该电器保有量，4x =其他电器平均价格指数。现有10个历史数据记录如下，

（1）、建立销售量Y 与14x x :的回归关系式，说明回归方程在

0.05α=的水平上是否显著？

（2）、对回归模型进行初步诊断，并指出有无可疑点或异常点？（3）、写出模型的决定系数、均方误差、均方误差的根，并说明决定系数的含义。

（4）、该回归模型回归系数是否显著？可以从哪些方面对模型进行改进？

六、属性数据分析

1、下表是对195名顾客的购买手机意愿（分为品牌机、山寨机、无所谓）的调查数据，同时记录了每位顾客的年收入经济状况（分为贫穷、下、中、上四个等级）。

请问购买何种手机是否与顾客的经济状况有关（0.01

α=）？如果有关两者有何趋势？

data test;

input a$ b$ x;

label a='购买手机意愿' b='经济状况';

cards;

品牌机贫穷30

品牌机下 15

品牌机中 11

品牌机上 12

山寨机贫穷7

山寨机下 18

山寨机中 19

山寨机上 29

无所谓贫穷 5

无所谓下 23

无所谓中 7

无所谓上 19

;

run;

proc freq data=test;

table a*b/expected chisq norow measures nopercent alpha=0.01;

weight x;

run;

2、巴西医生马廷思收集了580名犯有各种贪污、受贿罪的官员和580名廉洁官员之寿命调查数据，试分析贪污与寿命之间有无显著的关系？

短寿长寿合计

贪官348 232 580

清官93 487 580

合计441 719 1160

请问短寿是否与贪污有关？如果有关两者有何趋势？