SAS过程

SAS过程
SAS过程

1、TTEST过程

1.1 概述

TTEST过程可以进行单样本、两个样本和配对观察值的假设检验。单样本假设检验进行样本均数与某一个值的比较。两样本检验比较两个样本的均数。配对观察值间的检验进行配对样本间差的均数与某一值的比较。

上述三种情况都有一个共同的假设,即观察值服从正态分布。两样本均数间的检验要求两个样本相互独立。TTEST还假设这两个样本的方差相等。同时,TTEST还给出了两样本方差不相等时的校正结果(Satterthwaite,1946)。

1.2 语法:

PROC TTEST < 选择项 > ;

CLASS 分类变量 ;

PAIRED 配对列表 ;

VAR 变量 ;

1.3 选择项

Alpha=值:指出显著水平,缺省0.05

H0=m:指定H0为m而不为0。缺省时H0=0

DATA=数据集:指出分析的数据集

1.4 CLASS语句

用于两个独立样本的分析,配对试验和一个样本的分析不应该有该语句

如果没有VAR语句,则所有不在CLASS语句后的数值变量都进行分析

1.5 PAIRED语句的例子

PAIRED语句配对比较

paired A*B A-B

Paired A*B C*D A-B C-D

Paired (A B)*(C D) A-C A-D B-C B-D

Paired (A B)*(C B) A-C A-B B-C

paired (A1-A2)*(B1-B2) A1-B1 A1-B2 A2-B1 A2-B2

paired (A1-A2):(B1-B2) A1-B1 A2-B2

1.6 VAR语句

指出分析的变量,不能与PAIRED语句配合使用

如果没有CLASS语句,则进行单个样本分析。如果有CLASS语句而没有VAR语句,则所有不在CLASS语句中的变量都进行分析

1.7 SAS例题

例1.1 单样本

母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113、112、114、117、115、116、114、113(天),试检验所得样本的平均数与总体平均数114天有无显著差异?

【SAS程序】

data out1;

input x @@;

cards;

116 115 113 112 114 117 115 116 114 113

;

proc ttest h0=114;

var x;

run;

【程序解释】该程序为单样本平均数的假设检验。var语句规定要分析的变量为x,因为数据集中只有一个变量,因此,本例的var语句可以省略。h0=114选项规定,无效假设为114,即需要检验样本的平均数是否等于114。

【SAS输出】

【结果解释】SAS输出了两个表。第一个表为样本的基本统计数,从左到右分别为变量名、样本含量、样本平均数的95%置信下限、平均数、样本平均数的95%置信上限、样本标准差的95%置信下限、样本标准差、样本标准差的95%置信上限、样本标准误。第二个表为t检验,分别输出了变量名、自由度、t值和P值。结果说明,样本平均数与总体均值114差异不显著。

【另一个SAS程序】

data out1;

input x @@;

y=x-114;

cards;

116 115 113 112 114 117 115 116 114 113

;

proc ttest;

var y;

run;

【SAS输出】

例1.2 两个独立样本的假设检验

某种猪场分别测定长白后备种猪和蓝塘后备种猪90kg时的背膘厚度,测定结果如表5-3所示。设两品种后备种猪90kg时的背膘厚度值服从正态分布,且方差相等,问该两品种后备种猪90kg 时的背膘厚度有无显著差异?

长白与蓝塘后备种猪背膘厚度

品种头数背膘厚度(cm)

长白12 1.20、1.32、1.10、1.28、1.35、1.08、1.18、1.25、1.30、1.12、1.19、1.05

蓝塘11 2.00、1.85、1.60、1.78、1.96、1.88、1.82、1.70、1.68、1.92、1.80 【SAS】程序

data out1;

input g x @@;

cards;

1 1.

2 1 1.32 1 1.1 1 1.28 1 1.35 1 1.08

1 1.18 1 1.25 1 1.3 1 1.1

2 1 1.19 1 1.05

2 2 2 1.85 2 1.6 2 1.78 2 1.96 2 1.88

2 1.82 2 1.7 2 1.68 2 1.92 2 1.8

;

proc ttest;

class g;

var x;

【程序解释】观测值的数据文件out1需有一个分类变量,以便确定每个观测值所对应的是哪个组(g)。CLASS语句定义分类变量为g,VAR语句定义要分析的变量是x。

【SAS输出】

【结果解释】SAS程序计算出两个处理以及处理的差异的描述统计数和置信区间。第一个表中,N、Lower CL Mean、Mean、Upper CL Mean、Lower CL Std Dev、Std Dev、Upper CL Std Dev和Std Err分别代表样本含量、样本平均数的置信下限、样本平均数、样本平均数的置信上限、标准差的置信下限、标准差、标准差的置信上限和样本平均数的标准误。第二个表中,t 检验给出方差相等和方差不等时的相应自由度和p值(Pr>|t|)。对于不等方差,使用Satterthwaite方法进行校正。如果观测值是从正态分布的总体中抽取的,则t检验有效。第三个表,计算出的F=0.5058,说明方差相等,因此该例适合用方差相等时的t检验进行假设检验。当方差相等时,通过t检验计算出的P值=0.0001,因此拒绝H0。

例1.3 配对样本

用家兔10只试验某批注射液对体温的影响,测定每只家兔注射前后的体温,见表5-6。设体温服从正态分布,问注射前后体温有无显著差异?

【SAS程序】

data c;

input x1 x2 @@;

cards;

37.8 37.9 38.2 39.0

38.0 38.9 37.6 38.4

37.9 37.9 38.1 39.0

38.2 39.5 37.5 38.6

38.5 38.8 37.9 39.0

;

proc ttest;

paired x1*x2;

run;

【程序解释】数据步中,按顺序输入每个配对样本单位的观察值。paired x1*x2说明配对的变量为x1和x2。

【结果输出】

【结果解释】共输出了两个表,第一个表为配对样本观察值差(x1-x2)的统计数,第二个表为t检验结果。该例结果说明注射前后体温差异极显著。

【第二个SAS程序】

data c;

input x1 x2 @@;

d=x1-x2;

cards;

37.8 37.9 38.2 39.0

38.0 38.9 37.6 38.4

37.9 37.9 38.1 39.0

38.2 39.5 37.5 38.6

38.5 38.8 37.9 39.0

;

proc ttest;

var d;

run;

【程序解释】该程序中的数据步中利用d=x1-x2产生了一个新变量d,在程序步中分析的变量为d,过程步与单样本的假设检验相同,检验的是变量d的平均数是否等于0。

【SAS输出】

【结果解释】输出与前一程序相同,分析的变量为d。

2、GLM过程

2.1 概述

GLM过程利用最小二乘法拟合一般线性模型。GLM过程可以进行回归分析、方差分析和协方差分析。GLM过程分析的模型中可以有一个或多个连续的依变量或者一个或多个自变量。自变量可以是分类变量,也可以是连续变量。因此,GLM过程有很多用途:

简单回归

多重回归

方差分析

协方差分析

多项式回归

2.2 GLM过程与其它SAS过程比较

REG:REG只能进行简单线性回归。REG过程可以有多个模型。REG过程也能画出PLOT图,输出总结性统计数。

TTEST:当TTES过程用来比较两组平均数时,它也能同时比较这两组数据的方差。这时用TTEST比较好。

2.3 语法:

PROC GLM <选项>;

CLASS 分类变量;

MODEL 依变量=自变量 ;

LSMEANS 效应;

应用GLM过程时,PROC GLM和MODEL语句是必须的。只能有一个MODEL语句。如果模型中有分类变量,则这些变量必须在CLASS语句中,而且CLASS语句必须出现在MODEL语句前面。

2.4 PROC GLM<选择项>

PROC GLM标志GLM过程的开始。在PROC GLM语句中可以有下面的选择项:

→DATA=SAS-data-set

该选择项规定利用GLM过程进行分析时所用的SAS数据集。缺省情况下,即如果没有该语句,则GLM过程利用SAS最新产生的数据集。

2.5 CLASS语句

格式:CLASS 变量 ;

CLASS语句指出模型中的分类变量。如处理、性别、种别、组别、重复等。CLASS语句需要出现在MODEL语句之前。

CLASS中的变量可以是数字变量,也可以是字符变量。如果是字符变量,只用前16个字符。

2.6 MODEL语句

格式:MODEL 依变量=自变量 < / 选项 > ;

该语句说明模型中的自变量和依变量效应,依变量位于等号的左边,自变量位于等号的右边。只可以有一个MODEL语句。但依变量和自变量都可以有多个,多个自变量和多个依变量之间用空格隔开。

2.6.1 效应的有关规定

模型中自变量的每一项都称为效应,可以是一个变量,也可以是多个变量的组合。效应是由变量名以及运算符来规定的。变量主要有两种,即分类变量和连续变量。分类变量的值称为水平。我们用到的效应运算符有交叉运算符。还有一种效应运算符,称为竖(bar)运算符,用来使效应的规定更加简便。

我们用到的GLM过程效应有4种。假定A、B、C、D、E为分类变量,X1、X2和Y是连续变量,则:

→回归效应:直接写出连续变量名,如X1 X2

→多项式效应:两个或多个连续变量用乘号连接起来,如X1*X1 X1*X2

→主效应:直接写出分类变量,如A B C

→交互作用:用乘号连接分类变量,如A*B B*C A*B*C

→连续-分类效应互作是用乘号将连续变量和分类变量连在一起:X1*A

竖运算符:如A|B等同于A B A*B,A|B|C等同于(A|B)|C,即A B A*B B*C A*C A*B*C。

下面是一些MODEL例子。其中a、b和c是分类变量,y、y1、y2、x和z是连续变量。

模型模型类型

model y=x; 简单回归

model y=x z; 多重回归

model y1 y2=x z; 多元回归

model y=a; 单因素方差分析

model y=a b c; 主效应模型

model y=a b a*b; 析因模型(有互作)

model y1 y2=a b; 多元方差分析

model y=a x; 协方差分析模型

model y=a x x*a; 斜率的齐性模型

2.7 LSMEANS 语句

语法:LSMEANS 效应 < / 选项 > ;

要求计算LSMEANS语句后面列出的所有效应的最小二乘均数。可以在该语句中规定多重比较的选项。LSMEANS语句可以进行主效应和互作效应的多重比较。

例:

proc glm;

class A B;

model Y=A B A*B;

lsmeans A B A*B;

run;

A、B和A*B效应的每一水平的最小二乘均数都会打印出来。

LSMEANS语句的/后面可以选择项,重要的选项分述如下。

→PDIFF选项

语法:PDIFF

PDIFF选项要求打印出最小二乘均数比较的p值。

→ADJUST选项

语法:ADJUST=TUKEY或ADJUST=T

要求根据指定的方法计算多重比较的p值,与pdiff选项配合使用。如果有pdiff选项,而没有写ADJUST选项,这时缺省的方法为ADJUST=T,即p值的计算方法为LSD法。如果该选项为ADJUST=TUKEY,这时的p值计算方法为q法。

→STDERR 选项

语法:STDERR

STDERR选项可产生最小二乘均数,以及无效假设为H0:LS-mean=0显著性检验的标准误。→TDIFF

语法:TDIFF

TDIFF选项会给出假设H0: LS-mean(i) = LS-mean(j) 的t值及相应的概率值。

2.8 SAS例题

例2.1 单因素方差分析

研究三种不同日粮对猪日增重的影响,每种日粮饲喂5头猪,三种日粮分别用TR1,TR2和TR3表示。相关数据如下表所示:

TR1TR2TR3

270 290 290

300 250 340

280 280 330

280 290 300

270 280 300

【SAS程序】

DATA pigs;

INPUT diet $ gain @@;

DATALINES;

TR1 270 TR2 290 TR3 290

TR1 300 TR2 250 TR3 340

TR1 280 TR2 280 TR3 330

TR1 280 TR2 290 TR3 300

TR1 270 TR2 280 TR3 300

;

PROC GLM DATA=pigs;

CLASS diet;

MODEL gain=diet;

LSMEANS diet/STDERR PDIFF ADJUST=TUKEY;

RUN;

【程序解释】该程序使用GLM过程。CLASS语句定义分类自变量为diet。语句MODEL gain=diet表明gain(日增重)是依变量,diet(日粮)是自变量。LSMEANS语句计算diet 的平均值(最小二乘均数)。斜线后面的可选项(STDERR PDIFF ADJUST=TUKEY)分别用来计算最小二乘均数标准误、用Q法对最小二乘均数进行多重比较并给出多重比较的p值。

【结果解释】第一个表是依变量gain的ANOVA表,变异来源有模型(Model)、误差(Error)和校正总变异(Corrected Total)。ANOVA表中列出自由度(DF)、平方和(Sum of Squares)、均方(Mean Square)、F值(F Value)以及P值(Pr > F)。在本例中:F=6.13,P=0.0146,所以得出结论:本试验存在日粮效应。接着列出描述统计数的值,包括决定系数(R-square)、变异系数(Coeff Var.)、标准差(Root MSE)和总均值(gain Mean)。在最小二乘均数表中(Least Squares Means)列出最小二乘均数(LSMEAN)及其标准误(Standard Error)。下面的表列出关于处理间差异的P值。例如,第一行和第三列的P值是0.0310,用于检验TR1和TR3之间的差异。P=0.0310表明TR1与TR3的最小二乘均数间存在显著差异。

type I SS:第一类平方和,又称顺序平方和。它是当自变量按照在模型中的顺序,从左到右依次加入到模型中后,模型平方的增加量。因此,所有自变量的顺序平方和等于模型平方和。

type III SS:第三类平方和,又称偏平方和,参数检验平方和。它是除该自变量外,其余自变量存在于模型中,模型中增加该自变量后,模型平方和的增加量。模型中最后一个自变量的顺序平方和等于偏平方和。注意,所有自变量偏平方和之和没有意义。

方差分析表如下:

变异来源自由度平方和均方F值P值

处理 2 4480 2240 6.46 0.0125

误差12 4160 346.67

总和14 8640

多重比较表如下:

组别均值Xbar-272 Xbar-280

3 312 40* 32*

1 280 8ns

2 272

例2.2 析因试验

警察在训练狗时,有三种训练方法和三种奖励办法。训练6个月后找回东西的能力分数如下表。

训练方法

I II III

表扬45 69

53 51 51 50

62 68

52 18

25 32

物质奖励54 72

69 66 53 63

67 70

51 59

47 42

表扬+物质奖励91 87

89 91 69 73

77 74

66 68

70 64

【SAS

data two;

input g1 $ g2 $ y @@;

cards;

a1 b1 45 a1 b1 69 a1 b1 53 a1 b1 51

a2 b1 51 a2 b1 50 a2 b1 62 a2 b1 68

a3 b1 52 a3 b1 18 a3 b1 25 a3 b1 32

a1 b2 54 a1 b2 72 a1 b2 69 a1 b2 66

a2 b2 53 a2 b2 63 a2 b2 67 a2 b2 70

a3 b2 51 a3 b2 59 a3 b2 47 a3 b2 42

a1 b3 91 a1 b3 87 a1 b3 89 a1 b3 91

a2 b3 69 a2 b3 73 a2 b3 77 a2 b3 74

a3 b3 66 a3 b3 68 a3 b3 70 a3 b3 64

;

proc GLM;

class g1 g2;

model y = g1 g2 g1*g2;

lsmeans g1 g2 g1*g2/stderr pdiff adjust=tukey;

run;

【程序解释】该程序使用GLM过程。CLASS语句定义分类变量;语句MODEL y =g1 g2 g1*g2定义gain为依变量,g1、g2以及互作效应g1*g2为自变量。LSMEANS语句计算最小二乘均数,斜线后的选项计算标准误,并用Q法进行最小二乘均数间的多重比较。

【SAS输出及解释】

第一个表:方差分析表。在GLM的输出结果中,首先给出依变量y的方差分析结果,变异来源有模型(Model)、误差(Error)和校正总变异(Corrected Total)。方差分析结果中列出自由度(DF)、平方和(Sum of Squares)、均方(Mean Square)、F值(F Value)以及P值(Pr > F)。接下来把可解释的变异分解成g1、g2和g1*g2等变异。计算出的g1*g2互作效应的F值和P值分别是2.24和0.0915,表明互作效应不显著,接下来应进行g1和g2主效应的多重比较。

第二个表:因素g1(训练方法)的主效应多重比较表。列出了最小二乘均数(LSMEAN)及其标准误(Standard Error)以及用Q法对所有互作效应的差异进行检验。多重比较进行校正的P值列在结果(Pr > | t | for H0: LSMean(i) =LSMean(j) / Pr > | t |)中,例如第一行和第二列的数值是0.2987,表示训练方法I和训练方法II差异的P值为0.2988。

第三个表:因素g2的主效应多重比较表。

第三个表:因素g1*g2互作效应的多重比较表。

3、FREQ过程

3.1 概述

FREQ过程既是一个描述过程,又是一个统计分析过程,可以产生单向分类频率表,也可以n 向分类产生交叉表。频率表精确地给出了变量值的分布。交叉表又称列联表,通过列出每个组合的观察值数量,对两个或多个交叉分类变量的值进行总结。

对于单向分类表,FREQ过程可以分析水平间数量是否相等,是否符合某一比例。对于列联表,FREQ过程可以检验两个分类变量是否存在关联。

3.2 语法

PROC FREQ <选项>;

TABLES 要求 ;

WEIGHT 变量;

3.3 PROC FREQ选项

DATA=SAS数据集:规定计算所用的数据集名

3.4 TABLES语句

该语句中的“要求”指出是给出单向分类表还是交叉分类表。如果是单向分类表,“要求”为变量,如果是交叉分类表,“要求”为由星号联起来的多个变量。举例如下。

要求等价于

tables a*(b c) tables a*b a*c

tables (a b)*(c d) tables a*c b*c a*d b*d

tables (a b c)*d tables a*d b*d c*d

tables a--c tables a b c

tables (a--c)*d tables a*d b*d c*d

如果是一个单向分类表而且没有其它选项,则该语句只列出每个变量的频率、累积频率、总频率的百分比每个值的百分比。如果是多向分类表,该语句列出每两个变量组合的频率、总频率的百分比、组合占行频率的百分比、组合占列频率的百分比。

3.4.1 CHISQ选项

CHISQ选项要求计算两向分类表是否独立,以及根据度量变量间是否相关的卡方值。检验包括皮尔逊卡方、似然比卡方以及Mantel-Haenszel卡方。度量值包括phi系数,关联系数以及CramerV。对于2 2表,CHISQ包括FISHER精确检验,连续性校正卡方。对于单向分类表,CHISQ 计算每个比例的适合性卡方。如果利用TESTP=规定了比例的无效假设,CHISQ计算观察比例是否为规定比例的适合性卡方。如果利用TESTF=规定了频率的无效假设,CHISQ选项进行观察频率是否为规定频率的适合性卡方检验。

3.4.2 TESTF=(值)

在单向分类表中,规定无效假设频率,用于卡方检验。不同的值可以用空格或者逗号分开。3.4.3 TESTP=(值)

在单向分类表中,规定无效假设比例,用于卡方检验。不同的值可以用空格或者逗号分开。

3.4.4 NOCOL NOCUM NOPERCENT NOROW

→NOCOL:交叉表中,不输出组合占列和的比例

→NOROW:交叉表中,不输出组合占行和的比例

→NOCUM:单向分类表中,不输出累积比例和频率

→NOPERCENT::交叉表中,不输出组合占总数的比例、行和占总数的比例、列和占总数的比例。

单向分类表中,不输出百分比和累积百分比。

3.5 WEIGHT语句

语法:WEIGHT 变量

该语句规定了一个数字变量,该变量的值为观察值的频率。该变量的值不必是整数,但是,如果是0或者是缺失值,则会忽略它们。如果没有WEIGHT语句,PROC FREQ假设每个观察值的频率为1。

3.6 SAS例题

例3.1 50枚受精种蛋孵化出雏鸡的天数如下表。

21 20 20 21 23 22 22 22 21 22 20 23 22 23 22 19 22

24 22 19 22 21 21 21 22 22 24 22 21 21 22 22 23 22

21 22 22 23 22 23 22 22 22 23 23 22 21 22 23 22

【SAS程序】

data T22;

input x @@;

cards;

21 20 20 21 23 22 22 22 21 22 20 23 22 23

22 19 22 23 24 22 19 22 21 21 21 22 22 24

22 21 21 22 22 23 22 22 21 22 22 23 22 23

22 22 22 23 23 22 21 22

;

proc freq;

table x;

run;

【程序解释】INPUT语句说明输入的变量名称为x,@@说明数据块中每一行有多个数据需要读入。cards标志数据块从下一行开始。proc freq标志着freq程序的开始,table x要求对x 变量列表。

【SAS输出】

【输出解释】输出结果的第一列为自变量x的值,第二列为每一x值的频率,第二列为每一x 值的百分比,第三列为每一x值的累积频率,第四列为每一x值的累积百分比。

把程序改写:

proc freq;

table x/nopercent nocum;

run;

【程序说明】nopercent要求不输出百分比,nocum要求不输出累积百分比和累积频率。

【SAS输出】

例3.2 两向分类表。

【SAS程序】

DATA out1;

INPUT x y @@;

DATALINES;

1 3 5

2 1

3 5

4 1 2 1 4

2 5 2 1 1 4

3 1 2 3 2 2

2 2 4 1

3 2

4 2 1 3 4 1

3 3 1 3 2 2 3 2 2 3 2 3

1 2 4 5 2 3 4 5 2 2 1 3

;

proc freq;

table x*y;

run;

【程序解释】table x*y要求输出两个变量的交叉表。

【SAS输出】

【结果解释】输出了x、y交叉表,有组合频率、百分比、行百分比和列百分比。如x=1和y=1组合的频率为0,占行和百分比均为0。x=1和y=2组合的频率为2,占行百分比为22.22%,占列百

分比为20.00%。

把上述程序修改:

proc freq;

table x*y/nopercent;

run;

【程序解释】table x*y要求输出两个变量的交叉表。nopercent要求不输出百分比。

【结果解释】输出了x、y交叉表,有行百分比和列百分比。如x=1和y=1组合的频率为0,占行和百分比均为0。x=1和y=2组合的频率为2,占行百分比为22.22%(2/9),占列百分比为20.00%(2/10)。

把上述SAS程序进一步修改:

proc freq;

table x*y/nopercent nocol norow;

run;

【程序解释】table x*y要求输出两个变量的交叉表。nopercent要求不输出百分比, NOROW 要求交叉表不输出组合占行和的比例,NOCOL要求交叉表不输出组合占列和的比例。

【SAS输出】

【结果解释】只输出了每个数字组合的频率。

例3.3 适合性检验

在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红色有角牛杂交,子二代出现黑色无角牛152头,黑色有角牛53头,红色无角牛39头,红色有角牛6头,共250头。试问这两对性状是否符合孟德尔遗传规律中9∶3∶3∶1的遗传比例?

【SAS程序】

data out1;

input color $ number;

cards;

b1 152

b2 53

b3 39

b4 6

;

proc freq;

weight number;

table color/testp=(0.56250.18750.18750.0625);

run;

【程序解释】weight语句说明number变量为color变量的加权,如b1的频率为152。testp=(0.5625 0.1875 0.1875 0.0625)列出了理论比例,要求观察到的频率是否符合该理论比例,0.5625=9/16,0.1875=3/16,0.0625=1/16。

SAS输出:

【结果解释】首先输出的是单向分类表,从左到右各列输出的项目有颜色、频率、百分比、理论百分比、累积频率和累积百分比。下一个表是卡方适合性检验表,列出了卡方值等于8.9724,自由度等于3,p值等于0.0297,说明观察频率不符合理论比例。

下一个程序:

proc freq;

weight number;

table color/testf=(140.62546.87546.87515.625);

run;

【程序解释】testf=(140.625 46.875 46.875 15.625)要求检验观察频率是否符合理论频率。140.625=9/16*250,46.875=3/16*250,15.625=1/16*250。

【SAS输出】

例3.4 独立性检验

对三组奶牛(每组39头)分别喂给不同的饲料,各组发病次数统计如下表,问发病次数的构成比与所喂饲料是否有关?

三组牛的发病次数资料

发病次数

饲 料

总 和 1 2 3 0 19(17.3)

16(17.3) 17(17.3) 52 1 1(0.3) 0(0.3) 0(0.3) 1 2 0(1.3) 3(1.3) 1(1.3) 4 3 7(5.7) 9(5.7) 1(5.7) 17 4 3(4.7) 5(4.7) 6(4.7) 14 5 4(3.3) 1(3.3) 5(3.3) 10 6 2(2.0) 1(2.0) 3(2.0) 6 7 0(1.3) 2(1.3) 2(1.3) 4 8 1(2.3) 2(2.3) 4(2.3) 7 9 2(0.7)

0(0.7) 0(0.7) 2 总 和

39

39

39

117

对于理论次数小于5者,将相邻几个组加以合并(见表7—19),合并后的各组的理论次数均大于5。

资料合并结果

发病次数

饲 料

1 2 3 总 和 0 19(17.3) 16(17.3) 17(17.3) 52 1-3 8(7.3) 12(7.3) 2(7.3) 22 4-5 7(8.0) 6(8.0) 11(8.0) 24 6-8 5(6.3) 5(6.3) 9(6.3) 19 总 和

39

39

39

117

(注:括号内为理论次数)

【SAS程序】

data out1;

input disease diet number @@;

cards;

0 1 19 0 2 16 0 3 17

1 1 8 1

2 12 1

3 2

2 1 7 2 2 6 2

3 11

3 1 5 3 2 5 3 3 9

;

proc freq;

weight number;

table disease*diet/chisq;

run;

【SAS输出】

【结果解释】SAS输出了两个表。第一个表为交叉表。第二个表为卡方独立性检验表,其中卡方值为10.6125,自由度等于6,p值等于0.1011,说明不同饲料喂牛后,发病率差异不显著。

4、REG过程

4.1 概述

REG过程是SAS许多回归过程中的一个。它是一个一般用途的回归过程,SAS的其它回归过程用于特殊的情况。

REG过程有以下特点:

→多个模型语句

→模型和数据都可以交互式应用

→画出PLOT图,PLOT图可以有多个选择项

4.2 语法

PROC REG <选项> ;

<标签: > MODEL 依变量=<自变量> ;

PLOT <=符号> < : : :y变量*x变量> <=symbol> ;

4.3 REG语句

语法:PROC REG <选项>。

REG过程是必须的。说明REG过程的开始。

4.3.1 选项

→DATA=SAS数据集:说明用于分析的SAS数据集。

4.4 MODEL语句

语法:<标签: > MODEL 依变量=<自变量>

4.4.1 标签选项

模型标签可以是任意字母,用来识别模型的用途。

4.4.2 依变量和自变量

它们都必须是数据集中的数字变量。

4.4.3 选项

→p选项:计算预测值

→CLI选项:计算预测值的置信区间。

→CLM选项:计算观察值的置信区间。

→CLB:计算估计参数的置信区间。

4.5 PLOT语句

语法:PLOT<=符号>< : : :y变量*x变量><=symbol>

利用REG过程中的PLOT语句,可心画出散点图,散点图以y变量为纵轴,x变量为横轴。如下面的例子:

plot y*x;

plot y*x=’1’;

上面一个plot语句没有规定散点图中点的符号,SAS缺省的符号为+。下面一个PLOT语句规定散点图中点的符号为1。

SASreport过程介绍

PROC REPORT基础一、PROC REPORT格式: PROC REPORT data= SAS-data-set options ; COLUMNS variable_1 …. variable_n; DEFINE variable_1; DEFINE variable_2; . . . DEFINE variable_n; COMPUTE blocks BREAK … ; RBREAK … ; RUN; COLUMNS:指定输出到报表的列 DEFINE:上述列的格式等 COMPUTE:计算模块 BREAK / RBREAK:生成合计,或报表其它类型的格式。 PROC REPORT的选项Options有很多,下面介绍几个常用的:DATA= 指定做报表的数据集 PROMPT= PROMPT模式 NOWINDOWS= 不输出到结果 REPORT = 指定一个存储的报表来生成新报表 OUTREPT= 指定新路径来存放报表 OUT= 建立新数据集 HEADLINE 在报表变量标题和内容间生成一个水平分隔线HEADSKIP 在报表变量标题和内容间生成一行空格 2 先生成一个基本的报表 先生成数据: data mnthly_sales; length zip $ 5 cty $ 8 var $ 10; input zip $ cty $ var $ sales; label zip="Zip Code" cty="County" var="Variety" sales="Monthly Sales"; datalines; 52423 Scott Merlot 186. 52423 Scott Chardonnay 156.61 52423 Scott Zinfandel 35.5 52423 Scott Merlot 55.3 52388 Scott Merlot 122.89

SAS proc mixed 过程步介绍

Introduction to PROC MIXED Table of Contents 1.Short description of methods of estimation used in PROC MIXED 2.Description of the syntax of PROC MIXED 3.References 4. Examples and comparisons of results from MIXED and GLM - balanced data: fixed effect model and mixed effect model, - unbalanced data, mixed effect model 1. Short description of methods of estimation used in PROC MIXED. The SAS procedures GLM and MIXED can be used to fit linear models. Proc GLM was designed to fit fixed effect models and later amended to fit some random effect models by including RANDOM statement with TEST option. The REPEATED statement in PROC GLM allows to estimate and test repeated measures models with an arbitrary correlation structure for repeated observations. The PROC MIXED was specifically designed to fit mixed effect models. It can model random and mixed effect data, repeated measures, spacial data, data with heterogeneous variances and autocorrelated observations.The MIXED procedure is more general than GLM in the sense that it gives a user more flexibility in specifying the correlation structures, particularly useful in repeated measures and random effect models. It has to be emphasized, however, that the PROC MIXED is not an extended, more general version of GLM. They are based on different statistical principles; GLM and MIXED use different estimation methods. GLM uses the ordinary least squares (OLS) estimation, that is, parameter estimates are such values of the parameters of the model that minimize the squared difference between observed and predicted values of the dependent variable. That approach leads to the familiar analysis of variance table in which the variability in the dependent variable (the total sum of squares) is divided into variabilities due to different sources (sum of squares for effects in the model). PROC MIXED does not produce an analysis of variance table, because it uses estimation methods based on different principles. PROC MIXED has three options for the method of estimation. They are: ML (Maximum Likelihood), REML (Restricted or Residual maximum likelihood, which is the default method) and MIVQUE0 (Minimum Variance Quadratic Unbiased Estimation). ML and REML are based on a maximum likelihood estimation approach. They require the assumption that the distribution of the dependent variable (error term and the random effects) is normal. ML is just the regular maximum likelihood method,that is, the parameter estimates that it produces are such values of the model parameters that maximize the likelihood function. REML method is a variant of maximum likelihood estimation; REML estimators are obtained not from maximizing the whole likelihood function, but only that part that is invariant to the fixed effects part of the linear model. In other words, if y = X b + Zu + e, where X b is the

SAS中的描述性统计过程

SAS中的描述性统计过程 (2012-08-01 18:07:01) 转载▼ 分类:数据分析挖掘 标签: 杂谈 SAS中的描述性统计过程 描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary 过程、univariate过程以及tabulate过程。它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。 相同点:他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等,均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。 不同点: (1)means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量; (2)univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数; (3)summary过程执行后不会自动给出分析的结果,须引用output语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果; (4)univariate过程具有统计制图的功能,其它三个过程则没有; (5)tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。 统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。大家有没有发现前两个和后两个只有一个字母‘g’(代表graph)的差别,其实它们之间(只差一个字母g的过程之间)的统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。 chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状,实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。而gchart过程和gplot过程给出的是真正意义上的图形,可以用很多的语句和选项来控制图形的各方面的性质和特征。 chart和gchart与plot和gplot的区别则体现在不同的作图功能,前两个过程可以绘制出的图形主要有条形图(包括横条和竖条)、圆图、环形图和星形图等,后两个过程通常用一个记录中的两个变量值表示点的坐标来绘制图形,如散点图和线图等。 描述性统计过程的一般格式 1. means过程的一般格式

统计实验与SAS上机简易过程步

数据统计分析一般可遵循以下思路: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:①差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。②相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。③影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox 回归等。 (2)明确数据类型,根据数据类型进一步确定方法:①定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。②分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。下图简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理的专业结论。 第一部分:统计描述

1.定量资料的统计描述指标及SAS实现; (1)数据分布检验:PROC UNIVARIATE ①基本格式: ②语句格式示例: 1.PROC UNIVARIATE normal;/*normal选项表示进行正态性检验*/ 2.CLASS group;/*指定group为分组变量*/ 3.VAR weight;/*指定分析变量为weight*/ 4.RUN; ③结果:正态性检验(tests for normality)结果,常用的是Shapiro-Wilk 检验和Kolmogorov-Smirnov检验。当例数小于2000时,采用Shapiro-Wilk检验W值为标准;当例数大于2000时,SAS中不显示Shapiro-Wilk检验结果,采用Kolmogorov-Smirnov检验D值为判断标准。正态性检验的P≤0.05提示不服从正态分布,P>0.05提示服从正态分布。 注:若服从正态分布,进行PROC MEANS过程步;若不服从则计算百分位数,转(3) (2)数据描述(符合正态分布的数据):PROC MEANS ①基本格式: 关键字(可以无视):不写任何关键字时默认输出n,mean,std,max,min; n:有效数据记录数(有效样本量) median:中位数 mean:均数 qrange:四分位数间距 std:标准差 var:方差 clm:95%可信区间 max、min:最大、最小值 ②语句格式示例: 1.PROC MEANS n mean std median qrange clm;/*关调用proc means过程, 要求输出的指标有例数、均值、标准差、中位数、四分位数间距、95% 可信区间*/ 2.CLASS group;/*指定group为分组变量*/ 3.VAR weight;/*指定分析变量为weight*/ 4.Run; ③结果以“均数±标准差”表示 (3)偏正态分布的统计描述: ①基本思想:计算中位数和百分位数,并且用“中位数(Q1~Q3)”表示 ②语句格式示例: 1.proc univariate data=aa; 2.var x; 3.output out=c pctlpre=P pctlpts=0 to 100 by 2.5;/*计算0到100

SAS入门教程

第一章SAS系统概况 SAS(Statistic Analysis System)系统是世界领先的信息系统,它由最初的用于统计分析经不断发展和完善而成为大型集成应用软件系统;具有完备的数据存取、管理、分析和显示功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统。 SAS系统是一个模块化的集成软件系统。SAS系统提供的二十多个模块(产品)可完成各方面的实际问题,功能非常齐全,用户根据需要可灵活的选择使用。 ●Base SAS Base SAS软件是SAS系统的核心。主要功能是数据管理和数据加工处理,并有报表生成和描述统计的功能。Base SAS软件可以单独使用,也可以同其他软件产品一起组成一个用户化的SAS系统。 ●SAS/AF 这是一个应用开发工具。利用SAS/AF的屏幕设计能力及SCL语言的处理能力可快速开发各种功能强大的应用系统。SAS/AF采用先进的OOP(面向对象编程)的技术,是用户可方便快速的实现各类具有图形用户界面(GUI)的应用系统。 ●SAS/EIS 该软件是SAS系统种采用OOP(面向对象编程)技术的又一个开发工具。该产品也称为行政信息系统或每个人的信息系统。利用该软件可以创建多维数据库(MDDB),并能生成多维报表和图形。 ●SAS/INTRNET ●SAS/ACCESS 该软件是对目前许多流行数据库的接口组成的接口集,它提供的与外部数据库的接口是透明和动态的。 第二章Base SAS软件 第一节SAS编程基础 SAS语言的编程规则与其它过程语言基本相同。 SAS语句 一个SAS语句是有SAS关键词、SAS名字、特殊字符和运算符组成的字符串,并以分号(;)结尾。 注释语句的形式为:/*注释内容*/ 或*注释内容。 二、SAS程序 一序列SAS语句组成一个SAS程序。SAS程序中的语句可分为两类步骤:DA TA步和

实验五__回归分析SAS过程(2)共23页

实验五 回归分析SAS 过程(2) 实验目的: 1.会对实际问题建立有效的多元回归模型,能对回归模型进行残差分析; 2.掌握SAS 输出结果用于判别回归方程优良性的不同统计量,能对回归模型进行运用,对实际问题进行预测或控制. 实验要求:编写程序,结果分析. 实验内容: 1.误差的正态性检验有几种方法,何时认为误差项服从正态分布? 答:1.学生化残差 2.残差正态性的频率检验 3.残差的正态QQ 图检验 判断 若散点),()()(i i r q ),,2,1(n i 大致在一条直线上 相关系数:1)()() )((1 )(12)(1)()( n i i n i i i i i q q r r q q r r 认为i r ),,2,1(n i 来自正态分布,接受误差正态性检验. 2.回归方程的选取的穷举法中,评价回归方程优良性的准则有哪些?根据 准则何 时方程最优? 答:1)修正的复相关系数准则或均方残差准则()(2p R a 或p MSE 准则) 2)p C 准则 3)预测平方和准则(p PRESS 准则) 拟合所有可能的121 M 个回归方程,画出p C 图:),(p C p ,在p C 图中选取最接近参考直线p C p 的点所对应的回归方程为最优方程.

3.简述逐步回归方法的思想和步骤. 基本思想:逐个引入自变量建立回归方程,每次引入对Y影响最显著的自变量, 并对方程中旧变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中,既不漏掉对Y显著影响的变量,又不包含对Y 影响不显著的变量. 添加或删除某个自变量的准则是用残差平方和的相对减少或增加来衡量. 步骤:(1)修正的复相关系数准则、 C准则选择模型 p (2)预测平方和准则选择PRESSp最优回归方程 (3)最优模型的拟合检验 4.做2.6 2.8(选作) 2.9 注意:可以选课外综合题目。 2.6 程序: data examp2_6; input x1 x2 y; cards; 8.3 70 10.3 8.6 65 10.3 8.8 63 10.2 10.5 72 16.4 10.7 81 18.8 10.8 83 19.7 11.0 66 15.6

第4章 SAS过程步与过程步语句

第4章SAS过程步与过程步语句 摘要:本章讲授过程步一般形式,SAS过程步产用常用语句,程序设计中通用的SAS语句,学习过程步常用有关语句功能及其用法。为后面统计分析过程的调用作好准备。 SAS过程步用来调用系统提供的标准常用过程或统计分析过程,对指定的SAS 数据集进行处理,并将分析结果显示输出到OUTPUT窗口。一个过程步是一个功能程序模块,调用不同的过程可实现用不同方法对数据进行分析。 §4.1 SAS过程步的一般形式 通常,SAS过程步的一般形式为: PROC 过程名选择项; [其他相关过程步语句;] RUN; 说明: 1.ROC表示一个过程的开始;“过程名”可以是后面各章节将要介绍的常用过程名或统计过程名。不同的过程有不同的专用SAS名,而且各有 一些可供选择的选择项(参数),对于同一过程,给定不同的参数,输 出不同的计算结果和不同表格形式。 2.选项:选择项一般以关键字为核心构成,常用下面三种形式: ①关键字在过程中,一个关键字代表该过程的某一特性,若关键字作为选项出现,则过程处理数据或输出结果时,这一特性予以考虑。否则,忽略这一特性。 ②关键字=值过程的某一特性可取不同的值,则指定该特性的书写格式为: 特性关键字=特性值(数字或字符串)。 ③关键字=SAS数据集有些过程需要特定的输入数据集,有些过程可以建立一些特殊的数据集。过程指定特别输入输出数据集的选项书写格式为: 关键字=数据集名 该形式规定输入或输出的数据集,最常用的是DATA=数据集,指出本过程要处理的数据集名称,若缺省,则使用最新建立的数据集。如“PROC PRINT DATA=new;”。 3.其他相关过程步语句:有VAR、ID、BY、CLASS、WEIGHT等过程步语句,将在下一节中讲述。 4.RUN的作用是通知系统开始执行本过程程序段,当一个程序文件中有几个过程时,它们可共用一个RUN语句。

第四章 过程步与过程步语句

第四章过程步与过程步语句 SAS过程步是调用系统提供的标准常用过程或统计分析过程,对指定的在数据步建立的数据集进行处理,并将分析处理的结果显示于输出窗口和图形窗口。关于常用过程和统计分析过程将在第五章以后的章节中介绍。本章给出SAS过程的一般格式及过程步中常用的语句。 §4.1 SAS过程步的一般形式 通常,一个SAS过程步具有如下形式: PROC 过程名选项; [其它相关过程步语句] RUN; 其中,PROC(PROCedure)是一个SAS关键字,PROC表明一个过程步的开始;“过程名”可以是第五章及以后章节中将要介绍的常用过程名或统计过程名。不同的过程有不同的专用SAS名。本书以前的例子中出现的“PROC PRINT;”中的PRINT 一词就是SAS的一个常用标准过程,它的功能是将数据集显示于输出窗口。在各种标准过程中,要进行复杂的计算且依计算方法的不同而要求不同的参数。另一方面,对于同一标准过程,给定不同的参数,输出不同的计算结果和不同的表格形式。每一个标准过程都有各自的一些可供选择的选项,选项的一般形式有如下三种: (1) 在过程里,一个关键字代表该过程的某一特性,若关键字作为选项出现,则过程处理数据或输出结果时,这一特性给予考虑,否则忽略该特性。 (2) 过程的某一特性可取不同的值,则指定该特性的书写格式为: 特性关键字=特性指定值。 (3) 有些过程需要特定的输入数据集,有些过程也可以建立一些特殊的数据集。过程指定特别输入输出数据集的选项书写格式为: 关键字=数据集名。 具体到一个过程可以有哪些选项,这将在讲具体过程时才能介绍。“其它相关过程步语句”是指下一节将要介绍的一些语句,包括:VAR,ID,BY,CLASS,FREQ , WEIGHT ,MODEL 等过程语句。语句“RUN;”的作用是通知系统开始执行本过程步程序段。当一份程序中有几个过程时,这几个过程可以共用一个RUN语句。 例4.1以下程序段是一个过程步,其功能是将当前数据集输出到输出窗口: PROC PRINT; RUN; §4.2 常用过程步语句 本节介绍的语句是为某些过程进一步提供数据处理信息的。对一个特定的语句,可能有些过程需要它,而在有些过程中不能出现。在有关过程的章节中将指明这些问题。 4.2.1 VAR语句 格式: VAR 变量表; 其中,VAR是关键字;变量表是用空格分隔的输入数据集中的一些变量名,这里的输入数据集是指将要被指定过程处理的数据集。出现在变量表中的数据集变量将参与过程的数据

SAS典型判别过程

典型判别分析 SAS/STAT/Candisc 过程 典型判别分析的思路从几何的概念来说,是将高维空间的样本点投影到低维空间,利用低维空间的变量做判别分析,从而使分析更加直观,即对原始数据进行坐标变换,寻求能使总体尽可能分开的方向。 从代数的概念来说,就是根据一个分类变量和几个定量变量,通过典型判别过程得出典型变量,典型变量是定量变量的线性组合。典型判别分析得出与组有最大可能多重相关的变量的线性组合,最大的多重相关叫做第一典型相关,其线性组合称为第一典型变量1u ,线性组合的相关系数称为典型系数,次大的叫做第二典型相关,其线性组合称为第二典型变量2u 。 Candisc 过程可使用的语句为: 数据集选项: DATA=SAS-data-set (SAS 数据集):指定欲分析的数据集。 OUT=SAS-data-set (SAS 数据集):生成一个包含原始数据和典型变量得分的数据集。 OUTSTAT=SAS-data-set (SAS 数据集):生成一个type=corr 包含各种统计量的输出数据集。 典型变量选项: NCAN=n :指定将被计算的典型变量的个数。n 的值必须小于或等于变量的个数。 u 能使总体单位

打印选项: BCORR:类间相关系数。 PCORR:合并类内相关系数。 TCORR全样本相关系数。 WCORR每一类水平的类内相关系数。 BCOV:类间协方差。 PCOV:合并类内协方差。 TCOV:全样本协方差。 WCOV:每一类水平的类内协方差。 BSSCP:类间SSCP矩阵。 PSSCP:合并类内修正SSCP矩阵。 TSSCP:全样本修正SSCP矩阵。 WSSCP:每一类水平的类内修正SSCP矩阵。 ANOVA:检验总体中每一个变量类均值相等的假设的单变量统计量。 SIMPLE:全样本合类内的简单描述性统计量。 ALL:产生以上所有的打印选项。 NOPRINT:不打印。 一般语句 By variables; By语句与Proc candisc一起使用可以对由BY变量分组的观测进行独立分析。 Class variable; Class变量的值定义分析的组,类水平由有格式的Class变量的值确定。Class变量可以是数字变量也可以是字符变量。 Var variables; Var语句指定分析中包括的定量变量。如果省略Var语句,分析包括未在其他语句中列出的全部变量。 程序示例:该例是Fisher的Iris数据进行典型判别分析。数据从三种刚毛弋尾花品种各采集了50各样本。测量其萼片长度、萼片宽度、花瓣长度和花瓣宽度。做典型判别分析并观察第一和第二个典型变量的散点图,是否与原始数据的结果相符。 data iris; input sepallen sepalwid petallen petalwid species @@; label sepallen='Sepal Length in mm.' sepalwid='Sepal Width in mm.' petallen='Petal Length in mm.' petalwid='Petal Width in mm.'; cards; 数据行; proc candisc data=iris ncan=2 out=outcan distance anova; class species; var sepallen sepalwid petallen petalwid; proc print data=outcan; run; proc plot; plot can2*can1=species;run;

SAS程序及函数详解

第一章 SAS编程操作预备知识 一、SAS系统简介 SAS是一个庞大的系统,它目前的版本可以在多种操作系统中运行。当前在国内被广泛使用的最新版本是8.2版,功能很强大,我深有体会。 据说9.0版已在国外面世,已经有一些有关它的抢先报道在网络上广为流传,说它如何如何美妙,令人不禁充满期待。 SAS8.2的完整版本包含以下数十个模块。 BASE,GRAPH,ETS,FSP,AF,OR,IML,SHARE,QC,STAT,INSIGHT,ANALYST,ASSIST, CONNECT,CPE,LAB,EIS,WAREHOUSE,PC File Formats,GIS,SPECTRAVIEW,SHARE*NET, R/3,OnlineTutor: SAS Programming,MDDB Server,IT Service Vision Client, IntrNet Compute Services,Enterprise Reporter,MDDB Server common products,Enterprise Miner,AppDev Studio,Integration Technologies 等。 所谓模块,我的理解是将功能相近的程序、代码等集中起来组成相对独立的部分,就称之为模块,类似于办公软件系统office中包含的word、excel、access 等。各模块具有相对独立的功能范围,我们常用的模块有base,graph,stat,insight,assist,analyst模块等,分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。其余模块我用得很少,知道得也很少,所以也就不多说了。 SAS系统的长处,体现于它的编程操作功能的无比强大。SAS一直以来也是注重于其编程语言的发展,对于可视化方式的菜单操作投入较少,其较早的版本仅有很少的菜单操作功能,使用起来也是非常的别扭。这很可能就是在windows 人机交互式操作系统占统治地位的今天,SAS较少被人问津的原因之一。 到了最新的几个版本,SAS也对可视化操作方法投入了一定的关注。从8.0版以后,出现了几个功能强大的可视化操作的模块,如insight模块和analyst 模块等,其菜单操作的方便程度以及人机界面的亲和性绝不亚于SPSS等著名的可视化统计分析软件。 然而要想完全发挥SAS系统强大的功能,充分利用其提供的丰富资源,掌握SAS的编程操作是必要的,也只有这样才能体现出SAS在各个方面的杰出才能。

sas第八章描述性统计过程

sas第八章描述性统计过程

————————————————————————————————作者:————————————————————————————————日期:

第八章描述性统计过程 以下过程都可用于计算基本统计量,如频数、均值等,但它们又各有特色: UNIVARIATE 进行单变量统计,包括分位数及描绘分布图。 SUMMMARY 按观测值分组计算基本单变量统计值。分组是由 CLASS语句中的变量所决定。统计结果可输出到SAS 数据集中而不产生打印输出。 MEANS 计算均值及其他描述统计量。 TABULATE 打印基本统计的复杂表格。 CORR 求变量间相关系数。 进行基本统计的其他过程还包括: CHART 画频数、均值、总和的条形图、立体直方图、饼图 及星图。 FREQ 对分类变量计算频数分布,并作多维列联表。 SAS基本统计过程及其一些重要统计量 统计量MEANS UNIVARIATE SUMMARY TABULATE CORR 非缺项值数(N) √√√√ 缺项值数(NMISS) √√√√√权重和(SUMWEIGH_T) √√√√ 均值(MEAN) √√√√√和(SUM) √√√√√最小值(MIN) √√√√√最大值(MAX) √√√√√全距(RANGE) √√√√ 未修正平方和(USS) √√√√ 修正平方和(CSS) √√√√ 方差(VAR) √√√√ 标准差(STD) √√√√√变异系数(CV) √√√√ 偏度(SKEWNESS) √√ 峰度(KURTOSIS) √√ T统计量值(t) √√√√ 大于t值的概率(PRT) √√√√ 中位数(MEDIAN) √ 四分位数(QUARTILE) √ 众数(MODE) √ 输出到SAS数据集Yes Yes Yes No Yes CLASS语句Yes No Yes Yes No BY语句Yes Yes Yes Yes Yes

SAS过程步及常用语句

SAS过程步简介 SAS过程步的一般形式为: PROC 过程名 [ DATA=输入数据集] [选项];过程语句1 [/ 选项 ];过程语句2 [/ 选项];……RUN; 1.VAR语句 VAR语句在过程步中用于指定分析变量。 VAR语句的语法格式为: VAR 变量名1 变量名2 … 变量名n; 变量名列表可以使用省略的形式,如x1-x3 等。 应用实例: var math chinese; 2.MODEL语句 MODEL语句在统计建模过程中用来指定模型的形式。语法格式为:MODEL 因变量 = 自变量列表 / 选项; 应用实例: model y=x1 x2 x3 ; 3.BY语句 BY语句在过程步中用来指定一个或几个分组变量,根据这些分组变量值可以把观测记录分组,然后对每一组观测分别进行指定的分析。在使用带有BY语句的过程步之前,应先用SORT过程按BY语句指定的变量对数据集排序。例如,假设我们已经把class1数据集按性别排序,则下面PRINT 过程可以把男、女生分别列出: proc print data=class1 ; by sex;run; 4.OUTPUT语句 过程步中经常用OUTPUT语句指定输出结果存放的数据集。不同过程中把输出结果存入数据集的方法各有不同,OUTPUT语句是使用频繁的语句之一。其语法格式为: OUTPUT OUT=输出数据集名关键字=变量名关键字=变量名…; 其中用OUT=给出了存放结果数据集的名字,关键字用于定义输出变量名,用“关键字=变量名”的方式指定了系统自动输出变量与存储变量之间的 对应关系。等号后面的变量名指定了输出数据集中的存储变量名称。例如:proc means data=data_prg.class1; var math; output out=result02 n=n mean=meanmath var=varmath;run;proc print data=result02; run;

sas简单操作步骤

SAS数据分析完整笔记 1. SAS INSIGHT启动: 方法1:Solution→Analysis→Interactive Date Analysis 方法2:在命令栏内输入insight 方法3:程序编辑窗口输入以下代码,然后单击 Submit按钮; Proc insight; Run; 1.1 一维数据分析 用 sas insight做直方图、盒形图、马赛克图。 直方图:Analysis→Histogram/Bar Chart 盒形图:Analysis→Box plot 马赛克图:Analysis→Box plot/Mosaic plot(Y) 1.2 二维数据分析 散点图:Analysis→Scattery plot(Y X) 曲线图:Analysis→Line plot( Y X) 1.3 三维数据分析 旋转图:Analysis→Rotationg Plot 曲面图:Analysis→Rotationg Plot设置 Fit Surface 等高线图:Analysis→Countor plot 1.4 分布分析 包括:直方图、盒形图、各阶矩、分位数表,直方图拟合密度曲线,对特定分布进行检验。 1.4. 1 Analysis→Distribution(Y) 第一部分为盒形图,第二部分为直方图,第三部分为各阶矩,第四部分为分位数表。

1.4.2 添加密度估计 A:参数估计:给出各种已知分布(正态,指数等),只需要对其中参数进行估计;Curves→Parametric Density B:核估计:对密度函数没有做假设,曲线性状完全依赖于数据; Curves→Kernel Density 1.4.3 分布检验 Curves→CDF confidence band Curves→Test for Distribution 1.5 曲线拟合 Analysis→Fit(Y X):分析两个变量之间的关系 1.6 多变量回归 Analysis→Fit(Y X) 1.7 方差分析 Analysis→Fit(Y X) 1.8 相关系数计算 Analysis→Multivariate 1.9 主成分分析 Analysis→Multivariate 2.SAS ANALYST启动: 方法1:Solution→Analysis→Analyst 方法2:在命令栏内输入analyst 2.1 分类计算统计量:Data→Summarize by group 2.2 随机抽样:Data→Random Sample 2.3 生成报表:Report→Tables

SAS过程

1、TTEST过程 1.1 概述 TTEST过程可以进行单样本、两个样本和配对观察值的假设检验。单样本假设检验进行样本均数与某一个值的比较。两样本检验比较两个样本的均数。配对观察值间的检验进行配对样本间差的均数与某一值的比较。 上述三种情况都有一个共同的假设,即观察值服从正态分布。两样本均数间的检验要求两个样本相互独立。TTEST还假设这两个样本的方差相等。同时,TTEST还给出了两样本方差不相等时的校正结果(Satterthwaite,1946)。 1.2 语法: PROC TTEST < 选择项 > ; CLASS 分类变量 ; PAIRED 配对列表 ; VAR 变量 ; 1.3 选择项 Alpha=值:指出显著水平,缺省0.05 H0=m:指定H0为m而不为0。缺省时H0=0 DATA=数据集:指出分析的数据集 1.4 CLASS语句 用于两个独立样本的分析,配对试验和一个样本的分析不应该有该语句 如果没有VAR语句,则所有不在CLASS语句后的数值变量都进行分析 1.5 PAIRED语句的例子 PAIRED语句配对比较 paired A*B A-B Paired A*B C*D A-B C-D Paired (A B)*(C D) A-C A-D B-C B-D Paired (A B)*(C B) A-C A-B B-C paired (A1-A2)*(B1-B2) A1-B1 A1-B2 A2-B1 A2-B2 paired (A1-A2):(B1-B2) A1-B1 A2-B2 1.6 VAR语句 指出分析的变量,不能与PAIRED语句配合使用 如果没有CLASS语句,则进行单个样本分析。如果有CLASS语句而没有VAR语句,则所有不在CLASS语句中的变量都进行分析 1.7 SAS例题 例1.1 单样本 母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113、112、114、117、115、116、114、113(天),试检验所得样本的平均数与总体平均数114天有无显著差异?

相关主题
相关文档
最新文档