SAS-方差分析报告

四、统计推断Ⅱ（方差分析——多个平均数的比较）（1）

发布：admin 时间：2006-8-26

四、统计推断Ⅱ（方差分析——多个平均数的比较）(1)

方差分析是关于多个平均数的假设测验，其主要做法是将总变异的自由度和平方和剖分为不同来源的自由度和平方和，接着根据各变异来源方差的组成（期望均方）进行F测验，若F测验达显著，当处理效应为固定模型时，可对其处理平均数进行多重比较，当处理效应为随机模型时，可进一步进行方差分量的估计。

方差分析在生物科学领域中应用十分广泛。用于方差分析的SAS过程主要有方差分析（ANOVA，analysis of variance）、广义线性模型（GLM，general linear models）。此外还有方差分量估计(VARCOMP，variance components estimation)等。其中ANOVA一般用于平衡资料（资料中各因素均衡搭配且没有发生数据缺失），非平衡资料的分析一般用GLM过程。

不同的试验设计有其相应的线性数学模型，而方差分析正是根据这一线性数学模型进行的，因此所获数据的试验设计决定了其分析方法（即自由度和平方和的分解以及度量各效应是否显著的尺度）。正是如此，方差分析的SAS程序中模型的确定是关键。以下结合教材内容顺序说明各种情况下的SAS程序编写方法。

(一) 单向分组资料（单因素完全随机试验）

1．组内观察值数目相等的资料

[例9] 以教材P111例6.10为例。

DATA tb611;

DO trt=1 TO 5; (或DO trt=”A”,”B”,”C”,”D”,”E”; ) DO r=1 To 4;

INPUT y @@;

OUTPUT;

END;

CARDS;

24 30 28 26

27 24 21 26

31 28 25 30

32 33 33 28

21 22 16 21

;

PROC ANOVA;

CLASS trt;

MODEL y=trt;

MEANS trt/DUNCAN;

RUN;

这里PROC前是数据步，使用两套循环（DO…; END;）进行简化数据输入，这是在数据经过整理加工后的方法，当然也可直接按田间（或试验记录）顺序输入，这在后面会看到。OUTPUT语句用于输出一组观察值，它表明一条记录的结束。本题利用ANOVA过程。在PROC ANOVA后可加上选项，包括DATA=输入数据集名和OUTSTAT=输出数据集名（用于存储方差分析结果）。CLASS一句用于指明分类变量，此语句一定要设定，并且应出现在MODEL语句之前。MODEL语句用于定义分析所用的线性数学模型，通常试验误差项（Error）一项不列。MEANS语句用于计算效应平均数，并在“/”号后设定多重比较方法、显著水平以及使用的误差均方。常用多重比较方法有T

或LSD（最小显著差数法或F测验保护下的最小显著差数法）、SNK（q法或NK法）、DUNCAN(Duncan新复极差法)、TUKEY（Q法或Tukey氏固定极差法）、DUNNETT（用于设置于对照试验的DLSD法）等。显著水平的确定采用alpha=设定，如alpha=0.01等，缺省时为alpha=0.05。多重比较的误差均方由E=效应给出，如MEANS a/E=a*b，缺省时使用试验分析误差均方。

2．组内观察值数目不等的资料

[例10] 以教材P113例6.11为例。

DM “LOG;CLEAR;OUTPUT;CLEAR;“;

DATA tb615;

DO rtype=1 TO 4;

DO r=1 TO 8;

INPUT y @@;

OUTPUT;

END;

DROP r;

CARDS;

12 13 14 15 15 16 17 .

14 10 11 13 14 11 . .

9 2 10 11 12 13 12 11

12 11 10 9 8 10 12 .

;

PROC GLM;

CLASS rtype;

MODEL y=rtype;

MEANS rtype /T;

RUN;

由于组内观察值数目不等，即出现数据不平衡，故采用GLM过程，“.”号（小数点）代替缺省数据，从这里可见GLM与ANOVA过程在格式上有着相似之处。本程序的第一行称为显示管理命令，相当于DOS中的批处理命令，它的作用是清除LOG窗和OUTPUT窗中的内容；DROP r 用于删除变量r，因为r在后面的分析中用不到。当然，DM和DROP两句都可以不用。

3．系组分组资料

[例11] 以教材P116例6.12的二级系统分组资料为例。

DATA tb619;

DO trt=1 TO 4;

DO m=1 TO 3;

DO nop=1 TO 4;

INPUT y@@;

OUTPUT;

END;

CARDS;

50 55 40 35 35 35 30 40 45 40 40 50

50 45 50 45 55 60 50 50 55 45 65 55

85 60 90 85 65 70 80 65 70 70 70 70

60 55 35 70 60 85 45 75 65 65 85 75

;

PROC FORMAT;

VALUE trtv 1=”A” 2=”B” 3=”C” 4=”D”;

PROC ANOVA;

FORMAT trt trtv.;

CLASS trt m;

MODEL y=trt m(trt);

TEST H=trt E=m(trt);

MEANS trt / DUNCAN E=m(trt);

RUN;

这是一个系统分组资料，用ANOVA过程，其模型中效应包括培养液的效应（trt）、同一培养液内盆间差异[m(trt)]，以及同一盆内各植株间的差异（即试验误差，在MODEL中不列出）。MODEL这种定义方式称嵌套模型。

TEST语句指出测验trt的显著性时应使用m(trt)作误差项，若不指明则以试验误差作为被比量进行测验。因此方差分析表中的trt项F测验不正确，必须使用TEST语句定义被比量进行测验。

对各培养液平均数的多重比较用新复极差法（DUNCAN），且平均数的标准误由m(trt)效应项方差计算。

本程序中还应用了FORMAT过程进行变量格式设定，VALUE则给出具体内容，这种设定通过语句“FORMAT trt trtv.;”指定输出格式。当然格式设定语句可以不要，这里只是为了使处理名称与相应效应直接对应。

五、统计推断Ⅱ（方差分析——多个平均数的比较）（2）

发布：admin 时间：2006-8-26

(二) 两向分组资料

1．组合内只有单个观察值的两向分组资料

（单因素随机区组或二因素完全随机设计）

[例12] 以教材P119例6.13为例。

DATA tb625;

DO szs=1 TO 5;

DO blk=1 TO 4;

INPUT y @@;

OUTPUT;

END;

CARDS;

60 62 61 60

65 65 68 65

63 61 61 60

64 67 63 61

62 65 62 64

61 62 62 65

;

PROC ANOVA;

CLASS szs blk;

MODEL y=szs blk;

MEANS szs / T;

MEANS szs/DUNNETT;

RUN;

本例用ANOVA过程，效应项包括生长素效应和区组效应以及省去的误差。对生长素效应分别用LSD法和DUNNETT氏最小显著差数法（DLSD法，默认对照是处理项中第一项）进行多重比较。

2．组合内有重复的两向分组资料的方差分析（二因素完全随机设计）[例13] 以教材P122例6.14为例。

DATA tb631;

DO a=1 TO 3;

DO b=1 TO 3;

DO r=1 to 3;

INPUT y @@;

OUTPUT;

END;

CARDS;

21.4 21.2 20.1 19.6 18.8 16.4 17.6 16.6 17.5

12.0 14.2 12.1 13.0 13.7 12.0 13.3 14.0 13.9

12.8 13.8 13.7 14.2 13.6 13.3 12.0 14.6 14.0

;

PROC ANOVA;

CLASS a b;

MODEL y= a | b;

MEANS a b a*b / DUNCAN;

RUN;

“MODEL y=a | b;”是“MODEL y=a b a*b;”的简化形式，使用简化形式可使模型语句简洁，以下是一些简化表示法及其所代表的意义：简化示法意义

a |

b | c

a |

b |

c @ 2

a | b(a) | c

a | b(a) | c @ 2 a | c(b)

a(b) | c(b) a b a*b c a*c b*c a*b*c a b a*b c a*c b*c

a b(a) c a*c b*c(a)

a b(a) c a*c

a c(b) a*c(b)

a(b) c(b) a*c(b)

MEANS语句对肥料、土壤及两者互作的平均数进行多重比较。

(三) 数据转换

方差分析是在可加性，正态性和同质性的假定下进行的，为了满足这三项假定有时必须对原始数据进行数据转换。

[例14] 以P126例6.15为例。

DATA ex61;

DO trt=1 to 4;

DO r=1 TO 6;

INPUT y @@;

yt=ARSIN(SQRT(y/100))*180/3.1415926;

OUTPUT;

END;

CARDS;

97 91 82 85 78 77

95 77 72 64 56 68

93 78 75 76 63 71

70 68 66 49 55 64

;

PROC ANOVA;

CLASS trt;

MODEL y yt=trt;

MEANS trt / DUNNETT;

RUN;

在OUTPUT语句之前对反应量进行转换，即

。

六、统计推断Ⅱ（方差分析——多个平均数的比较）（3）

发布：admin 时间：2006-8-26

(四) 单因素试验的分析

1．完全随机试验设计

参见前面单向分组资料的分析方法。

2．随机区组试验设计。

与两向分组资料组合内无重复观察值的分析方法一样。

[例15] 以P228例12.3为例。

DATA tb123;

DO v=1 TO 8;

DO blk=1 TO 3;

INPUT y @@;

OUTPUT;

END;

CARDS;

10.9 9.1 12.2 10.8 12.3 14.0

11.1 12.5 10.5 9.1 10.7 10.1

11.8 13.9 16.8 10.1 10.6 11.8

10.0 11.5 14.1 9.3 10.4 14.4

;

PROC ANOVA;

CLASS v blk;

MODEL y=blk v;

MEANS v / T alpha=0.01;

MEANS v/ DUNCAN;

RUN;

对品种平均数的多重比较采用LSD法和新复极差法，其中前者采用显著水平。

3．随机区组试验有缺区时的分析

当出现缺区时，可以先进行缺区估计，再应用ANOVA过程，但更好的方法是直接应用GLM过程。

[例16] 以P233例12.4为例。

DATA tb129;

DO trt=1 TO 6;

DO blk=1 TO 4;

INPUT y @@;

OUTPUT;

END;

CARDS;

27.8 27.3 28.5 38.5 30.6 28.8 . 39.5

27.7 22.7 34.9 36.8 16.2 15.0 14.1 19.6

16.2 17.0 17.7 15.4 24.9 22.5 22.7 26.3

;

PROC ANOVA;

CLASS trt blk;

MODEL y=trt blk;

RUN;

PROC GLM;

CLASS trt blk;

MODEL y=trt blk;

MEANS trt / T;

RUN;

缺失区组的数据以小数点“.”代替，采用GLM过程。注意在有缺失数据时如仍用ANOVA过程则结果会有偏。教材P234例12.5可以通过同样的方法进行分析。需要注意的是如果试验的缺失数据太多，则宜将试验作废，否则即使能分析，其结论的可靠性会受到影响。

4．拉丁方试验的统计分析

[例17] 以教材P236例12.6为例。

DATA tb1215;

DO r=1 TO 5;

DO c=1 TO 5;

INPUT v $ y @@;

OUTPUT;

END;

CARDS;

D 37 A 38 C 38 B 44

E 38

B 48 E 40 D 36

C 32 A 35

C 27 B 32 A 32 E 30

D 26

E 28 D 37 B 43 A 38 C 41

A 34 C 30 E 27 D 30

B 41

;

PROC ANOVA;

CLASS r c v;

MODEL y=r c v;

MEANS v / T;

MEANS v / DUNCAN;

RUN;

模型中包括行效应，列效应及品种（处理）效应。

[例18] 有缺区的拉丁方试验的分析，以教材P239例12.7为例。

DATA tb1222;

DO r=1 TO 5;

DO c=1 TO 5;

INPUT v$ y @@;

OUTPUT;

END;

CARDS;

A 14 E 22 D 20 C 18

B 25

D 19 B 21 A 16

E 23 C 18

B 23 A 15

C 20

D 18

E 23

C 21

D .

E 24 B 21 A 17

E 23 C 16 B 23 A 17 D 20

;

PROC GLM;

CLASS r c v;

MODEL y=r c v;

MEANS v / T;

RUN;

5．试验处理的合并比较（单一自由比较）

[例19] 以教材P242例12.8为例。

DATA tb611;

DO trt=”A”,”B”,”C”,”D”,”E”;

DO r=1 TO 4;

INPUT y @@;

OUTPUT;

END;

CARDS;

24 30 28 26 27 24 21 26 31 28

25 30 32 33 33 28 21 22 16 21

;

PROC GLM;

CLASS trt;

MODEL y=trt;

CONTRAST ”A+B+C+D vs

trt 1 1 1 1 -4;

E”

trt 1 1 -1 -1 0;

CONTRAST ”A+B vs

C+D”

CONTRAST ”A vs B”trt 1 -1 0 0 0;

CONTRAST ”C vs D”trt 0 0 1 -1 0;

RUN;

GLM过程中的CONTRAST语句用于进行试验处理的合并比较，其格式为：CONTRAST”对比说明”效应对比向量（即正交系数）。

七、统计推断Ⅱ（方差分析——多个平均数的比较）（4）

发布：admin 时间：2006-8-26

(五) 多因素试验的分析

1．二因素随机区组试验

[例20] 以教材P249例13.1为例。

DATA tb132;

DO a=1 TO 3;

DO b=1 TO 3;

DO blk=1 TO 3;

INPUT y @@;

OUTPUT;

END;

CARDS;

8 8 8 7 7 6 6 5 6

9 9 8 7 9 6 8 7 6

7 7 6 8 7 8 10 9 9

;

PROC ANOVA;

CLASS a b blk;

MODEL y=blk a b a*b;

MEANS a b a*b / DUNCAN;

RUN;

2．三因素试验的统计分析

（1）三因素完全随机试验

[例21] 以教材P253例13.2为例。

DATA tb139;

DO a=1 TO 3;

DO b=1 TO 2;

DO c=1 TO 2;

DO r=1 TO 5;

INPUT y @@;

OUTPUT;

END;

CARDS;

16.3 19.6 20.4 18.3 19.6

15.5 17.6 17.3 18.7 19.1

30.9 35.6 33.2 32.6 36.6

28.4 23.9 26.0 24.0 29.2

18.7 18.4 15.1 17.9 17.4

15.6 15.6 17.8 17.7 16.7

28.2 34.3 32.1 26.2 29.0

27.7 27.2 22.3 18.0 20.3

18.9 17.7 18.0 15.9 15.6

16.1 10.8 14.7 15.2 12.6

40.8 38.7 35.1 41.0 42.9

27.2 31.3 27.1 29.1 25.0

;

PROC ANOVA;

CLASS a b c r;

MODEL y=a | b | c;

MEANS a b c a*b a*c b*c / T;

RUN;

（2）三因素随机区组试验

[例22] 以教材P256例13.3为例。

DATA tb1317;

DO a=1 TO 2;

DO b=1 TO 2;

DO c=1 TO 3;

DO blk=1 TO 3;

INPUT y @@;

OUTPUT;

END;

CARDS;

12 14 13 12 11 11 10 9 9

10 9 9 9 9 8 6 6 7

3 2

4 4 3 4 7 6 7

2 2

3 3

5 5 7 7

;

PROC ANOVA;

CLASS a b c blk;

MODEL y=blk a | b | c;

MEANS a b c / T;

MEANS a*b a*c b*c / T;

RUN;

从MODEL语句可以看出三因素随机区组试验只是在三因素完全随机试验基础上通过设置区组将可能存在的区组效应（blk）从误差中分离出来。

3．裂区试验

（1）二裂式试验

[例23] 以教材P262例13.4为例。

DATA tb1324;

DO a=1 TO 3;

DO b=1 TO 4;

DO blk=1 TO 3;

INPUT y @@;

OUTPUT;

END;

CARDS;

29 28 32 37 32 31 18 14 17 17 16 15

28 29 25 31 28 29 13 13 10 13 12 12

30 27 26 31 28 31 15 14 11 16 15 13

;

PROC ANOVA;

CLASS a b blk;

MODEL y=blk a a*blk b a*b;

TEST H=a E=a*blk;

TEST H=blk E=a*blk;

MEANS a / DUNCAN E=a*blk;

MEANS b a*b / DUNCAN;

RUN;

二裂式试验的总变异可分解为：区组的(blk)、主处理的(a)、E a(a*blk)、副处理(b)、处理因素的互作(a*b)及E b（即试验误差，在MODEL语句中省去）。对主处理效应(a)和区组效应(blk)的F测验需用TEST语句指定误差项(a*blk)。总的方差分析表中的该两项的F测验是以E b为尺度的，因而是错误的。同理，对主处理的多重比较也应加上选项E=a*blk。

（2）有缺区的二裂式试验

[例24] 以教材P266例13.5为例。

DATA tb1329;

DO a=1 TO 3;

DO b=1 TO 4;

DO blk=1 TO 3;

INPUT y @@;

OUTPUT;

END;

CARDS;

. 28 32 37 32 31 18 14 17 17 16 15

28 29 25 31 28 29 13 13 10 13 12 12

30 27 26 31 28 31 15 14 11 16 15 13 ;

PROC GLM;

CLASS a b blk;

MODEL y=blk a a*blk b a*b;

TEST H=a E=a*blk;

TEST H=blk E=a*blk;

MEANS a /DUNCAN E=a*blk;

MEANS b a*b /DUNCAN;

RUN;

4．条区设计

[例25] 以教材P270例13.7为例。

DATA fig134;

DO blk=1 TO 6;

INPUT a $ b $ y @@;

OUTPUT;

END;

CARDS;

A1 B2 376 A1 B3 386 A1 B1 355

A3 B2 455 A3 B3 476 A3 B1 433

A2 B2 480 A2 B3 496 A2 B1 446

A2 B1 549 A2 B3 533 A2 B2 540

A1 B1 396 A1 B3 388 A1 B2 406

A3 B1 492 A3 B3 482 A3 B2 512

A2 B2 500 A2 B3 482 A2 B1 513

A1 B2 347 A1 B3 337 A1 B1 387

A3 B2 468 A3 B3 435 A3 B1 476

A2 B3 413 A2 B1 469 A2 B2 436

A3 B3 334 A3 B1 436 A3 B2 398

A1 B3 201 A1 B1 298 A1 B2 280

A3 B1 458 A3 B3 413 A3 B2 434

A1 B1 366 A1 B3 333 A1 B2 356

A2 B1 474 A2 B3 425 A2 B2 465

A2 B3 490 A2 B2 509 A2 B1 502

A3 B3 447 A3 B2 473 A3 B1 487

A1 B3 348 A1 B2 356 A1 B1 397

;

PROC ANOVA;

CLASS blk a b;

MODEL y=blk a a*blk b b*blk a*b;

TEST H=a E=a*blk;

TEST H=b E=b*blk;

MEANS a / T E=a*blk;

MEANS b / T E=b*blk;

RUN;

以上数据步十分繁琐，可采用以下过程简化：

DATA fig134s;

DO blk=1 TO 6;

DO a=1 TO 3;

DO b=1 TO 3;

INPUT y @@;

OUTPUT;

END;

CARDS;

355 376 386 446 480 496 433 455 476

396 406 388 549 540 533 492 512 482

387 347 337 513 500 482 476 468 435

298 280 201 469 436 413 436 398 334

366 356 333 474 465 425 458 434 413

397 356 348 520 509 490 487 473 447

;

这里方差分析表中对处理因素a、b的F测验均错误，故需用TEST语句，同理多重比较时也需指出误差项。

5．一组相同试验方案数据的联合分析（品种多年多点的试验）

[例26] 以教材P273例13.8为例。

DATA tb1340;

DO year=1 TO 2;

DO u=1 TO 4;

DO v=1 TO 5;

DO blk=1 TO 3;

INPUT y @@;

OUTPUT;

END;

CARDS;

19. 7 31.

29.

28.

38.

43.

20.

27.

32.

27.

40.

46.

22.

30.

31.

40. 8 29.

30.

44.

34.

33.

44.

41.

26.

39.

29.

71.

47.

55.

34. 7 29.

35.

28.

21.

29.

38.

28.

27.

20.

43.

32.

20. 2 30.

16.

13.

20.

9.6 24.

41.

30.

19.

18.

24.

27.

30.

22.

45.50.60.47.41.49.54.52.64.62.53.74.47.57.50.

5 3 0 5 1 4 2 3 5 2 1 7 4 8 5

53. 9 58.

47.

63.

61.

52.

53.

59.

56.

74.

75.

67.

51.

47.

45.

42. 1 47.

30.

38.

29.

30.

42.

40.

39.

44.

43.

47.

53.

51.

50.

26. 6 26.

32.

21.

18.

24.

20.

26.

30.

20.

23.

30.

32.

40.

34.

;

PROC ANOVA;

CLASS year u v blk;

MODEL y=year u year*u blk(year u) v v*year v*u

v*year*u;

MEANS v / DUNCAN;

RUN;

6．固定模型、随机模型及方差分量的估计

[例27] 以上面多年多点品种试验为例，假定年份和地点效应均为随机。

数据步省略（同上），其过程步为：

PROC GLM;

CLASS year u v blk;

MODEL y=year u year*u blk(year u) v v*year v*u

v*year*u;

RANDOM year u;

RUN;

[例28] 用VARCOMP过程。

PROC VARCOMP METHOD=TYPE1;

CLASS year u v blk;

MODEL y=v year u year*u blk(year u) v*year v*u

v*year*u / FIXED=1;

RUN;

其中PROC一句用METHOD指定方差估计方法，这里指定用TYDE1（SAS系统Ⅰ型平方法），其它还有MIVQUE0（最小方差二次无偏估计）、ML（极大似然法）、REML（约束极大似然法）等。MODEL语句通过FIX=n设定模型中前n项为固定效应，其余则为随机效应。注意若分析结果中方差为很小的负数，则表明没有变异，与0同义。

八、统计推断Ⅲ（相关和回归分析）

发布：admin 时间：2006-8-26

五、统计推断Ⅲ（相关和回归分析）

这是进行多个变数之间关系的分析。用于线性相关和回归分析的过程有相关分析（CORR）、回归分析（REG）和广义线性模型（GLM），其中CORR 过程仅用相关分析。用于非线性回归直接拟合的过程为NLIN。

(一) 一元相关和回归分析

[例29] 以教材P160例9.1为例（回归方程的取得和测验）。

DATA tb91;

INPUT x y @@;

CARDS;

35.5 12 34.1 16 31.7 9 40.3 2 36.8 7

40.2 3 31.7 13 39.2 9 44.2 -1

;

PROC REG;

MODEL y=x;

PLOT y*x;

RUN;

用REG过程，MODEL语句设定线性数学模型。PLOT语句作用是以变量y 作为纵坐标、变量x作横坐标作x-y散点图。

[例30] 以教材P166例9.6为例（区间估计）。

DATA tb95;

INPUT x y @@;

CARDS;

70 1616.3 67 1610.9 55 1440.0 52 1400.7 51 1423.3

52 1471.3 51 1421.8 60 1547.1 64 1533.0

;

PROC REG;

MODEL y=x / CLM CLI;

RUN;

在MODEL语句中加上选项CLM和CLI，指明输出条件总体平均数（）

的置信区间（CLM）和y值的预测区间（CLI）。

[例31] 以教材P174例9.11为例（相关分析）。

DATA tb91;

INPUT x y @@;

CARDS;

35.5 12 34.1 16 31.7 9 40.3 2 36.8 7

40.2 3 31.7 13 39.2 9 44.2 -1

;

PROC CORR;

VAR x y;

RUN;

PROC REG CORR;

MODEL y=x;

RUN;

相关分析一般用CORR过程完成，VAR语句指定参与分析的变数。当然也可在REG过程中加上CORR选项表示输出简单相关系数。

(二) 协方差分析

1．单向分组资料的协方差分析

[例32] 以教材P182例9.15为例。

DATA tb98;

DO trt=”A”,”B”,”C”;

DO i=1 TO 8;

INPUT x y @@;

OUTPUT;

END;

CARDS;

47 54 58 66 53 63 46 51 49 56 56 66 54 61 44 50

52 54 53 53 64 67 58 62 59 62 61 63 63 64 66

44 52 48 58 46 54 50 61 59 70 57 64 58 69 53

;

PROC GLM;

CLASS trt;

MODEL y=trt x / SOLUTION;

MEANS trt / T;

LSMEANS trt / STDERR PDIFF TDIFF;

RUN;

协方差分析用GLM过程完成。CLASS指出分类变量，必须设定，且必须出现在MODEL语句之前。MODEL语句中的SOLUTION选项用于给出参数的估计值。MEANS语句计算平均数（直接的），并进行多重比较，如果x变数对y变数有作用，那么这种比较所得结论是虚假的。

LSMEANS语句计算效应的最小二乘估计的平均数，即处理矫正平均数（LSM）。选项STDERR给出LSM的标准误，PDIFF和TDIFF则要求给出矫正平均数比较（差异显著性测验）的概率值和t值。

2．两向分组资料的协方差分析。

[例33] 以教材P188例9.17为例。

DATA tb914;

DO trt=1 TO 14;

DO blk=1 TO 2;

INPUT x y @@;

OUTPUT;

END;

CARDS;

4.59 58 4.32 61 4.09 65 4.11 62

3.94 64

4.11 64 3.90 66 3.57 69

3.45 71 3.79 67 3.48 71 3.38 72

3.39 71 3.03 74 3.14 72 3.24 69

3.34 69 3.04 69

4.12 61 4.76 54

4.12 63 4.75 56 3.84 67 3.60 62

3.96 64

4.50 60 3.03 75 3.01 71

;

PROC GLM;

CLASS trt blk;

MODEL y=blk trt x / SOLUTION;

LSMEANS trt / STDERR PDIFF;

RUN;

(三) 多元回归和相关

[例34] 以教材P194例10.1为例（多元回归方程的建立和测验）。DATA tb101;

INPUT x1 x2 y @@;

CARDS;

26.7 73.4 504 31.3 59.0 480 30.4 65.9 526 33.9 58.2 511

34.6 64.6 549 33.8 64.6 552 30.4 62.1 496 27.0 71.4 473

33.3 64.5 537 30.4 64.1 515 31.5 61.1 502 31.3 56.0 498

34.0 59.8 523

;

PROC REG CORR;

MODEL y=x1 x2 /CLM CLI;

RUN;

[例35] 以教材P200例10.6为例（最优多元线性回归方程的建立）。DATA tb104;

INPUT x1-x4 y;

CARDS;

10 23 3.6 113 15.7

9 20 3.6 106 14.5

10 22 3.7 111 17.5

13 21 3.7 109 22.5

10 22 3.6 110 15.5

10 23 3.5 103 16.9

8 23 3.3 100 8.6

10 24 3.4 114 17.0

10 20 3.4 104 13.7

10 21 3.4 110 13.4

10 23 3.9 104 20.3

8 21 3.5 109 10.2

6 23 3.2 114 7.4

8 21 3.7 113 11.6

9 22 3.6 105 12.3

;

PROC REG CORR;

MODEL y=x1-x4;

MODEL y=x1-x4 / SELECTION=BACKWARD SLS=0.05;

MODEL y=x1-x4 / SELECTION=FORWARD SLE=0.05;

MODEL y=x1-x4 / SELECTION=STEPWISE SLS=0.05 SLE=0.05;

RUN;

这里“INPUT x1-x4 y;”是“INPUT x1 x2 x3 x4 y;”的简化表示法，“MODEL y=x1-x4;”则是“MODEL y=x1 x2 x3 x4;”的简化表示法。

最优多元线性回归方程的建立是在REG过程的MODEL语句中加上选项“SELECTION=方法”来实现的。以上方法的意义分别是：① BACKWARD法（逐步剔除法），它首先配合全模型，然后逐步剔除对依变数y影响最小且不显著的自变数，直到模型中所有变数皆达显著水平，BACKWARD法剔除某变数后，将不再考虑先前剔除变数是否对变数y产生显著的影响，因此该法某一变数一经剔除就不能再次选入；② FORWARD法（逐个选入法），它首先将对依变数y影响最大且达显著水平的自变数选入，然后逐个选入剩余变数中对依变数y影响最大且达显著的自变数，直到所有变数都选入模型，FORWARD 法不考虑选入某变数后，原先选入的变数是否会变得不显著，因而变量一经选入即被保留在模型中；③ STEPWISE法（逐步回归法），它首先配合对依变数y影响最大且达显著的自变数x i的一元线性回归方程，然后逐步选入其它变数中对依变数y影响最大且显著的自变数，当新变数选入后，还要对模型中已选入的变数进行测验，不显著的将予以剔除，这样最终模型中所有自变数皆对y有显著影响，模型外的所有自变数对y的影响皆不显著。因此一般情况下，以STEPWISE法较好。

选项SLS=0.05定义剔除时的概率水平为0.05，SLE=0.05定义选入时的概率水平为0.05。

[例36] 以教材P203例10.7为例（通径分析）。

DATA tb101;

INPUT x1 x2 y @@;

CARDS;

26.7 73.4 504 31.3 59.0 480 30.4 65.9 526 33.9 58.2

511

34.6 64.6 549 33.8 64.6 552 30.4 62.1 496 27.0 71.4

473

33.3 64.5 537 30.4 64.1 515 31.5 61.1 502 31.3 56.0

498

34.0 59.8 523

;

PROC REG CORR;

MODEL y=x1 x2 / STB;

RUN;

MODEL语句中加上STB选项将会给出标准偏回归―通径系数，进而可以了解自变数的相对重要性。

[例37] 以教材P204例10.8，P206例10.10为例（相关和偏相关分析）。

DATA tb101;

INPUT x1 x2 y @@;

CARDS;

26.7 73.4 504 31.3 59.0 480 30.4 65.9 526 33.9 58.2

511

34.6 64.6 549 33.8 64.6 552 30.4 62.1 496 27.0 71.4

473

33.3 64.5 537 30.4 64.1 515 31.5 61.1 502 31.3 56.0

498

34.0 59.8 523

;

PROC CORR NOSIMPLE;

VAR x1 x2 y;

RUN;

PROC CORR NOSIMPLE;

VAR x1 y;

PARTIAL x2;

RUN;

PROC CORR NOSIMPLE;

VAR x2 y;

PARTIAL x1;

RUN;

PROC CORR NOSIMPLE;

VAR x1 x2;

PARTIAL y;

RUN;

PROC REG NOPRINT;

VAR x1 x2 y;

MODEL y=x1 x2;

PRINT PCORR1 PCORR2;

RUN;

CORR过程中，用PARTIAL语句定义偏相关变量，如“PROC CORR

NOSIMPLE; VAR x1 y; PARTIAL x2;”表示x2固定时x1与y间的相关。一个CORR过程只能使用一个PARTIAL语句。

REG过程的PCORR1和PCORR2给出两种偏决定系数（偏相关数的平方）。

由以上可见，CORR过程仅能用于相关分析。REG过程则能进行一元，多元的相关和回归分析，它可以选用不同方法对自变量进行选择建立最优方程，可以作散点图进行数据模型的初步判别，且一个REG过程允许使用多个MODEL语句。GLM过程则可以进行方差分析、回归分析以及协方差分析。与REG相比，GLM过程用于回归分析时不能进行模型选择，且一个过程仅允许使用一个MODEL语句。

(四) 曲线回归

曲线回归又称非线非回归。对其拟合可采用先转化为线性回归而后用REG或GLM过程的方法（这是在手工计算时的一种简化方法），但更通常的方法是用NLIN过程进行直接拟合。

[例38] 以教材P214例11.1为例（y=ae bx）。

DATA tb112;

INPUT x y @@;

yt=LOG(y);

CARDS;

0 100.0 5 82.0 10 65.0 15 52.0 20 44.0 25 36.0

30 30.0 35 25.0 40 21.0 45 17.0 50 14.0 55 11.0

60 9.0 65 7.5 70 6.0 75 5.0 80 4.0 85 3.3

;

PROC REG;

MODEL yt=x;

RUN;

PROC NLIN METHOD=DUD;

PARMS a=100 b=-0.1;

MODEL y=a*EXP(b*x);

RUN;

本程序首先用REG过程对x与y间的非线性关系进行间接拟合。接着用NLIN过程进行直接拟合。PROC NLIN一句中的选项METHOD=DUD指定用DUD （试位法）进行循环迭代，其它方法还有GAUSS（高斯-牛顿法）、MARQUARDT （麦夸特法）、NEWTON（牛顿法）等。PARMS语句设定了参数初始值，初始值的不同在某些迭代方法中有时会对结果产生较大影响（依赖于曲线方程的凸凹变化）。MODEL语句则直接给出非线性方程。注意以上各迭代方法中除DUD法之外，均需给出非线性方程对参数的一阶或二阶偏导（DER语句）。

另外以上的数据步也可这样编写：

DATA tb112;

DO x=0 TO 85 BY 5;

INPUT y @@;

yt=LOG(y);

OUTPUT;

END;