SAS上机实习-8页文档资料

SAS上机实习-8页文档资料
SAS上机实习-8页文档资料

中科院研究生院统计分析与SAS实现第1次上机实习题

一、定量资料上机实习题

要求:

(1)先判断定量资料所对应的实验设计类型;

(2)假定资料满足参数检验的前提条件,请选用相应设计的定量资料的方差分析,并用SAS软件实现统计计算;

(3)摘录主要计算结果并合理解释,给出统计学结论和专业结论。

【练习1】取4窝不同种系未成年的大白鼠,每窝3只,随机分配到三个实验组中,分别注射不同剂量雌激素,经过一定时间后处死大白鼠测子宫重量,资料见表1。问剂量和窝别的各自水平下子宫重量之间的差别有无统计学意义?若剂量间差别有统计学意义,请作两两比较。

表1 未成年大白鼠注射不同剂量雌激素后的子宫重量

子宫重量(g)

窝别

剂量(μg/100g):0.2 0.4 0.8 合计

1 106 116 145 367

2 42 68 115 225

3 70 111 133 314

4 42 63 87 192

合计260 358 480 1098

定量资料的随机区组设计(区组因素:窝别;实验因素:剂量)【SAS程序】:

DATA PGM15G;

DO A=1TO4; /*A为窝别*/

DO B=1TO3; /*B为雌激素剂量*/

INPUT X @@; /*X为子宫重量*/

OUTPUT;

END;

END;

CARDS;

106 116 145

42 68 115

70 111 133

42 63 87

RUN;

ods html; /*将结果输出成网页格式,SAS9.0以后版本可用*/ PROC GLM DATA=PGM15G;

CLASS A B;

MODEL X=A B / SS3;

MEANS A B; /*给出因素A、B各水平下的均值和标准差*/

MEANS B / SNK; /*对因素B(即剂量)各水平下的均值进行两两比较*/ RUN;

ODS HTML CLOSE;

【练习2】一位工程师研究由钻头压力产生的冲力。考察了A(钻孔速度)和B(进料

速度),两因素分别取2与3水平,各水平组合下均做了两次独立重复实验,资料见表2。假定资料满足参数检验的前提条件,且两因素对观测结果的影响地位平等,已知冲力越小越好,试作分析,尽可能给出较为明确的统计和专业结论。

表2 在钻孔速度和进料速度取不同水平的条件下冲力的测定结果钻孔冲力(单位)

速度进料速度:0.015 0.030 0.045

125 2.70 2.45 2.60

2.78 2.49 2.72

200 2.83 2.85 2.86

2.86 2.80 2.87

两因素2 x 3析因设计

【SAS程序】:

DATA aaa;

DO zs=125,200;

DO repeat=1TO2; /*每种试验条件下有2次独立重复试验*/

do js=0.015,0.030,0.045;

INPUT cl @@;

OUTPUT;

END;

END;

END;

CARDS;

2.70 2.45 2.60

2.78 2.49 2.72

2.83 2.85 2.86

2.86 2.80 2.87

run;

ods html;

PROC GLM;

CLASS zs js;

MODEL cl=zs js zs*js / SS3;

MEANS zs*js;

LSMEANS zs*js / TDIFF PDIFF; /*对 zs和js各水平组合而成的试验条件进行均数进行两两比较*/

RUN;

ods html close;

二、定性资料上机实习题

要求:

(1)若题目中未给出表格,请列出标准的列联表,并对其命名;

(2)若题目中已列出不规范的表格,先修改,然后对其命名;

(3)根据分析目的或自己提出分析目的、资料的前提条件选用相应的统计分析方法,并用SAS软件实现计算;

(4)将主要计算结果摘录出来,给出统计学和专业结论。

【练习1】某卫生防疫站对屠宰场及肉食零售点的猪肉,检查其表层沙门氏菌带菌情况,结果如下表。试比较屠宰场与肉食零售点猪肉表层沙门氏菌的带菌率之间差别有无统计学意义?

表1 屠宰场及肉食零售点猪肉表层沙门氏菌抽检结果

采样地点带菌率(%)

阳性数值阴性数值

屠宰场 2 26 7.14

零售点8 21 27.59

横断面研究设计

【SAS程序】:

DATA PGM19A;

DO A=1TO2;

DO B=1TO2;

INPUT F @@;

OUTPUT;

END;

END;

CARDS;

2 26

8 21

run;

ods html;

PROC FREQ;

WEIGHT F;

TABLES A*B / CHISQ;

RUN;

ods html close;

【练习2】有人对某部门22707名雇员中,普查了HBsAg,其中3454名阳性,19253名为阴性。从1975年起,追踪了3年,发现在阳性组有40名患了肝癌,阴性组仅一名患肝癌。试选用合适的方法对资料进行全面分析。

队列研究设计2 x 2表

【SAS程序】:

DATA PGM19B;

DO A=1TO2;

DO B=1TO2;

INPUT F @@;

OUTPUT;

END;

END;

CARDS;

40 3414

1 19252

run;

ods html;

PROC FREQ;

WEIGHT F;

TABLES A*B / CHISQ cmh;

RUN;

ods html close;

【练习3】APOE-4等位基因与老年痴呆性的关联研究:以600名晚发及散发老年痴呆患者和400名正常对照为研究对象,分析APOE-4等位基因与老年痴呆性的关系。

表4 APOE-4等位基因与老年痴呆性病例对照关联研究

AGT等位基因

例数

合计病例组对照组

APOE-4 240 60 300

非APOE-4 360 340 700

合计600 400 1000

病例对照研究设计2 x 2表

【SAS程序】:

ATA PGM20;

DO A=1TO2;

DO B=1TO2;

INPUT F @@;

OUTPUT;

END;

END;

CARDS;

240 60

360 340

run;

ods html;

PROC FREQ;

WEIGHT F;

TABLES A*B / CHISQ cmh;

RUN;

ods html close;

【练习4】请分析下表资料。已从专业上认定培养的阳性结果就是“真阳性”,而不会出现假阳性。

甲培养基培养结果

例数

乙培养基结果:+ - 合计

+ 363470 - 0135135 合计36 169 205

隐含金标准配对设计2 x 2表

配对设计2×2列联表资料总体率差异性检验统计量的计算公式

若b+c≥40时

若b+c<40时

【SAS程序】:

DATA PGM19F;

INPUT b c;

chi=(ABS(b-c)-1)**2/(b+c);

p=1-PROBCHI(chi,1);

chi=ROUND(chi, 0.001);

IF p>0.0001THEN p=ROUND(p,0.0001);

FILE PRINT;

PUT #2 @10'Chisq' @30'P value'

#4 @10 chi @30 p;

CARDS;

34 0

run;

(甲培养基的阳性数大于乙培养基的阳性数)

【练习5】请分析下表资料。

表6 两法检查室壁收缩运动的符合情况

对比法测冠心病人数

定的结果核素法∶正常减弱异常

正常 58 2 3

减弱 1 42 7

异常 8 9 17

合计 67 53 27 双向有序且属性相同R x C列联表(Kappa检验)【SAS程序】:

data aaa;

do a=1to3;

do b=1to3;

input f @@;

output;

end;

end;

cards;

58 2 3

1 4

2 7

8 9 17

run;

ods html;

*简单kappa检验;

proc freq data=aaa;

weight f;

tables a*b;

test kappa;

run;

*加权kappa检验;

proc freq;

weight f;

tables a*b;

test wtkap;

run;

ods html close;

(两种方法的一致性检测有统计学意义)

简单kappa检验和加权kappa检验这两种方法都是用来检验两种评价方法是否具有一致性的方法。其主要的区别是两种方法计算的公式不一样,更具体地说是对两个变量的打分不一样,简单kappa检验主要是利用对角线上的信息,加权kappa检验除了利用对角线上的数据外,还将对角线外的数据进行加权打分,将对角线外的信息也充分利用。所以在选择方法时应根据专业知识,如果两个变量取值的界线比较明确,如“+”“++”“+++”等,这时可以选用简单的kappa检验,如果两个变量的取值不十分明确,人为的因素较多时,就可选用加权kappa检验。

【练习6】请分析下表资料。

表5 某地6094人按2种血型系统划分的结果

ABO 人数

血型 MN血型:M N MN

O 431 490 902

A 388 410 800

B 495 587 950

AB 137 179 325

合计 1451 1666 2977

双向无序R x C列联表(卡方或Fisher精确检验)

【自由度=(行数-1)X(列数-1】

【SAS程序】:

DATA PGM20A;

DO A=1TO4;

DO B=1TO3;

INPUT F @@;

OUTPUT;

END;

END;

CARDS;

431 490 902

388 410 800

495 587 950

137 179 325

run;

ods html;

PROC FREQ;

WEIGHT F;

TABLES A*B / CHISQ;*exact;

RUN;

ods html close;

(行变量与列变量相互独立,……)

分析方法选择

不超过1/5的格子理论频数<5时,此类资料应采用

2

检验处理。

其他情形,可采用Fisher精确检验处理。

【练习7】请分析下表资料。

表7 3种药物疗效的观察结果

疗人数

效药物∶ A B C

治愈 15 4 1

显效 49 9 15

好转 31 50 45

无效 5 22 24

合计 100 85 85

结果变量为有序变量的单向有序R x C列联表

【SAS程序】:

*方法1;

DATA PGM20C;

DO A=1TO4;

DO B=1TO3;

INPUT F @@;

OUTPUT;

END;

END;

CARDS;

15 4 1

49 9 15

31 50 45

5 22 24

run;

ods html;

PROC NPAR1WAY WILCOXON;

FREQ F;

CLASS B;

VAR A;

RUN;

*方法2;

proc freq data=PGM20C;

weight f;

tables b*a/cmh scores=rank;

run;

ods html close;

【练习8】请分析下表资料。

表8 眼晶状体混浊度与年龄之关系

晶状体混眼数

浊程度年龄∶20~ 30~ 40~

+ 215 131 148

++ 67 101 128

+++ 44 63 132

合计 326 295 408

双向有序且属性不同R x C列联表(spearman秩相关)【SAS程序】:

DATA PGM20E;

DO A=1TO3;

DO B=1TO3;

INPUT F @@;

OUTPUT;

END;

END;

CARDS;

215 131 148

67 101 128

44 63 132

run;

ods html;

PROC CORR SPEARMAN;

VAR A B;

FREQ F;

RUN;

ods html close;

SAS上机练习题(二)参考答案

6$6? ?д乬??? ?1乬 data a; input x@@; cards; 142.3 148.8 142.7 144.4 144.7 145.1 143.3 154.2 152.3 142.7 156.6 137.9 143.9 141.2 139.3 145.8 142.2 137.9 141.2 150.6 142.7 151.3 142.4 141.5 141.9 147.9 125.8 139.9 148.9 154.9 145.7 140.8 139.6 148.8 147.8 146.7 132.7 149.7 154.0 158.2 138.2 149.8 151.1 140.1 140.5 143.4 152.9 147.5 147.7 162.6 141.6 143.6 144.0 150.6 138.9 150.8 147.9 136.9 146.5 130.6 142.5 149.0 145.4 139.5 148.9 144.5 141.8 148.1 145.4 134.6 130.5 145.2 146.2 146.4 142.4 137.1 141.4 144.0 129.4 142.8 132.1 141.8 143.3 143.8 134.7 147.1 140.9 137.4 142.5 146.6 135.5 146.8 156.3 150.0 147.3 142.9 141.4 134.7 138.5 146.6 134.5 135.1 141.9 142.1 138.1 134.9 146.7 138.5 139.6 139.2 148.8 150.3 140.7 143.5 140.2 143.6 138.7 138.9 143.5 139.9 134.4 133.1 145.9 139.2 137.4 142.3 160.9 137.7 142.9 126.8 ; proc means data=a n mean median clm qrange std cv stderr maxdec=2; var x; proc univariate data=a normal; histogram x; var x; run; ??? The MEANS Procedure Analysis Variable : x N Mean Median Lower 95% CL for Mean Upper 95% CL for Mean Quartile Range Std Dev Coeff of Variation Std Error ? Ё? 95% ??? 95% ??? ? ? ? ? ? 130 143.22142.75142.10144.337.80 6.43 4.490.56

SAS上机练习题(全部,含参考答案)

重庆医科大学--卫生统计学统计软件包 SAS上机练习题(一) 1、SAS常用的窗口有哪三个?请在三个基本窗口之间切换并记住这些命令或功能键。 2、请在PGM窗口中输入如下几行程序,提交系统执行,并查看OUTPUT窗和LOG窗中内容,注意不同颜色的含义;并根据日志窗中的信息修改完善程序。 3、将第2题的程序、结果及日志保存到磁盘。 4、试根据如下例1的程序完成后面的问题: 表1 某班16名学生3门功课成绩表如下 问题: 1)建立数据集; 2)打印至少有1门功课不及格同学的信息;(提示,使用if语句) 参考程序: data a; input id sh wl bl; cards; 083 68 71 65 084 74 61 68

085 73 75 46 086 79 80 79 087 75 71 68 084 85 85 87 085 78 79 75 086 80 76 79 087 85 80 82 088 77 71 75 089 67 73 71 080 75 81 70 118 70 54 75 083 70 66 84 084 62 73 65 099 82 70 79 ; run; data b; set a; if sh<60 or wl<60 or bl<60then output; run; proc print data=b; var id sh wl bl;

run; 5、根据下列数据建立数据集 表2 销售数据 开始时间终止时间费用 2005/04/28 25MAY2009 $123,345,000 2005 09 18 05OCT2009 $33,234,500 2007/08/12 22SEP2009 $345,600 20040508 30JUN2009 $432,334,500 提示:(格式化输入;数据之间以空格分隔,数据对齐;注意格式后面的长度应以前一个位置结束开始计算,如果读入错误,可试着调整格式的宽度;显示日期需要使用输出格式) 开始时间,输入格式yymmdd10. 终止时间,输入格式date10. 费用,输入格式dollar12. 参考程序: data a; input x1 yymmdd10. x2 date10. x3 dollar13.; cards; 2005/04/28 25MAY2009 $123,345,000 2005 09 18 05OCT2009 $33,234,500 2007/08/12 22SEP2009 $345,600

SAS上机实习-8页文档资料

中科院研究生院统计分析与SAS实现第1次上机实习题 一、定量资料上机实习题 要求: (1)先判断定量资料所对应的实验设计类型; (2)假定资料满足参数检验的前提条件,请选用相应设计的定量资料的方差分析,并用SAS软件实现统计计算; (3)摘录主要计算结果并合理解释,给出统计学结论和专业结论。 【练习1】取4窝不同种系未成年的大白鼠,每窝3只,随机分配到三个实验组中,分别注射不同剂量雌激素,经过一定时间后处死大白鼠测子宫重量,资料见表1。问剂量和窝别的各自水平下子宫重量之间的差别有无统计学意义?若剂量间差别有统计学意义,请作两两比较。 表1 未成年大白鼠注射不同剂量雌激素后的子宫重量 子宫重量(g) 窝别 剂量(μg/100g):0.2 0.4 0.8 合计 1 106 116 145 367 2 42 68 115 225 3 70 111 133 314 4 42 63 87 192 合计260 358 480 1098 定量资料的随机区组设计(区组因素:窝别;实验因素:剂量)【SAS程序】: DATA PGM15G; DO A=1TO4; /*A为窝别*/ DO B=1TO3; /*B为雌激素剂量*/ INPUT X @@; /*X为子宫重量*/ OUTPUT; END; END; CARDS; 106 116 145 42 68 115 70 111 133 42 63 87 RUN; ods html; /*将结果输出成网页格式,SAS9.0以后版本可用*/ PROC GLM DATA=PGM15G; CLASS A B; MODEL X=A B / SS3; MEANS A B; /*给出因素A、B各水平下的均值和标准差*/ MEANS B / SNK; /*对因素B(即剂量)各水平下的均值进行两两比较*/ RUN; ODS HTML CLOSE; 【练习2】一位工程师研究由钻头压力产生的冲力。考察了A(钻孔速度)和B(进料

统计实验与SAS上机简易过程步

数据统计分析一般可遵循以下思路: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:①差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。②相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。③影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox 回归等。 (2)明确数据类型,根据数据类型进一步确定方法:①定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。②分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。下图简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理的专业结论。 第一部分:统计描述

1.定量资料的统计描述指标及SAS实现; (1)数据分布检验:PROC UNIVARIATE ①基本格式: ②语句格式示例: 1.PROC UNIVARIATE normal;/*normal选项表示进行正态性检验*/ 2.CLASS group;/*指定group为分组变量*/ 3.VAR weight;/*指定分析变量为weight*/ 4.RUN; ③结果:正态性检验(tests for normality)结果,常用的是Shapiro-Wilk 检验和Kolmogorov-Smirnov检验。当例数小于2000时,采用Shapiro-Wilk检验W值为标准;当例数大于2000时,SAS中不显示Shapiro-Wilk检验结果,采用Kolmogorov-Smirnov检验D值为判断标准。正态性检验的P≤0.05提示不服从正态分布,P>0.05提示服从正态分布。 注:若服从正态分布,进行PROC MEANS过程步;若不服从则计算百分位数,转(3) (2)数据描述(符合正态分布的数据):PROC MEANS ①基本格式: 关键字(可以无视):不写任何关键字时默认输出n,mean,std,max,min; n:有效数据记录数(有效样本量) median:中位数 mean:均数 qrange:四分位数间距 std:标准差 var:方差 clm:95%可信区间 max、min:最大、最小值 ②语句格式示例: 1.PROC MEANS n mean std median qrange clm;/*关调用proc means过程, 要求输出的指标有例数、均值、标准差、中位数、四分位数间距、95% 可信区间*/ 2.CLASS group;/*指定group为分组变量*/ 3.VAR weight;/*指定分析变量为weight*/ 4.Run; ③结果以“均数±标准差”表示 (3)偏正态分布的统计描述: ①基本思想:计算中位数和百分位数,并且用“中位数(Q1~Q3)”表示 ②语句格式示例: 1.proc univariate data=aa; 2.var x; 3.output out=c pctlpre=P pctlpts=0 to 100 by 2.5;/*计算0到100

SAS上机练习题(全部-含参考答案).docx

重庆医科大学“卫生统计学统计软件包 SAS上机练习题(一) 1、SAS常用的窗口有哪三个?请在三个基本窗口之间切换并记住这些命令或功能键。 2、请在PGM窗口中输入如下几行程序,提交系统执行,并查看OUTPUT窗和LOG窗中内容,注意不同颜色的含义;并根据口志窗屮的信息修改完善程序。 DATS EXO 101; INPUTT NAME $ AGE SEX; CARDS; XIAOMIN 19 1 LIDONG 20 1 NANA 18 2 PROD PRONT DATS=EX1; RUN; PROC PRINT DATA=EX 1; VAR NAME AGE; RUN; 3、将第2题的程序、结果及tl志保存到磁盘。 4、试根据如下例1的程序完成后面的问题: 表1某班16名学生3门功课成绩表如下 问题: 1)建立数据集; 2)打印至少有1门功课不及格同学的信息;(提示,使用if语句) 参考程序: data a; input id sh wl bl; cards; 083 68 71 65 084 74 61 68 085 73 75 46 086 79 80 79 087 75 71 68 084 85 85 87 085 78 79 75 086 80 76 79 087 85 80 82 088 77 71 75 089 67 73 71 080 75 81 70 118 70 54 75 083 70 66 84 084 62 73 65 099 82 70 79 run; data b; set a;

if sh<60 or wl<60 or bl<60 then output; run; proc print data=b; var id sh wl bl; run; 5、根据下列数据建立数据集 表2销售数据 提示:(格式化输入;数据之间以空格分隔,数据对齐;注意格式后面的长度应以前一个位置结朿开始计算,如果读入错误,可试着调整格式的宽度;显示日期需要使用输出格式) 开始时间,输入格式yymmddlO. 终止时间,输入格式血tel0. 费用,输入格式dollar 12.

sas基础知识

很全的sas基础知识 SAS里面的PROC一览 The ACECLUS Procedure :聚类的协方差矩阵近似估计(approximate covariance estimation for clustering) The ANOVA Procedure :方差分析 The BOXPLOT Procedure :箱形图 The CALIS Procedure :结构方程模型 The CANCORR Procedure :典型相关分析 The CANDISC Procedure :主成分分析和典型相关分析 The CATMOD Procedure :类别分析 The CLUSTER Procedure :聚类分析,包括11种(average linkage, the centroid method, complete linkage, density linkage (including Wong’s hybrid and th-nearest-neighbor methods), maximum likelihood for mixtures of spherical multivariate normal distributions with equal variances but possibly unequal mixing proportions, the flexible-beta method, McQuitty’s similarity analysis, the median method, single linkage, two-stage density linkage, and Ward’s minimum-variance method,机器翻译为:平均联动,重心法,完全连锁,密度连接(包括Wong混合模型,最近邻的方法),最大的可能性,McQuitty的相似性分析,中位数法,单联动,两阶段密度联动,Ward最小方差法)。 The CORRESP Procedure :简单的对应分析和多元对应分析(MCA) The DISCRIM Procedure :生成分类器的判别标准 The DISTANCE Procedure :距离,不相似或相似性分析 The FACTOR Procedure :因子分析和因子旋转 The FASTCLUS Procedure :快速聚类分析(给定计算出来的距离) The FREQ Procedure :频率统计 The GAM Procedure :广义可加模型 The GENMOD Procedure :广义线性模型,泊松回归、贝叶斯回归等 The GLIMMIX Procedure :generalized linear mixed models (GLMM),广义线性混合模型The GLM Procedure :最小二乘法模型,包括回归、方差、协方差、多元方差分析、偏相关。The GLMMOD Procedure :广义线性模型设计 The GLMPOWER Procedure :预测力和样本大小的线性模型分析 The GLMSELECT Procedure :变量选择,包括Lasso和LAR等。 The HPMIXED Procedure :线性混合模型,包括固定效应、随机效应等。 The INBREED Procedure :协方差或近亲繁殖系数。 The KDE Procedure :单变量和二元核密度估计 The KRIGE2D Procedure :二维克里格法,包括各向异性和嵌套的半方差图模型 The LATTICE Procedure :简单的栅格设计实验的方差分析和协方差分析 The LIFEREG Procedure :生存分析中的参数模型,包括各种截尾数据 The LIFETEST Procedure :生存分析的相关检验 The LOESS Procedure :非参数模型、多维数据、支持多因变量、直接和插值的kd树、统计推断、自动平滑参数的选择、执行迭代时有异常值的数据。 The LOGISTIC Procedure:logit回归

SAS入门教程

第一章SAS系统概况 SAS(Statistic Analysis System)系统是世界领先的信息系统,它由最初的用于统计分析经不断发展和完善而成为大型集成应用软件系统;具有完备的数据存取、管理、分析和显示功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统。 SAS系统是一个模块化的集成软件系统。SAS系统提供的二十多个模块(产品)可完成各方面的实际问题,功能非常齐全,用户根据需要可灵活的选择使用。 ●Base SAS Base SAS软件是SAS系统的核心。主要功能是数据管理和数据加工处理,并有报表生成和描述统计的功能。Base SAS软件可以单独使用,也可以同其他软件产品一起组成一个用户化的SAS系统。 ●SAS/AF 这是一个应用开发工具。利用SAS/AF的屏幕设计能力及SCL语言的处理能力可快速开发各种功能强大的应用系统。SAS/AF采用先进的OOP(面向对象编程)的技术,是用户可方便快速的实现各类具有图形用户界面(GUI)的应用系统。 ●SAS/EIS 该软件是SAS系统种采用OOP(面向对象编程)技术的又一个开发工具。该产品也称为行政信息系统或每个人的信息系统。利用该软件可以创建多维数据库(MDDB),并能生成多维报表和图形。 ●SAS/INTRNET ●SAS/ACCESS 该软件是对目前许多流行数据库的接口组成的接口集,它提供的与外部数据库的接口是透明和动态的。

第二章Base SAS软件 第一节SAS编程基础 SAS语言的编程规则与其它过程语言基本相同。 SAS语句 一个SAS语句是有SAS关键词、SAS名字、特殊字符和运算符组成的字符串,并以分号(;)结尾。 注释语句的形式为:/*注释内容*/ 或*注释内容。 二、SAS程序 一系列SAS语句组成一个SAS程序。SAS程序中的语句可分为两类步骤:DA TA步和PROC步。这两类步骤是所有SAS程序的模块。通常用DATA步产生SAS数据集,而用PROC 步对SAS数据集内的数据进行分析处理并输出结果。 SAS程序是在Editor窗口采用全屏幕编辑方式输入。当程序输入完毕后,就可以提交给SAS系统执行,在菜单中选择Submit或按F3键都可以运行程序,也可以只提交一部分语句。LOG窗口显示程序执行过程中记录的信息,它包括执行的语句,生成的数据集中变量的个数及记录的个数,每一步花费的时间及出错信息等。SAS过程产生的输出显示在OUTPUT窗口。 SAS数据集 SAS数据集相当于其它数据库系统的表(Table);每一行称为一个观测,相当于其它数据库系统的一条记录;每一列称为一个变量。 SAS的变量只有两种类型:数值型和字符型;变量的长度缺省时为8个字节,用关键字LENGTH定义变量长度;可以对变量的输入、输出格式进行定义,用关键字INFORMA T、FORMAT来分别定义;还可以给变量加标签,标签是一个代替变量名的描述性标识,可以在一些确定的SAS过程中代替变量名被打印出来,用关键字LABEL定义。 SAS数据集在系统中以文件的形式存在,扩展名是.sas7bdat。 每次启动SAS系统后,系统自动开辟一个库名为WORK的临时存贮区,用来存贮DATA 步或其它过程生成的临时数据集。一旦退出SAS系统,这个临时存贮区就被删除,其中所有的临时数据文件也被删除。 为了创建永久的数据集,必须给这个数据集规定存贮的地方和名字两部分,第一部分称为库标记或逻辑库名(Libref),它总是使用LIBNAME语句把库标记和一个目录联系起来,用来指示数据集存贮的地方。例如:

SAS上机练习题(全部_含参考问题详解)

医科大学--卫生统计学统计软件包 SAS上机练习题(一) 1、SAS常用的窗口有哪三个?请在三个基本窗口之间切换并记住这些命令或功能键。 2、请在PGM窗口中输入如下几行程序,提交系统执行,并查看OUTPUT窗和LOG窗中容,注意不同颜色的含义;并根据日志窗中的信息修改完善程序。 3、将第2题的程序、结果及日志保存到磁盘。 4、试根据如下例1的程序完成后面的问题: 表1 某班16名学生3门功课成绩表如下 问题: 1)建立数据集; 2)打印至少有1门功课不及格同学的信息;(提示,使用if语句) 参考程序: data a; input id sh wl bl; cards; 083 68 71 65 084 74 61 68 085 73 75 46 086 79 80 79 087 75 71 68 084 85 85 87 085 78 79 75 086 80 76 79

087 85 80 82 088 77 71 75 089 67 73 71 080 75 81 70 118 70 54 75 083 70 66 84 084 62 73 65 099 82 70 79 ; run; data b; set a; if sh<60 or wl<60 or bl<60then output; run; proc print data=b; var id sh wl bl; run; 5、根据下列数据建立数据集 表2 销售数据 开始时间终止时间费用 2005/04/28 25MAY2009 $123,345,000 2005 09 18 05OCT2009 $33,234,500 2007/08/12 22SEP2009 $345,600 20040508 30JUN2009 $432,334,500 提示:(格式化输入;数据之间以空格分隔,数据对齐;注意格式后面的长度应以前一个位置结束开始计算,如果读入错误,可试着调整格式的宽度;显示日期需要使用输出格式) 开始时间,输入格式yymmdd10. 终止时间,输入格式date10. 费用,输入格式dollar12. 参考程序:

sas软件入门,一看就懂

绪论:SAS软件入门 在当今的信息时代,我们每天都生活在纷繁复杂的数据海洋中,如何管理好这些各式各样的数据,如何从每天接触到的海量数据中提取出对我们工作、生活有用的信息,帮助我们做出有利自己决策的信息,提高工作的效率和排除各种干扰数据对我们造成的伤害就成了一个非常重要的问题。数据已经成为我们工作生活中和外界交流的一种必不可少的语言,读懂数据肯定需要借助一些方法和工具,统计分析理论为我们处理分析数据提供了很多很好的方法和理论。但是面对海量数据的处理分析工作,没有计算机相关的应用软件是不可能完成的,而SAS软件就是一款这样功能强大的应用软件系统。 SAS(Statistical Analysis System)是由美国北卡罗来纳州的SAS institute公司开发的一款统计软件,它被广泛应用在商业、科研和金融领域。SAS不仅具有强大的统计分析功能,而且具有一般数据库软件的数据管理功能。 SAS软件是一个模块化、集成化的大型应用软件系统。它由几十个专用模块构成,如:SAS/BASE,SAS/STAT,SAS/ETS,SAS/OR, SAS/IML和SAS/GRAPH等等, 功能非常强大,包括数据访问、数据储存及管理、图形处理、数据分析、应用开发、运筹学方法、报告编制、计量经济学与预测,医学统计与应用和生存分析等等。 SAS系统基本上可以分为四大部分:SAS数据库部分;SAS分析核心;SAS开发呈现工具;SAS对分布处理模式的支持及其数据仓库设计。 SAS系统主要完成以数据为中心的四大任务:数据访问;数据呈现;数据管理;数据分析。截止2007年,软件最高版本为SAS9.2。 运用SAS的技术水平可以分为以下三个层面。第一层面:会使用SAS菜单以及一些菜单界面的SAS模块,如INSIGHT、ANALYST等,了解初步的SAS BASE语句,能用SAS系统作简单的数据分析和加工处理,具有一定的数理统计知识,掌握一定的SAS STAT过程。第二层面:精通SAS BASE,能用SAS语言编写复杂的SAS程序,能用SAS BASE进行大型的、复杂的数据加工整理和展现,掌握SAS和外部数据文件的接口,会进行复杂的统计建模和分析等,初步掌握一种基于SAS的开发工具。第三层面:在一、二层次基础上,进一步掌握SAS/AF、SAS/IML等,能开发基于SAS的数据管理和分析模块。 本绪论目的就是让初学者能够快速地熟悉SAS系统的应用,利用SAS语言具有丰富的数据管理功能,对数据读入、输出、复制、拆分、排序、合并、修改和查询等等操作,完成一些简单的数据处理和分析,即快速提升到SAS使用技术的第一层次水平上来。

SAS上机实习考试

1、为比较两种方法对乳酸饮料中脂肪含量测定结果是否不同,某人随机抽取了10份乳酸饮料制品,分别用脂肪酸水解法和哥特里-罗紫法测定其结果如表3-3第(1)~(3)栏。问两法测定结果是否不同? 表两种方法对乳酸饮料中脂肪含量的测定结果(%) 编号(1) 哥特里-罗紫法 (2) 脂肪酸水解法 (3) 1 0.840 0.580 2 0.591 0.509 3 0.67 4 0.500 4 0.632 0.316 5 0.687 0.337 6 0.978 0.517 7 0.750 0.454 8 0.730 0.512 9 1.200 0.997 10 0.870 0.506 2、为研究国产四类新药阿卡波糖胶囊的降血糖效果,某医院用20名II型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(用阿卡波糖胶囊)和对照组(用拜唐苹胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值见表3-4,能否认为该国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果不同? 表3-4 试验组和对照组空腹血糖下降值(mmol/L) 试验组 (n1=10) -0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.50 对照组 (n2=10) 3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.10 3. 两组肿瘤患者,单纯放疗组(A)13 例,口服平消胶囊+放疗组(B)12 例,接受放疗前后,血清Sil-2R水平(U/ml)如表所示。试评价平消胶囊对接受放疗患者血清Sil-2R水平的影响? 两组肿瘤患者的血清Sil-2R水平

SAS课程上机练习一

SAS课程上机练习一 下面的数据是一次对20岁以上人群进行心血管病随访研究的结果,数据中各变量的含义如下: V1—随访号V2—年龄V3—开始随访时的求诊机构V4/V5—开始随访时的收缩压/舒张压V6/V7—体重/身高V8—开始随访时的胆固醇V9—社会经济地位(1-高2-中3-底)V10—原有心血管病(0-其他心脏病1-冠心病2-冠心与高心3-高心4-高心及风心5-风心6-可疑心脏病7-高血压8-正常)V11—随访结束时的求诊机构V12/V13—随访结束时的收缩压/舒张压V14—随访结束时的胆固醇V15—随访结束时的体重V16—随访结束时的最后诊断(0-未诊断1-3心肌梗塞4-7心绞痛8-9其他)V17—死亡年份(63-68)0-未死。 一、数据集练习操作 1、用data步建立SAS永久数据集(下次练习可以调用此数据集) 2、将年龄(V2)按20—30—40—50—及60岁以上分组 3、计算体重指数={体重/身高2}*100 4、将随访结束时最后诊断的结果(V16)分为四组:(1)心肌梗塞(2) 心绞痛(3)其他心脏 病(4)未诊断 5、按体重指数的大小( 0.30)分为二类:1-超重0-未超重 6、将死亡年份(V17)按是否死亡分为二类(1为死亡,0为未死亡)。 7、将原有心血管病(V10)分为患有心血管病与不患有心血管病二类(1有0无) 8、将数据集按是否死亡分为二个数据集。 9、将社会经济地位(V9)设置为哑变量。 10、计算开始随访时的收缩压与/舒张压(V4/V5)之差。 二.。计算分析 1.年龄分布的特征。 2.开始时收缩压频数分布的特征。 3·超重病人开始时胆固醇(V8)的分布的特征。 3·比较不同体重的人开始时的收缩压。 4·比较不同社会经济地位与患心血管病的差别。 5·比较心肌梗塞的病人开始时的收缩压与随访结束时的收缩压的差别。 6·比较不同年龄、不同体重(指数)间开始时的胆固醇的差别。 7·试分析年龄与血压(V4)之间的关系。 9、比较不同社会经济地位开始随访是收缩压的差别。 三、结果存盘 1.要求将你编辑好的SAS程序保存。 2.要求将所有的计算结果(OUTPUT)保存.。 3.文件名的格式为:你的姓名+你的学号 例如:王永,学号为20918003,则你存盘的文件名为:王永208918003

sas基础教程(实用版)

在SAS系统中提供了大量的菜单操作,不过它灵活与强大的功能更体现在编程上,本书的实验全部是以程序完成的,所以这里对SAS的菜单操作系统不作介绍,想了解相关内容的读者可以参考其它相关SAS书籍。 在SAS程序中,对数据的分析处理可划分为两大步骤: (1)将数据读入SAS系统建立的SAS数据集,称为数据步(DATA); (2)调用SAS的模块处理和分析数据集中的数据,称为过程步(PROC)。 每一数据步都是以DATA语句开始,以RUN语句结束。而每一过程步则都是以PROC语句开始,以RUN语句结束。当有多个数据步或过程步时,由于后一个DATA或PROC语句可以起到前一步的RUN语句的作用,两步中间的RUN语句也就可以省略。但是最后一个的后面必须有RUN语句,否则不能运行。 SAS还规定,每个语句的后面都要用符号“;”作为这个语句结束的标志。 在编辑SAS程式时,一个语句可以写成多行,多个语句也可以写成一行,可以从一行的开头写起,也可以从一行的任一位置写起。每一行输入完成后,用ENTER键可以使光标移到下一行的开头处,和我们在Windows下进行Word文档编辑相似。 例如:data zhouhm; input name $ sex$ math Chinese; cards; 王家宝男82 98 李育萍女89 106 张春发男86 90 王刚男98 109 刘颍女80 110 彭亮男92 105 ; proc print data = zhouhm; proc means data = zhouhm mean; var math Chinese; run; 绪2.1 data数据步简介

SAS上机练习题(全部-含参考标准答案)

SAS上机练习题(全部-含参考答案)

————————————————————————————————作者:————————————————————————————————日期:

重庆医科大学--卫生统计学统计软件包 SAS上机练习题(一) 1、SAS常用的窗口有哪三个?请在三个基本窗口之间切换并记住这些命令或功能键。 2、请在PGM窗口中输入如下几行程序,提交系统执行,并查看OUTPUT窗和LOG窗中内容,注意不同颜色的含义;并根据日志窗中的信息修改完善程序。 DATS EX0101; INPUTT NAME $ AGE SEX; CARDS; XIAOMIN 19 1 LIDONG 20 1 NANA 18 2 ; PROD PRONT DATS=EX1; RUN; PROC PRINT DATA=EX1; V AR NAME AGE; RUN; 3、将第2题的程序、结果及日志保存到磁盘。 4、试根据如下例1的程序完成后面的问题: 表1 某班16名学生3门功课成绩表如下 问题: 1)建立数据集; 2)打印至少有1门功课不及格同学的信息;(提示,使用if语句) 参考程序: data a; input id sh wl bl; cards; 083 68 71 65 084 74 61 68 085 73 75 46 086 79 80 79 087 75 71 68 084 85 85 87

085 78 79 75 086 80 76 79 087 85 80 82 088 77 71 75 089 67 73 71 080 75 81 70 118 70 54 75 083 70 66 84 084 62 73 65 099 82 70 79 ; run; data b; set a; if sh<60 or wl<60 or bl<60then output; run; proc print data=b; var id sh wl bl; run; 5、根据下列数据建立数据集 表2销售数据 开始时间终止时间费用 2005/04/28 25MAY2009 $123,345,000 2005 09 18 05OCT2009 $33,234,500 2007/08/12 22SEP2009 $345,600 20040508 30JUN2009 $432,334,500 提示:(格式化输入;数据之间以空格分隔,数据对齐;注意格式后面的长度应以前一个位置结束开始计算,如果读入错误,可试着调整格式的宽度;显示日期需要使用输出格式) 开始时间,输入格式yymmdd10. 终止时间,输入格式date10. 费用,输入格式dollar12.

SAS上机实验

实验内容 1试用产生标准正态分布的随机数normal(seed)产生参数为10的卡方分布随机数100个。 2根据数据集: (1)创建一个仅包含地区、销售的产品类型、销售数量和销售额的数据集。 (2)分别创建一个仅包含产品类型a100和产品类型a200和SAS数据集。 (3)选择一个人口在50000以上的部分子集。 3 以下数据来自7位同学的高考语文、数学和英语成绩,试用编程的方法计算出平均成绩在75以上的男同学的人数。 实验步骤: 实验1: data a (drop=i) ; do i=1to100by1; z=normal(0)**2+normal(0)**2+normal(0)**2+normal(0)**2+normal(0)**2+no rmal(0)**2+normal(0)**2+normal(0)**2+normal(0)**2+normal(0)**2; output; end; 结果如下: 实验2: (1) data biao1;

input region$ product$ quantity price; cards; es a100 150 3750 so a100 410 10250 es a100 350 8750 so a100 710 17750 es a100 750 18750 so a100 760 19000 es a100 150 3000 so a100 410 8200 es a100 350 7000 so a100 710 14200 es a100 750 15000 so a100 760 152000 es a200 165 4125 so a200 425 10425 es a200 365 9125 ne a100 200 5000 we a100 180 4500 ne a100 600 15000 we a100 780 19500 ne a100 800 20000 we a100 880 22000 ne a100 200 4000 we a100 180 3600 ne a100 600 12000 we a100 780 15600 ne a100 800 16000 we a100 880 17600 ne a200 215 5375 we a200 195 4875 ne a200 615 15375 ; 实验结果:

SAS程序基本语法入门

SAS程序基本语法入门 第一节SAS系统对数据的管理 在SAS系统中只有SAS数据集才能被SAS过程直接调用,SAS数据集的结构和DBF数据库完全相同,因此无须多讲。而SAS数据集存储在被称为SAS数据库的文件集中,在PC系统中,SAS数据库与某一个文件夹相对应,我们要为每一个数据库指定一个库标记(库名)来识别该库,使用Libname命令可以指定库标记。它的一般格式如下: Libname 库标记’文件夹位置’选项; 1

例如要指定目录“C:\USER”为库标记A,可以在视窗中提交如下语句: libname a ’c:\user’; 假设在C盘的目录下,有一个文件夹“user”,该文件夹中有一个SAS数据集为aa。下面的一段程序为可以将aa调出,并打印。 libname a ’c:\user’; proc print data=a.aa; run; 2

数据库可分为永久库和临时库两种。临时库只有1个,名为WORK,它在每次启动SAS系统后自动生成,关闭SAS时库中的数据集被自动删除;永久库可有多个,用户可以使用Libname语句指定永久库的库标记,永久库中的所有文件都将被保留。但库标记仍是临时的,每次启动SAS 系统后都要重新指定。不过为了方便用户,SAS在每次启动时都会自动指定两个库标记: SASUSER:指明为永久库,即库中的数据集被保存起来,以便下次启动系统时使用。 3

WORK:指明为临时库,对于开发和检查新程序非常有用,但每次SAS运行结束后WORK库中的所有文件将被删除。在程序中引用该库中的数据集可以省略库标记,即它被认为是缺省的数据库。 SAS数据库对应文件夹,如SASUSER对应c:\sas\sasuser,WORK 对应c:\sas\saswork, SAS数据集则对应文件,每个数据集实际上是在硬盘的相应文件夹内产生一个文件名为数据集名,而扩展名为.sd2的文件,因此如果你成功的建立了一个数据集,理论上你就可以反复使用它直到硬盘报废。 4

0九研究生SAS软件上机试卷(1)

09硕/博士研究生课程《医学统计软件应用》上机试卷 (春学期) 一·内容 有一个名为:Hypertension的SAS数据文件,文件中的数据来自于杭州市某社区居民家庭健康档案一份2000例的随机样本,数据中各变量的含义如下: V1 地区编号:①城镇②农村 V2性别①男②女 V3 年龄(岁) V4文化程度 1.文盲或半文盲2小学 3.初中 4.中专或高中 5.大专6大学或以上 V5职业 1.专业技术人员(医生、教师等) 2.行政管理、文职人员 3.轻体力劳动工人(服务行业、钳工、检验工等) 4.重体力劳动工人(搬运工、建筑工等) 5.在校学生 6. 家务 V6你的家人是否有高血压①父母双方均有②父一方有③母一方有④父母双方均没有⑤不详 V7你的家人是否有糖尿病①父母双方均有②父一方有③母一方有④父母双方均没有⑤不详 V8你的家人是否有其他疾病①肿瘤②冠心病③脑卒中④高血脂 V9. 吸烟①是②否③已戒 V10.饮酒①是②不饮③已戒酒 V11..饮茶①是②偶尔③不饮 V12.锻炼你是否经常参加体育运动(包括散步.太极拳.跑步游泳跳舞等运动持续半小时以上为1次) ①每天参加②每周3次以上③每周1-2次 ④每月1-2次⑤不参加 V13饮食习惯①以荤食为主②以素食为主③荤素各半 V14吃.腌、霉食品①经常吃(每周3次以上) ②偶尔吃③不吃 V15食物口味咸淡程度①偏咸②偏淡③一般 V16甜食①.经常吃(每周3次以上) ②偶尔吃③不吃 V17工作压力①大②一般③没压力 V18 5年内家庭重大事件(亲属病故.伤亡.离异)①有②无 V19 身高(厘米)V20—体重(公斤)V21—腰围(厘米)V22—臀围(厘米) V23是否服降压药①是②否 V24—收缩压(mmHg) V25—舒张压(mmHg)

最新SAS上机实习

S A S上机实习

中科院研究生院统计分析与SAS实现第1次上机实习题 一、定量资料上机实习题 要求: (1)先判断定量资料所对应的实验设计类型; (2)假定资料满足参数检验的前提条件,请选用相应设计的定量资料的方差分析,并用SAS软件实现统计计算; (3)摘录主要计算结果并合理解释,给出统计学结论和专业结论。 【练习1】取4窝不同种系未成年的大白鼠,每窝3只,随机分配到三个实验组中,分别注射不同剂量雌激素,经过一定时间后处死大白鼠测子宫重量,资料见表1。问剂量和窝别的各自水平下子宫重量之间的差别有无统计学意义?若剂量间差别有统计学意义,请作两两比较。 表1 未成年大白鼠注射不同剂量雌激素后的子宫重量 窝别 子宫重量(g) 剂量(μg/100g):0.2 0.4 0.8 合计 1 106 116 145 367 2 42 68 115 225 3 70 111 133 314 4 42 63 87 192 合计260 358 480 1098 定量资料的随机区组设计(区组因素:窝别;实验因素:剂量)【SAS程序】: DATA PGM15G; DO A=1TO4; /*A为窝别*/ DO B=1TO3; /*B为雌激素剂量*/ INPUT X @@; /*X为子宫重量*/ OUTPUT; END; END; CARDS; 106 116 145 42 68 115 70 111 133 42 63 87 ; RUN; ods html; /*将结果输出成网页格式,SAS9.0以后版本可用*/ PROC GLM DATA=PGM15G; CLASS A B; MODEL X=A B / SS3;

上机练习题

上机练习题 1.括弧匹配检验work1.pas 假设表达式中允许包含两种括号:圆括号和方括号,其嵌套的顺序随意,如([]())或[([][])]等为正确的匹配,[(])或([]()或( ( ) ) )均为错误的匹配。 现在的问题是,要求检验一个给定表达式中的括弧是否正确匹配? 输入一个只包含圆括号和方括号的字符串,判断字符串中的括号是否匹配,匹配就输出“OK”,不匹配就输出“Wrong”。 输入一个字符串: [([][])] 输出: OK 【输入】 输入仅一行字符(字符个数小于255) 【输出】 匹配就输出“OK”,不匹配就输出“Wrong”。 【样例】 输入(work1.in) [(]) 输出(work1.out) Wrong 2.自然数的拆分work2.pas 任何一个大于1的自然数总可以拆分成若干个自然数之和。 1:4=1+1+1+1 2:4=1+1+2 3:4=1+3 4:4=2+2 5:4=4 分析:设拆分出的数s1≤s2≤…≤sk。定义数组s为一个栈,用来存放因子。从1开始搜索因子,求和,若sum ≤n就将因子压栈;若sum =n,则输出解,出栈;若sum >n,则修改栈顶元素的值,即回溯。 【输入】 输入仅一行,包含一个自然数n。 【输出】 这个自然数拆分结果。拆分出的因子要求满足s1+s2+…+sk=n 且s1≤s2≤…≤sk。具体要求见样例。 【样例】 输入(work2.in) 4 输出(work2.out)

1:4=1+1+1+1 2:4=1+1+2 3:4=1+3 4:4=2+2 5:4=4 3.糟糕的头发 work3.pas 农夫约翰有N (1 <= N <= 80,000)头奶牛,自从奶牛们独自照看自己的头发开始,它们的发型变得越来越糟糕。约翰决定统计奶牛们所能看到其他奶牛的头顶的数目总和。 第i头奶牛加上她头发的高度为h[i] (1 <= h[i] <= 1,000,000,000),奶牛们站成一排面向东方(见图1),所以,从第i头奶牛的发尖看过去,她能看见前面所有比她矮的奶牛头顶(这些可能的奶牛依次为i+1,i+2,……)。 例如 = = = = - = 奶牛面向右 --> = = = = - = = = = = = = = = 1 2 3 4 5 6 Cow#1 可以看到的奶牛编号为#2, 3, 4 Cow#2 什么也看不到 Cow#3 可以看到的奶牛编号为#4 Cow#4 什么也看不到 Cow#5 可以看到的奶牛编号为#6 Cow#6 什么也看不到 约翰用c[i] 表示每头奶牛能看到的奶牛数量,请你帮约翰统计所有c[i](1 <= i <= N)的总和。上面例子的统计结果就是:3 + 0 + 1 + 0 + 1 + 0 = 5 时间限制:0.5 seconds 【输入】 输入的第一行为一个单独的整数n表示奶牛的数目,以下i+1行中n个整数分别代表第i头羊的高度。 【输出】只需一行,c[1]~c[n]的和。 【样例】 输入(work3.in) 6 10 3 7 4 12 2 输出(work3.out) 5

相关主题
相关文档
最新文档