SAS期末复习
SAS复习1

计算置信区间 PROC univariate data=aa CIBASIC; VAR d; run;
t检验SAS过程
单样本
proc means data=aa n mean std t prt; var d; run; proc univariate data=aa normal; var d; Univariate MU0=140; Ttest H0=140; run;
函数
ABS(x) 求x的绝对值。 SQRT(x) 求x的平方根。 LOG(x) 求x的自然对数。 LOG10(x) 求x的常用对数。 EXP(x) 指数函数 。 SIN(x), COS(x), TAN(x) 求x的正弦、余弦、正切函数。 MEAN 均值 MAX 最大值 MIN 最小值 SUM 求和 VAR 方差 STD 标准差 STDERR 均值估计的标准误差,用STD/SQRT(N)计算。 CV 变异系数 RANGE 极差 SKEWNESS 偏度 KURTOSIS 峰度
算术运算符为 + - * / **,运算优先级按通常的优先规则。
比较运算符用于比较常量、变量的大小、相等,包括
= ^= EQ NE
> GT
< >= LT GE
<= LE
其中EQ等名字和=等特殊字符是同一运算符的等价写法。
逻辑运算符用来连接比较得到的结果以构成复杂的条件,有
三种逻辑运算符:
永久数据集则是两水平命名:前一部分是它的逻辑库名,后一 部分是数据集名,中间用小数点连接。(即库名.数据集名)
计量资料的统计描述
PROC UNIVARIATE PLOT NORMAL; /*要做正态性检验,绘图*/ VAR length; HISTOGRAM length / NORMAL CFILL=BLUE PFILL=L2 ENDPOINTS=41 TO 59 BY 2; /* 绘制高分辨率直方图*/ RUN;
统计学SAS简单复习

一、两组独立资料的比较1、正态性检验DATA t2;INPUT x g @@;CARDS;10.2 1 8.9 1 10.1 1 9.2 1 -0.8 1 10.6 1 6.5 1 11.2 1 9.3 1 8.0 1 10.7 1 9.5 1 12.7 1 14.4 1 11.9 15.0 26.7 2 -1.4 2 4.0 27.1 2 -0.6 2 2.8 2 4.3 2 3.7 2 5.8 2 4.6 2 6.0 2 4.1 2 5.1 2 4.7 2;proc univariate normal;class g;var x;run;2、t检验或者秩和检验a)两组均符合正态分布,采用t检验DATA t2;INPUT x g @@;CARDS;10.2 1 8.9 1 10.1 1 9.2 1 -0.8 1 10.6 1 6.5 1 11.2 1 9.3 1 8.0 1 10.7 1 9.5 1 12.7 1 14.4 1 11.9 15.0 26.7 2 -1.4 2 4.0 27.1 2 -0.6 2 2.8 2 4.3 2 3.7 2 5.8 2 4.6 2 6.0 2 4.1 2 5.1 2 4.7 2;proc ttest;class g;var x;run;方差齐,则选择pooled t检验结果,如果方差不齐,则选择Satterthwaite t检验结果b)两组不符合正态分布,采用非参数秩和检验data a;input x g@@;cards;32.5 1 35.5 1 40.5 1 40.5 1 49.0 1 22.5 2 49.5 1 51.5 1 16 226 2 28.5 2 32.5 2 38.0 2 40.5 2;proc univariate normal plot;class g;var x;proc npar1way;class g;var x;run;二、多组资料的比较1、正态性检验DATA a;INPUT x g;CARDS;332.96 1 297.64 1 312.57 1 295.47 1 284.25 1 307.97 1 292.12 1 244.61 1 261.46 1 286.46 1 322.49 1 282.42 1 253.21 2 235.87 2 269.30 2 258.90 2 254.39 2 200.87 2 227.79 2 237.05 2 216.85 2 238.03 2 238.19 2 243.49 2 232.55 3 217.71 3 216.15 3 220.72 3 219.46 3 247.47 3 280.75 3 196.01 3 208.24 3 198.41 3 240.35 3 219.56 3 ;proc univariate normal;class g;var x;run;1)多组资料均符合正态分布,采用方差分析DATA a;INPUT x g@@;CARDS;332.96 1 297.64 1 312.57 1 295.47 1 284.25 1 307.97 1 292.12 1 244.61 1 261.46 1 286.46 1 322.49 1 282.42 1 253.21 2 235.87 2 269.30 2 258.90 2 254.39 2 200.87 2 227.79 2 237.05 2 216.85 2 238.03 2 238.19 2 243.49 2 232.55 3 217.71 3 216.15 3 220.72 3 219.46 3 247.47 3 280.75 3 196.01 3 208.24 3 198.41 3 240.35 3 219.56 3 ;proc glm;class g;model x=g;means g/hovtest=bartlett;run;lsmeans g/tdiff adjust=bon; (两两比较)2)多组资料不符合正太分布,采用多组秩和检验data a;input x g @@;cards;3 14 1 7 1 8 1 8 16 2 9 2 10 2 12 2 13 22 3 3 3 5 3 7 3 8 3;proc npar1way wilcoxon;class g;var x;run;三、配对资料的分析data a;input x1 x2@@;d=x2-x1;cards;10.5 8.8 21.6 18.8 14.9 13.5 30.2 27.6 8.4 9.1 7.7 7.0 16.4 14.719.5 17.2 127 155 18.7 16.3 9.5 9.5;proc univariate normal;var d;run;如果符合正态分布,则选择t检验结果,如果不符合正态分布,则选择符号秩检验结果。
SAS统计软件知识要点与试题库

SAS 统计软件知识要点与试题库1. 试述SAS系统中PGM、EDITOR、OUTPUT、EXPLORER、RESULT和LOG窗口的功能。
2. 窗口切换(移至前台并击活)可用以下任一种做法实现:(1)点击窗口本身;(2)由菜单项“窗口(W)”可切换到已打开的窗口,或由查看(View)加入新窗口;(3) Ctrl + T ab 依次切换;(4) 用设置的热键; (5) 发布命令;(6) 点击窗口条中某一窗口图标.3. 发布命令有四种方式:在命令框直接键入命令;使用下拉菜单(弹出菜单);使用工具条;按功能键(KEYS命令显示功能键所表示的命令).4. SAS数据集可以读取的数据类型:数据行直接输入、流行的数据库、其它文件格式5. SAS数据集的描述部分(创建与修改日期,引擎,变量名,类型,长度,标题,格式等)6. 字符型变量的缺失值用空格符表示数值型变量的缺失值用句号“ . ”表示7. SAS逻辑库包括临时库、永久库两种,区别?8. ViewT able窗口提供两种打开数据的方式:Browse模式和Edit模式,区别?9. SAS数据集的变量属性有6个,哪六个?(变量名及标签,类型,长度,输入输出格式).10. 在SAS系统中浏览和编辑SAS数据集一般必须先设定SAS逻辑库(文件库),然后将要浏览和编辑的数据集存放在已设定的SAS逻辑库(文件库)中.11. 多个SAS逻辑库可与同一个物理位置项连接;一个SAS逻辑库也可与多个物理位置相连接.12. 新建逻辑库(New Library)的方法:1. 按工具条上图标(New Library)可进入设定新的SAS逻辑库的N ew Library窗口;2. 资源管理器(浏览器)窗口击活时,在下拉菜单中选:文件(File) ⇒新建(New… )⇒逻辑库=>可进入设定新建逻辑库(New Library)窗口.3. 在“SAS 环境”(Environment)处击右键,在弹出的菜单中选新建(New …)=>逻辑库,也可进入新建逻辑库(New Library)窗口.13. 上机试题(1).用菜单方法建立新库(库标志名为dsta),此库包含本课程所使用的sas数据集; (2).用两种方法(菜单或命令)进入ViewT able窗口,并浏览数据集class;(3)先浏览class中SEX=…F‟的观测及AGE>=14的观测,然后浏览全部观测;(4)浏览数据集class的描述信息和数据内容;(5)浏览SAS永久库SASUSER的属性和内容,并浏览数据集AIR的描述信息和数据内容.14. 数据集名应由字母或下划线开始且不超过32个(V6为8) 个字节的字符、数字或下划线构成. 变量名,数组名,库名15. 上机(1). 用VT命令进入ViewT able窗口,直接输入数据并进行编辑修改后存为sas数据集; (2). 使用Import窗口菜单系统,将*.txt 转换为sas数据集;(3). 用数据步建立SAS数据集.16. SAS的Import/Export菜单界面提供一个使用菜单的图形界面:17. SAS语句书写的格式较为灵活:语句可以在某一行的任何位置开始和结束;词间可任意加入空格和换行;一个语句可以写成几行,只要语句中的单词不被断开就可以;多个语句可写在一行;SAS语句用大写字母、小写字母或两者混合书写均可以.18. 通常用DAT A步产生SAS数据集,而用PROC步对SAS数据集中的数据进行分析处理并输出结果. 一个SAS程序可由一个DAT A步或一个PROC步组成;或者由DAT A 步和PROC步两部分组成;也可由多个DAT A步和PROC步组成.19. SAS的字符型变量缺省的长度是8个字符,可以用LENGTH语句直接指定变量长度。
SAS复习提纲

SAS复习提纲第一章:子窗口(五个常用窗口):程序编辑窗口(Editor)、运行记录窗口(Log)、输出窗口(Output)、结果窗口(Results)、浏览器窗口(Explorer)SAS中的文件名:(1)程序: .sas(2)数据集: .sas7bdatSAS系统中的两个层次:高级:逻辑库低级:数据集文件名:逻辑库名.数据集名e.g. aa.bb,其中aa是逻辑库名,bb是数据集名(特别地,如果不指明逻辑库名,则表示存储在临时逻辑库WORK中的SAS文件。
)SAS中的逻辑库:临时库:唯一临时库,名为work永久库:除临时库外的所有逻辑库自定义逻辑库语句:Libname <逻辑库名> “<SAS文件的储存目录> “; ←注意分号!Run;SAS的名字(数据集名、变量名、逻辑库名等等)有以下命名规则:1) 由英文字母、数字、下划线组成;2) 第一个字符必须是字母或下划线;3) 不区分大、小写字母。
数据集导入(Excel下):菜单-导入数据数据集中变量的输入输出格式的一般形式[$] 格式名<w>.<d>$字符变量的输入输出格式(字符型还是数值型)w格式的宽度(包括小数点符号,正负号等)d在数值型格式中指明小数点后数值的位数用INSIGHT创建数据集1.启动SAS INSIGHT模块,在“SAS INSIGHT:Open”对话框的”逻辑库“列表框中,选定库逻辑名2.单击“新建”按钮3.在行列交汇处的数据区输入数据值变量分为两种类型:字符型变量和数值型变量。
在INSIGHT中,为了区分变量在分析中的不同作用,又按变量的测量水平分为两类:● 区间型变量(interval variable):区间型变量必须是数值型变量,可以对其观测值进行四则运算,计算各种统计量;● 列名型变量(nominal variable):列名型变量可以是数值型的,也可以是字符型的,在INSIGHT中常起分类作用。
SAS 期末

SAS期末作业:姓名:李珂专业:中科院文献情报中心图书馆学学号:201228015547003 班级:201209172011年我国各行业各地区就业情况分析1导言本文主要通过SAS软件,采用描述性统计方法和主成分分析的方法,对2011年我国31个地区12个行业的就业数据进行简单的统计分析,并试图得出一定的结论。
我国正处于社会的发展变革期,尤其是经济和文化的发展,各地区行业的就业情况也存在着一定的差异,差异中也可能暗含着一定的规律,所以本文通过对该情况数据的搜集、统计和分析,试图找出某种规律来得出一定结论。
其中,描述性统计主要是求均值、标准偏差、最大值和最小值。
主成分分析法是把多个指标化为少数几个综合指标的一种统计分析方法。
在多指标(变量)的研究中,往往由于变量个数太多, 彼此之间存在着一定的相关性,使得所观测的数据有信息的重叠,研究样本的分布规律比较麻烦。
主成分分析采取一种降维的方法,找出几个综合因子来代表原来众多的变量,使这些综合因子尽可能地反映原来变量的信息量,而且彼此之间互不相关,从而达到简化目的。
2.数据来源本文的数据来自于中国人口和就业统计年鉴(2011年),为了用SAS软件进行分析,首先可以将所下载数据转化为excel格式,再将经过格式统一的数据导入SAS软件,下面是原始数据和数据的导入过程。
(1)原始数据地区农林牧渔业采矿业制造业供应业建筑业运输业信息行业批零业住宿餐饮业金融业房地产业社会福利业北京11910 4419587909145000 284769379696349073441389 216043 233147 254171 20062天津1224 8222063748716401 78615 58147 21021 76822 33947 55258 23215 976河北581 14891275872635654 16543345417 29005 89277 13846 141260 13845 1018山西395 34636949389625191 85288 26274 11084 52872 18687 48270 17156 3330内蒙古7106 11473133157734002 94826 13429 6334 29932 10724 33399 6319 978辽宁6867 260978101216563301 13788966071 40186 108928 48949 101782 49045 8339吉林5236 11174443618128443 62984 29342 25877 49623 15930 37915 20539 3252黑龙江6698 22225344066831541 10293914704 24772 86955 11373 67151 17547 1018上海6809 479 125916014693 67694 21737446981 209677 91511 165603 84812 1054江苏3384 51244286257157866 35661811624146940 207300 81040 159461 45333 18324浙江1994 9869321301949066 143381797988 77553 238490 122620 199762 83622 8664安徽11 17039759775238499 26757247251 16183 66609 25181 75217 31221 8781福建6180 30264218446438220 39580938518 25672 77411 41588 62109 58516 2690江西3027 2424152769924672 62554 14388 10569 27573 7014 38299 8777 1780山东9147 175168289623856404 41366897724 33958 255052 57458 210344 61729 6879河南17904 370429130227881628 64150652224 24616 158144 49337 121988 68169 20070湖北1866 3333985949132531 44172969209 23565 134713 49415 63764 37760 6673湖南1704 5353778174534997 46407950823 21311 111246 57417 120223 65337 12652广东6097 17318416521359591 310309270138111686281777 179993 192466 195679 12286广西7734 1543741461719062 16090546460 14097 53910 25208 28227 24690 2814海南769 958 64926 4248 8624 23557 4878 21281 29950 8027 18917 412重庆2044 5456541527142322 32700840633 12134 79520 32188 66910 36407 1028四川1172 9562291462770909 52686355432 24253 94448 29921 77974 40154 3416贵州944 8552924219112439 58939 11724 9961 55330 17185 32100 27607 3154云南4537 9368640734535072 26415343749 21073 97317 40266 28383 31436 3927西藏267 9 1761 4 2392 94 8 691 15 1059 45 5陕西413 5261544439422333 10515723724 27393 55287 33037 65333 31131 4010甘肃1407 5328915935710514 60472 16657 7845 27178 8601 23977 9034 329青海3424 1149254472 2737 15539 5360 1446 9483 1910 2725 3684 951宁夏469 5106090227 15545 14827 2590 1994 7598 3509 10523 4993 26新疆5131 14196120718736582 98586 23823 9338 35750 11426 26430 15871 954(2)数据的导入过程新建一个名称为“jiuye”的数据集,并保存,下面是导入数据的代码:Data jiuye;Input regions$ agriculture mining manufacturing production construction transport IT wholesale hotels finance estate socialwelfare;Cards;北京11910 44195 879091 45000 284769 379696 349073 441389 216043 233147 254171 20062天津1224 82220 637487 16401 78615 58147 21021 76822 33947 55258 23215 976河北581 148912 758726 35654 165433 45417 29005 89277 13846 141260 13845 1018山西395 346369 493896 25191 85288 26274 11084 52872 18687 48270 17156 3330内蒙古7106 114731 331577 34002 94826 13429 6334 29932 10724 33399 6319 978辽宁6867 260978 1012165 63301 137889 66071 40186 108928 48949 101782 49045 8339吉林5236 111744 436181 28443 62984 29342 25877 49623 15930 37915 20539 3252黑龙江6698 222253 440668 31541 102939 14704 24772 86955 11373 67151 17547 1018上海6809 479 1259160 14693 67694 217374 46981 209677 91511 165603 84812 1054江苏3384 51244 2862571 57866 356618 116241 46940 207300 81040 159461 45333 18324浙江1994 9869 3213019 49066 1433817 97988 77553 238490 122620 199762 83622 8664安徽11 170397 597752 38499 267572 47251 16183 66609 25181 75217 31221 8781福建6180 30264 2184464 38220 395809 38518 25672 77411 41588 62109 58516 2690江西3027 24241 527699 24672 62554 14388 10569 27573 7014 38299 8777 1780山东9147 175168 2896238 56404 413668 97724 33958 255052 57458 210344 61729 6879河南17904 370429 1302278 81628 641506 52224 24616 158144 49337 121988 68169 20070湖北1866 33339 859491 32531 441729 69209 23565 134713 49415 63764 37760 6673湖南1704 53537 781745 34997 464079 50823 21311 111246 57417120223 65337 12652广东6097 17318 4165213 59591 310309 270138 111686 281777 179993 192466 195679 12286广西7734 15437 414617 19062 160905 46460 14097 53910 25208 28227 24690 2814海南769 958 64926 4248 8624 23557 4878 21281 29950 8027 18917 412重庆2044 54565 415271 42322 327008 40633 12134 79520 32188 66910 36407 1028四川1172 95622 914627 70909 526863 55432 24253 94448 29921 77974 40154 3416贵州944 85529 242191 12439 58939 11724 9961 55330 17185 32100 27607 3154云南4537 93686 407345 35072 264153 43749 21073 97317 40266 28383 31436 3927西藏267 9 1761 4 2392 94 8 691 15 1059 45 5陕西413 52615 444394 22333 105157 23724 27393 55287 33037 65333 31131 4010甘肃1407 53289 159357 10514 60472 16657 7845 27178 8601 23977 9034 329青海3424 11492 54472 2737 15539 5360 1446 9483 1910 2725 3684 951宁夏469 51060 90227 15545 14827 2590 1994 7598 3509 10523 4993 26新疆5131 141961 207187 36582 98586 23823 9338 35750 11426 26430 15871 954;Run;3.数据分析通过数据的导入,我们可以在SAS系统中找到该数据集,然后开始对数据的分析,我们将其分为两个部分:(1)描述性统计主要是对各行业的就业量进行均值计算,分析出各行业的就业量情况,代码如下:proc means data=jiuye;var regions$ agriculture mining manufacturing production construction transport IT wholesale hotels finance estate socialwelfare;run;输出结果如下:从图中可以看出各行业在各地区就业量的均值,其中均值最大的是manufacturing 即制造业,其次是construction即建筑业,排在第三位的是wholesale即批发零售行业,说明在这三个行业就业量比较高。
SAS复习总结

蔡泽蕲Freq 过程:Proc Freq data=dataset;table x*y/option;By var1;Class var2;Weight f;Run;输出x*y的频数表,by语句的使用要求var1已经排过序. option可为chisp,分析x、y(两独立样本)的不同水平的差异是否显著,卡方检验。
当x、y为两配对样本时,option为agree,进行配对样本差异是否显著的检验。
Sort 过程:Proc sort data=dataset out=dataset;By (descending) var1 (descending) var2;Run;对数据集中的var1、var2变量依次排序,默认从小到大,descending为从大到小。
缺失out 时新数据集覆盖原数据集。
Means 过程Proc means data=dataset option;Var x;By var1;Class var2;Freq var3; /*不能用weight*/Output out=输出数据集统计量名=自定义名;Run;输出option统计量,当包含t和prt 时输出x的期望为0的t检验,用于配对样本的t检验。
无option时,默认输出N、std、mean、min、max五个统计量。
还可输出其它很多统计计量。
特别的两个选项:maxdec=n ,alpha=value分别指定结果保留位数和置信度Univariate 过程Proc univariate data=dataset option;Var x;By var1;Freq var2;Output out=输出数据集统计量=自定义变量名;Run;Option 可为freq(生成频数表)、normal(检验变量是否服从正态分布)、plot(生成茎叶图、箱线图、正太概率图)、cibasic(计算均值置信区间)、cipctldf(计算中位数置信区间)。
统计量可为:各检验统计量及分位数。
sas复习

SAS复习提纲一、数据的输入及输出菜单方式文件-----数据导入/数据导出SAS数据的work工作区输入和调用解决方案—分析—分析家PROC IMPORT 方式PROC IMPORTdatafile="f:\mydata\sas\inflation.xls"OUT=ACPIDBMS=excel2000 REPLACE ;sheet='ACPI';getnames=yes;run;proc print DATA=ACPI(obs=15);run;编辑窗口操作方法PROC DATA;INPUT X Y @@;CARDS;XXXXXXXX;RUN;PROC PRINT DATA=XX;V AR __;RUN;二、排序及分组data example3;input name $ 1-10 sex $ math chinese; cards;李明男 92 98张红艺女 89 106王思明男 86 90张聪男 98 109刘颍女 80 110run;proc print data=example3noobs label;label name='姓名' sex='性别'math='数学成绩' chinese='语文成绩'; run;proc sort data=example3;by sex;run;proc print data=example3 noobs;by sex;run;三、简单的运算原有数据集data=case1;其中有变量x y计算Z=x^3+1/yData case2;Set case1;Z=x^3+1/yRun;data example2;input name $ 1-10 sex $ math chinese;avg = math*0.5 + chinese/120*100*0.5;cards;李明男 92 98张红艺女 89 106王思明男 86 90张聪男 98 109刘颍女 80 110;run;proc print;run;proc sort data= example2;by descending avg;run;proc print;run;四、简单正态随机数的产生data example4;do time=-50 to 1000 by 1;noise=rannor(12345);if time>0 then output ;end ;print data= example4;run;1t t t y y με-=++ ~(0,1)t N εdata a;mu=0;y1=5;do time=-100 to 1100;noise=rannor(785); y=mu+y1+noise;if time>0 then output ; y1=y;end ;五、基本描述统计proc means data=;var x;run;proc univariate data=;var x; run;PROC MEANS DATA =shenzheng MEAN STD Q1 MEDIAN Q3 skew kurt ; VAR open close r1;RUN ;六、图形PROC CHART/PROC GCHARTVBAR HBAR BLOCK PIE STAR data example1;input name$1-11 sex$ title$ age;cards;Zhouli M P 50Yuke F AP 48Liping F AP 47Liuling M L 37Wangfang F L 28Zhulin M P 44Yuhong F AP 40Liqing F AP 42Liulijun M L 30Wangfang F L 25Leiming M AP 32Fangjin M L 26Liuming M AP 36;run;proc print data=example1;run;quit;PROC CHART DATA=example1;VBAR sex;HBAR sex;BLOCK Sex;PIE Title;star Title;RUN;PROC GCHART DATA=example1;VBAR sex;HBAR sex;BLOCK Sex;PIE Title;star Title;RUN;/*5个高分辨率图形/PROC PLOT/PROC GPLOT [1] PROC PLOTDATA example2;n=0;DO x=0TO360BY5;y=sin(x*3.14159/180);OUTPUT;END;PROC PLOT ;PLOT y*x='+'/vref=0;RUN;DATA example3;DO x=0TO360BY30;y=sin(x*3.14159/180);z=2*x/180-2;OUTPUT;END;PROC PLOT ;PLOT y*x='+' z*x='*'/OVERLAY vref=0; run;DATA example4;DO x=-10TO10BY1;DO y=-10TO10BY0.5;z=sqrt(x*x+y*y);OUTPUT;END;END;PROC PLOT;PLOT y*x=z/CONTOUR;RUN;[2] PROC GPLOTDATA example5;input milk@@;time=intnx('month','1jan1962'd,_n_-1); format time date.;cards;589 561 640 656 727 697 640 599 568 577 553 582 600 566 653 673 742 716 660 617 583 587 565 598 628 618 688 705 770 736 678 639604 611 594 634 658 622 709 722 782 756 702 653 615 621 602 635 677 635 736 755 811 798 735 697 661 667 645 688 713 667 762 784 837 817 767 722 681 687 660 698 717 696 775 796 858 826 783 740 701 706 677 711 734 690 785 805 871 845 801 764 725 723 690 734 750 707 807 824 886 859 819 783 740 747 711 751 804 756 860 878 942 913 869 834 790 800 763 800 826 799 890 900 961 935 894 855 809 810 766 805 821 773 883 898 957 924 881 837 784 791 760 802 828 778 889 902 969 947 908 867 815 812 773 813 834 782 892 903 966 937 896 858 817 827 797 843 ;run;proc gplot;plot milk*time;symbol v=square i=join c=red;run;七、报表及列列联表一维PROC FRE Q DATA=CLASS;TABLE AGE;RUN;quit;二维PROC FREQ;TABLE SEX*AGE;RUN;quit;列联表从这些罪行的组合看,是否于性别无关。
SAS复习整理(全)

一、数据集的建立1.导入Excel数据表的步骤如下:1) 在SAS应用工作空间中,选择菜单“文件”→“导入数据”,打开导入向导“Import Wizard”第一步:选择导入类型(Select import type)。
2) 在第二步的“Select file”对话框中,单击“Browse”按钮,在“打开”对话框中选择所需要的Excel文件,返回。
然后,单击“Option”按钮,选择所需的工作表。
(注意Excel文件要是2003的!!)3) 在第三步的“Select library and member”对话框中,选择导入数据集所存放的逻辑库以及数据集的名称。
4 ) 在第四步的“Create SAS Statements”对话框中,可以选择将系统生成的程序代码存放的位置,完成导入过程。
2.用INSIGHT创建数据集1)启动SAS INSIGHT模块,在“SAS INSIGHT:Open”对话框的”逻辑库“列表框中,选定库逻辑名2)单击“新建”按钮,在行列交汇处的数据区输入数据值(注意列名型变量和区间型变量,这在后面方差分析相关性分析等都要注意!!)3)数据集的保存:•“文件”→“保存”→“数据”;•选择保存的逻辑库名,并输入数据集名;•单击“确定”按钮。
即可保存新建的数据集。
3.用VIEWTABLE窗口建立数据集1)打开VIEWTABLE窗口2)单击表头顶端单元格,输入变量名3)在变量名下方单元格中输入数据4)变量类型的定义:右击变量名/column attributes…4.用编程方法建立数据集DATA 语句; /*DATA步的开始,给出数据集名*/Input 语句;/*描述输入的数据,给出变量名及数据类型和格式等*/(用于DATA步的其它语句)Cards; /*数据行的开始*/[数据行]; /*数据块的结束*/RUN; /*提交并执行*/例子:data=数据集名字mylib.a;input name$ phone room height; ($符号代表该列为列名型,就是这一列是文字!!比如名字,性别,科目等等)cards;rebeccah 424 112 1.5648 (中间是数据集,中间每一行末尾不要加逗号,但是carol 450 112 5.6235 数据集最后要加一个分号!!)louise 409 110 1.2568gina 474 110 1.3652mimi 410 106 1.6542alice 411 106 1.6985brenda 414 106 1.3698brenda 414 105 1.8975david 438 141 1.6547betty 464 141 1.5647holly 466 140 1.5624;proc print data=whb.phones; (这一过程步是打印出数据集,可要可不要!)run;*数据集中的框架我会用加粗来显示,大家主要记加粗的,下面的编程部分都是这样!!二、基本统计分析1.用INSIGHT计算统计量1)在INSIGHT中打开数据集在菜单中选择“Solution(解决方案)”→“Analysis(分析)”“Interactive Data Analysis (交互式数据分析)”,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集,单击“Open (打开)”按钮,即可在INSIGHT中打开数据窗口2)选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAS期末复习2017.12.25一、选择题(考察基础)1 一个完整的SAS 程序通常包括(B)A 数据步——函数部B 数据步——过程步C 定义步——函数步D 定义步——过程步2 与CARDS 语句等价的是________语句A dataB endC formatD datalines3单因素方差分析的前提是样本呈________A 均匀分布B 泊松分布C 两点分布D 正态分布4 STEPDISC 过程的用途是________A 在多元线性回归中进行变量选择B 在多元非线性回归中进行变量选择C 在聚类分析中进行变量选择D 在判别分析中进行变量选择5________过程支持使用凝聚的层次聚类法(系统聚类法)进行聚类A、STEPWISE B 、FASTCLUS C、ANOVA D、CLUSTER6下列变量名的命名错误的是()A tree_rootB treeRootC tree rootD TR7 下列哪种文件格式的数据集不能导入SAS程序里面A word文档B 用制表符分割的文本文件C 逗号分隔的文本文件D 空格分割的文本文件8 _____考察资料的左右对称的分布情况,_____以正态分布为标准,考察资料的陡峭分布情况。
A 偏度峰度B 峰度偏度9、下列数据中,属于分类变量的是(D )。
A.年龄B.身高C.产品产量D.性别10、某研究部门准备在全市100万个家庭中抽取1000个家庭,推断该城市所有职工家庭的年人均消费。
这项研究的总体是、样本是、样本量是(C)。
A.100万个家庭、100万个家庭的人均消费、1000B.100万个家庭的人均消费、100万个家庭、1000C.100万个家庭、1000个家庭、1000D.100万个家庭的人均消费、1000个家庭、100万11、相关关系按变量之间的相关程度划分为(B )。
A.单相关、复相关和偏相关B.完全相关、不完全相关和不相关C.线性相关和非线性相关D.正相关和负相关12、下面那一项分布的数据,均数等于中位数(D )。
A.对数正态B.左偏态C.右偏态D.正态13、关于失拟检验,下列说法错误的是(D)A原假设表示模型拟合的好B备择假设表示模型拟合不好C P值大于0.05说明模型拟合的好D P值小于0.05说明模型拟合的好14、在多元线性回归分析中,描述变量和试验指标高度相关的两个参数是(A)A R2越大C(P)值越小B R2越大C(P)值越大C R2越小C(P)值越大D R2越小C(P)值越小15、相关系数0< I r I<0.4:低度相关;0.4≤I r I <0.7:中度相关;0.7≤I r I≤1.0:高度相关正相关:0< r ≤1完全正相关:r = 1负相关:-1≤r <0完全负相关:r = -1不相关:r = 016、二、填空题(10个每个2分)(1)过程名(大小写无所谓,SAS都一样识别)1、进行基本统计量统计分析,过程名是Proc means2、进行成组法T测验,过程名是Proc ttest3、进行配对法T测验,过程名是Proc test4、进行联卡平方检验,过程名是Proc Freq5、进行比例适合性检验,过程名是Proc Freq6、进行相关分析,过程名是Proc corr7、进行线性回归统计分析,过程名是Proc reg8、进行非线性回归统计分析,过程名是Proc nlin9、进行协方差分析,过程名是Proc GLM(注:GLM是指一般线性模型)10、进行二次响应面回归分析,过程名是Proc RSreg11、进行方差统计分析,过程名是Proc Anova12、进行因子统计分析,过程名是Proc factor13、进行主成分分析,过程名是Proc princomp14、进行聚类统计分析,过程名是Proc cluster15、进行判别分析,过程名是Proc Discrim16、进行正态分布检验,过程名是Proc univariate17、进行作相关点式图,过程名是Proc plot(2)基础常识(也可以当选择题)1、检验资料是否服从正态分布的方法有偏度、峰度、Q-Q作图和正态频率纸检验。
(偏度和峰度大致参考,比较直观,但较粗略)2、数据的统计转换方法有平方根代换、对数代换和反正弦代换等。
3、将个数众多、相互有关联的变量,转化为少数几个相互独立的变量的分析方法是主成分分析。
4、把样本或变量进行分类的分析方法是聚类分析。
5、SAS的逻辑库可分为__永久库__和___临时库__两种,临时库名为_work 。
6、在假设检验中,显著性水平α是衡量_____小概率事件发生____的标准,常取值为__0.05_______,若____p<0.05_____则拒绝原假设H0。
7、多重比较的方法有很多种,常用的有LSD法、duncan法、Tukey 法8、SAS程序语句中,每个程序语句尾都要以; 结束。
9、SAS程序语句中@@的作用是保证每行数据通读。
(3)自由度问题(考察重点)1、某个因子的自由度等于因子的水平数减一。
2、某两因子试验中,其交互作用的自由度等于有关因子的自由度的乘积。
3、一可量资料样本均数与总体均数差异显箸性进行t检验时,其自由度为样本含量数-14、正交表的总自由度等于处理组合数-1。
5、作回归关系显著性测验时,回归项的自由度等于自变量的个数。
6、2*2联卡平方测验时,DF等17、两个配对法设计的可量资料样本均数差异显箸性进行t检验,其自由度为试验资料的配对数-1。
(如,有10对数据,那么自由度就是9)8、2*J联卡平方测验时,其自由度为J-19、两因子试验:假定参试因子为A及B,A分为a个水平。
B分为b 个水平,若设r个区组,则全试验共有abr个小区。
(非常重要)例如A有3个水平,B有2个水平,区组为4那么自由度分别是总自由度dfT = abr-1 = 3×2×4-1 = 24-1 = 23区组间自由度dfr = r-1 = 4-1 = 3A因素自由度dfA = a - 1 = 3 - 1 = 2B因素自由度dfB = b - 1 = 2 - 1 = 1AB交互作用自由度dfAB = dfA×dfB = 2×1 = 2误差自由度dfe = dfT-dfr-dfA-dfB-dfAB= 23-3-2-1-2 = 15 那三因子的试验就是dfA = a-1dfB = b-1dfC = c-1dfAB = (a-1)(b-1)dfAC = (a-1)(c-1)dfBC = (b-1)(c-1)dfABC = (a-1)(b-1)(c-1)dfe = (abc-1)(r-1)dfT = abcr-1(4)编码值和实际值的相互换算(非常重点)不需要硬背公式,这里有一个简单的方法,用相似三角形比计算。
三、简答题(3小题,其中2个概念性的题3X2分=6分,1个写小程序题4分)(1)给出一道题目,自己写出SAS程序语句,有可能在方差分析、回归分析、T检验、主成分分析里面出。
(课本上例题)即:方差分析(单因素、双因素)T检验(成组,配对)回归分析(线性回归、非线性的响应面回归)(2)写出距离判别分析的基本过程。
第一步,计算出k个类别的方差协方差矩阵的逆阵。
第二步,计算出各个训练样本到这k个类别的马氏距离,比较这k个距离,把训练样本归到距离最短的类中。
第三步,计算在第二步中判别错误的样本数占总样本数的百分率。
第四步,如果还有新的待判样本,计算各个新样本到这k个类别的马氏距离,比较k个距离,把各个新样本归到距离最短的类中,再计算在待判样本中判别错误的样本数占待判样本总数的百分率。
(3)方差分析的基本过程分为四个步骤:第一步:对所研究的总体参数提出假设第二步:计算矫正数及各种平方和第三步:列方差分析表并进行F 检验第四步:若F 检验达显著,则进行多重比较三、判断分析方法题1、某果树品种比较试验,参试品种有PB86和GL1,前者随机抽取11株,后者随机抽取17株,分别测定产量如下(kg),问两品种的产量有否显著差异?PB86 69 PB86 97 PB86 106 PB86 51 PB86 97 PB86 65 PB86 73 PB86 83 PB86 79 PB86 41 PB86 92GL1 32 GL1 61 GL1 50 GL1 46 GL1 73 GL1 43 GL1 80 GL1 61 GL1 46GL1 56 GL1 60 GL1 29 GL1 38 GL1 48 GL1 26 GL1 23 GL1 61请问上述数据采用何种分析方法?成组法T检验。
2、采用两种不同的增产刺激剂在同一橡胶树上进行割胶增产效果比较试验,参试刺激剂有乙烯利(Ethrel)和碳化钙(CaC2),试验为配对法设计,处理后分别测定各对的产量如下(kg),问两种增产刺激剂的增产效果有否显著差异?Ethrel CaC2 Ethrel CaC273.2 76.0 70.5 54.959.9 56.0 35.0 12.439.1 38.3 84.8 76.916.7 19.3 67.4 68.8149.7 113.8 50.3 37.1101.1 74.0请问上述数据采用何种分析方法?配对法T检验。
3、在防治苗木砧木立枯病的试验中,调查经过拌种处理和未经过拌种处理的海棠苗发病数如下表,试分析拌种与否和立枯病的发生有否关系?请问上述数据采用何种分析方法?2×2 联卡平方检验4、调查纯合型紫花大豆与白花大豆的杂交F2代250株,发现紫花的有181株,白花的有69株。
试分析紫花大豆与白花大豆植株的比例是否为3︰1。
请问上述数据采用何种分析方法?a︰b比例适合性检验5、观测某作物的五个性状x1、x2、x3、x4和y,共得到13组观察值,试用此数据拟合一条性状y在性状x1、x2、x3和x4上的线性回归方程。
(数据集为:reg3)X1 X2 X3 X4 Y7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.5请问上述数据采用何种分析方法?多元线性回归分析6、四种不同的整地深度(Deep,cm)对苗木生长的对比试验,试分析不同的整地深度对苗木的长高(Height)有否显著的影响?整地深度苗长高观测值15 68 76 73 64 7120 70 74 76 80 8225 81 79 85 90 8930 90 95 104 101 99请问上述数据采用何种分析方法?单方面的方差分析7、不同施肥对大豆产量影响的试验,采用随机区组试验设计,三个重复区组,四种施肥方式,即:不施肥(对照)、施磷肥、施硫酸铵和施尿素,试分析不同施肥方式的大豆产量是否有差异?请问上述数据采用何种分析方法?双方面的方差分析8、某试验的因子水平编码表如下试验设计与试验结果表如下请问对上述数据采用什么分析方法?Box-Benhken设计分析(也可以写成响应面回归分析)9、1995年的世界经济研究中,调查了一些发达国家和发展中国家的数据,从2007年世界各国人文发展指数的排序中,选取高发展水平(A)、中等发展水平(B)和低发展水平国家(C)各6个作为三组样品,指标为人均寿命(life)、成人识字率(literacy)、人均GDP(GDP)和入学率(education),另外选择四个国家作为待判样品,试对四个未知国家进行分类。