武汉大学SAS总复习笔记(精品版)

合集下载

Sas学习笔记

Sas学习笔记人文社会科学学院高等教育学专业张宁S100081674整个SAS程序结构可以分为两个部分，数据data步与过程proc步。

data步1：输入数据（包括手动输入数据、从文本文件中导入数据）a使用手动方法输入数据基本形式是：Data 数据集；Input 变量名（包括格式设置）；/*在input语句中需要指定的格式必须和cards中数据的格式一致，需要考虑字符型与数值型数据的不同，以及是否是标准数据，根据实际情况调整数据格式设定*//* 同时在读入数据的时候，需要参考数据的形式，指定输入的起始位置与字符数，包括使用@指针控制、指定起始列终止列、指定字符数等*/其他语句；/*循环语句，选择语句等*//*sas表达式：sas运算符（包括算数、比较、逻辑）sas函数（包括算数函数、常用函数等）*/Cards ；数据；/*其中数据之间默认为空格作为分隔符，如果分隔符为其他符号，则要在input语句中指定delimiter=‘’*/Run；b使用文本文件导入法基本形式是：Data 数据集；变量属性设定；Infile‘文件地址’（firstobs=，obs= ，missover）；Input；其他语句；/*循环语句，选择语句,sas表达式*/Run；当然输入数据的时候可以直接使用sas导入数据选项，根据情况设定形式，导入数据。

c总之在data步中常见的语句有：DA TA语句PUT语句——输出语句SET语句——读取观测语句ATTRIB语句——设定变量属性赋值语句——计算SAS表达式，给变量赋值DROP语句——删除变量语句KEEP语句——保留变量语句IF语句——条件语句DO-END语句——循环语句DELETE语句——删除语句OUTPUT语句——输出到数据集语句COMMENT语句——注释语句ARRAY语句——数组语句在实际操作中，可以灵活的使用这些语句实现数据处理。

2：同时在数据步中可以使用语句实现数据集的加工、合并和拼接a数据集排序/*事先对SAS数据集进行排序，是其它SAS程序通过使用BY语句直接调用该数据集及对数据集进行合并或串接的前提*/PROC SORT OPTIONS ；BY 〔DESCENDING〕变量名列表；END；b数据集串联/*在串联中必须要求同一个变量在不同数据集中数据形式一致，如果不一致，则需使用put函数将数据形式转换*/Concatenate方式Data 新数据集；Set 输入数据集1 输入数据集2 ……；/*可以使用（in=变量k）的形式检测来自哪个数据集*/Run；Interleave方式：Data 新数据集；Set 输入数据集1 输入数据集2 ……；By by-variables ；/*必须排序*/Run；c数据集并联/*用MERGE 语句并接SAS数据集*/MERGE （一对一合并）DATA 新数据集；MERGE 输入数据集1 输入数据集2 ……；RUN；MATCH MERGE（匹配合并）DATA 新数据集；MERGE 输入数据集1 输入数据集2 ……；BY by-variables ；RUN；d修改数据集modify/*modify语句修改数据集，并且此过程不能形成新的数据集,并且不需要排序*/data主数据集名称；modify 主数据集名称更新数据集名称；run;Update/*可以产生新的数据集，需要使用by排序*/data 数据集名称update 主数据集名称更新数据集名称；by变量名称；/*该语句必须出现，而且必须在该data步之前对update语句中的数据集进行排序*/run;Proc步该过程常用的sas语句有：V AR语句—指定分析变量MODEL语句—指定统计建模的模型/*一般采用‘因变量=自变量/选项’的形式*/BY语句—指定分组变量/*使用之前一般要使用proc sort语句进行排序*/CLASS语句—指定分类变量OUTPUT语句—指定输出结果存放的数据集FREQ语句—指定一个重复数变量WEIGHT语句—指定一个权重变量ID语句—指定用来标识观测的变量WHERE语句—选择输入数据集的一个行子集进行分析LABEL语句—为变量指定一个临时标签FORMAT语句—为变量输出规定一个输出格式/*过程步中规定的格式只是在本次运算中起作用，而数据步中规定的实行在整个数据集中永久存在*/1：使用proc print语句输出表格PROC FORMAT;V ALUE ；/*使用该语句定义用户格式*/PROC PRINT DATA 数据集SPLIT='*' ；/*使用该语句控制显示中的格式，使其按要求换行*/ID 变量名; /*把指定的变量在取消obs 的情况下排在表格最左列*/V AR 变量列表;/*需要输出的变量*/WHERE 条件表达式…；SUM 变量序列；/*变量需要处理的形式*/BY 变量名; /*在先前进行排序的情况下，对数据进行分组并要求每组进行小计*/PAGEBY 变量序列；/*是报告表格按组分页*/TITLEn'语句'；/*使用该语句控制表头显示可以最多有十个标注*/FOOTNOTEn语句'；LABEL 变量1= ‘label（标*签）’……；/*控制表头显示，可使用起始中split=定义的方式美化表格*/FORMA T ;/*用户自定格式的使用*/RUN;2：使用proc tabulate语句输出汇总表格PROC FORMAT;V ALUE ;/*使用该语句定义用户格式*/PROC TABULATE data 数据集options;CLASS /*分类变量,可以是数值型也可以是字符型*/;V AR ;/*分析变量，必须是数值型*/FORMAT ;/*用户自定格式的使用*/TABLE page-v，row-v，colum-v / options;/*table语句中使用的变量必须是class与var中定义过的变量*//*包括元素与操作符，根据操作符的不同控制表格格式，无=每个变量占一单独列；，=两个表达式产生一个二维列表分别代表行和列；两个，=三维列表分别是页行列；*隔开两个表示交叉列表*//*options选项控制表格其他形式，如使用rts控制第一列宽度*/KEYLABEL ；/*使用该语句为all类变量以及所有的统计量加标记*/TITLEn'语句'；/*使用该语句控制表头显示可以最多有十个标注*/FOOTNOTEn语句'；LABEL 变量1= ‘label（标*签）’……；/*控制表头显示，可使用起始中split=定义的方式美化表格*/RUN;3：使用proc gplot语句绘制散点及折线图PROC GPLOT DATA=数据集；PLOT 纵坐标变量*横坐标变量/选项；/*控制坐标轴：HAXIS=Values|Axisn定义水平轴的刻度;VAXIS=Values|Axisn定义垂直轴的刻度;NOAXIS取消坐标轴及相关的文字;CAXIS=Color定义坐标轴的颜色;CTEXT=Color定义坐标轴文本的颜色*//*加框：FRAME加框;CFRAME= Color给坐标轴包围的区域填色*/ SYMBOL V=I=W=C=;/*V=NONE;PLUS'+';STAR'*';SQUARE'方块';DIAMOND'菱形';TRIANGLG'三角形'*//*I= NONE ;JOIN'直线连接';SPLINE'光滑曲线连接';NEEDLE'从数据到横坐标画垂直线'*//*C=RED;GREEN;BLUE;ORANGE*/LABEL ; 变量1= ‘label（标*签）’……；/*控制表头显示，可使用起始中split=定义的方式美化表格*/TITLE C=颜色H=高度及单位F=字体;/*使用该语句控制表头显示可以最多有十个标注*/FOOTNOTE C=颜色H=高度及单位F=字体；RUN；4：使用proc gcharts语句绘制饼图及柱状图PATTERN c=颜色v=花纹;PROC GCHART DA TA=数据集；VBAR|HBAR|PIE|STAR|BLOCK/*垂直柱状图/水平柱状图/圆饼图/星形图/立体柱状图*/分类变量名列/选项；/*DISCRET/*指定分类方式*/MIDPOINT=列举值/*指定分组中点*/ SUMV AR=变量名/*指定分析变量*/TYPE=FREQ|SUM|MEAN|PCT /*指定统计量（无SUMVAR时缺省为FREQ，否则为SUM ）*/GROUP=变量名/*指定分组作图*/SUBGROUP=变量名/*指定柱内分组*/FILL=S（SOLID）|X（CROSS）/*设定饼图的花纹*/*/LABEL ; 变量1= ‘label（标*签）’……；/*控制表头显示，可使用起始中split=定义的方式美化表格*/TITLE C=颜色H=高度及单位F=字体;/*使用该语句控制表头显示可以最多有十个标注*/FOOTNOTE C=颜色H=高度及单位F=字体；RUN；5：使用proc univariate、means、freq语句进行定量资料的统计描述PROC UNIV ARIATE DATA= 数据集名options;/*NOPRINT禁止统计报告在OUTPUT视窗中输出PLOT 绘出茎叶图、箱式图和正态概率图FREQ 给出频数表NORMAL 对变量进行正态性检验*/V AR 变量名列;BY 变量名列; /*排序*/FREQ 变量名;WEIGHT 变量名;ID 变量名;OUTPUT OUT= 数据集名关键字= 新变量名列.../*常用关键字有：基本统计量：N MEAN STD（标准差）CV（变异系数）SUM VAR（方差）RANG 百分位数描述：MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99MAX与假设检验有关的统计量有：STDMEAN（标准误）T */pctlpts=百分位数, ...pctlpre=新变量名列;Run;PROC MEANS [ DATA= 数据集名选项统计量关键字列表;/*选项有：NOPRINT 禁止统计在OUTPUT视窗中输出MAXDEC=n 给出列表输出的最大小数位数，缺省值为2*/V AR 变量名列;BY 变量名列;CLASS 变量名列;FREQ 变量名;WEIGHT 变量名;ID 变量名列;OUTPUT OUT= 数据集名关键字= 新变量名列... ;/*关键字有：基本统计量有：N MEAN STD（标准差）CV（变异系数）SUM VAR（方差）RANG MIN MAX；与假设检验有关的统计量有：STDERR（标准误）T PRT(与t对应的p值) LCLM(可信区间下限) UCLM(可信区间上限)*/Run;PROC FREQ data+；TABLES 请求式/ 选项；/* 常用选项有ORDER＝FREQ 按频数递减顺序排列ORDER＝DATA 按数据集中出现的顺序排列ORDER＝INTERNAL 按内部值排列(缺省) ORDER＝FORMATTED 按外部格式值排列*/WEIGHT 变量名；BY 变量名列；Run;6：使用proc corr过程进行相关系数计算(相关关系散点图可以参照gplot语句）PROC CORR DATA=数据集OPTIONS；/*PEARSON 计算皮尔逊相关系数（缺省值）；SPEARMAN 计算斯皮尔曼等级相关系数；NOSIMPLE 不打印输出各变量的描述性统计量；NOPROB 省略检验统计量p-值;COV(COVARIANCE) 打印协方差矩阵；NOCCORR 储存时省略相关系数；OUTP=指定皮尔逊相关系数存储的数据集；OUTS= 指定斯皮尔曼相关系数存储的数据集*/ V AR 变量名列；WITH 变量名列；/*计算with指定变量与var指定变量之间的相关系数*/PARTIAL 变量名列；RUN；7：使用proc reg过程进行回归分析PROC REG DATA= 数据集名OPTIONS；/*SIMPLE 计算并打印各变量的基本描述性统计量；SXORR 打印各变量的相关行列式；NOPRINT不打印输出；OUTEST=数据集名指定回归值输出的数据集；COVOUT=数据集名将所估计的协方差阵存入数据集；OUTSSCP=数据集名指定相关矩阵输出的数据集*/V AR 变量名列；BY 变量名列；FREQ 变量名列；MODEL 因变量=自变量/OPTIONS;/*model语句的作用可分为以下四个方面：1.关于报表打印的选项NOPRINT不打印MODEL语句所界定的分析结果；ALL 打印MODEL语句所有分析结果*//*2.界定参数估计值的选项STB 打印标准化回归系数；COVB 输出估计值的协方差阵；VIF 输出方差膨胀因子；COLLIN 进行多元共线性分析*//*3.关于预测值、预测误差的选项P计算每一个观测值y的期望值及其标准误；R 在P选项的基础上对预测误差做进一步分析；CLI 输出单个预测值95﹪的置信区间；CLM 输出预测值均值95﹪的置信区间；INFLUENCE 分析观测值对参数估计和模型预测值的影响*//*4.关于界定回归模型的选项SELECTION=none|forward|backward|stepwise|cp |rsquare|adjrsq 指定自动进行变量选择的方法；NOINT 规定回归模型中不包含截距项.*/OUTPUT OUT=数据集名关键字=新变量名列;RUN；PROC GPLOT DA TA=数据集；/*做回归图*/PLOT 纵轴变量名*横轴变量名；SYMBOL V=符号C=颜色I=none|rl|rq|rc /*不加线线性二次三次*/其他选项；RUN；。

SAS使用学习笔记(对应分析)

SAS使用学习笔记（对应分析）1对应分析是不仅研究变量之间的关系、还要研究样品之间的关系。

它通过在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。

2对应分析例子下面是某研究者收集到的资料，试分析各种基因频率与民族之间的关系。

各民族下面的小数是44种基因出现的频率。

基因型（JY）藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H)。

程序：DATA b;INPUT jy $ 1-3 z 6-11 n 14-19 y 22-27 h 30-35;cards;A1 0.0308 0.01800.11900.0149A2 0.3333 0.10700.14800.3492A3 0.0204 0.01900.10100.0176A9 0.3037 0.27900.15600.1414A100.0409 0.01800.03900.0313A110.1354 0.42200.12600.2977A280.0000 0.01800.08300.0094A300.0413 0.00000.00000.0217A310.0518 0.03700.02200.0121A320.0000 0.01900.03900.0013A330.0000 0.06700.08300.0608B5 0.2828 0.11800.13400.0825B7 0.0000 0.01900.08000.0244B8 0.0102 0.01180.04500.0094B120.0102 0.03700.06600.0121B130.0102 0.07700.00600.0650B140.0000 0.00000.00600.0013B150.1923 0.25400.09600.1092B180.0050 0.02800.02200.0000B270.1067 0.00000.02600.0204B350.0626 0.05700.14800.0342B370.0102 0.01800.00900.0067B380.04650.0470 0.00300.0015B390.01020.0000 0.00900.0176B460.01020.00900.00000.1813B480.05720.15000.00300.0108B500.01020.01800.03700.0000B530.00500.0000 0.00600.0000B540.01530.00000.00000.0176B550.05720.02800.02600.0217B560.01020.00900.00600.0040B570.00500.01800.03900.0341B580.00000.06700.03300.0139B600.06260.02800.02200.0723B610.08990.00000.08300.1080B700.00500.00000.00800.0000C1 0.08990.03700.02300.1716C2 0.02040.00000.07300.0397C3 0.17980.10700.08300.3269C4 0.16510.07700.13400.0495C5 0.00000.00900.01600.0054C6 0.02560.24500.04500.0081C7 0.17120.21800.11900.1152C8 0.00500.00000.00400.0027;run;PROC CORRESP data=b OUTC=ccc;VAR z n y h;LABEL z='藏族'n='尼泊尔'y='印度'h='汉族';ID jy;RUN;DATA ccc;SET ccc;X=dim1;Y=dim2;XSYS ='2';YSYS ='2';TEXT =jy;SIZE =2;LABEL X='Dimension 1'Y='Dimension 2';keep X Y TEXT XSYS YSYS SIZE;RUN;PROC GPLOT DATA=ccc;SYMBOL1V=#;AXIS1LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;AXIS2LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;PLOT Y*X=1 / ANNOTATE=ccc FRAME HAXIS=AXIS1VAXIS=AXIS2 HREF=0VREF=0;RUN;输出：The CORRESP ProcedureInertia and Chi-Square DecompositionSingular Principal Chi- CumulativeValue Inertia Square Percent Percent 8 16 24 32 40----+----+----+----+----+---0.42302 0.17895 1.83072 41.61 41.61 **************************0.39266 0.15418 1.57736 35.85 77.46 **********************0.31137 0.09695 0.99184 22.54 100.00 **************Total 0.43007 4.39992 100.00Degrees of Freedom = 129SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureRow CoordinatesDim1 Dim2A1 0.5878 0.8300A2 -0.4233 0.1209A3 0.5708 0.7845A9 0.0741 -0.1562A10 -0.0466 0.2818A11 0.0191 -0.3738A28 0.8269 0.8844A30 -0.7954 0.0516A31 0.1126 -0.1366A32 0.9506 0.5206A33 0.2931 0.1666B5 -0.0085 0.0766B7 0.5508 0.7576B8 0.5282 0.6647B12 0.6453 0.3736B13 -0.1439 -0.5749B14 0.6310 1.2240B15 0.1193 -0.3016B18 0.8250 -0.1198B27 -0.3381 0.2782B35 0.4306 0.4728B37 0.2494 -0.2481B38 0.1990 -0.6104B46 -1.2499 0.0376B48 0.4093 -0.9132B50 0.7714 0.4510B53 0.3664 0.8090B54 -0.9706 0.0684B55 -0.0427 0.0207B56 0.1278 -0.1051B57 0.0754 0.3742B58 0.6482 -0.3801B60 -0.4505 0.0137B61 -0.3745 0.4819B70 0.4748 0.9100C1 -0.7041 0.0091C2 0.0968 0.8397C3 -0.5193 0.0178C4 0.1452 0.2307C5 0.5711 0.3791C6 0.7305 -0.8444C7 0.1169 -0.1805C8 -0.1612 0.5353SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureSummary Statistics for the Row PointsQuality Mass InertiaA1 0.9966 0.0179 0.0431A2 0.9583 0.0916 0.0431A3 0.9744 0.0154 0.0347A9 0.3838 0.0860 0.0156A10 0.8715 0.0126 0.0027A11 0.6324 0.0959 0.0494A28 0.9068 0.0108 0.0406A30 0.5695 0.0062 0.0160A31 0.1562 0.0120 0.0056A32 0.9073 0.0058 0.0174A33 0.2820 0.0206 0.0193B5 0.0274 0.0603 0.0304B7 0.7996 0.0121 0.0308B8 0.9666 0.0075 0.0129B12 0.9043 0.0122 0.0175B14 0.9031 0.0007 0.0035B15 0.8864 0.0637 0.0176B18 0.9645 0.0054 0.0090B27 0.1832 0.0150 0.0364B35 0.9998 0.0295 0.0281B37 0.9998 0.0043 0.0012B38 0.5599 0.0096 0.0164B39 0.9636 0.0036 0.0040B46 0.6708 0.0196 0.1062B48 0.9847 0.0216 0.0511B50 0.9990 0.0064 0.0118B53 0.7205 0.0011 0.0027B54 0.9637 0.0032 0.0073B55 0.0150 0.0130 0.0045B56 0.3142 0.0029 0.0006B57 0.3852 0.0094 0.0083B58 0.7578 0.0111 0.0193B60 0.9902 0.0181 0.0086B61 0.9992 0.0275 0.0238B70 0.8576 0.0013 0.0036C1 0.9447 0.0314 0.0383C2 0.9242 0.0130 0.0234C3 0.9069 0.0681 0.0471C4 0.3959 0.0416 0.0182C5 0.6915 0.0030 0.0047C6 0.9669 0.0316 0.0949C7 0.9160 0.0609 0.0072C8 0.7360 0.0011 0.0011SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedurePartial Contributions to Inertia for the Row PointsDim1 Dim2A1 0.0345 0.0798A2 0.0918 0.0087A3 0.0281 0.0616A9 0.0026 0.0136A10 0.0002 0.0065A11 0.0002 0.0869A28 0.0412 0.0547A30 0.0218 0.0001A31 0.0009 0.0015A32 0.0293 0.0102A33 0.0099 0.0037B5 0.0000 0.0023B7 0.0204 0.0449B8 0.0116 0.0214B12 0.0285 0.0111B13 0.0018 0.0332B14 0.0016 0.0069B15 0.0051 0.0376B18 0.0204 0.0005B27 0.0096 0.0075B35 0.0306 0.0428B37 0.0015 0.0017B38 0.0021 0.0231B39 0.0059 0.0040B46 0.1711 0.0002B48 0.0202 0.1168B50 0.0212 0.0084B53 0.0008 0.0046B54 0.0169 0.0001B55 0.0001 0.0000B56 0.0003 0.0002B57 0.0003 0.0085B58 0.0261 0.0104B60 0.0205 0.0000B61 0.0215 0.0414B70 0.0016 0.0068C1 0.0871 0.0000C2 0.0007 0.0595C3 0.1026 0.0001C4 0.0049 0.0144C5 0.0054 0.0028C6 0.0944 0.1463C7 0.0047 0.0129C8 0.0002 0.0021SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureIndices of the Coordinates that Contribute Most to Inertia for the Row PointsDim1 Dim2 BestA1 2 2 2 A2 1 0 1 A3 2 2 2 A9 0 0 2 A10 0 0 2 A11 0 2 2 A28 2 2 2 A30 1 0 1 A31 0 0 2 A32 1 0 1 A33 0 0 1 B5 0 0 2 B7 0 2 2 B8 0 0 2 B12 1 0 1 B13 0 2 2 B14 0 0 2 B15 0 2 2 B18 0 0 1 B27 0 0 1 B35 2 2 2 B37 0 0 2 B38 0 0 2 B39 0 0 1 B46 1 0 1 B48 0 2 2 B50 0 0 1 B53 0 0 2 B54 0 0 1 B55 0 0 1 B56 0 0 1 B57 0 0 2 B58 1 0 1 B60 0 0 1 B61 2 2 2 B70 0 0 2 C1 1 0 1 C2 0 2 2 C3 1 0 1 C4 0 0 2 C5 0 0 1 C6 2 2 2 C7 0 0 2C8 0 0 2SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureSquared Cosines for the Row PointsDim1 Dim2A1 0.3329 0.6637A2 0.8860 0.0723A3 0.3373 0.6371A9 0.0705 0.3133A10 0.0232 0.8483A11 0.0016 0.6307A28 0.4230 0.4838A30 0.5671 0.0024A31 0.0632 0.0931A32 0.6979 0.2094A33 0.2131 0.0689B5 0.0003 0.0270B7 0.2765 0.5231B8 0.3742 0.5924B12 0.6773 0.2270B13 0.0341 0.5446B14 0.1896 0.7135B15 0.1198 0.7666B18 0.9445 0.0199B27 0.1092 0.0739B35 0.4533 0.5465B37 0.5025 0.4972B38 0.0538 0.5061B39 0.6037 0.3599B46 0.6702 0.0006B48 0.1647 0.8200B50 0.7445 0.2545B53 0.1227 0.5979B54 0.9589 0.0048B55 0.0122 0.0029B56 0.1874 0.1268B57 0.0150 0.3701B58 0.5639 0.1939B60 0.9893 0.0009B61 0.3762 0.6230B70 0.1835 0.6741C1 0.9445 0.0002C2 0.0121 0.9121C3 0.9058 0.0011C4 0.1123 0.2836C5 0.4801 0.2115C6 0.4139 0.5530C7 0.2707 0.6453C8 0.0612 0.6748SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureColumn CoordinatesDim1 Dim2藏族 -0.2025 0.0083尼泊尔 0.3658 -0.5460印度 0.4529 0.5754汉族 -0.5915 0.0430Summary Statistics for the Column PointsQuality Mass Inertia藏族 0.1413 0.2629 0.1777尼泊尔 0.9737 0.2630 0.2713印度 0.9815 0.2274 0.2888汉族 0.7697 0.2468 0.2622Partial Contributions to Inertia for the Column PointsDim1 Dim2藏族 0.0602 0.0001尼泊尔 0.1967 0.5086印度 0.2606 0.4883汉族 0.4825 0.0030Indices of the Coordinates that Contribute Most to Inertia for the Column PointsDim1 Dim2 Best藏族 0 0 1尼泊尔 2 2 2印度 2 2 2汉族 1 0 1 Squared Cosines for the Column PointsDim1 Dim2藏族 0.1411 0.0002尼泊尔 0.3016 0.6721印度 0.3754 0.6060汉族 0.7657 0.0040说明：根据Column CoordinatesDim1 Dim2藏族 -0.2025 0.0083尼泊尔 0.3658 -0.5460印度 0.4529 0.5754汉族 -0.5915 0.0430，我们可以得到：藏族=-0.202490Dim1+0.008300Dim2尼泊尔= 0.365818Dim1-0.546045Dim2印度= 0.452903Dim1+0.575439Dim2汉族=-0.591500Dim1+0.042981Dim2在以dim1与dim2作为横轴与纵轴的直角坐标系内，每个变量就是１个点，如Z(藏族)点的坐标为(-0.202490，0.008300)。

非常实用的sas课程--个人笔记

一、数值变量1、单样本2、两独立样本3、两配对样本4、数据的Excel转sas5、多组样本方差分析6、两因素多水平的重复测量资料的分析7、随机区组设计资料的方差分析8、协方差9、完全随机设计资料的协方差分析10、直线相关分析11、多变量回归分析目录二、分类变量四格表基础公式连续校正公式配对四格表资料的x2检验RXC表三、样本含量的估计一、数值变量1、单样本：正态数据ttest课本p51data a; /*建立数据集*/ input X @@; datalines; 171 79 135 78 118 175 122 105 111 140 138 132 142 140 168 113 131 145 128 124 134 116 129 155 135 134 136 113 119 132 ；proc print data=a; /*打印数据集；每一次重新运行下面语句，必须有这一步为前提，目的为把数据存入内存*/ run;proc means n mean median std min max data=a; /*描述的统计量；描述数据集的特征*/ var X; run;proc univariate normal plot data=a; /*正态性分析；查看test for normality中Shapiro-Wilk 的W 值0.945184 对应的Pr < W 0.1255 正态性检验，发现p值大于0.05，则为正态分布的数据*/ var X; run;proc ttest h0=140; /*假设检验；语句的选择以正态性分析结果为准*/ var X; run;非参数统计方法：/*过去对2型糖尿病患者的研究得出其BMI=28.4。

*/data a; input patno wt_kg ht_cm; ht_m=ht_cm/100;BMI=wt_kg/(ht_m*ht_m);datalines;1 101.7 1782 107.1 1703 114.2 1914 111.9 1795 80.1 1826 118.1 1777 85.0 1848 89.1 1829 195.8 18410 97.8 18311 78.7 . /*缺省值用“.”表示*/12 117.5 17213 122.8 18314 91.1 16915 112.1 17716 122.1 18017 89.7 184 ;proc print data=a; run;proc means n mean median std min max data=a; var wt_kg ht_cm BMI; run;proc univariate normal plot data=a; /*查看test for normality中Shapiro-Wilk 的W 值0.849997 对应的 Pr < W 0.0136 正态性检验，发现p值小于0.05，则为非正态数据*/ var BMI; run;/*以下为另外两种检验正态性分布的方法*/proc rank out=rnk data=a; /*按照BMI运用rank的过程排序，产生新变量r_BMI，输出的数据集为rnk*/ var BMI; ranks r_BMI; run;proc sort data=a; /*对rnk数据集中的BMI，也是检验正态的直观办法*/by BMI; run;proc print data=rnk; /*检验BMI的原始值和其秩次r_BMI的对应关系是否正确*/ var BMI r_BMI; run;proc plot data=rnk; /*输出QQ-plot，检验BMI是否正态。

SAS复习提纲

SAS复习提纲第一章：子窗口（五个常用窗口）：程序编辑窗口(Editor)、运行记录窗口(Log)、输出窗口(Output)、结果窗口(Results)、浏览器窗口(Explorer)SAS中的文件名：（1）程序： .sas（2）数据集： .sas7bdatSAS系统中的两个层次：高级：逻辑库低级：数据集文件名：逻辑库名.数据集名e.g. aa.bb，其中aa是逻辑库名，bb是数据集名（特别地，如果不指明逻辑库名，则表示存储在临时逻辑库WORK中的SAS文件。

）SAS中的逻辑库：临时库：唯一临时库，名为work永久库：除临时库外的所有逻辑库自定义逻辑库语句：Libname <逻辑库名> “<SAS文件的储存目录> “; ←注意分号！Run;SAS的名字（数据集名、变量名、逻辑库名等等）有以下命名规则：1) 由英文字母、数字、下划线组成；2) 第一个字符必须是字母或下划线；3) 不区分大、小写字母。

数据集导入（Excel下）：菜单-导入数据数据集中变量的输入输出格式的一般形式[$] 格式名<w>.<d>$字符变量的输入输出格式（字符型还是数值型）w格式的宽度(包括小数点符号，正负号等)d在数值型格式中指明小数点后数值的位数用INSIGHT创建数据集1.启动SAS INSIGHT模块，在“SAS INSIGHT：Open”对话框的”逻辑库“列表框中，选定库逻辑名2.单击“新建”按钮3.在行列交汇处的数据区输入数据值变量分为两种类型：字符型变量和数值型变量。

在INSIGHT中，为了区分变量在分析中的不同作用，又按变量的测量水平分为两类：● 区间型变量(interval variable)：区间型变量必须是数值型变量，可以对其观测值进行四则运算，计算各种统计量；● 列名型变量(nominal variable)：列名型变量可以是数值型的，也可以是字符型的，在INSIGHT中常起分类作用。

sas课程笔记

目录1、数据导入（对于导入数据参见little sas book第二章） (2)1.1创建新逻辑库创建新逻辑库有两种方法： (2)1.2 将你的数据放入SAS*/ (3)1.3用LIBNAME语句使用永久数据集 (3)2、开发数据（参见little sas book第三章） (3)2.1 格式、输入、读取 (3)2.2 用IF THEN DO END 和else if选择数据或选取部分数据 (5)2.3 求取最大值和总值 (6)2.4 累加和累乘 (7)2.5数组处理 (7)练习计算某只股票某段时间的累计收益率和年化收益率（提取数据和计算） (8)3、函数- COMPBL & COMPRESS、 (11)3.1 COMPBL & COMPRESS去掉空格 (11)3.2 INDEX;是找寻后一个变量在前一个变量中的位置 (12)3.3 SCAN提取字串、SUBSTR替换字串 (12)3.4 VERIFY;核实某字符的存在 (13)3.5 UPCASE vs. LOWCASE; (13)3.6 日期时间的显示和计算 (14)3.7 Truncation 用函数处理具体数值 (16)3.8 数据转置 (18)3.9 概率统计与随机抽样函数 (18)练习计算A股股票在2014年的双周收益率序列 (21)4、对表的处理 (22)4.1 表的连接 (22)4.2 表的合并 (24)5、数据查询实例 (27)6、利用宏 (30)6.1 利用宏程序导入股票日交易数据 (30)6.2用宏程序导入两个文本文件的数据并计算两只股票的总收益率和（几何平均）年收益率 (32)6.3 求winners50和losers50（答案） (33)6.4.1定义宏变量 (35)6.4.2引用宏变量 (36)6.4.3 多次引用宏变量 (36)6.4.4 改变宏变量的值 (37)6.4.5 如何隔开宏变量引用和文本 (38)6.4.6 显示宏变量值 (38)6.4.7 间接引用宏变量&& (38)6.4.8 定义宏和调用宏（什么是宏？） (39)6.4.9 宏参数（定义在宏%MACRO语句内的宏变量） (40)6.4.10 宏程序语句和宏函数 (41)1、对于在CSMAR下载的数据，用foxpro格式下载，然后用Stat/Transfer转换成SAS格式；对于在RESSET数据库下载的数据，建议使用下载数据时自动生成的数据导入程序（可能要稍作修改）导入SAS。

SAS基本知识汇总

一SAS表达式简介１．SAS常数表达式(1)数值常数如: 1.23、 -5、 0.5E-10。

(2)字符常数如: name1='TOME'、 name2='MARY'、name3='JOHN'。

(3)日期(d)、时间(t)、日时(dt)常数如: d1='01JAN80'd、t1='9:25:19't、dt1='18JAN80:9:27:05'dt。

２．SAS运算符(1)前缀算符与后缀算符前缀算符, 即正号或负号; 如: +Y; -25; -COS(30); +(X*Y); 后缀算符,即两个运算对象之间的运算符号, 如: 1+9; 4-2; 6<8。

(2)只含一个运算符的简单表达式(Ⅰ组)和含有多于一个运算符的复合表达式(Ⅱ组)Ⅰ组, 如: A+B; C-D; E*F; G/H; Ⅱ组, 如: 1-EXP(N/(N-1)); 100-LOG(N*(N+1));(3)操作运算的顺序求一个复合表达式的值时, 其操作运算的顺序和优先级遵从如下的规则:SAS的运算符及其在运算顺序上的优先级━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━优先级组别运算符号等价表示运算符号含义之说明━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━第 0 组 ( ) 括号第 1 组 ** + - 乘方, 正数, 负数^ >< <> NOT MIN MAX 逻辑非, 最小, 最大第 2 组* / 乘, 除第 3 组+ - 加, 减第 4 组‖或|| 字串连接第 5 组< <= LT LE 小于, 小于等于= ^= EQ NE 等于, 不等于>= > GE GT 大于等于, 大于IN 等于一列元数中的某一个第 6 组& AND 逻辑与第 7 组｜或| OR 逻辑或━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━各组的计算顺序分别为: 第0组由内向外;其他各组均自左至右。

sas复习

SAS复习提纲一、数据的输入及输出菜单方式文件-----数据导入/数据导出SAS数据的work工作区输入和调用解决方案—分析—分析家PROC IMPORT 方式PROC IMPORTdatafile="f:\mydata\sas\inflation.xls"OUT=ACPIDBMS=excel2000 REPLACE ;sheet='ACPI';getnames=yes;run;proc print DATA=ACPI(obs=15);run;编辑窗口操作方法PROC DATA;INPUT X Y @@;CARDS;XXXXXXXX;RUN;PROC PRINT DATA=XX;V AR __;RUN;二、排序及分组data example3;input name $ 1-10 sex $ math chinese; cards;李明男 92 98张红艺女 89 106王思明男 86 90张聪男 98 109刘颍女 80 110run；proc print data=example3noobs label;label name='姓名' sex='性别'math='数学成绩' chinese='语文成绩'; run;proc sort data=example3;by sex;run;proc print data=example3 noobs;by sex;run;三、简单的运算原有数据集data=case1；其中有变量x y计算Z=x^3+1/yData case2；Set case1；Z=x^3+1/yRun；data example2;input name $ 1-10 sex $ math chinese;avg = math*0.5 + chinese/120*100*0.5;cards;李明男 92 98张红艺女 89 106王思明男 86 90张聪男 98 109刘颍女 80 110;run;proc print;run;proc sort data= example2;by descending avg;run;proc print;run;四、简单正态随机数的产生data example4;do time=-50 to 1000 by 1;noise=rannor(12345);if time>0 then output ;end ;print data= example4;run;1t t t y y με-=++ ~(0,1)t N εdata a;mu=0;y1=5;do time=-100 to 1100;noise=rannor(785); y=mu+y1+noise;if time>0 then output ; y1=y;end ;五、基本描述统计proc means data=;var x;run;proc univariate data=;var x; run;PROC MEANS DATA =shenzheng MEAN STD Q1 MEDIAN Q3 skew kurt ; VAR open close r1;RUN ;六、图形PROC CHART/PROC GCHARTVBAR HBAR BLOCK PIE STAR data example1;input name$1-11 sex$ title$ age;cards;Zhouli M P 50Yuke F AP 48Liping F AP 47Liuling M L 37Wangfang F L 28Zhulin M P 44Yuhong F AP 40Liqing F AP 42Liulijun M L 30Wangfang F L 25Leiming M AP 32Fangjin M L 26Liuming M AP 36;run;proc print data=example1;run;quit;PROC CHART DATA=example1;VBAR sex;HBAR sex;BLOCK Sex;PIE Title;star Title;RUN;PROC GCHART DATA=example1;VBAR sex;HBAR sex;BLOCK Sex;PIE Title;star Title;RUN;/*5个高分辨率图形/PROC PLOT/PROC GPLOT [1] PROC PLOTDATA example2;n=0;DO x=0TO360BY5;y=sin(x*3.14159/180);OUTPUT;END;PROC PLOT ;PLOT y*x='+'/vref=0;RUN;DATA example3;DO x=0TO360BY30;y=sin(x*3.14159/180);z=2*x/180-2;OUTPUT;END;PROC PLOT ;PLOT y*x='+' z*x='*'/OVERLAY vref=0; run;DATA example4;DO x=-10TO10BY1;DO y=-10TO10BY0.5;z=sqrt(x*x+y*y);OUTPUT;END;END;PROC PLOT;PLOT y*x=z/CONTOUR;RUN;[2] PROC GPLOTDATA example5;input milk@@;time=intnx('month','1jan1962'd,_n_-1); format time date.;cards;589 561 640 656 727 697 640 599 568 577 553 582 600 566 653 673 742 716 660 617 583 587 565 598 628 618 688 705 770 736 678 639604 611 594 634 658 622 709 722 782 756 702 653 615 621 602 635 677 635 736 755 811 798 735 697 661 667 645 688 713 667 762 784 837 817 767 722 681 687 660 698 717 696 775 796 858 826 783 740 701 706 677 711 734 690 785 805 871 845 801 764 725 723 690 734 750 707 807 824 886 859 819 783 740 747 711 751 804 756 860 878 942 913 869 834 790 800 763 800 826 799 890 900 961 935 894 855 809 810 766 805 821 773 883 898 957 924 881 837 784 791 760 802 828 778 889 902 969 947 908 867 815 812 773 813 834 782 892 903 966 937 896 858 817 827 797 843 ;run;proc gplot;plot milk*time;symbol v=square i=join c=red;run;七、报表及列列联表一维PROC FRE Q DATA=CLASS;TABLE AGE;RUN;quit;二维PROC FREQ;TABLE SEX*AGE;RUN;quit;列联表从这些罪行的组合看，是否于性别无关。

sas试题课笔记三Word版

NOTE: 从数据集 DATA.HF000012 读取了 124 个观测。

WHERE (date>='01AUG2006'D) and (tvolume>=100000) and (tprice>0); NOTE: 数据集 EX.BLOCK 有 124 个观测和 31 个变量。

NOTE: "DATA 语句"所用时间（总处理时间）:实际时间 0.15 秒CPU 时间 0.10 秒可见 if语句是先读取数据然后再选择符合要求的观测而where语句则是直接读入满足条件的观测〓★作业 3.2 先用select语句再用 where语句〓★作业3.4〓★第一题〓d d a a t t a a ex.hm3_4_1(keep=date prevclpr oppr clpr color fluctuate); informat color $6.;★老师加的默认长度是多少呢？〓se t data.stk000001;fluctuate=(clpr-prevclpr)/prevclpr;★可以放在if语句后〓if oppr>clpr then color='red';if oppr<clpr then color='green';run;★if还可以写成这样：proc sort data=ex.blocktrade;★老师的做法接在第一步后〓by date;run;d d a a t t a a num;set ex.blocktrade;by date;if first.date then num=0;num+1;if last.date;keep date num;run;merge ex.blocktrade num(in=id); by date;if id=1;run;do n=1to50;t=t*2*n;output;end;run;★作业3.5〓★第一题〓★第二题〓d d a a t t a a ex.derivative;array s(0:20) s_0-s_20;do i=1to1000;s_0=17.18;do j=0to19;s(j+1)=s(j)*exp((0.03-0.15**2/2)*0.05+0.15*sqrt(0.05)*rannor(0)); end;output;end;drop i j;run;d d a a t t a a ex.average_derivative;set ex.derivative;if min(of s_1-s_20)<15then value=(18- min(of s_1-s_20))*exp(-0.03*1);★这里不确定value中所用的t值是否应为1〓if min(of s_1-s_20)>=15then value=0;run;★作业3.5〓★老师的答案〓★a)〓d d a a t t a a ex.ex3_5_1;array S(0:20) S_0-S_20;do i=1to1000;S_0=17.18;do j=0to19;S(j+1)=S(j)*exp((0.03-0.15**2/2)*0.1+0.15*sqrt(0.05)*rannor(0));end;output;end;drop i j;run;run;★b)〓d d a a t t a a ex3_5_3;set ex3_5_1;array S(0:20) S_0-S_20;do j=0to20;if S(j)<=15then leave;end;if j=21then value=0;else do;payoff=18-S(j);value=payoff*exp(-0.03*j*0.05);end;drop j payoff;run;（注：可编辑下载，若有不当之处，请指正，谢谢!）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第1章SAS基础1.SAS工作界面与方式2.常用工作模块–VIEWTABLE模块✧Viewtable第一行显示变量的标签–初识INSIGHT模块✧表格的列称为变量，表格的行称为观测✧变量分为：字符型和数值型（按变量的测量水平可分为：区间型变量和列名型变量）–初识“分析家”3.SAS文件的管理方式✧逻辑库(临时+永久)✧数据集(描述部分+数据部分-变量、观测)4.数据集的建立5.SAS编程初步第2章SAS的描述统计功能• 2.1 描述性统计的基本概念总体：总体是指所研究对象的全体组成的集合。

样本：样本是指从总体中抽取的部分对象（个体）组成的集合。

样本中包含个体的个数称为样本容量。

参数：参数是用来描述总体特征的概括性值。

统计量：统计量使用来描述样本特征的概括性值。

–表示数据位置的统计量✧均值：所有观测值得平均值，是描述数据取值中心位置的一个度量。

✧中位数：中位数是描述观测数据中心位置的统计量，大体上其数据大小为观测值的一半。

优点是不受个别极端数据的影响。

✧众数：观测值中出现最多的数称为众数。

✧百分位数：分位数也是描述数据分布和位置的统计量。

–表示数据分散程度的统计量✧极差与半极差：极差就是数据中的最大值和最小值之间的差。

半极差是上下四分位数之差，描述了中间半数观测值得散布情况。

✧方差与标准差：反映数据对其均值中心的某种离散程度。

✧变异系数：将标准差表示为均值的百分数。

–表示数据分布形状的统计量✧偏度：刻画数据对称性的指标。

（均值对称时为零，左侧数据分散时为负，右侧时为正）✧峰度：描述数据向分布尾端散布的趋势。

（标准正态分布时为零，尾部较正态分布分散时为正，集中时为负）–正态分布• 2.2 在SAS中计算统计量• 2.3 统计图形（定量变量和分类变量的图形表示）–什么类型数据适合用什么图形定量变量：✧直方图数值型变量展示变量取值的分布可以估计总体的概率密度，组距对直方图的形态影响很大。

可以看出数据分布的疏密。

✧盒形图简洁地表现数据在数轴上的分布及其特点中间横线是数据的中位数。

封闭盒子的上下两横线（边）分别为上、下四分位数（点）。

盒子的长度是分布的四分位间距。

类似标准差触须线最长可以延伸到四分位间距的1.5倍。

异常点考虑剔除可以大体看出数据集中在什么范围，上下两侧是否对称。

常将分类数据的若干个盒形图放在一个图中比较。

✧散点图得到的数据有两个变量，希望了解两个变量的关系回归分析✧线图表示变量间的取值变化情况，有单式和复式两种。

常用来描述变量与时间变量的关系。

分类变量：✧条形图——给出分类变量取每个值的频数。

✧饼图——对分类变量描述其频数取值的比例。

✧马赛克图——针对两个以上分类变量。

直观显示两个以上变量每种取值组合的观测个数和比例。

• 2.4 用SAS绘制统计图形–图形结果的查看–过程步语句实现制图✧Gchart、Gplot、第3章区间估计与假设检验1、假设检验的理论依据✧对总体参数进行假设检验时，首先要给定一个原假设H0，H0是关于总体参数的描述，与此同时存在一个与H0相对立的备选假设H1，H0与H1有且只有一个成立；经过一次抽样，若发生了小概率事件（通常把概率小于0.05的事件称为小概率事件），可以依据“小概率事件在一次试验中几乎不可能发生”的理由，怀疑原假设不真，做出拒绝原假设H0，接受H1的决定；反之，若小概率事件没有发生，就没有理由拒绝H0，从而因做出拒绝H0的决定。

2、均值比较的T检验的一般步骤✧1、根据问题确立原假设H0和备选假设H1；✧2、确立一个显著水平α，它是衡量稀有性（小概率事件）的标准，常取为0.05；✧3、根据SAS计算出的p值，就可以在指定的显著水平下，作出拒绝或者不能拒绝原假设的决定。

–单样本T检验–独立样本T检验（不匹配）–配对样本T检验（成对匹配）3、分布检验✧分布拟合图直方图顶端的形态为折线，而常用的一些分布的密度曲线如正态分布等都是光滑曲线，所谓分布拟合图就是在限定的参数分布类中通过对参数的估计，用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。

✧QQ图一种散点图，横坐标为标准正态分布的分位数，可以帮助我们方便地鉴别数据的分布是否近似于某种类型的分布。

还可获得分布的偏度和峰值的粗略信息。

要利用QQ图鉴别样本数据是否近似于正态分布，只需看QQ图上的点是否近似的在一条直线附近，该直线的斜率为总体的标准差，截距为总体的均值。

正态性检验第4章相关和回归分析1、什么是相关分析？如何实现相关分析,如何判断是否相关及相关程度.✧变量之间的关系有函数关系和相关关系，其中相关关系是指变量间的某种非确定的依赖关系。

寻找变量间相关关系的规律称为相关分析。

✧相关分析就是对变量之间的相关关系进行描述与度量，简单相关分析通常指对两变量见相关关系的研究。

✧方法：散点图：直观地看出变量之间的关系形态及关系强度。

相关关系的表现形态大体上可分为线性相关（变量之间的关系近似地表现为一条直线）、非线性相关（变量之间的关系近似地表现为一条曲线）、完全相关（各观测点落在一条曲线上——函数关系）和不相关（观测点分散无规律）等几种。

相关系数：准确度量两个变量之间的关系密切程度。

置信椭圆：若两变量不相关，椭圆应为圆；拉长的椭圆为相关。

椭圆的长短轴之比可衡量相关的强度。

✧相关分析的显著性检验：t分布检验2、回归分析✧考察变量之间的数量伴随关系，用于解决预测和控制✧目的是根据所建立的回归方程，用自变量的值估计或预测因变量的值。

但方程是根据样本数据得出的，所以是否真实需要检验。

✧显著性检验包括：回归方程的检验、回归系数的检验。

●insight线性回归的实现一元、多元●分析家下线性回归的实现一元、多元●用REG过程线性回归的实现✧（见最后）第5章方差分析✧方差分析是检验多个总体均值是否相等的一种统计方法。

研究分类变量（因素）对数值型变量（指标）的影响。

✧找出有显著影响因素的最好水平的方法：通过检验各总体的均值是否相等，来判断分类型自变量对数值型因变量（响应变量）是否有显著影响。

✧目的就是在H0（μ1=μ2=…=μk）成立的条件下，通过分析各处理组均数之间差别大小，推断k个总体均数间有无差别，从而说明处理因素的效果是否存在。

✧总变差=组间差别+组内误差1、方差分析中的有关概念✧因子/因素：影响因变量的、可控制的定性变量或离散变量（影响分析变量的因素）✧水平：各因素具有的表现（因素的不同取值）✧因变量：待分析的变量✧组间方差：水平间的方差，即组间离均差平方和除以自由度k-1,其中k为水平数。

它既包括系统性因素，也包括随机性因素。

✧组内方差：水平内部方差，即组内离均差平方和除以自由度n-k,其中n为样本容量。

仅包括随机性因素。

✧方差分析适合解决哪一类问题：•两个或多个样本均数间的比较；•分析两个或多个因素间的交互作用；•回归方程的线性假设检验；•多元线性回归分析中偏回归系数的假设检验；•两样本的方差齐性检验等。

✧方差分析的基本思想：•将总方差分解为由于随机抽样引起的差异（个体间差异，随机误差）和由于研究因素所造成的差异（系统误差）两部分，然后比较这两部分差异在总方差中所占的比重。

两者差别不大，说明试验条件的变化(因素水平的不同)对试验结果影响不大；如果两者相差较大，且系统误差大的多，说明系统条件变化引出的误差不可忽视。

3、单因素方差分析的实现结果解读3、什么情形需进一步做多重比较✧在方差分析中，不论是单因素或多因素的分析结果，都是检验关于参数的一个整体的假设。

若原假设被拒绝，表明某个因素各个水平下的响应有显著差异或因素间存在交互影响，但并不了解某两个水平下的响应是否有差异。

所以在方差分析后，还常需要对各水平下响应变量的均值进行估计和比较。

第8章聚类分析1、什么是聚类分析✧聚类分析实际上是要建立一种分类方法，它将样品或变量按照其性质上的亲疏、相似程度进行分析。

2、如何用过程步实现聚类分析（CLUSTER）✧Proc cluster data=mylib.nm10 standard method=ward✧Outtree=otree pseudo;✧Copy group;✧Run;3、绘制谱系聚类图（TREE）✧Proc tree data=otree horizontal;✧Id group;✧Run;过程步进行单样本总体均值的假设检验✧proc ttest h0=70 alpha = 0.01 data=sjcj;✧var A;✧run;过程步配对两样本均值的假设检验✧proc ttest data=sjcj;✧paired A*B;✧run;过程步计算描述性统计量✧Proc means data=aa n mean median q1 q3 max min;✧Var income;✧Run;过程步进行正态性检验✧Proc univariate data=aa normal;✧Var weight;✧Run;过程步进行假设检验✧Proc ttest data=aa;✧Class g;✧Var f;✧Run;过程步进行回归分析（REG过程）✧Proc reg data=aa;✧Var y x1 x2 x3;✧Model y=x1 x2 x3;✧Run;✧Model y=x1 x2 x3/selection=stepwise;✧Run;。