第四讲 SAS的描述统计(2)

合集下载

SAS中的描述性统计过程

SAS中的描述性统计过程(2012-08-01 18:07:01)▼分类：数据分析挖掘标签：杂谈SAS中的描述性统计过程描述性统计指标的计算可以用四个不同的过程来实现，它们分别是means过程、summary过程、univariate过程以及tabulate过程。

它们在功能范围和具体的操作方法上存在一定的差别，下面我们大概了解一下它们的异同点。

相同点：他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等，均可应用by语句将样本分割为若干个更小的样本，以便分别进行分析。

不同点：（1）means过程、summary过程、univariate过程可以计算样本的偏度（skewness）和峰度（kurtosis），而tabulate过程不计算这些统计量；（2）univariate过程可以计算出样本的众数（mode），其它三个过程不计算众数；（3）summary过程执行后不会自动给出分析的结果，须引用output语句和print过程来显示分析结果，而其它三个过程则会自动显示分析的结果；（4）univariate过程具有统计制图的功能，其它三个过程则没有；（5）tabulate过程不产生输出资料文件（存储各种输出数据的文件），其它三个均产生输出资料文件。

统计制图的过程均可以实现对样本分布特征的图形表示，一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。

大家有没有发现前两个和后两个只有一个字母‘g’（代表graph）的差别，其实它们之间（只差一个字母g的过程之间）的统计描述功能是相同的，区别仅在于绘制出的图形的复杂和美观程度。

chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形，只能概括地反映出资料分布的大体形状，实际上这两个过程绘制的图形并不能称之为图形，因为他根本就没有涉及一般意义上图形的任何一种元素（如颜色、分辨率等）。

SAS统计分析课件2

Proc freq过程需与tables 语句同时使用，若缺省，则对所有变量做一个频数表
Slide 13
三计量资料的统计量描述常见的数据统计描述量及意义 a 表示位置的特征量:均值,众数,中位数,百分位数表示位置的特征量:均值,众数,中位数,百分位数均值:数据的平均值.----Mean 众数:观测值中出现最频繁的数值----Mode 中位数:观测值排序中处于中间位置的值---Median 百分位数:中位数的推广.----P99
Slide 4
统计资料的描述
图形描述表格描述统计量描述一图形描述
A 散点图与曲线图 data student; input class sex $ age weight height @@; cards; 1 f 15 46 156 1 f 14 41 149 1 m 15 50 160 1 m 13 48 155 1 m 14 38 150 2 m 16 55 165 2 m 16 60 170 2 f 17 50 160 2 f 16 60 165 2 m 17 65 175 3 f 18 65 165 3 f 17 58 160 3 m 18 70 180 3 f 18 61 162 3 m 17 68 176 ; run；；
Slide 6
Proc gplot; Symbol1 i=none v=b line=1 c=r; Symbol2 i=none v=a line=2 c=b; Plot weight*age=1 height*age=2/overlay; Run;
该程序分别画出了体重对年龄和身高对年龄的散点图
Slide 7
n(n + 1) ∑ ( xi − x )4 3(n − 1)2 Kurtosis g2 = (n − 1)(n − 2)(n − 3) s4 (n − 2)(n − 3)

SAS描述性统计

统计程式
MEANS过程 MEANS过程
统计程式
例题4.1,进入SAS的显示管理系统,在编辑窗口输入程式: 例题4.1,进入SAS的显示管理系统,在编辑窗口输入程式: 4.1,进入SAS的显示管理系统 ex； 9；输入一个数据集，其中一个变量长度为9 data ex；length name$ 9；输入一个数据集，其中一个变量长度为9 t1- @@； input name sex$ group$ t1-t3 @@；将数据行中的数分别赋给几个变量 Cards； Cards； wangdong 1 1 90 70 60 xueping 2 2 85 95 88 输入一组数据行让其他SAS SAS语句使用 zhouhua 1 1 77 84 69 heyan 1 2 95 78 88 让其他SAS语句使用 hufang 1 2 78 77 69 zhangqun 1 1 93 91 89 ； maxdec=2；将数据集EX EX中的观测值进行简单描述性统计 proc means maxdec=2；将数据集EX中的观测值进行简单描述性统计 t1-t3； group；按组别将t1 t2、t3中的值分类统计 t1、 var t1-t3；class group；按组别将t1、t2、t3中的值分类统计 maxdec=4； proc means mean std cv maxdec=4；需要描述的变量 t1-t3； group；run；按组别将t1 t2、t3值的分析结果打印 t1、 var t1-t3； class group；run；按组别将t1、t2、t3值的分析结果打印
统计程式
MEANS过程 MEANS过程
统计程式
例题4.3,进入SAS的显示管理系统,在编辑窗口输入程式: 例题4.3,进入SAS的显示管理系统,在编辑窗口输入程式: 4.3,进入SAS的显示管理系统 ex； @@；d=xdata ex； input x y @@；d=x-y； Cards； Cards； 11.3 15 15 13.5 12.8 10 11 12 13 12.3 14 13.8 14 13.5 13.5 12 14.7 11.4 13.8 12 ； std； y； proc means n mean std； var x y； prt； d；run； proc means n mean std t prt； var d；run；程式中的第一个proc means作的简单的描述性统计，程式中的第一个proc means作x与y的简单的描述性统计，第二个proc means作的总体均值差为0的显著性检验。第二个proc means作x与y的总体均值差为0的显著性检验。

统计描述与SAS过程解读

list><pctlpts=percentiles pctlper=prefix-namelist><pctlname=suffix-name-list>;
语句说明
1、proc univariate <option-list>语句
options除了类似与means过程的选项外还有：
（1） freq：要求生成包含变量值、频数、百分数和累积频数的频率表（2）Normal：要求检验输入的数据是否服从正态分布（3）Plot：要求生成茎叶图、盒型图、正态概率图（4）pctldef=value：规定计算百分位数的方法
指定变量表示相应观测出现的频数
6、WEIGHT语句：WEIGHT variable;
指定变量表示相应观测的权数
7、ID语句：一般格式 ID variable;
对产生的数据集增加一个或几个附加变量，用于识别输出数据集里的观测。
8、OUTPUT语句：
一般格式： OUTPUT<OUT=SAS-data-set><output-statistic-list> <MAXID<(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list> <MINID <(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list>;
G1 0, 非对称的左偏分布，即随机变量取值在左边比较分散；
峰度：度量总体分布尾部粗细程度（与正态分布相比）
G2

E(X
4

sas描述性统计分析

28
27
26
散点图
25
24
23
22
21 女 20 1900 1920 1940 1960 1980 2000 男
定性变量的图表示：饼图定性变量（或属性变量，分类变量）不能点出直方图、散点图或茎叶图，但可以描绘出它们各类的比例。
饼图
定性变量的图表示：条形图
从每一条可以看出讲各种语言的实际人数，而且分别给出了每个语种中母语和日常使用的人数（在图中并排放置）。条形图显示比例不如饼图直观。
数据的“尺度”
另一个常用的尺度统计量为（样本）标准差 (standard deviation) 。度量样本中各数值到均值距离的一种平均。标准差实际上是方差 (variance) 的平方根。如果记样本中的观测值为 x1,…,xn，则样本方差为
数据的“尺度”
两个均值一样，但右边的要 “胖”些，方差为左边的一倍
描述性统计分析
East China JiaoTong University
如同给人画像一样
数据的描述
在对数据进行深入加工之前，总应该对数据有所印象。可以借助于图形和简单的运算，来了解数据的一些特征。由于数据是从总体中产生的，其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。
其中茎叶图中茎的单位为10cm，而叶子单位为1cm。比如，由于第一行茎为150cm，因此叶子中的九个数字001223344代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数（比如第一行有9个数目，第二行有17个等等）；可以看出最长的一行为从165cm到169cm的一段（有35个数）。

SAS中的描述性统计过程

SAS中的描述性统计过程(2012-08-01 18:07:01)标签：分类：SAS中的描述性统计过程描述性统计指标的计算可以用四个不同的过程来实现，它们分别是means过程、summary过程、univariate过程以及tabulate 过程。

它们在功能范围和具体的操作方法上存在一定的差别，下面我们大概了解一下它们的异同点。

统计制图的过程均可以实现对样本分布特征的图形表示，一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot 过程。

SAS的描述统计功能

2.2.2 用“分析家”计算统计量
❖1. 启动“分析家”
▪ 选择主菜单“Solutions（解决方案）”→“Analysis（分析）”→“Analyst （分析家）”，打开“分析家”窗口。
▪ 选择主菜单“File（文件）”→“Open By SAS Name”，打开“Select A Member”对话框，选择数据集Mylib.sryzc。
2.3 统计图形
❖2.3.1 定量变量的图形表示 ❖2.3.2 分类变量的图形表示
2.3.1 定量变量的图形表示
❖1. 直方图
▪ 对于数值型变量，常用直方图（histogram）来展示变量取值的分布。将变量取值的范围分成若干区间，在等间隔区间的情况，每个区间的长度称为组距。考察数据落入每一区间的频数与频率，在每个区间上画一个矩形，它的宽度是组距，它的高度可以是频数、频率或密度（频率／组距），在高度是密度的情况，每一矩形的面积恰是数据落入区间的频率，这种直方图可以估计总体的概率密度。
❖2. 校正平方和（Corrected sum of squares）
n
CSS (xi x)2
i1
2.1.5 其它统计量
❖3. 未校正平方和（Uncorrected sum of squares）
n
USS xi2
i1
❖4. k阶原点矩
Ak
1 n
n i1
xik,k1,2,...
• 其中A1即为均值 x 。
家庭总支出 2060 2236 1455 1040 2366 1966 2400 1250 1350 1794 2550 1380 1200 2305 1316
2.2.1 用INSIGHT计算统计量
❖2. 在INSIGHT中打开数据集

SAS统计应用基础(第二讲)共4讲

2.SELECT…WHEN语句 2.SELECT…WHEN语句
语法格式：
SELECT (表达式)； WHEN(数值1) 执行语句A； WHEN(数值2) 执行语句B； … OTHERWISE 执行语句Z； END；
语法格式：
SELECT； WHEN (条件1) 执行语句A； WHEN (条件2) 执行语句B； … OTHERWISE 执行语句Z； END；
Data temp; Input varx $ vary varz; Datalines4; 24;77 195 177 24;31 220 213 24;56 173 166 24;12 135 125 ;;;;
4. INFILE语句
主要功能：指定一个包含原始数据的外部文本文件，从而使得
数据步可以从这一文本文件读入数据块。
④在较长的程序段前后加上空行、注释语句等以突出分段。
2.1.4 SAS程序的运行
菜单方式：run →submit
SAS程
序的调用方式
ቤተ መጻሕፍቲ ባይዱ
直接按F8键单击工具栏“小人右跑” 按钮
注：如果选中某一段程序，然后运行，则系统只执行被选择部分。该功能在调试程序时非常有用。
2.1.5 SAS程序中的注释
使长程序清晰易读的方法： 1.在相应程序段考虑使用空行分隔； 2.使用注释加以说明 SAS中的注释方式有两种格式： SAS中的注释方式有两种格式：中的注释方式有两种格式
建议编写SAS程序遵循以下规则：建议编写SAS程序遵循以下规则： SAS程序遵循以下规则
①除非特别长的语句，每个语句尽量只占一行。如必须要占多行，从第二行起使用缩进格式以突出语句结构。 ②所有数据步和过程步均主动加上“run;”语句作为结束。其第一个语句和最后的RUN语句由第一列开始书写，其他语句按程序的逻辑结构层次遵循缩进格式书写，以使得程序结构更为清晰。 ③尽量只使用小写字母。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

首先将其导入为SAS数据文件work.sryzc。
ID
R_ID Income Outgo
ID
R_ID Income Outgo
1
2
1794
1550
16
2
2200
2060
2
2
1716
1365
17
1
2730
2236
3
1
3410
2730
18
1
2496
1455
4
2
1765
1530
19
1
1760
1040
5
2
1 14 4275.00 2400.00 3305.00
4275.00
1760.00
2 16 2460.00 1740.50 2192.00
2460.00
1080.00
-----------------------------------------------------------------------------------------------------------------
(2).应用举例
例3：某单位对100名健康的女大学生测定了血清总蛋白含量（g/L）,试做单变量描述性统计分析。
data aa; input x @@; cards; 74.3 78.8 ……70.4 ; proc means; run; proc means maxdec=2 n min max mean std stderr cv; run;
run;
使用BY语句分区域输出统计量：
R_ID=1
The MEANS Procedure
Analysis Variable : INCOME Income
N Mean Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl --------------------------------------------------------------------------------------------------
Upper
Quartile Quartile Maximum Minimum --------------------------------------------------------------------
2400.00 3305.00 4275.00 1760.00 --------------------------------------------------------------------

Analysis Variable : INCOME Income
R_ID Obs N
Mean Median 1st Pctl 5th Ptcl 95th Pctl
-----------------------------------------------------------------------------------------------------------------
14 2803.71 2775.00 1760.00 1760.00 4275.00 4275.00 --------------------------------------------------------------------------------------------------
Lower
新数据集中统计量用原变量名
2) 统计量关键字=新名字列表
3) 统计量关键字(变量列表)=新名字列表
(2)把变量height和weight的均值(新名分别取为hmean和wmean ) 和标准差(新名字分别取为hstd 和wstd )输出到新数据集result3.
proc means data=bclass noprint ; var height weight ; output out=result3 mean=hmean wmean std=hstd wstd ;
输出结果：
MEANS 过程
分析变量：x
N 最小值最大值均值标准偏差标准误差偏差系数
100 64.30 84.30 73.66 3.94
0.39
5.35
例4 下表为两个不同地区居民家庭收入和支出情况的抽样调查（单位：元），试分别统计收入和支出情况。
将下表中数据输入成Excel文件sryzc.xls。4个变量名分别为：ID、R_ID、Income和Outgo，该四个变量分别表示“家庭编号”、“地区编号”、“家庭总收入”和“家庭总支出”。
proc means data=bclass noprint ; var height weight ; output out=result2 mean= ;
run ; Proc print data=result2;run;
output <选项> < 输出统计量列表> ;
输出统计量列表形式：
1) 统计量关键字=
2184
1900
20
1
2820
2366
6
2
2050
2050
21
2
2250
1966
7
2
2460
2184
22
1
3170
240081Fra bibliotek1976
1170
23
2
1200
1250
9
1
2850
2496
24
2
1776
1350
10
1
4275
2760
25
2
1980
1794
11
2
2010
1275
26
1
2455
2550
12
1
R_ID=2
Analysis Variable : INCOME Income
N Mean Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl
16 1889.44 1983.00 1080.00 1080.00 2460.00 2460.00 ---------------------------------------------------------------------------------------------
在PROC MEANS语句中使用统计量关键字列表。输出数据集sryzc中收入(Income) 的观测个数、均值、中位数、第一百分位数、第五百分位数、第九十五百分位数、第九十九百分位数、第一四分位数、第三四分位数、最大值、最小值。
proc means data =sryzc n mean median p1 p5 p95 p99 q1 q3 max min var ;
例5 1) 使用BY语句, 将上例中的数据按地区(R_Id)分组,计算统计量：
proc sort data = sryzc; by R_Id;
run; proc means data = sryzc n mean median
p1 p5 p95 p99 q1 q3 max min; var Income; by R_Id;
关键字 skewness
kurtosis t probt q1 q3 qrange p1 p5 p10 p90 p95 p99 clm lclm uclm
所代表的含义偏度
峰度分布位置假设检验之t统计量上述t统计量对应的概率值第一四分位数第三四分位数四分位数间距第一百分位数第五百分位数第十百分位数第九十百分位数第九十五百分位数第九十九百分位数置信限置信下限置信上限
1、MEANS过程(均值过程)
(1) 语法格式
Proc means <选项> <输出统计量关键字列表> ; < Var 分析变量名列；> <Class 分类变量名列；> <by 分类变量名列 ; > <Output out=数据集名 < 输出统计量列表> ; >
Run ;
Proc means 主语句选项：
SAS运行结果：
可以计算的描述性统计量关键字及其含义见下表。
关键字 n
nmiss mean std stderr var median mode cv max min sum sumwgt css uss range
所代表的含义有效数据记录数
缺失数据记录数均值标准差标准误方差中位数众数变异系数最大值最小值总计加权值总计校正平方和未校正平方和极差
Lower
Upper
Quartile Quartile Maximum Minimum --------------------------------------------------------------------
1740.50 2192.00 2460.00 1080.00 --------------------------------------------------------------------
1.DATA＝SAS数据集指出SAS数据集的名称，若省略，则使用最近产生的数据集。
2.MAXDEC=数字指定该过程输出结果中小数部分的最大位数(0到8).默认是8。 3. ALPHA= 置信水平为1- . 默认为 =0.05.
Means过程默认输出统计量只有五个： N, Mean , Std , Min , Max
var Income; run;
运行结果
(3) 使用CLASS语句或BY语句
class 分类变量名列；