SAS笔记第六章,列联表分析

合集下载

(整理)列联分析

(整理)列联分析

列联分析一、列联表的构造列链表是由两个以上的变量进行交叉分类的频数分布表。

例如表1:表1(列)的划分类别视为C,则可以把每一个具体的列联表称为R×C列联表。

二、列联表的分布在表1中,最右边显示了态度变量的总数,如赞成改革方案的共有279人,反对改革方案的共有141人,对此称为行的边缘分布。

同理,100、120、90、110称为列边缘分布。

这样列联表所表现的就是在变量X条件下变量Y的分布,或者是在变量Y的条件下变量X的分布,因此又把列联表中的观察值分布称为条件分布,每个具体的观察值就是条件频数。

例如,一个公司赞成改革方案的职工有68人就是一个条件频数。

为了能在相同的基数上比较,使列联表中的数据提以对变量的联合分布的关系看得更清楚一些。

为了更深入的分析,需引入期望分布的概念。

期望值分布表。

如表3所示。

在全部420个样本中,赞成改革方案的有279人,占总数的66.4%,那么对第一分公司来说,赞成该方案的人数应当为0.664×100=66人,66人即为期望值。

将观察值和期望值频数结合在一起,就可以得到观察值和期望值对比分布表,如表4所示。

就应该有664.04321====ππππ(i π为第i 个分公司赞成改革方案的百分比),对于需要验证这一假设,可以采用2χ分布进行检验。

三、2χ统计量2χ可以用于变量间拟合优度检验和独立性检验,可以利用测定两个分类变量之间的相关程度。

若用0f 表示观察值频数,用e f 表示期望值频数,则2χ统计量为:()∑-=ee f f f 202χ计算2χ统计量的步骤(可见表5): 步骤一:用观察值0f 减去期望值e f 。

步骤二:将()e f f -0之差平方。

步骤三:将平方20)(e f f -结果除以e f 。

步骤四:将步骤三的结果加总。

表5 2χ计算表0fe f()e f f -020)(e f f - 20)(e f f -/e f68 66 2 4 0.060606 75 80 -5 25 0.3125 57 60 -3 9 0.15 79 73 6 36 0.493151 32 34 -2 4 0.117647 45 40 5 25 0.625 33 30 3 9 0.3 31 37 -6 36 0.9729733.031877()∑-=ee f f f 202χ=3.03192χ统计量有这样几个特征:首相2χ≥0,因为它是对平方值结果的汇总。

2021年sas分析方法笔记

2021年sas分析方法笔记
Procprintdata=sasuser.score;//数据库.数据集
Run;
Procprintdata=sasuser.score;
VarnamemathChinese;//变量
Run;
Procprintdata=sasuser.scorenoobs;//去掉第一列(观测序号)
VarnamemathChinese;
Run;
gcontour过程:画出曲面等高线
Procgcontourdata=数据集名;
Plotx*y=z;
Run;
4.基本记录分析
4.1正态性检查:univariate过程
Procunivariatedata=sasuser.stocknormal;
Vareps;
Run;
Procunivariatedata=sasuser.stocknormal;
SymbolI=nonev=star;
PlotEnglish*Chinese;
Run;
3.9gchart过程:绘制直方图、饼图、三维直方图等。
Procgchartdata=数据集名称;
Vbar/pie/block=变量;
Run;
3.10G3D过程绘制三维曲面
Procg3ddata=数据集;
Plot变量x*变量y=变量z;
Run;
Procprintdata=sasuser.score;//使用by分组输出前用sort排序
Bysex;
Run;
Procprintdata=sasuser.score;
Summath;
Run;
3.2tabulate过程
Proctabulatedata=数据集名称;
Class分类变量;

最新SAS数据分析完整笔记(1)资料

最新SAS数据分析完整笔记(1)资料

SAS数据分析完整笔记。

[收藏]2013-08-11ice数据分析数据分析1. SAS INSIGHT启动:方法1:Solution→Analysis→Interactive Date Analysis方法2:在命令栏内输入insight方法3:程序编辑窗口输入以下代码,然后单击 Submit按钮;Proc insight;Run;1.1 一维数据分析用 sas insight做直方图、盒形图、马赛克图。

直方图:Analysis→Histogram/Bar Chart盒形图:Analysis→Box plot马赛克图:Analysis→Box plot/Mosaic plot(Y)1.2 二维数据分析散点图:Analysis→Scattery plot(Y X)曲线图:Analysis→Line plot( Y X)1.3 三维数据分析旋转图:Analysis→Rotationg Plot曲面图:Analysis→Rotationg Plot设置 Fit Surface等高线图:Analysis→Countor plot1.4 分布分析包括:直方图、盒形图、各阶矩、分位数表,直方图拟合密度曲线,对特定分布进行检验。

1.4. 1 Analysis→Distribution(Y)第一部分为盒形图,第二部分为直方图,第三部分为各阶矩,第四部分为分位数表。

1.4.2 添加密度估计A:参数估计:给出各种已知分布(正态,指数等),只需要对其中参数进行估计;Curves→Parametric DensityB:核估计:对密度函数没有做假设,曲线性状完全依赖于数据;Curves→Kernel Density1.4.3 分布检验Curves→CDF confidence bandCurves→Test for Distribution1.5 曲线拟合Analysis→Fit(Y X):分析两个变量之间的关系1.6 多变量回归Analysis→Fit(Y X)1.7 方差分析Analysis→Fit(Y X)1.8 相关系数计算Analysis→Multivariate1.9 主成分分析Analysis→Multivariate2.SAS ANALYST启动:方法1:Solution→Analysis→Analyst方法2:在命令栏内输入analyst2.1 分类计算统计量:Data→Summarize by group2.2 随机抽样:Data→Random Sample2.3 生成报表:Report→Tables2.4 变量计算:Date→Transform2.5 绘制统计图2.5.1 条形图:Graph→Bar Chart→Horizontal2.5.2 饼图:Graph→Pie Chart2.5.3 直方图:Graph→Histogram2.5.4 概率图:Graph→Probality plot2.5.5 散点图:Graph→Scatter plot2.6 统计分析与计算2.6.1 计算描述性统计量Statistics →Descriptive→Summart Statistics只计算简单统计量Statistics →Descriptive→Distribution可计算一个变量的分布信息Statistics →Descriptive→Correlations可计算变量之间的相关关系Statistics →Descriptive→Frequency counts可计算频数2.6.2 列联表分析Statistics →Table Analysis2.7假设检验2.7.1单样本均值Z检验:检验单样本均值与某个给定的数值之间的关系Statistics →Hypothesis tests→One-Sample Z-test for a mean2.7.2单样本均值t检验:适用于不了解变量的方差情形推断该样本来自的总体均数μ与已知的某一总体均属μ0是否相等Statistics →Hypothesis tests→ One-Sample t-test for a mean2.7.3单样本比例检验:检验取离散值的变量取某个值的比例Statistics →Hypothesis tests→One-Sample test for a proportion2.7.4单样本方差检验:检验样本方差是否等于给定的值。

SAS讲义1-6

SAS讲义1-6

第六章用SAS软件作统计分析本章我们将介绍如何利用SAS软件从事多种统计分析,比如计算分布频数,建立两个或多个变量的交叉表格,作统计描述,计算相关系数,以及作回归分析和方差分析等等。

我们先介绍关于计算分布频数和建立交叉表格的SAS指令。

一、用SAS程式计算分布频数和建立交叉表格:SAS软件的指令PROC PREQ,是专门用于计算分布频数,以及对单变量、双变量交叉和多变量交叉相适应的一般统计分析结果的子程式。

1.单变量的频数计算:频数分布计算指令PROC FREQ,属于SAS程式PROC部分中的指令,必须放在DATA部分的指令之后。

频数计算指令的一般表达式是这样的:TABLES 一个或一组被选定变量名单/B选择指令(可加可不加,通常不加) (可加可不加,视需要而定);选修** “A选择指令”的主要关键词是ORDER,其目的是使频数计算的结果按不同的标志排列打印,有下列几种主要指令可供用户选择:A选择指令意义ORDER=FREQ 按频数分布的大小从大到小排列ORDER=DATA 按数据的出现顺序排列PAGE 一页印一张表格.. (参Legros P48). **下面是一个单变量频数计算的指令实例:如: PROC FREQ; TABLES V1 V5-V10;程式执行后这条指令将产生V1,V5,V6,V7,V8,V9与V10,共七个变量的分变量频数表;在表上将给出以下计算结果:①每一个变量取值的分布频数(调查总体中对应于每一个变量值的样本个数)。

如变量V14,共有“.”,1,2,3四个取值;“.”的有1人,答“1”的有883人,答“2”的有15人,答“3”的有1人。

“. ,1,2,3”累计共900人,即调查总体含900人(参见Legros 附页P62)。

②每一个变量取值在总体中的分布频率。

如上例,答“.”的(拒答或nsp)有1人,其百分比为1/900*100%=0.1%;答“1”的有883人,占883/900*100%=98.1%;答“2”的有15人,占15/900*100%=1.7%;答“3”的有1人,占0.1%。

第六章SAS过程中常用语句

第六章SAS过程中常用语句
*
6.5 WEIGHT语句
语句格式: WEIGHT 变量; 功能: 在过程中规定一个数值变量,并以它的值作为观测值的权重。
*
6.6 FREQ 语句
语句格式: FREQ 变量; 功能: 规定一个数值变量,它的值表示数据集中某观测值出现的频数。 说明: 数据集中观测值总数等于FREQ变量的和。
*
例: DATA B; INPUT SEX $ AGE NUMBER; CARDS ; F 20 10 F 22 23 M 21 19 M 22 16 PROC MEANS ; VAR AGE ; PROC MEANS ; FREQ NUMBER ; VAR AGE ;
*
DATA SCORE; LENGTH NAME $ 12; INPUT NAME SEX GROUP $ T1-T3 @@ ; S=SUM(OF T1-T3) ; CARDS; WANGDONG 1 1 90 70 60 XUEPING 2 2 85 95 88 ZHOUHUA 1 1 77 84 69 HEYAN 1 2 95 78 88 SUNHONG 2 3 89 97 87 ZHAOBIN 2 3 66 98 86 PROC FORMAT ; VALUE SEXFMT 1='MALE' 2='FEMALE'; PROC PRINT DATA=SCORE; FORMAT SEX SEXFMT. ; RUN ;
*
*
6.7 ID 语句
语句格式: ID 变量表; 功能: 在输出数据集时,用该语句所规定的变量来识别观测值。 例:PROC PRINT DATA=A; PROC PRINT DATA=A; ID NAME;
*
*
*

sas属性数据分析

sas属性数据分析
run;
(cate21.sas)
21
列联表分析
由原始数据生成列联表的例子
(2) 使用SAS菜单系统“分析员应用”生成 列联表.
首先启动“分析员应用”,并打开SAS数据 集STATCLAS.
① 在“分析员应用”菜单栏目中选 分析(Statistics)=> 表分析(Table Analysis)....
14
列联表分析
属性变量取值的频数表
对属性变量最基本的统计特征就是它可取到的 不同数值及取各个不同数值的频数和概率(频率).
(中学生数据的频数表和条形图.)
15
列联表分析
多个属性变量取值的交叉表
19
列联表分析
由原始数据生成列联表的例子
例2.1 对某个“统计入门”课题,记录了该课程 中所有学生的性别和专业(′是′为统计专业,′非′ 为其他专业).数据见以下SAS程序的数据行.试用编程 方法或菜单系统生成列联表.
27
列联表分析
例2.2 杀人犯的种族是否会影响判处死刑的问 题.对1976至1977年美国佛罗里达州20个地区杀人 案件中的326个被告进行调查.考虑的种族有白人与 黑人;用“是”或“否”表示是否判处死刑.调查后 已把数据整理成表格形式(见下表).试用编程方法 或菜单系统生成列联表.
白人 黑人 是 19 17 36 否 141 149 290
26
列联表分析
有些情况下,已经汇总并得出表格中每个单元 有多少个观测.在收集数据时,也许是先建立一张 表,然后将观测个数记到每个单元中,这样得到的 信息.或许是使用以表格形式发表的数据.如:
白人 黑人 是 19 17 否 141 149
在这种情况下,没有给出样本中每一个个体的观 测数据.为了由这种类型的数据生成一张列联表, 首先建立一个包含所有单元观测个数的数据集, 然后使用带有WEIGHT语句的FREQ过程.

列联表分析

列联表分析

列联表分析【例1】性别与所喜爱颜色的调查表。

双向列联表:性别×颜色【程序】proc freq data=SASUSER.data9_01;tables SEX*COLOR / CHISQ NOPERCENT NOROW;weight F; run;【例3】下面数据是某个“统计入门”课程的数据,记录了该课程中所有学生的性别和专业(“是”为统计专业,“非”为其他专业)。

对数据进行整理生成列联表并分析。

【操作:解决方案-分析-分析家调入数据统计-表分析】【程序】*** Table Analysis ***;proc freq data=SASUSER.data9_03;tables SEX*MAJOR;run;【例5】雇员情况数据集Employee变量有:性别(gender)、工种(jobcat)、薪水(salary)/薪水等级(salaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)、初薪(begsalary)/薪水等级(begsalaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)和受教育年限。

试作三向、四向、五向列联表。

【程序prog9_05_1】三向表:对性别、薪水等级和工种的情况进行统计(生成2张表)*** Table Analysis ***;proc freq data=SASUSER.data9_05;tables GENDER*SALARYRANK*JOBCAT; run;【程序prog9_05_3】五向表:对性别、薪水等级、初薪等级、受教育年限和工种的情况进行统计(生成18张表)*** Table Analysis ***;proc freq data=SASUSER.data9_05;tables GENDER*SALARYRANK*BEGSALARYRANK*EDUCATION*JOBCAT; run;【例6】下表是一个由220名饮酒者组成的随机样本,对饮酒者进行酒类型偏好的调查。

SPSS列联表分析

SPSS列联表分析

例3: 以下是胃癌真菌病因研究中3种食物样品的真菌检出率,比较3种食物真菌检出率有无差异.
本例中SPSS提示没有理论频数小于5,且最小的理论频数为8.00,故直接选择Pearson 卡方结果,即χ2=22.841,P<0.001,提示三种食物中真菌检出率不同.此时还需要进一步考虑三种食物真菌检出率到底谁与谁之间的差异存在统计学意义,这里就需要用到卡方分割,通俗讲就是把RC列联表拆分成若干个四个表分别进行χ2检验,进而判断不同组两两比较差异是否用统计学意义,但是因为多组比较可能会增加犯I类错误概率,所以还需要对χ2检验的P值进行校正.常用Bonferroni法进行校正,本例中需要进行3次两两比较,校正的检验水准α=0.05/比较次数=0.05/3=0.0167,即当两两比较P<0.0167才能认为差异有统计学意义.
Kappa一致性检验
1、Kappa检验旨在评价两种方法是否存在一致性,或者是同一个研究者先后两次的诊断结果 2、Kappa检验会利用列联表的全部数据 3、Kappa检验可计算Kappa值用于评价一致性大小
配对χ2检验(McNemar检验)
1、配对χ2检验主要确定两种方法诊断结果是否有差别 2、配对χ2检验只利用“不一致“数据,如表中b和c 3、配对χ2检验只能给出两种方法差别是否具有统计学意义的判断
无效 疗效=1
好转 疗效=2
显效 疗效=3
治愈 疗效=4
合计
有效率%
甲法
24
26ห้องสมุดไป่ตู้
72
186
308
92.2
乙法
20
16
24
32
92
78.3
丙法
20
22
14
22
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2014.7.29 编制列联表:
列联表主要用于分析离散型分类计数资料,包括在表的基础上进行的拟合优度检验,独立性检验,一致性检验,趋势检验和计算属性变量关联度等。

其一般的语法格式为:
procfreq data=SAS数据集;
by定义分层分析变量,要求分析数据集事先按by语句指定的变量排序;
weight定义观测的加权变量,必须为正;
exact使用该语句时需要精确定义统计量的检验或置信度,适用于数据较少时;
tables用于定义编制频数分布表;
output产生一个包含分析结果输出数据文件,包括tables语句中的定义统计量,有效和遗漏个数;
run;
注:列联表中的类别变量如下面数据的第一行所表示,而类别数据如观测值。

下面用一个例子来说明,数据如下:
1)先用代码装一下;
procfreq data=a.aam;
tables hair eyes*hair;/*单独一个hair代表一维表,eyes*hair代表二维表,eyes表
示行变量,hair表示列变量*/
weight count;
run;
结果如下:
一维
二维图
2)使用assist模块:
选择assist | data analysis | elementary | frequency tables | generate n-way crosstabulation table ,弹出如下:
单击,选择eyes和hair,注意选择顺序,先选择的为行变量,后选择的为列变量,只选择一个的话则为一维表。

再单击,选择eyes*hair ,二维分析。

最后单击,选择weight column加权变量,选择count变量。

提交。

3)应用analyst模块:
选择statistics | descriptive | frequency counts 弹出如下:
选择eyes和hair变量,单击tables默认第一个,输出频数,百分数以及他们的累计值。

在单击variables,弹出:
选择count。

提交。

注:该模块只能输出一维表。

结果如下:
若想用analyst模块输出二维表,则需选择
Statistics | tables anaylsis弹出;
选择eyes作为行变量,hair作为列变量,count作为cell counts(单元格计数)。

再单击tables 弹出:
选择observed(观察值),expected(期望值),deviation(偏差),cell(单元格百分比),row,column(行列百分比)。

提交,结果不再复述。

相关文档
最新文档