sas卡方检验编程语句

合集下载

SAS过程及常用统计分析

SAS过程及常用统计分析

3.3 简单描述统计分析
本节介绍简单描述性统计命令:means、 univariate过程和freq。 means 和 univariate 对区间变量计算均值、标准差等数字特征, freq过程对离散变量计算取值频数分布。
3.3.2 MEANS 过程
用于指定要被 MEANS过程(均值过程)用于对数值型变量 分析的数据集 产生针对单个变量的简单描述性统计值。 名称 语句格式为: PROC MEANS 选择项 ; /*选择项包括 data =输入文件名 maxdec = 输出小数点位数 missing = 要求遗漏数据作为一个分组处理 统计量关键 字*/ VAR 被执行分析变量名串 ; /*被统计的变量*/ BY 分组变量名串 ; /*须先用 proc sort ; by变量名串;通过by对变 量的值排序,以组为单位求统计量,因而不适用取值中文的变量*/ CLASS 分组变量名串 ; /* 可以是名义变量(变量可以取中文),无 须用proc sort 对by变量的值排序 */ FREQ 变量名列表 ; 存放结果数 WEIGHT 权变量名; 据集名 ID 样本识别变量名串 ; OUTPUT OUT=SAS数据集 统计量关键字串(各种统计值) … ; RUN ;
3.3.3 UNIVARIATE 过程
1. UNIVARIATE过程简介 UNIVARIATE过程除了可以完成与MEANS过程相同的 基本统计量外,还可以计算变量的极端值、分位数,生成频 率表,并支持对数据进行正态性检验。 UNIVARIATE与MEANS过程不同的功能包括: 1) 描述变量极端值的情况。 2) 计算分位数,如中位数,1/4和3/4分位数。 3) 生成若干个描述变量分布的图。 4) 生成频率表。 5) 对数据进行正态性检验。

sas练习题(打印版)

sas练习题(打印版)

sas练习题(打印版)### SAS练习题(打印版)#### 一、基础数据操作1. 数据导入- 题目:使用SAS导入一个CSV文件,并列出前5个观测值。

- 答案:使用`PROC IMPORT`过程导入数据,并用`PROC PRINT`展示前5个观测。

2. 数据筛选- 题目:筛选出某列数据大于50的所有观测。

- 答案:使用`WHERE`语句进行筛选。

3. 数据分组- 题目:根据某列数据对数据集进行分组,并计算每组的均值。

- 答案:使用`PROC MEANS`过程和`BY`语句进行分组和计算。

4. 数据排序- 题目:按照某列数据的升序或降序对数据集进行排序。

- 答案:使用`PROC SORT`过程进行排序。

#### 二、描述性统计分析1. 单变量分析- 题目:计算某列数据的均值、中位数、标准差等统计量。

- 答案:使用`PROC UNIVARIATE`过程进行单变量描述性统计分析。

2. 频率分布- 题目:计算某列数据的频数和频率分布。

- 答案:使用`PROC FREQ`过程进行频率分布分析。

3. 相关性分析- 题目:计算两列数据的相关系数。

- 答案:使用`PROC CORR`过程计算相关系数。

#### 三、假设检验1. t检验- 题目:对两组独立样本的均值进行t检验。

- 答案:使用`PROC TTEST`过程进行t检验。

2. 方差分析- 题目:对多个组别数据进行方差分析。

- 答案:使用`PROC ANOVA`过程进行方差分析。

3. 卡方检验- 题目:对分类变量进行卡方检验。

- 答案:使用`PROC FREQ`过程和`CHI2TEST`选项进行卡方检验。

#### 四、回归分析1. 简单线性回归- 题目:使用一个自变量和一个因变量进行简单线性回归分析。

- 答案:使用`PROC REG`过程进行简单线性回归。

2. 多元线性回归- 题目:使用多个自变量和一个因变量进行多元线性回归分析。

- 答案:同样使用`PROC REG`过程,但包括多个自变量。

SAS002卡方检验全章+总结

SAS002卡方检验全章+总结

思路:计数资料→独立四格表→n≥40 且有 T 在[1,5)之间→连续校正卡方或 Fisher 精确概率 程序: data A;
2 / 14
input r c f @@; cards; 1 1 46 1 2 6 2 1 18 2 2 8 ; proc freq; tables r*c/chisq nopercent nocol expected; weight f; run;
5 / 14
结果: H0:两种检测方法结果无差别。S=7.1429;p=0.0075;p<0.05,拒绝 H0。 (样本阳性率比较,免疫荧光检测结果阳性 率更高) ,故可以认为两种检测方法检测结果不同,免疫荧光法的阳性检测率更高。 注意:kappa 为一致性检验 0‐0.4 一致性差;0.4‐0.75 一致性一般;0.75‐1 一致性好。一致性越高则两种处理间的差 异就越小。 4.R*C 表——双向无序——样本率比较——基本卡方+两两比较 例 7‐6 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表 7‐8。问三种 疗法的有效率有无差别? 表 7‐8 三种疗法有效率的比较 有效率 疗法 有效 无效 合计 (%) 物理疗法组 药物治疗组 外用膏药组 合计 199 164 118 481 7 18 26 51 206 182 144 532 96.60 90.11 81.94 90.41
结果: H0:两组新生儿 HBV 的总体感染率无差别。Fisher 精确概率双侧检验 p=0.1210;p≥0.05,不拒绝 H0。尚不能认为预 防注射与非预防注射的新生儿 HBV 的感染率不等。
4 / 14
3.配对四格表——利用 bc 的卡方检验(McNemar's Test) 例 7‐3 某实验室分别用乳胶凝集法和免疫荧光法对 58 名可疑系统红斑狼疮患者血清中抗核抗体进行测定, 结果见 表 7‐3。问两种方法的检测结果有无差别? 表 7‐3 两种方法的检测结果 免疫荧光法 乳胶凝集法 + - 12( b) 11( a) c 33( d ) 2( ) 13 45 合计

20个SAS过程步

20个SAS过程步

20个SAS过程步
1、PROC
MEANS--数据描述:计算均数、标准差、最大值、最小值、变量有效数据个数、变量缺失个数
2、PROC UNIV ARIATE--正态性检验
3、PROC TTEST--两独立样本检验
4、PROC NPAR1WAR--秩和检验
5、PROC ANOV A--方差分析
6、PROC CORR--相关性分析
7、PROC REG--回归分析
8、PROC FREQ--计数资料描述;卡方检验;诊断试验
9、PROC LOGISTIC--结局是二分类的Logisitc回归分析
10、PROC PHREG--生存分析
11、PROC POWER--样本量及把握度计算
12、PROC PRINT--显示数据集
13、PROC GLM--回归分析或协方差分析
14、PROC RANK--给某变量排次或按序分组
15、PROC SORT--按某变量排序
16、PROC SURVEYSELECT--概率抽样
17、PORC IMPORT--导入数据集
18、PROC EXPORT--导出数据集
19、PROC CONTENTS--产生一个数据集的头文件,包含了多种该数据集的信息
20、PROC TABULATE--输出报表。

SAS统计分析介绍

SAS统计分析介绍

proc ttest data=ncd.stat ;
var h; class urd;
urd
N
where gender=1; 1
733
run;
2
840
差 (1-2)
均值 标准差 标准误 最小值 最大值 差
168.4 6.3642 0.2351 148.0 189.0 164.8 7.5661 0.2611 104.0 193.0 3.6064 7.0317 0.3554
例如 : proc print data=score label;
id name; var math english chinese; label name=‘姓名’ math=‘数学’ english=‘英语' chinese=‘语 文’; run;
19
FORMAT语句可以为变量输出规定一个输出格式,比如 proc print data=score; format math 5.1 chinese 5.1; 分析
t检验 方差分析 logistic回归分析 判别分析 聚类分析 方差分析 logistic回归分析 判别分析 聚类分析
分类变量
t检验 方差分析 协方差分析 多因素回归分析
c2检验 logistic回归分析
c2检验 logistic回归分析
生存分析
5
有序变量 相关分析 多因素回归分析
5.304312 标准误差均 值
3645 584713.9 72.40189 0.56804 263832.5
0.140937
99% 95% 90% 75% Q3 50% 中位数
25% Q1
179.5 175 172
166.1 160

SAS复习总结

SAS复习总结

蔡泽蕲Freq 过程:Proc Freq data=dataset;table x*y/option;By var1;Class var2;Weight f;Run;输出x*y的频数表,by语句的使用要求var1已经排过序. option可为chisp,分析x、y(两独立样本)的不同水平的差异是否显著,卡方检验。

当x、y为两配对样本时,option为agree,进行配对样本差异是否显著的检验。

Sort 过程:Proc sort data=dataset out=dataset;By (descending) var1 (descending) var2;Run;对数据集中的var1、var2变量依次排序,默认从小到大,descending为从大到小。

缺失out 时新数据集覆盖原数据集。

Means 过程Proc means data=dataset option;Var x;By var1;Class var2;Freq var3; /*不能用weight*/Output out=输出数据集统计量名=自定义名;Run;输出option统计量,当包含t和prt 时输出x的期望为0的t检验,用于配对样本的t检验。

无option时,默认输出N、std、mean、min、max五个统计量。

还可输出其它很多统计计量。

特别的两个选项:maxdec=n ,alpha=value分别指定结果保留位数和置信度Univariate 过程Proc univariate data=dataset option;Var x;By var1;Freq var2;Output out=输出数据集统计量=自定义变量名;Run;Option 可为freq(生成频数表)、normal(检验变量是否服从正态分布)、plot(生成茎叶图、箱线图、正太概率图)、cibasic(计算均值置信区间)、cipctldf(计算中位数置信区间)。

统计量可为:各检验统计量及分位数。

Ch6 SAS基本统计过程(二) freq

Ch6   SAS基本统计过程(二) freq

利用表达式对 数据进行分组
grp=int((x-45)/5)*5+45; Run;
确定起始分组和组距: 确定起始分组和组距: 组距: , 组距:5, 起始分组: 起始分组:45 - 50
int()取整函数 int(1.7)=1 int(5.2)=5 int(0.4)=0
grp=int((x-45)/5)*5+45; 语句将每一个脉搏值进行分组,例如脉搏 语句将每一个脉搏值进行分组, 82,被分入 , grp=int((82-45)/5)*5+45=int(7.4)*5+45=80,即80-85组内。 即 组内。 组内
彭斌
Slide 1
1. PROC FREQ <option(s)>; 这里的options常用的有 Data=SAS-data-set,指定输入数据集名,若省略,则 用最近建立的数据集。
彭斌
Slide 2
2. TABLES request(s) </ option(s)>; TABLES语句是该过程中非常重要的一条语句。在 一个PROC FREQ过程中,可以有任意多个tables语句; 如果没有tables语句,FREQ对数据集中的每个变量 都生成一个单向频数表; 如果tables语句没有任何说明选项(options),FREQ 对tables语句中规定的变量的每个水平将计算频数、累 计频数、占总频数的百分数及累计百分数。
Frequency| Percent | Row Pct | Col Pct | 1| 2| Total ---------+--------+--------+ 1 | 1 | 1 | 2 | 25.00 | 25.00 | 50.00 | 50.00 | 50.00 | | 50.00 | 50.00 | ---------+--------+--------+ 2 | 1 | 1 | 2 | 25.00 | 25.00 | 50.00 | 50.00 | 50.00 | | 50.00 | 50.00 | ---------+--------+--------+ 2 2 4 Total 50.00 50.00 100.00

卡方检验

卡方检验

卡方检验
■ 行×列表资料的χ2检验
多个样本率的比较
例题 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面 神经麻痹的疗效,资料见下表。问三种疗法的有效率有无差别?
卡方检验
■ 行×列表资料的χ2检验
多个样本率的比较
卡方检验
■ 行×列表资料的χ2检验
多个样本率的比较
卡方检验
卡方检验
■ 四格表资料的χ2检验
3.当n<40,或T<1时,用四格表资料的Fisher确切概率法。 步骤:
卡方检验
■ 四格表资料的χ2检验
3.当n<40,或T<1时,用四格表资料的Fisher确切概率法。 步骤:
卡方检验
■ 四格表资料的χ2检验
3.当n<40,或T<1时,用四格表资料的Fisher确切概率法。 步骤:
样本构成比的比较
卡方检验
■ 行×列表资料的χ2检验
双向无序分类资料的关联性检验
卡方检验
■ 行×列表资料的χ2检验
双向无序分类资料的关联性检验 例题 测得某地5801人的ABO血型和MN血型结果如下表,问两种血型系统 之间是否有关联?
卡方检验
■ 行×列表资料的χ2检验
双向无序分类资料的关联性检验
Coxhran Armitage 趋势检验(Cochran Armitage trend test )
卡方检验
■ 有序分组资料的线性趋势 χ2检验
卡方检验
■ 有序分组资料的线性趋势 χ2检验
例 某研究者欲研究年龄与冠状动脉粥样硬化等级间的关系,将278例尸 解资料整理成下表,问年龄与冠状动脉粥样硬化等级间是否存在线性变化 趋势?
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

① 当Ti≥5,且n ≥40时 使用普通2 检验,可用基本
公式或专用公式
χ2
(ad bc)2n
(a b)(c d)(a c)(b d)
a、b、c、d为实际频数
② 四格表2 值的校正公式
当1≤T < 5,且n≥40时,需校正2 检验
a .基本公式的校正:
2
A
T T
0.52
b.专用公式的校正:
112 40 12 36 ;proc print; Run; 此法适用于b+c<=40的时候,
使用公式编辑法计算2统计量及对应的P值。
此部分结果是普通四格表2检验的结果, 不适于配对2检验使用。
1960年Cohen等提出用Kappa值作为评价判断的一致性 程度的指标。当两个诊断完全一致时,Kappa值为1。当 观测一致率大于期望一致率时,Kappa值为正数,且 Kappa值越大,说明一致性越好。当观察一致率小于期望 一致率时,Kappa值为负数,这种情况一般来说比较少见。 根据边缘概率的计算,Kappa值的范围值应在-1~1之间。 Kappa≥0.75两者一致性较好;0.75>Kappa≥0.4两者 一致性一般;Kappa<0.4两者一致性较差。
结果
实际频数 理论频数
结果解释
本例n>40且各格子的期望值均大于5, 因而选用Chi-Square的2统计量及其显 著性水平,即2=39.927,P=0.0001, 拒绝H0,认为内科疗法对两种类型胃溃 疡的治愈率差别有统计学意义,一般类 型的治愈率高于特殊型。
例2 某省三地区花生黄曲霉素B1污染率比较

1、有时候读书是一种巧妙地避开思考 的方法 。20.1 2.1020. 12.10Thursday, December 10, 2020

2、阅读一切好书如同和过去最杰出的 人谈话 。02:3 4:3102: 34:3102 :3412/ 10/2020 2:34:31 AM

3、越是没有本领的就越加自命不凡。 20.12.1 002:34: 3102:3 4Dec-20 10-Dec-20
2
a
b
ad
c
bc
d
n 22 n
a cb
d
3、行×列表资料的2 检验
公式:
χ2
n
A2 nRnC
1
R×C表资料的2检验适用条件
1.理论数不能小于1 2.理论数1<T,且小于5的格子数不超
过总格子数的1/5。 若条件不适合,需作如下处理: A 增大样本例数 B 删除理论数太小的行或列 C 合并(性质相同)
结果
本例各格子期望值均大于5,选用Chi-
Square的2统计量及其显著水平,即2=17.907, P=0.0001,按=0.05的检验水准拒受H0,认为 三地花生黄曲霉素B1污染率有差别。
配对设计的2检验(SAS程序)
200名已确诊的血吸虫患者,治 疗前经皮试法及粪检法检查,结果 如下表,问两种检查方法的结果有 无差别?
二、完全随机设计的2检验 (SAS)
例1 某医院用内科疗法治疗一般类型 胃溃疡患者80例,治愈63例;治疗特殊 类型胃溃疡患者99例,治愈31例。
问内科疗法对两种类型胃溃疡的治愈 率差别有无显著意义?
表 两种类型胃溃疡内科疗法治疗结果
data ex1; input r c count @@; cards; 1 1 63 1 2 17 2 1 31 2 2 68 3 1 322 3 2 ; proc freq; tables r*c/chisq expected nopercent nocol; weight count; run;
程序2:循环输入法
data ex2; do r=1 to 3; do c=1 to 2; input count@@; output;end;end; cards; 6 23 30 14 8 3 ;
proc freq; tables r*c/chisq expected nopercent
nocol; weight count; run;
此处用Agree选项实现SAS的McNemar检验,
但要注意,SAS(b+c>40),
所得的结果与
公式的计算结果
相同。
Data ex4; Input f11 f12 f21 f22; If f12+f21<40 then
Chisq=(abs(f12-f21)-1)**2/(f12+f21); Else chisq=abs(f12-f21)**2/(f12+f21); P=1-probchi(chisq,1); Cards;
sas χ2 检验编程语句
一、复习有关内容
1.应用: (1)分类变量资料; (2)推断两个或两个以上的样本率或构成
比之间有无差异; (3)检验频数分布的拟合优度。
2. 四格表资料的χ2 检验
(1)四格表的形式
(2)χ2 检验的基本思想
(3) 基本公式
x2
(A T)2 T
自由度 =(行数-1)(列数-1)
本例b+c>40,故选用Mcnemar检验的2 统计量及其显著水平,即2=15.0769,P =0.0001,按=0.05的检验水准拒受H0 ,认为两种检查方法有差别。
公式法得到的结果:
作业
1. P125 1; 2. P126 4; 3. 程序实现课本中确切概率法的例题的数 据,并记录最后的结果。
表2 血吸虫患者两种检查方法的结果
皮试法 +
粪检法
+
-
112 40
合计 152
-
12 36 48
合计
124 76 200
data ex3; do r=1 to 2; do c=1 to 2; input f@@; output;end;end; cards; 112 40 12 36 ;
proc freq; tables r*c/chisq expected nopercent nocol agree; weight f; run;
地区 未污染 污染 合计 污染率(%)
甲 6 23
乙 30 14

8
3
29 79.3 44 31.8 11 27.3
合计 44 40
84 47.6
程序1:一般输入方法
data ex2; input r c count@@; cards; 1 1 6 1 2 23 2 1 30 2 2 14 3 1 8 3 2 3 ;
相关文档
最新文档