SAS学习系列21. 相关分析

合集下载

SAS使用学习笔记(对应分析)

SAS使用学习笔记(对应分析)

SAS使用学习笔记(对应分析)1对应分析是不仅研究变量之间的关系、还要研究样品之间的关系。

它通过在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。

2对应分析例子下面是某研究者收集到的资料,试分析各种基因频率与民族之间的关系。

各民族下面的小数是44种基因出现的频率。

基因型(JY)藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H)。

程序:DATA b;INPUT jy $ 1-3 z 6-11 n 14-19 y 22-27 h 30-35;cards;A1 0.0308 0.01800.11900.0149A2 0.3333 0.10700.14800.3492A3 0.0204 0.01900.10100.0176A9 0.3037 0.27900.15600.1414A100.0409 0.01800.03900.0313A110.1354 0.42200.12600.2977A280.0000 0.01800.08300.0094A300.0413 0.00000.00000.0217A310.0518 0.03700.02200.0121A320.0000 0.01900.03900.0013A330.0000 0.06700.08300.0608B5 0.2828 0.11800.13400.0825B7 0.0000 0.01900.08000.0244B8 0.0102 0.01180.04500.0094B120.0102 0.03700.06600.0121B130.0102 0.07700.00600.0650B140.0000 0.00000.00600.0013B150.1923 0.25400.09600.1092B180.0050 0.02800.02200.0000B270.1067 0.00000.02600.0204B350.0626 0.05700.14800.0342B370.0102 0.01800.00900.0067B380.04650.0470 0.00300.0015B390.01020.0000 0.00900.0176B460.01020.00900.00000.1813B480.05720.15000.00300.0108B500.01020.01800.03700.0000B530.00500.0000 0.00600.0000B540.01530.00000.00000.0176B550.05720.02800.02600.0217B560.01020.00900.00600.0040B570.00500.01800.03900.0341B580.00000.06700.03300.0139B600.06260.02800.02200.0723B610.08990.00000.08300.1080B700.00500.00000.00800.0000C1 0.08990.03700.02300.1716C2 0.02040.00000.07300.0397C3 0.17980.10700.08300.3269C4 0.16510.07700.13400.0495C5 0.00000.00900.01600.0054C6 0.02560.24500.04500.0081C7 0.17120.21800.11900.1152C8 0.00500.00000.00400.0027;run;PROC CORRESP data=b OUTC=ccc;VAR z n y h;LABEL z='藏族'n='尼泊尔'y='印度'h='汉族';ID jy;RUN;DATA ccc;SET ccc;X=dim1;Y=dim2;XSYS ='2';YSYS ='2';TEXT =jy;SIZE =2;LABEL X='Dimension 1'Y='Dimension 2';keep X Y TEXT XSYS YSYS SIZE;RUN;PROC GPLOT DATA=ccc;SYMBOL1V=#;AXIS1LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;AXIS2LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;PLOT Y*X=1 / ANNOTATE=ccc FRAME HAXIS=AXIS1VAXIS=AXIS2 HREF=0VREF=0;RUN;输出:The CORRESP ProcedureInertia and Chi-Square DecompositionSingular Principal Chi- CumulativeValue Inertia Square Percent Percent 8 16 24 32 40----+----+----+----+----+---0.42302 0.17895 1.83072 41.61 41.61 **************************0.39266 0.15418 1.57736 35.85 77.46 **********************0.31137 0.09695 0.99184 22.54 100.00 **************Total 0.43007 4.39992 100.00Degrees of Freedom = 129SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureRow CoordinatesDim1 Dim2A1 0.5878 0.8300A2 -0.4233 0.1209A3 0.5708 0.7845A9 0.0741 -0.1562A10 -0.0466 0.2818A11 0.0191 -0.3738A28 0.8269 0.8844A30 -0.7954 0.0516A31 0.1126 -0.1366A32 0.9506 0.5206A33 0.2931 0.1666B5 -0.0085 0.0766B7 0.5508 0.7576B8 0.5282 0.6647B12 0.6453 0.3736B13 -0.1439 -0.5749B14 0.6310 1.2240B15 0.1193 -0.3016B18 0.8250 -0.1198B27 -0.3381 0.2782B35 0.4306 0.4728B37 0.2494 -0.2481B38 0.1990 -0.6104B46 -1.2499 0.0376B48 0.4093 -0.9132B50 0.7714 0.4510B53 0.3664 0.8090B54 -0.9706 0.0684B55 -0.0427 0.0207B56 0.1278 -0.1051B57 0.0754 0.3742B58 0.6482 -0.3801B60 -0.4505 0.0137B61 -0.3745 0.4819B70 0.4748 0.9100C1 -0.7041 0.0091C2 0.0968 0.8397C3 -0.5193 0.0178C4 0.1452 0.2307C5 0.5711 0.3791C6 0.7305 -0.8444C7 0.1169 -0.1805C8 -0.1612 0.5353SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureSummary Statistics for the Row PointsQuality Mass InertiaA1 0.9966 0.0179 0.0431A2 0.9583 0.0916 0.0431A3 0.9744 0.0154 0.0347A9 0.3838 0.0860 0.0156A10 0.8715 0.0126 0.0027A11 0.6324 0.0959 0.0494A28 0.9068 0.0108 0.0406A30 0.5695 0.0062 0.0160A31 0.1562 0.0120 0.0056A32 0.9073 0.0058 0.0174A33 0.2820 0.0206 0.0193B5 0.0274 0.0603 0.0304B7 0.7996 0.0121 0.0308B8 0.9666 0.0075 0.0129B12 0.9043 0.0122 0.0175B14 0.9031 0.0007 0.0035B15 0.8864 0.0637 0.0176B18 0.9645 0.0054 0.0090B27 0.1832 0.0150 0.0364B35 0.9998 0.0295 0.0281B37 0.9998 0.0043 0.0012B38 0.5599 0.0096 0.0164B39 0.9636 0.0036 0.0040B46 0.6708 0.0196 0.1062B48 0.9847 0.0216 0.0511B50 0.9990 0.0064 0.0118B53 0.7205 0.0011 0.0027B54 0.9637 0.0032 0.0073B55 0.0150 0.0130 0.0045B56 0.3142 0.0029 0.0006B57 0.3852 0.0094 0.0083B58 0.7578 0.0111 0.0193B60 0.9902 0.0181 0.0086B61 0.9992 0.0275 0.0238B70 0.8576 0.0013 0.0036C1 0.9447 0.0314 0.0383C2 0.9242 0.0130 0.0234C3 0.9069 0.0681 0.0471C4 0.3959 0.0416 0.0182C5 0.6915 0.0030 0.0047C6 0.9669 0.0316 0.0949C7 0.9160 0.0609 0.0072C8 0.7360 0.0011 0.0011SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedurePartial Contributions to Inertia for the Row PointsDim1 Dim2A1 0.0345 0.0798A2 0.0918 0.0087A3 0.0281 0.0616A9 0.0026 0.0136A10 0.0002 0.0065A11 0.0002 0.0869A28 0.0412 0.0547A30 0.0218 0.0001A31 0.0009 0.0015A32 0.0293 0.0102A33 0.0099 0.0037B5 0.0000 0.0023B7 0.0204 0.0449B8 0.0116 0.0214B12 0.0285 0.0111B13 0.0018 0.0332B14 0.0016 0.0069B15 0.0051 0.0376B18 0.0204 0.0005B27 0.0096 0.0075B35 0.0306 0.0428B37 0.0015 0.0017B38 0.0021 0.0231B39 0.0059 0.0040B46 0.1711 0.0002B48 0.0202 0.1168B50 0.0212 0.0084B53 0.0008 0.0046B54 0.0169 0.0001B55 0.0001 0.0000B56 0.0003 0.0002B57 0.0003 0.0085B58 0.0261 0.0104B60 0.0205 0.0000B61 0.0215 0.0414B70 0.0016 0.0068C1 0.0871 0.0000C2 0.0007 0.0595C3 0.1026 0.0001C4 0.0049 0.0144C5 0.0054 0.0028C6 0.0944 0.1463C7 0.0047 0.0129C8 0.0002 0.0021SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureIndices of the Coordinates that Contribute Most to Inertia for the Row PointsDim1 Dim2 BestA1 2 2 2 A2 1 0 1 A3 2 2 2 A9 0 0 2 A10 0 0 2 A11 0 2 2 A28 2 2 2 A30 1 0 1 A31 0 0 2 A32 1 0 1 A33 0 0 1 B5 0 0 2 B7 0 2 2 B8 0 0 2 B12 1 0 1 B13 0 2 2 B14 0 0 2 B15 0 2 2 B18 0 0 1 B27 0 0 1 B35 2 2 2 B37 0 0 2 B38 0 0 2 B39 0 0 1 B46 1 0 1 B48 0 2 2 B50 0 0 1 B53 0 0 2 B54 0 0 1 B55 0 0 1 B56 0 0 1 B57 0 0 2 B58 1 0 1 B60 0 0 1 B61 2 2 2 B70 0 0 2 C1 1 0 1 C2 0 2 2 C3 1 0 1 C4 0 0 2 C5 0 0 1 C6 2 2 2 C7 0 0 2C8 0 0 2SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureSquared Cosines for the Row PointsDim1 Dim2A1 0.3329 0.6637A2 0.8860 0.0723A3 0.3373 0.6371A9 0.0705 0.3133A10 0.0232 0.8483A11 0.0016 0.6307A28 0.4230 0.4838A30 0.5671 0.0024A31 0.0632 0.0931A32 0.6979 0.2094A33 0.2131 0.0689B5 0.0003 0.0270B7 0.2765 0.5231B8 0.3742 0.5924B12 0.6773 0.2270B13 0.0341 0.5446B14 0.1896 0.7135B15 0.1198 0.7666B18 0.9445 0.0199B27 0.1092 0.0739B35 0.4533 0.5465B37 0.5025 0.4972B38 0.0538 0.5061B39 0.6037 0.3599B46 0.6702 0.0006B48 0.1647 0.8200B50 0.7445 0.2545B53 0.1227 0.5979B54 0.9589 0.0048B55 0.0122 0.0029B56 0.1874 0.1268B57 0.0150 0.3701B58 0.5639 0.1939B60 0.9893 0.0009B61 0.3762 0.6230B70 0.1835 0.6741C1 0.9445 0.0002C2 0.0121 0.9121C3 0.9058 0.0011C4 0.1123 0.2836C5 0.4801 0.2115C6 0.4139 0.5530C7 0.2707 0.6453C8 0.0612 0.6748SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureColumn CoordinatesDim1 Dim2藏族 -0.2025 0.0083尼泊尔 0.3658 -0.5460印度 0.4529 0.5754汉族 -0.5915 0.0430Summary Statistics for the Column PointsQuality Mass Inertia藏族 0.1413 0.2629 0.1777尼泊尔 0.9737 0.2630 0.2713印度 0.9815 0.2274 0.2888汉族 0.7697 0.2468 0.2622Partial Contributions to Inertia for the Column PointsDim1 Dim2藏族 0.0602 0.0001尼泊尔 0.1967 0.5086印度 0.2606 0.4883汉族 0.4825 0.0030Indices of the Coordinates that Contribute Most to Inertia for the Column PointsDim1 Dim2 Best藏族 0 0 1尼泊尔 2 2 2印度 2 2 2汉族 1 0 1 Squared Cosines for the Column PointsDim1 Dim2藏族 0.1411 0.0002尼泊尔 0.3016 0.6721印度 0.3754 0.6060汉族 0.7657 0.0040说明:根据Column CoordinatesDim1 Dim2藏族 -0.2025 0.0083尼泊尔 0.3658 -0.5460印度 0.4529 0.5754汉族 -0.5915 0.0430,我们可以得到:藏族=-0.202490Dim1+0.008300Dim2尼泊尔= 0.365818Dim1-0.546045Dim2印度= 0.452903Dim1+0.575439Dim2汉族=-0.591500Dim1+0.042981Dim2在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量就是1个点,如Z(藏族)点的坐标为(-0.202490,0.008300)。

学习使用SAS进行数据分析的基础教程

学习使用SAS进行数据分析的基础教程

学习使用SAS进行数据分析的基础教程一、SAS介绍与安装SAS(全称Statistical Analysis System,统计分析系统)是一种非常强大的数据分析软件。

它提供了丰富的统计分析、数据挖掘和数据管理功能。

在学习使用SAS之前,首先需要下载并安装SAS软件。

在安装过程中,需要根据操作系统选择相应的版本,并按照安装向导进行操作。

安装完成后,可以通过启动菜单找到SAS软件并打开它。

二、SAS基本语法与数据集1. SAS语法基础SAS语法是一种类似于编程语言的语法。

在SAS中,每一个语句都以分号作为结尾。

常用的SAS语句包括DATA、PROC和RUN。

DATA语句用于创建数据集,PROC语句用于执行数据分析过程,RUN语句用于执行SAS语句的运行。

2. SAS数据集SAS数据集是SAS中最重要的数据组织形式。

它可以包含多个数据变量,并且每个变量可以拥有不同的数据类型,如字符型、数值型、日期型等。

通过DATA语句可以创建一个新的SAS数据集,并通过INPUT语句指定每个变量的属性。

使用SET语句可以将现有的数据集读入到SAS数据集中,以供后续分析使用。

三、SAS数据清洗与变换1. 数据清洗数据清洗是数据分析的第一步,其目的是去除数据中的错误或无效信息,保证数据质量。

在SAS中,可以使用IF和WHERE语句来筛选出符合条件的数据观测值,并使用DELETE和KEEP语句删除或保留特定的变量。

2. 数据变换数据变换是对原始数据进行转换,以满足具体的分析需求。

在SAS中,常用的数据变换操作包括缺失值处理、变量重编码、数据排序和数据合并等。

可以使用IF、ELSE和DO语句进行逻辑判断和循环操作,通过FORMAT语句对数据进行格式化。

四、SAS统计分析1. 描述统计分析描述统计分析是对数据的基本特征进行分析,包括均值、标准差、中位数、分位数和频数等。

在SAS中,可以使用PROC MEANS进行基本统计分析,使用PROC FREQ进行频数分析。

学会使用SAS进行数据分析

学会使用SAS进行数据分析

学会使用SAS进行数据分析引言:随着大数据时代的到来,数据分析成为了一项越来越重要的技能。

而SAS(Statistical Analysis System)作为业界著名的数据分析工具,具备强大的数据处理与分析能力,被广泛应用在各个行业中。

本文将介绍SAS的基本操作和常用功能,帮助读者初步学会使用SAS进行数据分析。

一、SAS的基本操作SAS作为一个统一的数据分析平台,具备了数据导入、数据清洗、数据分析、数据可视化等一系列功能,下面将介绍几个基本操作。

1. 数据导入:SAS支持多种数据格式,如CSV、Excel、SPSS等,可以通过简单的命令将数据导入到SAS中。

2. 数据清洗:在数据分析之前,我们通常需要对数据进行清洗,去除重复值、空值,以及进行数据转换等操作。

SAS提供了丰富的数据清洗函数,通过简单的命令就能实现。

3. 数据分析:SAS内置了大量的数据分析函数和算法,如描述统计、回归分析、聚类分析等,这些函数可以帮助用户快速进行数据分析并得出结论。

4. 数据可视化:通过SAS的图形模块,用户可以轻松地将数据进行可视化展示,如绘制直方图、散点图、折线图等。

这样可以更加直观地分析数据,并发现其中的规律和关联。

二、SAS常用功能除了基本操作之外,SAS还有一些常用功能,下面将介绍其中几个。

1. SAS Macro:宏是SAS中非常强大的功能,它可以在程序中定义和调用一系列命令,从而简化复杂的分析流程。

宏可以帮助用户提高工作效率,减少重复性工作。

2. 数据整合:在实际的数据分析中,我们通常需要从多个数据源中整合数据。

SAS提供了灵活的数据连接和合并操作,可以轻松实现数据整合。

3. 大数据处理:随着大数据时代的到来,传统的数据处理方式已经无法满足需求。

SAS提供了分布式计算的功能,可以进行高效的大数据处理,帮助用户更好地应对大数据挑战。

4. 数据挖掘:SAS也是一款强大的数据挖掘工具,它提供了各种经典的数据挖掘算法,如决策树、关联规则等。

SAS数据分析常用操作指南

SAS数据分析常用操作指南

SAS数据分析常用操作指南在当今数据驱动的时代,数据分析成为了企业决策、科学研究等领域的重要手段。

SAS 作为一款功能强大的数据分析软件,被广泛应用于各个行业。

本文将为您介绍 SAS 数据分析中的一些常用操作,帮助您更好地处理和分析数据。

一、数据导入与导出数据是分析的基础,首先要将数据导入到 SAS 中。

SAS 支持多种数据格式的导入,如 CSV、Excel、TXT 等。

以下是常见的导入方法:1、通过`PROC IMPORT` 过程导入 CSV 文件```sasPROC IMPORT DATAFILE='your_filecsv'OUT=your_datasetDBMS=CSV REPLACE;RUN;```在上述代码中,将`'your_filecsv'`替换为实际的 CSV 文件路径,`your_dataset` 替换为要创建的数据集名称。

2、从 Excel 文件导入```sasPROC IMPORT DATAFILE='your_filexlsx'OUT=your_datasetDBMS=XLSX REPLACE;RUN;```导出数据同样重要,以便将分析结果分享给他人。

可以使用`PROC EXPORT` 过程将数据集导出为不同格式,例如:```sasPROC EXPORT DATA=your_datasetOUTFILE='your_filecsv'DBMS=CSV REPLACE;RUN;```二、数据清洗与预处理导入的数据往往存在缺失值、异常值等问题,需要进行清洗和预处理。

1、处理缺失值可以使用`PROC MEANS` 过程查看数据集中变量的缺失情况,然后根据具体情况选择合适的处理方法,如删除包含缺失值的观测、用均值或中位数填充等。

2、异常值检测通过绘制箱线图或计算统计量(如均值、标准差)来检测异常值。

对于异常值,可以选择删除或进行修正。

3、数据标准化/归一化为了消除不同变量量纲的影响,常常需要对数据进行标准化或归一化处理。

SAS相关分析-简单相关、偏相关讲义资料

SAS相关分析-简单相关、偏相关讲义资料

三、简单相关的散点图表示
表5.1 为说明两变量之间的线性关系而假设的三组(x,y)观察值
组别 变量
观察值
平均数
平方之和
第一组 x1 y1
第二组 x2 y2
第三组 x3 y3
7716538931 5961319468 9877653311 9986654311 1133567789 9986654311
计算
sr
1 r22 n2
1 0.97722 0.0751 10 2
t = r/sr = 0.9772/0.0751 = 13.01
查表:t0.05,8=2.306,t0.01,8=3.356
t = 13.01 > t0.01 = 3.356
推断变量x2和y2相关达极显著
第一节 简单相关分析
在第三组数据中,随着x3数值的增大, y3值有减少的趋势,有负的线形相关关系。
相关系数
四、简单相关系数
相关系数是描述线性相关程度和方向的统计量 Pearson相关系数:
r (x x)( y y) (x x)2 (y y)2
Cov(x, y)
SxSy
第一节 简单相关分析
四、简单相关系数
2、统计量r显著性检验
第一步:作统计假设 H 0 : 0 H A : 0
第二步:计算统计量r,根据df =n-2,查相关
系数显著性检验表,从而获得r0.05和r0.01 。
第三步:作统计推断 1、|r|<r0.05 推断相关不显著; 2、r0.05<=|r|<r0.01 推断相关达显著; 3、|r| >= r0.01 推断相关达极显著。
观察值
平均数
平方之和
第一组 x1 y1

学习使用SAS进行数据分析和预测建模

学习使用SAS进行数据分析和预测建模

学习使用SAS进行数据分析和预测建模1. 引言SAS(Statistical Analysis System)是一种广泛应用的数据分析和预测建模工具,其强大的统计分析功能和用户友好的界面使其成为许多领域从业人员首选的分析工具之一。

本文将介绍如何学习使用SAS进行数据分析和预测建模。

2. SAS基础知识在正式开始学习SAS之前,我们需要了解一些SAS的基础知识。

SAS由多个组件组成,其中最常用的是Base SAS和SAS Enterprise Guide。

Base SAS是SAS的核心组件,提供了各种数据处理和分析功能;而SAS Enterprise Guide是一个集成开发环境,可以帮助用户更方便地进行数据分析和建模。

3. 数据准备在进行数据分析和建模之前,我们首先需要准备待分析的数据。

SAS可以处理各种数据格式,包括结构化数据(如数据库表格和Excel文件)和非结构化数据(如文本文件和XML文件)。

我们可以使用SAS的数据导入功能将原始数据导入到SAS中进行分析。

4. 数据探索和可视化在进行数据分析之前,我们通常需要对数据进行探索和可视化。

SAS提供了各种数据探索和可视化的功能,可以帮助我们更好地理解数据的特征和关系。

我们可以使用SAS进行数据摘要统计、频率分析、散点图绘制等操作,以及使用SAS的图形界面设计工具生成各种数据可视化图表。

5. 数据清洗和变换在进行数据分析和建模之前,我们通常需要对数据进行清洗和变换。

SAS提供了各种数据清洗和变换的功能,可以帮助我们处理数据中的缺失值、异常值和重复值,并进行数据格式转换和特征衍生等操作。

我们可以使用SAS的数据步骤和SQL语句对数据进行清洗和变换。

6. 统计分析统计分析是数据分析的核心内容之一。

SAS提供了丰富的统计分析功能,包括描述统计分析、假设检验、方差分析、回归分析等。

我们可以利用SAS进行统计分析,并通过输出结果进行解释和结论推断。

7. 预测建模预测建模是数据分析的另一个重要内容。

如何使用SAS进行数据分析和建模的教程

如何使用SAS进行数据分析和建模的教程

如何使用SAS进行数据分析和建模的教程一、SAS的简介及基本操作SAS(Statistical Analysis System)是一款强大的统计分析软件,被广泛应用于各个领域的数据分析和建模中。

下面将介绍SAS的简单操作流程。

1. 安装和启动SAS:根据官方指南,下载并安装SAS软件。

启动SAS后,会出现主界面,包括编辑窗口和日志窗口。

2. 导入数据:点击编辑窗口中的“Import Data”按钮,选择要导入的数据文件,并按照提示完成导入过程。

导入的数据可以是CSV、Excel等格式。

3. 数据探索:通过使用SAS的数据探索功能,可以查看数据的基本信息,如变量名、数据类型等。

点击编辑窗口中的“Explore Data”按钮,选择导入的数据文件,即可查看数据的摘要统计信息。

二、数据预处理在进行数据分析和建模之前,需要对原始数据进行预处理,以确保数据的质量和完整性。

1. 缺失值处理:SAS提供了多种处理缺失值的方法,如删除含有缺失值的观测样本、插补缺失值等。

通过使用SAS的函数和命令,可以快速处理数据中的缺失值。

2. 异常值处理:SAS可以通过绘制箱线图、散点图等图形,来检测和处理数据中的异常值。

针对异常值,可以选择删除、替换或者离群点处理。

3. 数据标准化:标准化数据可以使得不同变量之间具有可比性,常用的方法包括Z-score标准化、最大-最小标准化等。

在SAS中,可以使用相应的函数和过程来进行数据标准化。

三、探索性数据分析(EDA)探索性数据分析是数据分析的关键步骤之一,它旨在通过可视化和统计方法,了解数据的分布和关系,为后续建模做准备。

1. 描述性统计:使用SAS的summary、means等函数,可以计算数据的均值、方差、中位数等统计量,从而对数据进行初步的描述。

2. 可视化分析:SAS提供了多种绘图函数,如histogram、scatter plot等,可以绘制直方图、散点图等图形,来展示变量之间的关系和分布情况。

2021年sas分析方法笔记

2021年sas分析方法笔记
Procprintdata=sasuser.score;//数据库.数据集
Run;
Procprintdata=sasuser.score;
VarnamemathChinese;//变量
Run;
Procprintdata=sasuser.scorenoobs;//去掉第一列(观测序号)
VarnamemathChinese;
Run;
gcontour过程:画出曲面等高线
Procgcontourdata=数据集名;
Plotx*y=z;
Run;
4.基本记录分析
4.1正态性检查:univariate过程
Procunivariatedata=sasuser.stocknormal;
Vareps;
Run;
Procunivariatedata=sasuser.stocknormal;
SymbolI=nonev=star;
PlotEnglish*Chinese;
Run;
3.9gchart过程:绘制直方图、饼图、三维直方图等。
Procgchartdata=数据集名称;
Vbar/pie/block=变量;
Run;
3.10G3D过程绘制三维曲面
Procg3ddata=数据集;
Plot变量x*变量y=变量z;
Run;
Procprintdata=sasuser.score;//使用by分组输出前用sort排序
Bysex;
Run;
Procprintdata=sasuser.score;
Summath;
Run;
3.2tabulate过程
Proctabulatedata=数据集名称;
Class分类变量;
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

21. 相关分析相关分析和回归分析是研究变量与变量间相互关系的重要方法。

相关分析是研究两个或两组变量之间的线性相关情况,回归分析是拟合出变量间的表达式关系。

(一)Pearson直线相关一、适用于两个变量均为服从正态分布,每对数据对应的点在直角坐标系中(即散点图)呈现直线趋势。

做相关分析时,要注意剔除异常值;相关关系不一定是因果关系。

二、用相关系数r∈[-1,1]来表示相关程度的大小:r>0: 正相关;r<0: 负相关;r=0: 不相关;r=1: 完全正相关;r=-1: 完全负相关。

相关程度的判断标准:看相关系数的平方r2,若r2<0.5,结果无实际价值。

注:相关系数只是刻画直线相关(Y=X2相关系数≠1)。

三、假设检验1. H0: 总体相关系数ρ=0;H1: ρ≠0;计算r值,P值,若P值≤α,则在显著水平α下拒绝H0;2. 若H0成立,从ρ=0的总体中抽样,所得到的样本相关系数r 呈对称分布(近似正态分布),此时可用t 检验。

3. 必要时对相关系数做区间估计从相关系数ρ≠0的总体中抽样,样本相关系数的分布是偏态的。

用Z变换后,服从某种正态分布,估计z,再变换回r.(二)Spearman等级相关,也称Spearman秩相关对于不符合正态分布的资料,不用原始数据计算相关系数,而是将原始观察值由小到大编秩,然后根据秩次来计算秩相关系数r s, 以此来说明两个变量间相关关系的密切程度。

适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反映大小等定出的等级资料;也适用于某些不呈正态分布或难于判断分布的资料。

关于编秩将各X i由小到大编秩得R Xi(1,…n),当遇到相等的值时要用平均秩,例如X2=X4,按编秩为3和4,应该取平均秩R x2=R x4=(3+4)/2=3.5假设检验H0: 总体相关系数ρs=0;H1: ρs≠0;计算r值,P值,若P值≤α,则在显著水平α下拒绝H0;另外,Kendall等级相关系数τ∈[-1,1],也可以对两个变量作等级相关分析,而且可对多个变量作等级相关分析。

(三)典型相关分析实际问题中经常遇到研究两组变量间的线性相关情况,例如,考察q个质量指标与p个原材料指标之间的内在联系和相关关系,这就需要用到典型相关分析。

其思想类似于主成分分析(降维思想),分别找出两组变量的一对线性组合V和V的相互关系,既可以使变量个数简化,又可以达到分析相关性的目的。

如果一对线性组合不够,可以继续找下一对线性组合之间的关系,直到找不到相关变量对时为止。

至于选取多少对典型相关可通过检验来确定。

注:(1)第一对典型相关含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减,各对典型相关所含的信息互不重复;(2)经标准化的两组变量间的典型相关系数与原始的两组变量间的相应典型相关系数是相同的;(3)每个典型变量除在另一组里与其配对的那个典型变量外,它同所有其他典型变量变量均不相关;(4)第一对典型相关的大小至少同任一变量与对应的那组变量间的多重相关一样大。

假设检验:1. 整体检验H0: ρ1=…=ρr=0; H1: ρ1, …,ρr中至少ρ1≠0;检验的统计量||=||||xx yySS SΛ,若小,则拒绝H0, 接受H1.在原假设为真的情况下,检验的统计量Q1(公式略),近似服从自由度为pq的χ2分布。

在给定的显著性水平α下,若χ2≥χ2 (pq),则拒绝原假设,认为至少第一对典型变量之间的相关性显著。

再检验下一对典型变量之间的相关性。

直至相关性不显著为止。

我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。

H0经检验被拒绝,则应进一步做下面的检验假设:2. 部分检验H0: ρ2=…=ρr=0; H l: ρ2,…,ρr至少有一个不为零;若原假设H0被接受,则认为只有第一对典型变量是有用的;若原假设H0被拒绝,则认为第二对典型变量也是有用的,并进一步检验假设:H0: ρ3=…=ρr=0; H1: ρ3,…,ρr至少有一个不为零;依次进行下去,直到对某个k,H0: ρk十1=…=ρr=0; H1: ρk十1, …,ρr至少有一个不为零。

检验的统计量Q(公式略),近似服从自由度为(p-k)(q-k)的χ2分布。

在给定的显著性水平α下,如果χ2≥χ2 [(p-k)(q-k)],则拒绝原假设,认为至少第k+1对典型变量之间的相关性显著。

(四)PROC CORR过程步SAS提供的相关分析过程步是PROC CORR,可以计算:Pearson 相关系数、Spearman等级相关系数、Kendall’s tau-b统计量、Hoeffding’s 独立性分析统计量D。

此外,还可以计算偏相关系数(固定其它变量,看两个变量的相关性)等。

基本语法:PROC CORR data = 数据集<options>;V AR variable-list;WITH variable-list;<PARTIAL variable-list;>说明:(1)默认计算Pearson相关系数,并进行显著性检验,以及计算简单统计量;若要计算Spearman等级相关系数,需要加上可选参数“SPEARMAN”:PROC CORR data = dataset SPEARMAN;其它还有“HOEFFDING”计算Hoeffding's D 统计量,“KENDALL”计算Kendall's tau-b系数;(2)V AR和WITH语句指定要做相关分析的变量,其中VAR 变量是自变量,WITH变量是因变量;(3)PARTIAL语句指定偏变量(视为常数),做偏相关分析。

绘制相关性图形:PROC CORR过程步默认没有图形输出,可以加上绘图选项绘制散点图和矩阵图。

基本语法:PROC CORR data = 数据集PLOTS = (图形类型);可选图形类型有:SCATTER——散点图,默认会加上置信椭圆;MATRIX——所有变量的散点图矩阵;注:(1)若不加置信椭圆用“ELLIPSE = NONE”,若要对散点图加上均值的置信椭圆:PROC CORR data= dataset PLOTS = SCATTER(ELLIPSE = CONFIDENCE);(2)若没有WITH语句,MATRIX选项将绘制各变量两两组合的对称散点矩阵图;默认对角线位置是空图,可以加上参数HISTOGRAM绘制直方图:PROC CORR data = dataset PLOTS = MATRIX(HISTOGRAM);注:默认只输出5个变量,若更多变量使用PLOTS = MATRIX(nvar=all)例1(Pearson直线相关)某班学生考试成绩的数据(C:\MyRawData\Exercise.dat),变量包括考试成绩、考前一周看电视的时间和做练习的时间:读入数据,用PROC CORR过程步做相关性分析。

代码:data class;infile'c:\MyRawData\Exercise.dat';input Score Television Exercise @@;run;proc corr data = class;var Television Exercise;with Score;title'Correlations for Test Scores';title2'With Hours of Television and Exercise';run;运行结果:程序说明:从Pearson相关系数的表格可知,看电视时间与考试成绩是负相关,相关系数为-0.55390,P值=0.0015 < α=0.05,说明两变量有相关关系,其结果具有统计学意义;做练习的时间与考试成绩是正相关,相关系数为0.79733,P值<.0001 < α=0.05,说明两变量有很大的相关关系,其结果具有统计学意义。

例2 (Spearman秩相关)某销售公司想要知道,职工入职时的能力评级是否实际销售成绩一致?为了调查这个问题,公司副总裁根据10个职工的初始面试摘要、学科成绩、推荐信等材料给出了职工入职时的能力评级;根据2年后他们的实际销售成绩,得到了第二份等级评分:注:“1”表示能力最强。

代码:data persons;input abilities performance;performance=400-performance;datalines;2 4004 3607 3001 2956 2803 35010 2009 2608 2205 385;proc corr data=persons spearman;var abilities;with performance;title'Correlations for Performance';title2'With Abilitiess of Employment';run;运行结果:程序说明:(1)销售成绩数值越大则销售能力越强(等级分越小),所以用最大销售值400-performance做一下颠倒;(2)Spearman等级相关系数为0.73333(有较大的相关性),P 值=0.0158<α=0.05,说明其结果具有统计学意义。

例3某康复俱乐部对20名中年人测量了三项生理指标:体重(weight)、腰围(waist)、脉搏(pulse),以及三项训练指标:引体向上(chins)、起坐次数(situps)、跳跃次数(jumps)。

其数据列表如下,试分析这两组变量间的相关性。

代码:data fit ;input weight waist pulse chins situps jumps;datalines;191 36 50 5 162 60189 37 52 2 110 60193 38 58 12 101 101162 35 62 12 105 37189 35 46 13 155 58182 36 56 4 101 42211 38 56 8 101 38167 34 60 6 125 40176 31 74 15 200 40154 33 56 17 251 250169 34 50 17 120 38166 33 52 13 210 115154 34 64 14 215 105247 46 50 1 50 50193 36 46 6 70 31202 37 62 12 210 120176 37 54 4 60 25157 32 52 11 230 80156 33 54 15 225 73138 33 68 2 110 43;run;proc cancorr data=fit allvprefix=PHYS vname='PhysiologicalMeasurements'wprefix=EXER wname='Exercises';var weight waist pulse;with chins situps jumps;run;运行结果及结果说明:两组变量各有3个指标变量,共20条观测;列出了各个变量的均值和标准差。

相关文档
最新文档