SAS中的聚类分析方法总结

合集下载

SAS 聚类分析方法

SAS 聚类分析（描述算法）系统聚类法系统聚类法（Hierarchical clustering method ）是目前使用最多的一种方法。

其基本思想是首先将n 个样品看成n 类（即一类包括一个样品），然后规定样品之间的距离和类与类之间的距离。

将距离最近的两类合并为一个新类，在计算新类和其他类之间的距离，再从中找出最近的两类合并，继续下去，最后所有的样品全在一类。

将上述并类过程画成聚类图，便可以决定分多少类，每类各有什么样品。

系统聚类法的步骤为：①首先各样品自成一类，这样对n 组样品就相当于有n 类；②计算各类间的距离，将其中最近的两类进行合并；③计算新类与其余各类的距离，再将距离最近的两类合并；④重复上述的步骤，直到所有的样品都聚为一类时为止。

下面我们以最短距离法为例来说明系统聚类法的过程。

最短距离法的聚类步骤如下：① 规定样品之间的距离，计算样品的两两距离，距离矩阵记为()0S ，开始视每个样品分别为一类，这时显然应有pq d q p D =),(；② 选择距离矩阵()0S 中的最小元素，不失一般性，记其为),(q p D ，则将p G 与q G 合并为一新类，记为m G ，有q p m G G G ⋃=；③ 计算新类m G 与其他各类的距离，得到新的距离矩阵记为()1S ；④ 对()1S 重复开始进行第②步，…，直到所有样本成为一类为止。

值得注意的是在整个聚类的过程中，如果在某一步的距离矩阵中最小元素不止一个时，则可以将其同时合并。

● 系统聚类法是最常用的一种聚类方法，常用的系统聚类方法有最短距离法、最长距离法、中间距离法、类平均法、重心法、Ward 最小方差法、密度估计法、两阶段密度估计法、最大似然估计法、相似分析法和可变类平均法。

● 大多数的研究表明：最好综合特性的聚类方法为类平均法或Ward 最小方差法，而最差的则为最短距离法。

Ward 最小方差法倾向于寻找观察数相同的类。

类平均法偏向寻找等方差的类。

非参数聚类分析--SAS

proc modeclus data=l method=6 k=2 test list MAXC=2 NEIGHBOR; var x y; id xx; run;
options noovp ps=28 ls=95; data uniform; drop n; true=1; do n=1 to 100; x=ranuni(123); output; end; axis1 label=(angle=90 rotate=0) minor=none order=(0 to 3 by 0.5); axis2 minor=none; symbol9 v=none i=splines; proc modeclus data=uniform m=1 k=10 20 40 60 out=out short; var x; proc gplot data=out; plot density*x=cluster /frame cframe=ligr vzero nolegend vaxis=axis1 haxis=axis2; plot2 true*x=9/vaxis=axis1 haxis=axis2; by _K_; run; proc modeclus data=uniform m=1 r=.05 .10 .20 .30 out=out short; var x; axis1 label=(angle=90 rotate=0) minor=none order=(0 to 2 by 0.5); proc gplot data=out; plot density*x=cluster /frame cframe=ligr vzero nolegend vaxis=axis1 haxis=axis2;
第一步：找到一些种子，每个种子是一个单独的观测点，在，在这一点的密度估计不小于它的任何相邻点的密度估计。如果规定选项 MAXCLUSTERS=n,则只保留n个密度估计最大的种子。

SAS学习系列35.聚类分析报告

35. 聚类分析（一）概述聚类分析，相当于“物以类聚”，用于对事物的类别面貌尚不清楚，甚至在事前连总共有几类都不能确定的情况下对数据进行分类。

而判别分析，必须事先知道各种判别的类型和数目，并且要有一批来自各判别类型的样本，才能建立判别函数来对未知属性的样本进行判别和归类。

聚类分析是把分类对象按一定规则分成组或类，这些组或类不是事先给定的而是根据数据特征而定的。

在同类的对象在某种意义上倾向于彼此相似，而在不同类里的这些对象倾向于不相似。

根据这种相似性的不同定义，聚类分析也有不同的方法。

聚类分析分为：对样品的聚类，对变量的聚类。

样品聚类：其统计指标是类与类之间距离，把每一个样品看成空间中的一个点，用某种原则规定类与类之间的距离，将距离近的点聚合成一类，距离远的点聚合成另一类。

变量聚类：其统计指标是相似系数，将比较相似的变量归为一类，而把不怎么相似的变量归为另一类，用它可以把变量的亲疏关系直观地表示出来。

（二）原理一、距离和相似系数1. 距离设有n 组样品，每组样品有p 个变量的数据如下：例如，X i 到X j 的闵科夫斯基距离定义为：11||, 1,pqqij ik jkk d x x i j n =⎛⎫=-≤≤ ⎪⎝⎭∑ q=2时为欧几里得距离；还有马氏距离：d ij = (X i -X j )T S -1(X i -X j )其中，X i =(x i1, …, x ip )，S -1为n 个样品的p ×p 的协方差矩阵的逆矩阵。

注：马氏距离考虑了观测变量之间的相关性和变异性（不再受各指标量纲的影响）。

距离选择的基本原则：（1）要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的空间距离概念。

马氏距离有消除量纲影响的作用。

（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。

（3）应根据研究对象的特点不同做出具体分折。

sas聚类分析(SAS)分解

个体与小类、小类与小类间“亲疏程度”的度量方法
SPSS中提供了多种度量个体与小类、小类与小类间“亲疏程度”的方法。与个体间“亲疏程度”的测度方法类似，应首先定义个体与小类、小类与小类的距离。距离小的关系亲密，距离大的关系疏远。这里的距离是在个体间距离的基础上定义的，常见的距离有：
似程度通常可以用简单相关系数或者等级相关系数等；一是个体间的差异程度，通常通过某种距离来测度。
1、定距型变量个体间距离的计算方式
欧式距离（Euclidean distance）
k
(xi yi )2 (73 66)2 (68 64)2 i1
平方欧式距离（Squared Euclidean distance ）切比雪夫（Chebychev）距离
各变量间不应有较强的线性相关关系
学校
参加科研人数
（人）
投入经费（元）
立项课题数（项）
样本的欧氏距离
元
万元
1
410
4380000
19
（1，2） 265000
81.623
2
336
1730000
21
（1，2） 218000
193.7
3
490
220000
8
（1，2）
47000
254.897
层次聚类
1 层次聚类的两种类型和两种方式层次聚类又称系统聚类，简单地讲是指聚类过程
（1）间隔尺度。变量用连续的量来表示，如“ 各种奖金”、“各种津贴”等。
（2）有序尺度。指标用有序的等级来表示，如文化程度分为文盲、小学、中学、中学以上等有次序关系，但没有数量表示。
（3）名义尺度。指标用一些类来表示，这些类之间没有等级关系也没有数量关系，如表中的性别和职业都是名义尺度。

SAS讲义_第三十九课聚类分析

第三十九课聚类分析聚类分析是多元统计分析中研究“物以类聚”的一种方法，用于对事物的类别面貌尚不清楚，甚至在事前连总共有几类都不能确定的情况下进行分类的场合。

聚类分析主要目的是研究事物的分类，而不同于判别分析。

在判别分析中必须事先知道各种判别的类型和数目，并且要有一批来自各判别类型的样本，才能建立判别函数来对未知属性的样本进行判别和归类。

若对一批样品划分的类型和分类的数目事先并不知道，这时对数据的分类就需借助聚类分析方法来解决。

聚类分析把分类对象按一定规则分成组或类，这些组或类不是事先给定的而是根据数据特征而定的。

在一个给定的类里的这些对象在某种意义上倾向于彼此相似，而在不同类里的这些对象倾向于不相似。

关于聚类分析的任何通则必定是含糊的、不明确的，因为在众多的各种不同领域里聚类方法已经发展了，类和对象间的相似性具有不同定义。

各种聚类分析方法通过用于聚类分析的各种各样的领域反映出来。

因此尽管聚类方法有很多种，但不管哪一种都不能说得到的分类是准确的。

下面我们介绍聚类分析中常用的一些方法。

一、距离和相似系数什么是“类”呢？粗略地说，相似物体的集合称作类；聚类分析的目的就是把相似的东西归类。

其次“相似”是什么含意？怎样度量“相似”？我们必须给出度量“相似”的统计指标。

聚类根据实际的需要有两个方向，一是对样品的聚类，一是对变量的聚类。

相应的聚类统计量有两类：一种统计指标是类与类之间距离，它是把每一个样品看成高维空间中的一个点，类与类之间用某种原则规定它们的距离，将距离近的点聚合成一类，距离远的点聚合成另一类。

距离一般用于对样品分类。

另一种是相似系数，根据这个统计指标将比较相似的变量归为一类，而把不怎么相似的变量归为另一类，用它可以把变量的亲疏关系直观地表示出来。

1. 距离设有n 组样品，每组样品有p 个变量，n 组样品数据如表39.1所示：表39.1 p 个变量的n 组样品数据样品号变量1 2 … n 1X 2Xp X11x 21x … 1n x 12x 22x … 2n xp x 1 p x 2 … np x第i 个与第j 个样品之间距离用ij d 表示，ij d 一般应满足下面的条件： 0 ij d 当第i 个样品与第j 个样品相等；● 0≥ij d 对一切i ，j ； ● ji ij d d =对一切i ，j ；● kj ik ij d d d +≤ 对一切对一切i ，j ，k 。

某实验报告材料八-SAS聚类分析报告与判别分析报告

实验报告实验项目名称聚类分析与判别分析所属课程名称统计分析及SAS实现实验类型验证性实验实验日期2016-12-19班级数学与应用数学学号姓名成绩图8.1 聚类谱系图图8.1为proc cluster过程不得出的谱系图，为更方便直观，我们利用proc tree过程步得出图8.2。

②利用proc tree过程步得出聚类谱系图。

过程步：proc tree data=Lmf.tree1 horizontal;id region;run;结果：The TREE ProcedureWard's Minimum Variance Cluster Analysis图8.2 聚类谱系图由表8.2、图8.2得出，分为三类较合适，第一类为北京、天津、上海，第二类为河北、山东、河南、内蒙、江苏、浙江、山西、湖北、四川、福建、江西、湖南、海南、广东、新疆、广西、吉林、黑龙江、辽宁、陕西，第三类为安徽、宁夏、贵州、云南、甘肃、青海、西藏。

【练习8-2】有6个铅弹头，用“中子活化”方法测得7种微量元素含量数据。

表 7种微量元素含量数据Num Ag Al Cu Ca Sb Bi Sn10.05798 5.515347.121.918586174261.6920.08441 3.97347.219.7179472000244030.07217 1.15354.85 3.05238601445949740.1501 1.702307.515.0312290146163805 5.744 2.854229.69.657809912661252060.2130.7058240.313.91898028204135①试用多种系统聚类分析方法对6个铅弹头和7种微量元素进行分类，并进行分类结果。

②试用VARCLUS过程对7中微量元素进行分类。

【解答】①通过比较⑴⑵⑶三种系统聚类的方法类平均法、ward离差平方和法、最长距离法，对6个铅弹头进行分类。

SPSS聚类分析详解

指标地区（样品） 1
2
3
456
性能
9 1 10
928
颜色
827
946
式样
728
357
用分类法对6个样品进行分类，以估计哪些地区最有可能经销这类新产品？
按公式计算两两样品间的相似系数，得相似矩阵
Q (Coij) s(qij)
1
2
3
4
5
6
1 1

2 0.933 1

Q=
3

0.994
2）形成一个由小到大的分析系统。 3）把整个分类系统画成一张分类图
二、聚类统计量
首先定义一些分类统计指标 —— 刻画样或指标之间的相似程度（这些统计指标称为聚类统计量）
在市场研究中，样品 —— 用作分类的事物
指标 —— 用来作为分类依据的变量。（如：年龄、收入、销售量）
（一）相似系数（夹角余弦）
0.47
X4
0.93
X2
0.68
X7
X5
-0.94
0.49
X8
主要城市日照时数
注：连续变量
SPSS提供不同类间距离的测量方法
1、组间连接法 2、组内连接法 3、最近距离法 4、最远距离法 5、重心法 6、中位数法 7、Ward最小偏差平方和法
观测量概述表
聚类步骤，与图结合看！
4、5
输入格式
55列为城市
15位
输出F及t 统计量
平均法重心法最小距离法
输出结果：
新类中的观测值数
观测值之间距离的均方根
类间距离除以观测值间距离均方根得来
类数
指出被合并的类
F、t**2峰值(起伏)越大说明分类显著

聚类分析sas

应聘者 X Y Z 1 28 29 28 2 18 23 18 3 11 22 16 4 21 23 22 5 26 29 26 6 20 23 22 7 16 22 22 8 14 23 24 9 24 29 24 10 22 27 24
data ex;input x y z@@; cards; 28 29 28 18 23 18 11 22 16 21 23 22 26 29 26 20 23 22 16 22 22 14 23 24 24 29 24 22 27 24 ; proc cluster noeigen rsquare out=tree method=single; var x y z; proc tree hor;/*hor表示画纵向谱系，默认横向*/ run;
2011-12-7 6
Single Linkage Cluster Analysis Root-Mean-Square Total-Sample Standard Deviation=2.795085 Mean Distance Between Observations= 5.035943 Number of Frequency of New emipartial R-Squared 0.995429 0.990857 0.971048 0.952762 0.913905 0.318204 0.000000 Normalized Minimum Distance 0.198573 0.198573 0.280824 0.397145 0.397145 0.818736 1.012525
Minimum Distance Between Clusters
2011-12-7
14
动态聚类
聚类的基本格式 Proc Fastclus maxcluster=n radius=t <选项选项 >；； Var 变量名列表变量名列表; Id 变量名变量名; By 变量名变量名; Run; 规定分类的最大个数n 说明 maxcluster=n 规定分类的最大个数 Radius=t 规定下一个凝聚点与现有凝聚点的最小距离，默认为0 小距离，默认为

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

SAS中的聚类分析方法总结（1）——聚类分析概述说起聚类分析，相信很多人并不陌生。

这篇原创博客我想简单说一下我所理解的聚类分析，欢迎各位高手不吝赐教和拍砖。

按照正常的思路，我大概会说如下几个问题：1. 什么是聚类分析？2. 聚类分析有什么用？3. 聚类分析怎么做？下面我将分聚类分析概述、聚类分析算法及sas实现、案例三部分来系统的回答这些问题。

聚类分析概述1. 聚类分析的定义中国有句俗语叫“物以类聚，人以群分”——剔除这句话的贬义色彩。

说白了就是物品根据物品的特征和功用可以分门别类，人和人会根据性格、偏好甚至利益结成不同的群体。

分门别类和结成群体之后，同类（同群）之间的物品（人）的特征尽可能相似，不同类（同群）之间的物品（人）的特征尽可能不同。

这个过程实际上就是聚类分析。

从这个过程我们可以知道如下几点：1) 聚类分析的对象是物（人），说的理论一点就是样本2) 聚类分析是根据物或者人的特征来进行聚集的，这里的特征说的理论一点就是变量。

当然特征选的不一样，聚类的结果也会不一样；3) 聚类分析中评判相似的标准非常关键。

说的理论一点也就是相似性的度量非常关键；4) 聚类分析结果的好坏没有统一的评判标准；2. 聚类分析到底有什么用？1) 说的官腔一点就是为了更好的认识事物和事情，比如我们可以把人按照地域划分为南方人和北方人，你会发现这种分法有时候也蛮有道理。

一般来说南方人习惯吃米饭，北方习惯吃面食；2) 说的实用一点，可以有效对用户进行细分，提供有针对性的产品和服务。

比如银行会将用户分成金卡用户、银卡用户和普通卡用户。

这种分法一方面能很好的节约银行的资源，另外一方面也能很好针对不同的用户实习分级服务，提高彼此的满意度。

再比如移动会开发全球通、神州行和动感地带三个套餐或者品牌，实际就是根据移动用户的行为习惯做了很好的用户细分——聚类分析；3) 上升到理论层面，聚类分析是用户细分里面最为重要的工具，而用户细分则是整个精准营销里面的基础。

精准营销是目前普遍接纳而且被采用的一种营销手段和方式。

3. 聚类分析的流程是怎样的？比较简单的聚类分析往往只根据一个维度来进行，比如讲用户按照付费情况分成高端用户、中端用户和低端用户。

这个只需要根据商业目的统计一下相关数据指定一个高端、中端和低端的分界点标准就可以。

如果是比较复杂的聚类分析，比如移动里面经常会基于用户的多种行为（通话、短信、gprs流失扥等）来对用户进行细分，这个就是比较复杂的用户细分。

如果是这样的细分通常会作为一个比较标准的数据挖掘项目来执行，所以基本上会按照数据挖掘的流程来执行。

具体分如下几步：1) 业务理解主要是了解业务目标和数据挖掘的目标及执行计划2) 数据理解主要是弄清楚可已取哪些变量数据，具体怎么定义3) 数据整理根据之前的定义提取需要的数据，并进行检测异常数据，并对变量进行挑选及探索，比如最终要用那些变量来执行聚类算法、那些变量是离散变量，需要做特殊处理、数据大概可以聚成几类、类别形状有不规则的情形吗？4) 建立模型关键是选用什么样的距离(相似性度量)和算法：l 比如是样本比较小，形状也比较规则，可以选用层次聚类l 比如样本比较大，形状规则，各类的样本量基本相当，可以选用k-means算法l 比如形状规则，但是各类别之间的样本点的密度差异很大，可以选用基于密度的算法5) 模型评估主要是评估聚类分析结果的好坏。

实际上聚类分析在机器学习里面被称之为无监督学习，是没有大家公认的评估方法的。

所以更多会从业务可解释性的角度去评估聚类分析的好坏；6) 模型发布主要是根据聚类分析的结果根据不同的类的特诊去设计不同的产品、服务或者渠道策略，然后去实施营销4. 具体在sas里面如何执行？通过前面的讲解我们已经知道，聚类分析涉及到如下6步，对应着6步SAS都会有相应的过程来执行。

1) 距离的计算：proc distance2) 数据标准化：proc stdize3) 聚类变量的选择：proc varclus4) 初始类别数的选择：proc mds和proc princomp5) 不规则形状的变换：proc aceclus6) 算法的选择：层次聚类-proc cluster 划分型聚类-proc fastclus（k-means）和密度型聚类-proc modeclus7) 类别特征描述：proc means以上四个部分就从是什么、为什么、怎么样三个角度对聚类分析做了简单的介绍。

接下来的帖子我会重点介绍SAS中各种聚类算法的差异、应用范围及实际的案例。

5. 用proc distance做什么？我们知道数据变量分四类：名义变量、次序变量、interval变量和ritio变量。

但sas里面目前的聚类算法都要求变量时ratio变量。

那想要对离散变量进行聚类怎么呢？一种想法自然是讲所有的离散变量都转成0-1变量。

这会有如下几个问题：1) 变量的信息可能会有损失，比如次序型变量转成0-1变量后，次序信息就很难保留；2) 当离散变量的取值非常多时，转成0-1变量后生成的新变量也会非常多，这样也会造成很多处理上的不便；3) 0-1变量也没法做标准化等等一些运算，因为这种运算其实是没有意义的那该如何处理离散变量的聚类呢？答案是用proc distance。

我们知道聚类过程中首先是从计算距离或者相似度开始的。

一个很自然的想法就是针对离散变量定义有意义的距离（对离散变量和连续变量混合类型的数据）。

Proc distance就是用来算这种距离的一个很好的过程。

距离或者相似度可以看成是连续数据，自然就可以用sas里面的聚类算法了。

6. 用proc stdize做什么？前面说过聚类算法首先要算的距离，然后通过距离来执行后续的计算。

在距离计算的过程方差比较大的变量影响会更大，这个通常不是我们希望看到。

所以非常有必要讲参与聚类的变量转换成方差尽量相同。

Proc stdize就能实现这种功能。

Proc stdize不仅提供了将变量转换了均值为0，方差转换为1的标准化，还提供了很多其它类型的标准化。

比如，range标准化（变量减去最小值除以最大值和最小值得差）7. 用proc varclus做什么？在做回归分析的时候，我们知道变量过多会有两个问题：1) 变量过多会影响预测的准确，尤其当无关紧要的变量引入模型之后；2) 变量过多不可避免的会引起变量之前的共线性，这个会影响参数估计的精度聚类分析实际上也存在类似的问题，所以有必要先对变量做降维。

说到降维，马上有人会说这个可以用主成分啊，这个的确没错。

但是主成分的解释性还是有点差。

尤其是第二主成分之后的主成分。

那用什么比较好呢？答案是proc varclus——斜交主成分。

我们常说的主成分实际上正交主成分。

斜交主成分是在正交主成分的基础上再做了一些旋转。

这样得到的主成分不仅能保留主成分的优点（主成分变量相关程度比较低）。

另外一方面又能有很到的解释性，并且能达到对变量聚类的效果。

使同类别里面的变量尽可能相关程度比较高，不同类别里面的变量相关程度尽可能低。

这样根据一定的规则我们就可以在每个类别里面选取一些有代表性的变量，这样既能保证原始的数据信息不致损失太多，也能有效消除共线性。

有效提升聚类分析的精度。

8. 用proc mds 和proc princomp做什么？将原始数据降到两维，通过图形探测整个数据聚类后大致大类别数9. 用proc aceclus做什么？聚类算法尤其是k-means算法要求聚类数据是球形数据。

如果是细长型的数据或者非凸型数据，这些算法的表现就会相当差。

一个很自然的变通想法就是，能不能将非球形数据变换成球形数据呢？答案是可以的。

这就要用到proc aceclus。

10. 标准化对聚类分析到底有什么影响？1) 在讲影响之前先罗列一下proc stdize里面的标准化方法吧2) 标准化对聚类分析的影响从图1中不太容易看清楚标准化对于聚类分析的影响从图2可以清晰的看到标准化对于聚类分析的影响3) 各种标准化方法的比较一个模拟数据的例子，模拟数据有三个类别，每个类别有100个样本。

我们比较了各种标准化方法之后再进行聚类的误判情况，可以大概看出各种标准化方法的差异。

但此例并不能说明以下方法中误分类数小的方法就一定优与误分类数大的方法。

有时候还跟数据本身的分布特征有关。

这个例子也提醒我们有时候我们常用的std和range标准化并不见得是最好的选择。

附：本节相关sas代码就作为回帖吧。

/*********************************************************/ /*1.模拟数据1;测试标准化方法对聚类的影响模拟数据，样本量相同，均值和方差不相同*//*********************************************************/ data compact;keep x y c;n=100;scale=1; mx=0; my=0; c=1;link generate;scale=2; mx=8; my=0; c=2;link generate;scale=3; mx=4; my=8; c=3;link generate;stop;generate:do i=1 to n;x=rannor(1)*scale+mx;y=rannor(1)*scale+my;output;end;return;run;title '模拟数据1';proc gplot data=compact;plot y*x=c;symbol1 c=blue;symbol2 c=black;symbol3 c=red;run;proc stdize data=compact method=stdout=scompacted2;var x y;run;title '标准化后的模拟数据1';proc gplot data=scompacted2;plot y*x=c;symbol1 c=blue;symbol2 c=black;symbol3 c=red;run;/*********************************************************/ /*2.create result table*//*********************************************************/ data result;length method$ 12;length misclassified 8;length chisq 8;stop;run;%let inputs=x y;%let group=c;%macro standardize(dsn=,nc=,method=);title "&method";%if %bquote(%upcase(&method))=NONE %then %do;data temp;set &dsn;run;%end;%else %do;proc stdize data=&dsn method=&method out=temp; var &inputs;run;%end;proc fastclus data=temp maxclusters=&nc least=2 out=clusout noprint;var &inputs;run;proc freq data=clusout;tables &group*cluster / norow nocol nopercent chisq out=freqout;output out=stats chisq;run;data temp sum;set freqout end=eof;by &group;retain members mode c;if first.&group then do;members=0; mode=0;end;members=members+count;if cluster NE . then do;if count > mode then do;mode=count;c=cluster;end;end;if last.&group then do;cum+(members-mode);output temp;end;if eof then output sum;run;proc print data=temp noobs;var &group c members mode cum;run;data result;merge sum (keep=cum) stats;if 0 then modify result;method = "&method";misclassified = cum;chisq = _pchi_;pchisq = p_pchi;output result;run;%mend standardize;%standardize(dsn=compact,nc=3,method=ABW(.5));%standardize(dsn=compact,nc=3,method=AGK(.9));%standardize(dsn=compact,nc=3,method=AHUBER(.5)); %standardize(dsn=compact,nc=3,method=AWAVE(.25)); %standardize(dsn=compact,nc=3,method=EUCLEN);%standardize(dsn=compact,nc=3,method=IQR);%standardize(dsn=compact,nc=3,method=L(1));%standardize(dsn=compact,nc=3,method=L(2));%standardize(dsn=compact,nc=3,method=MAD);%standardize(dsn=compact,nc=3,method=MAXABS);%standardize(dsn=compact,nc=3,method=MEAN);%standardize(dsn=compact,nc=3,method=MEDIAN);%standardize(dsn=compact,nc=3,method=MIDRANGE);%standardize(dsn=compact,nc=3,method=NONE);%standardize(dsn=compact,nc=3,method=RANGE);%standardize(dsn=compact,nc=3,method=SPACING(.3)); %standardize(dsn=compact,nc=3,method=STD);%standardize(dsn=compact,nc=3,method=SUM);%standardize(dsn=compact,nc=3,method=USTD);proc sort data=result;by misclassified;run;title '汇总数据';title2 '聚类判定类别错误样本数排序';proc print data=result;run;。