第八章-聚类分析
8聚类分析

sf 1 n (| x1 f m f | | x2 f m f | ... | xnf m f |)
– 其中
mf 1 n (x1 f x2 f
...
xnf )
.
– 计算标准化的度量值(z-score)
xif m f zif sf
– 使用平均的绝对偏差往往比使用标准差更具有健壮性
• 市场营销:帮市场分析人员从客户基本库中发现 不同的客户群,从而可以对不同的客户群采用不 同的营销策略 • 土地使用:在地球监测数据库中,发现相同的土 地使用区域 • 保险业:发现汽车保险中索赔率较高的客户群 • 城市规划:根据房子的类型、价值和地理位置对 其进行分组 • 地震研究:将观测到的震中点沿板块断裂带进行 聚类,得出地震高危区
• • • • • • • • • 可伸缩性 处理不同数据类型的能力 发现任意形状的能力 用于决定输入参数的领域知识最小化 处理噪声数据的能力 对于输入数据的顺序不敏感 高维度 基于约束的聚类 可解释性和可用性
聚类分析中的数据类型
• 许多基于内存的聚类 算法采用以下两种数 据结构
– 数据矩阵:用p个变 量来表示n个对象
聚类分析
什么是聚类分析?
• 聚类(簇):数据对象的集合
– 在同一个聚类(簇)中的对象彼此相似 – 不同簇中的对象则相异
• 聚类分析
– 将物理或抽象对象的集合分组成为由类似的对象组成 的多个类的过程
• 聚类是一种无指导的学习:没有预定义的类编号 • 聚类分析的数据挖掘功能
– 作为一个独立的工具来获得数据分布的情况 – 作为其他算法(如:特征和分类)的预处理步骤
– 区间标度变量 – 二元变量 – 标称型、序数型和比例标度型变量 – 混合类型的变量
SPSS课件第八章 聚类分析与判别分析

编辑课件ppt
3
(一)样品聚类
样品聚类在统计学中又称为Q型聚类。用 SPSS的术语来说就是对事件(Cases)进行 聚类,或是说对观测量进行聚类。是根据 被观测的对象的各种特征,即反映被观测 对象的特征的各变量值进行分类。
编辑课件ppt
Specified range of clusters 某一指定范围的冰状图
None 不显示冰状图
Orientation冰状图的方位编辑课件ppt
25
Method(确定聚类方法)
Between-group linkage:组间 连接
Winthin-group linkage:组内连 接法
编辑课件ppt
22
Cluster Variable:要进行变量聚类 Case:要进行观测量聚类 Display Statisyics显示统计量 Plot显示树状图或冰柱图
编辑课件ppt
23
statistics
Agglomeration schedule 凝聚顺序表;
Proximity maxtrix输出距 离矩阵
编辑课件ppt
16
(2)标准化
如果参与聚类的变量的量纲不同会导致错 误的聚类结果。因此在聚类过程进行之前 必须对变量值进行标准化,即消除量纲的 影响。如果参与聚类的变量纲相同,可以 使用系统默认值None,要求SPSS对数据 不要进行标准化处理。
编辑课件ppt
17
(3)树形图
树形图表明每一步中被合并的类及其系数 值,把各类之间的距离转换成1~25之间 的数值。
聚类的方法有多种,除了前面介绍的快速 聚类法外,最常用的是分层聚类法。根据 聚类过程不同又分为凝聚法和分解法。
聚类分析_精品文档

1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。
第八章聚类分析

第一节 聚类分析概述
三、聚类分析注意事项
1、所选择的变量应符合聚类的要求 2、各变量的变量值不应有数量级上的差异 3、各变量之间不应有较强的线性相关关系
第二节 层次聚类
层次聚类,又称为系统聚类、分层聚 类,即聚类过程具有一定的层次性。
第二节 层次聚类
一、层次聚类的两种类型和两种方式
1、两种类型
姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4
张三 男 1 0 1
0
0
0
李四 女 1 0 1
0
1
0
王五 男 1 1 0
0
0
0
d(张,李 三) 四 01 0.33 d(张,王 三)五 11 0.67
201
101
d(李,王 四)五 1 1 1 220.75结似论的:病张; 三李和四李和四王最五有不可太能可得能类
编号 购物环境 服务质量
A
73
68
B
66
69
C
84
82
D
91
88
E
94
90
两类:(A B)、(C D E) 三类:(A B)、(C)、(D E)
第一节 聚类分析概述
二、亲疏程度的度量方法
➢ 相似性:数据间相似程度的度量。 ➢ 距离: 数据间差异程度的度量。距离越近,越
“亲密”,聚成一类;距离越远,越“疏远”,分别 属于不同的类。
第二节 层次聚类
• 以分解的方式聚类 – 首先,所有个体都属于一类 – 其次,将大类中最“疏远”的小类或个体分离出去 – 然后,分别将小类中最“疏远”的小类或个体再分离出去 – 重复上述过程,即:把类分解成越来越小的小类,直到所 有的个体自成一类为止 – 可见,随着聚类的进行,类内的亲密性在逐渐增强
SPSS统计分析第八章聚类分析与判别分析

SPSS统计分析第八章聚类分析与判别分析聚类分析与判别分析是SPSS统计分析中非常重要的两个方法。
聚类分析是寻找数据之间的相似性,将相似的数据划分为一个簇,从而实现对数据的归类和分组。
判别分析则是寻找数据之间的差异性,帮助我们理解不同因素对于数据的影响程度,从而实现对数据的分类预测。
首先,我们来介绍聚类分析。
聚类分析是根据数据之间的相似性进行归类的一种方法,通过度量数据之间的相似性,将相似的数据归为一类。
它在寻找数据内在组织结构和特点上具有很大的作用。
在SPSS中进行聚类分析的步骤如下:1.载入数据集:在SPSS软件中,选择"文件"->"打开"->"数据",选择需要进行聚类分析的数据集。
2.选择聚类变量:在"分析"->"分类"->"聚类"中,选择需要进行聚类分析的变量。
可以选择一个或多个变量作为聚类变量,决定了聚类的维度。
3.设置聚类参数:在设置参数的对话框中,可以选择使用不同的距离测度和聚类算法。
距离测度可以选择欧氏距离、曼哈顿距离、切比雪夫距离等,而聚类算法可以选择层次聚类、K均值聚类等。
根据具体的数据特点,选择合适的参数。
4.进行聚类分析:点击"确定"按钮,SPSS会自动进行聚类分析,并生成聚类的结果。
聚类结果可以通过树状图、散点图等形式展示,便于我们对数据的理解和分析。
接下来,我们来介绍判别分析。
判别分析是一种通过建立数学模型,根据不同的预测变量对数据进行分类和预测的方法。
判别分析可以帮助我们理解不同因素对于数据分类的重要性,从而进行有针对性的分析和预测。
在SPSS中进行判别分析的步骤如下:1.载入数据集:同样,在SPSS软件中,选择"文件"->"打开"->"数据",选择需要进行判别分析的数据集。
第八章-聚类分析

非恒定的相似度
➢ 如果一个二值变量的两个取值的重要性不同等重要,则该
二元变量就是不对称的。
▪ 如一个疾病disease的测试结果positive或negative,显然这两 个测试结果的重要性是不一样的:
➢ 通常将比较重要的输出结果,编码为1;而将另一结果编码 为0.
➢ 基于这样的二元变量的相似度被称为非恒定的相似度.
7
7.1 什么是聚类分析
聚类(Clustering):
根据“物以类聚”的道理,对样品和指标进行分类的一种 多元统计分析方法; 聚类分析中“类”的特征:
➢ 聚类所说的类不是事先给定的,而是根据数据的相 似性和距离来划分;
➢ 聚类的数目和结构都没有事先假定。
9
聚类准则对聚类结果的影响
羊,狗,猫, 鲨鱼
蜥蜴,蛇, 麻雀,海鸥, 金鱼,青蛙
金鱼, 鲨鱼
羊,狗,猫,蜥蜴, 蛇,麻雀,海鸥, 青蛙
(a)繁衍后代的方式
羊,狗,猫,
金鱼,
蜥蜴,蛇,麻雀, 鲨鱼
海鸥,
青蛙
(c) 生存环境
(b) 肺的存在
蜥蜴,蛇,麻 雀,海鸥, 青蛙
金鱼
羊,狗, 猫,
鲨鱼
(d)繁衍后代的方式和是否存在肺
距离测度对聚类结果的影响
年龄 收入 家庭人口数
甲
30
3000
1
乙
40
3200
3
d ( 3 4 0 )2 0 ( 30 30 ) 2 2 0 ( 1 0 3 )2 0
示例:
另外,明氏距离的数值与指标的量纲有关。如,二维样本 (身高、体重),有三个样本:
a(180,50); b(190,50); c(180,60) 则a与b之间的明氏距离(欧氏距离、切比雪夫距离)等 于a与c之间的距离 ❖但问题是,身高的10cm真的等价于体重的10kg吗? ❖因此,明氏距离无法消除量纲的影响,在衡量这类样本 的相似度时容易出现问题。
聚类分析(共8张PPT)

聚类分析
三、聚类分析中的测度与标准化
在聚类分析技术的发展过程中,形成了很多种测度相似性的方法。每一种方法 都从不同的角度测度了研究对象的相似性。
在数据采集过程中,一般可以用三种方式采集数据:二分类型数据、等级类型 数据和连续类型数据。在进行聚类分析时可以根据不同的数据特点采用相应的测度 方法。
尽量避免绝对数据。
研究个案 A B C
受教育年限 10 16 6
年收入(万元) 2
1.5 1
年收入(元) 20000 15000 10000
A、B、C在不同距离单位时的距离图
A
B
B
10.01
C
A
10000
C
单位:万元
第6页,共8页。
单位:元
聚类分析
四、常用两种聚类分析方法
1.快速聚类法
快速聚类过程是初始分类的有效方法。适用于大容量样本的情形,由用户指定须聚类的 类数之后,系统采用标准迭代算法进行运算,把所有的个案归并在不同的类中。
m维空间中点与点之间的某种距离就可用来描述样品之间的亲疏程度。 而聚类分析则较常使用于将变量属性相似程度较高的观察值,加以分类,使类与类间的异质性达到最大,而同一类的几个观察值同质性很高。 ③对数据进行变换处理,(如标准化或规格化);
mm维维空 空间间中中点点与与点点实之之际间间的的应某某用种种距距时离离,就就可可两用用者来来描描的述述主样样品品要之之差间间的的别亲亲在疏疏程程于度度因。。子分析是针对“变量”予以分组,而聚类分析 按照这种方则法是不断将进“行合观并察,直值到个把所体有”的样予品以合为分一组个,大类亦为即止。因子分析时,根据因变量(题项)间关系密切与 四⑦、最常 后用绘两制否种系,聚统类聚将分类变析谱方系量法图予,按以不分同的类分(类标分准为或不几同个的层分类面原因则,子得)出不;同而的分聚类类结果分。析则较常使用于将变量属性相似 从数据结构程和度统计较形高式上的看观,因察子值分析,是加一种以“横分向类合并,”的使方类法,与聚类类分间析的则是异一质种“性纵向达合到并”最的方大法,。 而同一类的几个观察值 适每用一于 种大方容法同量都质样从本不性的同很情的形角高,度。由测用度户了指研定究须对聚象类的的相类似数性之。后,系统采用标准迭代算法进行运算,把所有的个案归并在不同的类中。 研究学生学业差异、因教师素教分学水析平:等等横,向都需简要化对研,究聚对象类进分行分析类:。纵向分组
聚类分析详解ppt课件

以上我们对例6.3.1采用了多种系统聚类法进行聚类,其结果 都是相同的,原因是该例只有很少几个样品,此时聚类的过 程不易有什么变化。一般来说,只要聚类的样品数目不是太 少,各种聚类方法所产生的聚类结果一般是不同的,甚至会 有大的差异。从下面例子中可以看到这一点。
动态聚类法(快速聚类)
(4) 对D1 重复上述对D0 的两步得 D2,如此下去 直至所有元素合并成一类为止。
如果某一步Dm中最小的元素不止一个,则称此现 象为结(tie),对应这些最小元素的类可以任选一对 合并或同时合并。
27
二、最长距离法
类与类之间的距离定义为两类最远样品间的距离, 即
DKL
max
iGK , jGL
聚类分析应注意的问题
(1)所选择的变量应符合聚类的要求
如果希望依照学校的科研情况对高校进行分类,那么可以 选择参加科研的人数、年投入经费、立项课题数、支出经 费、科研成果数、获奖数等变量,而不应选择诸如在校学 生人数、校园面积、年用水量等变量。因为它们不符合聚 类的要求,分类的结果也就无法真实地反映科研分类的情 况。
主要内容
引言 聚类分析原理 聚类分析的种类 聚类分析应注意的问题 聚类分析应用 聚类分析工具及案例分析
聚类分析的种类
(1)系统聚类法(也叫分层聚类或层次聚类) (2)动态聚类法(也叫快速聚类) (3)模糊聚类法 (4)图论聚类法
系统聚类法
对比
常用的系统聚类方法
一、最短距离法 二、最长距离法 三、中间距离法 四、类平均法 五、重心法 六、离差平方和法(Ward方法)
对比
k均值法的基本步骤
(1)选择k个样品作为初始凝聚点,或者将所有样品分成k 个初始类,然后将这k个类的重心(均值)作为初始凝聚点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析
什么是自然分组结构? 看一下的例子: 现有16张扑克牌,问如何将它们进行分组?
聚类分析
按照花色是否相同: ❖ 分成四组; ❖ 组与组之间花色相异。
聚类分析
按照符号是否相同: ❖ 分成四组; ❖ 符号相同的牌为一组。
聚类分析
按照颜色是否相同: ❖ 分成两组; ❖ 颜色相同的牌为一组。
聚类分析
➢一个连续的顺序变量,值的相对位置要比它的实际数值有意 义的多,如某个比赛的相对排名(金牌、银牌和铜牌)可能比 实际得分更重要。
有序尺度变量
有序尺度变量的处理与间隔尺度变量非常类似,假设f是用于描 述n个对象的一组顺序变量之一,关于f的距离计算如下:
接下来就可以用间隔尺度变量中所描述的任意一组距离度量方 法进行计算相异度。
恒定的相似度
➢如果一个二值变量取0或1所表示的内容同等价值,且有相同
的权重,则该二元变量是对称的。如,属性“性别”,有两个
值“女性”和“男性”,两个取值都没有优先权 。
➢基于对称二元变量的相似度,称为恒定的相似度。
➢对恒定相似度而言,评价对象i和j间相异度的最著名的方式
是简单匹配系数:
q表示在对象i和对象j中均取1的二值变量个数; r表示在对象i取1但对象 j中取0的二值变量个数; s表示在对象i中取0而在对象j中取1的二值变量 个数; t则表示在对象i和对象j中均取0的二值变量个数。
蜥蜴,蛇, 麻雀,海鸥, 金鱼,青蛙
金鱼, 鲨鱼
羊பைடு நூலகம்狗,猫,蜥蜴, 蛇,麻雀,海鸥, 青蛙
(a)繁衍后代的方式
羊,狗,猫,
金鱼,
蜥蜴,蛇,麻雀, 鲨鱼
海鸥,
青蛙
(c) 生存环境
(b) 肺的存在
蜥蜴,蛇,麻 雀,海鸥, 青蛙
金鱼
羊,狗, 猫,
鲨鱼
(d)繁衍后代的方式和是否存在肺
距离测度对聚类结果的影响
测量点与点之间的距离,距离较近的归为一类,距离 较远的点应属于不同的类。
样本资料矩阵
设: X i (x i1 ,x i2 , ,x i) p i 1 ,2 , ,n
样本资料矩阵
X1 x11 x12 x1p
X
X2
x21
x22
x2
p
Xn
xn1
xn2
xnp
定义距离的准则
定义第i个和第j个样本间的距离要求满足如下四个条 件(距离可以自己定义,只要满足距离的条件):
➢常用的距离有:只适用于度量数值型变量(间隔尺度变量) 明可夫斯基距离(包括欧氏距离、切比雪夫距离、曼哈顿距 离); 马氏距离; 其他距离。
2)R型聚类:对变量进行聚类(列聚类);
❖用变量之间的相似系数来度量距离。
一、Q型聚类(对样本聚类)
距离的意义
距离:
❖ 测度样本之间的亲疏程度; ❖ 将每一个样本看作p 维空间的一个点,并用某种度量
年龄 收入 家庭人口数
甲
30
3000
1
乙
40
3200
3
d(3 0 4)2 0 (30 3 02 )0 2 0 (1 0 3 )2
示例:
另外,明氏距离的数值与指标的量纲有关。如,二维样本 (身高、体重),有三个样本:
a(180,50); b(190,50); c(180,60) 则a与b之间的明氏距离(欧氏距离、切比雪夫距离)等 于a与c之间的距离 ❖但问题是,身高的10cm真的等价于体重的10kg吗? ❖因此,明氏距离无法消除量纲的影响,在衡量这类样本 的相似度时容易出现问题。
准差越小,数值越集中。
(2)计算标准化测量(z-score):
x* ij
xij x j Sj
( i 1 , 2 , 3 , ,n ;j 1 , 2 , 3 , ,p )
度量值的标准化
❖ 经过标准化变换处理后,每个变量的平均值为 0,方差为1,且也不再具有量纲,这便于不同 变量之间的比较。
❖ 接下来就可以用前面所描述的任意一组距离 度量方法进行计算相异度。
数据的粗聚类是两类,细聚类为4类
聚类分析无处不在
挖掘有价值的客户,并制定相应的促销策略:
如,对经常购买酸奶的客户; 对累计消费达到12个月的老客户。
针对潜在客户派发广告,比在大街上乱发传单命中率更高, 成本更低。
聚类分析无处不在
谁是银行卡的黄金客户?:
利用储蓄额、刷卡消费金额、诚信度等变量对客户分类, 找出“黄金客户”!; 这样银行可以: 制定更吸引客户的服务,留住客户,如:
3、名义尺度变量 (符号变量)
名义尺度变量
名义尺度变量(符号变量):
➢ 二元变量:只有两个状态:0或者1。其中0代表变量所表示 的状态不存在;1则代表相应的状态存在。
▪ 如:电路的开和关,天气的有雨和无雨,人口性别的男和女,医 疗诊断中的“十”和“一”,市场交易中的买和卖等都是此类变 量
➢ 名义变量:是二元变量的推广,可具有多于两个的状态值
度量值的标准化
一种方法是将初始测量值转换为无单位变量。给定一个属性
变量f,可用如下公式对其进行标准化:
(1)计算标准差
Sj n11i n1(xijxj)2
,而 xj1 n(1xjx2j...xn)j.
标准差描述的是变量的各个取值到均值的距离之平均,反映
的是数值分布的离散度。标准差越大,数值越分散;反之,标
设原始数据为
x11 x12 x1 p
x
21
x22
x
2
p
x
n
1
xn2
x np
令 d ij 表示样品 x i 与 x j 的距离
明氏距离
1
dij
(
p
|
xil
xjl
|k
k
)
l1
第七章:d ( a , b ) x a 1 x b 1 p x a 2 x b 2 p x a x n b p n 1 / p
该例子告诉我们: ❖ 分组的意义在于我们怎样定义并度量“相似性”? ❖ 因此衍生出一系列度量相似性的方法。
7.2 距离和相似系数
聚类分析的原则:
❖同一个组内的数据对象具有较高的相似度; ❖ 而不同组中的数据对象是不相似的。
7.2 距离和相似系数
相似性(Similar)的度量(统计学角度): 1) Q型聚类:对样本进行聚类(行聚类)
,对比例数值变量进行处理,然
后将yif当做区间标度变量来处理。
40
2、有序(ordinal)尺度变量
有序尺度变量
有序尺度变量(顺序变量):
➢一个离散的顺序变量类似于符号变量,但不同的是顺序变量 的M个状态是以有意义的顺序进行排列的。
➢如专业等级是一个顺序变量,是按照助教、讲师、副教授和教授 的顺序排列的。
明氏距离
1
dij
(
p
|
xil
x
jl
|k
k
)
l 1
特别地,
p
当k=1时,即为曼哈顿(绝对值)距离: dij xil x jl l 1
p
当k=2时,即为欧氏距离: dij
(xil x jl )2
l 1
当k=∞时,即为切比雪夫距离:dij
max
1l p
xil
x jl
x1
1 20 2 18 3 10 44 54
示例:
➢ 另外,即使是同一个变量,选用的度量单位的不同,也 将直接影响聚类分析的结果:
▪ 如:将高度的度量单位由“米”变为“英尺”,或将重量的 单位由“千克”变为“英镑”,可能会产生非常不同的聚类
结构。 ➢ 一般,度量单位越小,变量可能的值域越大,对聚类结
果的影响也越大。因此,为避免对度量单位选择的依赖, 数据应当标准化。
聚类分析无处不在
生物学领域:
推导植物和动物的分类; 对基因分类,获得对种群的认识; 。。。。。。
数据挖掘领域:
作为其他数学算法的预处理步骤,获得数据分布状况,集 中对特定的类做进一步研究。
聚类分析
聚类分析的目的是寻找数据中:
潜在的自然分组结构 (structure of natural grouping)。 感兴趣的关系 relationship
▪ 如颜色变量(红、橙、黄、绿、蓝等)。
1)二元变量的相异度计算
差异矩阵法:
如果假设所有的二元变量有相同的权重,则可以得到一个两 行两列(2*2)的条件表。
二元变量的相异度计算
其中: ➢ q表示在对象i和对象j中均取1的二值变量个数; ➢ r表示在对象i取1但对象j中取0的二值变量个数; ➢ s表示在对象i中取0而在对象j中取1的二值变量个数; ➢ t则表示在对象i和对象j中均取0的二值变量个数。 ➢ 二值变量的总数为p,则:p=q+r+s+t。
组的数目已知,目标是将一个新的对象分派给这些组之一; 有(教师)监督的学习方法;示例式学习。
第7章
聚类分析
第7 章
7.1 什么是聚类分析? 7.2 距离和相似系数 7.3 类的定义和类间距离 7.4 基于划分的聚类方法 7.5 基于层次的聚类方法 7.6 基于密度的聚类方法
学习目的
掌握各种距离的计算方法。 掌握聚类的常用方法。
特例:比例数值变量
比例数值变量(比例标度型变量):
➢一个比例数值变量指在非线性的标度上取正的度量值的变量, 如指数比例:
39
特例:比例数值变量
在计算比例数值变量所描述对象间的距离时,有两种处理方 法:
1)将比例数值变量看作区间标度变量,采用相同的方法处理, 但不佳,因为比例尺度是非线性的;
2)采用对数变换
类。
再如:同学间的交往(家庭情况、性格、学习 成绩、业余爱好等)