第十一章 多维标度法

合集下载

多维标度法介绍

多维标度法介绍

A牌 B牌
B牌
1Hale Waihona Puke C牌32▪ 各种品牌的相似次序矩阵是多维标度法的输入 资料。在第四节中我们将介绍几种建立相似次 序矩阵的方法。
多维标度法的基本思想:
▪ 用r维空间(r待定)中的点分别表示各样品,使得各 样品间距离的次序能完全反映原始输入的相似次 序(两样品间的距离越短,则越相似)。通常,要 通过两步来完成。
2.计算初步图形结构中各点之间的距离
▪ 为叙述方便,有时我们将A,B,C三种品牌分 别称为第一、第二、第三品牌。
▪ 用欧氏距离公式计算A品牌和B品牌(第一品牌 和第二品牌)的距离
d12 (10 1)2 (5 - 5)2 9
▪ 同样计算d13,d23,并将它们排成矩阵形式 (dii=dii),这个矩阵称为初步图形结构的距离矩 阵,如表3所示。
第十一章 多维标度法
(Multidimensional Scaling)
第一节 引 言
第一节 引 言
▪ 多维标度法(MDS)是著名计量心理学家谢泼 德(Shephard)和克鲁斯克 (Kruskal)分别于 1962年和1964年发展起来的一种计量心理学 技术。
▪ 多维标度法现在已经广泛应用于心理学、市 场调查、社会学、物理学、政治科学以及生 物学等领域的数据分析方法。
▪ 因此,多维标度法是用间接方法推断出品 牌有关的特性。
▪ 在许多情形中,我们可能不知道那些特性 与品牌有关,或者应答者不能够或不愿意 准确地回答,这时必须采用间接推断的方 法。
▪ 广义的MDS可以将聚类分析和对应分析 (Correspondence Analysis)也包括进 来。
▪ 根据它所利用的信息来看,多维标度法 可以分为两大类:
▪ 多维标度法可以说是上述问题的逆问题, 即给定样品两两之间的距离或相似度的排 序,反求各样品点的坐标。

第10章多维标度分析

第10章多维标度分析

第10章多维标度分析10.1多维标度法的基本思想当维数p>3时,即使给出了p维空间R P中n个样本点的坐标,我们都难以想象这n个点的相互位置关系,因此自然希望在我们熟悉的低维空间R k(k<p,如k=1,2,3)中能以较高的相似度重新展示这n个点的数据结构,并由此对原始样本数据进行统计分析.另外,即使维数p≤3,有时问题也不容易解决.比如地图上任意两个城市之间的直线距离和实际道路距离不一样,若仅给了一组城市相互间的实际道路距离,你能否标出这些城市之间的相对位置呢?又假定只知道哪两个城市最近,哪两个城市次近,等等,你还能确定它们之间的相对位置吗?重新标度的位置与实际位置相似度达到多大?把上面的不同“城市”换作不同的“产品”、“品牌”、“指标”等,也会遇到类似的问题.多维标度法(multidimensional scaling,MDS)就是一类将高维空间中的研究对象(样本或变量)简化到低维空间中进行定位、归类和分析,同时又有效地保留研究对象间原始关系的多元数据分析技术的总称,是一种维数缩减方法.多维标度法于20世纪40年代起源于心理测度学,用于大致测定人们判断的相似性,1958年Torgerson在其博士论文中首先正式提出了这一方法.多维标度法现在已广泛应用于心理学、市场营销、经济管理、交通、生态学及地质学等领域.多维标度法内容丰富、方法较多,其理论分析手段与主成分分析有相通之处,但也有自己的特点.根据研究对象的相关指标是用距离、比例等度量化数据给出还是用顺序、秩等给出,相应的分析方法分为度量分析法和非度量分析法,而古典多维标度法是其中最常用的度量分析法.10.2古典多维标度法下面根据参考文献[2],用一个例子来介绍几个与多维标度法相关的基本概念.【例10.1】(数据文件为eg10.1)表10-1给出了我国部分城市间的距离,由于道路弯弯曲曲,这些距离并不是这些城市间的真正距离.我们希望在地图上重新标出这八个城市,使得它们之间的距离尽量接近表10-1中的距离.表10-1 我国八个城市间的距离单位:千米北京天津济南青岛郑州上海杭州南京北京0天津118 0济南439 363 0青岛668 571 362 0郑州714 729 443 772 0上海1259 1145 886 776 984 0杭州1328 1191 872 828 962 203 0南京1065 936 626 617 710 322 305 0 10.2.1多维标度法的几个基本概念定义10.1一个n×n阶矩阵,如果满足条件(1)(2)则称矩阵D为广义距离阵,dij称为第i点与第j点间的距离.注意:这样定义的距离不是通常意义下的距离,而是通常距离的拓广,比如人们熟悉的距离三角不等式在这里就未必成立.对于距离阵,多维标度法的目的是要寻找较小的正整数k(如k=1,2,3)和相应低维空间R k中的n个点x₁,x₂,…,xn ,记表示xi与xj在R k中的欧氏距离,使得与D在某种意义下尽量接近.将找到的这n个点写成矩阵形式称X为D的一个古典多维标度(CMDS)解.在多维标度分析中,形象地称xi为D的一个拟合构造点,称X为D的拟合构图,称为D的拟合距离阵.特别地,当=D时,称xi为D的构造点,称X为D的构图.又若X为D的构图,令式中,P为正交阵,a为常数向量,则Y=(y₁,y₂,…,yn)也为D的构图,这是因为平移和正交变换不改变两点间的欧氏距离,即若D的构图存在,那么它是不唯一的.定义10.2对于一个n×n的距离阵,如果存在某个正整数k和R k中的n个点x₁,x₂,…,xn,使得(10.1)则称D为欧氏距离阵.下面讨论如何判断一个距离阵D是否为欧氏距离阵;在已知D为欧氏距离阵的条件下,如何确定定义10.2中相应的k和R k中的n个构造点x₁,x₂,…,xn.令(10.2)(10.3)式中,In 为n×n阶单位阵,1n,为分量全为1的n维列向量.借助这些定义,下面给出一个距离阵D为欧氏距离阵的充要条件.定理10.1设D为n×n阶距离阵,B由式(10.3)定义,则D是欧氏距离阵的充要条件为B≥0.证明:(必要性)设D是欧氏距离阵,由定义和式(10.2)可知,存在正整数k 和R k中的n个构造点x₁,x₂,…,xn,使得又由式(10.3)可得(10.5)式中,为元素全为1的nxn阶矩阵.注意式中(10.6)将它们代入式(10.5)中,可得(10.7)由式(10.4)知,再结合式(10.6),可得(10.8)将代入式(10.8),化简可得式中,将式(10.9)表示为矩阵形式,得到这里乘积HX所得的结果是将X中心化,即(10.10)(充分性)反之,若B≥0,记k=rank(B),λ₁,λ₂,…,λk (λ₁≥λ₂≥…≥λk>0)为B的正特征值,x(1),(2),…,x(k)为相应的特征向量,且令注意:这里x₁,x₂,…,xn表示由X的各行转置后得到的k×1列向量.令A=diag(λ₁,λ₂,…,λk),,则,即P的列为标准正交化特征向量,于是(10.11)由此可得说明正好是D的构图,所以D是欧氏距离阵,充分性得证.注意:充分性的证明给出了从欧氏距离阵D出发得到构图X的方法,即D→A→B→X具体步骤为:由D知dij,由得A,再由得B,最后求B的特征值λ₁,λ₂,…,λk和相应的特征向量x(1),(2),…,x(k),n×k阶矩阵X=(x(1),(2),…,x(k))的行向量转置后得到的n个k×1列向量x₁,x₂,…,xn 即为D的n个构成点,而矩阵即为D的构图,据式(10.11),X 也可以由来计算.由定理10.1知,D是欧氏距离阵的充要条件是B≥0.因此若B有负特征值,那么D一定不是欧氏距离阵,此时不存在D的构图,只能求D的拟合构图,记作,以区别真正的构图X.在实际中,即使D为欧氏距离阵,记它的构图为n×k 矩阵X,当k较大时也失去了实用价值,这时宁可不用X,而去寻找低维的拟合构图.也就是说,在D的构图不存在和构图存在但k较大两种情形下都需要寻找D的低维拟合构图.令这两个量相当于主成分分析中的累积贡献率,我们希望k不要取太大,就可以使a₁.k和a₂.k比较大,比如说,大于80%就比较合适.当k取定后,用表示B的对应于特征值λ₁,λ₂,…,λk的正交化特征向量,使得.通常还要求λk >0,若λk<0,要缩小k的值.最后,令则即为D的拟合构图,或者说为D的古典多维标度解,(均为k×1列向量)即为D的n个拟合构造点.有的文献也把称为X的主坐标,把多维标度分析称为主坐标分析.下面用一个具体例子(参见参考文献[2])来说明上述求解步骤.【例10.2】设有距离阵D如下(为简洁起见,对称阵都只写出上三角部分):由于,可求得A,āig ,āgj及āgg如下:再由bij =aij-āig-āgj+āgg可得由于B的7个列b₁,b₂,…,b₇有如下线性关系b₃=b₂-b₁,b₄=-b₁,b₅=-b₂,b₆=b₁-b₂,b₇=0于是B的秩最多为2,注意到B的第一个二阶主子式非退化,故rank(B)=2=k,并且可求得B的7个特征值分别为:λ₁=λ₂=3,λ₃=λ₄=…=λ₇=0且对应于λ₁,λ₂的特征向量分别为:故7个拟合构造点在R²中的坐标分别为:(√3/2,1/2),(√3/2,-1/2),(0,-1),(-√3/2,-1/2),(-√3/2,1/2),(0,1 ),(0,0)因为B≥0,所以原矩阵D是欧氏距离阵,故这7个拟合构造点就是D的构造点.容易验证,这7个构造点在R²中的欧氏距离阵恰为D,即10.2.2已知距离矩阵时CMDS解的计算上面计算CMDS解的过程在R中可使用stats包中的cmdscale()函数来实现,也可以使用MASS包中处理非度量MDS问题的isoMDS()函数来实现,但cmdscale()函数的好处是可以同时计算出B的特征值和特征向量以及两个累积贡献率a₁.k 和a₂.k的值.【例10.3】(数据文件为eg10.3)根据表10-1给出的我国八个城市间的距离矩阵D,利用R软件stats包中的cmdscale()函数求D的CMDS解,给出拟合构图及拟合构造点.解:在R中的程序为:#例10.3打开数据文件eg10.3.xls,选取数据区域C2:K10,然后复制>eg10.3=read.table("clipboard",header=T) #在R中读入数据>D10.3=cmdscale(eg10.3,k=2,eig=T) #k取为2,eig=T给出矩阵B的前两个特征#向量和特征值>D10.3$points[,1] [,2]北京-658.14610 -52.301759天津-522.00992 -133.917153济南-229.30657 32.365307青岛-80.72182 -277.225217郑州-171.98297 474.047645上海610.52727 -102.636996杭州659.93216 5.717159南京391.70794 53.951014$eig[1]1.756015e+06 3.367695e+05 7.888679e+04 3.770390e+041.320482e+04 -4.001777e-11 -1.434722e+04 -3.259473e+04......>sum(abs(D10.3$eig[1:2]))/sum(abs(D10.3$eig)) #计算a1.2[1] 0.9221257>sum((D10.3$eig[1:2])~2)/sum((D10.3$eig)~2) #计算a2.2[1] 0.9971656>x=D10.3$points[,1]>y=D10.3$points[,2]>plot(x,y,xlim=c(-700,800),ylim=c(-300,600)) #绘散点图(见图10-1)#根据两个特征向量的分量大小>text(x,y,labels=s(eg10.3),adj=c(0,-0.5),cex=0.8) #名标出#将拟合点用行#名标出图10-1我国八城市距离阵的拟合构图由R计算结果可见,矩阵B的八个特征值分别为:1756015,336770,78887,37704,13205,0,-14347,-32595最后两个特征值为负,表明距离矩阵D不是欧氏距离阵.a1.2=92.2%,a2.2=99.7%,故k=2就可以了.由前两个特征向量可得八个拟合构造点分别为:(-658.1,-52.3),(-522.0,-133.9),(-229.3,32.4),(-80.7,-277.2) (-172.0,474.0),(610.5,-102.6),(659.9,5.7),(391.7,54.0)容易计算出八个拟合构造点在R²中的欧氏距离阵,如表10-2所示.将它们与表10-1中城市间的原始距离数据进行比对,可以发现大多数距离数据拟合较好,少数数据误差较大.表10-2我国八个城市间的距离阵的拟合构图10.2.3已知相似系数矩阵时CMDS解的计算定义10.3一个n×n阶的矩阵,如果满足条件(1)(2)则称C为相似系数矩阵,cij称为第i点与第j点间的相似系数.在进行多维标度分析时,如果已知的数据不是n个对象之间的广义距离,而是n个对象间的相似系数,则只需将相似系数矩阵C按式(10.12)转换为广义距离阵D,其他计算与上述方法相同.令(10.12)由定义10.3可知,,显见,故D为距离)为欧氏距离阵. 阵,可以证明,当C≥0时,由式(10.12)定义的距离阵D=(dij【例10.4】(数据文件为eg10.4)为了分析下列六门课程之间的结构关系,找到了由劳雷和马克斯维尔得到的相关系数矩阵(见表10-3).其中,相关系数的值越大(小),表示课程越(不)相似.易见相关系数矩阵也为相似系数矩阵,记为C,求C的CMDS解,并给出拟合构图及拟合构造点.表10-3六门课程相关系数矩阵盖尔语英语历史算术代数几何盖尔语 1 0.439 0.41 0.288 0.329 0.248 英语0.439 1 0.351 0.354 0.32 0.32g 历史0.41 0.351 1 0.164 0.19 0.181 算术0.288 0.354 0.164 1 0.595 0.47 代数0.329 0.32 0.19 0.595 1 0.464 几何0.248 0.329 0.181 0.47 0.464 1解:据表10-3知,.于是由变换式(10.12)知(10.13)由式(10.13)易得六门课程的广义距离阵D,如表10-4所示.表10-4由六门课程相关系数矩阵转化所得的距离阵盖尔语英语历史算术代数几何盖尔语0 1.059 1.086 1.193 1.158 1.226英语 1.059 0 1.139 1.137 1.166 1.158 历史 1.086 1.139 0 1.293 1.273 1.280 算术 1.193 1.137 1.293 0 0.900 1.030 代数 1.158 1.166 1.273 0.900 0 1.035 几何 1.226 1.158 1.280 1.030 1.035 0余下工作可以仿照例10.3进行,在R中的程序为:#例10.4打开数据文件eg10.4.xls,选取数据区域A10:G16,然后复制>eg10.4=read.table("clipboard",header=T) #在R中读入数据>D10.4=cmdscale(eg10.4,k=2,eig=T) #k取为2,eig=T给出矩阵B的前两个特#征向量和特征值>D10.4$points[,1] [,2]盖尔语0.4028583 0.26570653英语0.2415986 0.48339407历史0.6210937 -0.50817963算术-0.4575066 0.03803193代数-0.4216733 -0.04017726几何-0.3863706 -0.23877565$eig[1]1.142825e+00 6.225908e-01 6.022539e-01 5.245848e-013.963587e-01 1.998401e-15......>sum(abs(D10.4$eig[1:2]))/sum(abs(D10.4$eig)) #计算a1.2[1] 0.5368268>sum((D10.4$eig[1:2])^2)/sum((D10.4$eig)~2) #计算a2.2[1] 0.6805523>x=D10.4$points[,1]>y=D10.4$points[,2]>plot(x,y,xlim=c(-0.6,0.8),ylim=c(-0.6,0.7)) #根据两个特征向量的分量大小绘制拟合图>text(x,y,labels=s(eg10.4),adj=c(0,-1),cex=0.8) #将拟合点用行名标出由R计算出的B的六个特征值按大小顺序依次为:λ₁=1.1428,λ₂=0.6226,λ₃=0.6023,λ₄=0.5246,λ₅=0.3964λ₆=0.0000因为a1.2=53.68%,a2.2=68.06%,不足80%,可考虑取k=3(这里从略).由前两个特征向量可得8个拟合构造点,分别为:(0.403,0.266),(0.242,0.483),(0.621,-0.508),(-0.458,0.038),(-0.422,-0. 040),(-0.386,-0.239).图10-2大体反映了这六门课程的基本结构,从图中可以直观地看出,算术、代数、几何较为接近,英语和盖尔语较为相近,而历史课程与其他课程的差异较大.图10-2六门课程相似系数矩阵的古典拟合构图10.3非度量多维标度法在实际问题中,涉及更多的可能是不易量化的相似性测度,如两种颜色的相似性,虽然我们可以用较小(大)的数字表示颜色非常(不)相似,但是这里的数字只表示颜色之间的相似或不相似程度,并不表示色彩实际的数值大小,因而这是一种非度量的定序尺度,能够利用的唯一信息就是这种顺序(秩).古典多维标度法基于主成分分析的思想,在低维空间上利用主坐标重新标度距离,这时式中,是距离dij 的拟合值;eij是拟合误差.但有时dij和之间的拟合关系可以表示为:(10.14)式中,f为一个未知的单调递增函数.这时,我们用来构造的唯一信息就是{dij }的秩,将{dij,i<j}从小到大排列为:与(i,j)所对应的dij 在上面的排列中的名次(由小到大)称为(i,j)的秩或dij的秩.我们欲寻找一个拟合构图(或一组拟合构造点),使后者相互之间的距离也有如上的次序,即并记为:这种模型大多出现在相似系数矩阵的场合,因为相似系数强调的是研究对象之间的相似,而不是它们的距离.在处理这种模型的各种方法中,最为流行的是Shepard-Kruskal算法,它的计算步骤如下:(1)已知相似系数矩阵D=(dij)(这里仍用D来记相似系数矩阵),并将其非对角元素从小到大排列为:(2)设是k维拟合构造点,相应的距离阵为,令(10.15)极小是对一切而言的,使上式达到极小的称为对的最小二乘单调回归.如果,在式(10.15)中取,这时是D 的构图.若对X作一正交平移变换yi =Pxi+b,P为正交阵,b为常数向量,则式(10.15)的分子不变.(3)若k固定,且能存在一个,使得则称为k维最佳拟合构图.(4)由于Sk (也称为压力指数,stress)是k的单调下降序列,取k,使Sk适当地小.例如Sk ≤5%最好,5%<Sk≤10%次之,Sk>10%较差.求解可用梯度法进行迭代(参见参考文献[2]).10.4案例分析与R实现案例10.1(数据文件为case10.1)表10-5给出了2010年我国31个省、直辖市、自治区农村居民家庭人均生活消费支出的统计数据.一共选取8个指标:x₁为食品消费;x₂为衣着消费;x₃为居住消费;x₄为家庭设备用品及服务;x₅为交通通信;x₆为文教娱乐用品及服务;x₇为医疗保健;x8为其他商品和服务支出.试用多维标度法对其进行统计分析,并对分析结果的实际意义进行解释.表10-5 2010年我国各地区农村居民家庭人均生活消费支出单位:元地区x₁x₂x₃x₄x₅x₆x₇x8北京2994.66 699.42 1990.21 473.62 1112.44 950.61 840.61 193.21天津2060.83 365.86 888.32 233.02 467.48 462.25 360.47 98.50河北1351.41 250.92 839.66 218.90 464.80 462.25 360.47 78.87山西1372.49 315.78 614.70 173.62 357.74 420.21 328.92 80.40内蒙古1675.04 317.71 751.99 177.91 598.61 374.19 467.97 97.41辽宁1714.15 369.15 745.03 185.23 448.97 500,28 413.83 112.87吉林1523.32 309.75 752.79 171.92 368.64 454.05 462.42 104.47黑龙江1483.95 387.17 793.80 164.63 455.90 560.71 443.16 101.86上海3806.82 554.13 2020.25 528.01 1459.45 997.65 584.51 209.66 江苏2491.51 350.01 1170.88 327.69 785.53 908.10 362.28 146.87浙江3055.59 551.53 2044.32 410.62 1145.99 839.19 709.30 172.34安1632.96 232.20 867.51 231.23 338.99 363.92 264.39 82.10 徽2537.15 310.14 865.50 292.71 638.07 462.17 251.36 141.23 福建江1812.66 174.61 782.72 205.27 331.81 285.23 243.84 75.48 西1804.45 305.56 832.95 324.70 649.21 421.91 383.89 84.51 山东河1371.17 261.52 765.18 254.47 401.44 250.47 287.83 90.14 南湖1763.05 217.61 816.42 262.26 331.35 288.12 295.24 116.73 北湖2087.85 209.85 719.20 243.90 343.82 315.93 293.59 96.23 南2630.05 215.51 986.70 235.01 637.08 326.53 307.43 177.27 广东1675.41 110.46 692.51 192.77 310.30 182.55 228.99 62.30 广西1724.47 117.36 609.77 135.22 312.53 318.04 138.35 90.49 海南1750.01 224.13 548.00 260.71 281.73 239.03 270.31 50.70 重庆1881.18 226.62 625.28 239.48 360.70 218.62 276.06 69.59 四川1319.43 137.49 621.80 135.64 229.66 186.19 178.07 44.21 贵州云1604.50 160.72 638.09 167.66 337.85 206.45 239.94 43.11 南西1325.71 326.65 352.88 181.27 282.43 51.06 71.16 75.77藏1299.22 237.87 837.54 233.37 336.22 397.61 376.20 75.77 陕西1315.25 184.23 551.63 146.93 256.70 238.03 203.13 46.0g 甘肃1442.88 255.19 944.23 193.59 369.60 198.53 307.92 62.55 青海1541.77 302.61 776.44 188.12 444.02 241.08 417.92 101.22 宁夏1394.38 303.66 695.17 137.69 382.14 170.15 314.73 59.94 新疆解:本案例我们采用R软件MASS包中的isoMDS()函数来实现分析计算(当然也可以用前面使用的cmdscale()函数),在R中的操作过程如下:#打开数据文件case10.1.xls,选取A2:I33区域,然后复制>case10.1<-read.table("clipboard",header=T) #将eg10.1.xls数据读入到#Case10.1中>D1=as.matrix(case10.1) #需要将数据转换成矩阵形式>D=dist(D1) #求距离阵>library(MASS) #载入MASS包,这样才能使用isoMDS()函数>fit=isoMDS(D,k=2)>fit$points[,1] [,2]北京-1882.08165 -405.5501799天津-181.18356 83.5568197河北378.06842 -316.9090361山西519.63551 -161.3723531内蒙古140.53475 -118.3236722辽宁239.59269 -57.3466211 吉林311.06135 -196.5769112 黑龙江257.18237 -303.2689490 上海-2574.54791 164.4633867 江苏-864.88942 19.9653109 浙江-1891.26840 -273.7180203 安徽241.99333 -56.7533361 福建-562.74468 426.2460037 江西187.41927 149.4628003 山东-23.94055 -68.0772001 河南480.52386 -165.0996828 湖北186.03261 68.3345125 湖南-11.86522 317.5767900 广东-645.99328 471.6486570 广西377.05811 164.2765177 海南362.23481 229.5403989 重庆360.53994 226.6307228 四川206.07019 261.9414880 贵州708.60794 -0.5224843 云南435.30179 117.9074584 西藏836.32175 163.8641180 陕西475.58204 -309.3702220 甘肃712.09253 -10.0972309 青海372.00020 -192.4072738 宁夏321.09711 -124.8186386 新疆529.56410 -105.2031733 $stress[1] 3.267686>x=fit$points[,1]>y=fit$points[,2]>plot(x,y) #画散点图(见图10-3)>text(x,y,labels=s(case10.1),adj=c(0.5,1.5),cex=0.7) #设置标签位#置大小>abline(h=0,v=0,lty=3) #采用虚线划分四个象限从图10-3可以比较直观地看出在总支出方面,上海、北京、广东、浙江、江苏、天津、福建等沿海地区是我国传统的经济发达地带,又是改革开放的前沿,雄厚的经济实力为农业和农村经济发展奠定了坚实的基础,农村居民的人均消费水平相对较高.北京在享受型消费方面领先于其他省区,说明北京的农民比较重视文化生活,由于他们身处祖国的政治文化中心,因此在文化、教育、医疗等方面有很高的消费和投入.而广东农民更重视物质上的消费,尤其在食物方面,广东人很下工夫,但是他们在文化生活上支出却不高,也不太注重这方面的投入.从总体来看,我国绝大多数地区农村居民家庭的消费水平比较低,消费结构不合理,我国农村居民家庭消费水平在不同地区间存在着明显的差异.图10-3 2010年我国农村居民家庭人均生活消费支出古典拟合构图习题10.1证明当C≥0时,由式(10.12)定义的距离阵D=(d₂)为欧氏距离阵.10.2(数据文件为ex10.2)在R中利用古典多维标度法对表10-6中的六个经济发展指标数据进行分析评价.其中,x₁为农业产值,x₂为林业产值,x₃为牧业产值,x₄为企业人数,x₅为企业总产值,x₆为利润总额.表10-6 2003年广东省各地区农村经济发展状况指标城市x₁x₂x₃x₄x₅x₆广州市97.84 1.28 38.86 141.98 2089.55 121.07深圳市11.20 0.66 12.59 156.52 418.16 50.12珠海市 5.67 0.11 3.60 17.39 360.58 10.58汕头市29.87 0.57 17.26 52.45 673.74 24.07佛山市52.39 0.29 32.14 90.77 1649.81 62.74韶关市47.82 4.47 18.44 27.91 144.51 16.14河源市33.57 3.10 12.84 12.62 51.25 4.73梅州市57.10 2.74 28.02 44.12 226.65 19.75惠州市61.57 4.70 25.20 70.38 568.79 40.39汕尾市29.82 1.70 12.09 30.52 189.00 6.78东莞市20.97 0.14 20.35 134.63 1380.42 74.01中山市16.87 0.21 5.33 91.43 1148.14 52.10江门市57.33 1.79 39.21 85.64 1252.07 32.68阳江市47.72 3.27 21.39 19.52 191.64 11.08湛江市87.20 4.72 34.07 40.60 390.06 20.96茂名市112.00 7.85 81.36 76.47 739.34 40.85肇庆市76.06 16.45 46.77 52.97 569.93 19.40清远市57.35 6.67 28.47 17.95 75.29 6.76潮州市27.05 1.63 14.88 35.22 501.63 20.97揭阳市71.08 2.09 26.43 50.52 891.76 17.79云浮市44.07 4.65 38.97 22.23 188.47 8.7010.3(数据文件为ex10.3)表10-7给出了2011年全国31个省、直辖市、自治区的城镇居民家庭人均消费性支出的8个主要指标数据,根据这些数据,采用多维标度法进行分析评价.表10-7全国31个省、直辖市、自治区城镇居民家庭人均消费性支出数据(2011年)单位:元地区食品x₁衣着x₂居住x₃家庭设备及用交通通信x₅文教娱乐x₆医疗保健x7其他x8品x₄北京6905.512265.881923.711562.553521.23306.821523.32975.37天津6663.311754.981763.441174.622699.532116.011415.39836.82河北3927.261425.991372.25809.85 1526.61203.99955.95 387.40山西3558.041461.91327.78832.74 1487.661419.43851.30 415.44内蒙古4962.42514.091418.61162.872003.541812.071239.36765.13辽宁5254.961854.631385.62929.37 1899.061614.521208.3643.15吉林4252.851769.471468.29839.31 1541.371468.341108.51562.48黑龙江4348.451681.881185.96723.58 1363.621190.871082.96476.89上海8905.952053.812225.681826.223808.413746.381140.821394.86江苏6060.911772.061187.741193.812262.192695.52962.45 647.06浙江7066.222138.991518.061109.423728.232816.121248.9811.51安徽5246.761371.011501.39690.66 1365.011631.28907.58 467.77福建6534.941494.961661.841179.842470.181879.02773.26 667.00江西4675.161272.881114.49914.88 1310.211429.3641.23 389.06山东4827.612008.841510.841013.822203.991538.44938.86 518.27河南4212.761706.941087.08977.52 1573.641373.94919.83 484.76湖北5363.681677.911172.11814.81 1382.21489.67915.72 347.68湖南4943.891499.021292.55940.79 1975.51526.1790.76 434.25广东7471.881404.62005.151370.283630.622647.94948.18 773.17广西5074.491019.341237.91884.85 2000.571502.65779.08 349.48海南5673.65 780.101342.29729.86 1830.81141.81783.34 360.91重庆5847.92056.791205.661079.271718.731474.881050.62540.63四川5571.691483.541226.141020.161757.521369.47735.26 532.52贵州4565.851209.881102.99857.55 1395.281331.43578.33 311.57云南4802.261587.18827.84 570.46 1905.861350.65822.41 381.38西藏5184.181261.29781.12 428.03 1278.0514.44 424.10 527.74陕西5040.471673.241193.81914.26 1502.441857.61100.51500.42甘4182.41470.21139.8660.48 1289.81158.3874.05 413.37肃7 6 5 0 0青海4260.271394.281055.15723.23 1293.45967.90 854.25 406.93宁夏4483.441701.731247.14885.36 1637.611441.18978.12 521.47新疆4537.461715.94888.16 791.43 1377.671122.18912.99 493.56 10.4(数据文件为ex10.4)对表10-8给出的我国12个城市间的航空距离矩阵D,利用R软件中的cmdscale()函数求D的CMDS解,并给出拟合构图X及拟合构造点.表10-8我国12个城市间的航空距离矩阵10.5(数据文件为ex10.5)在R中利用古典多维标度法对表10-9中给出的2006年我国东部和西部地区20省区工资水平数据.请对相关经济发展指标数据进行分析评价.其中x₁为国有单位工资,x₂为城镇集体单位工资,x3为股份合作单位工资,x₄为联营单位工资,x5为有限责任公司工资,x₆为股份有限公司工资,x₇为其他单位工资,x8为港、澳、台商投资单位工资,x9为外商投资单位工资.表10-9我国2006年20个省区工资水平数据单位元地区x₁x₂x₃x₄x₅x₆x₇x8X 9北京41313 17550 14603 20154 30732 54595 28023 52593 64192 河北17057 10255 12947 23894 17580 15835 10362 17282 18014 山西18540 12014 10208 16308 20554 15917 11883 14583 17363 内蒙古19275 12404 11216 12238 17439 18211 12966 14222 19041 辽宁20305 10793 13175 11859 18852 24453 10095 19206 19756 吉林16983 9106 9698 10413 15249 20657 10381 13461 22562 上海40141 22959 20912 30984 31305 43673 42206 26244 42556 江苏28143 15279 16199 17302 20453 25487 15954 18200 23446 浙江41920 22006 19220 32979 19903 26994 21657 19593 20950 江西16227 10000 12118 13939 14710 17365 10388 10982 13731 山东22552 13024 13588 27823 15732 17440 12798 15602 18248 湖北17708 10265 10787 14262 14683 14985 9671 12545 23261 湖南18459 12490 14442 14328 15754 18228 15525 15812 17574 广西18384 12025 11071 13637 16549 17854 13231 12910 22427 重庆21168 13471 14460 16283 15637 21497 13368 17098 25037 四川19884 12624 13522 14962 13251 16606 10693 16909 20749 贵州17248 12590 14796 12306 14227 19361 12482 13436 15359 云南19520 11859 12806 14890 16308 19720 10833 15054 20944 陕西16894 8879 19713 14943 18215 18856 13613 14634 18077 甘肃17836 11411 9832 6439 13998 22076 8407 16877 20139。

典型相关分析与多维标度法

典型相关分析与多维标度法

分别对 a, b 求偏导并令为零, 得到 { ΣXY b − λ1 ΣXX a = 0 ΣY X a − λ2 ΣY Y b = 0 由此得到 λ1 = λ1 a′ ΣXX a = a′ ΣXY b = λ2
1 因此记 λ = λ1 = λ2 , 将 λb = Σ− Y Y ΣY X a 带入得到
广义特征根问题
A−1 ai , b∗ i = B −1 bi , ai , bi 为 X, Y 的第 i 对典型相关变量的系数.
∗ ∗′ ′ ′ (2) corr(a∗′ i X , b i Y ) = corr (ai X, bi Y ), 即线性变换不改变相
关性. 注: 若在定理中取 A = (diag ΣXX )1/2 , B = (diag ΣY Y )−1/2 , 则 前面关于协方差矩阵的结果都可以应用到相关系数矩阵下.
多维标度法 . . . . . . . . . . . . . . . . . . . 20
Previous Next First Lasห้องสมุดไป่ตู้ Back Forward
1
1.1
典型相关分析
• 典型相关分析 (Canonical correlation analysis, CCA) 研究多 个变量与多个变量之间的相关性 • 工厂对原料的主要质量指标 X = (X1 , . . . , Xp )′ 和产品质量的 主要指标 Y = (Y1 , . . . , Yq )′ 之间的关系很感兴趣 • 婚姻研究中, 小伙子对他所追求姑娘的主要指标 X 和姑娘向往 的主要指标 Y 之间的关系 • 直接使用 Cov (X, Y)(或者相关系数矩阵) 在多元场合无法从整 体上合适解释两者之间相关性 • Hotelling (1935,1936) 最早提出使用它们的线性组合变量 (典 型变量)a′ X 和 b′ Y 之间的相关性来度量 X 和 Y 之间的相关 性. 什么样的 a, b 合适呢? Previous Next First Last Back Forward 1

多维标度法在企业战略决策中的应用

多维标度法在企业战略决策中的应用
经 营 与 管 理
多维标度法在企业战略决 策 中的应 用
阳 长 征 周 永 生 李 慧 敏 ( . 林 理 工 大 学 管 理 学 院 , 西 桂 林 5 1 0 ;2 右 江 民族 医 学 院 附 属 医 院 , 西 百 色 5 3 0 ) 1桂 广 40 4 . 广 3 0 0 摘 要 : 文 通 过 对 企 业 战 略 决 策 特 点 的 分 析 ,阐 述 了传 统 的 聚 类 分 析 法 在 市 场 战 略 决 策 分 析 中 的 局 限 性 , 出 了 多 本 引 维 标 度 法 的 使 用 , 克 服 了过 去 常 使 用 的传 统 分 析 法 的 不 足 。接 着 对 多 维 标 度 法 基 本 理 论 作 了 详 细 说 明 , 对 “ 0 0 它 并 2 1 年 2月 某 奶 业 集 团股 份 有 限 公 司 对 目前 9种 牛 奶 品 牌 的 调 查 资 料 报 告 ” 行 了 实 例 分 析 , 体 展 示 了 该 方 法 在 实 际 进 具
多 维 标 度 法 的 目的 , 以 空 间 图 的 方 式 用 最 少 的 维 数 最 是
1 多 维 标 度 法 概 述 .
1 1多 维 标 度 法 基 本 原 理 . 多 维 标 度 法 的 基 本 思 想 是 : r 空 间 ( 待 定 ) 的 点 用 维 r 中 分 别 表 示 各 样 品 , 得 各 样 品 间 距 离 的 次 序 能 完 全 反 映 原 始 使 输 入 的 相 似 次 序 ( 样 品 间 的距 离 越 短 , 越 相 似 ) 两 则 。通 常 要 通 过 两 步 来 完 成 : 先 , 造 一 个 f 坐 标 空 问 , 用 该 空 间 首 构 维 并 中 的 点 分 别 表 示 各 样 品 , 时 点 间 的 距 离 未 必 和 原 始 输 入 次 此 序 相 同 , 常 把 这 一 步 称 为 构 造 初 步 图 形 结 构 ; 次 , 逐 步 通 其 是 修 改 初 步 图 形 结 构 , 得 到 一 个 新 图 形 结 构 , 得 在 新 结 构 以 使 中, 各样 品的点 间距 离次 序和原 始输 入次 序尽量 一致 。 多 维 标 度 的特 点 是 将 消 费 者 对 品 牌 的 感 觉 或 偏 好 以 点 的 形 式 反 映 在 多 维 空 间 上 , 对 不 同 品 牌 的 感 觉 或 偏 好 的 差 而 异 程 度 是 通 过 点 与 点 之 间 的距 离 体 现 的 , 种 品 牌 或 项 目 的 这 空 间定 位 点 团 称 为 空 间 团 , 间 的 轴 代 表 形 成 感 觉 或 偏 好 的 空 各种 因素或 变量 。 1 2多 维 标 度 法 步 骤 . ( ) 定 问 题 1界 品牌及 相关 指标 或变 量 的选 择 , 往 基 于调 研 问题 、 往 相 关 理 论 以 及 研 究 人 员 的 判 断 力 等 。 问 题 的 界 定 与 多 维 标 度

多维标度分析

多维标度分析

武夷学院实验报告课程名称:多元统计分析项目名称:多维标度分析姓名:专业: 14信计班级:1班学号: 同组成员:无9。

关闭SPSS,关机。

四、实验过程及结果分析(一)操作步骤(1)点击分析—度量——多维尺度,进入多维标度分析的主对话框,如下图。

(2变量为设定变量列表框,用于将要分析的表示距离的变量移入此处。

本案例是将北京,合肥,长沙,杭州,南昌,南京,上海,武汉,广州,成都,福州,昆明放置于此框。

(3)单个矩阵表示如果数据文件中有多个受访者的距离阵时.就应当使用该选项选取代表不同受访者的变量。

(4)距离用于设置所使用距离的产生方式。

①数据为距离数据表示如果所提供的数据为距离阵,可直接用于分析。

单击”形状”有3个选项(图10。

2):正对称表示距离阵为完全对称形式,且行列表示相同的项目,要对角线上下三角中相应的数值对称相等,正对称表示距离阵为不完全对称结构且行列表示相同项目,上下三角中相应的数值不想等,矩形表示距离阵为距离完全不对称形式,并需要在行数框中输入行数,如下图.②从数据中创建度量表示如果数据代表的不是距离,使用该选项可以根据数据生成距离阵.单击"度量标准”打开数据测度方法对话框,如下图。

其中,度量标准用于选择不相似性量度方法,转换值是选择进行标准化转化的方法,创建距离矩阵表示是根据变量还是根据样品创建距离阵(变量间计算成对变量之间的不相似性矩阵,个案间计算两两样品之间的不相似性距离矩阵)。

设置完成后,点击继续返回主对话框。

(5)在主对话框中点击模型,用于设置数据和模型的类型,如下图。

①度量水平用于指定测量尺度。

其中,序数为有序数据,区间为定距数据,比率为比例数据,鉴于本例中的数据是距离,因此选择interval。

②条件性用于进一步定义距离阵的情况。

矩阵表示只有一个矩阵或者每个矩阵代表不同的个体时采用,它表示距离阵的数值意义相同,是可以相互比较的,行只在非对称或者距离阵时才使用。

表示只对同一行间数据进行比较才有意义,无约束表示不受任何限制,资料中所有数值的比较都有意义。

市场分析方法LV11 多维尺度法

市场分析方法LV11 多维尺度法

多维尺度法是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。

其特点是将消费者对品牌的感觉偏好,以点的形式反映在多维空间上,而对不同品牌的感觉或偏好的差异程度,则是通过点与点间的距离体现的,我们称这种品牌或项目的空间定位点图为空间图。

空间轴代表着消费者得以形成对品牌的感觉或偏好的各种因素或变量。

多维尺度法的应用范围① 可以确定空间的维数(变量、指标),以反映消费者对不同品牌的认知,并且在由这些维构筑的空间中,标明某关注品牌和消费者心目中理想品牌的位置。

② 可以比较消费者和非消费者对企业形象的感觉。

③ 在进行市场细分时,可以在同一空间对品牌和消费者定位,然后把具有相似感觉的消费者分组、归类。

④ 在新产品开发方面,通过在空间图上寻找间隙,可以发现由这些间隙为企业带来的潜在契机。

⑤ 在广告效果的评估方面,可以用空间图去判定一个广告是否成功地实现了期望的品牌定位。

⑥ 在价格策略方面,通过比较加入与不加入价格轴的空间图,可以推断价格的影响强度。

⑦ 在分销渠道策略方面,利用空间图可以判断品牌对不同零售渠道的适应性,从而为制定有效的分销渠道提供依据。

多维尺度法的实施步骤同其它的多元统计分析方法一样,对所研究的问题做出准确的界定,仍然是进行多维尺度分析的首要任务。

由于其中将应用各种类型的数据,所以就必须决定一种获得数据的适宜方式,并选择用于数据分析的具体过程。

另外,还要确定空间的维数。

通常,维数多,包含的信息量就大,维数少,则更方便数据分析。

因此,需要确定既能包含大部分重要信息又方便数据分析的较为适当的维数。

在确定了空间的维数以后,需要准确命名那些构筑空间的坐标轴,并对整个空间结构做出解释。

最后一步的工作是评估所用方法的可靠性和有效性。

因而,多维尺度法的实施步骤分如下五个部分(如下图所示):多维尺度法的实施步骤:1. 课题界定课题的界定与通过多维尺度法希望达到的目的和选定的品牌密切相关。

多维标度法在地震动空间特性分析中的应用


ba e n m u td me i na c l s d o li i nso ls a i ( DS) a he d a c tme wa p ng d sa e ( ng M nd t yn mi i r i i t nc DTW ) wa o s d, s pr po e whi h r pr s n s h dism i rte of a t ua i a ow d m e i na s a e n v s l e wa a d c e e e t t e s i l ii s e r hq ke n l a i nso l p c i a iua i d z y n u ov r i e s r t e o e r hq ke The a a yss f e o d f o nc e s h dd n t uc ur f a t ua . n l i o r c r r m t s imi r a h he e s c a r y s ows h t h t a t e
多维标 度 法 ( 称 MD ) 一 种 在 低 维 空 间 展 简 S是 示“ 离” 距 数据 结 构 的多 元 数 据 分 析 技 术 ] 它 通 过 ,
作 为 与该 台站 记 录存 在 较 大差 异 的 已 知 奇 异记 录 , 记 为 E 让 C O台阵记 录人 为 的使其 时 间轴 上压 缩 L, O
第 3 4卷 第 5期
21 0 2年 1 0月
Vo . 4 NO 5 13 .
0c . 2O1 t 2
多维 标 度 法在 地 震 动 空 问特 性 分析 中 的应 用
李 英 民 吴 哲骞 陈辉 国 , ,
( . 庆 大 学 土 木 工 程 学院 , 庆 40 4 ;. 勤 工程 学 院 军事 建 筑 工 程 系 , 庆 4 1 1 ) 1重 重 0052后 重 031 摘 要 : 寻 找 适 于 工 程 应 用 的 空 间 地 震 动 输 入 合 理 性 的 判 定 工 具 , 出 了 一 种 将 多 维 标 度 法 为 提 ( D ) 动 态 时 间 弯 曲 距 离 ( T ) 结 合 揭 示 空 间 地 震 动 相 关 结 构 的 方 法 。 该 方 法 可 将 多 点 地 M S和 D W 相

多维标度法选择回归测试子集

( a e f p o E e to i , h n s a e fS in e , e ig 1 0 9 , ia Ac d my o t- lcr nc C ie eAcd myo c c s B in 0 1 0 Chn ) O s e j
( e trfrS aeSinea dAp ldR sac , hn s a e f cecsB in 0 10 C ia C ne pc c c n pi eerh C ieeAcdmyo i e , e ig10 9 , hn ) o e e S n j ( a ut ies y C ieeAcd myo c n e ,e ig1 03 , hn ) Grd aeUnvri , hn s ae f i cs B in 0 0 9C ia0 t S e j
摘 要 在 软件 改 动较 大且 资 源 限制 严 格 时 , 归 测 试 目前 的 方 法难 以 满足 实 际 需要 。 因此 , 出利 用 多维 标度 法 选 回 提
择 回归测试子集的方法。该方 法使 用测试执行剖面表示测试集 , 通过计算剖 面数据 , 将测试集合按照测试效果可视化 分类 , 综合考虑 了软件变更及 测试 用例 的典 型性 , 用于大规模 软件更 改较 多时获取有代表 性的测试 子集 。实验表 适 明, 多维标度法能够全面反映原测试集对变更的测试程度 , 而使得 回归子集的获取及 测试 实施更有针 对性 , 从 能够满
第3 7卷
第1 1期





Vo . 7 No 1 I3 . 1
N ov 2 0 O1
21 0 0年 1 月 1
Co p t r c e c m u e S in e
多维 标 度 法 选 择 回归 测试 子 集

多维标度法

3
多维标度法内容丰富、方法较多。 按相似性(距离)数据测量尺度的不同MDS可分为: 度量MDS:当利用原始相似性(距离)的实际数值为间隔尺 度和比率尺度时称为度量MDS(metric MDS) 非度量MDS:当利用原始相似性(距离)的等级顺序(即有 序尺度)而非实际数值时称为非度量MDS(nonmetric MDS) 按相似性(距离)矩阵的个数和MDS模型的性质MDS可分
2
Shepard和Kruskal等人进一步加以发展完善。多维标度法 现在已经成为一种广泛用于心理学、市场调查、社会学、物 理学、政治科学及生物学等领域的数据分析方法。 多维标度法解决的问题是:当n个对象(object)中各对对象 之间的相似性(或距离)给定时,确定这些对象在低维空间 中的表示(感知图Perceptual Mapping),并使其尽可能与 原先的相似性(或距离)“大体匹配”,使得由降维所引起 的任何变形达到最小。多维空间中排列的每一个点代表一个 对象,因此点间的距离与对象间的相似性高度相关。也就是 说,两个相似的对象由多维空间中两个距离相近的点表示, 而两个不相似的对象则由多维空间两个距离较远的点表示。 多维空间通常为二维或三维的欧氏空间,但也可以是非欧氏 三维以上空间。
整数 r 和 R r 中的 n 个点 X1 , X 2 ,
2 dij ( X i X j )( X i X j )
, X n ,使得
i, j 1,2,
,n
则称 D 为欧氏距离阵 3.相似系数阵
定义 10.3 一个 n n 阶的矩阵 C (cij )nn ,如果满足条件:
定义10.1 一个n n阶的矩阵D=(dij ) n n ,如果满足条件:
8
( 1) D D ( 2) dij 0, dii 0,

多维标度法MDS及R使用


强定义:Agent不仅具有以上的特性,而且具有知识、信念、义务、 意图等人类才具有的特性。强定义更加强调人格化概念的Agent的心 智要素。
一般而言,可以认为Agent是一个能够感知外界环境并具有自主行为 能力的以实现其设计目标的自治系统。它运行于复杂和不断变化的动 态环境中,能有效地利用环境中各种可以利用的数据、知识、信息和 计算资源,准确理解用户的真实意图,为用户提供迅捷、准确和满意 的服务。
多元统计分析及R语言建模
第12章 多维标度法MDS及R使用
- 1-
多元统计分析及R语言建模
包括多维标度法的基本理论、方法、古典解和非度量方法,
内 计算程序中有关多维标度法的算法基础;多维标度法的基本步 容 与 骤以及实证分析。


了解多维标度的基本思想和实际意义,以及它的数学模型
和二维空间上的几何意义;掌握多维标度法的基本性质;能够
(4)MAS是一个集成系统,各Agen之间互相通信彼此协调,并行地求解 问题,能有效地提高问题求解的能力;
(5)多Agent技术打破了人工智能领域仅仅使用一个专家系统的限制,在 MAS环境,各领域的不同专家可能协作求解某一个专家无法解决或无法很好 解决的问题,提高系统解决问题的能力。
8 of 31
9.1多Agent系统简述
定义12.1 一个n×n矩阵 D=(dij),若满足 D’=D,dii=0,dij ≥0,
(i,j=1,2, …,n ; i ≠ j ) ,则称D为距离阵。
对于距离阵D=(dij),多维标度法的目的是要寻找p和Rp中的n个点x1,…,
xn,用 表示xi与xj的欧氏距离,
, 使得 与D在某种意义下相近。
2)系统拓扑结构改变 ➢Agent数目不变,每个Agent的微结构稳定,可以修改Agent间的关系和组 织形式; ➢可增减Agent数目,可以动态创建和删除Agent。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.计算初步图形结构中各点之间的距离
为叙述方便,有时我们将A,B,C三种品牌分 别称为第一、第二、第三品牌。 用欧氏距离公式计算A品牌和B品牌(第一品牌 和第二品牌)的距离
d12 ( 10 1 ) (5 - 5) 9
2 2
同样计算d13,d23,并将它们排成矩阵形式 (dii=dii),这个矩阵称为初步图形结构的距离矩 阵,如表3所示。
例1 设一群消费者对A,B,C三种品牌的药物 牙膏的相似程度的评定次序列于下表中,其中 1表示两种品牌最相似,3表示两种品牌最不相 似(差异最大)。从表中可知,A牌和B牌牙膏最 相似,C牌和B牌的相似次之,A牌和C牌相似 性最差。我们将表1称为三种牙膏的相似次序 矩阵。
A牌 B牌 1 B牌 3 2 C牌 各种品牌的相似次序矩阵是多维标度法的输入 资料。在第四节中我们将介绍几种建立相似次 序矩阵的方法。
下面我们来介绍克鲁斯克系数的含义。
用dij表示初步图形结构中i品牌和j品牌间的 距离,如果用所有dij确定的相似次序和原 始相似次序矩阵的次序不一致,就要将dij 进行逐步调整,使得调整后i品牌和j品牌间 的距离đij确定的相似次序和原始次序完全 一致,调整过程参见表4。
表4的第一,二列由表1得出。第三列为初步图形结构中和第 二列对应的品牌间的距离。第四列中列出了dij调整为đij的 过程。表中第三列的第二个距离大于第一个距离,与原始次 序一致,可不必调整。但第三列的第三个距离则比较第二个 距离小,与原始次序不一致,故需作调整。调整的方法是将 它们求平均,得13.5。这个平均值大于第一个距离值9,故 可用它作为新的第二、三个距离。得到第三次调整值đij,如 表中第6列所示。这时,调整值的次序9<13.5≤13.5与原始 次序已完全一致,无须再作调整了。而若仍不一致,则应继 续调整,直至调整后的đij的次序与原始次序完全一致为止。
第十一章
多维标度法
(Multidimensional Scaling)
第一节 引

第一节 引

多维标度法(MDS)是著名计量心理学家谢泼 德(Shephard)和克鲁斯克 (Kruskal)分别于 1962年和1964年发展起来的一种计量心理学 技术。 多维标度法现在已经广泛应用于心理学、市 场调查、社会学、物理学、政治科学以及生 物学等领域的数据分析方法。
图5
3.多维标度法的结果是试探性的,而不 是结论性的
在例1中,我们将x坐标命名为疗效(数值越 大疗效越高),而将y坐标命名为价格(数值 越大,价格越低)。 用多维标度法得出的图形结构,其坐标反 映品牌的什么特性,是由市场研究者凭经 验估计出来的,因此不能把它作为市场的 一个最后模型,而应把它作为一个待检验 的假设,再用其他方法加以验证。
对于例1,利用表4可以算出克鲁斯克系数S如下:

如选用S=0.025作为判别图形结构是否 需要修改的临界值,现因S=0.1,故需要对 初步图形结构进行修改。
4.修改初始图形结构,得出一个新图形结构
若S大于事前所规定的临界值,则要移动初始图 形结构中各点的位置,使得点际间之距离次序较 前一图形结构的距离次序更接近初始输入资料的 次序。用(x,y)表示品牌i的旧坐标,(x’i,y’i)表示 品牌i的新坐标,它们的关系如下:
克鲁斯克系数定义如下:
其中n为品牌数,dij为初步图形结构中i品牌与j品 牌间的距离,đij为调整后i品牌与j品牌间的距离。
若一图形结构有
这时克鲁斯克系数的分子为0,S=0,表示该图形结构十 分理想,不需要再修改。 用克鲁斯克系数检验某一图形结构是否与原始资料次序配 合良好,可用表5。
表3
品牌 A B C
A B C
0 9 12
9 0 15
12 15 0
3.检验初步图形结构是否需要修改
如果初步图形结构的距离矩阵所确定的相 似次序(距离越小越相似)与原始相似次序矩 阵的次序完全一致,则认为初步图形结构 在所选定维数(本例是二维)空间中是最有代 表性的。 但一般来说,两者次序是很难一致的,这 时要通过“克鲁斯克”系数来检验初步图 形是否需要修改。
第三节 几点说明
上一节中,我们介绍了多维标度法的原理 和计算的大致步骤,本节我们讨论使用多 维标度法时值得注意的几个问题。
1.坐标空间维数的确定
多维标度法中要求代表品牌的点,其点间 距离的次序能完全反映品牌间原始输入的 相似次序。理论上已经证明,如果有n个不 同的品牌,那么用n-1维空间的点来表示品 牌,就能做到这点。然而用这样高维的空 间的点来代表品牌,那就使多维标度法失 去形象直观的特点。为此,实用上我们通 常分别用二,三,四维空间的点去试算, 从中选出“最好”的空间。
广义的MDS可以将聚类分析和对应分析 (Correspondence Analysis)也包括进来。 根据它所利用的信息来看,多维标度法 可以分为两大类: 一类称为非度量的MDS(nonmetric MDS); 另一类为量度的MDS(metric MDS)。 前者使用了研究对象间距离(或相似度) 的排序信息,而后者用的是实际上的数 量指标。
所谓“最好”可以有两种标准。一种是规 定克鲁斯克系数的一个临界值,当一个图 形结构的克鲁斯克系数小于这个临界值, 就认为好。如果二维空间图形结构达不到 好的标准,就用三维空间图形结构,余此 类推。 另一种途径是分别对二,三,四,……维 空间图形结构求出其最小的克鲁斯克系数, 然后用空间维数作为横坐标,对应的克鲁 斯克系数作为纵坐标,在坐标系中描图(例 如下图4)。
一、配对比较法
二、配对评分法
研究者预先设计好一个八点双极评分表,并将n 种品牌每两种配成一对,共有
三、诱导法
研究者先找出品牌的某些特性,然后将每 一种特性配成一双极评分表。例如对牙膏 来说,可用下列特性:
在调查时,应答者对每一特性,给各种品 牌进行评分。例如:对于预防腐烂,洁银 牙膏的评分为6,田七牙膏的评分为5;对 于牙齿变白,洁银牙膏的评分为5,田七牙 膏的评分为6。根据每种品牌在各特性上的 评分,可以同各种品牌在应答者心目中的 距离。计算公式如下:
第一节 引

第一节 引

1970---1972年格林(Green) 将多维标度法应用于 市场研究方面,主要研究消费者的态度,衡量消 费者的感觉和偏好。 运用多维标度法将消费者对各种品牌产品的偏好 和感觉资料,变换成空间坐标图。 用坐标图中的点代表各种品牌; 各点之间的距离则表示各种品牌在消费者心目中 的相似或差异程度; 各点到坐标的距离则表示消费者对某一品牌、某 种特性的评价。 这种方法将消费者对各种品牌之间的相似或差异 程度的评价,用距离及图形表示出来,因此具有 形象直观的特点

对于图4的情形,空间维数从…一增至二,或 增至三,克鲁斯克系数均有较大 的下降,而从三 维到四维或四维到五维,克鲁斯克系数变化不大, 故可取三维空间来构图。
2.多维标度法不能确定图形结构的绝对位置 必须注意用多维标度法构造出的图形结构, 只能确定各种品牌之间的相对位置, 但 其绝对位置则不能完全确定。例如,在图5 中各种图形结构都是等价的,都可以作为 多维标度法的结果。
第二节
多维标度法的原理和计算步骤
在聚类分析中,对于给定坐标的一组点群, 我们很容易计算它们两两之间的距离 或相 似系数(如同火车站的里程表或运价表)。 多维标度法可以说是上述问题的逆问题, 即给定样品两两之间的距离或相似度的排 序,反求各样品点的坐标。 下面通过一个具体例子说明多维标度法的 原理和计算步骤。
4.结果依赖于品牌的选择
用多维标度法得出的图形结构,其空间的 维数与所研究的品牌有关。如果研究者遗 留了某些重要的品牌,则某些关键的坐标 就不会在结果中出现。另一方面,如果竞 争的品牌收集过多,则会使空间维数大大 增加,使结果失去直观形象。
第四节 收集资料的方法
多维标度法与其他方法不同,其输入资料 是各种品牌之间的相似或差异资料。这类 资料的收集方法很多,而每种方法对于调 查问卷的设计和资料的处理,都有不同程 度的影响。 本节将介绍以下几种方法

其中a(0<a<1)是比例系数,n为品牌个数。(如 果初始图形结构在r维坐标空间上建立,则应有r 组公式,其表达式和(2)式类似)。
前例中,若取a=0.618,那么
A牌牙膏的新x坐标为:
由上得出第一次修改后的新图形结构列于 表6中
重复第二至第四步,直至克鲁斯克系数S达 到预先规定的数值。经过22次重复计算后, S降至0.02,得到的最后图形结构列于表7, 其图形见图3。
这里的输入资料是消费者对各种品牌产品 之间的相似或差异程度的评价,其输出则 是与品牌有关的特性以及各种品牌在各特 性中的位置。 因此,多维标度法是用间接方法推断出品 牌有关的特性。 在许多情形中,我们可能不知道那些特性 与品牌有关,或者应答者不能够或不愿意 准确地回答,这时必须采用间接推断的方 法。
第一节 引


多维标度法是基于研究对象之间的相似性,将研 究对象在一个低维的(一般小于等于二维)的空间 形象地表示出来,进行聚类或维度内含分析的 一种图示法。 说得详细一点,MDS是这样一种方法:在N个物 品中已知它们的相似度(或距离),要寻找一个低 维空间表示,使物品间的亲近(proximity)关系能 和原来的相似度有一个近似的匹配。 这个匹配的数量近似,可以用一个称为克鲁斯 克系数“Stress‘’的指标来表达。
其中r表示特性数日,dij表示品牌i和品牌j的距离, xik表示品牌i在特性k上的评分,xjk表示品牌j在特 性k上的评分。 将所有品牌的两两距离计算出来,便可列出距离 矩阵,例如,有A,B,C三种品牌,则其距离矩 阵为:
四、主观分组法
当品牌的数目太多时,应用前面的三种方 法,需要应答者回答的内容太多,容易 引起应答者不耐烦。为了解决这个问题, 可以采取主观分组法,它可分为:固定组 数分组法和变动组数分组法。
相关文档
最新文档