新版对应分析方法与对应图解读方法-新版.pdf
对应分析方法与对应图解读方法

对应分析方法与对应图解读方法——七种分析角度对应分析是一种多元统计分析技术,主要分析定性数据Category Data方法,也是强有力的数据图示化技术,当然也是强有力的市场研究分析技术。
这里主要介绍大家了解对应分析的基本方法,如何帮助探索数据,分析列联表和卡方的独立性检验,如何解释对应图,当然大家也可以看到如何用SPSS操作对应分析和对数据格式的要求!对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。
交互表的信息以图形的方式展示。
主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
适用于两个或多个定类变量。
主要应用领域:概念发展(Concept Development)新产品开发 (New Product Development)市场细分 (Market Segmentation)竞争分析 (Competitive Analysis)广告研究 (Advertisement Research)主要回答以下问题:谁是我的用户?还有谁是我的用户?谁是我竞争对手的用户?相对于我的竞争对手的产品,我的产品的定位如何?与竞争对手有何差异?我还应该开发哪些新产品?对于我的新产品,我应该将目标指向哪些消费者?数据的格式要求对应分析数据的典型格式是列联表或交叉频数表。
常表示不同背景的消费者对若干产品或产品的属性的选择频率。
背景变量或属性变量可以并列使用或单独使用。
两个变量间——简单对应分析。
多个变量间——多元对应分析。
案例分析:自杀数据分析上面的交互分析表,主要收集了48961人的自杀方式以及自杀者的性别和年龄数据!POISON(毒药)GAS(煤气)HANG(上吊)DROWN(溺水)GUN(开枪)JUMP(跳楼)(我们就不翻译成中文了,读者可以把六个方式想象成品牌或别的什么)当然,我们拿到的最初原始数据可能是SPSS数据格式记录表,其中,性别取值1-male 2-female,年龄取值1-5,分别表示不同年龄段。
对应分析

可见 λk 也是ZZ’的特征根,相应的特征向量是 Zu k
因此将原始数据矩阵X变换成矩阵Z,则变量和 样品的协差阵分别可表示为 A = Z ′Z 和B=ZZ′ ,A和 B具有相同的非零特征值,相应的特征向量有很密 切的关系。 这样就可以用相同的因子轴去同时表示变量 和样品,把变量和样品同时反映在具有相同坐标 轴的因子平面上。
= ∑ z ak z aj
a =1
n
pak − pa. p.k xak − xa. x.k = z ak = pa. p.k xa. x.k
令Z为zij所组成的矩阵,则 A = Z′Z
p1 j 称 p. j
p2 j p. j
L
pnj x1 j = p. j x. j
L
第i个行变量的期望:
E( pij p. j )=∑
j =1 p
pij p. j
. p. j = pi.
因为原始变量的数量等级可能不同,所以为了尽量 减少各变量尺度差异,将列形象中的各行元素均除以 其期望的平方根。得矩阵D(Q)
p11 p.1 p1. p21 D (Q ) = p.1 p2. M p n1 p.1 pn. p12 p.2 p1. p22 p.2 p2. M pn 2 p.2 pn.
X ⋅ X*
*
′
x11 − x1 x21 − x1 L xn1 − x1 x11 − x1 x12 − x2 L x1p − xp x12 − x2 x22 − x2 L xn2 − x2 x21 − x1 x22 − x2 L x2 p − xp = × M M M M M M x − x x − x L x − x x −x x − x L x − x np p n1 1 n2 2 np p 1p p 2 p p
对应分析

第九章 对应分析§9.1 什么是对应分析及基本思想对应分析又称为相应分析,于1970年由法国统计学家J.P.Beozecri 提出来的。
它是在R 型和Q 型因子分析基础上发展起来的一种多元统计方法。
由前一章我们知道应用因子分析的方法,可以用较少的几个公共因子去提取研究对象的绝大部分信息,即可减少因子的数目,又把握住了研究对象之间的相互关系。
但是因子分析根据研究对象的不同又分为R 型因子分析和Q 型因子分析,即对指标(变量)作因子分析和对样品作因子分析是分开进行的,这样做往往会漏掉一些指标与样品之间有关的一些信息,另外在处理实际问题中,样品的个数远远地大于变量个数。
比如有100个样品,每个样品测10项指标,要作Q 型因子分析,就要计算(100×100)阶相似系数阵的特征根和特征向量,这对于一般小型计算机的容量和速度都是难以胜任的。
对应分析是将R 型因子分析与Q 型分子分析结合起来进行统计分析,它是从R 型因子分析出发,而直接获得Q 型因子分析的结果。
克服了由样品容量大,作Q 型分析所带来的计算上的困难。
另外根据R 型和Q 型分析的内在联系,可将指标(变量)和样品同时反映到相同坐标轴(因子轴)的一张图形上,便于对问题的分析。
比如在图形上邻近的一些样品则表示它们的关系密切归为一类,同样邻近的一些变量点则表示它们的关系密切归为一类,而且属地同一类型的样品点,可用邻近的变量点来表征。
因此,对应分析,概括起来可提供如下三方面的信息即指标之间的关系,样品之间的关系,以及指标与样品之间的关系。
基本思想:由于R 型因子分析和Q 型因子分析都是反映一个整体的不同侧面,因此它们之间一定存在内在的联系。
对应分析就是通过一个过渡矩阵Z 将二者有机地结合起来,具体地说,首先给出变量点的协差阵Z Z A '=和样品点的协差阵Z Z B '=,由于Z Z '和Z Z '有相同的非零特征根记为),m i n(0,21n p m m ≤<≥≥≥λλλ ,如果A 的特征根i λ对应的特征向量为i U ,则B 的特征根i λ对应的特征向量就是i i V ZU ∆,根据这个结论(后面有证明)就可以很方便的借助R 型因子分析而得到Q 型因子分析的结果。
对应分析方法与对应图解读方法 (2)

对应分析方法与对应图解读方法——七种分析角度对应分析就是一种多元统计分析技术,主要分析定性数据Category Data方法,也就是强有力的数据图示化技术,当然也就是强有力的市场研究分析技术。
这里主要介绍大家了解对应分析的基本方法,如何帮助探索数据,分析列联表与卡方的独立性检验,如何解释对应图,当然大家也可以瞧到如何用SPSS操作对应分析与对数据格式的要求!对应分析就是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。
交互表的信息以图形的方式展示。
主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
适用于两个或多个定类变量。
主要应用领域:概念发展(Concept Development)新产品开发(New Product Development)市场细分(Market Segmentation)竞争分析(Competitive Analysis)广告研究(Advertisement Research)主要回答以下问题:谁就是我的用户?还有谁就是我的用户?谁就是我竞争对手的用户?相对于我的竞争对手的产品,我的产品的定位如何?与竞争对手有何差异?我还应该开发哪些新产品?对于我的新产品,我应该将目标指向哪些消费者?数据的格式要求对应分析数据的典型格式就是列联表或交叉频数表。
常表示不同背景的消费者对若干产品或产品的属性的选择频率。
背景变量或属性变量可以并列使用或单独使用。
两个变量间——简单对应分析。
多个变量间——多元对应分析。
案例分析:自杀数据分析上面的交互分析表,主要收集了48961人的自杀方式以及自杀者的性别与年龄数据!POISON(毒药)GAS(煤气)HANG(上吊)DROWN(溺水)GUN(开枪)JUMP(跳楼)(我们就不翻译成中文了,读者可以把六个方式想象成品牌或别的什么)当然,我们拿到的最初原始数据可能就是SPSS数据格式记录表,其中,性别取值1-male 2-female,年龄取值1-5,分别表示不同年龄段。
对应分析

文献类型 普通图书:M 会议录:C 汇编:G 报纸:N 期刊:J 学位论文:D 报告:R 标准:S 专利:P 数据库:DB 计算机程序:CP 电子公告:EB 载体类型 网络:OL 磁带:MT 磁盘:MK 光盘:CD
谢
谢!
药名 川芎 当归 地黄 芍药
表1 魏晋到隋唐四药临床应用分科表 妇科 内科 骨伤 外科 儿科 口腔科 杂病
34 53 24 20
100 166 135 140
12 26 3 18
74 97 49 73
2 4 4 4
3 2 1 0
注意给应用频数变量进行加权处理。
解的维数为各变量中最少分类数减1 对于分类变量,距离一般选用卡氏距离; 欧氏距离适合于连续性变量。 其它选项取默认值。
从左到右的前五个指标依次是维数、奇异值、惯量、总 卡方值及P值。其中奇异值就是惯量的平方根,相当于相 关分析中的相关系数,而惯量就是常说的特征根,用以 说明对应分析中各维度的结果能够解释列联表中两变量 联系的程度。
文后参考文献著录规则
主要责任者.题名:其他题名信息[文献类型标志].其他责
任者.版本项.出版地:出版者, 出版年:引文页码[引用
对应分析
对应分析是多维图示分析技术的一种,该
技术是探索与观看多维数据间联系的一种
强有力的方法。
对应分析可根据所用变量的数量分为两种:
简单对应分析用于分析两个分类变量间的 关系,在SPSS中可以使用 Correspondence Analysis过程完成。 而多重对应分析是分析一组属性变量之间 的相关性,需要使用Optimal Scaling过程 来拟合。
对应分析

对应分析
对应分析适用于:两个大类(可以看做一个行和一个列)中每个大类的细分指标的相关关系研究。
例如有A和B两大类,A中有A1-A5五个类型,B中有B1-B5五个类型。
研究这些细分类型的相关关系。
首先做卡方检验(行列相关性分析,当P<0.05时,说明行和列中的指标有相关性),然后进行对应分析。
一、进行卡方检验,检验分组之间的相关性。
通过卡方检验,P<0.05。
说明这两组数据间有相关性。
二、对应分析
有两组变量,分别设为行和列;再定义范围,每组有几个小变量就是它的范围。
三、对应分析的卡方检验
通过卡方检验,P<0.05。
说明这两组数据间有相关性
四、分析图
五、结论
1、靠近原点的没有意义。
2、在同一个象限的,趋势相同的,说明有相关性。
3、第四象限:眼深色比其他眼睛颜色而言,头发出现深色和黑色的比例高。
4、第三象限:头发金色比其他颜色而言,眼睛出现浅色和蓝色的比例高。
最优尺度分析
最优尺度分析是对应分析的升级版,适用于:多个大类(大于等与3个大类)中每个大类的细分指标的相关关系研究。
例如有A、B 和C三大类,A中有A1-A5五个类型,B中有B1-B5五个类型,C中有C1-C5五个类型,类型间的相互关系。
对应分析图解读的七种方法

原点定理:如果某点离圆心越远,则说明该点具有的个性越鲜明,与其 他点(产品)差异大,从统计学的角度说明越有意义.
/xiaowenzi22
象限二
象限一
象限三
象限四
象限分析:根据原点把整个图划分成四象限,每个象限代表着不同属性 的点(产品),具体原理可参见SWOT分析.
LOGO
/xiaowenzi22
�
LOGO
由沈浩教授讲授,小蚊子总结
距离定理(自己瞎叫的):连接原点到其中某点(如城市6)做一条射线, 并反向延长做虚线,做Xn(n个X点)到这条直线的垂直线,交叉的点 (垂点)离城市6越近,说明越相关,反之越不相关.
注:本资料只是提供一种分析思路具体做法自行研究,另外由于暂无找到合适的对应分析图,所以本资料所采用的 对应分析图与所进行的解释说明可能不符,请读者自行想象相关图形.
/xiaowenzi2分析:根据某点(城市6)所在位置向图内各方向做射线(发展 方向,以确定将遇到的竞争对手或困难,来确定企业发展方向.
/xiaowenzi22
市场细分:对密集点进行分割确定细分市场,这种方法是最经常用到的.
/xiaowenzi22
圆心定理:以某点(城市6)为圆点做半径不同的圆数个,其他点落入的 圆上的半径越短,则说明购买该产品的可能性越大,或者是具有相似行 为但属性(年龄等)不同的消费者.
/xiaowenzi22
/xiaowenzi22
锐角
余弦定理:连接其中两点到原点(如城市4与城市5),各做一条射线, 两条线之间的夹角越小,说明他们越相关(余弦定理:夹角的余弦用来 表示相关性的大小),如果从产品角度上说具有竞争关系.
/xiaowenzi22
对应分析

对应分析练习题一.对应分析的思想方法及特点(一)对应分析的基本思想及特点对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
(二)对应分析方法的优缺点1.定性变量划分的类别越多,这种方法的优越性越明显2.揭示行变量类间与列变量类间的联系3.将类别的联系直观地表现在图形中4.不能用于相关关系的假设检验5.维数有研究者自定6.受极端值的影响二.对应分析中的总惯量总惯量不仅反映了行剖面集定义的各点与其重心加权距离的总和,同时与2 统计量仅相差一个常数,而统计量反映了列联表横联与纵联的相关关系,因此总惯量也反映了两个属性变量各状态之间的相关关系。
对应分析就是在对总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系。
三.对应分析具体案例1.搜集5387位中学生眼睛颜色与头发颜色的调查数据,应用对应分析比较两变量的关系2.对数据进行预处理,以频数变量进行加权:分析-降维-对应分析3.结果分析(1)对应分析反映的是眼睛颜色和头发颜色不同组合下的实际样本数(2)对应分析摘要维度=最小分类数(眼睛颜色数)-1,前两个维度就解释了99.6%的信息。
(3)对应分析坐标值及贡献值质量栏表示各种类别的构成比,维中的得分栏表示个类别在相关维度上的评分,惯量栏给出了总惯量在行变量中的分解情况,数值越大表示该类别对惯量的贡献越大。
深色、蓝色、浅色都主要分布在第一维度上,棕色主要分在第二维度上,总计表示各唯独的信息比例之和,可见红色这一类别在前两位中只提出80.3%的信息,效果最差。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对应分析方法与对应图解读方法——七种分析角度
对应分析是一种多元统计分析技术,主要分析定性数据Category Data方法,也是强有力的数据图示化技术,当
然也是强有力的市场研究分析技术。
这里主要介绍大家了解对应分析的基本方法,如何帮助探索数据,分析列联表和卡方的独立性检验,如何解
释对应图,当然大家也可以看到如何用SPSS操作对应分析和对数据格式的要求!
对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。
交
互表的信息以图形的方式展示。
主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差
异,以及不同变量各个类别之间的对应关系。
适用于两个或多个定类变量。
主要应用领域:
概念发展(Concept Development)
新产品开发(New Product Development)
市场细分(Market Segmentation)
竞争分析(Competitive Analysis)
广告研究(Advertisement Research)
主要回答以下问题:
谁是我的用户?
还有谁是我的用户?
谁是我竞争对手的用户?
相对于我的竞争对手的产品,我的产品的定位如何?
与竞争对手有何差异?
我还应该开发哪些新产品?
对于我的新产品,我应该将目标指向哪些消费者?
数据的格式要求
对应分析数据的典型格式是列联表或交叉频数表。
常表示不同背景的消费者对若干产品或产品的属性的选择
频率。
背景变量或属性变量可以并列使用或单独使用。
两个变量间——简单对应分析。
多个变量间——多元对应分析。
案例分析:自杀数据分析
上面的交互分析表,主要收集了48961人的自杀方式以及自杀者的性别和年龄数据!POISON(毒药)GAS(煤气)HANG(上吊)DROWN(溺水)GUN(开枪)JUMP(跳楼)(我们就不翻译成中文了,读者可以把六个方式
想象成品牌或别的什么)
当然,我们拿到的最初原始数据可能是SPSS数据格式记录表,
其中,性别取值1-male 2-female,年龄取值1-5,分别表示不同年龄段。
要回答的问题是:
1-不同性别的人在选择自杀方式上有什么差别?
2-不同年龄的人在选择自杀方式上有什么差别?
3-不同性别年龄的人在选择自杀方式上有什么差别?
我们首先,把性别字段乘上10加上年龄字段生成新字段sexage,取值是11-15,21-25,然后分别用M/F和年龄组中值代表Sexage字段的变量值标,这样我们就可以进行简单对应分析了!
现在问大家,如果你看到上面的6×10的矩阵-列联表,你能看出什么差异?
现在我们采用SPSS软件进行对应分析!
(我现在用的是SPSS17.0多语言版本,前两天听博易智讯的人说,现在SPSS已经有18.0版本了,不过从对应分析方法角度我还是希望用11.5版本,因为可以自己拆分重新组合修改图形,现在的版本是图片了,不能随心
所欲的修改,不爽!)
分别定义好行列变量以及它们的取值范围!
对应分析中,6×10的列联表(交互表)可以得到行列维度最小值减1的维度,我们看到第一维度Dim1解释了列联表的60.4%,第二维度Dim2解释了列联表的33.0%,说明在两个维度上已经能够说明数据的93.4%,这是比较理想的,当然我们也可以看卡方检验等!
下面我们主要解释如何解读对应图(小蚊子的博客中也有非常相似的解释,我非常欣赏他的博客)
首先对SPSS分析得到的对应图进行修饰和编辑,在零点增加两条中线!
解读方法:
1-总体观察:
我们从图上左右可以看出,左边全部是M*,男性,右边F*全部是女性,说明男女有显著差异;同时看横轴中
线上方都是年龄大的,下面都是年龄小的,说明年龄有差异;这样就一目了然看出和回答了前两个问题;
2-观察邻近区域
我们从图上可以看出,老的男性比较喜欢HANG,GAS和GUN是年轻男性的偏好;老的女性比较喜欢DAWN,年轻的女性比较偏好POISON;
3-向量分析——偏好排序
我们可以从中心向任意点连线-向量,例如从中心向GUN做向量,然后让所有的人往这条向量及延长线上作垂
线,垂点越靠近向量正向的表示越偏好这种方法。
记住:是垂点到GUN正向排名,从图中我们可以看出,希望GUN方法的人依次是M15、M30、M45、M60、M80、F15等等;依次类推,我们还可以从中心向任意一种方法作垂线,都可以排出每种方法选择人群的偏好次
序;当然,你也可以从中心往所有的人作向量,得到每一类人在选择六种方法上的偏好排名!
你是否可以看出,F15年轻的女性对六个“品牌”的偏好吗?
4-向量的夹角——余弦定理
接着,我们可以从向量夹角的角度看不同方法或不同人之间的相似情况,从余弦定理的角度看相似性!
从图上我们可以看出,当我们从中心向任意两个点(相同类别)做向量的时候,夹角是锐角的话表示两个方法
具有相似性,锐角越小越相似;也就是说,GUN和GAS是相似品牌,当如也是竞争品牌,也具有替代性,如果
这次开枪没有自杀成功,下次他一定选择毒气啦;我们也看出F15和F30的人比较相似,但F15与M80就有非常大的差异了,因为如果作向量他们是钝角,几乎是平角了!
5-从距离中的位置看:
越靠近中心,越没有特征,越远离中心,说明特征越明显
从这张对应图中我们看到,有些点远离中心,有些点靠近中心,这说明什么呢?从几何空间的角度,如果我对
每一人都一样的好,在规范图上我就应该站在大家的重心,也就是中心;这说明越靠近中心的点,越没有差异,
(记住:没有差异并不代表不重要,只是没有差异,因为统计的技术是研究差异的技术,差异越大往往重要性
就大!),越远离中心特征越明显,也就是说,如果听到一个M80的人自杀了,估计你就会想到是不是HANG啦!
从品牌角度思考,说明越远离中的的品牌,消费者很容易识别,说明品牌特征(特色、特点)明显,越靠近中心的品牌,消费者不易识别,也说明你的品牌定位没有显著可识别的特征,没有差异认知!
6-坐标轴定义和象限分析
我们还没有定义坐标轴呢?从第一点的分析,其实我们很快就可以定义坐标轴的含义了!(当然有时候对应图的座位是非常难定义的)
因此,落在第四象限的是年轻的女性所喜欢的品牌!
7-产品定位:理想点与反理想点模型
我们可以在图上以POISON为定位点,以POISON为圆心,以它的利益为半径画圆,那么我们可以得出这样的结论:越先圈进来的人就是最喜欢这个品牌的消费群,越先圈进来的品牌越可能是竞争品牌;当然,你也可以以
某类人作为圆心,同意解读;如果POISON是市场不存在的,在调查中可以设定为理想点,这样我们就可以得到理想点模型,同理也可以得到反理想点模型分析!
8-市场细分和定位
最后,研究人员可以根据前面的分析和自身市场状况,进行市场细分,找到目标消费群,然后定位进行分析!最终选择不同的目标市场制定有针对性的营销策略和市场投放!
我们也可以尝试采用多元对应分析,但不如简单对应分析有意义!
简单对应分析的优点:
定性变量划分的类别越多,这种方法的优势越明显,揭示行变量类别间与列变量类别间的联系,将类别联系直观地表现在二维图形中(对应图),可以将名义变量或次序变量转变为间距变量。
简单对应分析的缺点:不能用于相关关系的假设检验,维度要由研究者决定,有时候对应图解释比较困难,对极端值比较敏感。