多元统计分析——对应分析

合集下载

应用多元统计分析-第八章 列联与对应分析

应用多元统计分析-第八章 列联与对应分析

82
123
% within sex
66.67 100.00%
观察值的分布
事实上,表8.2就是一个最简单的观察值 的分布。 观察值分布虽然反映了数据的分布,但 因为基数不同,不适合于进行对比。 为了能在此相统的基数上比较,使列联 表中的数据提供更多的分布
如果我们想进一步了解不同性别的人对 这项政策的观点是否存在着显著的差异, 就要进行检验。 从逻辑上讲,如果男女性别的人对这项 政策的看法相同,那么男性不赞同方案 的人应为:58×33.3%=19人,女性不赞同 方案的人应为:65×33.3%=22人。 这19人和22人就是本例中的期望值,由 此可以计算出期望值的分布。
对应分析
由于所有的检验都很显著,看来两个变 量的确不独立。 但是如何用象因子分析的载荷图那样的 直观方法来展示这两个变量各个水平之 间的关系呢?这就是本章要介绍的对应 分析(correspondence analysis)方法。 对应分析是将指标型的因子分析与样品 型的因子分析结合起来进行的统计分析。
例7.1—数据文件:ChMath.sav
这项研究是为了考察汉字具有的抽 象图形符号的特性能否会促进儿童 空间和抽象思维能力。 该数据以列联表形式展示在表中:
人们可以对这个列联表进行前面所说的X2检验来考 察行变量和列变量是否独立。结果在下面表 (通过Analyze-Descriptive Statistics-Crosstabs)
sex * opinion Crosstabulation
opinion
不赞成
sex 女 % within sex 男 Count % within sex Total Count
赞成
18
27.69 23 39.66

多元统计分析——对应分析

多元统计分析——对应分析

多元统计分析——对应分析多元统计分析是指在研究中同时考虑两个或多个自变量对因变量的影响,并通过统计方法进行分析。

对应分析是多元统计分析的一种方法,用于确定两个或多个分类变量之间的关联性。

对应分析可以帮助人们理解变量之间的相关性,并提供用于可视化和解释数据的工具。

在本文中,我们将详细介绍对应分析的概念、原理、应用以及一些重要的注意事项。

对应分析的应用非常广泛。

它可以用于数据挖掘、市场研究、生态学、社会科学等领域。

在市场研究中,对应分析可以用于确定消费者对产品的喜好和需求,帮助企业调整产品定位和市场战略。

在生态学中,对应分析可以用于研究不同物种之间的相互作用,并帮助我们了解生态系统的结构和动态。

在社会科学中,对应分析可以用于研究不同社会群体之间的关系,例如分析不同年龄段人群的消费行为和购买偏好。

然而,对应分析也需要注意一些重要的事项。

首先,对应分析是一种描述性的分析方法,不能确定因果关系。

其次,对应分析对数据的分布假设了一定的要求,例如对称分布、线性关系等。

如果数据的分布不满足这些假设,结果可能会不准确。

最后,对应分析通常在两个分类变量之间进行,而不适用于连续变量或混合类型的变量。

在总结中,对应分析是多元统计分析的一种方法,用于确定两个或多个分类变量之间的关联性。

它可以帮助我们理解变量之间的相关性,并提供用于可视化和解释数据的工具。

对应分析有着广泛的应用领域,但也需要注意一些重要的事项。

通过理解对应分析的原理和应用,我们可以更好地利用这一方法来分析和解释数据。

多元统计分析-对应分析

多元统计分析-对应分析

03
列联表检验的零假设是两变量 X和Y 相互独立,计算一个卡方统计量,与列联表中频数取值 和零假设下期望取值之差有关,当卡方 很大时否定零假设。
BA
患慢性支 未患慢性 气管炎 支气管炎
吸烟
43
162
不吸烟
13
121
为了探讨吸烟与慢性支气管炎有无关系, 调查了339人,情况如表所示:
设想有两个随机变量A,B:A:1表示吸 烟,
对应分析
对应分析基本步骤: 建立列联表
利用对应图解释结 果。
1
2
3
一.获取对应分析 数据 确定研究目的, 选择对应分析 所需数据,应 该包括的背景 资料。
对应分析
4
5
二、对应分析 的原理
01
由于R型因子分析和 02
设原始数据矩阵为:
Q型因子分析是反映
一个整体的不同侧面,
R型因子分析是从列
来讨论(对变量),
k
特征根。
Zu k
设 1 2…
三、对应图u 1u 11u 21 A和l(0Bu <的p 1 i<非m零in特(n征,p根)),为其矩相阵应 u 2u 12u 22 的特征u p 向2量为
v 1 v 1 1v 2 1 v n 1 v 2 v 1 2 v 2 2 v n 2
我们知道因子载荷矩阵的含义是原始变量与公共因子之间的 相关系数,所以如果我们构造一个平面直角坐标系,将第一 公共因子的载荷与第二个公共因子的载荷看成平面上的点, 在坐标系中绘制散点图,则构成对应图。
Q型因子分析是从行
来讨论(对样品),
因此 在的
他们之
联 x系1。1

存在
x12

多元统计分析(聚类分析,判别分析,对应分析)

多元统计分析(聚类分析,判别分析,对应分析)

91.500
358.500
95.000
357.000
输出的第一部分对应表是由原始数据学号与科目 分类的列联表,可以看出观测总数n=40,说明原 始数据中没有记录缺失,有效边际为行列数的总 和。
维数 1 2 3 总计
汇总 惯量比例
置信奇异值
奇异值 .075 .052
惯量 .006 .003
解释 .548 .264
2 -.143 -.427 .065 -.013
概述列点a
惯量 .002 .003 .005 .000 .010
点对维惯量
1 .000
2 .099
.022
.880
.975
.021
.003
.001
1.000
1.000
贡献
1 .000 .047 .989 .039
维对点惯量 2 .135 .887 .010 .006
(列)的每一状态对每一维度(公共因子)特
征值的贡献及每一维度对行(列)各个状态的
特征值等贡献。如第一维度中,外语对应的数 值最大,为0.975,说明外语这一状态对第一维 度的贡献最大。
对应分析
由以上两张坐标表可以得出如下的叠加散点图,也是输出 的最后一部分,是学号各状态与科目各状态同时在一张二 维图上的投影。在图上既可以看到每一变量内部各状态之 间的相关关系,又可以同时考察两变量之间的相关关系。
对应分析
结果分析
学号 1 2 3 4
语文 82.000 81.000 83.000 72.000
对Байду номын сангаас表
数学 120.000 119.000 115.000 115.000
科目 外语 71.000 77.000 69.000 75.000

《应用多元分析》第三版(第九章 对应分析)

《应用多元分析》第三版(第九章  对应分析)

p
i 1
pij
p j pi pi
是第j列轮廓cj到列轮廓中心r的卡方距离。故总惯量
可看成是行轮廓到其中心的卡方距离的加权平均,
也可看成是列轮廓到其中心的卡方距离的加权平均。
它既度量了行轮廓之间的总变差,也度量了列轮廓
之间的总变差。
总惯量为零的等价情形
❖ 总惯量为零与以下三种情形的任一种等价: (1) pij pi p j , i 1, 2, , p, j 1, 2, , q ,或表示 为 P rc; (2)所有的行轮廓相等,即 r1 r2 rp c; (3)所有的列轮廓相等,即c1 c2 cq r。
最后一列用r表示,即
r P1 p1, p2, , pp
其中1 1,1, ,1 是元素均为1的q维向量,最后一行
用 c表示,即
c 1P p1, p2, , pq
其中1 1,1, ,1是元素均为1的p维向量,向量r和c
的元素有时称为行和列密度(masses)。
三、行、列轮廓
❖ 第i行轮廓(profile) :
pp
列轮廓矩阵
p11 p1
p12 p2
C PDc1 c1,c2,
p21
, cq p1
p22 p2
pp1 pp2
p1
p2
其中 Dc diag p1, p2, , pq 。
p1q
pq
p2q
pq
ppq
pq
p1
r P1 PDc1 Dc1 c1,c2,
第九章 对应分析
❖ 对应分析(correspondence analysis)是用于寻求列联表的行 和列之间联系的一种低维图形表示法,它可以从直觉上揭示 出同一分类变量的各个类别之间的差异,以及不同分类变量 各个类别之间的对应关系。

对应分析方法与对应图解读方法

对应分析方法与对应图解读方法

对应分析方法与对应图解读方法——七种分析角度对应分析是一种多元统计分析技术,主要分析定性数据Category Data方法,也是强有力的数据图示化技术,当然也是强有力的市场研究分析技术。

这里主要介绍大家了解对应分析的基本方法,如何帮助探索数据,分析列联表和卡方的独立性检验,如何解释对应图,当然大家也可以看到如何用SPSS操作对应分析和对数据格式的要求!对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。

交互表的信息以图形的方式展示。

主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。

适用于两个或多个定类变量。

主要应用领域:概念发展(Concept Development)新产品开发 (New Product Development)市场细分 (Market Segmentation)竞争分析 (Competitive Analysis)广告研究 (Advertisement Research)主要回答以下问题:谁是我的用户?还有谁是我的用户?谁是我竞争对手的用户?相对于我的竞争对手的产品,我的产品的定位如何?与竞争对手有何差异?我还应该开发哪些新产品?对于我的新产品,我应该将目标指向哪些消费者?数据的格式要求对应分析数据的典型格式是列联表或交叉频数表。

常表示不同背景的消费者对若干产品或产品的属性的选择频率。

背景变量或属性变量可以并列使用或单独使用。

两个变量间——简单对应分析。

多个变量间——多元对应分析。

案例分析:自杀数据分析上面的交互分析表,主要收集了48961人的自杀方式以及自杀者的性别和年龄数据!POISON(毒药)GAS(煤气)HANG(上吊)DROWN(溺水)GUN(开枪)JUMP(跳楼)(我们就不翻译成中文了,读者可以把六个方式想象成品牌或别的什么)当然,我们拿到的最初原始数据可能是SPSS数据格式记录表,其中,性别取值1-male 2-female,年龄取值1-5,分别表示不同年龄段。

多元统计对应分析


车主de车型及车主特征
产地 1 = "American" 2 = "Japanese" 3 = "European";
轿车的尺寸 1 = "Small" 2 = "Medium" 3 = "Large";
车型 1 = "Family" 2 = "Sporty" 3 = "Work";
拥有方式 1 = "Own" 2 = "Rent";
代码 Name1 Name2 Name3 Name4 Name5 Name6 Name7 Name8
含义 玉泉 雪源 春溪 期望 波澜 天山绿 中美纯 雪浪花
代码 Product1 Product2 Product3 Product4 Product5 Product6 Product7 Product8
两个定类或定序变量分布的描述和分析通常使用列联表, 并采用 检验检验变量之间是否幸福独立。
(2) 列联表(contingency table)的构造
1)由两个或两个以上变量进行交叉分类的频数分布表。
2)行变量的类别数用 r 表示, 列变量的类别数用 c
表示。 3)由行变量和列变量的所有可能组合的频数构成的表 格,称为列联表。
这项研究是为了考察汉字具有的抽象图形符 号的特性能否会促进儿童空间和抽象思维能力。 该数据以列联表形式展示在表中:
人们可以对这个列联表进行前面所说的c2检验来考 察行变量和列变量是否独立。结果在下面表中(通过 Analyze-Descriptive Statistics-Crosstabs)
如何用象因子分析的载荷图那样的直观 方法来展示这两个变量各个水平之间的关 系呢?这就是本章要介绍的对应分析 (correspondence analysis)方法。

多元统计分析——对应分析


一般,若总体中的个体可按两个属性 与 一般 若总体中的个体可按两个属性A与 若总体中的个体可按两个属性 B分类,A有n类A1,A2,…,An,B有p类 分类, 有 类 分类 , 有 类 B1,B2,…,Bp, 属于 和Bj的个体数目为 属于Ai和 的个体数目为 nij(i=1,2, …,n;j= 1,2, …,p),nij称为 ( ) 称为 频数,则可形成n× 的二维列联表 的二维列联表, 频数,则可形成 ×p的二维列联表,简 称n×p表。 × 表 若所考虑的属性多于两个, 若所考虑的属性多于两个,也可按类似 的方式作出列联表,称为多维列联表 称为多维列联表。 的方式作出列联表 称为多维列联表。
列联表中列出了表格单元频数和在零假设下 的期望频数,可以看出, 的期望频数,可以看出,吸烟人中患病的数 目比期望数目大。 目比期望数目大。检验的结果只要看后面的 统计量部分的Chi-Square一行,其值为 一行, 统计量部分的 一行 7.469,p值为 值为0.006,所以应否定零假设,吸 , 值为 ,所以应否定零假设, 烟与患慢性支气管炎是不独立的。 烟与患慢性支气管炎是不独立的。
pij pij n 1 ∑ E( )= . pi. = p. j = i =1 p pi. p. j p. j p. j i.
N个点的重心为: ( P.1 , P.2 ⋯ P. p ) 个点的重心为: 个点的重心为
列联表
B1 A1 n11 A2 n21 B2 n12 n22 Bj Bp
… n1j
n2j

n1p n2p
n 1. n 2.
Ai ni1
ni2
nij
nip
ni.
An nn1 n.1
nn2 n.2
nnj n.j

对应分析

对应分析法一、简介对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,是一种多元统计分析技术,主要分析定性数据的方法,也是强有力的数据图示化技术。

对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。

交互表的信息以图形的方式展示。

主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系,适用于两个或多个定类变量。

对应分析是由法国人Benzenci于1970年提出的,起初在法国和日本最为流行,然后引入到美国。

对应分析法是在R型和Q型因子分析的基础上发展起来的一种多元统计分析方法,因此对应分析又称为R-Q型因子分析。

在因子分析中,如果研究的对象是样品,则需采用Q型因子分析;如果研究的对象是变量,则需采用R型因子分析。

但是,这两种分析方法往往是相互对立的,必须分别对样品和变量进行处理。

因此,因子分析对于分析样品的属性和样品之间的内在联系,就比较困难,因为样品的属性是变值,而样品却是固定的。

于是就产生了对应分析法。

对应分析就克服了上述缺点,它综合了R型和Q型因子分析的优点,并将它们统一起来使得由R型的分析结果很容易得到Q型的分析结果,这就克服了Q 型分析计算量大的困难;更重要的是可以把变量和样品的载荷反映在相同的公因子轴上,这样就把变量和样品联系起来便于解释和推断。

对应分析数据的典型格式是列联表或交叉频数表。

常表示不同背景的消费者对若干产品或产品的属性的选择频率。

背景变量或属性变量可以并列使用或单独使用。

两个变量间——简单对应分析;多个变量间——多元对应分析。

对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。

R语言版应用多元统计分析对应分析

应用多元统计分析第8章 对应分析- 1-对应分析(Correspondence Analysis)是在因子分析的基础上发展起来的一种视觉化的数据分析方法,目的是通过定位点图直观地揭示样品和变量之间的内在联系。

R型因子分析是对变量(指标)进行因子分析,研究的是变量之间的相互关系;Q型因子分析是对样品作因子分析,研究的是样品之间的相互关系。

但无论是R型或Q型分析都不能很好地揭示变量和样品之间的双重关系。

而在许多领域错综复杂的多维数据分析中,经常需要同时考虑三种关系,即变量之间的关系、样品之间的关系以及变量与样品之间的交互关系。

法国学者苯参次(J.P.Benzecri)于1970年提出了对应分析方法,这个方法对原始数据采用适当的标度化处理,把R型和Q型分析结合起来,通过R型因子分析直接得到Q型因子分析的结果,同时把变量和样品反映到同一因子平面上,从而揭示所研究的样品和变量之间的内在联系。

在因子分析中,R型因子分析和Q型因子分析都是从分析观测数据矩阵出发的,它们是反映一个整体的不同侧面,因而它们之间一定存在内在联系。

对应分析就是通过某种特定的标准化变换后得到的对应变换矩阵Z将两者有机地结合起来。

具体地,就是首先给出变量的R型因子分析的协方差阵 和样品的Q型因子分析的协方差阵 。

由于矩阵 和 有相同的非零特征值,记为 ,如果 的对应于特征值 的标准化特征向量为 ,则容易证明, 的对应于同一特征值的标准化特征向量为当样本容量n很大时,直接计算矩阵 的特征向量会占用相当大的容量,也会大大降低计算速度。

利用上面关系式,很容易从 的特征向量得到 的特征向量。

并且由 的特征值和特征向量即可得到R 型因子分析的因子载荷阵A和Q型因子分析的因子载荷阵B,即有由于 和 具有相同的非零特征值,而这些特征值又是各个公因子的方差,因此设有p个变量的n个样品观测矩阵 ,这里要求所有元素 ,否则对所有数据同时加上一个适当的正数,以使它们满足以上要求。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a 1
p .p aiap i. p .a
p i.
p .p aja pj. p .a
pj.
n
piapi.p.apjapa.p.j
a1 p.a pi. p.j p.a
n
zia z ja
a 1
令Z为zij所组成的矩阵,则
BZZ
令Z为zij所组成的矩阵,则 BZ Z 因此将矩阵变换成矩阵Z,则很容易求出A和B存
变量的叉积矩阵
样品的叉积矩阵
R (* X ) X * (p p ) QX *(X *) (n n )
显而易见,变量和样品的叉积矩阵的阶数不同, 一般来说,他们的非零特征根也不一样,那么能否将 观测值做变换。
X Z
ZZ和ZZ具有相同的特征根。
(一)规格化矩阵
x11 x12
X
x21
x22
个样品的协方a 差ij:ap 1 pa.pap i.i
p.i pa.papj.j
p.jpa.
ap 1 pa.pap i.i p.i
pa. pa.papj.j p.j
pa.
p
paipa.p.i pajpa.p.j
a1 pa. p.i pa. p.j
例 某地环境检测部门对该地所属8个 地区的大气污染状况进行了系统的的检测,每 天4次同时在各个地区抽取大气样品,则定其 中的氯、硫化氢、二氧化硫、碳4、环氧氯丙 烷、环已烷6种气体的浓度。有资料如下:
0.056 0.084 0.031 0.038 0.0081 0.022 0.049 0.055 0.1 0.11 0.022 0.0073 0.038 0.13 0.079 0.17 0.058 0.043 0.034 0.095 0.058 0.16 0.2 0.029 0.084 0.066 0.029 0.32 0.012 0.041 0.064 0.072 0.1 0.21 0.028 1.38 0.048 0.089 0.062 0.26 0.038 0.036 0.069 0.087 0.027 0.05 0.089 0.021
第7章 对 应 分 析
Correspondence Analysis
7.1列联表及列联表分析 7.2对应分析
7.1列联表及列联表分析
一、列联表及其作用 1.列联表是观测数据按两个或更多属性变量
(定类尺度或定序尺度)分类时所列出的频 数表。 2.列联表用于考察两个(或多个)分类变量 的统计学关联。如行变量与列变量之间的关 联性。
列联表检验的零假设是两变量 X和Y 相互独立,计 算一个卡方统计量,与列联表中频数取值和零假设 下期望取值之差有关,当卡方 很大时否定零假设。
B
6
例 吸烟与慢性支气管炎调查表
为了探讨吸烟与慢性支气管 炎有无关系,调查了339人, 情况如表所示:
B A
患慢性 支气管 炎
未患慢 性支气 管炎
设想有两个随机变量A,B: 吸 43
总惯量
由矩阵D(R)定义的n 个点与其重心的欧氏 距离之和称为行轮廓矩阵N(R) 的总惯量。
记为I I .
同时,可证明:
II
IJ
1 2
n
B
19
同理:

p 1 j p .j
p p 2 .jj p p . n j j x x 1 .j j
x 2 j x .j
x x . n j j j 1 ,2 ,3 , ,p
为列轮廓。
列轮廓矩阵为:
p11/ p.1 N(Q)p21/ p.1
pn1/ p.1
p12/ p.2 p22/ p.2
pn2/ p.2
p1p/ p.p p2p/ p.p
pnp/ p.p
E(pp.ijj)i n1pp.ijj.p.j pi.
因为原始变量的数量等级可能不同,所以为了
尽量减少各变量尺度差异,将列轮廓中的各行元 素均除以其期望的平方根。得矩阵D(Q)
p2
p
pnp
n
p
我们可以把pij解释成概率,因为所有的元素之和为1。
行和pi.: j p1pij
列和 p.j : i n1pij
Q
pij
pi.
xpij /x.. pij
xij /x..
p
xij /x..
xij xi.
j1
j1
p p i i 1 . p p i i2 . p p i i. p x x i i 1 . x x i i2 . x x i i. p i 1 ,2 ,3 , ,n 称为行轮廓。即把第i行表示成在p维欧氏空间中的一个点
p
zai zaj a 1
zaipai pap .p a..ip.i xai xax .x a..ix.i
令Z为zij所组成的矩阵,则 AZZ
利用列轮廓矩阵,可得第i个变量与第j 个变量的协方差:
bijan 1 p.apia pi.
pi. p.apjp aj.
pj.p.a
n
p11/p.1 p1. D(Q)p21/p.1 p2.
pn1/p.1 pn.
p12/p.2 p1. p22/p.2 p2.
pn2/p.2 pn.
p1p/p.p p1. p2p/p.p p2.
pnp/p.p pn.
E(p.jpijpi.)i n1p.jpijpi..p.j pi.
利用行轮郭矩阵,可得第i个样品与第j
B
3
列联表
B1 B2
Bj
A1 n11 n12 … n1j

A2 n21 n22
n2j
Bp n1p n1. n2p n2.
Ai ni1 ni2
nij
nip ni.
An nn1 nn2
n.1
n.2
nnj n.j
B
nnp nn. n.p n
4
B1 A1 p11 A2 p21
频率意义上的列联表
B2
Bj
Bp
矩阵D(R)是消除了变量B的各个状态概率影响的P 维空间n个点的相对坐标。 则这n个点的重心,也有p维坐标,设其第j个分量为:
E (p i.p ip j.j) i n 1 p i.p ip j.j.p i.1 p .jp .jp .j,j 1 ,2 , ,p
N个点的重心为: ( P.1, P.2 P.p)
Phi Coefficient -0.148
Contingency Coefficient 0.147
Cramer's V -0.148
Sample Size = 339
B
8
列联表中列出了表格单元频数和在零假设下 的期望频数,可以看出,吸烟人中患病的数
目比期望数目大。检验的结果只要看后面的 统计量部分的Chi-Square一行,其值为 7.469,p值为0.006,所以应否定零假设,吸 烟与患慢性支气管炎是不独立的。
7.925 0.005 Chi-Square
Continuity Adj. Chi-Square
1
6.674
0.010
Mantel-Haenszel Chi-Square
1
7.447 0.006
Fisher's Exact Test (Left) 4.09E-03
(Right) 0.998
(2-Tail) 6.86E-03
第j个变量的期望为:
E (p pii.j)i n1p pii.j.pi.p.j,j1 ,2,,p
p11/p1. p.1 D(R)p21/p2. p.1
pn1/pn. p.1
p12/p1. p.2 p1p/p1. p.p p22/p2. p.2 p2p/p2. p.p
pn2/pn. p.2 pnp/pn. p.p
B
2
一般,若总体中的个体可按两个属性A与 B分类,A有n类A1,A2,…,An,B有p类 B1,B2,…,Bp, 属于Ai和Bj的个体数目为 nij(i=1,2, …,n;j= 1,2, …,p),nij称为 频数,则可形成n×p的二维列联表,简 称n×p表。
若所考虑的属性多于两个,也可按类似 的方式作出列联表,称为多维列联表。
xn1
xn2
x1p
x2
p
xi.为行和x., j为列和
x 为总和
xnp
n
p
..
x11 x12 x21 x22
xn1 xn2
x1p x1.
x2
p
x2.
xnp
xn.
x.1
x.2 x.p x..
pijxij/x..
p11
X
p21

pn1
p12 p22 pn2
p1p
设原始数据矩阵为:
x11 x12
X x21 x22
xn1
xn2
x1p
x2
p
xnp
n
p
由于因子分析都是基于协方差矩阵或相关系 数矩阵完成的,所以必须从变量和样品的协 方差矩阵入手来进行分析。
x11x1 x12x2 x1p xp
X* x21x1 x22x2 x2p xp
xn1x1 xn2 x2 xnpxpnp
行轮廓矩阵为:
p11/ p1. N(R)p21/ p2.
p12/ p1. p1p/ p1.
p22/ p2. p2p/ p2.
pn1/ pn.
pn2/ pn.
pnp/
pn.
由此,我们可以将属性变量A的n个取值可 以用P维空间的n个点来表示。n个点的坐 标即为该行轮廓矩阵。
但是,因为原始变量的数量等级可能不同,所以 为了尽量减少各变量尺度差异,将行轮廓中的各列 元素均除以其期望的平方根。得矩阵D(R)
162
A:1表示吸烟,
相关文档
最新文档