两个多重相关变量组的统计分析_1_典型相关与典型冗余分析_
典型相关分析

典型相关分析简介典型相关分析(canonical correlation analysis, CCA)是一种多变量统计分析方法,用于研究两组观测变量之间的相关性。
该方法可以帮助我们理解两组变量之间的线性关系,并找出两组变量中最相关的部分。
在机器学习、数据挖掘以及统计学中,典型相关分析被广泛应用于特征选择、降维和模式识别等领域。
方法典型相关分析是基于矩阵分解的方法,通过将两组变量转化成低秩的典型变量来寻找相关性。
典型相关分析的基本思想是找出两组变量的线性组合,使得这两个组合能够达到最大的相关性。
具体而言,给定两组变量X和Y,我们可以得到X的线性组合u和Y的线性组合v,使得cor(u,v)达到最大。
其中cor(u,v)表示两个向量u和v的相关系数。
典型相关分析的目标即是求解出使得cor(u,v)最大的u和v。
下面是典型相关分析的数学表示形式:max cor(u,v)subject to u = Xa, v = Yb其中,X和Y分别是两组变量的矩阵,u和v是X和Y的线性组合,a和b是权重向量。
通过求解最优化问题,我们可以得到最相关的线性组合u和v,从而得到最相关的部分。
应用典型相关分析广泛应用于多个领域,下面列举了几个常见的应用场景:特征选择在特征选择中,我们经常面临着从大量的特征中选取最相关的特征集合。
典型相关分析可以帮助我们通过寻找两组变量之间的相关性,筛选出对目标变量有着较强相关性的特征。
通过选择最相关的特征,我们可以提高模型的泛化能力,并降低过拟合的风险。
降维在大数据时代,数据维度高维且复杂。
降维可以帮助我们减少计算负担,并去除冗余信息。
典型相关分析可以通过找出两组变量最相关的部分,将原始多维数据降到低维空间。
这样做可以减少计算复杂度,提高模型的训练速度,并帮助我们更好地理解数据之间的关系。
模式识别典型相关分析在模式识别领域也有着重要的应用。
通过找出两组变量之间的最相关部分,我们可以构建更加精确和可靠的模式识别模型。
典型相关分析、冗余分析

两组变量的个数和性质可以是不同的
典型相关的基本思想
Nk心理
设有两组观测变量,通过权重与观测变量 对应相乘、然后将各项相加,分别对每一 组先建立一个线性组合,称典型变式。 每一个典型变式的值又构成一个新的典型 变量。
二者是一个事物的两个方面 变式:关系形式;变量:关注数值
Nk心理
冗余指数
不对称:典型相关平方相同;但两个变 式对自己一方观测变量的代表比例不同
冗余指数
变式与观测变量之间的测量,既是整体 指标(总方差百分比),又是平均指标 (平均每个观测变量方差的百分比)
冗余分析
典型相关:两个多元集团两元间分析; 冗余分析:这两元之间关系的分析
Spss实例与操作
Nk心理
典型冗余分析
冗余
如果一个变量可以由另一个变量的方差来解 释或预测,那么就说这个方差部分与另一变 量方差冗余 即:变量的这个方差部分可以由另一个变量 的一部分方差所预测或解释 常用相关形容词关系(不确切),相关系数 的平方(确定系数)属于冗余分析的范畴, 因为冗余是重叠方差
Nk心理
冗余
冗余
两个变式中的冗余:典型相关系数取平方。 它不是一侧变式与另一侧观测变量的共享方 差比,而是两侧对应变式之间的共享方差比
第二组变式1对第一组变量的 平均解释比例: 交叉负载 乘方 1 X1 -0.548 0.3003 X2 0.299 0.0894 合计 0.3897 平均值 0.1949
典型相关分析的统计指标
冗余指数(manova)
Nk心理
1.典型变式序号(CAN.VAR);2、3.每个变式所代表的某分组 的方差比例和累计方差比例,DE因变量组,CO自变量组;4、 5.另一组解释的方差比例以及累计方差比例
典型相关分析冗余分析

典型相关分析冗余分析典型相关分析(Canonical Correlation Analysis,CCA)是一种用于探索两组变量之间关系的统计方法。
它可以同时分析两组变量之间的线性关系,在数据降维、特征选择、模式识别等领域有广泛的应用。
冗余分析(Redundancy Analysis,RDA)是典型相关分析的一种扩展形式,主要用于解释连续型解释变量对两组变量关系的贡献。
典型相关分析的基本思想是寻找两组变量之间的最大相关性。
假设有两组变量X和Y,其中X = [X1, X2, ..., Xp]和Y = [Y1, Y2, ..., Yq],它们都是经过标准化的观测值。
典型相关分析的目标是找到一对线性组合,分别称为第一个典型变量对(first canonical variate pair),使得在两组变量之间的相关系数最大。
然后,可以继续找到第二个典型变量对,它与第一个典型变量对相互独立且与之前的典型变量对相关性最大,依此类推。
最后,可以得到p个典型变量对,每个典型变量对都有一个相关系数,表示两组变量之间的关系。
典型相关分析的核心是求解降维问题,通过计算两组变量在每个典型变量对上的线性组合,可以将原始数据映射到一个低维空间。
这样一来,可以简化原始数据的复杂性,并且保留最相关的信息。
在特征选择和数据可视化中,典型相关分析可以帮助我们识别重要的变量和确定关键的模式。
冗余分析是典型相关分析的一种扩展形式,它增加了一个连续型解释变量的考虑。
冗余分析的目标是找到解释变量集合对两组变量关系的贡献。
在典型相关分析中,我们已经找到了两组变量之间的最大相关性,而冗余分析可以帮助我们理解这种相关性是如何受解释变量影响的。
通过计算解释变量对两组变量的解释度(explained variance),可以确定解释变量在两组变量关系中的贡献。
冗余分析可以用于数据挖掘、模式识别和建模等领域。
在数据挖掘中,冗余分析可以帮助我们识别和理解分类或预测模型中的关键变量。
数学建模__SPSS_典型相关分析

数学建模__SPSS_典型相关分析典型相关分析(Canonical Correlation Analysis)是一种多变量统计方法,用于分析两组变量之间的关系。
在典型相关分析中,我们尝试找到两组变量之间的线性组合,使得这些线性组合之间的相关性最大化。
典型相关分析可以帮助研究者理解两组变量之间的关系,并发现潜在的相关结构。
典型相关分析适用于有两组或多组相关变量的研究。
典型相关分析既可以用于预测模型的建立,也可以用于变量选择和降维。
下面我们将介绍典型相关分析的基本原理、步骤和应用。
典型相关分析的基本原理是寻找两个组合线性关系,使得两个组合相互之间具有最大的相关性。
在典型相关分析中,我们将一个变量集作为自变量,另一个变量集作为因变量,然后寻找这两个变量集之间的最佳线性组合。
典型相关分析的步骤如下:1.收集数据:首先需要收集自变量和因变量的数据。
这些数据可以是观察数据、实验数据或调查数据。
2.数据预处理:在进行典型相关分析之前,我们需要对数据进行预处理。
这包括缺失数据处理、异常值检测和变量归一化等步骤。
3.计算相关系数:接下来,我们需要计算自变量和因变量之间的相关系数。
这可以通过计算皮尔逊相关系数、斯皮尔曼相关系数或肯德尔相关系数来实现。
4.计算典型变量:通过应用典型相关分析模型,我们可以计算出一组自变量和一组因变量的典型变量。
典型变量是自变量和因变量的线性组合,它们具有最大的相关性。
5.进行相关性检验:在典型相关分析中,我们常常需要进行相关性的显著性检验。
这可以通过计算典型相关系数的显著性水平来实现。
6.结果解释和应用:最后,根据典型相关分析的结果,我们可以解释自变量和因变量之间的关系,并根据这些结果进行应用和决策。
典型相关分析的应用非常广泛。
例如,在金融领域,典型相关分析可以帮助分析公司的财务指标与市场指标之间的关系。
在医学研究中,典型相关分析可以用于分析不同变量对医疗结果的影响。
在社会科学研究中,典型相关分析可以帮助分析人们的行为和态度之间的关系。
应用多元统计分析习题解答_典型相关分析

第九章 典型相关分析9.1 什么是典型相关分析?简述其根本思想。
答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
用于揭示两组变量之间的内在联系。
典型相关分析的目的是识别并量化两组变量之间的联系。
将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。
根本思想:〔1〕在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。
即: 假设设(1)(1)(1)(1)12(,,,)p X X X =X、(2)(2)(2)(2)12(,,,)q X X X =X 是两组相互关联的随机变量,分别在两组变量中选取假设干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。
在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 到达最大。
〔2〕选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。
〔3〕如此继续下去,直到两组变量之间的相关性被提取完毕为此。
9.2 什么是典型变量?它具有哪些性质?答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。
具体来说,()(1)()(1)()(1)()(1)1122i i i i i P PU a X a X a X '=+++a X()(2)()(2)()(2)()(2)1122i i i i i q qV b X b X b X '=+++b X在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 到达最大,那么称(1)(1)'a X 、(1)(2)'b X 是(1)X 、(2)X 的第一对典型相关变量。
多元统计分析——典型相关分析

多元统计分析——典型相关分析典型相关分析(Canonical correlation analysis)是一种多元统计分析方法,用于研究两组变量之间的关联性。
与传统的相关分析不同,典型相关分析可以同时考虑多组变量,找出最佳的线性组合,使得两组变量之间的相关性最大化。
它主要用于探索一组自变量与另一组因变量之间的线性关系,并且可以提供详细的相关性系数、特征向量和特征值等信息。
典型相关分析的基本原理是将两组变量分别投影到最佳的线性组合上,使得投影后的变量之间的相关性最大。
这种投影是通过求解特征值问题来实现的,其中特征值表示相关系数的大小,特征向量表示两组变量的线性组合。
通常情况下,我们希望保留具有最大特征值的特征向量,因为它们对应着最强的相关性。
典型相关分析的应用广泛,可以用于众多领域,如心理学、社会科学、经济学等。
例如,在心理学研究中,我们可能对人们的人格特征和行为方式进行测量,然后使用典型相关分析来探索它们之间的关系。
在经济学研究中,我们可以将宏观经济指标与企业盈利能力进行比较,以评估它们之间的相关性。
典型相关分析的步骤如下:1.收集数据:首先,我们需要收集两组变量的数据。
这些数据可以是定量数据(如收入、年龄)或定性数据(如性别、职业)。
2.建立模型:然后,我们需要建立一个数学模型,用于描述两组变量之间的关系。
这可以通过线性回归、主成分分析等方法来实现。
3.求解特征值问题:接下来,我们需要求解特征值问题,以获得相关系数和特征向量。
在实际计算中,我们可以使用统计软件来完成这一步骤。
4.解释结果:最后,我们需要解释典型相关分析的结果。
通常情况下,我们会关注最大的特征值和对应的特征向量,因为它们表示着最强的相关性。
典型相关分析的结果提供了一组线性组合,这些组合可以最大化两组变量之间的相关性。
通过分析这些组合,我们可以洞察两组变量之间的潜在关系,并提供有关如何解释和预测这种关系的指导。
总结而言,典型相关分析是一种强大的多元统计分析方法,可以用于研究两组变量之间的关联性。
典型相关分析(CCA)简介

典型相关分析(CCA)简介典型相关分析 (Canonical Correlation Analysis, CCA) 是一种多元统计方法,用于探索两组变量之间的线性关系。
它通过找到两组变量之间的最大相关性,揭示它们之间可能存在的共享信息和相互依赖关系。
CCA在许多领域中都有广泛应用,如心理学、神经科学、生物信息学等。
方法原理CCA的基本原理是将两组变量通过某些线性转换后,使得它们之间的相关性最大化。
设X和Y分别为两组变量,其中X包含n个样本和p1个观测变量,Y包含n个样本和p2个观测变量。
CCA试图找到两组转换后的变量U和V,使得它们之间的相关性尽可能高。
具体而言,CCA最大化新变量U和V之间的相关系数:示例代码star:编程语言:max corr(U,V)示例代码end要达到这个目标,CCA需要满足以下两个条件:U和V的元素都是具有零均值的线性组合,即U=XTa和V=YTh。
U和V必须满足归一化约束,即U’U=I和V’V=I,其中I是单位矩阵。
回归元U和V可以通过求解广义特征值问题来获得:示例代码star:编程语言:Cuu^-1CuvCvv^-1CvuTa = lambda * TaCvv^-1CvuCuu^-1CuvTh = lambda * Th示例代码end其中C表示协方差矩阵,Cu表示X的协方差矩阵,Cv表示Y的协方差矩阵,lambda是广义特征值,Ta和Th分别是U和V对应的系数向量。
CCA的应用CCA在许多领域中都有广泛应用,在以下几个领域中尤为重要:多模态数据融合在多模态数据融合中,我们通常会遇到多个源头提供的不同类型的数据。
通过应用CCA技术,我们可以找到这些数据之间的共享信息,并将其结合起来以更好地理解数据集。
例如,在医学研究中,我们可以使用CCA来融合病人的临床数据和影像数据,以便更好地诊断和治疗患者。
特征选择在机器学习任务中,我们通常会遇到高维数据集。
然而,不是所有特征都对于我们解决任务是有用的。
典型相关分析(CCA)简介

典型相关分析(CCA)简介一、引言在多变量统计分析中,典型相关分析(Canonical Correlation Analysis,简称CCA)是一种用于研究两个多变量之间关系的有效方法。
这种方法最早由哈罗德·霍特林(Harold Hotelling)于1936年提出。
随着数据科学和统计学的发展,CCA逐渐成为多个领域分析数据的重要工具。
本文将对典型相关分析的基本原理、应用场景以及与其他相关方法的比较进行详细阐述。
二、典型相关分析的基本概念1. 什么是典型相关分析典型相关分析是一种分析两个多变量集合之间关系的方法。
设有两个随机向量 (X) 和 (Y),它们分别包含 (p) 和 (q) 个变量。
CCA旨在寻找一种线性组合,使得这两个集合在新的空间中具有最大的相关性。
换句话说,它通过最优化两个集合的线性组合,来揭示它们之间的关系。
2. 数学模型假设我们有两个数据集:(X = [X_1, X_2, …, X_p])(Y = [Y_1, Y_2, …, Y_q])我们可以表示为:(U = a^T X)(V = b^T Y)其中 (a) 和 (b) 是待求解的权重向量。
通过最大化协方差 ((U, V)),我们得到最大典型相关系数 (),公式如下:[ ^2 = ]通过求解多组 (a) 和 (b),我们可以获得多个典型变量,从而得到不同维度的相关信息。
三、典型相关分析的步骤1. 数据准备在进行CCA之前,需要确保数据集满足一定条件。
一般来说,应对数据进行标准化处理,以消除可能存在的量纲差异。
可以使用z-score标准化的方法来处理数据。
2. 求解协方差矩阵需要计算两个集合的协方差矩阵,并进一步求出其逆矩阵。
给定随机向量 (X) 和 (Y),我们需要计算如下协方差矩阵:[ S_{xx} = (X, X) ] [ S_{yy} = (Y, Y) ] [ S_{xy} = (X, Y) ]同时,求出逆矩阵 (S_{xx}^{-1}) 和 (S_{yy}^{-1})。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
零特征根均为正的 。若 rk ( T) = rk ( S12) = r ≤p (因 p ≤q) ,非零特征根依次为λ21 ≥λ22 ≥…≥λ2r > 0 (且λi > 0 ,i = 1 , …,r) 。记 r 阶对角阵 D = diag (λ1 , …λ, r) 。利用 p ×q 阵 T 的奇异值分解
(一) 典型相关分析的基本思想与解法
第一组变量记为 X = ( X1 , …, X p) ′,第二组变量记为 Y = ( Y 1 , …, Y q) ′(不妨设 p ≤q) 。 典型相关分析借助于主成分分析提取成分的思想 , 从第一组变量 X 提取典型成分 V ( V 是 X1 , …, X p 的线性组合) ;再从第二组变量 Y 提取典型成分 W ( W 是 Y1 , …, Y p 的线性组合) , 并要求 V 和 W 的相关程度达到最大 。这时 V 和 W 的相关程度可以大致反映两组变量 X 和
研究两个变量组之间相关关系的常用方法是多元统计中的典型相关分析 (参考 [ 2 ] 和 [ 3 ]) 。如果进一步研究这两组多重相关变量间的相互依赖关系 ,即考虑多对多的回归建模问 题 ,除了最小二乘准则下的多对多回归分析 、双重筛选逐步回归分析 ,以及提取自变量成分的 主成分回归等方法外 ,还有近年发展起来的偏最小二乘 ( PL S) 回归方法 。关于多对多回归建 模问题 ,我们将另文介绍。本文介绍典型相关与典型冗余分析 ,它是偏最小二乘回归的理论基础。
。令
ai bi
= =
S
- 1/ 11
2αi
S
- 1/ 22
2βi
(
i
=
1 , …, r)
, 容易验证
ai 与 bi 满足 :
ai
=
1 λi
S
-1 11
S 12
bi
(i
= 1 , …, r)
bi
=
1 λi
S
-1 22
S 21
ai
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
Y
0 ,协差阵 ∑> 0 (不妨设 p ≤q) 。如果存在 a1 = ( a11 , …, a1 p) ′和 b1 = ( b11 , …, b1 q) ′使得
ρ1 = ρ( a′1 X , b′1 Y )
=
max
ρ(α′X ,β′Y ) ,
V ar (α′X) = 1 , V ar (β′Y) = 1
当否定 H0 时 ,表明 X , Y 相关 , 进而可得出至少第一个典型相关系数ρ1 ≠0 。相应的第 一对典型相关变量 V 1 , W 1 可能已经提取了两组变量相关关系的绝大部分信息 。两组变量余 下的部分可认为不相关 ,这时ρi≈0 ( i = 2 , …, p) 。故在否定 H0 后 ,有必要检验 H0( i) :ρi = 0 ( i
中如何实现 ,文中给出了一个典型的例子 。
关键词 :统计分析 ;典型相关 ;典型冗余分析
中图分类号 :O212
文献标识码 : A
在实际问题中 ,经常遇到需要研究两组变量间的相关关系 ,而且每组变量中间常常存在多 重相关性 。比如工厂生产的产品质量指标与原材料 、工艺指标间的相关关系 ;体育科研中运动 员的体力测试指标与运动能力指标间的相关关系 ;经济领域中投资性变量与国民收入变量间 的相关关系 ;教育学中学生高考各科成绩与高二年级各主科成绩间的相关关系 ;医学研究中患 某种疾病病人的各种症状程度与用科学方法检查的一些指标间的相关关系等等 。
则称 a′X , b′Y 是 X , Y 的第一对典型相关变量 , 它们之间的相关系数称为第一个典型相关系
数。
如果存在 ak = ( ak1 , …, akp) ′和 bk = ( bk1 , …, bkq) ′使得 ①a′k X , b′k Y 和前面 k - 1 对典型变量都不相关 ; ②V ar ( a′k X) = 1 , V ar ( b′k Y ) = 1 ; ③a′k X 与 b′k Y 的相关系数ρk 最大 , 则称 a′k X , b′k Y 是 X , Y 的第 k 对典型相关变量 , 它们之间的相关系数ρk 称为第 k 个典型相 关系数 ( k = 2 , …, p) 。
设总体 Z~ N p + q (0 , ∑) ,用似然比方法可导出检验 H0 : ∑12 = 0 的似然比统计量 Λ, 利用 矩阵行列式及其分块行列式的关系 ,可得出
Λ=|
| S| S 11 | | S 22 |
=|
Ip -
p
S
-1 11
S 12
S
-1 22
S 21
|
=
П(1 - λ2i ) ,
i =1
定理 (参考[4 ]) 有
T
p ×q
=
(α1
,
…,αr)
D
r ×r
(β1
,
…,βr)
,
其中 αi ( i = 1 , …, r) 为 T T′对应于λ2i 的单位正交特征向量 ;βi ( i = 1 , …, r) 为 T′T 对应于λ2i
的单位正交特征向量
,且
αi
与βi
满足关系式
:βi
=
1 λi
T′αi
随机向量 Z 的协差阵为 ∑=
∑11 ∑12 ∑21 ∑22
> 0 ,样本协差阵 S =
S 11 S 12 是 ∑的最大似然估 S 21 S 22
计 。则
∑ ∑ Cov ( X , V ) = Cov ( X , A′X) = 11 A , Cov ( X , W ) = Cov ( X , B′Y ) = 12 B ,
Y 的相关关系 。
记 p + q 维随机向量 Z =
X 的协差阵 ∑=
Y
∑11 ∑12 ∑21 ∑22
,其中 ∑11是 X 的协差阵 , ∑22是
Y 的协差阵 , ∑12 = ∑′21是 X , Y 的协差阵 。我们用 X 和 Y 的线性组合 V = a′X 和 W = b′Y
之间的相关来研究 X 和 Y 之间的相关 。我们希望找到 a 和 b ,使ρ( V , W ) 最大 。由相关系数
若假定 Z~Np + q (0 , ∑) ,则协差阵 ∑的最大似然估计为
S
=
1 n
Z′Z
=
1 n
X′X Y′X
X′Y △ S 11 Y′Y = S 21
S 12 S 22
下面我们将从样本协差阵 S 出发 ,来讨论两组变量12 S2-21/ 2为 p ×q 阵 ,则 p ×q 阵 T T′和 q ×q 阵 T′T 的非零特征根相同 ,且非
其中 p + q 阶方阵 S 是 ∑的最大似然估计量 , S ij分别是 ∑ij ( i , j = 1 , 2) 的最大似然估计 ,λ2i ( i
= 1 , …, p) 是 T T′的特征值 。
统计量 Λ 的精确分布已由 Hotelli ng (1936 年) 等人给出 , 但表达式很复杂 。由 Λ 统计量 出发可导出检验 H0 的近似检验方法 , 如 W illksλ统计量 , Pill ai 的迹 , Hotelli nt g2L aw ley 迹和 Roy 的极大根等 (参阅[2 ]) 。
∑ ∑ Cov ( Y , V ) = Cov ( Y , A′X) = 21 A , Cov ( Y , W ) = Cov ( X , B′Y ) = 22 B 。
用 S ij代替以上公式中的 ∑ij ( i , j = 1 ,2) ,即可计算出原始变量与典型变量之间的协差阵 。 由协差阵还可以计算原始变量与典型变量之间的相关系数阵 。若假定原始变量均为标准化变
若计算这四个相关系数阵中各列 (或各行) 相关系数的平方和 ,还将得出下面一些有关的 概念 。
2. 几个概念 类似于主成分分析 ,把 V k 看成是由第一组标准化变量 X 提取的成分 , W k 看成是由第二
量 ,则以上计算得到的原始变量与典型变量的协方差阵就是相关系数阵 。
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
6 0 数理统计与管理 21 卷 1 期 2002 年 1 月
两个多重相关变量组的统计分析 (1)
57
文章编号 :1002 - 1556 (2002) 01 - 0057 - 08
两个多重相关变量组的统计分析 (1)
(典型相关与典型冗余分析) Ξ
高惠璇
(北京大学数学科学学院 10087)
摘要 :本文介绍两组相关变量间的典型相关与典型冗余分析的统计分析方法 ,以及在 SAS 软件包
5 8 数理统计与管理 21 卷 1 期 2002 年 1 月
分析上式将发现 :在使得 V , W 的相关达最大的同时 , V 和 W 的方差将达最小 , 这说明按此 准则得到的典型成分 V 和 W ,对原变量组 X 和 Y 的代表性最差 ,它们无法更多地反映原变量 组的变异信息 。另方面因 V , W 任意线性组合的相关系数与 V , W 的相关系数相等 , 即使得 相关系数最大的 V = a′X 和 W = b′X 并不唯一 。故在典型相关分析解法中附加了约束条件 :
两个多重相关变量组的统计分析 (1)
59
则 V i = a′i X , W i = b′i Y 为 X , Y 的第 i 对样本典型相关变量 ,λi 为第 i 个样本典型相关系数 。
(二) 典型相关系数的显著性检验
总体 Z 的两组变量 X = ( X1 , …, X p) ′和 Y = ( Y 1 , …, Y q) ′如果不相关 , 即 Cov ( X , Y ) = ∑12 = 0 ,以上有关两组变量典型相关的讨论就毫无意义 。故在讨论两组变量间的相关关系之 前 ,应首先对假设 H0 : ∑12 = 0 作统计检验 ,它等价于检验 H0 :ρ1 = 0 。