典型关联分析
数据挖掘中的关联分析方法(九)

数据挖掘中的关联分析方法数据挖掘是一门利用统计学、机器学习和数据库技术来发现模式和趋势的学科。
在大数据时代,数据挖掘变得尤为重要,因为海量的数据蕴含着无限的商业价值和科学意义。
而关联分析方法作为数据挖掘的重要技术之一,在市场分析、商品推荐、医疗诊断等领域有着广泛的应用。
关联分析方法是指在大规模数据集中发现变量之间的关联关系,并且用这些关联关系构建模型,以便做出预测或者发现隐藏的信息。
其中,最为典型的例子就是购物篮分析。
通过分析顾客购物篮中的商品组合,商家可以发现哪些商品具有相关性,并且做出相应的销售策略。
首先,关联分析方法中最为经典的算法就是Apriori算法。
Apriori算法是一种用于发现频繁项集的算法,它的核心思想就是通过迭代的方法来挖掘频繁项集。
具体地说,算法首先扫描数据集,找出数据集中的频繁1项集;然后通过频繁1项集来生成候选2项集,并再次扫描数据集,找出频繁2项集;如此循环下去,直至无法生成更多的频繁项集为止。
而这些频繁项集就是具有关联关系的商品组合,商家可以根据这些关联关系来进行商品的搭配销售,以提高销售额。
其次,关联分析方法中还有一种常用的算法叫做FP-Growth算法。
FP-Growth算法是一种用于挖掘频繁项集的算法,与Apriori算法相比,FP-Growth算法在性能上有着更好的表现。
其核心思想是通过构建FP树(频繁模式树)来高效地发现频繁项集。
FP树是一种用来存储数据集中元素项的树形结构,通过构建FP树,我们可以高效地发现频繁项集。
因此,在实际应用中,FP-Growth算法常常被用来挖掘大规模数据集中的频繁项集。
除了这两种经典的算法之外,关联分析方法中还有很多其他的技术和方法。
例如基于模式增长的方法、基于随机抽样的方法、基于模糊关联规则的方法等等。
这些方法各有其特点,适用于不同的应用场景。
而在实际应用中,人们可以根据具体的数据集和问题,选择合适的关联分析方法来进行数据挖掘。
典型关联规则挖掘算法的分析与比较

关 联规则 挖掘算法 的核心任务在 于识别事务集 D
中的所有频繁项集 , 以便进一步构造相应的关联规则 。 因此 , 文中主要针对频繁项 集的挖掘 , 目前 比较典型 对 的 l 种关联规则挖掘算法进行 了分析和比较 。 0
中介 绍 了几 种典 型的 开采大 型事务数 据库 中所有 关联 规则 的算 法 , 别针对 算法过 程 中产生 候 选频 繁项 集 的大 小 和所 需 特 扫描事 务数据 库 的次数 这两个 影响关 联规 则挖掘 效率 的关 键 问题 , 分析 各个 算 法采 用 的解 决 策略 及 相应 的 局 限性 , 比 并 较它们 的 时间效 率和 空间效率 。最后 展望 了关联 规则 挖掘算 法 的研究 方 向。 关键 词 : 数据 挖掘 ; 关联 规则 ; 频繁项 集 ; 算法
f rM i n s ca in Ru e 0 ni g Aso i to ls
F NG i,TAO n —a E Je Ho g c i
( ho o nomai c n e& Teh o g , otw sJat gUnvri , hn d 1 0 1 hn ) c S ol f fr t nS i c I o e cn l y S uh et i o ie t C egu6 0 3 ,C i o on sy a
中 图分类号 : I 0 . T t6 3 文献标识 码 : A 文章 编号 :6 3 6 9 ( o 7 O ~0 2 —0 1 7 — 2 X 2 0 )3 1 1 4
Ana y i n m pa i o f Re e e a i e Al o ih s l s sa d Co r s n o pr s nt tV g r t m
五年级下册语文基础专题讲解 关联词语的分类及运用 全国通用

五年级下册语文基础专题讲解关联词语的分类及运用全国通用关联词语的分类及运用知识图谱-关联词语的分类及运用选择题填空题第14讲_关联词语的分类及运用错题回顾关联词语的分类及运用知识精讲一、要点梳理关联词是指在各级语言单位中起关联作用的词语,一般成对出现,如“因为……所以……”,“虽然……但是……”等。
同学们选填关联词语时一般可以从以下几个方面去考虑:1.分析关联词语的搭配是否合理;2.从分辨语句间的意义关系人手,分析句与句之间本身蕴含着什么样的关系,再确定表示这种关系的关联词语;3.从语感方面分析,看看所填的关联词语是否通顺合理,上下衔接。
(一)常见关联词语1.并列关系……又……又…………一面……一面……4.选择关系……不是……就是…………或是……或是…………宁可……也不…………还是……例1:日明喜爱球类运动,每天清早,他不是打球,就是踢球去了。
例2:我宁可给老师责罚,也不说谎,隐瞒真相。
5.转折关系尽管……可是……虽然……但是…………却…………然而……例1:尽管天气严寒,可是伯父仍到海滩游泳。
例2:妈妈爱静,爸爸却爱动,两人性格截然不同。
6.假设关系如果……就……假使……便……要是……那么……例1:如果明天下雨,旅行就要取消了。
例2:要是你不听爸爸的劝告,那么定会闯祸。
7.条件关系只要……就……只有……才……无论……都……不管……也……例1:只要多读多写,语文水平就可提高。
例2:不管多少险阻,我也无惧前进。
8.因果关系因为……所以……由于……因此……既然……那么……例1:由于弟弟粗心大意,因此做错了两道数学题。
例2:因为志文的腿摔坏了,所以需要用拐杖来走路。
二、方法点拨1.一般方法初读句子,弄清分句之间的关系。
选择关联词语,填入句子。
在读句子,检查句子是否通顺,句意是否正确。
2.两个注意点(1)搭配要得当使用一组关联词语是要前后呼应,要“成双配对”,不能交叉使用,这样才能是句意畅通、明确。
(2)运用要合理该用的时候用,不该用的时候就不用,不要生搬硬套。
对应分析与典型相关分析

17
对应分析基本思想
v λ ... v λ 1m m 11 1 O M = ( λ1 v1 ,..., λm vm ), AR = M v λ L v p1 1 pm λm
u11 λ1 ... u1m λm AQ = M O M = ( λ1 u1,..., λm um ), un1 λ1 L unm λm
由于SR和 具有相同的非零特征值 具有相同的非零特征值, 由于 和SQ具有相同的非零特征值,而这些特征值又正好是各个 公共因子的方差,因此可以用相同的因子轴 相同的因子轴同时表示变量点和样品 公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品 即把变量点和样品点同时反映在具有相同坐标轴的因子平面上, 点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上, 以便对变量点和样品点一起考虑进行分类。 以便对变量点和样品点一起考虑进行分类。
如果SR的特征值 如果 的特征值 λ i 对应的标准化特征向量为 vi , 则SQ的特征值 λi 对应的标准化特征向量: 的特征值 对应的标准化特征向量: 1 ui = Zv i
λi
由此可以方便地由R型因子分析而得到 型因子分析的结果 由此可以方便地由 型因子分析而得到Q型因子分析的结果。由SR的特征值和 型因子分析而得到 型因子分析的结果。 的特征值和 特征向量即可以写出R型因子分析的因子载荷矩阵 记为AR) 型因子分析的因子载荷矩阵( 特征向量即可以写出 型因子分析的因子载荷矩阵(记为 )和Q型因子分析的 型因子分析的 因子载荷矩阵(记为AQ): 因子载荷矩阵(记为 ):
3
引例1. 引例1.
下表为2006年年底我国 个省市按照行业(这里仅列出12 年年底我国31个省市按照行业 这里仅列出12 下表为 年年底我国 个省市按照行业( 个行业)城镇单位就业人数, 个行业)城镇单位就业人数,在一定程度上可以反映该地 区的经济结构。 区的经济结构。 我国地域辽阔,东西南北发展不平衡,是否按照地域划分 我国地域辽阔,东西南北发展不平衡,是否按照地域划分 就合理了呢? 就合理了呢? 自然地理位置对经济结构的影响固然重要,但是数据分析 自然地理位置对经济结构的影响固然重要,但是数据分析 显然更有说服力。 显然更有说服力。
典型关联分析

典型关联分析(Canonical Correlation Analysis)[pdf版本]典型相关分析.pdf1. 问题在线性回归中,我们使用直线来拟合样本点,寻找n维特征向量X和输出结果(或者叫做label)Y之间的线性关系。
其中,。
然而当Y也是多维时,或者说Y也有多个特征时,我们希望分析出X和Y的关系。
当然我们仍然可以使用回归的方法来分析,做法如下:假设,,那么可以建立等式Y=AX如下其中,形式和线性回归一样,需要训练m次得到m个。
这样做的一个缺点是,Y中的每个特征都与X的所有特征关联,Y中的特征之间没有什么联系。
我们想换一种思路来看这个问题,如果将X和Y都看成整体,考察这两个整体之间的关系。
我们将整体表示成X和Y各自特征间的线性组合,也就是考察和之间的关系。
这样的应用其实很多,举个简单的例子。
我们想考察一个人解题能力X(解题速度,解题正确率)与他/她的阅读能力Y(阅读速度,理解程度)之间的关系,那么形式化为:和然后使用Pearson相关系数来度量u和v的关系,我们期望寻求一组最优的解a和b,使得Corr(u, v)最大,这样得到的a和b就是使得u和v就有最大关联的权重。
到这里,基本上介绍了典型相关分析的目的。
2. CCA表示与求解给定两组向量和(替换之前的x为,y为),维度为,维度为,默认。
形式化表示如下:是x的协方差矩阵;左上角是自己的协方差矩阵;右上角是;左下角是,也是的转置;右下角是的协方差矩阵。
与之前一样,我们从和的整体入手,定义我们可以算出u和v的方差和协方差:上面的结果其实很好算,推导一下第一个吧:最后,我们需要算Corr(u,v)了我们期望Corr(u,v)越大越好,关于Pearson相关系数,《数据挖掘导论》给出了一个很好的图来说明:MaximizeSubject to:求解方法是构造Lagrangian等式,这里我简单推导如下:求导,得令导数为0后,得到方程组:第一个等式左乘,第二个左乘,再根据,得到也就是说求出的即是Corr(u,v),只需找最大即可。
几种典型关联规则算法的分析与比较

录 中发现 有价值 的关联规 则 .以辅助商家决策 者做 出
有 效 的决 策 来 促 进 销 售 其 中最 典 型 的 案 例 有 “ 物 篮 购
② 由频 繁项集产 生强关 联规则 。 在频繁项集 的基础上 , 结 合预设 的最小置信度生成
就 以 上 两个 步 骤 比较 .第 一 步 的 复 杂 度 远 高 于 第
分析 ” 根据被 放进购 物篮 的商 品记 录 . . 找到 商品 间的 内在联 系 . 而分析得到顾客 的购物习惯 , 从 这样 商家可 以调整货架 商品的摆放 . 和进行 一些针对性 的促 销 . 从
而 提 高 营 业 额
二步 .因此关联规则挖 掘算法的核心任务 在于识别事
务 集 D 中 的所 有 频 繁 项 集 .以便 进 一 步 构 造 相 应 的关 联 规 则 . 面 文 中 主要 针 对 频 繁 项 集 的 挖 掘 目前 比 下 对 较 典 型 的 几 种关 联 规 则 算 法 进 行 分 析 和 比较
题 。 首先 介 绍 关联 规 则 的基 本概 念和 它 的挖 掘 过 程 , 后 就 几种 典 型 的 关 联 规 则 算 法 进 行 然
概 括 并 对 它们 进 行 分析 和性 能 的 比 较 . 关联 规 则挖 掘 应 用 的 现 状进 行 总 结 。 对
关 键 词 :关联 规 则 ;频繁 项 集 ; 则 挖 掘 规
项 集 的超 集 一 定 是 非 频 繁 的 . 用 这 个 性 质 . 以减 少 利 可 计 算 中 出 现 的 候 选 项 集 的 个 数 .我 们 可 以通 过 连 接 后 进 行 剪 枝 把 非 频 繁 的 子 集 给 删 除 下 面 是 连 接 和 剪 枝
成 立的条件是满 足最小支持度和最小置信 度 .所谓 的 支持 度 (up r 是 AuB在 D 中所 占的百 分 比 . S p0t ) 置信
LTE空口质量与速率的关联分析案例
LTE空口质量与速率的关联分析1.空口质量分析数传问题定位流程:首先,判断该数传业务是UDP还是TCP业务,如果当前是TCP 流量不足,则先用UDP上下行灌包,查看UDP上下行流量能否达到峰值,一般来说,UDP 流量无法达到峰值,TCP流量也很难上去,此时则应排查UDP峰值问题。
如下图,数传定位的基本思路:2.空口质量影响因素原理根据UDP 和TCP 对比测试,可将问题隔离在是否空口还是基站以上。
针对空口问题,速率空口影响因素较多,需要通过日志分析进一步确定问题,如下是影响空口的所有相关因素。
如上图所示,影响空口速率的要素主要包括:空口资源、空口编码与覆盖、MIMO。
●空口资源表现为调度次数和RB数是否充足,需重点排查基站上游来水量及异频测量GAP等。
●空口覆盖与编码1)检查MCS选阶MCS选阶体现空口编码调制效率,直接影响到每TTI调度的TBS选择。
检查MCS是否符合要求速率。
2)检查无线信号(RSRP/SINR)根据测试终端配套软件上检查RSRP、SINR信号质量参数。
要保证测试用户获得要求速率,RSRP、SINR要满足不同的条件,比如要测理论峰值,要保证小区RSRP在-80dBm以上,SINR在25dB以上。
3)检查空口误码率(BLER)MCS选阶是根据IBLER 10%收敛进行调整的,如果空口误码率大于10%,则信号环境较差,需改善无线环境,提高下行信号质量。
若要求测试理论峰值,则误码率保证为0。
4)检查是否存在干扰当SINR较好,但MCS选阶低,需排查是否存在干扰导致。
下行,需排查邻区干扰及系统外干扰。
邻区信号强度与服务小区信号相差10dB以内,对服务小区解调有明显影响;上行,需重点排查上行干扰;上行空载时(UE关机,小区里没有业务),可以检测上行全带宽上的接收功率RSSI。
正常情况下,空载时每个RB上的RSSI应该是-120dBm左右,如果有突然升高3~5dBm 以上情况,说明上行有干扰,需要排查干扰源。
数据分析中的关联分析方法
数据分析中的关联分析方法在当今信息爆炸的时代,海量的数据被不断产生和积累。
如何从这些数据中提取有用的信息,成为了数据分析的重要课题之一。
关联分析作为数据挖掘的一种方法,通过发现数据集中的关联规则,帮助我们揭示数据背后的隐藏规律和关系。
本文将介绍关联分析的基本概念、方法和应用。
一、关联分析的基本概念关联分析是一种基于频繁项集的数据挖掘方法,其核心思想是通过寻找频繁出现的项集之间的关联规则,来发现数据中的关联关系。
在关联分析中,项集是指数据集中的一组项目的集合,而关联规则是指形如“A→B”的条件语句,表示当某一项集A出现时,另一项集B也很可能出现。
二、关联分析的方法1. Apriori算法Apriori算法是关联分析中最经典的算法之一,它通过迭代的方式来发现频繁项集。
该算法的基本思想是利用Apriori原理,即如果一个项集是频繁的,那么它的所有子集也一定是频繁的。
Apriori算法的步骤包括:扫描数据集,生成候选项集,计算候选项集的支持度,根据最小支持度筛选频繁项集,并通过组合生成新的候选项集,不断迭代直到无法生成新的候选项集为止。
2. FP-Growth算法FP-Growth算法是一种基于前缀树的关联分析算法,相较于Apriori算法,它能够更高效地发现频繁项集。
该算法的核心是构建FP树(频繁模式树),通过压缩数据集来减少计算量。
FP-Growth算法的步骤包括:构建FP树,通过FP树挖掘频繁项集,生成条件FP树,递归挖掘频繁项集。
三、关联分析的应用关联分析在实际应用中具有广泛的应用价值,以下是几个常见的应用场景:1. 超市购物篮分析超市购物篮分析是关联分析的典型应用之一。
通过分析顾客购买商品的组合,超市可以了解到哪些商品之间存在关联关系,进而制定促销策略,提高销售额。
例如,当顾客购买了牛奶和面包时,很可能还会购买黄油,超市可以将这三种商品放在一起展示,以增加销售。
2. 网络推荐系统关联分析在网络推荐系统中也有着重要的应用。
对应分析、典型相关分析、定性数据分析
应用领域的拓展
对应分析的应用领域 拓展
随着数据科学和商业智能的不断 发展,对应分析的应用领域将不 断拓展,如市场细分、消费者行 为分析、社交网络分析等,对应 分析将为这些领域提供更有效的 分析和预测工具。
典型相关分析的应用 领域拓展
典型相关分析作为一种重要的多 元统计分析方法,其应用领域也 将不断拓展,如生物信息学、环 境科学、金融风险管理等,典型 相关分析将为这些领域提供更准 确的数据分析和预测工具。
典型相关分析
能够揭示两组变量之间的关联,但需要较大的样本量, 且对异常值敏感。
定性数据分析
能够挖掘数据中的模式和规律,但主观性强,需要经 验丰富的分析师进行操作。
05
对应分析、典型相关分析、定性数据分析的 未来发展
CHAPTER
新方法的出现
对应分析的新方法
随着数据科学和统计学的不断发展,对应分析的新方法将不断涌现,如基于机器学习的对应分析方法、网络分析方法 等,这些新方法将为对应分析提供更强大的工具和更广泛的应用领域。
心理学研究
在心理学研究中,对应分析可用于揭示人类行为和心理状态之间的关系。
例如,它可以用于研究不同性格类型或心理状态的人在不同情境下的行
为反应。
02 典型相关分析
CHAPTER
典型相关分析的定义
典型相关分析是一种多元统计分析方 法,用于研究两组变量之间的相关关 系。
它通过寻找两组变量之间的典型相关 变量,来解释两组变量之间的相互关 系。
市场调研
在市场调研中,定性数据分析可用于深入了解消费者需求、 态度和行为,为产品定位和市场策略提供依据。
01
社会学研究
在社会学研究中,定性数据分析常用于 探究社会现象、文化差异和群体行为等, 以揭示社会结构和动态。
典型相关分析(CCA)简介
典型相关分析(CCA)简介一、引言在多变量统计分析中,典型相关分析(Canonical Correlation Analysis,简称CCA)是一种用于研究两个多变量之间关系的有效方法。
这种方法最早由哈罗德·霍特林(Harold Hotelling)于1936年提出。
随着数据科学和统计学的发展,CCA逐渐成为多个领域分析数据的重要工具。
本文将对典型相关分析的基本原理、应用场景以及与其他相关方法的比较进行详细阐述。
二、典型相关分析的基本概念1. 什么是典型相关分析典型相关分析是一种分析两个多变量集合之间关系的方法。
设有两个随机向量 (X) 和 (Y),它们分别包含 (p) 和 (q) 个变量。
CCA旨在寻找一种线性组合,使得这两个集合在新的空间中具有最大的相关性。
换句话说,它通过最优化两个集合的线性组合,来揭示它们之间的关系。
2. 数学模型假设我们有两个数据集:(X = [X_1, X_2, …, X_p])(Y = [Y_1, Y_2, …, Y_q])我们可以表示为:(U = a^T X)(V = b^T Y)其中 (a) 和 (b) 是待求解的权重向量。
通过最大化协方差 ((U, V)),我们得到最大典型相关系数 (),公式如下:[ ^2 = ]通过求解多组 (a) 和 (b),我们可以获得多个典型变量,从而得到不同维度的相关信息。
三、典型相关分析的步骤1. 数据准备在进行CCA之前,需要确保数据集满足一定条件。
一般来说,应对数据进行标准化处理,以消除可能存在的量纲差异。
可以使用z-score标准化的方法来处理数据。
2. 求解协方差矩阵需要计算两个集合的协方差矩阵,并进一步求出其逆矩阵。
给定随机向量 (X) 和 (Y),我们需要计算如下协方差矩阵:[ S_{xx} = (X, X) ] [ S_{yy} = (Y, Y) ] [ S_{xy} = (X, Y) ]同时,求出逆矩阵 (S_{xx}^{-1}) 和 (S_{yy}^{-1})。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.预备知识1.1.数理统计相关概念12{,,...,}n X x x x =12{,,...,}n Y y y y =11()nk k E X x n ==∑211()(())nk k D X x E X n ==-∑11(,){[(X)][()]}[()][()]nk k k Cov X Y E X E Y E Y x E X y E Y n ==--=-⨯-∑()(,)D X Cov X X =(协方差解释:如果有X ,Y 两个变量,每个时刻的“X 值与其均值之差”乘以“Y 值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值) (可能成立的:如果一个矩阵的期望是0,则另一矩阵与该矩阵相乘得到的矩阵期望也为0)1.2.数据标准化(z-score 标准化)最常见的标准化方法就是Z 标准化,也叫标准差标准化,这种方法给予原始数据的均值(mean )和标准差(standard deviation )进行数据的标准化。
经过处理的数据符合标准正态分布,即均值为0,标准差为1,注意,一般来说z-score 不是归一化,而是标准化,归一化只是标准化的一种。
其转化函数为:*()/X X μσ=-其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
z-score 标准化方法适用于属性A 的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
该种标准化方式要求原始数据的分布可以近似为高斯分布,否则效果会变得很糟糕。
标准化的公式很简单,步骤如下:求出各变量(指标)的算术平均值(数学期望)x i 和标准差s i ;进行标准化处理:z ij =(x ij -x i )/s i ,其中:z ij 为标准化后的变量值;x ij 为实际变量值;将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
1.3.拉格朗日乘数法求条件极值作为一种优化算法,拉格朗日乘子法主要用于解决约束优化问题,它的基本思想就是通过引入拉格朗日乘子来将含有n 个变量和k 个约束条件的约束优化问题转化为含有(n+k )个变量的无约束优化问题。
拉格朗日乘子背后的数学意义是其为约束方程梯度线性组合中每个向量的系数。
如何将一个含有n 个变量和k 个约束条件的约束优化问题转化为含有(n+k )个变量的无约束优化问题?拉格朗日乘数法从数学意义入手,通过引入拉格朗日乘子建立极值条件,对n 个变量分别求偏导对应了n 个方程,然后加上k 个约束条件(对应k 个拉格朗日乘子)一起构成包含了(n+k )变量的(n+k )个方程的方程组问题,这样就能根据求方程组的方法对其进行求解。
解决的问题模型为约束优化问题:min/max a function f(x,y,z), where x,y,z are not independent and g(x,y,z)=0.即:min/max f(x,y,z) s.t. g(x,y,z)=0给定椭球求这个椭球的内接长方体的最大体积。
这个问题实际上就是条件极值问题,即在条件下,求的最大值。
当然这个问题实际可以先根据条件消去,然后带入转化为无条件极值问题来处理。
但是有时候这样做很困难,甚至是做不到的,这时候就需要用拉格朗日乘数法了。
通过拉格朗日乘数法将问题转化为:对求偏导得到:联立前面三个方程得到和,带入第四个方程解之带入解得最大体积为:拉格朗日乘数法对一般多元函数在多个附加条件下的条件极值问题也适用。
1.4.奇异值分解奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。
就像是描述一个人一样,给别人描述说这个人长得浓眉大眼,方脸,络腮胡,而且带个黑框的眼镜,这样寥寥的几个特征,就让别人脑海里面就有一个较为清楚的认识,实际上,人脸上的特征是有着无数种的,之所以能这么描述,是因为人天生就有着非常好的抽取重要特征的能力,让机器学会抽取重要的特征,SVD 是也一个重要的方法。
在机器学习领域,有相当多的应用与奇异值都可以扯上关系,比如做feature reduction 的PCA ,做数据压缩(以图像压缩为代表)的算法,还有做搜索引擎语义层次检索的LSI (Latent Semantic Indexing )。
1.4.1.奇异值详解特征值分解和奇异值分解两者有着很紧密的关系,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。
先谈谈特征值分解吧:1.4.1.1.特征值如果说一个向量v 是方阵A 的特征向量,将一定可以表示成下面的形式:Av v λ=这时候λ就被称为特征向量v 对应的特征值,一个矩阵的一组特征向量是一组正交向量。
特征值分解是将一个矩阵分解成下面的形式: 1A Q Q -=∑其中Q 是这个矩阵A 的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素就是一个特征值。
首先,要明确的是,一个矩阵其实就是一个线性变换,因为一个矩阵乘以一个向量后得到的向量,其实就相当于将这个向量进行了线性变换。
比如说下面的一个矩阵:3001M ⎡⎤=⎢⎥⎣⎦它其实对应的线性变换是下面的形式:因为这个矩阵M 乘以一个向量(x,y)的结果是:30301x x y y ⎡⎤⎡⎤⎡⎤=⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦上面的矩阵是对称的,所以这个变换是一个对x ,y 轴的方向一个拉伸变换(每一个对角线上的元素将会对一个维度进行拉伸变换,当值>1时拉长,当值<1时缩短),当矩阵不是对称的时候,假如说矩阵是下面的样子:1101M ⎡⎤=⎢⎥⎣⎦它所描述的变换是下面的样子:这其实是在平面上对一个轴进行的拉伸变换(如蓝色的箭头所示),在图中,蓝色的箭头是一个最主要的变化方向(变化方向可能有不止一个),如果我们想要描述好一个变换,那我们就描述好这个变换主要的变化方向就好了。
反过头来看看之前特征值分解的式子,分解得到的Σ矩阵是一个对角阵,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)当矩阵是高维的情况下,那么这个矩阵就是高维空间下的一个线性变换,这个线性变化可能没法通过图片来表示,但是可以想象,这个变换也同样有很多的变换方向,我们通过特征值分解得到的前N 个特征向量,那么就对应了这个矩阵最主要的N 个变化方向。
我们利用这前N 个变化方向,就可以近似这个矩阵(变换)。
也就是之前说的:提取这个矩阵最重要的特征。
总结一下,特征值分解可以得到特征值与特征向量,特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么,可以将每一个特征向量理解为一个线性的子空间,我们可以利用这些线性的子空间干很多的事情。
不过,特征值分解也有很多的局限,比如说变换的矩阵必须是方阵。
A 算法A 原理典型关联分析(Canonical Correlation Analysis ,简称CCA)是最常用的挖掘数据关联关系的算法之一。
比如我们拿到两组数据,第一组是人身高和体重的数据,第二组是对应的跑步能力和跳远能力的数据。
那么我们能不能说这两组数据是相关的呢?CCA 可以帮助我们分析这个问题。
在数理统计里面,都知道相关系数这个概念。
假设有两组一维的数据集X 和Y ,则相关系数ρ的定义为:(,)X Y ρ=其中cov(X,Y)是X 和Y 的协方差,而D(X),D(Y)分别是X 和Y 的方差。
相关系数ρ的取值为[-1,1],ρ的绝对值越接近于1,则X 和Y 的线性相关性越高。
越接近于0,则X 和Y 的线性相关性越低。
虽然相关系数可以很好的帮我们分析一维数据的相关性,但是对于高维数据就不能直接使用了。
如上所述,如果X 是包括人身高和体重两个维度的数据,而Y 是包括跑步能力和跳远能力两个维度的数据,就不能直接使用相关系数的方法。
那我们能不能变通一下呢?CCA 给了我们变通的方法。
CCA 使用的方法是将多维的X 和Y 都用线性变换为1维的X'和Y',然后再使用相关系数来看X'和Y'的相关性。
将数据从多维变到1位,也可以理解为CCA 是在进行降维,将高维数据降到1维,然后再用相关系数进行相关性的分析。
CCA 是将高维的两组数据分别降维到1维,然后用相关系数分析相关性。
但是有一个问题是,降维的标准是如何选择的呢?回想下主成分分析PCA ,降维的原则是投影方差最大;再回想下线性判别分析LDA ,降维的原则是同类的投影方差小,异类间的投影方差大。
对于我们的CCA ,它选择的投影标准是降维到1维后,两组数据的相关系数最大。
(思考一下,两个模态样本描述的事物是相似的,训练的时候是让样本特征的相关系数最大)假设数据集是X 和Y ,X 为n 1×m 的样本矩阵,Y 为n 2×m 的样本矩阵.其中m 为样本个数,而n 1,n 2分别为X 和Y 的特征维度。
对于X 矩阵,将其投影到1维,对应的投影向量为a, 对于Y 矩阵,将其投影到1维,对应的投影向量为b, 这样X ,Y 投影后得到的一维向量分别为X',Y',则:','T T X a X Y b Y ==CCA 的优化目标是最大化ρ(X ′,Y ′),得到对应的投影向量a,b ,即,arg a b在投影前,一般会把原始数据进行标准化,得到均值为0而方差为1的数据X 和Y 。
这样我们有:cov(',')cov(,){[()][()]}(()())()T T T T T T T T T T T X Y a X b Y E a X E a X b Y E b Y E a X b Y a E XY b==--==(之所以第三个等号成立,均值为0)(')()(,){[()][()]}()()T T T T T T T T T T T D X D a X Cov a X a X E a X E a X a X E a X E a XX a a E XX a===--==(')()T T D Y b E YY b =由于X ,Y 的均值均为0,则:()cov(,)(),()cov(,)()T T D X X X E XX D Y Y Y E YY ====cov(,)(),cov(,)()T T X Y E XY Y X E YX ==所以有:,,,arg arg arg T T T a b a b a b ==令S XY =cov(X,Y),则有:,arg maxT a b 由于分子分母增大相同的倍数,优化目标结果不变,我们可以采用和SVM 类似的优化方法,固定分母,优化分子,具体转化为:,arg max (..1,1)T T T XY XX YY a b a S b s t a S a b S b ==进而CCA 算法的目标最终转化为一个凸优化过程,只要求出了这个优化目标的最大值,就是前面提到的多维X 和Y 的相关性度量,而对应的a,b 则为降维时的投影向量。