稳健主成分分析方法研究及其在经济管理中的应用

合集下载

主成分分析方法在区域经济研究中的应用

主成分分析方法在区域经济研究中的应用

文章编号:1000-6060(2001)02-0157-04主成分分析方法在区域经济研究中的应用3———以新疆为例①高志刚 韩延玲(新疆财经学院经济学系、统计与信息管理系,乌鲁木齐 830012)提 要 主成分分析方法(PCA)及采用此法做综合评价的原理和步骤,并用两个方面的实例具体阐述了主成分分析方法在区域经济研究中的应用,最后对这种方法的特点及应用中须注意的问题进行了初步总结。

关键词 主成分分析方法 区域经济中图分类号 F61.5 文献标识码 A1 主成分分析方法(PCA)简介主成分分析方法(Principal Component Analy2 sis),简称PCA,是通过原始变量的线性组合,把多个原始指标减化为有代表意义的少数几个指标,以使原始指标能更集中更典型地表明研究对象特征的一种统计方法。

为什么要减化原始指标?主要是因为各原始指标之间往往不是相互独立的,而不同程度地存在着某种相关关系(这种情况在实际问题中一般是不可避免的),要不使这些相关性造成原始指标信息重叠,降低指标作用,对以后的计算产生误差,就必须在高维空间中加以研究,这显然是比较麻烦的。

为克服此困难,很自然就会想到降维的方法,即利用全部p个指标来重新构造m个新的综合指标(一般m比p要小得多),以使这些较少的且相互之间又是独立的指标能尽可能地多反映原始指标的统计特性和信息量。

此外,如何将多指标综合为一个统一的评价值,这实质上就是怎样科学地确定各个指标的权重问题。

主成分分析方法正是在这两方面显示了其独特的作用。

采用主成分分析方法做综合评价,其原理和步骤如下〔1,2〕:(1)建立n个区域p个指标的原始数据矩阵M ij(i=1,2,…,n;j=1,2,…,p),并对其进行无量纲化或标准化处理,一般采用Z-score法无量纲化,得到M’ij矩阵。

对正指标有:Z ij=(X ij-X j)/S j;则对逆指标有:Z ij=(X j-X ij)/S j,其中:X j=1nΣNi=1X ij, S j=Σni=1(X ij-X j)2n(2)计算指标的相关系数矩阵R jk。

主成分分析在区域经济分析中的应用

主成分分析在区域经济分析中的应用

(i, …, ) 。 j=1, 2, p 在此基础上利用雅可比法求 R 的全部特征根 λ(由大到 i 全部特征根 λ1>λ2>…>λp 均大于 小排列 ) 及相应的特征向量 ai, 等于零, 算出每一特征值对总体方差的贡献率及累积贡献率总 和为 1, 其结果如图 1 所示。
根据累积贡献率大于 80%确定主成分个数 m=2, 这样就由 若干个单项指标变换得到两项综合指标。
作者简介: 李雪梅 (1962- ) , 女, 副教授, 清华大学访问学者, 研究方向: 数据库与数据挖掘; 张素琴 (1945) , 女, 教授, 研究方向: 程序设计语言设计 编译优化。 与实现、 收稿日期: 2008-04-17 修回日期: 2008-07-10
李雪梅, 张素琴: 主成分分析在区域经济分析中的应用 因子为 p 项指标 x1, x2,…, xp,将它们变换为新因子 m 项指标 (m<<p ) …, 即: E1, E2, Em, E1=L11x1+L12x2+…+L1Pxp … Em=Lm1x1+Lm2x2+…+LmPxp 各项中系数的平方和恒等于 1, 新因子 E1, …, E2, Em 之间线性 …, 无关, 而且依次形成对原始因子 x1, x2, xp 的一切线性组合中 …, 方差贡献率从小到大的排列。这样的新因子 E1, E2, Em 就被 依次称为原始因子 x1, …, 第二主成分、 …、 x2, xp 的第一主成分、 第 m 主成分,再以达到累积方差贡献率 80%以上选择主成分 个数, 并根据其经济含义形成新的综合指标。 其中: 均值 xj= 1 n 方差 sj=
204
2009 ,45 (19 )
Computer Engineering and Applications 计算机工程与应用

主成分分析法原理及应用

主成分分析法原理及应用

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。

而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。

为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。

主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:✍主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。

✍主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。

✍主成分之间应该互不相关通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。

✍主成分具有命名解释性总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。

二、基本原理主成分分析是数学上对数据降维的一种方法。

其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。

那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。

主成分分析法及其应用

主成分分析法及其应用

主成分分析法及其应用一、本文概述主成分分析法(Principal Component Analysis,简称PCA)是一种广泛应用于数据降维和特征提取的统计方法。

它通过正交变换将原始数据集中的多个变量转换为少数几个互不相关的主成分,这些主成分能够最大程度地保留原始数据集中的信息。

本文旨在全面介绍主成分分析法的基本原理、实现步骤以及在各个领域中的应用案例。

我们将详细阐述主成分分析法的数学基础和算法流程,包括协方差矩阵、特征值、特征向量等关键概念的计算方法。

然后,我们将通过实例演示如何使用主成分分析法进行数据降维和特征提取,以及如何通过可视化工具展示降维后的数据效果。

我们将探讨主成分分析法在机器学习、图像处理、生物信息学、社会科学等多个领域中的实际应用,展示其在数据分析和处理中的重要价值和潜力。

二、主成分分析法的基本原理主成分分析法(Principal Component Analysis,简称PCA)是一种在多个变量中找出主要影响因素,并通过降维技术把多个变量转化为少数几个互不相关的综合变量的统计方法。

这种方法在保持数据信息损失最小的原则下,通过正交变换将原始数据转化为一个新的坐标系统,使得在这个新的坐标系统中,任何数据的最大方差都投影在第一主成分上,第二大的方差都投影在第二主成分上,以此类推。

变量降维:在多数情况下,原始数据集中可能存在多个变量,这些变量之间可能存在相关性。

主成分分析通过构造新的变量(即主成分),这些新变量是原始变量的线性组合,并且新变量之间互不相关,从而将原始的高维数据空间降维到低维空间,实现数据的简化。

方差最大化:主成分分析的另一个重要原理是方差最大化。

这意味着,第一个主成分将捕获数据中的最大方差,第二个主成分捕获第二大方差,以此类推。

通过这种方式,主成分分析能够识别出数据中的主要变化方向和模式。

数据解释性:主成分分析生成的主成分是对原始数据的线性变换,因此,每个主成分都可以被解释为原始变量的某种组合。

主成分分析在经济学领域的应用研究

主成分分析在经济学领域的应用研究

主成分分析在经济学领域的应用研究主成分分析(Principal Component Analysis,PCA)是一种常用的多变量数据降维技术,可以将高维数据转化为低维数据,以便更好地分析和解释数据的内在结构。

在经济学领域,主成分分析被广泛应用于数据降维、因子分析、经济变量的关联性研究等方面,为经济学研究提供了重要的工具和方法。

以下是主成分分析在经济学领域的应用研究内容:1. 数据降维与可视化分析主成分分析在经济学中最常见的应用是对多维经济数据进行降维处理,以便更好地进行数据分析和解释。

通过主成分分析,可以将大量经济指标或变量投影到几个主成分上,从而得到更少但信息含量丰富的综合指标,方便进一步的分析和处理。

同时,主成分分析还可以通过对数据的可视化分析,帮助经济学家更直观地理解数据的结构和特征。

通过绘制主成分分析得到的降维后的数据的散点图或者热力图,可以直观地观察不同经济变量之间的关系,发现潜在的经济规律和变量之间的相互作用。

2. 因子分析主成分分析在经济学中还被广泛应用于因子分析。

因子分析是一种统计方法,用于确定能够解释变量间方差共享的潜在因子。

通过主成分分析可以得到各个因子的权重系数,进而可以对经济变量进行综合性的评价和分析。

例如,在金融领域中,经济学家可以使用主成分分析来分析股票市场的规律和影响因素。

他们可以将股票市场的多个指标作为原始变量,然后应用主成分分析将这些指标转化为几个潜在的因子。

通过分析这些因子的权重和影响,可以更好地理解和解释股票市场涨跌的主要因素。

3. 经济变量关联性分析主成分分析还可以用于经济变量之间的关联性研究。

通过主成分分析,可以发现经济学中不同变量之间的相关性和相关程度。

这对于经济学研究非常重要,因为经济系统中的不同变量之间存在复杂的关系,如通货膨胀率、利率水平、国内生产总值等指标之间的相互影响。

通过主成分分析,经济学家可以将这些变量转化为少数几个主成分,从而更好地理解变量之间的关系和相互影响。

经济统计学中的主成分分析方法

经济统计学中的主成分分析方法

经济统计学中的主成分分析方法主成分分析(Principal Component Analysis,简称PCA)是一种常用的统计学方法,广泛应用于经济统计学领域。

它通过降维处理,将原始数据转化为一组新的无关变量,以揭示数据内在的结构和规律。

本文将介绍主成分分析的基本原理、应用场景以及相关的注意事项。

一、主成分分析的基本原理主成分分析的基本原理是通过线性变换,将原始数据转化为一组新的变量,使得新变量之间相互无关。

这些新变量被称为主成分,按照其解释原始数据方差的大小排序。

主成分分析的目标是尽可能保留原始数据的信息,同时降低数据的维度,以便更好地理解和分析数据。

主成分分析的步骤如下:1. 标准化数据:将原始数据进行标准化处理,使得每个变量的均值为0,方差为1,以消除变量间的量纲差异。

2. 计算协方差矩阵:根据标准化后的数据,计算变量之间的协方差矩阵。

协方差矩阵反映了变量之间的线性关系。

3. 计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。

特征值表示主成分的方差贡献,特征向量表示主成分的线性组合权重。

4. 选择主成分:按照特征值的大小排序,选择解释方差较大的特征值对应的特征向量作为主成分。

5. 重构数据:将原始数据通过主成分的线性组合重构出来,得到降维后的数据。

二、主成分分析的应用场景主成分分析在经济统计学中有着广泛的应用场景,以下列举几个例子。

1. 经济指标分析:主成分分析可以用于经济指标的综合评价。

例如,我们可以将多个相关的经济指标(如GDP、CPI、PPI等)作为原始数据,通过主成分分析得到一组综合指标,用于评估经济的整体状况。

2. 金融风险管理:主成分分析可以用于金融市场的风险管理。

通过将多个相关的金融指标(如股票收益率、利率、汇率等)进行主成分分析,可以得到一组无关的主成分,用于评估和控制金融风险。

3. 消费者行为分析:主成分分析可以用于消费者行为的分析。

例如,我们可以将多个相关的消费者行为指标(如购买金额、购买频率、购买渠道等)进行主成分分析,得到一组无关的主成分,用于揭示消费者的行为模式和偏好。

主成分分析在区域经济中的应用

主成分分析在区域经济中的应用

y1被称为第一主成分,新的综合变量中方差最大的变量 Y2为第二主成分,除y1外方差最大的新的综合变量 以下依次类推,Yp
在具体的区域经济分析过程中,前几个主成分就可 以代表我们所要研究区域的主要相关特性,从而对 这几个主成分的分析和计算,达到我们最初的综合 分析和评价的目的。
具体该如何确定主成分的数量?
———
仝鑫
在区域经济研究过程中,常常需要对多个区域或城市进行综合 评价,如区域经济发展水平,区域经济综合竞争力,地区经济发展 潜力,地区投资环境、城市经济综合实力等 这些综合评价指标的共同点就是需要多个相关指标合成一个综 合指标,以反映各区域或城市在某一方面的综合水平。而要完成这 项工作,一般要经过五个步骤
引入方差贡献率
3、方差贡献率
4.载荷矩阵
• 第k个主成分Yk与原始变量Xi的相关系数R(Yk,Xi)被称为第k
个主成分在第i个指标上的载荷量,这个相关系数矩阵被 称为载荷矩阵。
• R ij的大小反映了原始指标与主成分的密切程度,从而为
解释主成分的实际意义提供了依据。例如,在城市综合 实力评价问题中,倘若主成分1在各个经济总量指标中载 荷较大,因此可将主成分1解释为经济总量指标,主成分 2在客运总量和货运总量上载荷较大,则可以将主成分2 解释为对外联系指标。
1、选取指标
2、对指标进行 无量纲化处理
3、对指标进行 简化或归类处理
5、计算综合评 价值
4、确定权重
1主要涉及指标选取原则,依研究目的、定量评价所依赖的理论基础而定,与所采用的定量方法关系不大。 2中涉及的无量纲化处理技术比较成熟,三章中有所介绍,依研究目的选取。不同定量方法对综合评价指标 的合成主要体现在3、4、5中,常用的有特尔斐法、层次分析法和本章要介绍的主成分法和因子分析法,其 中前两者可靠性依赖建模人的建模水平和打分人的专业水平。而后两者,依赖于分析过程和结果的可解释 性以及主成分或公因子的方差贡献率。

财务分析中的主成分分析方法研究

财务分析中的主成分分析方法研究

财务分析中的主成分分析方法研究财务分析是企业经营管理的重要环节之一,通过对企业财务数据的分析,可以为企业的决策提供重要的参考依据。

主成分分析方法是一种常用的财务分析方法,它可以对多个指标进行综合评价,从而更全面地了解企业的财务状况。

本文将从什么是主成分分析、主成分分析的应用以及主成分分析的优缺点三个方面进行探讨。

一、什么是主成分分析主成分分析(PCA)是一种线性变换技术,它通过将原始数据转化为一组新的无关变量,从而减少数据的维度。

在主成分分析中,我们需要确定一组新的变量,这些新变量被称为主成分,每个主成分都是原始变量的线性组合,它们之间是无关的。

每个主成分都代表了原始变量的一部分变异性,而第一主成分则代表了整个数据集的最大变异性。

主成分分析可以用来分析多个指标之间的关系,它可以找到不同指标之间的相似性和重要性,从而更好地了解企业的财务状况。

主成分分析常用于财务比较、研究投资组合中的因素、分析产品特点等等。

二、主成分分析的应用主成分分析可以应用于财务分析中的多个方面,下面将重点介绍其在财务比较和投资组合研究中的应用。

1. 财务比较财务比较是企业财务分析的核心内容之一。

比较不同企业、不同时间段之间的财务数据是必要的,以了解企业的财务状况及其经营效果。

主成分分析可以将多个指标的变异性综合在一起,判断企业的财务状况。

它不仅可以发现财务指标之间的相互影响,还可以定量地评估不同指标对财务状况的影响大小。

例如,在对不同企业的财务比较中,主成分分析可以依据财务指标之间的相关性,建立不同企业财务状况的评价模型,通过计算不同企业在各个因素上所得分值的综合来进行整体比较,从而更好地了解企业在财务方面的状况。

2. 投资组合研究主成分分析也可以应用于投资组合研究中,可以使用主成分分析来理解多种债券之间的风险和回报率、股票之间的相关性等。

通过将多个指标综合在一起,可以找到不同指标之间的相似性和重要性,从而更好地了解投资组合中不同资产的价值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

王斌会 :稳健主成分分析方法研究及其在经济管理中的应用
·7 3·
效率和准确性 , P. J . Rousseeuw , et al (1999) [3] 和 M. Hubert , et al (2001) [4] 提出改良过的快速 MCD 算法 (FAST2MCD) , 大大改进了 MCD 方法的运行速率 。 Pison , G. , et al (2003) [5] 提出了稳健因子分析的思 想 。Hubert . M. , et al (2004) [6] 将稳健方法应用于判 别分析 。M. Hubert , et al (2005) [7] 也提出了一种新 的主成分分析方法 。这些方法极大的推动了多变量 统计分析方法的发展 。
二 、方法的计算及其不稳健性
从传统主成分方法的计算过程可知 ,进行主成 分方法的计算关键是算出变量的协方差矩阵或者相 关矩阵 ,而相关矩阵可以从协方差矩阵得到 ,可以把 问题都归并到协方差矩阵的计算中 。但协方差矩阵 是一个不稳健的估计量 ,对离群值非常敏感 ,所以导 致所计算的相关矩阵 、特征值和特征向量也受其影 响 ,容易产生不合理的结果 。其实协方差矩阵对离 群值敏感主要因为它的计算中要使用到均值向量 , 而均值向量实际上只是对多维数据的简单求平均 , 这种计算方法必定会很容易受到离群值的影响从而 使得协方差矩阵不是稳健的估计量 。
关键词 :异常值 ; FAST2MCD 算法 ; 主成分分析 ; 稳健主成分分析 中图分类号 :C812 文献标识码 :A 文章编号 :1002 - 4565 (2007) 08 - 0072 - 05
Robust Principal Component Analysis Method and its Application
变量 ,几十万样本的数据 。但是 FAST2MCD 方法的 一大缺点就是不能处理变量数量比样本数量要多的 数据 ,这时就要用到投影寻踪 ( Projection Pursuit) 这 种稳健估计方法 。不过这种情况多发生在生物化学 的样本数据中 ,在经济管理类数据中样本数量比变 量数 量 多 的 情 况 还 是 占 绝 大 多 数 , 所 以 把 FAST2 MCD 估计的主成分分析应用在经济管理分析中还 是很有意义的 。
为生物化学的许多数据是变量数比样本数要多 ,计 算协方差矩阵的时候必然会产生多重共线性 ,而投 影寻踪的方法能很好地解决这个问题 。另一种是构 造一个稳健协方差矩阵的办法 ,比如由 Rousseeuw[2] 于 1984 年提出的 MVE(Minimum Volume Ellipsoid) 和 MCD(Minimum Covariance Estimator) 方法 。这类方法 都有一个潜在的限制条件 ,就是分析的数据必须是 样本数比变量数要多 ,一般数据大都满足该条件 ,用 MVE 和 MCD 方法研究它们的稳健协方差矩阵比较 合适 。在研究领域 ,不断有人对一些基础的稳健多 变量估计量在算法方面做出改进 ,务求提高其运算
(二) FAST2MCD 的改进方法 11 FAST2MCD 的改进思想 。 从 FAST2MCD 的算法中 ,可以看到算法中 h 值 的确定是一个关键部分 ,如果 h 值过大 ,那么就会 把离群值都纳入计算中 ,得不到需要的稳健结果 。 如果 h 值太小 ,又会把正常的样本值归入离群值的 范围 ,这样算出来的结果由于没有包含一些正常的 样本值 ,也是不科学的 。从这点出发 ,如果能够把 h 值从算法改进中确定下来 ,那么必定会给程序带来 更高的准确性 ,针对 h 值是由抽取比率 a 确定这一 特点 ,可以不断地改变 a 的值来得到相应的特征值 和特征向量 ,然后再根据它们的变化把 a 给确定下 来 ,从而得到更准确的结果 。 21 FAST2MCD 的改进方法2动态 a 值确定法 。 根据上面的改进思想 ,本文以 1 %的变化把 a 从小到大的增加 ,然后用方向偏差和方差偏差这两
在实际的数据中 ,离群值会经常的出现 。一个 或多个的离群值有时便可以把整个结果改变 ,使得 整个样本数据所反映的数据特征大大受到了影响 , 甚至会得出相反的结果 。
三 、方法的建立及其改进
稳健主成分分析方法的目的是构造一个稳健的 协方差矩阵 ,归根到底就是要降低离群值对协方差 矩阵的影响 ,并把离群值的遮蔽效应去掉 ,把离群值 高效地检测出来 。通常所说的 M 估计 ,MVE 估计和 MCD 估计方法都是以此为出发点 ,但是它们的算法 由于时间复杂度太高 ,在实际中很难应用 。因此本 文主要研究 MCD 方法的改良方法 ,FAST2MCD 方法 , 并在 FAST2MCD 方法的基础再提出改良的方法 。
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved.
·7 4·
统计研究
2001) 方向偏差 (Direction Bias) 。 方向 偏 差 ( Zamar , 1989) [9] 的 定 义 为 : Bi = 1 -
| a′i ( F) ×ai | ,其中 F = (1 - e) F0 + eH , F0 是原分 布 , H 是污染分布 ,也是离群值的来源 。e 是污染分 布比率 , e 越大表明数据中的离群值越多。 a′i ( F) 和 ai 分别是 F 和 F0 的协方差矩阵的第 i 个特征向 量 。可见 ,当特征向量完全没偏差时 , Bi = 0 ;当特征 向量正交时 , Bi = 1 。因此可以定义以下式子 : B^ ij = 1 - | ^aij ( F) ·ai | ,其中 j 代表模拟中的第 j 次结果 , 如果用 m 来表示模拟的次数 ,那么最终把方向偏差 定义为 :
估计方法主要利用迭代和马氏距离的思想构造 一个稳健的协方差矩阵估计量 ,然后在此稳健协方 差矩阵上计算出稳健相关矩阵 ,从而进行主成分分 析。
考虑一个 n 行 p 列的矩阵 Xn ×p ,从中随机抽取 h 个样本数据 ,并计算这 h 个样本数据的均值 T1 和 协方差矩阵 S1 。然后通过 :
d1 ( i ) = ( xi - T1 ) ′S1- 1 ( xi - T1 ) 计算这 n 个样本 数据到中心 T1 的马氏距离 ,选出这 n 个距离中最小 的 h 个 ,再通过这个 h 个样本计算均值 T2 和协方 差矩阵 S2 。Rousseeuw ,Van Driessen (1999) 已证明 det ( S2 ) ≤det ( S1 ) ,仅当 T1 = T2 , S1 = S2 的时候等号成 立 。这样不断迭代下去 ,当 det ( Sm ) = det ( Sm - 1 ) 时 停止迭代 。再通过 Sm 进行加权计算就能求出稳健 的协方差矩阵估计量 。反映在图形上就是不断寻找 包含 h 个样本点的到样本中心距离最短的超椭球 体 ,而把其余的 n - h 个样本点排除在超椭球体外 。
过去 ,制约稳健多变量分析方法应用主要是计 算问题 ,随着计算机技术的迅猛发展 ,很多以前只有 思想而不能实现的方法都可在计算机上得到实现 。 在方法的构造方面主要存在两种类型的估计方法 。 一种以 Huber (1985) [1] 年提出的投影寻踪 ( Projection Pursuit) 为代表 。主要应用在生物化学的数据中 ,因
(一) FAST2MCD 估计方法的原理 MCD 方法最早由 Rousseeuw (1984) 提出[2] ,虽然 其方法具有很高的稳健性 ,但是由于其算法的复杂 性加上当时计算机性能的落后 ,不能得到很好的运 用 。直 到 近 几 年 计 算 机 技 术 的 不 断 发 展 和 Rousseeuw ,Van Driessen (1999) [3] 提出改良过的快速 MCD 算法 ( FAST2MCD) ,才使得 MCD 方法真正地应 用在各种稳健估计中 ,其高效性可以处理超过 30 个
Wang Binhui
Abstract :Traditional multivariable analysis method , for example , principal component analysis ( PCA) method and factor analysis method , are common in calculating the mean vector , the covariance matrix of sample and other variables. When there are no outliers in the sample , these methods can get good results. But when there are outliers in the sample , these methods are easily affected by them. This paper focuses on the study of the most popular FAST2MCD method which is improved to overcome its shortcoming , constructs robust mean vector and robust covariance matrix which is applied in PCA method. From the result of simulation and empirical study , the improved method and the new robust estimator are good for resisting outliers and decrease their influence greatly.
3 本文获广东省科技计划项目 (2004B10101010) 资助 。
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved.
相关文档
最新文档