SFA 方法和因子分析法综述

SFA 方法和因子分析法综述
SFA 方法和因子分析法综述

SFA 方法和因子分析法综述

(姬晓鹏,管理科学与工程,1009209018)

1.1 DEA 方法和SFA 方法的区别

1. 数据包络分析(DEA )

数据包络分析(data envelopment analysis)简称DEA,采用线性规划技术,是最常用的一种非参数前沿效率分析法。它由A.Charnes 和W.W.Cooper [1]等人于1978年创建的,以相对效率为基础对同一类型的部门的绩效进行评价。

该方法将同一类型的部门或单位当作决策单元(DMU),其评价依据的是所能观测到的决策单元的输入数据和输出数据。输入数据是指决策单元在某种活动中所消耗的某些量,如投入资金量、原料量等,输出数据是指决策单元消耗这些量所获得的成果和产出,如产品产量、收入金额等。将各决策单元的输入输出数据组成生产可能集所形成的生产有效前沿面,通过衡量每个决策单元离此前沿面的远近,来判断该决策单元的投入产出的合理性,即技术效率[2]。

一般的评价方法比较同一类型的决策单元的效率,需要先对决策单元的输入输出指标进行比较,并通过加权得到一个综合评分,然后通过各个决策单元的评分来反映其效益优劣。数据包络分析法则巧妙地构造了目标函数,并通过Charnes -Cooper 变换(称为-变换)将分式规划问题转化为线性规划问题,无需统2C 一指标的量纲,也无需给定或者计算投入产出的权值,而是通过最优化过程来确定权重,从而使对决策单元的评价更为客观。对建筑设计企业进行评价的问题,很适于数据包络分析法的评价模型。

DEA 方法也存在着一些缺点:首先,当决策单元总数与投入产出指标总数接近时,DEA 方法所得的技术效率与实际情况偏差较大;其次,DEA 方法对技术有效单元无法进行比较;此外,由于未考虑到系统中随机因素的影响,当样本中存在着特殊点时,DEA 方法的技术效率结果将受到很大影响。彭晓英等用因子分析法对指标进行筛选和综合,再采用DEA 方法进行评价,解决了DEA 方法对指标数量限制的问题,并对煤炭资源型城市的生态经济发展进行了评价[3]。

SFA 与DEA 方法都是前沿效率评价方法,它们都是通过构造生产前沿面来计算技术效率的。与DEA 方法相比,SFA 方法利用生产函数来构造生产前沿面,并采用技术无效率项的条件期望来作为技术效率,其结果受特殊点的影响较小且

不会出现效率值相同且为1的情况,可靠性、可比性更好[4,5]。SFA方法也有一些缺点,如处理多产出的情况时不如DEA方法方便,需要将多产出合并成一个综合产出;而投入指标过多时,由于指标间的相关关系,也会对结果的可靠性产生影响。周春应等、侯强等分别采用了SFA方法对我国区域经济技术效率和辽宁省城市技术效率进行了评价[6,7]。

1.1.1 SFA方法的产生

在经济学中,技术效率的概念应用广泛。Koopmans首先提出了技术效率的概念,他将技术有效定义为:在一定的技术条件下,如果不减少其它产出就不可能增加任何产出,或者不增加其它投入就不可能减少任何投入,则称该投入产出为技术有效的[104]。Farrell首次提出了技术效率的前沿测定方法,并得到了理论界的广泛认同,成为了效率测度的基础[105]。

在实际应用中,前沿面是需要确定的。其确定方法主要两种:一种是通过计量模型对前沿生产函数的参数进行统计估计,并在此基础上,对技术效率进行测定,这种方法被称为效率评价的“统计方法”或“参数方法”;另一种是通过求解数学中的线性规划来确定生产前沿面,并进行技术效率的测定,这种方法被称为“数学规划方法”或“非参数方法”。参数方法的特点是通过确定前沿生产函数的参数来确定生产前沿面,针对不同研究对象所确定的生产函数也各不相同,技术效率的测度具有一定的针对性,而非参数方法只需通过求解线性规划来确定生产前沿面,方法简单易行,应用广泛。

参数方法依赖于生产函数的选择,常用的生产函数有Cobb-Douglas生产函数、Translog生产函数等。参数方法的发展经历了两个阶段:确定型前沿模型和随机型前沿模型。Aigner等、Afriat分别提出了各自的确定型前沿模型,在不考虑随机因素影响的情况下求解前沿生产函数[106,107]。但是,由于确定型前沿模型把所有可能产生影响的随机因素都作为技术无效率来进行测定,这使得其技术效率测定结果与实际的效率水平有一定的偏差。为了消除确定型前沿模型的这一缺陷,Meeusen和Vanden Broeck,Aigner、Lovell和Schmidt和Battese和Corra提出了随机前沿模型(即SFA方法),对模型中的误差项进行了区分,提高了技术效率测定的精确性[108-110]。

1.1.2 SFA 方法简介

Meeusen 和Vanden Broeck ,Aigner 、Lovell 和Schmidt 和Battese 和Corra 首次提出了随机前沿方法(Stochastic Frontier Approach ,简称SFA),它是一种技术效率理论的参数方法。

1.SFA 模型

文献[108-110]中提出的SFA 模型如下所示:

, (4-1)

(,)exp()exp()i i i i Y f x v u β=-1,...,i N =

其中,表示产出,表示投入,为模型参数。在他们提出的模型中,将i Y i x β随机扰动分为两部分:一部分用于表示统计误差,又被称为随机误差项,用i εi v 来表示;另一部分用于表示技术的无效率,又被称为非负误差项,用来表示。

i u 当模型的生产函数选择Cobb-Douglas 生产函数时,式(4-1)可写成下面的线性形式:

(4-2)

0ln ln i j ij i i j Y x v u ββ=++-∑1,...,i N =

模型有如下假设:

(1)随机误差项,主要是由不可控因素引起,如自然灾害、天2(0,)i v v iidN σ 气因素等等。

(2)非负误差项,取截断正态分布(截去<0的部分),且有、2(0,)i u u iidN σ+ i u 相互独立。

i v (3)、与解释变量相互独立。

i u i v i x Battese 和Coelli 在前人研究的基础上进行了改进,引入了时间的概念,使SFA 模型可以对面板数据进行效率评价[15]。具体模型如下:

,, (4-3) (,)exp()exp()it it it it Y f x v u β=-1,...i N =1,...t T =

在式(4-3)中,是第i 个决策单元的t 时期产出,是第i 个决策单元的t it Y it x 时期的全部投入,为模型参数,为随机误差项,为非βit v exp(())it i u u t T η=--负误差项,为被估计的参数。

η

图4-1 SFA 模型的技术效率

图4-1以Cobb-Douglas 生产函数为例,显示了SFA 模型技术效率测度的优点。图中,由Cobb-Douglas 生产函数确定的生产前沿面为:,01ln ln i i q x ββ=+而基于这个确定生产前沿面的随机前沿模型为:,也可01ln ln i i i i q x v u ββ=++-以表示为:。A 、B 两点分别表示随机影响为正或为01exp(ln )i i i i q x v u ββ=++-负的情况:A 点表示随机影响为正,则随机误差项为正数,生产前沿面上移A v 到,样本的技术效率为

*

01exp(ln )A A A q x v ββ=++,B 点表示随机影响为负,则随机误差项为01*01exp(ln )exp(ln )

A A A A A A A A x v u q TE q x v ββββ++-==++

B v 负数,生产前沿面下移到,样本的技术效率为

*01exp(ln )B B B q x v ββ=++。 01*01exp(ln )exp(ln )

B B B B B B B B x v u q TE q x v ββββ++-==++2.SFA 效率的计算

对于式(4-1),我们可以将SFA 技术效率定义如下:

exp()(,)exp()

i i i i i Y TE U f x V β=-=(4-4)

所以,在的分布已知的情况下,我们可以计算出技术效率的平均值i U ,但是,通过该方法若想计算出各样本点的技术效率值却有些[exp()]i TE E U =-困难。因为我们可以根据样本点的观测值得出模型中参数的估计值,并根据这些估计值求出残差,但是,我们无法计算出每个和的估计值。

i εi U i V

为了能够计算出每个样本点的技术效率,文献[16]将技术效率定义为

,该方法被称为JLMS 技术,他们分别就半正态分布和指数exp[()]i i i TE E U ε=-分布推导了的表达式,得出了技术效率值,解决了技术效率计算的问题。

()i i E U εSFA 方法通过极大似然法估计出各个参数值,然后用技术无效率项的条件期望作为技术效率值。与DEA 方法相比,其结果一般不会有效率值相同并且为1的情况,并且SFA 方法充分利用了每个样本的信息并且计算结果稳定,受特殊点影响较小,具有可比性强、可靠性高的优点。

1.2 因子分析法

1.2.1 因子分析法简介

因子分析是一种比较实用的多元统计方法,它是主成分分析法的推广。因子分析法的作用是将相关性较高、关系复杂的指标变量综合成数量较少、关系简单的综合指标(在因子分析中被称为因子),并展现各因子与初始变量之间的关系。换言之,因子分析就是一种应用于存在复杂的相关关系的指标体系中,研究或探寻不能直接观察到,但对所观测变量起到支配或概括性作用的隐藏因子的多元统计分析方法[17]。

一个指标体系中的每个变量的形成都是有其原因的,各个变量之间的共同原因被称为公共因子,而每个变量又存在着产生其特性的原因,被称为特殊因子。因子分析就是根据样本的数据资料,将影响每一个原始变量的公共因子和特殊因子采用线性的方式来进行表达,以达到合理解释原始变量的相关性并降低维数的目的。在采用因子分析方法时,一般使公共因子尽可能少且概括性高,并且尽可能使其具有一定专业意义,公共因子共同作用于每个变量,而特殊因子只作用于特定的变量。

1.2.2 因子分析的数学模型及计算方法

1.因子分析的数学模型

假设有p 个观测变量,可以用m

(4-5)

111112211

2211222221122n n n n q q q qn n q X a F a F a F X a F a F a F X a F a F a F εεε=++++=++++=++++

式(4-5)中,为观测变量,为公共因子,为特殊因子,是因子系数i X j F i εij a (又称为因子载荷),而由因子载荷构成的矩阵A 被称为因子载荷矩阵。因子分

ij a 析模型中,假设初始变量、公共因子和特殊因子均为标准化变量(即平均i X j F i ε值为0,方差为1),特殊因子服从,并且与之间不i ε20)(1,2,...,)i N i q σ=((j F 相关。

因子载荷矩阵具有下面几个统计特征和意义:

(1)因子载荷的意义

ij a 由于初始变量、公共因子和特殊因子均为标准化变量,且各因子互不相关,通过研究可以得出,因子载荷实际上是变量与公共因子的相关性度量。ij a i X j F 且有,其绝对值越大,表明变量与公共因子越相关,对的影响1ij a ≤i X j F j F i X 也就越大。

(2)公共因子对变量的解释程度

i X i k 在因子分析模型中,变量被公共因子所解释的方差是因子载荷矩阵第i 行i X 元素的平方和,记为:

221(1,2,...,)n i

ij j k a i q ===∑(4-6)

而变量的方差为:

i X

(4-7)

2

2

11()()...()()i i in n i D X a D F a D F D ε=+++

由于变量与公共因子均为标准化变量,则有

i X j F

222211n

ij i i i j a k σσ==+=+∑(4-8)

由式(4-8)我们可以看出,初始变量的方差分为两部分:一部分是由公共因子进行解释,一部分是由特殊因子进行解释。而体现了全部公共因子对变量2i k i X 的解释程度,越接近1,说明变量i 几乎全部的信息都被所选择的公共因子所i k 解释,因此,被称为公共因子对变量的解释程度。为特殊因子的方差,i k i X 2i σi ε越小,表明变量i 损失的信息越少。

2i σ(3)公共因子方差贡献的意义

公共因子的方差贡献是因子载荷矩阵中第j 列元素的平方之和。记为: j F

21q

j ij

i T a ==∑(4-9)

它反映了公共因子对初始指标体系中的全部变量的解释能力。该值越大,j F 说明公共因子j 的重要程度越高。

2.因子分析的计算

(1)因子载荷矩阵的估计方法

采用因子分析方法时,首先要根据样本数据来估计因子载荷矩阵A ,相应的估计方法有主成分分析、极大似然估计法、主轴因子法、最小二乘法和广义最小二乘法等。目前,最为常用的是主成分分析,本章也采用主成分分析进行因子载荷矩阵估计。具体方法如下:

首先假设主成分分析的数学模型为,1122...T i i i iq q i Q u X u X u X u X =+++=。然后计算样本数据的协方差矩阵S 和S 的特征值,并对其按从大(1,2,...,)i q =到小的顺序排序,即求出及对应的单位正交特征向量120q λλλ≥≥≥> 。接下来,通过计算求出模型的主成分。按照因子分析尽量12,,...,q u u u T i i Q u X =减少变量个数的目的,公共因子个数一般应小于变量个数(即n

因子载荷矩阵A 的第j

,所以,因子载荷矩阵A 的样本估计量为:

j

(4-10)

)1q A ∧=在实际情况中,所选取的公共因子组合一般需要满足总贡献率达到85%以上的条件,所选取得公共因子个数也由这一条件来决定。

(2)因子旋转

在一般情况下,通过对因子载荷矩阵估计所得到的初始因子载荷矩阵的公共因子与初始变量之间的关系不够明确,无法对公共因子的性质进行解释。为方便因子分析在实际问题中的应用,就需要对因子载荷矩阵进行旋转。

旋转的方法主要分为正交旋转和斜交旋转,它们都有其各自的特点。正交旋转可以保持初始解中因子的相关关系,而斜交旋转能够根据隐藏因子之间的联系最大程度的反映现实状况,本章采用方差最大正交旋转法来进行因子旋转。

方差最大正交旋转法是从初始因子载荷矩阵的每一列出发,使和每个因子有关的载荷的方差最大,既使各个因子载荷值尽可能向0或1这两个极值转化。这样就可以较容易地说明某公共因子主要代表了哪些变量的信息,也就容易解释公共因子的意义。

(3)因子得分

因子分析应用到综合评价方面,就需要得到最终的得分,而因子分析是将变量表示为公共因子的线性组合,所以要将这些公共因子应用到综合评价方面,就需要我们对公共因子进行测度,即给出公共因子的值。为此,我们需要将公共因子反过来表示为变量的线性组合。但是,因为阶因子载荷矩阵A 是不可逆n q ?的,所以,公共因子不能准确地表示为变量的线性组合。因此,因子得分需要进行估计。

假设公共因子由变量表示的线性组合如下:

(4-11)

11j j jq q F X X αα=++ (1,...,)j n =

我们将式(4-11)称为因子得分函数。为因子的得分系数。

ji α在使用因子分析法进行综合评价时,有时还需要得出综合得分,这时,将各因子得分与其方差贡献比率的乘积求和,可以得到因子分析的综合评分,如式(4-12)所示:

(4-12)

1

111,...,n n n n j j j j T T F F F T

T ===++∑∑

1.3 SFA 方法与因子分析的整合

1.3.1 SFA 方法与因子分析整合的优点

SFA 自身具有很多优点:SFA 方法将实际产出分为生产函数、随机因素和技术无效率,它考虑了随机因素对于产出的影响,而DEA 方法则将实际产出小于前沿产出的原因全部归结为技术无效率,忽略了随机因素对产出的影响;SFA 方法利用生产函数和随机扰动项构造出随机生产前沿,并通过极大似然法估计出各个参数的数值,然后将技术无效率项的条件期望作为技术效率值,其结果不会像DEA 结果那样出现有多个决策单元的技术效率相同且为1的情况,便于对所有决策单元进行评价;SFA 方法采用的极大似然估计法充分利用了每个样本的信息并且“平等”对待每个样本,因此,与DEA 方法相比,不易受到异常点的影响而使技术效率计算结果与实际情况偏差较大。但是,SFA 方法仍存在着一些不足:第一,当生产函数的投入指标间具有很复杂的相关性时,评价结果受指标选择的影响较大,容易与实际效率情况产生偏差;第二,因为生产函数的产出只有一个,所以,当遇到多产出的实际情况时,SFA 方法使用起来不太方便。

为了解决SFA 方法在实际操作中所遇到的这两个问题,本章将因子分析与SFA 方法相结合,首先选出数量较多的备选指标,然后根据各指标的性质进行分类,采用因子分析的方法提取少量投入指标,并将多个产出指标综合成一个综合产出指数。这样既减少了指标间的相关性对评价结果的影响,还提高了SFA 方法的实用性。

1.3.2 SFA 方法与因子分析整合的方法

和DEA 方法一样,SFA 方法要求投入产出数据均为正值,而采用因子分析方法进行因子得分所得到的数据会有一部分为负值,所以,由因子分析法所得到的数据需要进行一定的处理再进行SFA 分析。本文采用运用较多的DEA 方法与因子分析法整合的方法对因子分析所得到的数据进行处理,然后采用SFA 方法进行效率评价,并将所得结果与DEA 方法得到的结果进行相关性分析,以验证这种数据处理方法也可以应用在SFA 和因子分析法的整合上。具体计算方法如下:

, '0.10.9ij j ij j j X b X a b -=+?-'0.11ij

X ≤≤(4-13)

式(4-13)中,为第j 个指标的最大值,为第j 个指标的最小值,是初

j a j b ij X 始数据,是通过变换所得到的数据。这种变换可以将所有的数据变换为[0.1,

'ij X 1]区间上的数据,并不影响评价结果[79]。

参考文献

[1] Charnes, A., Cooper, W.W., Rhodes, E. Measuring the efficiency of decision

making units[J]. European Journal of Operational Research, 1978, 2(6): 429-444.

[2] 魏权龄. 数据包络分析[M]. 北京. 科学出版社, 2004.

[3]彭晓英,张庆华,煤炭资源型城市可持续发展的综合评价方法研究,数学的

实践与认识,2009,39(17):22~27

[4]李双杰,范超,随机前沿分析与数据包络分析方法的评析与比较,统计与决

策,2009,(7):25~28

[5]杜忠晓,王洪礼,李怀宇,勘查设计企业效率的随机前沿面评价,中国科技

信息,2009,26(6):13~15

[6]周春应,章仁俊,基于SFA模型的我国区域经济技术效率的实证研究,科技

进步与对策,2008,25(4):21~24

[7]侯强,王晓莉,叶丽绮,基于SFA的辽宁省城市技术效率差异分析,沈阳工

业大学学报(社会科学版),2008,1(3):230~234

[8]Coelli T J,Rao D S P, Battese G E. An introduction to efficiency and productivity

analysis, Boston: Kluwer Academic Publishers, 1998, 183~219

[9]Farrell R, Grosskopf S, Lovell, C A K . The measurement of efficiency of

production, Boston: Kluwer-Nijhoff Publish, 1985:21~49

[10]Aigner D J, Chu S F. On Estimating the Industry Production Function, The

American Economic Review, 1968,58(4):826~839

[11]Afriat S N. Efficiency Estimation of Production Functions, International

Economic Review, 1972,13(3):568~598

[12]Meeusen W J, Broeck V D. Efficiency Estimation from Cobb-Douglas Production

Functions with Composed Error, International Economic Review, 1977,18(2): 435~444

[13]Aigner D, Lovell C, Schmidt P. Formulation and Estimation of Stochastic

Frontier Production Function Models, Journal of Econometrics, 1977, 6(1): 21~

37

[14]Battese G E, Corra G S. Estimation of a Production Frontier Model: With

Application to the Pastoral Zone of Eastern Australia, Australia Journal of Agricultural Economics, 1977,21(3):169~179

[15]Battese G E, Coelli T J. Frontier Production Functions, Technical Efficiency and

Panel Data: with Application to Paddy Farmers in India, Journal of Productivity Analysis, 1992,3(1-2):153~169

[16]Jondrow J, Lovell C, Materov I S, et al. On the estimation of technical

inefficiency in the stochastic frontier production function model, Journal of Econometrics, 1982,19(2-3): 233~238

[17]Brown T A. Confirmatory factor analysis for applied research, New York:

Guilford Press,2006.12~37

社会科学研究方法文献综述

关于商业片植入式广告发展现状及存在问题的研究——受众心理的关注及营销策略、传播方式的使用 文献综述 姓名:王丹 20090257 曾艳 20090261 杨斯琦 20090259 唐梦佳 20090256 余颂庆 20090260 张文 20090262 吴霜 20090258 班级:市场营销03班 指导老师:杨代福 时间:2012-03-10

【引言】 进入21世纪以来,由于行业竞争加剧等原因,商业片植入式广告异军突起,事实上,这种广告模式由来已久,也并非中国特色。植入式广告源于欧美,发展较为成熟,我国的植入式尚处萌芽阶段,负面问题频发,饱受舆论质疑。但不可否认的是,植入式广告不但比传统硬广告更有优势,而且也是快速收回投资成本、降低商业风险急加速媒介产业循环的好方法,作为产业链上重要一环,其存在不仅具有合理性,而且具良好的发展前景。那么,如何使商业片的植入式广告快速的进入其下一个发展阶段成为现阶段的重大问题。因此,对于影响植入式广告效果的重要因素(营销手段、传播方式以及受众心理),值得我们去研究和思考我们。 【正文】 一、植入式广告的文献研究现状 植入式广告于上世纪20年代至20年代末开始萌芽、2000年以后才真正进入蓬勃发展期,虽然相对于传统传播形式的广告,植入式广告的发展历史并不长,但是以商业片植入式广告为代表的植入式广告已经成为广告发展的一股不可抵挡的趋势,而国内外专家、学者对植入式广告发展的方方面面也进行了深入研究和探讨,呈现出一定深度和广度的理论学说及典型案例,对于植入式广告产业发展发挥了作用。从国内外的研究现状看,对于植入式广告的研究成果可归纳为以下四个方面。 1.对于植入式广告的理论体系依据研究 关于植入式广告所依据的理论体系的研究,主要集中在传播学理论的体现与运用;张金海在《20世纪广告传播理论研究》一书中指出,植入式广告在现代广告业的发展中越来越引人注目,体现了现代广告逐渐将目光放在广告传播的社会文化关注,而巧妙地利用传播学中的归因理论和“说服性传播”的效果理论,则可以将这种关注的社会化效果扩大;而吕善锟在其论文《电影中植入式广告的理论依据》中则明确提出,植入式广告之所以比传统的商业广告有更好的说服效果,正在于其运用了传播学中的归因理论、两级传播理论、“说服性传播”的效果研究、经典条件反射理论以及模仿理论等。

研究方法-因子分析

因子分析 前言 因子分析方法的实际作用已为广大实际工作所证实。但并非每次运用它都是成功的。有时,特别是针对多维变量所做的因子分析,难以有清晰的解释。因此,有的实际工作者开始怀疑因子分析方法的科学性。但同时,不同的人针对相同的数据所做的因子分析。解释其结果却又不尽相同。有的人通过因子分析能给出问题近乎完美的答案。于是,又有人称因子分析是一种“艺术”因子分析因此也变得神秘起来了。因子分析到底是艺术还是科学呢? 因子分析的统计思想 在实践中,往往收集到的数据是多指标的。各指标之间通常不是独立的,或多或少存在着一定程度的关系。因子分析的目的是通过少数几个变量去描述这众多变量见的协方差关系。这少数几个变量是潜在的,但不能观察的。我们称之为因子。 1以相关为基础 在所收集到的众多变量中,必定存在某些是高度相关的,把这些高度相关的变量组成各组。这样同一组内变量具有高度相关,而与其他的各组变量却只有较小的相关或是不相关。这些组内高度相关的变量可以设想是一个共同的东西在影响着它们而导致高度相关。这个共同的东西称之为公共因子。如前所述,这些公共因子是潜在但不能观测的。 2通过协方差来实现 因子分析是以相关为基础,从协方差或相关阵开始把大部分变异归结为少数几个公共因子所为。把剩余的部分称为特殊因子。 3作用:寻求基本结构、数据化简 通过因子分析,可以用几个较小的有实际意义的因子来反映原来数据的基本结构。例如: 例1:Linden对二战以来奥运会十项全能比赛的得分作了研究,将100米、跳远、铅球、跳高、400米、110米栏、铁饼、撑杆跳、标枪、1500米的成绩归结到短跑速度、爆发性臂力、爆发性腿力、耐力四个方面。 例2:公司面试,从简历、外貌、专业能力、讨人喜欢的能力、自信心、洞察力、诚实、理解力等15个方面进行打分,最后归结外申请者的外露能力、受欢迎程度、工作经验、专业能力这四个方面 通过因子分析,可以用少数几个因子代替原来的变量做回归分析÷据类分析等。 正交因子模型分析 1模型的直观描述

SPSS进行主成分分析的步骤(图文)精编版

主成分分析的操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析的各个原始变量放入变量框,如下图所示:

单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选的,保持默认即可),如下图所示,然后点击Continue按钮,回到主对话框: 其他的次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子的方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到的主要结果如下面几张表。 ①KMO和Bartlett球形检验结果:

KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验的显著性P值为 0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量的共同度,Extraction下面各个共同度的值都大于0.5,说明提取的主成分对于原始变量的解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大于1的两个主成分,两个主成分的方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下:

根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵U 与因子载荷矩阵A 以及特征值λ的数学关系如下面这个公式: λi i i A U = 故可以由这二者通过计算变量来求得主成分载荷矩阵U 。 新建一个SPSS 数据文件,将因子载荷矩阵中的各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables )的公式分别如下二张图所示:

SFA方法综述

SFA方法和因子分析法综述 (姬晓鹏,管理科学与工程,1009209018) 1.1DEA方法和SFA方法的区别 1.数据包络分析(DEA) 数据包络分析(data envelopment analysis)简称DEA,采用线性规划技术,是最常用的一种非参数前沿效率分析法。它由A.Charnes和W.W.Cooper[1]等人于1978年创建的,以相对效率为基础对同一类型的部门的绩效进行评价。 该方法将同一类型的部门或单位当作决策单元(DMU),其评价依据的是所能观测到的决策单元的输入数据和输出数据。输入数据是指决策单元在某种活动中所消耗的某些量,如投入资金量、原料量等,输出数据是指决策单元消耗这些量所获得的成果和产出,如产品产量、收入金额等。将各决策单元的输入输出数据组成生产可能集所形成的生产有效前沿面,通过衡量每个决策单元离此前沿面的远近,来判断该决策单元的投入产出的合理性,即技术效率[2]。 一般的评价方法比较同一类型的决策单元的效率,需要先对决策单元的输入输出指标进行比较,并通过加权得到一个综合评分,然后通过各个决策单元的评分来反映其效益优劣。数据包络分析法则巧妙地构造了目标函数,并通过Charnes -Cooper变换(称为2 C-变换)将分式规划问题转化为线性规划问题,无需统一指标的量纲,也无需给定或者计算投入产出的权值,而是通过最优化过程来确定权重,从而使对决策单元的评价更为客观。对建筑设计企业进行评价的问题,很适于数据包络分析法的评价模型。 DEA方法也存在着一些缺点:首先,当决策单元总数与投入产出指标总数接近时,DEA方法所得的技术效率与实际情况偏差较大;其次,DEA方法对技术有效单元无法进行比较;此外,由于未考虑到系统中随机因素的影响,当样本中存在着特殊点时,DEA方法的技术效率结果将受到很大影响。彭晓英等用因子分析法对指标进行筛选和综合,再采用DEA方法进行评价,解决了DEA方法对指标数量限制的问题,并对煤炭资源型城市的生态经济发展进行了评价[3]。 SFA与DEA方法都是前沿效率评价方法,它们都是通过构造生产前沿面来计算技术效率的。与DEA方法相比,SFA方法利用生产函数来构造生产前沿面,并采用技术无效率项的条件期望来作为技术效率,其结果受特殊点的影响较小且

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893

多组分分析方法综述

重金属多组分分析的研究现状 近年来,随着科技的进步,单组分重金属的检测技术已经非常成熟,但是在实际污染体系中重金属离子种类繁多,且它们之间往往存在相互干扰,传统的化学分析方法和化学分析仪器难以一次性精确的检测出各个重金属离子的浓度,需要对共存组分进行同时测定。 对共存组分进行同时测定,传统的化学分析方法是首先通过加入各种掩蔽剂进行组分的预分离,然后采用单组分重金属检测技术进行分析检测。这种方法的分离过程往往冗长繁琐,实验条件苛刻,费时费力,而且检测精度低,无法应用于污染现场的检测。 随着计算机科学技术、光谱学和化学信息学的发展,复杂体系的多组分分析已成为当今光谱技术的研究热点,应用范围涉及环境监测、石油化工、高分子化工、食品工业和制药工业等领域,而且需求日益显著。由于多重金属离子共存时会产生重金属离子间的相互作用,因此在用化学分析仪器检测时会产生相干数据干扰,对实验结果产生影响,为了使测试结果更加准确,需要在实验的基础上建立数学模型,用于数据处理,消除各重金属离子共存时产生的相干数据干扰。近年来,引入化学计量学手段,用“数学分离”部分代替复杂的“化学分离”,从而达到重金属离子的快速、简便分析测定[1]。 化学计量学是一门通过统计学或数学方法将对化学体系的测量值与体系的状态之间建立联系的学科,它应用数学、统计学和其他方法和手段(包括计算机)选择最优试验设计和测量方法,并通过对测量数据的处理和解析,最大限度地获取有关物质系统的成分、结构及其他相关信息。目前,已有许多化学计量学方法从不同程度和不同方面解决了分析化学中多组分同时测定的问题,如偏最小二乘法(PLS)、主成分回归法(PCR)、Kalman滤波法、多元线性回归(MLR)等,这些方法减少了分离的麻烦,并使试验更加科学合理。 (1) 光谱预处理技术 这些方法用来降噪、消除无关信息。 ①主成分分析法 在处理多元样本数据时,假设总体为X=(x1,x1,x3…xn),其中每个xi (i=1,2,3,…n)为要考察的数量指标,在实践中常常遇到的情况是这n个指标之间存在着相关关系。如果能从这n个指标中构造出k个互不相关的所谓综合指标(k

情感识别综述

龙源期刊网 https://www.360docs.net/doc/f811517887.html, 情感识别综述 作者:潘莹 来源:《电脑知识与技术》2018年第08期 摘要:情感交互在人机自然交互的研究中受到了很大的重视,而情感识别是人机情感交互的关键,其研究目的是让机器感知人类的情感状态,提高机器的人性化水平。该文首先对情感识别理论进行了概述,继而对情感识别的研究方法进行了分类描述,接着简述了情感识别的应用领域,最后对情感识别的发展进行了展望。 关键词:情感识别;综述;多模态融合;特征提取;情感分类 中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)08-0169-03 1引言 随着智能技术的迅猛发展以及智能机器在各领域的广泛应用,人们渴望对机器进行更深层次地智能化开发,使机器具备和人一样的思维和情感,让机器能够真正地了解用户的意图,进而让机器更好地为人类提供智能化的服务。在智能机器研究中,自然和谐的人机交互能力受到很大的重视。情感识别作为人机情感交互的基础,能够使机器理解人的感性思维,影响着机器智能化的继续发展,成为人机自然交互的关键要素。同时,情感识别融多学科交叉为一体,其发展将会带动多学科共同发展,其应用也会带来巨大的经济效益和社会效益。因而,情感识别技术的研究具有很大的发展前景和重要的学术价值。 2情感识别概述 情感是一种综合了行为、思想和感觉的状态。情感信息主要表现在内外两个层面:一是外在情感信息,是指通过外表能自然观察到的信息,如面部表情、唇动、声音、姿势等,二是内在情感信息,是指外部观察不到的生理信息,如心率、脉搏、血压、体温等。 情感识别本质上也是一种模式识别,它是指利用计算机分析各种情感信息,提取出描述情感的情感特征值,建立特征值与情感的映射关系,然后对情感信息进行分类,从而推断出情感状态的过程。 3情感识别的研究方法 情感识别的研究方法主要有:面部表情识别、语音情感识别、姿态表情识别、文本识别、生理模式识别和多模态情感识别。情感识别过程一般包括四个部分:数据获取、数据预处理、情感特征提取、情感分类。情感特征提取过程一般包括:特征提取、特征降维和特征选择。其中,特征提取的方式各有不同,而特征降维和选择的方式大致相同。

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

多元数据处理——因子分析法

多元数据处理 ---因子分析方法 多元数据处理主要包括多元随机变量,协方差分析,趋势面分析,聚类分析,判别分析,主成分分析,因子分析,典型相关分析,回归分析以及各个分析方法的相互结合等等。本文主要针对其中的因子分析方法展开了论述,并举了一个因子分析法在我国房地产市场绩效评价中的应用实例。 第一章因子分析方法概述 1.1因子分析的涵义 为了更全面和准确的测量和评估对象的特征,在实际的应用中,我们往往尽可能多的选用特征指标进行系统评估,选取的指标越多,就越能全面、客观的反映评价对象的特征。选取众多指标的同时也带来了统计分析的困难:一、不同的指标,不同重要程度需要赋予不同的权重,而靠主观的评价避免不了一些失误与错误。二、收集到的指标之间可能存在较大的相关性,大量收集指标带来了人力、物力和财力的浪费。而因子分析方法则较好的解决了上述问题。 因子分析[1]是一种多元统计方法,该方法起源于20世纪初Karl Pearson 和Charles Spearman 等人关于心理测试的统计分析,它的核心是用最少的相互独立的因子反映原有变量的绝大部分信息。[2]通过分析事物内部的因果关系来找出其主要矛盾,找出事物内在的基本规律。 因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但是,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,使不同组内的变量相关性较低[3]。对于所研究的问题就可试图用最少个数的所谓因子的线性函数与特殊因子之和来描述原来观测的每一变量[4]。因子变量的特点:第一,因子变量的数量远小于原指标的数量,对因子变量的分析能够减少分析的工作量;第二,因子变量不是原有变量的简单取舍,而是对原有变量的

结构非线性动力分析方法综述_周文峰

·自然科学研究· 结构非线性动力分析方法综述 周文峰 郭 剑 (攀枝花学院土木工程学院,四川攀枝花 617000) 摘 要 时程分析法是一种计算机模拟分析方法,其优势在于能模拟出结构进入非弹性阶段的受力性能。该 方法主要包括结构分析模型、单元模型和恢复力模型三个重要方面。本文从这三个方面简单介绍了结构非线 性动力反应分析方法。 关键词 非线性;动力分析;模型 结构抗震设计方法经历了静力阶段、反应谱阶段和动力阶段。从本质上说,前二者所采用的方法均为静力法,且只能进行弹性分析。动力阶段的形成建立在计算机的普及和数值分析方法的出现基础之上,其分析方法称为时程分析法。时程分析法本质上是一种计算机模拟分析方法,能够计算出结构地震反应的全过程,该方法的突出优势在于能模拟出结构进入非弹性阶段的受力性能。 时程分析法的出现促进了结构非线性地震反应分析的发展。它主要包括结构分析模型、单元模型和恢复力模型三个重要方面,下面从这三个方面进行简单介绍。 1 结构分析模型 结构的模型化是非线性动力反应分析的第一步,结构模型的模拟应着重于其动力特性的模拟。因此体系恢复力、质量、阻尼模型的准确性是模拟精度的前提。目前的结构分析模型可分为以下几类: 1.1 层间模型 考虑到框架结构质量的分布规律,很容易形成以楼层为单元的多质点体系的思路,故将这种模型称之为层间模型。在研究框架结构动力反应时,层间模型中采用得最多的是层间剪切型模型。该模型假定框架结构层间变形以剪切变形为主,忽略其它形式变形的影响,故而比较适用于高跨比不大、层数不多的框架。为了进一步拓宽此模型的适用范围,在此模型基础上又发展了层间剪弯型模型,使之能适用于层数较多和高跨比较大的框架。 但是层间模型在实际使用中却存在比较大的困难,这主要反映在如何具体确定层间的剪切刚度及弯曲刚度的问题上,而且这二者之间又是耦合在一起的。这一问题层间模型自身是无法解决的。目前,层间模型只是对于常见的层数不多且平面布置十分简单、规则、对称并且能简化为平面结构的框架有一定的实用性,也就是说对于这类框架通常能根据经验进行适当的假设后进行简单推导得到层间单元刚度。 1.2 杆系模型 杆系模型是将整体结构离散为梁、柱单元进行分析。杆系分析模型的出现不仅解决了层间模型所面临的层间刚度无法确定的困难,而且它还解决了层间模型所固有的另外两个缺陷。其一,如果说层间模型从宏观(层单元)角度展示了结构总体动力反应规律,那么由于框架各杆进入非弹性阶段的先后次序不同所造成的整个框架动力反应规律的不同,则是层间模型所不能解释、反映的。其二,无论从抗震研究还是设计角度来看,框架结构的梁、柱构件在地震作用下的反应规律到底如何也是人们所关心的,因为结构的设计最终要落实到构件的设计。如柱端弯矩增大系数应如何取值等,这些问题采用层间模型是无法回答的,从这个角度看也必须将框架结构细化到至少是构件层次才有可能解决这些问题。 杆系分析模型分为两大类,平面杆系分析模型与空间杆系分析模型。目前,平面杆系分析模型的研究相对较为成熟,国内外已开始将注意力转向空间杆系分析模型的研究上。 2 单元模型 对于杆系分析模型,目前用于模拟单元滞回性能的模型已有很多,这些单元分析模型可采取分类的方式加以比较考察。这些模型大致可分为两大类若干小类。 2.1 集中塑性铰模型 单分量模型是集中塑性铰模型中最简单的一类,该模型将杆单元的非弹性性能用非线性弹簧反映,而不对非弹性变· 109·第23卷第4期 攀枝花学院学报 2006年8月V o l .23.N o .4 J o u r n a l o f P a n z h i h u a U n i v e r s i t y A u g .2006

方法:因子分析法

因子分析基础理论知识 1 概念 因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显着的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显着的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : ?????? ????? ???=np n n p p x x x x x x x x x X ΛM M M M ΛΛ212222111211

主成分分析法的步骤和原理 (1)

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。设随机向量X 的均值为μ,协方差矩阵为Σ。对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X p Z 2=μ21X 1+μ22X 2+…μ2p X p …… …… …… Z p =μp1X 1+μp2X 2+…μpp X p 主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。R 为实对称矩阵 (即R ij =R ji ),只需计算其上三角元素或下三角元素即可,其计算公式为: 2211)()() ()(j kj n k i kj j kj n k i kj ij X X X X X X X X R -=--=-=∑∑ 第四步:根据协方差矩阵R 求出特征值、主成分贡献率和累计方差贡献率,确定主成分个数。解特征方程0=-R E λ,求出特征值λi (i=1,2,…,p )。 因为R 是正定矩阵,所以其特征值λi 都为正数,将其按大小顺序排列,即λ1≥λ2≥…≥λi ≥0。特征值是各主成分的方差,它的大小反映了各个主成分的影响力。主成分Z i 的贡献率W i =∑=p j j j 1λλ,累计贡献率为

高维数据的低维表示综述

高维数据的低维表示综述 一、研究背景 在科学研究中,我们经常要对数据进行处理。而这些数据通常都位于维数较高的空间,例如,当我们处理200个256*256的图片序列时,通常我们将图片拉成一个向量,这样,我们得到了65536*200的数据,如果直接对这些数据进行处理,会有以下问题:首先,会出现所谓的“位数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。所以,通常我们需要首先对数据进行降维,然后对降维后的数据进行处理。 降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。(8) 之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余: · 有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的 · 有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系),可以找到一组新的不相关的变量。(3) 从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。(12) 数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空间中,势必会造成一些原始信息的损失。所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示,是研究的重点。(8) 二、降维问题 1.定义 定义1.1降维问题的模型为(,)X F ,其中D 维数据空间集合{}1N l l X x == (一 般为D R 的一个子集),映射F :F X Y →(),x y F x →=

(完整版)因子分析法基本原理

1.因子分析法基本原理 在对某一个问题进行论证分析时,采集大量多变量的数据能为我们的研究分析提供更为丰富的信息和增加分析的精确度。然而,这种方法不仅需要巨大的工作量,并且可能会因为变量之间存在相关性而增加了我们研究问题的复杂性。因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。这样我们就可以对原始的数据进行分类归并,将相关比较密切的变量分别归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。这些综合指标就称为因子或公共因子。 因子分析法的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。这样,就能相对容易地以较少的几个因子反映原资料的大部分信息,从而达到浓缩数据,以小见大,抓住问题本质和核心的目的。 因子分析法的核心是对若干综合指标进行因子分析并提取公共因子,再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数。因子分析法的数学表示为矩阵:B AF X +=,即: ????? ?? ??++++=++++=++++=++++=p k pk p p p p k k k k k k f f f f x f f f f x f f f f x f f f f x βααααβααααβααααβααααΛΛΛΛΛΛ332211333332321313223232221212113132121111 (k ≤p)………………(1式) 模型中,向量X ()p x x x x ,,,,321Λ是可观测随机向量,即原始观测变量。F ()k f f f f ,,,,321Λ是X ()p x x x x ,,,,321Λ的公共因子,即各个原观测变量的表达式中共同出现的因子,是相互独立的不可观测的理论变量。公共因子的具体含义必须结合实际研究问题来界定。A ()ij α是公共因子F ()k f f f f ,,,,321Λ的系数,称为因子载荷矩阵,ij α(i=1,2,.....,p;j=1,2,....,k)称为因子载荷,是第i 个原有变量在第j 个因子上的负荷,或可将ij α看作第i 个变量在第j 公共因子上的权重。ij α是x i 与f j

(完整版)评价方法综述

评价方法综述 综合评价是指对以多属性体系结构描述的对象系统作出全局性、整体性的评价,即对评价对象的全体根据所给的条件,采用一定的方法给每个评价对象赋予一个评价值,再据此择优或排序。 常用的综合综合评价方法可以分为以下几大类: (1)定性评价方法,包括专家会议法、德尔菲法(Delphi法)。这类方法具有操作简单,可以利用专家的知识,结论易于使用的优点,但是主观比较强,多人评价是结论难收敛,适合于不能或难以量化的大系统,简单的小系统。 (2)技术经济分析方法,包括经济分析法和技术评价法,分别通过价值分析、成本效益分析、价值功能分析,采用NPV(Net Present value)、IRR(Internal Rate of Retum)等指标和通过可行性分析、可靠性评价等。该方法含义明确,可比性强,但是建立模型比较困难,只适用评价因素少的对象。 (3)多属性决策方法(Multi Attribute Decesion-makingMethod,简称DADM),这类方法通过化多为少、分层序列、直接求非劣解、重排次序法莱排序与评价,具有描述精确,可以处理多决策者、多指标、动态的对象的优点,但由于隶属刚性的评价,无法涉及模糊因素的对象。 (4)系统工程法,包括评分法、关联矩阵法和层次分析法(Analytic Hierarchy Proeess,简称AHP),前两者具有方法简单、容易操作的优点,但只能用于静态评价;AHP法的可靠度比较高,误差小,但评价对象的因素不能太多(通常不多于9个)。 (5)模糊数学方法,包括模糊综合评价、模糊积分、模糊模式识别等,能克服传统数学方法中的“唯一解”的弊端,根据不同可能性得出多个层次的问题解,但不能解决评价指标间相关造成的信息重复问题,隶属函数、模糊相关矩阵等的确定方法有待进一步研究。 (6)物元分析方法与可拓评价,可以解决评价对象的指标存在不相容性和可变性的问题。 (7)统计分析方法,包括主成分分析、因子分析、聚类分析和判别分析等,具有全面性、可比性、客观合理的优点,但都需要大量的统计数据,没有反映客观发展水平。

SPSS操作方法:因子分析

实验指导之四 因子分析的SPSS操作方法 以例13.1为例进行因子分析操作。 1.在SPSS的数据编辑窗口(见图1)点击Analysize →Data Reduction →Factor,打开Factor Analysis对话框如图 2. 图1 因子分析操作 图2 Factor Analysis 对话框

将参与因子分析的变量依次选入Variables框中。例13.1中有8个参与因子分析的变量,故都选入变量框内。 2.单击Descriptives 按钮,打开Descriptives对话框如图3所示。 ?Statistics栏,指定输出的统计量。 图3 Descriptives对话框 Univariate descriptives 输出每个变量的基本统计描述; Initial solution 输出初始分析结果。输出主成分变量的相关或协方差矩阵的对角元素。(本例选择) ?Correlation Matrix栏指定输出考察因子分析条件和方法。 Coefficients相关系数矩阵; Significance levels 相关系数假设检验的P值; Determinant 相关系数矩阵行列式的值; KMO and Bartlett′s test of Sphericity KMO和巴特利检验(本例选择) 巴特利检验是关于研究的变量是否适合进行因子分析的检验. 拒绝原假设意味着适合进行因子分析. KMO值等于变量间单相关系数的平方和与单相关系数平方和加上偏相关系数平方和之比, 值越接近1, 意味着变量间的相关性越强,越适合进行因子分分析, KMO值越接近0, 则变量间的相关性越弱. 越不适合进行因子分析. Inverse 相关系数矩阵的逆矩阵; Reproduced 再生相关阵; Anti-image 反映象相关矩阵。 3.单击Extraction 按钮,打开Extraction对话框选项,见图4。

(完整版)SPSS因子分析法-例子解释

因子分析的基本概念和步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

因子分析是主成分分析的推广和发展

因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。 因子分析的内容十分丰富,这里仅介绍因子分析常用一种类型:R型因子分析(对变量做因子分析)。 基本思想:因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。 R 型因子分析数学模型: 用矩阵表示:= 简记为 且满足: 即和是不相关的; Digg 排行 主成 分分 析 动态 分析 法 判别 分析 聚类 分析 因子 分析 密切 值法 综述 综合 评价 分析 相关 分析 法 因素 分析 法 平衡 分析 法 热门

即不相关且方差皆为1。 即 不相关,且方差不同。 其中 是可实测的个指标所构成 维随机向量, 是不可观测的向量,称为的公共因子或潜因子。称为 因子载荷是第个变量在第个公共因子上的负荷。矩阵称为因子载荷矩阵; 称为的特殊因子,通常理论上要求的斜方差阵是对角阵,中包括了随 机误差。 因子分析和主成分分析的区别:主成分分析的数学模型实质上是一种变换, 而因子分析模型是描述原指标斜方差阵结构的一种模型。另外,在主成分分 析中每个主成分相应的系数是唯一确定的。与此相反,在因子分析中每个因 子的相应系数不是唯一的,即因子载荷不是唯一的。 因子模型中公共因子,因子载荷和变量共同度的统计意义: 假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均 值为0,方差为1)的变量。 (1)因子载荷的统计意义:因子载荷的统计意义就是第个变量与第 个公共因子的相关系数即表示依附于的分量(比重)。它反映第个变量 评论

相关文档
最新文档