探索性因素分析之具体步骤探讨

探索性因素分析之具体步骤探讨
探索性因素分析之具体步骤探讨

探索性因素分析之具体步骤探讨文/哈工程大学应用心理

学系曹国兴

这主要针对的是预试问卷而言,也就是说在初试问卷经过了语义分析,专家讨论论证之后最终得出的问卷。以下的经验是根据我编制职业承诺问卷的基础上总结而来,错误之处希望同行指教。

首先要说的是关于样本数量的问题。按照统计学标准而言,一般样本数应为题目数的5-10倍。由于我的题目为50,故样本至少为250个。前期我计划发放样本数为6倍也就是300份,由于样本流失及废卷的原因,最终回收到有效问卷为256份,有效率为85.33%。当然这是无法避免的。

下面我主要谈一下进行探索性分析的具体步骤:

第一:比较明确的一步就是做一下关于各个项目的鉴别度(区分度)的分析。在这个条件下会删除一部分不适合的题目。删除程序为SPSS下的Analyze→Scale→Reliability Analysis。比较保险的的是从比较小的鉴别度一步一步删除,每次删一些较低的题目就看一下科隆巴赫系数的大小,直到满意为止。当然也可以直接将低于0.3的题目删除。注意的是删除的应为那些删除后科隆巴赫系数值提高的题目,如果

删除后科隆巴赫系数值降低,这就需要重新考虑了。结合语义分析取舍。

第二:在这种情况下一般而言,进行问卷设计之前所有的题目究竟是属于哪一个维度或者有几个维度应该有一定的

假设,此时应该如下操作:(1)首先是反向题目的更改。这方面需要注意的就是每次关闭文件的时候注意不要保存

或者你将反向题目更改后的文件保存下来,一定要注明,因为如果你忘记了,就会混淆到底反向题目有没有修改过。(2)也就是重点阶段。顾名思义探索性因子分析就好比你是一个探险家在探索一块未知的领域,你不知道去哪一个方向才是正确的,也许你走了很长的路却与你所期望的目的地相反。为避免在进行探索性因子分析的时候做无用功,我采用了如下的方法:在最大变异法和极大相等法两种正交旋转下分别对题目进行讨论。比如在最大变异下有四种情况:A:最大变异下不控制因素个数。B:最大变异下,强制性因素个数为3. C:最大变异下,强制性因素个数为4. D:最大变异下,强制性因素个数为5. 关于强制性因素个数的设定一般情况下为3-5个因素,当然也可以根据先前的研究理论具体分析。我们记录下四种情况下的KMO,项目共同度<0.3的题目,以及最大贡献率的情况。然后改用正交旋转下的极大相等法,同上四个情况并分别记录下来。为什么要用到极大相等法呢?这主要考虑到在最大变异的情况下第一个因素

的负载通常会很大,为了使各个项目平均分配到各因子上去,极大相等法是个不错的选择,而事实上目前的硕博论文很多都在用极大相等法,只是台湾地区一部分人在用斜交的方法,我认为正交旋转下的极大相等法是第一选择,这也得益于哈师大崔洪弟老师的指点。这样我们就记录下了8中情况下三个方面的数据,经过比较分析和先前的理论,我们就可以推断出大致的因素个数。(3)在确定因素个数后,下面的工

作就轻松了许多。尤其是我们对那些在以上8中情况下共同度均小于0.3的题目进行删减。(4)然后就是对各因素命名并删除的过程。其中一点值得注意的是一定要结合题目的意义进行删减。有些题目的得分不高但是意义可能很重要;另外就是关于横跨两个因素的数目,一般而言也是要删减的。在李茂能的书里也提到了计算各个题目与总题目的相关度,删除那些低相关的题目也是有必要的。

第三:在我进行分析的时候出现了在因素个数为5的情

况下总的贡献率大于因素个数为4的情况,但是碎石图却显示在特征根值为1的情况下对应的最佳因素个数为4。但是

在4的情况下运用极大相等法正交旋转后对各因素命名的难度很大,且不容易解释。当时我想到的是将5因素其中的两个合并成一个,而且理论上也与以往的理论大致上相同,也很好解释。但是经过和崔老师的讨论发现其实5因素就已经

解释的很好,没有必要合并,并且发现了与以往某些研究不同的结论,也许这就是本研究的创新所在。

以上删题,留题,区分度分析与共同度分析,KMO值等都是在反复验证的情况下进行的,最终得到比较容易解释、简洁而且符合前提理论假设的模型。

当然这只是对预试问卷的探索性因素分析阶段,模型与现实的匹配是否完全,还需要进行正式问卷的验证性因素分析即结构方程AMOS的分析,来讨论模型与数据的拟合程度。到目前为止我只是完成了毕业论文的第一部分,最重要也最有难度的是第二部分。包括预试问卷的结果即职业承诺问卷、大五人格问卷和工作绩效问卷合并一个统合问卷,大约需要700个左右的样本,从而最终得出影响人格与绩效的中介和

调节变量。

SPSS探索性因子分析报告地过程

现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 问题 题项 从未使用 很少使用 有时使用 经常使用 总是使用 1 2 3 4 5 a1 电脑 a2 录音磁带 a3 录像带 a4 网上资料 a5 校园网或因特网 a6 电子邮件 a7 电子讨论网 a8 CAI 课件 a9 视频会议 a10 视听会议 一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 i m im i i i i U F F F F Z +++++=αααα · · · 332211 i Z 为第i 个变量的标准化分数;(标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的 那批分数中的相对位置的。) m F 为共同因子; m 为所有变量共同因子的数目; i U 为变量i Z 的唯一因素; im α为因子负荷。(也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关系数,它反映了第i 个变量在 第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相

探索性数据分析

分布的概念 一个变量的分布是该变量的取值的具体表现形式,它不仅描述了该变量的不同取值,同时也描述了其每个值的可能性。 一、变量类型及其分布 1、首先我们打开life expectancy这个数据表。本例中的每个国家都有13年的年度观察数据, 并且每个国家的13年数据都是以年份为序依次排序。JMP将这种编排方式称为堆叠数据。 区分四类变量:定类变量(定名型、定序型),定量变量(定距型、定比型) 二、定类变量的分布 2、选择菜单---分析。将region作为Y,列变量。点击确定,得到如下结果。 JMP构造出了一个简单的矩形条形图,列出了六个大陆地区,并用直方条显示出相应区域在数据中出现的次数。虽然不能在图表中准确的获悉每个区域中国家的数目,却能清晰的得知south Asia国家数目最少,Europe&Central Asia国家数目最多。 图形下方的频数分布表提供了一个更加详细的变量概要。 3、菜单选择图形---图表。图表对话框如下图,可生成很多其他格式的图表。默认设置是竖 直方向的条形图。

4、选择列框中点击Region,并点击按钮统计量,选择数量。结果得到一张可以显示每个区域观察对象数量的条形图。 可以通过点击图表右侧的红色三角形按钮进行更改和自定义图形。

5.JMP自动按照字母顺序对定类数据进行结果输出。我们也可以修改输出结果。 6.在数据表格中或者在列框中右击Region,选择列信息。 7.点击列属性,选择值排序。 8.选择一个变量值名,使用按钮上移和下移,最后确定。 9.需要点击图表标题右侧的红色三角形按钮,选择脚本——重新运行分析。最后才得到我们需要的顺序的图形。 三、定量变量的分布 1、选择数据表的一部分 某些时候我们需要从数据表中选择某一些特定的行进行分析。JMP为我们提供了在分析包含和剔除行的多种方法。 菜单选择行—行选择—选择符合条件的行。 如下图所示,选择那些year等于2010的行,点击添加条件,最后点击确定。 菜单选择表---子集。在子集对话框中要确保做出的选择是选定行选项,并点击确定。 窗口中会显示出第二张打开的数据表。该表中有与第一张表相同的四个变量,但仅有195行。在每个案例中,观察年份都是2010年,并且每个国家只有一行数据。 2、连续型数据直方图的构建 ●菜单选择分析——分布。将LifeExp选入Y,列框中。 ●当分布窗口打开时,点击LifeExp左侧的红色三角形按钮,选择直方图选项——垂 直。该操作会清空垂直选项前的复选框,将直方图变成更加符合传统的水平方向。

探索性因子分析法.doc

探索性因子分析法(Exploratory Factor Analysis,EFA) 目录 [隐藏] ? 1 什么是探索性因子分析法? ? 2 探索性因子分析法的起源 ? 3 探索性因子分析法的计算 ? 4 探索性因子分析法的运用 ? 5 探索性因子分析法的步骤 ? 6 探索性因子分析法的优点 ?7 探索性因子分析法的缺点 ?8 探索性因子分析法的假定 ?9 EFA在教育、心理领域存在的问题及建议[1] ?10 参考文献 [编辑] 什么是探索性因子分析法? 探索性因子分析法(Exploratory Factor Analysis,EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。因而,EFA能够将将具有错综复杂关系的变量综合为少数几个核心因子。 [编辑] 探索性因子分析法的起源 因子分析法是两种分析形式的统一体,即验证性分析和纯粹的探索性分析。英国的心理学家Charles Spearman在1904年的时候,提出单一化的智能因子(A Single Intellectual Factor)。随着试验的深入,大量个体样本被分析研究,Spearman的单一智能因子理论被证明是不充分的。同时,人们认识到有必要考虑多元因子。 20世纪30年代,瑞典心理学家Thurstone打破了流行的单因理论假设,大胆提出了多元因子分析(Multiple Factor Analysis)理论。 Thurstone 在他的《心智向量》(Vectors of Mind, 1935)一书中,阐述了多元因子分析理论的数学和逻辑基础。 [编辑] 探索性因子分析法的计算

在运用EFA法的时候,可以借助统计软件(如SPSS统计软件或SAS统计软件)来进行数据分析。 [编辑] 探索性因子分析法的运用 1、顾客满意度调查。 2、服务质量调查。 3、个性测试。 4、形象调查。 5、市场划分识别。 6、顾客、产品及行为分类。 [编辑] 探索性因子分析法的步骤 一个典型的EFA流程如下: 1、辨认、收集观测变量。 2、获得协方差矩阵(或Bravais-Pearson的相似系数矩阵) 3、验证将用于EFA的协方差矩阵(显著性水平、反协方差矩阵、Bartlett 球型测验、反图像协方差矩阵、KMO测度)。 4、选择提取因子法(主成分分析法、主因子分析法)。 5、发现因素和因素装货。因素装货是相关系数在可变物(列在表里)和因素(专栏之间在表里)。 6、确定提取因子的个数(以Kaiser准则和Scree测试作为提取因子数目的准则)。 7、解释提取的因子(例如,在上述例子中即解释为“潜在因子”和“流程因子”)。 [编辑]

数据探索性分析方法

数据探索性分析方法 1.1数据探索性分析概述 探索性数据分析(Exploratory Data Analysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。探索性数据分析在上世纪六十年代被提出,其方法由美国著名统计学家约翰·图基(John Tukey)命名。 EDA的出现主要是在对数据进行初步分析时,往往还无法进行常规的统计分析。这时候,如果分析者先对数据进行探索性分析,辨析数据的模式与特点,并把它们有序地发掘出来,就能够灵活地选择和调整合适的分析模型,并揭示数据相对于常见模型的种种偏离。在此基础上再采用以显著性检验和置信区间估计为主的统计分析技术,就可以科学地评估所观察到的模式或效应的具体情况。 所以概括起来说,分析数据可以分为探索和验证两个阶段。探索阶段强调灵活探求线索和证据,发现数据中隐藏的有价值的信息,而验证阶段则着重评估这些证据,相对精确地研究一些具体情况。在验证阶段,常用的主要方法是传统的统计学方法,在探索阶段,主要的方法就是EDA。 EDA的特点有三个:一是在分析思路上让数据说话,不强调对数据的整理。传统统计方法通常是先假定一个模型,例如数据服从某个分布(特别常见的是正态分布),然后使用适合此模型的方法进行拟合、分析及预测。但实际上,多数数据(尤其是实验数据)并不能保证满足假定的理论分布。因此,传统方法的统计结果常常并不令人满意,使用上受到很大的局限。EDA则可以从原始数据出发,深入探索数据的内在规律,而不是从某种假定出发,套用理论结论,拘泥于模型的假设。二是EDA分析方法灵活,而不是拘泥于传统的统计方法。传统的统计方法以概率论为基础,使用有严格理论依据的假设检验、置信区间等处理工具。EDA处理数据的方式则灵活多样,分析方法的选择完全从数据出发,灵活对待,灵活处理,什么方法可以达到探索和发现的目的就使用什么方法。这里特别强调的是EDA更看重的是方法的稳健性、耐抗性,而不刻意追求概率意义上的精确性。三是EDA分析工具简单直观,更易于普及。传统的统计方法都比较抽象和深奥,一般人难于掌握,EDA则更强调直观及数据可视化,更强调方法的多样性及灵活性,使分析者能一目了然地看出数据中隐含的有价值的信息,显示出其遵循的普遍规律及与众不同的突出特点,促进发现规律,得到启迪,满足分析者的多方面要求,这也是EDA对于数据分析的的主要贡献。 1.2数据基本描述及可视化 1.2.1数据的类型 按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数

探索性数据分析

探索性数据分析 探索性数据分析是利用ArcGIS提供的一系列图形工具和适用于数据的插值方法,确定插值统计数据属性、探测数据分布、全局和局部异常值(过大值或过小值)、寻求全局的变化趋势、研究空间自相关和理解多种数据集之间相关性。探索性空间数据分析对于深入了解数据,认识研究对象,从而对与其数据相关的问题做出更好的决策。 一数据分析工具 1.刷光(Brushing)与链接(Linking) 刷光指在ArcMap数据视图或某个ESDA工具中选取对象,被选择的对象高亮度显示。链接指在ArcMap数据视图或某个ESDA工具中的选取对象操作。在所有视图中被选取对象均会执行刷光操作。如在下面章节将要叙述的探索性数据分析过程中,当某些ESDA工具(如直方图、V oronoi图、QQplot图以及趋势分析)中执行刷光时,ArcMap数据视图中相应的样点均会被高亮度显示。当在半变异/协方差函数云中刷光时,ArcMap数据视图中相应的样点对及每对之间的连线均被高亮度显示。反之,当样点对在ArcMap数据视图中被选中,在半变异/协方差函数云中相应的点也将高亮度显示。 2.直方图 直方图指对采样数据按一定的分级方案(等间隔分级、标准差分级)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。直方图可以直观地反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值。 在ArcGIS中,可以方便的提取采样点数据的直方图,基本步骤为: 1)在ArcMap中加载地统计数据点图层。 2)单击Geostatistical Analyst模块的下拉箭头选择Explore Data并单击Histogram。 3)设置相关参数,生成直方图。 A.Bars:直方图条带个数,也就是分级数。 B.Translation:数据变换方式。None:对原始采样数据的值不作变换,直接生成直方图。 Log:首先对原始数据取对数,再生成直方图。Box-Cox:首先对原始数据进行博克斯-考克斯变换(也称幂变换),再生成直方图。 https://www.360docs.net/doc/ec7928028.html,yer:当前正在分析的数据图层。 D.Attribute:生成直方图的属性字段。 从图3.1a和图3.1b的对比分析可看出,该地区GDP原始数据并不服从正态分布,经过对数变换处理,分布具有明显的对数分布特征,并在最右侧有一个明显的离群值。 在直方图右上方的窗口中,显示了一些基本统计信息,包括个数(count)、最小值(min)、最大值(max)、平均值(mean)、标准差(std. dev.)、峰度(kurtosis)、偏态(skewness)、

SPSS探索性因子分析的过程

SPSS探索性因子分析的过程

现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 一. 因子分析的定义

在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二. 数学模型 Z i i1F1 i2^ i3F3 …im F m U i 乙为第i个变量的标准化分数;(标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。) F m为共同因子; m为所有变量共同因子的数目; U为变量Z的唯一因素; i个变量与第im为因子负荷。(也叫因子载荷,统计意义就是第 m个公共因子的相关系数,它反映了第i个变量在第m个公共因子上的相对重要性也就是第m个共同因子对第i个变量的解释程

度。) 因子分析的理想情况,在于个别因子负荷im不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则U彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷.就是第i个原有变量和第m个因子变量间的相关系数,也就是Z在第m个共同因子变量上的相对重要性,因此,.绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于0.8,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能

探索性空间数据分析

研究生课程探索性空间数据分析 杜世宏 北京大学遥感与GIS研究所

提纲 一、地统计基础 二、探索性数据分析

?地统计(Geostatistics)又称地质统计,是在法国著名统计学家Matheron大量理论研究的基础上逐渐形成的一门新的统计学分支。 它是以区域化变量为基础,借助变异函数,研究既具有随机性又具有结构性,或空间相关性和依赖性的自然现象的一门科学。凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性时,皆可应用地统计学的理论与方法。 ?地统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本属性值的频率分布或均值、方差关系及其相应规则的分析,确定其空间分布格局与相关关系。但地统计学区别于经典统计学的最大特点是:地统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离,弥补了经典统计学忽略空间方位的缺陷。?地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。

? 1. 前提假设 –⑴随机过程。与经典统计学相同的是,地统计学也是在大量样本的基础上,通过分析样本间的规律,探索其分布规 律,并进行预测。地统计学认为研究区域中的所有样本值 都是随机过程的结果,即所有样本值都不是相互独立的, 它们是遵循一定的内在规律的。因此地统计学就是要揭示 这种内在规律,并进行预测。 –⑵正态分布。在统计学分析中,假设大量样本是服从正态分布的,地统计学也不例外。在获得数据后首先应对数据 进行分析,若不符合正态分布的假设,应对数据进行变换,转为符合正态分布的形式,并尽量选取可逆的变换形式。

探索性因子分析及其在应用中存在的主要问题

探索性因子分析及其在应用中存在的主要问题 Ξ 孙晓军ΞΞ 周宗奎 (华中师范大学心理学院,武汉,430079) 摘 要 探索性因子分析的发展非常迅速,已成为教育与社会心理学领域中最常用的统计方法之一。本文全面介绍了探索性因子分析的基本原理,阐述了其发生的机制及基本过程,对其在教育、心理领域应用中存在的问题进行了总结,并针对应用中样本容量和观测变量数目不够、因子求解方法的误用、因子数目的确定标准及因子旋转中存在的问题、因子值缺乏重复验证性、研究结果呈现形式不规范、过于依赖SPSS 、缺乏主动性等问题提出了一些相应的建议。关键词:探索性因子分析 因子旋转 因子值 因子分析(Factor Analysis )是通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量(因子)来表示基本的数据结构的方法[1]。1904年,查尔斯?斯皮尔曼(Charles Spearman )在研究智力时首次采用了因子分析的方法,将因子分析方法运用于实践[2]。随后,因子分析的理论和数学基础逐步得到发展和完善,特别是50年代以后,随着计算机的普及和各种统计软件的出现,因子分析得到了巨大的发展。现在,因子分析已成为教育与社会心理学领域研究中最常用的统计方法之一。但令人遗憾的是,在实际研究的应用中,研究者并不能合理、正确的使用这一方法,导致最后的研究结果缺乏可信度。 本文的目的就是通过对探索性因子分析发生原理、步骤的详细探讨,结合其在应用中存在的问题,希望对心理领域中探索性因子分析的运用提出一些实质性的建议,包括样本大小、因子数目、观测变量数目、因 子旋转等等。 1 探索性因子分析的基本原理 探索性因子分析模型(见图1)的一般表达形式为: X 1=w 11F 1+w 21F 2+……w n1F n +w 1U 1+e 1 其中,X n 表示观测变量,F M 代表因子分析中最基本的公因子(Common factor ),它们是各个观测变量所共有的因子,解释了变量之间的相关;U n 代表特殊因子(Unique factor ),它是每个观测变量所特有的因子,相当于多元回归分析中的残差项,表示该变量不能被公因子所解释的部分;w M 代表因子负载(Factor loading ),它是每个变量在各公因子上的负载,相当于多元回归分析中的回归系数;而e n 则代表了每一观测变量的随机误差。 图1 探索性因子分析模型(来源:郭志刚,1999) 探索性因子分析的过程实质就是寻求F 1、F 2、......F m 等少数几个公因子以构建因子结构来最大限度地表示所有变量的信息[3]。在探索性因子分析中,一个重要的假设就是所 有的特殊因子间及特殊因子与公因子间是彼此独立、不相关的。 ΞΞΞ通讯作者:孙晓军,男。E 2mail :sxj -ccnu @https://www.360docs.net/doc/ec7928028.html, 本研究得到国家自然科学基金资助,项目号30270473。1440 心理科学 Psychological Science 2005,28(6):1440-1442

空间数据探索性分析与地统计分析

1.数据检查,即空间数据探索分析(ESDA) 在地统计分析中,克里格方法是建立在平稳假设的基础上,这种假设在一定程度上要求所有数据值具有相同的变异性。另外,一些克里格插值(如普通克里格法、简单克里格法和泛克里格法等)都假设数据服从正态分布。如果数据不服从正态分布,需要进行一定的数据变换使其服从正态分布。因此,在用地统计分析创建表面之前,了解数据的分布状况十分重要。在ArcGIS GA模块中,主要提供了两种方法检验数据的分布:直方图法和正态QQPlot 图法。 (1)直方图显示数据的概率分布特征以及概括性的统计指标 图1 上图中所展示的数据,中值接近均值、峰值指数接近3。从图中观察可认为近似于正态分布。 (2)正态QQ Plot 图 图2 正态QQ 图上的点可指示数据集的单变量分布的正态性。如果数据是正态分布的,点将落在45 度参考线上。如果数据不是正态分布的,点将会偏离参考线。所以正态QQ 图可以用来检查数据的正态分布情况。作图原理是用分位图思想。直线表示正态分布,从图中可以看出数据很接近正态分布。 该研究通过地统计分析工具生成35个样本点的直方图和正态QQPlot 图,分别如图1、图2所示。从图1及其各种统计指标值可以看出,该样本点近乎于正态分布。在图2中,该例选取的35个样本点基本沿直线分布,也说明样本点接近于服从正态分布。在本研究区的样本点近乎于正态分布,而且区域化变量NO2的期望值是未知的,经过分析,在后期预测表面时,采用普通克里格插值是最为合适的。

(3)趋势分析图 上图为NO2的空间分布趋势图,x 轴正向指向东,y 轴正向指向北,z 轴正向指向属性(此处为NO2浓度)值增大的方向,采样点(即空气质量监测站)位于xy 平面上,黑色的垂直杆的高度代表NO2浓度的大小,分别将散点投影到xz 平面和yz 平面上,然后分别用二次曲线拟合,xz 平面上的绿色曲线代表东西方向的趋势,yz 平面上的蓝色曲线代表南北方向的趋势。从图中可以看到,NO2的浓度南北方向呈现出倒U 型的趋势,东西方向也呈现出倒U 型的趋势,说明在该地区的中部地区NO2浓度最高。 趋势分析工具提供用户研究区平面上的采样点转化为以感兴趣的属性值为高度的三维视图,然后用户从不同视角分析采样数据集的全局趋势。趋势分析图中的每一根竖棒代表了一个数据点的值(该实验中是NO2的浓度)和位置。这些点被投影到一个东西向的和一个南北向的正交平面上。通过投影点可以做出一条最佳拟合线,并用它来模拟特定方向上存在的趋势。此实验中的趋势分析图中南北方向和东西方向上有明显的趋势出现,因此需要用二次曲面拟合,即在后续剔除趋势的操作中选择二次(second)。可见,使用趋势分析来分析样本点数据的走向,可以使后续的表面拟合更加客观,拟合的结果具有更大的可信程度。 (4)Voronoi 图 Voronoi 图可以用来发现离群值。Voronoi 图的生成方法:每个多边形内有一个样点,多变形内任一点到该点的距离都小于其他多边形到该点的距离,生成多边形后。某个样点的相邻样点便会与该样点的多边形有相邻边。 利用相邻点的这个定义,可计算多种局部统计量。“Voronoi 图”工具提供下列方法来指定或计算面的值。 简单:指定给面的值是在该面内的采样点处记录的值。 平均值:指定给面的值是根据面及其相邻面计算出的平均值。 众数:利用五个组距对所有多边形进行分类。指定给面的值是面及其相邻面的众数(最常出现的组)。 聚类:利用五个组距对所有多边形进行分类。如果面的组距与其每个相邻面的组距都不同,则该面将灰显并放进第六组以区分该面与其相邻面。 熵:所有的面都利用基于数据值(小分位数)的自然分组的五个组进行分类。

因子分析方法

因子分析法 1. 因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较 密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不 可观测的,即不是具体的变量) ,以较少的几个因子反映原资料的大部分信息。运用这种研究技 术,我们可以方便地找岀影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响 力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 因子分析法与其他一些多元统计方法的区别: 2?主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析 来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data) ,b,和cluster analysis 一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简 化。(reduce dimensionality ) d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumpti on s),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子( specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定( spss根据一定的条件自动设定,只要是特征 值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技 术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进 行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的 变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息) 来进入后续的分析,则可 以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单 独使用:a,了解数据。(screening the data) ,b,和cluster analysis 一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份 发对变量简化。(reduce dimensionality ) d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

SPSS探索性因子分析的过程

一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 i m im i i i i U F F F F Z +++++=αααα · · · 332211 i Z 为第i 个变量的标准化分数; (标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。) m F 为共同因子; m 为所有变量共同因子的数目;

i U 为变量i Z 的唯一因素; im α为因子负荷。 (也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关系数,它反映了第i 个变量在第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相对重要性,因此,im α绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能被因子变量所能解释的部分。 所谓特征值,是每个变量在某一共同因子的因子负荷的平方总和(一直行所有因子负荷的平方和),在因子分析的的共同因子抽取中,特征值最大的共同因子会最先被抽取,其次是次大者,最后抽取的共同因子的特征值会最小,通常会接近于0。将每个共同因子的特征值除以总题数,为此共同因子可以解释的变异量,因子分析的目的之一,即在因素结构的简单化,希望以最少的共同因子能对总变异量做最大的解释,因而抽取的因素越少越好,但抽取的因子的累积变异量越大越好。 三.SPSS 中实现过程 (一)录入数据 (二)因子分析 1.在菜单栏中依次单击“分析”|“降维”|“因子分析”选项卡,打开如图所示“因子分析”对话框。从原变量量表中选择需要进行因子分析的变量,然后单击箭头按钮将选中的变量选入“变量”列表中。“变量列表”的变量为要进行因子分析的的目标变量,变量在区间或比率级别应该是定量变量。分类数据(如:性别等)不适合因子分析。 2.“描述按钮”:主要设定对原始变量的基本描述并对原始变量进行相关性分析。

SPSS探索性因子分析的过程

S P S S探索性因子分析的 过程 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT

现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 Z为第i个变量的标准化分数;(标准分是一种由原始分出来的,它是用来说明原始分i 在所属的那批分数中的相对位置的。)

m F 为共同因子; m 为所有变量共同因子的数目; i U 为变量i Z 的唯一因素; im α为因子负荷。(也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关 系数,它反映了第i 个变量在第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相对重要性,因此,im α绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能被因子变量所能解释的部分。 所谓特征值,是每个变量在某一共同因子的因子负荷的平方总和(一直行所有因子

描述性统计分析与探索性统计分析

第一章 描述性统计 我们把对某一个问题的研究对象的全体称为总体,总体就是一个具有确定分布的随机变量.我们统计分析的目的是通过从总体中抽得的样本,对总体分布进行推断,要想较准确的推断出总体的分布,首先要对样本的分布状况有一个基本的了解,这一章就是介绍用以描述样本分布状况的一些常用统计分析方法,这些方法既直观又简单,而且也很实用. 1.1频数分析与图形表示 一、总体X 为只取少数个值的离散型随机变量 例1.1.1考察一枚骰子是否均匀,设计实验如下: 独立地掷这枚骰子42次,所得点数纪录如下: 3 2 4 1 5 1 5 3 4 3 5 6 4 2 5 3 1 3 4 1 4 3 1 6 3 3 1 2 4 2 6 3 4 6 6 1 6 2 4 5 2 6 X 为掷一枚均匀的骰子一次所得的点数 二、当总体X 取较多离散值或X 为连续取值时 设x x x n ,,21是总体X 的一组样本观测值,具体做法如下:

1 求出x )1(和x n )(,取a 略小于x )1(,b 略大于x n )(; 2 将区间[a ,b]分成m 个小区间(m <n ),小区间长度可以不等,分点分别为 a =t t t m <<< 10=b 注意:使每个小区间中都要有一定量的观测值,且观测值不在分点上。 划分区间个数的确定: 区间过少:分布信息混杂,丢失信息. 区间过多:出现很多空区间. 区间划分个数m 依赖于样本总数n ,理论上有如下两个公式可参考: Moore(1986) : m ≈C n 5/2,C = 1~3; Sturges(1928) : m ≈1+3.322(lg n ); 3 用n j 表示落在小区间(t j 1-,t j ]中观测值的个数(频数)并计算频率f j = n n j (j=1,2,…,m ); 4 在直角坐标系x-o-y 的x 轴上标出t t t m ,,,10 , 分别以(t j 1-,t j ]为底边,以n j 为高作矩形,即得频数条形图。 例1.1.2下表是某大学总数为从352名学生的“普通统计学”考试的成绩中,随机抽取的60位学生的成绩 63 76 83 91 45 81 93 30 72 80 82 83 81 76 67 84 72 58 83 64 93 63 75 99 74 76 95 91 83 61 82 85 83 44 88 72 66 94 68 78 88 71 94 85 82 79 100 90 83 88 84 48 72 80 85 80 87 76 62 96 对上述数据作频数分析并画出条形图。 解 分析 区间个数:n =60 , 用Moore 公式计算得C*5.123,这里C=1合适,取区间m = 6 用Sturges 公式计算得区间m = 6.907, 取区间m = 6 区间划分 10分一区间 重新划分

大数据探索性分析考试题

1 / 9 以附件1中上海市药械化稽查办案数据,利用抽样的方法(抽取容量为200的样本),对其某一方面的特性进行分析、研究。 这里在R 里采用简单随机抽样抽取容量为200的样本数据,程序如下: #####简单随机抽样 data=read.csv("G:/d.csv") head(data)#将数据集读入R 中,并查看前六行数据 library(sampling)#加载抽样包 N=length(data[,3])#总体个数 n=200#需要抽取样本个数 set.seed(1) yangben=srswor(n,N)#在总样本量N 中抽取n 个样本,返回其位置 yangben=getdata(data,yangben)#取出抽到样本的数据 write.csv(srs,file="药械化稽查办案信息抽取样本1.csv")#将抽到的数据读入本地文件 class(yangben)#查看抽到的数据类型 抽到的样本前几个部分展示如下: 接下来,我们对其中某些特性进行统计分析,首先,我关注的是所在区县,程序展示如下: a=table(yangben$所属区县)#统计17个区县出现的频数 barplot(a,main = "区县出现频数分布图")#绘出所在区县分布图,x 轴所对应的区县分别为(NA 宝山 长宁 崇明 奉贤 虹口 黄浦 嘉定 金山 静安 闵行 浦东 普陀 青浦 松江 徐汇 杨浦 闸北 ) a1=sort(a)#按升序排列 a2=sort(a,decreasing =T)#按降序排列 barplot(a1,main = "区县出现频数升序分布图")#绘出所在区县按升序排列的分布图,x 轴所对应的区县分别

探索性数据分析

研究生课程论文 课程名称:探索性数据分析 论文题目:同时描述两个变量的案例分析 ——基于JMP软件姓名: 学号: 课程老师

本次将主要对第四章的同时描述两个变量进行简单地案例分析,这章主要将数据划分分两类:定类变量(建模中包括定名型和定序型)以及连续变量。在两个变量关系的研究中,我们需要分析上述两类变量的三种组合:两个定类变量、两个连续变量、连续变量和定类变量各一个。本章中,我们将会学习上述三种成对二元数据的几种常见分析方法。 共同变化描述:两个定类变量 主要通过初识二元分布图、马赛克图、列联表描述 共同变化描述:两个连续变量 主要通过两个连续变量的分布、散点图、相关系数矩阵描述 两组比较:一个连续变量,一个定类变量 主要通过单因子分析描述 案例分析 背景:高血压仍然是美国人的主要健康问题。数据表(NHANES)包含了来自于2005年美国对大量人群调查所得到的数据。在该案例分析中,我们只关注一下变量:RIAGENDR:受调查者的性别 RIDAGEYR:受调查者的年龄(单位:年) RIDRETH1:受调查者的种族或民族背景 BMXWT:受调查者的体重(单位:千克) BPXPLS:受调查者的静息脉率 BPXSY1:受调查者的收缩压(最高值以BP为单位) BPXD1:受调查者的舒张图(最小值以BP为单位)

a、绘制收缩压与年龄的散点图。在这个样本中,血压会随着人们的年龄发生什么样的变化? 绘制的散点图如下: 二元拟合,以“RIDAGEYR”拟合“BPXSY1” 线性拟合 BPXSY1 = 101.87455 + 0.4873796*RIDAGEYR 拟合汇总 R 方0.333854 调整 R 方0.333754 均方根误差15.37906 响应均值119.0438 观测数(或权重和)6668 方差分析 源自由度平方和均方 F 比 模型 1 790155.2 790155 3340.819 误差6666 1576612.0 237 概率>F 校正总和6667 2366767.2 <.0001* 参数估计值 项估计值标准误差t 比概率>|t| 截距101.87455 0.35172 289.65 <.0001* RIDAGEYR 0.4873796 0.008432 57.80 <.0001* 图1 散点图 从上图可以看出,散点大部分都在红色拟合线附近,但散点呈现的形态与一条理想的直线的关系却相差甚远。在本例中R2为0.33,说明拟合效果较差,血压和年龄之间的关系不是很明显。

探索性因子分析

什么是探索性因子分析法? 探索性因子分析法(Exploratory Factor Analysis,EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。因而,EFA能够将具有错综复杂关系的变量综合为少数几个核心因子。 探索性因子分析法的起源 因子分析法是两种分析形式的统一体,即验证性分析和纯粹的探索性分析。英国的心理学家Charles Spearman在1904年的时候,提出单一化的智能因子(A Single Intellectual Factor)。随着试验的深入,大量个体样本被分析研究,Spearman的单一智能因子理论被证明是不充分的。同时,人们认识到有必要考虑多元因子。 20世纪30年代,瑞典心理学家Thurstone打破了流行的单因理论假设,大胆提出了多元因子分析(Multiple Factor Analysis)理论。 Thurstone 在他的《心智向量》(Vectors of Mind, 1935)一书中,阐述了多元因子分析理论的数学和逻辑基础。 [编辑] 探索性因子分析和验证性因子分析的异同[1] 探索性因子分析和验证性因子分析相同之处 两种因子分析都是以普通因子分析模型作为理论基础,其主要目的都是浓缩数据,通过对诸多变量的相关性研究,可以用假想的少数几个变量(因子、潜变量)来表示原来变量(观测变量)的主要信息。图1所示即为最简单、也最为常见的因子模型,每个观测变量(指标)只在一个因子(潜变量)上负荷不为零,x1、x2、x3是潜变量ξ1的指标,x4、x5是潜变量ξ2的指标。

将图1所示的因子模型推广至一般意义上的因子模型后,各观测变量x_i与m个公共因子ξ1,ξ2,...,ξm之间的关系可以用数学模型表示如下: x1= λ11ξ1+ λ12ξ2+ ... + λ1mξm+ δ1 ...... x k= λk1ξ1+ λk2ξ2+ ... + λkmξm+ δk 其中:x i为各观测变量;ξi是公共因子;δi是x i,的特殊因子,有时也称误差项,包括x i 的唯一性因子和误差因子两部分;λij是公共因子的负载;m是公共因子ξ1,ξ2,...,ξm的个数,k是各观测变量x1,...,x k的个数,m

相关文档
最新文档