大学生学习成绩影响因素的实证分析毕业论文

ANYANG INSTITUTE OF TECHNOLOGY

本科毕业论文

大学生学习成绩影响因素的实证分析Empirical Analysis of Factors Affecting Academic Performance in University

大学生学习成绩影响因素的实证分析

摘要:大学承担着科学研究、培养人才和服务社会的重要使命,而为社会培养优秀人才是大学最根本的使命.学习成绩是对大学生是否掌握相应科学知识的评价,同时也在一定程度上影响其学业、求职和就业,也反映出大学生对学习、知识的态度甚至整体素质的高低.非智力因素是大学生全面发展的主导,是影响大学生成绩的主要因素.本文在问卷调查的基础上,分析了非智力因素对大学生学习成绩的影响,采用方差分析法,因子分析法和主成分分析法,利用SPSS软件对调查数据进行统计分析,从而找出影响学生学习成绩的主要原因,对如何提高大学生学习成绩提出了有效的建议,也为进一步的教育改革提供了一定的理论依据.

关键词:非智力因素学习成绩方差分析因子分析主成分分析

Empirical Analysis of Factors Affecting Academic Performance in

University

Abstract: University undertakes the important mission of scientific research, cultivating talents and serving the society, and cultivating the excellent talents for the society is the fundamental mission of university. Academic record is the evaluation of whether college students to master relevant scientific knowledge. At the same time, to a certain extent, it affects their school work, job hunting and employment. It also reflects the college students' attitude towards learning, knowledge and overall quality of high and low. Non-intelligence factor is the all-round development of college students, and it is the main factors affecting college grades. On the basis of questionnaire survey, this paper analyses the influence of non-intelligence factors on college students' academic performance, using analysis of variance, factor analysis and principal component analysis. For the survey data ,we use SPSS software to conduct statistical analysis. Thus find the main reasons affecting students' learning achievement , putting forward effective suggestions on how to improve college students learning and also providing a certain theoretical basis for further education reform.

Keywords: non-intelligence factor; academic record; variance analysis; factor analysis; principal component analysis

引言 (1)

第1章问题阐述与研究思路 (2)

1.1问题的提出 (2)

1.2理论构建的基本内涵 (2)

1.2.1非智力因素的内涵 (2)

1.2.2智力因素与非智力因素的关系及作用 (2)

1.2.3几种影响学习成绩的非智力因素 (3)

1.3研究思路流程图 (4)

第2章调查方案 (5)

2.1样本的代表性研究 (5)

2.2样本结构的设计 (5)

2.3调查问卷的设计 (6)

2.4样本的信度检验 (6)

第3章方法介绍 (7)

3.1 方差分析 (7)

3.1.1基本定义 (7)

3.1.2 数学模型 (7)

3.2 因子分析 (8)

3.2.1 概念和意义 (8)

3.2.2 因子分析数学模型 (9)

3.2.3因子载荷矩阵A的统计意义 (9)

3.2.4因子旋转 (10)

3.2.5 因子得分 (11)

3.3 主成分分析 (12)

3.3.1 主成分分析的含义 (12)

3.3.2 主成分分析的数学模型 (12)

3.3.3 主成分分析的计算步骤 (14)

3.3.4 用主成分分析进行综合评价 (16)

第4章影响大学生成绩因素的实证分析 (17)

4.1性别因素对大学生学习成绩的影响 (17)

4.2 年级因素对大学生学习成绩的影响 (18)

4.3历史因素对大学生学习成绩的影响 (19)

4.4 利用SPSS对大学生数学成绩与学习习惯进行回归分析 (20)

4.5大学生学习成绩综合影响因素的分析 (21)

结论 (24)

致谢 (26)

参考文献 (27)

附录A：影响大学生学习成绩因素问卷调查 (28)

附录B：影响大学生成绩因素调查数据 (29)

引言

高校是教学和科研的重要基地,也是培养人才的重要场所.大学生活作为同学们从学校步入社会的过渡阶段,学习成绩依然是同学们关注的主要问题,学业成绩是对学生进行测评的主要指标,对个体的发展具有重要意义.因此,有关学业成绩的研究引起了教育界的重视[1].影响学业成绩的因素一直是人们关注和研究的重要问题,对此进行的众多相关研究之间却存在着明显的分歧.这既反映出这个研究领域受重视的程度,也反映出这个问题还需要进一步的深入探讨证明[2].在实际的教学过程中,影响学生成绩的因素是多方面的.比如学生学习的兴趣、学习积极性、性别、家庭因素、高考成绩和生活娱乐因素等影响学生的成绩[3,4].这些因素有的对成绩影响大,有的对成绩影响小,究竟哪些因素的影响是显著的,哪些因素的影响是不显著的呢?针对这些问题,本文通过对我院大一、大二和大三136名大学生进行抽样问卷调查,以他们的最重要的基础课成绩——数学和英语成绩为例,考察影响大学生学习成绩的主要因素,包括学生性别、父母受教育程度、家庭收入、父母影响度、籍贯、学习气氛等客观因素,学习兴趣、学习时间、上网时间、出勤率、自觉看书等主观因素,还有高考成绩.本次调查发出140份问卷,得到有效答卷136份,汇总数据,运用方差分析法、因子分析法和主成分分析法,经SPSS软件的计算,分析影响学生学习成绩的因素.根据分析结果,可以为改进教学和学生管理工作提供一定的参考和依据.

第1章问题阐述与研究思路

1.1问题的提出

随着近几年大学的扩招,越来越多的学子进入大学的校门,实现了他们接受大学教育的梦想.大学生活也变得更加丰富多彩,学生在接受知识的同时,周围一些不利因素也在影响着大学生们,如网络游戏,电子产品,高档的奢侈品,相互攀比心理等因素深深影响着大学生们,这些因素对大学生的学习成绩有很大影响.在高校中,学习成绩量化指标在考查学生中所占比重最大,如评定优秀毕业生,评定奖学金,评定文明大学生以及向用人单位推荐优秀毕业生等.

影响学习成绩因素主要包括智力因素和非智力因素.智力因素与学习成绩呈一定程度相关,非智力因素对学习成绩起决定性作用;非智力因素中意志、态度、兴趣是影响学习成绩的重要因素[5].如何培养大学生的非智力因素,使他们成为具有强烈的竞争意识、创造精神和全面发展的高素质人才问题已引起教育界的高度认识.学习成绩的好坏不仅直接影响大学生能否完成学业,而且对今后的求职和职业选择都有着重要的影响,如何改善如今大学生普遍成绩不太好的现状,则需要对这一系列影响大学生学习成绩的非智力因素进行分析[6].

1.2理论构建的基本内涵

1.2.1非智力因素的内涵

非智力因素是指除了智力与能力之外的又同智力活动效益发生相互作用的一切心理素质.非智力因素是由个人素质和动力因素构成,个人素质包括神经系统素质、感觉器官素质、运动器官素质;动力因素包括世界观、兴趣、意志、情感、事业心、责任心或献身精神等.在个性心理结构中,诸多非智力因素组成了彼此联系、相互制约与相互作用的动力系统,是人的个性中最活跃、最积极的因素,它决定着人进行活动的积极程度.

1.2.2智力因素与非智力因素的关系及作用

非智力的心理因素活动是参与智力活动的一种倾向性活动,人们在认识事物时,必然伴随着非智力因素的参与.智力因素是认识活动,产生新思想、新认识、新技术能力;非智力因素则是情感活动,其优劣程度将间接促进或消退智力品质. 两者相互渗透、协调发展[7].

1.2.3几种影响学习成绩的非智力因素

兴趣指人们力求认识某种事物和从事某项活动的意识倾向.兴趣是能量的调节者,是人活动和学习的内在动力因素.这在心理学中似乎已成定论.学习兴趣历来为教育工作者所重视.古人说:“兴趣是最好的老师,”充分说明了兴趣与学习的关系.浓厚的兴趣能推动个体进行探索性的学习,对某一学科有着强烈而稳定兴趣的大学生,会将此学科作为自己的主攻方向,学习中主动克服困难,排除干扰.我们发现古今中外的许多科学家是以兴趣为原动力,才取得了瞩目的成就.在各类学科竞赛的获奖者中,也能找到浓厚兴趣的气息.兴趣一旦出现,就会产生学习的“原动力”和“内驱力”,成为配和去寻找满足的力量,就会产生渴望获得,不断探求和积极研究等现象及行为.所以我们应将塑造和改善大学生的良好非智力因素作为提高学习成绩的主要途径.

意志是指人自觉地确定目的,根据目的调节和支配自身的行动,克服困难,去实现预定目的的心理过程.意志的品质包括自觉性、果断性、坚韧性和自制力.对于意志在学习中的作用,学者们有深刻认识.荀子提出“骐骥一跃,不能十步;驽马十驾,功在不舍;锲而舍之,朽木不折;锲而不舍,金石可镂.”苏轼也说:“古之成大事者!不惟有超世之才,亦必有坚忍不拔之志.”有人对大学生的学习曾做了这样的描述,大学生差别最小的是智力,差别最大的是毅力,因此意志在大学生的学习中起着重要作用.

态度指一个人对事物、人物、情景或事件做出赞成或否定的一种倾向.态度包括学习态度、认真程度和专心程度.学习态度端正的大学生,一般认为学习可以学知识、长才干,就是把学习这一对象与学知识、长才干这些积极的价值归因联系了起来.一旦有人认为学与不学一个样,学习只是“浪费时间”,学了没用,消极价值归因增多,那么必然会产生不正确的学习态度.态度在某种程度上直接决定着社会行为,是行为意向.学习态度端正,能认真听讲,专心复习.也就是说,学习态度的好坏直接影响复习程度和努力程度. 态度的重要性不容忽视,改变不正确的学习态度,是当务之急.

陶行知先生从教育实践中得出良好的性格特征主要有以下4个方面:一是努力奋斗,“奋斗是成功之父”;二是实事求是,“知之为知之,不知为不知”;三是独立意识,“独立的意志,独立的思想,独立的生计与耐劳的筋骨”;四是创造精神.一

个具有优良性格特征的学生,可以保证其具有正确的学习动机,稳定的学习情绪,持久的学习举动和顽强的学习意志.一般而言,性格既具有稳定性也具有可塑性,作用于性格的诸多因素是在不断发展变化的.在学习活动中,我们一方面要看到性格的稳定性,看到它在学习中的作用,进一步认识到培养良好性格的重要性,以使它们在学习中发挥更大的积极作用;另一方面又要看到性格的可变性,看到它是可以通过各种途径培养的,因此,应当重视大学生良好性格的塑造,改变那些不良的性格.

1.3研究思路流程图

图1.1 研究思路流程图

研究思路见图1.1,使本文框架更加清晰.

第2章调查方案

2.1样本的代表性研究

2009年到2012年这四年以来,安阳工学院本科平均录取分数均高于全国高考本科可控制分数线,即学生被安阳工学院录取的平均成绩高于全国制定的二批分数线,也就是说此次调查数据符合普通高校学生的总体情况,因此此次调查选取的学生样本,对于普通高校的研究,具有一定代表性和意义.

具体情况见下表:

表3.1 安阳工学院本科二批录取成绩表（理科）

2.2样本结构的设计

本次调查采用调查问卷的方式,综合考虑数理学院学生性别、年级等多个因素进行抽样,调查共发放问卷140份,收回136份,问卷有效率是97.14%,其中调查对象是10,11和12级学生,各年级调查人数基本相同,女生所占比例为41.91%,男生所占比例为58.09%,男生人数略高于女生,尽管调查抽样可能会存在某些误差,符合该院系男女比例6:4的事实.样本结构见下表:

表3.2 样本结构表

2.3调查问卷的设计

在文献研究、个别访谈和开放式问卷调查的基础上,并结合导师和同学等的意见,反复推敲,初步编制预测问卷,一共15个题项.要求调查对象对这15个题项按照题项与自己的符合程度做出回答,在从完全符合到完全不符合4点量表上作唯一选择,其中正向题按4-1分记分,负向题按1-4分记分,得分越高,影响程度越高.

具体的因素与题目如下:

学习动力:第5题.

学习态度:第3题、第4题、第8题、第9题.

生活因素:第11题、第12题.

环境因素:第6题、第7题、第14题.

历史因素:第15题.

2.4样本的信度检验

信度是测量的可靠性,指测量工具是否能够稳定地测量所要测的变量,也就是指运用相同的测量手段重复测量同一个对象时所得结果的前后一致性——它反映测量的精确性.在对量表进行信度分析后得出可靠性系数α,当α属于0-0.5之间,属于信度水平较差或无信度,量表需要进一步修改.当α属于0.5-0.7之间,信度水平为中等,是最低可以接受的程度,当α属于0.7-0.9之间,信度水平为高信度,此时量表设计符合需要,当α在0.9-1之间时,信度水平为非常高,此时要考虑量表是否过长,需要修改.

经检验,本次调查可靠性系数为0.78,说明调查可信度较高.

第3章方法介绍

3.1 方差分析

方差分析(Analysis Of Variance ,ANOVA)是在20世纪20年代发展起来的一

种统计方法,它的基本原理是由英国统计学家罗纳德?A ?费舍尔(Ronald ?A ?Fisher)在进行试验设计时为解析试验数据而首先引入的,它是采用数理统计的方法对所有结果进行的分析,以鉴别各种因素对研究对象的某些特征值影响大小的一种有效方法,目前被广泛应用于分析心理学、生物学、工程和医药的试验数据[8,9].

3.1.1基本定义

在方差分析中,我们把考察对象的某种特征称为实验指标.影响实验指标的条

件称为因素(Factor).因素可分成两类,一类是人们可以控制的;另一类是人们无法控制的.以下我们所说的因素都是可控因素[10].因素所处的状态,称为因素的水平(Level Of Factor).如果在一项实验的过程中只有一个因素在改变称为单因素实验(One way ANOVA).

3.1.2 数学模型

设因素A 在水平()1,2,j A j s = 下,进行j n (2)j n ≥次独立实验,得到样本

nj j j X X X ,,,21 并假设:

(1)各个水平下j A 的样本来自具有相同方差2σ;均值分布为()1,2,j j s μ= 的

正态总体.

(2)不同水平j A 下的样本之间相互独立.

由假设知),(~2σμj ij N X ,即有),0(~2σμN X j ij -.故j ij X μ-可以看成是随机

误差,记从j ij X μ-=ij ε而可以得出以下数学模型:

2,~(0,);ij j ij ij

X N μεεσ=+????? 各个ij ε独立,1,2,,j i n = , 1,2,,j s = ,其中j μ与2σ均为未知数.

设A S 反映在每个水平下的样本均值与样本总均值的差异.它是因素A 取不同

水平引起的,称为组间偏差平方和,E S 表示在水平j A 下样本值与该水平下的样本均值之间的差异.它是由随机误差引起的,称为组内偏差平方和.为此,选用统计量:

),1(~)1()()/()1/(s n s F S s S s n s n S s S F E

A E A ----=--= （3.1）

对给定的检验水平α,查(1,)F r n r α--的值,由样本观察值计算E A S S ,,计算统

计量F 的观察值:

(1)当),1(r n r F F -->α时,表示因素A 的各水平下的效应有显著差异;

(2)当),1(r n r F F --<α时,表示因素A 的各水平下的效应无显著差异.

3.2 因子分析

3.2.1 概念和意义

因子分析是由Charles Spearman 在1904年首次提出,并在其后半生一直致力于

发展此理论,使之最终成为了现代统计学的重要分支[11].因子分析在某种程度上可以被看成是主成分分析的推广和发展,它对问题的研究更加深入,研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系.也是多元统计分析中降维的一种方法[12].

因子分析是通过研究多个变量间相关系数矩阵的内部依赖关系,找出能综合

所有变量的少数几个随机变量,这几个随机变量是不可测量的,通常称为因子.然后根据相关性的大小把变量分组,使得同组内的变量之间的相关性较高,但不同组的变量相关性较低.各个因子间互不相关,所有变量都可以表示成公因子的线性组合.因子分析的目的就是减少变量的数目,用少数因子代替所有变量去分析整个问题[13].

3.2.2 因子分析数学模型

设有n 个样本,每个样本由p 个指标12,,,p x x x 来描述,每个指标都已标准

化 , 即每个指标的样本均值为零,方差为1.正交因子模型为:

???

????++++=++++=++++=m m pm p p p m m m m F a F a F a x F a F a F a x F a F a F a x εεε 2211222221212112121111 （3.2）

其中()p j F j ,,2,1 =是由标准化的可观测评价指标分解出来的相互独立的

公共因子,其均值为零,方差为l,它们是不可观测的,其含义要根据具体情况来解释.i ε是各对应指标i x 所特有的因子,称为特殊因子,它们与公共因子()p j F j ,,2,1 =相互独立,表示i x 中所不能被公共因子解释的部分,ij a 是第i 个指标在第j 个公共因子上的系数,称为因子载荷[14].

公式（3.2）可用矩形形式表示为:

ε+=AF X （3.3）

其中

()()()121212,,,,,,,,,,,,p m p X x x x F F F F εεεεT T

T ===

??????

????????=pm p p m m a a a a a a a a a A 212222111211 3.2.3因子载荷矩阵A 的统计意义

(1)ij a 是第i 个指标i x 与第j 个公共因子j F 的相关系数,它表示i x 与j F 线性相

关的程度.A 中第i 行元素说明了第i 个指标i x 依赖于各公共因子的程度,而A 中第j 列元素说明第j 个公共因子j F 与各个指标的联系程度.通常可根据ij a 的大小

来解释公共因子的含义[15].

(2)A 中第i 行元素的平方和称为指标i x 的共同度,即

∑==m

j ij i a h 1.2

2 （3.4）

由正交因子模型,有

()()()∑=+=m

j i j ij i F a x 12

var var var ε （3.5）

即 ()i i h εvar 12

+= 因而共同度2i h 表示全部m 个公共因子对指标i x 的总方差的贡献,2

i h 越大表示i x 的原始信息被m 个公共因子所概括表示的程度越高.

(3)A 中第j 列元素平方和表示第j 个公共因子j F 对原始指标所提供的方差贡献总和.

即

∑=?=p i ij j a g 12

（3.6）

j F 对原始指标的方差贡献率为

()∑∑==?===p i ij j

p i j

j a p p g x g 1211var α （3.7）

j α越大,说明第j 个公共因子越重要.

3.2.4因子旋转

对于一个因子模型:ε+=AF X ,因子载荷阵并不是唯一的,设Γ为任意一个正交矩阵,则

I =ΓΓ=ΓΓT T

（3.8）

因而

()()

εε+Γ?Γ=+=T F A AF X （3.9）

所以ΓA 也是一个因子载荷矩阵,相应公共因子为F T Γ的各分量,可见因子载荷与公共因子是不确定的.因而在实际问题中就有一个选择的问题,一般原则是使获得的因子载荷阵和公共因子便于解释,有利于分析实际问题.由A 到ΓA 实质是对A 进行一个正交变换,这样的正交变换为因子旋转[16].

3.2.5 因子得分

因子模型将原始p 个指标表示为m 个公共因子与特殊因子的线性组合,因而公共因子能反映原始指标的内部依赖关系.有时候需要用公共因子代表原始指标反应样本情况,而公共因子是不可观测的,因此,要反过来将m 个公共因子表示成p 个原始指标的线性组合,

即

.,,2,1,2211m j x x x F p jp j j j =+++=βββ （3.10）

由（3.10）来计算各样本的公共因子取值,即因子得分,进而用公共因子研究样本情况.（3.10）中方程的个数m 小于指标个数p ,因而无法精确地将因子表示为原始指标的线往组合,只能进行估计.通过假定m 个公因子可以对p 各指标做回归,由最小二乘估计得到因子得分.

即

X R A F

1?-T = （3.11）

其中A 为因子载荷矩阵,1-R 为原始指标相关矩阵的逆矩阵.

3.3 主成分分析

3.3.1 主成分分析的含义

主成分分析是将多指标化为少数几个综合指标的一种统计方法.主成分分析是从原始变量中导出少数几个主分量,使他们尽可能多地保留原始变量的信息,且彼此互不相关.主成分分析的应用目的是数据的压缩、数据的解释[17].它常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释．从而更加深刻地揭示事物的内在规律[18].

3.3.2 主成分分析的数学模型

通常数学上的处理是将原来的p 个指标做线性组合,作为新的综合指标.如果将选取的第一个线性组合即第一个综合指标记为1F ,一般自然希望1F 中尽可能多地反映原来指标的信息,这里的信息最经典的方法就是用1F 的方差来表达,即()1Var F 越大,则表示1F 包含的信息越多.因此在所有的线性组合中所选取的第l 主成分应该是方差最大的.如果笫1主成分不足以完全代表p 个指标的信息,再考虑选第2个线性组合2F ,即第2个主成分,依次类推可以造出第3,第4, ,第p 个主成分.这些主成分问互不相关,且方差递减.

设有n 个样本,每个样本由p 个指标12,,,p x x x ???描述,可得原始数据矩阵:

()11121212221212,,,p p p n n np x x x x x x X X X X x x x ?? ? ?== ? ? ???

（3.12）

其中()12,,,1,2,,j j j nj X x x x j p T

== 用数据矩阵X 的P 个向量12,,,p X X X 作线性组合可得

1122,1,2,,i i i pi p F a X a X a X i p =+++=

（3.13）

其中组合系数满足

,,2,1,122221p i a a a pi i i ==+++

（3.14）

(3.13)中的系数由下列原则确定:

),,2,1,,(0),cov(p j i j i F F j i =≠=即Fi 与j F 不相关． 1F 是p X X X ,,,21 的以上组合中方差最大的,其次为p F F F ,,,32 ,

即

)var()var()var(21p F F F ≥≥≥ （3.15）

新的综合指标的总方差保持不变,

即

∑∑===p

i i p i i F X 11)var(

（3.16）

如上决定的综合指标p F F F ,,,21 分别称为原指标的第一主成分,第二主成分, ,第p 主成分．由(3.15)和(3.16)可以看出,用前面的一部分主成分)(,,,21p k F F F k < 就可以反映原指标所包含的较大部分的信息量,而且主成分之间是互不相关的.这样就可以用少数的几个互不相关的主成分代替原始指标来分析解决问题.

那么如何求出原指标的主成分昵?由(3.13)知核心是求出组合的系数.设),,,(21p X X X X =的协方差矩阵为S ,其中p 个特征根从大到小依次为021≥≥≥p λλλ ,则原指标的第i 个主成分i F 的组合系数pi i i a a a ,,,21 正是S 的第i 个特征根i λ对应的标准化正交特征向量,且有:

,cov(,)0,i i j i j F F i j λ=?=?≠?

(3.17)

因而前k 个主成分的方差贡献率为

∑∑∑∑======p i i

k i i

p i i

k i i F F k a 1111)var()var()(λλ （3.18）

这样,要求得原指标的p 个主成分,只需求出原指标的协方差阵S 的特征根及相应的标准正交特征向量[19,20]．

3.3.3 主成分分析的计算步骤

(1)对矩阵X 中的原始数据进行标准化处理

由于主成分是由协方差阵S 求得的,而协方差矩阵要受到指标量纲和数量级的影响,为了克服这一缺陷,就必须将原始指标数据标准化:其中

j j ij ij S x x z -=

（3.19） ∑==n

i ij j x n x 11 （3.20） 2

1)(11∑=--=n

i j ij j x x n S （3.21）

标准化指标协方差矩阵不受指标量纲和数量级的影响.

(2)建立标准化后的P 个指标相关系数矩阵R jj ii ij ij ij S S S r r R =

=),(

（3.22）

其中 ∑=---=n

i j jj i ii ij x x x x n S 1))((11 （3.23）

(3)求解相关矩阵R 的特征根和特征向量

特征根可以被看成是主成分影响力度的指标,代表引入该主成分后可以解释平均多少原始变量的信息.如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大.一般可以用特征根大于l 作为纳入标准. 特征根120p λλλ≥≥≥>

特征向量相应的标准化正交特征向量为:

()12,,,,1,2,,.i i i pi A a a a i p T

== (4)计算各主成分的方差贡献率和累积方差贡献率()k α ∑==p i i

k 1λ

λα （3.24） ∑∑===p i i

k i i k 11)(λ

α （3.25）

方差贡献率表明主成分i F 的方差在全部方差中的比重.这个值越大,表明主成分i F 综合p X X X ,,,21 信息的能力越强.

累积方差贡献率表示前面k 个主成分累积提取了p X X X ,,,21 多少信息. 一般来说,如果前k 个主成分的贡献率达到85％,表明前个主k 成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数,又便于对实际问题的分析和研究[21].

(5)确定主成分个数

确定主成分个数的原则是用较少的主成分获取足够多的原始信息,实际上就是在k 和)(k α之间进行权衡:一方面要使k 尽可能的小,另一方面使)(k α尽可能的大.根据实际问题的需要,使前k 个主成分的累积方差率达到一定的要求,即)(k α;或者先计算p 个特征根的平均值