改进的主成分分析法在我国高校数学学科排名中的应用
主成分分析在数学建模中的应用

第一讲主成分分析在数学建模中的应用1.学习目的1. 理解主成分分析的基本思想;2会用SA澈件编写相关程序,对相关数据进行主成分分析;3. 会用SAS软件编程结合主成分分析方法解决实际问题。
2.学习要求1.理解主成分分析的基本原理,掌握主成分分析的基本步骤;2会用SAS软件编写相关程序,对相关数据进行分析处理和假设检验;3. 撰写不少于3000字的小论文;4. 精读一篇优秀论文。
3. 理论基础3. 1 基本思想在实际问题的研究中,往往会涉及众多的变量。
但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。
一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
因而人们希望对这些变量加以“改造” ,用为数较少的互不相关的新变量来反映原来变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。
主成分分析就是在这种降维的思想下产生的处理高维数据的方法。
3.2 基本原理(1).总体的主成分定义1设X (X i,X2,…,X p)'为P维随机向量,称Z i a;X为X的第i主成分(i=1,2,*X iX i E(X i ) Var(X i )X i(i 1,2,…,p)…P ),如果:(1) a 'a i 1(i1,2,…,p );(2)当 i>1 时,a ' a j 0(j 1,2,…i-1 );(3) Var(Z i )1,max Var (a X)a a 1,a a j 0( j 1/' i-1 )定理 1.设 X (X 1,X 2,…,X p )'是P 维随机向量,且D(X),的特征值为1 2…p 0,a 1, a 2,■ …,a p 为相应的单位正交特征向量,则 X 的第 i 主成分为Z i a ;x(i 1,2,…,p).p m p定义 2.我们称k /i为主成分Z k 的贡献率;又称k /i 为主成分i 1k 1i 1Z 1,…,Zm (m p)的累计贡献率。
对主成分分析三点不足的改进

2009年第6期 科技管理研究Science and Technol ogy Manage ment Research 2009No 16收稿日期:2008-09-25,修回日期:2008-11-05基金项目:黑龙江省社会科学基金项目(05B0142);黑龙江省自然科学基金项目(G200606)文章编号:1000-7695(2009)06-0128-03对主成分分析三点不足的改进徐永智1,2,华惠川2(11吉林大学东北亚研究院,吉林长春 130012;21黑龙江科技学院经济管理学院,黑龙江哈尔滨 150027)摘要:首先通过均值化和对数中心化处理改进主成分分析的特征提取,其次通过比较最优与最劣样本的主成分数值大小,判定特征向量方向,用熵值法对主成分的综合值计算进行改进。
最后,文章用改进后的主成分方法对中国东部各省市区域创新能力进行综合评价。
关键词:主成分分析;均值化;对数中心化;熵值法中图分类号:C93111文献标识码:A1 问题的提出主成分分析在多指标综合评价中被广泛应用。
但在实际应用中,几乎每个步骤都有值得探讨或改进之处。
本文在前人文献的基础上,总结了具体存在三个问题,并在第二部分对这些问题一一做了解决,最后给出一个实例进行具体应用。
其中,本文在第一部分总结出主成分分析在特征提取、特征向量方向确定以及主成分综合值计算中需要改进的地方。
问题一是,通过将指标正态标准化会存在信息丢失问题,从而使得特征提取性下降,并且当指标间线性程度不高时,应用线性主成分方法也会造成特征提取能力下降的问题。
首先,从原始数据的协方差矩阵可以知道,协方差矩阵包含两部分信息。
一是对角线上的信息,它就是各个指标的方差,反映的是各指标的变异。
二是对角线之外的信息,即各指标间的协方差,它反映的是指标间的相互影响,由相关矩阵体现,因为当指标i 与指标j 的方差不变时,协方差就与指标间的线性相关程度成正比。
但传统的正态标准化方法使各指标的方差变成1,即协方差矩阵的对角元素均为1,这样消除了各指标在变异程度上的差异,从中提取的主成分,只包含各指标间相互影响这一部分信息,显然不能准确反映原始数据所包含的全部信息,所以必须改进这种方法。
改进的主成分分析法在综合评估中的应用_李树清

收稿日期:2010)03)15作者简介:李树清(1979-),女,山东嘉祥人,济宁学院物理与信息工程系讲师,硕士,主要从事数据处理方面研究。
基金项目:济宁学院科研基金资助项目(2009KJ LX04)。
第31卷第3期 济宁学院学报2010年6月V o.l 31 N o .3 Journa l o f Ji n i ng U n i v ers it yJ un .2010文章编号:1004)1877(2010)03)0015)03改进的主成分分析法在综合评估中的应用李树清(济宁学院物理与信息工程系,山东曲阜 273155)摘 要:提出一种改进的主成分分析法,并基于此方法对电能质量进行了综合评估。
与传统PCA 相比,该方法消除了原始数据量纲的不统一和数量级的差别,保留了数据的全部信息,同时明显提高了降维效果。
实例表明,利用该方法对监测点的电能质量进行综合评估可以得到全面、直观、科学的评估结果。
关键词:改进的主成分分析;电能质量;综合评估中图分类号:TM 732文献标识码:A0 引 言随着电力电子技术的广泛应用,用户对电能质量的要求越来越高。
针对用户需求,我国分别从电压偏差、频率偏差、电压三相不平衡、电压波动与闪变、公用电网谐波、暂时过电压和瞬时过电压等六项指标对电能质量加以评估[1]。
但这些标准只能用来进行单项评定,而无法确定电能质量综合水平的高低。
主成分分析[2-3]是一种常用的数据特征提取方法,能够通过降维技术,将多个指标化为少数几个综合指标,并通过这少数综合指标对数据做出分析。
从而降低问题的处理难度。
本文将改进的主成分分析法应用于电能质量的综合评估,得出对电能质量的科学评价。
1 主成分分析1.1 主成分分析的数学模型设包含p 个指标某一随机变量X =(X 1,X 2,X p )。
从n 个点对变量进行抽样。
这样可得到原始数据矩阵:X =(X 1,X 2,X p )=x 11 x 12 , x1px 21 x 22 , x 2p , , , ,x n 1 x 21 , x np=(x ij )n @p其中x ij 代表第j 个指标在第i 个抽样中的值。
数学建模:学生心目中的大学排名

学生心目中的大学排名摘要本文以大学教学质量和学生心中比较关注的指标为基础,建立了四个模型进行分析,然后分析了各排行榜之间的特点。
对于问题一建立了基于主成分分析的降维模型和基于模糊熵值定权的综合评价模型;对于问题二通过python编写网络爬虫获取到211院校学生所关注的9项指标数据,建立了层次分析模型和网络层次分析模型。
模型一:由于邱均平所给统计数据中本科和研究生院校分别有45个和48个专业,为了降低处理复杂度同时有保留较高信息,我们建立了基于主成分分析的降维模型。
该模型充分考虑了各专业在所有专业中的重要性,同时也涵盖了所给数据中的绝大部分信息。
这样就保证了数据信息量的充分性,同时增加了数据处理的效率。
模型二:通过模型一的降维,本科和研究生指标数量分别降到8个和6个,由于数据经过线性组合,所以传统的利用专家赋权已不再适用,因此我们建立基于模糊熵值定权的综合评价模型,将包含信息高的指标设置较高权值,我们利用模糊数学对数据进行模糊处理,然后利用熵值法确定权值,最后对教学质量给出客观公正的进行综合评价。
模型三:首先根据当今大学生关注热点我们总结了4个主要指标,每个指标下包含子指标,经过分析指标间存在明显的层次模型,因此我们建立层次分析模型,将4个主要指标作为准则层一,将其他子指标作为准则层二,这样建立了一个4层的层次分析模型;最后通过yaAHP软件对模型进行求解并分析,得到了学生心目中的大学排名。
模型四:由于层次分析法只考虑上层元素对下层元素的支配作用,而没考虑到下层元素对上层元素的反馈作用,因此我们对模型三进行修正,建立了网络层次分析模型,将指标的层次结构修正成网络结构,然后利用SuperDecisions软件建立指标间的网络结构,同时确定判断矩阵,然后对模型进行求解分析,最后得到客观较优的学生心目中的大学排名。
关键字:主成分分析;模糊综合评价;熵值定权;层次分析;网络层次分析目录摘要.............................................................................................. 错误!未定义书签。
关于主成分分析的常用改进方法论文

关于主成分分析的常用改进方法论文1. 核主成分分析(Kernel PCA)核主成分分析通过使用核技巧将线性PCA扩展到非线性情况。
它通过将数据从原始空间映射到一个高维特征空间,然后在高维空间中进行PCA,从而实现非线性降维。
核PCA可以更好地处理非线性关系,但计算复杂度较高。
2. 稀疏主成分分析(Sparse PCA)稀疏主成分分析是一种改进的PCA方法,旨在产生稀疏的主成分。
传统PCA生成的主成分是线性组合的数据特征,而稀疏PCA将主成分的系数限制在一定范围内,产生稀疏的解。
这样可以更好地捕捉数据的稀疏结构,提高降维效果。
3. 增量主成分分析(Incremental PCA)增量主成分分析是一种改进的PCA方法,用于处理大型数据集。
传统PCA需要一次性计算所有数据的协方差矩阵,如果数据量很大,计算复杂度就会很高。
增量PCA通过将数据分批进行处理,逐步计算主成分,从而减轻计算负担。
这样可以在处理大型数据集时实现更高效的降维。
4. 自适应主成分分析(Adaptive PCA)自适应主成分分析是一种改进的PCA方法,旨在处理具有时变性质的数据。
传统PCA假设数据的统计特性不会发生变化,但在现实世界中,许多数据集的统计特性会随着时间的推移而变化。
自适应PCA可以自动适应数据的变化,并更新主成分以适应新的数据分布。
5. 鲁棒主成分分析(Robust PCA)鲁棒主成分分析是一种改进的PCA方法,用于处理包含离群点或噪声的数据。
传统PCA对离群点和噪声十分敏感,可能导致降维结果出现严重偏差。
鲁棒PCA通过引入鲁棒估计方法,可以更好地处理异常值和噪声,提高降维结果的鲁棒性。
以上是常见的几种PCA的改进方法,每种方法都有其适用的场景和优缺点。
研究人员可以根据实际需求选择适合的方法,以实现更好的降维效果。
主成分分析法在教师教学评价中的应用

主成分 的得分和 综合得 分。实现 了教师教学评价 的综合排名 , 又分别对每位教师的优势和劣 势作 出了说 明, 从 而为教
师 教 学评 价 的各 个环 节提 供 定 量依 据 。
关键词 : 主成分分析 ; 教 学评价 ; 贡献 率; 综合得分 中图分类号 : G 6 4 5 . 1 文献标识码 : A 文章编号 : 1 6 7 1 — 4 6 4 4( 2 0 1 3 ) 0 4— 0 0 3 9—0 4
0 + 口 + … + 0 2 = 1,
据, 特别 是 , 教 师 无 法 通 过 评 价 来 分 析 自身 教 学 的优势 和劣 势 , 无 法 据此 提 高教 学 水 平 。此 外 ,
众 多 的 指 标 虽 然 对 教 师 的 教 学 评 价 有 很 大 的 作 用, 但各 指标 间存 在着 一 定 的关 联 , 比较 难 以 从 中分析 出影 响教学 质量 的主要 因素 。 主成分 分 析法 ( p r i n c i p a l c o m p o n e n t a n a l y s i s ) 是 将 多 指 标 化 为 少 数 几 个 综 合 指 标 的 一 种 多 元
依据 。
收 稿 日期 : 2 0 1 3—1 0—1 3
总方差分解成 P个 相互无关 的新变量之和 , 从而实现减
少变量的个数而又不会给总方差带来大 的影响。
基金项 目: 南京工业职业技术学院 2 0 1 2年度重点科研基金资助项 目( 编号 : Y K一1 2— 0 7— 0 2 ) ; 南京工业职业技术学院 2 0 1 2年度高等教育研究
引 言
教学 质量是 高校 的立校 之本 , 而 教 师 教 学 评 价 又 是 教 学 质 量 的 中 心 环 节 ¨- 3 。 教 师 教 学 评 价 的难 点 在 于 评 价 指 标 的 设 计 和 量 化 过 程 的 处 理, 特别 是量 化 问题 , 直 接 影 响 到 评 价 结 果 是 否
主成分分析法在学生成绩分析与评价中的应用
主成分分析法在学生成绩分析与评价中的应用*郭兰兰1,付政庆2*,衣秋杰1(1.山东科技大学机械电子工程学院,山东青岛266590;2.山东科技大学数学与系统科学学院,山东青岛266590)引言在高等教育教学过程中,教学与考试都是非常重要且相互联系不可分割的,考试本身也可以看做一种教学活动[1]。
各个高校都非常重视使用考试手段对教育质量进行检测和监控,规范和引导教师的教学行为;激励学生努力地学习、培养他们分析问题和解决问题的能力[2]。
因此,考试成绩是能够体现学生在校学习情况的主要因素。
而对于阶段性的评价,经过分析后得到一些对以后非常有用的信息,所以对学生成绩进行分析评价有着重要的意义[3]。
采用多元统计分析的方法对这些信息认真研究,可以充分挖掘考试结果的数据,得到隐藏在学生考试成绩中的有用信息,为提高教学质量提供重要的依据[4]。
本文中,运用主成分分析法对某高校数学专业学生的成绩进行深入分析,得到了影响学生成绩的几个关键因素,并在此基础上对学生的学习特点进行了深入研究。
一、统计分析方法在对实际问题的研究过程中,影响因素往往不止一个,为了更加全面系统,通常这些因素都要考虑,这些因素即为研究的指标[5]。
每个指标或者因素都可以不同程度上反映问题的某些信息,这导致所反映的信息就会产生一定的重合,即各个原始指标之间往往会有一定的相关性。
采用统计方法分析多指标问题时,指标个数太多使问题的复杂程度大大增加。
在研究实际问题时,尽量通过较少的指标反映问题尽量多的信息[6]。
主成分分析法的基本思想为:对问题的原始指标做线性组合形成综合指标,按方差大小进行排序,选取前几个综合指标,依次定义为第一、第二、第三主成分等等。
这些主成分间是线性无关的。
这样处理,既能降低问题的复杂度,又能从原始数据中进一步挖掘实际问题的某些新信息[7-8]。
在实际问题中,为了降低分析的难度,提高分析效率,通常不直接对原始指标(p个)构成的随机向量x=(x1,x2,…,x p)进行分析,而是先对向量做线性变换,把原来的随机向量变换成新的综合变量y1,y2,…,y p。
主成分分析在统计学中的意义和应用
主成分分析在统计学中的意义和应用主成分分析(Principal Component Analysis,简称PCA)是一种常用的多变量数据分析方法,广泛应用于统计学领域。
它通过线性变换将原始数据转换为一组新的互相无关的变量,称为主成分,以减少数据的维度并提取数据中的主要信息。
本文将探讨主成分分析在统计学中的意义和应用。
一、主成分分析的意义主成分分析在统计学中具有重要的意义。
首先,主成分分析可以帮助我们理解数据的内在结构。
通过将高维数据降维到低维空间,我们可以观察到数据中的主要变化趋势和关联性,从而揭示数据背后的规律和模式。
这对于统计学研究和数据分析具有重要意义。
其次,主成分分析可以减少数据的维度。
在实际应用中,我们经常面临高维数据的分析问题,而高维数据不仅难以可视化,而且计算复杂度高。
通过主成分分析,我们可以将高维数据转换为低维空间,减少数据的维度,从而简化问题的复杂度,提高数据分析的效率。
最后,主成分分析可以提取数据中的主要信息。
在数据分析中,我们通常只关注数据中的重要信息,而忽略噪声和不相关的变量。
主成分分析通过将数据转换为主成分,可以提取数据中的主要变化趋势和关联性,帮助我们更好地理解数据,做出更准确的分析和预测。
二、主成分分析的应用主成分分析在统计学中有广泛的应用。
以下是主成分分析的几个典型应用领域:1. 数据降维主成分分析可以将高维数据降维到低维空间,从而减少数据的维度。
这在数据可视化和数据分析中非常有用。
例如,在图像处理中,我们可以使用主成分分析将图像转换为低维空间,从而实现图像的压缩和重建。
在金融领域,主成分分析可以用于降低股票市场的维度,帮助投资者理解市场的主要变化趋势。
2. 特征提取主成分分析可以提取数据中的主要信息,帮助我们理解数据的内在结构。
在模式识别和机器学习中,我们经常需要从数据中提取有用的特征,以便更好地分类和预测。
主成分分析可以帮助我们实现这一目标。
例如,在人脸识别中,我们可以使用主成分分析提取人脸图像中的主要特征,从而实现人脸的自动识别。
利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。
第3题. 利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。
近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。
但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。
对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。
遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体见下图图1. 高等教育的十项评价指标指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值,具体数值见下表见表6,其中:1x 为每百万人口高等院校数;2x 为每十万人口高等院校毕业生数;3x 为每十万人口高等院校招生数;4x 为每十万人口高等院校在校生数;5x 为每十万人口高等院校教职工数;6x 为每十万人口高等院校专职教师数;7x 为高级职称占专职教师的比例;8x 为平均每所高等院校的在校生数;9x 为国家财政预算内普通高教经费占国内生产总值的比重;10x 为生均教育经费。
建模与求解:一构造原始数据矩阵X=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡1021x x x二使矩阵X标准化(程序见附录1)Z= 4.3685 3.9057 4.0909 4.1392 4.5401 4.5748 2.4120 0.39541.98622.6869 2.3854 2.4187 2.0965 1.9157 0.8299 1.13461.0221 1.4520 1.5048 1.3575 0.9509 1.0406 1.4024 1.09910.0952 0.2331 0.1895 0.2072 0.1326 0.1823 0.0558 0.53750.2342 0.3453 0.3790 0.3951 0.0988 0.1823 0.7080 0.72190.3918 0.3133 0.2898 0.2270 0.1495 0.1823 0.5775 -0.2813-0.0717 -0.0556 -0.0111 -0.0169 -0.0536 -0.0533 0.8638 0.2482 -0.1829 0.0086 -0.0223 -0.0136 -0.0649 -0.0701 0.4691 0.7675 -0.2756 -0.0396 0 -0.0466 -0.1383 -0.1374 0.2405 1.0602 -0.5166 -0.4405 -0.2564 -0.3168 -0.3696 -0.3899 0.7418 1.0264 -0.6371 -0.4245 -0.4124 -0.4091 -0.3696 -0.4067 0.4234 1.2987 -0.6279 -0.1358 -0.3344 -0.3959 -0.3922 -0.4235 0.4793 1.3884 -0.4981 -0.3924 -0.3567 -0.3663 -0.3414 -0.3562 -0.3371 0.4664 -0.4703 -0.3924 -0.3678 -0.3531 -0.3696 -0.3899 0.4979 0.4005 -0.3590 -0.3924 -0.2564 -0.3201 -0.3414 -0.3562 -0.0305 -0.03090.0396 -0.3122 -0.2341 -0.1191 -0.0705 -0.0196 -0.7098 -0.5435-0.1922 -0.2160 -0.2564 -0.2740 -0.3584 -0.3562 -0.1881 -0.4775 -0.3683 -0.2160 -0.3233 -0.2740 -0.2850 -0.2889 -0.7606 0.2939 -0.4054 -0.3764 -0.3121 -0.3729 -0.3696 -0.4067 -0.0509 -0.1155 -0.6093 -0.5047 -0.5239 -0.5113 -0.4543 -0.4572 0.4590 0.1806 -0.5444 -0.4886 -0.6019 -0.5640 -0.4656 -0.4740 -0.2660 -0.6889 -0.4425 -0.3764 -0.3455 -0.3531 -0.3358 -0.4067 -0.2220 0.2262 -0.5074 -0.5367 -0.4793 -0.4487 -0.4486 -0.4909 -0.4709 -0.0630 -0.3776 -0.3764 -0.5128 -0.4289 -0.3471 -0.3057 -0.4184 -0.59080.4103 -0.6490 -0.5462 -0.5410 -0.2906 -0.2384 -3.0524 -2.6580-0.6464 -0.5528 -0.5350 -0.5640 -0.4656 -0.5077 -0.2897 -0.0681 -0.6001 -0.6169 -0.5685 -0.5673 -0.4938 -0.5077 0.3065 -0.39800.1322 -0.2962 -0.3567 -0.3070 -0.2793 -0.2216 -1.2569 -1.4908-0.5630 -0.6971 -0.6911 -0.6860 -0.5051 -0.5245 -0.3388 -1.54320.2157 -0.4565 -0.5350 -0.4948 -0.3584 -0.2889 -2.0750 -2.2960三构造矩阵相关系数矩阵R(程序见附录2)R= 1.0000 0.9434 0.9528 0.9591 0.9746 0.9798 0.4065 0.06630.9434 1.0000 0.9946 0.9946 0.9743 0.9702 0.6136 0.35000.9528 0.9946 1.0000 0.9987 0.9831 0.9807 0.6261 0.34450.9591 0.9946 0.9987 1.0000 0.9878 0.9856 0.6096 0.32560.9746 0.9743 0.9831 0.9878 1.0000 0.9986 0.5599 0.24110.9798 0.9702 0.9807 0.9856 0.9986 1.0000 0.5500 0.22220.4065 0.6136 0.6261 0.6096 0.5599 0.5500 1.0000 0.77890.0663 0.3500 0.3445 0.3256 0.2411 0.2222 0.7789 1.00000.8680 0.8039 0.8231 0.8276 0.8590 0.8691 0.3655 0.11220.6609 0.5998 0.6171 0.6124 0.6174 0.6164 0.1510 0.0482四求出R的特征值和累积贡献率(程序见附录3)λ1= 7.5022贡献率τ1=λ1/10=75.0216%λ2= 1.577累积贡献率τ1+τ2=90.7915%λ3= 0.5362累积贡献率τ1+τ2+τ3=96.1536%λ4= 0.2064累积贡献率τ1+τ2+τ3+τ4=98.2174%可以看出,前两个特征根的累计贡献率就达到90%以上,主成分分析效果很好。
主成分分析及其在综合评价系统中的应用
主成分分析及其在统计综合评价系统中的应用一. 文献综述主成分分析法是在对于复杂系统进行统计分析时十分有效的一种方法。
本文主要是对主成分分析法进行详细介绍,并分析其在统计综合评价中的应用[1]。
突出介绍主成分分析法在学生综合成绩分析[2]、企业业绩分析[3]及景区游客服务满意度测评[4]这三个综合评价系统中的应用。
并在文末,对主成分分析法进行了一定的改进[5],使得主成分分析法更加合理并贴近实际,且在一定程度上减小了统计分析过程中“线性化”产生的误差。
二.相关知识在我们进行系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本文介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
(一)主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n个样本,每个样本共有p个变量描述,这样可构成一个n×p阶的数据矩阵。
如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为,它们的综合指标——新变量指标为,(m≤p)。
则在(1)式中,系数由下列原则来决定:(1)与相互无关;(2)是的一切线性组合中方差最大者;是与不相关的的所有线性组合中方差最大者;……;是与都不相关的的所有线性组合中方差最大者。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
武汉科技大学 硕士学位论文 摘 要
第I页
本文对教育部学位与研究教育发展中心 2006 公布的 20 所高校数学学科培养研究生的 数据进行统计分析。 改进的主成分分析法结果表明, 各个学校在科学研究基础、 人才培养、 社会贡献等方面的发展不平衡, 且整体的评价结果与学位中心给出的结果有差异。 聚类分 析结果表明,各个学校的学科发展状况存在差异。因此,有关的管理和决策部门应从宏观 上把握我国高校学科的整体发展现状, 分类制定相关政策, 更好的指导和规划我国高教事 业的健康发展。 全文共分为四个章节: 第一章,绪论.本章介绍了研究背景、研究现状、研究方法及本文的创新之处。 第二章,本章主要介绍相关的理论,重点介绍传统主成分分析法的理论和方法。 第三章,本章主要针对传统主成分分析的弊端,提出改进的主成分分析法并介绍相关 理论与方法。 第四章,利用 SAS 软件, 通过改进的主成分分析法对我国 20 所高校数学学科培养研究 生整体水平进行评价。 第五章,总结本文研究的结论与不足,提出进一步研究的方向。 关键词:高校数学学科;排名;主成分分析;聚类分析
Байду номын сангаас
武汉科技大学 硕士学位论文 第二章 预备知识
2.1 主成分分析
第3页
我们在作数据处理时,涉及的样品往往包含多个(间隔)变量,较多的变量会带来分析 问题的复杂性。然而,这些变量彼此之间常常存在着一定程度的、有时甚至是相当高的相 关性, 这就使含在观测数据中的信息在一定程度上有所重迭。 正是这种变量间信息的重迭, 使得变量的降维成为可能,从而使问题的分析得以简化。 主成分分析是由英国生物统计学家 Kart Pearson 于 1901 年首次对非随机变量引入的 (求拟合直线或超平面),尔后,又由 Hotelling 将其将其推广至随机变量。 这一方法在处理解决多指标的统计分析中得到广泛应用, 是一种很常用的、 行之有效 的多元统计分析方法,它在社会经济领域、企业的管理方面及地质、医药、生化等各个领 域都有着广泛的应用。 主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统 计分析方法。 这些主成分能够反映原始变量的绝大部分信息, 它们通常表示原始变量的某 种线性组合。为了使这些主成分所含的信息互不重迭,应要求它们之间互不相关。主成分 分析的一般目的是:(1)变量的降维;(2)主成分的解释。当主成分用于回归或聚类时,可 不必对主成分作出解释。 对主成分(特别是前两个主成分)作散点图, 能从直觉上反映出样 品的大量信息,甚至是绝大部分信息。主成分散点图在探索性数据分析中尤其有用,它可 以有效的检测出异常值。 假设共有 n 个 为了便于对主成分分析的理解, 我们考虑(间隔)变量个数 p = 2 的情形, 样品, 每个样品都检测到了两个变量 ( x1 , x2 ) , 它们大致分布在一个椭圆内, 如图 2.1 所示。 显然,在坐标系 x1Ox2 中, n 个坐标点的坐标 x1 和 x2 呈现某种线性相关性。我们将该坐标 系按逆时针方向旋转某个角度 θ 变成新坐标系 y1Oy2 ,这里 y1 是椭圆的长轴方向, y2 是短 轴方向。旋转公式为: y1 = x1 cos θ + x2 sin θ y2 = − x1 sin θ + x2 cos θ
武汉科技大学 硕士学位论文 Abstract
第 II 页
In this paper, the Ministry of Education and Research Degree Education Development Center announced the 20 universities in 2006 mathematics graduate training data for statistical analysis. Improved principal component analysis results showed that all schools in research-based, personnel training, community contributions, etc. uneven development, and overall evaluation results with the results given degree centers are different. Cluster analysis showed that the various schools development are different disciplines. Therefore, the macro-management and decision-making should grasp the overall development of Chinese universities subject status, classification and formulate relevant policies and programs to better guide the healthy development of China's higher education. Paper is divided into four sections: Chapter I, Introduction. This chapter describes the research background, research, method and innovation of this paper. Chapter II, this chapter introduces the relevant theoretical, focusing on the traditional principal component analysis theory and method. Chapter III, this chapter aimed at the shortcomings of the traditional principal component analysis, an improved principal component analysis and introduces the theories and methods. Chapter IV, using SAS software, by improving the principal component analysis method to the 20 high school mathematics subjects to evaluate the overall level of training graduate students. Chapter V summarizes the conclusions of this paper and suggested some further research. Key words: College Mathematics; ranking; principal component analysis; cluster analysis
武汉科技大学 硕士学位论文
第2页
《美国新闻与世界报道》最新公布的 2005 年版美国研究生院排名,是针对商科、教 育、工程 、法律及医药等领域而分别进行的。排名主要依据两类的数据;一类数据是专 家对学校质量印象进行打分,也就是学校的声誉分,另一类数据是学院老师、科研及学生 质量统计指标。所采用的统计指标分成了两大类:投入,即学生和教师的质量;产出,即 毕业的质量; 每一个指标都要跟每个领域的专家进行反复磋商后确定。 最后额总分也要经 过重新调整,分数最高的学院被定为 100 分,其他学院的分数按比例折合,然后取整数, 学校按所得分数降序排列。 每个学校与其他学校都是一个相对分数, 所以高分学校并不一 定表示他的每一项指标都是高分, 只能说明他的综合分高, 让每个学校都能认识到自己的 优势和发展空间。 各个国家高等教育学科专业目录的学科分类方法在设置理念、 总体结构、 学科内涵上 都有很大差异,对于学科数量众多的大学而言,分学科的国际比较只能在有限的、范畴较 为清晰的学科内进行, 大量新兴学科和跨学科活动往往很难体现。 大学科领域可以在一定 程度上解决领域内部的学科交叉问题, 同时人们的认识也比较统一, 因此本研究选择在学 科领域层面而不是在学科层面对世界大学进行比较排名, 希望能够更完整地反映大学的整 体学科水平。 1.3 研究方法 利用 SAS 软件,通过改进的主成分分析法对我国 20 所高校数学学科培养研究生整体 水平进行评价。 首先通过对高校数学学科数据进行主成分分析, 而后通过主成分得分得出 排名,以及综合排名;在主成分分析的基础上,通过对高校数学学科数据进行聚类分析, 而得出高校数学学科的分类情况。 1.4 本文的创新之处 本文的创新之处在于第三章的研究中对传统的主成分分析法进行了改进, 即 “主成分 —聚类分析法” ,以及该方法在具体实例中的应用。
武汉科技大学 硕士学位论文 第一章 绪论
1.1 研究背景
第1页
一流的大学必然有一流的学科, 学科水平很大程度上决定了大学水平。 《面向 21 世纪 教育振兴行动计划》 明确指出, 重点建设若干所世界先进水平的一流大学和一批一流学科。 有学者曾经以国际可比的研究成果和学术表现作为主要指标,进行了全球性的大学排名, 分析了我国大学在世界大学体系中的地位, 找出了与世界一流大学的差距。 并且通过对比 不同年份的排名和指标,发现“985 工程”建设使我国部分名牌大学的整体实力与世界一 流的差距明显缩小, 然而, 关于我国名牌大学的各个学科与世界一流的差距很少有系统的 研究。 近年来, 我国普通高等教育得到了迅速发展, 但由于我国各地区经济发展水平不均衡, 加之高等院校原有布局使各地区高等教育发展的起点不一致, 因而各地区普通高等教育的 发展水平存在一定的差异。目前,我国高校的学科排名,它只能大致反映出学科的整体水 平,而从排名结果中,我们也只能看出排出的名次,看不出各高校学科间其具体方面的实 力和差距。本文运用多元统计分析的方法,对数学学科研究生培养的数据进行分析,以便 从宏观上把握我国高校学科的整体发展现状, 为更好地指导和规划高教事业的健康发展提 供一定的科学依据。 1.2 研究现状 近些年来, 受经济全球化和高等教育国际化的趋势影响, 出现了不少国际性的院/系、 学科排名 。 Thomson Scientific 公 司( 原 美 国科学 信息 所 ) 出 版 的 《 重要 科学指 标》 《Essential Science Indicators》数据库给出了 22 个学科论文总被引次数排在世界前 1%的大学和其他研究机构名单, 结果得到了广泛认可并经常被大学引用作为自己学科实力 的证明。 世界大学学科领域排名的学科领域有五个,分别是:数学与自然科学(简称理科) ; 工程、技术与计算科学(简称工科) ;生命科学与农学(简称生命) ;临床医学与药学(简 称医学) ;社会科学(简称社科) 。我们对学科领域的划分是在 Thomson Scientific 提供 的期刊学科分类法的基础上整理得到的。与我国《研究生学科专业目录》相比,一个主要 的区别是将理科门类下的生物学、 基础医学下的免疫学与病理学等学科、 农学门类等组合 成生命科学与农学。 瑞士科学技术研究中心(CEST)在 2004 年的一项研究中,对全世界 683 所大学的论 文数量和质量进行了统计,给出了每所大学在自然科学、工程科学、农学与环境、生命科 学、医学、社会科学、人文与艺术 7 个领域 107 个学科的论文影响力排名。 英国 《泰晤士报高等教育增刊》 (THES) 自 2004 年开始对世界大学在人文艺术、 社科、 科学、技术、生命医学 5 个领域进行排名,采用的惟一指标是声誉调查得分。