多元统计分析方法在区域经济领域的应用及区域经济发展差异指标的研究
多元统计分析方法在区域经济领域的应用及区域经济发展差异指标的研究

多元统计分析方法在区域经济领域的应用及区域经济发展差异指标的研究武汉理工大学组组长:刘京组员:张扬薛彪唐正霜沈亦天赵一于晓龙王淼池浩斌洪婉芳唐晓军周溪罗洋贾龙波万恩铭胡朝根引言:我国改革开放发展市场经济以来,经济保持了高速增长的势头,取得了举世瞩目的成绩,我国的改革开放是渐进式的,这避免了经济制度的突然变革给社会发展带来的诸多弊端,但是也使得区域间经济增长不平衡问题突显。
如何对通过多元统计学的方法对区域经济进行分析并进行合理的划分,并对区域经济差异原因进行研究,剖析各区域经济发展不平衡的各方面原因,针对各地区经济发展问题进行分析并提出科学的建议,有利于更加准确对我国区域经济发展状况进行了解并促进各区域经济平衡发展。
另外,根据2011年国家统计局公布的2011年1-3季度全国经济运行数据,其中最表征一个国家地区经济实力的国际通用指标—GDP为320692亿元,同比去年增长9.4% ,2011年9月份,全国居民消费价格总水平CPI同比上涨6.1%。
2011年中国经济面对比较复杂的国内外经济环境,中国经济在前三季度仍然保持了平稳较快的发展。
但不可否认,中国经济增速开始减缓,通胀压力日益增大。
而且由于通胀压力的增大,地区经济发展不平衡的问题日益突出。
本文拟以实证的方法, 对地区经济差距做一些分析, 并通过差异指标对中国区域经济状况进行了的测度解读,并讨论其在区域经济差距中的影响及其经济增长效应。
本文提供的关于区域经济划分的一个主要思路:我们可以通过选择某几个对区域经济影响比较大的差异指标作为变量,收集这些变量的历史数据,寻找这些变量之间的关系,根据这些变量的性质和之间的关系选择一个对应的多元统计分析方法,选择方法之后,再对这些数据进行处理,如果是聚类分析法,那么就可以将某个范围的数据进行聚类,从数据的角度进行相似性分析,这样就可以对区域经济进行划分,也可以继续研究这些差异指标对区域经济发展的影响,确定这些差异指标的作用大小,寻找差异原因和解决方法,并给于政策建议。
多元统计分析及其在经济研究中的应用

科技与应用经济与社会发展研究多元统计分析及其在经济研究中的应用滦平县矿产品服务中心 郎海军摘要:社会的信息化发展使人们需要面对更加复杂的数据与信息,随着需要处理的数据不断增多,在进行数据统计与分析时,利用多元统计分析能够更加高效地进行数据处理。
本文将具体分析几种多元统计分析方法,并探讨多元统计分析在经济研究中的应用。
关键词:多元统计分析;方法;应用经济是国家与社会发展的基础,而经济的网络体系是十分立体的,它包含着多元素多目标。
因此若想摸清经济的脉络,对经济的结构与比例展开全面的探究,则需要立足于现实统计资料或抽样调查资料,利用数理统计分析方法,结合资料对参数进行估算,从而完成结构控制的简化,帮助人们判断经济的活动方向,对未来经济的运行规律进行预判。
而在处理这种多元素多目标的信息网络时,多元统计分析是最有力的统计分析工具。
在现代计算技术的支持下,多元统计分析能够更加高效地实现经济数据处理,以更加多样化的分析手段保证统计分析的质量。
这对于国家宏观调控及企业经济转型都具有十分重要的现实意义。
一、多元统计分析的主要内容(一)多元回归分析在定量分析中,最常见的分析方法之一就是多元回归分析法,而计量经济模型也是脱身于多元回归分析法的。
简单来说,多元回归分析法是在研究数据间的客观数量规律的基础上,通过数字方程的形式将研究对象进行立体展现,并构成计量模型。
而在此过程中衍生的计量经济模型,尤其是预测模型对于经济问题具有较高的实用价值,预测模型通过对自变量的变化与变化的数量关系进行分析,利用模型处理能够预测与评估相关的经济问题。
而在多元回归分析中会存在一个因变量及多个自变量。
(二)主成分分析主成分分析的主要作用就是通过对数据的压缩与说明,来判断事物的综合指标,通过综合指标的信息展现事物间的客观事实规律。
简单来说,主成分分析就是导出并保留了几个互不相关主成分变量的原始数据信息,简化多个指标,将其转化为综合指标。
(三)因子分析在某种意义上来说,因子分析是主成分分析的衍生及深入探究。
多元统计分析方法在宏观经济分析中的运用研究

多元统计分析方法在宏观经济分析中的运用研究摘要:经济的发展需要决策部门制定正确的政策,而这些政策必须在数据分析的基础上制定,在多元统计分析中是一种有助于经济分析的理论方法。
多元统计分析的主要方法是对历史数据进行理论分析,将所得结果与当前存在情况进行比较,并进行参数校正以及推导出当前经济体系的运行状态。
本文利用主成分分析和聚类分析,分析了多元统计分析方法在宏观经济分析中的应用现状和现状。
关键词:多元统计分析方法;在宏观经济分析;运用1、多元统计分析的主要方法1.1主成分分析的特点及其运用主成分分析区分与别的分析方式的特点就在于主要是靠着数据的具体分析,不关注外部环境的因素,减少了在数据分析的过程之中所受到的外在环境因素的影响。
在数据分析过程之中一般都是直接去选取变量分析,所以在分析的过程之中的精准度要靠着所取得的变量的基数大小来决定的。
因为这样的一种分析数据的方式,所以在数据的分析之中就要尽可能的选取变量基数较小的,选取的数据基数越小其分析的结果就会越准确也会更加地贴近现实的实际情况。
在运用的过程之中主要是对于各种基数的运用分析,然后进行相应的数据处理,输入样本观测值制成表格然后同一单位为万元,之后开始逐步的计算标准化的数据矩阵不断的进行变量简化。
主成分方法的运用在很大程度之上减少了人们在主观意识之中存在的误差,也减少了数据的反复运算,大大的缩减了在数据分析统计之中的效率降低了数据运算分析中的误差。
1.2聚类分析法的特点及其运用聚类分析的定义为:一种利用统计方法,统计变量的分布情况,在分析时将性质类似的变量归纳总结,以达到减少系统变量目的的统计学方法.聚类分析虽然属于统计分析的分支,但是其分析方式受到数据挖掘、机器模式识别和统计学等多种分析领域的影响.聚类就意味着在分析过程中,相似度高的变量就要分在同一个集合中,而不同集合之间具有明显的差别,在分析方式上,往往采取先图标、后数据的方式,相比传统的统计方法更为直观.聚类分析过程中,具体的变量聚类方法为:首先在系统中选取要统计的变量,然后选择与所有变量相关的因素作为评定各变量类似程度的标准,接着对每一个变量进行评定,评定完成后,就开始对所有的变量进行矩阵分析.矩阵分析就是将所有变量排列成相似矩阵,然后选取相似度最高的两组变量进行合并,这样就实现了减少变量的目的.这样依次合并新矩阵中相似度最高的两组变量,最终矩阵中的变量统一为一个.最后,根据合并变量的顺序绘制聚类图,就可以直观的看到系统中所有变量之间的相似度大小.根据图表显示并结合实际情况,就可以进行最终的系统分析并得出结果.作为多元统计分析中的主要分支,聚类分析的主要方法有:动态聚类法、聚类预报法、最优分割法、系统聚类法、图表聚类法和模糊聚类法.种类繁多的分析方式使得聚类分析法在实际中的应用范围更为广阔,如天气预报中的灾害预报,就涉及到聚类预报法;企业在进行评价时往往倾向于系统聚类法;而图表聚类法则通常作为汇报性分析中。
多元统计分析在区域经济发展中的预测研究

中国储运网H t t p ://w w w .c h i n a c h u y u n .c o mD I S C U S S I O N A N D RE S E A R C H 探讨与研究摘要:传统分析方法在解决区域经济发展预测中,容易出现信息丢失的情况,导致人均G D P 和G D P 增长率的预测结果存在偏差,因此提出多元统计分析在区域经济发展中的预测研究。
首先对多元统计分析进行概述,建立区域经济发展预测模型,运用多元统计分析筛选影响因子,输入指标完成区域经济发展预测。
模拟预测结果显示,运用多元统计分析的预测方法与传统预测方法相比,人均G D P 和G D P 增长率预测结果的平均绝对百分比误差低,提高了区域经济发展预测的准确度。
关键词:分多元统计分析;区域经济发展;预测;平均绝对百分比误差0引言区域经济发展中的历史数据与当下的统计调查数据信息极为复杂[1],包含多个对于经济发展的影响程度不同的因素,但由于它们相互关联、相互影响,关系较为复杂,寻找到客观全面地反映经济发展的因素就十分困难,传统分析方法在处理复杂问题时顾此失彼,易丢失信息导致预测精度不足[2]。
多元统计分析的特点恰好解决了这一问题。
多元统计分析可以对多种变量进行一次性分析处理,能够反映可控变量对因变量的影响程度,从而进行主次因素的区分,提高了复杂问题的解决能力。
1.多元统计分析概述在回归方程中,可控变量数值的变化可以影响因变量,通过这种性质,可以实现对因变量的预测,还可以对可控变量进行分析,得出对因变量影响较大的变量,以辨别主次,方便后续问题有针对性地处理。
多元线性回归的一般方程为:Y i =β0+β1x i 1+…βp x p 1+εi ,i =1,2,…,n(1)式中,x i 1、x i 2、…x i p ,依次为第i 次的观测变量x 1,x 2,…x p 的取值,因变量Y 的观测值为Y i ,β1、β2、…βp 表示未知参数。
多元统计分析在经济管理中的应用研究

多元统计分析在经济管理中的应用研究随着现代经济的快速发展,经济管理中所需的数据也越来越复杂,数量也越来越庞大。
在这种情况下,如何有效地管理和分析数据成为了经济管理领域的一大挑战。
为了解决这个问题,多元统计分析应运而生。
本文将探讨多元统计分析在经济管理中的应用研究。
一、多元统计分析概述多元统计分析是指同时处理多个变量和多个样本的一种统计方法。
它主要包括多元方差分析、因子分析、聚类分析、判别分析、回归分析等多个子领域。
多元统计分析主要解决统计问题中的多变量、多样本的问题,通过更全面、更细致的数据分析方法,得出更准确、更全面的结论。
多元统计分析在经济学、管理学、社会学等领域有着广泛的应用,特别是在经济管理领域中应用越来越广泛。
二、多元统计分析在经济管理中的应用1. 多元方差分析多元方差分析是比较多组数据之间是否存在差异,并判断差异是否显著的一种方法。
在经济管理中,多元方差分析可以运用在市场营销、企业战略制定等领域。
以市场营销为例,通过多元方差分析可以分析市场细分是否有显著变化,市场营销策略是否需要改变。
2. 因子分析因子分析是将多个变量通过主成分分析等方法,提炼出其中的因子,以降低数据的维数。
在经济管理中,因子分析可以用于企业绩效评估、股票投资等领域。
以企业绩效评估为例,通过因子分析可以提取出对企业绩效影响最大的因子,帮助企业识别弱点以及优化绩效。
3. 聚类分析聚类分析是将样本根据某些特征归为一类,不同类别之间的差异尽可能大,同一类别内的差异尽可能小。
在经济管理中,聚类分析可以用于市场划分、客户分类等领域。
以客户分类为例,通过聚类分析可以将客户分成不同的类别,为企业提供个性化服务。
4. 判别分析判别分析是寻找一组分类变量,使得在这组变量的情况下,两个或多个总体之间的差异达到最大或最小。
在经济管理中,判别分析可以用于企业财务评估、市场定位等领域。
以市场定位为例,通过判别分析可以找到与公司所要求的市场定位最接近的目标市场。
基于多元统计分析的河南省区域经济发展研究

基于多元统计分析的河南省区域经济发展研究
谷雨;袁金放;梅永倩
【期刊名称】《内蒙古科技与经济》
【年(卷),期】2022()14
【摘要】文章运用主成分分析法、改进PCA及聚类分析法等对其经济发展综合水平进行分析评价,并构建综合指标对经济状况进行测度。
这有利于在经济新常态下,清晰河南省发展中存在的地区差异,并重视差异带来的经济发展结果,进而提高整个省市的经济质量水平。
【总页数】3页(P66-68)
【作者】谷雨;袁金放;梅永倩
【作者单位】河南科技大学经济学院
【正文语种】中文
【中图分类】F127(261)
【相关文献】
1.基于多元统计分析的浙江省区域经济发展研究
2.基于多元统计分析的福建省区域经济发展研究
3.基于多元统计分析的福建省区域经济发展研究
4.基于多元统计分析的京津冀一体化区域经济发展研究
5.基于多元统计分析的福建省区域经济发展探讨
因版权原因,仅展示原文概要,查看原文内容请购买。
多元统计分析在经济中的应用

多元统计分析在经济中的应用多元统计分析是指基于多个变量进行统计分析和推断的方法。
在经济学领域中,多元统计分析被广泛应用于探索各种经济现象和问题,并研究经济变量之间的相互关系。
本文将讨论多元统计分析在经济中的应用。
一、回归分析回归分析是一种主要的多元统计分析方法,它可以通过寻找自变量和因变量之间的线性关系来解释和预测因变量的变化。
在经济学中,回归分析被广泛应用于解释和预测各种经济现象,如国内生产总值(GDP),通货膨胀率,劳动力市场表现等。
例如,经济学家可以通过对某个国家的GDP进行回归分析,确定与产出水平相关的因素。
这些因素可能包括人口增长率、投资水平、国际贸易水平等。
通过回归分析可以预测未来GDP的趋势,并确定政府可以采取的政策来推动经济增长。
二、聚类分析聚类分析是一种将变量划分为不同组或类的方法,这些组或类是根据变量之间的相似性或差异性来划分的。
在经济学中,聚类分析被广泛应用于探索消费者行为、市场细分等。
例如,市场研究人员可以通过聚类分析,将消费者分为不同的购买者类型,如节俭型、品牌意识型、社交性型等。
通过这种方法可以更好地了解消费者行为,制定更有针对性的市场营销策略。
三、主成分分析主成分分析是一种将多个变量转换为少数几个总体变量的方法,这些总体变量被称为主成分。
在经济学中,主成分分析被广泛应用于探索和描述数据之间的关系。
例如,经济学家可以使用主成分分析来确定对某个国家经济增长最有影响力的变量。
通过降低变量数量,更容易理解和解释这些影响因素,并帮助制定更有效的经济政策。
四、因子分析因子分析是一种将多个相关变量合并为几个相互独立或不相关的因子的方法,在经济学中,因子分析被广泛应用于消费者行为、市场研究等领域。
例如,一家品牌可以通过因子分析确定影响消费者选择的因素,如品牌声誉、产品性能、价格等等。
这些因素可以被组合成一个消费者选择因子,从而更好地理解消费者行为,并采取相应的市场营销策略。
综上所述,多元统计分析在经济中具有广泛的应用,可以用于解释和预测各种经济现象和问题。
基于多元统计分析的京津冀一体化区域经济发展研究

一、引言1.选题背景京津冀一体化是李克强总理在2014年3月5日的政府工作报告中提出的,旨在加强环渤海地区与京津冀地区的经济合作与发展。
2014年2月26日,习近平总书记在听取京津冀区域协调发展报告时强调,实现区域协调发展是国家重大战略,应通过坚持优势互补、互利共赢,加快走科学可持续协调发展道路来加速实现京津冀一体化。
京津冀地区是中国的“首都经济圈”,包括北京、天津、河北省11个地级市(保定、唐山、廊坊、石家庄、邯郸、秦皇岛、张家口、承德、沧州、邢台、衡水)和2个省直管市(定州、辛集),京津冀所在地区地处中国东北环渤海腹地,是华北地区面积最大、最具活力的区域,越来越受到中国乃至全世界的关注。
2.选题意义通过查阅往年数据表明,京津冀地区各地区的经济差异主要体现在一定时期内京津冀各地区总体经济的发展不平衡所导致的人均G D P 水平的差异,而针对于京津冀地级市单位的区域经济差异的深入解读能够为京津冀一体化的协同发展提供参考建议,特别是在2020年新冠肺炎疫情影响下,准确地了解京津冀地区目前发展情况能为京津冀发展良好或是欠发展地区提供相应建议,是实现“首都经济圈”全面可持续发展的关键。
因此,本文客观深入地分析京津冀各地区综合经济发展状况与水平,重点总结发展中京津冀各个地级市存在的经济差异,为京津冀地区未来发展规划提供参考建议。
二、数据来源说明:由于廊坊市数据并未发布,故除去廊坊市选取其余12个京津冀地区城市的有关经济数据。
来源:中国统计年鉴,北京、天津、沧州、承德等12个地区2019年国民经济和社会发展统计公报。
三、分析方法介绍1.聚类分析聚类分析中所研究的样本或指标之间存在不同程度的相似性。
依据一批样本的多个观察指标,具体找出一些可以衡量样本或指标之间相似性的统计数据作为分类的依据,并将样品分为不同的组合类型。
系统聚类是最常用的聚类分析方法,其目的是使分类间的差异得到清晰的反映,使分类内部的相似度尽可能高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析方法在区域经济领域的应用及区域经济发展差异指标的研究武汉理工大学组组长:刘京组员:张扬薛彪唐正霜沈亦天赵一于晓龙王淼池浩斌洪婉芳唐晓军周溪罗洋贾龙波万恩铭胡朝根引言:我国改革开放发展市场经济以来,经济保持了高速增长的势头,取得了举世瞩目的成绩,我国的改革开放是渐进式的,这避免了经济制度的突然变革给社会发展带来的诸多弊端,但是也使得区域间经济增长不平衡问题突显。
如何对通过多元统计学的方法对区域经济进行分析并进行合理的划分,并对区域经济差异原因进行研究,剖析各区域经济发展不平衡的各方面原因,针对各地区经济发展问题进行分析并提出科学的建议,有利于更加准确对我国区域经济发展状况进行了解并促进各区域经济平衡发展。
另外,根据2011年国家统计局公布的2011年1-3季度全国经济运行数据,其中最表征一个国家地区经济实力的国际通用指标—GDP为320692亿元,同比去年增长9.4% ,2011年9月份,全国居民消费价格总水平CPI同比上涨6.1%。
2011年中国经济面对比较复杂的国内外经济环境,中国经济在前三季度仍然保持了平稳较快的发展。
但不可否认,中国经济增速开始减缓,通胀压力日益增大。
而且由于通胀压力的增大,地区经济发展不平衡的问题日益突出。
本文拟以实证的方法, 对地区经济差距做一些分析, 并通过差异指标对中国区域经济状况进行了的测度解读,并讨论其在区域经济差距中的影响及其经济增长效应。
本文提供的关于区域经济划分的一个主要思路:我们可以通过选择某几个对区域经济影响比较大的差异指标作为变量,收集这些变量的历史数据,寻找这些变量之间的关系,根据这些变量的性质和之间的关系选择一个对应的多元统计分析方法,选择方法之后,再对这些数据进行处理,如果是聚类分析法,那么就可以将某个范围的数据进行聚类,从数据的角度进行相似性分析,这样就可以对区域经济进行划分,也可以继续研究这些差异指标对区域经济发展的影响,确定这些差异指标的作用大小,寻找差异原因和解决方法,并给于政策建议。
关键词区域经济多元统计分析方法聚类分析经济差异指标1.多元统计分析方法综述多元统计方法是数理统计学中近二十年来迅速发展起来的一个重要分支。
它是实用性很强的一门学科,尤其是近年来计算机的普及,使得多元统计方法在许多领域中,例如生化、医药、地质、气象、工程技术、社会经济、企业管理、教育学、人文科学等都得到日益广泛的应用。
因此,这门学科受到了科学工作者、工程技术人员的普遍重视。
如何将隐藏在大规模原始数据群体中的重要信息集中提炼出来,简明扼要地把握系统的本质特征,找出原始数据中隐含的内在规律,这就是多元统计数据分析所要解决的问题。
多元统计学方法可以分为回归分析、趋势面分析、判别分析、聚类分析、主成分分析和因子分析、色谱分析法等。
下面就以聚类分析方法对区域经济进行分析。
1.1多因素方差分析法:在科学试验和生产实践中,影响一事物的试验结果因索往往是很多的,例如,在化肥的生产过程中,影响化肥产品质量的可能因素有,原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作人员的技术等因素。
每一因素的变化都有可能影响产品的数量和质量,显然在众多因素中,有些因素对产品的质量影响较大,有些较小,为了使生产过程得以稳定、保证优质、高产,就有必要在众多因素中找出对产品质量有显著影响的那些因素,而方差分析就是根据试验的结果进行分析,进而鉴别各个有关因素对试验结果影响程度的一种统计方法。
在实验中,我们将试验结果又称为试验指标,影响试验指标(试验结果)的条件称为因素。
因素可分为二类,一类是人们可以控制的(可控因素);一类是人们不能控制的。
以下我们所说的因素都是可控因素。
因素所处的状态,称为该因素的水平。
如果在一项试验中只有一个因素对试验结果有影响称为单因素方差分析,如果多于一个因素对试验结果有影响称为多因素方差分析。
简言之方差分析的研究对象就是研究因素对试验结果的影响程度是否显著。
但多因素方差分析计算比较困难,准确度也不高,一般多用单因素方差计算和双因素方差计算。
1.2多元回归分析方法:当变量间的关系为在生产过程和科学实验中,我们经常是需要研究变量与变量间的关系。
变量间的关系,总的来说可分为两种,即函数关系和相关关系。
确定性关系,即对于一个变量的每一个值都有另一个变量的一个或几个完全确定的值与它对应,我们就说变量间存在函数关系,对两个变量的函数关系可表示为)(x f y ,一旦变量间的函数关系建立,事物发展变化的规律就随之确定。
由此可以看出,建立变量间的函数关系,研究函数关系在生产实践中就显得特别重要。
然而在许多实际问题中,由于各种关系错综复杂,要精确的建立变量间的数学表达式又特别困难,同时很多工程问题的变量之间还受到其它偶然因素的影响,使它们之间的关系具有不确定性,因此在这种情况下要建立准确的数学关系是不可能的,该如何解决这个问题呢?回归分析方法就是在大量试验观测数据的基础上,找出这些变量之间的内部规律性,从而定量地建立一个变量和另外多个变量之间的统计关系的数学表达式。
因此简单地说,回归分析就是研究一个变量与其它变量间关系的一种统计方法。
回归分析中被回归的变量y 称为因变量,影响y 变化的其它变量m x x x ,,,21 称为自变量。
如果自变量只有一个,称为一元回归;如果自变量是两个或者以上,则称为多元回归;如果y 与1x ,m x x ,,2 间的关系是线性的,则称线性回归,否则称非线性回归。
1.3判别分析法:判别分析是由Pearson 于1921年提出,当时主要是为了解决人种的定量识别以及考古的需要,直到1936年Fisher 才第一次提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪个已知类别的数学模型,从此以后判别分析得到广泛的应用。
判别问题或称识别问题(又可称为归类问题)在生产、科研和日常生活中是经常遇到,例如,某个病人生病了,医生可根据这个病人的体温高低、白血球数目多少等项检查作出判断该病人是患了感冒病、肺炎病,还是其它病。
这里病人患病可看成待判样品,体温高低,白血球多少,可看成特征变量,感冒病、肺炎病可看成不同总体。
医生诊断的过程是根据病人的体温、白血球等多项指标,来判断病人是患了感冒病、肺炎或其它的病,这显然是一个识别问题或者说是归类问题。
又如,在地质勘探中,根据某地区发掘的矿石标本的多项指标,来判断该地区地下是何种矿藏,并进而确定是富矿还是贫矿。
这里把各种矿藏看成不同总体,矿石标本看成是样品,根据矿石标本判断是何种矿藏,就是判断样品归属于哪一个总体的判别分析问题。
再如,在天气预报中,根据现有的数据资料(如气温、气压等)来判断明天是晴天还是阴天、雨天。
这里,把睛、阴雨等天气,看成是不同的类别,现有资料看成是待判样品,这显然也是一个判别分析问题。
此外,在动植物的分类、社会调查、考古研究、刑侦等领域中都在广泛的应用判别分析方法。
于是我们给出判别分析问题的一般提法是:设有k 个总体G 1,…G k ,已知待测样品X 来自k 个总体的某一个,但不知X 究竟来自其中的哪一个。
判别分析就是要根据对k 总体的已知知识和对待判样品X 的某些特征指标值,去判断样品X 应归属于哪一个总体。
从上面的分析,可以看出:要对待判样品作出正确的归类,首先要对不同总体的性质和特征进行研究,为此首先我们来解释所谓的同一总体是指的什么?同一总体是指具有相同属性或特征指标的样品集合。
在同一总体内样品间具有相似性且样品间距离较小。
反之,不同总体样品所代表的属性不同,且不同总体的样品间相似性很小或不具备相似性,也可说不同总体间距离很大,简言之,同一总体样品间距离小,不同总体样本间距离大,需要说明的是,在实际问题中总体与总体间在某些性质和特征上又可能存在不同程度上的重迭,比如,在人种的识别过程中,需要区分白种人、黄种人、黑种人,如果我们只在这三个总体中提取一个特征变量(观测指标)皮肤颜色,就可能对待判的某人错分,因为黄种人中,也有皮肤白的,错分的原因是三类人种就皮肤颜色这一特征指标可能发生重迭,若我们再加上身高,头发,体形等多项特征指标,就可减少总体间的重迭,便于区分。
1.4聚类分析法:为了研究各个事物间的相同点和不同点,往往要对各种事物进行分类,传统的分类主要依靠经验和专业知识,很少使用数学思想。
随着人们对各领域研究的深入,对分类的要求越来越细,以至单纯的依靠经验和专业知识进行的分类无法满足人们的需要,于是统计的方法被引入到分类学中,伴随多元统计方法的发展,分类学中分离出了聚类分析的这个分支。
聚类分析的基本思想是:我们所研究的样本间不同程度的存在相似性,于是可以根据不同样本的多个指标,找到能够度量样本间相似度的统计量,以这些统计量为依据,按相似程度的大小把不同样本聚类,相似程度大的聚在一类,各类别间的相似程度不同这样就将样本分为若干类,便于比较同一类的相似处和不同类之间的区别。
1.5主成分分析方法:在实际工程问题的统计分析中,为了获取充分的信息,对问题作出较可靠的推断,我们往往选择多个特征变量(指标)去进行观测,而这些特征变量甚至会多到十几个或几十个,因为每个特征变量都在不同程度上反映所研究问题的信息。
但是,特征变量个数太多常常会增加对问题分析的复杂性。
因此,人们自然希望选取的特征变量个数较少而得到的信息较多。
在很多情况下,这些特征变量之间有一定的相关关系,当两个特征变量有一定相关关系时,可以解释为这两个特征变量反映的信息有一定的重迭。
于是,从数学上考虑,就是要求有这样一种数学方法:对原来提出的所有特征变量(设为p个)综合成尽可能少的几个(设为q 个,q<p)综合性变量,并且要求这q个综合变量既能充分反映原来的p个特征变量所反映的信息,又能使这q个综合变量之间互不相关。
例如,在服装定型的研究中,要加工一件上衣,需要测量身长、袖长、领围、袖围、胸围、腰围、肋围、肩宽、肩厚、背宽等十几项指标,显然可以看出上述这些指标之间有一定相关关系。
现在的问题是如何从这些指标中综合出较少的几个主要指标,由此根据这少数几个主要指标,使加工出来的上衣就能适合大多数人的体型,也就是说,这几个综合指标已充分把握了上衣的主要特征。
事实上,服装厂加工上衣是根据衣长、胸围、型号(肥、瘦)这三个综合指标,使加工出来的上衣能适合绝大多数人穿用。
主成分分析就是为解决类似于上述问题而引进的统计方法。
简而言之,主成分分析是研究如何将多个特征变量综合成少数几个变量的一种统计方法。
1.6因子分析法基本思想:很多变量间存在着某种相似性(彼此之间相关系数较高),本质上影响这些变量观测值结果的可能是其背后看不到的共同原因所致。
因子分析就是要从彼此相关的变量中找出这些原因。