Kano模型的数据统计分析

Kano模型的数据统计分析
Kano模型的数据统计分析

Kano模型的数据统计分析

1、用户需求分类

1.1 Kano模型

可以把基本品质、期望品质、和魅力品质理解为客户对产品的要求:功能要求---性价比/品牌效应---附加值/特殊性。

1.2 用户需求分类

将每项用户需求按照Kano模型进行分类,即分为基本品质、期望品质和惊喜品质。先进行用户意见调查,然后对调查结果进行分类和统计。

1.2.1 市场调查

对每项用户需求,调查表列出正反2个问题。例如,用户需求为“一键通紧急呼叫”,调查问题为“一键通紧急呼叫能随呼随通,您的感受如何?”以及“一键通紧急呼叫不能随呼随通,您的感受如何?”,每个问题的选项为5个,即满足、必须这样、保持中立、可以忍受和不满足。

注:√表示用户意见

1.2.2 调查结果分类

通过用户对正反2个问题的回答,分析后可以归纳出用户的意见。例如,对某项用户需求,用户对正向问题的回答为“满足”,对反向问题的回答为“不满足”,则用户认为该项需求为“期望品质”。每项用户需求共5×5—25个可能结果。

基本品质、期望品质和惊喜品质是3种需要的结果。其他3种结果分别为可疑、反向和不关心,这是不需要的,必须排除。

(1)可疑结果(用户的回答自相矛盾)。可疑结果共2个,即用户对正反问题的回答均为“满足”或“不满足”。例如,对于“一键通紧急呼叫”,正向问题

为“一键通紧急呼叫能随呼随通,您的感受如何?”,用户回答是“满足”;反向问题为“一键通紧急呼叫不能随呼随通,您的感受如何?”,用户回答还是“满足”。这表明无论一键通紧急呼叫是否能随呼随通,用户都会满足,这显然是自相矛盾的。出现可疑结果有2种可能:一是用户曲解了正反问题,二是用户填写时出现错误。统计时需要去除可疑结果。

(2)反向结果(用户回答与调查表设计者的意见相反)。正向问题表明产品具有某项用户需求,反向问题表明不具备该用户需求,正向问题比反向问题具有更高的用户满意,但用户回答却表明反向问题比正向问题具有更高的客户满意度。例如,对用户需求“一键通紧急呼叫”,正向问题为“一键通紧急呼叫能随呼随通,您的感受如何?”,用户回答为“不满足”,反向问题为“一键通紧急呼叫不能随呼随通,您的感受如何?”,用户的回答为“满足”,这显然与调查表设计者的意见相反。反向结果较多时,表明调查表的设计存在问题,需要改进。

(3)不关心(用户对调查表所提出的问题漠不关心)。例如,对用户需求“一键通紧急呼叫”,正向问题为“一键通紧急呼叫能随呼随通,您的感受如何?”,用户回答为“保持中立”,反向问题为“一键通紧急呼叫不能随呼随通,您的感受如何?”,用户回答还是“保持中立”,说明用户对“一键通紧急呼叫”

的存在与否,既不是满足,也不是不满足。统计时需要去除这类结果。

1.2.3 调查结果统计

调查用户意见后,需要通过统计分析来判断每项用户需求属于哪种品质。判定方法是:对调查结果进行统计,去除可疑、反向和不关心结果,根据基本、期望和惊喜3种品质统计结果的数量,确定用户需求属于哪种品质。例如,对用户需求“一键通紧急呼叫”,如通过统计调查结果表明,用户认为“一键通紧急呼叫”是“基本品质”的最多,那么用户需求“一键通紧急呼叫”被确定为基本品质。

2、用户需求重要度调整

2.1 调整算法

Kano模型中客户满意度与产品品质(即用户需求)之间的关系可以表达为:

S表示客户满意度,P表示产品品质,k表示Kano模型分类中的调整系数。

从Kano模型图可以看出,基本品质的增加比例小于客户满意度的增加比例,期望品质的增加比例与客户满意度的增加比例呈线性关系,惊喜品质的增加比例大于客户满意度的增加比例。因此,可以将这3种关系表示为:

①基本品质

②期望品质

③惊喜品质

为简单起见,假定与之间的关系是线性的。使用一个参数k,将上面的3个关系用一表达式来表示:

对于惊喜品质,是k>1;对于期望品质,是k=1;对于基本品质,是O

c是一个常数。设和是当前的客户满意度和产品品质,和

是客户满意度目标和产品品质目标,可以得到:

可以推导出:

*

进一步还可以推导出:

是调整了的改进系数,是最初的改进系数,k是可以选择而且是需要选择的唯一的参数。将用户需求分类(基本、期望和惊喜品质)后,就可以选择相应的k。k的取值可以由经验决定:可以将基本品质、期望品质和惊喜品质的k值取为1/2,1和2。经验法虽然简单,但受主观因素的影响较大,准确性较差。因此,需要一种较为客观的方法来确定k的取值。

2.2 k值的确定

用户需求分为基本、期望和惊喜3种品质,相应的k的取值范围为O1。这仅仅是个取值范围,除期望品质(期望品质的改进率与客户满意度的提高率相同,k恒等于1),产品的其他用户需求,即使同为基本品质,或者同为惊喜品质,k的取值也不一定相同,只是在同一取值范围内取值。

例如,BPro终端设备的用户需求“使人难以忘怀”和“个性化特征”同为惊

喜品质,但取值却未必相同,对“使人难以忘怀”来说,可能k=1.6,而“个性化特征”可能k=2.3。因此,需要对产品各种用户需求(已分成基本、期望和惊喜3种类型)的k值进行确定。

由*式可得:

所以,要得到k值,必须先得到当前客户满意度、改进客户满意度、

当前品质和改进品质P。因此,需要对,,和

进行确定。

2.2.2 客户满意度调查

对某项用户需求来说,客户满意度的高低很难用具体的数量来表达。为此,将客户满意度分为0~1O共11个等级,对其进行度量,需要建立客户满意度调查表(以一键通紧急呼叫功能为例)。

客户满意度调查表

当前满意度改进后满意度

统计所有单个客户满意度,可以获得该用户需求的对和:

2.2.3 产品品质调查

将产品品质也分为0~10共11个等级,对其进行度量。在Kano模型中,产品品质为产品的真实品质,即我们提供给用户的产品品质,而不是用户对产品的感知品质。一般情况下,感知品质小于真实品质。所以,对产品的真实品质进行调查,调查对象不能是产品的用户,只能是与产品相关的专业人员,只有他们才了解产品的真实品质,从而建立针对专业人员的产品品质调查表。

产品品质调查表

当前品质改进品质统计所有单个专业人员对产品质量的评价,可以获得和:

最后得出:

可能通过计算得出结论为,对一键通的用户需求“使人难以忘怀”(惊喜品质),k=2.0;对“使用时间长”(基本品质),k=0.5。

2.3 调整过程

在用户需求分类和重要度调整算法的基础上,给出市场调查与客户满意度调研的实施过程中的调整过程:

步骤1确定原始用户需求重要度。根据用户调查,确定产品原始的用户需求重要度。

步骤2用户需求分类。统计用户需求,将用户需求分成基本、期望和惊喜3种类型。

步骤3竞争力分析。将BPro与竞争对手产品(欧姆龙电子血压计HEM系列)的市场竞争力进行对比分析,找出各自的优缺点。同时,为了提高本公司产品

的竞争力,需要确定BPro产品系列的未来发展目标,即竞争力指标(分为

1~5等5个等级)。

步骤4确定改进系数。将未来目标与现在的竞争力水平进行对比,确定产品的各项用户需求的改进系数。

步骤5调整改进系数。根据每项用户需求的调整系数k,将改进系数和调整系数k代入计算,得到调整后的改进系数。

步骤6计算最终用户需求重要度。调整后的改进系数和原始重要度相乘,得到最终的用户需求重要度。

3、实际应用形式

通过用户需求分类,以及原始重要度、竞争力分析数据等得到用户需求分类表:

用户需求分类表

M 表示基本品质,O表示期望品质,A表示惊喜品质。

在竞争力分析的基础上,确定BPro终端的竞争力目标,计算出改进系数,得到改进后的用户需求重要度及其百分比:

用户需求重要性调整

根据Kano模型分类,将基本、期望和惊喜3种品质量的k值和改进系数代入相应公式,得到调整后的改进系数,从而得到最终的用户需求重要度及其百分比。

统计分析报告范文

统计分析报告范文 一、党员基本情况 截止到xx年12月31日,我院共有党员总数1229名。其中,正式党员882名,预备党员347名;女性党员517名,占党员总数的42%;少数民族党员49名,占党员总数的4%。 从党员的身份来看,教职工党员391名(其中,教师党员192名,35岁以下青年教师党员123名);学生党员663名(其中,研究生党员63名,本科生党员578名,专科生党员22名);离退休党员140名;其他35名(已毕业学生党员组织关系未转走等)。学生党员在全体党员中所占比例最大,达到了53.9%,见附图1。 二、xx年发展党员情况 xx年我院共发展党员365名,其中发展教职工党员9名、研究生党员11名、本科生党员320名、大专生党员25名。 在发展党员工作中,突出了两个重点,一是继续做好在大学生中发展党员工作,发展本科生党员人数占发展党员总数的87.6%;研究生党员人数为63人,占研究生总数的52.9%。二是积极做好在35岁以下青年教师中发展党员工作,xx年我院共发展35岁以下青年教师党员6名,占发展教职工党员总数的66.7。 三、党员教育管理 我院党委历来十分重视党员教育管理工作。去年,以保持共产党

员先进教育为契机,我院举办校、院两级专题报告23场,党支部集中学习108次,组织各种参观和实践活动23次,各级开展学习体会交流64次,各级开展先进性具体要求大讨论活动52次。在认真征求意见和深入谈心的基础上,全体党员认真撰写了个人党性分析材料,召开了专题组织生活会和民主生活会,回顾了自己近来的思想作风和工作经历,查找了自身存在的突出问题,认真开展批评与自我批评。先进性教育活动使得我院党员的精神面貌焕发了,党员队伍的整体素质有了较为明显的提升。 四、近三年党员队伍状况分析 通过对近三年统计数据的比较分析,可以看出我院党员队伍建设方面有如下几个特点: 1、学生党员数量合理,保持较高比例。 三年来,我院学生党员占全院党员总数的比例均在55%左右,本科生党员比例保持在10%左右,见附图2。 学生党员保持较高比例主要是由于我院党委高度重视发展党员工作。党委认真贯彻《中共中央组织部关于进一步做好新形势下发展党员工作的意见》精神,定期召开专题会议研究和部署,从党建经费中拨出专款用于积极分子培养、培训和党员教育工作。党委组织部和党校制定了《关于进一步加强学生党员工作的几点意见》等一系列有关发展党员的工作制度,组织编写了《发展党员工作制度选编》,提出了新形势下发展党员的新思路。党校进一步规范培训模式,实行两级党校管理体制,推动并开展了新生入党启蒙教育、分党校初级班、院党

7种量化选股模型

7种量化选股模型 1、【多因子模型】 2、【风格轮动模型】 3、【行业轮动模型】 4、【资金流模型】 5、【动量反转模型】 6、【一致预期模型】 7、【趋势追踪模型】 1、【多因子模型】 多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列的因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。 基本概念 举一个简单的例子:如果有一批人参加马拉松,想要知道哪些人会跑到平均成绩之上,那只需在跑前做一个身体测试即可。那些健康指标靠前的运动员,获得超越平均成绩的可能性较大。多因子模型的原理与此类似,我们只要找到那些对企业的收益率最相关的因子即可。 各种多因子模型核心的区别第一是在因子的选取上,第二是在如何用多因子综合得到一个最终的判断。 一般而言,多因子选股模型有两种判断方法,一是打分法,二是回归法。 打分法就是根据各个因子的大小对股票进行打分,然后按照一定的权重加权得到一个总分,根据总分再对股票进行筛选。 回归法就是用过去的股票的收益率对多因子进行回归,得到一个回归方程,然后再把最新的因子值代入回归方程得到一个对未来股票收益的预判,然后再以此为依据进行选股。 多因子选股模型的建立过程主要分为候选因子的选取、选股因子有效性的检验、有效但冗余因子的剔除、综合评分模型的建立和模型的评价及持续改进等5个步骤。

候选因子的选取 候选因子的选择主要依赖于经济逻辑和市场经验,但选择更多和更有效的因子无疑是增强模型信息捕获能力,提高收益的关键因素之一。 例如:在2011年1月1日,选取流通市值最大的50支股票,构建投资组合,持有到2011年底,则该组合可以获得10%的超额收益率。这就说明了在2011年这段时间,流通市值与最终的收益率之间存在正相关关系。 从这个例子可以看出这个最简单的多因子模型说明了某个因子与未来一段时间收益率之间的关系。同样的,可以选择其他的因子,例如可能是一些基本面指标,如 PB、PE、EPS 增长率等,也可能是一些技术面指标,如动量、换手率、波动等,或者是其它指标,如预期收益增长、分析师一致预期变化、宏观经济变量等。同样的持有时间段,也是一个重要的参数指标,到底是持有一个月,还是两个月,或者一年,对最终的收益率影响很大。 选股因子有效性的检验 一般检验方法主要采用排序的方法检验候选因子的选股有效性。例如:可以每月检验, 具体而言,对于任意一个候选因子,在模型形成期的第一个月初开始计算市场中每只正常交易股票的该因子的大小,按从小到大的顺序对样本股票进行排序,并平均分为n个组合,一直持有到月末,在下月初再按同样的方法重新构建n 个组合并持有到月末,每月如此,一直重复到模型形成期末。 上面的例子就已经说明了这种检验的方法,同样的可以隔N个月检验,比如2 个月,3个月,甚至更长时间。还有一个参数是候选组合的数量,是50支,还是100支,都是非常重要的参数。具体的参数最优的选择,需要用历史数据进行检验。 有效但冗余因子的剔除 不同的选股因子可能由于内在的驱动因素大致相同等原因,所选出的组合在个股构成和收益等方面具有较高的一致性,因此其中的一些因子需要作为冗余因子剔除,而只保留同类因子中收益最好,区分度最高的一个因子。例如成交量指标和流通量指标之间具有比较明显的相关性。流通盘越大的,成交量一般也会比较大,因此在选股模型中,这两个因子只选择其中一个。 冗余因子剔除的方法:假设需要选出k 个有效因子,样本期共m 月,那么具体的冗余因子剔除步骤为: (1)先对不同因子下的n个组合进行打分,分值与该组合在整个模型形成期的收益相关,收益越大,分值越高 (2)按月计算个股的不同因子得分间的相关性矩阵; (3)在计算完每月因子得分相关性矩阵后,计算整个样本期内相关性矩阵的平均值 (4)设定一个得分相关性阀值 MinScoreCorr,将得分相关性平均值矩阵中大于该阀值的元素所对应的因子只保留与其他因子相关性较小、有效性更强的因子,而其它因子则作为冗余因子剔除。

统计分析报告概述及范文

统计分析报告概述及范文 什么是统计分析报告 统计分析报告(Statistical Analysis Report)。统计分析报告,就是指运用统计资料和统计分析方法,以独特的表达方法和结构特点,表现所研究事物本质和规律性的一种应用文章。统计分析报告是统计分析研究过程中所形成的论点、论据、结论的集中表现;它不同于一般的总结报告、议论文、叙述文和说明文;更不同于小说、诗歌和散文;它乃是运用统计资料和统计方法、数字与文字相结合,对客观事物进行分析研究结果的表现。统计分析结果可以通过表格式、图形式和文章式等多种形式表现出来。文章式的主要形式是统计分析报告。它是全部表现形式中最完善的形式。这种形式可以综合而灵活地运用表格、图形等形式;可以表现出表格式、图形式难以充分表现的活情况;可以使分析结果鲜明、生动、具体;可以进行深刻的定性分析。 统计分析报告有哪些类型 由于统计分析报告的内容和作用不同,统计分析报告的类型主要有下列几种: 1、统计公报 统计公报,是政府统计机构通过报刊向社会公众公布一个年度国民经济和社会发展情况的统计分析报告。一般是由国家、省一级以及计划单列的省辖市一级的统计局发布的。如《国家统计局关于1999年国民经济和社会发展统计公报》。 2、进度统计分析报告 进度统计分析报告主要以定期报表为依据,反映社会经济的发展情况,分析其影响和形成的原因。如月度分析、季度分析和年度分析。从时间上看,它可分为定期和不定期的、期中的和期末的统计分析报告;从内容上看,它又可分为专题和综合统计分析报告两种。 进度统计分析报告必须讲究时效,力求内容短小精悍,结构简单规范,看后一目了然。 3、综合统计分析报告

数据分析软件和工具

以下是我在近三年做各类计量和统计分析过程中感受最深的东西,或能对大家有所帮助。当然,它不是ABC的教程,也不是细致的数据分析方法介绍,它只是“总结”和“体会”。由于我所学所做均甚杂,我也不是学统计、数学出身的,故本文没有主线,只有碎片,且文中内容仅为个人观点,许多论断没有数学证明,望统计、计量大牛轻拍。 于我个人而言,所用的数据分析软件包括EXCEL、SPSS、STATA、EVIEWS。在分析前期可以使用EXCEL进行数据清洗、数据结构调整、复杂的新变量计算(包括逻辑计算);在后期呈现美观的图表时,它的制图制表功能更是无可取代的利器;但需要说明的是,EXCEL毕竟只是办公软件,它的作用大多局限在对数据本身进行的操作,而非复杂的统计和计量分析,而且,当样本量达到“万”以上级别时,EXCEL的运行速度有时会让人抓狂。 SPSS是擅长于处理截面数据的傻瓜统计软件。首先,它是专业的统计软件,对“万”甚至“十万”样本量级别的数据集都能应付自如;其次,它是统计软件而非专业的计量软件,因此它的强项在于数据清洗、描述统计、假设检验(T、F、卡方、方差齐性、正态性、信效度等检验)、多元统计分析(因子、聚类、判别、偏相关等)和一些常用的计量分析(初、中级计量教科书里提到的计量分析基本都能实现),对于复杂的、前沿的计量分析无能为力;第三,SPSS主要用于分析截面数据,在时序和面板数据处理方面功能了了;最后,SPSS兼容菜单化和编程化操作,是名副其实的傻瓜软件。 STATA与EVIEWS都是我偏好的计量软件。前者完全编程化操作,后者兼容菜单化和编程化操作;虽然两款软件都能做简单的描述统计,但是较之 SPSS差了许多;STATA与EVIEWS都是计量软件,高级的计量分析能够在这两个软件里得到实现;STATA的扩展性较好,我们可以上网找自己需要的命令文件(.ado文件),不断扩展其应用,但EVIEWS 就只能等着软件升级了;另外,对于时序数据的处理,EVIEWS较强。 综上,各款软件有自己的强项和弱项,用什么软件取决于数据本身的属性及分析方法。EXCEL适用于处理小样本数据,SPSS、 STATA、EVIEWS可以处理较大的样本;EXCEL、SPSS适合做数据清洗、新变量计算等分析前准备性工作,而STATA、EVIEWS在这方面较差;制图制表用EXCEL;对截面数据进行统计分析用SPSS,简单的计量分析SPSS、STATA、EVIEWS可以实现,高级的计量分析用 STATA、EVIEWS,时序分析用EVIEWS。 关于因果性 做统计或计量,我认为最难也最头疼的就是进行因果性判断。假如你有A、B两个变量的数据,你怎么知道哪个变量是因(自变量),哪个变量是果(因变量)? 早期,人们通过观察原因和结果之间的表面联系进行因果推论,比如恒常会合、时间顺序。但是,人们渐渐认识到多次的共同出现和共同缺失可能是因果关系,也可能是由共同的原因或其他因素造成的。从归纳法的角度来说,如果在有A的情形下出现B,没有A的情形下就没有B,那么A很可能是B的原因,但也可能是其他未能预料到的因素在起作用,所以,在进行因果判断时应对大量的事例进行比较,以便提高判断的可靠性。 有两种解决因果问题的方案:统计的解决方案和科学的解决方案。统计的解决方案主要指运用统计和计量回归的方法对微观数据进行分析,比较受干预样本与未接受干预样本在效果指标(因变量)上的差异。需要强调的是,利用截面数据进行统计分析,不论是进行均值比较、频数分析,还是方差分析、相关分析,其结果只是干预与影响效果之间因果关系成立的必要条件而非充分条件。类似的,利用截面数据进行计量回归,所能得到的最多也只是变量间的数量关系;计量模型中哪个变量为因变量哪个变量为自变量,完全出于分析者根据其他考虑进行的预设,与计量分析结果没有关系。总之,回归并不意味着因果关系的成立,因果关系的判定或推断必须依据经过实践检验的相关理论。虽然利用截面数据进行因果判断显得勉强,但如果研究者掌握了时间序列数据,因果判断仍有可为,其

多层线性模型的解读:原理与应用

多层线性模型的解读:原理与应用 浙江师范大学心理研究所陈海德 Chenhaide351@https://www.360docs.net/doc/b118416919.html, 一、多层数据结构的普遍性 多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。 传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。 另一种类型的两层嵌套数据来自纵向研究数据,不同时间观测数据形成了数据结构的第一层,而被试之间的个体差异形成了第二层。可以探索个体在发展趋势上的差异。 二、传统技术处理多层数据结构的局限 如果把变量分解到个体水平,在个体水平上分析。但是我们知道这些学生是来自同一班级的,不符合观察独立原则。导致个体间随机误差相互独立的假设不能满足。 如果把个体变量集中到较高水平,在较高水平上进行分析。这样丢弃了组内信息,而组内变异可能占了大部分。 三、原理 ☆水平1(学生)的模型与传统的回归模型类似,所不同的是回归方程的截距和斜率不再是一个常数,而是水平2变量水平不同(不同的班级),其回归方程的截距和斜率也不同的,是一个随机变量。如,每个班级的回归方程的截距和斜率都直接依赖于班级教师教学方法。 ☆多层线性模型分为“随机截距模型”和“随机截距和随机斜率模型”。“随机截距模型”假定因变量的截距随着群体的不同而不同,但各群体的回归斜率是固定,因此不同层次因素之间缺乏互动。“随机截距和随机斜率模型”假定截距和回归斜率都因群体而异,允许不同层次因素之间的互动。 参数估计方法有:迭代广义最小二乘法、限制性的广义最小二乘估计、马尔科夫链蒙特卡罗法。这些方法代替了传统的最小二乘法估计,更为稳定和精确。比如,当第二层的某单位只有少量的被试,或不同组样本量不同时,多层线性模型进行了加权估计、迭代计算。 四、应用 1 用于类似组织管理、学校教育等具有多层数据结构的领域研究。 2 用于个体重复测量数据的追踪研究。测量层面作为第一水平,个体层面作为第二水平 3 用于做文献综述,即对众多研究成果进行定量综合。探讨不同研究中进行的处理、研究方法、被试特征和背景上的差异与效应之间的关系。 4 充分利用多层模型较为高级的统计估计方法来改善单层回归的估计和分析。 五、优势 1 由于多层线性模型建立在更合理的假设之上,考虑到了来自不同层次的随机误差和变量信息,因此能提供更加准确的标准误估计、更有效的区间估计和假设检验。 2 多层线性模型可以计算任何水平上测量的协方差,如可以通过计算不同水平变异在总变异中占的比率来确定不同水平对因变量的影响程度,例如研究者可以探讨班级和学生的其他特征对因变量变异的作用到底有多大。还可以分析不同水平上变量之间的交互作用。 3 可以发现所得回归方程中,截距和斜率之间的相关关系,以便更好地解释自变量和因变量之间变化的规律。

7种量化选股模型

【多因子模型】 多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列的因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。 基本概念 举一个简单的例子:如果有一批人参加马拉松,想要知道哪些人会跑到平均成绩之上,那只需在跑前做一个身体测试即可。那些健康指标靠前的运动员,获得超越平均成绩的可能性较大。多因子模型的原理与此类似,我们只要找到那些对企业的收益率最相关的因子即可。各种多因子模型核心的区别第一是在因子的选取上,第二是在如何用多因子综合得到一个最终的判断。 一般而言,多因子选股模型有两种判断方法,一是打分法,二是回归法。 打分法就是根据各个因子的大小对股票进行打分,然后按照一定的权重加权得到一个总分,根据总分再对股票进行筛选。回归法就是用过去的股票的收益率对多因子进行回归,得到一个回归方程,然后再把最新的因子值代入回归方程得到一个对未来股票收益的预判,然后再以此为依据进行选股。 多因子选股模型的建立过程主要分为候选因子的选取、选股因子有效性的检验、有效但冗余因子的剔除、综合评分模型的建立和模型的评价及持续改进等5个步骤。 候选因子的选取 候选因子的选择主要依赖于经济逻辑和市场经验,但选择更多和更有效的因子无疑是增强模型信息捕获能力,提高收益的关键因素之一。 例如:在2011年1月1日,选取流通市值最大的50支股票,构建投资组合,持有到2011年底,则该组合可以获得10%的超额收益率。这就说明了在2011年这段时间,流通市值与最终的收益率之间存在正相关关系。 从这个例子可以看出这个最简单的多因子模型说明了某个因子与未来一段时间收益率之间的关系。同样的,可以选择其他的因子,例如可能是一些基本面指标,如 PB、PE、EPS 增长率等,也可能是一些技术面指标,如动量、换手率、波动等,或者是其它指标,如预期收益增长、分析师一致预期变化、宏观经济变量等。 同样的持有时间段,也是一个重要的参数指标,到底是持有一个月,还是两个月,或者一年,对最终的收益率影响很大。 选股因子有效性的检验 一般检验方法主要采用排序的方法检验候选因子的选股有效性。例如:可以每月检验,具体而言,对于任意一个候选因子,在模型形成期的第一个月初开始计算市场中每只正常交易股票的该因子的大小,按从小到大的顺序对样本股票进行排序,并平均分为n个组合,一直持有到月末,在下月初再按同样的方法重新构建n个组合并持有到月末,每月如此,一直重复到模型形成期末。 上面的例子就已经说明了这种检验的方法,同样的可以隔N个月检验,比如2个月,3个月,甚至更长时间。还有一个参数是候选组合的数量,是50支,还是100支,都是非常重要的参数。具体的参数最优的选择,需要用历史数据进行检验。 有效但冗余因子的剔除 不同的选股因子可能由于内在的驱动因素大致相同等原因,所选出的组合在个股构成和收益等方面具有较高的一致性,因此其中的一些因子需要作为冗余因子剔除,而只保留同类因子中收益最好,区分度最高的一个因子。例如成交量指标和流通量指标之间具有比较明显的相关性。流通盘越大的,成交量一般也会比较大,因此在选股模型中,这两个因子只选择其中一个。 冗余因子剔除的方法:假设需要选出k 个有效因子,样本期共m 月,那么具体的冗余

Kano模型的数据统计分析

Kano模型的数据统计分析 1、用户需求分类 1.1 Kano模型 可以把基本品质、期望品质、和魅力品质理解为客户对产品的要求:功能要求---性价比/品牌效应---附加值/特殊性。 1.2 用户需求分类 将每项用户需求按照Kano模型进行分类,即分为基本品质、期望品质和惊喜品质。先进行用户意见调查,然后对调查结果进行分类和统计。 1.2.1 市场调查 对每项用户需求,调查表列出正反2个问题。例如,用户需求为“一键通紧

急呼叫”,调查问题为“一键通紧急呼叫能随呼随通,您的感受如何?”以及“一键通紧急呼叫不能随呼随通,您的感受如何?”,每个问题的选项为5个,即满足、必须这样、保持中立、可以忍受和不满足。 注:√表示用户意见 1. 2.2 调查结果分类 通过用户对正反2个问题的回答,分析后可以归纳出用户的意见。例如,对某项用户需求,用户对正向问题的回答为“满足”,对反向问题的回答为“不满足”,则用户认为该项需求为“期望品质”。每项用户需求共5×5—25个可能结果。

基本品质、期望品质和惊喜品质是3种需要的结果。其他3种结果分别为可疑、反向和不关心,这是不需要的,必须排除。 (1)可疑结果(用户的回答自相矛盾)。可疑结果共2个,即用户对正反问题的回答均为“满足”或“不满足”。例如,对于“一键通紧急呼叫”,正向问题为“一键通紧急呼叫能随呼随通,您的感受如何?”,用户回答是“满足”;反向问题为“一键通紧急呼叫不能随呼随通,您的感受如何?”,用户回答还是“满足”。这表明无论一键通紧急呼叫是否能随呼随通,用户都会满足,这显然是自相矛盾的。出现可疑结果有2种可能:一是用户曲解了正反问题,二是用户填写时出现错误。统计时需要去除可疑结果。 (2)反向结果(用户回答与调查表设计者的意见相反)。正向问题表明产品具有某项用户需求,反向问题表明不具备该用户需求,正向问题比反向问题具有更高的用户满意,但用户回答却表明反向问题比正向问题具有更高的客户满意度。例如,对用户需求“一键通紧急呼叫”,正向问题为“一键通紧急呼叫能随呼随通,您的感受如何?”,用户回答为“不满足”,反向问题为“一键通紧急呼叫不能随呼随通,您的感受如何?”,用户的回答为“满足”,这显然与调查表设计者的意见相反。反向结果较多时,表明调查表的设计存在问题,需要改进。

统计分析报告模板

2012-2013-1《统计学》课程设计 统计分析报告 题目:关于**********的调查分析 小组成员:财务1040*班 39号三 财务1040*班 40号四 联系方式: 189******** 指导教师:纯荣

目录 第一部分调查方案设计 一、调查方案 (1) 二、调查问卷…………………………………………………………三、 ……………… 第二部分分析报告 一、…… 二、…… ……………………

第一部分调查方案设计 一、调查方案 (一)调查目的 示例,通过调研……,为…………提供参考。 (二)调查对象 示例,大学光华学院商学院学生…… (三)调查程序 1.…………设计调查问卷,明确调查方向和容; 2.分发调查问卷。随机抽取在校大二学生男、女各25人作为调查单位; 3.根据回收有效问卷进行分析,具体容如下: (1)根据样本的生活费来源、分布状况的均值、方差等分布的数字特征,推断人大学生总体分布的相应参数; (2)绘制统计图形使样本数据直观化并对统计量进行分析 二、问卷设计 关于* * * * * * * * *情况的调查问卷 亲爱的同学,您好! ……………………………………………… 1.性别:A 男B 女() 2.你的消费方式为() A.能省则省 B.事先做好消费计划 C.毫不在乎,想花就花 D.其他 3.你平均一个月的生活费大约为__________元 4.您的生活费的来源主要是( ) (多选题) A.…… B.…… C.…… D.…… E.…… F.…… ………… ………… 您的支持与参与 三、问卷发放 本次调查我们采取**抽样,对*******发放问卷****份; 共发放问卷***份,回收问卷***份,其中有效问卷共***份。 …………

关于课程关系量化分析的数学模型

承诺书 我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话):05 所属学校(请填写完整的全名):延安大学 参赛队员(打印并签名) :1. 彭瑞 2. 呼建雪 3. 朱培育 指导教师或指导教师组负责人(打印并签名): 日期: 2012 年 8 月 27 日赛区评阅编号(由赛区组委会评阅前进行编号):

编号专用页 赛区评阅编号(由赛区组委会评阅前进行编号): 赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注 全国统一编号(由赛区组委会送交全国前编号): 全国评阅编号(由全国组委会评阅前进行编号):

关于课程关系量化分析的数学模型 摘要 本文探讨研究了关于某高校两个专业四门课程分数、学生学习水平的差异显著性以及课程间相互影响的情况。 首先我们对两个专业的各科成绩分别统计了平均值、标准差、及格率以及优秀率这些统计量值,又根据这些数据作出了特性指标矩阵;然后采用模糊聚类分析中的最优划分法得到了聚类分类结果,得到结论为:两专业的高级程序设计语言分数差异性显著,其他三门科目均没有显著差异。 接着我们根据课程间的联系,采用层次分析法得到各个科目在总成绩中所占的权重,即得到关于衡量学生学习水平的总成绩模型: 4j 3j 2j 1j 0.2323x 0.3619x 0.6090x 0.6664x +++=y 然后利用单因素方差分析法得到专业对学生学习水平影响的显著性05.0132.0>,即两个专业学生的学习水平无明显差异。 对于问题(3),我们直接利用SPSS 软件中的回归分析法得到高级程序语言设计、离散数学两门课程学习的优劣会影响到数据结构和数据库原理的学习。 最后,综合以上分析得到对于专业主干课的学习,我们应该认真学好专业基础课,以便为后续课程的学习打好基础。 关键词: 模糊聚类分析 层次分析 单因素方差分析 回归分析

数学建模-数据的统计分析

数学建模与数学实验 课程设计 学院数理学院专业数学与应用数学班级学号 学生姓名指导教师 2015年6月

数据的统计分析 摘要 问题:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 计算均值、标准差、极差、偏度、峰度,画出直方图;检验分布的正态性; 若检验符合正态分布,估计正态分布的参数并检验参数; 模型:正态分布。 方法:运用数据统计知识结合MATLAB软件 结果:符合正态分布

问题重述 某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、偏差、峰度,画出直方图; (2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数。 模型假设 假设一:此组成绩没受外来因素影响。 假设二:每个学生都是独自完成考试的。 假设三:每个学生的先天条件相同。 三.分析与建立模型 像类似数据的信息量比较大,可以用MATLAB 软件决绝相关问题,将n 名学生分为x 组,每组各n\x 个学生,分别将其命为1x ,2X ……j x 由MATLAB 对随机统计量x 进行命令。此时对于直方图的命令应为 Hist(x,j) 源程序为: x1=[93 75 83 93 91 85 84 82 77 76 ] x2=[77 95 94 89 91 88 86 83 96 81 ] x3=[79 97 78 75 67 69 68 84 83 81 ]

统计分析报告

课程论文 课程名称 题目锦山陶瓷厂可持续发展之路 系部 专业 临班班级 学号 学生姓名 任课教师 职称副教授 2010 年 1 月 12 日 锦山陶瓷厂可持续发展之路

内容摘要:本篇统计分析报告是应锦山陶瓷厂要求对该厂的销售状况进行分析,寻找企业发展的新引擎以及可持续,快速发展的道路。为此,我们对该厂产品及销售情况进行了认真了解。并应用销售率和利润率这两个强度相对指标,以及结构相对指标、动态相对指标。并采用逐层分析的方法对企业进行分析。最终发现产品中含一定科技和工艺的新产品是企业效益增长的新引擎。并提出了提高销售的几种措施。 关键词:高新产品销售利润新引擎 锦山陶瓷厂是一家以生产各种陶瓷产品的大型陶瓷制造厂。该厂07年销售额达到2903.5万;08年销售额突破3000万,达到3009.7万;09年更是达到3479.67万。总体来说,取得了较好的经济效益。但为了进一步提升企业效益,寻找企业新的增长点和可持续,快速的发展道路,我们接受该厂领导要求,对该厂销售等方面进行统计分析。并提供了如下的分析报告。 一、产品销售状况分析 (一)新产品成为拉动企业效益增长的新引擎。 首先我们来看下该厂三年来销售情况对比和09年产品销售的利润表。 从表一中我们看到:2008年的销售额相对2007年的增长了106.2万,

其中来自新产品耐火材料的销售额为112.2万,而传统产品日用陶瓷的销售额反而是下降了6万。再看2009年的销售额相对08年的增长达到了470万,年增长率为15.6%【470/3479.67】。其中耐火材料增长约308.6万,相对其去年增长率达到了275%【308.6/112.2】;此年新推出的产品电气陶瓷的销售额为20.7万。增长潜力很大,两者新增销售额占到了今年相对去年销售额增长的70%【(90.46-23.56+20.73)/(396.02-240.87)】。由此可见新产品的潜力。在企业传统陶瓷产品销售难以提升的情况下,针对市场推出的两种新产品产品成为拉动销售额增长的新动力。 表2 产品销售利润表 注:利润率=销售利润/销售额 由表2我们得到下面两张扇形图。

多层线性模型的解读:原理与应用

多层线性模型的解读:原理与应用 多层线性模型的解读:原理与应用浙江师范大学心理研究所陈海德Chenhaide351@ 一、多层数据结构的普遍性多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。学生数据层中,不同变量之间的关系可能因班级的不同而不同。因此,学生层的差异可以解释为班级层的变量。另一种类型的两层嵌套数据来自纵向研究数据,不同时间观测数据形成了数据结构的第一层,而被试之间的个体差异形成

了第二层。可以探索个体在发展趋势上的差异。二、传统技术处理多层数据结构的局限如果把变量分解到个体水平,在个体水平上分析。但是我们知道这些学生是来自同一班级的,不符合观察独立原则。导致个体间随机误差相互独立的假设不能满足。如果把个体变量集中到较高水平,在较高水平上进行分析。这样丢弃了组内信息,而组内变异可能占了大部分。三、原理☆水平1的模型与传统的回归模型类似,所不同的是回归方程的截距和斜率不再是一个常数,而是水平2变量水平不同,其回归方程的截距和斜率也不同的,是一个随机变量。如,每个班级的回归方程的截距和斜率都直接依赖于班级教师教学方法。☆多层线性模型分为“随机截距模型”和“随机截距和随机斜率模型”。“随机截距模型”假定因变量的截距随着群体的不同而不同,但各群体的回归斜率是固定,因此不同层次因素之间缺乏互动。“随机截距和随机斜率模

Excel的统计分析功能

Excel的统计分析功能 Excel是办公自动化中非常重要的一款软件,很多巨型国际企业和国内行政、企事业单位都用Excel 进行数据管理。它不仅能够方便地进行图形分析和表格处理,其更强大的功能还体现在数据的统计分析研究方面。然而很多缺少数理统计基础知识而对Excel强大统计分析功能不够了解的人却难以更加深入、更高层次地运用Excel。笔者认为,对Excel统计分析功能的不了解正是阻挡普通用户完全掌握Excel的拦路虎,但目前这方面的教学文章却又很少见。下面笔者对Excel的统计分析功能进行简单的介绍,希望能够对Excel进阶者有所帮助。 Microsoft Excel提供了一组数据分析工具,称为“分析工具库”,在建立复杂统计或工程分析时,只需为每一个分析工具提供必要的数据和参数,该工具就会使用适宜的统计或工程函数,在输出表格中显示相应的结果。其中有些工具在生成输出表格时还能同时生成图表。 在使用Excel的“分析工具库”时,如果“工具”菜单中没有“数据分析”命令,则需要安装“分析工具库”。步骤如下:在“工具”菜单中,单击“加载宏”命令,选中“分析工具库”复选框完成安装。如果“加载宏”对话框中没有“分析工具库”,请单击“浏览”按钮,定位到“分析工具库”加载宏文件“Analys32.xll”所在的驱动器和文件夹(通常位于“Microsoft Office\Office\Library\Analysis”文件夹中)(Microsoft OfficeXP:插入光盘,即可) ;如果没有找到该文件,应运行“安装”程序。 安装完“分析工具库”后,要查看可用的分析工具,请单击“工具”菜单中的“数据分析”命令,Excel提供了以下15种分析工具。 1、方差分析(anova) 本工具提供了三种工具,可用来分析方差。具体使用哪一工具则根据因素的个数以及待检验样本总体中所含样本的个数而定。 (1)“Anova:单因素方差分析”分析工具 此分析工具通过简单的方差分析(anova),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。 (2)“Anova:可重复双因素分析”分析工具 此分析工具是对单因素anova分析的扩展,即每一组数据包含不止一个样本。 (3)“Anova:无重复双因素分析”分析工具 此分析工具通过双因素anova分析(但每组数据只包含一个样本),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。 2、相关系数分析工具 此分析工具及其公式可用于判断两组数据集(可以使用不同的度量单位)之间的关系。总体相关性计算的返回值为两组数据集的协方差除以它们标准偏差的乘积: 可以使用“相关系数”分析工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个集合的较大数据相对应(正相关);或者一个集合的较小数据是否与另一个集合的较小数据相对应(负相关);还是两个集合中的数据互不相关(相关性为零)。 3、协方差分析工具 此分析工具及其公式用于返回各数据点的一对均值偏差之间的乘积的平均值。协方差是测量两组数据相关性的量度。(公式略) 可以使用协方差工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个

16种统计分析方法-统计分析方法有多少种

16种常用的数据分析方法汇总 2015-11-10分类:数据分析评论(0) 经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。 一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:易9除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前 需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W 检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A单样本t检验:推断该样本来自的总体均数卩与已知的某一总体均数卩0常为理论值或标准值)有无差别; B配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10 以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel 分层分析。 列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关; 3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。 六、方差分析 使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。 分类1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时, 只分析一个因素与响应变量的关系2、多因素有交互方差分析:一顼实验有多个影响

分析总结报告格式

分析总结报告格式 分析汇报一般格式 本汇报中所采集的数据均为统计期间(1个季度/年度内)的有效求职人数和需求人数。 一、供求总体情况 表1供求总体人数 上期结转本期新增合计需求人数求职人数求人倍率 注:上期结转:上期登记但仍在有效期内的供求数据 本期新增:本季度新登记的供求数据 合计=上期结转+本期新增 求人倍率=需求人数/求职人数 二、各产业劳动力需求情况 表2按产业分组的需求人数 产业需求人数所占比重第一产业第二产业第三产业合计 三、行业需求情况

表3按行业分组的需求人数 行业需求人数所占比重农、林、牧、渔业采掘业制造业电力、煤气及水的生产和供应业建筑业地质勘查业、水利管理业交通运输、仓储及邮电通信业批发和零售贸易、餐饮业金融业、保险业房地产业社会服务业卫生、体育和社会福利业教育、文化艺术和广播电影电视业科学研究和综合技术服务业国家机关、政党机关和社会团体其他行业合计 注:“农、林、牧、渔业”数等于表2“第一产业”数。 “采掘业”、“制造业”、“电力、煤气及水的生产和供应业”、“建筑业”合计受数等于表2中“第二产业”数。 其他各栏除“其他行业”外合计等于表2中“第三产业”数。 为保持表2和表3间数据平衡,“其他行业”如出现数据,各按照表中各栏(除其他行业外)的实际需求人数所占权数分配到各栏,按上述对等原则再归纳计算产业合计数。 ·英文汇报格式·会议汇报格式·读书汇报格式·工作汇报的格式 四、用人单位需求情况 表4按用人单位性质分组的需求人数

单位性质需求人数所占比重企业其中:(按企业登记注册类型分)国有企业集体企业私营企业联营企业股份有限公司外商投资企业港、澳、台投资企业其他企业事业机关其他合计 五、各类职业供求情况 表5按职业分组的供求人数 职业类别劳动力供求人数比较需求人数所占比重求职人数所占比重求人倍率单位负责人专业技术人员办事人员和 有关人员 商业和 服务业人员 农林牧渔 水利生产人员 生产运输 设备操作工 其他无要求合计 注:关于出现“无要求”时求人倍率的计算,表中求职“无要求”一栏如出现数据,可按照表中前七栏的实际需求人数分配到各栏(小数点四舍五入),再以需求人数/[求职人数(实际)+加权计入数],得出求人倍率。但表中不需体现加权分配后的人数,仍只填写实际求职

数据统计模型

数据统计模型 多变量统计分析主要用于数据分类和综合评价。综合评价是区划和规划的基础。从人类认识的角度来看有精确的和模糊的两种类型,因为绝大多数地理现象难以用精确的定量关系划分和表示,因此模糊的模型更为实用,结果也往往更接近实际,模糊评价一般经过四个过程: (1)评价因子的选择与简化; (2)多因子重要性指标(权重)的确定; (3)因子内各类别对评价目标的隶属度确定; (4)选用某种方法进行多因子综合。 1.主成分分析 地理问题往往涉及大量相互关联的自然和社会要素,众多的要素常常给模型的构造带来很大困难,为使用户易于理解和解决现有存储容量不足的问题,有必要减少某些数据而保留最必要的信息。 主成分分析 是通过数理统计分析,求得各要素间线性关系的实质上有意义的表达式,将众多要素的信息压缩表达为若干具有代表性的合成变量,这就克服了变量选择时的冗余和相关,然后选择信息最丰富的少数因子进行各种聚类分析,构造应用模型。 设有n个样本,p个变量。将原始数据转换成一组新的特征值——主成分, 主成分是原变量的线性组合且具有正交特征。即将x 1,x 2 ,…,x p 综合成 m(m<p)个指标z l ,z 2 ,…,z m ,即 z 1=l 11 *x 1 +l 12 *x 2 +...+l 1p *x p z 2=l 21 *x 1 +l 22 *x 2 +...+l 2p *x p .................. zm=l m1*x 1 +l m2 *x 2 +...+l mp *x p

这样决定的综合指标z 1,z 2 ,…,z m 分别称做原指标的第一,第二,…, 第m主成分,且z 1,z 2 ,…,z m 在总方差中占的比例依次递减。而实际工 作中常挑选前几个方差比例最大的主成分,从而简化指标间的关系,抓住了主要矛盾。 从几何上看,找主成分的问题,就是找多维空间中椭球体的主轴问题,从数学上容易得到它们是x1,x2,…,xp的相关矩阵中m个较大特征值所对应的特征向量,通常用雅可比(Jaobi)法计算特征值和特征向量。 主成分分析这一数据分析技术是把数据减少到易于管理的程度,也是将复杂数据变成简单类别便于存储和管理的有力工具。地理研究和生态研究的GIS用户常使用上述技术,因而应把这些变换函数作为GIS的组成部分。 2.层次分析法(AHP) Hierarahy Analysis 是T.L.Saaty等在70年代提出和广泛应用的,是系统分析的数学工具之一,它把人的思维过程层次化、数量化,并用数学方法为分析、决策、预报或控制提供定量的依据。 AHP方法把相互关联的要素按隶属关系分为若干层次,请有经验的专家对各层次各因素的相对重要性给出定量指标,利用数学方法综合专家意见给出各层次各要素的相对重要性权值,作为综合分析的基础。例如要比较n 个因素y={yl,y2,…,yn }对目标Z的影响,确定它们在z中的比重,每次取两个因素yi和yJ,用aij表示yi与yJ对Z的影响之比,全部比较结果可用矩阵A=(aij)n*n表示,A叫成对比矩阵,它应满足: aij>0,aij=1/aij (i,j=1,2,...n) 使上式成立的矩阵称互反阵,必有aij=l。 在旅游问题中,假设某人考虑5个因素:费用yl、景色y2,居住条件y3,饮食条件y4、旅途条件y5。他用成对比较法得到的正互反阵是: 在上式中a12=2表示yl与景色y2对选择旅游点(目标Z)的重要性之比为2:1;a13=7,表示费用yl与居住条件y3之比为7:1;a23=4,则表示景色y2与居住条件y3之比为4:1。如果A不是一致阵(即A12、A23;不等于A13;),需求正互友阵最大特征值对应的特征向量,作为权向量。

相关文档
最新文档