数据包络分析方法综述

第38卷第2期1998年3月

大连理工大学学报

Journal of Dalian University of Technology

Vol.38,No.2

Mar.1998数据包络分析方法综述X

郭京福, 杨德礼

(大连理工大学管理学院,大连　116024)

摘要　阐述了数据包络分析的基本原理和方法,给出这一非参数方法的几

个数学模型以及在多个领域的研究应用状况,并就该方法的发展作一展望.

关键词　线性规划/数据包络分析;决策单元;有效性

分类号　O221.1

0　概论

数据包络分析(DEA)是美国著名运筹学家A.Charnes等人以相对效率概念为基础发展起来的一种效率评价方法〔1〕.具有单输入单输出的过程或决策单元其效率可简单的定义为:输出/输入,A.Charnes等人将这种思想推广到具有多输入多输出生产有效性分析上.对具有多输入多输出的生产过程或决策单元,其效率可类似定义为:输出项加权和/输入项加权和,形成了仅仅依靠分析生产决策单元(DM U)的投入与产出数据,来评价多输入与多输出决策单元之间相对有效性的评价体系.这种评价体系以数学规划为工具,利用观测样本点构成的“悬浮”在整个样本上的分段超平面,来评价决策单元的相对有效性.

DEA是运筹学的一个新研究领域,是研究同类型生产决策单元相对有效性的有力工具. DM U确定的主导原则是,在某一视角下,各DM U具有相同的输入和输出.综合分析输入输出数据,得出每个DM U效率的相对指标,据此将所有DM U定级排队,确定相对有效的DM U,并指出其他DMU非有效的原因和程度,给主管部门提供管理决策信息.

DEA在处理多输入多输出问题上具有特别的优势,主要是由于以下两个方面:

1)DEA以决策单元的输入输出权数为变量,从最有利于决策单元的角度进行评价,从而避免了确定各指标在优先意义下的权数.

2)DEA不必确定输入和输出之间可能存在的某种显式关系,这就排除了许多主观因素,因此具有很强的客观性.

DEA可看作一种新的统计方法.传统的统计方法是从大量样本数据中分析出样本集合整体的一般情况,其本质是平均性;DEA则是从样本数据中分析出样本集合中处于相对有效的样本个体,其本质是最优性.DEA是致力于将有效样本与非有效样本分离的“边界”方法,

X国家自然科学基金资助项目(7957009)

　收稿日期:1997-01-30;修订日期:1997-10-20

　郭京福:男,1965年生,博士生

用线性规划方法判定DM U 是否位于生产前沿面上;它克服了错用生产函数的风险及平均性的缺陷.DEA 的出现给研究多输入多输出条件下的生产函数开辟了新的途径.

DEA 又可看作是研究多输入多输出问题的多目标决策方法.可以证明,DEA 有效与相应的多目标规划问题的Pareto 有效解是等价的〔2〕

DEA 与对策论有密切关系,1986年A .Char nes ,W .W .Coo per 和魏权龄利用C 2R 模型

研究了无限对策理论,后来又利用C 2WH 模型的原理建立了带有交叉约束集的多人对策锥极点理论.

DEA 的首次成功运用是评价为弱智儿童开设的公立学校项目.DEA 的应用范围不仅扩

展到军用飞机的飞行、基地维护与保养、陆军征兵、城市评价〔3〕等方面,而且在金融机构、电力

企业、私人商业公司及公共事业的评价中也得到成功的运用.另外DEA 方法还被应用在学校评价、森林规划以及棉纺工业、冶炼工业、教育科研机构的评价研究中〔4〕.

实事上DEA 的原型可以追溯到1957年Farrell 在对英国农业生产力进行分析时提出的包络思想,因此DEA 也被称为非参数方法或Farrell 型有效分析方法.1　DEA 基本原理与模型

1.1　C 2R 模型

假设有n 个生产决策单元DMU j (j =1,2,…,n ),每个DM U 都有m 项投入X j =(x 1j ,x 2j ,…,x mj )T ,s 项输出Y j =(y 1j ,y 2j ,…,y sj )T .则第j 0个DM U 的效率评估模型

m ax L T Y 0

s.t.　X T X j -L T Y j ≥0

X T X 0=1

X T ≥E e T ,L T ≥E e T

(1)其中:(X 0,Y 0)为DM U j 0的输入输出,E 为阿基米德无穷小,e 为元素为1的向量.其对偶问题

为

m in 〔H -E (e T s -+e T s +)〕

s.t.　∑n

j =1

X j K j +s -=H X 0

∑n j =1Y j K j -

s +=Y 0

K j ≥0(j =1,2,…,n ),s +≥0,s -≥0

(2)

该DEA 模型是在生产可能集T =〔(X ,Y )?产出Y 可由投入X 生产出来〕满足以下公理性假设:凸性、锥性、无效性和最小性的条件下.

这是规模收益不变的DEA 模型,若DM U 有效,则同时为技术和规模有效.考虑该模型的经济含义和基本思想,先不考虑松弛变量s -和s +

,则上面等式变为

min H

s.t.　∑X j K j ≤H X 0∑Y j K j ≥Y 0

237　第2期郭京福等:数据包络分析方法综述

238大连理工大学学报第38卷　

即表示在生产可能集T内,保持产出Y0不减,同时将输入量X0各分量按同一比例H尽量减少.如果输入量不能减少即上式的最小值H*=1,则被评估单元为有效单元;否则为相对无效单元.也可以这样解释,第j0个决策单元的输出向量Y0被其他单元的输出向量的组合从“上面”包络,而其输入向量X0被其他单元输入向量的组合从“下面”包络”.当X0和Y0不能被同时包络时,则第j0个DM U为有效单元;否则为无效单元.这也是DEA方法为何如此命名的原因所在.

1.2　BCC模型

生产可能集的锥性假设有时是不现实或不合理的,因此去掉该项假设.当生产可能集T 只是满足凸性(加入条件∑K j=1)、无效性和最小性时,便可得到满足规模收益可变的BCC模型

min　〔H-E(e T s-+e T s+)〕

s.t.　∑K j X j+s-=H X0

∑K j Y j-s+=Y0

(3)

∑K j=1

s-≥0,s+≥0,K j≥0;j=1,2,…,n

这种模型单纯评价DM U的技术有效性.其对偶形式为

m ax　(L T Y0-u0)

s.t.　L T Y j-X T X j-u0≤0

(4)

X T X0=1

X≥E,L≥E,L0,is free

式中:u0为规模收益指示量.若u*0为(4)的最优值,则(1)u*0<0,规模收益递增;(2)u*=0,规模收益不变;(3)u*0>0,规模收益递减.

实际当中应用最广的就是上面这两种模型.

1.3　其他DEA模型

前面模型中决策单元的效率是输入输出的加权和之比,结合Cobb-Douglass生产函数,定义效率为输入输出加权之积的比,则可以得到CCSS模型〔5〕以及另一种乘积模型〔6〕.

当DEA用来判断决策单元Pareto最优性时,得到CCGSS模型〔7〕;另外还有体现决策者偏好的锥比率的C2W H模型和研究具有无穷多个决策单元的C2WH模型〔8〕以及后来的综合DEA模型C2WY模型〔9〕.还有对决策单元的输入输出指标加以修正的DEA模型〔10〕以及对权系数加以限制的DEA模型〔11、12〕等.

2　DEA的发展以及研究应用领域

2.1　在输入输出方面的改进

初始的DEA模型无论是C2R模型还是BCC模型,对所评价系统的输入输出没有任何的要求和限制,这是不符合客观实际情况的.R.D.Banker和R.C.M orey于1986年提出并研究了具有固定不变输入输出的DEA模型〔10〕;刘永清综合上述DEA模型讨论了系统中输入输出指标在有限范围变化的情况,给出了更广泛的DEA模型〔13〕.另外研究具有负输出的

DEA 模型,将对某类决策单元提供综合而合理的评价方法.在实际应用中,也会遇到输入输出是以序数方式表达的系统,对于这类系统有效性的评价,W .W .Cook 、M .Kress 及L .M .

Seiford 在1993年提出了相应的DEA 模型〔14〕.

2.2　在权系数方面的研究

原始的DEA 模型对权系数除要求非负外并未作任何的限制,这样得出的结果有可能不切实际或不真实.尽管又引进阿基米德无穷小来保证权重的正值,但不同的E 会产生不同的DEA 结果.因此对权系数的限制研究一直吸引着人们的关注,文〔11〕首先提出在单输出情况下用回归方法来确定权系数的下限;Golany 针对滞后效应等因素提出DEA 权重可以存在有序性,Ali 等人修正了其中的变换错误,并根据风险决策中的概率排序思想提出权重也可以

有强序性和弱序性〔12〕.Thom pson 等于1990年提出利用保证域(AR)限制权重的方法;其实

质是与锥比率的DEA 模型等价的,当然权重也可以利用AHP 法来确定〔15〕

.Kaoru To ne 通

过研究松弛变量的情况给出无须阿基米德无穷小的DEA 模型〔16〕,也有人提出对权重给出界

限,利用有界线性规划原理进一步求解.

2.3　DEA 的统计特性

DEA 作为评价生产有效性的非参数方法与传统参数方法相比有许多不同之处.R.D.

Banker 等于1986年首先对两种方法在评价生产有效性方面的差异作了比较〔17〕,后来又使用

M onte Carlo 方法产生的仿真数据比较了DEA 方法和修正的最小二乘方法在生产前沿面有效性评价方面的差异. E.T hanassoulis 还使用假设的数据对回归分析方法和DEA 的差异作

了比较〔18〕,并指出DEA 在分析具有多输入多输出生产系统有效性方面的突出优点及存在的

不足.1993年R .D .Banker 对DEA 的统计特性作了深入的研究〔19〕;最近东南大学的肖度等通过对DEA 的统计特性研究指出在一定条件下DEA 为一极大似然估计,并且是一个有偏一致估计.

2.4　依据运筹学理论对DEA 做的研究工作

DEA 采用数学规划方法研究多目标决策问题,属于运筹学的研究范畴,因此可以将运筹学中的理论推广到DEA 中去. A.Charnes 、朱乔等研究的DEA 灵敏度分析便是典型的例子〔20〕;其中主要是利用基础解系矩阵来分析,也有利用DEA 投影来分析的.另一个与之相

关的问题是随机DEA 的形成〔21〕.还有一方面的工作就是将DEA 方法与运筹学方法结合起

来;例如V.Belton 等人将DEA 方法和多准则决策集成的研究,在决策支持系统中的研究以及R.D.Banker 等人将DEA 理论和对策理论结合起来评价决策单元有效性的研究〔22〕.

近期T oshiy uki Suey oshi 通过研究比较不同时期的生产行为,给出了一种新的有效性概

念“总体时间有效”〔23〕,这对建立动态多阶段的DEA 模型起到引导作用.

2.5　DEA 方法与生产前沿面有效性分析研究

在应用DEA 方法对生产前沿面有效性分析的研究中,J.M ahajan 〔24〕

将DEA 原理和生产

前沿的数学表达式联合起来讨论;R .D .Banker 、R .M .T hr all 〔25〕应用DEA 方法来评价生产规

模收益并给出最佳生产规模(mpss )的概念,他们在近期又针对DEA 模型可能存在多个最优

解的情况给出应用最优解来判别生产规模收益情况〔26〕;另外还有J.K.Sengupta 关于随机生产前沿面有效性分析的研究〔27〕以及应用目标规划和DEA 方法评价随机生产配置有效性的研究.其实朱乔等讨论的评价输入输出最佳组合的非参数方法也属于生产配置有效性的研究.239　第2期郭京福等:数据包络分析方法综述

240大连理工大学学报第38卷　

2.6　其他方面

DEA作为评价经济系统相对效率的方法,有关计算结果与许多经济指标密切相关.迟旭在文献〔4〕中揭示了DEA方法和生产函数之间蕴含的内在联系,推导出生产规模收益、生产要素产出弹性及其边际技术替代率等经济参数的DEA计算公式.在理论上DEA是一种线性规划的优化方法,B.Go lany、Y.Ro ll〔28〕给出这一方法的实际操作步骤和注意事项.

由于篇幅所限,还有不少理论以及实际应用;例如DEA可以用于预测预警,DEA理论可用于计算最大成本、收益、利润以及在技术进步等方面的应用.请读者参考有关文献.

3　展望

DEA开辟了生产有效性分析的新途径,无论在理论还是实际应用方面均有待进一步的发展与完善.DEA是生产前沿的一种研究方法,是一种确定性的生产前沿;它与随机生产前沿可进行比较研究亦可进一步探讨由DEA引起的生产有效性分析新的研究领域,在输入输出指标上可作进一步的完善.在考虑到时间因素时可探讨动态多阶段的效率评价体系.在应用计算方面,可进一步拓宽应用领域以及改进计算效率.

参　考　文　献

1　Char nes A,Coo per W W,Rhodes E.M easur ing the efficiency o f decisio n making units.Eur J Oper Res, 1978,2(6):429～444

2　魏权龄.评价相对有效性的DEA方法运筹学的一个新的研究领域.北京:中国人民大学出版社, 1988.

3　Char nes A.U sing DEA t o evaluate relativ e efficiencies in the eco no mic per for mance o f Chinese cities.So-cio-Econ Plan Sci,1989,23:325～344

4　迟　旭.生产前沿面有效性分析的非参数方法和人力资源发展的研究:〔博士学位论文〕.大连:大连理工大学,1995.

5　Char nes A,Coo per W W.Invar iant multiplicative efficiency and piecew ise Co bb-Doug las env elo pment.

Ops Res Lett,1985,2(3):101～103

6　Char nes A.A multiplicativ e model fo r efficiency analy sis.Socio-Econ Plan Sci,1982,16(5):223～224 7　Char nes A,Co oper W W,G olany B,et al.Fo undatio ns of dat a envelopment ana ly sis for Par eto-koo pman efficient empirical pro duction functions.J Econ1985,30:91～107

8　魏权龄,崔宇刚.评价相对有效性的几个重要的D EA模型数据包络分析(二).系统工程理论与实践,1989(5):55～68

9　魏权龄,岳　明.综合的DEA模型C2W Y数据包络分析(四).系统工程理论与实践,1989(4):75～80

10　Ba nker R D,M or ey C.Efficiency analysis for ex og enously fixed inputs a nd o utputs.Oper Res,1986,34

(4):513～521

11　Dy son R G,T hanasso ulis E.Reducing w eig ht flexibility in DEA.J Opl Res Soc,1988,39(6):563～576

12　A li A I.Str ict v s,w eak o r dinal relations for multiplit ers in DEA.Manage Sci,1991,37:733～738

13　刘永清,李光金.要素在有限范围变化的D EA模型.系统工程学报,1995,10(4):87～94

14　Coo k W D,Kr ess M ,Seifor d L M.On the use of o rdinal date in data envelopment analy sis.J Opl Res

Soc ,1993,44(2):133～140

15　Ro ll Y.Contr olling facto r w eig hts in DEA.IIE Tran ,1991,23:1～8

16　K aor u T .A n E -free DEA and a new measur e o f efficiency .J Opl Res Soc Japan ,1993,36(3):167～17417　Banker R D,Conr ad R F ,Str auss R P.A compar ativ e applicatio n o f data env elo pment analysis and

tr anslog metho ds.Manage Sci ,1986,32(1):30～44

18　T hanassoulis E .A comparison of r egr ession analysis and data envelo pment analysis alter nat ive met ho ds

for perfo rmance assessment .J Opl Res Soc ,1993,44(11):1129～1144

19　Banker R D.M ax imum likelihoo d consistency and data env elo pm ent analy sis:a stat istical fo undatio n.

Manage Sci ,1993,39(10):1265～1273

20　Charnes A .Sensit ivity analysis of the additive model in da ta env elo pment analysis .Eur J Oper Res ,

1990,45(3):332～341

21　Sengupta J K.T r ansfo rmat ions in sto chastic D EA mo dels.J Econ ,1990,46:109～123

22　Banker R D.A g ame theor etic appr oach to measur ing efficiency.Eur J Oper Res ,1980,15(3):262～

266

23　T oshiy uki Sueyo ssshi.P ro duction a nalysis in difference t ime per io ds:A n a pplicatio n o f data envelop-

ment analy sis.Eur J Oper Res ,1995,86(2):216～230

24　M ahajan J.A data env elo pment analy sis mo del fo r assessing the r elat ive efficiency of selling functio n.

Eur J of Oper Res ,1991,53(3):189～205

25　Banker R D,T hra ll R M.Estima tio n of ret ur n to scale using dat a envelopment analy sis.Eur J Oper

Res ,1992,62(1):74～84

26　Banker R D .Equivalence and implement atio n o f alter nat ive m et hods fo r deter mining ret ur ns to scale in

DEA .Eur J Oper Res ,1996,89(3):473～481

27　Seng upta J K.Dat a env elo pment analy sis fo r efficiency measurement in the sto chastic case.C omput

Opens Res ,1987,14(2):117～129

28　Glany B ,R oll Y .A n application pro cedure fo r D EA .Omega ,1988,17(3):237～250

Overview of data envelopment analysis method

Guo Jingfu ,　Yang Deli

(Scho ol of M anag e.,Dalian U niv.o f T echno l.,China )

Abstract T he paper gives an overview of DEA basic pr inciples,related mathematical m od-els and so me applications .Finally ,so me research areas interested in the future are given .

Key words linear pr ogram ming /data envelopment analysis;decision m aking units;ef-

ficiency 241　第2期郭京福等:数据包络分析方法综述

数据包络分析法

数据包络分析法在高新技术产业技术创新教育财务绩效评价中的应用姓名：李雪专业：会计学学号：201410750244

数据包络分析法在高新技术产业创新教育财务绩效评价中的应用摘要：高新技术产业是个技术密集型产业，对知识和技术具有很强的依赖性，进行技术创新活动是其经济高质量增长的源泉。高新技术产业创新教育财务管理内外环境的变化让财务绩效评价不仅成为可能，而且成为了高新技术产业财务管理必需推进的工作。财务绩效评价是运用科学、规范的绩效评价方法，对照一定的评价标准，参照绩效的内在原则，来对高新技术产业创新教育财务行为过程及结果进行客观、公正、科学的综合评价和衡量比较。高新技术产业财务绩效评价已成为高新技术产业财务管理的主要内容之一，对财务管理工作的促进和完善起着重要作用。数据包络分析法通过客观地反映高新技术产业创新教育活动的输入、输出，兼具考虑所选择指标的可采集性等约束条件，并且采用相对最优的权重确定方法反映财务绩效大小，蕴含着经济学的生产力观点，满足了财务绩效评价的科学性。关键词：高新技术产业创新教育；财务绩效评价；数据包络分析法技术创新对企业来讲可以优化产品结构，提高产品的价值，快速适应市场的需求，从而增强企业的市场竞争力；对于一个产业来说，技术创新可以催发新兴产业群的成长，推进产业结构优化，提高技术产业的经济效益。技术创新已经成为高质量经济增长的源泉。高新技术产业技术创新是指在市场的导向作用下，以提高产业效益为目标，经过技术的研发、引进、吸收等一系列的技术活动，生产出新产品、研发出新技术的过程。高新技术产业技术创新绩效，是对高新技术产业应用投入的财力和物力研发出新产品、新工艺，从而产生经济效益的能力的考核，是评判经济技术活动有效性的一个有效手段。因此，正确认识和把握技术创新水平、系统总结技术创新经验是很有必要的。科学评价高技术产业的技术创新绩效，对把握高新技术产业的技术创新活动规律、提升技术创新成功率、推动高新技术产业技术创新活动有序发展具有重要的现实意义。

数据包络分析

数据包络分析方法介绍和应用综述【摘要】数据包络分析(Data Envelopment Analysis,DEA)是一种基于线性规划理论的模型,它将多输入指标和多输出指标综合成为单个评价指标，是运筹学、管理科学和数理经济学交叉研究的一个新的领域。数据包络分析使用数学规划评价具有多个输入与输出的决策单元(简记为DMU)间的相对有效性(DEA 有效), 使用DEA对DMU进行效率评价时, 可以得到很多在经济学中具有深刻经济含义和背景的管理信息。本综述的目的是介绍DEA研究的历史、现状, 特别是它的发展过程及某些新的模型扩展，同时综合阐述了DEA在生产、管理、商务中的广泛应用和它的发展趋势。关键词：数据包络分析模型结构决策单元发展以及应用趋势一、数据包络分析（DEA）概念及模型简介 1、概念数据包络分析(Data Envelopment Analysis,DEA)是运筹学、管理科学和数理经济学交叉研究的一个新的领域。1978年由著名的运筹学家A.Charnes,W.W.Cooper和E.Rhodes首先提出了一个被称为数据包络分析（Data Envelopment Analysis，简称DEA）的方法，主要用来评价生产中各个部门间的相对有效性（因此被称为DEA有效）。我国自1988 年由魏权龄①系统地介绍DEA 方法之后, 先后也有不少关于DEA 方法理论研究及应用推广的论文问世。其中，比较全面的一篇论文是《系统工程理论和方法应用》1994年3卷第4期，东南大学经济管理学院的朱乔的《数据包络分析方法综述与展望》，指出“据国外统计已经有400余篇关于DEA的研究论文、工作报告或者学术论文可查，例如：Annals of Operational Research(1985)、European Journal of Operational Research(1992)、Journal of Productivity Analysis(1992)等等，还有近期为了悼念A.Charnes,W.W.Cooper教授，Annals of Operational Research还专门出版了“从有效性计算到组织和分析数据的新方法---DEA方法15年”的专刊。” 中国人民大学教授魏全龄，在《评价相对有效性的DEA 方法———运筹学的新领域》一文中系统地介绍了DEA的方法，指出数据包络分析(Data Envelopment Analysis,DEA)是一种基于线性规划理论的模型,它将多输入指标和多输出指标综合成为单个评价指标。在此基础上，李美娟, 陈国宏2003年在《数据包络分析法(DEA) 的研究与应用》中指出DEA 方法以相对效率概念为基础, 用于评价具有相同类型的多投入、多产出的决策单元是否技术有效的一种非参数统计方法，并且对DEA的基本思路进行了详细阐述。经过各方面的努力，可见数据包络分析(Data Envelopment Analysis,DEA)是一种基于线性规划理论的模型,它将多输入指标和多输出指标综合成为单个评价指标，其基本思路是把每一个被评价单位作为一个决策单元(DMU ,decision making unit s) , 再由众多DMU 构成被评价群体, 通过对投入和产出比率的综合分析, 以DMU 的各个投入和产出指标的权重为变量进行评价运算, 确定有效生产前沿面, 并根据各DMU 与有效生产前沿面的距离状况, 确定各DMU 是否DEA 有效, 同时还可用投影方法指出非DEA 有效或弱DEA 有效DMU 的原因及应改进的方向和程度。 2、模型简介 A.Charnes,W.W.Cooper和E.Rhodes在1978年提出的第一个模型被命名为CCR模型，从生产函数角度看，这一模型是用来研究具有多个输入、特别是具有多个输出的“生产部门” ①魏全龄：中国人民大学信息系教授，先后出版了数十篇关于DEA的发展及应用方面的文章，科研成果显著。

科研常用的实验数据分析与处理方法

科研常用的实验数据分析与处理方法对于每个科研工作者而言，对实验数据进行处理是在开始论文写作之前十分常见的工作之一。但是，常见的数据分析方法有哪些呢？常用的数据分析方法有：聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。 1、聚类分析(Cluster Analysis) 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。 2、因子分析(Factor Analysis) 因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系，减少决策的困难。因子分析的方法约有10多种，如重心法、影像分析法，最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法，是以相关系数矩阵为基础的，所不同的是相关系数矩阵对角线上的值，采用不同的共同性□2估值。在社会学研究中，因子分析常采用以主成分分析为基础的反覆法。

3、相关分析(Correlation Analysis) 相关分析(correlation analysis)，相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系，例如，以X和Y 分别记一个人的身高和体重，或分别记每公顷施肥量与每公顷小麦产量，则X与Y显然有关系，而又没有确切到可由其中的一个去精确地决定另一个的程度，这就是相关关系。 4、对应分析(Correspondence Analysis) 对应分析(Correspondence analysis)也称关联分析、R-Q 型因子分析，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。 5、回归分析研究一个随机变量Y对另一个(X)或一组(X1，X2，…，Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛，回归分析按照涉及的自变量的多少，可分为一

(1) 数据包络分析法(DEA)概述

(1)数据包络分析法(DEA)概述数据包络分析(Data Envelopment Ana lysis，简称D EA）方法是运用数学工具评价经济系统生产前沿面有效性的非参数方法，它适应用于多投入多产出的多目标决策单元的绩效评价。这种方法以相对效率为基础，根据多指标投入与多指标产出对相同类型的决策单元进行相对有效性评价。应用该方法进行绩效评价的另一个特点是，它不需要以参数形式规定生产前沿函数，并且允许生产前沿函数可以因为单位的不同而不同，不需要弄清楚各个评价决策单元的输入与输出之间的关联方式，只需要最终用极值的方法，以相对效益这个变量作为总体上的衡量标准，以决策单元(DM U)各输入输出的权重向量为变量，从最有利于决策的角度进行评价，从而避免了人为因素确定各指标的权重而使得研究结果的客观性收到影响。这种方法采用数学规划模型，对所有决策单元的输出都“一视同仁”。这些输入输出的价值设定与虚拟系数有关，有利于找出那些决策单元相对效益偏低的原因。该方法以经验数据为基础，逻辑上合理，故能够衡量个决策单元由一定量大投入产生预期的输出的能力，并且能够计算在非DEA有效的决策单元中，投入没有发挥作用的程度。最为重要的是应用该方法还有可能进一步估计某个决策单元达到相对有效时，其产出应该增加多少，输入可以减少多少等。 1978年由著名的运筹学家查恩斯（A.Charnes）,库伯（W.W.Cooper）和罗兹（E.Rhodes）首先提出数据包络分析（Data Envelopment Analysis，简称DEA）的方法，DEA有效性的评价是对已

有决策单元绩效的比较评价，属于相对评价，它常常被用来评价部门间的相对有效性（又称之为DEA有效）。他们的第一个数学模型被命名为CCR模型，又称为模型。从生产函数角度看，这一模型是用来研究具有多项输入、特别是具有多项输出的“生产部门”时衡量其“规模有效”和“技术有效”较为方便而且是卓有成效的一种方法和手段。自从该方法提出以来，就广泛应用于各个行业的有效性评价上。此后，得到不断的完善，并且在实践中的应用也越来越广泛。例如1984年R.D.Banker, A.Charnes和W.W.Cooper给出了一个被称为BCC的模型，又称之为BC2模型。另外，于1985年Charnes,Cooper 和 B.Golany, L.Seiford, J.Stutz给出了另一个模型，称为CCGSS模型，又称之为C2GS2模型，这两个模型是用来研究生产部门之间的“技术有效”相对效率。下面将介绍这两个优化模型。 ( 2 ) 数据包络模型（又称为DEA模型）描述数据包络分析(DEA)由美国著名运筹学家A. Charnes等人在1978年以相对效率概念为基础发展起来的一种新的绩效评价方法。这种方法是以决策单元(Decision Making Unit，简称DMU)的投入、产出指标的权重系数为变量，借助于数学规划模型将决策单元投影到DEA 生产前沿面上，通过比较决策单元偏离DEA生产前沿面的程度来对被评价决策单元的相对有效性进行综合绩效评价。其基本思路是:通过对投入产出数据的综合分析，得出每个DMU综合相对效率的数量指标，确定各DMU是否为DEA有效。下面我们先描述DEA模型。

大数据包络分析报告(DEA)方法

二、数据包络分析(DEA)方法数据包络分析(data envelopment analysis, DEA)是由著名运筹学家Charnes, Cooper 和Rhodes 于1978年提出的，它以相对效率概念为基础，以凸分析和线性规划为工具，计算比较具有相同类型的决策单元(Decision making unit ，DMU)之间的相对效率，依此对评价对象做出评价[1]。DEA 方法一出现，就以其独特的优势而受到众多学者的青睐，现已被应用于各个领域的绩效评价中[2],[3]。在介绍DEA 方法的原理之前，先介绍几个基本概念: 1. 决策单元一个经济系统或一个生产过程都可以看成是一个单位(或一个部门)在一定可能围，通过投入一定数量的生产要素并产出一定数量的“产品”的活动。虽然这种活动的具体容各不相同，但其目的都是尽可能地使这一活动取得最大的“效益”。由于从“投入”到“产出”需要经过一系列决策才能实现，或者说，由于“产出”是决策的结果，所以这样的单位(或部门)被称为决策单元(DMU)。因此，可以认为，每个DMU(第i 个DMU 常记作DMU i )都表现出一定的经济意义，它的基本特点是具有一定的投入和产出，并且将投入转化成产出的过程中，努力实现自身的决策目标。在许多情况下，我们对多个同类型的DMU 更感兴趣。所谓同类型的DMU ，是指具有以下三个特征的DMU 集合：具有相同的目标和任务；具有相同的外部环境；具有相同的投入和产出指标。 2. 生产可能集设某个DMU 在一项经济(生产)活动中有m 项投入，写成向量形式为1(,,)T m x x x =L ；产出有s 项，写成向量形式为1(,,)T s y y y =L 。于是我们可以用(,)x y 来表示这个DMU 的整个生产活动。定义1. 称集合{(,)|T x y y x =产出能用投入生产出来}为所有可能的生产活动构成的生产可能集。在使用DEA 方法时，一般假设生产可能集T 满足下面四条公理: 公理1(平凡公理): (,),1,2,,j j x y T j n ∈=L 。公理2(凸性公理): 集合T 为凸集。如果 (,),1,2,,j j x y T j n ∈=L , 且存在 0j λ≥ 满足 1 1n j j λ==∑ 则 11(,)n n j j j j j j x y T λλ==∈∑∑。公理3(无效性公理)：若()??,,,x y T x x y y ∈≥≤,则??(,)x y T ∈。，公理4 (锥性公理): 集合T 为锥。如果(),x y T ∈那么 (,)kx ky T ∈对任意的0k >。若生产可能集Ｔ是所有满足公理1 , 2 , 3和4的最小者，则T 有如下的唯一表示形式 ()11 ,|, ,0,1,2,,n n j j j j j j j T x y x x y y j n λλ λ==? ? =≤≥≥=??? ? ∑∑L 。 3. 技术有效与规模收益

数据分析的常见方法

一、描述统计描述性统计是指运用制表和分类，图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充：常用方法：剔除法、均值法、最小邻居法、比率\回归法、决策树法。 2、正态性检验：很多统计方法都要求数值服从或近似服从正态分布，所以之前需要进行正态性检验。常用方法：非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。二、假设检验 1、参数检验参数检验是在已知总体分布的条件下（一股要求总体服从正态分布）对一些主要的参数(如均值、百分数、方差、相关系数等）进行的检验。 1）U验使用条件：当样本含量n较大时，样本值符合正态分布 2）T检验使用条件：当样本含量n较小时，样本值符合正态分布 A 单样本t检验：推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别； B 配对样本t检验：当总体均数未知时，且两个样本可以配对，同对中的两者在可能会影响处理效果的各种条件方面扱为相似； C 两独立样本t检验：无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假设（如总体分布的位罝是否相同，总体分布是否正态）进行检验。适用情况：顺序类型的数据资料，这类数据的分布形态一般是未知的。

A 虽然是连续数据，但总体分布形态未知或者非正态； B 体分布虽然正态，数据也是连续类型，但样本容量极小，如10以下；主要方法包括：卡方检验、秩和检验、二项检验、游程检验、K-量检验等。三、信度分析检査测量的可信度，例如调查问卷的真实性。分类： 1、外在信度：不同时间测量时量表的一致性程度，常用方法重测信度 2、内在信度；每个量表是否测量到单一的概念，同时组成两表的内在体项一致性如何，常用方法分半信度。四、列联表分析用于分析离散变量或定型变量之间是否存在相关。对于二维表，可进行卡方检验，对于三维表，可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。五、相关分析研究现象之间是否存在某种依存关系，对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关：两个因素之间的相关关系叫单相关，即研究时只涉及一个自变量和一个因变量； 2、复相关：三个或三个以上因素的相关关系叫复相关，即研究时涉及两个或两个以上的

时序数据上的数据挖掘

V ol.15, No.1 ?2004 Journal of Software 软件学报 1000-9825/2004/15(01)0000 时序数据上的数据挖掘 ? 黄书剑1+ 1(南京大学计算机科学与技术系江苏南京 210093) Data Mining on Time-series Data HUANG Shu-Jian 1+ 1(Department of Computer Science and technology, Nanjing University, Nanjing 210093, China) + Corresponding author: Phn +86-**-****-****, Fax +86-**-****-****, E-mail: ****, http://**** Abstract : Data mining has been developing rapidly in the recent years. Since time related data occurs frequently in various areas, there has been “an explosion” of interest in mining time-series data, which is a popular branch of data mining. In this paper we present an overview of the major research areas and tasks in mining time-series data, such as preprocessing, representation, segmentation, similarity, classification, clustering, anomaly detection, rule discovery, etc. Some solutions of several tasks are also included in this paper. Key words : data mining; time-series 摘要: 近年来数据挖掘得到了蓬勃的发展。由于越来越多的数据都与时间有着密切的关系，时序数据的挖掘作为数据挖掘的一个分支，正在受到越来越高的重视。本文概述了时序数据上的数据挖掘这个领域内的主要研究方向和课题，包括数据预处理、数据表示、分割、相似度度量、分类、聚类、异常检测、规则识别等。并对部分课题的主要解决方案进行了一些介绍。关键词: 数据挖掘;时序数据挖掘中图法分类号: **** 文献标识码: A 1 引言近几十年来，计算机运算存储能力不断提高，数据产生和采集的速度也越来越快，因而数据量越来越大；而与此同时，人们面对巨量数据，能够直接获得的信息量却越来越有限。单纯的人力已经很难胜任对这样巨量的数据进行分析并提取出相关信息的任务。为了解决这种数据与信息之间的矛盾，数据挖掘应运而生。所谓数据挖掘，即从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[1]。数据挖掘的目的就在于找出巨量数据中的潜在规律，以对未来的分析和决策提供支持，其在分析处理中的优势以 ? Supported by the **** Foundation of China under Grant No.****, **** (基金中文完整名称); the **** Foundation of China under Grant No.****, **** (基金中文完整名称) 作者简介: 黄书剑(1984),男,江苏盐城人,硕士生,主要研究领域为自然语言处理.

数据包络分析法应用研究综述

经济研究导刊 ECONOMIC RESEARCH GUIDE 总第57期2009年第19期Serial No．57 No．19，2009一、DEA 基本思想与模型研究进展 1978年A.chames 等人以单输入单输出的工程效率概念为基础提出了第一个DEA 模型一C 2R 模型。DEA 基本思路[1]是把每一个被评价单位作为一个决策单元DM U ，再由众多DM U 构成被评价群体，通过对投入和产出比率的综合分析，以DM U 的各个投入和产出指标的权重为变量进行评价运算，确定有效生产前沿面，并根据各DM U 与有效生产前沿面的距离状况,确定各DM U 是否DEA 有效。1984年，R.D.Banker 等人从公理化的模式出发给出了另一个DEA 模型一BCC 模型[2]。 C 2R 和BCC 这两个模型的产生不仅扩大了人们对生产理论的认识，而且也为评价多目标问题提供了有效的途径，使得研究生产函数理论的主要技术手段由参数方法发展成为参数与非参数方法并重，这两个模型是最基本的DEA 模型。自1978年以来，多种派生和专用DEA 模型相继诞生。越来越显示出它们的重要地位，并成为系统分析的有力工具之一。基于目标规划的正、负偏差变量思想，1985年Charnes 和Cooper 针对C 2R 模型中生产可能集的凸性假设在某些条件下是不合理的，给出了另一个评价生产技术相对有效的DEA 模型一C 2S 2模型[3]。 2000年Wei 提出了逆DEA 模型[4]，后又将其推广到具有锥结构的情况。2004年针对C 2WY 模型不能直接进行编程计算的缺点，Y.B.Yun 等[5]给出了一个综合的DEA 模型并探了其求解方法，这一模型不仅包含了多种常用的DEA 模型，而且还可以直接编程计算。二、DEA 理论研究进展随着DEA 应用的日趋增长，对DEA 相关理论的研究也比较多，主要包括对DEA 有效性、随机性、灵敏度及与其他方法相融合等方面的研究。 DEA 有效是DEA 理论中最重要、最基本的概念。由于它在DEA 理论中重要地位，因此，对DEA 有效性问题的研究也较多。DEA 有效性与指标及决策单元个数之间的关系密切。1989年魏权龄等针对综合DEA 模型给出了DEA 有效决策单元集合的几个恒等式[6]，从而使决策单元进行分组评价成为可能.进而使大规模决策单元的评价问题找到了简化的办法。1993年吴文江[7]给出了寻找DEA 有效单元的一种新方法。另一个与有效性相关的课题是随机DEA 的研究，随机DEA 模型的研究也是目前DEA 研究的前沿之一。Baker [8]等把统计方法引入DEA ，提出了用极大似然估计法处理DEA 中的随机性;Olesen O B [9]使用可信度域的分段线性包络方法提出了概率约束DEA 模型；CooPer 等[10]把满意度概念引入DEA ，提出了满意DEA 模型；胡汉辉等[11]利用最小绝对误差估计和机会约束规划，建立了一系列线性与非线性规划的数据包络模型。中国台湾学者Tser-yieth Chen [12]应用对机会约束的数据包络分析与随机有效前沿面分析对39家银行的技术有效性进行了比较。 DEA 方法的灵敏度分析一直是DEA 理论中一个重要的研究课题。1985年Charnes 等人从构造特殊的逆矩阵的观点出发，研究了有效决策单元单个产出量变化时的灵敏度分析。Charnes 等给出了被评决策单元的输入和输出以同比例变化的DEA 超有效灵敏度分析法[13]。单一评价方法有其自身的优缺点,DEA 方法的弱点在于对有效决策单元所能给出的信息太少，将各种综合评价方法综合运用是综合评价的一个研究趋势。Zilla S [14]将DEA 方法和判别方法集合起来，对决策单元进行排序，在基于DEA 评收稿日期：2009-03-13 基金项目：上海市教委基金资助（2008077）作者简介：袁群（1971-），女，江苏金坛人，副教授，博士，从事交通运输规划与管理研究。数据包络分析法应用研究综述袁群（上海海事大学，上海200135）摘要：数据包括分析（DEA ）是运筹学、管理科学和数理经济学交叉研究的一个新的领域，使用DEA 进行效率评价可以得到很多在经济学中上仍深刻经济含意的管理信息。介绍了数据包络分析方法的基本思想和模型，分析了这一非参数方法的几个数学模型，阐述了DEA 方法在多个领域的研究应用状况，总结了国内外近二十年来DEA 方法的研究成果，并对该方法的发展作一展望。关键词：数据包络；分析法；应用研究；综述中图分类号：C931 文献标志码：A 文章编号：1673-291X （2009）19-0201-03 201——

【文献综述】时间序列预测――在股市预测中的应用

文献综述信息与计算科学时间序列预测――在股市预测中的应用时间序列是一种重要的高维数据类型, 它是由客观对象的某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列, 在经济管理以及工程领域具有广泛应用. 例如证券市场中股票的交易价格与交易量、外汇市场上的汇率、期货和黄金的交易价格以及各种类型的指数等, 这些数据都形成一个持续不断的时间序列. 利用时间序列数据挖掘, 可以 ]1[ 获得数据中蕴含的与时间相关的有用信息, 实现知识的提取. 时间序列分析方法最早起源于1927年, 数学家耶尔(Yule)提出建立自回归(AR)模型来预测市场变化的规律, 接着, 在1931年, 另一位数学家瓦尔格(Walker)在A R模型的启发下, 建立了滑动平均(MA)模型和自回归、滑动平均(ARMA)混合模型, 初步奠定了时间序列分析方法的基础, 当时主要应用在经济分析和市场预测领域. 20世纪60年代,时间序列分析理论和方法迈入了一个新的阶段, 伯格(Burg)在分析地震信号时最早提出最大熵谱(MES)估计理论, 后来有人证明AR模型的功率谱估计与最大熵谱估计是等效的, 并称之为现代谱估计. 它克服了用传统的傅里叶功率谱分析(又称经典谱分析)所带来的分辨率不高和频率漏泄严重等固有的缺点, 从而使时间序列分析方法不仅在时间域内得到应用, 而且扩展到频率域内, 得到更加广泛的应用, 特别是在各种工程领域内应用功率谱的概念更加方便和普遍. 到20世纪70年代以后, 随着信号处理技术的发展, 时间序列分析方法不仅在理论上更趋完善, 尤其是在参数估计算法、定阶方法及建模过程等方面都得到了许多改进, 进一步地迈向实用化, 各种时间序列分析软件也不断涌现, 逐渐成为分析随机数据序列不可缺少的有效工具 ]2[ 之一. 随着时间序列分析方法的日趋成熟, 其应用领域越来越广泛, 主要集中在预报预测领域, 例如气象预报、市场预测、地震预报、人口预测、汛情预报、产量预测, 等等. 另一个应用领域是精密测控, 例如精密仪器测量、精密机械制造、航空航天轨道跟踪和监控,以及遥控遥测、精细化工控制等. 再一个应用领域是安全检测和质量控制. 在工程施工和维修中经常会出现异常险情, 采用仪表监测和时间序列分析方法可以随时发现问题, 及早排除故障, 以保证生产安全和质量要求. 以上仅仅列举了某些应用领域,实际上还有许多应用, 不胜 ]4,3[ 枚举. 股票市场在中国社会经济生活中起着越来越重要的作用. 截至2006年底, 沪深两市总市值为89403.89亿元, 市值规模上升至全球第10位, 亚洲第3位. 由于中国股票市场在国民经济中的地位和作用不断提高, 无论是从政府宏观决策层面还是从具体投资者微观层面

DEA数据包络分析不足、特点、指标选取

DEA 一、同类可比同类可比在很多情况下是社科研究的基础和前提，比如研究地区效率，西藏、新疆、青海等地与上海、北京、广东、江苏等经济发达地区情况完全不一样，在很多情况下是不可比的，如果将这些地区放在一个模型中分析，是值得商榷的。二、DEA对异常值相当敏感 DEA对异常值相当敏感，在实际生活中，由于统计数据质量、测量误差等问题，构成数据包络曲线的那些点是非常敏感的，或者说，其它效率不是最优的点都是和数据包络曲线上最好的点相比，而这些点其实是不稳定的，在此基础上得出的处理结果也是不稳定的。三、DEA也许只有宏观意义即使是同一套数据，如果同时满足固定前沿和随机前沿的适用条件。采用固定前沿和随机前言，其分析结果往往是不一致的，也就是说，对于决策单元A，采用固定前沿它可能是有效的，但采用随机前沿它可能就是无效的。那么能否说明DEA在做文字游戏也不能这么说，通常情况下，对于同一套数据采用两种不同方法处理的结果，其相关性往往很高，因此适合做宏观分析，但微观上说A有效B无效之类的要慎重。四、DEA往往难以给出具体的政策建议即使得出了研究结果，对于一些效率相对低下的决策单元，如何进行改进通过技术进步还是通过改善管理再进一步的建议往往难以给出。五、效率低下的决策单元也许问题不严重任何DEA分析，都是建立在投入产出的基础之上的，但是投入产出数据有很多是无法定量计量的。实际上，DEA分析有个隐含的假设：我们做效率分析，只能基于定量数据，那些不能定量计量的投入产出，干脆假设所有的决策单位没有差异，但这种假设一定存在吗纯技术效率反映的是DMU 在一定( 最优规模时) 投入要素的生产效率。规模效率反映的是实际规模与最优生产规模的差距。一般认为：综合技术效率=纯技术效率×规模效率。

数据包络分析法总结

DEA（Data Envelopment Analysis）数据包络分析目录一、DEA的起源与发展（参考网络等相关文献）二、基本概念 1.决策单元（Decision Making Unit，DMU）.......................................................... 2.生产可能集（Production Possibility Set，PPS） ................................................ 3.生产前沿面（Production Frontier）........................................................................ 4.效率（Efficiency） ........................................................................................................ 三、模型模型....................................................................................................................................... 模型....................................................................................................................................... 模型....................................................................................................................................... 模型....................................................................................................................................... 5.加性模型(additive model，简称ADD).................................................................... 6.基于松弛变量的模型(Slacks-based.................................. M easure，简称SBM) 7.其他模型........................................................................................................................... 四、指标选取五、DEA的步骤（参考于网络）六、优缺点（参考一篇博客）七、非期望产出 1.非期望产出的处理方法：.............................................................................................. 2.非期望产出的性质： ......................................................................................................

数据处理的基本方法

数据处理的基本方法由实验测得的数据，必须经过科学的分析和处理，才能提示出各物理量之间的关系。我们把从获得原始数据起到结论为止的加工过程称为数据处理。物理实验中常用的数据处理方法有列表法、作图法、逐差法和最小二乘法等。 1、列表法列表法是记录和处理实验数据的基本方法，也是其它实验数据处理方法的基础。将实验数据列成适当的表格，可以清楚地反映出有关物理量之间的一一对应关系，既有助于及时发现和检查实验中存在的问题，判断测量结果的合理性；又有助于分析实验结果，找出有关物理量之间存在的规律性。一个好的数据表可以提高数据处理的效率，减少或避免错误，所以一定要养成列表记录和处理数据的习惯。第一页前一个下一页最后一页检索文本 2、作图法利用实验数据，将实验中物理量之间的函数关系用几何图线表示出来，这种方法称为作图法。作图法是一种被广泛用来处理实验数据的方法，它不仅能简明、直观、形象地显示物理量之间的关系，而且有助于我人研究物理量之间的变化规律，找出定量的函数关系或得到所求的参量。同时，所作的图线对测量数据起到取平均的作用，从而减小随机误差的影响。此外，还可以作出仪器的校正曲线，帮助发现实验中的某些测量错误等。因此，作图法不仅是一个数据处理方法，而且是实验方法中不可分割的部分。

第一页前一个下一页最后一页检索文本第一页前一个下一页最后一页检索文本共 32 张，第 31 张 3、逐差法

逐差法是物理实验中处理数据常用的一种方法。凡是自变量作等量变化，而引起应变量也作等量变化时，便可采用逐差法求出应变量的平均变化值。逐差法计算简便，特别是在检查数据时，可随测随检，及时发现差错和数据规律。更重要的是可充分地利用已测到的所有数据，并具有对数据取平均的效果。还可绕过一些具有定值的求知量，而求出所需要的实验结果，可减小系统误差和扩大测量范围。 4、最小二乘法把实验的结果画成图表固然可以表示出物理规律，但是图表的表示往往不如用函数表示来得明确和方便，所以我们希望从实验的数据求经验方程，也称为方程的回归问题，变量之间的相关函数关系称为回归方程。第一节有效数字及其计算一、有效数字对物理量进行测量，其结果总是要有数字表示出来的．正确而有效地表示出测量结果的数字称为有效数字．它是由测量结果中可靠的几位数字加上可疑的一位数字构成．有效数字中的最后一位虽然是有可疑的，即有误差，但读出来总比不读要精确．它在一定程度上反映了客观实际，因此它也是有效的．例如，用具有最小刻度为毫米的普通米尺测量某物体长度时，其毫米的以上部分是可以从刻度上准确地读出来的．我们称为准确数字．而毫米以下的部分，只能估读一下它是最小刻度的十分之几，其准确性是值得怀疑的．因此，我们称它为可疑数字，若测量长度L=15.2mm，“15”这两位是准确的，而最后一位“2”是可疑的，但它也是有效的，因此，对测量结果15.2mm来说，这三位都是有效的，称为三位有效数字．为了正确有效地表示测量结果，使计算方便，对有效数字做如下的规定： 1．物理实验中，任何物理量的数值均应写成有效数字的形式．２．误差的有效数字一般只取一位，最多不超过两位．３．任何测量数据中，其数值的最后一位在数值上应与误差最后一位对齐(相同单位、相同10次幂情况下)．如L=(1．00±0．02)mm，是正确的，I=(360±0．25) A或g=(980.125±0.03)cm/S2都是错误的．４．常数2,1/2,21 2,π及C等有效数字位数是无限的．５．当0不起定位作用，而是在数字中间或数字后面时，和其它数据具有相同的地位，都算有效数字，不能随意省略．如31.01、2.0、2.00中的0，均为有效数字．６.有效数字的位数与单位变换无关，即与小数点位置无关．如L=11.3mm=1.13cm=0.0113m=0.0000113Km均为三位有效数字．由此，也可以看出：用以表示小数点位置的“0”不是有效数字，或者说，从第一位非零数字算起的数字才是有效数字．７．在记录较大或较小的测量量时，常用一位整数加上若干位小数再乘以10的幂的形式表示，称为有效数字的科学记数法．例测得光速为2.99×108m/s，有效数字为三位．电子质量为9.11×10-31Kg有效数字也是三位．二、有效数字的运算法则由于测量结果的有效数字最终取决于误差的大小，所以先计算误差，就可以准确知道任何一种运算结果所应保留的有效数字，这应该作为有效数字运算的总法则．此外，当数字运算时参加运算的分量可能很多，各分量的有效数字也多少不一，而且在运算中，数字愈来愈多，除不尽时，位数也越写越多，很是繁杂，我们掌握了误差及有效数字的基本知识后，就可以找到数字计算规则，使得计算尽量简单化，减少徒劳的计算．同时也不会影响结果的精确度．

大数据分析和处理的方法步骤

大数据处理数据时代理念的三大转变：要全体不要抽样，要效率不要绝对精确，要相关不要因果。具体的大数据处理方法其实有很多，但是根据长时间的实践，天互数据总结了一个基本的大数据处理流程，并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步，分别是采集、导入和预处理、统计和分析，以及挖掘。采集大数据的采集是指利用多个数据库来接收发自客户端的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB 这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。统计/分析统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL 的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。导入/预处理虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足

大数据数据分析方法数据处理流程实战案例

方法、数据处理流程实战案例时代，我们人人都逐渐开始用数据的眼光来看待每一个事情、事物。确实，数据的直观明了传达出来的信息让人一下子就能领略且毫无疑点，不过前提是数据本身的真实性和准确度要有保证。今天就来和大家分享一下关于方法、数据处理流程的实战案例，让大家对于这个岗位的工作内容有更多的理解和认识，让可以趁机了解了解咱们平时看似轻松便捷的数据可视化的背后都是有多专业的流程在支撑着。一、大数据思维在2011年、2012年大数据概念火了之后，可以说这几年许多传统企业也好，互联网企业也好，都把自己的业务给大数据靠一靠，并且提的比较多的大数据思维。那么大数据思维是怎么回事？我们来看两个例子：案例1：输入法首先，我们来看一下输入法的例子。我2001年上大学，那时用的输入法比较多的是智能ABC，还有微软拼音，还有五笔。那时候的输入法比现在来说要慢的很多，许多时候输一个词都要选好几次，去选词还是调整才能把这个字打出来，效率是非常低的。到了2002年，2003年出了一种新的输出法——紫光拼音，感觉真的很快，键盘没有按下去字就已经跳出来了。但是，后来很快发现紫光拼音输入法也有它的问题，比如当时互联网发展已经比较快了，会经常出现一些新的词汇，这些词汇在它的词库里没有的话，就很难敲出来这个词。

在2006年左右，搜狗输入法出现了。搜狗输入法基于搜狗本身是一个搜索，它积累了一些用户输入的检索词这些数据，用户用输入法时候产生的这些词的信息，将它们进行统计分析，把一些新的词汇逐步添加到词库里去，通过云的方式进行管理。比如，去年流行一个词叫“然并卵”，这样的一个词如果用传统的方式，因为它是一个重新构造的词，在输入法是没办法通过拼音“ran bing luan”直接把它找出来的。然而，在大数据思维下那就不一样了，换句话说，我们先不知道有这么一个词汇，但是我们发现有许多人在输入了这个词汇，于是，我们可以通过统计发现最近新出现的一个高频词汇，把它加到司库里面并更新给所有人，大家在使用的时候可以直接找到这个词了。案例2：地图再来看一个地图的案例，在这种电脑地图、手机地图出现之前，我们都是用纸质的地图。这种地图差不多就是一年要换一版，因为许多地址可能变了，并且在纸质地图上肯定是看不出来，从一个地方到另外一个地方怎么走是最好的？中间是不是堵车？这些都是有需要有经验的各种司机才能判断出来。在有了百度地图这样的产品就要好很多，比如：它能告诉你这条路当前是不是堵的？或者说能告诉你半个小时之后它是不是堵的？它是不是可以预测路况情况？此外，你去一个地方它可以给你规划另一条路线，这些就是因为它采集到许多数据。比如：大家在用百度地图的时候，有GPS地位信息，基于你这个位置的移动信息，就可以知道路的拥堵情况。另外，他可以收集到很多