数据包络分析(DEA)方法

二、数据包络分析(DEA)方法

数据包络分析(data envelopment analysis, DEA)是由著名运筹学家Charnes, Cooper 和Rhodes 于1978年提出的，它以相对效率概念为基础，以凸分析和线性规划为工具，计算比较具有相同类型的决策单元(Decision making unit ，DMU)之间的相对效率，依此对评价对象做出评价[1]。DEA 方法一出现，就以其独特的优势而受到众多学者的青睐，现已被应用于各个领域的绩效评价中[2],[3]。在介绍DEA 方法的原理之前，先介绍几个基本概念:

1. 决策单元

一个经济系统或一个生产过程都可以看成是一个单位(或一个部门)在一定可能范围内，通过投入一定数量的生产要素并产出一定数量的“产品”的活动。虽然这种活动的具体内容各不相同，但其目的都是尽可能地使这一活动取得最大的“效益”。由于从“投入”到“产出”需要经过一系列决策才能实现，或者说，由于“产出”是决策的结果，所以这样的单位(或部门)被称为决策单元(DMU)。因此，可以认为，每个DMU(第i 个DMU 常记作DMU i )都表现出一定的经济意义，它的基本特点是具有一定的投入和产出，并且将投入转化成产出的过程中，努力实现自身的决策目标。

在许多情况下，我们对多个同类型的DMU 更感兴趣。所谓同类型的DMU ，是指具有以下三个特征的DMU 集合：具有相同的目标和任务；具有相同的外部环境；具有相同的投入和产出指标。 2. 生产可能集

设某个DMU 在一项经济(生产)活动中有m 项投入，写成向量形式为1(,,)T m x x x =；产出有s 项，写成向量形式为1(,,)T s y y y =。于是我们可以用(,)x y 来表示这个DMU 的整个生产活动。

定义1. 称集合{(,)|T x y y x =产出能用投入生产出来}为所有可能的生产活动构成的生产可能集。在使用DEA 方法时，一般假设生产可能集T 满足下面四条公理: 公理1(平凡公理): (,),1,2,

,j j x y T j n ∈=。

公理2(凸性公理): 集合T 为凸集。如果 (,),1,2,,j j x y T j n ∈=, 且存在 0j λ≥ 满足

1n j j λ==∑

则 11(,)n

j j j j j j x y T λλ==∈∑∑。

公理3(无效性公理)：若()??,,,x y T x

x y y ∈≥≤,则??(,)x y T ∈。，公理4 (锥性公理): 集合T 为锥。如果(),x y T ∈那么 (,)kx ky T ∈对任意的0k >。若生产可能集Ｔ是所有满足公理1 , 2 , 3和4的最小者，则T 有如下的唯一表示形式

()11

,|,

,0,1,2,

,n n

j j j j

j j j T x y x x y y j n λλ

λ==?

=≤≥≥=???

∑∑。 3. 技术有效与规模收益

(1) 技术有效：对于任意的(,)x y T ∈，若不存在'y y >，且'(,)x y T ∈，则称(,)x y T ∈为技术有效的生产活动。

(2) 规模收益：将产出和投入的同期相对变化比值/y x

k y x

称为规模效益。若1k >，说明规模收益递增，这时可以考虑增大投入；若1k <，说明规模收益递减，这时可以考虑减小投入；若1k =，说明规模收益不变，且称为规模有效。

（一） DEA 方法原理与CCR 模型

DEA 方法的基本原理是：设有n 个决策单元(1,2,,)j DMU j n =，它们的投入，产出向量分别为：12(,,

,)0,T j j j mj X x x x =>，12(,,

,)0,

,T j j j sj Y y y y j n =>=。由于在生产过程中各种投入和产出的地位

与作用各不相同，因此，要对DMU 进行评价，必须对它的投入和产出进行“综合”，即把它们看作只有一个投入总体和一个产出总体的生产过程，这样就需要赋予每个投入和产出恰当的权重。假设投入、产出的权向量分别为12(,,

,)T m v v v v =和12(,,

,)T s u u u u =，从而就可以获得如下的定义。

定义2. 称11

,(1,2,

T r rj

j r j T m

i ij

i u y

u Y j n v X v x

θ===

=∑∑为第j 个决策单元j DMU 的效率评价指数。

根据定义可知，我们总可以选取适当的权向量使得1j θ≤。如果想了解某个决策单元，假设为({1,2,

,})o DMU o n ∈在这n 个决策单元中相对是不是“最优”的，可以考察当u 和v 尽可能地变化时，o

θ的最大值究竟为多少? 为了测得o θ的值，Charnes 等人于1978年提出了如下的CCR(三位作者名字首字母缩写)模型：

1111

1,1,2,,,0,0,,.

r ro

r o

i io

i s

r m

i ij

i r i u y

Maximize

v x

u y

subject to

j n v x

u v r i θ=====≤=≥≥?∑∑∑∑ (1)

利用Charnes 和Cooper (1962)[4]提出的分式规划的Charnes-Cooper 变换: 11/

i io

i t v x ==∑

,(1,,)r r tu r s μ==,,(1,,)i i tv i m ω==变换后我们可以得到如下的线性规划模型：

0,1,

,,,0,

1,,;1,

r ro o r m

i io i s

r rj i ij r i r i Maximize y subject to x y x j n r s i m μθωμωμω======-≤=≥==∑∑∑∑ (2)

根据线性规划的相关基本理论，可知模型(2)的对偶问题表达形式：

,1,2,

0,1,2,

o n

ij j

o io j n

j ro j j Minimize subject to

x x i m y

y r s j n θλ

θλλ==≤=≥=≥=∑∑

(3)

上述的模型是基于所有决策单元中“最优”的决策单元作为参照对象，从而求得的相对效率都是小于等于1的。模型(2)或者(3)将被求解n 次，每次即得一个决策单元的相对效率。模型(3)的经济含义是：为了评价({1,2,,})o DMU o n ∈的绩效，可以用一组假想的组合决策单元与其进行比较。模型(3)的第一和第二个约束条件的右端项分别是这个组合决策单元的投入和产出。从而，模型(3)意味着，如果所求出的效率最优值小于1，则表明可以找到这样一个假想的决策单元，它可以用少于被评价决策单元的投入来获取不少于该单元的产出，即表明被评价的决策单元为非DEA 有效。而当效率值为1时，决策单元为DEA 有效。有关DEA 有效根据松弛变量是否都为零还可以进一步分为弱DEA 有效与DEA 有效两类。即通过考察如下模型中的(1,

)i s i m -=与(1,

,)r s r s +

=的值来判别。

(

)

,1,

,,1,

,,,0,,,.

i r i r n

ij j

i o io j n

rj j

r ro j j i r Minimize s s

subject to x s x i m

s y r s

s s i j r θελ

θλλ-

==-=+=-+

+==-==≥?∑

∑∑∑o

(4)

其中ε为非阿基米德无穷小量。

根据上述模型给出被评价决策单元({1,2,,})o DMU o n ∈有效性的定义：

定义3. 若模型(4)的最优解满足*

θ=，则称o DMU 为弱DEA 有效。定义4. 若模型(4)的最优解满足*1o

θ=，且有0i s -=，0r s +=成立，则称o DMU 为DEA 有效。定义5. 若模型(4)的最优解满足*

θ<，则称o DMU 为非DEA 有效。

对于非DEA 有效的决策单元，有三种方式可以将决策单元改进为有效决策单元：保持产出不变，减少投入；保持投入不变增大产出；减小投入的同时也增大产出。CCR 模型容许DMU 在减小投入的同时也增加产出。对于CCR 模型，可以通过如下投影的方式将其投向效率前沿面，从而投影所得的点投入产出组合即为DEA 有效。

***

**?(1),1,,?,1,

io o io i io o io i io ro ro r ro x x s x x s x i m

y y s y r s θθ--+=-=---≤==+≥=

上述投影所得值与原始投入产出值之间的差异即为被评价决策单元欲达到有效应改善的数值，设投入的变化量为io x ，产出的变化量为ro y ：

**?(),1,,?(),1,

io io io io o io i ro ro ro ro r ro x x x x x s i m y y y y s y r s θ-+=-=--==-=+-=

（二） BCC 模型

CCR 模型是假设生产过程属于属于固定规模收益，即当投入量以等比例增加时，产出量应以等比增加。然而实际的生产过程亦可能属于规模报酬递增或者规模报酬递减的状态。为了分析决策单元的规模报酬变化情况，Banker, Charnes 与Cooper 以生产可能集的四个公理以及Shepard 距离函数为基础在1984年提出了一个可变规模收益的模型，后来被称为BCC 的模型[5]。线性形式的BCC 模型可表示为：

111

0, 1,

,0,

1,,;1,,.

r ro o r m i io i s

r rj i ij o r i r i Maximize y u subject to x y x u j n r s i m μωμωμω====-=--≤=≥==∑∑∑∑ (5)

含松弛变量形式的BCC 对偶模型

111

(

)

,1,

,,1,

,,0,,,m

i r i r n

ij j

i o io j n

rj j

r ro j n

j j i r Maximize s s

subject to x s x i m y

s y r s

s s i j r

θελ

θλλ

λ-

==-=+==-+

+==-===≥?∑

∑∑∑∑o

(6)

其中ε为非阿基米德无穷小量。根据BCC 模型中的o u 的取值大小，Banker 和Thrall(1992) [6]提出如下判别方法来判断模型(5)的规模收益。

定理1[6]. 假设含有投入产出组合(,)o o x y 的o DMU 是有效的，那么下面的条件可以判别模型(1)之下o DMU 的规模收益：

(i) 对于投入产出组合(,)o o x y 规模收益不变当且仅当在某个最优解情况下有*

0o u =； (ii) 对于投入产出组合(,)o o x y 规模收益递增当且仅当在所有最优解情况下都有*0o u <； (iii) 对于投入产出组合(,)o o x y 规模收益递减当且仅当在所有最优解情况下都有*0o u >。

其中*o u 代表模型(5)中的最优解。该定理的证明参见文献[6]。

CCR 模型或者BCC 模型计算出来的效率可能存在多个效率值为1的情形，为了进一步区分这些有效决策单元，常用的方法有超效率模型，交叉效率模型以及双前沿数据包络分析模型。下面依次做个简单介绍。

（三）超效率模型

CCR 模型在计算效率值时，经常会出现多个有效的决策单元(效率值为1)的情形，从而使得有效决策单元之间无法进行比较分析。Andersen 和 Petersen (1993) [7]为了实现决策单元的完全排序，将被评价的决策单元从效率边界中剔除，以剩余的决策单元为基础，形成新的效率边界，计算剔除的决策单元到新的效率边界的距离。由于剔除的决策单元不被效率边界所包围，对于有效的决策单元而言，其计算出来的新效率值就会大于1，而对于无效的决策单元而言，其所得的效率值不变，仍小于1，从而使得全体决策单元可以实现完全排序。由于有效的决策单元效率大于1，从而就有了超效率(Super-efficiency) 的概念。基于CCR 模型的超效率DEA 模型为：

1,1,2,

,1,2,,,

0,.

ij j

io j j o n

j ro j j o

j Minimize subject to

x x i m y

y r s j o θλ

θλλ=≠=≠≤=≥=≥≠∑∑ (7)

Banker 和Chang(2006)[8]证实了超效率极易受离群值的影响，因此该方法可以用来检测数据集中是否存在离群值。

（四）交叉效率模型

为了解决DEA 有效决策单元的排序和比较问题，Sexton 等人(1986)[9]提出了交叉效率评价的概念。所谓交叉效率评价就是每个DMU 分别确定一组输入输出权重，供所有的DMUs 评价使用，其中：用DMU 自身确定的权重评价自己的效率，称为自我评价效率；用其它DMU 确定的权重评价自己的效率，称为交叉效率或同行评价效率。以表5—1为例，交叉效率评价的实质是对每个DMU 同时进行自评和同行评价，这样不仅考虑DMU 自评的最好相对效率，而且还考虑了DMU 同行评价给出的交叉效率，利用自我评

价和交叉效率的平均值作为衡量DMU 绩效的综合指标，该指标不仅较好地解决了DMUs 间排序和比较问题，而且解决了CCR 模型由于输入输出权重不一致性导致的不可比较问题。

Sexton 等人(1986)通过引入二级目标来确定输入输出权重、消除权重的不唯一性。随后Doyle 和Green(1994,1995) [10],[11]从同行评价的角度解释了交叉效率的含义，并给出了后来的到广泛引用的二级目标函数-攻击型计算方式和仁慈型计算方式，下面两个模型依次为攻击型交叉效率模型和仁慈型交叉效率模型：

表5—1 交叉效率示意表

决策单元

交叉效率

算术平均值

1 2 … n

1 11θ

12θ … 1n θ 11

j j n θ=∑ 2 21θ 22θ … 2n θ 21

j j n θ=∑

1n θ 2n θ …

nn θ

nj j n θ=∑ 攻击型交叉效率模型： 11,11,*

Subject to 1,

0,1,

,;,

0, 1,,,0, 1,

n rk rj r j j k m n ik ij i j j k s

rk kk

i ik

r i s

rj ik ij r i rk ik Minimize u y v x u

y v x

y v x j n j k u r s v i m θ==≠==≠====??

????

= ???

-=-≤=≠≥=≥=∑∑∑∑∑∑∑∑ (8)

仁慈型交叉效率模型: 11,11,*

Subject to 1,

0,1,

,;,

0, 1,,,0, 1,

n rk rj r j j k m n ik ij i j j k s

rk kk

i ik

r i s

rj ik ij r i rk ik Maximize u y v x u

y v x

y v x j n j k u r s v i m θ==≠==≠====??

????

= ???

-=-≤=≠≥=≥=∑∑∑∑∑∑∑∑ (9)

然而，至今仍无一个准则来判别什么情况下使用攻击型或者是仁慈型。为了避免目标函数选择上的两难， Wang 和 Chin (2010a)[12] 提出了一种中性交叉效率模型。其模型形式如下所示：

{1,,}

1111 , ,

1, 1,

,;, 0,1,,,

ro ro m r s io io i s

ro ro

r m io io

i s

ro rj r jo

io ij

i ro io u y Maximize Minimize v x u y subject to v x u y j n j o v x

u r s v i m δθθ∈=====????

=??????

==≤=≠≥=≥=∑∑∑∑∑

(10)

利用Charnes-Cooper 的变换公式，可得中性交叉效率模型的线性模型 1

0, 1,

,;, 0,1,,,

0,1,

io io i s ro ro oo r s m

ro rj io ij r i ro ro io Maximize subject to v x u y u y v x j n j o u y r s v i m δ

θδδ======-≤=≠-≥=≥=≥∑∑∑∑ (11)

交叉效率模型还有其他一些改进方式，例如：Liang 等人(2008a)[13]年提出了3个可供选择的二级目标计算方式；Liang 等人(2008b)[14]将非合作博弈理论与交叉效率评价方法结合起来，提出了博弈交叉效率的概念，并设计了算法求解博弈交叉效率值，同时证明了该博弈交叉效率值即为纳什均衡点；Wang 和Chin (2010b)[15]提出了一些可选择性交叉效率评价模型；Wang 和Chin(2011)[16]在交叉效率的研究中率先引入有序加权平均算子(Ordered weighted averaging operator , OWA)，很好的体现了决策者的各种偏好，尤其是对不合理的交叉效率评价值赋予较小的权重，从而使得最终的评价结果更为科学合理。有兴趣的读者可以进一步参阅其他有关交叉效率的相关论文。

（五）几何平均效率模型

为了区分有效决策单元的排序难问题，Wang 等人(2007)[17]于2007提出了悲观效率模型，并将其与乐观效率模型相结合，提出了基于几何平均值的双前面数据包络分析方法。基于悲观前沿面的数据包络分析模型为：

111

0,1,2,

,,,0,1,2,

,;1,2,

r ro r m

i io

i s m

r rj i ij r i r i Minimize y subject to

y x j n r s i m φμνμνμν======-≥=≥==∑∑∑∑ (12)

其中r μ和i v 是非负权重。模型(12)与模型(2)的区别在于：模型(12)计算所得效率均大于等于1，而模型(2)

所得的效率值均小于等于1。基于几何平均值的双前沿数据包络分析方法就是将模型(12)所得的效率与模型(2)所得的效率通过几何平均的方式加以综合，即：

*o ?其中*

o ?为综合后的({1,2,,})o DMU o n ∈的效率值，而*o θ和*o φ分别对应该决策单元在模型(2)与模型(12)下

的最优效率值。

下图为有效前沿面和无效前沿面的一个演示图。图5-1 决策单元的有效和无效前沿面

（六）最优决策单元的选择

在实际应用中，决策者有时候关心的是哪个方案或者哪个决策单元是最优的，而对于其他单元的排序并不在意。因此，如何利用DEA 模型直接寻求最优决策单元成为学者们所感兴趣的问题。Amin 和Toloo (2007)[18]提出了一个混合整数线性规划模型，采用两步法以期实现寻求最优决策单元。然而随后Amin (2009)[19]发现这种两步法有时会产生两个或者两个以上的最优决策单元，因此他提出一个非线性混合整数模型。Foroughi (2011)[20]发现Amin 的非线性规划模型在有些情况下是不可行的。不过Foroughi (2011)的模型存在着一些冗余的约束且对输入输出权重给定了保证域，并且该模型易受离群值(outliers)的影响，从而导致所选择的最优决策单元不正确。因此，Wang 和 Jiang (2012)[21]提出了三种混合整数线性规划模型来改进Foroughi (2011)的模型中所存在的问题。这三种最优决策单元选择的模型分别为：

1. 基于不变规模收益的混合整数线性规划模型的最优决策单元选择方法

Minimize ∑∑∑∑====???

??-???? ??s r n j rj r m

i n j ij i y u x v 1111

1 2 4 6 8 产出1/投入