多指标面板数据的聚类分析及其应用_郑兵云
聚类分析在福建省经济研究中的应用

聚类分析在福建省经济研究中的应用摘要:本文论述聚类分析的基础知识,并以福建省9个市2014年的地区生产总值、金融机构人民币各项存款余额等十项综合经济指标为样本,利用SPSS 软件,对他们的综合发展水平进行类型划分及差异性程度分析.关键词:聚类分析 综合经济指标 福建省经济区划分一、引言:聚类分析(Cluster Analysis )又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。
聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。
随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。
在中国,区域经济发展不平衡现象由来已久,区域经济差异更是不断的扩大。
本文以9个市的10个经济指标作为研究对象,来分析本省地域经济之间的差异性以及相似性,评价各地区的经济发展现状。
二、基础知识1.聚类分析的原理聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类. 常见的聚类分析方法有系统聚类法、K -均值法等. 2.样品间的距离和相似系数 (1)距离的计算描述样品间的亲疏程度最常用的是距离,设观测数据),,1;,,2,1(m j n i x xj ==列成下列X 矩阵的形式.设有n 个样品,每个样品测得p 个变量,原始资料阵为⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X 212222111211,其中ij x 为i 个样品的第j 个变量的观测数据.用ij d 表示第i 个样品的第j 个样品之间的距离,其值越小表示两个样品接近程度越大.距离的一般要求:① ;0;,,0)()(j i ij ij X X d j i d =⇔=≥当对一切 ② ;,,j i d d ji ij 对一切=③ ).(,,,三角不等式对一切k j i d d d kj ik ij +≤ 常用的距离有以下几种:1)闵氏距离,其中常用的距离有绝对距离和欧氏距离.绝对距离)()1(1∑=-=pk jk ik ij X X d .欧氏距离.欧氏距离是常用的距离,但它也有不足之处,一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的.通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离.2)马氏距离qpk qjk ik ij X X q d 11)()(∑=-=2112)()2(∑=-=pk jk ik ij X X d设i X 与j X 是来自均值向量为μ,协方差为()∑>0的总体G 中的p 维样品,则两个样品间的马氏距离为)()()(1'2j i j i ij X X X X M d --=∑-.马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标变量的影响,将原始数据作线性变换后,马氏距离不变.选择不同的距离,聚类结果会有所差异.在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类. (2)相似系数在对多元数据进行分析时,相对于数据的大小,我们更好地对变量的变化趋势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有以下两种: 1)夹角余角变量i X 与j X 是来自均值向量为μ,协方差为()∑>0x 的总体G 在的p 维空间的两个向量,则这两个向量间的夹角余弦可表示为))((cos 12121∑∑∑====pk jk pk ikpk jkikij X X X Xθ.2)相关系数相关系数经常用来试题变量间的相似性.变量i X 与j X 的相关系数定义为∑∑==----=pk j jk i ikpk j jk i ikij X X X XX X X Xr 1221)()())((.在实际问题中,对样品分类常用距离,对变量分类常用相似系数,即Q 型聚类分析常用距离,R 型聚类分析常用相似系数.4系统聚类分析方法开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类.系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward 法等八种不同的方法三、实例例表1给出了 2014年能反映福建省9个市的综合经济的十项指标分别为:X1 地区生产总值(亿元),X2金融机构人名币各项存款余额(亿元),X3农村居民人均可支配收入(元),X4 城镇居民人均可支配收入(元),X5 人口(万人),X6固定资产投资(亿元),X7规模以上工业固定资产(万元),X8 地方公共财政收入(万元),X9 公共财政支出(万元),X10城镇单位在岗职工平均工资(元).利用数据对福建省9个市的综合发展水平进行类型划分及差异性程度分析.数据来源于2014年福建省统计年鉴由于选用的数据在数量级以及单位上具有差别,不能直接进行比较,所以要对数据进行无量纲处理,在spss中可以通过“分析--描述统计--描述”得到标准化后的数据,这里得到的无量纲的数据为通过Z标准化方法得来的。
应用多元统计分析聚类分析

应用多元统计分析聚类分析多元统计分析是一种利用多个变量对数据进行综合分析的方法,通过对各个变量之间的关系进行分析,可以帮助我们了解数据的内在规律,揭示变量之间的相互作用,为问题的解决提供依据和参考。
其中,聚类分析是多元统计分析中的一种方法,它通过将样本数据划分为不同的组别,使得组内的样本之间相似度较高,组间的样本相似度较低,从而实现数据的分类和整理。
聚类分析的过程一般可分为以下几个步骤:1.确定聚类的目标与方法:在进行聚类分析之前,需要明确分析的目标,即希望把样本分成多少个组别,以及采用什么样的分析方法。
2.选择合适的变量和数据:聚类分析需要选择一些具有代表性的变量作为分析对象,并准备好相应的数据。
这些变量可以是数值型、名义型或顺序型的,但需要注意的是,不同类型的变量需要采用不同的距离度量。
3.计算样本间的距离:通过选择合适的距离度量方法,可以度量各个样本之间的相似度或距离,常用的距离度量方法有欧氏距离、曼哈顿距离和相关系数等。
4.执行聚类分析:根据选定的聚类方法,进行聚类分析。
常用的聚类方法有层次聚类和非层次聚类两种,其中层次聚类可以进一步分为凝聚聚类和分裂聚类等。
5.判断聚类结果的合理性:根据实际情况和问题要求,对得到的聚类结果进行合理性检验。
可以通过观察不同聚类组别内的样本特征和组间的差异度,评估聚类结果的合理性。
6.解释和应用聚类结果:根据聚类分析得到的结果,可以对分类的样本进行解释和应用。
例如,可以找到各个类别的典型样本,分析其特征和规律,为问题的解决提供参考和支持。
聚类分析在实际应用中具有很广泛的应用价值。
例如,在市场细分方面,可以利用聚类分析将消费者划分为不同的群体,有针对性地开展精准营销;在医药领域中,可以通过聚类分析将疾病患者划分为不同的病种,帮助医生进行诊断和治疗方案的选择;在社会科学研究中,可以利用聚类分析将受访者划分为不同的人群,通过对不同人群的特征分析,了解社会问题背后的机制和原因。
聚类分析指标怎么操作方法

聚类分析指标怎么操作方法聚类分析是一种常用的数据挖掘方法,它将相似的数据样本分为一组,并将不相似的数据样本分为不同的组。
聚类分析可以帮助我们理解数据之间的相似性和差异性,发现数据的内在结构和规律。
在聚类分析中,我们可以使用不同的指标来评估聚类的质量和效果。
聚类分析指标主要有内部评价指标和外部评价指标两大类。
一、内部评价指标内部评价指标主要是通过对聚类结果的内部特性进行评估和比较,判断聚类的质量和效果。
常用的内部评价指标有以下几种。
1.紧密度指标紧密度指标衡量了聚类中样本之间的相似度或距离,主要有以下几种。
(1)SSE(Sum of Squared Errors)SSE是一种衡量样本与其所在中心点之间距离平方和的指标。
其中,每个样本到其所在中心点的距离平方和的总和越小,表示聚类的效果越好。
(2)SSB(Sum of Squares Between)SSB是一种衡量各个聚类中心之间的距离平方和的指标。
其中,聚类中心之间的距离越大,表示聚类的效果越好。
2.分离度指标分离度指标衡量了不同聚类之间的距离或差异性,主要有以下几种。
(1)ARI(Adjusted Rand Index)ARI是一种衡量聚类结果与真实分类结果一致性的指标。
其中,ARI的取值范围为[-1,1],值越接近1表示聚类结果与真实分类结果越一致。
(2)FM指数(Fowlkes-Mallows Index)FM指数是一种衡量两个聚类结果之间的相似度的指标。
其中,FM指数的取值范围为[0,1],值越接近1表示聚类结果越一致。
3.紧密度与分离度的综合指标紧密度和分离度都是衡量聚类质量的重要指标,可以使用综合指标来综合考虑二者的效果。
常用的综合指标有以下几种。
(1)DB指数(Davies-Bouldin Index)DB指数是一种衡量聚类质量的综合指标,考虑了聚类中样本之间的平均距离和聚类中心之间的最大距离。
其中,DB指数的取值范围为[0,无穷大],值越小表示聚类质量越好。
第九章聚类分析

• 例:下表是同一批客户对经常光顾的五座商场在购物环境和
服务质量两方面的平均得分,现希望根据这批数据将五座商
7、如果参与聚类分析的变量存在数量级上的差异, 应在Transform Values框中的Standardize选项 中选择消除数量级差的方法。并指定处理是针对变 量的还是针对样本的。By variable表示针对变量, 适于 Q 型聚类分析;By case 表示针对样本,适 于R型聚类分析。
8、单击Statistics按钮指定输出哪些统计量
R型聚类:对变量进行聚类,使具有相似性的变量聚集在 一起,差异性大的变量分离开来,可在相似变量中选择 少数具有代表性的变量参与其他分析,实现减少变量个 数,达到变量降维的目的。
凝聚方式聚类:其过程是,首先,每个个体自成一类; 然后,按照某种方法度量所有个体间的亲疏程度,并将 其中最“亲密”的个体聚成一小类,形成n-1个类;接下 来,再次度量剩余个体和小类间的亲疏程度,并将当前 最亲密的个体或小类再聚到一类;重复上述过程,直到 所有个体聚成一个大类为止。可见,这种聚类方式对n个 个体通过n-1步可凝聚成一大类。
平方欧式距离(Squared Euclidean distance ) 切比雪夫(Chebychev)距离
max xi yi max( 7366 , 6864 )
Block距离
k
xi yi 73 66 68 64 i1
2、计数变量个体间距离的计算方式
卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离
经济统计数据的聚类分析方法

经济统计数据的聚类分析方法引言:经济统计数据是经济研究和政策制定的重要基础,通过对经济数据的分析和解读,可以帮助我们了解经济的发展趋势、结构特征以及潜在问题。
而聚类分析作为一种常用的数据分析方法,可以将相似的经济指标归为一类,帮助我们更好地理解经济数据的内在联系和规律。
本文将介绍经济统计数据的聚类分析方法,探讨其在经济研究中的应用。
一、聚类分析的基本原理聚类分析是一种无监督学习方法,它通过对数据集进行分组,将相似的样本归为一类。
其基本原理是通过计算样本之间的相似性或距离,将相似性较高的样本划分为同一类别。
聚类分析可以帮助我们发现数据集中的内在结构,并将数据集划分为若干个互不重叠的类别。
二、经济统计数据的聚类分析方法在进行经济统计数据的聚类分析时,首先需要选择适当的指标。
常用的指标包括国内生产总值、消费者物价指数、劳动力参与率等。
接下来,我们可以使用不同的聚类算法对这些指标进行分析。
1. K-means聚类算法K-means是一种常用的聚类算法,它将数据集分为K个互不重叠的类别。
该算法首先随机选择K个初始聚类中心,然后通过计算每个样本与聚类中心的距离,将样本分配给距离最近的聚类中心。
接着,更新聚类中心的位置,并迭代上述过程,直到聚类中心的位置不再发生变化。
K-means算法对初始聚类中心的选择较为敏感,因此需要进行多次试验,选取最优的结果。
2. 层次聚类算法层次聚类算法是一种自底向上的聚类方法,它首先将每个样本视为一个独立的类别,然后通过计算样本之间的相似性,逐步将相似的样本合并为一类。
该算法可以生成一个聚类树状图,帮助我们观察不同层次的聚类结果。
层次聚类算法的优点是不需要预先指定聚类个数,但是计算复杂度较高。
3. 密度聚类算法密度聚类算法是一种基于样本密度的聚类方法,它将样本空间划分为具有高密度的区域和低密度的区域。
该算法通过计算每个样本周围的密度,并将密度较高的样本作为核心对象,进而将其邻近的样本归为一类。
面板数据的因子分析

第26卷第6期贵州大学学报(自然科学版)Vol.26No.6 2009年 12月Journal of Guizhou University(Natural Sciences)Dec.2009文章编号 1000-5269(2009)06-0010-04面板数据的因子分析王 培3,王焱鑫,崔 巍(贵州大学理学院,贵州贵阳550025)摘 要:主要应用多元数理统计中的因子分析方法,对多指标面板数据进行了分析,并应用综合评分法对各地区的工业企业生产效率进行了分类。
结果表明,应用因子分析的结果与现实基本相符。
关键词:面板数据;因子分析中图分类号:O212 文献标识码:A 因子分析是主成分分析的推广和发展,也是多元统计分析中降维的一种方法。
因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系[1]。
面板数据是同一截面单元数据集上对不同时间段上的重复观测值,是时间序列和截面数据的混合数据。
面板数据的独特优点,使之在理论及应用领域都得到了长足的发展。
然而,很少有学者考虑面板数据在多元统计中的分析。
从Bonze D.C和Her2 mosilla A.Y开创性的将多元统计的方法引入到面板数据的分析中来,并用概率连接函数和遗传算法改进了聚类分析的算法,此后,国外对相关问题的研究一直停滞不前;国内学者朱建平、郑兵云分别对单指标面板数据及多指标面板数据的聚类分析进行了一定的研究,并做了实证分析[2,3]。
本文将因子分析与面板数据结合,利用实例解释面板数据的因子分析的结果。
1 因子分析的基本原理1.1 正交因子模型设X=(X1,…,X p)′是观测的随机向量, E(X)=μ,D(X)=∑,且设F=(F1,…,F m)′, (m<p)是不可观测的随机向量,E(F)=0, D(F)=I m.又设ε=(ε1,…,εp)′与F互不相关,且E(ε)=0,D(ε)=d iag(σ21,…,σ2p)≡D假定随机向量X满足以下模型:X1-μ=a11F1+a12F2+…+a1m F m+ε1X2-μ=a21F1+a22F2+…+a2m F m+ε2… … … … … … …X p-μ=a p1F1+a p2F2+…+a p m F m+εp(1)以上模型(1)称为正交因子模型,用矩阵表示如下 X=μ+A F+ε(2)其中F1,…,F m称为X的公共因子;ε1,…,εp 称为X的特殊因子。
多指标面板数据聚类的SAS实现
研究主要集 中在计量模型 ,在统计方 法领域的研究较少 , 而
且在仅有 的研 究 中 , 大 多是关 于理 论和思路 的介绍 , 并 没有 相关 实践操作的说 明, 阻碍 了面板数据 ( C E D ) :
 ̄ j ( C E D ) =覆 一 d j ( A Q E D ) + p 。 d 日 ( I s E D ) + ( v c E D )
摘 要: 基于 多指标面板数据聚类的理论 , 以全 国 3 1个省市的城 市化水平为例 , 介绍利用 S A S编程 实现此聚类方 法的过程 , 结果表明 , 该S A S 程序 显示 了良 好 的应 用性 , 为 多指标面板数据聚类的 实现提供 了 参考和依据。
关键 词: 面板数据 ; 聚类; S A S程序 中图分类号 : F 8 3 2 文献标志码 : A 文章 编号 : 1 6 7 3 — 2 9 1 X ( 2 0 1 3 ) 2 6 — 0 2 5 5 — 0 4
引言
面板数据作为时间序列数据 和截 面数 据的结合 , 能够提
供 更多信 息 , 因而受 到学 者的广泛关注 。国内对面板数 据的
其中 = 踞 : , = ∑ ‰ 一 ) 。 瓦
表示 t 时期第 i 个个体 m个指标 的均值 , S 表示 t 时期第 i 个 个体 m个指标 的标准差 , 和 分别为 第 j 个个体 m个指 标的均值 和标准差 。
D a t a y s s j ; I n p u t t p r o ¥x l — x 6; L a b e l t = ” 时 间 ”p r o = ” 省
6 h 和 b 表示 k指标在相邻两时期 的绝对差值 。 全时变异系数距离 ( V C E D) : d t I c v c E D ) 一 ) ( 3 )
面板数据的有序聚类分析及其应用_以全球气候变化聚类分析为例_杨毅
i=1
∑λ
i
珚( )= 1 x ) x t t i( ∑ Ni =1 ( )单指标面板数据的方差 : 2
)= v a r t x( 1 2 珚( [ ) ) ] x t t -x i( ∑ N -1i =1 ( )单指标面板数据 x )的协方差 : 3 t i(
N N
三、 面板数据的有序聚类分析
系统 聚 类 和 K 均 值 聚 类 方 法 都 假 设 样 本 的 地 没有考虑样品的次序 。 有序样本的 位是彼此独立的 ,
1 3
统计与信息论坛
此, 本文以全球气候变化中的气温数据为例 , 借助主 把有 序 聚 类 算 法 与 面 板 数 据 的 处 理 成分分析方法 , 技术结合起来 , 构建有序样本面板数据的相似指标 , 采用费希尔最优求 解 算 法 , 就有序样本单指标面板 数据的聚类分析问题进行分析探讨 。 这一统计思想 将肖泽磊等人提出的面板数据无序聚类方法引申至 有序聚类研究领域 。
( ; 基金项目 : 国家自然科学基金项目 《 应对气候变化的煤炭资源低 碳 化 利 用 理 论 与 政 策 研 究 》 山西省高等学校 7 1 1 7 3 1 4 1) ( ) 人文社会科学重点研究基地项目 《 晋商经营管理思想对现代企业管理的借鉴意义研究 》 2 0 1 1 1 3 1 2 作者简介 : 杨 毅, 男, 北京人 , 博士生 , 经济师 , 研究方向 : 气候变化与能源投融资 ; 赵国浩 , 男, 浙江东阳人 , 博士生导师 , 研究方向 : 资源管理 , 工商管理 , 管理统计 ; 秦爱民 , 男, 山西夏县人 , 气象学硕士 , 副研级高工 , 研究方向 : 天气 , 气候 , 应用气象 。
[ 1]
考虑了各时间维度 的 变 化 特 征 , 借鉴主成分分析方 法, 通过构建综合评价函数序列矩阵的相似指标 , 对
聚类分析应用
聚类分析简介
▪ 聚类分析的算法选择
1.根据数据集的特点和聚类目的选择合适的聚类算法,例如对于大规模数据集可以采用高效的 划分聚类算法,对于形状复杂的簇可以采用密度聚类算法。 2.对于不同的聚类算法,需要了解它们的优缺点和适用场景,以便在实际应用中选择最合适的 算法。 3.聚类算法的选择需要考虑数据的维度、规模、分布等因素,以及聚类结果的解释性和可用性 。 以上是关于聚类分析简介的三个主题内容,希望能够帮助到您。
聚类分析应用
目录页
Contents Page
1. 聚类分析简介 2. 聚类分析方法 3. 数据预处理 4. 距离度量方法 5. 聚类质量评估 6. 常见聚类算法 7. 聚类应用案例 8. 总结与展望
聚类分析应用
聚类分析简介
聚类分析简介
▪ 聚类分析简介
1.聚类分析是一种无监督学习方法,用于将数据集中的对象根据相似性进行分组,使得同一组 (即簇)内的对象尽可能相似,而不同组的对象尽可能不同。 2.聚类分析可以应用于各种领域,如数据挖掘、模式识别、图像处理、生物信息学等,帮助研 究者发现数据中的内在结构和规律。 3.常见的聚类算法包括划分聚类、层次聚类、密度聚类、网格聚类等,不同的算法有着不同的 优缺点和适用场景。
▪ 共享最近邻聚类
1.共享最近邻聚类是一种基于数据点之间共享最近邻信息的聚 类方法,通过计算数据点之间的相似度,实现簇的划分。 2.共享最近邻聚类算法对噪声和异常点有较好的鲁棒性,可以 处理形状复杂的簇和高维数据,但计算复杂度较高。 3.通过改进相似度计算方式、引入近似算法或结合其他技术, 可以优化共享最近邻聚类的性能和可扩展性。
常见聚类算法
▪ 密度峰值聚类
1.密度峰值聚类是一种基于密度的聚类方法,通过寻找具有最 高局部密度的数据点作为聚类中心,实现簇的划分。 2.密度峰值聚类算法不需要预先设定簇的数量,对形状复杂的 簇和噪声有较好的鲁棒性,但计算复杂度较高。 3.通过优化密度峰值定义方式、引入核函数或结合其他算法, 可以提高密度峰值聚类的性能和效率。
聚类分析数据
聚类分析数据聚类分析是一种数据分析方法,用于将相似的数据点归为一类。
它是无监督学习的一种常见技术,可以匡助我们发现数据中隐藏的模式和结构。
在本文中,我们将介绍聚类分析的基本概念、常用的聚类算法以及如何应用聚类分析来解决实际问题。
一、聚类分析的基本概念聚类分析的目标是将数据点划分为若干个互相之间相似度较高的簇,使得同一簇内的数据点相似度较高,而不同簇之间的数据点相似度较低。
在进行聚类分析之前,我们需要选择适当的相似度度量方法和聚类算法。
1. 相似度度量方法相似度度量方法用于衡量两个数据点之间的相似程度。
常用的相似度度量方法包括欧氏距离、曼哈顿距离、余弦相似度等。
选择合适的相似度度量方法对于聚类分析的结果具有重要影响。
2. 聚类算法聚类算法用于将数据点划分为不同的簇。
常用的聚类算法包括K均值聚类、层次聚类、DBSCAN等。
不同的聚类算法适合于不同类型的数据和问题,选择合适的聚类算法可以提高聚类分析的效果。
二、常用的聚类算法1. K均值聚类K均值聚类是一种基于距离的聚类算法,它将数据点划分为K个簇,其中K是用户预先指定的参数。
该算法的基本思想是通过迭代优化的方式,将数据点分配到离其最近的簇中,然后更新簇的中心点,直到达到收敛条件。
2. 层次聚类层次聚类是一种将数据点组织成树状结构的聚类算法。
它的基本思想是通过计算数据点之间的相似度,逐步合并相似度最高的数据点或者簇,直到所有数据点都被合并到一个簇中或者达到预定的聚类数目。
3. DBSCANDBSCAN是一种基于密度的聚类算法,它将数据点划分为核心点、边界点和噪声点三类。
该算法的基本思想是通过计算数据点的密度,将密度达到一定阈值的核心点连接在一起形成簇,而边界点则被分配到与其相邻的核心点所在的簇中。
三、聚类分析的应用1. 市场细分聚类分析可以匡助企业将市场细分为不同的消费者群体。
通过分析消费者的购买行为、偏好等数据,可以将消费者划分为具有相似特征的簇,从而有针对性地制定营销策略。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2800年3月第27卷第2期数理统计与管
理
APPliationofStatistisandManagmntMa2800
V627No2
文章编号:002一566(2500)02刁265刁6
多指标面板数据的聚类分析及其应用
郑兵云`,
(1南京航空航天大学经济与管理学院南京21001;62安徽财经大学安徽蚌埠233041)摘要多指标面板数据的多元统计分析在国内研究中尚属空白本文分析了面板数据的数据格式
和数字特征根据聚类分析原理重新构造了多指标面板数据的距离函数和离差平方和函数在此
基础上说明了多指标面板数据的聚类分析过程最后对我国各地区工业企业生产效率进行了聚类实证分析显示了良好的效果关橄词多指标;面板数据;聚类分析;生产效率
中图分类号:C
s
lZ文献标识码
A
TheClusteringAnalysisofMultivariablePanelDataandItsAPPlieatio
n
ZHENGBi
n片yun
(1ColegeofcEonomiesandManagementNanjingUniversityofAeronauticsandAstronauties
Nanjing210016China:2AnhuiUniversiytofFinaneeandEeonomiesBengbuAnhui233041Chi
na
)
Abstract:It15wellknownthatifnaneedatatendtohevaytialedInthisP即eronabasiso
fan
exPonentialregresionmodelfor109spacingsweProPoseanextremequantileestimatorofhevay
tialed
distributionandatt山nanestimationofval-ueatriskAsanemPiriealexampleweeonsideravalu-eatriskealeulationsforChinastockindexKeywords:multivariable;paneldata;elusteringanalysis:Produetiveeifeiene
y
0引言
面板数据同时包含截面数据和时间序列具有空间维度和时间维度的特征面板数据具有优良的特性在研究中日益受到重视近几年在理论研究和应用研究上都得到了广泛而深入的发展相关研究也表明利用面板数据建模取得了良好的效果然而现有的理论和应用主
要是从计量建模的角度研究l[]很少学者考虑面板数据在多元统计中的分析BonzeDC和eHmr
osil
a
.AY开创性地将多元统计方法引入到面板数据的分析中来并用概率连接函数和
遗
传算法改进了聚类分析的算法zI]在此之后国外对此相关的研究也还是比较少的国内学者朱建平曾对单指标面板数据的聚类分析进行了一定的研究并做了实证分析s[]单指标面板
数据的聚类分析在理论研究上是问题的一个简化其聚类算法和聚类过程类似于截面数据的聚类分析相对比较简单数据易于处理显然自然现象和社会现象是复杂的单指标包含的信息量太少不能充分反映现象的特征因此单指标面板数据的聚类分析在实际应用中受
收稿B期:2007年7月26日;收到修改稿日期2007年1
1月2
6日
DOI:10.13860/j.cnki.sltj.2008.02.014266数理统计与管理第27卷第2期2005年3月
到很大限制多指标可以充分反映面板数据的优良特性但因其复杂性在很大程度上阻碍了
面板数据在多元统计分析中的的相关研究在国内多指标面板数据在多元统计分析中的研
究可以说是一个空白本文尝试对多指标面板数据的聚类分析作一些基础性的研究和简单的实证分析
1面板
数据的数据格式和数字特征
面板数据是一种复杂的数据结构形式在进行深入分析之前需要对面板数据作
预处理
充分认识面板数据的数据格式了解其统计描述特征初步获得面板数据的一些有用信息这对下一步进行聚类分析是一个基础
11单指标面板数据
单指标面板数据的数据格式可以用一个二维表来表示设总体共由N个样品每个样
品
的特征用一个指标X来表示时间长度为T则凡(t)表示第坛个样品在亡时间的指标值而
截面数据的数据格式也是用一个二维表来表示的设总体共由N个样品每个样品的特征用p个指标来表示则与表示第乞个样品第j个指标的数值经比较易发现将单指标面板数
据的时间维度转换为截面数据的指标维度表示两种数据的统计描述特征相似其平均值方
差和协方差等统计量的函数表现形式都是相同的在聚类分析中二者关于样品距离的算法聚类过程都是相同的因此单指标面板数据的聚类分析可以借鉴截面数据的聚类分析其
聚
类结果和聚类谱系图可以直接运行相关软件获得可见单指标面板数据处理比较容易
12多指标面板数
据
多指标面板数据的结构要复杂一些不同于上述的数据可以由一个简单的二维表来表示严格上应该用三维表来表示在平面上我们可以将其转换为一个二级二维表的形式如表1研究总体共有N个每个样品的特征用p个指标表示(Xl儿…凡…凡)时间长度为
T则凡只t)表示第葱个样品第J个指标在t时间的
数值
农1单指标面板数据时间
样本Xl…凡…凡12Xll(1)X2:(1)…凡X:,(1)X::(亡)…Xij(t)…Xip(尤)卜二义2,(1)…XZp(1)X21(亡)…X2,(亡)XZp(t)Xl一ùùX,(l)…X`J(1)…从p(l)卜二}X`:(t)…X`,(t)…X`p(t)N】X、l(1)…X、,(1)…X、p(l)卜二}X、l(亡)…X、,(亡)…X、p(亡)Txl…凡…
凡
Xll(T)…Xl,(T)…X:p(T)
瓜l(T)…xZJ(刀…XZp(T)
X`,(T)…凡j(T)…X`p(T)
X、l(T)…X、,(T)…X、p
(T)
下面给出多指标面板数据的几个统计量其中乞〔【1川;Jc【1才t〔{1刘在聚类分析中需要用到这几个统计量1第J个指标在t时间的均值
(1)丸N艺阁l一N凡(亡)=郑兵云:多指标面板数据的聚类分析及其应用2第j个指标的均值
TN凡一会命艺艺介t()
亡=1云=
1
3第夕个指标在t时间的方
差
VAR凡`
!
,一
击菩`
X汀
“,一
凡(`,,
’
(3)
4第j个指标的
方差
(4)
一凡
一心
N艺倒
VAR
x,
1l
TN一
1
认识了多指标面板数据的数据格式定义了几个基本统计量之后我们就可以根据实际研究的需要进行多指标面板数据的计量建模分析和多元统计分析本文只讨论其聚类分
析
2多指标面板数据的聚类分析
多指标面板数据的聚类分析比较复杂目前没有相应的分析软件可供使用这也是面板数据在多元统计方面研究很少的一个重要原因当对间题的要求不是太严格时可以采用一
种“退化”的思路对每一指标在时间维度上取均值抽象为某一特定时
间的情形从而消去
时间维度退化为截面数据当然这种“退化”的处理方法至少存在两个缺陷:一是信息损失间题均值只能表现事物平均变动情况不能反映其他分布特征如离散程度等;二是存在
一个隐形假设即各样品的每一相同指标在时间维度上同方向变化否则会得出不准确或错
误的结论
21聚类分析的墓本思想
根据已知数据观察各样品或变量之间亲疏关系的相似程度依照某种准则把一些相似程度较大的样品或变量聚合为一类把另外一些相似程度较大的样品或变量聚合为另外
一
类……使同一类内差别较小而类与类之间的差别较大最终将观察样品或变量分为若干类14]聚类分析需要处理两个核心问题:用什么统计量来表征样品之间的相似程度;采用何种具
体系统聚类方法或者说采用何种准则确定类与类之间的相似程度
.22相似性指标
从一组复杂数据产生一个相当简单的类结构必然要求进行相似性”的度量当对样
品进行聚类时靠近”可以由某种距离来刻画总体中第:样品与第k样品之间的距离记为
公;心、应满足的以下几个
条件
:
(l)公、全0当且仅当恙二X、时成、二;0(2)d,*=d*
r
对一切凡Xk
;
(3)d,*
三琳
,
+
d幻对一
切
XX;
凡
常见的距离函数由绝对距离(Block距离)欧氏距离(Euelideandi
stanee)明考斯基距离
(Minkowisk)切比雪夫距离(Cbe妙hcve)马氏距离(Mhaal
anobis)等
本文选择欧式
距离描
述样品之间的相似程度当然加入时间维度后的多指标面板数据与截面数据的欧式距离函