2017数学建模B“拍照赚钱”的任务定价模型

合集下载

基于最短距离的打包任务定价模型

基于最短距离的打包任务定价模型

Wide Angle | 广角MODERN BUSINESS现代商业184基于最短距离的打包任务定价模型席蒙雨 刘婵 西北政法大学 710122摘要:随着科学技术的不断发展,我们的生活中出现了拍照赚钱这种自助式的劳务众包平台,会员可在APP上接受并完成任务来获得一定的酬金,所以APP中每一任务的定价多少就会成为该任务完成与否的关键因素。

本文针对2017全国大学生数学建模竞赛B题数据,通过MATLAB软件计算出众多会员距每一任务位置的最短距离,找到距打包任务总距离最短的会员,并以此为基础建立了打包任务定价模型,找到了切实有效的任务定价方案,从而提高了任务的完成效率。

关键词:拍照赚钱;最短距离;最小二乘法;打包任务;等差次序定价一、问题的提出与分析(一)问题的提出“拍照赚钱”是移动互联网下的一种自助式服务模式。

用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。

但是如果任务定价不合理,有的任务就会无人问津,而导致商品检查的失败。

而实际情况下,多个任务的位置可能是比较集中的,导致用户会争相选择,所以有的企业会考虑将这些任务联合在一起打包发布。

在这种考虑下,企业应如何修改原先的任务定价,对打包任务进行定价,而这种定价方案又对任务的完成情况有什么影响呢?(二)问题的分析本文我们需要解决的问题是对打包任务进行合理的定价,使得任务能快速有效的完成,所以首先我们需要建立一个数学模型来帮助问题得到更好的解决,利用MATLAB软件求出距每一任务位置最短距离的会员位置,并由他来完成任务。

利用最小二乘法对最短距离和原先的任务定价做简单线性回归,得到样本回归函数。

其次利用之前MATLAB得到的数据,找到完成打包任务总距离最短的会员,将最短总距离代入样本回归函数,得到打包任务的总报酬。

最后将总报酬合理地分配到打包任务的每一任务上,得到优良的打包任务定价方案。

2017数学建模B“拍照赚钱”的任务定价模型

2017数学建模B“拍照赚钱”的任务定价模型

“拍照赚钱”的任务定价模型摘要本题要求分析“拍照赚钱”任务的服务模式,研究其定价规律,并设计新的任务定价方案,结合实际情况,修改定价模型,最终对新项目设计任务定价方案,并评价方案的实施效果。

求解的具体流程如下:针对问题一:为了研究项目的定价规律,分析任务未完成的原因,利用附件一的信息,在地图上定位所有坐标的位置,发现任务集中在广东、东莞、佛山、深圳四市,分别标明每个城市的成功任务和失败任务。

以深圳为例,对深圳市任务进行聚类分析,结果分成5类,由相应任务的定价可以得出,人口密集处定价较低,人口稀少处定价较高的定价规律。

将附件二的位置信息同理在地图上定位,分别计算任务周围的会员数,分析其与定价的联系。

针对问题二:由问题一结果可知,任务定价与任务周围人数和任务周围人口密度等因素有关。

利用网络爬虫爬取广州、东莞、佛山、深圳四市医院,学校,小区,超市四种人口密度较大场所的经纬度,统计成功任务周围十公里人口密集场所。

用RBF神经网络模型,从而确定新的定价方案。

将此方案与原方案进行比较,得出两种定价方案的差异。

针对问题三:为了解决用户争相选择位置集中任务等问题,可将多个任务联合打包,以便用户更好得执行任务。

利用问题二中RBF神经网络模型求出新的定价方案下的任务定价;同问题一,求任意两个任务之间的距离。

当两个任务之间的距离小于一定值时,便可将这两个任务种做打包处理。

对于打包的任务,可将每个任务的定价结合附近会员的信息求出最终定价;对于未打包的任务,任务定价不变。

针对问题四:为了对新项目设计定价方案,并评价方案的实施效果,将新项目中任务的位置定位于地图上,可以发现任务集中分布于两个区域,且两个区域距离较远,可认为互不影响。

结合前面问题的分析,可知任务定价与区域的经济发展情况和用户到任务的距离有关。

对用户而言,用户将优先选择距离较近且定价较高的任务,因此,可以使用灰度关联分析的方法,建立不同任务对会员的吸引力,从而对定价方案做出评价。

“拍照赚钱”的任务打包定价模型

“拍照赚钱”的任务打包定价模型

由表1中可以看到,Hosmer-Lemeshow卡方统计量为24.927, 自由度为8,对应的P值为0.002<0.01,所以得出的模型是整体显著 的。从表2中的Wald统计量及其P值来看,任务GPS纬度和任务标价 对应的P值小于0.01,通过了1%水平下的显著性检验;任务GPS经 度的P值小于0.1,表明在10%的水平下显著。各个参数结果如下:
0.6251提升到0.7713,证实了任务打包模型对企业降低成本,提高任务完成度有积极影响的假设。
关键词:任务定价 Logistic模型 k-标识码:A
文章编号:2096-0298(2018)05(b)-180-02
随着中国经济实力的不断增强、互联网的快速发展、企业成本 的增加,网络群众的力量开始被越来越多的企业所重视。众包作 为一种创新的电子商务模型,帮企业节约了大量的资金,在市场上 占据着越来越重要的地位“。拍照赚钱”是一种基于移动互联网的 自助式劳务众包平台,任务定价对用户能否获得满意的劳动报酬 和降低成本(时间成本、经济成本)具有重要的影响作用。如果任务 的标价不合理,就会造成有的地方会员争先选择,而有的地方却无 人问津。本文基于这种现状将任务打包处理,以此吸引会员完成任 务,降低企业成本。
在上式中,解释变量 每增加一个单位时,发生比 就变为原 来的 倍。当 >0时,发生比会随着 的增加而增加;相反当 <0时,发生比会随着 的增加而减小。
接着依据极大似然法,借助SPSS软件进行回归分析,将835组 数据代入Logistic模型中,对 、 、 的值进行估计,可以得到表 1、表2。
表1 模型整体显著性的Hosmer-Lemeshow检验结果
文基于2017年数学建模竞赛B题“拍照赚钱”的数据,运用Logistic回归建立模型,得出任务地理位置是影响任务完成度的最重要因素。

建模国赛B题

建模国赛B题

2017高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。

如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写):B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名):1.2.3.指导教师或指导教师组负责人(打印并签名):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。

以上内容请仔细核对,提交后将不再允许做任何修改。

如填写错误,论文可能被取消评奖资格。

)日期:2017年9月17日赛区评阅编号(由赛区组委会评阅前进行编号):2017高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):全国评阅编号(由全国组委会评阅前进行编号):“拍照赚钱”的任务定价摘要本文就企业做市场调查时采取的“拍照赚钱”模式的定价规律展开研究。

我们绘制了任务点在地图上的位置后,发现任务点围绕深圳、广州、佛山、东莞四个城市的中心点呈散射状分布,并根据城市具体情况及会员信息逐步建立更加适应实际情况的任务定价模型。

“拍照赚钱”的任务定价模型

“拍照赚钱”的任务定价模型

“拍照赚钱”的任务定价模型摘要:本文通过数据分析对任务定价方案进行了研究。

关键词:BP神经网络模型多元线性回归打包分布定价模型任务定价引言“拍照赚钱”是移动互联网下的一种自助式服务模式。

用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。

这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。

1.任务定价方案的确立1.1任务定价方案的分析综合考虑地理位置、区域内的平均信誉值、会员人数的权值和平均任务量对任务定价的影响,选取完成任务情况为1的所有数据的75%采用基于最小二乘法的方法进行拟合,用剩余的25%的数据作为检测数据,采用两独立样本T检验的方法判断原始数据与拟合后解得的数据是否具有显著性差异。

然后利用神经网络模型预测会员的任务完成度与原始数据进行比较来判断所给价格是否合理。

1.2任务定价方案模型的建立与求解1.2.1目标值与指标值的确立目标值:Y表示定价值。

指标值:X1表示在[0~500]范围内指标平均会员数与平均信誉值的合成指标。

X2表示在[500~1500]的合成指标;X3表示在[1500~2500]的合成指标;M1表示平均任务量。

1.2.2基于最小二乘法的目标值与指标值的拟合函数求解根据最小二乘法的模型代入目标值与指标值可得参数指标。

利用MATLAB进行拟合得出各统计值。

1.2.3模型检验为了使模型的定价结果更为合理,我们建立任务定价拟合值与实际值的独立样本T检验模型,对模型的定价进行检验。

两独立样本t检验的原假设为:拟合值与实际值的均值无显著性差异。

给定显著性水平α=0.05,若T检验统计量和概率P值小于1-α,则接受原假设。

用spss 分析两独立样本的显著性差异。

由表9得当t=(3.87,6.299)时p=0.665可知比给定1-α小,所以接受原假设,说明对测试集的拟合值与实际值之间无显著性差异,即拟合的方程成立。

“拍照赚钱”的任务定价-全国大学生数学建模竞赛

“拍照赚钱”的任务定价-全国大学生数学建模竞赛

M
N
Q Q
四. 问题分析
4.1. 问题一分析 问题一要求我们探索定价规律及研究任务未完成的原因。 从系统角度出发考 虑每个任务的定价有两个方向:任务与用户的关系、任务与任务的关系。从这两 个角度考虑,我们可以进一步分析任务与用户的关系主要有任务周围用户数量, 任务周围用户密度等;任务与任务之间的关系主要为任务的离群程度。 我们可以对以上因素量化, 并分别将定价与以上因素进行函数拟合,利用拟 合度判断定价是否与以上因素有关。 接着根据有关的因素对完成的任务与未完成 的任务分别进行分析,判断任务未完成的具体原因。 4.2. 问题二分析 问题二要求我们设计新的任务定价方案,并和原方案进行比较。这是一个博 弈问题的优化,博弈双方是定价与成功率。我们的目标是成功率尽可能高,定价 尽可能低。成功率除了与定价有关,还与问题一中的若干影响因素有关。我们可 以回归分析得到成功率关于以上因素的函数关系。 接下去可以建立优化模型并求解。根据给出的数据集,我们寻找成功执行的 任务定价与未成功执行任务的定价之间的差距,并寻找合理的定价区间。以该区 间为约束, 分别就成功率最高及定价总和最低为目标,将其划分为两个优化模型 并求解能得出总定价固定的情况下成功率最高的定价方案以及成功率固定总定 价最低的定价方案。 得出方案后可以就成功率与定价与原方案进行对比来判断新 定价获得的效果。 4.3. 问题三分析 问题三要求考虑多任务打包发布,修改定价并分析对任务完成情况的影响。 由于本题任务点分布不均匀,我们考虑对 DBSCAN 算法进行改进:算法的半径 改为得分半径,成功率高的点得分高,成功率低的点得分低。为了提高成功率, 我们将成功率低的点与成功率高的点打包。打包后还需要分析打包的合理性,即 打包任务周边会员的信誉、限额等因素,如果合理就保留该包,不合理就打散该任务本身价值、 路途花费。即任务打包后任务的本身价值不变,但由于路途花费(包括时间、交 通费用)减少,在系统定价时打包的任务总价低于原定价总和。根据原数据找到 任务本身价值、路途划分、总定价三者的关系,再根据问题二得到的优化模型进 行最优定价搜寻,最终可以对比打包前后成功率的变化情况来体现打包的效果。 4.4. 问题四分析 问题四给出了一个新项目,要求给出我们的定价方案及评估方案实施效果。 将数据代入问题二得到的定价模型以及问题三得到的打包模型进行求解, 输 出每个任务定价与成功率数据,并对结果进行分析。

“拍照赚钱”任务定价分析

“拍照赚钱”任务定价分析

一、引言“拍照赚钱”是移动互联网下的一种自助式服务模式,会员从APP上领取拍照任务,赚取对应报酬,帮助企业进行商业信息的搜集和调查[1]。

拍照任务定价是核心问题。

若定价过低,无人领取任务;定价过高,企业成本过高。

本文根据2017年大学生数学建模竞赛B题的样本数据,分析定价的规律和任务未完成的原因,并对已有定价模型起进行优化,以提高任务完成度。

二、定价模型进行频数分析以初步了解价格高低的大致分布状况,可确定65元为任务最低起价,划定定价区间:低价区(价格小于70);较低价区(价格大于等于70且小于75);中价区(价格大于等于75且小于80);较高价区(价格大于等于80且小于85);高价区(价格大于等于85)。

建立多元线性回归模型分析价格规律,令价格为被解释变量,影响因素为解释变量,影响程度为回归系数。

下面根据样本数据确定这些影响因素所代表的解释变量及其对应的回归系数。

(一)“地理位置”(x1)问题背景提示任务多关于商业数据的收集,任务发布的密集地即是商业区的聚集地,应是城市的中心地区。

根据样本数据的经纬度作散点图,观察发现:低价区在地理位置上分布密集且聚集明显,与城市中心区有关联。

交通便利、人流密集的城市区,完成任务的成本和花费相对于交通不便的乡镇区更低,任务接受者更偏好于接受城市区的任务,即能够以相对更低的价格接受发布在城市的任务。

由如上分析可得:越靠近城市中心点,定价越低;离城市中心点越远,定价越高。

低价区任务点的分布提示城市区的分布,低价区任务点的分布边缘提示城市和乡镇的边缘。

确定“地理位置”为第一个解释变量(x1),将任务点按照地理位置划分为“城市区”和“乡镇区”。

观察散点图发现低价区呈三个中心不同的聚集区趋势,用K均值聚类分析对低价区任务点分成三个区域,等同于三个城市区,三个中心对应三个城市中心点的经纬度(23.102063490780132,113.27916890673757)、(22.97700771477778,113.75894413666668)、(22.62107796724637,114.00599721014495)。

2017数学建模高教杯全套

2017数学建模高教杯全套

2017年高教社杯全国大学生数学建模竞赛题目(请先阅读“全国大学生数学建模竞赛论文格式规范”)A题CT系统参数标定及成像CT(Computed Tomography)可以在不破坏样品的情况下,利用样品对射线能量的吸收特性对生物组织和工程材料的样品进行断层成像,由此获取样品内部的结构信息。

一种典型的二维CT系统如图1所示,平行入射的X射线垂直于探测器平面,每个探测器单元看成一个接收点,且等距排列。

X射线的发射器和探测器相对位置固定不变,整个发射-接收系统绕某固定的旋转中心逆时针旋转180次。

对每一个X射线方向,在具有512个等距单元的探测器上测量经位置固定不动的二维待检测介质吸收衰减后的射线能量,并经过增益等处理后得到180组接收信息。

CT系统安装时往往存在误差,从而影响成像质量,因此需要对安装好的CT系统进行参数标定,即借助于已知结构的样品(称为模板)标定CT系统的参数,并据此对未知结构的样品进行成像。

请建立相应的数学模型和算法,解决以下问题:(1) 在正方形托盘上放置两个均匀固体介质组成的标定模板,模板的几何信息如图2所示,相应的数据文件见附件1,其中每一点的数值反映了该点的吸收强度,这里称为“吸收率”。

对应于该模板的接收信息见附件2。

请根据这一模板及其接收信息,确定CT系统旋转中心在正方形托盘中的位置、探测器单元之间的距离以及该CT系统使用的X射线的180个方向。

(2) 附件3是利用上述CT系统得到的某未知介质的接收信息。

利用(1)中得到的标定参数,确定该未知介质在正方形托盘中的位置、几何形状和吸收率等信息。

另外,请具体给出图3所给的10个位置处的吸收率,相应的数据文件见附件4。

(3) 附件5是利用上述CT系统得到的另一个未知介质的接收信息。

利用(1)中得到的标定参数,给出该未知介质的相关信息。

另外,请具体给出图3所给的10个位置处的吸收率。

(4) 分析(1)中参数标定的精度和稳定性。

在此基础上自行设计新模板、建立对应的标定模型,以改进标定精度和稳定性,并说明理由。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

“拍照赚钱”的任务定价模型摘要本题要求分析“拍照赚钱”任务的服务模式,研究其定价规律,并设计新的任务定价方案,结合实际情况,修改定价模型,最终对新项目设计任务定价方案,并评价方案的实施效果。

求解的具体流程如下:针对问题一:为了研究项目的定价规律,分析任务未完成的原因,利用附件一的信息,在地图上定位所有坐标的位置,发现任务集中在广东、东莞、佛山、深圳四市,分别标明每个城市的成功任务和失败任务。

以深圳为例,对深圳市任务进行聚类分析,结果分成5类,由相应任务的定价可以得出,人口密集处定价较低,人口稀少处定价较高的定价规律。

将附件二的位置信息同理在地图上定位,分别计算任务周围的会员数,分析其与定价的联系。

针对问题二:由问题一结果可知,任务定价与任务周围人数和任务周围人口密度等因素有关。

利用网络爬虫爬取广州、东莞、佛山、深圳四市医院,学校,小区,超市四种人口密度较大场所的经纬度,统计成功任务周围十公里人口密集场所。

用RBF神经网络模型,从而确定新的定价方案。

将此方案与原方案进行比较,得出两种定价方案的差异。

针对问题三:为了解决用户争相选择位置集中任务等问题,可将多个任务联合打包,以便用户更好得执行任务。

利用问题二中RBF神经网络模型求出新的定价方案下的任务定价;同问题一,求任意两个任务之间的距离。

当两个任务之间的距离小于一定值时,便可将这两个任务种做打包处理。

对于打包的任务,可将每个任务的定价结合附近会员的信息求出最终定价;对于未打包的任务,任务定价不变。

针对问题四:为了对新项目设计定价方案,并评价方案的实施效果,将新项目中任务的位置定位于地图上,可以发现任务集中分布于两个区域,且两个区域距离较远,可认为互不影响。

结合前面问题的分析,可知任务定价与区域的经济发展情况和用户到任务的距离有关。

对用户而言,用户将优先选择距离较近且定价较高的任务,因此,可以使用灰度关联分析的方法,建立不同任务对会员的吸引力,从而对定价方案做出评价。

关键词:聚类分析、RBF神经、灰色关联分析法、网络爬虫一、问题重述“拍照赚钱”是移动互联网下的一种自助式服务模式。

用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。

APP是该平台运行的核心,而APP中的任务定价又是其核心要素。

如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。

1.研究附件一中项目的任务定价规律,分析任务未完成的原因。

2.为附件一中的项目设计新的任务定价方案,并和原方案进行比较。

3.实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。

在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响?4.对附件三中的新项目给出你的任务定价方案,并评价该方案的实施效果。

二、模型假设1.会员对任务没有主观偏好,不会因为自身原因不完成任务;2.各个任务难度相等,不影响会员的选择;3.假设会员与任务间的距离都是直线距离,不受道路、河流等的影响;4.问题中所有数据都真实有效。

三、符号说明四、问题分析4.1 问题一分析问题一要求研究附件一中项目的定价规律,并分析任务未完成的原因。

首先应在地图中找出附件一中所有任务的位置,确定任务的分布规律,同时将附件二中会员的位置定位于地图。

观察出这些数据集中分布在广东、东莞、佛山、深圳四个城市。

以深圳市为例,对深圳的任务进行聚类分析,分析聚类结果,从而得出项目的定价规律。

分别计算每个任务与所有会员之间的距离,结合每个任务周围十公里的会员数与任务的定价,确定任务未完成的原因。

4.2 问题二分析问题一可明显看出任务价格与任务周围人数和任务所在地区人口密度等有关。

利用网络爬虫爬取广州等四市医院、学校、小区、超市等人口密度大的场所,统计成功任务方圆十公里内的人口密度大的场所个数。

使用RBF神经网络分析,用所获得的数据训练神经网络,从而确定新的任务定价方案。

将新的任务定价方案与附件一中的任务定价做出比较,说明两种定价方案的不同情况。

4.3问题三分析问题三要求将任务打包发布并设计新的定价方案,以解决用户争相选择等问题。

利用问题二中RBF神经网络模型求出新的定价方案下的任务的定价;利用问题一中两点经纬度坐标求出两点距离的计算方法求出每个任务与其他任务之间的距离,当两个任务之间的距离小于一定值时,便可将这两个任务种做打包处理。

对于打包的任务,可将每个任务的定价结合附近会员的信息求出最终定价;对于未打包的任务,任务定价不变。

4.4问题四分析问题四要求对一个新项目设计定价方案,并评价该方案的实施效果,将附件三中的任务的地理位置定位于地图上,可以发现任务集中分布于两个区域。

通过前面的问题分析可知,任务定价与地区经济发展水平和会员距离有关。

对会员而言,可以从任务的难易程度和会员到任务的距离两个方面判断会员对任务的偏好,从而使用灰度关联分析对的方法,建立不同任务对会员吸引力的模型,便可以对这种方案的实施效果做出分析。

五、模型建立与求解5.1 问题一模型利用地图定位将附件一中经度纬度定位到地图中,发现这些数据集中分布在广东,东莞,佛山和深圳四个城市中。

分别分析四个城市的价格规律,以深圳市为例。

考虑到城市内部存在区的划分,因此对数据进行聚类分析,猜测聚类结果呈区域块状分布,结果同样验证猜测。

这是价格的分布规律,其内部原因是受每个任务周围会员数量的影响。

分别求出任务方圆每十公里会员人数,分析任务周围的会员数与任务定价的关系,从而确定任务未完成的原因。

5.1.1模型建立此题采用Q型聚类法建立模型并求解。

Step1. 距离设 x ik 为第i 个样本的第k 个指标,数据观测值如上表所示。

在表中,每个样本有p 个变量,故每个样本可以看作 R p 中的一个点,n 个样本就是 R p 中的n 个点。

在 R p 中需要定义某种距离,第i 个样本与第j 个样本之间的距离记为 d ij ,在聚类过程中距离较近的点倾向于归为一类,距离较远的点应属于不同类。

所定义的距离满足如下4个条件:(1) d ij ≥0 ,对一切i,j ;(2) d ij =0 ,当且仅当第i 个样本与第j 个样本的各个变量值相等;(3) d ij =d ji ,对一切i,j ;(4) d ij ≤d ik +d kj ,对一切的i,j,k 。

最常用的几种距离:(1) Minkowski (闵可夫斯基)距离d ij (q )=[∑(x ik −x jk )q p k=1]1q , q>0 对于q=1时,对应的是绝对值距离 (2) 绝对值距离d ij (1)=∑|(x ik −x jk )|p k=1对于q=2时,对应的是Euclid 距离(3) Euclid (欧几里得)距离d ij (2)=√∑(x ik −x jk )2p k=1Step2. 数据标准化标准化变换:x ij ∗=x ij −x̅js j ,i =1,2,⋯,n;j =1,2,⋯,p其中,均值:x̅j =1n ∑x kj nk=1 方差:s j =√1n −1∑(x kj −x̅j )2n k=1 变换后的数据均值为0,标准差为1,而且标准化后的数据与变量的量纲无关。

Step3. 系统聚类系统聚类法(hierarchical clustering method )是聚类分析诸多方法中用的最多的一种,其基本思想是:开始将n 个样本各自为一类,并规定样本之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类的距离;重复进行两个最近类的合并,每次减少一类,直到所有样本合并为一类。

以下用 d ij 表示第i 个样本与第j 个样本的距离,G 1 , G 2 ,…表示类,D KL 表示G K 与 G L 的距离。

下面所介绍的系统聚类法中,所有的方法开始时每个样本自成一类,类与类之间的距离与样本之间的距离相同,即 D KL =d KL ,所以最初的距离矩阵全部相同,记为 D (0)=(d ij ) 。

常用的系统聚类法:(1)重心法类与类之间的距离定义为它们重心(均值)之间的Euclid 距离。

设 G K 与 G L 的重心分别为x̅K 和 x̅L ,则 G K 和 G L 之间的平方距离为:D KL 2=d x̅K x̅L2=(x̅K −x̅L )T (x̅K −x̅L ) 这种系统聚类方法称为重心法(centroid hierarchical method )。

它的递推公式为: D MJ 2=n K n M D KJ 2+n L n M D LJ 2−n K n L n M 2D KL 2 重心法在处理异常值方面比其它系统聚类法更稳健,但是其他方面却不如离差平方和法的效果好。

(2)离差平方和法(Ward 方法)离差平方和法基于方差分析的思想,如果分类分得正确,则同类样本之间的离差平方和应当较小,不同类样本之间的离差平方和应当较大。

设类G K 与G L 合并成新的类G M ,则G K ,G L ,G M 的离差平方和分别为:W K =∑(x (i )−x̅K )T (x (i )−x̅K )i∈G KW L =∑(x (i )−x̅L )T (x (i )−x̅L )i∈G LW M =∑(x (i )−x̅M )T(x (i )−x̅M )i∈G M其中x̅K ,x̅L 和x̅M 分别是G K ,G L 和G M 的重心。

所以W K ,W L 和W M 反应各自类内样本的分散程度。

如果G K 和G L 这两类相距较近,则合并后所增加的离差平方和W M −W K −W L 应较小;否则,应较大。

于是定义G K 和G L 之间的平方距离为:D KL 2=W M −W K −W L这种系统聚类法称为离差平方和法或Ward 方法(Ward’s minimum variance method )。

它的递推公式为:D MJ 2=n J +n K n J +n M D KJ 2+n J +n L n J +n M D LJ 2−n J n J +n MD KL 2 G K 和G L 之间的平方距离也可以写成D KL 2=n K n L n M(x̅K −x̅L )T (x̅K −x̅L ) 由上述分析可见,这个距离与重心法给出的距离只差一个常数倍。

重心法的类间距与两样本的样本数无关,而离差平方和法的类间距与两类的样本数有关。

两个大类倾向于有较大的距离,因而不易合并,这更符合对聚类的实际要求。

离差平方和法在很多场合下优于重心法,是一种较好的系统聚类法,但它对异常值很敏感。

Step4. 已知两地经纬度求两地距离α和θ分别是两地的纬度,北纬记为正;β是两地的经度差,r 是地球半径。

相关文档
最新文档