“拍照赚钱”的任务定价模型
关于“拍照赚钱”众包任务定价的研究

关于“拍照赚钱”众包任务定价的研究拍照赚钱,也被称为摄影众包,是一种通过拍摄、上传和出售照片来赚钱的方式。
随着智能手机的普及和移动互联网的发展,越来越多的人开始利用自己的手机拍摄优质照片,并通过各种平台进行出售或参与各类众包任务,以获取收益。
对于这种众包任务的定价一直是一个备受关注的问题。
本文将从市场定价、照片质量和众包平台三个方面对拍照赚钱众包任务的定价进行研究。
市场定价市场定价是拍照赚钱众包任务定价的一个重要因素。
随着智能手机摄影技术的不断提升和手机拍摄照片的数量不断增加,照片的供给越来越充足,这就导致了市场的竞争加剧。
在这种情况下,如果把众包任务的定价设定得过高,就会导致需求下降,照片无法被购买或任务无法被完成。
市场定价需要根据市场供需关系和竞争情况来进行合理的调整,以保证众包任务的顺利完成和收益的最大化。
照片质量照片质量是影响拍照赚钱众包任务定价的另一个重要因素。
在众包任务中,照片的质量直接影响着照片的销量和价格。
高质量的照片通常能够吸引更多的购买者,并且可以以更高的价格出售,因此在众包任务的定价中,照片质量应该被充分考虑。
一般来说,对于高质量的照片,众包任务的定价可以适当提高,以激励摄影者拍摄更多更好的照片。
而对于低质量的照片,则可以降低定价,以鼓励摄影者提升照片质量,从而提高照片的销售量和价格。
众包平台众包平台也是影响拍照赚钱众包任务定价的一个重要因素。
不同的众包平台有不同的市场定位和用户群体,这就导致了众包任务的定价存在较大的差异。
一般来说,知名度和用户规模较大的众包平台可以吸引更多的买家和卖家,从而有效提高照片的销量和价格。
在选择众包平台时,需要充分考虑平台的知名度和用户规模,以获取更好的销售和收益。
拍照赚钱众包任务的定价受到市场定价、照片质量和众包平台等多方面因素的影响。
在进行众包任务定价时,需要综合考虑以上因素,根据市场供需关系和竞争情况来进行合理的定价。
摄影者也需要不断提升照片质量,选择合适的众包平台,来获得更好的销售和收益。
2017国赛国二论文

3.4802 0.6815 2.4021 1.6353 3.1155 3.0084 0.3536 2.6919 3.0549 2.6833 3.0785 5.26% 1.04% 4.22% 2.44% 4.66% 4.45% 0.48% 3.76% 4.23% 3.64% 4.26%
表 2 深圳市各个 我们可以看出,除个别的点以外,同一城区中大部分的任务定价差异很小。 而且城区的范围不大, 同一城区内每个任务点的人口密度、 交通水平、 人均 GDP、 附近的会员人数的差异不大。 总而言之,我们以区代点来研究与定价有关的因素,是合理的。 2.我们需要通过分析各个城区的各种差异,也即代表了任务点的差异,选取几种 可能影响附件一中定价的因素。 也就是说,商家可能是根据这个任务点的几个因 素的水平,再结合一些价格计算方法,最终制定任务价格。 商家定价时考虑的因素可能有:城区面积、人口密度、人均 GDP、会员人数、 会员密集程度、交通水平、居民消费价格指数、人均收入等等。 经过分析,我们选取了城区面积、人口密度、人均 GDP、会员人数、会员密 集程度、任务密度、任务数量、会员数量与任务数量的比值这八个因素,进而建 立灰色关联度模型分析这八个因素分别与城区平均任务定价的关联度, 分析得到 总体的定价规律。 灰色关联度模型的建立与求解在 5.1.2 中给出。 下面给出选取这八个因素的 原因: (1)城区面积是城区之间的显著差异。城区面积越大,任务点越多,相应 地,商家可能以制定偏低的定价来提高任务的完成率。 (2)人口密度、人均 GDP 均能在一定情况上反映地区的繁荣程度,地区越 繁荣,收入、消费水平等指数越高,任务定价也越高。 (3)会员人数越多、会员密集程度越高,相应地,会员间竞争就越大,市 场供不应求,任务定价越低。 (4)任务密度越高、任务数量越多,为了使更多任务完成,任务定价更高。 (5)会员数量与任务数量的比值则反映了“拍照赚钱”市场的供需关系, 根据经济学的原理,市场的价格与供需关系休戚相关。 (6)城区的交通水平、居民消费价格指数、人均收入等因素虽然有差异, 但差异不大且缺乏权威数据,所以我们不予考虑。 总之,城区面积、人口密度、人均 GDP、会员人数、会员密集程度、任务密 度、 任务数量、会员数量与任务数量的比值这八个因素是我们合理猜测的与商家 定价有关的因素,下面进行检验并提炼出与定价关联度最高的几个因素。 5.1.2 关于定价规律的灰色关联度模型的建立与求解 1、灰色关联度分析模型介绍 灰色关联度分析是依据各因素数列曲线形状的接近程度做发展态势的分析。 简言之, 灰色关联度分析的意义是指在系统发展过程中,如果两个因素变化的态 势一致,则同步变化程度较高,就可以认为两者关联较大。因此,灰色关联度分 析对于一个系统发展变化态势提供了量化的度量,非常适合动态的历程分析。关
“拍照赚钱”的任务打包定价模型

由表1中可以看到,Hosmer-Lemeshow卡方统计量为24.927, 自由度为8,对应的P值为0.002<0.01,所以得出的模型是整体显著 的。从表2中的Wald统计量及其P值来看,任务GPS纬度和任务标价 对应的P值小于0.01,通过了1%水平下的显著性检验;任务GPS经 度的P值小于0.1,表明在10%的水平下显著。各个参数结果如下:
0.6251提升到0.7713,证实了任务打包模型对企业降低成本,提高任务完成度有积极影响的假设。
关键词:任务定价 Logistic模型 k-标识码:A
文章编号:2096-0298(2018)05(b)-180-02
随着中国经济实力的不断增强、互联网的快速发展、企业成本 的增加,网络群众的力量开始被越来越多的企业所重视。众包作 为一种创新的电子商务模型,帮企业节约了大量的资金,在市场上 占据着越来越重要的地位“。拍照赚钱”是一种基于移动互联网的 自助式劳务众包平台,任务定价对用户能否获得满意的劳动报酬 和降低成本(时间成本、经济成本)具有重要的影响作用。如果任务 的标价不合理,就会造成有的地方会员争先选择,而有的地方却无 人问津。本文基于这种现状将任务打包处理,以此吸引会员完成任 务,降低企业成本。
在上式中,解释变量 每增加一个单位时,发生比 就变为原 来的 倍。当 >0时,发生比会随着 的增加而增加;相反当 <0时,发生比会随着 的增加而减小。
接着依据极大似然法,借助SPSS软件进行回归分析,将835组 数据代入Logistic模型中,对 、 、 的值进行估计,可以得到表 1、表2。
表1 模型整体显著性的Hosmer-Lemeshow检验结果
文基于2017年数学建模竞赛B题“拍照赚钱”的数据,运用Logistic回归建立模型,得出任务地理位置是影响任务完成度的最重要因素。
拍照赚钱的任务定价分析

拍照赚钱的任务定价分析摘要:移动互联网的不断发展以及智能手机的普及,使得越来越多的新型电子商务模式出现,互联网的便捷使得各种各样的自助式服务模式相继产生。
“拍照赚钱”APP就是基于移动互联网的自助式劳务众包平台。
将任务的发布及完成过程进行仿真,通过对不同情况下的任务完成情况的仿真,得到仿真结果并通过制作任务完成情况与定价合理度的关系以及趋势预测图,说明任务发布方式的改变会对任务定价模型方案产生影响,从而提高任务完成度,使任务完成情况更优.接着又通过所建的任务完成率模型,在打包任务发布情况下所受的影响及改变,分析得到任务打包联合发布将会提高劳动力的利用效率,提高任务的完成率。
我们利用二次拟合求得定价关系函数,用原来的任务定价方案与新的定价方案就行对比,来证明新的定价方案的实施效果。
关键词:任务完成率模型;模糊综合评价;灰色关联;仿真;二次拟合1.模型的建立与求解①系统初始化将地理位置经度纬度作为表格的划分依据,每个格子的边长为0.1经度/纬度;初始时刻有200项任务均匀随机分布在网格中。
②任务的预订会员的任务预订过程服从均匀分布,每次产生新任务的概率是0.2.如果本轮产生新的任务,则随机分布在经纬网上。
③任务的完成会员接到任务后,按照最优时间完成任务.将该数据添加到已完成任务集合中。
1.1无“挑任务”情形的仿真:如会员选择任务时不受信誉值的影响,即预订任务开始时间和预订任务限额均不考虑的情况下.如果会员打开了APP,就可以从任务信息中选择一个任务,并前往任务地点完成任务。
(1)受到信誉值影响的情况如果信誉值高的会员优先选走了部分任务,则信誉值低的会员不能得到这部分任务的任务信息。
(2)无“挑任务”的情况在无“挑任务”的情况下,只要有任务信息发布,就会有会员接单。
(3)定价方案合理度与任务完成率的关系由之前的分析可以发现定价方案合理度会对任务完成率产生影响。
我们通过对实际问题的分析,假设定价方案合理度与任务完成率的关系满足如下的指数规律:,其中:K表示吸引力系数,据实际情况取是每个任务定价的合理度;μ是任务的完成率。
“拍照赚钱”的任务定价研究

“拍照赚钱”的任务定价研究摘要:“拍照赚钱”是互联网下的一种自助服务模式,如何合适的设定该模式的定价具有重要的意义本文针对“拍照赚钱”的任务定价进行研究分析,首先对数据进行了分析,得到会员与任务的分布情况。
通过回归分析和数据可视化找到了任务定价规律,任务未完成原因。
同时考虑了多个任务位置集中的情况下,任务打包发布对不同信誉度的会员进行差别定价,以激励会员的活跃度。
关键词:回归分析;参与度与信誉度;灰色关联1.模型建立现取深圳地区为研究对象,深圳地区会员数量为836人,任务数量为461个。
完成任务数量有278个,但未完成数任务有183个。
会员数多余任务的数量,但未完成数量却这么多,说明有很大一部分会员没有参与,或者接下任务以后没有完成。
通常参与度与任务类型、任务难度、发布任务者等外部因素有关,也与会员离任务的距离、会员的年龄、会员的信誉等因素有关。
而题目只给出了信誉度。
可以假设会员的参与情况与会员的信誉呈正相关。
2.建立会员参与度与信誉的关系通常,在客观事物中,最常见的是用实数 R当作论域,把把会员的信誉当作实数 R,参与度当作 R 上的 F 集(模糊集)。
通过猪八戒平台公布数据,参与度的通常与信度呈抛物线分布,及信誉度越高,参与度越大。
及采用抛物线形的 F分布却定参与度与信度的模糊集。
设l为信誉度,则l_0=√(k&l),k=1,2,…,n当k=3 时,信誉度变化范围从[0.0036~27953.03]变为[0.0464~30.83]。
当k=6时,信誉度变化范围从[0.0036~27953.03]变为[0.2154~5.508]。
3.建立会员与任务的灰色关联模型为保证建模质量与系统的分析的正确结果,对收集来的原始数据必须进行数据变换和处理,使其消除量纲和具有可比性。
定义1:设有序列x=(x(1),x(2),…,x(n)),则称f:x→y即f(x(k))=y(k),k=1,2,…n为序列x到y的数据变换。
“拍照赚钱”任务定价分析

一、引言“拍照赚钱”是移动互联网下的一种自助式服务模式,会员从APP上领取拍照任务,赚取对应报酬,帮助企业进行商业信息的搜集和调查[1]。
拍照任务定价是核心问题。
若定价过低,无人领取任务;定价过高,企业成本过高。
本文根据2017年大学生数学建模竞赛B题的样本数据,分析定价的规律和任务未完成的原因,并对已有定价模型起进行优化,以提高任务完成度。
二、定价模型进行频数分析以初步了解价格高低的大致分布状况,可确定65元为任务最低起价,划定定价区间:低价区(价格小于70);较低价区(价格大于等于70且小于75);中价区(价格大于等于75且小于80);较高价区(价格大于等于80且小于85);高价区(价格大于等于85)。
建立多元线性回归模型分析价格规律,令价格为被解释变量,影响因素为解释变量,影响程度为回归系数。
下面根据样本数据确定这些影响因素所代表的解释变量及其对应的回归系数。
(一)“地理位置”(x1)问题背景提示任务多关于商业数据的收集,任务发布的密集地即是商业区的聚集地,应是城市的中心地区。
根据样本数据的经纬度作散点图,观察发现:低价区在地理位置上分布密集且聚集明显,与城市中心区有关联。
交通便利、人流密集的城市区,完成任务的成本和花费相对于交通不便的乡镇区更低,任务接受者更偏好于接受城市区的任务,即能够以相对更低的价格接受发布在城市的任务。
由如上分析可得:越靠近城市中心点,定价越低;离城市中心点越远,定价越高。
低价区任务点的分布提示城市区的分布,低价区任务点的分布边缘提示城市和乡镇的边缘。
确定“地理位置”为第一个解释变量(x1),将任务点按照地理位置划分为“城市区”和“乡镇区”。
观察散点图发现低价区呈三个中心不同的聚集区趋势,用K均值聚类分析对低价区任务点分成三个区域,等同于三个城市区,三个中心对应三个城市中心点的经纬度(23.102063490780132,113.27916890673757)、(22.97700771477778,113.75894413666668)、(22.62107796724637,114.00599721014495)。
关于“拍照赚钱”众包任务定价的研究

关于“拍照赚钱”众包任务定价的研究随着智能手机的普及,拍照赚钱(photo crowdsourcing)成为了一种流行的众包模式,为企业和独立摄影师提供了更多的商业机会。
但是,对于拍照赚钱众包任务定价的研究还比较有限,因此本文梳理了相关文献,分析了众包任务的特点和定价的影响因素,并提出了一些研究和实践建议。
一、拍照赚钱众包任务的特点拍照赚钱众包任务是指企业或个人通过在线平台发布拍照任务,要求众包者按规定拍摄特定主题或场景的照片,并通过平台付款给众包者获取照片版权。
从众包任务的特点来看,拍照赚钱具有以下几个特征:1.任务类型多样化。
拍照赚钱众包任务涵盖了各种类型的照片,包括但不限于风景、人像、商业、广告等。
2.任务难度不同。
任务的难度程度不一,有些任务只需要普通拍照技术,而有些任务需要专业技能和创意。
3.任务规模不定。
任务的规模可以是几张照片,也可以是数百张照片。
4.任务地域分散。
任务不受地域限制,可以在全球范围内发布,众包者也可以随时随地完成任务。
5.任务交付周期短。
一般来说,拍照赚钱众包任务的交付周期要求短,如几天或一周之内完成。
拍照赚钱众包任务的定价需要考虑多种因素,包括任务类型、难度、规模、地域和交付周期等。
下面笔者详细介绍一下这些因素对任务定价的影响。
1.任务类型任务类型对定价有很大影响,不同类型的照片需要不同的技能和设备,因此对工作量和艺术价值的认定也不同。
例如,商业照片和人像照片需要更高级的摄影技术和后期处理,通常定价较高;而风景和纪实照片则较为简单,定价可以适当减低。
2.任务难度任务难度也是定价的一个重要因素。
一般来说,任务越难,定价也会越高。
例如,完成一组室内环境拍摄需要更多的时间和技巧,比一组风景照片的难度更高,因此定价应该高于前者。
3.任务规模任务规模对定价也有一定的影响。
当任务规模较大时,定价相应也会偏高,因为需要的时间和精力更多。
另外,大规模任务需要更多的人力和资源,从而会对成本造成影响,这也是增加任务定价的原因之一。
“拍照赚钱”任务的打包定价问题

“拍照赚钱”任务的打包定价问题作者:苗刚瑞来源:《科学与财富》2017年第32期摘要:华北理工大学数学建模创新实验室1 华北理工大学以升创新教育基地2 华北理工大学信息工程学院3华北理工大学理学院4 河北省唐山市 063210关键词:劳务众包任务定价;模糊神经网络模型;回归方程;任务完成率;0 引言伴随着网络众包平台的兴起,“拍查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保照赚钱”是移动互联网下的一种自助式服务模式。
用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。
这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检证了调查数据真实性,缩短了调查的周期。
因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。
如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。
由于在不同的地域,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。
基于此,本文建立基于神经网络模型的任务打包分配方法,模拟在一个包内装有不同任务数量,然后将此任务包络分配给一个用户,分析任务的完成情况。
研究不同任务包内任务数量与任务完成情况的关系,为众包平台提供更优的定价策略。
1 基于模糊神经网络的任务打包定价模型1.1 任务打包方案如果任务比较集中,而会员也在此区域内比较集中,则在该区域中,会员会争相选择任务,可能导致恶意抢夺,进而造成任务完成率低,于是,可以考虑一种将任务联合打包发布的方案,即将若干个任务捆绑,交由一个用户完成。
由于任务点相距不是很远,可以将邻近的任务点打包,在此通过绘制附件一中任务点分布的散点图选取100个任务点中心,将任务中心点方圆16km的任务点进行打包,作为一个任务包发布,而任务执行人则根据会员得到任务发布情况时间的早晚、会员与任务点之间的距离、会员信誉度、限额情况等进行综合考量得到最终结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
. 1 / 19'. “拍照赚钱”的任务定价模型 摘要 本题要求分析“拍照赚钱”任务的服务模式,研究其定价规律,并设计新的任务定价方案,结合实际情况,修改定价模型,最终对新项目设计任务定价方案,并评价方案的实施效果。求解的具体流程如下: 针对问题一:为了研究项目的定价规律,分析任务未完成的原因,利用附件一的信息,在地图上定位所有坐标的位置,发现任务集中在广东、东莞、佛山、深圳四市,分别标明每个城市的成功任务和失败任务。以深圳为例,对深圳市任务进行聚类分析,结果分成5类,由相应任务的定价可以得出,人口密集处定价较低,人口稀少处定价较高的定价规律。将附件二的位置信息同理在地图上定位,分别计算任务周围的会员数,分析其与定价的联系。 针对问题二:由问题一结果可知,任务定价与任务周围人数和任务周围人口密度等因素有关。利用网络爬虫爬取广州、东莞、佛山、深圳四市医院,学校,小区,超市四种人口密度较大场所的经纬度,统计成功任务周围十公里人口密集场所。用RBF神经网络模型,从而确定新的定价方案。将此方案与原方案进行比较,得出两种定价方案的差异。 针对问题三:为了解决用户争相选择位置集中任务等问题,可将多个任务联合打包,以便用户更好得执行任务。利用问题二中RBF神经网络模型求出新的定价方案下的任务定价;同问题一,求任意两个任务之间的距离。当两个任务之间的距离小于一定值时,便可将这两个任务种做打包处理。对于打包的任务,可将每个任务的定价结合附近会员的信息求出最终定价;对于未打包的任务,任务定价不变。 针对问题四:为了对新项目设计定价方案,并评价方案的实施效果,将新项目中任务的位置定位于地图上,可以发现任务集中分布于两个区域,且两个区域距离较远,可认为互不影响。结合前面问题的分析,可知任务定价与区域的经济发展情况和用户到任务的距离有关。对用户而言,用户将优先选择距离较近且定价较高的任务,因此,可以使用灰度关联分析的方法,建立不同任务对会员的吸引力,从而对定价方案做出评价。
关键词:聚类分析、RBF神经、灰色关联分析法、网络爬虫 .
2 / 19'. 一、问题重述 “拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。APP是该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。 1. 研究附件一中项目的任务定价规律,分析任务未完成的原因。 2. 为附件一中的项目设计新的任务定价方案,并和原方案进行比较。 3. 实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响? 4. 对附件三中的新项目给出你的任务定价方案,并评价该方案的实施效果。
二、模型假设 1.会员对任务没有主观偏好,不会因为自身原因不完成任务; 2.各个任务难度相等,不影响会员的选择; 3.假设会员与任务间的距离都是直线距离,不受道路、河流等的影响; 4.问题中所有数据都真实有效。
三、符号说明 符号 含义 地球半径 两地之间的球面距离 , 两地的纬度 两地的经度差 P 打包后总价
四、问题分析 4.1 问题一分析 问题一要求研究附件一中项目的定价规律,并分析任务未完成的原因。首先应在地图中找出附件一中所有任务的位置,确定任务的分布规律,同时将附件二中会员的位置定位于地图。观察出这些数据集中分布在广东、东莞、佛山、深圳四个城市。以深圳市为例,对深圳的任务进行聚类分析,分析聚类结果,从而得出项目的定价规律。分别计. 3 / 19'. 算每个任务与所有会员之间的距离,结合每个任务周围十公里的会员数与任务的定价,确定任务未完成的原因。
4.2 问题二分析 问题一可明显看出任务价格与任务周围人数和任务所在地区人口密度等有关。利用网络爬虫爬取广州等四市医院、学校、小区、超市等人口密度大的场所,统计成功任务方圆十公里内的人口密度大的场所个数。使用RBF神经网络分析,用所获得的数据训练神经网络,从而确定新的任务定价方案。将新的任务定价方案与附件一中的任务定价做出比较,说明两种定价方案的不同情况。
4.3 问题三分析 问题三要求将任务打包发布并设计新的定价方案,以解决用户争相选择等问题。利用问题二中RBF神经网络模型求出新的定价方案下的任务的定价;利用问题一中两点经纬度坐标求出两点距离的计算方法求出每个任务与其他任务之间的距离,当两个任务之间的距离小于一定值时,便可将这两个任务种做打包处理。对于打包的任务,可将每个任务的定价结合附近会员的信息求出最终定价;对于未打包的任务,任务定价不变。
4.4 问题四分析 问题四要求对一个新项目设计定价方案,并评价该方案的实施效果,将附件三中的任务的地理位置定位于地图上,可以发现任务集中分布于两个区域。通过前面的问题分析可知,任务定价与地区经济发展水平和会员距离有关。对会员而言,可以从任务的难易程度和会员到任务的距离两个方面判断会员对任务的偏好,从而使用灰度关联分析对的方法,建立不同任务对会员吸引力的模型,便可以对这种方案的实施效果做出分析。
五、模型建立与求解 5.1 问题一模型 利用地图定位将附件一中经度纬度定位到地图中,发现这些数据集中分布在广东,东莞,佛山和深圳四个城市中。分别分析四个城市的价格规律,以深圳市为例。考虑到城市内部存在区的划分,因此对数据进行聚类分析,猜测聚类结果呈区域块状分布,结果同样验证猜测。这是价格的分布规律,其内部原因是受每个任务周围会员数量的影响。分别求出任务方圆每十公里会员人数,分析任务周围的会员数与任务定价的关系,从而确定任务未完成的原因。 5.1.1模型建立 此题采用Q型聚类法建立模型并求解。
Step1. 距离 . 4 / 19'. 表5.1.1 数据观测值 样本 变量
1 2
n 设 为第i个样本的第k个指标,数据观测值如上表所示。在表中,每个样本有p个变量,故每个样本可以看作 中的一个点,n个样本就是 中的n个点。在 中需要定义某种距离,第i个样本与第j个样本之间的距离记为 ,在聚类过程中距离较近的点倾向于归为一类,距离较远的点应属于不同类。所定义的距离满足如下4个条件:
(1) ,对一切;
(2) ,当且仅当第i个样本与第j个样本的各个变量值相等; (3) ,对一切; (4) ,对一切的。 最常用的几种距离: (1) Minkowski(闵可夫斯基)距离
, q>0 对于q=1时,对应的是绝对值距离 (2) 绝对值距离
对于q=2时,对应的是Euclid距离 (3) Euclid(欧几里得)距离
Step2. 数据标准化 标准化变换: . 5 / 19'. 其中,均值:
方差:
变换后的数据均值为0,标准差为1,而且标准化后的数据与变量的量纲无关。 Step3. 系统聚类 系统聚类法(hierarchical clustering method)是聚类分析诸多方法中用的最多的一种,其基本思想是:开始将n个样本各自为一类,并规定样本之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类的距离;重复进行两个最近类的合并,每次减少一类,直到所有样本合并为一类。 以下用 表示第i个样本与第j个样本的距离, , ,…表示类, 表示 与 的距离。下面所介绍的系统聚类法中,所有的方法开始时每个样本自成一类,类与类之间的距离与样本之间的距离相同,即 ,所以最初的距离矩阵全部相同,记为 。 常用的系统聚类法: (1)重心法
类与类之间的距离定义为它们重心(均值)之间的Euclid距离。设 与 的
重心分别为 和 ,则 和 之间的平方距离为:
这种系统聚类方法称为重心法(centroid hierarchical method)。它的递推公式为: 重心法在处理异常值方面比其它系统聚类法更稳健,但是其他方面却不如离差平方和法的效果好。 (2)离差平方和法(Ward方法) 离差平方和法基于方差分析的思想,如果分类分得正确,则同类样本之间的离差平
方和应当较小,不同类样本之间的离差平方和应当较大。设类与 合并成新的类,
则,, 的离差平方和分别为: . 6 / 19'. 其中,和分别是,和的重心。所以,和反应各自类内样本的分散程度。如果和这两类相距较近,则合并后所增加的离差平方和应较小;否则,应较大。于是定义和之间的平方距离为:
这种系统聚类法称为离差平方和法或Ward方法(Ward’s minimum variance method)。它的递推公式为:
和之间的平方距离也可以写成 由上述分析可见,这个距离与重心法给出的距离只差一个常数倍。重心法的类间距与两样本的样本数无关,而离差平方和法的类间距与两类的样本数有关。两个大类倾向于有较大的距离,因而不易合并,这更符合对聚类的实际要求。离差平方和法在很多场合下优于重心法,是一种较好的系统聚类法,但它对异常值很敏感。 Step4. 已知两地经纬度求两地距离 和分别是两地的纬度,北纬记为正;是两地的经度差,是地球半径。忽略各地海拔高度差异,认为地球是理想的球面。设是两地的距离(地球的一条弦长),是两地的球面距离(沿地球表面的弧长)。则:
可求得: 分别计算出以每个任务位置为中心,半径为十公里的区域(即为方圆每十公里)内会员的人数与相应的任务定价,通过成功任务和失败任务每十公里内的会员人数比较即可得出任务失败的原因。