数据挖掘案例分析--啤酒与尿布讲课稿

数据挖掘案例分析--啤酒与尿布讲课稿
数据挖掘案例分析--啤酒与尿布讲课稿

前言

“啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!

商品相关性分析是购物篮分析中最重要的部分,购物篮分析英文名为market basket analysis(简称MBA,当然这可不是那个可以用来吓人的学位名称)。在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”,可见购物篮商品相关性算法吸引人的地方,这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。

购物篮分析的算法很多,比较常用的有A prior/ ?’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等,上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程,因此在这里我不介绍具体的购物篮分析算法,而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟,在进入20世纪90年代后,很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中,成为了软件产品的组成部分,客户购买了这些软件产品后就等于有了购物篮分析的工具,比如我们正在使用的Clementine。

缘起

“啤酒与尿布”的故事可以说是营销界的经典段子,在打开Google搜索一下,你会发现很多人都在津津乐道于“啤酒与尿布”,可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初,甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料,我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的,这应该算是目前发现的最权威报道。

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

“啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

卖场中“啤酒与尿布”的现象比比皆是,为什么“啤酒与尿布”的故事只产生在沃尔玛的卖场中,而不是其他零售门店?这里有两个原因。

第一个是沃尔玛先进的计算机技术是“啤酒与尿布”故事产生的强大支持后盾。零售业目前使用的很多新技术都是沃尔玛率先“尝鲜”的,比如沃尔玛最早在门店尝试计算机记账,最早在门店收款台尝试使用外形丑陋俗称“牛眼”的条码扫描器进行收款,世界上第一个发射私人通信卫星等等。“前人栽树,后人乘凉”,目前运用于门店管理的很多技术手段都是沃尔玛做了“第一个吃螃蟹”的,我们只不过坐享其成而已。由于沃尔玛具备先进的技术手段,“啤酒与尿布”的故事在沃尔玛产生就一点也不奇怪了。

第二个原因是沃尔玛拥有一双锐利的慧眼。沃尔玛是一家极其讲究卖场现场管理的企业,沃尔玛创始人老沃尔顿最大的乐趣就是不停地在卖场巡视,更多地运用自己的双眼而不是数据来发现事实。因此不能忽略的是,没有沃尔玛管理人员的慧眼,“啤酒与尿布”的故事也会淹没在大量的零售数据中。

“啤酒与尿布”并不是新故事

营销界很多人对于“啤酒与尿布”的故事津津乐道,吹捧得如同发现新大陆般!“啤酒与尿布”的故事就是商品交叉销售,这种销售现象几乎和人类历史一样悠久,在古人披着兽皮交换贝壳、粮食、石斧等商品时,他们已经清楚地了解商品交叉销售对于商品交易的重要性,一些聪明的家伙会采取种种措施鼓励客户多交换一些商品(估计是一袋贝壳加一条鱼换一袋大米)。“啤酒与尿布”的故事只是对商品交叉销售现象的一种现代解释,并不是出现“啤酒与尿布”的故事之后,才存在商品交叉销售的现象。从这个意义上讲,沃尔玛并没有发现新大陆,只不过把我们视而不见的现象挖出来,并从中发现了商业价值。沃尔玛的创始人老沃尔顿说,retail is detail (零售就是细节)。

商品销售相关性与关联商品

研究商品关联关系的方法就是购物篮分析,在购物篮分析方面有两个值得我们学习的榜样,一个是美国的沃尔玛,另一个是日本的7-11便利店。同样是购物篮分析,沃尔玛强调找出商品之间的关联关系,比如啤酒与尿布,而7-11便利店的重点在于找出影响商品销售的所有因素,比如碳酸饮料与气温的关系等等。换句话说,沃尔玛重点是分析购物篮内商品之间的关联关系,而日本7-11便利店的重点是从购物篮外面找影响商品销售的关联关系。

美式购物篮分析

以沃尔玛为代表的美食购物篮分析的目标一般是卖场面积巨大,通常都是上万平方米,商品种类繁多,大多在10万种以上,所以要通过购物篮分析找出淹没在不同区域商品之间的关联关系,并将这些关联关系用于商品关联陈列、促销等具体工作中,是很难通过人工完成的。比如啤酒在酒类区域,尿布在婴儿用品区域,两个商品陈列区域相差几十米,甚至可能是“楼上、楼下”的陈列关系,用肉眼很难发现啤酒与尿布存在关联关系的规律。

我们把找出购物篮中商品之间关系的方法称为“美式购物篮”分析法,这种方法适合应用于类似沃尔玛这样的大卖场,用于找出不同陈列区域商品之间的关系。英国的Tesco连锁超市、Safeway连锁超市也都是这种购物篮分析的高手。我们这个课程所主要研究的目标也是这种美食购物篮。

日式购物篮分析

日本这个国家很神奇,虽然身为岛国,但是经济发达。分析日式购物篮确实能够看到日本人在经商方面的巧妙之处。日本的超市以7-11便利店为典型,7-11便利店营业面积都很小,一般只有100~250平方米,商品品种3000~10000种,是典型的“螺蛳壳里做道场”。

如我们在电影或者泡沫剧里面所见,日本很多门店的经营面积狭小,站在门店里任何一个角落,所有的商品转个身就全看见了——真正的抬头不见低头见,所以找出商品关联关系

不是日本7-11便利店的重点:你就是找出来啤酒与尿布之间有“暗恋”关系,也没用!因为啤酒与尿布本来就在一起。

当然日本7-11便利店这类相关陈列的故事也是有的,比如荞麦冷面与纳豆、鱼肉香肠与面包、酸奶与盒饭等等,但是毕竟起不到主要作用,日本7-11便利店更关注的是:

●气温由28℃上升到30℃,对碳酸类饮料、凉面的销售量会有什么影响?

●下雨的时候,关东煮的销售量会有什么变化?

●盒饭加酸奶、盒饭加罐装啤酒都是针对什么样的客户群体?他们什么时间到门店买这些商品?

所以,日本人的重点是分析所有影响商品销售的关联因素,比如天气、温度、时间、事件、客户群体等,这些因素我们称为商品相关性因素。

日本人对于所有影响商品销售的关联因素研究得非常透彻,因此日本就会有气温-碳酸饮料指数、空调指数、冰激凌指数,因此就不难理解为什么7-11便利店会设置专门的气象部门,因此更能够理解为什么日本7-11便利店会要求门店每天5次将门店内外的温度、湿度上传回总部,供总部与商品销售进行对比分析。

与商品之间的关联关系相比,日本7-11便利店认为这些关联因素更重要。由于这是日本7-11便利店大量采取的方式,我们也称为“日式购物篮”分析法。

“啤酒和尿布”故事包含什么样的含义

沃尔玛的“啤酒与尿布”的故事实际上向我们揭示了零售业未来的获利及生存模式。他凸显了零售卖场中一个全新的管理理念,即商品之间是具有关联关系的,发现并利用这些商品之间的关联关系,可以在无法大幅增加门店客户数的前提下,通过增加购物篮中的商品数量达到增加销售额的目的,从而获得更大的经营收益。

启示一:购物篮大于商品

有在零售业工作经验的朋友都知道,老板考核大家的主要指标是商品销售额,你的工资袋取决于商品的销售额。老板会将商品销售指标下发到个人,每个人都只会关注自己的“一亩三分地”,卖啤酒的只管闷头卖啤酒,卖尿布的只管闷头卖尿布,每个柜台只管自己的商品是否能进入客户手中的购物篮。卖啤酒的不关心购物篮中的尿布,卖尿布的也漠视购物篮中的啤酒,只要别漏了自己柜台的东西就行了,因为漏了自己的商品,这个月的奖金就没了,人人只扫门前雪,长此以往商店的整体效益当然不会好了,效益不好就要裁员,大家都没好果子吃。反观沃尔玛的卖场管理体系中,购物篮是主要的管理对象,而不仅仅是商品。

为什么沃尔玛会以购物篮为管理重点?沃尔玛认为商品销售量的冲刺只是短期行为,而零售企业的生命力取决于购物篮。一个小小的购物篮体现了客户的真实消费需求和购物行为,每一只购物篮里都蕴藏着太多的客户信息。零售业的宗旨是服务客户,沃尔玛认为商店的管理核心应该是以购物篮为中心的顾客经营模式,商品排名只能体现商品自身的表现,而购物篮可以体现客户的购买行为及消费需求,关注购物篮可以使门店随时掌握客户的消费动向,从而使门店始终与客户保持一致。

启示二:购物篮方面的差距

购物篮的表现形式就是我们常说的“客单价”,客单价的高低直接反映了零售企业的经营效益。根据AC·尼尔森2006年对国内零售企业的调查发现,从周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客单价是29元,家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元,好又多、大润发、乐购等台资卖场客单价为50元。到了周末(周六、周日)的差距更大,国内卖场客单价为35元,台资卖场客单价为80元,外资卖场可以达到149元,这就是我们国内企业在购物篮方面的差距(见图1-1)。

我们知道,销售额=客单价×客流数。在同等客流量的情况下,我们的企业由于客单价

低,已经先失一着,销售业绩要比外资企业低200%,比台资企业低60%。此外,销售额低会带来很多问题,比如毛利额低、通道费低、与供应商的话语权降低,甚至会直接影响到企业的生存。因此,要想提高商业企业的销售业绩,必须改善企业购物篮,全面提升客单价,可以说零售企业的购物篮代表了企业的生存权!

图1-1 各类零售企业客单价(购物篮)金额分布图

另据有关报道,客户到家乐福卖场的年平均购物频度只有9.8次,但是在快速消费品的市场份额却比年平均客户购物频度高达51次的华润苏果高出3.63%,家乐福、沃尔玛、易初莲花等外资零售企业仅仅利用客户几次上门购物的机会,就获得了远比国内零售同行高很多的快速消费品市场份额。

尤其要注意的是,沃尔玛、欧尚等外资零售企业在国内只有区区的十几家门店,居然占据了非常大的市场份额,充分显示了这些外资零售企业在购物篮方面的确有“高招”。

“啤酒与尿布”故事的依据是商品之间的相关性(也称关联性,英文名称为association rule),商品相关性是指商品在卖场中不是孤立的,不同商品在销售中会形成相互影响关系(也称关联关系),比如“啤酒与尿布”故事中,尿布会影响啤酒的销量。在卖场中商品之间的关联关系比比皆是,比如咖啡的销量会影响到咖啡伴侣、方糖的销售量,牛奶的销量会影响面包的销售量等等。

所谓事物之间的相关性是指当一个事物变化时,另一个事物也会发生变化。当事物之间的变化是相互抵消的,比如猪肉价格上涨、猪肉销量下降,我们称这种相关性是负相关;当事物之间的变化呈现同一个方向发展时,比如气温上升、冷饮销量也上升,我们称这种相关性是正相关。

有些事物的相关性显而易见,有些则不是那么明显。美国华尔街股票分析师将女性超短裙的长度与道琼斯股票指数建立了关联,超短裙的长度与股票指数成反比趋势,据说十分灵验,这就是相关性在生活中的种种体现。

商店中的关联性更是比比皆是,比如烟酒销售的关联关系:当门店附近有建筑工地时,低档烟、酒的销售就会上升;当附近有高档社区时,中华烟、葡萄酒的销售量就会上升。

提到商品相关性,很多人认为就是数据分析的事儿,其实对于商品相关性来说,更重要的是客户心理层面的因素,毕竟是人在提着购物篮,而不是猴子。

客户在购物时的心理行为是产生商品之间关联关系最基本的原因,因此在找到购物篮规律时,必须要从客户消费心理层面解释这些关联关系,否则“啤酒与尿布”会永远停留在啤酒与尿布两个商品身上,而没有任何的推广意义。要想详细了解商品相关性形成的客户心理因素,要进行大量的客户消费行为观察,构建客户购物篮场景,才可使“啤酒与尿布”的故事发扬光大。

一张小纸条——商品相关性分析的依据

要想找到“啤酒与尿布”之间的关联关系,就要对客户手中的购物篮进行计算。

我们将单个客户一次购买商品的总和(以收银台结账为准)称为一个购物篮。比如我们在超市收银台一次购买了5件商品:啤酒、卫生纸、熟食、果汁饮料、大米,我们就可以认为在这个购物篮中共有5件商品,在收款台交款时这5件商品会集中体现在同一个收款小票中。因此,我们可以说,一个购物篮就是一张收款小票,购物小票就是购物篮分析的一个重要依据,一张购物小票并不简单,这张小纸条实际上包含了3个层面的含义。

●购买商品的客户:“啤酒与尿布”实际上是讲述了特定客户群体(年轻父亲)的消费行为,如果忽略了这个特定的客户群体,“啤酒与尿布”的故事将会毫无意义。

●购物篮中的商品:同时出现在一个购物篮中的啤酒和尿布包含了很多要素,比如这些啤酒与尿布同时出现是否具有规律?啤酒和尿布的价格是多少?是否进行了促销……

●购物篮的金额信息:购买啤酒和尿布的客户使用了什么样的支付方式?是现金、银行卡、会员储值卡,还是支票等等。

有会员卡与无会员卡的超市购物篮分析

提到超市的购物篮分析,很多人第一反应就是超市必须要有会员卡,否则这件事儿就干不了,其实没有那么复杂。

超市有会员卡,通过会员卡分析POS机的消费数据是一件惬意的事情,可以知道这样的事实:老张今天买了2瓶啤酒、一包花生米、2袋豆腐干;大前天老张买了4瓶啤酒、一包开花豆、4袋豆腐干。

可是一个1000平方米的超市,像老张这样的客户一天可能有1000~2000个,这样的数据看上一天也不会有什么结果,除了知道老张喜欢喝上一口,喜欢用花生米、豆腐干下下酒,其他的事情都不知道。

这就引出了一个新的话题:客户群体划分。

了解一个又一个老张们的喝酒习惯对于门店是没有意义的。门店需要知道的是,门店有多少个老张?又有多少个与老张喝酒习惯不同的老李?将喝啤酒就花生米的老张与喝干白葡萄酒就腰果的老李分开,分成不同的客户群体,对于门店才是有意义的。

比如门店只要知道,在喝酒的100个客户里,有30个喝啤酒就花生米的老张,10个喝干白葡萄酒就腰果的老李,另外有20个老王是喝黄酒就豆腐干,这就足够了。门店这时就可以知道,啤酒与花生米有关联关系,干白葡萄酒与腰果有关联关系,黄酒与豆腐干有关联关系,这些商品可以考虑一起促销,或者摆放在相近的位置进行陈列。

这么说大家应该明白了吧,我们分析啤酒与花生米、干白葡萄酒与腰果、黄酒与豆腐干之间的关联关系时,不需要了解这些客户到底是谁,只要知道有这么个群体存在就行了。

找商品之间关联时有会员卡当然不错,没有会员卡时一样可以分析啤酒与尿布、啤酒与花生米之间的关系,我们只要知道怎么去归类就可以了。不要听某些人讲,没有办法进行购物篮分析,原因是超市没有使用会员卡,这不过是借口而已。

以支持度、置信度、提高度三项指标表现的商品相关性

很多专业人士认为,一个正规的购物篮分析报表应该采取三个指标数字,才可以准确地衡量商品是否真的存在关联关系:采取“支持度(support)-置信度(confidence)”作为主要商品相关性分析指标,为了强化说明关联关系,往往会运用提高度(lift)指标。

1. 支持度(support)指标

在购物篮分析中,支持度指的是多个商品同时出现在同一个购物篮的概率。比如啤酒与尿布同时出现在购物篮中的概率是20%,我们称啤酒与尿布的支持度是20%,按照国际命名规则表示为:啤酒Implies 尿布=20%。

“啤酒与尿布”不等于“尿布与啤酒”——相关性的单向性:这不是一句绕口令,这是代表商品之间的相关性具有单向性。我们前面讲过,“啤酒与尿布”代表了一种因果关系。在“啤酒与尿布”的故事中,年轻的父亲去超市的目的是购买尿布,在买到尿布的前提下,才会考虑购买啤酒,因此在购买尿布的父亲中有35%购买了啤酒,不代表购买了啤酒的父亲有35%购买了尿布,因为这是两类不同的消费行为,商品之间的因果关系也会不同,因此这个故事不能反过来讲。

要看商品之间是否具有相关性,在计算商品之间的支持度时,需要反过来计算进行验证,看看两个商品之间的相关性具有多少的可信度,从而寻找商品之间的因果关系。由于商品之间关联关系具有单向性,在零售业也会采取这种表示商品关联关系的方式:尿布→啤酒,即尿布与啤酒之间具有关联关系,方向是从尿布到啤酒(反过来不一定对)。

2. 置信度(confidence)指标

置信度是对支持度进行衡量的指标,用于衡量支持度的可信度及数据强度。由于这项指

标是将商品同时出现在购物篮中的概率进行反复运算,因此这是衡量商品相关性的主要指标。

3. 商品之间的亲密关系——提高度(Lift,也称兴趣度)指标

提高度是对支持度、置信度全面衡量的指标,很多时候在衡量商品关联关系时只采用这一个指标,可见这个指标的重要性。当提高度指标大于1时,表明商品之间可能具有真正的关联关系。提高度数据越大,则商品之间的关联意义越大。如果提高度小于1.0时,表明商品之间不可能具有真正的关联关系。

在某些情况下,提高度会出现负值,此时商品之间很有可能具有相互排斥的关系,体现在购物篮中,就是这些商品从来不会出现在同一个购物篮中。

为了说明问题,我们下面还是以几个具体的案例说明上述问题

超市中熟食、面包、肉类三种商品之间的关系——三项指标表示的商品相关性

图1-3是我们对某超市熟食、面包、肉类商品的关联性分析图,相信前一次邓斌同学的演示大家还记忆犹新,我们在这里向大家解释一下如何解读这个关系图。

我们以第一行数据为例,表示客户购买熟食时,有8.33%的客户会同时购买面包,这个比例很少,因此可以认为买熟食的客户只有很少的比例会购买面包。

第二行数据表示在客户购买面包时,会有33.33%的客户同时购买熟食,这样的关联度数字具有商业价值,我们在这里也要注意,熟食与面包的关联度方向性很强,这是代表了不同的消费行为。

第三行数据显示购买熟食品的客户在完成购物后,会去买肉类商品。

在表1-3中我们可以看出,熟食与肉类、肉类与熟食之间具有关联关系。

肉类和面包与熟食之间、熟食与肉类和面包之间具有关联关系,这些关联关系经得起反复计算,是真正的关联关系,而其他商品之间没有真正有意义的关联关系。

我们在前面谈到了,商品关联度有好几种表示方式,但是这些方式实在很麻烦!你可能会问,哎呀,有没有办法用一个简单的数据,直截了当地表示商品之间的关联度?当然有了,表示商品关联度的数值可以统称为R值(Relationship的简称),这个R值作为商品之间相关性的数值统称,可以是商品同时出现在购物篮的概率,也可以是商品之间的提高度。

R值的含义

R值是衡量商品相关性的重要指标,按照购物篮分析的规律,R值与商品相关性的对应关系定义如图1-2所示。

图1-2 R值与相关性指标对应关系

对于R值大于0.75,则可以认为具有相当强的相关性,R值在0.25~0.75为较强相关,R 值低于0.25的相关为弱相关。

1.不要盲目乐观——当商品之间的R值大于0.75时

在购物篮商品相关性分析时,如果发现商品之间的相关性越强,当然代表商品之间具有很强的关联关系,但是别高兴太早,R值越大越可能得出无意义的分析结果,因为此时揭示的可能是卖场司空见惯的东西。比如三文鱼片与绿芥末经常会出现在一起,或者热狗面包与热狗、卷笔刀与铅笔、方便面与火腿肠经常出现在一起等,这样的分析结论要尽早剔除,以免为业务人员所嘲笑。西方有一句名言:“不要尝试再去发明车轮”,用在这里作为某些大的R值的评价是很恰当的。

2. 临时因素造成的强关联关系——当商品之间的R值在0.25~0.75之间

这类R值在购物篮数据分析行业称为“强关联”,很多“强关联”是临时因素“干扰”造成的,有些“干扰因素”没有意义(如下面提到的伪关联),有些“干扰因素”有意义,比如摆放在同一个堆头区商品很容易同时出现在购物篮中,看上去具有很好的相关性,一旦

促销结束、堆头撤销,商品的相关性也会消失,但是这样的临时因素就非常有意义,可以证明促销组织非常成功,因此可以用来评估促销效果。

3. 隐藏在微弱特征背后的真相——当商品之间的R值在0.25以下

在购物篮分析行业,将R值低于0.25的相关性称为“弱关联”。在很多弱关联中,蕴藏了很多不为人知的商业规律,比如啤酒与尿布这类商品的关联关系,相关关系特征相当微弱,只有在特定的条件下(比如购买啤酒与尿布的父亲),这些特征才会强化从而被人发现,所以零售专家认为,弱关联最吸引人。在弱关联中找出商品之间存在的关联关系,对于很多数据分析人员来说是个极大的挑战,因此购物篮分析的主要任务是在弱关联的关系中找出商品之间的相关性。

4. 同行是冤家——当商品之间的R值为负值

出现负值代表商品从来不出现在同一购物篮中,商品之间的关系是排斥关系。很多购物篮分析数据不提及R值为负的情况,这是因为R值为负数时,分析难度更大。一般来说,只有在商品之间的功能相同时,R值为负值才有意义,因此我们称为“同行是冤家”,这时往往代表商品之间是竞争替代关系。

R值背后隐藏的事实

在卖场中存在大量的商品关联关系,比如油条与豆浆、三文鱼与绿芥末、牛奶与面包等等,这些商品之间具有较强的关联关系,也有一些商品之间是竞争关系(负关联即排斥关联),比如米饭与面食、猪肉与鸡肉、各类面包之间、不同品牌牛奶之间等等。

尾声

其实除了“啤酒与尿布”之外,商品之间还会存在很多奇特的关联现象,只是这个故事给我们打开了通往发现真相的大门。我相信,人们对这个经典的案例的挖掘还会继续下去,借句老话说:经典早就了永恒。我希望,我们今天的演示能够为在Data Mining挖掘出来数据信息之后抓耳挠腮、不知何用的同学提供一点点思路。虽然我们还没涉足社会进行自己的创业,但是我们可以结合我们平时的所见所闻所想,再佐以前人的经验,牛顿说:我们成功,是因为我们站在巨人的肩膀上。

实验二 Clementine12购物篮分析(关联规则)

实验二Clementine12购物篮分析(关联规则) 一、[实验目的] 设计关联规则分析模型,通过模型演示如何对购物篮分析,并根据细分结果对采取不同的营销策略。体验以数据驱动的模型计算给科学决策带来的先进性。 二、[知识要点] 1、购物蓝分析概念; 2、管来呢规则算法原理; 3、购物蓝分析工具; 4、Clementine12.0关联规则分析流程。 三、[实验要求和内容] 1、初步了解使用工作流的方式构建分析模型; 2、理解智能数据分析流程,主要是CRISP-DM工业标准流程; 3、理解关联规则模型原理; 4、设计关联规则分流; 5、运行该流,并将结果可视化展示; 6、得出模型分析结论 7、运行结果进行相关营销策略设计。 四、[实验条件] Clementine12.0挖掘软件。 五、[实验步骤] 1、启动Clementine12.0软件; 2、在工作区设计管来呢规则挖掘流; 3、执行模型,分析计算结果; 4、撰写实验报告。 六、[思考与练习] 1、为什么要进行关联规则分析?它是如何支持客户营销的?

实验内容与步骤 一、前言 “啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长! “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。 在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。 当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法—Aprior算法。沃尔玛从上个世纪90年代尝试将Aprior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中?

数据挖掘案例分析--啤酒与尿布讲课稿

前言 “啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长! 商品相关性分析是购物篮分析中最重要的部分,购物篮分析英文名为market basket analysis(简称MBA,当然这可不是那个可以用来吓人的学位名称)。在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”,可见购物篮商品相关性算法吸引人的地方,这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。 购物篮分析的算法很多,比较常用的有A prior/ ?’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等,上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程,因此在这里我不介绍具体的购物篮分析算法,而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟,在进入20世纪90年代后,很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中,成为了软件产品的组成部分,客户购买了这些软件产品后就等于有了购物篮分析的工具,比如我们正在使用的Clementine。 缘起 “啤酒与尿布”的故事可以说是营销界的经典段子,在打开Google搜索一下,你会发现很多人都在津津乐道于“啤酒与尿布”,可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初,甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料,我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的,这应该算是目前发现的最权威报道。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。 在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。 当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

案例1

案例1 ①尿布和啤酒的故事 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。是什么让沃尔玛发现了尿布和啤酒之间的关系呢? 案例② 美国密执安州有一家名为“阿汉”的小餐馆有个异常奇特的做法:经常光顾该餐馆的顾客,只要愿意,便可报上自己的常住地址,在客户登记簿上注册,开一个“户头”,以后顾客每次到这里来就餐,餐馆都会如实地在其户头上记下用餐款额。每年的9月30日,餐馆便会按客户登记簿上的记载算出每位顾客从上年9月30日以来在餐馆的消费总额,然后再按餐馆纯利10%的比例算出每位顾客应得的利润分发给顾客,这样,餐馆自然就常常门庭若市。 阿汉餐馆给顾客分红的方法虽然损失了一部分纯利,但却使顾客感到自己与餐馆的利润息息相关,自己也是餐馆的一员。这样一来,餐馆密切了与消费者的关系,吸引了许多回头客。这种让食客成为“股东”的做法其实也是一种“组合”式的生意之道,不同的是前者是明显的“物质组合”,而后者是隐蔽的“人员组合”,两者都是以消费者心甘情愿地付出而给老板带来了滚滚利润,何乐而不为呢? 案例③ 山姆会员店,严格要求顾客购物要出示本人的会员卡,如不是本人的会员卡,不能购买超市的商品。很多人纳闷,山姆大叔为什么有钱不赚,难道山姆大叔仅仅是想赚会员费吗? 案例④ 曾有一篇报道,英国有位老先生,因为实在忍受不了老伴40年来始终只给他做

管理学企业分析

管理学企业分析 -------朝日啤酒公司 (工商六班刘如月) 朝日啤酒公司的历史可追溯到110年前,多年来一直稳居日本啤酒公司品牌前三的位置,是日本唯一年销售量突破一亿箱的产品。在2000年国际啤酒排行榜中位居第四大国际品牌。朝日啤酒公司大胆假设“判断啤酒的美味的标准是随着时代的变迁而改变的”,并认为“顾客不是外行,是能够分辨啤酒味道的”。在其进行多达5000人的市场调查后,推翻了啤酒的美味在于“啤酒的美味“这一理论,于是”醇香可口“这一啤酒新味道的概念就此诞生。啤酒公司此举是在对环境进行扫描之后进行的,环境扫描建立了预测的基础。在预测的过程中,要注意根据特定的情景,针对具体的问题采用科学的预测方法,在进行足够的科学调查后,制定切实可行的计划。 不仅在生产观念上,就连在销售理念上,朝日啤酒公司也是利用科学的分析,预测后制定合理的计划,让对方措手不及。在20世纪80年代末,日本的朝日啤酒公司预见到消费者的购买习惯发生变化,它采用以逸待劳的手法,实施自己的先见之明,在新的战场上建立了堡垒,静候战争。其实,朝日一直意在取代日本的领头羊麒麟(Kidn)。但是,想在货架上与麒麟一争高下、占据一席之地非常困难。因为麒麟在酒店的影响力异常大,大多数日本人在酒店里购买啤酒,幸运的是朝日窥见到消费者的购买习惯在改变,买啤酒的女士越来越多,她们更倾向于在超市而不是酒店里购买,超市啤酒销量猛增。朝日啤酒公司主动地了解环境状况,获得了及时准确的环境信息,通过调整自己的目标,选择合适自身发展的方案。在良好的信息沟通,及时准确的感知环境变化,保持结构的灵活性的前提下,朝日啤酒公司制定了合理的销售策略:朝日停止了猛撞酒店大门的做法,而是同杂货商建立了强力推销关系。朝日的预言被证明是正确的,人们去食品杂货店购买啤酒的势头不减,麒麟从超市关系和专长上发现了朝日这个竞争对手。麒麟最后亦步亦趋,试图追随朝日啤酒进入超市,然而朝日的伏兵掀翻了麒麟的桌子,使朝日在日本啤酒中占据了霸主地位。其实,朝日的称霸不仅在于其对市场敏锐的洞察力,还在于其拥有成功的管理者,管理者敏锐的反应能力和机动灵活的应变能力是其成功的强有力的后盾。当然,在制定营销战略之前,管理者必须确定现实的、制定的目标,管理系统还必须保持充分的伸展性,以便及时的适应客观事物的各种可能的变化需求。 海因茨·韦里克和哈罗德·孔茨认为:“应该将一个目标作为目标导向,成功导向的管理系统”。朝日集团的目标管理十分有效。朝日集团为了实现“迅速应对激烈变动的经营环境”的目标,也实现适合并经营时代需要“加强集团经营”,加强与各利益人群关系的,“提高企业的社会性的,经营的透明性”的目标,强化着公司的治理,彻底贯彻高透明度的经营和企业行为规范。组织资源一般是指值得正式汇报体系、信息加工和决策体系以及正式或非正式的计划体系,朝日啤酒公司就拥有良好的组织资源。另外,企业的目标是为其利益相关者创造财富和价值,企业是由利益相关者组成的系统,企业的发展离不开利益相关者的支持,因此朝日集团积极加强其与利益相关人群的关系,朝日啤酒集团为了成为受利益相关者信赖的、不断成长的企业,以“提高经营的公正性和透明性”,“缩短决策过程时间”和“彻底贯彻企业伦理规范”为主题,持续加强公司治理。而且,为了实现公正且透明的经营,在确保公司外取缔,公司处监事的监督机能实施的同时,还接受商法的检查。同时,为了确保对董事人事和董事报酬的公正性和透明性,设置了“提名委员会”和“报酬委员会”。为实现决策的迅速化,采用了执行董事制度,将由一般董事从事的经营战略提案,业

“啤酒和尿布”对药店营销的启示

“啤酒和尿布”对药店营销的启示 诚然信息治理系统做为医药连锁企业治理手段的最差不多的目的已达到,然而企业的应用信息化系统的层面难道只是仅仅局限在如何降低企业的营运成本那个层面上吗?由此笔者想到多年前看到的一个案例: 在美国沃尔玛的一个超级市场的货架上,尿布和啤酒赫然地摆在一起出售,一个是日用品,一个是食品,两个风马牛不相及的物品摆在一起的结果是尿布和啤酒的销量双双激增。沃尔玛超市什么缘故要将这两个商品摆在一起?摆在一起的结果什么缘故会使销量激增?原先,沃尔玛超市对一年多的原始销售交易数据进行详细分析,发觉在美国有小孩的家庭中,太太经常叮嘱他们的夫君下班以后要为小孩买尿布,而夫君们在买完尿布以后又顺手带回了自己爱喝的啤酒,因此啤酒和尿布一起购买的机会是最多的。 由此,我们能够看到,信息技术的应用另外一个更要紧的层面――企业的“开源”。我们在专门多企业治理培训或MBA课程中明白,企业利润的来源的实现要紧基于两个部分:“开源”和“节流”。当企业占据市场的主导份额时,企业关注的焦点在“节流”,这时企业靠流程优化或技术革新节约下来的每一分钞票要比从市场上猎取每一分前所付出的成本小的多;然而当企业尚未占据市场的主导份额时,企业关注的焦点在“开源”,如何在销售中挖掘潜力,如何抢夺竞争对手的客户等相关“开源”的战略战术,所猎取的利润远远比现时期靠“节流” 所猎取的利润从企业的经济战略角度讲意义要深远的多的多。 纵观现在的医药连锁行业,尚未有哪个企业在市场上占据决定性的主导份额,药店与药店的相互竞争也较为平滑,简单而原始的武器“价格战”大行其道,在毛利率不断下降的今天,企业信息化的关注的焦点如何“开源”也被其下游服务商――软件供应商所忽视,仅仅停留在“开源”层面。这不能不讲是一种误区。 那么,医药连锁企业如何利用信息技术进行“开源”呢?在一年多前,我们曾以此为课题进行深入的探讨,结合药理学的相关知识,参照沃尔玛的案例对连锁药店所经营的药品相关性进行分析,并将分析后的结果在昆明某医药连锁企业的某一药店进行实施。其季度销售额与去年同期相比结果如下,如表1所示: 单位:元

啤酒与尿布读后感

我们正处在一个信息大爆炸的年代,主要表现在大量信息的产生并以数字化的方式被记录下来。信息技术的普及造就了信息大爆炸的年代。大量的信息可以帮助人们更好地决策;但是同时因为信息太多了,如何找到有用的信息又变成了一件难题。这里,啤酒与尿布的故事就给了我们很大的启发。 沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的历史购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库集中了其各门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘,却有了一个意外的发现:婴儿尿布和啤酒有很高的相关度,即跟尿布一起购买最多的商品竟然是啤酒!这是数据挖掘技术对历史数据进行分析的结果,反映数据内在的规律。接着,沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时为自己买一些啤酒,产生这样的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助统计学上的数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 数据挖掘是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据挖掘的应用之一就是关联规则,通过对大量数据的分析,找到两个或几个总是同时发生的事件。所以我们可以看到统计学的应用正是用数据挖掘价值的最强有力的工具! 然而,书中还提到了这样的故事,是说关联的时效性:有些关联只发生在特定时间。7-11便利店,某位员工订货错误,酸奶从3瓶变为30瓶,为了完成销售,将酸奶拿到面包盒饭陈列区,销售一空。从此7-11便将酸奶与快餐搭配陈列提高销量。这就是带有时效性的商品关联,如果不及时关注,一天的酸奶销售量很快就

啤酒与纸尿裤

啤酒和尿片齐飞在美国沃尔玛超市的货架上,尿片和啤酒赫然地摆在一起出售。一个是日用品,一个是食品,两者风马牛不相及,这究竟是什么原因?原来,沃尔玛的工作人员在按周期统计产品的销售信息时发现一个希奇的现象:每逢周末,某一连锁超市啤酒和尿片的销量都很大。为了搞清楚这个原因,他们派出工作人员进行调查。通过观察和走访后了解到,在美国有孩子的家庭中,太太经常嘱咐丈夫下班后要为孩子买尿片,而丈夫们在买完尿片以后又顺手带回了自己爱喝的啤酒,因此啤酒和尿片销量一起增长。搞清原因后,沃尔玛的工作人员打破常规,尝试将啤酒和尿片摆在一起,结果使得啤酒和尿片的销量双双激增,为商家带来了大量的利润。在寸土寸金的货架陈列竞争中,为了刺激消费者的购买欲望,商场经常采取按照类别陈列的方式便于消费者选择,比如将文具类商品集中在一起陈列。但是,有些商品之间的关系表面上看并没有什么关联关系(相关性),比如啤酒和尿片,但是他们事实上又存在很强的依靠性。假如能够挖掘出这类隐性产品之间的关联关系,就可以大大提高消费者的随机购买,从而提高超市的利润率。商品间的相关性如何从浩如烟海却又杂乱无章的销售数据中,发现啤酒和尿片这类商品销售之间的联系呢?幸运的是,现代超市都拥有了数据收集处理系统,这给统计带来了一定的便利。但是,要判定数据之间的关系,还是要把握一定的原则和方法。1。三个标准决定这种关联关系是否成立,必须同时考虑三条独立的标准,支持度(普遍度)、置信度(也称猜测度)以及增益。(1)支持度是同时包含关联性左右两边物品的交易次数百分比,即支持该规则的交易次数的百分比;(2)置信度是有了左边商品,同时又有了右边商品的交易次数百分比。换句话说,置信度就是在所有的购买了左边商品的交易中,同时又购买了右边商品的频率。(3)增益是两种可能性的比较。一种是在已知购买了尿片的情况下,购买啤酒的可能性;另一种是在购买了啤酒的情况下,购买尿片的可能性。这个数值越大说明两者之间的促销关系越明显。要注重,孤立地使用上述的标准中的任意一种,都会导致不正确的结果。例如点鱼子酱则点伏特加酒这一个规则的置信度高,但是假如因为很少有人点鱼子酱而使交易支持度降低,则该规则没有什么用处,因为购买率不高,给超市的收益增加贡献没有价值。另外,当常见商品出现在右边的时候,其置信度也轻易产生误导。比如“买花生就买牛奶”、“买面包就买牛奶”置信度都很高,因为牛奶的高购买率误导了对花生、面包购买增益的真实性,因为面包、花生对牛奶起不到明显的促销作用。2。分析过程假设超市的顾客源是稳定的,即一年内来超市消费的顾客数量是一定的。对于尿片与啤酒之间的关联性进行这样分析。(1)首先分析尿片对啤酒的促销增益,即“尿片→啤酒”。用S来表示支持度,表示100S%的顾客同时买尿片和啤酒;C是置信度,表示100C%购买尿片的顾客还会购买啤酒;Q是平均购买量,表示在所有购买啤酒的顾客中,平均每位顾客购买的啤酒数量;P是利润,表示超市每卖出一瓶啤酒的盈利。那么,顾客总数×S可以理解为同时购买尿片和啤酒的顾客人数;顾客总数×S×C可以理解为在尿片的“促销”下,还会购买啤酒的顾客人数;顾客总数×S×C×Q×P表示受尿片“促销”啤酒模式的影响所产生的超市利润。所以对于以赢利为目的的超市而言,顾客总数×S×C×Q×P可以用来评估关联性“尿片→啤酒”中,尿片对啤酒“促销”作用的强弱,数值越大说明尿片对啤酒的“促销”作用越强。(2)分析啤酒对尿片的促销增益,即“啤酒→尿片”要取得明确的促销效果,超市往往把两种商品摆放在一起,因此不仅要考虑尿片对啤酒的“促销”作用,还要充分考虑啤酒对尿片的“促销”增益,就是“啤酒→尿片”。虽然关联性“尿片→啤酒”的反向规则“啤酒→尿片”可能不满足已设定的最小置信度,但是通过对其反向规则“啤酒→尿片”的分析,找出啤酒对尿片的“促销”关系对全面评估啤酒和尿片摆放在一起所能够产生的价值也是有意义的。同“尿片→啤酒”的计算方式可以求得,受啤酒“促销”尿片模式的影响所产生的超市利润可以表示为:顾客总数×S′×C′×Q′×P′(加′为了与上一分析过程表示区别)。(3)判定相互之间的促销增益。由于顾客源是稳定的,可视为常数,所以引入“促销”系数W=S×C×Q×P+S′×C′×Q′×P′,来衡量两种商品间“促销”关系的强弱。W越大,说明两种商品间的促销作用越明显,把这两种

数据挖掘案例2014.04-10

成功案例: 1,Credilogros改善客户信用评分业务(直接数据挖掘,预测统计分析方法/软件) Credilogros是阿根廷第五大信贷公司,它需要识别与潜在预先付款客户(缺乏充分的信用记录数据)相关的潜在风险,以便将承担的风险最小化。Credilogros选择了SPSS Inc.的数据挖掘软件PASWModeler,因为它能够灵活并轻松地整合到Credilogros 的核心信息系统中。数据挖掘的收益包括: 1)处理信用数据和提供最终信用评分的时间缩短到了8秒以内。平均每月使用PASW Modeler处理35000份申请。这使该组织能够迅速批准或拒绝信贷请求。 2)最小化每个客户必须提供的身份证明文档,某些情况,只需一份身份证明即可批准 信贷; 3)风险监控,仅在实施3 个月后就帮助Credilogros 将贷款支付失职减少了20%。 2,中国宝钢集团(直接数据挖掘,分类分析方法) 宝钢自1985年投产至今,积累了大量的生产数据,从每一炉钢到每一块板坯到每一个钢圈,各级计算机系统可以把这些数据完整地收集起来。采用数据挖掘技术对钢材生产的全流程进行质量监控和分析(通过全流程实时监控获得了丰富的生产数据),构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。 宝钢采用了两个数据挖掘工具,一个是自行研发的基于SAS的practical Miner,另一个是美国SAS公司的Enterprise Miner。在冷轧和热轧的产品质量控制中,仅2001年就取得超过3000万元的经济效益。在配矿优化项目中,通过确定不同铁矿石的合理比例,每年可为宝钢降低成本6000万元。另外,通过分析轧制计划,分析和优化库存结构,降低库存成本和平衡物流成本。 3,DHL实时跟踪货箱温度 DHL每辆车都装有持续记录车速、时间及温度的特制“黑匣子”,拥有全球定位系统,并由随车安保人员实时监控。一旦有偏离路线、超时停车和车内温度异常情况,货车必须重新装货。基于“黑匣子”提供的大量数据进行数据挖掘,可以根据温度控制的目标,制定和优化行车线路、司机配置、提供车况评估等决策支持。

啤酒与尿布

啤酒与尿布 ——营销神话 “啤酒与尿布”是营销届的一个神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象阐述了商品之间的关联性特征,通过商品关联性的布局摆放形成了连带购买、交叉销售,从而使得销售额成倍的提升。研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长。商品相关性分析是购物篮分析中最重要的部分,而在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”可见购物篮商品相关性算法吸引人的地方。 “啤酒与尿布”的案例有很多,但是,认真地查了一下资料,发现沃尔玛的“啤酒与尿布” 案例是正式刊登在 1998 年的《哈佛商业评论》上面的,这应该算是目前发现的最权威报道。“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象: 在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而

三个常用统计模型的典型应用场景

你们头脑里隐藏的任何念头, 都躲不过魔帽的金睛火眼, 戴上它试一下吧,我会告诉你们, 你们应该分到哪一所学院。 你也许属于格兰芬多, 那里有埋藏在心底的勇敢, 他们的胆识、气魄和豪爽, 使格兰芬多出类拔萃; 你也许属于赫奇帕奇, 那里的人正直忠诚, 赫奇帕奇的学子们坚忍诚实, 不畏惧艰辛的劳动; 如果你头脑精明, 或许会进智慧的老拉文克劳, 那些睿智博学的人, 总会在那里遇见他们的同道; 也许你会进斯莱特林, 也许你在这里交上真诚的朋友, 但那些狡诈阴险之辈却会不惜一切手段, 去达到他们的目的。 分院帽应用的是个非常典型的决策树模型(什么鬼),在上文的《分院帽之歌(节选)》中,我标粗的每个部分都可以认为是一个特征,帽子往学生头上一扣,读取学生的显著特征,然后分到某个类别里。所以你看,哈利波特一开始表现出来的特征都是格兰芬多的特征,但他毕竟是个魂器,分院帽读取数据时候发现这个人有两类显著特征,于是犹豫不决,最后还是波特自己提出了要求,这就证明应用模型时的人工干预必不可少(大雾)。 言归正传,决策树在实际工作中基本应用于给人群分类,最好的应用场景是要把人群分为互斥的两类,并找到两类人群的不同特征。当然,分为多个互斥类别也OK。 一个非常典型的场景是流失模型,对电信业来说,通过用户的行为来提前找到哪些人有流失风险,并通过专门优惠等手段挽留,是运营中的重要部分。之前我在转入互联网行业时,第一选择本来是

游戏公司(可惜愿意收的给不起合理工资……),因此研究了一下游戏用户流失模型的内容,发现跟电信业有相通之处。举个例子,对于某款端游,定义超过一周不登录用户为流失,那么做过的 任务、拿到的装备、打过的副本、充值金额等等,都可以作为预测用特征,比对流失与非流失用户,找到两者的区别,在关键流失节点上加一些运营策略来减少流失。 二、K-means聚类 定义:k-means聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的 标准。 K-means聚类的好处在于样本量大的时候,可以快速分群,但需要在分群后注意每个群体的可解 释性。换句话说,给你一万个人,分成四群,需要能够解释每一群人的突出特征,如果有两群人的特征很相似,那就要重新分群了;或者有一群人的特征不明显,那就要增加分群了。 聚类与分类不同,分类的目的是得到可复用的规则,使得训练集以外的个体可以直接分到已知的类别里;聚类属于后验的研究,是对已有个体的辨别。当然聚类可以在一定条件下转化为分类,例 如K-means里知道了每类的中心,那么新个体可以依据和每类中心的距离,来判断所属类别。但通常情况下,聚类方法本身仍是用于研究的次数更多。 K-means常用的场景是在不清楚用户有几类时,尝试性的将用户进行分类,并根据每类用户的不同特征,决定下步动作。一个典型的应用场景是CRM管理中的数据库营销。举例,对于一个超市/电商网站/综合零售商,可以根据用户的购买行为,将其分为“年轻白领”、“一家三口”、“家有一老”、”初得子女“等等类型,然后通过邮件、短信、推送通知等,向其发起不同的优惠活动。 明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实 状况。 这个案例也算是与”啤酒和尿布“知名度差不多的一个案例。在这个案例中,那个高中生少女明显是被聚到了孕妇那一类,因为她的行为模式与孕妇是很相近的。 (决策树也可以做这件事,但需要先定义出特征,因此在探索特征未知的领域时,聚类可能更好用一些)

并购分析报告

2010年中国并购市场统计分析报告 关键发现 2010年并购市场趋于活跃,宣布并购交易案例数量及披露金额大幅增加。2010年中国并购市场趋于活跃,中国企业宣布并购交易案例2771起,环比上升13.80%;披露交易额1772.1亿美元,环比上升35.87%。 2010年中国并购市场完成交易金额大幅上升。完成案例数量为1798起,环比上升6.14%;披露金额82.02亿美元,环比上升62.57%。 2010年中国并购市场完成交易能源行业案例数量居首。本年度完成并购交易案例涉及20个行业,其中制造业、能源、房地产行业的并购案例数量分列前三位,分别为382、258和229起,分别占并购案例总数量的24%,17%和15%。 2010年中国并购市场出境并购交易案例数量和交易完成金额增加。中国并购市场出境并购共涉及15个行业,完成并购交易案例数量55起,环比增长7.8%;披露金额294.19亿美元,环比上升2.91%。 2010年中国并购市场入境并购交易案例数量和交易完成金额大幅增加。中国并购市场入境并购共涉及13个行业,完成并购交易案例数量30起,环比增长57.89%;披露金额23.91亿美元,环比上升109.37%。 2010年中国并购市场境内完成并购交易案例数量和交易完成金额取得显著增长。中国并购市场境内并购共涉及20个行业,境内并购完成案例数量达1713起,环比增长31.16%;披露金额达502.12亿美元,环比增长23.87%。 2010年VC/PE背景完成并购交易案例数量和披露金额大幅上升,并达到近10年来最高值。2010年共VC/PE背景并购案例披露17起,同比上升70%;披露金额60.91亿美元,同比上升392.3%。 1. 2010年中国企业并购市场综述 2010年中国并购市场趋于活跃,中国企业宣布并购交易案例2771起,环比上升13.80%;披露交易额1772.1亿美元,环比上升35.87%。无论是案例数量还是披露交易金额,2010年宣布的并购交易规模都呈明显上升趋势。 2010年中国企业完成并购交易案例数量为1798起,环比上升6.14%;披露金额82.02亿美元,环比上升62.57%。从2007年以来,中国企业完成并购交易案例数量及披露交易

购物篮分析

购物篮分析 说起关联问题,可能要从“啤酒和尿布”说起了。有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。 关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,当然此MBA非彼MBA,意为Market Basket Analysis。 如果在研究的问题中,一个用户购买的所有产品假定是同时一次性购买的,分析的重点就是所有用户购买的产品之间关联性;如果假定一个用户购买的产品的时间是不同的,而且分析时需要突出时间先后上的关联,如先买了什么,然后后买什么?那么这类问题称之为序列问题,它是关联问题的一种特殊情况。从某种意义上来说,序列问题也可以按照关联问题来操作。 关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有10000个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购买的人是800个。支持度指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例,即800/10000=8%,有8%的用户同时购买了A和B两个产品;可信度指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品之后购买B 产品的可信度=800/1000=80%,即80%的用户在购买了A产品之后会购买B产品;提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比,没有任何条件下购买B产品可能性=2000/10000=20%,那么提升度=80%/20%=4。

《营销策划案例分析》2021-2022期末试题及答案

《营销策划案例分析》2021-2022期末试题及答案 一、单项选择题(每小题1分,共10分。在每小题列出的四个选项中只有一个选项是符合题目要求的,请将正确选项前的字母填在题后的括号内) 1.在营销组合中,最基本的工具是( )。 A.产品 B.价格 C 渠道 D.促销 2.在进行抽样调查时,常用的抽签法属于( )。 A.单纯随机抽样 B.分层随机抽样 C.分群随机抽样 D.系统抽样 3.在春节、中秋节、情人节等节日即将来临的时候,许多商家都大作广告,以促销自己的产品。他们对市场进行细分的方法是( )。 A.地理细分 B.人口细分 C.心理细分 D.行为细分 4.在市场定位方法中,有一种方法是使用本民族的一种文化特征标志与本商品品牌结合起来实现差别来定位,这种定位方法是指( )。 A.根据产品的使用人定位 B.根据产品使用场合定位 C.根据产品的竞争地位定位 D.根据文化象征定位 5.市场保护者保护阵地最有效的途径是( )。 A. 追随 B.进攻 C.防御 D。进行市场宣传 6.某品牌笔记本电脑广泛宣传一款只卖4999元的经济型号电脑,而它的高档产品售价高达20000多元,宣传这一款经济型号可以影响顾客购买其他高档电脑。这一产品组合策略为( )。 A.扩大产品组合策略 B.产品线延伸策略 C.产品线现代化策略 D.产品线号召策略 7.在进行产品定价时,企业针对消费者的求廉心理,在商品定价时有意定一个与整数有一定差额的价格,这种定价策略是( )。 A.整数定价策略 B.尾数定价策略 C 习惯性定价策略 D.招徕定价策略 8.以下各项中,不属于促销策划活动中事前评估需要测定的内容的是( )。 A.所选促销工具是否合适 B.要使得促销获得成功,最低限度的刺激是多少

大数据应用案例-啤酒与尿布的故事

早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。这是大数据概念的首次提出。而大数据最经典应用则是20世纪90年代美国沃尔玛超市的啤酒与尿布的故事,被称为营销界的神话。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。 在“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。 在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。 当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提

跨国公司案例

跨国公司管理案例材料 课堂案例:朝日啤酒“曲线”收购青啤? 全球最大的啤酒商英博,近日将 其所持有的青岛啤酒部分股权转让给 日本著名的啤酒制造厂商朝日啤酒, 舆论称朝日介入的下一步,便是为控 股青岛啤酒。“朝日将持有青岛啤酒 26.99%股份,英博只要再卖给朝日 3.99%的股份,朝日便掌握控股权,而 青啤或将丧失民族品牌地位成为日系 公司。” 日本朝日啤酒收购了中国青岛啤 酒近二成股权,由此,在中国国内要保护民族品牌的声音逐渐升高。部分中国网友表示,日本大量收购中国著名企业青岛啤酒的股权,其实质是鲸吞民族品牌。 新华社等中国媒体5月7日报道,青岛啤酒第二大股东比利时的英博啤酒集团最近决定把所持19.9%青岛啤酒股权以6.67亿美元出售给日本朝日啤酒。由此,朝日啤酒持有的青岛啤酒股权由7.09%骤增至26.99%,其持股比例与青岛啤酒最大股东青岛集团(30.89%)仅差3.9个百分点。 这意味着,当朝日啤酒在股市上增持4%的股份时,就会跃居为青岛啤酒的最大股东。 中国国内出现了应大力保护民族品牌的疾呼。随着中国成为世界最大的内需市场,全球各国的跨国企业已相继收购中国企业。 部分被收购的民族品牌现状 美加净:该品牌原占有国内市场近20%的份额。1990年,上海家化与庄臣合资,“美加净”商标被搁置。上海家化于1994年出5亿元收回美加净商标,但已失去了宝贵时机。 中华牙膏:1994年初,联合利华取得上海牙膏厂的控股权,并采用品牌租赁的方式经营上海牙膏厂“中华”牙膏,如今,中华牙膏在市场上的份额已少得可怜。 活力28:1996年,与德国美洁时公司合资后,双方规定的合资公司洗衣粉产量的50%使用“活力28”品牌的承诺没有兑现,前3年共投入1.84亿元用于“活力28”宣传的广告费用也成了一纸空文。

《物流案例与实践》课程标准

《物流案例与实践》课程标准 一、前言 (一)课程性质 关键词:课程地位、主要功能、与其他课程关系 本课程是物流管理专业的一门专业核心课程。实践性强、综合性强、能力培养突出、案例教学,是本课程的主要特点。通过本课程的教学,使物流管理专业的学生能够了解、把握包括物流战略与规划、采购与生产物流、销售物流、配送与供应链管理、物流信息化以及客户服务与服务质量在内的物流活动的全貌;学会运用所学的专业知识,在一特定环境中,分析某一经济活动,从而体味到现代物流的真谛。为将来在物流领域工作奠定坚实的理论和实践基础。 (二)设计思路 关键词:课程设置依据、课程目标定位、课程内容选择标准、项目设计思路、学习程度用语说明、课程学时和学分 本课程是依据高职院校物流管理专业学生提高实践能力和综合分析能力的要求而设置的。我国传统的商务、物流活动在管理理念、组织方式、管理制度、业务流程、信息处理手段及作业方式等诸多方面已不能适应现代商务、物流行业发展的需要,因此培养具有现代管理思维方式、组织管理方法和现代技术手段的物流行业专业技术人才和管理人才显得尤为必要。本课程采用案例教学的方法,用典型的案例讲解有关的理论与技术的具体操作方法,使学生易于接受和领会,为此很有必要设置这门课。 本课程的教学目的和任务是培养学生了解、把握物流活动的全貌,学会运用所学的专业知识,在一特定环境中,分析某一经济活动,既有物流操作的技能,又有综合分析问题的能力,从而为解决以后在实际工作中遇到的物流问题树立良好的基础。具体来说,就是希望学生能够初步运用经济学、物流学、市场学、管理学、行为学、社会学、商品学、财务学、信息科学等诸多学科的相关知识,分析企业所面临的环境中,物流战略与规划、采购与生产物流、销售物流、配送与供应链管理、物流信息化、物流客户服务与服务质量等方面的实际运作与发展方向。 在课程内容的编排和组织上,考虑到物流活动的复杂性,从国内外经典物流案例中选取了61个能从不同角度反映物流活动的典型案例,分编为7篇,内容包

数据挖掘测试题

1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?A A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2.以下两种描述分别对应哪两种对分类算法的评价标准?A (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC 3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?C A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?B A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD?A A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?A A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?B A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?C A. 根据内容检索

B. 建模描述 C. 预测建模 D. 寻找模式和规则 9.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务? A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 10.下面哪种不属于数据预处理的方法?D A变量代换 B离散化 C聚集 D估计遗漏值 11.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?B A 第一个 B 第二个 C 第三个 D 第四个 12.上题中,等宽划分时(宽度为50),15又在哪个箱子里?A A 第一个 B 第二个 C 第三个 D 第四个 13.下面哪个不属于数据的属性类型:D A 标称 B 序数 C 区间 D相异 14. 在上题中,属于定量的属性类型是:C A 标称 B 序数 C 区间 D 相异 15. 只有非零值才重要的二元属性被称作:C A 计数属性 B 离散属性 C非对称的二元属性 D 对称属性 16. 以下哪种方法不属于特征选择的标准方法:D A 嵌入 B 过滤 C 包装

相关文档
最新文档