数据挖掘案例分析--啤酒与尿布

前言

“啤酒与尿布”的故事是营销届的神话，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象就是卖场中商品之间的关联性，研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析曾经是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长！

商品相关性分析是购物篮分析中最重要的部分，购物篮分析英文名为market basket analysis(简称MBA，当然这可不是那个可以用来吓人的学位名称)。在数据分析行业，将购物篮的商品相关性分析称为“数据挖掘算法之王”，可见购物篮商品相关性算法吸引人的地方，这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。

购物篮分析的算法很多，比较常用的有A prior/ ?’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等，上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程，因此在这里我不介绍具体的购物篮分析算法，而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟，在进入20世纪90年代后，很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中，成为了软件产品的组成部分，客户购买了这些软件产品后就等于有了购物篮分析的工具，比如我们正在使用的Clementine。

缘起

“啤酒与尿布”的故事可以说是营销界的经典段子，在打开Google搜索一下，你会发现很多人都在津津乐道于“啤酒与尿布”，可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初，甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料，我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的，这应该算是目前发现的最权威报道。

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal （个人翻译--艾格拉沃）提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。

“啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

卖场中“啤酒与尿布”的现象比比皆是，为什么“啤酒与尿布”的故事只产生在沃尔玛的卖场中，而不是其他零售门店？这里有两个原因。

第一个是沃尔玛先进的计算机技术是“啤酒与尿布”故事产生的强大支持后盾。零售业目前使用的很多新技术都是沃尔玛率先“尝鲜”的，比如沃尔玛最早在门店尝试计算机记账，最早在门店收款台尝试使用外形丑陋俗称“牛眼”的条码扫描器进行收款，世界上第一个发射私人通信卫星等等。“前人栽树，后人乘凉”，目前运用于门店管理的很多技术手段都是沃尔玛做了“第一个吃螃蟹”的，我们只不过坐享其成而已。由于沃尔玛具备先进的技术手段，“啤酒与尿布”的故事在沃尔玛产生就一点也不奇怪了。

第二个原因是沃尔玛拥有一双锐利的慧眼。沃尔玛是一家极其讲究卖场现场管理的企业，沃尔玛创始人老沃尔顿最大的乐趣就是不停地在卖场巡视，更多地运用自己的双眼而不是数据来发现事实。因此不能忽略的是，没有沃尔玛管理人员的慧眼，“啤酒与尿布”的故事也会淹没在大量的零售数据中。

“啤酒与尿布”并不是新故事

营销界很多人对于“啤酒与尿布”的故事津津乐道，吹捧得如同发现新大陆般！“啤酒与尿布”的故事就是商品交叉销售，这种销售现象几乎和人类历史一样悠久，在古人披着兽皮交换贝壳、粮食、石斧等商品时，他们已经清楚地了解商品交叉销售对于商品交易的重要性，一些聪明的家伙会采取种种措施鼓励客户多交换一些商品(估计是一袋贝壳加一条鱼换一袋大米)。“啤酒与尿布”的故事只是对商品交叉销售现象的一种现代解释，并不是出现“啤酒与尿布”的故事之后，才存在商品交叉销售的现象。从这个意义上讲，沃尔玛并没有发现新大陆，只不过把我们视而不见的现象挖出来，并从中发现了商业价值。沃尔玛的创始人老沃尔顿说，retail is detail (零售就是细节)。

商品销售相关性与关联商品

研究商品关联关系的方法就是购物篮分析，在购物篮分析方面有两个值得我们学习的榜样，一个是美国的沃尔玛，另一个是日本的7-11便利店。同样是购物篮分析，沃尔玛强调找出商品之间的关联关系，比如啤酒与尿布，而7-11便利店的重点在于找出影响商品销售的所有因素，比如碳酸饮料与气温的关系等等。换句话说，沃尔玛重点是分析购物篮内商品之间的关联关系，而日本7-11便利店的重点是从购物篮外面找影响商品销售的关联关系。

美式购物篮分析

以沃尔玛为代表的美食购物篮分析的目标一般是卖场面积巨大，通常都是上万平方米，商品种类繁多，大多在10万种以上，所以要通过购物篮分析找出淹没在不同区域商品之间的关联关系，并将这些关联关系用于商品关联陈列、促销等具体工作中，是很难通过人工完成的。比如啤酒在酒类区域，尿布在婴儿用品区域，两个商品陈列区域相差几十米，甚至可能是“楼上、楼下”的陈列关系，用肉眼很难发现啤酒与尿布存在关联关系的规律。

我们把找出购物篮中商品之间关系的方法称为“美式购物篮”分析法，这种方法适合应用于类似沃尔玛这样的大卖场，用于找出不同陈列区域商品之间的关系。英国的Tesco连锁超市、Safeway连锁超市也都是这种购物篮分析的高手。我们这个课程所主要研究的目标也是这种美食购物篮。

日式购物篮分析

日本这个国家很神奇，虽然身为岛国，但是经济发达。分析日式购物篮确实能够看到日本人在经商方面的巧妙之处。日本的超市以7-11便利店为典型，7-11便利店营业面积都很小，一般只有100~250平方米，商品品种3000~10000种，是典型的“螺蛳壳里做道场”。

如我们在电影或者泡沫剧里面所见，日本很多门店的经营面积狭小，站在门店里任何一个角落，所有的商品转个身就全看见了——真正的抬头不见低头见，所以找出商品关联关系

不是日本7-11便利店的重点：你就是找出来啤酒与尿布之间有“暗恋”关系，也没用！因为啤酒与尿布本来就在一起。

当然日本7-11便利店这类相关陈列的故事也是有的，比如荞麦冷面与纳豆、鱼肉香肠与面包、酸奶与盒饭等等，但是毕竟起不到主要作用，日本7-11便利店更关注的是：

●气温由28℃上升到30℃，对碳酸类饮料、凉面的销售量会有什么影响？

●下雨的时候，关东煮的销售量会有什么变化？

●盒饭加酸奶、盒饭加罐装啤酒都是针对什么样的客户群体？他们什么时间到门店买这些商品？

所以，日本人的重点是分析所有影响商品销售的关联因素，比如天气、温度、时间、事件、客户群体等，这些因素我们称为商品相关性因素。

日本人对于所有影响商品销售的关联因素研究得非常透彻，因此日本就会有气温-碳酸饮料指数、空调指数、冰激凌指数，因此就不难理解为什么7-11便利店会设置专门的气象部门，因此更能够理解为什么日本7-11便利店会要求门店每天5次将门店内外的温度、湿度上传回总部，供总部与商品销售进行对比分析。

与商品之间的关联关系相比，日本7-11便利店认为这些关联因素更重要。由于这是日本7-11便利店大量采取的方式，我们也称为“日式购物篮”分析法。

“啤酒和尿布”故事包含什么样的含义

沃尔玛的“啤酒与尿布”的故事实际上向我们揭示了零售业未来的获利及生存模式。他凸显了零售卖场中一个全新的管理理念，即商品之间是具有关联关系的，发现并利用这些商品之间的关联关系，可以在无法大幅增加门店客户数的前提下，通过增加购物篮中的商品数量达到增加销售额的目的，从而获得更大的经营收益。

启示一：购物篮大于商品

有在零售业工作经验的朋友都知道，老板考核大家的主要指标是商品销售额，你的工资袋取决于商品的销售额。老板会将商品销售指标下发到个人，每个人都只会关注自己的“一亩三分地”，卖啤酒的只管闷头卖啤酒，卖尿布的只管闷头卖尿布，每个柜台只管自己的商品是否能进入客户手中的购物篮。卖啤酒的不关心购物篮中的尿布，卖尿布的也漠视购物篮中的啤酒，只要别漏了自己柜台的东西就行了，因为漏了自己的商品，这个月的奖金就没了，人人只扫门前雪，长此以往商店的整体效益当然不会好了，效益不好就要裁员，大家都没好果子吃。反观沃尔玛的卖场管理体系中，购物篮是主要的管理对象，而不仅仅是商品。

为什么沃尔玛会以购物篮为管理重点？沃尔玛认为商品销售量的冲刺只是短期行为，而零售企业的生命力取决于购物篮。一个小小的购物篮体现了客户的真实消费需求和购物行为，每一只购物篮里都蕴藏着太多的客户信息。零售业的宗旨是服务客户，沃尔玛认为商店的管理核心应该是以购物篮为中心的顾客经营模式，商品排名只能体现商品自身的表现，而购物篮可以体现客户的购买行为及消费需求，关注购物篮可以使门店随时掌握客户的消费动向，从而使门店始终与客户保持一致。

启示二：购物篮方面的差距

购物篮的表现形式就是我们常说的“客单价”，客单价的高低直接反映了零售企业的经营效益。根据AC·尼尔森2006年对国内零售企业的调查发现，从周一到周五正常工作日，同样一个万米经营面积的大卖场，国内卖场的平均客单价是29元，家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元，好又多、大润发、乐购等台资卖场客单价为50元。到了周末(周六、周日)的差距更大，国内卖场客单价为35元，台资卖场客单价为80元，外资卖场可以达到149元，这就是我们国内企业在购物篮方面的差距(见图1-1)。

我们知道，销售额=客单价×客流数。在同等客流量的情况下，我们的企业由于客单价

低，已经先失一着，销售业绩要比外资企业低200％，比台资企业低60％。此外，销售额低会带来很多问题，比如毛利额低、通道费低、与供应商的话语权降低，甚至会直接影响到企业的生存。因此，要想提高商业企业的销售业绩，必须改善企业购物篮，全面提升客单价，可以说零售企业的购物篮代表了企业的生存权！

图1-1 各类零售企业客单价(购物篮)金额分布图

另据有关报道，客户到家乐福卖场的年平均购物频度只有9.8次，但是在快速消费品的市场份额却比年平均客户购物频度高达51次的华润苏果高出3.63％，家乐福、沃尔玛、易初莲花等外资零售企业仅仅利用客户几次上门购物的机会，就获得了远比国内零售同行高很多的快速消费品市场份额。

尤其要注意的是，沃尔玛、欧尚等外资零售企业在国内只有区区的十几家门店，居然占据了非常大的市场份额，充分显示了这些外资零售企业在购物篮方面的确有“高招”。

“啤酒与尿布”故事的依据是商品之间的相关性(也称关联性，英文名称为association rule)，商品相关性是指商品在卖场中不是孤立的，不同商品在销售中会形成相互影响关系(也称关联关系)，比如“啤酒与尿布”故事中，尿布会影响啤酒的销量。在卖场中商品之间的关联关系比比皆是，比如咖啡的销量会影响到咖啡伴侣、方糖的销售量，牛奶的销量会影响面包的销售量等等。

所谓事物之间的相关性是指当一个事物变化时，另一个事物也会发生变化。当事物之间的变化是相互抵消的，比如猪肉价格上涨、猪肉销量下降，我们称这种相关性是负相关；当事物之间的变化呈现同一个方向发展时，比如气温上升、冷饮销量也上升，我们称这种相关性是正相关。

有些事物的相关性显而易见，有些则不是那么明显。美国华尔街股票分析师将女性超短裙的长度与道琼斯股票指数建立了关联，超短裙的长度与股票指数成反比趋势，据说十分灵验，这就是相关性在生活中的种种体现。

商店中的关联性更是比比皆是，比如烟酒销售的关联关系：当门店附近有建筑工地时，低档烟、酒的销售就会上升；当附近有高档社区时，中华烟、葡萄酒的销售量就会上升。

提到商品相关性，很多人认为就是数据分析的事儿，其实对于商品相关性来说，更重要的是客户心理层面的因素，毕竟是人在提着购物篮，而不是猴子。

客户在购物时的心理行为是产生商品之间关联关系最基本的原因，因此在找到购物篮规律时，必须要从客户消费心理层面解释这些关联关系，否则“啤酒与尿布”会永远停留在啤酒与尿布两个商品身上，而没有任何的推广意义。要想详细了解商品相关性形成的客户心理因素，要进行大量的客户消费行为观察，构建客户购物篮场景，才可使“啤酒与尿布”的故事发扬光大。

一张小纸条——商品相关性分析的依据

要想找到“啤酒与尿布”之间的关联关系，就要对客户手中的购物篮进行计算。

我们将单个客户一次购买商品的总和(以收银台结账为准)称为一个购物篮。比如我们在超市收银台一次购买了5件商品：啤酒、卫生纸、熟食、果汁饮料、大米，我们就可以认为在这个购物篮中共有5件商品，在收款台交款时这5件商品会集中体现在同一个收款小票中。因此，我们可以说，一个购物篮就是一张收款小票，购物小票就是购物篮分析的一个重要依据，一张购物小票并不简单，这张小纸条实际上包含了3个层面的含义。

●购买商品的客户：“啤酒与尿布”实际上是讲述了特定客户群体(年轻父亲)的消费行为，如果忽略了这个特定的客户群体，“啤酒与尿布”的故事将会毫无意义。

●购物篮中的商品：同时出现在一个购物篮中的啤酒和尿布包含了很多要素，比如这些啤酒与尿布同时出现是否具有规律？啤酒和尿布的价格是多少？是否进行了促销……

●购物篮的金额信息：购买啤酒和尿布的客户使用了什么样的支付方式？是现金、银行卡、会员储值卡，还是支票等等。

有会员卡与无会员卡的超市购物篮分析

提到超市的购物篮分析，很多人第一反应就是超市必须要有会员卡，否则这件事儿就干不了，其实没有那么复杂。

超市有会员卡，通过会员卡分析POS机的消费数据是一件惬意的事情，可以知道这样的事实：老张今天买了2瓶啤酒、一包花生米、2袋豆腐干；大前天老张买了4瓶啤酒、一包开花豆、4袋豆腐干。

可是一个1000平方米的超市，像老张这样的客户一天可能有1000~2000个，这样的数据看上一天也不会有什么结果，除了知道老张喜欢喝上一口，喜欢用花生米、豆腐干下下酒，其他的事情都不知道。

这就引出了一个新的话题：客户群体划分。

了解一个又一个老张们的喝酒习惯对于门店是没有意义的。门店需要知道的是，门店有多少个老张？又有多少个与老张喝酒习惯不同的老李？将喝啤酒就花生米的老张与喝干白葡萄酒就腰果的老李分开，分成不同的客户群体，对于门店才是有意义的。

比如门店只要知道，在喝酒的100个客户里，有30个喝啤酒就花生米的老张，10个喝干白葡萄酒就腰果的老李，另外有20个老王是喝黄酒就豆腐干，这就足够了。门店这时就可以知道，啤酒与花生米有关联关系，干白葡萄酒与腰果有关联关系，黄酒与豆腐干有关联关系，这些商品可以考虑一起促销，或者摆放在相近的位置进行陈列。

这么说大家应该明白了吧，我们分析啤酒与花生米、干白葡萄酒与腰果、黄酒与豆腐干之间的关联关系时，不需要了解这些客户到底是谁，只要知道有这么个群体存在就行了。

找商品之间关联时有会员卡当然不错，没有会员卡时一样可以分析啤酒与尿布、啤酒与花生米之间的关系，我们只要知道怎么去归类就可以了。不要听某些人讲，没有办法进行购物篮分析，原因是超市没有使用会员卡，这不过是借口而已。

以支持度、置信度、提高度三项指标表现的商品相关性

很多专业人士认为，一个正规的购物篮分析报表应该采取三个指标数字，才可以准确地衡量商品是否真的存在关联关系：采取“支持度(support)-置信度(confidence)”作为主要商品相关性分析指标，为了强化说明关联关系，往往会运用提高度(lift)指标。

1. 支持度(support)指标

在购物篮分析中，支持度指的是多个商品同时出现在同一个购物篮的概率。比如啤酒与尿布同时出现在购物篮中的概率是20％，我们称啤酒与尿布的支持度是20％，按照国际命名规则表示为：啤酒Implies 尿布=20％。

“啤酒与尿布”不等于“尿布与啤酒”——相关性的单向性：这不是一句绕口令，这是代表商品之间的相关性具有单向性。我们前面讲过，“啤酒与尿布”代表了一种因果关系。在“啤酒与尿布”的故事中，年轻的父亲去超市的目的是购买尿布，在买到尿布的前提下，才会考虑购买啤酒，因此在购买尿布的父亲中有35％购买了啤酒，不代表购买了啤酒的父亲有35％购买了尿布，因为这是两类不同的消费行为，商品之间的因果关系也会不同，因此这个故事不能反过来讲。

要看商品之间是否具有相关性，在计算商品之间的支持度时，需要反过来计算进行验证，看看两个商品之间的相关性具有多少的可信度，从而寻找商品之间的因果关系。由于商品之间关联关系具有单向性，在零售业也会采取这种表示商品关联关系的方式：尿布→啤酒，即尿布与啤酒之间具有关联关系，方向是从尿布到啤酒(反过来不一定对)。

2. 置信度(confidence)指标

置信度是对支持度进行衡量的指标，用于衡量支持度的可信度及数据强度。由于这项指

标是将商品同时出现在购物篮中的概率进行反复运算，因此这是衡量商品相关性的主要指标。

3. 商品之间的亲密关系——提高度(Lift，也称兴趣度)指标

提高度是对支持度、置信度全面衡量的指标，很多时候在衡量商品关联关系时只采用这一个指标，可见这个指标的重要性。当提高度指标大于1时，表明商品之间可能具有真正的关联关系。提高度数据越大，则商品之间的关联意义越大。如果提高度小于1.0时，表明商品之间不可能具有真正的关联关系。

在某些情况下，提高度会出现负值，此时商品之间很有可能具有相互排斥的关系，体现在购物篮中，就是这些商品从来不会出现在同一个购物篮中。

为了说明问题，我们下面还是以几个具体的案例说明上述问题

超市中熟食、面包、肉类三种商品之间的关系——三项指标表示的商品相关性

图1-3是我们对某超市熟食、面包、肉类商品的关联性分析图，相信前一次邓斌同学的演示大家还记忆犹新，我们在这里向大家解释一下如何解读这个关系图。

我们以第一行数据为例，表示客户购买熟食时，有8.33％的客户会同时购买面包，这个比例很少，因此可以认为买熟食的客户只有很少的比例会购买面包。

第二行数据表示在客户购买面包时，会有33.33％的客户同时购买熟食，这样的关联度数字具有商业价值，我们在这里也要注意，熟食与面包的关联度方向性很强，这是代表了不同的消费行为。

第三行数据显示购买熟食品的客户在完成购物后，会去买肉类商品。

在表1-3中我们可以看出，熟食与肉类、肉类与熟食之间具有关联关系。

肉类和面包与熟食之间、熟食与肉类和面包之间具有关联关系，这些关联关系经得起反复计算，是真正的关联关系，而其他商品之间没有真正有意义的关联关系。

我们在前面谈到了，商品关联度有好几种表示方式，但是这些方式实在很麻烦！你可能会问，哎呀，有没有办法用一个简单的数据，直截了当地表示商品之间的关联度？当然有了，表示商品关联度的数值可以统称为R值(Relationship的简称)，这个R值作为商品之间相关性的数值统称，可以是商品同时出现在购物篮的概率，也可以是商品之间的提高度。

R值的含义

R值是衡量商品相关性的重要指标，按照购物篮分析的规律，R值与商品相关性的对应关系定义如图1-2所示。

图1-2 R值与相关性指标对应关系

对于R值大于0.75，则可以认为具有相当强的相关性，R值在0.25~0.75为较强相关，R 值低于0.25的相关为弱相关。

1.不要盲目乐观——当商品之间的R值大于0.75时

在购物篮商品相关性分析时，如果发现商品之间的相关性越强，当然代表商品之间具有很强的关联关系，但是别高兴太早，R值越大越可能得出无意义的分析结果，因为此时揭示的可能是卖场司空见惯的东西。比如三文鱼片与绿芥末经常会出现在一起，或者热狗面包与热狗、卷笔刀与铅笔、方便面与火腿肠经常出现在一起等，这样的分析结论要尽早剔除，以免为业务人员所嘲笑。西方有一句名言：“不要尝试再去发明车轮”，用在这里作为某些大的R值的评价是很恰当的。

2. 临时因素造成的强关联关系——当商品之间的R值在0.25~0.75之间

这类R值在购物篮数据分析行业称为“强关联”，很多“强关联”是临时因素“干扰”造成的，有些“干扰因素”没有意义(如下面提到的伪关联)，有些“干扰因素”有意义，比如摆放在同一个堆头区商品很容易同时出现在购物篮中，看上去具有很好的相关性，一旦

促销结束、堆头撤销，商品的相关性也会消失，但是这样的临时因素就非常有意义，可以证明促销组织非常成功，因此可以用来评估促销效果。

3. 隐藏在微弱特征背后的真相——当商品之间的R值在0.25以下

在购物篮分析行业，将R值低于0.25的相关性称为“弱关联”。在很多弱关联中，蕴藏了很多不为人知的商业规律，比如啤酒与尿布这类商品的关联关系，相关关系特征相当微弱，只有在特定的条件下(比如购买啤酒与尿布的父亲)，这些特征才会强化从而被人发现，所以零售专家认为，弱关联最吸引人。在弱关联中找出商品之间存在的关联关系，对于很多数据分析人员来说是个极大的挑战，因此购物篮分析的主要任务是在弱关联的关系中找出商品之间的相关性。

4. 同行是冤家——当商品之间的R值为负值

出现负值代表商品从来不出现在同一购物篮中，商品之间的关系是排斥关系。很多购物篮分析数据不提及R值为负的情况，这是因为R值为负数时，分析难度更大。一般来说，只有在商品之间的功能相同时，R值为负值才有意义，因此我们称为“同行是冤家”，这时往往代表商品之间是竞争替代关系。

R值背后隐藏的事实

在卖场中存在大量的商品关联关系，比如油条与豆浆、三文鱼与绿芥末、牛奶与面包等等，这些商品之间具有较强的关联关系，也有一些商品之间是竞争关系(负关联即排斥关联)，比如米饭与面食、猪肉与鸡肉、各类面包之间、不同品牌牛奶之间等等。

尾声

其实除了“啤酒与尿布”之外，商品之间还会存在很多奇特的关联现象，只是这个故事给我们打开了通往发现真相的大门。我相信，人们对这个经典的案例的挖掘还会继续下去，借句老话说：经典早就了永恒。我希望，我们今天的演示能够为在Data Mining挖掘出来数据信息之后抓耳挠腮、不知何用的同学提供一点点思路。虽然我们还没涉足社会进行自己的创业，但是我们可以结合我们平时的所见所闻所想，再佐以前人的经验，牛顿说：我们成功，是因为我们站在巨人的肩膀上。

实验二 Clementine12购物篮分析(关联规则)

实验二Clementine12购物篮分析（关联规则）一、[实验目的] 设计关联规则分析模型，通过模型演示如何对购物篮分析，并根据细分结果对采取不同的营销策略。体验以数据驱动的模型计算给科学决策带来的先进性。二、[知识要点] 1、购物蓝分析概念； 2、管来呢规则算法原理； 3、购物蓝分析工具； 4、Clementine12.0关联规则分析流程。三、[实验要求和内容] 1、初步了解使用工作流的方式构建分析模型； 2、理解智能数据分析流程，主要是CRISP-DM工业标准流程； 3、理解关联规则模型原理； 4、设计关联规则分流； 5、运行该流，并将结果可视化展示； 6、得出模型分析结论 7、运行结果进行相关营销策略设计。四、[实验条件] Clementine12.0挖掘软件。五、[实验步骤] 1、启动Clementine12.0软件； 2、在工作区设计管来呢规则挖掘流； 3、执行模型，分析计算结果； 4、撰写实验报告。六、[思考与练习] 1、为什么要进行关联规则分析？它是如何支持客户营销的？

实验内容与步骤一、前言 “啤酒与尿布”的故事是营销届的神话，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象就是卖场中商品之间的关联性，研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析曾经是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长！ “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal （个人翻译--艾格拉沃）提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法—Aprior算法。沃尔玛从上个世纪90年代尝试将Aprior算法引入到POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中？

数据挖掘案例分析--啤酒与尿布讲课稿

前言 “啤酒与尿布”的故事是营销届的神话，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象就是卖场中商品之间的关联性，研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析曾经是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长！商品相关性分析是购物篮分析中最重要的部分，购物篮分析英文名为market basket analysis(简称MBA，当然这可不是那个可以用来吓人的学位名称)。在数据分析行业，将购物篮的商品相关性分析称为“数据挖掘算法之王”，可见购物篮商品相关性算法吸引人的地方，这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。购物篮分析的算法很多，比较常用的有A prior/ ?’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等，上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程，因此在这里我不介绍具体的购物篮分析算法，而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟，在进入20世纪90年代后，很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中，成为了软件产品的组成部分，客户购买了这些软件产品后就等于有了购物篮分析的工具，比如我们正在使用的Clementine。缘起 “啤酒与尿布”的故事可以说是营销界的经典段子，在打开Google搜索一下，你会发现很多人都在津津乐道于“啤酒与尿布”，可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初，甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料，我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的，这应该算是目前发现的最权威报道。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal （个人翻译--艾格拉沃）提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

大学数据挖掘期末考试题

第 - 1 - 页共 4 页数据挖掘试卷课程代码： C0204413 课程：数据挖掘A 卷一、判断题（每题1分，10分） 1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（） 2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（） 3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（） 4. 当两个点之间的邻近度取它们之间距离的平方时，Ward 方法与组平均非常相似。（） 5. DBSCAN 是相对抗噪声的，并且能够处理任意形状和大小的簇。（） 6. 属性的性质不必与用来度量他的值的性质相同。（） 7. 全链对噪声点和离群点很敏感。（） 8. 对于非对称的属性，只有非零值才是重要的。（） 9. K 均值可以很好的处理不同密度的数据。（） 10. 单链技术擅长处理椭圆形状的簇。（）二、选择题（每题2分，30分） 1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward 方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C 关联规则分析 D 聚类 4.关于K 均值和DBSCAN 的比较，以下说法不正确的是( ) A.K 均值丢弃被它识别为噪声的对象，而DBSCAN 一般聚类所有对象。 B.K 均值使用簇的基于原型的概念，DBSCAN 使用基于密度的概念。 C.K 均值很难处理非球形的簇和不同大小的簇，DBSCAN 可以处理不同大小和不同形状的簇 D.K 均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN 会合并有重叠的簇 5.下列关于Ward ’s Method 说法错误的是：( )

案例1

案例1 ①尿布和啤酒的故事在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。原来，美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起购买的机会还是很多的。是什么让沃尔玛发现了尿布和啤酒之间的关系呢？案例② 美国密执安州有一家名为“阿汉”的小餐馆有个异常奇特的做法：经常光顾该餐馆的顾客，只要愿意，便可报上自己的常住地址，在客户登记簿上注册，开一个“户头”，以后顾客每次到这里来就餐，餐馆都会如实地在其户头上记下用餐款额。每年的9月30日，餐馆便会按客户登记簿上的记载算出每位顾客从上年9月30日以来在餐馆的消费总额，然后再按餐馆纯利10%的比例算出每位顾客应得的利润分发给顾客，这样，餐馆自然就常常门庭若市。阿汉餐馆给顾客分红的方法虽然损失了一部分纯利，但却使顾客感到自己与餐馆的利润息息相关，自己也是餐馆的一员。这样一来，餐馆密切了与消费者的关系，吸引了许多回头客。这种让食客成为“股东”的做法其实也是一种“组合”式的生意之道，不同的是前者是明显的“物质组合”，而后者是隐蔽的“人员组合”，两者都是以消费者心甘情愿地付出而给老板带来了滚滚利润，何乐而不为呢？案例③ 山姆会员店，严格要求顾客购物要出示本人的会员卡，如不是本人的会员卡，不能购买超市的商品。很多人纳闷，山姆大叔为什么有钱不赚，难道山姆大叔仅仅是想赚会员费吗？案例④ 曾有一篇报道，英国有位老先生，因为实在忍受不了老伴40年来始终只给他做

管理学企业分析

管理学企业分析 -------朝日啤酒公司（工商六班刘如月）朝日啤酒公司的历史可追溯到110年前，多年来一直稳居日本啤酒公司品牌前三的位置，是日本唯一年销售量突破一亿箱的产品。在2000年国际啤酒排行榜中位居第四大国际品牌。朝日啤酒公司大胆假设“判断啤酒的美味的标准是随着时代的变迁而改变的”，并认为“顾客不是外行，是能够分辨啤酒味道的”。在其进行多达5000人的市场调查后，推翻了啤酒的美味在于“啤酒的美味“这一理论，于是”醇香可口“这一啤酒新味道的概念就此诞生。啤酒公司此举是在对环境进行扫描之后进行的，环境扫描建立了预测的基础。在预测的过程中，要注意根据特定的情景，针对具体的问题采用科学的预测方法，在进行足够的科学调查后，制定切实可行的计划。不仅在生产观念上，就连在销售理念上，朝日啤酒公司也是利用科学的分析，预测后制定合理的计划，让对方措手不及。在20世纪80年代末，日本的朝日啤酒公司预见到消费者的购买习惯发生变化，它采用以逸待劳的手法，实施自己的先见之明，在新的战场上建立了堡垒，静候战争。其实，朝日一直意在取代日本的领头羊麒麟（Kidn）。但是，想在货架上与麒麟一争高下、占据一席之地非常困难。因为麒麟在酒店的影响力异常大，大多数日本人在酒店里购买啤酒，幸运的是朝日窥见到消费者的购买习惯在改变，买啤酒的女士越来越多，她们更倾向于在超市而不是酒店里购买，超市啤酒销量猛增。朝日啤酒公司主动地了解环境状况，获得了及时准确的环境信息，通过调整自己的目标，选择合适自身发展的方案。在良好的信息沟通，及时准确的感知环境变化，保持结构的灵活性的前提下，朝日啤酒公司制定了合理的销售策略：朝日停止了猛撞酒店大门的做法，而是同杂货商建立了强力推销关系。朝日的预言被证明是正确的，人们去食品杂货店购买啤酒的势头不减，麒麟从超市关系和专长上发现了朝日这个竞争对手。麒麟最后亦步亦趋，试图追随朝日啤酒进入超市，然而朝日的伏兵掀翻了麒麟的桌子，使朝日在日本啤酒中占据了霸主地位。其实，朝日的称霸不仅在于其对市场敏锐的洞察力，还在于其拥有成功的管理者，管理者敏锐的反应能力和机动灵活的应变能力是其成功的强有力的后盾。当然，在制定营销战略之前，管理者必须确定现实的、制定的目标，管理系统还必须保持充分的伸展性，以便及时的适应客观事物的各种可能的变化需求。海因茨·韦里克和哈罗德·孔茨认为：“应该将一个目标作为目标导向，成功导向的管理系统”。朝日集团的目标管理十分有效。朝日集团为了实现“迅速应对激烈变动的经营环境”的目标，也实现适合并经营时代需要“加强集团经营”,加强与各利益人群关系的，“提高企业的社会性的，经营的透明性”的目标，强化着公司的治理，彻底贯彻高透明度的经营和企业行为规范。组织资源一般是指值得正式汇报体系、信息加工和决策体系以及正式或非正式的计划体系，朝日啤酒公司就拥有良好的组织资源。另外，企业的目标是为其利益相关者创造财富和价值，企业是由利益相关者组成的系统，企业的发展离不开利益相关者的支持，因此朝日集团积极加强其与利益相关人群的关系，朝日啤酒集团为了成为受利益相关者信赖的、不断成长的企业，以“提高经营的公正性和透明性”，“缩短决策过程时间”和“彻底贯彻企业伦理规范”为主题，持续加强公司治理。而且，为了实现公正且透明的经营，在确保公司外取缔，公司处监事的监督机能实施的同时，还接受商法的检查。同时，为了确保对董事人事和董事报酬的公正性和透明性，设置了“提名委员会”和“报酬委员会”。为实现决策的迅速化，采用了执行董事制度，将由一般董事从事的经营战略提案，业

“啤酒和尿布”对药店营销的启示

“啤酒和尿布”对药店营销的启示诚然信息治理系统做为医药连锁企业治理手段的最差不多的目的已达到，然而企业的应用信息化系统的层面难道只是仅仅局限在如何降低企业的营运成本那个层面上吗？由此笔者想到多年前看到的一个案例：在美国沃尔玛的一个超级市场的货架上，尿布和啤酒赫然地摆在一起出售，一个是日用品，一个是食品，两个风马牛不相及的物品摆在一起的结果是尿布和啤酒的销量双双激增。沃尔玛超市什么缘故要将这两个商品摆在一起？摆在一起的结果什么缘故会使销量激增？原先，沃尔玛超市对一年多的原始销售交易数据进行详细分析，发觉在美国有小孩的家庭中，太太经常叮嘱他们的夫君下班以后要为小孩买尿布，而夫君们在买完尿布以后又顺手带回了自己爱喝的啤酒，因此啤酒和尿布一起购买的机会是最多的。由此，我们能够看到，信息技术的应用另外一个更要紧的层面――企业的“开源”。我们在专门多企业治理培训或MBA课程中明白，企业利润的来源的实现要紧基于两个部分：“开源”和“节流”。当企业占据市场的主导份额时，企业关注的焦点在“节流”，这时企业靠流程优化或技术革新节约下来的每一分钞票要比从市场上猎取每一分前所付出的成本小的多；然而当企业尚未占据市场的主导份额时，企业关注的焦点在“开源”，如何在销售中挖掘潜力，如何抢夺竞争对手的客户等相关“开源”的战略战术，所猎取的利润远远比现时期靠“节流” 所猎取的利润从企业的经济战略角度讲意义要深远的多的多。纵观现在的医药连锁行业，尚未有哪个企业在市场上占据决定性的主导份额，药店与药店的相互竞争也较为平滑，简单而原始的武器“价格战”大行其道，在毛利率不断下降的今天，企业信息化的关注的焦点如何“开源”也被其下游服务商――软件供应商所忽视，仅仅停留在“开源”层面。这不能不讲是一种误区。那么，医药连锁企业如何利用信息技术进行“开源”呢？在一年多前，我们曾以此为课题进行深入的探讨，结合药理学的相关知识，参照沃尔玛的案例对连锁药店所经营的药品相关性进行分析，并将分析后的结果在昆明某医药连锁企业的某一药店进行实施。其季度销售额与去年同期相比结果如下，如表1所示：单位：元

啤酒与尿布读后感

我们正处在一个信息大爆炸的年代，主要表现在大量信息的产生并以数字化的方式被记录下来。信息技术的普及造就了信息大爆炸的年代。大量的信息可以帮助人们更好地决策;但是同时因为信息太多了，如何找到有用的信息又变成了一件难题。这里，啤酒与尿布的故事就给了我们很大的启发。沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的历史购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库集中了其各门店的详细原始交易数据，在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘，却有了一个意外的发现：婴儿尿布和啤酒有很高的相关度，即跟尿布一起购买最多的商品竟然是啤酒!这是数据挖掘技术对历史数据进行分析的结果，反映数据内在的规律。接着，沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析。经过大量实际调查和分析，揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%~40%的人同时为自己买一些啤酒，产生这样的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。按常规思维，尿布与啤酒风马牛不相及，若不是借助统计学上的数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。数据挖掘是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。数据挖掘的应用之一就是关联规则，通过对大量数据的分析，找到两个或几个总是同时发生的事件。所以我们可以看到统计学的应用正是用数据挖掘价值的最强有力的工具！然而，书中还提到了这样的故事，是说关联的时效性：有些关联只发生在特定时间。7-11便利店，某位员工订货错误，酸奶从3瓶变为30瓶，为了完成销售，将酸奶拿到面包盒饭陈列区，销售一空。从此7-11便将酸奶与快餐搭配陈列提高销量。这就是带有时效性的商品关联，如果不及时关注，一天的酸奶销售量很快就

数据挖掘概述

数据挖掘概述阅读目录 ?何为数据挖掘？ ?数据挖掘背后的哲学思想 ?数据挖掘的起源 ?数据挖掘的基本任务 ?数据挖掘的基本流程 ?数据挖掘的工程架构 ?小结回到顶部何为数据挖掘？数据挖掘就是指从数据中获取知识。好吧，这样的定义方式比较抽象，但这也是业界认可度最高的一种解释了。对于如何开发一个大数据环境下完整的数据挖掘项目，业界至今仍没有统一的规范。说白了，大家都听说过大数据、数据挖掘等概念，然而真正能做而且做好的公司并不是很多。

笔者本人曾任职于A公司云计算事业群的数据引擎团队，有幸参与过几个比较大型的数据挖掘项目，因此对于如何实施大数据场景下的数据挖掘工程有一些小小的心得。但由于本系列博文主要是结合传统数据挖掘理论和笔者自身在A云的一些实践经历，因此部分观点会有较强主观性，也欢迎大家来跟我探讨。回到顶部数据挖掘背后的哲学思想在过去很多年，首要原则模型(first-principle models)是科学工程领域最为经典的模型。比如你要想知道某辆车从启动到速度稳定行驶的距离，那么你会先统计从启动到稳定耗费的时间、稳定后的速度、加速度等参数；然后运用牛顿第二定律(或者其他物理学公式)建立模型；最后根据该车多次实验的结果列出方程组从而计算出模型的各个参数。通过该过程，你就相当于学习到了一个知识--- 某辆车从启动到速度稳定行驶的具体模型。此后往该模型输入车的启动参数便可自动计算出该车达到稳定速度前行驶的距离。然而，在数据挖掘的思想中，知识的学习是不需要通过具体问题的专业知识建模。如果之前已经记录下了100辆型号性能相似的车从启动到速度稳定行驶的距离，那么我就能够对这100个数据求均值，从而得到结果。显然，这一过程是是直接面向数据的，或者说我们是直接从数据开发模型的。这其实是模拟了人的原始学习过程 --- 比如你要预测一个人跑100米要多久时间，你肯定是根据之前了解的他(研究对象)这样体型的人跑100米用的多少时间做一个估计，而不会使用牛顿定律来算。回到顶部数据挖掘的起源由于数据挖掘理论涉及到的面很广，它实际上起源于多个学科。如建模部分主要起源于统计学和机器学习。统计学方法以模型为驱动，常常建立一个能够产生数据的模型；而机器学习则以算法为驱动，让计算机通过执行算法来发现知识。仔细想想，"学习"本身就有算法的意思在里面嘛。

啤酒与纸尿裤

啤酒和尿片齐飞在美国沃尔玛超市的货架上，尿片和啤酒赫然地摆在一起出售。一个是日用品，一个是食品，两者风马牛不相及，这究竟是什么原因？原来，沃尔玛的工作人员在按周期统计产品的销售信息时发现一个希奇的现象：每逢周末，某一连锁超市啤酒和尿片的销量都很大。为了搞清楚这个原因，他们派出工作人员进行调查。通过观察和走访后了解到，在美国有孩子的家庭中，太太经常嘱咐丈夫下班后要为孩子买尿片，而丈夫们在买完尿片以后又顺手带回了自己爱喝的啤酒，因此啤酒和尿片销量一起增长。搞清原因后，沃尔玛的工作人员打破常规，尝试将啤酒和尿片摆在一起，结果使得啤酒和尿片的销量双双激增，为商家带来了大量的利润。在寸土寸金的货架陈列竞争中，为了刺激消费者的购买欲望，商场经常采取按照类别陈列的方式便于消费者选择，比如将文具类商品集中在一起陈列。但是，有些商品之间的关系表面上看并没有什么关联关系（相关性），比如啤酒和尿片，但是他们事实上又存在很强的依靠性。假如能够挖掘出这类隐性产品之间的关联关系，就可以大大提高消费者的随机购买，从而提高超市的利润率。商品间的相关性如何从浩如烟海却又杂乱无章的销售数据中，发现啤酒和尿片这类商品销售之间的联系呢？幸运的是，现代超市都拥有了数据收集处理系统，这给统计带来了一定的便利。但是，要判定数据之间的关系，还是要把握一定的原则和方法。1。三个标准决定这种关联关系是否成立，必须同时考虑三条独立的标准，支持度（普遍度）、置信度（也称猜测度）以及增益。（1）支持度是同时包含关联性左右两边物品的交易次数百分比，即支持该规则的交易次数的百分比；（2）置信度是有了左边商品，同时又有了右边商品的交易次数百分比。换句话说，置信度就是在所有的购买了左边商品的交易中，同时又购买了右边商品的频率。（3）增益是两种可能性的比较。一种是在已知购买了尿片的情况下，购买啤酒的可能性；另一种是在购买了啤酒的情况下，购买尿片的可能性。这个数值越大说明两者之间的促销关系越明显。要注重，孤立地使用上述的标准中的任意一种，都会导致不正确的结果。例如点鱼子酱则点伏特加酒这一个规则的置信度高，但是假如因为很少有人点鱼子酱而使交易支持度降低，则该规则没有什么用处，因为购买率不高，给超市的收益增加贡献没有价值。另外，当常见商品出现在右边的时候，其置信度也轻易产生误导。比如“买花生就买牛奶”、“买面包就买牛奶”置信度都很高，因为牛奶的高购买率误导了对花生、面包购买增益的真实性，因为面包、花生对牛奶起不到明显的促销作用。2。分析过程假设超市的顾客源是稳定的，即一年内来超市消费的顾客数量是一定的。对于尿片与啤酒之间的关联性进行这样分析。（1）首先分析尿片对啤酒的促销增益，即“尿片→啤酒”。用S来表示支持度，表示100S%的顾客同时买尿片和啤酒；C是置信度，表示100C%购买尿片的顾客还会购买啤酒；Q是平均购买量，表示在所有购买啤酒的顾客中，平均每位顾客购买的啤酒数量；P是利润，表示超市每卖出一瓶啤酒的盈利。那么，顾客总数×S可以理解为同时购买尿片和啤酒的顾客人数；顾客总数×S×C可以理解为在尿片的“促销”下，还会购买啤酒的顾客人数；顾客总数×S×C×Q×P表示受尿片“促销”啤酒模式的影响所产生的超市利润。所以对于以赢利为目的的超市而言，顾客总数×S×C×Q×P可以用来评估关联性“尿片→啤酒”中，尿片对啤酒“促销”作用的强弱，数值越大说明尿片对啤酒的“促销”作用越强。（2）分析啤酒对尿片的促销增益，即“啤酒→尿片”要取得明确的促销效果，超市往往把两种商品摆放在一起，因此不仅要考虑尿片对啤酒的“促销”作用，还要充分考虑啤酒对尿片的“促销”增益，就是“啤酒→尿片”。虽然关联性“尿片→啤酒”的反向规则“啤酒→尿片”可能不满足已设定的最小置信度，但是通过对其反向规则“啤酒→尿片”的分析，找出啤酒对尿片的“促销”关系对全面评估啤酒和尿片摆放在一起所能够产生的价值也是有意义的。同“尿片→啤酒”的计算方式可以求得，受啤酒“促销”尿片模式的影响所产生的超市利润可以表示为：顾客总数×S′×C′×Q′×P′（加′为了与上一分析过程表示区别）。（3）判定相互之间的促销增益。由于顾客源是稳定的，可视为常数，所以引入“促销”系数W＝S×C×Q×P+S′×C′×Q′×P′，来衡量两种商品间“促销”关系的强弱。W越大，说明两种商品间的促销作用越明显，把这两种

数据挖掘案例2014.04-10

成功案例： 1，Credilogros改善客户信用评分业务(直接数据挖掘，预测统计分析方法/软件) Credilogros是阿根廷第五大信贷公司，它需要识别与潜在预先付款客户（缺乏充分的信用记录数据）相关的潜在风险，以便将承担的风险最小化。Credilogros选择了SPSS Inc.的数据挖掘软件PASWModeler，因为它能够灵活并轻松地整合到Credilogros 的核心信息系统中。数据挖掘的收益包括： 1)处理信用数据和提供最终信用评分的时间缩短到了8秒以内。平均每月使用PASW Modeler处理35000份申请。这使该组织能够迅速批准或拒绝信贷请求。 2)最小化每个客户必须提供的身份证明文档，某些情况，只需一份身份证明即可批准信贷； 3)风险监控，仅在实施3 个月后就帮助Credilogros 将贷款支付失职减少了20%。 2，中国宝钢集团（直接数据挖掘，分类分析方法）宝钢自1985年投产至今，积累了大量的生产数据，从每一炉钢到每一块板坯到每一个钢圈，各级计算机系统可以把这些数据完整地收集起来。采用数据挖掘技术对钢材生产的全流程进行质量监控和分析（通过全流程实时监控获得了丰富的生产数据），构建故障地图，实时分析产品出现瑕疵的原因，有效提高了产品的优良率。宝钢采用了两个数据挖掘工具，一个是自行研发的基于SAS的practical Miner，另一个是美国SAS公司的Enterprise Miner。在冷轧和热轧的产品质量控制中，仅2001年就取得超过3000万元的经济效益。在配矿优化项目中，通过确定不同铁矿石的合理比例，每年可为宝钢降低成本6000万元。另外，通过分析轧制计划，分析和优化库存结构，降低库存成本和平衡物流成本。 3，DHL实时跟踪货箱温度 DHL每辆车都装有持续记录车速、时间及温度的特制“黑匣子”，拥有全球定位系统，并由随车安保人员实时监控。一旦有偏离路线、超时停车和车内温度异常情况，货车必须重新装货。基于“黑匣子”提供的大量数据进行数据挖掘，可以根据温度控制的目标，制定和优化行车线路、司机配置、提供车况评估等决策支持。

大数据挖掘商业案例

1.前言随着中国加入WTO，国金融市场正在逐步对外开放，外资金融企业的进入在带来先进经营理念的同时，无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会，也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题，最有价值的客户可能正离您而去，而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下，如何才能吸引、增加并保持最好的客户呢？数据挖掘、模式(Patterns>等形式。用统计分析和数据挖掘解决商务问题。金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。客户细分―使客户收益最大化的同时最大程度降低风险市场全球化和购并浪潮使市场竞争日趋激烈，新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出，业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术，来获取有价值的客户，提高利润率。他们在分析客户特征和产品特征的同时，实现客户细分和市场细分。数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务，采用实时的预测分析技术，分析来自各种不同数据源－来自ATM、交易、呼叫中心以及相关分支机构的客户数据。采用各种分析技术，发现数据中的潜在价值，使营销活动更具有针对性，提高营销活动的市场回应率，使营销费用优化配置。客户流失―挽留有价值的客户在银行业和保险业，客户流失也是一个很大的问题。例如，抵押放款公司希望知道，自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失；保险公司则希望知道如何才能减少取消保单的情况，降低承包成本。为了留住最有价值的客户，您需要开展有效的保留活动。然而，首先您需要找出最有价值的客户，理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者，从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序，找出最有价值的客户。交叉销售在客户关系管理中，交叉销售是一种有助于形成客户对企业忠诚关系的重要工具，有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务，客户与企业的接触点也就越多，企业就越有机会更深入地了解客户的偏好和购买行为，因此，企业提高满足客户需求的能力就比竞争对手更有效。研究表明，银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间，存在着较强的正相关性。企业通过对现有客户进行交叉销售，客户使用企业的服务数目就会增多，客户使用银行服务的年限就会增大，每个客户的利润率也随着增大。从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服务，发现有价值的产品和服务组合，从而有效地向客户提供额外的服务，提高活期收入并提升客户的收益率。

大学数据挖掘期末考试题

:号学题目-一 - -二二三四五六七八九十总成绩复核得分阅卷教师 :名姓班级业专院学院学学科息信与学数题试试考末期期学季春年学一320数据挖掘试卷课程代码：C0204413课程：数据挖掘A卷一、判断题（每题1分，10分） 1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（） 2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（） 3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（） 4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（） 5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（） 6. 属性的性质不必与用来度量他的值的性质相同。（） 7. 全链对噪声点和离群点很敏感。（） 8. 对于非对称的属性，只有非零值才是重要的。（） 9. K均值可以很好的处理不同密度的数据。（） 10. 单链技术擅长处理椭圆形状的簇。（）二、选择题（每题2分，30分） 1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（） A. 分类 B.聚类 C.关联分析 D.主成分分析 2. （）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。 A. MIN（单链） B.MAX（全链） C.组平均 D.Ward方法 3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（）数据挖掘方法。 A分类B预测C关联规则分析D聚类 4. 关于K均值和DBSCAN的比较，以下说法不正确的是（） A. K均值丢弃被它识别为噪声的对象，而DBSCAN —般聚类所有对象。 B. K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。 C. K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇 D. K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇 5. 下列关于 Ward 'Method说法错误的是：（） A. 对噪声点和离群点敏感度比较小 B. 擅长处理球状的簇 C. 对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差 D. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似 6. 下列关于层次聚类存在的问题说法正确的是：（） A. 具有全局优化目标函数 B. Group Average擅长处理球状的簇 C. 可以处理不同大小簇的能力 D. Max对噪声点和离群点很敏感 7. 下列关于凝聚层次聚类的说法中，说法错误的事：（） A. 一旦两个簇合并，该操作就不能撤销 B. 算法的终止条件是仅剩下一个簇 2 C. 空间复杂度为O m D. 具有全局优化目标函数 8规则｛牛奶，尿布｝T｛啤酒｝的支持度和置信度分别为：（）

啤酒与尿布

啤酒与尿布 ——营销神话 “啤酒与尿布”是营销届的一个神话，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象阐述了商品之间的关联性特征，通过商品关联性的布局摆放形成了连带购买、交叉销售，从而使得销售额成倍的提升。研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析曾经是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长。商品相关性分析是购物篮分析中最重要的部分，而在数据分析行业，将购物篮的商品相关性分析称为“数据挖掘算法之王”可见购物篮商品相关性算法吸引人的地方。 “啤酒与尿布”的案例有很多，但是，认真地查了一下资料，发现沃尔玛的“啤酒与尿布” 案例是正式刊登在 1998 年的《哈佛商业评论》上面的，这应该算是目前发现的最权威报道。“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象: 在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物;而

大数据应用案例

四大经典大数据应用案例解析什么是数据挖掘(Data Mining)?简而言之，就是有组织有目的地收集数据，通过分析数据使之成为信息，从而在大量数据中寻找潜在规律以形成规则或知识的技术。在本文中，我们从数据挖掘的实例出发，并以数据挖掘中比较经典的分类算法入手，给读者介绍我们怎样利用数据挖掘的技术解决现实中出现的问题。数据挖掘是如何解决问题的? 本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。下面关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。而Target 公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。

一、尿不湿和啤酒很多人会问，究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。超级商业零售连锁巨无霸沃尔玛公司(Wal Mart)拥有世上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行了购物篮关联规则分析，从而知道顾客经常一起购买的商品有哪些。在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据，在这些原始交易数据的基础上，沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外的结果出现了：“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果，反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值? 为了验证这一结果，沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析，他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式：在美国，到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作，而他们中有30%～40%的人同时也会为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿，而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任，又去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多，那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起，结果是得到了尿不湿与啤酒的销售量双双增长。按常规思维，尿不湿与啤酒风马牛不相及，若不是

并购分析报告

2010年中国并购市场统计分析报告关键发现 2010年并购市场趋于活跃，宣布并购交易案例数量及披露金额大幅增加。2010年中国并购市场趋于活跃，中国企业宣布并购交易案例2771起，环比上升13.80%；披露交易额1772.1亿美元，环比上升35.87%。 2010年中国并购市场完成交易金额大幅上升。完成案例数量为1798起，环比上升6.14%；披露金额82.02亿美元，环比上升62.57%。 2010年中国并购市场完成交易能源行业案例数量居首。本年度完成并购交易案例涉及20个行业，其中制造业、能源、房地产行业的并购案例数量分列前三位，分别为382、258和229起，分别占并购案例总数量的24%，17%和15%。 2010年中国并购市场出境并购交易案例数量和交易完成金额增加。中国并购市场出境并购共涉及15个行业，完成并购交易案例数量55起，环比增长7.8%；披露金额294.19亿美元，环比上升2.91%。 2010年中国并购市场入境并购交易案例数量和交易完成金额大幅增加。中国并购市场入境并购共涉及13个行业，完成并购交易案例数量30起，环比增长57.89%；披露金额23.91亿美元，环比上升109.37%。 2010年中国并购市场境内完成并购交易案例数量和交易完成金额取得显著增长。中国并购市场境内并购共涉及20个行业，境内并购完成案例数量达1713起，环比增长31.16%；披露金额达502.12亿美元，环比增长23.87%。 2010年VC/PE背景完成并购交易案例数量和披露金额大幅上升，并达到近10年来最高值。2010年共VC/PE背景并购案例披露17起，同比上升70%；披露金额60.91亿美元，同比上升392.3%。 1. 2010年中国企业并购市场综述 2010年中国并购市场趋于活跃，中国企业宣布并购交易案例2771起，环比上升13.80%；披露交易额1772.1亿美元，环比上升35.87%。无论是案例数量还是披露交易金额，2010年宣布的并购交易规模都呈明显上升趋势。 2010年中国企业完成并购交易案例数量为1798起，环比上升6.14%；披露金额82.02亿美元，环比上升62.57%。从2007年以来，中国企业完成并购交易案例数量及披露交易

武大学长美国计算机硕士经典案例分享

武大学长美国常春藤名校计算机硕士录取经验分享哥大CS系成立于1979年，项目在计算机领域覆盖很广，学生可以从八个研究方向中选择自己感兴趣的进行修习，包括计算生物学、计算机安全、计算机科学基础、机器学习、自然语言处理、网络系统、软件系统、视觉与图形等等。哥伦比亚大学计算机硕士课程要求学生必须完成30个学分，至少2.7以上的GPA成绩并完成选修课程，需要完成至少6学分的6000-level的技术课程，最多3学分的非计算机/技术的课程。一．武汉申友留学美国计算机硕士名校成功申请案例学生姓名：Chen Z.H. 本科学校：武汉大学本科专业：计算机基本条件：GPA3.3+，IELTS7.5，GRE320+ 申请方向：美国计算机硕士录取结果：哥伦比亚大学（美国常春藤名校，2019年US NEWS 排名TOP3）佛罗里达大学（$4500奖学金）武汉申友留学顾问老师点评Chen同学的申请：记得特别清楚，去年9月28日下午，陈爸爸很焦急的打电话过来咨询孩子的留学申请，因为一开始是打算考国内的研究生，临时决定还是出国读研，留学考试都还没有开始准备，研究背景方面也有所欠缺，所以时间特别紧凑。国庆节过后立即签约加入了武汉申友美国服务，考试辅导老师Bella老师立即帮陈同学定制短期冲刺备考方案，武汉高级文书顾问Jessy老师也根据陈同学的现有背景出文书初稿，好在陈同学学习能力很强，在短短2个月的时间，一战考出GRE320+，IELTS7.5的好成绩，赶在圣诞节前提交了部分申请。由于陈同学的GPA不是很高，研究背景方面有些不足，陆续也收到过几所学校的拒信，但是我们都没有放弃，在3月份终于拿到了哥伦比亚大学和佛罗里达大学带奖学金的录取。二．去美国留学计算机专业申请难度分析计算机专业毕业生的一大优势是薪资水平高，本科毕业生平均起薪为58,419美元，研究生则增加到了70,625美元。极高的投资回报率，加上专业方向非常多，不同背景的学生都可以申请，所以计算机专业申请人数连年持续走高，申请竞争激烈，而申请的软硬件条件也水涨船高。

数据挖掘商业案例

金融行业应用 1.前言随着中国加入WTO，国内金融市场正在逐步对外开放，外资金融企业的进入在带来先进经营理念的同时，无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会，也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题，最有价值的客户可能正离您而去，而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下，如何才能吸引、增加并保持最好的客户呢？数据挖掘（Data Mining，DM）是指从大量不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念（Concepts）、规则(Rules)、模式(Patterns)等形式。用统计分析和数据挖掘解决商务问题。金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。客户细分―使客户收益最大化的同时最大程度降低风险市场全球化和购并浪潮使市场竞争日趋激烈，新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出，业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术，来获取有价值的客户，提高利润率。他们在分析客户特征和产品特征的同时，实现客户细分和市场细分。数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务，采用实时的预测分析技术，分析来自各种不同数据源－来自ATM、交易网站、呼叫中心以及相关分支机构的客户数据。采用各种分析技术，发现数据中的潜在价值，使营销活动更具有针对性，提高营销活动的市场回应率，使营销费用优化配置。客户流失―挽留有价值的客户在银行业和保险业，客户流失也是一个很大的问题。例如，抵押放款公司希望知道，自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失；保险公司则希望知道如何才能减少取消保单的情况，降低承包成本。为了留住最有价值的客户，您需要开展有效的保留活动。然而，首先您需要找出最有价值的客户，理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者，从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序，找出最有价值的客户。交叉销售在客户关系管理中，交叉销售是一种有助于形成客户对企业忠诚关系的重要工具，有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务，客户与企业的接触点也就越多，企业就越有机会更深入地了解客户的偏好和购买行为，因此，企业提高满足客户需求的能力就比竞争对手更有效。研究表明，银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间，存在着较强的正相关性。企业通过对现有客户进行交叉销售，客户使用企业的服务数目就会增多，客户使用银行服务的年限就会增大，每个客户的利润率也随着增大。