啤酒与尿布案例讲解学习

啤酒与尿布案例

什么是品类管理：

一个过程：把自己经营的商品分为不同的类别，将品类视为经营策略单位，专注于实现消费者价值，最终提高企业经营业绩。

目标：一强调向消费者提供超值的产品和服务，以此来提升经营效率与效益C

啤酒与尿布”的故事可以说是营销界的经典段子，在打开Google搜索一下，你会发现很多人都在津津乐道于啤酒与尿布”可以说100个人就有100个版本的啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初，甚至连故事的主角和地点都会发生变化一一从美国跨越到欧洲。认真地查了一下资料，我们发现沃尔玛的啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的，这应该算是目前发现的最权威报道。

啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛

的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，啤酒”与尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的

父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入。

什么是品类管理：

一个过程：把自己经营的商品分为不同的类别，将品类视为经营策略单位，专注于实现消费者价值，最终提高企业经营业绩。

目标：一强调向消费者提供超值的产品和服务，以此来提升经营效率与效益C

实验二 Clementine12购物篮分析(关联规则)

实验二Clementine12购物篮分析（关联规则）一、[实验目的] 设计关联规则分析模型，通过模型演示如何对购物篮分析，并根据细分结果对采取不同的营销策略。体验以数据驱动的模型计算给科学决策带来的先进性。二、[知识要点] 1、购物蓝分析概念； 2、管来呢规则算法原理； 3、购物蓝分析工具； 4、Clementine12.0关联规则分析流程。三、[实验要求和内容] 1、初步了解使用工作流的方式构建分析模型； 2、理解智能数据分析流程，主要是CRISP-DM工业标准流程； 3、理解关联规则模型原理； 4、设计关联规则分流； 5、运行该流，并将结果可视化展示； 6、得出模型分析结论 7、运行结果进行相关营销策略设计。四、[实验条件] Clementine12.0挖掘软件。五、[实验步骤] 1、启动Clementine12.0软件； 2、在工作区设计管来呢规则挖掘流； 3、执行模型，分析计算结果； 4、撰写实验报告。六、[思考与练习] 1、为什么要进行关联规则分析？它是如何支持客户营销的？

实验内容与步骤一、前言 “啤酒与尿布”的故事是营销届的神话，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象就是卖场中商品之间的关联性，研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析曾经是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长！ “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal （个人翻译--艾格拉沃）提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法—Aprior算法。沃尔玛从上个世纪90年代尝试将Aprior算法引入到POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中？

数据挖掘案例分析--啤酒与尿布讲课稿

前言 “啤酒与尿布”的故事是营销届的神话，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象就是卖场中商品之间的关联性，研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析曾经是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长！商品相关性分析是购物篮分析中最重要的部分，购物篮分析英文名为market basket analysis(简称MBA，当然这可不是那个可以用来吓人的学位名称)。在数据分析行业，将购物篮的商品相关性分析称为“数据挖掘算法之王”，可见购物篮商品相关性算法吸引人的地方，这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。购物篮分析的算法很多，比较常用的有A prior/ ?’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等，上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程，因此在这里我不介绍具体的购物篮分析算法，而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟，在进入20世纪90年代后，很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中，成为了软件产品的组成部分，客户购买了这些软件产品后就等于有了购物篮分析的工具，比如我们正在使用的Clementine。缘起 “啤酒与尿布”的故事可以说是营销界的经典段子，在打开Google搜索一下，你会发现很多人都在津津乐道于“啤酒与尿布”，可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初，甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料，我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的，这应该算是目前发现的最权威报道。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal （个人翻译--艾格拉沃）提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

案例1

案例1 ①尿布和啤酒的故事在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。原来，美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起购买的机会还是很多的。是什么让沃尔玛发现了尿布和啤酒之间的关系呢？案例② 美国密执安州有一家名为“阿汉”的小餐馆有个异常奇特的做法：经常光顾该餐馆的顾客，只要愿意，便可报上自己的常住地址，在客户登记簿上注册，开一个“户头”，以后顾客每次到这里来就餐，餐馆都会如实地在其户头上记下用餐款额。每年的9月30日，餐馆便会按客户登记簿上的记载算出每位顾客从上年9月30日以来在餐馆的消费总额，然后再按餐馆纯利10%的比例算出每位顾客应得的利润分发给顾客，这样，餐馆自然就常常门庭若市。阿汉餐馆给顾客分红的方法虽然损失了一部分纯利，但却使顾客感到自己与餐馆的利润息息相关，自己也是餐馆的一员。这样一来，餐馆密切了与消费者的关系，吸引了许多回头客。这种让食客成为“股东”的做法其实也是一种“组合”式的生意之道，不同的是前者是明显的“物质组合”，而后者是隐蔽的“人员组合”，两者都是以消费者心甘情愿地付出而给老板带来了滚滚利润，何乐而不为呢？案例③ 山姆会员店，严格要求顾客购物要出示本人的会员卡，如不是本人的会员卡，不能购买超市的商品。很多人纳闷，山姆大叔为什么有钱不赚，难道山姆大叔仅仅是想赚会员费吗？案例④ 曾有一篇报道，英国有位老先生，因为实在忍受不了老伴40年来始终只给他做

“啤酒和尿布”对药店营销的启示

“啤酒和尿布”对药店营销的启示诚然信息治理系统做为医药连锁企业治理手段的最差不多的目的已达到，然而企业的应用信息化系统的层面难道只是仅仅局限在如何降低企业的营运成本那个层面上吗？由此笔者想到多年前看到的一个案例：在美国沃尔玛的一个超级市场的货架上，尿布和啤酒赫然地摆在一起出售，一个是日用品，一个是食品，两个风马牛不相及的物品摆在一起的结果是尿布和啤酒的销量双双激增。沃尔玛超市什么缘故要将这两个商品摆在一起？摆在一起的结果什么缘故会使销量激增？原先，沃尔玛超市对一年多的原始销售交易数据进行详细分析，发觉在美国有小孩的家庭中，太太经常叮嘱他们的夫君下班以后要为小孩买尿布，而夫君们在买完尿布以后又顺手带回了自己爱喝的啤酒，因此啤酒和尿布一起购买的机会是最多的。由此，我们能够看到，信息技术的应用另外一个更要紧的层面――企业的“开源”。我们在专门多企业治理培训或MBA课程中明白，企业利润的来源的实现要紧基于两个部分：“开源”和“节流”。当企业占据市场的主导份额时，企业关注的焦点在“节流”，这时企业靠流程优化或技术革新节约下来的每一分钞票要比从市场上猎取每一分前所付出的成本小的多；然而当企业尚未占据市场的主导份额时，企业关注的焦点在“开源”，如何在销售中挖掘潜力，如何抢夺竞争对手的客户等相关“开源”的战略战术，所猎取的利润远远比现时期靠“节流” 所猎取的利润从企业的经济战略角度讲意义要深远的多的多。纵观现在的医药连锁行业，尚未有哪个企业在市场上占据决定性的主导份额，药店与药店的相互竞争也较为平滑，简单而原始的武器“价格战”大行其道，在毛利率不断下降的今天，企业信息化的关注的焦点如何“开源”也被其下游服务商――软件供应商所忽视，仅仅停留在“开源”层面。这不能不讲是一种误区。那么，医药连锁企业如何利用信息技术进行“开源”呢？在一年多前，我们曾以此为课题进行深入的探讨，结合药理学的相关知识，参照沃尔玛的案例对连锁药店所经营的药品相关性进行分析，并将分析后的结果在昆明某医药连锁企业的某一药店进行实施。其季度销售额与去年同期相比结果如下，如表1所示：单位：元

啤酒与尿布读后感

我们正处在一个信息大爆炸的年代，主要表现在大量信息的产生并以数字化的方式被记录下来。信息技术的普及造就了信息大爆炸的年代。大量的信息可以帮助人们更好地决策;但是同时因为信息太多了，如何找到有用的信息又变成了一件难题。这里，啤酒与尿布的故事就给了我们很大的启发。沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的历史购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库集中了其各门店的详细原始交易数据，在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘，却有了一个意外的发现：婴儿尿布和啤酒有很高的相关度，即跟尿布一起购买最多的商品竟然是啤酒!这是数据挖掘技术对历史数据进行分析的结果，反映数据内在的规律。接着，沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析。经过大量实际调查和分析，揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%~40%的人同时为自己买一些啤酒，产生这样的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。按常规思维，尿布与啤酒风马牛不相及，若不是借助统计学上的数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。数据挖掘是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。数据挖掘的应用之一就是关联规则，通过对大量数据的分析，找到两个或几个总是同时发生的事件。所以我们可以看到统计学的应用正是用数据挖掘价值的最强有力的工具！然而，书中还提到了这样的故事，是说关联的时效性：有些关联只发生在特定时间。7-11便利店，某位员工订货错误，酸奶从3瓶变为30瓶，为了完成销售，将酸奶拿到面包盒饭陈列区，销售一空。从此7-11便将酸奶与快餐搭配陈列提高销量。这就是带有时效性的商品关联，如果不及时关注，一天的酸奶销售量很快就

啤酒与纸尿裤

啤酒和尿片齐飞在美国沃尔玛超市的货架上，尿片和啤酒赫然地摆在一起出售。一个是日用品，一个是食品，两者风马牛不相及，这究竟是什么原因？原来，沃尔玛的工作人员在按周期统计产品的销售信息时发现一个希奇的现象：每逢周末，某一连锁超市啤酒和尿片的销量都很大。为了搞清楚这个原因，他们派出工作人员进行调查。通过观察和走访后了解到，在美国有孩子的家庭中，太太经常嘱咐丈夫下班后要为孩子买尿片，而丈夫们在买完尿片以后又顺手带回了自己爱喝的啤酒，因此啤酒和尿片销量一起增长。搞清原因后，沃尔玛的工作人员打破常规，尝试将啤酒和尿片摆在一起，结果使得啤酒和尿片的销量双双激增，为商家带来了大量的利润。在寸土寸金的货架陈列竞争中，为了刺激消费者的购买欲望，商场经常采取按照类别陈列的方式便于消费者选择，比如将文具类商品集中在一起陈列。但是，有些商品之间的关系表面上看并没有什么关联关系（相关性），比如啤酒和尿片，但是他们事实上又存在很强的依靠性。假如能够挖掘出这类隐性产品之间的关联关系，就可以大大提高消费者的随机购买，从而提高超市的利润率。商品间的相关性如何从浩如烟海却又杂乱无章的销售数据中，发现啤酒和尿片这类商品销售之间的联系呢？幸运的是，现代超市都拥有了数据收集处理系统，这给统计带来了一定的便利。但是，要判定数据之间的关系，还是要把握一定的原则和方法。1。三个标准决定这种关联关系是否成立，必须同时考虑三条独立的标准，支持度（普遍度）、置信度（也称猜测度）以及增益。（1）支持度是同时包含关联性左右两边物品的交易次数百分比，即支持该规则的交易次数的百分比；（2）置信度是有了左边商品，同时又有了右边商品的交易次数百分比。换句话说，置信度就是在所有的购买了左边商品的交易中，同时又购买了右边商品的频率。（3）增益是两种可能性的比较。一种是在已知购买了尿片的情况下，购买啤酒的可能性；另一种是在购买了啤酒的情况下，购买尿片的可能性。这个数值越大说明两者之间的促销关系越明显。要注重，孤立地使用上述的标准中的任意一种，都会导致不正确的结果。例如点鱼子酱则点伏特加酒这一个规则的置信度高，但是假如因为很少有人点鱼子酱而使交易支持度降低，则该规则没有什么用处，因为购买率不高，给超市的收益增加贡献没有价值。另外，当常见商品出现在右边的时候，其置信度也轻易产生误导。比如“买花生就买牛奶”、“买面包就买牛奶”置信度都很高，因为牛奶的高购买率误导了对花生、面包购买增益的真实性，因为面包、花生对牛奶起不到明显的促销作用。2。分析过程假设超市的顾客源是稳定的，即一年内来超市消费的顾客数量是一定的。对于尿片与啤酒之间的关联性进行这样分析。（1）首先分析尿片对啤酒的促销增益，即“尿片→啤酒”。用S来表示支持度，表示100S%的顾客同时买尿片和啤酒；C是置信度，表示100C%购买尿片的顾客还会购买啤酒；Q是平均购买量，表示在所有购买啤酒的顾客中，平均每位顾客购买的啤酒数量；P是利润，表示超市每卖出一瓶啤酒的盈利。那么，顾客总数×S可以理解为同时购买尿片和啤酒的顾客人数；顾客总数×S×C可以理解为在尿片的“促销”下，还会购买啤酒的顾客人数；顾客总数×S×C×Q×P表示受尿片“促销”啤酒模式的影响所产生的超市利润。所以对于以赢利为目的的超市而言，顾客总数×S×C×Q×P可以用来评估关联性“尿片→啤酒”中，尿片对啤酒“促销”作用的强弱，数值越大说明尿片对啤酒的“促销”作用越强。（2）分析啤酒对尿片的促销增益，即“啤酒→尿片”要取得明确的促销效果，超市往往把两种商品摆放在一起，因此不仅要考虑尿片对啤酒的“促销”作用，还要充分考虑啤酒对尿片的“促销”增益，就是“啤酒→尿片”。虽然关联性“尿片→啤酒”的反向规则“啤酒→尿片”可能不满足已设定的最小置信度，但是通过对其反向规则“啤酒→尿片”的分析，找出啤酒对尿片的“促销”关系对全面评估啤酒和尿片摆放在一起所能够产生的价值也是有意义的。同“尿片→啤酒”的计算方式可以求得，受啤酒“促销”尿片模式的影响所产生的超市利润可以表示为：顾客总数×S′×C′×Q′×P′（加′为了与上一分析过程表示区别）。（3）判定相互之间的促销增益。由于顾客源是稳定的，可视为常数，所以引入“促销”系数W＝S×C×Q×P+S′×C′×Q′×P′，来衡量两种商品间“促销”关系的强弱。W越大，说明两种商品间的促销作用越明显，把这两种

数据挖掘案例2014.04-10

成功案例： 1，Credilogros改善客户信用评分业务(直接数据挖掘，预测统计分析方法/软件) Credilogros是阿根廷第五大信贷公司，它需要识别与潜在预先付款客户（缺乏充分的信用记录数据）相关的潜在风险，以便将承担的风险最小化。Credilogros选择了SPSS Inc.的数据挖掘软件PASWModeler，因为它能够灵活并轻松地整合到Credilogros 的核心信息系统中。数据挖掘的收益包括： 1)处理信用数据和提供最终信用评分的时间缩短到了8秒以内。平均每月使用PASW Modeler处理35000份申请。这使该组织能够迅速批准或拒绝信贷请求。 2)最小化每个客户必须提供的身份证明文档，某些情况，只需一份身份证明即可批准信贷； 3)风险监控，仅在实施3 个月后就帮助Credilogros 将贷款支付失职减少了20%。 2，中国宝钢集团（直接数据挖掘，分类分析方法）宝钢自1985年投产至今，积累了大量的生产数据，从每一炉钢到每一块板坯到每一个钢圈，各级计算机系统可以把这些数据完整地收集起来。采用数据挖掘技术对钢材生产的全流程进行质量监控和分析（通过全流程实时监控获得了丰富的生产数据），构建故障地图，实时分析产品出现瑕疵的原因，有效提高了产品的优良率。宝钢采用了两个数据挖掘工具，一个是自行研发的基于SAS的practical Miner，另一个是美国SAS公司的Enterprise Miner。在冷轧和热轧的产品质量控制中，仅2001年就取得超过3000万元的经济效益。在配矿优化项目中，通过确定不同铁矿石的合理比例，每年可为宝钢降低成本6000万元。另外，通过分析轧制计划，分析和优化库存结构，降低库存成本和平衡物流成本。 3，DHL实时跟踪货箱温度 DHL每辆车都装有持续记录车速、时间及温度的特制“黑匣子”，拥有全球定位系统，并由随车安保人员实时监控。一旦有偏离路线、超时停车和车内温度异常情况，货车必须重新装货。基于“黑匣子”提供的大量数据进行数据挖掘，可以根据温度控制的目标，制定和优化行车线路、司机配置、提供车况评估等决策支持。

啤酒与尿布

啤酒与尿布 ——营销神话 “啤酒与尿布”是营销届的一个神话，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象阐述了商品之间的关联性特征，通过商品关联性的布局摆放形成了连带购买、交叉销售，从而使得销售额成倍的提升。研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析曾经是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长。商品相关性分析是购物篮分析中最重要的部分，而在数据分析行业，将购物篮的商品相关性分析称为“数据挖掘算法之王”可见购物篮商品相关性算法吸引人的地方。 “啤酒与尿布”的案例有很多，但是，认真地查了一下资料，发现沃尔玛的“啤酒与尿布” 案例是正式刊登在 1998 年的《哈佛商业评论》上面的，这应该算是目前发现的最权威报道。“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象: 在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物;而

三个常用统计模型的典型应用场景

你们头脑里隐藏的任何念头，都躲不过魔帽的金睛火眼，戴上它试一下吧，我会告诉你们，你们应该分到哪一所学院。你也许属于格兰芬多，那里有埋藏在心底的勇敢，他们的胆识、气魄和豪爽，使格兰芬多出类拔萃；你也许属于赫奇帕奇，那里的人正直忠诚，赫奇帕奇的学子们坚忍诚实，不畏惧艰辛的劳动；如果你头脑精明，或许会进智慧的老拉文克劳，那些睿智博学的人，总会在那里遇见他们的同道；也许你会进斯莱特林，也许你在这里交上真诚的朋友，但那些狡诈阴险之辈却会不惜一切手段，去达到他们的目的。分院帽应用的是个非常典型的决策树模型（什么鬼），在上文的《分院帽之歌（节选）》中，我标粗的每个部分都可以认为是一个特征，帽子往学生头上一扣，读取学生的显著特征，然后分到某个类别里。所以你看，哈利波特一开始表现出来的特征都是格兰芬多的特征，但他毕竟是个魂器，分院帽读取数据时候发现这个人有两类显著特征，于是犹豫不决，最后还是波特自己提出了要求，这就证明应用模型时的人工干预必不可少（大雾）。言归正传，决策树在实际工作中基本应用于给人群分类，最好的应用场景是要把人群分为互斥的两类，并找到两类人群的不同特征。当然，分为多个互斥类别也OK。一个非常典型的场景是流失模型，对电信业来说，通过用户的行为来提前找到哪些人有流失风险，并通过专门优惠等手段挽留，是运营中的重要部分。之前我在转入互联网行业时，第一选择本来是

游戏公司（可惜愿意收的给不起合理工资……），因此研究了一下游戏用户流失模型的内容，发现跟电信业有相通之处。举个例子，对于某款端游，定义超过一周不登录用户为流失，那么做过的任务、拿到的装备、打过的副本、充值金额等等，都可以作为预测用特征，比对流失与非流失用户，找到两者的区别，在关键流失节点上加一些运营策略来减少流失。二、K-means聚类定义：k-means聚类的目的是：把n个点（可以是样本的一次观察或一个实例）划分到k个聚类中，使得每个点都属于离他最近的均值（此即聚类中心）对应的聚类，以之作为聚类的标准。 K-means聚类的好处在于样本量大的时候，可以快速分群，但需要在分群后注意每个群体的可解释性。换句话说，给你一万个人，分成四群，需要能够解释每一群人的突出特征，如果有两群人的特征很相似，那就要重新分群了；或者有一群人的特征不明显，那就要增加分群了。聚类与分类不同，分类的目的是得到可复用的规则，使得训练集以外的个体可以直接分到已知的类别里；聚类属于后验的研究，是对已有个体的辨别。当然聚类可以在一定条件下转化为分类，例如K-means里知道了每类的中心，那么新个体可以依据和每类中心的距离，来判断所属类别。但通常情况下，聚类方法本身仍是用于研究的次数更多。 K-means常用的场景是在不清楚用户有几类时，尝试性的将用户进行分类，并根据每类用户的不同特征，决定下步动作。一个典型的应用场景是CRM管理中的数据库营销。举例，对于一个超市/电商网站/综合零售商，可以根据用户的购买行为，将其分为“年轻白领”、“一家三口”、“家有一老”、”初得子女“等等类型，然后通过邮件、短信、推送通知等，向其发起不同的优惠活动。明尼苏达州一家塔吉特门店被客户投诉，一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉，因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据，然后通过相关关系分析得出事情的真实状况。这个案例也算是与”啤酒和尿布“知名度差不多的一个案例。在这个案例中，那个高中生少女明显是被聚到了孕妇那一类，因为她的行为模式与孕妇是很相近的。（决策树也可以做这件事，但需要先定义出特征，因此在探索特征未知的领域时，聚类可能更好用一些）

购物篮分析

购物篮分析说起关联问题，可能要从“啤酒和尿布”说起了。有人说啤酒和尿布是沃尔玛超市的一个经典案例，也有人说，是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何，“啤酒和尿布”给了我们一个启示：世界上的万事万物都有着千丝万缕的联系，我们要善于发现这种关联。关联分析要解决的主要问题是：一群用户购买了很多产品之后，哪些产品同时购买的几率比较高？买了A产品的同时买哪个产品的几率比较高？可能是由于最初关联分析主要是在超市应用比较广泛，所以又叫“购物篮分析”，英文简称为MBA，当然此MBA非彼MBA,意为Market Basket Analysis。如果在研究的问题中，一个用户购买的所有产品假定是同时一次性购买的，分析的重点就是所有用户购买的产品之间关联性；如果假定一个用户购买的产品的时间是不同的，而且分析时需要突出时间先后上的关联，如先买了什么，然后后买什么？那么这类问题称之为序列问题，它是关联问题的一种特殊情况。从某种意义上来说，序列问题也可以按照关联问题来操作。关联分析有三个非常重要的概念，那就是“三度”：支持度、可信度、提升度。假设有10000个人购买了产品，其中购买A产品的人是1000个，购买B产品的人是2000个，AB同时购买的人是800个。支持度指的是关联的产品（假定A产品和B产品关联）同时购买的人数占总人数的比例，即800/10000=8%，有8%的用户同时购买了A和B两个产品；可信度指的是在购买了一个产品之后购买另外一个产品的可能性，例如购买了A产品之后购买B 产品的可信度=800/1000=80%，即80%的用户在购买了A产品之后会购买B产品；提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比，没有任何条件下购买B产品可能性=2000/10000=20%，那么提升度=80%/20%=4。

大数据应用案例-啤酒与尿布的故事

早在1980年，著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。这是大数据概念的首次提出。而大数据最经典应用则是20世纪90年代美国沃尔玛超市的啤酒与尿布的故事，被称为营销界的神话。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal （个人翻译--艾格拉沃）提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提

数据挖掘测试题

1.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？A A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2.以下两种描述分别对应哪两种对分类算法的评价标准？A (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC 3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？C A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？B A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD？A A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6.使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？A A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7.为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？B A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8.建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？C A. 根据内容检索

B. 建模描述 C. 预测建模 D. 寻找模式和规则 9.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？ A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 10.下面哪种不属于数据预处理的方法？D A变量代换 B离散化 C聚集 D估计遗漏值 11.假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？B A 第一个 B 第二个 C 第三个 D 第四个 12.上题中，等宽划分时（宽度为50），15又在哪个箱子里？A A 第一个 B 第二个 C 第三个 D 第四个 13.下面哪个不属于数据的属性类型：D A 标称 B 序数 C 区间 D相异 14. 在上题中，属于定量的属性类型是：C A 标称 B 序数 C 区间 D 相异 15. 只有非零值才重要的二元属性被称作：C A 计数属性 B 离散属性 C非对称的二元属性 D 对称属性 16. 以下哪种方法不属于特征选择的标准方法：D A 嵌入 B 过滤 C 包装

啤酒与尿布案例讲解学习

啤酒与尿布案例

什么是品类管理：一个过程：把自己经营的商品分为不同的类别，将品类视为经营策略单位，专注于实现消费者价值，最终提高企业经营业绩。目标：→强调向消费者提供超值的产品和服务，以此来提升经营效率与效益。啤酒与尿布”的故事可以说是营销界的经典段子，在打开Google搜索一下，你会发现很多人都在津津乐道于“啤酒与尿布”，可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初，甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料，我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的，这应该算是目前发现的最权威报道。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的

父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入。什么是品类管理：一个过程：把自己经营的商品分为不同的类别，将品类视为经营策略单位，专注于实现消费者价值，最终提高企业经营业绩。目标：→强调向消费者提供超值的产品和服务，以此来提升经营效率与效益。

《数据挖掘》练习题(第6章)讲课教案

一、填空题 1、关联规则挖掘的目的是。2 项集{的支持数为，支持度为。 3、在第2题的事务数据集中，如果将最小支持数定为3，则数据集中的频繁项集有。 4、在第2题的事务数据集中，规则 {牛奶，尿布}→{啤酒} 的支持度为，置信度为。 5、满足最小支持度和最小信任度的关联规则称为。 6、给定一个事务数据库，关联规则挖掘间题就是通过用户指定的和来寻找强关联规则的过程。 7、关联规则挖掘问题可以划分成和两个子问题。 8、可以降低产生频繁项集的计算复杂度两种方法为：和。 9、k-候选集 C产生的方法有：、和。 k 10、Apriori算法有两个致命的性能瓶颈。它们分别是： (1) (2) 二、多项选择题 1、设有项目集 ,X X是X的一个子集，则下列结论中成立的是( ) 1 A、如果X如果频繁项目集,则 X也是频繁项目集； 1 B、如果 X如果频繁项目集,则X也是频繁项目集； 1 C、如果X如果非频繁项目集,则 X也是非频繁项目集； 1 C、如果 X如果非频繁项目集,则X也是非频繁项目集； 1 E、如果X如果频繁项目集,则 X可能是频繁项目集也可能是非频繁项目集。 1 2、设3-项集{} a b c是频繁项目集，则下列1-项集和2-项集中，( )是频 ,, 繁项目集。 A、{},a b B、{},b c C、{},a c D、{}a E、{}b 3、设事务数据库D具有项集{} →不是强关联规则时, =，已知BC AD I A B C D ,,,

则下列关联规则中，( )一定不是强关联规则。 A、B ACD →E、AD BC → →D、ABC D →C、C ABD →B、CD AB 4、设事务数据库D具有项集{} →不是强关联规则时, =，已知BC AD ,,, I A B C D 则下列关联规则中，( )一定不是强关联规则。 A、B ACD →E、AD BC → →C、BCD A →B、CD AB →D、ABC D 5、假设关联规则{}{} →具有低可置信度，则在关联规则生成算法中，规则bed a ( )应该被丢弃(剪枝)。 A、{}{} → be ad →C、{}{} cd ab →B、{}{} ad bc D、{}{} bd ae → d abc →E、{}{} 三、问答题 1、进行关联分析时，需要处理的两个关键问题是什么？ 2 1 (1)，利用Apriori算法求出所有的频繁项目集，指出其中的最大频繁项目集。 (2)设minconfidence=60%，利用Apriori算法生成找出所有的强关联规则。2

电商数据挖掘之关联算法(一)：“啤酒+尿布”的关联规则是怎么来的

电商数据挖掘之关联算法（一）：“啤酒＋尿布”的关联规则是怎么来的 Posted on 2013年09月16日 by admin in 消费者研究, 用户研究, 电子商务with 0 Comments 所谓关联，反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候，可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance，第二个是关联性association，两者都可以用来描述事件之间的关联程度。其中前者主要用在互联网的内容和文档上，比如搜索引擎算法中文档之间的关联性，我们采用的词是relevance；而后者往往用在实际的事物之上，比如电子商务网站上的商品之间的关联度我们是用association来表示的，而关联规则是用association rules来表示的。如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。简单地来说，关联规则可以用这样的方式来表示：A→B，其中A被称为前提或者左部（LHS），而B被称为结果或者右部（RHS）。如果我们要描述关于尿布和啤酒的关联规则（买尿布的人也会买啤酒），那么我们可以这样表示：买尿布→买啤酒。关联算法的两个概念

在关联算法中很重要的一个概念是支持度（Support），也就是数据集中包含某几个特定项的概率。比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次，那么此关联的支持度为5%。和关联算法很相关的另一个概念是置信度（Confidence），也就是在数据集中已经出现A时，B发生的概率，置信度的计算公式是：A与B同时出现的概率/A出现的概率。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，或者即使知道也是不确定的，因此关联分析生成的规则带有置信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品（项）之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。关联规则的发现过程可分为如下两步：第一步是迭代识别所有的频繁项目集（Frequent Itemsets），要求频繁项目集的支持度不低于用户设定的最低值；第二步是从频繁项目集中构造置信度不低于用户设定的最低值的规则，产生关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。

关联规则

关联分析是数据挖掘领域常用的一类算法，主要用于发现隐藏在大型数据集中有意义的联系。举一个大家最耳熟能详的例子，就是尿布和啤酒，表示成关联规则的形式就是｛尿壶｝—>｛啤酒｝。这就是使用关联分析方法所得到的结果，而关联分析所得到的结果，我们可以用关联规则或者频繁项集的形式表示。在进行关联分析时，我们常常会遇到这样两个问题： A. 从大型数据集中发现模式一般来说需要在计算上付出巨大的代价，甚至往往是impossible的，我们往往采用置信度和支持度的剪枝来解决这个问题。 B. 所发现的某些模式可能是虚假的，这个我们需要采用一些关联规则的评估来解决这个问题。 1.1关联规则的优点 a.它可以产生清晰有用的结果。 b.它支持间接数据挖掘。 c.可以处理变长的数据。 d.它的计算的消耗量是可以预见的。 2.1随机森林基本原理 1、项集和K-项集令I={i1,i2,i3……id}是购物篮数据中所有项的集合，而T={t1,t2,t3….tN}是所有事务的集合，每个事务ti包含的项集都是I的子集。在关联分析中，包含0个或多个项的集合称为项集。如果一个项集包含K个项，则称它为K-项集。空集是指不包含任何项的项集。例如，在购物篮事务的例子中，｛啤酒，尿布，牛奶｝是一个3-项集。 2、支持度计数项集的一个重要性质是它的支持度计数，即包含特定项集的事务个数，数学上，项集X的支持度计数σ(X)可以表示为 σ(X)=|{ti|X?ti,ti∈T}| 其中，符号|*|表示集合中元素的个数。在购物篮事务的例子中，项集｛啤酒，尿布，牛奶｝的支持度计数为2，因为只有3和4两个事务中同时包含这3个项。

电商数据挖掘之关联算法(一)：“啤酒尿布”关联规则是怎么来

建站知识关联，其实很简单，就是几个东西或者事件是经常同时出现的，“啤酒＋尿布”就是非常典型的两个关联商品。文/通策信息首席运营官谭磊所谓关联，反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候，可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance，第二个是关联性association，两者都可以用来描述事件之间的关联程度。其中前者主要用在互联的内容和文档上，比如搜索引擎算法中文档之间的关联性，我们采用的词是relevance；而后者往往用在实际的事物之上，比如电子商务站上的商品之间的关联度我们是用association来表示的，而关联规则是用association rules来表示的。如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。简单地来说，关联规则可以用这样的方式来表示：A→B，其中A被称为前提或者左部（LHS），而B被称为结果或者右部（RHS）。如果我们要描述关于尿布和啤酒的关联规则（买尿布的人也会买啤酒），那么我们可以这样表示：买尿布→买啤酒。关联算法的两个概念在关联算法中很重要的一个概念是支持度（Support），也就是数据集中包含某几个特定项的概率。比如在次的商品交易中同时出现了啤酒和尿布的次数是次，那么此关联的支持度为%。和关联算法很相关的另一个概念是置信度（Confidence），也就是在数据集中已经出现A时，B发生的概率，置信度的计算公式是：A与B同时出现的概率/A出现的概率。数据关联是数据库中存在的一类重要的可被发现的知识。若两

个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找出数据库中隐藏的关联。有时并不知道数据库中数据的关联函数，或者即使知道也是不确定的，因此关联分析生成的规则带有置信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品（项）之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。关联规则的发现过程可分为如下两步：第一步是迭代识别所有的频繁项目集（Frequent Itemsets），要求频繁项目集的支持度不低于用户设定的最低值；第二步是从频繁项目集中构造置信度不低于用户设定的最低值的规则，产生关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。支持度和置信度两个阈值是描述关联规则的两个最重要的概念。一项目组出现的频率称为支持度，反映关联规则在数据库中的重要性。而置信度衡量关联规则的可信程度。如果某条规则同时满足最小支持度（min-support）和最小置信度（min-confidence），则称它为强关联规则。关联规则数据挖掘阶段第一阶段必须从原始资料集合中，找出所有高频项目组（Large Itemsets）。高频的意思是指某一项目组出现的频率相对于所有