超级市场零售商品的购物篮分析
2024年超市购物篮市场调查报告

超市购物篮市场调查报告1. 引言超市购物篮是人们购买商品时常用的工具之一。
本报告旨在通过对超市购物篮市场进行调查研究,分析市场现状、竞争格局和消费者需求,为超市购物篮的生产、销售和设计提供参考和建议。
2. 调查方法本次市场调查采用了问卷调查和实地观察相结合的方法。
共计发放了500份问卷,覆盖了不同年龄、性别和经济状况的超市顾客。
此外,我们还在多家超市进行了实地观察,观察超市购物篮的种类、质量和使用情况。
3. 市场现状分析3.1 购物篮种类根据实地观察,市场上主要有塑料购物篮和金属购物篮两种类型。
其中,塑料购物篮更加常见,占据超市购物篮市场的主导地位。
塑料购物篮广泛应用于各类超市,因其轻便、耐用、易清洗的特点备受消费者欢迎。
3.2 购物篮质量在实地观察中发现,购物篮的质量参差不齐。
一些购物篮质地坚固,使用寿命长,而另一些购物篮可能存在抗压性差、易断裂等问题。
购物篮质量的差异可能与生产商的技术水平、原材料选用有关。
3.3 购物篮价格调查数据显示,超市购物篮的价格普遍较为合理。
不同超市的购物篮价格差异并不大,主要与购物篮的材质和大小有关。
大多数消费者对购物篮的价格表示满意。
4. 消费者需求分析4.1 购物篮容量根据问卷调查,消费者的购物篮容量需求有所差异。
一部分消费者倾向于选购容量较大的购物篮,以便将更多商品放入购物篮;另一部分消费者则更偏好容量较小的购物篮,以便携带更便利。
在实际观察中,容量合适的购物篮更受欢迎。
4.2 购物篮舒适性问卷调查显示,购物篮的舒适性对消费者来说也是一个重要考虑因素。
尤其是对于那些购买较多商品的消费者来说,购物篮的舒适度能够对减轻购物压力起到积极的作用。
因此,购物篮设计应考虑增加手柄的抓握舒适度和减少重压对顾客手部的影响。
4.3 购物篮的环保性调查结果显示,消费者对购物篮的环保性越来越重视。
他们期望购物篮能够采用可再生材料制造,减少对环境的损害。
此外,购物篮的可回收性和易清洁性也是一些消费者关注的焦点。
2024年超市购物篮市场规模分析

2024年超市购物篮市场规模分析1. 引言超市购物篮是指在购物超市中提供给消费者用于装载和携带商品的篮子或购物车。
随着人们对便利性和舒适性的要求不断提高,购物篮在超市购物中扮演着重要的角色。
本文将对超市购物篮市场规模进行分析,探讨其发展趋势与影响因素。
2. 市场规模分析2024年超市购物篮市场规模分析主要从以下几个方面展开:2.1 市场概况超市购物篮市场的发展受到人们购物行为和超市发展状况等多方面因素的影响。
当前,随着城市化进程的加速和人们消费水平的提高,购物超市逐渐成为民众购买生活必需品的主要场所,进一步推动了超市购物篮市场的发展。
2.2 市场规模及增长趋势超市购物篮市场规模可以通过销售额、销售数量、增长率等指标进行衡量。
根据市场调研数据,过去几年超市购物篮市场呈现稳步增长的态势。
预计未来几年内,随着超市业态的升级和消费需求的不断增长,该市场规模将继续扩大。
2.3 地区分布超市购物篮市场在全国范围内都有着广泛的影响。
大中城市由于人口数量庞大且经济发达,超市购物篮市场规模较大。
此外,一些新兴城市和乡村地区也不断涌现出新的超市,推动了超市购物篮市场的进一步发展。
3. 影响因素分析超市购物篮市场规模的发展受到多个因素的影响,主要包括:3.1 经济因素经济因素是影响超市购物篮市场规模的重要因素之一。
经济的稳定与发展能够提升人们的购买力,促使他们在超市购物时更倾向于使用购物篮。
因此,经济的繁荣与超市购物篮市场规模的增长密切相关。
3.2 消费者需求消费者对于购物体验和便利性的要求也对超市购物篮市场规模产生重要影响。
超市购物篮的设计和功能能够满足消费者在购物过程中的需求,提升其购物体验和便利性,进而推动市场规模的增长。
3.3 超市布局与管理超市购物篮市场规模还受到超市布局和管理的影响。
合理的超市布局能够提高购物篮的使用率,进而促使市场规模扩大。
同时,超市管理的规范和效率也能够增加购物篮的需求量,并推动市场规模的增长。
超级市场零售商品的购物篮分析_王汉生

超级市场零售商品的购物篮分析王汉生1、江明华1、曹丽娜2、金英11北京大学光华管理学院,2中央电视台广告部摘要 本文利用国内某中型城市中,处于垄断地位的一个大型超市的26天的销售流水数据对消费者的购物篮中商品的相关性进行了探索性研究。
具体地说,我们首先介绍了一个基于0-1变量的聚类方法,可以被用来做典型的菜篮子分析;然后,我们用此方法详细分析某中等城市的一个大型连锁超市数据。
对消费者购物篮中商品的相关心进行了探索性的研究。
关键词:消费者行为、购物篮分析、0-1变量、聚类分析0问题提出首先,现代零售商品种类极端丰富,消费者需要处理的信息量急剧增加。
消费者平均要以每秒33件的速度从5万件商品中挑选出17件商品。
Phillips(2005)的研究表明,当消费者面对种类繁多的商品时,并不会应为可选择的丰富多样性而得到满足。
但是,消费者却能够因为超市对其商品选择的引导而感到满意。
超市引导的一个办法就是通过商品的布货,也即,哪些商品可以摆放在一起,而哪些商品又应当分别摆放。
问题是,超市进行布货的依据是什么?其次,我们可以观察到商场和超市经常进行各种促销,其中最常见的促销方式是打折,而且,常常是全场打折。
这样的打折往往不是超市最优的选择。
因为,消费者在购买某些商品的时候,会同时购买另一些商品,而不管它们是否是在打折。
在这种情况下,只要这两种商品之一处于打折状态,往往会刺激消费者购买两种商品。
这样,超市只需要对一种商品打折就可以达到促销两种商品的目的,从而可以大大提高超市的效益。
问题是,超市安排商品打折的依据是什么?因此,基于上述原因,了解消费者究竟如何在多商品类目间进行同时选择(Simultaneous Selection)对于超市如何有效地引导消费者和提高效益意义重大。
所以,本文的目的有二。
第一、介绍一个简单而有效的数量方法,可以被用来做典型的菜篮子分析;第二、用此方法详细分析某中等城市的一个大型连锁超市数据,从而探索大陆消费者的相关行为特征。
大型超市“购物篮”分析

题 目 大型超市“购物篮”分析摘 要本文根据顾客购买记录,通过“购物篮”分析,运用多种模型得出结果,并给出促销方案。
问题一要求构建能表达多种商品关联程度的数学模型。
根据4717个顾客对999中商品的购买记录,先用Matlab 对数据进行预处理,将其转化为0-1模型,然后求出购买j 商品的集合j s 和购买k 商品的集合k s ,考虑到同时购买两种商品占购买人数的频率,即相关性,存在购买人数少但相关性大的缺陷。
在改进的模型中,因为存在购买商品数少但也会使相关性大的情况,所以对两种情况进行综合考虑,得出最优模型:j k i k i k s s s s p n s s ⋂⋂=⨯⋃用Matlab 求解0-1矩阵,求出两商品间关联系数较大的前八位,有相关系数的值在0-1范围之内,与所得模型函数的范围一致,可知,该模型是准确可靠的。
问题二要求出有效方法来找出最频繁被购买的商品记录,且越多越好。
根据问题一所得0-1矩阵,将其代入Excel 运用Aprior 模型,先算出单项商品的频繁项集,将支持度较小的数据剔除后,最后选取被购买次数最多的前18个商品,其中最畅销的为368号商品。
根据这18个畅销品,运用同样方法将其转化为两两商品的组合,得到被同时购买次数200次以上的商品;根据此算法依次迭代,得到同时购买3种商品和同时购买4种商品的数据,更多商品被同时购买次数较少因此不予考虑,最后得出:两件商品被同时购买次数最高的是368和529号;三件商品被同时购买次数最高的是368、489和682;四件商品被同时购买次数最高的是68、937、895和413。
问题三要求给出方案使效益最大。
根据问题一中0-1模型和问题二中Aprior 模型,将得到的购买次数最多的商品信息和题中所给利润表相比较,将利润小数量多的商品作为赠品和利润大数量多的商品一同销售;将共同购买次数多且利润大的两商品组合作为促销品进行销售,以进一步提高超市的综合效益。
大型超市“购物篮”分析

大型超市“购物篮”分析题目大型超市“购物篮”分析摘要本文根据顾客购买记录,通过“购物篮”分析,运用多种模型得出结果,并给出促销方案。
问题一要求构建能表达多种商品关联程度的数学模型。
根据4717个顾客对999中商品的购买记录,先用Matlab 对数据进行预处理,将其转化为0-1模型,然后求出购买j 商品的集合j s 和购买k 商品的集合k s ,考虑到同时购买两种商品占购买人数的频率,即相关性,存在购买人数少但相关性大的缺陷。
在改进的模型中,因为存在购买商品数少但也会使相关性大的情况,所以对两种情况进行综合考虑,得出最优模型:j k i k i ks s s s p n s s ??=?? 用Matlab 求解0-1矩阵,求出两商品间关联系数较大的前八位,有相关系数的值在0-1范围之内,与所得模型函数的范围一致,可知,该模型是准确可靠的。
问题二要求出有效方法来找出最频繁被购买的商品记录,且越多越好。
根据问题一所得0-1矩阵,将其代入Excel 运用Aprior 模型,先算出单项商品的频繁项集,将支持度较小的数据剔除后,最后选取被购买次数最多的前18个商品,其中最畅销的为368号商品。
根据这18个畅销品,运用同样方法将其转化为两两商品的组合,得到被同时购买次数200次以上的商品;根据此算法依次迭代,得到同时购买3种商品和同时购买4种商品的数据,更多商品被同时购买次数较少因此不予考虑,最后得出:两件商品被同时购买次数最高的是368和529号;三件商品被同时购买次数最高的是368、489和682;四件商品被同时购买次数最高的是68、937、895和413。
问题三要求给出方案使效益最大。
根据问题一中0-1模型和问题二中Aprior 模型,将得到的购买次数最多的商品信息和题中所给利润表相比较,将利润小数量多的商品作为赠品和利润大数量多的商品一同销售;将共同购买次数多且利润大的两商品组合作为促销品进行销售,以进一步提高超市的综合效益。
大型超市购物篮分析

题目大型超市“购物篮”问题分析摘要本文对于大超市商品的关联度以及商品最频繁同时购买问题进行分析,构建合理的数学模型,并给出可操作的商品销售方案。
问题一要求统计处理4717个顾客对999中商品的购买记录数据,建立数学模型,定量表达超市中多种商品间的关联关系的密切程度。
首先建立遗传算法,利用SPSS统计得出各个商品购买数量,并计算出标准差。
再对影响关联度的另一度量指标进行分析,将数据分类利用Matlab处理数据,得出商品间的欧氏距离。
最后加上实际影响因素,建品572,商品797,购买次数最高,102次,组合利润最高1485.399,总利润最高151510.698。
因此,将这组商品作为最优组合。
问题三要求根据问题1、问题2中建立的模型,对附件2中999种商品的利润进行分析,给出一种初步的促销方案。
对数据运用Matlab进行拟合,得出商品利润与商品之间的关联度符合线性关系。
对附件2中利润数据分类,分别计算结果。
最后,给出促销方案。
关键词遗传算法欧氏距离关联度贪婪算法一、问题背景和重述1.1问题背景超市购物属于日常生活,而每天来超市购物的顾客和购买的商品都具有不稳定性。
商品的销量会因顾客的喜好或时间的影响不断变化,又因商品购买存在随机性、多元性等特点,必须估测好每种商品的需求量。
如处理不当,很可能造成仓库囤积量增多,甚至造成超市利润损失过大。
商品购买是不确定的,但某种或某些商品会获得大多数人的认可,被顾客频繁购买。
在大型超市中,商品繁多、复杂,正确分析并估算顾客对某种或某些商品的喜好,将为超市经理合理设计进货方案、处理仓库、获得最大利润、搞推销、促销活动和购物赠送活动等提供理论依据。
商品市场分析和顾客购物习惯分析,作为超市一项基础性任务,不仅可以确定超市进货合理模式及合理促销方式,还可以为各大型超市确定今后整体规划、超市规模、商品购买后评估等提供更为科学的理论依据。
1.2问题重述现给出超市进一个星期的所有顾客购买物品的清单和相应商品的价格,分析所给数据,研究以下问题,并建立合理的数学模型:1、附件1 中的表格数据显示了该超市在一个星期内的4717 个顾客对999 种商品的购买记录,表格中每一行代表一个顾客的购买记录,数字代表了其购买商品的超市内部编号。
大型超市购物篮分析数学建模

大型超市购物篮分析数学建模近年来,随着人们消费水平的提高,大型超市的购物篮成为了人们生活中不可或缺的一部分。
购物篮的设计对于提高超市的运营效率和顾客购物体验至关重要。
因此,对购物篮进行数学建模和分析,能够帮助超市优化购物篮的设计和使用。
首先,我们可以从购物篮的大小和容量入手。
购物篮的大小应当适中,既方便顾客携带,又能容纳其购买的商品。
在数学建模中,我们可以通过统计超市的顾客购买商品的重量和体积数据,确定购物篮的最佳尺寸和容量。
这个问题可以转化为一个多元线性回归问题,通过拟合顾客购买商品的重量和体积与购物篮大小之间的关系来找到最佳的购物篮尺寸和容量。
其次,我们可以从购物篮的构造材料和结构入手。
购物篮应该具备足够的强度和稳定性,以承受顾客购买商品的重量和保证商品不会倒塌或损坏。
在数学建模中,我们可以考虑购物篮的材料强度和结构设计对购物篮的影响。
这个问题可以转化为一个结构力学问题,通过建立购物篮的有限元模型和应力分析,来确定购物篮的最佳构造材料和结构设计。
此外,我们还可以从购物篮的堆叠和存放方式入手。
购物篮的堆叠和存放方式应当便于顾客取放和超市管理。
在数学建模中,我们可以考虑购物篮的堆叠高度和存放方向对超市运营效率的影响。
这个问题可以转化为一个运筹学问题,通过建立购物篮堆叠和存放模型,来确定最佳的堆叠高度和存放方向,以提高超市运营效率。
最后,我们还可以从购物篮的预测和配备入手。
购物篮的预测和配备应当能够满足顾客购物的需求,避免购物篮紧张或闲置过多。
在数学建模中,我们可以利用统计学方法和时间序列分析,通过分析历史购物篮使用数据,来预测未来购物篮的需求。
这个问题可以转化为一个预测问题,通过建立购物篮需求预测模型,来确定最佳的购物篮配备方案。
综上所述,大型超市购物篮的分析数学建模可以从购物篮的大小和容量、构造材料和结构、堆叠和存放方式以及预测和配备等方面入手。
通过建立合适的数学模型,可以帮助超市优化购物篮的设计和使用,提高超市的运营效率和顾客购物体验。
2024年购物篮市场调查报告

2024年购物篮市场调查报告1. 引言购物篮是商场和超市中常见的购物工具,它为消费者提供了方便和舒适的购物体验。
本篇报告旨在通过对购物篮市场的调查和分析,了解购物篮在消费者中的受欢迎程度、不同研发商的市场份额、购物篮设计的趋势以及市场潜力等关键信息。
2. 调查方法在本次市场调查中,我们采用了以下两种主要的调查方法:1.问卷调查: 我们向300位购物者分发了一份关于购物篮的问卷调查,并收集了他们对购物篮的使用体验、偏好和意见。
2.实地观察: 我们选择了10家不同规模和类型的商场和超市,观察了他们的购物篮使用情况、摆放位置以及购物者使用购物篮的频率。
3. 调查结果及分析3.1 购物篮的受欢迎程度在问卷调查中,我们询问了购物者是否常使用购物篮进行购物。
结果显示,77%的受访者表示经常使用购物篮,19%的受访者偶尔使用,仅有4%的受访者表示很少或几乎不使用购物篮。
这说明购物篮在消费者中的受欢迎程度较高。
3.2 不同研发商的市场份额通过实地观察,我们发现多种不同品牌的购物篮风格和设计。
经过进一步的调查,我们了解到以下研发商在购物篮市场上具有重要的市场份额:•ABC购物篮公司:市场份额35%•XYZ购物篮公司:市场份额25%•DEF购物篮公司:市场份额20%•其他:市场份额20%3.3 购物篮设计的趋势根据观察和受访者的反馈,我们总结了一些购物篮设计的趋势:1.环保材料: 越来越多的购物篮采用环保材料制作,例如可回收塑料和天然纤维材料。
2.可折叠设计: 一些购物篮具有可折叠的设计,方便携带和存储。
3.轻便和耐用: 购物篮的重量和耐久性是购物者关注的重点,设计趋向于轻便但能够承载较重物品。
4.创意外观: 一些购物篮设计注重创意和个性化外观,以吸引消费者的眼球。
3.4 市场潜力购物篮市场具有较大的潜力。
根据我们的调查结果,有超过80%的购物者愿意尝试使用新型的购物篮设计。
这表明购物篮市场有机会通过创新设计来吸引更多的消费者。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
超级市场零售商品的购物篮分析王汉生1、江明华1、曹丽娜2、金英11北京大学光华管理学院,2中央电视台广告部摘要 本文利用国内某中型城市中,处于垄断地位的一个大型超市的26天的销售流水数据对消费者的购物篮中商品的相关性进行了探索性研究。
具体地说,我们首先介绍了一个基于0-1变量的聚类方法,可以被用来做典型的菜篮子分析;然后,我们用此方法详细分析某中等城市的一个大型连锁超市数据。
对消费者购物篮中商品的相关心进行了探索性的研究。
关键词:消费者行为、购物篮分析、0-1变量、聚类分析0问题提出首先,现代零售商品种类极端丰富,消费者需要处理的信息量急剧增加。
消费者平均要以每秒33件的速度从5万件商品中挑选出17件商品。
Phillips (2005)的研究表明,当消费者面对种类繁多的商品时,并不会应为可选择的丰富多样性而得到满足。
但是,消费者却能够因为超市对其商品选择的引导而感到满意。
超市引导的一个办法就是通过商品的布货,也即,哪些商品可以摆放在一起,而哪些商品又应当分别摆放。
问题是,超市进行布货的依据是什么?其次,我们可以观察到商场和超市经常进行各种促销,其中最常见的促销方式是打折,而且,常常是全场打折。
这样的打折往往不是超市最优的选择。
因为,消费者在购买某些商品的时候,会同时购买另一些商品,而不管它们是否是在打折。
在这种情况下,只要这两种商品之一处于打折状态,往往会刺激消费者购买两种商品。
这样,超市只需要对一种商品打折就可以达到促销两种商品的目的,从而可以大大提高超市的效益。
问题是,超市安排商品打折的依据是什么?因此,基于上述原因,了解消费者究竟如何在多商品类目间进行同时选择(Simultaneous Selection )对于超市如何有效地引导消费者和提高效益意义重大。
所以,本文的目的有二。
第一、介绍一个简单而有效的数量方法,可以被用来做典型的菜篮子分析;第二、用此方法详细分析某中等城市的一个大型连锁超市数据,从而探索大陆消费者的相关行为特征。
以下章节如下安排。
下一节,详细介绍一个基于0-1变量的聚类方法。
基于此方法的实际数据分析将在第三节中展开。
最后是总结与讨论。
1文献研究在过去的研究中,Fader 和Lodish (1990)研究表明某些消费者特征(如Household Penetration 和购买频率)对零售商品定价和促销环境具有一定的解释能力。
Narasimhan 等人(1996)的进一步研究发现,一类商品的促销弹性部分取决于该类商品的品类结构和相关消费者特征。
Raju (1992)研究了不同类商品销量差异性,并建立了它同品类特征和营销组和变量的关系。
Hoch 等人(1995)则研究了各类商品的商店价格弹性(Store-Level Price Elasticities )和所在商圈消费者人口统计特征的关系。
Manchanda 等人(1999)则进一步同通过多层Bayesian Probit 模型研究了不同类目商品之间对消费者购买行为的相互影响。
以上研究,一方面为人们理解消费者的超市购物行为提供了很多有意义的理论依据以及现实证据。
但是另一方面,他们所研究的消费者群体据来自于欧美发达国家,其对于中国大陆广大消费群体的代表性值得怀疑。
而另一方面,随着中国大陆经济的迅速腾飞,人们生活水平的快速提高,以超市为代表中国大陆零售商品市场正在飞速发展。
面对这样一个迅速崛起的巨大市场,一方面各大国际知名超市企业(如:沃尔马、家乐福)迅速进入中国并快速发展,而另一方面给予消费者行为的微观数据分析却非常缺乏。
在过去有限的研究中,人们往往把注意力集中在了相对宏观的层面上,或者纯粹的数量技术模型上。
而本文的试图通过翔实可靠的超级市场消费者行为数据,对大陆消费者的购物篮予以探索性分析。
购物篮指的是超级市场内供顾客购物时使用的装商品的篮子,当顾客付款时这些购物篮内的商品被营业人员通过收款机一一登记结算,所谓的购物篮分析就是通过这些购物篮子所显示的信息来研究顾客的购买行为。
消费者的购物篮隐含着重要的有价值的信息,等待人们去发掘。
如:我们可以知道消费者的购买习惯、产品偏好、品牌忠诚度等等。
而本文尝试通过合理的数量方法,研究产品的相关性。
也就是说,我们关心的问题是那些产品互相之间具有很强的相关性。
从而我们知道,当一个消费者购买其中一个产品的情况下,极有可能同时购买另外一个产品。
这对于超市合理定价促销有着重要的指导意义。
此类研究在国外已有成功案例,而国内市场营销界的文献资料中则很少见到。
2基于0-1变量的聚类方法简而言之,我们的目的就是要对购物篮中商品的相关性予以分析,并根据其相关性的大小予以聚类。
假设我们关注于p 种不同产品的相关性。
对于第i 个消费者,我们可以用向量()ip i i x x x ,,1 =来描述他的某次购买行为。
其中,1=ij x ,如果在该消费者的购物篮中发现了第j 种商品,否则0=ij x 。
假设,我们有总共n 个消费者,那么我们可以定义向量()nj j j x x v ,,1 =。
该向量刻画了第j 种商品被n 个消费者购买的情况。
如果,j v 由大量的1构成,那么我们就知道该商品被消费者购买的频率很高。
另一方面,如果j v 由大量的0构成,那么我们就知道该商品被购买的频率很低。
另外,如果有两个共同的商品j 和k ,我们还可以通过比较向量j v 和k v 的相似性来获得对他们相关性的度量。
具体地说,如果我们发现j v 和k v 的各个分量非常相似,这说明商品j 和k 很容易被同时购买,或者被同时不购买。
因此,我们可以粗糙地认为这两种产品的相关性很强。
因此,我们第一种度量商品相关性数量指标定义如下:{}∑===ni ik ij jk x x I n r 11,其中示性函数{}1==ik ij x x I ,如果确实有ik ij x x =;否则{}0==ik ij x x I 。
简单地说jk r 就是对商品j 和k 有相同购买行为(同时购买,或者同时不买)的消费者在总共n 个消费者中所占的比例。
因此,如果jk r 值很大,这说明商品j 和k 的相关性很强,因此应该被聚为一类,否则说明相关性很弱。
但是,遗憾的是这个度量在实际数据应用中并不理想。
主要原因在于对于超市数据,对于任意两个产品我们都能否发现他们有很大的jk r 值。
这并不说明人以两个产品的相关性都很强,而是由于产品种类繁多,大多数消费者都会同是不购买这两种产品,因此造成{}∑===ni ik ij x x I n 101 的值很大。
因此,我们转而考虑如下相关性度量:{}{}∑∑==>+==ni ik ijni ik ijjk x xI x xI s 110。
请注意,由于ij x 和ik x 为取值只可能为0或者1的0-1变量,因此条件0>+ik ij x x 隐含着ij x 和ik x 中至少有一个取值为1。
也就是说,商品j 和k 中至少有一种被第i 个消费者购买。
因此,{}∑=>+ni ik ijx xI 10计算了n 个消费者中,有多少人至少购买了商品j 和k 中的一种。
那么,指标jk s 就度量了在购买了商品j 和k 中至少一种的消费者中,有多少消费者同时购买了两种产品。
由此可见,如果jk s 很大,这说明消费者一旦决定购买商品j 和k 中任何一种,那么另外一种就也有很大可能性被同时购买;进而我们知道,这两种商品的相关性很大,应该被聚为一类,否则相关性很小。
一旦有了相似性的度量,我们就可以通过变换1jk jk d s =-来获得关于差异性的距离度量。
值得注意的是,以上的距离定义仅仅适用于两种具体的商品。
在分层聚类(Hierarchical Clustering )的过程中,距离最近的,相似性最强的商品被首先聚为个各“小类”。
然后,我们需要在此基础上,再将相似的“小类”聚为“大类”。
因此,我们需要定义“类”与“类”之间的距离。
假设我们有两个“小类”,记为:{}p i i i A ,,21=与{}q j j j B ,,,21 =。
即:第一个“小类”中总共包含了p 个不同的产品,而第二个“小类”中包含了另外q 种产品。
研究中常用的定义“小类”A 和B 之间距离的方法有以下三种:单连接法(Single Linkage ):{}q b p a d d b a j j AB ≤≤≤≤=1,1:min完全连接法(Single Linkage ):{}q b p a d d b a j j AB ≤≤≤≤=1,1:max平均连接法(Single Linkage ):∑∑===p a qb j j ABb a d pq d 111。
简单地说,单连接法要求比较弱。
只要两个“小类”中有两个产品相似,那么单连接法就会认为这两个“小类”非常相似。
而完全连接法则不然。
根据定义,完全连接法要求两个“小类”中的所有产品都相似,这两个小类才可以被称为相似。
而平均连接法则居于单连接和完全连接中间。
对于各种连接方法的详细讨论,可以参阅Johnson 和Wicherm (2003)。
对于我们的超市数据,以上三种连接方法都有所尝试,最后发现完全连接方法最为适合。
3实际数据分析本文中所采用的数据来自于我国北方某中型城市,处于垄断地位的某大型连锁超市26天的销售流水数据,共65,535条记录,主要包括交易代码,交易时间,商品代码,商品名称,销售数量,销售金额等等。
交易定义为顾客的每次购买行为,也即是一个购物篮,一次交易涉及一个或多个商品,一条销售记录指一次交易中某种商品的销售数量和金额。
其中有效销售记录为65,348条,其余187条销售记录所对应的商品并未包含在商品基本信息数据库中。
而这65,348条有效销售记录来自于10,216笔交易,即包含了10,216个购物篮的商品信息。
这些购物篮中共包括了总共4,833种商品,其平均购买金额为40.48元。
在发生销售的4,833种商品中,有2,989种商品的购买频率不超过5次。
一般来讲,顾客购买频率较高的商品对于超市也具有更加显著的经济意义,这些商品的价格及销售量的变动将显著影响到超市的效益。
而顾客购买频率最高的前50种商品(占所有发生销售商品种类的1.03%)的销售金额约为9万元,占总销售额的21.75%,具有很好的代表性,而且对超市意义重大。
因此,在本文的分析中,我们将选择顾客购买频率最高的前50种商品进行分析。
为直观起见,我们将处于销售频率前十位的商品描述如表1所示。
更加详细地描述性分析可以在表2中找到。
表1:销售金额最高的十类商品排序 商品类别 销售金额(元)占总销售额的百分比1 鲜猪肉 22121.9 5.35%2 色拉油 14849.3 3.59% 3 散蛋类 10769.2 2.60%4 盒装白酒 9820.6 2.37%5 果汁 9179.4 2.22%6 洗发类 9152.2 2.21%7 散粮 8769.1 2.12%8 纯牛奶 8734.1 2.11%9 蔬菜类 8233.5 1.99% 10 白面 8153.3 1.97% 合计109782.626.55%利用整理好的数据,采用0-1变量距离进行聚类分析,分别采用单连接法、完全连接法和平均连接法,经过比较发现完全连接法的结果最为显著,所得到的聚类结果的树状结构图(参加图1)。