基于数据挖掘的大众点评网美食类商家评分 (统计建模论文大赛二等奖)

合集下载

大众点评评分算法

大众点评评分算法

大众点评评分算法1. 简介大众点评是中国最大的本地生活服务平台,用户可以在平台上搜索、浏览和评论各类商家和服务。

为了提供更好的用户体验,大众点评采用了一套评分算法来对商家进行评级。

本文将详细介绍大众点评的评分算法。

2. 评分计算方法大众点评的评分计算方法主要包括两个方面:综合得分计算和排序策略。

2.1 综合得分计算综合得分是根据用户对商家的评论和打分来计算的,主要考虑以下几个因素:2.1.1 用户打分用户可以给商家打出5星、4星、3星、2星或1星的评价,其中5星为最高,1星为最低。

每个星级对应一个权重值,一般情况下,5星权重最高,而1星权重最低。

2.1.2 用户评论用户可以对商家进行文字评论,并且可以选择是否推荐该商家。

推荐与否也会影响综合得分的计算。

如果用户推荐该商家,则会有额外加分;反之则不会。

2.1.3 用户等级大众点评根据用户的活跃程度和贡献度,给予用户不同的等级。

高等级用户的评论和打分会有更大的权重。

通过以上因素的综合考虑,大众点评可以计算出商家的综合得分。

2.2 排序策略大众点评还采用了一套排序策略来对商家进行排名。

排序策略主要考虑以下几个因素:2.2.1 综合得分商家的综合得分是排序的主要依据,得分越高,排名越靠前。

2.2.2 评论数量商家的评论数量也是影响排序的重要因素之一。

评论数量越多,说明该商家受关注程度高,排名也会相应提升。

2.2.3 最近活跃度最近活跃度指商家在最近一段时间内是否有新的评论和打分。

如果商家最近有新的活动,则说明该商家仍然在运营,并且能够吸引用户关注。

最近活跃度较高的商家排名也会相应提升。

通过以上排序策略,大众点评可以将商家按照综合得分进行排序,并将排名结果展示给用户。

3. 算法调优为了提供更准确的评分和排序结果,大众点评还对评分算法进行了不断的调优。

调优的主要目标是提高算法的准确性和用户满意度。

3.1 用户反馈大众点评鼓励用户对商家进行反馈,包括评分、评论以及其他相关信息。

大数据分析在大众点评的运用

大数据分析在大众点评的运用

Vol 42/No 02/Westleather-59㊀-大数据分析在大众点评的运用杜贺作者简介:杜贺(1996.07-)ꎬ女ꎬ汉族ꎬ河南南阳人ꎬ研究生ꎬ云南师范大学泛亚商学院ꎬ研究方向:会计学ꎮ(云南师范大学泛亚商学院ꎬ云南昆明650000)摘㊀要:大众点评目前是国内数一数二的第三方消费点评网站ꎬ大众点评目前收集各地相关美食㊁餐饮㊁旅游等相关信息ꎬ大众点评目前在做的服务主要有两项:一类是通过收取费用的推广项目ꎻ另一类ꎬ则是不收费项目ꎬ即通过收集㊁整理其他消费者在销售过程中的体验给出其他消费者参考体验反馈ꎬ体验反馈分为1-5级ꎬ消费者通过这些点评星级数来为自己的消费提供决策依据ꎮ关键词:大数据ꎻ大众点评中图分类号:G2㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-1602(2020)02-0059-01㊀㊀1㊀大数据在大众点评的运用在当今消费升级背景情况下ꎬ大众点评持续不断的输出数据能力创造出一种新型商家和消费者间的关系ꎮ首先是各个商家的加入ꎬ商家将个人信息传至属于自己的页面ꎬ消费者在消费之前将同类商品根据页面商家信息进行筛选ꎬ从中选出自己满意的一家商店并进行消费ꎬ消费结束消费者会根据页面提示信息(味道㊁服务㊁环境㊁价格等)进行点评ꎬ无形之中商家起到了在平台中宣传的影响ꎬ随之而来的就是越来越多的用户点评和商家注入ꎬ数据就开始产生ꎬ十年之间ꎬ大众点评收集整理的评价信息和商户信息都是巨大的ꎬ领先于行业其他经营者ꎬ这些强大的数据背后是一个强大的数据体系支撑ꎬ而这些数据都是由UGC这样一个数据体系产生ꎮ在这些数据的基础上ꎬ大众点评针对这些数据进行进一步分析ꎬ从而得出这些用户经常浏览并交易的美食商家以及他们倾向消费的地理信息位置ꎬ解锁出其更深的信息ꎬ从而归纳出适合每个城市的消费习惯ꎬ例如鲜花蛋糕的销售量ꎬ北京稳居第一ꎬ甜品饮料方面ꎬ上海需求量最大ꎬ广州在超市商品中销量最大ꎬ大众点评利用这些数据为公司全方位的提升提供了较为明确的目标ꎬ公司利用这些反馈的数据信息及时改变自己经营战略ꎬ并进一步改善自己的产品㊁服务ꎮ2㊀利用大数据需进一步解决的问题2.1㊀为用户提供更加智能的产品收集的用户数据更加丰富ꎬ可以结合用户历史搜索㊁交易等信息ꎬ进行归类分析ꎮ客户在选择浏览的商品类别时ꎬ是否可以包含类似问卷调查的选项ꎮ比如说ꎬ喜欢吃火锅的人ꎬ具体到他喜欢哪种口味的火锅ꎬ川系火锅㊁粤系火锅和北派火锅?喜欢串串火锅还是九宫格火锅?喜欢麻一些的还是辣度多一点的?例如在川系火锅中ꎬ客户更倾向四川火锅㊁鱼头火锅?喜欢环境好点的还是民巷火锅?再比如说大家都喜欢吃的牛排ꎬ根据特定消费者个人需求ꎬ更偏向几分熟的肉质感?更喜欢在露天环境下还是室内吃牛排?经过相关大数据丰富之后ꎬ大众点评平台可以根据用户提前填写的具体要求在更短时间给出用户建议ꎬ哪家火锅适合他们的各项要求ꎬ这些信息对用户来说显得更加智能和贴心ꎬ更会让用户在每次选择时产生依赖ꎮ2.2㊀为用户提供更加全面的优惠信息据统计ꎬ一方面ꎬ经常用大众点评这样软件的人群还是以收入中间人群为主ꎬ学生居多ꎬ光是80后和9后的人群ꎬ都已经占据全国将近30%的人口ꎬ那么这个群体的消费能力据统计ꎬ其餐饮消费能力已经占据他们收入的74%ꎬ也就是说他们收入的三分之二都用在了餐饮上ꎬ这样一个数据足以说明ꎬ他们消费频次高㊁数量大ꎬ已成为我国消费的主要力量ꎮ这样一个客户层可以将优惠信息更加放大化ꎬ是否可以将优惠信息单列成一个软件ꎬ将榜单和攻略做成移动端信息类appꎬ使得消费者利用起来更加便捷ꎬ高校学生是一个很大的消费市场ꎬ可以针对高校学生平时消费习惯制定出适合高校群体消费理念的商家榜单ꎬ有针对性的对一些地区商家发放优惠券ꎻ除此之外ꎬ充分利用点评中霸王餐这一功能特性ꎬ激发高校学生点评热情ꎬ做出更让其他用户瞩目心动的消费点评ꎮ另一方面ꎬ国内目前存在这样一种情况ꎬ每逢节日ꎬ情人节㊁七夕还是520ꎬ国内消费额度就会直线上升ꎬ所有商家都尽力在这些节日扩大影响力ꎬ提升营业数据ꎮ将近几年已经成交的生活消费进行纵向对比ꎬ整理出这些节日前用户经常浏览的界面商品㊁用户较多关注的优惠信息商品类别㊁用户浏览商品成交成功量等数据ꎬ将这些数据再进行综合分析ꎬ制定出针对这些特殊节日相关优惠讯息ꎬ这些优惠信息重点将要投放的消费群体年龄段㊁收入类别㊁相关行业等ꎮ通过大数据平台ꎬ我们进行纵向横向对比得出ꎬ用户在选择下单订花的时间点都集中在节日当天ꎬ只有少部分用户会在节日前一天到晚两天提前下单ꎬ只有一成左右的用户会到鲜花店直接订花ꎮ2.3㊀介入交流平台ꎬ更加清晰用户需求在大数据发展的过程中ꎬ基础设施的不完善给这些第三方平台的发展制造的很多障碍ꎮ将数据向第三方开放ꎬ第三方在对数据进一步收集后进行第二次开发ꎬ使数据更加开放ꎬ大部分大众点评的用户都是用手机下载客户端来进行使用ꎬ这就要确保移动数据移动的准确性ꎬ考虑到用户都是在自己当时所处地理位置查询相关美食㊁酒店等服务ꎬ一般都是在周边千米之内ꎬ对数据变动要求较高ꎬPC查询就要保证准确ꎬ进而再利用相关平台交流中介进行个人消费服务咨询ꎮ里面涵盖了商户的基本信息ꎬ用户可以利用手机了解商户的经营地点㊁经营时间㊁特色菜品等ꎮ用户光是看照片看视频很难辨别出商品是否符合自己要求ꎬ如果第三方平台收集到的信息有误ꎬ很容易降低消费者再次使用此软件的频度ꎬ这一一个软件平台设置不仅可以收集更加全面的用户需求ꎬ还能提高用户选择筛选的速度ꎬ提高商品体验满意度ꎮ2.4㊀为用户提供一对一定制服务个性化服务是区别于其他商品最重要的特征ꎬ任何一个产品要添加个性化的元素ꎬ这要具备以下两个基础ꎬ首先是技术上的要求ꎮ在技术上ꎬ大众点评需要建立属于自己平台的SNS产品ꎬ用户有个性化需求时不管是电话还是介入客服ꎬ官方都需要制定出合适便捷能解决问题的途径ꎮ除此还需要有更加充足数据的支撑ꎬ大众点评需要将已收集的相关数据进行更加细致的分类ꎬ适当时需要展开较大范围的数据调查ꎬ针对不同地区消费历史信息㊁收入人群的大概消费习惯㊁消费偏好进一步分类ꎬ把握预支消费者可能面临的选择ꎬ针对这些选择提供相应的服务商品ꎮ目前用户消费需求主要体现在其休闲化㊁体验感㊁炫耀感ꎬ针对消费者需求制定出有重点的 必系列 ꎮ。

基于大众点评数据的城市餐饮消费行为可视分析

基于大众点评数据的城市餐饮消费行为可视分析

基于大众点评数据的城市餐饮消费行为可视分析随着互联网和信息技术的发展,网络团购等消费模式迅速崛起并产生了海量多维度、异构数据,该类数据从不同侧面反映着城市餐饮消费行为特征。

本文从三个方面论述了基于网络团购数据的城市餐饮消费行为可视分析工作:基于大众点评数据的城市餐饮消费数据挖掘;基于多视图多粒度的城市餐饮消费行为可视分析方案设计;基于Django框架的城市餐饮消费行为可视分析系统设计与实现。

(1)基于大众点评数据的城市餐饮消费数据挖掘,根据数据的基础属性和高层语义特征从面向群体和个体两个方面构建了城市餐饮消费行为特征模型;在基于情感分析的消费满意度挖掘中,首先利用有监督的机器学习算法对评论文本的情感进行分类,接着利用基于频率的消费满意度计算方法提取消费满意度;在基于社团划分的相似消费群体挖掘中,提出了一种基于网络团购数据的消费者关系网络构建方法,实验证明该方法能有效识别具有相似消费特征的消费者群体。

(2)城市餐饮消费行为可视分析方案设计中,针对影响情感的因素较多,采用空间拓展和颜色映射等方式设计了情感分析气泡图;针对个体消费数据在空间上的稀疏性,设计了一种基于地点信息增强的可视分析视图;根据分析任务的多样性设计了基于多视图协同交互的可视化布局方案;针对餐饮消费行为数据维度信息复杂、规模庞大等特征,设计了基于时空维度的多粒度数据过滤方法。

(3)基于Django框架的城市餐饮消费行为可视分析系统,针对分析对象的多样性开发了面向群体和个体的城市餐饮消费行为可视分析子系统,并以大众点评11个月30572条数据为例,挖掘群体餐饮消费行为的地域消费特征、消费满意度特征、消费主题和关键词以及地域销量的时空关联等特征,挖掘个体餐饮消费行为的口味和位置偏好、时序特征以及相似消费群体,验证了本系统的有效性。

大众点评网数据分析

大众点评网数据分析

广西大学数学与信息科学学院商务智能课程论文题目:商务智能在大众点评中的应用小组成员:1111200139 蓝承妙1111200202 刘金香摘要:大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站,它不仅为网友提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购及餐厅预订等O2O(Online To Offline)交易服务。

本文通过分类回归树和关联规则挖掘出大众点评数据中关于全国各地美食商家的可用信息。

关键字:大众点评分类回归树关联规则SPSS一、背景随着互联网的出现与飞速发展,人们的生活方式一直在发生着巨大的变化。

特别是交通、购物、饮食、住宿、教育等各方面均受到来自互联网的极大的影响。

大众点评便是一个影响人们日常生活,方便人们娱乐、饮食的点评网站。

大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站。

大众点评不仅为网友提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购、电子会员卡及餐厅预订等O2O(Online To Offline)交易服务。

大众点评是国内最早开发本地生活移动应用的企业,已经成长为一家移动互联网公司,大众点评移动客户端已成为本地生活必备工具。

本文使用的数据为大众点评网在2014年4月份更新后的商家数据,其中包含全国各地区1000家美食店相关数据,包括商户ID(shop_id)、商户名称(name)、所处省份(province)、城市(city)、区(area)、具体地址(address)、联系电话(phone)、营业时间(hours)、平均物价(avg_price)、会员卡服务、大众对其产品的各类评价等级、环境、服务等级等数据项。

为了有效的使用该数据,本文运用分类回归树、关联规则两种数据挖掘方法对该数据进行分析。

二、分类回归树(C&RT)2.1 C&R tree分类回归树(C&R tree,全称为the classification and regression tree)是一种基于树的分类和预测方法,模型使用简单,易于理解(规则解释起来更简明易),该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。

美食在线点评系统中的文本数据挖掘与分析方法论

美食在线点评系统中的文本数据挖掘与分析方法论

美食在线点评系统中的文本数据挖掘与分析方法论随着互联网的发展,美食在线点评系统如今已经成为了人们选择就餐地点的重要参考。

然而,随着大量用户评论和评分的涌入,如何通过对这些评论进行文本数据挖掘与分析,提供准确的评价和推荐,成为了美食在线点评系统的重要挑战。

本文将分享一些在美食在线点评系统中,进行文本数据挖掘与分析的方法论。

首先,对于文本数据的挖掘,我们可以使用自然语言处理技术。

该技术可以帮助我们对文本数据进行分词、词性标注、命名实体识别等处理,以提取出有用的信息。

分词可以将一段连续的文本分割成一个个离散的词语,为后续的文本分析提供基础。

词性标注可以进一步了解每个词语在句子中的作用,从而更准确地理解评论的含义。

命名实体识别可以识别评论中的人名、地名、餐厅名称等实体信息,为推荐系统提供更具体、针对性的推荐。

其次,情感分析是美食在线点评系统中的一个重要任务。

情感分析旨在确定用户在评论中表达的情感倾向,如正面、负面或中性。

为了实现情感分析,可以使用机器学习算法,如支持向量机(Support Vector Machines)和朴素贝叶斯分类器(Naive Bayes Classifier)。

这些算法可以通过训练一个情感模型,将评论分类为正面、负面或中性。

这样,我们可以通过统计这些评论的情感倾向,为用户提供准确的评价和推荐。

此外,主题建模也是美食在线点评系统中的一项重要技术。

主题建模旨在确定评论中的主要话题或主题,并帮助用户了解餐厅的特点。

其中,潜在狄利克雷分配(Latent Dirichlet Allocation,简称LDA)是一种常用的主题建模技术。

LDA可以将评论中的词语分配到不同的主题中,从而揭示出隐藏在评论后面的话题。

通过对主题进行分析,我们可以了解用户对餐厅的关注点,对餐厅进行细分和比较。

除了以上提到的技术,还可以使用关联规则挖掘方法来挖掘用户的偏好和行为模式。

关联规则挖掘可以发现评论中的一些频繁的词语组合,如“美味”的同时也伴随着“服务好”或“价格公道”。

基于网络评论的美食推荐系统

基于网络评论的美食推荐系统

39导语近年来,随着人民生活质量逐渐提高,人们对于美食也越加讲究,不仅食物要满足顾客的味蕾,服务与价格也要符合顾客的期望。

[1]虽然现今网络已非常普及,人人都可以在网络上分享自己的用餐经验,然而面对众多来源的评语,要能快速且正确地认识一家餐厅仍是一件困难的事。

基于美食推荐的实时需要,文章提出一套基于网络评论的美食推荐系统“食况转播系统”,以提供各家餐厅之介绍与评论摘要。

让人们可以快速决定最佳的用餐地点,甚至在陌生的环境,也能避免“踩雷”的情况发生。

1.系统设计本研究所设计的“食况转播系统”所提供功能包括:网页内容撷取机器人、多文本自动摘要技术(MultipleDocument Summarization,MDS)[2]、云计算技术等设计。

通过网页内容撷取机器人用百度等搜索引擎对网页相关信息进行搜寻,于各个网页中找寻相关美食评论信息,撷取机器人子系统将其爬行(Crawl)数据和经过剖析(Parse)后,将相关的信息存为Blog Corpus。

最后,再利用多文本自动摘要技术,将相关网页Corpus 中的美食评论撷取出来,并制成摘要形式,提供给用户饮食决策参考,用户可以通过本系统所设计的人机接口进行查询,整体系统处理之流程如图1所示。

1.1 网页内容撷取机器人网页内容撷取机器人主要提供有模糊搜寻机制、网页爬虫(HTML Crawler),以及网页剖析器(HTML Parser)等功能,各功能说明分述如下。

1.1.1 模糊搜寻机制模糊搜寻机制提供模糊运算与判断,建立搜寻相关的关键词字库,以关键词字库内容主动向百度搜寻进行搜寻。

1.1.2 网页爬虫网页爬虫将百度搜寻后结果(如回传的各个网页内容)进行爬行,追踪相关连结网页并将HTML 内容暂存。

1.1.3 网页剖析器网页剖析器将网页爬虫取得的网页进行HTML tag 解读,取得主要信息,并有效去除相关特殊字符(如单引号和双引号)和避免数据库隐码攻击等问题,建立Web Corpus 以利后续之多文本自动摘要之推论。

大众点评POI与评论推荐-毕业论文

大众点评POI与评论推荐-毕业论文

---文档均为word文档,下载后可直接编辑使用亦可打印---摘要随着互联网和移动通信迅猛发展,电子商务强势崛起,越来越多的人倾向于网上消费。

如何从海量的互联网数据中筛选出用户感兴趣的信息成为了全球互联网用户潜在的问题,推荐系统(Recommendation System)技术通过搜索大量动态生成的信息来为用户提供个性化的内容和服务来解决这个问题。

推荐系统作为一种信息过滤方式,试图预测用户的偏好兴趣和对物品的评价。

近年来,频繁活跃的互联网用户在消费信息的同时也产出了海量的原创内容。

本文的主要研究工作是深度挖掘用户原创的评论内容,分析出用户和物品的特征,进而进行评分预测。

评论(Comment)指人对于事物做出的客观叙述,反映了人的主观感受。

基于用户的文本评论数据,本文的主要研究工作如下:首先,从互联网上采集包含有用户、物品和用户文本评论的数据。

该数据集来源于大众点评网。

然后对评论文本进行分词,用词向量对其进行数学表达,形成主题词的分布表。

最后,基于用户文本用评论主题词进行评分预测,通过线性回归模型和改进的协同过滤算法预测评分,最终的实验结果表明,预测的评分客观准确,同时组合的预测算法效果更优。

关键词:推荐系统;用户评论;线性回归;评分预测AbstractWith the rapid development of the Internet and mobile communications, and the strong rise of e-commerce, more and more people tend to spend online.How to filter the information that users are interested in from the massive Internet data has become a potential problem for global Internet users. Recommendation systems solve this problem by searching through large volume of dynamically generated information to provide users with personalized content and services.The recommendation system serves as an information filtering method that attempts to predict the user's preference for interest and the evaluation of the item.In recent years, frequent and active Internet users have also produced massive amounts of original content while consuming information.The main research work of this paper is to deeply mine user-originated commentary content, analyze the characteristics of users and items, and then make score predictions.Comment reflects people’s subjective feelings. Based on the user's text review data, the main research work of this paper is as follows:First, data containing user, item, and user text reviews is collected from the Internet. This dataset comes from the Dianping’s website. Then, the comment text is segmented and mathematically expressed by the word vector.Then the text of the comment is segmented and expressed mathematically by the word vector to form the distribution table of the topic word.Finally, based on the user's comment, the scores are predicted by the subject headings, and the linear regression model and the improved collaborative filtering algorithm are used to predict the scores. The final experimental results show that the predicted scores are objective and accurate, and the combined rating prediction algorithm is more effective.Keywords: Recommendation System; Users’ Comment; Linear Regression; Rating Forecast前言进入互联网时代后,技术发展日新月异,人类获取信息的数量也急剧增长,从匮乏到当前的过载,信息的获取信息的方式也逐渐多样化。

大众点评爬虫采集数据方法

大众点评爬虫采集数据方法

本文介绍采集使用八爪鱼7.0采集大众点评咖啡厅商家详情页数据的方法采集网站:示例规则下载:使用功能点:● 网页列表内容提取● 详情页数据采集相关采集教程:八爪鱼采集原理百度搜索结果采集 1688热门商品采集步骤1:创建采集任务1)进入主界面,选择“自定义模式”大众点评商家(咖啡厅)的采集方法图12)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”大众点评商家(咖啡厅)的采集方法图23)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的数据就是我们需要采集的信息大众点评商家(咖啡厅)的采集方法图3步骤2:创建翻页循环找到翻页按钮,设置翻页循环1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择“循环点击下一页”大众点评商家(咖啡厅)的采集方法图4步骤3:采集详情页数据●选中需要点击的商家名称,创建循环点击列表●进入详情页创建采集列表1)如图,移动鼠标选中列表中商家的名称,右键点击,需采集的内容会变成绿色,然后点击“选中全部”大众点评商家(咖啡厅)的采集方法图5注意:点击右上角的“流程”按钮,即可展现出可视化流程图。

2)然后点击“循环点击每个元素”大众点评商家(咖啡厅)的采集方法图63)网页会跳转到详情页中,移动鼠标选中详情页商家的名称,选择“采集该元素的文本”大众点评商家(咖啡厅)的采集方法图74)鼠标右键点击每个需要采集的文本字段,点击“采集以下数据”大众点评商家(咖啡厅)的采集方法图85)修改采集字段名称,点击下方红色方框中的“保存并开始采集”大众点评商家(咖啡厅)的采集方法图96)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”步骤4:数据采集及导出1)采集完成后,选择合适的导出方式,将采集好的数据导出大众点评商家(咖啡厅)的采集方法图11八爪鱼·云采集服务平台。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于数据挖掘方法下的大众点评网美食类商家评分研究上海立信会计学院曾晨、张瑾、张瑞目录一、引言 (2)二、研究方法综述 (3)(一)数据来源 (3)(二)变量选择 (3)(三)理论简介 (3)三、数据分析 (8)(一)各省份受欢迎的美食即当地饮食习惯的关联分析 (8)(二)探究商家是否连锁与其星级的关系 (13)(三)聚类分析 (15)(四)利用决策树建立消费者选择模型 (18)四、结论和建议 (22)参考文献 (23)附录 (24)图目录图1决策树树形结构 (7)图2各个省、直辖市餐饮类商家数目 (9)图3不同美食种类的商家数目 (9)图4第1到22项关联规则 (10)图5第23到44项关联规则 (11)图6辽宁省与其饮食习惯的关联规则 (11)图7上海市与其饮食习惯的关联规则 (12)图8广东省与其饮食习惯的关联规则 (12)图9四川省与其饮食习惯的关联规则 (13)图10连锁店与非连锁店比例 (13)图11非连锁店商家的星级频数分布图 (14)图12连锁店商家的星级频数分布图 (15)图13餐饮类商家星级系谱图 (16)图14餐饮类商家聚类数目 (16)图15第一类餐饮商家星级 (17)图16第二类餐饮商家星级 (17)图17第三类餐饮商家星级 (17)图18第四类餐饮商家星级 (18)图19好评与非好评的商家数量条形图 (19)图20决策树模型的基本信息 (20)图21各节点的重要性 (21)图22决策树 (21)图23决策树模型预测效果 (22)表目录表1连锁与非连锁商家的总体情况 (13)摘要随着互联网的飞速发展与智能手机的普及,人们的生活方式发生了巨大的变化。

手机APP作为互联网发展的重要产物,为人们的日常生活,例如交通、购物、饮食、住宿、教育等提供了极大的便利。

大众点评作为人们日常使用率最高、商家覆盖面最广的手机软体之一,极大地影响了人们的日常生活,不仅方便了人们的休闲娱乐,还满足了人们对衣食住行的多样性需求。

“民以食为天”,消费者在选择餐厅时往往会通过点评网站去浏览相关餐厅的用户评价、商家评分以及是否具有优惠,并以此作为参考来做出选择。

因此,研究影响消费者选择商家的因素,不仅对消费者本身做出决策有意义,对创业者选择投资方向和商家改善自身管理同样提供了参考依据和有效信息。

本文根据数据堂()提供的大众点评2014年4月更新后的1000家美食类商家数据,筛选出15个变量进行关联分析、聚类分析、决策树等数据挖掘方法探索地域与饮食偏好的关联度,为对消费者和创业者都提供了良好的经营决策方向;通过对所有商家进行系统聚类来探索每类商家与商家星级的关系,让消费者在选择餐厅时注意星级标准,以满足自身的用餐需求;最后利用决策树建立消费者选择模型,让消费者浏览餐厅信息时理性做出就餐选择,同时根据消费者市场的需求,餐厅经营者可以做出相应的营销策略的调整,改善餐厅服务质量,迎合消费者心理,在纷繁复杂的餐饮业增强竞争力,赢得自己的市场份额。

在模型的建立和数据分析过程中,本文采用R.3.2.1和Microsoft Excel 2010软件。

关键字:大众点评关联分析聚类分析决策树饮食习惯消费者选择模型一、引言互联网改善了人们的沟通方式,学习方式,也改变了商务的方式。

随着互联网的普及,网络技术和电商平台也日趋完善。

如今,消费者不止满足于电商带来的便捷,更对电商平台的口碑评价越来越关注,也使得电商平台口碑评价成为打造电商品牌的重要途径。

大数据时代下,客户洞察、营销规划、物流管理、流程规划、风险控制等,都将受益于大数据相关技术。

相比于线下零售,电子商务网站具备非常丰富的客户历史数据。

通过这些数据的分析,能够进一步了解客户的购物习惯、兴趣爱好和购买意愿,并可以对客户群体进行细分,从而正对不同的用户对服务经行调整和优化,进行有针对性的广告营销和推送,实现个性化服务。

智能手机和手机APP同样也是电商中不可缺少的重要组成部分,随着智能手机的普及与APP的蓬勃发展,人们将生活重心转移到手机软体中,手机APP有很多,涵盖了一切人们所需,包括购物、旅行、健身等等,此次我们选择大众点评这一手机软体的数据来进行分析有两个原因。

首先,大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站,它不仅为网友提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购及餐厅预订等O2O(Online To Offline)交易服务。

其次,大众点评属于较早的软件,使用人群广,受众人群普遍,没有特别明显的年龄差距,并且大众点评涵盖了日常的衣食住行等,数据齐全,可以反映较为精准的有效信息。

由于大众点评涵盖门类过多,本文我们具体选择“食”这一大类进行数据挖掘。

根据1000家餐饮类商家的数据,我们挑选出消费者浏览餐饮类商家信息时最关注的指标,然后对这些指标进行分析,分别研究了美食种类与地域分布的关系即当地饮食习惯的研究、餐饮类商家连锁与否是否与其评分星级有对应关系以及建立消费者选择模型为创业者确立投资目标、消费者理性选择餐厅和餐厅经营者营销策略的调整提供理论依据。

二、研究方法综述(一)数据来源本文采用的数据来自数据堂(/data/46472)的大众点评网2014年4月份数据(样例),数据集共有2014年4月大众点评1000家美食类商家的样本,共1001行45列,主要包括商家店名、地理位置、主营食物、联系方式、商家评分等信息。

(二)变量选择样本包含45个变量,本文主要选取了消费者关心的信息指标以及直接影响消费者决策判断的变量,分别是:商家店名(name)、商家所在省份(province)、商家经营的美食种类(small_cate)、商家星级(stars)、人均价格(avg_price)、菜品质量评分(product_rating)、环境评分(environment_rating)、服务评分(service_rating)、所有评价(all_remarks)、非常好评(very_good_remarks)、好评(good_remarks)、一般评价(common_remarks)、差评(bad_remarks)、极差评(very_bad_remarks)、是否连锁(is_chains)15个变量,剔除掉与分析过程无关的30个变量。

(三)理论简介数据挖掘(Data mining),又译为资料探勘、数据采矿。

就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

广义的数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。

数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。

知识发现过程由以下步骤组成:(1)数据清理(2)数据集成(3)数据选择(4)数据变换(5)数据挖掘6)模式评估(7)知识表示。

数据挖掘的4个发展阶段:第一阶段:电子邮件阶段。

这个阶段可以认为是从70年代开始。

第二阶段:信息发布阶段。

从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。

第三阶段:EC(Electronic Commerce),即电子商务阶段。

第四阶段:全程电子商务阶段。

随着SaaS(Software as a service)软件服务模式的出现,软件纷纷登陆互联网,延长了电子商务链条,形成了当下最新的“全程电子商务”概念模式。

数据挖掘的本质就是数学建模,其涵义与统计分析建模方法一致。

因而数据挖掘也称为现代统计。

传统的统计分析建模方法的基础是经典数理统计方法。

已有结论多基于“大样本,少变量,多输入,单输出”的条件。

对当前海量数据中出现的“大样本,多变量”,“少样本,多变量”,“多输入,多输出”以及“离散型输出”等类型能较好地解决。

数据挖掘常用的技术有关联分析、聚类分析、决策树、人工神经网络、遗传算法、随机森林等,各种方法都有自身的功能特点以及应用领域。

本文我们使用关联分析来探究美食分类与各省份之间的关联或相互关系,聚类分析则是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式,本文利用product_rating(菜品质量评分)、environment_rating(环境评分)、service_rating(服务评分)三个变量对商家进行聚类,探索每类商家与商家星级的关系,最后我们对商家好评率建立决策树,为消费者进行选择时提供参考依据。

1.关联分析1.1背景介绍关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。

假设分店经理想更多地了解顾客的购物习惯。

特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行购物篮分析。

该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。

这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。

1993年,Agrawal 等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS ,但是性能较差。

1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori 算法,至今Apriori 仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。

1.2定义关联分析是一种简单、实用的分析技术,也是数据挖掘的核心技术之一,用来查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,简单来说就是发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。

以下引入几个基本概念来对关联分析进行简要阐述。

1.2.1项集:既是集合的概念。

例如一篮子物品中一件为一项(Item),若干项的集合为项集。

1.2.2关联规则:一般记为X →Y 的形式,左侧的项集x 为先决条件,右侧项集y 为相应的关联结果,用于表现出数据内隐含的关联性。

例如:关联规则项尿布→啤酒成立则表示购买了尿布的消费者也会购买啤酒这一商品,即这两个购买行为之间具有一定关联性。

至于关联性的强度如何,我们引入三个核心概念——支持度、置信度、提升度来控制和评价。

1.2.3关联强度:a.支持度(Support)——是指在所有项集中某项集{X,Y }出现的可能性,即项集中同时含有X 和Y 的概率。

),()(Y X P Y X Support =→公式(1)该指标作为建立强关联规则的第一门槛,衡量了所有考察关联规则在“量”上的多少。

其意义在于通过最小阈值(minsup,Minimun Support )的设定,来剔除那些“出镜率”较低的无意义规则,而相应的保留下出现比较频繁的项集所隐含的规则。

相关文档
最新文档