《数据可视化》课程设计_西南科技大学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
西南科技大学计算机学院2019---2020学年
第1学期本科生课程
《数据可视化》课程设计
绵阳市餐饮数据可视化
组长: 佐助
木叶村
组员: 鸣人
木叶村
组员: 小樱
木叶村
指导老师:
2019年11月
课程设计说明和要求
本课程设计依据西南科技大学本科生课程《数据可视化》的教学大纲要求制定。课程设计满分为100分,占《数据可视化》课程考核成绩的60%。要求所有选课学生严格按照要求完成课程设计,按时提交课程设计报告和可执行程序,并参加小组答辩。具体要求如下:一、各组学生自行收集用于课程设计的数据,采用D3、Processing或其他可视化软件和工具,独立完成一个数据可视化案例。教师根据各小组提交的案例质量、文档质量、成员贡献三个方面给出分数。具体要求和评分细则见下页《课程成绩表》。
二、课程设计撰写及提交注意事项
1、课程设计请勿抄袭。如发现课程设计抄袭,该小组所有成员成绩记0分。
2、课程设计必须在2019年12月20日(17周周五)前提交电子版。电子版用word格式,与可执行程序一起,压缩后以课程设计的题目命名,发送至任课老师指定邮箱,并在邮件中留下电话或其他联系方式。纸质报告双面打印、左侧装订,课程答辩时提交。课程答辩时间和地点由任课老师指定。答辩时,所有成员需到场参与课程答辩,接受提问。
3、为保证报告格式规范和统一,请勿修改本报告的版面布局、字体、字号等格式。
课程成绩表
绵阳市餐饮数据可视化
一、可视化目标与任务
1.可视化目标
(1)有效呈现数据的重要特征;
(2)揭示数据的客观规律;
(3)将大量的、多维度的、不完全的、随机的数据,通过可视化提取出隐含在其中的、未知的、潜在有用的信息和知识;
(4)引导用户从可视化结果分析和推理出有效信息,提升信息认知的效率;
(5)美学形式与功能齐头并进,有效传达与沟通信息。
2.可视化任务
(1)通过分析顾客与老板的需求,与餐饮店铺评论数据建立联系;
(2)确立数据挖掘的方向,筛选出相关联的数据,进行处理;
(3)分析、预测处理后的数据的特征、规律,寻找出与其相关联的其他维度数据,进行处理;
(4)选择合适的多个视图美观地可视化多维度数据信息,使视图之间产生联动;
(5)利用可视化交互更容易、直观、多角度地了解数据信息。
3.采用的编程语言或工具
(1)编程语言:Python、JavaScript
(2)代码编辑器:PyCharm CE、Visual Studio Code
(3)前端框架:React
(4)前端组件样式:Ant Design
(5)词云可视化:wordcloud2.js
二、数据处理方案
1.数据说明
(1)数据来源
绵阳市某团购网站
(2)数据规模
时间:2015.1.1至2015.11.11期间
数量:3623家餐饮类店铺数据的基本信息及30572条评论信息。
(3)数据样本
(4)样本说明
a.店铺基本信息表中包含:店铺id、店铺名称、店铺星级、服务评分、
口味评分、环境评分、评论数量、店铺地址、店铺类型等;
b.评论属性表中包含:评论id、用户id、店铺id、综合评分、口味评
分、环境评分、服务评分、评论内容、评论时间、用户名、用户等级
等。
2.数据预处理
(1)店铺基本信息表
a.删除表中属性"review_count"值中的中文,仅保留数字;
b.删除表中两个空值属性"item_pic"和"item_key_word";
c.对表中属性"item_info"的值进行分割,分别存储给两个新的属性
"item_type"(存放店铺类型)和"item_address"(存放店铺地址);(2)评论属性表
a.删除表中空值属性"recommend";
b.统一修改表中属性"times"值的格式为"YYYY-MM-DD";
c.对表中属性"review"值为团购点评的评论,删除评论开头"团购点评"
这4个汉字;
(3)效果
数据预处理目的是规范化数据格式,大部分预处理后的数据后期会被数
据处理工作多次使用,为此带来了便捷性、有效性、准确性、可靠性、
一致性等;
3.数据处理
(1)目的:便于条形图可视化各类店铺评论数量随时间变化;
数据:店铺基本信息表("item_id"、"item_type")、评论属性表
("item_id"、"times");
数据处理:通过属性"item_id"关联店铺基本信息表和评论属性表,统计
每种店铺类型的评论时间,并且整合每个评论时间当天的评论数量,最
后按照评论时间进行排序;
难点及理由:难点是将两个表中的属性联系在一起处理,因为这是根据
可视化需求才会想到的解决方案。
(2)目的:便于环图可视化各类店铺各个星级比例;
数据:店铺基本信息表("star"、"item_type");
数据处理:统计每种店铺类型不同星级的店铺数量;
难点及理由:一些店铺类型的某一种星级店铺数量为0,导致数据处理
后仅保留下来店铺数量大于0的星级数据;所以再次处理数据,补全店
铺数量为0的星级数据。
(3)目的:提高评论属性表中属性"review"值的准确性;
数据:评论属性表("review");
数据处理:利用Python第三方库jieba,基于TF-IDF算法的抽取出评论数据的关键词,词性限制为地名、名词、动名词、动词;
难点及理由:由于原数据中属性"review"的值是个句子且不规范,所以需要修改成适合词云可视化的数据。
(4)目的:提高词云可视化数据的准确性;