《数据可视化》课程设计_西南科技大学

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

西南科技大学计算机学院2019---2020学年

第1学期本科生课程

《数据可视化》课程设计

绵阳市餐饮数据可视化

组长: 佐助

木叶村

组员: 鸣人

木叶村

组员: 小樱

木叶村

指导老师:

2019年11月

课程设计说明和要求

本课程设计依据西南科技大学本科生课程《数据可视化》的教学大纲要求制定。课程设计满分为100分，占《数据可视化》课程考核成绩的60%。要求所有选课学生严格按照要求完成课程设计，按时提交课程设计报告和可执行程序，并参加小组答辩。具体要求如下：一、各组学生自行收集用于课程设计的数据，采用D3、Processing或其他可视化软件和工具，独立完成一个数据可视化案例。教师根据各小组提交的案例质量、文档质量、成员贡献三个方面给出分数。具体要求和评分细则见下页《课程成绩表》。

二、课程设计撰写及提交注意事项

1、课程设计请勿抄袭。如发现课程设计抄袭，该小组所有成员成绩记0分。

2、课程设计必须在2019年12月20日（17周周五）前提交电子版。电子版用word格式，与可执行程序一起，压缩后以课程设计的题目命名，发送至任课老师指定邮箱，并在邮件中留下电话或其他联系方式。纸质报告双面打印、左侧装订，课程答辩时提交。课程答辩时间和地点由任课老师指定。答辩时，所有成员需到场参与课程答辩，接受提问。

3、为保证报告格式规范和统一，请勿修改本报告的版面布局、字体、字号等格式。

课程成绩表

绵阳市餐饮数据可视化

一、可视化目标与任务

1.可视化目标

（1）有效呈现数据的重要特征；

（2）揭示数据的客观规律；

（3）将大量的、多维度的、不完全的、随机的数据，通过可视化提取出隐含在其中的、未知的、潜在有用的信息和知识；

（4）引导用户从可视化结果分析和推理出有效信息，提升信息认知的效率；

（5）美学形式与功能齐头并进，有效传达与沟通信息。

2.可视化任务

（1）通过分析顾客与老板的需求，与餐饮店铺评论数据建立联系；

（2）确立数据挖掘的方向，筛选出相关联的数据，进行处理；

（3）分析、预测处理后的数据的特征、规律，寻找出与其相关联的其他维度数据，进行处理；

（4）选择合适的多个视图美观地可视化多维度数据信息，使视图之间产生联动；

（5）利用可视化交互更容易、直观、多角度地了解数据信息。

3.采用的编程语言或工具

（1）编程语言：Python、JavaScript

（2）代码编辑器：PyCharm CE、Visual Studio Code

（3）前端框架：React

（4）前端组件样式：Ant Design

（5）词云可视化：wordcloud2.js

二、数据处理方案

1.数据说明

（1）数据来源

绵阳市某团购网站

（2）数据规模

时间：2015.1.1至2015.11.11期间

数量：3623家餐饮类店铺数据的基本信息及30572条评论信息。

（3）数据样本

（4）样本说明

a.店铺基本信息表中包含：店铺id、店铺名称、店铺星级、服务评分、

口味评分、环境评分、评论数量、店铺地址、店铺类型等；

b.评论属性表中包含：评论id、用户id、店铺id、综合评分、口味评

分、环境评分、服务评分、评论内容、评论时间、用户名、用户等级

等。

2.数据预处理

（1）店铺基本信息表

a.删除表中属性"review_count"值中的中文，仅保留数字；

b.删除表中两个空值属性"item_pic"和"item_key_word"；

c.对表中属性"item_info"的值进行分割，分别存储给两个新的属性

"item_type"（存放店铺类型）和"item_address"（存放店铺地址）；（2）评论属性表

a.删除表中空值属性"recommend"；

b.统一修改表中属性"times"值的格式为"YYYY-MM-DD"；

c.对表中属性"review"值为团购点评的评论，删除评论开头"团购点评"

这4个汉字；

（3）效果

数据预处理目的是规范化数据格式，大部分预处理后的数据后期会被数

据处理工作多次使用，为此带来了便捷性、有效性、准确性、可靠性、

一致性等；

3.数据处理

（1）目的：便于条形图可视化各类店铺评论数量随时间变化；

数据：店铺基本信息表（"item_id"、"item_type"）、评论属性表

（"item_id"、"times"）；

数据处理：通过属性"item_id"关联店铺基本信息表和评论属性表，统计

每种店铺类型的评论时间，并且整合每个评论时间当天的评论数量，最

后按照评论时间进行排序；

难点及理由：难点是将两个表中的属性联系在一起处理，因为这是根据

可视化需求才会想到的解决方案。

（2）目的：便于环图可视化各类店铺各个星级比例；

数据：店铺基本信息表（"star"、"item_type"）；

数据处理：统计每种店铺类型不同星级的店铺数量；

难点及理由：一些店铺类型的某一种星级店铺数量为0，导致数据处理

后仅保留下来店铺数量大于0的星级数据；所以再次处理数据，补全店

铺数量为0的星级数据。

（3）目的：提高评论属性表中属性"review"值的准确性；

数据：评论属性表（"review"）；

数据处理：利用Python第三方库jieba，基于TF-IDF算法的抽取出评论数据的关键词，词性限制为地名、名词、动名词、动词；

难点及理由：由于原数据中属性"review"的值是个句子且不规范，所以需要修改成适合词云可视化的数据。

（4）目的：提高词云可视化数据的准确性；