《数据可视化》课程设计_西南科技大学

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

西南科技大学计算机学院2019---2020学年

第1学期本科生课程

《数据可视化》课程设计

绵阳市餐饮数据可视化

组长: 佐助

木叶村

组员: 鸣人

木叶村

组员: 小樱

木叶村

指导老师:

2019年11月

课程设计说明和要求

本课程设计依据西南科技大学本科生课程《数据可视化》的教学大纲要求制定。课程设计满分为100分,占《数据可视化》课程考核成绩的60%。要求所有选课学生严格按照要求完成课程设计,按时提交课程设计报告和可执行程序,并参加小组答辩。具体要求如下:一、各组学生自行收集用于课程设计的数据,采用D3、Processing或其他可视化软件和工具,独立完成一个数据可视化案例。教师根据各小组提交的案例质量、文档质量、成员贡献三个方面给出分数。具体要求和评分细则见下页《课程成绩表》。

二、课程设计撰写及提交注意事项

1、课程设计请勿抄袭。如发现课程设计抄袭,该小组所有成员成绩记0分。

2、课程设计必须在2019年12月20日(17周周五)前提交电子版。电子版用word格式,与可执行程序一起,压缩后以课程设计的题目命名,发送至任课老师指定邮箱,并在邮件中留下电话或其他联系方式。纸质报告双面打印、左侧装订,课程答辩时提交。课程答辩时间和地点由任课老师指定。答辩时,所有成员需到场参与课程答辩,接受提问。

3、为保证报告格式规范和统一,请勿修改本报告的版面布局、字体、字号等格式。

课程成绩表

绵阳市餐饮数据可视化

一、可视化目标与任务

1.可视化目标

(1)有效呈现数据的重要特征;

(2)揭示数据的客观规律;

(3)将大量的、多维度的、不完全的、随机的数据,通过可视化提取出隐含在其中的、未知的、潜在有用的信息和知识;

(4)引导用户从可视化结果分析和推理出有效信息,提升信息认知的效率;

(5)美学形式与功能齐头并进,有效传达与沟通信息。

2.可视化任务

(1)通过分析顾客与老板的需求,与餐饮店铺评论数据建立联系;

(2)确立数据挖掘的方向,筛选出相关联的数据,进行处理;

(3)分析、预测处理后的数据的特征、规律,寻找出与其相关联的其他维度数据,进行处理;

(4)选择合适的多个视图美观地可视化多维度数据信息,使视图之间产生联动;

(5)利用可视化交互更容易、直观、多角度地了解数据信息。

3.采用的编程语言或工具

(1)编程语言:Python、JavaScript

(2)代码编辑器:PyCharm CE、Visual Studio Code

(3)前端框架:React

(4)前端组件样式:Ant Design

(5)词云可视化:wordcloud2.js

二、数据处理方案

1.数据说明

(1)数据来源

绵阳市某团购网站

(2)数据规模

时间:2015.1.1至2015.11.11期间

数量:3623家餐饮类店铺数据的基本信息及30572条评论信息。

(3)数据样本

(4)样本说明

a.店铺基本信息表中包含:店铺id、店铺名称、店铺星级、服务评分、

口味评分、环境评分、评论数量、店铺地址、店铺类型等;

b.评论属性表中包含:评论id、用户id、店铺id、综合评分、口味评

分、环境评分、服务评分、评论内容、评论时间、用户名、用户等级

等。

2.数据预处理

(1)店铺基本信息表

a.删除表中属性"review_count"值中的中文,仅保留数字;

b.删除表中两个空值属性"item_pic"和"item_key_word";

c.对表中属性"item_info"的值进行分割,分别存储给两个新的属性

"item_type"(存放店铺类型)和"item_address"(存放店铺地址);(2)评论属性表

a.删除表中空值属性"recommend";

b.统一修改表中属性"times"值的格式为"YYYY-MM-DD";

c.对表中属性"review"值为团购点评的评论,删除评论开头"团购点评"

这4个汉字;

(3)效果

数据预处理目的是规范化数据格式,大部分预处理后的数据后期会被数

据处理工作多次使用,为此带来了便捷性、有效性、准确性、可靠性、

一致性等;

3.数据处理

(1)目的:便于条形图可视化各类店铺评论数量随时间变化;

数据:店铺基本信息表("item_id"、"item_type")、评论属性表

("item_id"、"times");

数据处理:通过属性"item_id"关联店铺基本信息表和评论属性表,统计

每种店铺类型的评论时间,并且整合每个评论时间当天的评论数量,最

后按照评论时间进行排序;

难点及理由:难点是将两个表中的属性联系在一起处理,因为这是根据

可视化需求才会想到的解决方案。

(2)目的:便于环图可视化各类店铺各个星级比例;

数据:店铺基本信息表("star"、"item_type");

数据处理:统计每种店铺类型不同星级的店铺数量;

难点及理由:一些店铺类型的某一种星级店铺数量为0,导致数据处理

后仅保留下来店铺数量大于0的星级数据;所以再次处理数据,补全店

铺数量为0的星级数据。

(3)目的:提高评论属性表中属性"review"值的准确性;

数据:评论属性表("review");

数据处理:利用Python第三方库jieba,基于TF-IDF算法的抽取出评论数据的关键词,词性限制为地名、名词、动名词、动词;

难点及理由:由于原数据中属性"review"的值是个句子且不规范,所以需要修改成适合词云可视化的数据。

(4)目的:提高词云可视化数据的准确性;

相关文档
最新文档