实验8-1 大数据分析报告

合集下载

大数据分析实习报告

大数据分析实习报告

大数据分析实习报告在这次大数据分析实习中,我通过实际操作和项目实践,深入了解了大数据分析的相关知识和技能,提升了自己的数据分析能力和实践经验。

以下是我的实习报告:第一部分:实习项目概况本次实习项目是由一家大型互联网公司提供的,旨在帮助实习生深入了解大数据分析领域,通过实际项目操作来提升数据分析能力。

项目内容涉及数据收集、数据清洗、数据分析和数据可视化等方面,旨在通过实践操作来加深对大数据分析工作流程和方法的理解和掌握。

第二部分:实习项目经历在实习过程中,我首先进行了大量的数据收集工作,通过网络爬虫技术获取了一定量的原始数据,并对数据进行初步筛选和清洗,去除了重复数据和噪音数据,为后续数据分析工作做好了准备。

接着,我运用Python和SQL等工具进行了数据处理和数据分析,包括数据的聚合、筛选和计算等操作,利用统计方法和机器学习算法对数据进行挖掘和分析,得出了相关的结论和见解。

最后,我利用Tableau等工具对分析结果进行可视化展示,生成了直观美观的图表和报告,为决策者提供了参考依据。

第三部分:实习收获和感悟通过这次大数据分析实习,我深刻理解了数据在当今社会中的重要性和应用广泛性,也清楚了在数据分析工作中需要具备的技能和素质。

在实习过程中,我不仅掌握了大数据处理和分析的基本方法和技巧,还学会了如何团队协作、沟通交流和解决问题。

同时,我也意识到了自身在数据分析方面的不足之处,明确了今后的学习目标和职业规划,为自己的未来发展打下了坚实的基础。

结语通过这次大数据分析实习,我不仅学到了许多知识和技能,还锻炼了自己的学习能力和实践能力,为自己的职业发展和个人成长积累了宝贵的经验和财富。

我会继续努力学习和提升自己,做一个优秀的数据分析师,为社会和企业的发展贡献自己的力量。

感谢这次实习给予我的机会和成长,我会永远怀着感激之心,珍惜和珍惜。

试验数据分析报告

试验数据分析报告

试验数据分析报告引言本文目的在于分析一项试验数据,并提供详细的步骤和方法,以便读者能够理解数据处理和分析的过程。

试验数据分析对于科学研究和决策制定具有重要意义。

本文将通过以下步骤进行试验数据分析:数据收集、数据清洗、数据探索、数据分析和结论总结。

数据收集首先,我们需要收集试验所需的数据。

数据可以通过实地观察、实验仪器、问卷调查等方式获取。

在本次试验中,我们选择了实验仪器收集数据,以确保数据的准确性和一致性。

数据清洗在数据收集之后,我们需要对数据进行清洗,以去除错误、缺失或异常值。

数据清洗是数据分析的重要步骤,可以确保分析结果的准确性和可信度。

我们可以使用统计软件或编程语言来进行数据清洗。

数据探索在清洗数据后,我们可以开始进行数据探索。

数据探索可以帮助我们了解数据的特征和分布。

我们可以通过绘制图表、计算统计指标等方式来探索数据。

常用的数据探索方法包括直方图、散点图、箱线图等。

数据分析在数据探索之后,我们可以进行数据分析。

数据分析可以帮助我们回答试验中的研究问题,并从数据中提取有用的信息。

常用的数据分析方法包括描述统计分析、假设检验、回归分析等。

根据实际情况,我们可以选择适当的数据分析方法来进行分析。

结论总结最后,我们需要总结分析结果并得出结论。

结论应该基于数据分析的结果,并回答试验中的研究问题。

结论需要简明扼要,并提供进一步研究或决策所需的建议。

在总结时,我们还可以讨论数据分析的局限性和改进方向。

总结通过以上步骤,我们可以进行一次完整的试验数据分析。

数据收集、数据清洗、数据探索、数据分析和结论总结是试验数据分析的基本步骤。

在进行数据分析时,我们需要选择合适的方法和工具,并确保数据的准确性和可信度。

试验数据分析的结果可以为科学研究和决策制定提供重要参考。

教程大数据分析实训报告

教程大数据分析实训报告

### 引言随着信息技术的飞速发展,大数据已经成为现代社会不可或缺的一部分。

大数据分析作为一门新兴的交叉学科,广泛应用于金融、医疗、教育、政府等多个领域。

为了更好地理解和掌握大数据分析的基本原理和实际应用,我们开展了一系列的实训活动。

本文将详细阐述我们的实训过程、收获以及心得体会。

### 一、实训目的1. 了解大数据分析的基本概念、原理和方法。

2. 掌握数据分析工具和技术的使用,如Hadoop、Spark、Python等。

3. 通过实际案例分析,提高数据分析的实践能力。

4. 培养团队合作精神,提升沟通与协作能力。

### 二、实训内容1. 基础知识学习首先,我们学习了大数据分析的基本概念,包括数据类型、数据源、数据处理流程等。

然后,我们了解了Hadoop、Spark等大数据处理框架,以及Python、R等编程语言在数据分析中的应用。

2. 数据处理与存储在此阶段,我们学习了如何使用Hadoop、Spark等工具进行数据处理和存储。

具体内容包括:数据清洗、数据集成、数据转换等。

此外,我们还学习了如何使用Hive、Impala等数据库进行数据存储和查询。

3. 数据分析方法在掌握了数据处理和存储技术的基础上,我们学习了各种数据分析方法,如描述性统计、相关性分析、聚类分析、分类分析等。

通过实际案例,我们学会了如何根据业务需求选择合适的数据分析方法。

4. 数据可视化数据可视化是大数据分析的重要环节。

我们学习了如何使用Tableau、Python 中的matplotlib、seaborn等工具进行数据可视化,将分析结果以图表、地图等形式呈现,便于理解和交流。

5. 案例分析我们选取了多个实际案例进行分析,包括金融、医疗、电商等领域的案例。

通过分析这些案例,我们学会了如何将所学知识应用于实际问题,提高数据分析的实践能力。

### 三、实训收获1. 理论知识掌握通过实训,我们掌握了大数据分析的基本概念、原理和方法,为今后的学习和工作奠定了基础。

大数据分析实验报告(3篇)

大数据分析实验报告(3篇)

第1篇一、实验背景随着互联网技术的飞速发展,数据已经成为现代社会的重要资源。

大数据分析作为一种新兴的技术手段,通过对海量数据的挖掘和分析,为企业、政府和研究机构提供了决策支持。

本实验旨在通过实际操作,掌握大数据分析的基本流程和方法,提高对大数据技术的理解和应用能力。

二、实验目的1. 熟悉大数据分析的基本流程。

2. 掌握常用的数据预处理方法。

3. 熟悉大数据分析工具的使用。

4. 能够对实际数据进行有效的分析和解读。

三、实验环境1. 操作系统:Windows 102. 数据库:MySQL 5.73. 编程语言:Python 3.74. 大数据分析工具:Pandas、NumPy、Matplotlib、Scikit-learn5. 云计算平台:阿里云四、实验内容(一)数据采集本实验选取某电商平台的用户购买数据作为分析对象,数据包含用户ID、购买时间、商品ID、商品类别、购买金额等字段。

(二)数据预处理1. 数据清洗:去除重复数据、处理缺失值、修正错误数据。

2. 数据转换:将时间戳转换为日期格式,对金额进行归一化处理。

3. 特征工程:提取用户购买行为特征,如购买频率、购买金额等。

(三)数据分析1. 用户画像:分析用户购买偏好、购买频率等特征。

2. 商品分析:分析商品销量、商品类别分布等特征。

3. 购买行为分析:分析用户购买时间分布、购买金额分布等特征。

(四)实验结果与分析1. 用户画像分析根据用户购买数据,我们可以得出以下结论:(1)年轻用户购买频率较高,偏好时尚、电子产品等商品。

(2)中年用户购买金额较高,偏好家居、家电等商品。

(3)老年用户购买频率较低,偏好健康、养生等商品。

2. 商品分析根据商品购买数据,我们可以得出以下结论:(1)电子产品销量最高,其次是家居、家电等商品。

(2)商品类别分布较为均匀,但电子产品、家居、家电等类别占比相对较高。

3. 购买行为分析根据购买时间、购买金额等数据,我们可以得出以下结论:(1)用户购买时间主要集中在上午10点到下午6点。

大数据分析综合实践报告(3篇)

大数据分析综合实践报告(3篇)

第1篇一、前言随着信息技术的飞速发展,大数据时代已经到来。

大数据作为一种新型资源,蕴含着巨大的价值。

为了更好地理解和应用大数据技术,提升数据分析能力,我们团队开展了本次大数据分析综合实践。

本报告将对实践过程、实践成果以及实践体会进行详细阐述。

二、实践背景与目标1. 实践背景随着互联网、物联网、云计算等技术的普及,人类社会产生了海量数据。

这些数据不仅包括传统的文本、图像、音频、视频等,还包括社交媒体、传感器、电子商务等新型数据。

如何从这些海量数据中提取有价值的信息,成为当前数据科学领域的重要课题。

2. 实践目标(1)掌握大数据分析的基本方法和技术;(2)运用所学知识对实际数据进行处理和分析;(3)提高团队协作能力和解决问题的能力;(4)培养创新意识和实践能力。

三、实践内容与方法1. 数据采集与预处理(1)数据采集:根据实践需求,我们从互联网上获取了相关数据集,包括电商数据、社交媒体数据、气象数据等;(2)数据预处理:对采集到的数据进行清洗、去重、格式转换等操作,确保数据质量。

2. 数据分析与挖掘(1)数据可视化:利用Python、R等编程语言,对数据进行可视化展示,直观地了解数据特征;(2)统计分析:运用统计方法对数据进行描述性分析,挖掘数据背后的规律;(3)机器学习:运用机器学习方法对数据进行分类、聚类、预测等分析,挖掘数据中的潜在价值。

3. 实践工具与平台(1)编程语言:Python、R;(2)数据库:MySQL、MongoDB;(3)数据分析工具:Jupyter Notebook、RStudio;(4)云计算平台:阿里云、腾讯云。

四、实践成果1. 数据可视化分析通过对电商数据的可视化分析,我们发现了以下规律:(1)消费者购买行为与时间、地区、产品类别等因素密切相关;(2)节假日、促销活动期间,消费者购买意愿明显增强;(3)不同年龄段消费者偏好不同,年轻消费者更倾向于追求时尚、个性化的产品。

2. 社交媒体情感分析利用社交媒体数据,我们对用户评论进行情感分析,发现以下结果:(1)消费者对产品的满意度较高,好评率较高;(2)消费者关注的产品功能主要集中在质量、价格、服务等方面;(3)针对消费者提出的问题,企业应加强售后服务,提高客户满意度。

大数据实践课程 实验报告

大数据实践课程 实验报告

大数据实践课程实验报告一、引言大数据技术在当今社会中扮演着越来越重要的角色。

为了更好地应对和利用大数据,大数据实践课程成为了许多学校和企业培养人才的重要一环。

本实验报告旨在总结和分析大数据实践课程的相关实验内容,以及实验过程中所遇到的问题和解决方案。

二、实验内容在大数据实践课程中,学生通常会接触到大数据处理框架、数据分析和可视化、机器学习等方面的内容。

这些实验旨在让学生通过实际操作和项目实践,深入了解大数据的处理和应用。

1. 大数据处理框架实验在大数据处理框架实验中,学生会学习和使用一些主流的大数据处理框架,如Hadoop、Spark等。

通过搭建和配置这些框架,学生可以学习到大数据的分布式存储和计算的原理和方法。

2. 数据分析和可视化实验数据分析和可视化是大数据处理中非常重要的一环。

在这个实验中,学生将学习如何使用Python或R等编程语言进行数据分析,并通过绘制图表和可视化工具展示分析结果。

这些实验将帮助学生掌握数据清洗、特征提取、数据可视化等技能。

3. 机器学习实验机器学习是大数据中的关键技术之一。

在机器学习实验中,学生将学习和实践常见的机器学习算法,如线性回归、逻辑回归、决策树等。

通过使用真实的数据集进行训练和测试,学生可以了解机器学习的原理和应用。

三、实验问题和解决方案在进行大数据实践过程中,学生可能会遇到一些问题。

下面列举了一些常见的问题和相应的解决方案。

1. 数据清洗问题在进行数据分析和机器学习实验时,往往需要对原始数据进行清洗和预处理。

这个过程中可能会遇到缺失值、异常值等问题。

解决方案可以包括删除缺失值或异常值、使用插补方法填充缺失值等。

2. 算法选择问题在进行机器学习实验时,选择合适的算法对于结果的准确性和效率都非常重要。

解决方案可以包括对比不同算法的优缺点,根据数据特点选择最合适的算法。

3. 模型评估问题在机器学习实验中,模型的评估是判断模型好坏的重要指标。

解决方案可以包括使用交叉验证、绘制学习曲线等方法来评估模型的性能。

大数据分析实验报告

大数据分析实验报告在本次大数据分析实验中,我们对一组包含大量数据的样本进行了详细的研究和分析。

通过使用先进的数据分析工具和技术,我们能够从这些数据中提取有价值的信息,并得出一些重要的结论。

本报告将详细介绍我们的实验设计、数据收集和处理方法,以及我们的分析结果和结论。

首先,我们需要明确实验的目的和假设。

我们的目标是通过对大数据样本进行分析,揭示其中的潜在模式、趋势和关联性。

我们的假设是,通过对大数据的深入研究,我们可以获得对所研究领域的深刻理解,并为决策者提供有力的支持。

接下来,我们需要详细描述我们的实验设计和数据收集方法。

我们选择了一个包含大量数据的样本,该样本涵盖了多个领域和行业的数据。

我们使用了先进的数据收集工具和技术,确保数据的准确性和完整性。

我们还采用了随机抽样的方法,以确保样本的代表性。

在数据收集完成后,我们进行了数据处理和清洗。

我们使用了数据清洗工具和算法,去除了其中的噪声和异常值。

然后,我们对数据进行了归一化和标准化处理,以确保数据的一致性和可比性。

接下来,我们进行了一系列的数据分析和挖掘工作。

我们使用了多种数据分析方法,包括统计分析、机器学习和数据可视化等。

通过这些方法,我们能够发现数据中的模式和趋势,识别出重要的关联性,并进行预测和推断。

最后,我们根据我们的分析结果得出了一些重要的结论。

我们发现了一些意想不到的模式和趋势,这些对于我们理解所研究领域的关键问题非常重要。

我们的分析结果还为决策者提供了宝贵的信息和建议,帮助他们做出明智的决策。

总的来说,通过本次大数据分析实验,我们深入研究了一组包含大量数据的样本,并从中提取出有价值的信息。

我们的实验设计和数据处理方法确保了数据的准确性和可信度。

我们的分析结果和结论对于我们理解所研究领域的关键问题非常重要,并为决策者提供了有力的支持。

这次实验为我们进一步探索大数据分析的应用和方法提供了宝贵的经验。

大数据分析技术实习报告

实习报告:大数据分析技术实习一、实习背景及目的随着互联网和信息技术的飞速发展,大数据时代已经来临。

大数据分析技术作为一种挖掘数据价值、解决实际问题的有效手段,在各行各业得到了广泛应用。

为了提高自己在数据分析领域的实际操作能力,我选择了大数据分析技术实习,期望通过实习深入了解大数据分析技术的基本原理和应用,提升自己的专业技能。

二、实习内容及收获1. 实习内容(1)数据采集与清洗:实习过程中,我负责了数据采集和清洗工作。

通过爬虫技术,从多个网站收集了大量数据,并对数据进行了去重、去除空值等清洗操作,保证了数据的质量和一致性。

(2)数据预处理:对清洗后的数据进行格式转换、类型转换等预处理操作,以便后续分析。

(3)数据分析与挖掘:利用统计分析、机器学习等方法对预处理后的数据进行分析,挖掘数据中的规律和关联性。

(4)数据可视化:将分析结果以图表、图形或报告的形式展示出来,便于理解和传达。

2. 实习收获(1)掌握了大数据分析技术的基本流程,包括数据采集、清洗、预处理、分析和可视化等。

(2)学会了使用Python、R等编程语言进行数据分析和挖掘,熟练运用相关库和工具,如NumPy、Pandas、Scikit-learn、Matplotlib等。

(3)了解了大数据分析技术在实际应用中的重要性,如商业决策、医疗健康、社交媒体和智能城市等领域。

(4)提高了自己的团队协作能力和沟通技巧,学会了在团队中发挥自己的优势,共同解决问题。

三、实习总结与展望通过这次实习,我对大数据分析技术有了更深入的了解,从理论到实践,全面掌握了大数据分析技术的基本技能。

同时,实习过程中我认识到,大数据分析不仅需要扎实的技术功底,还需要具备良好的业务理解和创新能力。

展望未来,我将继续深入学习大数据分析技术,掌握更多高级技能和工具,如TensorFlow、PyTorch等深度学习框架。

同时,我将不断丰富自己的业务知识,提高自己的数据分析能力,为实际问题提供有效的数据解决方案。

数据分析实验报告

数据分析实验报告一、引言数据分析是一种通过收集、清洗、转换和模型化数据来发现有意义信息的过程。

在现代社会中,数据分析的应用日益广泛,涵盖了各个领域。

本实验旨在通过对某个数据集的分析和解读,展示数据分析在实际应用中的重要性和价值。

二、实验目的本实验的目的是基于给定的数据集,运用数据分析的方法和技术,了解数据的特征、趋势以及相关性,并通过实验结果提出相关的结论。

三、实验步骤1. 数据收集:选择合适的数据集,并进行数据的获取和整理。

确保数据的准确性和完整性。

2. 数据清洗:对数据中的缺失值、异常值等进行处理,以确保数据的质量。

3. 数据探索:对数据进行可视化展示,并运用统计方法对数据进行分析,了解数据之间的关系。

4. 数据建模:基于分析结果,构建适当的数学模型,以便对数据进行较为准确的预测和推理。

5. 数据解读:根据模型的结果,对数据进行解读和分析,提出合理的结论和建议。

四、实验结果在实验过程中,我们对所选数据集进行了详细的分析。

首先,通过对数据进行清洗,我们排除了其中的异常值和缺失值,保证了数据的准确性。

然后,通过数据探索的方式,我们对数据的特征和分布进行了可视化展示,从而更好地理解了数据的意义和规律。

接着,我们运用统计方法,分析了不同变量之间的相关性和趋势。

最后,我们建立了相关的数学模型,并对数据进行了预测和推断。

根据实验结果,我们得出以下结论:1. 变量A与变量B之间存在正相关关系,随着变量A的增加,变量B也呈现增长的趋势。

2. 变量C对于目标变量D的影响不显著,说明C与D之间没有明确的因果关系。

3. 基于建立的数学模型,我们对未来的数据进行了预测,并提出了相应的建议和策略。

五、结论与建议通过本次实验,我们深入了解了数据分析的重要性和应用价值。

数据分析可以帮助我们揭示数据背后的信息,提高决策和预测的准确性。

在实际应用中,数据分析不仅可以帮助企业优化运营,提高市场竞争力,还可以在医疗、金融、科学研究等领域发挥重要作用。

实验报告数据分析篇

实验报告数据分析篇实验背景:在科学研究和实验中,数据分析是非常重要的一步。

通过对实验数据的分析,我们可以得出结论,验证假设,并进一步推动科学的发展。

本文将以实验报告数据分析为主题,介绍数据分析的基本步骤和方法。

1. 数据收集在进行实验之前,我们首先需要确定实验目的和研究问题,然后设计实验方案并采集数据。

数据的收集可以通过观察、测量、问卷调查等方式进行。

在收集数据时,需要确保数据的准确性和完整性,避免数据的偏差和遗漏。

2. 数据清洗在收集到数据后,我们需要对数据进行清洗。

数据清洗是指对数据进行筛选、删除、修正等操作,以去除无效数据、异常值和重复数据,保证数据的质量和可靠性。

数据清洗可以使用统计软件或编程语言进行,如Excel、Python等。

3. 数据探索数据清洗完成后,我们可以进行数据探索。

数据探索是指对数据进行统计和图形分析,以了解数据的基本特征和分布情况。

常用的数据探索方法包括描述统计、频率分布、直方图、散点图等。

通过数据探索,我们可以初步了解数据的规律和趋势。

4. 数据分析在数据探索的基础上,我们可以进行更深入的数据分析。

数据分析是指对数据进行统计推断和模型建立,以回答研究问题和验证假设。

常用的数据分析方法包括假设检验、方差分析、回归分析等。

通过数据分析,我们可以得出结论,并对实验结果进行解释和解读。

5. 结果呈现数据分析完成后,我们需要将结果进行呈现。

结果呈现可以使用表格、图表、图像等形式,以直观地展示数据和分析结果。

在结果呈现时,需要注意选择合适的图表类型和展示方式,以便读者能够清晰地理解和理解结果。

6. 结论和讨论在结果呈现的基础上,我们可以得出结论并进行讨论。

结论是对实验结果的总结和归纳,回答研究问题和验证假设。

讨论是对实验结果的解释和分析,探讨实验存在的问题和改进的方向。

结论和讨论需要基于数据分析的结果和科学的依据,具有客观性和可靠性。

总结:数据分析是实验报告中非常重要的一部分,通过数据分析,我们可以得出结论,验证假设,并进一步推动科学的发展。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验8-1 数据分析一、实验目的1.理解数据挖掘的一般流程。

2.掌握数据探索和预处理的方法。

3.使用PHSTAT软件,结合Excel对给定的数据进行手工预处理。

4.使用WEKA软件,对给定的数据进行预处理。

二、实验容在D盘中以“班级-学号-”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。

0. 数据集介绍银行资产评估数据bank-data.xlsx,数据里有12个属性,分别是id(编号), age(年龄), sex(性别), region(地区), income(收入),married(婚否), children(子女数), car(是否有私家车), save_act(是否有定期存款), current_act (是否有活期账户), mortgage(是否有资产抵押), pep(目标变量,是否买个人理财计划Personal Equity Plan)。

1.数据探索之数据质量分析新建“1-数据质量分析.xlsx”文件,导入“0-bank_data.xlsx”文件数据,请你用EXCEL对其进行数据质量分析。

【要求】(1)请找出bank_data.xlsx表中的含有缺失值的记录。

(2)请你用PHSTAT软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。

(3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属性的异常值记录。

【提示】(1)请找出bank_data.xlsx表中的含有缺失值的记录。

方法1:条件格式法1)选取A1:L601区域。

2)开始--> 条件格式--> 新建规则(N)...,在"新建格式规则"对话框中,选择空值。

如图8-1所示。

图8-1 “新建格式规则”对话框3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。

如图8-2所示。

图8-2 设置条件格式方法2:1)缺失值定位。

“开始”→“编辑/ 查找和选择”→“定位”对话框→“定位条件”按钮。

2)“定位条件”对话框→选择“空值”,如图8-3所示。

图8-3 “转到(G)…”下拉菜单命令和“定位条件”对话框(2)绘制“income”属性箱线图和点比例图。

高级筛选出异常值。

“加载项/ PHStat”→“Descriptive Statistics”→“Boxplot…”或”Dot Scale Diagram…“命令。

如图8-4所示。

注意选中“income”属性,如果数据区域包括标题行(E1单元格),则勾选下面的First cell contains label选项,否则,不用勾选First cell contains label选项。

(a)(b)(c)(d)图8-4 PHSTAT 软件的“箱线图”和“点比例图”绘制计算income属性的最小值、最大值、第一四分位数、中位数、第三四分位数。

以及Whisker下限和上限。

表8-1 四分位数表箱线图公式数值最小值=MIN(E2:E601) 5014.21高级筛选,筛选出大于Qu,小于QL的离群点。

1)设置条件区域,如图8-5所示。

图8-5 高级筛选“条件区域”2)设置高级筛选。

2.数据探索之数据特征分析建立“2-数据特征分析.xlsx”文件,导入“0-bank_data.xlsx”文件,请你用EXCEL对其进行数据特征分析。

【要求】(1)针对age属性进行分布分析。

填写8-2和8-3表。

表8-2 年龄分布分析表表8-3 年龄数据统计表(2)根据上一步的age属性分组,分别用EXCEL分布工具和PHSTAT软件绘制直方图。

(3)同理,将收入属性分组,计算各年龄段收入汇总和购买理财计划汇总,找出购买理财计划的主要群体。

【提示】(1)age分为三组(青年组、中年组和老年组),填写age数据统计,如表8-4所示。

表8-4 年龄数据分布公式表组距=INT(O9/O10) 16 O11 表8-5 年龄统计公式表年龄段N13 年龄区间O13分组数据P13组中值Q13频数R13累积频数S13累积百分比T13青年N14 =O6+O11 =(O6+P14)/2 {=FREQUENCY(B2:B601,P14:P16)}=R14+S13 =S14/$O$4中年N15=P14+O11 =(P14+P15)/2 =R15+S14 =S15/$O$4老年N16=O5 =(P15+P16)/2 =R16+S15 =S16/$O$4 (2)数据分析工具分析。

1)EXCEL数据分析“数据”选项卡→“数据分析”按钮→“直方图”选项→“直方图”对话框。

注意,输入区域为:age数据,接收区域为:分组数据,输出区域为:分析结果放置区域。

如图8-6(a)(b)(c)所示。

图8-6(a)“数据分析”路径(b)“数据分析”对话框(c)“直方图”对话框结果如表8-6和图8-7所示。

表8-6 数据分析工具直方图分析结果表接收频率累积 %接收频率累积 %3419532.50%5021435.67%5021468.17%3419568.17%67191100.00%67191100.00%其他0100.00%其他0100.00%图8-7 数据分析工具绘制的直方图2)PHSTAT软件操作步骤如下:图8-8 PHSTAT软件直方图路径注意,PHSTAT软件绘制直方图过程中,作图区的数据不能包含公式。

选中age属性(B2:B601),分组数据属性(V14:V16),组中值属性(W14:16)绘制直方图。

图8-9 PHSTAT软件“直方图”对话框分析结果如下:表8-7 PHSTAT软件直方图分析结果表Frequency Distribution for Valuefor ValueBins Frequency Percentage Cumulative Pctage.Midpts.0003419532.50%32.50%--5021435.67%68.17%266719131.83%100.00%420058.5图8-10 PHSTAT 软件绘制的直方图(4)仿照上例,计算年龄收入汇总和购买理财计划汇总,填写下表表8-8 收入数据统计数据个数最大值最小值平均值标准差全距组数组距收入数据统计注意:这里收入汇总的公式应该使用sumif 函数。

如,青年的收入汇总应该为:=SUMIF($B$2:$B$601,"<=" & P94,$E$2:$E$601)。

其中,$B$2:$B$601表示年龄区域,&是字符串拼接符号,P94是青年的分组数据。

$E$2:$E$601为income 区域。

青年的PEP 汇总应该使用countifs 函数。

如,青年的PEP 汇总应该为:=COUNTIFS($B$2:$B$601,"<=" & P94, $L$2:$L$601,"=YES")。

其中,$L$2:$L$601为PEP 区域。

(5)给出自己的分析观点,例如:从人数看,…,从收入上看…,从购买理财年龄段年龄区间分组数据频数收入汇总PEP汇总青年中年老年薪资阶层阶层区间分组数据阶层频数PEP频数平民阶层中产阶层富豪阶层计划的年龄结构看,…。

初步对数据和直方图观测,…是黄金客户,而…可能是潜在客户群。

3. 数据清洗建立“3-数据插补.xlsx”文件,导入“0-bank_data.xlsx”文件,请你用EXCEL 对异常值和缺失值进行插补。

【要求】(1)请对income属性的离群点,用均值法替换修正。

(2)请将current_act属性的空值,用众数法替换补值。

【提示】(1)income属性的离群点(异常值)根据实验8-1的第一小题实验可知income属性的离群点(异常值),可以用公式计算去除异常值后的均值,并用均值替换异常点的income属性。

如表8-9所示。

设置O4单元格为"<",P4单元格为whisker下限,O5单元格为">",P5单元格为whisker上限。

表8-9 离群点统计表(2)众数求解方法1:建立一个新列,去除空值的current_act列,将新列用if函数转换为1或0后,用mode.sngl函数求解。

由于mode.sngl函数参数必须是数值,所以需要将YES转换为1,NO转换0 。

在N2单元格输入公式:=IF(M2="YES",1,0),向下填充。

根据N列的1和0,使用mode.sngl函数。

公式为:=MODE.SNGL(N2:N588) 方法2:可以用countif函数,分别求出YES的个数、NO的个数和空值的个数,比较找出众数。

YES个数。

公式为:=COUNTIF(J2:J601,"=YES")。

值为442NO个数。

公式为:=COUNTIF(J2:J601,"=NO")。

值为145空值个数。

公式为:=COUNTBLANK(J2:J601)。

值为134. 数据变换【要求】(1)将插补后的“3-数据插补.xlsx”文件另存为“4-bank_data.csv”文件。

(2)启动Weka软件,导入“4-bank_data.csv”文件,对待挖掘的数据进行属性规约和数据离散化后,另存为“4-bank_data.arff”文件。

【提示】(1)现将xlsx文件另存为csv文件,然后再导入到Weka中,如图8-11~13所示。

图8-11 Weka登录界面图8-12 Weka导入CSV文件前图8-13 Weka导入CSV文件后(2)对数据进行数据变换。

①首先,数据规约,删除无用的属性,通常对于数据挖掘任务来说,ID这样的属性信息是无用的,故此,我们将之删除。

如图14所示。

图8-14 删除ID属性②其次,连续属性的离散化。

数据集中,age属性、income属性和children 属性都是数值型数据,需要将其转换为标称型数据。

离散化age属性和income属性。

勾选age属性和income属性→“choose”→ discretize,然后,单击”Discretize-B10-M-0.1-R first-last“,在弹出的对话框中,将分组bin改为3,将”first-last”改为1,4,如图15~17所示。

图8-15 Discretize-B10-M-0.1-R first-last 图8-16 bin值改为3图8-17 修改后的属性类型③children属性只有4个取值:0,1,2,3。

勾选children属性,单击“choose”按钮,再弹出的下拉列表中,展开无监督学习(unsupervised)前的“+”号和属性(attribute)前的“+”号,选择“NumericT oNominal”,并将first-last 改为6,单击"Apply"按钮,将children类型变成Nominal。

相关文档
最新文档