大数据 数据清洗与结构化存储 处理清洗数据
大数据数据清洗与结构化存储揭示数据清洗

大数据数据清洗与结构化存储揭示数据清洗数据清洗是大数据处理过程中非常重要的一环,它涉及到对原始数据进行预处理,清除不完整、重复、不准确或无效的数据,以确保数据的质量和准确性。
数据清洗是构建可靠的数据分析模型和有效的决策支持系统的必要步骤。
同时,数据清洗也可以帮助改善数据的结构和格式,便于后续的数据存储和分析。
数据清洗过程通常包括以下几个步骤:2.数据的评估和筛选:评估数据的质量和可用性,筛选出有用的数据并丢弃无效或不完整的数据。
在这一步骤中,可以使用一些数据质量评估指标,如数据完整性、一致性、准确性等,以判断数据的可靠性和适用性。
3.数据的清理和转换:在这一步骤中,需要对数据进行清理和转换。
清理数据意味着删除重复、无效或错误的数据,修复缺失或不完整的数据。
转换数据意味着将数据转换为适合分析和处理的格式和结构。
例如,将文本数据转换为数字或日期格式,将多个数据集合并到一个数据表中等。
4.数据的验证和校正:在数据清洗的最后一步,需要验证和校正清洗后的数据。
验证数据的准确性和一致性,并对数据进行校正。
这可以通过与源数据对比,使用规则引擎进行逻辑验证,或者进行人工审查来完成。
数据清洗的目标是确保数据的质量和准确性,以获得可靠的分析结果和决策支持。
数据清洗可以帮助发现数据之间的模式和关联,挖掘数据背后的价值,提供有关客户需求、市场趋势、业务运营等方面的信息。
与数据清洗密切相关的是结构化存储,即将清洗后的数据以结构化的形式进行存储。
结构化存储可以提高数据的可管理性和可查询性,方便后续的数据分析和挖掘。
常见的结构化存储方式包括关系型数据库、数据仓库、数据湖等。
关系型数据库是一种常用的结构化存储方式,它以表格的形式组织数据,每个表格包含一系列的行和列。
关系型数据库提供了强大的查询和分析功能,可以方便地进行数据、过滤和聚合。
数据仓库是一种特殊类型的关系型数据库,它用于存储大量历史数据,并支持复杂的分析查询。
数据湖是一种相对较新的存储方式,它将数据以原始格式存储在分布式文件系统中,使得数据可以按需提取和分析。
如何处理大规模数据分析和处理

如何处理大规模数据分析和处理大规模数据分析和处理是当前信息化时代一个重要的挑战和机遇。
随着互联网的迅猛发展和各种智能设备的普及,我们如今生活在一个数据爆炸的时代。
庞大的数据量不仅给我们的日常生活带来了很多便利,同时也带来了数据分析和处理的巨大压力。
在这种情况下,如何高效地处理大规模数据成为了各行各业面临的一个重要问题。
本文将从数据存储、数据清洗、数据分析和数据应用四个方面来讨论如何处理大规模数据分析和处理。
一、数据存储大规模数据分析和处理首先需要解决的是数据存储的问题。
庞大的数据量如果不能得到有效的存储,将会成为数据分析和处理的一大障碍。
目前,数据存储的技术有很多种,其中最为常见的是关系型数据库和分布式文件系统。
关系型数据库是传统的数据存储方式,其通过表格的形式将数据进行存储,结构清晰,查询速度较快。
但对于大规模数据来说,关系型数据库的存储和查询效率远远不够。
为了解决这个问题,分布式文件系统应运而生。
分布式文件系统将数据分布式地存储在多台服务器上,通过并行处理的方式提高数据的处理速度。
除了关系型数据库和分布式文件系统外,近年来还出现了很多新的数据存储技术,如NoSQL、Hadoop、Spark等。
这些新技术大大拓展了数据存储的选择范围,使得大规模数据存储变得更加灵活和高效。
在实际的数据存储过程中,我们需要根据数据的特点和业务需求来选择合适的数据存储技术。
有些数据需要结构化存储,有些数据需要半结构化或非结构化存储,有些数据需要高速读写,有些数据需要高可靠性。
选择合适的数据存储技术是处理大规模数据的第一步。
二、数据清洗数据清洗是数据分析和处理中一个非常重要的环节。
原始数据通常存在着各种各样的问题,如数据缺失、数据冗余、数据错误等。
如果不对原始数据进行清洗,将会对后续的数据分析和处理造成很大的困扰。
数据清洗的过程主要包括数据去重、数据填充、数据转换等步骤。
其中,数据去重是最为基础的一个步骤,通过去除重复的数据可以使得数据更加清晰、结构更加简单。
大数据技术是干什么的 主要做哪些工作内容

大数据技术是干什么的主要做哪些工作内容大数据技术是指利用计算机技术处理和分析海量数据的一系列技术手段的总称。
随着信息时代的到来,大数据技术被广泛应用于各个领域,为人们的生活和工作带来了巨大的便利和效益。
那么,大数据技术到底是干什么的,它主要做哪些工作内容呢?数据收集与存储大数据技术的第一个工作内容是数据的收集与存储。
在信息爆炸的时代,数据量呈现爆发式增长,一个企业、一个机构或者一个网站每天产生的数据量都是庞大的。
大数据技术通过各种手段收集各种形式的数据,包括结构化数据、半结构化数据和非结构化数据,并将这些数据存储在大规模的分布式存储系统中,如Hadoop、HBase等,为后续的处理和分析做好准备。
数据清洗与预处理收集到的原始数据往往存在着各种问题,比如数据的不完整性、重复性、错误性等,需要经过数据清洗与预处理的环节。
大数据技术会通过一系列的数据清洗算法和技术,对数据进行去重、去噪、补全等操作,保证数据的质量,为后续的分析和挖掘提供可靠的数据基础。
数据分析与挖掘数据分析与挖掘是大数据技术的核心工作内容之一。
通过各种数据挖掘算法和技术,大数据技术能够从海量数据中发现隐藏的模式、趋势和规律,提取有价值的信息。
比如,可以通过数据挖掘技术对用户行为数据进行分析,从中挖掘用户的潜在需求,为企业的营销和推广提供指导。
数据可视化与呈现数据分析的结果往往以统计图表、报表的形式呈现出来,大数据技术也可以利用数据可视化技术将分析结果以直观的方式展示给用户。
数据可视化可以帮助用户更直观地理解数据的含义,更容易发现数据之间的关联和规律,为决策提供可靠支持。
数据安全与隐私保护在进行大数据处理和分析的过程中,数据的安全和隐私保护问题尤为重要。
大数据技术需要通过各种安全策略和技术手段,确保数据在采集、存储、处理和传输的各个环节都不受到恶意攻击,保护用户的数据隐私不被泄露。
综上所述,大数据技术主要以数据收集与存储、数据清洗与预处理、数据分析与挖掘、数据可视化与呈现、数据安全与隐私保护等工作内容为主要职能,通过这些工作内容,大数据技术能够帮助人们从海量的数据中发现信息、洞察规律、做出决策,为社会和企业的发展提供指导和支持。
大数据 数据清洗与结构化存储 揭示数据清洗

data = pd.read_csv("data/movie_metadata.csv") print(data.describe())
任务2 处理数据基本操作
Car 情报局
3. 查看列信息
查看列信息
print(data.director_name.describe()) #其中director_name是列名,需要修改为想要查看的列名
按条件选择数据
print(data[data['aspect_ratio'] > 1.78][:6]) #这里选择aspect_ratio大于1.78的数据,同样仅选择了前6行数据
Car 情报局
THANK YOU!
查看列内容
print(data['director_name'][:6]) #其中director_name是列名,需要修改为想要查看的列名,这里是查看director_name列名的前 6行 。
查看多列内容
print(data[['director_name', 'num_critic_for_reviews']][:6]) #这里我们选择director_name和num_critic_for_reviews两列,并且仅选择了前6行数据
Car 情报局
任务2 处理数据基本操作
Car 情报局
• Pandas框架
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所 需的工具
• Pandas安装
pip install pandas
任务2 处理数据基本操作
Car 情报局
1. 读取数据
import pandas as pd # 这里是导入pandas模块 data = pd.read_csv("data/movie_metadata.csv") # 读入数据 print(data.head()) # 通过head()方法,打印出前5行
大数据处理的六个流程

大数据处理的六个流程大数据处理是指对海量、复杂、多样化的数据进行收集、存储、管理、分析和应用的过程。
在这个过程中,通常包括六个关键的流程。
本文将依次介绍这六个流程,并提供相关案例分析。
1. 数据采集数据采集是大数据处理的第一步。
这个流程主要涉及到从不同来源获取数据,包括传感器、监控设备、社交媒体、在线平台等。
数据采集的关键在于广泛覆盖不同的数据源,并确保数据的准确性和实时性。
例如,一家电商公司通过监控用户的购物行为和浏览记录来采集数据,以便分析用户喜好和购买趋势,从而改进产品推荐系统。
2. 数据存储数据存储是将采集到的数据保存在合适的存储介质中,以备后续的处理和分析。
传统的数据库已经不能满足大数据处理的需求,因此,大数据存储通常采用分布式文件系统,如Hadoop的HDFS或亚马逊的S3。
数据存储的关键在于高效地组织和管理数据,以便后续的访问和查询。
例如,一个物流公司将每个货物的位置数据存储在分布式文件系统中,以便实时跟踪货物的运输情况。
3. 数据清洗数据清洗是对采集到的原始数据进行处理,以去除噪声、纠正错误和填充缺失值。
这个流程是数据预处理的一部分,旨在提高数据的质量和准确性。
数据清洗的关键在于使用合适的算法和方法,以自动化地处理大规模的数据。
例如,一个市场调研机构在分析用户调查数据之前,需要对数据进行清洗,以去除重复项和不完整的答卷。
4. 数据分析数据分析是对清洗后的数据进行统计、建模和挖掘,以发现数据中的模式、趋势和关联。
数据分析的目标是从数据中获取有价值的信息和洞察,并支持决策和业务发展。
数据分析的关键在于选择合适的模型和算法,以实现准确和高效的分析。
例如,一个保险公司可以通过分析客户的历史保险索赔数据,预测客户未来的赔付风险。
5. 数据可视化数据可视化是将分析结果以图表、图形或其他可视化形式展示出来。
通过可视化,数据分析师和决策者可以更好地理解数据并发现隐藏在数据背后的故事。
数据可视化的关键在于选择合适的图表类型和设计原则,以最大化表达效果和用户体验。
企业大数据清洗方案

企业大数据清洗方案随着大数据时代的到来,企业所拥有的数据量也在快速增长。
然而,这些数据中存在着各种问题,包括数据重复、不完整、不准确等等,这些问题都会影响到企业的决策和业务发展。
因此,对于企业而言,开展大数据清洗工作就显得尤为重要。
概述企业大数据清洗是指通过对企业所拥有的大量数据进行筛选、整合、清洗等一系列工作,使其数据质量达到一定的标准,保证决策的准确性和可靠性,对企业的运营发展起到至关重要的作用。
清洗流程1. 数据收集首先需要收集企业所拥有的所有数据,包括内部数据、外部数据、结构化数据和非结构化数据等,通过各种方式将这些数据进行收集,并进行清洗准备工作。
2. 数据清洗在数据收集完成后,需要对数据进行清洗。
对于数据清洗来说,主要包括以下几个步骤:2.1 数据筛选将收集来的数据进行筛选,将不必要的、重复的和错误的数据删除,保留对决策有用的数据。
2.2 数据整合将各数据源的数据进行整合处理,使其形成一个整体,并建立相应的数据模型。
2.3 数据去重对数据进行比对去重,将相同或相似的数据合并,避免冗余和重复数据造成的影响。
2.4 数据变换针对特殊的数据进行变换处理,使数据符合标准化、统一化要求,便于分析和应用。
3. 数据存储在数据清洗完成后,需要对数据进行存储。
对于数据存储来说,具体方案需要根据企业实际情况来确定,可采用关系数据库、NoSQL数据库、分布式文件系统等多种方式进行存储。
4. 数据分析在数据存储完成后,需要对数据进行分析。
通过对数据进行分析,可以发现数据的问题和不足之处,有利于企业决策和业务发展。
清洗方案在进行大数据清洗时,需要技术与业务相结合,提出合适的清洗方案。
1. 技术方案对于企业而言,数据量通常较大,因此需要采用分布式计算、多线程等技术手段,提高清洗效率,同时保证数据质量。
2. 业务方案针对企业的实际情况,需要制定符合企业需求的清洗方案。
参考如下:2.1 制定清洗标准针对企业数据的特点制定清洗标准,如数据的格式要求、数据的清洗深度等。
大数据处理技术之数据清洗
大数据处理技术之数据清洗数据清洗是大数据处理技术中的重要环节之一,它是指对原始数据进行筛选、过滤、转换和修正等操作,以确保数据的质量和准确性。
在大数据处理过程中,数据清洗起着至关重要的作用,因为原始数据通常包含噪声、错误、重复和不一致等问题,如果不进行清洗,这些问题可能会导致分析结果的不许确和不可靠。
数据清洗的目标是消除数据中的噪声和错误,使数据符合预定的标准和要求。
下面是数据清洗的普通步骤:1. 数据采集:首先需要采集原始数据,这些数据可以来自各种数据源,如数据库、日志文件、传感器等。
2. 数据预处理:在进行数据清洗之前,需要对原始数据进行预处理。
预处理包括数据采样、数据转换和数据集成等步骤。
数据采样是指从原始数据中选取一部份样本数据进行分析,以减少计算量。
数据转换是指将原始数据转换为适合分析的格式,如将日期时间格式转换为统一的格式。
数据集成是指将来自不同数据源的数据进行整合。
3. 数据筛选:在数据清洗过程中,需要对数据进行筛选,去除不符合要求的数据。
筛选的依据可以是数据的完整性、准确性、一致性和合法性等。
例如,可以去除缺失值、重复值和异常值等。
4. 数据转换:在数据清洗过程中,可能需要对数据进行转换,以使其符合预定的标准和要求。
数据转换可以包括数据格式转换、数据归一化和数据编码等操作。
例如,可以将日期时间格式转换为统一的格式,将数值数据进行归一化处理,将文本数据进行编码转换。
5. 数据修正:在数据清洗过程中,如果发现数据存在错误或者不一致,需要进行数据修正。
修正的方法可以是手动修正或者自动修正。
手动修正是指通过人工干预对数据进行修正,自动修正是指通过算法和模型对数据进行修正。
6. 数据验证:在数据清洗完成后,需要对清洗后的数据进行验证。
验证的目的是确保清洗后的数据符合预定的标准和要求。
验证可以通过对数据进行统计分析、可视化分析和模型建立等方法来实现。
7. 数据存储:在数据清洗完成后,需要将清洗后的数据进行存储。
大数据处理与存储技术规范
大数据处理与存储技术规范一、概述随着互联网和信息技术的快速发展,大数据的处理与存储成为了一个重要的挑战。
为了更好地应对大数据的特点和需求,确保数据处理与存储的可靠性和高效性,制定一套大数据处理与存储技术的规范是必要的。
本文将从各个方面介绍大数据处理与存储技术规范的内容。
二、数据采集与清洗1. 数据采集数据采集是大数据处理的第一步,需要规定采集的数据类型、采集频率和采集方式等等。
在采集数据时,应注意保护用户隐私和数据安全,遵循相关法律法规,并确保采集的数据准确性和完整性。
2. 数据清洗大数据往往伴随着数据质量不一致的问题,因此数据清洗是非常重要的。
规范应包括数据清洗的流程、方法和标准,确保清洗后的数据符合预期的格式和质量要求。
三、数据存储与管理1. 存储架构大数据处理对存储架构提出了更高的要求。
规范应包括数据存储的层次结构、分布式存储方案和数据备份策略等内容,以确保数据的可靠性和可用性。
2. 数据管理大数据存储中的数据管理非常重要,包括数据分类、数据命名规范、数据访问控制和权限管理等。
规范应明确数据管理的原则,并规定数据管理的责任和权限。
四、数据处理与分析1. 数据处理流程规范应规定数据处理的流程和步骤,确保数据处理的逻辑性和一致性。
同时,也需要规定数据处理的工具和技术要求,以提高数据处理的效率和准确性。
2. 数据分析方法大数据的分析是挖掘数据价值的关键环节,规范应包括数据分析的方法和技术要求,帮助分析人员更好地进行数据挖掘和洞察,并提供决策支持。
五、数据安全与隐私保护1. 数据安全大数据存储中的数据安全问题不容忽视,规范应包括数据加密、访问控制、防火墙和入侵检测等安全策略,以确保数据的机密性、完整性和可用性。
2. 隐私保护数据隐私保护是大数据处理中的重点问题,规范应规定隐私保护的原则、方法和相关法律要求,保障用户的隐私权益不受侵犯。
六、性能优化与监控1. 性能优化为了提高大数据处理的效率和性能,规范应规定性能优化的方法和指标。
大数据服务平台功能简介
大数据服务平台功能简介随着科技和互联网的快速发展,大数据已经成为了各行业的重要资源和竞争力。
为了更好地利用和管理大数据,大数据服务平台应运而生。
本文将为大家介绍大数据服务平台的功能。
1. 数据采集与存储大数据服务平台具备强大的数据采集和存储能力。
通过各种数据源的接入,平台能够实时地获取和记录海量的数据,包括结构化数据和非结构化数据。
同时,平台还支持数据的备份和存储,确保数据的安全性和完整性。
2. 数据清洗与预处理大数据往往来自各种不同的数据源,质量和格式各异。
为了提高数据的质量和可用性,大数据服务平台提供数据清洗和预处理的功能。
通过数据清洗和去重,平台能够过滤掉冗余和错误的数据,提高数据的准确性。
同时,平台还支持数据的格式转换和规范化,使得数据能够更好地进行分析和应用。
3. 数据分析与挖掘大数据服务平台拥有强大的数据分析和挖掘能力。
平台能够对海量的数据进行快速的处理和分析,发现数据背后的关联和规律。
通过各种算法和模型,平台可以进行数据挖掘,提取有价值的信息和知识。
这些信息和知识可以帮助企业做出更准确的决策,提高业务的效率和竞争力。
4. 数据可视化与报表生成大数据服务平台可以将数据进行可视化展示,并生成各种形式的报表和图表。
通过直观的图表和可视化效果,用户可以更好地理解和分析数据。
平台还提供灵活的报表生成功能,用户可以根据自己的需求自定义报表的格式和内容。
这些报表可以用于汇报、决策支持和业务分析等方面。
5. 数据安全与隐私保护大数据服务平台非常注重数据的安全和隐私保护。
平台通过强大的安全措施,确保数据在传输和存储过程中的安全性。
同时,平台还能对敏感数据进行隐私保护,防止数据泄露和滥用。
这不仅可以维护企业的声誉和利益,也符合相关法律法规的要求。
综上所述,大数据服务平台是一个集数据采集、存储、清洗、分析、挖掘、可视化和安全保护于一体的综合性平台。
通过这些功能,平台可以帮助企业更好地利用和管理大数据,提高业务的效率和竞争力。
大数据 数据治理流程
大数据数据治理流程
大数据数据治理流程通常包括以下几个主要步骤:
1. 数据收集:收集各种数据源的原始数据,包括结构化数据(如数据库、日志文件)和非结构化数据(如文本、图像、音频等)。
2. 数据清洗:对收集到的数据进行清洗和预处理,包括去除重复值、处理缺失值、纠正错误数据等,以确保数据质量。
3. 数据整合:将清洗后的数据整合到一个统一的数据仓库或数据湖中,方便后续的数据分析和挖掘。
4. 数据标准化:对整合后的数据进行标准化处理,包括统一命名规范、数据格式转换、单位转换等,以便于数据的比较和分析。
5. 数据安全与权限控制:确保数据的安全性和隐私性,设置适当的权限控制,限制不同用户对数据的访问和操作权限。
6. 数据建模:根据具体需求和业务场景,进行数据建模,包括定义数据模型、选择合适的算法和模型进行数据分析和挖掘。
7. 数据监控与质量管理:建立数据监控机制,定期检查数据的准确性、完整性和一致性,并进行数据质量评估和修复。
8. 数据治理规范与政策:建立数据治理规范和政策,明确数据的管理责任、流程和流转规则,确保数据的合规性和可信度。
9. 数据可视化与报告:通过数据可视化工具和技术,将分析结果以图表、报表等形式展示,帮助用户更好地理解和利用数据。
10. 持续改进:根据数据使用情况和反馈,不断优化和改进数据治理流程,提高数据质量和业务价值。
以上是大数据数据治理的一般流程,具体的实施方法和步骤可能会因组织和业务需求而有所不同。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Car 情报局
任务2 规范化数据
Car 情报局
1. 数据不规范的原因
1)在数据转化时数据格式错误:比如原本为float类型的数据,在转过程中变为了字符 串类型。 2)错别字:在用户输入的时候,一时大意写出来错别字。 3)英文单词大小写不统一。 4)空格:输入了额外的空格。 5)非ASCII字符。
2. 数据不规范的处理方式
• 数据缺失处理的方法
(1)为缺失数据赋值 (2)去掉/删除缺失数据行 (3)去掉/删除缺失率高的列
Car 情报局
任务1 处理数据缺失
• 方法和实现
(1)为缺失数据赋值
0
Color
1
Color
2
Color
3
Color
4
NaN
5
Color
data = pd.read_csv("data/movie_metadata.csv") print(data['color'][:6]) # 原始数据 data.color = data.color.fillna('colorA') # 利用fillna函数将空值改为colorA print(data['color'][:6]) # 显示修改后的数据
Car 情报局
任务1 处理数据缺失
• 方法和实现
(2)删除不完整的行
1)删除包含任意NaN的行 print(data['color'][:6]) # 原始数据 df = data.dropna() print(df['color'][:6]) # 删除后的数据
0 Color 1 Color 2 Color 3 Color 4 NaN 5 Color
任务3 处理数据表结构错误
1. 存在问题
1)没有列头 2)一个列有多个参数 3)列数据的单位不统一 4)有些列头应该是数据,而不是列名 5)列名中英文变换
Car 情报局
任务3 处理数据表结构错误
2. 数据表结构错误的清洗方法
1)添加或者拆分列头 2)单位转换 3)重复行 4)列头行列转换 5)列头中英文转换
1)格式转化:把数据作类型转换。 2)必要转换:针对不同的情况进行相应转换。如:英语单词做大小写转换。
任务2 规范化数据
Car 情报局
3. 数据不规范的处理方式实现
1)格式转化 data = pd.read_csv("data/movie_metadata.csv", dtype={'director_name': str}) print(data['director_name'].head()) print(data['director_name'][2]) # 结果:Sam Mendes print(type(data['director_name'][2])) # 结果:<class 'str'>
Car 情报局
《大数据平台应用》
项目5 数据清洗与结构化存储 之 清洗数据
教学环节
1 任务1 处理数据缺失 2 任务2 规范化数据 3 任务3 处理数据表结构错误 4 任务4 处理日期数据错误
Car 情报局
任务1 处理数据缺失
• 数据缺失产生的原因
(1)在数据填写时漏填、错填、没有填写 (2)填写的数据时错误数据无法使用 (3)数据计算错误导致数据错误
70kgs 154.89lbs
78 198.658lbs 189lbs 56kgs 78kgs 189lbs 45kgs
72 69
71
-
-
-
-
-
-
79 72
-
-
-
-
-
-
-
-
-
-
78 76
75
-
-
-
-
-
-
-
-
-
85
84
76
65
69
72
-
-
69
75
68
75
72
71
78
75
-
-
-
68
75
72
92
95
87
Car 情报局
② 去除空格 data['movie_title'].str.strip()
③ 非ASCII字符 data['director_name ].replace({r'[^\x00-\x7F]+': ''}, regex=True, inplace=True)
Car 情报局
任务3 处理数据表结构错误
使用数据
Car 情报局
任务1 处理数据缺失
• 方法和实现
(2)删除不完整的列
1)删除一整列都为NA的列 data.drop(axis=1, how='all')
2)删除任何包含空值的列 data.drop(axis=1. how='any')
3)同理可以像行的操作一样,使用threshold 和 subset
1
Mickéy Mousé
2
Donald Duck
3
Mini Mouse
4
Scrooge McDuck
5
Pink Panther
6
Huey McDuck
7
Dewey McDuck
8
Scööpy Doo
9
Huey McDuck
10
Louie McDuck
56 34 16 78kgs 54 52 19 32 52 12
运行前
0 Color 1 Color 2 Color 3 Color 5 Color
运行后
Car 情报局
任务1 处理数据缺失
• 方法和实现
(2)删除不完整的行
2)删除一整行的值都为NA的数据 data.dropna(how='all')
3)有条件删除 data.drop(thresh=5) data.dropna(subset=['title_year'])
Car 情报局
任务3 处理数据表结构错误
Car 情报局
3. 数据表结构错误的清洗方法实现
(1)没有列头
import pandas as pd column_names = ['id', 'name', 'age', 'weight', 'm0006', 'm0612', 'm1218', data = pd.read_csv("data/patient_heart_rate.csv", names=column_names) print(data.head())
任务2 规范化数据
3. 数据不规范的处理方式实现
2)必要变换
① 英文单词大小写变换 data = pd.read_csv("data/movie_metadata.csv") print(data.color.head().str.upper()) # 调用.upper方法,转换为大写 # 同样调用lower方法即可全部转换为小写 print(data.color.str.upper().head())