对期货行情数据进行清洗

题目：对期货行情数据进行清洗

提供文件：CFFEX_T1906_20190412.csv

题目说明：

1、行情文件是有列头的csv文件；

2、行情文件是500ms间隔的level1行情；

3、行情数据包含了两个交易时间段['09:15', '11:30'], ['13:00', '15:15']。清洗要求：

1、输出文件包含以下字段：

['datetime', ''symbol', 'pre_settle_price', 'pre_close_price', 'latest_price', 'ask_price_1', 'ask_volume_1', 'bid_price_1', 'bid_volume_1', 'total_fill_volume']；

2、datetime 包含毫秒，格式为：2019-04-12 09:15:00.000；

3、保证每条数据都是500ms间隔，缺失的数据补齐前一时间点数据；

4、非交易时间不填充数据；

5、输出为actual.csv文件和.py文件。

数据预处理

数据预处理（data preprocessing）是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前，首先将不规则分布的测网经过插值转换为规则网的处理，以利于计算机的运算。另外，对于一些剖面测量数据，如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等数据挖掘中的数据预处理现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提前数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。数据清理用来自多个联机事务处理 (OLTP) 系统的数据生成数据仓库的进程的一部分。该进程必须解决不正确的拼写、两个系统之间冲突的拼写规则和冲突的数据（如对于相同的部分具有两个编号）之类的错误。编码或把资料录入时的错误，会威胁到测量的效度。数据清理主要解决数据文件建立中的人为误差，以及数据文件中一些对统计分析结果影响较大的特殊数值。常用的数据清理方法包括可编码式清理和联列式清理。数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标：格式标准化，异常数据清除，错误纠正，重复数据的清除。数据集成数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。在企业数据集成领域，已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统，这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。数据集成例程将多个数据源中的数据结合起来并统一存储，建立数据仓库的过程实际上就是数据集成。数据变换通过平滑聚集，数据概化，规范化等方式将数据转换成适用于数据挖掘的形式。数据归约数据挖掘时往往数据量非常大，在少量数据上进行挖掘分析需要很长的时间，数据归约技术可以用来得到数据集的归约表示，它小得多，但仍然接近于保持原数据的完整性，并结果与归约前结果相同或几乎相同。目前，数据预处理是目前数据挖掘一个热门的研究方面，毕竟这是由数据预处理的产生背景所决定的－－现实世界中的数据几乎都脏数据。一、数据归约基本知识：

(完整word版)数据挖掘数据清洗

数据预处理 1数据清理数据清洗是清除错误和不一致数据的过程，当然，数据清洗不是简单的用更新数据记录，在数据挖掘过程中，数据清洗是第一步骤，即对数据进行预处理的过程。数据清洗的任务是过滤或者修改那些不符合要求的数据。不符合要求的数据主要有不完整的数据、错误的数据和重复的数据3大类。各种不同的挖掘系统都是针对特定的应用领域进行数据清洗的。包括： 1)检测并消除数据异常 2)检测并消除近似重复记录 3)数据的集成 4)特定领域的数据清洗项目中的数据来源于数据仓库，其中数据是不完整的、有噪声和不一致的。数据清理过程试图填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致。数据清洗的目的是为挖掘提供准确而有效的数据，提高挖掘效率。下面介绍数据清理的过程，该过程依照云平台的处理流程。 2缺失值处理对于数据集中的数据，存在有这样两种情况： 1)数据中有大量缺失值的属性，我们通常采取的措施是直接删除，但是在有些系统进行ETL处理时，不能直接处理大量的缺失值。 2)对于比较重要的属性，也会存在少量缺失值，需要将数据补充完整后进行一系列的数据挖掘。针对这两种不完整的数据特征，在数据清洗时采取了以下两种方式对数据填补： 1)将缺失的属性值用同一个常数替换，如“Unknown”。这种方式用于处理上述的第一种数据特征的数据，先用一个替换值将空值进行约束替换。处理后的数据对后期挖掘工作没有价值会选择删除。 2)利用该属性的最可能的值填充缺失值。对于第二种数据特征的数据，事先对每个属性进行值统计，统计其值的分布状态和频率，对该属性的所有遗漏的值均利用出现频率最高的那个值来填补。对缺失数据进行填补后，填入的值可能不正确，数据可能会存在偏置，并不是十分可靠的。然而，该方法使用了该属性已有数据的大部分信息来预测缺失值。在估计缺失值时，通过考虑该属性的值的整体分布与频率，保持该属性的整体分布状态。

Python数据清洗和预处理

数据清洗和预处理 Python 数据处理、分析、可视化与数据化运营 04

本章学习目标掌握常见的数据审核方法以及用途掌握缺失值出现的常见应对错误了解如何判断和处理缺失值掌握去除重复值的方法掌握随机抽样和分层抽样方法了解常见的数据格式转换方法以及特定值的提取方法数据标准化和归一化的常用方法

本章学习目标掌握数据离散化以及二元化处理方法了解分类特征处理的两种常用方法了解基于方差方法的特征选择的基本方法掌握常见的分词工具结巴分词的基本用法熟悉tf-idf的基本含义掌握使用tf-idf进行文本转向量的基本方法

查看数据状态使用head方法打印输出前N条数据用于判断数据读取是否准确，尤其是汉字、特殊编码格式、数据分隔和列拆分等import pandas as pd # ① data = pd.read_csv('data.csv') # ② print(data.head(3)) # ③ 代码①导入pandas库，后续所有pandas功能都基于该操作。代码②使用pandas 的read_csv方法读取数据文件，默认分隔符为逗号。代码③通过head方法打印输出前3条结果。

使用dtypes 方法查看DataFrame 的数据类型审核数据类型 print(data.dtypes) 用于分析不同的字段的读取类型，对类型的判断涉及后续字段的处理和转换，尤其对日期格式、带有ID列、分类型和数值型字符串的判断至关重要。

分析数据分布趋势使用describe查看集中性趋势和离散型趋势集中性趋势指数据向哪个区间或值靠拢，离散性趋势指数据差异程度或分离程度有多大。 print(data.describe(include='all').round(2))