利用K-Means聚类进行航空公司客户价值分析

合集下载

航空公司聚类分析报告

航空公司聚类分析报告本文将进行航空公司的聚类分析，旨在对航空公司进行分类，以便于更好地理解和比较不同航空公司之间的特点和业务模式。

在航空业这一复杂的行业中，航空公司扮演着重要角色。

航空公司的经营模式、服务质量、航线网络以及价格策略等因素将直接影响到乘客的选择和满意度。

为了实现对航空公司的分类，需要使用适当的聚类算法。

在本次分析中，我们选择使用聚类算法中的K-means算法。

该算法将航空公司的特征数据作为输入，通过迭代计算来将航空公司分成不同的簇。

在分析之前，我们需要对数据进行预处理。

首先，我们需要收集航空公司的相关数据，如市场份额、客户满意度、航线数量、抵达准时率等。

然后，对这些数据进行清洗和归一化处理，以确保数据的准确性和可比性。

接下来，我们将使用K-means算法对预处理后的数据进行聚类。

K-means算法的基本思想是根据簇内数据点的相似性，将数据分成不同的簇。

具体而言，算法首先选择K个初始中心点，然后将每个数据点分配给距离其最近的中心点所属的簇，接着重新计算每个簇的中心点，再次将每个数据点分配给距离其最近的中心点，重复这个过程，直到簇内的数据点不再发生变化。

在得到聚类结果后，我们可以对不同的航空公司进行比较。

通过观察每个簇的特征和表现，我们可以研究各个聚类的特点，并根据需要对航空公司进行分类。

最后，我们可以通过可视化的方式将聚类结果呈现出来。

利用散点图或者雷达图等可视化工具，我们可以清晰地展示不同航空公司在各个特征上的表现，并进一步探讨其在簇内与其他航空公司的相似性和差异性。

通过以上的分析，我们可以得出关于不同航空公司的结论，并基于这些结论提出适应性较强的建议。

这些建议可以帮助航空公司改进其经营战略，提高服务质量，增加市场竞争力。

航空公司客户价值分析Kmeans

数据变换由于原始数据没有直接给出LRFMC五个指标，需要自己计算，具体的计算方式为：（1）L=LOAD_TIME-FFP_DATE（2）R=LAST_TO_END（3）F=FLIGHT_COUNT(4) M=SEG_KM_SUM（5）C=avg_discount数据变换的Python代码如下：1.def reduction_data(datafile,reoutfile):2. data=(cleanoutfile,encoding='utf-8')3.data=data[['LOAD_TIME','FFP_DATE','LAST_TO_END','FLIGHT_COUNT','SEG _KM_SUM','avg_discount']]4.# data['L']=(data['LOAD_TIME'])(data['FFP_DATE'])5.#data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_ADTE'])).d ays)/30)6.####这四行代码费了我3个小时7. d_ffp=(data['FFP_DATE'])8. d_load=(data['LOAD_TIME'])9. res=d_load-d_ffp10. data['L']=(lambda x:x/(30*24*60,'m'))11.12. data['R']=data['LAST_TO_END']13. data['F']=data['FLIGHT_COUNT']14. data['M']=data['SEG_KM_SUM']15. data['C']=data['avg_discount']16. data=data[['L','R','F','M','C']]17.(reoutfile)变换结果如下：客户聚类采纳kMeans聚类算法对客户数据进行客户分组，聚成5组，Python代码如下：1.import pandas as pd2.from import KMeans3.import as plt4.from itertools import cycle5.6.datafile='./tmp/'7.k=58.classoutfile='./tmp/'9.resoutfile='./tmp/'10.data=(datafile)11.12.kmodel=KMeans(n_clusters=k,max_iter=1000)13.(data)14.15.# print16.r1=.value_counts()17.r2=18.r=([r2,r1],axis=1)19.=list+['类别数量']20.# print(r)21.# (classoutfile,index=False)22.23.r=([data,,index=],axis=1)24.=list+['聚类类别']25.# (resoutfile,index=False)对数据进行聚类分群的结果如下表所示：。

客户价值评估 (2)

客户价值评估客户价值评估是一种通过分析客户的行为和需求，评估客户对企业的价值和潜在利润的方法。

它帮助企业了解客户的价值，为企业制定有效的市场营销策略和客户关系管理计划提供依据。

本文将详细介绍客户价值评估的步骤和方法，并提供相关数据和案例分析。

一、客户价值评估的步骤1. 收集客户数据：首先，企业需要收集客户的基本信息和购买行为数据。

可以通过客户调查、购买记录、社交媒体分析等方式获取客户数据。

2. 客户细分：根据客户的特征和行为将客户进行细分。

可以根据购买频率、购买金额、产品偏好等指标将客户分为不同的细分群体。

3. 评估客户价值指标：根据企业的业务目标和市场策略，选择合适的客户价值指标进行评估。

常用的客户价值指标包括客户生命周期价值（CLV）、购买频率、购买金额、客户满意度等。

4. 分析客户行为：通过分析客户的购买行为、产品偏好、投诉记录等数据，了解客户的需求和行为模式。

可以使用数据挖掘和统计分析等方法进行客户行为分析。

5. 评估客户潜在利润：根据客户的购买行为和潜在需求，评估客户的潜在利润。

可以通过交叉销售分析、客户细分分析等方法预测客户的购买潜力。

6. 制定市场营销策略：根据客户价值评估的结果，制定相应的市场营销策略。

可以针对高价值客户提供个性化的服务和优惠，提高客户满意度和忠诚度。

二、客户价值评估的方法1. 客户生命周期价值（CLV）方法：客户生命周期价值是评估客户对企业的长期价值的指标。

它基于客户的购买行为和消费模式，预测客户在未来一段时间内的价值。

可以使用统计模型和数据分析方法计算客户的生命周期价值。

2. RFM模型：RFM模型是一种常用的客户细分方法，通过客户的最近一次购买时间（Recency）、购买频率（Frequency）和购买金额（Monetary）三个指标对客户进行评估。

根据客户的RFM得分，可以将客户分为不同的细分群体，制定相应的市场营销策略。

3. K-means聚类分析：K-means聚类分析是一种无监督学习方法，通过将客户根据相似性进行聚类，发现潜在的客户群体。

《数据挖掘实验》---K-means聚类及决策树算法实现预测分析实验报告

实验设计过程及分析：1、通过通信企业数据（USER_INFO_M.csv），使用K-means算法实现运营商客户价值分析，并制定相应的营销策略。

（预处理，构建5个特征后确定K 值，构建模型并评价）代码：setwd("D:\\Mi\\数据挖掘\\")datafile<-read.csv("USER_INFO_M.csv")zscoredFile<- na.omit(datafile)set.seed(123) # 设置随机种子result <- kmeans(zscoredFile[,c(9,10,14,19,20)], 4) # 建立模型，找聚类中心为4round(result$centers, 3) # 查看聚类中心table(result$cluster) # 统计不同类别样本的数目# 画出分析雷达图par(cex=0.8)library(fmsb)max <- apply(result$centers, 2, max)min <- apply(result$centers, 2, min)df <- data.frame(rbind(max, min, result$centers))radarchart(df = df, seg =5, plty = c(1:4), vlcex = 1, plwd = 2)# 给雷达图加图例L <- 1for(i in 1:4){legend(1.3, L, legend = paste("VIP_LVL", i), lty = i, lwd = 3, col = i, bty = "n")L <- L - 0.2}运行结果：2、根据企业在2016.01-2016.03客户的短信、流量、通话、消费的使用情况及客户基本信息的数据，构建决策树模型，实现对流失客户的预测，F1值。

航空公司客户价值分析

02 业务分析及数据预处理
LRFMC取值范围
属性名称最小值最大值
L 12.23 114.63
R 0.03 24.37
F
M
2
368
213
580717
C 0.14 1.5
LRFMC数据标准化
（部分数据）
ZL 1.69 1.69 1.682 1.534 0.89 -0.497 -0.869
ZR 0.14 -0.322 -0.488 -0.785 -0.427 -0.691 1.996
第13页，共18页。
03 模型构建及业务分析
04
一般与低价值客户
(客户群4、5)
这类客户所乘坐航班的平均折扣率(C)很低，较长时间没有乘坐过本公司航班(R)高，乘坐的次数(F)或
里程(M)较低，入会时长(L)短。他们是航空公司的一
般用户与低价值客户，可能是航空公司机票打折促销
时，才会乘坐本公司航班。
02 业务分析及数据预处理
航空信息原始数据（部分数据）
MEMBER_NO 289047040 289053451 289022508 289004181 289026513 289027500 289058898 289037374 289036013 289046087 289062045 289022276
03 模型构建及业务分析
采用K-均值聚类算法对客户数据进行客户分群
聚类类别聚类个数 ZL
ZR
聚类中心
ZF
ZM
ZC
客户群1
5337 0.483 -0.799 2.483 2.424 0.308
客户群2
15735 1.16 -0.377 -0.087 -0.095 -0.158

聚类算法在航空客户分群中的使用技巧

聚类算法在航空客户分群中的使用技巧随着航空业的发展以及数据科学的兴起，航空公司开始更加重视客户分群的重要性。

客户分群是通过将客户按照某些相似性特征进行分类，从而帮助航空公司更好地了解不同类型客户的需求和行为模式。

在客户分群领域，聚类算法是一种常用的技术，它能够将相似客户归为一类，并揭示隐藏在数据背后的客户特征及规律。

本文将介绍聚类算法在航空客户分群中的使用技巧，帮助航空公司更好地利用这一技术。

首先，为了有效地使用聚类算法，我们需要选择合适的特征。

航空公司的客户数据通常包含各种各样的特征，如航班频次、消费金额、乘坐舱位等。

在选择特征时，我们需要保证它们既具有区分度又具有可解释性。

例如，选择航班频次作为特征时，可以将客户分为高频次旅客和低频次旅客两类，从而了解不同客户群体的旅行频率。

其次，为了提高聚类算法的准确性，我们可以使用数据预处理技术。

例如，通过归一化或标准化处理，将不同特征的取值范围统一至同一尺度，避免因特征取值范围差异导致的聚类结果偏差。

此外，还可以通过降维技术，如主成分分析（PCA），将高维数据转化为低维表示，减少特征之间的冗余信息。

在选择聚类算法时，我们需要考虑数据的性质和需求目标。

常用的聚类算法包括K均值聚类、层次聚类和密度聚类等。

K 均值聚类是一种简单而高效的算法，适用于处理大规模数据集。

层次聚类能够将数据组织成一个层次结构，可以通过树状图一目了然地展示不同层级的聚类结果。

密度聚类则适用于处理具有不规则形状的数据分布，能够发现各种形状和大小的聚类。

在应用聚类算法时，我们需要选择适当的聚类数目。

聚类数目的选择对于分群结果的准确性和解释性非常重要。

过多的聚类数目可能导致细分过度，难以得到有意义的结论；而过少的聚类数目可能忽略了数据中的潜在模式和差异。

为了确定最佳聚类数目，常用的方法包括肘部法和轮廓系数法。

肘部法通过绘制聚类数目与聚类误差平方和之间的关系图，找到肘部弯曲点所对应的聚类数目。

kmeans聚类算法应用实例

kmeans聚类算法应用实例K-Means聚类算法应用实例一、K-Means聚类算法简介K-Means聚类算法是一种基于凝聚属性的迭代算法，它旨在将数据集中的样本点分类划分到指定数量的簇中，以达到相关性最强的分组效果。

算法的核心思想是，寻找代表簇中心的聚类中心，并根据距离聚类中心的远近，将样本分类到不同的簇中。

K-Means聚类的目的是要求出最优的聚类中心，使得样本集可以被完美划分成K个簇。

二、K-Means聚类算法的应用实例（1）客群分析K-Means聚类算法可以帮助分析客户行为及消费习惯，自动归类用户构成不同客群，如：高价值客户，积极向上的客户，偶尔购买的客户，交易历史较短的客户，低价值客户等，使企业更明确地识别其客户，选择最佳的沟通方式，创造出最大的收益。

（2）市场营销用户的社会属性，行为属性和品牌属性等，都可以利用K-Means算法对用户进行分类，进而分析用户喜好，细分市场，在不同市场中采取不同的营销战略，从而从更佳的维度去理解市场消费行为，深入分析和把握客户的行为，改善企业的市场营销效果。

（3）图像聚类K-Means聚类算法也可以用于图像处理中的相似图像聚类，以减少用户在查看数据时需要处理太多图像。

它旨在将图像划分为几个集群，使得每个簇中的样本相似度最高。

K-Means聚类算法可以用于解决视觉识别任务中的分类问题，提高图像识别系统的正确率以及效率。

（4）故障诊断K-Means聚类也可以用于故障诊断，将系统参数情况分类，来区分出系统的故障，当某一参数的值远低于正常值时，可以准确的将其分类为异常值，从而确定系统存在什么故障，从而可以有效降低系统故障率，提高系统稳定性和可靠性。

三、四、K-Means聚类算法的优缺点（1）优点a. K-Means算法效率高，计算量少；b. K-Means算法易于实现，调参相对容易；c. K-Means算法执行简单，可轻松融入现有系统；d. K-Means具有 translation invariant， scale invariant等特性，可解决非线性问题；（2）缺点a. K-Means算法的缺点是受初始聚类中心的影响较大，其结果可能受噪声干扰；b. K-Means算法可能收敛到局部最佳解；c. K-Means算法不能解决不同量级聚类间隔差异大的问题；d. K-Means算法对异常值存在敏感性，容易影响到聚类结果。

利用KMeans聚类进行航空公司客户价值分析

利⽤KMeans聚类进⾏航空公司客户价值分析准确的客户分类的结果是企业优化营销资源的重要依据，本⽂利⽤了航空公司的部分数据，利⽤Kmeans聚类⽅法，对航空公司的客户进⾏了分类，来识别出不同的客户群体，从来发现有⽤的客户，从⽽对不同价值的客户类别提供个性化服务，指定相应的营销策略。

⼀、分析⽅法和过程1.数据抽取——>2.数据探索与预处理——>3。

建模与应⽤传统的识别客户价值应⽤最⼴泛的模型主要通过3个指标（最近消费时间间隔（Recency）、消费频率（Frequency）和消费⾦额（Monetary））来进⾏客户细分，识别出价值⾼的客户，简称RFC模型。

点击查看在RFC模型中，消费⾦额表⽰在⼀段时间内，客户购买产品的总⾦额。

但是不适⽤于航空公司的数据处理。

因此我们⽤客户在⼀段时间内的累计飞⾏⾥程M和客户在⼀定时间内乘坐舱位的折扣系数C代表消费⾦额。

再在模型中增加客户关系长度L，所以我们⽤LRFMC模型。

因此本次数据挖掘的主要步骤：1).从航空公司的数据源中进⾏选择性抽取与新增数据抽取分别形成历史数据和增量数据2).对步骤1）中形成的两个数据集进⾏数据探索分析和预处理，包括数据缺失值和异常值分析。

即数据属性的规约、清洗和变换3).利⽤步骤2）中的处理的数据进⾏建模，利⽤Python下Sklearn库中提供的KMeans⽅法，进⾏聚类4)。

针对模型的结果进⾏分析。

⼆。

数据处理1.下⾯是本次试验数据集的⼀部分截图，数据集抽取2012-4-1到2014-3-31内乘客的数据，⼀个62988条数据。

包括了会员卡号、⼊会时间、性别、年龄等44个属性。

2.数据探索分析：主要是对数据进⾏缺失值分析与异常值的分析。

通过发现原始数据中存在票价为空值，票价最⼩值为0，折扣率最⼩值为0、总飞⾏公⾥数⼤于0的记录。

其Python代码如下：def explore(datafile,exploreoutfile):"""进⾏数据的探索@Dylan:param data: 原始数据⽬录:return: 探索后的结果"""data=pd.read_csv(datafile,encoding='utf-8')explore=data.describe(percentiles=[],include='all').T####包含了对数据的基本描述，percentiles参数是指定计算多少分位数explore['null']=len(data)-explore['count'] ##⼿动计算空值数explore=explore[['null','max','min']]####选取其中的重要列explore.columns=['空值数','最⼤值','最⼩值']"""describe()函数⾃动计算的字段包括：count、unique、top、max、min、std、mean。

基于数据挖掘的航空公司客户价值分析

基于数据挖掘的航空公司客户价值分析第一章：绪论随着互联网时代的到来，航空公司已经成为了交通运输的主要方式。

然而，随着市场竞争加剧，如何提高客户留存率并提高收益成为了航空公司面临的重要问题。

此时，数据挖掘技术的应用则成为了解决这一问题的有力工具。

本文基于数据挖掘技术对航空公司客户价值进行分析，旨在为航空公司提供客户保留和收益提高的参考依据。

第二章：相关理论2.1 数据挖掘数据挖掘是一种自动化地探索海量数据，以找到其中隐藏的知识或规律的技术。

它是一种将大量数据集为基础的、自动化的山寨思考和提取模式的过程，是从大规模的天外数据集中提取先于知识或者信息，可以用这些信息来开发事物和创新构思。

2.2 客户价值客户价值是指企业通过对客户需求的了解，能够为客户提供的满足需求的产品和服务所创造的价值。

客户价值可分为现金价值和未来价值，其中现金价值是指客户在一定时间内购买产品或服务所带来的现金收益，未来价值则是指客户对企业的长期价值，如忠诚度。

第三章：相关方法3.1 K-Means聚类算法K-Means聚类算法是一种最常用的无监督学习算法，将簇内数据的方差和最小化是该算法的主要目标。

该算法以簇中心为依据，将数据逐个进行分类，使得彼此属于同一个类簇的数据离其所处的中心点最近。

3.2 决策树算法决策树算法是一种基于树形结构的算法，该算法通过树形结构，进行自上而下的逐一判断选择，最终将数据集分为驱动选择的不同类型。

该算法常用于分类和预测模型，比如说在金融领域，可以用该算法预测客户是否具有逾期风险。

第四章：案例分析本文以某航空公司的客户数据为分析基础，首先对客户进行分类，其次将数据进行分析，从而确定客户的价值，并建立相应的模型，以提高客户的保留率和收益。

4.1 客户分类通过对某航空公司的客户数据进行分析，选用K-means聚类算法对客户进行分类，根据聚类结果将客户分为三类：- 高价值客户：在过去一年中花费最高，是航空公司最重要的客户。

A010-W-王军晓_航空客运信息挖掘

Key words:
LRFMC-cluster analysis
principal componsis
SPSS
decision trees
neural networks
第 2 页，共 40 页
太普华南杯数据挖掘竞赛论文报告
目录
1.挖掘目标 .................................................................................................................. 5 2.总体流程 .................................................................................................................. 5 3.数据抽取 .................................................................................................................. 5
3.1
4.数据预处理............................................................................................................... 6
太普华南杯数据挖掘竞赛论文报告
航空公司常旅客信息挖掘
摘要：提高航空客运的上座率既能使航空资源得到充分利用，更能显著的增加航空公司的效益。为了实现这一目标，我们从大量航空公司会员的会员数据出发，通过数据挖掘技术，分别建立用户细分、用户价值评估和流失预测模型，区分客户群，并提出相应的营销策略，从而达到提高上座率和效益的目标。首先是建立客户细分模型。我们根据文献并对已有数据进行预处理，筛选出 5 个 L、R、F、M、 C 五个指标作为航空公司客户细分的核心维度，利用 LRFMC 聚类分析法进行用户分群与初步评分。这个方法利用层次分析法（AHP）计算各核心维度的权重，再对数据进行标准化，并用 SPSS 软件实现 K-means 聚类法将所有客户划分为 32 种客户类别及其类型特点。接着利用权重计算各客户群综合得分，从而将航空公司的客户群体划分成重要保持客户、重要发展客户、重要挽留客户、忠诚型一般客户、低价值客户等五个级别的客户群。然后是建立客户价值评估模型。我们将客户细分模型所得的 5 个客户群的数据进行预处理，选择对客户价值影响最大的 14 个属性作为主成分分析法中所选用的要素。通过 SPSS 软件，对数据进行因子分析和降维处理，根据所得的数据可知，这 14 个属性可由 2 个主成分来综合表示，同时得出了各属性在主成分的组成中所占权重。通过数据标准化，结合权重，计算出了各用户群的综合得分，作为价值排名依据。接着是建立客户流失模型。我们定义了客户回头率这个概念（客户第二年乘机次数与第一年乘机次数比值），以 0.5 和 0.8 为两个临界值将老客户划分为流失客户、准流失客户、未流失客户三种客户类型，并选取一些维度及其衍生出的维度，使用决策树、神经网络两种方法进行客户流失模型的建立，找出了影响客户流失的关键性因素，并用将两种方法进行对比，最终确定了影响客户流失的几个比较重要因素有平均折扣率、单位里程票价和单位里程所得积分。最后，根据已建立的客户细分、价值评估和流失模型所得的结论，针对各个不同的客户群提出不同的服务和营销策略，吸引客户乘坐航班，来提高上座率和效益。关键词：关键词：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

利用K-Means聚类进行航空公司客户价值分析1.背景与挖掘目标 1.1背景航空公司业务竞争激烈，从产品中心转化为客户中心。

针对不同类型客户，进行精准营销，实现利润最大化。

建立客户价值评估模型，进行客户分类，是解决问题的办法 1.2挖掘目标借助航空公司客户数据，对客户进行分类。

对不同的客户类别进行特征分析，比较不同类客户的客户价值对不同价值的客户类别提供个性化服务，制定相应的营销策略。

详情数据见数据集内容中的air_data.csv和客户信息属性说明 2.分析方法与过程 2.1分析方法首先，明确目标是客户价值识别。

识别客户价值，应用最广泛的模型是三个指标（消费时间间隔（Recency）,消费频率（Frequency）,消费金额（Monetary））以上指标简称RFM 模型，作用是识别高价值的客户消费金额，一般表示一段时间内，消费的总额。

但是，因为航空票价收到距离和舱位等级的影响，同样金额对航空公司价值不同。

因此，需要修改指标。

选定变量，舱位因素=舱位所对应的折扣系数的平均值=C，距离因素=一定时间内积累的飞行里程=M。

再考虑到，航空公司的会员系统，用户的入会时间长短能在一定程度上影响客户价值，所以增加指标L=入会时间长度=客户关系长度总共确定了五个指标，消费时间间隔R，客户关系长度L，消费频率F，飞行里程M和折扣系数的平均值C以上指标，作为航空公司识别客户价值指标，记为LRFMC模型如果采用传统的RFM模型，如下图。

它是依据，各个属性的平均值进行划分，但是，细分的客户群太多，精准营销的成本太高。

综上，这次案例，采用聚类的办法进行识别客户价值，以LRFMC模型为基础本案例，总体流程如下图2.2挖掘步骤从航空公司，选择性抽取与新增数据抽取，形成历史数据和增量数据对步骤一的两个数据，进行数据探索性分析和预处理，主要有缺失值与异常值的分析处理，属性规约、清洗和变换利用步骤2中的已处理数据作为建模数据，基于旅客价值的LRFMC模型进行客户分群，对各个客户群再进行特征分析，识别有价值客户。

针对模型结果得到不同价值的客户，采用不同的营销手段，指定定制化的营销服务，或者针对性的优惠与关怀。

（重点维护老客户） 2.3数据抽取选取，2014-03-31为结束时间，选取宽度为两年的时间段，作为观测窗口，抽取观测窗口内所有客户的详细数据，形成历史数据对于后续新增的客户信息，采用目前的时间作为重点，形成新增数据 2.4探索性分析本案例的探索分析，主要对数据进行缺失值和异常值分析。

发现，存在票价为控制，折扣率为0，飞行公里数为0。

票价为空值，可能是不存在飞行记录，其他空值可能是，飞机票来自于积分兑换等渠道，查找每列属性观测值中空值的个数、最大值、最小值的代码如下。

import pandas as pddatafile= r'/home/kesci/input/date27730/air_data.csv' #航空原始数据,第一行为属性标签resultfile = r'/home/kesci/work/test.xls' #数据探索结果表data = pd.read_csv(datafile, encoding = 'utf-8') #读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）explore = data.describe(percentiles = [], include = 'all').T #包括对数据的基本描述，percentiles参数是指定计算多少的分位数表（如1/4分位数、中位数等）；T是转置，转置后更方便查阅print(explore)explore['null'] = len(data)-explore['count'] #describe()函数自动计算非空值数，需要手动计算空值数explore = explore[['null', 'max', 'min']]explore.columns = [u'空值数', u'最大值', u'最小值'] #表头重命名print('-----------------------------------------------------------------以下是处理后数据')print(explore)'''这里只选取部分探索结果。

describe()函数自动计算的字段有count（非空值数）、unique（唯一值数）、top（频数最高者）、freq（最高频数）、mean （平均值）、std（方差）、min（最小值）、50%（中位数）、max（最大值）'''-----------------------------------------------------------------以下是处理前数据count unique topfreq mean stdMEMBER_NO 62988 NaNNaN NaN 31494.5 18183.2FFP_DATE 62988 3068 2011/01/13 184 NaN NaNFIRST_FLIGHT_DATE 62988 3406 2013/02/16 96 NaN NaNGENDER 62985 2男48134 NaN NaNFFP_TIER 62988 NaN NaN NaN 4.10216 0.373856WORK_CITY 60719 3310 广州9385 NaN NaNWORK_PROVINCE 59740 1185广东17507 NaN NaNWORK_COUNTRY 62962 118CN 57748 NaN NaN...-----------------------------------------------------------------以下是处理后数据空值数最大值最小值MEMBER_NO 0 62988 1 FFP_DATE 0 NaN NaN FIRST_FLIGHT_DATE 0 NaN NaN GENDER 3 NaN NaN FFP_TIER 0 6 4 WORK_CITY 2269 NaN NaN WORK_PROVINCE 3248 NaN NaN WORK_COUNTRY 26 NaN NaN AGE 420 110 6LOAD_TIME 0 NaN NaN FLIGHT_COUNT 0 213 2BP_SUM 0 505308 0 ...2.3数据预处理数据清洗丢弃票价为空记录丢弃票价为0、平均折扣率不为0、总飞行公里数大于0的记录import pandas as pddatafile= '/home/kesci/input/date27730/air_data.csv' #航空原始数据,第一行为属性标签cleanedfile = '' #数据清洗后保存的文件data = pd.read_csv(datafile,encoding='utf-8') #读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）data = data[data['SUM_YR_1'].notnull() &data['SUM_YR_2'].notnull()] #票价非空值才保留#只保留票价非零的，或者平均折扣率与总飞行公里数同时为0的记录。

index1 = data['SUM_YR_1'] != 0index2 = data['SUM_YR_2'] != 0index3 = (data['SEG_KM_SUM'] == 0) &(data['avg_discount'] == 0) #该规则是“与”,书上给的代码无法正常运行，修改'*'为'&'data = data[index1 | index2 | index3] #该规则是“或”print(data)# data.to_excel(cleanedfile) #导出结果————————————————————以下是处理后数据————————MEMBER_NO FFP_DATEFIRST_FLIGHT_DATE GENDER FFP_TIER \0 54993 2006/11/02 2008/12/24 男 61 28065 2007/02/19 2007/08/03 男 62 55106 2007/02/01 2007/08/30 男 63 21189 2008/08/22 2008/08/23 男 54 39546 2009/04/10 2009/04/15 男 65 56972 2008/02/10 2009/09/29 男 66 44924 2006/03/22 2006/03/29 男 67 22631 2010/04/09 2010/04/09 女 68 32197 2011/06/07 2011/07/01 男 59 31645 2010/07/05 2010/07/05 女 6属性规约原始数据中属性太多，根据航空公司客户价值LRFMC模型，选择与模型相关的六个属性。

删除其他无用属性，如会员卡号等等def reduction_data(data):data = data[['LOAD_TIME', 'FFP_DATE','LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM','avg_discount']]#data['L']=pd.datetime(data['LOAD_TIME'])-pd.datetime(data['F FP_DATE'])#data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_AD TE'])).days)/30)d_ffp = pd.to_datetime(data['FFP_DATE'])d_load = pd.to_datetime(data['LOAD_TIME'])res = d_load - d_ffpdata2=data.copy()data2['L'] = res.map(lambda x: x / np.timedelta64(30 * 24 * 60, 'm'))data2['R'] = data['LAST_TO_END']data2['F'] = data['FLIGHT_COUNT']data2['M'] = data['SEG_KM_SUM']data2['C'] = data['avg_discount']data3 = data2[['L', 'R', 'F', 'M', 'C']]return data3data3=reduction_data(data)print(data3)————————————以下是以上代码处理后数据————————————L R F M C0 90.200000 1 210 580717 0.9616391 86.566667 7 140 293678 1.2523142 87.166667 11 135 283712 1.2546763 68.233333 97 23 281336 1.0908704 60.5333335 152 309928 0.9706585 74.700000 79 92 294585 0.9676926 97.700000 1 101 287042 0.9653477 48.400000 3 73 287230 0.9620708 34.266667 6 56 321489 0.828478数据变换意思是，将原始数据转换成“适当”的格式，用来适应算法和分析等等的需要。