利用K-Means聚类进行航空公司客户价值分析.doc

合集下载

航空公司聚类分析报告

航空公司聚类分析报告本文将进行航空公司的聚类分析，旨在对航空公司进行分类，以便于更好地理解和比较不同航空公司之间的特点和业务模式。

在航空业这一复杂的行业中，航空公司扮演着重要角色。

航空公司的经营模式、服务质量、航线网络以及价格策略等因素将直接影响到乘客的选择和满意度。

为了实现对航空公司的分类，需要使用适当的聚类算法。

在本次分析中，我们选择使用聚类算法中的K-means算法。

该算法将航空公司的特征数据作为输入，通过迭代计算来将航空公司分成不同的簇。

在分析之前，我们需要对数据进行预处理。

首先，我们需要收集航空公司的相关数据，如市场份额、客户满意度、航线数量、抵达准时率等。

然后，对这些数据进行清洗和归一化处理，以确保数据的准确性和可比性。

接下来，我们将使用K-means算法对预处理后的数据进行聚类。

K-means算法的基本思想是根据簇内数据点的相似性，将数据分成不同的簇。

具体而言，算法首先选择K个初始中心点，然后将每个数据点分配给距离其最近的中心点所属的簇，接着重新计算每个簇的中心点，再次将每个数据点分配给距离其最近的中心点，重复这个过程，直到簇内的数据点不再发生变化。

在得到聚类结果后，我们可以对不同的航空公司进行比较。

通过观察每个簇的特征和表现，我们可以研究各个聚类的特点，并根据需要对航空公司进行分类。

最后，我们可以通过可视化的方式将聚类结果呈现出来。

利用散点图或者雷达图等可视化工具，我们可以清晰地展示不同航空公司在各个特征上的表现，并进一步探讨其在簇内与其他航空公司的相似性和差异性。

通过以上的分析，我们可以得出关于不同航空公司的结论，并基于这些结论提出适应性较强的建议。

这些建议可以帮助航空公司改进其经营战略，提高服务质量，增加市场竞争力。

航空公司客户价值分析Kmeans

数据变换由于原始数据没有直接给出LRFMC五个指标，需要自己计算，具体的计算方式为：（1）L=LOAD_TIME-FFP_DATE（2）R=LAST_TO_END（3）F=FLIGHT_COUNT(4) M=SEG_KM_SUM（5）C=avg_discount数据变换的Python代码如下：1.def reduction_data(datafile,reoutfile):2. data=(cleanoutfile,encoding='utf-8')3.data=data[['LOAD_TIME','FFP_DATE','LAST_TO_END','FLIGHT_COUNT','SEG _KM_SUM','avg_discount']]4.# data['L']=(data['LOAD_TIME'])(data['FFP_DATE'])5.#data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_ADTE'])).d ays)/30)6.####这四行代码费了我3个小时7. d_ffp=(data['FFP_DATE'])8. d_load=(data['LOAD_TIME'])9. res=d_load-d_ffp10. data['L']=(lambda x:x/(30*24*60,'m'))11.12. data['R']=data['LAST_TO_END']13. data['F']=data['FLIGHT_COUNT']14. data['M']=data['SEG_KM_SUM']15. data['C']=data['avg_discount']16. data=data[['L','R','F','M','C']]17.(reoutfile)变换结果如下：客户聚类采纳kMeans聚类算法对客户数据进行客户分组，聚成5组，Python代码如下：1.import pandas as pd2.from import KMeans3.import as plt4.from itertools import cycle5.6.datafile='./tmp/'7.k=58.classoutfile='./tmp/'9.resoutfile='./tmp/'10.data=(datafile)11.12.kmodel=KMeans(n_clusters=k,max_iter=1000)13.(data)14.15.# print16.r1=.value_counts()17.r2=18.r=([r2,r1],axis=1)19.=list+['类别数量']20.# print(r)21.# (classoutfile,index=False)22.23.r=([data,,index=],axis=1)24.=list+['聚类类别']25.# (resoutfile,index=False)对数据进行聚类分群的结果如下表所示：。

（R语言商务数据分析实战教案）第3章航空公司客户价值分析

第3章航空公司客户价值分析教案课程名称：R语言商务数据分析实战课程类别：必修适用专业：大数据技术类相关专业总学时：80学时（其中理论45学时，实验35学时）总学分：5.0学分本章学时：7学时一、材料清单（1）《R语言商务数据分析实战》教材。

（2）配套PPT。

（3）引导性提问。

（4）探究性问题。

（5）拓展性问题。

二、教学目标与基本要求1.教学目标结合航空公司客户价值分析的案例，重点介绍数据分析算法中K-Means聚类算法在客户价值分析中的应用。

针对RFM客户价值分析模型的不足，使用K-Means算法构建航空客户价值分析LRFMC模型，详细描述数据分析的整个过程。

2.基本要求（1）熟悉航空公司客户价值分析的步骤与流程。

（2）了解RFM模型的基本原理，以及K-Means算法的基本原理。

（3）构建航空客户价值分析的关键特征。

（4）比较不同类别客户的客户价值，制定相应的营销策略。

三、问题1.引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。

（1）客户价值分析是什么？（2）影响航空公司客户价值的相关因素有哪些？（3）航空公司客户价值分析的意义在哪里？2.探究性问题探究性问题需要教师深入钻研教材的基础上精心设计，提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。

或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。

（1）客户价值分析的使用场景有哪些？（2）航空客户价值分析的步骤与流程有哪些？（3）为何要构建关键特征？3.拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。

亦可以提供拓展资料供学生研习探讨，完成拓展性问题。

（1）除了K-Means算法，能否使用其他算法进行客户价值分析？（2）构建K-Means模型时，为何要选取3为聚类数？四、主要知识点、重点与难点1.主要知识点（1）了解航空公司现状与客户价值分析。

python数据分析与挖掘实战---航空公司客户价值分析

python数据分析与挖掘实战---航空公司客户价值分析航空公司客户价值分析⼀、背景与挖掘⽬标客户关系管理是企业的核⼼问题，关键在于客户的分类：区别⽆价值客户，⾼价值客户，针对不同客户群体有的放⽮投放具体服务⽅案，实现企业利润最⼤化的⽬标。

各⼤航空公司采取优惠措施喜迎更多客户，国内航司⾯对客户流失和资源未完全利⽤等危机，因此建⽴⼀个客户价值评估模型来实现对客户的分类。

⼆、分析⽅法与过程本次的分析⽬的在于客户价值识别，客户价值识别最常⽤的模型是RFM模型：R（最近消费时间间隔）F（消费频率）M（消费⾦额）。

飞机票价取决于飞⾏距离和仓位等级，消费同等⾦额票价的旅客对航司的价值不⼀定相同：购买短程头等舱的旅客和购买长途经济舱的旅客，明显前者对航司的贡献更⼤。

所以对M（消费⾦额）建模时要进⾏修改：⽤⾥程数平均值M和仓位折扣系数平均值C来代替消费的⾦额。

同时，考虑旅客中，加⼊会员的时间越长，客户的潜在价值⼀般越⾼，所以定义⼀个客户关系长度L,作为区分客户的另⼀指标。

接下来针对LRFMC模型，对客户进⾏区分。

LRFMC模型：（1）客户关系长度L：航空公司会员时间的长短。

（2）是消费时间间隔R。

（3）消费频率F。

（4）飞⾏⾥程M。

（5）折扣系数的平均值C。

LRFMC模型指标含义：（1） L：会员⼊会时间距观测窗⼝结束的⽉数。

（2） R：客户最近⼀次乘坐公司飞机距离观测窗⼝结束的⽉数。

（3） F：客户在观测窗⼝内乘坐公司飞机的次数。

（4） M：客户在观测窗⼝内累计的飞⾏⾥程碑。

（5） C：客户在观测窗⼝内乘坐仓位所对应的折扣系数的平均值。

⽅法：本案例采⽤聚类的⽅法，通过对航空公司客户价值的LRFMC模型的五个指标进⾏K-Means聚类，识别客户价值。

三、数据描述给出所有属性的基本信息，共25个属性，均⽆⼤量缺失现象或缺失现象很少。

四、建模1、数据探索分析对数据进⾏缺失值分析与异常值分析，分析出数据的规律以及异常值查找每列属性观测值个数，最⼤值，最⼩值。

《数据挖掘实验》---K-means聚类及决策树算法实现预测分析实验报告

实验设计过程及分析：1、通过通信企业数据（USER_INFO_M.csv），使用K-means算法实现运营商客户价值分析，并制定相应的营销策略。

（预处理，构建5个特征后确定K 值，构建模型并评价）代码：setwd("D:\\Mi\\数据挖掘\\")datafile<-read.csv("USER_INFO_M.csv")zscoredFile<- na.omit(datafile)set.seed(123) # 设置随机种子result <- kmeans(zscoredFile[,c(9,10,14,19,20)], 4) # 建立模型，找聚类中心为4round(result$centers, 3) # 查看聚类中心table(result$cluster) # 统计不同类别样本的数目# 画出分析雷达图par(cex=0.8)library(fmsb)max <- apply(result$centers, 2, max)min <- apply(result$centers, 2, min)df <- data.frame(rbind(max, min, result$centers))radarchart(df = df, seg =5, plty = c(1:4), vlcex = 1, plwd = 2)# 给雷达图加图例L <- 1for(i in 1:4){legend(1.3, L, legend = paste("VIP_LVL", i), lty = i, lwd = 3, col = i, bty = "n")L <- L - 0.2}运行结果：2、根据企业在2016.01-2016.03客户的短信、流量、通话、消费的使用情况及客户基本信息的数据，构建决策树模型，实现对流失客户的预测，F1值。

航空公司客户价值分析

02 业务分析及数据预处理
LRFMC取值范围
属性名称最小值最大值
L 12.23 114.63
R 0.03 24.37
F
M
2
368
213
580717
C 0.14 1.5
LRFMC数据标准化
（部分数据）
ZL 1.69 1.69 1.682 1.534 0.89 -0.497 -0.869
ZR 0.14 -0.322 -0.488 -0.785 -0.427 -0.691 1.996
第13页，共18页。
03 模型构建及业务分析
04
一般与低价值客户
(客户群4、5)
这类客户所乘坐航班的平均折扣率(C)很低，较长时间没有乘坐过本公司航班(R)高，乘坐的次数(F)或
里程(M)较低，入会时长(L)短。他们是航空公司的一
般用户与低价值客户，可能是航空公司机票打折促销
时，才会乘坐本公司航班。
02 业务分析及数据预处理
航空信息原始数据（部分数据）
MEMBER_NO 289047040 289053451 289022508 289004181 289026513 289027500 289058898 289037374 289036013 289046087 289062045 289022276
03 模型构建及业务分析
采用K-均值聚类算法对客户数据进行客户分群
聚类类别聚类个数 ZL
ZR
聚类中心
ZF
ZM
ZC
客户群1
5337 0.483 -0.799 2.483 2.424 0.308
客户群2
15735 1.16 -0.377 -0.087 -0.095 -0.158

kmeans聚类算法应用实例

kmeans聚类算法应用实例K-Means聚类算法应用实例一、K-Means聚类算法简介K-Means聚类算法是一种基于凝聚属性的迭代算法，它旨在将数据集中的样本点分类划分到指定数量的簇中，以达到相关性最强的分组效果。

算法的核心思想是，寻找代表簇中心的聚类中心，并根据距离聚类中心的远近，将样本分类到不同的簇中。

K-Means聚类的目的是要求出最优的聚类中心，使得样本集可以被完美划分成K个簇。

二、K-Means聚类算法的应用实例（1）客群分析K-Means聚类算法可以帮助分析客户行为及消费习惯，自动归类用户构成不同客群，如：高价值客户，积极向上的客户，偶尔购买的客户，交易历史较短的客户，低价值客户等，使企业更明确地识别其客户，选择最佳的沟通方式，创造出最大的收益。

（2）市场营销用户的社会属性，行为属性和品牌属性等，都可以利用K-Means算法对用户进行分类，进而分析用户喜好，细分市场，在不同市场中采取不同的营销战略，从而从更佳的维度去理解市场消费行为，深入分析和把握客户的行为，改善企业的市场营销效果。

（3）图像聚类K-Means聚类算法也可以用于图像处理中的相似图像聚类，以减少用户在查看数据时需要处理太多图像。

它旨在将图像划分为几个集群，使得每个簇中的样本相似度最高。

K-Means聚类算法可以用于解决视觉识别任务中的分类问题，提高图像识别系统的正确率以及效率。

（4）故障诊断K-Means聚类也可以用于故障诊断，将系统参数情况分类，来区分出系统的故障，当某一参数的值远低于正常值时，可以准确的将其分类为异常值，从而确定系统存在什么故障，从而可以有效降低系统故障率，提高系统稳定性和可靠性。

三、四、K-Means聚类算法的优缺点（1）优点a. K-Means算法效率高，计算量少；b. K-Means算法易于实现，调参相对容易；c. K-Means算法执行简单，可轻松融入现有系统；d. K-Means具有 translation invariant， scale invariant等特性，可解决非线性问题；（2）缺点a. K-Means算法的缺点是受初始聚类中心的影响较大，其结果可能受噪声干扰；b. K-Means算法可能收敛到局部最佳解；c. K-Means算法不能解决不同量级聚类间隔差异大的问题；d. K-Means算法对异常值存在敏感性，容易影响到聚类结果。

K—means聚类算法在客户细分中的应用

１ＣＲ简介Ｍ
客户关系管理，就是为企业提供全方位的管理视角，赋予企业更完善的客户交流能力，从而实
收稿日期：２０－６１０８０－２
基金项目：东省高等学校自然科学研究重点项目（６０２）广东外语外贸大学科研创新团队项目（Ｗ２０．Ａ．０）广０Ｚ１，Ｇ０６Ｔ０５作者简介：李霞（９６１７一），女，江西乐平人，讲师，士，究方向：据挖掘，－ｉｌｘａｄｆ．ｄ．ｎ硕研数Ｅｍａｌｉｉ＠ｇｕｓｅｕｃ．：—
极大的购买量和利润．因此，如何维持与高价值客户的良好关系，进一步挖掘潜力客户的价值，合理
分配有限的资源，针对不同价值的客户制定有差别的营销策略，企业在激烈市场竞争中的制胜之道．是
聚类分析是数据挖掘中的一类重要任务，它根据对象之间的相似度将对象划分为不同的组，使得同一组内的对象相似度最大化，而不同组内的对象相似度最小化．聚类分析通常用于从大量数据中寻找隐含的数据分布和模式，它具有广泛的应用：如文档聚类中将相关文档分类以便浏览；用于
生物医学中将有相似功能的基因和蛋白质分组；用于股票市场将具有相似价格浮动的股票分组；用
于ＣＭ中对客户细分等．本文研究聚类分析的经典算法Ｋ— ａｓ１Ｒｍｅｎ［算法，其应用于某超市的ＶＩ１将Ｐ

航空公司客户价值分析数据挖掘设计文档

数据挖掘大作业题目：航空公司客户价值分析目录一、任务背景 (2)二、数据挖掘目标 (2)三、数据探索与预处理 (3)构建航空客户价值分析的关键特征 (3)数据抽取 (5)探索性分析 (5)数据处理 (6)四、模型构建与评价 (12)1.模型构建K-Means聚类算法 (12)客户价值分析 (13)五、总结 (16)一、任务背景高铁、动车等铁路的不断兴建，出行方式的多元化让航空公司受到很大的冲击。

航空公司之间竞争也很激烈，除了四大航空公司之间的竞争之外，还有新兴产业的各类小型航空公司、民营航空公司，旅游等。

甚至国外航线出现高速度增长。

随着时代的发展，客户问题越来越受到关注，客户流失对利润增长造成了非常大的负面影响。

客户与航空公司的关系越长，航空公司的利润就越高。

一个客户使用了几次这次服务，感觉服务不错，那下次还会倾向于这个服务，但是要获得新客户，不仅需要在广告和人员工资上花费很多，去吸引顾客，在销售、市场也会花费很多，并且大多数新客户产生的利润不如那些流失的老客户多。

很明显，失去一个客户对公司来说比得到一个新客户更昂贵。

另外老用户也可以带来新用户。

因此，在这一背景下，分析航空公司客户数据，对客户进行分类，提高客户流失率是当务之急。

航空公司应针对不同类型的客户制定相应的营销模式，以实现利润最大化。

二、数据挖掘目标按航空公司客户数据进行分类。

分析了不同类型顾客的特点，比较不同类型顾客的顾客价值。

可以为不同价值客户类别提供个性化服务，并采用相应的营销策略。

分类客户的目的，就是要更精确地说明谁是我们的客户，了解客户到底有哪些实际需要，企业应该去吸引哪些客户，哪些客户应该被重点保留，以及应该如何迎合重点客户的需求等重要问题，进而使客户关系管理真正成为业务获得成功、扩大产品销量的催化剂。

客户分类是客户关系管理的核心。

帕累托定律（2/8定律）：就是20%的顾客给企业带来80%的销售利润。

20%的客户其利润率达到100%。

利用KMeans聚类进行航空公司客户价值分析

利⽤KMeans聚类进⾏航空公司客户价值分析准确的客户分类的结果是企业优化营销资源的重要依据，本⽂利⽤了航空公司的部分数据，利⽤Kmeans聚类⽅法，对航空公司的客户进⾏了分类，来识别出不同的客户群体，从来发现有⽤的客户，从⽽对不同价值的客户类别提供个性化服务，指定相应的营销策略。

⼀、分析⽅法和过程1.数据抽取——>2.数据探索与预处理——>3。

建模与应⽤传统的识别客户价值应⽤最⼴泛的模型主要通过3个指标（最近消费时间间隔（Recency）、消费频率（Frequency）和消费⾦额（Monetary））来进⾏客户细分，识别出价值⾼的客户，简称RFC模型。

点击查看在RFC模型中，消费⾦额表⽰在⼀段时间内，客户购买产品的总⾦额。

但是不适⽤于航空公司的数据处理。

因此我们⽤客户在⼀段时间内的累计飞⾏⾥程M和客户在⼀定时间内乘坐舱位的折扣系数C代表消费⾦额。

再在模型中增加客户关系长度L，所以我们⽤LRFMC模型。

因此本次数据挖掘的主要步骤：1).从航空公司的数据源中进⾏选择性抽取与新增数据抽取分别形成历史数据和增量数据2).对步骤1）中形成的两个数据集进⾏数据探索分析和预处理，包括数据缺失值和异常值分析。

即数据属性的规约、清洗和变换3).利⽤步骤2）中的处理的数据进⾏建模，利⽤Python下Sklearn库中提供的KMeans⽅法，进⾏聚类4)。

针对模型的结果进⾏分析。

⼆。

数据处理1.下⾯是本次试验数据集的⼀部分截图，数据集抽取2012-4-1到2014-3-31内乘客的数据，⼀个62988条数据。

包括了会员卡号、⼊会时间、性别、年龄等44个属性。

2.数据探索分析：主要是对数据进⾏缺失值分析与异常值的分析。

通过发现原始数据中存在票价为空值，票价最⼩值为0，折扣率最⼩值为0、总飞⾏公⾥数⼤于0的记录。

其Python代码如下：def explore(datafile,exploreoutfile):"""进⾏数据的探索@Dylan:param data: 原始数据⽬录:return: 探索后的结果"""data=pd.read_csv(datafile,encoding='utf-8')explore=data.describe(percentiles=[],include='all').T####包含了对数据的基本描述，percentiles参数是指定计算多少分位数explore['null']=len(data)-explore['count'] ##⼿动计算空值数explore=explore[['null','max','min']]####选取其中的重要列explore.columns=['空值数','最⼤值','最⼩值']"""describe()函数⾃动计算的字段包括：count、unique、top、max、min、std、mean。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

利用 K-Means 聚类进行航空公司客户价值分析1.背景与挖掘目标 1.1 背景航空公司业务竞争激烈，从产品中心转化为客户中心。

针对不同类型客户，进行精准营销，实现利润最大化。

建立客户价值评估模型，进行客户分类，是解决问题的办法 1.2 挖掘目标借助航空公司客户数据，对客户进行分类。

对不同的客户类别进行特征分析，比较不同类客户的客户价值对不同价值的客户类别提供个性化服务，制定相应的营销策略。

详情数据见数据集内容中的air_data.csv 和客户信息属性说明 2.分析方法与过程 2.1 分析方法首先，明确目标是客户价值识别。

识别客户价值，应用最广泛的模型是三个指标（消费时间间隔（Recency） ,消费频率（ Frequency）,消费金额（ Monetary ））以上指标简称RFM 模型，作用是识别高价值的客户消费金额，一般表示一段时间内，消费的总额。

但是，因为航空票价收到距离和舱位等级的影响，同样金额对航空公司价值不同。

因此，需要修改指标。

选定变量，舱位因素=舱位所对应的折扣系数的平均值=C，距离因素 =一定时间内积累的飞行里程 =M 。

再考虑到，航空公司的会员系统，用户的入会时间长短能在一定程度上影响客户价值，所以增加指标 L= 入会时间长度 =客户关系长度总共确定了五个指标，消费时间间隔 R，客户关系长度 L ，消费频率 F，飞行里程 M 和折扣系数的平均值 C 以上指标，作为航空公司识别客户价值指标，记为LRFMC 模型如果采用传统的 RFM 模型，如下图。

它是依据，各个属性的平均值进行划分，但是，细分的客户群太多，精准营销的成本太高。

综上，这次案例，采用聚类的办法进行识别客户价值，以LRFMC 模型为基础本案例，总体流程如下图2.2 挖掘步骤从航空公司，选择性抽取与新增数据抽取，形成历史数据和增量数据对步骤一的两个数据，进行数据探索性分析和预处理，主要有缺失值与异常值的分析处理，属性规约、清洗和变换利用步骤 2 中的已处理数据作为建模数据，基于旅客价值的 LRFMC 模型进行客户分群，对各个客户群再进行特征分析，识别有价值客户。

针对模型结果得到不同价值的客户，采用不同的营销手段，指定定制化的营销服务，或者针对性的优惠与关怀。

（重点维护老客户） 2.3 数据抽取选取， 2014-03-31 为结束时间，选取宽度为两年的时间段，作为观测窗口，抽取观测窗口内所有客户的详细数据，形成历史数据对于后续新增的客户信息，采用目前的时间作为重点，形成新增数据 2.4 探索性分析本案例的探索分析，主要对数据进行缺失值和异常值分析。

发现，存在票价为控制，折扣率为 0，飞行公里数为 0。

票价为空值，可能是不存在飞行记录，其他空值可能是，飞机票来自于积分兑换等渠道，查找每列属性观测值中空值的个数、最大值、最小值的代码如下。

import pandas as pddatafile= r'/home/kesci/input/date27730/air_data.csv' # 航空原始数据 ,第一行为属性标签resultfile = r'/home/kesci/work/test.xls' # 数据探索结果表data = pd.read_csv(datafile, encoding = 'utf-8') # 读取原始数据，指定 UTF-8 编码（需要用文本编辑器将数据装换为UTF-8 编码）explore = data.describe(percentiles = [], include = 'all').T # 包括对数据的基本描述，percentiles 参数是指定计算多少的分位数表（如 1/4 分位数、中位数等）；T 是转置，转置后更方便查阅print(explore)explore['null'] = len(data)-explore['count'] #describe()函数自动计算非空值数，需要手动计算空值数explore = explore[['null', 'max', 'min']]explore.columns = [u' 空值数 ', u'最大值 ', u'最小值 '] # 表头重命名print('-----------------------------------------------------------------以下是处理后数据')print(explore)'''这里只选取部分探索结果。

describe()函数自动计算的字段有count（非空值数）、unique（唯一值数）、 top（频数最高者）、 freq （最高频数）、 mean （平均值）、 std（方差）、 min （最小值）、 50%（中位数）、max（最大值） '''以下是处-----------------------------------------------------------------理前数据count unique topfreq mean stdMEMBER_NO 62988 NaNNaN NaN 31494.5 18183.2FFP_DATE 62988 3068 2011/01/13184 NaN NaNFIRST_FLIGHT_DATE 62988 3406 2013/02/1696 NaN NaNGENDER 62985 2男48134 NaN NaNFFP_TIER 62988 NaN NaNNaN 4.10216 0.373856WORK_CITY 60719 3310 广州9385 NaN NaNWORK_PROVINCE 59740 1185广东17507 NaN NaNWORK_COUNTRY 62962 118CN 57748 NaN NaN...----------------------------------------------------------------- 以下是处理后数据空值数最大值最小值MEMBER_NO 0 62988 1 FFP_DATE 0 NaNNaNFIRST_FLIGHT_DATE 0 NaN NaN GENDER 3 NaN NaN FFP_TIER 0 6 4 WORK_CITY 2269 NaN NaN WORK_PROVINCE 3248 NaN NaN WORK_COUNTRY 26 NaN NaN AGE 420 110 6 LOAD_TIME 0 NaN NaN FLIGHT_COUNT 0 213 2BP_SUM 0 505308 0 ...2.3 数据预处理数据清洗丢弃票价为空记录丢弃票价为0、平均折扣率不为0、总飞行公里数大于 0 的记录 import pandas as pddatafile= '/home/kesci/input/date27730/air_data.csv' # 航空原始数据 ,第一行为属性标签cleanedfile = '' # 数据清洗后保存的文件data = pd.read_csv(datafile,encoding='utf-8') # 读取原始数据，指定 UTF-8 编码（需要用文本编辑器将数据装换为UTF-8 编码）data = data[data['SUM_YR_1'].notnull() &data['SUM_YR_2'].notnull()] # 票价非空值才保留#只保留票价非零的，或者平均折扣率与总飞行公里数同时为 0 的记录。

index1 = data['SUM_YR_1'] != 0index2 = data['SUM_YR_2'] != 0index3 = (data['SEG_KM_SUM'] == 0) &(data['avg_discount'] == 0) # 该规则是“与”,书上给的代码无法正常运行，修改'*' 为 '&'data = data[index1 | index2 | index3] # 该规则是“或”print(data)#data.to_excel(cleanedfile) # 导出结果————————————————————以下是处理后数据————————MEMBER_NO FFP_DATEFIRST_FLIGHT_DATE GENDER FFP_TIER\0 54993 2006/11/02 2008/12/24 男 61 28065 2007/02/19 2007/08/03 男 62 55106 2007/02/01 2007/08/30 男 63 21189 2008/08/22 2008/08/23 男 54 39546 2009/04/10 2009/04/15 男 65 56972 2008/02/10 2009/09/29 男 66 44924 2006/03/22 2006/03/29 男 67 22631 2010/04/09 2010/04/09 女 68 32197 2011/06/07 2011/07/01 男 59 31645 2010/07/05 2010/07/05 女 6属性规约原始数据中属性太多，根据航空公司客户价值LRFMC 模型，选择与模型相关的六个属性。

删除其他无用属性，如会员卡号等等def reduction_data(data):data = data[['LOAD_TIME', 'FFP_DATE','LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM','avg_discount']]#data['L']=pd.datetime(data['LOAD_TIME'])-pd.datetime(data['F FP_DATE'])#data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_AD TE'])).days)/30)d_ffp = pd.to_datetime(data['FFP_DATE'])d_load = pd.to_datetime(data['LOAD_TIME'])res = d_load - d_ffpdata2=data.copy()data2['L'] = res.map(lambda x: x / np.timedelta64(30 * 24 * 60, 'm'))data2['R'] = data['LAST_TO_END']data2['F'] = data['FLIGHT_COUNT']data2['M'] = data['SEG_KM_SUM']data2['C'] = data['avg_discount']data3 = data2[['L', 'R', 'F', 'M', 'C']]return data3data3=reduction_data(data)print(data3)————————————以下是以上代码处理后数据————————————L R F M C0 90.200000 1 210 580717 0.9616391 86.566667 7 140 293678 1.2523142 87.166667 11 135 283712 1.2546763 68.233333 97 23 281336 1.0908704 60.5333335 152 309928 0.9706585 74.700000 79 92 294585 0.9676926 97.700000 1 101 287042 0.9653477 48.400000 3 73 287230 0.9620708 34.266667 6 56 321489 0.828478数据变换意思是，将原始数据转换成“适当”的格式，用来适应算法和分析等等的需要。