利用K-Means聚类进行航空公司客户价值分析知识分享

利用K-Means聚类进行航空公司客户价值分析

1.背景与挖掘目标1.1背景航空公司业务竞争激烈，从产品中心转化为客户中心。针对不同类型客户，进行精准营销，实现利润最大化。建立客户价值评估模型，进行客户分类，是解决问题的办法1.2挖掘目标借助航空公司客户数据，对客户进行分类。对不同的客户类别进行特征分析，比较不同类客户的客户价值对不同价值的客户类别提供个性化服务，制定相应的营销策略。详情数据见数据集内容中的

air_data.csv和客户信息属性说明2.分析方法与过程2.1分析方法首先，明确目标是客户价值识别。识别客户价值，应用最广泛的模型是三个指标（消费时间间隔（Recency）,消费频率（Frequency）,消费金额（Monetary））以上指标简称RFM 模型，作用是识别高价值的客户消费金额，一般表示一段时间内，消费的总额。但是，因为航空票价收到距离和舱位等级的影响，同样金额对航空公司价值不同。因此，需要修改指标。选定变量，舱位因素=舱位所对应的折扣系数的平均值=C，距离因素=一定时间内积累的飞行里程=M。再考虑到，航空公司的会员系统，用户的入会时间长短能在一定程度上影响客户价值，所以增加指标L=入会时间长度=客户关系长度总共确定了五个指标，消费时间间隔R，客户关系长度L，消费频率F，飞行里程M和折扣系数的平均值C以上指标，

作为航空公司识别客户价值指标，记为LRFMC模型如果采用传统的RFM模型，如下图。它是依据，各个属性的平均值进行划分，但是，细分的客户群太多，精准营销的成本太高。

综上，这次案例，采用聚类的办法进行识别客户价值，以LRFMC模型为基础本案例，总体流程如下图

2.2挖掘步骤从航空公司，选择性抽取与新增数据抽取，形成历史数据和增量数据对步骤一的两个数据，进行数据探索性分析和预处理，主要有缺失值与异常值的分析处理，属性规约、清洗和变换利用步骤2中的已处理数据作为建模数据，基于旅客价值的LRFMC模型进行客户分群，对各个客户群再进行特征分析，识别有价值客户。针对模型结果得到不同价值的客户，采用不同的营销手段，指定定制化的营销服务，或者针对性的优惠与关怀。（重点维护老客户）2.3数据抽取选取，2014-03-31为结束时间，选取宽度为两年的时间段，作为观测窗口，抽取观测窗口内所有客户的详细数据，形成历史数据对于后续新增的客户信息，采用目前的时间作为重点，形成新增数据2.4探索性分析本案例的探索分析，主要对数据进行缺失值和异常值分析。发现，存在票价为控制，折扣率为0，飞行公里数为0。票价为空值，可能是不存在飞行记录，其他空值可能是，飞机票来自于积分兑换等渠道，查找每列属性观测值中空值的个数、最大值、最小值的代码

如下。import pandas as pd

datafile= r'/home/kesci/input/date27730/air_data.csv' #航空原始数据,第一行为属性标签

resultfile = r'/home/kesci/work/test.xls' #数据探索结果表

data = pd.read_csv(datafile, encoding = 'utf-8') #读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）

explore = data.describe(percentiles = [], include = 'all').T #包括对数据的基本描述，percentiles参数是指定计算多少的分位数表（如1/4分位数、中位数等）；T是转置，转置后更方便查阅

print(explore)

explore['null'] = len(data)-explore['count'] #describe()函数自动计算非空值数，需要手动计算空值数

explore = explore[['null', 'max', 'min']]

explore.columns = [u'空值数', u'最大值', u'最小值'] #表头重命名

print('-----------------------------------------------------------------以下是处理后数据')

print(explore)

'''这里只选取部分探索结果。

describe()函数自动计算的字段有count（非空值数）、unique

（唯一值数）、top（频数最高者）、freq（最高频数）、mean （平均值）、std（方差）、min（最小值）、50%（中位数）、max（最大值）'''

-----------------------------------------------------------------以下是处理前数据

count unique top freq mean std

MEMBER_NO 62988 NaN

NaN NaN 31494.5 18183.2

FFP_DATE 62988 3068 2011/01/13 184 NaN NaN

FIRST_FLIGHT_DATE 62988 3406 2013/02/16 96 NaN NaN

GENDER 62985 2

男48134 NaN NaN

FFP_TIER 62988 NaN NaN NaN 4.10216 0.373856

WORK_CITY 60719 3310 广州9385 NaN NaN

WORK_PROVINCE 59740 1185

广东17507 NaN NaN

WORK_COUNTRY 62962 118

CN 57748 NaN NaN

...

-----------------------------------------------------------------以下是处理后数据

空值数最大值最

小值

MEMBER_NO 0 62988 1 FFP_DATE 0 NaN NaN FIRST_FLIGHT_DATE 0 NaN NaN GENDER 3 NaN NaN FFP_TIER 0 6 4 WORK_CITY 2269 NaN NaN WORK_PROVINCE 3248 NaN NaN WORK_COUNTRY 26 NaN NaN AGE 420 110 6 LOAD_TIME 0 NaN NaN FLIGHT_COUNT 0 213 2

BP_SUM 0 505308 0 ...

2.3数据预处理数据清洗丢弃票价为空记录丢弃票价为0、平均折扣率不为0、总飞行公里数大于0的记录import pandas as pd

datafile= '/home/kesci/input/date27730/air_data.csv' #航空原始数据,第一行为属性标签

cleanedfile = '' #数据清洗后保存的文件

data = pd.read_csv(datafile,encoding='utf-8') #读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）

data = data[data['SUM_YR_1'].notnull() &

data['SUM_YR_2'].notnull()] #票价非空值才保留

#只保留票价非零的，或者平均折扣率与总飞行公里数同时为0的记录。

index1 = data['SUM_YR_1'] != 0

index2 = data['SUM_YR_2'] != 0

index3 = (data['SEG_KM_SUM'] == 0) &

(data['avg_discount'] == 0) #该规则是“与”,书上给的代码无法正常运行，修改'*'为'&'

data = data[index1 | index2 | index3] #该规则是“或”

print(data)

# data.to_excel(cleanedfile) #导出结果————————————————————以下是处理后数据————————

MEMBER_NO FFP_DATE

FIRST_FLIGHT_DATE GENDER FFP_TIER \

0 54993 2006/11/02 2008/12/24

男 6

1 28065 2007/02/19 2007/08/03

男 6

2 55106 2007/02/01 2007/08/30

男 6

3 21189 2008/08/22 2008/08/23

男 5

4 39546 2009/04/10 2009/04/15

男 6

5 56972 2008/02/10 2009/09/29

男 6

6 44924 2006/03/22 2006/03/29

男 6

7 22631 2010/04/09 2010/04/09

女 6

8 32197 2011/06/07 2011/07/01

男 5

9 31645 2010/07/05 2010/07/05

女 6

属性规约原始数据中属性太多，根据航空公司客户价值LRFMC模型，选择与模型相关的六个属性。删除其他无用

属性，如会员卡号等等def reduction_data(data):

data = data[['LOAD_TIME', 'FFP_DATE',

'LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM',

'avg_discount']]

data['L']=pd.datetime(data['LOAD_TIME'])-pd.datetime(data['F FP_DATE'])

data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_AD TE'])).days)/30)

d_ffp = pd.to_datetime(data['FFP_DATE'])

d_load = pd.to_datetime(data['LOAD_TIME'])

res = d_load - d_ffp

data2=data.copy()

data2['L'] = res.map(lambda x: x / np.timedelta64(30 * 24 * 60, 'm'))

data2['R'] = data['LAST_TO_END']

data2['F'] = data['FLIGHT_COUNT']

data2['M'] = data['SEG_KM_SUM']

data2['C'] = data['avg_discount']

data3 = data2[['L', 'R', 'F', 'M', 'C']]

return data3

data3=reduction_data(data)

print(data3)

————————————以下是以上代码处理后数据————————————

L R F M C

0 90.200000 1 210 580717 0.961639

1 86.566667 7 140 293678 1.252314

2 87.166667 11 135 283712 1.254676

3 68.233333 97 23 281336 1.090870

4 60.533333

5 152 309928 0.970658

5 74.700000 79 92 294585 0.967692

6 97.700000 1 101 287042 0.965347

7 48.400000 3 73 287230 0.962070

8 34.266667 6 56 321489 0.828478

数据变换意思是，将原始数据转换成“适当”的格式，用来适应算法和分析等等的需要。本案例，主要采用数据变换的方式为属性构造和数据标准化 3.需要构造LRFMC的五个指标L=LOAD_TIME-FFP_DATE(会员入会时间距观测窗口结束的月数=观测窗口的结束时间-入会时间（单位：

月）)R=LAST_TO_END（客户最近一次乘坐公司距观测窗口结束的月数=最后一次。。。）F=FLIGHT_COUNT(观测窗口内的飞行次数)M=SEG_KM_SUM(观测窗口的总飞行里

程)C=A VG_DISCOUNT(平均折扣率)def zscore_data(data): data = (data - data.mean(axis=0)) / data.std(axis=0)

data.columns = ['Z' + i for i in data.columns]

return data

data4 = zscore_data(data3)

data4

————————————以下是以上代码处理后数据————————————

ZL ZR ZF ZM ZC

0 1.435707 -0.944948 14.034016 26.761154

1.295540

1 1.30715

2 -0.911894 9.07321

3 13.126864

2.868176

2 1.328381 -0.889859 8.718869 12.653481

2.880950

3 0.658476 -0.416098 0.781585 12.540622 1.994714

4 0.386032 -0.922912 9.923636 13.898736 1.344335

5 0.887281 -0.515257 5.671519 13.169947 1.328291

模型构建1.客户聚类利用K-Means聚类算法对客户数据进行客户分群，聚成五类（根据业务理解和需要，分析与讨论后，确定客户类别数量）

代码如下inputfile =

r'/home/kesci/input/date27730/zscoreddata.xls' #待聚类的数据文件

k = 5 #需要进行的聚类类别数

#读取数据并进行聚类分析

data = pd.read_excel(inputfile) #读取数据

#调用k-means算法，进行聚类分析

kmodel = KMeans(n_clusters = k, n_jobs = 4) #n_jobs是并行数，一般等于CPU数较好

kmodel.fit(data) #训练模型

r1 = pd.Series(https://www.360docs.net/doc/4e7231725.html,bels_).value_counts()

r2 = pd.DataFrame(kmodel.cluster_centers_)

r = pd.concat([r2, r1], axis=1)

r.columns = list(data.columns) + ['类别数目']

# print(r)

# r.to_excel(classoutfile,index=False)

r = pd.concat([data, pd.Series(https://www.360docs.net/doc/4e7231725.html,bels_,

index=data.index)], axis=1)

r.columns = list(data.columns) + ['聚类类别']

print(kmodel.cluster_centers_)

print(https://www.360docs.net/doc/4e7231725.html,bels_)

[[-0.70078704 -0.41513666 -0.1607619 -0.16049688

-0.25665898]

[-0.31411607 1.68662534 -0.57386257 -0.53661609

-0.17243195]

[ 0.48347647 -0.79941777 2.48236495 2.42356419

0.30943042]

[ 1.16033496 -0.37744106 -0.0870043 -0.09499704

-0.15836889]

[ 0.05165705 -0.00258448 -0.23089344 -0.23513858

2.17775056]]

[3 3 3 ... 3 3 3]

ZL ZR ZF ZM ZC 聚类类别

0 1.689882 0.140299 -0.635788 0.068794 -0.337186 3

1 1.68988

2 -0.322442 0.85245

3 0.843848 -0.553613 3

2 1.68174

3 -0.487707 -0.210576 0.158569 -1.094680 3

3 1.534185 -0.78518

4 0.002030 0.273091

-1.148787 3

4 0.890167 -0.426559 -0.635788 -0.685170 1.231909 4

5 -0.232618 -0.690983 -0.635788 -0.603898

-0.391293 0

6 -0.496949 1.996225 -0.706656 -0.661752

-1.311107 1

就剩下最后一步，画图：def density_plot(data):

plt.rcParams['font.sans-serif']=['SimHei']

plt.rcParams['axes.unicode_minus']=False

p=data.plot(kind='kde',linewidth=2,subplots=True,sharex=False )

[p[i].set_ylabel('密度') for i in range(5)]

[p[i].set_title('客户群%d' %i) for i in range(5)]

plt.legend()

plt.show()

return plt

density_plot(data4)

clu = kmodel.cluster_centers_

x = [1,2,3,4,5]

colors = ['red','green','yellow','blue','black']

for i in range(5):

plt.plot(x,clu[i],label='clustre

'+str(i),linewidth=6-i,color=colors[i],marker='o')

plt.xlabel('L R F M C')

plt.ylabel('values')

plt.show()

客户群1：red，客户群2：green，客户群3：yellow，客户群4：blue，客户群5：black客户关系长度L，消费时间间隔R，消费频率F，飞行里程M，折扣系数的平均值C。

横坐标上，总共有五个节点，按顺序对应LRFMC。

对应节点上的客户群的属性值，代表该客户群的该属性的程度。2.客户价值分析我们重点关注的是L，F，M，从图中可以看到：

1、客户群4[blue] 的F,M很高，L也不低，可以看做是重要保持的客户；

2、客户群3[yellow] 重要发展客户

3、客户群1[red] 重要挽留客户，原因：入会时间长，但是F,M较低

4、客户群2[green] 一般客户

5、客户群5[black] 低价值客户重要保持客户：R（最近乘坐航班）低，F（乘坐次数）、C（平均折扣率高，舱位较高）、

M（里程数）高。最优先的目标，进行差异化管理，提高满意度。重要发展客户：R低，C高，F或M较低，潜在价值客户。虽然说，当前价值不高，但是却有很大的发展潜力，促使这类客户在本公司消费和合作伙伴处消费。重要挽留客户：C、F、M较高，但是较长时间没有乘坐（R）小。增加与这类客户的互动，了解情况，采取一定手段，延长客户生命周期。一般与低价值客户：C、F、M、L低，R高。他们可能是在公司打折促销时才会乘坐本公司航班。

3.模型应用会员的升级与保级（积分兑换原理相同）

会员可以分为，钻石，白金，金卡，银卡…

部分客户会因为不了解自身积分情况，错失升级机会，客户和航空公司都会有损失

在会员接近升级前，对高价值客户进行促销活动，刺激他们消费达到标准，双方获利交叉销售

通过发行联名卡与非航空公司各做，使得企业在其他企业消费过程中获得本公司的积分，增强与本公司联系，提高忠诚度。管理模式

企业要获得长期的丰厚利润，必须需要大量稳定的、高质量的客户。

维持老客户的成本远远低于新客户，保持优质客户是十分重要的。

精准营销中，也有成本因素，所以按照客户价值排名，进行

优先的，特别的营销策略，是维持客户的关键。4.小结本文结合航空公司客户价值案例的分析，重点介绍了数据挖掘算法中K-Means聚类算法的应用。针对，传统RFM模型的不足，结合案例进行改造，设定了五个指标的LRFMC模型。最后通过聚类的结果，选出客户价值排行，并且制定相应策略本文作者

无小意，Python中文社区专栏作者，知乎：无小意丶，金融学在读学生，从零开始自学Python以及相关的数据技能，对于Python学习，只想说别犹豫。

k-means聚类算法的研究全解

k-means聚类算法的研究 1．k-means算法简介 1.1 k-means算法描述给定n个对象的数据集D和要生成的簇数目k，划分算法将对象组织划分为k个簇（k<=n），这些簇的形成旨在优化一个目标准则。例如，基于距离的差异性函数，使得根据数据集的属性，在同一个簇中的对象是“相似的”，而不同簇中的对象是“相异的”。划分聚类算法需要预先指定簇数目或簇中心，通过反复迭代运算，逐步降低目标函数的误差值，当目标函数收敛时，得到最终聚类结果。这类方法分为基于质心的（Centroid-based）划分方法和基于中心的（Medoid-based）划分方法，而基于质心的划分方法是研究最多的算法，其中k-means算法是最具代表和知名的。 k-means算法是1967年由MacQueen首次提出的一种经典算法，经常用于数据挖掘和模式识别中，是一种无监督式的学习算法，其使用目的是对几何进行等价类的划分，即对一组具有相同数据结构的记录按某种分类准则进行分类，以获取若干个同类记录集。k-means聚类是近年来数据挖掘学科的一个研究热点和重点，这主要是因为它广泛应用于地球科学、信息技术、决策科学、医学、行为学和商业智能等领域。迄今为止，很多聚类任务都选择该算法。k-means算法是应用最为广泛的聚类算法。该算法以类中各样本的加权均值（成为质心）代表该类，只用于数字属性数据的聚类，算法有很清晰的几何和统计意义，但抗干扰性较差。通常以各种样本与其质心欧几里德距离总和作为目标函数，也可将目标函数修改为各类中任意两点间欧几里德距离总和，这样既考虑了类的分散度也考虑了类的紧致度。k-means算法是聚类分析中基于原型的划分聚类的应用算法。如果将目标函数看成分布归一化混合模型的似然率对数，k-means算法就可以看成概率模型算法的推广。 k-means算法基本思想：（1）随机的选K个点作为聚类中心；（2）划分剩余的点；（3）迭代过程需要一个收敛准则，此次采用平均误差准则。（4）求质心（作为中心）；（5）不断求质心，直到不再发生变化时，就得到最终的聚类结果。 k-means聚类算法是一种广泛应用的聚类算法，计算速度快，资源消耗少，但是k-means算法与初始选择有关系，初始聚类中心选择的随机性决定了算法的有效性和聚

航空公司客户价值分析Kmeans

3.3 数据变换由于原始数据没有直接给出LRFMC五个指标，需要自己计算，具体的计算方式为：（1）L=LOAD_TIME-FFP_DATE （2）R=LAST_TO_END （3）F=FLIGHT_COUNT (4) M=SEG_KM_SUM （5）C=avg_discount 数据变换的Python代码如下： 1.def reduction_data(datafile,reoutfile): 2. data=pd.read_excel(cleanoutfile,encoding='utf-8') 3. data=data[['LOAD_TIME','FFP_DATE','LAST_TO_END','FLIGH T_COUNT','SEG_KM_SUM','avg_discount']] 4.# data['L']=pd.datetime(data['LOAD_TIME'])-pd.datetime(d ata['FFP_DATE']) 5.# data['L']=int(((parse(data['LOAD_TIME'])-parse(data['F FP_ADTE'])).days)/30) 6.####这四行代码费了我3个小时 7. d_ffp=pd.to_datetime(data['FFP_DATE']) 8. d_load=pd.to_datetime(data['LOAD_TIME']) 9. res=d_load-d_ffp 10. data['L']=res.map(lambda x:x/np.timedelta64(30*24*60,'m')) 11. data['R']=data['LAST_TO_END'] 12. data['F']=data['FLIGHT_COUNT'] 13. data['M']=data['SEG_KM_SUM']

航空公司客户流失分析

扩展思考 1.背景与挖掘目标在国内航空市场竞争日益激烈的背景下，航空公司在客户流失方面应该引起足够的重视。如何改善流失问题，继而提高客户的满意度、忠诚度是航空公司维护自身市场并面对激烈竞争的一件大事，客户流失分析将成为帮助航空公司开展持续改进活动的指南。根据拓展思考数据实现以下目标：借助航空公司客户数据，对客户进行分类；针对目前老客户进行分类预测；构建客户·的流失模型，运用模型预测未来客户的类别归属。 2.1 数据抽取从航空公司系统内的详细数据中，根据末次飞行日期（LAST_FLIGHT_DATE)，抽取2021-6-4--2014-3-9内所有乘客详细信息。其中包含了会员卡号、入会时间、性别、年龄、会员卡级别、工作地城市、工作地所在省份、工作地所在国家、观测窗口结束时间、观测窗口乘机积分、飞行公里数、飞行次数、飞行时间、乘机时间间隔、平均折扣率等44各属性。 2.2 数据探索分析本案例的探索分析是对数据进行缺失值分析与异常值分析，分析出数据的规律以及异常值。通过对数据进行观察发现原始数据中存在票价最小值为0、总飞行公里数大于0的记录。可能是客户乘坐0折机票或者积分兑换造成的。数据探索分析代码 %% 数据空缺值探索,如果是字符串则返回缺失值个数， % 如果是数值型返回缺失值个数以及最大最小值 clear; % 参数初始化 datafile= '拓展思考样本数据.csv' ; % 航空原始数据,第一行为属性标签 logfile = 'log.txt'; % 日志文件 resultfile = 'explore.xls'; % 数据探索结果表 %% 读取数据 [num,txt] = xlsread(datafile); [rows,cols] = size(num); % 初始化结果变量 results = cell(5,cols+1); result = zeros(4,cols); results(:,1)= {'属性';'空记录数';'缺失率';'最大值';'最小值'}; results(1,2:end)=txt(1,:); % 记录日志 log_add(logfile,['文件' datafile '一共有' num2str(rows) ... '条记录']); %% 遍历所有列，进行空缺判断

聚类分析K-means算法综述

聚类分析K-means算法综述摘要：介绍K-means聚类算法的概念，初步了解算法的基本步骤，通过对算法缺点的分析，对算法已有的优化方法进行简单分析，以及对算法的应用领域、算法未来的研究方向及应用发展趋势作恰当的介绍。关键词：K-means聚类算法基本步骤优化方法应用领域研究方向应用发展趋势算法概述 K-means聚类算法是一种基于质心的划分方法，输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准的k个聚类。评定标准：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算。解释：基于质心的划分方法就是将簇中的所有对象的平均值看做簇的质心，然后根据一个数据对象与簇质心的距离，再将该对象赋予最近的簇。 k-means 算法基本步骤（1）从n个数据对象任意选择k 个对象作为初始聚类中心（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分（3）重新计算每个（有变化）聚类的均值（中心对象）（4）计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤（2）形式化描述输入：数据集D，划分簇的个数k 输出：k个簇的集合（1）从数据集D中任意选择k个对象作为初始簇的中心；（2）Repeat （3）For数据集D中每个对象P do （4）计算对象P到k个簇中心的距离（5）将对象P指派到与其最近（距离最短）的簇；

（6）End For （7）计算每个簇中对象的均值，作为新的簇的中心；（8）Until k个簇的簇中心不再发生变化对算法已有优化方法的分析 (1)K-means算法中聚类个数K需要预先给定这个K值的选定是非常难以估计的，很多时候,我们事先并不知道给定的数据集应该分成多少个类别才最合适，这也是K一means算法的一个不足"有的算法是通过类的自动合并和分裂得到较为合理的类型数目k，例如Is0DAIA算法"关于K一means算法中聚类数目K 值的确定，在文献中，根据了方差分析理论，应用混合F统计量来确定最佳分类数，并应用了模糊划分嫡来验证最佳分类数的正确性。在文献中，使用了一种结合全协方差矩阵RPCL算法，并逐步删除那些只包含少量训练数据的类。文献中针对“聚类的有效性问题”提出武汉理工大学硕士学位论文了一种新的有效性指标：V(k km) = Intra(k) + Inter(k) / Inter(k max)，其中k max是可聚类的最大数目,目的是选择最佳聚类个数使得有效性指标达到最小。文献中使用的是一种称为次胜者受罚的竞争学习规则来自动决定类的适当数目"它的思想是：对每个输入而言不仅竞争获胜单元的权值被修正以适应输入值，而且对次胜单元采用惩罚的方法使之远离输入值。 (2)算法对初始值的选取依赖性极大以及算法常陷入局部极小解不同的初始值，结果往往不同。K-means算法首先随机地选取k个点作为初始聚类种子，再利用迭代的重定位技术直到算法收敛。因此，初值的不同可能导致算法聚类效果的不稳定，并且，K-means算法常采用误差平方和准则函数作为聚类准则函数(目标函数)。目标函数往往存在很多个局部极小值，只有一个属于全局最小，由于算法每次开始选取的初始聚类中心落入非凸函数曲面的“位置”往往偏离全局最优解的搜索范围，因此通过迭代运算，目标函数常常达到局部最小，得不到全局最小。对于这个问题的解决，许多算法采用遗传算法(GA)，例如文献中采用遗传算法GA进行初始化，以内部聚类准则作为评价指标。 (3)从K-means算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时,算法的时间开销是非常大所以需要对算法的时间复杂度进行分析，改进提高算法应用范围。在文献中从该算法的时间复杂度进行分析考虑，通过一定的相似性准则来去掉聚类中心的候选集，而在文献中，使用的K-meanS算法是对样本数据进行聚类。无论是初始点的选择还是一次迭代完成时对数据的调整，都是建立在随机选取的样本数据的基础之上，这样可以提高算法的收敛速度。

机器学习kmeans聚类算法与应用

机器学习算法day02_Kmeans聚类算法及应用课程大纲 Kmeans聚类算法原理Kmeans聚类算法概述 Kmeans聚类算法图示 Kmeans聚类算法要点 Kmeans聚类算法案例需求用Numpy手动实现用Scikili机器学习算法库实现 Kmeans聚类算法补充算法缺点改良思路课程目标： 1、理解Kmeans聚类算法的核心思想 2、理解Kmeans聚类算法的代码实现 3、掌握Kmeans聚类算法的应用步骤：数据处理、建模、运算和结果判定

1. Kmeans聚类算法原理 1.1 概述 K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。 1.2 算法图示假设我们的n个样本点分布在图中所示的二维空间。从数据点的大致形状可以看出它们大致聚为三个cluster，其中两个紧凑一些，剩下那个松散一些，如图所示：我们的目的是为这些数据分组，以便能区分出属于不同的簇的数据，给它们标上不同的颜色，如图：

1.3 算法要点 1.3.1 核心思想通过迭代寻找k个类簇的一种划分方案，使得用这k个类簇的均值来代表相应各类样本时所得的总体误差最小。 k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。 k-means算法的基础是最小误差平方和准则, 其代价函数是：式中，μc(i)表示第i个聚类的均值。各类簇内的样本越相似，其与该类均值间的误差平方越小，对所有类所得到的误差平方求和，即可验证分为k类时，各聚类是否是最优的。上式的代价函数无法用解析的方法最小化，只能有迭代的方法。 1.3.2 算法步骤图解下图展示了对n个样本点进行K-means聚类的效果，这里k取2。

利用K-Means聚类进行航空公司客户价值分析

利用K-Means聚类进行航空公司客户价值分析 1.背景与挖掘目标 1.1背景航空公司业务竞争激烈，从产品中心转化为客户中心。针对不同类型客户，进行精准营销，实现利润最大化。建立客户价值评估模型，进行客户分类，是解决问题的办法 1.2挖掘目标借助航空公司客户数据，对客户进行分类。对不同的客户类别进行特征分析，比较不同类客户的客户价值对不同价值的客户类别提供个性化服务，制定相应的营销策略。详情数据见数据集内容中的 air_data.csv和客户信息属性说明 2.分析方法与过程 2.1分析方法首先，明确目标是客户价值识别。识别客户价值，应用最广泛的模型是三个指标（消费时间间隔（Recency）,消费频率（Frequency）,消费金额（Monetary））以上指标简称RFM 模型，作用是识别高价值的客户消费金额，一般表示一段时间内，消费的总额。但是，因为航空票价收到距离和舱位等级的影响，同样金额对航空公司价值不同。因此，需要修改指标。选定变量，舱位因素=舱位所对应的折扣系数的平均值=C，距离因素=一定时间内积累的飞行里程=M。再考虑到，航空公司的会员系统，用户的入会时间长短能在一定程度上影响客户价值，所以增加指标L=入会时间长度=客户关系长度总共确定了五个指标，消费时间间隔R，客户关系长度L，消费频率F，飞行里程M和折扣系数的平均值C以上指标，

作为航空公司识别客户价值指标，记为LRFMC模型如果采用传统的RFM模型，如下图。它是依据，各个属性的平均值进行划分，但是，细分的客户群太多，精准营销的成本太高。综上，这次案例，采用聚类的办法进行识别客户价值，以LRFMC模型为基础本案例，总体流程如下图 2.2挖掘步骤从航空公司，选择性抽取与新增数据抽取，形成历史数据和增量数据对步骤一的两个数据，进行数据探索性分析和预处理，主要有缺失值与异常值的分析处理，属性规约、清洗和变换利用步骤2中的已处理数据作为建模数据，基于旅客价值的LRFMC模型进行客户分群，对各个客户群再进行特征分析，识别有价值客户。针对模型结果得到不同价值的客户，采用不同的营销手段，指定定制化的营销服务，或者针对性的优惠与关怀。（重点维护老客户） 2.3数据抽取选取，2014-03-31为结束时间，选取宽度为两年的时间段，作为观测窗口，抽取观测窗口内所有客户的详细数据，形成历史数据对于后续新增的客户信息，采用目前的时间作为重点，形成新增数据 2.4探索性分析本案例的探索分析，主要对数据进行缺失值和异常值分析。发现，存在票价为控制，折扣率为0，飞行公里数为0。票价为空值，可能是不存在飞行记录，其他空值可能是，飞机票来自于积分兑换等渠道，查找每列属性观测值中空值的个数、最大值、最小值的代码

第二讲聚类Kmeans算法跟运用 (K-means cluster)

CLEMENTINE 1212 CLEMENTINE --SEGMENTATION（K-MEANS）

何谓集群分析何谓集群分析((CLUSTERING ANALYSIS ) 集群分析是一种将样本观察值进行分析，具有某些共同特性者予以整合在一起，再将之分配到特定的群体，最后形成许多不同集群的一种分析方法。Clementine 12.0中提供的集群分析方法有三种： 1. K-means 2. Two-step 3. Kohonen

K-MEANS的理论背景 K-Means是集群分析(Cluster Analysis)中一种非阶层式((Nonhierarchical))的演算方法，由J. B. Mac Queen于1967年正式发表，也是最早的组群化计算技术。其中，非阶层式则是指在各阶段分群过程中，将原有的集群予以打散，并重新形成新的集群。 K-Means是一种前设式群集算法，也就是说必须事前设定群集的数量，然后根据此设定找出最佳群集结构。而K-Means算法最主要的概念就是以集群内资料平均值为集群的中心。

计算距離并分群的中心点重新计算新的距離并分群

不断重复步骤三四，直到所设计的停止条件发生。一般是以没有任何对象变换所属集群为停止绦件，也就是所谓的s q u a r e -e r r o r c r i t e r i o n ：代表集群的中心(平均数)，是集群内的物件，则代表集群。 2 1 0i K i p C i E p m =∈=?=∑∑ i m i p i i C i

K-MEANS的基本需求与优缺点建立K-means模型的要求：需要一个以上的 In字段。方向为Out、Both、None的字段将被忽略。优点：建立K-means模型不需要分组数据。对于大型数据集，K-means模型常常是最快的分群方法。缺点：对于初始值的选择相当敏感，选择不同的初始值，可能会导致不同的分群结果。

第9章rapidminer_k_means聚类.辨别分析v1

第9章K-Means 聚类、辨别分析 9.1理解聚类分析餐饮企业经常会碰到这样的问题： 1）如何通过餐饮客户消费行为的测量，进一步评判餐饮客户的价值和对餐饮客户进行细分，找到有价值的客户群和需关注的客户群？ 2）如何合理对菜品进行分析，以便区分哪些菜品畅销毛利又高，哪些菜品滞销毛利又低？餐饮企业遇到的这些问题，可以通过聚类分析解决。 9.1.1常用聚类分析算法与分类不同，聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同，聚类模型可以建立在无类标记的数据上，是一种非监督的学习算法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将他们划分为若干组，划分的原则是组样本最小化而组间（外部）距离最大化，如图9-1所示。图9-1 聚类分析建模原理常用聚类方法见表9-1。表9-1常用聚类方法类别包括的主要算法

常用聚类算法见图9-2。表9-2常用聚类分析算法 9.1.2K-Means聚类算法 K-Means算法是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。 1.算法过程 1）从N个样本数据中随机选取K个对象作为初始的聚类中心； 2）分别计算每个样本到各个聚类中心的距离，将对象分配到距离最近的聚类中； 3）所有对象分配完成后，重新计算K个聚类的中心； 4）与前一次计算得到的K个聚类中心比较，如果聚类中心发生变化，转2)，否则转 5)； 5）当质心不发生变化时停止并输出聚类结果。聚类的结果可能依赖于初始聚类中心的随机选择，可能使得结果严重偏离全局最优分类。实践中，为了得到较好的结果，通常以不同的初始聚类中心，多次运行K-Means算法。在所有对象分配完成后，重新计算K个聚类的中心时，对于连续数据，聚类中心取该簇的均值，但是当样本的某些属性是分类变量时，均值可能无定义，可以使用K-众数方

K-MEANS聚类算法的实现及应用

内容摘要本文在分析和实现经典k-means算法的基础上，针对初始类中心选择问题，结合已有的工作，基于对象距离和密度对算法进行了改进。在算法实现部分使用vc6.0作为开发环境、sql sever2005作为后台数据库对算法进行了验证，实验表明，改进后的算法可以提高算法稳定性，并减少迭代次数。关键字 k-means；随机聚类；优化聚类；记录的密度 1 引言 1.1聚类相关知识介绍聚类分析是直接比较各事物之间性质，将性质相近的归为一类，将性质不同的归为一类，在医学实践中也经常需要做一些分类工作。如根据病人一系列症状、体征和生化检查的结果，将其划分成某几种方法适合用于甲类病的检查，另几种方法适合用于乙类病的检查，等等。聚类分析被广泛研究了许多年。基于聚类分析的工具已经被加入到许多统计分析软件或系统中，入s-plus,spss,以及sas。大体上，聚类算法可以划分为如下几类： 1) 划分方法。 2) 层次方法。 3) 基于密度的算法。 4) 基于网格的方法。 5) 基于模型的方法。 1.2 研究聚类算法的意义在很多情况下，研究的目标之间很难找到直接的联系，很难用理论的途径去解决。在各目标之间找不到明显的关联，所能得到的只是些模糊的认识，由长期的经验所形成的感知和由测量所积累的数据。因此，若能用计算机技术对以往的经验、观察、数据进行总结，寻找个目标间的各种联系或目标的优化区域、优化方向，则是对实际问题的解决具有指导意义和应用价值的。在无监督情况下，我们可以尝试多种方式描述问题，其中之一是将问题陈述为对数分组或聚类的处理。尽管得到的聚类算法没有明显的理论性，但它确实是模式识别研究中非常有用的一类技术。聚类是一个将数据集划分为若干聚类的过程，是同一聚类具有较高相似性，不同聚类不具相似性，相似或不相似根据数据的属性值来度量，通常使用基于距离的方法。通过聚类，可以发现数据密集和稀疏的区域，从而发现数据整体的分布模式，以及数据属性间有意义的关联。 2 k-means算法简介 2.1 k-means算法描述 k-means 算法接受输入量k，然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”来进行计算的。k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。 k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。 2.2 k-means算法实现步骤在原始的k-means算法中，由于数据对象的分类被不断地调整，因此平均误差准则函数在每次迭代过程中的值必定在不断减小。当没有数据对象被调整时，e（e指每个对象到该类中心的距离平方之和）的值不再变化，说明算法运行结果已经达到最优，同时算法运行结束。

利用K-Means聚类进行航空公司客户价值分析.doc

利用 K-Means 聚类进行航空公司客户价值分析 1.背景与挖掘目标 1.1 背景航空公司业务竞争激烈，从产品中心转化为客户中心。针对不同类型客户，进行精准营销，实现利润最大化。建立客户价值评估模型，进行客户分类，是解决问题的办法 1.2 挖掘目标借助航空公司客户数据，对客户进行分类。对不同的客户类别进行特征分析，比较不同类客户的客户价值对不同价值的客户类别提供个性化服务，制定相应的营销策略。详情数据见数据集内容中的 air_data.csv 和客户信息属性说明 2.分析方法与过程 2.1 分析方法首先，明确目标是客户价值识别。识别客户价值，应用最广泛的模型是三个指标（消费时间间隔（Recency） ,消费频率（ Frequency）,消费金额（ Monetary ））以上指标简称RFM 模型，作用是识别高价值的客户消费金额，一般表示一段时间内，消费的总额。但是，因为航空票价收到距离和舱位等级的影响，同样金额对航空公司价值不同。因此，需要修改指标。选定变量，舱位因素=舱位所对应的折扣系数的平均值=C，距离因素 =一定时间内积累的飞行里程 =M 。再考虑到，航空公司的会员系统，用户的入会时间长短能在一定程度上影响客户价值，所以增加指标 L= 入会时间长度 =客户关系长度总共确定了五个指标，消费时间间隔 R，客户关系长度 L ，消费频率 F，飞行里程 M 和折扣系数的平均值 C 以上指标，

作为航空公司识别客户价值指标，记为LRFMC 模型如果采用传统的 RFM 模型，如下图。它是依据，各个属性的平均值进行划分，但是，细分的客户群太多，精准营销的成本太高。综上，这次案例，采用聚类的办法进行识别客户价值，以LRFMC 模型为基础本案例，总体流程如下图 2.2 挖掘步骤从航空公司，选择性抽取与新增数据抽取，形成历史数据和增量数据对步骤一的两个数据，进行数据探索性分析和预处理，主要有缺失值与异常值的分析处理，属性规约、清洗和变换利用步骤 2 中的已处理数据作为建模数据，基于旅客价值的 LRFMC 模型进行客户分群，对各个客户群再进行特征分析，识别有价值客户。针对模型结果得到不同价值的客户，采用不同的营销手段，指定定制化的营销服务，或者针对性的优惠与关怀。（重点维护老客户） 2.3 数据抽取选取， 2014-03-31 为结束时间，选取宽度为两年的时间段，作为观测窗口，抽取观测窗口内所有客户的详细数据，形成历史数据对于后续新增的客户信息，采用目前的时间作为重点，形成新增数据 2.4 探索性分析本案例的探索分析，主要对数据进行缺失值和异常值分析。发现，存在票价为控制，折扣率为 0，飞行公里数为 0。票价为空值，可能是不存在飞行记录，其他空值可能是，飞机票来自于积分兑换等渠道，查找每列属性观测值中空值的个数、最大值、最小值的代码

matlab实现Kmeans聚类算法

matlab实现Kmeans聚类算法 1.简介： Kmeans和应用于混合高斯模型的受限EM算法是一致的。高斯混合模型广泛用于数据挖掘、模式识别、机器学习、统计分析。Kmeans 的迭代步骤可以看成E步和M步，E：固定参数类别中心向量重新标记样本，M：固定均值只考虑（估计）了均值，而没有估计类别的方差，所以聚类的结构比较适合于特征协方差相等的类别。 Kmeans在某种程度也可以看成Meanshitf的特殊版本，Meanshift 是所以Meanshift可以用于寻找数据的多个模态（类别），利用的是梯度上升法。在06年的一篇CVPR文章上，证明了Meanshift方法是牛顿拉夫逊算法的变种。Kmeans和EM算法相似是指混合密度的形式已知（参数形式已知）情况下，利用迭代方法，在参数空间中搜索解。而Kmeans和Meanshift相似是指都是一种概率密度梯度估计的方法，不过是Kmean选用的是特殊的核函数（uniform kernel），而与混合概率密度形式是否已知无关，是一种梯度求解方式。 k-means是一种聚类算法，这种算法是依赖于点的邻域来决定哪些点应该分在点，也可以对高维的空间（3维，4维，等等）的点进行聚类，任意高维的空间都可以。上图中的彩色部分是一些二维空间点。上图中已经把这些点分组了，并使用了不同的颜色对各组进行了标记。这就是聚类算法要做的事情。这个算法的输入是： 1：点的数据（这里并不一定指的是坐标，其实可以说是向量）

2：K，聚类中心的个数（即要把这一堆数据分成几组）所以，在处理之前，你先要决定将要把这一堆数据分成几组，即聚成几类。但并不是在所有情况下，你都事先就能知道需要把数据聚成几类的。意味着使用k-means就不能处理这种情况，下文中会有讲解。把相应的输入数据，传入k-means算法后，当k-means算法运行完后，该算法的输出是： 1：标签（每一个点都有一个标签，因为最终任何一个点，总会被分到某个类，类的id号就是标签） 2：每个类的中心点。标签，是表示某个点是被分到哪个类了。例如，在上图中，实际上有4中“标签”，每个“标签”使用不同的颜色来表示。所有黄色点我们可以用标签以看出，有3个类离的比较远，有两个类离得比较近，几乎要混合在一起了。当然，数据集不一定是坐标，假如你要对彩色图像进行聚类，那么你的向量就可以是(b,g,r)，如果使用的是hsv颜色空间，那还可以使用(h,s,v),当然肯定可以有不同的组合例如(b*b,g*r,r*b) ，(h*b,s*g,v*v)等等。在本文中，初始的类的中心点是随机产生的。如上图的红色点所示，是本文随机产生的初始点。注意观察那两个离得比较近的类，它们几乎要混合在一起，看看算法是如何将它们分开的。类的初始中心点是随机产生的。算法会不断迭代来矫正这些中心点，并最终得到比较靠5个中心点的距离,选出一个距离最小的(例如该点与第2个中心点的距离是5个距离中最小的),那么该点就归属于该类.上图是点的归类结果示意图. 经过步骤3后,每一个中心center(i)点都有它的”管辖范围”,由于这个中心点不一定是这个管辖范围的真正中心点,所以要重新计算中心点,计算的方法有很多种,最简单的一种是,直接计算该管辖范围内所有点的均值,做为心的中心点new_center(i). 如果重新计算的中心点new_center(i)与原来的中心点center(i)的距离大于一定的阈值（该阈值可以设定），那么认为算法尚未收敛，使用new_center(i)代替center(i)（如图，中心点从红色点

航空公司客户服务计划

航空公司客户服务计划本客户服务计划，系根据美国交通部关于加强航空公司乘客保护方面的最终规则制定，适用于往来美国的航班。然而，这并不意味本客户服务计划中列出的某些服务和保证条款不提供给其他的非美国航班。 1. 新加坡航空公司将始终通过我们的网站、我们的售票柜台，以及我们的电话预订热线，告知乘客我们所提供的最低票价可能位于其他的位置。 2. 新加坡航空公司会按时交付行李，在合理范围内尽一切努力，在24小时内送还处理不当的行李，会按照适用的国际协定要求，为乘客提供合理的与行李延迟交付相关的费用补偿，并为行李丢失的乘客提供赔偿。 3. 新加坡航空公司在收到完整的退款申请后，将在机票退款到期应付的情况下，立即提供退款——通过信用卡购票的，将在七个工作日内退款;用现金或支票购票的，将在20个工作日内退款。 4. 新加坡航空公司会根据14 CFR Part 382，搭载行动不便的乘客以及其他有特殊需要的乘客，包括在较长的停机坪延误情况期间。这包括：

a) 提供往返登机门以及各个登机门之间的轮椅交通协助服务; b) 登机援助; c) 在机场和飞机上，为患有视觉损伤、听觉损伤、认知障碍的乘客，或行动不便的乘客提供帮助; d) 满足某些医疗需求，比如搭载便携式电子医疗设备。 5. 在较长时间的停机坪延误情况下，新加坡航空公司会根据新航《停机坪延误应急计划》中的规定，满足客户的各种需求。 6. 如果您已出票的航班出现超额预订，那么应您的要求，新加坡航空公司将就此通知您相关情况。另外，我们也将在美国各个机场提供有关我们用以处理相关航班无法容纳所有出票乘客这种情况的政策和程序。 7. 我们的网站上提供新加坡航空公司的航班取消政策、常飞旅客规则、飞机座位配置和盥洗室可用性情况等信息，应乘客要求，新航也会通过我们的电话预订系统提供此类信息。 8. 新加坡航空公司将及时通知消费者其行程变动情况。

图像处理-K-means聚类处理

基于K-means的彩色图像聚类分割算法图像分割技术是图像分析和模式识别的重要内容，近些年，图像分割算法新思路如小波变换边缘检测、分形图像分割、运动一致性分割以及马尔科夫、人工神经网络的分割技术相继而生。其中灰度图像处理的分割技术和方法相对较成熟，但相对于灰度图，彩色图包含了更多的信息，同时处理也变得更为复杂和耗时。随着计算机技术的发展以及廉价设备性能的提高，彩色图像处理技术日益广泛。彩色图像分割就是模拟人类视觉系统的特点，根据颜色差异、纹理特征等将图像划分为不同物理意义的连通区域。而聚类算法是发现事物自然分类的一种方法，属于机器学习及模式识别的一个重要领域。聚类算法在灰度图像的分割有着重要的应用，通过保持类内最大的相似性及类间最大的距离，迭代优化获得最佳的图像分割阈值。对于一副彩色图像，可以利用聚类分析依据颜色视觉上的不同将其划分为不同系列的具有相似部分的区域，即实现彩色图像聚类分割算法。利用K-means聚类对彩色图像进行分割，通常使用的颜色空间有RGB颜色空间、HIS颜色空间、HSV颜色空间、XYZ颜色空间、Lab颜色空间等。其中RGB 颜色空间可表示大部分颜色，但就其各个分量间关联性过强，不宜直接用于图像分割；HIS、HSV颜色模型需要转换颜色空间，空间转换计算相对复杂，如果要得到好的分割结果需要处理色调和饱和度两个分量；Lab 颜色空间是基于XYZ 颜色空间转换而来的均匀颜色空间，更符合人眼的视觉特性，从RGB 空间到Lab 空间的转换需要XYZ 颜色空间作为桥梁，即必须先将图像由RGB 颜色空间转换到XYZ 颜色空间，才能进一步转到Lab 空间。考虑图像分割算法的准确性，本文采取一种Lab颜色空间模型结合K-means算法实现彩色图像的分割。 1、颜色空间选取

基于K―means聚类的客户细分案例分析

基于K―means聚类的客户细分案例分析【摘要】当今流行的客户细分理论的视角主要关注在消费市场的细分上，现有的客户细分理论中根据客户购买的产品特征进行细分的分析和研究相对较少，因此本文的研究就是把某品牌鞋子的风格特征作为细分变量，基于某企业的销售数据来进行分析，选择K-means聚类分析方法结合企业的实际情况，划分出不同的客户群，企业可以根据不同客户群的需求和对企业的贡献制定不同的宣传营销策略，降低企业的销售成本，提高企业的竞争力。【关键词】客户细分K-means聚类案例分析营销策略一、案例介绍某公司是一个以鞋类的研发制造及品牌管理为主的时尚集团公司，业务遍及大中华区（中国大陆、香港、台湾）、亚洲、欧洲及北美洲，是中国最成功的国内品牌之一。该公司在中国经营的组织架构为：总公司――分公司――专卖店。其中，总公司负责拓展策略和公司年度工作计划的制定，以及成本控制和分公司事务管理。分公司负责执行总公司的战略，对专卖店、专卖店人员实施管理，工作内容包括：新开专卖店寻址、申请开店、签约、开店；对分公司人员管理、分公司销售指标达成、执行总公司促销活动等。

二、数据处理（一）数据准备原始数据包括两张表：客户交易记录表和鞋子具体属性表，其中客户交易记录表与鞋子属性表连接的变量是鞋子ID，交易记录数据的时间是过去一年2013年9月1日到2014年9月1日。（二）数据清洗该企业一年的交易记录有几千万条，所以原始的交易数据量非常大，这样就很容易出现噪声数据、空缺数据和不一致数据，所以必须要经过一系列的分析与处理，包括对缺失值的处理和异常值的处理，例如：去除客户属性为空的客户记录、剔除消费额和消费次数不在正常范围内的客户记录等。（1）剔除异常的正负交易。从客户交易记录表中选出过去一年交易ID不为空的正常交易记录，交易记录表中的金额有正负之分，正表示购买记录，负表示退货记录，要剔除掉没有正交易与之对应的退货记录。（2）剔除异常的购买数量和金额。由于有些客户不是会员，专卖店的销售员会帮客户刷自己的会员卡，这样就会出现一个会员ID在一段时间内交易数量和交易金额超出正常范围。本文用3δ准则剔除不在正常范围内异常客户。（三）数据转换和整合

客户关系管理在航空公司的实践研究

客户关系管理在航空公司的实践研究摘要：文章从客户关系管理的基础理论入手，分析了航空公司实施CRM的必要性，对航空公司实施CRM的实践过程进行了分析。关键词：客户关系管理航空公司管理实践分析 1 客户关系管理理论概述客户关系管理的应运而生，有其客观的现实需要。首先，企业的营销和客户服务部门难以获得所需的客户互动信息。其次，来自销售、客户服务、市场、制造、库存等部门的信息分散在企业内。这些零散的信息使得各部门无法对客户有全面的了解，各部门难以在统一的信息层面上面对客户。这便需要企业各部门对面向客户的各项信息和活动进行集成，实现对面向客户的活动的全面管理。归纳起来，企业实施客户关系管理的目标有三个方面：①提高效率。通过采用信息技术，可以提高业务处理流程的自动化程度，实现企业范围内的信息共享，提高企业员工的工作能力，并有效减少培训需求，使企业内部能够更高效的运转。②拓展市场。通过新的业务模式（电话、Internet）扩大企业经营活动范围，及时把握新的市场机会，占领更多的市场份额。③保留客户。客户可以自己选择喜欢的方式，同企业进行交流，方便的获取信息，得到更好的服务。客户的满意度得到提高，可帮助企业保留更多的老客户，并且更好的吸引新客户。 2 航空公司实施CRM的必要性分析跨国的航空联盟在上世纪主导着世界航空运输的潮流，在本世纪的未

来一段时期内还将继续主宰。从二十余年前国外航空公司开启中国市场到今天大举进入，外航在中国做了大量的营销活动。其市场战略、营销策略为国内航空公司如何应对加入WTO后国际市场竞争提供了生动的、鲜活的、近距离的教材。客户关系管理正是外国航空公司运作多年行之有效的营销手段之一。航空公司具备实施CRM的条件。首先，航空公司客户多；其次，航空公司的信息化程度较高。在客户资源方面，航空公司的客户最为符合托累多的80/20法则，即80%的贡献来自于其中20%的旅客。在航空公司导入CRM，其目的就是要将这20%的旅客尽量挖掘出来，并作为资源好好管起来。在航空市场竞争异常残酷的今天，客户选择空间及余地显著加大，航空市场也早已从卖方市场转变为买方市场，各个航空公司提供的产品也不再是无差别的。客户需求出现个性化特征无疑对市场营销提出了更高的要求，航班时刻的调整、飞机客舱设施的更新、奖励计划的实施都会影响航空公司客源，市场营销在此时此刻更必须有创新。在目前仍以价格竞争为主要竞争手段的时期，客户关系管理的实施无疑为航空公司间的激烈竞争氛围中带来一些新的气息。有些航空公司充分利用互联网来扩大自己的销售触角，逐渐改变长期以来航空公司营销过分依赖代理人，并被其牵制的局面。这种竞争手段无论在速度、在层次、在质量还是在时间上都是过去的竞争手段无可比拟的。 3 航空公司实施CRM的实践分析旅客对于航空公司来说，不得不说是稀缺的资源。客源的增长远比不上各航空公司在运力上投入的增长。有效地开拓和维持回头生意的可

K-means-聚类算法研究综述

K-means聚类算法研究综述摘要:总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数，算法流程，并列举了一个实例，指出了数据子集的数目K，初始聚类中心选取，相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means 聚类的进一步研究方向。关键词：K-means聚类算法；NP难优化问题；数据子集的数目K；初始聚类中心选取；相似性度量和距离矩阵 Review of K-means clustering algorithm Abstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global optimal result cannot be reached. The goal，main steps and example of K-means clustering algorithm are introduced. K-means algorithm requires three user-specified parameters: number of clusters K，cluster initialization，and distance metric. Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means clustering algorithm are pointed at last. Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metric K-means聚类算法是由Steinhaus1955年、Lloyed1957年、Ball & Hall1965年、McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后，在不同的学科领域被广泛研究和应用，并发展出大量不同的改进算法。虽然K-means聚类算法被提出已经超过50年了，但目前仍然是应用最广泛的划分聚类算法之一[1]。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。文中总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程，并列举了一个实例，指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means聚类的进一步研究方向。 1经典K-means聚类算法简介 1.1K-means聚类算法的目标函数对于给定的一个包含n个d维数据点的数据集 12 {x,x,,x,,x} i n X=??????，其中d i x R ∈，以及要生成的数据子集的数目K，K-means聚类算法将数据对象组织为 K个划分{c,i1,2,} k C K ==???。每个划分代表一个类c k，每个类c k有一个类别中心iμ。选取欧氏距离作为相似性和距离判断准则，计算该类内各点到聚类中心 i μ的距离平方和 2 (c) i i k i k x C J xμ ∈ =- ∑（1）聚类目标是使各类总的距离平方和 1 (C)(c) K k k J J = =∑最小。 22 1111 (C)(c) i i K K K n k i k ki i k k k x C k i J J x d x μμ ==∈== ==-=- ∑∑∑∑∑ （2）其中， 1 i i ki i i x c d x c ∈ ? =? ? ? 若若，显然，根据最小二乘法和拉格朗日原理，聚类中心 k μ应该取为类别 k c类各数据点的平均值。 K-means聚类算法从一个初始的K类别划分开始，然

航空公司案例分析

加拿大西捷航空公司广告案例分析姓名：学号：班级：指导教师：目录一、广告产品简介 P2-P4 1、客户群定位 2、产品定位 3、价格定位二、市场环境 P4 三、竞争对手的分析 1、爱尔兰航空公司 2、Easy Jet航空公司四、营销策略 P5 五、SWOT分析广告产品简介西捷航空（WestJet）是加拿大第二大航空公司，是由莱夫?贝铎、马克?希尔、提姆?摩根、和唐纳德?比尔于1996年2月29日创建的，总部设在卡加里市，主营客运、货运和包机等业务，目的地共有51个，主要在北美洲及墨西哥。西捷航空营运初时机队只由3架波音737-200组成，员工数量只有222人，航点为卡加里、爱民顿、基隆拿、温哥华和温尼伯，至1997年年客运量已达100万人次。目前西捷航是一家拥有7000多名员工及12亿美元市场资本值的公司。

客户群作为北美最大的航空运营商之一，西捷公司每天在加拿大、美国和加勒比地区有约98架波音737执飞420多个航班。加航假期作为旅游服务公司，为游客提供精选旅游项目，加航假期在美国、加勒比海地区、中南美洲、及亚洲的90余个目的地提供旅游度假套餐。加航货运部向全世界150多个目的地提供航空货运网络服务。产品定位以“爱”主题，更好的服务于旅客，关心员工，从而吸引一批忠实的消费者，解决航空业客源不稳的现象。在某次的广告活动中，西捷航空临时成为圣诞老人的秘密基地，在短时间内准备圣诞礼物，并以最出其不意的方式送到乘客手中。未在消费者心中预设结果，以最快速度采购圣诞礼物，精心包装每一个专属礼物，西捷航空打造了一个不折不扣的圣诞奇迹。在羡慕和感叹的同时，这次活动也对如何进行节日营销提供了一些启示。这个广告活动的思路和出发点其实十分简单，但如何真正触发消费者的情感共鸣就取决于每一个细节的打造。西捷航空对那位圣诞老人的打造就足见用心，无论是外形装扮，还是语言神态，都最大限度接近人们心中的圣诞老人形象，又不失西捷的特色。在收集到乘客的礼物心愿清单后，工作人员以最快速度买到最匹配的礼物，而且逐个进行包装，附上祝福卡片。品牌的用心在细节中彰显，消费者最后也能切身感受到，被触动也就是自然而然的事情。价格定位西部航空公司是一家低价航空公司，虽然在过去的20年中，只占有5％的市场份额，但由于西部航空凭借着其低票价和短程运输的战略模式20年中在西部地区屹立不倒。西部航空的主要优势在于其坚持使公司的运营成本保持在低水平上。市场环境加拿大西捷航空公司是加拿大境内航线、美加越境航线、以及往返加拿大国际航线最大的承运航空公司。加拿大航空航线网络中心位于加拿大多伦多、蒙特利尔、卡尔加里及温哥华，可提供班机直达加拿大城市、美国目的地，以及遍及欧洲、中东、亚洲、澳大利亚、加勒比海地区、墨西哥和南美洲，超过240个目的地、90个度假目的地。竞争对手分析 1、爱尔兰航空公司爱尔兰航空公司（Aer Lingus）成立于1936年4月15日[1]?，总部位于爱尔兰都柏林。爱尔兰航空公司是爱尔兰的国家航空公司，爱尔兰政府拥有爱尔兰航空公司，但制定的计划完全适合公司的私营化。至2004年，股权仍有85%为爱尔兰政府所有。比起西捷航空公司更为的廉价，服务范围覆盖整个欧洲，是欧洲最大的廉价航空公司，拥有209条的廉价航线，遍布17个国家和94个目的地，是世界上最赚钱的航空公司。这家航空公司拥有快速的飞机周转率，低廉的票价和航空成本，同时还配备精简的人员配置和效绩管理，品牌知名度也比西捷航空高。 2、Easy Jet航空公司英国易捷航空公司(EasyJet Airline Company Limited),是英国一家提倡不

利用K-Means聚类进行航空公司客户价值分析知识分享

k-means聚类算法的研究全解

航空公司客户价值分析Kmeans

航空公司客户流失分析

聚类分析K-means算法综述

机器学习kmeans聚类算法与应用

利用K-Means聚类进行航空公司客户价值分析

第二讲 聚类Kmeans算法跟运用 (K-means cluster)

第9章rapidminer_k_means聚类.辨别分析v1

K-MEANS聚类算法的实现及应用

利用K-Means聚类进行航空公司客户价值分析.doc

matlab实现Kmeans聚类算法

航空公司客户服务计划

图像处理-K-means聚类处理

基于K―means聚类的客户细分案例分析

客户关系管理在航空公司的实践研究

K-means-聚类算法研究综述

航空公司案例分析

第二讲聚类Kmeans算法跟运用 (K-means cluster)