基于数据挖掘的电信客户信用分类模型研究
基于大数据的银行客户信用评估模型研究

基于大数据的银行客户信用评估模型研究第一章:绪论随着科技的发展和社会经济的进步,金融行业也发生了翻天覆地的变化。
其中,客户信用评估模型被广泛应用于银行风险管理系统中。
该系统利用大数据和人工智能技术,对客户的信用进行量化评估,从而实现风险的控制和管控。
本文旨在研究基于大数据的银行客户信用评估模型,为银行风险管理提供参考。
第二章:研究现状客户信用评估模型是银行风险管理体系的核心,也是当前金融行业的研究热点。
目前,国内外学者采用不同的方法构建客户信用评估模型,主要包括传统的数据挖掘技术、人工智能技术和机器学习技术。
其中,机器学习技术是目前应用最广泛的方法,包括支持向量机、神经网络、朴素贝叶斯、决策树等。
第三章:研究内容本文基于大数据技术,构建客户信用评估模型,主要内容包括以下三方面:1. 数据预处理。
通过数据清洗、缺失值处理、重复值处理、异常值处理等方法,提高数据质量和准确性。
2. 特征选择。
采用特征选择算法,从海量数据中筛选出与客户信用相关性更高的特征,提高模型的预测精度。
3. 模型构建。
选取多种机器学习模型比较和优化,构建客户信用评估模型。
通过对比不同算法的精度和效率,确定最优算法,并将其应用于实际项目中。
第四章:研究方法在该模型构建过程中,我们采用了以下方法:1. 数据收集:通过银行内部系统、第三方数据、互联网数据等多渠道收集客户信息。
2. 数据预处理:对收集到的数据进行清洗、处理、对齐、加工等工作,提高数据质量和准确性。
3. 特征工程:在数据预处理的基础上,选取适当的特征,采用多种特征选取算法确定有意义的特征。
4. 模型构建:选取SVM、决策树、朴素贝叶斯等多种机器学习算法,比较并确定最优算法。
5. 验证和评估:对构建好的客户信用评估模型进行评估和验证,测试模型的预测精度和效率。
6. 风险控制:将应用于实际风险管理系统,使模型能够在实际环境中不断学习和优化,实现风险的控制和管控。
第五章:实验结果通过模型的构建和优化,我们比较了SVM、决策树、朴素贝叶斯等多种算法的精度和效率。
基于数据挖掘的银行信用风险评估与预测模型研究

基于数据挖掘的银行信用风险评估与预测模型研究随着金融市场的高速发展,银行的信贷业务日益繁荣,但信用风险也随之增加。
为了更好地评估和预测银行的信用风险,提高信贷决策的准确性和效率,数据挖掘技术成为一种重要的工具。
本文将基于数据挖掘的方法,研究银行信用风险评估与预测模型。
首先,我们需要了解银行信用风险的概念。
银行信用风险是指在银行贷款过程中出现的借款人无法按时偿还本金和利息的风险。
信用风险评估和预测的目标是根据客户的个人和财务信息,预测客户未来还款能力,为银行决策提供可靠的依据。
数据挖掘技术适用于大量的数据分析,可以挖掘出隐藏的模式和关联规则。
在银行信用风险评估与预测中,常用的数据挖掘技术包括分类、聚类、关联规则和异常检测等。
首先,分类是一种常用的数据挖掘技术。
在银行信用风险评估中,分类技术可以将客户分为违约和非违约两类。
为了构建分类模型,首先需要选择合适的特征,如客户的年龄、性别、婚姻状况、收入水平等。
然后,通过训练样本对模型进行训练,选取适当的分类算法,如决策树、支持向量机或神经网络等。
最后,利用测试样本对分类模型进行验证和评估,并进行模型的调优。
其次,聚类是另一种常用的数据挖掘技术。
在银行信用风险评估中,聚类可以将客户根据其相似性分为不同的群组,从而揭示出潜在的信用风险。
聚类可以帮助银行更好地理解不同客户群体的特点,并针对不同群组制定不同的风险管理策略。
聚类的方法有很多种,如基于密度的DBSCAN算法、基于距离的K-means算法等。
另外,关联规则是用于挖掘数据集中项之间隐含关联关系的技术。
在银行信用风险评估中,关联规则可以帮助银行发现不同变量之间的关联性,从而更好地评估客户的信用风险。
关联规则的常用算法包括Apriori算法和FP-Growth算法。
通过关联规则的挖掘,银行可以识别出客户在还款能力上存在的弱点,从而更加准确地预测客户的信用风险。
最后,异常检测也是一种重要的数据挖掘技术。
在银行信用风险评估中,异常检测可以帮助银行发现异常的信用行为,如逾期还款、欺诈等。
基于数据挖掘技术的电信客户识别

摘要本文在对电信客户数据和业务深刻了解的基础上,对数据挖掘技术进行了深入的研究。
入的研究。
基本按照基本按照CRISP-DM CRISP-DM(跨行业数据挖掘标准流程)(跨行业数据挖掘标准流程)(跨行业数据挖掘标准流程)的前提下的前提下的前提下,,在MATLAB 2011b 平台上使用了BP 神经网络、神经网络、CART CART 决策树等分类算法建立了一个准确、高效的电信客户识别模型。
并结合第十届PAKDD (亚太知识发现与数据挖掘国际会议)提供的电信客户数据进行了分类实验和分析。
为电信运营商发展3G 客户提出了一些参考意见。
最后对本文做了系统的总结并对下一步的工作提出展望。
关键词:数据挖掘,电信,数据挖掘,电信, 3G 3G 3G,客户识别,神经网络,决策树,客户识别,神经网络,决策树ABSTRACTBased on a deep understanding of the telecommunication customer data and business, the paper makes deep research on data mining technology. Under the premise of the basic standard processes according to the CRISP-DM (cross-industry data mining), this paper uses the BP neural network and the CART decision tree classifier of MATLAB 2011 to establish an accurate, efficient 3G customers identify model. Also, this paper uses the customer data provided by the Tenth PAKDD (Asia Pacific Knowledge Discovery and Data Mining International Conference) to make testing and analysis. And then the paper put forward some suggestions for the telecom operators on how to develop 3G customers. At last, the paper makes a conclusion and looks into the next step of the study.Key Words :Data mining, 3G,customer identification,neural network,decision tree目录第1章 绪论绪论....................................................... 1 1.1 1.1 选题背景和意义选题背景和意义选题背景和意义.............................................. 1 1.2 1.2 论文主要工作论文主要工作论文主要工作................................................ 1 第2章 数据挖掘原理数据挖掘原理............................................... 2 2.1 2.1 数据挖掘起源与发展数据挖掘起源与发展数据挖掘起源与发展.......................................... 2 2.2 2.2 数据挖掘的基本概念数据挖掘的基本概念数据挖掘的基本概念.......................................... 2 2.3 2.3 数据挖掘的任务数据挖掘的任务数据挖掘的任务 .............................................. 3 2.4 2.4 数据挖掘系统的结构数据挖掘系统的结构数据挖掘系统的结构.......................................... 3 2.5 2.5 数据挖掘流程数据挖掘流程数据挖掘流程................................................ 4 2.6 2.6 数据挖掘的应用领域数据挖掘的应用领域数据挖掘的应用领域.......................................... 5 第3章 数据挖掘算法数据挖掘算法............................................... 6 3.1 3.1 常用数据挖掘算法常用数据挖掘算法常用数据挖掘算法............................................ 6 3.2 3.2 本文采用的数据挖掘算法本文采用的数据挖掘算法本文采用的数据挖掘算法...................................... 8 3.2.1 BP 人工神经网络算法人工神经网络算法.................................... 8 3.2.2 CART 决策树算法决策树算法....................................... 12 第4章 3G 客户识别系统的建立与应用客户识别系统的建立与应用 ...............................14 4.1 3G 客户识别系统的建立的背景和意义客户识别系统的建立的背景和意义........................... ...........................14 4.1.1 4.1.1 中国中国3G 现状现状........................................... ........................................... 14 4.1.2 4.1.2 建立建立3G 客户识别系统的意义客户识别系统的意义............................. .............................15 4.2 3G 客户识别系统的建立客户识别系统的建立....................................... .......................................15 4.2.1 4.2.1 系统平台系统平台系统平台.............................................. ..............................................15 4.2.2 4.2.2 系统采用的分类模型系统采用的分类模型系统采用的分类模型.................................... ....................................16 4.2.3 4.2.3 系统应用系统应用系统应用.............................................. ..............................................18 4.3 4.3 给电信运营商的一点建议给电信运营商的一点建议给电信运营商的一点建议..................................... 26 第5章 总结与展望总结与展望................................................ 27 5.1 5.1 论文总结论文总结论文总结................................................... 27 5.1.1研究工作研究工作.............................................. 27 5.1.2实际实施的工作实际实施的工作........................................ 27 5.2 5.2 下一步工作下一步工作下一步工作 ................................................. 27 附 录.. (29)参考文献参考文献........................................................... ........................................................... 36 致 谢谢.............................................错误!未定义书签。
数据挖掘在电信客户细分模型研究中的应用

数据挖掘在电信客户细分模型研究中的应用作者:吴健瑞来源:《消费电子·理论版》2013年第12期摘要:在以客户为导向的电信市场对客户群进行细分可以帮助企业制定更高效可行的营销策略,拓展市场份额,增强市场竞争力。
本文首先对电信客户细分的定义、特点进行了介绍,然后对数据挖掘技术的特点及其在电信客户细分中的应用优势进行了分析,最后对基于数据挖掘的电信客户细分模型及其所使用的数据挖掘技术进行了研究。
关键词:客户;电信市场;电信客户细分;数据挖掘中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2013) 24-0000-01随着通信市场竞争日趋激烈,电信客户的通信需求和消费理念都发生了显著的变化。
为满足客户的应用需求、提升市场竞争力,就必须将当代通信服务由以产品为导向以客户需求为导向转变,通过建立客户数据库,对客户的类别属性、消费类型以及消费倾向等进行分析。
数据挖掘技术是一种大数据环境下的数据分析方法,其可以在海量数据中建立一种内在的联系,基于该联系对客户进行细分,协助企业制定更具价值的认知体系和决策规则。
一、电信客户细分特点客户细分包括客户描述与划分两部分内容。
前者主要是提取可用于描述客户的特征和属性,以便于可应用该描述内容对客户行为模式进行预测和评估。
后者主要是对经过特征化后的客户进行类别划分,使具有共同类别与特点的用户归入同一类别,以便于增强服务和营销的针对性与有效性。
对客户进行细分可以调整资源分配结构,满足商业目的,对不同类型的客户指定不同的营销策略。
电信市场是典型的以客户为中心的消费市场,对该市场客户进行细分可以提升企业争取新客户、保留老客户、维护现有客户价值、拓展企业市场份额与经济效益的目的。
总结来看,电信客户细分中需要从以下几方面特征出发:一是电信客户消费具有持续性,为维系客户关系,就需要以该特征为着力点;二是电信客户消费层次和类别更为明显,如电信企业的客户分为具有较强稳定消费能力的集团用户和消费能力差别较大的个人用户;三是客户自身特点占据的权重较大,如客户的消费习惯、个人价值、品牌忠诚度、人际关系等。
基于数据挖掘的电信企业客户细分研究

后进行 多维 细分 , 当运 营商着眼 于更广泛 的消费者特性分析 但
时, 这种主观定义的细分方法就显得力不从心 , 据挖掘方法相 数 比于基 于统计 的客户 细分方法 的功效就 强大得多 ,运营商对数
据挖掘 的重视程度也 日 益加深 。 基于数据挖掘技术 的分类方法 ,
实现在此基础上进行的实际应用 。 如果变化太快 , 应用方案还未来
客户细分( utm r emet i ) 2 世 纪 5 C s e g n t n 是 0 o S ao O年代中期由
美 国学者温德尔 ・ 史密斯 提出的。其理论依据主要是顾客需求的
异质性 、 企业有限的资源和有效的市场竞争 。客户 细分是指根据
获取客户价值提供理论和方法指导 。
“ 零距离” “ 、用户至上 , 用心服务” 等词眼层出不穷。综合来说 , 这 些 与营销和服务相关 的术语 、 理念 , 对象 都是电信客户 。服务 源 于 良好 的营销 , 因此 , 客户关系最终决定了电信市场 营销 。 我 国电信业发展到今天 ,不仅初步形成 三大运营商 同台竞 技的市场格 局 , 而且从“ 方市场” 向“ 卖 转 买方市场 ”决定 了客户 , 关 系的“ 大一统” 必然向细分客户关 系和“ 个性化 ” 营销和服务 的 转 变。因此 , 细分客户关系是电信营销的关键所在 , 客户细分可 以对客户获取 、 客户保持 、 客户增值等提供全 面的支持 。恰 当的 细分标 准必 须得 到有效 的细分方法 的辅佐 ,细分方法 的选取应
该取决于细分的 目的。当 目的明确时 , 以选取若干细分标 准而 可
S zn eD n e 认 为 :正确的客户 细分能够有 效地降 低成 ua n on r 本, 同时获得更强、 更有利可图的市场渗透。通过客户细分 , 企业 可 以更好地识别不 同客户群体对企业的价值及其 需求 ,以此指 导企业 的客户关系 管理 , 达到吸引合适 客户 , 保持客户 , 立客 建
数据挖掘在电信领域客户行为分析中的应用

籀 | : 首 先 介 绍 7 基 于 数 据 挖 掘 技 术 构 建 的 客 户 行 为 分 析 系 统 的 架 构 , 然 后 i- 7 -论 . j 5种 典 型 的 电 信 领 域 客 户 行 为 分 析 应 用 及 其 使
用 的数 据 挖 掘 技 术 。
通 过 客 户 行 为 分 析 , 更 好 地 支 撑 客 户 服 务 和 市 场 营 销 等 工 作 。 客 户 行 为 分 析 就 是 在 客 户 行 为 数 据 的 基 础 上 构 建 客 户 信 息 视 图 , 并 从 海 量 客 户 消 费 行 为 数 据 中
关甓 谒:数 据 挖 掘 客 户 行 为 分 析 客户 细 分
பைடு நூலகம்
找 出 客 户 的 消 费 、流 转 等 方 面 的 规 律 ,从
1 引 言
近 年 来 ,随 着 企 业 数 据 仓 库 的 日益 普 及 ,很 多 企 业 都 逐 渐 积 累 起 大 量 的 历
而 帮 助 企 业 更 好 地 了 解 客 户 , 开 发 客 户 价 值 ,提 高 客 户 服 务 质 量 , 并 最 终 为 企 业 带 来 收 益 。 基 于 数 据 挖 掘 技 术 构 建 的 客
客 户行 为分 析 应用 。
2 客 户 行 为 分 析 系 统 架 构
客 户 行 为 分 析 系 统 的 架 构 如 图 1所 示 ,它 包 含 数 据 挖 掘 分 析 功 能 层 、 数 据 挖 掘 分 析 流 程 与 模 型 管 理 层 和 客 户 行 为 分 析 应 用 层 3个 层 次 。 数 据 挖 掘 分 析 功 能 层 为 客 户 行 为 分 析 应 用 层 提 供 基 础 挖 掘 分 析 功 能 ,包 括 数 据 预 处 理 、分 类 及 预 测 、聚 类 分 析 、社 会 网 络 分 析 、关 联 挖 掘 、 序 列 挖 掘 和 图 挖 掘 等 。 数 据 挖 掘 分 析 功
数据挖掘技术在客户分类管理中应用

数据挖掘技术在客户分类管理中的应用摘要:客户是企业生存和发展的关键。
保持、吸引客户和充分发掘客户的盈收潜力,是企业提高核心竞争力的重中之重。
本文针对电信crm系统中当下比较关注的移动电话客户信息原始数据,利用聚类分析中的k-means算法理论,采用spss数据挖掘工具实现对客户群的聚类细分,得到不同类型用户的类特征,从而为管理和营销人员制定管理和营销方案提供依据.关键词:数据挖掘;聚类分析;客户分类中图分类号:tp311 序言随着市场经济的发展,社会生产力的提高,电信行业管理按照所关注的对象经历了大致三个阶段:生产时代、产品时代和顾客时代。
在生产时代,社会生产力较为低下,物质较为欠缺,企业面对的是一个需求巨大而供给不足的卖方市场,更为关注的是产值。
随着社会生产力不断提高,产品日渐丰富,消费者有更多选择余地,对产品质量要求也提高,企业重心从而转化为追求产品质量,产品多样化。
随着电信行业竞争进一步加剧,产品同质化现象越来越严重,消费者成为产品生产、渠道选择、售后服务等企业活动的决定力量,企业经营的核心开始从产品、生产导向逐步转移到以客户为导向,客户的地位被提到了前所未有的高度。
而数据挖掘能从大量数据中发现潜在和有价值的知识,从数据库提取相关数据,作为分析依据,对客户进行分类和预测,使得企业的营销决策更具有针对性,大大提高营销成功率,为企业带来更多效益。
2 数据挖掘过程2.1 数据准备数据挖掘需要用到大量数据,尤其是中国电信提供的是综合性,移动产品和固网类产品及丰富的增值业务组合在一起,要采集历史使用数据,需要从各不同系统采集数据。
首先从crm系统获取客户的个人属性资料、产品及套餐、发展渠道等数据;从资源管理系统获取移动产品关联固话及宽带等固网产品的地址资源等;从cbs系统获取近半年的长市话、短信、流量、漫游结算等原始清单级数据;从crm营销维系系统获取用户所属网格单元、服务渠道、收入局向等数据;从工作流系统获取用户投诉建议方面的资料。
数据挖掘在客户关系管理中的应用研究

数据挖掘在客户关系管理中的应用研究在当今竞争激烈的商业环境中,企业越来越重视客户关系管理(CRM),以保持和提高客户的满意度和忠诚度,从而实现业务的增长和可持续发展。
数据挖掘作为一种强大的技术手段,为企业在客户关系管理方面提供了新的思路和方法。
本文将深入探讨数据挖掘在客户关系管理中的应用,包括其作用、主要技术和实际应用案例等方面。
一、数据挖掘在客户关系管理中的作用1、客户细分客户细分是将客户按照不同的特征和行为分为不同的群体。
通过数据挖掘,企业可以分析客户的购买历史、消费金额、频率、地域等信息,将客户细分为具有相似需求和行为的群体。
这样,企业就能够针对不同的客户群体制定个性化的营销策略和服务方案,提高营销效果和客户满意度。
2、客户价值评估数据挖掘可以帮助企业评估客户的价值。
通过分析客户的购买行为、忠诚度、推荐意愿等因素,确定客户的潜在价值和终身价值。
企业可以将资源集中在高价值客户身上,提供更优质的服务和特殊待遇,同时努力提升低价值客户的价值,实现客户价值的最大化。
3、客户流失预测客户流失是企业面临的一个重要问题。
数据挖掘可以通过分析客户的历史数据,如近期购买行为、投诉记录、与企业的互动情况等,预测哪些客户可能会流失。
企业可以提前采取措施,如提供优惠、改进服务等,挽留可能流失的客户,降低客户流失率。
4、交叉销售和向上销售数据挖掘可以发现客户的潜在需求和购买模式,从而为企业提供交叉销售和向上销售的机会。
例如,如果一个客户购买了某种产品,数据挖掘可能会发现他有很大的可能性购买相关的配套产品或更高端的产品,企业就可以及时向客户推荐,提高销售额和利润。
二、数据挖掘在客户关系管理中的主要技术1、聚类分析聚类分析是将数据对象分组为多个类或簇,使得同一簇中的对象具有较高的相似性,而不同簇中的对象具有较大的差异性。
在客户关系管理中,聚类分析可以用于客户细分,将客户分为不同的群体,以便企业采取针对性的营销策略。
2、分类算法分类算法是根据已知的类别标记数据,建立分类模型,对未知类别的数据进行分类预测。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 2
SOM 聚类 本文采用了 SOM 聚类, 以得到客户的信用等级
其中, Sj 包含 S 中这样一些样本 , 它们在 A 上具有值 a j 。如果 A 选做测试属性 ( 即最好的分裂属性 ) 则这 些子集对应于由包含集合 S 的节点生长出来的分枝。 设 Sij 是子集 Sj 中类 C i 的样本数。 根据由 A 划分成子集的熵 ( entro py ) 或期望信息 为: E(A ) =
第 10 卷 2010 年
第 12 期 12 月
科
技
和
产
业
Science T echnolog y and Indust ry
V ol 10, N o 12 Dec. , 2010
基于数据挖掘的电信客户信用分类模型研究
尤瑞红, 李 勇, 张博文
( 重庆大学 经济与工商管理学院 , 重庆 400044) 摘要 : 电信客户信用分析与预测 , 对于电信运营商在激烈竞争环 境下 , 最大程度的 在竞争活 动中立于 不败之 地 , 具 有重 要意义 。 本文采用了 SOM 聚类算法和用传统经验对客户信用等级评分 评级来确定 信用等级 类标号 , 再用决策 树算法 建立两个模型 A 和 B 。 比较两个模型 , 选择性能较优者为最终 模型并探讨了该模型的实际应用 。 关键词 : 数据挖掘 ; 信用评分 ; SO M 聚类分析 ; 决策树 中图分类号 : F 270 7 文献标志码 : A 文章 编号 : 1671- 1807( 2010) 12- 0054- 05
其中 ci 表示簇 C i 的质心 ; c 表示总体质心 ; m i 表 示簇 C i 中有 m i 个个体。 1 3 分类分析 本文就是采用 C4 5 算法来构建决策树 , 建立了
∀p
m
ij
log 2 ( P ij )
( 5)
电信客户信用等级预测模型。决策树可以根据输入 变量 ( 自变量) 对分类结果影响力的大小 , 将影响微弱 的变量从模型中去掉, 从而简化模型。决策树 C4 5 算法采用信息增益率 ( g ain ratio ) 作为决策树模型中 的属性选择的测试条件, 可有效避免传统方法中熵和 Gini 指标可能产生大量输出的测 试条件的情况 , 提 高模型的性能 。 设 S 是 s 个客户数据样本的集合。根据数据库 元组训练集, 类标号属性具有 m 个不同值 , 因此有 m 个不同的类 Ci ( i= 1, ∃∃m) 。设 si 是类 ci 中的样本 数。对一个给定的样本分类所需的期望信息值由下 式给出: I = ( s1 , s2 , ∃ ∃, sm ) = ﹣ 计。 设属性 A 具有 v 个不同的值 { a 1 , a2 , ∃, a v } 。可 以用属性 A 将 S 划分为 v 个子集 { s1 , s2 , ∃ ∃, s v } ;
[ 5] [ 4] [ 3] [ 1- 2]
g le , 他采用线性回归模型制定了一个类似 于信用 卡的评分卡 , 他的研究表明消费者行为特征比申请 表资料更能够预测未来违约可能性的大小。传统的 信用决策系统是一个过多依赖于训练有素的专家的 主观判断系统, 我国电信企业的用户信用管理正处于 此阶段 , 虽具有一定的内容和规范制度, 但总体上缺 乏科学性、 系统性 , 显然, 这样的评分原则主观因素太 多 , 在实际应用中 , 很难做到客观和真实。 因此, 本研究试图利用数据挖掘技术 , 与电信公 司传统的专家决策系统进行建模比较分析, 来选择确 立哪种方法在管理实践中对电信公司信用等级的分 类确定更为有效。最后探讨了该模型的实际应用。
∀
m
2
p i log 2 ( p i ) (3) 2 1
案例分析
客户数据
其中 P i 是任意样本属于 ci 的概率, 并用 S i / S 估
本文所用的所有数据 , 是从重庆某电信运营商的 手机后付费用户数据库中 , 利用随机抽样的方法提取 了从 2007 年 10 月至 2008 年 3 月的 1 101 条后付费 用户的样本数据 , 累计属性为 37 个。该后付费数据 55
据挖掘平台中进行了数据与处理。将各属性变量的 中文名修改成其相应拼音缩写 , 把归属地区统一划分 为% 主城区& 与% 非主城&两大类, 将性别男女分别用 1 和 0 来表示, 年龄划分 为 0、 1、 2 三段。客户 等级以
图1
SOM 聚类结果输出结果 客户的类标号对应填至% SEGMENT & 属性中 , 然后随 机抽取 801 条数据进行分类建模的基本样本数 , 余下 的 300 条数据在模型应用阶段可进行未知类标号的 预测, 对些来检验该分类模型, 既预测出未来电信客 户的信用等级。将分类数据导入 SA S 数据库中 , 运 行软件到三叉树的模型。部分三叉树模型如图 2 所 示
图2 2 4 模型的比较与选择
部分三叉树的树型图 在 sas ent erprise miner 中应用 assessm ent node 对模型 A 、 B 进行评估 1) 混淆矩阵。对这两个模型进行评估。通过计 算得出模型 B 整体评估正确率为 81 94% , 对 3 类电 信用户的信用等级的评价指标精度为 90 42% , 效果 较好。对 模 型 A, 该 模 型 总 体 正 确 率 不 高, 只 有 56 88% 。针对信用分值为 3 的客户正确预测精度也 只有 14 29, 因此可判断 , 该模型效果不佳 , 但基本上 可以接受。
收稿日期 : 2010- 11- 17 作者简介 : 尤瑞红 ( 1983 ) , 女 , 山东临沂人 , 重庆大学硕士 , 研究 方向 : 数据挖掘 、 商务智能 、 信息系统与决策支持系统 、 供 应链管理 ; 李勇 ( 1969 ) , 男 , 四 川广元人 , 重庆大学经济与工 商管理学院 , 副教授 , 博士 , 研 究方向 : 研 究方向 : 数据挖掘 、 商务 智能 、 信息系统与决策 支持系统 、 供应链管理 。
1j 其项 s + j= 1
类标号, 由于本文采集的样本数据受到种种局限, 故 采用的主要是反映内部指标中的簇的凝聚性 ( SSE) 和簇的分离性 ( SSB) 这两个指标来评估。相应公式 如下[ 7] SSE =
X# C
∀ di st ( ci , X )
i
2
( 1)
∀
v
s 1j + s
+ s mj
观察图中聚类结果我们可知, 原来没有类标号的 1 101 条数据 , 被自动分成了三个等级 , 在此结果中 多了 一 列 % SEGM ENT & , 即 在非 监 督 条 件 下 对 这 1 101条数据进行聚类分析后产生的新的信用等级类 标号 , 我们也可以把他看成分值为 1、 2、 3 分。 2 3 2 分类分析 根据 2 3 1 节的聚类结果为基础, 将每一个电信
科技和产业
第 10 卷
第 12 期
库的样本总量为 8 万条。对初始数据按表 1 1 所示 数据结构的要求和电信运营商内部专家的初步处理 进行了各种统计和汇 总处理 , 得到 1 101 条样 本数 据。 2 2 数据预处理 分别在 SAS Ent erpr ise M iner 和 WEKA 两个数
[ 6]
1
研究方法
电信客户信用预测分析是典型的分类预测问题。
分类预测分为两个基本步骤: 以样本数据为训练集( T raining Dat aset ) 和测 试集( T est Dataset ) , 以客户信用等级为目标变量建 立分类预测模型 ; ! 根据分类预测挖掘模型, 对客户 信用进行分析。数据挖掘技术提供了多种分类预测 方法, 本文采用了 SOM 聚类算法和用传统经验对客 户信用等级评分评级来确定信用等级类标号, 再用决 策树算法建立两个模型 A 和 B 。比较两个模型 , 选 择 性能 较 优者 为最 终 模型。采 用 SA S Ent er prise M iner 和 WEKA 作为数据挖掘的工具平台。 1 1 数据模型 数据模型是建立客户信用分析模型的前提和条 件。数据模型包含目标变量 ( 因变量 , 由聚类分析得
54
基于数据挖掘的电信客户信用分类模型研究
到信用等级) 以及输入变量( 自变量 ) 集合。自变量集 合中主要包括: 归属 地区、 客户等级、 品牌、 性别、 年 龄、 每月的消费金额、 每月是否停欠机等变量 , 我们咨
询了该电信运营公司的专家, 得出以下数据模型来进 行聚类结构如表 1 。
表 1 数据模型 U SER_N O 1 2 3 4 5 6 7 属性名 是否欠停 _10 是否欠停 _11 是否欠停 _12 是否欠停 _01 是否欠停 _02 是否欠停 _03 累计欠费 属性含义 10 月份该客户是否欠费停机 11 月份该客户是否欠费停机 12 月份该客户是否欠费停机 01 月份该客户是否欠费停机 02 月份该客户是否欠费停机 03 月份该客户是否欠费停机 连续 6 个月中 , 该客户账户欠费总额 属性类型 binar y binar y binar y binar y binar y binar y inter val
电信客户信用分析模型是电信公司在具体管理 实践中采取有效措施、 减少其信用风险、 降低运营成 本、 提高经济效益的有效途径。而信用评分又是划分 客户信用等级的重要技术。 当前 , 信用评分领域的研究发展速度飞快 , 为了 降低信用决策中的主观因素, 越来越多的数学方法被 引入到了信用评分中, 概括来看, 主要分为非统计和 统计两大类。统计 方法主要包括 判别分析、 回归分 析、 分类树和最近邻法, 非统计方法包括神经网络、 遗 传算法、 专家系统和数学规划方法。 虽然信用评估专家系统在实践中常有应用 , 但 目前研究这一方法的文章还比较 少, 并且都 不甚深 入。这方面 的论文主要有 Zocco, Dav is, L eo nard 发 表的一些文章。 专家系统解释其信用评估结果的 能力很强 , 这一点对满足一般法律对拒绝申请人贷款 申请要给出合理解释的要求有很大帮助。但是有证 据显示专家系统对申请人信用变化情况的预测能力 很差。Durand 将统计学中的判别分析方法引入信 用评分模型中 , 从 而在学术 界引发了 广泛的讨 论。 代表性的研究有 William F air and Earl Isaacs, M yers and F org y 前者较为完整的采用判别分析法建立了 信用评分系统, 而后者利用判别分析法对特定领域做 了实证分析 。近期对于判别分析的研究有 Ro sen berg, 他提出了采用判别分析法进 行信用评分可能 产生的若干问题 。而传统的信用评分模型, 回归分 析法是目前为止应用最为广泛的 , 这其中以著名的 logist ic 回归为 代表。最早 使用 回归 分析的 是 Or