评分卡模型开发技术报告

合集下载

模型设计实验报告

模型设计实验报告

一、实验背景随着计算机视觉技术的不断发展,图像分类在众多领域得到了广泛应用。

深度学习作为近年来人工智能领域的热点,在图像分类任务中取得了显著成果。

本实验旨在设计并实现一个基于深度学习的图像分类模型,通过实验验证模型在图像分类任务中的性能。

二、实验目的1. 学习和掌握深度学习在图像分类中的应用。

2. 熟悉卷积神经网络(CNN)的结构和原理。

3. 掌握图像预处理、模型训练、评估等基本流程。

4. 分析不同模型结构对分类性能的影响。

三、实验内容1. 数据集介绍实验使用的数据集为CIFAR-10,该数据集包含10个类别,每个类别有6000张32×32的彩色图像,共计60000张。

数据集具有多样性,能够较好地反映实际应用场景。

2. 模型设计本实验设计了一种基于CNN的图像分类模型,主要包括以下几个部分:(1)卷积层:使用卷积层提取图像特征,卷积核大小为3×3,步长为1,padding 为1。

(2)激活函数:使用ReLU激活函数,增加模型的非线性。

(3)池化层:使用最大池化层降低特征图尺寸,池化窗口大小为2×2,步长为2。

(4)全连接层:使用全连接层进行分类,包含一个输出层,输出10个神经元的值,对应10个类别。

(5)损失函数:使用交叉熵损失函数计算预测结果与真实标签之间的差异。

3. 实验步骤(1)数据预处理:对CIFAR-10数据集进行随机划分,分为训练集、验证集和测试集,比例分别为60%、20%、20%。

(2)模型训练:使用训练集对模型进行训练,调整学习率、批大小等参数,观察模型在验证集上的性能。

(3)模型评估:使用测试集对模型进行评估,计算模型在测试集上的准确率、召回率、F1值等指标。

4. 实验结果与分析(1)模型性能在实验过程中,通过调整模型参数,最终得到以下实验结果:- 准确率:92.3%- 召回率:91.5%- F1值:91.9%(2)模型结构分析通过对比不同模型结构对分类性能的影响,可以得到以下结论:- 添加卷积层和池化层可以有效地提取图像特征,提高模型的分类性能。

信用卡申请评分模型的开发与应用

信用卡申请评分模型的开发与应用

的特 定期 间 内 各 自符 合 特 定 违 约 状 况 的 客 户 。有 某 一 特 量 对 客 户的风 险 水平 有 较大 的预 测 能 力 ,它的 权重 可 能就 定违 约状 况的 为 坏客 户 ,无 某 一特 定 违 约 状 况为 好 客 户 。 会 大 一点 ,也 就 是说 ,申请 者的 年龄 可 能会 较 大地 影 响到 “ ” 坏 ” 客 户是 在 开发 申请评 分 模 型 时须 首 先 确定 的 其 最后 的评分 。 好 、“
统计 建模 方法 ,针 对 申请者 的 潜在 违约 概率 ,对 申请者 做 需要 依 据这 段 时 间 内发 生 的状 况而 定 。 因为在 不 同的 时 间 出风 险评价 的计量 模 型。
目前 ,包 括 国内 各家 商业 银 行在 内 的各 发卡 机构 ,已 段 内 申请者 的特 征 变量 属性 的 值 可能 会发 生 变化 ,所 以确
提 炼而 成的 相对 简单 的评 分 卡 ,有很 大的 随 意性和 不稳 定 年 内 3次拖 欠还款 ”等 分别是该 申请 者 在 “ 婚姻 状 况” “ ,年 性 ,评 分使 用者 无法 根据 此 申请 评分 体 系对据 此形 成 的信 龄 ” 一年 内 曾经拖 欠还 款 的次 数 ”这 三个 信用 特征 变 量 ,“ 用卡 资产 的风险 水平 作 出科 学和 准确 的测算 。 信 用卡 申请 评分 模 型 ,是银 行等 发 卡机 构在 决 定是 否 表 现 出来 的具 体状 况 。 观 察窗 口 :指 发 卡机 构 用来 确 定 申请 者特 征 变量 属性
定合 理 的观 察窗 口对开 发模 型 非常 重要 。观察 窗 口一 定是
经或 多或 少在开 发或 者 使用 申请 评分 。 本文 主要 阐述 申请 从 申请 时刻开 始 往前倒 退的 一段 时间 。 评 分模 型的开 发和应 用等 问题 。

模具开发评估报告

模具开发评估报告

模具开发评估报告一、项目背景近年来,随着制造业的发展,模具产业作为制造业的关键支撑产业之一,发展迅速。

模具作为制造工业产品的基本工具,对于提高产品质量、降低生产成本具有重要意义。

然而,目前我司仍在使用传统的手工制模方式,生产效率低下,产品质量无法得到有效控制。

为了提高模具生产效率和产品质量,我司决定进行模具开发项目。

二、项目目标1.提高生产效率:通过引入先进的模具开发工艺和设备,提高生产效率,缩短生产周期,减少人力资源浪费。

2.提升产品质量:通过模具开发,确保模具精度高,产品加工质量稳定,减少产品次品率,提高客户满意度。

3.降低生产成本:通过提高生产效率和产品质量,减少废品率,减少人工投入,从而降低生产成本。

三、评估内容1.技术评估:评估模具开发所需的技术水平和工艺流程,包括模具设计、模具加工、模具测试等环节。

2.设备评估:评估现有设备能否满足模具开发的要求,如不满足需重新采购或升级设备。

3.人员评估:评估现有人员是否具备进行模具开发所需的技能和经验,如不具备需进行培训或招聘相关人员。

4.成本评估:评估模具开发所需的投入成本,包括技术投入、设备投入、人员投入等,以及模具的使用寿命和维护成本。

5.风险评估:评估模具开发过程中可能面临的风险和挑战,如技术难题、市场需求变化、竞争压力等。

四、评估结果1.技术评估结果:经评估,我司具备进行模具开发所需的技术水平和工艺流程,能够满足项目要求。

2.设备评估结果:目前我司现有设备无法满足模具开发的要求,需重新采购或升级设备,预计投入额为XX万元。

3.人员评估结果:我司现有人员在模具开发方面具备一定的技能和经验,但需进行一定的培训以提升能力,预计培训成本为XX万元。

4.成本评估结果:模具开发投入总额预计为XX万元,模具的使用寿命预计为X年,维护成本约为XX万元/年。

5.风险评估结果:模具开发过程中可能面临技术难题和市场需求变化的风险,但我司具备解决难题和应对变化的能力。

评分卡模型

评分卡模型

评分卡模型0 引言信用评分模型是消费信贷管理中的先进的技术手段,是银行、信用卡公司、个人消费信贷公司、电信公司、水电服务公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。

被广泛应用于信用卡生命周期管理、汽车贷款管理、住房贷款管理、个人贷款管理、其他消费信贷管理等领域,在市场营销、信贷审批、风险管理、账户管理、客户关系管理等各个方面都发挥十分重要的作用。

信用评分模型运用先进的数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来总和评估消费者未来的某种信用表现。

信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。

具体作法是根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。

1 基于Logistic回归分析的客户信用评价卡模型本文将采用 Logistic 逻辑回归分析方法对小额贷款公司的客户信用进行评价。

首先,建立信用评价模型,给出客户信用评分卡模型,并对客户样本进行初步分类预测。

下面的理论基础和变量选择都以该小额贷款公司为例。

1.1 建模的准备1.1.1 目标变量的定义研究的目标变量为客户是否具有“违约”行为,本文是以客户逾期未归还贷款定义为“违约”行为(即“坏”客户)。

1.1.2 定量指标的筛选方法第一种定量指标的筛选方法:用随机森林法寻找自变量中对违约状态影响最显著的指标。

第二种定量指标的筛选方法:计算变量间的相对重要性,并通过相对重要性的排序,获取自变量中对违约状态影响最显著的指标。

第三种定量指标的筛选方法:通过自变量间的广义交叉验证法,获取自变量中对违约状态影响最显著的指标。

基于逻辑回归的信用评分卡建模研究

基于逻辑回归的信用评分卡建模研究

基于逻辑回归的信用评分卡建模研究一、引言随着金融业的发展和数据技术的飞速发展,信贷业务已经成为银行业务中的一个重要组成部分。

而信用评估则成为了信贷业务中的核心问题。

信用评估不仅能够为银行提供有力的决策支持,而且还能够提高信贷业务的风险控制水平。

而在信用评估中,信用评分卡建模是一种广泛采用的方法,其依靠客户历史数据,建立基于逻辑回归模型的评分卡,对客户进行信用评估。

本文将深入研究基于逻辑回归的信用评分卡建模方法。

二、信用评分卡建模基本流程信用评分卡建模的基本流程如下:1.数据收集:从客户历史记录中收集相关数据,包括个人基本信息、贷款历史、还款历史等。

2.数据清洗:对数据进行清洗和处理,包括数据修正、剔除异常值等。

3.特征工程:对数据进行变换和选择,包括变量衍生、变量选择等。

4.模型建立:选择逻辑回归模型,并进行参数估计和模型选择。

5.模型评估:对模型进行评估,包括模型的准确率、预测能力等。

6.应用实践:将模型应用到实际业务中,对客户进行信用评估。

三、关键方法讲解1.逻辑回归模型逻辑回归模型是一种常用的二元分类模型,主要用于解决在二项式分布下的分类问题。

其通过特定的函数模拟分类结果与自变量之间的关系。

逻辑回归模型的基本形式为:其中,P(Y=1|X)表示在给定自变量X的条件下,Y取值为1的概率,即为模型预测的概率值。

而β0、β1、β2、……、βn则称为模型的参数,表示每个自变量对于因变量影响的程度。

2.特征工程特征工程是机器学习中的一个重要环节,其主要目的是对样本数据进行变换和选择,提取出关键的特征信息供模型使用。

在信用评分卡建模中,特征工程主要包括变量衍生和变量选择两个部分。

变量衍生:将原有数据进行变换生成新的特征,以达到更好的建模效果。

例如,在信用评估中,我们可以通过借款人的年龄、性别等信息计算出其还款能力、稳定性等方面的信息。

变量选择:选择有利于模型建立和评价的变量。

在信用评分卡建模中,变量选择需要根据先验知识和数据分析的结果,选择与违约相关性较高的特征。

信用卡行为评分模型的开发

信用卡行为评分模型的开发

开 发拖欠 评分 , 选取 2 0 0 7年 1 0月 1日时 间点
的原始样 本 。对 于 2 0 0 7年 1 0月 1日采集 的用 于研 制 评分 的样 本 , 其采集 规则是 : 2 0 0 7年 4月 1日至
2 0 0 7年 1 0月 1 日有 持 续 开 放 的 账 户 , 这 些 客 户
1 . 样 本 设计 在模 型检 验 中 , 经 常 采用 的方 法 是 样 本 内检 验
收 稿 日期 : 2 0 1 3—0 6—1 9
系统知 识 和应用要 求最 严格 的步 骤就 是 数据 准 备 阶
作者简介 : 黎玉华( 1 9 7 7一) , 女, 广西玉林人 , 初级 实验 师 , 硕士 , 主要研 究方向为计 算机技 术。
银行 模 型 的开 发一 般包 括 J : 模 型设 计 阶段 、 数 据 准备 阶段 、 模 型 开发 阶段 和模 型校验 阶段 。
( 一) 模 型设 计
在 模 型设 计 阶 段 完成 以后 , 就 进入 数 据 准 备 阶 段 。在 整个模 型 开 发 过 程 中 , 花时最多 、 最繁杂 、 对
贷风险 , 增加 信 贷 收益 。
关键词 : 信 用卡; 行 为 评 分模 型 ; 评分卡 ; 变 量 分 析 中图 分 类 号 : F 8 3 2 . 3 3 2 文献标志码 : B
文章编号 : 1 6 7 4— 7 4 7 X( 2 0 1 3 ) 0 9— 0 0 2 8— 0 4
在催 收 时会否 还款 等 , 主要应 用 于授 信 、 催收 、 授权 、
产 品更新 定价 等业 务方 面 。
信用 卡拖 欠评 分 是 行 为 评 分 的一 种 , 利 用 客 户 的 申请数 据 、 账 户 数据 等 , 预 测账龄 不 短 于一定 期 限

贷中行为评分卡(B卡)模型

贷中行为评分卡(B卡)模型

贷中行为评分卡(B卡)模型一、风控业务背景随着新客获客成本越来越高,贷中客户管理越来越重要,包括额度管理(提降额度)、利率调整、提单意愿预测、流失倾向预测、营销响应预测等。

行为评分卡(Behavior Scoring)是一种根据客户在账户使用期间所产生的各种行为,动态预测客户风险的评分模型。

其像是对客户过去一段时间的动态表现录像,然后与其在未来时间的一些状态照片对比。

本文以信用卡和小额信贷分期产品为例,介绍行为评分卡(B卡)的基本知识。

二、信贷场景信贷生命周期管理大致可分为贷前(准入审核、额度授信、支用审批等)、贷中(额度管理、流失预测、营销响应等)、贷后(催收:还款率预测、账龄滚动、失联预测)三个阶段。

图 1 - 信用卡和小额信贷分期产品如图1所示,我们以信用卡和小额信贷分期产品为例,分别介绍两者的特点:1. 信用卡信用卡在审批下卡前的阶段称为贷前,机构(银行、信用卡公司)会对客户风险综合评估,给予一个初始信用额度(如8000元)。

下卡并激活后,进入贷中阶段,期间客户可在信用额度范围内进行透支消费,每两个账单日之间的消费流水账单将在后一个账单日(例如每月8号)通知客户。

账单日至最晚还款日(例如每月26号)前,客户可以随时还款,期间免息。

还款方式一般支持一次性还清和分期还款。

分期还款将产生利息收入,因此对于机构而言,自然是希望客户分期,默认推荐项也就是这个(为提高转化率,UI设计时肯定在右手边)。

一旦客户逾期,那就进入贷后催收阶段。

2. 小额信贷分期在贷前阶段,小额信贷分期产品所产生的每笔支用订单都需审批,通过后才放款到客户手中。

放款后至结清的这段时间称为贷中。

订单具有金额、期限、利率等属性,其约定了出借人和借款人之间的契约。

与信用卡分期还款类似,小额信贷分期产品在每个还款日也必须偿还相应的本金和利息。

在客户发起支用申请订单后,将会生成一张还款计划表,如图2所示。

显然,该还款方式为等额本息,即:在还款期内,每月偿还同等数额的贷款(包括本金和利息)。

python评分卡模型

python评分卡模型

python评分卡模型信⽤风险计量模型可以包括跟个⼈信⽤评级,企业信⽤评级和国家信⽤评级。

⼈信⽤评级有⼀系列评级模型组成,常见是A卡(申请评分卡)、B卡(⾏为模型)、C卡(催收模型)和F卡(反欺诈模型)。

今天我们展⽰的是个⼈信⽤评级模型的开发过程,数据采⽤kaggle上知名的give me some credit数据集。

⼀、建模流程典型的信⽤评分卡模型如图1-1所⽰。

信⽤风险评级模型的主要开发流程如下:(1) 获取数据,包括申请贷款客户的数据。

数据包括客户各个维度,包括年龄,性别,收⼊,职业,家⼈数量,住房情况,消费情况,债务等等。

(2) 数据预处理,主要⼯作包括数据清洗、缺失值处理、异常值处理、数据类型转换等等。

我们需要把原始数据层层转化为可建模数据。

(3) EDA探索性数据分析和描述性统计,包括统计总体数据量⼤⼩,好坏客户占⽐,数据类型有哪些,变量缺失率,变量频率分析直⽅图可视化,箱形图可视化,变量相关性可视化等。

(4) 变量选择,通过统计学和机器学习的⽅法,筛选出对违约状态影响最显著的变量。

常见变量选择⽅法很多,包括iv,feature importance,⽅差等等 。

另外缺失率太⾼的变量也建议删除。

⽆业务解释性变量且没有价值变量也建议删除。

(5) 模型开发,评分卡建模主要难点是woe分箱,分数拉伸,变量系数计算。

其中woe分箱是评分卡中难点中难点,需要丰富统计学知识和业务经验。

⽬前分箱算法多达50多种,没有统⼀⾦标准,⼀般是先机器⾃动分箱,然后再⼿动调整分箱,最后反复测试模型最后性能,择优选取最优分箱算法。

(6) 模型验证,核实模型的区分能⼒、预测能⼒、稳定性、排序能⼒等等,并形成模型评估报告,得出模型是否可以使⽤的结论。

模型验证不是⼀次性完成,⽽是当建模后,模型上线前,模型上线后定期验证。

模型开发和维护是⼀个循环周期,不是⼀次完成。

(7) 信⽤评分卡,根据逻辑回归的变量系数和WOE值来⽣成评分卡。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

评分卡模型开发技术报告韩江涛2018年02月12日Contents1前言1 2评分卡开发流程2 3数据获取33.1采样范围选择 (3)3.2收集整理数据 (3)3.3German Credit数据集 (3)4探索性数据分析74.1统计特性和分布 (7)4.2缺失值处理 (11)4.3离群点处理 (14)5数据准备165.1创建数据集 (16)5.2平衡训练集 (16)5.3数据分箱 (17)5.4证据权重(WoE)转换 (20)5.5相关性分析 (23)5.5.1相关系数分析 (23)5.5.2多重共线性检测 (24)6变量选取和模型开发266.1模型指标变量选择 (26)6.2模型训练 (26)6.3Bias v.s.Variance (29)7模型评价307.1混淆矩阵 (30)7.2ROC、AUC和Gini值 (31)7.3KS曲线及KS值 (32)8评分卡创建和实施358.1评分卡创建 (35)8.2评分验证 (37)8.3评分卡实施 (39)8.4拒绝推论 (39)9监测40 10Appendix4110.1Change Log (41)10.1.12018-2-12 (41)10.1.22017-10-20 (41)10.1.32017-9-6 (41)参考文献42List of Figures1评分卡开发流程图 (2)2名义变量分布统计 (8)3数值变量分布统计 (9)4类别分布统计 (11)5查看缺失值 (13)6使用Cook距离标记离群点 (14)7类别分布统计 (17)8连续变量分箱结果 (19)9WoE转换结果 (21)10信息值 (22)11相关性分析 (24)12LASSO回归的交叉验证曲线 (27)13LASSO Trace (28)14学习曲线 (29)15混淆矩阵及其衍生指标的定义 (30)16ROC曲线和AUC (32)17KS曲线和KS-value (34)18German Credit的实际得分分布与理论分布对比 (39)List of Tables1评分卡数据介绍 (3)2评分卡刻度表 (35)3评分卡表 (36)4平衡数据集和非平衡数据集的效果对比 (41)1前言 信用评分卡是一种常用的信用风险量化工具。

主要分为申请评分卡和行为评分卡,前者用于新贷款、授信申请的风险量化,后者主要用于贷后管理,两者具有相似的开发过程。

随着中国银行业内部竞争加剧和经营水平的提高,信用评分工具也受到了越来越多的重视。

本文以R语言实战的形式简要介绍信用评分卡的开发过程,实际上在开发的各个环节,都有大量值得深入挖掘的优化方法,而某些方法的实施,很可能要花项目10%的时间却只带来1%的效果提升。

本文浅尝辄止,望能抛砖引玉。

2评分卡开发流程 评分卡的简要开发思路就是使用有监督机器学习中的分类算法,利用已知分类的数据训练模型来预测未知数据的分类。

如Figure 1所示,主要分为以下步骤:数据获取,探索性数据分析,数据准备,变量选取,模型开发,模型评价,评分卡创建,评分卡实施,监测等。

Figure1:评分卡开发流程图3数据获取目的:使后面所有工作能够开展工具:任何你熟悉的工具,Excel,R,SQL…… 收集数据是评分卡建模的第一步。

收集数据包含两个方面的问题:数据采样范围和维度(即指标)选择。

3.1采样范围选择 数据收集的时候有两个窗口:观察窗口和表现窗口。

比如我们将目标变量定义为:有超过90天的逾期为坏客户,否则为好客户,而预测指标中有“近60天的平均余额”,那么在计算这个指标前,就需要对数据窗口进行对齐,比如将违约起始日期作为表现窗口的开始,按照窗口进行对齐,再计算出所需指标。

再比如将坏客户定义为未来半年内有逾期可能的客户,表现窗口就会长达半年。

所以数据获取,通常并不是按照自然日历获取,而是要按照窗口的定义获取。

对于申请评分卡,我们抽样一些申请通过客户并根据其后期行为标记为好、坏,然而这些客户不包括前期被拒绝的客户,这时,抽样是有偏的。

将被拒客户的数据加入模型,被称为“拒绝推论”,这本质上是一个纠偏的问题。

3.2收集整理数据 根据信用评分卡不同的应用,需要有经验的业务人员和数据分析人员一起确定相应的指标选取范围。

指标一般可分为以下两类:1.原始指标:是指存在于数据库中的原始数据;2.衍生指标:是指分析人员对原始数据进行转换、加工、计算后得到的新指标。

通常,会在条件允许的情况下收集尽量多的指标,并根据业务先验知识,计算衍生指标。

在指标严重缺乏的情况下,除了设计有业务含义的衍生指标,还可以考虑加入原始指标的幂。

3.3German Credit数据集 本文描述了评分卡的开发过程。

使用了UC Irvine的German Credit Data1作为样例。

German Credit数据集有20个变量,1000个样本。

(R的caret包中内置了这些数据,并且经过了One-Hot Encoding) 使用German Credit Data数据集省去了收集整理数据的麻烦。

数据集提供了20个特征(Attribute),这些特征中,很多也已经不是原始变量,而是统计量或已经经过分箱,这些操作和方法将在数据准备里详细介绍。

一个目标变量:Class。

如下表。

Table1:评分卡数据介绍特征类型含义取值CheckingAccountStatus Norm.支票账户状态•A11:…<0DM(马克)•A12:0<=…<200DM•A13:…>=200DM或有一年以上的工资收入•A14:没有支票账户Duration Num.账龄(月)1著名的数据挖掘数据集,/ml/datasets/Statlog+(German+Credit+Data)CreditHistory Norm.信用历史•A30:无贷款、所有贷款到期前已结清•A31:在本行的所有贷款已结清•A32:有贷款正常还款中•A33:有逾期历史•A34:Critical账户、在他行有未结清贷款Purpose Norm.贷款用途•A40:新车•A41:二手车•A42:家具、设备•A43:音响、电视•A44:家用电器•A45:维修•A46:教育•A47:休假•A48:再教育•A49:商务•A410:其他Amount Num.贷款金额SavingsAccountBonds Norm.储蓄账户、债券余额•A61:…<100DM(马克)•A62:100<=…<500DM•A63:500<=…<1000DM•A64:…>=1000DM•A65:未知、没有储蓄账户EmploymentDuration Norm.工作年限•A71:无业•A72: (1)•A73:1<= (4)•A74:4<= (7)•A75:…>=7年InstallmentRatePercentage Num.还款占收入比例Personal Norm.个人状态•A91:男,离异、分居•A92:女,离异、分居、已婚•A93:男,单身•A94:男,已婚、丧偶•A95:女,单身OtherDebtorsGuarantors Norm.其他借方或担保人•A101:无•A102:共同还款人•A103:担保人ResidenceDuration Num.当前居住地居住时长|Property Norm.资产•A121:房产•A122:如无A121:公积金、人寿保险•A123:如无A121/A122:车或其他非储蓄、债券资产•A124:未知、无Age Num.年龄OtherInstallmentPlans Norm.其他分期计划•A141:银行•A142:商店•A143:无Housing Norm.住房情况•A151:租赁•A152:自有•A153:无偿使用NumberExistingCredits Num.在本行现存授信数Job Norm.工作•A171:无业、非技术工作且非本地居民•A172:非技术工作且是本地居民•A173:技术工作、公务员•A174:管理人员、自营、高级雇员、主管NumberPeopleMaintenance Num.需赡养的人数Telephone Norm.电话情况•A191:无•A192:有,注册在客户名下ForeignWorker Norm.是否外籍•A201:是•A202:否Class Norm.是否好客户•1:是•2:否4探索性数据分析目的:初步了解数据工具:R 数据收集好之后,就可以进行探索性数据分析(Exploratory Data Analysis,EDA),探索性数据分析的目的是了解数据,主要包括:•候选预测变量的统计特性和分布;•预测变量与目标变量,预测变量之间是否具有相关性;•检查缺失值和极端值,评估其对模型的影响;•分析候选预测变量对目标变量的分布情况。

4.1统计特性和分布 单变量统计时,名义变量通常统计频数,可以用柱形图方便的表示,R中可以用ggplot2包的geom_bar()实现。

German Credit Data中的名义变量分布情况如Figure2所示。

plots<-NULLgrobs<-NULLblank_img<-readPNG("./img/blank.png")#空白图片,用来填充图片上的一些空白区域empty<-ggplot(data.frame(x=1:10,y=1:10),aes(x,y))+annotation_raster(blank_img,-Inf,Inf,-Inf,Inf)+theme(axis.title.x=element_blank(),axis.title.y=element_blank(),axis.text.x=element_blank(),axis.text.y=element_blank(),axis.ticks=element_blank())for(i in1:length(NormVar)){plots[[i]]<-ggplot(german_credit)+geom_bar(aes_string(x=NormVar[[i]],fill=NormVar[[i]]),width=0.5,alpha=0.5,show.legend=F)+theme(axis.text=element_text(size=8,color="black",vjust=0.5,hjust=0.5))+theme(axis.title=element_text(size=10,color="black",vjust=0.5,hjust=0.5));}layout_matrix<-matrix(c(1,2,4,5,6,7,8,9,10,11,12,13,3,3,14,14),nrow=4,byrow=TRUE)grid.arrange(plots[[1]],plots[[2]],plots[[3]],plots[[4]],plots[[5]],plots[[6]],plots[[7]],plots[[8]],plots[[9]],plots[[10]],plots[[11]],plots[[12]],plots[[13]],empty,layout_matrix=layout_matrix,heights=c(1,1,1,2))Figure2:名义变量分布统计for(i in1:length(NumVar)){plots[[i]]<-ggplot(german_credit)+geom_histogram(aes_string(x=NumVar[[i]],y="..count.."),fill="blue",alpha=0.2)+theme(axis.text=element_text(size=8,color="black",vjust=0.5,hjust=0.5))+ theme(axis.title=element_text(size=10,color="black",face="bold",vjust=0.5,hjust=0.5));}layout_matrix<-matrix(c(1,2,3,4,5,6,7,8),ncol=4,byrow=FALSE)grid.arrange(plots[[1]],plots[[2]],plots[[3]],plots[[4]],plots[[5]],plots[[6]],plots[[7]],empty,layout_matrix=layout_matrix)Figure3:数值变量分布统计对于均值、中位数、分位数这些统计信息,可以用summary()获得。

相关文档
最新文档