消费金融信用风险研究信用评分概述
消费金融资产证券化信用风险

违约概率模型
通过建立数学模型,预测 借款人未来违约的概率。
信用风险模型的构建
建立数据集
收集历史信用数据,包括违约和不违约的案 例。
建立模型
利用所选变量建立信用风险模型,可以采用 统计模型或机器学习模型。
选择变量
从历史数据中选择与信用风险相关的变量, 如借款人的财务状况、收入稳定性等。
模型验证
通过测试集对模型进行验证,评估模型的准 确性。
发行证券
将证券销售给投资者,募集资金。
资产转移
将资产池中的资产转移给特殊目的机构。
资产管理
对资产池进行管理,收取本金和利息,支付给投资者。
02
信用风险概述
信用风险的定义
信用风险是指在借款人或债务人无法按照合约协议履行债务或偿还债务时,债权人或投资人面临的潜 在损失风险。这种风险通常与借款人的信用评级、偿还能力和债务抵押品等相关。
可控性
通过合理的风险管理措施和内部控制 机制,可以降低信用风险的发生概率 和影响程度。
03
消费金融资产证券化信用 风险评估
信用风险评估的方法
专家评估法
依靠专家对借款人的信用 状况进行评估,具有主观 性。
信用评分法
通过对借款人的信用历史 、财产状况、收入稳定性 等因素进行打分,以确定 借款人的信用等级。
消费金融资产证券化(Consumer Finance Asset Securitization)是一种将消费信贷资产打包成证 券化产品,通过销售给投资者以降低消费金融公司风险的做法。在这种过程中,信用风险表现为因借 款人或债务人违约而导致的资产价值损失。
信用风险的分类
按照来源,信用风险可分为政治风险、法律风险 、操作性风险等。
应用文-浅析信用评分模型

浅析信用评分模型'\xa0\xa0\xa0 [摘要] 本文对信用评分领域中主要的模型和方法做了细致的概述和优缺点比较, 这些模型包括判别分析模型、决策树分析回归分析和神经模型。
\xa0\xa0\xa0 [关键词] 信用评分判别分析模型决策树分析回归分析法神经网络法一、信用评分概况信用评分模型作为信用风险的基础和核心,无论是对于建立征信体系还是对于金融机构的信贷资产管理,都有着不可替代的作用。
其主要目的,在于尽量将能够预测借款人未来行为的指标加以整合,并统一成可以比较的单一指标,以显示借款人在未来特定时间内违约的可能性,所有的信用评分模型,无论采用什么理论或方法,其最终目的都是将贷款者的信用级别分类。
为达到分类目的。
当前,对个人信用评分模型的定义有多种,较为权威的种观点认为:“信用评分是预测贷款申请人或现有借款人违约可能性的一种方法。
”这一观点指出了信用评分的作用和目的,不过随着信用评分模型的不断,信用评分已不仅是一种统计方法,也包含了运筹学,如数学规划法、非线性模糊数学(如神经网络方法)等。
此外,信用评分的实际操作也与决策原则紧密相关,决策原则事实上决定了信用评分模型实现其目的和作用的程度。
因此,对个人信用评分模型这一数学工具在金融和银行业中的应用来说,较为全面和恰当的定义应是,“信用评分是运用数学优化理论(包括统计方法、运筹方法等),依照即定原则或策略(损失最小原则或风险溢价原则),在数据分析决策阶段区分不同违约率水平客户的方法。
二、各类信用评分模型概述1.判别分析模型判别分析法是对研究对象所属类别进行判别的一种统计分析方法。
进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。
判别分析就是要从中筛选出能提供较多信息变量并建立判别函数,使推导出的判别函数对观测样本分类时的错判率最小。
这种方法的理论基础是样本由两个分布有显著差异的子样本组成,并且它们拥有共同的属性。
它起源于1936年Fisher引进的线性判别函数,这个函数的目的是寻找一个变量的组合,把两个拥有一些共同特征的组区分开来。
第十章风险管理2-信用评分

34
问题
35
个人信用体系缺失
除上海、广东、北京等少数地区刚刚起 步的、尚十分幼稚的个人征信系统以外, 其它各地区尚没有个人征信系统,更谈 不上全国统一的个人征信系统。
银行以及其他行业长期忽视个人信用数 据的积累
缺乏权威的、独立的社会中介机构 制度和法律的缺失
36
粗糙的评分方法
简单的打分卡,对分值的设定,分界点 的设定没有科学的依据
I1xi1 + I2xi2 + I3xi3 + …+ Ipxip c + ai
1in n+1 i n+m
ai 0
33
评分方法的新动向
数据挖掘 运筹学方法
最优化技术 模拟仿真 压力测试
划分递归算法(CART) 马尔可夫模型 MART (多可加性回归树) 生存分析 多指标多原因分析 实验设计 质量控制技术
信贷决定
8
行为评分(Behavioural Scoring)
行为评分是通过内部客户行为数据对现有客户 的风险评估
根据客户情况的变化不断进行的
行为评分被用于:
授权
增加限额/透支申请
续借/评估
清收策略
Debit $1344. 12
DebDitebit $2$3143. 4041. 12 DebDitebDitebi$t98$72$.351463. 4041. 12 DebDitebDiteb$i6t54$39.28$272.3546. 01 DebDitebDite$b3i2t 4$2635.14$139.2827.56 TotaDlebDiteb$i2t$535264.$026035.1413.22
FICO评分在美国被所有信贷发放者用于信贷决 策
金融行业中的信用评分模型分析

金融行业中的信用评分模型分析随着金融行业的发展,信用评分模型已成为广泛应用的一种评估信用风险的方法。
在银行、保险、证券等金融领域,信用评分模型是一种重要的数据分析工具,可帮助金融机构更准确地评估客户的信用水平,从而控制自身的信用风险。
一、信用评分模型的定义及构成所谓信用评分模型,是指基于一定的评估方法和指标,综合考察客户的基础信息、信用记录等多方面指标,运用数学和统计学方法,对客户进行信用风险评估和分类。
信用评分模型主要由五部分构成:模型开发、指标筛选、特征工程、模型评估及性能监控。
首先是模型开发,即利用现有的客户数据,运用机器学习等技术,构建模型并进行评估。
其次是指标筛选,即在数据挖掘过程中挑选具有强预测性的指标,并排除冗余指标。
第三是特征工程,即在样本数据预处理的基础上,对数据进行降维处理,提取重要的信息特征。
第四是模型评估,即采用交叉验证、ROC曲线等评价方法,检验模型的性能和可靠性。
最后是性能监控,即不断对模型进行监控和调整,保障其在变化的市场环境下的稳定性和可靠性。
二、典型的信用评分模型在金融行业中,最常见的信用评分模型有逻辑回归模型、KNN模型(K-Nearest Neighbor)和决策树模型。
具体应用各有优势和适用场景,以下为各模型的简要介绍。
1.逻辑回归模型逻辑回归模型是一种常用的分类模型。
该模型常用于二元分类,即将样本数据分为两类:坏客户和好客户。
该模型输出的结果为信用得分,得分越高,代表客户信用越好;得分越低,代表客户信用越差。
逻辑回归模型适用于数据量较小,特征较少的情况。
该模型优点在于模型可解释性高,在公开领域中得到广泛应用。
逻辑回归模型在信用评分模型中的应用非常广泛,且效果稳健。
2.KNN模型KNN模型是一种常见的分类方法,在信用评分中也有广泛的应用。
该模型根据客户的特征向量与其他客户的距离,将客户分为多个信用等级。
在KNN模型中,K个最相似的客户的信用分数作为目标客户的信用分数。
金融行业中的消费者信用评估与风险控制

金融行业中的消费者信用评估与风险控制随着金融行业的发展,消费者信用评估和风险控制成为了金融机构重要的业务环节。
消费者信用评估是指通过对消费者个体进行信用调查、数据分析和风险评估,以确定其还款能力和还款意愿的过程。
而风险控制则是在信用评估的基础上,通过制定适当的措施和策略,降低金融机构与消费者之间的风险。
一、消费者信用评估的方法1. 信用报告信用报告是评估消费者信用状况的重要依据,其中包含了个人的信用记录、负债情况和还款能力等信息。
金融机构通过查阅消费者的信用报告,可以了解其过去的信用行为和偿还能力,从而判断其风险程度。
2. 评分模型评分模型是一种根据历史数据和统计模型进行建模的方法,通过对信用相关因素进行量化评估,给出一个客观的信用评分。
金融机构会根据评分模型的结果,判断消费者的还款能力和还款意愿的程度,以便做出相应的决策。
二、风险控制的措施1. 限额控制金融机构通过设定不同产品的授信额度上限,控制消费者的信贷风险。
通过合理设置授信额度,可以降低违约风险,并确保消费者在还款能力范围内进行借贷。
2. 利率定价金融机构会根据消费者的信用评估结果,制定相应的贷款利率。
信用较好的消费者可以享受较低的利率,而信用较差的消费者则需要支付更高的利率。
这种差异化定价有助于降低信用风险,并提供激励消费者提高信用状况的动力。
3. 监控和预警系统金融机构通过建立监控和预警系统,及时捕捉到消费者的逾期行为和信用异常。
一旦发现有风险信号,及时采取相应的措施,例如提前通知消费者、加强催收,以降低信用风险的损失。
4. 多元化风险分散金融机构通过将资金投放于不同领域和客户群体,实现风险的分散。
这样一来,即使在某个领域或者客户群体出现风险问题,整体风险也可以得到控制。
三、金融行业中的消费者信用评估与风险控制的重要性1. 减少金融机构的信用风险通过有效的信用评估和风险控制措施,金融机构可以减少信用违约的风险。
这对于金融机构的稳定经营和维护金融体系的稳定具有重要意义。
商业银行个人消费信贷的风险分析与对策研究

商业银行个人消费信贷的风险分析与对策研究一、引言随着中国经济的快速发展和人民生活水平的不断提高,商业银行个人消费信贷业务得到了迅速发展。
然而,与此同时,该业务所面临的风险也日益凸显。
本文将对商业银行个人消费信贷的风险进行分析,并提出相应的对策建议。
二、商业银行个人消费信贷的风险分析1、信用风险:个人消费信贷的主要风险在于借款人的信用状况。
如果借款人无法按时偿还贷款,或者故意违约,将会给银行带来损失。
2、操作风险:操作风险主要来自于银行内部管理和流程的不完善,例如贷款审批流程的漏洞、贷后管理不到位等。
3、市场风险:市场风险主要来自于经济环境的变化,如利率、汇率、股市等波动,这些都会对借款人的还款能力产生影响。
4、法律风险:法律风险主要来自于合同条款的不明确、借款人权益保护等问题,这些可能会导致银行面临法律诉讼和罚款等风险。
三、商业银行个人消费信贷风险的对策研究1、完善信用评估体系:银行应建立完善的个人信用评估体系,通过大数据和人工智能等技术手段,对借款人的信用状况进行全面、客观、公正的评估。
2、加强内部管理:银行应完善内部管理制度,规范贷款审批流程,加强贷后管理,提高风险管理水平。
3、建立风险预警机制:银行应建立风险预警机制,及时发现并处理潜在风险,避免风险扩大化。
4、提高法律意识:银行应提高法律意识,明确合同条款,尊重借款人权益,依法合规开展业务。
5、创新产品和服务:银行应创新产品和服务,满足不同客户的需求,同时降低单一客户的风险集中度。
6、加强客户教育:银行应加强客户教育,提高客户的金融素养和风险意识,引导客户理性消费和按时还款。
7、强化风险准备金制度:银行应按照规定计提风险准备金,以应对可能出现的损失,保障银行的财务稳定和持续经营。
8、实施严格的风险监管:监管部门应对商业银行个人消费信贷业务进行严格的风险监管,定期进行现场检查和非现场监控,确保银行风险管理的有效性。
9、推动行业自律和信息共享:鼓励银行间建立行业自律组织,通过信息共享和经验交流,共同提高风险管理水平。
信贷风险评估与信用评分模型

信贷风险评估与信用评分模型前言信贷风险评估与信用评分模型是金融领域中非常重要的一部分。
随着金融科技的发展,信贷风险评估与信用评分模型越来越受到人们的关注。
本文将从信贷风险评估和信用评分模型的基本概念入手,逐步深入探讨其在金融业务中的应用和发展。
什么是信贷风险评估?首先,我们需要了解什么是信贷风险。
信贷风险指的是在放贷过程中,借款人无法按时偿还借款本金和利息的潜在风险。
而信贷风险评估,即是对借款人的信用状况、还款能力、还款意愿等进行分析和评估,以便及时有效地发现并应对可能出现的信贷风险。
信用评分模型的基本原理数据收集首先,银行等金融机构需要收集大量与借款人相关的数据,包括个人信息、财务信息、征信记录等。
变量筛选和转换通过对收集到的数据进行筛选和转换,去除不必要的变量,并将原始数据转化为适合建模的格式。
建立模型利用统计学和机器学习等方法,构建信用评分模型。
常见的模型包括逻辑回归模型、决策树模型、随机森林模型等。
评估模型通过历史数据进行模型的训练和验证,并对模型进行评估,挑选表现最优秀的模型。
应用与监控将建立好的信用评分模型应用到实际业务中,并对模型表现进行持续监控和优化。
信贷风险评估与金融业务风险定价通过对借款人的信用状况进行准确评估,金融机构可以更精准地定价,以覆盖可能产生的信贷损失,并最大限度地提高贷款业务收益。
风控决策建立良好的信用评分模型有助于金融机构制定更科学、更合理的风控决策,有效控制不良贷款率,降低坏账损失。
未来发展趋势大数据与人工智能的应用随着大数据技术和人工智能技术的发展,金融机构可以利用更丰富多样的数据源和更先进的算法来构建更加精准的信用评分模型。
区块链技术在风险管理中的应用区块链技术具有去中心化、防篡改等特点,在信贷风险管理中有着广阔的应用前景。
未来,区块链技术有可能成为构建信贷风险评估体系中的重要组成部分。
结语综上所述,信贷风险评估与信用评分模型在金融领域扮演着至关重要的角色。
信用评分的计算方法

信用评分的计算方法信用评分是一种用于评估个体或机构信用度的方法。
它是基于一系列因素对信用风险进行量化分析,并将其转化为一个分数,以便判断信用的好坏和可靠程度。
信用评分广泛应用于金融、银行、保险、信贷和消费行为等领域。
1. 数据收集信用评分的计算首先需要收集相关的数据。
这些数据可以包括个人信息、收入状况、债务情况、还款记录等。
数据的来源可以是个体的申请表、信用报告、财务报表等。
2. 数据处理在数据收集之后,需要对数据进行处理和清洗。
这包括去除无效或错误的数据,填充缺失值,并对数据进行适当的转换和归一化处理。
数据处理的目的是为了准确地反映个体的信用情况。
3. 特征选择在数据处理完成后,需要选择合适的特征用于信用评分的计算。
特征选择是指从众多的特征中选取最相关的特征,排除那些对信用评分没有显著影响的特征。
常用的特征选择方法包括信息增益、卡方检验、相关系数等。
4. 模型建立在特征选择完成后,需要选择合适的模型进行信用评分的建模。
常用的模型包括逻辑回归、决策树、支持向量机等。
模型的选择应基于数据的特点和实际应用需求。
5. 模型训练和评估6. 信用评分计算在模型训练和评估完成后,就可以使用训练好的模型来进行信用评分的计算。
根据个体的特征数据,通过模型将其转化为一个信用分数。
这个分数可以表示个体的信用好坏和违约风险程度。
7. 评估和调整信用评分的计算结果需要进行评估和调整,以确保评分的准确性和有效性。
评估可以使用历史数据进行验证,调整可以根据实际情况对模型进行改进和优化。
以上是关于信用评分计算方法的简要介绍。
在实际应用中,还需要考虑数据的可靠性和保护个体隐私的问题。
另外,信用评分方法的选择和实施应该遵循法律和监管的要求,以确保合规性和可靠性。
参考文献:- 张三,李四(2018)。
信用评分模型的构建与应用。
《金融研究》,(2),12-18。
- 王五,赵六(2019)。
基于机器学习的信用评分方法研究。
《数据科学与管理》,(4),45-51。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
消費金融信用風險研究—信用評分概述本中心風險研究小組丁正中壹、信用評分的發展歷史(History of credit scoring)信用源於拉丁語credo,意謂「相信」(believe),因為借貸雙方彼此信任的關係而達成交易,但借方為降低損失,在決定借款前,會先評估借款人的風險高低,作為是否借款之參考,而信用評分(Credit Scoring)便是基於這樣的概念,所發展出來的風險評估工具。
一般認為Durand在1941年將Fisher(1936)提出的鑑別分析方法(Discriminant Analysis )應用於區別貸款客戶好壞,為信用評分應用之開端。
另有一種說法是,在1930年代,郵購公司(mail-order company)為了克服不同的信用分析人員對於信用決策產生不一致情形,引進數值評分系統,而二次世界大戰發生後,因大多人都投入戰場,許多信貸公司(finance house)及郵購公司缺乏專家做信用分析工作,這些公司便要求有經驗的人將評估信用的準則寫出來,方便沒有經驗的人做貸款決策。
總之,早期設計評分卡(Scorecard)統計學家,最初的想法,是想仿照在申請保險時,會有一張評分卡,依據不同年齡及性別,而給予不同的費率,若是銀行在辦理貸款時,也能設計一張評分卡,依據貸款客戶的特性,給予不同分數,作為是否授信的依據,可以有效節省核貸的時間,又能達到風險管理的目的。
在1950年代,已經有人將自動化的信用決策與統計分類技術結合,發展幫助授信決策的模式,但因計算工具的不便,在樣本數及評分模式設計上限制頗多。
而在此期間,由數學家Bill Fair及工程師Earl Isaac在舊金山(San Francisco)成立第一家信用評分顧問公司。
1960年代信用卡的出現,讓銀行及信用卡發卡機構瞭解到信用評分是非常好用的工具,因每日都有大量的申請案件,在成本及人力考量下,自動化的決策可以節省不少成本及人力,又能維持一定的決策品質,而隨著電腦科技的快速演進,信用評分與決策支援系統(decision support system)結合,使應用層面更廣泛,例如:汽車貸款、信用卡、郵購、直銷、房貸、保單、手機帳戶等皆可透過評分系統作客戶管理。
貳、信用評分原理(The Principle of Credit Scoring)信用評分基本原理是借由分析技術,由過去的資料來研發能預測未來授信客戶表現的分數,其假設在授信審核時有一些已知的客戶特性(characteristics),會與授信客戶未來是否準時還款有關連,一旦找出這些關連性,在假設未來情況會與過去相類似的情形下,可以套用現在的資料,作未來的預測。
這些假設與早期授信人員大多運用過去授信審核的經驗,判斷授信戶未來是否還款的情形相同,所不同的是現在許多資料可紀錄在資料庫中,藉由軟體及演算法(algorithm)的輔助,可使分析更精確。
特別要注意的是,信用評分模式是假設未來情況會與過去相類似(The future will resemble the past),但未必都是如此,且通常時間經過越久,信用評分模式預測力會越差,所以評分模式建立完成後,會持續監控(monitoring),以確保評分模式能有效運作。
參、信用評分模式研發步驟(Credit Scoring Model Development Process) 研發信用評分模式,要有熟悉市場分析、風險管理及統計方法的人員,並由資訊部門提供資料庫及程式開發等相關協助,但要是否要自行研發,並沒有標準答案,時間、成本、人員訓練及未來維護都是考量的重點。
本中心就先前研發信用卡申請人評分的經驗,大致整理以下研發步驟,或可提供有意自行研發的金融機構作為參考。
一、研究目的及定義(Objective and Good/Bad Definition)要發展評分模式前,必須先決定研究目的及想要預測的事件,並要有明確定義,未來在應用及解釋上才不致混淆,所以事件定義是經由討論決定,而非分析人員單獨決定。
例如:研究目的為預測授信客戶未來一年發生違約的事件,但違約事件有許多不同定義,資料來源也可能不同,許多問題要逐一釐清,討論會變得冗長而沒有效率,所以在討論前,先決定想要達成的目的,請資訊部門提供資料庫中相關的資料,並由分析人員作初步分析,開始討論時會較有效率。
值得注意的是,越複雜的定義,資料取得也越困難,所以定義除了要明確,也應盡量簡化。
此外,模式未來應用目的不同,定義也可能不一樣,例如:同樣是延遲繳款超過45天的客戶,若模式的目的是在增加獲利或市佔率,較有可能定義為好客戶(Good),但若目的是減少損失,較有可能定義為壞客戶(Bad)。
二、資料庫與選擇樣本(Database and Sample Selection)本中心先前將過期資料保存在磁帶中,造成研究人員在資料擷取時的不便,在去年開始建置資料倉儲(Data Warehouse),保存所有時點資料狀態,方便日後研究使用,同時可避免佔用線上資料庫資源,降低對日常營運所產生的影響。
資料倉儲因資料量龐大,擷取較耗時,建立資料超市(Data Mart)可節省資料擷取的時間,且在設計資料超市欄位時,請資深分析人員提供相關經驗,未來可節省資料整理及轉換的時間。
抽樣(Sampling)可以解決資料量過大的問題,分析時更具效率,但必須掌握研究目標群體(Target Population)特性,避免抽樣時產生偏誤。
另外,越大的樣本會有越好的評分結果,這種說法並非完全正確,因通常好客戶多於壞客戶,假設所有條件都相同的情況下,100,000個好客戶與500個壞客戶所建立的評分模式,正確判斷力會低於只有10000個好客戶與3,000個壞客戶所建立的評分模式。
將樣本分為發展組樣本(Development Sample)與測試組(Holdout Sample),模式研發完成後作驗證(Validation),可避免研究人員選樣的偏差(bias)或忽略了某些重要的因子,造成模式在實際應用時產生落差。
三、清理資料(Clean the Data)“Garbage in, garbage out.”雖然大家都知道這個道理,但實際上要將資料清理乾淨,卻不是件容易的事。
通常資料轉入資料倉儲(Data Warehouse)前,資訊人員所訂定的準則大多是資料是否符合欄位的定義,但不保證分析時不會有問題,以年齡為例,在資料轉入資料倉儲時要符合數值型態,且設定上限為120,下限為0,但經分析人員分析後,發現18歲以下也有信用卡主卡,甚至有許多數值集中在99,顯然這些年齡是有問題的。
如果資料量不多,對於分析結果不致影響太大,可以直接刪除或將資料作區隔,但仍需瞭解資料從何處取得,因為有問題的資料通常是來源相同。
四、分析資料(Analyze the Data)分析的主要目的是找出隱含在資料中的相關(Correlations)、型態(Patterns)、集群(Clusters)、趨勢(Trends),資料雖經過前述的清理步驟,通常還需要經過資料轉換(Data Transformation),才能進行分析。
例如:資料庫中會紀錄信用卡的發卡日期與停卡日期,但分析時的變數可能需要信用卡持卡期間(Duration),這時候就要經過資料轉換的過程。
事實上資料轉換有很多技巧,有時還牽扯到一些複雜的數學運算,如:Log、SIN、COSIN等轉換,但轉換的主要目的是要能分析出有意義的結果,分析人員除了瞭解資料轉換及分析方法,也要瞭解最初定義的研究目的,才有可能得到最後的結果。
五、建立模式(Model Building)建立模式可運用的方法非常多,可分為統計方法(Statistical Methods)與非統計方法(Non-statistical Methods)兩種類型,常用的統計方法包含有鑑別分析(Discriminant Analysis)、迴歸(regression)、邏輯斯迴歸(logistic regression)、分類樹(Classification Trees)等;而非統計方法有類神經網路(Neural Networks)、基因演算法(Genetic Algorithms)、專家系統(Expert Systems)等。
不同的方法,有不同的假設與限制,選用之前必須先考慮清楚,避免誤用。
在實務運用上,選用邏輯斯迴歸(logistic regression)來建構評分模式,結果可直接產生評分卡(Scorecard),在模式實行(implementation)上成本較低也較快速,是許多模式研發人員(Modeler)常選用的方法。
信用評分通常是將客戶分為好客戶(Good)與壞客戶(Bad),就應用而言,迴歸模式雖簡單易懂,但已逐漸被邏輯斯迴歸模式所取代,主要是受到以下兩種因素影響:1.迴歸模式所計算出來的條件機率估計值(Estimate of conditional probability),有可能會大於1或小於0,違反機率須介於0與1之間的定義。
2.在迴歸模式中,假設自變數(Independent Variable) X與因變數(Dependent Variable) Y之間的關係為線性,則不論X值為何,其對條件機率的邊際影響都是恆定的,顯然與我們一般的認知不符。
舉例而言,假設購買房屋決策(買或不買)與收入有關,若收入太低,即使增加20-30%的收入,仍然是買不起,對決策沒有影響;另一種情況是收入已在某一水準之上,購買機率趨近於1時,收入再增加,對於購買的決策也不再有影響。
迴歸模式通常X愈是趨近兩端,條件機率愈不易有明顯變化,而邏輯斯迴歸模式,當X愈趨近-∞,條件機率以愈來愈慢的速度趨近於0;當X 愈趨近∞,條件機率以愈來愈慢的速度趨近於1。
以圖形來說明,若研究收入與信用好壞的關係,以橫軸為收入,好客戶(Good)為1,壞客戶為0,可描繪出圖1。
若同時配適(fit) 迴歸與邏輯斯迴歸模式,由圖2可看出,邏輯斯迴歸呈現S型,會與實際觀察值較接近。
圖1 迴歸與邏輯斯迴歸模式比較(1)模式建立最後步驟,必須以測試組樣本(Holdout Sample)作驗證(Validation),除可避免抽樣偏誤(Bias)的問題,亦可檢視模式過度配適(Over-fitting)的問題。
若模式運用發展組樣本的預測力非常好,但用另一組資料預測力卻顯著下降時,顯然模式不夠穩健(Robust),未來實際運用時,會因資料不同而產生不一致的預測結果。
六、模式部署及系統測試(Deploy the Model and System Test)模式終究是幫助人做決策參考,在模式經過驗證後,必須將模式產生結果寫入日常使用的決策系統中,提供未來作決策時參考。