基于粗糙集—决策树的上市公司财务预警

合集下载

基于机器学习方法的上市公司财务预警模型对比研究

基于机器学习方法的上市公司财务预警模型对比研究

基于机器学习方法的上市公司财务预警模型对比研究一、财务预警模型的概述财务预警模型是指通过对企业财务数据的收集、分析和预测,判断企业未来可能发生的财务风险,并提出预警措施的一种方法。

财务预警模型的应用旨在有效地识别企业经营风险,从而对其进行监控和预防。

财务预警模型通常基于企业历史财务数据进行建模,常用的方法包括统计学方法、人工智能方法、机器学习方法等。

机器学习是一种自动学习的方法,不需要人工干预,通过学习已有的数据来提取数据的规律并进行预测。

在财务预警模型中,机器学习方法可以通过对历史财务数据的学习和分析,预测未来可能出现的风险。

常用的机器学习方法包括朴素贝叶斯分类、决策树、支持向量机、神经网络等。

朴素贝叶斯方法是一种概率统计方法,能够快速、精确地对多种特征进行分类。

在财务预警模型中,朴素贝叶斯方法能够通过对企业历史财务数据的学习,快速判断企业是否存在财务风险。

决策树方法是一种基于树形结构的分类方法,通过分步决策来实现分类。

在财务预警模型中,决策树方法可以通过对企业历史财务数据的学习,构建一棵树形结构来实现对未来可能发生风险的预测。

三、不同机器学习方法的优缺点和适用范围朴素贝叶斯方法的优点是计算量小,分类速度快,但其缺点是对输入数据的特征假设过于简化,可能会导致分类结果不准确。

适用范围主要是针对特征数较少、数据分布规律简单的情况。

决策树方法的优点是易于理解和解释,不需要对特征进行缩放,但其缺点是容易产生过拟合现象,需要采取一些方法来降低过拟合的风险。

适用范围主要是针对特征数较多、数据样本复杂的情况。

支持向量机方法的优点是可以对非线性数据进行分类,可以通过选择不同的核函数实现对不同类型的数据进行分类,缺点是难以处理大规模数据集和多类分类问题。

适用范围主要是针对特征数较多、数据分布复杂的情况。

四、结论。

基于决策树的上市公司财务危机预警

基于决策树的上市公司财务危机预警

以防范 , 财 务 危 机 和 风 险 消 灭 在 萌 芽 状 态 。 因 将 此, 财务 危机 预警对公 司 的生存 和发展具 有 重要 的
作用 , 主要体 现在 以下几个 方面 : 1 信息 收集 .
合理收益也将受到威胁, 不仅资产保值增值 的目 标
无 法实 现 , 能还 会 血本 无 归 。因此 , 可 事先 预 测上
市公 司是 否有 可 能发 生财 务 危机 , 陷入 财 务 困境 ,
通过收集并分析与企业有关的产业政策 、 国内 外 市场竞 争状 况 、 企业 内部 的各类 财务 和生产 经营 状况等信息并进行比较 , 可判断企业经营管理中是 否潜藏隐患而采取预警。
2 预 知财务 危机 .
无论 是对 于上市 公 司 自身 , 是 投 资者 、 权人 都 还 债
否发生 危机 。 3 预报财 务危机 .
( ) 一 财务 危机 预警 的概念 预 警是 指在 承认 评价 和预测 的基 础上 , 用先 利 行 指标 和发展 趋势 预测未来 的发展 状 况 、 度量 未来
的风险 强弱程 度 , 通知决 策人员 及时 采取应对 措 并 施 以规避 风 险 , 减少 损失 。
(- 财 务危 机预警 的作用 -) 在激烈 的市 场竞争 中 , 任何 公 司都有 可能 由于 内外 因素 的影响 , 遇到经 营亏损 而无 力偿还 债务 的 危机 时刻 。建立 财务 危 机 预警 模 型则 能 对 公 司 的 财务状 况进行 实 时监 测 , 时 发 现危 险 信 息 , 及 并立

・理 论 探 讨 ・ 司。 由于被 特别处 理的上 市公 司中 , 分都是 因 大部 为连 续两年 亏损 或 净资 产 低 于 面值 。我 国 上市 公

基于可变精度粗糙集模型的上市公司财务困境预测

基于可变精度粗糙集模型的上市公司财务困境预测

Corporate Failure Prediction based on the Rough Set Model of Variable Precision 作者: 胡援成[1] 程建伟[2]
作者机构: [1]江西财经大学金融学院,江西南昌330013 [2]浙江工商大学,浙江杭州310035出版物刊名: 当代财经
页码: 32-36页
主题词: 财务困境 可变精度粗糙集模型 预测能力
摘要:基于可变精度粗糙集模型对上市公司财务困境预测进行的研究表明,可变精度粗糙集模型对ST公司的预测准确度达到了85%,对正常公司的预测准确度达到了65%,总的预测准确度达到了75%;而将sT公司误判为正常公司的错误率为15%,将正常公司误判为ST公司的错误率为35%,平均误判率为25%。

因此总体而言,可变精度粗糙集模型具有较好的预测能力。

基于粗糙集理论的企业财务预警规则

基于粗糙集理论的企业财务预警规则

基于粗糙集理论的企业财务预警规则作者:张建忠于卓高贵坤来源:《合作经济与科技》2010年第08期提要本文以粗糙集理论属性约简技术为基础,将指标体系作为条件属性,企业是否陷入财务困境作为决策属性,通过对预警指标进行约简,导出预警规则,从而对企业财务状况进行预警。

实证分析表明,以粗糙集为基础的预警系统有较高的预警准确度。

关键词:财务预警;粗糙集;属性约简中图分类号:F23文献标识码:A一、前言从国内外企业的发展历史来看,企业危机往往首先是从财务管理环节爆发和体现出来的,因此建立和完善企业财务预警指标体系,对企业的生存和发展具有重要的意义。

财务危机是指企业现金不足以清偿到期债务。

财务危机具有巨大的危害性,轻则使企业无法正常经营,重则使企业陷入破产清算的境地。

而传统的财务指标(即会计比率类指标)在判断企业财务危机方面存在明显缺陷:一是资产的账面价值与未来变现价值不一致,不能反映资产质量的高低;二是利润的实现并不等于相关经济利润已经完全流入企业,应收项目的数量和质量直接影响到利润的实现;三是由于“会计戏法”的原因,使会计比率类指标容易失真。

基于上述缺陷,单凭这些财务指标往往难以对财务危机发生的可能性做出准确的预测,甚至可能误导企业管理者,使其过分追求获利能力而忽视实际支付能力。

现金流量指标可以在很大程度上克服上述缺陷,同时现金流量类指标还具有其独特的预警效果,因此本文在指标选取过程中,选取了大量的现金流量指标,以达到较好预测财务危机的目的。

越来越多的研究发现,非财务类指标在预测企业财务状况时发挥着重要作用,因此本文在研究过程中选用了部分非财务类指标进行预警研究,以期达到更好的效果。

二、文献回顾Fitzpartick(1932)最早利用一元判定模型对企业财务困境进行预测,结果发现净利润/股东权益、股东权益/负债这两个财务指标差别能力最强;Beaver(1968)运用一元判定预警模型进一步发现,除了可以采用财务指标进行财务困境预测,公司股票价格的变化也可以用来对财务困境进行预测。

基于粗糙集理论的公路上市公司财务评价指标重要性

基于粗糙集理论的公路上市公司财务评价指标重要性

TRANSPOWORLD 2012 No.16 (Aug)164企业成长能力预示着企业发展的潜力和趋势,公司的内在价值及其成长性已成为投资者评判上市公司业绩、进行投资的重要依据。

以往对于企业财务评价指标研究多集中于探讨各指标或者对这些指标的综合评价,往往忽略了指标之间的相互影响。

本文试图利用粗糙集理论探讨公路上市公司盈利能力、偿债能力、资产营运能力等财务评价指标对于公司成长能力的重要性,研究财务评价指标间的相互关系。

如果将各财务评价指标作为属性对待,这一问题可以刻画为属性重要性程度的度量研究。

粗糙集理论的基本思想和概念粗糙集理论是由波兰数学家Pawlak 于1982年提出的一种分析和处理不精确、不一致、不完整等不完备信息的数学工具,它将知识理解为对数据的划分,由于其仅依赖于原始数据而不需要任何先验信息便可揭示数据内部潜在的规律,因而广泛应用于决策分析、机器学习、知识获取、模式识别、智能控制等诸多领域。

在经典集合论和模糊集合论中,特征属性的重要性程度一般是通过根据经验被赋予的一个“加权系数”来刻画,而在粗糙集理论中,属性重要性的度量只需要知识表达系统本身提供的数据而不需要附加任何其它辅助信息,因而更为可行和方便。

粗糙集令X U ,R 为U 上的一等价关系,当X 能表达成某些R 基本范畴的并时,称X 是R 可定义的,否则称X 为R 不可定义的。

R 可定义集也称作R 精确集,而R 不可定义集也称为R 非精确集或R 粗糙集(Rough Set )。

上、下近似集由那些根据知识R 判断肯定属于X 的U 中的元素组成的集合,称为知识系统U/R 下集合X 的下近似集,说明X 中可用知识系统U/R 精确表示的部分。

而那些根据知识R 判断可能属于X 的U 中的元素组成的集合,称为知识系统U/R 下集合X 的上近似集,说明X 中可用知识系统U/R 的知识R 粗糙地表示X 。

属性的重要性为了找出某些属性的重要性,可采取去掉该属性、再考察没有该属性后分类会怎样变化的方法。

可变精度粗糙集在上市公司财务预警中的运用

可变精度粗糙集在上市公司财务预警中的运用

可变精度粗糙集在上市公司财务预警中的运用【摘要】可变精度粗糙集VPRS是标准粗糙集RS的一种推广。

文章借鉴了VPRS模型具有噪声数据的强适应能力和强抗干扰能力的优点,提出了一类基于VPRS的信息产业上市公司财务预警方法,并用部分信息产业上市公司对其进行实证检验。

检验结果表明:该方法具有较好的识别能力,对信息产业上市公司财务危机的预测准确率达到89.7%,具有良好的应用前景。

【关键词】信息产业;财务预警;可变精度粗糙集;R约简;决策树一、引言改革开放以来,我国信息产业发展迅速,已逐步成为国民经济重要的支柱性、先导性、基础性和战略性产业。

信息产业类企业,包括致力于信息技术研发和服务的企业,具有较强的扩张性、渗透性,资金需求量大,但由于受到信息技术生命周期、研发成熟度、市场容量、经营能力等因素的影响,其未来发展和经营业绩具有较大的不确定性,导致企业面临较大的经营风险和财务风险。

其中,信息产业上市公司的财务信息对多方利益相关者都有着重要影响。

因此,建立财务预警系统、强化财务管理、避免财务失败和破产,具有重要意义。

现有的企业财务预警方法可分为定性预警与定量预警两类。

定性分析主要包括:灾害理论、专家调查法、四阶段症状等方法。

定量分析主要包括:单变量判定模型、多变量线性判定模型、Logistic回归模型、人工神经网络模型等方法。

上述方法各有其特点,但均存在不同程度的局限,难以满足企业财务预警实践发展的需要。

粗糙集(RS)是一种刻画不完整性和不确定性的数学工具,能有效分析不精确、不一致、不完整等各种不完备信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,从而有效进行知识库的约简和规则的提取。

可变精度粗糙集(VPRS)是对RS理论的扩充,它在标准粗糙集的基础上引进一个阈值β,并将其定义为错误分类率(0≤β<0.5),即允许一定程度上错误分类率的存在,由此,使VPRS具有较强的抗干扰能力。

An等(1996)又将β定义为正确分类率(0.5≤β<1),并称之为强化粗糙集。

基于机器学习方法的上市公司财务预警模型对比研究

基于机器学习方法的上市公司财务预警模型对比研究随着市场竞争的日益激烈,企业的财务风险管理变得更加重要。

尤其是对于上市公司来说,及时的财务预警能够有效帮助企业避免可能的经营风险,提前做出应对措施,确保财务稳健和持续增长。

随着机器学习技术的发展和应用,利用机器学习方法构建财务预警模型已经成为一种新的趋势。

本文将对基于机器学习方法的上市公司财务预警模型进行对比研究,以期找出较为有效和可靠的预警模型,为企业的财务风险管理提供参考。

一、研究背景财务预警是指在企业财务出现问题之前,利用一定的方法和模型对财务指标进行分析和预测,以便及时发现可能存在的经营风险和财务困难,从而采取相应的预防和修复措施。

传统的财务预警方法主要基于统计分析和财务比率,其预测准确性和及时性受到了较大的限制。

而机器学习方法则可以利用大量的历史数据进行模型训练和参数优化,在一定程度上提高了财务预警模型的预测能力。

二、研究内容本文选取了几种常见的机器学习方法,包括决策树、随机森林、支持向量机和神经网络,利用上市公司财务数据构建了不同的财务预警模型,并对其进行了对比研究。

具体内容包括以下几个方面:1. 数据采集和预处理:选择合适的上市公司财务指标作为模型的输入特征,并对这些数据进行清洗和预处理,以确保数据的质量和准确性。

2. 模型构建和训练:分别采用决策树、随机森林、支持向量机和神经网络等机器学习方法构建财务预警模型,并利用历史数据进行模型训练和参数调优。

3. 模型评估和对比:通过对比模型的预测准确性、召回率、精确度和F1值等指标,评估不同机器学习方法构建的财务预警模型的性能优劣,找出较为有效和可靠的预警模型。

4. 模型应用和验证:选择一定数量的上市公司财务数据作为测试集,对不同的财务预警模型进行验证,检验其实际预测效果和可靠性。

三、研究意义四、研究展望本文只是对基于机器学习方法的上市公司财务预警模型进行了初步的对比研究,还存在一些问题和不足之处。

基于优势关系决策粗糙集的上市公司财务危机预测

基于优势关系决策粗糙集的上市公司财务危机预测【摘要】本文研究基于优势关系决策粗糙集的上市公司财务危机预测,通过引入粗糙集理论和优势关系决策方法,提高了财务危机的预测准确率和效率。

首先介绍了研究背景、目的和意义,然后深入探讨了基于粗糙集理论的财务危机预测和上市公司的财务危机预测方法。

接着重点分析了优势关系决策在财务危机预测中的应用和粗糙集理论在财务危机预测中的优势。

最后总结了基于优势关系决策粗糙集的上市公司财务危机预测研究结论,并展望了未来的研究方向。

通过本文的研究成果,可以为投资者、管理者和监管机构提供更加有效的财务危机预警和决策支持。

【关键词】财务危机预测、上市公司、粗糙集理论、优势关系决策、研究背景、研究目的、研究意义、正文、结论、未来研究展望1. 引言1.1 研究背景随着经济全球化的不断深入和市场竞争的日益激烈,上市公司面临着越来越多的财务风险和危机。

财务危机不仅会对公司自身经营造成严重影响,还可能波及到整个市场和相关利益方。

如何及时准确地预测上市公司的财务危机,成为了财务管理和风险控制的重要课题。

传统的财务分析方法往往只能对历史数据进行分析,难以准确地预测未来可能出现的危机。

而基于优势关系决策粗糙集的方法,结合了模糊逻辑、粗糙集理论和模式识别等多种技术,能够对不确定性信息进行有效处理,提高预测的准确性和可靠性。

将这一方法应用于上市公司财务危机预测,有望为企业提供更加科学和有效的决策支持。

本研究旨在探讨基于优势关系决策粗糙集的方法在上市公司财务危机预测中的应用,为金融机构、投资者和管理者提供更全面的风险评估和监控工具,促进财务稳健经营和市场健康发展。

1.2 研究目的财务危机是一个严重影响企业发展和经济稳定的问题。

在当前金融市场风险不断增加的环境下,对财务危机的预测和防范显得尤为重要。

本研究旨在通过基于优势关系决策粗糙集的方法,探讨如何有效地预测上市公司的财务危机,为企业和投资者提供更加可靠的风险评估和决策依据。

基于粗糙集神经网络的财务危机预警方法

作者: 刘新允[1];庞清乐[2]
作者机构: [1]山东工商学院财务处,烟台264005;[2]山东工商学院信息与电子工程学院,烟台264005
出版物刊名: 统计与决策
页码: 167-169页
主题词: 财务危机;预警;神经网络;粗糙集
摘要:针对基于神经网络的财务危机预警方法训练时间长和网络结构复杂的缺点,提出了基于粗糙集神经网络的财务预警方法。

将财务比率作为条件属性,将企业财务状况作为决策属性,构建财务危机预警决策系统。

通过属性约简,得到最小属性集。

将最小属性集中元素对应的财务比率作为神经网络的输入,用训练样本对神经网络进行训练,训练后的神经网络模型实现财务危机预警。

测试结果表明,该方法训练速度快,且错误率低。

基于粗糙集的企业财务失败预警系统


中必要 , 则称 为独立 的 ; 否则称 为依赖 的。 于 对
K= U, , R, P是 独 立 的 , ( R)P 若 且 d P) Uid ( =/ n ( , 称 P为 的一 个 约 简 。 然 , 以有 多 个 约 )则 显 可 简 。 际应 用 中 , 实 一个 分 类相 对 于另 一个 分类 的关 系
行合同、 按时支付债权人利息和偿还本金时, 该企业 就 面临 财务 失败 [。 过 建立 财务 失 败预 警 系统 , 1通 - 企
业决 策者 可 随时关 注财 务状 况 , 时 、 适 有效 地采 取相
其 中, c , ≠ , u
, nX = ( = j
12 … , , , m;
为P 不必要 ; 中Q 否则称R 中Q 为P 必要 。 如果P 中每个 R 都为Q 必要 , 则称P 为Q 独立的。 对于知识库K ( , = U R)且P, ,  ̄ , Q QXP的依 赖度 定 义为 ,
k ( =J oeQ)J 】 = Q) s( p /J
基 金项 目: 教育部人文社会科学“ 十五” 规划项 目( 1A 3 0 6 0J605 ) 作者简介 : 宋杰鲲 (9 9 ) , 17 一 , 汉族 , 男 山东莱 阳人 , 士 , 国石油 大 博 中 学 经济 管理学 院讲 师 , 主要 研究方 向 : 管理 科学与 工程 、 财务管理 ; 张宇 (9 8 )女 , 17 一 , 汉族 , 山东莒南人 , 胜利油 田
识约 简 就是 在 知 识库 分类 能力 不 变 的条 件 下 , 除 删 其 中不 相 关 或 不 重要 的 冗 余 知 识 。 于 K= u, , 对 ( R) R∈ 如果 d )U ̄dR—R1, 称 R R, ( = / ( f )则 在R中不 必要 ; 否则 称 R 在 中必 要 。 果 每 一个 R∈R都 为 如
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

□财会月刊·全国优秀经济期刊□·26·2012.6下旬一、有关财务危机预测的研究方法财务危机预测模型是由Beaver 最早提出来的,之后许多预测方法被用于公司财务危机预测研究。

20世纪60年代主要是Beaver 和Altman 分别采用单变量判别分析和多变量判别分析进行财务危机预警研究。

20世纪80年代,Ohlson 首先将Logistic 模型应用于财务预警领域,20世纪90年代神经网络又被引入财务危机预测。

20世纪80年代,Frydman 等将决策树引入了财务预警研究中,决策树(DT )在解决分类问题上具有简单和易于理解的优点。

决策树是一种对大量数据集进行分类的非常有效的方法,通过决策树的构造模型,从大量信息中挖掘有效的数据,提取有价值的分类规则,从而获得有用的知识,帮助决策者准确预测。

它的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。

根据决策树增长的方法不同,学者们提出了很多经典的决策树算法。

1986年J .R.Quinlan 提出了决策树ID3算法,有人在此基础上提出了一些改进的SLIQ 、SPRINT 、CHAID 等一些算法。

这些算法运用也被运用到财务预警方面。

姚靠华、陈晓红(2007)运用这些算法对我国上市公司的财务预警问题进行了研究。

1982年Z.Pawlak 教授提出了粗糙集理论,运用粗糙集的方法可以对属性进行约简,把粗糙集的知识运用到决策树上,国内外学者提出了很多不同的建树方法并应用到很多领域。

2001年赵卫东、李旗号运用粗糙集知识对决策树进行了优化,通过引入粗糙集理论中可分辨的概念给出一种方法,这种方法通过优化降低了树的高度。

2009年Iftikhar U.Sikder 和Toshinori Munakata 的基于粗糙集和决策树对低地震活动前兆因素的描述,他们运用粗糙集和决策树的方法,使用了信息增益和熵产生一系列规则,对地震进行预警。

运用决策树方法形成一系列规则,对训练数据集进行分类,然后根据形成的规则对训练数据集之外的数据进行分类,应用在财务领域,可以对财务进行预警。

本文运用建造决策树的一种新方法,通过实证研究,对国内制造业上市公司进行财务预警分析。

二、基于变精度加权平均粗糙度的决策树生成算法(一)对象聚类系统聚类也称为层次聚类,是聚类分析中广泛应用的一种方法。

聚类分析是建立在某种优化意义下,对样品或指标(变量)之间存在的相似性进行比较,将“相近似”的对象归并成类的一种方法。

本文使用SPSS16.0对138家制造业公司进行分类,聚类步骤如下:1.数据标准化。

系统聚类首先要对各个原始数据进行一些相互比较运算,而各个原始数据往往由于量纲不同而影响这种比较和运算。

因此,需要对原始数据进行必要的变换处理,以消除量纲不同造成的影响。

数据处理主要是对各个数据进行标准化,数据的标准化是将数据按比例缩放,使之落入一个小的特定区间,方法如下:对于一个正向指标X i ,假定当它取值大于或者等于α时为最佳,此时,把它所有取值等于或者大于α的值标准化后取值为1;同理,假定当X i 的取值小于或者等于β时为最差,标准化后取值为0;取值为区间(β,α)的数据δ,标准化之后为:(δ-β)/(α-β)。

2.计算聚类统计量。

根据变换以后的数据计算得到聚类统计量。

它用来表明各样品或变量间的关系相似或者近似程度。

常用的统计量有距离和相似系数两大类。

本文使用欧式距离计算聚类统计量。

欧式距离计算方法如下:假设每个样品有p 个指标,用y ij 表示第i 个样品的第j 个指标,d ij 表示第i 个样品与第j 个样品之间的距离,欧式距离可表示为:d ij =[(y ik -y jk )2]1/2(1)基于粗糙集—决策树的上市公司财务预警刘澄(博士生导师)胡巧红孙莹(北京科技大学东凌经济管理学院北京100083)【摘要】传统的财务预警研究往往把企业财务状况分成ST 和非ST 两类,过于笼统。

为此本文首先运用聚类的方法把138家制造业上市公司分为财务状况健康、良好、一般、预警和危机5个层次,这使得对企业财务预警的研究更贴合实际,并且使实证研究结果更加准确。

然后运用粗糙集中的变精度加权平均粗糙度来构造决策树的改进算法,对这些公司进行分类,进而提出公司财务状况预警的规则,这样生成的决策树财务预警规则防噪声能力更强,分类效果更好。

【关键词】决策树粗糙集财务预警∑pk=1全国中文核心期刊·财会月刊□2012.6下旬·27·□3.选择聚类方法。

选择合适的聚类方法,将关系近似的样品或者变量聚为一类,关系不近似的加以区分。

本文使用离差平方和法。

假设将n 个样品分成k 类G 1,…,G k ,用x it 表示类G t 中的第i 个样品(x it 是p 维向量),n t 表示G t 中样品个数,x t 表示类G t 的重心,则在类G t 中的样品离差平方和是:S t =(x it -x t )'(x it -x t )(2)整个类内平方和是:S=(x it -x t )'(x it -x t )=S t (3)当k 固定时,要选择使S 达到最小的分类。

Ward 法就是找局部最优解的一个方法。

其思想是先将n 个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使S 增加最小的两类合并,直到所有的样品归为要求的类的个数为止。

本文运用聚类分析法,把所选择的国内制造业上市公司分为五类。

根据各指标值的表现情况,第一类为财务状况健康的公司,第二类是财务状况良好的公司,第三类是财务状况一般的公司,第四类为财务状况预警的公司,第五类为财务状况危机的公司。

(二)确定最优分支属性构造决策树过程,分支属性用来确定树的非叶结点,树的每一次生长都要确定一个分支属性,所以说分支属性的选择至关重要,直接影响分类的质量。

定义1:加权平均粗糙度:γR i =1-ωj μR i(4)其中:β为分类误差,它的取值范围是[0,0.5],μR i (X j )=|R i X j |/|R i X j ,ωj =|X j |/|U|,R i 表示第i 个条件属性,m 是决策属性等价类的个数,j 表示决策属性的第j 个等价类,U 表示论域,X j 表示决策属性的第j 个等价类集合。

定义2:变精度加权平均粗糙度:=1-ωj x j(5)其中:(X j )=|X j |/|X j |,ωj =|X j |/|U|,R i 表示第i 个条件属性,j 表示决策属性的第j 个等价类,X j 表示决策属性第j 个等价类的集合,m 是决策属性等价类的个数。

X j 称为X j 的β下近似,X j 称为X j 的β上近似。

R ip 表示第i 个条件属性的第p 个等价类,r ip ,n ∈R ip ,则有:X j ={r ip ,n ∈R ip ||X j ∩R ip |/|R ip |≥1-β}(6)X j ={r ip ,n ∈R ip ||X j ∩R ip |/|R ip |≥β}(7)现实数据库中不可避免地存在很多噪声数据,使用变精度近似精度可以克服噪声数据对精确性的影响,在一定程度上消除噪声数据对刻画精度的影响。

的取值范围是[0,1],它越小则反映第i 个属性包含的近似确定性越大。

于是,在决策树生长过程中,每次选择值最小的属性作为分支结点。

(三)基于变精度加权平均粗糙度构造决策树算法决策树自顶向下生长,每次生长都选择变精度加权平均粗糙度值最小的属性作为树的分支属性。

输入决策表和分类误差β,即可输出一棵决策树。

算法步骤如下:步骤1:根据输入的决策表计算每一个条件属性的变精度加权平均粗糙度,并比较它们的大小。

步骤2:选择变精度加权平均粗糙度最小的属性ψ作为决策树分支的属性。

步骤3:用选择的属性ψ去划分训练集,相应的该属性的每一个取值产生一个分支(子表),这样训练集被划分为若干小的决策表。

步骤4:若子表中属于某一类别实例个数占表中总实例个数大于等于(1-β)或表中没有可选的属性,则以该子表中占多数的实例类别标识该节点,并作为叶子结点;否则,将子表中的条件属性去掉已选划分属性ψ,重复以上步骤。

步骤5:返回。

算法步骤比较简单,决策树使用递归算法,对训练集划分,可以得到一个局部最优解。

三、仿真运算1.样本描述。

本文随机选取2010年国内1192家制造业上市公司中的138家公司的财务数据作为样本数据,并对数据进行标准化。

然后,把每个条件属性按照标准化后的数值划分为5个等价类,分别为:[0,0.2)表示财务状况差,[0.2,0.4)表示财务状况较差,[0.4,0.6)表示财务状况中等,[0.6,0.8)表示财务状况较好,[0.8,1]表示财务状况好。

由此,每个条件属性都有5个等价类。

本文选择了影响公司财务状况的五个方面的9个指标对企业进行评价,这五个方面分别是:盈利能力指标、现金流量指标、偿债能力指标、成长能力指标以及营运能力指标。

具体的指标选择见下表:2.仿真运算。

仿真运算软件:MatlabR2009a ,SPSS16.0。

分类误差β=0.25。

为了方便起见,我们把138家公司按1~138进行了编号。

首先,运用系统聚类的方法把138家制造业上市公司分为5个等价类:分别以X 1、X 2、X 3、X 4、X 5,分别代表财务状况危盈利能力R 1:净资产收益率R 2:总资产报酬率R 3:现金流动负债率R 4:流动比率R 5:资产负债率R 6:营业收入增长率R 7:营业利润增长率R 8:存货周转率增长率R 9:应收账款周转率增长率净利润/净资产EBIT/总资产年经营现金净流量/年末流动负债流动资产/流动负债总负债/总资产(当年营业收入-上年营业收入)/上年营业收入(当年营业利润-上年营业利润)/上年营业利润(当年存货周转率-上年存货周转率)/上年存货周转率(当年应收账款周转率-上年应收账款周转率)/上年应收账款周转率营运能力成长能力偿债能力现金流量选择的财务指标∑kt=1∑n ti=1∑n ti=1∑kt=1∑mj=1γβR i ∑m j=1μβR i μβR iR βi R βiR βi R βi ∪p=1R βi R βi ∪p=1γβR i□财会月刊·全国优秀经济期刊□·28·2012.6下旬机、预警、一般、良好和健康的公司集合。

以标准化后的数据表计算每个条件属性的变精度加权平均粗糙度,分别为=1,=1,=0.8792,=1,=1,=1,=1,=1,=0.9769。

此时,条件属性R 3的变精度加权平均粗糙度为最小,选择R 3,也即现金流动负债率为该树的根结点,根据现金流动负债率的五个等价类生成5个子表。

若子表中属于某一类别实例个数占表中总实例个数比例大于等于0.75或者表中没有可选的属性,则以该子表中占多数的实例类别标识该节点,并作为叶子结点;否则,将子表中的条件属性去掉已选划分的条件属性R 3,重复以上步骤。

相关文档
最新文档