数学建模练习题 医保欺诈的主动发现

合集下载

基于医保欺诈检测的RF与XGB模型比较

基于医保欺诈检测的RF与XGB模型比较

栏目编辑:梁丽雯E-mail:****************基于医保欺诈检测的RF与XGB模型比较■ 华南农业大学数学与信息学院 郑文珍 赖俊龙 翁雯璇 张嘉莹 张 昕摘要:随着我国综合国力的增强,国家在医疗保险上的投入不断加大,但与此同时,医保欺诈行为也不断发生。

本文采用深圳市某家医院一个月的医保数据记录,在对原始数据进行预处理后,分别建立RF模型和XGB模型对医保正常数据和欺诈数据进行分类预测,最后,利用评价指标F1值和AUC值对两模型的分类预测结果进行比较,得到更适合医保欺诈检测识别的模型。

关键词:医保欺诈;数据挖掘;RF;XGB一、引言医疗保险欺诈是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、隐瞒真实情况等而造成医疗保险基金损失的行为。

医保欺诈行为在一定程度上造成了我国医疗费用的不合理增长,给我国医疗行业带来严重损失。

因此,如何高效准确地检测出医保欺诈行为是目前社会医保行业的关注重点。

当前医保欺诈问题的研究方法主要分为两种,一种是带有数据标签的有监督方法,另一种是不带有数据标签的无监督方法。

张童非利用K-means++聚类算法对医保数据进行聚类,将其中一类人群作为初步的嫌疑人群。

唐璟宜、孙有坤等通过研究基于聚类分析与因子分析的方法,建立起医保费用欺诈监管的策略。

周聪宇在聚类算法与回归算法的基础上,结合蚁狮优化算法提出了一种医保欺诈识别的智能优化算法,实现从大量数据中识别出少数可疑医保诈骗行为的智能识别方法。

戴鑫采用基于分辨率的孤立点挖掘思想的RB算法,建立了患者的医保欺诈评估模型,识别出孤立度高的病人,供监督部门进行调查。

作者简介: 郑文珍(1999-),女,广东揭阳人,就读于华南农业大学数学与信息学院,研究方向:数据挖掘; 赖俊龙(2000-),男,广东清远人,就读于华南农业大学数学与信息学院,研究方向:数据挖掘; 翁雯璇(1998-),女,广东潮州人,就读于华南农业大学数学与信息学院,研究方向:数据挖掘; 张嘉莹(2000-),女,山西临汾人,就读于华南农业大学数学与信息学院,研究方向:数据挖掘; 张 昕(1968-),男,湖南邵阳人,工学博士,副教授,供职于华南农业大学数学与信息学院,研究方向:数值计算 (通讯作者)。

数学建模-以医保欺诈行为探讨可能的欺诈记录

数学建模-以医保欺诈行为探讨可能的欺诈记录

医保欺诈行为的主动发现摘要医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。

下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。

请根据附件中的数据,找出可能的欺诈记录。

医疗保险是关系到国计民生和国家发展的重大问题,基金统筹定额标准对。

医疗保险的发展、完善和社会稳定发展有重要影响。

本文探讨了年基金支付总额与年龄之间的关系,给出新的定额标准,并对按参保分类的每类定点医疗机构下一度的定额总费用进行预测。

针对问题一,我们建立模型一和模型二。

模型一计算出人均支付基金总额,利用excel画出折线图,并且根据折线图的分布进行不同区间对你曲线进行拟合,利用隶函数,确定出人均支付基金总额与年龄的之间的函数关系,并通过相关性检验,得到了相应的方程。

模型二分析得到年基金支付总额与看病次数近似成正比关系,然后将年基金支付总额0到180万分成6段,利用每个年龄看病次数占总的看病次数的比重求的每段一个平均年基金支付总额,再求的每个区间段的平均人数,平均总额与平均人数的比即为新的定价。

针对问题二,对附件4的数据进行分析,建立了聚类分析模型,对46个医疗机构进行的分类,运用SPSS进行求解,把医疗机构分成了5类,分类结果见表五,然后在新的定额标准下,利用excel求的每一个医疗机构的总费用,最后用均值表示为每一类医疗机构的下一年的预测费用为:医疗机构下一年总费用第一类医疗机构6072315第二类医疗机构21330.48第三类医疗机构9025437第四类医疗机构7327655第五类医疗机构50665304一、问题重述近来,为给各县市居民的医保方便,各县市纷纷出台有关社会基本医疗保险普通门诊统筹的相关办法,其中,职工医疗保险、外来劳务人员大病医疗保险、未成年人医疗保险、城乡居民基本医疗保险的参保人全部纳入门诊统筹的范围。

大数据下医保欺诈的有效识别模型

大数据下医保欺诈的有效识别模型

大数据下医保欺诈的有效识别模型陈清凤;朱宁;朱亩鑫【摘要】针对现在社会医保诈骗问题,提出了大数据下医保欺诈的有效识别模型.首先运用excel对数据进行预处理,建立数据挖掘有效识别数据集;其次通过主成分分析构建欺诈识别的有效指标体系;再次由K-Means聚类得到可疑的医保欺诈行为的类别,并由判别分析中的交叉确认估计来确认可疑行为判断类别的准确性.随后,由因子分析中的数据映射关系找到与欺骗行为有关的科室、医生、医嘱子类,并把欺诈行为归为医疗保险服务供应方的诈骗行为、医疗保险需求方的诈骗行为和医疗保险服务供应方与需求方合谋的诈骗行为这三大类;最后把模型用于由样本经验分布的反函数生成的大数据中,解决了统计分析中样本少而使统计分析出现误差这一问题.【期刊名称】《汕头大学学报(自然科学版)》【年(卷),期】2018(033)001【总页数】9页(P40-48)【关键词】数据挖掘有效识别数据集;主成分分析;K-Means聚类;判别分析;因子分析;大数据【作者】陈清凤;朱宁;朱亩鑫【作者单位】桂林电子科技大学数学与计算科学学院,广西桂林541004;桂林电子科技大学数学与计算科学学院,广西桂林541004;桂林电子科技大学数学与计算科学学院,广西桂林541004【正文语种】中文【中图分类】R195.10 引言随着参保覆盖面和基金规模的迅速扩大,定点服务机构的大量增加,我国的医保信息系统也得到了广泛的应用,如何利用海量的医疗数据建立有效的医保欺诈预警模型,为医保中心实施监管的工作提供决策支持,是当前所要解决的首要任务.对于医疗保险欺诈的理论分析和实证研究,国外学者主要从社会心理学、博弈论以及数据挖掘的角度进行研究.Arrow[1]根据信息不对称理论,首次对健康保险欺诈问题进行了探讨和研究.随后Pauly[2],Schiller,Moreno[3]分别从管控道德风险和剔除受投保方操纵信号的方式反制欺诈.在此基础上,Artis[4],Chiappori[5],Brocket[6]等人分别采用Probit、AAG、Pridit、logit等统计模型,对具体的欺诈行为进行识别.但由于这些模型对数据有一定的要求,加上欺诈的复杂性,这使得传统的单一模型在实际的应用中受到很大的限制.为此Marisa S[7],Sokol[8],Lious[9],等人把人工智能识别模型和统计回归模型进行有效的组合,分别建立了基于BP神经网络模型、遗传算法、贝叶斯网络、糊集聚类算法、数据挖掘的欺诈识别模型,并用于特定的例子中,识别效果较好.除此之外基于启发式和机器学习的电子欺诈识别技术也被广泛的应用于医疗保险欺诈识别.国内学者对医疗保险欺诈问题主要是运用信息不对称和博弈论,围绕欺诈的类型、表现形式、欺诈的成因分析和反欺诈措施等三个方面进行理论研究,关于社会医疗保险欺诈的识别和度量的研究还较少[10].对于社会医疗保险欺诈的识别,较早应用的是徐远纯[11]根据粗糙集理论的特征属性提出的欺诈风险识别方法,随后陈辉金、韩元杰[12]基于数据挖掘和信息融合技术建立孤立点集来挖掘可疑数据;梁子君[13]利用贝叶斯网络建立了识别、评估和管控欺诈风险的概念模型;叶明华[14]把统计回归和神经网络进行有效融合,建立了基于江、浙、沪机动车保险索赔数据构建了欺诈识别的BP神经网络模型.杨超[15]在叶明华的研究的基础上,运用嵌入logistic回归分析的BP神经网络模型研究识别被保险人道德风险引致的欺诈.总的来说,如何从海量的复杂隐秘的医疗保险数据中识别出具有欺诈行为的信息还没有得到具体的解决,为此把统计方法与大数据相结合的识别模型的研究是有意义的. 本文在大数据背景对医疗保险欺诈这一课题进行研究,首先对给定的医疗数据进行预处理,通过主成分分析构建欺诈识别的有效指标体系;其次由K-Means聚类得到可疑的医保欺诈行为的类别;再次,利用因子分析方法,根据特征因子分析诈骗类的特征确定其诈骗方式;最后把模型用于由样本经验分布的反函数生成的大数据中.具体流程如图1.图1 医保欺诈模型流程图1 数据预处理本文以2015年“深圳杯”数学建模夏令营A题:医保欺诈行C医保数据为研究数据,共289 001条记录.为了构造医保诈骗有效识别的数据集,本文利用大数据挖掘技术对参保人信息进行数据预处理,利用Excel软件中的vlookup函数对原始数据进行定性筛选,去掉不必要的数据.数据清洗基于课题的研究意义和方向,结合给出的6个表格的医疗数据,进行数据清洗.首先利用Excel中的透视表剔除缺失值个数大于列数20%的行,并删除对于本次数据挖掘没有意义数据,保留相关数据列,观察得到的数据集中没有重复记录,省去了对重复记录的处理.其次是对于缺失的必要数据,例如刷卡次数缺失的数据,其占总样本的25.5%,采用数据归约中多项式回归的方法填补空缺,其他指标也如此.数据的转换清洗得到的数据转换为便于处理的形式,日期采用“年-月-日”格式,医嘱ID号精简成数字型.生成有效识别数据集从给定的数据中提取出用于描述样本的指标,从而解释医疗数据的标签和分类的来由.根据参保人信息数据集和医保交易记录数据集中的属性对数据进行适当处理,进而派生出所需要的识别指标.对医保交易记录数据集中的重要属性进行不重复计数处理,派生出总费用、刷卡总次数、一次性消费最高额、平均消费金额以及医嘱子类、开嘱医ID、下医嘱科室、核算分类、执行科室和病人科室的不重复计数这10个指标.本文选取了具有代表性的属性,并根据参保人信息数据集中的PAPMI_PAPER_DR (身份证ID)和医保交易记录数据集中的WorkLoad_PAPMI_DR(病人病历ID)将两数据集进行自然连接,从而生成目标数据集,即医保诈骗有效识别数据集,见表1.此时数据集已经从初始的289 001条原始记录整合成58 014条目标记录.表1 参保人信息和医保交易记录交叉数据集指标数据类型指标数据类型病人ID 主键执行科室非重复计数(x6)离散性刷卡次数(x1)离散值病人科室非重复计数(x7)离散值一次性消费最高金额(x2)连续值医嘱子类非重复计数(x8)离散值总费用(x3)连续值下医嘱科室非重复计数(x9)离散值平均消费金额(x4)连续值核算分类非重复计数(x10)离散值开嘱医生ID非重复计数(x5)离散值数据标准化根据zij=(xij-x)i/si对提取出的数据集进行标准化处理,其中zij为标准化后的变量值,xij为实际变量值.2 欺诈识别的有效指标体系的构建由于得到的识别指标过多,如果对所有的指标进行分析可能会存在信息重叠,对部分个体的欺诈识别因子进行主成分分析,提取综合指标来消除指标间相关性.首先,对指标进行了相关分析,运用SAS统计软件导入包含58 014个医保人信息的数据集,计算出各指标之间的Pearson相关系数,结果如表2.由表2可以看出,部分指标之间存在着严重的相关性,如病人科室不重复计数和下医嘱科室不重复计数间的相关系数高达0.999,接近于1;一次性消费最高数额和总费用的相关系数也达到了0.758,说明原指标变量间有一定的相关性.此时如果直接对原来的指标进行分析就会造成信息的重复使用而使得结果不准确.表2 指标之间Pearson相关系数相关矩阵x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11.000 0 0.150 8 0.383 8-0.024 2 0.671 6 0.133 2 0.451 0 0.464 8 0.451 00.192 0 x2 0.150 8 1.000 0 0.853 8 0.943 8 0.097 7 0.117 4 0.101 8 0.084 2 0.102 2 0.095 2 x3 0.383 8 0.853 8 1.000 0 0.771 0 0.263 0 0.139 2 0.219 5 0.155 8 0.219 7 0.124 8 x4 -0.024 2 0.943 8 0.771 0 1.000 0-0.016 1 0.076 1-0.001 8-0.002 3-0.001 7 0.058 7 x5 0.671 6 0.097 7 0.263 0-0.016 1 1.000 0 0.110 9 0.674 8 0.476 0 0.675 2 0.173 6 x6 0.133 2 0.117 4 0.139 2 0.076 1 0.110 9 1.000 0 0.176 5 0.227 7 0.177 2 0.501 9 x7 0.451 0 0.101 8 0.219 6-0.001 8 0.674 8 0.176 5 1.000 0 0.326 8 0.999 2 0.193 1 x8 0.464 8 0.084 2 0.155 8-0.002 3 0.476 0 0.227 7 0.326 8 1.000 0 0.326 5 0.375 5 x9 0.451 0 0.102 2 0.219 7-0.001 7 0.675 2 0.177 2 0.999 2 0.326 5 1.000 0 0.192 6 x100.192 0 0.095 2 0.124 8 0.058 7 0.173 6 0.501 9 0.193 1 0.375 5 0.192 61.000 0随后,通过主成分分析来消除指标之间的相关性,提取出欺诈识别模型的综合指标,结果如表3.表3 主成分分析结果tˆ1tˆ2tˆ3tˆ4tˆ5特征值 3.731 230 06 2.496 450 93 1.402 224 97 0.912 311 35 0.559 715 42方差 1.234 779 13 1.094 225 96 0.489913 63 0.352 595 93 0.109 611 15贡献率 0.373 1 0.249 6 0.140 2 0.091 20.056 0累计贡献率 0.373 1 0.622 8 0.763 0 0.854 2 0.910 2由表3的数据可以看出,前五个主成分的累计贡献率已达到91.02%,可以认为它们能较好地概括原始指标的大部分信息,即用前五个主成分作为欺诈识别指标.3 欺诈识别的统计模型3.1 随机样本的类平均聚类为了更好的识别出医保数据中的欺诈行为,根据收集到的六万人的消费交易记录,利用类平均聚类对其进行聚类获取先验信息,将主成分分析得到的前五个主成分作为综合指标,通过无放回简单随机抽样方法抽取5组样本(每一组容量5 000)进行聚类,下面对其中一组建立医保诈骗识别模型.聚类的信息如表4.从R2统计量来看,当NCL(聚类数)>5时下降较缓慢,且NCL=5时下降较大,半偏相关统计量达到最大;从伪F统计量来看,NCL=5时,取得极大值,且NCL=5时,PST2(伪F统计量)取得极大值.由此可知,随机样本分成5类较合适.表4 随机样本类平均聚类结果聚类数频数半偏R方 R方近似期望R方立方聚类条件伪F统计量伪t方 NormRMS distance 10 25 0.001 7 0.873 0.935 -23755 23.9 0.613 3 9 14 0.000 7 0.872 0.927 -19 845 8.8 0.624 4 8 20 0.003 4 0.869 0.918 -16 939 61.1 0.647 3 7 39 0.008 5 0.860 0.906 -14 1 019 63.5 0.774 2 6 59 0.012 3 0.848 0.890 -12 1 109 39.2 0.863 7 5 3 0.002 7 0.845 0.868 -5.9 1 359 1.412 6 4 992 0.226 7 0.619 0.835 -33 539 1 477 1.536 6 3 994 0.028 2 0.590 0.779 -26 719 73.5 2.692 1 2 997 0.103 2 0.487 0.655 -15 948 251 4.229 7 1 1 000 0.487 2 0.000 0.000 0.000 948 9.034 1重复以上步骤,再对随机抽取的其他4组样本进行K-Means聚类分析,过程与上面样本类似.通过对利用无放回简单随机抽取方法抽取到的5组样本量为5 000的样本依次进行主成分聚类分析,其中有3组样本认为聚成5类最合适,其余2组比较分散,将这些信息作为先验信息,根据最大似然函数的原理认为全部样本聚成5类是合适的.聚类结果如表5.表4 K-Means动态聚类聚类频数均方根标准差从种子到观测值的最大距离最近的聚类聚类质心间的距离1 263 235.6 964.1 3 1 452.8 2 4 383.3 1 072.3 4 2153.7 3 7 612 148.1 969.9 5 613.4 4 24 185.4 657.0 1 1 617.2 5 50 11154.297 6 566.0 3 613.4由表4看出第五类包含的样本最多,共有50 111条记录,其次是第三类,而第1、2、4类的个数较少.由于医疗保险诈骗事件属于小概率事件,且诈骗的形式有多种,比如拿着别人的医保卡配药、在不同的医院和医生处重复配药等,可以表现为单张处方药费特别高、一张卡在一定时间内反复多次拿药等.由表4的数据可直观的认为第1、2、4类属于医保诈骗的可能性较大,因为它们组内均方根的标准差和从凝聚点到各类内观测值的最大距离都比较大,说明这些类之间有一定的差异,存在着问题,需要谨慎对待.3.2 模型检验—判别分析为了验证K-Means动态聚类结果的合理性,利用判别分析中的交叉确认估计来判断聚类准确性,结果如表5和表6.表5 各组错判具体情况分入“group”的观测数和百分比组别 1 2 3 4 5 合计先验0.2 0.2 0.2 0.2 0.2 1 254 96.58 0 0.00 0 0.00 0 3.42 0 0.00 263 100.00 2 00.00 2 50.00 0 0.00 2 50.00 0 0.00 4 100.00 3 387 5.08 0 0.00 7 224 94.90 0 0.00 1 0.01 7 612 100.00 4 2 8.33 0 0.00 0 0.00 22 91.67 0 0.00 24 100.00 54 0.01 0 0.00 3 560 7.10 0 0.00 46 547 92.89 50 111 100.00合计 647 1.12 2 0.00 10 784 18.59 33 0.06 46 548 80.24 58 014 100.00表6 错判概率“groun”的出错估计1 2 3 4 5合计比率 0.034 2 0.500 0 0.051 0 0.083 3 0.071 1 0.147 9先验 0.200 0 0.200 0 0.200 0 0.200 0 0.200 0由表5和表6的数据可知,聚类时总体的错判概率为0.147 9.其中第1组中错判的样本量为9个,错判概率为0.034 2,且这9个错判的样本都被错判到第4组;第2组中错判的样本量为2,错判概率高达0.500 0,且这2个错判的样本都被错判到第4组;第3组中错判的样本量为388,错判概率为0.051 0,其中387个样本被错判到第1组,1个样本被错判到第5组;第4组中错判的样本量为2,错判概率为0.083 3,且这2个错判的样本都被错判到1组;第5组中错判的样本量为3 564,错判概率高达0.071 1,其中4个样本被错判到第1组,3 560个样本被错判到第3组.结合K-Means聚类的结合和判别分析的结果可知,在57 723个非欺诈个体中有391个可能属于欺诈个体,错判概率为0.677%;而初始判断为欺诈类别的291个样本中有0个被错判,此时错判概率为0%.由此可以初始确定的诈骗类别是合理的.3.3 医保欺诈识别的特征模型—因子分析利用因子分析找出潜在的对医疗数据中较为可疑的医疗数据的特征进行分析,通过公共因子来查找出K-Means聚类中的第1,2,4类可疑诈骗的基本特征,最终确定诈骗方式.设特征值(Eigenvalues)、贡献率(Contribution rate)和累计贡献率分别用(Cumulative contribution rate)Eig、CR、CCR表示,则进行因子分析后的统计量如表7.表7 因子分析统计量指标因子载荷指标因子载荷x1 0.392 0.779 0.178 -0.378 x8 0.186 0.436 0.667 0.141 x2 -0.09 0.048 0.097 0.937 x9 0.396 0.182 0.173 0.098 x3 0.184 0.909 0.038 0.008 x10 -0.002 0.072 0.928 0.017 x4 -0.304 -0.412 -0.203 0.744 Eig 4.609 1.612 1.174 1.094 x5 0.768 0.340 0.037 0.232 CR 0.461 0.161 0.117 0.109 x6 0.460 -0.144 0.669 0.170 CCR 0.461 0.622 0.740 0.849 x7 0.936 0.182 0.173 0.098 f1 f3 f3 f4 f1 f2 f3 f4从表7可以看出,在以100%的累计方差贡献率确定的10个因子中,前4个因子特征值大于1,累计方差贡献率高达84.9%,故考虑提取4个公因子.又从最大方差旋转的因子载荷矩阵可知,公因子f1主要在病人科室非重复计数、开嘱医生ID 非重复计数、执行科室非重复计数上具有较大的正载荷,故命名为科室分类因子;公共因子f2主要在刷卡次数、费用有很大的正载荷,故命名为刷卡费用因子;公共因子f3主要在执行科室非重复计数、医嘱子类非重复计数有较大的正载荷,故命名为医疗服务因子;公共因子f4主要在一次性消费最高金额、平均消费金额有很大的正载荷,故命名为费用因子.通过上述分析可发现此类有个共同特点就是一次性消费平均消费最高金额,病人科室非重复计数所占比率最高,存在故意串通医生开大处方行为,购大量药品等来套取统筹医保基金的嫌疑,属于医疗保险服务供方与需方合谋的诈骗行为.以此类推可以得到第2、第4类的诈骗方式.其中,第2类欺诈的方式可定义为贩卖药品诈骗,是指医保患者通过医保卡去不同的医保定点医院多次重复看病、取药,然后再将多取的药品贩卖,从而达到骗取医保基金的目的;第4类诈骗方式定义为分解收费诈骗,即定点医疗机构在为参保患者提供医疗服务过程中,人为地将一个完整的连续的医疗服务项目分成两个或两个以上的医疗服务项目,并按分割后的项目进行收费,从中获取差价进行医疗诈骗.综上所述,可将欺诈行为分成三大类:1.医疗保险服务供应方的诈骗行为;2.医疗保险需求方的诈骗行为;3.医疗保险服务供应方与需求方合谋的诈骗行为.结合各类的具体特征,又可以将各欺诈行为分别定义为分解收费诈骗、贩卖药品诈骗、提供虚假证明或伪造病历诈骗、冒名顶替诈骗.3.4 大数据下的模型的优越性为了验证模型的适用性,将识别模型应用于生成的海量数据中运行.首先,把第一个指标的数据(刷卡次数(x1))由origin软件拟合出样本的分布函数为:其次,产生符合该分布随机,通过分布F(x)反函数求出随机数对应的样本x值,重复以上步骤便可得其他各指标的数据的样本的分布函数,最后把提出的识别欺诈模型带入求得的样本值中,再利用上述方法重新运行一遍,以便验证之前所用方法是否正确.4 结论研究结果表明:基于主成分K-Means聚类和因子分析的数据挖掘方法对医保欺诈行为能够进行较为准确的预警,与直接进行聚类相比,文中提出的模型运行速度较快、效率较高,并适用于大数据中的欺诈行为的识别.在设计思路上从统计分析的角度出发,定量地研究了如何从大量数据中识别出少数的可疑的医保诈骗行为.参考文献[1]ARROW K J.Uncertainty and the welfare economics of medicalcare[J].Uncertainty in Economics,1978,82(2):141-149.[2]PAULY M V.Taxation,health insurance,and market failure in the medical economy[J].Journal of Economic Literature,1986,24(2):629-675.[3]SCHILLER J.The impact of insurance fraud detection systems[J].Journalof Risk and Insurance,2006,73(3):421-438.[4]ARTÍS M, AYUSO M,GUILLÉN M.Detection of automobile insurance fraud with discrete choice models and misclassified claims[J].Journal of Risk and Insurance,2002,69(3):325-340.[5]CHIAPPORI P A,SALANIE B.Testing for asymmetric information in insurance markets[J].Journal of Political Economy,2000,108(1):56-78.[6]BROCKETT P L.Fraud classification using principal component analysis of RIDITs[J].Journal of Risk and Insurance,2002,69(3):341-371.[7]VIVEROSMS,NEARHOSJ P,ROTHMAN MJ.Applying data miningtechniques to a health insurance information system[C]//VLDB'96 Proceedings of the 22th International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers Inc.1996:286-294. [8]SOKOL L,GARCIA B,RODRIGUEZ J,et ing data mining to find fraud in HCFA health care claims[J].Topics in Health Information Management,2001,22(1):1-13.[9]LIOU FM,TANG Y C,CHEN J Y.Detecting hospital fraud and claim abuse through diabetic outpatient services[J].Health Care Management Science,2008,11(4):353-358.[10]林源.国内外医疗保险欺诈研究现状分析[J].保险研究,2010(12):115-122.[11]徐远纯,柳炳祥,盛昭瀚.一种基于粗集的欺诈风险分析方法[J].计算机应用,2004,24(1):20-21.[12]陈辉金,韩元杰.数据挖掘和信息融合在保险业欺诈识别中的应用[J].计算机与现代化,2005(9):110-112.[13]梁子君.保险公司操作风险管理——用贝叶斯网络评估和管理保险欺诈[D].上海:上海财经大学,2006.[14]叶明华.基于BP神经网络的保险欺诈识别研究——以中国机动车保险索赔为例[J].保险研究,2011(3):79-86.[15]杨超.基于BP神经网络的健康保险欺诈识别研究[D].青岛:青岛大学,2014.。

东北三省数学建模竞赛历年赛题

东北三省数学建模竞赛历年赛题

东北三省数学建模竞赛历年赛题2006 A:油田开发规划的合理编制问题
B:冬季北方室内空气交换问题
C:中国人口政策问题
2007 A:油田开发规划的合理编制问题
B:冬季北方室内空气交换问题
C:中国人口政策问题
2008 A:滑雪场定价问题
B:居民楼顶最佳保温层厚度
C:灾区物资分配问题
2009 A:运动界面追踪
B:丁克与人口增长
C:客观、合理的评价学生学习状况
2010 A:企业的营销管理问题
B:走遍全中国
C:封闭系统的货币分布问题
2011 A:食品质量安全抽样数据分析
B: 垃圾分类处理与清运方案设计
C:水资源短缺风险评价
D:用出租车GPS数据分析深圳道路交通情况
2012 A:深圳人口与医疗需求预测模型
B:手机用户精准识别
C:绿色机房模型评价与控制
D:打孔机生产效能的提高
2013 A:食品质量安全抽检数据分析
B:深圳关内外交通拥堵探究与治理
C:垃圾减量分类活动中社会及个体因素的量化分析
D:自然灾害保险问题的研究
2014 A:计划生育政策调整对人口数量、结构及其影响的研究B:基因组组装
C:垃圾焚烧厂的经济补偿问题
D:以深圳市为例探讨洪灾损失预测研究的科学性与严谨性2015 A:医保欺诈行为的主动发现
B:DNA序列的k-mer index 问题
C:福田红树林自然保护区湿地生态系统研究
D: 航班延误问题。

保险费的制定问题——数学建模题

保险费的制定问题——数学建模题

保险费的制定问题
某保险公司只提供一年期的综合车险保单业务,这一年内,若客户没有要求赔偿,则给予额外补助。

所有参保人被分为0,1,2,3四类。

类别越高,从保险费中得到的折扣越多。

在计算保险费时,新客户属于0类,在客户延续其保险单时,若在上一年没有要求赔偿,则可提高一个类别;若客户在上一年要求过赔偿,如果可能则降低两个类别,否则为0类。

客户退出保险,则不论是自然的还是事故死亡引起的,将退还其保险金的适当部分。

现在政府准备在下一年开始实施安全带法规,如果实施了该法规,虽然每年的事故数量不会减少,但事故中受伤司机和乘员数肯定会减少,从而医药费将有所下降。

这是政府预计会出现的结果,从而期望减少保险费的数额。

这样的结果果真会出现吗?这是保险公司目前最关心的问题。

根据采用这种法规的国家的统计资料可以知道,死亡的司机会减少40%,遗憾的是医疗费的下降不容易确定下来,有人认为,医疗费会减少20%到40%。

假设当前年度该保险公司的统计如下表1和表2。

保险公司希望你能给出一个模型,来解决上述问题,并以表1和表2的数据为例,验证你的方法。

并给出在医疗费下降20%和40%的情况下,公司今后5年每年每份保险费应收多少才比较合理?给出你的建议。

基本保险费:775元;总收入:6182百万元,偿还退回:70百万元,净收入:6112百万元;
支出:149百万元,索赔支出:6093百万元,超支:130百万元。

总修理费:1981百万元,总医疗费:2218百万元,
总死亡赔偿费:1894百万元,总索赔费:6093百万元。

数学建模医保欺诈模型地主动发现

数学建模医保欺诈模型地主动发现

全国大学生数学建模竞赛选拔赛承诺书我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。

如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理,并取消参赛资格。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): A参赛队员(打印后再手签)::1.2.3.指导教师或指导教师组负责人(没有可不填写):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。

以上内容请仔细核对,提交后将不再允许做任何修改。

如填写错误,论文可能被取消评奖资格。

)日期: 2015 年 7 月 29 日医保欺诈的主动发现摘要医疗保险是关系到国计民生和国家发展的重大问题,医保欺诈问题严重威胁医保基金安全,妨碍医保政策的有效实施,因此医保欺诈行为的主动发现对医疗保险的发展、完善和社会稳定发展有重大的意义。

本提出了一种基于BP神经网络的识别的鉴别医保欺诈行为的方法。

对于数据的处理,我们选择了Excel和Access根据病人ID将表2.1病人资料和表2.2费用明细表进行了汇总和归一,并剔除了包括记录不完整、格式错误之内的无效数据,在这个过程中我们发现了所有的消费记录只是买药,并且在这个月的消费记录中只有极少数病人存在转科室行为,而且一部分病人是自费的,没有医保欺诈嫌疑,还有一些病人存在多人共用医保卡的现象,直接确定其为医保欺诈,这些病人的消费记录为我们训练BP神经网络提供了样本支持。

对于这个问题,我们首先用Excel和Access从大量的数据中筛选出了对欺诈识别有用的信息,其中包括病人的年龄,性别,所在科室,当月总消费以及当月消费频率等等你,又考虑到不同科室的消费情况存在差异因此我们求出了各个科室的平均消费额,并且做出了每个病人当月的消费对对应科室平均消费的相对差。

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第7章 医疗保险的欺诈发现模型

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第7章 医疗保险的欺诈发现模型

大数据挖掘专家
16
目录
1
目标分析
2
数据准备
3
特征工程
4
模型训练
5
性能度量
大数据挖掘专家
17
描述性统计分析
➢ 对投保信息表、医疗机构信息表、索赔信息表进行描述性统计分析。 ➢ 描述性统计分析的结果为:
• 各表特征不存在空缺值 • 由于大部分特征取值类型为字符类型,不存在特征的最大值和最小值,只有少数特征为非字符型存在
大数据挖掘专家
14
分析目标
➢ 本案例的总体流程如图所示。
业务系统 数据抽取 数据准备

选择 性抽取



数据源


新增 信息抽 取


描述性统计 数据清洗 可视化分析
特征工程
模型构建
性能度量
特征选择 特征变换
建 模 数 K-Means聚类 据
结果分析



后 的
模型训练
聚类性能度 量




模型 优化
大数据挖掘专家
19
分析投保人和医疗机构的信息
1.分析保险条款种类
➢ 绘制饼图分析保险条款种类,如图所示。 ➢ 由饼图可以看出,投保人数量为400人,所投
保险条款分别为老年保障险与伤残险,这两种 保险条款被投数量比例几近一致。
大数据挖掘专家
20
分析投保人和医疗机构的信息
2.分析治疗措施编码类别
➢ 绘制条形图分析治疗措施编码类别,如图 所示。
➢ 很多司机反映,怎样会被判刷单,具体细节滴滴公司并没有明确告知。
• “之前不知道哪些单被判为刷单,也不知道怎么扣,只是滴滴单方面告知我们。”

A题:医保欺诈行为的主动发现de

A题:医保欺诈行为的主动发现de

1摘要医疗保险是关系到国计民生和国家发展的重大问题,基金统筹定额标准对医疗保险的发展、完善和社会稳定发展有重要影响。

本文探讨了年基金支付总额与年龄之间的关系,给出新的定额标准,并对按参保人年龄结构分类的每一类定点医疗机构下一年度的定额总费用进行预测。

针对问题一,我们建立模型一和模型二。

模型一计算出人均支付基金总额,利用excel画出折线图,并且根据折线图的分布进行不同区间对你曲线进行拟合,利用隶函数,确定出人均支付基金总额与年龄的之间的函数关系,并通过相关性检验,得到了相应的方程。

模型二分析得到年基金支付总额与看病次数近似成正比关系,然后将年基金支付总额0到180万分成6段,利用每个年龄看病次数占总的看病次数的比重求的每段一个平均年基金支付总额,再求的每个区间段的平均人数,平均总额与平均人数的比即为新的定价。

针对问题二,对附件4的数据进行分析,建立了聚类分析模型,对46个医疗机构进行的分类,运用SPSS进行求解,把医疗机构分成了5类,分类结果见表五,然后在新的定额标准下,利用excel求的每一个医疗机构的总费用,最后用均值表示为每一类医疗机构的下一年的预测费用为:医疗机构下一年总费用第一类医疗机构 6072315第二类医疗机构 21330.48第三类医疗机构 9025437第四类医疗机构 7327655第五类医疗机构 50665304关键字:统计回归聚类分析拟合数学建模模拟练习2一、问题重述近来,为给各县市居民的医保方便,各县市纷纷出台有关社会基本医疗保险普通门诊统筹的相关办法,其中,职工医疗保险、外来劳务人员大病医疗保险、未成年人医疗保险、城乡居民基本医疗保险的参保人全部纳入门诊统筹的范围。

医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

医保欺诈的主动发现摘要随着城镇职工基本医疗保险覆盖面的逐步扩大,参保人员结构更为复杂,医疗保险基金在医疗领域面临欺诈的风险也越来越大。

防范医疗欺诈问题,是研究社会医疗保险的重要课题之一,以此医疗保险欺诈为背景提出了问题,本文运用聚类分析、等方法成功解决了这个问题,并在大量医保名单中找出了医保欺诈行为。

首先根据数据2.1,我们对数据进行了预处理,利用Excel的删除重复项功能对人数进行了识别,然后查找并删除了死亡患者的数据,最后得到58014个不同的ID号,然后利用SPSS分别对身份证号、医保手册号采取标记重复个案的方法,标识出重复数据,其次利用k均值聚类分析法对Userupdate(用户更新次数)进行了分析,确定了主个案和重复个案占的比重,并画出其占比重的饼状图,发现第二类聚类中心数大,以上三种数据特征则表示极可能是医保欺诈行为。

另外根据数据2.2,考虑到可能的欺诈行为,将其分为三类,分别为单张处方单价过高,但其与总价、数量之间存在着相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。

最后,对所建立的模型和求解方法的优缺点给出了客观的评价,并指出了改进的方法。

关键词:医保欺诈 SPSS k均值聚类分析标志重复个案一、问题复述1.1 问题背景随着我国医疗保险事业快速发展,在保险赔付过程中,存在着一些借助病案进行医疗保险欺诈的事件,医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。

下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。

1.2 问题提出请根据附件中的数据(数据见2.1 2.2 2.3 2.4 2.5 2.6),找出可能的欺诈记录。

二、模型假设1.;.假设数据来源真实有效;2.假设分析过程中,数据无缺失三、符号说明四、模型的建立与求解4、模型建立与求解4.1.1问题的分析为了研究找出医疗欺诈行为,我们根据病人ID利用Excel 2007软件的删除重复项功能,对人数进行识别,发现只有58014个不同的ID号,然后利用SPSS 软件对身份证号、电话号码、医保卡号的重复项进行标志,并利用聚类分析对其进行分析,最后得出主个案和重复个案所占比例的饼状图,通过饼状图,我们可以清晰的发现医保欺诈为占比重小的那部分4.1.2聚类分析聚类分析的基本思想聚类clustering,简单的讲就是将一个给定的数据集分成若干个不同簇的过程聚类算法中的簇指的是数据对象的集合且这种数据对象集合必须满足条件同一簇中的数据对象间具有较大的相似性而不同簇中的数据对象间具有较小的相似性聚类的主要指导思想就是尽可能使同一簇内对象相似度达到最大且不同簇间对象相异度达到最大。

K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。

K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。

算法采用误差平方和准则函数作为聚类准则函数。

K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。

该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标[]2。

4.1.2.1 K-means聚类分析方法k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。

该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。

当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。

如果在一次迭代前后,J 的值没有发生变化,说明算法已经收敛。

4.1.2.2K-means 聚类分析法]1[的步骤:对Userupdate (变量)的标识重复个案的结果,进行分类主要采用聚类分析法,而求取类之间的距离有多种方法,其中最常用的是欧几里德距离。

(1) 数据标准化由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n 个样本,m 个指标,则每个变量可表示为ij x ,均值∑=-=ni ij j x n x 11 (1)标准方差∑=---=ni ij ijj x xn s 12)(11(2)则标准化后)0(*≠-=-j jjij ij s s x x x (3)(2) 聚类系统聚类;,将n 个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。

开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。

①设有n 个样本,令I=1,选取K 个初始聚类中心:k j I Z j ,...2,1),(=; ②计算每一个数据样本与聚类中心之间距离:n i I Z x D j i ,...,2,1)),(,(=如果满足n i I Z x D I Z x D j i j i ,...,2,1))},(,(min{))(,(==,则k i w x ∈;③计算误差平方和准则函数JC ,公式如下:211)()(∑∑==-=kj n k j j k jI Z x I JC (4)④判断是否满足聚类算法结束条件:如果ξ<--)1()(I JC I JC ,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回②,新的聚类中心计算公式如下:k j X n I Z ki j i jj ,...,2,1,1)1(1==+∑= (5)距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。

令ij x 表示第i 个重复个案结果的第j 个指标, ij d 表示第i 个重复个案与第j 个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离()()1/2212pij ik jk k d x x =⎡⎤=-⎢⎥⎣⎦∑ 即为欧氏距离 (6)4.4.1.3模型的求解首先我们利用Excel 2007的删除重复项得到58014个不同的ID 号,得到58014个不同的ID 号,由于利用SPSS 标志对身份证号有重复个案的记录进行统计,其中有些数据没统计,所以只对统计的数据进行了统计,结果见如下;表一 对身份证号有重复个案的记录进行统计表二 对身份证号有重复个案的记录进行统计表从表一可以看出,身份证号总记录为35174个(删除无效记录后),其中重复个案为1457个,占4.1%,表二可以看出,重复个案所占比例小,可判断出,同一身份证在一段话时间内多次出现。

(2)利用SPSS]3[标志对医保手册号有重复个案的记录进行统计, 图表中记录为“1”的数据认为是无医保病人,则不可能出现医保欺诈,将此部分数据算作为主个案,不认为是重复个案,结果见图3。

图4为根据统计结果绘制的饼状图。

表三对医保手册号有重复个案的记录进行统计表四对医保手册号有重复个案的记录进行统计表从表三可以看出医保手册号总记录有58017个,其中重复个案有22365,个,占38.55%从表四中可以看出,重复个案占比重相对较大,可以判之其为医保欺诈行为。

(3)首先运用SPSS对个数、用户更新数据及每个医保手机号用户更新数做了统计,具体数据见附录一二,由于数据过大,以下两个表是所做统计数据的部分截图;(3)用SPSS中k均值聚类分析对Userupdate(用户更新次数)进行分类,最终聚类中心结果见图5,图6为每个聚类的案例数,图7为根据最终聚类中心结果绘制的饼状图。

表5 最终聚类中心统计表表6 每个聚类中的案例数统计表表7 用户更新次数统计表3)从图5中看出,将Userupdate(用户更新次数)分为两类,最终聚类中心分别为859和4141;图6显示每个聚类的案例数,可以看出第2聚类的案例数很少,表明更新次数过多有可能是欺诈行为。

4.2基于费用明细的医保欺诈行为主动发现4.2.1问题分析:考虑到医保欺诈行为,我们将其可能的结果分为三类,分别为单张处方单价过高,然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析]2[;最后,若下医嘱科室与病人科室不一致则可能为欺诈。

4.2.2聚类分析:(1)数据标准化由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n 个样本,m 个指标,则每个变量可表示为ij x ,均值∑=-=ni ij j x n x 11 (7)标准方差∑=---=ni ij ijj x xn s 12)(11(8)则标准化后)0(*≠-=-j jjij ij s s x x x (9)(3) 聚类系统聚类;,将n 个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。

开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。

①设有n 个样本,令I=1,选取K 个初始聚类中心:k j I Z j ,...2,1),(=; ②计算每一个数据样本与聚类中心之间距离:n i I Z x D j i ,...,2,1)),(,(=如果满足n i I Z x D I Z x D j i j i ,...,2,1))},(,(min{))(,(==,则k i w x ∈;③计算误差平方和准则函数JC ,公式如下:211)()(∑∑==-=kj n k j j k jI Z x I JC (10)④判断是否满足聚类算法结束条件:如果ξ<--)1()(I JC I JC ,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回②,新的聚类中心计算公式如下:k j X n I Z ki j i jj ,...,2,1,1)1(1==+∑= (11)距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。

相关文档
最新文档