数学建模医保欺诈模型的主动发现

合集下载

数学建模-以医保欺诈行为探讨可能的欺诈记录

数学建模-以医保欺诈行为探讨可能的欺诈记录

医保欺诈行为的主动发现摘要医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。

下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。

请根据附件中的数据,找出可能的欺诈记录。

医疗保险是关系到国计民生和国家发展的重大问题,基金统筹定额标准对。

医疗保险的发展、完善和社会稳定发展有重要影响。

本文探讨了年基金支付总额与年龄之间的关系,给出新的定额标准,并对按参保分类的每类定点医疗机构下一度的定额总费用进行预测。

针对问题一,我们建立模型一和模型二。

模型一计算出人均支付基金总额,利用excel画出折线图,并且根据折线图的分布进行不同区间对你曲线进行拟合,利用隶函数,确定出人均支付基金总额与年龄的之间的函数关系,并通过相关性检验,得到了相应的方程。

模型二分析得到年基金支付总额与看病次数近似成正比关系,然后将年基金支付总额0到180万分成6段,利用每个年龄看病次数占总的看病次数的比重求的每段一个平均年基金支付总额,再求的每个区间段的平均人数,平均总额与平均人数的比即为新的定价。

针对问题二,对附件4的数据进行分析,建立了聚类分析模型,对46个医疗机构进行的分类,运用SPSS进行求解,把医疗机构分成了5类,分类结果见表五,然后在新的定额标准下,利用excel求的每一个医疗机构的总费用,最后用均值表示为每一类医疗机构的下一年的预测费用为:医疗机构下一年总费用第一类医疗机构6072315第二类医疗机构21330.48第三类医疗机构9025437第四类医疗机构7327655第五类医疗机构50665304一、问题重述近来,为给各县市居民的医保方便,各县市纷纷出台有关社会基本医疗保险普通门诊统筹的相关办法,其中,职工医疗保险、外来劳务人员大病医疗保险、未成年人医疗保险、城乡居民基本医疗保险的参保人全部纳入门诊统筹的范围。

基于神经网络的医保欺诈主动发现模型

基于神经网络的医保欺诈主动发现模型

基于神经网络的医保欺诈主动发现模型
随着医疗保险策略的不断发展,医保欺诈的现象愈发严重,甚至影响到了政府、医疗机构以及广大人民群众的权益,因此,如何有效地预防和主动发现医保欺诈行为,具有非常重要的现实意义。

基于神经网络的医保欺诈主动发现模型相应而生,并受到人们的广泛关注。

在医保欺诈判定中,大量数据的处理和分析是核心问题,然而传统的数据挖掘和建模方法无法完全满足需求,需要引入新的技术手段。

神经网络作为组成自主学习系统的基本元素,具有自适应性、自我适应性、并行处理等特点,逐渐成为医保欺诈主动发现的新工具。

基于神经网络的医保欺诈主动发现模型的实现,需要先进行数据的预处理和特征提取,将原始数据转化为可以输入模型中的数据格式。

模型建立的过程中,需要设计网络的框架、层数、节点数、激活函数等关键能力,同时还需要进行参数设置和训练优化。

在训练阶段,要借助样本数据集,通过不断调整和优化网络结构和参数,提高模型的准确性和泛化性能。

经过大量实践和应用,基于神经网络的医保欺诈主动发现模型取得了显著效果,不仅可以有效地发现已有的欺诈行为,还可以预测新的欺诈行为。

同时,模型的应用还能够为政府、医疗机构提供有力支持,提高医疗保障的管理水平和经济效益。

未来,基于神经网络的医保欺诈主动发现模型将继续不断进行改进和优化,为医保实践和社会发展贡献更多智慧和力量。

医保欺诈行为的主动发现

医保欺诈行为的主动发现

医保欺诈行为的主动发现针对在医疗行业中存在的医疗保险欺诈行为,应当有合适的方法去及时发现并制止,只有这样才能使医疗保险金能真正落到实处。

本文使用主成分分析、K-means聚类分析等方法, 并运用MATLAB. SPSS等软件对数据进行分析,并对我国医保行业现状进行分析,为相关部门自动识别医保诈骗提供具体的模型及识别方法。

关键词:医保欺诈:主动发现:主成分分析;K-means聚类一、数据挖掘预处理由于本文主要研究的是医保欺诈行为,所以数据处理中只保留所有参保人员,将非参保人员的就诊拿药数据剔除,减少无关数据的干扰。

(-)数据淸洗。

针对本文的研究目的,有目的地进行数据淸洗。

首先是删除大量对于本次数据挖掘没有用的数据,只保留相关数据列:其次是对于缺失的必要数据采用数据归约的方法填补空缺。

(二)数据转换。

将文本型、字符型数据转换为数字型数据,以方便后续研究。

如用"T 和"0"代替性别的"男”、"女”;将出生日期转换为患者年龄等。

二、医保欺诈行为主动发现模型(-)类型回:医保卡持有人已死亡。

这是最容易发现的骗保行为,故优先考虑该种类型的骗保行为主动发现。

通过MATLAB编程对医保卡和身份证号列进行筛选处理,找到一个医保卡ID对应多个医保手册号的情况。

利用MATLAB软件进行筛选,将筛选岀的ID利用Excel 的vlookup 函数査找出对应的身份证号,找出嫌疑人的关键信息。

可以将一卡两人用、一卡三人用的医保卡ID和医保手册号筛选出来。

而病人也有死亡标志说明,可以查出死亡病人的ID再査找英医保卡消费情况,对比病人的死亡时间以及账单号的交易时间,若病人的死亡时间在前而交易时间在后,则为医保欺诈记录。

根据所使用的数据表,暂未发现这类医保欺诈,但仍应该警惕,及时把死亡者的医保卡注销,避免这类医保欺诈的发生。

(二)类型目:医保卡持有人未亡。

对预处理后的数据进行分析,可以发现病人的医保费用与参保人的年龄、消费频率、消费药品的金额之间具有一定的关联性。

数学建模练习题 医保欺诈的主动发现

数学建模练习题  医保欺诈的主动发现

医保欺诈的主动发现摘要随着城镇职工基本医疗保险覆盖面的逐步扩大,参保人员结构更为复杂,医疗保险基金在医疗领域面临欺诈的风险也越来越大。

防范医疗欺诈问题,是研究社会医疗保险的重要课题之一,以此医疗保险欺诈为背景提出了问题,本文运用聚类分析、等方法成功解决了这个问题,并在大量医保名单中找出了医保欺诈行为。

首先根据数据2.1,我们对数据进行了预处理,利用Excel的删除重复项功能对人数进行了识别,然后查找并删除了死亡患者的数据,最后得到58014个不同的ID号,然后利用SPSS分别对身份证号、医保手册号采取标记重复个案的方法,标识出重复数据,其次利用k均值聚类分析法对Userupdate(用户更新次数)进行了分析,确定了主个案和重复个案占的比重,并画出其占比重的饼状图,发现第二类聚类中心数大,以上三种数据特征则表示极可能是医保欺诈行为。

另外根据数据2.2,考虑到可能的欺诈行为,将其分为三类,分别为单张处方单价过高,但其与总价、数量之间存在着相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。

最后,对所建立的模型和求解方法的优缺点给出了客观的评价,并指出了改进的方法。

关键词:医保欺诈 SPSS k均值聚类分析标志重复个案一、问题复述1.1 问题背景随着我国医疗保险事业快速发展,在保险赔付过程中,存在着一些借助病案进行医疗保险欺诈的事件,医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。

数学建模医保欺诈模型地主动发现

数学建模医保欺诈模型地主动发现

全国大学生数学建模竞赛选拔赛承诺书我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。

如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理,并取消参赛资格。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): A参赛队员(打印后再手签)::1.2.3.指导教师或指导教师组负责人(没有可不填写):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。

以上内容请仔细核对,提交后将不再允许做任何修改。

如填写错误,论文可能被取消评奖资格。

)日期: 2015 年 7 月 29 日医保欺诈的主动发现摘要医疗保险是关系到国计民生和国家发展的重大问题,医保欺诈问题严重威胁医保基金安全,妨碍医保政策的有效实施,因此医保欺诈行为的主动发现对医疗保险的发展、完善和社会稳定发展有重大的意义。

本提出了一种基于BP神经网络的识别的鉴别医保欺诈行为的方法。

对于数据的处理,我们选择了Excel和Access根据病人ID将表2.1病人资料和表2.2费用明细表进行了汇总和归一,并剔除了包括记录不完整、格式错误之内的无效数据,在这个过程中我们发现了所有的消费记录只是买药,并且在这个月的消费记录中只有极少数病人存在转科室行为,而且一部分病人是自费的,没有医保欺诈嫌疑,还有一些病人存在多人共用医保卡的现象,直接确定其为医保欺诈,这些病人的消费记录为我们训练BP神经网络提供了样本支持。

对于这个问题,我们首先用Excel和Access从大量的数据中筛选出了对欺诈识别有用的信息,其中包括病人的年龄,性别,所在科室,当月总消费以及当月消费频率等等你,又考虑到不同科室的消费情况存在差异因此我们求出了各个科室的平均消费额,并且做出了每个病人当月的消费对对应科室平均消费的相对差。

医保欺诈的主动发现

医保欺诈的主动发现

基于数据挖掘的医保欺诈主动发现电机系2013010932 方诗卉电机系2013010935 谭振飞电机系2013010946 贾鑫摘要目前社会上存在着一些不法分子在履行参保缴费义务上虚构事实,隐瞒真相,以骗取医保权益,或在医疗行为上虚构事实,隐瞒真相,以骗取医保基金或医保待遇。

这类欺诈行为在各个国家普遍存在。

这些违法行为已经给我们国家带来了极大的经济损失,严重影响我国医疗行业的进一步发展。

而在海量就医病患信息中识别出骗保行为,靠人工的力量显然是不行的。

为了能高效地初步识别出骗保嫌疑对象,本文使用聚类分析、异常点挖掘、残差分析等算法对病患就诊信息进行数据挖掘。

针对不同的骗保手段,给出了四个骗保识别因子作为评判标准,并由此通过一种平方平均的方法得到了一个集中的骗保嫌疑评判指标。

通过计算每一例就医记录的嫌疑指标,并与设定的阈值比较,可以初步锁定骗保嫌疑对象。

再在这些对象中进行更精细的人工调查,便可有效地识别骗保行为。

关键词:欺诈识别、数据挖掘、异类识别、SNN相似度、识别因子一、问题重述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。

下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。

根据附件中6个表格(病人资料、费用明细表、医嘱表、医嘱子类、核算分类、患者类别)中的数据,找出可能的欺诈记录。

二、问题分析关于医疗保险欺诈,骗保人会在医保的使用过程中留下痕迹,会出现非正常消费的情况。

在本问题中,需要通过检索分析消费记录来进行选择。

首先,根据表格2.1——病人资料,可以看出,有一部分人在医院的记录中使用了医保卡,而另一部分人没有使用。

所以对没有使用医保卡的情况可以断定出没有骗保嫌疑。

数学建模题目.

数学建模题目.

2015年“深圳杯”数学建模夏令营A题:医保欺诈行为的主动发现医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。

下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。

请根据附件中的数据,找出可能的欺诈记录。

注:数据中病人姓名、身份证号、电话号码、医保卡号为非真实数据。

数据见2.1 2.2 2.3 2.4 2.5 2.62015年“深圳杯”数学建模夏令营B题:DNA序列的k-mer index问题这个问题来自DNA序列的k-mer index问题。

给定一个DNA序列,这个系列只含有4个字母ATCG,如S=“CTGTACTGTAT”。

给定一个整数值k,从S的第一个位置开始,取一连续k个字母的短串,称之为k-mer(如k=5,则此短串为CTGTA),然后从S的第二个位置,取另一k-mer(如k=5,则此短串为TGTAC),这样直至S的末端,就得一个集合,包含全部k-mer。

如对序列S来说,所有5-mer为{CTGTA,TGTAC,GTACT,TACTG,ACTGT,TGTAT}通常这些k-mer需一种数据索引方法,可被后面的操作快速访问。

例如,对5-mer来说,当查询CTGTA,通过这种数据索引方法,可返回其在DNA序列S中的位置为{1,6}。

问题现在以文件形式给定100万个DNA序列,序列编号为1-1000000,每个基因序列长度为100。

(1)要求对给定k,给出并实现一种数据索引方法,可返回任意一个k-mer所在的DNA 序列编号和相应序列中出现的位置。

每次建立索引,只需支持一个k值即可,不需要支持全部k值。

(2)要求索引一旦建立,查询速度尽量快,所用内存尽量小。

医疗保险欺诈的_主动识别

医疗保险欺诈的_主动识别

1.问题的重述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。

下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。

请根据附件中的数据,找出可能的欺诈记录。

2.问题的分析题目的意图很明确,就是要我们通过数学建模的手段找出医疗保险欺诈的记录。

通过对给出数据的观察和分析,我们发现这几个表里面有很多栏都是空白,而且有些信息记录与本次建模没有联系,所以首先必须要将到数据库中,通过数据库语言对表进行合理的处理,整合到一张表里。

接着应该选取一些欺诈识别因子,即初步选取能刻画欺诈特征的一些可测信息点确定识别指标。

为了能对这些因子进行评价判断,应该要抽取一部分记录作为初步的样本。

接下来就得通过统计回归方法检验指标的有效性,并从中选取显著有效的欺诈识别因子作为解释变量;通过建立BP神经网络模型进行欺诈识别,选取学习样本训练神经网络,并选取检验样本检验网络模型的有效性,即通过网络计算欺诈概率,并同事先确定的阈值进行比较,当欺诈概率超过该阈值时即视为疑似欺诈案件,在实际中确定为疑似欺诈的案件进入特殊处理程序,进一步调查。

3.模型的假设与符号说明3.1模型的假设(1)假设医保手册号为1的病人都是不享受医疗保险的;(2)假设医嘱数量和费用为负数是输入错误,将所有负数变为正数;(3)假设所有数据来源真实不存在篡改的情况。

ai x 1L 0L b ii y 3.2 符号说明p事件发生的概率,存在医保欺诈概率为1 第i 个识别因子回归方程的似然函数值 引入解释变量后似然函数 N 样本容量第i 个自变量的回归系数 第i 个案例的判定概率 识别因子中最大值识别因子中最小值 M为隐层节点数4.模型的准备通过对附件里的数据进行观察可以很容易发现,有很多表格里的栏目内容为空,还有就是有些信息对本次建模没有帮助,所以在建立模型前,有必要将原始数据进行筛选处理。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

全国大学生数学建模竞赛选拔赛承诺书我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。

如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理,并取消参赛资格。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): A参赛队员(打印后再手签)::1.2.3.指导教师或指导教师组负责人(没有可不填写):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。

以上内容请仔细核对,提交后将不再允许做任何修改。

如填写错误,论文可能被取消评奖资格。

)日期: 2015 年 7 月 29 日医保欺诈的主动发现摘要医疗保险是关系到国计民生和国家发展的重大问题,医保欺诈问题严重威胁医保基金安全,妨碍医保政策的有效实施,因此医保欺诈行为的主动发现对医疗保险的发展、完善和社会稳定发展有重大的意义。

本提出了一种基于BP神经网络的识别的鉴别医保欺诈行为的方法。

对于数据的处理,我们选择了Excel和Access根据病人ID将表2.1病人资料和表2.2费用明细表进行了汇总和归一,并剔除了包括记录不完整、格式错误之内的无效数据,在这个过程中我们发现了所有的消费记录只是买药,并且在这个月的消费记录中只有极少数病人存在转科室行为,而且一部分病人是自费的,没有医保欺诈嫌疑,还有一些病人存在多人共用医保卡的现象,直接确定其为医保欺诈,这些病人的消费记录为我们训练BP神经网络提供了样本支持。

对于这个问题,我们首先用Excel和Access从大量的数据中筛选出了对欺诈识别有用的信息,其中包括病人的年龄,性别,所在科室,当月总消费以及当月消费频率等等你,又考虑到不同科室的消费情况存在差异因此我们求出了各个科室的平均消费额,并且做出了每个病人当月的消费对对应科室平均消费的相对差。

有了这些欺诈因子和自费患者以及共用医保卡患者的消费记录,我们建立了Logistic二元回归模型,来评估各个欺诈因子对欺诈的可能性大小的影响进而剔除了对欺诈可能性无效的欺诈因子,保留了对欺诈可能性影响显著的欺诈因子作为输入向量对BP神经进行训练,并且用训练后的网络对医保病人进行了欺诈识别。

最终我们认为输出结果为1的病人具有重大医保欺诈嫌疑。

关键词医保欺诈Logistic二元回归BP神经网络数据一、问题重述1.1 问题背景医疗保险是为解决公民或劳动者因为疾病和非因公负伤,丧失劳动能力后的治疗费用及服务,给予物质帮助的一种社会保险制度。

医疗保险欺诈行为是指违反医疗保险管理法规和政策,采用虚构事实、隐瞒真相以及其他方法,向医保基金管理机构骗取医保基金或医保待遇的行为。

这一行为具有两个基本特征:一是主观表现为直接故意,并且以非法占有医保基金或非法获得医保待遇为目的,二是实施手段主要是通过虚构事实和隐瞒真相,即故意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。

我国自城镇职工医疗保险和新农村合作医疗制度实施以来,欺骗医保基金的案件不断发生,事实上,医疗保险欺诈在许多国家每年都有数亿美元的损失,对医保基金安全构成了重大的威胁,妨碍了各国医保政策的实施,因此医疗保险欺诈已成为各国非常重视的社会问题[1]利用数学建模的方法分析医疗保险欺诈行为,建立相应的数学模型可为发现医疗保险欺诈问题提供科学有力的依据。

1.2 问题描述医疗保险欺诈行为具有两个基本特征:一是主观表现为直接故意,并且以非法占有医保基金或非法获得医保待遇为目的;二是实施手段主要是通过虚构事实和隐瞒真相,即故意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。

骗保人进行医保欺诈时通常使用的手段有冒用他人医疗保险证、卡就医;异地就医人员伪造或虚开医疗票据回来报销;“挂床”住院就医;要求医院开具本人不必要的诊疗项目或药品,由他人代作或代用等。

下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。

二、问题分析BP神经网络是一种按误差你传播算法训练的前馈网络,学习过程由信号的正向传播与误差的逆向传播两个过程组成. 正向传播时, 模式作用于输入层, 经隐层处理后,传入误差的逆向传播阶段, 将输出误差按某形式, 通过隐层向输入层逐层返回, 并“分摊”给各层的所有单元, 从而获得各层单元的参考误差或称误差信号, 以作为修改各单元权值的依据. 权值不断修改的过程, 也就是网络学习过程. 此过程一直进行到网络输出的误差准逐渐减少到可接受的程度或达到设定的学习次数为止[3][4]。

目前BP神经网络已在国内外相关经济研究领域得到广泛应用,在国内的证券、银行等相关领域已有学者开始运用BP网络进行研究,叶明华将该方法运用到机动车保险欺诈的研究当中,并且尝试了统计回归与神经网络的融合,证实了神经网络运用于保险欺诈的识别是可行的,并且通过回归分析精炼后的识别因子能够使神经网络具有更好的识别效果。

[2]在这个问题中,数据量巨大,同时自费患者和欺诈患者(共用医保卡)提供了大量的样本,而这些样本恰好可以用于BP神经网络的训练,同时还可以用Logistic二元回归分析筛选出影响显著的欺诈因子,将定量与定性相结合,使结果更准确。

因此,对于这个问题,运用层次分析法和Logistic二元回归分析相结合的方法进行医保欺诈的识别。

三、模型假设1.自费病人无医保欺诈嫌疑2.消费总额和消费数量为负数的视为记录错误,取绝对值计算3.忽略这个月内极少数病人转科室治疗的情况4.这个月当地没有地震等重大灾难的发生四、模型的建立与求解4.1 预处理数据4.1.1 样本与欺诈因子选取根据附录表格2.1和2.2中的病人资料和消费记录中使用Excel和Access的数据处理函数,结合相关资料,先做出各个科室的平均消费额,然后提取出包括病人科室,病人所在科室的平均消费额,病人当月总费用,当月拿药频次,年龄,性别在内的6个欺诈因子,并将这些欺诈因子整合到病人ID中,表格见附件1。

表4.1 欺诈因子汇总表4.1.2 自费病人与医保卡共用病人从题目表2.1 病人资料医保卡号一栏中筛选出医保卡号为1的病人,提取出他们的病人ID并确定他们为自费病人。

对医保卡号一栏运用COUNTIF函数筛选一卡多用病人发现存在2人共用医保卡以及3人共用医保卡的现象,提取出他们的ID 并确定其为共用医保卡病人。

分别根据自费病人以及医保卡共用病人的ID作出如表格4.2的欺诈因子汇总表便于进一步分析。

4.2 欺诈因子的精炼运用二元离散选择模型对选取的6个欺诈因子进行回归分析,从中获取具有显著性的欺诈因子,我们通过IBM SPSS Statistics 19软件实现样本数据的Logistic二元回归分析。

参数设定为:方法:Enter步进概率:进入=0.05,删除=0.1;最大迭代次数: 50Exp(B)的C.I.(X): 95%。

表4.2 迭代历史记录迭代-2 对数似然值系数Constant步骤 0 1 7647.606 -1.9352 4584.590 -2.9313 3917.985 -3.6454 3832.549 -4.0135 3829.783 -4.0956 3829.779 -4.0987 3829.779 -4.098a. 模型中包括常量。

b. 初始 -2 对数似然值: 3829.779c. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 7 处终止。

表4.3为迭代历史记录,估计在迭代7次后终止,初始的-2对数似然值达到43.927。

在表4.41的也被预测为0,预测正确率98.4%。

表4.4 显著性检验得分df Sig.步骤 0 变量相对差 1.624 1 .202当月总费用7.607 1 .006当月拿药频次 1.401 1 .237年龄10.676 1 .001性别(1) 63.674 1 .000病人科室216.120 1 .000各科室平均消费额18.710 1 .000总统计量300.128 7 .000表4.5是对模型的全局检验,为似然比检验,共给出七个结果:sig值<0.05表明有统计学意义。

从中可见病人当月总费用,年龄,性别,病人所在科室以及病人所在科室的平均消费额对回归具有显著影响,而其他因素没有影响。

根据这个结论就可以建立医保欺诈识别的BP网络模型。

4.3 医保欺诈识别的BP网络模型1) 设置初始权值W(0)为较小的随机非零值。

2) 给定输入/输出样本集合,误差指标总误差指标重复下列过程直至满足收敛条件()a) 对于任意一个样本p,计算正向过程:1 ,,,,,l lp p p p u O x y反向过程:b) 修正权值包括两种学习方式:模式(Pattern)学习方式:()()1,0p l l ij ij lijE w t w t w ηη∂+=->∂训练(Epoch )学习方式:()()1,0l l all ij ij lijE w t w t w ηη∂+=->∂[5]网络输入矩阵是由Logistic 二元回归分析获取的具有模型显著性的5个欺诈识别因子向量组成,网络输出向量矩阵是由是否欺诈(0和1)组成的一维矩阵,0代表该病人没有欺诈,1代表欺诈。

经过反复多次试验,本着误差最小,训练时间最短的原则最终确定了有2个隐藏层的BP 神经网络模型。

设置目标误差为0.025,最大迭代次数50000等[6]。

图4.1 BP 神经网络训练图从图4.1中看出我们的BP神经网络经过396个迭代周期,历时2分50秒之后终于达到了目标误差0.025。

训练过程如图所示。

图4.2 模拟训练过程图4.4 欺诈病人识别根据训练好的BP神经网络,对不能确定是否欺诈的病人进行欺诈识别,找到可能的欺诈病人ID,并根据其欺诈可能性大小进行了排序,排序越靠前欺诈嫌疑越大。

最终结果请看附件5.五、模型的评价与推广5.1模型的优缺点本文采取采取Logistic回归和BP神经网络结合的方法,运用Spss软件对样本进行Logistic回归分析提取具有模型显著性的识别因子;将所得识别因子作为BP 神经网络模型的输入向量进行训练,并选取检验样本对模型的有效性进行预测检验,证明了模型的准确性和用这种方法用于医保欺诈识别的可行性。

本模型基于BP神经网络的方法具有很多优点:BP神经网络的非线性映射能力强,数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。

相关文档
最新文档