【CN110321376A】一种基于本福特定律的数据造假排查方法【专利】

合集下载

一种基于本福特定律的异常流模式识别方法

一种基于本福特定律的异常流模式识别方法

一种基于本福特定律的异常流模式识别方法English:One method for anomaly detection based on Benford's Law is to utilize the distribution of leading digits in observed data to identify abnormal patterns. Benford's Law states that in many naturally occurring datasets, the leading digits are not uniformly distributed, but instead follow a specific logarithmic pattern. By analyzing the leading digits of a given dataset and comparing it to the expected distribution based on Benford's Law, anomalies or abnormalities can be identified. This method is particularly useful in detecting fraud or manipulation in financial data, where the presence of anomalies in leading digit distribution can indicate potential irregularities. Additionally, this approach can also be applied to various other fields such as science, engineering, and social sciences, where datasets are expected to adhere to Benford's Law. However, it is important to note that while Benford's Law is a powerful tool for anomaly detection, it is not foolproof and should be used in conjunction with other methods for a comprehensive analysis.中文翻译:基于本福特定律的异常流模式识别方法之一是利用观察数据中领先数字的分布来识别异常模式。

一种基于大数据的车辆保险反欺诈检测方法发明专利

一种基于大数据的车辆保险反欺诈检测方法发明专利

一种基于大数据的车辆保险反欺诈检测方法发明专利【正文】本发明涉及一种基于大数据的车辆保险反欺诈检测方法发明专利。

随着车辆保险业务的快速发展,保险欺诈问题日益突出。

传统的车辆保险反欺诈方法存在着诸多不足之处,需要一种更加准确、快速和高效的手段来进行欺诈检测。

基于此,本发明提供了一种基于大数据的车辆保险反欺诈检测方法,旨在解决传统方法的问题并提高欺诈检测的精度和效率。

本发明的技术方案主要包括以下步骤:1. 数据采集阶段:通过车辆保险公司的保单、理赔数据、驾驶行为数据等多源数据的采集,构建庞大的保险数据集。

2. 数据预处理:对采集到的数据进行去噪、去重、归一化处理,消除噪声干扰并统一数据格式,为后续检测步骤提供可靠的数据基础。

3. 特征提取:根据保险欺诈检测的需求,从数据集中提取出有效的特征。

例如,保单数据可以提取出投保人信息、被保险车辆信息等特征;理赔数据可以提取出事故类型、保险金额等特征。

4. 欺诈检测模型训练:利用机器学习、深度学习等技术,基于提取的特征构建欺诈检测模型,并使用训练数据对模型进行训练和调优,以提高模型的准确性和鲁棒性。

5. 欺诈检测与预测:利用训练好的欺诈检测模型对新数据进行欺诈检测与预测。

当有新的保单或理赔数据进入系统时,系统将自动进行欺诈检测,判断是否存在欺诈行为,并预测可能的欺诈风险。

6. 结果输出与反馈:系统将欺诈检测结果以可视化形式展示给用户,同时将结果输出到车险公司的管理系统中,供相关部门使用。

通过不断收集反馈信息,更新模型,提升欺诈检测的精度。

相比传统的车辆保险反欺诈方法,本发明具有以下优点:1. 数据源广泛且多样化:通过采集多源数据,建立完整的保险数据集,包含了丰富的保单、理赔、驾驶行为等信息,提高了欺诈检测的准确性和可靠性。

2. 大数据分析:利用大数据分析技术,挖掘数据中的潜在规律和模式,识别出隐藏在海量数据中的欺诈行为,提高了欺诈检测的效率。

3. 模型训练与优化:采用机器学习、深度学习等技术,建立欺诈检测模型,并通过训练和优化不断提升模型的准确性和鲁棒性。

基于Benford定律的会计舞弊发现研究

基于Benford定律的会计舞弊发现研究

基于Benford定律的会计舞弊发现研究作者:狄为施鹏仙来源:《会计之友》2010年第26期【摘要】文章结合我国上市公司的真实数据,运用Benford定律进行会计舞弊分析检测,指出Benford定律作为一种数值分析技术应用于会计舞弊检测,具有操作性好、使用成本低、客观性强等特点,是一种常规的舞弊检查技术方法。

但单个会计舞弊公司的财务数据首位数出现的概率分布与Benford定律的理论分布存在较大差异。

【关键词】 Benford定律;会计舞弊;数值分析近年来,会计舞弊不断发生,如何发现舞弊、阻止舞弊、证据舞弊是会计人员、法务工作者、监管部门不断研究的对象。

本文将Benford定律应用于会计舞弊领域研究,试图以统计学角度检测数字内在分布规律的分析方法,发现财务舞弊者的造假现象,进一步发现和获得舞弊证据。

Benford定律是一种数字统计的内在规律,在财务、人口普查、股票指数等领域有着很强的数据适用性。

会计、统计、税收、金融及证券市场各种数字可以很好地符合Benford定律。

从具体方法上来看,本文的研究对传统舞弊侦查方法,如分析性复核法、资产质量分析法、奇异分析法等,是一个很好的补充。

一、Benford定律的内涵奔福德定律(Benford's law)也被称为“首位数现象”(First-digit phenomena)、有效数字法则(Significant digit law)、对数法则(Logarithm Law),是从统计学角度检测鲜为人知的数字分布的内在规律。

该定律揭示了在满足特定条件的情况下,大量统计数据中数字1—9出现在数据首位的概率分布规律。

1881年,美国数学家Newcomb最早发现Benford定律。

1938年,美国通用电气公司(GE)科学家Frank Benford通过研究,得出和Newcomb同样的结论:人们处理较小数字开头的数值的频率较大。

为了证明结论,Benford收集了20 229个20组数据,这些数据来源千差万别,发现整数1在首位出现的概率约为30%,整数2约为17%,而8和9在数字首位出现的概率分别为5%和4%。

基于Benford法则的舞弊检测方法研究

基于Benford法则的舞弊检测方法研究

基于Benford法则的舞弊检测方法研究作者:朱文明, 王昊, 陈伟, ZHU Wen-ming, WANG Hao, CHEN Wei作者单位:朱文明,ZHU Wen-ming(东南大学经济管理学院,南京,210018), 王昊,陈伟,WANG Hao,CHEN Wei(南京审计学院,南京,210029)刊名:数理统计与管理英文刊名:APPLICATION OF STATISTICS AND MANAGEMENT年,卷(期):2007,26(1)被引用次数:1次1.Cindy Durtschi The Effective Use of Benford's Law to Assist in Detecting Fraud in Accounting Data 20042.Nigrini M J Adding value with digit analysis 1999(56)3.Nigrini M J;Mittermaier L J The use of Benford's law as an aid in analytical procedures 1997(16)4.T Hill Base-invariance implies Benford's law 1995(123)5.T Hill A Statistical Derivation of the Significant-Digit Law 1996(10)6.Benford F The Law of anomalous numbers 1938(78)7.辛金国舞弊审计程序研究[期刊论文]-审计研究 2004(04)8.郑朝晖上市公司十大管理舞弊案分析及侦查研究[期刊论文]-审计研究 2001(06)9.李若山对当前我国企业舞弊问题的实证调查[期刊论文]-审计研究 2002(08)1.周芳应用数据挖掘技术识别财务报表舞弊的方法研究[期刊论文]-财务与金融 2010(3)本文链接:/Periodical_sltjygl200701008.aspx。

基于制造大数据的产品质量异常数据追溯分析方法[发明专利]

基于制造大数据的产品质量异常数据追溯分析方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201810925436.X(22)申请日 2018.08.15(71)申请人 中国人民解放军海军航空大学地址 264001 山东省烟台市芝罘区二马路188号科研学术处(72)发明人 王海鹏 潘新龙 李敏波 郭强 易泳 何友 (51)Int.Cl.G06F 17/30(2006.01)(54)发明名称基于制造大数据的产品质量异常数据追溯分析方法(57)摘要本发明公开了一种基于制造大数据的产品质量异常数据追溯分析方法。

所述方法包括:步骤1,多源异构质量大数据获取集成;步骤2,质量大数据预处理:从产品质量分析数据集中抽取异常数据,并对其进行数据去重和数据缺失值填补;步骤3,特征抽取:从进行质量大数据预处理后的数据集中,抽取其包含数据的统计指标作为辅助特征,形成产品质量异常数据集;步骤4,质量异常数据追溯分析:首先进行覆盖产品生产全过程的单因素质量分析,找到影响产品质量的主要因素;然后通过涵盖产品生产各个环节的质量特征构建决策树模型,对产品质量异常数据进行追溯分析;步骤5,分布式计算加速:利用Spark内存计算方法加快质量数据追溯分析处理速度。

权利要求书2页 说明书9页 附图3页CN 109101632 A 2018.12.28C N 109101632A1.基于制造大数据的产品质量异常数据追溯分析方法,其特征在于,包括以下步骤:步骤1,多源异构质量大数据获取集成收集并整理多源异构的产品生产质量数据以及产品质量检测数据,形成统一格式的结构化产品质量分析数据集;步骤2,质量大数据预处理从产品质量分析数据集中抽取异常数据,并对其进行数据去重和数据缺失值填补;步骤3,特征抽取基于行业背景知识和分析经验从进行质量大数据预处理后的数据集中,抽取其包含数据的统计指标作为辅助特征,形成产品质量异常数据集;步骤4,质量异常数据追溯分析基于产品质量异常数据集,首先进行覆盖产品生产全过程的单因素关联分析,找到影响产品质量的主要因素;然后通过涵盖产品生产各个环节的质量特征进行多因素决策树分析,实现对产品质量异常数据的追溯分析。

【CN109872166A】一种基于大数据技术的生产质量追溯方法【专利】

【CN109872166A】一种基于大数据技术的生产质量追溯方法【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910128878.6(22)申请日 2019.02.21(71)申请人 苏州天准科技股份有限公司地址 215163 江苏省苏州市高新区培源路5号(72)发明人 樊马迪 (74)专利代理机构 苏州国诚专利代理有限公司32293代理人 杜丹盛(51)Int.Cl.G06Q 30/00(2012.01)G06K 7/10(2006.01)(54)发明名称一种基于大数据技术的生产质量追溯方法(57)摘要本发明提供了一种基于大数据技术的生产质量追溯方法,保证信息能够正确无误的传递,对整个生产过程进行流程化和数据可追溯化管理,达到生产质量管控的目的。

其通过工业现场总线与设备端进行通讯,采用智能数据采集系统,将生产线各类生产信息收集并存储于服务器,使用基于大数据技术和对象关系映射技术对生产线各项生产数据进行收集、统计、分析和处理,同时规范数据存储,将整个生产过程流程化和数据可追溯化,系统化管理整个生产线信息。

权利要求书1页 说明书3页CN 109872166 A 2019.06.11C N 109872166A权 利 要 求 书1/1页CN 109872166 A1.一种基于大数据技术的生产质量追溯方法,其特征在于:其通过工业现场总线与设备端进行通讯,采用智能数据采集系统,将生产线各类生产信息收集并存储于服务器,使用基于大数据技术和对象关系映射技术对生产线各项生产数据进行收集、统计、分析和处理,同时规范数据存储,将整个生产过程流程化和数据可追溯化,系统化管理整个生产线信息。

2.如权利要求1所述的一种基于大数据技术的生产质量追溯方法,其特征在于:产线上的每个操作工位都设置有对应的数据处理系统,其根据产线管理员预设的每个工位的生产信息,读取信息数据确认是否需要本工位对产品进行操作;除去产线首站外的每个工位,其通过采集上一工位的产品信息,及时获取本工位需要处理的操作或不操作直接将产品流转进入下一工位,需要对产品进行处理时,根据上一工位集成于二维码内的产品信息对本应获得的物料管理数据进行比对、判断,进而确认上一工位的生产质量是否合格、数量是否准确,如不合格,则通知第三方设备,发出警告后进行排查。

一种数据分析查询中自定义排序实现方法[发明专利]

一种数据分析查询中自定义排序实现方法[发明专利]

专利名称:一种数据分析查询中自定义排序实现方法专利类型:发明专利
发明人:杨占福
申请号:CN201410855012.2
申请日:20141231
公开号:CN104504132A
公开日:
20150408
专利内容由知识产权出版社提供
摘要:本发明提供了一种在数据查询分析统计中用户自定义排序的实现方法,包括:查询结构描述,自定义排序描述及实现。

在传统的数据分析和查询中,经常会对查询的数据进行排序,而仅仅提供数据库默认的升序和降序排列,在一些数据查询分析统计中往往是不够的。

本发明的有益效果是:能够在数据库提供的默认的排序的基础上,允许按照用户指定的顺序对数据进行排序,操作方便。

申请人:天津南大通用数据技术股份有限公司
地址:300384 天津市滨海新区高新区华苑产业区海泰发展六道6号海泰绿色产业基地J-518国籍:CN
代理机构:天津滨海科纬知识产权代理有限公司
代理人:杨慧玲
更多信息请下载全文后查看。

一种数据异常定位方法和装置[发明专利]

一种数据异常定位方法和装置[发明专利]

专利名称:一种数据异常定位方法和装置专利类型:发明专利
发明人:周葳,周双志
申请号:CN201811654237.6
申请日:20181230
公开号:CN109740099A
公开日:
20190510
专利内容由知识产权出版社提供
摘要:本发明提供了一种数据异常定位方法和装置,如果监测到数据指标异常,则获得所述数据指标涉及的N个数据项中每个数据项各自对应的影响因子,而影响因子用于表明对应的数据项导致数据指标异常还是正常,由此可以基于每个数据项各自对应的影响因子,确定使得数据指标异常的数据项,进一步基于使得数据指标异常的数据项,定位异常的数据项,实现在数据指标异常的情况下自动定位异常的数据项,从而省去人工分析过程,提高异常定位的效率。

申请人:北京奇艺世纪科技有限公司
地址:100080 北京市海淀区北一街2号爱奇艺创新大厦10、11层
国籍:CN
代理机构:北京集佳知识产权代理有限公司
更多信息请下载全文后查看。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910209105.0
(22)申请日 2019.03.19
(71)申请人 北京信息科技大学
地址 100192 北京市海淀区清河小营东路
12号
(72)发明人 李楠 
(74)专利代理机构 北京市广友专利事务所有限
责任公司 11237
代理人 张仲波
(51)Int.Cl.
G06F 16/25(2019.01)
G06F 16/28(2019.01)
G06F 16/215(2019.01)
(54)发明名称
一种基于本福特定律的数据造假排查方法
(57)摘要
本发明的实施例公开一种基于本福特定律
的数据造假排查方法。

所述方法包括:提供数据
源,将所述数据源的环境数据导入并构建环境数
据仓库,本福特定律检验所述环境数据仓库的环
境数据并输出检验结果,对检验结果分析,能够
明确数据造假嫌疑较大的地区或统计环节,识别
出需要重点校验数据质量的地区、企业单位与统
计指标,为提升相关领域数据挖掘分析结果的可
靠性与不确定性分析提供技术支持。

权利要求书1页 说明书8页 附图3页CN 110321376 A 2019.10.11
C N 110321376
A
权 利 要 求 书1/1页CN 110321376 A
1.一种基于本福特定律的数据造假排查方法,其特征在于,所述方法包括:
步骤S1:提供数据源;
步骤S2:将所述数据源的环境数据导入并构建环境数据仓库;
步骤S3:本福特定律检验所述环境数据仓库的环境数据并输出检验结果;
步骤S4:对检验结果分析。

2.根据权利要求1所述的方法,其特征在于,
步骤S1中所述数据源包括:
《中国统计年鉴》、《中国农村统计年鉴》、《中国农业年鉴》、《中国矿业年鉴》、《中国能源统计年鉴》、《UN COMTRADE》、《中国口岸年鉴》、《中国环境统计年鉴》、《中国环境统计年报》、《中国城市建设统计年鉴》、《中国再生资源综合利用年鉴》、《监测总站空气质量自动抓取数据库》和《监测总站国控点水质自动抓取数据库》。

3.根据前述任一权利要求所述的方法,其特征在于,所述数据源的环境数据包括SQL Server、Excel、Oracle及Flat File等形式。

4.根据前述任一权利要求所述的方法,其特征在于,步骤S2具体如下:通过SSIS (Microsoft SQL Server Integration Services)模块进行环境数据的ETL(Extract-Transform-Load)。

5.根据权利要求4所述的方法,其特征在于,所述进行环境数据的ETL包括提取、转换和加载过程。

6.根据权利要求5所述的方法,其特征在于,所述提取是将多种不同格式的环境数据从所述数据源中进行提取,在环境数据仓库中形成一系列未经加工的环境原始数据中转表,即保留环境数据来源的数据源中数据的原貌,不做任何的数据转换或增加派生列,同时,剔除掉不需要的字段和记录,不需要的信息不占用本地的服务资源。

7.根据权利要求6所述的方法,其特征在于,所述转换是将环境数据在提取源数据流时将转换为Integration Services数据类型。

8.根据权利要求7所述的方法,其特征在于,所述加载是经过提取和转换的有效环境数据将以中转表的形式存储加载到指定的目标环境数据仓库中,另外各个步骤中的错误输出数据也将存储起来,用于错误分析,某些错误数据也可通过处理从噪音成为信号。

9.根据前述任一权利要求所述的方法,其特征在于,步骤S3中所述本福特定律检验包括使用卡方拟合优度检验法、距离检验方法和/或相关系数测量法。

10.根据前述任一权利要求所述的方法,其特征在于,步骤S4中对检验结果分析包括结合各类环境数据的实际物理意义进行进一步的分析论证,以对本福特定律检验结果进行修正。

2。

相关文档
最新文档