Benford定律审计分析方法及应用思考
本福特定律

1881年,天文学家西蒙·纽康伯发现对数表包含以1起首的数那首几页较其他页破烂。
可是,亦可以以任何书起首数页也会较破烂这个观点解释。
这个故事可能是虚构的。
1938年,物理学家法兰克·本福特重新发现这个现象,还通过了检查许多数据来证实这点。
2009年,西班牙数学家在素数中发现了一种新模式,并且惊讶于为何那时才为人发现。
虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述了素数的本福德法则。
这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。
数字统计的一种内在规律,指所有自然随机变量,只要样本空间足够大,每一样本首位数字为1至9各数字的概率在一定范围内具有稳定性。
见右图。
即以1开首的样本占样本空间的0.3,以2开首的样本占样本空间0.17-0.19,而以9或8开首的样本始终只占0.05左右。
世界上千千万万的数据的开头数字是1到9中的任何一个数字,而且每个数字打头的概率本应该差不多,但如果你统计的数据足够多,就会惊讶地发现,打头数字是1的数据最多。
1935年,美国的一位叫做本福特的物理学家在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这说明头几页在平时被更多的人翻阅。
本福特再进一步研究后发现,只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是1/9,而是30.1%。
而以2为首的数字出现的频率是17.6%,往后出现频率依次减少,9的出现频率最低,只有4.6%。
本福特开始对其它数字进行调查,发现各种完全不相同的数据,比如人口、物理和化学常数、棒球统计表以及斐波纳契数列数字中,均有这个定律的身影。
1961年,一位美国科学家提出,本福特定律其实是数字累加造成的现象,即使没有单位的数字。
比如,假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;而由2000点上升到 3000点只需要4年多时间;但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。
本福特定律:如何不懂报表也能发现企业财务造假?

本福特定律:如何不懂报表也能发现企业财务造假?本福特定律是近来备受资本市场青睐的一种分析财务报告的方法。
只是数数就可以发现企业财务造假的端倪。
这不是才蹦出来的定律,只是最近才应用于会计和金融领域:保险公司开始用这种方法检测虚假申报,美国国内税务局用来检测税务欺诈,而四大会计师事务所则用它检测会计造假。
心动了没?本文先对本福特定律进行简要介绍,然后以茅台、暴风以及造假的金亚科技的财务报表为例,说明该定律是如何发现报表造假问题的。
一、本福特定律简介1、什么是本福特定律?本福特定律因20世纪早期英国物理学家本福特而得名,其内容是:自然数据源(信用卡账单、采购记录、现金收据)生成的数字中,约有30%的数字的首位数是1,如1、1314;首位数为2的数字约有18%;顺序递减,首位数为9的数字少于5%。
2、本福特定律的应用这个分布规律适用的数据集几乎无穷无尽,包括河流的长度、城市和国家的人口、证券交易所的成交量,当然我们的会计数据(数据没有被人为操纵过)也同样适用。
如果一组会计数据不符合本福特定律的话,就存在被篡改过的嫌疑。
比如说,一家会计事务所对某公司的财务报表进行审查,发现会计数据中首位数是7、8、9的数字非常多,这就说明了管理者可能为了达到财务目标而修改了数据。
生活中会有很多的例子。
——图书馆里大部分书的头几页通常比较脏。
因为许多到图书馆看书的人大多只是看书的开头,不喜欢的话就不会再看下去了;把一本书完整看完的人比较少。
靡不有初,鲜克有终。
——数学书后的对数表、化学书后的一些化学常数、财务课本后的终值、现值系数表等等,我们查阅的数据大多在头几页里面。
——如果统计的数据足够多,我们会发现,开头是数字1的数据最多,大约占了所有数据的三分之一;开头是2的数据居于其次;剩下的数字的数量依次递减。
人口、死亡率、物理和化学常数、棒球统计表、半衰期放射性同位数、物理书中的答案、素数数字以及斐波纳契数列数字中均有这一定律的身影。
本福德定律

本福德定律本福德定律(The Benford's Law)是指自然界和人类活动中的一类数字的分布不是均匀的,而是以数字1开头的数字出现的概率最高,接着是数字2,以此类推,以数字9开头的数字出现的概率最低。
本福德定律提出了一种统计规律,可以用来分析数字数据集的真实性和是否经过篡改。
本福德定律最初由美国天文学家Simon Newcomb和法国数学家Frank Benford在19世纪末独立发现并提出。
他们研究了一些真实的数字数据集,如河流长度、宇宙中恒星的亮度、数学常数等,发现这些数据的首位数字遵循本福德定律的分布规律。
根据本福德定律的规律,数字1开头的数字出现的概率约为30.1%,接下来依次是数字2(17.6%)、数字3(12.5%)、数字4(9.7%)、数字5(7.9%)、数字6(6.7%)、数字7(5.8%)、数字8(5.1%)、数字9(4.6%)。
这种不均匀的分布规律可以用以下公式表示:P(d) = log10(1 + 1/d)其中,P(d)表示首位数字是d的概率,d为1到9之间的整数。
本福德定律的原理可以解释为,由于真实的数字数据具有多样性和复杂性,数字的分布往往受到一些固定规律和局限性的影响,因此数字1作为最简单和最常用的数字,在真实的数据中出现的频率也最高。
本福德定律的应用领域非常广泛。
在金融领域,可以用本福德定律检测财务报表中有无篡改。
由于假账往往通过编造数字的方式进行,而编造数字不容易遵循本福德定律的分布规律,因此可以通过统计首位数字的分布来揭示潜在的财务不正行为。
在科学研究中,可以用本福德定律检验数据的真实性和准确性。
如果数据集的首位数字不符合本福德定律的分布规律,可能意味着数据集存在问题,需要进一步检查和验证。
除了数据分析,本福德定律还在其他领域有应用。
例如,在法律调查中,可以使用本福德定律检验证人陈述或文件上数字的真实性。
在选举投票中,可以通过分析候选人得票数的首位数字是否符合本福德定律,判断选举结果是否异常。
年报披露时点与审计意见——基于Benford定律的研究

到 了 13 ,美 国通 用 电 器 ( ) 物 理 学 家 弗瑞 9 8年 GE 的 克・ 奔福德 (rn e fr) FakB nod 注意到了同样的现象 。 他收集并
验证 了总数为 22 9个数字 ,其中包括篮球 比赛 的数字 、 02 河
严格证明 。从此 , e fr B nod定律在 运用上就有 了坚 实的理 论 基础 。同时 , gii 9 6 首先 把奔福德定 律系统 、广泛 Nir (19 ) n 地应用到舞弊审计领域,为我国审计领域提供 了新方法 。 张苏彤提出 B nod定律在审计工作中的运用时必须掌 e fr 握 有足够量的数据 ;同时 ,不符合 B nod规律 的,仅 说明 efr 有舞弊 的征兆 ,审计人员必 须以此为线 索查找欺 诈存在的
基 于 B nod定律 的研 究 efr
黄 文 锋 )
内容 提要 :上 市公 司年度报 告是 投 资者对 上市公 司重要 的投 资决策依 据 ,而年报 披 露的 时 间
又 反 映 出 了会 计 信 息及 时 性 的 要 求 。 文 以 我 国 股 票 市 场 2 0 。 0 9 年 报 披 露 时 间 为研 究 对 象 , 本 O 82 0 年
l
旧。奇怪的现 象激 发了他的研究兴趣,当时他所能得到的唯
一
d :为数 字开 头第一 位字母 ;P为几率 。
的解释 是人们对小 数字的计 算量要大 于对大数字 的计 算
16 年 ,位 于新泽西的 R te 大学的数 学家 Pnh m 91 ugr s ik a
研究并证明了奔福德定律不受度量单位的影响 。这就使我们
量 。经过大量的统计分析 ,他 发现 了许多类型的数字都很好
地符合这样的规律 :以 1 为第一位数的随机数要 比以 2为第
使用本福德定律甄别数据造假(Benford’sLaw)

使用本福德定律甄别数据造假(Benford’sLaw)数据造假的甄别在数据分析领域是一个热门的话题,也是对数据分析师的一项挑战。
分析数据造假的方法有很多种。
我们在前面的系列文章中曾经介绍过两种检验作弊流量的方法。
一种是根据历史经验及分布情况的多维度交叉检验,另一种是使用随机森林模型根据已知作弊流量的特征对新流量进行分类及预测。
本篇文章介绍一种神奇的数据检验方法,本福德定律(Benford’s Law)。
本福德定律是一种用途广泛的数据检验方法,在安然公司破产和伊朗大选选票甄别中都曾被使用到。
本福德定律通过自然生成的数字中1到9的使用频率对数据进行检验。
如果你的数据具备一定规模,没有人工设定的最大值和最小值,并且数据本身受人为因素影响较小。
那么就可以使用本福德定律对数据进行检验,甄别数据是否经过人为修饰。
本福德定律及公式本福德定律中自然生成的数字首位为1的概率为30.10%,2的概率为17.61%,依次递减,首位为9的概率仅为4.58%。
依据这一期望概率值我们可以对数据进行检验。
以下是本福德定律的计算公式。
通过这一公式可以计算出1-9中每个数字出现数据首位的概率。
举例来说,对于数字9下面的公式可以计算出一组自然生成的数字中9出现在数字首位的概率是多少。
我们使用本福德定律公式逐一计算了数字1-9出现在首位的概率。
以下是每个数字出现的概率值。
后面会根据这一期望的概率值对数据是否进行过人工修改进行甄别。
通过图表可以更较直观的看到本福德定律中每个数字出现的频率以及不同数字间的差异。
与我们想象的不同,数字出现的频率并不是均匀分布的。
1出现的次数为30.10%而9出现的次数仅为4.58%。
下面我们将使用本福德定律对工作中常见的数据进行检验,甄别数据是否经过人为修饰。
广告展现量数据检验首先检验一组广告曝光数据。
下面是某广告一段时间的曝光量数据。
我们将每条展现量数据的第一个数字提取出来,通过本福德定律对这组数据进行检验。
浅析基于本福特定律的大数据审计路径

浅析基于本福特定律的大数据审计路径作者:何超来源:《今日财富》2021年第07期随着信息技术发展,大数据审计的方法逐渐得到广泛应用。
论文以本福特定律为数据分析模型,尝试构建一个大数据审计的路径。
通过分析费用发生额的首位数分布,与本福特定律的分布概率进行比对,并对不符合本福特定律的发生额进行重点审计,从而提高抽样审计的效率和准确度。
根据《审计署办公厅关于印发数据审计相关标准用语(试行)的通知》:大数据审计是指审计机关遵循大数据理念,运用大数据技术方法和工具,利用数量巨大、来源分散、格式多样的经济社会运行数据,开展跨层级、跨地域、跨系统、跨部门和跨业务的深入挖掘与分析,提升审计发现问题、评价判断、宏观分析的能力。
[ 山西省审计厅,《山西省审计厅关于转发《审计署办公厅关于印发数据审计相关标准用语(试行)的通知》的通知》http:///shenji/contents/1616/38074.html]在审计过程中,利用大数据审计方法能迅速帮助审计人员快速读懂纷繁复杂的数据,找到审计需要关注的重点区域,进一步拓展内部审计的广度和深度,提高审计效率和质量。
一、本福特定律概述本福特定律,也稱为本福特法则。
1938年,美国电气工程师本福特发现:在b进位制中,以数n起头的数出现的概率为。
具体到我们常用的十进制而言,在一群不规则的数列中,首位数是1的概率为lg(2/1),即约为30.1%;首位数是2的概率为lg(3/2),即约为17.6%......以此类推,首位数为9的概率为lg(10/9),即约为4.6%。
具体概率分布如图1。
本福特定律被认为是可以通过自然规律验证不规则数据真伪的工具,被广泛应用于数学、金融等领域。
如有人为编造数据,就会出现不符合本福特定律分布规则的现象。
2020年5月,央视新闻网报道:牛津大学商学院学者冈村健与美国达拉斯联邦储备银行研究部高级经济师克里斯托弗·科赫联合发表了一篇名为《本福特定律和新冠疫情数据报告》的论文。
基于奔福德定律的财务报表审计质量研究 -电子商务-毕业论文

目录一、绪论 (2)二、奔福德定律在审计中的应用................... 错误!未定义书签。
(一)奔福德定律的原理 (2)(二)奔福德定律在审计中的应用 (3)三、基于奔福德定律的上市公司财务报表审计质量评价系统构建 (4)(一)评价指标选取 (4)(二)数据来源与处理方法 (5)(三)获得数据计算过程 (6)四、基于奔福德定律的财务报表审计质量分析 (6)(一)奔福德定律对于财务数据适用性的检验 (6)(二)上市公司财务报表审计质量分析 (8)(三)评价系统局限性 (11)五、结论 (12)【参考文献】 (13)基于奔福德定律的财务报表审计质量研究摘要:近年来,上市公司财务舞弊行为层出不穷,如何提高财务报表审计质量成为当下热点问题。
现有审计质量研究主要基于公司治理与审计事务所本身,很少基于奔福德定律进行相关研究。
本文以我国所有上市公司作为样本,并根据它们进十年年年度财务报表数据为数据来源,利用选取评价指标并进行基于奔福德定律的相关系数检验的方法进行财务报表审计质量的研究。
经研究发现:就上市公司而言,财务报表数据与奔福德定律理论数据相关系数较高,奔福德定律对判断企业财务舞弊有效;财务舞弊会导致财务数据首位数的分布不符合奔福德定律,尤其体现在利润表;基于奔福德定律的检测方法能够提高财务报表审计质量,但运用时也应关注其局限性以及选取数据的有效性。
关键词:奔福德定律财务报表审计质量评价系统Research on the Audit Quality of Financial Statements Based on Benford’s LawAbstract:In recent years, the financial fraud of listed companies is endless. How to improve the audit quality of financial statements has become a hot issue. The existing audit quality research is mainly based on the corporate governance and CPAs firm, but rarely based on Benford's law. In this paper, we take all listed companies as samples. According to the relevant information in their annual report in the past 10 years, we use the selected evaluation index to study the audit quality of the financial statements of the correlation coefficient method based on the test of Benford's law. This paper found that: to listed companies, the correlation coefficient between the financial statement data and the data of the Benford's law is close to 1, and Benford's law is effective to judge the enterprise financial fraud; financial fraud will lead to that the distribution of financial data is not in conformity with the first digit Benford's law, especially in the profit statement; the detection method based on Benford's law can improve the audit report quality, but we should also pay attention to its limitations and the validity of the selected data when using it.Keywords:Benford’s Law; Financial statement; Audit quality; Evaluation system一、绪论随着我国经济的进一步发展,市场竞争也日益激烈。
基于Benford法则的审计数据分析方法

[ 要】 摘 审计人 员面对大量的电子数据,必须采用一定的审计数据分析方法进行分析 , 中 从 发现有价值的审计线
索。本 文分析 了常用的审计数据 分析 方法, 重点介绍 了基于 B nod法则的数 值分析方法 , e fr 包括 B nod法则的原 efr 理、 用于审计的流程和算法设计 。
审计 数据分 析是 审计信息 系统 中较 为核 心的 内容 。 在 据 , 以发现审计 疑点 。 例 如 , 检查 销 售发 票 的遗 漏和 重 复情况 时 , 在 可通 过 手 工审计 条件 下 .常用 的审计分 析方 法是 审 阅 、监 盘 、 函 Q 语 可 证、 观察 、 问 、 样 、 等 。在计 算机 环境 下 , 分 析 S L 句检查 发票 是否 连续编 号 . 以将 发票 主表 按单 据 询 抽 复算 审计 方 法包括 数据查 询 、 统计 分析 、 分析 等 , 方 法还 可 类 型分 类 . 算 出各 类发 票 的最 小 票 号 、 大票 号 和实 际 数值 这些 计 最 张数 , 比较最大与最小的差值和实际张数是否一致 , 若一 以灵 活组 合 。 决复 杂 的数据分 析 问题 , 解 能充 分体 现 “ 审计
师思考、 计算机分析” 的审计方法 。
一
、
常用 审计 分析 方法
致说 明无遗 漏 , 则须检 查不一 致 的原 因。 否 用 S L 句实现 如下 : Q 语
当前 。 审计数 据 分析 根 据不 同的思路 , 主要 有 两种 方 法 : 种是账 表还原法 , 一 另一 种是核 查基础 数据方 法 。
账 的功 能 。 在计 算机辅 助审计 的 软件 中 , 都包 括审计 数据 采 门提供 了“ 表检查 ” 一般 2核查基础 数据法 . 集、 审计数据分析等功能。审计数据采集是指审计人员为 了完成 审计任 务 . 单位 的会 计系统 或业 务处 理系 统 中获 从 这种方法是指审计人员使用一些数理统计分析方法 , 取 与经济 活动有关 的 电子数据过 程 。 数据 采集是 整个 审计 直 接对 财务数据 或业务 数据进行 分析 。 审计人 员通过数 据 可 把握 突 过 程 中较 为关键 的 活动之 一 。 因为采 集 的数据是 审计 分 析 分 析 , 以更 好地 实现 收集证 据 、 总体 、 出重 点 。常
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Benford定律审计分析方法及应用思考
作者:王光伟邬华琼苏莉民
来源:《中国管理信息化》2016年第17期
[摘要] 计算机辅助审计的数据分析技术主要是依据数据分析模型进行,本文重点对数值分析方法中的Benford定律,以SQL数据库技术和Excel函数运用介绍了计算机辅助审计的数据分析技术模型,并以某医院2015年业务收入数据首位数字分布情况及与Benford定律分布进行了对比分析,最后对Benford定律审计分析方法的运用进行分析讨论。
[关键词] 计算机辅助审计;数据分析;审计技术模型;方法运用
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 17. 019
[中图分类号] F239 [文献标识码] A [文章编号] 1673 - 0194(2016)17- 0046- 03
0 引言
计算机辅助审计的数据分析技术(CAATs)主要是依据数据分析模型进行,面向数据的计算机辅助审计技术有一种叫数值分析法,是根据被审计数据中某字段数据值的分布情况、出现频率等对该字段进行分析,从而发现审计线索的一种数据处理方法。
常用的数值分析方法主要有重号分析、断号分析、Benford法则分析。
1 Benford定律原理
Benford定律是指一个没有人为规则限制生成的一组数据数列,数列的首位数字n之和遵循lg(1+1/n)的规律,数字1出现的频率为lg(1+1/1)的绝对数30.103%,数字2出现的频率为lg(1+1/2)的绝对数17.609%,等等。
因此,根据班福(Benford)定律“人们处理较小数字开头的数值的频率较大”建立审计分析模型。
如门诊收入、住院收入、记账凭证金额等利用SQL或Excel查询数字出现的频率,其查询结果会发现,如果有人为的故意则破坏了这个定律,审计人员必须以此为线索作深入调查,以获取证据。
2 技术方法
根据审计人员掌握计算机辅助审计技能的不同情况,笔者采用SQL查询语句或Excel数据分析工具,摸索了计算机辅助审计常用的数值分析方法技术模型,增强审计准确性,提高了审计工作效率。
2.1 SQL查询首位数字出现的频率
主要以substing函数生成收入数据的首位数字,按首位数字分组后,用聚合函数count求各数字之和,即可收入数据首位数字1-9每个数字出现的频率。
2.2 Excel运用COUNTA()函数功能
在Excel环境下,left()取出收入数据首位数字,用条件求和函数COUNTIF()求各数字之和,最后求出首位数字1-9每个数字出现的频率。
3 实际验证
按照班福定律推测,医院收入数据符合班福定律的条件要求,因此其首位数字分布也应该符合这个规律。
表1列出了某医院2015年门诊收费明细、住院收费明细和住院预交款明细数据首位数字的分布情况,三个数据系列总体上与班福定律相似,低数字出现频率高于高数字。
门诊收费明细、住院收费明细和住院预交款明细数据首位数字分布与班福定律分布的相关系数分别为0.698、0.889、0.982,虽然住院预交款明细数据的相关系数高达0.982,但其首位数字分布与班福定律分布存在明显差距。
明细收费数据的首位数字分布与班福定律分布差异较大,因为明细费用数据受到较多的人为规则的限制,特别是住院预交款数据,那么,以病人为对象对明细收费数据汇总后的首位数字分布是否更好?
表2为按病人汇总的收费数据首位数字分布情况。
第一行为未剔除挂号费的门诊病人汇总收费数据,第二行为剔除只有挂号费没有检查费药品费后的门诊病人汇总收费数据,第三行为出院病人住院费用数据,三个数据系列首位数字分布与班福定律分布非常近似,特别是剔除只有挂号费后的门诊病人费用汇总数据首位数字分布的相关系数达到0.999 1,几乎与班福定律分布折线图重合。
出院病人费用首位数字分布与班福定律分布略有差异,折线图下降趋势比班福定律分布折线略为平缓。
4 讨论
班福定律被誉为第一数字定律,要求数据系列必须是描述同一主体的同一现象,并且没有人为规则的限制,不能设定最大值和最小值。
医院明细收费数据库中存在大量金额为负数的记录,即退费记录,使用明细收费数据进行首位数字分布分析时,应将负数记录与相应的正数记录抵销,才能得出正确的首位数字分布情况。
对该医院2015年住院收费明细进行审计分析时,发现11月18日有一笔明细数据金额为9 152 580元,数量为61 017.2次,项目名称为骨折手法整复术,同时存在一笔负数冲抵记录。
经详细调查发现,属于记费人员录入病人费用数量时,误录为收费编码“6102702”,虽然属于
偶然操作误差,并及时给予了更正,但说明信息系统设计存在缺陷,没有进行总金额录入控制,已给HIS软件公司提出整改意见。
对班福定律审计分析法,以上述医院实际业务数据进行的测试说明,医院收入数据的首位数字分布总体上符合较小数字的大于较大数字的可能性大的规律,出现的差异可能是具体的业务规则影响了首位数字分布特点。
对医院收入数据的首位数字分布与班福定律分布存在的差异要作客观具体的评价,有差异并不代表必然存在差错或舞弊,要全面分析准确理解。
主要参考文献
[1]陈伟,张金诚,QIU Ro-Bin.计算机辅助审计技术(CAATs)研究综述[J]. 计算机科学,2007(10):290-294.
[2]应里孟. 数据式审计常用的数据分析方法[J]. 中国农业会计,2011(9):14-15.
[3]狄为,施鹏仙. 基于Benford定律的会计舞弊发现研究[J]. 会计之友, 2010(9):73-75.
[4]王光伟,邬华琼,苏利民,等. 计算机辅助审计常用的数据分析模型[J]. 中国管理信息化,2016(5):42-43.。