基于数据挖掘的审计数据分析

合集下载

数据式审计常用的数据分析方法

数据式审计常用的数据分析方法

数据式审计常用的数据分析方法数据分析是在数据式审计中广泛使用的一种技术,它通过对大量的数据进行收集、整理和分析,从中提取出有价值的信息和洞察力,帮助审计师更好地了解被审计主体的经营情况和财务状况。

本文将介绍几种常用的数据分析方法,以帮助审计师更加高效地进行数据式审计。

1. 趋势分析趋势分析是一种基于数据的分析方法,它通过比较不同时间点的数据,揭示出数据的发展趋势和周期性变化。

在数据式审计中,趋势分析可以帮助审计师了解被审计主体在一段时间内的变化情况,发现数据的异常波动和潜在的风险因素。

审计师可以使用Excel等数据分析工具来进行趋势分析,通过绘制折线图或柱状图来展示数据的变化趋势。

2. 比较分析比较分析是一种通过比较不同数据之间的差异,揭示出数据的相对优劣和潜在问题的分析方法。

在数据式审计中,比较分析可以用来比较不同被审计主体之间的数据,或者比较被审计主体的数据与行业标准或预期值之间的差异。

审计师可以使用Excel等数据分析工具进行比较分析,通过制作条形图或扇形图来可视化比较结果,帮助发现数据的特征和异常情况。

3. 环比分析环比分析是指将当前时间段的数据与上一个时间段的数据进行比较,揭示出数据的变化趋势和增长率的分析方法。

在数据式审计中,环比分析常用于分析被审计主体在不同周期内的数据变化情况,比如比较当前月份的销售额与上个月份的销售额的变化情况。

审计师可以使用Excel等数据分析工具进行环比分析,通过制作折线图或柱状图来展示数据的变化趋势,更好地了解被审计主体的经营动态。

4. 异常检测异常检测是一种通过对数据进行统计分析,发现不符合正常模式或预期范围的数据点的分析方法。

在数据式审计中,异常检测可以帮助审计师发现被审计主体的数据中可能存在的异常情况或潜在的风险因素。

审计师可以使用统计学方法或机器学习算法进行异常检测,通过数据可视化或模型预测来辅助判断是否存在异常数据。

5. 关联分析关联分析是一种通过寻找数据之间的关联关系,揭示出数据之间的相互依赖和相关性的分析方法。

基于数据挖掘算法的审计数据分析及案例应用

基于数据挖掘算法的审计数据分析及案例应用

CICPAwww cicpa or*基于数据挖掘算法的审计数据分析及案例应用■王良鲍喜王云周建成张海超“数据挖掘”通常也称为“知识发现”,顾名思义就是从海量数据中找出有用的知识。

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

本文主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据,通过机器学习和数据库的交叉运用,从而实现基于数据分析挖掘的审计方法。

数据挖掘是针对日益庞大的电子数据应运而生的一种新型信息处理技术。

它一般排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式或活动。

这些模式或活动是指隐藏在大型数据库、数据仓库或其他大量信息存储的特定数据。

利用数据仓库中包含的信息,数据挖掘可以发现注册会计师(CPA)原先根本没有关注过的问题。

数据挖掘方法干差万别,不同的方法应用于不同的领域和对象。

选取合适可行的挖掘算法对挖掘的效果起着重要的作用,它将直接影响我们的决策。

在实际运用过程中,很多挖掘方法不是单独使用的,它往往和其他方法结合起来,才能产生预期的效果。

本文对数据挖掘分析方法在审计数据分析中如何应用进行深入研究,同时结合数据挖掘应用案例探索其具体实现路径。

一、基于验挖掘算法的审计应用对于审计人员来说,如何利用人工智能技术、图算法、机器学习、迁移学习、数据挖掘算法等新技术,实现审计人员从被审计单位海量的数据中心找岀高质量的审计数据,挖掘潜在的审计疑点,作为审计证据是一个难题。

数据挖据技术的出现,为审计师进行大数据分析和挖掘有价值的数据提供了可能。

基于挖掘技术的审计就是利用各种数据分析方法对审计数据的充分利用、充分挖掘,以获取更多相关的审计线索。

其主要达到如下目标:(1)直接提供审计证据,如明显违反会计准则和相关会计法规的行为;(2)发现异常信息,起到“红旗(red flag)"的指向标作用,能引起审计师的注意;(3)借助数据挖掘技术,可部分代替审计职业判断,减轻审计师的工作强度。

审计程序中的数据分析与数据挖掘

审计程序中的数据分析与数据挖掘

审计程序中的数据分析与数据挖掘在审计程序中,数据分析和数据挖掘起着重要的作用。

随着科技的快速发展,大数据时代已经到来,许多企业都积累了海量的数据。

对这些数据进行有效的利用,既能够提高审计的效率,又能够提升审计的质量。

一、数据分析在审计程序中的应用数据分析是通过对已有的数据进行统计和分析,从中获取有价值的信息。

在审计程序中,数据分析可以帮助审计人员发现异常情况和风险,提高审计的准确性和领域范围。

1. 审计人员可以利用数据分析技术对企业的财务数据进行深入分析,发现财务异常情况。

比如,通过对销售数据进行分析,可以发现是否存在销售数据被篡改的情况。

通过对采购数据进行分析,可以判断是否存在虚假采购的行为。

2. 数据分析可以帮助审计人员评估企业的内部控制制度是否有效。

审计人员可以通过对大量数据的分析,发现内部控制制度的不足和问题。

比如,通过对账务处理过程的数据进行分析,可以发现是否存在数据录入错误的情况。

3. 数据分析还可以帮助审计人员发现业务流程中的问题。

通过对企业的业务数据进行分析,可以发现流程中的瓶颈和问题,从而提出改进和优化的建议。

比如,通过对供应链数据进行分析,可以发现供应链中的延迟和浪费问题。

二、数据挖掘在审计程序中的应用数据挖掘是从大量的数据中挖掘出隐藏在其中的有意义的信息和关系。

在审计程序中,数据挖掘可以帮助审计人员从大量的数据中发现新的规律和关联性。

1. 数据挖掘可以帮助审计人员发现潜在的欺诈行为。

通过对大量的数据进行挖掘,可以发现欺诈行为的模式和规律。

比如,通过对销售数据进行挖掘,可以发现销售人员与特定客户之间的异常关系。

2. 数据挖掘可以帮助审计人员预测企业的未来发展趋势。

通过对历史数据的挖掘和分析,可以得出未来可能发生的趋势和变化。

比如,通过对财务数据的挖掘,可以预测企业的未来盈利能力和发展方向。

3. 数据挖掘可以帮助审计人员进行风险评估和管理。

通过对大量数据的挖掘,可以发现与风险相关的因素和关系。

基于大数据背景的财政审计数据分析

基于大数据背景的财政审计数据分析

基于大数据背景的财政审计数据分析随着大数据技术的迅猛发展,其在各个领域的应用也越来越广泛,财政审计作为国家重要的监督机制之一,也在逐渐引入大数据技术进行数据分析和挖掘,以更好地发现潜在的风险和问题,提高审计效率和效果。

本文将从大数据背景下的财政审计数据分析展开讨论,探究大数据技术在财政审计中的应用现状、优势和挑战。

大数据背景下的财政审计数据分析,是通过运用大数据技术和工具,对财政审计涉及的海量数据进行高效、深入的分析,从中获取有价值的信息和见解,发现潜在的审计风险和问题,为决策提供数据支持。

大数据技术提供了强大的数据存储、管理和分析能力,使得财政审计能够更好地应对日益增长的数据量和复杂性,提高审计的精准度和全面性。

二、大数据技术在财政审计中的应用现状1. 数据采集与清洗在大数据背景下的财政审计中,首先需要进行数据采集和清洗工作。

财政审计所涉及的数据来源广泛,包括财政收支数据、行政管理数据、税收数据等,需要对这些数据进行准确、完整的采集,并进行清洗,去除重复数据和错误数据,确保数据的准确性和可靠性。

2. 数据存储与管理大数据技术提供了高效的数据存储和管理能力,能够对财政审计所涉及的海量数据进行有效地存储和管理。

通过分布式存储、云计算等技术,可以实现数据的高可靠性和高可扩展性,确保数据的安全性和完整性。

3. 数据分析与挖掘在大数据背景下,财政审计可以利用各种数据分析和挖掘工具,对海量的审计数据进行高效的分析和挖掘。

通过数据挖掘算法,可以发现数据之间的隐藏关联和规律,发现潜在的风险和问题;通过数据可视化工具,可以直观地展现数据的分布和趋势,帮助审计人员更好地理解数据。

4. 数据治理与安全大数据技术为财政审计提供了完善的数据治理和安全机制,包括数据权限管理、数据备份与恢复、数据加密等,确保审计数据的安全性和隐私性,防止数据泄露和滥用。

1. 数据全面性大数据技术能够对海量的审计数据进行全面的分析,涵盖了财政收支、税收、行政管理等各个方面的数据,提高了数据分析的全面性和综合性,能够更好地发现潜在的审计风险和问题。

基于大数据背景的财政审计数据分析

基于大数据背景的财政审计数据分析

基于大数据背景的财政审计数据分析财政审计数据分析是将大量的财政审计数据进行整理、分析、筛选和挖掘,从而发现潜在的问题、风险和机会,帮助政府机构更好地了解财政状况和管理效率,实现科学、有效的管理决策。

随着大数据技术的不断发展和应用,财政审计数据分析已经成为财政管理和监督的重要手段。

下面将介绍几个基于大数据背景的财政审计数据分析方法。

一、数据挖掘数据挖掘是一种通过自动化技术来发掘大量数据中的隐藏信息的过程。

在财政审计领域,数据挖掘可以用来分析财政运营数据,发现不符合规定的行为、不正当的报账和滥用公共资金等问题。

通过数据挖掘,可以实现对财政管理的风险评估和预测,从而提高财政资源的利用效率,降低资金浪费和财政风险。

二、数据可视化数据可视化是将复杂的数据可视化为图形、表格等形式,以便于用户更直观地理解数据。

在财政审计领域,数据可视化可以用来展示财务报表、预算执行情况、债务水平等信息,便于政府机构对财政状况进行分析和监督。

另外,数据可视化还可以用来探索一些复杂的数据模型,发现其中的规律和趋势,为财政管理提供更深入的洞见。

三、机器学习机器学习是一种通过算法来让机器自主学习的方法。

在财政审计领域,机器学习可以用来对大量的审计数据进行分类、聚类和预测等,从而帮助政府机构更有效地发现财政管理中的问题和异常。

另外,机器学习还可以用来实现财务预测、风险评估和预防,为财政管理提供更全面、准确的数据支持。

四、智能问答智能问答是一种基于自然语言处理技术来进行信息检索和答案解析的方法。

在财政审计领域,智能问答可以用来为政府机构提供有关财政政策、监管规定、审计程序和财务报表等问题的详细解答。

通过智能问答,政府机构可以更方便、快捷地获取财政信息,提高审计和管理效率。

总之,基于大数据背景的财政审计数据分析技术,可以帮助政府机构更深入地了解财政管理情况、提高决策效率、预防财务风险、降低财政成本,有利于实现财政资源的可持续利用和全面发展。

数据式审计常用的数据分析方法

数据式审计常用的数据分析方法

审计数据的分析可分为三个层次:即以审计专家经验和常规审计分析技术为基础的审计,以审计分析模型和多维数据分析技术为基础的审计,以数据挖掘技术为基础的审计。

第一个层次表现为用户对数据库中的记录进行访问和查询,可通过SQL 等语言来交互式地描述查询要求,或者根据查询需求采用开辟工具定制查询软件,实现的是查询型分析;第二个层次是用户先提出自己的假设,然后利用各种工具通过反复的、递归的检索查询,以验证或者否定自己的假设,从用户的观点来看,他们是在从数据中发现事实,于是实现的是验证型分析;第三个层次是指用户从大量数据中发现数据模式,预测趋势和行为的数据分析模式,它能挖掘数据间潜在的模式,发现用户可能忽略的信息,并为审计人员做出前瞻性的、基于知识的决策提供匡助,于是实现的是验证型分析。

可见,前两个层次是基于现有的审计知识,这构成为了智能审计的基础;第三个层次是通过主动挖掘潜在的审计知识,这是智能审计的核心。

(一) 合规分析方法。

合规分析法就是用审计软件的会计核算部份,根据会计准则和被审计单位业务处理逻辑的数据处理要求,检查是否有账证不符、账账不符、账表不符、表表不符的情况;账户对应关系是否正常;是否存在非正常挂账、非正常调账现象;账户余额方向是否存在异常;是否有违背被审计单位业务处理逻辑的情况等。

(二) 趋势分析方法。

趋势分析法是指审计人员将被审计单位若干期相关数据进行比较和分析,从中找出规律或者发现异常变动的方法。

它是审计人员利用少量时间点上或者期间的经济数据来进行比较分析的特殊时间序列法,此法有助于审计人员从宏观上把握实务的发展规律。

审计人员可根据审计需要来确定时间序列的粒度,如年、季、月、旬、日等。

(三)结构分析方法。

结构分析法也叫比重分析法,是通过计算各个组成部份占总体的比重来揭示总体的结构关系和各个构成项目的相对重要程度,从而确定重点构成项目,提示进一步分析的方向。

结构分析法和趋势分析法还可结合应用,进行数据结构比例在若干期间的变动趋势分析。

审计工作中的数据挖掘与分析

审计工作中的数据挖掘与分析

审计工作中的数据挖掘与分析随着信息技术的快速发展,数据在各个行业中产生的规模不断扩大,其中包含了大量有价值信息。

在审计工作中,如何从庞大的数据中提取出有用的信息,并进行有效的分析和挖掘,成为了审计人员面临的重要问题。

本文将探讨审计工作中的数据挖掘与分析的应用和意义,以及可能遇到的挑战和解决方案。

一、数据挖掘在审计中的应用数据挖掘作为一种从大规模数据中提取知识和信息的技术,可以帮助审计人员发现潜在的问题和异常情况,提高审计的效率和准确性。

具体而言,数据挖掘在审计工作中有以下几个主要应用方面:1. 发现违规行为和欺诈案例通过数据挖掘技术,审计人员可以对大量的数据进行深入分析,从中发现潜在的违规行为和欺诈案例。

例如,在财务审计中,可以通过对财务数据的挖掘,识别出虚报收入、操纵成本等违规行为;在税务审计中,可以通过分析税收数据,发现偷税漏税等欺诈案例。

2. 提高风险评估的准确性通过对数据进行挖掘和分析,审计人员可以更准确地评估被审计单位的风险水平。

例如,在供应链审计中,可以通过对供应商数据的挖掘,评估供应商的信誉度和供应链的稳定性,从而减少供应链风险;在内部控制审计中,可以通过对操作数据的挖掘,评估内部控制的有效性,提高审计程序设计的针对性。

3. 优化审计程序和资源分配通过数据挖掘和分析,审计人员可以发现审计程序的不足和冗余,从而优化审计程序的设计和资源的分配。

例如,在流程审计中,可以通过对流程数据的挖掘,分析流程环节的效率和风险,优化审计程序的设计;在资源分配方面,可以通过对数据的挖掘,发现数据异常和重要性,合理分配审计资源。

二、数据挖掘与分析的挑战与解决方案尽管数据挖掘与分析在审计工作中具有广泛的应用前景,但在实际操作中也面临一些挑战。

以下是一些可能的挑战和解决方案:1. 数据质量问题数据质量是数据挖掘和分析的基础,而在审计工作中,数据的质量常常不尽如人意。

例如,数据可能存在重复、缺失、错误等问题,这会对数据挖掘和分析的结果产生不利影响。

审计师如何进行数据分析和数据挖掘

审计师如何进行数据分析和数据挖掘

审计师如何进行数据分析和数据挖掘在当今数字化时代,数据已成为企业决策的核心。

作为一名审计师,掌握数据分析和数据挖掘的技能对于提升审计质量和效率至关重要。

本文将探讨审计师如何进行数据分析和数据挖掘,以帮助他们更好地应对现代审计的挑战。

第一部分:数据分析的基础1. 数据的收集与整理数据分析的第一步是收集和整理数据。

审计师需要从不同的来源收集数据,如财务系统、企业的内部数据库以及外部数据提供商。

在收集数据后,审计师还需要仔细整理数据,确保其准确性和完整性。

2. 数据的清洗与转换数据往往存在重复、缺失或错误的情况,因此审计师需要进行数据清洗和转换。

数据清洗包括去除重复值、填充缺失值以及修正错误值。

而数据转换则涉及将数据从一种形式转换为另一种形式,以便进行后续的分析。

3. 数据的探索与可视化在进行数据分析之前,审计师可以通过数据探索和可视化来更好地了解数据的特征和趋势。

数据探索可以通过使用统计分析方法和数据可视化工具来实现,如描述性统计、直方图和散点图等。

通过数据探索,审计师可以发现潜在的异常和模式,并为后续的数据分析做好准备。

第二部分:数据分析的方法和技巧1. 统计分析统计分析是数据分析的基础,审计师可以利用各种统计方法来对数据进行分析。

常用的统计分析方法包括描述性统计、假设检验、方差分析和回归分析等。

通过统计分析,审计师可以对数据进行量化和比较,从而得出客观和可靠的结论。

2. 数据挖掘技术数据挖掘是一种自动发现、提取隐藏在大规模数据中的模式和关系的技术。

审计师可以利用数据挖掘技术来发现潜在的异常和欺诈行为,并对数据进行更深入的理解。

常用的数据挖掘技术包括聚类分析、关联规则挖掘和决策树等。

3. 机器学习算法机器学习是一种基于数据和统计学的算法,可以让计算机自动学习和改进性能。

审计师可以利用机器学习算法来构建风险预测模型和腐败检测模型,从而更好地发现潜在的审计风险和问题。

常用的机器学习算法包括逻辑回归、支持向量机和决策树等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于数据挖掘的审计数据分析[摘要]本文针对计算机审计的现状,提出了基于数据挖掘的审计数据分析流程,以及应用DBSCAN聚类算法查找审计证据的方法。

[关键词]计算机审计;数据挖掘;聚类算法;噪声数据随着经济和信息技术的不断发展,许多企业开始引入了ERP等系统,这些系统使得企业的众多活动数据可以实时记录,形成了大量有关企业经营管理的数据仓库。

从这些海量数据中获取有用的审计数据是目前计算机审计的一个应用。

对于审计人员来说,如何从被审计单位的海量数据中找出全面、高质量的审计数据从而找出审计证据是一个难题。

本文利用数据挖掘技术对此问题进行了探讨并提出了解决的方法。

数据挖掘(DataMining)指的是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取出隐藏的、不为人知的却潜在有用的信息和知识的过程[1]。

事实上,实际应用数据的质量和存储模式对于实施计算机审计并成功获取审计证据非常重要。

由于被审单位信息系统软硬件平台的异构性和可能存在的人为故意隐瞒、造假等,为保证计算机审计工作顺利进行和审计结论的正确,对审计数据进行采集时必须对数据进行检查、控制和分析。

1审计数据采集审计数据采集指在开展计算机审计时从被审计单位的财务及业务信息系统及其他数据源获得审计所需的电子数据并进行适当的格式转换[3]。

一般来说,计算机审计中数据采集的方法主要包括以下几种:(1)利用被审单位信息系统的数据导出功能。

大多数的信息管理系统都提供了数据导出的功能,审计人员直接可以利用该功能导出企业财务数据完成数据的采集。

(2)利用通用的数据处理软件完成数据采集。

如Access、SQLServer 等都具有较强大的数据导入导出功能和数据转换功能。

审计人员可以利用这些软件完成数据的采集。

如被审企业原始数据为文本格式可以转换为数据库表格格式。

(3)利用审计软件完成数据采集。

如国家从2002年开始建设的“金审工程”就以现场审计实施系统(AO)及审计办公系统(OA)作为计算机辅助审计的工具。

别外应用国内的企业财务审计软件、审计数据采集分析软件等都可以完成审计数据的采集。

(4)利用专用程序接口完成数据采集。

当被审计单位提供的审计数据的数据结构与已有的审计数据处理软件系统的数据结构差异较大时,可以在审计人员的协助下由专门的程序员开发接口程序,完成数据的采集,但成本相对较高。

2数据清洗利用数据挖掘对审计数据进行处理分类时,为了提高分类的准确性、高效性和可伸缩性,必须对数据库进行预处理,包括:数据的清洗、相关性分析、数据转换等。

文献[4]中给出数据清洗的定义为:发现和消除数据中的错误和不一致来提高数据的质量。

一般而言,审计数据库中数据采集于异质操作数据库,不可避免存在着数据的错误或不一致等问题,如数据造假、数据重复、数据缺失等错误。

根据文献[5]提出的审计数据质量特征,必须要对采集的原始数据进行清洗,即由“脏”变“干净”,提高审计数据质量,这是保证审计结论正确的关键。

数据清洗的一般过程如图2所示。

(1)数据分析:为了清洗出干净的数据,必须对数据进行详尽的分析,包括数据的格式类别等。

比如采集来的财务数据的字段类型、宽度、含义等。

(2)模式转换:模式转换主要是指将源数据映射成目标数据模型,如属性的转换,字段的约束条件和数据库中各个数据集之间的映射和转换等。

有时需要将多个数据表合并成一个二维表格,有时却要将一个数据表拆分成多个二维表格以便于问题的解决。

(3)数据校验:上一步的模式转换可行否,需要进行评估测试,经过反复分析、设计、计算、分析才能更好地清洗数据。

否则不经过数据校验可能有些错误数据不是很明显,不能被很好地筛选出来。

比如模式转换时将一个数据集分解成多个数据表的时候,造成父表的主关键字的值和子表外部关键字的值不一致,从而形成孤立记录,影响审计人员审计证据的正确性,进而影响审计结论的正确性。

(4)数据回流:用“干净”的数据替代原始数据源中的“脏”数据,避免下次数据采集时重做数据的清洗。

有时候数据的清洗需要反复进行,审计人员需要对采集到的电子数据进行多次清洗,这样才能得到高质量的审计数据。

3数据挖掘实现经过数据预处理后的审计数据库包含了多个数据集,每个数据集又包含了若干数据记录或者称为元组,如何从这些二维表格数据中挖掘出有意义的审计数据至关重要。

本文介绍一种利用聚类算法进行审计数据挖掘的算法。

3.1算法概述3.1.1聚类算法所谓聚类就是根据相似性对数据对象进行分组,发现数据的分布特征,使得每个聚类中数据有非常高的相似性而不同聚类中的数据尽可能不同[6]。

它同分类的主要区别在于,分类事先知道所依据的数据特征,而聚类是要找到这个数据特征。

作为数据挖掘的功能,聚类分析可以作为一个获取数据分布情况、观察每个类的特征和对特定类进行进一步独立分析的工具;聚类也能够有效处理噪声数据,比如数据库中普遍包含的孤立点、空缺或错误数据等。

聚类分析算法通常有5类[7]:①基于划分的方法,如CLARANS;②基于层次的方法,如CURE和BIRCH;③基于密度的方法,如DBSCAN、OPTICS、GDBSCAN和DBRS;④基于网格的方法,如STING和WaveCluster;⑤基于模型的方法,如COBWEB。

其中DBSCAN算法具有很好的过滤噪声数据的优点。

本文探讨利用DBSCAN算法对审计数据进行处理,找出异常数据,查找出审计证据。

3.1.2DBSCAN算法DBSCAN算法的基本思想为[8]:对于同一个聚类中的每个对象,在给定的半径d的邻域中包含的对象不能少于某一个给定的最小数目MinPts(也称密度)。

为了生存一个聚类,DBSCAN算法首先从数据集DB中选择任意一个对象p,并查找数据集DB中关于半径d的所有邻域对象,如果这个邻域对象的个数小于最小数目MinPts,则p为噪声数据;否则p的邻域对象形成一个初始聚类N,N中包含对象p及p直接密度可达的所有对象。

然后确定该类中的每一个对象q是否为核心对象,若是,就将q的d—邻域内尚未包含到N的所有对象追加到N中,并继续判定新追加的对象是否为核心对象,如果是,重复上述追加过程,直到这个聚类不能再扩大为止。

然后DBSCAN算法再在数据集DB中另选一个没有被标识为某个聚类或者噪声的对象,重复上面的操作,一直到数据集DB中的所有对象要么被标识为某个聚类、要么被标识为噪声数据为止。

DBSCAN算法进行聚类的过程就是不断执行数据集查询比较的过程,最后产生的噪声数据就是通常所说的异常数据,对于帮助审计人员进行审计判断非常有效。

图3表示了二维平面坐标下的噪声数据和若干聚类。

3.2数据模式定义3.2.1项间的距离设Ri和Rj是数据集DB中的任意两条记录即某两个数据项,它们之间的距离定义为:式中,Ri(Rix,Riy),Rj(Rjx,Rjy)表示数据集中两个项Ri和Rj在二维空间的坐标点,因此dij表示Ri和Rj在二维空间坐标的距离。

如果dij大于给定的值d,则表示Ri和Rj不属于同一个聚类分组。

3.2.2审计数据预处理数据挖掘时数据的选择是在二维平面上进行的,首先选择列(字段或属性),再选择行(记录或元组)。

为了能够获得有效的审计证据得出正确的审计结论,有时候必须对源数据集进行数据转换。

因为各个企事业单位的规模不同,财务数据的数量级或者数量单位可能不同,为了得到更加科学可靠的聚类分析结果,需要对财务数据进行预处理,一般进行比例变换。

如将x轴定义为某公司某月营业收入与利润总额的比值,将y轴定义为财务费用与净利润的比值,这样处理的数据能更好地反映该企业的实际情况。

这里的财务数据预处理都是由用户来定义的,可以根据不同的审计要求和审计目的来定义。

建立一个新的二维表格数据至少包含4个属性项:记录号,x轴数据,y轴数据,标记。

其中记录号保持对应源数据集DB中的记录号,x坐标和y坐标即为经过比例变换后的数值,标记字段初始内容为空。

3.3算法描述及流程图给定一个计算机审计数据集,假设具有N个元组或者记录,利用DBSCAN算法思想构造出L个分组(L<N),每个分组代表一个聚类。

且L个分组必须满足如下条件:(1)每个分组至少包含MinPts个元组。

(2)每个分组中的任意两个元组直接的距离小于等于给定的距离d。

(3)每个元组仅属于一个分组。

图4为实现审计数据挖掘的算法(称为AUDBSCAN)的流程图。

3.4聚类算法的实现算法:审计数据挖掘聚类算法(AUDBSCAN)输入:根据数据集DB产生的二维表格数据//至少含有4个字段:rec记录号,rxx坐标数据,ryy坐标数据,rno标记半径d//度量密度的距离密度MinPts//簇中的数目输出:噪声数据记录AlgorithmAUDBSCAN(data,d,MinPts)ForeachrecordindatadoIfeachreccordindataismarkedOutputnoisereccord//输出标识为噪声的数据ElseForeachreccordindataisnotmarkednoiseorclasserdoP←Rand(areccordisnotmarkednoiseorclasser)//随机选取没有被标记的记录pL←Found(p,d,MinPts)//找到p关于d的MinPts密度可达记录Ifs=recount(L)<MinPtsPismarkednoiseElseN←Found(p,d,MinPts)EachreccordinNismarkedclasserForeachreccordinNdoq←onereccordIfqisacenterrecord//q为核心记录N←found(q,d)EndifEndforEndifEndforEndifEndfor在AUDBSCAN算法中,利用Rand()函数产生第一个随机记录p,利用Found()函数产生p关于d的MinPts密度可达记录。

该算法最后的结果和随机产生的第一条记录相关,形成的聚类可能有不同,但得到的噪声数据一致,因此对于审计证据的查找是有效的。

4结论数据挖掘技术与海量数据下审计业务的有效结合是未来计算机审计的一个发展方向。

本文主要介绍了审计数据的采集、数据的处理转换和数据的挖掘3个方面,并且在数据的挖掘方面采用了基于聚类的DBSCAN算法来快速、准确、高效地输出噪声数据。

该算法中涉及的二维平面x,y轴坐标可以根据实际审计需要由审计人员加以定义,因此可以应用到各类审计实践中去。

另外,可以将DBSCAN算法扩展到三维空间上,只要再加上一个z轴数据,当然z轴数据也应该是和x,y轴数据相关的一个比例数据,此时聚类的结果将会变成一个不规则球体,从而能够更加容易挖掘出未曾发现的知识,也更加容易发现数据间的潜在联系。

相关文档
最新文档