2、导入及预处理。在大数据环境下,虽然采集端本身已经有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。这些与目前审计部门的数据导入及建立审计中间表的过程非常类似,所不同的是导入的数据量非常大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3、统计及分析。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。而审计部门也需要对业务数据进行相关的统计与分析。由于数据量的差别,大数据环境下,对系统资源,特别是I/O会有极大的占用。
4、挖掘。与前面统计及分析过程不同的是,大数据环境下的数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,并进一步实现一些高级别数据分析的需求。而由于审计时间的限制,审计部门对数据的挖掘一般情况是有着明显的主题,或是法律法规以及相关政委的许可,或是审计人员的主观经验,或是已成型的审计分析模型等等。
五、“大数据”时代的数据挖掘的应用与方法
数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。所以它所得到的信息应具有未知,有效和实用三个特征。因此数据挖掘技术从一开始就是面向应用的,目前数据挖掘技术在企业市场营销中得到了比较普遍的应用。它包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等。审计部门的数据挖掘以往偏重于对大金额数据的分析,来确实是否存在问题,以及问题在数据中的表现,而随着绩效审计的兴起,审计部门也需要通过数据来对被审计单位的各类行为做出审计评价,这些也都需要数据的支撑。
数据挖掘的方法有很多,它们分别从不同的角度对数据进行挖掘。其中绝大部分都可以用于审计工作中。
1. 数据概化。数据库中通常存放着大量的细节数据, 通过数据概化可将大量与任务相关的数据集从较低的概念层抽象到较高的概念层。数据概化可应用于审计数据分析中的描述式挖掘, 审计人员可从不同的粒度和不同的角度描述数据集, 从而了解某类数据的概貌。大量研究证实, 与正常的财务报告相比, 虚假财务报告常具有某种结构上的特征。审计人员可以采用概念描述技术对存储在被审计数据库中的数据实施数据挖掘, 通过使用属性概化、属性相关分析等数据概化技术将详细的财务数据在较高层次上表达出来, 以得到财务报告的一般属性特征描述, 从而为审计人员判断虚假财务报告提供依据。
2.统计分析。它是基于模型的方法, 包括回归分析、因子分析和判别分析等, 用此方法可对数据进行分类
和预测。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型, 或者审计人员通过建立的统计模型对被审计单位的大量财务或业务历史数据进行预测分析, 根据分析的预测值和审计值进行比较, 都能帮助审计人员从中发现审计疑点, 从而将其列为审计重点。
3. 聚类分析。聚类分析是把一组个体按照相似性归成若干类别, 目的是使得同一类别的个体之间的距离尽可能地小, 而不同类别的个体间的距离尽可能地大, 该方法可为不同的信息用户提供不同类别的信息集。如审计人员可运用该方法识别密集和稀疏的区域, 从而发现被审计数据的分布模式, 以及数据属性间的关系, 以进一步确定重点审计领域。企业的财务报表数据会随着企业经营业务的变化而变化, 一般来说, 真实的财务报表中主要项目的数据变动具有一定的规律性, 如果其变动表现异常, 表明数据中的异常点可能隐藏了重要的信息, 反映了被审计报表项目数据可能存在虚假成分。
4. 关联分析。它通过利用关联规则可以从操作数据库的所有细节或事务中抽取频繁出现的模式, 其目的是挖掘隐藏在数据间的相互关系。利用关联分析, 审计人员可通过对被审计数据库中的数据利用关联规则进行挖掘分析, 找出被审计数据库中不同数据项之间的联系, 从而发现存在异常联系的数据项, 在此基础上通过进一步分析, 发现审计疑点。
六、应对“大数据”时代,审计分析应做出的调整
从以上分析过程中,我们不难看出“大数据”时代的数据存贮、处理、分析以及挖掘的各个方面虽然与传统方式相比,在技术层面上有了较大的改变,但是在基本的原理方面,并没有显著的改变,原有的审计分析模式没有必要因为“大数据”时代的来临而急于做出相应的改变。然而“大数据”时代在给审计分析带来机遇的同时,还是给我们带给了相当大的冲击,对此我们有必要引起相当的重视,并在日后的信息化建设过程做出相应的调整。
1、数据的存贮与处理。大数据分析应用需求正在影响着数据存储基础设施的发展。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。基于块和文件的存储系统的架构设计需要进行调整以适应这些新的要求。审计部门在选择相应的存贮系统的时候,要对非结构化数据有足够的重视,做好采集的相关准备。同时随着采集数据的单位和年份越来越多,数据量必然是会有大规模的增长。即使是海量数据存储系统也一定要有相应等级的扩展能力。存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。同时为了提高数据的处理能力,解决I/O的瓶颈问题,可以考虑各种模式的固态存储设备,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储都是可以考虑使用的设备。