(二)数据预处理。数据预处理是把采集到的审计数据转换到审计中间表的一系列操作。原始数据中可能存在的问题有很多种,譬如缺失的或不完整的数据、不一致的数据、重复的记录等,有必要在数据挖掘前对数据进行清洗。主要包括不完整数据和空值的处理、冗余数据的清理、错误值的检测等。识别数据表名、字段名、记录值代码以及表间关系的经济含义,将来源于一个或多个源数据的数据,按照审计目标和审计中间表的要求,进行数据字段层面和数据关系层面的变换、分拆或合并,映射到审计中间表,为实施数据挖掘技术做好数据准备。对数据转换和清理过程要进行验证,以保证数据清理和转换工作没有损害数据的完整性、正确性。
(三)主要的数据挖掘技术。广义的数据挖掘技术主要有:聚类分析、孤立点分析、决策树法、遗传算法、神经网络方法、相关规则方法等。现对其中的几种技术介绍如下:
聚类分析是一种无指导的学习,受审计人员的主观影响较小。它将数据分组成多个类,同一个类别中的对象之间具有较高的相似度。对于特定交易记录群的聚类分析可以根据不同特征划分为不同的特征群,从而描述各个群的特征,得到违反规律特征的类,找出离群孤立点,对其重点分析,确定审计风险,发现审计线索。比如,对银行不良贷款的审计,通过将影响贷款质量的因素以定性或定量的指标加以描述,再借助于建立数据挖掘模型,从中发现其规律性和普遍的特征,区分贷款的级别,发现人为操纵贷款分类结果的现象。
孤立点分析用来发现数据源中显著不同于其他数据的对象,例如部分极端值等。在被审计单位的数据源中经常含有一定数量的异常值,它们与审计数据源的其他部分数据不同或不一致,这些数据很可能就是一些可疑的数据,如可利用孤立点分析对信用卡客户历史用卡行为进行分析,如果检测到不寻常的信用卡使用情况,及时确认交易是否存在欺骗等情况。
决策树法,先根据训练集数据构造决策树,核心是归纳算法。譬如,在商业银行个人贷款业务审计中,利用有问题的个人消费贷款数据,选取所在地区、收入、年龄、婚姻状况、住房情况、是否违约等因素,应用决策树方法进行挖掘,生成客户贷款违约路径规则,该分类规则作为审计的索引。
(四)审计整理。审计人员对利用数据挖掘技术发现的可疑数据,进行重点核查,查找交易记录,总结得出审计经验,建立审计经验库,如果有新知识,就更新到知识库中,作为日后新交易数据审计的经验。数据挖掘工作是一个不断重复执行的过程。
数据挖掘技术在金融审计中的深入应用,首先离不开银行等金融机构信息系统数据结构的标准化;其次需要利用银行业务处理逻辑、数据间的勾稽关系、内部数据与外部数据的关联,把有效的审计思路转化为计算机程序语言,有效统一在分析框架内,使数据挖掘分析方法不再零散而成为体系。目前,数据挖掘技术在商业银行审计中的研究相对较多,而在保险、证券等领域涉及较少;在商业银行审计方面也主要集中在信贷业务和存款业务中,在理财产品、国际结算、系统内往来等诸多方面也没有形成系统的数据审计方法。这些都有待于我们在今后的审计过程中认真地加以分析与研究。