摘要:大数据正以难以想象的发展速度带来新一轮信息化革命,它给我们带来新的思维变革、商业变革和管理变革。审计作为一个综合的经济监督部门也必将面临其带来的机遇与挑战。本文在简要阐明大数据时代的相关概念和特点后,分析了大数据时代的数据处理与挖掘的方法,以及给审计分析工作带来的相关思考。
关键词:大数据;数据挖掘;审计分析;
一、什么是“大数据”
现在,很多人都在谈论大数据。他们认为大数据其实就是指数据的规模大,收集数据的速度快,分析数据会更容易。这种说法正确的描述了大数据这一表面现象,因此从某种程度上说,大数据就是数据分析的前沿技术。能从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。研究机构Gartner对“大数据”给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据有四个显著的特点:第一,数据体量巨大。从TB级别,跃升到PB级别。第二,数据类型繁多。网络日志、视频、图片、地理位置信息等等都是我们需要分析的数据类型。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快,1秒定律。一般要在秒级时间范围内给出分析结果,时间太长就失去价值了。其中最后这点和传统的数据挖掘技术有着本质的不同和提高。
二、“大数据”时代的数据特点
大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。
此外,数据又并非单纯指人们在互联网上发布的信息,伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,这也产生了海量的数据信息。
与过去我们接触与收集到的结构化数据有所不同,这些数据中存在大量非结构化和半结构化数据,把这些数据在下载到关系型数据库用于分析时会花费大量时间和金钱。
三、“大数据”时代给审计分析带来的机遇
随着信息技术的不断发展,数据在社会管理、商业管理中起着越来越重要的作用。人们逐渐开始认识并认同这样一句话,“除了上帝,所有人都要用数据来说话。”这种认识上的提高给审计分析带来了不可多得的机遇。
1、审计分析的认同感大为加强。审计作为一个综合性的经济监督部门,早就秉承了用数据说话的传统。审计报告中无论是综合评价,还是揭示问题,无一不是以数字为支撑的。在大数据时代,充分利用数据仓库、联机分析、数据挖掘和数据可视化等技术、把离散存储于不同系统中的海量数据彼此关系并进行深度挖掘分析,可以对财政性资金的使用情况、相关政策实施的效果进行评估,从而得出客观的审计结论,所有这一切都将会得到审计报告的使用者和被审计单位的高度认同,从而进一步提升审计自身的地位。
2、审计分析所需要的基础数据的获取将变得更为便利。在破除了政府内部协同思想理念上的障碍后,随着大数据技术发展,跨越系统、跨越平台、跨越数据结构的技术将使政府内部纵向、横向部门得以流畅协同。审计部门不再需要分别获取各个部门的相关数据,不再需要分别点对点的与被审计单位进行联网,只要接入政府内部网络,所有审计所需的数据在设置一定的权限后都可以直接获取,大大节约了审计成本。同时由于利用大数据技术,数据处理及分析响应时间将大幅减少,审计工作的效率将明显提高,可以同时对多个类别,多种领域的数据进行同时分析、处理。
3、审计分析将更有利于提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,更能有效的服务于国家治理的理念。审计分析可以通过对相关领域长年累月形成的数据的分析,挖掘出某种群体行为的特点,提示某种社会现象的潜在规律,为政府制定政策提供关键依据,同时还可以评估政府政策的实施效果,从而帮助政府不断发现问题,改进问题。随着审计分析的进一步深化,审计分析还能超越了传统的数据分析方法,不但是对纯数据可以进行分析挖掘,对言论、图表等都可以进行深度挖掘、人工智能。
四、“大数据”时代的数据处理
与我们传统的审计分析和处理数据相似,“大数据”时代的数据处理也要经过采集、导入及预处理、统计及分析、挖掘几个方面来实现。但由于其数据量巨大,同时又存在大量的非结构化数据,因此在每一个处理过程中又与审计数据处理有所不同。
1、采集。在采集过程中,除了可以使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,还可以利用Redis和MongoDB这样的NoSQL数据库用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,所以需要在采集端部署大量数据库才能支撑。而审计部门一般不需要采取实时的数据,因此对大数据的采集基本上以采集备份数据和热备数据为主,不需要过多的考虑并发的问题。