周正聰
(太原學(xué)院財(cái)經(jīng)系 山西 太原 030032)
現(xiàn)階段,人類已經(jīng)進(jìn)入了互聯(lián)網(wǎng)信息時(shí)代,大數(shù)據(jù)技術(shù)在各個(gè)領(lǐng)域被廣泛應(yīng)用,改變了傳統(tǒng)的數(shù)據(jù)處理模式,提高了數(shù)據(jù)信息處理效率。大數(shù)據(jù)技術(shù)在云計(jì)算基礎(chǔ)上,借助信息存儲(chǔ)與數(shù)據(jù)共享以及數(shù)據(jù)挖掘,將海量多變的數(shù)據(jù)存儲(chǔ)在云計(jì)算中,通過分析和計(jì)算,可找到有效的問題解決方法。特別是對(duì)審計(jì)行業(yè)而言,由于新技術(shù)、新產(chǎn)業(yè)不斷涌現(xiàn),信息系統(tǒng)也變得越來越復(fù)雜,審計(jì)數(shù)據(jù)統(tǒng)計(jì)工作數(shù)據(jù)量巨大且分析難度高,借助大數(shù)據(jù)技術(shù)開展審計(jì)數(shù)據(jù)統(tǒng)計(jì)工作勢(shì)在必行,大數(shù)據(jù)處理方法的應(yīng)用從根本上提高了審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析工作的整體效率。
大數(shù)據(jù)概念誕生于2009年,最初被用于經(jīng)濟(jì)領(lǐng)域,隨后在其他領(lǐng)域逐漸普及。大數(shù)據(jù)技術(shù)主要是利用計(jì)算機(jī)技術(shù)對(duì)大量數(shù)據(jù)進(jìn)行挖掘分析,去除無用數(shù)據(jù),保留并使用有價(jià)值的數(shù)據(jù)。大數(shù)據(jù)技術(shù)在各行各業(yè)中的應(yīng)用可以更快、更有效地歸納與整理海量數(shù)據(jù),可以提煉數(shù)據(jù)的價(jià)值。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)具有3個(gè)方面的特點(diǎn):(1)規(guī)模大:通常以TB來度量;(2)多樣性:涉及多種數(shù)據(jù)類型;(3)速度快:大數(shù)據(jù)處理數(shù)據(jù)的速度遠(yuǎn)超過人類處理的上限,有著高速數(shù)據(jù)加工、分析、處理、存儲(chǔ)、深度數(shù)據(jù)挖掘以及可視化表示能力,創(chuàng)新了審計(jì)工作模式,保證了審計(jì)工作的準(zhǔn)確性,基于大數(shù)據(jù)技術(shù)的內(nèi)部審計(jì)新模型如圖1所示[1]。
大數(shù)據(jù)技術(shù)將對(duì)審計(jì)數(shù)據(jù)統(tǒng)計(jì)工作產(chǎn)生新影響,并對(duì)相關(guān)工作提出新要求,具體包括以下3方面:(1)在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)之間的關(guān)系是復(fù)雜的,以往很難發(fā)現(xiàn)事物之間的因果關(guān)系,只有深入對(duì)數(shù)據(jù)值進(jìn)行挖掘,不斷對(duì)數(shù)據(jù)進(jìn)行梳理,才能弄清數(shù)據(jù)之間的關(guān)系,發(fā)現(xiàn)問題的真相。隨著互聯(lián)網(wǎng)時(shí)代的到來,數(shù)據(jù)量不斷增加,可以利用大數(shù)據(jù)技術(shù)分析數(shù)據(jù)價(jià)值,發(fā)現(xiàn)相關(guān)關(guān)系,保證數(shù)據(jù)統(tǒng)計(jì)分析的質(zhì)量;(2)以往在處理較大樣本時(shí),人們習(xí)慣于以抽樣的方式來分析,但抽樣技術(shù)是受到條件約束的結(jié)果,是一種在數(shù)據(jù)稀缺與可用性受到限制時(shí)不得不使用的方法。在大數(shù)據(jù)環(huán)境下,即使不通過抽樣分析,也可以獲取與處理整個(gè)事務(wù)的所有數(shù)據(jù),借助于大數(shù)據(jù)分析技術(shù),可以更深入地把握事物的未來趨勢(shì),提高數(shù)據(jù)的及時(shí)性和使用性能,使統(tǒng)計(jì)人員能夠更全面地了解事物的真相;(3)大數(shù)據(jù)技術(shù)的應(yīng)用使數(shù)據(jù)的統(tǒng)計(jì)分析效率顯著提高,部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)和分析強(qiáng)調(diào)效率而非強(qiáng)調(diào)其準(zhǔn)確性,統(tǒng)計(jì)人員可以有效地利用大數(shù)據(jù)技術(shù)進(jìn)行相關(guān)的數(shù)據(jù)統(tǒng)計(jì),以確保有效完成統(tǒng)計(jì)工作[2-3]。
分布式數(shù)據(jù)處理系統(tǒng)(DDSMS)是一種能夠?qū)?shù)據(jù)進(jìn)行分布式處理的系統(tǒng),其結(jié)構(gòu)圖見圖2,其有著較強(qiáng)的數(shù)據(jù)流處理能力,可大大縮短數(shù)據(jù)處理時(shí)間,提高響應(yīng)速度?;ヂ?lián)網(wǎng)信息技術(shù)不斷發(fā)展,DDSMS也被廣泛應(yīng)用于各大網(wǎng)絡(luò)平臺(tái),如S4數(shù)據(jù)處理以及Puma數(shù)據(jù)處理等[4]。根據(jù)不同的環(huán)境和數(shù)據(jù)組合形式,DDSMS可以自動(dòng)選擇合適的數(shù)據(jù)處理模式進(jìn)行數(shù)據(jù)分析,具有實(shí)時(shí)性的特點(diǎn)。此外,該系統(tǒng)也具有很強(qiáng)的延展性,以往的審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析工作中,若有一個(gè)點(diǎn)計(jì)算失誤,則會(huì)影響整個(gè)系統(tǒng)的準(zhǔn)確性,影響了審計(jì)工作的進(jìn)度,但DDSMS的應(yīng)用可以有效解決這一問題,整個(gè)系統(tǒng)的容錯(cuò)性得到加強(qiáng),即使發(fā)生單個(gè)或多個(gè)節(jié)點(diǎn)的錯(cuò)誤,系統(tǒng)仍能進(jìn)行有效的審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析,保障了審計(jì)工作的實(shí)效性[5]。
數(shù)據(jù)挖掘技術(shù)即使用數(shù)據(jù)生成模型,再使用數(shù)據(jù)檢驗(yàn)?zāi)P?。在信息化環(huán)境下,面對(duì)被審計(jì)單位海量數(shù)據(jù),通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用,可以對(duì)數(shù)據(jù)進(jìn)行綜合分析與處理,從而提高審計(jì)數(shù)據(jù)分析質(zhì)量,在審計(jì)工作中不同的數(shù)據(jù)結(jié)構(gòu)所使用的數(shù)據(jù)挖掘方法也不同,具體見圖3[6]。
數(shù)據(jù)挖掘技術(shù)在審計(jì)工作中的應(yīng)用主要包括以下幾點(diǎn)。
(1)數(shù)據(jù)概化技術(shù):數(shù)據(jù)概化技術(shù)壓縮了數(shù)據(jù)庫中的詳細(xì)數(shù)據(jù),滿足了用戶對(duì)不同級(jí)別信息的需求,可用于審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析中的描述式挖掘,審計(jì)人員可在不同角度與粒度級(jí)別描述數(shù)據(jù)集,以此來得到某種類型數(shù)據(jù)的大致情況。此外,還可采用數(shù)據(jù)概化技術(shù)挖掘?qū)徲?jì)數(shù)據(jù)庫中的數(shù)據(jù),利用屬性相關(guān)性分析等方法對(duì)詳細(xì)財(cái)務(wù)數(shù)據(jù)進(jìn)行較高層次的表列,從而得到財(cái)務(wù)報(bào)告的一般屬性描述,為審計(jì)人員判斷虛假財(cái)務(wù)報(bào)告提供依據(jù)[7]。
(2)聚類分析技術(shù):該技術(shù)在審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析中也非常有用,可以用來識(shí)別數(shù)據(jù)密集以及數(shù)據(jù)稀疏區(qū)域,找到審計(jì)數(shù)據(jù)分布規(guī)律以及數(shù)據(jù)之間的關(guān)系,進(jìn)一步識(shí)別關(guān)鍵審計(jì)領(lǐng)域。聚類分析技術(shù)還可用于挖掘分析一些“孤立點(diǎn)”,在審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析工作中,通常會(huì)對(duì)一些偏差嚴(yán)重、異常的數(shù)據(jù)進(jìn)行重點(diǎn)檢查,采用聚類分析技術(shù)中的孤立點(diǎn)檢測(cè)算法能快速發(fā)現(xiàn)異常審計(jì)數(shù)據(jù),從而檢查出有可能違反規(guī)章制度的行為[8-9]。
(3)利用大數(shù)據(jù)挖掘技術(shù)構(gòu)建審計(jì)數(shù)據(jù)分析框架:利用大數(shù)據(jù)挖掘技術(shù)構(gòu)建審計(jì)數(shù)據(jù)分析框架主要包括6個(gè)流程(見圖4),互聯(lián)網(wǎng)背景下,審計(jì)工作量劇增,在數(shù)據(jù)信息中挖掘有價(jià)值的數(shù)據(jù),借助大數(shù)據(jù)挖掘技術(shù)分析數(shù)據(jù)間的內(nèi)在規(guī)律,以此來預(yù)測(cè)企業(yè)潛在風(fēng)險(xiǎn)以及發(fā)展機(jī)遇,在一定程度上優(yōu)化了審計(jì)管理模式[10]。
如圖4所示,利用大數(shù)據(jù)挖掘技術(shù)構(gòu)建的審計(jì)數(shù)據(jù)分析框架的主要思路如下:①從確定數(shù)據(jù)源開始,需要注意的是數(shù)據(jù)源包括被審計(jì)單位的財(cái)務(wù)會(huì)計(jì)數(shù)據(jù)與非財(cái)務(wù)會(huì)計(jì)數(shù)據(jù)兩部分;②通過對(duì)數(shù)據(jù)分析與清理得到目標(biāo)數(shù)據(jù),即從數(shù)據(jù)源中提取對(duì)企業(yè)有價(jià)值的數(shù)據(jù)信息;③數(shù)據(jù)挖掘(包括數(shù)據(jù)加工與數(shù)據(jù)分析):結(jié)合大數(shù)據(jù)平臺(tái)的算法與模型分析處理篩選出來的審計(jì)數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)潛在的聯(lián)系,為企業(yè)防范風(fēng)險(xiǎn)奠定基礎(chǔ);④數(shù)據(jù)可視化:可視化圖形可直觀顯示審計(jì)分析結(jié)果,直接觀察到審計(jì)數(shù)據(jù)與各種指標(biāo),便于審計(jì)人員理解[11]。
網(wǎng)絡(luò)爬蟲技術(shù)即通過具體的指令在登錄權(quán)限內(nèi)自動(dòng)跟蹤網(wǎng)頁,并查找相關(guān)信息的數(shù)據(jù)程序,其數(shù)據(jù)抓取的基本流程見圖5。
網(wǎng)絡(luò)爬蟲技術(shù)在數(shù)據(jù)統(tǒng)計(jì)分析工作中的應(yīng)用思路如下:(1)鎖定目標(biāo)網(wǎng)頁:首先,要利用網(wǎng)絡(luò)爬蟲技術(shù)設(shè)置程序指令,根據(jù)審計(jì)工作的需要確定其數(shù)據(jù)所在的網(wǎng)頁,利用聚焦網(wǎng)絡(luò)爬蟲技術(shù)對(duì)所需采集的數(shù)據(jù)進(jìn)行初步篩選,并提交與信息篩選條件不相符的信息;(2)分析目標(biāo)網(wǎng)頁:鎖定目標(biāo)網(wǎng)頁后,審計(jì)師應(yīng)劃分網(wǎng)頁結(jié)構(gòu),對(duì)網(wǎng)頁訪問的邏輯重點(diǎn)分析,以提高相關(guān)數(shù)據(jù)的獲取效率,可使用正則表達(dá)式與XPath路徑語言兩種模式對(duì)網(wǎng)頁結(jié)構(gòu)信息進(jìn)行過濾篩選;(3)抓取數(shù)據(jù):可使用 python編程,搜索關(guān)鍵詞,然后通過顯示屏顯示結(jié)果,對(duì)獲得的地址中的網(wǎng)絡(luò)信息進(jìn)行過濾,選擇軟件執(zhí)行命令,最終保存結(jié)果;(4)數(shù)據(jù)存儲(chǔ):一方面可利用csv、txt、json與其他形式收集的數(shù)據(jù)保存為文本文件,供后續(xù)審計(jì)工作使用,另一方面可通過前面的收集,利用數(shù)據(jù)庫存儲(chǔ)方法將數(shù)據(jù)捕獲到數(shù)據(jù)庫中;(5)分析數(shù)據(jù):在通過上述程序獲得數(shù)據(jù)后,可使用SQL查詢與數(shù)據(jù)可視化等技術(shù)進(jìn)一步分析、擴(kuò)展與驗(yàn)證數(shù)據(jù)[12-13]。
3S技術(shù)即RS(遙感技術(shù))、GPS(定位技術(shù))、GIS(地理信息系統(tǒng)),主要應(yīng)用于工程建設(shè)與自然資源等特殊領(lǐng)域的審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析。RS技術(shù)用于幫助審計(jì)人員以空間連續(xù)的方式存儲(chǔ)與更新來自廣泛對(duì)象的信息,可獲得詳細(xì)準(zhǔn)確的參數(shù)數(shù)據(jù);GPS技術(shù)可對(duì)目標(biāo)物體的具體坐標(biāo)進(jìn)行定位;GIS技術(shù)可及時(shí)采集信息,處理相關(guān)技術(shù),分析其深度,為審計(jì)工作提供數(shù)據(jù)基礎(chǔ)。
在審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析工作中,GIS技術(shù)可用于對(duì)研究所需對(duì)比的數(shù)字化地圖進(jìn)行疊加等空間分析操作,以此來得到不同時(shí)期或不同地區(qū)的不同地圖,并進(jìn)行數(shù)據(jù)聚類分析,以獲得更多的審計(jì)線索,其在審計(jì)工作中的應(yīng)用框架見圖6;遙感技術(shù)用于獲取審計(jì)項(xiàng)目建設(shè)情況的遙感圖像,通過與被審計(jì)單位提供的規(guī)劃圖進(jìn)行對(duì)比分析,發(fā)現(xiàn)審計(jì)工作中存在的不合規(guī)建設(shè)等疑點(diǎn);利用GIS技術(shù)可以保證審計(jì)跟蹤的及時(shí)性和準(zhǔn)確性,審計(jì)人員可通過GIS技術(shù)的面積統(tǒng)計(jì)功能,獲取包括特定面積在內(nèi)的非法用地的詳細(xì)信息,收集直接的審計(jì)證據(jù)[14]。
3S技術(shù)在審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析工作中既可以單獨(dú)使用,也可以結(jié)合起來應(yīng)用到同一審計(jì)工作中。首先可以使用RS技術(shù)獲取審查地區(qū)不同時(shí)期的遙感影像,并進(jìn)行對(duì)比分析,從而找到變化位置與變化量,為審計(jì)工作提供線索;其次,便可使用GPS技術(shù)收集確定其位置信息,隨即審計(jì)人員根據(jù)位置信息前往被審計(jì)區(qū)域,以確認(rèn)初步審計(jì)線索并形式審計(jì)證據(jù);最后,在審計(jì)人員獲取審計(jì)證據(jù)后,利用GIS技術(shù)對(duì)審查地區(qū)進(jìn)行面積數(shù)據(jù)統(tǒng)計(jì)與精確識(shí)別,生成異常情況的詳細(xì)信息,提供充分的審計(jì)證據(jù)[15]。
綜上所述,大數(shù)據(jù)技術(shù)的應(yīng)用已成為審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析工作創(chuàng)新發(fā)展的重要趨勢(shì),明顯提高了審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析工作質(zhì)量與效率。本文簡(jiǎn)要分析了大數(shù)據(jù)環(huán)境下分布式數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)挖掘技術(shù)、網(wǎng)絡(luò)爬蟲技術(shù)以及3S技術(shù)在審計(jì)數(shù)據(jù)統(tǒng)計(jì)分析工作中的具體應(yīng)用,推動(dòng)審計(jì)工作朝信息化、現(xiàn)代化方向發(fā)展。