曹越
摘要
本文從大數(shù)據(jù)相關(guān)概念入手,結(jié)合稅務(wù)信息化建設(shè)現(xiàn)狀,探討了何為稅務(wù)大數(shù)據(jù),并依托安徽稅務(wù)信息化建設(shè)基礎(chǔ),簡要介紹了妥徽稅務(wù)搭建稅務(wù)大數(shù)據(jù)平臺工作思路和過程實踐,最后就如何深入推進稅務(wù)大數(shù)據(jù)應(yīng)用,提出相關(guān)策略性思考建議。
【關(guān)鍵詞】大數(shù)據(jù) 稅務(wù)
毋庸置疑,當前我們正身處大數(shù)據(jù)時代,數(shù)據(jù)是基礎(chǔ)性核心資源已經(jīng)成為普遍共識,對全量數(shù)據(jù)的深入發(fā)掘揭示了許多經(jīng)濟社會現(xiàn)象背后的奧秘,進而推動世界經(jīng)濟社會形態(tài)發(fā)生復(fù)雜而又深刻的變革。對于我們稅務(wù)人,如何掌握稅務(wù)大數(shù)據(jù)的“制數(shù)權(quán)”,修煉出更為深刻敏銳的洞察力、深入了解納稅人經(jīng)營動態(tài)、時刻把握經(jīng)濟發(fā)展先機進而極大提升治稅能力是一項亟待研究的重大課題。
1 稅務(wù)大數(shù)據(jù)的研究現(xiàn)狀
1.1 稅務(wù)大數(shù)據(jù)研究意義
歷經(jīng)二十余年的信息化建設(shè),稅務(wù)系統(tǒng)已經(jīng)初步建立了“穩(wěn)固強大的信息體系”,實現(xiàn)了稅收業(yè)務(wù)和行政管理兩大領(lǐng)域的信息化全覆蓋,沉淀了海量的數(shù)據(jù)資源
稅務(wù)系統(tǒng)早期的信息化往往存在“單打獨斗”的問題,建成了一大批“煙囪式”應(yīng)用,普遍存在不共享、不一致、不完整、不精確等數(shù)據(jù)質(zhì)量問題,嚴重制約了稅收數(shù)據(jù)分析決策向縱深發(fā)展。
2015年國家稅務(wù)總局在《“互聯(lián)網(wǎng)+稅務(wù)”行動計劃》中倡導(dǎo)“運用大數(shù)據(jù)技術(shù),開發(fā)和利用好大數(shù)據(jù)這一基礎(chǔ)性戰(zhàn)略資源,支撐納稅服務(wù)、稅收征管、政策效應(yīng)分析、稅收經(jīng)濟分析等工作,優(yōu)化納稅服務(wù),提高稅收征管水平,拓展稅收服務(wù)國家治理的新領(lǐng)域?!眹叶悇?wù)總局提出這一倡議,既是對國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》中要求的積極響應(yīng),又是稅務(wù)系統(tǒng)應(yīng)對大數(shù)據(jù)時代背景下面臨一系列挑戰(zhàn)的內(nèi)在需要,這些挑戰(zhàn)包括:
(1)納稅人生產(chǎn)經(jīng)營形態(tài)的日益復(fù)雜,稅務(wù)機關(guān)越來越難以掌握納稅人經(jīng)營動態(tài);
(2)納稅人核算方式呈現(xiàn)團隊化、專業(yè)化趨勢,逃避繳稅手段越來越豐富;
(3)涉稅話題越來越敏感,稅務(wù)機關(guān)及時發(fā)現(xiàn)、妥善處理涉稅敏感問題以及迅速回應(yīng)社會公眾關(guān)注的時效性要求越來越高。
1.2 稅務(wù)大數(shù)據(jù)研究現(xiàn)狀
發(fā)達國家的稅務(wù)部門普遍對大數(shù)據(jù)工作極為重視,有的甚至成立專門的機構(gòu)專職開展稅收大數(shù)據(jù)工作。美國國內(nèi)收入署(IRS)成立了研究分析和統(tǒng)計司(RAS),負責稅務(wù)數(shù)據(jù)的收集、研究、分析和統(tǒng)計,為決策提供參考建議。英國皇家稅務(wù)海關(guān)總署成立知識、分析和情報理事會(KAI),開展數(shù)據(jù)分析、實證分析,為制定稅收政策、改進納稅服務(wù)提供數(shù)據(jù)支撐。
在國內(nèi),稅務(wù)大數(shù)據(jù)研究的熱潮剛剛興起,從國家到地方稅務(wù)大數(shù)據(jù)平臺建設(shè)方興未艾,國家稅務(wù)總局建立了稅務(wù)總局大數(shù)據(jù)平臺,以全國集中數(shù)據(jù)為基礎(chǔ),面向全國稅務(wù)機關(guān)提供查詢服務(wù),并己開放了增值稅發(fā)票查詢分析、納稅人關(guān)系云圖、票流分析、風險情報、企業(yè)畫像、納稅人關(guān)系分析等應(yīng)用;北京、廣東、江蘇、江西、四川、貴州、陜西等多地稅務(wù)機關(guān)己建成或正籌建各自稅務(wù)大數(shù)據(jù)平臺,積極開展相關(guān)研究。
近年來,安徽稅務(wù)積極籌劃運用大數(shù)據(jù)技術(shù),匯聚安徽稅務(wù)“數(shù)據(jù)?!?,構(gòu)建安徽稅務(wù)大數(shù)據(jù)平臺,實現(xiàn)對海量涉稅數(shù)據(jù)的采集、存儲、加工、挖掘、應(yīng)用。
2 安徽稅務(wù)構(gòu)建大數(shù)據(jù)平臺的探索實踐
2.1 安徽稅務(wù)大數(shù)據(jù)平臺建設(shè)思路
安徽稅務(wù)大數(shù)據(jù)平臺按照“統(tǒng)籌規(guī)劃、適度超前、開放共享、持續(xù)演進”的原則構(gòu)建,整合稅務(wù)系統(tǒng)內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和情報數(shù)據(jù),具備可按需擴展平臺數(shù)據(jù)處理方式、提升數(shù)據(jù)處理效能的能力,為各類稅務(wù)大數(shù)據(jù)應(yīng)用提供有力的數(shù)據(jù)處理支撐
(1)建立規(guī)范統(tǒng)一的大數(shù)據(jù)管控體系,以大數(shù)據(jù)平臺為核心,解決數(shù)據(jù)分散、數(shù)據(jù)來源多樣化和數(shù)據(jù)結(jié)構(gòu)復(fù)雜的問題。
(2)用“數(shù)據(jù)治理”的理念,統(tǒng)一管理數(shù)據(jù)全生命周期,實現(xiàn)數(shù)據(jù)標準、數(shù)據(jù)來源、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)服務(wù)和元數(shù)據(jù)等數(shù)據(jù)治理過程的流程化、可視化和體系化,提升數(shù)據(jù)資產(chǎn)的質(zhì)量和價值。
(3)基于微服務(wù)架構(gòu),建立和完善數(shù)據(jù)服務(wù)的分層體系,提高共享利用率、標準化程度,形成全局業(yè)務(wù)全景視圖,集中管理,分散使用。
(4)結(jié)合業(yè)界最新大數(shù)據(jù)采集存儲技術(shù)、大數(shù)據(jù)分析挖掘方法和機器學(xué)習(xí)技術(shù)構(gòu)建成熟、可靠、高效的分布式“大數(shù)據(jù)引擎”,為互聯(lián)網(wǎng)時代下稅收管理的有效提升、納稅服務(wù)水平的持續(xù)改善,打下堅實基礎(chǔ)。
2.2 稅務(wù)大數(shù)據(jù)平臺架構(gòu)功能
基于現(xiàn)有信息化建設(shè)的技術(shù)積累,安徽稅務(wù)大數(shù)據(jù)平臺總體層次結(jié)構(gòu)以及應(yīng)用架構(gòu)規(guī)劃如圖1所示。
2.2.1 數(shù)據(jù)源
數(shù)據(jù)來源主要包括稅務(wù)系統(tǒng)內(nèi)部數(shù)據(jù)、第三方涉稅數(shù)據(jù)、互聯(lián)網(wǎng)涉稅數(shù)據(jù)以及其他形式的涉稅數(shù)據(jù)等,數(shù)據(jù)形式涉及結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。
2.2.2 數(shù)據(jù)采集層
基于分布式數(shù)據(jù)采集平臺,融合Sqoop、Flume等數(shù)據(jù)采集工具,實現(xiàn)稅務(wù)系統(tǒng)內(nèi)部數(shù)據(jù)、第三方涉稅數(shù)據(jù)、互聯(lián)網(wǎng)涉稅數(shù)據(jù)以及其他形式的涉稅數(shù)據(jù)的采集,并將采集到的數(shù)據(jù)裝載至大數(shù)據(jù)平臺;對互聯(lián)網(wǎng)涉稅數(shù)據(jù),通過爬蟲工具采集并轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)裝載至數(shù)據(jù)存儲層。支持對實時數(shù)據(jù)、增量數(shù)據(jù)和全量數(shù)據(jù)加載的方式進行數(shù)據(jù)采集與解析。
2.2.3 數(shù)據(jù)存儲與計算層
數(shù)據(jù)存儲主要完成多源數(shù)據(jù)的融合存儲,數(shù)據(jù)存儲主要基于分布式文件系統(tǒng)(HDFS)和列式數(shù)據(jù)庫(HBase等),輔以內(nèi)存數(shù)據(jù)庫來實現(xiàn)流式計算的輸出存儲,通過關(guān)系數(shù)據(jù)庫實現(xiàn)元數(shù)據(jù)、用戶、權(quán)限配置等數(shù)據(jù)的存儲管理。數(shù)據(jù)計算主要包含并行計算框架(MapReduce)、分布式通用計算引擎(Spark)、流式計算引擎(Spark Streaming或storm),并提供基于Spark MLlib的機器學(xué)習(xí)引擎等。
2.2.4 數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層主要提供稅務(wù)大數(shù)據(jù)平臺的數(shù)據(jù)資源服務(wù)和數(shù)據(jù)計算服務(wù)。通過數(shù)據(jù)服務(wù)標準化開放訪問,實現(xiàn)應(yīng)用和數(shù)據(jù)分離。數(shù)據(jù)資源和數(shù)據(jù)計算封裝成RESTful格式對外提供服務(wù),以便于上層應(yīng)用進行增值開發(fā)利用,體現(xiàn)數(shù)據(jù)價值,并應(yīng)支持機器學(xué)習(xí)算法分析服務(wù)。
2.2.5 涉稅業(yè)務(wù)應(yīng)用
安徽稅務(wù)大數(shù)據(jù)平臺初步建設(shè)了三個示范性大數(shù)據(jù)應(yīng)用,包括:稅收收入動態(tài)展示、互聯(lián)網(wǎng)數(shù)據(jù)采集與展示和發(fā)票數(shù)據(jù)查詢與分析,以數(shù)據(jù)驅(qū)動進一步提升稅收征管數(shù)字化、網(wǎng)絡(luò)化、智能化水平,建設(shè)“智慧稅務(wù)”。
2.2.6 平臺管理
平臺管理主要指大數(shù)據(jù)平臺的整體性管理,包括用戶權(quán)限、管理流程、服務(wù)部署、平臺安全、數(shù)據(jù)提供等業(yè)務(wù)的統(tǒng)一調(diào)度。
2.2.7 數(shù)據(jù)治理
數(shù)據(jù)治理應(yīng)貫穿于數(shù)據(jù)生成、存儲到銷毀的全生命周期,統(tǒng)領(lǐng)數(shù)據(jù)源、數(shù)據(jù)采集層、數(shù)據(jù)存儲與計算層、數(shù)據(jù)服務(wù)層和涉稅業(yè)務(wù)應(yīng)用,繪制全景數(shù)據(jù)視圖,全面反映數(shù)據(jù)的采集、加工、存儲、安全、共享和應(yīng)用的過程。
2.3 稅務(wù)大數(shù)據(jù)平臺安全設(shè)計
安徽稅務(wù)大數(shù)據(jù)平臺嚴格遵循信息系統(tǒng)安全等級保護制度和國家稅務(wù)總局《稅務(wù)應(yīng)用系統(tǒng)網(wǎng)絡(luò)安全審核指南(試行)》總體要求,著力構(gòu)建穩(wěn)固、安全、可信的大數(shù)據(jù)環(huán)境。
針對外網(wǎng)業(yè)務(wù)區(qū)域采用的安全技術(shù)策略和對應(yīng)的技術(shù)措施如表1所示。
針對內(nèi)網(wǎng)業(yè)務(wù)區(qū)域采用的安全技術(shù)策略和對應(yīng)的技術(shù)措施如表2所示。
2.4 稅務(wù)大數(shù)據(jù)平臺建設(shè)成效
目前安徽稅務(wù)大數(shù)據(jù)平臺己初步建成,整合數(shù)據(jù)庫、文檔、圖片、音頻、視頻等多源異構(gòu)的稅務(wù)大數(shù)據(jù)資源約20TB,為稅務(wù)大數(shù)據(jù)的進一步分析與利用提供了數(shù)據(jù)支撐,并研制了三個示范性大數(shù)據(jù)應(yīng)用:
(1)稅收收入動態(tài)展示,借助大數(shù)據(jù)流式計算引擎和數(shù)據(jù)可視化工具,集中展示全省稅務(wù)系統(tǒng)稅收收入狀況,并實時跟蹤和演示其動態(tài)變化,為領(lǐng)導(dǎo)決策提供可視化的數(shù)據(jù)支撐。大數(shù)據(jù)平臺能夠基于區(qū)域、行業(yè)、類型等為分類方法的稅收收入完成情況、收入質(zhì)量、征管質(zhì)量的圖形化展示,可以實現(xiàn)企業(yè)排名,地區(qū)排名,行業(yè)排名,并能進一步鉆取數(shù)據(jù)。
(2)互聯(lián)網(wǎng)數(shù)據(jù)采集與展示,采用自動化、可擴展和安全高效的網(wǎng)絡(luò)信息采集工具,從互聯(lián)網(wǎng)抓取納稅人相關(guān)數(shù)據(jù)(包含但不限于財經(jīng)新聞、公告、財務(wù)報表等信息),并完成數(shù)據(jù)的分析、匹配,按戶構(gòu)建情報池并進行數(shù)據(jù)展示?,F(xiàn)己從互聯(lián)網(wǎng)上抓取了省內(nèi)上市公司在證券交易所的公告信息、招標采購網(wǎng)站成交公告信息、公共資源集中交易信息和部分市局房產(chǎn)交易信息等內(nèi)容。
(3)發(fā)票數(shù)據(jù)查詢與分析,整合多源頭、多渠道的發(fā)票數(shù)據(jù),形成統(tǒng)一發(fā)票數(shù)據(jù)池,為納稅人提供快速、高效的發(fā)票信息查驗服務(wù),下一步將面向稅務(wù)系統(tǒng)工作人員提供發(fā)票數(shù)據(jù)檢索、分析和挖掘計算等服務(wù)。
3 推進稅務(wù)大數(shù)據(jù)應(yīng)用的若干思考
安徽稅務(wù)大數(shù)據(jù)平臺雖已初步建成,然而這僅僅是大數(shù)據(jù)應(yīng)用的新起點,如何用活、用好大數(shù)據(jù),助力安徽稅務(wù)提升治稅能力,服務(wù)好稅務(wù)部門“放管服”工作大局,需要深入思考和堅持探索。
3.1 稅務(wù)大數(shù)據(jù)怎么用
大數(shù)據(jù)是新概念、新方法、新技術(shù),需要我們采用新思維,樹立正確的大數(shù)據(jù)理念,并在工作實踐中持續(xù)深入研究。
3.1.1 技術(shù)引領(lǐng)、業(yè)務(wù)驅(qū)動
推進大數(shù)據(jù)應(yīng)用。在這個過程中,大數(shù)據(jù)平臺通過數(shù)據(jù)挖掘、機器學(xué)習(xí)算法和數(shù)據(jù)可視化報表等先進技術(shù)去激發(fā)用戶想象力、激活分析應(yīng)用需求,大數(shù)據(jù)應(yīng)用的成效則反向推動大數(shù)據(jù)平臺不斷優(yōu)化完善。
3.1.2 擺正大數(shù)據(jù)應(yīng)用地位
既不能認為大數(shù)據(jù)無所不能,將其神秘化,也不能將所有數(shù)據(jù)應(yīng)用工作都貼上大數(shù)據(jù)標簽。將其神秘化往往會造成應(yīng)用設(shè)想和現(xiàn)實成果落差太大,影響信心。將大數(shù)據(jù)應(yīng)用標簽化,則會停留在現(xiàn)有的數(shù)據(jù)應(yīng)用水平。
3.1.3 和總局大數(shù)據(jù)平臺關(guān)聯(lián)
總局大數(shù)據(jù)平臺存儲全國的涉稅數(shù)據(jù),在納稅人風險識別、發(fā)票流向等方面比省級大數(shù)據(jù)平臺具有天然的優(yōu)勢,但在數(shù)據(jù)分析的靈活性,外部數(shù)據(jù)獲取的便捷性上效率不夠。因此,將總局和省局的大數(shù)據(jù)平臺的優(yōu)勢結(jié)合,才能充分發(fā)揮總局、省局兩級上下聯(lián)動的效果。
3.1.4 “摸著石頭過河”
為力求實效,建議采用“課題、案例、產(chǎn)品”的路徑分層遞進:先提出應(yīng)用需求,以課題形式進行研究,發(fā)現(xiàn)問題,積累經(jīng)驗;課題研究成果經(jīng)過稅務(wù)工作實踐初步檢驗后,形成應(yīng)用案例,在局部領(lǐng)域持續(xù)觀察、進一步驗證;應(yīng)用案例經(jīng)過時間的沉淀后,再固化為成熟的產(chǎn)品推廣應(yīng)用、擴大成果。
3.2 稅務(wù)大數(shù)據(jù)誰來用
大數(shù)據(jù)應(yīng)用取得成效的關(guān)鍵在人,由于稅務(wù)大數(shù)據(jù)的復(fù)雜性,既需要精通稅收業(yè)務(wù)與計算機技術(shù),又需要熟練掌握會計、數(shù)理統(tǒng)計等知識,還要通過涉稅數(shù)據(jù)之間的相關(guān)性分析深挖數(shù)據(jù)背后的價值。這樣的人才在稅務(wù)系統(tǒng)少之又少因而必須借助團隊的力量。
(1)成立大數(shù)據(jù)應(yīng)用課題組,從系統(tǒng)內(nèi)招募稅收業(yè)務(wù)骨干、稅收分析人才和計算機編程高手,在工作實踐中訓(xùn)練和培養(yǎng)大數(shù)據(jù)人才。
(2)借助大專院校、科研機構(gòu)和科技公司的外部力量,深入開展數(shù)據(jù)分析合作。
(3)充分鼓勵基層創(chuàng)新,大數(shù)據(jù)分析往往需要各種出其不意的想法,應(yīng)研究省、市局集中式分析團隊與基層分析小組的混合布局,既能統(tǒng)籌管理又有各地的發(fā)揮空間。
3.3 稅務(wù)大數(shù)據(jù)安全保障
海量數(shù)據(jù)的集中同時也意味著信息安全風險的高度集中,如何保障信息安全是大數(shù)據(jù)應(yīng)用不容回避的首要問題。而大數(shù)據(jù)平臺和應(yīng)用涉及網(wǎng)絡(luò)環(huán)境、計算平臺和存儲載體等方方面面,因此按照信息安全等級保護制度強化大數(shù)據(jù)安全保障能力,是解決大數(shù)據(jù)安全的唯一出路。
(1)用安全可信的私有云承載大數(shù)據(jù),保障物理環(huán)境安全。
(2)嚴控大數(shù)據(jù)網(wǎng)絡(luò)邊界,保障網(wǎng)絡(luò)通信安全。
(3)做好主機和存儲安全防護,保障大數(shù)據(jù)設(shè)備和計算安全。四是強化安全日志審計,保障應(yīng)用安全。五是建立大數(shù)據(jù)專項安全管理制度,保障管理安全。