汪疆平,肖戎
1. 北明軟件有限公司技術研究院,廣東 廣州 510663;2. 廣東省地方稅務局納稅服務處,廣東 廣州 510630
稅務大數(shù)據(jù)分析的技術和典型應用
汪疆平1,肖戎2
1. 北明軟件有限公司技術研究院,廣東 廣州 510663;2. 廣東省地方稅務局納稅服務處,廣東 廣州 510630
基于某省稅務局大數(shù)據(jù)分析項目的實踐,結(jié)合稅務機關的信息化建設現(xiàn)狀和業(yè)務特點,說明了如何搭建適合于稅務業(yè)務應用的大數(shù)據(jù)分析平臺,并結(jié)合具體的應用案例,說明運用大數(shù)據(jù)開展業(yè)務應用的過程、建模方法和數(shù)據(jù)處理方法。通過對比大數(shù)據(jù)與傳統(tǒng)信息化建設方式的差異,說明大數(shù)據(jù)將為稅務機關的信息化建設帶來全新的突破,提供更為有力的業(yè)務創(chuàng)新手段。
稅務;大數(shù)據(jù);技術架構(gòu);數(shù)據(jù)分析;融合創(chuàng)新
稅務機關是我國信息化建設起步較早的領域,特別是隨著以“金稅工程”為代表的信息系統(tǒng)的實施,各省稅務機關基本上都實現(xiàn)了業(yè)務信息化的全覆蓋,積累了龐大的數(shù)據(jù)資源。
但是,受制于業(yè)務條塊分隔、粗放式管理等問題,各部門的業(yè)務系統(tǒng)大多是獨立建設、自成體系;而且各地稅務機關往往根據(jù)業(yè)務需求自行開發(fā)輔助的應用系統(tǒng),造成了系統(tǒng)各自為政、標準不統(tǒng)一、業(yè)務難以協(xié)同、數(shù)據(jù)無法交換和共享等問題,成為制約稅務業(yè)務整合應用、向縱深發(fā)展的瓶頸。
例如,納稅服務部門面向納稅人提供綜合的辦稅服務,在“以人為本”的“互聯(lián)網(wǎng)+”時代,現(xiàn)有的各個業(yè)務系統(tǒng)分散建設和獨立運行的模式,已經(jīng)嚴重制約了納稅服務下一步的發(fā)展,具體表現(xiàn)為以下幾點:
● 分散建設的業(yè)務系統(tǒng),難以協(xié)同起來為納稅人提供統(tǒng)一的服務;
● 業(yè)務系統(tǒng)提供的基本都是結(jié)果數(shù)據(jù),缺乏行為記錄和服務過程信息,難以全面描繪辦稅業(yè)務,滿足優(yōu)化業(yè)務的需要;
● 基于管理需要而建立的業(yè)務系統(tǒng),無論是渠道、方式、流程或界面,都難以滿足互聯(lián)網(wǎng)時代納稅人的服務需求;
● “輔助決策系統(tǒng)”提供的統(tǒng)計數(shù)字,在多變的環(huán)境下,難以支撐對未來的業(yè)務預測;
● 海量的數(shù)據(jù)沉淀在信息系統(tǒng)中,現(xiàn)有技術和方法難以發(fā)掘其價值。
以云計算、大數(shù)據(jù)、移動互聯(lián)網(wǎng)為代表的新一代信息技術,提供了全新的技術、渠道和方法,通過與傳統(tǒng)業(yè)務的融合創(chuàng)新,正在給世界帶來巨大,甚至是顛覆性的變化,例如:互聯(lián)網(wǎng)金融、滴滴出行、精準醫(yī)療、自動駕駛汽車等都是典型的代表。國家先后出臺了大量政策文件,積極利用云計算、大數(shù)據(jù)、移動互聯(lián)等新技術推動傳統(tǒng)產(chǎn)業(yè)的轉(zhuǎn)型升級,在國家“十三五”發(fā)展規(guī)劃中,甚至將大數(shù)據(jù)上升到國家戰(zhàn)略。
這些新技術也為優(yōu)化稅務業(yè)務帶來了新的發(fā)展機遇,國家稅務總局先后發(fā)布了《互聯(lián)網(wǎng)+稅務行動計劃》《運用大數(shù)據(jù)開展大企業(yè)稅收服務與監(jiān)管試點工作》等指導文件,推動新一代信息技術在稅務機關的落地實施。
2015年,筆者參與了某省稅務局大數(shù)據(jù)平臺和分析應用項目的建設,該項目基于省數(shù)據(jù)中心匯集的全省各個主要業(yè)務系統(tǒng)的數(shù)據(jù),針對稅務領域的業(yè)務問題和發(fā)展趨勢,采用大數(shù)據(jù)方法和技術,抽取相關的數(shù)據(jù),建立業(yè)務分析模型,開展了面向納稅人的精準服務、業(yè)務過程優(yōu)化、服務渠道轉(zhuǎn)移關系分析等業(yè)務應用。項目于2016年投入了實際運行,在省、市、服務廳各級辦稅部門中應用,有力地推動了稅務機關管理大數(shù)據(jù)化、辦稅服務精細化、業(yè)務改進持續(xù)化的建設步伐,取得了稅務局用戶的充分肯定。
本文就是基于該項目的實踐,對稅務機關如何利用大數(shù)據(jù)推動業(yè)務優(yōu)化、科學決策、精準服務、融合創(chuàng)新進行較為深入的探討。
2.1 稅務大數(shù)據(jù)分析平臺總體框架
傳統(tǒng)的信息技術主要是輔助業(yè)務,而大數(shù)據(jù)已經(jīng)遠遠超出了技術領域,其力量體現(xiàn)在與業(yè)務相結(jié)合,優(yōu)化現(xiàn)有的業(yè)務,甚至進行顛覆性的創(chuàng)新,這樣的案例每天都在各個領域發(fā)生。稅務機構(gòu)同樣可以利用大數(shù)據(jù)預知未來的發(fā)展動態(tài),推動業(yè)務的轉(zhuǎn)型升級,優(yōu)化管理和服務模式。
考慮到大數(shù)據(jù)與業(yè)務的融合是一個長期的過程,為了能持續(xù)地開展大數(shù)據(jù)分析工作,首先要建立稅務大數(shù)據(jù)分析平臺,統(tǒng)一采集和管理來自各個業(yè)務系統(tǒng)的數(shù)據(jù),并提供從數(shù)據(jù)處理到應用展現(xiàn)的一系列功能,支撐基于大數(shù)據(jù)的業(yè)務應用。大數(shù)據(jù)平臺的總體框架分為:數(shù)據(jù)源層、數(shù)據(jù)處理層、應用支撐層、業(yè)務應用層,如圖1所示。
圖1 稅務大數(shù)據(jù)分析平臺總體框架
數(shù)據(jù)源層:大數(shù)據(jù)分析不僅需要稅務機關內(nèi)部的業(yè)務系統(tǒng)數(shù)據(jù),而且需要豐富多彩的外部機構(gòu)數(shù)據(jù),這些數(shù)據(jù)有助于解決更為廣泛的業(yè)務問題。
數(shù)據(jù)處理層:稅務機關內(nèi)部的數(shù)據(jù)通過數(shù)據(jù)同步/抽取工具匯集到數(shù)據(jù)中心;外部機構(gòu)的數(shù)據(jù)通過對應的采集工具,交換到稅務機關內(nèi)部的數(shù)據(jù)中心。為了應對呈指數(shù)增長的非結(jié)構(gòu)化數(shù)據(jù),在云平臺上搭建NoSQL數(shù)據(jù)庫,用于存儲和處理龐大的數(shù)據(jù)。
應用支撐層:按照業(yè)務分析的要求,建立相應的數(shù)據(jù)模型,在平臺中封裝了各種分析算法組件和展示模板;為支撐不同的業(yè)務應用場景,提供基礎的分析工具(如數(shù)據(jù)挖掘、網(wǎng)絡分析、可視化等),提供統(tǒng)一的管理工具(如基礎數(shù)據(jù)管理、數(shù)學模型管理、標簽管理、運行維護等)。
業(yè)務應用層:針對具體的業(yè)務場景,建立眾多基于大數(shù)據(jù)平臺的“小應用”,解決具體的業(yè)務問題;各個“小應用”具有各自的分析功能和展示界面,甚至與社會服務渠道相融合,針對不同的用戶對象提供相應的功能。
2.2 大數(shù)據(jù)平臺和工具的選擇
隨著“金稅工程”的不斷深入,稅務數(shù)據(jù)資源的種類不斷豐富,數(shù)據(jù)量快速增長,特別是近年來飛速增長的電子票據(jù)、視頻、網(wǎng)頁等非結(jié)構(gòu)化數(shù)據(jù),已經(jīng)超出了目前的處理能力。如何采集、存儲和利用龐大的涉稅數(shù)據(jù),進而從海量的數(shù)據(jù)中挖掘有價值的信息,已然成為稅收信息化面臨的一個重大課題。從結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)向大數(shù)據(jù)是下一步發(fā)展的必然選擇。
近年來,大數(shù)據(jù)平臺呈現(xiàn)出蓬勃發(fā)展的態(tài)勢,成百上千家廠商提供了眾多大數(shù)據(jù)平臺產(chǎn)品。大部分大數(shù)據(jù)產(chǎn)品都具有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理、海量數(shù)據(jù)分布式存儲、彈性擴容等基本功能,因此,稅務機關在選擇大數(shù)據(jù)平臺時,主要應該考慮與具體業(yè)務應用場景相關的一些因素,具體情況如下。
● 發(fā)行版本:大部分廠商的大數(shù)據(jù)平臺都是建立在Hadoop之上的發(fā)行版,附加了一些工具和服務支持。不同于結(jié)構(gòu)化數(shù)據(jù)庫,大數(shù)據(jù)工具的選擇取決于要處理哪種數(shù)據(jù),不可幻想有一個大數(shù)據(jù)平臺能夠適應各種應用場景。另外,政府機構(gòu)還必須把是否國產(chǎn)軟件列入考慮因素。
● 數(shù)據(jù)處理效率:很多大數(shù)據(jù)平臺非常適合非結(jié)構(gòu)化數(shù)據(jù)處理,但是在結(jié)構(gòu)化數(shù)據(jù)處理方面卻遠遜于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫。而目前稅務機構(gòu)的業(yè)務數(shù)據(jù)主要是海量結(jié)構(gòu)化數(shù)據(jù),對結(jié)構(gòu)化數(shù)據(jù)的處理效率是必須關注的一個重點問題。當然,非結(jié)構(gòu)化數(shù)據(jù)的處理,更是需要考慮的關鍵問題。
● 對復雜類型的數(shù)據(jù)管理和分析能力:稅務領域的業(yè)務應用場景非常廣泛,涉及的數(shù)據(jù)類型和來源也非常豐富,因此對數(shù)據(jù)的加工處理、分析挖掘能力的要求也比較高。
● 運維、監(jiān)控工具的便捷性:稅務領域的數(shù)據(jù)源非常廣泛,很多應用場景需要進行實時分析,但是數(shù)據(jù)源經(jīng)常會發(fā)生變化,直接影響采集的數(shù)據(jù)質(zhì)量,因而需要有工具監(jiān)測數(shù)據(jù)源和采集數(shù)據(jù)的異常情況,及時采取糾正措施。
經(jīng)過項目實踐,推薦的適用于稅務機構(gòu)的大數(shù)據(jù)技術實現(xiàn)架構(gòu)如圖2所示。
2.3 數(shù)據(jù)源和數(shù)據(jù)采集
大數(shù)據(jù)采集框架如圖3所示。經(jīng)過20多年的信息化建設,某省稅務局目前正在使用的應用系統(tǒng)超過100個,主要的系統(tǒng)有金三系統(tǒng)、社保系統(tǒng)、發(fā)票在線、自助終端、12366服務熱線等,基本覆蓋了稅務管理各方面的工作內(nèi)容,其中,金三系統(tǒng)、社保系統(tǒng)等每天都會產(chǎn)生數(shù)百萬筆業(yè)務數(shù)據(jù)。另外,稅務業(yè)務還涉及工商、質(zhì)監(jiān)、交易中心等政府部門的共享數(shù)據(jù)以及來自移動互聯(lián)網(wǎng)、網(wǎng)絡社交媒體等方面的外部數(shù)據(jù)。數(shù)據(jù)格式覆蓋了文件、地理信息、日志、圖片、流媒體等多種形態(tài)。豐富的數(shù)據(jù)源,為開展大數(shù)據(jù)分析奠定了堅實的基礎,而眾多五花八門、來源各異的數(shù)據(jù)源,也帶來了非常復雜的數(shù)據(jù)清洗工作。
信息化建設較為發(fā)達的省級稅務局一般都建立了數(shù)據(jù)中心,實時將業(yè)務系統(tǒng)的數(shù)據(jù)(大部分是結(jié)構(gòu)化數(shù)據(jù))同步到數(shù)據(jù)中心,大部分非結(jié)構(gòu)化數(shù)據(jù)則存儲在原業(yè)務系統(tǒng)中,局外的數(shù)據(jù)通過數(shù)據(jù)交換接口傳輸?shù)絻?nèi)網(wǎng),集中存儲到數(shù)據(jù)中心。
圖2 稅務大數(shù)據(jù)平臺技術架構(gòu)
2.4 數(shù)據(jù)處理
具體的業(yè)務分析應用,通過數(shù)據(jù)接口將涉及的數(shù)據(jù)從省級數(shù)據(jù)中心抽取出來,對這些多源、異構(gòu)、海量的原始業(yè)務數(shù)據(jù)進行清洗、轉(zhuǎn)換、對碰等預處理,將數(shù)據(jù)存儲到大數(shù)據(jù)庫,形成針對不同業(yè)務分析的數(shù)據(jù)集。例如:辦稅事項的預測場景中,需要將辦稅業(yè)務劃分為12個大類、180多個事項,通過與金稅三期核心系統(tǒng)的數(shù)據(jù)對碰,還原每個辦稅事項的過程信息。
2.4.1 數(shù)據(jù)處理的復雜性
稅務大數(shù)據(jù)涉及多源、異構(gòu)、多維、海量的業(yè)務數(shù)據(jù),處理和分析的復雜度和難度都遠高于傳統(tǒng)的數(shù)據(jù)分析,具體表現(xiàn)在以下幾點。
● 省稅務局一般都有100多個業(yè)務系統(tǒng),各個系統(tǒng)提供的原始數(shù)據(jù)往往存在標準不統(tǒng)一、一致性低、規(guī)范性差等問題,而且系統(tǒng)經(jīng)常進行更新,需要持續(xù)維護數(shù)據(jù)接口,才能保證原始數(shù)據(jù)的質(zhì)量。
● 目前,大部分業(yè)務系統(tǒng)中記錄的都是結(jié)果數(shù)據(jù),很難匹配大數(shù)據(jù)分析需要的分類、分渠道、分時段等過程要求,例如,業(yè)務優(yōu)化、納稅服務等業(yè)務都是針對過程進行分析的。
眾多開發(fā)商提供的原始業(yè)務數(shù)據(jù)匯集在一起時,由于邏輯關系比較復雜,梳理業(yè)務與數(shù)據(jù)之間的關系需要耗費大量的溝通和梳理工作,清洗、轉(zhuǎn)換、對碰等預處理的工作量大,而且錯誤率高。
● 一些應用場景需要采集外部數(shù)據(jù)(如地理位置、企業(yè)信息、社交網(wǎng)絡等),通過接口導入數(shù)據(jù)中心,形成對業(yè)務的全景式描述。但是,目前外部數(shù)據(jù)的獲取和質(zhì)量是各個機構(gòu)都面臨的難題。
圖3 大數(shù)據(jù)采集框架
2.4.2 數(shù)據(jù)匯集流程
受制于業(yè)務分隔的問題,每個稅務業(yè)務系統(tǒng)只是服務于某個領域的具體業(yè)務,當各個業(yè)務系統(tǒng)的數(shù)據(jù)匯集到數(shù)據(jù)中心的時候,通過將不同來源的數(shù)據(jù)整合在一起,形成對業(yè)務的全盤認識,進而從全局的層面找到更好的方法優(yōu)化業(yè)務,這就是數(shù)據(jù)匯集的價值所在。圖4是一個比較典型的稅務機關通過數(shù)據(jù)匯集實現(xiàn)業(yè)務優(yōu)化的案例。
例如,進行納稅服務過程的相關分析時,金三系統(tǒng)中記錄的是納稅結(jié)果數(shù)據(jù);排隊叫號和納稅人評價系統(tǒng)中有時間數(shù)據(jù),但是每次叫號、評價的過程可能會辦理多項業(yè)務,以辦稅人和時間為紐帶,將金三系統(tǒng)與排隊叫號和納稅人評價系統(tǒng)中的數(shù)據(jù)進行對碰,形成辦稅過程的數(shù)據(jù);再根據(jù)海量的辦稅過程數(shù)據(jù)—— 188個辦稅事項的組合,計算分離后不同辦稅事項的辦理時間,由此,還原出每個辦稅人每次辦稅事項的過程數(shù)據(jù)。有了這些細分的數(shù)據(jù),就為業(yè)務變化預測、服務流程優(yōu)化等分析工作提供了堅實的基礎。
2.4.3 辦稅事項數(shù)據(jù)對碰
由于不同系統(tǒng)從不同維度記錄數(shù)據(jù),因此當需要全局數(shù)據(jù)時,常常需要將幾個系統(tǒng)的數(shù)據(jù)進行對碰,形成一件事情的全維信息。例如:金三系統(tǒng)記錄了辦稅結(jié)果,排隊叫號系統(tǒng)記錄了叫號時間,服務評價系統(tǒng)記錄了評價時間,以納稅人ID為核心將這3個系統(tǒng)的數(shù)據(jù)進行對碰,就可以形成辦稅事項的過程信息,見表1和表2。
圖4 典型的稅務數(shù)據(jù)整合應用的流程
表1 金三系統(tǒng)(社保等系統(tǒng)與此類似)
表2 排隊叫號系統(tǒng)和服務評價系統(tǒng)
金三系統(tǒng)、排隊叫號系統(tǒng)、服務評價系統(tǒng)分別記錄了辦稅事項的信息,以辦稅員ID為鍵值,將3個系統(tǒng)辦稅事項的時間串聯(lián)在一起。由于辦稅員在不同系統(tǒng)中的身份和權限并非完全一致,在不同系統(tǒng)中可能使用了不同的ID,所以,還要將辦稅員的身份一一對應起來,見表3和表4。
以上只是一個簡單的數(shù)據(jù)對碰示例,實際情況遠比上面列出的情況復雜,例如:不同服務器的時鐘不一致、不同服務廳的操作方法不一致等問題,導致對碰的結(jié)果存在較多誤差。以上的對碰示例,通過一系列的規(guī)范化操作,最終全省平均準確率達到了78%左右。對碰出來的數(shù)據(jù),剔除不準確的數(shù)據(jù),剩下的數(shù)據(jù)量也足夠大,可以得出每個服務廳每個辦稅事項的平均辦理時間。
由此可見,數(shù)據(jù)對碰是一項不得已而為之的數(shù)據(jù)處理工作,需要花費大量時間理解不同系統(tǒng)之間的數(shù)據(jù)邏輯,還要花費大量時間解決對碰不準確的問題,最終的準確率還不一定能讓用戶滿意。這種問題產(chǎn)生的原因就在于當初設計系統(tǒng)時,沒有考慮目前有這么豐富的應用需求,或者不同的部門對數(shù)據(jù)的需求不一致,需要將不同系統(tǒng)的數(shù)據(jù)匯集在一起還原當時的辦理信息。
隨著“循數(shù)管理”“以數(shù)據(jù)為中心”思想的深入貫徹,大家會越來越重視原始數(shù)據(jù)的采集工作,在處理業(yè)務的過程中補充自己不需要但是其他部門會需要的數(shù)據(jù)。這樣,才可以從根本上減輕數(shù)據(jù)處理的壓力。
2.4.4 應用支撐
本著“大平臺、小應用”的設想,大數(shù)據(jù)平臺針對業(yè)務應用,提供了開發(fā)工具、分析工具和管理工具,為基于大數(shù)據(jù)的創(chuàng)新應用提供技術支撐。開發(fā)工具包括工作流、模型引擎、可視化、視頻等應用組件,分析工具包括數(shù)據(jù)挖掘、機器學習、網(wǎng)絡分析、可視化展現(xiàn)等,管理工具包括基礎數(shù)據(jù)管理、數(shù)學模型管理、標簽管理、運行維護等。這些平臺上的支撐工具,使得各個業(yè)務部門可以按照業(yè)務需求,自行搭建應用系統(tǒng),更加自主、快速、靈活。
大數(shù)據(jù)分析與基于數(shù)據(jù)倉庫的商業(yè)智能(business intelligence,BI)分析有非常顯著的差異,BI分析通常都是基于明確的業(yè)務邏輯和數(shù)據(jù)邏輯。而大數(shù)據(jù)要解決的問題開始時往往都只有大致的方向,需要收集信息和數(shù)據(jù)逐步明確問題,分析過程中通常也不是依靠邏輯關系建立數(shù)學模型,而是通過訓練數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)關系,建立相應的數(shù)據(jù)模型,甚至直接通過數(shù)據(jù)得出結(jié)論。大數(shù)據(jù)可以適用的分析方法比BI更加豐富,需要數(shù)學家、業(yè)務專家和數(shù)據(jù)處理專家的緊密配合才能完成。
表3 金三系統(tǒng)、排隊叫號系統(tǒng)中的辦稅員ID對應關系
表4 碰撞結(jié)果—辦稅事項的過程信息
2.4.5 業(yè)務應用
大數(shù)據(jù)與稅務業(yè)務相融合,應用的范圍和發(fā)揮的作用都遠超以往信息化建設的成果,成為帶動稅務深化改革的利器。例如:納稅人涉稅風險評估、稅收政策效果測度、面向納稅人的精準服務、辦稅流程優(yōu)化等。
我國的稅務改革呈現(xiàn)小步快跑的方式,在未來幾年將發(fā)生一系列改變。如何保證政策的科學性、合理性,將變化控制在預期的范圍中?以前很多情況都是憑借經(jīng)驗做出決策,而采用大數(shù)據(jù)技術和方法,就可以根據(jù)積累的數(shù)據(jù),分析得出采取某項措施后,可能帶來的影響。在某省稅務局的大數(shù)據(jù)分析項目中,利用大數(shù)據(jù)技術和方法小試牛刀,在采集整合各業(yè)務系統(tǒng)、各辦稅服務渠道和外部機構(gòu)數(shù)據(jù)的基礎上,構(gòu)建能夠?qū)崟r、全程、多元反映納稅服務運行狀態(tài)的業(yè)務模型,完成了政策影響分析、辦稅事項業(yè)務量預測、面向納稅人的精準服務等應用場景,取得了非常好的效果。
稅務機關擁有海量的數(shù)據(jù)資源,也有豐富的應用場景,推動業(yè)務與新一代信息技術(如云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián))相融合,可以突破以往信息系統(tǒng)的輔助作用,以技術推動稅務業(yè)務的創(chuàng)新發(fā)展。
下面以一個簡單的大數(shù)據(jù)應用案例,說明如何開展大數(shù)據(jù)的分析應用。
3.1 案例:服務能力匹配度分析
隨著稅制改革和電子辦稅的深入推進,未來辦稅服務廳的業(yè)務將發(fā)生哪些變化?如何調(diào)整資源配置,能夠匹配業(yè)務的變化?
針對這個業(yè)務場景,運用大數(shù)據(jù)解決問題的過程如圖5所示,具體如下。
圖5 服務能力匹配分析的過程
● 將來自不同業(yè)務系統(tǒng)的數(shù)據(jù)從數(shù)據(jù)中心抽取到NoSQL數(shù)據(jù)庫中,經(jīng)過清洗、對碰等處理后,形成關于政策影響分析需要的數(shù)據(jù)集。
● 基于業(yè)務經(jīng)驗,篩選影響因子,建立數(shù)學模型,通過訓練數(shù)據(jù)確定相關度較高的影響因子,建立政策影響模型、188個辦稅事項的業(yè)務形態(tài)模型和各個服務廳的業(yè)務形態(tài)模型。
● 選擇近期的月份作為測試數(shù)據(jù),驗證模型的準確性,如果可信度能達到預期,就依據(jù)現(xiàn)有的參數(shù)建立預測模型,否則返回修正因子或者算法,或者查找數(shù)據(jù)問題。
● 利用建立的數(shù)學模型,預測政策變化后業(yè)務量的形態(tài)。
● 針對每個服務廳,基于以往的數(shù)據(jù),建立服務廳效能模型。
● 將預測的業(yè)務形態(tài)輸入辦稅服務廳效能模型,計算完成所有業(yè)務量需要的時間,與辦稅服務廳所能提供的總服務時長進行對比分析。
● 根據(jù)未來業(yè)務的變化趨勢和服務廳的效能,采取優(yōu)化措施,例如:調(diào)整服務廳/服務人員的配置;優(yōu)化業(yè)務流程;改進應用系統(tǒng)的處理效率等。
服務能力匹配分析的案例中,關鍵就是建立業(yè)務量的預測模型,188個辦稅事項中有些與稅期相關,有些與節(jié)假日相關,有些周期性明顯,有些具有隨機性,而且每個服務廳的業(yè)務形態(tài)也不一樣,應對不同服務廳不同辦稅事項建立各自的業(yè)務量預測模型。傳統(tǒng)的數(shù)據(jù)建模方法是建立模型,通過歷史數(shù)據(jù)計算參數(shù),形成業(yè)務模型;而在大數(shù)據(jù)時代,機器學習、數(shù)據(jù)挖掘以及人工智能等算法提供了更為豐富的建模手段。例如,業(yè)務量預測模型就是利用機器學習的方法,具體過程如下。
● 基于不同服務廳不同辦稅事項的歷史數(shù)據(jù)建立各自的訓練集,篩選影響業(yè)務量變化的因子。
● 使用關鍵影響因子(如日期、稅期、節(jié)假日等)擬合訓練集數(shù)據(jù),選擇合適的數(shù)學模型,利用訓練集數(shù)據(jù)不斷優(yōu)化計算模型中的各項參數(shù),例如:先后嘗試了一元一次線性回歸、多元線性回歸、多元二次線性回歸等方法,不斷逼近回歸模型中的系數(shù)和指數(shù)等參數(shù)的最優(yōu)解。
● 將建立的預測模型應用于驗證集數(shù)據(jù),檢驗模型的預測效果能否達到預期目標,如果不理想,增加數(shù)據(jù)來源,嘗試不同的數(shù)據(jù)變換,進一步選擇擬合度高和泛化能力強的數(shù)學模型,優(yōu)化業(yè)務量預測模型預測結(jié)果和計算速率。
● 如此反復多次,最終確定每個服務廳的每個辦稅事項的數(shù)學模型。
例如:在項目執(zhí)行期間,恰逢2016年5月1日開始推行營業(yè)稅改增值稅(以下簡稱“營改增”),系統(tǒng)在4月份預測了“營改增”后辦稅業(yè)務的變化形態(tài),并以可視化的方式展現(xiàn)出來。預測結(jié)果與實際情況對照,全省每天的預測結(jié)果與實際值差距在7%以內(nèi),各市每天的預測結(jié)果基本在15%以內(nèi),規(guī)模較大的服務廳每天的預測結(jié)果基本在21%以內(nèi)(規(guī)模較小的服務廳由于業(yè)務的隨機性較大,預測的價值不大),預測準確度屬于比較高的水平。而且,預測結(jié)果比業(yè)務人員憑經(jīng)驗估算的結(jié)果更接近真實情況。此外,系統(tǒng)計算速度完全滿足業(yè)務要求,能夠?qū)I(yè)務量預測結(jié)果及時有效地反饋給相關部門。
基于預測結(jié)果,可以有針對性地調(diào)整服務廳的資源配置(如人員、窗口、時間等),系統(tǒng)最終呈現(xiàn)出來的業(yè)務量與服務能力匹配情況,如圖6所示。
3.2 其他業(yè)務應用案例
在項目實施過程中,還開展了其他的業(yè)務應用,具體如下。
● 面向納稅人的微信推薦:以納稅人為中心,從內(nèi)、外多個數(shù)據(jù)源采集納稅人的信息,通過采用主成分分析、獨立成分分析和聚類算法等數(shù)據(jù)分析方法,為每個納稅人繪制“畫像”,建立特征標簽;根據(jù)納稅人的特征,在開展活動時,選擇符合條件的納稅人群,發(fā)送特定的信息。
● 服務廳分級管理:采用大數(shù)據(jù)的方法,對候選的15個評價指標,通過降維、主成分分析、特征矩陣分裂等機器學習方法,選取相關度最大的7類指標項;從業(yè)務數(shù)據(jù)中計算出自適應的權重系數(shù),采用關鍵績效指標(key performance indicator,KPI)算法計算服務廳的標準得分,采用聚類算法劃分出服務廳的類別。
● 服務人員畫像:采集業(yè)務系統(tǒng)中與服務人員相關的數(shù)據(jù)和外部信息,從屬性、效能、滿意度、負荷、獨立性5個維度進行畫像描述,展現(xiàn)服務人員的總體特征和詳細特征,為辦稅流程的優(yōu)化、資源配置的優(yōu)化和服務能力指數(shù)的建立提供基礎信息。
針對不同的應用場景,采用不同的分析方法,建立不同的模型,運用不同的處理手段,從中可以看到:大數(shù)據(jù)推動了稅務業(yè)務與更廣泛的外部資源相結(jié)合,遠遠超出以往信息化建設的范圍,能夠在更多的領域,采用更多的手段解決業(yè)務問題。
而且,大數(shù)據(jù)將帶給稅務信息化三大轉(zhuǎn)變:從關注結(jié)果向關注過程的服務視角轉(zhuǎn)變;從分散系統(tǒng)向協(xié)同運作的應用模式轉(zhuǎn)變;從經(jīng)驗管理向精準管理的粒度轉(zhuǎn)變,因而其發(fā)展?jié)摿O其巨大。
圖6 某服務廳在“營改增”前后的業(yè)務形態(tài)和能力匹配情況
大數(shù)據(jù)在稅務領域的應用,目前還處于起步階段,在項目中只是在大數(shù)據(jù)分析方面做了很小的嘗試,還有非常豐富的業(yè)務場景有待發(fā)掘。
基于實踐經(jīng)驗可以得出以下結(jié)論。
● 數(shù)據(jù)采集和處理是目前大數(shù)據(jù)應用的首要問題。隨著稅務深化改革,面向納稅人提供服務將成為重點建設內(nèi)容,要實現(xiàn)這個轉(zhuǎn)變,就必須圍繞納稅人采集過程信息和行為信息,這是目前稅務信息系統(tǒng)沒有的,也是現(xiàn)階段進行大數(shù)據(jù)分析面臨的最主要問題。下一步的稅務信息化建設,必須重視對業(yè)務過程數(shù)據(jù)和納稅人行為數(shù)據(jù)的采集工作。
● 以大數(shù)據(jù)為代表的新一代信息技術,將徹底改變稅務信息化的應用模式。越來越多的數(shù)字化設備、音視頻、傳感器等收集了豐富的數(shù)據(jù),互聯(lián)網(wǎng)將社會的各種機構(gòu)連接在一起,大數(shù)據(jù)平臺提供了各類數(shù)據(jù)的處理功能,云計算將信息化的分層結(jié)構(gòu)轉(zhuǎn)變?yōu)榫W(wǎng)狀結(jié)構(gòu),移動互聯(lián)網(wǎng)終端又將各種業(yè)務匯集到納稅人的手上。稅務信息化面臨巨大的變革,與新一代信息技術相融合,將能夠產(chǎn)生前所未有的應用場景。
● 從傳統(tǒng)BI向大數(shù)據(jù)分析的演進。大數(shù)據(jù)分析方法與傳統(tǒng)BI采用了不同的處理方法,其三大特征(使用全樣本數(shù)據(jù);使用混雜的數(shù)據(jù),放棄對數(shù)據(jù)精確性的要求;通過現(xiàn)象之間的聯(lián)系進行預測,放棄對因果關系的探求)更貼近于稅務實際工作中的情況。采用大數(shù)據(jù)技術和方法,基于各個領域的數(shù)據(jù),可以使業(yè)務部門更加清晰地了解業(yè)務的細節(jié),更為透徹地理解業(yè)務的形態(tài),預知實施改進措施后的業(yè)務變化情形,從而更有目的地優(yōu)化業(yè)務過程,改進服務方法。
[1]維克托·邁爾-舍恩伯格, 肯尼斯·庫克耶. 大數(shù)據(jù)時代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯. 杭州: 浙江人民出版社, 2012.
MAYER-SCH·NBERGER V, CUKIER K. Big data: a revolution that will transform how we live, work and think[M]. Translated by SHENG Y Y, ZHOU T. Hangzhou: Zhejiang People’s Publishing House, 2012.
[2]孫懿. 大數(shù)據(jù)時代對稅務工作的挑戰(zhàn)與對策[J].學術交流, 2015(6): 133-139.
SUN Y. Challenge and countermeasure of tax work in the era of big data [J]. Academic Exchange, 2015(6): 133-139.
[3]于眾. 大數(shù)據(jù)環(huán)境下稅收數(shù)據(jù)深度利用探索[J].經(jīng)濟研究導刊, 2016(13): 78-79.
YU Z. Deep exploration of tax data in big data environment[J]. Economic Research Guide, 2016(13): 78-79.
Big data analysis technology and application on taxation
WANG Jiangping1, XIAO Rong2
1. Technology Institute of BeiMing Software Co., Ltd., Guangzhou 510663, China
2. Tax Collection and Management Services Offices of Guangdong Province Local Tax Bureau, Guangzhou 510630, China
Based on the practice of big data analysis on a provincial tax bureau, this study aimed to illustrate the issue on how to construct a big data analysis platform adapting for tax administration in the current informative situation, as well as the approaches of data processing and modeling in the application. Compared with traditional information approach, this research illustrated that big data analysis on taxation would be a powerful innovation with remarkable breakthroughs in tax administrational information construction.
taxation, big data, technical architecture, data analysis, integrated innovation
G202
A
10.11959/j.issn.2096-0271.2017022
汪疆平(1970-),男,北明軟件有限公司技術研究院高級工程師、副院長,主要研究方向為智慧城市技術框架、大數(shù)據(jù)。
肖戎(1974-),女,廣東省地方稅務局高級工程師、副處長,主要研究方向為稅收管理信息化。
2017-01-23
廣州市2016年產(chǎn)學研協(xié)同創(chuàng)新重大專項基金資助項目(No.201604010077)
Foundation Item: 2016 Guangzhou Collaborative Innovation Key Research Project (No.201604010077)