• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)算法的納稅遵從風(fēng)險(xiǎn)識(shí)別以及影響因子分析

      2015-01-01 03:16:02孫存一趙瑜
      關(guān)鍵詞:決策樹納稅關(guān)聯(lián)

      孫存一 趙瑜

      (中國(guó)人民大學(xué) 金融財(cái)政學(xué)院,北京100872)

      一、引 言

      伴隨知識(shí)社會(huì)的來(lái)臨,驅(qū)動(dòng)當(dāng)今社會(huì)變革的不僅僅是無(wú)所不在的網(wǎng)絡(luò),還有無(wú)所不在的計(jì)算、無(wú)所不在的數(shù)據(jù)、無(wú)所不在的知識(shí)?;ヂ?lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí)等洶涌來(lái)襲,這不僅僅是信息技術(shù)領(lǐng)域的革命,更是啟動(dòng)創(chuàng)新、引領(lǐng)變革的利器,“大數(shù)據(jù)戰(zhàn)略”給稅務(wù)工作帶來(lái)了新的機(jī)遇,稅收數(shù)據(jù)的分析正面臨著新一輪的改革和優(yōu)化。不可否認(rèn),稅務(wù)部門經(jīng)過(guò)30多年的信息化建設(shè),數(shù)據(jù)已初具規(guī)模,龐大的稅收數(shù)據(jù)帶來(lái)了可供深度挖掘和細(xì)致分析的潛在價(jià)值,同時(shí)又具有分散多樣、價(jià)值密度低等特征,如何基于復(fù)雜的數(shù)據(jù)進(jìn)行分析、整合,從而發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值?這值得全社會(huì)、尤其是數(shù)據(jù)分析者思考、研究和關(guān)注。

      在經(jīng)濟(jì)稅收領(lǐng)域,大多文獻(xiàn)所介紹的模型對(duì)數(shù)據(jù)有一定的要求或假定,而且模型本身也可以有較明確的數(shù)學(xué)形式,關(guān)于模型或擬合的優(yōu)劣,大都根據(jù)對(duì)數(shù)據(jù)的分布假定得到的檢驗(yàn)來(lái)判斷。但是,在大數(shù)據(jù)時(shí)代下,人們根本無(wú)法對(duì)真實(shí)的稅收數(shù)據(jù)的分布做任何假定,同時(shí),也很難想象復(fù)雜的現(xiàn)實(shí)世界能夠用有限的數(shù)學(xué)公式來(lái)描述。之前“假定分布=>用明確的數(shù)學(xué)模型來(lái)擬合=>假設(shè)檢驗(yàn)=>P值”的經(jīng)典過(guò)程,似乎難以滿足大數(shù)據(jù)時(shí)代分析需求。決策將越來(lái)越多地由數(shù)據(jù)來(lái)驅(qū)動(dòng),而不是由傳統(tǒng)的理論或經(jīng)驗(yàn)來(lái)驅(qū)動(dòng)。如何選用代表大數(shù)據(jù)分析方法、又能和稅收業(yè)務(wù)相結(jié)合的分析方法,精確制導(dǎo)稅收業(yè)務(wù)應(yīng)是下一步研究的方向和重點(diǎn)。

      眾所周知,不斷變化與發(fā)展的經(jīng)濟(jì)稅源狀況給傳統(tǒng)的稅收征管方式帶來(lái)了新挑戰(zhàn),經(jīng)過(guò)幾年的實(shí)踐,稅收風(fēng)險(xiǎn)識(shí)別成為風(fēng)險(xiǎn)管理在稅務(wù)管理應(yīng)用的基礎(chǔ)和軟肋。在風(fēng)險(xiǎn)管理中,納稅遵從風(fēng)險(xiǎn)是稅務(wù)工作的核心問(wèn)題,圍繞納稅遵從風(fēng)險(xiǎn)的研究很多,一直以來(lái),房地產(chǎn)業(yè)納稅遵從風(fēng)險(xiǎn)識(shí)別難度極大,房地產(chǎn)業(yè)周期較長(zhǎng),受經(jīng)濟(jì)波動(dòng)、政策因素等影響大,同時(shí)再加上房地產(chǎn)業(yè)的產(chǎn)業(yè)鏈條多、財(cái)稅核算復(fù)雜等因素,其涉稅行為難以描述。房地產(chǎn)業(yè)納稅遵從有多大?主要風(fēng)險(xiǎn)指標(biāo)如何刻畫?提高房地產(chǎn)業(yè)納稅遵從度應(yīng)該如何入手?等等問(wèn)題懸而未決,以機(jī)器學(xué)習(xí)為基礎(chǔ)的大數(shù)據(jù)分析技術(shù)便成了破局之選。本文基于實(shí)證分析,運(yùn)用新手段、新技術(shù)、新理念、新方法,并將其應(yīng)用于房地產(chǎn)納稅遵從識(shí)別,為我國(guó)建立以大數(shù)據(jù)分析為支撐、以風(fēng)險(xiǎn)管理為導(dǎo)向、以分類分級(jí)管理為基礎(chǔ)的現(xiàn)代房地產(chǎn)稅源專業(yè)化管理方法,提供了科學(xué)依據(jù)和技術(shù)支撐,同時(shí)也對(duì)其他領(lǐng)域、其他行業(yè)、其他主題的大數(shù)據(jù)分析具有參考價(jià)值。

      二、文獻(xiàn)綜述

      公開文獻(xiàn)顯示,我國(guó)對(duì)納稅遵從的測(cè)度是在借鑒國(guó)外的理論體系框架,結(jié)合我國(guó)征管實(shí)際的基礎(chǔ)之上進(jìn)行的,在計(jì)量方法體系上比較有代表性的有:夏南新(2000)運(yùn)用現(xiàn)金比率模型對(duì)我國(guó)1979-1998年的進(jìn)行了測(cè)試。梁朋(2001)、郝春虹(2004)等對(duì)我國(guó)地下經(jīng)濟(jì)以及相關(guān)的稅收流失缺口規(guī)模進(jìn)行了估算。賈紹華(2002)以國(guó)家公布的統(tǒng)計(jì)資料為數(shù)據(jù)來(lái)源,測(cè)算了我國(guó)1995-2000年間的稅收收入流失情況。譚榮華,梁季(2005)通過(guò)對(duì)1999-2002年增值稅收入能力的估算,通過(guò)征管力度得出由于征管努力程度不足導(dǎo)致的稅收流失,通過(guò)比對(duì)實(shí)際征收數(shù),得出稅收流失率,進(jìn)而得出稅收遵從度。童疆明(2009)將實(shí)驗(yàn)的方法引入到對(duì)納稅人稅收遵從主要影響因素的分析中,結(jié)果表明下列因素有助于提高納稅人的稅收遵從度:較高的稅收檢查概率、較多的公共物品和服務(wù)、罰款率、較全面的“第三方報(bào)告的收入”信息??偠灾?dāng)前國(guó)內(nèi)理論界的學(xué)者、稅收實(shí)務(wù)部門的工作者對(duì)稅收遵從進(jìn)行了較為廣泛的研究,既有宏觀層次的源于不遵從導(dǎo)致的稅收流失規(guī)模的估算,也有從經(jīng)典理論出發(fā)的稅收遵從理論探索,但相當(dāng)多的研究仍屬于跟蹤應(yīng)用,使用宏觀數(shù)據(jù)或者是單指標(biāo)等分析手段,暴露出的問(wèn)題有:(1)模型美觀、易解釋、好理解,學(xué)術(shù)味很濃,但應(yīng)用起來(lái)效果相差甚遠(yuǎn);(2)建模手段單一,選取幾個(gè)代表性的變量,難以全面地考慮問(wèn)題,不能更好地?cái)M合現(xiàn)實(shí)數(shù)據(jù);(3)挖掘深度不夠,無(wú)法揭示出隱含在數(shù)據(jù)背后更有潛在價(jià)值的信息;(4)假設(shè)條件嚴(yán)格,精確度不高,實(shí)踐指導(dǎo)意義大打折扣。所以,上述方法在納稅遵從風(fēng)險(xiǎn)的識(shí)別上難以滿足實(shí)際工作需求,導(dǎo)致了諸多研究對(duì)稅收征管、納稅評(píng)估等稅務(wù)工作一線的指導(dǎo)意義并不大。

      本文從大數(shù)據(jù)的理念出發(fā),采用適合面向復(fù)雜數(shù)據(jù)分析的“機(jī)器學(xué)習(xí)+關(guān)聯(lián)規(guī)則”方法,選用中國(guó)S省房地產(chǎn)行業(yè)的涉稅全樣本、全變量數(shù)據(jù)建立納稅遵從風(fēng)險(xiǎn)模型,深度解析數(shù)據(jù)規(guī)律,推算出稅收流失額、識(shí)別出納稅人的風(fēng)險(xiǎn)等級(jí),運(yùn)用關(guān)聯(lián)規(guī)則算法,將企業(yè)的納稅遵從風(fēng)險(xiǎn)等級(jí)與收入、成本和費(fèi)用等指標(biāo)進(jìn)行相關(guān)性分析,推導(dǎo)出影響納稅遵從風(fēng)險(xiǎn)的關(guān)鍵指標(biāo),為稅務(wù)機(jī)關(guān)進(jìn)行納稅遵從風(fēng)險(xiǎn)分析提供實(shí)踐性較強(qiáng)的方法與依據(jù)。主要貢獻(xiàn)是:(1)所提出的方法是基于多年稅收數(shù)據(jù)分析實(shí)踐的基礎(chǔ)之上,經(jīng)過(guò)反復(fù)實(shí)踐檢驗(yàn)出來(lái)的“算法模型”,算法模型符合大數(shù)據(jù)時(shí)代的要求,支持規(guī)模超大、關(guān)系錯(cuò)綜復(fù)雜的數(shù)據(jù)信息,符合我國(guó)稅收征管數(shù)據(jù)現(xiàn)狀;(2)選用了代表大數(shù)據(jù)分析方法、又能和稅收業(yè)務(wù)相結(jié)合的模型,成功地將“機(jī)器學(xué)習(xí)+關(guān)聯(lián)規(guī)則”算法進(jìn)行有效組合,精確識(shí)別了房地產(chǎn)業(yè)納稅人的納稅遵從風(fēng)險(xiǎn),分析了影響納稅遵從風(fēng)險(xiǎn)的主要因子;(3)建立了一個(gè)比較系統(tǒng)、完整、可操作的房地產(chǎn)稅收風(fēng)險(xiǎn)識(shí)別方案,精確制導(dǎo)了稅收風(fēng)險(xiǎn)管理,為加強(qiáng)稅源監(jiān)控、風(fēng)險(xiǎn)管控、保障稅收收入平穩(wěn)增長(zhǎng)創(chuàng)造了良好的條件。

      三、理論基礎(chǔ)

      (一)基本思路

      OECD基于對(duì)稅收遵從風(fēng)險(xiǎn)十多年的研究歷史,將納稅遵從風(fēng)險(xiǎn)分為四類:未正確登記納稅人數(shù)、未按規(guī)定提交納稅文件、未正確申報(bào)應(yīng)納稅款和未按期繳納稅款,根據(jù)OECD的調(diào)查,其中80%以上的風(fēng)險(xiǎn)為未正確申報(bào)應(yīng)納稅款和未按期繳納稅款的風(fēng)險(xiǎn),所以本文所指的納稅遵從風(fēng)險(xiǎn)指的是納稅人未正確申報(bào)應(yīng)納稅款和未按期繳納稅款的行為。2008年12月,OECD在報(bào)告中給出了稅收遵從風(fēng)險(xiǎn)模型的步驟:第一步是識(shí)別風(fēng)險(xiǎn),第二步是評(píng)估和對(duì)風(fēng)險(xiǎn)分級(jí),第三步是分析遵從行為(包括原因和應(yīng)對(duì)措施選項(xiàng)),第四步是確定處理戰(zhàn)略,第五步是計(jì)劃和執(zhí)行戰(zhàn)略?;谝陨喜襟E,本文的基本思路:以全樣本數(shù)據(jù)為基礎(chǔ),運(yùn)用機(jī)器學(xué)習(xí)法測(cè)算出單戶納稅人的稅收流失額度,按照流失的額度將納稅人劃分出風(fēng)險(xiǎn)等級(jí),以風(fēng)險(xiǎn)等級(jí)為結(jié)果目標(biāo),運(yùn)用關(guān)聯(lián)規(guī)則,尋找出影響的風(fēng)險(xiǎn)因子①風(fēng)險(xiǎn)因子,風(fēng)險(xiǎn)因子可根據(jù)專家經(jīng)驗(yàn)進(jìn)行設(shè)置(單指標(biāo)、多指標(biāo))??紤]到房地產(chǎn)企業(yè)的財(cái)務(wù)狀況,本文僅列舉了營(yíng)業(yè)收入、營(yíng)業(yè)成本、營(yíng)業(yè)費(fèi)用、管理費(fèi)用、財(cái)務(wù)費(fèi)用5個(gè)核心指標(biāo),以證明方法的有效性。(如圖1所示)。

      圖1 基本思路圖

      (二)算法選擇

      在大數(shù)據(jù)時(shí)代,以經(jīng)濟(jì)理論為導(dǎo)向構(gòu)建的模型在經(jīng)濟(jì)預(yù)測(cè)中常常失效,于是很多經(jīng)濟(jì)學(xué)家、計(jì)量學(xué)家開始轉(zhuǎn)向以數(shù)據(jù)為導(dǎo)向的模型研究,以數(shù)據(jù)為導(dǎo)向的算法很多,不同的算法適用不同的場(chǎng)景,其表現(xiàn)出的優(yōu)勢(shì)也有差異,所以選擇恰當(dāng)?shù)乃惴ńM合應(yīng)用到不同的主題是非常重要的??紤]到S省稅收數(shù)據(jù)的情況以及分析主題的目標(biāo),本文組合使用了機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則兩種算法。

      1.機(jī)器學(xué)習(xí)。

      機(jī)器學(xué)習(xí)的算法有很多,諸如:神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機(jī)、聚類分析等。本文選擇以決策樹為主體的算法。決策樹中的分類回歸樹(Classification and Regression Tree,簡(jiǎn) 稱CART)是Breiman等于1984年提出來(lái)的一種非參數(shù)方法。CART方法可以分為分類決策樹和回歸決策樹兩種,由于本文因變量(企業(yè)所得稅稅收流失額,下文會(huì)有交代)是數(shù)值變量(連續(xù)變量),故而使用的是回歸決策樹。其基本原理:假定隨機(jī)向量Xn×m(X1,…,Xm)為自變量(屬性或稱輸入變量),Xi可以是離散變量,也可以是連續(xù)變量,設(shè)其定義域?yàn)镈om(Xi)。隨機(jī)變量Y為因變量,如果Y為分類變量,設(shè)其定義域?yàn)镈om(Y)={1,…,J},則構(gòu)建的決策樹是分類樹;如果Y為連續(xù)變量,Dom(Y)∈R,則構(gòu)建的決策樹為回歸樹。對(duì)于回歸問(wèn)題,回歸R函數(shù):Dom(X1)×…×Dom(Xm)→Dom(Y)。假如令Ω= Dom(X1)×…×Dom(Xm)×Dom(Y),則可以定義Ω空間上的概率測(cè)度P。利用這樣的概率測(cè)度和一些損失函數(shù)L(比如均方損失函數(shù)L(a,x)=║a-x║2),在此定義回歸誤差為Rp(R)=Ep[L(Y,R(X1,…,Xm))],其中Ep是關(guān)于概率測(cè)度P的期望?;貧w樹的構(gòu)建類似于分類樹的構(gòu)建,就是從訓(xùn)練集D中,隨機(jī)抽取N個(gè)獨(dú)立同分布的樣本中尋找函數(shù)R使回歸誤差Rp(R)最小,CART回歸樹分割選擇的測(cè)度為

      選擇方差作為不純度的度量是因?yàn)樵谝粋€(gè)節(jié)點(diǎn)中最優(yōu)常數(shù)自變量是對(duì)應(yīng)的測(cè)試樣本的預(yù)測(cè)變量均值,所以方差是預(yù)測(cè)變量的均方誤,回歸樹樹葉的數(shù)值就是該模型的預(yù)測(cè)值①?zèng)Q策樹能夠產(chǎn)生過(guò)擬合的問(wèn)題,處理的辦法是進(jìn)行剪枝(限于篇幅,不再贅述),或者組合的方法(比如,隨機(jī)森林)。過(guò)擬合:給定一個(gè)假設(shè)決策樹模型H,如果在假設(shè)空間上存在另一個(gè)假設(shè)決策樹模型H*,H的訓(xùn)練誤差率小于H*,而H的測(cè)試誤差率大于H*,則稱H對(duì)訓(xùn)練數(shù)據(jù)過(guò)擬合。。

      以上N個(gè)獨(dú)立同分布樣本是以P從空間抽取的,CART由上到下的遞歸算法可表示為:構(gòu)建樹(Ti,Di,v)(T為節(jié)點(diǎn),D為數(shù)據(jù)集分割,v為變量屬性分割方法)。(1)在節(jié)點(diǎn)T應(yīng)用v對(duì)數(shù)據(jù)集D訓(xùn)中分割變量(屬性)X;(2)假設(shè)n為節(jié)點(diǎn)T的子節(jié)點(diǎn)數(shù);(3)If(T分割);(4)把數(shù)據(jù)集D分割為D1,D2,…,Dn,并對(duì)分割變量X標(biāo)記上T;(5)構(gòu)建子節(jié)點(diǎn)T的節(jié)點(diǎn)T1,T2,…,Tn,并記edge(T,Ti),對(duì)應(yīng)預(yù)測(cè)值記為q(T,Ti);(6)For eachi∈ {1,…,n};(7)構(gòu)建樹(Ti,Di,v);(8)End for each;(9)否則;(10)數(shù)據(jù)集D的多數(shù)分類標(biāo)簽記上T;(11)End if。由此可見,分來(lái)回歸樹是遍歷可能的貪婪算法,在每個(gè)節(jié)點(diǎn)選取能對(duì)樣本做最好分類的屬性,直到?jīng)Q策樹能完美地分類訓(xùn)練樣本為止,或所有的變量(屬性)均已被使用過(guò)。需要說(shuō)明的是,分類回歸樹構(gòu)建模型時(shí),需要對(duì)原始數(shù)據(jù)集隨機(jī)分成訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集利用CART算法進(jìn)行建模,得到分類規(guī)則,然后利用測(cè)試集對(duì)所得的分類規(guī)則的性能進(jìn)行評(píng)估,直到模型有效為止。

      2.關(guān)聯(lián)規(guī)則

      眾所周知的 “啤酒和尿布”的例子,就是將啤酒、尿布有效關(guān)聯(lián)的典型例子,實(shí)際上關(guān)聯(lián)規(guī)則的算法也有很多,諸如APPIORI、ECLAT算法等。本文選擇使用比較經(jīng)典的APPIORI算法,該算法是Agrawal和Srikant于1994年提出的一種廣度優(yōu)先的逐層搜索算法,通過(guò)對(duì)事務(wù)計(jì)數(shù)找出頻繁項(xiàng)集,然后再?gòu)闹型茖?dǎo)出關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的形式為A=>B,A與B是互斥的項(xiàng)集,分別位于規(guī)則的左側(cè)(Lhs)和右側(cè)(Rhs),本文所選取的B項(xiàng)集為{風(fēng)險(xiǎn)等級(jí)高}。

      1)關(guān)聯(lián)規(guī)則挖掘的第一階段是從原始資料集合中(即,下文表3數(shù)據(jù)),找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言,必須達(dá)到某一水平,稱為支持度(Support),若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時(shí),則{A,B}稱為高頻項(xiàng)目組。支持度的表達(dá)式為

      其中:TA表示包含項(xiàng)目X的事務(wù),TB表示包含項(xiàng)目Y的事務(wù),N表示事務(wù)數(shù)總和(下同)。

      (2)關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。A出現(xiàn)時(shí),B是否也會(huì)出現(xiàn)或有多大概率出現(xiàn),為此稱之為信賴度。信賴度的表達(dá)式為

      (3)在關(guān)聯(lián)規(guī)則分析中,僅有支持度和信賴度,還不能證明是一條有效的關(guān)聯(lián)規(guī)則,(2)中A?B的信賴度應(yīng)該大于總體樣本對(duì)B的支持度,即提升度。提升度的表達(dá)式為

      由此可見,如果A、B相互獨(dú)立,則lift(提升度)=1表示A、B不相關(guān),是否有A對(duì)于B的出現(xiàn)不存在相關(guān)性,而lift<1表示A、B負(fù)相關(guān),只有l(wèi)ift>1才表示A、B正相關(guān)。由此可見,lift越大說(shuō)明關(guān)聯(lián)規(guī)則越有效。

      值得注意的是,考慮到關(guān)聯(lián)規(guī)則挖掘的效率和產(chǎn)生信息的價(jià)值,其中的支持度、信賴度和提升度闕值需要人根據(jù)專業(yè)知識(shí)進(jìn)行有效設(shè)定。另外,在所生成的關(guān)聯(lián)規(guī)則中,其中部分規(guī)則與其他規(guī)則相比只提供了很少的額外的信息,或者說(shuō)一條規(guī)則是另一條規(guī)則的超集時(shí),兩者的提升度相等,或者是前者的提升度更小,應(yīng)該認(rèn)定為冗余規(guī)則,此事需要進(jìn)行冗余修剪處理,不再贅述。

      從以上兩種算法的介紹可以看出,機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則支持全樣本、全變量數(shù)據(jù)分析,注重的是數(shù)據(jù)本身的隨機(jī)特征,分析與主題相關(guān)的、能夠獲取到的所有數(shù)據(jù),可以挖掘出事先未預(yù)料的信息。但以數(shù)據(jù)為導(dǎo)向的算法模型經(jīng)濟(jì)含義不是很明顯,需要做進(jìn)一步的認(rèn)知和解釋。

      四、研究設(shè)計(jì)

      (一)樣本選擇

      基于不同的分析主題,理清稅收大數(shù)據(jù)分析的邊界是首要問(wèn)題。一般來(lái)講,同一時(shí)間、同一地區(qū)、同一行業(yè)的企業(yè)會(huì)具有相似的經(jīng)營(yíng)條件、業(yè)務(wù)范圍、財(cái)務(wù)狀況、稅收政策等,其所體現(xiàn)出的經(jīng)濟(jì)行為才具有同質(zhì)性。本文的分析主題是“房地產(chǎn)業(yè)納稅遵從風(fēng)險(xiǎn)識(shí)別”,于是選用了2012年度、S省某市、房地產(chǎn)業(yè)的稅收征管數(shù)據(jù)作為樣本(如表1所示)。

      表1 數(shù)據(jù)總體概況

      從表1的數(shù)據(jù)可以看出,數(shù)據(jù)涵蓋了能反映納稅人經(jīng)濟(jì)性質(zhì)、行業(yè)類型、地域范圍重要維度的基礎(chǔ)數(shù)據(jù)、有納稅人業(yè)務(wù)活動(dòng)、繳納稅費(fèi)、盈虧彌補(bǔ)、稅收優(yōu)惠等情況的申報(bào)征收數(shù)據(jù)、有反映納稅人經(jīng)營(yíng)狀況的財(cái)務(wù)數(shù)據(jù)等等,另有納稅人房地產(chǎn)行業(yè)特征的第三方信息,以上數(shù)據(jù)來(lái)源真實(shí)可靠、信息充分,預(yù)計(jì)能夠達(dá)到研究所期望的目標(biāo)。

      (二)數(shù)據(jù)預(yù)處理

      在數(shù)據(jù)分析中,無(wú)論是小數(shù)據(jù)、中數(shù)據(jù)還是大數(shù)據(jù),數(shù)據(jù)預(yù)處理是不可繞過(guò)的一關(guān)。數(shù)據(jù)的清洗與整備是非常繁瑣的過(guò)程,除了有通用的規(guī)則之外,還要針對(duì)具體的數(shù)據(jù)情況進(jìn)行深入分析,理論上來(lái)講,本文經(jīng)過(guò)長(zhǎng)期的摸索實(shí)踐總結(jié)出了“七步治數(shù)法”,簡(jiǎn)單介紹如下。

      第一步,取數(shù)與存儲(chǔ)。將取得的S省數(shù)據(jù)統(tǒng)一整理成數(shù)據(jù)庫(kù)格式,以方便檢索、加工、處理等。

      第二步,初篩。以分析主題為導(dǎo)向,生成有針對(duì)性的數(shù)據(jù)集。比如,稅務(wù)登記信息篩選順序?yàn)椋杭{稅人狀態(tài)(正常戶)→國(guó)標(biāo)行業(yè)大類(房地產(chǎn)業(yè))→行業(yè)分類(房地產(chǎn)開發(fā)經(jīng)營(yíng))。

      第三步,稅務(wù)登記為基礎(chǔ),將各稅種申報(bào)征收信息、財(cái)務(wù)報(bào)表信息、采集信息,按一戶式歸集整理成二維表。經(jīng)過(guò)整理后的數(shù)據(jù)格式及數(shù)據(jù)項(xiàng)(如表2、圖2所示)。

      表2 一戶式表結(jié)構(gòu)

      圖2 一戶式表零空值情況

      表2、圖2可以看出,經(jīng)過(guò)整理之后的一戶式數(shù)據(jù)集,其中的申報(bào)征收信息、財(cái)務(wù)報(bào)表信息等部分會(huì)有大量的零空值,因?yàn)椴煌钠髽I(yè)繳納稅目的不同,且業(yè)務(wù)的發(fā)生因企業(yè)不同而有所差異,數(shù)據(jù)的稀疏性,在數(shù)據(jù),特別在大數(shù)據(jù)中是難以避免的。

      第四步,業(yè)務(wù)邏輯校驗(yàn)。對(duì)表內(nèi)、表間明顯不符合業(yè)務(wù)邏輯的納稅人進(jìn)行剔除①比如,從會(huì)計(jì)的角度流動(dòng)資產(chǎn)+非流動(dòng)資產(chǎn)=總資產(chǎn),而數(shù)據(jù)中流動(dòng)資產(chǎn)/總資產(chǎn)>1等等不符合業(yè)務(wù)邏輯的情況。。

      第五步,以整理好的一戶式信息為基礎(chǔ),將零散的數(shù)據(jù)項(xiàng)歸類匯總合計(jì)處理。

      第六步,對(duì)第五步新形成的數(shù)據(jù)集做異常值、偏離值、缺失值等的數(shù)據(jù)統(tǒng)計(jì)并處理,形成有利于模型識(shí)別的分析數(shù)據(jù)庫(kù)(統(tǒng)計(jì)情況如表3所示)。

      從表3中可以看出,樣本數(shù)據(jù)集的數(shù)值變量、分類變量的分布也是具有一定的復(fù)雜性。從以上標(biāo)注的圖形看,JJLX分類變量很不均衡、YYSR數(shù)值變量也不屬于標(biāo)準(zhǔn)正態(tài)分布。在此說(shuō)明了真實(shí)數(shù)據(jù)一般是難以滿足傳統(tǒng)統(tǒng)計(jì)分析方法的假設(shè)條件,即正態(tài)分布、信息對(duì)稱問(wèn)題,引入大數(shù)據(jù)分析技術(shù)勢(shì)在必行。

      第七步,對(duì)依然成型的分析數(shù)據(jù)庫(kù)做有利于數(shù)據(jù)分析的調(diào)整。

      (三)變量選擇

      變量選擇上區(qū)分為機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則分析兩部分,如下

      1.機(jī)器學(xué)習(xí)

      因變量:企業(yè)所得稅流失額②考慮到企業(yè)所得稅財(cái)務(wù)關(guān)系比較明確,且在各稅種中占有很大的比例,選取"企業(yè)所得稅"流失額作為測(cè)算對(duì)象。。計(jì)算企業(yè)所得稅有直接法、間接法,在此我們?cè)陬A(yù)測(cè)中采用的是“間接法”,即:應(yīng)納稅所得額=會(huì)計(jì)利潤(rùn)+納稅調(diào)整增加額-納稅調(diào)整減少額;應(yīng)納所得稅額=應(yīng)納稅所得額*適用稅率-減免稅額-抵免稅額;企業(yè)所得稅流失額=預(yù)測(cè)應(yīng)納所得稅額-實(shí)際繳納所得稅額。

      自變量:稅務(wù)登記信息(考慮到分類變量過(guò)多會(huì)有噪聲干擾,分類變量包含注冊(cè)登記類型、行業(yè)分類、主管稅務(wù)機(jī)關(guān)大類,數(shù)值變量包含從業(yè)人數(shù)、注冊(cè)資產(chǎn)總額等)、申報(bào)征收信息(大多是數(shù)值變量,原則上予以保留)、財(cái)務(wù)報(bào)表信息(大多是數(shù)值變量,原則上予以保留)①機(jī)器學(xué)習(xí)支持全樣本、全變量參與,符合大數(shù)據(jù)分析的需求。如果選用恰當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法,會(huì)對(duì)異常值、偏離值的容忍度比較高,一般不需要做大幅度的處理,否則就失去了樣本的原始屬性,但是對(duì)于缺失值是非常有必要進(jìn)行處理的,通常來(lái)講有以下幾種方法:一是可以從業(yè)務(wù)邏輯的角度或其他數(shù)據(jù)源進(jìn)行推導(dǎo),以彌補(bǔ)其"缺失";二是用平均值、中間值、最大值、最小值或概率統(tǒng)計(jì)函數(shù)值來(lái)代替零空值;三是通過(guò)模型自動(dòng)彌補(bǔ)缺失,或人工輸入可接受的某值,不再贅述。關(guān)聯(lián)規(guī)則分析支持全樣本、全變量參與,但僅支持分類變量,需要將數(shù)值變量進(jìn)行處理,后邊會(huì)提到。。

      表3 一戶式寬表統(tǒng)計(jì)分布情況表

      附加變量:會(huì)計(jì)利潤(rùn)。會(huì)計(jì)利潤(rùn)=收入-成本-期間費(fèi)用(營(yíng)業(yè)費(fèi)用、管理費(fèi)用、財(cái)務(wù)費(fèi)用)②考慮到企業(yè)所得稅預(yù)測(cè)的復(fù)雜性,本次預(yù)測(cè)僅預(yù)測(cè)會(huì)計(jì)利潤(rùn),企業(yè)所得稅流失額=預(yù)測(cè)會(huì)計(jì)利潤(rùn)+納稅調(diào)整增加額-納稅調(diào)整減少額-實(shí)際繳納所得稅額(如果報(bào)表勾稽關(guān)系正確的話,實(shí)際繳納所得稅額=申報(bào)會(huì)計(jì)利潤(rùn)+納稅調(diào)整增加額-納稅調(diào)整減少額)。。為避免收入、成本和期間費(fèi)用的多重共線性,本文將會(huì)計(jì)利潤(rùn)作為附加變量進(jìn)行預(yù)測(cè),不再單獨(dú)預(yù)測(cè)收入、成本以及期間費(fèi)用,同時(shí)對(duì)會(huì)計(jì)利潤(rùn)進(jìn)行預(yù)測(cè)更能體現(xiàn)出房地產(chǎn)業(yè)的共性,因?yàn)榧{稅調(diào)整增加(減少)額是針對(duì)個(gè)別房地產(chǎn)業(yè)、個(gè)別業(yè)務(wù)而執(zhí)行的稅收政策。

      2.關(guān)聯(lián)規(guī)則

      因變量:{風(fēng)險(xiǎn)等級(jí)高}。對(duì)于風(fēng)險(xiǎn)管理來(lái)講,通常主要關(guān)注的是風(fēng)險(xiǎn)程度較高的企業(yè)。

      自變量:營(yíng)業(yè)收入、營(yíng)業(yè)成本、營(yíng)業(yè)費(fèi)用、管理費(fèi)用和財(cái)務(wù)費(fèi)用五個(gè)核心指標(biāo)。實(shí)際上,關(guān)聯(lián)規(guī)則分析不受指標(biāo)數(shù)量的限制,同時(shí)我們也可以根據(jù)專業(yè)知識(shí)選擇組合指標(biāo),比如流動(dòng)資產(chǎn)占總資產(chǎn)比例(流動(dòng)資產(chǎn)平均總額/資產(chǎn)平均總額)、營(yíng)業(yè)成本管理費(fèi)用率(管理費(fèi)用/營(yíng)業(yè)成本)等等,限于篇幅難以枚舉。

      五、模型構(gòu)造過(guò)程

      (一)變量分析

      在大數(shù)據(jù)分析中,變量分析是重要的一步。本文分析參與的變量較多,對(duì)樣本數(shù)據(jù)中的變量的分布、相關(guān)性等進(jìn)行分析也是非常重要的,其主要目的是對(duì)模型的參數(shù)等進(jìn)行合理調(diào)整,以為構(gòu)建真實(shí)、合理的模型奠定基礎(chǔ)。由于設(shè)計(jì)的變量較多,本文僅列舉重要變量(即:稅務(wù)機(jī)關(guān)、行業(yè)、經(jīng)濟(jì)類型、營(yíng)業(yè)收入、營(yíng)業(yè)成本、營(yíng)業(yè)費(fèi)用、管理費(fèi)用、財(cái)務(wù)費(fèi)用)做如下可視化(如圖3所示):

      圖3 重要變量散布圖

      圖3中,對(duì)角線處分別為:稅務(wù)機(jī)關(guān)、行業(yè)、經(jīng)濟(jì)類型、營(yíng)業(yè)收入、營(yíng)業(yè)成本、營(yíng)業(yè)費(fèi)用、管理費(fèi)用、財(cái)務(wù)費(fèi)用,上圖反映了各變量之間的相關(guān)性及其分布狀態(tài)等,我們可以依據(jù)散布圖的輔助做模型參數(shù)的調(diào)整,不同的模型對(duì)參數(shù)的調(diào)整要求區(qū)別很大,不再贅述。

      (二)模型構(gòu)造

      1.機(jī)器學(xué)習(xí)

      (1)構(gòu)造過(guò)程。決策樹算法具有易理解、易解釋的特點(diǎn),基于以上原理、利用全樣本數(shù)據(jù),構(gòu)建決策樹的過(guò)程比較清晰。

      也可以進(jìn)一步將算法轉(zhuǎn)化為樹狀,以更清晰地了解決策樹的分析過(guò)程(如圖4所示)。

      從圖4可以看出,決策樹經(jīng)過(guò)多次遞歸選擇了以YYLR中的8 899 340為分界線開始分類,繼而在YYLR、LRZE等中計(jì)入第二次分類,各分類下的P值(即回歸誤差)非常小。從業(yè)務(wù)屬性上看,決策樹上層所選擇的變量屬性與測(cè)算的目標(biāo)(企業(yè)所得稅流失額)關(guān)聯(lián)度比較密切,這是符合業(yè)務(wù)常識(shí)的。

      (2)誤差檢驗(yàn)。機(jī)器學(xué)習(xí)法不需要對(duì)數(shù)據(jù)做先驗(yàn)假設(shè),產(chǎn)生的結(jié)果用交叉驗(yàn)證(Cross validation)的方法判斷。基本原理:可以先在一個(gè)子集上做分析,而其它子集則用來(lái)做后續(xù)對(duì)此分析的確認(rèn)及驗(yàn)證。一開始的子集被稱為訓(xùn)練集。而其它的子集則被稱為驗(yàn)證集或測(cè)試集。交叉驗(yàn)證是一種評(píng)估統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)算法對(duì)獨(dú)立于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集的泛化能力(Generalize)(交叉驗(yàn)證結(jié)果如表4所示)。

      圖4 決策樹構(gòu)造過(guò)程簡(jiǎn)圖

      表4 交叉檢驗(yàn)情況表

      表4中,訓(xùn)練集誤差率一般都很小,這說(shuō)明機(jī)器學(xué)習(xí)法逼近數(shù)據(jù)相關(guān)性的能力很強(qiáng),但外推性是我們更為關(guān)心的,從測(cè)試集看誤差率<1,且小的多,這是非常理想的效果,說(shuō)明所構(gòu)造的模型可靠性很高。

      2.關(guān)聯(lián)規(guī)則

      關(guān)聯(lián)規(guī)則的分析過(guò)程,從原理上已經(jīng)比較清楚,對(duì)于關(guān)聯(lián)規(guī)則來(lái)講,不同的支持度、信賴度會(huì)對(duì)時(shí)間的開銷影響比較大,本文設(shè)置支持度=0.01、信賴度=0.6,基于0.01的支持度每一條規(guī)則至少有0.01*N(N,表示觀測(cè)值的個(gè)數(shù))個(gè)正例。(頻繁項(xiàng)集如圖6所示)

      從關(guān)聯(lián)規(guī)則構(gòu)建過(guò)程看,由于樣本量、設(shè)置闕值等原因,本文所構(gòu)建的關(guān)聯(lián)規(guī)則過(guò)程時(shí)間開銷不是很大,我們可以從關(guān)聯(lián)規(guī)則的構(gòu)造過(guò)程中看到其運(yùn)行的過(guò)程(關(guān)聯(lián)規(guī)則構(gòu)造過(guò)程簡(jiǎn)表如表5所示)。

      表5 關(guān)聯(lián)規(guī)則構(gòu)造過(guò)程簡(jiǎn)表

      圖5 關(guān)聯(lián)規(guī)則頻繁項(xiàng)集圖

      表5可以看出,由于所選取的樣本量、各闕值的設(shè)置相對(duì)合理,系統(tǒng)在關(guān)聯(lián)規(guī)則構(gòu)造過(guò)程中所用的時(shí)間開銷很小。在此說(shuō)明,在關(guān)聯(lián)規(guī)則挖掘中,常見的問(wèn)題是挖掘出來(lái)的規(guī)則中有很多是沒(méi)有意義的,為此必須要在左側(cè)(Lhs)和右側(cè)(Rhs)中設(shè)置感興趣的條件,以避免不必要的結(jié)論,以爭(zhēng)取更多的時(shí)間成本,另外也可以設(shè)置關(guān)聯(lián)規(guī)則的最大長(zhǎng)度(Maxlen),或者根據(jù)提升度進(jìn)行降序排列等設(shè)置。

      六、實(shí)證結(jié)果與分析

      (一)風(fēng)險(xiǎn)識(shí)別

      風(fēng)險(xiǎn)識(shí)別是風(fēng)險(xiǎn)管理的第一步,也是風(fēng)險(xiǎn)管理的基礎(chǔ)。本文通過(guò)機(jī)器學(xué)習(xí)構(gòu)建了理想的稅收經(jīng)濟(jì)關(guān)系模型,預(yù)測(cè)出企業(yè)的應(yīng)納所得稅額,推導(dǎo)出稅收流失額,根據(jù)流失額進(jìn)行風(fēng)險(xiǎn)排序和風(fēng)險(xiǎn)等級(jí)劃分,在此基礎(chǔ)上進(jìn)行納稅遵從風(fēng)險(xiǎn)識(shí)別(風(fēng)險(xiǎn)識(shí)別結(jié)果如表6所示)。

      表6 風(fēng)險(xiǎn)識(shí)別結(jié)果簡(jiǎn)表 單位:元

      表5中,流失額是所測(cè)算出的稅收流失額,風(fēng)險(xiǎn)排序以流失額大小進(jìn)行的排序,按照流失額大小將風(fēng)險(xiǎn)等級(jí)為:高、偏高、中、偏低、低、無(wú)風(fēng)險(xiǎn)六個(gè)層級(jí),考慮到存在納稅人稅收流失額為0(包含少量稅收流失額<0)的情況,將其單獨(dú)作為 “無(wú)風(fēng)險(xiǎn)”等級(jí),對(duì)稅收流失額>0的納稅人按照五分位進(jìn)行劃分。由此可見,完成了OECD的前兩步,即第一步是識(shí)別風(fēng)險(xiǎn),第二步是評(píng)估和對(duì)風(fēng)險(xiǎn)分級(jí)。從表6可以看出,運(yùn)用機(jī)器學(xué)習(xí)法推算出了分戶的稅收流失金額,這無(wú)疑是一個(gè)巨大的進(jìn)步,為后續(xù)按不同維度、不同視角進(jìn)行分析奠定了基礎(chǔ)。

      (二)因子分析

      大數(shù)據(jù)分析,要求創(chuàng)新和精準(zhǔn)。風(fēng)險(xiǎn)識(shí)別將不同風(fēng)險(xiǎn)程度的納稅人進(jìn)行了劃分,接下來(lái)還要對(duì)形成風(fēng)險(xiǎn)的原因進(jìn)行分析。在此,我們以風(fēng)險(xiǎn)等級(jí)高的納稅人作為目標(biāo),以營(yíng)業(yè)收入、營(yíng)業(yè)成本、營(yíng)業(yè)費(fèi)用、管理費(fèi)用和財(cái)務(wù)費(fèi)用為影響因子,運(yùn)用關(guān)聯(lián)規(guī)則原理將造成該結(jié)果的原因進(jìn)行推導(dǎo)(推導(dǎo)結(jié)果如表7所示)。

      表7是基于支持度>=0.01、信賴度>=0.6且按照提升度由大到小排序所形成的結(jié)果,其中的“rf_pre_jg”表示 “風(fēng)險(xiǎn)等級(jí)”。從提升度可以看出,以上列舉的5條規(guī)則(實(shí)際規(guī)則條數(shù)太多,不再一一列舉)都是有效的。下面來(lái)解讀以上關(guān)聯(lián)規(guī)則,比如規(guī)則1提供的信息是:在總體樣本中有0.01(1%)的數(shù)據(jù)支持A、B同時(shí)出現(xiàn),且 A=>B的可信度為0.7(70%),結(jié)論為經(jīng)濟(jì)類型為有限責(zé)任公司,所申報(bào)的營(yíng)業(yè)費(fèi)用高、管理費(fèi)用高、財(cái)務(wù)費(fèi)用小于等于零(估計(jì)是利息費(fèi)用所致),具備以上特征的房地產(chǎn)企業(yè)納稅遵從風(fēng)險(xiǎn)程度高。從而,該結(jié)論反映出其他有限責(zé)任公司房地產(chǎn)業(yè)往往通過(guò)多報(bào)營(yíng)業(yè)費(fèi)用、管理費(fèi)用等手段來(lái)達(dá)到偷漏稅的目的,對(duì)此應(yīng)引起高度關(guān)注。

      表7 關(guān)聯(lián)規(guī)則推導(dǎo)結(jié)果簡(jiǎn)表

      (三)可視化處理

      大數(shù)據(jù)分析可視化形式很多,也在不斷地發(fā)展之中,數(shù)據(jù)可視化是大數(shù)據(jù)的基本要求之一。

      1.風(fēng)險(xiǎn)識(shí)別

      以風(fēng)險(xiǎn)識(shí)別表6為例,以相關(guān)性為視角做可視化分析(如圖6所示)。

      圖6是列舉的比較前沿的可視化展示方法。圖6左表示標(biāo)準(zhǔn)化之后的營(yíng)業(yè)收入、營(yíng)業(yè)成本、稅收流失額之間的相關(guān)性,從圖6左可以看出,稅收流失額與營(yíng)業(yè)收入、營(yíng)業(yè)成本之間存在高度的相關(guān)性,這一點(diǎn)符合業(yè)務(wù)常識(shí),當(dāng)然也可以做其他指標(biāo)的分析;圖6右,是按序號(hào)選取了1-10戶納稅人的營(yíng)業(yè)收入、營(yíng)業(yè)成本、營(yíng)業(yè)費(fèi)用、管理費(fèi)用、財(cái)務(wù)費(fèi)用、稅收流失額之間的相關(guān)性。從圖6可以看出,基于機(jī)器學(xué)習(xí)之后所形成的表5為傳統(tǒng)的分析、復(fù)雜的統(tǒng)計(jì)分析提供了極大的便利性。

      2.關(guān)聯(lián)規(guī)則

      關(guān)聯(lián)規(guī)則推導(dǎo)結(jié)果簡(jiǎn)表為例,做進(jìn)一步可視化處理,以方便解讀(如圖7所示)。

      圖6 基于相關(guān)性視角的簡(jiǎn)單分析

      圖7 關(guān)聯(lián)規(guī)則推導(dǎo)結(jié)果簡(jiǎn)圖

      關(guān)聯(lián)規(guī)則的可視化有很多,僅列舉兩個(gè),可視化不同,思考過(guò)程也不盡相同。圖7左是平行坐標(biāo)圖,從線路1可以看出,營(yíng)業(yè)費(fèi)用(高)+財(cái)務(wù)費(fèi)用(小于等于零)+經(jīng)濟(jì)類型(其他有限責(zé)任公司)+管理費(fèi)用(高)→風(fēng)險(xiǎn)等級(jí)(高);圖7右是有向圖,起點(diǎn)屬于影響因子,各影響因子所指向的中間圓圈表示的是“共同指向”(圓圈的大小表示置信度、顏色的深度表示提升度),共同指向的下一步指向(即箭頭終點(diǎn))是結(jié)論。從圖7可以看出,運(yùn)用關(guān)聯(lián)規(guī)則可視化技術(shù),有利于形象地理解問(wèn)題,同時(shí)更有助于實(shí)踐工作。如此,已經(jīng)完成了OECD所確立的五步中的三步,對(duì)下兩步的確定處理戰(zhàn)略和計(jì)劃執(zhí)行戰(zhàn)略奠定了實(shí)質(zhì)性的基礎(chǔ)。

      實(shí)際上,最終導(dǎo)致房地產(chǎn)業(yè)納稅遵從風(fēng)險(xiǎn)等級(jí)高的原因會(huì)有很多,不同的行業(yè)影響因子會(huì)有很大的不同,在面向某一個(gè)行業(yè)的影響因子分析中,也應(yīng)該將所有的風(fēng)險(xiǎn)因子及其因子組合全部放進(jìn)模型中進(jìn)行推斷,以找出影響納稅遵從風(fēng)險(xiǎn)的各種原因所在,在大數(shù)據(jù)分析中也是可以做到的。由于篇幅所限,本文僅提供技術(shù)上的可行性,在后續(xù)的文章中會(huì)繼續(xù)探討。

      七、結(jié)論與展望

      通過(guò)以上稅收大數(shù)據(jù)的實(shí)踐探索,以規(guī)范的技術(shù)流程、既定的業(yè)務(wù)規(guī)范系統(tǒng)地完成了納稅遵從風(fēng)險(xiǎn)識(shí)別以及影響因子分析,證明了“機(jī)器學(xué)習(xí)+關(guān)聯(lián)規(guī)則”組合算法技術(shù)的可行性,為大數(shù)據(jù)時(shí)代稅收數(shù)據(jù)的應(yīng)用奠定基礎(chǔ)。結(jié)果表明:(1)機(jī)器學(xué)習(xí)可以有效地用于納稅遵從風(fēng)險(xiǎn)識(shí)別,為稅收風(fēng)險(xiǎn)等級(jí)劃分以及納稅信用等級(jí)評(píng)定奠定基礎(chǔ);(2)關(guān)聯(lián)規(guī)則算法可以推斷影響房地產(chǎn)業(yè)企業(yè)納稅風(fēng)險(xiǎn)的影響因素,為找出納稅遵從風(fēng)險(xiǎn)存在的根本原因提供了科學(xué)依據(jù);(3)恰當(dāng)?shù)乃惴ńM合,可以形成面向不同視角、不同主題的分析數(shù)據(jù)庫(kù)以及可視化的形式,為我國(guó)建立以大數(shù)據(jù)分析為支撐的現(xiàn)代稅源專業(yè)化管理,提供了強(qiáng)大的技術(shù)保障。

      當(dāng)然,從大數(shù)據(jù)分析利用來(lái)講,僅僅是“拋磚引玉”。本文所采用數(shù)據(jù)量體上遠(yuǎn)沒(méi)有達(dá)到大數(shù)據(jù)的要求,僅從涉稅數(shù)據(jù)來(lái)講,還要引入工商管理局、房地產(chǎn)管理局第三方信息的數(shù)據(jù),甚至是影音、圖像等非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)處理分析的技術(shù)、規(guī)則等的難度、復(fù)雜度也終將呈級(jí)數(shù)增長(zhǎng),當(dāng)然,大數(shù)據(jù)分析技術(shù)也會(huì)在實(shí)踐中日臻成熟。在數(shù)據(jù)可得的條件下,作者將進(jìn)一步做深入研究。大數(shù)據(jù)時(shí)代給了我們更多可以應(yīng)用數(shù)據(jù)的機(jī)會(huì),與此同時(shí)我們也看到現(xiàn)實(shí)的挑戰(zhàn),數(shù)據(jù)要發(fā)揮更遠(yuǎn)的價(jià)值目標(biāo),需要我們不斷地尋求和探索。據(jù)了解,國(guó)外許多機(jī)構(gòu)已經(jīng)投入了大量人力、物力和財(cái)力進(jìn)行相應(yīng)研發(fā),而我國(guó)將機(jī)器學(xué)習(xí)為核心的算法模型應(yīng)用到系統(tǒng)平臺(tái)實(shí)例并不多,對(duì)此應(yīng)引起高度重視。本文的建議如下。

      一是要深入研究并構(gòu)建大數(shù)據(jù)供應(yīng)體系。確保稅收征管數(shù)據(jù)的表內(nèi)、表間邏輯性檢驗(yàn),同時(shí)對(duì)以往的存量數(shù)據(jù)做徹底清洗和規(guī)整。在這基礎(chǔ)上,再著手第三方信息采集和應(yīng)用,優(yōu)先考慮政府內(nèi)部數(shù)據(jù),再考慮互聯(lián)網(wǎng)數(shù)據(jù)。

      二是理清稅收大數(shù)據(jù)分析的邊界。在稅收大數(shù)據(jù)分析中,稅收征管數(shù)據(jù)是稅收業(yè)務(wù)的核心,進(jìn)行稅收數(shù)據(jù)分析,不能舍棄或背離這個(gè)核心,更不能眉毛胡子一把抓,要在求精的基礎(chǔ)上逐步推進(jìn)、延伸,才有利于稅收實(shí)踐和指導(dǎo)稅收工作。

      三是稅收大數(shù)據(jù)分析從小問(wèn)題開始。大數(shù)據(jù)概念在商業(yè)上已經(jīng)被炒的像一個(gè)神話,其實(shí)也很少人知道應(yīng)該怎么去做,經(jīng)常我們得到一些需求都是特別宏觀、特別大的,其實(shí)都不太容易落地,從實(shí)際落地的角度來(lái)看,大數(shù)據(jù)要有效的落地還是要從解決小問(wèn)題開始。

      四是要深入研究并建立強(qiáng)大有效的大數(shù)據(jù)技術(shù)體系。稅務(wù)大數(shù)據(jù)應(yīng)用是難以想象的復(fù)雜工程,它是硬件、軟件、網(wǎng)絡(luò)、應(yīng)用系統(tǒng)、標(biāo)準(zhǔn)、安全、運(yùn)維、工程、制度、業(yè)務(wù)、技術(shù)、流程、組織、管理、資金、人員的有機(jī)結(jié)合與團(tuán)隊(duì)的聯(lián)合作戰(zhàn),放縱單打獨(dú)斗必全局大亂。稅務(wù)機(jī)關(guān)應(yīng)借鑒市場(chǎng)上大數(shù)據(jù)搞的比較好的企業(yè)經(jīng)驗(yàn),比如互聯(lián)網(wǎng)金融的大數(shù)據(jù)分析技術(shù)經(jīng)驗(yàn)。

      五是要加強(qiáng)大數(shù)據(jù)人才培養(yǎng)。大數(shù)據(jù)分析,是一個(gè)相對(duì)全新的領(lǐng)域,很多時(shí)候是摸著石頭過(guò)河,對(duì)專業(yè)人才的要求極高。做好大數(shù)據(jù)分析,相關(guān)人員應(yīng)該具有計(jì)算機(jī)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)等復(fù)合知識(shí)背景。當(dāng)然,總局《全國(guó)稅務(wù)領(lǐng)軍人才培養(yǎng)規(guī)劃》正可為大數(shù)據(jù)的人才培養(yǎng)創(chuàng)造契機(jī)。

      [1]Nicolai,Meinshausen.Quantile Regression Forests[J].Journal of Machine Learning Research.2006,7:980-999.

      [2]Nolan D,Speed T.Stat Labs:Mathematical statistics through Applications[J].Springer.2000.

      [3]http://baike.baidu.com/link?url=t6EFwZBtEeeP VdQsfdPOpc2t-O6rGqM8EdtP7vaq1F2GGvS7RIw NjGbdcRA8x219HRnzqBFWDF-omCrvUzMfla.中國(guó)百度網(wǎng),2015.

      [4]Yanchang.R and Data Mining:Examples and Case Studies[M].Singapore:Academic Press:2012.

      [5]陳赤軍.稅務(wù)評(píng)估審計(jì)概論[M].機(jī)械工業(yè)出版社,北京:2010.

      [6]方匡南.隨機(jī)森林組合預(yù)測(cè)理論及其在金融中的應(yīng)用[M].廈門大學(xué)出版社,廈門:2012.

      [7]譚榮華,焦瑞進(jìn).關(guān)于大數(shù)據(jù)在稅收工作中應(yīng)用的幾點(diǎn)認(rèn)識(shí)[J].稅務(wù)研究,2014(9).

      [8]涂子沛.The Big Data Revolution[M].廣西師范大學(xué)出版社,桂林:2013.

      [9]吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用(第二版)[M].中國(guó)人民大學(xué)出版社,北京:2013.

      猜你喜歡
      決策樹納稅關(guān)聯(lián)
      建筑企業(yè)實(shí)施納稅籌劃的幾點(diǎn)思考
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      適應(yīng)納稅新常態(tài) 樹立為民新理念
      基于決策樹的出租車乘客出行目的識(shí)別
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      從業(yè)人員給企業(yè)帶來(lái)的納稅困擾——以一個(gè)火力發(fā)電企業(yè)為例
      富顺县| 墨脱县| 白山市| 青川县| 枝江市| 丽水市| 汶上县| 遂溪县| 隆安县| 长子县| 忻城县| 中方县| 永州市| 江源县| 新绛县| 富蕴县| 黎城县| 体育| 连南| 阿尔山市| 新田县| 璧山县| 阿克陶县| 团风县| 灵璧县| 临江市| 屏东县| 霍邱县| 临洮县| 荣昌县| 渭源县| 抚松县| 镇巴县| 甘孜县| 广元市| 于都县| 奇台县| 威信县| 太湖县| 民勤县| 赞皇县|