• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘方法在稅收風(fēng)險(xiǎn)管理中的應(yīng)用研究綜述

      2016-09-05 09:00:20天津市地方稅務(wù)局課題組
      天津經(jīng)濟(jì) 2016年6期
      關(guān)鍵詞:納稅人納稅數(shù)據(jù)挖掘

      ◎文/天津市地方稅務(wù)局課題組

      數(shù)據(jù)挖掘方法在稅收風(fēng)險(xiǎn)管理中的應(yīng)用研究綜述

      ◎文/天津市地方稅務(wù)局課題組

      近年來(lái),各地稅務(wù)機(jī)關(guān)在加強(qiáng)數(shù)據(jù)管理、深化數(shù)據(jù)分析應(yīng)用、探索信息化支持決策與管理模式等方面,做了很多有益的探索,取得了一定成效,但如何有效地進(jìn)行稅收數(shù)據(jù)分析應(yīng)用,提高稅收管理的整體水平,一直是稅務(wù)管理部門(mén)非常重視并急需解決的課題。

      隨著數(shù)據(jù)庫(kù)、中間件、高級(jí)技術(shù)語(yǔ)言和網(wǎng)絡(luò)安全等技術(shù)的迅速發(fā)展,人們積累的信息數(shù)據(jù)越來(lái)越多,以“大數(shù)據(jù)”為主導(dǎo)的信息化浪潮正席卷全球,成為全球范圍推動(dòng)政府職能轉(zhuǎn)變、引領(lǐng)社會(huì)管理變革的利器。大數(shù)據(jù)既是一種海量的數(shù)據(jù)狀態(tài)及其相應(yīng)的數(shù)據(jù)處理技術(shù),也是一種新的思維方式,是一系列新理念、新方法、新要素的集中體現(xiàn)。它不僅是信息化的一種手段,而且已經(jīng)成為信息化社會(huì)發(fā)展演進(jìn)的關(guān)鍵目標(biāo)和實(shí)現(xiàn)發(fā)展目標(biāo)的重要路徑。

      在大數(shù)據(jù)時(shí)代,稅務(wù)人員需要以更新、更便捷、更有效的方法,對(duì)大量的征管數(shù)據(jù)進(jìn)行分析、提取、挖掘出數(shù)據(jù)的潛在價(jià)值,以幫助稅務(wù)部門(mén)優(yōu)化工作流程、提高工作效率,并通過(guò)識(shí)別納稅特征,為納稅人提供差異化的納稅服務(wù),輔助稅務(wù)部門(mén)進(jìn)行科學(xué)決策和行之有效的管理與服務(wù)。本文探索了如何運(yùn)用數(shù)據(jù)挖掘方法,在稅收風(fēng)險(xiǎn)管理中的應(yīng)用,并提出防范風(fēng)險(xiǎn)的建議。

      稅務(wù)部門(mén);數(shù)據(jù)挖掘;稅收風(fēng)險(xiǎn)

      近年來(lái),各地稅務(wù)機(jī)關(guān)在加強(qiáng)數(shù)據(jù)管理、深化數(shù)據(jù)分析應(yīng)用、探索信息化支持決策與管理模式等方面,做了很多有益的探索,取得了一定成效,但如何有效地進(jìn)行稅收數(shù)據(jù)分析應(yīng)用,提高稅收管理的整體水平,一直是稅務(wù)管理部門(mén)非常重視并急需解決的課題。

      隨著數(shù)據(jù)庫(kù)、中間件、高級(jí)技術(shù)語(yǔ)言和網(wǎng)絡(luò)安全等技術(shù)的迅速發(fā)展,人們積累的信息數(shù)據(jù)越來(lái)越多,以“大數(shù)據(jù)”為主導(dǎo)的信息化浪潮正席卷全球,成為全球范圍推動(dòng)政府職能轉(zhuǎn)變、引領(lǐng)社會(huì)管理變革的利器。大數(shù)據(jù)既是一種海量的數(shù)據(jù)狀態(tài)及其相應(yīng)的數(shù)據(jù)處理技術(shù),也是一種新的思維方式,是一系列新理念、新方法、新要素的集中體現(xiàn)。它不僅是信息化的一種手段,而且已經(jīng)成為信息化社會(huì)發(fā)展演進(jìn)的關(guān)鍵目標(biāo)和實(shí)現(xiàn)發(fā)展目標(biāo)的重要路徑。

      一、研究背景

      (一)稅收風(fēng)險(xiǎn)管理的挑戰(zhàn)

      隨著納稅人數(shù)量的快速增長(zhǎng),稅源呈現(xiàn)多元化、復(fù)雜化的特征,稅源分布的領(lǐng)域越來(lái)越廣,稅源的結(jié)構(gòu)越來(lái)越復(fù)雜,稅源的流動(dòng)性和隱蔽性越來(lái)越強(qiáng),迫切需要我們借助現(xiàn)代信息技術(shù)手段切實(shí)提高稅收風(fēng)險(xiǎn)管理水平。

      (二)數(shù)據(jù)挖掘?qū)⒎?wù)于稅務(wù)風(fēng)險(xiǎn)管理

      在大數(shù)據(jù)時(shí)代,稅務(wù)人員需要以更新、更便捷、更有效的方法,對(duì)大量的征管數(shù)據(jù)進(jìn)行分析、提取、挖掘其隱藏信息數(shù)據(jù)中的潛能,對(duì)稅務(wù)工作中存在的風(fēng)險(xiǎn)進(jìn)行管理和控制。數(shù)據(jù)挖掘正是在這樣的應(yīng)用需求環(huán)境下產(chǎn)生并迅速發(fā)展起來(lái)的,它的作用主要體現(xiàn)在把海量的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識(shí),為幫助稅務(wù)干部從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,降低運(yùn)營(yíng)成本、提供差異化的納稅服務(wù),提供納稅行為,識(shí)別納稅特征,輔助稅務(wù)干部進(jìn)行行之有效的管理、服務(wù)提供了新的思路、新的方法和新的手段。

      二、稅收數(shù)據(jù)挖掘目標(biāo)

      (一)數(shù)據(jù)挖掘概念

      數(shù)據(jù)挖掘(DataMining)是一種知識(shí)發(fā)現(xiàn)的過(guò)程,它主要基于統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等技術(shù),高度自動(dòng)化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,并對(duì)未來(lái)情況進(jìn)行分析、預(yù)測(cè),以輔助管理者、決策者評(píng)估風(fēng)險(xiǎn)、做出正確的決策。

      (二)數(shù)據(jù)挖掘方法

      利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類(lèi)、回歸分析、聚類(lèi)、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘等,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。

      (三)稅收數(shù)據(jù)挖掘的目標(biāo)

      大數(shù)據(jù)時(shí)代的來(lái)臨,信息數(shù)據(jù)越來(lái)越多,稅務(wù)人員要以更新、更便捷、更有效的方法,從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,提供差異化的納稅服務(wù),識(shí)別納稅特征,輔助稅務(wù)干部進(jìn)行行之有效的管理、服務(wù)。

      1.評(píng)價(jià)納稅行為

      借助信息化手段,從各稅種應(yīng)納稅所得額出發(fā),依據(jù)審計(jì)學(xué)、財(cái)務(wù)分析、統(tǒng)計(jì)學(xué)等原理,設(shè)計(jì)和篩選涉稅指標(biāo);根據(jù)當(dāng)?shù)亟?jīng)濟(jì)發(fā)展情況,產(chǎn)業(yè)結(jié)構(gòu)、行業(yè)特點(diǎn)、納稅人的生產(chǎn)經(jīng)營(yíng)規(guī)模、財(cái)務(wù)核算情況等信息資料,制定納稅評(píng)估指標(biāo)及其預(yù)警參數(shù),合理確定納稅評(píng)估對(duì)象,對(duì)納稅人納稅申報(bào)的真實(shí)性和準(zhǔn)確性進(jìn)行全面系統(tǒng)評(píng)估,做到有的放矢,有效管理。

      2.監(jiān)控執(zhí)法過(guò)程

      隨著征管數(shù)據(jù)的向上集中,有了對(duì)征管流程進(jìn)行監(jiān)控的數(shù)據(jù)基礎(chǔ)。通過(guò)一系列合法的手段和方法對(duì)稅源進(jìn)行全方位的信息跟蹤和納稅控制,分析和預(yù)測(cè)稅源發(fā)展變化的趨勢(shì),加強(qiáng)稅源征管,有效地防止稅款流失;通過(guò)梳理與整合,運(yùn)用挖掘技術(shù)建立執(zhí)法行為監(jiān)控體系,監(jiān)控稅務(wù)部門(mén)的執(zhí)法行為,監(jiān)督管理流程,對(duì)稅收?qǐng)?zhí)法疑點(diǎn),做到事前、事中和事后的監(jiān)控,規(guī)范執(zhí)法行為。

      3.提供決策支持

      數(shù)據(jù)挖掘技術(shù)不僅可發(fā)現(xiàn)稅收管理中的瑕疵,同時(shí)也為領(lǐng)導(dǎo)決策提供智能支持:通過(guò)數(shù)據(jù)的分類(lèi)處理與分析,可全面分析宏觀稅負(fù)、行業(yè)稅負(fù)等指標(biāo),了解稅收收入總量增減的變化,科學(xué)判斷稅收收入增減的原因;通過(guò)數(shù)據(jù)概貌分析,可以得到一個(gè)地區(qū)稅收增減的總體狀況等等。

      4.優(yōu)化納稅服務(wù)

      通過(guò)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,不斷創(chuàng)新納稅服務(wù)手段,優(yōu)化服務(wù)方式,拓寬服務(wù)內(nèi)容,提高服務(wù)質(zhì)量。運(yùn)用現(xiàn)代數(shù)據(jù)挖掘手段,展開(kāi)納稅服務(wù)數(shù)據(jù)的關(guān)聯(lián)性分析,了解納稅人涉稅事項(xiàng)的發(fā)生頻率以及涉稅事項(xiàng)之間的關(guān)聯(lián)程度,為辦稅服務(wù)廳的窗口設(shè)置、辦稅流程的設(shè)定提供數(shù)據(jù)支持,從而科學(xué)安排服務(wù)流程,提高服務(wù)水平。

      三、數(shù)據(jù)挖掘在稅收風(fēng)險(xiǎn)管理的應(yīng)用

      數(shù)據(jù)挖掘在稅務(wù)系統(tǒng)中的應(yīng)用模型如圖所示。在管理納稅人信息的各個(gè)階段都會(huì)用到數(shù)據(jù)挖掘技術(shù)。通過(guò)對(duì)納稅人信息數(shù)據(jù)的分析與監(jiān)管,有利于發(fā)現(xiàn)稅收征管中的潛在風(fēng)險(xiǎn),提高監(jiān)管工作的效率。

      微觀層面的稅收風(fēng)險(xiǎn)識(shí)別方法分為有監(jiān)督學(xué)習(xí)方法和無(wú)監(jiān)督學(xué)習(xí)方法。

      (一)有監(jiān)督學(xué)習(xí)方法

      對(duì)于給定的訓(xùn)練樣本,如果每個(gè)樣本都有已知的類(lèi)別標(biāo)記,模型通過(guò)對(duì)這些帶有類(lèi)別標(biāo)記樣本的學(xué)習(xí),確定模型結(jié)構(gòu)及參數(shù),然后對(duì)未知類(lèi)別的樣本判斷其類(lèi)別,這類(lèi)方法稱(chēng)之為有監(jiān)督學(xué)習(xí)方法。在數(shù)據(jù)挖掘算法中,有很多統(tǒng)計(jì)和智能的方法都屬于有監(jiān)督學(xué)習(xí)方法,如判別函數(shù)法、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹(shù)以及遺傳算法等隨機(jī)方法。

      (二)無(wú)監(jiān)督學(xué)習(xí)方法

      有監(jiān)督學(xué)習(xí)方法借助有類(lèi)別標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)確定模型參數(shù),當(dāng)沒(méi)有有類(lèi)別標(biāo)記樣本可以用時(shí),就必須根據(jù)未知樣本類(lèi)別的數(shù)據(jù)集內(nèi)部的特征,利用模型算法自動(dòng)尋找分類(lèi)的規(guī)律并進(jìn)行分類(lèi),這類(lèi)的方法稱(chēng)之為無(wú)監(jiān)督學(xué)習(xí)方法。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)方法有各種聚類(lèi)算法、自組織特征映射算法、主成分分析方法以及綜合評(píng)價(jià)方法等。

      稅收風(fēng)險(xiǎn)管理為稅務(wù)部門(mén)提供了一個(gè)利用信息化手段,輔助管理納稅人履行納稅義務(wù)的理念,在稅收工作中愈加重要。在信息化高速發(fā)展的時(shí)代,要做好稅收風(fēng)險(xiǎn)管理,利用大量的稅收數(shù)據(jù)信息進(jìn)行深入的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)建模,從而建立高效的風(fēng)險(xiǎn)識(shí)別系統(tǒng),是必不可少的手段,國(guó)內(nèi)各級(jí)稅務(wù)部門(mén)在各個(gè)領(lǐng)域都進(jìn)行了一些實(shí)踐工作,做出了有意義的探索。

      四、數(shù)據(jù)挖掘模型在天津財(cái)稅工作中的應(yīng)用案例

      (一)數(shù)據(jù)挖掘在企業(yè)納稅終止行為分析中的應(yīng)用

      1.模型數(shù)據(jù)準(zhǔn)備

      (1)納稅終止定義

      本研究中對(duì)納稅終止的定義為在預(yù)測(cè)時(shí)間窗口內(nèi)連續(xù)兩個(gè)月無(wú)任何納稅申報(bào)行為。

      (2)數(shù)據(jù)窗口定義

      本研究中選取12個(gè)月的納稅數(shù)據(jù)為研究對(duì)象,最終建模定義的時(shí)間窗口如下:

      (3)數(shù)據(jù)源選擇

      由于稅務(wù)機(jī)關(guān)的納稅人數(shù)據(jù)量巨大,納稅人納稅終止的因素也很多,從全面刻畫(huà)納稅人特征角度及目前可以獲取的數(shù)據(jù)資源綜合考慮與權(quán)衡,初步確定用于本次課題建模的數(shù)據(jù)為企業(yè)基本信息、納稅人申報(bào)入庫(kù)信息、納稅人經(jīng)營(yíng)相關(guān)信息。

      2.數(shù)據(jù)范圍選擇

      (1)行業(yè)選擇

      按企業(yè)戶(hù)數(shù)與非正常戶(hù)比例考量,企業(yè)數(shù)量太少則沒(méi)有代表性,非正常比例較少,難以抓住納稅終止的普遍特征;本課題首先選擇企業(yè)數(shù)量較多且非正常企業(yè)比例較大的行業(yè),如圖右上部分所示。商務(wù)服務(wù)、批發(fā)零售、居民服務(wù)等幾個(gè)行業(yè)是最優(yōu)選擇。

      (2)納稅人樣本選擇

      本次課題最終選定的研究對(duì)象為:

      在觀察期前已在稅務(wù)機(jī)關(guān)登記半年以上的企業(yè)(單位納稅人),且在觀察期末狀態(tài)正常的企業(yè)。

      模型預(yù)測(cè)的結(jié)果可以用下面的交叉表解釋?zhuān)毫许?xiàng)目表示實(shí)際的結(jié)果,行項(xiàng)目表示預(yù)測(cè)的結(jié)果,T代表納稅終止,F(xiàn)代表仍正常納稅。實(shí)際樣本數(shù)4596戶(hù)(非原始樣本,而是模型調(diào)整后的樣本),其中實(shí)際為T(mén)的有1259戶(hù),預(yù)測(cè)為T(mén)的有1656戶(hù)。行項(xiàng)目的百分比(86%)代表實(shí)際為T(mén)的企業(yè)預(yù)測(cè)正確(T)的比例,這里表示在終止納稅的企業(yè)中能夠有86%的企業(yè)預(yù)測(cè)正確;列項(xiàng)目百分比(65%)代表預(yù)測(cè)為T(mén)的企業(yè)中,實(shí)際為T(mén)的比例,這里表示預(yù)測(cè)納稅終止的企業(yè)中有65%的企業(yè)實(shí)際納稅已經(jīng)終止。

      圖2 模型預(yù)測(cè)結(jié)果

      影響模型的因素按對(duì)模型的重要程度依次是:企業(yè)的收入規(guī)模、企業(yè)等級(jí)注冊(cè)類(lèi)型、企業(yè)的稅收波動(dòng)程度、企業(yè)的注冊(cè)規(guī)模、行業(yè)等。

      按模型的效果和準(zhǔn)確度,得到兩個(gè)等級(jí)的預(yù)警名單,分別是:

      預(yù)警一:模型的置信度高,企業(yè)納稅終止的概率很高;

      預(yù)警二:模型的置信度一般,企業(yè)終止納稅的概率一般。

      對(duì)預(yù)測(cè)出來(lái)的可能納稅終止的企業(yè)名單可以進(jìn)行進(jìn)一步的分析和監(jiān)控,如:

      對(duì)于企業(yè)的屬性特征進(jìn)行詳細(xì)分析;按企業(yè)納稅規(guī)?;蚋怕逝判?,選擇重點(diǎn)監(jiān)管企業(yè);

      按稅務(wù)所分類(lèi),提交各稅務(wù)所監(jiān)管;考察最近三個(gè)月納稅情況,是否有零申報(bào),零入庫(kù),稅收衰減;考察企業(yè)的財(cái)務(wù)狀況;考察企業(yè)的欠稅與違規(guī)情況,如拖欠稅款等違規(guī)行為。

      對(duì)這些企業(yè)根據(jù)預(yù)警級(jí)別的不同,可以?xún)?yōu)先考慮關(guān)注置信度高的可能納稅終止的企業(yè)。對(duì)這些企業(yè)進(jìn)行特征分析,能夠發(fā)現(xiàn):85%集中在其它服務(wù)業(yè)、零售業(yè)和商業(yè)服務(wù)業(yè)的咨詢(xún)行業(yè);約80%集中在私營(yíng)有限責(zé)任、個(gè)體工商和其它有限責(zé)任公司;約50%集中在10萬(wàn)以下的小企業(yè);約30%集中在10萬(wàn)~50萬(wàn)之間;約80%集中在月平均納稅額在1000元以下的小企業(yè)。

      3.模型構(gòu)建指標(biāo)體系

      在納稅終止行為模型構(gòu)建過(guò)程中,以上所準(zhǔn)備的各種數(shù)據(jù)多為非結(jié)構(gòu)化數(shù)據(jù)或文本類(lèi)數(shù)據(jù)信息,經(jīng)過(guò)數(shù)據(jù)處理,進(jìn)行指標(biāo)構(gòu)建,并對(duì)所構(gòu)建的指標(biāo)進(jìn)行預(yù)處理,得到構(gòu)建模型要用的數(shù)據(jù)。

      指標(biāo)體系的建立是進(jìn)行預(yù)測(cè)或評(píng)價(jià)研究的前提和基礎(chǔ),它是將抽象的研究對(duì)象按照其本質(zhì)屬性和特征的某一方面的標(biāo)識(shí)分解成為行為化、可操作化的結(jié)構(gòu),并對(duì)指標(biāo)體系中每一構(gòu)成元素(即指標(biāo))賦予相應(yīng)權(quán)重的過(guò)程。

      納稅終止行為預(yù)測(cè)模型指標(biāo)體系主要從四個(gè)方面描繪納稅人的行為特征,包括企業(yè)基本屬性、納稅申報(bào)行為特征、欠稅行為、繳納稅款入庫(kù)情況。

      基于構(gòu)建的納稅終止行為預(yù)測(cè)指標(biāo)體系,對(duì)重要指標(biāo)與是否終止納稅關(guān)聯(lián)進(jìn)行了初步分析,以便于找出納稅終止的重要影響因素,作為模型的輸入變量。

      指標(biāo)1:近一年是否有過(guò)未申報(bào)

      在最近一年有過(guò)未申報(bào)記錄的企業(yè)在未來(lái)半年出現(xiàn)納稅終止的比例要遠(yuǎn)大于全部申報(bào)的企業(yè)。

      注:FLAG_NSZZ為未來(lái)半年內(nèi)納稅終止標(biāo)志,等于1為納稅終止,等于0為未終止。

      指標(biāo)2:近半年零申報(bào)次數(shù)比例

      近半年申報(bào)金額為零的次數(shù)出現(xiàn)的越多,終止概率越高。

      指標(biāo)3:從業(yè)人數(shù)趨勢(shì)值

      從業(yè)人數(shù)整體呈減少或不變趨勢(shì)的納稅企業(yè),未來(lái)半年納稅終止的概率較高。

      4.模型構(gòu)建與結(jié)果解讀

      考慮企業(yè)申報(bào)特征的差異,影響企業(yè)納稅終止的因素也不盡相同,本課題對(duì)企業(yè)按照其納稅申報(bào)特征進(jìn)行初步聚類(lèi),從不同類(lèi)別考慮采取不同的研究方式。在方法選取上,選擇數(shù)據(jù)挖掘中解決分類(lèi)問(wèn)題的決策樹(shù)算法進(jìn)行研究,通過(guò)對(duì)已知類(lèi)別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類(lèi)規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類(lèi)別。

      本課題首先對(duì)批發(fā)零售企業(yè)按照其納稅申報(bào)特征進(jìn)行初步聚類(lèi),從不同類(lèi)別考慮采取不同的研究方式。

      以下為聚類(lèi)結(jié)果:

      對(duì)各個(gè)群體,首先采用單一模型進(jìn)行建模。由于納稅終止的企業(yè)(以下稱(chēng)之為“壞企業(yè)”)數(shù)量較少,單一模型一般難以得到理想的結(jié)果,因此,在構(gòu)建多個(gè)單一模型后,再采用多個(gè)模型組合的方式進(jìn)行集成,以獲取最佳結(jié)果。

      (1)單一模型結(jié)果與評(píng)價(jià)

      單一模型結(jié)果

      以下為群體2,選取70%的樣本作為訓(xùn)練集,30%的樣本作為測(cè)試集,以訓(xùn)練集得到的模型檢驗(yàn)測(cè)試集中的樣本,采用決策樹(shù)某單一模型反復(fù)訓(xùn)練,得到的建模結(jié)果為:

      聚類(lèi)企業(yè)戶(hù)數(shù)納稅終止戶(hù)數(shù)納稅終止比率群體特征研究方式群體030626085.0%最近一月未申報(bào) 納稅終止概率非常高。無(wú)需建模,直接判定為納稅終止企業(yè)群體1100014914.9%近12個(gè)月有過(guò)未申報(bào)情況(不含群體0)企業(yè)戶(hù)數(shù)不多,但納稅終止概率較高,建模群體22383614276.0%近12個(gè)月都有正常申報(bào),最近3個(gè)月有過(guò)零申報(bào)記錄涉及企業(yè)戶(hù)數(shù)較多,需重點(diǎn)建模群體3329623761.1%近12個(gè)月都有正常申報(bào),且最近3個(gè)月沒(méi)有過(guò)零申報(bào)記錄納稅終止概率很低,需建模,重點(diǎn)關(guān)注終止概率較高企業(yè)

      預(yù)測(cè)變量重要性表明:對(duì)于群體2(近12個(gè)月都有正常申報(bào),最近3個(gè)月有過(guò)零申報(bào)記錄),重要的變量包括:近一年個(gè)稅申報(bào)次數(shù);近一年零申報(bào)次數(shù);最近3個(gè)月零申報(bào)比例變化;近3個(gè)月平均申報(bào)金額;個(gè)稅申報(bào)金額的趨勢(shì)及波動(dòng)等。

      單一模型評(píng)價(jià)

      采用決策樹(shù)某單一模型的評(píng)估情況:

      模型的提升率為1.4,較不用模型預(yù)測(cè)效果提高1.4倍(最優(yōu)為2倍),已有初步的成效。

      其中,提升率指的是用模型和不用模型相比,預(yù)測(cè)能力調(diào)高的倍數(shù)。模型預(yù)測(cè)結(jié)果的提升圖曲線(xiàn)越靠上面表明其預(yù)測(cè)效果越好。

      訓(xùn)練集與測(cè)試集提升圖

      模型預(yù)測(cè)的結(jié)果可以用下面的混淆矩陣解釋?zhuān)?/p>

      列項(xiàng)目表示實(shí)際的結(jié)果,行項(xiàng)目表示預(yù)測(cè)的結(jié)果,1代表納稅終止,0代表仍正常納稅。以測(cè)試集來(lái)看,實(shí)際樣本數(shù)918戶(hù)(非原始樣本,而是模型調(diào)整后的樣本,且30%的樣本是測(cè)試集),其中實(shí)際為1的有417戶(hù),預(yù)測(cè)為1的有582戶(hù)。行項(xiàng)目的百分比(72.662%)代表覆蓋率,即實(shí)際為1的企業(yè)預(yù)測(cè)正確(1)的比例,以測(cè)試集看,這里表示在終止納稅的企業(yè)中能夠有72.662%的企業(yè)預(yù)測(cè)正確;以測(cè)試集看,列項(xiàng)目百分比(52.062%)代表預(yù)測(cè)為1的企業(yè)中,實(shí)際為1的比例,即命中率,這里表示預(yù)測(cè)納稅終止的企業(yè)中有52.062%的企業(yè)實(shí)際納稅已經(jīng)終止。兩者值越高,模型預(yù)測(cè)效果越好??梢园l(fā)現(xiàn),模型在訓(xùn)練集及測(cè)試集均收到了初步的效果。

      訓(xùn)練集混淆矩陣測(cè)試集混淆矩陣

      (2)組合模型結(jié)果與評(píng)價(jià)

      在預(yù)測(cè)中由于各種單項(xiàng)預(yù)測(cè)具有不穩(wěn)定性,各種預(yù)測(cè)方法都存在時(shí)好時(shí)壞的特點(diǎn),而組合預(yù)測(cè)在保持預(yù)測(cè)穩(wěn)定性的同時(shí),可以提高預(yù)測(cè)的精度。因此,在構(gòu)建多個(gè)單一模型后,再采用多個(gè)模型組合的方式進(jìn)行集成,以獲取最佳結(jié)果。同樣,選取70%的樣本作為訓(xùn)練集,30%的樣本作為模型測(cè)試集。

      組合模型的提升率接近30,較不用模型預(yù)測(cè)效果提高近30倍,模型效果得到很大的提升。

      測(cè)試集的覆蓋率為77.645%,命中率為88.209%,即在終止納稅的企業(yè)中能夠有77.645%的企業(yè)預(yù)測(cè)正確;預(yù)測(cè)納稅終止的企業(yè)中有88.209%的企業(yè)實(shí)際納稅已經(jīng)終止。模型在命中率上有較大提高,對(duì)納稅終止的預(yù)測(cè)效果較單一模型提高較多(單一預(yù)測(cè)模型覆蓋率72.66%,命中率52.06%)。

      訓(xùn)練集混淆矩陣測(cè)試集混淆矩陣

      5.預(yù)測(cè)納稅終止企業(yè)特征刻畫(huà)

      從模型所獲得的規(guī)則集來(lái)看,具備以下特點(diǎn)的企業(yè)有較高概率發(fā)生納稅終止行為。

      (1)最近3個(gè)月內(nèi)有過(guò)未申報(bào)的情況;

      (2)最近三個(gè)月內(nèi)沒(méi)有申報(bào)過(guò)經(jīng)營(yíng)性主稅種(即營(yíng)業(yè)稅或增值稅。對(duì)于批發(fā)零售企業(yè),由于主稅種不在地稅繳納,因而重點(diǎn)關(guān)注是否有國(guó)稅附加稅申報(bào));

      (3)最近三個(gè)月有較高比例零申報(bào)的情況,但是之前半年零申報(bào)比例并不高;

      (4)最近三個(gè)月無(wú)個(gè)人所得稅申報(bào),但之前有過(guò)個(gè)稅申報(bào);

      (5)個(gè)稅申報(bào)金額有顯著下降(平滑后數(shù)據(jù));

      (6)主稅種申報(bào)金額有顯著下降(平滑后數(shù)據(jù));

      (7)最近一次申報(bào)的人均收入相比之前有顯著下降;

      (8)最近半年有過(guò)因之前未申報(bào)而補(bǔ)申報(bào)的行為;

      (9)短期內(nèi),有未繳清的欠稅對(duì)納稅終止并無(wú)顯著影響;

      (二)數(shù)據(jù)挖掘在企業(yè)欠稅行為分析中的應(yīng)用

      1.研究背景與方法

      (1)應(yīng)用背景

      (2)分析方法

      本文我們應(yīng)用聚類(lèi)分析、風(fēng)險(xiǎn)評(píng)價(jià)、關(guān)聯(lián)規(guī)則、決策樹(shù)模型等多種模型,重點(diǎn)分析企業(yè)的欠稅風(fēng)險(xiǎn)、稅種關(guān)聯(lián)規(guī)則、房產(chǎn)稅欠稅特征及欠稅原因。通過(guò)多種方法的應(yīng)用,對(duì)欠稅企業(yè)整體有了更深入了解。

      2.數(shù)據(jù)處理與指標(biāo)構(gòu)建

      (1)欠稅企業(yè)屬性集

      稅務(wù)領(lǐng)域的數(shù)據(jù)挖掘分析對(duì)象是納稅人。納稅人屬性大體包括以下幾類(lèi):

      基本信息、鑒定信息、稅源信息、申報(bào)征收、財(cái)務(wù)報(bào)表、發(fā)票信息等,在進(jìn)行數(shù)據(jù)挖掘的同時(shí),針對(duì)具體分析目標(biāo),對(duì)納稅人屬性集進(jìn)行合理約減。

      本文分析對(duì)象是欠稅企業(yè),因此首先要建立有關(guān)欠稅企業(yè)的屬性集。利用數(shù)據(jù)挖掘進(jìn)行稅務(wù)數(shù)據(jù)分析,通常用到基本信息、納稅行為信息、外部門(mén)如工商等數(shù)據(jù),根據(jù)簡(jiǎn)單有效原則,具體選取屬性如下圖所示:

      (2)數(shù)據(jù)處理與樣本篩選

      在建模之前,需要對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量校核與處理,由于本文涉及到的表比較多,數(shù)據(jù)處理流文件較多,如下圖:

      (3)樣本企業(yè)數(shù)據(jù)表現(xiàn)

      從欠稅稅種看,企業(yè)最容易形成欠稅的稅種是企業(yè)所得稅,它占全部欠稅稅款的55.6%,其次是房產(chǎn)稅,占了13.7%。

      從欠稅行業(yè)看,在欠稅企業(yè)里,欠稅最多的行業(yè)為房地產(chǎn)業(yè),欠稅26980.42萬(wàn)元,約占欠稅企業(yè)的73.9%,欠稅企業(yè)數(shù)量最多的行業(yè)為批發(fā)零售業(yè),數(shù)量為762戶(hù),約占欠稅企業(yè)的38.6%。

      3.欠稅企業(yè)風(fēng)險(xiǎn)等級(jí)

      根據(jù)欠稅企業(yè)屬性集,衍生出適合風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo),建立欠稅企業(yè)風(fēng)險(xiǎn)指標(biāo)體系,包括六個(gè)部分,基本信息、申報(bào)信息、異常認(rèn)定、欠稅信息、財(cái)務(wù)信息、入庫(kù)信息。具體指標(biāo)如下圖:

      根據(jù)易操作原則,參考聚類(lèi)分析中指標(biāo)重要性,再加入現(xiàn)實(shí)經(jīng)驗(yàn)對(duì)指標(biāo)權(quán)重進(jìn)行調(diào)整,設(shè)計(jì)出應(yīng)用的主要指標(biāo)及分值權(quán)重,如下表:

      4.關(guān)聯(lián)規(guī)則在稅收業(yè)務(wù)的應(yīng)用

      (1)數(shù)據(jù)處理及流構(gòu)建

      設(shè)置稅款屬期在2013年以后,按照納稅人管理代碼(RTP_ID)作為處理對(duì)象,以稅種為列名,再處理成布爾型數(shù)據(jù),構(gòu)造成欠稅稅種的數(shù)據(jù)集,其中有欠稅的企業(yè)納稅人1972,數(shù)據(jù)集如下表:

      (2)稅種之間網(wǎng)絡(luò)圖展現(xiàn)

      設(shè)置40以上是強(qiáng)鏈接,20以下是弱鏈接如圖:強(qiáng)鏈接有4條,其中12和15,鏈接最強(qiáng),即房產(chǎn)稅和城鎮(zhèn)土地使用稅,條數(shù)為340,全部為1972,占17.241%,即規(guī)則支持度為17.241%。其次是10/16/61/62/65,即城建稅、印花稅、教育費(fèi)附加收入、地方教育附加、防洪費(fèi)。

      (3)關(guān)聯(lián)規(guī)則應(yīng)用

      根據(jù)納稅人某個(gè)或某幾個(gè)欠稅稅種推導(dǎo)出另外某個(gè)或某幾個(gè)欠稅稅種的關(guān)聯(lián)規(guī)則。

      分析過(guò)程:

      ①對(duì)數(shù)據(jù)進(jìn)行布爾型數(shù)值轉(zhuǎn)換處理;

      ②設(shè)置最小支持度閾值為0.1%,最小置信度閾值為80%,用Apriori算法對(duì)數(shù)據(jù)進(jìn)行布爾關(guān)聯(lián)規(guī)則挖掘,生產(chǎn)頻繁項(xiàng)集;

      ③對(duì)生產(chǎn)成的頻繁項(xiàng)集進(jìn)行發(fā)掘,挖掘出關(guān)聯(lián)規(guī)則83條。

      篩選實(shí)例數(shù)大于10的規(guī)則如下:

      ④有效規(guī)則篩選

      (4)欠房產(chǎn)稅企業(yè)特征分析

      重點(diǎn)分析欠不同稅種的企業(yè)是否具有不同的特征,根據(jù)欠稅企業(yè)數(shù)據(jù)表現(xiàn)知道,各欠稅稅種所占比例較大的有企業(yè)所得稅和房產(chǎn)稅,由關(guān)聯(lián)規(guī)則挖掘出的主要是有關(guān)房產(chǎn)稅的,因此重點(diǎn)研究欠房產(chǎn)稅的企業(yè),找出此類(lèi)企業(yè)的顯著特征。

      通過(guò)數(shù)據(jù)挖掘決策樹(shù)模型C5.0建模,得到模型正確率識(shí)別率超過(guò)90%,影響因素可信度很高,發(fā)現(xiàn)影響欠房產(chǎn)稅的因素主要是欠稅金額、有無(wú)陳欠、上半年是否連續(xù)虧損、所屬分局等因素

      企業(yè)欠稅規(guī)模分布如下圖所示,可發(fā)現(xiàn)欠稅規(guī)模越大,欠房產(chǎn)稅概率越大。

      企業(yè)有無(wú)陳欠分布如下圖所示,可發(fā)現(xiàn)有陳欠,欠房產(chǎn)稅概率變大。

      企業(yè)零申報(bào)規(guī)模分布如下圖所示,可發(fā)現(xiàn)企業(yè)零申報(bào)次數(shù)越多,欠房產(chǎn)稅概率越大。

      企業(yè)上半年連續(xù)虧損情況分布如下圖所示,可發(fā)現(xiàn)企業(yè)經(jīng)營(yíng)狀況越不好,欠房產(chǎn)稅概率越大。

      經(jīng)過(guò)對(duì)欠稅企業(yè)的數(shù)據(jù)挖掘,單純從數(shù)據(jù)的角度,對(duì)企業(yè)欠稅原因進(jìn)行了總結(jié)如下:

      ①由于企業(yè)辦理遷移注銷(xiāo),或者其他原因?qū)е缕髽I(yè)變更注冊(cè)信息,造成欠稅;

      ②由于企業(yè)連續(xù)經(jīng)營(yíng)虧損,造成欠稅;

      ③由于行業(yè)因素,如房地產(chǎn),造成欠稅;

      ④企業(yè)申報(bào)異常和存在陳欠,造成欠稅;

      ⑤企業(yè)申報(bào)正常,但零申報(bào)較多,造成欠稅;

      5.結(jié)果應(yīng)用與業(yè)務(wù)指導(dǎo)

      (1)結(jié)果應(yīng)用

      對(duì)于模型產(chǎn)生的結(jié)果,大概有三個(gè)方面的應(yīng)用:

      ①風(fēng)險(xiǎn)評(píng)價(jià)

      以2015年欠稅企業(yè)為例,通過(guò)聚類(lèi)分析和權(quán)重設(shè)置,得到風(fēng)險(xiǎn)得分,將欠稅企業(yè)分成四個(gè)等級(jí),重點(diǎn)對(duì)高風(fēng)險(xiǎn)和高危風(fēng)險(xiǎn)的企業(yè)進(jìn)行篩查,追補(bǔ)欠稅。

      ②特征刻畫(huà)

      利用關(guān)聯(lián)規(guī)則和決策樹(shù)模型,找出房產(chǎn)稅欠稅規(guī)則,挖掘出欠房產(chǎn)稅企業(yè)特征及原因分析。

      ③風(fēng)險(xiǎn)防控

      對(duì)高風(fēng)險(xiǎn)名單,可以進(jìn)一步挖掘,通過(guò)調(diào)整完善指標(biāo)體系和權(quán)重設(shè)置,對(duì)業(yè)務(wù)更具有指導(dǎo)性,防止風(fēng)險(xiǎn)企業(yè)造成稅款流失的發(fā)生。

      (2)欠稅規(guī)律探查

      從產(chǎn)生的納稅人欠稅行為關(guān)聯(lián)規(guī)則中,結(jié)合業(yè)務(wù)人員的稅收理論和操作經(jīng)驗(yàn),挑選出有價(jià)值的規(guī)則應(yīng)用到稅收征管業(yè)務(wù)中。對(duì)關(guān)聯(lián)規(guī)則置信率較高的規(guī)則進(jìn)行驗(yàn)證后,對(duì)不滿(mǎn)足有效關(guān)聯(lián)規(guī)則的企業(yè),劃入疑似名單,對(duì)這些疑點(diǎn)異常戶(hù)進(jìn)行深入分析挖掘,查找可能漏稅戶(hù)。

      五、研究課題的應(yīng)用效果

      (一)預(yù)測(cè)企業(yè)納稅行為終止

      1.企業(yè)納稅行為終止預(yù)警。對(duì)可能發(fā)生納稅行為終止的企業(yè)進(jìn)行預(yù)警,考察潛在的稅收損失;給出可能發(fā)生納稅終止的企業(yè)名單,重點(diǎn)抓好這些企業(yè)的清理欠稅工作,避免稅收損失。

      2.納稅終止企業(yè)的特征分析。細(xì)分企業(yè)的納稅行為特征,給出發(fā)生納稅行為終止可能性較大的企業(yè)具備的共性特征,對(duì)這部分企業(yè)加強(qiáng)征收管理。

      (二)企業(yè)欠稅稅種間關(guān)聯(lián)分析

      通過(guò)數(shù)據(jù)挖掘的分析方法,利用關(guān)聯(lián)規(guī)則挖掘算法分析納稅人欠稅稅種之間的關(guān)系,分析納稅人屬性與欠稅行為之間的關(guān)系,分析納稅人出現(xiàn)欠稅與出現(xiàn)違法違章手段的關(guān)系判斷納稅人欠稅的可能性等。稅務(wù)部門(mén)可以將數(shù)據(jù)挖掘知識(shí)及成果應(yīng)用到日常管理工作中,加強(qiáng)稅源管理,提供稅收征管和決策水平,降低納稅人欠稅或流失的可能性。

      [1]魏長(zhǎng)水,羅忠文,李剛.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘在稅務(wù)稽查系統(tǒng)中的應(yīng)用[J].福建電腦,2008(24).

      [2]姚亮.關(guān)聯(lián)規(guī)則挖掘技術(shù)在稅收?qǐng)?zhí)法管理中的應(yīng)用研究[J].合肥工業(yè)大學(xué),2007.

      [3]宋茹樺.關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用[J].山東大學(xué),2006.

      [4]劉以堂.關(guān)聯(lián)規(guī)則在稅收征管中的應(yīng)用[J].科技創(chuàng)新導(dǎo)報(bào),2012(17).

      [5]李宇.淺談稅務(wù)挖掘與深度利用[J].中國(guó)科技信息,2008(5).

      牽頭單位:天津市財(cái)稅信息中心

      協(xié)作單位:天津市河?xùn)|區(qū)地稅局、天津市南開(kāi)區(qū)地稅局、天津?yàn)I海新區(qū)地稅局、天津市靜海區(qū)地稅局、天津市納稅服務(wù)局

      課題指導(dǎo):天津市財(cái)政局信息化處、天津市財(cái)政局收入規(guī)劃核算處、天津市財(cái)政科學(xué)研究所

      撰稿人:于眾、陳杰、劉穎、張磊、于學(xué)深

      責(zé)任編輯:高麗麗高艷芳

      F812.42

      A

      1006-1255-(2016)06-0051-10

      猜你喜歡
      納稅人納稅數(shù)據(jù)挖掘
      涉稅刑事訴訟中的舉證責(zé)任——以納稅人舉證責(zé)任為考察對(duì)象
      納稅人隱私權(quán)的確立、限制與保護(hù)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      建筑企業(yè)實(shí)施納稅籌劃的幾點(diǎn)思考
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      國(guó)地稅聯(lián)合開(kāi)辦2017年第一季度納稅人學(xué)堂
      服務(wù)于納稅人 讓納稅人滿(mǎn)意
      適應(yīng)納稅新常態(tài) 樹(shù)立為民新理念
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      從業(yè)人員給企業(yè)帶來(lái)的納稅困擾——以一個(gè)火力發(fā)電企業(yè)為例
      措勤县| 泰兴市| 余庆县| 德昌县| 固始县| 宜兰市| 大方县| 衡山县| 莱西市| 高唐县| 巴彦淖尔市| 长宁区| 连平县| 封丘县| 岳池县| 抚顺县| 神木县| 鄂托克旗| 宜丰县| 崇礼县| 龙江县| 平邑县| 宜宾市| 宁强县| 平南县| 抚顺市| 海城市| 邵武市| 民权县| 广饶县| 灵川县| 新竹县| 镇康县| 永吉县| 桦南县| 资兴市| 石嘴山市| 敦化市| 贵阳市| 新和县| 铜川市|