李天舉,謝志峰,張侃弘,陶亦筠,范 杰,湯 臻
(1.上海大學(xué),上海 200072; 2.上海煙草集團(tuán)有限責(zé)任公司,上海 200082; 3.上海市煙草專賣局,上海 200120)
隨著數(shù)字化信息時代的到來,煙草行業(yè)數(shù)據(jù)量正在以驚人的速度快速增長,這種數(shù)字化趨勢為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù)在其生產(chǎn)、物流、監(jiān)管等各方面的應(yīng)用創(chuàng)造了新機(jī)遇[1-3]。數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸地應(yīng)用于各行各業(yè),對異常數(shù)據(jù)的挖掘也開始得到人們更多的重視,所謂異常指的是在海量數(shù)據(jù)中存在著與一般數(shù)據(jù)形式相差較大或者與正常行為相左的數(shù)據(jù)對象,一般的數(shù)據(jù)挖掘過程常常將這些數(shù)據(jù)當(dāng)作噪聲進(jìn)行清除處理,但大多時候它們可能包含了解決現(xiàn)實問題中極其重要的信息。異常數(shù)據(jù)挖掘技術(shù)已在模式識別、信用欺詐、企業(yè)監(jiān)管等領(lǐng)域得到廣泛應(yīng)用。比如在金融行業(yè)的征信系統(tǒng)中,異常數(shù)據(jù)往往代表了用戶存在違約、造假等不良行為;在電網(wǎng)系統(tǒng)中,異常數(shù)據(jù)通常警示設(shè)備故障問題或者用戶的異常用電的行為;在城市軌道安防系統(tǒng)中,異常數(shù)據(jù)意味著行人或車輛存在違章行為。在這樣的背景下,面向煙草行業(yè)的異常數(shù)據(jù)挖掘技術(shù)有望從海量的煙草數(shù)據(jù)中,提取挖掘出零售戶在卷煙經(jīng)營中是否存在涉煙違法的行為。數(shù)據(jù)挖掘技術(shù)的應(yīng)用將有效推進(jìn)整個煙草行業(yè)向信息化、智能化方向發(fā)展。
基于數(shù)據(jù)挖掘的市場異常預(yù)警預(yù)測研究,能夠進(jìn)一步加強(qiáng)煙草零售市場監(jiān)管力度,有效限制零售戶的涉煙違法行為,合理分配稽查工作中的人員調(diào)度,有效凈化卷煙市場經(jīng)營環(huán)境。在煙草專賣市場監(jiān)管方面,異常數(shù)據(jù)挖掘的任務(wù)就是在專賣監(jiān)管數(shù)據(jù)中發(fā)現(xiàn)那些有違規(guī)經(jīng)營跡象的數(shù)據(jù)對象,并找到隱藏在這些對象背后的各類違規(guī)經(jīng)營情況。通過深入挖掘分析現(xiàn)有的煙草專賣信息數(shù)據(jù),能夠有效結(jié)合現(xiàn)有市場監(jiān)管模式,加快煙草專賣管理方式的信息化轉(zhuǎn)變,加強(qiáng)對重點涉煙違法行為的治理,提升市場監(jiān)管的精準(zhǔn)性。
目前將前沿的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù)應(yīng)用于煙草專賣市場監(jiān)管方面的研究稍顯不足,但在其他領(lǐng)域的相關(guān)研究為筆者提供了寶貴的經(jīng)驗。文獻(xiàn)[4]將機(jī)器學(xué)習(xí)技術(shù)運用于發(fā)布虛假財務(wù)報表(FFS)公司的異常行為檢測中,通過使用優(yōu)化的Stacking多模型融合方法將典型的機(jī)器學(xué)習(xí)算法組合在一起,取得了比任何單一算法和經(jīng)過檢驗的簡單集成方法更好的檢測性能。文獻(xiàn)[5]利用XGBoost機(jī)器學(xué)習(xí)算法,能夠?qū)υ朴嬎阒蠸DN控制器易受到分布式拒絕服務(wù)(DDoS)的異常攻擊行為進(jìn)行快速的檢測。文獻(xiàn)[6]通過使用基于功能樹分類器和三種當(dāng)前比較先進(jìn)的機(jī)器學(xué)習(xí)集成框架Bagging、AdaBoost和MultiBoost,提出并驗證了一種能夠提高滑坡異常和敏感性模型預(yù)測性能的集成方法。文獻(xiàn)[7]將前沿的機(jī)器學(xué)習(xí)LightGBM算法應(yīng)用于廣告轉(zhuǎn)化率預(yù)估中,通過LightGBM模型提取廣告日志中的高階組合特征,并結(jié)合了區(qū)域因子分解機(jī)FFM模型對稀疏數(shù)據(jù)進(jìn)行相應(yīng)處理,有效提高了廣告轉(zhuǎn)化率預(yù)估模型的有效性和泛化能力。文獻(xiàn)[8]提出的深度網(wǎng)絡(luò)xDeepFM算法,能夠有效地自動學(xué)習(xí)數(shù)據(jù)的特征交互。
該文基于上海市卷煙經(jīng)營零售戶從2016年1月到2019年4月的煙草專賣相關(guān)數(shù)據(jù),提出了基于多模型Stacking集成學(xué)習(xí)的煙草異常數(shù)據(jù)挖掘模型,旨在利用前沿的機(jī)器學(xué)習(xí)算法XGBoost、LightGBM等,以及深度學(xué)習(xí)網(wǎng)絡(luò)xDeepFM算法對該數(shù)據(jù)進(jìn)行建模預(yù)測和分析,最終推動煙草專賣市場監(jiān)管方式的轉(zhuǎn)型,進(jìn)而促進(jìn)全市煙草市場監(jiān)管水平的大幅提升。
選取了上海市4萬多家零售戶從2016年1月-2019年4月的煙草專賣相關(guān)數(shù)據(jù),基礎(chǔ)數(shù)據(jù)主要包括:經(jīng)營戶靜態(tài)數(shù)據(jù)、客戶歷史數(shù)據(jù)、訂貨數(shù)據(jù)、卷煙主數(shù)據(jù)、市場檢查數(shù)據(jù)、投訴舉報數(shù)據(jù)、案件數(shù)據(jù)等。
影響數(shù)據(jù)分析與挖掘的第一要素是數(shù)據(jù)的預(yù)處理工作,而數(shù)據(jù)挖掘技術(shù)的合理運用是異常數(shù)據(jù)檢測能否正確運行的核心環(huán)節(jié)。在對數(shù)據(jù)進(jìn)行預(yù)處理之后,必須結(jié)合有效的分析手段,才能找出數(shù)據(jù)的規(guī)律,從而挖掘出異常經(jīng)營行為。通過對煙草市場監(jiān)管數(shù)據(jù)的深入分析,發(fā)現(xiàn)大部分的數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),其中主要包含了連續(xù)和離散兩種形式的變量類型,這兩種類型數(shù)據(jù)相對應(yīng)的處理方式明顯不同,因此,如何快速有效地實現(xiàn)復(fù)雜條件下結(jié)構(gòu)化數(shù)據(jù)的分析與挖掘尤為重要。針對煙草行業(yè)中的海量、多維、動態(tài)數(shù)據(jù),分析煙草結(jié)構(gòu)化數(shù)據(jù)的特點,從營銷、物流、市場監(jiān)管、案件等多個維度進(jìn)行分析,梳理形成靜態(tài)特征指標(biāo)與動態(tài)特征指標(biāo)。部分特征分類如表1所示。
表1 部分特征分類
在數(shù)據(jù)預(yù)處理階段,需要對類別數(shù)據(jù)進(jìn)行編碼,比如:訂貨方式包括POS訂貨、電話訂貨、電子商務(wù)、手工訂貨、網(wǎng)上配貨等,需要將其轉(zhuǎn)為數(shù)值型數(shù)據(jù)進(jìn)行處理。對數(shù)據(jù)的編碼往往會影響到模型訓(xùn)練的速度和預(yù)測的結(jié)果,所以如何合理選擇數(shù)據(jù)的編碼方式十分重要。常見的編碼方式有獨熱編碼(one-hot encoding)、標(biāo)簽編碼(label encoding)和實體嵌入(embedding)。
(1)one-hot編碼,其基本思想是使用位寄存器對類別數(shù)據(jù)的N種類別狀態(tài)分別編碼,每個類別狀態(tài)占用其中的一位,且每種狀態(tài)只有一個位置是1,其他狀態(tài)位置都為0。例如,“POS訂貨”編碼后的形式為[0 0 0 0 1],“電話訂貨”編碼后的形式為[0 0 0 1 0],“電子商務(wù)”編碼后的形式為[0 0 1 0 0],“手工訂貨”編碼后的形式為[0 1 0 0 0],“網(wǎng)上配貨”編碼后的形式為[1 0 0 0 0]。
(2)標(biāo)簽編碼:給每種類別分配整數(shù),例如“POS訂貨”為1,“電話訂貨”為2,“電子商務(wù)”為3,“手工訂貨”為4、“網(wǎng)上配貨”為5。由于連續(xù)的數(shù)字代表著數(shù)字之間的先后順序,要盡量避免將其使用在線性模型中,而基于樹的算法模型則不受這種數(shù)值順序的限制。
(3)采用實體嵌入方式可以將類別數(shù)據(jù)用向量來表示,生成高維數(shù)據(jù)在高維空間體現(xiàn)它們的相互關(guān)聯(lián)。一般多用于深度神經(jīng)網(wǎng)絡(luò)算法模型中。
通過觀察樣本發(fā)現(xiàn),大多數(shù)類別數(shù)據(jù)在5個類別以下,所以選擇使用one-hot編碼對類別數(shù)據(jù)進(jìn)行編碼,一方面防止標(biāo)簽編碼帶來的賦值順序問題,另一方面又可以同時適用于機(jī)器學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)算法。最后,由于原始數(shù)據(jù)中還存在一些比較臟、亂、差的數(shù)據(jù),還需要對其進(jìn)行大量清洗,比如經(jīng)營面積數(shù)據(jù)存在大量不合理數(shù)值,而經(jīng)營面積代碼則是以類別A、B、C、D來表示,則提取特征時就去掉經(jīng)營面積數(shù)值型數(shù)據(jù),轉(zhuǎn)而用類別型數(shù)據(jù)代替。大戶類別數(shù)據(jù)中只包含空值和其他大戶類別,那么這一特征數(shù)據(jù)全是無用信息,則無需進(jìn)入模型。零售戶的檔位信息存在缺失值,處理方式是按當(dāng)前時間點往前最近的一次檔位進(jìn)行填補(bǔ)。通過數(shù)據(jù)預(yù)處理和特征工程提取之后,最終進(jìn)入模型的一共有244個特征(指標(biāo))。
XGBoost(extreme gradient boosting,極端梯度提升算法[9]),是一種基于CART樹的boosting算法,高效地實現(xiàn)了GBDT算法,并進(jìn)行了算法和工程上的許多改進(jìn)。
XGBoost模型的目標(biāo)函數(shù)主要包含兩個部分:
(1)
XGBoost模型每次訓(xùn)練一棵新的樹都要擬合上一次結(jié)果的殘差,每次增加的函數(shù)的增量要使新一輪的殘差盡可能減小,在進(jìn)行到第t次時,模型的目標(biāo)函數(shù)可以寫為:
(2)
模型訓(xùn)練的最終目標(biāo)是要找到一個能夠最小化目標(biāo)函數(shù)的ft(xi),對式(2)采用其在x=0處的泰勒二階展開式來近似,近似的目標(biāo)函數(shù)為:
Ω(ft)
(3)
去掉不影響目標(biāo)函數(shù)最終優(yōu)化的項,可簡化為:
(4)
LightGBM算法主要使用了基于梯度的單邊采樣和互斥特征捆綁這兩種方法來彌補(bǔ)傳統(tǒng)Boosting在處理大數(shù)據(jù)樣本時的計算損耗問題[10]。
模型在訓(xùn)練時首先采用基于梯度的單邊采樣(簡稱GOSS),計算梯度時不再是掃描全部的樣本點,而是保留梯度比較大的一小部分樣本數(shù)據(jù),對梯度小的大多數(shù)樣本進(jìn)行隨機(jī)采樣;而互斥特征捆綁(簡稱EFB)主要依據(jù)高維數(shù)據(jù)的稀疏性,主要特點是存在很多特征不會同時取值為非零值,稱具有這樣的性質(zhì)的特征為互斥特征,將這些特征組合在一起可以達(dá)到降低特征維度的目的,使得確定切分點的計算損耗減少,同時對互斥特征的處理也在一定程度上降低了模型過擬合的風(fēng)險。
對于預(yù)測性的模型來說,如何讓模型自動地去學(xué)習(xí)特征之間的交叉特性對數(shù)據(jù)挖掘系統(tǒng)是特別必要的。所謂特征之間的交叉特性也稱之為交叉特征[11],是指兩個及兩個以上的特征進(jìn)行組合形成一個新的特征。深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)為解決這一問題提供了突破口,比如基于因子分解機(jī)的FNN、PNN和DeepFM等深度神經(jīng)網(wǎng)絡(luò)算法[12-14],對特征之間的高階交互特性的學(xué)習(xí)使用了多層的全連接網(wǎng)絡(luò),但是這些網(wǎng)絡(luò)的缺點是模型學(xué)習(xí)出的是隱式的交叉特征,使得其具體形式是未知的和不可控的。為了挖掘不同交叉特征之間的潛在聯(lián)系,該文引入xDeepFM(極深因子分解機(jī))深度神經(jīng)網(wǎng)絡(luò)模型[8],來讓模型自動地去學(xué)習(xí)特征之間的交叉特性。其基本結(jié)構(gòu)如圖1所示。
xDeepFM算法首先把數(shù)據(jù)集的原始特征中每個one-hot編碼后的特征組成一個field,用來克服數(shù)據(jù)的稀疏性;然后進(jìn)行embedding轉(zhuǎn)換使特征表現(xiàn)為向量級;接著將數(shù)據(jù)送入壓縮交互網(wǎng)絡(luò)CIN模型中,使得模型以顯示的方式自動學(xué)習(xí)高階的交互特征,CIN每層的神經(jīng)元都是由原始特征向量和它前面的隱層計算而來,即:
圖1 xDeepFM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(5)
其中,Xo為數(shù)據(jù)的原始特征,Xk為CIN神經(jīng)網(wǎng)絡(luò)中的隱層,點乘的計算為:
(6)
同時xDeepFM模型中還分別包含了集成的線性模型和DNN神經(jīng)網(wǎng)絡(luò)模型,前者使得模型具有泛化的記憶能力,后者使得模型能夠隱式地學(xué)習(xí)特征的交互特性。
基于Stacking的集成學(xué)習(xí)[15]是按照一定的方式將多種不同的算法集成組合來提升模型的訓(xùn)練效果,相比于單一的模型,使用該方法通??梢援a(chǎn)生更好的預(yù)測性能。與Bagging[16]和Boosting[17]采用單一的機(jī)器學(xué)習(xí)算法訓(xùn)練單個模型不一樣的地方在于,Stacking是一種每一層都可以使用多個模型來進(jìn)行訓(xùn)練的集成學(xué)習(xí)方式,每一層的多個模型都有各自輸出值,將該層每一個模型的輸出值作為新的特征組合成新的數(shù)據(jù)集作為下一層的輸入進(jìn)行學(xué)習(xí)。
圖2 整體流程
模型構(gòu)建流程如圖2所示。首先對煙草市場監(jiān)管數(shù)據(jù)進(jìn)行預(yù)處理,在訓(xùn)練集上對單個算法進(jìn)行訓(xùn)練調(diào)參,使單個模型性能達(dá)到最優(yōu)狀態(tài);然后確定Stacking集成學(xué)習(xí)模型的第一層模型組合方式,利用劃分后的數(shù)據(jù)集來訓(xùn)練,將第一層的各個初級學(xué)習(xí)器模型的輸出組合形成新的數(shù)據(jù)集;Stacking第二層次級學(xué)習(xí)器模型用新生成的數(shù)據(jù)集來訓(xùn)練,并輸出最終的預(yù)測概率值。
煙草異常數(shù)據(jù)挖掘模型最終要實現(xiàn)的目標(biāo)是,預(yù)測出零售戶“銷假,銷私,亂渠道進(jìn)貨”等異常經(jīng)營行為的可能性?;谀P偷念A(yù)測性能,Stacking集成學(xué)習(xí)方式一般要求組合中的單個基學(xué)習(xí)器不僅要有較強(qiáng)的學(xué)習(xí)預(yù)測能力,還要在算法原理上具有較大的差別。因此Stacking模型中的第一層除了選用學(xué)習(xí)性能比較強(qiáng)的XGBoost算法、LightGBM算法和xDeepFM算法,還使用了AdaBoost算法、隨機(jī)森林算法(random forest,RF)、極端隨機(jī)樹算法(extratrees,ETR)和Logistic Regression算法(LR)。其中RF和AdaBoost分別使用了基于Bagging與Boosting的集成學(xué)習(xí)方式,具有較強(qiáng)的學(xué)習(xí)能力和嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論作為支撐[18]。ETR算法是在RF的基礎(chǔ)上多了一層隨機(jī)性,即在對連續(xù)變量特征選取最優(yōu)分裂值時,不會計算所有分裂值的效果來選擇分裂特征,而是在每一個特征的取值范圍內(nèi),隨機(jī)產(chǎn)生一個分裂值,從中計算出一個較優(yōu)值來進(jìn)行分裂。其次與RF使用Bagging集成學(xué)習(xí)方式對樣本數(shù)據(jù)進(jìn)行有放回抽樣不同,ETR使用所有的樣本,只是特征是隨機(jī)選取的。LR算法相對來說是弱一點的基學(xué)習(xí)器,使用該算法的原因是為了防止過擬合,讓Stacking模型具有更強(qiáng)的魯棒性。Stacking模型中的第二層的元學(xué)習(xí)器用了學(xué)習(xí)預(yù)測能力比較出色的LightGBM算法。基于多模型Stacking的煙草異常數(shù)據(jù)挖掘模型如圖3所示。
圖3 基于多模型Stacking的預(yù)測模型
Stacking模型訓(xùn)練具體步驟如下:
(1)劃分原始數(shù)據(jù)集,其中劃分的方式為隨機(jī)采樣選取90%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為測試集,在訓(xùn)練集上使用五折交叉驗證的方式對單個算法模型進(jìn)行訓(xùn)練,確定每一個模型的最優(yōu)參數(shù),使單個模型性能達(dá)到最優(yōu)狀態(tài);
(2)確定Stacking第一層模型組合方式,利用劃分后的數(shù)據(jù)集來訓(xùn)練,將第一層的各個模型的輸出組合形成新的數(shù)據(jù)集,具體過程如圖3中上半部分,其中每個模型最終的輸出結(jié)果為五次交叉驗證結(jié)果的平均值,將每個模型的輸出結(jié)果作為新的特征組成一個新的數(shù)據(jù)集;
(3)Stacking第二層模型用新生成的數(shù)據(jù)集來訓(xùn)練,并輸出最終的預(yù)測概率值。
實驗數(shù)據(jù)使用經(jīng)過整理好的2016年1月到2019年4月上海市煙草專賣市場監(jiān)管數(shù)據(jù)中的檢查數(shù)據(jù)以及對應(yīng)的靜態(tài)和動態(tài)指標(biāo)數(shù)據(jù)作為模型的數(shù)據(jù)集??偣?66 563個樣本,244個特征,其中30個靜態(tài)特征和214個動態(tài)特征。
由于該模型預(yù)測屬于二分類預(yù)測問題,且最終的輸出值為概率值,為了直接分析模型輸出的概率值,預(yù)測評價指標(biāo)采用Log_loss和AUC來評價模型的預(yù)測效果,避免了將其轉(zhuǎn)換成類別數(shù)值帶來的可能誤差。公式如下所示:
(7)
其中,N為樣本的總數(shù);M為預(yù)測的類別數(shù),比如文中實驗為二分類預(yù)測,M就為2;樣本i屬于分類j時yi,j為1,否則為0;pi,j為樣本i被預(yù)測為第j類的概率。
(8)
要想使融合模型Stacking性能達(dá)到最好,首先要確保其第一層的各個基學(xué)習(xí)器達(dá)到最佳的學(xué)習(xí)能力,因此將各個基學(xué)習(xí)器在原始數(shù)據(jù)集上單獨訓(xùn)練,從而確定每一個模型的訓(xùn)練參數(shù),具體參數(shù)如表2所示。
表2 模型參數(shù)
在相同的數(shù)據(jù)集上對每個單一模型和Stacking模型分別進(jìn)行訓(xùn)練并預(yù)測,最佳模型通常具有較小的Log_loss值以及較大的AUC值,各個模型的預(yù)測結(jié)果對比如表3所示,對應(yīng)ROC曲線如圖4所示。
表3 模型預(yù)測結(jié)果
圖4 ROC曲線對比
通過預(yù)測結(jié)果可知,單個模型中表現(xiàn)最好的是xDeepFM神經(jīng)網(wǎng)絡(luò)算法,說明該算法可以很好地學(xué)習(xí)不同特征之間的交叉特性,加上模型兼具記憶和泛化的學(xué)習(xí)能力,使得其在最終的預(yù)測精度上表現(xiàn)更好。其次是LightGBM算法,兩項指標(biāo)也都達(dá)到了不錯的效果,對比其他幾個機(jī)器學(xué)習(xí)基學(xué)習(xí)器,可以確定LightGBM算法比較適合處理這種大樣本,高維度,特征稀疏的數(shù)據(jù)集。雖然其他幾個基學(xué)習(xí)器的表現(xiàn)稍差,但是通過Stacking方式集成以后,效果上更加出色。一方面是由于Stacking模型可以很好地保持學(xué)習(xí)能力優(yōu)異的單個學(xué)習(xí)器的性能,提升自身的預(yù)測能力;另一方面基學(xué)習(xí)器之間算法原理的明顯不同使得Stacking集成后的模型具有更加穩(wěn)健的預(yù)測性能。
經(jīng)過前期階段充分測試、驗證模型的有效性后,該文提出的基于多模型Stacking集成學(xué)習(xí)的煙草異常數(shù)據(jù)挖掘模型,在上海市煙草專賣市場監(jiān)管工作中進(jìn)行了實際應(yīng)用,對模型的推薦名單進(jìn)行了稽查實證。
本次實證數(shù)據(jù)分別選取截止2019年06月30日和2019年07月31日這兩天的上海市煙草專賣數(shù)據(jù),將數(shù)據(jù)處理成相應(yīng)的特征指標(biāo)作為模型的測試集,來對7月份和8月份的稽查名單進(jìn)行預(yù)測,其中7月份推薦的煙草零售戶為1 322戶,8月份推薦的煙草零售戶為1 344戶,最后對稽查結(jié)果計算最終的查實率。具體數(shù)據(jù)如表4所示。
表4 實證結(jié)果
表中涉及到的計算公式如下:
(9)
其中,立案標(biāo)準(zhǔn)主要分為三類:(1)真煙流入,即零售戶從其他渠道低價購買香煙再高價賣出的情況,稽查時若零售戶真煙流入條數(shù)大于等于5條則進(jìn)行立案處理;(2)假煙,即零售戶有販賣假煙的情況;(3)走私煙,即零售戶有銷售走私煙的情況。
此外表中部分地區(qū)存在實際檢查戶數(shù)低于當(dāng)月需檢查戶數(shù)的情況,這是因為存在個別零售戶當(dāng)月暫不經(jīng)營的情況,實際檢查中做另外的處理。
上海市煙草專賣市場監(jiān)管體系現(xiàn)有稽查方法主要依據(jù)違規(guī)加分制,即對零售戶的卷煙經(jīng)營數(shù)據(jù)進(jìn)行分析,對零售戶的違規(guī)行為按照一定的規(guī)則對其賦分,最終得分越高的零售戶,其違規(guī)風(fēng)險越高。結(jié)合2016年1月到2019年4月的檢查數(shù)據(jù)及檢查結(jié)果分析得知,原有檢查方式在實際稽查中,每個月檢查的零售戶中有涉煙違法行為的查實率在5%左右。而由表4可以看出,在7月份和8月份Stacking模型預(yù)測名單的查實率分別達(dá)到了14.67%和17.34%,相比原有的傳統(tǒng)方式有比較大的提升,稽查實證結(jié)果進(jìn)一步證明了Stacking模型的有效性。
基于深度神經(jīng)網(wǎng)絡(luò)xDeepFM算法,機(jī)器學(xué)習(xí)LightGBM、XGBoost等算法,利用集成學(xué)習(xí)Stacking方式將多個算法學(xué)習(xí)器進(jìn)行集成組合,構(gòu)建了基于多模型Stacking集成學(xué)習(xí)的煙草異常數(shù)據(jù)挖掘預(yù)測模型。對2016年1月到2019年4月的上海市煙草專賣數(shù)據(jù)進(jìn)行訓(xùn)練及驗證分析,在2019年7月和8月對模型推薦名單進(jìn)行實地稽查驗證,兩個月的查實率均達(dá)到了預(yù)期,使得上海市卷煙市場監(jiān)管稽查工作中的人員調(diào)撥分配更加合理,對零售戶涉煙違法行為的監(jiān)管更加精準(zhǔn),有效凈化了卷煙市場的經(jīng)營環(huán)境。
同時,從稽查結(jié)果的查實率可以看到存在各區(qū)局查實率結(jié)果不平衡的問題,因此,在后續(xù)的研究中會在以下幾個方面繼續(xù)優(yōu)化完善:
(1)可以引入權(quán)重因子,使各區(qū)局預(yù)測精度更加準(zhǔn)確;
(2)除了機(jī)器學(xué)習(xí)算法外,著重研究目前較為流行的深度學(xué)習(xí)算法,挖掘特征之間更高階的有效信息;
(3)將異常行為綜合預(yù)測分析與現(xiàn)有市場監(jiān)管處理流程進(jìn)行充分結(jié)合,形成從數(shù)據(jù)預(yù)處理到模型構(gòu)建再到評估應(yīng)用的全流程處理模式,建立智能化的全流程市場監(jiān)管處理流程,全面提升市場監(jiān)管水平。