周紅
摘要
數(shù)據(jù)分類是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的重要基礎(chǔ),在眾多數(shù)據(jù)分類方法中樸素貝葉斯分類方法因其理論模型簡(jiǎn)潔,分類結(jié)果比較可靠,因此實(shí)際應(yīng)用領(lǐng)域廣泛。本文將樸素貝葉斯分類模型應(yīng)用到進(jìn)出口企業(yè)的預(yù)警評(píng)估分析工作中,以事實(shí)數(shù)據(jù)為訓(xùn)練樣本,通過對(duì)歷史數(shù)據(jù)的學(xué)習(xí)建立可靠的分類模型,增強(qiáng)預(yù)警評(píng)估的客觀性。
【關(guān)鍵詞】數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 樸素貝葉斯分類 預(yù)警評(píng)估
1 引言
如何從大數(shù)據(jù)中挖掘出有效信息的研究已經(jīng)成為一個(gè)廣泛關(guān)注的熱點(diǎn)領(lǐng)域,其中數(shù)據(jù)分類在數(shù)據(jù)挖掘領(lǐng)域是一項(xiàng)重要的基礎(chǔ)性任務(wù),在規(guī)則和模式的約束下,通過訓(xùn)練數(shù)據(jù)集的學(xué)習(xí),形成有效的數(shù)據(jù)分類算法,這是數(shù)據(jù)挖掘的基礎(chǔ)和前提。在各種有效的分類算法中,貝葉斯模型因其簡(jiǎn)介、可靠、易操作,被廣泛應(yīng)用在各領(lǐng)域的數(shù)據(jù)分類工作中。
本文通過建立樸素貝葉斯分類器,使用出口企業(yè)預(yù)警評(píng)估中的數(shù)據(jù)樣本訓(xùn)練分類器之后,能夠客觀有效的預(yù)測(cè)給定出口企業(yè)樣本的預(yù)警評(píng)估情況,并在多個(gè)真實(shí)的生產(chǎn)環(huán)境中投入使用。
2 樸素貝葉斯分類
貝葉斯分類的基礎(chǔ)是概率推理,它是在各種條件的存在不確定,僅知其出現(xiàn)概率的情況下,完成推理和決策任務(wù)。貝葉斯分類是一種監(jiān)督學(xué)習(xí)方法,它建立在貝葉斯定理的基礎(chǔ)之上,通過事件的先驗(yàn)概率,利用貝葉斯定理推導(dǎo)計(jì)算出后驗(yàn)概率。它是基于特征獨(dú)立性假設(shè)的,即假設(shè)樣本中所有特征相互獨(dú)立。樸素貝葉斯分類器依靠精確的自然概率模型,在有監(jiān)督學(xué)習(xí)的樣本集中能獲取得非常好的分類效果。
貝葉斯分類算法的核心是建立條件概率模型,其模型建立過程如下:
2.1 樣本屬性及其屬性的特征向量空間
樣本屬性的選擇可根據(jù)待評(píng)估的具體對(duì)象而定,不同的評(píng)估對(duì)象選定的樣本屬性不同,但是要符合特征獨(dú)立性假設(shè)。記樣本屬性為:{x1,x2,…xn;c},其中,xi(1≤i≤n)表示屬性,c表示樣本的分類。每個(gè)樣本使用一個(gè)n維特征向量X={x1,x2,...,xn)表示,描述一個(gè)樣本n個(gè)屬性的一個(gè)度量值。
2.2 分類的屬性及其屬性的特征向量空間
分類的屬性由一組特征向量表示,記為:C={c1,c2,…,cn},其中,ck(1≤k≤m)表示具體的一個(gè)分類標(biāo)識(shí)。
2.3 建立樸素貝葉斯分類模型
分類器的工作基礎(chǔ)就是根據(jù)已知樣本的先驗(yàn)概率預(yù)測(cè)未知樣本的分類。給定一個(gè)未分類的數(shù)據(jù)樣本Y,分類器將根據(jù)其學(xué)習(xí)所得的先驗(yàn)經(jīng)驗(yàn)計(jì)算未知樣本Y的最大后驗(yàn)概率,從而對(duì)未知樣本進(jìn)行分類。其分類判斷的標(biāo)準(zhǔn)就是:當(dāng)且僅當(dāng)P(cjX)>P(ck|X),j≠k,分類問題最后轉(zhuǎn)化為求最大的P(ck|X)。由貝葉斯定理得:
公式中,P(X)在分母中,不依賴于分類C,可以認(rèn)為是常數(shù),這樣公式就轉(zhuǎn)化為求P(X|ck)·P(ck)最大值的問題。而P(X|ck)=P(x1|ck)·P(x2|ck) ·…·P(xn|ck)=其中P(xi|ck)(i=1,2,…,n)都采用極大似然估算,即|T|代表訓(xùn)練樣本的總數(shù)量,|T(ck)|代表分類為ck的訓(xùn)練樣本數(shù)量,|T(xi,ck)|代表樣本屬性X上具有xi的分類cck的訓(xùn)練樣本數(shù)量。
2.4 預(yù)測(cè)未知樣本
根據(jù)上述分類模型的計(jì)算步驟可知,判斷一個(gè)未知樣本的分類就是根據(jù)這個(gè)樣本的屬性特征計(jì)算分類C中每一個(gè)分量Ck的最大概率P(X|ck)·P(ck)。因此,未知樣本Y被判斷為Cj的條件是當(dāng)且僅當(dāng)P(X|cj)·P(cj)>P(X|ck)·P(ck),其中1≤j,k≤m,j≠k。
從上述推理過程來(lái)看,樸素貝葉斯分類方法具有嚴(yán)謹(jǐn)?shù)母怕释评砘A(chǔ),與其他的分類算法比較具有最小的錯(cuò)誤概率。在具體實(shí)踐中發(fā)現(xiàn),樸素貝葉斯分類算法可以與判定樹算法和神經(jīng)網(wǎng)絡(luò)算法相媲美,即便是推理中的假設(shè)不滿足的情況下仍能得到理想結(jié)果。樸素貝葉斯分類算法訓(xùn)練的時(shí)間復(fù)雜度為O(n·|T|),具有較高的學(xué)習(xí)效率,這也使得它在具體實(shí)踐中具有廣泛的應(yīng)用。
3 出口企業(yè)預(yù)警評(píng)估實(shí)例
出口企業(yè)預(yù)警評(píng)估工作的核心和關(guān)鍵模塊是建立預(yù)警分析的分類預(yù)測(cè)模型,通過多方論證和具體實(shí)踐發(fā)現(xiàn),貝葉斯分類算法在進(jìn)行出口企業(yè)預(yù)警評(píng)估指標(biāo)的分類中具有較高的準(zhǔn)確性和可靠性,能夠?yàn)槌隹谄髽I(yè)和相關(guān)主管單位提供事前預(yù)警和事后分析的客觀決策依據(jù)。
在建立具體預(yù)警評(píng)估的預(yù)測(cè)模型時(shí),我們先建立出口企業(yè)的預(yù)警評(píng)估分類的特征向量空間C={c1:收結(jié)匯正常,c2:收結(jié)匯關(guān)注,c3:拒付匯退運(yùn)}。訓(xùn)練樣本集以江蘇省某市的出口企業(yè)為依據(jù),樣本屬性的特征向量空間X={x1:出口商品類別,x2:出口目的國(guó),x3:離境口岸,x4:年度出口規(guī)模,x5:供貨企業(yè)信用等級(jí)}。樣本數(shù)據(jù)的各個(gè)屬性之間概率獨(dú)立,符合樸素貝葉斯分類算法的假設(shè)性要求。下面對(duì)樣本數(shù)據(jù)的各個(gè)屬性值做如下規(guī)則的劃分:
(1)出口商品類別:按照海關(guān)HS編碼進(jìn)行劃分,一般是8位數(shù)字碼,國(guó)際貿(mào)易中的商品分為21類97章。HS編碼的前2位表示商品所屬的大類別,進(jìn)行劃分時(shí)取前2位作為出口商品類別,即商品類別(SPLB):(SPLB∈[01000000,01999999],SPLB∈[02000000,02999999],SPLB∈[03000000,03999999],SPLB∈[04000000,04999999],SPLB∈[05000000,05999999],SPLB∈[06000000,06999999],SPLB∈[07000000,07999999],SPLB∈[08000000,08999999],SPLB∈[09000000,09999999]),以上9類依次標(biāo)記為1、2、3、4、5、6、7、8、9。
(2)出口目的國(guó):按照進(jìn)出口貿(mào)易的國(guó)別代碼進(jìn)行劃分,即出口目的國(guó)(CKMDG): (CKMDG=國(guó)別代碼)。如(CKMDG=110:HK),(CKMDG=303:UK),(CKMDG=501:Canada),(CKMDG=502:USA)(CKMDG=601:Australia)。
(3)離境口岸:即進(jìn)出口的貨物離境或者到岸的海關(guān)口岸,按照海關(guān)總署的海關(guān)口岸代碼進(jìn)行劃分。江蘇省內(nèi)某市的海關(guān)口岸代碼有:離境口岸(LJKA):(LJKA=2303:蘇州海關(guān)),(LJKA=2313:張保稅區(qū)), (LJKA=2314:蘇工業(yè)區(qū)),(LJKA=2324:蘇常熟辦),(LJKA=2325:蘇昆山辦), (LJKA=2326:蘇吳江辦),(LJKA=2327:蘇太倉(cāng)辦)。
(4)年度出口規(guī)模,即一個(gè)自然年度的進(jìn)出口貿(mào)易總值(單位:萬(wàn)美元),年度出口額(NDCKE):(NDCKE<500,500≤NDCKE<1000,1000≤NDCKE<3000,3000≤NDCKE<7000,NDCKE≥7000),以上5類依次標(biāo)記為M5、M10、M30、M70、M71。
(5)供貨企業(yè)信用等級(jí):按照國(guó)家稅務(wù)總局的納稅人信用等級(jí)分類進(jìn)行劃分,國(guó)稅局發(fā)布的分類等級(jí)依此為A、B、C、D、E、F,即供貨企業(yè)信用等級(jí)(XYDJ):(XYDJ=A,XYDJ=B,XYDJ=C,XYDJ=D,XYDJ=E,XYDJ=F)。
建立上述各個(gè)屬性的分類標(biāo)準(zhǔn)后,我們采用江蘇省某市的60家出口企業(yè)的樣本數(shù)據(jù)作為訓(xùn)練樣本(樣本數(shù)據(jù)見附錄),對(duì)樸素貝葉斯分類器進(jìn)行訓(xùn)練。通過訓(xùn)練之后的樸素貝葉斯分類器能夠?qū)δ骋晃粗诸惖某隹谄髽I(yè)樣本數(shù)據(jù)Y=(3,501,2313,M30,C)進(jìn)行準(zhǔn)確分類,通過出口企業(yè)預(yù)警評(píng)估的工作實(shí)踐來(lái)看,訓(xùn)練后的貝葉斯分類器在實(shí)際工作中具有較高的準(zhǔn)確性和可靠性。
每個(gè)分類的先驗(yàn)概率Pck)根據(jù)訓(xùn)練樣本數(shù)據(jù)計(jì)算如下:
要計(jì)算P(X|ck),k=1,2,3,需要先計(jì)算如下的條件概率:通過以上條件概率我們可以得到:通過以上條件概率,再計(jì)算
很明顯,P(X|c2)×P(c2)的概率可能性最大,因此對(duì)于未知樣本Y=(3,501,2313,M30,C)應(yīng)該劃歸為(c2:收結(jié)匯關(guān)注)的可能性最大。而事實(shí)上,該出口企業(yè)的收匯情況也是多次出現(xiàn)結(jié)匯異常和延期結(jié)匯等情況,被地方國(guó)稅局列為收匯關(guān)注企業(yè)名單中。
4 結(jié)論
樸素貝葉斯分類算法建立在概率推理基礎(chǔ)上,算法嚴(yán)謹(jǐn)簡(jiǎn)潔,學(xué)習(xí)效率高,分類誤差率低,是一種比較優(yōu)秀的數(shù)據(jù)分類算法,在數(shù)據(jù)挖掘和人工智能領(lǐng)域應(yīng)用廣泛。本文闡述了樸素貝葉斯分類算法在出口企業(yè)預(yù)警評(píng)估領(lǐng)域的具體應(yīng)用,通過實(shí)踐證明樸素貝葉斯分類算法的有效性和可操作性。
參考文獻(xiàn)
[1]Jiawei·Han,Micheline·Kamber著,范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術(shù)(第二版)[M].北京:機(jī)械工業(yè)出版社,2012.
[2]Anand·Rajaraman,Jeffrey David Ullman著,王斌譯.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].北京:人民郵電出版社,2012(09).
[3]Ethem Alpaydm著.范明,昝紅英,牛常勇譯.機(jī)器學(xué)習(xí)導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2009(06).
[4]George F.Luger.ArtificialIntelligence:Structures andStrategies for Complex ProblemSolving(6th Edition)[M].北京:機(jī)械工業(yè)出版社,2009(12).
[5]張亞萍等.樸素貝葉斯分類算法的改進(jìn)及應(yīng)用[J].計(jì)算機(jī)工程及應(yīng)用,2011(15):134-137.
[6]曹開田,楊震.基于貝葉斯判決規(guī)則的異步合作頻譜感知新算法[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(02).
[7]陳朝大,梁柱勛,鄭士基.一種利用關(guān)聯(lián)規(guī)則的改進(jìn)樸素貝葉斯分類算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010(11).
[8]王曉燕.幾種常用的異常數(shù)據(jù)挖掘方法[J].甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(07):68-71.
[9]袁家斌,浦海晨.基于遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)電子郵件信息分類器的研究[J].南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2008(01).
[10]張亞萍,胡學(xué)鋼.基于K-means的樸素貝葉斯分類算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007:33-35.