• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于KPCA-GaussianNB的電子商務(wù)信用風(fēng)險分類

      2019-02-26 03:51:20
      物流技術(shù) 2019年2期
      關(guān)鍵詞:樸素信用風(fēng)險貝葉斯

      (河北工業(yè)大學(xué) 理學(xué)院,天津 300401)

      1 引言

      近年來,電子商務(wù)作為虛擬交易平臺正發(fā)揮著越來越重要的作用,它匯集了大量的廠商信息、消費(fèi)者信息以及交易信息,深深改變著當(dāng)今社會的企業(yè)形態(tài)和消費(fèi)行為。根據(jù)2017年9月的詳細(xì)數(shù)據(jù)顯示,中國電子商務(wù)零售額比前一個周期增長近38個百分點(diǎn),達(dá)到同期的最高水平。在電子商務(wù)取得巨大成績的同時,確定交易主體的信用狀況成為電子商務(wù)交易發(fā)展中亟待解決的問題。精準(zhǔn)辨認(rèn)和評價電子商務(wù)企業(yè)的信用風(fēng)險,加強(qiáng)信用風(fēng)險分類指導(dǎo),不僅能夠為企業(yè)本身提供風(fēng)險預(yù)警,降低企業(yè)的損失,而且對于參與交易的采購者來說,也是一個識別風(fēng)險的重要參照。

      企業(yè)信用風(fēng)險評估長期以來深受國內(nèi)外學(xué)術(shù)界和商界的關(guān)注。然而以電子商務(wù)企業(yè)信用風(fēng)險為主題的研究卻很少。在國內(nèi),風(fēng)險機(jī)制方面,如楊曉梅等[1]經(jīng)過研究中國電子商務(wù)網(wǎng)站的信用管理機(jī)制給出應(yīng)對信用風(fēng)險的對策;許進(jìn)[2]基于收入鏈提出電子商務(wù)信用風(fēng)險管理策略。在電子商務(wù)信用風(fēng)險評價方面,Wang等[3]在2008年采用馬爾可夫鏈模型對電子商務(wù)信用風(fēng)險進(jìn)行評估;余樂安[4]在2012年通過建立最小二乘近似支持向量回歸模型對電子商務(wù)信用風(fēng)險進(jìn)行預(yù)警研究,并給出不同的預(yù)警策略;鄔建平[5]在2016年利用灰色關(guān)聯(lián)分析對電子商務(wù)信用風(fēng)險指標(biāo)進(jìn)行約簡后使用粒子群優(yōu)化算法將最小二乘支持向量回歸模型優(yōu)化,對電子商務(wù)信用風(fēng)險進(jìn)行評價和預(yù)測研究。在國外,一些統(tǒng)計方法已被廣泛應(yīng)用于構(gòu)建企業(yè)信用風(fēng)險評估模型,如線性判別分析[6]、Probit分析[7]和Logit分析[8]等。但是,這些統(tǒng)計方法在企業(yè)信用風(fēng)險評估中的應(yīng)用容易使人們忽視相關(guān)指標(biāo)之間存在的非線性關(guān)系,即這些方法在理論上會對有限樣本無效。近年來,許多研究表明,智能方法,如基于案例推理(CBR)[9],決策樹(DT)[10],人工神經(jīng)網(wǎng)絡(luò)(ANN)[11]和支持向量機(jī)(SVM)[12]等可以作為企業(yè)信用風(fēng)險評估的替代方法。這些方法從訓(xùn)練數(shù)據(jù)中自動提取知識,在非線性模式分類研究中表現(xiàn)很好。其中,SVM是被成功應(yīng)用于企業(yè)信用風(fēng)險評價中最有效的方法之一。然而,上述工作大都以金融企業(yè)為研究對象,以電子商務(wù)企業(yè)信用風(fēng)險為核心的研究卻較少。

      在上述研究方法的基礎(chǔ)上發(fā)現(xiàn),樸素貝葉斯算法在電子商務(wù)信用風(fēng)險研究中還不成熟,原因是該方法只有在特征條件獨(dú)立的情況下表現(xiàn)很好,在處理電子商務(wù)信用風(fēng)險問題時各指標(biāo)間又很難達(dá)到“獨(dú)立”這個條件,從而影響最后的實證分析結(jié)果。在使用SVM進(jìn)行信用風(fēng)險評估中還發(fā)現(xiàn),特征選擇也是建立分類系統(tǒng)的一個重要問題,合理限制分類器輸入特征的數(shù)量,可以使分類器具有良好的預(yù)測準(zhǔn)確率和較少的計算成本。因為用來描述電子商務(wù)企業(yè)信用風(fēng)險的指標(biāo)屬性太多,造成指標(biāo)數(shù)據(jù)的維度過高,所以指標(biāo)數(shù)據(jù)中必存在冗余信息,需要通過選擇出一個小的特征集來代替原始數(shù)據(jù)集。針對上述兩個方面的問題,本文試圖引入KPCA方法對GaussianNB算法進(jìn)行優(yōu)化后再對電子商務(wù)信用風(fēng)險進(jìn)行分類研究。首先應(yīng)用KPCA方法在所有指標(biāo)數(shù)據(jù)中提取主要特征。一方面,考慮KPCA方法可以挖掘包含在數(shù)據(jù)集中的非線性信息,使數(shù)據(jù)可以保留更加充分的信息,所以可以找到較少幾個信息充分的綜合指標(biāo)來代替原始數(shù)據(jù)。另一方面,KPCA方法是在高維特征空間中使用PCA方法,能夠消除指標(biāo)間的信息冗余性以及削弱指標(biāo)間的相關(guān)性,降低模型檢驗計算成本的同時提高檢驗效率。其次,特征選擇出的小的數(shù)據(jù)集指標(biāo)間變得不相關(guān),使得數(shù)據(jù)集能夠克服樸素貝葉斯算法特征條件相互獨(dú)立的假設(shè)。又結(jié)合指標(biāo)數(shù)據(jù)的連續(xù)性,選擇建立高斯樸素貝葉斯模型對電子商務(wù)企業(yè)信用風(fēng)險進(jìn)行分類研究。最后,使用真實指標(biāo)數(shù)據(jù)進(jìn)行實證檢驗,查看模型的有效性,并根據(jù)分類結(jié)果提出應(yīng)對風(fēng)險的策略。

      2 組合模型

      2.1 核主成分分析的原理

      核主成分分析(簡稱KPCA)是將核函數(shù)方法添加到主成分分析的一種多元統(tǒng)計方法,它是經(jīng)過某種隱式形式將輸入空間(由訓(xùn)練樣本集構(gòu)成)映射到某個高維空間(即特征空間)并在高維空間完成主成分分析,達(dá)到對樣本數(shù)據(jù)降維卻能保留充分的特征信息的目的。因此,KPCA作為PCA方法的一種非線性拓展方法,用其挖掘電子商務(wù)信用風(fēng)險指標(biāo)體系中包含的非線性信息更有利于后續(xù)的分類研究。

      假設(shè)訓(xùn)練樣本用x1,x2,...,xN表示,核函數(shù)將輸入空間{xi}通過非線性映射Φ映射到特征空間F上,且數(shù)據(jù)集在F中滿足中心化的條件如下:

      那么特征空間F中樣本集的協(xié)方差矩陣C可以表示為:

      根據(jù)式(2)求得C的特征值λ及其相應(yīng)的特征向量V:

      因為所有的特征向量均可表示為Φ(x1),Φ(x2),...,Φ(xN)的線性組合,故存在βi(i=1,2,...,N),使得:

      在式(4)中,由于V為特征空間F的映射函數(shù)Φ(xi)(i=1,2,...,N)的生成空間,所以有:

      接下來,定義N×N維矩陣K,則有:

      系數(shù)βi的特征值問題由核函數(shù)Kij決定并且K為點(diǎn)積核矩陣,因此式(6)可以寫成:

      求解式(7)就可以得到特征值和相應(yīng)的特征向量。那么測試集x在特征向量Vj方向的投影如下:

      用核函數(shù)代替內(nèi)積:

      如果式(1)不成立,需調(diào)整如下:

      則核矩陣可用如下形式代替:

      本文基于上述KPCA方法的根本思想,首先將樣本集表示成一個(m×n)維的數(shù)據(jù)矩陣:

      其次,選定高斯徑向基(簡稱RBF)核函數(shù):

      此核函數(shù)將樣本數(shù)據(jù)集通過非線性映射方式映射到一個高維特征空間。最后,在高維特征空間中通過PCA方法對樣本集降維操作,根據(jù)各個成分各自的方差百分比(也稱為貢獻(xiàn)率),選擇出少數(shù)幾個不相關(guān)的綜合指標(biāo)代替原始多個指標(biāo)的數(shù)據(jù)。

      2.2 高斯樸素貝葉斯模型

      樸素貝葉斯方法是一種以貝葉斯定理為基礎(chǔ),以各個特征相互獨(dú)立為假設(shè)的概率分類算法。樸素貝葉斯算法分類效率高、需要關(guān)注的參數(shù)少、具備良好的泛化能力,并且能夠?qū)⒆詈蟮姆诸惤Y(jié)果給出合理的概率解釋。

      對于給定的訓(xùn)練數(shù)據(jù)集,樸素貝葉斯算法將輸入(特征向量)定義為在輸入空間的隨機(jī)變量X,輸出(類標(biāo)記)定義為在輸出空間的隨機(jī)變量Y,學(xué)習(xí)聯(lián)合分布P(X,Y)。具體學(xué)習(xí)如下:

      (1)先驗概率分布:

      (2)條件概率分布:

      因其假設(shè)各個特征相互獨(dú)立,則條件概率可以表示為:

      (3)計算給定輸入變量的后驗概率分布如下:

      (4)最后遵循期望風(fēng)險最小化準(zhǔn)則,保留后驗概率最大的類標(biāo)記。樸素貝葉斯分類模型的輸入變量既可以是離散型變量,又可以是連續(xù)型變量。其中,對于連續(xù)型變量應(yīng)用最好的模型是高斯樸素貝葉斯(GaussianNB)模型,其條件概率可以表示為:

      需要從訓(xùn)練樣本集估計μk和的值。μk是在樣本類別為ck下,所有的Xj的均值,是在樣本類別為ck下所有Xj的方差。

      高斯樸素貝葉斯模型的主要參數(shù)只有一個,即先驗概率P(Y=ck)。通常情況下,默認(rèn)為P(Y=ck)=mkm,m是訓(xùn)練樣本集總數(shù),mk是輸出第k類時的訓(xùn)練樣本數(shù)。當(dāng)然,如果給出先驗概率,則以給出的值為準(zhǔn)。本文選擇默認(rèn)的先驗概率值對電子商務(wù)信用風(fēng)險進(jìn)行分類。

      3 實證分析與模型檢驗

      利用核主成分分析方法優(yōu)化高斯樸素貝葉斯算法的主要思想:利用KPCA方法將原始數(shù)據(jù)提取出少數(shù)幾個但能夠充分保留原始信息的綜合指標(biāo),并且提取出的綜合指標(biāo)之間變得不相關(guān)。既能減少計算成本、挖掘到樣本信息中包含的非線性信息,還能克服分類算法超強(qiáng)的條件之間相互獨(dú)立的假設(shè),提高模型的分類效率。

      3.1 數(shù)據(jù)來源

      一般情況下,從靜態(tài)指標(biāo)和動態(tài)指標(biāo)兩方面描述電子商務(wù)企業(yè)信用風(fēng)險的指標(biāo)屬性。靜態(tài)指標(biāo)主要包括企業(yè)的外部因素和企業(yè)本身的素質(zhì),動態(tài)指標(biāo)主要包括企業(yè)的履約狀況、支付信用能力、其他交易參與者的信用及企業(yè)交往印象。本文的電子商務(wù)信用風(fēng)險指標(biāo)主要來自文獻(xiàn)[13]中篩選出的19個指標(biāo)作為本次的指標(biāo)體系,具體指標(biāo)及計算公式見表1。

      本文使用的原始數(shù)據(jù)來源于文獻(xiàn)[13]中收集的18家電子商務(wù)企業(yè)的樣本數(shù)據(jù)以及專家組給出的打分結(jié)果(選定兩種分類:0代表無信用風(fēng)險,其信用評分高于60分;1代表有信用風(fēng)險,其信用評分低于60分),并將19個指標(biāo)分別用X1,X2,...,X19表示,整理數(shù)據(jù)見表2。

      利用上述構(gòu)建的電子商務(wù)信用風(fēng)險指標(biāo)體系及收集的18家企業(yè)樣本數(shù)據(jù),就可以運(yùn)用核主成分分析和高斯樸素貝葉斯組合模型進(jìn)行電子商務(wù)信用風(fēng)險分類的研究。

      3.2 模型檢驗

      為了對比本文提出的組合模型的預(yù)測準(zhǔn)確率,同時采用高斯樸素貝葉斯模型(GaussianNB)、主成分分析和高斯樸素貝葉斯組合模型(PCA-GaussianNB)對電子商務(wù)信用風(fēng)險進(jìn)行分類,檢驗?zāi)P偷挠行?。針對本文收集?shù)據(jù)的結(jié)構(gòu),選擇1-13家電子商務(wù)企業(yè)的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余14-18家電子商務(wù)企業(yè)的數(shù)據(jù)作為測試數(shù)據(jù)。

      表1 電子商務(wù)信用風(fēng)險指標(biāo)體系選取結(jié)果

      表2 18家電子商務(wù)企業(yè)信用風(fēng)險原始數(shù)據(jù)

      3.2.1 數(shù)據(jù)處理。應(yīng)用SPSS軟件,利用主成分分析方法對13家電子商務(wù)企業(yè)信用風(fēng)險數(shù)據(jù)指標(biāo)進(jìn)行相關(guān)性分析,相關(guān)性分析矩陣見表3、表4。

      表3 指標(biāo)之間的相關(guān)性分析矩陣(1)

      表4 指標(biāo)之間的相關(guān)性分析矩陣(2)

      通過觀察指標(biāo)之間的相關(guān)性分析矩陣,發(fā)現(xiàn)電子商務(wù)企業(yè)信用風(fēng)險數(shù)據(jù)指標(biāo)之間具有相關(guān)性。因而對訓(xùn)練數(shù)據(jù)集進(jìn)行有效的主成分提取,有利于后續(xù)貝葉斯分類的研究。解釋的總方差見表5。

      一般主成分分析或者核主成分分析選擇累計貢獻(xiàn)率達(dá)85%以上的主成分個數(shù)。本文通過輸出解釋的總方差,可以看到各成分各自的方差百分比(貢獻(xiàn)率)以及前6個主成分累計貢獻(xiàn)率已經(jīng)占據(jù)原始數(shù)據(jù)85%以上的信息。結(jié)合碎石圖(如圖1所示)也可以看出,成分?jǐn)?shù)小于等于6的部分特征值大,說明包含數(shù)據(jù)中的信息比較多;成分?jǐn)?shù)大于6的部分曲線逐漸變得平緩,特征值小,說明包含數(shù)據(jù)中的信息少。本文為保持一致性和可比性,在進(jìn)行主成分分析和核主成分分析時均選取前6個主成分進(jìn)行分析。

      表5 主成分統(tǒng)計信息表

      圖1 成分?jǐn)?shù)和特征值之間的關(guān)系

      3.2.2 模型結(jié)果和評估。利用GaussianNB、PCAGaussianNB和KPCA-GaussianNB分別對電子商務(wù)企業(yè)信用風(fēng)險數(shù)據(jù)進(jìn)行分類,具體分類流程如圖2所示。PCA-GaussianNB和KPCA-GaussianNB兩個模型均先通過PCA方法或KPCA方法對訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;然后使用預(yù)處理之后的數(shù)據(jù)進(jìn)行高斯樸素貝葉斯模型的建立;最后,使用14-18家電子商務(wù)企業(yè)的數(shù)據(jù)作為測試數(shù)據(jù)進(jìn)行驗證。

      圖2 分類模型流程圖

      根據(jù)分類模型的步驟進(jìn)行實證分析,分別記錄GaussianNB、PCA-GaussianNB和KPCA-GaussianNB三組模型的分類結(jié)果,見表6。

      表6 5家電子商務(wù)企業(yè)信用風(fēng)險分類結(jié)果

      為了檢驗KPCA-GaussianNB組合模型的優(yōu)越性,需要對模型進(jìn)行評估。本文采用的分類器評估指標(biāo)為準(zhǔn)確率、召回率、F1度量值。一般二分類問題將真實類別和預(yù)測類別劃分成真正例(TP)、假正例(FP)、假負(fù)例(FN)、真負(fù)例(TN)。相應(yīng)的評估指標(biāo)計算方式如下:

      根據(jù)上述三種評估指標(biāo),分別計算得到GaussianNB、PCA-GaussianNB和KPCA-GaussianNB三組模型的評估矩陣結(jié)果,見表7-表9。

      表7 GaussianNB-評估矩陣

      表8 PCA-GaussianNB-評估矩陣

      表9 KPCA-GaussianNB-評估矩陣

      依據(jù)上述評估結(jié)果,三個模型的平均準(zhǔn)確率依次為0.300、0.867、1.000,可見不管是PCA-Gaussian-NB組合模型還是KPCA-GaussianNB組合模型都優(yōu)于GaussianNB模型,說明GaussianNB模型對屬性指標(biāo)間要求相互獨(dú)立的假設(shè)確實破壞了模型的分類準(zhǔn)確率。但是,因為KPCA方法可以保留電子商務(wù)企業(yè)信用風(fēng)險樣本數(shù)據(jù)中的非線性信息,它降維后的數(shù)據(jù)比PCA方法降維后的數(shù)據(jù)保留的信息更充分,所以KPCA-GaussianNB組合模型的分類效果更好。除此之外,結(jié)合召回率進(jìn)行分析,一般情況下,準(zhǔn)確率高時,召回率低(上述三個結(jié)果矩陣也證實了這一點(diǎn)),所以我們將準(zhǔn)確率和召回率融合成一個F1度量值(調(diào)和均值F1-score)進(jìn)行比較,可見KPCA-GaussianNB組合模型的F1度量值同樣是優(yōu)于前兩個模型的。因此,可以說本文提出的KPCA-GaussianNB組合模型是可行且有效的。

      4 結(jié)語

      本文利用KPCA方法優(yōu)化高斯樸素貝葉斯模型,對電子商務(wù)企業(yè)信用風(fēng)險進(jìn)行分類探討的結(jié)果表明:KPCA方法能夠降低計算成本、高效挖掘數(shù)據(jù)中的有用信息,還能降低數(shù)據(jù)之間的相關(guān)性、提高GaussianNB方法的分類準(zhǔn)確率。KPCA-GaussianNB組合模型與其它常見分類方法比較:首先,所需估計的參數(shù)較少,模型結(jié)構(gòu)簡單易理解;再者,繼承樸素貝葉斯算法的增量式訓(xùn)練,可以達(dá)到動態(tài)預(yù)測電子商務(wù)企業(yè)信用風(fēng)險的目的;最后,對小數(shù)據(jù)集表現(xiàn)很好,也就是說,這對于很難獲取大量數(shù)據(jù)的電子商務(wù)企業(yè)信用風(fēng)險研究來說非常實用。

      依據(jù)組合模型分類結(jié)果,對電子商務(wù)企業(yè)本身可提供非常有價值的參考。一方面,對不存在信用風(fēng)險的電子商務(wù)企業(yè),企業(yè)本身要居安思危,加強(qiáng)信用風(fēng)險的防范,保持企業(yè)持續(xù)健康經(jīng)營。另外,對存在信用風(fēng)險的電子商務(wù)企業(yè),企業(yè)要努力改善與信用風(fēng)險相關(guān)的指標(biāo),降低風(fēng)險、減小損失。最后,電子商務(wù)企業(yè)在進(jìn)行信用風(fēng)險預(yù)測時,要動態(tài)的獲取新數(shù)據(jù),保持?jǐn)?shù)據(jù)的時效性。

      猜你喜歡
      樸素信用風(fēng)險貝葉斯
      隔離樸素
      樸素的安慰(組詩)
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      最神奇最樸素的兩本書
      淺析我國商業(yè)銀行信用風(fēng)險管理
      貝葉斯公式及其應(yīng)用
      京東商城電子商務(wù)信用風(fēng)險防范策略
      基于貝葉斯估計的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      個人信用風(fēng)險評分的指標(biāo)選擇研究
      睢宁县| 河津市| 岳池县| 云安县| 恩施市| 吉安市| 安达市| 平湖市| 蓬安县| 阳城县| 怀宁县| 莲花县| 朝阳区| 兴宁市| 出国| 区。| 衡南县| 石泉县| 垫江县| 万载县| 普格县| 石渠县| 定南县| 乡宁县| 东源县| 古田县| 兴宁市| 涡阳县| 扶沟县| 盐山县| 阿克苏市| 平遥县| 甘泉县| 吴江市| 汉川市| 彭水| 桐城市| 东阿县| 顺昌县| 额济纳旗| 庐江县|