劉毅鵬 高 尚
(江蘇科技大學(xué) 鎮(zhèn)江 212000)
通過利用代價敏感學(xué)習(xí),研究人員已解決許多類別不平衡問題。在訓(xùn)練集訓(xùn)練分類模型時保證誤分代價最小化,而不是保證樣本的整體誤差最小化,此為代價敏感學(xué)習(xí)的思想,是代價敏感學(xué)習(xí)從算法層解決類別不平衡問題的體現(xiàn)。若要獲得無偏的分類面,就需要對少數(shù)類樣本的誤差施以更大的懲罰,也就是賦予其更大的代價權(quán)重,而對于多數(shù)類樣本,則反其道而行之。
極限學(xué)習(xí)機(ELM)[1]有以下兩個優(yōu)點,一是泛化能力強,二是訓(xùn)練速度快[2-3],但其分類性能會因數(shù)據(jù)集中樣本分布不平衡而下降。Zong 等[4]利用代價敏感學(xué)習(xí)技術(shù),為突出少數(shù)類,給不同類別的訓(xùn)練錯誤設(shè)置不同的懲罰代價,綜上提出了加權(quán)極限學(xué)習(xí)機(WELM);Zhang和Ji[5]通過插入一個模糊矩陣來對懲罰因子的分布進行調(diào)整,由此提出模糊極限學(xué)習(xí)機(FELM),但研究人員并未給模糊矩陣提供統(tǒng)一的設(shè)計規(guī)則;Xia 等[6]為解決類別不平衡問題[7],將核聚類與FELM相結(jié)合,提出基于核聚類的可能性模糊極限學(xué)習(xí)機(PFELM);Li 等[8]借鑒Boosting 框架可以自動更新訓(xùn)練樣本的權(quán)重,將其與WELM 結(jié)合;Vong 等[9]提出一種解決方案,為提高對懸浮顆粒物水平的識別率,利用一種改進的隨機過采樣;Sun 等[10]為更好預(yù)測公司的生命周期,將合成少數(shù)類過采樣技術(shù)(SMOTE)[11]集成到ELM中;Mirza 等[12]提出了子集在線順序極限學(xué)習(xí)機(ESOS-ELM)的集成算法,以實現(xiàn)增量式類別不平衡學(xué)習(xí),其中使用了變化檢測機制來檢測概念漂移。楊澤平[13]通過研究量子行為粒子群優(yōu)化算法,發(fā)現(xiàn)其有助于提升極限學(xué)習(xí)機的性能,提出了量子行為粒子群優(yōu)化極限學(xué)習(xí)機;唐曉芬[14]所提出的基于自適應(yīng)差分進化算法優(yōu)化加權(quán)極限學(xué)習(xí)機,提升了加權(quán)極限學(xué)習(xí)機的泛化性能和穩(wěn)定性。但是,以上算法對ELM 在類別不平衡數(shù)據(jù)上的分類性能提升并不明顯。
在本文中,基于加權(quán)極限學(xué)習(xí)機,融合模糊加權(quán)的理念,提出一種魯棒性更強的新概念——相對密度信息,該方法是通過K近鄰概率密度估計策略計算各訓(xùn)練樣本間的相對密度,可以避免在高維空間下直接進行概率密度的計算,然后進行隸屬函數(shù)的設(shè)計,模糊化和個性化設(shè)置每個樣本的權(quán)重,通過以上方法生成的權(quán)重矩陣來代替加權(quán)極限學(xué)習(xí)機中的權(quán)重矩陣,從而設(shè)計出基于類內(nèi)相對密度信息的模糊代價敏感極限學(xué)習(xí)機和基于類間相對密度信息的模糊代價敏感極限學(xué)習(xí)機。最后通過從Keel 數(shù)據(jù)庫[15]隨機獲取的20 個二元不平衡數(shù)據(jù)集,對所提兩種算法是否有效及可行進行驗證。根據(jù)實驗結(jié)果,與流行的類別不平衡學(xué)習(xí)算法相比,所提算法在G-mean 等評價指標上具有較優(yōu)表現(xiàn),因此所提算法構(gòu)造的預(yù)測模型具有更好的預(yù)測性能。
在本節(jié)中,首先介紹相對密度估計策略,然后介紹如何利用它來設(shè)計模糊隸屬函數(shù),最后描述所提出算法的流程。
在本節(jié)中,提出了一種方法,這種方法不必精確地測量每個訓(xùn)練樣本的概率密度,只需要提取任意兩個訓(xùn)練樣本之間的概率密度的比例關(guān)系,把反映比例關(guān)系的信息稱為相對密度。
K 近鄰的概率密度估計(KNN-PDE)是一種非參數(shù)概率密度估計方法,為了估計多維連續(xù)空間中的概率密度分布,可以通過測量每個訓(xùn)練樣本的K近鄰距離,并且當(dāng)訓(xùn)練樣本數(shù)達到無窮大,獲得結(jié)果可近似收斂到實際概率密度分布?;谝陨喜呗?,可獲得需要的相對密度。
假設(shè)有一個包含N個樣本的數(shù)據(jù)集,則對于每個樣本xi,都可以找到第K個近鄰并將它們之間的距離記錄為。越大,樣本xi的密度就越低。同時,在低密度區(qū)域中會出現(xiàn)噪聲或離群值,可以使用作為評估每個樣本重要性的度量。要為高密度樣本提供較大的值,為低密度樣本提供較低的值(例如,噪聲和離群值),應(yīng)將轉(zhuǎn)換為其倒數(shù),即。而相對密度就是樣本的K近鄰距離的倒數(shù)。因此,隨機選取兩個樣本,它們相對密度的比例關(guān)系恰好和它們K近鄰距離的比例關(guān)系相等,如
同樣,對于相對密度,參數(shù)K的選擇非常重要。如果K值太小,則無法將某些噪聲和離群值與那些正常樣本區(qū)分開,倘若K值過大,那么重要樣本與噪聲或離群值將很難被區(qū)分,有些很小析取也不會被捕獲。因此,建議為參數(shù)K分配一個適當(dāng)?shù)闹怠T诒疚闹?,根?jù)經(jīng)驗,K默認設(shè)置為,其中N表示訓(xùn)練樣本的數(shù)量。
基于相對密度,本文設(shè)計了基于類內(nèi)相對密度信息的模糊隸屬函數(shù)和基于類間相對密度信息的模糊隸屬函數(shù)。
其中Nc表示xi所屬的類的樣本數(shù)。通過上述模糊隸屬函數(shù)計算所得的模糊隸屬值,它不需要考慮樣本數(shù),也能反映類內(nèi)的相對密度。因此,它將對數(shù)據(jù)分布規(guī)模的方差魯棒性更強。另外,由于每個類別都是獨立處理的,因此適應(yīng)類別不平衡問題。
2)基于類間的相對密度信息。在此方法中,f(xi)與估計的類邊界聯(lián)系緊密,較高的隸屬值將被分配給更加接近估計的類邊界的樣本。根據(jù)不同的密度分布情況及樣本特征,將樣本分為四種,以此來更加精確地估計類邊界。樣本分為正類值,臨界值,噪聲和離群值。圖1 是以上四種樣本的可視化描述,其特征如下:
(1)正類值:該樣本主要出現(xiàn)在自身所屬類別密度較高的區(qū)域,也有部分在其它類別密度較低的區(qū)域出現(xiàn);
(2)臨界值:該樣本出現(xiàn)在兩個類別的中低密度區(qū)域中,而在其自身所屬類別中的密度較另一個類別的密度更高;
(3)噪聲:該樣本出現(xiàn)在同類別密度較低區(qū)域,或者出現(xiàn)在不同類別密度較高區(qū)域;
(4)離群值:該樣本在兩類別密度都較低的區(qū)域中出現(xiàn)。
依據(jù)上述特征,邊界可被定位。首先,針對不同的情況,可以將其類內(nèi)相對密度與類間相對密度進行比較,以找到可以用判別器檢測到的噪聲。如果樣本xi來自正類,則其判別描述如下:
其中d′ 表示僅使用其它類別中的樣本計算的距離,N+和N-分別表示正類別和負類別的樣本數(shù),提供了向上取整運算,IR是等于的類別不平衡比率。如果xi來自負類,則判別式修改為
提取滿足式(3)和式(4)中判別式條件的所有樣本,稱其為噪聲,并為這些噪聲分配隸屬值λ,λ的值很小。
然后,為其它樣本的隸屬值分配類間相對密度信息。下列分段函數(shù)可表示模糊隸屬函數(shù):
其中Nc1和Nc2分別表示屬于同一類別xi內(nèi)屬于無噪聲和噪聲的樣本數(shù),有Nc1+Nc2=N。
本節(jié)描述分別基于兩種不同的模糊隸屬函數(shù)構(gòu)建的算法的流程,即基于類內(nèi)相對密度信息的算法(FWELM-ID)和基于類間相對密度信息的算法(FWELM-TD),它們的流程簡要描述如下。
2.3.1 FWELM-ID
輸入:訓(xùn)練集θ={(x1,y1),(x2,y2),…,(xN,yN)},其中yi?{+,-},懲罰因子C,隱藏層神經(jīng)元數(shù)L
步驟:
1)將θ分成θ+和θ-,這兩個數(shù)據(jù)集分別只包含正類樣本和負類樣本;
2)計算兩個數(shù)據(jù)集的樣本數(shù),將θ+的樣本數(shù)記為N+,將θ-的樣本數(shù)記為N-,滿足N++N-=N;
3)計算正類樣本的參數(shù)K+,記作K+=,計算負類樣本的參數(shù)K-,記作K-=
5)通過式(1)計算θ里的每個樣本xi的相對密度,然后通過式(2)計算它的隸屬函數(shù)值f(xi) ;6)將隸屬函數(shù)值f(xi) 嵌入到WELM 的加權(quán)矩陣Wii中;
7)用懲罰因子C,隱藏層神經(jīng)元數(shù)L 訓(xùn)練WELM,獲得新的權(quán)值矩陣。
2.3.2 FWELM-TD
輸入:訓(xùn)練集θ={(x1,y1),(x2,y2),…,(xN,yN)},其中yi?{+,-},懲罰因子C,隱藏層神經(jīng)元數(shù)L
步驟:
1)將θ分成θ+和θ-,這兩個數(shù)據(jù)集分別只包含正類樣本和負類樣本;
2)計算兩個數(shù)據(jù)集的樣本數(shù),將θ+的樣本數(shù)記 為N+,將θ-的樣本數(shù)記為N-,滿 足N++N-=N;
4)計算正類樣本的參數(shù)K+,記作,計算負類樣本的參數(shù)K-,記作
5)對于θ+里的每個樣本,計算它在θ+里的K+近鄰距離及在θ-里的K-近鄰距離并分別記為,同樣地,對于θ-里的每個樣本,計算它在θ-里的K-近鄰距離及在θ+里的K+近鄰距離并分別記為;
6)計算每個樣本的相對密度并分別通過式(3)和式(4)找出兩種不同類內(nèi)的噪聲樣本;
7)通過式(5)計算每個樣本xi的隸屬函數(shù)值Si;
8)將隸屬函數(shù)值f(xi) 嵌入到WELM 的加權(quán)矩陣Wii中;
9)用懲罰因子C,隱藏層神經(jīng)元數(shù)L 訓(xùn)練WELM,獲得新的權(quán)值矩陣。
本文采用5 折交叉驗證,將提出的FWELM-ID、FWELM-TD 與其它十種算法在從Keel 倉庫隨機獲取的20 個二元不平衡數(shù)據(jù)集上進行了比較,數(shù)據(jù)集信息如表1所列。
表1 數(shù)據(jù)集信息
在實驗中,本文對所有和ELM 相關(guān)算法中的隱藏層節(jié)點數(shù)L定為100,懲罰因子C 定為212,以此使得實驗對比結(jié)果公正。
本文采用了G-mean 指標[16]來衡量算法的性能。表2 列出了12 種算法在20 個數(shù)據(jù)集上的G-mean的平均值,粗體表示最佳結(jié)果,下劃線表示次優(yōu),斜體表示最差。根據(jù)表3,我們得出如下結(jié)論:
表2 各類算法的G-mean測度比較
1)ELM 的表現(xiàn)最差,在11 個數(shù)據(jù)集中提供了最低的G-mean值。與ELM相比,其它11種算法能夠或多或少地提高分類性能。
2)與其它算法相比,WELM2和RUS-ELM都缺少穩(wěn)定性。WELM2 傾向于過度調(diào)整分類,而RUS-ELM 則傾向于丟棄一些重要的分類信息,導(dǎo)致學(xué)習(xí)分類邊界的隨機性。。
3)SMOTE-ELM 和RWOS-ELM 的性能都比ROS-ELM 好,ROS傾向于使分類器過度擬合,因為它只是簡單地復(fù)制了原始分類器樣本,SMOTE 和RWOS 使得分類器的泛化能力提高,均可以采取合成泛化能力的方法。另外,RWOS 讓少數(shù)類的分類邊界擴大。然而,與SMOTE 相比,RWOS 沒有優(yōu)勢。
4)對于兩種復(fù)雜的加權(quán)ELM,BWELM 明顯比PFELM 表現(xiàn)出色,因為PFELM 只考慮原始數(shù)據(jù)分布的信息,但是BWELM 可以專注于那些易犯錯誤的樣本,采用boosting 集成學(xué)習(xí)框架可以在很大程度上提高分類器的泛化能力。
5)FWELM-ID取得了6次最佳G-mean值,4次次最佳G-mean 值。FWELM-TD 取得了2 次最佳G-mean 值,7 次最佳G-mean 值。和ODOC-相比,F(xiàn)WELM-ID 和FWELM-TD 嵌入了更復(fù)雜的優(yōu)化技術(shù),可以明顯提高分類性能。兩種算法均精確地提取任意兩個訓(xùn)練樣本間的概率密度的比例關(guān)系,而不必按照原來的方法,即精確地測量每個訓(xùn)練樣本的概率密度。
此外,本文用Friedman檢驗來對各算法在所有數(shù)據(jù)集上的性能,按G-mean 計算它們的排序值、P值、Holm 值和假設(shè),其中,顯著性水平α設(shè)為0.05。統(tǒng)計分析結(jié)果如表3所列。
從表3 可以看出,F(xiàn)WELM-ID 的排序值最小,即排名為1,這表明在所有算法中,該算法的預(yù)測性能最好。FWELM-TD 的排序值第三小,即排名為3,這表明在所有算法中,該算法的預(yù)測性能較好。從普遍性上看,本文所提的兩種算法與ROS-ELM、SMOTE-ELM、BWELM 和ODOC-ELM之間的差異并不明顯。
考慮到代價敏感學(xué)習(xí)存在未考慮樣本在特征空間中的具體分布情況的缺陷,本文提出了兩種基于相對密度信息的模糊代價敏感極限學(xué)習(xí)機。所提算法基于加權(quán)極限學(xué)習(xí)機,融合模糊加權(quán)的理念,提出一種魯棒性更強的新概念——相對密度信息,該方法是通過K近鄰概率密度估計策略計算各訓(xùn)練樣本間的相對密度,可以避免在高維空間下直接進行概率密度的計算,然后進行隸屬函數(shù)的設(shè)計,模糊化和個性化設(shè)置每個樣本的權(quán)重,通過以上方法生成的權(quán)重矩陣來代替加權(quán)極限學(xué)習(xí)機中的權(quán)重矩陣。最后通過從Keel 倉庫隨機獲取的20個二元不平衡數(shù)據(jù)集,對所提兩種算法是否有效及可行進行驗證。根據(jù)實驗結(jié)果,與流行的類別不平衡學(xué)習(xí)算法相比,所提算法在G-mean 等評價指標上具有較優(yōu)表現(xiàn),因此所提算法構(gòu)造的預(yù)測模型具有更好的預(yù)測性能。
此外,如何進行參數(shù)K 的選擇以及降低算法的時間復(fù)雜度,需要在今后的研究工作中繼續(xù)探索。