• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于標(biāo)記權(quán)重和mRMR的多標(biāo)記特征選擇

    2023-04-06 18:58:23孫林徐楓王振徐久成
    關(guān)鍵詞:互信息特征選擇子集

    孫林,徐楓 ,王振 ,徐久成

    (1.河南師范大學(xué) 計算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2.河南師范大學(xué) 智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南省工程實驗室,河南 新鄉(xiāng) 453007)

    0 引言

    隨著大數(shù)據(jù)應(yīng)用的快速發(fā)展,處理高維多標(biāo)記數(shù)據(jù)已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域亟需解決的關(guān)鍵問題之一[1-2]。在多標(biāo)記數(shù)據(jù)中存在許多的冗余與不相關(guān)的特征,這些特征一方面給學(xué)習(xí)算法帶來了較高的時間和空間開銷,另一方面也降低了分類器的精度和泛化能力[3-4]。在多標(biāo)記數(shù)據(jù)處理中,特征選擇作為一種重要的預(yù)處理工具[5],可以更好地消除冗余特征,對數(shù)據(jù)進(jìn)行處理以獲得更好的分類效果[6]。目前,多標(biāo)記特征選擇模型大致可以分為過濾式、封裝式和嵌入式模型三種[7]。過濾式模型不需要關(guān)注其學(xué)習(xí)方法,是根據(jù)數(shù)據(jù)的共有屬性來選擇特征,由于其簡捷性和效率上的優(yōu)勢,該模型得到了更多的應(yīng)用[8]。封裝式模型需要針對學(xué)習(xí)器進(jìn)行多次特征選擇訓(xùn)練,因而其計算開銷較大[9]。嵌入式模型結(jié)合兩者的優(yōu)點,將特征選擇的訓(xùn)練過程和學(xué)習(xí)算法聯(lián)合,但缺點是對于某些特定的算法存在較大的局限性[10]。由于封裝式與嵌入式模型在特征選擇過程中會出現(xiàn)過擬合現(xiàn)象,且其效率并不如過濾式[11]。并且,針對高維數(shù)據(jù)過濾式模型會更容易實現(xiàn)[12],本文采用基于過濾式策略進(jìn)行多標(biāo)記數(shù)據(jù)的特征選擇。

    作為一種非常有效的過濾式特征選擇模型,最大相關(guān)最小冗余(mRMR)算法在篩選出與分類變量最相關(guān)特征的同時,能夠使特征之間的差異最大化,進(jìn)而獲取最佳特征組合[13]。截止目前,利用最大相關(guān)最小冗余算法處理多標(biāo)記數(shù)據(jù)的成果越來越多。張俐和王樅[14]使用互信息和交互信息定義相關(guān)性和冗余性,提出了基于mRMR聯(lián)合互信息的多標(biāo)記特征選擇算法。但是,該算法處理數(shù)據(jù)的標(biāo)記數(shù)偏少。Lin等[15]考慮多標(biāo)記特征的依賴性和冗余性,結(jié)合互信息與mRMR設(shè)計了多標(biāo)記特征選擇算法。但是,該算法沒有考慮標(biāo)記之間的相關(guān)性和互依賴性。Huang等[16]將鄰域分類精度與mRMR結(jié)合,提出了基于Relief和mRMR的鄰域粗糙集多標(biāo)記特征選擇算法。Fan等[17]利用嶺回歸創(chuàng)建特征選擇矩陣和低維嵌入,并通過余弦相似性分析特征冗余度,提出了一種基于標(biāo)記相關(guān)性和特征冗余的多標(biāo)記特征選擇算法。但是,上述兩種算法計算開銷較大。Sun等[18]基于模糊鄰域粗糙集和mRMR提出了一種缺失標(biāo)記特征選擇算法。但是,該算法并沒有充分考慮標(biāo)記與標(biāo)記之間的權(quán)重。為解決該問題,本文利用標(biāo)準(zhǔn)互信息計算標(biāo)記與標(biāo)記之間的關(guān)聯(lián)度,使用每個標(biāo)記和標(biāo)記集關(guān)聯(lián)度占所有標(biāo)記與標(biāo)記集之間關(guān)聯(lián)度之和的比例定義標(biāo)記權(quán)重,進(jìn)而計算特征與標(biāo)記之間的關(guān)聯(lián)度,結(jié)合標(biāo)記權(quán)重改進(jìn)最大相關(guān)性,使用新的mRMR算法進(jìn)行多標(biāo)記特征初選,獲取候選特征子集。

    盡管mRMR算法在多標(biāo)記特征選擇方面取得了一些研究成果,但是大多數(shù)算法并沒有充分考慮標(biāo)記之間以及特征與標(biāo)記集之間的相關(guān)性。例如,李田力等[19]利用模糊熵計算特征與標(biāo)記之間的相關(guān)性,提出了一種標(biāo)記不平衡性的多標(biāo)記粗糙互信息特征選擇方法,但是該方法沒有完全考慮到標(biāo)記之間的相關(guān)性。唐莉等[20]利用樣本的分類間隔及差異性度量特征的重要性,提出了一種基于樣本差異性的多標(biāo)記特征選擇算法。王晶晶和楊有龍[21]提出了一種針對弱標(biāo)記數(shù)據(jù)的多標(biāo)簽分類算法,通過迭代訓(xùn)練樣本的權(quán)重并考慮標(biāo)記之間的相關(guān)性恢復(fù)缺失的標(biāo)記信息。但是上述兩種算法沒有涉及到特征與標(biāo)記集之間的相關(guān)性。蔡亞萍和楊明[22]通過標(biāo)記相似度衡量兩個樣本標(biāo)記集的相似度,提出了結(jié)合局部標(biāo)記相關(guān)性的多標(biāo)記特征選擇算法,但是該算法對于不同的測試樣本有不同的標(biāo)記相關(guān),會增加時間開銷。魏葆雅等[23]使用標(biāo)記對樣本的可分性賦予標(biāo)記權(quán)重,基于核映射后的特征空間來度量特征對樣本的可分性,但該模型未考慮特征與標(biāo)記之間的相關(guān)性。針對此問題,計算特征與標(biāo)記之間的標(biāo)準(zhǔn)互信息,結(jié)合關(guān)聯(lián)度占比定義的標(biāo)記權(quán)重,設(shè)計特征與標(biāo)記集之間的相關(guān)度公式,在最初候選特征子集基礎(chǔ)上進(jìn)一步剔除冗余特征,以獲取最優(yōu)特征子集。

    針對多標(biāo)記高維數(shù)據(jù)集,為解決現(xiàn)有mRMR算法沒有充分考慮標(biāo)記之間和特征與標(biāo)記集之間的相關(guān)性,以及沒有有效計算標(biāo)記與樣本的可分度等問題,本文提出基于標(biāo)記權(quán)重和mRMR的多標(biāo)記特征選擇方法。首先,運用標(biāo)準(zhǔn)互信息計算每個標(biāo)記與標(biāo)記集的關(guān)聯(lián)度,由關(guān)聯(lián)度占比定義新的標(biāo)記權(quán)重;然后,計算特征與標(biāo)記之間的關(guān)聯(lián)度,結(jié)合標(biāo)記權(quán)重改進(jìn)最大相關(guān)性,基于標(biāo)準(zhǔn)互信息定義最小冗余性,構(gòu)建新的mRMR評價準(zhǔn)則,獲取最初的候選特征子集;最后,計算特征與標(biāo)記之間的標(biāo)準(zhǔn)互信息,結(jié)合標(biāo)記權(quán)重,計算特征與標(biāo)記集之間的相關(guān)度,進(jìn)一步剔除冗余特征,篩選最優(yōu)特征子集,提升算法的分類性能。

    1 基礎(chǔ)理論

    假設(shè) MLDS = 是一個多標(biāo)記決策系統(tǒng)[24],其中 U = {x1,x2,…,xn}表示由n個樣本構(gòu)成的樣本集;F表示特征集和L表示樣本對應(yīng)的標(biāo)記集,T = {(xi,yi)|i = 1,2,…,n}表示在標(biāo)記上的映射關(guān)系。每個樣本由f維表示,記為xi∈Rf,對應(yīng)的標(biāo)記集由向量yi∈{0,1}l表示,其中 l∈L。如果 xi有第 l個類別標(biāo)記,則yi(l) = 1,否則yi(l)= 0;且∑yi≥ 1。

    在MLDS = 中,任意樣本xi∈X?U,i = 1,2,…,n,p(xi)為樣本 xi的先驗概率,則樣本X的信息熵[25]可以表示為:

    在MLDS = 中,任意樣本子集 X 和 Y?U,xi∈X 和 yj∈Y,i,j = 1,2,…,n,p(yj|xi)為條件先驗概率,Y在給定X下的條件熵[25]表示為:

    X和Y的互信息量表示已知Y的條件下,X不確定性的改變量,從統(tǒng)計學(xué)角度反映了X和Y的關(guān)聯(lián)程度,所以X和Y的互信息[25]可表示為:

    2 基于mRMR的多標(biāo)記特征選擇算法

    2.1 標(biāo)記權(quán)重

    在多標(biāo)記數(shù)據(jù)中,每個樣本可能同時隸屬于多個類別標(biāo)記,而每個類別標(biāo)記對樣本有著不同程度的可辨別性[26]。因此,本文通過對標(biāo)記賦予一定的權(quán)重來探索各類別標(biāo)記對樣本的可區(qū)分性程度。

    定義1 在 MLDS = 中,L = {l1,l2,…,lz}表示含有 z個標(biāo)記的集合,li∈L,i =1,2,…,z,基于標(biāo)準(zhǔn)互信息計算標(biāo)記與標(biāo)記集之間關(guān)聯(lián)度,其計算公式為:

    2.2 改進(jìn)的mRMR

    mRMR是基于互信息的特征選擇方法,根據(jù)最大統(tǒng)計依賴性準(zhǔn)則選擇重要特征[13]。為解決傳統(tǒng)mRMR算法沒有充分考慮標(biāo)記權(quán)重,從而導(dǎo)致去除最小相關(guān)冗余特征后帶來的分類精度下降的問題,本文將標(biāo)記權(quán)重與mRMR結(jié)合,并將其運用于多標(biāo)記特征選擇中。

    定義3 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},fj∈F,j = 1,2,…,n,L ={l1,l2,…,lz},li∈L,i =1,2,…,z,結(jié)合標(biāo)準(zhǔn)互信息計算特征與標(biāo)記之間的關(guān)聯(lián)度,其表達(dá)式為:

    定義4 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},fj∈F,j = 1,2,…,n,L ={l1,l2,…,lz},l∈L,結(jié)合特征與標(biāo)記之間的關(guān)聯(lián)度和標(biāo)記權(quán)重定義最大相關(guān)性,其計算公式為:

    定義2 在 MLDS = 中,L = {l1,l2,…,lz},li∈L,i =1,2,…,z,使用每個標(biāo)記與標(biāo)記集關(guān)聯(lián)度占所有標(biāo)記與標(biāo)記集之間關(guān)聯(lián)度之和的比例定義標(biāo)記權(quán)重,其計算公式為:

    定義5 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},fi,fj∈F,i,j = 1,2,…,n,基于特征與特征之間的標(biāo)準(zhǔn)互信息定義最小冗余性,其計算公式為:

    定義6 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},L = {l1,l2,…,lz},l∈L,基于最大相關(guān)性和最小冗余性定義新的mRMR,其計算公式為:

    2.3 相關(guān)度

    為了解決沒有考慮特征和標(biāo)記之間的相關(guān)度而造成分類精度不高的問題,引入特征和標(biāo)記之間的互信息并結(jié)合標(biāo)記權(quán)重,計算特征與標(biāo)記集之間的相關(guān)度,有效篩選與標(biāo)記集相關(guān)度較高的特征子集。

    定義7 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},f∈F,L = {l1,l2,…,lz},li∈L,i = 1,2,…,z,結(jié)合標(biāo)準(zhǔn)互信息和新的標(biāo)記權(quán)重計算特征f和標(biāo)記集L之間的相關(guān)度,其計算公式為:

    2.4 算法描述

    為了設(shè)計基于標(biāo)記權(quán)重和mRMR的多標(biāo)記特征選擇算法(Multilabel Feature Selection Us?ing Label Weight and mRMR, MFSLM),首先計算每個標(biāo)記與標(biāo)記集之間的關(guān)聯(lián)度,并根據(jù)關(guān)聯(lián)度的占比計算標(biāo)記權(quán)重;然后使用改進(jìn)后的mRMR得到初選多標(biāo)記特征子集;最后,結(jié)合互信息和標(biāo)記權(quán)重計算每個特征與標(biāo)記集之間的相關(guān)度,通過相關(guān)度降序排序特征,進(jìn)而得到最終篩選的最優(yōu)特征子集。其詳細(xì)偽代碼描述如算法1。

    算法1 MFSLM算法

    輸入:MLDS =

    輸出:最優(yōu)特征子集R0

    步驟1. For 每個標(biāo)記l∈L

    步驟2. 通過式(5)計算標(biāo)記權(quán)重W(li)

    步驟3. End For

    步驟4. For 特征子集R1

    步驟5. 根據(jù)式(9)計算NMR(R1)

    步驟6. End For

    步驟7. 對NMR值進(jìn)行排序并選擇排序較前的作為最初篩選的特征子集R1

    步驟8. For 每個特征f∈F

    步驟9. For 每個標(biāo)記l∈L

    步驟10. 根據(jù)式(10)計算特征和標(biāo)記集之間的相關(guān)度CDE(f, L)

    步驟11. End For

    步驟12. End For

    步驟13. 根據(jù)特征和標(biāo)記集之間的CDE(f, L)值篩選出最終特征子集 R0(|R1|≥2|R0|)

    步驟14. Return 最優(yōu)多標(biāo)記特征子集R0

    在MFSLM算法中,假設(shè)多標(biāo)記數(shù)據(jù)集包括m個樣本、n個特征和t個標(biāo)記。在篩選模塊1中,步驟1至步驟3計算標(biāo)記權(quán)重的時間復(fù)雜度為O(mt),步驟4至步驟6計算新的mRMR值的時間復(fù)雜度為O(n2+nt);在篩選模塊2中,步驟8至步驟12計算特征與標(biāo)記集之間的相關(guān)度的時間復(fù)雜度為O(nt),其中步驟7和步驟13為兩次篩選特征子集的時間復(fù)雜度為O(nlogn)。由分析可知,該算法總的時間復(fù)雜度為 O(n2+nt+mt)。

    3 實驗結(jié)果及分析

    3.1 實驗準(zhǔn)備

    為驗證本文MFSLM算法的有效性,在Mu?lan數(shù)據(jù)庫(http://mulan.sourceforge.net)中選取了8個多標(biāo)記數(shù)據(jù)集,數(shù)據(jù)集的具體信息如表1所示。參考文獻(xiàn)[19]和文獻(xiàn)[26],對這些多標(biāo)記數(shù)據(jù)集進(jìn)行了劃分,分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。

    參照文獻(xiàn)[27],本文實驗使用5個常用的多標(biāo)記評價指標(biāo):平均分類精度(Average Preci?sion,AP)、漢明損失(Hamming Loss,HL)、1錯誤率(One Error,OE)、覆蓋率(Coverage,CV)和排序損失(Ranking Loss,RL),驗證對比算法的分類性能。其中,AP值越大效果越好(1為最優(yōu)),其他指標(biāo)越小效果越好(0為最優(yōu))。為后續(xù)結(jié)果的觀察方便,使用“↑”表示實驗結(jié)果越大越好,“↓”表示實驗結(jié)果越小越好。使用多標(biāo)記K最近鄰(K Multilabel k-nearest neigh?bor, ML-KNN)作為多標(biāo)記特征選擇后的分類器,其中近鄰個數(shù)為10,平滑參數(shù)為1,分類后的結(jié)果驗證多標(biāo)記特征選擇算法的實驗效果。實驗環(huán)境為Windows 10、CPU inter i7-4790 3.60 GHz、8.00 GB和MATLAB R2019a。

    3.2 ML-KNN分類器上的實驗結(jié)果分析

    在本節(jié)實驗的第一部分是將MFSLM算法與其他4種多標(biāo)記特征選擇算法做對比分析,包括:基于AP聚類和互信息的弱標(biāo)記特征選擇 算 法 (Weak label feature selection method based on AP clustering and mutual information,WFSAM)[28]、基于標(biāo)記相關(guān)性的多標(biāo)記特征選擇算法(Multi-label feature selection with label correlation algorithm, MUCO)[29]、基于最大相關(guān)性的多標(biāo)記維數(shù)約簡算法 (Multi-label dimen?sionality reduction algorithm via dependence maxi?mization, MDDMspc)[30]和基于陣營的多標(biāo)記特征選擇算法 (Alignment based feature selection algorithm for multi-label learning, MFS-KA)[31]。從表1中選擇3個代表性數(shù)據(jù)集:Yeast、Enron和 Reference,采用 5個指標(biāo)(AP、CV、OE、HL和RL)評估上述5種比較算法的分類性能。圖1為實驗結(jié)果對比圖,其中橫坐標(biāo)和縱坐標(biāo)分別表示所選特征的個數(shù)(Number of selected fea?tures, N)和5個評價指標(biāo)的分類結(jié)果。為了更清晰地展示上述5種算法的最優(yōu)結(jié)果,表2給出了在3個數(shù)據(jù)集上5種算法在5個評價指標(biāo)上的最佳實驗結(jié)果。

    由圖1可知,在AP指標(biāo)下,在Yeast數(shù)據(jù)集上,當(dāng)N = 10時,MFSLM算法略差于WFSAM算法,優(yōu)于其他3種算法,但在其余情況下均為最優(yōu);在Enron數(shù)據(jù)集上,當(dāng)N = 100時,MF?SLM算法差于MFS-KA算法,優(yōu)于其他3種算法,當(dāng)N = 300時略差于WFSAM算法,但在其余情況下均為最優(yōu);在Reference數(shù)據(jù)集上,當(dāng)50 ≤ N ≤ 200時,MFSLM算法差于WFSAM、MUCO和MFS-KA這3種算法,當(dāng)250 ≤ N ≤400時,MFSLM算法與MUCO和MFS-KA這2種算法基本持平,當(dāng)N > 450時均為最優(yōu)。在CV指標(biāo)下,在Enron數(shù)據(jù)集上,MFSLM算法明顯優(yōu)于其他算法;在Yeast數(shù)據(jù)集上,當(dāng)N > 30時,MFSLM算法均為最優(yōu);在Reference數(shù)據(jù)集上,僅在N = 450或N = 500時為最優(yōu)。在HL指標(biāo)下,在Yeast數(shù)據(jù)集上,MFSLM算法均優(yōu)于其他算法;在Enron數(shù)據(jù)集上,當(dāng)N = 200或N = 300時,MFSLM算法差于MFS-KA與WFSAM這2種算法,當(dāng)N > 400時,MFSLM算法遠(yuǎn)優(yōu)于其他4種算法;在Reference數(shù)據(jù)集上,當(dāng) 50 ≤ N ≤ 450時,MFSLM 算法略差于MFS-KA與WFSAM這2種算法,與MUCO算法相差不大,當(dāng)450 ≤ N ≤ 650時,MFSLM算法優(yōu)于其他4種算法。在OE指標(biāo)下,在Yeast數(shù)據(jù)集上,MFSLM算法與WFSAM算法基本持平,明顯優(yōu)于其他算法;在Enron數(shù)據(jù)集上,當(dāng)N > 400時,MFSLM算法明顯優(yōu)于其他算法;在Reference數(shù)據(jù)集上,在N < 450時,MF?SLM算法略差于WFSAM、MUCO和MFS-KA這3種算法,但當(dāng)N > 450時優(yōu)于其他4種算法。在RL指標(biāo)下,在Enron數(shù)據(jù)集上,MFSLM算法均為最優(yōu);在Yeast數(shù)據(jù)集上,當(dāng)N > 10時,MFSLM算法優(yōu)于其他算法;在Reference數(shù)據(jù)集上,當(dāng)450 ≤ N ≤ 650時,MFSLM算法優(yōu)于其他算法。從表2中看出,在CV、HL和RL這3個指標(biāo)下,MFSLM算法均表現(xiàn)最優(yōu)。在AP和OE指標(biāo)下,在Yeast和Enron數(shù)據(jù)集上,MFSLM算法均為最優(yōu),但由于Reference數(shù)據(jù)集是稀疏矩陣數(shù)據(jù)集,說明MFSLM算法在稀疏矩陣上的效果表現(xiàn)不好,致使MFSLM算法略差于WFSAM算法。從整體來分析,MFSLM算法相對于其他4種比較算法是有效的。

    基于最大相關(guān)性的多標(biāo)記維數(shù)約簡算法(MDDMproj)[30]、基于 ReliefF 的多標(biāo)記特征選擇算法(ReliefF for multilabel feature selection al?gorithm, RF-ML)[32]和基于標(biāo)記權(quán)重的多標(biāo)記特征選擇算法 (Multilabel feature selection algo?rithm based on label weighting, LWMF)[26]。從表1中選擇3個代表性數(shù)據(jù)集Yeast、Education和Arts,采用4個指標(biāo)(AP、CV、HL和RL)評估比較算法的分類性能。圖2是實驗結(jié)果的對比圖,其中縱坐標(biāo)和橫坐標(biāo)含義與圖1相同。為了更清晰地展示上述6種算法在這3個數(shù)據(jù)集上的最優(yōu)結(jié)果,表3給出了在3個數(shù)據(jù)集上6種算法在4個評價指標(biāo)下的最佳實驗結(jié)果。

    由圖2可知,在AP指標(biāo)下,在Yeast數(shù)據(jù)集上,當(dāng) 40 ≤ N ≤ 100時,MFSLM 算法略差于WFSNR 算 法 ,在 30 ≤ N ≤ 70時 略 差 于LWMF算法,但優(yōu)于其他算法;在Arts數(shù)據(jù)集上,MFSLM算法優(yōu)于其他算法;對于Education數(shù)據(jù)集,當(dāng) 50 ≤ N ≤ 300時,MFSLM 算法均優(yōu)于其他算法。在CV指標(biāo)下,在Yeast數(shù)據(jù)集上,當(dāng)N = 30時,MFSLM算法為最優(yōu),在其他情況下略差于WFSNR算法和LWMF算法;在Education數(shù)據(jù)集上,當(dāng)350 ≤ N ≤ 450時,MF?SLM算法差于LWMF算法,在400 ≤ N ≤ 500時略差于WFSNR算法,但優(yōu)于其他算法;在Arts數(shù)據(jù)集上,MFSLM算法基本表現(xiàn)最優(yōu)。在HL指標(biāo)下,在Yeast和Education這2個數(shù)據(jù)集上,僅有少數(shù)情況MFSLM算法略差于LWMF算法,其余情況都優(yōu)于其他算法;在Arts數(shù)據(jù)集上,MFSLM算法均為最優(yōu)。在RL指標(biāo)下,在Yeast數(shù)據(jù)集上,MFSLM算法與LWMF算法差距不大,在50 ≤ N ≤ 100時略差于WFSNR算法,但仍優(yōu)于其他算法;對于Education數(shù)據(jù)集,當(dāng) 50 ≤ N ≤ 300時,MFSLM 算法優(yōu)于其它算法;在Arts數(shù)據(jù)集上,在450 ≤ N ≤ 500時,MFSLM算法略差于WFSNR算法和MFSR算法,但均優(yōu)于其他算法。從表3中看出,在CV、HL和RL這3個指標(biāo)下,MFSLM算法均為最優(yōu)。在AP指標(biāo)下,在Education和Arts這2個數(shù)據(jù)集上MFSLM算法為最優(yōu);但由于Yeast數(shù)據(jù)集是缺失數(shù)據(jù)填補常用數(shù)據(jù)集,WFSNR算法填補大部分缺失標(biāo)記,致使MFSLM算法略差于WFSNR算法。從整體來看,MFSLM算法相比于其他5種算法是有效的。

    為進(jìn)一步展示MFSLM算法在不同數(shù)據(jù)集上的有效性,選擇文獻(xiàn)[19]中的5種對比的多標(biāo)記特征選擇算法:標(biāo)記不平衡性的多標(biāo)記粗糙互信息特征選擇算法(Multilabel feature selec?tion use rough mutual information with imbalance lable,MFS-RMI-IL)[19]、基于多變量互信息的多標(biāo)記特征選擇算法(Pairwise multivariate mu?tual information,PMU)[33]、基于最大相關(guān)性的多標(biāo)記約簡算法(MDDMspc和 MDDMproj)[30]和基于局部子空間的多標(biāo)記特征選擇算法(Multilabel feature selection algorithm base on lo?cal subspace, MFSLS)[34],從表 1 中選擇 4 個代表性數(shù)據(jù)集:Arts、Health、Society和Science。表4描述了6種算法在4個指標(biāo)下的實驗結(jié)果。

    從表4中看出,在AP指標(biāo)下,MFSLM算法表現(xiàn)均優(yōu)于其他5種算法;尤其在Society數(shù)據(jù)集上,MFSLM算法比次優(yōu)的MFS-RMI-IL算法高0.030 6;在OE指標(biāo)下,MFSLM算法結(jié)果均最為優(yōu)異;尤其是在Society和Science這2個數(shù)據(jù)集上,MFSLM算法比次優(yōu)的MFS-RMI-IL算法分別低0.032 7和0.038。在HL指標(biāo)下,MFSLM算法在Health和Society數(shù)據(jù)集上均優(yōu)于其他算法;在Arts和Science數(shù)據(jù)集上,MF?SLM算法與最優(yōu)的MFS-RMI-IL算法僅差0.000 3和0.000 1。究其原因是:HL指標(biāo)的重點可能只是針對單個標(biāo)記的分類效果,沒有考慮標(biāo)記間的相關(guān)性和標(biāo)記間的分布,而MF?SLM算法考慮了標(biāo)記間的相關(guān)性。在RL指標(biāo)下,MFSLM算法都取得了最優(yōu)值;尤其是在Society數(shù)據(jù)集上,MFSLM算法比次優(yōu)的MFSRMI-IL算法低0.012 9。

    從上述實驗結(jié)果分析可知,MFSLM算法在對多標(biāo)記數(shù)據(jù)進(jìn)行特征選擇時表現(xiàn)出優(yōu)異的分類性能。

    3.3 統(tǒng)計分析

    使用 Firedman 檢驗[24]和 Nemenyi測試[35]分析所有實驗結(jié)果的統(tǒng)計意義。Firedman檢驗的計算公式為:

    參考文獻(xiàn)[35]的統(tǒng)計計算方法,表2中的實驗結(jié)果對應(yīng)的統(tǒng)計結(jié)果如表5所示,CD圖如圖3所示。在顯著水平α = 0.1時,則qa=2.459,CD = 3.174 6,其中s = 5和 T = 3。從圖3可以看出,MFSLM算法在5個指標(biāo)上均為最優(yōu)。表3中的實驗結(jié)果對應(yīng)的統(tǒng)計結(jié)果如表6所示,CD圖如圖4所示。在顯著水平α = 0.1時,則 qa= 2.589,CD = 3.756 2,其中 s = 6和T = 3。從圖4看出,MFSLM算法在4個指標(biāo)上均為最優(yōu)。表4中的實驗結(jié)果的統(tǒng)計結(jié)果如表7所示,CD圖如圖5所示。在顯著水平α =0.1時,則qa= 2.589,CD = 3.253 0,其中s = 6和T = 4。由圖5可知,MFSLM算法在4個指標(biāo)上均為最優(yōu)。

    4 結(jié)論

    為有效處理多標(biāo)記數(shù)據(jù),本文提出了一種基于標(biāo)記權(quán)重和mRMR的多標(biāo)記特征選擇算法。算法首先基于標(biāo)準(zhǔn)互信息計算標(biāo)記之間關(guān)聯(lián)度,結(jié)合特征與標(biāo)記之間的關(guān)聯(lián)度和標(biāo)記權(quán)重,定義了新的最大相關(guān)性,構(gòu)建新的mRMR算法,初次篩選特征子集;然后,計算特征與標(biāo)記之間的標(biāo)準(zhǔn)互信息,結(jié)合標(biāo)記權(quán)重計算特征與標(biāo)記集之間的相關(guān)度,在最初候選特征子集基礎(chǔ)上進(jìn)一步剔除冗余特征,篩選最優(yōu)特征子集,提高特征與標(biāo)記之間的相關(guān)性,從而提升算法的分類性能。在8個多標(biāo)記數(shù)據(jù)集上的實驗結(jié)果表明,MFSLM算法在對多標(biāo)記數(shù)據(jù)進(jìn)行特征選擇時,其分類性能得到了有效提升。但是,本文算法未充分考慮特征與特征集之間的關(guān)聯(lián)性,因此在處理大規(guī)模多標(biāo)記數(shù)據(jù)集時仍然存在一定的缺陷。在未來工作中,針對大規(guī)模多標(biāo)記數(shù)據(jù)集,如何提升多標(biāo)記特征選擇的時效性是今后研究的方向。

    猜你喜歡
    互信息特征選擇子集
    由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
    拓?fù)淇臻g中緊致子集的性質(zhì)研究
    關(guān)于奇數(shù)階二元子集的分離序列
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    改進(jìn)的互信息最小化非線性盲源分離算法
    電測與儀表(2015年9期)2015-04-09 11:59:22
    每一次愛情都只是愛情的子集
    都市麗人(2015年4期)2015-03-20 13:33:22
    基于增量式互信息的圖像快速匹配方法
    基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
    莲花县| 贺州市| 塔城市| 陈巴尔虎旗| 中方县| 博白县| 兖州市| 灵石县| 紫云| 久治县| 左贡县| 工布江达县| 崇州市| 太康县| 馆陶县| 祁阳县| 东乡| 山东省| 宝鸡市| 常宁市| 佳木斯市| 邵武市| 武清区| 兴国县| 长葛市| 资溪县| 新化县| 潞城市| 徐州市| 四平市| 浙江省| 余江县| 东乌| 大竹县| 长葛市| 北川| 阿拉善右旗| 柳河县| 峨眉山市| 土默特左旗| 蚌埠市|