羅森林,王海州,潘麗敏,孫曉光
(1.北京理工大學(xué) 信息系統(tǒng)及安全對(duì)抗實(shí)驗(yàn)中心,北京 100081; 2.通號(hào)城市軌道交通技術(shù)有限公司,北京 100070)
提 要: 針對(duì)面向?qū)嶋H應(yīng)用場景中數(shù)據(jù)標(biāo)簽易殘缺導(dǎo)致有監(jiān)督多標(biāo)簽分類方法可用訓(xùn)練數(shù)據(jù)量減少,未能利用大量標(biāo)簽缺失數(shù)據(jù)中蘊(yùn)含的樣本特征空間關(guān)聯(lián)知識(shí)以最大化判別間隔,限制多標(biāo)簽分類效果等問題,本文提出一種融合樣本相似性的弱監(jiān)督多標(biāo)簽分類方法.該方法利用標(biāo)簽相關(guān)性和樣本相似性恢復(fù)標(biāo)簽以提高數(shù)據(jù)利用率,并將標(biāo)簽恢復(fù)嵌入到訓(xùn)練過程中以便挖掘標(biāo)簽相關(guān)性,通過近端加速梯度法進(jìn)行參數(shù)優(yōu)化,建立弱監(jiān)督學(xué)習(xí)場景的多標(biāo)簽分類模型.在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法能夠利用樣本相似性有效提升模型在標(biāo)簽殘缺時(shí)的分類能力,實(shí)用價(jià)值大.
多標(biāo)簽分類[1]是解決同時(shí)關(guān)聯(lián)多個(gè)標(biāo)簽的樣本分類問題的機(jī)器學(xué)習(xí)方法.近年來,由于在現(xiàn)實(shí)場景中多標(biāo)簽數(shù)據(jù)的廣泛存在,關(guān)于多標(biāo)簽分類的研究受到越來越多的關(guān)注,不斷有新方法被提出[2-3].然而在實(shí)際應(yīng)用中通常無法保證標(biāo)簽的完整性,由于數(shù)據(jù)采集不嚴(yán)謹(jǐn)、標(biāo)注成本過高等原因,大多數(shù)的樣本只有部分標(biāo)簽被標(biāo)注.
為了緩解標(biāo)簽殘缺導(dǎo)致的多標(biāo)簽分類性能下降的問題,弱監(jiān)督多標(biāo)簽學(xué)習(xí)[4-8]應(yīng)運(yùn)而生.通過在訓(xùn)練過程中挖掘數(shù)據(jù)集中的信息對(duì)樣本標(biāo)簽進(jìn)行恢復(fù)以提升模型訓(xùn)練中可用的有效樣本數(shù)量,同時(shí)在訓(xùn)練中利用恢復(fù)后的標(biāo)簽可以獲得更加真實(shí)的標(biāo)簽分布,挖掘得到更加準(zhǔn)確的標(biāo)簽相關(guān)性,提升多標(biāo)簽分類效果.
弱監(jiān)督多標(biāo)簽方法缺失問題按照其處理缺失標(biāo)簽的方式可將這些方法分為3類.
第一類方法將缺失的標(biāo)簽視為負(fù)類,在訓(xùn)練過程中使用負(fù)類標(biāo)簽對(duì)缺失的標(biāo)簽進(jìn)行填補(bǔ).Bucak等[9]提出的MLR-GL方法把缺失的標(biāo)簽標(biāo)記為負(fù)類(-1),通過使用排序損失的Group Lasso回歸構(gòu)建分類器來實(shí)現(xiàn)對(duì)殘缺標(biāo)簽數(shù)據(jù)的多標(biāo)簽分類.Huang等[10]提出的LSML方法在MLR-GL的基礎(chǔ)上對(duì)目標(biāo)函數(shù)進(jìn)行修改,添加約束項(xiàng)以實(shí)現(xiàn)標(biāo)簽稀疏化,提高分類器的泛化性.
第二類方法將缺失的標(biāo)簽視為矩陣中的空缺值,將標(biāo)簽恢復(fù)轉(zhuǎn)化為矩陣補(bǔ)全問題,基于標(biāo)簽矩陣的低秩假設(shè),依照現(xiàn)有標(biāo)簽對(duì)缺失標(biāo)簽進(jìn)行恢復(fù).Xu等[11]提出的Maxide方法利用兩個(gè)邊信息矩陣來加速矩陣補(bǔ)全,并且假設(shè)目標(biāo)矩陣和邊信息矩陣具有同樣的潛在信息.Zhu等[12]提出的GLOCAL方法通過分解標(biāo)簽矩陣獲得標(biāo)簽的潛在表示,結(jié)合局部和全局的標(biāo)簽相關(guān)性建立特征到潛在標(biāo)簽的映射,依據(jù)該映射對(duì)標(biāo)簽矩陣進(jìn)行補(bǔ)全.
第三類方法為缺失的標(biāo)簽定義了新的表示方法,標(biāo)簽由正類(+1)、負(fù)類(-1)和缺失(0)構(gòu)成.Wu等[13]提出的ML-MG方法首先使用0表示標(biāo)簽缺失,利用混合圖構(gòu)建由標(biāo)簽依賴關(guān)系構(gòu)成的網(wǎng)絡(luò),并將該網(wǎng)絡(luò)轉(zhuǎn)化為一個(gè)線性約束的凸優(yōu)化問題,通過ADMM法進(jìn)行求解,獲得分類模型.Cheng等[14]提出的MNECM方法使用+1、0、-1來表示標(biāo)簽狀態(tài)以便于計(jì)算標(biāo)簽密度,并根據(jù)標(biāo)簽相關(guān)性構(gòu)建標(biāo)簽置信度矩陣,通過ELM方法利用標(biāo)簽密度和標(biāo)簽相關(guān)性構(gòu)建分類模型.
現(xiàn)有的弱監(jiān)督多標(biāo)簽學(xué)習(xí)方法的思路主要是通過對(duì)標(biāo)簽集進(jìn)行處理使缺失的標(biāo)簽?zāi)軌騾⑴c到訓(xùn)練過程中從而提高數(shù)據(jù)的利用率和分類準(zhǔn)確率.其主要存在如下兩個(gè)問題:第一,標(biāo)簽恢復(fù)利用的信息有限.多數(shù)方法只利用標(biāo)簽空間的信息(標(biāo)簽相關(guān)性)對(duì)缺失標(biāo)簽進(jìn)行恢復(fù),忽視了特征空間的信息(樣本相似性),導(dǎo)致恢復(fù)的標(biāo)簽質(zhì)量不高從而影響最終分類效果;第二,未考慮構(gòu)建類屬特征.現(xiàn)有方法大多只注重于標(biāo)簽的恢復(fù)過程,卻沒有關(guān)注在標(biāo)簽缺失情況下構(gòu)建類屬特征,限制了分類準(zhǔn)確率進(jìn)一步提升的空間.
基于上述分析,針對(duì)標(biāo)簽殘缺條件下的多標(biāo)簽分類問題,研究融合樣本相似性的弱監(jiān)督多標(biāo)簽分類方法.本文的主要貢獻(xiàn)如下:①利用樣本相似性和標(biāo)簽相關(guān)性對(duì)缺失的標(biāo)簽進(jìn)行恢復(fù),并將標(biāo)簽恢復(fù)過程嵌入到模型訓(xùn)練過程中,以挖掘更準(zhǔn)確的標(biāo)簽相關(guān)性;②利用L1正則為各個(gè)標(biāo)簽構(gòu)建類屬特征,提升模型分類性能;③使用近端加速梯度法對(duì)模型參數(shù)進(jìn)行優(yōu)化,實(shí)現(xiàn)在標(biāo)簽殘缺狀態(tài)下的多標(biāo)簽分類.
融合樣本相似性的弱監(jiān)督多標(biāo)簽分類WSML方法的核心思想是在訓(xùn)練過程中根據(jù)樣本相似性和標(biāo)簽相關(guān)性對(duì)缺失的標(biāo)簽進(jìn)行恢復(fù),同時(shí)為每個(gè)標(biāo)簽分別構(gòu)建類屬特征.采用近端加速梯度法對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,從而緩解由于標(biāo)簽缺失導(dǎo)致監(jiān)督信息不完備引起的分類性能衰退的問題,獲得較高的分類準(zhǔn)確率.WSML方法的原理框架如圖1所示.
圖1 WSML方法原理圖Fig.1 WSML algorithm principle diagram
WSML方法主要包括2個(gè)模塊:構(gòu)建目標(biāo)函數(shù)和優(yōu)化參數(shù).在構(gòu)建目標(biāo)函數(shù)模塊中,分別將標(biāo)簽相關(guān)性和樣本相似性引入目標(biāo)函數(shù),并且通過對(duì)特征系數(shù)W和標(biāo)簽相關(guān)性度量C添加L1正則項(xiàng),實(shí)現(xiàn)基于特征選擇的類屬特征構(gòu)建和標(biāo)簽空間的稀疏化;在參數(shù)優(yōu)化模塊中,將目標(biāo)函數(shù)拆分為光滑凸函數(shù)和非光滑凸函數(shù),然后計(jì)算該目標(biāo)函數(shù)的利普西茨常數(shù),最后交替優(yōu)化參數(shù)W和C.
在多標(biāo)簽學(xué)習(xí)中,具有n個(gè)樣本的訓(xùn)練集被表示為D={(x1,y1),(x2,y2)…,(xn,yn)},其中xi表示第i個(gè)樣本的特征向量,yi表示第i個(gè)樣本的標(biāo)簽向量,當(dāng)yij=+1時(shí)代表第i個(gè)樣本與第j個(gè)標(biāo)簽相關(guān)聯(lián),當(dāng)yij=-1時(shí)代表第i個(gè)樣本與第j個(gè)標(biāo)簽不關(guān)聯(lián),當(dāng)yij=0時(shí)代表第i個(gè)樣本的第j個(gè)標(biāo)簽缺失.
由于多標(biāo)簽數(shù)據(jù)的每個(gè)標(biāo)簽都有最有利于其分類的類屬特征,這些特征與原始特征相比具有稀疏性.所以通過在目標(biāo)函數(shù)中對(duì)特征系數(shù)矩陣W施加L1正則的方式構(gòu)建類屬特征,函數(shù)如下:
(1)
因?yàn)樵跇?biāo)簽缺失的情況下直接地使用不完整的標(biāo)簽矩陣進(jìn)行學(xué)習(xí)會(huì)導(dǎo)致分類性能的顯著衰退.為了應(yīng)對(duì)這個(gè)問題,提出使用標(biāo)簽相關(guān)性和樣本相似性分別從標(biāo)簽空間和特征空間獲取信息來對(duì)缺失的標(biāo)簽矩陣進(jìn)行恢復(fù).引入標(biāo)簽相關(guān)矩陣C∈l×l,cij表示標(biāo)簽yi和標(biāo)簽yj的相關(guān)程度,假設(shè)任何缺失的標(biāo)簽都可以通過與之相關(guān)的其他標(biāo)簽的值來進(jìn)行重建.考慮到通常并不是所有的標(biāo)簽之間都存在相關(guān)性,所以對(duì)標(biāo)簽相關(guān)矩陣C施加L1正則來獲得一個(gè)較稀疏的標(biāo)簽相關(guān)矩陣,修改目標(biāo)函數(shù)如下:
(2)
在多標(biāo)簽學(xué)習(xí)中,標(biāo)簽相關(guān)性被認(rèn)為是提高多標(biāo)簽分類性能的重要手段,所以標(biāo)簽相關(guān)性在被用于重建標(biāo)簽矩陣的同時(shí),也被用來對(duì)特征系數(shù)矩陣的學(xué)習(xí)施加影響.如果兩個(gè)標(biāo)簽之間存在著較強(qiáng)的相關(guān)性,那么預(yù)測這兩個(gè)標(biāo)簽的類屬特征應(yīng)該越相似,即特征系數(shù)的距離越接近.基于這種考慮修改目標(biāo)函數(shù)如下:
λ3‖C‖1+λ4tr(WL1WT) s.t.C≥0
(3)
式中L1∈l×l為矩陣C的拉普拉斯矩陣.被用于進(jìn)行缺失標(biāo)簽恢復(fù)的另外一個(gè)重要信息是樣本相似性.如果兩個(gè)樣本的特征存在較強(qiáng)的相似性,那么它們所具有的標(biāo)簽也應(yīng)該很相似.為了衡量樣本之間的相似程度,采用鄰域圖來計(jì)算樣本相似性,具體計(jì)算方式如下:
(4)
其中sij=1代表樣本xi與樣本xj具有相似性,sij=0代表樣本xi與樣本xj不具有相似性.根據(jù)樣本相似性的假設(shè),修改目標(biāo)函數(shù)如下:
λ3‖C‖1+λ4tr(WL1WT)+λ5tr(WTXTL2XW)
s.t.C≥0
(5)
由于目標(biāo)函數(shù)中L1正則項(xiàng)的存在,使得目標(biāo)函數(shù)為不光滑的凸函數(shù).首先對(duì)目標(biāo)函數(shù)進(jìn)行拆分.為了表示方便,使用Θ來一起代表目標(biāo)函數(shù)中的兩個(gè)參數(shù)W和C,待優(yōu)化函數(shù)表示如下:
(6)
f(Θ)和g(Θ)表示如下:
λ4tr(WL1WT)+λ5tr(WTXTL2XW)g(Θ)=
λ1‖W‖1+λ3‖C‖1
(7)
式中:f(Θ)為光滑的凸函數(shù);g(Θ)為非光滑凸函數(shù).利用近端加速梯度法來解決該優(yōu)化問題.先進(jìn)行利普希茨常數(shù)的計(jì)算,給定Θ1=(W1,C1)和Θ2=(W2,C2),則有
(8)
因此,該優(yōu)化問題的利普西茨常數(shù)為
(9)
根據(jù)獲得的利普西茨常數(shù)對(duì)W和C進(jìn)行交替優(yōu)化,交替優(yōu)化過程如下.
輸入:訓(xùn)練集D,模型參數(shù)λ1,λ2,λ3,λ4,λ5,利普希茨常數(shù)Lf輸出:W,C
1.隨機(jī)初始化W0,W1,C0,C1設(shè)為0,α0=1,α1=1,t=1
2.repeat
10.until收斂
11.W=Wt,C=Ct
為了驗(yàn)證WSML方法在弱監(jiān)督多標(biāo)簽分類問題上的效果,在多個(gè)數(shù)據(jù)集上與LSML方法[10](2019)、GLOCAL方法[12](2018)、LLSF方法[13](2015)以及ML-kNN方法[14]進(jìn)行對(duì)比分析.
① LSML方法利用標(biāo)簽相關(guān)性對(duì)標(biāo)簽矩陣進(jìn)行恢復(fù),并利用這種相關(guān)性指導(dǎo)模型訓(xùn)練過程,同時(shí)為每個(gè)標(biāo)簽構(gòu)建稀疏的類屬特征以提升分類能力.WSML方法與LSML方法的主要區(qū)別是,WSML在恢復(fù)標(biāo)簽矩陣以及模型訓(xùn)練的過程中額外引入了樣本相似性以進(jìn)一步提升分類能力.
② GLOCAL方法在訓(xùn)練模型的過程中挖掘標(biāo)簽間的全局和局部相關(guān)性以獲得更好的分類結(jié)果,同時(shí)針對(duì)標(biāo)簽缺失情況依據(jù)標(biāo)簽矩陣的低秩假設(shè)恢復(fù)標(biāo)簽矩陣.
③ LLSF方法在目標(biāo)函數(shù)中分別考慮類屬特征和標(biāo)簽相關(guān)性,同時(shí)也使用近端加速梯度法進(jìn)行參數(shù)優(yōu)化,但是其沒有考慮標(biāo)簽缺失的情況,可以看作是LSML方法的退化版本.
④ ML-kNN方法是對(duì)kNN方法在多標(biāo)簽學(xué)習(xí)領(lǐng)域的擴(kuò)展,是多標(biāo)簽學(xué)習(xí)中一個(gè)經(jīng)典的方法.
選擇采集自北京醫(yī)院的diabetes數(shù)據(jù)集、臨床病例medical數(shù)據(jù)集和文本分類enron數(shù)據(jù)集3個(gè)真實(shí)場景中的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).數(shù)據(jù)集的詳細(xì)信息如表1所示.其中|D|,dim(D)和L(D)分別代表樣本數(shù)量,特征數(shù)量和標(biāo)簽數(shù)量.
表1 數(shù)據(jù)集詳細(xì)信息
選擇在多標(biāo)簽學(xué)習(xí)中常用的5種評(píng)價(jià)指標(biāo)[15](漢明損失、排序損失、1-錯(cuò)誤率、覆蓋率和平均精度)對(duì)模型性能進(jìn)行評(píng)價(jià).
① 漢明損失α計(jì)算的是所有分類錯(cuò)誤的標(biāo)簽占總標(biāo)簽數(shù)的比例,其定義如下:
(10)
式中:Δ表示對(duì)稱差運(yùn)算;h(xi)表示模型對(duì)xi標(biāo)簽的預(yù)測.根據(jù)定義,漢明損失的取值區(qū)間為[0,1],其值越小代表分類錯(cuò)誤的標(biāo)簽越少,模型的準(zhǔn)確性越高.
② 排序損失β計(jì)算的是模型將與樣本不相關(guān)的標(biāo)簽排在與樣本相關(guān)的標(biāo)簽之前的比例,是對(duì)模型輸出結(jié)果置信度的評(píng)價(jià)指標(biāo),其定義如下:
(11)
③ 1-錯(cuò)誤率υ計(jì)算的是模型預(yù)測樣本中置信度排序最高的標(biāo)簽與真實(shí)標(biāo)簽不符的比例,其定義如下:
(12)
④ 覆蓋率rc(Coverage)評(píng)估的是平均要在預(yù)測的標(biāo)簽中經(jīng)過多少標(biāo)簽才能夠覆蓋該樣本真正屬于的標(biāo)簽,其定義如下:
(13)
其中rank代表排序操作,如果xi屬于標(biāo)簽l的置信度越高,其排名就越靠前,rank(xi,l)的值就越小.該指標(biāo)越小表示模型越能夠?qū)颖菊嬲龑儆诘臉?biāo)簽找出來.
⑤ 平均精度η評(píng)估在給定一個(gè)標(biāo)簽時(shí),比多少樣本真正屬于的標(biāo)簽的置信度比給定的標(biāo)簽更高,其定義如下:
(14)
與其他4個(gè)評(píng)價(jià)指標(biāo)不同,平均精度的值越大代表模型的性能越好.
① 對(duì)訓(xùn)練集和測試集進(jìn)行劃分.
經(jīng)過空缺值處理、SMOTE采樣等數(shù)據(jù)預(yù)處理操作后,隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練集,剩余20%的數(shù)據(jù)作為測試集.
② 對(duì)WSML分類方法的參數(shù)進(jìn)行選擇.
采用5折交叉驗(yàn)證方法對(duì)WSML方法進(jìn)行參數(shù)選擇,將訓(xùn)練集隨機(jī)地等分為5份,每次選擇其中1份作為驗(yàn)證集,剩余4份作為訓(xùn)練集,隨機(jī)抹除訓(xùn)練集中的標(biāo)簽以模擬標(biāo)簽缺失情況,抹除比例分別為20%、40%和60%,被抹除的標(biāo)簽的值被設(shè)置為0.在被抹除20%標(biāo)簽的訓(xùn)練集上訓(xùn)練模型,依據(jù)在對(duì)應(yīng)驗(yàn)證集上的表現(xiàn)來選擇模型參數(shù),并將該參數(shù)固定,用于抹除40%和60%標(biāo)簽狀態(tài)下的模型中.最終diabetes數(shù)據(jù)集實(shí)驗(yàn)中被選擇的模型參數(shù)為λ1=10-5,λ2=102,λ3=10-3,λ4=10-5,λ5=10-5,學(xué)習(xí)率設(shè)置為1;medical數(shù)據(jù)集實(shí)驗(yàn)中被選擇的模型參數(shù)為λ1=10-5,λ2=102,λ3=10-3,λ4=10-5,λ5=10-5,學(xué)習(xí)率為1;enron數(shù)據(jù)集實(shí)驗(yàn)中被選擇的模型參數(shù)為λ1=10-5,λ2=102,λ3=10-3,λ4=10-1,λ5=10-5,學(xué)習(xí)率為1.
③ 對(duì)分類效果進(jìn)行計(jì)算.
在測試集上計(jì)算各個(gè)評(píng)價(jià)指標(biāo),包括漢明損失α、排序損失β、υ、覆蓋率rc和平均精度η,以表達(dá)不同標(biāo)簽缺失比例時(shí)分類方法的效果.
不同標(biāo)簽缺失比例下的diabetes數(shù)據(jù)集實(shí)驗(yàn)結(jié)果如表 2[16-17]~表4所示.
表2 標(biāo)簽缺失20%的diabetes數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表3 標(biāo)簽缺失40%的diabetes數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表4 標(biāo)簽缺失60%的diabetes數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
不同標(biāo)簽缺失比例下medical數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表5~表7所示.
表5 標(biāo)簽缺失20%的medical數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表6 標(biāo)簽缺失40%的medical數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表7 標(biāo)簽缺失60%的medical數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
不同標(biāo)簽缺失比例下enron數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表8~表10所示.
表8 標(biāo)簽缺失20%的enron數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表9 標(biāo)簽缺失40%的enron數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表10 標(biāo)簽缺失60%的enron數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
從表2~表10中可以看出,WSML分類方法在標(biāo)簽缺失20%、40%和60%的情況下的表現(xiàn)都要優(yōu)于其他4種對(duì)比方法,原因在于WSML分類方法能夠通過標(biāo)簽相關(guān)性和樣本相似性對(duì)缺失的標(biāo)簽進(jìn)行恢復(fù),糾正由于監(jiān)督信息不完備產(chǎn)生的訓(xùn)練偏差,因此能夠提升模型分類性能,保持較高的多標(biāo)簽分類準(zhǔn)確率.但是不同于Ranking Loss等其余4個(gè)評(píng)價(jià)指標(biāo),WSML分類方法在Hamming Loss上的表現(xiàn)相較對(duì)比算法來說并不占優(yōu)勢,原因在于WSML算法融合了標(biāo)簽相關(guān)性和樣本相似性,在某些標(biāo)簽相關(guān)性較強(qiáng)的數(shù)據(jù)集上容易得到強(qiáng)相關(guān)的預(yù)測結(jié)果,進(jìn)而影響分類效果.
由實(shí)驗(yàn)結(jié)果可知如下結(jié)果.
① 同時(shí)使用標(biāo)簽相關(guān)性和樣本相似性作為恢復(fù)缺失標(biāo)簽的依據(jù)能夠獲得更好的效果.WSML分類方法在不同標(biāo)簽缺失比例下相比于只使用標(biāo)簽相關(guān)性的LSML方法和GLOCAL方法在漢明損失、排序損失、1-錯(cuò)誤率、覆蓋率和平均精度5個(gè)指標(biāo)上綜合表現(xiàn)更優(yōu),說明在使用標(biāo)簽相關(guān)性的基礎(chǔ)上考慮樣本相似性能夠獲得更豐富的信息指導(dǎo)恢復(fù)標(biāo)簽矩陣以增加可用的數(shù)據(jù)量,從而更有效地進(jìn)行模型訓(xùn)練,得到更好的分類性能.
② WSML分類方法能夠有效提升在標(biāo)簽部分缺失情況下的模型性能.WSML分類方法相比于不考慮標(biāo)簽缺失情況的LLSF方法和ML-kNN方法,在不同標(biāo)簽缺失比例下均具有更好的綜合表現(xiàn),說明在模型訓(xùn)練過程中嵌入標(biāo)簽恢復(fù)的策略能夠?qū)?biāo)簽相關(guān)性進(jìn)行更準(zhǔn)確的挖掘,提升分類性能.
③ WSML分類方法具有一定的通用性.WSML在diabetes、medical和enron三個(gè)來自不同場景的真實(shí)數(shù)據(jù)集上的綜合表現(xiàn)均優(yōu)于對(duì)比方法,說明WSML方法能夠適應(yīng)不同應(yīng)用領(lǐng)域中的數(shù)據(jù)情況,實(shí)用價(jià)值大.
④ WSML分類方法具有一定的提升空間,引入標(biāo)簽相關(guān)性和樣本相似性在提升缺失標(biāo)簽恢復(fù)指導(dǎo)有效性的同時(shí)會(huì)帶來預(yù)測標(biāo)簽間的強(qiáng)相關(guān)性,一定程度上會(huì)提升預(yù)測結(jié)果的Hamming Loss,在未來的研究中可以嘗試懲罰標(biāo)簽間的強(qiáng)相關(guān)性從而優(yōu)化算法.
提出一種融合樣本相似性的弱監(jiān)督多標(biāo)簽分類WSML方法,該方法通過融合樣本相似性和標(biāo)簽相關(guān)性進(jìn)行高質(zhì)量標(biāo)簽恢復(fù)以提高數(shù)據(jù)利用率,并將標(biāo)簽恢復(fù)過程嵌入訓(xùn)練過程以緩解標(biāo)簽殘缺對(duì)模型的影響,實(shí)現(xiàn)在標(biāo)簽部分缺失情況下的多標(biāo)簽分類.為了評(píng)估該方法在多標(biāo)簽分類問題上的效果,將WSML同LSML、GLOCAL等多標(biāo)簽分類方法在3個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn).結(jié)果表明,WSML能夠有效地提升在標(biāo)簽殘缺情況下的模型分類效果,實(shí)用價(jià)值大.