劉曉玲,劉柏嵩,王洋洋
(寧波大學 信息科學與工程學院,浙江 寧波 315211)
多標簽學習[1]是處理現(xiàn)實世界中具有多語義對象的主要學習框架之一.一篇文本可能同時屬于政治、經(jīng)濟、文化等多個主題,針對這類數(shù)據(jù)需要預測實例可能具有的多個標簽.標簽關(guān)聯(lián)關(guān)系會為多標簽學習提供有用的信息,例如當標簽“政治”存在時,出現(xiàn)“娛樂”的概率相對較小,如何充分挖掘和利用標簽之間的關(guān)系是目前研究者普遍認可和關(guān)注的一個關(guān)鍵問題[2].
根據(jù)多標簽學習算法中考慮的標簽關(guān)聯(lián)關(guān)系,將現(xiàn)有方法分為3類[3]:一階策略、二階策略和高階策略.一階策略是將每個標簽看成獨立不相關(guān),不考慮標簽之間的相關(guān)性;二階策略利用了標簽成對的關(guān)聯(lián)信息,但在實際應(yīng)用中標簽之間的相關(guān)性可能會超過二階;高階策略考慮每個標簽對其他標簽的影響.BR算法[4]假設(shè)標簽相互獨立,將多標簽學習任務(wù)轉(zhuǎn)換為單標簽分類問題.分類器鏈CC[5]將樣本特征與第1個分類器預測出來的標簽聯(lián)合作為新的特征,并將新特征通過第2個分類器,以此類推來模擬標簽之間的高階關(guān)系.基于信息熵[6]提出的CC算法[7]利用條件熵使標簽間相關(guān)性最大化.LIFT[8]基于標簽類屬性為每個標簽生成專屬的特征進行多標簽學習.近年來,一些基于神經(jīng)網(wǎng)絡(luò)的模型應(yīng)用于多標簽學習任務(wù)并取得重要進展.CNN-RNN[9]采用提取全局與局部語義信息的方式進行多標簽學習,考慮標簽之間的二階關(guān)系.SGM[10]將多標簽學習任務(wù)當成序列生成問題.MLILDSA[11]采用深度監(jiān)督自動編碼器來計算后驗條件概率以建模標簽關(guān)系.大部分多標簽算法假設(shè)訓練數(shù)據(jù)的標簽是完整的,但實際中不完備數(shù)據(jù)普遍存在,NNADOmega[12]為提升模型效果在神經(jīng)網(wǎng)絡(luò)損失函數(shù)中刻畫標簽依賴關(guān)系.大多數(shù)方法將實例文本作為獨立學習分類器參數(shù)的載體,未充分挖掘高階標簽之間的關(guān)系.
圖1 TMLLGCN框架Fig.1 Framework of TMLLGCN
圖卷積網(wǎng)絡(luò)是一種對圖數(shù)據(jù)進行操作的神經(jīng)網(wǎng)絡(luò),眾多學者對圖卷積網(wǎng)絡(luò)進行了研究和應(yīng)用.Wang等人[13]將圖卷積網(wǎng)絡(luò)應(yīng)用于推薦社交網(wǎng)絡(luò)建模;Si等人[14]提出了基于圖卷積網(wǎng)絡(luò)的人體動作識別方法;Yu等人[15]將圖卷積網(wǎng)絡(luò)應(yīng)用于交通流量預測問題.基于圖卷積學習理論,本文提出利用標簽圖結(jié)構(gòu)來捕獲和探索標簽的高階關(guān)系.具體來說,GCN在標簽圖之間傳播信息,從而學習具有每個文本標簽的高階關(guān)系分類器.這些分類器從標簽圖中匯聚信息,并將這些信息進一步應(yīng)用于文本特征表示,從而實現(xiàn)最終的標簽預測,這是一種明確建模標簽高階關(guān)系的方法.本文的主要貢獻有:
1)提出一種新的基于GCN進行文本多標簽學習的端到端學習模型,充分挖掘利用標簽高階關(guān)系.
2)考慮到未標記標簽集對已知標簽集的影響,充分挖掘有價值信息進行標簽補全,提高模型的適應(yīng)性.
3)在真實多標簽數(shù)據(jù)集上驗證了TMLLGCN的有效性.
D={(ds,Ys)|1≤s≤Mum,Ys={1,-1}C,Ys?L}
對于測試樣本Ti,學習模型需輸出與其相關(guān)的標簽集合Yi=[y1,y2,yi,…yC],yi取值“1”或“-1”.
定義2.集合M={a1,a2…am},集合N={b1,b2…bn},ai的概率為p(ai),則M集合的信息熵:
(1)
則在M條件下N的條件熵:
(2)
I(bj|ai)=-p(aibj)log2p((bj|ai))
(3)
定義3.圖G=(V,E),V和E分別表示節(jié)點和邊.矩陣X∈Rn×d,其包含n個帶有特征的節(jié)點,d表示節(jié)點特征維數(shù),節(jié)點v的特征向量為:xv∈Rd,對應(yīng)的邊關(guān)系矩陣A∈Rn×n.GCN通過一層卷積捕獲鄰居信息,當GCN堆疊可以獲得較大鄰域信息[16].對一層GCN,k維節(jié)點矩陣H(1)∈Rn×k的形式化表示即:
(4)
(5)
l表示層數(shù),并且H(0)=X.
本文提出一種TMLLGCN模型,其架構(gòu)如圖1所示.首先,進行文本特征表示,其中w1,w2,…,wn表示文本輸入的詞向量表示,經(jīng)過不同的卷積窗口尺寸得到3種不同的特征表示,進而融合形成Dd維文本特征.其次,進行標簽補全建模,最后進行GCN建模高階關(guān)系的分類器學習,其中d表示初始標簽向量的維度,經(jīng)過圖卷積操作形成Dd維的標簽表示,C表示標簽數(shù)量,將文本特征和生成分類器以點積的方式結(jié)合,并對預測分數(shù)進行歸一化產(chǎn)生C個標簽概率,然后據(jù)損失函數(shù)迭代訓練.
深度學習方法在特征提取方面效果優(yōu)異,遵循AGCNN[17]提取文本特征,特征為x:
x=fAGCNN(T,θAGCNN)∈RD
(6)
其中θAGCNN表示模型參數(shù),Dd表示維度.
現(xiàn)實文本數(shù)據(jù)的標簽并非總是完整的,探究標簽高階依賴關(guān)系有助于在標簽缺失時提高模型的效果[18].此外大多數(shù)多標簽學習方法采用預定義的關(guān)系矩陣,但預定義的關(guān)系并非總可得.此外,據(jù)簡單共現(xiàn)概率建立相關(guān)矩陣的方法通常具有對稱假設(shè).GCN基于相關(guān)矩陣在節(jié)點之間傳播信息,相關(guān)矩陣的設(shè)計至關(guān)重要,本文考慮到未標注標簽集對已知標簽集的影響,設(shè)計非對稱性參數(shù)充分挖掘標簽信息.基于上述原因,通過數(shù)據(jù)驅(qū)動方式獲得基礎(chǔ)置信度矩陣,由相關(guān)定義1和公式(3)得到:
pij=-μaij+(1-μ)bij
(7)
其中μ是非對稱參數(shù),通過增加基礎(chǔ)關(guān)系矩陣bij的權(quán)重和減少aij的權(quán)重進行學習.將實例訓練數(shù)據(jù)的標簽矩陣Y更新為:
(8)
非對稱標簽補全建模的具體流程如下:
算法1.非對稱實例標簽補全
輸入:標簽矩陣Y,非對稱參數(shù)μ
1.Y={Yi|i=1,…,C},Y∈RMum×C
2.For eachyi,yj,利用公式(3)計算:
ifi=j
aij=bij=1
3.由式(7)得到非對稱化矩陣:
pij=-μaij+(1-μ)bij
(9)
gθ×Gx=gθ(L)x=gθ(UΛUT)x=Ugθ(Λ)UTx
采用切比雪夫多項式簡化為:
(10)
θ0x+θ1(-D-1/2AD-1/2)x
(11)
進一步擴展到高維特征向量x∈RC×d,有式(12):
其中Θ∈Rd×F是卷積核參數(shù),對輸入數(shù)據(jù)x執(zhí)行一次圖卷積,得到gθ×Gx∈RC×F,標簽節(jié)點被0~K-1階鄰居標簽信息更新.
基于圖卷積網(wǎng)絡(luò)的多標簽學習流程如下:
算法2.基于圖卷積網(wǎng)絡(luò)的多標簽學習
非對稱性參數(shù)μ,
ρ=LeakyRelu,σ=softmax
輸出:預測標簽Yout
1.重構(gòu)訓練集:
通過AGCNN對ds提取文本特征xD
2.GCN建模高階關(guān)系的分類器學習:
根據(jù)式(7)得到第一層輸入關(guān)系矩陣pij;
A←pij,H0←x∈RC×d
3.標簽圖卷積:由式(10)-式(12)得:
forl←0toLdo:
yc=WxD
由公式(9)得目標函數(shù):minLt
更新權(quán)重W←W+ΔW
直到滿足迭代停止條件
4.預測新數(shù)據(jù):
對Ti提取文本特征TD
TD應(yīng)用到標簽空間對象分類器:Yout=σ(WTD)
5.returnYout
為檢驗TMLLGCN模型的性能,在真實數(shù)據(jù)集上進行了對比實驗,數(shù)據(jù)劃分詳情見表1.
Zhihu(1)http://tcci.ccf.org.cn/conference/2018/taskdata.php:短文本數(shù)據(jù)集,其包含知乎問題標題、相關(guān)描述和話題標簽,選取標簽數(shù)量為260.
表1 多標簽數(shù)據(jù)集描述Table 1 Multi-label data description
AAPD(2)https://drive.google.com/file/d/18JOCIj9v5bZCrn9CIsk23W4wyhroCp_/view.:該數(shù)據(jù)集為計算機科學領(lǐng)域的學術(shù)論文,包含摘要和對應(yīng)的標簽,標簽總量為54.
為防止數(shù)據(jù)周期性影響,首先對實驗樣本隨機shuffle之后按8:2的比例劃分訓練集和測試集,其次,對于詞向量矩陣中未出現(xiàn)的詞,采用-0.25~0.25值初始化,對問題(題目)和描述(摘要)分別取其2倍的平均長度,進行補齊或截斷至一致長度.通過實驗選定合適的非對稱性參數(shù)μ.本文使用基于實例和基于標簽的兩類評估指標[20]:Precision(P)、Recall(R)、F1-Measure(F1)、One-error(OE)、Coverage(CV)、Ranking Loss(RL)以及Macro-F1、Micro-F1.他們可以從各個方面評估多標簽學習方法的性能.其中OE、CV和RL的值越低,則表示模型效果越好.同時TMLLGCN與基于BR[21]、CC[22]、LP[23]的方法以及CNN-RNN[9]、SGM[10]多標簽學習算法進行對比.
4.3.1 TMLLGCN和各基準方法的整體性能比較
各方法在數(shù)據(jù)集上的比較結(jié)果如表2-表5所示.
表2 不同方法在指標P、R、F1上的比較Table 2 Comparison of different methods on P,R,F(xiàn)1
表3 不同方法在One-error上的比較Table 3 Comparison of different methods on OE
從表2實驗結(jié)果可以看出TMLLGCN模型在P、R和F1的評估上比其他方法表現(xiàn)更好.基于BR的算法在精確度指標上比其他算法低,主要原因是其對標簽關(guān)系進行獨立性假設(shè),標簽關(guān)聯(lián)信息較弱.傳統(tǒng)基于CC和LP的方法由于建模標簽關(guān)系性能有限,預測結(jié)果并不理想.深度學習方法CNN-RNN和SGM在精確度指標上較BR、CC和LP有明顯提升,基于圖卷積的TMLLGCN在充分挖掘標簽高階關(guān)系的同時考慮了未標記量對標簽集的影響,所以預測標簽結(jié)果要優(yōu)于上述模型.從表3的6種算法在One-error指標上的結(jié)果可以看出,本文方法TMLLGCN在數(shù)據(jù)集Zhihu上比深度學習方法CNN-RNN、SGM分別降低了7.1%、3.7%,在數(shù)據(jù)集AAPD上分別降低9.7%、6.2%.從表4實驗結(jié)果可以看出,CNN-RNN、SGM和TMLLGCN在覆蓋率和排序損失上表現(xiàn)明顯優(yōu)于BR、CC和LP方法,其中在指標Ranking Loss上,TMLLGCN比其他方法的值更低,在數(shù)據(jù)集AAPD上的排序損失降低到0.141.由表5實驗分析可得TMLLGCN在基于標簽的評價指標上獲得優(yōu)異表現(xiàn),其Macro-F1、Micro-F1指標值比深度學習方法CNN-RNN均有提升,且顯著優(yōu)于傳統(tǒng)方法,這也進一步說明了本文方法在挖掘標簽高階關(guān)系方面取得效果.綜合以上各方面實驗評估結(jié)果,驗證了TMLLGCN多標簽學習方法的有效性和優(yōu)異性.
表4 不同方法在Coverage和Ranking Loss上的比較Table 4 Comparison of different methods on CV,RL
表5 不同方法在Macro-F1、Micro-F1上的比較Table 5 Comparison of different methods on Macro-F1 and Micro-F1
4.3.2 非對稱性參數(shù)μ的影響
為了觀察式(7)中不同μ值的影響,將μ設(shè)在[0,1]之間,平均準確度在不同數(shù)據(jù)集上的實驗效果如圖2所示.
圖2 在Zhihu(a)和AAPD(b)數(shù)據(jù)集上值的影響Fig.2 Effect of μ on Zhihu(a)and AAPD(b)
由圖2可得,μ取值范圍在區(qū)間[0.1,0.3]上效果較好,非平衡參數(shù)μ=0.2時,模型效果最好,這表明合理增加未知相關(guān)標簽的學習權(quán)重有利于標簽信息在節(jié)點上的傳播.
4.3.3 不同詞向量表示對TMLLGCN的影響
為探究不同詞向量表示對本文提出模型的影響,對標簽進行GloVe[24],GoogleNews[25],F(xiàn)astText[26]和one-hot詞向量表示.在數(shù)據(jù)集Zhihu和AAPD上的實驗效果如圖3所示.
圖3 在Zhihu(a)和AAPD(b)上詞向量對TMLLGCN的影響Fig.3 Effect of word vector on TMLLGCN on Zhihu(a)and AAPD(b)
由圖3可發(fā)現(xiàn),不同詞向量作為TMLLGCN的輸入時,多標簽學習準確度不會受到顯著影響.one-hot結(jié)果也表明模型準確度的提升并非絕對地來自詞向量的語義,但使用強大的詞向量可帶來更好的結(jié)果.大量文本語料庫中學習的詞向量保持了一些語義拓撲,即語義相關(guān)的概念在詞向量空間中是接近的,同時TMLLGCN可以使用這些依賴關(guān)系更好的進行文本多標簽學習.此外,GCN層數(shù)并非越多越好,由圖3中F1-3指標可知,當圖卷積層數(shù)增加到3時,數(shù)據(jù)集上的F1指標降低,可能的原因是:在增加GCN層數(shù)時,節(jié)點傳播積聚導致過度平滑.
捕獲標簽依賴性是文本多標簽學習的一個關(guān)鍵問題.為了對這些重要信息進行建模和探索,本文提出通過GCN的映射函數(shù)從數(shù)據(jù)驅(qū)動的標簽表示中學習對象分類器挖掘標簽高階關(guān)系.為更好地建模高階關(guān)系以及提高標簽缺失時的預測效果,在得到的基礎(chǔ)標簽關(guān)聯(lián)矩陣上考慮了未標記標簽集對已有標簽集的影響進行標簽補全,定量和定性的實驗結(jié)果均證實了TMLLGCN模型的優(yōu)勢.在進一步研究工作中,我們將致力于通過注意力機制和更好的初始關(guān)系策略來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),以提升模型的多標簽學習能力.