任麗娜 姚茂宣
摘?要:
為學習更豐富的語義表示以提升聚類效果,文章提出一種多層內部語義表示增強的深度文本聚類(Deep?Document?Clustering?via?Multi\|layer?Enhanced?Internal?Semantic?Representation,?DCISR)模型。首先,設計了一種語義融合策略,將其不同層次的外部結構語義表示逐層融入內部語義表示中。其次,充分利用編碼層和解碼層對語義補充的作用進行內部語義表示的補充增強。最后,設計了一種三重自監(jiān)督機制,以監(jiān)督模型參數更新。實驗結果表明,該模型在4個真實文本數據集上的聚類性能均高于對比模型,驗證了模型的有效性,可為未來開展相關工作提供參考。
關鍵詞:文本聚類;深度聚類;自編碼器;語義表示;圖卷積網絡
中圖分類號:TP391??文獻標志碼:A
0?引言(Introduction)
近年來,深度文本聚類任務受到普遍關注,成為一個研究熱點[1]。人們對文本數據的認識也從基本的文本特征發(fā)展為深度的文本語義。隨著互聯(lián)網的快速發(fā)展,文本數據的語義表達逐步從文本自身內部單一語義表示向立體的內部和外部全方面語義表達發(fā)展。內部文本語義表示傳統(tǒng)的文本篇章自身內容語義,外部文本語義表示文本除文本篇章自身內部內容語義之外的外部結構語義。這些內部和外部語義表示為文本聚類帶來了新的機遇和挑戰(zhàn)。因此,充分考慮內部和外部語義表示,進而準確、快速地從文本中提取出更多有用的語義特征信息尤為重要。
實際上,由于實際文本數據是由文字內容組成的,而其外部結構中的關聯(lián)文本存在噪聲問題,因此文本內部語義表示包含的重要信息要比具有大量噪聲的外部結構語義表示豐富?,F(xiàn)有深度聚類方法[2\|3]大多沒有考慮到這一點,大多利用數據內部語義表示在編碼層增強外部結構語義表示,導致文本語義學習不足,進而影響聚類效果。此外,現(xiàn)有方法大多忽略了解碼器在語義補足上的作用,導致對外部結構語義信息的指導不足,影響了文本聚類效果。
針對上述問題,本文提出了一種多層內部語義表示增強的深度文本聚類(DCISR)模型,利用多層外部結構語義補充增強內部內容語義表示,以達到文本語義表示學習與聚類劃分的聯(lián)合優(yōu)化。本文在4個公開文本數據集上進行了一系列的實驗,實驗結果表明,本文提出的方法相較于其他模型,聚類效果均有明顯提升,驗證了模型的合理性。
1?相關工作(Related?work)
1.1?基于內部語義表示的深度聚類算法
基于內部語義表示的深度聚類算法使用學習到的數據自身內部語義表示進行類簇的劃分。YANG等[4]于2017年提出了深度聚類網絡(DCN)模型,該模型采用自編碼器(AE)學習數據的內部語義表示,然后利用傳統(tǒng)的K\|means[5]方法進行聚類。XIE等[6]于2016年提出了深度嵌入聚類(DEC)模型,該模型用KL散度(Kullback\|Leibler?Divergence)替代傳統(tǒng)的K\|means聚類方法,將聚類與內部語義表示學習相結合。在DEC模型的基礎上,GUO等[7]于2017年提出了深度嵌入聚類(IDEC)模型,該模型通過增加數據重構損失對表示進行微調。上述深度聚類模型僅利用了數據自身的內部語義表示,但未考慮數據外部的語義信息對學習數據語義表示的影響。
1.2?基于外部結構語義表示的深度聚類算法
近年來,隨著深度神經網絡的迅猛發(fā)展,圖卷積神經網絡(GCN)在學習數據深度結構語義表示方面表現(xiàn)優(yōu)異,以GCN為基礎的深度聚類方法[1\|3,8\|10]成功地利用GCN模型學習數據的結構語義表示,取得了出色的聚類效果。例如,KIPF等[8]于2018年提出了圖自編碼器(GAE)模型和圖變分自編碼器(VGAE)模型,這兩個模型分別利用自動編碼器和變分自動編碼器的思想,使用兩層GCN學習數據外部結構語義表示。為進一步增強外部結構語義表示的學習,BO等[2]于2020年提出了圖深度聚類網絡(SDCN)模型,該模型利用自動編碼器學習到的內部語義表示補充增強了GCN學習到的外部語義表示,以學習更優(yōu)的外部結構語義表示。PENG等[3]于2021年提出了注意力驅動的圖聚類網絡(AGCN)模型,該模型利用一個自適應融合模塊動態(tài)融合數據內部語義表示和外部語義表示,以增強外部結構語義表示的學習。馬勝位等[1]于2022年提出了一種多層語義融合的結構化深度文本聚類模型(SDCMS),該模型在SDCN的基礎上通過在模型的所有網絡層利用自動編碼器學習到的內部語義表示逐層補充增強GCN學習到的外部語義表示。
綜上所述,盡管以上方法取得了較好的聚類效果,但它們未考慮實際文本數據中內部語義與外部語義所具有的信息重要性不同的問題,也未考慮解碼器在文本語義補足上的作用。
2?DCISR模型(DCISR?model)
本文提出的DCISR模型的總體框架由3個模塊組成:文本外部語義表示學習模塊、文本內部語義表示學習模塊和文本聚類模塊。DCISR模型結構如圖1所示,文本外部語義表示學習模塊用于學習文本的外部結構語義表示,文本內部語義表示學習模塊用于學習通過融合了外部語義表示而增強的內部語義表示,文本聚類模塊用于學習文本的類簇劃分。
2.1?外部語義表示學習模塊
圖卷積神經網絡在結構語義學習方面的表現(xiàn)優(yōu)異,為學習不同層次的文本外部結構語義信息,DCISR模型在外部語義表示學習模塊采用多層圖卷積網絡學習文本的外部結構語義表示,具體可以分為編碼層和解碼層,其中編碼層網絡公式如下所示:
2.2?內部語義表示學習模塊
DCISR模型在內部語義表示學習模塊使用自編碼器學習文本不同層次的內部語義表示,其中編碼層網絡公式如下所示:
[WTHX]H[WTBX]l=φe([WTHX]W[WTBX]le[WTHX]H[WTBX]l-1+[WTHX]b[WTBX]le)[JZ)][JY](7)
其中:φe是激活函數,[WTHX]W[WTBX]le和[WTHX]b[WTBX]le分別為權重矩陣和偏置矩陣。值得注意的是,該模塊編碼層第1層的輸入為文本數據[WTHX]X[WTBX],第L層輸出的低維內部語義表示[WTHX]Z[WTBX]。解碼層網絡公式如下所示:
[WTHX]D[WTBX]l=φd([WTHX]W[WTBX]ld[WTHX]D[WTBX]l-1+[WTHX]b[WTBX]ld)[JZ)][JY](8)
其中:φd是激活函數,[WTHX]W[WTBX]ld和[WTHX]b[WTBX]ld分別為權重矩陣和偏置矩陣。該模塊解碼層第1層的輸入為編碼層的輸出[WTHX]Z[WTBX],解碼層第L層的輸出為重構文本數據[WTHX][AKX^][WTBX]d。
本模塊設計了一種語義融合策略,其將不同層次的外部結構語義表示逐層融入內部語義表示中用以充分增強文本內部語義表示。其中,編碼層具體的融合策略公式如下所示:
[WTHX]H[WTBX]′[KG-1mm]l-1=λ1[WTHX]H[WTBX]l-1+(1-λ1)[WTHX]S[WTBX]l-1[JZ)][JY](9)
其中,λ1為編碼層內部語義表示和外部語義表示的融合控制參數。以此為基礎,原編碼層可以變更如下:
[WTHX]H[WTBX]l=φ([WTHX]W[WTBX]le[WTHX]H[WTBX]′[KG-1mm]l-1+[WTHX]b[WTBX]le)[JZ)][JY](10)
解碼層的融合策略公式如下所示:
[WTHX]D[WTBX]′[KG-1mm]l-1=λ2[WTHX]D[WTBX]l-1+(1-λ2)[WTHX]D[WTBX]sl-1[JZ)][JY](11)
其中,λ2為解碼層內部語義表示和外部語義表示的融合控制參數,用以平衡兩種表示的學習。以此為基礎,原解碼層可以變更如下:
[WTHX]D[WTBX]l=φd([WTHX]W[WTBX]ld[WTHX]D[WTBX]′[KG-1mm]l-1+[WTHX]b[WTBX]ld)[JZ)][JY](12)
因此,最后一層重構的文本數據可以表示如下:
[WTHX][AKX^6][WTBX]=λ2[WTHX][AKX^6][WTBX]d+(1-λ2)[WTHX][AKX^6][WTBX]s[JZ)][JY](13)
通過內部語義學習模塊,可以將不同層次的外部結構語義表示逐層融入內部語義表示中,充分利用編碼層和解碼層對語義補充的作用進行內部語義表示的補充增強。
2.3?文本聚類模塊
為了聯(lián)合學習文本語義表示和劃分文本類簇,本模塊設計了一種三重自監(jiān)督機制,用于監(jiān)督模型參數更新。該自監(jiān)督機制由文本內外部語義表示重構損失、內部和外部語義表示低維語義空間分布一致性損失構成。其中,文本內部和外部語義表示重構損失公式如下所示:
3?實驗與分析(Experiment?and?analysis)
3.1?實驗數據
為驗證本文提出的DCISR模型的有效性,本文選擇了兩類共計4個通用的公開真實文本數據集進行實驗分析。一類為帶有共同作者、共同引用文獻等關系結構圖的文本數據集(Citeseer、Cora),另一類為KNN構圖的文本數據集(Abstract、BBC)。文本數據集如表1所示。
(1)Abstract[11]:由4?306篇論文摘要構成。該數據集可分為信息通信、數據庫和圖形3類。
(2)BBC[1]:由2?225篇BBC(British?Broadcasting?Corporation)新聞網站的文本構成,該數據集可分為商業(yè)、娛樂、政治、科技、運動5類。
(3)Citeseer[2]:由3?327篇會議論文構成,論文間存在引用關系。該數據集可分為Agents、AI、DB、IR、ML、HCI六類。
(4)Cora[12]:由2?708篇機器學習論文構成,論文間存在引用關系。該數據集可分為基于案例、遺傳算法、神經網絡、概率方法、強化學習、規(guī)則學習、理論7類。
3.2?對比方法
為驗證DCISR模型的性能,本文將其與3類共計8個聚類方法進行了對比分析,分別包括傳統(tǒng)聚類方法(K\|means)、深度聚類方法(AE、DEC、IDEC)和基于增強語義表示的聚類方法(GAE、SDCN、AGCN、SDCMS)。
3.3?評價指標[HJ1.7mm]
為更好地評估聚類性能,本文選用聚類精度(ACC)、正則互信息量(NMI)與調整蘭德系數(ARI)三個常用的聚類指標。ACC、NMI、ARI三個聚類指標的取值范圍均為[0,1],聚類指標的數值越大,其聚類效果越好。
3.4?參數設置
為更好地進行實驗效果的對比,本文的內部和外部語義學習模塊維度設置與DEC模型的設置相同,具體為d\|500\|500\|2000\|10\|2000\|500\|500\|d,其中d是輸入的文本數據的維度。實驗使用Ranger優(yōu)化器進行優(yōu)化,學習率設置為1e-4。參數λ1和λ2分別設置為0.5、0.5,β、β1和β2分別設置為1、0.1、0.01,ν設置為1。模型迭代次數設置為3?000次。
3.5?對比實驗結果分析
為驗證本文提出的DCISR模型的有效性,本實驗將DCISR模型與全部對比模型分別在全部4個文本數據集上進行對比,對比實驗結果如表2所示。
通過表2可以得到以下結論。
(1)本文提出的DCISR模型在全部數據集上均取得了最優(yōu)聚類性能。相較于其他對比模型,DCISR模型在3個聚類指標上均有明顯的提升,特別是在Cora數據集上,DCISR模型相較于最優(yōu)的對比模型在ACC、NMI、ARI上分別提升了12.76%、21.97%、29.46%,其原因是DCISR模型在考慮實際文本數據中內部語義與外部語義所具有的信息重要性不同的同時,充分利用編碼層和解碼層對語義補充的作用,提升了文本聚類效果。
(2)基于外部結構語義表示的深度聚類方法的聚類結果普遍高于基于內部語義表示的深度聚類方法,其原因為基于外部結構語義表示的深度聚類方法通過GCN學習到文本外部結構語義表示時,既考慮了文本的外部圖結構信息,又考慮了文本自身特征。實驗結果證明了增強文本語義表示對最終文本聚類效果提升的作用。
(3)對比學習增強的結構語義表示的SDCMS模型和學習增強的內部語義表示的DCISR模型,其結果可以證明實際文本數據中內部語義與外部語義所具有的信息重要性不同,在實際文本數據中內部語義表示具有更豐富的、有價值的語義信息。對比充分利用了編碼層和解碼層補充語義表示的SDCMS、DCISR模型與僅利用了編碼層補充語義表示的SDCN、AGCN模型,其結果可以證明解碼層對語義補充的作用。由此可以進一步驗證DCISR模型的有效性。
3.6?消融實驗結果分析
DCISR模型主要設計了內部語義表示學習模塊、外部語義表示模塊和文本聚類模塊三大模塊,用以解決現(xiàn)有方法沒有考慮到實際文本數據中內部內容語義表示比外部結構語義表示具有更多重要信息的問題,以及忽略了解碼器在語義補足上發(fā)揮的作用。為了探究3個模塊的有效性,本文設置了以下消融模型。
(1)DCISR\|H:在DCISR模型的基礎上,去除內部語義表示學習模塊。
(2)DCISR\|S:在DCISR模型的基礎上,去除外部語義表示學習模塊,此時模型等同于IDEC。
(3)DCISR\|C:在DCISR模型的基礎上,去除文本聚類模塊,利用K\|means代替本文的自監(jiān)督損失函數。
消融實驗結果如表3所示,模型DCISR\|H與DCISR\|S相比,在4個數據集上的各評價指標均較低,證明實際文本數據中內部內容語義表示比外部結構語義表示具有更多重要信息,通過模型學習到的內部語義表示中的有用信息多于外部語義表示;從DCISR與DCISR\|C的對比結果可看出,本文在文本聚類模塊提出的自監(jiān)督機制可以有效監(jiān)督模型的參數更新,從而獲得更優(yōu)的聚類效果;從DCISR與DCISR\|H和DCISR\|S模型的對比結果可以看出,兩個模塊的融合可以解決現(xiàn)有方法沒有考慮到實際文本數據中內部內容語義表示比外部結構語義表示具有更多重要信息的問題,以及忽略了解碼器在語義補足上發(fā)揮的作用。
3.7?編碼層和解碼層對語義補充作用的分析
DCISR模型主要基于多層內部語義表示增強方法解決如何補充學習更多的文本語義表示的問題。因此,為了探究編碼層和解碼層對語義補充的作用,本文設置了以下消融模型。
(1)DCISR\|Sen:在DCISR模型的基礎上,去除外部語義表示學習模塊中的編碼層部分對內部語義表示的補充增強,只在解碼層逐層進行內部語義表示補充增強。
(2)DCISR\|Sde:在DCISR模型的基礎上,去除外部語義表示學習模塊中的解碼層部分對內部語義表示的補充增強,只在編碼層逐層進行內部語義表示補充增強。
(3)DCISR\|S:在DCISR模型的基礎上,去除外部語義表示學習模塊。
本實驗隨機選取Citeseer數據集進行實驗分析,Citeseer數據集的實驗結果如圖2所示。從圖2可以發(fā)現(xiàn),模型DCISR\|Sde與DCISR\|Sen相比于DCISR\|S,在Citeseer數據集上的各評價指標均有所提升,證明編碼層和解碼層對補充文本語義信息有所幫助;模型DCISR相比模型DCISR\|Sde與DCISR\|Sen,在Citeseer數據集上的各評價指標均有明顯提升,證明模型融合利用了編碼層和解碼層對語義補充所起到的作用,學習到更加豐富的語義信息,從而獲得更優(yōu)的文本聚類效果。
3.8?聚類可視化結果分析
基于t\|SNE(t\|Distributed?Stochastic?Neighbor?Embedding)方法,本文在Cora文本數據集上對原始數據和DCISR模型進行2D可視化,以更直觀地展示模型的聚類效果。圖3展示了具體的2D可視化結果,其中圖3(a)為原始文本分布情況;圖3(b)為DCISR模型的聚類情況。
從圖3可以發(fā)現(xiàn),通過將不同層次的外部結構語義表示逐層融入內部語義表示,利用補充增強后的內部語義表示進行聚類,Cora數據集相比于原始數據集有了明顯的類簇結構,各類簇內部樣本更加稠密,簇與簇之間的距離更大,類簇分類更明顯,從而證明了本模型的有效性。
4?結論(Conclusion)
為學習更豐富的語義表示以提升聚類效果,本文提出了一種多層內部語義表示增強的深度文本聚類(DCISR)模型。該模型利用多層外部結構語義補充增強內部內容語義,實現(xiàn)了文本語義表示學習與聚類劃分的聯(lián)合優(yōu)化。實驗結果表明,DCISR方法在性能上優(yōu)于當前已有的多種主流深度文本聚類算法,證明該模型在考慮實際文本數據中內部與外部語義所具有的信息重要性不同的同時,充分利用了編碼層和解碼層對語義補充起到的作用,可為未來開展相關工作提供參考。
[LL]?參考文獻(References)[HJ1.7mm]
[1]?馬勝位,黃瑞章,任麗娜,等.?基于多層語義融合的結構化深度文本聚類模型[J].?計算機應用,2023,43(8):2364\|2369.
[2]?BO?D?Y,WANG?X,SHI?C,et?al.?Structural?deep?clustering?network[C]∥ACM.?Proceedings?of?The?Web?Conference?2020.?New?York:ACM,2020:1400\|1410.
[3]?PENG?Z?H,LIU?H,JIA?Y?H,et?al.?Attention\|driven?graph?clustering?network[C]∥ACM.?Proceedings?of?the?29th?ACM?International?Conference?on?Multimedia.?New?York:ACM,2021:935\|943.
[4]?YANG?B,F(xiàn)U?X,SIDIROPOULOS?N?D,et?al.?Towards?K\|means\|friendly?spaces:simultaneous?deep?learning?and?clustering[C]∥ACM.?Proceedings?of?the?34th?International?Conference?on?Machine?Learning?\|?Volume?70.?New?York:ACM,2017:3861\|3870.
[5]?HARTIGAN?J?A,WONG?M?A.?Algorithm?AS?136:a?K\|means?clustering?algorithm[J].?Applied?statistics,1979,28(1):100.
[6]?XIE?J?Y,GIRSHICK?R,F(xiàn)ARHADI?A.?Unsupervised?deep?embedding?for?clustering?analysis[C]∥ACM.?Proceedings?of?the?33rd?International?Conference?on?International?Conference?on?Machine?Learning?\|?Volume?48.?New?York:ACM,2016:478\|487.
[7]?GUO?X?F,GAO?L,LIU?X?W,et?al.?Improved?deep?embedded?clustering?with?local?structure?preservation[C]∥ACM.?Proceedings?of?the?26th?International?Joint?Conference?on?Artificial?Intelligence.?New?York:ACM,2017:1753\|1759.
[8]KIPF?T?N,WELLING?M.?Variational?Graph?Auto\|Encoders[J].?Mathematical?sciences,2016,1050:21.
[9]?REN?L?N,QIN?Y?B,CHEN?Y?P,et?al.?Deep?structural?enhanced?network?for?document?clustering[J].?Applied?intelligence,2023,53(10):12163\|12178.
[10]?REN?L,QIN?Y,CHEN?Y,et?al.?Deep?document?clustering?via?adaptive?hybrid?representation?learning[J].?Knowledge\|based?systems,2023,281:111058.
[11]?BAI?R?N,HUANG?R?Z,CHEN?Y?P,et?al.?Deep?multi\|view?document?clustering?with?enhanced?semantic?embedding[J].?Information?sciences,2021,564:273\|287.
[12]?CUI?G?Q,ZHOU?J,YANG?C,et?al.?Adaptive?graph?encoder?for?attributed?graph?embedding[C]∥ACM.?Proceedings?of?the?26th?ACM?SIGKDD?International?Conference?on?Knowledge?Discovery?&?Data?Mining.?New?York:ACM,2020:976\|985.
作者簡介:
任麗娜(1987\|),女,博士生,講師。研究領域:人工智能,文本挖掘,機器學習。
姚茂宣(1986\|),男,碩士,信息系統(tǒng)項目管理師。研究領域:數據挖掘,文本挖掘,機器學習和軟件開發(fā)。