• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關(guān)系挖掘和對抗訓(xùn)練的多標(biāo)簽文本分類?

      2024-04-17 07:27:34楊冬菊程偉飛
      計算機與數(shù)字工程 2024年1期
      關(guān)鍵詞:集上注意力標(biāo)簽

      楊冬菊 程偉飛

      (1.北方工業(yè)大學(xué)信息學(xué)院 北京 100144)

      (2.大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點實驗室(北方工業(yè)大學(xué)) 北京 100144)

      1 引言

      目前多標(biāo)簽文本分類[1]被廣泛應(yīng)用于文檔分類[2]、web 內(nèi)容分類[3~4]和推薦系統(tǒng)[5~6]等各種應(yīng)用。在運用產(chǎn)業(yè)鏈圖譜對資源的管理方面,多標(biāo)簽文本分類發(fā)揮了重要作用。通過多標(biāo)簽文本分類,將文本與產(chǎn)業(yè)鏈圖譜進(jìn)行關(guān)聯(lián),可以實現(xiàn)產(chǎn)業(yè)鏈節(jié)點和科技資源的綁定,從而幫助用戶在生產(chǎn)、投資和決策等方面更好地利用和管理資源[7]。

      雖然多標(biāo)簽文本分類在各個領(lǐng)域中被廣泛應(yīng)用,但它依然是一個具有挑戰(zhàn)性的任務(wù),總結(jié)如下:1)挖掘標(biāo)簽之間的關(guān)聯(lián)關(guān)系;2)挖掘文本與標(biāo)簽之間的關(guān)聯(lián)關(guān)系;3)文本數(shù)據(jù)中存在大量的標(biāo)簽不平衡和標(biāo)簽噪聲。這些存在的問題可能對最終的分類結(jié)果產(chǎn)生影響。

      針對上面的提出的問題,本文融合了多種深度學(xué)習(xí)SOTA模塊,形成了R-BAGC深度語義模型。

      2 相關(guān)工作

      在多標(biāo)簽文本分類中,比較經(jīng)典的傳統(tǒng)方法有二元相關(guān)方法(Binary Relevance,BR)[15]、分類器鏈方法(Classifier Chain,CC)[16]等,這些方法在多標(biāo)簽文本分類上取得了一些成果,但是這些傳統(tǒng)的方法也存在一些問題。首先,這些傳統(tǒng)方法在處理多標(biāo)簽問題時不能充分挖掘文本的語義信息。其次,傳統(tǒng)方法將標(biāo)簽視為一個無意思的符號,也不能充分地利用標(biāo)簽之間的關(guān)系、簽與文本之間的關(guān)系。

      為了彌補傳統(tǒng)方法的不足之處,近年來出現(xiàn)了一些基于深度學(xué)習(xí)的方法。Liu等利用可能的標(biāo)簽差異和標(biāo)簽相關(guān)性,提出了一種新的預(yù)訓(xùn)練任務(wù)和模型,在做分類任務(wù)時利用這種差異能夠獲得好的效果[9]。You等針對每個標(biāo)簽無法捕獲最重要的文本信息和大量label 缺少可擴(kuò)展性兩個問題,提出了一種基于樹標(biāo)簽的深度學(xué)習(xí)模型,該模型能捕獲輸入文本和每個標(biāo)簽最相關(guān)的部分,同時針對長尾標(biāo)簽,提出了概率標(biāo)簽樹[10]。Xiao 等提出的LSAN模型提出標(biāo)簽注意力機制學(xué)習(xí)特定于標(biāo)簽的文本表示,將標(biāo)簽語義信息引入到模型中[11]。任彥凝等[12]將標(biāo)簽語義和標(biāo)簽關(guān)系結(jié)合起來共同提取樣本中的信息,并且其內(nèi)部設(shè)置了自適應(yīng)融合單元。Xun 等[13]針對極端多標(biāo)簽文本分類模型忽略了不同標(biāo)簽之間有用的相關(guān)信息的問題,通過在深度模型的預(yù)測層添加額外的CorNet 模塊來解決這一限制。支港等[14]提出基于Transformer 解碼器的序列生成模型,使用標(biāo)簽嵌入作為查詢,通過其多頭自注意力機制建立標(biāo)簽之間的高階相關(guān)性,并利用多頭交叉注意力子層從文本信息中自適應(yīng)地聚合標(biāo)簽相關(guān)的關(guān)鍵特征,取得了不錯的效果。Ankit Pal等[22]提出了一種提出了一種基于圖注意力網(wǎng)絡(luò)的模型來捕捉標(biāo)簽之間的注意力依賴結(jié)構(gòu),并將生成的分類器應(yīng)用于從文本特征提取網(wǎng)絡(luò)(BiLSTM)獲得的句子特征向量,以實現(xiàn)端到端訓(xùn)練。

      3 R-BAGC模型

      通過R-BAGC 模型架構(gòu),本文實現(xiàn)了文本向量化、標(biāo)簽之間關(guān)系挖掘以及“文本-標(biāo)簽”關(guān)系挖掘。具體的框架如圖1所示。

      圖1 R-BAGC模型架構(gòu)

      3.1 文本向量化

      Word2Vec[18]和Glove[19]能夠把詞語轉(zhuǎn)化為向量,但是這種向量是靜態(tài)的,無法解決歧義問題。為了更好地表示文本,本文使用BERT[8]預(yù)訓(xùn)練模型把文本向量化。BERT能夠?qū)ξ谋具M(jìn)行上下文理解,可以生成更準(zhǔn)確的向量表示,同時還可以解決歧義問題。

      模型的輸入由三種嵌入層相加構(gòu)成,分別是:詞嵌入、分段嵌入、位置嵌入,最終嵌入記為H,見式(1)。

      其中:H?Rk×d,k 為文本的最大長度,d 為BERT模型隱藏層的大小。

      3.2 挖掘標(biāo)簽之間的關(guān)系

      在多標(biāo)簽文本分類中,標(biāo)簽可以視為圖中的節(jié)點,標(biāo)簽之間的共現(xiàn)關(guān)系可以表示為圖中的邊。利用GAT[20]模型,可以學(xué)習(xí)到每個標(biāo)簽節(jié)點的向量表示,并考慮標(biāo)簽之間的依賴關(guān)系,從而進(jìn)行更準(zhǔn)確的多標(biāo)簽分類。

      首先通過計算標(biāo)簽的成對共現(xiàn)來構(gòu)造鄰接矩陣,共現(xiàn)矩陣的計算如下:

      其中:L為共現(xiàn)矩陣,NORM為歸一化操作。

      然后就是利用GAT 挖掘標(biāo)簽之間的關(guān)系。隨機生成的嵌入Qf={ }Q1,Q2,…,Qs作為標(biāo)簽的初始狀態(tài),其中標(biāo)簽嵌入是一個隨模型迭代更新的Embedding[21],然 后 將 其 輸 入 進(jìn)GAT 中,其 中Qi?Rd。因為GAT 模型引入了注意力機制,所以接下來需要計算注意力系數(shù)。首先對于頂點i,逐個計算它的鄰節(jié)點(j?si)和它自己之間的相似系數(shù),如式(3)。

      其中:W 是可訓(xùn)練參數(shù),a是前饋神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練參數(shù);eij表示節(jié)點j 對于節(jié)點i 的重要性。注意力系數(shù)計算公式為

      其中:LeakyReLU為非線性激活函數(shù);αij為標(biāo)簽j相對于標(biāo)簽i 的歸一化注意系數(shù);k?si表示節(jié)點i 的所有鄰節(jié)點。

      得到歸一化的注意力系數(shù)之后,根據(jù)計算好的注意力系數(shù),把特征加權(quán)求和,見式(5)。

      將經(jīng)過k 頭注意力機制計算后的特征向量進(jìn)行拼接,對應(yīng)的輸出特征向量表達(dá)為

      經(jīng)過GAT 計算后S 個標(biāo)簽的向量記作Qg?Rs×d。

      3.3 “文本-標(biāo)簽”關(guān)系挖掘

      為了捕捉文本中不同部分與標(biāo)簽的關(guān)系,模型中利用了多頭自注意力機制(Multi-head Self-Attention,MSA)。

      將文本向量H 作為Key 和Value,將標(biāo)簽嵌入Qg作為Query,輸入進(jìn)MSA 中,得到更新的標(biāo)簽嵌入Qm,公式如下:

      其中:Concat 表示拼接每一個頭部的注意力輸出。最后將Qm傳入前饋網(wǎng)絡(luò)(FFN)得到Ql作為輸出。計算過程如公式:

      3.4 損失函數(shù)

      模型訓(xùn)練時使用二元交叉熵?fù)p失和Sigmoid函數(shù)的組合作為損失函數(shù),公式如下:

      其中:N 為文檔數(shù)量;l 為標(biāo)簽數(shù)量;y?ij、yij分別為第i個實例的第j個標(biāo)簽的預(yù)測值和真實值。

      R-BAGC 模型中用到了傳統(tǒng)的Dropout 方法,可以防止模型過擬合。然而這種方法會導(dǎo)致模型訓(xùn)練和推理過程的行為不一致。所以為了彌補傳統(tǒng)Dropout的缺點,研究人員們提出了R-Drop 來進(jìn)一步對子模型的輸出預(yù)測進(jìn)行了正則約束。

      4 實驗

      4.1 數(shù)據(jù)集

      為驗證模型有效性,本文在兩個英文公開數(shù)據(jù)集上進(jìn)行實驗。對數(shù)據(jù)集的介紹如下:

      1)AAPD 訓(xùn)練集中包含論文摘要55840 條,測試摘要1000 條,經(jīng)過處理后的數(shù)據(jù)量在3.5KB 級別,共有54個類標(biāo)簽;

      2)RCV1 數(shù)據(jù)集包含訓(xùn)練樣本23149 條,測試樣本781265 條。其數(shù)據(jù)量在80KB 級別,共有103個類標(biāo)簽。

      表1 中列出了這些數(shù)據(jù)集的統(tǒng)計信息,其中N是總實例數(shù),W是數(shù)據(jù)集中每個文檔的平均字?jǐn)?shù),Q是標(biāo)簽的總數(shù),Qˉ是每個文檔的平均標(biāo)簽數(shù)。

      表1 兩個數(shù)據(jù)集的信息

      4.2 評價指標(biāo)

      本文采用準(zhǔn)確率(precision)、召回率(recall)和micro-F1 作為實驗的主要評估指標(biāo),見式(17)~(19),其中N為數(shù)據(jù)集中樣本的總數(shù)量。其中,TP、TN、FP、FN的具體含義可見表2混淆矩陣。

      表2 混淆矩陣

      4.3 實驗結(jié)果分析

      為了充分驗證提出模型的有效性,選擇了7 種模型作為對比算法。7種模型的簡介如下:

      BR[15]:該算法提出將多標(biāo)簽分類任務(wù)轉(zhuǎn)換為多個二進(jìn)制分類任務(wù)。

      CC[16]:基于一系列二進(jìn)制分類任務(wù)來解決多標(biāo)簽分類任務(wù)。

      TextCNN[17]:該方法基于Word2vec 進(jìn)行詞嵌入,并首次使用CNN結(jié)構(gòu)進(jìn)行文本分類。

      CNN-RNN[8]:使用CNN 和RNN 獲得局部和全局語義,并對標(biāo)簽之間的關(guān)系進(jìn)行建模。

      LSAN[11]:利用標(biāo)簽注意力機制建立特定于標(biāo)簽的文本信息,同時使用自適應(yīng)融合機制將標(biāo)簽信息與文本信息融合。

      AttentionXML[10]:利用多標(biāo)簽注意力機制捕獲每個標(biāo)簽最相關(guān)的文本。

      MAGNET[22]:利用圖注意力網(wǎng)絡(luò)來捕捉和探索標(biāo)簽之間的關(guān)鍵依賴關(guān)系,利用BiLSTM 獲得文本的特征向量。

      從表3 和表4 中的實驗結(jié)果來看,BR、CC、TextCNN 的性能明顯差于剩下的五種模型。因為BR、CC、TextCNN 傳統(tǒng)的方法只考慮去挖掘文本中蘊含的特征,而忽略了標(biāo)簽的作用,反觀其余五種模型都采用了不同的方法去發(fā)揮文本和標(biāo)簽的作用,極大地提高了模型的性能。

      表3 在AAPD數(shù)據(jù)集上的實驗結(jié)果

      表4 在RCV1數(shù)據(jù)集上的實驗結(jié)果

      在AAPD 數(shù)據(jù)集上的實驗結(jié)果表明本文提出的模型在性能上優(yōu)于其他模型。本文所提出模型除了考慮到了標(biāo)簽與文本之間的關(guān)系,還考慮到了標(biāo)簽之間的關(guān)系,而其他的對比模型,除LSAN、CNN-RNN、MAGNET模型外,其余模型僅僅考慮了文本與標(biāo)簽之間的關(guān)系,而忽略標(biāo)簽內(nèi)部之間的關(guān)系,這說明科學(xué)的利用標(biāo)簽內(nèi)部的關(guān)系能在一定程度上提高模型分類的性能。

      本文提出的模型在RCV1 數(shù)據(jù)集上的實驗結(jié)果稍微差一點,比起LSAN 模型,在召回率上低了1.4%,在F1 上低了0.5%。因為LSAN 為每個標(biāo)簽學(xué)習(xí)一個特定的文檔表示,并將這些標(biāo)簽特定的表示合并成一個全局的文檔表示,這樣能夠更好地捕捉每個標(biāo)簽與文本之間的關(guān)系,并減輕了不同標(biāo)簽之間的相互干擾。通過計算標(biāo)簽的成對共現(xiàn)來構(gòu)造的鄰接矩陣是對稱的,即假設(shè)標(biāo)簽之間的相關(guān)性是對稱的,但實際上標(biāo)簽之間的相關(guān)性可能是非對稱的。這樣會導(dǎo)致鄰接矩陣中的權(quán)重不能準(zhǔn)確反映標(biāo)簽之間的關(guān)系,從而影響分類性能。而RCV1數(shù)據(jù)集的共現(xiàn)矩陣在維度上比AAPD 數(shù)據(jù)集的共現(xiàn)矩陣大三倍,在利用GAT 去挖掘標(biāo)簽之間的關(guān)系時,不僅會消耗更多的內(nèi)存資源,而且模型可能需要更多的參數(shù)和計算資源來處理這個矩陣。這可能導(dǎo)致模型的學(xué)習(xí)效率下降,需要更多的數(shù)據(jù)和更長的訓(xùn)練時間才能達(dá)到較好的性能,如果epoch過小或者數(shù)據(jù)過少,就會降低了模型的性能,所以這可能是R-BAGC 在RCV1 數(shù)據(jù)集上表現(xiàn)出來的性能弱于LSAN的原因。

      為了進(jìn)一步驗證模型各組件的有效性,本文在兩個數(shù)據(jù)集上進(jìn)行了兩組消融實驗,實驗結(jié)果如表5、表6所示。

      表5 在AAPD數(shù)據(jù)集上的消融實驗

      表6 在RCV1數(shù)據(jù)集上的消融實驗

      1)N-GAT 表示沒有使用GAT 建立標(biāo)簽之間的關(guān)系,直接使用標(biāo)簽嵌入作為多頭注意力機制的Query;

      2)N-ATT 表示沒有使用多頭自注意力機制來建立文本與標(biāo)簽的關(guān)系,只是簡單把經(jīng)過GAT 后的文本嵌入和標(biāo)簽嵌入在第二個維度上進(jìn)行拼接;

      3)N-D-drop表示沒有使用D-drop策略進(jìn)行訓(xùn)練,直接采用式(13)作為損失函數(shù)進(jìn)行訓(xùn)練。

      在兩個數(shù)據(jù)集上的消融實驗結(jié)果顯示,去掉GAT、多頭自注意力機制兩個模塊,會降低模型整體的分類性能,這說明這兩個模塊會提升模型整體效果。其中去掉多頭自注意力的模型性能下降最為顯著,可能是簡單地將文本嵌入和標(biāo)簽嵌入拼接在一起,對于原本的文本特征添加了一定程度的干擾,從而影響了最終的性能,需要使用更加科學(xué)的和更深層次的“文本-標(biāo)簽”交互方案。在沒有使用R-drop 策略訓(xùn)練模型時,準(zhǔn)確率提高而召回率降低的情況表明模型可能過于嚴(yán)格,對于模型認(rèn)為不確定或較為復(fù)雜的樣本,模型更傾向于將其劃分為負(fù)例,從而導(dǎo)致漏檢率較高。然而,在使用R-drop策略訓(xùn)練模型后,雖然準(zhǔn)確率略有下降,但召回率和F1值均提高了。這說明R-drop策略有助于提高模型的魯棒性從整體消融實驗結(jié)果來看,R-BAGC模型能夠有效地融合各個組件的優(yōu)勢,提升模型整體效果。

      5 結(jié)語

      本文提出了一種多標(biāo)簽文本分類模型R-BAGC,該模型充分挖掘并利用了文本與標(biāo)簽之間、標(biāo)簽與標(biāo)簽之間的關(guān)系。實驗結(jié)果表明,該方法在兩個標(biāo)準(zhǔn)多標(biāo)簽文本分類數(shù)據(jù)集上的性能優(yōu)于當(dāng)前先進(jìn)的多標(biāo)簽文本分類算法。然而,R-BAGC 對于具有大量標(biāo)簽的數(shù)據(jù)集,計算標(biāo)簽的成對共現(xiàn)會得到一個高維度、多數(shù)元素為零的鄰接矩陣,會導(dǎo)致矩陣稀疏,增加計算的復(fù)雜度。而且所有標(biāo)簽都被等價看待,會忽略標(biāo)簽的重要性差異。在多標(biāo)簽分類中,不同的標(biāo)簽對于預(yù)測的重要性可能是不同的,因此這種方法可能無法很好地區(qū)分不同的標(biāo)簽。另外,基于R-drop 的對抗訓(xùn)練雖然可以提高模型的魯棒性,但是也在一定程度上增加了模型訓(xùn)練所需的資源和訓(xùn)練時間。下一階段將針對以上問題進(jìn)行更深一步的研究。

      猜你喜歡
      集上注意力標(biāo)簽
      讓注意力“飛”回來
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      復(fù)扇形指標(biāo)集上的分布混沌
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      標(biāo)簽化傷害了誰
      基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      中卫市| 博罗县| 晴隆县| 洪江市| 乐业县| 大名县| 邵武市| 贵定县| 东至县| 麻栗坡县| 昭通市| 贡嘎县| 陇西县| 密云县| 体育| 雷波县| 治县。| 桐城市| 高雄县| 陆良县| 邵阳市| 柳河县| 富源县| 报价| 通榆县| 铜川市| 新密市| 耿马| 古蔺县| 阜阳市| 波密县| 舞阳县| 托克逊县| 永平县| 娱乐| 大名县| 交城县| 临朐县| 仁怀市| 专栏| 横山县|