• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合LDA的門控圖卷積網(wǎng)絡文本分類研究

      2022-01-05 12:59:08高維奇吾守爾斯拉木
      東北師大學報(自然科學版) 2021年4期
      關鍵詞:隱層語料庫文檔

      高維奇,黃 浩,2,3,胡 英,2,吾守爾·斯拉木,2,3

      (1 新疆大學信息科學與工程學院,新疆 烏魯木齊 830046;2.新疆多語種信息技術實驗室,新疆 烏魯木齊 830046;3.新疆多語種信息技術研究中心,新疆 烏魯木齊 830046)

      0 引言

      隨著互聯(lián)網(wǎng)技術的日新月異及便攜式智能設備用戶的激增,人們越來越依賴于交互式智能設備為人們提供準確的文本形式的信息.然而現(xiàn)代科學技術的發(fā)展卻帶來了一個新的問題:信息爆炸.這是由于信息的產(chǎn)生、更新和老化的周期不斷縮小,信息呈現(xiàn)出爆發(fā)式增長,這已遠遠超出人類對新的信息的接收和理解范圍.如何將這些過剩的信息準確分類,是現(xiàn)階段人們所要面對的重要問題.

      文本分類是根據(jù)文本的內(nèi)容或主題,將現(xiàn)有的文本劃分到已經(jīng)規(guī)定好的類的過程,它的主要步驟是建立一個合適的文本表示[1].傳統(tǒng)的文本分類方法,如主題模型[2]、基于kernel、n-gram[3]等方法是用稀疏特征來表示文本,這會造成特征維度過高,浪費計算資源.隨著深度學習的發(fā)展和成功[4],眾多的神經(jīng)網(wǎng)絡模型,如卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNNs)[5]、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNNs)和長期短期記憶網(wǎng)絡(LongShort Term Memory,LSTM)[6](RNN的變種),已廣泛并成功應用于文本表示.

      近期,一種新型神經(jīng)網(wǎng)絡——圖神經(jīng)網(wǎng)絡(Graph Neural Networks,GNNs)在NLP中的應用引起眾多研究者的關注,因為它解決了其他深度學習無法進行關系推理的問題.圖卷積網(wǎng)絡(Graph Convolutional Networks,GCN)[7]是一種圖神經(jīng)網(wǎng)絡,也是一種基于圖數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡的變體.文獻[7]中,GCN首次引入引文網(wǎng)絡,并取得了顯著的成果.受此啟發(fā),Text-GCN[8]隨之被提出,它考慮了詞與詞間的互信息(Point Mutual Information,PMI)和詞與文檔間的TF-IDF信息對某一語料庫進行構圖,并通過圖卷積網(wǎng)絡將詞與詞間的信息和詞與文檔間的信息相互傳遞,使文檔與文檔間的信息可以間接傳遞,從而學習更優(yōu)的文本表示用于文本分類.

      除了使用PMI和TF-IDF信息對語料庫構造文本圖之外,還可以將隱狄利克雷分布(LDA)的信息融入到文本圖[9].LDA模型中,包含詞、主題、文檔三層結構.該模型認為一篇文檔的生成過程:先挑選主題,再為每個主題挑選若干詞語,最終由這些詞語就組成了一篇文章.所以主題對于文章是服從多項分布,同時單詞對于主題也服從多項分布.基于這樣的理論,如果一個單詞w對于主題t非常重要,而主題t對于文章d非常重要,那么單詞w對于文章d就很重要,并在同主題的詞里面,單詞w的權重也會較大.本文引入LDA來確定文檔-主題和主題-詞的分布信息,進而將這些信息融入到文本圖中進一步豐富文本圖中節(jié)點間的關系,使圖卷積網(wǎng)絡學習到的文本表示含有更豐富的鄰接信息.

      近年來,門控機制在基于神經(jīng)網(wǎng)絡的模型中得到了廣泛的應用.LSTM是RNN的一種變體,它通過一個門控機制來控制信息流,從而比RNN更好地處理梯度消失問題.在GCNN[10]中,Dauphin等人提出了一種新的基于卷積網(wǎng)絡的門控機制,并將其應用于語言模型,且在多個基準數(shù)據(jù)集上取得了良好的效果.

      本文通過在Text-GCN構建的文本圖基礎上,引入隱狄利克雷分布構建新的文本圖,使文本圖中節(jié)點間含有更豐富的鄰接信息.之后通過一個基于圖卷積網(wǎng)絡的門控機制,使在訓練過程中的信息傳遞得更充分.本文所提出的模型在多個數(shù)據(jù)集上均取得比Text-GCN的分類效果更好.

      1 基于GCN的分類模型

      1.1 圖的相關定義

      通常,一個圖可以被定義成G=(N,E),節(jié)點ni∈N共有n個,eij=(ni,nj)為節(jié)點間的邊,aij為邊的權重.GCN的工作機制像一個多層感知機,通過堆疊多層來傳播和表示信息,但它們之間的區(qū)別在于GCN有一個鄰接矩陣來對節(jié)點間的局部信息進行聚合.如圖1所示,定義H(k-1)和H(k)分別為第k層圖卷積層的輸入和輸出矩陣,初始化特征表示矩陣為X∈Rn×l,n是節(jié)點的總數(shù),l是特征的維度,因此第一層圖卷積層的輸入為

      H(0)=X.

      (1)

      (2)

      圖1 GCN原理框圖

      1.2 特征平滑

      從Simple Graph Convolution[11]可以得到第n層圖卷積的特征平滑矩陣為

      (3)

      結合(2)式,對于某一個節(jié)點ni特征平滑的詳細過程可以看作是將該節(jié)點的特征與它相關節(jié)點特征求均值,公式為

      (4)

      1.3 特征映射和非線性變換

      對于一個完整的圖卷積層,還需要權重矩陣W(k)對特征進行映射和非線性激活函數(shù)ReLU以確保特征信息能夠有效傳播,表示為

      (5)

      也可以寫作

      H(k)=ReLUS(H(k-1)W(k)).

      (6)

      對于分類任務,最后一層的激活函數(shù)ReLU需要替換成softmax且W(k)∈Rm×c,c是需要分類的類數(shù),m是特征矩陣H(k-1)的維度,公式為

      Y=softmax(SH(k-1)W(k)).

      (7)

      2 基于G-GCN-LDA的文本分類模型

      2.1 文本圖構建

      本文的文本圖是在Text-GCN[8]構建的文本圖基礎上構建的.Text-GCN中考慮了詞共現(xiàn)和TF-IDF信息對某一語料庫進行構圖.詞-詞間信息通過一個固定大小的滑窗滑過整個語料庫中的文檔來得到詞共現(xiàn)的統(tǒng)計特征.使用點互信息PMI對詞間的關系進行表征:

      (8)

      (9)

      其中:W(i)是語料庫中包含word(i)的滑窗個數(shù);W(i,j)是語料庫中同時包含word(i)和word(j)的滑窗個數(shù);W是語料庫中滑窗總數(shù).對于詞-文檔間的信息,使用TF-IDF描述為

      (10)

      其中:N是語料庫中文檔總數(shù);df(i)是包含word(i)的文檔的個數(shù).TF是某一詞出現(xiàn)在某一文檔中的個數(shù),TF-IDF為TF×IDF.此外,本文中還融入隱狄利克雷分布,將文檔-主題和主題-詞的信息引入文本圖.在文檔為Di時,主題Tk出現(xiàn)的概率為

      (11)

      其中:Di表示文檔集合中的任一文檔;Tk表示主題集合中的任一主題;Cki表示語料庫中文檔Di中單詞被賦予主題Tk的次數(shù);K表示主題的數(shù)量;α為超參數(shù).在主題為Tk時,單詞wj出現(xiàn)的概率為

      (12)

      其中:wj表示單詞集合中的任一單詞;Tk表示主題集合中的任一主題;Cjk表示語料庫中單詞wj被賦予主題Tk的次數(shù);N表示詞匯表的大??;β為超參數(shù).

      綜上,新構建的文本圖可以表示為

      (13)

      2.2 G-GCN-LDA模型介紹

      將新構建的文本圖通過一個基于圖卷積網(wǎng)絡的門控機制,最終將被控制的信息送入到第二層GCN進行分類.

      如圖2所示,對于一個語料庫,其中{D=[d1,…,dm],V=[w1,…,wq],T=[t1,…,tp],其中D為語料庫中文本的集合,共有m個文本,V為語料庫的詞匯表,共有q個單詞,T為設定主題集合,共有p個主題,并且m+q+p=n.對于融合LDA的文本圖,圖中橢圓代表詞,矩形代表文檔或句子,圓代表主題,相同顏色的矩形屬于同一標簽,紅線代表詞與文檔間的關系,黑線代表詞與詞之間的關系,淺灰色線代表文檔-主題間的關系,淺藍色線代表主題-詞間的關系.類似于Text-GCN,本文使用one-hot對文本、單詞和主題的特征進行初始化,根據(jù)公式(6)有

      H(1)=ReLU(SIW(1))=ReLU(SW(1)).

      (14)

      其中:I∈Rn×n為單位矩陣表示文本和單詞的初始化特征,W(1)∈Rn×d.根據(jù)(14)式,使用同樣的文本圖和輸入特征可以得到特征矩陣F(1)∈Rn×d.從(11)式可以知道鄰接矩陣S的每一行可以表示成文本的特征,這些特征由TF-IDF信息和文檔-主題信息組成,在訓練時,不僅詞與詞間的互信息間接為文檔間提供信息,而且主題與詞的信息也會間接為文檔間提供信息,這在一定程度上優(yōu)于基于Text-GCN構造的文本圖.

      圖2 G-GCN-LDA原理框圖

      受GCNN[10]的啟發(fā),將特征矩陣H(1)通過基于GCN的門控機制,得到一個特征矩陣M∈Rn×d為

      M=ρ(F(1))?δ(H(1)).

      (15)

      式中:ρ和δ為激活函數(shù),如sigmoid或tanh,?為矩陣逐點相乘,之后將特征矩陣M送入到第二層圖卷積層進行分類

      Y=softmax(SMW(2)).

      (16)

      式中:W(2)∈Rd×c,其中c為語料庫中類的個數(shù);Y∈Rn×c為預測矩陣.對于GC-GCN的整個流程,可以表示為

      Y=softmax(Sρ(ReLU(SIW(1)))?δ(ReLU(SIW(1)))W(2)).

      (17)

      最后,類似于多數(shù)分類任務,本文使用交叉熵作為損失函數(shù)

      (18)

      3 實驗分析與比較

      3.1 實驗數(shù)據(jù)

      為了與Text-GCN進行對比,本文采用與Text-GCN同樣的語料庫:20-Newsgroups (20NG)、Ohsumed、R52、R8和情感二分類影評數(shù)據(jù)MR.數(shù)據(jù)的概述如表1所示.

      表1 數(shù)據(jù)概述

      3.2 基線

      本文將基于圖卷積網(wǎng)絡的門控機制模型G-GCN與Text-GCN在基于Text-GCN的原始文本圖和融合LDA的文本圖上進行對比.

      Text-GCN-O:基于圖卷積網(wǎng)絡的文本分類模型并使用該模型提出的文本圖進行訓練,本文在它的基礎上進行改進.

      Text-GCN-LDA:使用融合LDA信息構建的文本圖,并用Text-GCN模型進行訓練.

      G-GCN-O:使用基于Text-GCN的原始文本圖,之后使用基于圖卷積的門控機制模型進行訓練.

      3.3 參數(shù)設置

      本文中所有模型使用PyTorch-1.3.0實現(xiàn).對于公式(15),不設置激活函數(shù),將會在3.5節(jié)解釋.本文中的數(shù)據(jù)預處理根據(jù)Text-GCN[8]進行設置:滑窗大小為20,隨機選擇10%的訓練集作為驗證集.在訓練過程中梯度下降使用Adam[12]更新規(guī)則,初始學習率為0.04,在訓練的前25步,每5步,學習率下降20%,超過25步學習率不再變化,最大訓練步長為200步,若驗證集的Loss連續(xù)10步?jīng)]有下降,則停止訓練.本文使用sklearn工具獲得隱狄利克雷分布,α和β使用默認值1/K,K為設定主題個數(shù),learning_method設為online,learning_offset為50.對于Text-GCN模型,所有的參數(shù)根據(jù)文獻[8]設定.我們還在所有的模型中使用更多的圖卷積層進行實驗,發(fā)現(xiàn)具有兩層圖卷積的模型效果最好,這是因為圖卷積的層數(shù)過多,會導致oversmoothing[13].

      3.4 實驗結果與分析

      本文將Text-GCN和G-GCN在原始文本圖和融合LDA信息文本圖基礎上進行實驗驗證.其中本文以模型第一層隱層單元數(shù):200,400,600和800和主題數(shù):“類數(shù)”、10、20、30、40、50作為變量在3.1節(jié)提供的5個數(shù)據(jù)集中進行訓練,最終確定在某個數(shù)據(jù)集中各個模型最適合的維度和主題數(shù).其中主題數(shù)中的“類數(shù)”為不同語料庫標簽的種類數(shù),Text-GCN-O和G-GCN-O沒有使用融合LDA信息的文本圖,故沒有“主題數(shù)”的結果.本文中所有模型的結果為連續(xù)測試10次的均值±標準差.

      3.4.1 MR數(shù)據(jù)集結果分析

      表2展示了Text-GCN和G-GCN使用原始文本圖和融合LDA信息文本圖在MR數(shù)據(jù)集的結果.

      從表2可以看出,所有模型在隱層單元維度200時得到的結果最好,并且隨著隱層單元的數(shù)目增加所有模型的準確率都會減少,其中在使用融合LDA信息文本圖時,Text-GCN-LDA在主題數(shù)為語料庫類數(shù)時取得最好分類結果,G-GCN-LDA在主題數(shù)分別為10和30取得最好分類結果,并且具有相同隱層單元數(shù)目前提下,G-GCN-LDA的所有結果普遍優(yōu)于其他3個模型的結果.在使用融合LDA信息文本圖時Text-GCN-LDA的最好結果優(yōu)于使用原始文本圖Text-GCN-O的最好結果.

      3.4.2 R8數(shù)據(jù)集結果分析

      表3為Text-GCN和G-GCN使用原始文本圖和融合LDA信息文本圖在R8數(shù)據(jù)集的結果.從表3可以看出,在使用原始文本圖時,隨著模型第一層隱層單元數(shù)目的增加,Text-GCN-O的分類準確率會增加,G-GCN-O的分類結果會相對比較穩(wěn)定.在使用融合LDA信息的文本圖時,Text-GCN-LDA和G-GCN-LDA均在主題數(shù)為50時取得最好結果,其中Text-GCN-LDA在第一層隱層單元數(shù)為600時取得最好結果;G-GCN-LDA在第一層隱層單元數(shù)為800時取得最好結果.

      表3 不同主題數(shù)和不同第一層隱層單元數(shù)的所有模型在R8數(shù)據(jù)集的分類準確率 %

      3.4.3 R52數(shù)據(jù)集結果分析

      表4為Text-GCN和G-GCN使用原始文本圖和融合LDA信息文本圖在R52數(shù)據(jù)集的結果.從表4可以看出,在使用原始文本圖時,隨著模型第一層隱層單元數(shù)目增加,Text-GCN-O和G-GCN-O的結果會相應變好.對于使用融合LDA信息文本圖,Text-GCN在主題數(shù)為30時,模型第一層隱層單元數(shù)為600時取得最好結果;G-GCN-LDA在主題數(shù)為40時,模型第一層隱層單元數(shù)為800時取得最好結果.

      表4 不同主題數(shù)和不同第一層隱層單元數(shù)的所有模型在R52數(shù)據(jù)集的分類準確率 %

      3.4.4 Ohsumed數(shù)據(jù)集結果分析

      表5為Text-GCN和G-GCN使用原始文本圖和融合LDA信息文本圖在Ohsumed數(shù)據(jù)集的結果.從表5中我們可以發(fā)現(xiàn),對于原始文本圖,隨著模型隱層單元數(shù)目增加,Text-GCN-O和G-GCN-O的分類準確率會增加.對于使用融合LDA信息文本圖,Text-GCN-LDA在主題數(shù)為語料庫標簽類數(shù)即主題數(shù)為23時,模型第一層隱層單元數(shù)為200時取得最好效果;G-GCN-LDA在主題數(shù)為40時,模型第一層隱層單元數(shù)為800時取得最好分類結果.并且使用融合LDA信息文本圖的G-GCN-LDA的結果普遍優(yōu)于使用原始文本圖的G-GCN-O的結果.

      表5 不同主題數(shù)和不同第一層隱層單元數(shù)的所有模型在Ohsumed數(shù)據(jù)集的分類準確率 %

      3.4.5 20NG數(shù)據(jù)集結果分析

      表6為Text-GCN和G-GCN使用原始文本圖和融合LDA信息文本圖在20NG數(shù)據(jù)集的結果.由于在20GN數(shù)據(jù)中的“類數(shù)”等于20,所以在表6中類數(shù)這一行的結果等于主題數(shù)為20的結果,故“類數(shù)”這行結果不進行展示.從表6中可以了解到在兩個文本圖中,使用Text-GCN的兩個模型Text-GCN-O和Text-GCN-LDA都是在維度為800時取得最好結果,對于使用G-GCN的兩個模型G-GCN-O和G-GCN-LDA都是在維度為600時取得最好結果,并且Text-GCN-LDA在主題數(shù)為30時結果最好,G-GCN-LDA在主題數(shù)為20時結果最好.并且根據(jù)表6中使用原始文本圖的數(shù)據(jù)可以發(fā)現(xiàn),G-GCN-O取得的最好結果并不優(yōu)于Text-GCN-O的最好結果,但是在使用融合LDA信息文本圖后,G-GCN-LDA在4個模型中取得最好結果,這說明將門控機制和融合LDA信息文本圖結合,可以提升模型的分類效果.

      表6 不同主題數(shù)和不同第一層隱層單元數(shù)的所有模型在20NG數(shù)據(jù)集的分類準確率 %

      3.5 門控機制分析

      選取MR和R8數(shù)據(jù)集對門控機制進行分析.根據(jù)3.4節(jié),選取主題數(shù)為10模型第一層隱層單元數(shù)為200對MR進行驗證,選取主題數(shù)為50,模型第一層隱層單元數(shù)為800對R8進行驗證.

      圖3展示了GC-GCN-BERT使用不同門控機制在MR和R8的結果.受文獻[10]的啟發(fā),使用不同的激活函數(shù)來選擇最適合的門控機制.對于公式(15),將作用在F(1)上的激活函數(shù)定義為tanh,這種門控機制叫Gated Tanh Unit (GTU),它的梯度可以用圖3表示.

      圖3 不同門控機制結果

      (19)

      其中δ是激活函數(shù),如sigmoid,由于downscaling factor[10]tanh′(F(1))和δ′(H(1))的存在,GTU更容易造成梯度消失的問題.因此,Gated Linear Unit(GLU)被提出,在GLU中,F(xiàn)(1)的激活函數(shù)被移除,H(1)的激活函數(shù)保留,如Sigmoid、Tanh和ReLU.它的梯度可以表示為

      (20)

      (21)

      在Bi-GLU中沒有downscalingfactor,因此相比于GTU和GLU,它受梯度消失的影響更小.

      4 總結

      本文從圖卷積網(wǎng)絡結構和構建文本圖這兩個角度出發(fā),提出了一個融合LDA信息門控圖卷積網(wǎng)絡應用于文本分類的模型.相比于Text-GCN構建的文本圖,本文構建的文本圖融合了LDA信息,將文檔-主題和主題-詞信息融入文本圖,使本文構建的文本圖中節(jié)點間具有更豐富的鄰接信息,之后將該文本圖通過一個基于圖卷積網(wǎng)絡的門控機制模型并在多個數(shù)據(jù)集上驗證,發(fā)現(xiàn)本文提出的模型相比于Text-GCN可以有效提升分類準確率.本文不足之處在于主題數(shù)的選擇采用手動選擇,只能大概找到最適合的主題數(shù).在今后的工作中,我們考慮在訓練圖卷積網(wǎng)絡的同時,自動選擇最適合的主題數(shù).

      猜你喜歡
      隱層語料庫文檔
      有人一聲不吭向你扔了個文檔
      《語料庫翻譯文體學》評介
      基于RDPSO結構優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡水質預測模型及應用
      人民珠江(2019年4期)2019-04-20 02:32:00
      把課文的優(yōu)美表達存進語料庫
      基于RI碼計算的Word復制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      基于近似結構風險的ELM隱層節(jié)點數(shù)優(yōu)化
      計算機工程(2014年9期)2014-06-06 10:46:47
      最優(yōu)隱層BP神經(jīng)網(wǎng)絡的滾動軸承故障診斷
      BP神經(jīng)網(wǎng)絡隱層單元數(shù)確定方法
      静海县| 茂名市| 临猗县| 平原县| 兴隆县| 佳木斯市| 绥中县| 灌云县| 博爱县| 民乐县| 兴宁市| 九龙城区| 吴忠市| 陕西省| 江门市| 章丘市| 红原县| 大渡口区| 汉源县| 得荣县| 武陟县| 新巴尔虎右旗| 获嘉县| 隆安县| 冕宁县| 什邡市| 太康县| 花垣县| 梧州市| 宁乡县| 吉安县| 景宁| 临澧县| 治县。| 柳州市| 新乡市| 宁都县| 嵩明县| 睢宁县| 波密县| 灵寿县|