• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合注意力機(jī)制的門控圖神經(jīng)網(wǎng)絡(luò)文本分類算法?

    2023-11-21 06:17:24馬明旭蘇凡軍佟國香
    關(guān)鍵詞:鄰域注意力卷積

    馬明旭 蘇凡軍 佟國香

    (上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院 上海 200093)

    1 引言

    文本分類是自然語言處理中的一個(gè)經(jīng)典問題,目的是為句子、段落或文檔等文本單位分配標(biāo)簽或標(biāo)記,已被應(yīng)用于許多現(xiàn)實(shí)場景,例如垃圾郵件檢測、情感分析和新聞分類等。

    基于規(guī)則和傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類算法,離不開繁瑣的人工分析和特征工程,特殊領(lǐng)域的文本分類需要強(qiáng)大的專業(yè)知識(shí),限制了龐大訓(xùn)練數(shù)據(jù)的使用,時(shí)間長且代價(jià)昂貴[1]。

    隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)在文本分類任務(wù)中廣泛應(yīng)用,提出了許多基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的方法[2~5],但是許多方法很大程度上忽略了遠(yuǎn)距離和非連續(xù)語義在內(nèi)的信息[6]。

    最近幾年,圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)[7~9]成為研究熱點(diǎn),緩解了上述方法的局限性,研究者們提出了許多算法[10~14]。Yao[10]在GCN[7]的基礎(chǔ)上提出了Text-GCN,首先將語料庫轉(zhuǎn)化為含有文本和單詞的大型異構(gòu)圖,預(yù)先定義節(jié)點(diǎn)之間的關(guān)系,利用GCN 聚合節(jié)點(diǎn)的鄰域單詞特征更新文本和單詞表示,將文本分類任務(wù)轉(zhuǎn)換為空間中的節(jié)點(diǎn)分類任務(wù)。Rahul[11]分解Text-GCN 文本和單詞的嵌入操作,根據(jù)網(wǎng)絡(luò)層不同類型的輸入輸出,提出了分別編碼文本和單詞特征的同構(gòu)層和異構(gòu)層,并融合不同層的輸出提出了用于文本分類的Hete-GCN 模型。Xin[12]將標(biāo)簽轉(zhuǎn)換為節(jié)點(diǎn)加入異構(gòu)圖,利用GCN 將標(biāo)簽信息融入文本特征,促進(jìn)模型學(xué)習(xí)更準(zhǔn)確的文本嵌入。Huang[13]考慮為每個(gè)文本構(gòu)造文本圖,共享語料庫中的單詞表示和單詞關(guān)系,提出了將節(jié)點(diǎn)和鄰域特征加權(quán)求和更新節(jié)點(diǎn)表示的消息傳遞機(jī)制。Zhao[14]通過Bi-LSTM 建模單詞特征,并利用GCN 從預(yù)先定義的句法依存樹中提取句法和單詞依賴信息,獲取文本表示。但是構(gòu)建文本-單詞異構(gòu)圖的方法[10~12]忽略了文本和單詞的細(xì)粒度交互[15],并且預(yù)先定義節(jié)點(diǎn)間的關(guān)系忽略了單詞之間的細(xì)粒度交互問題,即忽略了噪聲信息[16]和鄰域節(jié)點(diǎn)的貢獻(xiàn)程度[9]。

    為了解決上述問題,本文提出了一個(gè)改進(jìn)的門控圖神經(jīng)網(wǎng)絡(luò)算法。門控圖神經(jīng)網(wǎng)絡(luò)(Gated Graph Neural Network,GGNN)[8]是一種基于門控循環(huán)單元(Gated Recurrent Unit,GRU)[17]的圖神經(jīng)網(wǎng)絡(luò),在門控機(jī)制的作用下,更好地融合節(jié)點(diǎn)特征和鄰域特征更新節(jié)點(diǎn)表示,可以提取文本內(nèi)遠(yuǎn)距離和非連續(xù)的語義信息。Zhang[14]考慮文本-單詞的細(xì)粒度交互,預(yù)先定義每個(gè)文本的圖數(shù)據(jù),并利用門控圖神經(jīng)網(wǎng)絡(luò)聚合單詞節(jié)點(diǎn)鄰域信息更新單詞表示,最后融合所有單詞特征得到文本表示并進(jìn)行分類。GGNN 用于文本分類方面的文獻(xiàn)較少,目前這個(gè)方面的研究仍處于進(jìn)展中。

    本文提出了一種融合注意力機(jī)制的門控圖神經(jīng)網(wǎng)絡(luò)文本分類算法(GGNN-AM)。算法分為三部分:數(shù)據(jù)處理層、文本嵌入層和分類層。數(shù)據(jù)處理層處理文本得到初始圖數(shù)據(jù),文本嵌入層得到圖級(jí)別的文本表示,分類層提取文本特征并預(yù)測文本類別。

    所提算法主要的創(chuàng)新如下:

    1)針對單詞-單詞的交互關(guān)系,考慮到單詞鄰域的噪聲信息[15]和每個(gè)鄰域節(jié)點(diǎn)的貢獻(xiàn)程度[9],在文本嵌入層引入注意力機(jī)制[18],在聚合鄰域信息時(shí)為鄰域節(jié)點(diǎn)動(dòng)態(tài)分配重要性系數(shù),使網(wǎng)絡(luò)能夠自動(dòng)識(shí)別并提取重要特征,過濾噪聲信息。

    2)為了增強(qiáng)文本-單詞的細(xì)粒度交互,在分類層將卷積核作為特征編碼器,對每個(gè)單詞和多個(gè)單詞組合的局部信息編碼,提取重要特征和一般特征表示文本,增強(qiáng)文本表示的表征能力。

    在三個(gè)英文開放數(shù)據(jù)集上與多個(gè)文本分類算法相比,GGNN-AM算法取得了更好的分類結(jié)果。

    2 GGNN-AM算法

    GGNN-AM 算法分為三部分:數(shù)據(jù)處理層、文本嵌入層和分類層。

    2.1 數(shù)據(jù)處理層

    數(shù)據(jù)處理層處理文本并得到初始圖數(shù)據(jù)。文本為T={w1,w2,…,wn},其中wi?T為單詞,n為文本T的長度。構(gòu)造文本T的初始圖數(shù)據(jù)G={V,E},其中單詞節(jié)點(diǎn)集V={h1,h2,…,hm},hi?Rd為第i個(gè)單詞節(jié)點(diǎn)的初始表示,d為單詞表示的嵌入維度,m≤n表示文本T中唯一單詞的個(gè)數(shù),E為邊集。參考文獻(xiàn)[9]的工作,邊集E通過一個(gè)大小為z的滑動(dòng)窗口和點(diǎn)互信息(Point-wise Mutual Information,PMI)確定。不同的是,PMI值僅用于判斷單詞之間是否存在邊,忽略PMI值很小的邊,并將其余邊的權(quán)值初始化為1,后續(xù)通過注意力機(jī)制自動(dòng)分配?;瑒?dòng)窗口中單詞hi和hk的邊定義為

    其中,PMI 值大于0 表示單詞之間有較高的語義關(guān)聯(lián),等于或小于0 表示很小或沒有語義關(guān)聯(lián)。對于單詞hi和hk的PMI值計(jì)算定義為

    其中,#W(hi,hk)表示同時(shí)出現(xiàn)單詞hi和hk滑動(dòng)窗口的個(gè)數(shù),#W(hi)為出現(xiàn)單詞hi的窗口個(gè)數(shù),#W為滑動(dòng)窗口的總個(gè)數(shù)。

    如圖1所示為利用大小為3的滑動(dòng)窗口和點(diǎn)互信息構(gòu)造的文本“the file is a verbal duel two gifted performers”的圖數(shù)據(jù),其中,節(jié)點(diǎn)為單詞,邊上的權(quán)值表示PMI值,虛線表示過濾的邊。

    圖1 文本圖數(shù)據(jù)示例

    2.2 文本嵌入層

    文本嵌入層處理文本圖數(shù)據(jù),獲取圖級(jí)別的文本表示。本層使用注意力機(jī)制自動(dòng)分配單詞之間的權(quán)重,使網(wǎng)絡(luò)自動(dòng)識(shí)別并提取單詞節(jié)點(diǎn)的鄰域重要特征;通過門控機(jī)制融合節(jié)點(diǎn)特征和鄰域重要特征,更新單詞節(jié)點(diǎn)嵌入,獲取圖級(jí)別的文本表示。

    2.2.1 注意力機(jī)制

    注意力機(jī)制為單詞鄰域節(jié)點(diǎn)分配重要性分?jǐn)?shù),并據(jù)此加權(quán)聚合鄰域信息。如圖2 所示為單詞的鄰域,表示第i個(gè)單詞在t時(shí)刻的表示,即擁有t階鄰域信息的單詞特征,表示第i個(gè)單詞的初始表示。通過式(5)計(jì)算在t時(shí)刻對的注意力分?jǐn)?shù),并據(jù)此加權(quán)聚合鄰域重要信息,計(jì)算過程為

    圖2 節(jié)點(diǎn)和鄰域

    其中,Wa為參數(shù)矩陣,?R表示注意力分?jǐn)?shù),?Ni為的鄰域節(jié)點(diǎn),C(·)為點(diǎn)積操作,為利用注意力機(jī)制聚合的鄰域重要信息,f(·)為Re-LU激活函數(shù)。

    2.2.2 特征融合

    參考文獻(xiàn)[8]的工作,利用門控循環(huán)單元融合節(jié)點(diǎn)和鄰域特征。如圖3 所示為門控循環(huán)單元,其中rt為重置門,用于控制信息遺忘的程度;zt為更新門,控制信息保留的程度;為t時(shí)刻的鄰域信息為記憶信息,為融合t+1 階鄰域信息的單詞節(jié)點(diǎn)特征。對于單詞節(jié)點(diǎn)的處理過程為

    圖3 門控循環(huán)單元

    其中,σ(·)是sigmoid 函數(shù),W,U和b是可訓(xùn)練的權(quán)值和偏差。特征融合后,得到融合鄰域信息的圖級(jí)別文本表示

    2.3 分類層

    分類層將卷積核作為特征編碼器,編碼圖級(jí)別文本嵌入,提取重要特征和平均特征表征文本,預(yù)測文本類別。首先,利用多尺寸卷積核分別對單個(gè)單詞和多個(gè)單詞的局部信息編碼,得到特征。對于大小為s的卷積核,計(jì)算過程為

    其中,W?Rs×hd是卷積核,s?Ns為卷積核的尺寸,hd為圖級(jí)別文本嵌入的維度,Hi:i+s-1表示單詞i到i+s-1 組成的特征矩陣,b為偏置項(xiàng),f(·)為ReLU激活函數(shù)。經(jīng)過s尺寸卷積核編碼后的特征為

    考慮到Cs中重要特征和所有特征的作用,利用池化層提取重要特征和平均特征。拼接所有卷積核得到的特征得到最終文本表示,并利用softmax預(yù)測文本類別,計(jì)算過程為

    其中,s,S1,Sn?Ns為卷積核的尺寸,⊕為拼接操作,WF和bF是可訓(xùn)練的參數(shù),F(xiàn)是最終文本表示,ypred是模型預(yù)測的文本類別。目標(biāo)函數(shù)使用交叉熵?fù)p失函數(shù),并加入L2 正則化防止過擬合,目標(biāo)函數(shù)為

    其中,第一部分為交叉熵?fù)p失函數(shù),ytrue為真實(shí)的文本類別,第二部分為正則化項(xiàng),λ為系數(shù)。

    3 實(shí)驗(yàn)

    3.1 數(shù)據(jù)集

    數(shù)據(jù)集采用公開的MR、R8 和Ohsumed 英文數(shù)據(jù)集,對三個(gè)數(shù)據(jù)集處理并進(jìn)行統(tǒng)計(jì),得到數(shù)據(jù)集的統(tǒng)計(jì)信息,如表1。

    表1 數(shù)據(jù)集的統(tǒng)計(jì)信息

    MR:電影評論的情感數(shù)據(jù)集,每個(gè)評論只有一個(gè)句子,分類涉及正負(fù)兩類,共10662個(gè)文本。

    R8:Reuters-21578 新聞數(shù)據(jù)集的子集,共7674個(gè)文本,涉及8個(gè)類別的分類。

    Ohsumed:醫(yī)藥信息數(shù)據(jù)集,共7400 個(gè)文本,分類涉及23個(gè)類別。

    3.2 參數(shù)和評測方法

    實(shí)驗(yàn)采用glove[19]詞向量glove.6B.200d 表示初始單詞特征,維度為200,未登錄詞(Out Of Vocabulary,OOV)使用在[-0.01,0.01]范圍內(nèi)隨機(jī)生成的向量表示。數(shù)據(jù)集按9∶1 分為訓(xùn)練集和驗(yàn)證集,學(xué)習(xí)率設(shè)置為0.001,正則化系數(shù)設(shè)置為0.0001,Dropout 參數(shù)為0.5,采用Adam[20]優(yōu)化網(wǎng)絡(luò),其余參數(shù)根據(jù)數(shù)據(jù)集而定。實(shí)驗(yàn)選用分類評價(jià)性能指標(biāo)Accuracy描述算法的性能,公式為

    其中,PTrue為預(yù)測正確的樣本數(shù),Psamples為總樣本數(shù)。

    3.3 結(jié)果與分析

    如表2 所示為GGNN-AM 與各算法在三個(gè)英文數(shù)據(jù)集上的分類準(zhǔn)確度結(jié)果。Text-CNN[2]在卷積核的作用下更關(guān)注文本的局部特征,對比Text-GCN[9],前者在MR 短文本數(shù)據(jù)集上利用卷積核捕捉到了對分類重要的特征,并且可以獲取局部單詞的序列語義信息,提升了模型的分類準(zhǔn)確率,但是在Ohsumed 和R8 長文本數(shù)據(jù)集上不如Text-GCN 預(yù)測準(zhǔn)確,是因?yàn)镃NN 對不連續(xù)詞及長距離依賴關(guān)系的信息的提取存在限制[8]。Text-GCN 在MR 數(shù)據(jù)上表現(xiàn)不好,是因?yàn)镸R 文本較短,圖中邊的數(shù)量較少,限制了信息在圖中的傳遞,并且忽略了文本與單詞的細(xì)粒度交互問題。Label-text[12]將標(biāo)簽信息融入了圖數(shù)據(jù),促進(jìn)了模型學(xué)習(xí)對分類更重要的特征信息,增強(qiáng)了文本分類的能力,在R8 和Ohsumed 數(shù)據(jù)上均有提升。SC-DGCN[14]通過Bi-LSTM 提取文本的序列特征,并利用GCN 結(jié)合從預(yù)先定義的句子依存結(jié)構(gòu)中提取句法信息,在MR 數(shù)據(jù)上提升較大。Huang[13]為每個(gè)文本建立圖數(shù)據(jù),模型更加關(guān)注單個(gè)文本圖內(nèi)信息的交互,在R8和Ohsumed數(shù)據(jù)上均有提升。

    表2 實(shí)驗(yàn)結(jié)果

    從表中可以看出,GGNN-AM 算法在MR、R8和Ohsumed 數(shù)據(jù)上取得了最好的結(jié)果。這是因?yàn)镚GNN-AM 在注意力機(jī)制的作用下,關(guān)注不同狀態(tài)下單詞之間的交互關(guān)系,學(xué)習(xí)并提取到了鄰域的重要信息,得到更準(zhǔn)確、更相關(guān)的非連續(xù)語義特征。結(jié)合多尺寸卷積層的作用,突出了對分類有重要作用的重要單詞和局部特征,得到更準(zhǔn)確的文本表示,增強(qiáng)了文本-單詞的細(xì)粒度交互,提升了分類的準(zhǔn)確度。

    3.4 部分參數(shù)對實(shí)驗(yàn)結(jié)果的影響

    本小節(jié)實(shí)驗(yàn)結(jié)果均為模型運(yùn)行3 次后取平均值。

    1)注意力機(jī)制對預(yù)測結(jié)果的影響

    去除GGNN-AM 中的注意力機(jī)制得到GGNN-NOAM,并使用PMI 值預(yù)先定義文本圖數(shù)據(jù)。分別在MR 和R8 數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示。含有注意力機(jī)制的模型在兩個(gè)數(shù)據(jù)集上取得了更好的結(jié)果,證明了在注意力機(jī)制的作用下,模型識(shí)別并提取了單詞鄰域的重要信息,從而提升了模型預(yù)測的準(zhǔn)確度。

    表3 對比實(shí)驗(yàn)

    2)滑動(dòng)窗口大小對實(shí)驗(yàn)結(jié)果的影響

    如圖4 所示,隨著滑動(dòng)窗口增大,模型預(yù)測準(zhǔn)確率上升。由于滑動(dòng)窗口的增大增加了單詞的鄰域范圍,增加了邊的數(shù)量,信息在圖中的流動(dòng)更加廣泛,提升了實(shí)驗(yàn)結(jié)果的準(zhǔn)確度。但是增大到5時(shí),MR和R8的實(shí)驗(yàn)結(jié)果均出現(xiàn)了下降。推測是因?yàn)殡S著滑動(dòng)窗口的增大,長距離單詞之間關(guān)系較小,單詞特征引入了無關(guān)信息,造成了結(jié)果的下降。

    圖4 不同窗口大小下的實(shí)驗(yàn)準(zhǔn)確度

    3)文本嵌入層數(shù)對實(shí)驗(yàn)結(jié)果的影響

    如圖5 所示,隨著文本嵌入層的層數(shù)增加,模型預(yù)測準(zhǔn)確度逐漸上升,MR和R8數(shù)據(jù)的預(yù)測結(jié)果分別在3層和2層時(shí)取得最好結(jié)果。但隨著層數(shù)的上升,準(zhǔn)確度下降,推測是因?yàn)閱卧~節(jié)點(diǎn)通過網(wǎng)絡(luò)獲取到圖數(shù)據(jù)中高階長遠(yuǎn)距離的無關(guān)信息,降低了單詞的表示質(zhì)量,對實(shí)驗(yàn)結(jié)果造成了影響。

    圖5 不同時(shí)間步下的實(shí)驗(yàn)準(zhǔn)確度

    4 結(jié)語

    本文提出了一種融合注意力機(jī)制的門控圖神經(jīng)網(wǎng)絡(luò)文本分類算法GGNN-AM。構(gòu)造每個(gè)文本圖數(shù)據(jù),將注意力機(jī)制與門控圖神經(jīng)網(wǎng)絡(luò)融合,動(dòng)態(tài)的分配單詞之間權(quán)重,注重單詞之間的細(xì)粒度交互,讓模型自動(dòng)識(shí)別并提取出鄰域的重要信息。最后使用多尺寸卷積核對單詞和局部特征編碼,提取出重要的特征信息,增強(qiáng)文本與單詞的細(xì)粒度交互,得到更準(zhǔn)確的分類結(jié)果。在3 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了GGNN-AM的有效性。

    猜你喜歡
    鄰域注意力卷積
    讓注意力“飛”回來
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    稀疏圖平方圖的染色數(shù)上界
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于鄰域競賽的多目標(biāo)優(yōu)化算法
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    A Beautiful Way Of Looking At Things
    關(guān)于-型鄰域空間
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
    依兰县| 五原县| 自贡市| 江孜县| 五大连池市| 探索| 巴林右旗| 北票市| 遂川县| 沁阳市| 古田县| 云浮市| 凤山市| 遂溪县| 张家川| 秀山| 大名县| 潞城市| 抚宁县| 荃湾区| 岳西县| 英山县| 新津县| 措勤县| 古蔺县| 木兰县| 福鼎市| 石家庄市| 枞阳县| 高密市| 兴业县| 东明县| 湄潭县| 顺义区| 苍梧县| 三河市| 武穴市| 弥渡县| 哈巴河县| 安西县| 且末县|