• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BERT-GCN-ResNet的文獻摘要自動分類方法

    2022-04-21 03:07:16林麗媛劉玉良
    天津科技大學學報 2022年2期
    關鍵詞:短文準確率分類

    郭 羽,林麗媛,劉玉良

    (天津科技大學電子信息與自動化學院,天津300222)

    文獻分類是圖書情報學科的重要研究方向.當前的文獻分類主要以《中國圖書館分類法》為依據(jù)[1],使用題名、摘要、關鍵詞、刊名、作者和機構(gòu)等信息進行分類[2].從科技文獻檢索的角度來說,摘要中存在文獻內(nèi)容的顯性特征,包含著文獻的觀點和價值,因此,相比使用題目、關鍵詞、刊名等文獻信息,使用摘要信息進行文獻分類能提高文獻分類的準確率,對圖書情報學科的發(fā)展具有重要意義.

    文獻摘要分類方法分為傳統(tǒng)的人工方法以及機器學習和深度學習[3-4]的方法.機器學習模型的不足之處:一是貝葉斯分類器[5]在屬性個數(shù)比較多或者屬性關聯(lián)性較大時分類效果不好;二是支持向量機算法(support vector machine,SVM)[6]對大規(guī)模訓練樣本難以實施,不適于解決多分類的問題.除此之外,決策樹系列模型和隨機森林[7-8]等方法需要足夠的詞語共現(xiàn)信息完成模型訓練,而這些信息恰好是文獻摘要文本所缺少的.對原始文本數(shù)據(jù)進行特征處理后,為了讓計算機更好地理解自然語言,需要將處理后的數(shù)據(jù)轉(zhuǎn)換為文本表示.常用的文本表征方式包括詞袋模型[9]、N元模型(N-gram)、詞頻逆文檔頻率(term frequency inverse document frequency,TF-IDF)[10]、Fasttext等[11].文本表示之后,利用網(wǎng)絡模型將獲取的有效信息擬合并計算模型參數(shù).在過去的幾十年中,短文本分類技術迅猛發(fā)展,分類性能明顯提升.論文摘要是一類極具研究價值的短文本數(shù)據(jù),所以利用摘要對論文進行分類與推薦具有重要意義.但是,目前可檢索到的摘要自動分類的研究卻很少.

    隨著深度學習技術[12-15]的廣泛應用,為了解決當前文獻分類領域存在的問題,將短文本分類方法遷移到摘要自動分類中,希望能夠提升摘要自動分類性能.以文獻數(shù)據(jù)庫中已廣泛存在的大規(guī)模摘要數(shù)據(jù)集為訓練語料,實現(xiàn)文獻自動分類效果的提升.其中,基于預訓練語言模型的方法在這些文本分類任務中取得較大突破,比如Word2vec[16]和One-hot[17]編碼等.但是,這些預訓練模型對短文本中詞與詞的關聯(lián)性把握不準,不能獲得關聯(lián)緊密的邊和節(jié)點的特征信息.轉(zhuǎn)換器的雙向編碼器表示模型(bidirectional encoder representation from transformers,BERT)[18]用預訓練中的雙向表示和自注意力機制模塊進行訓練,得到上下文語義特征,在短文本分類任務中獲得了顯著提升.圖卷積神經(jīng)網(wǎng)絡(graph convolutional networks,GCN)可實現(xiàn)節(jié)點特征和邊特征的端到端學習.但是,用于短文本分類任務的多層GCN會導致節(jié)點特征過度平滑,使局部特征收斂到一個近似值,導致分類性能下降.Yao等[19]提出了文本圖卷積網(wǎng)絡模型(Text GCN),可根據(jù)詞共現(xiàn)和文檔詞關系建立一個文本圖的語料庫,可學習單詞嵌入和文檔嵌入.但Text GCN不能快速生成嵌入向量,對無標簽文檔的預測效果不好.

    為了改善模型的分類效果,本文提出一種基于BERT-GCN-ResNet的文獻摘要自動分類方法,該方法利用BERT得到待分類短文本的詞向量初始特征,進而構(gòu)建邊和節(jié)點的特征并將其輸入GCN,然后在圖卷積層之間加入ResNet結(jié)構(gòu),最后將利用圖卷積層和ResNet層得到的短文本表示輸出至softmax[20],得到最終的分類結(jié)果.同時,為了防止過擬合,在圖卷積層引入了Dropout技術,旨在有效提高短文本分類的準確率,得到較好的分類效果.

    1 BERT-GCN-ResNet模型設計

    1.1 模型算法

    在數(shù)據(jù)輸入BERT-GCN-ResNet模型前,構(gòu)建詞節(jié)點和文檔節(jié)點的異構(gòu)圖.根據(jù)詞頻逆文檔頻率(TF-IDF)和點互信息(PMI)分別計算文檔節(jié)點、詞節(jié)點之間的邊的權(quán)重和兩個詞之間的權(quán)重:

    式中對于PMI值定義為

    其中:#W(i)為語料庫中包含單詞的滑動窗口的數(shù)目;#W(i,j)為滑動窗口的數(shù)目,同時包含單詞i和j的窗口;#W為語料庫中滑動窗口的總數(shù).PMI值為正數(shù)時,表示語料庫中單詞的語義相關性較高,反之則表示語料庫中單詞的語義相關性較低或者沒有相關性.因此,只需要在PMI值為正數(shù)的詞之間添加邊.

    在BERT-GCN-ResNet模型中,使用標識矩陣H作為初始節(jié)點特征,在BERT預訓練模型中得到特征節(jié)點表示向量為

    GCN是一個多層神經(jīng)網(wǎng)絡,適用于任意拓撲結(jié)構(gòu)的節(jié)點與圖,可同時學習節(jié)點特征與結(jié)構(gòu)信息.這種特殊的拓撲結(jié)構(gòu)通過一次卷積可使每一個節(jié)點都擁有其鄰居節(jié)點的信息.因此,在節(jié)點分類與邊預測任務中,GCN效果遠遠優(yōu)于其他方法.將其應用于文本處理,并根據(jù)節(jié)點的鄰域?qū)傩赃M行節(jié)點嵌入向量.第i層GCN層輸出特征矩陣計算式為

    為特征向量的維度;ρ為激活函數(shù)Tanhshrink.本文模型為兩個GCN層,計算式為

    損失函數(shù)為多分類合頁損失函數(shù)

    其中:G為BERT-GCN-ResNet模型經(jīng)過softmax后的最終輸出表達式,yD為具有標簽的文檔索引集合,F(xiàn)為輸出特征的維度,Y為標簽矩陣.權(quán)重參數(shù)W0和1W可以通過梯度下降訓練.

    1.2 網(wǎng)絡結(jié)構(gòu)

    本文提出的基于BERT-GCN-ResNet文本多分類模型由BERT、GCN和ResNet[21]組成.首先,在文本輸入之前,對需要的文本進行數(shù)據(jù)清洗,去除無用的停詞和錯誤的數(shù)據(jù),目的在于提高數(shù)據(jù)準確率和節(jié)約計算成本;其次,使用BERT-base對數(shù)據(jù)處理后的短文本中每個詞進行初始特征表示.BERT使用MaskedLM可實現(xiàn)深層雙向聯(lián)合訓練,使其更易于理解文中上下兩個句子之間的聯(lián)系.因此,將BERT生成的詞向量添加到模型中,提升模型分類性能.在特征表示層中,為有效提高分類性能,構(gòu)建了文本圖卷積網(wǎng)絡GCN,根據(jù)詞共現(xiàn)和文檔詞建立單個文本圖的語料庫,同時學習單詞嵌入和文檔嵌入.為了充分學習上下文的更多語義信息,提高模型分類性能,引入ResNet模塊.在分類輸出層中,使用多分類合頁損失函數(shù)MultiMarginLoss作為訓練模型的損失函數(shù),通過softmax函數(shù)生成每個類別的概率,并根據(jù)概率值進行短文本類別預測.

    BERT-GCN-ResNet整體網(wǎng)絡結(jié)構(gòu)如圖1所示,其中左半部分為子結(jié)構(gòu)BERT模型網(wǎng)絡結(jié)構(gòu).首先將數(shù)據(jù)清洗后的短文本處理成詞向量的形式[ H1,… ,Hn]T,然后經(jīng)過12個Multi-layer Transformer模塊得到新的詞向量文本表示[ X1,… ,Xn]T,最后構(gòu)建圖數(shù)據(jù)結(jié)構(gòu)P.Multi-layer Transformer由Multi-head self-Attention模塊和Layer Normalization模塊構(gòu)成,并且引入了殘差模塊R.將BERT處理得到的圖結(jié)構(gòu)數(shù)據(jù)輸入到GCN-ResNet Layers模塊,如圖1右半部分所示.在圖卷積層之間引入 ResNet模塊,這種跳躍連接方式將有助于解決梯度消失和爆炸問題;在訓練網(wǎng)絡時,可保證良好的性能,進而提高網(wǎng)絡的提取特征能力和模型的分類性能.通過softmax函數(shù)得到最終的輸出結(jié)果Z,生成每個類別的預測值,并根據(jù)預測值的大小進行短文本類別判定.

    圖1 BERT-GCN-ResNet網(wǎng)絡結(jié)構(gòu)Fig. 1 BERT-GCN-ResNet network structure

    2 實驗設計

    2.1 實驗環(huán)境

    實驗在Win 10(64位)操作系統(tǒng)上進行,以深度學習框架Pytorch 1.6.0為基礎,編程語言采用Python 3.7.實驗使用的GPU為NVIDIA GeForce RTX 2080 Ti,其顯存為11GB,CPU為 Intel Xeon CPU E5-2678 v3 六核,其內(nèi)存為62GB.

    2.2 數(shù)據(jù)集

    本文在5個基準短文本數(shù)據(jù)集R8、R52、AGNews、TagMyNews、Abstext上進行實驗.

    R8是Reuters21578數(shù)據(jù)集的一個子集.R8[19]有8個類別,被分為6906個訓練文件和768個測試文件.

    R52是Reuters21578數(shù)據(jù)集的一個子集.R52[19]有52個類別,訓練集中文件8190個,測試集中文件909個.

    AGNews[22]是由2000多個不同的新聞來源搜集的超過100萬篇新聞文章構(gòu)成的.實驗從中隨機挑選7600條新聞并分為4類,其中訓練集中文件6840個,測試集中文件760個.

    TagMyNews是Vitale于2012年[23]發(fā)布的基準分類數(shù)據(jù)中的新聞標題數(shù)據(jù)集.該數(shù)據(jù)包含7類,實驗從中隨機挑選9794個數(shù)據(jù)并分為7類,其中訓練集中文件8814個,測試集中文件980個.

    Abstext是使用網(wǎng)絡爬蟲技術在愛思唯爾數(shù)據(jù)庫自動獲取的英文文獻摘要數(shù)據(jù)集[24],經(jīng)過數(shù)據(jù)處理后得到3557條數(shù)據(jù),分為3個類別,其中訓練集數(shù)據(jù)3200個,測試集數(shù)據(jù)357個.

    對上述數(shù)據(jù)集進行預處理,標記文本數(shù)據(jù),刪除在NLTK(natural language toolkit)庫中定義的停詞以及在R8、R52、AGNews、TagMyNews、Abstext中出現(xiàn)小于5次的低頻單詞.預處理后數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)見表1,其中平均長度指單詞個數(shù).

    表1 數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)結(jié)果Tab. 1 Statistical results of the data sets

    2.3 實驗結(jié)果與分析

    實驗均采用Adam[25]優(yōu)化器優(yōu)化損失,epoch為200,學習率為 0.1,在 R8、R52、AGNews、TagMyNews短文本數(shù)據(jù)集上進行短文本分類準確性檢測,并按照訓練集與測試集比例為9﹕1進行劃分數(shù)據(jù)集.按照圖1所設計的網(wǎng)絡模型進行訓練,將預處理后的短文本轉(zhuǎn)換為BERT詞向量并輸入到BERT-GCN-ResNet網(wǎng)絡.實驗對比樸素貝葉斯(naive Bayesian,NB)、決策樹(decision tree,DT)、隨機森林(random forests,RF)、SVM、Fasttext、卷積長短時記憶網(wǎng)絡(convolutional long short-term memory,CLSTM)[26]、卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、門控循環(huán)單元(gated recurrent unit,GRU)、長短時記憶網(wǎng)絡(long short-term memory,LSTM)、雙向長短時記憶網(wǎng)絡(bidirectional long short-term memory,Bi-LSTM)和GCN短文本分類的平均準確率,實驗結(jié)果見表2.

    表2 短文本分類任務準確率Tab. 2 Accuracy of short text classification task

    由表2可知,BERT-GCN-ResNet模型的分類準確率在R8、R52、AGNews、TagMyNews數(shù)據(jù)集上分類性能表現(xiàn)良好,其中在R8數(shù)據(jù)集上準確率高達97.01%,比GCN模型有所提高,說明本文改進的模型具有更加理想的短文本分類性能.本文模型在R52、AGNews、TagMyNews數(shù)據(jù)集分類效果也明顯優(yōu)于其他方法,尤其在TagMyNews數(shù)據(jù)集上. TFIDF+NB、TF-IDF+DT和TF-IDF+SVM等傳統(tǒng)的分類模型的分類效果不理想,在數(shù)據(jù)集R8和R52分類準確率較低,特別是在數(shù)據(jù)集R52上,本文模型分類準確率比其提高15%.相比于GCN模型,本文模型分類性能最高提升31%,即使是在CNN、Fasttext、CLSTM等其他基準模型分類效果表現(xiàn)不好的數(shù)據(jù)集TagMyNews上,也能夠表現(xiàn)出良好的分類性能,準確率為85.54%.實驗結(jié)果表明,本文提出的BERTGCN-ResNet網(wǎng)絡模型在短文本數(shù)據(jù)集上的分類效果顯著.

    為了驗證本文提出BERT-GCN-ResNet網(wǎng)絡模型的有效性,采用上述評價指標對各模塊進行消融實驗,并計算在每個數(shù)據(jù)集上的準確率,實驗結(jié)果見表3.與GCN相比,本文模型加入BERT模塊后,在數(shù)據(jù)集AGNews和TagMyNews上的準確率分別提高18.96%和30.22%;在數(shù)據(jù)集R8上,準確率略微提升;在數(shù)據(jù)集R52上,準確率略微下降.這表明BERT可獲取上下文相關的雙向特征表示,在分類任務上優(yōu)勢明顯.引入ResNet模塊,本文模型在數(shù)據(jù)集AGNews和TagMynews上,準確率分別提高19.62%和29.71%;在數(shù)據(jù)集R52上,準確率略微提升;在數(shù)據(jù)集R8上,準確率略微下降.實驗結(jié)果證明,引入ResNet可以提高網(wǎng)絡提取特征能力,提升分類效果.由于個別短文本語義相近,在文本預訓練時出現(xiàn)文本表示相同的情況,造成語義混淆,導致在單獨引入BERT或ResNet模塊時,在數(shù)據(jù)集R52和R8上的準確率會略有下降;同時引入BERT和ResNet模塊后,在所有實驗數(shù)據(jù)集上準確率均有所提高.由此可見,本文模型融合了BERT、GCN和ResNet的優(yōu)勢,增強了文本語義特征提取能力,又憑借GCN適用于任意拓撲結(jié)構(gòu)的獨特優(yōu)勢,在節(jié)點分類任務中效果明顯優(yōu)于其他模型,因此,BERT-GCNResNet模型能夠使短文本分類性能提升.

    表3 BERT-GCN-ResNet模型消融實驗Tab. 3 BERT-GCN-ResNet model ablation experiment

    將該模型在短文本摘要數(shù)據(jù)集Abstext上進行驗證,結(jié)果見表4.

    表4 Abstext實驗結(jié)果Tab. 4 Abstext experimental results

    同TF-IDF+NB、TF-IDF+DT、TF-IDF+RF、TF-IDF+SVM、Fasttext、CNN、GRU、LSTM、CLSTM、Bi-LSTM、GCN等基準模型對比,本文模型的文獻摘要自動分類結(jié)果準確率為96.85%,比GCN提高了3.73%,比TF-IDF+DT網(wǎng)絡的準確率提高了4.39%,明顯優(yōu)于其他基準模型,表明該模型具有良好的泛化能力.由于BERT和ResNet模塊可以提取短文本更多特征信息,進而提高短文本分類的準確率.實驗結(jié)果表明,引入BERT預訓練模型到GCN和ResNet融合網(wǎng)絡中對于短文本分類效果的提升具有一定優(yōu)勢,尤其是在語義較為稀疏的短文本中表現(xiàn)出更好效果.例如在AGNews和TagMyNews數(shù)據(jù)集上,BERT-GCN-ResNet網(wǎng)絡模型比GCN的實驗結(jié)果分別提高了19.10%和31.26%. 這表明該模型可以充分地學習文本中包含的長距離依賴和上下文信息,能夠獲得更加豐富的語義表示,可以極大促進短文本文獻摘要分類性能的提升.

    3 結(jié) 論

    本文提出一種基于BERT-GCN-ResNet的文獻摘要自動分類方法.將文獻摘要分類問題轉(zhuǎn)化為短文本節(jié)點分類問題.BERT可以完成深層雙向聯(lián)合訓練的任務,獲得上下文相關的雙向特征表示,因此,該方法利用BERT模型獲得預訓練的詞向量,進而構(gòu)建邊和節(jié)點特征信息,將其輸入融合了ResNet模塊的兩層GCN網(wǎng)絡中,進一步提高網(wǎng)絡對文本語義特征的提取能力,實現(xiàn)淺層網(wǎng)絡訓練,即可達到深層網(wǎng)絡訓練的效果.將GCN和ResNet層得到的短文本表示輸出至softmax分類器,得到最終分類結(jié)果.該方法在4種不同短文本數(shù)據(jù)集上進行準確性驗證,準確率最高為97.01%,優(yōu)于基準模型.在本文構(gòu)建的文獻摘要數(shù)據(jù)集Abstext上進行驗證,結(jié)果表明該模型具有良好的泛化性能,提高了文獻摘要自動分類的準確性.

    在未來的研究工作中,本文將從如何構(gòu)建更富含語義信息的圖特征出發(fā),進一步提升模型提取語義特征信息的能力.同時,本文是將多標簽數(shù)據(jù)處理成單標簽進行多分類,具有一定的局限性,后續(xù)將探索在面對多標簽的分類問題上,如何實現(xiàn)較好的分類效果.

    猜你喜歡
    短文準確率分類
    分類算一算
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
    2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
    分類討論求坐標
    KEYS
    高速公路車牌識別標識站準確率驗證法
    數(shù)據(jù)分析中的分類討論
    Keys
    教你一招:數(shù)的分類
    潮安县| 加查县| 巩留县| 青浦区| 荣昌县| 南宁市| 余庆县| 恩施市| 牟定县| 游戏| 江阴市| 南郑县| 昔阳县| 玛多县| 屯留县| 上虞市| 安平县| 邹平县| 西充县| 横峰县| 翼城县| 阿拉善右旗| 嵊州市| 保山市| 双辽市| 柯坪县| 青州市| 密云县| 徐闻县| 翼城县| 柳江县| 宣恩县| 琼结县| 句容市| 贡嘎县| 五常市| 北碚区| 静安区| 徐州市| 合川市| 乳源|