• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LSTM-A深度學習的專利文本分類研究*

      2019-12-11 02:23:24薛金成吳建德
      通信技術 2019年12期
      關鍵詞:維數注意力準確率

      薛金成,姜 迪,吳建德

      (1.昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2.昆明理工大學知識產權發(fā)展研究院,云南 昆明 650500;3.昆明理工大學計算中心,云南 昆明 650500)

      0 引 言

      隨著國家對知識產權重視程度的加深,近幾年我國專利申請數量呈現爆炸式增長趨勢。世界知識產權組織研究表明,全世界每10 s鐘產生一份專利申請,每20 s出版一份專利文獻。面對海量的專利文件,合理的分類顯得尤為重要。目前,對專利文件進行分類仍然以人工方式為主,受限于審查員的專業(yè)素質,分類結果受人為因素影響較大。在專利申請量日益增長的今天,人工進行分類無法應對海量的專利文件。在此情況下借助自動分類技術對海量的專利文本進行自動且高效的分類,可提高專利文本分類的效率和準確率。

      文本分類的關鍵點在于文本特征提取和分類器構建[1]。傳統的機器學習方法在進行文本自動分類時,為了提取文本特征,往往需要依賴復雜而繁瑣的特征工程,且提取準確率較差。近年來,深度學習的出現給文本自動分類注入了新的活力。相比于傳統的機器學習,深度學習通過提取并組合文本中的低層特征形成更加抽象的高層屬性類別,以發(fā)現文本的分布式特征表示,取得了優(yōu)于傳統方法的結果[2],因而被廣泛應用于自然語言處理領域。

      1 相關研究工作

      要對文本進行特征提取要將文本進行向量化表示。在傳統機器學習中,文本的向量化表示采用one-hot方式,方式為將語料庫中所有的不相同詞匯集合成一個詞典,詞典中不相同詞匯的個數即為詞匯總的向量維度,每個詞匯在詞典中的索引位置為1,其余位置為0。One-hot方式雖然可以簡潔表示詞匯,但其詞匯向量維度高,且極其稀疏,詞匯之間的余弦相似度均為0,無法體現文本特征。為解決這些問題,Mikolov[3-4]提出了word2vec詞向量訓練模型,采用神經網絡結構自動學習詞匯之間的相關度,思想為一個詞匯的語義應當由其周圍詞匯決定,經過神經網絡訓練后網絡權重矩陣的每一行即為每個詞匯的詞向量。由于詞向量的維數可以在訓練時預先指定,所以該模型可將詞匯映射到低維且密集的向量空間中,且經過訓練得到的詞向量可以反映詞與詞之間的相似度。

      在分類器構建方面,目前自然語言處理領域應用較廣的為卷積神經網絡(Convolutional Neural Networks,CNN) 與 循 環(huán) 神 經 網 絡(Recurrent Neural Network,RNN)。 例 如,Yoon Kim[5]提 出的TextCNN分類方法,將卷積神經網絡應用到文本分類任務,通過構建不同數量通道及尺寸的提取器(Filters)和最大池化層對文本特征進行提取,取得了較好的效果;Liu P[6]基于循環(huán)神經網絡提出TextRNN方法對文本進行分類,通過RNN單元捕獲文本前后語義,在短文本上取得了比TextCNN更優(yōu)秀的結果;在RNN的基礎上部分,學者如金志剛[7]使用考慮了記憶時長的長短期記憶網絡(Long Short-Term Memory,LSTM)對文本進行情感分類,提升了準確率;而趙云山[8]在卷積神經網絡的基礎上引入注意力機制生成非局部相關度,建立了CNN-A分類模型,發(fā)現注意力機制的引入可以較有效地提升CNN模型的分類準確率。

      這些工作訓練使用語料庫及應用時針對的文本多為新聞文本、網絡評價等,而專利文本與此類文本區(qū)別很大。由于專利分類采用的是IPC分類方法,根據相似度差異按照“部-類-組”進行層次劃分,屬于層級細分類。越底層的級別文本之間的相似度越大,文本特征也越難以區(qū)分。針對專利文本的這一特點,本文構建了一種能夠強化區(qū)別相似特征的細分類方法。

      2 方 法

      2.1 長短期記憶網絡

      長短期記憶網絡(LSTM)為循環(huán)神經網絡(RNN)的一個變種。與全連接神經網絡相比,LSTM考慮了文本的時序信息,當前時刻的輸出不僅僅與此時刻的輸入相關,而是前一時刻輸出與當前時刻輸入的疊加。為捕獲長期與短期的文本特征,LSTM加入了門控結構,包括遺忘門、輸入門和輸出門,通過訓練是否保留前一時刻的狀態(tài),從而捕獲更詳盡的文本特征。結構如圖1所示。

      圖1 LSTM分類模型結構

      假設分詞后的文本為x=(x1,x2,…,xn)的詞向量序列,經過LSTM的隱藏層序列h=(h1,h2,…,hn)后可以得到網絡的輸出序列y=(y1,y2,…,yn),計算過程為:

      其中,Wxh表示輸入層到隱藏層的權重矩陣,Whh表示隱藏層之間的權重矩陣,Why表示隱藏層到輸出的權重矩陣,bh、by分別表示隱藏層和輸出層的偏置向量。

      LSTM獨特的門機制控制前后時刻狀態(tài)更新的方法為:

      式(3)~式(7)分別表示輸入門、遺忘門、輸出門、神經元狀態(tài)以及隱藏層序列更新方式。通過訓練遺忘門決定是否保留在前時刻的狀態(tài)信息,結合神經元狀態(tài)與輸出門控制保留在前時刻狀態(tài)的多少,達成提取長期與短期文本特征的目的。

      網絡的優(yōu)化目標函數通常定義為交叉熵損失函數:

      其中,T表示總文本數量,Yi表示類別的實際概率分布值,yi表示預測概率分布值。通過最小化目標函數訓練模型。

      2.2 LSTM-Attention模型

      專利文本記載了最先進的技術信息,其技術專有名詞較多,所以文本特征難以區(qū)分,在分類任務中需要被重點關注,而注意力機制可以很好地解決這一問題。注意力機制的本質是一種編碼-解碼結構[9](Encoder-Decoder)。在這一結構中,首先將輸入序列通過某些方式計算為一種中間狀態(tài),之后通過計算輸入序列的注意力概率分布為輸入序列分配不同的權重,最后根據任務的不同對中間狀態(tài)進行解碼,整個過程如圖2所示。

      圖2 基于Attention機制的編碼-解碼

      在輸入序列為x=(x1,x2,…,xn)的情況下,定義輸出為y=(y1,y2,…,yn),則編碼過程和加入注意力權重的解碼過程分別表示為:

      將注意力機制加入LSTM網絡,利用注意力機制對輸入層不同詞匯分配注意力權重,達到區(qū)分專利文本中相似的文本特征。引入注意力層的LSTM-A網絡結構如圖3所示。

      圖3 LSTM-A文本分類模型

      可以看出,LSTM網絡作為編碼層,將編碼后的隱藏層序列信息hi結合其相應權重ai形成經注意力池化后的文本表示v,最后經過全連接層使用softmax函數進行分類,其計算過程為:

      加入了注意力機制后的LSTM-A網絡能夠通過不斷訓練得出輸入序列的文本特征,并依據特征重要程度為其分配權值,使得在專利文本中具有代表性的特征詞匯在最后的分類中起到更大的作用,有助于更好地完成專利細分類任務。

      3 實 驗

      3.1 實驗環(huán)境

      實驗操作系統為Windows7操作系統,CPU型號為CORE i3 2.2 GHz,內存大小為4 GB,編程語言使用python3.0版本,使用深度學習框架tensorflow1.5.1。為體現專利文本的層次細分類特性,通過incopat專利數據庫獲取帶有IPC分類號的專利數據。IPC分類號采用“部-類-組”的層次分類方法,層次越低,文本相似度越高。為方便研究,從數據庫中獲取“部”類別為F的機械領域專利文本2 000篇,“類”類別為H04W、H04K的通信領域專利文本各2 000篇,“組”類別為C05C1/00、C05C3/00的化學領域專利文本各2 000篇共10 000篇專利數據作為語料庫,分類號對應代表含義如表1所示。

      表1 專利分類號對應含義

      其中,分類號為F的文本與其他文本差異最大,H04W、H04K之間差異較小,C05C1/00、C05C3/00之間差異最小,通過觀察其分類結果測試模型優(yōu)劣。

      3.2 實驗設計

      采用對比試驗的方式,通過精確率p、召回率r、F1值評價模型分類效果。

      實驗之前先對數據進行預處理,包括分詞和去停用詞。由于使用LSTM-A模型時需要以詞匯的詞向量作為輸入,所以必須將專利文本切分成可以被模型處理的一個個單詞。使用python的第三方庫jieba的精確模式進行分詞過程,分詞過程之后整個文檔將全部由詞匯組成。之后去掉表示對整體語義和分類無影響的助詞、符號等停用詞,如“一種”“的”“!”等,停用詞表采用收錄較為完整的《哈工大停用詞表》。

      對預處理之后的文本數據采用word2vec模型訓練得到詞匯的詞向量。word2vec模型在訓練詞向量時有skip-gram和CBOW兩種訓練方式:skip-gram思想為通過當前詞預測上下文出現的概率;CBOW思想與前者相反,為通過上下文預測當前詞出現的概率。兩種訓練模式相比,CBOW模式的訓練速度比skip-gram更快[10],結合試驗環(huán)境選擇CBOW模式訓練試驗所需的詞向量。通過對比不同詞向量維數下TextCNN和TextRNN的模型精確度,選擇最優(yōu)的詞向量維數。

      為突出注意力機制對文本分類的影響,設計5種文本分類模型進行實驗對比,分別為TextCNN、TextRNN、LSTM、CNN-A以及LSTM-A分類方法。

      3.3 實驗評估

      先對比不同詞向量維數下TextCNN和TextRNN的模型精確度,選擇最優(yōu)的詞向量維數,試驗結果如圖4所示。

      詞向量的維數包含了詞匯之間的相似度信息[11]。維數過低會降低詞匯之間的區(qū)分度,無法區(qū)分專利文本中含義相近的技術詞匯;維數過大又會使得向量稀疏,從而無法體現詞匯相關性。由圖4可知,本次實驗中在詞向量維數為200時,兩種模型精確度都能達到最高,故選取詞向量維數為200進行模型分類對比實驗。

      圖4 詞向量維數對模型精度影響

      4種文本分類模型下對專利文本分類的結果如圖5所示。LSTM-A模型分類的各項指標結果如表2所示。

      圖5 各模型分類準確率

      表2 LSTM-A模型分類評價指標結果

      從圖5可以看出,在對文本差異度較大的F類進行分類時,各模型均表現良好,TextRNN和LSTM效果優(yōu)于TextCNN和CNN-A。隨著文本差異度降低,在H04W與H04K兩類專利文本中,TextCNN與TextRNN在分類效果上無明顯差異,CNN-A與TextCNN相比分類準確率略有提升,而LSTM不論是否引入注意力機制表現均優(yōu)于前三者;在文本差異度最小的C05C1/00、C05C3/00兩類專利文本中,引入了注意力機制的CNN-A效果明顯優(yōu)于CNN,但與LSTM效果相差不大,而LSTM-A效果最好,結合表2可知,LSTM-A的召回率和F1值也呈現較好的結果。

      上述結果表明,在對專利文本進行分類時,LSTM比CNN更有優(yōu)勢,注意力機制的加入對提升分類準確率有一定幫助;LSTM-A模型在文本差異度最小的C05C1/00、C05C3/00兩類專利文本中準確率提升了5個百分點左右,說明注意力機制的引入在區(qū)分相似度較高的文本特征時可以起到較大作用。

      4 結 語

      針對專利文本不同于新聞、評論等文本的特點,提出了一種LSTM-A文本分類模型。實驗證明,與典型的深度學習文本分類模型TextCNN和TextRNN相比,加入了注意力機制的LSTM-A模型在對相似程度不同的專利文本進行分類時,可以更好地區(qū)分相似文本特征,對不同文本特征賦予不同的權重,提高了專利文本的分類準確率。但是,LSTM-A模型屬于一種迭代計算模型,時間復雜度較高,在模型訓練階段需要花費較高的成本。同時,雖然在對文本間差異最小的“組”級文本分類時相比傳統方法有所提升,但準確率依然沒有達到90%以上,是下一步需要研究優(yōu)化的關鍵。

      猜你喜歡
      維數注意力準確率
      β-變換中一致丟番圖逼近問題的維數理論
      讓注意力“飛”回來
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
      一類齊次Moran集的上盒維數
      高速公路車牌識別標識站準確率驗證法
      “揚眼”APP:讓注意力“變現”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      關于齊次Moran集的packing維數結果
      四川省| 颍上县| 肥乡县| 万盛区| 金坛市| 静海县| 当涂县| 定州市| 宿迁市| 达州市| 龙井市| 灌南县| 区。| 汶川县| 永顺县| 五台县| 舞钢市| 浦北县| 宜章县| 迁西县| 玉门市| 黔西| 渝北区| 屏边| 静宁县| 定安县| 肥西县| 大埔区| 冷水江市| 临安市| 大港区| 红原县| 炉霍县| 黄山市| 大英县| 定远县| 黎平县| 永济市| 太和县| 高雄县| 扎鲁特旗|