臧凌玉 張應中 羅曉芳
(大連理工大學機械工程學院 遼寧 大連 116024)
在機械工程領域存在大量的非結構化或半結構化的知識文本,如專利、說明書、期刊和書籍等,這些文本包含豐富的領域?qū)<抑R和專業(yè)技術知識。自然語言處理能夠通過理解和挖掘文本知識從而獲取專業(yè)知識。命名實體識別是指識別文本中具有特定含義的實體(例如人名、地名、機構名和專有名詞等),是自然語言處理基礎性工作,是正確理解文本的基礎[1]。它是信息抽取、文本分類、關系抽取、知識圖譜、搜索引擎、機器翻譯和自動問答等應用領域的基礎性工作[2-7]。
機械工程領域包括機械設計、制造和工程材料等多個學科,涉及大量的概念、術語和專有名詞,這些名詞以自然語言方式表示在文本中。特別是機械專利文本,其包含了新的技術和原理,體現(xiàn)了領域的最新信息。對機械專利文本進行命名實體識別,及時發(fā)現(xiàn)最新的技術和應用,將有利于確定技術發(fā)展趨勢。例如,劉宇飛等[8]應用命名實體識別技術識別數(shù)控系統(tǒng)新興技術,陳秋瑗等[9]利用其實現(xiàn)機械設計領域新詞發(fā)現(xiàn)等。
目前,命名實體識別常用的方法有基于規(guī)則和詞典的方法、基于傳統(tǒng)統(tǒng)計機器學習的方法和基于深度學習的方法等[10-13]。其中,由于深度學習能夠從原始數(shù)據(jù)中自動獲取特征,提升數(shù)據(jù)的處理能力和識別的準確性,因而被廣泛應用于命名實體識別中[14-18]。由于深度學習方法需要大量的樣本數(shù)據(jù),基于深度學習的命名實體識別研究主要集中于具有成熟數(shù)據(jù)集的通用領域和生物醫(yī)學等幾個特定領域,而機械工程領域涉及范圍寬,且目前沒有成熟的標注數(shù)據(jù)集,因此極大地限制了命名實體識別方法在機械工程領域中的應用。
遷移學習能夠利用已獲取的源域知識改善目標任務,所以將遷移學習引入命名實體識別中,可以有效地解決模型由于數(shù)據(jù)集少而導致的識別能力不足的問題[19]。Devlin等[20]提出了基于遷移學習的BERT(Bidirectional Encoder Representations from Transformers)模型,刷新了包括命名實體識別在內(nèi)的11種NLP測試成績。楊飄等[21]將BERT作為預訓練語言模型,并將其與BiLSTM-CRF模型相結合解決中文命名實體識別問題,結果表明在命名實體識別任務中,結合后的模型性能有較大提升。由此可知,BERT遷移學習模型作為預訓練語言模型遷移,能夠提高模型識別的準確性。
本文針對機械工程領域命名實體識別中成熟標注數(shù)據(jù)集少的問題,以及更好地提高識別精度,提出一種基于雙重深度遷移學習的中文命名實體識別方法。該方法應用BERT模型對文本語義進行遷移的基礎上,進一步利用模型遷移的方法對命名實體識別模型的預訓練參數(shù)實施整體遷移,建立了雙重深度遷移學習模型—DT-BLC模型,從而更好地實現(xiàn)命名實體識別具體任務知識的遷移,提升了機械工程領域命名實體識別的準確性,有效地解決了深度學習在機械工程領域中由于數(shù)據(jù)量少而導致的學習能力不足的問題。然后以齒輪專利為例,運用雙重遷移學習模型分別對每一年的齒輪發(fā)明專利文獻進行命名實體,運用統(tǒng)計學的方法分析齒輪的研究重點和最新發(fā)展趨勢。
雙重遷移學習模型框架如圖1所示,由兩部分組成:基于BERT的單重深度遷移學習和基于整體模型的遷移學習。先將源域數(shù)據(jù)集輸入到BERT+BiLSTM-CRF模型中獲得預訓練參數(shù),之后將預訓練參數(shù)輸入到訓練模型中,并對訓練模型進行參數(shù)凍結建立凍結的訓練模型,接下來將目標域數(shù)據(jù)集輸入到凍結的訓練模型進行訓練,訓練好的模型便成為命名實體識別器,最后輸入目標域測試數(shù)據(jù)集就能獲得識別結果。
圖1 雙重遷移學習模型框架
基于BERT的遷移學習由BERT預訓練語言模型、BiLSTM-CRF模型組成。在模型中利用BERT預訓練的模型參數(shù)進行模型遷移,將維基百科語料的語義關系遷移到機械工程領域,實現(xiàn)了模型的第一次遷移學習。
BERT的一個重要的應用就是作為預訓練語言模型,與其他語言表示模型相比,BERT預訓練模型可以將經(jīng)過大規(guī)模語料所學習的網(wǎng)絡結構為目標學習任務提供豐富的先驗知識,并將語義知識遷移到具體的模型訓練當中,進而能夠提高模型的泛化能力和魯棒性,同時可以減少大量的人工標注工作,尤其適用于處理數(shù)據(jù)量比較少的自然語言任務。
條件隨機場(CRF)是一種概率無向圖模型,它通過計算某個序列中的聯(lián)合優(yōu)化概率,進而優(yōu)化整個序列的標簽序列。CRF概率計算式為:
(1)
在這一部分中,模型先將輸入文本通過BERT預訓練語言模型獲得語義表示,得到句子中的每個字的向量表示后,再將字向量輸入到BiLSTM中進行序列特征的自動提取,最后通過CRF層輸出概率最大的標簽序列。
基于整體模型的遷移學習是建立在模型遷移方法的基礎上,并在目標數(shù)據(jù)進行訓練時對深度學習神經(jīng)網(wǎng)絡的幾層權重因子進行了凍結,實現(xiàn)了模型的第二次遷移學習。
模型遷移方法建立在成熟的深度學習神經(jīng)網(wǎng)絡模型的基礎上,首先利用大量高質(zhì)量的源數(shù)據(jù)對神經(jīng)網(wǎng)絡模型進行相關訓練,并通過調(diào)參后得到可靠的模型。然后用此模型對目標數(shù)據(jù)集進行訓練,訓練時可以選擇遷移部分或全部參數(shù)。最后通過深度學習神經(jīng)網(wǎng)絡結構的自適應性對模型進行微調(diào)。由于模型的可靠性已經(jīng)得到了檢驗,提前得到了底層的模型結構和參數(shù),為目標領域的訓練提供了很好的初始化,節(jié)省了目標領域的訓練時間,降低了調(diào)參難度,同時也提升了目標領域的建模效果。
在模型中,假設所有權重因子為vars,則權重因子可以分為兩部分:
vars=vars0+v
(2)
式中:vars0代表源域和目標域共享部分;v代表對目標域的特定處理。在模型訓練時,將所有需要更新計算的權重因子v相應名稱加入庫中,vars0從預訓練模塊中繼承參數(shù),實現(xiàn)參數(shù)共享。更新時,僅訓練更新庫中的權重因子v,沒有加入庫中的權重因子vars0在訓練過程中只進行調(diào)用,不進行更新,將vars0權重因子進行凍結。將模型的部分權重因子進行凍結能夠充分利用預訓練模型的先驗知識,且模型的訓練更新參數(shù)減少將大大縮短模型每一步的訓練時間。
在這一部分中,模型首先將源數(shù)據(jù)(MSRA數(shù)據(jù)集)輸入到預訓練模塊中進行預訓練,在預訓練過程中不斷用Adam優(yōu)化器對參數(shù)進行優(yōu)化,直至達到Pre_epoch參數(shù)值;接下來將預訓練模塊計算出的全部參數(shù)(即預訓練參數(shù))輸入到訓練模塊中,對訓練模塊的參數(shù)進行初始化;然后對訓練模塊的權重因子vars0進行凍結,建立凍結的訓練模塊,之后將目標訓練數(shù)據(jù)(機械工程領域數(shù)據(jù)集)輸入到凍結的訓練模塊中進行訓練;最終得到機械工程領域的命名實體識別器。將需要進行命名實體識別的目標域測試數(shù)據(jù)輸入到命名實體識別器中,即可得到命名實體識別結果。
由于機械工程領域沒有成熟的標注數(shù)據(jù)集,目標域數(shù)據(jù)集采用手工標注的機械工程領域相關文本,數(shù)據(jù)集采用BIO標注,類別分別為材料、熱處理和零件名稱。目標域訓練集有938個標記語句,目標域測試集有163個句子。
源數(shù)據(jù)集(即預訓練數(shù)據(jù)集)為微軟亞洲研究院的MSRA部分數(shù)據(jù)集,數(shù)據(jù)集采用BIO標注,實體類別分別為:人名、地名和組織機構名。源數(shù)據(jù)集有19 717個標記語句。
在測試時,只有當識別的實體邊界和實體的類型完全準確時,實體才算識別正確。命名實體識別的常用的評估指標有精確率(P)、召回率(R)和F1值。因此本文用這三個指標來判斷命名實體識別系統(tǒng)的識別效果,指標的計算方法為:
(3)
式中:TP表示模型識別正確的個數(shù);FP表示模型識別錯誤的實體個數(shù);FN表示文本中實體未識別到的個數(shù)。
實驗首先對雙重深度遷移學習模型DT-BLC與常用模型BERT+BI-LSTM-CRF在相同參數(shù)條件下的F1值、運算速度進行比較,研究雙重遷移學習對模型的改進效果,然后改變模型DT-BLC中對源域的預訓練epoch(Per_epoch)參數(shù),探究Per_epoch參數(shù)對雙重深度遷移學習模型的影響。
模型BERT+BiLSTM-CRF和模型DT-BLC進行比較,參數(shù)設置如表1所示。
表1 模型的比較參數(shù)
對于模型DT-BLC,Pre_epoch參數(shù)分別設置為0.1、0.15、0.2、0.25、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5。
最后為了驗證實驗的有效性,將模型與BiLSTM-CRF模型和Lattice-LSTM-CRF模型的識別結果進行比較。
命名實體識別系統(tǒng)常用的評估指標有精確率、召回率和F1值,NER是復雜的任務單靠一個指標很難做評判,因此采用綜合指標F1對識別效果做判斷。
DT-BLC模型和BERT+BiLSTM-CRF模型的F1值隨迭代epoch的變化如圖2所示??梢钥闯?,在訓練過程中,與BERT+BiLSTM-CRF模型相比,應用了雙重遷移學習方法的DT-BLC模型的F1值更高,且DT-BLC模型在訓練到17個epoch時,其訓練F1已達到90%,BERT+BiLSTM-CRF模型在訓練到40個epoch才達到90%,能夠在更短的時間達到比較高的F1值。所以基于整體模型的遷移學習能達到提升模型的識別效果和縮短訓練時間的效果。
圖2 DT-BLC模型和BERT+BiLSTM-CRF模型的F1值隨迭代epoch的變化
雙重深度遷移學習模型DT-BLC在訓練目標數(shù)據(jù)時,對一部分深度學習神經(jīng)網(wǎng)絡權值因子進行了凍結,使模型訓練過程中更新的參數(shù)更少。對DT-BLC模型和BERT+BiLSTM-CRF模型訓練時間進行對比,實驗結果如圖3所示。
(a) DT-BLC模型和BERT+BiLSTM-CRF模型運行時間隨迭代epoch的變化
(b) DT-BLC模型和BERT+BiLSTM-CRF模型訓練速度隨迭代epoch的變化圖3 模型的訓練速度分析
可以看出,與模型BERT+BiLSTM-CRF相比,運算相同迭代epoch時,模型DT-BLC所需時間明顯減少,運算速度加快。表明雙重遷移學習模型在模型遷移的基礎上對訓練模型的部分權重因子進行的凍結,能夠在保證識別效果的同時,使每次的epoch所需要的時間更短,大大縮短了訓練時間,提升了模型訓練效率。
Pre_epoch參數(shù)指的是在基于整體模型的遷移學習中,預訓練模型對源數(shù)據(jù)集訓練的epoch,Pre_epoch的值越大代表對源數(shù)據(jù)集訓練的迭代步數(shù)和訓練時間越久。通過DT-BLC模型的精確率、召回率和F1隨Pre_epoch參數(shù)的變化來研究基于整體模型的遷移學習對DT-BLC模型識別效果的影響,如圖4所示。
圖4 DT-BLC模型的精確率、召回率、F1值隨Pre_epoch的變化
可以看出,當Pre_epoch為0.1(即Pre_epoch非常小)時,基于整體模型的遷移學習對模型起到抑制的作用,DT-BLC模型的精確率、召回率、F1值均為0;隨著Pre_epoch的增加,DT-BLC模型的精確率、召回率、F1值迅速增加,當Pre_epoch為0.3時,DT-BLC模型的識別效果達到一個比較大的值;而后隨著Pre_epoch的增加,DT-BLC模型精確率、召回率、F1值在一個較小的范圍內(nèi)波動。由此可知,Pre_epoch參數(shù)在值比較小時,其值變化對DT-BLC模型的識別影響比較大,在Pre_epoch參數(shù)值超過0.15后,其值的增加對模型識別影響較小,且很小的Pre_epoch參數(shù)就能對模型產(chǎn)生遷移優(yōu)化的效果。
與BiLSTM-CRF模型和Lattice-LSTM-CRF模型識別效果的比較結果如表2所示。
表2 不同模型識別效果比較(%)
將DT-BLC模型與BiLSTM-CRF模型、Lattice-LSTM-CRF模型和BERT+BiLSTM-CRF模型進行對比,發(fā)現(xiàn)DT-BLC模型的精確率、召回率和F1值均高于其他三個模型,且基于雙重深度遷移學習的DT-BLC模型,與BERT+BiLSTM-CRF模型相比,精確率高出5.01百分點,召回率高出4.84百分點,F(xiàn)1值高出4.93百分點。由此證明基于雙重深度遷移學習的DT-BLC模型能夠通過兩次遷移的方法,利用通用領域命名實體識別任務的參數(shù)提供先驗知識,進而提升機械工程領域的命名實體識別效果。
齒輪是機械領域重要的基礎性零件,其每年都有大量的專利申請受理,其對加工技術和加工機床的要求也不斷提高。因此,本文以分析齒輪專利文獻為例,分別獲取2010年至2018年的齒輪相關發(fā)明專利數(shù)據(jù)的摘要,組建面向機械領域的齒輪專利實驗數(shù)據(jù)文本(數(shù)據(jù)文本中有權發(fā)明專利摘要共計28 707條),然后運用DT-BLC模型對專利文本進行實體識別,通過識別結果對齒輪專利開展如下兩個方面的分析。
運用DT-BLC模型分別對每一年的齒輪發(fā)明專利文獻進行命名實體識別,然后分別針對識別到的齒輪材料、加工工藝和零部件三類實體類別,統(tǒng)計其在每年齒輪發(fā)明專利中所占的比例,以分析齒輪技術類別的發(fā)展趨勢。
齒輪發(fā)明專利各個實體類別比例隨著年份的變化趨勢如圖5所示。可以看出,每年齒輪發(fā)明專利文獻識別到的三個技術類別實體在實體總數(shù)中的比例基本不變,且零部件實體遠遠高于材料實體和加工工藝實體,其所占比例大約在97.5%。這是因為在實體識別的過程中,將機械產(chǎn)品、裝置名稱、零件和部件名稱均歸類為零部件類別,且齒輪是零件,專利研究多集中于將其與其他零件相結合組成部件或機械產(chǎn)品中。
圖5 實體比率隨年份變化
由此可得,齒輪的發(fā)明專利集中于將零件運用到機械產(chǎn)品,對其新材料在齒輪中的應用以及新的加工方法在齒輪中的應用相對較少,不過近年來材料實體的比例有所提升。
隨著新材料的不斷發(fā)現(xiàn),齒輪制造過程中越來越注重材料的選擇,使其具有更長的工作壽命和能夠應用于更復雜的工況條件。因此,本文運用統(tǒng)計學方法對DT-BLC模型識別到的齒輪材料實體進行數(shù)據(jù)挖掘,分析齒輪材料應用的研究方向和發(fā)展趨勢。
如圖6所示,對齒輪專利文獻進行命名實體識別后,識別到的材料實體最多是金屬和塑料,然后是齒輪油。由此說明在齒輪材料的研究中還是以金屬為主,而塑料也是研究重點,而齒輪油作為齒輪潤滑必不可少的材料也引起了相關學者的重點關注。對兩種重要的金屬材料不銹鋼和鋁合金進行對比發(fā)現(xiàn),不銹鋼作為齒輪材料應用更加廣泛。同時運用新詞發(fā)現(xiàn)來探究齒輪材料新的發(fā)展方向。在DT-BLC模型識別到的材料實體中,2017年發(fā)現(xiàn)的在2010年至2016年未出現(xiàn)的材料實體可以分為三類。一類是應用于齒輪的新材料:耐磨自潤滑尼龍、碳纖維復合材料、玻纖增強尼龍、燒結鐵合金、鎳包碳化鎢;一類是齒輪材料應用于新材料制備,即齒輪的新應用,包括PET塑料、芳綸Ⅲ樹脂、聚丙烯酰胺;一類是應用于齒輪潤滑的齒輪油新材料,如:全合成超載荷抗磨極壓工業(yè)齒輪油、無硫磷有機鉬減摩劑、聚α烯烴基油。這些識別到的新詞反映了齒輪新的研究方向,對其進行發(fā)現(xiàn)能夠把握齒輪發(fā)展的趨勢,使企業(yè)及時跟進最新發(fā)展動態(tài)。
圖6 材料實體隨年份變化趨勢
本文針對機械工程領域,提出一種基于雙重遷移學習的中文命名實體識別方法,建立了DT-BLC模型,并對其性能進行了分析。同時,將DT-BLC模型應用于齒輪專利的研究與發(fā)展趨勢分析。研究結果表明:
(1) 與其他模型相比,雙重深度遷移學習模型DT-BLC的精確率、召回率和F1值均得到提升。
(2) 隨著Pre_epoch參數(shù)的增加,雙重深度遷移學習模型DT-BLC的識別效果迅速提升,并且穩(wěn)定在一定范圍內(nèi)。
(3) 通過對DT-BLC模型識別后的齒輪專利實體進行分析,得出齒輪發(fā)明專利多集中于將零件運用到機械產(chǎn)品,同時齒輪材料依然以金屬為主,不過近年來新材料的研發(fā)也得到較多關注。