王向前,李敏敏,孟祥瑞
(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232000)
煤礦事故案例多數(shù)是以文本的格式進(jìn)行存儲(chǔ),主要記錄事故發(fā)生的基本情況,事故發(fā)生的經(jīng)過以及造成事故的原因等眾多信息。當(dāng)我們想要獲取一些信息時(shí),需要從大量冗余的數(shù)據(jù)中進(jìn)行查找,耗費(fèi)大量人力。然而,知識(shí)圖譜的構(gòu)建可以解決這一問題,它可以根據(jù)用戶的需求,對其進(jìn)行解析,在構(gòu)建的知識(shí)庫中尋找最準(zhǔn)確的答案返回給用戶。目前知識(shí)圖譜廣泛應(yīng)用于各個(gè)領(lǐng)域,王先傳[1]等人提出以事件作為節(jié)點(diǎn),事件關(guān)系作為邊構(gòu)建面向事件的知識(shí)圖譜,證明了基于語料庫的事件知識(shí)圖譜構(gòu)建方法是可行的;吉娜燁[2]等利用關(guān)鍵事件抽取算法,從文字賽事直播中抽取事件點(diǎn),然后基于NBA 賽事知識(shí)圖譜的構(gòu)建,從中抽取背景信息和描述重點(diǎn),自動(dòng)生成新聞初稿,融入知識(shí)圖譜以后,提高了所生成的質(zhì)量;胡炫炫[3]等基于知識(shí)圖譜對辱虐管理進(jìn)行研究并給予可視化分析,得出我國辱虐管理研究熱點(diǎn)主要集中在工作績效、離職傾向、情緒耗竭等方面,且目前對辱虐管理的研究多偏重其消極作用;李亞恒[4]對我國非物質(zhì)文化遺產(chǎn)旅游研究的知識(shí)圖譜進(jìn)行可視化,從基金、發(fā)文期刊、研究機(jī)構(gòu)、發(fā)文作者、研究熱點(diǎn)等方面進(jìn)行分析,為非物質(zhì)文化遺產(chǎn)旅游的研究提供了參考。
命名實(shí)體識(shí)別[5](Named Entity Recognition,NER)是知識(shí)圖譜構(gòu)建最基礎(chǔ)也是最關(guān)鍵的一步,它的主要工作就是從一個(gè)自然文本中識(shí)別出我們所指定的一些實(shí)體(比如時(shí)間、地點(diǎn)、人名、組織機(jī)構(gòu)名等等)。命名實(shí)體識(shí)別大體上可以劃分為三類:①基于規(guī)則的命名實(shí)體識(shí)別,它是最早應(yīng)用到命名實(shí)體識(shí)別領(lǐng)域中的方法。Rau[6]最早提出利用人工編寫規(guī)則思想從文本中對實(shí)體進(jìn)行識(shí)別,基于這種思想,皇甫晶等[7]人為了可以自動(dòng)識(shí)別古代漢語文獻(xiàn)中的,利用人工編寫規(guī)則設(shè)計(jì)了自動(dòng)識(shí)別姓名系統(tǒng)模型,識(shí)別結(jié)果召回率為75.4%,準(zhǔn)確率為91.9%;閆丹輝等[8]人基于規(guī)則的思想,針對越南語命名實(shí)體識(shí)別一共制定152 條規(guī)則,對越南語命名實(shí)體進(jìn)行展開研究,得到了高于90%的準(zhǔn)確率;基于規(guī)則的命名實(shí)體識(shí)別方法雖然可擴(kuò)展性高并且具有成本低的優(yōu)點(diǎn),但是這種優(yōu)點(diǎn)一般適用于處理較少的數(shù)據(jù)集,具有局限性。②基于統(tǒng)計(jì)模型命名實(shí)體識(shí)別,主流方法有SVM[9]、HMM[10]、CRF[11]等?;诮y(tǒng)計(jì)的方法常和基于規(guī)則方法結(jié)合,能夠達(dá)到更好的識(shí)別效果。焦凱楠[12]在中文領(lǐng)域命名實(shí)體識(shí)別綜述中提到基于統(tǒng)計(jì)模型的命名實(shí)體識(shí)別在旅游業(yè)等領(lǐng)域的介紹,張海軍[13]梳理了維吾爾語短語自動(dòng)抽取的相關(guān)研究進(jìn)展,論文中分別針對基于規(guī)則、統(tǒng)計(jì)和基于規(guī)則與統(tǒng)計(jì)規(guī)則三種模型在維吾爾語短語識(shí)別中取得的研究成果進(jìn)行闡述,得到統(tǒng)計(jì)和規(guī)則相結(jié)合的方法能夠得到更好的短語識(shí)別結(jié)果。基于規(guī)則和統(tǒng)計(jì)的方法雖然能夠得到較高的準(zhǔn)確率,但是得到召回率較低,難以手工總結(jié)所有的規(guī)則。③和前兩種方法相比,基于深度學(xué)習(xí)[14]的命名實(shí)體識(shí)別具有可擴(kuò)展性高、成本低以及高召回率的優(yōu)點(diǎn),能夠較好的完成命名實(shí)體識(shí)別。
現(xiàn)階段,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別已在各個(gè)領(lǐng)域廣泛應(yīng)用張華麗等[15]人對中文電子病歷命名實(shí)體識(shí)別進(jìn)行展開研究時(shí),利用雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)模型與條件隨機(jī)場(CRF)模型進(jìn)行結(jié)合消除了傳統(tǒng)命名實(shí)體識(shí)別方法高度依賴人工特征提取的不足,張秋穎等[16]人利用BERT-BiLSTM-CRF 模型對學(xué)者主頁信息進(jìn)行挖掘;買買提阿依甫[17]等提出BiLSTM-CNN-CRF 模型來實(shí)現(xiàn)維吾爾文的命名實(shí)體識(shí)別,實(shí)驗(yàn)結(jié)果表明此模型能夠解決命名實(shí)體的自動(dòng)識(shí)別,f1 值達(dá)到91.89%;雖然命名實(shí)體識(shí)別已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域,然后在煤礦事故案例文本方面實(shí)體識(shí)別的研究較少。
針對煤礦文本案例中的命名實(shí)體識(shí)別問題,本文提出ALBERT-BiLSTM-CRF 模型。它解決了傳統(tǒng)方法對詞典和規(guī)則依賴性強(qiáng)的問題,避免了人工特征提取。直接對原始數(shù)據(jù)進(jìn)行矢量化可以自動(dòng)從數(shù)據(jù)中提取有用的特征。利用ALBERT獲取輸入文本動(dòng)態(tài)詞向量,結(jié)合CRF 算法,對BiLSTM 的輸出進(jìn)行約束。
中國煤礦安全網(wǎng)是根據(jù)按照國家安全生產(chǎn)的政策、法規(guī)以及管理規(guī)范而建立的,它是一個(gè)專業(yè)的網(wǎng)絡(luò)平臺(tái),是煤炭行業(yè)內(nèi)的一流專業(yè)網(wǎng)站。本次實(shí)驗(yàn)數(shù)據(jù)通過python 爬蟲,對中國煤礦安全網(wǎng)事故案例進(jìn)行爬取,經(jīng)過篩選,保留239 份煤礦瓦斯類文本數(shù)據(jù)作為試驗(yàn)數(shù)據(jù)。
在得到實(shí)驗(yàn)數(shù)據(jù)語料后,首先要對煤礦領(lǐng)域中實(shí)體進(jìn)行分析,按照現(xiàn)實(shí)生活中的概念、概念間的關(guān)系、概念的屬性以及概念的實(shí)例抽象出的實(shí)體模型進(jìn)行煤礦領(lǐng)域詞典構(gòu)建,用于分詞。使用jieba 對構(gòu)建的煤礦領(lǐng)域語料庫進(jìn)行分詞時(shí),由于煤礦事故案例文本中涉及到較多的人名、地名、礦井名稱、煤礦公司、事故類型等等,使得python 中所含的jieba 庫不能準(zhǔn)確的對文本語料進(jìn)行分詞,本文基于煤礦事故案例文本構(gòu)建煤礦領(lǐng)域詞典,里面共含有246 個(gè)詞。在jieba 進(jìn)行分詞的同時(shí)加載自定義詞典,提高分詞效果,達(dá)到更好的實(shí)體識(shí)別結(jié)果。表1 展示了加載自構(gòu)建詞典前后結(jié)巴分詞的變化。
表1 結(jié)巴加載自構(gòu)建詞典前后分詞詞性變換
本文采用BMEO[18]詞性標(biāo)注模式進(jìn)行標(biāo)注將實(shí)驗(yàn)的219 個(gè)文本語料以7:2:1 的比例,將其分成三份,分別作為訓(xùn)練集、驗(yàn)證集、測試集,對分詞后的詞采用BMEO 進(jìn)行標(biāo)注。其中B 表示實(shí)體的開始,M 表示實(shí)體的中間,E 則代表一個(gè)實(shí)體的結(jié)束位置,O 代表非實(shí)體。比如B-PER、M-PER 和E-PER 分別代表著人名開頭與中間與結(jié)束。使用結(jié)巴庫對語料集進(jìn)行分詞和標(biāo)注,以瓦斯突出事故為例,確定了抽取7 個(gè)實(shí)體類別;(1)瓦斯突出成分(Component):發(fā)生煤與瓦斯突出事故時(shí),突出的成分;(2)突出預(yù)兆(Omen):瓦斯突出前所發(fā)生的預(yù)兆,如頂鉆、卡鉆等;(3)突出煤層結(jié)構(gòu)變化(Change):煤與瓦斯突出時(shí)煤層本身松軟結(jié)構(gòu)有哪些變化;(4)直接原因(Dreason):造成事故發(fā)生的直接原因;(5)間接原因(Ireason):造成事故發(fā)生的間接原因。(6)事故性質(zhì)(Poperties):事故屬于安全生產(chǎn)責(zé)任事故還是責(zé)任事故;(7)事故類型(Class):瓦斯爆炸、瓦斯中毒窒息、煤與瓦斯突出;表2 為部分序列標(biāo)注樣例。
表2 序列標(biāo)注
在經(jīng)過數(shù)據(jù)預(yù)處理以后,采用ALBERT-BiLSTM-CRF 模型進(jìn)行實(shí)體標(biāo)注模塊模型訓(xùn)練,ALBERT-BiLSTM-CRF 模型包括三個(gè)部分,ALBERT層作為第一層將輸入的字符轉(zhuǎn)化為字向量,BiLSTM 層進(jìn)行特征的提取,CRF 層進(jìn)行命名實(shí)體識(shí)別工作。首先將預(yù)處理好的詞向量嵌入到BiLSTM 層,作為CRF 層的輸入,由CRF 層進(jìn)行預(yù)測的BMEO 標(biāo)注,完成實(shí)體識(shí)別。對模型再進(jìn)行重新加載,預(yù)測新的文本。
ALBERT 模型是一種基于Transformer 神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型,基于神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練技術(shù)分為兩大類:(1)靜態(tài)詞向量:2003 年由Y Bengio等[19]人提出神經(jīng)語言模型(NNLM),NNLM 由三層簡單的神經(jīng)網(wǎng)絡(luò)構(gòu)成,NNLM 雖然解決了語義鴻溝的問題,但是在進(jìn)行語義預(yù)訓(xùn)練時(shí)只能利用上下文信息不能解決一詞多義的問題;2013 年Google 公司基于NNLM 模型算法原理,提出Word2Vec[20],Word2Vec 詞向量模型能夠從大規(guī)模語料庫中獲得高精度的詞向量,由于Word2Vec 獲取的是靜態(tài)詞向量,依舊不能解決一詞多義;2014年J Pennighton 等[21]提出Glove 模型,Glove 模型是一個(gè)全局對數(shù)雙線性回歸模型,結(jié)合了Word2Vec 和SVD 的優(yōu)點(diǎn),Glove 可以達(dá)到更快的訓(xùn)練速度,但是由于Glove 使用的是全局特征,所以耗時(shí)長并且仍然無法解決一詞多義;(2)動(dòng)態(tài)詞向量:Elmo[22]模型采用的是雙層雙向的LSTM,在一定程度上能夠解決一詞多義問題且模型效果良好,但是Elmo 模型采用的雙向拼接融合特征比一體化的融合方式要弱;BERT[23]預(yù)訓(xùn)練模型2018年由Devlin J 等人提出,BERT 采用了雙向語言模型、MLM 和NSP 三種技術(shù),其模型如圖一所示?,F(xiàn)階段BERT 模型雖然應(yīng)用廣泛,但是也存在一定的缺陷,其參數(shù)量巨大使得在實(shí)際應(yīng)用中具有困難。ALBERT[24]模型用參數(shù)共享與低秩分解技術(shù)進(jìn)行壓縮,和BERT 模型擁有相同結(jié)構(gòu),由BERT 模型改進(jìn)而來,和BERT 模型相比,ALBERT 模型擁有更少的參數(shù),更優(yōu)越的模型性能。ALBERT 模型能夠獲取動(dòng)態(tài)詞向量,解決了以往一詞多義的問題。
圖1 BERT 模型
BiLSTM 算法是由Schmiduber 于1997 年提出的,本質(zhì)上是一種具有特殊結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[25]。在傳統(tǒng)的RNN 模型中,進(jìn)行長序列處理時(shí),容易出現(xiàn)梯度消失或者梯度爆炸的情況[26],為解決這一問題,LSTM(Long Short Term Memory Networks)網(wǎng)絡(luò)被提出,使用LSTM 模型可以更好地捕獲長距離依賴關(guān)系。通過訓(xùn)練,LSTM 網(wǎng)絡(luò)模型學(xué)習(xí)記住什么和忘記什么。RNN和LSTM 共享一個(gè)相似的網(wǎng)絡(luò)主題,它們都是鏈?zhǔn)降难h(huán)神經(jīng)網(wǎng)絡(luò),傳統(tǒng)的RNN 網(wǎng)絡(luò)循環(huán)節(jié)點(diǎn)只含有一個(gè)簡單的結(jié)構(gòu),比如一個(gè)tanh 層。而LSTM 與RNN 相比,它的內(nèi)部就要復(fù)雜很多,并且在其循環(huán)階段,它的內(nèi)部將會(huì)擁有更加復(fù)雜的結(jié)構(gòu),這種復(fù)雜結(jié)構(gòu)是由四個(gè)不同的層來進(jìn)行信息交互的控制。然而,LSTM 在對句子進(jìn)行建模的時(shí)候,仍然不能從后往前對輸入的信息進(jìn)行解碼,這是它到現(xiàn)在也還沒解決的一個(gè)問題?;贚STM 的這種缺點(diǎn),因此提出了BiLSTM,BiLSTM 模型能夠較好的對雙向的語義依賴進(jìn)行捕捉,構(gòu)建BiLSTM 的主要思想就是結(jié)合前向LSTM 和后向LSTM。如圖2 展示了雙向的LSTM 模型。
圖2 BiLSTM 模型
其中X 表示輸入序列,依次通過前向的LSTM 網(wǎng)絡(luò),并且輸出隱藏狀態(tài),同理,反向的LSTM 網(wǎng)絡(luò)依次接收反向的輸入序列,并且將反向隱藏狀態(tài)輸出,然后將同一輸入變量的前向隱藏狀態(tài)與反向隱藏狀態(tài)結(jié)合,形成最終的輸出向量。雙向LSTM 為了確保對于訓(xùn)練序列特征提取的全局性以及完整性,所以實(shí)行前向和后向兩次訓(xùn)練。
目前自然語言處理中,最常用的是線性鏈條條件隨機(jī)場(Linear Chain Conditional Random Filed)。它用來對序列化數(shù)據(jù)進(jìn)行詞性的標(biāo)注和數(shù)據(jù)的切分,它用來計(jì)算給定一個(gè)觀察序列的標(biāo)記序列的條件概率分布,線性鏈CRF 定義如下:假設(shè)有兩個(gè)隨機(jī)變量序列的線性鏈x=(x1,x2,…,xn) 和y=(y1,y2,…,yn),若x和y滿足馬爾可夫性p(yi|x,y1,y2…yn)=p(yi|x,yi-1,yi+1),即:則稱p(y|x)為線性鏈的條件隨機(jī)場。其中x作為輸入的觀察序列,y是與之對應(yīng)的標(biāo)記序列,條件隨機(jī)場參數(shù)化表示形式如下:
其中tk和sl是特征函數(shù),對應(yīng)的權(quán)值為λk、μl,歸因化因子z(x)表達(dá)式如下:
其中tk表示的是轉(zhuǎn)移特征,它依賴于當(dāng)前位置和上一個(gè)位置,sl表示狀態(tài)特征,只依賴于當(dāng)前位置。
圖3 為線性鏈條條件隨機(jī)場模型。CRF 模型作為標(biāo)簽解碼器,被廣泛應(yīng)用于基于深度學(xué)習(xí)的命名實(shí)體任務(wù)中,CRF 能夠通過有效進(jìn)行建模對標(biāo)簽之間的約束關(guān)系進(jìn)行預(yù)測,以此提高NER 的準(zhǔn)確性。圖中權(quán)重f1對應(yīng)每個(gè)詞的向量特征μ1獲得。以下公式用于計(jì)算輸入句子序列x,輸出序列為y 的概率得
圖3 線性鏈條件隨機(jī)場
其中,i表示的是單詞在句子中的位置,yi是當(dāng)前單詞的標(biāo)簽,yi-1是前一個(gè)單詞的標(biāo)簽,m對應(yīng)的是特征數(shù),n代表的是輸入的句子的長度,然后將得到的分?jǐn)?shù)進(jìn)行歸一化,將結(jié)果轉(zhuǎn)化為概率值,將輸出結(jié)果中概率值最大的作為最終的序列標(biāo)簽。
從圖4 可以看到,此模型從上往下由字向量層ALBERT、BiLSTM 層和CRF 層組成的。它的輸入是序列化文本,如圖4 輸入層輸入文本‘板橋溝煤礦:瓦斯爆炸’,在CRF 層得到輸出的相應(yīng)的注釋序列,輸出序列采用的BMEO 進(jìn)行標(biāo)注。其中B 表示實(shí)體的開始,M 表示實(shí)體的中間,E 表示實(shí)體的結(jié)束,O 表示非實(shí)體。在模型實(shí)現(xiàn)過程中,將輸入的每個(gè)字符轉(zhuǎn)換成向量形式,作為BiLSTM 的輸入提取上下文特征,輸出特征向量作為CRF 層的輸入,對輸入進(jìn)行歸一化,最后輸出標(biāo)注序列。
圖4 ALBERT-BiLSTM-CRF 模型
ALBERT 層作為模型第一層,其采用了矩陣分解的方法降低參數(shù)量,并引入一個(gè)低維向量空間E,其分解公式為:
其中V 代表詞匯表向量,H 表示隱含層向量大小。同時(shí),ALBERT 模型提出了使用SOP(Sentence Order Prediction)預(yù)訓(xùn)練的方法,SOP 主要關(guān)注句間連貫性,從而提升下游多句子編碼任務(wù)的性能。
圖中雙向的LSTM 層用來關(guān)注文中過去的信息和未來的信息,將輸入的序列進(jìn)行從前往后和從后往前兩個(gè)方向進(jìn)行學(xué)習(xí)訓(xùn)練,例如輸入語句序列:“板橋溝煤礦:瓦斯爆炸”,對其進(jìn)行反向序列學(xué)習(xí):“炸爆斯瓦:礦煤溝橋板”,前向和反向的結(jié)合解決了以往無法獲取反方向序列特征的問題。
最后一層CRF 層通過維特比算法,用來約束詞與詞之間的順序,得到最高分序列標(biāo)注。用來保證實(shí)體的開頭必須是B 而不是M 或者E,例如模型輸出的“瓦斯爆炸”其對應(yīng)的標(biāo)注應(yīng)為“BClass、M-Class、M-Class、E-Class”,如果沒有CRF層的約束,輸出的對應(yīng)標(biāo)注信息可能會(huì)出現(xiàn)“MClass、B-Class、M-Class、E-Class”等錯(cuò)誤標(biāo)注。
2.4.1 模型評估標(biāo)準(zhǔn)
在ALBERT-BiLSTM-CRF 模型上進(jìn)行訓(xùn)練時(shí),該模型采用的標(biāo)準(zhǔn)為精確度(Precision)、召回率(Recall)、f1值(f1-score),具體公式為:
其中TP(true positive)、FP(false positive)、TN(true negative)、FN(false negative),這四個(gè)指標(biāo)構(gòu)成分類結(jié)果混淆矩陣,分別表示將正類預(yù)測為正類、將反類預(yù)測為正類、將反類預(yù)測為反類、將正類預(yù)測為反類,如表3 所示。
表3 分類結(jié)果混淆矩陣
本次實(shí)驗(yàn)?zāi)P拖嚓P(guān)參數(shù)如下:經(jīng)過文本語料預(yù)處理,句子切分,共獲取了13270 條語句,一次訓(xùn)練所抓取的數(shù)據(jù)樣本數(shù)量“batch_size=32”,學(xué)習(xí)率“l(fā)r=0.001”,迭代次數(shù)“epoches=15”,設(shè)置訓(xùn)練提前停止條件為當(dāng)準(zhǔn)確率不再提升時(shí),則停止迭代。圖五為四種模型隨著迭代次數(shù)的增加準(zhǔn)確率的變化。
從圖五可以看出,當(dāng)?shù)螖?shù)進(jìn)行增加時(shí),準(zhǔn)確率也得到了相應(yīng)的提高,其中BiLSTM-CRF 模型當(dāng)?shù)螖?shù)為7 的時(shí)候,模型的準(zhǔn)確率不再增加,此時(shí)準(zhǔn)確率為0.986,f1 值為0.8604;BERTBiLSTM-CRF 模型迭代次數(shù)為7 時(shí)準(zhǔn)確率不再增加,此時(shí)準(zhǔn)確率為0.987,f1 值為0.8725;BiLSTM--CNN-CRF 模型在進(jìn)行9 次迭代以后準(zhǔn)確率不再提高,準(zhǔn)確率為0.983,f1 為0.8483;ALBERT-BiLSTM-CRF 模型通過7 次迭代,準(zhǔn)確率達(dá)到最高為0.998,此時(shí)f1 值為0.9102。四個(gè)模型中ALBERT-BiLSTM-CRF 模型的f1 值最高,可以看出該模型質(zhì)量更高。
實(shí)驗(yàn)采用了預(yù)處理的煤礦事故案例文本語料庫進(jìn)行訓(xùn)練,在訓(xùn)練的文本數(shù)據(jù)集上預(yù)定義了7種實(shí)體類型,從圖五中可知,在進(jìn)行7 次迭代訓(xùn)練以后ALBERT-BiLSTM-CRF 模型的準(zhǔn)確率不再上升,此時(shí)各類實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果如表4 所示。
表4 本文所提模型的實(shí)體識(shí)別結(jié)果
圖5 各模型訓(xùn)練acc 變化圖
從表4 中可以看出,對于瓦斯成分、突出預(yù)兆、煤層結(jié)構(gòu)變化、事故性質(zhì)、事故類型這5 種實(shí)體識(shí)別類型的識(shí)別效果較好,主要由于這5 種實(shí)體類型中所包含的實(shí)體表達(dá)形式較為固定,而直接原因和間接原因中所包含的實(shí)體語義較長且復(fù)雜,導(dǎo)致識(shí)別效果較差。
為了驗(yàn)證ALBERT-BiLSTM-CRF 模型的有效性,本文選取兩種數(shù)據(jù)集,利用BiLSTM-CR、BERT-BiLSTM-CRF、BiLSTM-CNN-CRF、ALBERT-BiLSTM-CRF 四種模型分別對其進(jìn)行訓(xùn)練。首先選擇數(shù)據(jù)集1 為公開數(shù)據(jù)集MASR 數(shù)據(jù)集,由于在網(wǎng)上下載的MASR 數(shù)據(jù)集較大,進(jìn)行訓(xùn)練時(shí),時(shí)間較久,因此選擇數(shù)據(jù)集的一半進(jìn)行驗(yàn)證。表5 為MASR 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。
表5 MASR 數(shù)據(jù)集訓(xùn)練結(jié)果
從表5 可以看出不論那個(gè)模型,在公開數(shù)據(jù)集上訓(xùn)練模型效果都比較好,是因?yàn)镸ASR 數(shù)據(jù)集中只包含了地名、組織、人名三種比較簡單的實(shí)體類別,四種模型中依舊能看到本文所提ALBERT-BiLSTM-CRF 模型性能最優(yōu)。
表6 選擇的數(shù)據(jù)集為收集處理過的煤礦文本事故,同樣利用表5 中用到的4 種模型進(jìn)行訓(xùn)練。
表6 煤礦文本事故數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
從表6 中實(shí)驗(yàn)結(jié)果可以看到,ALBERT-BiLSTM-CRF 模型P、R、f1 值均有提升。對比四個(gè)實(shí)驗(yàn)評價(jià)指標(biāo),本文提出的ALBERT-BiLSTM-CRF模型,在煤礦領(lǐng)域的命名實(shí)體識(shí)別具有更好的體現(xiàn),整體識(shí)別性能較高。通過表5、表6 兩種實(shí)驗(yàn)結(jié)果對比可以看出,采用MASR 數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),模型的整體識(shí)別效果要高于煤礦文本事故數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,主要原因是MASR 數(shù)據(jù)集中的實(shí)體識(shí)別類型較少而且較為簡單,采用的煤礦文本數(shù)據(jù)集里面包含了多種實(shí)體類型,并且有些實(shí)體語義較長導(dǎo)致整體識(shí)別效果較低。
本文提出了一種將深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)算法相結(jié)合的方法來識(shí)別煤礦事故案例文本中的實(shí)體,旨在為煤礦領(lǐng)域構(gòu)建一個(gè)質(zhì)量較高的知識(shí)庫,利用ALBERT-BiLSTM 模型提取非結(jié)構(gòu)化文本數(shù)據(jù)的上下文特征,實(shí)現(xiàn)文本的序列化和標(biāo)注,增加了CRF 算法來約束最終結(jié)果,提高了模型的精度。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于以往的命名實(shí)體識(shí)別方法,對今后煤礦領(lǐng)域的命名實(shí)體識(shí)別任務(wù)具有一定的參考價(jià)值。在構(gòu)造煤礦領(lǐng)域命名實(shí)體識(shí)別中,由于收集文本事故案例,只包含煤礦中的部分事故類別,使得ALBERT-BiLSTM-CRF 模型在對煤礦文本事故進(jìn)行實(shí)體識(shí)別時(shí),具有局限性。
因此后期工作中將擴(kuò)大煤礦事故案例類型,使得ALBERT-BiLSTM-CRF 模型得到更廣泛的普適性,用于后期的煤礦領(lǐng)域中知識(shí)圖譜的構(gòu)建。