• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Transformer-BiLSTM-CRF的橋梁檢測(cè)領(lǐng)域命名實(shí)體識(shí)別

      2021-05-27 05:32:00楊建喜莫天金蔣仕新
      中文信息學(xué)報(bào) 2021年4期
      關(guān)鍵詞:字符語(yǔ)料命名

      李 韌,李 童,楊建喜,莫天金,蔣仕新,李 東

      (重慶交通大學(xué) 信息科學(xué)與工程學(xué)院,重慶 400074)

      0 引言

      作為文本信息抽取的基礎(chǔ)性工作之一,命名實(shí)體識(shí)別研究多年來一直受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。以條件隨機(jī)場(chǎng)(conditional random field,CRF)為代表的概率圖模型成為命名實(shí)體識(shí)別任務(wù)的經(jīng)典方法。近年來,隨著雙向長(zhǎng)短期記憶(bidirectional long short-term Memory,BiLSTM)網(wǎng)絡(luò)和文本分布式表示等理論方法的長(zhǎng)足發(fā)展,面向通用領(lǐng)域人名、地名和組織機(jī)構(gòu)名等目標(biāo)的命名實(shí)體識(shí)別方法取得了較大幅度的性能提升[1],并為智能問答、知識(shí)圖譜構(gòu)建等任務(wù)奠定了基礎(chǔ)。與此同時(shí),國(guó)內(nèi)外學(xué)者也針對(duì)中文電子病歷[2]、軍事文本[3]和生物醫(yī)學(xué)[4]等特定領(lǐng)域命名實(shí)體識(shí)別方法進(jìn)行了許多有益探索。

      隨著交通基礎(chǔ)設(shè)施建設(shè)的快速發(fā)展,我國(guó)已有80余萬(wàn)座公路橋梁建成服役。以《公路橋涵養(yǎng)護(hù)規(guī)范》和《公路橋梁技術(shù)狀況評(píng)定標(biāo)準(zhǔn)》等行業(yè)規(guī)范為指導(dǎo),在一定實(shí)施周期或特殊服役狀態(tài)條件下,開展以結(jié)構(gòu)構(gòu)件表觀病害、材料性能劣化和結(jié)構(gòu)幾何變形等為主要內(nèi)容的橋梁檢測(cè),已成為當(dāng)前我國(guó)公路橋梁管理養(yǎng)護(hù)業(yè)務(wù)體系中最重要的工作內(nèi)容之一[5]。目前,業(yè)界已積累了大量橋梁檢測(cè)文本數(shù)據(jù),其中蘊(yùn)含了豐富的橋梁結(jié)構(gòu)參數(shù)、結(jié)構(gòu)病害檢測(cè)結(jié)論及養(yǎng)護(hù)維修處置建議等重要信息。對(duì)橋梁檢測(cè)文本開展以命名實(shí)體識(shí)別為基礎(chǔ)的關(guān)鍵信息抽取方法研究,可為科學(xué)化、智能化的橋梁管理養(yǎng)護(hù)決策及領(lǐng)域知識(shí)共享奠定基礎(chǔ),也是人工智能時(shí)代橋梁工程領(lǐng)域的迫切需求和發(fā)展趨勢(shì)[6]。然而,雖然業(yè)界已有少量面向橋梁檢測(cè)領(lǐng)域的命名實(shí)體識(shí)別研究成果[7],但現(xiàn)有方法僅針對(duì)英文橋梁檢測(cè)文本,適應(yīng)于中文語(yǔ)境的相關(guān)方法研究尚未有效開展。正如本文第2小節(jié)分析所述,由于橋梁檢測(cè)文本中包含較多專業(yè)術(shù)語(yǔ),并且待識(shí)別的命名實(shí)體存在地名或路線名嵌套、字符多義、上下文位置相關(guān)和方向敏感等較強(qiáng)特性,需要探尋一種適用于該問題域的實(shí)體識(shí)別解決方案。

      本文面向橋梁管理養(yǎng)護(hù)實(shí)際行業(yè)需求及其檢測(cè)文本領(lǐng)域特性,結(jié)合Transformer的長(zhǎng)距離位置依賴關(guān)系建模和BiLSTM的雙向序列特征提取能力,提出一種基于Transformer-BiLSTM-CRF聯(lián)合模型的橋梁檢測(cè)領(lǐng)域命名實(shí)體識(shí)別方法。通過構(gòu)建橋梁檢測(cè)命名實(shí)體語(yǔ)料,并在無預(yù)訓(xùn)練模型和有預(yù)訓(xùn)練模型支撐兩種場(chǎng)景下,與當(dāng)前主流的命名實(shí)體識(shí)別神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn),本文提出的方法在實(shí)驗(yàn)數(shù)據(jù)集下具有更好的綜合識(shí)別效果。

      本文的組織結(jié)構(gòu)如下:第1節(jié)對(duì)國(guó)內(nèi)外相關(guān)研究現(xiàn)狀進(jìn)行介紹。第2節(jié)提出橋梁檢測(cè)領(lǐng)域命名實(shí)體識(shí)別的具體目標(biāo)并分析其領(lǐng)域特性。第3節(jié)闡述提出的Transformer-BiLSTM-CRF模型架構(gòu)及其命名實(shí)體識(shí)別方法。第4節(jié)在介紹實(shí)驗(yàn)語(yǔ)料和實(shí)驗(yàn)設(shè)置的基礎(chǔ)上,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。第5節(jié)給出本文結(jié)論及后續(xù)工作展望。

      1 相關(guān)工作

      由于基于規(guī)則或統(tǒng)計(jì)機(jī)器學(xué)習(xí)的傳統(tǒng)命名實(shí)體識(shí)別方法依賴于人工構(gòu)建文本特征,基于深度神經(jīng)網(wǎng)絡(luò)模型的“端到端”識(shí)別方法成為當(dāng)前主要研究方向[8]。例如,Huang等[9]提出了BiLSTM-CRF模型,并將其應(yīng)用于命名實(shí)體識(shí)別和詞性標(biāo)注等序列標(biāo)注任務(wù)。該網(wǎng)絡(luò)結(jié)構(gòu)成為后續(xù)眾多模型方法擴(kuò)展的基礎(chǔ)。另外,Collobert等[10]提出了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)與CRF相結(jié)合的命名實(shí)體識(shí)別方法,在CONLL2003語(yǔ)料上取得了較好的識(shí)別效果。李麗雙等[11]提出了基于CNN-BiLSTM-CRF聯(lián)合模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別方法,通過CNN獲取字符級(jí)特征補(bǔ)充詞向量,在Biocreative Ⅱ GM和JNLPBA2004語(yǔ)料中實(shí)驗(yàn)的F1值分別達(dá)到89.09%和74.40%。

      在中文命名實(shí)體識(shí)別任務(wù)方面,由于不準(zhǔn)確的中文分詞可能會(huì)造成誤差傳遞問題,以字向量作為輸入特征成為中文語(yǔ)境下的另一解決方案[12]。除此以外,張海楠等[13]提出基于字詞聯(lián)合特征編碼的深度神經(jīng)網(wǎng)絡(luò)模型,在人民日?qǐng)?bào)語(yǔ)料的人名、地名和組織機(jī)構(gòu)名實(shí)體識(shí)別取得了F1值的有效提升。盛劍等[14]面向多場(chǎng)景、多領(lǐng)域文本環(huán)境,提出了基于BiLSTM-CRF模型并引入CNN特征提取模塊的細(xì)粒度命名實(shí)體識(shí)別方法,面向全領(lǐng)域?qū)嶓w識(shí)別平均F1值達(dá)到80%左右。禤鎮(zhèn)宇等[15]面向影評(píng)人名實(shí)體識(shí)別具體問題,將預(yù)訓(xùn)練字向量和邊界特征、用字特征等人工特征相結(jié)合,并采用了BiLSTM-CRF模型進(jìn)行字符序列標(biāo)注。2018年,Zhang等[16]提出了基于Lattice-LSTM模型的命名實(shí)體識(shí)別方法,通過字符和詞特征的聯(lián)合表示,并在外部大規(guī)模詞典嵌入的支撐下取得了較好的通用領(lǐng)域數(shù)據(jù)集評(píng)測(cè)效果。由此可見,當(dāng)前基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法總體上可以規(guī)約為由嵌入層、編碼層和解碼層構(gòu)成的三層模型架構(gòu),其中適宜的特征表示和深度網(wǎng)絡(luò)模型是實(shí)現(xiàn)識(shí)別性能提升的關(guān)鍵。

      近年來,為克服傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)模型在長(zhǎng)程記憶能力等方面存在的不足,國(guó)內(nèi)外學(xué)者開始將注意力(attention)機(jī)制引入深度神經(jīng)網(wǎng)絡(luò)模型,并在自然語(yǔ)言處理研究領(lǐng)域取得了較好的應(yīng)用效果[17]。例如,楊培等[18]將注意力機(jī)制加入到BiLSTM-CRF模型中,在化學(xué)藥物命名實(shí)體識(shí)別任務(wù)中取得了較好效果。2017年,Vaswani等[19]提出了融合多頭注意力(multi-head attention)和位置編碼(positional encoding)等機(jī)制的Transformer模型。在此基礎(chǔ)上,Devlin等[20]提出了BERT(bidirectional encoder representations from transformers)預(yù)訓(xùn)練模型,并在通用領(lǐng)域的11項(xiàng)文本分析任務(wù)中取得了當(dāng)時(shí)的最佳效果,成為當(dāng)前國(guó)內(nèi)外自然語(yǔ)言處理領(lǐng)域關(guān)注的焦點(diǎn)。在此基礎(chǔ)上,Sehanobish等[21]提出了基于中文字形的命名實(shí)體識(shí)別方法,通過聯(lián)合BERT文本預(yù)訓(xùn)練模型與基于CNN的中文字符圖片預(yù)訓(xùn)練模型作為輸入,在BiLSTM-CRF網(wǎng)絡(luò)模型中進(jìn)行實(shí)體識(shí)別,并取得了較好的實(shí)驗(yàn)效果。然而,開源的BERT模型通常基于通用領(lǐng)域文本進(jìn)行預(yù)訓(xùn)練,對(duì)于含有大量專業(yè)術(shù)語(yǔ)和語(yǔ)法結(jié)構(gòu)的特定領(lǐng)域很難直接適用。另外,Sehanobish等的方法需要海量中文字符圖片作為支撐,且引入更多模型參數(shù),需要海量數(shù)據(jù)作為訓(xùn)練樣本支撐,這一前提條件對(duì)語(yǔ)料資源相對(duì)匱乏的特定領(lǐng)域是極大挑戰(zhàn)。

      針對(duì)橋梁檢測(cè)領(lǐng)域文本的信息抽取任務(wù),目前僅有Liu等[7]提出了基于BridgeOnto本體和半監(jiān)督CRF的結(jié)構(gòu)狀態(tài)和養(yǎng)護(hù)活動(dòng)命名實(shí)體識(shí)別方法。然而,該方法僅面向英文橋梁檢測(cè)報(bào)告,適用于中文橋梁檢測(cè)文本描述方式特性的命名實(shí)體識(shí)別方法仍有待進(jìn)一步研究。

      2 橋梁檢測(cè)領(lǐng)域命名實(shí)體識(shí)別目標(biāo)與特性

      通過收集多地區(qū)真實(shí)橋梁檢測(cè)報(bào)告并分析其特性發(fā)現(xiàn),該領(lǐng)域文本通常包含了橋梁基本信息、檢測(cè)內(nèi)容、檢測(cè)工具、檢測(cè)結(jié)果和后續(xù)管養(yǎng)處治建議等章節(jié),其中蘊(yùn)含的橋梁名稱、橋梁結(jié)構(gòu)部件或構(gòu)件描述、病害檢測(cè)結(jié)果等是橋梁工程業(yè)界最關(guān)心的業(yè)務(wù)內(nèi)容。因此,在充分考慮我國(guó)公路橋梁業(yè)主需求的基礎(chǔ)上,參照橋梁結(jié)構(gòu)劃分、病害表征及技術(shù)狀況評(píng)定方法等行業(yè)規(guī)范,將橋梁檢測(cè)領(lǐng)域命名實(shí)體定義為六大類別,分別是橋梁實(shí)體(BRI)、橋梁結(jié)構(gòu)實(shí)體(ENT)、結(jié)構(gòu)元素實(shí)體(ENTE)、結(jié)構(gòu)位置實(shí)體(ENTL)、結(jié)構(gòu)病害實(shí)體(DIS)和病害否定修飾(UND)。在“不重疊、不嵌套、不包含停頓標(biāo)點(diǎn)符號(hào)”的常用原則下,本文面向最小粒度的上述實(shí)體進(jìn)行識(shí)別,即若文本中有描述“重慶長(zhǎng)江大橋橋墩”,那么“重慶長(zhǎng)江大橋”為BRI實(shí)體,“橋墩”為ENT實(shí)體。表1給出了橋梁檢測(cè)領(lǐng)域命名實(shí)體類型及其示例。

      表1 橋梁檢測(cè)領(lǐng)域命名實(shí)體類型及其示例

      除了上述橋梁檢測(cè)領(lǐng)域命名實(shí)體識(shí)別目標(biāo)與通用領(lǐng)域的人名、地名、組織機(jī)構(gòu)名等存在較大區(qū)別以外,由于橋梁結(jié)構(gòu)屬性參數(shù)及其檢測(cè)文本信息具有一定的隱私性要求,難以獲取到類似于通用領(lǐng)域的海量語(yǔ)料。與此同時(shí),上述各類型命名實(shí)體還存在以下領(lǐng)域特性。

      (1) 由于我國(guó)公路橋梁通常以所在地區(qū)或者服務(wù)路線為命名基礎(chǔ),因此,BRI實(shí)體通常嵌套有城市地名、路線樁號(hào)等信息,并伴有英文或數(shù)字的聯(lián)合表達(dá),以及存在不同風(fēng)格的縮寫形式。例如,橋梁名“重慶大佛寺長(zhǎng)江大橋”包含有“重慶”和“大佛寺”兩個(gè)地名,并且可能簡(jiǎn)稱為“大佛寺大橋”?!癤655線李渡長(zhǎng)江大橋”同時(shí)包含了英文和數(shù)字組合構(gòu)成的路線及地名信息。

      (2) 相同字可能存在于多種類型領(lǐng)域命名實(shí)體中,并具有較強(qiáng)的字符多義性、上下文位置相關(guān)性和方向敏感性。例如,“橋”通常作為BRI實(shí)體結(jié)束字,也可能描述“橋墩”“橋臺(tái)”等某一類型結(jié)構(gòu)構(gòu)件并作為ENT實(shí)體的開始字。在描述某一具體構(gòu)件時(shí),會(huì)存在類似于“0#橋臺(tái)”的表述方式,而“橋”字在該ENT實(shí)體的中間位置處出現(xiàn),并伴隨在數(shù)字和特殊符號(hào)之后。

      (3) 各類型領(lǐng)域?qū)嶓w之間存在較強(qiáng)的上下文位置關(guān)聯(lián)性。結(jié)構(gòu)病害DIS實(shí)體通常出現(xiàn)在ENT、ENTE或者ENTL實(shí)體之后。例如,在結(jié)構(gòu)病害描述的“橋臺(tái)泥沙淤積”中“橋臺(tái)”為ENT實(shí)體,“泥沙淤積”為DIS實(shí)體?!?#梁段存在網(wǎng)狀裂縫”中“3#梁段”為ENTE實(shí)體,“網(wǎng)狀裂縫”為DIS實(shí)體。否定修飾UND實(shí)體可能對(duì)ENT和DIS等多種實(shí)體進(jìn)行描述。例如,“沒有明顯開裂現(xiàn)象”中的“沒有明顯”為UND,“開裂”為DIS實(shí)體,“未設(shè)置伸縮縫”中“未設(shè)置”為UND,“伸縮縫”為ENT實(shí)體。

      由此可見,該領(lǐng)域命名實(shí)體識(shí)別任務(wù)涉及較多專業(yè)術(shù)語(yǔ)與各類型實(shí)體間的位置關(guān)聯(lián)性特征,以及中文字符多義性和方向敏感性特征等。以滿足上述目標(biāo)任務(wù)和適應(yīng)該領(lǐng)域文本特性為動(dòng)機(jī),本文結(jié)合Transformer模型在長(zhǎng)距離位置依賴關(guān)系特征建模、BiLSTM模型在文本方向性特征建模,以及CRF模型在標(biāo)簽約束關(guān)系預(yù)測(cè)方面的優(yōu)勢(shì),開展橋梁檢測(cè)領(lǐng)域命名實(shí)體識(shí)別方法研究,并提出基于該聯(lián)合模型的解決方案。

      3 Transformer-BiLSTM-CRF模型

      圖1為本文提出的橋梁檢測(cè)領(lǐng)域命名實(shí)體識(shí)別的Transformer-BiLSTM-CRF模型架構(gòu)。該模型由Transformer模塊、BiLSTM模塊和CRF模塊三部分組成。其基本思想是:以橋梁檢測(cè)語(yǔ)料字符序列為輸入,首先在Transformer模塊中對(duì)上下文長(zhǎng)距離的位置依賴特征進(jìn)行提取,以此作為BiLSTM模塊的輸入。BiLSTM模塊進(jìn)行文本序列的方向敏感性特征提取,并在CRF模塊中對(duì)上下文標(biāo)注進(jìn)行約束,最終輸出序列標(biāo)注結(jié)果。

      圖1 橋梁檢測(cè)領(lǐng)域命名實(shí)體識(shí)別的Transformer-BiLSTM-CRF模型架構(gòu)

      3.1 Transformer模塊

      如文獻(xiàn)[18]所述,面向機(jī)器翻譯等Seq2Seq任務(wù)的Transformer模型主要包含編碼器(encoder)和解碼器(decoder)兩個(gè)主要部件。本文提出模型僅使用其中的編碼器進(jìn)行橋梁檢測(cè)語(yǔ)料文本序列的長(zhǎng)距離位置依賴關(guān)系特征建模。

      該模塊首先對(duì)輸入文本序列進(jìn)行劃分和字嵌入,得到輸入張量Xinput∈b×l×d,其中b為批次大小,l為序列長(zhǎng)度,d是字嵌入維度。然后,按式(1)對(duì)序列字符按sin和cos函數(shù)的線性變換進(jìn)行位置編碼,獲取字符在當(dāng)前句子中的位置信息。

      (1)

      其中,pos表示字符位置,i表示字符向量維度。每個(gè)編碼器由多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò)兩個(gè)內(nèi)部層次構(gòu)成。將位置編碼與字嵌入元素相加后得到的Xembedding按式(2)分解為Q(h)、K(h)和V(h),并作為Transformer Encoder模塊的輸入。

      其中,WQ、WK和Wv為權(quán)重參數(shù)矩陣,h∈[1,n]為head索引,head數(shù)n為超參數(shù)。然后,按式(3)進(jìn)行注意力運(yùn)算,在獲取句子中每一個(gè)字與其他字相關(guān)性的同時(shí),使得每個(gè)字向量都含有當(dāng)前句子中其他相關(guān)字向量信息。多頭自注意力計(jì)算的結(jié)果按式(4)進(jìn)行拼接。

      然后,將多頭注意力計(jì)算的MultiHead(Q,K,V)與Xembedding進(jìn)行殘差連接得到Xattention,并進(jìn)行歸一化計(jì)算,得標(biāo)準(zhǔn)正態(tài)分布,從而加速訓(xùn)練和收斂。

      編碼器中的全連接前饋神經(jīng)網(wǎng)絡(luò)層以Xattention為輸入,如式(5)所示,使用ReLU作為激活函數(shù)并進(jìn)行兩次線性映射,分別完成維度的擴(kuò)展與壓縮。

      其中,W1,W2,b1和b2分別為對(duì)應(yīng)的權(quán)重矩陣和偏置。最后,F(xiàn)FN(X)與Xattention再進(jìn)行一次殘差連接和歸一化計(jì)算,得到編碼器的輸出Xhidden。

      在實(shí)際的聯(lián)合模型構(gòu)建過程中,編碼器模塊可以進(jìn)行多次疊加。除了最底層的編碼器以隨機(jī)初始化字向量或者預(yù)訓(xùn)練字向量為輸入以外,其余層級(jí)的編碼器均以上一層次輸出的Xhidden為輸入,并且計(jì)算過程中的Xinput,Xembedding,Xattention和Xhidden均有相同的維度,即實(shí)現(xiàn)輸入文本序列在位置編碼和多頭自注意力機(jī)制下的字符級(jí)特征無監(jiān)督學(xué)習(xí)與表征。

      3.2 BiLSTM模塊

      BiLSTM模塊由前向LSTM和后向LSTM組成,能夠從前后兩個(gè)方向獲取序列的上下文信息。作為一種特殊循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型,每個(gè)LSTM包含了輸入門、遺忘門和輸出門三種“門”節(jié)點(diǎn),以克服傳統(tǒng)RNN模型在面向長(zhǎng)序列特征提取過程中存在的梯度消失等問題。式(6)描述了LSTM具體計(jì)算過程。

      (6)

      其中,σ是sigmoid函數(shù),tanh為雙曲正切函數(shù);Wi,Wf,Wo分別是輸入門、遺忘門和輸出門的權(quán)重矩陣,bi,bf,bo為對(duì)應(yīng)的偏置。首先,以t-1時(shí)刻的隱藏層狀態(tài)ht-1和當(dāng)前t時(shí)刻的字向量xt為輸入,分別計(jì)算出遺忘門值ft,輸入門值it。以此為基礎(chǔ),結(jié)合t-1時(shí)刻的細(xì)胞狀態(tài)Ct-1計(jì)算出當(dāng)前的細(xì)胞狀態(tài)值Ct。然后,在計(jì)算輸出門值ot的基礎(chǔ)上,得到當(dāng)前時(shí)刻的隱藏層輸出ht。

      為應(yīng)對(duì)訓(xùn)練過程中可能存在的過擬合問題,在BiLSTM兩端分別設(shè)置了Dropout層,并將t時(shí)刻的正向LSTM輸出和反向LSTM輸出進(jìn)行拼接,得到該模塊的最終輸出結(jié)果。

      3.3 CRF模塊

      以Transformer和BiLSTM模塊提取的上下文特征為輸入,CRF模塊考慮序列標(biāo)簽之間的相鄰依賴關(guān)系,并對(duì)最優(yōu)標(biāo)簽序列進(jìn)行求解。即對(duì)于一個(gè)輸入序列S={x1,x2,…,xn},以及對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽序列y={y1,y2,…,yn},n為序列長(zhǎng)度。CRF模型的評(píng)估得分如式(7)所示。

      在訓(xùn)練過程的標(biāo)記序列的似然函數(shù)如式(9)所示。

      其中,YX為所有標(biāo)記集合。最終,輸出如式(10)所示的整體概率得分最大的一組序列。

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 實(shí)驗(yàn)語(yǔ)料準(zhǔn)備

      由于當(dāng)前業(yè)界還沒有公開的橋梁檢測(cè)領(lǐng)域文本語(yǔ)料,本文搜集了我國(guó)多個(gè)省份的真實(shí)橋梁檢測(cè)報(bào)告100余份,包含了梁橋、拱橋、斜拉橋和懸索橋結(jié)構(gòu)形式。人工篩選出重點(diǎn)章節(jié)內(nèi)容,并刪除了其中表格和圖片等信息,剩下文本共計(jì)12萬(wàn)余字。采用BIO標(biāo)注策略對(duì)上述文本進(jìn)行標(biāo)注。以句子為單位,按8∶2的比例將語(yǔ)料劃分為訓(xùn)練集與測(cè)試集,對(duì)應(yīng)的標(biāo)簽信息如表2所示。實(shí)驗(yàn)語(yǔ)料中各類型實(shí)體總數(shù)及訓(xùn)練集、測(cè)試集數(shù)據(jù)統(tǒng)計(jì)情況如表3所示。

      表2 實(shí)驗(yàn)語(yǔ)料中標(biāo)簽設(shè)置情況

      表3 實(shí)驗(yàn)語(yǔ)料中各類型實(shí)體信息統(tǒng)計(jì)

      4.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

      實(shí)驗(yàn)采用Python編程語(yǔ)言3.6.5版本,基于Tensorflow 1.12版本對(duì)本文方法和對(duì)比實(shí)驗(yàn)方法進(jìn)行程序?qū)崿F(xiàn)。實(shí)驗(yàn)程序部署于配置為6核AMD 3600 CPU、16 GB DDR 4內(nèi)存、Nividia Geforce 2060 8 GB顯卡、512 GB硬盤空間并安裝Ubuntu 16.04操作系統(tǒng)的主機(jī)。

      為驗(yàn)證本文Transformer-BiLSTM-CRF模型的識(shí)別效果,選取了當(dāng)前本領(lǐng)域主流的CNN-CRF,BiLSTM-CRF與CNN-BiLSTM-CRF作為對(duì)比基準(zhǔn)模型。為了對(duì)Transformer Encoder模塊和 BiLSTM 模塊在上下文長(zhǎng)距離位置依賴和方向敏感性特征提取方面的有效性進(jìn)行驗(yàn)證,選取了Trans-CRF模型進(jìn)行對(duì)比分析。另外,使用Google開源的中文BERT預(yù)訓(xùn)練模型評(píng)估本文方法在有預(yù)訓(xùn)練模型條件下的識(shí)別性能。由于Lattice-LSTM-CRF模型引入了外部詞典嵌入模型,因此,將其視為有預(yù)訓(xùn)練模型支撐進(jìn)行對(duì)比分析。

      在訓(xùn)練主要超參數(shù)方面,設(shè)置文本序列最大長(zhǎng)度為100,Epoch迭代次數(shù)為100次,批次大小為128,學(xué)習(xí)率為0.001,Dropout率為0.1,Transformer中Encoder的Block數(shù)為6,Head數(shù)為8,字嵌入維度為512。

      實(shí)驗(yàn)結(jié)果采用了命名實(shí)體識(shí)別領(lǐng)域常用的正確率(Precision,P)、召回率(Recall,R)和F1值作為評(píng)價(jià)指標(biāo),其中P為正確識(shí)別實(shí)體與識(shí)別結(jié)果總數(shù)的占比,R為正確識(shí)別實(shí)體與測(cè)試集實(shí)體總數(shù)占比,F(xiàn)1為P和R的調(diào)和平均值,體現(xiàn)模型的綜合命名實(shí)體識(shí)別性能。

      4.3 實(shí)驗(yàn)結(jié)果與分析

      表4和表5分別描述了無預(yù)訓(xùn)練模型和BERT預(yù)訓(xùn)練模型兩組實(shí)驗(yàn)條件下不同模型的綜合對(duì)比結(jié)果。總體而言,本文模型在兩組實(shí)驗(yàn)中的精確率、召回率和F1值三方面均優(yōu)于其他對(duì)比實(shí)驗(yàn)?zāi)P?,具有更佳的綜合識(shí)別效果。

      表4 無預(yù)訓(xùn)練模型條件下不同模型的對(duì)比實(shí)驗(yàn)結(jié)果 (單位:%)

      表5 預(yù)訓(xùn)練模型條件下不同模型的對(duì)比實(shí)驗(yàn)結(jié)果 (單位:%)

      在第一組無預(yù)訓(xùn)練模型實(shí)驗(yàn)條件下,所有對(duì)比模型均基于隨機(jī)初始化的字向量。Trans-CRF模型的實(shí)驗(yàn)結(jié)果較差,F(xiàn)1指標(biāo)僅有73.27%。其原因主要在于該模型僅使用了Transformer Encoder作為字符特征提取單元,位置編碼和自注意力機(jī)制僅考慮了上下文的位置依賴相關(guān)性特征,對(duì)于字符級(jí)命名實(shí)體的前后順序方向性特征提取能力不足,導(dǎo)致識(shí)別效果較差。類似地,CNN-CRF模型的F1值也僅有78.37%,綜合識(shí)別效果也有待提升。

      BiLSTM-CRF是當(dāng)前基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別主流模型架構(gòu)。由于BiLSTM能夠從前后兩個(gè)方向?qū)ξ谋拘蛄凶址卣鬟M(jìn)行學(xué)習(xí),在第一組實(shí)驗(yàn)中,該模型測(cè)試F1值達(dá)到87.71%。與CNN-CRF模型相比,BiLSTM-CRF模型的正確率提升9.38%,召回率提升9.29%,F(xiàn)1值也提升9.34%。由于CNN模塊的卷積操作能進(jìn)一步提取字符的上下文局部特征,CNN-BiLSTM-CRF模型的正確率、召回率和F1值三個(gè)指標(biāo)方面分別超過BiLSTM-CRF模型0.55%、2.91%和1.78%。

      正如本文第2節(jié)所述,除了蘊(yùn)含豐富的專業(yè)術(shù)語(yǔ)以外,橋梁檢測(cè)領(lǐng)域命名實(shí)體還具有較強(qiáng)的字符多義性、位置相關(guān)性以及方向敏感性等特點(diǎn),結(jié)合了Transformer Encoder和BiLSTM特征提取能力的本文方法能夠同時(shí)捕獲長(zhǎng)距離和方向性特征,相較于CNN-BiLSTM-CRF模型,對(duì)比實(shí)驗(yàn)結(jié)果的正確率提升了1.02%,召回率提升了1.45%,F(xiàn)1值提升了1.24%,取得了在第一組實(shí)驗(yàn)測(cè)試集下的綜合最優(yōu)效果。

      第二組實(shí)驗(yàn)采用BERT中文預(yù)訓(xùn)練模型將輸入序列字符映射為字向量,并固定BERT模塊參數(shù),對(duì)下游對(duì)比模型進(jìn)行參數(shù)微調(diào)。如表5所示的實(shí)驗(yàn)結(jié)果表明,BERT預(yù)訓(xùn)練模型的引入對(duì)所有實(shí)驗(yàn)對(duì)比模型的識(shí)別性能均有較大提升作用,第一組實(shí)驗(yàn)中效果較差的Trans-CRF模型識(shí)別F1值達(dá)到86.51%,相較于第一組實(shí)驗(yàn)結(jié)果提升了13.24%。CNN-CRF模型的F1值提升至88.89%。本文提出的Transformer-BiLSTM-CRF模型的識(shí)別正確率提升至95.79%,召回率提升至95.36%,F(xiàn)1值為95.57%,優(yōu)于Lattice-LSTM-CRF模型F1值2.29%,仍然具有實(shí)驗(yàn)測(cè)試集下最優(yōu)的綜合識(shí)別效果。

      為進(jìn)一步分析各個(gè)模型對(duì)橋梁檢測(cè)領(lǐng)域各類型命名實(shí)體在兩組實(shí)驗(yàn)中的具體識(shí)別效果,統(tǒng)計(jì)了如表6和表7所示的實(shí)驗(yàn)對(duì)比結(jié)果F1值。

      表6 無預(yù)訓(xùn)練模型條件下各類命名實(shí)體識(shí)別的實(shí)驗(yàn)F1值對(duì)比 (單位:%)

      表7 預(yù)訓(xùn)練模型支持下各類命名實(shí)體識(shí)別的實(shí)驗(yàn)F1值對(duì)比 (單位:%)

      如第2節(jié)所述,BRI實(shí)體通常以“橋”作為結(jié)束字,同時(shí)可能嵌套有地名或者具有縮寫形式,并且BRI實(shí)體包含的字符數(shù)可能較大。例如,經(jīng)統(tǒng)計(jì),測(cè)試集中BRI實(shí)體最多包含11個(gè)中文字符,最少存在兩個(gè)字符。由于Transformer能對(duì)整個(gè)句子進(jìn)行特征提取,具有較好的長(zhǎng)距離依賴關(guān)系表征能力,并通過進(jìn)一步結(jié)合BiLSTM的雙向上下文順序特征提取能力,本文方法在兩組實(shí)驗(yàn)中均有最佳的BRI實(shí)體識(shí)別F1值。

      在本文定義的ENT實(shí)體為橋梁結(jié)構(gòu)部件或者具體某一構(gòu)件,是《公路橋梁技術(shù)狀況評(píng)定標(biāo)準(zhǔn)》等行業(yè)規(guī)范中的檢測(cè)信息記錄基礎(chǔ),因此在訓(xùn)練集和測(cè)試集中的占比最大。本文方法對(duì)ENT實(shí)體的識(shí)別結(jié)果在兩組實(shí)驗(yàn)中均優(yōu)于對(duì)比模型,F(xiàn)1值分別達(dá)到92.03%和94.58%。

      ENTE實(shí)體是組成橋梁構(gòu)件的更細(xì)粒度元素,存在“左腹板”和“前墻”等嵌套有方位描述的實(shí)體,或者“后澆翼緣板”等特殊詞匯,識(shí)別難度較大。因此,在第一組實(shí)驗(yàn)中,雖然本文方法取得了74.19%的最優(yōu)F1值,但整體效果均偏低。在第二組實(shí)驗(yàn)的BERT預(yù)訓(xùn)練模型支撐下,ENTE實(shí)體的識(shí)別效果大幅度提升,達(dá)98.04%。

      ENTL描述檢測(cè)病害相對(duì)于ENT或者ENTE實(shí)體的具體發(fā)生位置,所包含的字符數(shù)較少,描述形式與通用領(lǐng)域相差不大。在第一組實(shí)驗(yàn)中,CNN-BiLSTM-CRF模型取得了最優(yōu)的F1值,優(yōu)于本文方法0.99%。第二組實(shí)驗(yàn)中,BiLSTM-CRF模型也優(yōu)于本文方法0.97%。

      DIS實(shí)體是結(jié)構(gòu)病害的具體描述,具有較強(qiáng)專業(yè)特殊性,規(guī)范性較強(qiáng),但可能存在人為書寫習(xí)慣的差異性。例如,“破損露筋”可能被記錄為“破損、露筋”,進(jìn)而需要被識(shí)別為兩個(gè)實(shí)體。兩組實(shí)驗(yàn)中,本文方法都取得了最優(yōu)的F1值。

      UND實(shí)體對(duì)病害或結(jié)構(gòu)構(gòu)件進(jìn)行否定描述,在第一組實(shí)驗(yàn)中Transformer-BiLSTM-CRF模型取得了91.16%的最佳F1值。由于UND實(shí)體的描述方式相對(duì)固定和常見,在BERT預(yù)訓(xùn)練模型支撐的第二組實(shí)驗(yàn)中,各對(duì)比模型的識(shí)別效果提升明顯,BiLSTM-CRF和CNN-BiLSTM-CRF的F1值均達(dá)到97%以上,本文方法提升至98.46%。

      為驗(yàn)證本文方法在通用領(lǐng)域命名實(shí)體識(shí)別任務(wù)中的泛化性,選擇了MSRA語(yǔ)料并在無預(yù)訓(xùn)練模型條件下與上述主流模型進(jìn)行了對(duì)比分析,其實(shí)驗(yàn)結(jié)果如表8所示。綜合分析MSRA結(jié)果發(fā)現(xiàn),本文提出的方法雖然具有最優(yōu)的F1值,但相較于BiLSTM-CRF模型優(yōu)勢(shì)并不明顯,并且BiLSTM- CRF有更好的識(shí)別正確率。其主要原因在于MSRA語(yǔ)料中各實(shí)體相對(duì)稀疏,輸入文本中各個(gè)命名實(shí)體之間的方向敏感性特征占主導(dǎo)作用。

      表8 MSRA語(yǔ)料下不同模型的對(duì)比實(shí)驗(yàn)結(jié)果 (單位:%)

      綜合分析實(shí)驗(yàn)結(jié)果,本文提出的Transformer- BiLSTM-CRF模型具有更好的綜合識(shí)別性能,并且對(duì)于領(lǐng)域性較強(qiáng)的實(shí)體具有更明顯優(yōu)勢(shì)。

      5 總結(jié)與展望

      作為當(dāng)前我國(guó)公路橋梁管理養(yǎng)護(hù)業(yè)務(wù)體系中的重要數(shù)據(jù)源,橋梁檢測(cè)文本蘊(yùn)含了大量橋梁結(jié)構(gòu)構(gòu)件和檢測(cè)病害等關(guān)鍵業(yè)務(wù)信息,對(duì)其開展以命名實(shí)體識(shí)別為基礎(chǔ)的信息抽取方法研究是促進(jìn)橋梁管理養(yǎng)護(hù)智能化發(fā)展的重要內(nèi)容之一。

      在上述的目標(biāo)任務(wù)驅(qū)動(dòng)下,針對(duì)我國(guó)橋梁檢測(cè)文本領(lǐng)域特性,本文提出一種基于Transformer- BiLSTM-CRF模型的橋梁檢測(cè)領(lǐng)域命名實(shí)體識(shí)別方法。該方法通過Transformer Encoder提取字符上下文長(zhǎng)距離位置依賴性特征,并采用BiLSTM提取字符方向敏感性特征,最終使用CRF進(jìn)行領(lǐng)域命名實(shí)體的序列標(biāo)注。實(shí)驗(yàn)結(jié)果表明,該方法能有效識(shí)別橋梁名、結(jié)構(gòu)構(gòu)件、結(jié)構(gòu)病害等領(lǐng)域?qū)嶓w,與現(xiàn)有方法相比,具有更好的正確率、召回率和F1值。與此同時(shí),在大規(guī)模文本預(yù)訓(xùn)練模型的支撐下,本文方法能取得較大幅度識(shí)別性能提升。本文工作在面向橋梁檢測(cè)領(lǐng)域特定任務(wù)的同時(shí),也對(duì)其他具有相似特性的領(lǐng)域命名實(shí)體識(shí)別研究工作有一定借鑒作用。

      由于本文以最小粒度實(shí)體為目標(biāo),尚未考慮該領(lǐng)域?qū)嶓w的嵌套性。因此,在未來的研究工作方面,更大規(guī)模語(yǔ)料庫(kù)的構(gòu)建,以及面向最外層實(shí)體和多層嵌套實(shí)體識(shí)別及其關(guān)系抽取方法研究是后續(xù)重要任務(wù)。與此同時(shí),如果將該領(lǐng)域的先驗(yàn)知識(shí)與數(shù)據(jù)驅(qū)動(dòng)方法相結(jié)合,在通用領(lǐng)域BERT預(yù)訓(xùn)練模型基礎(chǔ)上構(gòu)建融合領(lǐng)域知識(shí)語(yǔ)義的預(yù)訓(xùn)練模型,并結(jié)合Sehanobish等[21]提出的字符圖像特征融合機(jī)制,進(jìn)一步提升實(shí)體識(shí)別或關(guān)系抽取性能也是值得深入探究的研究?jī)?nèi)容。

      猜你喜歡
      字符語(yǔ)料命名
      尋找更強(qiáng)的字符映射管理器
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      博客| 贡觉县| 河池市| 峨眉山市| 蓬安县| 县级市| 怀安县| 西宁市| 扬州市| 廊坊市| 浦城县| 得荣县| 平和县| 长武县| 衡阳县| 当雄县| 宜章县| 山东| 大英县| 陵川县| 枣庄市| 汕头市| 宁城县| 调兵山市| 莱西市| 余姚市| 财经| 交口县| 隆林| 北票市| 拜泉县| 星子县| 河西区| 和平区| 达孜县| 商洛市| 沂水县| 贵阳市| 循化| 泗水县| 呼图壁县|