• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用Bert模型實(shí)現(xiàn)電力安全規(guī)程數(shù)據(jù)中實(shí)體關(guān)系抽取

      2023-02-14 06:01:46徐鴻飛李英娜
      電力科學(xué)與工程 2023年1期
      關(guān)鍵詞:規(guī)程實(shí)體向量

      徐鴻飛,李英娜

      (1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.云南省計(jì)算機(jī)應(yīng)用重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),云南 昆明 650500)

      0 引言

      電力安全規(guī)程數(shù)據(jù)包含各種類型的文本數(shù)據(jù)。電力安全文本數(shù)據(jù)分析的結(jié)果,可為電力現(xiàn)場檢修、電力設(shè)備管理、電網(wǎng)故障處置提供決策支持。電力安全規(guī)程中實(shí)體關(guān)系抽取的實(shí)現(xiàn),能夠使電力安全工作獲得挖掘和分析大規(guī)模文本數(shù)據(jù)中有用知識的能力。

      實(shí)體關(guān)系抽取,旨在從海量結(jié)構(gòu)或非結(jié)構(gòu)文本中抽取出類別實(shí)體和分類關(guān)系,是構(gòu)建復(fù)雜的知識數(shù)據(jù)庫的關(guān)鍵步驟。

      采用早期的基于規(guī)則和詞典抽取,需要利用人工標(biāo)注數(shù)據(jù)或通過已有詞典使用概率和模式匹配等方法實(shí)現(xiàn),在少量數(shù)據(jù)應(yīng)用時(shí)取得了良好的效果[1]。但基于規(guī)則和詞典的方法要求條件高,需要大量時(shí)間和人力,不利于大量數(shù)據(jù)處理;因此研究者們提出了使用機(jī)器學(xué)習(xí)的方法進(jìn)行實(shí)體關(guān)系抽取,希望使用算法建模并學(xué)習(xí)處理數(shù)據(jù),然后對特定任務(wù)做出預(yù)測。機(jī)器學(xué)習(xí)方法有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)3種方式。為了減少人工依賴和增加抽取任務(wù)的可遷移性,研究者們又提出了采用遠(yuǎn)程監(jiān)督方式進(jìn)行實(shí)體關(guān)系抽取。遠(yuǎn)程監(jiān)督通過文本對齊方式,將知識語料庫和待處理文本相同實(shí)體對進(jìn)行同類標(biāo)記,自動(dòng)訓(xùn)練大量樣本,生成特征訓(xùn)練分類器[2]。

      由于機(jī)器學(xué)習(xí)方式用到的特征依然人工完成,而深度學(xué)習(xí)具有從低維映射高維,從而發(fā)現(xiàn)數(shù)據(jù)更多特征的優(yōu)點(diǎn),因此可以很好地用于實(shí)體關(guān)系抽取任務(wù)中[3]。文獻(xiàn)[4]使用雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-directional long short-term memory,BiLSTM)加條件隨機(jī)場(Conditional random fields,CRF)模型進(jìn)行訓(xùn)練,并將融合遷移學(xué)習(xí)用于數(shù)據(jù)集的命名實(shí)體識別任務(wù),取得91.53%的準(zhǔn)確率。文獻(xiàn)[5]針對中文語法句式復(fù)雜、現(xiàn)有神經(jīng)網(wǎng)絡(luò)抽取模型提取特征和語義表征能力差的問題,使用Bert預(yù)訓(xùn)練模型融合實(shí)體對和實(shí)體類型等多特征信息進(jìn)行抽取,提高了F1值。文獻(xiàn)[6]針對非結(jié)構(gòu)化文本實(shí)體關(guān)系抽取存在上下文環(huán)境信息不能準(zhǔn)確表征,導(dǎo)致實(shí)體關(guān)系抽取模型準(zhǔn)確率不高的問題,提出一種新型實(shí)體關(guān)系抽取模型。該模型使用雙向門控循環(huán)單元獲得語序信息,然后加入注意力機(jī)制關(guān)注某些序列特征,最后采用分段卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征并進(jìn)行抽取。實(shí)驗(yàn)證明,該模型具有較好的性能。文獻(xiàn)[7]針對遠(yuǎn)程監(jiān)督關(guān)系抽取方法常常忽略實(shí)體對的類型信息和句子語法信息的問題,提出使用實(shí)體周圍詞文本的注意力機(jī)制融合依存句法分析的雙向長短時(shí)記憶網(wǎng)絡(luò)的抽取器進(jìn)行實(shí)體關(guān)系抽取,從而提高了抽取的精度和召回率。

      現(xiàn)有的關(guān)于利用神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)實(shí)體關(guān)系抽取方面的研究,其關(guān)注點(diǎn)通常集中于實(shí)體關(guān)系抽取性能和F1值。同時(shí),在這些研究中,對于實(shí)驗(yàn)數(shù)據(jù)集本身有嚴(yán)格限制:只能使用通過人工方式多次標(biāo)注核對獲得的高質(zhì)量數(shù)據(jù)集,或者使用公開高標(biāo)準(zhǔn)數(shù)據(jù)。這些高質(zhì)量、高標(biāo)準(zhǔn)的數(shù)據(jù)集都集中在通用領(lǐng)域。對于其他專業(yè)領(lǐng)域高標(biāo)準(zhǔn)數(shù)據(jù)集缺乏的問題,目前還沒有比較好的解決方法。

      電力安全領(lǐng)域尚缺乏公開的可用于進(jìn)行實(shí)體關(guān)系抽取相關(guān)研究的高標(biāo)準(zhǔn)數(shù)據(jù)集。同時(shí),目前自有數(shù)據(jù)集也面臨質(zhì)量不高、標(biāo)注存在噪聲等問題。

      電力安全規(guī)程相關(guān)文本數(shù)據(jù),具有數(shù)量龐大、多元、異構(gòu)、多維度、多形式的特點(diǎn)。在諸多電力安全規(guī)程文本數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)居多,而且非結(jié)構(gòu)化數(shù)據(jù)中存在很多與電力安全無關(guān)的語句。這些語句對電力安全規(guī)程實(shí)體關(guān)系抽取以及后續(xù)的圖譜構(gòu)建會(huì)造成一定影響[8]。

      鑒于此,本文結(jié)合自有電力安全規(guī)程數(shù)據(jù)集,首先針對標(biāo)注噪聲問題,提出使用句袋注意力機(jī)制對數(shù)據(jù)集進(jìn)行降噪;然后使用主流實(shí)體關(guān)系抽取方法 Bert+BiLSTM+CRF,對實(shí)體關(guān)系進(jìn)行抽取[9]。

      自有數(shù)據(jù)集使用的文本種類復(fù)雜,內(nèi)容中難免出現(xiàn)頻率不一的無關(guān)語句。對無關(guān)語句定義為,句子中未出現(xiàn)相關(guān)實(shí)體和關(guān)系的語句。無關(guān)語句會(huì)對實(shí)體關(guān)系抽取產(chǎn)生不同程度的影響,即噪聲引入。噪聲會(huì)對語義特征產(chǎn)生影響,也就是無關(guān)語句對模型語義表征造成的影響。消除無關(guān)語句影響,可以對句子預(yù)先進(jìn)行處理,在使用神經(jīng)網(wǎng)絡(luò)模型層抽取之前進(jìn)行降噪。本文在抽取模型前使用句子注意力機(jī)制對句子進(jìn)行分類處理[10],避免錯(cuò)誤信息的誤差傳播,以有效減少句子引入的噪音,增加信息抽取的準(zhǔn)確性,優(yōu)化了計(jì)算資源分配,提高模型訓(xùn)練效果。

      1 模型設(shè)計(jì)

      1.1 模型架構(gòu)

      為實(shí)現(xiàn)實(shí)體關(guān)系抽取,本文模型使用基于深度學(xué)習(xí)的4層結(jié)構(gòu),分別為:進(jìn)行句子降噪處理的預(yù)處理層、使用Bert模型的輸入層、使用BiLSTM和CRF算法的模型層,如圖1所示。

      圖1 整體架構(gòu)圖Fig. 1 Overall architecture

      預(yù)處理層:基于句袋注意力機(jī)制對文本進(jìn)行預(yù)處理。通過句子相似度計(jì)算,將句子分為若干句袋;使用注意力算法賦予語句不同權(quán)重值;最后,將一部分權(quán)重值低的句子直接丟棄。

      輸入層:使用Bert模型進(jìn)行詞向量表征,提取語句基于前后文的語義信息。

      模型層使用BiLSTM和CRF算法進(jìn)行信息抽取。

      1.2 句袋注意力降噪輸入層

      本文采用Word2vec向量劃分句袋模型。

      首先使用 jieba對句子進(jìn)行分詞處理。使用Word2vec獲取每個(gè)詞的 Vector。然后,將所有Vector相加并求平均,得到Sentence Vector。計(jì)算句子夾角余弦值,得出句子相似度。將數(shù)據(jù)分為n個(gè)相似句袋t={t1,t2,···,tn}。其中,表示在句袋ti中有m個(gè)句子。

      Attention是一種讓模型充分學(xué)習(xí)并關(guān)注重點(diǎn)信息的機(jī)制[11],其使用雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)Encoder-Decoder結(jié)構(gòu)。

      Encoder把所有輸入序列編碼成一個(gè)包含語義特征的固定長度隱向量(或上下文向量context)c。

      與 Seq2Seq模型的 Decoder使用一個(gè)向量c計(jì)算隱藏層的情況不同,Attention在Decoder的每個(gè)時(shí)間輸入不同的向量c來進(jìn)行計(jì)算。計(jì)算過程如圖2。

      圖2 句袋注意力機(jī)制結(jié)構(gòu)圖Fig. 2 Structure diagram of sentence bag attention mechanism

      當(dāng)前位置上下文向量c,是由Encoder部分所有隱狀態(tài)h和對應(yīng)權(quán)重值α加權(quán)求和得到:

      隱狀態(tài)hj和輸入隱狀態(tài)s′j的相關(guān)性etj通過前一階段的輸入隱狀態(tài)s′j-1和當(dāng)前隱狀態(tài)hj計(jì)算得到。使用 softmax進(jìn)行歸一化,得到權(quán)重atj。這個(gè)權(quán)重表示了當(dāng)前位置隱狀態(tài)hj對當(dāng)前位置輸入隱狀態(tài)sj的影響程度。

      使用上一個(gè)輸入sj–1、上一個(gè)輸出yj–1和當(dāng)前位置的上下文向量cj更新當(dāng)前位置輸入隱狀態(tài)sj,然后計(jì)算出當(dāng)前輸出yj。

      將同一句袋內(nèi)的句子權(quán)重進(jìn)行加和歸一化,按照大小進(jìn)行排序,根據(jù)排序結(jié)果權(quán)重值去除噪音句子。

      1.3 詞向量表征Bert嵌入層

      Bert模型是基于Transformer構(gòu)建的,如圖3所示。Transformer采用Encoder-Decoder架構(gòu),分別使用6層Encoder和Decoder堆疊在一起,如圖4所示。本文模型采用中文Bert_base Chinese模型。

      圖3 Bert模型架構(gòu)圖Fig. 3 Bert model architecture diagram

      圖4 Transformer結(jié)構(gòu)圖Fig. 4 The Transformer structure diagram

      首先對數(shù)據(jù)進(jìn)行Embedding處理。Bert以單個(gè)句子序列的方式進(jìn)行輸入,還可以將2個(gè)句子組成的句子對的形式輸入模型訓(xùn)練。在句子開頭插入[CLS]符號;該符號本身沒有任何語義,但其編碼整個(gè)句子的語義,同時(shí)在句子中間插入[SEP]符號,用來充當(dāng)分割句子的標(biāo)志位。對于中文數(shù)據(jù)集,對句子進(jìn)行分字處理,對單個(gè)字進(jìn)行向量化。將詞語級詞嵌入向量(Token embeddings)、句子信息嵌入向量(Segment embeddings)和位置嵌入向量(Position embeddings)進(jìn)行拼接。詞嵌入向量是詞語映射的低維稠密向量;句子嵌入向量表示輸入句子的區(qū)分;位置嵌入向量是詞語在句子中的位置信息。拼接后的向量包含了句子信息和位置信息。這些向量被用作下游模型的高質(zhì)量特征輸入。

      將Embedding送入到Encoder層,Self-Attention處理完將數(shù)據(jù)送入前饋神經(jīng)網(wǎng)絡(luò),然后歸一化,送入下一個(gè) Encoder層。Self-Attention可以學(xué)習(xí)句子內(nèi)部詞語依賴關(guān)系信息以及句子結(jié)構(gòu)。由于Self-Attention和每個(gè)詞都要計(jì)算 Attention,所以可以獲得長距離依賴關(guān)系。計(jì)算Embedding和矩陣相乘,得到Query、Key和Value 3個(gè)矩陣;然后計(jì)算Query和Key矩陣相乘。為了防止結(jié)果過大,使用 SoftMax函數(shù)歸一化為概率分布[12,13],公式如下:

      式中:Q、K、V為Query、Key和Value 3個(gè)矩陣;dk為向量的維度。

      Decoder還包含Mask multi-head attention層。多頭注意力機(jī)制使用多維度輸入提取重點(diǎn)關(guān)注內(nèi)容:

      預(yù)訓(xùn)練時(shí),隨機(jī)使用Mask掩蓋15%的詞,然后采用非監(jiān)督方法預(yù)測該位置的詞。使用大量語料進(jìn)行預(yù)訓(xùn)練[14],獲得全局特征向量,引入句子之間的語義信息。經(jīng)過Bert模型處理過的嵌入層,文本詞向量獲得大量句子級詞語相關(guān)特征。

      1.4 雙向長短時(shí)記憶網(wǎng)絡(luò)模型層

      BiLSTM模型分為2個(gè)獨(dú)立的長短時(shí)記憶網(wǎng)絡(luò),分別以正序和倒序輸入到2個(gè)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)中進(jìn)行特征提取,將2個(gè)向量拼接后作為最終的特征表達(dá)。

      LSTM 使用鏈?zhǔn)浇Y(jié)構(gòu)選擇記憶信息,使模型解決了長距離依賴問題,避免信息快速流失[15]。LSTM與RNN類似,但LSTM在隱藏層中增加了門控機(jī)構(gòu),分為遺忘門、輸入門和輸出門,結(jié)構(gòu)如圖5。

      圖5 長短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)圖Fig. 5 Long and short memory network structure diagram

      式中:xt為當(dāng)前時(shí)刻的輸入;h為隱藏層狀態(tài)值;ht–1為前一時(shí)刻狀態(tài)值;W為ht–1的權(quán)重系數(shù);Wf為遺忘門權(quán)重;Wi為輸入門權(quán)重;Wo為輸出門權(quán)重;Wc為特征提取過程中權(quán)重;U為xt的權(quán)重系數(shù);Uf為遺忘門權(quán)重;Ui為輸入門權(quán)重;Uc為特征提取過程中權(quán)重;b為偏置值;bf為遺忘門偏置;bi為輸入門偏置;bo為輸出門偏置;bc為特征提取過程中的偏置值;tanh為正切雙曲函數(shù);σ表示激活函數(shù)Sigmoid。

      計(jì)算過程如下:首先通過遺忘門前一個(gè)時(shí)刻的隱藏層單元計(jì)算丟棄信息的概率值f(t),通過輸入門計(jì)算需要更新的狀態(tài)信息i(t);然后使用tanh計(jì)算需要添加的狀態(tài)信息a(t),更新記憶狀態(tài)值c(t);前一時(shí)刻狀態(tài)值ht–1中的部分狀態(tài)信息o(t)在輸入門中計(jì)算得出,然后就能得出當(dāng)前時(shí)刻的狀態(tài)值,即前向傳播特征信息h(t)。

      雙向傳播使用序列信息進(jìn)行傳播,傳播方向是從后向前傳播,得到帶有后向傳播特征的序列信息;然后將2個(gè)不同方向得到的序列信息相加,即可得到融合了前向傳播特征與后向傳播特征的完整序列信息。

      1.5 條件隨機(jī)場模型層

      CRF是一種基于無向圖的概率判別模型。CRF不依賴獨(dú)立性假設(shè),避免了標(biāo)簽引入的偏差。

      隨機(jī)過程:無限實(shí)數(shù)集T中存在無限多個(gè)隨機(jī)變量,這些變量依賴于實(shí)數(shù)集參數(shù),記為X(t),t∈T。根據(jù)條件概率分別進(jìn)行判別。計(jì)算輸入輸出條件下的另一組隨機(jī)變量:形式為對數(shù)線性模型,方法使用極大似然估計(jì)。

      無向圖G=(V,E),G是中心節(jié)點(diǎn)。隨機(jī)變量的集合Y={Yv|v∈V},v是索引。給出一個(gè)隨機(jī)變量X,計(jì)算出每個(gè)隨機(jī)變量Yv。這些變量如果都能滿足馬爾可夫性:

      則此時(shí)的概率分布P(Y|X)就滿足條件,就可以稱為一個(gè)條件隨機(jī)場。v表示在無向圖G=(V,E)中一個(gè)節(jié)點(diǎn)。w=v代表所有與這個(gè)節(jié)點(diǎn)有邊相連接的節(jié)點(diǎn);w≠v代表所有沒有邊和此節(jié)點(diǎn)相連接的其他節(jié)點(diǎn)。Yv是節(jié)點(diǎn)v對應(yīng)的一個(gè)隨機(jī)變量;Yw是w節(jié)點(diǎn)的隨機(jī)變量。

      計(jì)算條件概率P(Y|X),使用到了勢函數(shù)和圖結(jié)構(gòu)。通過使用指數(shù)函數(shù),然后引用特征函數(shù),條件概率為:

      式中:λk和μl為對應(yīng)的權(quán)重值;tk和sl為局部特征。

      tk為一個(gè)定義在邊上的特征函數(shù),稱為轉(zhuǎn)移特征;其不僅依賴當(dāng)前位置,還依賴上一個(gè)位置。sl是定義在節(jié)點(diǎn)上的特征函數(shù),稱為狀態(tài)特征;其僅僅依賴當(dāng)前位置。當(dāng)2個(gè)函數(shù)滿足特征條件時(shí),取值為1;否則取值為0。Z(x)為規(guī)范化因子,功能是在所有可能的輸出序列上進(jìn)行求和。

      使用特征函數(shù)打分,分別得出不同標(biāo)注網(wǎng)絡(luò)的得分,然后選擇可能性最高的,作為最終標(biāo)注網(wǎng)絡(luò)。

      2 實(shí)驗(yàn)驗(yàn)證

      本文采用自有電力安全規(guī)程數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn)和對比實(shí)驗(yàn)。用消融實(shí)驗(yàn)驗(yàn)證句袋注意力機(jī)制對數(shù)據(jù)集降噪效果。用對比實(shí)驗(yàn)驗(yàn)證算法的抽取效果。

      本文使用帶 GPU的計(jì)算機(jī)進(jìn)行實(shí)驗(yàn),使用Python語言的版本為 Python3.6,使用的 Pytorch的版本為Pytorch1.14。

      2.1 實(shí)驗(yàn)數(shù)據(jù)集

      鑒于目前還沒有公開的電力安全規(guī)程相關(guān)數(shù)據(jù)集,本文采用已有電力規(guī)程文檔和電力安全規(guī)程相關(guān)文檔組成的文本數(shù)據(jù),包括:新版電力安全工作規(guī)程、國家電網(wǎng)電力安全工程典型工作票、國家電網(wǎng)安全事故調(diào)查規(guī)程、電力通信安全規(guī)程、電力建設(shè)安全工作規(guī)程、電網(wǎng)安全規(guī)程精編、電力安全管理規(guī)定、電力安全隱患、輸電系統(tǒng)可靠性評價(jià)規(guī)程、農(nóng)村安全用電規(guī)程,電力安全技術(shù)監(jiān)察規(guī)程等。

      由于數(shù)據(jù)集多為非結(jié)構(gòu)化數(shù)據(jù),因此使用人工方式進(jìn)行數(shù)據(jù)清理,去除將標(biāo)點(diǎn)符號、句子標(biāo)號、空白區(qū)域和多余文檔格式等。

      統(tǒng)計(jì)結(jié)果顯示,在字?jǐn)?shù)為10個(gè)以下的句子中,有完整實(shí)體關(guān)系三元組的比例不足20%。在10個(gè)字以上的句子中,此比例隨字?jǐn)?shù)上升明顯:因此,去除字?jǐn)?shù)為10以下的句子。

      采用 BIO(B-begin,I-inside,O-outside)方式進(jìn)行實(shí)體關(guān)系標(biāo)注。通過人工的方式構(gòu)建實(shí)體關(guān)系結(jié)構(gòu)。標(biāo)注分為實(shí)體關(guān)系標(biāo)注和無關(guān)語句標(biāo)注,如表1所示。

      表1 電力規(guī)程人工標(biāo)注數(shù)據(jù)實(shí)例Tab. 1 Example of manual annotation data of power regulation

      自有數(shù)據(jù)集的句式結(jié)構(gòu)特征單一,但實(shí)體關(guān)系類型比較復(fù)雜,所以:本文采用主(a-s)謂(d-f)賓(g-h)形式進(jìn)行實(shí)體–關(guān)系–實(shí)體標(biāo)注。

      無關(guān)語句標(biāo)注。針對未出現(xiàn)與安全規(guī)程相關(guān)的實(shí)體關(guān)系語句,將語句所有字詞標(biāo)注為O。

      使用多次人工校對和軟件校對進(jìn)行標(biāo)注校驗(yàn),以保證數(shù)據(jù)集的準(zhǔn)確性和可靠性。

      實(shí)驗(yàn)數(shù)據(jù)集文本10 000條,按照8:1:1的比例劃分訓(xùn)練集、測試集和驗(yàn)證集。

      2.2 實(shí)驗(yàn)參數(shù)和評價(jià)指標(biāo)

      進(jìn)行多次調(diào)參實(shí)驗(yàn)。使用 Adam優(yōu)化器來更新迭代參數(shù)。當(dāng)訓(xùn)練效果達(dá)到最優(yōu)時(shí),學(xué)習(xí)率設(shè)置為0.000 03,學(xué)習(xí)衰減率0.000 01,隱藏層共768層,最大序列長度128,dropout為0.4。

      實(shí)驗(yàn)使用準(zhǔn)確率(precision,P)、召回率(recall,R)和F1值作為實(shí)驗(yàn)的評價(jià)指標(biāo)[16]。

      2.3 實(shí)驗(yàn)效果與分析

      消融實(shí)驗(yàn)設(shè)置:將使用句袋注意力機(jī)制的模型與未使用句袋注意力機(jī)制的模型進(jìn)行對比;其他實(shí)驗(yàn)條件設(shè)置相同。訓(xùn)練模型使用Bert-BiLSTM-CRF進(jìn)行實(shí)驗(yàn),結(jié)果如表2所示。

      表2 有無注意力機(jī)制實(shí)驗(yàn)結(jié)果對比Tab. 2 Comparison of experimental results with and without attention mechanism%

      由表2所示的實(shí)驗(yàn)結(jié)果可知,使用句袋注意力對句子進(jìn)行預(yù)處理之后,準(zhǔn)確率、召回率和F1值均有4.0%以上的提高。由此證明,句袋注意力對實(shí)驗(yàn)效果有提高的作用。

      圖6所示為Bert-BiLSTM-CRF模型在不同迭代次數(shù)時(shí)的運(yùn)行結(jié)果。由圖6可知,模型運(yùn)行迭代到12輪時(shí),F(xiàn)1值達(dá)到90.5%,以后結(jié)果趨于穩(wěn)定,穩(wěn)定在90.0%以上,在第22輪時(shí),結(jié)果達(dá)到最高值 91.5%,后續(xù)迭代不高于最高值,因此本次實(shí)驗(yàn)設(shè)置為30次迭代。

      圖6 不同epochs下的F1值Fig. 6 F1 values at different epochs

      將本文模型(Bert-BiLSTM-CRF)與目前主流的Bert-BiGRU-CNN、Bert-BiLSTM-Attention、Bert-CRF模型進(jìn)行對比:實(shí)驗(yàn)使用數(shù)據(jù)均為進(jìn)行過句子降噪的同一數(shù)據(jù)集,運(yùn)行在同一臺計(jì)算機(jī)上,均為同一軟件環(huán)境;結(jié)果如表3所示。

      表3 不同模型效果對比Tab. 3 Effect comparison of different models%

      由表3可知,本文模型在準(zhǔn)確率、召回率和F1值3個(gè)指標(biāo)方面均取得最好效果。本文模型F1值為 91.5%,為 4個(gè)模型中最高。Bert+BiGRU+CNN是對比模型中效果比較好的,但是和本文模型仍有 1.3%的差距。但是整體看來,使用 Bert模型的對比模型,結(jié)果均達(dá)到 80.0%以上,由此可見,Bert模型對于中文的表征性能達(dá)到很高的水平。

      3 結(jié)論

      在電力安全規(guī)程缺少高質(zhì)量數(shù)據(jù)集的情況下,本文引入句袋注意力機(jī)制,使用Bert預(yù)訓(xùn)練模型進(jìn)行表征,然后使用神經(jīng)網(wǎng)絡(luò)加機(jī)器學(xué)習(xí)的抽取模型,對自有電力安全規(guī)程進(jìn)行實(shí)體關(guān)系抽取。

      實(shí)驗(yàn)結(jié)果證明,利用句袋注意力機(jī)制能夠減少噪聲影響,能夠提高模型抽取性能。這對于后續(xù)實(shí)體關(guān)系消岐工作和關(guān)系圖譜構(gòu)建都有重要的意義。

      通過本實(shí)驗(yàn),能夠基本構(gòu)建出高質(zhì)量電力安全規(guī)程實(shí)體關(guān)系數(shù)據(jù)集,但仍有諸多工作和實(shí)驗(yàn)中產(chǎn)生的問題需要進(jìn)一步的思考和解決。未來研究方向?yàn)榉沁B續(xù)關(guān)系識別和實(shí)體關(guān)系消岐。

      猜你喜歡
      規(guī)程實(shí)體向量
      基于規(guī)程法的雷擊跳閘率計(jì)算
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      《四川省工傷認(rèn)定工作規(guī)程(試行)》出臺
      中國新車評價(jià)規(guī)程
      世界汽車(2020年6期)2020-12-28 02:40:14
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      向量垂直在解析幾何中的應(yīng)用
      孝义市| 南雄市| 灵石县| 陆河县| 乌拉特中旗| 高要市| 喀什市| 新竹市| 铜鼓县| 遂昌县| 巨野县| 大足县| 许昌市| 伊宁县| 宽城| 昌吉市| 闻喜县| 龙陵县| 绿春县| 华宁县| 隆昌县| 贺州市| 三亚市| 东安县| 邓州市| 开化县| 昌江| 宜宾市| 远安县| 许昌县| 靖宇县| 南开区| 浦县| 鄂托克前旗| 高雄县| 镇安县| 临朐县| 疏附县| 兖州市| 河北区| 手游|