• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多頭注意力的電網(wǎng)調(diào)度領(lǐng)域命名實(shí)體識(shí)別

      2023-03-04 06:43:10毛宏亮艾孜爾古麗陳德剛
      關(guān)鍵詞:語料注意力實(shí)體

      毛宏亮,艾孜爾古麗,2,陳德剛

      (1.新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2.國(guó)家語言資源監(jiān)測(cè)與研究少數(shù)民族語言中心,新疆 烏魯木齊 830000)

      0 引 言

      領(lǐng)域?qū)嶓w是在實(shí)踐應(yīng)用中表達(dá)領(lǐng)域概念的一系列專有名詞集合[1],一般以語音或文字等載體進(jìn)行記錄。領(lǐng)域?qū)嶓w識(shí)別技術(shù)在眾多領(lǐng)域中都有廣泛的應(yīng)用,尤其是在電網(wǎng)調(diào)度過程中會(huì)使用到大量的專業(yè)實(shí)體詞。電網(wǎng)調(diào)度被定義為在電力生產(chǎn)過程中能夠使電力系統(tǒng)穩(wěn)定運(yùn)行所采取的一系列管理措施[2]。在進(jìn)行電網(wǎng)調(diào)度的過程中,工作人員或者自動(dòng)化電力系統(tǒng)會(huì)使用大量的專業(yè)實(shí)體詞來進(jìn)行當(dāng)前系統(tǒng)工作狀態(tài)的反饋,并且在通常情況下,電網(wǎng)調(diào)度工作人員一般通過語音和文字兩種載體方式來進(jìn)行指令的傳達(dá)和信息的記錄。所以,電網(wǎng)調(diào)度專業(yè)實(shí)體詞在保證調(diào)度信息準(zhǔn)確傳達(dá)和調(diào)度信息規(guī)范記錄等方面起到至關(guān)重要的作用。電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w的識(shí)別不僅可以為電網(wǎng)調(diào)度領(lǐng)域知識(shí)圖譜的構(gòu)建奠定基礎(chǔ),而且對(duì)于電力系統(tǒng)的自動(dòng)化、智能化發(fā)揮著很大的作用,具有現(xiàn)實(shí)意義。

      楊月等人[3]根據(jù)在不同氣象條件下相關(guān)輸電線路典型故障的作用機(jī)理和統(tǒng)計(jì)特征,提出融合注意力機(jī)制的輸電線路故障概率預(yù)測(cè)模型,提高了電網(wǎng)整體的運(yùn)行水平,對(duì)電網(wǎng)調(diào)度的安全穩(wěn)定運(yùn)行發(fā)揮了較大的作用。Azam等人[4]提出了一種基于雙向長(zhǎng)短期記憶(BiLSTM)和多頭自注意力機(jī)制的新型混合深度學(xué)習(xí)方法,可以準(zhǔn)確預(yù)測(cè)電網(wǎng)調(diào)度系統(tǒng)前一天的位置邊際價(jià)格(LMP)和系統(tǒng)負(fù)載,為電網(wǎng)調(diào)度的可靠運(yùn)行和規(guī)劃發(fā)揮著舉足輕重的作用。Zhang等人[5]針對(duì)電網(wǎng)數(shù)據(jù)的多維異構(gòu)信息,建立了電網(wǎng)調(diào)度的異構(gòu)圖注意力網(wǎng)絡(luò)(HGAT)模型,提出相應(yīng)的電力設(shè)備故障模型解釋器(HGAT-Explainer),為電網(wǎng)調(diào)度提供了更有利的參考。肖丁等人[6]提出將多頭注意力機(jī)制應(yīng)用到用戶竊電行為檢測(cè)當(dāng)中,對(duì)比傳統(tǒng)依賴人工標(biāo)注特征的方法和簡(jiǎn)單統(tǒng)計(jì)學(xué)的方法,所提模型在用戶竊電行為檢測(cè)中表現(xiàn)出顯著優(yōu)勢(shì),AUC值提升了34.6%。Yan等人[7]提出通過融合BERT,雙向門限循環(huán)單元以及注意力機(jī)制來提升中文命名實(shí)體識(shí)別準(zhǔn)確率的方法,其F1值達(dá)到94.31%,對(duì)命名實(shí)體識(shí)別領(lǐng)域產(chǎn)生較大影響。Wei等人[8]提出一種融合注意力機(jī)制與BiLSTM的方法進(jìn)行生物醫(yī)學(xué)文本命名實(shí)體識(shí)別研究,通過使用不同的注意力權(quán)重再分配機(jī)制有效地防止了在提取序列特征時(shí)出現(xiàn)的重要信息丟失問題。Xu等人[9]提出一種融合字典注意力機(jī)制和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)并且結(jié)合疾病字典來實(shí)現(xiàn)疾病命名實(shí)體識(shí)別任務(wù)的模型,有效解決了在罕見病名和復(fù)雜病名上實(shí)體識(shí)別困難的現(xiàn)狀。羅熹等人[10]提出一種基于多頭自注意力機(jī)制的面向中文臨床病例的命名實(shí)體識(shí)別方法,該方法結(jié)合領(lǐng)域字典進(jìn)行特征表示,運(yùn)用多頭自注意力機(jī)制進(jìn)行字符間特征獲取,有效提升了中文臨床病例的命名實(shí)體識(shí)別能力。徐凱等人[11]提出一種融合詞典注意力機(jī)制和雙向門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)(BiGRU)的生物醫(yī)學(xué)命名實(shí)體識(shí)別模型,在NCBI疾病數(shù)據(jù)集上其F1值達(dá)到86.8%,對(duì)促進(jìn)醫(yī)學(xué)信息學(xué)的研究產(chǎn)生了重大意義。Yang等人[12]根據(jù)注意力機(jī)制原理提出雙層注意力模型,分別為單詞層次和句子層次,這種結(jié)構(gòu)能使文檔中的關(guān)鍵信息凸顯出來,得到較高的關(guān)注。證明注意力機(jī)制可以為文本中重要的信息分配更高的權(quán)重。Luo等人[13]提出一種基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和注意力機(jī)制的化學(xué)領(lǐng)域命名實(shí)體識(shí)別辦法,其識(shí)別率達(dá)到92.57%。

      目前,電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w識(shí)別主要有以下幾個(gè)難點(diǎn):(1)電網(wǎng)調(diào)度領(lǐng)域在命名實(shí)體識(shí)別任務(wù)中缺乏公開標(biāo)注語料;(2)電網(wǎng)調(diào)度過程中存在大量實(shí)體詞嵌套問題,如“電壓源”、“電壓”、“直流電動(dòng)機(jī)”、“電動(dòng)機(jī)”等;(3)電網(wǎng)調(diào)度過程中實(shí)體詞長(zhǎng)短不一,識(shí)別存在一定的困難;(4)傳統(tǒng)基于語言學(xué)和基于統(tǒng)計(jì)學(xué)的方法雖然能夠?qū)崿F(xiàn)識(shí)別領(lǐng)域?qū)嶓w的目標(biāo),但大多依據(jù)專業(yè)人員的邏輯直覺標(biāo)注的人工特征,無法挖掘文本中隱藏的信息特征,其識(shí)別方法泛化能力太弱。

      針對(duì)以上問題,基于多頭注意力機(jī)制(multi headed attention)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM),提出一種融合多頭注意力機(jī)制和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的電網(wǎng)調(diào)度領(lǐng)域中文命名實(shí)體識(shí)別辦法,即BiLSTM-MHATT-CRF(bidirectional long-short term memory network mult-headed attention conditional random fields)。該模型主要完成了以下幾方面的工作:

      (1)通過電網(wǎng)調(diào)度語音識(shí)別后文本作為原始語料構(gòu)建電網(wǎng)調(diào)度領(lǐng)域命名實(shí)體識(shí)別標(biāo)注語料集GridDispatchCorpus,用于改善該領(lǐng)域在NER任務(wù)中標(biāo)注語料不足的問題;

      (2)利用電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w構(gòu)詞規(guī)則建立領(lǐng)域?qū)嶓w詞典,用于解決實(shí)體詞大量嵌套的問題;

      (3)利用電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w詞典輔助分詞,解決實(shí)體詞長(zhǎng)短不一、識(shí)別困難的問題;

      (4)通過雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提取句子上下文語義特征,計(jì)算詞語之間的相互依賴關(guān)系;

      (5)在電力調(diào)度文本中通過每個(gè)詞對(duì)實(shí)體識(shí)別貢獻(xiàn)度的不同,引入多頭注意力機(jī)制中的詞權(quán)重分配機(jī)制來計(jì)算關(guān)鍵詞與非關(guān)鍵詞的重要度,有效解決了在算力有限的情況下因?yàn)殛P(guān)鍵詞與非關(guān)鍵詞重要度相同而造成的信息丟失問題,使模型快速收斂。

      1 電網(wǎng)調(diào)度領(lǐng)域標(biāo)注語料集構(gòu)建

      1.1 電網(wǎng)調(diào)度領(lǐng)域語料集及詞典構(gòu)建

      電網(wǎng)調(diào)度一般是通過電話以及系統(tǒng)操作等形式來進(jìn)行電力的調(diào)度,在進(jìn)行調(diào)度時(shí)會(huì)使用到大量的電網(wǎng)調(diào)度領(lǐng)域?qū)I(yè)實(shí)體詞。該文以新疆自治區(qū)某電力公司提供的原始電力調(diào)度語音作為電網(wǎng)調(diào)度領(lǐng)域命名實(shí)體識(shí)別任務(wù)的原始語料來源,通過語音識(shí)別得到相應(yīng)的文本,以句號(hào)為標(biāo)志將其文本進(jìn)行句子級(jí)別的劃分。針對(duì)電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w詞嵌套和實(shí)體詞長(zhǎng)短不一的問題,通過國(guó)家語言資源監(jiān)測(cè)中心語言專家對(duì)其實(shí)體進(jìn)行分類,在句子級(jí)別的文本上對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,構(gòu)建了包含參數(shù)(如“電壓、電流”等)、設(shè)備(如“變壓器、消流器、避雷器”等)、操作(如“保護(hù)”等)、系統(tǒng)(如“交直流互聯(lián)系統(tǒng)、交直流混合電力系統(tǒng)”等)、組織(如“中國(guó)電網(wǎng)、新疆電力有限公司”等)五類實(shí)體的語料集GridDispatchCorpus。并在語料集基礎(chǔ)上構(gòu)建了電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w詞典,共10 797條。

      1.2 電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w分類及標(biāo)注

      使用PARA、DEV、OPER、SYS、ORG分別表示參數(shù)、設(shè)備、操作、系統(tǒng)、組織五類實(shí)體。采用BIO標(biāo)注方法對(duì)預(yù)處理后的文本進(jìn)行實(shí)體標(biāo)注,所定義標(biāo)簽集合以及實(shí)體數(shù)目統(tǒng)計(jì)信息如表1所示。

      表1 實(shí)體標(biāo)簽

      為保證實(shí)體標(biāo)注的準(zhǔn)確性,采用可以多人同步進(jìn)行標(biāo)注和結(jié)果比對(duì)的標(biāo)注軟件YEDDA[14]進(jìn)行實(shí)體標(biāo)注。在標(biāo)注過程中,將文本劃分為多個(gè)區(qū)間,雙人同時(shí)進(jìn)行標(biāo)注,一個(gè)標(biāo)注區(qū)間結(jié)束后進(jìn)行結(jié)果對(duì)比,為避免實(shí)體標(biāo)注不一致以及標(biāo)注錯(cuò)誤問題,采用電網(wǎng)調(diào)度領(lǐng)域?qū)<覍徍说姆绞絹泶_定實(shí)體所屬標(biāo)簽。以“當(dāng)變壓器內(nèi)部發(fā)生故障時(shí),電壓下降,人員應(yīng)及時(shí)保護(hù)變壓器”為例,標(biāo)注結(jié)果如表2所示。

      表2 序列標(biāo)注結(jié)果

      2 電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w識(shí)別模型

      2.1 電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w識(shí)別流程

      電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w識(shí)別主要流程如圖1所示。

      圖1 實(shí)體識(shí)別框架

      (1)將獲取到的電網(wǎng)調(diào)度語音進(jìn)行文字識(shí)別并轉(zhuǎn)換為原始文本語料;(2)對(duì)原始文本進(jìn)行預(yù)處理,包括長(zhǎng)短句處理、分詞、詞性標(biāo)注等,為提升分詞效果以及消除實(shí)體詞嵌套和實(shí)體詞長(zhǎng)短不一的問題,引入停用詞表和實(shí)體詞典進(jìn)行輔助分詞;(3)將處理好的文本運(yùn)用word2vec模型進(jìn)行向量化表示;(4)輸入模型訓(xùn)練并進(jìn)行結(jié)果測(cè)試。

      2.2 BiLSTM

      LSTM(Long Short-Term Memory)與典型的循環(huán)神經(jīng)網(wǎng)絡(luò)具有相同的框架,但采用不同的方式計(jì)算隱藏狀態(tài),特別適合處理時(shí)序問題,能很好地解決RNN在提取遠(yuǎn)距離句子特征時(shí)產(chǎn)生的梯度消失和梯度爆炸問題。

      LSTM單元狀態(tài)如圖2所示。

      圖 2 LSTM單元狀態(tài)

      在某一時(shí)刻t,每個(gè)LSTM單元有3個(gè)輸入,分別是上一時(shí)刻單元狀態(tài)Ct-1、上一時(shí)刻LSTM單元輸出值ht-1以及當(dāng)前時(shí)刻單元輸入值Xt,2個(gè)輸出,分別是當(dāng)前時(shí)刻LSTM單元的單元狀態(tài)Ct和輸出值ht。LSTM單元是通過遺忘門、記憶門和輸出門組成的門機(jī)制來控制是否將本單元從上一單元接收的信息以及本單元的輸入信息傳遞給下一單元的,從本質(zhì)上說,LSTM的門機(jī)制相當(dāng)于一個(gè)全連接層,輸入值是一個(gè)多維向量,輸出則是0~1之間的數(shù),0表示上一單元的信息不能完全繼承,1表示上一單元的信息可以完全繼承。LSTM門機(jī)制的優(yōu)點(diǎn)是當(dāng)前時(shí)刻單元可以獲得之前所有單元的有效信息,缺點(diǎn)是不能獲得當(dāng)前單元之后單元的信息。為了改善這一缺點(diǎn),提出了雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的概念,即BiLSTM(Bi-directional Long Short-Term Memory)。

      BiLSTM由雙向LSTM組合而來,BiLSTM通過正向LSTM獲取句子上文信息,反向LSTM獲取句子下文信息,然后將正向LSTM和反向LSTM獲取信息結(jié)果拼接并輸入到CRF層,得到語句序列標(biāo)簽。

      2.3 多頭注意力機(jī)制

      注意力機(jī)制最早來源于對(duì)人類視覺的研究,由于人類視覺對(duì)信息處理存在局限性,所以會(huì)選擇性地關(guān)注物體的一部分。近年來,注意力機(jī)制在自然語言處理任務(wù)上也有了廣泛的應(yīng)用。

      自注意力機(jī)制是在注意力機(jī)制的結(jié)構(gòu)上變化而來的,在整體上減少了捕獲序列特征時(shí)對(duì)于外部信息的依賴,更加專注于獲取句子內(nèi)部特征的相關(guān)性,通過計(jì)算詞語之間的關(guān)聯(lián)度來緩解句子長(zhǎng)距離依賴時(shí)產(chǎn)生的特征信息丟失問題。

      多頭注意力機(jī)制又是在自注意力機(jī)制結(jié)構(gòu)的基礎(chǔ)上發(fā)展而來的,可以同時(shí)運(yùn)行多個(gè)注意力機(jī)制并分別計(jì)算每個(gè)頭的縮放點(diǎn)積注意力,然后將輸出結(jié)果拼接并線性轉(zhuǎn)換為預(yù)期的維度[15],直觀地說,多個(gè)注意力頭允許以不同的方式關(guān)注序列的部分,即給定一個(gè)查詢Q、鍵K和值V,然后將它們轉(zhuǎn)換為子查詢、子鍵和子值,通過獨(dú)立地計(jì)算縮放的點(diǎn)積注意力,最后拼接每個(gè)注意力的頭部并與最終的權(quán)重矩陣組合組成多頭注意力機(jī)制。

      2.4 BiLSTM-MHATT-CRF模型構(gòu)建

      提出的融合多頭注意力機(jī)制和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的電網(wǎng)調(diào)度領(lǐng)域命名實(shí)體識(shí)別模型的總體框架如圖3所示,模型主要由輸入層、向量表示層、BiLSTM層、多頭注意力機(jī)制層、CRF層組成。

      圖3 BiLSTM-MHATT-CRF模型結(jié)構(gòu)

      2.4.1 輸入層

      輸入層的主要作用是將電網(wǎng)調(diào)度文本預(yù)處理并輸入到下一層進(jìn)行向量化表示。文本預(yù)處理過程主要有以下3個(gè)步驟:(1)將電網(wǎng)調(diào)度文本中過短、過長(zhǎng)以及存在大量特殊符號(hào)的句子進(jìn)行長(zhǎng)短句處理或者剔除;(2)結(jié)合根據(jù)電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w詞構(gòu)詞規(guī)則建立的詞典進(jìn)行輔助分詞,幫助提高分詞的準(zhǔn)確率;(3)利用中文停用詞表去除停用詞。

      2.4.2 向量表示層

      在模型訓(xùn)練過程中,文本不能直接被送入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,需要將其向量化表示。該文運(yùn)用Word2vec模型進(jìn)行文本向量化,首先將文本用one-hot進(jìn)行編碼,形成高維稀疏向量,然后輸入到Word2vec模型進(jìn)行訓(xùn)練,轉(zhuǎn)換為低維連續(xù)密集向量。具體過程如下:設(shè)樣本句子X由n個(gè)詞組成,表示為X={t1,t2,…,tn},其中tt為第t個(gè)詞的one-hot表示,xt為詞嵌入。

      xt=Wembtt

      (1)

      式中,Wemb∈Rd×|v|為向量查詢表,tt∈R|v|,xt∈Rd為向量維度,|v|為詞典的大小。

      2.4.3 BiLSTM層

      BiLSTM由2個(gè)方向相反的LSTM組合而來,通過正向LSTM獲取句子上文信息,反向LSTM獲取句子下文信息,然后將正反向信息拼接并輸出到下一層。具體過程如下:xt是在上一層獲取到的詞嵌入向量,將其輸入模型并進(jìn)行計(jì)算。

      第一步:計(jì)算正向LSTM。

      (2)

      第二步:計(jì)算反向LSTM。

      (3)

      (4)

      式中,ht-1表示t-1時(shí)刻網(wǎng)絡(luò)的輸出值,ct-1表示t-1時(shí)刻的單元狀態(tài),ht表示t時(shí)刻的輸出向量,該層的輸出向量序列構(gòu)成的矩陣記為H=(h1,…,hi,…,ht)。

      2.4.4 多頭注意力機(jī)制層

      多頭注意力機(jī)制是運(yùn)行多個(gè)注意力機(jī)制并分別計(jì)算每個(gè)頭的縮放點(diǎn)積注意力,然后將輸出結(jié)果拼接并線性轉(zhuǎn)換為預(yù)期維度的一種神經(jīng)網(wǎng)絡(luò)模型。近年來,多頭注意力機(jī)制在多個(gè)領(lǐng)域被廣泛運(yùn)用。其計(jì)算過程如下:

      第一步:對(duì)Q、K、V分別進(jìn)行線性映射。

      (5)

      (6)

      (7)

      第二步:計(jì)算縮放點(diǎn)積注意力。

      (8)

      最后,根據(jù)獲得的權(quán)重系數(shù)對(duì)值矩陣線性映射之后的V'進(jìn)行加權(quán)求和。

      第三步:計(jì)算多頭注意力。

      M=Concat(M1,…,Mj,…,Mh)

      (9)

      式中,M是循環(huán)一、二步多次之后進(jìn)行線性映射的結(jié)果。

      2.4.5 CRF層

      CRF是結(jié)合最大熵模型和隱馬爾可夫模型所構(gòu)建的一種無向圖模型,常應(yīng)用于序列標(biāo)注任務(wù)中。CRF通過狀態(tài)轉(zhuǎn)移矩陣獲取標(biāo)簽之間的依賴關(guān)系以提高實(shí)體識(shí)別的效果。其主要步驟如下:(1)給定電網(wǎng)調(diào)度領(lǐng)域句子,使用條件隨機(jī)場(chǎng)計(jì)算所有標(biāo)簽序列的概率,(2)使用維特比算法獲取序列標(biāo)簽最優(yōu)概率[16],并作為實(shí)驗(yàn)輸出結(jié)果。

      3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)標(biāo)準(zhǔn)

      為驗(yàn)證所提模型在電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w識(shí)別上的有效性,選取自建語料集GridDispatchCorpus作為實(shí)驗(yàn)數(shù)據(jù)集。總共包含50 337個(gè)句子。以6∶2∶2比例將數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集、驗(yàn)證集三部分。引入在命名實(shí)體識(shí)別,領(lǐng)域術(shù)語抽取等任務(wù)中通用評(píng)價(jià)標(biāo)準(zhǔn)[17]作為實(shí)驗(yàn)性能評(píng)價(jià)指標(biāo),分別為準(zhǔn)確率(P)、召回率(R)、F1值。其中,F(xiàn)1值具有代表性,是綜合考慮各種情況的綜合性指標(biāo)。

      (10)

      (11)

      (12)

      3.2 超參數(shù)設(shè)置

      該文針對(duì)實(shí)驗(yàn)語料通過多次對(duì)比實(shí)驗(yàn)并不斷調(diào)整參數(shù)設(shè)置,總結(jié)出模型性能表現(xiàn)最好的實(shí)驗(yàn)參數(shù)方案,設(shè)置如表3所示。

      表3 超參數(shù)設(shè)置

      3.3 實(shí)驗(yàn)結(jié)果分析

      3.3.1 實(shí)驗(yàn)一:不同學(xué)習(xí)率對(duì)BiLSTM-MHATT-CRF模型性能的影響

      為防止學(xué)習(xí)率過高或者過低影響損失函數(shù)收斂,通過設(shè)置一組不同的學(xué)習(xí)率[0.000 2,0.000 5,…,0.001,…,0.005]進(jìn)行實(shí)驗(yàn),其BiLSTM-MHATT-CRF模型F1值變化如圖4所示。可以看出,當(dāng)學(xué)習(xí)率在區(qū)間[0.000 2,0.000 7]時(shí),F(xiàn)1值上升,即學(xué)習(xí)率與F1值呈正相關(guān),當(dāng)學(xué)習(xí)率在區(qū)間[0.000 7,0.001 5]時(shí),F(xiàn)1值先上升后下降,在Ir=0.001處F1取得最大值93.63%,即在此學(xué)習(xí)率下訓(xùn)練該文所提模型效果最佳,當(dāng)學(xué)習(xí)率在區(qū)間[0.001 5,0.005]時(shí),F(xiàn)1值下降,即學(xué)習(xí)率與F1值呈負(fù)相關(guān),訓(xùn)練效果逐漸變差。

      圖4 不同學(xué)習(xí)率下BiLSTM-MHATT-CRF模型F1值變化

      3.3.2 實(shí)驗(yàn)二:BiLSTM-MHATT-CRF模型與其他模型的比較

      為驗(yàn)證所提模型在電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w識(shí)別任務(wù)上的優(yōu)越性,采用ADAM優(yōu)化算法,設(shè)置Ir=0.001,共做5組對(duì)比實(shí)驗(yàn)進(jìn)行分析,分別為Attention、BiLSTM-CRF、BiLSTM-IDCNN-CRF、BIAC(BiLSTM-IDCNN-Attention-CRF)、BiLSTM-MHATT-CRF,實(shí)驗(yàn)結(jié)果如表4所示。

      表4 實(shí)驗(yàn)結(jié)果對(duì)比 %

      通過對(duì)比BiLSTM-CRF和Attention訓(xùn)練結(jié)果可以得出,使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提取句子序列特征優(yōu)于使用單頭的自注意力機(jī)制提取句子序列特征,F(xiàn)1值在單頭自注意力機(jī)制的基礎(chǔ)上提升了17.62百分點(diǎn)。通過對(duì)比模型BiLSTM-IDCNN-CRF與模型BiLSTM-CRF實(shí)驗(yàn)效果可以得出,在BiLSTM-CRF模型上加入三層膨脹卷積層能更好地提取序列語義特征,提升實(shí)體識(shí)別的效果,F(xiàn)1值提升了1.06百分點(diǎn)。通過對(duì)比模型BIAC與模型BiLSTM-IDCNN-CRF的實(shí)驗(yàn)結(jié)果得出,在BiLSTM-IDCNN-CRF的基礎(chǔ)上加入自注意力機(jī)制,其F1值提升了0.79百分點(diǎn)。通過對(duì)比BiLSTM-MHATT-CRF模型和BIAC模型可以得出,利用融合多頭注意力機(jī)制和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的深度學(xué)習(xí)方法在文本序列特征抽取上效果要優(yōu)于簡(jiǎn)單將自注意力機(jī)制和膨脹卷積神經(jīng)網(wǎng)絡(luò)融合所構(gòu)建的特征抽取方法,其F1值提升了1.85百分點(diǎn)。

      BiLSTM-MHATT-CRF模型與其他模型在相同優(yōu)化器ADAM和Ir=0.001下達(dá)到最佳訓(xùn)練效果相應(yīng)訓(xùn)練時(shí)間如圖5所示??梢钥闯瞿P虰iLSTM-IDCNN-CRF與BIAC相較于所提模型BiLSTM-MHATT-CRF來說,訓(xùn)練時(shí)間較長(zhǎng),對(duì)電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w識(shí)別性能不是最優(yōu)。模型Attention與BiLSTM-CRF訓(xùn)練時(shí)間基本上與所提方法相同,但對(duì)電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w識(shí)別效果上劣于模型BiLSTM-MHATT-CRF。

      圖5 不同模型訓(xùn)練時(shí)間對(duì)比

      綜上分析,該文提出的融合多頭注意力機(jī)制和雙向LSTM的方法在語料集GridDispatchCorpus上取得了較好的效果。該方法不僅可以有效獲取文本序列的局部特征和全局特征,而且能夠挖掘出序列中重點(diǎn)詞匯所包含的隱藏信息,使模型性能得到極大的提升。與傳統(tǒng)方法相比,該方法雖然在計(jì)算量以及復(fù)雜度上有所提高,但有效解決了電網(wǎng)調(diào)度語音識(shí)別文本中不同詞向量之間依賴關(guān)系不足而引起的信息丟失、序列特征信息獲取不全面以及實(shí)體嵌套等問題。

      4 結(jié)束語

      綜上所述,該文以自建的電網(wǎng)調(diào)度領(lǐng)域語料集GridDispatchCorpus為研究對(duì)象。針對(duì)在電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w識(shí)別中因?qū)嶓w之間嵌套、實(shí)體長(zhǎng)短不一、序列特征信息獲取不足以及詞向量間依賴關(guān)系弱等因素導(dǎo)致的實(shí)體識(shí)別準(zhǔn)確率不高的問題,提出一種融合多頭注意力機(jī)制與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的電網(wǎng)調(diào)度領(lǐng)域命名實(shí)體識(shí)別方法,即BiLSTM-MHATT-CRF模型。該模型通過在雙向LSTM的基礎(chǔ)上運(yùn)用多頭注意力機(jī)制的方法實(shí)現(xiàn)了電網(wǎng)調(diào)度領(lǐng)域命名實(shí)體識(shí)別準(zhǔn)確率提高的目標(biāo),在GridDispatch Corpus數(shù)據(jù)集上,準(zhǔn)確率為93.62%,召回率為93.64%、F1值為93.63%,具有較強(qiáng)的魯棒性。接下來,將在繼續(xù)科學(xué)擴(kuò)充實(shí)驗(yàn)語料的基礎(chǔ)上對(duì)實(shí)驗(yàn)方法進(jìn)行優(yōu)化,對(duì)電網(wǎng)調(diào)度領(lǐng)域?qū)嶓w詞典進(jìn)一步擴(kuò)充,使實(shí)體識(shí)別結(jié)果更加準(zhǔn)確、有效,使模型具有更好的泛化性能。

      猜你喜歡
      語料注意力實(shí)體
      讓注意力“飛”回來
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      A Beautiful Way Of Looking At Things
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      海林市| 海安县| 牡丹江市| 台湾省| 伊宁县| 开封县| 封开县| 葵青区| 桐城市| 汶上县| 蓝田县| 鹤山市| 楚雄市| 周至县| 丰城市| 沾益县| 临泽县| 吴堡县| 库伦旗| 城固县| 宁明县| 林甸县| 白朗县| 祁连县| 蓬安县| 泽普县| 乐山市| 芦溪县| 道孚县| 昌黎县| 丹凤县| 兖州市| 景宁| 天峻县| 萍乡市| 彰化县| 昭平县| 高平市| 府谷县| 广饶县| 崇文区|