• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于文本特征增強的電力命名實體識別

    2022-11-14 06:29:02劉文松胡竹青張錦輝劉雪菁
    電力系統(tǒng)自動化 2022年21期
    關(guān)鍵詞:單字分詞語料

    劉文松,胡竹青,張錦輝,2,劉雪菁,林 峰,俞 俊

    (1. 南瑞集團有限公司(國網(wǎng)電力科學(xué)研究院有限公司),江蘇省南京市 211106;2. 江蘇瑞中數(shù)據(jù)股份有限公司,江蘇省南京市 211106)

    0 引言

    命名實體識別(named entity recognition,NER)指識別文本中具有特定意義的專有名詞[1],分通用和特定兩大類。通用NER 一般指識別人名、地名、機構(gòu)名等名詞;特定NER[2]指識別電力、財經(jīng)、司法、海洋、醫(yī)療等特定行業(yè)的名詞。電力命名實體識別具有鮮明的行業(yè)特定語義,在電力設(shè)備管理[3]、二次設(shè)備診斷[4]、電網(wǎng)調(diào)控[5]、資源中臺元數(shù)據(jù)建模等場合有著廣泛應(yīng)用,是文本分析的第1 步。以“柔性直流”為例,如將其識別為“柔性”和“直流”,即使采用實體消歧算法也無法有效糾正,直接影響后續(xù)處理[6]。因此,如何針對中文電力命名實體的特點,進一步提升識別效果,值得深入研究。

    中文電力命名實體的特點包括:1)語料規(guī)模小,無公開、標(biāo)準數(shù)據(jù)集;2)實體嵌套,表現(xiàn)為實體組成復(fù)雜且長,如“靜止同步串聯(lián)補償器”;3)實體縮寫,表現(xiàn)為特定簡稱,如“柔性直流”簡稱為“柔直”。針對這些特點,傳統(tǒng)的模板法嚴格依賴于特定場景下的人工特征選擇和規(guī)則設(shè)計,無法有效解決實體縮寫和嵌套的問題。經(jīng)典的機器學(xué)習(xí)方法加強了特征挖掘能力,但性能提升有限[7-10]。隨著深度學(xué)習(xí)興起,雙向長短時記憶(bidirectional long short-term memory,BiLSTM)網(wǎng)絡(luò)與條件隨機場(conditional random field,CRF)[11-12]相結(jié)合,在大規(guī)模語料的支撐下,在通用命名實體識別方面取得良好效果。文獻[13]針對上下文學(xué)習(xí)時的噪聲影響,引入注意力機制(attention mechanism,AM)對實體信息進行動態(tài)加權(quán)。以BiLSTM-AM-CRF 為代表的NER 模型已逐漸成為研究主流,文獻[5]首次將其用于電網(wǎng)調(diào)控領(lǐng)域的實體識別,應(yīng)用于電網(wǎng)核心生產(chǎn)業(yè)務(wù)。

    針對特定NER 的性能提升,現(xiàn)有研究可以主要概括為以下4 個方向:

    1)優(yōu)化BiLSTM-AM-CRF 的向量輸入。常見方法是用詞向量工具Word2vec[14]獲取文本的向量表達。Word2vec 計算單詞/單字在文本中的靜態(tài)分布概率,也就是用單詞/單字的靜態(tài)分布概率來量化表示文本。文獻[15]提出基于語言模型的詞向量(embedding from language model,ELMo)[16],相 較Word2vec 引入更多的單詞/單字分布的上下文特征。文獻[17]提出基于Transformer 的雙向編碼器表征模型(bidirectional encoder representation from Transformers,BERT),BERT 依托超大 規(guī)模算力(含64 塊NPU 的計算集群),充分學(xué)習(xí)33 億單詞量的語料庫,獲得的向量表達是動態(tài)的,可以解決一詞多義問題。很多研究直接應(yīng)用BERT 單字向量進行實體識別,取得較大性能提升[18]。

    2)優(yōu)化BiLSTM-AM-CRF 的模型構(gòu)成。文獻

    [19]提 出 門 控 循 環(huán) 單 元(gated recurrent unit,GRU),相比長短時記憶(long short-term memory,LSTM)網(wǎng)絡(luò)的結(jié)構(gòu)更簡潔,收斂速度更快,在數(shù)據(jù)集較小的場合也表現(xiàn)更好。文獻[20]提出雙向門控 循 環(huán) 單 元(bidirectional gated recurrent unit,BiGRU)并應(yīng)用于實體識別中。

    3)優(yōu)化文本特征的表達。文獻[21-22]采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)來學(xué)習(xí)單詞內(nèi)部的字符級特征,與單詞向量拼接后,輸入NER 模型學(xué)習(xí)。文獻[23]用CNN 處理漢字部首,獲得漢字形態(tài)特征。文獻[24]用CNN 處理特定領(lǐng)域名詞后綴,獲得專有名詞特征。相關(guān)研究雖已運用了單詞的語義信息,但未提及如何合理控制分詞誤差。雖然通過CNN 學(xué)習(xí)單詞的字符級特征,但沒有結(jié)合中文電力命名實體的特點引入更多文本特征,且未結(jié)合分詞策略進行優(yōu)化。

    4)提出新的NER 模型結(jié)構(gòu)。與BiLSTM-AMCRF 不同,文獻[25]提出級聯(lián)LSTM,即輸入單字向量的LSTM 與輸入單詞向量的LSTM 構(gòu)成級聯(lián)網(wǎng)絡(luò)。一方面,單字向量輸入的LSTM 降低了分詞誤差的影響。另一方面,文本序列中所有可能組詞的單詞向量輸入到LSTM 中,也會引入較多的無關(guān)信息。對此,文獻[26]探索引入門控去噪機制來過濾無關(guān)的文本信息。

    參考以上特定NER 研究,結(jié)合電力命名實體的特點,開展電力命名實體的方法研究,重點在于小規(guī)模語料條件下,進一步豐富增強構(gòu)成電力命名實體的單詞特征,從而提升實體識別模型的效果。據(jù)此,本文提出一種基于文本特征增強的電力實體識別方法。首先,通過預(yù)設(shè)先驗詞庫和低粒度分詞來降低分詞誤差帶來的影響;其次,設(shè)計詞級BiGRU 學(xué)習(xí)中文單詞的組成和順序特征,結(jié)合詞性、詞長特征,實現(xiàn)單詞特征增強;最后,通過BiGRU 完成文本的實體特征學(xué)習(xí),采用注意力機制加強與實體特征相關(guān)的信息加權(quán),降低單字對訓(xùn)練的干擾,并用CRF完成文本標(biāo)簽的解碼輸出。綜合上述3 個方法,提高電力命名實體識別的性能。

    1 方法設(shè)計

    1.1 基于預(yù)設(shè)詞庫的低粒度分詞

    中文NER 任務(wù)包括單詞、單字兩種顆粒度。文獻[22,24-26]提出字詞聯(lián)合的實體識別,但均未提到如何克服分詞誤差的影響。部分研究[18]為回避分詞誤差,直接基于單字向量訓(xùn)練NER 模型。但由于中文語言的特點,基于單字顆粒度訓(xùn)練向量時,割裂了字與詞的關(guān)系,比如,“同步”拆成“同”與“步”時,含義已經(jīng)不準確、不充分,用其表示文本特征是不合適的。

    對于電力命名實體嵌套,其表現(xiàn)特點是電力專用名詞由多個細粒度單詞共同組成,如“靜止同步串聯(lián)補償器”是由“靜止”“同步”“串聯(lián)”“補償器”等名詞組成。因此,重點是能保證最小粒度的單詞被正確分出。而這也降低了分詞的難度,尤其是降低了復(fù)雜語境下錯誤分詞的可能。因此,本文采用預(yù)設(shè)詞庫和低粒度分詞結(jié)合的方式,把“靜止”“同步”“串聯(lián)”等常用詞納入詞庫,基于預(yù)設(shè)詞庫的正向和逆向最大匹配完成分詞。從可拓展性的角度,常用詞最大長度不大于4。結(jié)合以上考慮,本文將183 796個電力領(lǐng)域常用詞納入預(yù)設(shè)詞庫,采用基于預(yù)設(shè)詞庫的低粒度分詞,電力文本語料同時包含單字和單詞,表達能力更強,同時可將分詞誤差控制在較低的范圍內(nèi)。

    1.2 基于詞級BiGRU 的單詞特征增強

    引入中文單詞以后,充分、全面地表達單詞特征,對于NER 模型學(xué)習(xí)電力命名實體的特征,從而提高整體的識別率尤為重要。為此,首先設(shè)計詞級BiGRU 學(xué)習(xí)單詞內(nèi)部的組成和順序特征,即單詞的構(gòu)造特征,單個GRU 結(jié)構(gòu)如圖1 所示。

    圖1 GRU 結(jié)構(gòu)Fig.1 GRU structure

    GRU 前向傳播權(quán)重參數(shù)更新公式如下:

    式中:σ為sigmoid 函數(shù);xt為t時刻輸入;rt和zt分別為t時刻重置門和更新門的輸出;ht-1為t-1 時刻隱藏 狀 態(tài);?h t為t時 刻 候 選 隱 藏 狀 態(tài);ht為t時 刻 記 憶內(nèi)容;Wxr和Whr分別為重置門中當(dāng)前輸入xt和上一時刻隱藏狀態(tài)ht-1的權(quán)重參數(shù);Wxz和Whz分別為更新門中當(dāng)前輸入xt和上一時刻隱藏狀態(tài)ht-1的權(quán)重參數(shù);Wxh和Whh分別為計算候選隱藏狀態(tài)?h t時當(dāng)前輸入xt和rt?ht-1的權(quán)重參數(shù);?為Hadmard乘積;br、bz、bh分別為重置門、更新門和計算候選隱藏狀態(tài)?h t的偏差參數(shù)。

    結(jié)合圖1 和式(1)分析GRU 運行機制:更新門zt可以組合控制上一時刻ht-1和候選隱藏狀態(tài)?h t,更新輸出ht,決定過去到未來的信息量。重置門rt趨近零時,重置和遺忘上一時刻ht-1的狀態(tài)信息,將候選隱藏狀態(tài)?h t重置為當(dāng)前輸入信息xt,即決定過去信息的被遺忘量。GRU 通過更新門和重置門的門控機制,能夠保存長期序列中的信息并決定輸出哪些信息。

    據(jù)此設(shè)計詞級BiGRU 學(xué)習(xí)單詞內(nèi)部的組成和順序特征,如圖2 所示:包括兩個GRU 序列,每個GRU 序列包含4 個完全相同的GRU 單元,二者僅輸入方向不同。可見,詞級BiGRU 是針對基于預(yù)設(shè)詞庫的低粒度分詞方法專門設(shè)計的BiGRU。中文語料經(jīng)過低粒度分詞后,第i個單詞wi由單字ci1、ci2、ci3、ci4組成(如單詞長度小于4 就填0 補齊),將對應(yīng)的單字向量v′i1、v′i2、v′i3、v′i4輸入詞級BiGRU。此處的單字向量源于前文所提同一份中文語料,不做分詞,采用詞向量工具Word2vec 對單字集合{c1,c2,…,cM}進行處理,獲取M個單字向量組成的集合{v′1,v′2,…,v′M}。由于訓(xùn)練主體是中文單詞內(nèi)部的單字字符,其標(biāo)簽設(shè)置為單字在單詞內(nèi)的順序編碼即可。通過GRU 序列計算,獲得第i個單詞wi的前向特征向量vFi和后向特征向量vBi,拼接成單詞構(gòu)造特征向量vSi=[vFi,vBi]。因此,相對于CNN學(xué)習(xí)單詞的字符級特征,詞級BiGRU 可以同時獲得單詞的組成和順序特征。

    圖2 基于詞級BiGRU 的單詞構(gòu)造特征學(xué)習(xí)Fig.2 Word structure feature learning based on wordlevel BiGRU

    其次,引入單詞的詞性特征和詞長特征。詞性可以表示單詞的類別信息,一般情況下,中文詞性可以分為12 類,其中名詞、動詞、形容詞、數(shù)詞、量詞和代詞是實詞,副詞、介詞、連詞、助詞、擬聲詞和嘆詞是虛詞。除去擬聲詞和嘆詞,共選用10 類詞性。對于第i個單詞wi的詞性向量vpi,采用onehot 編碼,向量長度為10。詞長可以表示單詞的邊界信息,對于第i個單詞wi的詞長向量vli,由于最大詞長限定為4,采用onehot 編碼,向量長度為4。

    綜上所述,單詞的特征增強就是引入單詞的構(gòu)造特征vSi、詞性特征vpi和詞長特征vli,與原有單詞向量vi進行拼接,得向量vei=[vi,vSi,vpi,vli],將其輸入NER 模型進行實體特征學(xué)習(xí)。和v′i不同,此處vi是指經(jīng)過低粒度分詞處理得到單詞和單字后,采用詞向量工具獲得的向量(既包括單詞向量,也包括單字向量)。對于單詞向量,進行增強處理;但對于單字向量,考慮到單字不易判別詞性,且單字也不存在所謂的構(gòu)造特征,因此不做增強處理。因此,vei相對于單字向量更長,在輸入NER 模型前需填0對齊。

    1.3 基于BiGRU-AM-CRF 的實體特征學(xué)習(xí)

    基于單詞特征增強,設(shè)計合適的NER 模型進行實體特征的學(xué)習(xí),需要考慮的因素包括:1)已有文獻證明GRU 在數(shù)據(jù)集較小的場合下表現(xiàn)更好,貼近中文電力語料規(guī)模較小的情景;2)采用低粒度分詞后,依然存在的單字可能會干擾NER 模型對實體特征學(xué)習(xí)的效果。因此,引入注意力機制,通過與實體有關(guān)的上下文信息進行加權(quán)。采用BiGRU-AMCRF 作 為NER 模 型。

    基于詞級BiGRU 的電力實體識別模型結(jié)構(gòu)如圖3 所示,電力實體識別過程為:首先,基于預(yù)設(shè)詞庫的低粒度分詞后,獲得包含N個單字和單詞的文本 集 合{w1,w2,…,wN};其 次,將 單 詞 輸 入 詞 級BiGRU 獲取單詞構(gòu)造特征向量,將其與詞性向量、詞長向量、單詞向量拼接,實現(xiàn)文本特征的增強;然后,將增強后的單詞向量與單字向量輸入到BiGRU中,進一步學(xué)習(xí)電力中文語料中單詞和單字的全局分布特征和上下文關(guān)系,獲得實體特征向量序列H=[h1,h2,…,hN]。BiGRU 原 理 與 詞 級BiGRU原理相似,不再贅述。

    圖3 基于詞級BiGRU 的電力實體識別模型Fig.3 Electric NER model based on word-level BiGRU

    針對單字可能造成的影響,引入注意力機制對t時刻的實體特征向量ht進行權(quán)重分配,動態(tài)生成不同連接的權(quán)重bt,從而完成與實體相關(guān)的特征加權(quán),計算最大概率值的標(biāo)簽并輸出t時刻的注意力狀態(tài)向量x′t。注意力機制公式如下:

    權(quán)重bt=[bt1,bt2,…,btD]的計算公式如下:

    式中:etj為t時刻通過tanh 激活函數(shù)獲得的向量元素;α、β、γ為權(quán)重;btj為t時刻實體特征向量ht第j個維度的權(quán)重;D為BiGRU 維數(shù);k為求和變量。

    通過CRF 建立標(biāo)簽相關(guān)性,解碼輸出最后標(biāo)簽。輸 入 注 意 力 狀 態(tài) 向 量 序 列X′=[x′1,x′2,…,x′N],可得預(yù)測標(biāo)簽序列Y=[y1,y2,…,yN]的轉(zhuǎn)移概率p(Y|X′)為:

    式中:S(X′,Y)為注意力機制輸出狀態(tài)序列經(jīng)過線性鏈條件隨機場后預(yù)測得到的標(biāo)簽序列預(yù)測分數(shù);pi,yi為 第i個 位 置 判 為 標(biāo) 簽yi的 非 歸 一 化 概 率;Ayi+1,yi為標(biāo)簽yi+1轉(zhuǎn)移到y(tǒng)i的概率。

    根據(jù)式(4),訓(xùn)練過程中損失函數(shù)表示為:

    采用Viterbi 算法,通過動態(tài)規(guī)劃尋找概率最大路 徑,實 現(xiàn) 預(yù) 測 標(biāo) 簽 序 列Y=[y1,y2,…,yN] 的求解。

    訓(xùn)練開始時,詞級BiGRU 的參數(shù)采用Xavier uniform 進行初始化,并在訓(xùn)練過程中持續(xù)從后續(xù)網(wǎng)絡(luò)中獲得反向傳播的梯度信息,從而進行該部分參數(shù)的優(yōu)化。梯度信息來源于模型的損失函數(shù),即將CRF 的動態(tài)規(guī)劃解碼結(jié)果(本質(zhì)是預(yù)測標(biāo)簽的概率分布)與真實標(biāo)簽的對數(shù)似然函數(shù)作為損失函數(shù),損失函數(shù)對當(dāng)前參數(shù)的偏導(dǎo)即為參數(shù)的梯度,通過沿梯度方向調(diào)整參數(shù)以使對數(shù)似然函數(shù)最大化,實現(xiàn)預(yù)測標(biāo)簽的概率分布盡可能接近真實標(biāo)簽,從而提升整體訓(xùn)練效果。

    2 實驗分析

    2.1 實驗數(shù)據(jù)和評價標(biāo)準

    考慮到電力領(lǐng)域暫無公開的標(biāo)準語料數(shù)據(jù)集,而已有的公開數(shù)據(jù)集缺乏電力專業(yè)特色,無法驗證方法的有效性,因此選用國網(wǎng)電力科學(xué)研究院的研究報告、專利和論文共900 份作為語料,定義三大類電力實體類型,包括652 個電力行業(yè)機構(gòu)、754 種電力設(shè)備及材料、1 984 項電力技術(shù),涵蓋電氣技術(shù)、電力工程材料、水力發(fā)電、火力發(fā)電、風(fēng)力及太陽能發(fā)電、環(huán)境保護與勞動保護等9 類專業(yè)領(lǐng)域,涉及雙碳和新型電力系統(tǒng)、電力自動化及繼電保護、電力信息通信、特高壓輸電及柔性輸電、發(fā)電及節(jié)能環(huán)保、軌道交通及工業(yè)自動化等25 種技術(shù)類別,具有較好的代表性。標(biāo)注方法為BIOE,B 表示實體開始,I 表示實體內(nèi)部,E 表示實體結(jié)束,O 表示不是實體。

    使用準確率P、召回率R和F1 分數(shù)來評價算法效果,具體公式如下:

    式中:T為正樣本判為正的數(shù)量;FP為正樣本判為負的數(shù)量;FN為負樣本判為正的數(shù)量;F1為F1 分數(shù),是準確率P和召回率R的綜合值,表示既希望較高的召回率,也希望較高的準確率。

    2.2 實驗方法

    電力命名實體識別的效果與詞向量工具的選擇、文本特征的學(xué)習(xí)、模型構(gòu)成有直接關(guān)系。因此,本文從以下幾個方面驗證方法的有效性。

    1)不同文本向量對實體識別性能的影響

    基于文本特征增強的電力命名實體識別方法,分別采用Word2vec、ELMo、BERT 獲得中文電力文本的向量表達,測試不同文本向量對命名實體識別效果的影響。BiGRU 的學(xué)習(xí)率為0.01,隱節(jié)點數(shù)為150,Dropout 為0.5,迭代次數(shù)為100。實驗采用5 折交叉驗證,即將數(shù)據(jù)集隨機劃分為5 份,4 份用于模型訓(xùn)練,剩下的1 份用于測試,對結(jié)果取平均值。實驗結(jié)果見表1。

    由表1 可知,得益于文本向量的性能提升,命名實體識別的性能也得以提升。但隨著文本向量的能力提升,也意味著計算、存儲資源占用更多,需要結(jié)合電力業(yè)務(wù)的具體應(yīng)用場景選擇合適的詞向量工具。

    表1 不同文本向量的性能比較Table 1 Performance comparison of different text vectors

    2)不同模型構(gòu)成對實體識別性能的影響

    基于同一詞向量工具Word2vec,采用本文的基于預(yù)設(shè)詞庫的低粒度分詞以及文本增強方法,分別測試BiLSTM-CRF、BiGRU-CRF、BiGRU-AM-CRF 3 種模型的實體識別效果,實驗結(jié)果見表2。

    表2 不同NER 模型的性能比較Table 3 Performance comparison of different NER models

    由表2 可知,基于本文的小樣本量中文電力語料數(shù)據(jù),BiLSTM 和BiGRU 性能接近,甚至BiGRU的準確率還略高一些。在此基礎(chǔ)上,加入注意力機制后,識別效果有了較大提升。這也證明,詞級BiGRU 重點完成文本局部特征(單詞構(gòu)造特征)學(xué)習(xí),而NER 模型中的BiGRU 則著重于文本序列中單字和單詞之間整體的上下文學(xué)習(xí),并通過注意力機制加強了實體特征的權(quán)重分配,降低了單字的影響。相關(guān)方法的組合運用有良好的互補作用。

    3)不同處理方法對實體識別性能的影響

    基于同一文本向量Word2vec 表達,選取文獻[5]、文獻[22]、文獻[25]和本文方法進行比較。其中,文獻[5]、文獻[22]和文獻[25]均采用Jieba 分詞工具完成分詞,本文采用基于預(yù)設(shè)詞庫的低粒度分詞。文獻[5]在電力領(lǐng)域?qū)S妹~識別取得良好應(yīng)用,其核心方法是BiLSTM-AM-CRF 模型。文獻[22]是在BiLSTM-AM-CRF 基礎(chǔ)上,采用CNN 學(xué)習(xí)單詞的字符級特征,實現(xiàn)文本特征增強的代表性方法。文獻[25]是基于Lattice-LSTM 模型,通過單字向量的LSTM 與單詞向量的LSTM 級聯(lián)來完成實體識別模型訓(xùn)練。本文是通過詞級BiGRU 學(xué)習(xí)單詞的內(nèi)部構(gòu)造特征,實現(xiàn)文本特征增強,同時采用BiGRU-AM-CRF 完成實體識別。 實驗結(jié)果見表3。

    表3 不同識別方法的性能比較Table 3 Performance comparison of different recognition methods

    由表3 可知,基于相同的詞向量工具,本文方法相對于文獻[5]、文獻[22]和文獻[25]取得更好效果。文獻[25]引入當(dāng)前單字可能匹配到的全部單詞,客觀上帶來更多的冗余信息,會影響實體特征識別的準確性。相比于文獻[5],文獻[22]通過引入單詞的字符級特征,從而帶來效果提升。和文獻[22]相比,本文一方面采用基于預(yù)設(shè)詞庫的細粒度分詞控制分詞誤差;另一方面采用詞級BiGRU 學(xué)習(xí)單詞的內(nèi)部構(gòu)造特征,既包含單字內(nèi)部組成和順序特征,也結(jié)合了詞長和詞性特征,較CNN 獲取的字符級特征更為豐富。

    2.3 驗證分析

    以“定子雙繞組內(nèi)反饋串級調(diào)速高壓電動機及調(diào)速控制裝置”為實例,給出了文獻[5]、文獻[22]、文獻[25]和本文方法的實驗效果,如表4 所示,其中,紅色字體表示識別出的電力命名實體。在本例中,“高壓電動機”“調(diào)速控制裝置”是電力設(shè)備及材料名稱(power equipment and materials,PEM),“定子雙繞組”“串級調(diào)速”是電力技術(shù)名稱(electrical technologies,ET),均屬于電力專有名詞。同時,這些實體具有一定的模糊性。文獻[5]的方法識別出“雙繞組”“控制裝置”“調(diào)速高壓電動機”,但“定子雙繞組”“調(diào)速控制裝置”沒有被完整識別,且未識別“串級調(diào)速”而是將“調(diào)速”與“高壓電動機”識別在一起。類似地,采用文獻[22]方法,“定子雙繞組”“調(diào)速控制裝置”等實體未能完整識別,且“串級調(diào)速”沒有被識別成電力專有名詞,而是識別為普通詞。文獻[25]方法考慮所有關(guān)聯(lián)詞,造成“組”與后面的“內(nèi)反饋”“串級調(diào)速”識別到一起。本文方法正確識別出“定子雙繞組”“串級調(diào)速”是電力技術(shù)實體,“高壓電動機”“控制裝置”為電力設(shè)備及材料實體,雖然未能將“調(diào)速控制裝置”識別完整,但是整體而言,對電力專有名詞的識別效果得到改善。

    表4 不同方法的實施效果Table 4 Implement effects of different methods

    3 應(yīng)用實例

    本方法已在科研管理業(yè)務(wù)的技術(shù)能力地圖中得以應(yīng)用。技術(shù)能力地圖是以科研管理系統(tǒng)中的科技項目和研究成果為基礎(chǔ)數(shù)據(jù)構(gòu)建的電力科技圖譜,可以為量化評估科研能力、關(guān)聯(lián)查找專家團隊提供支撐[27]。技術(shù)能力地圖的一個重要數(shù)據(jù)來源是研究成果,大量技術(shù)點隱含在專利、論文、軟著、研究報告等科技文獻中,人工檢索困難,需要依賴準確的算法提取。

    為在技術(shù)能力地圖中柔性關(guān)聯(lián)和展示挖掘到的技術(shù)點,設(shè)計了體系、項目、單位、人員、文獻和技術(shù)六大圖譜本體。知識圖譜中的本體是指同一類實體及其屬性和關(guān)系的集合。對于體系本體,技術(shù)體系內(nèi)每層、每類的技術(shù)類別名稱,就是體系實體,技術(shù)體系內(nèi)的層數(shù)是實體屬性;對于項目本體,各類科技項目名稱就是項目實體,項目層次(國家級、省部級、地市級等)等是實體屬性;對于單位本體,科研項目的執(zhí)行機構(gòu)就是單位實體,單位性質(zhì)(企業(yè)、高校、院所)作為單位實體屬性;對于人員本體,科研項目的負責(zé)人或核心骨干就是人員實體,職稱、職位作為實體屬性;對于文獻本體,科研項目產(chǎn)出的專利、軟著、論文、研究報告等為文獻實體,文獻類別作為文獻實體的屬性;對于技術(shù)本體,指科技文獻中描述的技術(shù)點,比如人工智能、量子加密、5G 通信等。對于體系、項目、單位、人員、文獻5 類本體,依托現(xiàn)有科研管理信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫,從中抽取相應(yīng)的實體和屬性數(shù)據(jù)加入知識圖譜中。對于技術(shù)類本體,采用本文方法從文獻實體中抽取技術(shù)點,并自動建立技術(shù)實體與文獻實體的關(guān)聯(lián)。在此基礎(chǔ)上,以科技項目實體為核心,向上關(guān)聯(lián)體系實體,橫向關(guān)聯(lián)單位實體、人員實體和文獻實體,向下關(guān)聯(lián)技術(shù)實體,從而最終得到技術(shù)能力地圖,在顯性展示科研合作網(wǎng)絡(luò)的同時,從電力技術(shù)實體的視角展示技術(shù)熱點,如圖4 所示。對于部分識別不準確的電力技術(shù)實體,一方面可以結(jié)合無監(jiān)督的信息熵挖掘算法進行輔助校驗,并通過詞頻予以過濾;一方面通過開放分發(fā)的方式交由科研人員編輯糾正。

    圖4 技術(shù)能力地圖Fig.4 Map of technology capability

    4 結(jié)語

    電力領(lǐng)域的文本語料來源于電力設(shè)備管理、二次設(shè)備診斷、電網(wǎng)調(diào)控、資源中臺元數(shù)據(jù)模型、電網(wǎng)營銷等一線生產(chǎn)環(huán)境的運行數(shù)據(jù)及相關(guān)技術(shù)文獻,具有專業(yè)性強、規(guī)模小的特點。電力實體識別可將這些業(yè)務(wù)場景中的文本信息轉(zhuǎn)化成可用的知識,有利于電網(wǎng)專業(yè)知識的快速查詢和智能檢索。

    本文提出一種文本特征增強的電力命名實體識別方法,通過預(yù)設(shè)先驗詞庫和低粒度分詞,合理利用中文單詞蘊含的語義信息,降低分詞誤差帶來的影響;基于詞級BiGRU 學(xué)習(xí)單詞構(gòu)造特征,結(jié)合詞長、詞性特征,與單詞向量拼接后,實現(xiàn)文本特征增強;在此基礎(chǔ)上,通過BiGRU 完成文本序列的全局特征學(xué)習(xí),采用注意力機制加強與實體特征相關(guān)的信息加權(quán),降低單字對訓(xùn)練的干擾,最后通過CRF 完成文本標(biāo)簽的解碼輸出。

    基于中文電力語料進行測試,以上方法的綜合實施取得了良好效果,為相關(guān)研究提供了新的思路。但還需要獲取更多的應(yīng)用場景語料測試方法的普適性,引入更多的電力行業(yè)特征及字形、讀音等特征,進一步探索模型訓(xùn)練參數(shù)對識別性能的影響。后續(xù),可針對以上不足進一步開展相應(yīng)的研究和測試,同時探索集成多類深度學(xué)習(xí)或機器學(xué)習(xí)方法實現(xiàn)工程應(yīng)用中識別性能的綜合提升。

    采用本文方法訓(xùn)練的電力命名實體識別模型經(jīng)封裝后,以網(wǎng)絡(luò)服務(wù)形式對外公開測試。在測試文本框界面中輸入一段文字資料,點擊測試按鍵,即返回識別的電力命名實體結(jié)果。相關(guān)脫敏的中文電力語料也同步公開,詳見http://www.aeps-info.com:5014/。

    本文研究得到國網(wǎng)電力科學(xué)研究院有限公司科技項目“知識圖譜技術(shù)研究及在科技領(lǐng)域應(yīng)用”資助,特此感謝!

    猜你喜歡
    單字分詞語料
    河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實驗語音學(xué)初探
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    值得重視的分詞的特殊用法
    “對仗不宜分解到單字”毋庸置疑——答顧紳先生“四點質(zhì)疑”
    中華詩詞(2016年11期)2016-07-21 14:56:16
    鹽城方言單字調(diào)聲學(xué)實驗研究
    華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語料
    國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
    《通鑒釋文》所反映的宋代單字音特殊變化
    沽源县| 临沭县| 陈巴尔虎旗| 无极县| 西乌| 玉山县| 乐昌市| 泾源县| 闸北区| 县级市| 沅江市| 秦皇岛市| 金门县| 恩施市| 惠来县| 黄龙县| 石景山区| 天长市| 佳木斯市| 惠安县| 寿宁县| 阳谷县| 高安市| 莆田市| 定安县| 兴业县| 襄樊市| 汶上县| 绥中县| 喀喇沁旗| 讷河市| 斗六市| 麻栗坡县| 徐闻县| 莲花县| 隆化县| 大竹县| 东辽县| 石泉县| 新干县| 离岛区|