張柯文,李 翔,嚴(yán)云洋,朱全銀,馬甲林
(淮陰工學(xué)院計算機與軟件工程學(xué)院,江蘇 淮安 223005)
信息抽取(information extraction,IE)的主要研究方法是基于自然語言處理和文本挖掘,從非結(jié)構(gòu)化或半結(jié)構(gòu)化的網(wǎng)絡(luò)文本數(shù)據(jù)中挖掘出有價值的信息[1]. 命名實體識別(named-entity recognition,NER)是自然語言處理和信息抽取的基礎(chǔ)任務(wù),從文本中識別命名性指稱項,為關(guān)系抽取、機器翻譯和自動文摘等任務(wù)做鋪墊[2].
專家信息是一種以網(wǎng)絡(luò)文本形式存在的非結(jié)構(gòu)化數(shù)據(jù),是專家向社會展示個人基本信息和過去經(jīng)歷的重要載體[3]. 通過大數(shù)據(jù)技術(shù)對專家信息進行整理、分類和分析后,以不同的形式為政府、高校、企業(yè)提供精準(zhǔn)的專家信息服務(wù),可以構(gòu)建高??萍既瞬排c政府、企業(yè)的聯(lián)通橋梁. 然而,隨著互聯(lián)網(wǎng)技術(shù)的普及,大量的電子文本信息在篩選過程中需要耗費大量的時間及精力[4]. 實體抽取的研究更好地滿足人們信息檢索的需求. 通過從非結(jié)構(gòu)化文本中提取指定類型的關(guān)鍵性信息,自動轉(zhuǎn)換為結(jié)構(gòu)化信息以支持?jǐn)?shù)據(jù)庫的保存及數(shù)據(jù)的下一步處理[5]. 在實體抽取的研究中,Zhang等[6]主要是關(guān)注人名、地名和組織機構(gòu)名這三類名詞的識別. 對于處理專家簡歷信息而言,除人名、機構(gòu)名外,專家的其他信息(包括職稱、研究領(lǐng)域名稱、電子郵件地址及電話號碼)的提取同樣起著基礎(chǔ)性作用,而特定領(lǐng)域的專有名詞是非常重要的實體. 對研究領(lǐng)域名的識別研究還很薄弱,一方面,研究領(lǐng)域很大程度上與行業(yè)知識息息相關(guān),另一方面領(lǐng)域的特殊性給實體的抽取帶來了挑戰(zhàn). 因此,為更好地對復(fù)雜文本進行處理,將自然語言處理與行業(yè)知識深度融合受到了更多的關(guān)注.
本文首先對領(lǐng)域?qū)<覍嶓w抽取及相關(guān)問題進行介紹;然后闡述基于多特征雙向門控神經(jīng)網(wǎng)絡(luò)的構(gòu)建過程及命名實體識別抽取專家信息過程;最后,以化工專家網(wǎng)絡(luò)文本作為實驗數(shù)據(jù),使用HMM、IDCNN-CRF、BiLSTM-CRF及多特征雙向門控神經(jīng)網(wǎng)絡(luò)抽取方法進行化工專家實體抽取,根據(jù)實驗結(jié)果分析本文提出的模型的優(yōu)勢及未來工作.
實體抽取方法可分為傳統(tǒng)實體抽取方法、基于機器學(xué)習(xí)的抽取方法和基于神經(jīng)網(wǎng)絡(luò)的抽取方法. 傳統(tǒng)實體抽取方法都是基于詞典和規(guī)則的,通過大規(guī)模語料庫構(gòu)建詞典,在實體抽取的識別準(zhǔn)確率和召回率上取得了很大的提升[7]. 面向?qū)<翌I(lǐng)域的規(guī)則還需要領(lǐng)域?qū)I(yè)人士去構(gòu)建,此類方法在抽取專家實體過程中不僅受限于詞典的規(guī)模和質(zhì)量,還無法識別和抽取新的實體. 基于機器學(xué)習(xí)的抽取方法在預(yù)測性上可以預(yù)測新的實體,逐漸受到研究者們的廣泛關(guān)注. Morwal[8]引入馬爾科夫假設(shè)的隱馬爾可夫模型(hidden Markov model,HMM)算法非常適合用于序列標(biāo)注問題,但其局限于輸出獨立性假設(shè),在實際文本中限制了上下文特征的選擇. McCallum等[9]提出的最大熵隱馬模型(maximum entropy Markov model,MEMM)使用局部最優(yōu)值解決了隱馬的問題,同時也帶來了標(biāo)記偏見的問題. Lafferty等[10]于2001年提出的條件隨機場(conditional random field,CRF),結(jié)合了最大熵模型和隱馬爾可夫模型的特點,通過監(jiān)督學(xué)習(xí)可更加高效地進行實體識別任務(wù),還可以準(zhǔn)確地預(yù)測新的實體.
為減少特征工程的需求,深度學(xué)習(xí)方法給實體抽取方法提供了新的思路. 神經(jīng)網(wǎng)絡(luò)出色的非線性映射和自主學(xué)習(xí)的能力在很大程度上減少了特征工程的工作量. 2018年Google發(fā)布的基于雙向 Transformer 的大規(guī)模預(yù)訓(xùn)練語言模型(Bi-directional encoder representation from transformers,Bert)[11]在處理命名實體識別等序列標(biāo)注任務(wù)中取得了很好的效果. Collobert等[12]最早提出用CNN對序列標(biāo)注任務(wù)來自動提取特征的模型. Strubell等[13]提出使用Iterated Dilated CNN+CRF模型進行命名實體識別,取得了很好的效果. Huang等[14]提出目前中文序列標(biāo)注最常用的模型BiLSTM-CRF,充分利用上下文特征,在實體抽取任務(wù)上取得了很高的成就. 深度學(xué)習(xí)模型在行業(yè)領(lǐng)域研究和應(yīng)用中還處于起步階段. 在實際研究中,基于神經(jīng)網(wǎng)絡(luò)的實體抽取任務(wù)多以英文語料為主,在中文文本的應(yīng)用中效果差強人意.
本文針對中文專家信息的特點,以領(lǐng)域?qū)I(yè)術(shù)語在文檔中的特征進行分析,提出基于多特征雙向門控神經(jīng)網(wǎng)絡(luò)的領(lǐng)域?qū)<液喗閷嶓w抽取的方法. 首先,挖掘網(wǎng)絡(luò)文本并對其清洗及規(guī)范化,半自動標(biāo)注構(gòu)建領(lǐng)域?qū)<液喗檎Z料庫;接著,對語料庫專業(yè)領(lǐng)域?qū)I(yè)名詞構(gòu)造要素進行分析,使用Bert語言模型進行字嵌入表示;然后,將處理后的有監(jiān)督文本向量輸入雙向門控神經(jīng)網(wǎng)絡(luò),利用注意力機制有效獲取特定詞語長距離依賴關(guān)系;最后,結(jié)合邊界特征構(gòu)建條件隨機場模型實現(xiàn)命名實體識別. 門控神經(jīng)網(wǎng)絡(luò)可以從上下文中自動找到更有用的單詞以獲得更好的NER性能,從而解決人工特征提取成本高和專業(yè)新詞無法識別等問題.
領(lǐng)域?qū)<覍嶓w抽取是進行專家信息抽取的首要工作,即從專家網(wǎng)絡(luò)文本中識別并提取具有實際意義的實體,從而表示專家信息. 專家信息中的領(lǐng)域術(shù)語能夠快捷準(zhǔn)確地了解專家的研究領(lǐng)域及研究方向,有效抽取并利用領(lǐng)域?qū)<覍嶓w能夠更好地檢索或推薦專家信息. 因此,本文以化工領(lǐng)域的專家網(wǎng)絡(luò)文本為例抽取實體,基于多特征和雙向門控神經(jīng)網(wǎng)絡(luò)構(gòu)建自動抽取模型.
Zhang等[6]從新浪財經(jīng)收集簡歷數(shù)據(jù),將個人簡歷分為包括國家(country)、機構(gòu)(educational institution)、所在地(location)、人名(personal name)、組織(organization)、行業(yè)(profession)、種族背景(ethnicity background)及職位(job title)8種實體,使用門控循環(huán)單元使模型從句子中選擇最相關(guān)的字符和詞,以生成更好的NER結(jié)果,而與行業(yè)領(lǐng)域方向相關(guān)的實體沒有涉及. 本文分析專家網(wǎng)絡(luò)文本發(fā)現(xiàn)化工領(lǐng)域術(shù)語存在以下特點:(1)中文行業(yè)領(lǐng)域術(shù)語實體歧義多變,且隨時間推移不斷出現(xiàn)新詞,在抽取過程中新詞識別無法掌控;(2)化工領(lǐng)域術(shù)語組合模式復(fù)雜,其中包含字長及中英文混雜的特點,如TAME原料預(yù)處理、DNW高溫樹脂合成異丙醚研究等;(3)領(lǐng)域術(shù)語多為嵌套或復(fù)合結(jié)構(gòu),如污染物防控及資源化利用、功能材料的合成及制備工藝等.
綜上,本文將領(lǐng)域?qū)<覍嶓w定義為3類,如表1所示. 第一類為普通名詞性實體,包括人名、機構(gòu)名及職稱;第二類為數(shù)字性實體,包括聯(lián)系方式和電子郵件;第三類為領(lǐng)域性實體,包括研究方向及領(lǐng)域關(guān)鍵詞實體.
表1 化工領(lǐng)域?qū)<覍嶓w描述Table 1 Entity description of experts in chemical industry
圖1 領(lǐng)域?qū)<液喗閷嶓w抽取過程Fig.1 Process of domain expert introduction entity extraction
本研究的最終目標(biāo)是從領(lǐng)域?qū)<揖W(wǎng)絡(luò)文本中提取定義的專家實體類型,重點解決領(lǐng)域性實體抽取過程中存在的領(lǐng)域?qū)嶓w無法識別及現(xiàn)有方法對人工特征過度依賴的問題. 本文從多特征角度對3類實體進行分析,提取相關(guān)性特征. 使用Bert語言模型以字符為單位進行文本向量化表示,統(tǒng)計特定詞匯上下文邊界信息;使用雙向門控神經(jīng)網(wǎng)絡(luò)獲取長文本上下文信息;訓(xùn)練條件隨機場模型處理有強依賴性數(shù)據(jù)的難題,從而對文本實現(xiàn)更好的標(biāo)注. 輸出結(jié)果為:c={“content text”offset“content type”},其中,c表示輸出內(nèi)容;content text表示專家實體內(nèi)容;offset表示實體起始到結(jié)束的標(biāo)識;content type則表示定義的專家實體類型.
領(lǐng)域?qū)<液喗閷嶓w抽取過程以化工領(lǐng)域為例如圖1所示,首先對化工專家網(wǎng)絡(luò)文本進行預(yù)處理,包括分詞、詞性標(biāo)注及特征抽取等;然后,將化工專家實體抽取轉(zhuǎn)化為序列標(biāo)注問題,將抽取的特征通過多特征雙向門控神經(jīng)網(wǎng)絡(luò)提取隱藏層特征;最后將其輸入到條件隨機場模型對上下文標(biāo)注進一步約束,得到序列標(biāo)注結(jié)果,實現(xiàn)化工專家實體的識別和抽取.
3.1.1 數(shù)據(jù)清洗及規(guī)范化
通過數(shù)據(jù)源搜索的數(shù)據(jù)一定要經(jīng)過清洗,才能讓數(shù)據(jù)發(fā)揮價值,最終保證數(shù)據(jù)分析結(jié)果的準(zhǔn)確性. 對于爬取的領(lǐng)域?qū)<揖W(wǎng)絡(luò)文本,通過預(yù)定義的清理規(guī)則,將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù),使數(shù)據(jù)變得完整和精準(zhǔn),從而保證后續(xù)數(shù)據(jù)分析結(jié)果的準(zhǔn)確性[15]. 數(shù)據(jù)清洗方法包括:(1)篩查文本數(shù)據(jù)的一致性,根據(jù)數(shù)據(jù)源內(nèi)部及數(shù)據(jù)元之間的規(guī)范,將文本轉(zhuǎn)換為統(tǒng)一結(jié)構(gòu)的規(guī)范化數(shù)據(jù);(2)檢測并清除特殊字符,使用規(guī)則匹配去除JavaScript代碼及編號等無效字符;(3)檢測重復(fù)文本,基于時間節(jié)點保留最新數(shù)據(jù),保證數(shù)據(jù)的唯一性.
3.1.2 半自動標(biāo)注構(gòu)建領(lǐng)域?qū)<艺Z料庫
張華平等[16]認(rèn)為中文分詞是中文自然語言處理的基礎(chǔ). 在中文自然語言處理中,詞是最小的能夠活動獨立的有意義的語言成分,因此進行中文自然語言處理通常是先將中文文本中的字符串切分成合理的詞語序列,然后在此基礎(chǔ)上進行其他分析處理.
對于中文的分詞規(guī)范取決于不同的應(yīng)用,在領(lǐng)域?qū)<椅谋局?本文使用半自動標(biāo)注構(gòu)建領(lǐng)域?qū)<艺Z料庫. 首先,在基本分詞步驟中引入專家姓名、機構(gòu)名稱及職稱為基礎(chǔ)詞匯表,以保證分詞結(jié)果的準(zhǔn)確性;接著,對于數(shù)字性實體,使用正則表達式對郵箱及電話進行規(guī)則匹配并標(biāo)記;然后,通過專業(yè)領(lǐng)域關(guān)鍵詞,對研究方向及領(lǐng)域關(guān)鍵詞實體進行匹配標(biāo)記,其中嵌套或復(fù)合結(jié)構(gòu)的領(lǐng)域術(shù)語不做細粒度拆分;最后,對分詞后的結(jié)果進行人工檢驗,對于未標(biāo)注實體,使用YEDDA工具進行人工補充.
數(shù)據(jù)預(yù)處理是自然語言處理的基礎(chǔ)任務(wù),處理的質(zhì)量決定了模型實現(xiàn)的質(zhì)量. 中文文本不同于英文文本,無法以空格進行劃分,通常以詞為單位. 分詞結(jié)果的好壞同樣影響著模型對實體抽取的性能. 本文根據(jù)所抽取的實體類別,引入字嵌入特征和邊界特征進行分析.
3.2.1 字嵌入特征
唐明等[17]利用詞嵌入方法生成文檔向量,通過單詞在連續(xù)的低維空間中表示,捕獲單詞間的語義聯(lián)系,在處理文檔分類上取得了很好的效果. Mikolov等[18]提出的Word2Vec和Pennington等[19]提出的GloVe在詞嵌入上取得了很大的成功. 然而,對于中文語言沒有明顯詞邊界的特征,分詞結(jié)果的好壞對語言處理的結(jié)果有很大的影響. 在專家網(wǎng)絡(luò)文本中,除中文字符外,還包括標(biāo)點符號、數(shù)字和英文字母,在處理詞嵌入過程中給分詞結(jié)果帶來挑戰(zhàn). 因此,本文以字嵌入的方法對文本進行向量化表示,即每個漢字訓(xùn)練一個字嵌入. 根據(jù)訓(xùn)練集提取,在語言模型訓(xùn)練后生成一個大小為|C|的字典C,而未知字符也可以作為一個特殊的符號添加到字典中. 對于每個字c都可以映射為一個字向量vc∈Rd,d為向量維數(shù),生成的字向量加入到字嵌入矩陣M∈Rd×|c|中. 本文通過對文本預(yù)處理,將文本以字表示,引入Bert語言模型生成字向量,作為實體抽取模型的輸入.
圖2 雙向語言模型任務(wù)Fig.2 Task of bidirectional language model
Bert模型采用Transfomer的編碼器作為主體模型結(jié)構(gòu),舍棄了RNN循環(huán)式網(wǎng)絡(luò)結(jié)構(gòu),引入了雙向的語言模型任務(wù)如圖2所示,完全基于注意力機制對文本進行建模. 通過注意力機制計算文本中每個詞和所有詞之間的相互關(guān)系,根據(jù)相互關(guān)系反應(yīng)不同詞之間的關(guān)聯(lián)性及重要程度. 以詞與詞之間的權(quán)重獲得每個詞新的表征,通過自身及與其他詞之間的關(guān)系得到全局性的表示. Transfomer則對輸入的文本不斷進行注意力機制層和非線性網(wǎng)絡(luò)層的交疊得到最終文本的表達. 將Bert模型引入實體抽取任務(wù),不僅考慮到上下文信息,還充分利用了全局信息,在進行實體消歧上有很大的優(yōu)勢,在處理相似的未登錄字符上更容易被識別,提高了實體抽取模型的召回率.
3.2.2 邊界特征
中文名詞的表述上一般具有邊界模糊的問題,即與名詞相鄰的詞語具有很強的邊界性. 傳統(tǒng)基于詞典和規(guī)則的方法可通過定義邊界規(guī)則來區(qū)分名詞信息,如聯(lián)系方式與電子郵箱等具有明顯的邊界表示. 而在定義行業(yè)領(lǐng)域?qū)I(yè)詞匯上進行序列標(biāo)注任務(wù)時,其組合模式多變、字長不固定及中英文混雜等特點使其在邊界定義模糊. 本文以化工技術(shù)行業(yè)中英文關(guān)鍵詞為標(biāo)準(zhǔn),分詞過程中基于關(guān)鍵詞對嵌套或復(fù)合結(jié)構(gòu)的領(lǐng)域術(shù)語實體不做細分,以減少對此類實體提取產(chǎn)生的影響. 在語料庫中進行邊界提取,提取結(jié)果如表2所示.
表2 邊界提取統(tǒng)計表Table 2 Statistics table of boundary extraction
嚴(yán)云洋等[20]提出一種基于離群點檢測的分類結(jié)果置信度的度量方法提高分類準(zhǔn)確率. 本文將可信度作為邊界的衡量標(biāo)準(zhǔn),其定義如下所示:
(1)
式中,ci代表語料庫中的第i個字符,fci表示其作為邊界的二元概率,wci表示ci在未標(biāo)注語料庫中的共現(xiàn)頻次. 通過可信度進行標(biāo)準(zhǔn)化得到離散化的特征數(shù),作為邊界特征輸入到模型中.
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種能夠有效解決序列標(biāo)注問題及處理文本序列上下文依賴的神經(jīng)網(wǎng)絡(luò)模型. 而RNN無法很好地處理長距離依賴問題,在訓(xùn)練過程中存在梯度消失和梯度爆炸的問題. 基于這個問題,非線性激活函數(shù)長短期記憶(long short-term memory,LSTM)和門控循環(huán)單元(gated recurrent unit,GRU)被提出. LSTM在神經(jīng)元中加入輸入門(input gate)、輸出門(output gate)、忘記門(forget gate)及記憶單元(cell state)改善梯度消失的問題. GRU作為LSTM的變體,將忘記門和輸出門合并為一個更新門,結(jié)構(gòu)更簡單,訓(xùn)練時間更短,在訓(xùn)練結(jié)果上與LSTM取得相當(dāng)?shù)慕Y(jié)果. 本文采用GRU學(xué)習(xí)文本的結(jié)構(gòu)信息,其內(nèi)部結(jié)構(gòu)如圖3所示,公式定義如下:
圖3 GRU內(nèi)部結(jié)構(gòu)Fig.3 The internal structure of GRU
(2)
r=δ(Wr[x〈t〉,a〈t-1〉]+br),
(3)
(4)
(5)
伴隨著20世紀(jì)80年代中國改革開放的大潮,新一代的閩商群體再度崛起,他們利用身處沿海開放地區(qū)的有利優(yōu)勢,以眾多的中小坐商、行商為主,走南闖北,行銷四方,從小商業(yè)開始,不斷積累,逐步做強做大,呈現(xiàn)日益興盛的趨勢。很多人在贊嘆閩商創(chuàng)造財富和取得成就的同時,認(rèn)為閩商文化、閩商精神中缺少團隊協(xié)作的精神,甚至認(rèn)為閩商傳統(tǒng)上有一種獨立的、不合作的固有性格。這種看法值得商榷。從閩商賴于縱橫天下的行銷網(wǎng)絡(luò)構(gòu)建分析,其實我們處處都可以看到閩商團隊協(xié)作的身影,不管是留守家鄉(xiāng),還是外出闖蕩,就是依靠團隊協(xié)作,他們才能克服困難、站穩(wěn)腳跟進而發(fā)展壯大。
CRF可以關(guān)注句子級別利用鄰居標(biāo)簽信息,產(chǎn)生更高的標(biāo)記精度. 給定一組隨機變量X={x1,x2,…,xn},對應(yīng)隨機變量Y={y1,y2,…,yn}滿足P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)的馬爾科夫隨機場為條件隨機場,(X,Y)是條件隨機字段,其中,X表示觀察到的序列,w~v表示與節(jié)點v相連的w的所有相鄰節(jié)點.Y的候選標(biāo)簽的聯(lián)合概率分布可以在因子分解下表示為:
(6)
Z(x)為歸一化因子,可表示為:
(7)
式中,tk是狀態(tài)轉(zhuǎn)移函數(shù),sl是發(fā)射函數(shù),vk和ui分別為tk和sl對應(yīng)的權(quán)值.
雙向GRU獲取的上下文信息無法完全融入當(dāng)前字符信息. Attention機制在不同時刻計算輸出特征向量的權(quán)重,突出字符的重要特征.
score=vTtanh(W1hi+b1),
(8)
(9)
(10)
式中,score為包含語義信息的hi輸入到單層感知機中獲得單篇文檔隱藏層的輸出,計算出當(dāng)前字符權(quán)重矩陣αi與文本特征向量hi進行加權(quán)和,得到包含文檔各字符重要性信息的向量ci. 通過Attention機制控制當(dāng)前字符權(quán)重,從而增加文檔表示之間的語義聯(lián)系,使整個模型獲得更好的效果.
本文設(shè)計了一種在多特征選擇的基礎(chǔ)上,擴展基本字符單元,使用雙向門控神經(jīng)網(wǎng)絡(luò)并添加注意力機制,CRF對獲取的信息再利用進行序列標(biāo)注,抽取領(lǐng)域?qū)<覍嶓w信息,抽取結(jié)構(gòu)如圖4所示.
圖4 多特征雙向門控神經(jīng)網(wǎng)絡(luò)實體抽取結(jié)構(gòu)Fig.4 Multi-feature bidirectional gated neural network entity extraction structure
表3 實驗數(shù)據(jù)描述Table 3 Description of experimental data
本文使用高校官網(wǎng)收集的專家網(wǎng)絡(luò)文本作為實驗數(shù)據(jù),其中包含25 053篇化工專家文檔,共5 162個漢字. 使用1 089條化工技術(shù)行業(yè)中英文關(guān)鍵詞對化工領(lǐng)域術(shù)語進行邊界特征提取. 將25 053篇化工專家文檔以7∶3的比例分為訓(xùn)練集和測試集,數(shù)據(jù)描述如表3所示. 訓(xùn)練集共包含化工專家文檔17 537篇、737 199句文本,測試集共包含化工專家文檔7 516篇、263 943句文本. 通過使用本文提出的多特征雙向門控神經(jīng)網(wǎng)絡(luò)算法進行命名實體識別與傳統(tǒng)HMM、BiLSTM-CRF和IDCNN-CRF進行比較,驗證算法的優(yōu)越性.
為減少外在人為因素的影響,本文通過精確率P、召回率R和F1值來評價模型效果[21]. 精確率為被識別為該分類的正確分類記錄數(shù)與被識別為該分類的記錄數(shù)之比;召回率為被識別為該分類的正確分類記錄數(shù)與測試集中該分類的記錄總數(shù)之比,召回率是覆蓋面的度量,衡量了分類器對正例的識別能力;F1為精確率和召回率的調(diào)和均值. 其公式為:
P=np/nt,
(11)
R=np/nc,
(12)
(13)
式中,np表示正確識別的實體數(shù),nt表示抽取的實體數(shù),nc表示語料庫中的實體數(shù).
圖5 邊界二元詞的可視化展示Fig.5 Visual display of boundary binary words
根據(jù)化工專家信息將實體分為人名、機構(gòu)名、職稱、聯(lián)系方式、電子郵件、研究方向及化工關(guān)鍵詞7個類別. 通過1 089條化工技術(shù)行業(yè)中英文關(guān)鍵詞對化工領(lǐng)域術(shù)語進行邊界特征分析,統(tǒng)計出化工領(lǐng)域術(shù)語上下文邊界二元詞共194 750對,圖5為邊界二元詞的可視化展示. 同時統(tǒng)計邊界二元詞頻集及出現(xiàn)頻率,得到邊界特征向量矩陣. 盡管和弦圖無法表達術(shù)語方向,但和弦圖的節(jié)點寬度給出了重量的直觀表示.
實驗以BiLSTM-CRF為基線對于加入特征提取算法進行測試,模型通過多特征與非字嵌入特征提取隨機生成向量作為神經(jīng)網(wǎng)絡(luò)模型的輸入,對比多特征神經(jīng)網(wǎng)絡(luò)模型在實體抽取任務(wù)上帶來的增益. 實驗結(jié)果如表4所示,相較于傳統(tǒng)僅使用神經(jīng)網(wǎng)絡(luò)模型作為特征提取,加入字特征和邊界特征對模型抽取的結(jié)果帶來的效果最高. 模型的綜合F1值達到94.69%,高于其他機器學(xué)習(xí)模型和深度學(xué)習(xí)模型.
本文重點以抽取領(lǐng)域?qū)<覍嶓w為目標(biāo),以專業(yè)領(lǐng)域性實體為代表,通過抽取部分化工領(lǐng)域性實體對比本文提出的多特征雙向門控神經(jīng)網(wǎng)絡(luò)和BiLSTM-CRF在化工專家語料上實體抽取的差異,如表5所示. 多特征雙向門控神經(jīng)網(wǎng)絡(luò)模型能完整地識別專業(yè)術(shù)語“Pictet-Spengler反應(yīng)”,而BiLSTM-CRF只能識別“反應(yīng)”兩個字,可見本文模型在識別中英文混雜化工專業(yè)關(guān)鍵詞實體上具有很好的效果.
表5 本文模型和BiLSTM-CRF的實體識別效果Table 5 The entity recognition effect of the model in this paper and BiLSTM-CRF
表4 多特征神經(jīng)網(wǎng)絡(luò)模型實體抽取任務(wù)實驗比較Table 4 Experiment comparison of multi-feature neural network model entity extraction task
本文提出的基于多特征雙向門控神經(jīng)網(wǎng)絡(luò)的領(lǐng)域?qū)<覍嶓w抽取方法,在抽取專家個人信息的同時,抽取代表其研究領(lǐng)域相關(guān)的關(guān)鍵詞實體. 該方法通過分析使用Bert語言模型獲取中文字符字特征,統(tǒng)計關(guān)鍵詞上下文邊界詞分析獲取邊界特征;采用雙向門控神經(jīng)網(wǎng)絡(luò)結(jié)合Attention機制獲取字符上下文依賴特征;使用CRF進行序列標(biāo)注. 以化工專家數(shù)據(jù)集為例,實驗結(jié)果表明,該方法能夠有效識別化工領(lǐng)域關(guān)鍵詞實體. 然而,在抽取的關(guān)鍵詞實體中仍然存在相似性較高的詞匯如“環(huán)氧化酶-2,環(huán)氧合酶-2”. 因此,在抽取領(lǐng)域?qū)<倚畔嶓w之后,如何抽取并利用實體之間的關(guān)系進行歧義性分析是本文進一步研究的重點.