基于神經(jīng)網(wǎng)絡(luò)的預(yù)警領(lǐng)域分詞仿真算法

2022-01-22 02:15:44陳靜雯馬福民

計(jì)算機(jī)仿真 2021年12期

陳靜雯，馬福民，劉新，李娟

(1.江蘇省突發(fā)事件預(yù)警信息發(fā)布中心，江蘇南京 210008；2.南京財(cái)經(jīng)大學(xué)信息工程學(xué)院，江蘇南京，210023)

1 引言

分詞是自然語言處理技術(shù)的基礎(chǔ)性工作，其結(jié)果直接影響后續(xù)的文本質(zhì)量控制、本體構(gòu)建、知識提取、輔助決策和輿情監(jiān)控等工作。預(yù)警信息發(fā)布作為國家十三五規(guī)劃[1]應(yīng)急體系建設(shè)中的重要一環(huán)，文本的正確性校驗(yàn)及信息分析至關(guān)重要。然而，面對預(yù)警信息第一時(shí)間準(zhǔn)確發(fā)布、快速發(fā)布的需求，預(yù)警文本專業(yè)術(shù)語、組合詞較多的獨(dú)特性以及一定規(guī)模語料庫的缺失，給面向預(yù)警領(lǐng)域的分詞方法帶來了巨大挑戰(zhàn)。如何在提高預(yù)警領(lǐng)域分詞效果的同時(shí)，兼顧分詞效率成為當(dāng)前的研究熱點(diǎn)。

根據(jù)分詞文本是否涉及特定專業(yè)領(lǐng)域，中文分詞問題可以分為兩種類型：通用領(lǐng)域分詞方法和特定領(lǐng)域分詞方法。前者主要采用基于詞典的機(jī)械分詞方法或基于統(tǒng)計(jì)的分詞方法。機(jī)械分詞方法分詞速度快且易于實(shí)現(xiàn)，但詞典的構(gòu)造結(jié)構(gòu)對分詞速度有著直接的影響。為進(jìn)一步提高分詞算法的效率，Zhou等[2]提出了一種雙字哈希詞典機(jī)制，在不提升已有詞典空間復(fù)雜度與維護(hù)復(fù)雜度的情況下，提高了中文分詞的效率。Chen等[3]深入分析最大匹配分詞算法的不足，根據(jù)首字詞長遞減原則構(gòu)造雙字哈希詞典，并設(shè)計(jì)了相應(yīng)的快速最大匹配分詞算法，分詞速度大幅提高。機(jī)械分詞算法在大多數(shù)情況下是合理的，但由于不涉及語法及語義知識，不具備歧義處理能力，容易引發(fā)一些切分錯(cuò)誤。

為彌補(bǔ)機(jī)械分詞的不足，基于統(tǒng)計(jì)的分詞方法將分詞問題轉(zhuǎn)化為序列標(biāo)注問題，將語料庫中漢字的共現(xiàn)頻率作為切分依據(jù)，能夠有效處理歧義并識別未登錄詞。常用方法包括條件隨機(jī)場、隱馬爾科夫[4-6]以及基于深度學(xué)習(xí)的長短期記憶神經(jīng)網(wǎng)絡(luò)[7]、卷積神經(jīng)網(wǎng)絡(luò)[8]分詞模型等。然而，當(dāng)隱藏狀態(tài)數(shù)為N，預(yù)測狀態(tài)為NT時(shí)，條件隨機(jī)場模型和隱馬爾科夫模型的時(shí)間復(fù)雜度為，計(jì)算量較高，神經(jīng)網(wǎng)絡(luò)模型的計(jì)算量則更為龐大。

由于通用詞典和通用語料庫的限制，通用分詞方法的領(lǐng)域適應(yīng)性較差，直接將通用分詞方法應(yīng)用于專業(yè)領(lǐng)域文本，其分詞效果會(huì)急劇下降。為此，諸多學(xué)者將領(lǐng)域信息引入通用分詞方法，嘗試研究針對特定領(lǐng)域的分詞模型[9-11]。Gong等[12]在馬爾科夫模型的基礎(chǔ)上，構(gòu)建石油領(lǐng)域術(shù)語集，結(jié)合領(lǐng)域詞典和互信息校準(zhǔn)粗分結(jié)果，實(shí)現(xiàn)對石油領(lǐng)域術(shù)語和組合詞的精確識別，為預(yù)警領(lǐng)域分詞提供了思路。Zhang等[13]采用雙向長短期記憶網(wǎng)絡(luò)對3774條預(yù)警信息文本數(shù)據(jù)集(約30萬余字)進(jìn)行訓(xùn)練，提出了一種針對預(yù)警文本的分詞算法。遺憾的是，算法過度依賴統(tǒng)計(jì)結(jié)果，語料庫的規(guī)模限制了分詞效果[3]。不同于石油文本，預(yù)警信息是一個(gè)非常狹窄的領(lǐng)域，以江蘇省為例，2018年度全年預(yù)警共11683條，漢字量不足200萬，且并未完成預(yù)警文本的人工語料標(biāo)注工作，大規(guī)模語料庫構(gòu)建困難重重。因此，文獻(xiàn)[13]的分詞結(jié)果在準(zhǔn)確率、召回率上都無法滿足預(yù)警信息準(zhǔn)確校驗(yàn)的需求(P僅為87%)。針對這一問題，Lan等[14]詳細(xì)論證了較小規(guī)模語料庫在糾正場景中的可用性，提出了一種領(lǐng)域糾正器框架，第一階段使用通用分詞方法對文本進(jìn)行粗分，可由任意一種分詞器完成；第二階段引入領(lǐng)域語料，利用LSTM模型構(gòu)建領(lǐng)域糾正器，獲得了較好的分詞性能和魯棒性。在此基礎(chǔ)上，文獻(xiàn)[15]使用GRU代替LSTM，在一定程度上加快了訓(xùn)練速度。仍存在的問題是，上述兩種領(lǐng)域糾正器分詞模型在兩個(gè)階段分別使用基于統(tǒng)計(jì)和神經(jīng)網(wǎng)絡(luò)的分詞方法，在分詞效率上仍無法滿足預(yù)警信息第一時(shí)間快速發(fā)布的需求。

本文以領(lǐng)域糾正器分詞模型為理論基礎(chǔ)，深入探索預(yù)警文本特性，將詞頻作為權(quán)重信息，對文獻(xiàn)[3]的雙字哈希詞典構(gòu)造方法進(jìn)行改進(jìn)，適用于預(yù)警文本的有效詞語排列位置大幅前移，匹配成功率得到極大提高。利用最大匹配分詞算法進(jìn)行粗分，相對于完全依賴統(tǒng)計(jì)結(jié)果的領(lǐng)域適應(yīng)模型[12]，分詞效率進(jìn)一步提高。在領(lǐng)域糾正階段，為彌補(bǔ)LSTM模型[13]在小規(guī)模語料庫上應(yīng)用效果較弱以及單向GRU模型[15]忽略了未來語義信息的缺陷，采用雙向GRU模型提高了算法的領(lǐng)域適應(yīng)性。對比實(shí)驗(yàn)證明了分詞結(jié)果及分詞速度的優(yōu)越性。

2 領(lǐng)域糾正器框架

本章將介紹領(lǐng)域糾正器框架(Domain Corrector Frame-work，DCF)及其形式化說明。

領(lǐng)域糾正器框架由兩部分組成：通用分詞過程、領(lǐng)域糾正過程。圖1展示了領(lǐng)域糾正器框架的工作流程。其中，通用分詞過程僅對文本進(jìn)行初步分詞，可由任意一種分詞器來完成。在獲得初步分詞結(jié)果后，領(lǐng)域糾正過程通過由統(tǒng)計(jì)模型實(shí)現(xiàn)的“糾正器”預(yù)測出針對通用分詞結(jié)果的糾正動(dòng)作序列，結(jié)合預(yù)先定義的糾正邏輯逐字修改分詞結(jié)果，最終得到符合特定領(lǐng)域的分詞輸出。

圖1 領(lǐng)域糾正器框架流程圖

領(lǐng)域糾正器框架不依賴于構(gòu)建通用分詞器時(shí)使用的語料資源和建模方法，大大降低了對訓(xùn)練資源的要求。其形式化說明如下所述。

2.1 通用分詞過程

給定一個(gè)字符輸入序列xc=c1,c2,…，cn，經(jīng)過通用分詞過程輸出原始的分詞結(jié)果，并將其轉(zhuǎn)換為分詞標(biāo)簽序列ys=ls1,ls2,…,lsn，其中l(wèi)s∈LS，Ls={B,N}，B代表詞首字，N代表詞中字或者詞尾部。如分詞結(jié)果“江蘇省/氣象臺(tái)/發(fā)布/寒潮/藍(lán)色/預(yù)警/信號”對應(yīng)的分詞標(biāo)簽序列為“B，N，N，B，N，N，B，N，B，N，B，N，B，N，B，N”。

2.2 領(lǐng)域糾正過程

通用分詞過程結(jié)束后，xc和ys同時(shí)被送入稱之為“糾正器”的糾正模塊，以預(yù)測糾正標(biāo)簽序列yC=lC1,lC2,…，lCn，其中l(wèi)C∈LC，LC={U，LI，D} ，表示糾正動(dòng)作的類型，U表示無需糾正，I表示插入字前空格，D表示刪除字前空格。例如對文本“我市區(qū)域空氣質(zhì)量”的通用分詞結(jié)果為“我市區(qū)/域/空氣/質(zhì)量”，準(zhǔn)確分詞結(jié)果應(yīng)為“我市/區(qū)域/空氣/質(zhì)量”，則期望的糾正序列為“U，U，I，D，U，U，U，U”，可由CRF、LSTM等模型實(shí)現(xiàn)。

3 基于領(lǐng)域糾正器框架的預(yù)警分詞模型

3.1 分詞模型思想

文獻(xiàn)[13]利用已有合法預(yù)警文本數(shù)據(jù)集和開放域通用公開數(shù)據(jù)集進(jìn)行建模，設(shè)計(jì)了一種基于Bi-LSTM-CRF的預(yù)警信息分詞算法，是目前針對預(yù)警文本分詞效果最好的一種算法，分詞準(zhǔn)確率達(dá)到0.87、召回率達(dá)到0.89。由于沒有進(jìn)一步探究預(yù)警文本獨(dú)有的特點(diǎn)，分詞算法在準(zhǔn)確率和召回率上仍有提高的空間。此外，該算法的高準(zhǔn)確率建立在龐大建模數(shù)據(jù)集的基礎(chǔ)上，分詞速度較慢，距離預(yù)警信息第一時(shí)間快速發(fā)布的需求仍有差距。引入領(lǐng)域糾正器思想，在一定程度上解決了上述問題。

深入分析近五年的預(yù)警信息文本可以發(fā)現(xiàn)其存在如下特點(diǎn)：1)本文由通用詞匯及預(yù)警領(lǐng)域詞匯組成，通用詞匯占比較大；2)易產(chǎn)生歧義的部分通常伴有領(lǐng)域詞匯，如2.2節(jié)的“區(qū)域空氣質(zhì)量”；3)預(yù)警發(fā)布相關(guān)法律規(guī)定對預(yù)警信息文本從內(nèi)容及形式上作出了限制，因此，相當(dāng)程度上的通用詞語在預(yù)警文本中不會(huì)出現(xiàn)，如人民日報(bào)語料庫收錄的“歷史”、“人民”、“科技大學(xué)”等。

考慮預(yù)警信息文本特點(diǎn)并兼顧算法效率，利用機(jī)械分詞算法作為通用分詞器對預(yù)警本文進(jìn)行快速粗分較為合適。在3.2節(jié)提出了一種基于權(quán)重的雙字哈希詞典構(gòu)造方法，進(jìn)一步提高粗分效率。領(lǐng)域糾正階段，將近五年發(fā)布的預(yù)警文本作為語料庫進(jìn)行建模，語料庫的領(lǐng)域針對性對提高分詞準(zhǔn)確率幫助較高；使用運(yùn)算效率較高的雙向GRU模型進(jìn)行建模，分詞速度進(jìn)一步提高。

3.2 權(quán)重雙字哈希字典構(gòu)造

詞典結(jié)構(gòu)對機(jī)械分詞算法的效率有著舉足輕重的影響。由3.1節(jié)的分析可知，通用詞典中大部分詞語并不會(huì)在預(yù)警文本中出現(xiàn)，遍歷整個(gè)詞典的匹配機(jī)制嚴(yán)重影響切分速度。但考慮到防災(zāi)減災(zāi)事業(yè)的發(fā)展及政策變更可能會(huì)產(chǎn)生相對于歷史預(yù)警文本的未登錄詞，縮減通用詞典詞量并不合適。為在一定程度上提高通用分詞階段的分詞效率，設(shè)計(jì)了一種基于權(quán)重的字典構(gòu)造方法。通過對已有合法預(yù)警本文的詞頻統(tǒng)計(jì)(出現(xiàn)次數(shù)總計(jì))，將詞頻作為權(quán)重信息，在雙字哈希的基礎(chǔ)上，標(biāo)注詞典正文的權(quán)重信息，按權(quán)重逆序排列，大幅度減少匹配次數(shù)。詞典結(jié)構(gòu)如圖2所示。

圖2 基于權(quán)重的詞典結(jié)構(gòu)

3.3 雙向GRU領(lǐng)域糾正器

文獻(xiàn)[13]將已有合法預(yù)警數(shù)據(jù)和開放域通用公開數(shù)據(jù)集作為輸入，通過LSTM-CRF模型訓(xùn)練預(yù)警分詞模型。預(yù)警語料庫的規(guī)模不足導(dǎo)致領(lǐng)域適應(yīng)性較弱，復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)則導(dǎo)致模型耗時(shí)較長。文獻(xiàn)[15]使用結(jié)構(gòu)較為簡單的GRU-CRF模型構(gòu)造領(lǐng)域糾正器，在加快訓(xùn)練速度的時(shí)候減少了模型過度擬合的可能性，在小規(guī)模語料庫上的應(yīng)用效果相對LSTM-CRF模型較優(yōu)。然而，單向GRU模型僅攜帶過去的語義信息，并未考慮到未來語義對分詞結(jié)果的影響。針對規(guī)模較小的預(yù)警語料庫，本文采用雙向GRU-CRF模型，充分利用預(yù)警語義信息的同時(shí)兼顧模型構(gòu)建效率。

3.3.1 Embedding層

該層由兩種不同的Embedding組成：漢字Embedding和分詞標(biāo)簽Embedding，分別記為Ec∈R|D|×dc以及El∈R|Ls|×dl，其中|D|表示漢字字典的大小。一個(gè)漢字字符cl或一個(gè)分詞標(biāo)簽lSt的前向數(shù)值向量為vLct和vLlt，逆序輸入的漢字Embedding和分詞標(biāo)簽Embedding得到后向數(shù)值向量為vRct和vRlt。使用四詞位標(biāo)簽集Ls={B，M，E，S}，其中，B，M，E，S分別表示詞首字、詞中字、詞尾字和單字詞。

3.3.2 輸入層

在輸入層對詞向量和標(biāo)簽向量進(jìn)行兩次拼接。第一步將時(shí)刻前向向量vLct和vLlt，后向向量vRct和vRlt拼接為前向詞-標(biāo)簽向量vLclt和后向詞-標(biāo)簽向量vRclt。第二步將上下文窗口[t-k1，t+k2]中的k1+k2+1個(gè)向量拼接成前向GRUL、后向RGRUR和最終的輸入向量vinput，即

vLclt=[vLct，vLlt]，vRclt=[vRct，vRlt]

GRUL=[vLclt-k1，vLclt-k1+1，…，vLclt-k2-1，vLclt-k2]

GRUR=[vRclt-k1，vRclt-k1+1，…，vRclt-k2-1，vRclt-k2]

vinput={[vLclt-k1，vRclt-k1]，[vLclt-k1+1，vRclt-k1+1]，…

3.3.3 隱藏層

隱藏層分別從序列的首端和尾端運(yùn)行，某一時(shí)刻的輸出同時(shí)考慮過去和未來的上下文信息，在序列標(biāo)注的任務(wù)上表現(xiàn)的更加優(yōu)秀。GRU單元通過更新門和重置門來控制信息流動(dòng)，計(jì)算過程如下：

更新門

zt=σ(Wz·[st-1，vinput])

重置門

rt=σ(Wr·[st-1，vinput])

狀態(tài)更新

3.3.4 CRF層

CRF層可推斷糾正序列的最優(yōu)標(biāo)記，進(jìn)一步提高分詞正確率。隱藏表征向量序列h經(jīng)過線性映射后可得到一元?jiǎng)莺瘮?shù)φnn(yCt，X)。而二元?jiǎng)莺瘮?shù)可由矩陣A∈R|LC|×|LC|來表達(dá)，Ai，j表示從糾正標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的分值。對于給定的糾正序列yC，其由輸入決定的條件概率計(jì)算如下

3.4 算法描述

算法1 快速預(yù)警信息分詞算法(FCWS＿ WI)

輸入：字符串x=c1c2…cn，c表示一個(gè)單字

輸出：分詞結(jié)果S=s1s2…sm，s表示一個(gè)詞

1) 對輸入的字符串，采用權(quán)重哈希雙子詞典及相應(yīng)的最大匹配分詞算法，計(jì)算得到通用分詞階段的粗分結(jié)果M=m1m2…mp。

算法工作流程如圖3所示。

圖3 FCWS＿ WI算法工作流程

4 仿真分析

為滿足預(yù)警信息第一時(shí)間準(zhǔn)確發(fā)布的需求，本文提出了一種基于預(yù)警領(lǐng)域知識的權(quán)重哈希雙字詞典，通過減少通用分詞過程的匹配次數(shù)降低分詞算法計(jì)算量；構(gòu)建已有合法預(yù)警文本語料庫，提出了一種基于雙向GRU-CRF的預(yù)警領(lǐng)域糾正器模型，從快速性、準(zhǔn)確性兩方面對現(xiàn)有的面向預(yù)警領(lǐng)域的分詞方法進(jìn)行了優(yōu)化。實(shí)驗(yàn)階段將從上述兩方面分別開展。

4.1 算法快速性對比

本文算法FCWS＿WI，在通用分詞階段構(gòu)造了適用于預(yù)警文本的領(lǐng)域詞典，匹配計(jì)算量大幅度縮減；為提高領(lǐng)域適應(yīng)性，在領(lǐng)域糾正階段，針對性的采用已有合法預(yù)警文本作為語料庫，相對于文獻(xiàn)[13]的Bi-LSTM-CRF＿WI算法語料庫規(guī)模較小，神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度較快，進(jìn)一步提高到了算法效率。

本節(jié)首先對比不同領(lǐng)域詞典下的粗分效果，再對現(xiàn)有領(lǐng)域分詞算法的計(jì)算時(shí)間進(jìn)行對比。

實(shí)驗(yàn)選用江蘇省2013年至2018年合法預(yù)警信息文本作為語料庫，記為DB1，構(gòu)建本文權(quán)重哈希雙字詞典，將2019年合法預(yù)警信息文本作為測試數(shù)據(jù)，記為DB2。以上數(shù)據(jù)集均通過江蘇省氣象局預(yù)報(bào)員進(jìn)行語義校準(zhǔn)。數(shù)據(jù)集特征如表1所示。

表1 數(shù)據(jù)集

為證明本文引入權(quán)重信息構(gòu)造詞典的領(lǐng)域優(yōu)勢，實(shí)驗(yàn)將對比三種哈希結(jié)構(gòu)詞典：雙字哈希(記為Dic＿Hash)、字長雙字哈希(記為Dic＿ HashLen)以及本文提出的權(quán)重雙字哈希(記為Dic＿HashWei)的粗分效率。三種詞典分詞結(jié)果示例如表2所示，平均計(jì)算時(shí)間見圖4。

表2 三種詞典結(jié)果分詞結(jié)果示例

圖4 不同樣本數(shù)量三種結(jié)構(gòu)詞典平均分詞時(shí)間

由表2的分詞結(jié)果及圖4的平均分詞時(shí)間可知，三種詞典的不同構(gòu)造方式，并不改變詞語在詞典中的相對位置，詞語長度信息和權(quán)重信息的引入旨在縮小有效匹配范圍，加快分詞速度，對分詞結(jié)果不構(gòu)成任何影響。如圖4所示，本文所提出的Dic＿HashWei詞典結(jié)構(gòu)對分詞效率有著較大的貢獻(xiàn)，計(jì)算時(shí)間明顯快于采用Dic＿ Hash和Dic＿ HashLen兩種詞典結(jié)構(gòu)。由于缺乏領(lǐng)域知識，基于Dic＿ Hash和Dic＿ HashLen兩種詞典的分詞算法在每一次匹配時(shí)都需遍歷整個(gè)詞典(概率)，而基于Dic＿HashFre的分詞算法在每一次匹配時(shí)都有極大的概率在小規(guī)模的搜索范圍內(nèi)匹配到目標(biāo)詞語，隨著數(shù)據(jù)集樣本數(shù)量的增加，后者的計(jì)算時(shí)間大幅下降，在搜索的快速性方面具有明顯的優(yōu)勢。

在此基礎(chǔ)上，對比本文算法FCWS＿WI與通用分詞算法MTE-CRFs[4]以及領(lǐng)域分詞算法：現(xiàn)有預(yù)警分詞算法Bi-LSTM-CRF＿WI[13]、石油領(lǐng)域分詞算法HMM＿O[12]、文獻(xiàn)[15]中的領(lǐng)域糾正器算法(記為：DCF-GRU)在算計(jì)效率上的表現(xiàn)。實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 不同樣本數(shù)量五種分詞算法平均計(jì)算時(shí)間

圖5的結(jié)果表明，由機(jī)械分詞算法、權(quán)重哈希雙字詞典和雙向GRU-CRF模型建立的分詞算法FCWS＿WI能夠快速的得到預(yù)警文本的分詞結(jié)果。在樣本數(shù)量為22242時(shí)，領(lǐng)域分詞算法HMM＿O、DCF-GRU、Bi-LSTM-CRF＿WI平均分詞時(shí)間接近本文FCWS＿WI算法的5倍、8倍和13倍。更進(jìn)一步的，即使是相對領(lǐng)域分詞算法計(jì)算較為簡單通用分詞算法MTE-CRFs，其計(jì)算時(shí)間也是本文算法的2倍。相較而言，本文FCWS＿WI分詞算法更好的滿足了預(yù)警信息第一時(shí)間發(fā)布的需求。

4.2 算法效果對比

4.2.1 評價(jià)指標(biāo)

文本使用準(zhǔn)確率、召回率和F值評價(jià)分詞算法性能。其中，準(zhǔn)確率是分詞正確的單詞數(shù)與分詞結(jié)果總數(shù)的比率，衡量分詞結(jié)果的查準(zhǔn)率；召回率是分詞正確的單詞數(shù)與實(shí)際單詞總數(shù)的比率，衡量的是分詞結(jié)果的查全率。取值在0到1之間，越接近1準(zhǔn)確率或召回率越高，具體定義如下：

4.2.2 預(yù)警領(lǐng)域分詞結(jié)果

實(shí)驗(yàn)中用DB1訓(xùn)練分詞模型，DB2作為測試數(shù)據(jù)，分別對比算法Bi-LSTM-CRF＿WI、HMM＿O以及本文算法FCWS＿WI的分詞效果。部分分詞結(jié)果如表3所示。

表3 五種中文分詞算法分詞結(jié)果

在該段預(yù)警文本中，含有“大到暴雨”、“大暴雨”、“強(qiáng)降水”、“部分地區(qū)”等預(yù)警常用詞語常用詞匯和“將出現(xiàn)”、等歧義短語，紅色標(biāo)注錯(cuò)誤分詞結(jié)果。通用分詞算法MTE-CRFs未考慮預(yù)警領(lǐng)域語義，對比領(lǐng)域分詞算法分詞能力較差。同時(shí)使用通用語料庫和領(lǐng)域語料庫訓(xùn)練模型的Bi-LSTM-CRF＿WI算法、HMM＿ O算法以及未考慮未來語義的DCF-GRU算法，在預(yù)警文本的切分上仍存在偏差。反觀本文FCWS＿WI算法，由于在訓(xùn)練模型時(shí)僅使用預(yù)警領(lǐng)域語料，領(lǐng)域適應(yīng)性較強(qiáng)，上述詞語均被有效識別并切分。三種算法的準(zhǔn)確率、召回率和F值如表4所列。

表4 準(zhǔn)確率、召回率及F值對比(單位：100%)

本文算法準(zhǔn)確率、召回率及F值的結(jié)果都高于Bi-LSTM-CRF＿WI算法和HMM＿O算法，且都高于90%，進(jìn)一步說明了本文算法在分詞效果上的優(yōu)越性。

5 結(jié)束語

作為國家應(yīng)急體系的重要工作之一，預(yù)警信息的第一時(shí)間快速發(fā)布，對預(yù)警領(lǐng)域分詞算法的效率和準(zhǔn)確性作出了較高的要求。將領(lǐng)域糾正器模型作為理論基礎(chǔ)，分析預(yù)警文本特性，提出了一種針對預(yù)警信息的領(lǐng)域分詞模型。①引入權(quán)重信息構(gòu)建哈希雙字詞典，在保證切分結(jié)果不變的前提下大幅度縮減匹配計(jì)算量，粗分效率提高可達(dá)6倍。② 僅采用已有合法預(yù)警文本構(gòu)建領(lǐng)域語料庫，選用小規(guī)模語料庫應(yīng)用效果較優(yōu)的GRU模型進(jìn)行建模，結(jié)構(gòu)較為簡單，分詞速度相對于現(xiàn)有領(lǐng)域分詞器提高了5-13倍。③考慮到未來語義信息對分詞結(jié)果的影響，構(gòu)建雙向GRU-CRF模型，進(jìn)一步提高領(lǐng)域適應(yīng)性，在準(zhǔn)確率、召回率和F值方面較現(xiàn)有分詞算法提高5.06%、2.78%和3.9%。下一步工作是研究如何從領(lǐng)域語料中進(jìn)一步提取語義信息，提高未登錄詞的處理能力。