陳靜雯,馬福民,劉 新,李 娟
(1.江蘇省突發(fā)事件預(yù)警信息發(fā)布中心,江蘇 南京 210008;2.南京財(cái)經(jīng)大學(xué)信息工程學(xué)院,江蘇 南京,210023)
分詞是自然語言處理技術(shù)的基礎(chǔ)性工作,其結(jié)果直接影響后續(xù)的文本質(zhì)量控制、本體構(gòu)建、知識提取、輔助決策和輿情監(jiān)控等工作。預(yù)警信息發(fā)布作為國家十三五規(guī)劃[1]應(yīng)急體系建設(shè)中的重要一環(huán),文本的正確性校驗(yàn)及信息分析至關(guān)重要。然而,面對預(yù)警信息第一時(shí)間準(zhǔn)確發(fā)布、快速發(fā)布的需求,預(yù)警文本專業(yè)術(shù)語、組合詞較多的獨(dú)特性以及一定規(guī)模語料庫的缺失,給面向預(yù)警領(lǐng)域的分詞方法帶來了巨大挑戰(zhàn)。如何在提高預(yù)警領(lǐng)域分詞效果的同時(shí),兼顧分詞效率成為當(dāng)前的研究熱點(diǎn)。
根據(jù)分詞文本是否涉及特定專業(yè)領(lǐng)域,中文分詞問題可以分為兩種類型:通用領(lǐng)域分詞方法和特定領(lǐng)域分詞方法。前者主要采用基于詞典的機(jī)械分詞方法或基于統(tǒng)計(jì)的分詞方法。機(jī)械分詞方法分詞速度快且易于實(shí)現(xiàn),但詞典的構(gòu)造結(jié)構(gòu)對分詞速度有著直接的影響。為進(jìn)一步提高分詞算法的效率,Zhou等[2]提出了一種雙字哈希詞典機(jī)制,在不提升已有詞典空間復(fù)雜度與維護(hù)復(fù)雜度的情況下,提高了中文分詞的效率。Chen等[3]深入分析最大匹配分詞算法的不足,根據(jù)首字詞長遞減原則構(gòu)造雙字哈希詞典,并設(shè)計(jì)了相應(yīng)的快速最大匹配分詞算法,分詞速度大幅提高。機(jī)械分詞算法在大多數(shù)情況下是合理的,但由于不涉及語法及語義知識,不具備歧義處理能力,容易引發(fā)一些切分錯(cuò)誤。
為彌補(bǔ)機(jī)械分詞的不足,基于統(tǒng)計(jì)的分詞方法將分詞問題轉(zhuǎn)化為序列標(biāo)注問題,將語料庫中漢字的共現(xiàn)頻率作為切分依據(jù),能夠有效處理歧義并識別未登錄詞。常用方法包括條件隨機(jī)場、隱馬爾科夫[4-6]以及基于深度學(xué)習(xí)的長短期記憶神經(jīng)網(wǎng)絡(luò)[7]、卷積神經(jīng)網(wǎng)絡(luò)[8]分詞模型等。然而,當(dāng)隱藏狀態(tài)數(shù)為N,預(yù)測狀態(tài)為NT時(shí),條件隨機(jī)場模型和隱馬爾科夫模型的時(shí)間復(fù)雜度為,計(jì)算量較高,神經(jīng)網(wǎng)絡(luò)模型的計(jì)算量則更為龐大。
由于通用詞典和通用語料庫的限制,通用分詞方法的領(lǐng)域適應(yīng)性較差,直接將通用分詞方法應(yīng)用于專業(yè)領(lǐng)域文本,其分詞效果會(huì)急劇下降。為此,諸多學(xué)者將領(lǐng)域信息引入通用分詞方法,嘗試研究針對特定領(lǐng)域的分詞模型[9-11]。Gong等[12]在馬爾科夫模型的基礎(chǔ)上,構(gòu)建石油領(lǐng)域術(shù)語集,結(jié)合領(lǐng)域詞典和互信息校準(zhǔn)粗分結(jié)果,實(shí)現(xiàn)對石油領(lǐng)域術(shù)語和組合詞的精確識別,為預(yù)警領(lǐng)域分詞提供了思路。Zhang等[13]采用雙向長短期記憶網(wǎng)絡(luò)對3774條預(yù)警信息文本數(shù)據(jù)集(約30萬余字)進(jìn)行訓(xùn)練,提出了一種針對預(yù)警文本的分詞算法。遺憾的是,算法過度依賴統(tǒng)計(jì)結(jié)果,語料庫的規(guī)模限制了分詞效果[3]。不同于石油文本,預(yù)警信息是一個(gè)非常狹窄的領(lǐng)域,以江蘇省為例,2018年度全年預(yù)警共11683條,漢字量不足200萬,且并未完成預(yù)警文本的人工語料標(biāo)注工作,大規(guī)模語料庫構(gòu)建困難重重。因此,文獻(xiàn)[13]的分詞結(jié)果在準(zhǔn)確率、召回率上都無法滿足預(yù)警信息準(zhǔn)確校驗(yàn)的需求(P僅為87%)。針對這一問題,Lan等[14]詳細(xì)論證了較小規(guī)模語料庫在糾正場景中的可用性,提出了一種領(lǐng)域糾正器框架,第一階段使用通用分詞方法對文本進(jìn)行粗分,可由任意一種分詞器完成;第二階段引入領(lǐng)域語料,利用LSTM模型構(gòu)建領(lǐng)域糾正器,獲得了較好的分詞性能和魯棒性。在此基礎(chǔ)上,文獻(xiàn)[15]使用GRU代替LSTM,在一定程度上加快了訓(xùn)練速度。仍存在的問題是,上述兩種領(lǐng)域糾正器分詞模型在兩個(gè)階段分別使用基于統(tǒng)計(jì)和神經(jīng)網(wǎng)絡(luò)的分詞方法,在分詞效率上仍無法滿足預(yù)警信息第一時(shí)間快速發(fā)布的需求。
本文以領(lǐng)域糾正器分詞模型為理論基礎(chǔ),深入探索預(yù)警文本特性,將詞頻作為權(quán)重信息,對文獻(xiàn)[3]的雙字哈希詞典構(gòu)造方法進(jìn)行改進(jìn),適用于預(yù)警文本的有效詞語排列位置大幅前移,匹配成功率得到極大提高。利用最大匹配分詞算法進(jìn)行粗分,相對于完全依賴統(tǒng)計(jì)結(jié)果的領(lǐng)域適應(yīng)模型[12],分詞效率進(jìn)一步提高。在領(lǐng)域糾正階段,為彌補(bǔ)LSTM模型[13]在小規(guī)模語料庫上應(yīng)用效果較弱以及單向GRU模型[15]忽略了未來語義信息的缺陷,采用雙向GRU模型提高了算法的領(lǐng)域適應(yīng)性。對比實(shí)驗(yàn)證明了分詞結(jié)果及分詞速度的優(yōu)越性。
本章將介紹領(lǐng)域糾正器框架(Domain Corrector Frame-work,DCF)及其形式化說明。
領(lǐng)域糾正器框架由兩部分組成:通用分詞過程、領(lǐng)域糾正過程。圖1展示了領(lǐng)域糾正器框架的工作流程。其中,通用分詞過程僅對文本進(jìn)行初步分詞,可由任意一種分詞器來完成。在獲得初步分詞結(jié)果后,領(lǐng)域糾正過程通過由統(tǒng)計(jì)模型實(shí)現(xiàn)的“糾正器”預(yù)測出針對通用分詞結(jié)果的糾正動(dòng)作序列,結(jié)合預(yù)先定義的糾正邏輯逐字修改分詞結(jié)果,最終得到符合特定領(lǐng)域的分詞輸出。
圖1 領(lǐng)域糾正器框架流程圖
領(lǐng)域糾正器框架不依賴于構(gòu)建通用分詞器時(shí)使用的語料資源和建模方法,大大降低了對訓(xùn)練資源的要求。其形式化說明如下所述。
給定一個(gè)字符輸入序列xc=c1,c2,…,cn,經(jīng)過通用分詞過程輸出原始的分詞結(jié)果,并將其轉(zhuǎn)換為分詞標(biāo)簽序列ys=ls1,ls2,…,lsn,其中l(wèi)s∈LS,Ls={B,N},B代表詞首字,N代表詞中字或者詞尾部。如分詞結(jié)果“江蘇省/氣象臺(tái)/發(fā)布/寒潮/藍(lán)色/預(yù)警/信號”對應(yīng)的分詞標(biāo)簽序列為“B,N,N,B,N,N,B,N,B,N,B,N,B,N,B,N”。
通用分詞過程結(jié)束后,xc和ys同時(shí)被送入稱之為“糾正器”的糾正模塊,以預(yù)測糾正標(biāo)簽序列yC=lC1,lC2,…,lCn,其中l(wèi)C∈LC,LC={U,LI,D} ,表示糾正動(dòng)作的類型,U表示無需糾正,I表示插入字前空格,D表示刪除字前空格。例如對文本“我市區(qū)域空氣質(zhì)量”的通用分詞結(jié)果為“我市區(qū)/域/空氣/質(zhì)量”,準(zhǔn)確分詞結(jié)果應(yīng)為“我市/區(qū)域/空氣/質(zhì)量”,則期望的糾正序列為“U,U,I,D,U,U,U,U”,可由CRF、LSTM等模型實(shí)現(xiàn)。
文獻(xiàn)[13]利用已有合法預(yù)警文本數(shù)據(jù)集和開放域通用公開數(shù)據(jù)集進(jìn)行建模,設(shè)計(jì)了一種基于Bi-LSTM-CRF的預(yù)警信息分詞算法,是目前針對預(yù)警文本分詞效果最好的一種算法,分詞準(zhǔn)確率達(dá)到0.87、召回率達(dá)到0.89。由于沒有進(jìn)一步探究預(yù)警文本獨(dú)有的特點(diǎn),分詞算法在準(zhǔn)確率和召回率上仍有提高的空間。此外,該算法的高準(zhǔn)確率建立在龐大建模數(shù)據(jù)集的基礎(chǔ)上,分詞速度較慢,距離預(yù)警信息第一時(shí)間快速發(fā)布的需求仍有差距。引入領(lǐng)域糾正器思想,在一定程度上解決了上述問題。
深入分析近五年的預(yù)警信息文本可以發(fā)現(xiàn)其存在如下特點(diǎn):1)本文由通用詞匯及預(yù)警領(lǐng)域詞匯組成,通用詞匯占比較大;2)易產(chǎn)生歧義的部分通常伴有領(lǐng)域詞匯,如2.2節(jié)的“區(qū)域空氣質(zhì)量”;3)預(yù)警發(fā)布相關(guān)法律規(guī)定對預(yù)警信息文本從內(nèi)容及形式上作出了限制,因此,相當(dāng)程度上的通用詞語在預(yù)警文本中不會(huì)出現(xiàn),如人民日報(bào)語料庫收錄的“歷史”、“人民”、“科技大學(xué)”等。
考慮預(yù)警信息文本特點(diǎn)并兼顧算法效率,利用機(jī)械分詞算法作為通用分詞器對預(yù)警本文進(jìn)行快速粗分較為合適。在3.2節(jié)提出了一種基于權(quán)重的雙字哈希詞典構(gòu)造方法,進(jìn)一步提高粗分效率。領(lǐng)域糾正階段,將近五年發(fā)布的預(yù)警文本作為語料庫進(jìn)行建模,語料庫的領(lǐng)域針對性對提高分詞準(zhǔn)確率幫助較高;使用運(yùn)算效率較高的雙向GRU模型進(jìn)行建模,分詞速度進(jìn)一步提高。
詞典結(jié)構(gòu)對機(jī)械分詞算法的效率有著舉足輕重的影響。由3.1節(jié)的分析可知,通用詞典中大部分詞語并不會(huì)在預(yù)警文本中出現(xiàn),遍歷整個(gè)詞典的匹配機(jī)制嚴(yán)重影響切分速度。但考慮到防災(zāi)減災(zāi)事業(yè)的發(fā)展及政策變更可能會(huì)產(chǎn)生相對于歷史預(yù)警文本的未登錄詞,縮減通用詞典詞量并不合適。為在一定程度上提高通用分詞階段的分詞效率,設(shè)計(jì)了一種基于權(quán)重的字典構(gòu)造方法。通過對已有合法預(yù)警本文的詞頻統(tǒng)計(jì)(出現(xiàn)次數(shù)總計(jì)),將詞頻作為權(quán)重信息,在雙字哈希的基礎(chǔ)上,標(biāo)注詞典正文的權(quán)重信息,按權(quán)重逆序排列,大幅度減少匹配次數(shù)。詞典結(jié)構(gòu)如圖2所示。
圖2 基于權(quán)重的詞典結(jié)構(gòu)
文獻(xiàn)[13]將已有合法預(yù)警數(shù)據(jù)和開放域通用公開數(shù)據(jù)集作為輸入,通過LSTM-CRF模型訓(xùn)練預(yù)警分詞模型。預(yù)警語料庫的規(guī)模不足導(dǎo)致領(lǐng)域適應(yīng)性較弱,復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)則導(dǎo)致模型耗時(shí)較長。文獻(xiàn)[15]使用結(jié)構(gòu)較為簡單的GRU-CRF模型構(gòu)造領(lǐng)域糾正器,在加快訓(xùn)練速度的時(shí)候減少了模型過度擬合的可能性,在小規(guī)模語料庫上的應(yīng)用效果相對LSTM-CRF模型較優(yōu)。然而,單向GRU模型僅攜帶過去的語義信息,并未考慮到未來語義對分詞結(jié)果的影響。針對規(guī)模較小的預(yù)警語料庫,本文采用雙向GRU-CRF模型,充分利用預(yù)警語義信息的同時(shí)兼顧模型構(gòu)建效率。
3.3.1 Embedding層
該層由兩種不同的Embedding組成:漢字Embedding和分詞標(biāo)簽Embedding,分別記為Ec∈R|D|×dc以及El∈R|Ls|×dl,其中|D|表示漢字字典的大小。一個(gè)漢字字符cl或一個(gè)分詞標(biāo)簽lSt的前向數(shù)值向量為vLct和vLlt,逆序輸入的漢字Embedding和分詞標(biāo)簽Embedding得到后向數(shù)值向量為vRct和vRlt。使用四詞位標(biāo)簽集Ls={B,M,E,S},其中,B,M,E,S分別表示詞首字、詞中字、詞尾字和單字詞。
3.3.2 輸入層
在輸入層對詞向量和標(biāo)簽向量進(jìn)行兩次拼接。第一步將時(shí)刻前向向量vLct和vLlt,后向向量vRct和vRlt拼接為前向詞-標(biāo)簽向量vLclt和后向詞-標(biāo)簽向量vRclt。第二步將上下文窗口[t-k1,t+k2]中的k1+k2+1個(gè)向量拼接成前向GRUL、后向RGRUR和最終的輸入向量vinput,即
vLclt=[vLct,vLlt],vRclt=[vRct,vRlt]
GRUL=[vLclt-k1,vLclt-k1+1,…,vLclt-k2-1,vLclt-k2]
GRUR=[vRclt-k1,vRclt-k1+1,…,vRclt-k2-1,vRclt-k2]
vinput={[vLclt-k1,vRclt-k1],[vLclt-k1+1,vRclt-k1+1],…
3.3.3 隱藏層
隱藏層分別從序列的首端和尾端運(yùn)行,某一時(shí)刻的輸出同時(shí)考慮過去和未來的上下文信息,在序列標(biāo)注的任務(wù)上表現(xiàn)的更加優(yōu)秀。GRU單元通過更新門和重置門來控制信息流動(dòng),計(jì)算過程如下:
更新門
zt=σ(Wz·[st-1,vinput])
重置門
rt=σ(Wr·[st-1,vinput])
狀態(tài)更新
3.3.4 CRF層
CRF層可推斷糾正序列的最優(yōu)標(biāo)記,進(jìn)一步提高分詞正確率。隱藏表征向量序列h經(jīng)過線性映射后可得到一元?jiǎng)莺瘮?shù)φnn(yCt,X)。而二元?jiǎng)莺瘮?shù)可由矩陣A∈R|LC|×|LC|來表達(dá),Ai,j表示從糾正標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的分值。對于給定的糾正序列yC,其由輸入決定的條件概率計(jì)算如下
算法1 快速預(yù)警信息分詞算法(FCWS_ WI)
輸入:字符串x=c1c2…cn,c表示一個(gè)單字
輸出:分詞結(jié)果S=s1s2…sm,s表示一個(gè)詞
1) 對輸入的字符串,采用權(quán)重哈希雙子詞典及相應(yīng)的最大匹配分詞算法,計(jì)算得到通用分詞階段的粗分結(jié)果M=m1m2…mp。
算法工作流程如圖3所示。
圖3 FCWS_ WI算法工作流程
為滿足預(yù)警信息第一時(shí)間準(zhǔn)確發(fā)布的需求,本文提出了一種基于預(yù)警領(lǐng)域知識的權(quán)重哈希雙字詞典,通過減少通用分詞過程的匹配次數(shù)降低分詞算法計(jì)算量;構(gòu)建已有合法預(yù)警文本語料庫,提出了一種基于雙向GRU-CRF的預(yù)警領(lǐng)域糾正器模型,從快速性、準(zhǔn)確性兩方面對現(xiàn)有的面向預(yù)警領(lǐng)域的分詞方法進(jìn)行了優(yōu)化。實(shí)驗(yàn)階段將從上述兩方面分別開展。
本文算法FCWS_WI,在通用分詞階段構(gòu)造了適用于預(yù)警文本的領(lǐng)域詞典,匹配計(jì)算量大幅度縮減;為提高領(lǐng)域適應(yīng)性,在領(lǐng)域糾正階段,針對性的采用已有合法預(yù)警文本作為語料庫,相對于文獻(xiàn)[13]的Bi-LSTM-CRF_WI算法語料庫規(guī)模較小,神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度較快,進(jìn)一步提高到了算法效率。
本節(jié)首先對比不同領(lǐng)域詞典下的粗分效果,再對現(xiàn)有領(lǐng)域分詞算法的計(jì)算時(shí)間進(jìn)行對比。
實(shí)驗(yàn)選用江蘇省2013年至2018年合法預(yù)警信息文本作為語料庫,記為DB1,構(gòu)建本文權(quán)重哈希雙字詞典,將2019年合法預(yù)警信息文本作為測試數(shù)據(jù),記為DB2。以上數(shù)據(jù)集均通過江蘇省氣象局預(yù)報(bào)員進(jìn)行語義校準(zhǔn)。數(shù)據(jù)集特征如表1所示。
表1 數(shù)據(jù)集
為證明本文引入權(quán)重信息構(gòu)造詞典的領(lǐng)域優(yōu)勢,實(shí)驗(yàn)將對比三種哈希結(jié)構(gòu)詞典:雙字哈希(記為Dic_Hash)、字長雙字哈希(記為Dic_ HashLen)以及本文提出的權(quán)重雙字哈希(記為Dic_HashWei)的粗分效率。三種詞典分詞結(jié)果示例如表2所示,平均計(jì)算時(shí)間見圖4。
表2 三種詞典結(jié)果分詞結(jié)果示例
圖4 不同樣本數(shù)量三種結(jié)構(gòu)詞典平均分詞時(shí)間
由表2的分詞結(jié)果及圖4的平均分詞時(shí)間可知,三種詞典的不同構(gòu)造方式,并不改變詞語在詞典中的相對位置,詞語長度信息和權(quán)重信息的引入旨在縮小有效匹配范圍,加快分詞速度,對分詞結(jié)果不構(gòu)成任何影響。如圖4所示,本文所提出的Dic_HashWei詞典結(jié)構(gòu)對分詞效率有著較大的貢獻(xiàn),計(jì)算時(shí)間明顯快于采用Dic_ Hash和Dic_ HashLen兩種詞典結(jié)構(gòu)。由于缺乏領(lǐng)域知識,基于Dic_ Hash和Dic_ HashLen兩種詞典的分詞算法在每一次匹配時(shí)都需遍歷整個(gè)詞典(概率),而基于Dic_HashFre的分詞算法在每一次匹配時(shí)都有極大的概率在小規(guī)模的搜索范圍內(nèi)匹配到目標(biāo)詞語,隨著數(shù)據(jù)集樣本數(shù)量的增加,后者的計(jì)算時(shí)間大幅下降,在搜索的快速性方面具有明顯的優(yōu)勢。
在此基礎(chǔ)上,對比本文算法FCWS_WI與通用分詞算法MTE-CRFs[4]以及領(lǐng)域分詞算法:現(xiàn)有預(yù)警分詞算法Bi-LSTM-CRF_WI[13]、石油領(lǐng)域分詞算法HMM_O[12]、文獻(xiàn)[15]中的領(lǐng)域糾正器算法(記為:DCF-GRU)在算計(jì)效率上的表現(xiàn)。實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 不同樣本數(shù)量五種分詞算法平均計(jì)算時(shí)間
圖5的結(jié)果表明,由機(jī)械分詞算法、權(quán)重哈希雙字詞典和雙向GRU-CRF模型建立的分詞算法FCWS_WI能夠快速的得到預(yù)警文本的分詞結(jié)果。在樣本數(shù)量為22242時(shí),領(lǐng)域分詞算法HMM_O、DCF-GRU、Bi-LSTM-CRF_WI平均分詞時(shí)間接近本文FCWS_WI算法的5倍、8倍和13倍。更進(jìn)一步的,即使是相對領(lǐng)域分詞算法計(jì)算較為簡單通用分詞算法MTE-CRFs,其計(jì)算時(shí)間也是本文算法的2倍。相較而言,本文FCWS_WI分詞算法更好的滿足了預(yù)警信息第一時(shí)間發(fā)布的需求。
4.2.1 評價(jià)指標(biāo)
文本使用準(zhǔn)確率、召回率和F值評價(jià)分詞算法性能。其中,準(zhǔn)確率是分詞正確的單詞數(shù)與分詞結(jié)果總數(shù)的比率,衡量分詞結(jié)果的查準(zhǔn)率;召回率是分詞正確的單詞數(shù)與實(shí)際單詞總數(shù)的比率,衡量的是分詞結(jié)果的查全率。取值在0到1之間,越接近1準(zhǔn)確率或召回率越高,具體定義如下:
4.2.2 預(yù)警領(lǐng)域分詞結(jié)果
實(shí)驗(yàn)中用DB1訓(xùn)練分詞模型,DB2作為測試數(shù)據(jù),分別對比算法Bi-LSTM-CRF_WI、HMM_O以及本文算法FCWS_WI的分詞效果。部分分詞結(jié)果如表3所示。
表3 五種中文分詞算法分詞結(jié)果
在該段預(yù)警文本中,含有“大到暴雨”、“大暴雨”、“強(qiáng)降水”、“部分地區(qū)”等預(yù)警常用詞語常用詞匯和“將出現(xiàn)”、等歧義短語,紅色標(biāo)注錯(cuò)誤分詞結(jié)果。通用分詞算法MTE-CRFs未考慮預(yù)警領(lǐng)域語義,對比領(lǐng)域分詞算法分詞能力較差。同時(shí)使用通用語料庫和領(lǐng)域語料庫訓(xùn)練模型的Bi-LSTM-CRF_WI算法、HMM_ O算法以及未考慮未來語義的DCF-GRU算法,在預(yù)警文本的切分上仍存在偏差。反觀本文FCWS_WI算法,由于在訓(xùn)練模型時(shí)僅使用預(yù)警領(lǐng)域語料,領(lǐng)域適應(yīng)性較強(qiáng),上述詞語均被有效識別并切分。三種算法的準(zhǔn)確率、召回率和F值如表4所列。
表4 準(zhǔn)確率、召回率及F值對比(單位:100%)
本文算法準(zhǔn)確率、召回率及F值的結(jié)果都高于Bi-LSTM-CRF_WI算法和HMM_O算法,且都高于90%,進(jìn)一步說明了本文算法在分詞效果上的優(yōu)越性。
作為國家應(yīng)急體系的重要工作之一,預(yù)警信息的第一時(shí)間快速發(fā)布,對預(yù)警領(lǐng)域分詞算法的效率和準(zhǔn)確性作出了較高的要求。將領(lǐng)域糾正器模型作為理論基礎(chǔ),分析預(yù)警文本特性,提出了一種針對預(yù)警信息的領(lǐng)域分詞模型。①引入權(quán)重信息構(gòu)建哈希雙字詞典,在保證切分結(jié)果不變的前提下大幅度縮減匹配計(jì)算量,粗分效率提高可達(dá)6倍。② 僅采用已有合法預(yù)警文本構(gòu)建領(lǐng)域語料庫,選用小規(guī)模語料庫應(yīng)用效果較優(yōu)的GRU模型進(jìn)行建模,結(jié)構(gòu)較為簡單,分詞速度相對于現(xiàn)有領(lǐng)域分詞器提高了5-13倍。③考慮到未來語義信息對分詞結(jié)果的影響,構(gòu)建雙向GRU-CRF模型,進(jìn)一步提高領(lǐng)域適應(yīng)性,在準(zhǔn)確率、召回率和F值方面較現(xiàn)有分詞算法提高5.06%、2.78%和3.9%。下一步工作是研究如何從領(lǐng)域語料中進(jìn)一步提取語義信息,提高未登錄詞的處理能力。