晏雷 周蘭江 張建安 周楓
摘? 要: 為了解決老撾機構(gòu)名實體構(gòu)詞方法和語法規(guī)則復雜的問題,提出融合多特征的CRF與SVM的實體識別框架。面向老撾語機構(gòu)名構(gòu)詞特點,將老撾機構(gòu)名稱分為前綴詞和后綴詞,將前綴詞提取構(gòu)造成一個機構(gòu)名稱特征詞典,基于詞典與SVM模型確定老撾機構(gòu)名稱前界,再使用融合多特征的CRF模型識別機構(gòu)名稱;最后使用SVM確定的前綴詞修正CRF的識別結(jié)果。實驗結(jié)果表明,精確率達到83.49%,召回率達到81.99%,證明了該方法的有效性。文中方法結(jié)合了SVM模型與CRF模型的優(yōu)點,并融合了老撾機構(gòu)名稱的相關(guān)語言學特征,取得了較好的識別效果。
關(guān)鍵詞: 老撾語; 機構(gòu)名稱識別; 多特征融合; 前綴詞提取; 識別結(jié)果修正; 實驗結(jié)果分析
中圖分類號: TN911.1?34; TP391? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)19?0122?04
Abstract: In order to solve the problem that the word?formation method and grammatical rules of Lao organization name entities are complex, an entity identification framework of CRF (conditional random field) and SVM (support vector machine) fusing multiple features is proposed. According to the word?formation characteristics of institution names in Lao language, the Lao institution names are divided into prefix words and suffix words. The prefix words are extracted to build a dictionary about institutional name features. The prezones of the Lao institution names are determined on the basis of the dictionary and SVM model. The CRF model fusing multiple features is used to identify the institution names. Finally, the prefix words determined by SVM are used to correct the recognition results of CRF. The experimental results show that the accuracy rate of the method reaches 83.49% and its recall rate reaches 81.99%, which prove the effectiveness of the method. In the proposed method, the advantages of the SVM model and CRF model are combined, and the relevant linguistic features of Lao institution names are integrated, which achieve good recognition results.
Keywords: Lao; organization name recognition; multi?feature fusion; prefix word extraction; recognized result correction; experiment result analysis
0? 引? 言
命名實體識別一直是自然語言處理領域的基礎任務,如信息抽取、文本摘要、機器翻譯等[1]。命名實體一般分為七大類,分別為人名、地名、機構(gòu)名、時間、日期、貨幣和百分比[2]。時間、日期、貨幣和百分比由于形式比較固定,識別比較簡單;相較于人名、地名而言,機構(gòu)名結(jié)構(gòu)復雜、長短不一、組成多樣,不同機構(gòu)名差異較大,這些都加大了機構(gòu)名識別的難度。本文的研究內(nèi)容主要是面向老撾語中機構(gòu)名稱的識別。
近年來,在命名實體識別領域主要使用的是基于統(tǒng)計的方法與基于神經(jīng)網(wǎng)絡的方法。文獻[3]采用SVM與HMM疊加的方法對實體詞進行識別,但是由于HMM模型需要嚴格的獨立性假設,使其不能學習長遠的上下文特征。文獻[4]提出一種基于角色集的方法識別實體名并取得了較好結(jié)果,但該方法對于不同語種移植性較差,同時角色集的設計對實驗結(jié)果影響較大,需要多次實驗才能確定最優(yōu)角色集。文獻[5]中使用的基于神經(jīng)網(wǎng)絡的深度學習方法具有泛化性強、更少依賴人工特征的優(yōu)點,但是目前老撾語命名實體識別語料稀少,并不能為神經(jīng)網(wǎng)絡提供大量的標注數(shù)據(jù),所以該方法移植到老撾語上效果一般。
針對老撾機構(gòu)名實體構(gòu)詞方法和語法規(guī)則復雜的問題,本文提出融合多特征的CRF模型與SVM相結(jié)合的方法。首先,利用SVM模型結(jié)合特征詞典對老撾機構(gòu)名前綴詞進行識別;再利用融合詞的上下文信息、詞性、特征詞典、左右指界詞特征的CRF模型對機構(gòu)名實體進行識別;最后,使用SVM的前綴詞的識別結(jié)果對CRF的識別結(jié)果進行修正。實驗表明,本文方法能夠明顯提高識別結(jié)果的準確率。
1? 系統(tǒng)框架
本文進行的老撾語機構(gòu)名實體識別的研究以詞匯為最小判別單元,使用的標注集合為[{B,I,O}],其中,命名實體首字符標為[B]、命名實體其他字符標為[I]、非實體字符標為[O]。系統(tǒng)的框架結(jié)構(gòu)如圖1所示,共分為三層。第一層為輸入層,首先將句子做分詞處理,再將句子處理為模型所需的格式輸入到模型中進行訓練。第二層為模型層,將句子輸入到訓練好的兩個模型中,得到標記結(jié)果,當SVM模型標記該詞為老撾機構(gòu)名稱前綴詞[B]并且CRF模型也標記該詞為[B]時,方可確定該詞為老撾機構(gòu)名前綴詞,并取CRF中[I]的標記結(jié)果確定一個完整的實體名;當只有一個模型認為該詞為前綴詞,另一個模型沒有進行該標記則跳過該詞。第三層為輸出層,綜合兩個模型的輸出得到最終的標注結(jié)果。
2? SVM模型
2.1? SVM原理
根據(jù)老撾語機構(gòu)名稱的特點構(gòu)建特征向量,使用SVM模型對特征向量進行分類,可以抽象成一個非線性分類問題。解決非線性分類問題的辦法是將原來低維空間的訓練數(shù)據(jù)映射到一個使訓練數(shù)據(jù)線性可分的更高維的空間中,通過SVM模型找到最優(yōu)分類超平面[6],對數(shù)據(jù)進行分類,訓練模型。
定義訓練集如下:
SVM模型通過找到最優(yōu)分類超平面對數(shù)據(jù)進行劃分[7],該超平面可通過凸二次規(guī)劃方程求解得到:
對句子中存在于特征詞典中的詞,使用SVM模型進行判斷,若得到標簽為+1,則確定其為老撾機構(gòu)名稱的前界;若得到標簽為-1,則確定其不是老撾機構(gòu)名稱中的詞。
2.2? 特征詞典的構(gòu)造
老撾機構(gòu)名稱形式相對固定。在老撾語中一般實體都會以特征詞作為一個機構(gòu)實體詞的開頭,形式為前綴詞+后綴詞,如老撾國立大學(???????????????????)分為前綴詞(????????????)與后綴詞(???????)。將形如大學(????????????)這種機構(gòu)名稱前綴詞加入特征詞詞典。為了更加符合實際應用情況,只將訓練集中的機構(gòu)名稱特征詞提出來并去重后加入特征詞詞典,測試集中的詞不加入特征詞詞典。表1中是部分特征詞。
2.3? SVM識別老撾機構(gòu)名稱前綴詞
前綴詞的識別可以看作是一個二分類問題。SVM模型是一個使用監(jiān)督學習的方式對數(shù)據(jù)進行二值分類的分類器。使用SVM對老撾語機構(gòu)名稱前綴詞進行識別,當句子中存在特征詞典的詞出現(xiàn)時,將其加入前綴詞候選詞,使用SVM模型進行識別,確認其是否為老撾語機構(gòu)名稱前綴詞。根據(jù)語料特性,結(jié)合識別效果和效率,定義11維向量,格式如下:
其中:[L]表示標簽類型,[L∈-1,? 1],[L= 1]表示該特征向量為正類,該詞是機構(gòu)名稱前綴詞,[L=-1]表示該特征向量為負類,該詞不是機構(gòu)名稱前綴詞;[W]表示老撾語單詞的詞形;[P]表示其詞性;-2,-1,0,1,2表示單詞的位置信息,0代表當前詞,1代表當前詞后面的第一個詞,-1代表當前詞前面的第一個詞,以此類推。根據(jù)定義的向量格式構(gòu)建相應向量如下所示:
1???ADJ?????????? N????? N??????? N?????N
將標注語料輸入SVM模型進行訓練與測試,得到老撾機構(gòu)名稱前綴詞識別結(jié)果。
3? 條件隨機場模型
3.1? 條件隨機場原理
自Laggerty等在2001年提出條件隨機場以來,在自然語言處理領域得到了廣泛的應用[8]。對比HMM與MEMM模型,其打破了條件獨立性假設,在給定觀察序列[X]和輸出的標注序列[Y]時,使用條件概率[PYX]描述概率模型,并以序列化進行全局參數(shù)優(yōu)化,解決了labelbias問題,使其在序列標注問題上獲得了更好的表現(xiàn)。
條件隨機場是一種無向圖模型[9],其中最簡單的鏈式結(jié)構(gòu)圖如圖2所示,此處只將觀察序列[Y]作為條件,不對其做任何獨立性假設。
在給定觀察序列[X={x1,x2,…,xn}]的情況下,計算并輸出對應的狀態(tài)序列[Y={y1,y2,…,yn}],其條件概率為:
式中:[ZX]為歸一化因子,使得所有狀態(tài)序列的概率和為1;[tjyi-1,yi,xi]是關(guān)于觀測序列和位置[i]及[i-1]標記的轉(zhuǎn)移概率的函數(shù),稱為轉(zhuǎn)移函數(shù);[t′jyi,xi]是關(guān)于觀測序列和位置[i]標記的狀態(tài)特征的函數(shù),稱為狀態(tài)函數(shù);[λj]和[λ′j]分別為[tj]和[t′j]的權(quán)重,需要通過訓練得到。
最大可能的標注序列可通過維特比算法解碼得出:
3.2? 特征選擇
在使用CRF進行機構(gòu)名稱識別時,除了語料大小會對結(jié)果產(chǎn)生重要的影響,特征模版也會對結(jié)果產(chǎn)生直接影響。本文針對老撾組織機構(gòu)名實體識別的任務結(jié)合老撾語句子的詞匯特征、句法特征提取如下特征模板。
1) 詞匯上下文特征
根據(jù)老撾機構(gòu)名的語言特性,本文將詞匯上下文特征的窗口設置為5。此時輸入句子序列的具體形式為[i=2NWi],其中,[N]為句子長度,[Wi]為一個大小為5的窗口,具體如下所示:
式中:[wi]為當前觀察的詞匯;[ti]為當前詞匯的標簽。具體的特征模板如表2所示。
2) 詞性特征
當前的觀察詞與該詞所對應的詞性[pi]。此時輸入的句子序列如下所示:
對應的詞性特征[wipi]也加入特征模板中。
3) 特征詞表
特征詞是表示該組織機構(gòu)名實體類別屬性的構(gòu)件[10],如“?????????????????(坦克?裝甲局)”中的“???(局)”即為一個特征詞。此處特征詞表與上一節(jié)中特征詞典內(nèi)容一致。在輸入的句子序列中,加上一列特征詞標記[ci],如果當前觀察詞匯出現(xiàn)在特征詞表中,令[ci=Y],否則,令[ci=N]。
4) 左右指界詞表
指界詞即出現(xiàn)在機構(gòu)名前或后的第一個詞,例如左指界詞????(通過)后面會伴隨出現(xiàn)機構(gòu)名;右指界詞?????(主席)一般出現(xiàn)在機構(gòu)名后。出現(xiàn)次數(shù)不同的指界詞對機構(gòu)名邊界的指示作用不同,受語料大小所限,本文實驗中只取出現(xiàn)頻率最高的20個指界詞。同樣,在句子輸入序列中,加上一列左右指界詞標記[mi],如果當前觀察詞匯出現(xiàn)在特征詞表中,令[mi=Y],否則,令[mi=N]。
根據(jù)以上4個特征,構(gòu)造4組不同的訓練語料:第一組為詞+[BIO]標簽;第二組為詞+詞性+[BIO]標簽;第三組為詞+詞性+特征詞表+[BIO]標簽;第四組為詞+詞性+特征詞表+左右指界詞表+[BIO]標簽。第四組語料標注示例如表3所示。
4? 實? 驗
4.1? 數(shù)據(jù)集
本文的實驗語料主要通過對老撾新聞網(wǎng)站的爬取,然后再通過老撾語專家和老撾留學生進行標注,并對語料進行分詞、詞性標注等預處理,并設計程序?qū)ψ笥抑附缭~進行統(tǒng)計。語料庫約18.9 MB,其中,70%的語料用來訓練,30%的語料用來測試。
4.2? 結(jié)果分析
本文使用3個指標對實驗結(jié)果進行評價,分別是準確率[P]、召回率[R]和[F]值。準確率指的是一個算法的查準率,召回率指的是一個算法的查全率,[F]值是綜合考慮準確率和召回率的指標[11]。計算公式如下:
使用SVM模型對上述老撾機構(gòu)名稱前綴詞的識別實驗結(jié)果如表4所示。
使用4組不同的模板訓練CRF模型,得到的對比實驗結(jié)果如表5所示。
使用SVM與融合多特征的CRF方法進行實驗,對比CRF模型中取得的最好實驗結(jié)果,對比結(jié)果如表6所示。
從實驗結(jié)果可以看出:由于標注語料有限,可以看出在詞與詞性的基礎上融合特征詞典的特征對識別準確率提升不大;CRF模型中融合了詞、詞性、特征詞典、左右指界詞的模型效果,在CRF的4組實驗中效果最好,說明融合的特征都是有效的。單純使用特征詞典+SVM模型,對老撾機構(gòu)名左邊界的識別效果較好?;赟VM與融合多特征的CRF的模型在CRF的基礎上有效地提高了準確率,召回率沒有改變,說明SVM對左邊界的識別結(jié)果能夠有效剔除CRF中的錯誤實體結(jié)果,減小FP的數(shù)量,從而提高識別機構(gòu)名實體的準確率。但是由于本文的實驗結(jié)果是基于正確分詞和詞性標注的基礎上,實際上分詞與詞性標注上的錯誤都會降低識別的精確度。
5? 結(jié)? 語
本文針對老撾語機構(gòu)名稱構(gòu)詞的語法特點,建立一種基于SVM和CRF的雙層模型,對老撾機構(gòu)名稱進行識別。在特征詞詞典的基礎上,使用SVM模型對老撾語機構(gòu)名稱特征詞進行識別,并通過CRF模型融合老撾機構(gòu)名稱特征對機構(gòu)名稱進行標注,結(jié)合SVM的前綴詞識別結(jié)果,有效降低了CRF模型預測錯誤實體的個數(shù),從而達到了提高準確率的目的。
實驗表明,本文方法能夠獲得較好的老撾機構(gòu)實體的識別準確率,但是不足之處也較為明顯,特征詞典為人工收集,對于未錄入特征詞詞典的機構(gòu)名稱則無法進行識別,這還有待于后續(xù)進一步深入的研究;語料的不足也對實驗結(jié)果有一定的影響,后續(xù)工作還要繼續(xù)擴充標注好的語料庫。
參考文獻
[1] 武惠,呂立,于碧輝.基于遷移學習和BiLSTM?CRF的中文命名實體識別[J].小型微型計算機系統(tǒng),2019,40(6):1142?1147.
[2] 段韶鵬.老撾語命名實體識別研究[D].昆明:昆明理工大學,2017.
[3] 祝繼鋒.基于SVM和HMM算法的中文機構(gòu)名稱識別[D].吉林:吉林大學,2017.
[4] 李麗雙,郭元凱.基于CNN?BLSTM?CRF模型的生物醫(yī)學命名實體識別[J].中文信息學報,2018,32(1):116?122.
[5] 潘璀然,王青華,湯步洲,等.基于句子級Lattice?長短記憶神經(jīng)網(wǎng)絡的中文電子病歷命名實體識別[J].第二軍醫(yī)大學學報,2019,40(5):497?506.
[6] 許華.基于有監(jiān)督學習的醫(yī)療實體抽取方法研究[D].武漢:武漢科技大學,2016.
[7] 周曉磊,趙薛蛟,劉堂亮,等.基于SVM?BiLSTM?CRF模型的財產(chǎn)糾紛命名實體識別方法[J].計算機系統(tǒng)應用,2019,28(1):245?250.
[8] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceedings the Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 2001: 282?289.
[9] SARAWAGI S. Sequence segmentation using semi?Markov conditional random fields [J]. Journal of the Indian Institute of Science, 2019, 99(2): 215?224.
[10] 李明鑫.基于信息抽取的實體知識庫系統(tǒng)研究[D].北京:北京交通大學,2017.
[11] 羅鈺敏,劉丹,尹凱,等.加權(quán)平均Word2Vec實體對齊方法[J].計算機工程與設計,2019,40(7):1927?1933.
[12] 楊夢杰.老撾語命名實體識別方法的研究[D].昆明:昆明理工大學,2016.