馬孟鋮,楊晴雯,艾斯卡爾·艾木都拉,吐爾地·托合提
(新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)
命名實體是文本中的基礎信息單元。其表示了文本中內在名稱和縮寫的信息,同時自然語言處理研究中一項基礎且必要的任務就是對于命名實體的識別。旨在從海量文本中提取出能夠體現(xiàn)客觀具體或者抽象實體的詞匯,例如人名、地名和機構名等。
隨著計算機技術水平的不斷提高,自然語言處理和文本處理相關研究不斷深入。問答系統(tǒng)、自動摘要、意見挖掘等研究領域都需要語義知識作為支持,命名實體識別和分類已成為一項重要的基礎性研究問題[1]。從狹義上講,命名實體可以分為人名、地名、組織名等。從廣義上講,命名實體包括各種表達式、電子郵箱等,伴隨著現(xiàn)在自然語言處理相關研究的興起,原來的命名實體界定范圍已經(jīng)不能滿足需求,人們對這些實體詞匯在原有基礎上進行了種類的擴展,分類更加細致。比如,地名可細分為地區(qū)名稱(不同大洲)、國家名、城市名、鄉(xiāng)鎮(zhèn)名等。相同語料研究任務的不同可能需要不同類型的命名實體,若每次根據(jù)任務類型再選取相應的特征識別命名實體需要耗費人力、精力和時間,代價未免太過巨大。因此,現(xiàn)在的研究重點應該是根據(jù)不同應用領域的特定需求定義不同類型的命名實體并加以識別,并且快速、高效率地完成[2,3]。
發(fā)展至今,中文命名實體識別的方法主要有以下幾種:基于機器學習的方法通常被當作序列標注任務[4],經(jīng)典機器學習分類模型主要有隱馬爾可夫模型和條件隨機場等淺層模型。馮艷紅等[5]利用詞語的詞向量與領域術語的詞向量之間的相似度特征,構成基于詞向量的特征向量,提出一種基于詞向量和條件隨機場領域術語識別方法;張海楠等[6]提出的基于深度神經(jīng)網(wǎng)絡的字詞聯(lián)合方法利用了字、詞向量的特點,用于中文命名實體識別取得了較好的效果。Huang等[7]提出了融合語言學特征的Bi-Lstm-CRF模型,提升了模型的性能。林廣和等[8]提出一種基于注意力機制的字符級詞表示模型與Bi-Lstm-CRF模型聯(lián)合進行實體識別的方法,顯著提高了系統(tǒng)的召回率。
不同領域下的命名實體識別研究發(fā)展迅速;針對軍事文本中的命名實體[9],馮蘊天等[10]提出了一種半監(jiān)督命名實體識別方法。先基于條件隨機場識別出結果,再使用基于字典的方法和基于規(guī)則的方法來校正識別結果,且取得了不錯的效果;張劍等[11]針對農業(yè)領域語料特點,采用基于條件隨機場的方法,將命名實體分為作物、病蟲害、農藥及化肥4種類別,準確率達到了93%以上;王洪亮[12]提出一種融合全局上下文信息的詞向量特征選擇方法,并采用條件隨機場實現(xiàn)中文微博的命名實體識別,取得了不錯的效果;何紅磊[13]實現(xiàn)了使用詞表示方法對生物醫(yī)學命名實體識別。
作為文本中重要的語義知識,命名實體分類已成為一個現(xiàn)實的基礎研究問題。然而,由于不同領域下實體類型的自由性、復雜性。該問題還有進一步研究的空間。針對這一問題,本文做出的主要工作:①本文提出一種先識別再分類的思想,先構建特征識別出實體,再利用詞向量聚類以及計算詞向量相似度的方法對實體進行分類;②根據(jù)實驗語料的特點,我們針對性的選取統(tǒng)計特征并構建特征模板識別命名實體;③為了驗證分類的準確性,對測試語料進行人工標注;④對于人名的分類,提出了構建百家姓詞典以及根據(jù)字符長度進行判斷的方法。
由于地名、機構名等實體的語言特點不同,制定不同的分類體系需要構建不同的特征模板,所以先識別命名實體,在對識別結果進行分類會更加合適。本文提出一種先選取特征識別實體,再利用詞向量對實體分類的方法。將語料進行預處理,分析數(shù)據(jù)集,選取特征,構造特征模板,再加入訓練數(shù)據(jù)集生成CRF模型,從而識別出測試集中的人名、地名、機構名等命名實體。在命名實體分類的部分中,利用詞向量的相似性等同于詞語的語義相似性這一特點,通過開源的詞向量詞典構建實體的詞向量表,進而對實體詞向量進行聚類,最終通過比較實體詞向量間的相似度實現(xiàn)命名實體的分類。構建的模型框架如圖1所示。
圖1 模型總體框架
條件隨機場是一種給定輸入特征進行輸出判別的概率無向圖模型?;跅l件隨機場的命名實體識別問題其實可以描述為序列標注問題。對于觀察值序列W和狀態(tài)序列O,定義一個CRF模型如下,公式定義請參見文獻[14]
ZW是歸一化參數(shù),fk表示位于n-1和n之間的特征函數(shù),W則是模型中的觀察序列,目標是求出下一狀態(tài)下最大概率的詞匯類型。
根據(jù)文本類型的不同選取合適特征是實體識別的關鍵,特征選取的好壞決定命名實體識別效果的好壞。依據(jù)實驗語料的特點,人名的識別率較高,針對地名、機構名,本文選取了5個統(tǒng)計特征,特征提取和分析如下[15]:
特征1:詞語本身標記為Word;本文選取的1998年人民日報語料,通過NLPIR-ICTCLAS分詞系統(tǒng)將原始文本進行切分形成詞語。
特征2:詞性標記為POS;語料分詞的過程中,分詞系統(tǒng)會標注詞語的詞性。一般來說,地名、機構名的一般為名詞、動詞及動、名詞短語,而不會是連詞、介詞等詞性。故可認為與實體有一定的相關性。
特征3:實體的特征核心詞標記為CORE;對于地名實體而言,“地區(qū)”,“自治區(qū)”出現(xiàn)時大概率會出現(xiàn)地名,如“阿克蘇地區(qū)”,“廣西壯族自治區(qū)”。對于機構實體而言,“公司”,“委員會”很大程度上是機構名的中心詞,如“深圳市騰訊計算機系統(tǒng)有限公司”,“社區(qū)管理委員會”??梢娫撎卣髋c實體存在較大相關性。
特征4:實體的右邊界詞標記為Right_Boundary;對語料進行分析,發(fā)現(xiàn)許多實體前后出現(xiàn)的詞是有規(guī)律的,如“位于山東附近”,位于是山東的左邊界詞,附近是山東的右邊界詞。我們選取實體的右邊界詞作為特征。
特征5:復雜機構名的邊界限定標記為Ins_Limit;語料中一些地名開頭的復合機構名,易錯誤識別成地名;我們利用該類實體的特點,通過判斷實體開頭是否為地名構建復合機構限定詞詞典,對測試集進行標注。
本文將人民日報作為語料,根據(jù)以上實體類型提出的5個特征,有效區(qū)分了地名和機構名實體。
通過訓練神經(jīng)網(wǎng)絡語言模型,將文本中的一個詞用一連串的向量進行表示,這就是詞在計算機中的分布表示特征——詞向量。詞向量能表達詞語的深層語義內容,利用這一特點,我們可以通過詞向量對實體進行分類。
影響詞向量效果的幾個因素:①詞向量的維度大小會影響詞向量的效果,維度越高,表示的內容越充分,但是過高的維度會增加運算量,造成“維數(shù)災難”。②實驗語料的質量也會影響詞向量的效果。同一領域內不相干的語料越多,詞向量的效果就越差??紤]到以上因素,本文選取的是人民大學開源的人民日報詞向量詞典,該詞典訓練了1947年-2017年的人民日報的詞向量。全面覆蓋了通用領域的詞語,能夠滿足任務需要。
在提取出訓練集中標注的實體及檢索詞向量詞典找到匹配的詞向量時,我們采用最大逆向匹配算法,如“新疆大學”第一次匹配無法找到對應詞向量,第二次匹配輸入“疆大學”,依次匹配,最終“大學”找到詞向量,作為“新疆大學”對應的詞向量。
聚類是一種無監(jiān)督學習的方法,實質是依據(jù)某種距離度量,使得同一聚簇之間的相似性最大化,不同聚簇之間的相似性最小化,即把相似的對象放入同一聚簇中,把不相似的對象放到不同的聚簇中。本文采用基于K-means算法的詞向量聚類,提取出訓練集中的實體詞向量聚類成若干個簇,為下一節(jié)測試集實體的分類做好準備。
前文通過CRF模型識別出測試集中的命名實體并構建待分類實體集,上一節(jié)將訓練集內命名實體劃分為若干簇。這里我們提取出待分類實體集下的每一個實體,與聚類的每個簇之間進行相似度比較,放入距離最近的那個簇中。為了提升分類的準確度,我們在每個簇中隨機抽取10個實體,與待分類實體計算詞向量相似度,得到的10個相似度距離取平均數(shù)作為該簇與該實體之間的距離。相似度特征的計算方法
詞向量在命名實體識別研究中應用廣泛,但是一般是將詞向量加入特征構建特征模板進行實體識別。本文提出通過詞向量聚類及計算詞向量相似度的方法實現(xiàn)實體分類。
實驗所用語料為1998年1月的人民日報語料,該語料為人工標注語料,人名、地名、機構名的標注非常精細,對于后期判斷實體識別的好壞有很大幫助。郭家清在該數(shù)據(jù)集上實體識別準確率達到了95.4%,召回率達到了90.9%,F(xiàn)1值達到了93.1%??梢姡诟哔|量的語料下,命名實體的識別研究已經(jīng)達到很好的效果。這也確保了下一步對實體進行分類的準確度。本文隨機抽取4/5語料作為訓練語料,1/5作為測試語料。訓練語料約15 590個句子,測試語料約3908個句子。
我們共采取了3部分實驗進行命名實體識別及分類:第一部分實驗及目的是對特征進行選擇,構建特征模板,識別出人名、地名、機構名;第二部分實驗及目的是對訓練集中的實體詞向量進行聚類,選取合適的質心并將命名實體集劃分為若干小類;第三部分實驗及目的是將識別出的實體與已劃分的簇進行相似度計算,將目標實體放入到對應的簇中。
本文將采用準確率(P),召回率(R)和F1這3個指標來評價實驗結果
特征的選擇需要考慮實驗語料的領域特點進行判斷。由于語料中人名的特征已標注在詞性中,且識別率很高,本實驗中達到了99%,故本次實驗只針對地名、機構名實體選取5個特征構建特征模板。
選取特征時,比如“研討會”在“中國傳統(tǒng)醫(yī)藥學術研討會”中是實體中心詞,但是在“參加今天研討會的有……”中就不是中心詞。為了避免產生數(shù)據(jù)稀疏問題。我們通過設定閾值,滿足條件的詞添加標記作為特征。不同閾值下得到的中心詞個數(shù)見表1。
表1 不同閾值對應的中心詞個數(shù)
經(jīng)統(tǒng)計,選取中心詞特征閾值取0時做標記詞數(shù)為23 665個。閾值取0.3時,該特征標記下的詞數(shù)為10 290個。標記數(shù)目下降一半,有效地避免了數(shù)據(jù)稀疏問題。
針對一些復雜的機構名,如地名開頭的機構名,首先讀取訓練集中已標注實體,若實體的第一個詞詞性標記為ns(原始語料已標注),則把該實體的最后一個詞添加至限定詞詞典。其次,遍歷測試集中的詞語,找到詞性標注為ns的詞,向后取四位詞語,期間的每一位詞與限定詞詞典進行匹配。若匹配成功,則添加復雜機構名的邊界限定特征。
通過不同限定條件獲得特征后,選取不同特征構建特征模板進行實驗對比,構造組合特征進行對比實驗。組合特征模板見表2。
表2 組合特征模板
狹義上,命名實體分為人名、地名、組織名。隨著自然語言處理任務的廣泛應用,人們對于這些實體名詞有了更細致的劃分需求。本文制定了一個命名實體分類體系,將命名實體3大類細分至8小類,見表3。
表3 實體分類
詞語的詞向量能夠表達語義關系,語義上相近的詞可以通過詞向量聚類的方法匯成一類。實驗訓練集共包含重復地名、機構名實體約24 220個,本文選用網(wǎng)上開源的已訓練好的詞向量詞典,將訓練語料中已標注實體和詞典進行最大逆向匹配,匹配后構建實體詞向量詞典進行詞向量聚類。聚類方法采用K-means聚類算法。
(1)隨機選取質心,將實體聚類成20類,實驗結果見表4。通過實驗,隨機選取質心進行聚類的效果具有一定的局限性。一是聚類的類別是隨機的,無法根據(jù)需求進行聚類。二是一些實體區(qū)分難度較大,實驗中第2、3、9類實體,這些實體的語義關系相對復雜,聚類效果不佳。針對以上問題,本文提出根據(jù)目標需求人為設定質心以提高分類效果。選取作為質心的20個實體詞見表5。
(2)人工選取質心,將實體聚類成20類,見表6。實驗表明,①人為設定質心,能夠將實體聚類成目標需要的類別。②該組實驗下第1、12類聚類效果較差,對照上組
表4 隨機質心聚類結果
表5 作為質心的實體詞
實驗識別不完善的實體數(shù)大幅下降,由2683個降至1031個。所以通過人為設置質心,實體聚類的效果有較大提升。
表6 人工選取質心聚類結果
如前文所示,識別出地名、機構名后,本文將地名、機構名分成中國地名、外國地名、學校研究機構等6類。首先采用最大逆向匹配算法匹配詞向量詞典構建待分類詞向量詞典。然后在聚類的20個類中隨機抽取10個詞的詞向量和待分類詞進行相似度計算進行實體分類。
為了驗證該方法的有效性,進行了對照實驗。首先構建特征模板,然后利用條件隨機場模型直接將實體進行分類。由于條件隨機場模型需要標注出實體類別作為模型中的目標函數(shù),而這一部分又需要人工標注,所費人力物力巨大,所以取訓練集中1300個句子,測試集中1100個句子,進行精細標注。特征選取本文的5個特征,利用訓練集構建模型,用測試集進行測試。實驗結果見表7、表8。
由實驗可知,直接構建特征模板,用條件隨機場進行實體識別的效果不好。分析原因,一是因為統(tǒng)計模型是根97.7%,機構名的F1值由86.6%提升到了92.8%。這也為下一步實體的分類奠定了基礎。
表7 條件隨機場模型分類結果
表8 詞向量聚類下實體分類結果
據(jù)條件概率進行判斷;對照實驗中訓練語料的規(guī)模會影響判別效率,訓練集為1300句時,命名實體識別的準確率要高于訓練集為500句。但是在當今時代下,文本量呈指數(shù)級增長,對全部語料進行人工標注耗時費力。二是特征的選??;根據(jù)分類的實體類別確定特征固然是好,但是如果取不同的實體類別就要構造新的特征,而這個特征還不一定對識別率有正面的影響,同樣也是費時費力。相比而言,本文提出的先進行基于統(tǒng)計特征的實體識別,再進行詞向量的聚類,比較詞向量相似度進行分類的方法,只需要在測試集上進行人工標注,也無需更改特征,減少了訓練語料人工標注的工作量,在識別率上也取得了很好的效果。
該語料下人名實體的識別率較高,在人名的分類上;本文將人名實體分成漢族常用人名及其它人名;漢族人名和其它人名相比,其特點一是字符數(shù)相對較短,最長不過4位。二是漢族人名的第一個字符為百家姓,可以構建姓氏表對其進行識別。
分類步驟:
(1)提取出識別的人名字符串,依據(jù)字符串長度進行判別;限定字符串長度≥4的為其它人名,<4的進行下一步判斷;
(2)搜集常用姓氏構造百家姓詞典,將字符串長度<4人名的首字符與詞典進行判別,匹配到則把該字符串放入漢族人名列表。
(3)對于復姓,取字符串長度≥4的人名與復姓姓氏匹配,匹配到則把該字符串放入漢族人名列表。人名分類流程如圖2所示。
圖2 人名分類流程
如表9所示,組合特征模板下地名、機構名的征時,機構名的識別率有了顯著的提高,這主要是該特征下確定地名開頭的復合機構名的邊界,提高了機構名的識別率;而在添加右邊界詞Right_Boundary及中心詞CORE特征后,地名實體的識別率有所提高。通過對不同特征組合下的對比實驗,比較命名實體的識別率,實驗表明:地名的F1由95.5%提升到了97.7%,機構名的F1值由86.6%提升到了92.8%。這也為下一步實體的分類奠定了基礎。
表9 不同特征模板下地名、機構名識別的效果/%
人名分類結果見表10,人名分類效果達存在一部分外國人名,首字符是中文姓氏開頭,如:“喬丹”,“韋德”等會誤識別成漢族人名。對于一些簡稱或者是作家的筆名,如:“老王”,“冰心”,“老舍”等會誤識別成其它人名。能否從音節(jié),字符常用搭配等方面進行研究也是下一步的研究重點。
表10 人名、地名、機構名分類結果
分類結果見表10。根據(jù)實驗結果,地名、機構名分成6類,每一類的F1值都達到了78%以上。與訓練語料為1300句的對照實驗結果相比,每一類的識別率都有所提高??梢?,訓練語料規(guī)模的擴大會加強實體聚類時簇的效果,提升實體分類的準確性。識別效果較差的“學校、研究機構”類別、“企、事業(yè)單位”類別及“文娛活動”類別在該方法下識別效果增長明顯,主要是因為詞向量聚類是按照語義相關性進行聚類,受語料規(guī)模的影響較小。且每次根據(jù)需要選取不同的實體進行分類,只需要修改質心即可,不用修改特征進行大量的語料標注及實驗。
針對命名實體分類問題,本文提出的先選取特征構建特征模板識別出命名實體,再利用詞向量聚類及計算詞向量相似度對實體進行分類的方法能夠對實體分類產生較好效果。其優(yōu)點在于: ①該方法分類的準確率相對于直接利用CRF模型進行分類要高,并且省去大規(guī)模語料標注的工作,只需對測試預料進行標注。②可根據(jù)文本的類型及需要對細分類別實體進行任意組合,如地名可分為中外地名,亦可分為景點、高山、湖泊等。在未來的研究中,還將針對以下幾點進行改進:首先本文的詞向量詞典具有一些局限性,對于新的領域,如醫(yī)療、農業(yè)、交通等領域聚類效果會下降。這需要我們擴展詞向量詞典覆蓋范圍。其次下一步可以與深度學習方法相結合,采用主動學習,遷移學習等方法進一步減少人工標注語料的工作量。