禤鎮(zhèn)宇,蔣盛益,2,張禮明,包 睿
(1. 廣東外語(yǔ)外貿(mào)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣東 廣州 510006;2. 廣東省網(wǎng)絡(luò)空間內(nèi)容安全工程技術(shù)研究中心,廣東 廣州 510006)
命名實(shí)體(Named Entity)[1]指的是文本中具有命名性指稱的詞,人名作為命名實(shí)體之一,其內(nèi)部組成更復(fù)雜、識(shí)別難度較大。當(dāng)前人名實(shí)體研究正從傳統(tǒng)媒體轉(zhuǎn)移到社交媒體當(dāng)中,如微博、Facebook等。作為社交信息之一,影評(píng)的句法往往不規(guī)則甚至不完整,而其中的人名組成也更為多元。例如,在影評(píng)中,“劉德華”“周星馳”等往往會(huì)被帶主觀情感的稱謂所替代,如“華仔”“星爺”。這些稱謂同樣在“具有命名性指稱的實(shí)體”的范疇當(dāng)中,卻常被忽略不計(jì)。此外,由于電影選角和題材上的差異,新電影中普遍存在人名新詞,或稱未登錄詞。關(guān)于這些問(wèn)題,目前學(xué)術(shù)界仍未取得較大的突破。與此同時(shí),對(duì)于影評(píng)的人名抽取技術(shù)日益受到工業(yè)界的關(guān)注,從影評(píng)中抽取相關(guān)的主創(chuàng)人物,如導(dǎo)演、演員、角色、編劇等,能為明星營(yíng)銷、主創(chuàng)票房貢獻(xiàn)價(jià)值分析、情感傾向分析[2]等情報(bào)技術(shù)提供支持。
傳統(tǒng)的中文人名識(shí)別方法多是基于規(guī)則和概率計(jì)算的。李中國(guó)等[3]提出了基于邊界模板和局部統(tǒng)計(jì)的識(shí)別方法。首先從標(biāo)注語(yǔ)料中提取邊界模板以定界候選人名詞匯,接著利用局部統(tǒng)計(jì)量和相關(guān)修正規(guī)則對(duì)候選人名進(jìn)行修正。倪吉等[4]通過(guò)抽取外部人名語(yǔ)料中的用字特征和邊界特征,以計(jì)算人名內(nèi)聚度、人名區(qū)分度和邊界模板可信度的綜合概率。而當(dāng)下主流的方法多是基于機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,該類方法對(duì)標(biāo)注語(yǔ)料進(jìn)行學(xué)習(xí),并以序列標(biāo)注的形式實(shí)現(xiàn)人名識(shí)別。如最大熵模型、隱馬爾可夫模型、條件隨機(jī)場(chǎng)模型等。機(jī)器學(xué)習(xí)方法的好處在于能夠?qū)W習(xí)特征間的關(guān)聯(lián)性和重要性。曹波等[5]以詞作為標(biāo)注對(duì)象,先進(jìn)行最大概率分詞,然后利用人名角色表和詞性表,將句中詞分為人名內(nèi)部組成、上下文、無(wú)關(guān)詞等,以此構(gòu)造特征模板,最后利用最大熵模型進(jìn)行訓(xùn)練和預(yù)測(cè)。該方法在1998年1月~5月的人民日?qǐng)?bào)語(yǔ)料中取得了89.43%的識(shí)別精度和94.26%的召回率。張素香等[6]以原子特征、全局變量特征、復(fù)合特征等構(gòu)造特征模板,并利用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)人名抽取。該方法將準(zhǔn)確率提升至95%。上述方法均以詞作為訓(xùn)練和標(biāo)注的基本單位。然而目前大多數(shù)分詞工具僅針對(duì)相對(duì)規(guī)則的人名實(shí)體,難以對(duì)影評(píng)中的人名稱謂和人名未登錄詞進(jìn)行有效的切分。另一方面,基于字符的方法在基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)模型中存在一定的缺陷,語(yǔ)言學(xué)界一般認(rèn)為詞是語(yǔ)義的最小單位,而字符往往缺乏充足的語(yǔ)義信息。近年來(lái)深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域取得豐碩成果,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法[7-9]逐漸涌現(xiàn),如長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)。LSTM具有遠(yuǎn)距離記憶功能,能夠處理標(biāo)注時(shí)的長(zhǎng)距離依賴問(wèn)題。LSTM的這一特性在一定程度上克服了字符級(jí)特征的不足。Dong et al.[10]首次將字符級(jí)的Bi-LSTM-CRF模型應(yīng)用到中文命名實(shí)體識(shí)別任務(wù)中,并提出利用漢字部首作為字符的特征表示之一,然而影評(píng)中的譯名和特殊稱謂所包含的漢字并沒(méi)有明顯固定的部首,該方法并不適用于人名識(shí)別。
綜合上述提到的問(wèn)題,本文提出一種基于深度學(xué)習(xí)的影評(píng)人名識(shí)別方法。該方法將預(yù)訓(xùn)練的字向量(Character Embedding)和傳統(tǒng)方法中常用的人工特征(邊界特征和用字特征)整合為統(tǒng)一的字符級(jí)(Character-Level)特征;采用Bi-LSTM-CRF模型[11]進(jìn)行字符序列標(biāo)注,從而實(shí)現(xiàn)人名識(shí)別。
圖1為所提出模型的整體架構(gòu),該模型通過(guò)構(gòu)建字向量表、邊界向量表和用字向量表為字符提供特征支撐。模型首先提取字符對(duì)應(yīng)的三類特征,三類首尾特征拼接后作為Bi-LSTM層的輸入,經(jīng)過(guò)Bi-LSTM提取隱藏層特征h1,h2,…h(huán)n;并以此作為CRF層的輸入,CRF對(duì)上下文標(biāo)注以進(jìn)一步約束后,輸出序列標(biāo)注結(jié)果y1,y2,…yn。
圖1 多特征Bi-LSTM-CRF模型框架
模型采用的特征包括字向量、邊界特征和用字特征。這些特征均為字符級(jí)的,下面詳細(xì)描述三類特征的構(gòu)造和向量化。
(1) 字嵌入
字嵌入也稱字向量,是對(duì)文本集合中各字符的分布式表示,字向量能夠表示字符的句法和語(yǔ)義信息。字向量的概念源于詞向量,其實(shí)質(zhì)就是把語(yǔ)料中的每一個(gè)詞映射至同一向量空間中,從而將兩個(gè)詞的語(yǔ)義距離轉(zhuǎn)換為向量空間中的物理距離。當(dāng)前對(duì)詞嵌入的研究較廣泛[12-14]。其中較為著名的屬M(fèi)ikolov et al[15]提出的Word2Vec和Jeffrey et al.提出的GloVe[16]。
Skip-gram是Word2Vec中的模型,其實(shí)質(zhì)是一個(gè)三層的神經(jīng)網(wǎng)絡(luò),它基于當(dāng)前詞來(lái)預(yù)測(cè)一定窗口內(nèi)的上下文,模型訓(xùn)練目標(biāo)是獲取最大概率產(chǎn)生當(dāng)前序列觀測(cè)數(shù)據(jù)的隱藏層參數(shù)。而GloVe是一種更新的基于共現(xiàn)矩陣(co-occurrence matrix)的詞向量模型。GloVe通過(guò)矩陣分解的方法,不僅考慮到Word2Vec窗口的上下文信息,也考慮到全局信息,因此GloVe能更全面地表達(dá)詞或字符的語(yǔ)義。利用GloVe對(duì)大規(guī)模影評(píng)數(shù)據(jù)進(jìn)行字向量訓(xùn)練,使得人名之間可以進(jìn)行相似性的度量,其意義在于與已有人名相似的未登錄詞更容易被識(shí)別,從而提高人名識(shí)別的召回率。
GloVe首先通過(guò)滑動(dòng)窗口構(gòu)建詞與詞間的共現(xiàn)矩陣。定義Xi,j,表示詞j和詞i共同出現(xiàn)在窗口內(nèi)的次數(shù)。定義Xi=∑kXi,k,表示在詞i窗口內(nèi)出現(xiàn)的總詞數(shù),k為窗口內(nèi)的詞。定義Pi,k=Xi,k/Xi,表示詞k出現(xiàn)在詞i窗口內(nèi)的概率。定義ratioi,j,k=Pi,k/Pj,k,ratioi,j,k的值揭示了詞i、j、k之間的相關(guān)性。
考慮到部分詞共現(xiàn)屬于噪聲,不利于模型學(xué)習(xí)參數(shù)。在構(gòu)造損失函數(shù)時(shí),引入賦權(quán)函數(shù)f(Xi,j),完整的損失函數(shù)如式(1)所示。
(1)
(2)
通常,設(shè)a=0.75,xmax=100。
(2) 邊界特征
中文人名一般具有邊界模糊的問(wèn)題。所謂邊界是指與人名相鄰接的詞或字。傳統(tǒng)方法[3]一般通過(guò)構(gòu)建邊界模板以定界候選人名。但在采用序列標(biāo)注模型時(shí),一般難以確定一個(gè)人名的長(zhǎng)度。本文以已標(biāo)人名作為種子詞,在未標(biāo)注語(yǔ)料中進(jìn)行上下邊界字符的提取。表1列舉了人名上下邊界中的高頻字符。
表1 上下邊界字符頻數(shù)
統(tǒng)計(jì)發(fā)現(xiàn),上邊界共有2 601種不同字符,前15種字符占了總頻率的26.2%,下邊界則有2 633種不同字符,前15種字符占了總頻率的22.1%。其中,“帥”、“愛(ài)”、“@”、“#”、“演”、“太”、“很”等高頻邊界表明影評(píng)的強(qiáng)領(lǐng)域性。而人名邊界的集中分布情況也說(shuō)明邊界信息具有一定的人名區(qū)分能力??紤]到高頻字符中存在常見(jiàn)的停用詞,如表1中的“和”、“的”等,本文采用以可信度作為邊界特征的衡量標(biāo)準(zhǔn),可信度定義見(jiàn)式(3):
(3)
式(3)中,ci表示訓(xùn)練語(yǔ)料中的第i個(gè)字符,fci表示字符ci作為上文(下文)邊界的頻率。wci表示ci在未標(biāo)注語(yǔ)料中的頻數(shù)。為了將特征融入神經(jīng)網(wǎng)絡(luò)模型,對(duì)可信度C進(jìn)行標(biāo)準(zhǔn)化和離散化處理,以獲取可信層級(jí)R,通過(guò)為各層級(jí)賦予唯一向量進(jìn)行表示,以輸至神經(jīng)網(wǎng)絡(luò)模型,可信層級(jí)R定義如式(4)所示。
(4)
式(4)中,round函數(shù)為四舍五入計(jì)算,k為切割值,控制離散化后的特征數(shù)。離散化后的邊界特征可參照字向量的形式映射至向量空間當(dāng)中,作為神經(jīng)網(wǎng)絡(luò)的輸入。
(3) 用字特征
在中文人名識(shí)別中,用字特征一般以布爾值或可信度進(jìn)行衡量[5]。本文在此基礎(chǔ)上進(jìn)行了改良。本文將用字特征分為7類,包括姓用字、單名字、雙名首字、雙名尾字、譯名首字、譯名中字、譯名尾字等。這7類用字不僅對(duì)中文人名和國(guó)外譯名的識(shí)別有幫助,大多數(shù)人名稱謂也存在這7類用字,例如“華仔”和“吳先生”。其中“華”是雙名尾字或者單名尾字,“吳”則是姓用字。在衡量特征值時(shí),對(duì)大規(guī)模的中文人名和國(guó)外人名語(yǔ)料進(jìn)行字符頻數(shù)統(tǒng)計(jì)。與邊界特征一樣,離散化后隨機(jī)映射至向量空間中,并作為神經(jīng)網(wǎng)絡(luò)的輸入。用字特征的計(jì)算和離散化過(guò)程見(jiàn)式(5):
(5)
其中c為字符,v為字符c對(duì)應(yīng)特征值,fc為c的字符頻率,fmax為頻率最大值,fmin為頻率最少值,k為切割值,控制離散化后的特征數(shù)量。
LSTM網(wǎng)絡(luò)以上一時(shí)刻的隱藏層輸出向量和當(dāng)前字符向量作為當(dāng)前標(biāo)注的衡量信息,計(jì)算上一時(shí)刻的標(biāo)注對(duì)當(dāng)前標(biāo)注的影響。LSTM中的輸入門、忘記門和輸出門能夠有效控制網(wǎng)絡(luò)中的信息傳遞和保存。LSTM具體工作流程如式(6)~式(10)所示。
Bi-LSTM-CRF在Bi-LSTM的基礎(chǔ)上擴(kuò)充了CRF層,其結(jié)構(gòu)如圖2。CRF[17]模型在序列標(biāo)注任務(wù)中的優(yōu)越性能已被多次驗(yàn)證。在Bi-LSTM-CRF模型中,CRF的主要作用是進(jìn)一步增強(qiáng)前后標(biāo)注的約束,避免不合法的標(biāo)注情況出現(xiàn),如標(biāo)簽“B-nr”后面接標(biāo)簽“E-nr”的情況。對(duì)于Bi-LSTM的輸出序列h=(h1,h2,…,hn),通過(guò)概率模型CRF獲得候選標(biāo)簽序列y={y1,y2,…,yn},CRF原理如式(11)所示。
圖2 Bi-LSTM-CRF
(11)
(12)
最大似然估計(jì)的目標(biāo)是調(diào)整相關(guān)參數(shù)W和b,使得L(W,b)最大化。在使用CRF進(jìn)行標(biāo)注時(shí),選取概率最大的候選標(biāo)注序列作為最終標(biāo)注結(jié)果。
訓(xùn)練時(shí)采用Adam[18]作為優(yōu)化器,學(xué)習(xí)速率為0.001;dropout[19]為0.3;預(yù)訓(xùn)練的字嵌入設(shè)為200維,上下邊界特征和各類用字特征均設(shè)為32維。每一層LSTM網(wǎng)絡(luò)設(shè)256個(gè)神經(jīng)元。模型訓(xùn)練時(shí),若連續(xù)迭代5次后,驗(yàn)證集對(duì)應(yīng)的損失值均未下降,則訓(xùn)練完成。
影評(píng)數(shù)據(jù)獲取自微博電影[注]http: //movie.weibo.com。共獲取1 224部電影,總計(jì)600多萬(wàn)評(píng)論。接著對(duì)80部電影(除動(dòng)畫(huà))進(jìn)行了標(biāo)注,最終獲得有效評(píng)論2 247條。標(biāo)注時(shí),將影評(píng)中的人名實(shí)體分為中文人名、國(guó)外譯名和人名稱謂。表2列出了人名實(shí)體的定義。外部人名語(yǔ)料獲取自網(wǎng)絡(luò)語(yǔ)料,共獲取中文人名120萬(wàn)和國(guó)外譯名48萬(wàn)。
表2 影評(píng)中的人名定義
為驗(yàn)證本文方法,設(shè)置兩組數(shù)據(jù)集: 數(shù)據(jù)集A,忽略影評(píng)所屬電影,將已標(biāo)評(píng)論集進(jìn)行隨機(jī)的切分;數(shù)據(jù)集B,從80部電影中隨機(jī)抽取65部作為封閉集,15部作為開(kāi)放集,以模擬在已有電影的情況下對(duì)新電影評(píng)論進(jìn)行人名識(shí)別。表3給出兩組數(shù)據(jù)集中各類人名的情況。兩組數(shù)據(jù)中各類人名占比基本一致,主要差異在于未登錄詞的數(shù)量。未登錄詞指開(kāi)放集中存在而封閉集和外部人名語(yǔ)料中均不存在的人名實(shí)體。數(shù)據(jù)集B中的人名未登錄詞約占總數(shù)的31%,遠(yuǎn)高于數(shù)據(jù)集A的14%。
表3 數(shù)據(jù)集的人名分布情況
實(shí)驗(yàn)結(jié)果采用識(shí)別準(zhǔn)確率(P)、召回率(R)和二者的調(diào)和平均F1值(F)作為評(píng)判指標(biāo)。P指正確識(shí)別的人名占總計(jì)識(shí)別的人名的百分比,R指正確識(shí)別的人名占測(cè)試集中所有人名的百分比,F(xiàn)是P和R的調(diào)和平均值,綜合考量模型的性能。
首先以Bi-LSTM-CRF為基礎(chǔ)分別對(duì)字嵌入(E)、邊界特征(B)、用字特征(U)等特征進(jìn)行測(cè)試,測(cè)試在數(shù)據(jù)集A中進(jìn)行。實(shí)驗(yàn)基線為基于字符的Bi-LSTM-CRF模型,模型隨機(jī)生成向量作為字符特征。字嵌入的測(cè)試對(duì)比了skip-gram以及GloVe;邊界特征和用字特征的測(cè)試則分別設(shè)置不同的k值,以對(duì)比特征帶來(lái)的增益。實(shí)驗(yàn)結(jié)果(表4)表明,相較于skip-gram,GloVe的字嵌入表示效果更優(yōu),而在邊界特征和用字特征方面,當(dāng)kB=2和kU=5時(shí),特征對(duì)模型帶來(lái)的增益達(dá)到最高。當(dāng)k值繼續(xù)增大時(shí),特征泛化能力減弱,F(xiàn)1值逐漸下降。當(dāng)組合各特征(EBU)時(shí),模型的綜合F1值達(dá)到89.8%,高于所有單特征模型。后續(xù)實(shí)驗(yàn)均在特征參數(shù)最優(yōu)的情況下進(jìn)行。
表4 各特征對(duì)識(shí)別效果的影響(%)
本文進(jìn)一步對(duì)比了CRF、CRRM[20]、Bi-GRU-CRF、Bi-LSTM-CRF、Bi-GRU-CRF(EBU)、Bi-LSTM-CRF(EBU)在數(shù)據(jù)集A、B上的表現(xiàn)(表5)。CRRM在傳統(tǒng)模型CRF的基礎(chǔ)上加入了可信度衡量和規(guī)則的方法。GRU[21]也是RNN中的一種主流結(jié)構(gòu),相比LSTM,其結(jié)構(gòu)更簡(jiǎn)單、參數(shù)更少。GRU只有兩個(gè)門,分別為更新門(update gate)和重置門(reset gate)。該門結(jié)構(gòu)能起到信息保存的作用,使得依賴信息不會(huì)由于長(zhǎng)距離的傳播而完全丟失。實(shí)驗(yàn)結(jié)果顯示,Bi-LSTM-CRF(EBU)在綜合指標(biāo)上表現(xiàn)最佳,在數(shù)據(jù)集A和B上的F1值分別為89.8%和81.9%,遠(yuǎn)高于傳統(tǒng)方法CRF和CRRM,神經(jīng)網(wǎng)絡(luò)模型對(duì)比方面,在一般情況下(數(shù)據(jù)集A)Bi-LSTM-CRF(EBU)的F1值與Bi-GRU-CRF(EBU)相當(dāng),僅高出0.3%。而在面對(duì)未登錄詞更多的情況(數(shù)據(jù)集B)表現(xiàn)更佳,比Bi-GRU-CRF(EBU)高出0.8%。
為了進(jìn)一步驗(yàn)證并對(duì)比字嵌入、用字特征、邊界特征在未登詞識(shí)別時(shí)的增益,本文對(duì)數(shù)據(jù)集B進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明(表6),字嵌入和邊界特征雖然對(duì)模型的準(zhǔn)確率提升不大,但能夠使模型識(shí)別更多的未登錄詞,召回率分別提高了7.4%、2.7%。相較于二者,用字特征為模型帶來(lái)了更大的增益,召回率提升高達(dá)16.8%,可見(jiàn)通過(guò)外部語(yǔ)料提取相關(guān)用字知識(shí)能夠有效提升模型的人名新詞識(shí)別能力。
表5 各模型的識(shí)別效果
表6 各特征對(duì)人名未登錄詞識(shí)別的增益
續(xù)表
我們抽取部分識(shí)別結(jié)果來(lái)對(duì)比本文模型和CRF在某些人名稱謂上的識(shí)別差異(表7)。多特征Bi-LSTM-CRF能完整識(shí)別出“我林哥哥”,而CRF僅識(shí)別出“我林哥”;可見(jiàn)本文模型能夠較好地克服稱謂中的邊界模糊問(wèn)題。此外,本文模型還從語(yǔ)料中學(xué)習(xí)到“吳寶”、“興寶”這類以“寶”為結(jié)尾的稱謂模式,可見(jiàn)模型能較好的適應(yīng)人名稱謂的組成多元性。
表7 CRF和本文模型所識(shí)別出的人名稱謂
近年來(lái),隨著電影行業(yè)的蓬勃發(fā)展,相關(guān)的信息抽取和分析技術(shù)日益受到行業(yè)內(nèi)的重視,其中對(duì)電影主創(chuàng)人物的分析尤為重要。如何從影評(píng)中自動(dòng)抽取主創(chuàng)人名成為重要的基礎(chǔ)工作。本文提出一種基于多特征Bi-LSTM-CRF的影評(píng)人名識(shí)別方法。該方法通過(guò)利用外部人名語(yǔ)料和未標(biāo)注影評(píng)提取字符級(jí)的特征;并采用Bi-LSTM-CRF模型進(jìn)行人名字符序列標(biāo)注。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效識(shí)別影評(píng)中的復(fù)雜稱謂和人名未登記詞,從而有效地抽取影評(píng)中的人名實(shí)體。對(duì)于未來(lái)的研究,本文認(rèn)為如何將先驗(yàn)知識(shí)和深度學(xué)習(xí)模型進(jìn)行有效結(jié)合,是一個(gè)務(wù)實(shí)而具有意義的研究方向。因此,我們希望能在未來(lái)提出一個(gè)具有普適性的先驗(yàn)知識(shí)整合框架,以提高現(xiàn)有深度學(xué)習(xí)模型在各類非規(guī)范文本中的命名實(shí)體識(shí)別能力。