方 紅,蘇 銘,馮一鉑,張 瀾
1.上海第二工業(yè)大學(xué) 文理學(xué)部,上海201209
2.上海第二工業(yè)大學(xué) 工學(xué)部,上海201209
3.喀什大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,新疆 喀什844000
命名實(shí)體識(shí)別對(duì)下游的信息提取、問答系統(tǒng)、機(jī)器翻譯等應(yīng)用領(lǐng)域起著非常重要的作用,是自然語言處理技術(shù)落實(shí)到工業(yè)生產(chǎn)實(shí)踐中的基礎(chǔ)環(huán)節(jié);中文命名實(shí)體識(shí)別相較于英文來說,其詞的劃分較為困難,因此如何去豐富地表示字符信息成為近些年來研究的重點(diǎn)。
中文命名實(shí)體識(shí)別最初是基于字符的NER和基于詞的NER,He 等人[1]、Li 等人[2]的研究表明基于字符的NER不能很好地應(yīng)用詞的信息,由于中文單個(gè)字所能表示的信息要比單個(gè)英文單詞欠缺很多,從而無法更好地完成后續(xù)的預(yù)測(cè)標(biāo)注;基于詞的NER 由于無法很好地獲得實(shí)體邊界,因而會(huì)產(chǎn)生很多錯(cuò)誤信息,導(dǎo)致效果比基于字符的更差。后續(xù)大量工作將中文的字符和詞信息結(jié)合起來進(jìn)行序列標(biāo)注,豐富輸入表示層的信息。劉小安等人[3]提出了通過CNN進(jìn)行局部特征提取的CNNBiLSTM-CRF模型,對(duì)詞匯的局部特征提取起到了一定的效果;謝騰等人[4]使用了預(yù)訓(xùn)練模型Bert 來進(jìn)行詞匯表示學(xué)習(xí),提出了Bert-BiLSTM-CRF 模型,提升了上下文語義表示學(xué)習(xí)的效果;以上提出的模型都沒有借助外部詞典信息,因此對(duì)于特殊名詞較多的數(shù)據(jù)集分詞錯(cuò)誤造成的誤差傳遞問題比較嚴(yán)重。后續(xù)Zhang等人[5]提出了一個(gè)將詞的信息融入到這個(gè)詞的開始和結(jié)束字符中的Lattice 模型,很好地增強(qiáng)了詞的嵌入表示效果,但是對(duì)于詞中間的字符卻無法融合詞的信息,會(huì)造成一定的信息缺失。Liu 等人[6]、Zhang 等人[7]提出了使用詞典信息來提升字符向量表示,利用詞典來進(jìn)行匹配,使得能夠很好地確定詞匯邊界信息,降低分詞誤差導(dǎo)致的錯(cuò)誤率,但是對(duì)于一個(gè)詞對(duì)應(yīng)多個(gè)類型的問題無法得到解決。MultiDigraph[8]模型提出了使用多重圖來解決gazetteers的不同類型引起的多種表示信息的問題,使用了融合多個(gè)gazetteers類型信息的方式解決了之前工作中詞匯的多義性問題,對(duì)于中文句子中的歧義性得到了一定的解決,但是僅僅依靠gazetteers獲取的詞的匹配關(guān)系,不能很好地融入不相鄰的詞之間的依賴關(guān)系。比如:“張三在上海人民廣場(chǎng)”,通過gazetters 的信息嵌入可以很好地將“上海”“人民廣場(chǎng)”“上海人”等信息融合進(jìn)來,但是對(duì)于各個(gè)詞之間的依賴關(guān)系沒有提取出來,整個(gè)句子的句法結(jié)構(gòu)也沒有很好融入。這樣會(huì)導(dǎo)致:如果“人民廣場(chǎng)”這個(gè)詞不在詞典中,而“上海人”在詞典中,會(huì)使得整個(gè)句子的詞信息融入錯(cuò)誤,會(huì)降低識(shí)別準(zhǔn)確率。霍振朗[9]提出了基于句法依存樹和圖神經(jīng)網(wǎng)絡(luò)的模型,證實(shí)了融入句法關(guān)系對(duì)序列標(biāo)注具有一定的效果提升。針對(duì)上述問題,提出了通過將句子中詞的依賴關(guān)系即句子的句法依存樹融入到每個(gè)字符信息中的方式來緩解由于gazetteers匹配錯(cuò)誤或缺失而造成的詞匯信息融入錯(cuò)誤問題,給出一種基于gazetteers 和句法依存樹的中文命名實(shí)體識(shí)別方法。該方法首先通過匹配gazetteers詞典信息,找到句子含有的詞,獲取詞的開始與結(jié)束位置信息,形成兩個(gè)結(jié)點(diǎn),再根據(jù)當(dāng)前詞所對(duì)照的詞典屬性將邊賦予詞的類別信息;隨后將所有詞形成的三元組信息拼接成圖結(jié)構(gòu),之后將句子的句法依存結(jié)構(gòu)關(guān)系,即句子中各個(gè)詞為結(jié)點(diǎn),詞與詞之間的句法依賴關(guān)系為邊,構(gòu)成三元組,進(jìn)一步將所有三元組整合為圖結(jié)構(gòu)。將詞信息圖與句法依賴關(guān)系圖進(jìn)行整合,提取其鄰接矩陣信息與字符信息共同輸入到圖神經(jīng)網(wǎng)絡(luò)中進(jìn)行字符表示信息的學(xué)習(xí),從而將gazetteers 信息與句法結(jié)構(gòu)信息融入每個(gè)字符信息中,最終使得形成的詞向量包含了句子的結(jié)構(gòu)和詞邊界信息。最后通過BiLSTM-CRF 模型進(jìn)行序列標(biāo)注,實(shí)現(xiàn)最終的實(shí)體識(shí)別。新的方法使得實(shí)體識(shí)別過程中每個(gè)字符的信息更加豐富,為后續(xù)的序列標(biāo)注提供更好的支撐,減少分詞錯(cuò)誤和句子結(jié)構(gòu)信息造成的誤差傳遞,從而進(jìn)一步提升了實(shí)體識(shí)別的準(zhǔn)確率。通過在Ecommerce、Resume、QI 等數(shù)據(jù)集的驗(yàn)證,新的方法可以使得中文實(shí)體識(shí)別的準(zhǔn)確率得到較大提升。
基于gazetteers和句法依存樹的中文命名實(shí)體識(shí)別模型的總體思路是通過將句子中字符順序結(jié)構(gòu)與句子包含的gazetteers 詞結(jié)構(gòu)組成的主體結(jié)構(gòu)圖、句法結(jié)構(gòu)圖進(jìn)行融合,之后再將融合句法依賴結(jié)構(gòu)的主體結(jié)構(gòu)圖與通過bigram 融合后的詞向量信息一起通過自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)進(jìn)行字符嵌入學(xué)習(xí),最終得到每個(gè)字符的向量表示信息;通過自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)融合后的向量信息再經(jīng)過傳統(tǒng)的BiLSTM-CRF進(jìn)行序列標(biāo)注,最終得到每個(gè)字符的標(biāo)簽信息。模型的框架設(shè)計(jì)如圖1 所示,為表述清楚,框架中以“上海人民廣場(chǎng)”為輸入句子進(jìn)行描述,通過對(duì)gazetteers 進(jìn)行匹配,將“上海人”“上?!薄皬V場(chǎng)”“人民廣場(chǎng)”等匹配到的詞分別與句子的順序結(jié)構(gòu)圖進(jìn)行融合,形成基于gazetteers的多個(gè)圖信息,之后將多個(gè)圖的鄰接矩陣信息和句子本身的詞向量信息通過自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)進(jìn)行表示學(xué)習(xí)。形成最終的表示向量作為后續(xù)序列標(biāo)注模型的輸入。
圖1 模型架構(gòu)Fig.1 Model architecture
通過句子所有字符順序信息、gazetteers 的結(jié)構(gòu)信息、句法依存樹信息來構(gòu)建兩個(gè)圖,分別為主體結(jié)構(gòu)圖、依賴關(guān)系圖,最后將依賴關(guān)系圖信息融合進(jìn)主體結(jié)構(gòu)圖,將融合后的主體結(jié)構(gòu)圖作為后續(xù)模塊的輸入。
1.1.1 主體結(jié)構(gòu)圖
主要將所有字符序列化,形成正向、反向兩個(gè)序列。如:“上海人民廣場(chǎng)”,一共有6 個(gè)字符,表示為c1、c2、c3、c4、c5、c6,兩兩之間通過有向邊進(jìn)行連接,形成如下:
Vc表示輸入句子的每個(gè)字符,E表示由前后字符兩兩相連的邊的組合。
通過匹配gazetteers詞典信息來匹配句子中的詞,并以作為開始結(jié)點(diǎn),依次使用有向邊連接詞的各個(gè)字符,最終以作為結(jié)束結(jié)點(diǎn),gi表示匹配到的gazetteers類型。將所有結(jié)點(diǎn)相連構(gòu)成gazetteers圖,表示為:
其中,表示由開始結(jié)束的各個(gè)gazetteers所包含的字符,E是由各個(gè)字符組成的邊,Lgaz代表一個(gè)gazetteers在不同詞典列表中的類型。
1.1.2 依賴關(guān)系圖
句法依存樹[10]是由依存關(guān)系構(gòu)成的一棵樹,依存關(guān)系是一個(gè)中心詞與其從屬之間的二元非對(duì)稱關(guān)系,其結(jié)構(gòu)是一個(gè)加標(biāo)簽的有向圖,箭頭從head 指向child,以“青島是一個(gè)著名的啤酒品牌”為例,其句法依賴關(guān)系如圖2 所示,從該依賴樹可以看出,每個(gè)Token 只有一個(gè)Head,依存關(guān)系用依存弧表示,方向由從屬詞指向支配詞。每個(gè)依存弧上有個(gè)標(biāo)記,稱為關(guān)系類型,表示該依存對(duì)上的兩個(gè)詞之間存在什么樣的依存關(guān)系[11]。常見的依存關(guān)系有主謂關(guān)系(SBV)、動(dòng)賓關(guān)系(VOB)和狀中關(guān)系(ADV)等。通過句法依存樹可以進(jìn)一步降低中文命名實(shí)體識(shí)別中的歧義性并且可以融入更多的結(jié)構(gòu)關(guān)系。
圖2 句法依存樹結(jié)構(gòu)Fig.2 Syntactic dependency tree structure
這里是通過spacy[11]模型來對(duì)句子的句法結(jié)構(gòu)進(jìn)行提取,最終將切分出來詞的第一個(gè)字符與其有句法關(guān)系的另一個(gè)詞的第一個(gè)字符建立有向邊,其結(jié)構(gòu)如式(3):
其中,Vdt表示句法依存結(jié)構(gòu)中的各個(gè)成分,Edt表示各個(gè)成分直接的依賴關(guān)系構(gòu)成的有向邊的集合。
這里采用自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)來對(duì)圖信息進(jìn)行嵌入表示學(xué)習(xí),圖神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于深度學(xué)習(xí)的各個(gè)領(lǐng)域中,對(duì)于通過圖卷積神經(jīng)網(wǎng)絡(luò)(graph neural network,GCN)來融合句法依賴信息在Cetoli 等人[12]提出的模型中已經(jīng)體現(xiàn)出了很好的作用。后來為了更好地融合長(zhǎng)距離信息,Li 等人[13]提出了門控圖神經(jīng)網(wǎng)絡(luò),通過加入GRU 來進(jìn)一步提升句子整體語境的融合度。在門控圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加自適應(yīng)的門控機(jī)制,形成最終的自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)(adapted gated graph neural network,AGGNN)來進(jìn)行信息融合,它相較于傳統(tǒng)的門控圖神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)在于它可以融合多圖信息,由于每個(gè)詞可能屬于多個(gè)類型,因此一個(gè)詞可能會(huì)形成多張圖,而AGGNN 可以更好地進(jìn)行多重圖的嵌入表示。其具體的結(jié)構(gòu)如下所示,bigram已經(jīng)被Chen等人[14]提出的模型證實(shí)在命名實(shí)體識(shí)別任務(wù)中有較好的效果。初始化的向量信息由gazetteers和由bigram表示的詞嵌入向量融合表示:
將由主圖、gazetteers 圖、句法依賴圖融合后的圖的鄰接矩陣表示為Av,這里的Av是通過權(quán)重比來計(jì)算的最終矩陣,具體實(shí)現(xiàn)如下。
將上下文匹配到的gazetteers 類型進(jìn)行統(tǒng)計(jì),通過sigmoid 函數(shù)計(jì)算貢獻(xiàn)度系數(shù),最終將多個(gè)鄰接矩陣轉(zhuǎn)化成一個(gè)融合多個(gè)gazetteers信息的鄰接矩陣Av。其權(quán)重計(jì)算方式如下所示:
其中,w為權(quán)重系數(shù),n為對(duì)應(yīng)gazetteers類型出現(xiàn)的次數(shù)。
得到鄰接矩陣信息后,通過一個(gè)網(wǎng)絡(luò)層獲取融合圖信息的隱向量信息:
最后輸入到GRU[15]中形成最終的字符表示信息。
BiLSTM-CRF是一個(gè)傳統(tǒng)的序列標(biāo)注預(yù)測(cè)模型,在Lin等人[16]的研究中,可以看出它能起到比較好的效果,因此這里采用這個(gè)基礎(chǔ)模型作為序列標(biāo)注預(yù)測(cè)模型,將通過AGGNN 形成的字符表示信息輸入到BiLSTMCRF中獲取最終的預(yù)測(cè)結(jié)果。
1.3.1 BiLSTM層
BiLSTM 層是由前向LSTM 和后向LSTM 組成,可以更好地用于提取文本中的上下文特征。Marcheggiani等人[17]的工作指出,圖卷積網(wǎng)絡(luò)的主要問題在于難以捕捉長(zhǎng)距離節(jié)點(diǎn)之間的依存關(guān)系,將其與LSTM結(jié)合后可以很好地避免這一問題。因此,將經(jīng)過圖卷積神經(jīng)網(wǎng)絡(luò)后的字符信息加入到BiLSTM 中進(jìn)行編碼。其中,LSTM的主要結(jié)構(gòu)可以表示為:
其中,σ是sigmoid 激活函數(shù),i表示輸入門,f表示遺忘門,o表示輸出門;?是點(diǎn)乘運(yùn)算,w、b代表輸入門、忘記門、輸出門的權(quán)重矩陣和偏置向量。對(duì)于句子(x1,x2,…,xn),共有n個(gè)單詞,每一個(gè)都代表一個(gè)d維的向量,BiLSTM通過計(jì)算每個(gè)詞包含其在句子中左側(cè)上下文信息表示向量htl和其右側(cè)上下文信息的htr,通過將其整合共同表示這個(gè)詞的信息為ht=[htl,htt],這種表示可以有效地包含上下文中單詞的表示,對(duì)于多標(biāo)記應(yīng)用十分有效。
1.3.2 CRF層
命名實(shí)體識(shí)別任務(wù)一般可以被認(rèn)為是序列標(biāo)注的問題,通常BiLSTM 的輸出結(jié)果即可進(jìn)行序列標(biāo)注,通過在最頂層添加一個(gè)softmax 層進(jìn)行判斷,輸出概率最大的標(biāo)簽,即可完成輸入序列的標(biāo)注任務(wù)。但是BiLSTM雖然解決了上下文聯(lián)系的問題,卻缺乏對(duì)輸出標(biāo)簽信息的約束。softmax分類器在序列標(biāo)注任務(wù)中沒有考慮標(biāo)簽與標(biāo)簽間存在的依賴關(guān)系,而條件隨機(jī)場(chǎng)CRF可以使用對(duì)數(shù)線性模型來表示整個(gè)特征序列的聯(lián)合概率,能更好地預(yù)測(cè)序列標(biāo)注中的標(biāo)簽。
假定句子長(zhǎng)度為n,句子序列為X=(x1,x2,…,xn),通過BiLSTM 輸出的分?jǐn)?shù)矩陣為P,P的維度為n×k,其中k表示標(biāo)簽種類的數(shù)目,Pij表示第i個(gè)詞預(yù)測(cè)為第j個(gè)標(biāo)簽的概率,對(duì)于預(yù)測(cè)標(biāo)簽序列Y=(y1,y2,…,yn),預(yù)測(cè)序列最終的總分?jǐn)?shù)為:
其中,T表示標(biāo)簽間的轉(zhuǎn)移分?jǐn)?shù),表示每個(gè)字到對(duì)應(yīng)yi標(biāo)簽的分?jǐn)?shù)。
由于預(yù)測(cè)序列有多種可能性,其中只有一種是最正確的,應(yīng)對(duì)所有可能序列做全局歸一化,產(chǎn)生原始序列到預(yù)測(cè)序列的概率,在所有可能的標(biāo)記序列上的softmax產(chǎn)生序列y的概率:
采用了Ecommerce、Resume、QI 三個(gè)數(shù)據(jù)集來作為模型的實(shí)驗(yàn)數(shù)據(jù)集。Ecommerce是由Ding等人在文獻(xiàn)[8]中提出的一個(gè)電商領(lǐng)域的命名實(shí)體識(shí)別數(shù)據(jù)集,Resume是Zhang 等人[5]最初提出的一個(gè)簡(jiǎn)歷數(shù)據(jù)集,它是一個(gè)公共數(shù)據(jù)集,在多篇文章中已經(jīng)得到了使用與驗(yàn)證。QI是由本文標(biāo)注的商品質(zhì)量檢測(cè)領(lǐng)域的數(shù)據(jù)集,主要分為9個(gè)實(shí)體類型,用來進(jìn)行產(chǎn)品實(shí)體的標(biāo)注,如表1。
表1 語料規(guī)模Table 1 Corpus size 句
對(duì)于使用到的詞典信息通過在搜狗詞庫、百度詞庫中獲取,將其中的詞按照行進(jìn)行分割,最終形成一個(gè)綜合的詞典庫信息,如表2。
表2 詞典信息Table 2 Dictionary information 個(gè)
采用的標(biāo)注格式是BIEO 的標(biāo)注形式,如對(duì)于位置信息,使用“B-LOC”“I-LOC”“E-LOC”“O”。采用的評(píng)價(jià)標(biāo)準(zhǔn)與以往相關(guān)論文所使用的標(biāo)準(zhǔn)一樣,即使用精確率P、召回率R和F1 值來進(jìn)行模型的效果評(píng)估。其中各個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
其中,a表示識(shí)別正確的實(shí)體數(shù),A表示全部實(shí)體的個(gè)數(shù),B表示被識(shí)別出的實(shí)體數(shù)。
這里對(duì)比模型選取BiLSTM(2-gram)、BiLSTM(3-gram)、BiLSTM(4-gram)、Lattice、Multigraph。使用BiLSTM(2-gram)、BiLSTM(3-gram)、BiLSTM(4-gram)主要是為了將所提出模型與依靠N-gram進(jìn)行分詞并與字符進(jìn)行組合的模型進(jìn)行對(duì)比,從而進(jìn)一步體現(xiàn)出在數(shù)據(jù)集不使用gazetteers和句法結(jié)構(gòu)信息時(shí)的效果,Lattice和MultiGraph 模型都是使用了gazetteers 的中文命名實(shí)體識(shí)別模型,前者是基于LSTM 實(shí)現(xiàn)的修改,在LSTM的神經(jīng)元接收字符信息的同時(shí)也會(huì)接收通過詞典匹配的詞信息,后者是基于詞向量表示層的改進(jìn),將詞典信息通過圖神經(jīng)網(wǎng)絡(luò)融合進(jìn)字符表示中,之后再將其輸入到下一層的BiSLTM 中。通過與以上兩種模型的對(duì)比可以體現(xiàn)出新模型的以下兩個(gè)方面的效果:(1)對(duì)比基于LSTM 層融入詞信息模型的效果;(2)對(duì)比基于表示層融入詞信息而沒有使用句法結(jié)構(gòu)信息的效果。通過以上模型對(duì)比,從而更好地體現(xiàn)出所提出模型的效果。
2.4.1 實(shí)驗(yàn)環(huán)境配置
本實(shí)驗(yàn)是基于NCRF++框架[18]搭建,其具體的訓(xùn)練環(huán)境配置如表3所示。
表3 訓(xùn)練環(huán)境配置Table 3 Training environment configuration
2.4.2 實(shí)驗(yàn)參數(shù)配置
在本次實(shí)驗(yàn)過程中,采用sgd來作為模型優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.01,之后按照0.05的衰減率進(jìn)行遞減。LSTM 隱藏層的特征維度設(shè)置為300,訓(xùn)練批次大小為64,在LSTM的輸入和輸出設(shè)置Dropout,值為0.5,GRU的Clip值設(shè)置為5。具體的實(shí)驗(yàn)參數(shù)配置如表4所示。
表4 參數(shù)設(shè)置Table 4 Parameter settings
通過采用文獻(xiàn)[19]中的方法,首先在BiLSTM-CRF僅僅基于字符的基礎(chǔ)上實(shí)驗(yàn),后續(xù)通過添加2-gram、3-gram和4-gram的實(shí)驗(yàn)對(duì)比,結(jié)果如表5所示。
表5 Ecommerce語料、Resume語料和QI語料的實(shí)驗(yàn)對(duì)比結(jié)果Table 5 Experiment comparison results of Ecommerce corpus,Resume corpus and QI corpus %
通過表中數(shù)據(jù)可以看出2-gram 相對(duì)于3-gram、4-gram 有較好的結(jié)果。與模型Lattice 和MultiGraph 對(duì)比本文的模型效果也有所提升。綜上,本文的模型在使用了gazetteers和句法依存樹的關(guān)系后使得模型效果顯著提升。在Ecommerce數(shù)據(jù)集和QI數(shù)據(jù)集上的提升比較明顯,主要是因?yàn)檫@兩個(gè)數(shù)據(jù)集的特殊符號(hào)和品牌名稱特殊字符較多,相對(duì)于Resume 數(shù)據(jù)集有更多的噪音信息,通過融入gazetteers 和句法結(jié)構(gòu)關(guān)系可以緩解詞典匹配錯(cuò)誤信息的傳遞,從而使得各項(xiàng)指標(biāo)都得到了提升。對(duì)于Resume 數(shù)據(jù)集,數(shù)據(jù)格式和文本結(jié)構(gòu)比較單一且文字信息較為工整,提升效果不是很明顯,但是相比于實(shí)驗(yàn)中的其他模型,效果也得到了一定的提升。
為了對(duì)融入句法依賴解析所產(chǎn)生影響做出更加客觀的評(píng)價(jià),將模型設(shè)置為四種情況進(jìn)行消融實(shí)驗(yàn):(1)初始模型(不包含句法依賴結(jié)構(gòu)和詞典信息)BiLSTM+bigram;(2)僅僅包含句法依賴信息,表示為BiLSTM+bigram+DT;(3)僅僅融入gazetteers 信息,表示為BiLSTM+bigram+gaz;(4)既包含gazetteers信息也包含句法依賴結(jié)構(gòu)信息即本文的模型,表示為BiLSTM+bigram+gaz+DT,最終實(shí)驗(yàn)結(jié)果如表6所示。
表6 Ecommerce語料、Resume語料和QI語料消融實(shí)驗(yàn)結(jié)果Table 6 Ablation experiment results of Ecommerce corpus,Resume corpus and QI corpus %
通過實(shí)驗(yàn)結(jié)果數(shù)據(jù)可以看出,在模型去掉gazetteers信息和句法依賴結(jié)構(gòu)關(guān)系時(shí),整體評(píng)測(cè)標(biāo)準(zhǔn)大幅下降,當(dāng)初始模型加入句法依賴信息后,準(zhǔn)確率和F1 值都有一定的提升;僅僅將詞典信息融入進(jìn)去對(duì)于recall 值有很大的提升,準(zhǔn)確率和F1 值提升幅度與僅僅加入句法依賴關(guān)系效果接近。將兩者共同融入后,所有的指標(biāo)都得到了一個(gè)明顯的提升。由此可以看出句法依賴信息有助于提升詞的信息表示,進(jìn)而提升各項(xiàng)評(píng)測(cè)信息的值。
針對(duì)中文命名實(shí)體識(shí)別任務(wù),通過自適應(yīng)圖神經(jīng)網(wǎng)絡(luò)將詞信息、句法依賴信息、句子順序信息融合獲得語境化的詞向量,再結(jié)合傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型BiLSTMCRF,構(gòu)建成新的實(shí)體識(shí)別模型。通過在Ecommerce數(shù)據(jù)集、Resume 數(shù)據(jù)集和自行標(biāo)注的QI 數(shù)據(jù)集分別進(jìn)行評(píng)測(cè),相比于參考的其他模型都獲得了不錯(cuò)的效果。所提出模型的最大優(yōu)勢(shì)在于通過將句法依賴關(guān)系融合進(jìn)詞的信息可以很好地緩解對(duì)于詞典中不存在的詞造成的融合錯(cuò)誤信息的問題,從而使得該模型相比于其他模型識(shí)別效果得到了很好的提升。文中所研究的這個(gè)方法可以應(yīng)用于其他領(lǐng)域?qū)τ谥形拿麑?shí)體識(shí)別模型的詞的消歧工作。