買合木提·買買提,卡哈爾江·阿比的熱西提,艾山·吾買爾,吐爾根·依布拉音,王路路
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2. 新疆多語種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,各類信息巨增,網(wǎng)上每天都有海量信息在生成、存儲和傳播,人類面臨前所未有的信息膨脹。如何從海量信息中快速尋找并抽取所需信息是當(dāng)今信息處理領(lǐng)域面臨的一個重要問題,其中命名實(shí)體識別是信息抽取的重要部分。因?yàn)槊麑?shí)體識別的性能,對句法分析、語義分析、關(guān)系抽取等具有極其重要的影響。
命名實(shí)體(named entity,NE)是文本信息中的基本單位,是文本中的固有名稱、縮寫及其他唯一標(biāo)識,是正確理解文本的基礎(chǔ)[1]。狹義上,可把命名實(shí)體分為人名、 地名、組織名等。廣義上,命名實(shí)體包括時間表達(dá)式、數(shù)值表達(dá)式等,在不同的應(yīng)用領(lǐng)域,還可以根據(jù)具體的需要定義其他類型的命名實(shí)體。例如,在某個具體應(yīng)用中,可能需要把住址、電子信箱、電話號碼、會議名稱等作為命名實(shí)體。
目前命名實(shí)體識別方法分為三種: 基于規(guī)則的方法[2]、基于統(tǒng)計(jì)的方法[3]及基于神經(jīng)網(wǎng)絡(luò)的方法[4]?;谝?guī)則的命名實(shí)體識別的基本思路是人工編寫上下文敏感的產(chǎn)生式,使用普通的NE數(shù)據(jù)庫,將不同的權(quán)值賦給不同的規(guī)則,以便在產(chǎn)生規(guī)則沖突時可以選擇具有最大權(quán)值的規(guī)則?;诮y(tǒng)計(jì)的方法將專名識別看作一般模式識別中分類問題的一個特例,利用字標(biāo)注的方法來進(jìn)行命名實(shí)體識別。其基本步驟包括特征選擇、機(jī)器學(xué)習(xí)、標(biāo)注、后處理。基于深度學(xué)習(xí)的方法通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,需要比較大的數(shù)據(jù)規(guī)模。
目前,維吾爾文命名實(shí)體識別研究處于起步階段,國內(nèi)有關(guān)維吾爾文命名實(shí)體識別主要集中在人名識別[5-8]、時間表達(dá)式識別與抽取[9]、基于規(guī)則的機(jī)構(gòu)名[10]、地名[11]識別方面。未有見到使用統(tǒng)計(jì)的方法研究維吾爾文地名識別有關(guān)的報道。
維吾爾文地名識別具有獨(dú)特的詞法、語言特點(diǎn),所以直接套用英語和漢語的方法并不合適。目前,還沒有公開的維吾爾語地名標(biāo)注語料,因此本文通過人工標(biāo)注建立了1.3余萬句子的維吾爾文地名標(biāo)注語料庫。在深入分析維吾爾文地名語法和語義特征的基礎(chǔ)上,鑒于條件隨機(jī)場在序列標(biāo)注任務(wù)中的優(yōu)異表現(xiàn),首次使用條件隨機(jī)場模型實(shí)現(xiàn)了維吾爾文地名自動識別方法。在特征模板的設(shè)計(jì)上,我們使用詞、音節(jié)、詞性標(biāo)注、分布式向量表示[12]等不同特征,分析了它們對地名識別的影響。實(shí)驗(yàn)結(jié)果表明,我們的方法在測試數(shù)據(jù)上的F值達(dá)到92.03%。
維吾爾文地名像中文、英文地名一樣,具有數(shù)量龐大、音譯地名較多、地名用詞比較自由、地名詞長沒有限制、多詞地名結(jié)尾經(jīng)常有地名特征詞出現(xiàn)、不同詞性的詞(如形容詞、人名、實(shí)物名、方位詞、連詞等)經(jīng)常出現(xiàn)在多詞地名的首詞或中間詞位置等共同特點(diǎn),如表1所示。
表1 維吾爾文地名與其他語言地名的共有特點(diǎn)
除共有特點(diǎn)之外,維吾爾文地名也有以下比較獨(dú)特特點(diǎn),這也是維吾爾文地名識別所面臨的挑戰(zhàn)。
(1) 維吾爾語的黏著性、元音弱化等特性導(dǎo)致數(shù)據(jù)稀疏,地名可以連接名詞格詞綴,維吾爾語名詞格詞綴有24種,這樣一個地名可能會出現(xiàn)24中形態(tài)變化,降低詞匯重復(fù)率,引發(fā)統(tǒng)計(jì)模型中的未登錄詞問題,示例如表2所示。
表2 維吾爾語地名黏著性示例(單詞地名)
續(xù)表
值得注意的是,大多數(shù)情況下,多詞地名的最后一個詞(或特征詞)才會連接附加成分,該地名中的其余詞語一般不會連接附加成分,如表3所示。
表3 維吾爾語地名黏著性示例(多詞地名)
表4 維吾爾語地名元音弱化示例
(2) 由于地名詞長一般沒有嚴(yán)格的限制,單詞地名又可以作為多詞地名的一部分出現(xiàn),多詞地名又可以根據(jù)文本中的上下文描述需要,忽略其中的中間詞或特征詞或者只用特證詞代替整個地名來使用其簡稱,再加上黏著性,使得數(shù)據(jù)更加稀疏,導(dǎo)致識別更加困難,如下例所示。
(3) 新涌現(xiàn)的地名大多數(shù)以音譯為主,相對維吾爾文中的自然地名,這類外來詞地名不受嚴(yán)格的維吾爾語拼寫規(guī)則的限制,部分中間詞和特征詞也有這種情況出現(xiàn),從而會導(dǎo)致以下兩種情況: 一是字母連接不同尋常,音節(jié)特殊;二是經(jīng)常出現(xiàn)拼寫錯誤,示例如表5所示。
表5 維吾爾語外來音譯地名示例
(4) 部分單詞地名具有共同的特征詞綴,示例如表6所示。
表6 維吾爾文共同詞綴地名示例
條件隨機(jī)場模型是在給定輸入節(jié)點(diǎn)條件下計(jì)算輸出節(jié)點(diǎn)的條件概率的無向圖模型,定義W=w1w2…wn為給定的n個輸入節(jié)點(diǎn)的值,比如一個句子。定義O為有限狀態(tài)機(jī)的狀態(tài),O=o1o2…oN為一個長度為N的輸出節(jié)點(diǎn)的值。對于一個帶有參數(shù)Θ=θ1θ2…θk的線性鏈,將給定的序列W得到的狀態(tài)序列的條件概率定義為式(1)、式(2)。
其中,ZW是歸一化參數(shù),它使得給定輸入的所有可能狀態(tài)序列的概率之和為1。fk(On-1,On,W,n)是對于整個觀察序列W,標(biāo)記位于N和N-1之間的特征函數(shù),特征函數(shù)可以是0、1值,也可以是任意實(shí)數(shù)。Θ=θ1θ2…θk是特征函數(shù)對應(yīng)的權(quán)重。對于W來說,目標(biāo)是搜索概率最大的O*=argmaxP(W|O)。
在自然語言處理過程(NLP)中,首先需要考慮的問題是如何對自然語言進(jìn)行建模,使得計(jì)算機(jī)可以處理自然語言。目前常用的表示方法主要有兩種: “one-hot”表示和分布式向量表示(word embedding)。分布式向量表示是Mikolov在2013年提出的[12]。
目前Word2vec已經(jīng)在眾多NLP領(lǐng)域得到應(yīng)用,如詞性標(biāo)注[13]、命名實(shí)體識別[14]、聚類和情感分析[15]等。Word2vec內(nèi)置兩種訓(xùn)練模型,CBOW模型和Skip-gram模型。CBOW 模型是根據(jù)輸入當(dāng)前詞的上下文來預(yù)測當(dāng)前詞,如圖1所示。Skip-gram 模型是根據(jù)輸入的當(dāng)前詞去預(yù)測當(dāng)前詞的上下文,如圖2所示。
圖 1 CBOW 模型結(jié)構(gòu)
圖 2 Skip-gram 模型結(jié)構(gòu)
CRFs模型的性能取決于特征,因此我們根據(jù)命名實(shí)體識別領(lǐng)域常用特征,增加了Word Embedding特征,我們以容易獲得為主要特征選擇原則,所選擇的特征如下。
(1)單詞特征(Fw) 即tokens特征,我們分別選擇當(dāng)前token及其前后的一個token(Fw1),兩個token(Fw2)和三個token(Fw3)來分析tokens的不同窗口大小對地名識別的影響,并確認(rèn)了最佳窗口大小為5(Fw2)。
(2)音節(jié)特征(Fs) 從第一節(jié)中描述的維吾爾語地名特點(diǎn)可知,大多數(shù)地名詞語的最后一個或兩個音節(jié)對識別該地名的影響比較大,因此我們從單詞后綴部分摘取一個或兩個音節(jié)作為特征。當(dāng)單詞音節(jié)數(shù)小于等于2時,取一個音節(jié);當(dāng)單詞音節(jié)數(shù)大于2時,取兩個音節(jié)。單詞特征確認(rèn)后,我們又分別選擇當(dāng)前token及其前后的一個token的音節(jié)(Fs1),兩個token的音節(jié)(Fs2)和三個token的音節(jié)(Fs3)來分析音節(jié)的不同窗口大小對地名識別的影響,并確認(rèn)了最佳窗口大小為3(Fs1)。
(3)詞性特征(Fp) 單詞特征確認(rèn)后,我們又分別選擇當(dāng)前token及其前后的一個token的詞性(Fp1)、兩個token的詞性(Fp2)和三個token的詞性(Fp3)來分析詞性的不同窗口大小對地名識別的影響,并確認(rèn)了最佳窗口大小為3(Fp1)。
(4)Wordembedding特征(Few) 我們在詞向量特征的選擇上,分別選擇了與當(dāng)前token最相似的一個詞(Few1)、兩個詞(Few2)、三個詞(Few3)、四個詞(Few4)和五個詞(Few5)來進(jìn)行實(shí)驗(yàn)分析。選擇相似詞的時候,分別通過CBOW和Skip-gram獲取的詞加在一起,根據(jù)相似度進(jìn)行排序,然后提取相似度最高的前五個詞。WordEmbedding特征的窗口大小設(shè)置為3,即只考慮當(dāng)前詞的前后詞。
(5)詞典特征(Fdic) 根據(jù)地名特點(diǎn),我們主要建立了三種詞典,分別是常用地名詞典(Floc)、地名特征詞詞典(Ffw)及地名共同詞綴詞典(Fsfx)。
常用地名詞典(Floc) 該詞典收錄了世界各國家及其主要城市名、中國省份及主要城市等,共3 013個。當(dāng)前詞在常用地名詞典內(nèi)則其特征值為D-Loc,否則為D-No。
地名詞綴特征(Fsfx) 從表6可知,維吾爾語有部分地名具有共同詞綴,因此我們收集了經(jīng)常作為地名詞綴的字符序列作為地名詞綴特征表,共29個,其示例見表6。特征生成時,如果當(dāng)前詞詞綴在詞綴特征表里,則對應(yīng)特征值為SFX-Y,否則為SFX-N。
實(shí)驗(yàn)的所有數(shù)據(jù)均使用新疆多語種信息技術(shù)實(shí)驗(yàn)室自然語言處理組維吾爾語自然語言處理工具包(網(wǎng)絡(luò)服務(wù))*http://202.201.255.248:8088/xjuapi/uyghurtext/。進(jìn)行分詞、分音節(jié)、詞性標(biāo)注處理。使用400萬句單語語料進(jìn)行詞向量訓(xùn)練,工具使用Txt2Vec*https://github.com/zhongkaifu/Txt2Vec。,分別基于Skip-gram模型和CBOW模型訓(xùn)練tokens的Embedding。本實(shí)驗(yàn)設(shè)置窗口的大小為5,Embedding的維度為200。
數(shù)據(jù)通過處理之后,每行有12列,包括詞、音節(jié)、詞性標(biāo)注、相似詞、地名詞典特征、地名特征詞詞典特征、地名詞綴特征及地名標(biāo)注符號等。其中地名標(biāo)注符號列的標(biāo)記有三種(使用IOB2[16]標(biāo)記),分別是:O—非地名標(biāo)記,B-Location—地名首詞標(biāo)記,I-Location—地名非首詞標(biāo)記。經(jīng)過這種標(biāo)記標(biāo)注后,一個單獨(dú)的B-Location標(biāo)記表示單詞地名。B-Location+I-Location+ [I-Location]…標(biāo)記表示雙詞或多詞地名。
基于規(guī)則的方法可以有效地彌補(bǔ)機(jī)器學(xué)習(xí)不能表達(dá)語言的確定性的缺點(diǎn),因此為了進(jìn)一步提高識別性能,我們通過分析CRF對真實(shí)語料錯誤識別的示例,歸納出了修正規(guī)則。下面是部分規(guī)則的描述。
規(guī)則3當(dāng)前詞被標(biāo)注為地名,且其前后有“‘”符號,則該詞后面的“‘”符號后的詞識別為一個單詞地名。
由于目前尚沒有公開的地名標(biāo)注數(shù)據(jù),本文手工建立了一個維吾爾文地名標(biāo)注語料庫。我們根據(jù)漢語命名實(shí)體從新疆多語種信息技術(shù)實(shí)驗(yàn)室自然語言處理組漢維新聞對齊語料中隨機(jī)抽取了1.5萬條句子進(jìn)行人工標(biāo)注后,過濾掉其中沒有地名或質(zhì)量不高的句子,挑選了13 385條句子,數(shù)據(jù)集的主要情況如表7所示。
表7 維吾爾地名標(biāo)注語料庫
本文將采用準(zhǔn)確率(P),召回率(R)和F值等三個指標(biāo)來評價實(shí)驗(yàn)的性能,計(jì)算公式如式(3)~(5)所示。
(3)
(4)
(5)
3.2.1 單詞窗口大小對識別性能的影響
首先驗(yàn)證不同單詞窗口大小對測試結(jié)果的影響,選取最優(yōu)的單詞窗口進(jìn)行下一步的實(shí)驗(yàn)。在選取窗口大小時,分別選擇窗口大小為3(Fw1)、5(Fw2)、7(Fw3),進(jìn)行了不同窗口大小實(shí)驗(yàn),結(jié)果如表8所示。可以看到,F(xiàn)值并未隨著窗口大小的增加而呈現(xiàn)上升趨勢,單詞窗口大小為5(Fw2)的時候性能最好,F(xiàn)值為81.86%。除此之外,該實(shí)驗(yàn)又證明,單詞特征對地名識別非常重要,只根據(jù)單詞特征也可以達(dá)到比較高的識別效率。
表8 單詞窗口大小對識別性能的影響
單詞窗口大小確定后(Fw2),我們接著考察特征頻率對識別性能的影響,如表9所示。實(shí)驗(yàn)結(jié)果表明,隨著特征頻率的增加,準(zhǔn)確率逐步下降,反而召回率和F值有比較明顯的提高,當(dāng)特征頻率大于等于2的時候系統(tǒng)性能最佳。
表9 特征頻率對識別性能的影響
3.2.2 不同特征及其窗口大小對識別性能的影響
在3.2.1節(jié)中確定單詞特征為Fw2且特征頻率大于等于2時性能最佳,因此下面在此實(shí)驗(yàn)基礎(chǔ)上,分別加入音節(jié)特征(Fs)、詞性特征(Fp),word embedding特征(Few)及詞典特征(Fdic),進(jìn)行不同特征在不同窗口下的實(shí)驗(yàn)。
音節(jié)及其窗口大小對識別性能的影響如表10所示。從中可以看出,一方面,音節(jié)窗口的增加并未導(dǎo)致F值的上升,反而逐步下降,當(dāng)音節(jié)窗口大小為3(Fs1)時,系統(tǒng)的F值達(dá)到了最佳值88.16%,其原因可能為當(dāng)前詞的最后音節(jié)或后綴受到前一個詞的影響,或它影響下一個詞的音節(jié)或后綴;另一方面,無論音節(jié)窗口大小取為何值,加入音節(jié)特征后系統(tǒng)的性能比僅考慮單詞特征時要好,F(xiàn)值提高了4.14%,這說明音節(jié)特征對地名識別具有重要的影響。
表10 音節(jié)及其窗口大小對識別性能的影響
詞性及其窗口大小對識別性能的影響如表11所示。從中可以看出,一方面,詞性窗口的增加并未導(dǎo)致F值的上升,反而在下降,在三種不同窗口下加入詞性后的系統(tǒng)性能差別不是很明顯,其原因可能為受到了詞性標(biāo)注準(zhǔn)確率的影響;另一方面,無論詞性窗口大小取為何值,加入詞性特征后系統(tǒng)的性能比僅考慮單詞特征時要好,當(dāng)詞性窗口大小為 3(Fp1)時F值最好,提高了2.25%,這說明詞性特征對地名識別也有重要的影響。
表11 詞性及其窗口大小對識別性能的影響
通過詞向量獲取的與當(dāng)前詞最相似的前五個詞分別加入到特征后的實(shí)驗(yàn)結(jié)果如表12所示。從實(shí)驗(yàn)結(jié)果可以看出,隨著相似詞數(shù)量的增加,F(xiàn)值也逐步提高,其原因可能為訓(xùn)練詞向量語料規(guī)模不夠,從而對一些低頻詞的表示不太準(zhǔn)確。無論選取的相似詞數(shù)量多或者少,加入詞表示特征后系統(tǒng)的性能比僅考慮單詞特征時要好,最好時F值提高了4.2%,這說明通過使用詞表示方法來獲取相似詞作為特征引入可以提高識別性能。
表12 基于word embedding的相似詞對識別性能的影響
續(xù)表
總結(jié)以上幾個實(shí)驗(yàn)可以看出,音節(jié)、詞性及word embedding都對維吾爾語地名識別性能的提高起比較重要的作用,其中word embedding和音節(jié)的影響最大,F(xiàn)值分別提高了4.2%和4.14%,其次為詞性,F(xiàn)值提高了2.25%。當(dāng)word embedding的相似詞數(shù)量大于等于2的時候,音節(jié)特征和word embedding特征的影響不分上下,差別比較小,word embedding特征的召回率比音節(jié)特征稍高,音節(jié)特征的準(zhǔn)確率均高于word embedding特征,因此在沒有音節(jié)切分工具或詞性標(biāo)注系統(tǒng)的情況下,可以考慮使用詞表示來構(gòu)造特征是可行的。當(dāng)單詞特征選取最佳的Fw2(窗口大小為5)時,詞性和音節(jié)可以選取Fs1和Fp1(窗口大小均為3),基于word embedding的相似詞取Few3(3個)及以上來達(dá)到最好的系統(tǒng)性能。
3.2.3 不同詞典對識別性能的影響
不同詞典及其組合對識別性能的影響如表13所示。實(shí)驗(yàn)結(jié)果表明,常用地名詞典、特征詞詞典及地名詞綴詞典都有助于提高系統(tǒng)的識別性能,其中常用地名詞典的影響最大,其次為地名特征詞詞典,最后為地名詞綴詞典。地名詞綴詞典性能相對低的主要原因是因?yàn)?,很多地名在文中往往有附加成分連接,此時無法有效提取地名共同詞綴特征。三種詞典相組合時系統(tǒng)性能最佳,F(xiàn)值比僅考慮單詞特征時提高了4.52%。
表13 不同詞典及其組合對識別性能的影響
3.2.4 不同特征組合對識別性能的影響
在3.2.2節(jié)實(shí)驗(yàn)的基礎(chǔ)上,我們繼續(xù)組合不同特征進(jìn)行實(shí)驗(yàn)。鑒于Fw2+Fs1的F值最好,我們在此組合基礎(chǔ)上分別增加了詞性特征和word embedding 特征,實(shí)驗(yàn)結(jié)果如表14所示。從實(shí)驗(yàn)結(jié)果可知,分別增加這兩種特征后,F(xiàn)值均有提高,增加word embedding的性能優(yōu)于增加詞性特征。增加詞性特征時,隨著詞性特征窗口的變大,系統(tǒng)性能反而下降;增加word embedding特征時,隨著相似詞數(shù)量的增加,系統(tǒng)性能并沒有一直上升,甚至出現(xiàn)下降現(xiàn)象,但是總體來看呈上升趨勢(特別是召回率),因此繼續(xù)增加相似詞數(shù)量可能有助于提高系統(tǒng)性能。
表14 三種特征組合對比實(shí)驗(yàn)
接下來我們在上一步實(shí)驗(yàn)的基礎(chǔ)上,對它的特征模板進(jìn)行了擴(kuò)充,即使用了一些混合特征,分別增加了當(dāng)前詞及其詞性、當(dāng)前詞及其音節(jié),以及當(dāng)前詞及其前后詞的音節(jié)和詞性(Fp12)等unigram特征,并與word embedding特征組合進(jìn)行實(shí)驗(yàn),結(jié)果如表15所示。四種特征組合后,隨著word embedding的相似詞數(shù)量的增加,F(xiàn)值并沒有一直呈上升趨勢,反而性能差別非常小,由此可以看出四種特征組合進(jìn)行實(shí)驗(yàn)時,相似詞數(shù)量對系統(tǒng)性能影響很小,這可能是因?yàn)橐艄?jié)特征和詞性特征已經(jīng)覆蓋了大多數(shù)語言特征。四種特征組合實(shí)驗(yàn)中,當(dāng)選擇Fw2+Fs1+Fp12+Few5特征組合時,F(xiàn)值達(dá)到了90.15%,比上一步實(shí)驗(yàn)提高了0.48%。
表15 四種特征組合對比實(shí)驗(yàn)
為了考察詞典特征Fdic對識別性能的影響,我們對以上各類實(shí)驗(yàn)中性能最好的特征組合上詞典特征分別進(jìn)行了對比實(shí)驗(yàn),結(jié)果如表16所示。實(shí)驗(yàn)結(jié)果表明,加入詞典特征后,系統(tǒng)性能得到非常顯著的提高,特別是召回率比,準(zhǔn)確率提高得更為明顯。
表16 詞典特征對識別性能的影響
3.2.5 基于規(guī)則的后處理對識別性能的影響
從上一節(jié)實(shí)驗(yàn)結(jié)果可知,基于CRF模型的維吾爾語地名識別方法可以得到非常不錯的識別結(jié)果,但是結(jié)果中還存在一些漏掉的、識別錯誤的地名,因此我們對這些情況使用規(guī)則進(jìn)行了修正,從而進(jìn)一步提高了系統(tǒng)性能,實(shí)驗(yàn)結(jié)果如表17所示。
表17 基于規(guī)則進(jìn)行后處理的實(shí)驗(yàn)結(jié)果
本文利用地名人工標(biāo)注語料和大規(guī)模單語語料數(shù)據(jù),采用CRFs結(jié)合規(guī)則的方法對維吾爾文地名識別進(jìn)行了研究,通過選取單詞、音節(jié)、詞性、基于詞向量的相似詞、詞典等不同的特征及其組合,在不同的窗口大小下,對維吾爾文地名識別進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,單詞特征、詞性特征、音節(jié)特征對地名識別具有重要影響;同時引入詞表示特征后,也可以提高系統(tǒng)性能,可以將比較難的維吾爾語詞性特征由詞表示特征來代替,從而可以減少識別工作的復(fù)雜度;再通過引入詞典特征(常用地名詞典、地名特征詞詞典、地名特征后綴詞典等)和基于規(guī)則的后處理,有效地提高了識別性能。這說明本文所提出的不同特征窗口大小的選擇、特征的組合方式、詞表示特征的應(yīng)用方法、詞典特征以及基于規(guī)則的后處理對維吾爾語等資源匱乏、自然語言處理水平較低的語言具有一定的意義。
除了取得比較好的結(jié)果以外,本文還有一些局限性。例如,有些地名連接附加成分后會出現(xiàn)元音弱化現(xiàn)象,導(dǎo)致無法提取詞典特征,容易出現(xiàn)漏識,在以后的研究中需要進(jìn)一步改進(jìn)。因此,下一步工作中,我們將本文的成果與人工標(biāo)注相結(jié)合,嘗試采用深度學(xué)習(xí)方法對維吾爾文地名識別做進(jìn)一步研究;此外,我們將地名識別和其他命名實(shí)體識別任務(wù),比如人名識別、機(jī)構(gòu)名識別等相結(jié)合,進(jìn)行多類命名實(shí)體識別研究。
[1] Nadeau D, Sekine S. A survey of named entity recognition and classification [J]. Lingvisticae Investigationes, 2007, 30(1): 3-26.
[2] Mikheev A, Moens M, Grover C. Named entity recognition without gazetteers[C]//Proceedings of the ninth Conference on European Chapter of the Association for Computational Linguistics, Association for Computational Linguistics, 1999: 1-8.
[3] 黃德根, 岳廣玲, 楊元生. 基于統(tǒng)計(jì)的中文地名識別 [J]. 中文信息學(xué)報, 2003,17(02): 36-41.
[4] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[C]//Proceedings of NAACL 2016.
[5] 加日拉·買買提熱衣木, 吐爾根·依布拉音, 艾山·吾買爾. 基于統(tǒng)計(jì)和規(guī)則混合策略的維吾爾人名識別研究[J]. 新疆大學(xué)學(xué)報(自然科學(xué)版), 2014, 31(03): 319-324.
[6] 艾斯卡爾·肉孜, 宗成慶, 姑麗加瑪麗·麥麥提艾力,等. 基于條件隨機(jī)場的維吾爾人名識別方法[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2013(6):873-877.
[7] 熱合木·馬合木提, 于斯音·于蘇普, 張家俊, 等. 基于模糊匹配與音字轉(zhuǎn)換的維吾爾語人名識別[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2017(02): 188-196.
[8] 李佳正, 劉凱, 麥熱哈巴·艾力, 等. 維吾爾語中漢族人名的識別及翻譯[J]. 中文信息學(xué)報, 2011, 25(04): 82-87.
[9] 阿依古麗·哈力克, 艾山·吾買爾, 吐爾根·伊布拉音, 等. 漢維時間數(shù)字和量詞的識別與翻譯研究[J]. 中文信息學(xué)報, 2016,30(06): 190-200.
[10] 麥合甫熱提, 米日姑·肉孜, 麥熱哈巴·艾力, 等. 基于語法語義知識的維吾爾文機(jī)構(gòu)名識別[J].計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(08): 2944-2948.
[11] 木合塔爾·艾爾肯, 艾斯卡爾·艾木都拉, 地里木拉提·吐爾遜. 基于規(guī)則的維吾爾地名識別[J]. 通信技術(shù), 2013(7):103-105.
[12] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems, 2013: 3111-3119.
[13] Santos C D, Zadrozny B. Learning character-level representations for part-of-speech tagging[C]//Proceedings of the 31st International Conference on Machine Learning (ICML-14), 2014: 1818-1826.
[14] Demir H, ?zgür A. Improving named entity recognition for morphologically rich languages using word embeddings[C]//Proceedings of the Machine Learning and Applications (ICMLA), 13th International Conference on, IEEE, 2014: 117-122.
[15] Tang D, Wei F, Yang N, et al. Learning sentiment-specific word embedding for twitter sentiment classification[C]//Proceedings of the ACL (1), 2014: 1555-1565.
[16] Tjong K S E F, Buchholz S. Introduction to the CoNLL-2000 shared task: chunking[C]//Proceedings of The Workshop on Learning Language in Logic and the Conference on Computational Natural Language Learning. Association for Computational Linguistics, 2000:127-132.