洛桑嘎登 仁增多杰* 索南尖措 才讓叁智 布加
(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院 西藏自治區(qū)拉薩市 850000 2.國家電網(wǎng)西藏電力有限公司 西藏自治區(qū)拉薩市 850000)
藏文自然語言處理經(jīng)歷了幾十年的發(fā)展,現(xiàn)在已從原來的編碼研究等基礎(chǔ)研究慢慢步入詞法分析、句法分析階段。藏文問句預(yù)處理的研究,可以應(yīng)用于藏文問答系統(tǒng)的設(shè)計,藏文輿論熱點話題的追蹤、藏文文本主題挖掘等研究。文本在原有研究基礎(chǔ)上研究了。本文在原有的研究基礎(chǔ)上主要實現(xiàn)了基于知識融合的藏文分詞標(biāo)注,基于疑問詞的藏文問句分類和基于TextRank 的藏文關(guān)鍵詞提取研究。藏文問句的分詞標(biāo)注研究主要參考文獻(xiàn)[9][10]的內(nèi)容實現(xiàn)。關(guān)鍵詞提取主要方法有用語料訓(xùn)練關(guān)鍵詞提取模型,依據(jù)模型對需要提取的文檔進(jìn)行關(guān)鍵詞提取[1][2];無監(jiān)督提取無需對語料標(biāo)注,通過對候選詞集使用一定的算法機(jī)制將關(guān)鍵詞按重要性排序,主流的方法包括基于詞頻統(tǒng)計TF-IDF 模型[3][4]、基于主題LDA 模型[5][6]。
藏文詞匯以音節(jié)為基本單位,自動分詞就是需要將連續(xù)的藏文音節(jié)序列組合成詞序。藏文的詞性標(biāo)注任務(wù)是為藏文文本中的每一個詞都標(biāo)記上一個恰當(dāng)?shù)脑~類標(biāo)記符,確定每個詞的名詞、動詞、形容詞或其他詞類屬性。藏文除了自身獨特的語法特點還兼具漢藏語系的孤立語言特征和蒙古語、維吾爾語等黏著語特征,因而,結(jié)合藏文語言特征開展的分詞標(biāo)注研究,對其他少數(shù)民族語言的分詞標(biāo)注研究也具有很好的參考價值。本文采用條件隨機(jī)場統(tǒng)計模型進(jìn)行藏文分詞標(biāo)注,并利用藏文自身語言特征,采用知識融合的方式對基于條件隨機(jī)場模型的分詞標(biāo)注結(jié)果進(jìn)行校正,并實現(xiàn)了一個基于web 的藏文分詞標(biāo)注系統(tǒng),能自動進(jìn)行大規(guī)模藏文文本的自動采集、XML 格式轉(zhuǎn)換及藏文分詞和詞性標(biāo)注。本文通過基于條件隨機(jī)場(Conditional Random Fields,CRFs)的方法實現(xiàn)了藏文的分詞標(biāo)注任務(wù),具體實現(xiàn)參見文獻(xiàn)[8]。該文在文獻(xiàn)8 的基礎(chǔ)上,增加了命名實體識別模塊,以提高藏文自動分詞與詞性標(biāo)注的準(zhǔn)確率。
文本采用基于CRFs 的藏文命名實體識別方法。標(biāo)注集采用“BIEO”的標(biāo)注方法,具體如下,對于如下的藏文句子:
Sentence 代表輸入的原始文本內(nèi)容,Target 表示經(jīng)過CRFs 標(biāo)注的結(jié)果,從上面的標(biāo)注結(jié)果可以識別出,??????????? 這個人名和 ????????這個地名。
圖1:TextRank 詞匯圖
命名實體識別有助于提高分詞的準(zhǔn)確性,尤其是對未登錄詞的識別。
問句的分類是根據(jù)問句的答案類型對問句進(jìn)行分類,它是問句分析最重要的功能之一。目前大多數(shù)這類問答系統(tǒng)都利用答案類型來指導(dǎo)后續(xù)步驟,尤其是答案抽取策略,例如對于問人物的問題,答案抽取會利用人物的各種特征來提取答案候選集合。本文通過疑問詞來確定問句的類型,雖然這樣的方式具有一定的魯棒性,但是對于絕大數(shù)常見的問題這種方法簡單時效。如表1 所示。
TextRank 算法是一種用于文本的基于圖的排序算法。該算法可以表示為一個有向有權(quán)圖G=(V,E),如圖1 所示。
其中V 代表點的集合,E 代表邊的集合。圖中任意兩點Vi,Vj之間的權(quán)重為Wij。對于一個給定的點Vi,In(Vi)為指向該點的點集合,Out(Vi)為點Vi 指向的點集合。TextRank 的公式定義如下:
本文通過TextRank 算法是實現(xiàn)關(guān)鍵詞的提取,具體實現(xiàn)步驟如下:
表1:常見的藏文問題分類
第一步,把藏文文本按照分句符分成一個獨立的句子;
第二步,每個句子按照上述方法進(jìn)行分詞和詞性標(biāo)注;
第三步,從詞性標(biāo)注結(jié)果中保留名詞(包括命名實體)、動詞、形容詞登等實詞的詞性,過濾掉語氣詞、標(biāo)點符號、格助詞等虛詞;
第四步,以窗口大小為5 構(gòu)建有向圖,并計算詞語的共現(xiàn)概率;
第五步,根據(jù)概率的排序結(jié)果,挑選出概率排名前N 的詞語作為關(guān)鍵詞。
例如,對于如下的藏文文本:
首先按照分句符分開上面兩個句子:
對Sentence1 進(jìn)行分詞標(biāo)注之后得到:
過濾掉Sentence1[tag]中的格助詞、標(biāo)點符號等詞,并構(gòu)建詞匯圖,計算共現(xiàn)概率,得到如下結(jié)果:
最后將 ????? ?????????? ???? ?????? 作為候選關(guān)鍵詞。
該文結(jié)合藏文分詞標(biāo)注研究并實現(xiàn)了一種基TextRank 算法的藏文關(guān)鍵詞提取技術(shù),該文在1500 句的藏文問句上進(jìn)行了實驗研究,總體效果較好,但是也存在一些問題。比如,藏文分詞標(biāo)注結(jié)果中有些重要的動詞沒有標(biāo)注出來,導(dǎo)致后面提取關(guān)鍵詞時被過濾掉,另外,因藏文存在黏著詞的問題,雖然正確提取出了問句的關(guān)鍵詞,但是從提取出來的關(guān)鍵詞反推原文意思,存在很難理解的問題。下一步,該文將嘗試?yán)蒙疃葘W(xué)習(xí)的方法實現(xiàn)藏文文本關(guān)鍵詞提取研究。