李成龍 多拉
【摘 要】句子相似度計(jì)算在藏文信言處理的各個(gè)領(lǐng)域中都是很重要的。本文從藏語(yǔ)句子的多個(gè)角度分析句子的相似性,利用藏語(yǔ)句子的特征結(jié)構(gòu),結(jié)合詞形、詞序、相似單元夾角和詞性來(lái)計(jì)算藏語(yǔ)句子的相似度,從幾個(gè)方面最終計(jì)算藏語(yǔ)句子的相似度。實(shí)驗(yàn)結(jié)果表明,該計(jì)算方法合理、簡(jiǎn)便、可行。
【關(guān)鍵詞】詞性 詞序 藏語(yǔ)句子 自然語(yǔ)言處理
1 引言
在自然語(yǔ)言處理領(lǐng)域,尤其在藏文信息處理中,藏語(yǔ)句子相似度的計(jì)算是一項(xiàng)基礎(chǔ)性較強(qiáng)的研究課題。長(zhǎng)期以來(lái)一直是人們研究的一個(gè)熱點(diǎn)和難點(diǎn),直接決定著藏語(yǔ)信息處理領(lǐng)域的發(fā)展。如:基于實(shí)例的機(jī)器翻譯、基于語(yǔ)料庫(kù)的藏語(yǔ)教學(xué)系統(tǒng)、自動(dòng)問(wèn)答系統(tǒng)、藏文信息檢索等研究中,藏語(yǔ)單句的基本句型研究對(duì)計(jì)算機(jī)語(yǔ)句處理具有重要的理論意義,使計(jì)算機(jī)對(duì)藏語(yǔ)句法分析的重要基礎(chǔ)和前提。之前,對(duì)藏語(yǔ)句子相似度有些研究,安見(jiàn)才讓老師寫的《藏語(yǔ)句子相似度算法的研究》提出了采用散列單詞倒排索引和基于句長(zhǎng)相似度粗選的算法。于洪志老師在《基于藏語(yǔ)句多特征融合的主觀題自動(dòng)評(píng)分算法》中提出了一種藏語(yǔ)句多特征融合的主觀題自動(dòng)評(píng)分算法,構(gòu)建了關(guān)鍵詞詞形相似度計(jì)算模型、詞序相似度計(jì)算模型、句子長(zhǎng)度相似度計(jì)算模型和句子語(yǔ)義相似度計(jì)算模型。
隨著藏語(yǔ)語(yǔ)料庫(kù)語(yǔ)言學(xué)的興起,藏漢語(yǔ)語(yǔ)料庫(kù)的建立也是一個(gè)基礎(chǔ)研究項(xiàng)目,給予我們研究藏文信息處理領(lǐng)域的一個(gè)好的平臺(tái)。其基本原理是:當(dāng)輸入一個(gè)待翻譯的藏語(yǔ)句子時(shí),系統(tǒng)自動(dòng)從藏漢雙語(yǔ)實(shí)例庫(kù)中搜索到最相似的句子,再以該句子的譯文為查詢對(duì)象,查找出與藏語(yǔ)句子相對(duì)應(yīng)的漢語(yǔ)句子。句子相似度的研究是很重要的一個(gè)研究項(xiàng)目,其直接影響到信息的檢索和翻譯的正確性等很多領(lǐng)域。
2 句子相似度模型
2.1 詞形相似度
藏語(yǔ)句子的構(gòu)成是以動(dòng)詞為核心,其語(yǔ)序常態(tài)是“ 施事— 受事— 動(dòng)作” 的格局。詞形相似度是比較輸入句子和查詢句子相似單元的長(zhǎng)度。相似單元為輸入句子與查詢句子中的每個(gè)單元相匹配,尋找到相同的匹配單元。即SameWC(A和B)表示句子A和B中相似單元的長(zhǎng)度,Len(A),Len(B)為句子A,B的長(zhǎng)度,即長(zhǎng)度是一個(gè)句子中相同的詞和標(biāo)點(diǎn)符號(hào),為了方便于計(jì)算也可以忽略標(biāo)點(diǎn)符號(hào)。當(dāng)相同單元在某個(gè)句子中出現(xiàn)的次數(shù)較多時(shí),以出現(xiàn)次數(shù)少的句子來(lái)計(jì)算。
例1:
WordSim(A和B)表示句子A和B的詞形相似度,由公式(1)來(lái)表示:
WordSim(A和B)=2×SameWC(A和B)/len(A)+len(B).(0≤WordSim(A和B)≤1) (1)
該兩個(gè)句子的相似度值SameWC(A和B)=2×5/(6+7)=0.769。
2.2 詞序相似度
詞序相似度是兩個(gè)句子中含有相同詞在位置關(guān)系上的相似程度。要考慮到一個(gè)句子的有序度和無(wú)序度。Match(A,B)表示在句子A和B當(dāng)中都出現(xiàn)并且都只出現(xiàn)過(guò)一次的相似單元的集合,用Order(A,B)表示句子A中有序的相似單元,句子B中所確定的相似單元被打亂的程度,就是無(wú)序度,用Entropy(A,B)表示。句子A,B的詞序相似度有公式(2)來(lái)表示:
,在句子A中,各相似單元排列順序的相鄰關(guān)系為,2-3,3-4,4-5,5-6,6-7,在這個(gè)句子中沒(méi)有被打亂的相鄰關(guān)系,即Entropy(A,B)=0,Order(A,B)表示句子B中各相鄰最大匹配頂點(diǎn)的有序度。在句子B中有序項(xiàng)為,2<3、3<4、4<5、5<6、6<7,Order(A,B)=5.
2.3 相似單元夾角相似度
計(jì)算句子相似度時(shí),有些句子詞形、詞序、句子長(zhǎng)度方面都相同,在輸人句子中位置相鄰的兩個(gè)相似單元在實(shí)例句子中被非相似單元的匹配單元間隔開來(lái)(排列順序不變),此中間隔成為相似單元夾角。AngleNum(A,B)為相似單元夾角的個(gè)數(shù),AngleSize(A,B)為所有夾角中間匹配單元的個(gè)數(shù)。由公式(3)為:
比較規(guī)則:兩個(gè)藏語(yǔ)句子的詞類序列,結(jié)合詞類的權(quán)值信息,對(duì)兩個(gè)句子從詞的最左邊起始位置開始,依次進(jìn)行比較,如果詞性相同,就匹配,得到最優(yōu)的匹配結(jié)果,即最后的結(jié)果使兩個(gè)待比較句子的詞類序列相似度值最大。eword表示詞性匹配的總數(shù)目,psmatchcount表示兩個(gè)比較的句子中分詞較少的句子的詞個(gè)數(shù),如果其中有一個(gè)句子的所有詞都比較完了,則整個(gè)比較就結(jié)束。
上面2個(gè)句子表達(dá)的意思完全不同,其中的詞匯也相異但是句法結(jié)構(gòu)是一致的。所以這個(gè)兩個(gè)句子結(jié)構(gòu)相似度的值為1.假如兩個(gè)句子的結(jié)構(gòu)完全不相同,句子相似度的值等于0。
2.5 句子相似度
綜合考慮詞形、詞序、相似單元夾角相似度、詞性相似度的計(jì)算,給出述下多特征的藏語(yǔ)句子的綜合相似度計(jì)算模型。
Zsim(A,B)= WordSim(A,B)+ OrderSim(A,B)+ Angle(A,B) pswsim(A,B)其中 分別是各類計(jì)算的權(quán)重, =1(0≤ ≤1,0≤ ≤1,0≤ ≤1,0≤ ≤1).各區(qū)分度的權(quán)重是可以調(diào)節(jié)的,考慮到各區(qū)分度對(duì)相似度的值得貢獻(xiàn)大小,因此取 ,突出了詞性在句子中的作用,其權(quán)重大。
3 算法流程圖
算法流程圖1所示:
4 實(shí)驗(yàn)結(jié)果及分析
該實(shí)驗(yàn)中,我們采用了由西北民族大學(xué)多拉老師提供的語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)中共找出1000個(gè)藏語(yǔ)句子,并已經(jīng)完成了詞語(yǔ)切分和標(biāo)注。下面列出部分句子實(shí)例。
在上面的句子中,nr,vj,nn等是詞類標(biāo)記或者是短語(yǔ)類型標(biāo)記。在目前的實(shí)驗(yàn)中,我們從句子集中選取了一些句子作為輸入句子(源句子)。分別在語(yǔ)料庫(kù)中查找與之結(jié)構(gòu)相似的句子,并且按照相似度從大到小排序。由于篇幅限制,表1列出了部分計(jì)算結(jié)果。
在表1中可以看出實(shí)驗(yàn)結(jié)果,做實(shí)驗(yàn)的過(guò)程中能夠把完全相似或整個(gè)相似的句子從預(yù)料當(dāng)中找出來(lái),系統(tǒng)會(huì)給出一個(gè)從0到1之間的一個(gè)值。藏語(yǔ)句子相似性的判斷,并沒(méi)有一個(gè)標(biāo)準(zhǔn),只是一個(gè)模糊的概念。所以,我們并不能非常準(zhǔn)確地用一個(gè)確定的數(shù)字來(lái)表示它們的相似性,只能把上述相似度值,看作是一個(gè)相對(duì)的概念,反應(yīng)相似的趨勢(shì)。
5 結(jié)語(yǔ)
藏語(yǔ)句子相似度的計(jì)算在基于實(shí)例的藏漢機(jī)器翻譯,信息檢索等領(lǐng)域中有著舉足輕重的地位。本文從詞的角度出發(fā),從相同詞的相似度、詞序相似度、詞性相似度三個(gè)方面綜合考慮了兩個(gè)句子相似度,它們所體現(xiàn)的信息都是不一樣的,從幾個(gè)方面考慮計(jì)算最終的藏語(yǔ)句子的相似度。實(shí)驗(yàn)結(jié)果表明,該計(jì)算方法合理、簡(jiǎn)便、可行。
參考文獻(xiàn):
[1] 王榮波,池哲儒.基于詞類串的漢語(yǔ)句子結(jié)構(gòu)相似度計(jì)算方法[J].中文信息學(xué)報(bào),2005(01).
[2] 安見(jiàn)才讓.藏語(yǔ)句子相似度算法的研究[J].中文信息學(xué)報(bào),2011(4).
[3] 于洪志,夏建華,萬(wàn)福成,陳新一.基于藏語(yǔ)句多特征融合的主觀題自動(dòng)評(píng)分算法[J].計(jì)算機(jī)工程與應(yīng)用,2014(5).
[4] 吐爾遜阿依·阿不來(lái)提.基于詞典的維吾爾語(yǔ)句子相似度研究[J].電子制作,2014(13).
[5] 李春梅,徐慶生.基于多特征的漢語(yǔ)句子相似度計(jì)算模型的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(6).
[6] 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2003(6).
作者簡(jiǎn)介:李成龍(1982—),男,藏族,甘肅天祝人,西北民族大學(xué)在讀碩士,主要從事藏文信息處理研究。多拉(1967—),男,藏族,青海海南人,西北民族大學(xué)博士、教授,主要從事語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)、藏文信息處理教學(xué)與研究。