• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    藏語(yǔ)單句相似度計(jì)算模型研究

    2016-05-14 14:40:19李成龍多拉
    中國(guó)科技縱橫 2016年6期
    關(guān)鍵詞:詞序自然語(yǔ)言處理

    李成龍 多拉

    【摘 要】句子相似度計(jì)算在藏文信言處理的各個(gè)領(lǐng)域中都是很重要的。本文從藏語(yǔ)句子的多個(gè)角度分析句子的相似性,利用藏語(yǔ)句子的特征結(jié)構(gòu),結(jié)合詞形、詞序、相似單元夾角和詞性來(lái)計(jì)算藏語(yǔ)句子的相似度,從幾個(gè)方面最終計(jì)算藏語(yǔ)句子的相似度。實(shí)驗(yàn)結(jié)果表明,該計(jì)算方法合理、簡(jiǎn)便、可行。

    【關(guān)鍵詞】詞性 詞序 藏語(yǔ)句子 自然語(yǔ)言處理

    1 引言

    在自然語(yǔ)言處理領(lǐng)域,尤其在藏文信息處理中,藏語(yǔ)句子相似度的計(jì)算是一項(xiàng)基礎(chǔ)性較強(qiáng)的研究課題。長(zhǎng)期以來(lái)一直是人們研究的一個(gè)熱點(diǎn)和難點(diǎn),直接決定著藏語(yǔ)信息處理領(lǐng)域的發(fā)展。如:基于實(shí)例的機(jī)器翻譯、基于語(yǔ)料庫(kù)的藏語(yǔ)教學(xué)系統(tǒng)、自動(dòng)問(wèn)答系統(tǒng)、藏文信息檢索等研究中,藏語(yǔ)單句的基本句型研究對(duì)計(jì)算機(jī)語(yǔ)句處理具有重要的理論意義,使計(jì)算機(jī)對(duì)藏語(yǔ)句法分析的重要基礎(chǔ)和前提。之前,對(duì)藏語(yǔ)句子相似度有些研究,安見(jiàn)才讓老師寫的《藏語(yǔ)句子相似度算法的研究》提出了采用散列單詞倒排索引和基于句長(zhǎng)相似度粗選的算法。于洪志老師在《基于藏語(yǔ)句多特征融合的主觀題自動(dòng)評(píng)分算法》中提出了一種藏語(yǔ)句多特征融合的主觀題自動(dòng)評(píng)分算法,構(gòu)建了關(guān)鍵詞詞形相似度計(jì)算模型、詞序相似度計(jì)算模型、句子長(zhǎng)度相似度計(jì)算模型和句子語(yǔ)義相似度計(jì)算模型。

    隨著藏語(yǔ)語(yǔ)料庫(kù)語(yǔ)言學(xué)的興起,藏漢語(yǔ)語(yǔ)料庫(kù)的建立也是一個(gè)基礎(chǔ)研究項(xiàng)目,給予我們研究藏文信息處理領(lǐng)域的一個(gè)好的平臺(tái)。其基本原理是:當(dāng)輸入一個(gè)待翻譯的藏語(yǔ)句子時(shí),系統(tǒng)自動(dòng)從藏漢雙語(yǔ)實(shí)例庫(kù)中搜索到最相似的句子,再以該句子的譯文為查詢對(duì)象,查找出與藏語(yǔ)句子相對(duì)應(yīng)的漢語(yǔ)句子。句子相似度的研究是很重要的一個(gè)研究項(xiàng)目,其直接影響到信息的檢索和翻譯的正確性等很多領(lǐng)域。

    2 句子相似度模型

    2.1 詞形相似度

    藏語(yǔ)句子的構(gòu)成是以動(dòng)詞為核心,其語(yǔ)序常態(tài)是“ 施事— 受事— 動(dòng)作” 的格局。詞形相似度是比較輸入句子和查詢句子相似單元的長(zhǎng)度。相似單元為輸入句子與查詢句子中的每個(gè)單元相匹配,尋找到相同的匹配單元。即SameWC(A和B)表示句子A和B中相似單元的長(zhǎng)度,Len(A),Len(B)為句子A,B的長(zhǎng)度,即長(zhǎng)度是一個(gè)句子中相同的詞和標(biāo)點(diǎn)符號(hào),為了方便于計(jì)算也可以忽略標(biāo)點(diǎn)符號(hào)。當(dāng)相同單元在某個(gè)句子中出現(xiàn)的次數(shù)較多時(shí),以出現(xiàn)次數(shù)少的句子來(lái)計(jì)算。

    例1:

    WordSim(A和B)表示句子A和B的詞形相似度,由公式(1)來(lái)表示:

    WordSim(A和B)=2×SameWC(A和B)/len(A)+len(B).(0≤WordSim(A和B)≤1) (1)

    該兩個(gè)句子的相似度值SameWC(A和B)=2×5/(6+7)=0.769。

    2.2 詞序相似度

    詞序相似度是兩個(gè)句子中含有相同詞在位置關(guān)系上的相似程度。要考慮到一個(gè)句子的有序度和無(wú)序度。Match(A,B)表示在句子A和B當(dāng)中都出現(xiàn)并且都只出現(xiàn)過(guò)一次的相似單元的集合,用Order(A,B)表示句子A中有序的相似單元,句子B中所確定的相似單元被打亂的程度,就是無(wú)序度,用Entropy(A,B)表示。句子A,B的詞序相似度有公式(2)來(lái)表示:

    ,在句子A中,各相似單元排列順序的相鄰關(guān)系為,2-3,3-4,4-5,5-6,6-7,在這個(gè)句子中沒(méi)有被打亂的相鄰關(guān)系,即Entropy(A,B)=0,Order(A,B)表示句子B中各相鄰最大匹配頂點(diǎn)的有序度。在句子B中有序項(xiàng)為,2<3、3<4、4<5、5<6、6<7,Order(A,B)=5.

    2.3 相似單元夾角相似度

    計(jì)算句子相似度時(shí),有些句子詞形、詞序、句子長(zhǎng)度方面都相同,在輸人句子中位置相鄰的兩個(gè)相似單元在實(shí)例句子中被非相似單元的匹配單元間隔開來(lái)(排列順序不變),此中間隔成為相似單元夾角。AngleNum(A,B)為相似單元夾角的個(gè)數(shù),AngleSize(A,B)為所有夾角中間匹配單元的個(gè)數(shù)。由公式(3)為:

    比較規(guī)則:兩個(gè)藏語(yǔ)句子的詞類序列,結(jié)合詞類的權(quán)值信息,對(duì)兩個(gè)句子從詞的最左邊起始位置開始,依次進(jìn)行比較,如果詞性相同,就匹配,得到最優(yōu)的匹配結(jié)果,即最后的結(jié)果使兩個(gè)待比較句子的詞類序列相似度值最大。eword表示詞性匹配的總數(shù)目,psmatchcount表示兩個(gè)比較的句子中分詞較少的句子的詞個(gè)數(shù),如果其中有一個(gè)句子的所有詞都比較完了,則整個(gè)比較就結(jié)束。

    上面2個(gè)句子表達(dá)的意思完全不同,其中的詞匯也相異但是句法結(jié)構(gòu)是一致的。所以這個(gè)兩個(gè)句子結(jié)構(gòu)相似度的值為1.假如兩個(gè)句子的結(jié)構(gòu)完全不相同,句子相似度的值等于0。

    2.5 句子相似度

    綜合考慮詞形、詞序、相似單元夾角相似度、詞性相似度的計(jì)算,給出述下多特征的藏語(yǔ)句子的綜合相似度計(jì)算模型。

    Zsim(A,B)= WordSim(A,B)+ OrderSim(A,B)+ Angle(A,B) pswsim(A,B)其中 分別是各類計(jì)算的權(quán)重, =1(0≤ ≤1,0≤ ≤1,0≤ ≤1,0≤ ≤1).各區(qū)分度的權(quán)重是可以調(diào)節(jié)的,考慮到各區(qū)分度對(duì)相似度的值得貢獻(xiàn)大小,因此取 ,突出了詞性在句子中的作用,其權(quán)重大。

    3 算法流程圖

    算法流程圖1所示:

    4 實(shí)驗(yàn)結(jié)果及分析

    該實(shí)驗(yàn)中,我們采用了由西北民族大學(xué)多拉老師提供的語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)中共找出1000個(gè)藏語(yǔ)句子,并已經(jīng)完成了詞語(yǔ)切分和標(biāo)注。下面列出部分句子實(shí)例。

    在上面的句子中,nr,vj,nn等是詞類標(biāo)記或者是短語(yǔ)類型標(biāo)記。在目前的實(shí)驗(yàn)中,我們從句子集中選取了一些句子作為輸入句子(源句子)。分別在語(yǔ)料庫(kù)中查找與之結(jié)構(gòu)相似的句子,并且按照相似度從大到小排序。由于篇幅限制,表1列出了部分計(jì)算結(jié)果。

    在表1中可以看出實(shí)驗(yàn)結(jié)果,做實(shí)驗(yàn)的過(guò)程中能夠把完全相似或整個(gè)相似的句子從預(yù)料當(dāng)中找出來(lái),系統(tǒng)會(huì)給出一個(gè)從0到1之間的一個(gè)值。藏語(yǔ)句子相似性的判斷,并沒(méi)有一個(gè)標(biāo)準(zhǔn),只是一個(gè)模糊的概念。所以,我們并不能非常準(zhǔn)確地用一個(gè)確定的數(shù)字來(lái)表示它們的相似性,只能把上述相似度值,看作是一個(gè)相對(duì)的概念,反應(yīng)相似的趨勢(shì)。

    5 結(jié)語(yǔ)

    藏語(yǔ)句子相似度的計(jì)算在基于實(shí)例的藏漢機(jī)器翻譯,信息檢索等領(lǐng)域中有著舉足輕重的地位。本文從詞的角度出發(fā),從相同詞的相似度、詞序相似度、詞性相似度三個(gè)方面綜合考慮了兩個(gè)句子相似度,它們所體現(xiàn)的信息都是不一樣的,從幾個(gè)方面考慮計(jì)算最終的藏語(yǔ)句子的相似度。實(shí)驗(yàn)結(jié)果表明,該計(jì)算方法合理、簡(jiǎn)便、可行。

    參考文獻(xiàn):

    [1] 王榮波,池哲儒.基于詞類串的漢語(yǔ)句子結(jié)構(gòu)相似度計(jì)算方法[J].中文信息學(xué)報(bào),2005(01).

    [2] 安見(jiàn)才讓.藏語(yǔ)句子相似度算法的研究[J].中文信息學(xué)報(bào),2011(4).

    [3] 于洪志,夏建華,萬(wàn)福成,陳新一.基于藏語(yǔ)句多特征融合的主觀題自動(dòng)評(píng)分算法[J].計(jì)算機(jī)工程與應(yīng)用,2014(5).

    [4] 吐爾遜阿依·阿不來(lái)提.基于詞典的維吾爾語(yǔ)句子相似度研究[J].電子制作,2014(13).

    [5] 李春梅,徐慶生.基于多特征的漢語(yǔ)句子相似度計(jì)算模型的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(6).

    [6] 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2003(6).

    作者簡(jiǎn)介:李成龍(1982—),男,藏族,甘肅天祝人,西北民族大學(xué)在讀碩士,主要從事藏文信息處理研究。多拉(1967—),男,藏族,青海海南人,西北民族大學(xué)博士、教授,主要從事語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)、藏文信息處理教學(xué)與研究。

    猜你喜歡
    詞序自然語(yǔ)言處理
    修改病句的妙招
    孩子(2019年12期)2019-12-27 06:08:44
    漢英四方詞序差異對(duì)比研究
    漢語(yǔ)“在”方位短語(yǔ)詞序在日文與韓文中的對(duì)應(yīng)
    基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
    漢語(yǔ)搭配信息對(duì)詞匯識(shí)別的影響
    俄漢語(yǔ)定語(yǔ)對(duì)比
    面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
    詞向量的語(yǔ)義學(xué)規(guī)范化
    漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
    HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
    科技視界(2016年5期)2016-02-22 11:41:39
    法库县| 文安县| 西乌珠穆沁旗| 临泽县| 三河市| 华宁县| 华坪县| 长岭县| 古交市| 江门市| 临猗县| 监利县| 井研县| 公主岭市| 北辰区| 灵璧县| 清远市| 青州市| 云阳县| 甘谷县| 托克逊县| 五常市| 高州市| 芦溪县| 巩义市| 大兴区| 天气| 枣强县| 南召县| 双鸭山市| 沾化县| 西乌| 北辰区| 舟山市| 襄垣县| 阿克陶县| 塘沽区| 衢州市| 克东县| 澜沧| 宁明县|