• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于正則表達(dá)式的藏文屬格的識別及其檢錯(cuò)算法研究

    2018-02-25 06:21:08拉毛措
    電子技術(shù)與軟件工程 2018年9期
    關(guān)鍵詞:識別歧義

    拉毛措

    摘要 文中結(jié)合傳統(tǒng)的格助詞添接規(guī)則和正則表達(dá)式對屬格助詞進(jìn)行了識別和檢錯(cuò)的算法研究,提出了藏文屬格助詞的識別算法,再次基礎(chǔ)上我們提出了基于正則表達(dá)式和消歧知識庫的屬格助詞自動檢錯(cuò)算法。最后3本藏文書文本作為實(shí)驗(yàn)語料,結(jié)果表明該檢錯(cuò)算法能夠較好地完成5個(gè)藏文屬格助詞的自動檢錯(cuò)任務(wù)。

    【關(guān)鍵詞】屬格助詞 歧義 識別 檢錯(cuò)

    藏文信息處理的技術(shù)水平在逐步提高,但客觀地說這項(xiàng)技術(shù)仍然不夠成熟,一些技術(shù)難關(guān)和關(guān)鍵問題還沒有找到有效的解決方法。比如,有很多學(xué)者在研究藏文虛詞的識別、藏文音節(jié)字校對、文本校對、歧義虛詞的消歧等問題,但都沒能通過語義對藏文虛詞進(jìn)行自動校對。校對是文本編輯中確保文本與原文一致的重要手段。藏語虛詞在藏語中占有特殊地位,其詞具有結(jié)構(gòu)復(fù)雜、含義廣泛、使用頻繁等特點(diǎn),因而藏文文本中藏文虛詞的校對較為復(fù)雜,尤其是藏文不自由虛詞的識別及其校對。藏文虛詞的校對是藏文詞、字、句校對和信息檢索、雙語互譯、自動分類等的基礎(chǔ),有著極其廣泛的應(yīng)用價(jià)值。本文通過研究藏語虛詞的添接規(guī)則和傳統(tǒng)的藏語文法,對屬格助詞的識別方法及其樹檢錯(cuò)算法進(jìn)行研究。

    針對傳統(tǒng)的藏文文法,我們建立基于正則語法的藏文虛詞添接規(guī)則表達(dá)式。因藏文虛詞有二義性,建立消歧知識庫來消歧虛詞的歧義性。

    1 藏文屬格助詞的識別算法

    很多研究藏文虛詞校對方法是首先判斷一個(gè)詞是否可能是虛詞,其次獲取其前一個(gè)詞的后加字,再次判斷后加字后的虛詞的添接是否正確。我們的作法是把后兩個(gè)過程合二為一,提高性能。

    2 藏文屬格助詞的校對正則表達(dá)式

    正則表達(dá)式,又稱正規(guī)表示法、常規(guī)表示法(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),是計(jì)算機(jī)科學(xué)的一個(gè)概念。正則表達(dá)式使用單個(gè)字符串來描述、匹配一系列符合某個(gè)語法規(guī)則的字符串。在很多文本編輯器里,正則表達(dá)式通常被用來檢索、替換那些符合某個(gè)模式的文本。

    3 基于正則表達(dá)式的藏文虛詞屬格的自動校對算法

    3.1 基于正則表達(dá)式的屬格助詞自動檢錯(cuò)算法

    基于正則表達(dá)式的藏文虛詞屬格自動檢錯(cuò)算法,具體描述如下:

    基于正則表達(dá)式的藏文屬格助詞自動檢錯(cuò)算法的流程圖,如圖1所示。

    但是,我們通過分析研究藏文語料庫,發(fā)現(xiàn)藏文屬格的5個(gè)助詞都有二義性,5個(gè)助詞在不同的語義中,有時(shí)是助詞,有時(shí)是實(shí)詞,我們以格薩爾中《i嗣“串習(xí)s。耵》為語料統(tǒng)計(jì)了屬格5個(gè)助詞的二義性情況,統(tǒng)計(jì)數(shù)據(jù)如表

    如,§在語料中出現(xiàn)361次,其中15次為實(shí)詞,為實(shí)詞的百分比為4.1%。

    為了提高基于正則表達(dá)式對屬格助詞檢錯(cuò)的準(zhǔn)確率,我們建立了屬格助詞的消歧知識庫。消歧知識庫的結(jié)構(gòu)如表2所示。

    3.2 基于正則表達(dá)式和知識庫的屬格助詞自動檢錯(cuò)算法

    4 實(shí)驗(yàn)結(jié)果與分析

    4.1 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果

    才旦夏茸大師文集第一冊至十三冊作為實(shí)驗(yàn)語料.其中第一冊到第三冊為訓(xùn)練語料,用于建設(shè)消歧知識庫和訓(xùn)練屬格的5個(gè)助詞的檢錯(cuò)正則表達(dá)式,第四冊至第六冊內(nèi)容作了修改作為測試語料。語料的規(guī)模如表3。

    衡量指標(biāo)選用了準(zhǔn)確率P:

    方法1 代表基于正則表達(dá)式的屬格助詞自動檢錯(cuò)算法1,方法2代表基于正則表達(dá)式和知識庫的屬格助詞自動檢錯(cuò)算法,實(shí)驗(yàn)結(jié)果如表4。

    4.2 實(shí)驗(yàn)結(jié)果分析

    從計(jì)算的結(jié)果可以看出,采用方法2檢錯(cuò)率比方法l的檢錯(cuò)率高,雖然只增加了消歧知識庫,但準(zhǔn)確率明顯提高,但方法2比方法1增加了時(shí)間復(fù)雜度T(n)=O(log2(n》。

    在實(shí)驗(yàn)過程中也發(fā)現(xiàn)一些有待解決的問題:消歧知識庫的規(guī)模不大,還得擴(kuò)充知識庫。

    5 結(jié)束語

    縱觀當(dāng)前少數(shù)民族語言文字發(fā)展的現(xiàn)狀,我們可以清楚地看到,要想句法分析向語義分析階段順利邁進(jìn),目前最重要的問題就是處理好藏文的虛詞,藏文虛詞的研究成果可以在各個(gè)層面上推廣應(yīng)用。下一步工作計(jì)劃是,擴(kuò)充藏文歧義虛詞知識庫,提高藏文虛詞識別和檢錯(cuò)的準(zhǔn)確性。

    總體而言藏文屬格助詞的識別及其自動檢錯(cuò)算法的研究達(dá)到了可實(shí)用的水平。

    參考文獻(xiàn)

    [1]卓瑪吉,安見才讓.藏文不自由虛詞的自動識別研究[J].商業(yè)文化,2014 (05),

    [2]高定國,扎西加,趙棟材.計(jì)算機(jī)識別藏語虛詞的方法研究[J].中文信息學(xué)報(bào),2014, 28 (01):113-05.

    [3]吳朔平.科技英語虛詞分析法簡介[J],系統(tǒng)工程與電子技術(shù)學(xué)報(bào),1986 (07).

    [4]楊慧玲.英語虛詞在常規(guī)句和疑難句中的翻譯比較分析[J].昆明師范高等??茖W(xué)校學(xué)報(bào),2006,28 (01): 86-88.

    [5]多拉.藏語語義理解中功能性虛詞研究[J],西藏大學(xué)學(xué)報(bào)(社會科學(xué)版), 2011, 26 (04):106-107.

    [6]胡書津.簡明藏丈文法:藏漢對照2版[M].云南民族出版社,2000 (10).

    [7]格桑局冕,格桑央金,實(shí)用藏文文法教程[M].四川民族出版社,2004 (11).

    [8]才旦夏著,藏文文法詳解[M].青海民族出版社,1954,5:18-45.

    猜你喜歡
    識別歧義
    eUCP條款歧義剖析
    中國外匯(2019年12期)2019-10-10 07:26:58
    English Jokes: Homonyms
    法學(xué)意義上的弱者識別問題研究
    淺談哈密瓜病蟲害的防治措施
    蘋果樹常見病蟲害防治技術(shù)
    青島市中山公園園林樹木易混淆品種識別
    論犯罪危險(xiǎn)人格的識別
    基于關(guān)聯(lián)理論的歧義消除研究
    “那么大”的語義模糊與歧義分析
    “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
    語言與翻譯(2014年2期)2014-07-12 15:49:13
    德庆县| 莒南县| 和田市| 尚志市| 那坡县| 宁波市| 临泉县| 竹山县| 友谊县| 喀喇沁旗| 沂水县| 唐山市| 葵青区| 泸西县| 永和县| 建水县| 贵南县| 丰宁| 鲁甸县| 大竹县| 玉田县| 贡觉县| 谢通门县| 盐城市| 诸暨市| 宜宾市| 青神县| 齐齐哈尔市| 吉木萨尔县| 宜都市| 岳西县| 嘉义县| 西乌| 和平区| 邵东县| 常熟市| 上高县| 开江县| 班戈县| 南投县| 喜德县|