• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于啟發(fā)式規(guī)則的藏語(yǔ)重疊詞抽取方法研究

      2020-10-12 13:02:38才讓卓瑪
      科學(xué)與信息化 2020年20期
      關(guān)鍵詞:藏語(yǔ)語(yǔ)料庫(kù)規(guī)則

      摘 要 文章利用網(wǎng)絡(luò)爬蟲(chóng)方法對(duì)網(wǎng)絡(luò)資源進(jìn)行了歸納整合,建立了自用微型語(yǔ)料庫(kù)。依據(jù)藏語(yǔ)字形特點(diǎn)搜集和歸納了重疊詞規(guī)則,最后通過(guò)規(guī)則抽取,實(shí)現(xiàn)并完成藏語(yǔ)重疊詞的抽取。抽取效果良好,具有較好的通用性。

      關(guān)鍵詞 語(yǔ)料庫(kù);規(guī)則;藏語(yǔ);重疊詞;抽取

      引言

      藏語(yǔ)重疊詞作為藏語(yǔ)特殊的一類(lèi)詞,在句子中承擔(dān)著重要的語(yǔ)法作用和語(yǔ)法手段。詞的抽取是自然語(yǔ)言處理中的知識(shí)抽取的一種應(yīng)用,如今被廣泛運(yùn)用于學(xué)術(shù)、醫(yī)藥學(xué)等領(lǐng)域。藏語(yǔ)文本語(yǔ)料的構(gòu)建是藏文信息領(lǐng)域的一大基礎(chǔ)性研究,語(yǔ)料的匱乏成了發(fā)展瓶頸。鑒于這樣的背景下,本文提出了構(gòu)建文本語(yǔ)料,規(guī)則抽取詞的方法。經(jīng)總結(jié),抽取方法主要可以分為基于統(tǒng)計(jì)的方法[1],基于規(guī)則的方法和基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,通常在實(shí)際應(yīng)用中可根據(jù)面向數(shù)據(jù)源的不同選取不同的方法。

      1語(yǔ)料庫(kù)預(yù)處理

      傳統(tǒng)的語(yǔ)料庫(kù)的語(yǔ)料大多來(lái)自書(shū)本、試卷等紙質(zhì)文本掃描或打字,其效率較低,人工耗費(fèi)巨大,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上海量的文本,為語(yǔ)料庫(kù)建設(shè)提供了大量的文本資源,因此,基于網(wǎng)絡(luò)文本的語(yǔ)料庫(kù)應(yīng)運(yùn)而生。重疊詞的抽取是在一定規(guī)模的語(yǔ)料庫(kù)的基礎(chǔ)上實(shí)現(xiàn),構(gòu)建語(yǔ)料庫(kù)時(shí)除了已有語(yǔ)料外,網(wǎng)頁(yè)正文的抽取也是首要選擇。在對(duì)藏文網(wǎng)頁(yè)進(jìn)行大規(guī)模的網(wǎng)絡(luò)爬蟲(chóng)后,為減少語(yǔ)料噪音和改善文本質(zhì)量還對(duì)對(duì)藏語(yǔ)文本數(shù)據(jù)集進(jìn)行預(yù)處理,初步達(dá)到預(yù)期效果。

      (1)編碼轉(zhuǎn)換:將所有文本都轉(zhuǎn)換成UTF-16編碼格式,以統(tǒng)一不同編碼形式的藏文文本。

      (2)分詞:藏語(yǔ)是拼音文字,屬于屈折型語(yǔ)言,詞是最小能夠獨(dú)立運(yùn)用的語(yǔ)言單位,詞與詞之間用音節(jié)符“”為自然分割符,短語(yǔ)之間用垂符進(jìn)行分隔。因此,根據(jù)音節(jié)符、垂符就可以解決分詞問(wèn)題。本文采用西北民族大學(xué)信息院祁坤鈺教授開(kāi)發(fā)的藏文分詞系統(tǒng)用來(lái)分詞,此軟件具有歧義識(shí)別、未登錄詞識(shí)別、詞性標(biāo)注等獨(dú)特的特點(diǎn),對(duì)語(yǔ)義分析和文本分類(lèi)等有非常大的幫助。

      (3)“躁音”過(guò)濾:對(duì)語(yǔ)料中出現(xiàn)的所有非藏語(yǔ)文字、數(shù)學(xué)符號(hào)、數(shù)字、標(biāo)點(diǎn)符號(hào)和空格進(jìn)行過(guò)濾。

      2規(guī)則構(gòu)建的方法

      對(duì)于藏語(yǔ)的重疊詞而言,首先根據(jù)詞的特征需要構(gòu)建出詞的屬性的描述規(guī)則,再通過(guò)構(gòu)建的規(guī)則對(duì)藏語(yǔ)重疊詞進(jìn)行抽取。而重疊詞作為藏語(yǔ)普遍的語(yǔ)法手段,名詞、動(dòng)詞、數(shù)詞、代詞、形容詞等都是能夠重疊,其數(shù)量浩繁、形式繁多、結(jié)構(gòu)復(fù)雜,所以對(duì)其規(guī)則的構(gòu)建是非常重要同時(shí)也是較為困難的。因此,抽取規(guī)則的設(shè)計(jì)是最關(guān)鍵的環(huán)節(jié)之一,不同程度上影響著抽取效果。通常來(lái)說(shuō),抽取規(guī)則構(gòu)建主要分為基于統(tǒng)計(jì)和基于規(guī)則兩種方法[2]。文章采用人工構(gòu)建抽取規(guī)則的方法,此方法是一種通過(guò)對(duì)規(guī)則進(jìn)行理解,了解規(guī)則本身的含義和涵蓋的范圍,再通過(guò)搜集和歸納重疊詞的結(jié)構(gòu)特征總結(jié)規(guī)則,并根據(jù)規(guī)則對(duì)重疊詞的抽取實(shí)驗(yàn)

      2.1 藏語(yǔ)重疊詞的抽取規(guī)則

      構(gòu)建規(guī)則是通過(guò)大量閱讀相關(guān)文獻(xiàn)及領(lǐng)域內(nèi)的研究基礎(chǔ)上,統(tǒng)計(jì)和歸納重疊詞的形態(tài)特征后提出的規(guī)則構(gòu)建思想。規(guī)則構(gòu)建過(guò)程共分為5個(gè)步驟:

      (1)閱讀大量文獻(xiàn)。文獻(xiàn)的閱讀可分為兩步進(jìn)行,首先,梳理領(lǐng)域內(nèi)文獻(xiàn),對(duì)其進(jìn)行一一精讀,搜集和歸納藏語(yǔ)重疊詞的結(jié)構(gòu)形式的統(tǒng)計(jì);其次,詞典的歸納法。

      (2)搜集藏語(yǔ)重疊詞。在查閱文獻(xiàn)過(guò)程中,對(duì)藏語(yǔ)重疊詞進(jìn)行歸類(lèi)統(tǒng)計(jì),從形式上將藏語(yǔ)重疊詞分為單音節(jié)重疊、雙音節(jié)重疊和多音節(jié)重疊,根據(jù)特征再搜集,再分類(lèi)。

      (3)尋找藏語(yǔ)重疊詞的規(guī)則。

      (4)統(tǒng)計(jì)規(guī)則。在初步形成的規(guī)則上根據(jù)不足和缺點(diǎn)進(jìn)行進(jìn)一步完善和補(bǔ)充,最終形成規(guī)則。

      (5)完善規(guī)則。

      通過(guò)大規(guī)模歸納總結(jié),藏語(yǔ)重疊詞的抽取規(guī)則可以分為七種。規(guī)則抽取有一特點(diǎn)是字形結(jié)構(gòu),藏語(yǔ)恰好是形態(tài)比較開(kāi)放豐富的文字,在搜集分析抽取規(guī)則時(shí),依照詞的構(gòu)詞特點(diǎn)和詞性變化可以確定屬于哪個(gè)類(lèi)型,適用哪個(gè)規(guī)則方法,以最終達(dá)到準(zhǔn)確抽取。就如第二種規(guī)則來(lái)講,是構(gòu)詞方式上可以入手分析,這類(lèi)詞一般是三音節(jié),第一個(gè)字是單音節(jié)多以動(dòng)詞,而后兩個(gè)字是多音節(jié),是相同的兩個(gè)字,一般為擬聲擬態(tài)詞(如vod lam lam,ldi ri ri等)。在抽取時(shí)設(shè)y為總符號(hào),那么設(shè)第一音節(jié)為y1,設(shè)后兩個(gè)音節(jié)為y2,抽取規(guī)則是y(y1=y2),在重疊詞抽取時(shí)按照這個(gè)規(guī)則撰寫(xiě)程序抽取,符合規(guī)則條件則抽取,否則則放棄,其他規(guī)則也依次類(lèi)推

      3實(shí)驗(yàn)數(shù)據(jù)與結(jié)果

      文章共對(duì)五十余個(gè)藏文網(wǎng)頁(yè)和上萬(wàn)條URL做了網(wǎng)絡(luò)爬蟲(chóng),初步構(gòu)建了文本語(yǔ)料庫(kù),再依靠語(yǔ)料進(jìn)行規(guī)則抽取后,共抽取到了3211條藏語(yǔ)重疊詞,抽取率達(dá)92%,抽取效果良好,具有較高的通用性。

      4結(jié)束語(yǔ)

      本文是一種基于規(guī)則的抽取方法,該方法對(duì)藏語(yǔ)網(wǎng)絡(luò)資源進(jìn)行了文本整合,然后從建好的語(yǔ)料庫(kù)中利用程序?qū)崿F(xiàn)了重疊詞的抽取。實(shí)驗(yàn)結(jié)果取得了良好的效果,基本滿(mǎn)足了快速準(zhǔn)確收集特征詞的要求,擺脫了煩瑣的傳統(tǒng)方式,為文本信息抽取提供了新的思路和方法。

      參考文獻(xiàn)

      [1] 孫杰,關(guān)毅.基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J].中文信息報(bào),20(0):17-22.

      [2] 黃紹杉.基于統(tǒng)計(jì)與規(guī)則的專(zhuān)利摘要信息抽取[D].北京:中國(guó)科學(xué)技術(shù)信息研究所,2045.

      作者簡(jiǎn)介

      才讓卓瑪(1994-),族,甘肅碌曲人;畢業(yè)院校:西北民族大學(xué)中國(guó)民族信息技術(shù)研究,學(xué)歷:碩士研究院?,F(xiàn)就職單位:西北民族大學(xué)中國(guó)民族語(yǔ)言文字信息技術(shù)教育部重點(diǎn)實(shí),研究方向:藏文信息處理技術(shù)。

      猜你喜歡
      藏語(yǔ)語(yǔ)料庫(kù)規(guī)則
      淺談藏語(yǔ)中的禮儀語(yǔ)
      客聯(lián)(2022年2期)2022-04-29 22:05:07
      撐竿跳規(guī)則的制定
      數(shù)獨(dú)的規(guī)則和演變
      漢藏語(yǔ)及其音樂(lè)
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      藏語(yǔ)拉達(dá)克話(huà)的幾個(gè)語(yǔ)音特征
      西藏研究(2017年3期)2017-09-05 09:44:58
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
      藏語(yǔ)地理分布格局的形成原因
      西藏研究(2016年5期)2016-06-15 12:56:42
      信阳市| 连山| 兴国县| 沅江市| 新和县| 尚义县| 彩票| 阜平县| 西乌珠穆沁旗| 贺州市| 玛多县| 文安县| 交城县| 吴桥县| 满城县| 延长县| 郯城县| 隆回县| 丰顺县| 罗定市| 沙坪坝区| 安顺市| 西昌市| 玛曲县| 德格县| 靖西县| 阿荣旗| 安康市| 开平市| 三门县| 峨边| 河源市| 朔州市| 日喀则市| 内乡县| 武强县| 察雅县| 龙泉市| 虞城县| 大邑县| 兴安盟|