• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)構(gòu)建方法研究

      2023-05-05 03:40:00仁青卓么張丹完么措
      電子技術(shù)與軟件工程 2023年2期
      關(guān)鍵詞:藏語(yǔ)句法短語(yǔ)

      仁青卓么 張丹 完么措

      (1.青海師范大學(xué)計(jì)算機(jī)學(xué)院 青海省西寧市 810001)

      (2.西北民族大學(xué)中國(guó)語(yǔ)言文學(xué)學(xué)部 甘肅省蘭州市 730000)

      在任何一種語(yǔ)言中,短語(yǔ)結(jié)構(gòu)的分析與描述是進(jìn)行句法研究的核心內(nèi)容。如果我們把各類詞組的結(jié)構(gòu)和功能都足夠詳細(xì)地描述清楚了,那么句子的結(jié)構(gòu)實(shí)際上也就描述清楚了,因?yàn)榫渥硬贿^是獨(dú)立的詞組而已[1]。短語(yǔ)是最重要的語(yǔ)法單位,在語(yǔ)言分析中起著舉足輕重的作用,其構(gòu)造原則同句子的構(gòu)造原則基本一致,內(nèi)部結(jié)構(gòu)也比較穩(wěn)定,往往作為一個(gè)整體與句子中的其他成分發(fā)生作用。在自然語(yǔ)言處理中,短語(yǔ)作為語(yǔ)言分析的一個(gè)層次,占有十分重要的位置。有效的短語(yǔ)分析對(duì)降低其后句法分析難度,縮小句法分析器的搜索空間,提高機(jī)器翻譯的翻譯正確率是很有幫助的[2]。

      藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)是依據(jù)句子的核心成分(即謂語(yǔ)),通過分析句子中各個(gè)語(yǔ)言單位之間的句法功能和語(yǔ)義關(guān)系,從大到小,從長(zhǎng)到短的依次分析構(gòu)成句子的各類短語(yǔ)結(jié)構(gòu),直至詞層面為止,而這樣產(chǎn)生的短語(yǔ)結(jié)構(gòu)規(guī)則庫(kù)在處理涉及短語(yǔ)和句子的各類語(yǔ)言現(xiàn)象時(shí)能夠作為一定的依據(jù)和標(biāo)準(zhǔn),對(duì)短語(yǔ)結(jié)構(gòu)進(jìn)行深入分析,從而進(jìn)一步加強(qiáng)對(duì)句法結(jié)構(gòu)的分析和研究。同時(shí),在語(yǔ)言運(yùn)用中能夠有效提高短語(yǔ)和句子結(jié)構(gòu)的識(shí)別和處理能力。而構(gòu)建語(yǔ)言分析模型可以自動(dòng)識(shí)別各類短語(yǔ)結(jié)構(gòu),實(shí)現(xiàn)短語(yǔ)的自動(dòng)劃分與標(biāo)注,還可以進(jìn)一步對(duì)藏語(yǔ)短語(yǔ)進(jìn)行深層次的分析,為藏漢機(jī)器翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)提供規(guī)則庫(kù)的支持。

      在進(jìn)行語(yǔ)料的加工和處理時(shí),詞和短語(yǔ)等的自動(dòng)劃分和標(biāo)注研究顯得至關(guān)重要。藏語(yǔ)短語(yǔ)劃分和標(biāo)注的理論,以及有關(guān)技術(shù)的研究和實(shí)現(xiàn)等不僅可以為構(gòu)建大規(guī)模的,其他各種類型的藏語(yǔ)語(yǔ)料庫(kù)提供理論和方法支持,也能應(yīng)用到各類藏語(yǔ)語(yǔ)料庫(kù)的深入分析和研究當(dāng)中。

      1 樹庫(kù)概述

      樹庫(kù)是指對(duì)自然語(yǔ)言進(jìn)行句法或語(yǔ)義標(biāo)注后,以樹形結(jié)構(gòu)存儲(chǔ)的一種語(yǔ)言資源[3]。構(gòu)建樹庫(kù)的過程實(shí)際上就是分析句子生成的過程,可以對(duì)不同層次的,構(gòu)成句子的每一個(gè)成分進(jìn)行特征與組合規(guī)則的詳細(xì)描述。短語(yǔ)結(jié)構(gòu)樹庫(kù)是依據(jù)句子的核心成分(即謂語(yǔ)),從大到小,從長(zhǎng)到短的依次分析構(gòu)成句子的各類短語(yǔ),直至詞層面為止,從而分析句子的構(gòu)成過程,標(biāo)注其句法結(jié)構(gòu)或語(yǔ)義關(guān)系。樹庫(kù)的構(gòu)建工作在任何一個(gè)語(yǔ)言當(dāng)中都顯得至關(guān)重要,尤其在自然語(yǔ)言處理領(lǐng)域,樹庫(kù)是很重要的語(yǔ)言知識(shí)資源,能夠?yàn)檎Z(yǔ)言研究和語(yǔ)言信息處理提供很好的數(shù)據(jù)平臺(tái)。目前,世界上成規(guī)模的樹庫(kù)主要有短語(yǔ)結(jié)構(gòu)樹庫(kù)和依存結(jié)構(gòu)樹庫(kù)兩種類型。在中文領(lǐng)域,成規(guī)模的中文樹庫(kù)主要有賓州中文樹庫(kù)、Sinica 中文樹庫(kù)、清華中文樹庫(kù)、國(guó)家語(yǔ)委中文樹庫(kù)、北大中文樹庫(kù)、哈工大中文依存樹庫(kù)及北師大句本位句式結(jié)構(gòu)樹庫(kù)[4]。

      國(guó)外關(guān)于句法分析的研究是從20 紀(jì)50年代開始的。國(guó)外在樹庫(kù)構(gòu)建方面取得了較好的成效,其中從規(guī)模和質(zhì)量上在看,英語(yǔ)樹庫(kù)的構(gòu)建工作相對(duì)成熟,其中比較大的樹庫(kù)有英國(guó)Lancaster 大學(xué)UCREL 的Lancaster 樹庫(kù)和美國(guó)的Pennsyvania 大學(xué)的Penn 樹庫(kù),前者的標(biāo)記體系規(guī)模較大,從不同層面描述了詳細(xì)的短語(yǔ)句法信息,而后者的標(biāo)記則較為簡(jiǎn)單,只有14 個(gè)句法標(biāo)記。以下是對(duì)各類語(yǔ)言的樹庫(kù)構(gòu)建情況所做的概況,如表1所示。

      表1:各類語(yǔ)言的樹庫(kù)構(gòu)建情況

      雖然全部機(jī)器學(xué)習(xí)技術(shù)都可以被認(rèn)為是基于過去的觀測(cè)學(xué)習(xí)如何做出預(yù)測(cè),但是深度學(xué)習(xí)方法不僅學(xué)習(xí)預(yù)測(cè),而且學(xué)習(xí)正確地表示數(shù)據(jù),以使其更有助于預(yù)測(cè)[5]。近年來,越來越多的研究人員在藏語(yǔ)短語(yǔ)和句子的層次分析方面進(jìn)行了大量探索和深入研究,積累了許多有價(jià)值和可供參考的研究成果,可運(yùn)用到短語(yǔ)結(jié)構(gòu)樹庫(kù)的標(biāo)注過程當(dāng)中,為樹庫(kù)的構(gòu)建工作提供有力的支持。

      2 藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)的構(gòu)建

      在藏文傳統(tǒng)文法中,有關(guān)短語(yǔ)的論述并不多,然而這并不表示在藏文文法體系完善,欠缺有關(guān)內(nèi)容,而是沒有在語(yǔ)言運(yùn)用層面進(jìn)行相應(yīng)的分析研究。在藏文傳統(tǒng)文法中,對(duì)藏語(yǔ)短語(yǔ)的名稱和概念,以及分類等都沒有形成一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。關(guān)于短語(yǔ)的名稱,藏族學(xué)者的看法有所不一,分別有“??????? ???????? ??????????????”三種,其中以“??????????????”居多;關(guān)于短語(yǔ)的定義,分別在五個(gè)藏文語(yǔ)法書中有所界定,基本都是根據(jù)短語(yǔ)的形式和功能進(jìn)行的定義。根據(jù)本人之前做過的一些研究工作和進(jìn)行的總結(jié),藏語(yǔ)短語(yǔ)的概念可定義為:相關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的詞用格助詞進(jìn)行連接,能區(qū)別意義的,充當(dāng)句子成分的語(yǔ)言單位。這是依據(jù)短語(yǔ)在句子中的位置和功能進(jìn)行的概念界定。而對(duì)短語(yǔ)的分類大多是依據(jù)藏語(yǔ)的四大根本詞類進(jìn)行相應(yīng)的四類短語(yǔ)的劃分,即動(dòng)詞短語(yǔ),名詞短語(yǔ),數(shù)量詞短語(yǔ)和形容詞短語(yǔ)。

      近年來,從信息處理的角度藏語(yǔ)短語(yǔ)進(jìn)行研究的論文層出不窮。其中,《面向語(yǔ)言信息處理的藏語(yǔ)短語(yǔ)及其分類方法研究》[6-9]等文章中,主要研究藏語(yǔ)短語(yǔ)的結(jié)構(gòu)和規(guī)則,分布特征,分類信息等內(nèi)容;《基于短語(yǔ)的藏英統(tǒng)計(jì)機(jī)器翻譯關(guān)鍵技術(shù)研究》[10-12]等文章中,通過對(duì)藏漢,藏英機(jī)器翻譯系統(tǒng)工作原理的研究,提出了構(gòu)建基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型,嘗試提高藏英或藏漢機(jī)器翻譯的性能;《基于句法樹的藏語(yǔ)最長(zhǎng)名詞短語(yǔ)識(shí)別》[13-15]等文章中,通過分析的藏語(yǔ)短語(yǔ)的統(tǒng)計(jì)特征,提出了識(shí)別和抽取有關(guān)藏語(yǔ)短語(yǔ)結(jié)構(gòu)的算法和模型等。藏語(yǔ)樹庫(kù)的構(gòu)建工作也相繼起步,有關(guān)研究成果有扎西加,多拉的《藏語(yǔ)依存樹庫(kù)構(gòu)建的理論與方法探析》[16]等,這些論文結(jié)合藏語(yǔ)自身的語(yǔ)法特點(diǎn),在論文中提到了相關(guān)樹庫(kù)構(gòu)建的理論和方法,樹庫(kù)的構(gòu)建模式和構(gòu)建技術(shù),并通過樹庫(kù)的構(gòu)建,制定出了相應(yīng)的標(biāo)記和規(guī)范,設(shè)計(jì)實(shí)現(xiàn)了標(biāo)注工具,對(duì)相關(guān)樹庫(kù)進(jìn)行了較為詳盡的分析研究。

      2.1 基于深度學(xué)習(xí)的藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)的構(gòu)建

      語(yǔ)料庫(kù)是對(duì)語(yǔ)言知識(shí)的表示,而樹庫(kù)是對(duì)語(yǔ)料進(jìn)行過深加工之后形成的資源庫(kù),既可作為對(duì)語(yǔ)言學(xué)和自然語(yǔ)言進(jìn)行深入分析研究的重要依據(jù),也是語(yǔ)料庫(kù)語(yǔ)言學(xué)和自然語(yǔ)言處理技術(shù)發(fā)展到一定階段的產(chǎn)物。標(biāo)注樹庫(kù)是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作,需要完善的標(biāo)注體系和規(guī)范的標(biāo)注流程以保證標(biāo)注的質(zhì)量。另一方面,由于標(biāo)注規(guī)范的復(fù)雜性,需要標(biāo)注者擁有相關(guān)的專業(yè)背景。即使這樣,標(biāo)注者對(duì)句子的不同理解也會(huì)產(chǎn)生不同的標(biāo)注結(jié)果,這為樹庫(kù)的建設(shè)帶來了一定的困難[17]。藏語(yǔ)是謂語(yǔ)后置性語(yǔ)言,加之藏語(yǔ)虛詞,即自由虛詞和不自由虛詞在句子中的功能非常強(qiáng)大,起著連接句子前后的紐帶作用,因此,在進(jìn)行藏語(yǔ)短語(yǔ)標(biāo)注樹庫(kù)的建設(shè)時(shí),在借鑒其他語(yǔ)言樹庫(kù)構(gòu)建的理論和方法外,還要根據(jù)藏語(yǔ)自身的特點(diǎn),進(jìn)行細(xì)致入微的分析。

      樹結(jié)構(gòu)這種層次標(biāo)注方法可以很詳細(xì)的描述出句法信息等,但是必須遵循一定的語(yǔ)法規(guī)則。樹庫(kù)的構(gòu)建都是在特定的語(yǔ)法理論的框架下制定標(biāo)注規(guī)范的,不同結(jié)構(gòu)類型的樹庫(kù)之間最本質(zhì)的區(qū)別不在于采用了何種標(biāo)注體系,而在于依照何種語(yǔ)法體系制定的該標(biāo)注體系。從這個(gè)角度上講,短語(yǔ)結(jié)構(gòu)樹庫(kù)最本質(zhì)的特征在于其標(biāo)注體系的制定是站在“短語(yǔ)”的角度,采用了“短語(yǔ)中心”的語(yǔ)法理論,這種語(yǔ)法理論是通過直接描寫句子“直接成分”(如主謂、定中、述賓、附加等)的方式分析句子的結(jié)構(gòu),進(jìn)而制定標(biāo)注體系[18]。因此,在進(jìn)行短語(yǔ)結(jié)構(gòu)的標(biāo)注實(shí)踐時(shí),需要以完整的層次結(jié)構(gòu)樹為基礎(chǔ),通過對(duì)10000 個(gè)藏語(yǔ)句子進(jìn)行標(biāo)注,首先完成對(duì)各種復(fù)雜的語(yǔ)言現(xiàn)象的分析和標(biāo)記,進(jìn)而對(duì)結(jié)構(gòu)樹上的每個(gè)短語(yǔ)結(jié)構(gòu)節(jié)點(diǎn)進(jìn)行標(biāo)記,即結(jié)構(gòu)標(biāo)記和關(guān)系標(biāo)記 ,形成雙標(biāo)記集的句法信息描述體系,進(jìn)而制定藏語(yǔ)短語(yǔ)結(jié)構(gòu)樹庫(kù)的標(biāo)注體系。樹庫(kù)的標(biāo)注工作是在對(duì)藏語(yǔ)短語(yǔ)結(jié)構(gòu)的句法語(yǔ)義進(jìn)行深入研究的基礎(chǔ)上,通過對(duì)句子層次結(jié)構(gòu)的標(biāo)注實(shí)踐過程,形成一個(gè)計(jì)算機(jī)可分析和理解的藏語(yǔ)短語(yǔ)結(jié)構(gòu)規(guī)則庫(kù)。

      2.1.1 通過標(biāo)記的形式進(jìn)行語(yǔ)料中短語(yǔ)邊界的確定檢測(cè)

      首先選取各類藏語(yǔ)句子進(jìn)行短語(yǔ)結(jié)構(gòu)的標(biāo)注,目的在于建立一個(gè)較為完整的藏語(yǔ)短語(yǔ)結(jié)構(gòu)樹庫(kù)。因?yàn)榫渥拥拈L(zhǎng)短不一,為了節(jié)省空間,便于標(biāo)注,對(duì)短語(yǔ)結(jié)構(gòu)的劃分主要采用括號(hào)(bracket)標(biāo)注的方式,將句子中由兩個(gè)或以上詞類形成的短語(yǔ)左右添加括號(hào),形成相應(yīng)的括號(hào)對(duì)后標(biāo)記相應(yīng)的短語(yǔ)結(jié)構(gòu)類型的標(biāo)記,依靠語(yǔ)言知識(shí)進(jìn)行校對(duì)。而從短語(yǔ)結(jié)構(gòu)標(biāo)注語(yǔ)料中提取各類短語(yǔ)結(jié)構(gòu)時(shí),采用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,從各類短語(yǔ)的結(jié)構(gòu)出發(fā),以構(gòu)成各類短語(yǔ)的核心成分作為標(biāo)志,獲得短語(yǔ)結(jié)構(gòu)的候選項(xiàng),利用統(tǒng)計(jì)算法和短語(yǔ)規(guī)則庫(kù)對(duì)候選項(xiàng)進(jìn)行檢測(cè),以獲得各類短語(yǔ)結(jié)構(gòu)。

      藏語(yǔ)短語(yǔ)標(biāo)注和規(guī)范的制訂是藏語(yǔ)自然語(yǔ)言處理的重點(diǎn)內(nèi)容。通過句法語(yǔ)義分析,對(duì)各類藏語(yǔ)句子中的短語(yǔ)進(jìn)行劃分與標(biāo)注,制定相應(yīng)的工程規(guī)范是開展各項(xiàng)研究的基礎(chǔ)。此項(xiàng)任務(wù)開展的關(guān)鍵是:在一個(gè)完整的句子當(dāng)中,需要著重分析句子的組成成分和結(jié)構(gòu),以及組成句子的詞和短語(yǔ)間的組合形式及搭配規(guī)則,進(jìn)行對(duì)不同類型的短語(yǔ)的分析和同一類型下不同類型短語(yǔ)的形式和區(qū)分規(guī)則的歸納總結(jié),以制定在尊重語(yǔ)言事實(shí)的情況下,符合藏語(yǔ)自身規(guī)律和全面概括藏語(yǔ)短語(yǔ)規(guī)則的短語(yǔ)標(biāo)注體系。

      2.1.2 建立藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)

      如圖1所示,藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)構(gòu)建的基本流程為:首先,在保證藏語(yǔ)句子的完整性的前提下,借助表示一個(gè)藏語(yǔ)句子的單垂符或雙垂符的標(biāo)志,從大規(guī)模的藏文原始文本中抽取各類藏語(yǔ)句子作為處理文本;然后采用詞類、短語(yǔ)劃分與標(biāo)注的國(guó)家標(biāo)準(zhǔn)對(duì)整理完成的文本進(jìn)行詞類和短語(yǔ)的劃分與標(biāo)注,進(jìn)行人工校對(duì)。在建立短語(yǔ)結(jié)構(gòu)樹庫(kù)時(shí),采用人工標(biāo)注的方式,并結(jié)合其他的一些標(biāo)注工具進(jìn)行5000 句的短語(yǔ)結(jié)構(gòu)樹的構(gòu)建工作,進(jìn)行初步測(cè)試,之后再進(jìn)行剩下5000 句的短語(yǔ)結(jié)構(gòu)樹的構(gòu)建工作,以便最后建立一個(gè)藏語(yǔ)短語(yǔ)結(jié)構(gòu)樹庫(kù)的標(biāo)注體系。

      圖1:短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)構(gòu)建基本流程圖

      一直以來,藏語(yǔ)語(yǔ)言學(xué)家在藏語(yǔ)語(yǔ)法研究方面進(jìn)行了很深入研究,積累了很多有價(jià)值的研究經(jīng)驗(yàn),這些可充分吸收到藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)的構(gòu)建工作當(dāng)中。

      藏語(yǔ)句法分析是藏語(yǔ)自然語(yǔ)言處理中最根本的理論基礎(chǔ)和關(guān)鍵技術(shù)。句法樹庫(kù)是以句子的構(gòu)成成分和組合規(guī)則為依據(jù)生成不同類型的短語(yǔ)結(jié)構(gòu)樹,從而揭示句子中詞與詞、短語(yǔ)與短語(yǔ)間的語(yǔ)法結(jié)構(gòu)和語(yǔ)義關(guān)系。短語(yǔ)結(jié)構(gòu)樹可以對(duì)句子的不同層次的短語(yǔ)結(jié)構(gòu)及其組成成分的特點(diǎn)進(jìn)行細(xì)致入微的描述,但由于有些句子太長(zhǎng),層次太多,標(biāo)注和分析會(huì)顯得較為麻煩,而且在中心詞的判定上會(huì)出現(xiàn)判定不準(zhǔn)的情況。因此,在藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注的過程中要兼顧對(duì)句子層次和句法信息的觀察,以獲取任一句子完整準(zhǔn)確的句法層次樹,從而制訂藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注規(guī)范尤為重要。

      2.2 對(duì)各類藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹的分析研究

      對(duì)各類短語(yǔ)結(jié)構(gòu)類型的統(tǒng)計(jì)和分析能夠?yàn)闃鋷?kù)的構(gòu)建提供豐富的資源。藏文信息處理的研究?jī)?nèi)容包括詞法分析,句法分析,語(yǔ)義分析和語(yǔ)用分析等,而在詞法分析階段已經(jīng)取得了較好的成果,目前正轉(zhuǎn)向句法和語(yǔ)義分析階段。在運(yùn)用有關(guān)短語(yǔ)結(jié)構(gòu)的語(yǔ)法理論,參照漢英等其他民族語(yǔ)言中的短語(yǔ)研究和處理實(shí)踐等相關(guān)研究成果的基礎(chǔ)上,從各類藏語(yǔ)短語(yǔ)結(jié)構(gòu)樹中得到較為詳細(xì)和全面的句法結(jié)構(gòu)和語(yǔ)義信息的研究漸趨重要。短語(yǔ)的句法成分分析,指各種藏語(yǔ)短語(yǔ)在句子中充當(dāng)了哪些成分;短語(yǔ)的語(yǔ)義角色分析,分析藏語(yǔ)短語(yǔ)在語(yǔ)言運(yùn)用中扮演的角色[19]。通過句法和語(yǔ)義標(biāo)注的短語(yǔ)結(jié)構(gòu)規(guī)則庫(kù)在處理涉及藏語(yǔ)短語(yǔ)和句子的各類語(yǔ)言現(xiàn)象時(shí)能夠作為一定的依據(jù)和標(biāo)準(zhǔn)。此外,在對(duì)短語(yǔ)結(jié)構(gòu)規(guī)則進(jìn)行深入研究的基礎(chǔ)上,進(jìn)一步加強(qiáng)句法結(jié)構(gòu)的分析和研究,能夠?qū)Χ陶Z(yǔ)的結(jié)構(gòu)規(guī)則產(chǎn)生更為深刻的理解,在語(yǔ)言運(yùn)用過程中,能夠有效提高短語(yǔ)和句子結(jié)構(gòu)的識(shí)別和處理能力。通過構(gòu)建樹庫(kù)進(jìn)行句法分析等的方法不僅行之有效,在實(shí)際應(yīng)用當(dāng)中也取得了較好的成效。

      本課題的研究將在遵循有關(guān)短語(yǔ)樹庫(kù)的構(gòu)建與藏語(yǔ)語(yǔ)法理論的前提下,依托句子的環(huán)境,試圖從句法和語(yǔ)義兩個(gè)層級(jí)上分析和歸納藏語(yǔ)各類短語(yǔ)結(jié)構(gòu)的組合規(guī)則,對(duì)短語(yǔ)進(jìn)行深層分析,以解決在面向自然語(yǔ)言處理時(shí)遇到的有關(guān)藏語(yǔ)短語(yǔ)研究的各類問題。

      對(duì)于短語(yǔ)結(jié)構(gòu)的規(guī)則的描述,應(yīng)該考慮以下因素:

      (1)核心詞的描述:分析短語(yǔ)結(jié)構(gòu)中核心詞的功能和語(yǔ)義搭配能力;

      (2)外部特征和功能描述:在較長(zhǎng)的短語(yǔ)或者嵌套短語(yǔ)中,分析其組合特征和與其他短語(yǔ)間的從屬關(guān)系和組合規(guī)則;

      (3)短語(yǔ)結(jié)構(gòu)中的內(nèi)部關(guān)系描述:分析短語(yǔ)結(jié)構(gòu)中各組成成分間的語(yǔ)義關(guān)系。

      句法分析和標(biāo)注是對(duì)語(yǔ)料庫(kù)進(jìn)行深加工和處理的一個(gè)重要的環(huán)節(jié)。句法分析和標(biāo)注的結(jié)果對(duì)進(jìn)一步進(jìn)行藏語(yǔ)句子語(yǔ)義關(guān)系等的分析和標(biāo)注提供有力的支持。通過正確的和完整的句法信息的描述,借助一個(gè)語(yǔ)義知識(shí)庫(kù)和自動(dòng)標(biāo)注工具,可以準(zhǔn)確地標(biāo)注出有關(guān)句子或短語(yǔ)等的語(yǔ)義信息。

      藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)的構(gòu)建需要進(jìn)行短語(yǔ)結(jié)構(gòu)的劃分和標(biāo)注,因此,依據(jù)相關(guān)分析理論,應(yīng)用一些實(shí)體標(biāo)注工具和句法分析器主要進(jìn)行句法信息的描述尤為重要。句法標(biāo)注(Syntax Tagging,ST)是以一定的語(yǔ)法理論為指導(dǎo),將句法結(jié)構(gòu)形式化,便于計(jì)算機(jī)處理。短語(yǔ)結(jié)構(gòu)語(yǔ)法(Phrase Structure Grammar,PSG)和依存語(yǔ)法(Dependency Grammar,DG)是現(xiàn)有句法標(biāo)注的兩種理論[20]。從自然語(yǔ)言處理的角度對(duì)藏語(yǔ)短語(yǔ)進(jìn)行句法功能和語(yǔ)義關(guān)系等的描述時(shí),使用這兩種理論體系能夠詳細(xì)準(zhǔn)確的標(biāo)注出藏語(yǔ)短語(yǔ)的句法和語(yǔ)義關(guān)系。在語(yǔ)料中對(duì)短語(yǔ)結(jié)構(gòu)的標(biāo)記形式如表2所示。

      表2:藏語(yǔ)短語(yǔ)的標(biāo)注形式

      短語(yǔ)結(jié)構(gòu)語(yǔ)法(Phrase Structure Grammar,PSG)和依存語(yǔ)法(Dependency Grammar,DG)的句法分析技術(shù);

      Chomsky 將語(yǔ)言分成句法,語(yǔ)義,語(yǔ)音三個(gè)部分,其中,句法部分是最為重要的,它不僅構(gòu)成了句子的深層結(jié)構(gòu),也能將其轉(zhuǎn)換成表層結(jié)構(gòu)。語(yǔ)義部分對(duì)句子的深層結(jié)構(gòu)進(jìn)行語(yǔ)義結(jié)構(gòu)的說明,而語(yǔ)音部分對(duì)表層結(jié)構(gòu)做出語(yǔ)音說明(語(yǔ)言的神經(jīng)機(jī)制)。Chomsky 語(yǔ)言學(xué)的特點(diǎn)是更注重于語(yǔ)言的結(jié)構(gòu)轉(zhuǎn)換規(guī)則的研究。他認(rèn)為,短語(yǔ)規(guī)則是形成句子的一套規(guī)則。短語(yǔ)結(jié)構(gòu)的標(biāo)注是通過句子層面到詞層面,句子的外部結(jié)構(gòu)到內(nèi)部關(guān)系,從最長(zhǎng)短語(yǔ)到最短短語(yǔ)(準(zhǔn)短語(yǔ))進(jìn)行的描述出藏語(yǔ)句子的句法信息,覆蓋藏語(yǔ)詞,短語(yǔ),句段等各個(gè)層次的句法單元。

      規(guī)則(1)S →NP VP(2)NP →NP NP(3)VP →VP NP(4)NP →NP NP(5)NP →nn gi(6)NP →nn gi(7)VP →vt VP(8)NP →nn qj(9)VP →vu gi

      其短語(yǔ)結(jié)構(gòu)樹庫(kù)如圖2所示。

      圖2:藏語(yǔ)短語(yǔ)結(jié)構(gòu)樹示意圖

      圖3:藏語(yǔ)依存關(guān)系分析圖

      本文通過對(duì)藏語(yǔ)句子進(jìn)行句法結(jié)構(gòu)和語(yǔ)義信息的標(biāo)注后,提出了符合藏語(yǔ)規(guī)范的句法樹庫(kù)標(biāo)注體系,對(duì)句子中各種結(jié)構(gòu)進(jìn)行了很好的分析與標(biāo)注,并在應(yīng)用階段能夠得到驗(yàn)證。

      2.3 基于深度學(xué)習(xí)的藏語(yǔ)短語(yǔ)結(jié)構(gòu)分析模型的建立

      通常情況下,使用一些工具去進(jìn)行數(shù)據(jù)的挖掘是需要用到不同的數(shù)據(jù)分析模型的。傳統(tǒng)的研究方法主要是基于統(tǒng)計(jì)學(xué)的模型,近年來基于神經(jīng)網(wǎng)路的語(yǔ)言模型也得到廣泛應(yīng)用,并取得了一定的成效。將深度學(xué)習(xí)的方法運(yùn)用到構(gòu)建藏語(yǔ)短語(yǔ)結(jié)構(gòu)分析模型的工作中,需要把藏語(yǔ)短語(yǔ)句法結(jié)構(gòu)標(biāo)注樹庫(kù)作為語(yǔ)義知識(shí)資源,采用以句法功能為主,語(yǔ)義為輔的策略,先為短語(yǔ)中的每一個(gè)實(shí)詞構(gòu)造“詞圖”,然后合并“詞圖”而組成“短語(yǔ)圖”,最后得到一個(gè)關(guān)于藏語(yǔ)短語(yǔ)結(jié)構(gòu)信息和語(yǔ)義信息的知識(shí)圖[21]。

      非線性神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型可以解決一些傳統(tǒng)語(yǔ)言模型中的問題:它可以在增加上下文規(guī)模的同時(shí)參數(shù)僅呈線性增長(zhǎng),緩解了手工設(shè)計(jì)退避規(guī)則的需要,支持不同上下文的泛化性能。

      神經(jīng)網(wǎng)絡(luò)的輸入是k元文法w1:k,輸出是下一個(gè)詞的概率分布。k個(gè)上下文詞w1:k當(dāng)作一個(gè)單詞窗口:每個(gè)詞w和詞嵌入的對(duì)應(yīng),輸入向量x是k個(gè)詞的串拼接。

      輸入的x 之后被傳給一個(gè)擁有一個(gè)或多個(gè)隱層的多層感知器(MLP):

      V 是一個(gè)有限的詞表,包括針對(duì)未登錄單詞的唯一標(biāo)識(shí)UNK,句子開頭的補(bǔ)齊符號(hào)。詞表的大小|V 丨在10 000 到1 000 000 詞之間,常見規(guī)模大概在70 000 左右[22]。

      綜上所述,藏語(yǔ)短語(yǔ)結(jié)構(gòu)標(biāo)注樹庫(kù)構(gòu)建技術(shù)的研究工作顯得刻不容緩,是進(jìn)行藏語(yǔ)句法分析和構(gòu)建藏語(yǔ)短語(yǔ)分析模型的主要依據(jù)?!霸诶碚撜Z(yǔ)言學(xué)和計(jì)算語(yǔ)言學(xué)研究中,樹庫(kù)的重要性都日益凸顯,是連接兩者的橋梁:在理論語(yǔ)言學(xué)領(lǐng)域,樹庫(kù)為語(yǔ)言學(xué)家提供了基于真實(shí)語(yǔ)言的數(shù)據(jù),為完善和驗(yàn)證傳統(tǒng)的語(yǔ)言學(xué)理論奠定了堅(jiān)實(shí)的基礎(chǔ);在計(jì)算語(yǔ)言學(xué)領(lǐng)域,依據(jù)樹庫(kù)建立的語(yǔ)言模型提高了自動(dòng)句法分析和機(jī)器翻譯的準(zhǔn)確率,推進(jìn)了機(jī)器理解自然語(yǔ)言的步伐。[23]”藏語(yǔ)短語(yǔ)結(jié)構(gòu)樹庫(kù)的構(gòu)建,可以對(duì)構(gòu)成句子成分的每一個(gè)短語(yǔ)結(jié)構(gòu)進(jìn)行詳細(xì)的觀察,依托句子的環(huán)境定義短語(yǔ)的概念,劃分短語(yǔ)的類別,進(jìn)行大類之下一些小類短語(yǔ)的細(xì)致區(qū)分,明確句子和短語(yǔ)的區(qū)別,可填補(bǔ)有關(guān)藏語(yǔ)短語(yǔ)研究在傳統(tǒng)文法中提及甚少,未詳細(xì)定義的空白。對(duì)于短語(yǔ)的識(shí)別問題,采用基于深度學(xué)習(xí)的短語(yǔ)結(jié)構(gòu)樹的識(shí)別技術(shù),不僅可以快速有效大量處理相關(guān)數(shù)據(jù),而且還能綜合提高識(shí)別性能。在自然語(yǔ)言處理領(lǐng)域中,短語(yǔ)的正確識(shí)別和分析對(duì)機(jī)器翻譯、信息檢索、文本分類以及句法分析都具有重要作用。

      Chomsky 在《信息論雜志》中指出,語(yǔ)言理論試圖解釋說話人在其有限的語(yǔ)言經(jīng)驗(yàn)的基礎(chǔ)上生成和理解新的句子并拒絕其他不合語(yǔ)法的新序列的能力。這是研究語(yǔ)言學(xué)理論的實(shí)質(zhì)問題。構(gòu)建樹庫(kù)的一個(gè)重要意義在于通過生成一定的語(yǔ)言規(guī)則,結(jié)合一定的理論體系分析和驗(yàn)證各種語(yǔ)言現(xiàn)象,進(jìn)而自動(dòng)生成更多的合乎語(yǔ)法的結(jié)構(gòu)。因此,通過觀察各種語(yǔ)言現(xiàn)象,根據(jù)語(yǔ)言經(jīng)驗(yàn),歸納總結(jié)其中的語(yǔ)言規(guī)則是非常重要的。短語(yǔ)結(jié)構(gòu)分析模型的建立是要通過統(tǒng)計(jì)歸納的語(yǔ)言規(guī)則,建立一個(gè)統(tǒng)計(jì)語(yǔ)言模型,以期能夠自動(dòng)生成合乎語(yǔ)法的新序列的能力,即從任一句子中能夠自動(dòng)生成各類短語(yǔ)結(jié)構(gòu)。

      3 結(jié)束語(yǔ)

      藏語(yǔ)短語(yǔ)結(jié)構(gòu)的劃分與標(biāo)注是構(gòu)建樹庫(kù),進(jìn)行句法語(yǔ)義分析的基礎(chǔ),亦是進(jìn)行相關(guān)任務(wù)研究必不可少的條件。本文的研究是跨藏語(yǔ)語(yǔ)法研究和藏文信息處理兩個(gè)領(lǐng)域進(jìn)行的。一方面,研究的具體結(jié)果對(duì)推進(jìn)藏文信息處理技術(shù)的發(fā)展有直接的應(yīng)用和參考價(jià)值;另一方面,從藏文信息處理的角度來審視藏語(yǔ)語(yǔ)法研究,可以從多方位的研究視角去觀察藏語(yǔ)語(yǔ)法中的相關(guān)問題,進(jìn)行詳細(xì)和規(guī)范的描述,進(jìn)而完善藏語(yǔ)語(yǔ)法體系。

      本文研究的主要目的在于面向自然語(yǔ)言處理的實(shí)際需要,以形式化的方式對(duì)藏語(yǔ)各類短語(yǔ)結(jié)構(gòu)規(guī)則進(jìn)行較為全面的描述,預(yù)期目標(biāo)是完成一個(gè)帶有句法語(yǔ)義信息標(biāo)注的藏語(yǔ)短語(yǔ)結(jié)構(gòu)樹庫(kù),這樣的樹庫(kù)可以給一些應(yīng)用系統(tǒng)的開發(fā)提供直接的規(guī)則庫(kù)的支持。隨著自然語(yǔ)言處理的迅速發(fā)展,對(duì)自然語(yǔ)言進(jìn)行深層分析,比如機(jī)器翻譯,信息檢索,自動(dòng)文摘等成為當(dāng)下最為主要的工作,開發(fā)這類應(yīng)用系統(tǒng),需要計(jì)算機(jī)掌握盡可能多的有關(guān)自然語(yǔ)言的知識(shí)和非語(yǔ)言知識(shí),以便進(jìn)行語(yǔ)言模型等的構(gòu)建,實(shí)現(xiàn)有關(guān)技術(shù)的進(jìn)一步發(fā)展與應(yīng)用。

      猜你喜歡
      藏語(yǔ)句法短語(yǔ)
      淺談藏語(yǔ)中的禮儀語(yǔ)
      客聯(lián)(2022年2期)2022-04-29 22:05:07
      句法與句意(外一篇)
      述謂結(jié)構(gòu)與英語(yǔ)句法配置
      漢藏語(yǔ)及其音樂
      句法二題
      詩(shī)詞聯(lián)句句法梳理
      藏語(yǔ)拉達(dá)克話的幾個(gè)語(yǔ)音特征
      西藏研究(2017年3期)2017-09-05 09:44:58
      藏語(yǔ)地理分布格局的形成原因
      西藏研究(2016年5期)2016-06-15 12:56:42
      纳雍县| 方正县| 珠海市| 启东市| 浪卡子县| 乐清市| 岳普湖县| 大安市| 青阳县| 阿坝县| 河津市| 修武县| 临桂县| 广安市| 武清区| 新巴尔虎右旗| 华蓥市| 桦甸市| 荣昌县| 聂荣县| 固原市| 保定市| 兴和县| 高碑店市| 林甸县| 望奎县| 溧水县| 浦江县| 呼伦贝尔市| 海安县| 盐边县| 岑溪市| 连江县| 寿阳县| 嘉峪关市| 稻城县| 新晃| 错那县| 望城县| 新巴尔虎左旗| 宁津县|