• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      越南語分詞軟件及其應(yīng)用

      2014-04-29 00:00:00劉克強(qiáng)

      摘 要:越南語是一門重要的東方語言,由于其書寫形式及本身的詞匯構(gòu)成與英語及漢語呈現(xiàn)相似的一面又具有自己的特點(diǎn),使得越南語的詞匯界定變得較為復(fù)雜。分詞在越南語的語言研究與語言教學(xué)中是必不可少的重要環(huán)節(jié)。但長期一來,越南語分詞的研究與介紹相對滯后。本文梳理了分詞軟件的分類,在此基礎(chǔ)上介紹了越南語分詞軟件,并闡述了分詞語料的應(yīng)用。

      關(guān)鍵詞:越南語;語料庫;分詞軟件

      中圖分類號:TP391.1

      包括越南國家本身,世界上約有九千萬人講越南語;按世界母語使用人數(shù)排行,越南語列第十六位,顯然,越南語已經(jīng)不是真正意義上的小語種,而是一門重要的語言。盡管越南語的語系歸屬尚未確定,有語言學(xué)者認(rèn)為越南語是一種孤立語言;較多的學(xué)者則認(rèn)為越南語屬于南亞語系的孟-高棉語族,但無容置疑的是越南語與印歐語言密切相關(guān)。在書寫形式上,現(xiàn)代越南語采用的是擴(kuò)展的拉丁符號;在組成上,越南語單音節(jié)詞居多;在形態(tài)上,語法意義是通過語法詞等詞來實現(xiàn)。以上特點(diǎn)使得越南語與西方語言與東方語言既有相似之處,又有區(qū)別。實際上,一般認(rèn)為,在越南語中,詞匯是由\"ti?ng\"(字)構(gòu)成。目前,越南語共有字八千左右。有的字本身就是一個詞,有的由二個字構(gòu)成,有的由三個字構(gòu)成,甚至有的由四、五個字構(gòu)成。因此越南語的詞匯構(gòu)成比較復(fù)雜,具體來講就是復(fù)合詞多,但由于在書寫上字與字之間有空格(有的字本身就是詞,也就是詞與詞之間有空格),這與英語等西方語言相似,而英語等書寫時空格是詞的天然分隔界線;越南語則需要判斷詞的構(gòu)成。其實,漢語由漢字組成,有的漢字本身就是一個詞,有的則不是,是由兩個或兩個以上的漢字構(gòu)成。在這一點(diǎn)上,越南語與漢語呈現(xiàn)出較強(qiáng)的相似性。在自然語言處理、語言研究等領(lǐng)域,詞匯劃界是第一步,也是最關(guān)鍵的一步。在分詞的實踐過程中,少量的語料可通過人工來完成,但大批量的語料通過人工來做顯然不可能。因此開發(fā)計算機(jī)程序來進(jìn)行自動分詞并進(jìn)行自動詞性標(biāo)注成為趨勢。以漢語為例,現(xiàn)在比較成熟的分詞軟件比較多,典型的有中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)分詞正確率高達(dá)97.58%,已被日本、新加坡、韓國、美國以及其他國家和地區(qū)的人員使用。(見劉克強(qiáng),2009);此外,教育部語言文字應(yīng)用研究所計算語言學(xué)研究室研制的CorpusWordParser也被廣大用戶使用。越南語分詞與標(biāo)注軟件發(fā)展相對緩慢,但近幾年來也有相當(dāng)不錯的幾件產(chǎn)品問世,促進(jìn)了越南語自然語言處理及越南語研究的發(fā)展。下面首先回顧下分詞軟件的發(fā)展與歷史,然后介紹越南語分詞軟件,最后說明分詞后的語料的作用。

      1 分詞軟件的類型及特點(diǎn)

      分詞軟件顧名思義一般是指給文本進(jìn)行分詞并標(biāo)注詞類的計算機(jī)程序。分詞軟件的研制始于英語語料。自從世界上第一個電子語料庫Brown語料庫于1964年問世,學(xué)者們經(jīng)過十年左右的努力,終于推出了第一個詞性標(biāo)注版的Brown語料庫。可以說,Brown語料庫無論是在語料庫建設(shè)方面還是在計算機(jī)自動詞性標(biāo)注方面都是開拓性的。Brown語料庫的標(biāo)注程序名為TAGGIT,是基于英語語言規(guī)則設(shè)計的,該程序工作分兩個階段:第一階段先給每個詞指定一個或幾個初始詞性,如“l(fā)ike”給出介詞、動詞、名詞、形容詞、連詞及副詞共六種初始詞性;第二階段運(yùn)用“上下文框架規(guī)則”進(jìn)行詞性排歧,盡可能地獲得唯一的詞性。程序使用的上下文框架規(guī)則多達(dá)3300條,標(biāo)注的準(zhǔn)確率為77%(GreeneRubin,1971),該系統(tǒng)采用86種詞性標(biāo)記。盡管現(xiàn)在看來準(zhǔn)確率較低,但當(dāng)時已為詞性自動標(biāo)注的一大突破,此后問世的其它類型的標(biāo)注軟件很多是在標(biāo)注后的Brown語料庫訓(xùn)練基礎(chǔ)上研制的。

      根據(jù)程序所使用的原理,可將軟件分成三類:基于語法規(guī)則;基于概率;基于神經(jīng)網(wǎng)絡(luò)/基于轉(zhuǎn)換(模板)。上述的TAGGIT是典型的基于語法規(guī)則的詞性標(biāo)注系統(tǒng),應(yīng)該說對于特定的語料,使用限于一定的范圍內(nèi),基于規(guī)則的錯誤率較低,但由于語言規(guī)則的不可窮盡性和語言的復(fù)雜性,特殊是語料容量龐大時,這種方法的局限性就明顯出來,準(zhǔn)確率會大打折扣。

      基于概率的方法,就是利用統(tǒng)計的方法,通過概率確定詞的具體詞性。LOB語料庫首先采用此方法。在英國蘭卡斯特(Lancaster)大學(xué)由著名語言學(xué)家Leech的領(lǐng)導(dǎo)下,研究小組根據(jù)LOB語料庫提供的133×133個標(biāo)注過渡矩陣研制了CLAWS(the Constituent Likelihood Automatic Word-tagging System)程序,使用133種詞性標(biāo)記,標(biāo)注準(zhǔn)確率達(dá)96-97%。此后不斷改進(jìn),目前推出CLAWS 4.0版,詞性標(biāo)記多達(dá)170個?;诟怕实姆椒ㄊ菧?zhǔn)確率高,能處理“不規(guī)范”的表達(dá),但由于使用的矩陣概率的方法,缺少語言學(xué)信息,不能處理相距較遠(yuǎn)的附碼。

      基于神經(jīng)網(wǎng)絡(luò)/基于轉(zhuǎn)換(模板)的方法,目前介紹較少,因此往往將基于轉(zhuǎn)換的方法稱為詞性標(biāo)注的第三種方法。該方法也使用概率統(tǒng)計原則,但與概率方法不同的是,在詞類最可能的概率獲得后,編制一套轉(zhuǎn)換規(guī)則的模板,用這模板重新標(biāo)注語料,再次產(chǎn)生新的規(guī)則,如此周而復(fù)始,直到?jīng)]有新的規(guī)則。此方法總體正確率高,效率也高,但缺點(diǎn)是如果標(biāo)注語料與訓(xùn)練語料語域類型不同時,則準(zhǔn)確率明顯下降,呈現(xiàn)不穩(wěn)定性。

      2 越南語詞性標(biāo)注軟件

      越南語的詞性標(biāo)注軟件發(fā)展相對滯后,據(jù)可獲得的文獻(xiàn),這些軟件基本都是在本世紀(jì)初近更近的時間研制的,目前可以下載共享的有VLSP(Vietnamese Language and Speech Processing),即越南越南語語言及言語處理項目組成員開發(fā)的系列軟件,其中包括分詞軟件,如VietTagger,JVnTagger及JVnTextPro。其中,后者兩者為前者的升級版,目前版本分別為JVnTagger 1.0.0,JVnTextPro 2.0;另一個就是越南河內(nèi)國家大學(xué)Lê H?ng Ph??ng博士開發(fā)的越南語文本處理工具包vnToolkit 3.0,其中含括分詞軟件vnTokenizer、詞性標(biāo)注軟件vnTagger以及分句軟件vnSentDetector。據(jù)Lê H?ng Ph??ng個人主頁介紹,vnTokenizer 的準(zhǔn)確率和召回率介于96%—98%之間,而vnTagger的準(zhǔn)確率達(dá)到96%左右,目前vnTagger的最新版本為4.2.0。

      軟件VietTagger,JVnTagger及JVnTextPro依據(jù)最大熵原理和條件隨機(jī)場開發(fā),屬于概率型分詞軟件,軟件按輸入文本、斷句、切句、分詞、標(biāo)注及輸出六個步驟進(jìn)行,用戶可在此基礎(chǔ)上進(jìn)行二次開發(fā);vnTagger可在Unix/Linux和Windows操作系統(tǒng)下運(yùn)行。下表以JVnTagge 1.0.0和vnTagger 4.2.0版本為例,列出兩款軟件的特點(diǎn):

      表1 JVnTagge 1.0.0和vnTagger4.2..0特點(diǎn)

      開發(fā)者準(zhǔn)確率語言賦碼集處理對象輸出格式

      JVnTagger 1.0.0Phan Xuan Hi?u93%Java17文件夾txt

      vnTagger 4.2.0Lê H?ng Ph??ng96%Java17單文本Txt,xml

      從上表可發(fā)現(xiàn),JVnTagge 1.0.0的最大特點(diǎn)是可進(jìn)行批量標(biāo)注,效率高;vnTagger 4.2.0的優(yōu)勢在于準(zhǔn)確率高,而且輸出文件格式除.txt文件外,還可以生成.xml文件,便于文件及數(shù)據(jù)間的傳輸。

      3 分詞標(biāo)注文本的應(yīng)用

      Leech(2005)認(rèn)為語料進(jìn)行詞性標(biāo)注后就成為“增值”了的文本,也就是說相對于原始文本,其利用價值會更高。一般語料庫檢索軟件都可以實現(xiàn)詞表功能、描述搭配功能等。

      經(jīng)過詞性標(biāo)注后的文本,任何一詞的詞性十分清楚。下圖是筆者建立的一個微型越南語語料庫,該庫經(jīng)vnTagger 4.2.0進(jìn)行標(biāo)注,利用AntConc的詞表功能的一個截圖。

      圖1

      從上圖可發(fā)現(xiàn)“nh?t”一詞有三種詞性,分別標(biāo)注為nh?t/a,nh?t/m及nh?t/r。其中前者為形容詞、中間為數(shù)詞,后者為副詞。這此語料庫中形容詞及副詞的頻率分別為24及時10,而數(shù)詞僅出現(xiàn)一詞。此外,nh?n_m?nh/V表示字nh?n與m?nh組成詞nh?n m?nh,這個復(fù)合詞為動詞,中間符號“_”將兩個字合二為一,這就是分詞的結(jié)果。如果不進(jìn)行詞性標(biāo)注,不但這三種詞性區(qū)分不清楚,而且由于此詞與其它詞組成的復(fù)合詞也未能區(qū)分,造成混亂,不利于越南語言研究和學(xué)習(xí)。

      詞的搭配是語言研究和語言教學(xué)中的重點(diǎn)內(nèi)容。尤其是對越南語這種復(fù)合詞占多數(shù)的語言來說,分詞后才能對詞的搭配進(jìn)行較為準(zhǔn)確的研究。值得注意的是,由于該語料庫主要收集的是有關(guān)電腦及網(wǎng)絡(luò)方面的語篇,上述的結(jié)果中有很多名詞與電腦及網(wǎng)絡(luò)有關(guān)。此外,分詞在自然語言處理中對句法標(biāo)注也起關(guān)鍵的作用,句法標(biāo)注的基礎(chǔ)是詞性標(biāo)注。這里從略。

      4 結(jié)束語

      上面分別介紹了越南語的一些特點(diǎn),針對越南語單詞的界線不明確,需要進(jìn)行分詞才能劃出詞的界線,將語料中的單詞清晰地給出。越南語的分詞軟件JVnTagger及vnTagger是常見的兩款免費(fèi)共享軟件,功能相對強(qiáng)大,分別有各自己的特點(diǎn),可滿足不同用戶的需要。最后說明了分詞后的文本的應(yīng)用,強(qiáng)調(diào)分詞詞表及搭配詞表的意義,對越南語的研究及教學(xué)必將產(chǎn)生有益的作用。

      參考文獻(xiàn):

      [1]Greene B.B.,Rubin G.M..Automatic grammatical tagging of English,Department of Linguistics.Brown University,Providence,RI,USA,1971.

      [2]Leech,G.‘Adding Linguistic Annotation’,in M.Wynne,Developing Linguistic Corpora:a Guide to Good Practice.Oxford:Oxbrow Books,2005:17-29.

      [3]Quan Vu,Trung Pham,Ha Nguyen.\"Toward a Multi-Objective Corpus for Vietnamese Language\",PROC.COCOSDA2003,Singapore,2003.

      [4]劉克強(qiáng).2009共享版ICTCLAS的分析與使用[J].科教文匯(上旬刊),2009(08).

      [5]王建新.計算機(jī)語料庫的建設(shè)與應(yīng)用[M].北京:清華大學(xué)出版社,2005.

      作者簡介:劉克強(qiáng)(1971.06-),男,陜西西安人,教授,碩士,研究方向:語料庫語言學(xué)及文學(xué)。

      作者單位:紅河學(xué)院 外國語學(xué)院,云南蒙自 661199

      基金項目:紅河學(xué)院校長基金項目“基于語料庫的新聞越南語特征研究”。

      饶河县| 柯坪县| 崇明县| 时尚| 布尔津县| 衡阳县| 云霄县| 东乡| 赣州市| 班玛县| 壤塘县| 蒙阴县| 宜阳县| 台前县| 太仆寺旗| 六枝特区| 龙川县| 桐庐县| 松阳县| 大邑县| 会同县| 旌德县| 改则县| 绥棱县| 峨眉山市| 铜鼓县| 松原市| 巢湖市| 响水县| 陇川县| 饶平县| 年辖:市辖区| 双辽市| 化州市| 昂仁县| 永定县| 蓝山县| 和林格尔县| 丹棱县| 台东市| 桂平市|