基于語料庫的維語名詞研究理論框架

2015-10-23 02:11:16阿依克孜卡德爾開沙爾卡地爾

長春大學(xué)學(xué)報(bào) 2015年3期

關(guān)鍵詞：維吾爾語信息處理句法

阿依克孜·卡德爾，開沙爾·卡地爾

（新疆大學(xué) a.人文學(xué)院；b.信息科學(xué)與工程學(xué)院，烏魯木齊 830046）

基于語料庫的維語名詞研究理論框架

阿依克孜·卡德爾a，開沙爾·卡地爾b

（新疆大學(xué) a.人文學(xué)院；b.信息科學(xué)與工程學(xué)院，烏魯木齊 830046）

現(xiàn)代維吾爾語信息處理研究工作開展以來，已取得了一定的成果，但從另一個(gè)角度來看，忽視了信息技術(shù)研究成果在語言研究及教學(xué)領(lǐng)域中的有效利用。因此，先構(gòu)建維吾爾語名詞語料庫，并在此基礎(chǔ)上對(duì)名詞的形態(tài)、句法、語義及語用特點(diǎn)進(jìn)行量化分析，可以實(shí)現(xiàn)現(xiàn)代信息技術(shù)與語言研究的有機(jī)結(jié)合。

名詞；語料庫；維吾爾語

現(xiàn)代維吾爾語信息處理及語料庫研究,需要更多語言學(xué)知識(shí)的注入,而維吾爾語言本體的研究,也需要運(yùn)用語言信息處理及語料庫研究的成果和新技術(shù)來提供更有說服力的數(shù)據(jù)和研究方法。著眼于這一趨勢,本文擬建構(gòu)維吾爾語名詞語料庫,將計(jì)算機(jī)技術(shù)和語言本體研究合理地結(jié)合起來,研究維吾爾語名詞的基本理論框架。

1 本課題研究現(xiàn)狀

本課題的研究現(xiàn)狀和趨勢,可以從語言信息處理與語料庫研究以及維吾爾語名詞研究(即語言本體的研究)等兩個(gè)方面來分析。

1.1 維吾爾語信息處理及語料庫研究的現(xiàn)狀

現(xiàn)代維吾爾語信息處理研究工作,從20世紀(jì)80年代到今天的這一段時(shí)間內(nèi),基本上完成了文字處理階段的工作。目前,現(xiàn)代維吾爾文字的信息處理技術(shù)早已達(dá)到可使用階段。有關(guān)研究機(jī)構(gòu)先后研發(fā)了一系列維、哈、柯、漢、英DOS多語種處理平臺(tái),一系列Windows多文種和純維文處理平臺(tái),以及Linux維文處理平臺(tái)。1989年,公布了GB2312-80信息處理交換用維吾爾文編碼圖形字符集［1］；2004年,由清華大學(xué)與新疆大學(xué)合作研制成功的“維哈柯(漢英)阿(英)雙向印刷文檔識(shí)別系統(tǒng)”也通過了教育部組織的技術(shù)鑒定［2］。在維吾爾語料庫研究方面,有關(guān)研究機(jī)構(gòu)各自建立了具有一定規(guī)模的維吾爾語料庫,在語料庫的加工,比如分詞(對(duì)于維吾爾語來說指的主要是詞干提取問題)與詞性標(biāo)注,句法分析及其在其他領(lǐng)域的應(yīng)用等方面,都展開了全面研究。其中新疆大學(xué)多文種信息處理重點(diǎn)實(shí)驗(yàn)室與新疆經(jīng)濟(jì)日報(bào)社、新疆日報(bào)社、新疆維吾爾自治區(qū)人民政府翻譯室等多家單位聯(lián)合建設(shè)中的維吾爾語語料庫,也具有了一定的規(guī)模,到2009年,其詞性標(biāo)注語料庫XJU UPOS Corpus中已有36470個(gè)名詞詞條,已標(biāo)出一定的詞性信息、附加成分信息、詞干等［3］。這些成果為維吾爾語料庫的建設(shè)和研究奠定了基礎(chǔ)。目前,本課題可運(yùn)用的語料庫,有200萬詞級(jí)的現(xiàn)成維吾爾文語料庫,現(xiàn)成維吾爾文正字詞匯庫(電子版),面向政府文獻(xiàn)的維漢平行語料庫等①。

1.2 維吾爾語名詞的研究現(xiàn)狀

在綜述性研究方面,從20世紀(jì)60年代前蘇聯(lián)哈薩克斯坦科學(xué)院編寫的《現(xiàn)代維吾爾語》(1966),到八九十年代我國出版的有關(guān)維吾爾語語法的論著,比如圖爾地·阿合默德、安賽爾釘·木沙、乃斯如拉·由力布爾地等編著的《現(xiàn)代維吾爾語》(1985),哈米提·鐵木爾的《現(xiàn)代維吾爾語語法》(1987),陳世明、熱扎克等編著的《維吾爾語實(shí)用語法》(1991),程適良等編著的《現(xiàn)代維吾爾語語法》(1996)等,以及教材中涉及維吾爾語名詞的綜合論述,都對(duì)維吾爾語名詞的定義、分類、數(shù)、人稱、格等語法范疇及其在句法結(jié)構(gòu)中的作用、構(gòu)詞特點(diǎn)等方面,進(jìn)行了綜合論述。

在專題研究方面,已有成果都是散見于各類期刊上的論文,主要涉及名詞的語法范疇,即名詞的數(shù)、人稱、格等形態(tài)變化系統(tǒng)。尤其是維吾爾語名詞的“格”問題,一直是學(xué)者們關(guān)注的熱點(diǎn)。最近,也有人運(yùn)用現(xiàn)代語言學(xué)的研究方法,分析名詞的其他范疇和部分句法功能,但是,有關(guān)維吾爾語名詞專題研究的專著尚未問世［4］11,只是有一部分學(xué)位論文而已。

2 本課題研究的內(nèi)容及方法

2.1 本課題研究的基本內(nèi)容

2.1.1 維吾爾語名詞語料庫的構(gòu)建

在電子詞典和大型語料庫的基礎(chǔ)上構(gòu)建維吾爾語名詞語料庫,是本課題的關(guān)鍵。我們主要以《維吾爾語詳解詞典》(縮編本)［5］中的所有名詞作為初期語料來源,構(gòu)建一個(gè)包括名詞的詞法、句法、語義信息的名詞語料庫。

2.1.2 維吾爾語名詞形態(tài)特點(diǎn)研究

名詞的形態(tài)特點(diǎn)包括構(gòu)詞特點(diǎn)和構(gòu)形特點(diǎn)。維吾爾語是粘著語,主要靠詞根上粘連詞綴的派生法來構(gòu)詞。但是運(yùn)用復(fù)合法構(gòu)造的新詞也在大量涌現(xiàn),本課題通過語料庫統(tǒng)計(jì)分析來驗(yàn)證派生法和復(fù)合法在維吾爾語名詞的構(gòu)成過程中所占的實(shí)際比例,從而揭示維語在名詞詞匯擴(kuò)展途徑中表現(xiàn)出的語言特征。在構(gòu)形方式方面,名詞有數(shù)、人稱、格等形態(tài)范疇,對(duì)此也通過語料庫統(tǒng)計(jì)分析來進(jìn)行深入細(xì)致的量化分析,驗(yàn)證維吾爾語的形態(tài)特征。

2.1.3 維吾爾語名詞句法特點(diǎn)研究

維吾爾語名詞的句法特點(diǎn)主要包括名詞的句法位置(名詞所充當(dāng)?shù)木浞ǔ煞?和名詞被其他成分修飾等兩種情況。維吾爾語表示句法關(guān)系的主要手段是形態(tài)。在名詞充當(dāng)句法成分的問題上,其形態(tài)格對(duì)句法成分的決定作用很大,大多數(shù)句法成分有形態(tài)標(biāo)志。語序和虛詞的作用次于形態(tài)手段,但它們也是必不可少的。本課題通過語料庫統(tǒng)計(jì)分析來驗(yàn)證這幾種手段的使用頻率和名詞所擔(dān)當(dāng)?shù)木浞ǔ煞值谋壤?/p>

2.1.4 維吾爾語名詞語義特點(diǎn)研究

維吾爾語名詞的語義特點(diǎn)主要可以從兩個(gè)方面來分析。一是語義結(jié)構(gòu)中名詞所擔(dān)當(dāng)?shù)恼Z義格(角色)及其在句法結(jié)構(gòu)中的體現(xiàn)形式?！罢Z義格”的概念是由美國語言學(xué)家菲爾墨(Charles J.Fillmore)最先提出來的。他根據(jù)句中動(dòng)詞與名詞的關(guān)系,將名詞或名詞性短語所擔(dān)當(dāng)?shù)恼Z義角色分為若干個(gè)語義“格”［6］。二是語義結(jié)構(gòu)中名詞的配價(jià)問題。配價(jià)的概念初期在語言學(xué)領(lǐng)域用于描述動(dòng)詞與其他成分的搭配關(guān)系,后來擴(kuò)展到描述名詞、形容詞等其他成分的搭配關(guān)系。這兩個(gè)方面的體現(xiàn)手段基本上是名詞的形態(tài)格和后置詞［4］131-141。本課題通過語料庫統(tǒng)計(jì)分析來驗(yàn)證這一特點(diǎn)。

2.1.5 維吾爾語名詞語用特點(diǎn)研究

維吾爾語名詞在語用平面表現(xiàn)出的特點(diǎn)中凸現(xiàn)其語法特點(diǎn)的主要問題,包括名詞的有定和無定,篇章中的回指、話題化等［4］143-165。所謂的有定與無定,指的是在言語交際當(dāng)中,發(fā)話人根據(jù)受話人特定的信息知曉度而對(duì)名詞性成分進(jìn)行加工處理的特定方式［7］。維吾爾語作為無冠詞語言,其指示代詞是體現(xiàn)名詞有定性的有效手段。由于維吾爾語是形態(tài)發(fā)達(dá)的語言,因此還有名詞的格、人稱和動(dòng)詞的態(tài)等其他一些手段也可以表示名詞的有定。在語句、語篇或話語里,語言使用者總要不止一次地提到特定的人物、事物或事件。某個(gè)成分引進(jìn)語句、語篇或話語之后,如果需要再次提及它們,說話人有可能重復(fù)使用這個(gè)成分,也可能不再重復(fù)使用這個(gè)成分,而用另一個(gè)成分來指稱前一個(gè)成分,這一前一后兩個(gè)成分之間的關(guān)系我們稱為回指關(guān)系［8］。從維吾爾語名詞的回指情況來看,先行詞和回指詞在人稱上的相互一致的特點(diǎn)是回指關(guān)系的重要標(biāo)志。關(guān)于話題化,朱德熙先生在《語法講義》中討論主語與謂語的關(guān)系時(shí)也曾指出：“說話人選來作主語的是他最感興趣的話題,謂語則是對(duì)于選定了的話題的陳述?！保?］在這一問題上,維吾爾語中賓語、定語、狀語等大部分句法成分都可以通過話題化充當(dāng)句子的話題。本課題通過語料庫統(tǒng)計(jì)分析來歸納解釋維吾爾語名詞有定和無定、回指、話題化等語用特點(diǎn)的表現(xiàn)方式。

2.1.6 軟件的選擇

根據(jù)語料庫統(tǒng)計(jì)結(jié)果,在以上進(jìn)行的細(xì)致分析的基礎(chǔ)上,擬立足于語言形態(tài)分類的理論高度,以統(tǒng)計(jì)數(shù)據(jù)為基礎(chǔ),對(duì)維吾爾語名詞及其有關(guān)語法現(xiàn)象從一個(gè)比較新的角度給予總結(jié),用Access數(shù)據(jù)庫來存儲(chǔ)名詞和它們的信息。Access是微軟公司推出的基于 Windows的桌面關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS),是Office系列應(yīng)用軟件之一。它具備表、查詢、窗體、報(bào)表、頁、宏、模塊7種用來建立數(shù)據(jù)庫系統(tǒng)的對(duì)象；可提供多種向?qū)?、生成器、模?把數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)查詢、界面設(shè)計(jì)、報(bào)表生成等操作規(guī)范化；為建立功能完善的數(shù)據(jù)庫管理系統(tǒng)提供方便,普通用戶不必編寫代碼,就可以完成大部分?jǐn)?shù)據(jù)管理的任務(wù)。用Java編程語言可以開發(fā)一個(gè)能實(shí)現(xiàn)名詞詞干上附加詞尾和大型語料庫中進(jìn)行名詞詞干提取等兩項(xiàng)任務(wù)的“維語名詞形態(tài)分析軟件”。之所以選擇Java作為開發(fā)工具,因?yàn)镴ava是一種跨平臺(tái)開發(fā)語言,能開發(fā)出跨平臺(tái)的應(yīng)用對(duì)象和應(yīng)用程序。

2.2 本課題語料分析的基本方法

維吾爾語以詞形變化來確立句法關(guān)系,但語序和虛詞的運(yùn)用有時(shí)也很重要,這種特性將在基于語料庫的具體研究中被驗(yàn)證。本課題的語料庫分析過程是人機(jī)互助的動(dòng)態(tài)分析過程。首先借助《維吾爾語詳解詞典》,建立名詞信息庫。該庫初步框架包括詞典所有名詞的詞義、意義分類、構(gòu)詞方式等內(nèi)容,可以按照表1形式來手工建構(gòu)。

表1 名詞分類及構(gòu)詞特征信息庫

然后將所有名詞與實(shí)際語料庫相匹配,統(tǒng)計(jì)實(shí)際語料庫中名詞的其他信息(包括本課題將研究的幾個(gè)方面的信息),從而獲取表2中幾個(gè)方面的數(shù)據(jù)。

表2 名詞語法信息擴(kuò)充庫

在匹配過程中,盡量不斷擴(kuò)充原有名詞信息庫,不斷完善名詞的相關(guān)信息,從而提高獲取數(shù)據(jù)的典型性和科學(xué)性。擴(kuò)充語料將通過鍵盤輸入,用掃描儀和數(shù)碼照相機(jī)輸入后進(jìn)行文字識(shí)別等途徑獲取。其語料思路如圖1所示：

圖1 語料分析思路

3 本課題應(yīng)解決的主要難點(diǎn)

一方面,雖然維吾爾語信息處理及語料庫研究工作在文字處理(包括文字識(shí)別)、語料庫建設(shè)中的詞干提取、詞頻統(tǒng)計(jì)、詞性標(biāo)注等方面已有了一定的成果,但是這些成果目前尚未真正運(yùn)用到具體語言研究工作當(dāng)中。也就是說,維吾爾語言研究尚未運(yùn)用現(xiàn)代計(jì)算機(jī)技術(shù),即語言信息處理及語料庫研究工作已獲得的成果,而本課題就試圖運(yùn)用語料庫來量化研究名詞這一主要詞類的形態(tài)、句法、語義、語用等方面的特點(diǎn)及其相關(guān)的語法現(xiàn)象,使現(xiàn)代計(jì)算機(jī)技術(shù)服務(wù)于具體語言研究。這正是必須突破的一個(gè)難點(diǎn)。

另一方面,維吾爾語信息處理及語料庫研究工作起步比較晚,還處于初步階段。雖然在研究過程中也參考了部分語言學(xué)知識(shí),但這遠(yuǎn)遠(yuǎn)不夠,語言信息處理及語料庫研究工作要求更多的語言學(xué)知識(shí)的注入。但這一方面的工作目前還沒得到全面重視。而本課題就試圖使語料庫服務(wù)于具體語言研究的同時(shí),以語言研究的成果促進(jìn)語言信息處理工作。這是本課題在研究過程中必須突破的另一個(gè)難點(diǎn)。

4 結(jié)語

綜上所述,本課題轉(zhuǎn)變語言研究的傳統(tǒng)描寫模式,用一種較新的方法來研究名詞,從而揭示維吾爾語作為交際工具的運(yùn)行機(jī)制。借助大型語料庫并且在三個(gè)平面的語法觀的指導(dǎo)下,借鑒現(xiàn)代語言學(xué)的前沿理論和方法,從多方面對(duì)維吾爾語的名詞進(jìn)行分析,根據(jù)從語料庫獲取的科學(xué)性較高的實(shí)際數(shù)據(jù)揭示維吾爾語語法特點(diǎn),實(shí)現(xiàn)現(xiàn)代信息技術(shù)與語言研究的有機(jī)結(jié)合。

首先,研究過程中引進(jìn)的新理論、新方法將促進(jìn)維吾爾語言的理論研究。在本課題中借助的“三個(gè)平面的語法觀”“格語法”“配價(jià)理論”是現(xiàn)代語言學(xué)的前沿理論。更重要的是基于語料庫的分析方法對(duì)于維吾爾語來說,是比較新的研究方法。這些理論和研究方法的運(yùn)用,有利于維吾爾語研究的進(jìn)一步深化,這種研究注重語料選擇的廣泛性,注重定量分析,從而保證語料的典型性,分析結(jié)構(gòu)的科學(xué)性,使靜態(tài)分析變成動(dòng)態(tài)分析。因此,不僅可以促進(jìn)維吾爾語語法研究的發(fā)展,還能促進(jìn)維吾爾語語義、語用等方面的研究。

其次,從語言形態(tài)類型的高度去認(rèn)識(shí)維吾爾語作為粘著語的本質(zhì)特點(diǎn),從而為豐富語言形態(tài)分類和句法特征分類的理論提供例證,同時(shí)又以豐富的實(shí)例證實(shí)形態(tài)分類和句法特征分類的局限性。這將為普通語言學(xué)、類型語言學(xué)的研究提供語言事實(shí)。

再次,本課題的研究成果可以運(yùn)用于辭書編寫、語言規(guī)范化、第二語言教學(xué)、翻譯理論與實(shí)踐等領(lǐng)域,為這些領(lǐng)域的相關(guān)工作提供直接的理論依據(jù)和科學(xué)的統(tǒng)計(jì)數(shù)據(jù)。

最后,本課題的研究對(duì)維吾爾語語料庫的深入研究非常有益。通訊網(wǎng)絡(luò)技術(shù)和電子出版技術(shù)的迅速發(fā)展,對(duì)多渠道獲取語料提供了極大方便。然而語料庫并非是語言材料的任意堆積,而應(yīng)該是經(jīng)過專門加工,具備人們可以利用它各種統(tǒng)計(jì)、分析檢索、歸納性能的語料存儲(chǔ)庫。本課題作為語料庫在語言研究中具體運(yùn)用的范例,將促進(jìn)維吾爾語語料庫相關(guān)理論和技術(shù)的進(jìn)一步完善,促進(jìn)語料庫語言學(xué)的發(fā)展。

［1］繆成.基于紅旗Linux的維、漢、英多語種操作系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)［D］.烏魯木齊：新疆大學(xué),2004.

［2］全球首款維哈柯(漢英)阿(英)雙向印刷文檔識(shí)別系統(tǒng)問世［J］.中國經(jīng)濟(jì)信息,2004(17)：57.

［3］早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,等.維吾爾語名詞構(gòu)形詞綴有限狀態(tài)自動(dòng)機(jī)的構(gòu)造［J］.中文信息學(xué)報(bào),2009,23 (6)：120.

［4］阿依克孜·卡德爾.現(xiàn)代漢語與現(xiàn)代維吾爾語名詞對(duì)比研究［D］.烏魯木齊：新疆大學(xué),2006.

［5］海木都拉·阿布都熱合曼,等.維吾爾語詳解詞典［M］.縮編本.烏魯木齊：新疆人民出版社,2011.

［6］菲爾墨C J.“格”辨［M］.胡明揚(yáng),譯.北京：商務(wù)印書館,2002：32.

［7］范曉,張?jiān)シ?等.語法理論綱要［M］.上海：上海譯文出版社, 2003：319.

［8］徐赳赳.現(xiàn)代漢語篇章回指研究［M］.北京：中國社會(huì)科學(xué)出版社,2003：1.

［9］朱德熙.語法講義［M］.北京：商務(wù)印書館,1982：96.

Study on Theoretical Framework of Uyghur Nouns Based on Corpus

Aykiz·KADIRa，Kaysar·KADIRb

（a.College of Humanities；b.College of Information Science and Engineering，Xinjiang University，Urumqi 830046，China）

Since the produce of the modern Uyghur information processing research，certain achievements have been made.But looking from another perspective，the effective use of information technology research achievements in language research and teaching field is ignored.So，a Uyghur nouns corpus is built，and on this basis，a quantitative analysis on the morphological，syntactic，semantic and pragmatic characteristics of nouns is made，which can realize the combination of modern information technology and language studies.

noun；corpus；Uyghur

H215；H085.5

1009-3907（2015）03-0040-04

2014-07-24

國家社會(huì)科學(xué)基金項(xiàng)目青年基金（11CYY054）；新疆多語種信息技術(shù)自治區(qū)級(jí)重點(diǎn)實(shí)驗(yàn)室開放課題：商業(yè)供求信息雙語自動(dòng)翻譯（無編號(hào)）

阿依克孜·卡德爾（1974-），女（維吾爾族），新疆烏魯木齊人，副教授，博士，主要從事語言教學(xué)、語言信息處理研究。

①由新疆多語種信息技術(shù)自治區(qū)級(jí)重點(diǎn)實(shí)驗(yàn)室提供。

柳克