• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      短語(yǔ)的詞典學(xué)意義及基于語(yǔ)料庫(kù)的拉丁語(yǔ)短語(yǔ)提取研究*

      2018-09-19 08:26:56李德俊楊曉冬
      辭書(shū)研究 2018年5期
      關(guān)鍵詞:表義詞典語(yǔ)料庫(kù)

      李德俊 楊曉冬

      一、 引言

      大多數(shù)情況下,人們查詞典不外乎兩個(gè)目的: 其一是查詢(xún)生字詞的意義,以便理解;其二是查詢(xún)字詞(未必是陌生的字詞)的搭配以便使用。以上兩點(diǎn)關(guān)涉詞典的釋義和配例,是詞典編纂的核心內(nèi)容。借助語(yǔ)料庫(kù),釋義和配例都走出了內(nèi)省的困境,在方法和手段上都發(fā)生了革命性的變化。語(yǔ)料庫(kù)通過(guò)索引行顯示使用中的語(yǔ)言素材,同時(shí)也提供了語(yǔ)境。但是,基于索引行的詞典編寫(xiě)也有一些明顯的缺陷,例如釋讀索引行仍然需要花費(fèi)大量的時(shí)間,特別是當(dāng)數(shù)據(jù)過(guò)大時(shí),仔細(xì)閱讀和分析索引行數(shù)據(jù)其實(shí)是不可行的,大量的有價(jià)值信息淹沒(méi)在索引行中而得不到利用。研究表明,通過(guò)統(tǒng)計(jì)方法將索引行數(shù)據(jù)轉(zhuǎn)化為包含關(guān)鍵詞和搭配的短語(yǔ)級(jí)語(yǔ)料,在冗余的信息被過(guò)濾掉之后,有價(jià)值的信息得以凸顯。短語(yǔ)驅(qū)動(dòng)不僅與索引行驅(qū)動(dòng)的效率相當(dāng),而且還可以節(jié)約大量的時(shí)間。短語(yǔ)驅(qū)動(dòng)是語(yǔ)料驅(qū)動(dòng)的最簡(jiǎn)方案。(李德俊 2016)40

      二、 語(yǔ)料庫(kù)語(yǔ)言學(xué)視野下的短語(yǔ)

      廣義上的短語(yǔ)指由兩個(gè)及以上詞語(yǔ)組成的語(yǔ)言單位。當(dāng)代語(yǔ)言學(xué)對(duì)短語(yǔ)的興趣一直很濃,因此也產(chǎn)生了若干類(lèi)似的術(shù)語(yǔ),例如搭配(collocation)、語(yǔ)塊(chunk)、詞簇(cluster)、多詞單位(MWU, multi-word unit),等等。搭配一直是語(yǔ)料庫(kù)語(yǔ)言學(xué)的重要研究領(lǐng)域,同時(shí)也是詞典學(xué)的主要討論對(duì)象之一。但有趣的是,在語(yǔ)言學(xué)界對(duì)什么是搭配并沒(méi)有形成共識(shí),下面的不同定義反映了人們對(duì)搭配的理解存在一定差異:

      1. 搭配是符合語(yǔ)法的相鄰詞之間的語(yǔ)義兼容關(guān)系。(Hartman & James 2000)

      2. 搭配是一些語(yǔ)言學(xué)家,特別是Firth學(xué)派的語(yǔ)言學(xué)家在詞匯學(xué)領(lǐng)域使用的一個(gè)術(shù)語(yǔ),它指詞匯單位的習(xí)慣性共現(xiàn)。(Crystal 2008)

      3. 兩個(gè)或兩個(gè)以上的詞在文本中很短距離內(nèi)的共現(xiàn)。(Sinclair 1991)

      4. 搭配是具有統(tǒng)計(jì)意義的詞匯共現(xiàn)。(Hunston 2006)

      上述定義給我們呈現(xiàn)了搭配研究對(duì)象相對(duì)混亂的一面,搭配可以?xún)H指固定結(jié)構(gòu),也可以包括所有具有共現(xiàn)關(guān)系的詞語(yǔ)組合,而不論其組合是否具有獨(dú)立的語(yǔ)義。Siepmann(2005)認(rèn)為搭配不僅包含類(lèi)聯(lián)接(colligation),也包括短語(yǔ)。此時(shí),搭配具有了無(wú)所不包的性質(zhì)。

      由于對(duì)搭配理解的差異較大,語(yǔ)料庫(kù)語(yǔ)言學(xué)在開(kāi)創(chuàng)短語(yǔ)研究的新領(lǐng)域時(shí),放棄了搭配這個(gè)術(shù)語(yǔ),使用了一個(gè)全新的詞匯“phraseology”來(lái)表示短語(yǔ),并將這個(gè)新的研究領(lǐng)域稱(chēng)為“短語(yǔ)學(xué)”。1998年,第一部全面論述短語(yǔ)學(xué)的著作《短語(yǔ)學(xué): 理論、分析與應(yīng)用》由牛津大學(xué)出版社出版。此后,短語(yǔ)學(xué)的研究在語(yǔ)料庫(kù)語(yǔ)言學(xué)領(lǐng)域逐漸升溫并逐漸成為核心研究?jī)?nèi)容之一。

      目前,短語(yǔ)的定義已經(jīng)基本趨于統(tǒng)一,它可以定義為: 短語(yǔ)是一個(gè)詞匯單位和另一個(gè)或幾個(gè)詞匯單位的共現(xiàn),該共現(xiàn)組合具有獨(dú)立完整的語(yǔ)義功能(function as one semantic unit),其共現(xiàn)頻率大于理論頻率。(Gries 2008)6短語(yǔ)不僅是心理上的語(yǔ)義共現(xiàn)關(guān)系,更為重要的是構(gòu)成短語(yǔ)的詞語(yǔ)間共現(xiàn)頻率大于理論頻率。這個(gè)定義克服了對(duì)短語(yǔ)判斷的純主觀性缺陷,是對(duì)短語(yǔ)進(jìn)行統(tǒng)計(jì)識(shí)別的基礎(chǔ)。

      Gries的定義較為全面地概括了短語(yǔ)的特征,據(jù)此短語(yǔ)可以是兩個(gè)詞構(gòu)成的詞組,也可以是多個(gè)詞組成的詞簇。短語(yǔ)未必相鄰,也可以是不相鄰的結(jié)構(gòu)模板形式(template),例如: x(number) hours drive from y(place)。短語(yǔ)可以是固定詞組,也可以是某些自由詞組。固定詞組包括成語(yǔ)、諺語(yǔ)、歇后語(yǔ)、專(zhuān)門(mén)用語(yǔ)、慣用語(yǔ)等;自由詞組指按照語(yǔ)法規(guī)則組成的臨時(shí)結(jié)構(gòu),如“紅花、綠葉子、詞典的結(jié)構(gòu)、英國(guó)大學(xué)”等?!霸~典的結(jié)構(gòu);英國(guó)大學(xué)”不是短語(yǔ),因?yàn)闃?gòu)成這些詞語(yǔ)串的語(yǔ)詞間是偶然的共現(xiàn)關(guān)系,不具有統(tǒng)計(jì)學(xué)意義,它們是完全自由詞組;與之不同的是,構(gòu)成“紅花、綠葉子”等詞語(yǔ)串的語(yǔ)詞具有相互吸引的傾向,共現(xiàn)頻率也具有統(tǒng)計(jì)學(xué)意義,它們是半自由詞組,是短語(yǔ)的一種形式。

      短語(yǔ)學(xué)與語(yǔ)料庫(kù)語(yǔ)言學(xué)具有良好的互動(dòng)關(guān)系,2005年10月,來(lái)自世界各地的170位學(xué)者聚集比利時(shí)新魯汶(Louvain-la-Neuve)就短語(yǔ)學(xué)的研究展開(kāi)研討。會(huì)議肯定了語(yǔ)料庫(kù)語(yǔ)言學(xué)對(duì)短語(yǔ)學(xué)的貢獻(xiàn),會(huì)后出版的3本著作有力推動(dòng)了短語(yǔ)學(xué)研究在世界各地的發(fā)展。

      正如Granger & Meunier(2008)所言的那樣,今天,短語(yǔ)學(xué)正日益成為眾多學(xué)科領(lǐng)域的研究中心,不管是傳統(tǒng)的語(yǔ)言教學(xué),還是前沿的自然語(yǔ)言處理領(lǐng)域都是短語(yǔ)學(xué)的舞臺(tái)。詞典作為指導(dǎo)人們對(duì)語(yǔ)言進(jìn)行解碼或使用語(yǔ)言進(jìn)行編碼的工具書(shū),短語(yǔ)的價(jià)值何在也需要認(rèn)真思考。

      三、 短語(yǔ)的詞典學(xué)意義

      在語(yǔ)料庫(kù)語(yǔ)言學(xué)、二語(yǔ)習(xí)得、自然語(yǔ)言處理等領(lǐng)域,短語(yǔ)的價(jià)值受到了普遍的關(guān)注,但是在詞典學(xué)領(lǐng)域,只有少數(shù)學(xué)者注意到了短語(yǔ)及短語(yǔ)學(xué)的價(jià)值。(徐海 2013;李德俊 2014)除了傳統(tǒng)的熟語(yǔ)、固定搭配等之外,非典型的短語(yǔ)并沒(méi)有得到重視。例如漢語(yǔ)里的“謹(jǐn)慎樂(lè)觀”“互利共贏”“小心臺(tái)階”等非典型短語(yǔ),在翻譯成英語(yǔ)時(shí)很可能會(huì)給譯者帶來(lái)挑戰(zhàn),“謹(jǐn)慎”有careful, prudent, cautious等譯法,它們是不是都可以和“樂(lè)觀”的英文optimistic組成地道的英語(yǔ)表達(dá)?這是編碼詞典需要思考的問(wèn)題。對(duì)于解碼詞典來(lái)說(shuō),短語(yǔ)的價(jià)值也是不言而喻的,例如英語(yǔ)里的confidence man也是非典型的短語(yǔ),其詞義并不能從字面推出,詞典如果不收錄,就會(huì)降低詞典的交際價(jià)值。以下從語(yǔ)言交際和詞典研編兩個(gè)方面來(lái)具體談?wù)劧陶Z(yǔ)的詞典學(xué)意義。

      (一) 短語(yǔ)在言語(yǔ)交際中的意義

      1.基本表義單位

      如果對(duì)表義單位進(jìn)行排列,從小到大的順序是義素、詞、短語(yǔ)、小句、語(yǔ)篇。那么哪個(gè)該是表義的基本單位?這里說(shuō)的表義基本單位指的是使用語(yǔ)言組織思想時(shí)我們的語(yǔ)言官能習(xí)慣使用的語(yǔ)言單位?;颈砹x單位需要具有模塊化、使用頻率高和無(wú)歧義等基本特征。很顯然,只有詞和短語(yǔ)才是基本表義單位的選項(xiàng)。詞是可以獨(dú)立使用的最小意義單位,但是在表義的時(shí)候,詞有一個(gè)天然的缺陷,很多詞的意思通常都是不明確的,例如漢語(yǔ)的“打”,英語(yǔ)的“foot”。除了詞義相對(duì)比較固定的技術(shù)類(lèi)詞匯之外,多數(shù)詞匯,我們不僅不能明確它們的意思,有時(shí)甚至連詞性都無(wú)法確定。

      短語(yǔ)是比詞高一級(jí)的表義單位。Firth(1957)說(shuō)的“由詞之伴而知其義”充分肯定了短語(yǔ)在詞義顯化中的重要作用。Sinclair也一再?gòu)?qiáng)調(diào)詞匯不是孤立的,它們相互作用、搭配是詞義形成的關(guān)鍵。(Moon 2008)短語(yǔ)還原的是“使用中語(yǔ)言”的最小語(yǔ)境,詞義在該語(yǔ)境中得以顯化。研究表明,詞匯的兩種最重要意義,概念義和情感義,大多可以通過(guò)該詞語(yǔ)所處的短語(yǔ)語(yǔ)境而得以明晰。(李德俊 2016)34-35

      Sinclair(2004)36-37的習(xí)語(yǔ)原則(idiom or phraseological principle)認(rèn)為語(yǔ)言使用者在理解和造句時(shí)遵循的是一套短語(yǔ)規(guī)則。有大量的半加工、預(yù)處理過(guò)的短語(yǔ)如同成品的建筑構(gòu)件被儲(chǔ)存在使用者的頭腦中,它們?cè)谡Z(yǔ)言的編碼和解碼中發(fā)揮著比詞更為重要的作用。我們使用語(yǔ)言很大程度上就是對(duì)短語(yǔ)的調(diào)用。

      通過(guò)對(duì)語(yǔ)料的統(tǒng)計(jì),研究者發(fā)現(xiàn)短語(yǔ)在語(yǔ)言的編碼和解碼中所占比例遠(yuǎn)遠(yuǎn)超過(guò)詞的比例,語(yǔ)料庫(kù)語(yǔ)言學(xué)家Altenberg(1991)對(duì)LLC(London-Lund Corpus)語(yǔ)料庫(kù)的抽樣研究表明在總形符中(token),短語(yǔ)所占的比例高達(dá)70%。

      因?yàn)槎陶Z(yǔ)同時(shí)具有模塊化、使用頻率高和無(wú)歧義3個(gè)特征,我們認(rèn)為短語(yǔ)是基本的表義單位。它在言語(yǔ)交際中發(fā)揮主要的作用。

      2.詞匯和結(jié)構(gòu)共選

      對(duì)意義的形成起作用的不僅是詞匯,結(jié)構(gòu)也是重要因素。對(duì)結(jié)構(gòu)義的關(guān)注可以追溯到Fries(1952),在《英語(yǔ)結(jié)構(gòu)》(StructureofEnglish)中,他區(qū)分了詞匯義和結(jié)構(gòu)義兩種意義,并指出習(xí)得語(yǔ)言就是習(xí)得由詞匯組成的結(jié)構(gòu)。Harris(1982)認(rèn)為形和義(或者說(shuō)語(yǔ)法結(jié)構(gòu)和語(yǔ)義)是不可分割的,他的理論“算符語(yǔ)法”(Operator Grammar)通過(guò)形式推演證明了自然語(yǔ)言是個(gè)“自組織系統(tǒng)”(self-organizing system),在這個(gè)系統(tǒng)中,詞匯的結(jié)構(gòu)和語(yǔ)義屬性通過(guò)與其他詞匯的聯(lián)系而得到明確。Harris(1991)還認(rèn)為,我們對(duì)結(jié)構(gòu)的習(xí)得是通過(guò)語(yǔ)言接觸來(lái)完成的。

      對(duì)“結(jié)構(gòu)”和“句型”的研究催生了若干語(yǔ)言理論,例如“構(gòu)式語(yǔ)法”(Construction Grammar)、“型式語(yǔ)法”(Pattern Grammar)和“短語(yǔ)學(xué)”(Phraseology)。構(gòu)式體現(xiàn)的是形和義的配對(duì),它是語(yǔ)言社團(tuán)習(xí)慣使用的,并固化在頭腦中的具有符號(hào)象征特性的語(yǔ)言單位(symbolic units of language)。構(gòu)式將形態(tài)、詞匯和句法形式與語(yǔ)義、語(yǔ)用和語(yǔ)篇功能相連接。(Goldberg 1995, 2006)型式語(yǔ)法由Hunston等人倡導(dǎo),基于在COBUILD語(yǔ)料庫(kù)建庫(kù)和研究時(shí)所接觸的大量語(yǔ)言實(shí)例和積累的豐富經(jīng)驗(yàn),他們發(fā)現(xiàn)每個(gè)詞都有屬于自己的型式,在此型式下,該詞匯使用的典型語(yǔ)境得以復(fù)現(xiàn)。(Hunston & Francis 2000)短語(yǔ)學(xué)由語(yǔ)料庫(kù)語(yǔ)言學(xué)家提出,它是語(yǔ)料庫(kù)語(yǔ)言學(xué)所研究的主要內(nèi)容之一,它不僅強(qiáng)調(diào)短語(yǔ)的可計(jì)算性,而且更加重視詞匯和結(jié)構(gòu)、型式與意義的共選(coselection)。當(dāng)我們選擇短語(yǔ)從事言語(yǔ)實(shí)踐時(shí),同時(shí)就選擇了詞匯、語(yǔ)法和語(yǔ)用關(guān)系。(Partingtonetal. 2013)正是由于短語(yǔ)集詞匯和語(yǔ)法結(jié)構(gòu)于一身的特征,短語(yǔ)才具有了消除歧義、語(yǔ)義自足的優(yōu)點(diǎn)。從簡(jiǎn)單搭配foot the bill,到成語(yǔ)take a French leave,再到由固定詞匯和自由選項(xiàng)組成的“模板”(template)“{see} + [out of/from] the corner of [possessive] eye”(Sinclair 2004)171,短語(yǔ)都體現(xiàn)了詞匯和結(jié)構(gòu)共選、型式與意義共選的特征。因此,學(xué)會(huì)一個(gè)短語(yǔ)就同時(shí)掌握了該短語(yǔ)的語(yǔ)義,以及它所包含的詞匯搭配關(guān)系和語(yǔ)法結(jié)構(gòu)。短語(yǔ)融詞法和語(yǔ)法于一身。

      (二) 短語(yǔ)在詞典研編中的意義

      正因?yàn)槎陶Z(yǔ)在言語(yǔ)交際中的重要作用,所以對(duì)于指導(dǎo)言語(yǔ)交際的詞典來(lái)說(shuō),短語(yǔ)的價(jià)值是不言而喻的。

      首先,短語(yǔ)是詞典交際力的主要體現(xiàn)。詞典是語(yǔ)內(nèi)或跨語(yǔ)交際的工具書(shū),由于單個(gè)詞語(yǔ)的交際功能弱,不能體現(xiàn)“使用中語(yǔ)言”的特征。特別是對(duì)于積極型雙語(yǔ)詞典來(lái)說(shuō),對(duì)詞語(yǔ)的單純釋義并不能對(duì)語(yǔ)言的編碼具有可靠的指導(dǎo)作用。以前文的“打”為例,暫且不考慮一詞多義,在“用手或器具撞擊物體”的意義之下,“打”的英文釋義為“strike; hit; knock; smash”。(《新時(shí)代漢英詞典》)如果不提供短語(yǔ)作為例證,單憑這些釋義詞很難為諸如“打翻;打更;打鼓;打屁股”等短語(yǔ)的翻譯提供幫助。對(duì)于雙語(yǔ)詞典來(lái)說(shuō),短語(yǔ)收錄的多寡與詞典編碼交際力休戚相關(guān)。再看一個(gè)詞典指導(dǎo)語(yǔ)言解碼的例子?!犊铝炙笴OBUILD高級(jí)英漢雙解詞典》(2009)對(duì)英文單詞call用了4個(gè)版塊來(lái)處理,前3個(gè)為call的義項(xiàng)大類(lèi),最后列出的是短語(yǔ)動(dòng)詞。該詞典共列出與call相關(guān)的短語(yǔ)10多個(gè),有些短語(yǔ)的意義很難從字面推理得出,例如call off。短語(yǔ)收錄的質(zhì)量不僅影響詞典的編碼能力,也與詞典解碼交際力成正相關(guān)。對(duì)于意義不能自明的短語(yǔ)來(lái)說(shuō),如果漏收錄,將會(huì)對(duì)詞典交際力產(chǎn)生很大影響。例如:

      Meanwhile the defence ministry, which calls the shots on such vital questions as procurement and promotions, is staffed with career bureaucrats and political appointees.

      在這句話(huà)中,對(duì)理解起關(guān)鍵作用的是短語(yǔ)“call the shots”,只有知道其義為“做決斷、做主”,才能理解這個(gè)英文句子的意思。《柯林斯COBUILD高級(jí)英漢雙解詞典》并沒(méi)有列出這個(gè)短語(yǔ),不能不說(shuō)是一種遺憾。

      作為基本表義單位,短語(yǔ)也是基本的認(rèn)知單位;在跨語(yǔ)交際時(shí),它又是基本的翻譯單位。因此,不論是對(duì)于服務(wù)于母語(yǔ)學(xué)習(xí)者的普通語(yǔ)文詞典,還是學(xué)習(xí)詞典或者翻譯詞典,短語(yǔ)的收錄與詞典的交際力都息息相關(guān)。

      其次,短語(yǔ)是語(yǔ)料驅(qū)動(dòng)釋義的抓手,使用短語(yǔ)驅(qū)動(dòng)可以獲得最佳收益。短語(yǔ)的釋義功能還體現(xiàn)在一詞多義的分辨上,由于短語(yǔ)提供了分辨詞義的最小語(yǔ)境,義項(xiàng)的分析也可以在短語(yǔ)語(yǔ)料的基礎(chǔ)上來(lái)進(jìn)行?;谒饕械尼屃x和義項(xiàng)分辨固然可行,但因?yàn)樗饕械墓逃腥毕?,?duì)索引行的分析需要花費(fèi)大量的時(shí)間。當(dāng)索引行被進(jìn)一步濃縮為短語(yǔ)后,冗余信息被過(guò)濾,關(guān)鍵信息得以凸顯。短語(yǔ)驅(qū)動(dòng)是釋義和義項(xiàng)分辨經(jīng)濟(jì)且高效的選項(xiàng)。

      再次,短語(yǔ)收錄與詞典的經(jīng)濟(jì)性也有密切關(guān)系。由于釋義并不能指導(dǎo)語(yǔ)言使用,需要發(fā)揮例證的輔助釋義功能。短語(yǔ)比句子具有更好的經(jīng)濟(jì)性,在短語(yǔ)能滿(mǎn)足指導(dǎo)語(yǔ)言使用的前提下,不需要收錄完整的句子。

      四、 基于統(tǒng)計(jì)值的拉丁語(yǔ)短語(yǔ)識(shí)別

      短語(yǔ)的識(shí)別有兩個(gè)基本方法: 人工識(shí)別和自動(dòng)識(shí)別。從目前的技術(shù)條件來(lái)看,自動(dòng)識(shí)別的精度低于人工識(shí)別。但是,人工識(shí)別只適合于小規(guī)模的文本,針對(duì)大型語(yǔ)料庫(kù)的短語(yǔ)識(shí)別必須采用自動(dòng)識(shí)別的方式。短語(yǔ)自動(dòng)識(shí)別也是語(yǔ)料庫(kù)工具軟件必須具備的功能。

      (一) 短語(yǔ)自動(dòng)識(shí)別的基本方法

      短語(yǔ)的自動(dòng)識(shí)別主要基于統(tǒng)計(jì)值,最簡(jiǎn)單的判斷短語(yǔ)的方法就是依據(jù)節(jié)點(diǎn)詞和搭配詞在一定跨距內(nèi)的共現(xiàn)次數(shù)。Wordsmith將次數(shù)門(mén)檻(threshold)設(shè)為5,即在設(shè)定跨距內(nèi)如果某個(gè)詞與節(jié)點(diǎn)詞的共現(xiàn)次數(shù)達(dá)到5次或以上即為短語(yǔ)。圖1是Wordsmith(Version 7.0)識(shí)別的與節(jié)點(diǎn)詞NATURA相關(guān)的、頻率最高的10個(gè)搭配詞(語(yǔ)料由西塞羅作品組成,共計(jì)137932個(gè)形符):

      圖1 與NATURA共現(xiàn)頻率最高的10個(gè)搭配詞

      從圖1可知,10個(gè)頻率最高的搭配詞基本都是介詞、連接詞等功能詞,它們與節(jié)點(diǎn)詞的共現(xiàn)既沒(méi)有詞典學(xué)意義,也沒(méi)有統(tǒng)計(jì)學(xué)意義。它們并不是詞典編纂所需要的短語(yǔ),突出的共現(xiàn)頻數(shù)只是由于et,a,est,ut等詞匯在語(yǔ)料庫(kù)文本中的超高頻使用所致。為了克服簡(jiǎn)單頻數(shù)這一缺點(diǎn),語(yǔ)言學(xué)家設(shè)計(jì)出了一些實(shí)用的計(jì)算短語(yǔ)的統(tǒng)計(jì)學(xué)方法。

      Evert(2004)提出過(guò)30多種統(tǒng)計(jì)算法。Wordsmith(Version 7.0)工具識(shí)別短語(yǔ)使用了7種方法,其中Z值測(cè)量法、T值測(cè)量法和MI(Mutual Information)值(互信息值;互信息熵;MI值)測(cè)量法最為常用。此外,Dice系數(shù)也是甄別短語(yǔ)的重要方法。Dice系數(shù)介于0至1之間,數(shù)值越大表示搭配力越強(qiáng)。

      使用上述統(tǒng)計(jì)方法,大于門(mén)檻值(具有統(tǒng)計(jì)意義)的共現(xiàn)得以凸顯,大多數(shù)簡(jiǎn)單頻率高的搭配詞會(huì)被過(guò)濾。例如使用Z值,以O(shè)RATIO為節(jié)點(diǎn)詞,從當(dāng)前語(yǔ)料庫(kù)中可以識(shí)別出NUMEROSA ORATIO,OMNIS ORATIO,VIDETUR ORATIO等短語(yǔ),隨著語(yǔ)料庫(kù)容量的增大,識(shí)別的短語(yǔ)會(huì)越來(lái)越多。從理論上說(shuō),只要語(yǔ)料庫(kù)達(dá)到一定規(guī)模,與節(jié)點(diǎn)詞(例如ORATIO)相關(guān)的搭配詞都蘊(yùn)藏在其中,提取短語(yǔ)就是一個(gè)數(shù)據(jù)挖掘的過(guò)程。

      表1是以O(shè)RATIO,NATURA和SOLUM三個(gè)拉丁詞為節(jié)點(diǎn)詞,通過(guò)不同統(tǒng)計(jì)值識(shí)別所得的短語(yǔ)數(shù)量。

      表1 四種統(tǒng)計(jì)方法所得的顯性共現(xiàn)詞語(yǔ)數(shù)量[1]

      從表1可知,使用MI值時(shí),所獲得的共現(xiàn)詞語(yǔ)對(duì)數(shù)量最多,T值最接近平均數(shù),基于Dice系數(shù)的共現(xiàn)詞語(yǔ)對(duì)數(shù)據(jù)最為穩(wěn)定。

      以O(shè)RATIO為例,從ORATIO的共現(xiàn)詞匯來(lái)看,在通過(guò)4種不同方法得到的排序最前的40個(gè)詞匯中,有11個(gè)是相同的,分別為: omnis (general), nostra (our), numerosa (numerous), videtur (it seems good), habetur (deemed), tua (your), philosophorum (philosophers), fit (is), ratione (reason), autem (however), debet (should)。4種方式識(shí)別的一致性比率為27.5%。

      在針對(duì)ORATIO的短語(yǔ)識(shí)別中,T檢驗(yàn)方法將部分功能詞和關(guān)聯(lián)詞判斷為具有共現(xiàn)關(guān)系,例如et (with),si (if),quod (and),aut (or)和verum (but)等,其他3種短語(yǔ)識(shí)別方式都沒(méi)有此種情況。使用T檢驗(yàn)法,MOLLIS (FLEXIBLE)與ORATIO (SPEECH)的共現(xiàn)T值為1.41,不具有統(tǒng)計(jì)意義,而另外3種統(tǒng)計(jì)方法都將其識(shí)別為最常用的20個(gè)共現(xiàn)詞語(yǔ)。這表明T檢驗(yàn)的識(shí)別精度相對(duì)較差。Z值和Dice系數(shù)(設(shè)系數(shù)為0.03時(shí))識(shí)別的數(shù)量相當(dāng),MI值識(shí)別的數(shù)量最多。

      再以NATURA為節(jié)點(diǎn)詞,基于本研究所使用的西塞羅作品語(yǔ)料庫(kù),通過(guò)上述4種短語(yǔ)識(shí)別方法獲取的基本數(shù)據(jù)如下:

      1. 識(shí)別的短語(yǔ)數(shù)量依次為: MI值>T值>Z值>DICE系數(shù)。

      2. T值和DICE系數(shù)識(shí)別的前50個(gè)共現(xiàn)詞語(yǔ)大多數(shù)為功能詞,與NATURA的共現(xiàn)沒(méi)有詞典學(xué)意義。Z值和MI值識(shí)別的前50個(gè)詞以實(shí)義詞為多,其中多數(shù)具有詞典學(xué)意義。

      3. 在前20個(gè)被識(shí)別的詞語(yǔ)中(見(jiàn)表2),Z值和MI值識(shí)別的一致率達(dá)到80%,其中多數(shù)具有詞典學(xué)意義或?yàn)閷?shí)義詞,例如DEPRAVATA, ABHORRERE, ADHIBENTEM, PARABILES, CERTOS, CONIUNCTOS, REPUGNANTE等。

      表2 MI值與Z值算法識(shí)別的前20個(gè)共現(xiàn)詞語(yǔ)

      SOLUM的情況與ORATIO和NATURA類(lèi)似,也表現(xiàn)為MI值識(shí)別數(shù)量最多,T值較大的(排序靠前的)多為功能詞等特征。根據(jù)以上3個(gè)節(jié)點(diǎn)詞短語(yǔ)識(shí)別的數(shù)據(jù),我們對(duì)常用識(shí)別方法總結(jié)如下: 不同識(shí)別算法在識(shí)別精度和效率方面有一定差異,T值較差,可以在實(shí)際短語(yǔ)識(shí)別和提取中放棄該算法;Dice系數(shù)在識(shí)別具有詞典學(xué)意義的短語(yǔ)時(shí),效果也不穩(wěn)定,排序靠前的識(shí)別結(jié)果也有較大噪音;MI值和Z值短語(yǔ)識(shí)別的效度較好,可以將它們作為短語(yǔ)識(shí)別的首選方法。MI值和Z值最大的區(qū)別在于短語(yǔ)識(shí)別的數(shù)量不同,為了取得最佳效果,可以將兩者綜合起來(lái)使用,以取舍短取長(zhǎng)之效。

      (二) 短語(yǔ)統(tǒng)計(jì)識(shí)別的缺陷

      基于統(tǒng)計(jì)的短語(yǔ)識(shí)別是目前短語(yǔ)自動(dòng)識(shí)別最為有效的方法,但該方法也存在下列幾個(gè)不足:

      1. 算法本身的缺陷。各種算法都有過(guò)度匹配的問(wèn)題,其中以互信息值算法最為嚴(yán)重。例如: HABEAMUS,VI,A,F(xiàn)INIS,SIVE等與NATURA的共現(xiàn)關(guān)系。

      與過(guò)度匹配相反的是數(shù)據(jù)稀疏帶來(lái)的關(guān)鍵短語(yǔ)統(tǒng)計(jì)值不具有顯著意義和漏識(shí)別的問(wèn)題,例如上文提到的MOLLIS和ORATIO的T值問(wèn)題。同樣使用T值,以NATURA為節(jié)點(diǎn)詞,也有很多具有詞典學(xué)意義的短語(yǔ)被排除在外,如HUMANI(T值為1.38),COMMUNIA(T值為1.37),PERSPICUUM(T值為1.37)等。

      以上問(wèn)題是統(tǒng)計(jì)識(shí)別的共性問(wèn)題,增加語(yǔ)料可以解決數(shù)據(jù)稀疏的不足,但過(guò)度匹配暫時(shí)難以解決。

      2. 跨距設(shè)定的悖論。目前普遍認(rèn)為跨距為4或者5比較合適,Wordsmith默認(rèn)值為5。從語(yǔ)言的實(shí)際情況看,短語(yǔ)共現(xiàn)的跨距是不固定的,跨距小會(huì)過(guò)濾掉大量短語(yǔ),跨距大則會(huì)導(dǎo)致短語(yǔ)的過(guò)度識(shí)別。

      3. 語(yǔ)料庫(kù)工具在詞形還原方面的缺陷?;诮y(tǒng)計(jì)的搭配識(shí)別需要獲得節(jié)點(diǎn)詞、搭配詞的頻數(shù)及它們的共現(xiàn)次數(shù)等數(shù)值,目前這些數(shù)值都依靠相關(guān)軟件獲得。以Wordsmith為例,它所生成的數(shù)值有時(shí)并不可靠。例如NATURA,NATURAM,NATURAE是同一個(gè)詞形(lemma),但是Wordsmith將它們作為不同的詞形列出,當(dāng)數(shù)據(jù)差異較大時(shí),短語(yǔ)識(shí)別的結(jié)果不可避免會(huì)產(chǎn)生誤差。在詞形還原(lemmatization)問(wèn)題得以解決之前,此缺陷難以避免。

      五、 結(jié)語(yǔ)

      對(duì)短語(yǔ)的記錄任務(wù)通常由詞典(紙質(zhì)詞典或機(jī)器詞典)來(lái)承擔(dān),但是在詞典學(xué)領(lǐng)域,詞典理論家和編纂者長(zhǎng)期以來(lái)主要關(guān)注相對(duì)較為固化的表達(dá)。(Gries 2008)3因此,詞典對(duì)短語(yǔ)的記錄任務(wù)還遠(yuǎn)遠(yuǎn)沒(méi)有完成,大量的短語(yǔ)被有意或無(wú)意地排斥在詞典收錄范圍之外。由于短語(yǔ)在語(yǔ)言交際中的重要地位,積極型的編碼詞典和面向語(yǔ)言理解或智能翻譯的機(jī)器詞典都應(yīng)該多收錄短語(yǔ)。

      基于語(yǔ)料庫(kù)的短語(yǔ)識(shí)別主要是自動(dòng)識(shí)別,人工識(shí)別處于輔助地位,只有在對(duì)結(jié)果進(jìn)行梳理時(shí),人的判斷才真正有價(jià)值。雖然自動(dòng)識(shí)別目前還有一些不足,但總的來(lái)說(shuō),短語(yǔ)自動(dòng)識(shí)別的結(jié)果還是可靠的。短語(yǔ)的漏識(shí)別是對(duì)自動(dòng)識(shí)別的嚴(yán)峻挑戰(zhàn),但隨著語(yǔ)料容量的增加,數(shù)據(jù)稀疏問(wèn)題會(huì)得以解決。過(guò)度匹配并不是嚴(yán)重的問(wèn)題,人工梳理階段可以剔除沒(méi)有詞典學(xué)意義的短語(yǔ)。

      本文的研究主要針對(duì)拉丁語(yǔ),但由于西語(yǔ)多以拉丁字母為基礎(chǔ),有屈折變化,詞語(yǔ)間不需要分詞處理等共性,因此,該研究的結(jié)論有普遍性意義,同樣適合其他以拉丁字母編碼的語(yǔ)言。

      附注

      [1] 本文所言的“顯性共現(xiàn)”值指具有統(tǒng)計(jì)意義的T值、Z值和MI值,分別為T(mén)值大于等于1.645(p值為0.05),Z值大于2,MI值大于3。本研究中,Dice系數(shù)大于0.03被認(rèn)定為顯性共現(xiàn)。

      猜你喜歡
      表義詞典語(yǔ)料庫(kù)
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      漢語(yǔ)借形表義詞論析
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      網(wǎng)絡(luò)新字構(gòu)成的理?yè)?jù)分析
      文教資料(2017年18期)2017-10-10 19:18:30
      詞典例證翻譯標(biāo)準(zhǔn)探索
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      也談文字的本質(zhì)及相關(guān)問(wèn)題
      《胡言詞典》(合集版)刊行
      弥渡县| 阿克苏市| 德庆县| 和政县| 宁城县| 航空| 葵青区| 紫云| 拜城县| 竹北市| 河源市| 平武县| 大埔县| 乌兰察布市| 衢州市| 林周县| 井研县| 德州市| 定远县| 彰武县| 舒兰市| 朝阳区| 板桥市| 江西省| 沽源县| 德保县| 吉林市| 沂水县| 右玉县| 万源市| 常熟市| 陇川县| 潍坊市| 墨竹工卡县| 夏邑县| 襄汾县| 潢川县| 商南县| 法库县| 古蔺县| 固安县|