• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語(yǔ)料庫(kù)詞典學(xué)的最新發(fā)展和未來(lái)趨勢(shì)(上)

      2009-07-31 08:52:18MichaelRundell夏立新
      辭書研究 2009年3期
      關(guān)鍵詞:語(yǔ)詞語(yǔ)料詞典

      Michael Rundell 夏立新

      摘要本文首先回顧了詞典編纂中語(yǔ)料庫(kù)(包括學(xué)習(xí)者語(yǔ)料庫(kù))的使用現(xiàn)狀,指出除了少數(shù)詞典以外,大多數(shù)詞典對(duì)語(yǔ)料庫(kù)數(shù)據(jù)的使用都是隱性的,而非顯性的。在此基礎(chǔ)上分析和總結(jié)了語(yǔ)料庫(kù)數(shù)據(jù)顯性應(yīng)用的可能方式和途徑,如詞頻、搭配等語(yǔ)料庫(kù)數(shù)據(jù)在詞典中的新應(yīng)用。最后,預(yù)測(cè)了語(yǔ)料庫(kù)在詞典學(xué)領(lǐng)域的應(yīng)用和發(fā)展趨勢(shì)。

      關(guān)鍵詞語(yǔ)料庫(kù)詞典學(xué)學(xué)習(xí)者語(yǔ)料庫(kù)語(yǔ)料庫(kù)顯性應(yīng)用詞典學(xué)

      一、引言

      詞典編纂是一個(gè)復(fù)雜的過程,但從本質(zhì)上看該過程可分為四階段:

      (1)決定詞典的目標(biāo)用戶與詞典的使用方式;

      (2)收集語(yǔ)料;

      (3)分析語(yǔ)料;

      (4)根據(jù)上述三個(gè)階段的研究結(jié)果,編寫詞典文本。

      第一個(gè)階段至關(guān)重要,但是相對(duì)來(lái)說比較容易做。然而,剩下的三個(gè)階段一直以來(lái)都是一塊非常難啃的硬骨頭,使得詞典編纂成為一項(xiàng)耗資巨大的苦差事。出于多種原因,近來(lái)第二和第三兩個(gè)階段變得容易了許多。計(jì)算機(jī)技術(shù)的發(fā)展、語(yǔ)言工程界的最新研究,以及詞典編纂者與計(jì)算語(yǔ)言學(xué)家的密切合作為詞典語(yǔ)料的收集和詞典編纂帶來(lái)了一場(chǎng)革命。如今,我們可以在很短的時(shí)間內(nèi)、用較少的資金建成大型的語(yǔ)言數(shù)據(jù)庫(kù),并可以用非常先進(jìn)的方法對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行有效的分析。

      讓我們先來(lái)看一下詞典語(yǔ)料的收集。在過去幾百年間,這項(xiàng)工作意味著要通過艱苦的“閱讀與標(biāo)記”過程從文本中收集引例。例如,《牛津英語(yǔ)詞典》(Ox ford English Dictionary)的第一版和第二版(1928年版和1989年版)就是根據(jù)幾百萬(wàn)張語(yǔ)料卡片上所記錄的引例編纂而成的,每張卡片上都有一段簡(jiǎn)短的引文,標(biāo)示語(yǔ)詞的使用情況。這些引例是大批志愿讀者從19世紀(jì)60年代開始用幾十年的時(shí)間收集起來(lái)的,它們具有極大的語(yǔ)言學(xué)價(jià)值。然而,其中大部分工作如今都可以用計(jì)算機(jī)來(lái)完成,需要人工做的部分已經(jīng)很少。到20世紀(jì)末,這種收集語(yǔ)料的方法已經(jīng)在很大程度上被電子語(yǔ)料庫(kù)——一種存儲(chǔ)在計(jì)算機(jī)中的文本集所取代。但是,這是一個(gè)漸進(jìn)的過程。從第一個(gè)英語(yǔ)語(yǔ)料庫(kù)

      20世紀(jì)60年代建立的擁有一百萬(wàn)詞的布朗語(yǔ)料庫(kù)到約翰·辛克萊(John Sinclair)在伯明翰建立的大型語(yǔ)料庫(kù)之間相隔了二十年。只要讀一讀早期語(yǔ)料庫(kù)建設(shè)者的記述(Kuecera and Francis 1967,Renouf 1987),我們就知道這需要怎樣艱辛的努力。即使是像BNC(英國(guó)國(guó)家語(yǔ)料庫(kù))這樣比較“成熟”的語(yǔ)料庫(kù),也花了三年多的時(shí)間才建成。該語(yǔ)料庫(kù)建于上世紀(jì)90年代初,由多家詞典出版社和學(xué)術(shù)機(jī)構(gòu)合作建設(shè),耗資達(dá)數(shù)百萬(wàn)英鎊。

      如今,情況已大不相同。因特網(wǎng)的出現(xiàn)以及網(wǎng)頁(yè)文本定位、提取和處理等軟件工具的開發(fā)給語(yǔ)料庫(kù)帶來(lái)了第二次革命。這些技術(shù)使我們能夠用較少的投資快速地建設(shè)比“傳統(tǒng)”方式所能收集到的任何語(yǔ)料集都大得多的語(yǔ)料庫(kù)。英國(guó)的詞典編纂者通??墒褂檬赵~達(dá)20億的各種英語(yǔ)語(yǔ)料庫(kù)(Baroni et al.2006,Sharoff 2006),不僅如此,他們還擁有現(xiàn)成的或正在開發(fā)的漢語(yǔ)、日語(yǔ)、阿拉伯語(yǔ)、大部分歐洲語(yǔ)言語(yǔ)料庫(kù)和其他類似的資源。擁有了龐大的語(yǔ)料庫(kù)資源后,我們就可以輕松地、準(zhǔn)確地確定語(yǔ)詞的使用頻率或語(yǔ)言特征。相比之下,讓齊普夫(G.K.Zipf)得出其著名齊普夫定律的詞頻表,則是他經(jīng)過多年艱辛的收集才編輯而成的。

      詞典編纂過程的第三個(gè)階段——分析語(yǔ)言數(shù)據(jù)的工作也經(jīng)歷了類似的變化。傳統(tǒng)的做法是,詞典編纂者將在第二階段所收集的引例卡片進(jìn)行分類、比較和反復(fù)推敲,直到從中得出語(yǔ)詞意義和用法的明顯證據(jù)。詹姆斯·默里(James Murray)的孫女在其著述(Murray 1977:chapter X)中給我們生動(dòng)地描繪了這一艱辛的工作需要怎樣巨大的耐心和韌性。在前計(jì)算機(jī)時(shí)代,語(yǔ)文學(xué)者可以利用的另外一個(gè)工具是“語(yǔ)詞索引表”?!罢Z(yǔ)詞索引表”原先是文本中每個(gè)語(yǔ)詞的索引(尤其是宗教典籍或經(jīng)典文獻(xiàn)),表中給出所有語(yǔ)詞每次在文本中出現(xiàn)的位置。想到過去建成這類資源要投入數(shù)年的辛勤勞作,而如今同樣的工作只需短短幾秒鐘就能完成,真令人感慨不已。過去與現(xiàn)在相比,的確有天壤之別:在收集詞條的語(yǔ)料時(shí),如今的詞典編纂者能夠在幾秒鐘之內(nèi)在幾十億詞的語(yǔ)料庫(kù)中進(jìn)行各種復(fù)雜的檢索。

      雖然近年來(lái)語(yǔ)言數(shù)據(jù)的收集和分析變?nèi)菀琢嗽S多,但是,詞典編纂過程的最后一個(gè)階段一一編寫準(zhǔn)確反映可觀察的語(yǔ)言行為和適應(yīng)目標(biāo)用戶需求的詞典文本——仍然是一項(xiàng)需要大量(人工)編輯工作的艱巨任務(wù)。這就引發(fā)了下面的問題:語(yǔ)言科技到底能帶我們走多遠(yuǎn)?既然如今已經(jīng)不會(huì)發(fā)生語(yǔ)料不足的情況,并且語(yǔ)言分析的過程也簡(jiǎn)約高效,那么,詞典學(xué)界和語(yǔ)言工程界的合作能使我們距離在某種程度上自動(dòng)生成詞典這個(gè)目標(biāo)越來(lái)越近了嗎?早在1987年,約翰·辛克萊就預(yù)見到計(jì)算能力和計(jì)算技術(shù)可能的發(fā)展軌道。他甚至還說過“一種完全自動(dòng)生成的詞典正處于設(shè)計(jì)階段”。然而,二十年后,這個(gè)自動(dòng)生成詞典的夢(mèng)想仍沒有實(shí)現(xiàn)——但是,它當(dāng)然也沒有從議事日程中去掉。在下文介紹上述變化對(duì)教學(xué)型詞典產(chǎn)生影響的各種方式時(shí),它將是其中所討論的問題之一。

      二、語(yǔ)料庫(kù)的影響

      1980年可視為語(yǔ)料庫(kù)詞典學(xué)的“零年”,這一點(diǎn)顯而易見(并且相當(dāng)準(zhǔn)確)。正是在這一年COBUILD項(xiàng)目正式啟動(dòng),由此所編纂出的詞典——第一部以語(yǔ)料庫(kù)為基礎(chǔ)的英語(yǔ)詞典于1987年問世。這給全球英語(yǔ)詞典的編纂帶來(lái)了根本性的變革。短短十年之內(nèi),所有主要的英語(yǔ)學(xué)習(xí)詞典出版社都把語(yǔ)料庫(kù)作為其首要的語(yǔ)料來(lái)源。雙語(yǔ)詞典[例如《牛津一阿歇特英法詞典》(Ox ford-Hachette English—French Dictionary)]和以本族語(yǔ)者為目標(biāo)用戶的單語(yǔ)詞典(例如《牛津英語(yǔ)詞典》)都很快跟進(jìn),因此,現(xiàn)在在編寫英語(yǔ)詞典(或者在英國(guó)出版雙語(yǔ)詞典)時(shí)幾乎沒有不利用語(yǔ)料庫(kù)的。

      使用語(yǔ)料庫(kù)編纂詞典的好處已有多篇文獻(xiàn)做過記述(Sinclair 1987,Rundell 1998),但是直到近年來(lái),詞典呈現(xiàn)從語(yǔ)料庫(kù)中所獲得信息的方式大多數(shù)都是隱性的,而非顯性的?!半[性”呈現(xiàn)方式是指,對(duì)語(yǔ)料庫(kù)數(shù)據(jù)的分析將幫助詞典編纂者對(duì)一些編纂問題做出決策,如詞義(某一語(yǔ)詞有多少義項(xiàng))、片語(yǔ)(哪些短語(yǔ)或搭配值得凸顯)、句法特征(哪些句法結(jié)構(gòu)需要收入詞典中)等等。同樣,從語(yǔ)料庫(kù)中所獲得的詞頻信息為詞典編纂者決定選詞立目和義項(xiàng)排序(例如,哪個(gè)義項(xiàng)該排在前面)等決策提供了依據(jù)。最后,對(duì)學(xué)習(xí)者語(yǔ)料庫(kù)的分析使我們?cè)谠~典中凸顯學(xué)習(xí)者可能感到困難的某些用法,或者用用法說明來(lái)解釋學(xué)習(xí)者時(shí)?;煜恼Z(yǔ)詞差異。例如,我們從學(xué)習(xí)者語(yǔ)料庫(kù)數(shù)據(jù)中得知information一詞經(jīng)常用作可數(shù)名詞,于是,在詞典中就給出一個(gè)類似下面《劍橋高階學(xué)習(xí)詞典》(Cambridge Advanced Learners Dictionary)中的警示說明,以幫助學(xué)習(xí)者糾正

      這一錯(cuò)誤印象。

      但是,在上面所有這些隱性呈現(xiàn)方式中,只有詞典編纂者能夠看到從語(yǔ)料庫(kù)中所獲得的信息,最終的詞典使用者卻無(wú)法看到。在這種呈現(xiàn)方式下,詞典編纂者的任務(wù)就是以簡(jiǎn)潔有效的方式為詞典使用者呈現(xiàn)一系列有關(guān)語(yǔ)詞特征的信息,而這些信息就是通過對(duì)語(yǔ)料庫(kù)中的數(shù)據(jù)進(jìn)行大量分析后得出的。實(shí)際上,詞典使用者在詞典中看見的不過是二手?jǐn)?shù)據(jù),是巨大冰山的一角??偟膩?lái)說,這是一個(gè)理智的做法:普通的詞典使用者——他們一般是為某個(gè)語(yǔ)言問題快速尋求一個(gè)答案——既沒有時(shí)間也不愿意(通常也沒有必要的技能)費(fèi)力在一堆原始語(yǔ)言數(shù)據(jù)中尋求答案。但是新科技給詞典編纂者提供了讓詞典使用者直接使用語(yǔ)料庫(kù)信息的機(jī)會(huì)。

      最能證明這一點(diǎn)的就是例證的呈現(xiàn)方式。在早期的學(xué)習(xí)詞典里,例證都是詞典編纂者自己杜撰的,為了在一句話里闡釋幾個(gè)不同的語(yǔ)言點(diǎn),他們常常要精心編造例證。語(yǔ)料庫(kù)的出現(xiàn)使詞典編纂者直接使用語(yǔ)料庫(kù)中的真實(shí)句子作為例證成為可能。第一部COBUILD詞典開創(chuàng)了這方面的先河,它大膽地采用從語(yǔ)料庫(kù)中選取的、未經(jīng)過任何修改的句子作為例證來(lái)闡示語(yǔ)詞的用法——這可能是首部向詞典使用者提供顯性語(yǔ)料庫(kù)信息的詞典。COBUILD詞典的做法并沒有獲得一致認(rèn)可(Haussman&Gorbahn 1989),后來(lái),詞典學(xué)界還對(duì)使用未加修改的真實(shí)例證的優(yōu)點(diǎn)(和缺點(diǎn))進(jìn)行了一場(chǎng)激烈的辯論。現(xiàn)在,雖然仍然可以聽到不同的意見,但大家已理智地達(dá)成共識(shí):如果例證不通俗易懂,那就不能起到有效的示例作用;此外,直接選自語(yǔ)料庫(kù)的未加修改的例證并不總能(甚至經(jīng)常不能)滿足普通詞典使用者的需求。然而,我們稍后會(huì)了解到,實(shí)際上我們完全可以做到魚和熊掌兼得:既能提供以教學(xué)為目的、充分反映語(yǔ)料庫(kù)中語(yǔ)詞用法的例證,同時(shí)又能讓詞典使用者直接接觸到大量未經(jīng)修改的語(yǔ)料庫(kù)中的原句。

      然而,在這場(chǎng)關(guān)于例證來(lái)源和真實(shí)性的辯論中,我們很容易忽視語(yǔ)料庫(kù)對(duì)詞典學(xué)發(fā)展最為重要的貢獻(xiàn)。雖然對(duì)詞典編纂者來(lái)說,例證是他們可以使用的、看得見的語(yǔ)料庫(kù)數(shù)據(jù),但是,語(yǔ)料庫(kù)的真正價(jià)值在于它為詞典編纂者分析語(yǔ)詞意義與用法提供了不可或缺的原始數(shù)據(jù)。這一點(diǎn)表現(xiàn)在兩個(gè)層面:具體層面和系統(tǒng)層面。

      在具體層面上,即單個(gè)詞條層面,我們?nèi)缃衲軌蚍浅>_地描述語(yǔ)詞的意義,如果沒有大量的語(yǔ)言數(shù)據(jù)支持,這是完全不可能的。像《朗文英語(yǔ)聯(lián)想活用詞典》(Longman Language Activator)(1993)這類以辨析近義詞為主要目標(biāo)的詞典在前語(yǔ)料庫(kù)時(shí)代是根本不可能做到的。例如,該詞典的動(dòng)詞bump off詞條就清楚地給出了該詞的語(yǔ)義和文體特征,這些特征把它和其他動(dòng)詞,例如murder和do away with區(qū)別開來(lái):

      bump off an informal word meaning to kill someone or arrange for them to be killed, especially because they know about things you have donewrong,or are dangerous to you殺死,謀殺:殺死某人或預(yù)謀讓某人被殺的非正式詞匯,尤其是因?yàn)樗麄冎滥闼龅腻e(cuò)事或?qū)δ銟?gòu)成危險(xiǎn)。早期的詞典是不會(huì)詳細(xì)到這個(gè)地步的,就像該詞條在《牛津高階學(xué)習(xí)詞典》(Ox ford Advanced Learner's Dictionary)(1989)第四版中所示的那樣:

      bump oFf(sl)kill or murder sb(俚)殺死某人;謀殺某人

      在系統(tǒng)層面,語(yǔ)料庫(kù)的影響更為深遠(yuǎn):它讓我們重新認(rèn)識(shí)語(yǔ)言使用的規(guī)律。根據(jù)我們對(duì)語(yǔ)言使用進(jìn)行考察后所獲得的發(fā)現(xiàn),許多構(gòu)成傳統(tǒng)詞典學(xué)基石的觀點(diǎn)都得重新評(píng)估。例如,傳統(tǒng)詞典學(xué)認(rèn)為,單個(gè)語(yǔ)詞是意義的自主載體;語(yǔ)詞可以擁有一定數(shù)量的、相互排斥的獨(dú)立“義項(xiàng)”。但在大量的語(yǔ)言證據(jù)面前,這些觀點(diǎn)看起來(lái)越來(lái)越不合情理。不斷出現(xiàn)的語(yǔ)言使用模式(約翰·辛克萊首先對(duì)此進(jìn)行了研究,并稱其為“習(xí)語(yǔ)性原則”)促使我們重新去思考詞典描述語(yǔ)言的方式。正如帕特里克·漢克斯(Patrick Hanks)所指出的那樣:“約翰·辛克萊并不僅僅是一位詞典學(xué)家……他還深入研究語(yǔ)詞的使用,以便闡明語(yǔ)言使用的規(guī)律。”辛克萊和其他語(yǔ)料庫(kù)語(yǔ)言學(xué)家的新見解給我們展示了意義和使用之間的密切聯(lián)系。這導(dǎo)致詞典的組織方式發(fā)生了巨大的變化,詞典更加重視片語(yǔ)和詞匯單位的處理,而不是單個(gè)的語(yǔ)詞。舉一個(gè)簡(jiǎn)單的例子,讓我們想一想詞典是如何幫助使用者理解“I said 1 would have a think about it and give my decision tomorrow.”這句話的。在傳統(tǒng)詞典中,我們將發(fā)現(xiàn)以下解釋:

      think2noun [singular]an act of thinking[單數(shù)]想;思考;思想接著,詞典編纂者希望讀者用詞典所給的釋義替換原句中的詞目詞,并成功地理解這句話的意義。但是,所有的數(shù)據(jù)都顯示,無(wú)論用“名詞”這一術(shù)語(yǔ)的哪個(gè)意義來(lái)解釋上句中的“think”,它都不是通常意義上的名詞,相反,它總是出現(xiàn)在固定表達(dá)式“have a think about”中。因此,基于語(yǔ)料庫(kù)的詞典將不收錄或解釋那些罕見的、邊緣的用法,而著重解釋反復(fù)出現(xiàn)的多詞單位。語(yǔ)料庫(kù)數(shù)據(jù)不僅使詞典編纂者能夠在許多方面比以前做得更好,而且促使我們重新思索詞典編纂的本質(zhì)。我們目前也許只是初步利用了語(yǔ)料庫(kù)發(fā)展所帶來(lái)的那些附帶成果,因此,羅斯蒙德·穆恩(Rosamund Moon)預(yù)測(cè)將來(lái)會(huì)出現(xiàn)“一種新型的詞典,在這種詞典中,正字單詞不過是檢索途徑而已,同時(shí),詞典將給出上下文,以便確定其意義”。

      (未完待續(xù))

      猜你喜歡
      語(yǔ)詞語(yǔ)料詞典
      你是那樣美 唐心語(yǔ)詞
      歌海(2021年3期)2021-07-25 02:30:48
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      《老子》“自”類語(yǔ)詞哲學(xué)范疇釋要
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      從文化理?yè)?jù)看英漢語(yǔ)詞翻譯
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      蕲春县| 宁都县| 柳林县| 秀山| 辉南县| 保德县| 大港区| 夹江县| 鄂托克旗| 长宁区| 新龙县| 扎囊县| 佳木斯市| 新兴县| 澜沧| 乐陵市| 民乐县| 图们市| 平塘县| 峨山| 都安| 连云港市| 司法| 平遥县| 金门县| 长子县| 娱乐| 手游| 廉江市| 江油市| 永安市| 特克斯县| 印江| 临沧市| 远安县| 宁夏| 河南省| 白河县| 英吉沙县| 兴和县| 黔西县|