• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      上海外語(yǔ)教育出版社英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)的構(gòu)建*

      2012-08-07 05:35:32張春明
      辭書研究 2012年5期
      關(guān)鍵詞:分詞語(yǔ)料詞典

      賀 敏 張春明

      (上海外語(yǔ)教育出版社 上海 200083)

      上海外語(yǔ)教育出版社(以下簡(jiǎn)稱“外教社”)承擔(dān)的上海市科委課題“雙語(yǔ)詞典編纂系統(tǒng)的研發(fā)”是上海市政府扶持辭書編纂出版數(shù)字化的重大科研項(xiàng)目,該課題的總體目標(biāo)是開發(fā)一個(gè)基于語(yǔ)料庫(kù)的數(shù)字化雙語(yǔ)詞典編纂出版系統(tǒng),其子課題之一就是構(gòu)建一個(gè)服務(wù)于雙語(yǔ)詞典編纂、經(jīng)過(guò)深加工的、通用共時(shí)并在句子層面對(duì)齊的英漢雙語(yǔ)書面語(yǔ)語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)以英語(yǔ)為原語(yǔ)、以漢語(yǔ)為譯語(yǔ),以XML(extensible Markup Language)為標(biāo)注語(yǔ)言,對(duì)英語(yǔ)原文語(yǔ)料的標(biāo)注做到分詞(tokenization)、主詞標(biāo)注(lemmatization)及詞性賦碼(part of speech tagging),對(duì)漢語(yǔ)譯文語(yǔ)料的標(biāo)注做到分詞及詞性賦碼。基于該語(yǔ)料庫(kù),詞典編纂者及詞典用戶可以通過(guò)在線檢索平臺(tái)提取有效的詞典例證,統(tǒng)計(jì)具體詞語(yǔ)的詞頻信息,了解詞匯的分布情況,獲得具體詞語(yǔ)或結(jié)構(gòu)的用法信息(包括語(yǔ)義、語(yǔ)法、搭配等方面)。經(jīng)過(guò)三年多的建設(shè),該語(yǔ)料庫(kù)一期工程已建成收錄68萬(wàn)英漢雙語(yǔ)平行句對(duì)的語(yǔ)料庫(kù),總字?jǐn)?shù)達(dá)5455萬(wàn)。本文將綜述該語(yǔ)料庫(kù)的設(shè)計(jì)和構(gòu)建過(guò)程,內(nèi)容涉及語(yǔ)料的采集、加工、標(biāo)注、檢索等方面。

      一、語(yǔ)料庫(kù)前期設(shè)計(jì)

      課題研究開始時(shí),外教社課題組與各合作單位進(jìn)行了較為廣泛的調(diào)查工作,并以此為基礎(chǔ)制訂了詳細(xì)的語(yǔ)料庫(kù)建設(shè)實(shí)施方案,確定語(yǔ)料庫(kù)設(shè)計(jì)階段的主要任務(wù)為:(1)確定標(biāo)注語(yǔ)言;(2)確立語(yǔ)料選取的原則及語(yǔ)料來(lái)源;(3)制訂語(yǔ)料儲(chǔ)存方案與各項(xiàng)工作流程;(4)編制語(yǔ)料庫(kù)技術(shù)開發(fā)需求規(guī)約。

      1.標(biāo)注語(yǔ)言

      英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)的標(biāo)注語(yǔ)言采用了XML,即可擴(kuò)展標(biāo)記語(yǔ)言。XML是目前通用的數(shù)據(jù)標(biāo)記語(yǔ)言,它能描述多種類型的文本邏輯結(jié)構(gòu),能創(chuàng)建不受平臺(tái)或格式化協(xié)定限制的開放數(shù)據(jù)。XML的設(shè)計(jì)宗旨是傳輸數(shù)據(jù),使其成為獨(dú)立的信息傳輸與集成工具。XML文件沒(méi)有任何預(yù)定義標(biāo)簽,因其“高度靈活,擴(kuò)展性強(qiáng)”(梁茂成等2010)的特點(diǎn),在跨平臺(tái)數(shù)據(jù)交換、數(shù)據(jù)建模與分析、網(wǎng)絡(luò)服務(wù)等眾多領(lǐng)域得到了廣泛應(yīng)用。Jeffrey Zeldma在Designing with Web Standards(2nd Ed.)中這樣描述XML的開放性:“XML于1998年2月被引入軟件工業(yè)界時(shí),它給整個(gè)行業(yè)帶來(lái)了一場(chǎng)風(fēng)暴。有史以來(lái)第一次,這個(gè)世界擁有了一種用來(lái)結(jié)構(gòu)化文檔和數(shù)據(jù)的通用且適應(yīng)性強(qiáng)的格式,它不僅僅可以用于 WEB,而且可以被用于任何地方”(http:∥www.w3school.com.cn/x.a(chǎn)sp)。正是由于 XML具有開放性強(qiáng)、兼容性好、靈活性高、擴(kuò)展性強(qiáng)的特點(diǎn),可實(shí)現(xiàn)信息內(nèi)容、結(jié)構(gòu)和表現(xiàn)三者的分離,我們選用了XML作為英漢雙語(yǔ)平行句對(duì)語(yǔ)料的標(biāo)注語(yǔ)言。

      2.語(yǔ)料選取原則

      根據(jù)語(yǔ)料庫(kù)的性質(zhì)與定位,我們確立了六大語(yǔ)料選取原則:(1)語(yǔ)料以英語(yǔ)為原語(yǔ),以漢語(yǔ)為譯語(yǔ),漢譯英類語(yǔ)料不收。(2)以20世紀(jì)以來(lái)的現(xiàn)當(dāng)代作品語(yǔ)料為主。(3)以書面語(yǔ)語(yǔ)料為主,口語(yǔ)、錄音文本不收。(4)為盡量保證語(yǔ)料庫(kù)的平衡性,確定了人文社科類語(yǔ)料占70%、自然科學(xué)與應(yīng)用科學(xué)類語(yǔ)料占15%、其他類語(yǔ)料占15%的語(yǔ)料分布比例。文學(xué)類語(yǔ)料包括虛構(gòu)類(fiction)與非虛構(gòu)類(non-fiction),但不收錄詩(shī)歌作品。學(xué)科廣度原則優(yōu)于深度原則,科技類語(yǔ)料以科普類作品為主。(5)為保證語(yǔ)篇的連貫性與完整性,語(yǔ)料收錄以整部或整篇為單位,片段性語(yǔ)料不予收錄。片段性語(yǔ)料指的是須從作品中逐個(gè)析出的以句子或段落為單位的語(yǔ)料,一般包括翻譯教材中的譯例、詞典中的例證,等等。(6)除了語(yǔ)料庫(kù)的性質(zhì)與定位外,確立語(yǔ)料選取原則時(shí)須納入考慮的另一個(gè)因素是語(yǔ)料本身的質(zhì)量,這就涉及語(yǔ)料原本與譯本的選擇。為了保證質(zhì)量,我們?cè)谶x取語(yǔ)料時(shí)盡可能遵循兩個(gè)原則:(1)選擇聲譽(yù)高、影響大、專業(yè)性出版機(jī)構(gòu)的出版物;(2)同一部英語(yǔ)作品有多種漢語(yǔ)譯本的,選擇質(zhì)量高或權(quán)威的譯本。

      作為全國(guó)最大、最權(quán)威的外語(yǔ)出版基地之一,外教社本身就擁有大量雙語(yǔ)語(yǔ)料資源。在這些語(yǔ)料資源中,我們共選取了近200種已出版的、符合語(yǔ)料庫(kù)定位的英漢雙語(yǔ)對(duì)照?qǐng)D書的電子文本,用于語(yǔ)料庫(kù)建設(shè)。其他語(yǔ)料的來(lái)源有正式紙質(zhì)出版物和來(lái)自互聯(lián)網(wǎng)的電子文本兩種,以紙質(zhì)出版物為主,互聯(lián)網(wǎng)文本為輔。出于保證語(yǔ)料質(zhì)量的考慮,這些語(yǔ)料必須具備四大要素——作品名、英語(yǔ)作者、漢語(yǔ)譯者、出版社(或網(wǎng)址),語(yǔ)料來(lái)源最終由外教社確定。

      3.語(yǔ)料加工流程

      結(jié)合自身的情況,我們初步制訂了一個(gè)基本的語(yǔ)料加工流程(見圖1)。

      該語(yǔ)料庫(kù)一期工程的規(guī)模原設(shè)定為50萬(wàn)句對(duì)(5000萬(wàn)字),但最終為68萬(wàn)句對(duì)。要構(gòu)建一個(gè)如此規(guī)模的語(yǔ)料庫(kù),工作量大、耗時(shí)長(zhǎng)久、涉及人員眾多。為了保證語(yǔ)料加工工作的有序開展與有效進(jìn)行,我們還針對(duì)圖1中的各個(gè)流程制訂了詳細(xì)的工作規(guī)范,內(nèi)容涉及原始語(yǔ)料的儲(chǔ)存及文件的命名、語(yǔ)料來(lái)源信息的記錄、原始語(yǔ)料在加工前的預(yù)處理、句對(duì)齊處理的原則等。關(guān)于編制語(yǔ)料庫(kù)技術(shù)開發(fā)需求規(guī)約方面的工作,因技術(shù)性較強(qiáng),本文不展開詳述。

      圖1 外教社英漢雙語(yǔ)平行句對(duì)語(yǔ)料加工流程

      二、語(yǔ)料加工

      在確定語(yǔ)料庫(kù)建設(shè)方案后,就進(jìn)入了語(yǔ)料庫(kù)構(gòu)建階段。語(yǔ)料庫(kù)構(gòu)建階段的工作主要由三部分組成:(1)原始語(yǔ)料的采集與整理;(2)語(yǔ)料的句對(duì)齊與標(biāo)注處理;(3)分詞、主詞標(biāo)注與詞性賦碼。

      1.原始語(yǔ)料的采集與整理

      一般來(lái)說(shuō),語(yǔ)料來(lái)源有兩種,即紙質(zhì)出版物或互聯(lián)網(wǎng)電子文本。紙質(zhì)出版物語(yǔ)料經(jīng)掃描、識(shí)別與初步校對(duì)后,形成TXT格式的電子文件;互聯(lián)網(wǎng)電子文本經(jīng)轉(zhuǎn)換、除噪與初步校對(duì)后,形成TXT格式的電子文件。語(yǔ)料文本的編碼統(tǒng)一使用UTF-8。盡管經(jīng)過(guò)初步校對(duì),這些生語(yǔ)料還是存在各種各樣的問(wèn)題,如:遺漏空格或存在多余空格、存在亂碼、多余的段落標(biāo)記符及連字符、全角或半角標(biāo)點(diǎn)符號(hào)的使用錯(cuò)誤,等等。為了獲得清潔文本,為下一階段的語(yǔ)料加工工作做好準(zhǔn)備,需要對(duì)這些電子文件做進(jìn)一步的預(yù)處理。文本預(yù)處理的類型主要有以下三種:

      1)使用外教社自行研發(fā)的句對(duì)標(biāo)注工具去除文本中多余的段落標(biāo)記符;

      2)對(duì)電子文本中不能顯示或不能正確顯示的特殊字符予以補(bǔ)充或修正,如:上撇號(hào)、外國(guó)人名譯名中的中圓點(diǎn),等等;

      3)將英語(yǔ)語(yǔ)料中的全角標(biāo)點(diǎn)符號(hào)替換為半角標(biāo)點(diǎn)符號(hào),將漢語(yǔ)語(yǔ)料中的半角標(biāo)點(diǎn)符號(hào)替換為全角,統(tǒng)一破折號(hào)的形式,等等。

      在文本預(yù)處理完成后,語(yǔ)料加工者需填寫EXCEL格式的“英漢雙語(yǔ)平行語(yǔ)料來(lái)源信息表”,該表具體包括:語(yǔ)料加工者;加工開始及完成時(shí)間;語(yǔ)料驗(yàn)收者;語(yǔ)料驗(yàn)收日期;分布類別;英語(yǔ)書名;漢語(yǔ)書名;英語(yǔ)作者;漢語(yǔ)譯者;英語(yǔ)版出版社及出版年;漢語(yǔ)版出版社及出版年;是否英漢對(duì)照。英語(yǔ)版及漢語(yǔ)版網(wǎng)址、備注、索書號(hào)為選填項(xiàng)目。由于語(yǔ)料多來(lái)源于正式紙質(zhì)出版物,為保證學(xué)科分類的科學(xué)性,分布類別信息按中圖分類法,填寫版權(quán)頁(yè)書號(hào)中的中圖分類號(hào)。正如Leech(1997)所言,對(duì)語(yǔ)料庫(kù)進(jìn)行各類標(biāo)注會(huì)使語(yǔ)料庫(kù)增值,而雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)最基本的標(biāo)注就是句對(duì)齊標(biāo)注。

      2.句對(duì)切分

      句對(duì)齊處理采取自動(dòng)對(duì)齊與人工編輯相結(jié)合的辦法。從現(xiàn)階段的技術(shù)現(xiàn)狀來(lái)看,自動(dòng)對(duì)齊的正確率尚難以令人滿意,要實(shí)現(xiàn)語(yǔ)料的完全對(duì)齊,還需要人工干預(yù)。

      英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)的總體對(duì)齊原則是一句英語(yǔ)對(duì)一句漢語(yǔ),但由于英漢兩種語(yǔ)言在表達(dá)方式和習(xí)慣上均有較大差異,有時(shí)無(wú)法實(shí)現(xiàn)“一對(duì)一”。遇到此類情況時(shí),我們采取了兩種方式處理:若一句英語(yǔ)的漢語(yǔ)譯文為多句,則采取一對(duì)多的辦法;若多句英語(yǔ)的漢語(yǔ)譯文為一句,則采取多對(duì)一的辦法。有時(shí)漢語(yǔ)譯文因行文需要與英語(yǔ)原文的語(yǔ)序有所不同,為保證英漢文本在語(yǔ)義上的對(duì)應(yīng),則采取擴(kuò)大對(duì)應(yīng)單位的辦法,合并相應(yīng)句子,如《埃及女王克婁巴特拉》中的句對(duì):

      The spectators were about to witness a spectacle that none of them would ever forget.Cleopatra,queen of Egypt,was arriving to greet the most powerful leader of the Roman world.

      克婁巴特拉,埃及的女王,正趕來(lái)這兒會(huì)見羅馬最強(qiáng)大的將領(lǐng)。這里即將上演的一幕,所有到場(chǎng)的人都將永生難忘。

      自動(dòng)對(duì)齊完成后,加工者還需要對(duì)自動(dòng)對(duì)齊的文件進(jìn)行人工核對(duì)。核對(duì)的重點(diǎn)為:(1)糾錯(cuò)。主要是改正錯(cuò)別字或拼寫錯(cuò)誤,補(bǔ)充遺漏的空格或刪除多余的空格,刪除單詞間多余的連字符(如to-day)。為保證語(yǔ)料的原始性,加工者對(duì)譯文質(zhì)量有問(wèn)題之處不做修改。(2)強(qiáng)制對(duì)齊。主要是根據(jù)句對(duì)齊原則糾正機(jī)器未對(duì)齊句子。(3)處理原書中的圖、表、公式、符號(hào)、文內(nèi)注釋編號(hào)、頁(yè)眉、頁(yè)腳、頁(yè)碼、腳注、尾注、行號(hào)、夾注、譯者注。處理原則為:a.原書的頁(yè)碼、頁(yè)眉、頁(yè)腳、腳注、尾注、原文正文中指示腳注、尾注位置的編號(hào)、行號(hào)等一律刪除;b.原文和譯文同時(shí)對(duì)應(yīng)存在的夾注保留;c.譯文中的譯者注刪除;d.圖片、表格、公式、符號(hào)等在文本文件中無(wú)法正確顯示的內(nèi)容均刪除,在刪除處“[]”加注(即,在英、漢語(yǔ)料中刪除圖、表、公式、符號(hào)的原始位置分別加上“[Illustration/Chart/Formula/Symbol omitted]”與“[圖/表/公式/符號(hào)略]”)。

      3.句對(duì)標(biāo)注

      我們使用外教社自行開發(fā)的雙語(yǔ)平行句對(duì)標(biāo)注工具進(jìn)行句對(duì)齊語(yǔ)料的XML標(biāo)注。該工具的功能主要有:生成及編輯雙語(yǔ)平行句對(duì)標(biāo)注XML文件、統(tǒng)計(jì)雙語(yǔ)平行句對(duì)標(biāo)注XML文件的句對(duì)數(shù)及折合漢字?jǐn)?shù)。

      XML是一種自定義標(biāo)記語(yǔ)言,以XML標(biāo)記語(yǔ)料就需要一整套規(guī)范來(lái)定義語(yǔ)料的元素、屬性等,保證以XML格式標(biāo)記的語(yǔ)料具有可交換性和共享性。表1為英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)使用的元信息元素集。

      表1 外教社英漢雙語(yǔ)平行語(yǔ)料庫(kù)語(yǔ)料元信息元素表

      (續(xù)表1)

      將TXT格式的對(duì)齊文本及EXCEL格式的“英漢雙語(yǔ)平行語(yǔ)料來(lái)源信息表”導(dǎo)入平行句對(duì)標(biāo)注工具,生成句對(duì)齊標(biāo)注語(yǔ)料。語(yǔ)料加工者根據(jù)元信息標(biāo)注規(guī)則與句對(duì)齊原則,在平行句對(duì)標(biāo)注工具中對(duì)句對(duì)齊標(biāo)注語(yǔ)料進(jìn)行編輯。此外,語(yǔ)料加工者還可以通過(guò)平行句對(duì)標(biāo)注工具統(tǒng)計(jì)某種語(yǔ)料文本的句對(duì)數(shù)量與總字?jǐn)?shù)。句對(duì)齊標(biāo)注語(yǔ)料經(jīng)過(guò)多次檢查后驗(yàn)收入庫(kù),做進(jìn)一步自動(dòng)分詞、主詞標(biāo)注與詞性賦碼處理。

      4.英語(yǔ)語(yǔ)料的分詞、主詞標(biāo)注與詞性賦碼

      分詞(tokenization)指的是將一連串的字符轉(zhuǎn)換成相互分離的可識(shí)別形符(token)。英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)對(duì)英語(yǔ)形符做如下分類:

      1) 一般意義上的單詞(以空格隔開),如:ability、British、where、cliché、cleaning。

      2) 帶連字符的單詞,如:mark-up、post-war、just-in-time、wonder-of-the-world。

      3) 帶“.”或不帶“.”的縮寫,如:UNESCO、Mr.、St.、U.S.A.、etc.。

      4) 數(shù)字或數(shù)字與字母的組合,如:0.16、1/2、1000、1,000、2010、3rd、21th、3D,1980s。

      5)縮約式,如:'d、've。英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)對(duì)縮約式的處理示例詳見表2。

      表2 英語(yǔ)文本縮約式分詞前后對(duì)照表

      (續(xù)表2)

      詞典編纂者通常需要研究詞的語(yǔ)法特征,因此,經(jīng)過(guò)詞形標(biāo)注的語(yǔ)料還需要更進(jìn)一步的標(biāo)注,即英語(yǔ)單詞的主詞標(biāo)注(lemmatization)和詞性賦碼(part-of-speech tagging)。主詞標(biāo)注是將單詞的屈折變化形式還原成單詞的原形,即主詞(lemma)。如,英語(yǔ)單詞look做動(dòng)詞用時(shí),其屈折變化形式有現(xiàn)在式復(fù)數(shù)形式及第一人稱單數(shù)形式look、現(xiàn)在時(shí)第三人稱單數(shù)looks、過(guò)去式和過(guò)去分詞looked,以及現(xiàn)在分詞和動(dòng)名詞looking。在語(yǔ)料處理中,需標(biāo)注具體語(yǔ)境中的屈折變化形式的主詞。對(duì)單詞進(jìn)行主詞標(biāo)注使語(yǔ)料檢索手段多樣化,檢索結(jié)果也更為豐富,提高了語(yǔ)料的使用價(jià)值,更方便詞典編纂者。在主詞標(biāo)注的技術(shù)實(shí)現(xiàn)上,我社借鑒了通用的開源算法,準(zhǔn)確率達(dá)到90%左右,然后進(jìn)行進(jìn)一步修正。

      而對(duì)于詞性賦碼,我們結(jié)合語(yǔ)言學(xué)研究成果和詞典編纂慣例,為本語(yǔ)料庫(kù)制定了一個(gè)英語(yǔ)詞性賦碼集,具體內(nèi)容如表3所示:

      表3 英語(yǔ)單詞詞性賦碼集

      (續(xù)表3)

      5.漢語(yǔ)語(yǔ)料的分詞與詞性賦碼

      漢語(yǔ)的分詞是一項(xiàng)非常復(fù)雜的工作,在分詞標(biāo)準(zhǔn)上漢語(yǔ)研究學(xué)界也尚未達(dá)成共識(shí)?!胺衷~是漢語(yǔ)信息處理中的一項(xiàng)基礎(chǔ)工程。解決漢語(yǔ)分詞問(wèn)題,意義重大,但困難重重,所以‘分詞問(wèn)題已成為當(dāng)前中文信息處理的瓶頸’。在分詞的諸多問(wèn)題中,最重要的是:分詞的標(biāo)準(zhǔn)是什么……所以黃昌寧先生正確地指出,在漢語(yǔ)分詞問(wèn)題中,‘首先必須就漢語(yǔ)的分詞標(biāo)準(zhǔn)取得共識(shí)’”(郭曙綸2011:35)。要制定出一套科學(xué)的、具有可操作性的分詞規(guī)則需要以語(yǔ)言研究為基礎(chǔ),而本語(yǔ)料庫(kù)首先是服務(wù)于雙語(yǔ)詞典編纂系統(tǒng)的,在這種情況下,我們未自行制定漢語(yǔ)分詞與詞性賦碼集,而是遵循GB/T20532—2006《信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范》進(jìn)行分詞與詞性賦碼處理。該規(guī)范將分詞單位定義為“漢語(yǔ)信息處理使用的,具有確定語(yǔ)法功能的基本單位”,包括詞、短語(yǔ)、縮略語(yǔ)、前接成分、后接成分,等等。下文以列表的形式對(duì)該規(guī)范的詞性賦碼原則略做說(shuō)明。

      表4 漢語(yǔ)詞性賦碼集

      三、語(yǔ)料檢索

      “語(yǔ)料庫(kù)檢索的目的是導(dǎo)出索引行,以便于我們批量觀察類似的語(yǔ)言現(xiàn)象,找到其中的規(guī)律?!?梁茂成2010)對(duì)于雙語(yǔ)詞典編纂者而言,通過(guò)檢索獲取的索引行可以幫助他們找到合適的對(duì)應(yīng)詞與適用的例證,以更好地描述詞匯的語(yǔ)義、語(yǔ)法及語(yǔ)用特征。實(shí)現(xiàn)有效檢索的首要前提就是語(yǔ)料庫(kù)檢索工具。外教社英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)的檢索平臺(tái)與雙語(yǔ)詞典編纂系統(tǒng)集成在一個(gè)系統(tǒng)平臺(tái)上,可以更好地為詞典編纂提供在線語(yǔ)料檢索服務(wù)。該平臺(tái)主要功能有:(1)語(yǔ)料檢索;(2)語(yǔ)料管理;(3)詞表生成;(4)語(yǔ)料統(tǒng)計(jì)。檢索界面如下:

      圖2 外教社英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)檢索界面

      現(xiàn)就該檢索平臺(tái)的核心功能——語(yǔ)料檢索功能做簡(jiǎn)要說(shuō)明。

      1.設(shè)定檢索條件

      為便于詞典編纂者更準(zhǔn)確地檢索到想獲取的內(nèi)容,檢索平臺(tái)可以通過(guò)語(yǔ)料庫(kù)檢索工具設(shè)置了多個(gè)具體的檢索選項(xiàng):

      1)檢索項(xiàng):檢索項(xiàng)可為一個(gè)具體的詞、短語(yǔ)(如:careful,look down upon,我們)或任何一個(gè)含通配符的結(jié)構(gòu)(如:be*)。英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)中用到的通配符主要有兩種,即“*”與“?”?!?”可匹配任意字符串(包括無(wú)字符的情況),如:be* 匹配 be,been,being,before,behave 等;“?”可匹配任意一個(gè)字符,如:h?t匹配 hat,hit,hot等。

      2)語(yǔ)種:若選擇“英語(yǔ)”,則檢索的范圍為英語(yǔ)語(yǔ)料;若選擇“漢語(yǔ)”,則檢索的范圍為漢語(yǔ)語(yǔ)料。系統(tǒng)默認(rèn)選擇“英語(yǔ)”。

      3)詞性:若語(yǔ)種選擇“英語(yǔ)”,則“詞性”下拉菜單為英語(yǔ)詞性選擇列表,系統(tǒng)默認(rèn)選擇全部;若語(yǔ)種選擇“漢語(yǔ)”,則“詞性”下拉菜單為漢語(yǔ)詞性選擇列表,系統(tǒng)默認(rèn)選擇全部。

      4)英語(yǔ)主詞匹配:僅當(dāng)語(yǔ)種為“英語(yǔ)”時(shí),此選項(xiàng)有效。若語(yǔ)種選擇“漢語(yǔ)”,則“英語(yǔ)主詞匹配”選項(xiàng)無(wú)效。該選項(xiàng)系統(tǒng)默認(rèn)為“是”。此時(shí),系統(tǒng)查找檢索項(xiàng)(英語(yǔ)單詞)的原形及其所有屈折變化形式。如,若檢索項(xiàng)為look,系統(tǒng)除檢索 look外,還檢索look、looks、looking、looked等屈折變化形式。選擇“否”時(shí),系統(tǒng)按“完全匹配”原則檢索,即檢索與檢索項(xiàng)完全相同的形式。

      5)區(qū)分大小寫:僅當(dāng)語(yǔ)種為“英語(yǔ)”時(shí),此選項(xiàng)有效。默認(rèn)為“否”(即不區(qū)分大小寫)。如,若檢索項(xiàng)為being,則檢索結(jié)果既包含being,也包含Being。

      6)漢語(yǔ)分詞匹配:僅當(dāng)語(yǔ)種為“漢語(yǔ)”時(shí),此選項(xiàng)有效。若語(yǔ)種選擇“英語(yǔ)”,則“漢語(yǔ)主詞匹配”選項(xiàng)無(wú)效,系統(tǒng)默認(rèn)為“是”。此時(shí),系統(tǒng)按漢語(yǔ)分詞規(guī)則查找檢索項(xiàng)。選擇“否”時(shí),系統(tǒng)僅檢索字符串,漢語(yǔ)分詞不作為檢索條件。

      7)作品名、作者/譯者、出版者:輸入關(guān)鍵字,確定檢索范圍。若為空白,則不作為檢索條件。

      8)最早出版年份、最晚出版年份:設(shè)定語(yǔ)料的出版時(shí)間區(qū)間。年份格式為YYYY。若為空白,則不作為檢索條件。

      9)分布選項(xiàng):本語(yǔ)料按中國(guó)圖書館圖書分類法對(duì)語(yǔ)料加以分類,系統(tǒng)默認(rèn)選擇全部類別。

      2.檢索結(jié)果呈現(xiàn)

      按“檢索”按鈕,系統(tǒng)按設(shè)定的檢索條件在語(yǔ)料庫(kù)中查找檢索項(xiàng)。檢索結(jié)束后,系統(tǒng)統(tǒng)計(jì)檢索項(xiàng)總數(shù),并按頁(yè)顯示句對(duì),每頁(yè)顯示10個(gè)句對(duì)(見圖3)。句對(duì)中包含的檢索項(xiàng)用紅色字體顯示。如用戶需查閱某個(gè)句對(duì)的上下文,可點(diǎn)擊句對(duì)右邊的“語(yǔ)篇”標(biāo)簽,系統(tǒng)彈出窗口,顯示句對(duì)所在語(yǔ)篇的前后各兩個(gè)句對(duì)。

      四、結(jié) 語(yǔ)

      英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)經(jīng)過(guò)三年多的建設(shè),目前已初具規(guī)模,并已正式上線試用。該語(yǔ)料庫(kù)主要用于詞典編纂,但同時(shí)也可用于包括詞匯研究、句法及語(yǔ)用研究、比較語(yǔ)言學(xué)、翻譯研究、話語(yǔ)分析等在內(nèi)的語(yǔ)言學(xué)各分支學(xué)科研究。鑒于英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)建設(shè)是一個(gè)復(fù)雜的跨學(xué)科的科研工作,內(nèi)容涉及建庫(kù)目的的確立、建庫(kù)標(biāo)準(zhǔn)的制訂、建庫(kù)流程的優(yōu)化、語(yǔ)料的采集與校訂、語(yǔ)料的機(jī)器處理與入庫(kù)、語(yǔ)料的檢索與利用以及相關(guān)工具軟件的研發(fā)等方面,本語(yǔ)料庫(kù)目前尚處于初步定型階段,有待進(jìn)一步完善和擴(kuò)容。我們下一步要做的工作還有許多:繼續(xù)擴(kuò)大語(yǔ)料庫(kù)的規(guī)模,增強(qiáng)語(yǔ)料庫(kù)的平衡性;提高語(yǔ)料標(biāo)注質(zhì)量并嘗試更深層次的標(biāo)注;升級(jí)檢索工具的功能,尤其是搭配信息檢索功能,使之進(jìn)一步滿足詞典編纂者及語(yǔ)言學(xué)研究者提取語(yǔ)料數(shù)據(jù)、總結(jié)語(yǔ)言規(guī)律的實(shí)際需要;總結(jié)經(jīng)驗(yàn),繼續(xù)開發(fā)主要用于雙語(yǔ)詞典編纂的其他外語(yǔ)—漢語(yǔ)(如法漢、意漢、德漢等)平行句對(duì)語(yǔ)料庫(kù),以全面推動(dòng)我國(guó)雙語(yǔ)詞典編纂出版從傳統(tǒng)紙質(zhì)載體時(shí)代向真正意義上的現(xiàn)代數(shù)字載體時(shí)代的轉(zhuǎn)變。

      圖3 外教社英漢雙語(yǔ)平行句對(duì)語(yǔ)料庫(kù)檢索結(jié)果示例

      1.郭曙綸.漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)及應(yīng)用.上海:上海外語(yǔ)教育出版社,2001.

      2.梁茂成,李文中,許家金.語(yǔ)料庫(kù)應(yīng)用教程.北京:外語(yǔ)教學(xué)與研究出版社,2010.

      3.Leech G.Introducing Corpus Annotation.∥Garside R,Leech G,McEnery T.(eds.)Corpus Annotation:Linguistic Information from Computer Text Corpora.London:Longman,1997.

      猜你喜歡
      分詞語(yǔ)料詞典
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      結(jié)巴分詞在詞云中的應(yīng)用
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      值得重視的分詞的特殊用法
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      辉南县| 璧山县| 姜堰市| 衡山县| 乌兰浩特市| 六枝特区| 汉沽区| 信阳市| 武强县| 枣阳市| 辽宁省| 阳新县| 洞口县| 响水县| 当阳市| 迁安市| 郯城县| 保亭| 布拖县| 宝兴县| 彰化县| 桓仁| 华阴市| 府谷县| 泾阳县| 定西市| 嘉黎县| 上思县| 青海省| 罗田县| 克什克腾旗| 湖州市| 高碑店市| 平乐县| 邻水| 巨野县| 元阳县| 清新县| 罗田县| 普定县| 宜春市|