• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      英語(yǔ)實(shí)詞動(dòng)態(tài)增長(zhǎng)與重復(fù)分析

      2013-01-31 05:01:08趙小東胡賽兒
      關(guān)鍵詞:形符實(shí)詞詞匯量

      趙小東,胡賽兒

      (大連海事大學(xué) 外國(guó)語(yǔ)學(xué)院,遼寧 大連 116026)

      國(guó)內(nèi)外許多學(xué)者,如Baayen[1]、Brunet[2]、Fan[3-5]、Tuldava[6]等都研究過(guò)詞匯量與篇章長(zhǎng)度的關(guān)系。他們或設(shè)計(jì)不同的量化模型來(lái)描述詞匯量與語(yǔ)篇長(zhǎng)度的關(guān)系,或運(yùn)用不同的語(yǔ)言數(shù)據(jù)去驗(yàn)證這些模型。也有學(xué)者對(duì)實(shí)詞進(jìn)行了研究,如Francis等[7]、Johansson 等[8]通過(guò)計(jì)算LLC、Brown 和LOB語(yǔ)料庫(kù)中的實(shí)詞比率對(duì)實(shí)詞進(jìn)行了靜態(tài)的分析。對(duì)詞匯重復(fù)率的研究主要為國(guó)內(nèi)學(xué)者,如Fan[4-5]、羅衛(wèi)華等[9-10]。但目前卻沒(méi)有對(duì)各類實(shí)詞的動(dòng)態(tài)的詞匯量與篇章長(zhǎng)度關(guān)系的研究。因此本文擬利用計(jì)量的方法,對(duì)普通英語(yǔ)和科技英語(yǔ)中的實(shí)詞按4000詞切分,對(duì)其進(jìn)行詞匯增長(zhǎng)的動(dòng)態(tài)分析,對(duì)比研究?jī)蓚€(gè)語(yǔ)料庫(kù)中實(shí)詞的詞匯增長(zhǎng)、詞匯重復(fù)情況。

      一、基本定義

      本文中實(shí)詞包括名詞、動(dòng)詞、形容詞和副詞。對(duì)介詞、連詞、冠詞、代詞等虛詞不作研究,這是因?yàn)橛⒄Z(yǔ)中虛詞總量非常有限,增長(zhǎng)模式不明顯。實(shí)詞詞匯增長(zhǎng)是通過(guò)各實(shí)詞詞類的累積類符數(shù)除以該詞類的累積形符數(shù)計(jì)算的。

      許多語(yǔ)言學(xué)家都注意到類符/形符比(Type/Token Ratio,簡(jiǎn)稱TTR)跟形符總數(shù)的關(guān)系。而且類符/形符比還通常用來(lái)測(cè)算詞匯多樣性(lexical variation 或lexical diversity)[11-12]。但計(jì)算TTR 的方法不盡相同。本文采用公式“TTR =各詞類累積類符數(shù)/各詞類累積形符數(shù)”來(lái)計(jì)算隨著英語(yǔ)篇章長(zhǎng)度,即累積形符數(shù)(4000)的增加,普通英語(yǔ)和科技英語(yǔ)的各類實(shí)詞TTR 的變化規(guī)律;各類實(shí)詞標(biāo)準(zhǔn)類符/形符比采用每4000 詞(形符數(shù))的TTR:每4000 詞時(shí)各類實(shí)詞的類符數(shù)除以4000。

      本研究中,英語(yǔ)單詞的形符包括以空格斷開的英文單詞、字母、縮略等,但不包括標(biāo)點(diǎn)符號(hào)。形符數(shù)也稱詞次。總詞數(shù)即總詞次。類符指單詞的詞元(lemma)形式,即把詞類相同、意義相同,但詞尾變化不同的詞歸納為同一詞元。如think、thinks、thought 和thinking 統(tǒng)一歸并為一個(gè)詞元think。本文中的詞匯即為詞元或類符,詞匯數(shù)或詞匯量即為詞元數(shù)或類符數(shù)。歸并詞元時(shí),剔除標(biāo)點(diǎn)符號(hào)、阿拉伯?dāng)?shù)字以及其他各種非字母字符。

      二、研究設(shè)計(jì)

      本文中科技英語(yǔ)語(yǔ)料采用JDEST 語(yǔ)料庫(kù),JDEST 為上海交通大學(xué)建立的國(guó)內(nèi)權(quán)威科技英語(yǔ)語(yǔ)料庫(kù),總?cè)萘繛? 079 649;普通英語(yǔ)語(yǔ)料采用BNC(英國(guó)國(guó)家語(yǔ)料庫(kù))的筆語(yǔ)部分抽樣。在對(duì)BNC 進(jìn)行抽樣時(shí),先運(yùn)用FoxPro 程序?qū)NC 筆語(yǔ)語(yǔ)料庫(kù)的所有賦碼文本(tagged texts)中的標(biāo)注碼去掉。然后運(yùn)用另一FoxPro 程序從BNC 筆語(yǔ)庫(kù)中隨機(jī)抽取28個(gè)文本,總詞次為1 136 347。以下將此抽樣文本稱為SBNC。接著運(yùn)用CLAWS4 對(duì)JDEST 和SBNC 兩個(gè)語(yǔ)料庫(kù)進(jìn)行詞類(POS)標(biāo)注。然后運(yùn)用另一FoxPro程序?qū)蓚€(gè)語(yǔ)料庫(kù)進(jìn)行分詞處理,并根據(jù)POS 賦碼,即以N(名詞)、V(動(dòng)詞)、J(形容詞)和R(副詞)開頭的標(biāo)注碼,提取各類實(shí)詞。接著將各類實(shí)詞中的詞類標(biāo)注、標(biāo)點(diǎn)符號(hào)、特殊符號(hào)以及其他非字母字符去除。

      然后再運(yùn)用兩個(gè)FoxPro 程序分別處理經(jīng)過(guò)分詞處理的SBNC 和JDEST 語(yǔ)料庫(kù)。這兩個(gè)程序分別將SBNC 隨機(jī)分為284個(gè)4000 詞(形符)的文本塊(chunks),共113 600 詞次;JDEST 分為247個(gè)4000詞的文本塊,共988 000 詞次。由于Biber[13]認(rèn)為2000 至5000 詞的抽樣文本(text samples)足以代表文本范疇(text categories),因此本文按4000 詞對(duì)SBNC 和JDEST 進(jìn)行切分。接著,程序會(huì)分別計(jì)算出各語(yǔ)料庫(kù)的每4000 詞文本塊的各類實(shí)詞類符數(shù)以及隨著兩個(gè)語(yǔ)料庫(kù)按4000 詞(形符)增長(zhǎng)時(shí)累積形符總數(shù)、累積各類實(shí)詞類符數(shù)、累積各類實(shí)詞形符數(shù)、各類實(shí)詞的TTR 及各類實(shí)詞的累積重復(fù)數(shù)、累積重復(fù)率等。

      其中,累積各類實(shí)詞類符數(shù)即各類實(shí)詞的累積詞匯量。下面以名詞為例說(shuō)明累積實(shí)詞重復(fù)數(shù)及重復(fù)率的計(jì)算。累積名詞重復(fù)數(shù)的計(jì)算公式為:累積名詞重復(fù)數(shù)=累積名詞數(shù)-累積名詞量。公式中累積名詞數(shù)為各4000 詞的文本塊的名詞類符數(shù),即名詞詞匯數(shù)之和。比如科技英語(yǔ)JDEST 語(yǔ)料中前兩個(gè)4000 詞文本塊各自名詞詞匯數(shù)為760 和767,則累積名詞數(shù)為1527。但如果將這兩個(gè)文本塊相加,變?yōu)?000 詞,這兩個(gè)文本塊的名詞詞匯數(shù)760 和767中就會(huì)有重復(fù)的名詞,將重復(fù)的名詞合并,這樣就可計(jì)算出累積名詞量,為1221。因此,JDEST 中前兩個(gè)文本塊的累積名詞重復(fù)數(shù)為1527-1221 =306,名詞累積重復(fù)率為0.1268。而第一個(gè)文本塊的名詞重復(fù)數(shù)和重復(fù)率都為0。表1為JDEST 語(yǔ)料庫(kù)中名詞部分?jǐn)?shù)據(jù)。

      表1 JDEST 語(yǔ)料庫(kù)中累計(jì)詞次32 000 詞前名詞部分?jǐn)?shù)據(jù)

      表1中,t_cu 表示累積形符總數(shù)(累計(jì)詞次),n_type 為每4000 詞中名詞類符數(shù),n_cu 為累積名詞類符數(shù)(累積名詞量),n_cutok 為累積名詞形符數(shù),n_ttr 為名詞類符/形符比,n_curep 為累積名詞重復(fù)數(shù),n_cureprate 為名詞累積重復(fù)率。

      三、結(jié)果分析

      1.實(shí)詞增長(zhǎng)分析

      結(jié)果顯示:284個(gè)SBNC 文本塊的名詞、動(dòng)詞、形容詞和副詞累積詞匯量分別為24 440、4601、9050和1632;247個(gè)JDEST 文本塊的各類實(shí)詞累積詞匯量依次為14 754、3481、8961 和1152。SBNC 的284個(gè)文本塊各實(shí)詞的平均詞匯量依次為851、284、245、118,JDEST 的247個(gè)文本塊各實(shí)詞平均詞匯量依次為756、250、292、110。表明普通英語(yǔ)各文本塊的名詞、動(dòng)詞和副詞詞匯量大于科技英語(yǔ)。普通英語(yǔ)的累積形容詞詞匯量在第247個(gè)文本塊時(shí)為8441,形容詞總詞量小于科技英語(yǔ),而且普通英語(yǔ)各文本塊的平均形容詞詞匯量245 也遠(yuǎn)小于科技英語(yǔ)各文本塊的平均形容詞詞匯量292。觀察科技英語(yǔ)語(yǔ)料庫(kù)發(fā)現(xiàn),除少量常用形容詞外,如other、high、large、small 等,其中有大量的科技方面的形容詞,用于正式或客觀的學(xué)術(shù)表達(dá),描寫事物的特征,如magnetic(475)、hermal(406)、nuclear(375)、chemical(356)、conventional(331)、mechanical(314)、electric(297)、vertical(216)等。圖1為SBNC 和JDEST實(shí)詞增長(zhǎng)曲線。

      圖1顯示,在SBNC 和JDEST 中,四種實(shí)詞的累積詞匯量呈類似增長(zhǎng)態(tài)勢(shì):開始都急劇增長(zhǎng),隨后變緩。只是名詞累積詞匯量增長(zhǎng)得最快、最急劇;形容詞次之;動(dòng)詞的累積詞匯量增長(zhǎng)幅度位于第三;副詞累積詞匯量的增長(zhǎng)最不明顯,其增長(zhǎng)曲線幾乎與x軸平行。同時(shí),圖1表明兩個(gè)語(yǔ)料庫(kù)中,詞匯量大多集中于名詞,然后是形容詞、動(dòng)詞和副詞。

      2.實(shí)詞TTR 分析

      程序運(yùn)行結(jié)果顯示SBNC 的名詞、動(dòng)詞、形容詞和副詞的平均標(biāo)準(zhǔn)TTR 依次為0.2128、0.0709、0.0613和0.0296,JDEST 的各類實(shí)詞平均標(biāo)準(zhǔn)TTR依次為0.1889、0.0626、0.0731 和0.0275。這說(shuō)明普通英語(yǔ)各4000詞(形符)文本塊的名詞和動(dòng)詞多樣性大于科技英語(yǔ),但其形容詞多樣性卻低于科技英語(yǔ),副詞多樣性大體相當(dāng)。換言之,科技英語(yǔ)的某語(yǔ)篇內(nèi)名詞和動(dòng)詞重復(fù)較多,即形符數(shù)較多,類符數(shù)較少;但普通英語(yǔ)的篇內(nèi)(每4000 詞次)形容詞重復(fù)性大,0.0613 <0.0731。下面分析兩個(gè)語(yǔ)料庫(kù)的累積TTR 曲線,如圖2所示。

      圖1 SBNC 和JDEST 實(shí)詞增長(zhǎng)曲線

      圖2 SBNC 和JDEST 中各類實(shí)詞TTR 下降曲線

      圖2中實(shí)線為SBNC 的TTR 曲線,虛線為JDEST 的TTR 曲線。圖2顯示SBNC 的名詞、動(dòng)詞和形容詞累積TTR 都高于JDEST。說(shuō)明隨著總詞次以每4000 詞增加,普通英語(yǔ)的名詞、動(dòng)詞和形容詞的詞匯多樣性一直高于科技英語(yǔ)。即普通英語(yǔ)的名詞、動(dòng)詞和形容詞(形符)篇際(累積語(yǔ)篇)重復(fù)性較小,科技英語(yǔ)的名詞、動(dòng)詞和形容詞的篇際重復(fù)性較大。兩者的副詞TTR 曲線大體相同。

      因此可得出如下結(jié)論:普通英語(yǔ)中名詞和動(dòng)詞的篇內(nèi)和篇際重復(fù)性都小于科技英語(yǔ);但其形容詞的篇內(nèi)重復(fù)性大,篇際重復(fù)性則小于科技英語(yǔ)。

      3.實(shí)詞重復(fù)分析

      計(jì)算出兩個(gè)語(yǔ)料庫(kù)的累積實(shí)詞重復(fù)數(shù)后發(fā)現(xiàn),兩個(gè)語(yǔ)料庫(kù)中的累積實(shí)詞重復(fù)數(shù)都呈類似線性的增長(zhǎng)模式。SBNC 中名詞、動(dòng)詞和副詞的累積重復(fù)數(shù)一直高于JDEST。SBNC 中名詞累積重復(fù)數(shù)在0 ~210 000 之間,動(dòng)詞累積重復(fù)數(shù)在0 ~76 000 之間,副詞累積重復(fù)數(shù)在0 ~32 000 之間。而JDEST 中的名詞、動(dòng)詞和副詞累積重復(fù)數(shù)分別在0 ~170 000、0~58 000 和0 ~26 000 之間。不同之處在于SBNC的形容詞累積重復(fù)數(shù)一直小于JDEST,兩者的最終重復(fù)數(shù)相當(dāng)。為進(jìn)一步揭示各類實(shí)詞累積重復(fù)數(shù)和其累積形符數(shù)的關(guān)系,算出了兩個(gè)語(yǔ)料庫(kù)中各類實(shí)詞的累計(jì)重復(fù)率,如圖3所示。

      圖3 SBNC 和JDEST 中各實(shí)詞累積重復(fù)率

      圖3顯示SBNC 語(yǔ)料庫(kù)中的名詞累積重復(fù)率最高,達(dá)到68.49%,其次是SBNC 中的形容詞累積重復(fù)率。而且在曲線末端,形容詞的累積重復(fù)率甚至超過(guò)了名詞累積重復(fù)率,為68.72%。JDEST 中形容詞累積重復(fù)率最高,達(dá)到64.69%,其次為名詞,為58.58%。在SBNC 和JDEST 兩個(gè)語(yǔ)料庫(kù)中,副詞累積重復(fù)率都位于第三位;最后是動(dòng)詞,其累積重復(fù)率最低,分別為38.49%和36.48%。進(jìn)一步觀察發(fā)現(xiàn),SBNC 的名詞、形容詞、副詞和動(dòng)詞累積重復(fù)率都高于JDEST。

      四、結(jié) 語(yǔ)

      通過(guò)對(duì)SBNC 和JDEST 中的實(shí)詞對(duì)比分析,得出如下結(jié)論:(1)普通英語(yǔ)和科技英語(yǔ)的名詞、形容詞和動(dòng)詞呈類似的增長(zhǎng)態(tài)勢(shì):先是急劇增加,然后變緩。(2)普通英語(yǔ)的名詞和動(dòng)詞多樣性大于科技英語(yǔ),但其形容詞多樣性卻低于科技英語(yǔ)。(3)普通英語(yǔ)中名詞和動(dòng)詞的篇內(nèi)重復(fù)性以及名詞、動(dòng)詞和形容詞的篇際重復(fù)性都小于科技英語(yǔ),但其形容詞的篇內(nèi)重復(fù)性較大。(4)普通英語(yǔ)和科技英語(yǔ)中累積實(shí)詞重復(fù)數(shù)都呈類似線性的增長(zhǎng)模式。普通英語(yǔ)中名詞累積重復(fù)率最高,科技英語(yǔ)中形容詞累積重復(fù)率最高。但科技英語(yǔ)的名詞、形容詞、副詞和動(dòng)詞累積重復(fù)率都低于普通英語(yǔ)。本研究結(jié)果有利于對(duì)英語(yǔ)語(yǔ)篇、英語(yǔ)學(xué)習(xí)者的實(shí)詞詞匯量進(jìn)行評(píng)估。由于英語(yǔ)中虛詞數(shù)量十分有限,英語(yǔ)語(yǔ)篇的復(fù)雜度和多樣性主要依賴于語(yǔ)篇中的實(shí)詞詞匯量。只要能估計(jì)某語(yǔ)篇的實(shí)詞詞匯量,就可預(yù)測(cè)其詞匯多樣性。這在教材編撰及選擇不同層次水平的閱讀材料時(shí)有重要意義。

      [1]BAAYEN R H.Word frequency distribution[M].Dordrecht:Kluwer Academic Publishers,2001.

      [2]BRUNET E.Le vocabulaire de Jean Giraudoux.Structure et évelution[M].Genève:Slatkine,1978.

      [3]FAN Fengxiang.Models for dynamic inter-textual type-token relationship[J].Glottometrics,2006,12(1):1-10.

      [4]FAN Fengxiang.A corpus-based study on random textual vocabulary coverage[J].Corpus Linguistics and Linguistic Theory,2008,4(1):1-17.

      [5]FAN Fengxiang.An asymptotic model for the English hapax/vocabulary ratio[J].Computational Linguistics,2010,36(4):631-637.

      [6]TULDAVA J.Methods in quantitative linguistics[M].Trier:WVT,1995.

      [7]FRANCIS W N,KUCERA H.Frequency analysis of English usage:lexicon and grammar[M].Boston:Houghton Mifflin,1982.

      [8]JOHANSSON S,HOFLAND K.Frequency analysis of English vocabulary and grammar 2 vols[M].Oxford:Clarendon Press,1989.

      [9]羅衛(wèi)華,鄧耀臣.基于BNC 語(yǔ)料庫(kù)的英語(yǔ)篇際詞匯重復(fù)模式研究[J].外語(yǔ)教學(xué)與研究,2009(3):224-229.

      [10]羅衛(wèi)華,佟大明.篇際零重復(fù)詞分布和增長(zhǎng)模式實(shí)證研究[J].中國(guó)外語(yǔ),2011(6):59-64.

      [11]MALVERN D,BRIAN R,NGONI C,et al.Lexical diversity and language development:quantification and assessment[M].New York:Palgrave Macmillan,2004.

      [12]READ J.Assessing vocabulary[M].Cambridge:Cambridge University Press,2000.

      [13]BIBER D.Methodological issues regarding corpus-based analyses of linguistic variation[J].Literary and Linguistic Computing,1990,5(4):261.

      猜你喜歡
      形符實(shí)詞詞匯量
      近二十年形聲字形符研究綜述
      從形符與字義的關(guān)系角度論《說(shuō)文解字》中形聲字分類
      ——以“人”“彳”字部為例
      留學(xué)生形聲字教學(xué)實(shí)踐研究
      ——以滿洲里學(xué)院為例
      用詞類活用法擴(kuò)充詞匯量
      文言文實(shí)詞詞義推斷的基本策略
      文言實(shí)詞50例
      文言實(shí)詞推斷法
      “形符”在小學(xué)數(shù)學(xué)課堂中的教學(xué)困境、功能與應(yīng)用策略
      遼寧教育(2017年7期)2017-03-11 13:35:20
      Receptive and Productive Vocabulary in Language Teaching
      詞匯量測(cè)試對(duì)語(yǔ)言水平的預(yù)測(cè)性的實(shí)證研究
      汝南县| 西乡县| 姜堰市| 淄博市| 镶黄旗| 海淀区| 林西县| 运城市| 上栗县| 鹤山市| 弥渡县| 兴海县| 岑巩县| 墨竹工卡县| 瓦房店市| 高安市| 炎陵县| 灌阳县| 武汉市| 河南省| 三门县| 苏尼特左旗| 舟山市| 乌拉特中旗| 巴林右旗| 徐水县| 稻城县| 贺州市| 宁安市| 旬阳县| 永城市| 宁夏| 锡林郭勒盟| 那坡县| 读书| 长沙县| 石河子市| 芦山县| 同江市| 济南市| 太康县|