• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語料庫研究淺論

      2010-06-28 07:40:20王志濤
      時代文學·下半月 2010年2期
      關鍵詞:語料庫

      王志濤

      摘要:本文在借鑒前人研究成果的基礎上,對語料庫語言學的發(fā)展及應用概貌進行了重點突出的歸納和總結,通過對語料庫的定義、分類、標注以及語料庫的檢索軟件等方面的介紹,達到對語料庫在實際申的使用有一個整體的把握。并結合自己在論文寫作中用到的研究方法,提出了自巳時語料庫使用的心得,總結了語料庫語言學作為實證性研究重要手段的意義及語料庫的發(fā)展前景。

      關鍵詞:語料庫;微型語料庫;實證性研究;詞性標注;句法標注

      1引言

      20世紀60年代,喬姆斯基所倡導的理論語言學成為了語言研究的主攻方向,但他對語言進行的實證研究并沒有被廣泛關注,隨著現(xiàn)代科技的發(fā)展和進步,實證性研究在語言學領域逐步展開,人們才開始研究自然語言的實際運用和某種特定語言結構在不同語境中的用法差異,

      語料庫來自拉丁詞corpus,原意為“匯總”、“文集”等,復數(shù)形式為corpora或corpuses。最早的語料庫是20世紀60年代初夸克/Randolph Quirk)等建立的百萬詞次的“Survey ofEndish Usage(SEU)”現(xiàn)代英語語料庫。著名的(英語語法大全)(A Comprehensive Grammar of the En吵sh Idnguage,Longman 1985)就建筑在這個語料庫的基礎之上。對英語語言學界產(chǎn)生了深遠影響。s0年代之后。語料庫語言學成為一門新興語言學分支學科,在語言教學、二語習得、方言學、句法和語義、音系學、翻譯研究和個人自主學習等方面開辟了廣闊的發(fā)展前景。改革開放后,計算機軟硬件技術不斷提高,國外引進的圖書館資源日益豐富。充分發(fā)掘?qū)W術資源,采用計算機軟件進行半自動化信息處理和人工干預校正的模式,自行創(chuàng)建一個適合研究需要的微型語料庫已成為可能。

      早在1982年,上海交通大學的黃人杰、楊惠中教授就主持建立了一百萬詞次的專門用途英語語料庫ODESr)。2003年,桂詩春和楊惠中兩位教授主持完成了中國英語學習者語料庫巾稱CLEC),這是國際上第一部公開發(fā)布的學習者語料庫。

      2語料庫的發(fā)展過程

      運用語料庫去研究語言可以追溯到19世紀末,當時的技術水平還很低,只是卡片制作和人工檢索的階段,成果應用的范圍也非常有限。20世紀初,美國教育家nom山kC(L921)為了改進英語教學而收集了4,500萬詞次的英語語料庫,其中有四分之三的語料來自于(圣經(jīng))和其他經(jīng)典文學作品,通過對這些書面語料的詞頻統(tǒng)計寫出英語基本詞匯及詞典等。20世紀50至60年代,英國知名學者R,Quirk等合作建立Survey Of En班sh Usage(SEU)(Quirk 1968),先是紙質(zhì)語料,后來在80年代建成電腦版本,這是從傳統(tǒng)語料庫到電腦語料庫的重要標志。接下來。出現(xiàn)了三大經(jīng)典語料庫:最早的Brown University Standard Corpus of Present-Day AmericanEndjsh Corpus(BROWN)(Francis 1964)和Lancaster-Osslo—Bergen Corpus(LOB)(J0hansson ct址1978)分別收集了100萬詞次的美國英語和英國英語。在80年代又建成了I,ondon-Lund Corpus 0f Spoken English(LLC)(Svartvik&Quirk; 1980),是匯集了50萬詞次的英語口語語料庫。

      20世紀80年代到90年代,是語料庫發(fā)展的第二個階段,由廣州石油大學建立的石油英語語料庫GPEC和上海交通大學的科技英語語料庫。就是在這個時期建成的。同時,國外的英語國家語料庫British National Corpus田N_以及International Corpus o{Enzbsb oCE)。都是現(xiàn)在應用很廣的大型機讀語料庫。

      到了20世紀90年代中期,語料庫進入第三個發(fā)展階段。此時的明顯特點是:大規(guī)模;深加22;應用廣泛。

      從現(xiàn)在的發(fā)展需求來看,建立各種具有某種特定用途的語料庫也成為明顯的發(fā)展趨向,比如建立針對教學的微型語料庫、針對研究各種文本特點的微型語料庫,對某種特定的語言特點進行實證性研究是建立微型語料庫的唯一目的。

      3語料庫的類型

      建立電腦語料庫可以在全世界、全國或某地區(qū)乃至個人的能力范圍內(nèi)實施(柯平2004)?,F(xiàn)時比較流行的語料庫可以有以下幾種類型。

      3.1原始語料庫,也叫生語料語料庫(Raw corpora)。就是把各種自然語言的文本按照一定的歸類標準匯編到一起建立的語料庫。這一類語料庫因為沒有標注,或稱附碼,而用途范圍較小。

      3.2附碼語料庫,也叫標注語料庫(Annotated corpora)。是指對生語料進行了再加工,即針對某種語言特點并對加了標注的語料庫。像前面提到的BROWN和IX)B,還有像美國的COCA等大型語料庫都是附過碼的語料庫,這樣一來就很方便機器檢索。

      如:

      Vs>7hedevelopmentandimplementation0f<Ⅱo>technologyhasaffectedsocietiesin<Ⅱ>everycomcrof d0>the。

      這就是經(jīng)過了機器自動附碼的語料庫文本。

      3.3平行語料庫(Parallel corpora)。是指兩種或多種語言在句子、短語乃至單詞層面上達到了同步對譯的語料庫。這樣的語料庫可以作為翻譯的常用語料庫,大大地幫助了翻譯者們的工作效率。

      3.4學習者語料庫(Learners corpora)。是指非母語學習者的口頭或筆頭語料的語料庫,也可以包括學習者錯誤類型的語料庫。國內(nèi)用的比較好的是桂詩春組織建成的中國英語學習者書面語語料庫,簡稱CLEC。

      3.5微型語料庫(Minibank)(Yangmin 2008)

      在現(xiàn)實中,除去大型語料庫之外,還有相當數(shù)量的,可以針對特殊目的而建立起來的各式各樣的微型語料庫。大型語料庫因為過于龐大,價格昂貴,其可及性不高(梁茂咸2003)。若要將教學科研工作需要的語料庫都收集起來,尤其是收集國外大型通用語料庫并做到能夠及時更新,對英語教師個人來說是很大的負擔。所以大型語料庫對使用者個人而言往往遙不可及,不如自建的微型語料庫使用方便傑茂成2003')。

      4微型語料庫的定義

      關于微型語料庫的準確定義到目前為止尚未確立。在語言教學中,大型語料庫通常應用于教學大綱的編制和教材的編纂,而應用于課堂教學的語料庫則有所不同,一般來說它

      是精心采集的,旨在幫助語言學習者理解語言現(xiàn)象的微型語料庫。語料庫語言學界目前雖然尚未在微型語料庫定義上達成一致意見,然而對微型語料庫定義的研究,恰恰可以驗證辛克萊1997年所做的論斷:“語料庫的概念還在發(fā)展中”。語料庫的規(guī)模大小取決于個人的研究目的而非一概而論,決不是越大越好,要具體問題具體對待。我們自建微型語料庫怎么建,建多大為好,完全取決于研究目的,可以是幾萬詞次,也可以是幾十萬詞次,關鍵是保證語料庫建立的效度和信度。

      4.1微型語料庫的建立

      首先要建立所需的語料庫,其建立過程包括以下幾個方面:語料庫建立原理在建立語料庫之前,首先必須要弄清楚建立該語料庫的目的和組建原理。在建立語料庫之前,研究者應該明確自己使用語料庫的目的,是用來分析句子結構還是編撰詞典等等。如果是研究新聞文本或期刊文本,就要建立新聞文本或期刊文本的語料庫,在采集語料時也要本著真實語言的原則在外文期刊上按照抽樣標準進行采集。

      微型語料庫雖然使用方便,其語料代表性容易受到質(zhì)疑:微型語料庫中的樣本,往往不足以代表全體樣。但由于語料庫的大小和研究所需的語料數(shù)量目前沒有給定的定義,目前談到微型語料庫的代表性,只是相對于通用大型語料庫而言,指微型語料庫語料數(shù)量相對偏少或取樣比例過低,不具有全面的代表性,因此認為基于微型語料庫的研究也就不具備有效性。然而,語料庫材料應以研究者需要為基礎,能夠根據(jù)自己的學習和研究需要獲得自己的代表性就可以用語料庫來配合研究目的進行研究了。

      4.2語料標注的原則

      語言的理解有賴于人的經(jīng)驗。一般認為,以文本或語音形式存在、經(jīng)過標注的語料可以借助計算機技術提取和分析更加豐富的知識,因此,有必要通過人工將知識表示出來,并標記到語料中的對應位置,這就是語料標注。語言可以分為字、詞、句、段、篇等層次,不同層次上的標注既有聯(lián)系又有區(qū)別。對詞的標注,我們稱之為了agl;ing,我們把句法標注稱為Syntax了agging,也可以稱之為Parsing,是對句子的語法結構進行標注,相對詞的標注難度要更大。附碼是語料庫建設的關鍵一環(huán),因為它是實現(xiàn)語料機讀化的唯一辦法。關于附碼,我們一般分為機器附碼和手工附碼。目前在國內(nèi)對于語料庫詞的標注準確率已經(jīng)是達到了97%甚至更高,普遍使用的附碼工具是CLAW4,CLAWS5和CLAWS7,其中應用較廣的還是CLAWS4。

      5微型語料庫的常用檢索工具

      軟件是語料庫研究者必不可少的工具,”左手拿著語料庫,右手拿著軟件,就可以搞語料庫研究了”。(粱茂成2008)關于語料庫的檢索,指的是研究者在計算機的輔助下從已標注語料庫中檢索出某種語言特點的過程。常用的語料庫檢索軟件有Wordsmith,Concordance,PatCount,AntCone。Range,ParaConc等,各種軟件的檢索性能各有差異,在此,要談到的是非常適用于個人自建微語料庫檢索的軟件AntCone,因為與其他軟件相比而言,AntConc可以在網(wǎng)上免費自由獲取,正是為個人研究者量身定做的一款不可多得的優(yōu)秀檢索軟件。相比Wordsmith而言,功能基本相同,甚至有些方面還要優(yōu)于Wordsmi出。因其初代版本性能相對軟差,而未能在研究界得到推廣應用,而現(xiàn)在越來越多的人開始使用AntCone來進行語言學研究。AntCone主要具有以下功能:,索引”(Concordance),”索引定位”(Concordanee Plot),“文件查看”(File View),“詞叢,(Clusters),“N元模式”(部分詞叢),“搭配”(Collocatcs),統(tǒng)計量(Statistical Measures),“詞單”(WordList),“主題詞單”(Keyword L㈤,共九種常用功能。微型語料庫研究者使用這個軟件可以對檢索結果進行頻率分析(frequency an,Iysjs),制作語境共現(xiàn)(eoncordancing),還可以進行統(tǒng)計分析(statistical analysis)。這些功能可以獨立使用,也可以搭配使用。對于徹型語料庫的檢索工具而言,使用AntConc個人認為是最佳選擇。

      另外,在對語料庫進行檢索對于軟件的選擇也要概據(jù)研究者的研究目的而定,必要時也可以進行之個軟件的交互使用,以達到期望的研究目的。

      6結語

      本文在介紹了一些語料庫的基本情況之后,結合自自身在研究中的體驗,重點探討了微型語料庫的定義、建庫原則、附碼原則、以及適合于微型語料庫檢索的軟件AntConc,旨在為語料庫的初探者對語料庫有一個整體的感知。望能為語言學發(fā)展盡綿薄之力,

      猜你喜歡
      語料庫
      《語料庫翻譯文體學》評介
      基于語料庫的“はずだ”語義用法分析
      基于語料庫“隱秘”的詞類標注初步探究
      把課文的優(yōu)美表達存進語料庫
      基于COCA語料庫的近義詞辨析 ——以choose和select為例
      口譯不宜“任性”:基于語料庫的外事翻譯等效探索
      語言與翻譯(2015年3期)2015-07-18 11:11:04
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      基于英漢雙語平行語料庫的無根回譯研究
      外語學刊(2014年6期)2014-04-18 09:11:50
      基于語料庫的近義詞辨析研究——以suspect和doubt為例
      低碳經(jīng)濟英語語料庫建設與應用
      长丰县| 正蓝旗| 大姚县| 尚志市| 体育| 通化市| 宾川县| 滨州市| 伊春市| 库尔勒市| 浮山县| 江门市| 平远县| 永昌县| 双桥区| 拜城县| 新沂市| 桂东县| 腾冲县| 收藏| 灯塔市| 德阳市| 安西县| 离岛区| 承德县| 仪征市| 宁都县| 福鼎市| 胶州市| 北海市| 宁津县| 河间市| 阳曲县| 嘉荫县| 佳木斯市| 太湖县| 抚顺市| 萝北县| 高尔夫| 象山县| 准格尔旗|