• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)的日語語料庫的開發(fā)和教學應用研究

      2018-03-01 10:22:42楊本明
      戲劇之家 2018年34期
      關鍵詞:語料庫

      楊本明

      【摘 要】信息技術和存儲技術的迅速發(fā)展為日語口譯語料庫的構建提供了現(xiàn)實的可能,本研究基于數(shù)據(jù)庫檢索軟件AntConc平臺,選擇青空文庫中具有代表性的20部日文小說,把小說中的臺詞進行數(shù)據(jù)化處理,嘗試建設一個小型的日語語料庫,以其為日語課堂教學提供有益的參考。

      【關鍵詞】語料庫;日文小說;檢索軟件

      中圖分類號:G64 文獻標志碼:A 文章編號:1007-0125(2018)34-0205-02

      隨著“一帶一路”國家大戰(zhàn)略的推進和國際貿易合作的迅猛發(fā)展,當代大學生在學習外語時不但要練好聽、說、讀、寫、譯五項基本功,而且時代的發(fā)展對外語類畢業(yè)生的口譯能力提出了更高的要求。如何在有限的時間內提高外語課堂教學質量?如何更加有效地培養(yǎng)出適應市場需求的外語類人才?這對當下的外語教學提出了挑戰(zhàn),同時也不得不引起教育工作者的深思。信息技術的發(fā)展和存儲技術的不斷提升為外語教學和研究提供了便利,本文首先對國內外的日語語料庫的建設現(xiàn)狀進行了梳理,簡單分析了這些語料庫的特點和功能。其次在吸收前輩們優(yōu)秀經(jīng)驗的基礎之上,基于數(shù)據(jù)庫檢索軟件AntConc平臺,選擇具有代表性的20部日本小說,把小說中的臺詞進行數(shù)據(jù)化處理,嘗試建設一個小型的日語語料庫,以期為日語口譯課堂教學提供有益的參考。

      一、日語語料庫發(fā)展綜述

      最近十年來,隨著硬件儲存技術和互聯(lián)網(wǎng)技術的迅猛發(fā)展,國內外語料庫的建設也呈現(xiàn)出良好的發(fā)展勢頭。利用關鍵詞“語料庫”三個字在中國知網(wǎng)進行檢索,可以發(fā)現(xiàn)該領域的研究論文從2008年的481篇增加到現(xiàn)在的千余篇。但是輸入“日語語料庫”三個關鍵詞,只能檢索到17篇參考文獻,并且最早的一篇關于日語語料庫的文章發(fā)表于2009年,而早在1982年,學者楊惠中就已經(jīng)開始構建JDEST科技英語計算機語料庫,這說明日語語料庫的建設和發(fā)展遠遠落后于英語語料庫的發(fā)展。通過對先行文獻的梳理發(fā)現(xiàn),在國內研究方面,北京外國語大學徐一平教授團隊建設的《中日對譯語料庫》、上海外國語大學毛文偉教授團隊建設的《中國日語學習者語料庫》具有代表性。在國外研究方面,近十年來,日本國立國語研究所在語料庫建設方面取得了飛速的發(fā)展,先后建立了現(xiàn)代日語書面語均衡語料庫(『現(xiàn)代日本語書き言葉均衡コーパス』),現(xiàn)代日語口語語料庫(『日本語話し言葉コーパス』),國語研究所日語網(wǎng)頁語料庫(『國語研日本語ウェブコーパス』)等十幾個大型語料庫,極大地方便了國外研究者和學習者。

      (一)國內日語語料庫發(fā)展綜述

      國內日語語料庫的發(fā)展主要分為三個階段,第一階段是計算機化以前的階段,稱之為傳統(tǒng)語料庫時期,主要以卡片語料庫為主。第二階段為計算機化以后的階段,稱之為現(xiàn)代語料庫時期。第三階段為超級計算機存儲階段,稱之為大數(shù)據(jù)語料庫時期。20世紀90年代以前,國內語料庫的建設一般是以卡片存儲的方式建立的,這種日記本式的語料庫建設需要人工書寫,占據(jù)空間大,不方便查閱,規(guī)模也極其有限。20世紀90年代以來,隨著計算機存儲技術和網(wǎng)絡技術的發(fā)展,國內的日語語料庫建設開始有了起色。2000年以后,日語語料庫建設進入快速發(fā)展時期。其中,北京日本學研究中心徐一平教授團隊建設的《中日對譯語料庫》和上海外國語大學毛文偉教授建設的《中國日語學習者語料庫》極具代表性,這兩個語料庫不論在規(guī)模上,還是在質量上都填補了國內的空白。

      北京外國語大學北京日本學研究中心徐一平教授團隊所建設的《中日對譯語料庫》項目在國內日語語料庫建設史上具有里程碑一樣的意義,該語料庫共收錄了中日雙語各種文本語料2013萬余字。上海外國語大學譚晶華教授、毛文偉教授團隊建設的《中國日語學習者語料庫》開創(chuàng)了日語學習者語料庫建設的先河,該語料庫的開發(fā)對于高校日語教學具有積極的指導意義。國內外其他高校日語語料庫的建設,雖然也有所建樹,但是如前所述受到資金和版權的限制,發(fā)展并不是特別迅速。

      (二)國外日語語料庫發(fā)展綜述

      1948年12月,日本文部省設立了國語國立研究所。這一研究機構早在20世紀50年代就圍繞日語進行了大量的調查與研究,但是由于客觀條件的限制,近半個世紀以來,日本語料庫的建設比較緩慢。到90年代前半期為止,日語語料的建設還主要是以人工方式進行的。90年代后期,隨著計算機技術的迅速發(fā)展,日本的語料庫建設也進入了飛速發(fā)展時期。其中有代表性的日語語料庫主要有以下幾種:

      1.『現(xiàn)代日本語書き言葉均衡コーパス(BCCWJ)』(構築 2006-2011, 公 開2011)

      該語料庫收錄了1976年-2005年30年間的語料,選材包括書籍、白皮書、新聞報紙、博客、bbs、教科書等內容,語料庫的規(guī)模達到1億430萬字。目前該語料庫有“少納言”、“中納言”、“DVD版”三種,其中“少納言”供日語研究和學習者免費使用。

      2.『日本語話し言葉コーパス(CSJ)』(構築 1999~2003,公開2004)

      該語料庫是國立國語研究所、情報通信研究機構、東京工業(yè)大學聯(lián)合開發(fā)的日語口語語料庫,選材來自演講、對話、朗讀等內容,語料庫的規(guī)模為750萬字,錄音時間為660小時。目前該語料庫提供“中納言”、“USB數(shù)據(jù)”兩種版本供研究者和學習者使用。

      3.『日本語歴史コーパス(CHJ)』(構築2010~ , 段階的に公開)

      該語料庫是國立國語研究所開發(fā)的日語歷時語料庫,內容涵蓋了從奈良時期一直到大正時期的日語語料,語料題材有詩歌、故事、隨筆、游記、日記、狂言等內容。值得一提的是該語料庫的開發(fā)為日語歷史變遷的研究提供了寶貴的佐證材料。

      4.『國語研日本語ウェブコーパス』(構築2011~2015, 公開2016予定)

      該語料庫始建于2011年,語料庫選材全部來源于網(wǎng)絡,該語料庫的特色是語料庫規(guī)模大,其語料達到了100億字。因為該語料庫所選擇的語料全部來源于網(wǎng)絡,所以語料比較新,符合當代人的表述習慣,但是同時也存在著語料不夠規(guī)范的缺點。

      5.「近代語コーパス」

      該語料庫建設于2009年-2012年期間,選材主要限定于明治時期—昭和時期的文學作品、雜志、暢銷書等。明治時期是日語從“文語”到“口語”的轉換時期,相當于中國的白話文運動。該語料庫又細分為“太陽コーパス”、“近代女性雑誌コーパス”、“明六雑誌コーパス”、“國民之友コーパス”四小部分。

      6.青空文庫

      1997年2月創(chuàng)立的青空文庫是一個免費的日本文學作品電子圖書館。該語料庫幾乎涵蓋了日本各個時期、各個流派、各種類型的文學作品。目前該語料庫提供zip、ebk、html三種文件格式。編碼方式采用Shift—JIS編碼。青空文庫的免費文學作品極大地方便了日語學習者和日本文學愛好者。

      二、日語小說與語料庫的構建

      2009年本人開始籌建小規(guī)模、簡易教學語料庫,目前語料庫約有2000萬字規(guī)模。該語料庫建設目前仍在進行中。預期目標是建設一個規(guī)模小,使用方便,檢索迅速的語料庫。語料的來源是青空文庫中部分著名作家的文章。語料檢索的軟件載體是AntConc,該軟件擁有詞語檢索、生成詞表和主題詞三大功能,通過編碼、壓縮后的語料,可以在該軟件中以日文的形式展現(xiàn),并且不會出現(xiàn)亂碼現(xiàn)象。選擇青空文庫的原因如下:

      首先,沒有版權問題。版權問題是語料庫建設過程中必須考慮的問題,在日本,任何文學作品的版權都受到嚴格的保護,任何機構和個人在沒有得到作者許可的情況下都不可以轉載、使用其作品。這也是語料庫建設中普遍使用比較舊的語料的原因。正如前文所述,青空文庫所收集語料,其著作權已經(jīng)消失,根據(jù)日本著作權法,這些作品已經(jīng)不存在著作權的問題,可以自由使用。制作好的語料庫可以免費提供給教師和學生使用,極大地方便了日語學習和研究。

      其次,語料豐富。青空文庫從1997年開始建設以來,已經(jīng)歷時13年的時間,其規(guī)模達到相當可觀,包含10752篇文學作品。其中一部分作家的大多數(shù)作品都已經(jīng)錄入數(shù)據(jù)庫。青空文庫的題材廣泛,包括小說、散文、游記、書評、回憶錄等各種題材,保證了語料的多樣性,可以從各種不同的語言素材出發(fā),對具體的語言現(xiàn)象進行研究。

      再次,名家名篇保證了語料的科學性。在語料抽取的過程中,主要抽取了夏目漱石、森歐外、有島武郎、田山花袋等名家的著名文學作品,在語法教學和詞匯教學中,可以通過語料庫直接檢索名家的語料,避免由于教師自己造句子所帶來的誤差。并且名家名篇所構成的語料具有很高的文學性和藝術性,在具體的教學中,通過語料的抽取和學習,能極大地提高學生的日語水平和文學素養(yǎng)。

      三、日語語料庫建設的界限與難點

      首先,規(guī)模問題。語料庫建設是一項規(guī)模極其浩大的工程,受計算機內存和存儲性能的影響,以個人的財力和物力所建設的語料庫在規(guī)模上和性能上是有一定的局限性。同日本國立國語研究所數(shù)以億計的大規(guī)模語料庫相比,本語料庫目前僅能對一些簡單的語言現(xiàn)象進行檢索,更大規(guī)模的語料庫建設,只能靠國內高校間的合作。AntCon檢索軟件只能對小規(guī)模的數(shù)據(jù)庫進行檢索,如果是大規(guī)模的數(shù)據(jù)庫,該軟件檢索需要花費較多的時間。

      其次,語料選材問題。語料庫的建設顧名思義語料的選擇具有很重要的意義,選擇什么樣的語料,是日本人日常生活中使用的口語,日劇中登場人物的對白,還是日本企業(yè)中使用的商務日語,對語料庫的性質起著至關重要的作用。因資金支持和人手問題,本語料庫只是一個生語料庫,并且不涉及語料的均衡性問題。所以在選材方面主要選取了有代表性的小說。在時間跨度上,選取了明治、大正、昭和、平成四個不同時期的作品,力爭涵蓋各個歷史時期的文學作品,使語料庫更具有科學性和代表性。

      再次,語料的時效性問題。語料庫制作還需要考慮的一個問題就是時效性的問題,本語料庫所選取的語料并非是當下使用的日語,而是以文學作文的形式固定下來,為日本人所熟知的文學作品。關于這個問題需要說明的是語言材料的時效性并不像食品的保質期一樣,很短時間內就會發(fā)生質的變化。語言是一個相對固定的東西,我們可以比較流暢地閱讀250多年前寫成的《紅樓夢》,可以很好地說明這一點。

      四、結語

      隨著計算機存儲技術和大數(shù)據(jù)檢索技術的不斷發(fā)展,大量的日語學習語料充斥于網(wǎng)絡,極大地開闊了日語學習者的視野,豐富了日語學習者的學習手段。但是,如何在如此眾多的語料信息當中篩選出有用的信息,并有效提高我們的學習效率,這無疑成為亟待解決的問題。本文基于AntCon檢索軟件,選取了青空文庫中具有代表性的小說制作成簡單的語料庫,服務于日語口譯教學,提高了教學效果。同時,本文探討了個人自建語料庫的界限與難點,以期在今后的研究與開發(fā)中取得突破和進展。

      參考文獻:

      [1]毛文偉.日語語料庫建設的現(xiàn)狀綜述[J].日語學習與研究,2009(06).

      [2]譚晶華,毛文偉.中國日語學習者語料庫CLJC建設及應用綜述[J].日語學習與研究,2011(04).

      [3]杜澤兵.基于語料庫的中國學術英語詞塊結構和功能特征研究[J].外語電化教學,2016(05).

      [4]胡開寶,李翼.當代英語教材語料庫的創(chuàng)建與應用研究[J].外語電化教學,2016(03).

      猜你喜歡
      語料庫
      《語料庫翻譯文體學》評介
      基于語料庫的“はずだ”語義用法分析
      基于語料庫“隱秘”的詞類標注初步探究
      把課文的優(yōu)美表達存進語料庫
      基于COCA語料庫的近義詞辨析 ——以choose和select為例
      口譯不宜“任性”:基于語料庫的外事翻譯等效探索
      語言與翻譯(2015年3期)2015-07-18 11:11:04
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      基于英漢雙語平行語料庫的無根回譯研究
      外語學刊(2014年6期)2014-04-18 09:11:50
      基于語料庫的近義詞辨析研究——以suspect和doubt為例
      低碳經(jīng)濟英語語料庫建設與應用
      峨边| 宜昌市| 牡丹江市| 库尔勒市| 东平县| 米脂县| 科尔| 嵩明县| 陇川县| 泸州市| 德安县| 壶关县| 邹平县| 佛山市| 荆门市| 南平市| 翁牛特旗| 饶阳县| 新和县| 常宁市| 鹤岗市| 鸡东县| 丁青县| 剑河县| 连城县| 永仁县| 达州市| 来宾市| 永登县| 德阳市| 科技| 威信县| 阳信县| 汽车| 镇宁| 瓮安县| 隆昌县| 通州市| 汝阳县| 青神县| 呈贡县|