金明珠 劉洋
摘 要:網(wǎng)絡(luò)語料庫(Web As Corpus)指的是把互聯(lián)網(wǎng)視作一個(gè)文本語料庫,應(yīng)用Google等搜索引擎或WebCorp等專用檢索工具為檢索手段創(chuàng)建語料庫?;ヂ?lián)網(wǎng)以其開放性及不斷的增長的巨大文本數(shù)量日益成為語料庫重要的數(shù)據(jù)來源,可以彌補(bǔ)封閉的語料庫的呈現(xiàn)的語言動(dòng)態(tài)發(fā)展不全面的不足,對(duì)語言發(fā)展變化研究的重要性越來越高。據(jù)此,本書以語料庫與網(wǎng)絡(luò)關(guān)系為背景,介紹了如何運(yùn)用語料庫語言學(xué)和計(jì)算機(jī)語言學(xué)的理論,利用互聯(lián)網(wǎng)創(chuàng)建語料庫的系統(tǒng)實(shí)踐。該書的作者M(jìn)aristellaGatto是意大利Bari大學(xué)現(xiàn)代語言系的高級(jí)研究員和講師。
關(guān)鍵詞:網(wǎng)絡(luò)語料庫;引擎;WebCorp
一、內(nèi)容簡介
本書共分為7章,每章后均配有動(dòng)手實(shí)踐,和延伸閱讀環(huán)節(jié),既可用作教學(xué)和培訓(xùn)的教材,也可用作自學(xué)入門的實(shí)用讀物。
第一章結(jié)合BNC(British National Corpus)語料庫回顧了語料庫的核心概念,包括真實(shí)性,代表性,均衡性,取樣,大小,構(gòu)成及語料庫分析工具如詞表,關(guān)鍵詞列表,索引等,為進(jìn)一步介紹語料庫應(yīng)用掃清障礙。
第二章辯證地看待了互聯(lián)網(wǎng)作為語料庫的合適性問題。互聯(lián)網(wǎng)檢索出來的網(wǎng)頁其組織結(jié)構(gòu)與傳統(tǒng)語料庫截然不同,而且無法某些網(wǎng)絡(luò)文本的真實(shí)寫作時(shí)間,文本作者的文化背景,及文本之間的可比性。此外,互聯(lián)網(wǎng)網(wǎng)頁上的許多超文本格式交叉引用大量超鏈接,存在很多信息噪音。但是互聯(lián)網(wǎng)提供的文本數(shù)量巨大,里面包含更多的單詞及短語共現(xiàn)樣本,因此互聯(lián)網(wǎng)已被廣泛地視為具有極大潛能地語言數(shù)據(jù)資源,對(duì)它包含的文本的研究可以看作是其所代表的語言及文類的研究,所得出的結(jié)論對(duì)語言運(yùn)用及語言理論建設(shè)具有劃時(shí)代的意義。
第三章中作者介紹如何使用互聯(lián)網(wǎng)通用搜索引擎的爬行功能,索引功能,搜索功能,排序功能等基本功能,搜索特定詞和短語的用法。本章還詳細(xì)地展示了谷歌搜索引擎的高級(jí)搜索功能如布爾數(shù)學(xué)體系,還展示了如何不斷精確關(guān)鍵詞和使用通配符來加強(qiáng)檢索式的限制性,達(dá)到語義聚類或限制語法結(jié)構(gòu)的目的。
第四章介紹了互聯(lián)網(wǎng)進(jìn)行索引的個(gè)性化語言學(xué)檢索引擎WebCorp Live和WebCorp project等第四代語料庫分析工具(McEnery&Hardie,2012),其原理就是研究者使用谷歌搜索引擎下載含有目標(biāo)關(guān)鍵詞的網(wǎng)頁文件,隨后細(xì)化檢索標(biāo)準(zhǔn),深入進(jìn)行二次檢索和分析,網(wǎng)頁會(huì)呈現(xiàn)更豐富的上下文語境和更精確的使用頻率,檢索結(jié)果呈現(xiàn)KWIC(關(guān)鍵詞居中)模式,還可提供詞頻表,方便統(tǒng)計(jì)搭配詞和執(zhí)行其他分析與運(yùn)算,被作者成為“網(wǎng)絡(luò)小宇宙”。
第五章展示了如何通過使用BootCat工具快速創(chuàng)建專門化的線下語料庫。BootCat(Baroni,&Bernarnidi,2004)是一款免費(fèi)的自動(dòng)上網(wǎng)收集語料并創(chuàng)建臨時(shí)語料庫的工具,其原理是依靠用戶提供的關(guān)鍵詞,在網(wǎng)上收集和關(guān)鍵詞內(nèi)容相關(guān)的網(wǎng)頁然后構(gòu)建一個(gè)臨時(shí)語料庫(ad hoc corpus)。基本的做法是在網(wǎng)絡(luò)上搜索的關(guān)鍵詞(稱為Seeds),BootCat會(huì)根據(jù)Seeds自動(dòng)生成Tuples(關(guān)鍵詞的組合),然后依次輸入其他的搜索條件,軟件會(huì)自動(dòng)創(chuàng)建語料庫。
第六章的題目是大型網(wǎng)絡(luò)數(shù)據(jù)庫的語言和文化掃描,作者介紹了一些大庫容的多語言普通用途網(wǎng)絡(luò)語料庫,比如TenTen collection的庫容超過100億詞。隨著自然語言處理技術(shù)和計(jì)算機(jī)處理能力提高,Sketch Engine(Kilgariff et al.,2004)工具應(yīng)運(yùn)而生的,可以用其對(duì)這些大庫容網(wǎng)絡(luò)語料庫進(jìn)行檢索。它基于“搭配與詞義對(duì)應(yīng)”的理論,是一種高效率的語言信息提取工具,它本身是一個(gè)數(shù)據(jù)庫,在詞語搭配與語義之間架起一道橋梁,將大型語料庫中的語言信息進(jìn)行有效的匯總。
第七章討論了web2.0對(duì)語料庫語言學(xué)的影響,指出了第二代網(wǎng)絡(luò)技術(shù)使得信息實(shí)現(xiàn)了雙向傳遞,網(wǎng)絡(luò)成為用戶進(jìn)行參與的平臺(tái),互聯(lián)網(wǎng)使用者可以根據(jù)需要對(duì)各種資源進(jìn)行加工,編輯和整理,終端用戶可以實(shí)時(shí)更新網(wǎng)絡(luò)內(nèi)容
二、簡評(píng)
本書是第一本系統(tǒng)性描繪利用互聯(lián)網(wǎng)進(jìn)行語料庫建設(shè)的書籍,銳意求新,傳授了利用互聯(lián)網(wǎng)創(chuàng)建語料庫并進(jìn)行應(yīng)用的技術(shù)和方法,對(duì)于語料庫語言學(xué)和計(jì)算機(jī)語言學(xué)領(lǐng)域作出了巨大貢獻(xiàn)。在語言學(xué)研究領(lǐng)域利用網(wǎng)絡(luò)來建語料庫可以看作對(duì)應(yīng)用傳統(tǒng)語料庫得到的結(jié)果的有益補(bǔ)充。
(1)本書是全新的認(rèn)識(shí)論。
傳統(tǒng)的觀點(diǎn)認(rèn)為互聯(lián)網(wǎng)因其非為指定語言學(xué)特定研究領(lǐng)域而建,缺乏標(biāo)準(zhǔn)語言學(xué)語料庫意義上的系統(tǒng)性和典型性特征,本書從互聯(lián)網(wǎng)和語料庫交叉的角度展開對(duì)數(shù)據(jù)的認(rèn)識(shí),強(qiáng)調(diào)作為語料庫的互聯(lián)網(wǎng)因其涵蓋的語言數(shù)量眾多的文本,在文本類型與題材類型方面有動(dòng)態(tài)化的特點(diǎn),并且能記載動(dòng)態(tài)的語言變化,因而能成為重要的語言學(xué)研究中的語料庫資源。這種觀點(diǎn)拓寬了語料庫研究的范圍,具有前瞻性的指導(dǎo)意義,推動(dòng)了計(jì)算機(jī)語言學(xué)的發(fā)展,對(duì)語料庫語言學(xué)從業(yè)人員,培訓(xùn)者和研究人員都有啟發(fā)意義。
(2)本書為將互聯(lián)網(wǎng)作為語料庫提供方法論指導(dǎo)。
本書3-6章圍繞如何利用互聯(lián)網(wǎng)創(chuàng)建語料庫的研究問題展開,實(shí)踐的技術(shù)方法,步驟,工具均服務(wù)于研究的目的。所用案例均來自真實(shí)的研究實(shí)踐,同時(shí)具有開放性,有助于舉一反三。書中使用的快捷和應(yīng)用廣泛的WAC(Web as Corpus)各種建庫方法對(duì)操作步驟的介紹詳細(xì),清晰,操作性和可行性強(qiáng),為眾多想利用互聯(lián)網(wǎng)作為語料庫的研究者提供了方法論的指導(dǎo),啟發(fā)他們自動(dòng)化和半自動(dòng)化地建立單語語料庫和雙語語料庫。
(3)本書為其他學(xué)科比如翻譯提供了很好的啟示。第三章的結(jié)尾就是根據(jù)互聯(lián)網(wǎng)的數(shù)據(jù)進(jìn)行翻譯實(shí)踐,這能從另一種的方式證明利用網(wǎng)絡(luò)作為語料庫的實(shí)際性。
但本書探討利用互聯(lián)網(wǎng)創(chuàng)建語料庫時(shí),語言僅限于英語和意大利語,但是語言本質(zhì)的區(qū)別必然導(dǎo)致對(duì)譯的不同,而這些不同會(huì)導(dǎo)致搜索結(jié)果的不同,無法判斷本書的研究成果適用于所有的語言類型。此外,網(wǎng)絡(luò)語言學(xué)被稱作語料庫語言學(xué)的第四代,作為一個(gè)新興的領(lǐng)域,它還有很多問題亟待解決,比如語料庫構(gòu)建方面的語料庫設(shè)計(jì)(語料庫構(gòu)成,語料庫評(píng)估,抽樣策略和爬行算法式,處理復(fù)制材料)以及專業(yè)性更強(qiáng)的方面(文本清理和標(biāo)注,以及大規(guī)模的平行化以期達(dá)到互聯(lián)網(wǎng)規(guī)模的語料庫建構(gòu)),以及系統(tǒng)的評(píng)估作為互聯(lián)網(wǎng)語料庫與傳統(tǒng)的語料庫的區(qū)別等,這些方面都亟待解決,任重而道遠(yuǎn)。
參考文獻(xiàn):
[1]Baroni,M.&S. Bernarnidi .2004 . BootCat: Bootstrapping corpora and terms from the web[R]. Paper presented at the 2004 LREC, Lisbon, Portugal,2004.
[2]Davies, M. 2014. Making Google Books n-grams useful for a wide range of research on language change[J]. International Journal of Corpus Linguistics 19 (3):401-416.
[3]Kilgarriff A. et al. 2004.The Sketch Engine[R], Paper presented at the 2004 Euralex, Lorient, France, 2004.
[4]McEnery, T. &Hardie A. 2012.A Corpus Linguistics:Method, Theory and Practice [M]. Cambridge: Cambridge University Press.
基金項(xiàng)目:本文系“湖北工業(yè)大學(xué)2019年度大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目-無障礙電影制作與開發(fā)(S201910500079)”研究成果;“湖北工業(yè)大學(xué)2018年度大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目-荊楚漆器外宣翻譯及傳播路徑研究(201810500049)”研究成果。
作者簡介:
金明珠, 1997年,女,安徽人,湖北工業(yè)大學(xué)外國語學(xué)院2015級(jí)英語4班學(xué)生
劉洋,1979,女,內(nèi)蒙古自治區(qū)人,湖北工業(yè)大學(xué)外國語學(xué)院教師