陳鶴
內(nèi)容摘要:本文主要介紹了語料庫語言學(xué)這一新興學(xué)科以及如何在傳統(tǒng)的語言學(xué)研究中將這兩者結(jié)合起來。語料庫語言學(xué)的特點是實證性研究,它基于真實的語料,用統(tǒng)計的方法對研究對象進行量化的概率計算。因此如果在傳統(tǒng)的理論研究中結(jié)合這一方法,就可以得到定性定量的更科學(xué)的結(jié)論。
關(guān)鍵詞:語料庫 語料庫語言學(xué) 錯誤分析 錯誤
一.語料庫
語料庫是按照一定的采樣標準采集而來的、能夠代表一種語言或者某語言的一種變體或文類的電子文本集??梢哉f,一個語料庫由若干個電子文本構(gòu)成,而這些電子文本作為一個整體可以代表某語言或者某語言的某種變體或文類。因此,以一個語料庫為數(shù)據(jù)源進行的研究可以看作是對該語料庫所代表語言、語言變體或文類的研究,研究所得到的結(jié)論可以推廣到整個語言、語言變體或文類。
對于一個語料庫來說,最高的目標是它的代表性。為了能夠達到有代表性這個標準,在建設(shè)語料庫的時候,要對需要研究的對象有個全局性的認識,只有當(dāng)研究中所使用的語料庫有代表性,得到的研究結(jié)果才具有代表性,才能夠作為科學(xué)的結(jié)論被推廣到整個語言、語言變體或文類。在語料庫語言學(xué)中,抽樣和總體之間的比例關(guān)系是非常復(fù)雜的,需要利用多種抽樣檢測的方法來確定語料庫的代表性。因為假如我們通過對一個語料庫進行研究得到的結(jié)果具有代表性的話,那么它一定適用于其他的抽樣和其他的語料庫。
由此,我們可以看到,并非任何隨意收集的數(shù)據(jù)都可以稱為語料庫,要想通過語料庫研究這種方法得到科學(xué)的結(jié)論,必須考慮到語料的收集標準以及語料庫的代表性。如果在建設(shè)語料庫的時候本身考慮偏頗,那么通過對該語料庫所代表語言、語言變體或文類的研究,就無法推廣到整個語言、語言變體或文類,那么這個研究就違背了語料庫語言中的初衷,也就成為了失敗的研究。
二.語料庫語言學(xué)
在近現(xiàn)代語言學(xué)發(fā)展史中,哲學(xué)領(lǐng)域的理性主義與經(jīng)驗主義之爭滲透到語言學(xué)研究的絕大部分領(lǐng)域,幾乎貫穿于語言學(xué)發(fā)展史的全過程。理性主義認為,由于表象可能使人受到蒙蔽,所以通過感覺的觀察而得來的經(jīng)驗常常是不可靠的,所以他們認為研究語言行為并不能揭示語言的本質(zhì),更能反映語言特征的應(yīng)該是語言能力。由此可以看出,理性主義在研究中是不主張使用真實語料,與語料庫語言學(xué)持對立的觀點。而經(jīng)驗主義因為主張通過觀察來了解外部世界,認為任何知識的獲取必須通過觀察得到,因此他們與語料庫語言學(xué)持相同的觀點,認為研究應(yīng)該使用真實的語料。
在語言學(xué)界,針對語料庫語言學(xué)一直持有模糊的態(tài)度。在一些研究者看來,語料庫語言學(xué)是一個獨立的學(xué)科,因為它有自己獨到的理論體系和操作方法。由于語料庫語言學(xué)立足于大量真實的語言數(shù)據(jù),通過對這些數(shù)據(jù)進行觀察,統(tǒng)計和概括,可以證實或質(zhì)疑一些語言理論,這對于語言理論的建設(shè)具有無可比擬的創(chuàng)新意義。而在另一些研究者看來,語料庫語言學(xué)并非語言學(xué)的又一個分支學(xué)科,在更大的程度上只是一種研究方法,這種方法基于大量的真實語言,得出科學(xué)的數(shù)據(jù)統(tǒng)計結(jié)果,可以回答通過其他途徑很難回答的問題,從而豐富和補充了已有的研究方法。
語言學(xué)的研究對象是人類的語言,而在人類語言中存在著各種各樣的變體,作為語言的母語使用者或者學(xué)習(xí)者,我們清楚地知道一門語言中既定的語法規(guī)則,但仍然很多時候還是會提出疑問,例如某種搭配是否存在,或者另外一種說法是否正確。語言學(xué)不會就這些問題給出正確或者錯誤這樣的答案,它不是來評估一門語言,而是主要來區(qū)別符合和不符合一門語言規(guī)則的使用形式。但涉及到某種搭配在一門語言種使用情況的多少,單純地依靠語言學(xué)系統(tǒng)理論就無法對此進行回答,這時候人們就必須具體地研究語言的使用情況,也就意味著必須借助于實證性的研究。
語料庫語言學(xué)以大量采集而來的真實文本為研究素材,主要通過概率統(tǒng)計的方法得出結(jié)論,因此,我們可以說,語料庫語言學(xué)在本質(zhì)上講是實證性的。也就是說,如果研究者涉及到語料庫語言學(xué),那么非常重要的部分就是對語言現(xiàn)象的觀察和描述。但同時我們進行實證性的研究并不意味著我們完全拋棄理論研究,理論型的語言學(xué)家和實證型的語言學(xué)家之間的合作應(yīng)該是雙贏的結(jié)果。
語料庫語言學(xué)研究的是語料庫的建設(shè)、標注、評估。Lemnitzer對語料庫語言學(xué)的界定是:語料庫語言學(xué)是對自然語言,其組成部分,結(jié)構(gòu)的描述以及通過對語料庫中真實語料的分析所建立起來的理論。語料庫語言學(xué)是一種科學(xué)活動,它必須遵循一定的科學(xué)原則,滿足一定的科學(xué)要求?;谡Z料庫的語言描述 可以為語言教學(xué)、語言資料匯編、詞典編纂和機器語言處理等不同用途服務(wù)。
三.利用語料庫語言學(xué)研究方法研究學(xué)習(xí)者錯誤
錯誤的種類有很多,對學(xué)習(xí)者語言進行的錯誤分析可以涉及到語言學(xué)的各個層面。對于過渡語中出現(xiàn)的錯誤現(xiàn)象的分類,不同的語言學(xué)家有不同的見解:Richards認為偏誤有語際錯誤、語內(nèi)錯誤和發(fā)展性錯誤。Corder根據(jù)偏誤出現(xiàn)的系統(tǒng)性把錯誤分為以下三種:第一種是形成系統(tǒng)前的錯誤,這類錯誤主要出現(xiàn)在學(xué)習(xí)者并不知道在目標語中存在著相應(yīng)的規(guī)則的情況下;第二種是系統(tǒng)性錯誤,主要出現(xiàn)在學(xué)習(xí)者已經(jīng)發(fā)現(xiàn)了目標語中存在著某個規(guī)則,但沒有把它正確地使用;第三種情況是形成系統(tǒng)后的偏誤,出現(xiàn)在學(xué)習(xí)者知道正確的目標語規(guī)則,但不能總是正確使用。Dulay,Burt和Krashen從評價的角度,根據(jù)錯誤對交際產(chǎn)生的影響把偏誤劃分為全局性偏誤和局部性偏誤。James認為語言學(xué)習(xí)者的偏誤常出現(xiàn)在3個語言層面:本體層面,文本層面和語篇層面。本體層面是指單詞拼寫,標點符號錯誤等,本文層面主要是本論文研究的詞匯錯誤,以及語義,句法等方面出現(xiàn)的偏離目標語結(jié)構(gòu)的錯誤,語篇層面則是上升到了篇章語言學(xué)的層次,主要是針對銜接連貫方面出現(xiàn)的問題。
很多語言學(xué)家曾建議對學(xué)習(xí)者錯誤的研究應(yīng)該通過量化的方式,分組進行對比和分析。語料庫語言學(xué)的研究方法是通過軟件的標注和搜索功能,對語料進行實證性的研究,通過數(shù)據(jù)的展現(xiàn)直觀地說明結(jié)論。對于語料的處理主要有三個階段:標注、搜索和統(tǒng)計。在每一個階段都使用不同的軟件,本文推薦使用以下三個針對語料庫語言學(xué)研究的軟件,在網(wǎng)絡(luò)上都可以免費下載使用。endprint
語料庫標注是指利用各種標簽對語料庫中的文本的各種屬性加以標記。標注的母的是為了方便開展不同目的的研究。經(jīng)過標注的文本增加了很多對語言研究十分有價值的信息,對文本進行標注的價值正在于此。經(jīng)過人工或者自動處理后,原來的文本會得到“增值”。在標注階段使用的工具是Annotool,正如它的命名一樣,它主要是負責(zé)標注的工具。它操作界面友好,支持.doc文檔格式,只需要將語料庫中.txt格式的文件在word文字編輯工具中打開就可以使用。在使用前將實證研究所需要的所有標注類別輸入編輯頁面,就可以顯示在Annotool的工具條中,這樣在對語料進行標注的過程中,就不用每次手動輸入標注,而是直接點擊Annotool中實現(xiàn)輸入好的對應(yīng)的標注,就可以添加到語料中。這樣做的好處不僅節(jié)省了標注的時間,更是保證了標注的準確率。這樣一來就不會因為重復(fù)手動輸入標注而導(dǎo)致的錯誤,例如標點符號、字母代碼等,能夠盡可能地保證標準階段的準確性,對搜索得到科學(xué)的結(jié)果打下基礎(chǔ)。
標注的設(shè)計和研究的問題是緊密相關(guān)的,這樣才能在之后搜索統(tǒng)計的時候得到準確的結(jié)果。對賦碼設(shè)計的原則首先是簡潔,用字母縮寫和數(shù)字組成的代碼方式;其次是全面,根據(jù)錯誤分析理論的預(yù)測,涵蓋錯誤類型,即使某種錯誤出現(xiàn)的頻率可能比較低,也要考慮到;最后是實用,有些錯誤類型是幾乎不可能出現(xiàn)的,在設(shè)計標注的時候,就可以把這類情況排除在外,這樣一來會減少很多不實用的標注,使得標注頁面清晰明了,標注過程也少了很多干擾,能夠保證標注標準的統(tǒng)一性,減少出現(xiàn)有歧義的情況。
搜索工具AntConc對已經(jīng)利用標注Annotool加工過的語料進行搜索和統(tǒng)計。它的巨大優(yōu)勢在于能夠高速地在龐大詞次的語料庫中快速地找到研究需要的信息,并且能夠在詞、字符串、詞組、詞塊、搭配、標注這些不同的層面上進行檢索、統(tǒng)計和對比。它的主要功能有七項,如下圖操作界面的菜單欄所示:詞頻、詞距、詞的列舉、詞的常見搭配、詞的固定搭配、所有詞匯列表以及關(guān)鍵詞匯列表。概括來說AntConc的基本功能主要有三項:1.能夠快速找到某個詞及其附近詞的頻率;2.能夠快速找到所有詞和所有詞塊的頻率;3.能夠快速找到所有詞在另一個庫中的頻率差別。
在用搜索工具進行搜索對比后,還需要對統(tǒng)計結(jié)果進行t值的檢驗,以確保不同組數(shù)據(jù)之間的差異性是否真正存在。因為語料的長度和篇數(shù)都各自不同,因此各類錯誤的分布都不能只看它出現(xiàn)的次數(shù)來決定,而且取平均值進行對比也不是科學(xué)的統(tǒng)計方法。因此,在標注統(tǒng)計后,建議利用計算機統(tǒng)計軟件SPSS對統(tǒng)計結(jié)果進行t值的檢驗,來看不同的分組之間是否存在明顯的差異性。
語料庫語言學(xué)的研究方法是實證性的,注重理論和實踐的結(jié)合,一般來說分為三個步驟。首先是理論準備,思考一項研究需要解決的問題,尋找可以作為理論支持的語言學(xué)理論,特別要注意所要研究的問題和使用的理論在語料庫中的操作性;其次是實踐操作的部分,按照研究依據(jù)的理論,設(shè)計合理的標注,使用標注工具自動或者手動地對語料進行處理加工。標注完成后,再使用語料庫索引工具對語料和標注進行檢索、統(tǒng)計、歸類和分析。最后是對研究結(jié)果的評估總結(jié),通過研究結(jié)論的反饋,評估研究所用理論是否可以恰當(dāng)?shù)睾驼Z料庫這種研究方法做結(jié)合,標注過程是否準確,所使用的標注工具和檢索工具是否合適,得到的研究結(jié)果在多大程度上可以解決所提出的問題。只有應(yīng)用到了這些步驟,才能在研究中更好地發(fā)揮語料庫語言學(xué)這種研究方法的優(yōu)勢,在研究中得到更科學(xué)更合理的結(jié)論。
四.結(jié)束語
語料庫語言學(xué)的優(yōu)勢在于,它在大量數(shù)據(jù)的基礎(chǔ)上不僅研究一門語言本身的結(jié)構(gòu),同時也研究這門語言的使用。但同時它也要遵守一些基本的科學(xué)研究的前提,比如通過語料庫語言學(xué)研究方法得到的結(jié)果必須是經(jīng)得起檢驗。在語料庫語言學(xué)的具體情況下也就是說,在一個語料庫基礎(chǔ)上得到的研究結(jié)果,可以適用于用另外的可比的語料庫;或者當(dāng)別的研究者利用同一個的語料庫,他們得到的研究結(jié)果應(yīng)該是一樣的。只有這樣,才能保證利用同一個語料庫的不同角度和方向的科學(xué)研究有可比性。和其他語言學(xué)分支相比,語料庫語言學(xué)更加地具有目的性,由語料庫語言學(xué)得到的認知可以廣泛地應(yīng)用于翻譯學(xué),詞典學(xué)和語言教學(xué)。
參考文獻:
1.Lemnitzer,Lothar/Zinsmeister,eike
2006:Korpuslinguistik.eine Einführung. Tübingen.
2.Scherer, Carmen, 2006: Korpuslinguistik. Heidelberg.
3.Tognini-Bonelli, Elena, 2001, Corpus Linguistics at Work. Benjamins. Amsterdam
4.Lüdeling, Anke/Walter, Maik, 2009: Korpuslinguistik für Deutsch als Fremdsprache. Sprachvermittlung und Spracherwerbsforschung. In: HSK 19, Deutsch als Fremdsprache.
5.梁茂成/李文中/許家金,2010:《語料庫應(yīng)用教程》。外語教學(xué)與研究出版社。
6.梁鏞/錢敏汝,1991:“專業(yè)語研究中的幾個主要理論問題”。載:《國外語言學(xué)》。1991,第1期。34-40頁。
(作者單位:北京外國語大學(xué))endprint