潘筱
摘 要: 結(jié)合潛伏語義分析技術(shù),Coh-Metrix是一項可以測量文本銜接性和文章難度的自動分析工具,它突破了以往傳統(tǒng)的易讀性公式僅限于對文章表層形式特征的統(tǒng)計的局限性,可以在線同時測量文本特征、銜接手段、詞匯多樣性、句法復(fù)雜度和文本可讀性等106個文本特征。本研究嘗試?yán)眠@一工具對大學(xué)英語精讀教材和四級閱讀理解部分的語言難度進(jìn)行量化分析,了解目前非英語專業(yè)大學(xué)生使用的英語教材和閱讀考試的語言難度差異。實驗發(fā)現(xiàn)大學(xué)英語精讀教材第一、二冊的文章易讀性遠(yuǎn)低于CET4閱讀材料,且精讀教材第一、二冊之間沒有明顯的難度差異。
關(guān)鍵詞: 易讀性 Coh-Metrix 潛伏語義分析
1.研究背景
難度系數(shù)不是衡量閱讀難度的唯一標(biāo)準(zhǔn),文章難度還與體裁和話題有關(guān)。盡管如此,難度系數(shù)仍然可以作為語言復(fù)雜性的量化指標(biāo)[1],我們有必要探討文章閱讀的難度系數(shù)。傳統(tǒng)計算文章難度系數(shù)的方法主要依賴于易讀性公式,其中應(yīng)用最廣泛的是弗萊士易讀性公式Flesch Reading Ease[2]。Flesch Reading Ease=206.835-1.015*ASL-84.6*ASW,其中ASL指平均句子長度,由文中單詞總詞數(shù)除以句子數(shù)量得來;ASW指每個單詞的平均音節(jié)數(shù),由總音節(jié)數(shù)除以單詞總詞數(shù)得來。但是該公式只考慮了語言材料的形式要素,如單詞長度和句子長度,這些指標(biāo)只能反映文本的一部分表層特征。Carrell, P.L. (1987)[3]也指出傳統(tǒng)的易讀性公式是基于句子長度和單詞長度的簡單算法,它們對于母語使用者閱讀文章難度有一定的預(yù)測效果,但對于二語學(xué)習(xí)者來說,因為沒有考慮讀者因素、句法復(fù)雜度、修辭手法及命題等因素,所以預(yù)測效果差;Brown, J.D. (1998)[4]測試了傳統(tǒng)易讀性公式對于測量二語學(xué)習(xí)者閱讀文本難度的信度,并得出結(jié)論傳統(tǒng)公式不能精確地預(yù)測文章難度。
我國過去有關(guān)教材易讀性的研究多利用的是Flesch Reading Ease公式,如辜向東,關(guān)曉仙(2003)[5]利用該公式對大學(xué)英語四六級考試的閱讀測試和大學(xué)英語的閱讀材料進(jìn)行了易讀度抽樣研究;鄧微波(2013)[6]用該公式比較了新老《21世紀(jì)大學(xué)英語》讀寫教程的易讀性,指出新教材的優(yōu)點及不足之處;郭蘇穎,盧水林(2014)[7]也利用該公式對人教版高中英語教材閱讀文本進(jìn)行了易讀性調(diào)查,并結(jié)合學(xué)生訪談探討了高中英語教材的整體現(xiàn)狀。
然而,計算語言學(xué)、語料庫、信息提取和檢索技術(shù)的進(jìn)步使得人們在計算易讀性的過程中可以將諸如連貫性、意義建構(gòu)和詞匯解碼與句法解析等認(rèn)知因素考慮進(jìn)來。Coh-Metrix正是一項可以從語言、話語和概念分析等不同角度測量文章連貫性和難易程度的計算工具。Crossley et. al (2008)[8]利用Coh-Metrix提出了適合二語學(xué)習(xí)者的二語易讀性指標(biāo)(Coh-Metrix L2 Readability,簡稱RDL2),它在計算過程中主要考慮以下三個方面:實義詞的對數(shù)平均數(shù),相鄰句子間的句法相似度和實義詞的重疊。二語易讀性指標(biāo)數(shù)值越高,代表文本閱讀難度越大。Crossley et. al (2011)[9]通過實驗證明二語易讀性指標(biāo)日本學(xué)生英語完形填空得分的相關(guān)度(r=0.93)高于弗萊士易讀性(r=0.86),在衡量二語學(xué)習(xí)者文本難度時更為有效。因而本文嘗試?yán)肅oh-Metrix二語易讀性指標(biāo)量化比較大學(xué)英語精讀教材中的課文與CET4閱讀材料的難度系數(shù)。
2.研究設(shè)計
2.1研究問題
本研究通過抽樣選取并分析對比我校大一新生使用的公共英語精讀教材中的課文和近幾年全國大學(xué)英語四級考試中的閱讀材料,主要回答以下幾個問題:
1)我校大一新生使用的公共英語精讀教材中的課文閱讀難度是否與全國大學(xué)英語四級考試中的閱讀材料難度相當(dāng)?
2)如果難度有差異,主要體現(xiàn)在與易讀性相關(guān)的指標(biāo)中的哪一方面?
3)我校大學(xué)生使用的精讀教材在不同冊的文本閱讀難度的設(shè)置上是否有顯著的差異?
2.2語料選取
因為我校絕大多數(shù)學(xué)生在第一學(xué)年(兩個學(xué)期)學(xué)習(xí)公共英語時使用的教材是復(fù)旦大學(xué)出版社出版的《全新版21世紀(jì)大學(xué)英語讀寫教程》第一冊和第二冊,大部分大一新生會在第一年結(jié)束后參加全國大學(xué)英語四級考試。本文比較的兩個子語料庫分別為:數(shù)據(jù)庫一(TEXTBOOK)是從我校大一新生使用的復(fù)旦大學(xué)出版社出版的《全新版21世紀(jì)大學(xué)英語讀寫教程》第一冊和第二冊教材中隨機(jī)選取了16篇課文(其中包括TEXT A和TEXT B);數(shù)據(jù)庫二(CET4)是從2012年-2016年間CET4的閱讀文本中隨機(jī)選取了16篇文章作為分析樣本。
2.3數(shù)據(jù)標(biāo)注
我們通過將這些閱讀文本逐一輸入Coh-Metrix 3.0分別得到原始的108項指標(biāo),又從中選取九個指標(biāo)并加以標(biāo)注:其中包括二語易讀性指標(biāo)RDL2和Graesser(2011)[2]通過主成分分析法證明的與衡量二語學(xué)習(xí)者閱讀文本難度相關(guān)的八個因素:敘事性(Narrativity),句法簡單度(Syntactic Simplicity),單詞具體性(Word Concreteness),指稱銜接(Referential Cohesion),深度銜接(Deep Cohesion),動詞銜接(Verb Cohesion),連接性(Connectivity)和暫時性(Temporality)。本文中對這個八個因素的標(biāo)注如下:
(1)敘事性(PCNARz):敘事文本講述的故事中有讀者熟悉的人物、事件、地點和事物,且和日常對話密切相關(guān)。因此,這一指標(biāo)與單詞熟悉度、世界知識和口頭語言密切相關(guān)。
(2)句法簡單度(PCSYNz):這一指標(biāo)反映了文中的句子包含的詞匯量較少且使用了更簡單和讀者熟悉的句法結(jié)構(gòu),意味著處理難度更低。
(3)單詞具體性(PCCNCz):因為含有具體的、有意義的并能讓人產(chǎn)生聯(lián)想意象的文章更容易為讀者處理和理解,所以,一篇文章中含有的抽象詞匯越多意味著理解難度更大。
(4)指稱銜接(PCREFz):一篇文章指稱銜接值越高,其含有的句子間和整個文本間相互重疊的單詞和思想也就越多,可以幫助讀者更清晰地理解文本。相反,銜接值越低,文本就更難理解。
(5)深度銜接(PCDCz):表示因果關(guān)系或者邏輯關(guān)系的連接詞可以幫助讀者更好地理解文中的因果事件、過程和行為。深度銜接值越高,代表文中的因果關(guān)系和銜接機(jī)制更明確。
(6)動詞銜接(PCVERBz):這一指標(biāo)代表了文中動詞重疊的程度。當(dāng)文中有重復(fù)動詞出現(xiàn)時,代表其可能包含一個可以促進(jìn)和增強(qiáng)情景模型理解的更連貫的事件結(jié)構(gòu)。
(7)連接性(PCCONNz):這一指標(biāo)反映了文中包含的轉(zhuǎn)折詞、并列連詞及表達(dá)句子間關(guān)系的各類連接詞,相當(dāng)于文中明確表達(dá)的邏輯關(guān)系的數(shù)量。
(8)暫時性(PCTEMPz):文中含有的時間提示詞越多或者時間的連續(xù)性越強(qiáng),讀者越容易處理和理解。此外,時間的銜接還有助于讀者對文中事件的情景模型理解。
3.數(shù)據(jù)分析與結(jié)果
3.1課本閱讀材料與CET4閱讀材料難度對比
表1 課本與CET4易讀度均值差異
表2 課本與CET4易讀度t檢驗結(jié)果
為了比較兩個子數(shù)據(jù)庫中的二語易讀性指標(biāo)RDL2,我們利用獨立樣本t檢驗的方法,如果t檢驗產(chǎn)生的結(jié)果在原假設(shè)正確時看起來不可能(即發(fā)生的可能性小于5%),那么拒絕原假設(shè),否則不拒絕原假設(shè)。從實驗結(jié)果來看,第一個表格中教材中的課文閱讀易讀性指標(biāo)數(shù)值(均值=17.7874)高于CET4(均值=12.1966);再看第二個表格,Levene檢驗結(jié)果顯示p=0.930,因而我們假設(shè)方差相等,我們將使用標(biāo)有“假設(shè)方差相等”的第一行數(shù)據(jù),對應(yīng)的p值小于0.001,所以均值相等的原假設(shè)被拒絕,結(jié)論為兩組數(shù)值的易讀性指標(biāo)有顯著差異。
3.2八個因素均值差異對比
表3 八個因素均值差異
表4 八個因素Levene檢驗結(jié)果
表5 八個因素one-way ANOVA輸出結(jié)果
為了檢驗教材中的課文與CET4閱讀材料在衡量二語學(xué)習(xí)者閱讀文本難度相關(guān)的八個因素中差異最大的項目,我們對其進(jìn)行了一維組間方差分析(ANOVA)。其中表4顯示八個因素的p值均大于0.05,因此不拒絕原假設(shè),假定總體方差相等;再看ANOVA輸出結(jié)果,有兩組p值小于0.05(分別是PCNARz p=0.001, PCSYNz p=0.001),這兩組方差不相等,其他六組p值均大于0.05,因此判斷這六組方差相等。我們得出結(jié)論:教材課文和CET4閱讀之間的難度在PCNARz和PCSYNz這兩個指標(biāo)上差異最顯著,其他六項指標(biāo)之間無顯著差異。
3.3第一冊和第二冊課本閱讀材料易讀度對比
表6 課本第一冊與第二冊易讀度均值差異
表7 課本第一冊與第二冊易讀度t檢驗結(jié)果
我們從表7可以看出,Leneve檢驗中0.584的p值大于0.05,假設(shè)兩組具有相等的總體方差,按第一行數(shù)據(jù)解釋t檢驗;t檢驗中的p=0.077,同樣大于0.05,不拒絕原假設(shè),因此組間沒有顯著差異,即第一冊和第二冊課本閱讀材料難易度沒有明顯差異。
4.討論
盡管教材編著不應(yīng)該完全以應(yīng)試為導(dǎo)向,但四、六級考試仍然是現(xiàn)階段中國大學(xué)生參與范圍最廣的一項英語測試,也是絕大部分企事業(yè)單位招聘畢業(yè)生時衡量學(xué)生英語水平的一項重要指標(biāo),因此學(xué)生對通過四、六級考試或者說在考試中取得高分的需求仍然存在。我們在課堂上使用的英語教材是大多數(shù)大學(xué)生獲取英語輸入和提高英語能力的主要來源,因此,從學(xué)生的需求分析出發(fā),大學(xué)英語課堂上使用的教材中的課文難度應(yīng)該參考四六級考試中閱讀材料的難度。我們從上文第一個實驗(第3.1節(jié))結(jié)果可以看出,大學(xué)英語教材第一、二冊中的課文易讀性指標(biāo)明顯高于CET4中的閱讀材料,因此我們判斷如教材中的課文閱讀難度遠(yuǎn)低于考試中的閱讀難度,這種差異容易造成學(xué)生難以應(yīng)付考試的現(xiàn)象。
接下來我們通過第二個實驗(第3.2節(jié))發(fā)現(xiàn),在衡量二語學(xué)習(xí)者閱讀文本難度相關(guān)的八個因素中,兩個數(shù)據(jù)庫中差異最顯著的是前兩個指標(biāo),即敘事性和句法簡單度。也就是說,教材中的課文在敘事性和句法簡單度上的得分都明顯高于CET4閱讀材料。這可能與語料庫中的文章體裁有關(guān),據(jù)統(tǒng)計,教材中選取的16篇課文中有6篇是記敘文,其他10篇是議論文和說明文;CET4中選取的16篇閱讀材料中僅有一篇是記敘文,其他15篇均為議論文和說明文。這說明對于二語學(xué)習(xí)者來說,記敘文相對其他體裁更好理解。
最后,第三個實驗(第3.3節(jié))證明教材第一冊和第二冊在文章的閱讀難度系數(shù)上沒有顯著差異。辜向東,關(guān)曉仙(2003)[5]指出根據(jù)分級教學(xué)的特點,理想的閱讀教材的模式應(yīng)該是不同冊的閱讀材料難度有明顯區(qū)分。陶麗,王臘寶(2013)[10]也提到同一冊教材內(nèi)部的課文難度系數(shù)應(yīng)保持穩(wěn)定,但不同冊的教材之間應(yīng)具有一定的難度梯度,以保證學(xué)生能力能夠穩(wěn)步提高。因此,我們認(rèn)為該教材的編寫在不同級別選取的文章難度上應(yīng)該有更明顯的區(qū)分?,F(xiàn)行可參考的關(guān)于教材中的課文難度與四六級考試中閱讀文本的難度對比的文章不多,而筆者也是首次嘗試?yán)肅oh-Metrix分析文章的易讀性,因此本文提出的觀點和看法未必準(zhǔn)確。另外,筆者只是抽樣選取了我校使用的教材第一、二冊中的部分文章,樣本數(shù)量較少,可能會對實驗結(jié)果造成影響,希望日后能補(bǔ)充更多的樣本數(shù)據(jù)驗證結(jié)論的準(zhǔn)確性。
參考文獻(xiàn):
[1]樂眉云.介紹一種測定英語教材難度的科學(xué)方法[J].外語教學(xué)與研究,1983(4):47-49.
[2]Graesser A. C., Mcnamara D. S.. Computational analyses of multilevel discourse comprehension[J]. Topics in Cognitive Science, 2011(2):371.
[3]Carrell P. L.. Readability in ESL[J]. Reading in A Foreign Language, 1987(4):21-40.
[4]Brown J. D.. An EFL Readability Index[J]. JALT Journal, 1998(20):7-36.
[5]辜向東,關(guān)曉仙. CET閱讀測試與大學(xué)英語閱讀教材易讀度抽樣研究[J]. 西安外國語大學(xué)學(xué)報, 2003(3):39-42.
[6]鄧微波.新、老《21世紀(jì)大學(xué)英語》讀寫教程對比研究[J].長春大學(xué)學(xué)報,2013(1):118-121.
[7]郭蘇穎,盧水林.人教社高中英語教材易讀性調(diào)查[J].云南師范大學(xué)學(xué)報(對外漢語教學(xué)與研究版),2014(4):25-32.
[8]Crossley S. A., Greenfield J., Mcnamara D. S.. Assessing Text Readability Using Cognitively Based Indices[J]. Tesol Quarterly, 2008(3):475-493.
[9]Crossley S. A., Salsbury T., Mcnamara D. S., et al. Predicting Lexical Proficiency in Language Learner Texts Using Computational Indices[J]. Language Testing, 2011(4):1-20.
[10]陶麗, 王臘寶. 新一代大學(xué)英語教材的需求分析與反思[J]. 外語學(xué)刊, 2013(6):109-113.
[11]Crossley S. A., Greenfield J., Danielle S.. McNamara. Assessing Text Readability Using Cognitively Based Indices[J]. TESOL Quarterly, 2012(3):475-493.
[12]Greenfield J.. Readability Formulas For EFL[J]. Japan Association for Language Teaching, 2004.
[13]Klare G. R.. Assessing readability[J]. Reading Research Quarterly, 1975(1):62-102.
[14]翟象俊.全新版21世紀(jì)大學(xué)英語讀寫教程[M].上海:復(fù)旦大學(xué)出版社,2013.