安康,張勇博,黃澤
(杭州電子科技大學(xué),浙江 杭州 310018)
閱讀是人類獲取信息和知識(shí)的重要途徑。然而,超出或低于讀者水平的文本可能對(duì)基本文的提取造成阻礙。所以衡量文本的難度指數(shù)至關(guān)重要。
目前,對(duì)于文本難度的研究由于時(shí)代的需求,現(xiàn)在越來(lái)越火熱。最通用的公式是Flesch-Kincaid Grade Level,但是這個(gè)公式的表達(dá)過(guò)于簡(jiǎn)單,只有兩個(gè)變量,這導(dǎo)致公式的普適性以及穩(wěn)定性較差。同時(shí),也只能體現(xiàn)文本的客觀難度,沒(méi)有考慮到個(gè)人差異例如文化差異等帶來(lái)的主觀因素。
我們想優(yōu)化這個(gè)模型,從單詞,句子,文章三個(gè)維度設(shè)置了8個(gè)評(píng)估指標(biāo),增加變量個(gè)數(shù)來(lái)提高模型穩(wěn)定性,應(yīng)用多元線性回歸的方法,確定變量系數(shù)。并且我們?cè)谀P椭屑尤肓酥饔^因素,將個(gè)人差異帶來(lái)的文本難度差異能夠量化出來(lái)。
在評(píng)估英語(yǔ)文本的閱讀難度時(shí),我們參考了多種因素和資料,我們將這些因素劃分為3個(gè)緯度:詞匯難度,句子難度和文章難度。
在詞匯困難緯度選擇了2個(gè)指標(biāo),分別為常用詞指數(shù)和音節(jié)指數(shù),這兩個(gè)指標(biāo)可以衡量一篇文章在詞匯領(lǐng)域內(nèi)的閱讀復(fù)雜程度。
1.1.1 詞匯常用指數(shù)
通常情況下,日??谡Z(yǔ)的交流只需掌握2 000個(gè)常用詞匯就夠了。出現(xiàn)過(guò)多的生僻詞會(huì)增加詞匯難度,增加閱讀難度。因此,將詞匯困難緯度中詞匯常用指數(shù)定義為:
其中,表示的是一篇文章的常用詞指數(shù),W表示的是第個(gè)單詞在數(shù)據(jù)庫(kù)中出現(xiàn)次數(shù)與數(shù)據(jù)庫(kù)總詞數(shù)之比,表示文章的總詞數(shù)。
1.1.2 音節(jié)難度因素
往往一個(gè)單詞的音節(jié)數(shù)越多,該單詞越復(fù)雜,該英語(yǔ)文本的詞匯難度就越高,從而影響一篇英語(yǔ)文本的閱讀難度,因此,在詞匯困難領(lǐng)域中音節(jié)指數(shù)定義為:
其中,表示一篇文章的音節(jié)指數(shù),S表示的是第個(gè)單詞的音節(jié)數(shù)量,表示文章的總詞數(shù)。
在句子維度,句長(zhǎng)指數(shù),句子相似度指數(shù)和從句指數(shù)這3個(gè)因素,在很大程度上影響了一篇英語(yǔ)文本的閱讀難度。
1.2.1 平均句長(zhǎng)指數(shù)
一篇英語(yǔ)文本平均句長(zhǎng)越長(zhǎng),該英語(yǔ)文本的句子難度就越高,從而影響這篇英語(yǔ)文本的閱讀難度,因此,在句子困難緯度中平均句長(zhǎng)指數(shù)定義為:
其中,表示一篇文本的平均句長(zhǎng)指數(shù),表示該文本總單詞數(shù),表示該文本總句子數(shù)。
1.2.2 句子相似度指數(shù)
文章相似程度句子出現(xiàn)的越多,該英語(yǔ)文本的句子難度就越高,從而增加一篇英語(yǔ)文本的閱讀難度,因此,在句子困難領(lǐng)域中相似度指數(shù)定義為:
其中,表示一篇文章的相似度指數(shù),T表示的是第個(gè)句子中出現(xiàn)相似詞的詞數(shù),表示文章的總句子數(shù)。
1.2.3 從句指數(shù)
過(guò)多的長(zhǎng)短句產(chǎn)生的子句結(jié)構(gòu)和從句結(jié)構(gòu)也會(huì)增加句子的理解難度,從而影響一篇英語(yǔ)文本的閱讀難度,因此在句子困難領(lǐng)域中從句指數(shù)的數(shù)學(xué)表達(dá)形式為:
其中,表示一篇文章的從句指數(shù),表示子句數(shù)量,表示帶有連接詞的從句數(shù)量,表示總句子數(shù)。
在文章困難領(lǐng)域,文章總詞數(shù),信息熵指數(shù)和邏輯困難指數(shù)3個(gè)指標(biāo)。這些關(guān)鍵的指標(biāo)會(huì)對(duì)文本難度造成影響。
1.3.1 篇幅長(zhǎng)度指數(shù)
我們看到英語(yǔ)文本時(shí),第一反應(yīng)是這篇文章的篇幅,所以,過(guò)長(zhǎng)的文章篇幅會(huì)增加文章的難度。所以,我們可以簡(jiǎn)單地將文章困難領(lǐng)域中總詞數(shù)定義為。
1.3.2 信息熵指數(shù)
引入信息熵的概念,文本的信息熵越大,表明文本難度越大,從而影響一篇英語(yǔ)文本的閱讀難度。因此文章困難領(lǐng)域中信息熵指數(shù)定義為:
其中,表示信息熵指數(shù),即信息熵總量。
1.3.3 邏輯難度指數(shù)
一篇文章出現(xiàn)的從句代表詞和邏輯詞數(shù)量越多,該文章的邏輯結(jié)構(gòu)越復(fù)雜,會(huì)大大增加該文章的困難度。因此在文章困難領(lǐng)域中邏輯難度指數(shù)定義為:
其中,表示一篇文章的邏輯難度指數(shù),表示從句代表詞數(shù)量,表示邏輯詞數(shù)量,表示
我們得到了上述變量的數(shù)學(xué)形式后,用Python將文本中的數(shù)據(jù)提取出來(lái),進(jìn)行量化。圖1、圖2是代碼實(shí)現(xiàn)。
圖1 代碼第一部分
圖2 代碼第二部分
在定義了3個(gè)維度的指標(biāo)后,我們以這8個(gè)指標(biāo)為變量,建立了基于多元線性回歸的WSA模型。
WSA模型的分?jǐn)?shù)可以衡量一篇英語(yǔ)文本的閱讀難度,分?jǐn)?shù)越高,表示該文本越難讀懂。WSAscore的數(shù)學(xué)表達(dá)形式為:
其中,~表示各項(xiàng)指標(biāo)的權(quán)重參數(shù),為多元線性回歸的常數(shù)。
首先,假設(shè)新概念英語(yǔ)的文章難度是均勻遞增的,難度指數(shù)定為0~100。再去除新概念英語(yǔ)訓(xùn)練集中某些專門(mén)學(xué)習(xí)從句結(jié)構(gòu)、邏輯結(jié)構(gòu)的篇章。同時(shí)我們認(rèn)為高考英語(yǔ)試卷的難度就是標(biāo)準(zhǔn)文件的難度左右,設(shè)在70左右。
其中,diff表示因變量。由表1中可以很清楚地看到,每一個(gè)指標(biāo)和diff都有較強(qiáng)的相關(guān)性,所以可以進(jìn)行多元線性回歸。
表1 相關(guān)性分析結(jié)果
我們將訓(xùn)練集數(shù)據(jù)運(yùn)用多元線性回歸的方法,求得WSA模型得分的各項(xiàng)指數(shù)權(quán)重以及常數(shù),結(jié)果為:
在用SPSSPRO求得各項(xiàng)指標(biāo)的權(quán)重后,我們進(jìn)行了各項(xiàng)檢驗(yàn)分析,我們發(fā)現(xiàn)句子相似度指數(shù)的P值為0.742,遠(yuǎn)超出統(tǒng)計(jì)學(xué)的標(biāo)準(zhǔn),不符合顯著性,因此我們剔除句子相似度指數(shù)這一項(xiàng)指標(biāo)。
最后我們?cè)俅螌⒂?xùn)練集數(shù)據(jù)運(yùn)用多元線性回歸的方法,求得除去句子相似度指數(shù)的另外7項(xiàng)指數(shù)權(quán)重以及常數(shù),結(jié)果為:
擬合圖如圖3所示:
圖3 效果擬合圖
最后,檢驗(yàn)得到此處7項(xiàng)指標(biāo)的p值均<0.01,說(shuō)明自變量參數(shù)檢驗(yàn)完全合理,結(jié)果非常顯著。VIF值全部小于10,且除了平均句長(zhǎng)指數(shù)的VIF>5外,其余6項(xiàng)指標(biāo)的VIF均小于5,滿足嚴(yán)格意義上的VIF范圍。R調(diào)整后的數(shù)值為0.96,代表模型構(gòu)建非常優(yōu)秀。
我們選取2022年的湖州英語(yǔ)中考的4篇閱讀,英語(yǔ)高考全國(guó)卷甲卷的4篇閱讀和CET-6的4篇閱讀作為測(cè)試集,帶入之前的代碼后,得到表2所示的數(shù)據(jù)。
表2 測(cè)試集難度
我們可以看到,六級(jí)難度大于高考難度,高考難度大于中考難度,這與實(shí)際情況一致,所以我們認(rèn)為模型的實(shí)用性較好。
之前我們假設(shè)平均分布的方式得到難度值,下面假設(shè)正態(tài)分布的方式得到難度值,得到新的一個(gè)模型,最后將測(cè)試集帶入上述模型中,得到CET-6,中考和高考的誤差值2.39%,1.72%,2.21%。由此可見(jiàn),兩者的差值位于2%左右,誤差非常小。所以,對(duì)于難度方式分布敏感度很小,模型很穩(wěn)定。
然而,閱讀難度往往受到閱讀者個(gè)體的影響。不同國(guó)家的人對(duì)比測(cè)試,往往測(cè)試結(jié)果會(huì)出現(xiàn)很大的偏差,這是因?yàn)闇y(cè)試者個(gè)體因素導(dǎo)致的偏差。因此我們將WSA模型擴(kuò)展到個(gè)體因素領(lǐng)域,引入文化差異性的概念,提出新的WSAP模型。
我們將文化變異性定義為主觀閱讀困難(以O(shè)D表示)和客觀閱讀困難(以SD表示)。WSAPscoe是總難度系數(shù),它是主觀閱讀困難和客觀閱讀困難的總和。
WSAP=OD+SD
首先通過(guò)查找文獻(xiàn),參考一組時(shí)間跨度為2年的文化差異性教育的研究成果,該研究結(jié)果如表3所示。
表3 文化差異性教育結(jié)果
選取兩個(gè)班級(jí),一個(gè)作為參考班,不接受文化差異性教育。另一個(gè)為試驗(yàn)班,接收文化差異性教育,并且定期進(jìn)行閱讀能力的測(cè)試。通過(guò)對(duì)比發(fā)現(xiàn),試驗(yàn)班的閱讀分?jǐn)?shù)比參考班參考班增加了20%。
定義接收文化差異性教育前的閱讀得分為,文本翻譯能力為,之后的閱讀得分為,文本翻譯能力為。接收文化差異性教育之前總難度系數(shù)為WSAP1,接收之后的總難度系數(shù)為WSAP2。
1.2(OD+SD)=OD+SD
我們可以得到:1.2WSAP=WSAP
假設(shè)接收文化差異性教育后的主觀閱讀難度為0,即CD=0,接收前的主觀閱讀難度為1,即CD=100。
所以我們認(rèn)為主觀難度和客觀難度權(quán)重之比為1:5。即為1/6,為5/6。
我們引用Geert Hofstede的文化距離理論,用于體現(xiàn)文化差異性:
其中:為6個(gè)文化維度之一,6個(gè)維度分別為權(quán)利差距、個(gè)人主義或集體主義偏向、不確定性規(guī)避指數(shù)、男性偏向或女性偏向、長(zhǎng)期導(dǎo)向和放縱與約束。CD是東道國(guó)家與美國(guó)的文化距離值,I是關(guān)于國(guó)家維度的文化維度評(píng)分,AM代表美國(guó),V是i維度所有東道地文化距離的方差。最后對(duì)CD的值進(jìn)行標(biāo)準(zhǔn)化處理,并使其滿足正態(tài)分布于0~100。表4列出了幾個(gè)國(guó)家的CD值。我們對(duì)OD和SD進(jìn)行以下的定義:
表4 多個(gè)國(guó)家CD值
所以我們建立完整的總難度模型WASP:
我們用繼續(xù)使用WSA模型的測(cè)試集來(lái)檢驗(yàn)WASP模型,其對(duì)象為中國(guó)人,東道主國(guó)家是美國(guó),通過(guò)查找表4得到CD的值為87.24。帶入模型中得到CET-6、中高考難度分別為61.84、70.75、91.10。
最后,我們將20%的權(quán)重改變從5%到30%,發(fā)現(xiàn)其差值都低于3.8%,說(shuō)明模型穩(wěn)定。
我們應(yīng)用多元線性回歸模型,得到了英文文本難度估計(jì)模型WSA。并進(jìn)行推廣,得到了WSAP模型。我們認(rèn)為兩種模型可應(yīng)用不同的情況,將WSA應(yīng)用于只需要關(guān)注文本自身難度的情況下,將WSAP應(yīng)用于需要考慮個(gè)人因素對(duì)于文本難度的影響時(shí)。
最后,我們認(rèn)為該方法的創(chuàng)建可以應(yīng)用到其他語(yǔ)言,比如中文等其他語(yǔ)種。為所有文本的難度估計(jì)提供了一種可行的方法。