秦夢(mèng)娟
(南京傳媒學(xué)院,江蘇 南京 211100)
定量研究方法在我國(guó)外語(yǔ)教學(xué)與研究領(lǐng)域的應(yīng)用十分廣泛,受到國(guó)內(nèi)外應(yīng)用語(yǔ)言學(xué)界的普遍關(guān)注和重視。 所謂定量研究是指搜集用數(shù)量表示的資料或信息對(duì)數(shù)據(jù)進(jìn)行量化處理、檢驗(yàn)和分析,從而獲得有意義的結(jié)論的研究過(guò)程,這是一種確定事物某方面量的規(guī)定性的科學(xué)研究。 在外語(yǔ)教學(xué)定量研究中應(yīng)引入穩(wěn)健性設(shè)計(jì)方法和利用統(tǒng)計(jì)方法[1]。 在文本的語(yǔ)言特征分析中可以加入定量研究手段,借助統(tǒng)計(jì)分析軟件,如Coh-Metrix[2]、SPSS、R 軟件等,以加快分析速度。
奧克蘭大學(xué)統(tǒng)計(jì)學(xué)系的羅斯?伊哈卡(Ross Ihaka)和羅伯特?杰特曼(Robert Gentleman)受貝爾實(shí)驗(yàn)室S 語(yǔ)言的啟發(fā),于1991 年開(kāi)發(fā)了R 語(yǔ)言。經(jīng)過(guò)三十多年的發(fā)展,R 語(yǔ)言現(xiàn)已發(fā)展成為一個(gè)集統(tǒng)計(jì)計(jì)算、制圖和自然語(yǔ)言處理等為一體的編程語(yǔ)言。 它既能運(yùn)行現(xiàn)有的R 程序,又能對(duì)現(xiàn)有程序進(jìn)行改進(jìn),以滿足研究者的特殊需要。 R 軟件有強(qiáng)大的社團(tuán)提供技術(shù)支持和疑難解答,成員包括統(tǒng)計(jì)學(xué)家、程序員和用戶等。 文章采用R 4.2.1 對(duì)兩篇演講文本進(jìn)行語(yǔ)言特征分析,包括詞匯特點(diǎn)、主題詞和N 元組。 這兩篇演講文本均來(lái)自R 軟件下數(shù)據(jù)包quanteda 中的語(yǔ)料庫(kù)data_corpus_inaugural,記為文本1 和文本2。
利用R 軟件對(duì)兩篇文本進(jìn)行描述性統(tǒng)計(jì),得到統(tǒng)計(jì)結(jié)果如下:文本1 使用形符1467 個(gè),類符539個(gè),句子數(shù)為105 個(gè),平均句長(zhǎng)為13.97,平均詞長(zhǎng)為4.55;文本2 使用形符2389 個(gè),類符739 個(gè),句子數(shù)為225 個(gè),平均句長(zhǎng)為10.62,平均詞長(zhǎng)為4.23。 可以發(fā)現(xiàn)兩篇文本篇幅差異很大,文本2 篇幅遠(yuǎn)遠(yuǎn)超過(guò)文本1 的篇幅,但文本2 的平均句長(zhǎng)和平均詞長(zhǎng)略低于文本1。
詞匯密度(lexical density)是通過(guò)一篇文本中的實(shí)詞數(shù)與文本中出現(xiàn)的總詞數(shù)的比率來(lái)計(jì)算[3]。通過(guò)R 軟件對(duì)兩篇文本的詞匯密度進(jìn)行計(jì)算,得出結(jié)果如下(保留兩位小數(shù)):文本1 的詞匯密度為0.50,文本2 的詞匯密度為0.47。 兩者差異不大,文本1 所用實(shí)詞比例更高。
詞匯復(fù)雜性(lexical sophistication)也是評(píng)估詞匯豐富性的四個(gè)指標(biāo)之一,是指在文本中能夠適當(dāng)使用與主題、文體相關(guān)的低頻詞,而不只是使用常用的高頻詞。 本研究所用低頻詞為Paul Nation 開(kāi)發(fā)的2000 常用詞表,文本中的低頻詞即剔除常用詞后的詞,低頻詞與總詞數(shù)之比即文本的詞匯復(fù)雜性。 通過(guò)R 軟件進(jìn)行計(jì)算,得到結(jié)果如下(保留兩位小數(shù)):文本1 的詞匯復(fù)雜性為20.71,文本2 的詞匯復(fù)雜性為24.56。 兩者差異不大,文本2 所用詞匯較為復(fù)雜,低頻詞使用較多。
詞匯多樣性(lexical diversity)可以評(píng)估發(fā)言者的詞匯知識(shí)及他們語(yǔ)言輸出中的詞匯變化特點(diǎn)。類符形符比(type-token ratio,TTR)是傳統(tǒng)上測(cè)量詞匯多樣性所使用的最普遍的方法,即用一篇文本中使用的不同詞項(xiàng)(類符)的總數(shù)除以文本中所有詞項(xiàng)(形符)的總數(shù)。 然而,這種方法已被證明受文本大小的影響。 文本越長(zhǎng),TTR 的值就越低[4]。 本研究中采用移動(dòng)平均類符-形符比(moving-average type-token ratio,MATTR),即按照固定的窗口(即詞符數(shù))從文本開(kāi)頭計(jì)算TTR,然后在文本中依次移動(dòng)窗口計(jì)算TTR,直至在包括文本最后1 個(gè)詞符的窗口中計(jì)算TTR,最后計(jì)算這些窗口TTR 的平均值[5]。 移動(dòng)平均類符-形符比不會(huì)因?yàn)槲谋鹃L(zhǎng)度不足舍棄文本末尾的詞符。 通過(guò)R 軟件計(jì)算兩文本的MATTR 發(fā)現(xiàn),文本1 的MATTR 為0.68,文本2的MATTR 為0.67,幾乎沒(méi)有差異。
文章對(duì)兩個(gè)演說(shuō)的詞匯特點(diǎn)進(jìn)行了分析,可以發(fā)現(xiàn)兩篇文本的詞匯密度、詞匯多樣性以及詞匯復(fù)雜性的差異不大,為了進(jìn)一步探究?jī)善菡f(shuō)文本的難易度差異,利用R 軟件對(duì)它們的文本可讀性進(jìn)行分析,得到以下結(jié)果:文本1 的可讀性適用于美國(guó)七年級(jí)學(xué)生(大約12 歲),而文本2 的可讀性適用于美國(guó)五年級(jí)學(xué)生(大約10 歲),兩篇文本的可讀性都比較高,容易被聽(tīng)眾所理解,體現(xiàn)了演講文本的可講性。
為了更好地對(duì)比兩篇文本的語(yǔ)言特征差異,文章對(duì)兩篇文本的高頻詞和關(guān)鍵詞進(jìn)行分析。
圖1 為兩篇文本中頻數(shù)為20 及以上的詞頻分布條形圖(左:文本1;右:文本2)。
圖1 頻數(shù)為20 及以上的詞頻分布條形圖
由圖1 可以得出,文本1 中頻數(shù)為20 及以上的高頻詞有8 個(gè),頻數(shù)最高的前三個(gè)詞為and(出現(xiàn)77次)、the(出現(xiàn)71 次)、of(出現(xiàn)48 次)。 文本2 中頻數(shù)為20 及以上的高頻詞有13 個(gè),頻數(shù)最高的三個(gè)詞為the(出現(xiàn)95 次)、and(出現(xiàn)76 次)和of(出現(xiàn)71次)。 兩文本排列前三的高頻詞相同,均為虛詞,同上文詞匯密度的結(jié)果對(duì)應(yīng),可以發(fā)現(xiàn)兩篇文本的虛詞使用較多。 同時(shí),兩篇文本的高頻詞中均出現(xiàn)了we、our 兩個(gè)第一人稱代詞和will 情態(tài)動(dòng)詞。 兩位演說(shuō)者通過(guò)三個(gè)詞的使用,以此來(lái)表達(dá)自己強(qiáng)烈的意愿,使聽(tīng)眾信服他們的觀點(diǎn),體現(xiàn)了演說(shuō)文本的鼓動(dòng)性。
圖2 為兩文本去除停用詞后的、頻數(shù)為前100的詞云圖(左:文本1;右:文本2)。
從圖2 可以看出,詞云圖以字體大小顯示詞頻高低,詞頻越高,字體就越大。 文本1 中最醒目的詞是“american”(在形符化時(shí)所有的文本詞語(yǔ)均改為小寫字母),“american”一詞在文中出現(xiàn)11 次。其他頻數(shù)較高的單詞是“people”(出現(xiàn)10 次)、“country” (出現(xiàn)9 次)、“nation” (出現(xiàn)6 次)、“world”(出現(xiàn)6 次)、“dreams”(出現(xiàn)5 次)。 文本2中最醒目的詞是“american”,“american”一詞在文中出現(xiàn)9 次。 其他頻數(shù)較高的單詞是“story”(出現(xiàn)8 次)、“americans”(出現(xiàn)7 次)、“nation”(出現(xiàn)7次)、“days” (出現(xiàn)6 次)、“war” (出現(xiàn)6 次)、“unity”(出現(xiàn)5 次)、“power”(出現(xiàn)5 次)。 可以發(fā)現(xiàn)兩篇文本的高頻詞有相似點(diǎn),也有差異。
關(guān)鍵詞(Key words)指某些詞在一個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻次明顯高于在另一個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻次,能夠體現(xiàn)文本的主題。 圖3 為兩篇文本的關(guān)鍵詞對(duì)照。
圖3 顯示,文 本1 中“back” “protected” 和“dreams”是最突出使用的3 個(gè)詞。 而文本2 中的“us”“can”和“democracy”是最突出使用的3 個(gè)詞。基于上文的研究結(jié)果,兩篇文本均使用了較多的第一人稱代詞(we/our)和情態(tài)動(dòng)詞(will),文本2 增加了單詞“us”和“can”的使用。 兩篇文本使用不同的關(guān)鍵詞體現(xiàn)兩位演說(shuō)者觀點(diǎn)的差異。
N 元組是文本中連續(xù)出現(xiàn)的長(zhǎng)度為n 的形符串,其中n 是不小于1 的整數(shù)。 長(zhǎng)度n 為1 的元組稱作單元組(unigrams),長(zhǎng)度n 為2 的元組稱作二元組(bigrams),長(zhǎng)度n 為3 的元組稱作三元組(trigrams),以此類推。 圖4 為兩篇文本中頻次為5 及以上的二元組(左:文本1;右:文本2)。
圖4 高頻二元組
圖4 顯示,文本1 中二元組“we will”出現(xiàn)了24次。 文本1 大量使用第一人稱代詞“we”和情態(tài)動(dòng)詞“will”與對(duì)上文的研究結(jié)果一致。 而文本2 中除了上文強(qiáng)調(diào)的“we can”句式,二元組“we must”也出現(xiàn)了7 次,體現(xiàn)了兩位演說(shuō)者在演說(shuō)中情態(tài)動(dòng)詞的選擇差異。 總結(jié)上文,可以發(fā)現(xiàn)兩篇文本中均大量使用了“we will”句式,文本2 中增加使用了“we can”和“we must”句式,體現(xiàn)了演講稿的鼓動(dòng)性。
文章運(yùn)用自然語(yǔ)言分析軟件R 4.2.1 進(jìn)行文本分析,通過(guò)分析兩個(gè)演講文本的詞匯特點(diǎn)、主題詞和N 元組,從而對(duì)兩個(gè)演講文本的語(yǔ)言特征進(jìn)行分析。 研究發(fā)現(xiàn)兩個(gè)演講文本的語(yǔ)言特征共同點(diǎn)和差異共存。 首先,文本1 的實(shí)詞比例更高、更容易為聽(tīng)眾所理解,因?yàn)槲谋? 的詞匯密度和文本可讀性略高于文本2;而文本2 中低頻詞比例更高,說(shuō)明文本2 的詞匯復(fù)雜性略高于文本1;兩篇文本的詞匯多樣性幾乎一致。 其次,兩篇文本均使用了較多的虛詞,包括the、and、or,也運(yùn)用了較多的第一人稱代詞和情態(tài)動(dòng)詞,包括we、our、will。 上述單詞的使用,使得兩個(gè)文本較容易理解,能使聽(tīng)眾產(chǎn)生認(rèn)同感。 但兩個(gè)演講文本在關(guān)鍵詞、N 元組以及在人稱代詞和情態(tài)動(dòng)詞的選擇上存在差異。 文本2 運(yùn)用了較多的第一人稱代詞“us”、情態(tài)動(dòng)詞“can”和“must”。 上述結(jié)果體現(xiàn)了演講文本具有的鼓動(dòng)性,也體現(xiàn)了R 軟件在文本分析領(lǐng)域的可行性。