遲曉旭
摘 要: 近年來,SPSS統(tǒng)計軟件逐步應用于語言學及應用語言學各個領域,并取得了豐碩的研究成果,但在理論語言學方向卻較少涉及。本文收集了“動物類”表人詞語共416例,利用SPSS對其進行統(tǒng)計分析,對該軟件在理論語言學方向的應用進行了初步的探索。
關鍵詞: SPSS 理論語言學 軟件應用 實證研究
一、概述
SPSS(Statistical Package for the Social Science)全名為社會科學統(tǒng)計軟件包,是一種利用計算機進行統(tǒng)計分析和數(shù)據(jù)處理的工具性軟件。憑借其成熟的統(tǒng)計理論、強大的統(tǒng)計功能以及友好的操作界面,一經(jīng)問世,就受到科研工作者們的青睞,迅速應用于科研、醫(yī)療、通訊等多個領域。
20世紀以來,語言學的發(fā)展呈現(xiàn)出百花齊放百家爭鳴的態(tài)勢,理論的極大豐富凸顯了實證研究的緊迫性,這種以數(shù)據(jù)為基礎的定量研究方法逐漸成為一股潮流,逐步應用于語言學及應用語言學研究的各個領域。這為語言學的研究開拓了一條新路,國內(nèi)研究人員也利用該軟件在語言研究的各個方面進行了嘗試。
章柏成(2008)利用SPSS對學生的成績、智商、策略運用等方面進行了相關性考察。倪傳斌(2009)利用獨立樣本T檢驗考察了不同性別的外語磨蝕程度。王佳琳、侯煜冠(2012)對哈爾濱方言合口呼零聲母各音節(jié)的v型發(fā)音進行了卡方檢驗,以探尋音節(jié)結構間的差異性。謝展飛、吳佩娜(2015)應用雙因素方差分析探討了人工耳蝸的植入對受試者聽力的影響。項夢冰(2015)利用聚類分析對方言間的相似度進行了考察。
根據(jù)前人的研究成果,可以發(fā)現(xiàn):SPSS軟件工具已經(jīng)開始同語言學各方向進行結合,但主要應用于方言學、心理語言學、社會語言學、第一語言與第二語言習得等方向。而在理論語言學方向上,這種真正意義的定量分析卻運用得很少,少數(shù)一些應用,也多是利用標準化測試的方法。本文收集了一些真實語料,利用SPSS軟件及其統(tǒng)計原理,對該語料進行統(tǒng)計分析,對理論語言學方向的應用做初步探索。
二、理論語言學應用初探
在新興的網(wǎng)絡新詞語中,有一類包含動物語素用以表人的名詞或動詞,如:大蝦、菜鳥等?,F(xiàn)從《漢語新詞語詞典》(2005-2010)、《新華新詞語詞典》(2003)、《新詞語大詞典》(1978-2002)、《漢語新詞語》系列書籍(2007-2013)等四部詞典中抽取該類新詞語,除去存疑和重復,共計159例,通過人工標注,對其語義褒貶傾向進行初步判斷。另有從《現(xiàn)代漢語詞典(第六版)》中收集的同類新詞語227例,通過相同的方式對語料進行處理,作為其對比語料。將全部416個詞語導入SPSS軟件中,并對其意象、褒貶傾向、來源三個部分進行賦值,具體賦值結果如下:
第一、意象。這里的意象指狹義的意象,即詞語中表示人的動物形象。如“菜鳥”的意象就是“鳥”。由于“動物類”表人詞語意象頗多,足有84個,而大部分的意象僅出現(xiàn)一次。因此,本文僅對出現(xiàn)頻次超過10的意象進行賦值,其余意象統(tǒng)一歸為一類。賦值結果為:“老虎=1”;“蟲=2”;“狗=3”;“馬=4”;“牛=5”;“鳥=6”;“貓=7”;“老鼠=8”;“螞蟻=9”;“其他=0”。度量標準設置為“名義(N)”。
第二、褒貶。詞語的意義通??煞譃楦拍盍x和色彩義。需要說明的是,褒義、貶義作為感情色彩義本不應當進行賦值及運算操作,然而因為感情色彩具有一定的對稱性及偏向性,所以在此將其量化為可運算數(shù)據(jù)。賦值結果為:“褒=1”;“中=0”;“貶=-1”。度量標準設置為“度量(S)”。
第三、來源。詞語的來源有二,其一為新詞語,主要是從四部新詞語詞典中收集而來;其二為《現(xiàn)代漢語詞典(第六版)》中的詞語?,F(xiàn)對其進行賦值:“現(xiàn)代漢語=1”;“新詞語=2”。度量標準設置為“名義(N)”。
在進行初步的語料處理后,本文將基于SPSS軟件,對這些語料進行統(tǒng)計分析,進而探索SPSS在理論語言學方向的應用。
(一)描述統(tǒng)計
描述統(tǒng)計是統(tǒng)計分析的第一步。利用抽樣或其他手段采集到數(shù)據(jù)后,僅憑肉眼觀察有時無法發(fā)現(xiàn)觀察對象的基本特征,而語言研究中,這種數(shù)據(jù)的無序性尤為明顯,因此,在進行數(shù)據(jù)分析之前,可利用描述統(tǒng)計的頻率表觀察現(xiàn)有數(shù)據(jù)的分布狀況。
以動物類表人詞語為例。本文對現(xiàn)有416個詞語進行頻率統(tǒng)計,得到結果如下:
意象
褒貶
來源
根據(jù)以上圖表,可以明顯看出,虎、蟲、狗等意象使用頻率較高,詞語的褒貶義也趨近于貶義,褒義較少。另外,也可以繪制餅圖更為直觀地觀察其分布比例。
(二)參數(shù)假設檢驗
參數(shù)假設檢驗是應用的較為廣泛的一種科學的統(tǒng)計方法,其原理為:事先對總體的參數(shù)或分布進行假設,再通過樣本信息判斷該假設是否合理。在目前語言學各方向的研究中,應用得較多的參數(shù)假設檢驗是T檢驗和卡方檢驗。利用該原理,我們可以通過樣本信息對某種語言現(xiàn)象進行假設并驗證,進而得出結論。
1.T檢驗
T檢驗是對均值差異性的檢驗,其最大的優(yōu)點在于可以使用樣本標準差代替總體標準差,從而解決了實際問題中總體標準差多數(shù)不可知的問題。SPSS中的T檢驗主要有三類,其中,單樣本T檢驗和配對樣本T檢驗由于其檢驗要求較高,并不適用于理論語言學方向,因此,本文只討論獨立樣本T檢驗在理論語言學方向的應用。
獨立樣本T檢驗旨在比較兩樣本均數(shù)的差別?,F(xiàn)將動物類表人新詞語159例作為樣本一;《現(xiàn)漢》收錄的同類詞語227例作為樣本二。由于獨立樣本T檢驗要求兩樣本具有完全的獨立性,而兩樣本有所交叉,因此本文對實驗數(shù)據(jù)進行修正,將《現(xiàn)代漢語詞典(第六版)》中的語料進行刪減處理,只保留1919年前的熟語部分。修正后的樣本二收錄詞語共128例。
利用現(xiàn)有的兩樣本,對動物類表人詞語的褒貶義做對比考察。其中檢驗變量為詞義的褒貶,分組變量為詞語的來源,組別分為兩組,一組是新詞語,一組為現(xiàn)代漢語。通過獨立樣本T檢驗,得到結果如下:
獨立樣本檢驗
檢驗結果:新詞語褒貶均值為-0.26,熟語部分褒貶均值為-0.43。二者方差不齊,因此P=0.035<0.05,實驗結果較為顯著,說明二者確實存在一定的歷時差異。即:動物類表人新詞語的語義偏向從偏貶義而逐漸趨于中性。
雖然修正后的樣本獨立性得到相對保證,但是仍存在一些問題:其一,刪減后的詞語主要保留1919年之前的熟語,無法概括當時詞語的全貌;其二,影響褒貶偏向的重要因素不止有時間上的差異,更重要的是意象的差別。因此將所有意象共同考察顯然并不合適。對于第二個問題,將在稍后的方差分析部分進行完善。
通過以上研究可以發(fā)現(xiàn),獨立樣本T檢驗在語言學上的實用性相對較高,尤其對于關鍵因素不同的兩樣本來說,獨立樣本T檢驗是十分適用的檢驗方式。
2.卡方檢驗
卡方檢驗是對無序分類變量的統(tǒng)計推斷,其優(yōu)點在于,可以對兩個或多個分類變量進行關聯(lián)度分析,其應用的廣泛程度可以和T檢驗相媲美。卡方檢驗共有五種功能,但是,除了兩樣本卡方檢驗外,其他檢驗方式,對樣本的要求較高,多數(shù)情況并不適用于理論語言學的研究。因此,本文只討論兩樣本卡方檢驗的具體應用。
兩樣本卡方檢驗是單樣本卡方檢驗的擴展,用于比較兩個或多個樣本所在總體的另一個分類變量的發(fā)生率/構成比是否相同?,F(xiàn)有修正后的動物類表人詞語,共計287例,其來源包括1978年以來的新詞語以及1919年前的熟語。現(xiàn)希望考察不同時間來源的詞語,其褒貶偏向的分布率是否相同。經(jīng)過兩樣本卡方檢驗后,得到關于來源情況與褒貶取向的交叉制表如下:
來源*褒貶交叉制表
樣本數(shù)據(jù)的差異很明顯,源自現(xiàn)代漢語熟語部分的詞語貶義取向約占58%,而新詞語中的褒貶取向則偏向于中性,約占61%。而后,對該差異是否有統(tǒng)計學意義進行進一步的驗證,得到卡方檢驗結果表如下:
卡方檢驗
a.0單元格(0.0%)的期望計數(shù)少于5。最小期望計數(shù)為12.88。
通過以上檢驗,幾種卡方量P值均小于0.05,因此該差異具有統(tǒng)計學意義,即:詞語的褒貶向分布確實存在歷時差異,同先前獨立樣本T檢驗的結果存在一致性,當然,在差異的顯著性上,兩檢驗結果存在差別。通過該例,我們可以明顯看出,雙樣本卡方檢驗在語言學研究中也具有一定的實用性。
(三)方差分析
T檢驗可以解決單樣本、兩樣本的均數(shù)比較問題,而方差分析則是用于解決多個樣本的均數(shù)比較問題。面對真實世界的復雜情況,方差分析顯然有其獨到的作用。SPSS中的方差分析共有三類。其中,多元方差分析的前提是假定幾個因變量同等重要,在面對復雜的語言現(xiàn)象時,這種方法顯然不可取。因此,本文僅討論單因素方差分析、多因素方差分析在理論語言學方向的應用。
1.單因素方差分析
現(xiàn)有未修正的動物類表人詞語,共計416例,其中,常見意象共有9種,其感情色彩義分別為褒、貶、中三類?,F(xiàn)希望考察意象對于詞語的感情色彩義的影響。通過單因素方差分析,得到結果如下:
單因素方差分析
褒貶
經(jīng)過檢驗,P=0.000<0.05,這說明意象對于感情色彩義的影響極為顯著。
雖然在方差分析前的Levene方差齊性檢驗中,結果顯示P=0.000<0.05,方差不齊,且輸出的Welch統(tǒng)計量顯示,該統(tǒng)計量接近于F分布。但是,根據(jù)前人的研究,方差分析對于正態(tài)性和方差齊性的要求是穩(wěn)健的,即:當正態(tài)性得不到滿足或存在輕微的方差不齊時,只會對結果造成輕微的影響。因此,雖然該例并不典型,但結果依然具有可參考性。
另外,單因素方差分析,還可以進行均數(shù)間的兩兩比較,以確定究竟是哪些組之間存在差異。但本次的實驗語料對于這種方法并不適用,在此不過多贅述。
2.多因素方差分析
多因素方差分析模型多用于考察多個因素對因變量的影響,在面對復雜多變的現(xiàn)實情況時,該模型具有獨到之處。
現(xiàn)有修正后的動物類表人詞語詞表,共計287例?,F(xiàn)希望考察詞語意象及來源時間兩者對詞語褒貶偏向的影響。通過初步擬合模型,得到結果如下:
主體間效應的檢驗
因變量:褒貶
a.R方=.257(調整R方=.204)
經(jīng)檢驗,校正模型P=0.000<0.05,說明在所有影響因素中,至少有一種對詞語的褒貶偏向造成影響。而其后的數(shù)據(jù)顯示,詞語的來源時間對詞語的褒貶并沒有顯著影響,而意象對于詞語的褒貶偏向有顯著影響,并且,二者的交互作用對詞義的褒貶傾向也有顯著影響。
為了進一步考察影響因素對詞匯褒貶語義傾向的影響,本文在原有基礎上,對主體間效應進行兩兩比較,得到結果如下:
褒貶
Student-Newman-Keulsa,b,c
已顯示同類子集中的組均值?莓
基于觀測到的均值?莓
誤差項為均值方(錯誤)=.341
a.使用調和均值樣本大小=15.078
b.組大小不相等?莓將使用組大小的調
和均值?莓不保證Ⅰ型誤差級別?莓
c.Alpha=.05?莓
根據(jù)該圖表可以發(fā)現(xiàn),兩種來源的動物類表人詞語,意象之間均存在差異性,這說明,意象對于詞匯褒貶語義傾向確實存在顯著影響。另外,來源時間的兩個子集之間差異并不十分顯著,這說明,來源時間對于詞語的褒貶意象不存在顯著影響,但是由于個別意象的影響,使得其來源時間與意象存在交互作用,這才對詞語的褒貶義產(chǎn)生了一定的影響。這也解釋了為什么在考察來源時間對詞匯褒貶語義偏向的影響時,方差分析同獨立樣本T檢驗、卡方檢驗的結果存在差異。
三、小結
在理論語言學方向,SPSS最主要的應用是:描述統(tǒng)計、獨立樣本T檢驗、兩樣本卡方檢驗、單因素方差分析及多因素方差分析。其他分析工具雖然存在一定的應用價值,但其因為檢驗條件、檢驗數(shù)據(jù)的限制,或是研究目的的要求,無法很好地應用到語言研究中。
通過以上分析可以發(fā)現(xiàn),這種將統(tǒng)計運用到語言研究的方法,具有明顯的優(yōu)勢:其一,語言統(tǒng)計方法可以將本不可量化的語言現(xiàn)象量化,并通過科學的方法進行檢驗,為理論研究提供較好的數(shù)據(jù)支持;其二,該方法能夠觀察到一些簡單思辨觀察不到的現(xiàn)象,在樣本量不大的時候,也可以通過科學的方法進行實驗并驗證。
但這種基于統(tǒng)計學原理的方法在進行理論語言學分析時,也存在明顯的問題:其一,幾種統(tǒng)計方法的先決條件均為正態(tài)性和連續(xù)變量,而很多數(shù)據(jù)并不符合這兩項先決條件,樣本量不夠大時,檢驗結果或有偏頗;其二,理論語言學的實證研究多采用語料庫的方法,數(shù)據(jù)資料較少,在應用統(tǒng)計的過程中,如何合理地量化數(shù)據(jù),是一個應用難點;其三,在進行語料的收集與處理中,數(shù)據(jù)主觀性強且沒有合理的驗證方式也是一個重要的問題。
因此,在實際運用過程中,我們既應該合理利用工具,用科學的方法對語料進行量化,以增強研究的科學性,又要考慮到數(shù)據(jù)的可用性,工具使用的合理性,切忌誤用、濫用統(tǒng)計工具,以求最大限度地科學化使用統(tǒng)計工具,保證研究的科學性。
參考文獻:
[1]楊端和.語言研究應用SPSS軟件實例大全[M].中國社會科學出版社:2004.
[2]張文彤,鄺春偉.SPSS統(tǒng)計分析基礎教程[M].高等教育出版社:2011.
[3]張文彤,鄺春偉.SPSS統(tǒng)計分析高級教程[M].高等教育出版社:2013.
[4]嚴振松.談語言學和應用語言學中的定量型研究方法[J].解放軍外國語學院學報,2001,24(5):4-6.
[5]倪傳斌.外語磨蝕的性別差異[J].外語與外語教學,2009,(4):1-5.
[6]章柏成.SPSS在外語教育實證研究中的應用[J].重慶交通大學學報(社科版),2008,8(1):128-131.
[7]黃利花.SPSS統(tǒng)計方法及其適用性分析[J].延安職業(yè)技術學院學報,2014,28(4):83-91.
[8]謝展飛,吳佩娜.雙模式對人工耳蝸低頻段電極不全植入者的言語識別影響[J].臨床耳鼻咽喉頭外頸外科雜志,2015,29(11):980-983.
[9]王佳琳、侯煜冠.哈爾濱話合口呼零聲母[υ]化的社會語言學研究[J].學術交流,2012(10):157-162.
[10]項夢冰.聚類分析在漢語方言研究中的運用[J].語文研究,2015(4):7-14.