花園幽徑模式行進(jìn)錯(cuò)位的量化研究:計(jì)算語言學(xué)視角

2015-04-21 10:39:35杜家利于屏方

中文信息學(xué)報(bào) 2015年5期

杜家利, 于屏方

(1．廣東外語外貿(mào)大學(xué) 詞典中心，廣東廣州 510420;2. 南京大學(xué) 外國語學(xué)院，江蘇南京 210093;3. 廣東外語外貿(mào)大學(xué) 中國語言文化學(xué)院，廣東廣州 510420)

杜家利1，2, 于屏方3

該文討論了花園幽徑模式行進(jìn)錯(cuò)位過程中的困惑商指數(shù)。非對稱性信息斷層的存在導(dǎo)致解碼呈現(xiàn)否定之否定的螺旋上升態(tài)勢。行進(jìn)錯(cuò)位的潛在效應(yīng)幅度可通過困惑商指數(shù)得到測定?；诖髷?shù)據(jù)語料庫統(tǒng)計(jì)方法和在線剖析器分析方法，我們測算出優(yōu)選結(jié)構(gòu)困惑商指數(shù)介于(-∞，1]；非優(yōu)選結(jié)構(gòu)困惑商指數(shù)介于[1,2]；兩結(jié)構(gòu)臨界值分別為0.72和1.28；歧義域?yàn)閇0.72,1.28]。結(jié)論認(rèn)為，多結(jié)構(gòu)頻數(shù)差異是導(dǎo)致困惑商指數(shù)變化的根本；行進(jìn)錯(cuò)位的幅度和非對稱性信息補(bǔ)償?shù)膹?qiáng)度均與困惑商指數(shù)相關(guān)；基于統(tǒng)計(jì)的困惑商指數(shù)可對局部歧義的復(fù)雜句結(jié)構(gòu)提供前瞻性解碼信息。

計(jì)算語言學(xué)；花園幽徑模式；行進(jìn)錯(cuò)位；局部歧義；困惑商

1 引言

花園幽徑(Garden Path: GP)模式是一種局部歧義的回溯性頓悟模式，其解碼呈現(xiàn)“先期偽平衡——中期再平衡——后期優(yōu)化平衡” 的螺旋上升態(tài)勢。這種折返性錯(cuò)位效應(yīng)恰似花園中走入了一條貌通而實(shí)不暢的幽徑。行進(jìn)錯(cuò)位(Processing Breakdown)[1]在誘發(fā)回溯的同時(shí)，其非對稱性信息形成了斷層并最終為認(rèn)知的頓悟跨越提供了可能。語義觸發(fā)點(diǎn)出現(xiàn)后，先期原型模式被顛覆，非原型的備選模式適時(shí)啟動，最終結(jié)構(gòu)得以重組并實(shí)現(xiàn)否定之否定的解讀。

例如，在“The man lent the book never returned it.[2]”中，[[The man]NP [lent the book]VP]S是原型結(jié)構(gòu)，系統(tǒng)首先采納Vpast tense→{lent}進(jìn)行解碼，并實(shí)現(xiàn)[NP+VP]S的平衡結(jié)構(gòu)。但隨著觸發(fā)點(diǎn)returned的出現(xiàn)，原來的平衡結(jié)構(gòu)被打破，系統(tǒng)被迫再平衡，備選模式Vpast participle→{lent}得以啟動。最后，優(yōu)化后的平衡結(jié)構(gòu)變成了[[The man]NP+[lent the book]CP+[never returned it]VP]S。系統(tǒng)在經(jīng)歷了行進(jìn)錯(cuò)位后折返回溯并實(shí)現(xiàn)了跨越式解碼。

作為局部歧義的花園幽徑模式，其特有的行進(jìn)錯(cuò)位效應(yīng)和信息斷層現(xiàn)象激發(fā)了諸多學(xué)者的研究熱情。如基于眼動的記憶模型研究[3]，言語停頓所致的局部歧義研究[4]；結(jié)構(gòu)啟動研究[5-9]，認(rèn)知系統(tǒng)的頓悟性和控制性研究[10-16]，統(tǒng)計(jì)和算法研究[17-19]，語義特征研究[20-22]，詞匯期待研究[23-25]等各種多維度研究。本文將從花園幽徑模式行進(jìn)錯(cuò)位過程中產(chǎn)生的困惑度為中心進(jìn)行量化討論，利用計(jì)算語言學(xué)方法分析行進(jìn)錯(cuò)位的“肯定——否定——二次否定”的解碼特征。

2 花園幽徑模式的行進(jìn)錯(cuò)位研究

花園幽徑模式解讀主要分為三個(gè)主要階段: 前期順暢的信息偽對稱階段、中期困惑的信息斷層階段、后期跨越的信息再對稱階段[26]。

2.1 花園幽徑模式的解碼特征

花園幽徑模式出現(xiàn)前期，信息具有表象的趨對稱性。這個(gè)發(fā)生在注視初期的加工反映了大腦對花園幽徑理解的初始模式。隨著相關(guān)附加信息的涌入，信息表象的趨對稱感逐漸被現(xiàn)實(shí)的斷層感所取代，直到解碼無法依靠前行信息繼續(xù)進(jìn)行加工。認(rèn)知系統(tǒng)要求對初始模式回視、補(bǔ)充新的信息，然后對獲取的總信息重新加工，再分析效應(yīng)出現(xiàn)。信息得到補(bǔ)償彌合后，先前信息偽對稱的失衡狀態(tài)被真平衡所取代，語言加工重新回到正常軌道并完成解碼。

花園幽徑模式的設(shè)置者，不論其目的是研究還是尋求語言效果，與被試相比都擁有更多的解碼信息。被試誤入花園幽徑之時(shí)，就是期待信息快速補(bǔ)償之時(shí)。當(dāng)解歧點(diǎn)出現(xiàn)，缺損信息得到補(bǔ)償，斷層感得到彌合，信息變得重新對稱，語言加工變得順暢。

據(jù)此分析，我們認(rèn)為花園幽徑模式的解讀就是當(dāng)信息出現(xiàn)斷層無法繼續(xù)構(gòu)建成功模式時(shí)對非對稱性信息的快速補(bǔ)償。由此，我們提出花園幽徑模式非對稱性信息補(bǔ)償假說[27]。

該假說包括三個(gè)主要部分: 花園幽徑模式解讀中的信息是非對稱性的，存在信息斷層的可能；花園幽徑模式解碼路徑呈現(xiàn)否定之否定的螺旋態(tài)勢，存在補(bǔ)償性回歸的可能；花園幽徑模式具有信息逆向選擇的超常規(guī)解釋，存在頓悟跨越的可能。

2.2 行進(jìn)錯(cuò)位研究的非對稱性信息補(bǔ)償效應(yīng)

非對稱性信息補(bǔ)償效應(yīng)模型采用“三四五”主體構(gòu)架，即涵括三個(gè)解碼部分、四個(gè)外圍附屬部分和五個(gè)相關(guān)原則。

三個(gè)解碼部分是非回溯的正常解碼；沒有正確模式的錯(cuò)誤解碼；涉及折返頓悟、否定之否定的花園幽徑模式解碼。

四個(gè)外圍附屬部分涵括詞與短語的瞬時(shí)匹配；整句匹配；內(nèi)程序知識庫的結(jié)構(gòu)啟動、記憶容量和尚好策略；屬于外程序知識庫的信息密度、經(jīng)驗(yàn)控制、詞匯期待、語義條件和語境限定。

五個(gè)相關(guān)原則包括西蒙非極致原則、阿克洛夫逆向選擇原則、格雷欣法則、瓦爾拉斯均衡和帕累托最優(yōu)。具體見圖1。

非回溯的正常解碼流程如下:

a1 輸入字符串(Input)；

a2 判定字符串提供的信息與認(rèn)知貯存信息是否具有暫時(shí)性匹配平衡(Balance?)；

a3 肯定答復(fù)(Yes)則在整合內(nèi)程序知識庫信息的基礎(chǔ)上進(jìn)行詞、短語的瞬時(shí)匹配，并形成初始結(jié)構(gòu)(+A)；

a4 受西蒙非極致原則影響，初始結(jié)構(gòu)(+A)與后續(xù)字符串整合后形成模式B;

a5 模式B涵括的字串?dāng)?shù)量在累加過程中受到

圖1 行進(jìn)錯(cuò)位的非對稱信息補(bǔ)償效應(yīng)圖

外程序知識庫信息的影響，并完成整句匹配；

a6 匹配完成的模式B信息勢能達(dá)到最佳，與全句字串蘊(yùn)含的信息勢能對照(Balance?)；

a7 信息平衡(Yes)則生成終極結(jié)構(gòu)(+B)；

a8 終極結(jié)構(gòu)達(dá)到帕累托最優(yōu)狀態(tài)后成功解碼(Success)；

a9 輸出(Output)。

錯(cuò)誤解碼流程如下:

b1 輸入字符串(Input)；

b2 判定字符串提供的信息與認(rèn)知貯存信息是否具有暫時(shí)性匹配平衡(Balance?)；

b3 否定答復(fù)(No)則進(jìn)入下一輪選擇；

b4 相對于正常解碼形成的暫時(shí)初始結(jié)構(gòu)(+A)來說，否定答復(fù)認(rèn)知形成的結(jié)構(gòu)為判定性結(jié)構(gòu)(-A？)，系統(tǒng)判定該結(jié)構(gòu)是否受阿克洛夫逆向選擇和格雷欣法則影響；受到影響生成的是否定之否定[-(-A)]結(jié)構(gòu)；不受影響生成的是錯(cuò)誤結(jié)構(gòu)(-A)；

b5 判定生成的是否是(-A？)；

b6 肯定答復(fù)(Yes)，獲得的是結(jié)構(gòu)(-A)，經(jīng)與內(nèi)外程序知識庫比對確認(rèn)為錯(cuò)誤；

b7 輸出(Output)。

花園幽徑模式解碼流程:

c1-c6與a1-a6相同；

c7 達(dá)到最佳信息勢能的B模式無法實(shí)現(xiàn)與蘊(yùn)含信息的平衡，認(rèn)知過載和行進(jìn)式錯(cuò)位產(chǎn)生；

c8 信息斷層(Fault)出現(xiàn)；

c9 解碼回溯到初始a2狀態(tài)(Balance?);

c10 -c12 與b3-b5相同；

c13 否定答復(fù)(No)，說明受阿克洛夫逆向選擇和格雷欣法則影響，產(chǎn)生了由前期錯(cuò)誤結(jié)構(gòu)演變而來的回歸(Regression)模式，大量有效信息得到補(bǔ)償；

c14 頓悟(insight)出現(xiàn)；

c15 否定之否定[-(-A)]結(jié)構(gòu)生成，并受內(nèi)外程序知識庫監(jiān)控；

c16 完成的[-(-A)]模式信息勢能達(dá)到最佳，與全句字串蘊(yùn)含的信息勢能對照(Balance?)；

c17 信息達(dá)到瓦爾拉斯均衡(Yes)則生成終極結(jié)構(gòu)(+C)；不均衡則經(jīng)與內(nèi)外程序知識庫比對確認(rèn)為錯(cuò)誤，轉(zhuǎn)至c19；

c18 終極結(jié)構(gòu)達(dá)到帕累托最優(yōu)狀態(tài)后成功解碼(Success)；

c19 輸出(Output)。

從上面的分析可以看出，從c1～c15(模型中用虛線的大矩形進(jìn)行了標(biāo)注)是花園幽徑模式解碼的核心區(qū)域，涉及信息斷層、認(rèn)知回歸、頓悟和否定之否定。螺旋上升是否定之否定的必然結(jié)果。解碼信息的“先期偽平衡——中期再平衡——后期優(yōu)化平衡” 形成了“肯定——否定——二次否定”的螺旋上升態(tài)勢?；▓@幽徑效應(yīng)初期，原型模式(+A)被激活但不能成功解碼，遂被認(rèn)知判定為偽處理模式，第一次加工(B模式)失敗，并導(dǎo)致信息斷層后的折返回歸。如果要跨越障礙，B需要對(+A)進(jìn)行否定(即進(jìn)入-A狀態(tài))?；▓@幽徑效應(yīng)中期，系統(tǒng)回溯后重新進(jìn)行解碼，備用模式(-A)被激活?；▓@幽徑效應(yīng)后期，備選模式否定后的C模式(即[-(-A)]平衡模式)得到構(gòu)建。由于(-A)是B對(+A)的否定，終結(jié)模式C又是對(-A)的否定，那么C必然是對模式(+A)的否定之否定。信息由第一次加工的不對稱失敗到第二次的對稱成功，經(jīng)歷了Z型的否定之否定的認(rèn)知軌跡，在信息斷層后通過回歸和頓悟獲得了補(bǔ)償性信息，完成了螺旋上升的認(rèn)知軌跡。

3 花園幽徑模式解碼的困惑商指數(shù)

困惑商(CQ: Confusion Quotient ) 類似智商IQ，情商EQ以及財(cái)商FQ，這里指由于花園幽徑效應(yīng)存在所導(dǎo)致的認(rèn)知困惑程度。商值高，惑度則高。

智商(IQ: Intelligence Quotient)意指知覺能力、觀察能力、思考能力、推理能力和理解能力等諸方面的系統(tǒng)評測，包括注意力、判斷力、記憶力、語言分析能力等各領(lǐng)域的智能表現(xiàn)，還有對知識的掌握及分析問題和解決問題的能力等。情商(EQ: Emotional Intelligence Quotient)意指情緒、情感、意志以及耐受挫折等方面的品質(zhì)評測。財(cái)商(FQ: Financial Quotient)，意為一個(gè)人與金錢打交道的能力。

我們這里提出“困惑商CQ”的概念，特指由于非對稱信息的補(bǔ)償所產(chǎn)生的認(rèn)知過載現(xiàn)象，包括行進(jìn)式錯(cuò)位和信息斷層，蘊(yùn)含頓悟式回溯解碼，是高信息勢能向低信息勢能的流動。就像信息熵代表“不確定性”一樣，當(dāng)?shù)皖l、高困惑商的非優(yōu)選結(jié)構(gòu)顛覆高頻、低困惑商的優(yōu)選結(jié)構(gòu)時(shí)，認(rèn)知系統(tǒng)需要為成功解碼提供足夠多的補(bǔ)償性解釋信息，這就為認(rèn)知系統(tǒng)帶來了額外的認(rèn)知負(fù)擔(dān)。

非對稱信息的補(bǔ)償是由超出常規(guī)預(yù)期的次優(yōu)選項(xiàng)導(dǎo)致的。在花園幽徑模式中必然存在一個(gè)優(yōu)選結(jié)構(gòu)和次選結(jié)構(gòu)，而且通常這種結(jié)構(gòu)的優(yōu)選與否在統(tǒng)計(jì)學(xué)意義上具有差異性。

優(yōu)選結(jié)構(gòu)是認(rèn)知系統(tǒng)的缺省模式，在解碼前享有較高的使用頻數(shù)，其曾經(jīng)存在的頻數(shù)越高對后續(xù)認(rèn)知折返的阻力越大，產(chǎn)生的頓悟效應(yīng)越明顯，認(rèn)知過載現(xiàn)象也越突出。也就是說前期觀察頻數(shù)正偏離預(yù)期頻數(shù)的差值越大(觀察頻數(shù)大于預(yù)期頻數(shù))，越可能充當(dāng)優(yōu)選結(jié)構(gòu)。

次選結(jié)構(gòu)則相反。如果認(rèn)知系統(tǒng)中前期觀察頻數(shù)負(fù)偏離預(yù)期觀察頻數(shù)的差值越大(觀察頻數(shù)小于預(yù)期頻數(shù))，越不可能充當(dāng)優(yōu)選結(jié)構(gòu)，其非對稱導(dǎo)致的信息補(bǔ)償?shù)目赡茉酱?，要求越?qiáng)烈，具有的認(rèn)知扭矩越大。

在花園幽徑模式中，折返性頓悟現(xiàn)象所需要的信息補(bǔ)償來源于認(rèn)知的多個(gè)系統(tǒng)，如詞匯、句法、語義、語用等，它們共同作用的結(jié)果可完成花園幽徑模式的解讀，彌合認(rèn)知扭矩不平衡帶來的信息斷層，實(shí)現(xiàn)信息補(bǔ)償。所以，我們認(rèn)為對非對稱信息的補(bǔ)償計(jì)算需要如下幾個(gè)變量:

基于語料庫的某項(xiàng)屬性的觀察頻數(shù)(O: Observer)；

某項(xiàng)屬性的預(yù)期頻數(shù)(E: Expecter)；

參與信息補(bǔ)償?shù)膶傩詥卧獢?shù)量(n: number)；

屬性單元(i)；

困惑商(CQ: Confusion Quotient )；

非對稱信息所需要的困惑商值(V: Value)。下文中具體困惑商值的簡寫為Vcq，下標(biāo)cq表示困惑商。

(1)

式(1)中(Oi-Ei)表示對屬性i來說，觀察頻數(shù)偏離預(yù)期頻數(shù)的距離；

(Oi-Ei)/Ei表示偏離距離與預(yù)期頻數(shù)的比值，負(fù)值表示負(fù)偏離，正值表示正偏離；

1-(Oi-Ei)/Ei表示正負(fù)偏離以1為基點(diǎn)向兩側(cè)輻射，正偏離輻射范圍為(-∞,1]，負(fù)偏離范圍為[1，2]。

取和公式表示所有參與信息補(bǔ)償?shù)膶傩运哂械钠x比值可以進(jìn)行累加，然后取平均值。

從正負(fù)偏離的輻射范圍可以看到計(jì)算也是具有不對稱性的，次選結(jié)構(gòu)的偏離值在一個(gè)封閉域內(nèi)，而優(yōu)選結(jié)構(gòu)的偏離值則是半開放的。

例1Thehorseracedpastthebarnfell[5].

以例1的動詞raced說明如下(表1)。

表1 動詞raced非對稱信息困惑商

如表1，由于這里只計(jì)算了動詞的困惑商，句中其他結(jié)構(gòu)成分沒有涉及，所以不存在平均值的問題，即這里是n=1的狀態(tài)。施事角色屬性的困惑商為0.16，而受事角色困惑商為1.84，后者造成的認(rèn)知扭矩更大，需要更多的信息補(bǔ)償才能實(shí)現(xiàn)平衡，完成解碼。

假定某動詞X觀察頻數(shù)和預(yù)期頻數(shù)相等，那么不對稱情況被消解，兩者差值為零，獲得的困惑商為1。這是平衡解碼的理想狀態(tài)。

假定某動詞X觀察頻數(shù)無限小于預(yù)期頻數(shù)，即觀察頻數(shù)近乎為零，則困惑商約為2。這種極端低概率的解碼模式一旦被采納，需要認(rèn)知系統(tǒng)釋放來彌補(bǔ)信息斷層的補(bǔ)償信息量也超乎想象。這就是說不對稱信息困惑商最大為2。

假定需要進(jìn)行不對稱信息補(bǔ)償?shù)哪硠釉~X觀察頻數(shù)無限放大，由于不對稱性的存在，該次選結(jié)構(gòu)的頻數(shù)不會超過優(yōu)選結(jié)構(gòu)頻數(shù)，也就是說它的觀察頻數(shù)的最大值就是預(yù)期頻數(shù)。此時(shí)，觀察頻數(shù)和預(yù)期頻數(shù)相等，困惑商為1。這表明次選結(jié)構(gòu)的不對稱困惑商最小為1。

這樣，次選結(jié)構(gòu)不對稱信息困惑商區(qū)間為[1，2]。越接近1表示需要補(bǔ)償?shù)男畔⑸?，信息趨向于對稱，引起頓悟的可能性就小，產(chǎn)生折返性回溯的花園幽徑效應(yīng)可能性也小，而出現(xiàn)通達(dá)性歧義的可能性增大。越接近2則情況相反，認(rèn)知扭矩不斷累加，直至達(dá)到超出認(rèn)知總?cè)萘康臉O點(diǎn)。

對優(yōu)選結(jié)構(gòu)來說，觀察頻數(shù)的最低點(diǎn)就是預(yù)期頻數(shù)，低于該頻數(shù)結(jié)構(gòu)就不再是優(yōu)選結(jié)構(gòu)了。因此，不對稱困惑商最大為1。隨著觀察頻數(shù)對預(yù)期頻數(shù)的不斷超越，所需要的信息困惑商越來越小。

假定某動詞Y在認(rèn)知中具有五個(gè)可供選擇的屬性，抽樣總數(shù)為500，那么理論預(yù)期頻數(shù)為100。如果每個(gè)屬性在語料庫中都觀察到100個(gè)符合各自屬性的頻數(shù)，那就是理想的帕累托最優(yōu)狀態(tài)。假定有一個(gè)屬性的觀察頻數(shù)達(dá)到了490，那么需要進(jìn)行信息補(bǔ)償?shù)闹禐?2.90。這表示該優(yōu)選模式已經(jīng)具備了足夠的解碼信息量，它產(chǎn)生的是正偏離，不需要再對該屬性進(jìn)行信息補(bǔ)償。

優(yōu)選結(jié)構(gòu)產(chǎn)生的困惑商從1不斷向負(fù)無窮輻射。越接近1表示優(yōu)選結(jié)構(gòu)需要補(bǔ)償?shù)男畔⒃蕉?，信息趨向于對稱，而基于頻數(shù)的優(yōu)選結(jié)構(gòu)傾向受到極大挑戰(zhàn)；相反，困惑商向負(fù)無窮輻射過程中，需要額外補(bǔ)償說明的信息越少，該優(yōu)選結(jié)構(gòu)信息自足量越大，越容易在解碼時(shí)被認(rèn)知系統(tǒng)優(yōu)先采納，困惑程度越來越低，直至該結(jié)構(gòu)解碼成為一種非受控的完全無意識狀態(tài)。

非對稱性信息補(bǔ)償通常是以優(yōu)選結(jié)構(gòu)和次選結(jié)構(gòu)的頻數(shù)統(tǒng)計(jì)差異性存在為條件的，所以，我們需要根據(jù)卡方檢驗(yàn)的臨界值測算出可能誘發(fā)花園幽徑效應(yīng)的非對稱困惑商的臨界值。超出臨界值則表明頻數(shù)具有顯著性差異，信息困惑商也具有區(qū)別性特征。如果實(shí)際統(tǒng)計(jì)值沒有超出臨界值則表明頻數(shù)不具有統(tǒng)計(jì)意義的顯著差異，信息處于非補(bǔ)償?shù)慕y(tǒng)計(jì)意義的對稱狀態(tài)。

假定顯著水平為.05，自由度為1，理論臨界值則為3.84(可查閱SPSS值附錄)。

假定實(shí)際解碼中涉及兩個(gè)義項(xiàng)屬性且可能誘發(fā)花園幽徑效應(yīng)的次選屬性頻數(shù)為X，統(tǒng)計(jì)中總觀察頻數(shù)為50，那么優(yōu)選屬性頻數(shù)則為50-X。根據(jù)卡方檢驗(yàn)公式推導(dǎo)如下(表2)。

表2 次選屬性臨界觀察頻數(shù)推導(dǎo)表

如表2所示，(X-25)2/25=1.92, X=18。這說明具有優(yōu)選結(jié)構(gòu)和次選結(jié)構(gòu)的觀察頻數(shù)臨界比為32∶18。比值越大，說明優(yōu)選和次選結(jié)構(gòu)頻數(shù)差異越懸殊，如果誘發(fā)花園幽徑效應(yīng)產(chǎn)生的認(rèn)知困惑度也越強(qiáng)烈；比值越小，兩結(jié)構(gòu)頻數(shù)趨同，統(tǒng)計(jì)學(xué)意義的差異不斷彌合，呈現(xiàn)非回溯通達(dá)性歧義的可能性加大。依據(jù)以上數(shù)據(jù)我們可以推導(dǎo)出非對稱信息困惑商的臨界值，具體如表3所示。

表3 次選屬性非對稱信息補(bǔ)償臨界值測算表

表3中優(yōu)選結(jié)構(gòu)和次選結(jié)構(gòu)的臨界觀察頻數(shù)中次選屬性的觀察頻數(shù)是18，預(yù)期頻數(shù)是25，頻數(shù)偏差為18-25=-7，頻數(shù)偏差與預(yù)期頻數(shù)之比為-7/25=-0.28。根據(jù)困惑商計(jì)算公式，此結(jié)構(gòu)屬性n=1, 困惑商值CQ=1-(-0.28) =1.28。這表明次選屬性非對稱信息補(bǔ)償臨界值為1.28，說明如果實(shí)際解碼中困惑商大于臨界值，誘發(fā)花園幽徑效應(yīng)的可能性增大，信息斷層后需要信息補(bǔ)償?shù)膹?qiáng)度也增大。困惑商從1.28向2.00變化時(shí)(前面已驗(yàn)證次選結(jié)構(gòu)CQ最大值為2)，認(rèn)知扭矩處于不斷加大狀態(tài)，一旦次選屬性顛覆優(yōu)選屬性成為正確的解碼模式，那么大扭矩產(chǎn)生的認(rèn)知困惑和過載現(xiàn)象將得到釋放；相反，從1.28向1.00變化時(shí)(前面已驗(yàn)證次選結(jié)構(gòu)CQ最小值為1)，認(rèn)知扭矩變小，信息不對稱可能性減少，認(rèn)知困惑程度減弱，出現(xiàn)“多車道通行”的通達(dá)性歧義可能性增大。

4 基于困惑商指數(shù)的行進(jìn)錯(cuò)位量化研究

下面我們以英語中的主導(dǎo)從句和附屬關(guān)系從句為例討論行進(jìn)錯(cuò)位的困惑商指數(shù)。

主導(dǎo)從句(Matrix Clause)與附屬關(guān)系從句(Reduced Relative Clause)不對稱是指主動詞及物被動態(tài)和不及物主動態(tài)屬性分布不均衡導(dǎo)致的結(jié)構(gòu)歧義。主動詞(Matrix verb)具有及物和不及物兩種屬性，通常不及物主動態(tài)屬性是優(yōu)選結(jié)構(gòu)。這樣，在與前行名詞構(gòu)建的暫時(shí)結(jié)構(gòu)中形成的是主謂結(jié)構(gòu)。但是，隨著解碼推進(jìn)，次選結(jié)構(gòu)的主動詞及物被動態(tài)屬性被激活，優(yōu)選結(jié)構(gòu)被顛覆，折返性回溯產(chǎn)生。在英語中，過去式與過去分詞的同形為這種結(jié)構(gòu)歧義的存在提供了便利。請見例2和例3。

例2 The boat floated down the river sank[28].

例2出現(xiàn)了花園幽徑效應(yīng)，其根本原因在于動詞floated的屬性變化，致使初期構(gòu)建的主導(dǎo)從句結(jié)構(gòu)被后期附屬從句結(jié)構(gòu)所顛覆。我們分別利用BNC隨機(jī)抽樣計(jì)算不對稱困惑商。

如表4所示，動詞floated的被動語態(tài)的頻數(shù)是13，不對稱信息困惑商為Vcq=1.48>1.28臨界值。

表 4 動詞floated 的主被動語態(tài)不對稱值對比

這說明被動語態(tài)作為次選結(jié)構(gòu)的認(rèn)知扭矩較大，顛覆優(yōu)選結(jié)構(gòu)后，獲得的補(bǔ)償性信息量也較多。這種低頻數(shù)的解碼模式對于基于概率的Stanford Parser來說，解讀有困難。請見Stanford Parser對該句的錯(cuò)誤剖析:

*(ROOT

(NP (DT The) (NN boat))

(VP (VBD floated)

(PRT (RP down))

(SBAR

(NP (DT the) (NN river))

(VP (VBD sank)))))))

如上所示，解析器無法正確分析該句結(jié)構(gòu)，the river sank被誤認(rèn)為是從句結(jié)構(gòu)，而且floated down the river作為附屬關(guān)系從句的解碼也無法在剖析中體現(xiàn)。正確結(jié)構(gòu)中主動詞應(yīng)該是sank，附屬關(guān)系從句作為定語的是floated down the river。動詞floated應(yīng)該認(rèn)定為過去分詞(VBN floated)而不應(yīng)該是過去式(VBD floated)。成功的剖析如下:

(ROOT

(NP

(NP (DT The) (NN boat))

(VP (VBN floated)

(PP (IN down)

(NP (DT the) (NN river)))))

(VP (VBD sank))))

例3 The dog walked to the park chewed the bone[29].

例3也是花園幽徑句。動詞walked的過去式和過去分詞同形，其語態(tài)屬性既可以是主動也可以是被動。我們先計(jì)算兩個(gè)選項(xiàng)的非對稱困惑商。

如表5所示，動詞walked的被動語態(tài)的頻數(shù)是0，不對稱信息困惑商為Vcq=2 >1.28臨界值。這

表 5 動詞walked的主被動語態(tài)不對稱值對比

說明被動語態(tài)結(jié)構(gòu)從理論上說認(rèn)知扭矩達(dá)到無法超越的最大值，從實(shí)踐意義說，該句應(yīng)該是Gibson博士自己創(chuàng)造的花園幽徑句，其在語料庫中出現(xiàn)的概率近乎可以忽略。這樣極端的低概率在解碼中引起的顛覆效應(yīng)將是空前的，極端不對稱解碼所需要的信息補(bǔ)償量也會讓讀者產(chǎn)生極強(qiáng)烈的認(rèn)知困惑，并在解碼成功后誘發(fā)令人震撼的頓悟感。這種句子對于基于概率語料庫的Stanford Parser來說是不存在剖析正確的可能，只能依靠規(guī)則而不是統(tǒng)計(jì)實(shí)現(xiàn)解碼。請見Stanford Parser對該句的錯(cuò)誤剖析:

*(ROOT

(SINV

(NP (DT The) (NN dog))

(VP (VBD walked)

(PP (TO to)

(NP (DT the) (NN park)))))

(VP (VBD chewed))

(NP (DT the) (NN bone))))

正如我們分析的那樣，Stanford Parser無法完成解碼。系統(tǒng)把整個(gè)結(jié)構(gòu)解讀為SINV而不是S，參照系統(tǒng)代碼的解釋，我們可以知道SINV[30]即“Declarative sentence with subject-aux inversion, top level labelling apart from S, usually for complete structure”，也就是具有主語翻轉(zhuǎn)功能的完全陳述句結(jié)構(gòu)(an inverted S structure)，例如，在“Marching past the reviewing stand were 500 musicians”句中的結(jié)構(gòu)。Marcus et al具體結(jié)構(gòu)解釋如下:

圖2 代碼SINV的結(jié)構(gòu)樣例

如圖2可知，我們需要的The dog walked to the park chewed the bone剖析結(jié)構(gòu)并不是解析器剖析的SINV結(jié)構(gòu)，也不存在主語翻轉(zhuǎn)問題。該句從規(guī)則語法角度可以很容易判定是一個(gè)附屬關(guān)系從句結(jié)構(gòu)。把動詞walked理解成過去分詞(VBN walked) 就能成功解碼。正確剖析如下:

(ROOT

(NP

(NP (DT The) (NN dog))

(VP (VBN walked)

(PP (TO to)

(NP (DT the) (NN park)))))

(VP (VBD chewed)

(NP (DT the) (NN bone)))))

從上面的分析可以看出，主導(dǎo)從句與附屬關(guān)系從句的不對稱源于動詞過去分詞和過去式的同形歧義，過去式形式可以附著于前行詞作為全句的主動詞(matrix verb)出現(xiàn)；過去分詞形式也可以附著于前行詞作為附屬關(guān)系從句出現(xiàn)，并由此引發(fā)主動態(tài)和被動態(tài)的非對稱性選擇。通常情況下，作為主動詞的過去式形式具有認(rèn)知原型特點(diǎn)，次選結(jié)構(gòu)取代優(yōu)選結(jié)構(gòu)將產(chǎn)生認(rèn)知過載現(xiàn)象。類似的花園幽徑句還有“The performer sent the flowers was pleased”, “The woman brought the flowers smiled broadly”[30]等。

5 結(jié)語

花園幽徑模式源于非對稱信息補(bǔ)償?shù)恼J(rèn)知過載，是行進(jìn)式錯(cuò)位和信息斷層相互作用的結(jié)果。困惑商指數(shù)可用于量化分析信息斷層所致的非對稱性信息補(bǔ)償。我們測算后可知，優(yōu)選和非優(yōu)選結(jié)構(gòu)困惑商指數(shù)從1分別向負(fù)無窮和2輻射。向1靠近，兩結(jié)構(gòu)趨向于對稱；向負(fù)無窮靠近，優(yōu)選結(jié)構(gòu)信息自足量增大，原型特點(diǎn)凸顯；向2靠近，非優(yōu)選結(jié)構(gòu)斷層效應(yīng)激增，行進(jìn)中的錯(cuò)位感加大。優(yōu)選和非優(yōu)選結(jié)構(gòu)的困惑商指數(shù)臨界值分別0.72和1.28。超出臨界值則表明兩結(jié)構(gòu)頻數(shù)具有顯著性差異，更易導(dǎo)致信息斷層和行進(jìn)錯(cuò)位的出現(xiàn)。研究證明，困惑商指數(shù)對花園幽徑模式行進(jìn)錯(cuò)位的幅度和強(qiáng)度具有前瞻性。

[1] B L Pritchett. Garden path phenomena and the grammatical basis of language processing[J]. Language, 1988(64): 539-576.

[2] K Rayner, M Carlson, L Frazier. The interaction of syntax and semantics during sentence processing: Eye movements in the analysis of semantically biased sentences[J]. Journal of verbal learning and verbal behavior, 1983, 22(3): 358-374.

[3] G Altmann, A Garnham, Y Dennis. Avoiding the garden path: Eye movements in context[J]. Journal of Memory and Language, 1992, 31(5): 685-712.

[4] K G D Bailey, F Ferreira. Disfluencies affect the parsing of garden-path sentences[J]. Journal of Memory and Language, 2003, 49(2): 183-200.

[5] T G Bever. The cognitive basis for linguistic structures[A]. In Hayes, J R (ed.), Cognition and the Development of Language. New York: John Wiley and Sons, 1970: 279-352.

[6] K Christianson. Sensitivity to syntactic changes in garden path sentences[J]. Journal of psycholinguistic research, 2008, 37(6): 391-403.

[7] J L Du, P FYu, M L Li. Machine Learning from Garden Path Sentences: The Application of computational Linguistics[J]. International Journal of Emerging Technologies in Learning, 2014,9(6):58-62.

[8] T J Slattery, P Sturt, K Christianson, et al. Lingering misinterpretations of garden path sentences arise from competing syntactic representations[J]. Journal of Memory and Language, 2013, 69(2): 104-120.

[9] R P G van Gompel, M J Pickering, J Pearson, et al. The activation of inappropriate analyses in garden-path sentences: Evidence from structural priming[J]. Journal of Memory and Language, 2006, 55(3): 335-362.

[10] F Ferreira, J M Henderson. Recovery from misanalyses of garden-path sentences[J]. Journal of Memory and Language, 1991, 30(6): 725-745.

[11] G Hickok. Parallel parsing: Evidence from reactivation in garden-path sentences[J]. Journal of Psycholinguistic Research, 1993, 22(2): 239-250.

[12] E Malaia, R B Wilbur, C Weber-Fox. ERP evidence for telicity effects on syntactic processing in garden-path sentences[J]. Brain and Language, 2009, 108(3):145-158.

[13] J M Novick, E Hussey, S Teubner-Rhodes, et al. Clearing the garden-path: Improving sentence processing through cognitive control training[J]. Language and Cognitive Processes, 2014, 29(2):186-217.

[14] L C Vuong. The role of executive control in garden path reinterpretation[D]. PhD dissertation： RICE University, 2010.

[15] Y Choi, J C Trueswell. Children’s (in)ability to recover from garden paths in a verb-final language: Evidence for developing control in sentence processing[J]. Journal of Experimental Child Psychology, 2010, 106(1):41-61.

[16] 杜家利,于屏方. 花園幽徑現(xiàn)象頓悟性的認(rèn)知解讀[J]. 外語與外語教學(xué)，2011, (06): 26-29.

[17] M. F. Boston, J. T. Hale. Garden-pathing in a statistical dependency parser[C]//Proceedings of the Midwest Computational Linguistics Conference (MCLC). 2007.

[18] 馮志偉. 花園幽徑句的自動分析算法[J].當(dāng)代語言學(xué), 2003, 5(04): 339-349.

[19] 杜家利,于屏方. 花園幽徑現(xiàn)象理解折返性的數(shù)據(jù)結(jié)構(gòu)分析[J]. 中文信息學(xué)報(bào), 2015, 29(1): 28-37.

[20] Y H Jin. Semantic analysis of Chinese garden-path sentences[C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, 2006, (7): 33-39.

[21] C J C Lin, T G Bever. Garden path and the comprehension of head-final relative clauses[J]. Processing and Producing Head-final Structures, 2011: 277-297.

[22] N D Patson, F Ferreira. Conceptual plural information is used to guide early parsing decisions: Evidence from garden-path sentences with reciprocal verbs[J]. Journal of memory and language, 2009, 60(4): 464-486.

[23] B McMurray, M K Tanenhaus, R N Aslin. Within-category VOT affects recovery from “l(fā)exical” garden-paths: Evidence against phoneme-level inhibition[J]. Journal of Memory and Language, 2009, 60(1): 65-91.

[24] J C Trueswell, M K Tanenhaus, C Kello. Verb-specific constraints in sentence processing: separating effects of lexical preference from garden-paths[J]. Journal of Experimental Psychology: Learning, Memory, and Cognition, 1993, 19(3): 528 -553.

[25] 宋洋, 王厚峰. 共指消解研究方法綜述[J]. 中文信息學(xué)報(bào), 2015, 29(1):1-12.

[26] 杜家利, 于屏方. 花園幽徑句行進(jìn)錯(cuò)位的計(jì)算語言學(xué)研究[M].北京: 商務(wù)印書館, 2015.

[27] 杜家利.非對稱信息補(bǔ)償假說: 花園幽徑模式的困惑商研究[M].北京: 中國社會科學(xué)出版社, 2015.

[28] R W Milne. Predicting garden path sentences[J]. Cognitive Science, 1982, 6(4): 349-373.

[29] E A F Gibson. A computational theory of human linguistic processing: Memory limitations and processing breakdown[D]. School of Computer Science： Carnegie Mellon University, 1991.

[30] M Marcus, G Kim, M A Marcinkiewicz, et al. The Penn Treebank: annotating predicate argument structure[C]//Proceedings of the Workshop on Human Language Technology. Association for Computational Linguistics, 1994: 114-119.

Quantitative Research on the Processing Breakdown in Garden Path: A Computational Linguistic Perspective

DU Jiali1，2, YU Pingfang3

(1.Lexicographical Research Center, Guangdong University of Foreign Studies,Guangzhou, Guangdong 510420, China;2.School of Foreign Studies, Nanjing University, Nanjing, Jiangsu 210093, China;3.Faculty of Chinese Language and Culture, Guangdong University of Foreign Studies,Guangzhou, Guangdong 510420, China)

This article discusses the confusion quotient (CQ) index in the processing breakdown of the garden path phonomenon. The presence of asymmetric information breakdown could lead to spiral upward trend of decoding which showed the pattern of double negation. The amplitude of potential effects of processing breakdown could be measured through the CQ index. Based on large data corpus statistics and online parser analytic method, we calculate the value of CQ index. CQ duration for the preferred construction lies between (-∞, 1], and for the non-preferred construction, [1,2]. The critical values for the preferred and non-preferred structures are 0.72 and 1.28 respectively, and the ambiguous domain lies in [0.72, 1.28]. It is concluded that the frequency deviation of multi-structures is a fundamental reason to lead to different CQ index. The amplitude of processing breakdown and magnitude of asymmetry information compensation are related to CQ index. It is revealed that the statistics-based CQ index can provide the prospective information for decoding the complex structure of local ambiguity.

computational linguistics; garden path model; processing breakdown; local ambiguity; confusion quotient

杜家利(1971—),博士,南京大學(xué)博士后,副教授,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。E-mail:dujiali68@126.com于屏方(1971—),博士,中國社會科學(xué)院博士后,教授,主要研究領(lǐng)域?yàn)閼?yīng)用語言學(xué)。E-mail:yupingfang68@126.com

1003-0077(2015)05-0031-08

2015-07-21 定稿日期： 2015-09-18

國家社科后期資助項(xiàng)目(12FYY019)；中國博士后第57批一等資助項(xiàng)目(2015M570424)

TP391