梁君英 劉海濤
(浙江大學(xué) 外國語言文化與國際交流學(xué)院,浙江 杭州 310058)
主題欄目:語言與認(rèn)知研究(學(xué)術(shù)訪談)
語言學(xué)的交叉學(xué)科研究:語言普遍性、人類認(rèn)知、大數(shù)據(jù)
梁君英 劉海濤
(浙江大學(xué) 外國語言文化與國際交流學(xué)院,浙江 杭州 310058)
麻省理工學(xué)院學(xué)者近期發(fā)表在國際頂尖期刊《美國科學(xué)院院報(bào)》上的一項(xiàng)語言學(xué)交叉研究利用已經(jīng)公開發(fā)布的依存樹庫,對(duì)37種語言進(jìn)行了統(tǒng)計(jì)分析,指出人類語言存在依存距離最小化這一傾向。此研究被媒體熱議,但卻存在一些缺陷。依存距離是兩個(gè)句法相關(guān)詞之間的線性距離,受工作記憶機(jī)制的約束,與句法處理的復(fù)雜度密切相關(guān)。因此,人類語言具有依存距離最小化的傾向。基于句法標(biāo)注語料庫的依存距離最小化研究表明,大數(shù)據(jù)研究方法在語言認(rèn)知研究中具有重要作用?,F(xiàn)代語言學(xué)具有鮮明的交叉學(xué)科色彩,語言研究中不同學(xué)科的相互借鑒與融合有助于深入揭示語言系統(tǒng)的運(yùn)作規(guī)律以及語言與認(rèn)知之間的關(guān)系。
依存距離最小化;語言普遍性;認(rèn)知科學(xué);大數(shù)據(jù)
訪談時(shí)間:2015年9月22日 訪談地點(diǎn):浙江大學(xué)紫金港校區(qū)青荷悅空間
訪談主持人:梁君英教授(以下簡稱為梁) 訪談嘉賓:劉海濤教授(以下簡稱為劉)
梁:今天我們?cè)谶@里舉行一個(gè)有關(guān)國家社科基金重大課題“現(xiàn)代漢語的計(jì)量語言學(xué)研究”的訪談,我想先從一個(gè)目前非常熱門的話題開始。最近我們聽說麻省理工學(xué)院(MIT)的大腦與認(rèn)知科學(xué)系有一個(gè)重大成果:他們發(fā)現(xiàn)人類語言中可能存在依存長度最小化(Dependency Length Minimization,DLM)這樣一個(gè)普遍規(guī)律。這項(xiàng)研究發(fā)表在PNAS也就是《美國科學(xué)院院報(bào)》上[1],八月初剛剛在線優(yōu)先發(fā)表(early edition)就在學(xué)界引起廣泛關(guān)注,隨后美國的許多媒體都對(duì)此進(jìn)行了長篇報(bào)道,我想問一下劉老師,您對(duì)這個(gè)問題是怎么看的?
劉:語言研究很少能夠引起主流媒體的關(guān)注。MIT的這項(xiàng)研究在美國《科學(xué)》雜志、MIT新聞網(wǎng)站以及許多其他媒體的主要位置進(jìn)行了報(bào)道,這種情況是不多見的。我們知道,盡管語言學(xué)家一再強(qiáng)調(diào)他們的研究很重要,認(rèn)為語言學(xué)是一門領(lǐng)先科學(xué)(pilot science),但在科學(xué)家面前說語言學(xué)是領(lǐng)先科學(xué)是比較尷尬的一件事。但這次MIT的研究確實(shí)得到了大家的廣泛關(guān)注,這是因?yàn)樗麄兊难芯坑狭宋覀儺?dāng)今時(shí)代一些主要的熱點(diǎn):第一,語言研究之所以重要,是因?yàn)橥ㄟ^語言研究我們可以了解人的認(rèn)知。研究認(rèn)知的方法多種多樣,但從人的外在特性來看,人與其他動(dòng)物的區(qū)別在于人有一個(gè)比較復(fù)雜的語言系統(tǒng)。與其他研究路徑相比,語言是人每天都用得到的,研究材料極易獲得,因此,通過研究語言來研究人的認(rèn)知是認(rèn)知科學(xué)里較為熱點(diǎn)的內(nèi)容。MIT這次研究的主題恰好可以把語言和人的認(rèn)知聯(lián)系在一起。第二,這幾年有個(gè)熱詞叫“大數(shù)據(jù)”,在這項(xiàng)研究里也使用了來自多種語言的大量數(shù)據(jù)。第三,MIT認(rèn)為這項(xiàng)研究發(fā)現(xiàn)了人類語言的一個(gè)普遍特征。這三點(diǎn)加起來剛好符合這個(gè)時(shí)代科學(xué)研究的特征,所以引起關(guān)注也并不是特別奇怪的事情。
梁:劉老師提到了我們今天訪談的三個(gè)關(guān)鍵詞:語言、人類認(rèn)知、大數(shù)據(jù)。我也聽說在心理學(xué)科里有一個(gè)共識(shí),認(rèn)為語言是人類的平均認(rèn)知規(guī)律,現(xiàn)在MIT實(shí)驗(yàn)室采取了大數(shù)據(jù)的手段對(duì)此進(jìn)行了研究。劉老師可不可以先為我們介紹下這篇文章的主要內(nèi)容?
劉:這篇文章的標(biāo)題是《用37種語言來驗(yàn)證依存長度最小化》。首先,在一項(xiàng)研究中出現(xiàn)37種語言不是一件容易的事情,這里關(guān)鍵還有一個(gè)依存長度最小化,這是這篇文章的一個(gè)核心概念。依存長度是什么呢?我們平時(shí)說的句子是一個(gè)線性的詞串,句子里的每個(gè)詞之間是有聯(lián)系的。如果對(duì)這個(gè)線性詞串進(jìn)行句法分析,把句中有句法關(guān)系的詞連起來,就能形成一個(gè)句子的結(jié)構(gòu)樹或結(jié)構(gòu)圖。這是人類理解語言的第一步。那么問題就來了,如果句法分析是要把線性的詞串變成結(jié)構(gòu)樹或圖的話,兩個(gè)相聯(lián)系的詞之間就存在線性的距離。比如圖1為“我吃一個(gè)大蘋果”的依存分析,“我”和“吃”之間有聯(lián)系,“吃”和“蘋果”之間有聯(lián)系,“大”和“蘋果”之間有聯(lián)系,“個(gè)”和“蘋果”之間有聯(lián)系,“一”和“個(gè)”之間有聯(lián)系,這樣每個(gè)詞在句中都被兩兩的詞間關(guān)系聯(lián)系起來?!拔摇焙汀俺浴笔前ぶ?。但“吃”和“蘋果”之間有三個(gè)詞,分別是“一”、“個(gè)”、“大”。
圖1 “我吃一個(gè)大蘋果”的依存分析
也就是說,形成依存句法關(guān)系的詞與詞之間的距離有遠(yuǎn)有近,這篇文章稱這個(gè)距離為長度,長度是美國的叫法。在依存句法的發(fā)源地歐洲,一般稱之為距離。依存距離或者依存長度是依存語法框架下的一個(gè)概念,因?yàn)橐来婢浞ǚ治龇椒P(guān)注詞與詞之間的關(guān)系。但在生成句法框架里,詞與詞之間的關(guān)系并不重要,更關(guān)注部分與整體的關(guān)系。
依存距離我們理解了,那最小化是什么呢?大概早在20世紀(jì)初的時(shí)候,人們就注意到自然語句中,有依存關(guān)系的詞在一個(gè)句子中靠得比較近[2]。說得理論點(diǎn),就是一個(gè)句子中詞的順序一般傾向于使這個(gè)句子的依存距離盡可能小。但過去人們沒有計(jì)算機(jī),單純靠手?jǐn)?shù),數(shù)了十幾個(gè)、幾百個(gè)句子就覺得有這樣一種傾向,但都沒能取得突破性的進(jìn)展。隨著計(jì)算機(jī)以及語料庫的普及,特別是在1990年左右有句法標(biāo)注的語料庫(樹庫)的出現(xiàn),為我們真正地采用大規(guī)模真實(shí)語料研究依存距離最小化提供了可能。2004年,西班牙學(xué)者Ramon Ferrer-i-Cancho在《物理評(píng)論E》上發(fā)表了一篇文章,題為《存在句法聯(lián)系的詞之間的歐幾里得距離研究》[3],實(shí)際就是依存距離研究。他考察了一個(gè)羅馬尼亞語的樹庫,發(fā)現(xiàn)在大規(guī)模的真實(shí)語料中,依存距離趨向于一個(gè)比較小的值。這兩年,捷克布拉格大學(xué)等機(jī)構(gòu)推出了一些樹庫項(xiàng)目,加起來涵蓋了三四十種語言。這次MIT的研究就是利用這些已經(jīng)公開發(fā)布的依存樹庫,對(duì)37種語言進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)人類語言確實(shí)存在依存距離最小化的傾向。他們?cè)谖恼轮幸渤姓J(rèn)這個(gè)想法早就有了,但強(qiáng)調(diào)指出過去的研究總共只做過7種語言的依存距離最小化研究,因此,他們的研究是世界上第一個(gè)用大規(guī)模、跨語言的語料驗(yàn)證依存距離最小化的。這是他們的一個(gè)主要觀點(diǎn)。有關(guān)新聞報(bào)道也都強(qiáng)調(diào)MIT是第一個(gè)用多種語言來進(jìn)行依存距離最小化研究的,我認(rèn)為這也是這篇文章能夠被PNAS錄用并發(fā)表的主要原因。語料是別人的,計(jì)算依存距離最小化的方法是別人的,這個(gè)想法也是別人的。MIT只是說,過去只有7種語言,但現(xiàn)在他們的研究用了37種,當(dāng)然7和37還是很不一樣的。他們的研究大概就是這樣一個(gè)情況。
梁:現(xiàn)在國內(nèi)語言學(xué)在宣傳報(bào)道方面跟進(jìn)得非???。前段時(shí)間,國內(nèi)語言學(xué)界的各種網(wǎng)絡(luò)媒體與微信平臺(tái)都推送了這一研究,并宣稱這是對(duì)喬姆斯基研究的進(jìn)一步推進(jìn)。劉老師,您剛才提到的這些,是不是說MIT的研究跟喬姆斯基尤其是他的普遍語法(UG)之間并沒有太大關(guān)系呢?
劉:將兩者聯(lián)系起來的實(shí)際上是國外的一個(gè)新聞報(bào)道[4]。喬姆斯基說人類語言有一個(gè)普遍語法,這種普遍語法隱含于語言表面的多樣性。有人便將喬姆斯基與此項(xiàng)研究聯(lián)系起來。但實(shí)際上兩者之間可能沒什么關(guān)系。喬姆斯基認(rèn)為人的大腦里有一個(gè)專門主管語言的東西,是天生的,具有普遍性[5]。至于它到底是什么,目前人們還確定不了。但Gibson實(shí)驗(yàn)室的這項(xiàng)研究似乎為喬姆斯基的普遍語法帶來了新的曙光。實(shí)際上兩者關(guān)系可能并不大,依存距離最小化與人的工作記憶有關(guān)。依存語法中,依存關(guān)系存在于從屬詞和支配詞之間。一個(gè)詞只有找到它的支配詞或者從屬詞,才能形成一個(gè)更復(fù)雜或者更明晰的概念。在“我吃一個(gè)大蘋果”這個(gè)句子中,我們聽到“吃”的時(shí)候,由于不知道后面跟的是什么,就要把這個(gè)詞記住,同樣,我們要把后面出現(xiàn)的“一”、“個(gè)”、“大”等都記住,這樣,在聽到“蘋果”的時(shí)候,我們才能把這些詞語從記憶中移開。具有依存關(guān)系的兩個(gè)詞之間的詞越多,短時(shí)間內(nèi)我們需要記住的內(nèi)容也就越多。因此,依存距離最小化實(shí)際上是認(rèn)知特別是工作記憶容量對(duì)語言結(jié)構(gòu)的一種約束。工作記憶并非僅僅用于語言處理,而是人的普遍認(rèn)知機(jī)制的一部分。也就是說,依存距離最小化是人類普遍認(rèn)知機(jī)制對(duì)語言線性排列約束的結(jié)果。換句話說,依存距離最小化實(shí)際上和喬姆斯基所說的普遍語法(或者說大腦中專門的語言模塊)沒有什么直接聯(lián)系。
梁:我記得不久前看您的微信,您轉(zhuǎn)發(fā)了“語言學(xué)午餐”微信平臺(tái)推送的這個(gè)報(bào)道后,同時(shí)貼上了你們團(tuán)隊(duì)大約在七八年前就發(fā)表的一個(gè)類似的研究。如果我的理解是正確的,其實(shí)你們的研究遠(yuǎn)遠(yuǎn)地走在MIT之前,您能不能分享一下你們團(tuán)隊(duì)研究的主要內(nèi)容,或者說你們的研究跟他們的有什么區(qū)別呢?
劉:我們團(tuán)隊(duì)研究依存語法大概開始于1987年前后,那是很久之前的事了。我們當(dāng)時(shí)對(duì)依存語法進(jìn)行研究的一個(gè)主要原因就是如果要研究語言,首先要尋找一種普適的語言分析方法,先不管后面的機(jī)制是什么,至少這種方法應(yīng)該能夠分析盡可能多的語言。像短語結(jié)構(gòu)語法,分析英語這樣語序相對(duì)固定的語言還比較容易對(duì)付;但如果分析像斯拉夫語族的語言,比如捷克語和俄語,就會(huì)遇到很大的困難。這時(shí)我們發(fā)現(xiàn),還有一種來自歐洲的語法體系叫依存語法(Dependency Grammar)[67],我們就開始對(duì)它進(jìn)行系統(tǒng)的了解。從1987年到現(xiàn)在,我們對(duì)依存語法的研究持續(xù)了很長時(shí)間。在這個(gè)延續(xù)的研究中,我們自然而然地遇到了這個(gè)依存距離的問題。大約在1995年前后,英國Hudson教授寫過一篇文章,第一次在現(xiàn)代依存句法框架下提出了依存距離的計(jì)算方法[8]。當(dāng)時(shí)Hudson和他的幾個(gè)博士研究生對(duì)英語、德語和日語的依存距離進(jìn)行了分析。因?yàn)闂l件限制,他們?cè)?0世紀(jì)90年代的研究中基本沒有使用語料庫。到了2003年、2004年前后,我們采用依存語法試著建立了一個(gè)漢語的樹庫,即采用依存句法標(biāo)注的語料庫,我們發(fā)現(xiàn)漢語的依存距離要比英語大很多[9]。這一結(jié)果非常有意思,因?yàn)镠udson和他的學(xué)生發(fā)現(xiàn)日語、英語、德語的依存距離都差不多。Hudson認(rèn)為我們這個(gè)發(fā)現(xiàn)非常重要[10],因?yàn)橐来婢嚯x和人類認(rèn)知密切相關(guān),而一般認(rèn)為,無論說哪一種語言,人的工作記憶容量是相似的,但我們的結(jié)果顯示中文的依存距離顯著地大于其他語言。在語言與認(rèn)知領(lǐng)域有一個(gè)著名的假說,叫薩丕爾-沃爾夫假說[11]。這個(gè)假說認(rèn)為語言會(huì)影響思維模式等與認(rèn)知密切相關(guān)的東西,但一直沒有找到直接的例證來說明。而漢語的依存距離大也許從另一個(gè)角度為這個(gè)假說提供了一個(gè)佐證。
我們也覺得搞清楚這個(gè)問題是非常有趣的,我就讓我的幾個(gè)碩士和博士生來專門研究這個(gè)問題。也就是說,實(shí)際上我們對(duì)依存距離的研究始于12年以前,是自然地通過研究依存語法發(fā)現(xiàn)的。既然已經(jīng)發(fā)現(xiàn)漢語的依存距離比其他幾種語言要大,我們當(dāng)然就會(huì)想到擴(kuò)大樣本庫。在2004年左右,我們就開始在世界各地尋找依存樹庫。大概到了2005年底、2006年初的時(shí)候,我們大約收集到了20種語言的樣本,包括我們自己標(biāo)注的樣本。我們發(fā)現(xiàn)在這20種語言里,漢語的依存距離仍然是最大的。此外也發(fā)現(xiàn)其中大概有十四五種語言基本上是一樣的,表明大部分語言的依存距離都是差不多的,符合依存距離與人類工作記憶密切相關(guān)的想法。此外,我們也生成了兩種隨機(jī)語言,與這20種真實(shí)自然語言的依存距離進(jìn)行比較。所謂隨機(jī),就是說這不是人類真正的語言,是不符合語法的。所以不管你采用怎樣的隨機(jī)策略,都只是計(jì)算效率的問題,沒有語言學(xué)意義,因?yàn)橐呀?jīng)不符合語法了。我們就做了兩種隨機(jī)語言,一是完全隨機(jī),只要符合依存句法的普遍規(guī)律,不控制句法樹的交叉結(jié)構(gòu);第二就是保證不交叉。這樣就得到了兩種隨機(jī)語言。計(jì)算它們的依存距離并與上述20種語言的依存距離相比較,我們發(fā)現(xiàn)真實(shí)語言的依存距離更小。這實(shí)際上是在人類歷史上第一次用大量真實(shí)語料揭示自然語言中的依存距離最小化傾向。在十年前,這是很新的東西,很多人不太理解。這些研究成果寫成文章后,幾經(jīng)周折,于2008年發(fā)表在國際認(rèn)知科學(xué)協(xié)會(huì)的會(huì)刊《認(rèn)知科學(xué)學(xué)報(bào)》上[12]。這篇文章提出了明確的假設(shè):人類語言的句法分析器偏好于依存距離最小化的句子,實(shí)際上就是說距離最小化是人類語言普遍的特征,這一點(diǎn)我們?cè)谠撐牡恼镆裁鞔_提到了。此外,和MIT的研究相比,我們做得更加全面:我們關(guān)注的點(diǎn)比他們多,我們和認(rèn)知的聯(lián)系也更緊密一些,我們和依存句法的聯(lián)系是水到渠成的。但后來我們沒有過多地宣傳這個(gè)。因?yàn)橛?jì)算依存距離用的是文本,其結(jié)果可能受諸多因素影響,比如,不同語言的影響,文本大小的影響,文本主題的影響,同樣,標(biāo)注方式也會(huì)影響這個(gè)結(jié)果。在沒有弄清這些可能的變量之前,不能簡單地得出結(jié)論,因?yàn)閷?duì)科學(xué)家而言這是不夠嚴(yán)謹(jǐn)?shù)?。所?008年以后,我們還在不斷地完善對(duì)依存距離最小化的理解,繼續(xù)研究有哪些因素在影響依存距離最小化。
梁:這顯然是很長的一段歷史了。從1987年開始,劉老師團(tuán)隊(duì)就已經(jīng)關(guān)注歐洲的依存語法體系;在過去的28年里,這個(gè)團(tuán)隊(duì)一直做著孜孜不倦的努力。比較有代表性的成果之一就是剛才提到的2008年的那篇文章。通過對(duì)20種語言進(jìn)行的大規(guī)??缯Z言比較研究,并得到一個(gè)結(jié)論:依存距離最小化傾向可能是人類語言的一個(gè)普遍規(guī)律。這對(duì)之后的研究起到了重要的推動(dòng)作用。聽到這里大家可能會(huì)跟我一樣感到驚訝,因?yàn)閯倓傉f到MIT的這個(gè)研究出來之后,許多媒體都不斷地推送,有一句話特別引人注目:“這是人類歷史上第一次大規(guī)模的跨語言的研究發(fā)現(xiàn)的普遍規(guī)律”,而且還特別強(qiáng)調(diào)說前期研究加起來都不超過7種語言,很明顯這里存在一個(gè)錯(cuò)誤。我很想知道,劉老師您這個(gè)團(tuán)隊(duì)針對(duì)這個(gè)問題有沒有做出什么回應(yīng)?
劉:首先還是要說技術(shù)上的一些細(xì)節(jié)。因?yàn)橐来婢嚯x的算法有兩類,第一類是 Hudson提出的,從歐洲的依存句法發(fā)展來的算法,其語言學(xué)的實(shí)用意義和價(jià)值較大[8]。依存距離可以判別一個(gè)句子的理解難度。就是說一個(gè)句子的依存距離越大,理解難度越大,這樣就會(huì)存在不同句子長度之間的比較。比如,有5個(gè)詞的句子,6個(gè)詞的句子,還有的句子是13個(gè)詞的。有時(shí)13個(gè)詞的句子并不一定比5個(gè)詞的難。你要計(jì)算依存距離的指標(biāo),不同句子之間的難度應(yīng)該是可以比較的。如果需要進(jìn)行比較,你就要把句子長度的因素去掉。否則只是簡單地把句子里面的依存距離相加,長的句子永遠(yuǎn)是難的,但實(shí)際上它并不一定難。而采用平均值就可以消除句子長度帶來的影響,也就是說,依存距離加起來再除以句長。句子中的根詞是沒有詞支配它的,要把這個(gè)詞減掉。這樣一來,不同長度的句子的難度就可以進(jìn)行比較了,這是歐洲學(xué)者和我們采用的算法。第二類是兩位美國學(xué)者在2007年左右提出的一套算法[13-14],MIT的研究用的就是這一套算法。他們只是把句子中的依存長度加起來。就剛才說的那個(gè)句子“我吃一個(gè)大蘋果”,按照我們的算法這個(gè)句子的平均依存距離是9÷5=1.8,而MIT得到的該句的依存距離為9。顯然,他們這種計(jì)算會(huì)導(dǎo)致不同長度的句子之間很難比較。在我們2008年的文章里,不同語言可以比較平均依存距離[12]。而MIT的研究沒有辦法做這樣的比較,于是就把37種語言中的每種語言都畫了圖表[1]。也就是說,它的最小化實(shí)際上只是一個(gè)圖示化的說明。
MIT的這篇文章說“這是人類歷史上第一次大規(guī)模的跨語言的研究發(fā)現(xiàn)的普遍規(guī)律”,強(qiáng)調(diào)先前研究所涵蓋的語言不超過7種[1]。正如你所說,這些表述不太準(zhǔn)確。我們?cè)谄甙四昵熬妥鲞^了針對(duì)20種語言的依存距離最小化研究,取得了類似的研究成果[12]。因此,MIT文章說他們是第一次大規(guī)模的跨語言研究,這是有失偏頗的。此外,依存距離可能受到很多因素的影響,這些因素在該文中都沒有提到過,這也是一個(gè)問題。另一個(gè)問題是,他們?cè)谧鲭S機(jī)語言時(shí)考慮了太多語言學(xué)的因素,沒有做到完全的隨機(jī),這也削弱了該研究的說服力。還有一點(diǎn),他們說支配詞在后面的語言和支配詞在前面的語言與依存距離是有相關(guān)性的,這個(gè)說法也是比較隨意的。前人的很多研究表明,說這兩者之間有相關(guān)性還為時(shí)尚早。
針對(duì)MIT文章中的上述問題,我們寫了一篇文章進(jìn)行了質(zhì)疑,并把這篇文章放在了arXiv預(yù)印網(wǎng)站上[15]。麻省理工學(xué)院的三位作者看到后,對(duì)我們這篇文章做了回應(yīng)[16]。在他們看來,我們的質(zhì)疑是有道理的,并分別對(duì)這些質(zhì)疑進(jìn)行了解釋與說明。特別是對(duì)文章中“以往的研究沒有超過7種語言”等表述問題向我們致歉,承認(rèn)忽視了我們之前的工作是一個(gè)錯(cuò)誤,并表示將在PNAS上對(duì)這一點(diǎn)進(jìn)行說明與更正。在PNAS隨后刊登的更正中,MIT論文的作者認(rèn)為我們2008年的研究是一項(xiàng)從更普遍的角度驗(yàn)證依存距離最小化的研究,而他們自己則更關(guān)注語序變化對(duì)依存距離最小化的影響。MIT的作者認(rèn)為他們的工作是對(duì)我們2008年的文章等前人研究的一個(gè)補(bǔ)充與精細(xì)化,并強(qiáng)烈建議閱讀他們文章的研究者同時(shí)也應(yīng)該了解我們2008年的研究。
梁:這樣說來,劉老師您的團(tuán)隊(duì)和MIT實(shí)驗(yàn)室的交鋒是卓有成效的。一方面,充分說明了我們浙江大學(xué)計(jì)量語言學(xué)的研究團(tuán)隊(duì)已經(jīng)真正走到了世界前列;另一方面,也許我們的研究團(tuán)隊(duì)與MIT團(tuán)隊(duì)會(huì)有很大的合作空間,當(dāng)然如果您愿意的話。
劉:你用“交鋒”這個(gè)詞,顯得火藥味太濃了。應(yīng)該說,這是一個(gè)比較正常的學(xué)術(shù)討論。我們也不能通過這一個(gè)事情就說我們已經(jīng)在世界前列了,即使我們?cè)诓捎靡来婢浞鋷斓恼Z言研究方面確實(shí)比國外的學(xué)者早了幾年,但仍然需要進(jìn)一步努力。一時(shí)走在前面不難,難的是一直走在前面。MIT的Gibson團(tuán)隊(duì)在語言認(rèn)知方面的研究目前處于世界前列,而我們?cè)诓捎脴?biāo)注語料庫以及語言復(fù)雜網(wǎng)絡(luò)方面的研究要更勝一籌,如果我們兩家可以合作的話,相信會(huì)取得一些有意義的研究成果。MIT這三位作者在他們的郵件和書面回應(yīng)中,也表達(dá)了想與我們合作的愿望。
梁:回顧過去,我們可以發(fā)現(xiàn)從1987年開始,劉老師已經(jīng)付出二十多年孜孜不倦的努力,成果頗豐,有一系列專著和論文。您可以向大家分享一下過去二十年內(nèi)您對(duì)依存距離研究做出的貢獻(xiàn)嗎?
劉:至今為止,依存距離這個(gè)領(lǐng)域可供參考的資料都非常少,也很難找得到。為了滿足大家的需求,我們從1987年開始收集資料,于2009年在科學(xué)出版社出版了《依存語法的理論與實(shí)踐》一書[17]。這本書包含了該領(lǐng)域涉及的主要問題,對(duì)參考文獻(xiàn)和前人所做的研究都有詳盡的介紹,覆蓋范圍很廣。2007年,我們?cè)贕lottometrics上發(fā)表了一篇《依存距離的分布》的文章[18]。這篇文章的一個(gè)主要發(fā)現(xiàn)是,一個(gè)句子偏好依存距離最小的排序,主要是因?yàn)橐来婢嚯x的分布是有規(guī)律的。MIT的這幾位作者在他們?nèi)ツ甑囊粋€(gè)poster論文里也引用了這篇文章。有趣的是,我們?cè)?007年的這篇文章里也研究了依存距離最小化。當(dāng)時(shí),我們發(fā)現(xiàn)真實(shí)語言文本的依存距離基本成一條直線,而且明顯小于幾種隨機(jī)語言。這明確表示自然語言中存在依存距離最小化的傾向。
2007年,我們還利用依存樹庫研究依存距離和依存關(guān)系,在MTT(意義文本理論)的國際會(huì)議上發(fā)表過一篇文章,提出了依存距離最小化以及不同類型的依存關(guān)系優(yōu)選的依存方向也不同[19]。2009年發(fā)表在《語料庫和語言學(xué)理論》雜志的文章中,我們不但提出了依存距離(MDD)的計(jì)算公式,也明確指出漢語的依存距離是最大的[9]。2009年我們還利用多個(gè)樹庫研究了語言的依存距離相關(guān)計(jì)量特征,結(jié)果發(fā)現(xiàn)語料的規(guī)模、語體、標(biāo)注方式、句長等因素都可能對(duì)依存距離及依存方向產(chǎn)生影響[20]。2010年,我們用依存方向作為指標(biāo),從類型學(xué)角度研究了語言分類。該成果發(fā)表在Lingua上,這是第一個(gè)大規(guī)模真實(shí)語言數(shù)據(jù)支持的依存方向或語言類型研究[21]。2012年,我們發(fā)表了一篇關(guān)于羅曼語族語言特征的文章,主要解決兩個(gè)問題:第一,從共時(shí)的角度,是否可以找到區(qū)分羅曼語言和其他語言的客觀指標(biāo)?第二,從歷時(shí)的角度看,如果存在羅曼語族,那個(gè)指標(biāo)是否可以區(qū)分現(xiàn)代羅曼語和拉丁語呢[22]?我們用了15種語言的依存樹庫,包括古希臘語、拉丁語以及現(xiàn)代羅曼語族等六種主要語言。這個(gè)研究明確顯示依存方向(支配詞置后或置前)和依存距離關(guān)系不大,這可以從一個(gè)側(cè)面說明MIT文章的最后一個(gè)觀點(diǎn)有問題。2013年,我們對(duì)語碼轉(zhuǎn)換句子中的依存距離進(jìn)行了研究,成果發(fā)表在Lingua上[23]。2015年年初,我們采用雙語平行依存樹庫對(duì)句子長度與依存距離及方向的關(guān)系以及相鄰依存關(guān)系數(shù)量等進(jìn)行了研究,成果發(fā)表在Language Sciences上[24]。在羅曼語言的研究中我們還發(fā)現(xiàn):現(xiàn)代語言依存距離較短,因?yàn)楝F(xiàn)代語言考慮到人們當(dāng)面交流的需要;而以書面語為主的古典文本,比如拉丁語及古希臘語,依存距離偏大[22]。我們后來從世界語的文本中也發(fā)現(xiàn)這樣的特點(diǎn)[25]。這是我們?cè)谝来婢嚯x方面做的一些主要研究,還有一些其他的相關(guān)成果,這里就不一一介紹了。
梁:從劉老師的介紹中我們不難發(fā)現(xiàn)三個(gè)貫穿始終的關(guān)鍵詞:語言的普遍性、人類認(rèn)知規(guī)律和大數(shù)據(jù)。在這樣一個(gè)研究背景下,您是如何把這三個(gè)熱點(diǎn)融合在一起,構(gòu)建出非常系統(tǒng)的研究框架的?
劉:這可能因?yàn)槲页跎嬲Z言學(xué)領(lǐng)域的經(jīng)歷和別人不同。我最早是學(xué)自動(dòng)化的工科生,對(duì)系統(tǒng)的概念理解比較深刻。不過之前研究的是工業(yè)控制系統(tǒng)的運(yùn)行規(guī)律,現(xiàn)在研究的是語言系統(tǒng)的運(yùn)作規(guī)律。語言的規(guī)律蘊(yùn)藏在每天的聽說讀寫中,我們的研究就是從實(shí)際發(fā)生的自然文本中找規(guī)律。為了發(fā)掘具有普遍性的語言規(guī)律,需要收集大量的語言數(shù)據(jù)。相比傳統(tǒng)的語言學(xué)研究方法,這就算是大數(shù)據(jù)或數(shù)據(jù)密集型語言研究了,這是我們從十幾年前就開始使用的方法。我們大部分人都將語言的普遍性理解成多種語言的普遍規(guī)律,所以我們需要用大量的數(shù)據(jù)來挖掘多種語言存在的規(guī)律。語言研究的價(jià)值和意義就是發(fā)現(xiàn)人類認(rèn)知機(jī)制、社會(huì)及文化對(duì)語言系統(tǒng)的形成與運(yùn)作的影響。語言作為由人驅(qū)動(dòng)的符號(hào)系統(tǒng),受到大腦的約束和限制,所以語言學(xué)家希望通過自然語言挖掘到認(rèn)知規(guī)律,通過認(rèn)知規(guī)律來解釋語言規(guī)律。就一個(gè)很長的詞而言,如果其使用頻率突然增加,這個(gè)詞就會(huì)變得很短。這就是語言受認(rèn)知約束的一個(gè)明顯例子。如果我們從這個(gè)角度來理解語言的話,就不難意識(shí)到語言研究的框架中包括了語言的普遍性、人類認(rèn)知規(guī)律以及大數(shù)據(jù)等內(nèi)容。
梁:謝謝劉老師。剛才劉老師通過交叉學(xué)科的視角分析了語言作為一個(gè)系統(tǒng)的概念。英國的《自然》雜志最近一期的封面有一句話很醒目:Why scientists have to work together to save the world,指出了交叉學(xué)科的重要性。請(qǐng)問您對(duì)語言學(xué)的交叉學(xué)科發(fā)展有什么建議呢?
劉:學(xué)科的劃分本身就是人類因?yàn)槟芰λ薅龀龅囊环N不合理的做法。人類對(duì)人本身、人所處的社會(huì)以及大自然的運(yùn)行規(guī)律感興趣,卻又受能力所限,且每人特長不同,所以才將學(xué)科區(qū)分開來,如同盲人摸象的過程。隨著科學(xué)的發(fā)展和技術(shù)的進(jìn)步,人類通過輔助工具擴(kuò)大自己能力的可能性大大提高,原來只有精力與能力研究大象腿為什么動(dòng)的人現(xiàn)在也可以聯(lián)系其他部位來做出解釋。但從研究本身而言,不存在交叉的問題,因?yàn)楸旧砭褪且粋€(gè)系統(tǒng)。既然語言研究也是研究系統(tǒng)的規(guī)律,為何我們不與時(shí)俱進(jìn),借鑒進(jìn)步迅速、成果豐碩的研究系統(tǒng)的其他方法和工具促進(jìn)語言學(xué)的學(xué)科發(fā)展呢?
梁:最近五年,劉老師的團(tuán)隊(duì)在學(xué)科交叉上做出了顯著成績,為浙江大學(xué)的語言學(xué)學(xué)科發(fā)展做出了重要貢獻(xiàn)。2011年,該團(tuán)隊(duì)獲得了國家社科基金首批跨學(xué)科重大課題,這是浙江大學(xué)第一個(gè)交叉學(xué)科的重大課題。2014年,劉老師團(tuán)隊(duì)的論文發(fā)表在Physics of Life Reviews[26],一個(gè)影響因子高達(dá)9.478的高端學(xué)術(shù)期刊。在浙江大學(xué)積極推進(jìn)世界一流大學(xué)和一流學(xué)科建設(shè)的大環(huán)境下,浙江大學(xué)外語學(xué)院也在制定一流基礎(chǔ)骨干學(xué)科的建設(shè)方案。那么,我很想知道,您對(duì)人文學(xué)科發(fā)展有什么期待和建議呢?
劉:前幾天教育部公示的第七屆社科獎(jiǎng),我們發(fā)表在《科學(xué)通報(bào)》的采用平行語言網(wǎng)絡(luò)進(jìn)行語言分類研究的文章在交叉學(xué)科類獲得三等獎(jiǎng)[27]。從第四屆到第七屆教育部社科獎(jiǎng)的 12年內(nèi),這可能是第一個(gè)獲得交叉學(xué)科獎(jiǎng)的語言學(xué)文章。我們也有另外兩項(xiàng)語言學(xué)的交叉學(xué)科研究雙雙獲得了2015年浙江省第十八屆哲學(xué)社會(huì)科學(xué)優(yōu)秀成果二等獎(jiǎng)[23,28]。2015年初,我們有兩篇文章入選ESI的全球百分之一的高被引文章,一個(gè)是剛才提到的發(fā)表在Physics of Life Reviews的文章[26],另外一個(gè)關(guān)于語言層級(jí)網(wǎng)絡(luò)的文章,發(fā)表在Journal of Chinese Linguistics上[28]。這意味著我們學(xué)院或者浙大人文學(xué)科有兩門學(xué)科(社會(huì)科學(xué)類、生物學(xué)與生物化學(xué)類)進(jìn)入ESI。能做出這樣的成績,是因?yàn)槲覀兘梃b了其他學(xué)科較為成熟的方法來研究人類語言的問題,也就是大家說的交叉學(xué)科或跨學(xué)科。過去我們常認(rèn)為,人文學(xué)科主要靠人類自己的聰明才智思考人類的過去與未來。而在這個(gè)到處都是數(shù)據(jù)的信息時(shí)代,可能應(yīng)該借鑒一些其他學(xué)科的方法與范式來研究人文。我認(rèn)識(shí)的一位荷蘭人Rens Bod寫過一本書叫《人文新史》,他綜述了世界幾大文明傳統(tǒng)人文領(lǐng)域的發(fā)展。這本書的副標(biāo)題是《從古到今對(duì)原則與模式的探索》[29],這意味著人文本身也是探索人類模式和規(guī)律的。所以語言學(xué)可能應(yīng)該借鑒探索模式和規(guī)律的研究方法。如果你使用古人不曾有的工具和方法,你對(duì)人本身的認(rèn)識(shí)、對(duì)社會(huì)的認(rèn)識(shí)、對(duì)自然的認(rèn)識(shí)可能就會(huì)更深入一些。
梁:在訪談結(jié)束之前,劉老師可不可以分享一下在學(xué)術(shù)研究過程中有什么樣的愿景或信念?
劉:我理解的語言學(xué)是探索語言結(jié)構(gòu)和演化規(guī)律的科學(xué)。在我來浙江大學(xué)的五年里,著重在兩個(gè)方向進(jìn)行了努力:一是中國語言學(xué)的國際化,二是語言學(xué)研究的科學(xué)化。我希望在退休之前還能為這“兩化”做一點(diǎn)力所能及的事情。
梁:我非常期待在場的各位老師和同學(xué)們牢記我們的理念,為實(shí)現(xiàn)語言學(xué)研究的“國際化與科學(xué)化”做出堅(jiān)持不懈的努力。感謝劉老師的分享!感謝各位老師和同學(xué)們的參與!
(感謝徐春山博士參與訪談?lì)}目的討論、訪談內(nèi)容的確定、訪談文本的后期整理工作;感謝敬應(yīng)奇、方圓圓、牛若晨等研究生為本文所做的文字轉(zhuǎn)寫工作!)
[1]R.Futrell,K.Mahowald&E.Gibson,″Large-scale Evidence of Dependency Length Minimization in 37 Languages,″Proceedings of the National Academy of Sciences,Vol.112,No.33(2015),pp.10336-10341.
[2]O.Bhhaghel,″BeziehungenZwischenUmfangundReihenfolgevonSatzgliedern,″ Indogermanische Forschungen,Vol.25(1909),pp.110-142.[O.Behaghel,″Relations between the Scope and Order of Sentence Elements,″Indo-European Research,Vol.25(1909),pp.110-142.]
[3]F.I.C.Ramon,″Euclidean Distance between Syntactically Linked Words,″Physical Review E,Vol.70,No.5 (2004),pp.148-168.
[4]C.O’Grady,″MIT Claims to Have Found a′Language Universa′lThat Ties All Languages Together:A Language Universal Would Bring Evidence to Chomsky’s Controversial Theories,″2015-08-06,http://arstechnica.co.uk/ science/2015/08/mit-claims-to-have-found-a-language-universa-ltha-tties-al-llanguages-together/,2015-08-16.
[5]N.Chomsky,Language and Thought,Wakefield:Moyer Bell,1983.
[6]L.Tesn iè re,E lé ments de La Syntaxe Structural,Paris:Klincksieck,1959.[L.Tesn iè re,Elements of Structural Syntax,Paris:Klincksieck,1959.]
[7]R.Hudson,An Introduction to Word Grammar,Cambridge:Cambridge University Press,2010.
[8]R.Hudson,″Measuring Syntactic Difficulty,″http://www.phon.ucl.ac.uk/home/dick/dif culty.htm,2008-07-06.
[9]H.T.Liu,R.Hudson&Z.W.Feng,″Using a Chinese Treebank to Measure Dependency Distance,″Corpus Linguistics and Linguistic Theory,Vol.5,No.2(2009),pp.161-174.
[10]R.Hudson,″Foreword,″in H.T.Liu(ed.),Dependency Grammar:From Theory to Practice,Beijing: Science Press,2009,pp.52-59.
[11]J.B.Carroll(ed.),Language,Thought and Reality,Cambridge:MIT Press,1956.
[12]H.T.Liu,″Dependency Distance as a Metric of Language Comprehension Difficulty,″Journal of Cognitive Science,Vol.9,No.2(2008),pp.159-191.
[13]D.Temperley,″Minimization of Dependency Length in Written English,″Cognition,Vol.105,No.2(2007), pp.300-333.
[14]D.Gildea&D.Temperley,″Do Grammars Minimize Dependency Length?″Cognitive Sciences,Vol.34,No.2 (2010),pp.286-310.
[15]H.T.Liu,C.S.Xu&J.Y.Liang,″Dependency Length Minimization:Puzzles and Promises,″2015-09-15, http://arxiv.org/abs/1509.04393,2015-09-16.
[16]R.Futrell,K.Mahowald&E.Gibson,″Response to Liu,Xu,and Liang(2015)and Ferrer--iCancho and G ó mez-Rod rí guez(2015)on Dependency Length Minimization,″2015-10-01,http://arxiv.org/abs/ 1510.00436,2015-10-03.
[17]劉海濤:《依存語法的理論與實(shí)踐》,北京:科學(xué)出版社,2009年。[Liu Haitao,Dependency Grammar: Theory and Practice,Beijing:Science Press,2009.]
[18]H.T.Liu,″Probability Distribution of Dependency Distance,″Glottometrics,Vol.15(2007),pp.1-12.
[19]H.T.Liu,″Dependency Relations and Dependency Distance:A Statistical View Based on Treebank,″in K. Gerdes,T.Reuther&L.Wanner(eds.),Meaning-Text Theory2007:Proceedings of the3rd International Conference on Meaning-Text Theory,Klagenfurt,May20-24,2007,M ü nchen:Verlag Otto Sagner, 2007,pp.269-278.
[20]H.T.Liu,Y.Y.Zhao&W.W.Li,″Chinese Syntactic and Typological Properties Based on Dependency Syntactic Treebanks,″PoznańStudies in Contemporary Linguistics,Vol.45,No.4(2009),pp.509-523.
[21]H.T.Liu,″Dependency Direction as a Means of Word-order Typology:A Method Based on Dependency Treebanks,″Lingua,Vol.120,No.6(2010),pp.1567-1578.
[22]H.T.Liu&C.S.Xu,″Quantitative Typological Analysis of Romance Languages,″Poznań Studies in Contemporary Linguistics,Vol.48,No.4(2012),pp.597-625.
[23]L.Wang&H.T.Liu,″Syntactic Variation in Chinese-English Code-switching,″Lingua,No.1(2013), pp.58-73.
[24]J.Y.Jiang&H.T.Liu,″The Effects of Sentence Length on Dependency Distance,Dependency Direction and the Implications:Based on a Parallel English-Chinese Dependency Treebank,″Language Sciences,Vol.50 (2015),pp.93-104.
[25]H.T.Liu,″Quantitative Analysis of Zamenhof’s Esenco Kaj Estonteco,″Language Problems&Language Planning,Vol.35,No.1(2011),pp.57-81.
[26]J.Cong&H.T.Liu,″Approaching Human Language with Complex Networks,″Physics of Life Reviews, Vol.4(2014),pp.598-618.
[27]H.T.Liu&J.Cong,″Language Clustering with Word Co-occurrence Networks Based on Parallel Texts,″Chinese Science Bulletin,No.10(2013),pp.1139-1144.
[28]H.T.Liu&J.Cong,″Empirical Characterization of Modern Chinese as a Mult-ilevel System from the Complex Network Approach,″Journal of Chinese Linguistics,No.1(2014), pp.1-38.
[29]R.Bod,A New History of the Humanities:The Search for Principles and Patterns from Antiquity to the Present,Oxford:Oxford University Press,2013.
Interdisciplinary Studies of Linguistics:Language Universals,Human Cognition and Big-data Analysis
Liang Junying Liu Haitao
(School of International Studies,Zhejiang University,Hangzhou310058)
This interview examines a recent study on Dependency Distance(length)Minimization, introduces earlier works on and the significance of this topic.
Dependency distance,or,dependency length,is taken as an insightful metric of syntactic complexity in the framework of dependency grammar(DG).According to dependency grammar, the syntactic structure of a sentence consists of nothing but dependencies between individual words— an assumption that is widely accepted not only in computational linguistics but also in theoretical linguistics.A dependency relation has the following core properties:it is a binary relation between two linguistic units;it is usually asymmetrical,with one of the two units actingas the governor and the other as dependent;it is classified in terms of a range of general grammatical relations,as shown conventionally by a label on top of the arc linking the two units.
Sentences are linearly unfolded,and as a result,the governor and the dependent may or may not be adjacent.That is,there may be different linear distances between governors and dependents.This linear distance is termed as dependency distance(length),usually measured by the number of the intervening words between them,which is believed to have much to do with parsing(processing)difficulty.
In terms of dependency grammar(DG),the syntactic parsing of a sentence is based on successive input of individual words,committed to establishing,at each parsing state,syntactic relation between the presently processed word and a previous one.As a cognitive activity, syntactic parsing is complemented via working memory,on which different burdens may be imposed by different dependency distances:the intervening words may either strain the capacity the WM or result in,owing to time-decay of memory,difficult retrieval of a previous word. Hence,longer dependency distance,or more intervening words,probably means more syntactic complexity and higher cognitive cost in processing.
Given the cognitive possibility that dependency distance positively correlates with syntactic complexity and processing difficulty,it may be assumed that human languages,which are definitely constrained by general cognitive mechanisms,should prefer structures with short dependency distances for the sake of less demand on working memory resources.This tendency is termed as Dependency Distance Minimization(DDM):in natural languages,a sentence should be structured in such a way so as to minimize its overall dependency distance syntactically related words in this sentence.The DDM hypothesis is presumed as one possible linguistic universal motivated by general human cognition.
Obviously,the hypothesis of DDM is deduced from the cognitive assumption that working memory is limited in capacity and subject to time-invoked forgetting.Thus the validity of this hypothesis should be empirically tested.Evidences in support of the preference for short dependency distance were first found in comprehension experiments on different types of relative clauses(RC).However,due to the high cost and laboriously careful design,the experiments are usually conducted upon a small number of subjects and a limited range of artificially composed linguistic material.Therefore,when it comes to language universals like DDM,large corpusbased quantitative study may serve as a significant supplement to psychological experiments, especially in this big data era.Verbal communication is by nature a type of human behavior which is regulated,to a considerable degree,by human cognition.That is,there might well be some cognition-shaped patterns or universals in language.With the development of computer science, big-data-based statistical analysis has become one important means to detect patterns in various human behaviors.In this sense,large-scale corpus,which gives researchers easy access to big data of verbal behaviors,may contribute much to scientific linguistic researches that aim to detect linguistic patterns and to trace their cognitive motivations.In other words,if DDM is a general cognition-shaped tendency in language,corpus-based big-data analysis should be able to detect this tendency.What is noticeable is that investigation into DDM demands a dependency treebank, that is,corpus annotated with syntactic relations between words,because DD is concerned withthe linear length of the syntactic relations between words.
This interview briefly reviews the cognitive DDM researches based on corpus-data and comments on some existent problems and future directions in this field.In the past,linguistic universals were rarely considered in terms of cognitive constraints and seldom pursued through corpus-based big-data analysis.However,as expounded in this interview,researches into DDM in human languages reveal that it is valuable to cognitively investigate linguistic universals through statistical analysis of big-language-data,which strongly suggests that,to obtain truly scientific discoveries,it may well be essential for linguistic studies to integrate efforts from multiple disciplines— cognitive science,mathematics,physics and biology,to name just a few.
Dependency Distance Minimization;language universals;cognitive science;big-data
2015-10-23[本刊網(wǎng)址·在線雜志]http://www.journals.zju.edu.cn/soc
[在線優(yōu)先出版日期]2016-01-06[網(wǎng)絡(luò)連續(xù)型出版物號(hào)]CN33-6000/C
國家社會(huì)科學(xué)基金重大項(xiàng)目(11&ZD188)
1.梁君英(http://orcid.org/0000-0002-3603-294X),女,浙江大學(xué)外國語言文化與國際交流學(xué)院教授,博士生導(dǎo)師,心理學(xué)博士,主要從事心理語言學(xué)、構(gòu)式語法與依存語法、雙語加工等方面的研究;2.劉海濤(http://orcid.org/0000-0003-1724-4418),男,浙江大學(xué)外國語言文化與國際交流學(xué)院求是特聘教授,博士生導(dǎo)師,文學(xué)博士,主要從事計(jì)量語言學(xué)、語言復(fù)雜網(wǎng)絡(luò)、配價(jià)理論與依存語法等方面的研究。
10.3785/j.issn.1008-942X.CN33-6000/C.2015.10.231
浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版)預(yù)印本2016年1期