鄧曉華,高天俊
(1.廈門大學人類學與民族學系,福建 廈門 361005;2.廈門大學 中文系,福建廈門 361005)
演化語言學是以達爾文進化論為基礎(chǔ)的語言學,主要關(guān)注語言的起源與發(fā)展的問題。20世紀80年代以來,受遺傳學、分子人類學、數(shù)理統(tǒng)計學等學科發(fā)展的影響,演化語言學在國外迅速興起,取得了許多重要的突破;同時,演化語言學在國內(nèi)也開始受到重視,其理論與方法被廣泛引入,在演化理論指導下的科學實踐逐步展開。演化語言學理論的興起,為語言研究打開了一個新的窗口。
1859年,達爾文在其《物種起源》一書中首次系統(tǒng)地提出演化論,指出生物是進化的,自然選擇是生物進化的動力。隨后演化論產(chǎn)生巨大影響,不僅成為現(xiàn)代生物學的基石,還成為其他許多學科的重要指導理論。而在演化論產(chǎn)生之初,其思想就已與語言學聯(lián)系了起來。在1871年出版的《人類的起源》一書中,達爾文就已經(jīng)注意到生物演化和語言演化之間存在一種令人驚奇的對應(yīng)現(xiàn)象,二者在許多特征上都具有相似性。他在《物種起源》一書中就提出一個設(shè)想:如果我們能夠畫出一張人類族群的發(fā)展樹狀圖,就可以從中得到一張囊括現(xiàn)今世界上所有語言的分類圖。1863年,德國語言學家施萊歇爾《達爾文理論與語言學》一書出版,該書全面接受了達爾文的進化論,并使用生物學上的種系樹圖方法,為印歐語系畫出了第一張譜系樹圖,同時還提出樹圖中分支的長度也許可以表示時間深度的理論。樹形圖被用在比較語言學上,成為分析、表現(xiàn)語言之間譜系關(guān)系的重要方法。
除了都具有類似的譜系關(guān)系外,生物學和語言學在其他許多方面也有著重要的平行對應(yīng)關(guān)系。比如,二者都可以通過同源結(jié)構(gòu)推測共同祖先:生物學中可以通過蛋白質(zhì)與DNA序列的相似性來確定它們是否具有共同的祖先,而語言學中則可根據(jù)同源詞來推定語言的共同祖先。此外在生物遺傳和語言演變過程中,都會發(fā)生突變等縱向的變化以及漂移等橫向的變化:生物學中細胞在分裂時會發(fā)生基因復制錯誤,產(chǎn)生突變,而語言演變中也會出現(xiàn)諸如非條件音變之類的語言創(chuàng)新,這是語言演變中的突變。橫向來看,生物學中會發(fā)生基因組在不同物種之間轉(zhuǎn)移的水平基因轉(zhuǎn)移(horizontal gene transfer)現(xiàn)象,而語言演化中則經(jīng)常發(fā)生詞匯、語音及語法的借用,形成語言結(jié)構(gòu)的水平傳遞。此外,生物學和語言學之間還廣泛存在著許多其他重要的對應(yīng)現(xiàn)象,Q.D.Atkinson(2005)將這些對應(yīng)現(xiàn)象總結(jié)為下頁表1。
表1 生物學和語言學中的平行概念[1]
人類的起源與擴散和語言的產(chǎn)生與發(fā)展有著緊密的聯(lián)系。語言是人類得以和其他動物區(qū)別開來的最重要的特征之一。近年來,遺傳學界對人類mtDNA和Y染色體DNA的研究成果顯示,現(xiàn)在全世界的人類都是大約20萬年前一位非洲婦女(線粒體夏娃)的后代,即現(xiàn)代人類是起源于非洲的。非洲起源說是目前國際學術(shù)界關(guān)于人類起源的主流學說。著名人口遺傳學家卡瓦利(Cavalli-Sforza)認為,智人之所以能夠成功地由非洲擴散至全世界,正是因為他們發(fā)明了一種極為重要的工具——人類所獨有的語言[2]。語言的擴散與人類的擴散所具有的緊密聯(lián)系,使得兩個學科有著共同的目標,面向共同的問題,因此演化生物學和演化語言學的理論與方法也可以互相參考與借用。
演化生物學中的譜系樹理論、定性的觀念以及定量的方法都已經(jīng)被應(yīng)用到語言學中,對歷史語言學的發(fā)展起到了較大的促進作用。語言學家運用演化理論,為語言演變建立了各種理論模型,用以解釋語言演變的過程。下面簡要介紹幾種演化語言學中來自于演化生物學的理論。
演化生物學中最早被借用到語言學中的理論是譜系樹理論。自演化論產(chǎn)生以來,樹形圖就被用來描述物種之間的發(fā)生學上的種系關(guān)系。而自施萊歇爾開始,語言學家們也開始運用譜系樹理論,描述語言之間的譜系關(guān)系以及語言特征的縱向傳遞過程。譜系樹模型只能用來描述語言演化中語言特征的縱向傳遞(遺傳特征),而實際上語言之間還通過接觸廣泛進行著橫向傳遞(借用現(xiàn)象)。如何客觀反映語言演變中的橫向傳遞很早就受到語言學家的關(guān)注。早在19世紀,Johannes Schmidt就提出了描述語言特征地域性擴散的“波浪學說”,補充了譜系樹模型在描述語言橫向傳遞方面的不足。卡瓦利和王士元(1986)又將人口遺傳學中的“腳踏石模型”[3]應(yīng)用到語言演變研究中,使用計量分析方法研究了密克羅尼西亞一系列島鏈上的詞匯,研究結(jié)果反映出詞匯在空間上的替代速率與時間上的替代速率具有明顯的正相關(guān)性[4]。他們的研究為探索語言的橫向傳遞與縱向傳遞的關(guān)系開辟了新的視角。
模因論是另一個受生物演化理論影響而產(chǎn)生的文化傳遞模型。1976年,道金斯(Dawkins)在其《自私的基因》一書中,將文化傳承、發(fā)展的過程和生物演化過程進行類比,提出模因理論[5]。他認為文化“演化”中的基本單位模因(Meme)同生物演化中的基因一樣,都是通過復制實現(xiàn)傳播與遺傳的,復制過程中的“突變”導致變體的產(chǎn)生,變體通過競爭實現(xiàn)自然選擇。道金斯還特別指出文化演化與生物演化具有明顯的差異,即生物演化是通過基因的代際縱向傳遞實現(xiàn)的,而文化演化中模因的復制則是通過人的模仿而橫向擴散傳播的。道金斯的模因論適應(yīng)面非常廣泛,包含了文化現(xiàn)象的方方面面,而在語言學方面,已有學者使用該理論來研究語言演變的模式。如Ritt(2004)認為語言作為一種文化現(xiàn)象也可以用模因論來解釋:音素、詞素及語音規(guī)則等是語言中的基本的演化單位,因此都是模因。語言模因通過說話人的模仿而復制傳播,復制過程中的缺陷(類似基因突變)導致了變體的產(chǎn)生。語言模因變體在各種選擇壓力的推動下相互競爭,模因之間的相互適應(yīng)就是一種選擇壓力,他嘗試使用這種選擇壓力理論解釋了英語中音步結(jié)構(gòu)與元音演變之間的互動關(guān)系[6]。
達爾文提出進化論,孟德爾發(fā)現(xiàn)基因,極大地促進了演化生物學的發(fā)展。20世紀中葉,Watson和Crick闡明了DNA的精確結(jié)構(gòu),隨后DNA序列被測出,由此產(chǎn)生了大量待分析的數(shù)據(jù),促使生物學家們積極地引入了數(shù)學統(tǒng)計和計算方法。目前生物學中已經(jīng)形成了許多成熟的種系計算方法,這些方法也逐漸被應(yīng)用到語言學中,用來精確地計算語言之間的距離關(guān)系,使得語言譜系的建立得以突破傳統(tǒng)的依賴于經(jīng)驗的定性分類法,開始進入可驗證的實證性研究階段。
斯瓦迪士的“詞源統(tǒng)計法”是最早引入語言學中的一個距離算法。詞源統(tǒng)計法通過語言間同源詞的比例建立它們的距離矩陣,然后通過距離矩陣推理出語言譜系結(jié)構(gòu)。雖然他因其詞匯替代速率是恒定的假設(shè)等問題而廣受批評,但是其引入的定量方法卻為計算語言分裂年代及時間深度的研究開辟了新的思路。最近幾十年來,其他距離法,系統(tǒng)發(fā)生學中的最大簡約法(Maximum parsimony)①生物學中系統(tǒng)發(fā)生學的一種計算方法,根據(jù)分子序列的變異程度,分析生物之間的演化關(guān)系,并據(jù)此建構(gòu)出演化樹。、統(tǒng)計學中的貝葉斯法等都開始被引入語言演化的研究中。比如,Minett and Wang(2003)使用一種距離法和一種特征法試圖區(qū)分語言間的同源和借用情況。他們首先通過比較樹枝長度和詞匯距離的方法檢驗了詞源統(tǒng)計法中基于距離的方法,發(fā)現(xiàn)該方法無法將借用和同源區(qū)分開來。隨后,他們又使用了一種基于特征的最大簡約法來分析中國幾種主要方言的數(shù)據(jù),發(fā)現(xiàn)該方法可以確定漢語中相似和借用的情況。[7]這類新的數(shù)學方法的應(yīng)用,為解決傳統(tǒng)歷史比較法難以區(qū)分同源和借用的問題指明了新的方向。
此外,隨著計算機處理能力的飛速發(fā)展,計算機建模也成為演化語言學中的一種重要的研究方法。對于人類語言起源等無法直接觀察的問題,計算機建模的作用非常明顯,因為“它是可以透視這個問題的少數(shù)幾個窗口之一”,通過計算機模型“我們可以虛構(gòu)一個簡單的世界,專門來研究個別的問題。”[8]王士元、柯津云(2001)建立了一個模型用來模擬語言產(chǎn)生之初的場景,該模型設(shè)計了人群大小、信號和概念數(shù)量等3組變量及人們互相之間模仿的5種策略,用以觀察這些因素對語言起源場景下共同信號系統(tǒng)形成的影響。通過對模擬仿真結(jié)果的數(shù)學分析,他們發(fā)現(xiàn)人數(shù)和聲音數(shù)目(信號)越少,人群越容易形成統(tǒng)一的信號系統(tǒng)。而在人群規(guī)模不大的時候,“為跟隨大多數(shù)或者減少同音詞而模仿對方”的策略是形成共同信號系統(tǒng)的最優(yōu)方案。[9]這類計算機仿真模型可以將復雜的語言問題簡單化,針對性地研究復雜語言現(xiàn)象中的某些具體因素,同時還可以通過增加、修改參數(shù)的方式,了解各種因素之間的相互關(guān)系,進而深入了解各種語言現(xiàn)象的本質(zhì)。
目前,演化語言學在國內(nèi)也開始迅速發(fā)展,以演化理論為指導和運用新的演化語言學方法的研究也逐漸豐富。我們在中國的語言和方言的分類問題上,采用新的理論與方法,做了有益的探索。
傳統(tǒng)的關(guān)于中國語言及方言分類的研究,都是通過音韻、詞匯、音變類型等特征及規(guī)則進行的定性描寫,并以這些特征和規(guī)則作為分類標準來建立語言間的譜系分類關(guān)系。因此傳統(tǒng)的譜系分類研究存在兩個問題:一是分類標準的確立主觀性較強,使得分類結(jié)果可信度不高;二是缺乏對分類特征權(quán)重的計算,無法量化語言及方言間的親疏程度,無法確定各語言由原始母語分裂出來的時間深度。
為克服傳統(tǒng)譜系分類研究的不足,我們引入了最新的生物學種系發(fā)生理論和方法,結(jié)合語言學中的詞源統(tǒng)計分析法,使用計算機算法程序,對中國的語言及方言的譜系分類重新進行了研究。②參見:鄧曉華、王士元的《苗瑤語族語言親緣關(guān)系的計量研究——詞源統(tǒng)計分析方法》(《中國語文》,2003年第3期:253-263);《古閩、客方言的來源及歷史層次問題》(《古漢語研究》,2003年總第59期:9-12);《藏緬語族語言的數(shù)理分類及其分析》(《民族語文》,2003年第4期:8-18)。
在研究材料上,我們收集了漢藏語系的苗瑤語族、壯侗語族、藏緬語族各12支語言、南島語系和南亞語系的6種語言以及漢語閩、客方言中各6-10個方言點的基本詞匯數(shù)據(jù),并以斯瓦迪士100核心詞為基礎(chǔ),結(jié)合各語言(方言)的人文特點,對100核心詞加以優(yōu)選、增補,確定研究的基本核心詞。同時為了解決詞目與義項相糾葛的問題,我們采用了“詞根詞源統(tǒng)計法”,使用較嚴格的語義對應(yīng)原則確立核心詞[10]。
在以上核心詞的基礎(chǔ)上,我們使用“詞源統(tǒng)計分析法”進行分析、計算,繪制出了語言種系發(fā)生的樹狀圖,并計算漢藏語系各語言及方言從祖語分裂出來的時間?!霸~源統(tǒng)計分析法”的操作過程主要分為幾步[11]:(1)根據(jù)核心同源詞,編制出同源詞表,并計算出各對語言之間的同源百分比,形成相似矩陣(Similarity Matrix)。相似矩陣的確立是計量研究的基礎(chǔ),也是決定各方言間關(guān)系最關(guān)鍵的一步。(2)為能夠反映各語言間的距離,我們通過公式d=-log s③d代表距離,s代表相似數(shù)字;負對數(shù)值百分比越大,則距離越小;這表明時間距離越長,同樣的詞匯就越有機會發(fā)生變化。將相似矩陣轉(zhuǎn)換為距離矩陣(Distance Matrix),以距離數(shù)據(jù)作為樹狀圖分支長度計算的數(shù)據(jù)基礎(chǔ)。(3)將距離矩陣轉(zhuǎn)換成無根樹的過程計算量巨大,為此我們借用了生物學中為種系發(fā)生分類設(shè)計的計算程序④我們使用的公式為P(La,Lb)=r2t及t=lg(P(La,Lb))/(2lg r)。其中P(La,Lb)代表兩種語言中保留的基本詞匯的比例;r為每千年的保留率,t表示每千年分離的值。,通過計算各對語言之間的距離,優(yōu)選生成最合理的樹形圖。(4)通過語言間共用核心詞的不同比例來計算各語言及方言從祖語分裂出來的時間。同時我們還計算了樹圖中各個分離點的時間深度,可以形成對整個語群演化過程的整體認識。
我們的研究結(jié)合了分子人類學與詞源統(tǒng)計分析法等先進的研究方法,結(jié)合定性分析與定量分析,對中國的語言及方言的發(fā)生學關(guān)系做出了科學的測定和分類??鐚W科理論與方法結(jié)合的研究在國內(nèi)尚處于開創(chuàng)時期,但是這方面的探索有望在語言學領(lǐng)域突破。
演化論作為現(xiàn)代科學最重要的基石之一,已經(jīng)成為許多學科的基礎(chǔ)理論。近幾十年來,隨著演化生物學、分子人類學、數(shù)理統(tǒng)計學以及計算語言學的發(fā)展,演化語言學興起的條件已經(jīng)成熟,關(guān)于人類語言的起源與演化等曾經(jīng)被束之高閣的問題也有了新的研究途徑。演化語言學的研究需要積極引入遺傳學、分子人類學、統(tǒng)計學等相關(guān)學科的先進理論、方法,結(jié)合考古學、體質(zhì)人類學和人口遺傳學的材料與證據(jù),與各學科合作,共同推進對語言起源與演化問題的研究。
[1]Atkinson Q D,Gray R D.Curious Parallels and Curious Connections:Phylogenetic Thinking in Biology and Historical Linguistics[J].Systematic Biology,2005,54(4):513 - 526.
[2]Cavalli-Sforza L L.追蹤亞當與夏娃——從演化歷史看基因、民族和語言的關(guān)系[M].中國臺北:遠流出版事業(yè)股份有限公司,2003:96.
[3]Kimura M,Weiss G H.The stepping stone model of population structure and the decrease of genetic correlation with distance[J].Genetics,1964,49(4):561.
[4]Cavalli- Sforza L L,Wang W S Y.Spatial Distance and Lexical Replacement[J].Language,1986,62(1):38 - 55.
[5]Dawkins R.The Selfish Gene[M].Oxford University Press,1976.
[6]Ritt N.Selfish sounds and linguistic evolution:A Darwinian approach to language change[M].Cambridge University Press,2004.
[7]Minett J W,Wang W S Y.On detecting borrowing:distance- based and Character- based approaches[J].Diachronica,2003(2):289-330.
[8]王士元.演化語言學中的電腦建模[J].北京大學學報:哲學社會科學版,2006(2):17-22.
[9]王士元,柯津云.語言的起源及建模仿真初探[J].中國語文,2001(3):195-200.
[10]鄧曉華,王士元.壯侗語族語言的數(shù)理分類及其時間深度[J].中國語文,2007,321(6):536 -548.
[11]鄧曉華,王士元.中國的語言及方言的分類[M].北京:中華書局,2009:4-6.