馬之杰 秦雅博 鄭超逸
摘要:世界上有超過(guò)6900種語(yǔ)言。主要語(yǔ)言的使用者構(gòu)成了絕大多數(shù)世界人口。其中包含了單一使用母語(yǔ)人士和使用第二或第三語(yǔ)言的人士。隨著經(jīng)濟(jì)和文化的全球化,不同語(yǔ)言使用者的分布也發(fā)生變化。語(yǔ)言者的數(shù)量可能隨時(shí)間演變而增加或減少。它們的地理分布可能同時(shí)發(fā)生變化。語(yǔ)言分布的變化與文化政策、移民、教育、商業(yè)關(guān)系和國(guó)際交流等都有著密切的相關(guān)性。該文考慮多重因素的影響下,預(yù)測(cè)了不同語(yǔ)言者分布隨時(shí)間變化的人口在地理分布規(guī)律。這些預(yù)測(cè)結(jié)果可以對(duì)商業(yè)運(yùn)作提供參考性建議。
關(guān)鍵詞:馬爾科夫模型;微分方程;語(yǔ)言流
中圖分類(lèi)號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)18-0237-03
首先為了便于模型的一般性推廣,我們給定以下的一般性假設(shè):
[·]假設(shè)全球人口增長(zhǎng)率在不久的將來(lái)是穩(wěn)定的。
[·]假設(shè)我們所做的研究是基于可信數(shù)據(jù)的。我們僅利用現(xiàn)有數(shù)據(jù)提供可行的預(yù)測(cè)方案。
[·]忽視語(yǔ)言人數(shù)和移民人數(shù)由于戰(zhàn)爭(zhēng)、自然災(zāi)害等不可抗因素導(dǎo)致的突然變化。
1 基于馬爾可夫模型的語(yǔ)言分布預(yù)測(cè)
1.1 模型組建
在馬爾科夫模型中,在某一時(shí)刻,一組對(duì)應(yīng)于每個(gè)狀態(tài)的值被稱(chēng)為分布序列[1]。在馬氏過(guò)程中,每個(gè)狀態(tài)中的單元有可能一步轉(zhuǎn)入另一個(gè)狀態(tài)(包括自轉(zhuǎn)移)。
我們定義各類(lèi)語(yǔ)言的語(yǔ)言者分布序列[ξk=a0,a1,…]以描述語(yǔ)言分布,其中,[k]為年份, [ai]指第[k]年的分布序列中第[ith]狀態(tài)的的值, 我們定義其值為第[ith]種語(yǔ)言者的數(shù)量。每個(gè)分布序列通過(guò)轉(zhuǎn)移概率矩陣的作用后,我們得到下一年的分布序列:[ξkMk=ξk+1]其中,[k]為時(shí)間序號(hào),轉(zhuǎn)移概率矩陣[Mk][1]單元[pij]描述在下一年從[ith]狀態(tài)轉(zhuǎn)移至[jth]狀態(tài)的概率。
[Mk=p11p12…p1np21p22…p2n......pij...pn1pn2…pnn]
在馬爾科夫模型中,矩陣的行求和概率符合歸一化限制條件,由概率的性質(zhì)給出[pij∈0,1j=1npij=1]
隨時(shí)間變化規(guī)律可以視為按年度離散的多步馬爾科夫過(guò)程,我們可以通過(guò)累乘[ξ(t+1)=ξ(1)k=1tMk]來(lái)計(jì)算多步馬爾可夫過(guò)程,其中[ξ(1)]和[ξ(t+1)]依次是初始分布和第t年分布。
針對(duì)于語(yǔ)言者分布的變化,自我轉(zhuǎn)移對(duì)應(yīng)于語(yǔ)言繼承,這意味著一部分語(yǔ)言者在一步轉(zhuǎn)移中保持不變。相互轉(zhuǎn)移對(duì)應(yīng)于語(yǔ)言從一個(gè)到另一個(gè)語(yǔ)言的演化,受到語(yǔ)言使用者比例(SS),移民情況(IS),文化政策(CP)和文化交流(ICC)等因素的影響,按圖1的邏輯結(jié)構(gòu)以確定本模型中各概率:
自轉(zhuǎn)移概率:由于在正常情況下,只有少數(shù)語(yǔ)言者會(huì)自發(fā)地轉(zhuǎn)變成另一種語(yǔ)言者,我們認(rèn)為大多數(shù)發(fā)言者都是遵循“語(yǔ)言繼承”,我們給定自我轉(zhuǎn)移概率[pij=0.98i=j]
互轉(zhuǎn)移概率:由上易得語(yǔ)言者的總互轉(zhuǎn)移概率為2%,對(duì)應(yīng)于矩陣行求和概率,每?jī)煞N語(yǔ)言間的轉(zhuǎn)移比例是不確定的,我們應(yīng)該采取定量指標(biāo)的比例來(lái)確定剩余概率:[pij=2%×Fij/j=1nj≠iFij i≠j]其中[Fij]是與語(yǔ)言規(guī)模,移民規(guī)模,文化政策和國(guó)際文化交流有關(guān)的綜合指標(biāo)。為了獲得上述指標(biāo)的量化描述,我們?cè)谀P椭袑⑸鲜鏊膫€(gè)方面定量調(diào)整為語(yǔ)言者相對(duì)規(guī)模(RSS),人文發(fā)展指數(shù)(HDI)[4],移民水平指數(shù)(ELI)[4]和全球化指數(shù)(GI)[4]。
首先,兩種語(yǔ)言之間的規(guī)模差距越大,較小規(guī)模的語(yǔ)言越有可能演化為另一個(gè)。因此,我們可以通過(guò)兩種語(yǔ)言的規(guī)模之比來(lái)定義語(yǔ)言者的相對(duì)規(guī)模:[RSS=Pj/Pi]
根據(jù)報(bào)道,人類(lèi)發(fā)展指數(shù)[4]是定義在0-1區(qū)間內(nèi)的衡量人類(lèi)實(shí)現(xiàn)預(yù)期壽命,教育程度和體面生活的人類(lèi)發(fā)展的綜合指標(biāo):[HDIj∈0,1]對(duì)于分布在多個(gè)國(guó)家的語(yǔ)言,我們用這些國(guó)家的平均人文指數(shù)來(lái)描述該語(yǔ)言的移民水平指標(biāo)。
根據(jù)目前世界移民總體趨勢(shì)[4],目前世界上最明顯的人口流動(dòng)趨勢(shì)是從發(fā)展中國(guó)家到發(fā)達(dá)國(guó)家。貧困地區(qū)為主要流出地,發(fā)達(dá)地區(qū)為主要流入地。我們定義發(fā)達(dá)國(guó)家的移民水平指數(shù)為“3”,主要發(fā)展中國(guó)家為“2”,貧困發(fā)展中國(guó)家為“1”,并同樣利用分布國(guó)家的總平均值該指標(biāo):
全球化指數(shù)[4]是描述經(jīng)濟(jì),社會(huì)和政治方面全球化的量化指標(biāo),與國(guó)際文化交流水平成正比:[GI∈0,100 ,100 代表最高國(guó)際化水平]
對(duì)于母語(yǔ)者來(lái)說(shuō),母語(yǔ)由成長(zhǎng)環(huán)境決定,并且在成長(zhǎng)后不會(huì)改變,所以我們認(rèn)為母語(yǔ)人數(shù)不會(huì)受到國(guó)際文化交流的影響;對(duì)于第二語(yǔ)言者來(lái)說(shuō),主要受語(yǔ)言規(guī)模,移民局勢(shì)和國(guó)際文化交流的影響:。通過(guò)乘積來(lái)量化定義這些指標(biāo),我們最終得到[Fij]的表達(dá)式:
對(duì)綜合指標(biāo)[Fij]量化后,我們能計(jì)算出轉(zhuǎn)移概率和轉(zhuǎn)移概率矩陣。由于計(jì)算母語(yǔ)者和第二語(yǔ)言者的分布存在差異,我們將這兩部分看作是獨(dú)立的馬爾可夫過(guò)程,并依次給出[Mk]、[Mk']相關(guān)的遞歸關(guān)系:
1.2 算法處理
根據(jù)馬爾可夫模型的特點(diǎn),我們可以采用迭代算法[2] [3]來(lái)計(jì)算各種語(yǔ)言者分布的預(yù)測(cè)情況。在前一個(gè)輸出可用作下一個(gè)輸入的情況下使用迭代算法。圖2可闡述其邏輯結(jié)構(gòu)。
步驟1:輸入語(yǔ)言使用者的分布以及目前的RSS,HDI,DLI,GI。
步驟2:計(jì)算當(dāng)年的RSS并更新一步馬爾可夫過(guò)程的傳輸概率矩陣
步驟3:轉(zhuǎn)移矩陣作用于初始分布并獲得下一年的分布情況。
步驟4:先前的輸出值作為下一年的輸入值,并重復(fù)迭代50次。
對(duì)于母語(yǔ)者和第二語(yǔ)言使用者,我們獨(dú)立地對(duì)這兩部分進(jìn)行馬爾科夫預(yù)測(cè),最后將它們相加得到語(yǔ)言總?cè)丝诘臄?shù)量分布。
1.3 預(yù)測(cè)結(jié)果
通過(guò)迭代算法,我們可以得到預(yù)測(cè)的未來(lái)50年每種語(yǔ)言在每一年的數(shù)量分布,這在附錄中給出。我們通過(guò)兩部分預(yù)測(cè)結(jié)果相加計(jì)算總語(yǔ)言者的分布。根據(jù)預(yù)測(cè)得到的語(yǔ)言分布情況,我們重新排名得到世界上十大主要語(yǔ)言如表1所示:
在總體語(yǔ)言分布中,日語(yǔ)取代孟加拉語(yǔ)進(jìn)入前十名,同處于前十名的其他排名略有變化。
2 基于人口遷移差分方程模型的語(yǔ)言分布預(yù)測(cè)
在馬爾可夫模型中,我們只討論了不同語(yǔ)言之間的相互轉(zhuǎn)移,忽視了人口的自然增長(zhǎng),這可能會(huì)導(dǎo)致與實(shí)際情況有所偏差。因此,我們?cè)诳紤]人口增長(zhǎng)率的情況下調(diào)整差分方程,以此來(lái)更準(zhǔn)確地描述語(yǔ)言分布的變化,由此引入基于人口遷移的差分方程模型進(jìn)行預(yù)測(cè)。
根據(jù)人口流動(dòng)模型,一個(gè)地區(qū)的人口增長(zhǎng)率是由人口自然增長(zhǎng)率、人口遷入率和遷出率決定的,因此,可建立以下差分方程:
其中[Yit]表示第i個(gè)地區(qū)的人口,a表示自然增長(zhǎng)率,[s=YtYmax]是人口的相對(duì)增長(zhǎng)限制,[pij]是人口遷入率。據(jù)資料顯示,我們定義[a=0.7%],[Ymax=1.5Y(1)]以及[Y(1)]是目前是語(yǔ)言的人口數(shù)。同時(shí)移民的過(guò)程可以看作是母語(yǔ)遷移的過(guò)程,因此我們假設(shè)移民的遷移率與語(yǔ)言遷移的概率相同。
隨后,我們研究逐年人口的變化,因此微分方程可以簡(jiǎn)化為一個(gè)差分方程:
以初始語(yǔ)言人口分布作為差分方程的初始條件,我們可以得到人口的分布隨時(shí)間的變化。由于采用這一模型預(yù)測(cè)時(shí),迭代算法的主要結(jié)構(gòu)與上一部分相近,在此不再贅述。我們主要將該部分結(jié)果用于語(yǔ)言的地理分布預(yù)測(cè)中。
3 基于語(yǔ)言流模型預(yù)測(cè)的語(yǔ)言地理分布變化規(guī)律
為了研究各國(guó)的主要地理語(yǔ)言分布變化,我們選取了幾個(gè)有代表性的國(guó)家進(jìn)行了預(yù)測(cè)。我們定義每?jī)蓚€(gè)國(guó)家之間的語(yǔ)言流函數(shù)[gpq],衡量語(yǔ)言從語(yǔ)言源傳播到目的地的概率,以百萬(wàn)人為單位量化:
其中,[μp]是第i種語(yǔ)言中p國(guó)家的人口比例,[μq]是第j種語(yǔ)言中q國(guó)家的人口比例。語(yǔ)言流[gpq]是標(biāo)量,因此我們通過(guò)兩種語(yǔ)言流之間的差異來(lái)計(jì)算語(yǔ)言的凈流向量[Gpq]:[Gpq=gpq-gqpepq],其中,[epq]是第p個(gè)國(guó)家到第q個(gè)國(guó)家的單位矢量,[Gpq]指相對(duì)矢量。根據(jù)預(yù)測(cè)的語(yǔ)言流量,我們可以計(jì)算每?jī)蓚€(gè)主要國(guó)家之間的[Gpq]。因此,我們可以通過(guò)計(jì)算的數(shù)值對(duì)語(yǔ)言流進(jìn)行排名來(lái)獲得主要的地理語(yǔ)言變化趨勢(shì)。在計(jì)算每?jī)煞N語(yǔ)言之間的語(yǔ)言?xún)袅髁恐?,我們根?jù)相同的語(yǔ)言來(lái)源和目的地將數(shù)據(jù)分組,然后我們按降序排列組的總流量。排名如下表2所示:
除以上表3所列數(shù)據(jù)外,我們繪制了的語(yǔ)言轉(zhuǎn)換圖(圖3)以直觀顯示語(yǔ)言的地理分布變化:
地圖中的著色部分是語(yǔ)言分布在地理上發(fā)生變化的區(qū)域,箭頭表示國(guó)家之間的語(yǔ)言流。從上面的結(jié)果中,我們可以清楚地看到,英語(yǔ)和英語(yǔ)是地理分布中最具擴(kuò)張性的語(yǔ)言,而阿拉伯語(yǔ)和普通話(huà)的地區(qū)未來(lái)可能轉(zhuǎn)化為其他語(yǔ)言。總之,語(yǔ)言的地域分配轉(zhuǎn)移方向大體一致。我們將人口遷移看作是語(yǔ)言群體融合的過(guò)程。
4檢驗(yàn)與分析
由于我們建立了基于人口遷移理論的微分方程,理論上講,那些預(yù)測(cè)的語(yǔ)言說(shuō)話(huà)者的總和預(yù)計(jì)將與按總體自然增長(zhǎng)率計(jì)算的總?cè)丝谝恢拢篬Yi(t)=1+atYi(1)]我們由此計(jì)算相對(duì)誤差約為7%,表明說(shuō)話(huà)者的預(yù)測(cè)數(shù)值分布是合理的,反映了自然增長(zhǎng)率在50年內(nèi)具有代表性。由于馬爾可夫模型的自我傳遞概率被設(shè)定為占主導(dǎo)的概率,為了檢驗(yàn)?zāi)P偷姆€(wěn)定性和合理性,我們通過(guò)微調(diào)自轉(zhuǎn)移概率并觀察預(yù)測(cè)結(jié)果變化,發(fā)現(xiàn)排名前四的語(yǔ)言保持一致。同時(shí),排名變化主要發(fā)生在葡萄牙語(yǔ)-阿拉伯語(yǔ),日語(yǔ)-俄語(yǔ)-孟加拉語(yǔ)之間。我們認(rèn)為這是由于他們之間的競(jìng)爭(zhēng)關(guān)系和相互轉(zhuǎn)移。此外,當(dāng)自傳概率高達(dá)99%時(shí),在排名前十中引入了一種新語(yǔ)言,這意味著該模型的最大極限穩(wěn)定性大約在98.5%和99%之間。基于人口增長(zhǎng)理論的模型,自然增長(zhǎng)率和增長(zhǎng)極限也影響微分方程模型的穩(wěn)定性。
5 結(jié)論
通過(guò)本文提供的語(yǔ)言數(shù)量變化及地理分布規(guī)律預(yù)測(cè)方法,在掌握有效的統(tǒng)計(jì)數(shù)據(jù)時(shí),能夠?qū)ξ磥?lái)語(yǔ)言人口變化趨勢(shì)進(jìn)行較為合理的預(yù)測(cè),為各類(lèi)政治、經(jīng)濟(jì)、文化、商業(yè)活動(dòng)提供參考依據(jù)。在條件允許的情況下,通過(guò)更多方面指標(biāo)的提取,提高數(shù)據(jù)的精準(zhǔn)度等方法均可對(duì)我們的工作進(jìn)行完善。并且,針對(duì)不同應(yīng)用場(chǎng)景,各類(lèi)參數(shù)可以在合理范圍內(nèi)根據(jù)側(cè)重性做適當(dāng)調(diào)整以滿(mǎn)足商業(yè)化應(yīng)用。
參考文獻(xiàn):
[1] 司守奎.數(shù)學(xué)建模算法及應(yīng)用[M].北京:國(guó)防工業(yè)出版社, 2016.
[2] 姜啟源.數(shù)學(xué)模型[M].北京:高等教育出版社, 2011.
[3] 卓金武.MATLAB 在數(shù)學(xué)建模中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2014.
[4] World Economic Forum. The Global Information Technology Report, 2016.
[5] R. Liu, Improvement of Population Migration Model and Prediction of System Dynamics Simulation. 2008, 38(18-9).
[6] World map PPT material template. Retrieved from http://www.1pppt.com.
[7] https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers.
[8] National Bureau of Statistics of People's Republic of China, International Yearbook of Statistics, China Statistics Press, 2015.