崔榮一,趙 雪
(延邊大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院 智能信息處理研究室,吉林 延吉 133000)
齊普夫定律對朝鮮語適用性的測定
崔榮一,趙 雪
(延邊大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院 智能信息處理研究室,吉林 延吉 133000)
該文目的在于驗證齊普夫定律對朝鮮語的適用性。首先統(tǒng)計了朝鮮語大規(guī)模語料中的文字及字母兩種語言單位的頻率分布,然后利用最小二乘法對文字頻率分布曲線進(jìn)行了擬合,最后計算了文字字頻齊普夫定律的參數(shù)估計值。實驗結(jié)果表明,朝鮮語的文字和字母的頻率與頻級關(guān)系都近似符合齊普夫定律,驗證了齊普夫定律對朝鮮語的適用性,這對朝鮮語的信息處理與研究具有重要的現(xiàn)實意義。
朝鮮語信息處理;齊普夫定律;文字頻率;最小二乘法
齊普夫定律是描述詞匯分布規(guī)律的重要定律之一,它表達(dá)了人們在使用語言進(jìn)行交流時所遵從的省力法則: 講話的人和聽話的人都想達(dá)到省力的平衡,說話人只想使用少量的常用詞進(jìn)行交流,聽話的人希望使用沒有歧義的、形式和意義之間完全一一對應(yīng)的多樣化的詞來理解。齊普夫定律指出人們使用的語言中存在著少量的高頻詞和大量的低頻詞。
全世界使用朝鮮語(韓語)的人口約有8 000萬人,是使用人數(shù)位居世界第12位的語言[1-2]。朝鮮語是中國朝鮮族和朝鮮半島的主要交流語言,在中朝韓三國之間信息傳播和社會、文化、經(jīng)濟(jì)等建設(shè)與發(fā)展中起著重要的作用。因此,采用科學(xué)方法研究朝鮮語語言文字對我國朝鮮族文明的發(fā)展及國際間朝鮮語信息交流都具有重要意義。
本文目的在于考察齊普夫定律對朝鮮語的適用性問題。為此收集整理朝鮮語文本語料并統(tǒng)計獲得了文字和字母的分布規(guī)律,以此為據(jù)考察朝鮮語的字母和文字的分布是否符合齊普夫定律,并通過模型參數(shù)計算,驗證齊普夫定律適用于朝鮮語文本的情況。研究齊普夫定律對朝鮮語的適用性,有益于朝鮮文字的技術(shù)性研究,對建立基于統(tǒng)計的朝鮮語語言模型、朝鮮文字的輸入輸出、文字識別、發(fā)音模式等信息化處理具有重要的現(xiàn)實意義。
本文主要內(nèi)容及結(jié)構(gòu)安排如下: 第二節(jié)介紹相關(guān)研究工作現(xiàn)狀,第三節(jié)介紹齊普夫定律的主要內(nèi)容,第四節(jié)介紹齊普夫定律適用于朝鮮語的實驗,第五節(jié)介紹擬合評價策略,最后對相關(guān)工作進(jìn)行總結(jié)和展望。
近年來,許多學(xué)者對齊普夫定律對多語種的適用性進(jìn)行了深入地分析研究。Alexander Gelbukh和Grigori Sidorov以英語和俄語為例,驗證過齊普夫定律對它們的適用性,對39篇文本中的250萬個英文詞匯和200萬個俄語詞匯進(jìn)行統(tǒng)計分析,計算出齊普夫定律中的α參數(shù)值分別為0.970.06和0.890.07[3]。
在中文文本方面,文獻(xiàn)[4]對現(xiàn)代漢語計算語言模型中的語言單位的頻率和頻級關(guān)系進(jìn)行了較為詳細(xì)地探討,發(fā)現(xiàn)現(xiàn)代漢語中的字、詞、二元對等語言單位的頻率和頻級之間的關(guān)系近似遵循齊普夫定律,反映了不同層次的漢語語言單位對齊普夫定律的普遍適應(yīng)性。文獻(xiàn)[5]在漢字字頻分布方面做了更為細(xì)致的研究,并指出使用齊普夫定律描述漢字字頻分布會產(chǎn)生諸如累計頻率部分失真等問題,最后用齊普夫定律描述了漢字字頻分布的尾部,并驗證其屬于較好的擬合情況。
在日文方面,Kip Turner對從利茲大學(xué)獲得的日語大規(guī)模文本語料進(jìn)行詞頻統(tǒng)計與分析,得到日語的口語比書面語更符合齊普夫定律的結(jié)論[6]。在藏文文本方面,王維蘭統(tǒng)計分析了藏文語言單位頻率和頻級的關(guān)系,證實了現(xiàn)代藏文在字丁、音節(jié)等語言單位上,其頻率和頻級關(guān)系也近似符合于齊普夫定律[7]。在印第安語系方面,B D Jayaram基于印度的涵蓋四種不同內(nèi)容、不同語言的語料庫,分析研究了文字頻率和頻級分布,通過擬合得出其中三種語言的詞頻符合齊普夫定律的結(jié)論[8]。
S W Choi研究了朝鮮語文本中字詞符合齊普夫規(guī)律的情況,并與英文和法文情況進(jìn)行了對比,發(fā)現(xiàn)冪指數(shù)參數(shù)依賴于語種而不依賴于語料類型和規(guī)模[9]。此研究工作并未考察朝鮮文字母的統(tǒng)計分布規(guī)律,而且語料僅限于韓國文檔,影響了其結(jié)果的廣泛性。
齊普夫定律是20世紀(jì)40年代由美國哈佛大學(xué)語言學(xué)家Zipf發(fā)現(xiàn)的,是反映英文單詞詞頻分布的經(jīng)驗規(guī)律,描述了詞頻和詞級間存在的聯(lián)系,揭示了語言學(xué)中普遍存在的統(tǒng)計規(guī)律。根據(jù)齊普夫定律,語言中的常用高頻詞數(shù)量較少,低頻詞的數(shù)量很大。該定律被廣泛地應(yīng)用于多個領(lǐng)域,如文獻(xiàn)計量學(xué)、文本特征選擇、詞典編撰、機(jī)器翻譯和關(guān)鍵詞抽取等。
對于一個有K個詞組成的總長度為L的語料庫,若將詞語出現(xiàn)的頻率(即詞頻)記作pr,將該詞的詞頻排位(即頻級)記為r,則齊普夫定律可表示為式(1)。
其中C為一個大于零的常數(shù),因此式(1)表明某個詞匯出現(xiàn)的頻率和頻級的乘積。這條定律說明,人們一般偏好比較常用的詞匯,而不是生僻的詞匯。若將pr和r的關(guān)系在雙對數(shù)坐標(biāo)系中表示,所繪制出的曲線幾乎為一條直線,并且斜率近似為-1。為了準(zhǔn)確求解這一斜率,齊普夫定律還可以推廣為式(2)。
其中α為待定常數(shù),r為頻級:r=1,2,…,n。對式(2)兩邊取對數(shù)后整理得到式(3)。
在雙對數(shù)坐標(biāo)系下,α即為直線的斜率,logC是直線在y軸上的截距,如圖1所示。
圖1 齊普夫定律曲線
在不同語種的實驗中,經(jīng)驗數(shù)據(jù)表明α≈1。不同語言之間的α表現(xiàn)得十分相似,但并不完全一樣,比如英文文本表現(xiàn)得非常符合,但是中文和其他語種的文本并不嚴(yán)格符合。
本文利用網(wǎng)頁爬取技術(shù)獲取了兩千萬字規(guī)模的朝鮮語文本語料,其中包含韓國和中國的朝鮮語文本,涵蓋的內(nèi)容包括學(xué)術(shù)、法律、經(jīng)濟(jì)、體育和文學(xué)等領(lǐng)域。在所獲文本語料上統(tǒng)計朝鮮文字和字母的頻率,并分析其分布規(guī)律,最后研究了朝鮮文字的頻率和頻級之間的關(guān)系,以驗證齊普夫定律對朝鮮語的適用性。
4.1 朝鮮文字分布特征
對整體語料進(jìn)行文字統(tǒng)計分析,得出以下研究結(jié)論。
(1) 高頻區(qū)。由頻級為1到20的文字組成,20個文字的累積字頻為27.39 %。根據(jù)韓國KSC—5601標(biāo)準(zhǔn)字符集,可以認(rèn)為現(xiàn)代常用的朝鮮文字有2 350個[9],因此高頻區(qū)數(shù)量占整體文字?jǐn)?shù)量的20/2 350?0.85%??梢钥闯?,朝鮮文字的頻率分布極不均勻,常用的朝鮮文字往往是以助詞、前綴、后綴等形式出現(xiàn)的,這是高頻區(qū)文字?jǐn)?shù)量小但累計頻率卻相對較高的根本原因。
(2) 中頻區(qū)。由頻級為21到320之間的文字組成,累積字頻為35.27 %。高頻部分和中頻部分詞級為1到320之間的累積字頻分布為27.39%+35.27%=62.66%。中頻部分的文字頻率與頻級分布對于整體文字頻率分布來講具有普遍的代表意義。
(3) 低頻區(qū)。由所有頻級大于321的文字組成,其累積字頻為38.34%,而占常用文字的(2 350-320)/2 350=86.38%。雖然這部分文字的累積頻率小,但文字?jǐn)?shù)量占整個常用文字的比例卻很大。由此看出,占整體文字?jǐn)?shù)量比例大的文字在語料中出現(xiàn)的次數(shù)少,表達(dá)含義也十分有限,在宏觀上符合“80-20”原則。
文獻(xiàn)[5]指出,齊普夫定律在描述低頻詞的分布上存在一定的缺陷,所以需對字頻分布曲線的中間部分及對應(yīng)的中頻區(qū)進(jìn)行擬合,并計算參數(shù)的估計值。
4.2 朝鮮語字母分布特征
朝鮮語文字由初聲、中聲、終聲三個類別的字母組成。對朝鮮語語料中的字母按照類別進(jìn)行統(tǒng)計,并在雙對數(shù)坐標(biāo)系下繪制朝鮮語字母分布曲線,結(jié)果如圖2所示。
圖2 朝鮮語初聲、中聲、終聲字母分布曲線
該圖反映了三種不同類別字母的頻率與頻級關(guān)系,圖中橫坐標(biāo)為頻級的對數(shù)值,縱坐標(biāo)為頻率的對數(shù)值。不同類別字母之間的頻率與頻級關(guān)系存在著一定的差異。根據(jù)曲線的走勢可以看出,初聲、中聲、終聲類別字母的頻率與頻級之間呈現(xiàn)負(fù)相關(guān)關(guān)系,即隨著頻級的增加,頻率逐漸減少。該曲線的走勢與齊普夫曲線的走勢大致相同,所以我們推斷朝鮮語字母的頻率、頻級關(guān)系近似遵從齊普夫定律。
4.3 朝鮮文字頻率與頻級關(guān)系
按照出現(xiàn)頻率由高到底的順序賦予不同文字由小到大遞增的頻級,并在雙對數(shù)坐標(biāo)系下繪制出朝鮮語文字頻率分布曲線如圖3所示。
圖3 文字頻率分布
圖3中,橫坐標(biāo)為文字頻級的對數(shù)值,縱坐標(biāo)為文字頻率的對數(shù)值??梢杂^察出頻率與頻級呈現(xiàn)負(fù)相關(guān)關(guān)系,即隨著文字頻級的增大,文字的頻率逐漸降低,這與齊普夫定律對于英文詞頻分布的描述相符合。由此我們推斷,齊普夫定律同樣也適用于朝鮮文字字頻分布。為了驗證我們的推斷,用最小二乘法對文字頻率分布曲線進(jìn)行擬合,以獲得文字頻率與頻級之間關(guān)系的最佳函數(shù)擬合,并計算齊普夫定律的參數(shù)估計值。
齊普夫分布曲線頭部和尾部一般偏離整個擬合曲線。經(jīng)過字頻統(tǒng)計發(fā)現(xiàn),字頻分布的中間部分分布更為平穩(wěn),對于真實的字頻分布更具有代表性。因此,利用最小二乘法對字頻分布曲線的中部進(jìn)行擬合,最后獲得齊普夫定律中參數(shù)α的估計值。圖4所示是文字頻率分布曲線的分段擬合直線圖,擬合后的直線能夠較好地貼合于字頻分布曲線,說明最小二乘法能夠較好地對字頻分布曲線進(jìn)行擬合。
圖4 文字頻率分布曲線的分段擬合直線
計算擬合直線的斜率即為齊普夫定律中參數(shù)α的估計值,表1是部分實驗數(shù)據(jù)。
表1 部分實驗數(shù)據(jù)
在以上十次實驗結(jié)果中,參數(shù)α的值在1.433 30.09之間。計算整體實驗中的全部數(shù)據(jù),得到參數(shù)α的平均值約為1.453,參數(shù)C值的分布更加類似于某種概率分布,受樣本具體情況的影響,這里不做具體討論。R2為復(fù)相關(guān)系數(shù),是用以評價擬合優(yōu)度的統(tǒng)計指標(biāo);σ是剩余標(biāo)準(zhǔn)差,即殘差,用來衡量擬合后公式的精確度。
最小二乘法是一種常用的數(shù)據(jù)處理方法。從n對觀測數(shù)(x1,y1),(x2,y2),…,(xn,yn)確定出x與y之間對應(yīng)關(guān)系y=f(x)的一種最佳估計,使得觀測值與估計值之差(即偏差)的平方和最小[10]。該方法能盡量消除偶然誤差的影響,可求出最可靠、最可能出現(xiàn)的結(jié)果。
一般情況下,采用復(fù)相關(guān)系數(shù)R2和剩余標(biāo)準(zhǔn)差σ相結(jié)合的策略來評價最小二乘法擬合的情況。復(fù)相關(guān)系數(shù)滿足0lt;R2lt;1,R2越接近于1,表明對樣本數(shù)據(jù)擬合程度越高,擬合越有意義。通常若R2在0.8以上,則認(rèn)為擬合優(yōu)度較高。本文中R2是文字頻率與頻級之間的相關(guān)關(guān)系r的平方。然而,單純利用復(fù)相關(guān)系數(shù)不能說明擬合得到的經(jīng)驗公式的精確度,需要結(jié)合剩余標(biāo)準(zhǔn)差σ 一起評價擬合的程度。
剩余標(biāo)準(zhǔn)差 σ 用來檢測經(jīng)驗公式的可靠程度,其表現(xiàn)形式為式(4)。
式(4)中S剩表示剩余平方和,f剩表示自由度。剩余標(biāo)準(zhǔn)差σ可以看作自變量固定時,衡量所有隨機(jī)因素對因變量一次觀測的平均變差大小。剩余標(biāo)準(zhǔn)差σ 越接近于0,擬合的可靠程度就越高。在實際問題中,σ往往較大。如表1中十次實驗數(shù)據(jù),所有的復(fù)相關(guān)關(guān)系R2都大于0.8,且σ的最小值可達(dá)0.639,說明擬合效果良好。
本文通過統(tǒng)計朝鮮語語料獲得了文字和字母的分布規(guī)律,觀察和分析發(fā)現(xiàn)朝鮮語字母和文字的頻率-頻級關(guān)系都遵從齊普夫定律。本文利用最小二乘法對文字分布曲線進(jìn)行擬合,計算了齊普夫定律參數(shù)α的估計值,采用復(fù)相關(guān)系數(shù)R2和剩余標(biāo)準(zhǔn)差σ綜合評價擬合結(jié)果,驗證了齊普夫定律對朝鮮語語種的適用性。
鑒于中、朝、韓三國朝鮮民族使用文字的規(guī)范和習(xí)慣不完全相同,分別對三國的語料進(jìn)行分析,揭示朝鮮語在中、朝、韓三國使用的統(tǒng)計特征和差異,是下一步待深入研究的內(nèi)容。
[1] Ostler N. 語言帝國:世界語言史[M]. 章璐, 梵非, 蔣哲杰,等,譯. 上海: 上海人民出版社, 2011: 476.
[2] 樸太秀. 朝鮮民族的語言文字[J].黑龍江民族叢刊,1998(4):99-100.
[3] Gelbukh A, Sidorov G. Zipf and heaps vaws’ coefficients depend on language[C]//International conference on intelligent text processing and computational linguistics, Mexico City, Mexico, 2001: 332-335.
[4] 關(guān)毅,王曉龍,張凱. 現(xiàn)代漢語計算語言模型中語言單位的頻度-頻級關(guān)系[J].中文信息學(xué)報,1999,13(2):8-15.
[5] 游榮彥. Zipf定律與漢字字頻分布[J].中文信息學(xué)報,2000,14(3):60-65.
[6] Turner K. Visualizing Zipf’s law in Japanese [EB/OL]. http://classes.soe.ucsc.edu/cmps161/Winter12/projects/katurner/proj/paper/paper.pdf.
[7] 王維蘭. 現(xiàn)代藏語語言單位頻率和頻級關(guān)系的統(tǒng)計分析[J]. 科學(xué)技術(shù)與工程, 2004,4(5):413-417.
[8] Jayaram B D, Vidya M N. Zipf’s law for Indian languages[J]. Journal of Quantitative Linguistics, 2008,15(4):293-315.
[9] Choi S W. Some statistical properties and Zipf’s law in Korean text corpus[J]. Journal of Quantitative Linguistics, 2000, 7(1): 19-30.
[10] 田垅, 劉宗田. 最小二乘法分段直線擬合[J]. 計算機(jī)科學(xué), 2012, 39(6):482-483.
崔榮一(1962—),通信作者,博士,教授,主要研究領(lǐng)域為智能計算、模式識別、機(jī)器學(xué)習(xí)、自然語言處理。
E-mail: cuirongyi@ybu.edu.cn
趙雪(1991—),工程碩士,主要研究領(lǐng)域為文本信息處理。
E-mail: 383169216@qq.com
OnZipf’sLawinKoreanLanguage
CUI Rongyi, ZHAO Xue
(Intelligent Information Processing Lab., Department of Computer Science and Technology, Yanbian University, Yanji, Jilin 133000, China)
This paper aims to verify the Zipf’s law in Korean language. Firstly, the statistical distribution is investigated for two linguistic units, words and alphabets, on a massive Korean text corpus. Then the least square method is adopted to simulate the curve of rank-frequency distribution of words in Korean text. Finally, the estimation values of the parameter of Zipf’s law is calculated. The experimental results show that the relationship between frequency and rank of both linguistic units falls into the Zipf’s law in Korean language.
information processing of Korean language; Zipf’s law; word frequency; least square method
1003-0077(2017)05-0081-04
TP391
A
2015-03-16定稿日期2016-04-23
國家語委“十二五”科研規(guī)劃項目(YB125-178);吉林省科技發(fā)展計劃項目(20140101186JC)