張穎杰,李 斌,,陳家駿,陳小荷
(1. 南京大學(xué) 計算機軟件新技術(shù)國家重點實驗室,江蘇 南京 210093;2. 南京師范大學(xué) 語言信息科技研究中心,江蘇 南京 210097)
詞義消歧(Word Sense Disambiguation, WSD)是在特定的上下文中為指定的詞自動選擇合適詞義的過程,也稱為自動詞義標注。在主流的詞義消歧方法中,有指導(dǎo)方法的效果最好[1],但需要較大的人工標注數(shù)據(jù)集,并且其結(jié)果對訓(xùn)練數(shù)據(jù)集有很強的依賴性,泛化能力較差。相對而言,基于知識的方法,將詞語在詞典中的義項數(shù)作為類別數(shù),將詞典對詞語的解釋和例句作為義項出現(xiàn)的語境信息,雖然受限于詞典規(guī)模,其效果通常不如有指導(dǎo)的方法,但是在一定程度上減少了對人工標記數(shù)據(jù)的依賴性,義項標注的覆蓋率較高,在缺乏人工標注數(shù)據(jù)集的情況下,可以提供初始的自動標注結(jié)果。
目前,古漢語的詞義自動標注工作還處于起步階段,在資源和技術(shù)上都呈稀缺狀態(tài)。對于經(jīng)典傳世之作,雖有歷代學(xué)者的大量注疏,但這些注疏并不是在同一個釋義詞典或語義體系的基礎(chǔ)上進行的。目前較為實用的、能夠服務(wù)于古漢語文獻詞義標注的詞典是《漢語大詞典2.0》(后文簡稱為《大詞典》)[2]。該詞典收詞目30余萬條,給出了詞語的古今義項和最早用例,是一本質(zhì)量高、釋義豐富的大型語文詞典。文獻[3]介紹了采用《大詞典》為主要的釋義詞典,人工逐詞標注古籍義項以構(gòu)建中古漢語研究型語料庫的工作,工作量特別巨大。因此,研究古漢語義項的自動標注方法,已經(jīng)成為了中國古典文學(xué)和文獻研究的重要而迫切的需求。
對于缺乏訓(xùn)練數(shù)據(jù)的古漢語的詞義標注來說,有指導(dǎo)的方法難以直接使用。在本文中,我們利用詞典信息作為知識來源,采用了基于半指導(dǎo)方法的全文詞義標注方法,對《左傳》進行了標注實驗,人工抽樣的統(tǒng)計結(jié)果顯示,該方法的平均準確率遠高于系統(tǒng)基線,能夠在古漢語全文詞義標注的起步階段提供初始結(jié)果,為人工標注詞語義項提供良好的數(shù)據(jù)底本。
本文后續(xù)部分結(jié)構(gòu)如下,第二節(jié)介紹了古漢語詞義標注的相關(guān)研究;第三節(jié)介紹了本文使用的全文詞義標注方法;第四節(jié)說明了實驗的設(shè)計和結(jié)果分析;第五節(jié)給出了我們的結(jié)論及后續(xù)的研究工作。
目前在古漢語的義項標注方面研究較少。文獻[4]首先分析了古漢語詞義義項的分布情況與特點,考察了詞義消歧的難點。然后在現(xiàn)有的詞義消歧理論和方法的基礎(chǔ)上,基于條件隨機場,選擇上下文的詞及其詞性的復(fù)合特征,并加入其他語言學(xué)特征,設(shè)計6個不同的模板,對“將”、“如”等7個古漢語高頻詞進行了詞義消歧實驗,平均F值達到了83.04%。不過,該方法使用的詞典是《春秋左傳詞典》,不適用于其他先秦語料的詞義標注,缺乏一般性。因為文獻[4]采用的是有指導(dǎo)方法,需要預(yù)標注大量訓(xùn)練樣本,代價太高,泛化能力有限。
對于任意語言的詞義標注,最簡單的基于詞典的方法是通過計算目標詞的定義及其所在的上下文之間重疊的詞數(shù)來確定詞義[5]。
scoreLeskVar(S)=|context(w)∩gloss(S)|
S表示某個特定的詞義,w為待標注的詞,context(w)表示w所在的上下文,gloss(S)為詞義的定義。這種方法主要局限在于詞典中的定義通常比較簡潔,未必能包含足夠的能標識當前詞義的詞匯[6]。
隨著包含分類和語義關(guān)系的本體詞典的廣泛使用(如WordNet),基于詞典的WSD研究中也出現(xiàn)了依賴于這些詞典中結(jié)構(gòu)化信息的結(jié)構(gòu)化方法,主要有基于相似度計算的方法[7]和基于圖的方法[8-9]兩類。基于相似度計算的方法比較目標詞的各個詞義與文本中其他詞之間的語義相似度,從中選擇使得下式結(jié)果最高的詞義。
基于圖的方法通常把全文表示成一個以詞義為結(jié)點、語義關(guān)系為邊的圖結(jié)構(gòu),通過隨機游走等方法確定節(jié)點的得分,從而得到最終的詞義。近年來針對英語或現(xiàn)代漢語的全文標注主要就用了這一類的方法。
然而,對于古漢語這一特殊的應(yīng)用領(lǐng)域,很難使用結(jié)構(gòu)化方法。首先,古漢語的結(jié)構(gòu)化詞典資源缺乏。在漢語中運用廣泛的《同義詞詞林》和HowNet中的概念描寫和分類主要針對現(xiàn)代漢語,由于古今異義等原因,無法直接用來計算古漢語詞語間的相似度。其次,結(jié)構(gòu)化方法通常嚴格的遵守一個前提,即“一段一義”[9],用來構(gòu)成圖的段落中相同的詞最后將會被標注上同一個詞義。但是古漢語詞類活用現(xiàn)象比較頻繁,同樣的詞在同一段落中表現(xiàn)出多種不同的詞義是常見的現(xiàn)象,一般來講很難滿足這樣的前提。
考慮到以上問題,本文利用現(xiàn)有的古漢語詞典資源,采用了一種半指導(dǎo)方法,對大量的古漢語語料實現(xiàn)了全文詞義標注,對其性能進行抽樣驗證和分析。
本文的半指導(dǎo)方法沿用了文獻[9]提出的一種通過極少量人工標注語料來進行大量詞義標注的方法,并根據(jù)古漢語特點和《大詞典》釋義方式進行了調(diào)整和優(yōu)化。
在Yarowsky的研究要求每個詞只有兩個義項[10]。該方法首先對每一個需要標注詞義的二義詞建立上下文列表U。其次,對該詞的每個可能詞義,手動標記一個包含典型搭配信息的可信小訓(xùn)練集seed,根據(jù)“一個搭配一種含義”的先決條件給出表示搭配信息的決策表。該可信小訓(xùn)練集對于每個含義只包含了一種搭配情況。再次,在seed上訓(xùn)練決策表分類模型,并將其用于待標注集的分類,將所有概率超過既定閾值的結(jié)果增加到seed中,同時根據(jù)“一段一義”的約束條件擴充seed,剩余用例仍作為待標注集用于下一次的迭代。重復(fù)此過程至結(jié)果收斂,即所有未標注用例的分類結(jié)果概率均在閾值以下。最后,為剩余用例標注結(jié)果。
具體流程可表示如圖1。
圖1 Yarowsky方法的流程圖
在本文中針對古漢語全文詞義標注需要考慮的下述多個方面,對Yarowsky的方法作出一定的改進,使之適用于古漢語這一特殊應(yīng)用對象和《大詞典》的釋義方式。
(1) 詞義粒度。本文中待標注詞的詞義不只兩項,而是根據(jù)詞典中的義項來確定。詞典中凡是具有來自先秦文獻的例句的義項,均被用來作為詞義集合的一個元素。
(2) 特征選擇。這里不止采用一種搭配信息,而是選取了詞形、詞性的一元特征和兩者搭配的二元特征,如表1所示。有研究表明,二元特征窗口增大反而降低詞性標注結(jié)果的準確性[4],因此對于二元特征,僅使用前后大小為1的窗口。
表1:特征選擇
由于“一段一義”的約束條件并不完全適用于古漢語,尤其對一些義項較多、應(yīng)用情況靈活的高頻詞。因此,本文降低其強制性,僅將待標注詞所在的段落編號作為一個特征進行考慮。
(3) 可信小訓(xùn)練集的選取。本文中不使用手動標注的方式,而是根據(jù)詞典信息自動得到。由于古漢語詞典中的釋義通常用現(xiàn)代漢語表示,兩者的上下文在形式和內(nèi)容上差別較大,不能直接使用。而詞典中除了釋義外通常還包含一些例句,這些例句一般都具有典型性,且能保證其與詞義對應(yīng)的準確性,故而我們通過這些例句得到標注之初所需的seed。
(4) 迭代過程。在Yarowsky的方法中每次迭代的過程都將所有高于閾值的分類結(jié)果加入seed中。而本文在每一輪分類結(jié)束后僅加入概率最大且大于閾值的結(jié)果用于下一輪分類。對于迭代過程的終止條件則分別考察設(shè)閾值和不設(shè)閾值(即閾值為0)兩種情況對結(jié)果的影響。
(5) 方法選擇。由于本文中所用的特征不再是單一的搭配信息,故而也不再使用簡單的決策表,而改用了SVM的方法,其核函數(shù)使用了默認的線性核[11]。
本文將人工完成了分詞和詞性標注的18萬字《左傳》作為實驗語料[12],對其中的4 671個實詞共11萬個詞例進行了詞義標注。這些實詞中有635個多音詞,占待標注詞的13.6%。
知識來源采用了《大詞典》,該詞典對詞的釋義中涵蓋了從古至今所出現(xiàn)過的幾乎所有詞義,并給出了詞典編纂者認定的詞義最早的文獻出處及例句。
以“忘”為例,其在詞典中第一個讀音的釋義如圖2所示。
忘1 [wànɡ ㄨㄤˋ]
[《廣韻》巫放切,去漾,微。]
1.忘記;不記得?!对姟ば⊙拧ぺ羯!罚骸爸行牟刂?,何日忘之?!薄端抉R法·仁本》:“天下雖安,忘戰(zhàn)必危。” 宋 曾鞏 《尚書都官員外郎陳君墓志銘》:“ 泉州 歲兇,君築室止窮民,飢者給食,病者給醫(yī),人忘其窮。” 周恩來 《致柯棣華大夫家屬的慰問信》:“我們受惠于他的極多,使我們永不能忘?!?.指健忘癥?!读凶印ぶ苣峦酢罚骸?宋 陽里華子 中年病忘?!?.遺棄;不顧念?!对姟で仫L(fēng)·晨風(fēng)》:“如何,如何!忘我實多?!?馬瑞辰 通釋:“忘我實多,猶云棄我實甚?!薄肚f子·山木》:“覩一蟬,方得美蔭而忘其身;螳蜋執(zhí)翳而搏之,見得而忘其形?!薄夺釢h書·宋弘傳》:“貧賤之知不可忘?!?.玩忽,怠忽。《史記·孔子世家》:“昔 武王 克 商 ,道通九夷百蠻,使各以其方賄來貢,無使忘職業(yè)。” 唐 韓愈 《潮州祭神文》之四:“惟神之恩,夙夜不敢忘怠?!?.無?!妒酚洝っ蠂L君列傳》:“日暮之後,過市朝者掉臂而不顧。非好朝而惡暮,所期物忘其中?!?司馬貞 索隱:“忘者,無也。其中,市朝之中。言日暮物盡,故掉臂不顧也。”《史記·平津侯主父列傳》:“ 高皇帝 蓋悔之甚,乃使 劉敬 往結(jié)和親之約,然後天下忘干戈之事?!?.通“ 妄 ”。《老子》:“不知常,忘作,兇?!?朱謙之 校釋:“忘、妄古通?!薄俄n非子·解老》:“前識者,無緣而忘意度也?!?王先慎 集解:“忘與妄通?!?/p>
注:下劃線的內(nèi)容表示出處,根據(jù)出處就可以得到例句出現(xiàn)的年代
圖2 “忘”的第一個讀音在《大詞典》中的釋義表示
(1) 根據(jù)年代篩選義項。由于《大詞典》收錄的義項非常豐富,每個詞語的義項往往多達數(shù)十條,這對于詞義自動消歧是非常困難的,因此需要對義項和例句進行年代的篩選??紤]到先秦時代時期較長、詞義也無法完全由《大詞典》的《左傳》出處涵蓋。我們根據(jù)60多種先秦文獻的名稱(如《左傳》、《論語》等)對義項進行時代篩選,保證了用于標注的義項均有可能出現(xiàn)在先秦文獻中,剔除了大部分不可能出現(xiàn)的詞義。篩選后的義項被稱為該詞的先秦義項。如圖2所示:“忘1”的第四個釋義“玩忽”和第五個釋義“無”最初都是在漢代的《史記》中出現(xiàn)的,故這兩個義項不包含在我們要分類的義項列表中。而第一個釋義“忘記”的例句除了來自于先秦文獻《詩經(jīng)》和《司馬法》以外,還有的選自宋代和現(xiàn)代的文章,本文中所用的上下文信息僅從前兩者中提取。
(2) 詞典例句的詞性標注。為了得到最初的種子訓(xùn)練集,實驗利用南京師范大學(xué)開發(fā)的先秦古漢語的詞性標注工具[3]對這些例句進行分詞和詞性標注,該工具在左傳上的分詞和詞性標注F值均超過90%。然后通過詞典中給出的拼音和釋義信息,得到用于訓(xùn)練的上下文特征。由于這些上下文特征來自于詞典中的例句,因而此種子訓(xùn)練集的標注結(jié)果是可信的,其特征也具有典型性,保證了它對詞義標注的指示作用。
漢語中包含了很多的多音詞,同一個詞的不同讀音含義差別較大,甚至有時可以看作兩個不同的詞來處理。因此本文在標注過程中針對多音詞分別使用“直接標注詞義”和“先標音再標義”兩種標注方法,來考察區(qū)分讀音對古漢語詞義自動標注效果的影響。
(1) 直接標注詞義(Tag Sense Straightly, TSS)
根據(jù)詞典得到待標注詞的詞義列表{senseik},i=1,2,…,n,k=1,2,…,ni,N=∑ni,n為拼音的數(shù)目,ni為拼音i下的義項數(shù)目,N為待標注詞的總義項數(shù)。執(zhí)行圖3的過程,最終為中的所有條目標上詞義。
(2) 先標音再標義(Tag Pinyin before Sense, TPBS)
首先自動標注讀音。根據(jù)詞典得到待標注詞的讀音列表{Pi},i=1,2,…,n,n為讀音的數(shù)目。執(zhí)行圖3的過程,為S中的所有條目標上拼音Pi。
然后根據(jù)讀音的標注結(jié)果將原待標注集S分塊成為S1,S2,…,Sn,n表示該目標詞拼音的數(shù)目,同一個分塊Si中的目標詞都具有相同的讀音。同樣原可信訓(xùn)練集seed也根據(jù)讀音分類成為seed1,seed2,…,seedn。
最后自動標注詞義。針對每個Si,根據(jù)seedi再次執(zhí)行圖3的過程,得到最終的詞義標注結(jié)果senseik,i=1,2,…,n,k=1,2,…,ni,n為讀音的數(shù)目,ni為讀音Pi中義項的數(shù)目。
圖3 本文中半指導(dǎo)學(xué)習(xí)的流程圖
本文中設(shè)定了兩條基線用于對比實驗結(jié)果。由于《大詞典》中是將常用的讀音排在前面,而第一個釋義通常是該詞的本意或常用義,因此本文將目標詞根據(jù)年代篩選釋義后的第一個讀音的第一個詞義和第二個詞義分別作為標注結(jié)果的baseline1和baseline2。
自動標注完成后,由于標注數(shù)據(jù)量大,且對于這些數(shù)據(jù)原先并不存在已知的正確結(jié)果,故而我們根據(jù)標注數(shù)據(jù)在原文中的詞頻及其在詞典中的詞義數(shù)量分布從4 671個待標注詞中抽取了22個樣本,人工檢查其結(jié)果進行評測。表2給出了測試樣本在《大詞典》中的詞典義項數(shù)、讀音數(shù)、先秦義項數(shù)、《左傳》中的詞頻,并按照先秦義項數(shù)降序排列。這些詞在《左傳》中的詞頻從1到1 124不等,義項數(shù)最少為2,最多有13種,其中包含了5個多音詞。表3則給出了這些詞語的評測結(jié)果。
表2 評測抽樣詞語信息
根據(jù)表3,我們發(fā)現(xiàn)不關(guān)注讀音直接標注詞義在平均值上取得了最好的效果,其宏平均和微平均[13]準確率分別達到了67.15%和49.09%。分析實驗結(jié)果我們討論以下幾個方面。
表3 抽樣標注結(jié)果準確率[0,1],t表示設(shè)定了閾值
(1) 低頻詞的詞義標注。對于《左傳》中的低頻詞,如果在大詞典包含了出自《左傳》的例句,即使義項數(shù)較多,也可以得到較好的結(jié)果。而當其在詞典中的義項數(shù)目多且相應(yīng)的例句出處并非《左傳》或者語言與《左傳》差別較大時,該詞的釋義很難被準確標出。
例如,“缶”、“拊”、“區(qū)”、“繩”、“饘”和“珍”等詞雖然在《左傳》中只出現(xiàn)了一到兩次,但由于詞典中用于說明其釋義的例句正是由《左傳》而來,故而我們根據(jù)例句得到的上下文對于這些詞的自動詞義標注具有很強的指示性,使得結(jié)果的準確率比較高。同樣作為低頻詞的“負”在本次的抽樣結(jié)果中標注效果很差?!柏摗痹凇蹲髠鳌分械脑~頻僅有一次,使得它在自動標注時從客觀情況上無法進行迭代的過程,只能通過例句給出的上下文來判斷。而在詞典中“負”的先秦義項有13項之多,且其中沒有出現(xiàn)出自《左傳》的例句,尤其是標示其正確釋義的例句出自與《左傳》語言差別很大的《詩經(jīng)》,由此得到的種子上下文難以為該詞的詞義標注做出正確的指引。
(2) 詞典中義項區(qū)分度對結(jié)果的影響。對于詞典中不同的義項間用法、語義或詞性區(qū)分度高的待標注詞,不論其在《左傳》中詞頻高低,均能取得較好的標注效果。例如,“對”、“戰(zhàn)”和“竹”,它們的詞頻有高有低,詞典中的義項數(shù)有多有少,但這些義項間均存在明顯的區(qū)別,因此,這3個詞的詞義標注結(jié)果也取得了較好的效果。同樣作為高頻詞的“叛”,由于它的兩個釋義在詞性上有很明顯的區(qū)分,因此標注的準確率達到了100%。
而當詞典中存在釋義間的“不平等”關(guān)系或義項粒度過細時,則會導(dǎo)致詞義的錯誤標注。這時閾值的加入可以防止迭代過程中錯誤分類的蔓延,提高結(jié)果的準確率。例如,“戕”在詞典中的第三個釋義為“他國之臣殺本國君主”,要判斷這一點需要有一些外在的先驗知識,僅從局部上下文是很難分出該詞義與釋義一“殘害,殺害”的區(qū)別,甚至可以認為釋義三是釋義一的一種特例,這也是導(dǎo)致了“戕”唯一的一個錯標。又如“災(zāi)”有兩個義項分別為“特指火災(zāi)”和“泛指災(zāi)害”,在自動標注時難以將“泛指”從“特指”中區(qū)分開來,但在設(shè)定閾值的情況下準確率有了顯著的提高。
(3) 詞典中例句的分布對結(jié)果的影響?!洞笤~典》中對于一個詞的每個義項給出的例句數(shù)量比較隨意,并沒有給予常用義更高的“權(quán)重”。這在詞義粒度細、區(qū)分度不高的情況下,為詞義的自動標注帶來了很大的困難,導(dǎo)致了結(jié)果的低準確率。例如,“逆”和“告”,義項數(shù)目均在十個以上,而表示其常用義的例句都只有一句,反而是有些不常用的釋義被用了更多的例句來說明,最終的標注準確率都降到了baseline1以下。
(4) 讀音對多音詞詞義標注的影響。對于義項數(shù)目分布不平均的多音詞,先區(qū)分拼音后區(qū)分詞義的過程對提高詞義標注的準確率的意義不大,甚至可能起到反作用。例如,“告”,由于seed中表示第一種拼音的例句遠比第二種拼音多,使得分類結(jié)果更偏向于標注為第一種讀音,以至于沒有能正確的把拼音二區(qū)分開來,從而對最終的標義的準確性起了反作用。
綜上所述,在利用《大詞典》進行古漢語的詞義自動標注時,對于詞頻低且在詞典中包含了所標文獻的例句時,即使釋義的條目較多,也可能得到較好的結(jié)果。對于釋義間有明確的詞性差別的待標注詞也能給出比較正確的結(jié)果。對于是多音詞的待標注詞而言,只有當其不同的讀音間釋義數(shù)目分布平均時,先標讀音后標詞義的兩步過程才更有意義。對于終止迭代過程的條件中所使用的閾值問題,當待標注詞含義豐富,且詞頻較高時,加入閾值可以在一定程度上減少誤標。另外,我們也從實驗中發(fā)現(xiàn)了《大詞典》本身的釋義粒度有時過細或者兩個釋義存在“泛指”和“特指”的關(guān)系,這為我們的自動標注詞義過程帶來了很大的困難。
本文針對先秦古漢語這一特殊的文本對象,將WSD的過程分為先區(qū)分讀音后區(qū)分具體詞義這兩個步驟。實驗過程使用了《大詞典》為知識來源,《左傳》作為測試語料,采用了基于支持向量機(SVM)的半指導(dǎo)方法。微平均和宏平均正確率分別達到49.09%和67.15%。對于義項區(qū)分度較大、用例相近的詞語,自動標注的效果可以達到95%以上。對于義項區(qū)分度低、《大詞典》用例差異大的詞語,效果還不太理想。在我們同時開發(fā)的人機交互式義項標注平臺的輔助下,可以作為人工標注的良好初始結(jié)果,服務(wù)于古漢語詞義標注語料庫的建設(shè)。
在今后的工作中我們考慮從以下幾方面對本文的工作進行改進:(1)加入更多語言信息,如句法結(jié)構(gòu)、語義角色、依存分析等,并加入特征選擇的過程,進一步提高詞義標注的效果; (2)利用較為豐富的歷代注疏文獻和驗證指導(dǎo)學(xué)習(xí)方法的自動標注結(jié)果,同時提高全詞標注的效果; (3)將詞義列表根據(jù)待標注詞在不同釋義上的詞性不同分類,來減小自動標注的難度。
[1] Pradhan, S., Loper, E., Dligach, D., et al. Semeval-2007 task-17: English lexical sample srl and all words[C]// Proceedings of SemEval-2007, ACL, 2007, 87-92.
[2] 漢語大詞典2.0[CD]. 商務(wù)印書館(香港). 2005.
[3] 董志翹.為中古漢語研究夯實基礎(chǔ)[J].燕山大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2011,12(1):1-6.
[4] 于麗麗,丁德鑫,曲維光,等. 基于條件隨機場的古漢語詞義消歧研究[J].微電子學(xué)與計算機,2009,10: 45-48.
[5] Lesk. M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pinecone from an ice cream cone[C]// Proceedings of the 5th annual international conference on Systems documentation, 1986:24-26.
[6] Patwardhan, S., Banerjee, S., Pedersen, T. Using measures of Semantic Relatedness for Word Sense Disambiguation[C]// Proceedings of CICLing, 2003:241-257.
[7] Pedersen, T., Banerjee, S., Patwardhan, S. Maximizing semantic relatedness to perform word sense disambiguation[R]. Minneaplis: University of Minnesota Supercomputing Institute, Res. rep: UMSI 2005/25, 2005.
[8] Sinha, R., Mihalcea, R. Unsupervised graph-based word sense disambiguation using measures of word semantic similarity[C]// Proceedings of the IEEE International Conference on Semantic Computing, 2007:363-369.
[9] Agirre E., Soroa A. Personalizing PageRank for word sense disambiguation[C]// Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, 2009:33-41.
[10] Yarowsky D. Unsupervised Word-Sense Disambiguation Rival Supervised Methods[C]// Proceeding of the 33rd Annual Meeting of the Association for Computational Linguistics, 1995:189-196.
[11] Jin P. Li F., Zhu D., et al. Exploiting External Knowledge Sources to Improve Kernel-based Word Sense Disambiguation[C]// Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering, 2008:222-227.
[12] 石民,李斌,陳小荷. 基于CRF的先秦漢語分詞標注一體化研究[J],中文信息學(xué)報,2010,2: 39-45.
[13] Manning C, Raghavan P, Schütze H. An introduction to Information Retrieval[M]. Cambridge, England: Cambridge University Press, 2007: 210-211.