肖 磊
摘要:本文分析了《左傳》地名結(jié)構(gòu)的特點,基于CRF模型,對《左傳》地名進行自動識別,通過只用字符本身作為特征的分詞詞性一體化實驗和增加部首特征等實驗的對比,總結(jié)出適用于《左傳》地名的自動識別方法,實驗效果最好的識別正確率和召回率分別達(dá)到94.59%、94.84%。
關(guān)鍵詞:《左傳》地名識別自然語言處理
1、引言
先秦文獻信息處理屬于中文信息處理技術(shù)與古典文獻交叉研究的領(lǐng)域,而地名研究屬于先秦文獻信息處理的子領(lǐng)域。其研究的必要性在于,漢語的詞與詞之間沒有自然的界限,使得中文信息處理大多是先對要處理的文本進行詞語切分,而在分詞階段,未登錄詞的識別成為許多分詞系統(tǒng)發(fā)展緩慢甚而走向應(yīng)用瓶頸的主要原因之一,地名在未登錄詞中占有一定的比例,隨著先秦文獻信息處理的深人發(fā)展,如果不做地名識別,會很大程度上影響分詞的精度。
學(xué)界已經(jīng)對先秦地名的命名原則,選詞用字。起名來源等方面進行了探討,諸如:臺灣中研院的《先秦金文簡牘詞匯資料庫》,香港中文大學(xué)中國文化研究整理編撰的《先秦兩漢古籍逐字索引叢刊》等,都提出了很好的研究方法和研究理論,為我們前期分析先秦文獻地名結(jié)構(gòu)規(guī)則的研究提供了很好依據(jù)。目前,命名實體識別技術(shù)在不斷地發(fā)展,各種識別模型的應(yīng)用為我們的模型選用和識別實驗提供了很好的例證。
2、語料考察分析
本文對先秦25本主要文獻進行篩選,最終選擇《左傳》作為實驗語料。原因在于:作為方法探求始初,選取的文獻要具有可讀性,易提取性,另外,文獻需要包含較多的地名?!蹲髠鳌吩谙惹匚墨I中,字?jǐn)?shù)最多,詞匯總量最大,是記錄春秋時期社會狀況的重要典籍。事件、人物的描寫必然和相關(guān)的地點密切聯(lián)系,以上多種因素正滿足了我們實驗的要求。
2.1《左傳》地名統(tǒng)計與分析
我們選用“漢達(dá)文庫”提供的《左傳》(17萬字次)作為實驗語料。首先對其五分之三語料人工標(biāo)注了分詞和詞性標(biāo)記信息。參照北大分詞規(guī)范,并依據(jù)古代漢語的特點制定了先秦文獻語料分詞標(biāo)注集,給出了17個標(biāo)記,分別是:名詞n、動詞v、形容詞a、數(shù)詞m、量詞q、代詞r、介詞p、連詞c、助詞u、副詞d、語氣詞v、人名nr、地名ns、兼詞i、方位詞f、時間詞t、標(biāo)點w等,我們總體上傾向于和,而不是分。其中,地名的標(biāo)注我們遵守指稱性、專門性、詞匯性等命名實體特征,對文獻中出現(xiàn)的地名做了詞頻統(tǒng)計(見表3-1)。
2.2《左傳》地名特點分析及用字考察
基于以上統(tǒng)計分析,我們對《左傳》地名進行了分類。
按內(nèi)容分,主要包括:
自然地理實體:山(如:泰山)、水(如:漢水)、河(如:河)等
人文地理實體:國名(如:秦國)、縣名(如:溫)等等
按結(jié)構(gòu)分,主要有以下幾種形式:
1、單字專名,如:毫、鄖、京
2、專名+通名,如:泰山、清丘
3、雙字專名,如:汾隰、甘鹿
另外,我們對《左傳》進行了字頻統(tǒng)計,共有3300多個漢字,其中,地名用字共有827個字,頻率在10以上的地名用字為27個,我們對這些頻率較高的字進行了考察,并從結(jié)構(gòu)、文化等方面對《左傳》地名進行細(xì)致的分析,從而總結(jié)出以下幾個特點:
1、方位詞居多。
字頻統(tǒng)計分析顯示,《左傳》地名中,主要的方位詞及其頻率是:陽33、上22、東、16、中12、南12、北、10等等??梢?,大部分方位詞出現(xiàn)的頻率是很高的,因為當(dāng)時人的群居及其惡劣的生活環(huán)境,人們在生產(chǎn)勞動時,必須要辨認(rèn)方向,確定不同的地理位置。
2、存在通名現(xiàn)象,常常省略通名
我國早期地名“近取諸身,遠(yuǎn)取諸物”,所以古地名通名來歷常常與其自然環(huán)境有關(guān)。從我們的統(tǒng)計數(shù)據(jù)看出,高頻字中的通名包括:丘4J4、城28、國24、陵20、澤16、山15、泉14、州12等等,而且,地名常有通名省略的情況,例如:
漢,漢水:名詞。水名。漢水。長江最大支流。
(1)楚子伐隨。軍于漢、淮之間。(桓公八年)
(2)楚國方城以為城,漢水以為池,雖眾,無所用之(僖公四年)
3、同名異指和異名同指
《左傳》地名的異名同指現(xiàn)象主要指在文本中同一個地名的表達(dá)形式不同,或范圍不一。例如:
漢,漢川
(1)沿漢溯江,將人郢。(文公十年)
漢:水名。漢水。長江最大支流,源出陜西寧強縣,人湖北省至武漢市人長江。
(2)周之子孫在漢川者,楚實盡之。(定公四年)
漢川:漢水。此指漢水地區(qū)。
同名異指現(xiàn)象普遍存在于文本中,大多是表行政區(qū)域的地名,主要原因可能是因為“地隨移民”,即和古代遷都,擴都、移民等現(xiàn)象有關(guān)。例如:
京
(1)請京,使居之,謂之京城大叔。(隱公一年)
鄭國地名,在今河南滎陽縣東南。
(2)群王子追之,單子殺還、姑、發(fā)、弱、隧、延、定、稠,子朝奔京。(昭公二十二年)
周國地名,在今河南洛陽市西南。
2.3《左傳》地名與現(xiàn)代地名比較
以上關(guān)于《左傳》地名特點的分析,為我們今后的地名識別工作奠定了語言學(xué)基礎(chǔ),現(xiàn)在,我們主要從地名識別角度將《左傳》地名與現(xiàn)代地名進行比較:
1、現(xiàn)代地名數(shù)量大,新地名不斷涌現(xiàn),地名標(biāo)注規(guī)范較為完善,古代地名數(shù)量有限,從研究角度講,不涉及新地名的問題。學(xué)界關(guān)于古代地名標(biāo)注規(guī)范問題討論的還不夠。
2、現(xiàn)代地名長度無限制,真實文本中,還存在簡稱的問題。而古代文獻地名,長度較短,主要是兩個字和三個字的地名。
3、現(xiàn)代地名結(jié)構(gòu)較為復(fù)雜,內(nèi)部相互成詞,甚至存在諸如“北京市海淀區(qū)”這樣的多層復(fù)合的復(fù)雜地名。而從統(tǒng)計的左傳地名中可以看出,地名長度短,結(jié)構(gòu)較簡單,可總結(jié)的規(guī)則較少,不適合采用現(xiàn)代地名識別研究中規(guī)則的方法。
4、現(xiàn)代地名結(jié)尾有明顯的通名。例如:“江蘇省”、“鄭州市”等地名中的“省”、“市”,《左傳》地名也存在這樣的通名。
3、實驗結(jié)果及分析
本實驗使用條件隨機場(Condition Random Fields,CRFs)模型,具體采用的是TakuKudo編寫的工具包“CRF++0.51”進行訓(xùn)練和測試(下載連接:http://crfpp。soureeforgeaaet)進行訓(xùn)練和測試。
命名實體識別任務(wù)實際上是序列標(biāo)注任務(wù)。根據(jù)詞性標(biāo)注語料考察,在實際操作中我們采取了4詞位標(biāo)注集T,即T={B,I,E,s},其中,B是多字詞的開始詞,I是多字詞的中間詞,E是多字詞的結(jié)尾詞,S是單字詞。
我們分別做了四個實驗:
實驗一、只用字符本身作為特征,地名標(biāo)注為ns_x(x為詞位標(biāo)記),地名以外的其他詞用字一律標(biāo)注為0_x。
實驗二、在實驗一的基礎(chǔ)上。加入部首特征。
實驗三、在實驗一的基礎(chǔ)上,分詞和詞性標(biāo)注(包括地名標(biāo)注)一體化的處理,模板同實驗一。
實驗四、在實驗三的基礎(chǔ)上,加入部首特征,模板同實驗二。
實驗中,我們選用部首特征,因為漢字中形聲字居多,形旁在詞義理解過程中起了重要的作用。其次,在語料觀察的基礎(chǔ)上,我們發(fā)現(xiàn)地名中的確存在這種現(xiàn)象,例如:“右邑左阜”之說。在《左傳》地名用字統(tǒng)計中,“耳”旁在右表“邑”的用字有27個,“耳”旁在左表“阜”的用字有個17個。例如:邯鄲、郢、郡。我們嘗試部首特征是否可以提高識別率。
實驗一、實驗二將詞性標(biāo)記分為地名和非地名。并把分類問題轉(zhuǎn)化為序列標(biāo)注問題,對于地名
外其他詞語的詞性標(biāo)為0,而地名標(biāo)為NS。(例如:于O_S蔑ns_S),實驗三、實驗四訓(xùn)練語料樣例分別如表4-1、表4-2所示。(表中的**表示該字的部首不詳,標(biāo)記符號是詞性標(biāo)記+詞位標(biāo)記,例如:真v S表示:“寞”是個單字動詞,該標(biāo)記參考現(xiàn)代漢語分詞規(guī)范,地名的詞性標(biāo)記為ns。)
根據(jù)不同的要求分別制定了模板一和模板二(如表4-3、表4-4所示),表中以以上語料為例,對各個模板做出說明。
基于以上兩個模板,我們對《左傳》五分之二語料進行開放測試,給出三個評測指標(biāo):準(zhǔn)確率、召回率以及調(diào)和平均值,見公式(1)、(2)、(3)
準(zhǔn)確率R=(正確識別的地名,識別出的地名)100%(1)
召回率P=(正確識別的地名/實際存在的地名)*100%(2)
調(diào)和平均值F=((2+1)PR,((2R+P)通常(=l,則F=2PR/(R+P)(3)
實驗結(jié)果分析:
實驗一和實驗二的結(jié)果表明,添加部首特征并沒有提高識別率,于是,我們又進行了實驗三和實驗四,加入了每個詞的詞性,分詞、詞性一體化處理,結(jié)果精確率與前兩個實驗大致相同。召回率有了明顯的提高,但是,加部首特征實驗相比之下,識別率仍然比較低。原因可能有二:一是部首特征標(biāo)注不充分,在識別過程中,這樣特征不健全的情況,反而沒有未提供部首特征的實驗效果好。二是許多地名用字沒有明顯的部首特征,例如許多獨體字部首不確定,這樣訓(xùn)練和測試語料中出現(xiàn)大量的“**”,此時部首特征反而成了統(tǒng)計中的噪聲。此外,在實驗三和實驗四中,我們做的是分詞和詞性一體化,但實際操作時,我們只是計算地名的識別效果,因此不能全面的反映所選用的特征的作用,這也可能是影響識別精度的因素之一,我們會在下一步的工作中進行論證。
另外,前兩個實驗的識別率較后面兩個實驗低,尤其是召回率。原因在于我們沒有提供足夠的上下文信息,《左傳》地名有較為工整的上下文。不同的詞性對地名有不同的影響,而在實驗一和實驗二中,地名前后的標(biāo)記都是O,于是標(biāo)記同化,信息不足,所以取得了較差的成績。但是,標(biāo)記同化就相當(dāng)于單純的分詞,在原始文本中識別地名,人工代價低,下一步,我們會充分利用分詞與詞性標(biāo)注信息,挖掘文本中的其他特征,進一步提高識別效果。
4、未來工作展望
我們下一步的工作主要有:
(1)進一步提高識別效果,并用此方法對先秦其他主要文獻地名進行識別。
(2)重點放在先秦地名知識庫建設(shè)方面。
(3)構(gòu)建先秦歷史知識檢索系統(tǒng)。
在我們下一步的工作中識別將不是主要問題,雖然電子文獻還不完善,但一些出版的古代文獻中一般對專名加了標(biāo)記,如:下劃線等。所以,我們將進一步提高識別效果,并利用此方法對先秦其他主要文獻地名進行識別,從而挖掘地名知識背景,解決地名層級關(guān)系,沿革問題,同名異指和異名同指等問題。以為古漢語信息處理中其他領(lǐng)域的研究奠定基礎(chǔ)。
參考文獻:
[1]鄧慧蓉,從中國地名透視漢族人的思維方式和社會心理,學(xué)術(shù)交流。2003
[2]王際桐,論我國地名的命名原則,地球信息科學(xué),2001
[3]華林甫,論先秦時期我國地名學(xué)的特點,湖北大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),1996
[4]周易·系辭
[5]陳克炯,左傳詳解詞典,中州古籍出版社,2004
[6]陳橋驛,論地名重合續(xù),中國地名,1999
[7]閏海,淺析古地名中的“天人合一”現(xiàn)象,遼寧師專學(xué)報(社會科學(xué)版),2002
[8]陳立中,陰陽五行與中國古代地名學(xué),文化天地年,2005
[9]李麗
SVM與規(guī)則相結(jié)合的中文地名自動識別,中文信息處理學(xué)報,2006
[10]陳春榮,基于SVM的中文地名識別,大連理工大學(xué)。2005
[11]郭家清,基于條件隨機場得命名實體識別研究,沈陽航空工業(yè)學(xué)院,2007
基金項目:先秦文獻詞匯統(tǒng)計研究。南京師范大學(xué)211工程重點學(xué)科建設(shè)項目。