管 君,謝 瑋,張仰森
(北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院智能信息處理研究所,北京100192)
語義搭配的研究是研究文本語義的一種重要手段,目前其應(yīng)用領(lǐng)域很多,本文主要通過構(gòu)建語義搭配知識(shí)庫來解決文本查錯(cuò)問題。我們曾在文獻(xiàn)[2]中提出了利用 《知網(wǎng)》中的義原屬性構(gòu)建語義搭配詞典來進(jìn)行語義查錯(cuò)的方法,該方法取得了一定的實(shí)驗(yàn)效果,然而,其構(gòu)建的語義搭配詞典在語義轉(zhuǎn)化過程中未進(jìn)行選擇,而是將所有詞語搭配直接轉(zhuǎn)化為語義搭配,這樣得到的語義級搭配泛化過于嚴(yán)重,有可能會(huì)將原本不應(yīng)轉(zhuǎn)化為語義搭配的詞語搭配轉(zhuǎn)化為了語義搭配。
本文利用北京大學(xué)計(jì)算語言學(xué)研究所標(biāo)注的 《人民日報(bào)》語料提取詞語搭配,融合 《知網(wǎng)》中的義原屬性與《語義詞典》中的語義類屬性形成義原類,提出了限散度的概念,以控制語義泛化詞語的范圍。通過計(jì)算限散度構(gòu)建出詞語級、半語義級及語義級三層體系結(jié)構(gòu)的語義搭配知識(shí)庫,最終應(yīng)用該知識(shí)庫實(shí)現(xiàn)中文文本的語義錯(cuò)誤偵測。
在中文文本語義查錯(cuò)時(shí),將詞語級搭配通過語義泛化為語義級搭配,可以彌補(bǔ)語料庫較小這一缺陷。然而泛化后所涉及搭配的范圍勢必大于或者等于原本純字詞級搭配的范圍,如果不加限制的將所有提取的詞語級搭配全部直接泛化為語義級搭配,將會(huì)有許多未證實(shí)搭配的存在,從而出現(xiàn)本來不應(yīng)轉(zhuǎn)化的搭配而被轉(zhuǎn)化為相應(yīng)的語義級搭配的情況。為了解決這一問題,本文提出構(gòu)建三層體系結(jié)構(gòu)知識(shí)庫并以限散度來確定可以泛化為語義級搭配的詞語范圍。
《知網(wǎng)》是一個(gè)被廣泛應(yīng)用于中文信息處理的詞匯語義知識(shí)庫,它提出的義原是用來表征最基本的、不易分割的意義的最小單位?!墩Z義詞典》也是一部面向中文信息處理的詞匯語義知識(shí)庫,《語義詞典》中描述了每一個(gè)詞語所屬的語義類。
義原和語義類雖從屬于不同的詞典,但是它們在表述詞語語義方面有許多相似之處。首先,它們都描述了詞語的詳細(xì)語義信息。其次,兩者結(jié)構(gòu)清晰并且類似,其中語義類體系是標(biāo)準(zhǔn)的樹狀結(jié)構(gòu);而義原為稍微復(fù)雜的網(wǎng)狀結(jié)構(gòu),可以近似的看成樹狀結(jié)構(gòu),兩者都準(zhǔn)確的描述了不同詞語的語義歸屬,不同詞語分布于以語義類或者義原所形成的語義樹上。因此,本文將義原與語義類結(jié)合,構(gòu)建了一個(gè)義原類屬性。
義原類由義原和語義類組成。對于義原部分,動(dòng)詞和形容詞只取其詞語概念即義項(xiàng)中的主義原,而名詞需分別取其義項(xiàng)中的主義原以及5個(gè)常見的輔助義原:PartPosition、domain、whole、host和modifier義原;語義類部分為從 《語義詞典》提取的語義類屬性。由此構(gòu)建的義原類表如圖1所示。
圖1 義原類表
其中,如動(dòng)詞 “掂斤播兩”的義原類,由義項(xiàng)中的主義原 “計(jì)算”和語義類 “其他行為”組成;名詞 “滇紅”由其主義原和5個(gè)輔助義原加語義類構(gòu)成,其中若義項(xiàng)中沒有我們選取的輔助義原或該詞語在 《語義詞典》中沒有對應(yīng)的語義類,則以 “-”替代。
本搭配知識(shí)庫分為三層,12個(gè)子庫。
第一層為字詞級搭配庫,該層搭配是由北京大學(xué)的《人民日報(bào)》語料根據(jù)相應(yīng)的提取規(guī)則提取而來,由名動(dòng)(NV)、動(dòng)名 (VN)、形名 (AN)3個(gè)子庫構(gòu)成;
第二層為半語義級搭配庫,由名動(dòng)轉(zhuǎn)義動(dòng)詞 (NV_V)、名動(dòng)轉(zhuǎn)義名詞 (N_NV)、動(dòng)名轉(zhuǎn)義動(dòng)詞 (V_VN)、動(dòng)名轉(zhuǎn)義名詞 (VN_N)、形名轉(zhuǎn)義形容詞 (A_AN)和形名轉(zhuǎn)義名詞 (AN_N)6個(gè)子庫構(gòu)成;
第三層為完全語義級搭配庫,由名動(dòng)全義原類 (N_NV_V)、動(dòng)名全義原類 (V_VN_N)和形名全義原類(A_AN_N)3個(gè)子庫構(gòu)成。
整個(gè)搭配知識(shí)庫的體系結(jié)構(gòu)如圖2所示。
圖2 搭配知識(shí)庫的體系結(jié)構(gòu)
很多研究者越來越認(rèn)識(shí)到搭配對自然語言處理的作用,而搭配的語義知識(shí)存儲(chǔ)是對搭配的最有效存儲(chǔ)。然而,是不是所有詞都適合轉(zhuǎn)換為相應(yīng)的語義知識(shí)呢?答案顯然是否定的。比如 “戴+帽子”這個(gè)搭配,轉(zhuǎn)化為相應(yīng)的義原類為:“穿戴 身體活動(dòng)+衣物 頭 人---衣物”,然而 “佩帶”、“披掛”等詞也可以轉(zhuǎn)化為 “穿戴 身體活動(dòng)”,而它們顯然不能與帽子搭配,由此可見,如果不加任何限制的將詞語搭配轉(zhuǎn)化為語義級搭配,將會(huì)出現(xiàn)很多錯(cuò)誤搭配被誤判為正常搭配的情況,導(dǎo)致召回率較低。
因此,本文提出限散度的概念,以限定可以轉(zhuǎn)化為語義級搭配的詞的范圍。
定義1 可以與詞語j搭配且與詞語i同義原的詞語,同所有與i義原相同的詞語的比值,稱為限散度。
限散度公式如式 (1)和式 (2)所示
(其中i為被轉(zhuǎn)化詞;j為i的搭配詞)
其中,SUMi為人民日報(bào)語料中與i義原類相同的詞語的總數(shù);為人民日報(bào)中,所有與j搭配、且義原類與i的義原類相同的搭配的總數(shù)。若W=1,則證明所有與i的義原類相同的詞都可以與j搭配;W值越接近1,則表示用該語義搭配代替詞語搭配的準(zhǔn)確率越高;反之,則表示與該詞語i同義原的詞語大部分不能與j搭配。
本文選用2000年12個(gè)月的 《人民日報(bào)》標(biāo)注語料為訓(xùn)練語料庫,根據(jù)大量觀察和統(tǒng)計(jì),結(jié)合漢語的語法規(guī)律和特點(diǎn),制定出動(dòng)名、名動(dòng)和形名搭配的提取規(guī)則。其規(guī)則如下:
動(dòng)名、名動(dòng)搭配規(guī)則[2]:
規(guī)則1:若名詞位于當(dāng)前動(dòng)詞之后,提取與該動(dòng)詞距離最遠(yuǎn)的名詞,作為其搭配名詞;
規(guī)則2:若名詞位于當(dāng)前動(dòng)詞之前,提取與該動(dòng)詞距離最近的名詞,作為其搭配名詞。
規(guī)則3:在規(guī)則1、2的前提下,若名詞之間有連詞或其它標(biāo)識(shí)并列關(guān)系的詞語或標(biāo)點(diǎn),如 “和”、“并且”,則將這幾個(gè)并列的名詞分別抽取出來作為與該動(dòng)詞搭配的名詞。
形名搭配規(guī)則:
規(guī)則1:對于當(dāng)前形容詞,若同時(shí)存在前名詞與后名詞,取后名詞為搭配詞;
規(guī)則2:對于當(dāng)前形容詞,若只存在前名詞,則取距離該形容詞最近的前名詞為搭配詞;
規(guī)則3:對于當(dāng)前形容詞,若該形容詞后面為 “的”,則取 “的”后面連續(xù)名詞的最后一個(gè)名詞為搭配詞;否則,則取距離形容詞最近的一個(gè)名詞為搭配詞;
規(guī)則4:對于規(guī)則2、3,若形容詞之間有連詞或其它標(biāo)識(shí)并列關(guān)系的詞語或標(biāo)點(diǎn),如 “和”、“并且”,則分別取每個(gè)形容詞與名詞相搭配。
根據(jù)以上規(guī)則,提取的搭配如圖3所示。
圖3 詞語級搭配庫
半語義級搭配庫,轉(zhuǎn)化方法以動(dòng)名搭配為例。先以動(dòng)詞為轉(zhuǎn)化詞,名詞為搭配詞進(jìn)行半語義級的轉(zhuǎn)化,然后根據(jù)限散度公式計(jì)算限散值。由于語料庫規(guī)模問題,抽取的搭配只是所有詞語搭配很小的一部分,所以導(dǎo)致W值較小,因此本文選取0.1為閾值,大于0.1的搭配,將其轉(zhuǎn)化為動(dòng)名轉(zhuǎn)義動(dòng)詞 (V_VN)的半語義知識(shí)庫。之后再將動(dòng)詞作為搭配詞、名詞為轉(zhuǎn)化詞,重復(fù)以上過程,提取動(dòng)名轉(zhuǎn)義名詞 (VN_N)的半語義級知識(shí)庫。
提取的半語義級搭配庫如圖4所示。
圖4 半語義級搭配庫
同樣以動(dòng)名搭配為例。由于半語義級搭配已經(jīng)將其中一個(gè)詞轉(zhuǎn)化為義原類,所以語義級搭配只需要轉(zhuǎn)化另一半即可,即將已轉(zhuǎn)化為義原類的詞看做搭配詞,未轉(zhuǎn)化的詞作為轉(zhuǎn)化詞,同樣選取0.1為閾值,轉(zhuǎn)化為語義級搭配庫(N_NV_V),提取的語義級搭配庫如圖5所示。
根據(jù)查錯(cuò)算法的需要,為了降低算法的重復(fù)率,本文將已轉(zhuǎn)化為語義級和半語義級的搭配分別從半語義級和詞語級搭配庫中刪除,得到最終的語義知識(shí)庫。
在三層語義搭配知識(shí)庫的基礎(chǔ)上,設(shè)計(jì)語義錯(cuò)誤自動(dòng)查錯(cuò)算法見算法1。
算法1
步驟1 利用分詞模塊將實(shí)際測試語料進(jìn)行標(biāo)注。
步驟2 按照名動(dòng)、動(dòng)名、形名的提取規(guī)則,文本逐句掃描,提取搭配對;
步驟3 將提取的搭配轉(zhuǎn)化為全義原類搭配,查找知識(shí)庫中的語義級搭配庫,如找到該搭配,則此搭配正確,否則,轉(zhuǎn)入步驟4;
步驟4 將搭配分別轉(zhuǎn)化為半義原類搭配庫1(前詞轉(zhuǎn)化)和半義原類搭配庫2(后詞轉(zhuǎn)化),查找知識(shí)庫中的半語義級搭配庫,如找到,則該搭配正確,否則,轉(zhuǎn)入步驟5;
步驟5 查找知識(shí)庫中的詞語級搭配庫,如找到,則該搭配正確,否則,該搭配錯(cuò)誤,加入錯(cuò)誤列表wronglist;
步驟6 判斷是否為最后一句,如果是則轉(zhuǎn)入步驟7;否則,轉(zhuǎn)入步驟2;
步驟7 將wronglist依次讀出并標(biāo)紅,轉(zhuǎn)入步驟8;
步驟8 結(jié)束。
圖5 語義級搭配庫
根據(jù)上文提出的文本語義錯(cuò)誤查錯(cuò)算法,本文從小學(xué)生語文病句題目中選取了324個(gè)病句作為測試語料,其中除了56個(gè)語義搭配錯(cuò)誤外,還包括了字詞級和語法級的錯(cuò)誤。我們利用 Visual Studio 2010和SQL Server2005開發(fā)了一個(gè)智能信息處理平臺(tái),啟動(dòng)語義查錯(cuò)功能,得到的實(shí)驗(yàn)結(jié)果如圖6所示,其中錯(cuò)誤詞語用紅色加粗標(biāo)識(shí)。
通過對實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì),我們得到如表1所示的統(tǒng)計(jì)結(jié)果。
有人曾只使用 《知網(wǎng)》,且未使用分層結(jié)構(gòu)篩選可以進(jìn)行語義轉(zhuǎn)化的詞語,其查錯(cuò)結(jié)果為:召回率35%,精確率82.3%。通過對比發(fā)現(xiàn),本方法在錯(cuò)誤的召回率方面有較大提高,精準(zhǔn)率上稍有下降。
圖6 實(shí)驗(yàn)結(jié)果
表1 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
通過對實(shí)驗(yàn)結(jié)果分析,造成精確率低的原因主要有兩個(gè):
(1)知識(shí)庫較小,且涉及領(lǐng)域主要為政治類,較為單一;
(2)分詞軟件標(biāo)注錯(cuò)誤。
下面,我通過幾個(gè)例句來詳細(xì)分析。
例4:“六一”節(jié)那天,學(xué)生都穿著鮮艷的衣服和紅領(lǐng)巾,參加慶?;顒?dòng)。
分詞結(jié)果:六一/m ”/w 節(jié)/n 那天/t,/w 學(xué)生/n 都/d 穿/v著/uz鮮艷/a 的/uj衣服/n 和/c 紅領(lǐng)巾/n ,/w 參加/v 慶祝/vn活動(dòng)/vn。/w
其中,“學(xué)生 穿”其實(shí)在日常生活中是一個(gè)較為常用的搭配,然而,在政治類語料中,此搭配較少,結(jié)果就導(dǎo)致 “學(xué)生 穿”被標(biāo)紅,而 “鮮艷 衣服”也是這個(gè)原因。
例5:公園新設(shè)了由兩個(gè)英國援建的游樂項(xiàng)目。
分詞結(jié)果:公園/n 新/d 設(shè)/v 了/ul由/p 兩/n個(gè)/q 英國/ns援建/v 的/uj游樂/vn項(xiàng)目/n 。/w
其中,“兩”本來應(yīng)該為數(shù)詞,而在此處卻被標(biāo)記為名詞,所以造成 “設(shè)”和 “援建”被標(biāo)紅。
另外,提取搭配的規(guī)則還較為粗糙,搭配庫的提取方法還有待進(jìn)一步細(xì)化。
盡管如此,我們?nèi)钥梢钥闯?,義原類及其構(gòu)建的三層結(jié)構(gòu)語義知識(shí)庫可以用于文本查錯(cuò),同時(shí),它也為今后語義錯(cuò)誤偵測的研究提出了一個(gè)可行的方向。
本文從文本查錯(cuò)應(yīng)用出發(fā),結(jié)合語義學(xué)知識(shí),詳細(xì)介紹了義原類及三層結(jié)構(gòu)知識(shí)庫的構(gòu)建,利用該知識(shí)庫實(shí)現(xiàn)的文本查錯(cuò)算法,取得了較好的實(shí)驗(yàn)效果。今后會(huì)繼續(xù)擴(kuò)大語料庫的規(guī)模與范圍,使其能夠涵蓋更多的領(lǐng)域。另外,對于復(fù)合語句或句子成分殘缺的語句,因?yàn)榫渥咏Y(jié)構(gòu)較復(fù)雜,會(huì)影響到查錯(cuò)的準(zhǔn)確率,因此,加強(qiáng)句法分析的研究將是今后文本錯(cuò)誤偵測工作的一項(xiàng)重要內(nèi)容。
:
[1]LI Jingning.The semantics collocation theory and english teaching [J].Science & Technology Information,2010 (36):150(in Chinese).[李經(jīng)寧.淺析語義學(xué)的搭配理論與英語教學(xué)[J].科技信息,2010 (36):150.]
[2]GUO Chong,ZHANG Yangsen.Study of semantic automatic error-detecting for Chinese text based on sememe matching of HowNet.Computer Engineering and Design,2010,31 (17):3924-3928 (in Chinese).[郭充,張仰森.基于 《知網(wǎng)》義原搭配的中文文本語義級自動(dòng)查錯(cuò)研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31 (17):3924-3928.]
[3]ZHENG Fengqiang,LIN Lei,LIU Bingquan,et al.A research on the application of HowNet in named entity recognition [J].Journal of Chinese Information Processing,2008,22 (5):97-101(in Chinese).[鄭逢強(qiáng),林磊,劉秉權(quán),等.《知網(wǎng)》在命名實(shí)體識(shí)別中的應(yīng)用研究 [J].中文信息學(xué)報(bào),2008,22(5):97-101.]
[4]WU Yunfang,JIN Peng,GUO Tao.Coarse-grained word sense disambiguation using features described in the lexicon [J].Journal of Chinese Information Processing,2007,21 (2):3-8(in Chinese).[吳云芳,金澎,郭濤.基于詞典屬性特征的粗粒度詞義消歧 [J].中文信息學(xué)報(bào),2007,21 (2):3-8.]
[5]WANG Xueling.On the correlation between generative semantics and structuralism linguistics [J].Journal of Jilin Agricultural Science and Technology College,2009,18 (1):88-89 (in Chinese).[王雪玲.生成語義學(xué)與結(jié)構(gòu)主義語言學(xué)發(fā)展的關(guān)聯(lián)性研究 [J].吉林農(nóng)業(yè)科技學(xué)院學(xué)報(bào),2009,18 (1):88-89.]
[6]WANG Suge,YANG Junling,ZHANG Wu.Automatic acquisition of chinese collocation [J].Journal of Chinese Information Processing,2006,20 (6):31-37 (in Chinese).[王素格,楊軍玲,張武.自動(dòng)獲取漢語詞語搭配 [J].中文信息學(xué)報(bào),2006,20 (6):31-37.]
[7]YANG Shouxun.Machine learning for collocation identification[C]//Beijing:IEEE International Conference on Natural Language Processing and Knowledge Engineering,2003:315-320.
[8]DANG H T.The role of semantic roles in disambiguating verb senses [C]//Proceedings of the 43th Annual Meeting of the ACL,2005.
[9]CHEN Jia,LUO Zhensheng.An approach to Chinese word sense disambiguation based on collocation [J].Microcomputer Information,2008,24 (3):187-188 (in Chinese). [陳佳,羅振聲.一種基于語義搭配的漢語詞義消歧方法 [J].微計(jì)算機(jī)信息.2008,24 (3):187-188.]
[10]TANG Yi,ZHOU Changle,LIAN Ruiting.Chinese semantic dependency analysis using HowNet [J].Mind and Computation,2010,4 (2):109-116 (in Chinese). [唐怡,周昌樂,練睿婷.基于HowNet的中文語義依存分析 [J].心智與計(jì)算,2010,4 (2):109-116.]