劉里 劉小明
(北京理工大學(xué)計算機(jī)學(xué)院,北京100081)
術(shù)語是某種語言中專門指稱某一專業(yè)領(lǐng)域一般(具體或者抽象)理論概念的詞匯單位[1].領(lǐng)域術(shù)語集體現(xiàn)了領(lǐng)域的核心知識.自動術(shù)語抽取是信息抽取領(lǐng)域的重要研究課題,其在特定領(lǐng)域的應(yīng)用需求越來越大:醫(yī)療、生物、計算機(jī)科學(xué)等領(lǐng)域均需要術(shù)語集來構(gòu)建領(lǐng)域知識庫.
傳統(tǒng)的術(shù)語自動抽取技術(shù)可以歸納為基于統(tǒng)計和基于語言學(xué)知識兩種方式.廣泛采用的統(tǒng)計類術(shù)語抽取技術(shù)有基于語言模型統(tǒng)計領(lǐng)域相關(guān)性、領(lǐng)域一致性的方法[2]、基于互信息的方法[3]等.這些方法對候選結(jié)果按照統(tǒng)計指標(biāo)進(jìn)行排序,提取指標(biāo)排序靠前的結(jié)果作為最終結(jié)果.基于語言學(xué)知識的術(shù)語抽取普遍采取利用術(shù)語的上下文環(huán)境,運(yùn)用機(jī)器學(xué)習(xí)方法訓(xùn)練模型,進(jìn)行自動抽取,這在特定領(lǐng)域取得了不錯的效果[4].近期的術(shù)語抽取技術(shù)常常面臨3個難點(diǎn):(1)部分術(shù)語可以利用的上下文特征比較少,使得基于上下文的術(shù)語抽取算法無能為力;(2)傳統(tǒng)算法是建立在待處理文本正確分詞的基礎(chǔ)上的;(3)對前期的領(lǐng)域知識(如領(lǐng)域詞庫)有較高依賴性,不便于跨領(lǐng)域移植.
傳統(tǒng)的名詞性術(shù)語抽取方法較多利用術(shù)語的領(lǐng)域特性,并對其賦予權(quán)重來識別[5].然而,這些方法常常碰到的困難是:對于非名詞性術(shù)語,少量特征難以將其識別出來,過多的特征又會匹配多個特征而對術(shù)語識別產(chǎn)生沖突.針對這些問題,文中對領(lǐng)域現(xiàn)象術(shù)語提出了一種有效的抽取方法.
領(lǐng)域現(xiàn)象術(shù)語一般都是動詞性復(fù)合詞.動詞性復(fù)合詞是指由至少一個動詞性語素構(gòu)成的復(fù)合詞[6].例如,在電腦故障診斷領(lǐng)域,“停轉(zhuǎn)”、“藍(lán)屏”、“掉線”等都是動詞性復(fù)合詞.文中選取復(fù)合型領(lǐng)域現(xiàn)象術(shù)語作為考察對象是基于以下考慮:(1)在特定領(lǐng)域,現(xiàn)象術(shù)語作為術(shù)語出現(xiàn)的概率較高,且可能和名詞性術(shù)語一同出現(xiàn)在特定領(lǐng)域的詞庫中,然而這一類復(fù)合型術(shù)語往往不具備專門的詞庫,難以與名詞性術(shù)語區(qū)分開來;(2)領(lǐng)域現(xiàn)象術(shù)語可以作為故障診斷領(lǐng)域的“條件屬性+取值”的組合,抽取結(jié)果可以作為問句的條件值,推動問答系統(tǒng)的發(fā)展.復(fù)合詞的一個突出特點(diǎn)是難以與短語劃清界限,這是漢語研究中長期存在的一個難題.在自然語言處理(NLP)研究中,如果將這一類術(shù)語作為短語處理,由于短語結(jié)構(gòu)的不確定性,難以得到理想的結(jié)果.文中從詞語的角度進(jìn)行處理,如果能夠取得較高的正確率,會對此類復(fù)合詞的處理有所啟發(fā).
句子是由實詞和虛詞連接構(gòu)成的,常見的領(lǐng)域現(xiàn)象術(shù)語傾向于實詞.對于句子中的一個詞,與它相鄰的前后兩個詞,分別稱為它的前驅(qū)與后驅(qū),有研究者將這兩個詞稱作分隔符[7].
與領(lǐng)域術(shù)語相比,分隔符更有可能是虛詞或一般性的實詞,并且具有一定的領(lǐng)域獨(dú)立性,更容易被識別出來.文中利用分隔符的特征進(jìn)行術(shù)語抽取,即通過識別術(shù)語的前驅(qū)與后驅(qū)來標(biāo)記術(shù)語,在兩個術(shù)語分隔符之間的字符串可看作是候選術(shù)語.
先分析下面的兩個例子:“云計算是一種基于因特網(wǎng)的超級計算模式”來源于計算機(jī)領(lǐng)域的一篇學(xué)術(shù)文章,其中的“云計算”、“因特網(wǎng)”和“超級計算模式”是計算機(jī)領(lǐng)域的術(shù)語,它們以術(shù)語分隔符“是”、“的”和“基于”為邊界;“人民代表大會制度是中華人民共和國的基本政治制度”來源于《中華人民共和國憲法》,其中的“人民代表大會制度”、“中華人民共和國”和“基本政治制度”是法律領(lǐng)域術(shù)語,它們被分隔符“是”和“的”所標(biāo)記.可以看出“是”和“的”在兩個不同領(lǐng)域均是術(shù)語分隔符,由此可見分隔符具有一定的領(lǐng)域無關(guān)性.分隔符與術(shù)語關(guān)聯(lián),在使用時也較穩(wěn)定,因此分隔符可以作為術(shù)語的邊界標(biāo)志.
為了獲得更好的抽取效果,文中采取停用詞表與詞頻相結(jié)合的分隔符抽取方法.
1.2.1 基于詞頻的分隔符抽取方法
基于詞頻的分隔符抽取方法是統(tǒng)計領(lǐng)域中術(shù)語的高頻前驅(qū)后繼,并過濾掉領(lǐng)域術(shù)語,具體步驟如下:(1)對術(shù)語詞典中的每個術(shù)語,如果其在訓(xùn)練語料中出現(xiàn)則進(jìn)行標(biāo)記;(2)對訓(xùn)練語料進(jìn)行分詞,對標(biāo)記過的術(shù)語不進(jìn)行切分;(3)抽取每個術(shù)語的前驅(qū)和后繼,組成候選分隔符集;(4)對每個候選分隔符,如果其是術(shù)語詞典中的術(shù)語,則將其從候選分隔符集中移除;(5)統(tǒng)計候選分隔符在訓(xùn)練語料中的詞頻,選取詞頻較高的候選分隔符作為分隔符.
1.2.2 領(lǐng)域停用詞與分隔符的關(guān)系
停用詞是指出現(xiàn)頻率較高、沒有太大檢索意義的詞,如“的”、“了”、“太”、“of”、“the”等.在知識抽取中幾乎沒有真正的停用詞,只是把出現(xiàn)頻率較高的虛詞作為臨時的停用詞,切分完后仍然需要標(biāo)記[8].主謂結(jié)構(gòu)的上下文以常用虛詞為主.可見,主謂結(jié)構(gòu)的上下文相當(dāng)于領(lǐng)域停用詞,并成為主謂結(jié)構(gòu)的分隔符.
經(jīng)統(tǒng)計,領(lǐng)域現(xiàn)象術(shù)語在主謂結(jié)構(gòu)中出現(xiàn)的概率較高.因此,將領(lǐng)域停用詞表中的詞加入領(lǐng)域現(xiàn)象術(shù)語的分隔符表,可以使分隔符表更加完善,提升領(lǐng)域現(xiàn)象術(shù)語抽取的效果.
1.2.3 分隔符混合抽取方法
將1.2.1節(jié)中基于詞頻方法抽取得到的分隔符表加上1.2.2節(jié)中的領(lǐng)域停用詞表,得到分隔符抽取的最終結(jié)果.
在分隔符抽取階段需要進(jìn)行分詞,且難免出現(xiàn)分詞錯誤.不過分詞錯誤不會對領(lǐng)域現(xiàn)象術(shù)語抽取的最終結(jié)果造成影響,因為分詞錯誤出現(xiàn)在分隔符抽取階段而不是領(lǐng)域現(xiàn)象術(shù)語抽取階段,而且分隔符的權(quán)重算法也大大降低了分詞錯誤造成的影響.
文中算法是建立在術(shù)語抽取經(jīng)典算法NC-value基礎(chǔ)上的,NC-value算法利用上下文統(tǒng)計和語言學(xué)信息進(jìn)行術(shù)語抽?。?].抽取出來的上下文信息根據(jù)頻率與術(shù)語的共現(xiàn)信息被賦予權(quán)重.
經(jīng)典的NC-value算法在抽取術(shù)語的過程中僅僅利用了術(shù)語上下文.經(jīng)統(tǒng)計,名詞性術(shù)語與領(lǐng)域現(xiàn)象術(shù)語有著較高的共現(xiàn)頻率.根據(jù)這一特性,在基于分隔符的基礎(chǔ)上,文中利用名詞性術(shù)語進(jìn)行領(lǐng)域現(xiàn)象術(shù)語的抽取.文中在NC-value算法的基礎(chǔ)上進(jìn)行如下假設(shè):(1)名詞性術(shù)語作為上下文術(shù)語對領(lǐng)域現(xiàn)象術(shù)語的決策能力要高于普通的分隔符;(2)名詞性術(shù)語和分隔符與待抽取術(shù)語的距離越近,其對術(shù)語的決策能力越強(qiáng).
通過對與領(lǐng)域現(xiàn)象術(shù)語共現(xiàn)的詞分配權(quán)重來實現(xiàn)上述假設(shè).候選領(lǐng)域現(xiàn)象術(shù)語的抽取算法如式(1)所示:
式中,a為候選術(shù)語,P(a)為a成為候選術(shù)語的概率,Sa為a的分隔符集合,b為Sa中的一個分隔符,fa(b)為在訓(xùn)練語料中b作為a的分隔符出現(xiàn)的頻率,weight(b)為分隔符b的權(quán)重,dis(b,a)為b與a的句法距離,Ta為a的上下文術(shù)語集合,d為Ta集合中的一個詞為在訓(xùn)練語料中d作為a的上下文術(shù)語出現(xiàn)的頻率,syn(d,a)為d與a的句法權(quán)重,dis(d,a)為d與a的句法距離.式(1)中等號右邊第一項表示分隔符在抽取中所起的作用,第二項表示上下文術(shù)語在抽取中所起的作用.
1.3.1分隔符的作用
不同的分隔符對確定術(shù)語所起的作用不同.文中通過分隔符在訓(xùn)練語料中與術(shù)語共現(xiàn)的頻率占其所有出現(xiàn)頻率的比值來確定分隔符的權(quán)重,即
式中:t(b)為訓(xùn)練語料中與b一起出現(xiàn)的術(shù)語數(shù)目;n為訓(xùn)練語料中b出現(xiàn)的頻率總和;Nb,a為b和a之間的詞語數(shù)目(根據(jù)分詞的結(jié)果),相鄰關(guān)系詞的Nb,a定義為1.可以看出:訓(xùn)練語料中與一個詞共現(xiàn)的術(shù)語頻率越高,這個詞作為術(shù)語分隔符的權(quán)重就越大;一個詞與權(quán)重大的分隔符共現(xiàn)的頻率越高,它就越可能是一個術(shù)語,成為術(shù)語的概率與分隔符的距離成反比,即一個詞與分隔符的距離越小,其成為術(shù)語的可能性越大.
1.3.2 上下文術(shù)語的作用
文中通過與上下文術(shù)語在同一個句子中的句法關(guān)系和距離來確定領(lǐng)域現(xiàn)象術(shù)語的概率.領(lǐng)域現(xiàn)象術(shù)語的出現(xiàn)常有以下幾種情況:(1)與“對象”類術(shù)語(常常是名詞性術(shù)語)以主謂句法模式出現(xiàn),但主謂關(guān)系有可能存在于其它類型的句法成分中,如臺式機(jī)的顯示器(對象)突然間藍(lán)屏(現(xiàn)象)了;(2)與其它領(lǐng)域現(xiàn)象術(shù)語并列存在,但并列關(guān)系也可能存在于其它類型的句法成分中,如臺式機(jī)的顯示器(對象)不停地抖動(并列現(xiàn)象),接著就藍(lán)屏(并列現(xiàn)象)了;(3)與“對象”類術(shù)語組合,作為狀語存在,如臺式機(jī)的顯示器藍(lán)屏?xí)r(狀語),CPU風(fēng)扇運(yùn)轉(zhuǎn)正常.
文中利用依存句法分析器[10]來識別句子成分.句法模式得分由句法模式(與上下文之間屬于主謂、并列關(guān)系等)和距離(與作用元素相隔的詞語數(shù)目)來決定.文中通過實驗得到句法模式得分的經(jīng)驗值:主謂模式時取值為1.0,并列模式時取值為0.8,狀語模式時取值為0.6.距離得分為
式(4)表明,在同一個句子中,作用因素與候選領(lǐng)域現(xiàn)象術(shù)語的距離越近,在句法上的關(guān)系越密切,其對術(shù)語的決定作用就越高.
1.3.3 非領(lǐng)域現(xiàn)象術(shù)語的過濾
采用式(1)得到的只是候選領(lǐng)域現(xiàn)象術(shù)語,其中包含著大量非領(lǐng)域現(xiàn)象術(shù)語.利用領(lǐng)域詞表過濾掉其它類型的術(shù)語,得到的結(jié)果才是領(lǐng)域現(xiàn)象術(shù)語.
為了和其它抽取算法進(jìn)行比較,文中采用了傳統(tǒng)的評測標(biāo)準(zhǔn):準(zhǔn)確率與召回率,
實驗在抽取的“百度知道”語料庫上進(jìn)行,范圍是計算機(jī)故障診斷領(lǐng)域.語料庫采用問答的形式,包含用戶在“百度知道”上完整的問題與答案.選擇這個語料庫有以下幾個原因:(1)計算機(jī)故障診斷領(lǐng)域包含的領(lǐng)域術(shù)語數(shù)量不多,比較容易保證人工標(biāo)注的工作量和準(zhǔn)確性;(2)一問一答的模式集中了豐富的領(lǐng)域信息,領(lǐng)域術(shù)語的密度較高;(3)“百度知道”的格式規(guī)范,利于語料庫的抽取和預(yù)處理.
文中選取700組計算機(jī)故障診斷領(lǐng)域的問答作為訓(xùn)練語料,2885組(約1.83MB)問答作為實驗語料.由于領(lǐng)域現(xiàn)象術(shù)語不容易得到局部上下文信息,文中利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行抽取,所以只將文中方法的抽取結(jié)果與傳統(tǒng)的基于詞頻的方法[11]及基于分隔符的方法[7]做比較.
(1)利用文中方法進(jìn)行抽取按照1.2節(jié)方法對訓(xùn)練語料進(jìn)行分隔符抽取,在基于詞頻的方法中設(shè)置頻率閾值為3(如果一個詞與術(shù)語共現(xiàn)的頻率超過3次,就將其選為分隔符).利用訓(xùn)練語料,抽取到有效前驅(qū)分隔符251個,有效后驅(qū)分隔符297個.停用詞庫采用Stopword List,包含了507條停用詞.將兩者進(jìn)行結(jié)合,最終得到有效前驅(qū)分隔符337個,有效后驅(qū)分隔符385個.
對“搜狗”計算機(jī)詞庫進(jìn)行過濾,得到“搜狗”計算機(jī)名詞性詞庫.利用訓(xùn)練語料得到分隔符,并將“搜狗”計算機(jī)名詞性詞庫作為上下文術(shù)語對實驗語料按照式(1)進(jìn)行抽取,得到候選領(lǐng)域現(xiàn)象術(shù)語集.然后參照“搜狗”計算機(jī)名詞性詞庫,在候選領(lǐng)域現(xiàn)象術(shù)語集中把名詞性術(shù)語過濾掉,得到最終領(lǐng)域現(xiàn)象術(shù)語.
(2)利用基于詞頻的方法進(jìn)行抽取首先對語料進(jìn)行分詞,分詞結(jié)果的好壞直接關(guān)系到最后的抽取結(jié)果,文中采用中國科學(xué)院的ICTCLAS[12]系統(tǒng)并加入“搜狗”計算機(jī)詞庫進(jìn)行分詞;然后利用基于詞頻的方法對分詞結(jié)果進(jìn)行術(shù)語抽取,采用“搜狗”計算機(jī)名詞性詞庫在結(jié)果中過濾掉名詞性術(shù)語,得到抽取結(jié)果.
(3)利用基于分隔符的方法進(jìn)行抽取基于分隔符的抽取方法可以理解為只利用式(1)中的前半部分進(jìn)行抽取,即
采用前面抽取到的分隔符,利用“搜狗”計算機(jī)名詞性詞庫在候選領(lǐng)域現(xiàn)象術(shù)語集中把名詞性術(shù)語過濾掉,得到最終結(jié)果.
3種方法的實驗結(jié)果如表1所示.從表1可知,文中提出的領(lǐng)域現(xiàn)象術(shù)語抽取方法具有較高的召回率,但準(zhǔn)確率相對較低.這是因為文中方法對領(lǐng)域現(xiàn)象術(shù)語的過濾主要集中在名詞性術(shù)語上,還有一定數(shù)量的動詞性術(shù)語沒有過濾掉.如“打開機(jī)箱,開始清掃灰塵”中的“清掃”被認(rèn)為是領(lǐng)域現(xiàn)象術(shù)語,實際上它只符合普通動詞性術(shù)語的特征.如果文中算法能將領(lǐng)域現(xiàn)象術(shù)語中的動詞性術(shù)語過濾掉,那么抽取的結(jié)果會更加準(zhǔn)確.
表1 3種方法的抽取結(jié)果比較Table 1 Comparison of extraction results obtained by three methods
文中將基于局部上下文的抽取方法應(yīng)用到分隔符抽取中,利用分隔符和上下文術(shù)語進(jìn)行術(shù)語抽取,同時過濾掉詞性不符的術(shù)語,在一定程度上解決了領(lǐng)域現(xiàn)象術(shù)語難以利用特征進(jìn)行抽取的問題.這種方法在小規(guī)模語料庫上取得了較為顯著的效果,如果語料庫選取得當(dāng),可以被應(yīng)用于多種限定領(lǐng)域,對多種復(fù)合詞進(jìn)行抽取.實驗結(jié)果表明,文中方法沒有達(dá)到很高的準(zhǔn)確率.這是由于利用式(1)方法抽取到了大量的非領(lǐng)域現(xiàn)象術(shù)語,而能夠過濾掉的術(shù)語類型又比較有限.下一步將針對如何更加合理地過濾掉更多類型的非領(lǐng)域現(xiàn)象術(shù)語進(jìn)行研究.
[1]馮志偉.現(xiàn)代術(shù)語學(xué)引論[M].北京:語文出版社,1997:31.
[2]傅繼彬,樊孝忠,毛金濤,等.基于語言特性的中文領(lǐng)域術(shù)語抽取算法[J].北京理工大學(xué)學(xué)報,2010,30(3):307-310.Fu Ji-bin,F(xiàn)an Xiao-zhong,Mao Jin-tao,et al.An algorithm of Chinese domain term extraction based on language feature[J].Transactions of Beijing Institute of Technology,2010,30(3):307-310.
[3]張鋒,許云,侯艷,等.基于互信息的中文術(shù)語抽取系統(tǒng)[J].計算機(jī)應(yīng)用研究,2005,22(5):72-73.Zhang Feng,Xu Yun,Hou Yan,et al.Chinese term extraction system based onmutual information[J].Application Research of Computers,2005,22(5):72-73.
[4]Argamon S,Dagan I,Krymolowski Y.A memory-based approach to learning shallow natural language patterns[C]∥Proceedings of the 17th International Conference on Computational Linguistics.Montreal:Association for Computational Linguistics,1998:67-73.
[5]Itagaki M,Aikawa T,He X.Automatic validation of terminology translation consistency with statisticalmethod[C]∥Proceedings of MT Summit XI.Copenhagen:[s.n.],2007:269-274.
[6]董秀芳.動詞性并列式復(fù)合詞的歷時發(fā)展特點(diǎn)與詞化程度的等級[J].河北師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2000,23(1):57-63.Dong Xiu-fang.The features of the diachronic development of verbal coordinate compound words in the Chinese language and their etymological changes[J].Journal of Hebei Normal University:Social Science Edition,2000,23(1):57-63.
[7]Qin L.Chinese term extraction using minimal resources[C]∥Proceedings of the 22nd International Conference on Computational Linguistics.Manchester:Association for Computational Linguistics,2008:1033-1040.
[8]化柏林.知識抽取中的停用詞處理技術(shù)[J].現(xiàn)代圖書情報技術(shù),2007(8):48-51.Hua Bo-lin.Stop-word processing technique in knowledge extraction[J].New Technology of Library and Information Service,2007(8):48-51.
[9]Frantzi K,Ananiadou S,Mima H.Automatic recognition of multi-word terms:the C-value/NC-valuemethod[J].International Journal on Digital Libraries,2000,3(2):115-130.
[10]李彬,劉挺,秦兵,等.基于語義依存的漢語句子相似度計算[J].計算機(jī)應(yīng)用研究,2002(12):15-17.Li Bin,Liu Ting,Qin Bing,et al.Chinese sentence similarity computing based on semantic dependency relationship analysis[J].Application Research of Computers,2002(12):15-17.
[11]Joachims T.A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization[C]∥Proceedings of the 14th International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc,1997:143-151.[12]Zhang H P,Yu H K,Xiong D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]∥Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing.Sapporo:Association for Computational Linguistics,2003:184-187.