任愷
摘要:該文建立了一個(gè)無(wú)監(jiān)督的詞義排歧系統(tǒng),并將它應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的語(yǔ)料中。該系統(tǒng)使用未進(jìn)行人工標(biāo)注的語(yǔ)料進(jìn)行機(jī)器學(xué)習(xí),學(xué)習(xí)過(guò)程只需預(yù)先定義標(biāo)準(zhǔn)詞義的數(shù)量,不需要其他人工干預(yù)。該系統(tǒng)使用了一種通常使用于圖像識(shí)別領(lǐng)域的基于核的模糊C均值算法。該文針對(duì)文本應(yīng)用改進(jìn)該算法并將其應(yīng)用在生物醫(yī)學(xué)文本的詞義排歧領(lǐng)域,并取得了較好的效果。
關(guān)鍵詞:詞義排歧;核模糊;C均值;聚類(lèi);無(wú)監(jiān)督
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)34-0001-03
1 研究問(wèn)題簡(jiǎn)介
詞義排歧任務(wù)的目標(biāo)是為多義詞在當(dāng)前上下文環(huán)境中選擇合適的義項(xiàng)從而消除歧義。詞義排歧是自然語(yǔ)言處理的基礎(chǔ)工作,它是信息抽取、機(jī)器翻譯、信息搜索等自然語(yǔ)言處理工作的基礎(chǔ)。
目前主流的基于語(yǔ)意的詞義排歧方法主要有兩種:第一種是基于有指導(dǎo)機(jī)器學(xué)習(xí)的方法,該方法使用一部分預(yù)先標(biāo)注好的語(yǔ)料進(jìn)行機(jī)器學(xué)習(xí),訓(xùn)練好的算法再之后用于測(cè)試語(yǔ)料測(cè)試。該類(lèi)方法往往有較好的實(shí)驗(yàn)效果,但是存在的問(wèn)題是需要大量的人工標(biāo)注語(yǔ)料,人工語(yǔ)料的標(biāo)注成本較高使得該方法應(yīng)用有所局限。第二種方法是基于無(wú)指導(dǎo)機(jī)器學(xué)習(xí)的方法,這種方法直接使用原始語(yǔ)料進(jìn)行訓(xùn)練學(xué)習(xí),將訓(xùn)練好的算法用于測(cè)試語(yǔ)料,直接得到結(jié)果。
2 生物醫(yī)學(xué)領(lǐng)域詞義排歧研究現(xiàn)狀
在自然語(yǔ)言處理中,詞義排歧問(wèn)題在很多領(lǐng)域都是一項(xiàng)具有挑戰(zhàn)性的基礎(chǔ)工作。詞義排歧的準(zhǔn)確性會(huì)直接影響機(jī)器翻譯、信息檢索等工作的最終效果。詞義排歧算法在生物醫(yī)學(xué)領(lǐng)域主要分為以下三種研究方法:有監(jiān)督學(xué)習(xí)方法、無(wú)監(jiān)督學(xué)習(xí)方法和基于知識(shí)的學(xué)習(xí)方法。
目前大量的工作是基于有監(jiān)督的機(jī)器學(xué)習(xí)方法。Hatzivassiloglou et al.使用三種機(jī)器學(xué)習(xí)方法的組合,它們是簡(jiǎn)單貝葉斯,決策樹(shù)以及總結(jié)的規(guī)則用來(lái)訓(xùn)練模型用于蛋白質(zhì)、基因和mRNA的詞義排岐工作。Gnter et al. 使用了一種統(tǒng)計(jì)分類(lèi)的方法并且對(duì)詞袋權(quán)重表示做了改進(jìn)。他們將靠近歧義詞的上下文賦予更高的權(quán)重,之后使用基于SVM的分類(lèi)器進(jìn)行分類(lèi)工作,他們的將基因、蛋白質(zhì)名稱(chēng)的詞義排歧工作的準(zhǔn)確率由79%提高到了82%。Leroy and Rindflesch 提出了一種有監(jiān)督的詞義排歧方法將歧義詞的詞義映射到了UMLS上詞義上,該方法在生物醫(yī)學(xué)詞義排歧領(lǐng)域有廣泛的影響。在非生物領(lǐng)域也有些學(xué)者使用了一些核函數(shù)方法來(lái)提高詞義排歧的效果。
第二類(lèi)方法為基于特征的無(wú)監(jiān)督學(xué)習(xí)方法。這類(lèi)方法使用通用的詞典義項(xiàng)作為詞義排歧的目標(biāo),通常使用通用詞典義項(xiàng)作為最終評(píng)估標(biāo)準(zhǔn),或者使用不同詞義類(lèi)別的區(qū)分程度來(lái)評(píng)估詞義排歧的效果。Agirre et al. 提出了一種基于圖的方法實(shí)現(xiàn)了為另外一種常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)思路。Duan W et al. 提出了一種最大邊的圖模型無(wú)監(jiān)督方法,在之前的方法基礎(chǔ)上準(zhǔn)確率有所提高。
第三類(lèi)方法是基于大規(guī)模外部資源的方法。Wren et al. 提出了一個(gè)數(shù)據(jù)庫(kù)包含縮略語(yǔ)和它們的完整義項(xiàng)。Jimeno-Yepes et al. 提出基于知識(shí)的詞義排歧方法進(jìn)一步提高的準(zhǔn)確率。
目前生物醫(yī)學(xué)領(lǐng)域詞義排歧問(wèn)題已經(jīng)研究比較深入,各個(gè)大類(lèi)方法都有學(xué)者做出了深入研究取得較佳的研究效果。我們將在前人的研究基礎(chǔ)上開(kāi)展自己的工作,將研究深入下去。
3 相關(guān)算法介紹
模糊C均值算法是經(jīng)典的軟聚類(lèi)方法,它解決了傳統(tǒng)K均值算法中聚類(lèi)分割可能存在的問(wèn)題。在近期的研究當(dāng)中很多的學(xué)者將基于核函數(shù)的方法融入到其他算法中,對(duì)算法的改進(jìn)提高有很大的幫助。
3.1 模糊C均值算法(FCM)
模糊聚類(lèi)(FCM)[9]中,每個(gè)點(diǎn)都有一個(gè)屬于各個(gè)類(lèi)的度。按照模糊理論,每個(gè)點(diǎn)不會(huì)完全的屬于某一個(gè)類(lèi),而是應(yīng)該不同程度的屬于各個(gè)類(lèi)。一個(gè)點(diǎn)屬于離它較遠(yuǎn)的類(lèi)的程度較低,屬于離它較近的點(diǎn)的程度較高。通常我們賦給一個(gè)點(diǎn)X到一個(gè)聚類(lèi)C的權(quán)重度uic 代表X相對(duì)于C的隸屬度。所有的uic之和為固定值1,參見(jiàn)公式(1)。針對(duì)每個(gè)X屬于每個(gè)C的距離和權(quán)重的關(guān)系由一個(gè)參數(shù)m來(lái)控制。
具體的模糊C均值(FCM)算法步驟如下:
算法 1: 模糊C均值算法
1) 給出N個(gè)初始點(diǎn)
2) 初始化 U
3) 使用公式(4)更新V(t) = [
4) 使用公式(3)更新 U(t) =
5) 重復(fù)第3步和第4步直到 ||U(t)-U(t-1)|| < ε
6) 返回 U(t)
模糊C均值算法,有助于更好的聚類(lèi),在類(lèi)的劃分上有更靈活的方法,使得在界限邊緣的聚類(lèi)點(diǎn)能夠在多次迭代后劃分到更合適的類(lèi)別當(dāng)中去
3.2 核模糊C均值算法(KFC)
計(jì)算特征向量屬于各個(gè)聚類(lèi)的隸屬程度
核模糊C均值算法在模糊C均值的基礎(chǔ)上通過(guò)核函數(shù)將向量映射到了高維空間中進(jìn)行劃分,使得特征的劃分比較更為清晰,同時(shí)保持了模糊聚類(lèi)的優(yōu)勢(shì),相對(duì)模糊C均值方法有一定的優(yōu)勢(shì)。
4 實(shí)驗(yàn)方案及結(jié)果分析
4.1 實(shí)驗(yàn)方法
本文采用的實(shí)驗(yàn)語(yǔ)料是美國(guó)國(guó)家衛(wèi)生研究所提供的NLM-WSD語(yǔ)料。該語(yǔ)料包括有50個(gè)生物醫(yī)學(xué)領(lǐng)域的歧義詞,每個(gè)歧義詞包含有100個(gè)上下文信息。提供信息包括歧義詞本身的上下文、相關(guān)文獻(xiàn)的標(biāo)題、摘要、編號(hào)以及歧義詞的出現(xiàn)位置等信息。我們選擇了其中一個(gè)子集和其他的方法進(jìn)行了對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)開(kāi)始我們首先對(duì)語(yǔ)料進(jìn)行了一些預(yù)處理工作,比如停用詞處理,標(biāo)點(diǎn)符號(hào)處理,高頻詞處理,并通過(guò)TF-IDF方法生成特征向量。
針對(duì)不同算法我們比較設(shè)計(jì)了兩組實(shí)驗(yàn):模糊C均值方法(FCM)和核模糊C均值算法(KFC),核函數(shù)選擇特征徑向基核函數(shù)(Radial Basis Function),希望通過(guò)對(duì)比實(shí)驗(yàn)得到方法各自的優(yōu)勢(shì),同時(shí)我們將實(shí)驗(yàn)結(jié)果和目前常見(jiàn)的方法得到的結(jié)果進(jìn)行了對(duì)比。
實(shí)驗(yàn)在經(jīng)典的L&R方法的歧義詞子集上的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境為WINDOWS7,文本預(yù)處理使用python平臺(tái),矩陣計(jì)算使用Matlab平臺(tái)。
4.2 實(shí)驗(yàn)結(jié)果
在第一組中我們對(duì)比的Baseline為all-in-1和L&R兩種經(jīng)典的有監(jiān)督算法,同時(shí)參照Sensational[6]方法的設(shè)定引入Sensational無(wú)監(jiān)督方法作為參照對(duì)比。實(shí)驗(yàn)結(jié)果如下:
4.3 實(shí)驗(yàn)結(jié)果分析
在L&R數(shù)據(jù)集中(表1)我們的方法FCM和KFC高于基準(zhǔn)方法55%達(dá)到63%和64%,其中KFC方法的準(zhǔn)確率相對(duì)sensational方法提高了3%,KFC方法與無(wú)核函數(shù)的FCM算法相比平均準(zhǔn)確率提高1%。實(shí)驗(yàn)結(jié)果 (KFC)略低于L&R的基準(zhǔn)線(xiàn)66%,由于L&R方法為有監(jiān)督的方法,本文實(shí)驗(yàn)方法為無(wú)監(jiān)督方法,這個(gè)結(jié)果差距應(yīng)當(dāng)是相對(duì)可以接受的。
核函數(shù)的加入使現(xiàn)有的特征映射到了高維空間,對(duì)特征的劃分起到了顯著的幫助,和傳統(tǒng)的無(wú)監(jiān)督方法比較有一定的優(yōu)勢(shì)。實(shí)驗(yàn)的結(jié)果差于有監(jiān)督的方法,可見(jiàn)人工標(biāo)注數(shù)據(jù)的學(xué)習(xí)對(duì)實(shí)驗(yàn)結(jié)果會(huì)產(chǎn)生很大的幫助,這也符合我們普通的直觀上的認(rèn)識(shí)。
5 總結(jié)和展望
在本文中,我們對(duì)比了生物領(lǐng)域詞義排歧問(wèn)題的一些方法,包括有監(jiān)督的和無(wú)監(jiān)督的方法。這些方法有各自的擅長(zhǎng)方面,在不同歧義詞上效果各有優(yōu)勢(shì)。我們發(fā)現(xiàn)基于核的模糊C均值算法在無(wú)監(jiān)督方法中,準(zhǔn)確率結(jié)果有一定的優(yōu)勢(shì),部分歧義詞準(zhǔn)確率和一些有監(jiān)督方法接近。由于無(wú)監(jiān)督方法不需要人工標(biāo)注的語(yǔ)料進(jìn)行學(xué)習(xí),這在生物醫(yī)學(xué)領(lǐng)域有很強(qiáng)的實(shí)用意義,因?yàn)樯镝t(yī)學(xué)領(lǐng)域有大量的未標(biāo)注文獻(xiàn)可以用來(lái)進(jìn)行無(wú)監(jiān)督的學(xué)習(xí)。在后期的工作中,我們將繼續(xù)改進(jìn)核函數(shù)方法,嘗試引入多個(gè)核函數(shù)來(lái)進(jìn)一步優(yōu)化當(dāng)前算法。同時(shí)我們會(huì)嘗試將核模糊C均值的聚類(lèi)的方法應(yīng)用于其他生物醫(yī)學(xué)領(lǐng)域,希望能夠得到較好的結(jié)果。
參考文獻(xiàn):
[1] Hatzivassiloglou V, Duboue PA, Rzhetsky A. Disambiguating proteins, genes, and RNA in text: A machine learning approach. Proceedings of the Ninth International Conference on Intelligent Systems for Molecular Biology. 2001.