文/張婷
概念學(xué)習(xí)階段主要包括術(shù)語提取和概念形成兩個(gè)任務(wù)。目前,概念學(xué)習(xí)階段首要集中于術(shù)語抽取的研究。現(xiàn)有的術(shù)語抽取研究首要分為四類:語言學(xué)方法、統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)方法和混合方法。
運(yùn)用語言學(xué)方法來進(jìn)行的術(shù)語抽取通常情況下是來分析某個(gè)領(lǐng)域之內(nèi)的術(shù)語的詞性組成,提取出領(lǐng)域內(nèi)術(shù)語的詞性構(gòu)成模板來提取術(shù)語。最開始是基于詞語的詞性(part-ofspeech,POS)標(biāo)注為基礎(chǔ)來進(jìn)行術(shù)語抽取,在20世紀(jì)70年代,Earl發(fā)現(xiàn)術(shù)語一般為名詞,采用研究詞性模板((A|N)+|((A|N)*(NP)?(A|N)*)N來篩選頻率超過一定閩值的詞語作為術(shù)語,之后的很多研究都在此基礎(chǔ)上進(jìn)行;Klingbiel結(jié)合詞典與詞性來選擇特定的語法結(jié)構(gòu)作為術(shù)語的候選詞;Bourigault運(yùn)用淺層語法分析來獲得名詞短語作為術(shù)語;Justeson研究后認(rèn)為術(shù)語不僅可以由單詞構(gòu)成,即單詞術(shù)語,還可以由多個(gè)詞組成的復(fù)合術(shù)語,并且他們以為大多數(shù)術(shù)語由形容詞、名詞或介詞短語組成,最終呈現(xiàn)的動(dòng)詞、副詞或連接詞很少。
他們采用((A|N)+|((A|N)*(NP)?(A|N)*)N這一詞性模板,并結(jié)合詞典來獲取候選術(shù)語;提取候選術(shù)語的思想一出現(xiàn),很多研究都各自提出了復(fù)合術(shù)語的模板,包括Dagan等提出的Noun+模板,F(xiàn)rantzi等提出的(Noun|Adjective)+Noun模板等。此外,Sabou提取名詞短語的運(yùn)用信息如詞素,詞根和語句中的方位。除了英語言語的方式術(shù)語抽取研究,中文領(lǐng)域的相關(guān)研究中也提出一些模板或規(guī)則來進(jìn)行術(shù)語抽取,王昊等依據(jù)合成規(guī)則構(gòu)造術(shù)語的方法來獲取術(shù)語;王柏林利用規(guī)則方法從學(xué)術(shù)文獻(xiàn)中抽取術(shù)語。
通過運(yùn)用統(tǒng)計(jì)學(xué)的方法來進(jìn)行術(shù)語抽取,主要是通過術(shù)語的一些統(tǒng)計(jì)學(xué)特征來區(qū)分領(lǐng)域術(shù)語及普通詞語,例如基于術(shù)語的領(lǐng)域性,領(lǐng)域術(shù)語要較普通詞語在某一領(lǐng)域的出現(xiàn)頻率高。Pantel等在復(fù)合術(shù)語的抽取中采用互信息與對數(shù)似然方法;Gelbukh等采用對數(shù)似然進(jìn)行術(shù)語抽??;劉劍等以及李江華等采用互信息和信息嫡進(jìn)行術(shù)語抽取。除了復(fù)合術(shù)語內(nèi)部詞語的搭配強(qiáng)度,復(fù)合術(shù)語最左及最右的詞語與語料中左鄰及右領(lǐng)的詞的搭配強(qiáng)度也可用于考查復(fù)合術(shù)語的獨(dú)立性,丁杰等用左右邊界嫡確定專利術(shù)語邊界,該左右邊界嫡就是通過確定術(shù)語與其左詞及右詞搭配出現(xiàn)的關(guān)聯(lián)程度來考查該術(shù)語的獨(dú)立性。
此外,統(tǒng)計(jì)機(jī)器學(xué)習(xí)(Machine Learning,ML)方法也被應(yīng)用于術(shù)語的抽取中。關(guān)于特征的選擇問題,術(shù)語抽取常用的特征有統(tǒng)計(jì)特征及語言學(xué)特征等,統(tǒng)計(jì)特征指利用一些統(tǒng)計(jì)學(xué)方法獲取的特征值,包括文檔頻率、反文檔頻率和TF-IDF;語言特征主要指詞類特征。Collie使用隱馬爾可夫模型提取生物范疇的術(shù)語,并提取了23個(gè)特征。包括數(shù)字、大寫字母、羅馬字符、連字符等;Shen采用隱馬爾可夫模型,辨認(rèn)詞典的功用,包含:較為簡明的特點(diǎn),字詞的形態(tài)特征(如前綴或后綴)、詞性特征、語義觸發(fā)功用,名詞,和特別的動(dòng)詞;張承志使用條件隨機(jī)域提取出16個(gè)特征:除了根本的功用,如字、詞的長度,和講話的一部分,它還包含衍生功用,如頻率差等等。機(jī)器學(xué)習(xí)方法效果的好壞程度高度依賴于提取的特征集,當(dāng)特征提取地較為完備時(shí),可以獲得比較高的準(zhǔn)確率以及召回率,因此,選擇什么樣的特征集是機(jī)器學(xué)習(xí)方法研究的重點(diǎn)。
混合方法即結(jié)合上述幾種方法來進(jìn)行術(shù)語抽取的方法,一般可以分為三種:第一種是首先利用語言學(xué)方法提取語料中的候選術(shù)語,再采用統(tǒng)計(jì)學(xué)方法對提取的候選術(shù)語進(jìn)行排序;第二種與第一種相反;第三種是首先提取特征集,再采用機(jī)器學(xué)習(xí)的方法來抽取術(shù)語。
Frantzi等人提出的C值/NC值方式。該方法是歸于第一類的方法。首先,需要利用語言學(xué)的方式從語料庫之中提取名詞的短語,然后選用統(tǒng)計(jì)學(xué)方法來抽取復(fù)合術(shù)語。Lossio-Ventura結(jié)合了兩種方法來抽取復(fù)合術(shù)語,第一種方法是LIDF-value(結(jié)合語言學(xué)模板,IDF以及C-value方法),是一種結(jié)合了語言學(xué)及統(tǒng)計(jì)學(xué)的方法,第二種是TeRGraph(基于圖信息的術(shù)語排序方法),是一種基于圖的方法(統(tǒng)計(jì)),基于圖的方法假設(shè)術(shù)語的鄰接術(shù)語越多,則越不具備領(lǐng)域性,然后采用了Dice coeff icient來計(jì)算圖中由邊連接的兩個(gè)術(shù)語間共現(xiàn)。Ittoo結(jié)合了語言學(xué)和統(tǒng)計(jì)學(xué)方法來抽取復(fù)合術(shù)語(主要用于抽取2詞復(fù)合術(shù)語),他們采用了語言學(xué)方法進(jìn)行候選術(shù)語抽取,然后采用了cube互信息(MI3),并結(jié)合英文Wikipedia語料集來進(jìn)行術(shù)語抽取。張雷瀚提出一種多策略融合的領(lǐng)域術(shù)語抽取方法,結(jié)合語言學(xué)方法及統(tǒng)計(jì)方法,構(gòu)造術(shù)語的逆向詞性規(guī)則和領(lǐng)域停用詞表,利用PATTree和C-value方法獲取候選術(shù)語,再對比單一文檔和領(lǐng)域文檔集來計(jì)算術(shù)語領(lǐng)域度,通過排序獲取最終的術(shù)語。
關(guān)系抽取又包括等級關(guān)系抽取(taxonomic relationships)及非等級關(guān)系的抽取(nontaxonomic relationships),中文關(guān)系抽取主要集中在命名實(shí)體間的關(guān)系抽取,對于本體概念間的關(guān)系抽取研究很少,大多基于詞典、模板等進(jìn)行概念關(guān)系抽取,效率不高。概念間等級關(guān)系獲取的主要任務(wù)是構(gòu)建概念間的上下級關(guān)系,主要有四種方式:語言學(xué)方式、統(tǒng)計(jì)學(xué)方式、基于圖的方式和混合方式。
該方式主要經(jīng)過形狀剖析、句法剖析、依存結(jié)構(gòu)剖析和語義剖析來識(shí)別層次聯(lián)系。如果存在包括層次聯(lián)系的句法模式,則經(jīng)過提取和總結(jié)頻繁句法模式來標(biāo)識(shí)聯(lián)系。Hearst采用bootstrapping算法擴(kuò)展到更多的模板,用于抽取上下位關(guān)系;Pantel等結(jié)合Web與語言學(xué)模板的方法進(jìn)行了語義關(guān)系的抽取;王昊等提出了結(jié)合以文檔一術(shù)語空間為核心,結(jié)合形式概念分析的方法來進(jìn)行等級關(guān)系的構(gòu)建;湯青等結(jié)合句法分析與規(guī)則匹配來進(jìn)行概念等級關(guān)系的抽取。根據(jù)言語的方式辨認(rèn)詞之間的高精度關(guān)系。缺點(diǎn)是根據(jù)言語模板的方式通常需要專家常識(shí)來開發(fā)模板。在模板的擴(kuò)展過程中需要耗費(fèi)大量的成本,可移植性較差。
統(tǒng)計(jì)學(xué)方法通過對大規(guī)模語料庫的計(jì)算處理,發(fā)現(xiàn)規(guī)則,從而發(fā)掘聯(lián)系。該方法與言語、范疇無關(guān),具有很強(qiáng)的可移植性。但是,它十分依賴于語料庫的質(zhì)量和規(guī)模,使得命名聯(lián)系類型變得困難。層次聯(lián)系抽取可以看作是一個(gè)聚類或分類問題。根據(jù)聚類的層次聯(lián)系識(shí)別方法主要有兩種:層次聚類和非層次聚類。董洋溢等采用了混合了余弦相似度的核函數(shù)方法來進(jìn)行概念等級關(guān)系的抽取,將這一任務(wù)轉(zhuǎn)化為分類任務(wù)。
根據(jù)圖的方法一般涉及圖節(jié)點(diǎn)的概念、表明聯(lián)系的圖的邊以及丈量概念之間間隔的概念之間的邊數(shù)。Kozareva主張運(yùn)用根據(jù)圖的方法來從有向圖中結(jié)構(gòu)。給定根節(jié)點(diǎn)和一些分層概念,運(yùn)用預(yù)定義的模板,從而能夠發(fā)現(xiàn)新的從屬概念;Velardi為每個(gè)概念(在文檔集或Web中)找到定義,然后運(yùn)用分類結(jié)果。結(jié)構(gòu)有向圖模型,其中邊是概念之間的聯(lián)系;運(yùn)用根據(jù)圖的方法來度量概念之間的相關(guān)程度,而且運(yùn)用語句之間的空間間隔來丈量語句的相似性。
Suchanek結(jié)合了語言學(xué)模板機(jī)器學(xué)習(xí)算法——支持向量機(jī)從文本中獲取概念聯(lián)系;Cimian將聚類算法和言語模板相結(jié)合,從互聯(lián)網(wǎng)上提取上下文信息,提取上下文聯(lián)系;Rios-Alvarado組合言語學(xué)習(xí)模板和clu斯特林算法對文本中的概念來進(jìn)行等級關(guān)系抽??;張曉勇結(jié)合深度學(xué)習(xí)與聚類方法從條件隨機(jī)場抽取的候選術(shù)語集中獲取概念等級關(guān)系;王昊利用形式概念分析來獲取主題概念,并采用主題概念格進(jìn)行概念等級關(guān)系的獲取。
概念非等級關(guān)系的抽取通常包含兩個(gè)任務(wù):
(1)從語料中抽取出可以組成概念非等級關(guān)系三元組的元素,包括相關(guān)的概念對以及描述概念對關(guān)系的動(dòng)詞;
(2)命名概念之間的聯(lián)系。由于概念非層次聯(lián)系提取元素較多,因而概念非層次聯(lián)系提取的研討通常采用多種方式進(jìn)行提取。依據(jù)這些抽取工作中運(yùn)用的方式,可以分為兩類:一類是語言方式;另一種是統(tǒng)計(jì)學(xué)方式。
語言學(xué)方法是利用語言學(xué)模板的方法來獲取概念非等級關(guān)系三元組。Berland利用WordNet作為資源,采用模板對概念間的部分一整體關(guān)系進(jìn)行抽取,生成候選概念對,再利用統(tǒng)計(jì)學(xué)方法進(jìn)行排序;Nenadi采用了三種模板(詞典一語義模板、復(fù)合名詞模板、上下文模板)來獲取MEDLINE中的術(shù)語,上下文模板用于獲取語料庫中特征明顯的術(shù)語,然后獲取特定內(nèi)容中的另一個(gè)術(shù)語、動(dòng)詞和介詞,然后根據(jù)模板長度和頻率的排序規(guī)矩對模板進(jìn)行排序,并使用上述模板取得三個(gè)類似度。度,然后加權(quán)生成終究的類似度值,并調(diào)整權(quán)重參數(shù);Sanchez使用動(dòng)詞模板獲取領(lǐng)域語料庫中的動(dòng)詞,然后將非層次聯(lián)系的概念與Web相結(jié)合,然后以非層次聯(lián)系命名聯(lián)系。在漢語非層次聯(lián)系獲取的研討中,俞凡首先定義了漢語非層次聯(lián)系提取的規(guī)矩,然后結(jié)合關(guān)聯(lián)規(guī)矩發(fā)掘,提取非層次聯(lián)系的概念;何宇結(jié)合句法分析和詞典特征對專利領(lǐng)域的非等級關(guān)系進(jìn)行獲??;趙明等。采用句法分析來獲取概念間的非等級關(guān)系?;谀0宓姆椒P(guān)鍵在于針對不同類型的關(guān)系進(jìn)行模板的提取,但是需要窮盡所有的關(guān)系類型模板并非易事,這種方法只適用于獲取特定的非等級關(guān)系。
統(tǒng)計(jì)學(xué)方法一般利用術(shù)語對的共現(xiàn)或者相似度來抽取非等級關(guān)系。Kavalec先通過語言學(xué)方法獲取語料中的動(dòng)詞,通常概念非等級關(guān)系中的關(guān)系由動(dòng)詞表示,再將窗口范圍限定在N個(gè)單詞的距離內(nèi),在窗口中挑選兩個(gè)詞來生成“概念-動(dòng)詞-概念”三元組,再根據(jù)三元組的頻率來排序,獲取高頻三元組為候選三元組,然后利用條件概率來計(jì)算概念對與動(dòng)詞的相關(guān)性。Punuru提出了VF*ICF方法(類似于TF-IDF的方式)來計(jì)量動(dòng)詞注釋關(guān)系的能力,先獲取相關(guān)概念對,再從領(lǐng)域語料中獲取候選關(guān)系三元組(
關(guān)聯(lián)規(guī)則挖掘通常也被用于挖掘概念對之間或概念對與動(dòng)詞之間的關(guān)系,Villaverde在獲取了候選非等級關(guān)系三元組的基礎(chǔ)上,利用相關(guān)規(guī)矩發(fā)掘方法在候選三元組中得到概念對與動(dòng)詞之間具有較強(qiáng)相關(guān)規(guī)矩的三元組,但是該文章只關(guān)注了概念對與動(dòng)詞之間的關(guān)聯(lián)度,并沒有衡量概念與概念之間的關(guān)聯(lián)程度。Gulla對比了利用關(guān)聯(lián)規(guī)則挖掘及向量空間模型兩種方法在非等級關(guān)系抽取中的效果,他們將非等級關(guān)系分為三類:不相關(guān)、相關(guān)和高度相關(guān)。結(jié)果表明,獲取的關(guān)系可以借助相似度算法來獲取,最終他們關(guān)聯(lián)規(guī)則挖掘與相似度算法相結(jié)合進(jìn)行了非等級關(guān)系的獲取,其效果很好。