羅凱威,羅文兵,2,黃 琪,2,王明文,2
(1. 江西師范大學(xué) 數(shù)字產(chǎn)業(yè)學(xué)院,江西 上饒 334000;2. 江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)
術(shù)語(yǔ)是專業(yè)領(lǐng)域內(nèi)知識(shí)概念的語(yǔ)言指稱和主要載體[1],也是知識(shí)多模態(tài)表述中最重要的模態(tài)。術(shù)語(yǔ)抽取作為文本挖掘和信息抽取的首要步驟,也是機(jī)器翻譯[2]、信息檢索[3]、本體構(gòu)建[4]、知識(shí)圖譜[5]等領(lǐng)域的關(guān)鍵前提。自20世紀(jì)30年代初開(kāi)始有研究者對(duì)術(shù)語(yǔ)相關(guān)領(lǐng)域展開(kāi)廣泛的研究[6],其中包括從耗時(shí)耗力的人工術(shù)語(yǔ)抽取方法到自動(dòng)術(shù)語(yǔ)抽取(Automatic Term Extraction, ATE)模型的探索。近些年,在線智慧教育的興起推進(jìn)了基礎(chǔ)教育領(lǐng)域中術(shù)語(yǔ)抽取方法的研究,且已在多個(gè)學(xué)科領(lǐng)域中取得不錯(cuò)成果。中學(xué)數(shù)學(xué)術(shù)語(yǔ)及其術(shù)語(yǔ)之間的關(guān)聯(lián)作為中學(xué)數(shù)學(xué)學(xué)科知識(shí)表示的核心[7],其抽取的準(zhǔn)確與否會(huì)直接決定所構(gòu)建中學(xué)數(shù)學(xué)知識(shí)圖譜的優(yōu)劣。此外,學(xué)科知識(shí)庫(kù)的不斷豐富、中學(xué)數(shù)學(xué)教材的與時(shí)俱進(jìn),導(dǎo)致數(shù)學(xué)網(wǎng)絡(luò)學(xué)習(xí)資源量迅猛增長(zhǎng)。因此,如何從海量的非結(jié)構(gòu)化中學(xué)數(shù)學(xué)知識(shí)中準(zhǔn)確地自動(dòng)抽取術(shù)語(yǔ)成為一大研究熱點(diǎn)。
早期的術(shù)語(yǔ)自動(dòng)抽取方法大多基于語(yǔ)言規(guī)則和統(tǒng)計(jì),如術(shù)語(yǔ)抽取系統(tǒng)[8]依靠專業(yè)領(lǐng)域內(nèi)總結(jié)的規(guī)則模板對(duì)術(shù)語(yǔ)進(jìn)行篩查、Bolshakova等[9]通過(guò)計(jì)算詞的TF-IDF(Term Frequency-Inverse Document Frequency)值評(píng)估某個(gè)詞對(duì)某份文檔的重要程度以實(shí)現(xiàn)術(shù)語(yǔ)抽取。兩者在特殊學(xué)科領(lǐng)域內(nèi)都取得了不錯(cuò)的抽取效果,但規(guī)則的不可窮盡性和統(tǒng)計(jì)值對(duì)語(yǔ)料庫(kù)的依賴性分別導(dǎo)致這兩類抽取模型的泛化能力較弱,遷移到中學(xué)數(shù)學(xué)術(shù)語(yǔ)抽取工作上的效果較差,且中學(xué)數(shù)學(xué)學(xué)科的知識(shí)表示大多又富有強(qiáng)邏輯性、結(jié)構(gòu)性和多樣性。這給中學(xué)數(shù)學(xué)術(shù)語(yǔ)抽取帶來(lái)以下難點(diǎn): ①中學(xué)數(shù)學(xué)存在的“點(diǎn)”“面”“高”等單字多義術(shù)語(yǔ)難以精準(zhǔn)抽取,如“計(jì)算高樓的樓高”中只有“樓高”一詞中的“高”是術(shù)語(yǔ); ②中學(xué)數(shù)學(xué)存在的多重嵌套術(shù)語(yǔ)難以被完整抽取,如“無(wú)限不循環(huán)小數(shù)”中“無(wú)限”和“不循環(huán)”都是“小數(shù)”的修飾詞,三者共同組成的“無(wú)限不循環(huán)小數(shù)”才是數(shù)學(xué)專業(yè)術(shù)語(yǔ); ③復(fù)雜語(yǔ)境下術(shù)語(yǔ)抽取難度較大,如“點(diǎn)動(dòng)成線”這一簡(jiǎn)明的定理同時(shí)包含兩個(gè)連續(xù)的動(dòng)詞“動(dòng)”和“成”,這種隱含的雙謂語(yǔ)結(jié)構(gòu)不易被挖掘,且“成線”這個(gè)動(dòng)作事件易被誤解為術(shù)語(yǔ)。此外,還有一些如“上”“中”等的方位詞也易因在句中所作成分不同而加大相關(guān)術(shù)語(yǔ)抽取的難度。
為了解決上述難點(diǎn)造成低頻詞難以抽取的問(wèn)題,李思良等[10]結(jié)合了基礎(chǔ)教育資源的學(xué)科特性,提出了以挖掘術(shù)語(yǔ)定義與術(shù)語(yǔ)關(guān)系為主的綜合構(gòu)詞規(guī)則和邊界檢測(cè)的術(shù)語(yǔ)抽取方法DRTE,并在中學(xué)數(shù)學(xué)數(shù)據(jù)集上取得了不錯(cuò)的抽取效果,但該方法較為耗時(shí)耗力,在復(fù)雜語(yǔ)境下術(shù)語(yǔ)抽取效果不佳。近年來(lái),基于深度學(xué)習(xí)的術(shù)語(yǔ)抽取模型聚焦于豐富詞嵌入表示或引入額外信息[11]以提升術(shù)語(yǔ)抽取性能,如Zhang等[12]提出了一種綜合編碼詞級(jí)特征和字符特征的Lattice-LSTM模型,實(shí)現(xiàn)了句子語(yǔ)義表征的增強(qiáng),且由此提高了抽取多義術(shù)語(yǔ)詞的準(zhǔn)確率。隨著Transformer[13]模型的廣泛應(yīng)用,一些研究者將其與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)、條件隨機(jī)場(chǎng)[14](Conditional Random Field,CRF)結(jié)合并應(yīng)用于多個(gè)領(lǐng)域[15-18]的專業(yè)術(shù)語(yǔ)抽取任務(wù),其中華鑫等[18]提出了可增強(qiáng)標(biāo)簽預(yù)測(cè)的標(biāo)簽注意力層并結(jié)合了Lattice-LSTM模型,較好地解決了面向中學(xué)數(shù)學(xué)領(lǐng)域的部分多義術(shù)語(yǔ)詞和嵌套術(shù)語(yǔ)詞的抽取問(wèn)題。但上述基于深度學(xué)習(xí)的自動(dòng)術(shù)語(yǔ)抽取方法沒(méi)有對(duì)句子本身存在的結(jié)構(gòu)信息進(jìn)行更深層的語(yǔ)義融合,導(dǎo)致模型對(duì)句子語(yǔ)義的理解有限,且沒(méi)能很好地解決中學(xué)數(shù)學(xué)術(shù)語(yǔ)抽取存在的難點(diǎn)。
針對(duì)上述難點(diǎn),有效捕獲依存結(jié)構(gòu)信息有助于提升術(shù)語(yǔ)抽取準(zhǔn)確率。當(dāng)前利用圖神經(jīng)網(wǎng)絡(luò)獲取依存結(jié)構(gòu)信息表示的優(yōu)異工作[19-21]已有許多,如Wu等[19]構(gòu)建了一個(gè)語(yǔ)法融合編碼器,通過(guò)整合依存邊、依存標(biāo)簽以及詞性標(biāo)簽等多種信息,增強(qiáng)了術(shù)語(yǔ)抽取模型的表現(xiàn)。但在復(fù)雜語(yǔ)境下由于依存結(jié)構(gòu)分析器可能得到錯(cuò)誤的分詞結(jié)果或依存結(jié)構(gòu),導(dǎo)致圖神經(jīng)網(wǎng)絡(luò)捕獲的結(jié)構(gòu)編碼含有噪聲。因此,為有效捕獲句子依存結(jié)構(gòu)信息并剔除其不利影響,本文提出了一種基于依存結(jié)構(gòu)學(xué)習(xí)的中學(xué)數(shù)學(xué)術(shù)語(yǔ)魯棒抽取模型DSL-ATRE(Dependency Structure Learning on Automatic Term Robust Extraction)。該方法利用圖神經(jīng)網(wǎng)絡(luò)模型捕獲句子的依存結(jié)構(gòu)信息,并通過(guò)注意力機(jī)制融合結(jié)構(gòu)信息和上下文信息以實(shí)現(xiàn)融入句子依存結(jié)構(gòu)信息的同時(shí)緩解錯(cuò)誤信息造成的影響。本文的貢獻(xiàn)主要有:
(1) 本文是術(shù)語(yǔ)抽取領(lǐng)域第一個(gè)同時(shí)考慮句子依存結(jié)構(gòu)信息與其可能存在錯(cuò)誤分詞或依存結(jié)構(gòu)而帶來(lái)負(fù)面影響的工作;
(2) 本文所提的DSL-ATRE模型利用注意力機(jī)制融合由圖神經(jīng)網(wǎng)絡(luò)編碼表示的結(jié)構(gòu)信息和上下文信息以實(shí)現(xiàn)融入依存結(jié)構(gòu)信息的同時(shí)緩解錯(cuò)誤分詞或依存結(jié)構(gòu)信息的影響,從而提升模型在復(fù)雜語(yǔ)境下的術(shù)語(yǔ)抽取能力;
(3) 中學(xué)數(shù)學(xué)術(shù)語(yǔ)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文所提的DSL-ATRE: ①在評(píng)價(jià)指標(biāo)P和F1上比基準(zhǔn)模型分別提升了2.21%、1.22%; ②在復(fù)雜語(yǔ)境下比基準(zhǔn)模型具有更好的準(zhǔn)確性和完整性。
中學(xué)數(shù)學(xué)術(shù)語(yǔ)抽取任務(wù)旨在從文本序列集中自動(dòng)抽取數(shù)學(xué)領(lǐng)域相關(guān)知識(shí)概念的詞或短語(yǔ)表示,本質(zhì)上可看作是一個(gè)序列標(biāo)注任務(wù)。任務(wù)的形式化定義如下: 給定包含n個(gè)句子的數(shù)據(jù)集D={s1,s2,…,sn} ,每個(gè)句子s={w1,w2,…,wm}由m個(gè)單字元素構(gòu)成,再利用包含k個(gè)候選標(biāo)簽的集合Label={Label1,Label2,…,Labelk}對(duì)每個(gè)字進(jìn)行標(biāo)注。該任務(wù)在本文中的形式化定義如式(1)所示。
Y=f(s)={y1,y2,…,ym|yi∈Label}
(1)
其中,Y對(duì)應(yīng)句子s的預(yù)測(cè)標(biāo)簽序列,m為句子s所包含字的個(gè)數(shù)。本文將候選標(biāo)簽集規(guī)定為L(zhǎng)abel={B-T,M-T,E-T,S-T,O},這五種標(biāo)簽可將序列中的詞或短語(yǔ)標(biāo)注為三類: 多字術(shù)語(yǔ)、單字術(shù)語(yǔ)和非術(shù)語(yǔ)。對(duì)于多字術(shù)語(yǔ),B-T表示術(shù)語(yǔ)的開(kāi)始,M-T表示術(shù)語(yǔ)的中間字,E-T表示術(shù)語(yǔ)的結(jié)束;對(duì)于單字術(shù)語(yǔ),標(biāo)記為“S-T”;對(duì)于構(gòu)成非術(shù)語(yǔ)的其他漢字,標(biāo)記為“O”。由標(biāo)簽和術(shù)語(yǔ)詞間的映射關(guān)系g可得句子s所含術(shù)語(yǔ)詞的集合表示T,如式(2)所示。
T=g(Y)={term1,term2,…,termr}
(2)
其中,termi表示句子s中的第i個(gè)術(shù)語(yǔ)詞,r表示句子s所包含術(shù)語(yǔ)詞的個(gè)數(shù)。
基于依存結(jié)構(gòu)學(xué)習(xí)的中學(xué)數(shù)學(xué)術(shù)語(yǔ)魯棒抽取模型DSL-ATRE如圖1所示,該模型主要由六個(gè)模塊組成: 語(yǔ)義表示、上下文語(yǔ)義表示、依存結(jié)構(gòu)圖構(gòu)建、結(jié)構(gòu)表示、語(yǔ)義融合和標(biāo)簽預(yù)測(cè)。下面詳細(xì)介紹各個(gè)模塊。
圖1 DSL-ATRE總體框架圖
(3)
利用BiLSTM捕獲文本的上下文語(yǔ)義信息,其中每個(gè)LSTM單元由遺忘門、輸入門、輸出門和記憶單元組成,其輸入包括前一時(shí)刻單元隱層輸出ht-1、前一時(shí)刻單元狀態(tài)輸出Ct-1以及當(dāng)前時(shí)刻的輸入xt。接著經(jīng)遺忘門ft有選擇地遺忘輸入門信息it對(duì)單元狀態(tài)的更新和輸出門信息ot對(duì)下一個(gè)隱層狀態(tài)的確定,由此得到最終隱藏層的輸出ht。LSTM單元計(jì)算如式(4)所示。
(4)
(5)
其中,LSTMf、LSTMb分別表示前后向LSTM的輸出向量,⊕表示級(jí)聯(lián)操作。
借助StanfordCoreNLP工具對(duì)中文文本進(jìn)行分詞處理和依存結(jié)構(gòu)分析,并將依存結(jié)構(gòu)樹(shù)轉(zhuǎn)化為圖結(jié)構(gòu)以便模型后續(xù)的處理。
由于中文文本依存結(jié)構(gòu)樹(shù)中每個(gè)詞節(jié)點(diǎn)可能由多個(gè)字構(gòu)成,因此在構(gòu)建依存結(jié)構(gòu)圖的邊集合時(shí),需將詞與詞間的連邊轉(zhuǎn)換成多字與多字的連邊。為保證信息的雙向流動(dòng)和其語(yǔ)義表征的豐富性,將存在依存關(guān)系的兩對(duì)詞各自所包含的字相互構(gòu)建無(wú)向連邊,可得依存關(guān)系矩陣為A=(ai,j)m×m,其結(jié)構(gòu)如圖1中上部分所示。其中A為對(duì)稱矩陣,m為圖節(jié)點(diǎn)的個(gè)數(shù),即句子包含詞例的個(gè)數(shù),且當(dāng)i=j或包含字節(jié)點(diǎn)的詞間存在依存關(guān)系時(shí)有ai,j=1,否則ai,j=0。
受Tian[20]的A-GCN(Graph Convolutional Network,GCN)模型的啟發(fā),我們提出一種ATT-GCN模型(圖2)。該模型由依存標(biāo)簽注意力層和句法融合GCN層組成,能夠有效捕獲圖結(jié)構(gòu)信息和緩解結(jié)構(gòu)帶來(lái)的噪聲信息。下面詳細(xì)介紹兩層的結(jié)構(gòu)。
圖2 ATT-GCN模型結(jié)構(gòu)圖 (a) 依存標(biāo)簽注意力層 (b)句法融合GCN層,模型展示了當(dāng)前節(jié)點(diǎn)i得到第i個(gè)隱層輸出的編碼過(guò)程,其中,⊙表示當(dāng)前節(jié)點(diǎn)i的分別與其他所有節(jié)點(diǎn)j的(包括與自身)的內(nèi)積,⊕表示級(jí)聯(lián)操作。
(9)
(10)
由于結(jié)構(gòu)表示模塊捕獲了依存結(jié)構(gòu)分析器可能存在的錯(cuò)誤分詞或依存結(jié)構(gòu)信息,導(dǎo)致所得結(jié)構(gòu)編碼含有噪聲。為有效緩解上述噪聲的影響,本文采用注意力機(jī)制將句子上下文信息與依存結(jié)構(gòu)信息進(jìn)行融合得到蘊(yùn)含兩者信息的語(yǔ)義向量表示。
(11)
為獲得上下文和結(jié)構(gòu)信息的穩(wěn)定表示,采用多頭注意力機(jī)制對(duì)上下文信息和結(jié)構(gòu)信息表示進(jìn)行融合,具體計(jì)算過(guò)程如式(12)、式(13)所示。
(12)
Mhead(Q,K,V)=(head1⊕…⊕headh)
(13)
因此由式(14)得到語(yǔ)義融合層的最終輸出Mi。
Mi=Mhead(Q,K,V)
(14)
深度神經(jīng)網(wǎng)絡(luò)可以捕獲長(zhǎng)距離的文本信息,但其無(wú)法對(duì)預(yù)測(cè)的標(biāo)簽序列添加約束條件。為有效避免上述情況的出現(xiàn),本文采用CRF對(duì)標(biāo)簽序列進(jìn)行約束和預(yù)測(cè)。
如圖3所示,將融合上下文和結(jié)構(gòu)信息的輸出Mi作為狀態(tài)特征即字節(jié)點(diǎn)的狀態(tài)分?jǐn)?shù)表示,然后直接輸入CRF,且經(jīng)過(guò)訓(xùn)練能夠?qū)W習(xí)一個(gè)轉(zhuǎn)移分?jǐn)?shù)矩陣,矩陣中的元素為{B-T,M-T,E-T,S-T,O}集合中任意兩種標(biāo)簽組合的分?jǐn)?shù),表示各種組合的可能性。隨著模型的迭代訓(xùn)練,CRF可以通過(guò)轉(zhuǎn)移分?jǐn)?shù)矩陣逐漸地判斷出標(biāo)簽組合是否符合語(yǔ)料中的標(biāo)注規(guī)則,并在預(yù)測(cè)標(biāo)簽序列時(shí)進(jìn)行規(guī)則約束,如標(biāo)簽序列中不可能出現(xiàn)連續(xù)的“B-T”或“E-T”。
圖3 CRF模型預(yù)測(cè)過(guò)程圖
綜上預(yù)測(cè)過(guò)程可得句子s預(yù)測(cè)標(biāo)簽序列Y={y1,y2,…,ym}的概率如式(15)所示。
(15)
實(shí)驗(yàn)在我們已構(gòu)建的中學(xué)數(shù)學(xué)術(shù)語(yǔ)數(shù)據(jù)集[18]上進(jìn)行,該數(shù)據(jù)集內(nèi)容來(lái)源于新人教版中學(xué)教材、試卷考綱、教案等數(shù)學(xué)相關(guān)文本,總共收集了10 934條句子,且考慮到語(yǔ)料中術(shù)語(yǔ)詞分布的稠密性,絕大部分句子都包含術(shù)語(yǔ)詞。再通過(guò)編寫(xiě)數(shù)據(jù)預(yù)處理程序?qū)@10 934條句子依次進(jìn)行句子去重、數(shù)據(jù)集劃分、自動(dòng)標(biāo)注等操作,最后對(duì)標(biāo)注結(jié)果進(jìn)行人工檢查矯正得到中學(xué)數(shù)學(xué)術(shù)語(yǔ)數(shù)據(jù)集。
在不改變?cè)瓟?shù)據(jù)集規(guī)模的情況下,我們綜合借鑒了最新的百度百科、數(shù)學(xué)教材以及術(shù)語(yǔ)詞典[23]對(duì)原數(shù)據(jù)集的術(shù)語(yǔ)標(biāo)注進(jìn)行改進(jìn)和優(yōu)化,由此得到最終的中學(xué)數(shù)學(xué)術(shù)語(yǔ)數(shù)據(jù)集,詳細(xì)信息如表1所示。另外,我們構(gòu)建了一個(gè)具有復(fù)雜語(yǔ)境的實(shí)例集,用于驗(yàn)證所提模型的實(shí)用性。
表1 中學(xué)數(shù)學(xué)術(shù)語(yǔ)數(shù)據(jù)集詳細(xì)信息
標(biāo)簽一致性檢驗(yàn)為驗(yàn)證優(yōu)化前后數(shù)據(jù)標(biāo)注的客觀性,我們借助第三方標(biāo)注員的標(biāo)注結(jié)果并采用三種指標(biāo)來(lái)衡量不同標(biāo)注結(jié)果之間的標(biāo)簽一致性。三個(gè)指標(biāo)分別為一致率(C-rate)、肯德?tīng)栂嚓P(guān)性系數(shù)(Kendall)和Fleiss Kappa系數(shù)(κ)。其中C-rate表示兩種標(biāo)注結(jié)果中相同字符標(biāo)簽占總字符的百分比;Kendall表示兩種標(biāo)注結(jié)果的統(tǒng)計(jì)依賴性,是一個(gè)從0到1范圍內(nèi)的非參數(shù)統(tǒng)計(jì)量,且Kendall值越接近1表示兩個(gè)標(biāo)注結(jié)果的相關(guān)性越強(qiáng);Fleiss Kappa是針對(duì)多個(gè)標(biāo)注者進(jìn)行一致性檢驗(yàn)的方法,且當(dāng)κ>0.8 時(shí)表示標(biāo)注員的標(biāo)注有幾乎完美的一致性。
我們將優(yōu)化前后的數(shù)據(jù)標(biāo)注結(jié)果分別與第三方標(biāo)注員的標(biāo)注結(jié)果進(jìn)行C-rate、Kendall、κ值的計(jì)算,且為避免標(biāo)簽不平衡的干擾,在計(jì)算κ值時(shí)不考慮所有標(biāo)注者共同標(biāo)為“O”的字符。圖4中的對(duì)比結(jié)果表明我們優(yōu)化后的標(biāo)注結(jié)果與第三方標(biāo)注員的標(biāo)注結(jié)果更為貼切,其中C-rate、 Kendall、κ值較優(yōu)化前分別高出2.48%、11.44%、25.72%。特別地,對(duì)于優(yōu)化后κ=0.9960>0.8,表示我們的標(biāo)注結(jié)果與第三方標(biāo)注員的結(jié)果有著幾乎完美的一致性。
圖4 數(shù)據(jù)優(yōu)化前后的標(biāo)簽一致性結(jié)果對(duì)比圖
評(píng)價(jià)指標(biāo)選取實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy,Acc.)、精確率(Precision,P)、召回率(Recall,R)以及F1-score(F1)值作為模型算法的評(píng)價(jià)指標(biāo)。為保證實(shí)驗(yàn)的可靠性和減少噪聲的干擾,我們對(duì)所提模型和其他基準(zhǔn)模型都進(jìn)行了3次重復(fù)實(shí)驗(yàn),并取四種指標(biāo)的平均值作為最后的驗(yàn)證結(jié)果。
實(shí)驗(yàn)使用的深度學(xué)習(xí)模型框架為PyTorch,使用的中文預(yù)訓(xùn)練模型中詞向量嵌入維度為768,BiLSTM的神經(jīng)元數(shù)設(shè)為256,依存標(biāo)簽嵌入向量的維度設(shè)為768維,經(jīng)過(guò)線性層處理后的ATT-GCN隱層輸出為200維。ATT-GCN的迭代層數(shù)L為1,多頭注意力機(jī)制的頭數(shù)h為5。為防止在訓(xùn)練過(guò)程中模型過(guò)擬合,設(shè)置Dropout的值為0.4,初始學(xué)習(xí)率設(shè)為0.001。
3.3.1 基準(zhǔn)對(duì)比實(shí)驗(yàn)
為驗(yàn)證所提模型的有效性,本文選擇以下模型作為基準(zhǔn)方法:
BERT-BiLSTM-CRF吳俊等[15]事先利用BERT預(yù)訓(xùn)練模型獲取具有豐富語(yǔ)義的中文字詞向量,并結(jié)合BiLSTM-CRF實(shí)現(xiàn)了中文專業(yè)術(shù)語(yǔ)抽取。
Lattice-LSTMZhang等[12]提出的一種綜合編碼詞級(jí)特征和字符特征的LSTM模型,該模型基于外部詞典匹配,對(duì)文本序列中所有潛在單詞進(jìn)行編碼,并將得到的詞級(jí)特征編碼融入處理對(duì)應(yīng)字符特征的LSTM編碼單元。
BERT-BiGRU-CRFGRU(Gate Recurrent Unit)與LSTM性能相近但參數(shù)更少,Lample等[24]通過(guò)構(gòu)建BiGRU-CRF模型解決了英文命名實(shí)體識(shí)別任務(wù)。
LLA-CRF華鑫等[18]引用了Lattice-LSTM并提出了增強(qiáng)標(biāo)簽預(yù)測(cè)的標(biāo)簽注意力層,解決了中學(xué)數(shù)學(xué)部分多義術(shù)語(yǔ)詞和嵌套術(shù)語(yǔ)詞的抽取問(wèn)題。
LLA-CRF在Lattice-LSTM 的基礎(chǔ)上增加了標(biāo)簽注意力層,更好地學(xué)習(xí)了序列與標(biāo)簽的相關(guān)性。由表2可見(jiàn),在Acc.、P、F1值上超過(guò)了Lattice-LSTM。而B(niǎo)ERT-LLA-CRF較LLA-CRF性能又有著大幅度的提升,這說(shuō)明BERT能夠大大提高傳統(tǒng)深度學(xué)習(xí)模型的性能。進(jìn)一步來(lái)看,在基于BERT的術(shù)語(yǔ)抽取模型中,BERT-BiGRU-CRF和BERT-BiLSTM-CRF都是基于字實(shí)現(xiàn)的序列標(biāo)注模型,雖然兩者可以避免序列分詞錯(cuò)誤對(duì)模型性能的影響,但其向量表示欠缺更深層語(yǔ)義的表征,如依存結(jié)構(gòu)信息。BERT-LLA-CRF在融入Lattice LSTM的詞級(jí)語(yǔ)義表示基礎(chǔ)上增設(shè)了計(jì)算序列與標(biāo)簽直接相關(guān)性的注意力機(jī)制,使模型更關(guān)注術(shù)語(yǔ)詞的抽取,但BERT的引入反而干擾了詞級(jí)信息在LSTM中的表示,并導(dǎo)致注意力層學(xué)習(xí)了序列與標(biāo)簽之間錯(cuò)誤的相關(guān)性。從表2可以看出,Acc.、P、F1值較BERT-BiLSTM-CRF有所下降。而本文所提的DSL-ATRE模型利用圖神經(jīng)網(wǎng)絡(luò)捕獲了句子的依存結(jié)構(gòu)信息,并設(shè)計(jì)語(yǔ)義融合層來(lái)減少融合依存結(jié)構(gòu)信息時(shí)可能存在錯(cuò)誤分詞和依存結(jié)構(gòu)分析的干擾,實(shí)驗(yàn)結(jié)果也表明DSL-ATRE在四個(gè)指標(biāo)上均優(yōu)于基準(zhǔn)模型BERT-BiLSTM-CRF,其中P、F1值分別提升了2.21%、1.22%。
此外,表2中 DSL-ATRE*表示未引入依存標(biāo)簽注意力機(jī)制對(duì)輸入的依存關(guān)系矩陣進(jìn)行去噪,雖然模型性能相比DSL-ATRE有所下降,但P、F1值還是比基準(zhǔn)模型BERT-BiLSTM-CRF分別高出1.99%、0.44%,這進(jìn)一步表明所提框架是有效的。
3.3.2 消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證所提方法的有效性,我們?cè)趦?yōu)化后的中學(xué)數(shù)學(xué)術(shù)語(yǔ)數(shù)據(jù)集上構(gòu)建了兩個(gè)消融實(shí)驗(yàn),并將BERT-BiLSTM-CRF作為基準(zhǔn)進(jìn)行對(duì)比: ①移除了ATT-GCN模塊,直接將BERT字嵌入輸入語(yǔ)義融合模塊中與BiLSTM隱層輸出進(jìn)行多頭注意力機(jī)制計(jì)算; ②移除了語(yǔ)義融合模塊,直接將BiLSTM與ATT-GCN的輸出進(jìn)行級(jí)聯(lián)。
消融實(shí)驗(yàn)對(duì)比結(jié)果如表3所示,實(shí)驗(yàn)結(jié)果表明,在移除ATT-GCN模塊后,模型沒(méi)有融入依存結(jié)構(gòu)信息,只是以Attention機(jī)制的形式對(duì)BERT字嵌入向量進(jìn)行殘差計(jì)算,這樣得到的字向量語(yǔ)義依舊不足,導(dǎo)致此時(shí)模型的整體指標(biāo)較基準(zhǔn)略低。
表3 消融實(shí)驗(yàn)結(jié)果 (單位: %)
對(duì)于去除語(yǔ)義融合模塊后的模型在P值上較基準(zhǔn)提升了1.63%,這表明ATT-GCN輸出與BiLSTM簡(jiǎn)單的級(jí)聯(lián)確實(shí)也可以豐富字向量的語(yǔ)義表示信息,但F1值只提升了0.04%,這說(shuō)明在去除語(yǔ)義融合模塊后,模型在最后的標(biāo)簽預(yù)測(cè)階段受到了錯(cuò)誤信息的干擾。
而本文將語(yǔ)義融合模塊與ATT-GCN共同考量,實(shí)現(xiàn)了一個(gè)既可為字向量豐富句法語(yǔ)義也可緩解錯(cuò)誤分詞或依存結(jié)構(gòu)的中學(xué)數(shù)學(xué)術(shù)語(yǔ)抽取模型,實(shí)驗(yàn)結(jié)果也表明所提的DSL-ATRE模型在F1值上較兩個(gè)消融實(shí)驗(yàn)方法分別提升了2.40%、1.22%。對(duì)于中學(xué)數(shù)學(xué)表達(dá)中一些極簡(jiǎn)句型,在分詞任務(wù)中會(huì)出現(xiàn)錯(cuò)誤的分詞結(jié)果,從而產(chǎn)生無(wú)效的依存結(jié)構(gòu)信息,這些噪聲信息會(huì)被本文引入的去噪機(jī)制事先削減,而殘余噪聲會(huì)在語(yǔ)義融合模塊計(jì)算上下文信息與依存結(jié)構(gòu)信息的相關(guān)性權(quán)重時(shí)被減弱。如圖5所示,語(yǔ)義融合模塊依據(jù)上下文語(yǔ)境增強(qiáng)“成”與“線”的謂賓關(guān)系,賦予蘊(yùn)含了“動(dòng)成線”或“成線”等錯(cuò)誤成詞的結(jié)構(gòu)信息低權(quán)重,從而達(dá)到在不同分詞情況下成功抽取“點(diǎn)”和“線”兩個(gè)單字術(shù)語(yǔ)的目的。這也進(jìn)一步表明了模型在含有噪聲的依存結(jié)構(gòu)學(xué)習(xí)中有較好的魯棒性。
圖5 不同分詞環(huán)境下的DSL-ATRE術(shù)語(yǔ)抽取過(guò)程
3.3.3 實(shí)例抽取對(duì)比實(shí)驗(yàn)
為驗(yàn)證所提方法的實(shí)用性,我們?cè)跍y(cè)試集上分別對(duì)基準(zhǔn)模型BERT-BiLSTM-CRF和DSL-ATRE進(jìn)行實(shí)例術(shù)語(yǔ)抽取,如表4展示了部分實(shí)例的嵌套術(shù)語(yǔ)抽取結(jié)果。分析發(fā)現(xiàn)DSL-ATRE模型對(duì)多重嵌套術(shù)語(yǔ)的抽取能力優(yōu)于基準(zhǔn)模型,比如表4中的“無(wú)限不循環(huán)小數(shù)叫無(wú)理數(shù)”,基準(zhǔn)模型忽略了“無(wú)限”與“小數(shù)”之間的依存關(guān)系導(dǎo)致錯(cuò)誤抽取。而DSL-ATRE模型由于采用了圖神經(jīng)網(wǎng)絡(luò)捕獲句子的依存結(jié)構(gòu)信息,有效捕獲了“無(wú)限”“不循環(huán)”“小數(shù)”三者間的關(guān)聯(lián)信息,從而實(shí)現(xiàn)準(zhǔn)確抽取。但由于數(shù)學(xué)語(yǔ)言的精簡(jiǎn)性,一些實(shí)例在基準(zhǔn)模型和DSL-ATRE上的抽取結(jié)果會(huì)表現(xiàn)為“過(guò)度嵌套”,如模型從“對(duì)立事件概率之間的關(guān)系”中抽取出了“對(duì)立事件概率”的錯(cuò)誤結(jié)果。
表4 部分實(shí)例的嵌套術(shù)語(yǔ)抽取結(jié)果
此外,我們?cè)谟蓮?fù)雜語(yǔ)境例句構(gòu)成的實(shí)例集上進(jìn)行了術(shù)語(yǔ)抽取實(shí)驗(yàn),結(jié)果如表5所示。實(shí)驗(yàn)結(jié)果表明在一些復(fù)雜語(yǔ)境下DSL-ATRE模型抽取術(shù)語(yǔ)的完整性和準(zhǔn)確性均優(yōu)于基準(zhǔn)模型。其中復(fù)雜語(yǔ)境常常由中文存在的省略詞造成,如表5中第三個(gè)實(shí)例,“等腰梯形”與“上底”之間以及“下底”與“中點(diǎn)”之間都省略了結(jié)構(gòu)助詞“的”“上底”之后也省略了“中點(diǎn)”,這種省略形式易導(dǎo)致基準(zhǔn)模型對(duì)句子語(yǔ)義解析混亂,即將“下”錯(cuò)誤地理解為方位詞,將“底中點(diǎn)”錯(cuò)誤解析成術(shù)語(yǔ)。同時(shí),這類例句由于分詞結(jié)果不佳導(dǎo)致在依存結(jié)構(gòu)分析階段產(chǎn)生較多的無(wú)效依存關(guān)系,即第三個(gè)實(shí)例在真實(shí)的依存結(jié)構(gòu)分析結(jié)果中包含“梯形”和“下底”之間錯(cuò)誤的并列關(guān)系,“下底”作為形容詞修飾“點(diǎn)”的關(guān)系,等,這易導(dǎo)致一些基于依存結(jié)構(gòu)分析的模型忽略“上底”或無(wú)法完整抽取“中點(diǎn)”的情況,這是一種缺乏對(duì)上下文語(yǔ)義信息深層考量的表現(xiàn)。而DSL-ATRE模型綜合考量了依存結(jié)構(gòu)信息和上下文信息的重要程度,即模型融入“梯形”“和”“下底”作為分詞結(jié)果中獨(dú)立屬性以及依存關(guān)系信息的同時(shí),通過(guò)借助上下文信息,不僅增強(qiáng)了位于“梯形”與“和”之間的“上”“底”共同構(gòu)成并列實(shí)體的可能性,還強(qiáng)化了“下底”對(duì)“中點(diǎn)”在語(yǔ)義上的修飾關(guān)系,從而正確預(yù)測(cè)出了“上底”“下底”“中點(diǎn)”才是實(shí)例所包含的真正術(shù)語(yǔ)。這進(jìn)一步表明ATT-GCN與語(yǔ)義融合模塊的組合可提升模型術(shù)語(yǔ)抽取的性能和魯棒性。
表5 基于復(fù)雜語(yǔ)境的部分實(shí)例術(shù)語(yǔ)抽取結(jié)果
針對(duì)中學(xué)數(shù)學(xué)術(shù)語(yǔ)抽取的難點(diǎn),本文提出了一種基于依存結(jié)構(gòu)學(xué)習(xí)的中學(xué)數(shù)學(xué)術(shù)語(yǔ)魯棒抽取模型,該方法利用圖神經(jīng)網(wǎng)絡(luò)模型捕獲依存結(jié)構(gòu)信息,并通過(guò)注意力機(jī)制融合結(jié)構(gòu)信息和上下文信息以實(shí)現(xiàn)融入依存結(jié)構(gòu)信息的同時(shí)緩解錯(cuò)誤分詞或依存結(jié)構(gòu)的影響。在中學(xué)數(shù)學(xué)術(shù)語(yǔ)語(yǔ)料集上的實(shí)驗(yàn)結(jié)果表明,本文所提模型性能優(yōu)于BERT-BiLSTM-CRF。進(jìn)一步,我們打算提出針對(duì)中文依存關(guān)系矩陣更優(yōu)的構(gòu)造方式,同時(shí)考慮以多模態(tài)的形式融入與文本相關(guān)聯(lián)的符號(hào)、公式和圖片所蘊(yùn)含的信息。