劉英莉,李武亮,牛 琛,么長慧,尹建成,沈 韜
(1.昆明理工大學(xué) 云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;2.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;3.昆明理工大學(xué) 材料科學(xué)與工程學(xué)院,云南 昆明 650500)
材料作為社會(huì)發(fā)展的重要物質(zhì)基礎(chǔ),縱觀人類文明發(fā)展史,人類欲將改造自然的能力提升到一個(gè)新的水平都離不開材料的發(fā)現(xiàn)和應(yīng)用。美國于2011年6月24 日提出材料基因組計(jì)劃(materials genome initiative,MGI)[1],旨在運(yùn)用實(shí)驗(yàn)?zāi)芰?、?jì)算能力,數(shù)據(jù)技術(shù)更快地獲取材料成分-結(jié)構(gòu)-工藝-性能間的關(guān)系。如何獲取大量有價(jià)值的材料數(shù)據(jù)成為現(xiàn)階段的關(guān)鍵問題。數(shù)據(jù)可以來自計(jì)算、文獻(xiàn)數(shù)據(jù)、假設(shè)、實(shí)驗(yàn),包括來自失敗的實(shí)驗(yàn)。在過去的幾十年里,人們發(fā)現(xiàn)大量的科學(xué)論文中,包含了大量的材料數(shù)據(jù),文獻(xiàn)數(shù)據(jù)提取在許多特定領(lǐng)域都取得了一些進(jìn)展,如化學(xué)和生物醫(yī)學(xué)[2-3],然而可用于機(jī)器學(xué)習(xí)的數(shù)據(jù)規(guī)模很小。因此,在材料基因組計(jì)劃中,通過機(jī)器學(xué)習(xí)進(jìn)行材料性能預(yù)測不僅要關(guān)注機(jī)器學(xué)習(xí)算法本身的研究,而且必須從材料科學(xué)文獻(xiàn)中提取有價(jià)值的材料數(shù)據(jù)。
自然語言處理(natural language processing,NLP)的目的是使計(jì)算機(jī)理解并處理用文本輸入的命令,被各個(gè)領(lǐng)域應(yīng)用于從非結(jié)構(gòu)化文本中提取的有效信息,并將其進(jìn)一步處理為結(jié)構(gòu)化信息,從而方便領(lǐng)域研究應(yīng)用。命名實(shí)體識別(named entity recognition,NER)作為NLP領(lǐng)域的基礎(chǔ)任務(wù)之一,旨在識別文本中包含的可用信息的實(shí)體詞匯或短語,例如地理位置,組織名稱,通用領(lǐng)域中的時(shí)間、數(shù)字以及特定領(lǐng)域中的專有對象。在材料領(lǐng)域,命名實(shí)體識別任務(wù)由于其領(lǐng)域?qū)嶓w的特殊性與專業(yè)性,實(shí)體識別更加困難。2021年,Liu等[4]將命名實(shí)體識別(NER)的文本應(yīng)用于材料科學(xué)文獻(xiàn)的大規(guī)模信息提取,從材料科學(xué)文獻(xiàn)中提取鋁硅合金,鋁元素等實(shí)體。楊錦鋒等[5]在2016年提出中文電子病歷的命名實(shí)體識別和實(shí)體關(guān)系的標(biāo)注體系,為后續(xù)研究打下了基礎(chǔ)。文獻(xiàn)中所關(guān)注的材料實(shí)體識別任務(wù),可以借鑒命名實(shí)體識別在生物醫(yī)學(xué)等特定領(lǐng)域的成功應(yīng)用,進(jìn)一步針對材料文本特征研究適用于材料領(lǐng)域的命名實(shí)體識別。
在材料領(lǐng)域,Al-Si合金由于質(zhì)量輕、導(dǎo)熱性能好,并且強(qiáng)度、硬度以及耐蝕性能較好,在航空、汽車、冶金等領(lǐng)域[6-9]得到廣泛應(yīng)用。因此,對鋁硅合金的研究意義重大,本論文收集整理了鋁硅合金數(shù)據(jù)集,用于材料命名實(shí)體識別。
監(jiān)督學(xué)習(xí)需要大量有標(biāo)記的樣本集,標(biāo)注數(shù)據(jù)是一項(xiàng)耗時(shí)耗力的任務(wù)。在某些特定領(lǐng)域,例如,材料科學(xué)、化學(xué)、生物醫(yī)學(xué)等,由于數(shù)據(jù)采集成本高,標(biāo)注成本高,難以構(gòu)建大規(guī)模的標(biāo)注數(shù)據(jù)集,限制了其發(fā)展,而遷移學(xué)習(xí)的應(yīng)用[10]能有效解決這一難題。在計(jì)算機(jī)視覺領(lǐng)域,廣泛應(yīng)用了遷移學(xué)習(xí)的思想,例如2020年,Liu等[11]利用遷移學(xué)習(xí),實(shí)現(xiàn)高光譜圖像的分類。近幾年的研究表明,遷移學(xué)習(xí)可以擴(kuò)展到多個(gè)領(lǐng)域,包括自然語言處理。2019年,Chen[12]將遷移學(xué)習(xí)應(yīng)用于多級生物醫(yī)學(xué)事件的觸發(fā)識別,提出的方法提高了識別度。2020年,Heinzinger等[13]基于遷移學(xué)習(xí)成功地從與各種蛋白質(zhì)預(yù)測任務(wù)相關(guān)的未標(biāo)記序列數(shù)據(jù)庫中提取信息。
雖然深度學(xué)習(xí)在一定程度上減少了模型對標(biāo)注數(shù)據(jù)的依賴,但為了保證由初始模型判斷不確定性的能力,所需的初始標(biāo)注訓(xùn)練數(shù)據(jù)量仍然較大。隨著預(yù)訓(xùn)練語言模型的發(fā)展,在NLP領(lǐng)域利用遷移學(xué)習(xí)將語言模型預(yù)訓(xùn)練后運(yùn)用到特定領(lǐng)域任務(wù)中,也可以有效解決龐大的計(jì)算資源以及數(shù)據(jù)缺乏的問題。目前很多自然語言處理任務(wù)使用預(yù)訓(xùn)練語言模型對大量無標(biāo)注的數(shù)據(jù)進(jìn)行處理,提取到的語言特征對命名實(shí)體識別等下游任務(wù)模型可以起到很好的輔助作用,這在很大程度上減少了自然語言處理任務(wù)對標(biāo)注語料的依賴。
針對材料領(lǐng)域的NER 任務(wù),從頭開始訓(xùn)練神經(jīng)網(wǎng)絡(luò)不僅需要大量訓(xùn)練數(shù)據(jù),而且非常耗時(shí)。隨著Transformer[14]的提出,許多基于Transformer的預(yù)訓(xùn)練語言模型在眾多NLP 任務(wù)中取得了遠(yuǎn)超傳統(tǒng)模型的效果。例如,BERT[15]采用基于微調(diào)的方法在Transformer編碼基礎(chǔ)上應(yīng)用于下游任務(wù),在多項(xiàng)NLP任務(wù)上取得了很好的效果。使用未標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練語言模型應(yīng)用于鋁硅合金實(shí)體識別數(shù)據(jù)集,與深度主動(dòng)學(xué)習(xí)相比進(jìn)一步減少NER 任務(wù)對初始標(biāo)注訓(xùn)練數(shù)據(jù)的需求。本論文采用 BERT 的變體ALBERT[16]與CRF 模型[17],針對NER 任務(wù)進(jìn)行微調(diào),CRF模型可以用于序列標(biāo)注等問題,由于其出色的標(biāo)簽約束能力,在各類NER 模型中成為重要的組成部分;并借助主動(dòng)學(xué)習(xí),面向少量標(biāo)注數(shù)據(jù)的合金材料實(shí)體識別任務(wù)進(jìn)行實(shí)驗(yàn)研究。
本文中合金材料實(shí)體識別任務(wù)主要針對{材料名稱、材料元素、材料性能、材料實(shí)驗(yàn)方法、材料元素組成比}五個(gè)實(shí)體類型,具體內(nèi)容如下:
(1)Material:指一種鋁硅合金的材料名稱。
(2)Element:指組成鋁硅合金的材料元素名稱。
(3)Method:指進(jìn)行材料實(shí)驗(yàn)的方法,例如噴射沉積,快速凝固等。
(4)Property:指鋁硅合金的材料性能,例如微觀組織,物理、化學(xué)性能,硬度等。
(5)Com Percent:指鋁硅合金中各元素的百分比含量。
本文中合金材料標(biāo)注語料示例如圖1所示。
圖1 合金材料命名實(shí)體識別手工標(biāo)注示例Fig.1 An example of manual marking for named entity recognition of alloy materials
語料內(nèi)容統(tǒng)計(jì)如表1示。
表1 合金材料語料庫數(shù)據(jù)統(tǒng)計(jì)表Table 1 Corpus data statistics of alloy materials
圖1 采用了序列標(biāo)注,序列標(biāo)注(Sequence labeling)是NLP中最基礎(chǔ)的任務(wù)。序列標(biāo)注就是使用標(biāo)簽對句子中的每個(gè)單詞進(jìn)行標(biāo)注。BIO 標(biāo)注(Bbegin,I-inside,O-outside)是解決標(biāo)注問題的最簡單的方法,即將其轉(zhuǎn)化為原始標(biāo)注問題。將語料中的標(biāo)簽統(tǒng)一處理為“BIO”格式。其中,B 表示當(dāng)前實(shí)體單詞或?qū)嶓w短語的首個(gè)單詞,I表示當(dāng)前實(shí)體短語的后續(xù)組成的單詞,O 表示非實(shí)體。
針對合金材料文獻(xiàn)語料,結(jié)合主動(dòng)學(xué)習(xí)與ALBERT-CRF模型(見第2.2.1節(jié))進(jìn)行實(shí)驗(yàn)。從合金材料文獻(xiàn)語料庫中隨機(jī)選擇的初始訓(xùn)練集的數(shù)量為500個(gè)句子,每輪迭代后隨機(jī)選擇的測試集數(shù)量為1000個(gè)句子,另外從合金材料語料中選取3000個(gè)句子作為擴(kuò)展集。在訓(xùn)練過程中,每次從擴(kuò)展集中選取100個(gè)句子進(jìn)行篩選,擴(kuò)充到初始訓(xùn)練集后繼續(xù)對模型進(jìn)行訓(xùn)練。在系統(tǒng)整體訓(xùn)練結(jié)束后,使用最后得到的ALBERT-CRF 模型,即可對未知的材料語料進(jìn)行實(shí)體識別。實(shí)驗(yàn)結(jié)果取5次實(shí)驗(yàn)的平均值。最終實(shí)驗(yàn)框架結(jié)構(gòu)如圖2所示。
圖2 結(jié)合遷移學(xué)習(xí)和主動(dòng)學(xué)習(xí)的合金材料實(shí)體識別框架Fig.2 An alloy material entity recognition framework combiningtransfer learning and active learning
2.2.1 ALBERT-CRF 實(shí) 體 識 別 模 型 BERT 模型本身包含眾多參數(shù),訓(xùn)練成本較高。模型參數(shù)量導(dǎo)致了模型訓(xùn)練對算力要求越來越高,模型需要更長時(shí)間去訓(xùn)練,甚至有些情況下參數(shù)量更大的模型表現(xiàn)更差。于是,出現(xiàn)了許多基于BERT 模型的變體,其中ALBERT 的效果尤為突出。ALBERT 對嵌入?yún)?shù)進(jìn)行因式分解,在相對較小維度的輸入級嵌入之間劃分嵌入矩陣,而隱藏層嵌入仍采用較高維度,使得參數(shù)量減少約80%。并且,ALBERT 進(jìn)一步將所有全連接層和各隱藏層之間共享參數(shù),使得模型僅在部分任務(wù)上性能有所降低的情況下,進(jìn)一步減少了整體的參數(shù)量。
本文提出的ALBERT-CRF 模型框架如圖3 所示。因?yàn)槊麑?shí)體識別是序列標(biāo)注任務(wù),序列標(biāo)簽之間具有較強(qiáng)的關(guān)聯(lián),與文本分類任務(wù)不同,所以本文在將ALBERT 模型應(yīng)用命名實(shí)體識別時(shí),在ALBERT輸出層使用CRF層進(jìn)行聯(lián)合建模。
圖3 ALBERT-CRF模型訓(xùn)練示意圖Fig.3 Schematic diagram of ALBERT-CRF model training
圖3中ALBERT 的輸入部分由詞向量、句子向量表示與位置向量表示合并組成。對于輸入序列X= (x1,x2,…,x n),設(shè)ALBERT 層輸出的初始序列標(biāo)簽為E,矩陣大小表示序列長度和所有可能標(biāo)簽個(gè)數(shù)的乘積,E iy j表示初始輸出中索引為i的單詞被模型預(yù)測為y i標(biāo)簽的分?jǐn)?shù)。CRF 層對于預(yù)測標(biāo)簽序列y=(y1,y2,…,y n)的序列真實(shí)路徑分?jǐn)?shù)用Preal=eS(X,y)表示,S(X,y)由標(biāo)簽轉(zhuǎn)移分?jǐn)?shù)Transition和映射分?jǐn)?shù)Emission相加得到,如式(1)、(2)、(3)所示:
加入了CRF 的ALBERT-CRF 能夠充分借助ALBERT 預(yù)訓(xùn)練模型和CRF 標(biāo)簽約束的優(yōu)勢,使得模型可以借助預(yù)訓(xùn)練得到的語義特征在面向少量標(biāo)注數(shù)據(jù)任務(wù)時(shí),仍能夠按照CRF添加的約束規(guī)則保證標(biāo)簽序列的合理性。并且,ALBERT 預(yù)訓(xùn)練得到的詞向量包含更多的上下文特征,在計(jì)算句子相似度時(shí)比Glove預(yù)訓(xùn)練的靜態(tài)詞向量更加準(zhǔn)確。最終如圖3中CRF層選擇所有可能的標(biāo)簽序列中,將最符合標(biāo)簽序列關(guān)系的一組作為輸出。
本文命名實(shí)體識別任務(wù)的模型評價(jià)指標(biāo)為精確率(Precision)、召回率(Recall)以及F1值。精確率指的是正確分類為正類的樣本數(shù)與全部正類樣本數(shù)之比,Precision又稱為查準(zhǔn)率。召回率指的是預(yù)測正確的正類與所有正類數(shù)據(jù)的比值,Recall又稱為查全率。F1值則是精確率與召回率的加權(quán)幾何平均值。精確率、召回率和F1值的計(jì)算公式分別見式(6)、(7)、(8)所示。
式中,T 表示這類樣本中被正確預(yù)測的樣本數(shù),S表示被識別為這一類實(shí)體的樣本總數(shù),A 為樣本中實(shí)際為這類樣本的實(shí)例總數(shù)。
ALBERT-CRF 模型在迭代過程中F1值的變化如圖4所示。圖中Base_Value方法對應(yīng)的直線是將包括擴(kuò)展集和初始訓(xùn)練集的全部標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,得到滿足應(yīng)用水平的ALBERT-CRF 模型指標(biāo)值,作為ALBERT-CRF實(shí)體識別實(shí)驗(yàn)及其對比實(shí)驗(yàn)方法的目標(biāo)值。Active_ALBERT_CRF 方法對應(yīng)的曲線為采用結(jié)合主動(dòng)學(xué)習(xí)的方法訓(xùn)練ALBERT-CRF模型的測試結(jié)果,在測試結(jié)果中去掉了O 標(biāo)簽的評估。Uncertainty_Aug對應(yīng)的曲線為僅基于不確定性選擇樣本選擇的主動(dòng)學(xué)習(xí)方法的測試結(jié)果。文本數(shù)據(jù)增強(qiáng)方法得到的模型測試結(jié)果對應(yīng)圖中Old_Aug曲線。同時(shí),結(jié)合主動(dòng)學(xué)習(xí)得到的最終CRF模型指標(biāo)作為對比,如圖中Active_CRF對應(yīng)的直線所示。
圖4 結(jié)合遷移學(xué)習(xí)和主動(dòng)學(xué)習(xí)的合金材料命名實(shí)體識別結(jié)果Fig.4 Result of named entity recognition of alloy materials combined with transfer learning and active learning
從圖4 中可以看出,結(jié)合主動(dòng)學(xué)習(xí)方法的ALBERT-CRF模型(Active_ALBERT_CRF),在迭代15次時(shí)F1值就達(dá)到了CRF模型,基于不確定性樣本選擇的方法在迭代22 次時(shí),模型F1 值也超過了CRF模型。證明預(yù)訓(xùn)練語言模型在大量無標(biāo)注語料中得到的上下文特征可以更快提升模型的泛化能力。
在 迭代 約20 次 時(shí),ALBERT-CRF 模 型F1 值 達(dá)到了ALBERT-CRF模型在擴(kuò)展集完全標(biāo)注(3500個(gè)句子)上訓(xùn)練的效果,此時(shí)訓(xùn)練集句子總數(shù)約為2500個(gè)句子,相對減少人工標(biāo)注句子數(shù)約為1000個(gè)句子。由此可見,加入了ALBERT-CRF模型后,整體的命名實(shí)體識別框架可以利用預(yù)訓(xùn)練語言模型和主動(dòng)學(xué)習(xí)的優(yōu)勢,使用更少的標(biāo)注樣本使模型達(dá)到更高的性能。而若僅基于不確定性樣本選擇的方法,ALBERT-CRF模型在迭代約30次時(shí)才達(dá)到Base_Value的指標(biāo)值。
ALBERT-CRF模型在合金材料語料的3500 個(gè)句子完全訓(xùn)練得到的模型F1 值如表2 所示。結(jié)合主動(dòng)學(xué)習(xí)基于少量訓(xùn)練集迭代訓(xùn)練的ALBERT-CRF模型最終F1值如表3所示。表2和表3所示的結(jié)果是去除了“O”標(biāo)簽實(shí)體后測試集中各類實(shí)體的測試結(jié)果。
表2 合金材料語料完全訓(xùn)練ALBERT-CRF模型結(jié)果Table 2 Results of fully trained ALBERT-CRF model on alloy material corpus
表3 結(jié)合主動(dòng)學(xué)習(xí)在少量訓(xùn)練集上訓(xùn)練的ALBERT-CRF模型結(jié)果Table 3 Results of the ALBERT-CRF model trained on a small number of training sets combined with active learning
由表2 和表3 對比可知,迭代完成后得到的Active_ALBERT_CRF 模型在合金材料實(shí)體識別中的F1值達(dá)到了ALBERT-CRF模型的平均水平,甚至略有提升,說明基于主動(dòng)學(xué)習(xí)的方法進(jìn)行樣本選擇后擴(kuò)充到數(shù)據(jù)集的方法,能使得最終訓(xùn)練集中的樣本質(zhì)量更高,有助于提升模型的泛化能力。部分實(shí)體如ComPercent和Method實(shí)體識別,出現(xiàn)了高精確率、低召回率的情況,即模型在這兩類實(shí)體識別中有一定的過擬合現(xiàn)象。這是由于這兩類實(shí)體在少量的數(shù)據(jù)集中實(shí)體數(shù)量較少且書寫格式等不統(tǒng)一的情況下,導(dǎo)致模型很難預(yù)測出未知文本中屬于這兩類的全部實(shí)體。而從表3 結(jié)果中可以看到,ComPercent和Method等實(shí)體的召回率雖然仍比較低,但是相比表2有所提升,說明高質(zhì)量的擴(kuò)充樣本使得模型泛化能力有一定的提升。
為排除實(shí)驗(yàn)對已知語料的依賴,探究完全未知語料的使用效果,本文從百度學(xué)術(shù)中收集了完全未標(biāo)注的鋁硅合金材料相關(guān)英文文獻(xiàn),并從中隨機(jī)選取了1000個(gè)句子作為擴(kuò)展集。在ALBERT_CRF模型的基礎(chǔ)上使用新的擴(kuò)展集繼續(xù)迭代,得到實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 未知語料擴(kuò)展集擴(kuò)充結(jié)果Fig.5 Expansion result of unknown corpus expansion set
由圖5可以看出,在使用未知語料繼續(xù)進(jìn)行迭代實(shí)驗(yàn)的過程中,F1值進(jìn)一步提升。本文基于主動(dòng)學(xué)習(xí)與預(yù)訓(xùn)練的實(shí)體抽取方法不僅適用于已有的標(biāo)注語料,在未知語料場景下同樣有效,繼續(xù)擴(kuò)充樣本可以使模型性能進(jìn)一步得到提升。
材料基因組倡導(dǎo)發(fā)揮材料大數(shù)據(jù)的作用,采用機(jī)器學(xué)習(xí)變革材料研發(fā)途徑。數(shù)據(jù)驅(qū)動(dòng)模式是材料基因工程發(fā)展的核心問題,但如何快速獲取大量材料數(shù)據(jù)已成為需要解決的關(guān)鍵問題。為獲取大量有效的材料數(shù)據(jù),并減少命名實(shí)體識別任務(wù)對標(biāo)注語料的依賴,本文采用基于遷移學(xué)習(xí)的材料文本識別方法獲取材料數(shù)據(jù)。手工構(gòu)建了鋁硅合金材料數(shù)據(jù)集,包括5347個(gè)句子,2835個(gè)實(shí)體。
主要采用了結(jié)合ALBERT 預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)的命名實(shí)體識別模型,結(jié)合主動(dòng)學(xué)習(xí)面向少量標(biāo)注數(shù)據(jù)進(jìn)行合金材料實(shí)體識別,從而準(zhǔn)確地提取材料文獻(xiàn)中標(biāo)注的實(shí)體。通過實(shí)驗(yàn)得到以下結(jié)論:
1.該模型對文本的精確率達(dá)到了82.90%,F1值達(dá)到了76.57%。在降低人工標(biāo)注成本的同時(shí),提高了模型的實(shí)體識別能力。
2.本文將該模型與主動(dòng)學(xué)習(xí)方法相結(jié)合,在基于少量標(biāo)注的初始訓(xùn)練集條件下,使得F1 值提高了0.61%,快速提升了模型的泛化能力,使模型實(shí)體識別性能達(dá)到較高水平。此外,探究了未知語料的場景,在迭代40次后,模型的F1值達(dá)到80%,證明了對未知材料語料的有效性。
本研究通過構(gòu)建的少量鋁硅合金材料數(shù)據(jù)集,利用遷移學(xué)習(xí)進(jìn)行材料命名實(shí)體識別任務(wù),減少了對標(biāo)注語料的依賴以及人工標(biāo)注的成本,將遷移學(xué)習(xí)與主動(dòng)學(xué)習(xí)結(jié)合進(jìn)一步提升了模型識別實(shí)體的有效性,并證明了對未知材料文獻(xiàn)亦同樣適用。本研究為解決材料數(shù)據(jù)源的缺乏,改善材料基因機(jī)器學(xué)習(xí)遭遇小規(guī)模數(shù)據(jù)集的困境,提供了如何解困的理論意義和應(yīng)用價(jià)值。