DOI:10.20030/j.cnki.1000?3932.202403020
摘 要 提出一種語義塊標注的材料科學文獻工藝實體關系抽取方案和基于多步實體識別的流水線式材料科學文獻工藝實體關系抽取模型。針對材料科學文獻中工藝數(shù)據(jù)的語義邏輯塊通常連續(xù)出現(xiàn)的特點,首先采用語義塊標注方案將工藝文本作為一個序列完整地進行命名實體識別,然后將提取出的工藝數(shù)據(jù)序列單獨進行分類和進一步命名實體識別,最后依據(jù)類型分類結果和實體識別結果對工藝操作與條件參數(shù)構建關系三元組。實驗結果表明,相較于基線算法,所提標注方案在工藝實體識別上的準確度提升了4%,所提模型在工藝數(shù)據(jù)實體關系抽取實驗中F1分數(shù)提升了3.6%。
關鍵詞 命名實體識別 關系抽取 材料工藝數(shù)據(jù) 科學文獻
中圖分類號 TP391.1??? 文獻標志碼 A?? 文章編號 1000?3932(2024)03?0507?09
作者簡介:黃星瑞(1996-),碩士研究生,從事自然語言處理方面的研究,xrhuang@stu.kust.edu.cn。
引用本文:黃星瑞.基于語義塊識別的材料科學文獻工藝數(shù)據(jù)實體關系抽取[J].化工自動化及儀表,2024,51(3):507-515.
近年來,人工智能驅動的科學研究(AI for Science,AI4S)已成為最新的科學研究新范式。其中,針對于材料研發(fā)領域的“材料基因組”計劃[1]便是AI4S范式的一項嘗試,該計劃旨在革新傳統(tǒng)材料“試錯法”的研究方式,通過構建一個將傳統(tǒng)理論、實驗室實驗、高通量計算[2]、大數(shù)據(jù)等相融合的新材料研發(fā)模式,從而提升新材料研發(fā)效率。在材料基因工程項目中,“材料高效計算”“高通量實驗”“大數(shù)據(jù)”[3,4]是實現(xiàn)這一目標的三大必要條件。
目前,許多科研人員開始使用機器學習技術輔助新材料的研發(fā),并取得了不錯的成果[5~7]。然而,對于數(shù)據(jù)敏感的人工智能技術而言,需要大量的數(shù)據(jù)作為其有效發(fā)揮作用的基礎。材料科學數(shù)據(jù)主要有兩種來源:來自實驗室的實驗和計算結果,其中甚至連錯誤的數(shù)據(jù)都可用于AI發(fā)現(xiàn)新材料[8];來自文獻資料的其他數(shù)據(jù)[9]。
受限于實驗成本、項目內(nèi)容保密等各項因素,單一實驗室所擁有的數(shù)據(jù)難以像商業(yè)化數(shù)據(jù)庫一樣能夠直接給機器學習算法提供大量數(shù)據(jù),因此,從包含大量公開發(fā)表的,且經(jīng)過同行評議的高質(zhì)量的科學文獻中提取數(shù)據(jù),成為了材料科學與人工智能結合的重要數(shù)據(jù)來源。然而,對于數(shù)以萬計的文獻資料,借助專家知識進行人工數(shù)據(jù)提取是費時且耗費精力的。因此,自動、快速且準確的數(shù)據(jù)抽取工具已成為材料科學領域的迫切需求。
筆者基于將切分語義從長句切分為小語義塊這一化繁為簡的思想,提出在材料科學文獻中針對工藝數(shù)據(jù)的特點采用連續(xù)語義塊標注方案,將工藝操作序列完整地標注和提取,再分塊地進行命名實體識別和關系分類,從而解決傳統(tǒng)關系分類中復雜度較高的問題。同時,將關系抽取過程轉化為兩步命名實體識別,提升模型性能。最后,使用真實世界數(shù)據(jù)進行實驗,驗證模型的有效性。
1 相關工作
在材料領域,從文本數(shù)據(jù)中提取材料數(shù)據(jù)其本質(zhì)上是材料數(shù)據(jù)實體識別、特征標注與提取的一個過程,但是從當前研究情況來看,大多數(shù)文本挖掘、文本分類的機器學習任務是有監(jiān)督的機器學習,而有監(jiān)督的機器學習的顯著特點是需要對數(shù)據(jù)進行大量的標注,但由于大多數(shù)專業(yè)領域中的專業(yè)知識存在專業(yè)壁壘,因此不同領域的語料庫在大多數(shù)情況下是無法共通的,造成目前的材料文本挖掘呈現(xiàn)出針對某一特性或某一種類的特化情況。
GHADBEIGI L等通過人工手動的方式,從約200多本出版物中提取了鋰離子電池電極材料的數(shù)據(jù),并以此作為分析,建立了一個鋰離子電池材料的大型數(shù)據(jù)庫,為電池材料領域的科研人員提供了極大幫助[10]。
機器學習方面,KIM E等成功地通過材料文本挖掘技術提取了氧化物材料數(shù)據(jù),利用機器學習和自然語言處理算法從64萬多篇包括材料合成數(shù)據(jù)的期刊文獻中訓練得到了一個神經(jīng)網(wǎng)絡模型,并將該神經(jīng)網(wǎng)絡模型用于解析76 000篇氧化物材料合成文獻,對其中的材料數(shù)據(jù)進行分類標記,預測每個材料數(shù)據(jù)單詞的類別(例如材料種類、原子數(shù)及摩爾質(zhì)量等),最終形成一個不斷更新和擴展的氧化反應數(shù)據(jù)集[11]。
除此之外,LIU Y L等通過材料技術對鋁硅材料數(shù)據(jù)集進行了擴充。該團隊采用材料實體識別與主動學習相結合的方式解決了在材料領域中只有少量標注數(shù)據(jù)的問題。首先,建立Al?Si合金材料實體標注規(guī)則,對文獻內(nèi)容進行標注;其次,將標注內(nèi)容作為材料實體識別模型的HASE數(shù)據(jù)集;最后,將材料實體識別與主動學習相結合,擴展訓練數(shù)據(jù),增強模型的泛化能力。在結合主動學習時,通過計算不同語料庫之間的句子相似度,從新的語料庫中提取與所需材料相關的語料,利用自動標注模塊實現(xiàn)數(shù)據(jù)擴展的目的。這種方法能夠在文獻中準確提取有效的材料數(shù)據(jù),將手工標注的8 845個材料實體擴展到16 677個,并且利用該方法建立的材料實體識別模型可以更快地達到預期水平[12,13]。
針對中文科學文獻中的數(shù)據(jù)提取,魏曉等構建了一種基于Bi?GRU?GNN?CRF的材料實體關系聯(lián)合抽取方法,該方法能夠從多種涉及材料的文檔中自動抽取知識;同時基于該方法構建了一個材料領域知識圖譜,經(jīng)測算,該知識圖譜的覆蓋率達到了80%[14]。
WANG W R等認為,由于特定領域缺乏大量有效的標注數(shù)據(jù),導致采用機器學習的方法很難直接運用在特定領域的材料科學文獻數(shù)據(jù)抽取上;由于特定應用領域存在特征或模式突出明顯的情況,因此他們構建了一個基于正則算法的材料實體和距離識別算法,用于從材料科學文獻中提取數(shù)據(jù),并證明了使用規(guī)則方式從文章中提取數(shù)據(jù)的可行性[15]。
2 語義塊標注的材料科學文獻工藝實體關系抽取
基于材料科學文獻中工藝數(shù)據(jù)的特點,筆者設計了一種語義塊標注方案。首先將工藝數(shù)據(jù)進行整段抽取得到工藝序列,然后通過分類器確定該工藝序列所屬,最后通過特定模式進行數(shù)據(jù)分隔,切分工藝步驟與具體操作參數(shù),從而建立材料合成的工藝步驟以及與參數(shù)的關系。
2.1 標注方案
文獻[16]認為,在自然語言語句中,相鄰的詞與詞之間應當是可以具有關系的,而在材料科學文獻中,某一特定的工藝通常表現(xiàn)為一段連續(xù)的文本,因此在這一連續(xù)文本中,詞與詞之間應當構成一個相同的關系,即都屬于工藝序列,基于這一思想,筆者選擇將“is”“at”“for”“in”“up”等特點詞和其余修飾詞連續(xù)且完整地納入標注和實體識別過程中,從而完整地標注出工藝序列,最終將工藝步驟從簡單實體拓展成一個長連續(xù)的語義塊。筆者設計的針對材料科學文獻工藝數(shù)據(jù)的標注方案具體如圖1所示。
具體而言,筆者將材料科學文獻中工藝數(shù)據(jù)的第1個單詞到最后一個單詞的單詞總數(shù)連續(xù)地標注為Process?Sequence,則一個工藝操作序列可以形式化地表述如下:
Seq={w,w,w,…,w}? ?(1)
其中,w表示文中的單詞,下標i表示單詞在當前分句中的位置索引。
2.2 模型結構
采用語義塊標注模型(Semantic Block Labeled Entity Relation Extractor for Material Synthetic Process,SBLERE)對材料科學文獻中的工藝數(shù)據(jù)進行提取。模型(圖2)共分為3部分:長標注工藝序列語義塊實體識別器,基于雙向編碼器表征法(Bidirectional Encoder Representations from Transformers,BERT)預訓練語言模型[17]的工藝類型分類器,工藝實體識別器。
圖2中,工藝序列語義塊實體識別模塊主要針對材料科學文獻中的工藝操作序列進行實體識別,將其整段提取,切割成小片段送入基于BERT的工藝類型分類器中。而后,基于BERT的工藝類型分類器依據(jù)輸入的小片段進行特征提取和文本分類,實現(xiàn)對操作序列的具體分類。最后,工藝實體識別器依據(jù)工藝操作序列所對應的操作類型進行數(shù)據(jù)提取,對其中的工藝操作文本和相應的參數(shù)數(shù)據(jù)進行提取,形成工藝操作三元組,最終完成材料科學文獻的工藝實體關系數(shù)據(jù)抽取。
2.3 實體關系抽取流程
2.3.1 語義塊實體識別
將傳統(tǒng)流水線式實體關系抽取的命名實體識別和關系抽取任務轉化為多步的實體識別過程,具體的關系分類交由后續(xù)實體識別完成。因此,在前置的長標注命名實體識別過程中,可以兼容當前各項研究的實體識別。
基于2.1節(jié)的標注方案,在實體識別時統(tǒng)一將數(shù)據(jù)識別為操作序列Seq,并通過一個命名實體識別模型將其完整且連續(xù)地識別,表達式為:
Seq=NER(Text) (2)
其中,NER(·)表示命名實體識別(Named Entity Recognition,NER)操作,Text表示輸入的文本段落。
2.3.2 工藝類型分類
為了更精確地對最終構建工藝和具體參數(shù)進行關系構建,經(jīng)過2.3.1節(jié)的長標注實體識別后,將提取出的短序列Seq送入一個單獨的分類器進行分類,進而獲取該工藝屬于何種類型,將該任務與實體識別解耦。
基于文獻[18]數(shù)據(jù)集中的工藝類型分類,文本模型中的分類任務分別是[“Drying”,“Mixing”,“Purification”,“Heating”,“Cooling”],具體如圖3所示。
使用一個BERT為后續(xù)的工藝操作分類,該方案不僅能夠將分類任務與實體識別解耦,確保參數(shù)不互相影響,同時還可以將從復雜語句中對實體分類的任務轉化為基于短句的文本分類任
務。該方案可以更好地利用實體中的特征信息,例如針對“dried at 90 ℃ for 16 h”和“heated up to 250 ℃ for 30 min”的兩段操作序列分類,其核心分類特征為第1個單詞“dried”和“heated”,在短序列中這兩個單詞所具有的特征較為突出,更容易被BERT模型所捕捉,增加模型判別的精確度。
語義塊序列實體識別結果Seq經(jīng)過BERT后,得到各單詞的詞向量特征,將具體詞向量特征輸入到一個全連接層(Fully Connected Layers,F(xiàn)C)后采用激活函數(shù)Softmax進行分類預測其屬于何種工藝操作類型,為后續(xù)的關系構建提供數(shù)據(jù)。具體計算式如下:
P=Softmax(FC(BERT(Seq))) (3)
其中,P代表分類概率。
2.3.3 工藝數(shù)據(jù)提取
與工藝類型分類相似,實體識別完成后將其作為短序列提取出來并分類操作完成后,將序列輸入到工藝數(shù)據(jù)提取器(圖4)中。該步驟的目的是正式識別出該語料中所包含的具體工藝操作、操作參數(shù)等信息,如“dried”、“90 ℃”及“16 h”等。
圖4中,工藝數(shù)據(jù)提取器將序列Seq輸入到BERT中,隨后經(jīng)過全連接層后通過條件隨機場CRF層得到輸出,計算式為:
P=CRF(FC(BERT(Seq))) (4)
在該步驟中,由于每次輸入的文本段較少,因此采用傳統(tǒng)的BIO分類標注即可完成任務。
2.3.4 工藝數(shù)據(jù)關系構建
完成上述3個步驟后,即可將識別出的實體以及對應的工藝類型進行關系三元組組合,完成關系分類,如圖5所示。
首先將短序列中識別出的主要工藝操作(圖5中的“dried”)填入到S,隨后遍歷剩余的參數(shù)實體并分別填入到O中。在遍歷的過程中,將2.3.2節(jié)提取的類型分類中具體的工藝類型和2.3.3節(jié)中提取的工藝數(shù)據(jù)進行組合,例如“Drying”與“Time”組合得到關系類型“Drying?Time”并填入到P中,最終形成材料工藝與具體操作參數(shù)的多組關系三元組。
在填空問題中,工藝的操作實體恒定為S,剩余的實體均為O,因此只需要依據(jù)O的數(shù)量同步復制出對應數(shù)量的關系三元組,并且分別填入即可,可以有效解決重疊關系的問題。
同時,在工藝數(shù)據(jù)關系構建過程中,筆者采用的是語義塊標注方案,通過將關系分類語料限制于一個極短的語義塊內(nèi),從而避免多組工藝數(shù)據(jù)混淆在一個語義塊內(nèi)的復雜情況,降低了關系分類的復雜度,提升了模型性能。
3 實驗與結果分析
3.1 實體關系抽取流程
實驗環(huán)境:操作系統(tǒng)Windows 10,CPU為11th Gen Intel Core i7?11700K,GPU為NVIDIA GeForce RTX 3070 8 GB,編程語言Python 3.8,深度學習框架PyTorch。
采用準確率(Precision)、查全率(Recall)和F1分數(shù)(F1?score)作為評價指標,計算式分別為:
Precision=?? (5)
Recall= (6)
F1=2× (7)
其中,TP為預測樣本為真、實際樣本為真的樣本數(shù);FP為預測樣本為真、實際樣本為假的樣本數(shù);FN為預測樣本為假、實際樣本為真的樣本數(shù)。
3.2 實驗數(shù)據(jù)
實驗數(shù)據(jù)來源于文獻[18]中一種面向材料的合成工藝數(shù)據(jù)集,然而該數(shù)據(jù)集并未提供完整的文本數(shù)據(jù),僅提供數(shù)據(jù)所在段落,因此筆者為了能夠快速構建數(shù)據(jù)集,從其報告的數(shù)據(jù)中選擇能夠通過ELSEVIER提供的API批量下載的以開放獲取為主的文獻進行數(shù)據(jù)集構建,并將其分成3種難度:
a. 簡單(Easy)難度數(shù)據(jù)集。單條數(shù)據(jù)不超過20個單詞,且每條數(shù)據(jù)僅包含一組工藝數(shù)據(jù)。該數(shù)據(jù)集偏向于理想化的實體關系抽取數(shù)據(jù)集。
b. 中等(Medium)難度數(shù)據(jù)集。數(shù)據(jù)集中包含盡可能完整的段落,當輸入過大(輸入數(shù)據(jù)超過BERT編碼最大長度512個字符)時,在保留全部工藝數(shù)據(jù)的情況下對自然語言文段與結尾進行適當截取以保證能夠輸入模型。
c. 困難(Hard)難度數(shù)據(jù)集。文本內(nèi)容與中等難度數(shù)據(jù)集相同,但是將全部實體兩兩進行實體關系標注,其中將不具備關系的實體對關系標注為Unknown。例如,兩個實體“dried”與“10 min”不具備關系,故兩者關系被標注為Unknown。
3.3 基線算法
實驗主要分為實體關系抽取任務和單獨的命名識別任務,因此筆者將基線算法分為兩部分。同時,為了更好地表征材料科學文獻中的數(shù)據(jù),在使用BERT作為底層模型時,筆者均采用經(jīng)過大規(guī)模材料科學文獻預訓練的MatSciBERT模型[19]。
3.3.1 實體識別基線算法
BERT?X系列堆疊模型以預訓練模型BERT作為底層,通過在其上疊加堆疊模型進行命名實體識別以檢驗筆者所提方案,具體分別為疊加線性分類層的BERT?Linear、疊加LSTM作為分類器的BERT?LSTM、疊加CRF層作為分類器的BERT?CRF以及同時疊加LSTM作為隱層和作為分類器CRF層的BERT?LSTM?CRF。
W2NER[16]模型是將命名實體識別任務轉換成預測字與字之間的關系類別,即預測當前字與其鄰近字的關系,因此該模型不僅能夠用于命名實體識別,還可以進行關系抽取。從結果上看,該模型在目前14個數(shù)據(jù)集上均取得了SOTA的最優(yōu)效果,并且能夠處理重疊實體、非連續(xù)實體等問題。
為了驗證筆者所提方案在不同情況下的識別效果,針對具體的命名實體識別任務,采用3種標注方案進行實驗:
a. 方案一,連續(xù)標注模式的工藝數(shù)據(jù)實體識別,表述為?SeqLabel,其中,工藝數(shù)據(jù)的標記直接與其所屬操作分類對應;
b. 方案二,連續(xù)標注的工藝數(shù)據(jù)實體識別,其中,工藝數(shù)據(jù)統(tǒng)一標注為Process?Sequence,表述為?SeqLabel?PS;
c. 方案三,采用傳統(tǒng)BIO數(shù)據(jù)標注方案,將數(shù)據(jù)依據(jù)類型標注,表述為?Traditional。
3.3.2 實體關系抽取基線算法
CasRel[20]:一種聯(lián)合關系抽取模型,該方法基于共享底層的參數(shù),通過一種層疊式的指針標注方案(CasRel)對關系和實體進行建模。該模型使用BERT作為底層編碼器。
LSTM Joint Extraction[21]:將實體關系抽取轉化為命名實體識別任務,通過提出一種實體關系抽取標注方法,通過同時標注實體和關系的方式將實體關系抽取問題轉化為序列標注問題。該基線算法在底層詞嵌入編碼方面采用的是傳統(tǒng)的One?Hot詞向量模式,該方法同樣是利用標注方案將實體關系抽取轉化為命名實體識別任務。
SpERT[22]:為了解決實體關系抽取中存在的重疊實體問題,擯棄傳統(tǒng)的序列標注和指針標注方案,提出了一種新的標注方案對數(shù)據(jù)進行標注,即依據(jù)數(shù)據(jù)長度進行切分以構造多個Span,然后訓練分類器判斷各個Span是否為實體。該模型是一種聯(lián)合抽取模型,其中,Span與文中所述的語義塊都是指一段連續(xù)的文字作為實體。但是,該基線方法是建立不同Span之間的關系,而本文則是在語義塊序列內(nèi)部進行關系建立。
BiRTE[23]:BiRTE是基于CasRel提出的改進模型,CasRel的關系三元組提取過程與流水線式相似,首先提取subjects,然后同時抽取所有的objects和關系,即無向的抽取模式。當subjects提取失效時,后續(xù)任務全部失效。而BiRTE采用的是雙向提取方式進行互補,從而提升模型性能。
BERTBiLSTM?Rel:采用分階段的方式進行實體關系抽取,其中選擇傳統(tǒng)標注方案(方案三)作為數(shù)據(jù)標注方案,在命名實體識別部分采用BERT?BiLSTM作為詞向量編碼模型和實體識別模型。實體識別完成后,使用一個線性關系分類器對各實體進行關系分類。
3.4 實驗結果與分析
3.4.1 命名實體識別
由于Medium和Hard難度數(shù)據(jù)集的文本相同,實體識別結果完全相同,故二選一進行實驗。表1為基于長標注的材料科學文獻工藝數(shù)據(jù)命名實體識別實驗結果,主要對比了各模型采用不同標注方案下的性能。在命名實體識別對比實驗中,采用傳統(tǒng)標注數(shù)據(jù)的方案被記為?Traditional,采用筆者所提的方案被記為?SeqLabel和?SeqLabel?PS。
從表1可以看出,對于Easy難度數(shù)據(jù)集,采用基于傳統(tǒng)標注方案的命名實體識別策略進行實體識別時,BERT作為底層輸入,模型的性能在部分實驗數(shù)據(jù)上占優(yōu),即使在多個數(shù)據(jù)集上取得SOTA的W2NER復雜結構模型也無法與簡單結構模型相比,這主要是由于文本量不長,數(shù)據(jù)內(nèi)容較為簡單,導致傳統(tǒng)標注更能適配這種“理想型”的數(shù)據(jù)。而筆者所提方案需要進行長序列匹配,因此在性能評價指標上并不占優(yōu)勢。
對于Hard難度數(shù)據(jù)集,模型結構較為簡單的BERT?X系列模型均難以完成命名實體識別任務,模型性能下降較為嚴重,這主要是由于Hard難度數(shù)據(jù)集的段落文本量較長,不相關的干擾數(shù)據(jù)較多,簡單結構的模型難以對實體進行提取。
綜上,在命名實體識別實驗中,基于復雜結構的W2NER模型能夠更好地對連續(xù)詞進行建模,而表1的實驗結果也表明,基于語義塊標注的命名實體識別方案更貼合于材料科學文獻中的工藝數(shù)據(jù)特點,因此實驗中該方案表現(xiàn)更優(yōu)。在基于W2NER的實體識別實驗中,標注更簡單的
?SeqLabel?PS在部分實驗中不如稍復雜的SeqLabel,這主要是因為該模型的實體識別部分與標簽分類預測模塊分別獨立,標簽分類模型主要是判斷詞與詞的關系而非用于判斷詞的歸屬類別。而在?SeqLabel?PS中,判別實體識別是否準確僅判斷該實體的左右邊界是否準確,因此雖然
?SeqLabel?PS在部分實驗結果上的表現(xiàn)不如稍復雜的?SeqLabel,但總體而言,基于連續(xù)標注的兩組實驗結果差距不大,在模型預測誤差允許范圍內(nèi)。由于單獨標注不符合W2NER的特點,因此呈現(xiàn)出性能下降的情況??梢姡c傳統(tǒng)的標注方案相比,筆者所提方案性能更優(yōu)。
3.4.2 關系分類
表2為材料工藝數(shù)據(jù)三元組的實體關系抽取實驗結果,其中SBLERE為本文模型,其后的?X代表筆者所提模型采用的基礎語義塊命名實體識別模塊。
從表2可以看出,對于Easy難度數(shù)據(jù)集,由于單句總詞數(shù)不多,且僅有一個工藝實體序列即最多僅有兩組實體關系結果,因此任務較為簡單,各模型均能夠有優(yōu)異表現(xiàn),此時影響模型性能的主要因素是實體識別任務的完成情況。
Medium難度數(shù)據(jù)集較為接近真實數(shù)據(jù),并且貼合當前多數(shù)模型的特點,但由于該數(shù)據(jù)集文本量較長,干擾文本較多,導致現(xiàn)有模型的性能較差,其中性能較差的是基于傳統(tǒng)標注實體識別的BERTBiLSTM?Rel,傳統(tǒng)標注方案雖然在命名實體識別任務中表現(xiàn)優(yōu)異,但是由于關系分類復雜度較高,導致其性能下降嚴重。筆者提出的SBLERE模型采用傳統(tǒng)流水線方式對關系進行分類,將關系分類和實體識別放置在較短的文本中進行,從而取得了幾乎100%的Precision與Recall,因此在關系分類時的性能與第一階段的長標注命名實體識別結果相近。
對于Hard難度數(shù)據(jù)集,筆者所提模型基于將復雜語義切割成小語義塊的思想,將工藝數(shù)據(jù)的關系構建任務精確限定到具體的工藝操作序列中,從而避免Unknown情況的出現(xiàn),因此其在Hard難度數(shù)據(jù)集上的實驗結果與Medium相同。而其他基線算法在該數(shù)據(jù)集上性能均有所下降,這是由于加入了Unknown這一標簽后,關系分類的復雜度隨著實體的數(shù)量成幾何倍數(shù)上升,因此各模型均表現(xiàn)出性能下降的趨勢。從表2還可以看出,筆者提出的SBLERE模型雖然是一種流水線式的實體關系抽取模型,但是由于其將關系分類和進一步的實體抽取過程獨立出來,避免了Unknown情況的出現(xiàn),因此所有的復雜度均與第一階段的命名實體識別相關,尤其當采用W2NER模型作為底層的實體識別模塊時,筆者所提標注方案與分類模型均能夠取得最優(yōu)結果,即便采用的是較為簡單的BERT?BiLSTM?CRF作為實體識別模塊,同樣能夠取得與CasRel和SpERT相近的性能,并且在F1分數(shù)上優(yōu)于兩者。另一方面,由于大量存在重疊實體,同樣基于標記方法的LSTM Joint Extraction性能表現(xiàn)非常差。由此可見,筆者所提模型在面向材料科學文獻的工藝數(shù)據(jù)抽取數(shù)據(jù)方面是有效的。
4 結束語
筆者基于將長文段切分為小語義塊這一化繁為簡的總體思想,提出了一種基于語義塊標注模型的材料科學工藝數(shù)據(jù)提取方案,將工藝操作序列以總詞數(shù)較少的短句形式提取出來,然后依據(jù)該結果分步、分類處理,從而實現(xiàn)針對材料科學文獻的工藝數(shù)據(jù)提取。實驗結果表明,筆者所提標注方案與分類模型均優(yōu)于其他基線算法。下一步工作將優(yōu)化模型在第一步長標注命名實體識別中的準確度,并且結合材料科學文獻中工藝數(shù)據(jù)的特征將模型拓展到對性能或其他數(shù)據(jù)的提取上,進一步提高模型性能。
參 考 文 獻
[1] 宿彥京,付華棟,白洋,等.中國材料基因工程研究進展[J].金屬學報,2020,56(10):1313-1323.
[2] SORIN DRAGHICI.Pathway Analysis of High Throughput Experiments[M].Calabasas:CRC Press,2014.
[3] LU Z H.Computational discovery of energy materials in the era of big data and machine learning:A critical review[J].Materials Reports:Energy,2021,1(3):
100047.
[4] JHA D,GUPTA V,WARD L,et al.Enabling deeper lea? rning on big data for materials informatics applications[J].Scientific Reports,2021,11(1):1-12.
[5] RAMPRASAD R,BATRA R,PILANIA G,et al. Machine learning in materials informatics:Recent applications and prospects[J].NPJ Computational Materials,2017,3(1):54.
[6] BUTLER K T,DAVIES D W,HUGH C,et al.Machine learning for molecular and materials science[J].Nature,2018,559:547-555.
[7] ZHANG H T,F(xiàn)U H D,ZHU S C,et al.Machine learning assisted composition effective design for precipitation strengthened copper alloys[J].Acta Materialia,2021,215:117118.
[8] RACCUGLIA P,ELBERT K C,ADLER P,et al.Mach? ine?learning?assisted materials discovery using failed experiments[J].Nature,2016,533:73-76.
[9] KIM E,HUANG K,SAUNDERS A,et al.Materials Synthesis Insights from Scientific Literature via Text Extraction and Machine Learning[J].Chemistry of Materials,2017,29(21):9436-9444.
[10] GHADBEIGI L,HARADA J K,LETTIERE B R,et al.Performance and resource considerations of Li?ion battery electrode materials[J].Energy & Environmental Science:EES,2015,8(6):1640-1650.
[11] KIM E,HUANG J M,TOMALA A,et al.Machine?lear? ned and codified synthesis parameters of oxide materials[J].Scientific Data,2017,4(1):1-9.
[12] LIU Y L,YAO C H,NIU C,et al.Text mining of hyper? eutectic Al?Si alloys literature based on active learning[J].Materials Today Communications,2021, 26:102032.
[13] 劉英莉,李武亮,牛琛,等.基于遷移學習的鋁硅合金文獻的文本識別[J].材料科學與工程學報,2022,40(4):640-645;667.
[14] 魏曉,王曉鑫,陳永琪,等.基于自然語言處理的材料領域知識圖譜構建方法[J].上海大學學報(自然科學版),2022,28(3):386-398.
[15] WANG W R,JIANG X,TIAN S H,et al.Automated pipeline for superalloy data by text mining[J].NPJ Computational Materials,2022(1):58-69.
[16] LI J,F(xiàn)EI H,LIU J,et al.Unified Named Entity Recognition as Word?Word Relation Classification[J].arXiv e?prints,2021.DOI:10.48550/arXiv.2112.10070.
[17] DEVLIN J,CHANG M W,LEE K,et al.Bert:Pre?tra? ining of deep bidirectional transformers for language understanding[J].arXiv e?prints,2018.
[18] WANG Z,KONONOVA O,CRUSE K,et al.Dataset of solution?based inorganic materials synthesis procedures extracted from the scientific literature[J].Scientific Data,2022,9(1):231.
[19] GUPTA T,ZAKI M,KRISHNAN N M A,et al.Mat Sc? iBERT:A materials domain language model for text mining and information extraction[J].NPJ Computational Materials,2022(1):940-950.
[20] WEI Z,SU J,WANG Y,et al.A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2020.DOI:10.18653/v1/2020.acl?main.136.
[21] WANG S L,ZHANG Y,CHE W X,et al.Joint extraction of entities and relations based on a novel graph scheme[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence.2018:4461-4467.DOI:10.24963/ijcai.2018/620.
[22] EBERTS M,ULGES A.Span?based Joint Entity and Rel? ation Extraction with Transformer Pre?training[J].arXiv e?prints,2019.DOI:10.48550/arXiv.1909.077 55.
[23] REN F L,ZHANG L H,ZHAO X F,et al.A Simple but Effective Bidirectional Extraction Framework for Relational Triple Extraction[C]//WSDM.2022:824-832.
(收稿日期:2023-05-15,修回日期:2024-04-08)
Semantic Block Labeled for the Process Data Entity
Relation Extraction in Materials Science Literature
HUANG Xing?rui
(Faculty of Information Engineering and Automation, Kunming University of Science and Technology)
Abstract?? A semantic block labeled method for the process entity relationship extraction in materials science literature was proposed, including the pipelined entity relation extraction model for materials science literature based on multi?step entity recognition. Aiming at the characteristic that the semantic logic blocks of process data usually appear continuously in materials science literature; firstly, having a semantic block annotation scheme used to take process text as a sequence for named entity recognition; and then, having the extracted process data sequence classified separately and the entity recognition further named; and finally, having? the relationship triples between process operations and condition parameters constructed according to both type classification results and entity recognition results. Experimental results show that, compared to the baseline algorithm, the accuracy of the proposed annotation scheme in process entity recognition is improved by 4%, and the F1 score of the proposed model in the process data entity relationship extraction experiment is increased by 3.6%.
Key words?? named entity recognition, relation extraction, material process data, science literature
(Continued from Page 461)
riser, the basic equation of un?damped natural vibration was determined, and the differential equation of natural frequency and the modal shapes basic equation of the drilling risers transverse vibration were further analyzed and established, and then the numerical solution was carried out. In addition, having the control variable method adopted to analyze the influence of the drilling risers length, tension ratio and material on its natural frequency and change rule was implemented, including having vibration modes at different orders displayed through MATLAB software. The results show that, controlling the tension ratio and reasonably selecting the riser types can effectively improve natural frequency, avoid resonance with wave current force and ensure the safety of deep?water drilling operation. In addition, the drilling risers vibration mode isnt a standard sinusoidal curve, and the vibration mode changes constantly under the influence of time.
Key words?? modal shape, deepwater drilling riser, mechanical analysis, natural frequency, control variable method, MATLAB