摘 "要: 金屬有機(jī)框架(MOFs)的合成實驗步驟通常集中存儲在科學(xué)文獻(xiàn)某一段落內(nèi),從文獻(xiàn)中提取實驗步驟對推動新型金屬有機(jī)框架的開發(fā)具有重要意義。現(xiàn)有研究存在兩個問題:第一,將整篇文獻(xiàn)視為普通文本,按句/段直接切分處理,忽略了上下文中隱藏的高級知識;第二,模型未深入挖掘數(shù)據(jù)內(nèi)部的隱藏模式。針對上述問題,提出一個基于知識融合策略的高質(zhì)量知識補(bǔ)充任務(wù)。利用科學(xué)文獻(xiàn)編輯風(fēng)格和結(jié)構(gòu)化Web數(shù)據(jù)的微妙之處,將上下文關(guān)鍵知識匯集到段落中,進(jìn)而優(yōu)化其文本表征;然后提出一種基于聚類引導(dǎo)的自適應(yīng)分類算法,采用聚類算法將文本表征劃分為多個簇,同時訓(xùn)練不同的分類模型來適應(yīng)不同的簇,從而有效地減少數(shù)據(jù)重疊的影響,提高模型召回率。實驗結(jié)果表明,所提方法的性能相比主流基線模型有較大提升。
關(guān)鍵詞: 金屬有機(jī)框架; 科學(xué)文獻(xiàn); 知識融合; 文本表征; 聚類引導(dǎo); 自適應(yīng)分類; 數(shù)據(jù)重疊
中圖分類號: TN919.6+5?34; TP391 " " " " " " " " " 文獻(xiàn)標(biāo)識碼: A " " " " " " " " 文章編號: 1004?373X(2024)18?0179?08
Language model based on knowledge fusion and cluster guidance for MOFs synthesis information classification
LI Haijun1, 2, 3, WANG Zhuo1, 2
(1. Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China;
2. Institutes for Robotics and Intelligent Manufacturing, Chinese Academy of Sciences, Shenyang 110169, China;
3. University of Chinese Academy of Sciences, Beijing 100049, China)
Abstract: The experimental steps for the synthesis of metal?organic frameworks (MOFs) are usually stored in a certain section of scientific literature. It is of great significance to extract the experimental steps from the literature to promote the development of new MOFs. There are two problems in the existing research: first, the whole literature is regarded as ordinary text, and the sentence/paragraph is directly segmented, ignoring the advanced knowledge hidden in the context; second, the model does not dig deeply into the hidden patterns within the data. On this basis, a high?quality knowledge supplementation tasks based on knowledge fusion strategy is proposed. The subtleties of literature editing styles and interactive web data are used to bring together context?critical knowledge into paragraphs, so as to optimize their textual representation. An adaptive classification algorithm based on clustering guidance is proposed. The clustering algorithm is used to divide text representation into multiple clusters, while training different classification model to adapt to different clusters, effectively reducing the impact of data overlap and improving model recall. The experimental results show that in comparison with the mainstream baseline models, the proposed method has great performance improvement.
Keywords: metal?organic framework; scientific literature; knowledge fusion; text representation; clustering guidance; adaptive classification; data overlap
0 "引 "言
金屬有機(jī)框架(Matal?organic Frameworks, MOFs)是一種周期性網(wǎng)狀結(jié)構(gòu)材料,具有高度模塊性、可控設(shè)計性及多種物理化學(xué)性質(zhì)[1?3],被預(yù)測為21世紀(jì)的決定性材料。MOFs的合成程序有大量可變合成參數(shù)(如溫度、反應(yīng)時間、溶劑和pH),以往科研人員只能通過基于經(jīng)驗和知識的“試錯”模式來尋找合成條件。這種方式十分低效,無法滿足國家戰(zhàn)略和重大工程對高性能MOFs材料的巨大需求。為了加速新型MOFs材料的研發(fā)進(jìn)程,人們希望使用深度學(xué)習(xí)技術(shù)來提高預(yù)測任意MOFs合成條件的準(zhǔn)確性,但這受到缺乏MOFs材料合成實驗步驟的綜合數(shù)據(jù)集的阻礙。由于互聯(lián)網(wǎng)技術(shù)的發(fā)展,大量公開可獲取的包含MOFs實驗合成信息的科學(xué)文獻(xiàn)以Web形式分散存儲于各大期刊出版社,而這些文獻(xiàn)對MOFs研發(fā)具有重要參考價值。因此,如何從海量的文獻(xiàn)中識別并分類出這些復(fù)雜合成信息,對加速M(fèi)OFs研發(fā)有重要意義。
盡管近年來預(yù)訓(xùn)練語言模型被廣泛用于各領(lǐng)域的分類任務(wù)中,并表現(xiàn)出優(yōu)良的性能[4?6],但在處理冗長的文本尤其是背景更為復(fù)雜的特殊領(lǐng)域文本時,語言模型無法完全捕捉文本的關(guān)鍵知識,導(dǎo)致其很難理解長文本的復(fù)雜語義[7]。這些長文本中的語言規(guī)律使得微調(diào)預(yù)訓(xùn)練語言模型所取得的效果不夠理想,特別是召回率指標(biāo)。在遷移學(xué)習(xí)中,高召回率意味著模型學(xué)習(xí)到目標(biāo)域的關(guān)鍵特征,因此提高模型召回率指標(biāo)是整個遷移學(xué)習(xí)領(lǐng)域的重難點。
對于一些特殊的長文本語料如科學(xué)文獻(xiàn),其上下文中可能存在一些直接影響模型輸出的前驅(qū)知識。例如,科學(xué)文獻(xiàn)大都有一些特殊的構(gòu)詞規(guī)則,用于構(gòu)建專有詞匯,這些詞匯往往被作者按照個人風(fēng)格用不同的代詞在文中指代,而語言模型無法理解這些代詞含義以及文本之間的邏輯關(guān)系。與語言模型相比,讀者很少費(fèi)力去理解科學(xué)文獻(xiàn)的重要內(nèi)容和作者的隱喻,這是因為作者經(jīng)常利用科學(xué)文獻(xiàn)中各種各樣的文本樣式,如粗體和斜體等來強(qiáng)調(diào)特定內(nèi)容,這種機(jī)制可以引導(dǎo)讀者準(zhǔn)確捕捉文章的語義。但是現(xiàn)有方法不支持學(xué)習(xí)并理解這種機(jī)制,而是局限于處理解析后的純文本。受此啟發(fā),并參考大語言模型檢索增強(qiáng)生成技術(shù)[8]和提示工程[9]技術(shù),針對以上問題,本文從數(shù)據(jù)層面提出一種高質(zhì)量知識補(bǔ)充方法。該方法模仿人類閱讀習(xí)慣,從上下文獲取高質(zhì)量知識來提高數(shù)據(jù)質(zhì)量,從而有效地增強(qiáng)段落語義的信息表征。如圖1所示,高質(zhì)量知識補(bǔ)充方法首先檢索文獻(xiàn)的粗體文本(圖1灰色字體),這些粗體文本作為代詞,是作者在文獻(xiàn)中重點強(qiáng)調(diào)的內(nèi)容,直接影響模型對文本語義的理解;隨后基于最近距離機(jī)制和正則表達(dá)式匹配粗體文本及其相關(guān)內(nèi)容;最后用這些相關(guān)內(nèi)容替換全文的粗體文本(圖1中帶底紋字體),增強(qiáng)模型處理歧義和復(fù)雜邏輯關(guān)系的能力。通過注入上下文中關(guān)鍵信息引導(dǎo)模型能夠正確學(xué)習(xí)文本語義,提高模型對復(fù)雜合成信息的召回率。
同時在模型層面上,分類任務(wù)中造成模型性能表現(xiàn)不佳的原因之一是模型無法準(zhǔn)確判別困惑樣本的類別,即樣本在語義表征空間中發(fā)生了數(shù)據(jù)重疊。針對該問題,本文提出一種基于聚類引導(dǎo)的自適應(yīng)文本分類框架,通過引入無監(jiān)督聚類作為代理任務(wù),挖掘數(shù)據(jù)內(nèi)部的隱藏模式來指導(dǎo)模型訓(xùn)練,引導(dǎo)模型根據(jù)樣本分類難度自適應(yīng)學(xué)習(xí)分類樣本的有效特征,有效減少了數(shù)據(jù)重疊的影響。本文總體框架如圖2所示,主要由三部分組成。
1) 本文利用各期刊出版社提供的文本數(shù)據(jù)挖掘服務(wù),共收集了與34 143個MOFs合成相關(guān)的20 766篇HTML/XML格式的文獻(xiàn)作為語料庫,并基于此,人工標(biāo)注了一個中等規(guī)模的關(guān)于MOFs合成信息的數(shù)據(jù)集。
2) 本文首次提出一種高質(zhì)量知識補(bǔ)充方法,在模型訓(xùn)練前,將科學(xué)文獻(xiàn)上下文中特定的關(guān)鍵內(nèi)容作為高質(zhì)量知識與當(dāng)前段落相融合,有效增強(qiáng)了段落語義的信息表征,從而提高模型對不同類別樣本的分類性能。該方法簡練而高效,在HTML/XML格式科學(xué)文獻(xiàn)的處理上,具備一定的可移植性和擴(kuò)展性。
3) 本文提出一種基于聚類引導(dǎo)的自適應(yīng)文本分類框架,該框架融合聚類和分類算法來實現(xiàn)一個高性能分類系統(tǒng)。具體來說,在有監(jiān)督微調(diào)之前添加一個無監(jiān)督聚類任務(wù),對段落級語義表示進(jìn)行聚類,得到不同的數(shù)據(jù)集合,并為每個數(shù)據(jù)集合訓(xùn)練基分類器。聚類是為了挖掘數(shù)據(jù)的內(nèi)部隱藏性質(zhì),給后續(xù)分類模型決策額外提供有益的信息,提高模型對困惑樣本的區(qū)分能力。
1 "相關(guān)工作
文本分類是文獻(xiàn)文本挖掘中一個重要的子任務(wù),是提取文獻(xiàn)知識的首要步驟。近年來,預(yù)訓(xùn)練語言模型在多個自然語言處理任務(wù)中取得了SOTA效果,它們通常使用大量的文本語料庫學(xué)習(xí)通用表示,例如BERT[10]、Sentence?BERT[11]和DeBERTa[12]等。此外,為滿足專有領(lǐng)域的需求,研究人員收集了大量專有領(lǐng)域的語料并基于某個預(yù)訓(xùn)練語言模型進(jìn)行二次預(yù)訓(xùn)練,得到如SciBERT[13]、MatsciBERT[14]和ChemBERT[15]等預(yù)訓(xùn)練語言模型,這些語言模型常被用于解決相關(guān)領(lǐng)域的文本分類問題。
文獻(xiàn)[16]詳細(xì)介紹了如何在文本分類任務(wù)中使用預(yù)訓(xùn)練語言模型進(jìn)行精細(xì)微調(diào)的方法,當(dāng)下游目標(biāo)領(lǐng)域有足夠數(shù)量的訓(xùn)練數(shù)據(jù)時,微調(diào)語言模型的效果會遠(yuǎn)遠(yuǎn)超過傳統(tǒng)模型。但由于人工標(biāo)注數(shù)據(jù)非常耗時耗力或者語料庫的缺乏,在現(xiàn)實應(yīng)用場景中,微調(diào)預(yù)訓(xùn)練語言模型通常難以獲得期望的性能效果。文獻(xiàn)[17]通過設(shè)計輔助句子來構(gòu)造句子對,將特定的領(lǐng)域知識整合到BERT模型中,在多個文本分類數(shù)據(jù)集上取得SOTA效果。該方法表明,當(dāng)沒有足夠的標(biāo)注數(shù)據(jù)訓(xùn)練時,外部領(lǐng)域知識是提高微調(diào)語言模型效果的有效方法。文獻(xiàn)[18]利用預(yù)訓(xùn)練語言模型的嵌入技術(shù)壓縮長文本,旨在削弱長文本中冗余信息和歧義信息帶來的不利影響,并在貿(mào)易協(xié)定長文本數(shù)據(jù)的分類上取得顯著的性能提升。上述研究均是為了使得模型能提取到區(qū)分樣本的有效特征,從而提高目標(biāo)任務(wù)上的性能。
與以前的方法相比,本文工作從兩個方面做出改進(jìn):一方面,首次提出一個高質(zhì)量知識補(bǔ)充方法來改善模型性能,且無需額外訓(xùn)練和人工標(biāo)注,從數(shù)據(jù)層面輔助模型捕捉文獻(xiàn)上下文中的事實知識,提高模型處理歧義和復(fù)雜邏輯關(guān)系的能力;另一方面,從任務(wù)層面出發(fā),設(shè)計了一個特殊的代理任務(wù)來彌合語言模型的預(yù)訓(xùn)練任務(wù)和下游目標(biāo)任務(wù)之間的差距,即通過引入無監(jiān)督聚類任務(wù)挖掘數(shù)據(jù)內(nèi)部的模式,作為先驗信息在微調(diào)之前提供給模型,引導(dǎo)模型關(guān)注可緩解數(shù)據(jù)重疊的有效特征。
2 "數(shù)據(jù)集建立
2.1 "材料科學(xué)文獻(xiàn)語料庫構(gòu)建
劍橋晶體數(shù)據(jù)中心(Cambridge Crystallographic Data Centre, CCDC)[19]自1965年來一直致力于晶體數(shù)據(jù)的收集與數(shù)字化工作,其收錄了全世界所有已認(rèn)可的金屬有機(jī)化合物的結(jié)構(gòu)和相關(guān)文獻(xiàn)方面的信息,這些文獻(xiàn)包含對應(yīng)晶體的實驗合成信息。
為了構(gòu)建關(guān)于MOFs材料合成文獻(xiàn)的語料庫,本文選擇劍橋結(jié)構(gòu)數(shù)據(jù)庫MOFs子集(CSD_5.43),其中存儲每個MOFs對應(yīng)的特殊標(biāo)識符,可以通過這些標(biāo)識符,在數(shù)據(jù)庫訪問相關(guān)內(nèi)容。根據(jù)得到的特殊標(biāo)識符使用CSD Python?API從數(shù)據(jù)庫中檢索到92 978個MOFs和對應(yīng)的37 927個DOI號。本文在調(diào)研了多個主流期刊出版社的文本數(shù)據(jù)挖掘服務(wù),并結(jié)合以往文本挖掘工作,利用出版社提供的API,通過DOI號批量獲取出版社數(shù)據(jù)庫中以HTML/XML/PDF格式存儲的文獻(xiàn)手稿。
文獻(xiàn)下載并解析后,需要將冗長的文本切分為短文本再進(jìn)行后續(xù)處理。現(xiàn)有的文本處理工具均是利用自然語言中獨(dú)有的句子結(jié)束標(biāo)志來完成對文本內(nèi)容的切分工作,因此,在提取PDF格式文獻(xiàn)的內(nèi)部信息時有提取數(shù)據(jù)不連續(xù)的可能,而HTML/XML作為標(biāo)記語言,通過標(biāo)簽和屬性組合可以清晰地描述文獻(xiàn)各個章節(jié)和段落單元,這種結(jié)構(gòu)化的存儲方式同樣有利于后續(xù)的解析和處理。最終本文以20 766篇成功下載的HTML/XML格式科學(xué)文獻(xiàn)作為基礎(chǔ)語料庫,具體信息如表1所示。
2.2 "高質(zhì)量知識補(bǔ)充方法
為了提高模型的性能表現(xiàn),對實驗結(jié)果和數(shù)據(jù)進(jìn)行探索性分析。本文收集的語料文獻(xiàn)中不僅包含MOFs的合成信息,還包括相關(guān)配料的合成信息,兩者間結(jié)構(gòu)的高度相似會導(dǎo)致模型誤判。此外,段落中數(shù)值和代詞過多,缺乏關(guān)鍵信息,使得模型分類難度大。需要說明的是,由于MOFs和配料的命名方式十分復(fù)雜且不易書寫,文獻(xiàn)作者常利用數(shù)值類代詞指代,并使用粗體文本特別強(qiáng)調(diào)。顯然粗體文本蘊(yùn)含十分重要的信息,能夠幫助模型區(qū)分結(jié)構(gòu)相似的樣本,但現(xiàn)有模型和方法無法從單個段落中理解這些復(fù)雜的邏輯關(guān)系及知識。
相比于純文本語料,HTML/XML格式文本存儲著更豐富的信息,可以從中提取上下文的聯(lián)系補(bǔ)充給訓(xùn)練數(shù)據(jù)。針對上述問題,本文首次提出一個高質(zhì)量知識補(bǔ)充方法,無需額外訓(xùn)練和人工標(biāo)注,通過檢索文獻(xiàn)上下文中隱藏的信息,作為模型分類的關(guān)鍵特征與段落文本融合。具體來說,本文首先檢索得到全篇文獻(xiàn)數(shù)值類粗體文本及其鄰近句子;然后基于最近距離機(jī)制獲取粗體文本前后可能的指代內(nèi)容,并使用正則表達(dá)式作為約束來檢驗相關(guān)信息是否為MOFs或者配料的實體名詞,循環(huán)執(zhí)行上述操作直至獲取所有代詞及相應(yīng)的指代對象;最后,在全文中將所有的數(shù)值類粗體文本替換為指代對象。表2所示為語料庫中執(zhí)行高質(zhì)量補(bǔ)充任務(wù)的文獻(xiàn)數(shù)量,共有17 020篇文獻(xiàn)成功執(zhí)行,證明了該方法的實用性。
2.3 "數(shù)據(jù)集標(biāo)注
本次數(shù)據(jù)集標(biāo)注工作共有3人參與,采用1人標(biāo)記、另外2人審核的方式,有效減少人為因素造成的錯標(biāo)和漏標(biāo),保證數(shù)據(jù)標(biāo)注的質(zhì)量。首先,本文以分段隨機(jī)采樣的方式從20 766篇MOFs合成的相關(guān)科學(xué)文獻(xiàn)中收集1 000篇文獻(xiàn),隨后按照段落切分后共獲得21 705個段落。本文將這些段落中包含實驗信息的段落命名為合成段落,其余段落命名為非合成段落,標(biāo)注時令非合成段落文本標(biāo)簽為0,合成段落文本標(biāo)簽為1,并以文獻(xiàn)為單位,按照7∶2∶1的比例劃分訓(xùn)練集、測試集和驗證集。構(gòu)建的數(shù)據(jù)集具體信息如表3所示。
3 "方 "法
本文提出一種基于聚類引導(dǎo)的自適應(yīng)分類框架,通過在預(yù)訓(xùn)練語言模型表征層和下游分類層之間添加一個無監(jiān)督聚類層來挖掘數(shù)據(jù)的隱藏模式,使得模型能更加關(guān)注于困惑樣本的區(qū)分,進(jìn)而提高整體模型的性能。模型框架如圖3所示。
3.1 "預(yù)訓(xùn)練語言模型編碼層
預(yù)訓(xùn)練語言模型是一種基于Transformer架構(gòu)的模型,可以對上下文進(jìn)行雙向編碼,僅需少數(shù)的參數(shù)調(diào)整就可在大多數(shù)的自然語言任務(wù)上獲得最佳實驗性能,是自然語言處理領(lǐng)域重要的研究成果。本文利用多個預(yù)訓(xùn)練語言模型作為編碼器層,將切分后的段落文本進(jìn)行編碼,獲得連續(xù)的段落向量表示。
3.2 "無監(jiān)督聚類算法
無監(jiān)督聚類算法是一種機(jī)器學(xué)習(xí)算法,它通過分析數(shù)據(jù)本身的內(nèi)在性質(zhì)和模式,將樣本劃分為若干類別,使得同類別樣本間的相似度高,不同類別的樣本相似度低。K?means算法是經(jīng)典的聚類方法,通過最小化簇內(nèi)平方和來劃分?jǐn)?shù)據(jù)。本文采用K?means算法將數(shù)據(jù)劃分為三個不同的簇,分別代表易分正類樣本、易分負(fù)類樣本和困惑樣本的集合,再基于聚類結(jié)果訓(xùn)練后續(xù)的分類模型。
為更好地解釋本文所提出的基于聚類引導(dǎo)的自適應(yīng)文本分類框架的優(yōu)勢,首先使用BERT模型將文本編碼為向量,然后利用PCA算法將其降維并可視化。PCA算法作為一種線性降維技術(shù),能夠反映原始數(shù)據(jù)的空間分布模式。PCA降維后的段向量分布如圖4所示,class 0和class 1分別代表非合成段落與合成段落。值得注意的是,圖中兩個類別的數(shù)據(jù)有一定重疊,這種數(shù)據(jù)重疊會在一定程度上造成模型誤判,導(dǎo)致許多樣本被錯誤分類,削弱模型的性能。
圖5是無監(jiān)督聚類后得到的數(shù)據(jù)分布模式。訓(xùn)練數(shù)據(jù)被劃分為3個集合,結(jié)合圖4可知:cluster 1和cluster 2的樣本邊界十分明顯,代表易分正類或易分負(fù)類樣本集合;而cluster 3中數(shù)據(jù)重疊現(xiàn)象最為顯著,代表困惑樣本集合。在聚類引導(dǎo)后,訓(xùn)練數(shù)據(jù)按照分類難度被細(xì)分為不同的簇,在簇上訓(xùn)練的分類器可以更好地學(xué)習(xí)區(qū)分樣本邊界的有效特征,從而提高整體模型的泛化能力。
3.3 "特征提取層
段向量是預(yù)訓(xùn)練語言模型基于其語料庫學(xué)習(xí)得到的一種通用表示,需要在此基礎(chǔ)上做出一定的微調(diào)以更好地適用于下游任務(wù)。通過微調(diào)預(yù)訓(xùn)練模型和特征提取層可以突出重要信息,弱化次要信息,更加全面地學(xué)習(xí)段落文本的語義表征。目前,在文本分類任務(wù)中,主流的特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括DPCNN[20]、Text?RCNN[21]和TextCNN[22]等。在多次實驗后,本文發(fā)現(xiàn)使用合理設(shè)計的LightMLP層作為特征提取層,其表現(xiàn)均優(yōu)于上述特征提取網(wǎng)絡(luò),故決定將BERT_LightMLP作為本文基線模型。
3.4 "模型分類層
模型分類層采用Softmax層進(jìn)行預(yù)測分類,其輸入為段落文本的語義特征表示X,輸出為各類別真實性的概率o,公式如下:
[o=Softmax(W·X+b)] " " " " "(1)
式中:[W∈Rc×h]為變換矩陣;[b∈Rc]為偏置項,c為類別數(shù)目。
具體訓(xùn)練過程如下:首先精細(xì)微調(diào)語言模型,使其能學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中一部分知識,獲取其對段落文本的語義向量表示;其次,利用K?means算法將這些語義向量表示劃分為易分正類和易分負(fù)類樣本集合或困惑樣本集合;然后,凍結(jié)之前微調(diào)后語言模型的參數(shù),為聚類得到樣本集合,分別再訓(xùn)練一個LightMLP層進(jìn)行特征聚合;最后,新樣本經(jīng)過語言模型編碼,可根據(jù)分類難度自適應(yīng)分配到相應(yīng)樣本集合對應(yīng)的特征聚合層,再經(jīng)Softmax層后輸出所屬類別。
4 "實 "驗
本文實驗環(huán)境配置為:NVIADA GeForce RTX 3060顯卡,編程語言分別是Python 3.9和PyTorch 1.10.1,超參數(shù)調(diào)優(yōu)工具使用Optuna 3.3.0。
4.1 "評價指標(biāo)
本文主要通過宏精確率Macro_P、宏召回率Macro_R和宏F1分?jǐn)?shù)Macro?F1值三個指標(biāo)來衡量模型性能,具體公式如下:
[Macro_P=系統(tǒng)正確預(yù)測的非合成段落個數(shù)2×系統(tǒng)預(yù)測的非合成段落個數(shù)+ " " " " " " " " " " "系統(tǒng)正確預(yù)測的合成段落個數(shù)2×系統(tǒng)預(yù)測的合成段落個數(shù)×100%] (2)
[Macro_R=系統(tǒng)正確預(yù)測的非合成段落個數(shù)2×實際上非合成段落個數(shù)+ " " " " " " " " " " "系統(tǒng)正確預(yù)測的合成段落個數(shù)2×實際上合成段落個數(shù)×100%] (3)
[Macro?F1=2×Macro_P×Macro_RMacro_P×Macro_R×100%] "(4)
4.2 "基線模型和超參數(shù)設(shè)置
為了證明本文方法對于提高微調(diào)預(yù)訓(xùn)練語言模型在分類任務(wù)上性能效果的通用性,實驗選用的預(yù)訓(xùn)練語言模型有BERT、MatsciBERT、SciBERT、ChemBERT、Sentence?BERT和DeBERTa?v3,其中BERT、Sentence?BERT和DeBERTa?v3是利用通用語料庫訓(xùn)練的語言模型,MatSciBERT、SciBERT和ChemBERT是使用科學(xué)文獻(xiàn)語料進(jìn)行二次預(yù)訓(xùn)練的語言模型。在本文的實驗中,各語言模型將作為數(shù)據(jù)的編碼器,將文本轉(zhuǎn)化為連續(xù)向量表示。同時本文在將實驗數(shù)據(jù)集中21 705個文本段落編碼后的token長度統(tǒng)計后,確定其中位數(shù)為334,最終將各預(yù)訓(xùn)練語言模型的最大輸入序列長度的超參數(shù)設(shè)置為350。實驗采用Adam優(yōu)化器,并使用分層學(xué)習(xí)率分別調(diào)節(jié)預(yù)訓(xùn)練語言模型和下游任務(wù)模型,使用Optuna框架對模型超參數(shù)進(jìn)行自動化調(diào)優(yōu),綜合實驗后得到的最優(yōu)超參數(shù)設(shè)置如表4所示。
4.3 "模型性能分析
本文共設(shè)置三組實驗來進(jìn)行充分的比較,分別為:不同預(yù)訓(xùn)練語言模型的對比實驗、高質(zhì)量知識補(bǔ)充方法的消融實驗、聚類引導(dǎo)機(jī)制的消融實驗。
4.3.1 "不同預(yù)訓(xùn)練語言模型的對比實驗
本節(jié)主要對基于不同預(yù)訓(xùn)練語言模型的基線方法進(jìn)行實驗,共設(shè)計了6個實驗,為后續(xù)實驗效果對比提供基準(zhǔn)模型。表5列出了不同預(yù)訓(xùn)練語言模型在MOFs合成信息分類任務(wù)上的性能。
本文從參數(shù)規(guī)模大小以及是否使用領(lǐng)域語料二次預(yù)訓(xùn)練兩個方面進(jìn)行分析。與BERT相比,參數(shù)量擴(kuò)增1倍的DeBERTa?v3幾乎沒有性能提升,其根本原因在于兩者均無法從通用領(lǐng)域語料庫學(xué)習(xí)到專有領(lǐng)域中特殊的知識和模式。此外,在領(lǐng)域語料庫上二次預(yù)訓(xùn)練的模型SciBERT和MatsciBERT,相比BERT和Sentence?BERT模型的實驗性能更優(yōu),表明二次預(yù)訓(xùn)練能夠從專業(yè)領(lǐng)域語料庫中學(xué)習(xí)到部分領(lǐng)域?qū)I(yè)知識和領(lǐng)域語言規(guī)律特性。另外,由于深度學(xué)習(xí)模型的性能與數(shù)據(jù)規(guī)模相關(guān)性強(qiáng),ChemBERT二次預(yù)訓(xùn)練用的領(lǐng)域語料僅選擇了20萬篇化學(xué)類科學(xué)文獻(xiàn),而SciBERT使用了114萬文獻(xiàn)進(jìn)行預(yù)訓(xùn)練,MatSciBERT是在SciBERT的基礎(chǔ)上使用15萬篇文獻(xiàn)再次訓(xùn)練。故本文推測數(shù)據(jù)量不足是導(dǎo)致ChemBERT表現(xiàn)欠佳的原因之一。
4.3.2 "高質(zhì)量知識補(bǔ)充方法的消融實驗
為了驗證高質(zhì)量知識補(bǔ)充方法的有效性,本節(jié)設(shè)置了6組實驗,如表6所示。表6列出了在表5中模型的基礎(chǔ)上增加高質(zhì)量知識補(bǔ)充方法后,各模型在段落文本分類任務(wù)上的表現(xiàn)??梢钥闯?,通過增加高質(zhì)量知識補(bǔ)充方法,能夠有效提升各語言模型在下游分類任務(wù)上的性能表現(xiàn)。
結(jié)合表5與表6的結(jié)果可知,同原模型相比,增加高質(zhì)量知識補(bǔ)充方法后的模型性能表現(xiàn)有明顯提升。模型BERT+HQ_know較于BERT模型的Macro?F1分?jǐn)?shù)和Macro_R別提高了1.4%和1.3%,模型Sentence?BERT+HQ_know較于Sentence?BERT模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了1.5%和2.3%,模型SciBERT+HQ_know相較于SciBERT模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了0.9%和1.3%,模型ChemBERT+HQ_know相比ChemBERT模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了1%和2.3%,模型MatSciBERT+HQ_know相比MatSciBERT模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了0.7%和0.8%,模型DeBERT?v3+HQ_know相比DeBERTa?v3模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了0.7%和1.1%,表明本文提出的高質(zhì)量知識補(bǔ)充方法幫助模型學(xué)習(xí)到了長文本中關(guān)鍵的知識。同時在實驗過程中,本文注意到增加高質(zhì)量知識補(bǔ)充方法的模型在訓(xùn)練時達(dá)到收斂所需迭代次數(shù)遠(yuǎn)小于未增加的高質(zhì)量知識補(bǔ)充方法的模型,表明該方法可以在一定程度上提高模型訓(xùn)練效率。
4.3.3 "聚類引導(dǎo)機(jī)制的消融實驗
為了驗證聚類引導(dǎo)機(jī)制的有效性,選取性能表現(xiàn)較好的預(yù)訓(xùn)練語言模型MatSciBERT和SciBERT作為編碼器進(jìn)行實驗。消融實驗結(jié)果如表7所示,其中Cluster表示在預(yù)訓(xùn)練語言模型的基礎(chǔ)上,加入一個無監(jiān)督聚類任務(wù)引導(dǎo)模型自適應(yīng)選擇分類方案。與沒有聚類引導(dǎo)機(jī)制的系統(tǒng)對比,通過新增一個無監(jiān)督聚類層可以提高模型性能,如“SciBERT+Cluster”和“MatSciBERT+Cluster”的Macro?F1分?jǐn)?shù)分別增加了0.6%和0.3%,這表明聚類引導(dǎo)機(jī)制可以提高后續(xù)分類模型對困惑樣本的識別能力。另外,在增加高質(zhì)量知識補(bǔ)充方法和聚類引導(dǎo)分類機(jī)制后,“SciBERT+HQ_know+Cluster”和“MatSciBERT+HQ_know+Cluster”系統(tǒng)Macro?F1性能指標(biāo)均較原系統(tǒng)提升了1.9%,整個分類系統(tǒng)的性能得到了顯著增強(qiáng)。
總的來說,在現(xiàn)有高質(zhì)量有監(jiān)督數(shù)據(jù)集稀缺以及算力受限的情況下,利用高價值的外部知識進(jìn)行有效的表征增強(qiáng)或深入挖掘數(shù)據(jù)內(nèi)部隱藏模式,是提升模型在下游目標(biāo)任務(wù)表現(xiàn)最具性價比的方法。
5 "結(jié) "語
現(xiàn)有對文獻(xiàn)文本處理任務(wù)的研究大都集中在增加模型復(fù)雜度和收集更多的領(lǐng)域語料進(jìn)行二次預(yù)訓(xùn)練,并沒有很好地利用到科學(xué)文獻(xiàn)的特性來獲取其上下文之間的聯(lián)系。針對該問題,本文首次提出一個高質(zhì)量知識補(bǔ)充方法,將文獻(xiàn)上下文中特定的關(guān)鍵內(nèi)容作為高質(zhì)量知識與當(dāng)前段落相融合,增強(qiáng)段落語義的信息表征,提升了后續(xù)段落文本分類任務(wù)的性能表現(xiàn)。同時,本文提出一種基于聚類引導(dǎo)的自適應(yīng)文本分類框架,該模型融合聚類和分類算法來實現(xiàn)一個高性能分類系統(tǒng),進(jìn)一步改善了模型性能。實驗結(jié)果表明,本文方法在沒有過度增大模型參數(shù)量和二次預(yù)訓(xùn)練的場景下,充分挖掘外部知識和數(shù)據(jù)內(nèi)部隱藏模式,顯著地提高了系統(tǒng)性能和訓(xùn)練效率,具有很好的實用價值。
在未來的工作中,將嘗試把本文方法與大語言模型相結(jié)合,為模型在預(yù)訓(xùn)練或微調(diào)階段創(chuàng)建高質(zhì)量的數(shù)據(jù),同時將這種高質(zhì)量知識補(bǔ)充方法從單模態(tài)數(shù)據(jù)推廣至多模態(tài)數(shù)據(jù),并探究用算法自動引導(dǎo)模型訓(xùn)練時將更多注意力放在被筆者突出顯示的高質(zhì)量知識處。
注:本文通訊作者為王卓。
參考文獻(xiàn)
[1] PEERA S G, BALAMURUGAN J, KIM N H, et al. Sustainable synthesis of Co@ NC core shell nanostructures from metal organic frameworks via mechanochemical coordination self?assembly: an efficient electrocatalyst for oxygen reduction reaction [J]. Small, 2018, 14(19): e1800441.
[2] LIANG Z, QU C, GUO W, et al. Pristine metal?organic frameworks and their composites for energy storage and conversion [J]. Advanced materials, 2017, 30(37): e1702891.
[3] WU H B, LOU X W D. Metal?organic frameworks and their derived materials for electrochemical energy storage and conversion: promises and challenges [J]. Science advances, 2017, 3(12): 9252.
[4] LUO R, SUN L, XIA Y, et al. BioGPT: generative pre?trained transformer for biomedical text generation and mining [J]. Briefings in bioinformatics, 2022, 23(6): bbac409.
[5] CHOUDHARY K, KELLEY M L. ChemNLP: a natural language?processing?based library for materials chemistry text data [J]. The journal of physical chemistry c, 2023, 127(35): 17545?17555.
[6] TSHITOYAN V, DAGDELEN J, WESTON L, et al. Unsuper?vised word embeddings capture latent knowledge from materials science literature [J]. Nature, 2019, 571(7763): 95?98.
[7] LIU N F, LIN K, HEWITT J, et al. Lost in the middle: how language models use long contexts [J]. Transactions of the association for computational linguistics, 2024, 12: 157?173.
[8] MA X, GONG Y, HE P, et al. Query rewriting for retrieval?augmented large language models [EB/OL]. [2023?08?17]. http://www.paperreading.club/page?id=166132.
[9] CUI L, WU Y, LIU J, et al. Template?based named entity recognition using BART [C]// Findings of the Association for Computational Linguistics: ACL?IJCNLP 2021. [S.l.]: ACL, 2021: 1835?1845.
[10] KENTON J D M W C, TOUTANOVA L K. BERT: pre?training of deep bidirectional transformers for language understanding [C]// Proceedings of 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, USA, HLT: 2019: 4171?4186.
[11] REIMERS N, GUREVYCH I. Sentence?BERT: sentence em?beddings using Siamese BERT?networks [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: ACM, 2019: 3982?3992.
[12] HE P, LIU X, GAO J, et al. DEBERTA: decoding?enhanced BERT with disentangled attention [EB/OL]. [2023?12?07]. https://www.xueshufan.com/publication/3122890974.
[13] BELTAGY I, LO K, COHAN A. SciBERT: a pretrained language model for scientific text [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: ACM, 2019: 3615?3620.
[14] GUPTA T, ZAKI M, KRISHNAN N M. MatSciBERT: a materials domain language model for text mining and information extraction [J]. NPJ computational mathematics, 2022, 8: 102.
[15] GUO J, IBANEZ?LOPEZ A S, GAO H, et al. Automated chemical reaction extraction from scientific literature [J]. Journal of chemical information and modeling, 2022, 62(9): 2035?2045.
[16] SUN C, QIU X, XU Y, et al. How to fine?tune BERT for text classification? [C]// China National Conference on Chinese Computational Linguistics. Cham: Springer, 2019: 194?206.
[17] YU S, SU J, LUO D. Improving BERT?based text classifi?cation with auxiliary sentence and domain knowledge [J]. IEEE access, 2019, 7: 176600?176612.
[18] ZHAO J H, MENG Z Y, GORDEEV S, et al. Key information retrieval to classify the unstructured data content of preferential trade agreements [J]. Computer science bibliography, 2024(2): 12520.
[19] MOGHADAM P Z, LI A, WIGGIN S B, et al. Development of a cambridge structural database subset: a collection of metal?organic frameworks for past, present, and future [J]. Chemistry of materials, 2017, 29(7): 2618?2625.
[20] JOHNSON R, ZHANG T. Deep pyramid convolutional neural networks for text categorization [EB/OL]. [2024?01?11]. https://aclanthology.org/P17?1052.pdf.
[21] LAI S, XU L, LIU K, et al. Recurrent convolutional neural networks for text classification [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Austin, Texas: AAAI, 2015: 2263?2273.
[22] KIM Y. Convolutional neural networks for sentence classifi?cation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: ACL, 2014: 1181.