基于改進SimBERT的藏醫(yī)藥專利文本分類模型研究

2024-01-03 06:05:22羅麗錦陳頌斌

西北民族大學學報(自然科學版) 2023年4期

羅麗錦,高屹,2,陳頌斌,樊淼

(1.西藏民族大學,陜西咸陽 712082;2.西藏光信息處理與可視化技術(shù)重點實驗室,陜西咸陽 712082)

0 引言

大數(shù)據(jù)技術(shù)創(chuàng)新的不斷提升以及我國對知識產(chǎn)權(quán)意識的不斷加強,為文本分類帶來了很多便利條件,但文本分類仍然面臨著以下挑戰(zhàn):①具有高質(zhì)量核心技術(shù)的知識產(chǎn)權(quán)數(shù)量沒有隨著知識產(chǎn)權(quán)數(shù)量的增加而增加;②目前沒有按知識產(chǎn)權(quán)重要程度的權(quán)重對有限的資源進行分配;③研發(fā)創(chuàng)新大多圍繞學術(shù)研究和研究項目展開,導致知識產(chǎn)權(quán)容易與市場需求脫節(jié),產(chǎn)業(yè)轉(zhuǎn)型效率低下[1].

2023年4月26日,國家主席習近平在主題為“加強知識產(chǎn)權(quán)法治保障有力支持全面創(chuàng)新”中指出,中國始終高度重視知識產(chǎn)權(quán)保護,愿進一步深化同世界知識產(chǎn)權(quán)組織的友好合作[2].有效應對專利文本分類效率,能夠保護知識產(chǎn)權(quán).需求者可通過文本分類技術(shù)快速匹配到相似專利,這樣既能減少需求者在大量專利數(shù)據(jù)上的檢索時間,又能有效預防知識產(chǎn)權(quán)重復,從而達到避免侵犯知識產(chǎn)權(quán)的效果.

IPC是國際通用的專利管理系統(tǒng),它主要對單一的技術(shù)主題進行分類,所以IPC存在無法直接反映某一技術(shù)領(lǐng)域的發(fā)展趨勢、狀況以及某些細分領(lǐng)域的分析不夠細致等缺陷[3].引入深度學習技術(shù)能夠有效提升文本分類效率,減少傳統(tǒng)分類帶來的錯誤率,對專利文本自動分類具有重要意義.

本文研究的核心點是基于SimBERT進行改良的文本分類模型.SimBERT是由Google提出的對BERT模型進行改進之后的模型,它主要用于提升中文文本分類和匹配任務的性能.由于SimBERT擁有Transformer的編碼器結(jié)構(gòu),所以它能夠充分理解文本的上下文語義.SimBERT采用預訓練加微調(diào)的方式進行模型訓練,增強了中文文本分類和匹配任務的效果.SimBERT模型可以通過增加層級或擴增預訓練數(shù)據(jù)來進一步提高分類性能.

1 國內(nèi)外研究現(xiàn)狀

文本分類是人工智能領(lǐng)域重要的任務之一,它隨著人工智能領(lǐng)域相關(guān)技術(shù)的快速發(fā)展而發(fā)展,通過融入機器學習和監(jiān)督學習等新方法,來提高文本分類的創(chuàng)新力和效率.這些新方法也能應用在專利文本分類領(lǐng)域,為專利的審閱、檢索和數(shù)據(jù)分析等提供技術(shù)支持.

國內(nèi)的專利文本分類研究現(xiàn)狀大致分為兩種,即中國國家知識產(chǎn)權(quán)局在文本分類領(lǐng)域里的研究、國內(nèi)高校和研究機構(gòu)在該方面的研究.美國是專利領(lǐng)域的主要創(chuàng)新來源者,它的大多數(shù)公司和專利機構(gòu)通過機器學習和自然語言處理等方法來處理專利文本分類.歐洲等國家也有大量研究人員對該領(lǐng)域進行了研究,并取得顯著成果.

梅俠峰等提出將RoBERTa和多尺度語義協(xié)同融合在一起的專利文本分類模型,該模型在部級上的準確率達到了88.9%,在大類級別上該模型達到了82.6%的準確率[4].慎金花等人將平面模型與層次模型做對比,得出在大類層次上Rocchio模型分類效果最好,準確率為96.3%,在小類層次上,層次KNN模型的分類效果最好,準確率為95.59%;在大組層次上層次支持向量機和層次KNN模型的分類效果最好,準確率為93.8%[5].楊超宇等人對SVM進行改進,提出的TF-IDF-LDA-SVM模型的準確率為98.51%[6].劉燕提出了BERT-BIGRU中文專利文本分類模型,對8類專利文本進行分類,其準確率達到了85.44%[7].余本功等人應用兩種特征通道訓練WPOS-GRU模型,其準確率達到了97.4%[8].Ran Li等人結(jié)合詞匯網(wǎng)絡方法的BERT、詞匯網(wǎng)絡方法結(jié)合CNN和LSTM進行對比實驗,得出詞匯特征提取方法能夠提升模型訓練的收斂速度,其準確率為82.73%[9].Milan Miric等人應用監(jiān)督的ML方法將文本數(shù)據(jù)自動分類到已定義好的類別或組中,并以ML方法在AI專利上的應用為例,將該方法與其他分類方法模型做對比,其準確率最高為96%[10].

2 相關(guān)技術(shù)

2.1 SimBERT

SimBERT是基于檢索、生成于一體的預訓練語言模型.采用BERT結(jié)構(gòu),并利用大規(guī)模語料庫進行預訓練,是為NLP任務提供更加準確和有效的文本表示.與傳統(tǒng)的詞向量(如one-hot)相比,SimBERT能夠結(jié)合上下文語義信息,對文本的理解會更加準確,也能通過已知的知識來判斷輸入文本之間的相似性,提高了預測速度并且準確度高[11].與BERT模型相比,SimBERT在中文文本分類任務中能提供更好的性能.與ALBERT相比,SimBERT參數(shù)更少,模型更輕量化,可提供更準確的中文文本表示,也具備詞匯級別的語義理解能力.

2.1.1 預訓練模型的訓練方式

在了解SimBERT之前,先了解一下預訓練模型的三種訓練方式.第一種是輸入模型時隨機mask一個或多個token,再通過上下文信息來預測這個被mask的token,它在做自然語言理解(NLU)任務時效果更好,但在生成式問題上效果較差.第二種是通過前面或后面出現(xiàn)的所有token來預測當前要預測的token,它在做生成類任務時效果更好,但該方法不能用上下文信息來做預測.第三種是通過編碼解碼操作將輸入的句子轉(zhuǎn)化成文本序列.

2.1.2 UniLM

UniLM是一種用于解決NLP任務的統(tǒng)一語言模型,對于上文提到的預訓練模型的三種訓練方式,UniLM都適用,它的目的是通過統(tǒng)一的語言模型來訓練不同架構(gòu)任務,其核心是通過特殊的注意力掩碼使模型擁有序列到序列模型的能力.它通過在句子的開頭添加[SOS],在句子的結(jié)尾添加[EOS]符號來得到句子的特征向量.比如輸入這樣一個文本“去哪個城市”,回答的句子是“咸陽”,我們稱之為目標句子.UniLM把這兩個句子拼接成序列“[CLS]去哪個城市[SEP]咸陽[SEP]”,它的注意力掩碼為圖1所示.

圖1 UniLM注意力掩碼圖圖2 Sep2Sep模型

輸入的序列“[CLS]去哪個城市”是雙向的Attention,輸出的序列“咸陽[SEP]”是單向的Attention,它支持遞歸的預測序列“咸陽[SEP]”,因此它擁有文本生成的能力,即Seq2Seq能力,其模型如圖2所示.

由于UniLM擁有特別的注意力掩碼,使得“[CLS]去哪個城市[SEP]”這個序列只在彼此之間互相Attention,和序列“咸陽[SEP]”沒有任何關(guān)系,即無論序列“[CLS]去哪個城市[SEP]”后面是否拼接了序列“咸陽[SEP]”都不會影響到前面7個token.總之,在向UniLM輸入內(nèi)容的時候會隨機mask部分token,這樣輸入部分就可用于MLM任務,增強了NLU能力,輸出部分就可以用于Seq2Seq任務,增強了NLG能力.

2.1.3 SimBERT

SimBERT運用有監(jiān)督訓練方法,可以通過收集到的中文相似句對做語義相似度計算任務,采用兩個BERT編碼器對兩個句子進行編碼表示,然后再運用漢明距離或余弦相似度等方法計算它們之間的相似度來得分,也能通過構(gòu)建Seq2Seq模型來進行相似句生成任務.其構(gòu)建方式可以分為編碼器和解碼器兩個部分.編碼器將輸入句子編碼為固定長度的向量表示,解碼器用該向量表示來生成和輸入句子相似的另一個句子.用輸入的句向量來訓練檢索任務,如圖3所示.比如“華山北峰海拔1 614米”和“華山高1 614米”是一組相似句對,在相同批次中,將“[CLS]華山北峰海拔1 614米[SEP]華山高1 614米”和“[CLS]華山高1 614米[SEP]華山北峰海拔1 614米”全部加入模型進行訓練,就能生成一個相似句.從數(shù)學角度來看,就是把所有批次內(nèi)輸入的句向量組成句向量矩陣C.矩陣C的形狀如下:(a,X,b)=(batch_size,sequence_length,hidden_size).對每個輸入的句向量,在b維度上進行L2歸一化,將歸一化后的[CLS]向量按照batch的維度進行堆疊,得到一個a*b的句向量矩陣C.通過點乘的方式計算句向量矩陣的相似度矩陣,得到一個a*C的相似度矩陣CC^T.將相似度矩陣乘以一個縮放系數(shù),然后對對角線進行掩碼處理,將其設(shè)為一個較大的負數(shù).最后對每一行進行softmax操作,得到一個分類任務的目標標簽.在訓練過程中,可以為每個樣本選擇一個相似的句子作為目標標簽,并根據(jù)目標標簽進行分類任務的訓練.

圖3 訓練檢索任務

2.2 通道注意力機制

通道注意力機制(Channel Attention Mechanism)是一種用于計算特征圖通道之間相關(guān)性的注意力機制,是在一個特征圖中,不同通道的響應對于不同任務會有不同的重要性.通道注意力機制通過計算每個通道的重要性,來讓模型更加關(guān)注那些重要的通道.這種方法能夠消除噪聲,增強特征表達,并提高模型的準確率和魯棒性.

其中,表示sigmoid的函數(shù)為W0∈RC/r×C,W1∈RC×C/r.需要注意,MLP的權(quán)重W0和W1為兩個輸入所共享,ReLU激活函數(shù)在W0之后.通過給每個通道都賦予不同的重要性,模型就能更加準確地對不同通道的特征進行處理,從而提高模型的性能.其結(jié)構(gòu)如圖4所示[12].

圖4 通道注意力機制

圖5 SimBERT-CAM-CL的模型結(jié)構(gòu)圖

2.3 卷積層

卷積層是深度學習中卷積神經(jīng)網(wǎng)絡的重要層類型,主要用于處理一個規(guī)則的二維或多維網(wǎng)格(或格子)上組織的數(shù)據(jù),比如地理信息系統(tǒng)中的柵格數(shù)據(jù)以及圖像數(shù)據(jù)等.卷積層的主要功能是運用一組可學習的濾波器(亦可稱為卷積核),對輸入的數(shù)據(jù)進行卷積操作,提取網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的局部信息[13].

2.4 SimBERT-CAM-CL的藏醫(yī)藥專利文本分類模型

SimBERT結(jié)合通道注意力機制和卷積神經(jīng)網(wǎng)絡層,可以在原有的模型基礎(chǔ)上進一步增強特征表達,提升模型性能.

融入通道注意力機制可以給不同通道進行重要性加權(quán),以提升模型對某些重要特征的關(guān)注度來達到優(yōu)化輸入embedding向量的效果.比如對數(shù)據(jù)集中“制劑”“五味子”等關(guān)鍵詞,采用通道注意力機制來提高它們對模型學習文本語義的影響力.

首先,將收集到的文本數(shù)據(jù)進行數(shù)據(jù)清洗和文本預處理等操作,然后將數(shù)據(jù)集劃分為測試集和訓練集,將訓練集數(shù)據(jù)送入SimBERT中進行編碼,得到768維的embedding向量為原始embedding向量.通過融入通道注意力機制給embedding向量賦予通道權(quán)重,得到通道權(quán)重向量(先將維度從768維降低到12維,即64倍降低,然后再將維度提升回768維).把每個通道的權(quán)重相乘,再將結(jié)果與原始的embedding向量相加,得到一個加權(quán)的embedding向量.然后,再將維度提升回768維,將優(yōu)化后的向量輸入到32×768×1的卷積神經(jīng)網(wǎng)絡層中,利用多個卷積核提取藏醫(yī)藥文本數(shù)據(jù)中摘要的特征信息,得到32×512×1的向量表示(kernel_size參數(shù)值設(shè)為3).接著,將卷積神經(jīng)網(wǎng)絡層的輸出結(jié)果進行Max pooling,將序列長度減少,得到一個固定維度為32×171×1的向量,然后把這個向量輸入到全連接層,最后傳遞到Softmax函數(shù),以IPC主分類號的“部”和“大類”為分類依據(jù),得到最終的分類結(jié)果.

3 實驗結(jié)果與分析

本實驗是在Windows11系統(tǒng)上完成的,GPU為GTX3090,處理器為Westmere E56xx/L56xx/X56xx,使用Python3.7.13的編程環(huán)境,并在Pytorch1.7.1深度學習框架上搭建模型.更多實驗環(huán)境如表1所示.

表1 實驗環(huán)境

為了對參數(shù)進行更新,利用Adam優(yōu)化器,定義了激活函數(shù)ReLU,用交叉熵損失函數(shù)來對模型進行訓練.實驗時選擇合適的初始學習率是訓練神經(jīng)網(wǎng)絡的重要因素之一.太小的學習率會導致模型收斂速度較慢,需要更多的迭代次數(shù)才能達到較好的性能;而太大的學習率可能導致模型在訓練過程中震蕩或發(fā)散.向量維度選擇768維,較高的維度雖然可能導致計算變得復雜,但也能使特征表達變得更加豐富,其詳細信息如表2所示.

表2 參數(shù)信息

為了模型訓練和評估,將預處理后的數(shù)據(jù)按照8∶2劃分成訓練集和測試集.這樣可以確保模型在訓練過程中學習到足夠的信息,并且在測試集上進行評估時能夠準確地反映出模型的性能.

由于藏醫(yī)藥專利數(shù)據(jù)集的缺失,本實驗采用自建數(shù)據(jù)集,而專利數(shù)據(jù)可以通過曾在歐洲專利局和知網(wǎng)中公開的數(shù)據(jù)進行收集得到,通過對關(guān)鍵字“藏醫(yī)”“藏藥”等的檢索進行搜集,確保了自建數(shù)據(jù)集的合理性和可靠性.通過Python爬蟲技術(shù)爬取歐洲專利局中與藏醫(yī)藥相關(guān)的專利數(shù)據(jù)5 621條,其中包含專利號、專利名稱、摘要、分類號和所屬部類5列字段數(shù)據(jù)[14].

由于此數(shù)據(jù)集為自行構(gòu)建,所以存在大量的數(shù)據(jù)清洗工作,如摘要的數(shù)據(jù)噪聲、所屬部類數(shù)據(jù)少于20條等.此處通過正則表達式、條件篩選等方法對數(shù)據(jù)進行清洗,以便提高特征提取部分的效率,將處理后的數(shù)據(jù)根據(jù)不同所屬部類進行隨機抽取,按照8∶2劃分訓練集4 389條數(shù)據(jù)和測試集1 103條數(shù)據(jù).本實驗將IPC分類法中的“部”和“大類”作為樣本的分類,樣本在IPC分類法中的類別分布情況如表3所示.

表3 專利數(shù)據(jù)詳情

表4 Confusion Matrix

3.1 實驗過程

將訓練集數(shù)據(jù)輸入到SimBERT預訓練的語言模型中進行編碼.這個過程將文本轉(zhuǎn)化為向量表示,得到原始embedding向量,這些原始嵌入向量包含了文本的語義信息.

為了進一步優(yōu)化這些嵌入向量,引入了通道注意力機制.這個機制為每個通道(或者說每個語義維度)賦予了權(quán)重,以反映其在分類任務中的重要性.把每個通道的權(quán)重相乘,再把結(jié)果與原始的嵌入向量相加,得到一個加權(quán)的嵌入向量.這個加權(quán)的嵌入向量在保留了原始語義信息的同時,更加關(guān)注與分類任務相關(guān)的特征.

接下來,將優(yōu)化后的向量輸入到卷積神經(jīng)網(wǎng)絡層中.卷積神經(jīng)網(wǎng)絡利用多個卷積核來提取藏醫(yī)藥文本數(shù)據(jù)中摘要的特征信息.每個卷積核都可以捕捉不同尺度和模式的特征,從而豐富了模型對文本的理解能力.

卷積神經(jīng)網(wǎng)絡層的輸出結(jié)果經(jīng)過Max pooling操作,將序列長度減少,得到一個固定維度的向量.這個向量包含了摘要中最重要的特征信息,為后續(xù)的分類任務提供了有用的輸入.

最后,將這個向量輸入到全連接層,并通過Softmax函數(shù)得到分類結(jié)果.全連接層進一步處理特征向量,把它映射到各個分類類別上,并輸出對應的概率分布.Softmax函數(shù)將這些概率進行歸一化,使其總和為1,從而得到最終的分類結(jié)果.

在訓練模型時,選擇Adam優(yōu)化器來對模型的訓練進行優(yōu)化.Adam優(yōu)化器結(jié)合了梯度的一階矩估計和二階矩估計,能夠自適應地調(diào)整學習率,提高了模型的訓練效果.為了衡量觀測值和預測值之間的差異,采用交叉熵損失函數(shù)作為模型的目標函數(shù).交叉熵損失函數(shù)在多分類問題中廣泛應用,能夠有效地衡量模型的預測準確度,并促使模型向更好的方向優(yōu)化.

在訓練過程中,采用批量梯度下降的方法進行參數(shù)更新.批量梯度下降將訓練集劃分為多個批次,每個批次包含多個樣本.通過計算每個批次的損失函數(shù)梯度,并根據(jù)該梯度對參數(shù)進行更新,這樣可以有效地優(yōu)化模型并提高訓練效率.

通過以上的步驟和方法,能夠?qū)Σ蒯t(yī)藥專利文本進行全面的處理和分析,從而可建立一個高效準確的分類模型.

3.2 實驗評價指標

在模型運行完或輸出后,要用評估指標對模型的效果進行評估.分類模型中有幾個常用的模型指標,分別是Recall、Precision、F1、ROC、AUC.Recall為召回率,Precision為精確率,F1為結(jié)合了召回和精確的調(diào)和平均,ROC代表整個分類模型的好壞,AUC為計算ROC下的面積.

根據(jù)表1,計算各指標的公式如下:

(2)

(3)

(4)

(5)

(6)

(7)

3.3 實驗結(jié)果對比分析

為驗證本文提出的SimBERT-CAM-CL模型的有效性,將此模型與其他文本分類模型進行對比,對藏醫(yī)藥專利的部和大類一起進行分類實驗.對比模型如下:

1) BERT:由多個Transformer編碼器層組成,其中Transformer是一種基于自注意力機制的神經(jīng)網(wǎng)絡架構(gòu).有12個編碼器層,每個編碼器層具有12個自注意力頭,隱藏層有768個隱藏單元.采用WordPiece嵌入將文本標記成小的詞塊(subwords),然后將這些詞塊嵌入到768維的向量表示中[15].

2) ALBERT:采用層級參數(shù)共享和參數(shù)分解的方法,它具有12個隱藏層,隱藏層有768個隱藏單元,具有12個自注意力頭.采用WordPiece嵌入將文本標記成小的詞塊(subwords),然后將這些詞塊嵌入到768維的向量表示中[16].

3) Chinese-Word-Vectors:用本文模型進行訓練,分詞工具使用Chinese-Word-Vectors,窗口大小設(shè)置為5的動態(tài)窗口,子采樣1e-5,低頻詞閾值為0,迭代次數(shù)為5[17].

4) SimBERT:采用原始SimBERT模型進行訓練,即BERT+UniLM+對比學習,將文本特征轉(zhuǎn)化為768維向量.

將本實驗處理好的數(shù)據(jù)集放入不同模型進行訓練,分別得到BERT(見圖6)、ALBERT(見圖7)、Chinese-Word-Vectors(見圖8)、SimBERT(見圖9)以及SimBERT-CAM-CL(見圖10)模型的準確率如表5所示.

表5 各模型準確率

圖6 BERT模型準確率圖7 ALBERT模型準確率

圖8 Chinese-Word-Vector模型準確率圖9 SimBERT模型準確率

圖10 SimBERT-CAM-CL模型準確率

通過上述參數(shù)對比可以看出,本文提出的SimBERT-CAM-CL模型比BERT、ALBERT、Chinese-Word-Vectors、SimBERT模型準確率在訓練集和測試集上都有提升,表明本文模型是有效的.

4 結(jié)論

實驗結(jié)果顯示,SimBERT-CAM-CL在準確率上取得了顯著提升.同時,該模型還能夠通過優(yōu)化模型結(jié)構(gòu)和參數(shù)設(shè)置,降低模型復雜度,但是,本實驗的數(shù)據(jù)集是專門針對藏醫(yī)藥領(lǐng)域的.由于這一特殊性,大部分數(shù)據(jù)集都被分類到部A中,因此實驗主要集中在大類別的分類任務上,這就限制了模型的廣泛適應性和泛化能力.

此外,由于藏醫(yī)藥專利研究相對較少,本實驗只能獲取到5 000多條相關(guān)數(shù)據(jù),相較于其他研究運用的數(shù)據(jù)量可能超過上萬條的情況,本實驗結(jié)果可能存在一定的局限性.為了增加數(shù)據(jù)集的豐富性和實驗的可靠性,未來的研究可以在學術(shù)論文、專利文件、公開數(shù)據(jù)庫等平臺上尋找和收集更多與藏醫(yī)藥相關(guān)的數(shù)據(jù).這將有助于擴大數(shù)據(jù)的規(guī)模和多樣性,提高實驗結(jié)果的泛化能力.