石 磊,李敬明,朱家明
(安徽財經(jīng)大學)
爆發(fā)于2019 年的新冠疫情是人類歷史上最大規(guī)模的突發(fā)公共衛(wèi)生事件,對人類社會的經(jīng)濟、政治造成了深遠的影響,而且至今沒有得到控制.黨的十九屆五中全會提出,要完善突發(fā)公共衛(wèi)生事件監(jiān)測預警機制,提高應對突發(fā)公共衛(wèi)生事件的能力.事件抽取是自然語言處理領域的研究熱點之一,其任務是從非結構化的事件文本中自動抽取出結構化的事件信息[1].在包含突發(fā)公共衛(wèi)生事件的新聞、微博等自然語言文本中,由于存在復雜的語法、句法甚至網(wǎng)絡用語等情況,難以直接對文本中的事件進行識別和分析.突發(fā)公共衛(wèi)生事件抽取,是借助事件抽取技術從原本非結構化的突發(fā)公共衛(wèi)生事件相關的文本中,識別事件類型、抽取事件要素,為分析和決策工作提供結構化信息,對突發(fā)公共衛(wèi)生事件的檢測、預警、統(tǒng)計等方面有著重要意義.目前,針對突發(fā)公共衛(wèi)生事件抽取的研究成果較少,存在的主要問題是缺乏事件定義標準,以及抽取方法落后,導致抽取效果不理想.對此,需要先定義突發(fā)公共衛(wèi)生事件的類型和結構,在此基礎上提出基于BERT-BiLSTM-CRF 的管道式事件抽取模型,并構建語料對模型進行驗證.
事件的定義是事件抽取任務的基礎,它可以提供結構化的事件框架,從而為事件抽取模型的設計和訓練提供標準[2]. ACE2005(Automatic Content Extraction,自動內容抽取會議)定義了8 種事件類型和33 種子類型,是事件抽取研究的通用標準[3].但ACE2005 所定義的事件類型中沒有包含突發(fā)公共衛(wèi)生相關事件,不適合該領域的研究.由于事件類型和領域知識關系密切,因此有必要對突發(fā)公共衛(wèi)生事件及其結構做出定義.根據(jù)中國《突發(fā)公共衛(wèi)生事件應急條例》第二條的定義,突發(fā)公共衛(wèi)生事件包括重大傳染病疫情、群體性不明原因疾病、重大食物和職業(yè)中毒以及其他嚴重影響公眾健康的事件[4].基于上述定義以及2020 年的新冠疫情,在參考ACE2005標準和相關研究的基礎上,可以定義出突發(fā)公共衛(wèi)生事件的8 種子事件類型,以及每種子事件的論元結構,見表1.
表1 突發(fā)公共衛(wèi)生子事件類型及論元結構
從表1 可以看出,主體、客體、時間和地點是一般事件的基本論元,對于特殊事件則在此基礎上做出調整.在感染、中毒和傳播事件中,主體一般指人,客體一般指病毒、細菌、化學物質等;在檢測、隔離、診治和措施事件中,主體和客體分別指“實施者”和“實施對象”;在檢測和診治事件中,為了更加清晰地描述事件,增加了“結果”論元;在隔離和措施事件增加了“原因”論元.和ACE2005定義的死亡事件不同,突發(fā)公共衛(wèi)生領域的死亡事件一般是由疾病或生化危害所致,這里用“原因”取代客體會更加合理.
基于上述事件定義,事件抽取模型將先對事件文本進行分類,再基于分類結果標注出觸發(fā)詞和論元,最后識別論元類型并填入到以觸發(fā)詞為核心的插槽(slot)中,從而完成事件的結構化抽取.值得注意的是,一個事件中未必會出現(xiàn)所有事件要素,因此模型也不必抽取所有論元.
在移動互聯(lián)網(wǎng)時代,由于微博的長度限制和高時效性特點,適合用作輿情分析等文本挖掘任務的語料,因此同樣適用于構建突發(fā)公共衛(wèi)生事件抽取的語料集.實驗語料主要采集自新浪微博,采集范圍限定為2020 年至今的傳染病、中毒等相關話題.觀察發(fā)現(xiàn),實驗語料的平均長度小于100 字符(新浪微博的長度限制為140 字符),結構以單句為主,且每條語料的事件主題單一.為簡化問題,將每條語料作為單句處理,且僅考慮主要事件.因此將所有事件語料定義為單句、單個觸發(fā)詞、唯一事件類型.根據(jù)語料定義和模型要求對采集到的語料進行篩選和清洗,最后得到包含2000 條語料的實驗語料集.
事件抽取模型屬于監(jiān)督學習范疇,因此必須人工標注訓練語料.事件語料的標注采用BIO方法[5].由于中文BERT模型是以字符作為輸入數(shù)據(jù)的基本元素,因此事件語料在標注時也以字符作為基本單位.B-X 表示該字符所在片段屬于X類型并且該字符位于此片段的開頭;I-X 表示該字符所在片段屬于X 類型并且該字符位于此片段的中間;O 表示該字符不屬于任何類型.例如,用B-Trigger和I-Trigger分別標注“觸發(fā)詞”的開頭和中間字符,用B-Subject和I-Subject分別標注“客體”的開頭和中間字符.另外,每條語料的事件類型為9 種類型(8 種子事件類型+未知類型)之一,標注在語料首部.示例語料標注如圖1 所示.
圖1 突發(fā)公共衛(wèi)生事件語料標注示例
從理論上說,事件抽取任務包含4 個子任務:觸發(fā)詞識別、事件類型分類、論元識別和角色分類[5].事件抽取的多任務特性決定了模型在結構上可以是管道方式(pipeline)或聯(lián)合方式(joint).管道方式為每個子任務設計獨立的模型,模型間通過輸入輸出關系連接起來;聯(lián)合方式則是設計1 個模型,同時服務于多個子任務.一般認為,管道方式存在誤差傳播問題,而聯(lián)合方式可以促進子任務之間的交互.然而陳丹琦等[6]在關系抽取任務中使用管道模型,超越了之前所有的聯(lián)合模型,說明適合的管道設計在特定任務上是有優(yōu)勢的.受此啟發(fā),事件抽取模型在預訓練語言模型BERT的基礎上分為3 個部分:事件分類模型、觸發(fā)詞及論元標注模型以及論元角色分類模型,并通過管道方式連接,模型結構如圖2 所示.
圖2 基于BERT-BiLSTM-CRF的突發(fā)公共衛(wèi)生事件抽取模型結構圖
BERT是Devlin等[7]于2018 年提出的基于Transformer[8]的預訓練語言模型,在序列標注等11 項自然語言處理任務中取得了當時的最佳成績.選擇BERT作為該研究的基礎模型主要出于以下兩方面的考慮:一是BERT的核心,即Transformer編碼器,由多頭自注意力模塊、前饋神經(jīng)網(wǎng)絡模塊、位置編碼、求和與歸一化、殘差連接,5 個模塊組成,多項研究表明Transformer 編碼器提取文本特征的能力優(yōu)于LSTM 或CNN 編碼器;二是BERT 所集成的兩種預訓練任務,MLM(Masked Language Model,掩碼語言模型)和NSP(Next Sentence Prediction,下一句預測),使得BERT成為高效的遷移學習模型,經(jīng)過任務微調后適用于句對關系判斷、單句分類、問答、序列標注等任務,即使新任務的訓練數(shù)據(jù)集較小,基于預訓練結果,也能產(chǎn)生不錯的效果.
首先將事件文本分割后得到的字符序列{[CLS],Tok1,Tok2,…,TokN}輸入BERT 模型,其中[CLS]是文本分類標識;經(jīng)位置嵌入后到字符向量序列{E[CLS],E1,E2,…,EN};再經(jīng)過BERT內部的Transformer 編碼后得到文本的語義向量C和元素序列{T1,T2,…,TN}.
事件分類模型本質上要解決的是文本多分類問題,即將文本的語義向量C 經(jīng)softmax 輸出為9 種類型(8 種子事件類型+未知類型)之一,其條件概率如公式(1)所示:
其中K表示類別數(shù)量,pk表示樣本屬于類別k的概率,yk表示模型的預測結果,若預測出的類別和事件標注相同,則yk=1,否則yk=0.
觸發(fā)詞及論元標注模型要解決的是一個標準的序列標注問題,目的是識別出觸發(fā)詞和所有可能的論元.由于CRF能夠通過考慮相鄰標簽的關系獲得一個全局最優(yōu)的標簽序列,因此模型在BERT的基礎上添加BiLSTM-CRF 輸出層[9].先將元素序列{T1,T2,…,TN}輸入到BiLSTM網(wǎng)絡中,得到隱層序列{h1,h2,…,hN},如公式(3)所示;再經(jīng)線性變換后輸入到CRF中進行標注,見公式(4)(5).
其中Pi,yi為第i個位置網(wǎng)絡結構的預測輸出為yi的概率,即為初始分數(shù);Ayi,yi+1為從yi到y(tǒng)i+1的轉移概率,即為轉換分數(shù);選擇最大概率序列y*作為輸出.
由于先前假設單一事件文本僅包含單一事件和單一觸發(fā)詞,觸發(fā)詞及論元標注模型可以識別出唯一觸發(fā)詞,但無法確定標注出的論元是否和觸發(fā)詞相關,因此需要進一步解決論元識別問題.論元識別模型是在已知觸發(fā)詞的基礎上,識別出所有和觸發(fā)詞相關的論元,因此可以將該任務看作是句對(詞對)關系判斷問題,即每個論元和觸發(fā)詞相關與否.利用BERT的任務微調特性,將觸發(fā)詞和標注后的事件文本連接后同時輸入模型,中間用[SEP]分隔;經(jīng)過BERT編碼后,用softmax輸出每個論元的起始位置的分類結果,其條件概率如公式(6)所示,損失函數(shù)如公式(7)所示.識別完成后,將論元填入以觸發(fā)詞為中心的槽中,從而完成事件的結構化抽取.
實驗數(shù)據(jù)是標注后的語料集,包含2000 條語料.將數(shù)據(jù)集按9 ∶1 劃分為訓練集和測試集,即訓練集1800 條,測試集200 條.
實驗環(huán)境基于Tensorflow框架搭建,考慮到實驗的數(shù)據(jù)量不大,選擇谷歌的BERT-Base-Chinese作為基礎模型,因為相較于Large 版本,Base版本的調試效率更高.經(jīng)過大量實驗,不斷調整和優(yōu)化參數(shù),最終選取了實驗結果最好的參數(shù)設置,具體參數(shù)見表2.
表2 實驗參數(shù)設置
為驗證模型的有效性,設計了4 組對比實驗.包括經(jīng)典的BiLSTM-CRF模型,引入注意力機制的BiLSTM-Attention-CRF模型,以及該文提出的BERT-CRF和BERT-BiLSTM-CRF模型.
實驗采用精確率(P)、召回率(R)和F1值作為模型的評價指標,各指標的計算公式如(8)~(10)所示:
其中TP代表預測正確的正例數(shù)目,F(xiàn)P代表預測錯誤的負例數(shù)目,F(xiàn)N代表預測錯誤的正例數(shù)目.
根據(jù)表3所示的對比實驗結果,發(fā)現(xiàn)引入了注意力機制的BiLSTM-Attention-CRF模型優(yōu)于BiLSTM-CRF模型,因為注意力機制可以幫助模型找出事件文本中和當前預測最相關的部分,忽略其他部分,從而緩解BiLSTM的長距離依賴問題.基于BERT的BERT-CRF 和BERT-BiLSTM-CRF模型,在沒有引入注意力機制的情況下仍然獲得最優(yōu)表現(xiàn),可能的原因是BERT本身就是多頭自注意力(Multi-Head Self-Attention)網(wǎng)絡,自注意力機制具備事件文本內部元素之間關系的建模能力,可以幫助模型更好地利用上下文語義信息[10].值得注意的是引入BiLSTM的BERT-BiLSTM-CRF模型僅以略微優(yōu)勢領先BERT-CRF模型,可見BiLSTM的作用不明顯,略微的差距可以通過BERT模型可微調的特性來彌補,從而可以進一步證明BERT模型的先進性和對事件抽取任務的適用性.
表3 對比實驗結果
基于BERT-BiLSTM-CRF 的突發(fā)公共衛(wèi)生事件抽取模型,以管道方式連接事件分類、觸發(fā)詞識別和論元角色分類,完成了事件的結構化抽取.該模型結構清晰,可解釋性強,充分發(fā)揮了BERT模型的特點.對比實驗的結果證明了該模型的可行性以及相對其他模型的優(yōu)勢.模型的不足之處在于管道連接方式不可避免地會加大誤差累積.后續(xù)將聚焦于聯(lián)合抽取模型的研究,以期進一步提升事件抽取效果.