劉海順,王 雷,孫媛媛,陳彥光, 張書晨,林鴻飛
(1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2. 遼寧省人民檢察院 第三檢察部,遼寧 沈陽(yáng) 110033)
2018年,司法部印發(fā)《“十三五”全國(guó)司法行政信息化發(fā)展規(guī)劃》,明確提出我國(guó)到2020年全面建成智能高效的司法行政信息化體系3.0版,將大數(shù)據(jù)、人工智能、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)與司法工作進(jìn)行實(shí)際融合,實(shí)現(xiàn)公共法律服務(wù)的便捷普惠化,實(shí)現(xiàn)政務(wù)管理水平的高效透明化。隨著我國(guó)司法行政信息化的不斷推進(jìn),智慧司法研究領(lǐng)域興起并日趨火熱。智慧司法包括法律閱讀理解、案件要素識(shí)別、相似案例匹配和司法判決預(yù)測(cè)等任務(wù),旨在賦予機(jī)器理解法律文本的能力,促進(jìn)司法智能的發(fā)展。其中,案件要素識(shí)別的具體研究?jī)?nèi)容為,給定裁判文書中的相關(guān)段落,針對(duì)文書中每個(gè)句子進(jìn)行判斷,識(shí)別其中的關(guān)鍵案情要素。案件要素抽取的結(jié)果不僅可以為要素式裁判提供技術(shù)支持,還可以應(yīng)用到案情摘要、可解釋性的類案推送及相關(guān)知識(shí)推薦等司法領(lǐng)域的實(shí)際業(yè)務(wù)需求中。
前期研究在司法智能領(lǐng)域的研究工作主要集中在司法判決預(yù)測(cè)[1-3]、相似案例匹配和命名實(shí)體識(shí)別[4-5]等方面,直接針對(duì)案件要素識(shí)別的研究還相對(duì)較少,但它們?cè)诩夹g(shù)上具有共通性。與通用領(lǐng)域的自然語(yǔ)言處理(NLP)任務(wù)[6-7]類似,當(dāng)前研究者們?cè)谥腔鬯痉I(lǐng)域采用的方法多是基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。具體而言,網(wǎng)絡(luò)底層使用預(yù)訓(xùn)練的詞向量進(jìn)行詞嵌入,中層采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)或者循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)提取特征,上層應(yīng)用分類器進(jìn)行分類或應(yīng)用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)進(jìn)行序列標(biāo)注。這種結(jié)構(gòu)存在一定的缺點(diǎn),一是使用的靜態(tài)詞向量無(wú)法處理不同語(yǔ)境下的一詞多義問題[8],二是有監(jiān)督方法的本質(zhì)致使模型性能受限于標(biāo)注數(shù)據(jù)集的大小。
不同于一般的多分類問題,案件要素識(shí)別是多標(biāo)簽分類問題,即一個(gè)樣本可能同時(shí)屬于0到N個(gè)類別。經(jīng)統(tǒng)計(jì)分析,不計(jì)算負(fù)例,每個(gè)樣本平均包含2.7個(gè)標(biāo)簽,最多可達(dá)7個(gè),而且多個(gè)類別之間往往具有關(guān)聯(lián)性。如圖1所示,在離婚類案件中,若一個(gè)樣本屬于“限制行為能力撫養(yǎng)子女”類,那么該樣本有較大概率同時(shí)屬于“婚后有子女”類;在借貸類案件中,“有借貸證明”類多與“有書面還款協(xié)議”類一起出現(xiàn)。解決多標(biāo)簽分類問題的主流方法是將其處理為多個(gè)二分類問題[9],通過(guò)設(shè)定閾值判斷樣本是否屬于每個(gè)類。但是這種方法明顯忽略了標(biāo)簽之間的相關(guān)性,性能有限。
針對(duì)上述問題,本文專門就案件要素識(shí)別任務(wù)進(jìn)行了研究,提出了基于預(yù)訓(xùn)練語(yǔ)言模型的案件要素多標(biāo)簽分類方法。預(yù)訓(xùn)練語(yǔ)言模型支持上下文有關(guān)的詞嵌入,可以從龐大的無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)豐富的語(yǔ)法、語(yǔ)義等特征表示,捕獲更長(zhǎng)距離的依賴。BERT[10]是預(yù)訓(xùn)練語(yǔ)言模型的一個(gè)基礎(chǔ)模型,于公布之初就被應(yīng)用于11項(xiàng)NLP任務(wù)中。結(jié)合Yang等[11]的工作,本文將BERT系列語(yǔ)言模型作為案件要素識(shí)別整體模型的編碼器,且提出了Layer-attentive多層特征的融合策略,將長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)作為解碼器,并對(duì)比了與基于閾值算法的多標(biāo)簽分類的性能差異。最后,在公開的CAIL2019“要素識(shí)別”數(shù)據(jù)集上驗(yàn)證了模型的性能。
智慧司法研究由來(lái)已久。早在20世紀(jì)五六十年代,研究者就開始通過(guò)數(shù)學(xué)統(tǒng)計(jì)的方法對(duì)司法案件進(jìn)行定量分析[12-13],隨后在八九十年代,研究者們探索了基于規(guī)則的專家系統(tǒng)[14-15]。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,司法判決預(yù)測(cè)作為智慧司法研究的主要任務(wù)而備受關(guān)注,基于支持向量機(jī)(Support Vector Machine, SVM)的預(yù)測(cè)模型被提出來(lái),預(yù)測(cè)對(duì)象包括罪名、案件類別和裁判日期等[16-17]。近年來(lái),隨著司法數(shù)據(jù)的公開和深度學(xué)習(xí)的發(fā)展,我國(guó)在司法判決預(yù)測(cè)方面出現(xiàn)了許多令人矚目的成果。Luo等[1]通過(guò)雙向門控神經(jīng)單元(Bi-directional Gate Recurrent Unit, BiGRU)建模判決書文檔及法條信息以進(jìn)行罪名預(yù)測(cè),CAIL2018[18]提出了第一個(gè)用于司法判決預(yù)測(cè)的大規(guī)模中文法律數(shù)據(jù)集,Zhong等[2]以CNN和LSTM為基礎(chǔ)構(gòu)建了同時(shí)預(yù)測(cè)罪名、法條和刑期的多任務(wù)學(xué)習(xí)模型,Hu等[3]通過(guò)引入司法屬性研究了少數(shù)罪名的預(yù)測(cè)問題。案件要素識(shí)別是司法智能領(lǐng)域的新興任務(wù),現(xiàn)階段主要被當(dāng)作文本分類問題進(jìn)行處理,在技術(shù)上與司法判決預(yù)測(cè)最接近。
作為案件要素識(shí)別核心技術(shù)的文本分類,近幾年來(lái),主流方法逐步從詞向量加神經(jīng)網(wǎng)絡(luò)向語(yǔ)言模型轉(zhuǎn)變。2013年開始,Word2Vec[19]以網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、易于理解、使用方便等特征成為最流行的詞向量訓(xùn)練工具之一。隨后,Kim[6]結(jié)合詞向量提出了多維度并行的單層卷積神經(jīng)網(wǎng)絡(luò),模型表現(xiàn)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法和早期神經(jīng)網(wǎng)絡(luò)方法。緊接著,RNN也被引入文本領(lǐng)域,其變體LSTM[20]以能捕獲長(zhǎng)距離信息依賴、善于編碼序列信息而得到大量應(yīng)用,Yang等[11]提出了基于LSTM序列生成模型的多標(biāo)簽文本分類算法。而后注意力機(jī)制被廣泛研究[7],Lin等[21]提出Self-attentive,通過(guò)二維矩陣對(duì)序列信息進(jìn)行加權(quán)。2018年,谷歌的研究人員提出了基于自注意力機(jī)制的Transformer框架[22],并以Transformer為核心組件開發(fā)出了性能強(qiáng)大的語(yǔ)言模型BERT。
BERT的預(yù)訓(xùn)練及微調(diào)方法被不斷進(jìn)行改進(jìn)[23-25]。Qiao等[26]提出的BERT(MUL-Int)將每一層的[CLS]位置的編碼進(jìn)行加權(quán)求和,進(jìn)而計(jì)算索引問題和答案文檔之間的相似度。Sun等[27]基于BERT設(shè)計(jì)了更多的實(shí)驗(yàn),不僅驗(yàn)證了每一層輸出對(duì)分類結(jié)果的影響,還提出以簡(jiǎn)單平均的方式融合前四層或后四層輸出。本文基于以上提到的文本分類模型進(jìn)行了案件要素識(shí)別的相關(guān)實(shí)驗(yàn)和分析,對(duì)比了不同語(yǔ)言模型的性能差異,在Lin[21]、Qiao[26]和Sun[27]等人工作的基礎(chǔ)上提出了Layer-attentive特征融合策略。就多標(biāo)簽文本分類而言,本文使用LSTM序列生成模型,并對(duì)比了與閾值算法的性能差異。
圖2 基于預(yù)訓(xùn)練語(yǔ)言模型的案件要素識(shí)別模型
下面以BERT[10]為例介紹BERT系列的預(yù)訓(xùn)練語(yǔ)言模型。BERT預(yù)訓(xùn)練語(yǔ)言模型的全稱是基于Transformer的雙向編碼表示(Bidirectional Encoder Representations from Transformers, BERT)。其采用Transformer網(wǎng)絡(luò)[22]作為模型基本結(jié)構(gòu),在大規(guī)模無(wú)監(jiān)督語(yǔ)料上通過(guò)掩蔽語(yǔ)言模型和句對(duì)預(yù)測(cè)兩個(gè)任務(wù)進(jìn)行預(yù)訓(xùn)練(Pre-training),得到預(yù)訓(xùn)練的BERT模型。再以預(yù)訓(xùn)練模型為基礎(chǔ),在下游相關(guān)NLP任務(wù)上進(jìn)行模型微調(diào)(Fine-tuning)。BERT模型的結(jié)構(gòu)主要由三部分構(gòu)成: 輸入層、編碼層和任務(wù)層,其中輸入層和編碼層是通用的結(jié)構(gòu),對(duì)任何任務(wù)都適用。
BERT的輸入層將每個(gè)詞的詞嵌入、位置嵌入和段嵌入相加得到每個(gè)詞的輸入表示。與原始Transformer不同的是,BERT模型的位置嵌入是可學(xué)習(xí)的參數(shù),最多支持512個(gè)位置。
對(duì)于編碼層,base版本包含12個(gè)編碼層,large版本包含24個(gè)編碼層,每一編碼層的輸入都是基于上一層的輸出,可抽象表示如式(1)所示。
Hi=Transformer(Hi-1),0
(1)
其中,Hi∈Rm×d為BERT中第i層編碼層,m為序列長(zhǎng)度,d為隱層維度,l為編碼層的總層數(shù)。
在本任務(wù)中,任務(wù)層被Attention交互層和解碼器替代。
一個(gè)神經(jīng)網(wǎng)絡(luò)的不同層可以捕獲不同的語(yǔ)法和語(yǔ)義信息。因?yàn)锽ERT包含了l(12或24)個(gè)編碼層,研究表明[26-27],選擇BERT后三至四個(gè)編碼層的輸出進(jìn)行特征融合,可以增強(qiáng)語(yǔ)言模型的特征表示。本文提出了Layer-attentive,以層次級(jí)別加權(quán)的方式對(duì)后三個(gè)編碼層的輸出進(jìn)行融合,如式(2)、式(3)所示。
其中,W1∈Rd×d,W2∈Rd×d是兩個(gè)權(quán)重矩陣,用于計(jì)算Layer-attentive的加權(quán)系數(shù)Ai,將向量的表示聚焦于后三層中不同層的不同元素。SeLU[28]是非線性激活函數(shù)。本文將以上特征融合方法命名為3Lattv。
為了證明以上方法的有效性,本文還設(shè)計(jì)了其他的特征融合方法。
一是采用concat的方式對(duì)后三層的輸出進(jìn)行線性拼接,如式(4)所示。
H′=SeLU(Wc(H-1⊕H-2⊕H-3)+bc)
(4)
其中,Wc∈Rd×3d為concat方式的權(quán)重矩陣,bc是偏置項(xiàng),“⊕”表示線性拼接。該方法命名為3Lconcat。二是在上述兩種方法中改后三層為后四層,相應(yīng)的方法被命名為4Lattv和4Lconcat。
當(dāng)模型預(yù)測(cè)不同的標(biāo)簽時(shí),并非所有文本詞都作出相同的貢獻(xiàn)。Attention通過(guò)關(guān)注文本序列的不同部分并聚集那些信息豐富的詞的隱層表示來(lái)產(chǎn)生上下文向量。特別地,注意力在時(shí)間步t上將權(quán)重αti分配給第i個(gè)詞,如式(5)、式(6)所示。
其中,Wa,Ua,va是權(quán)重參數(shù),ba是偏置項(xiàng),hi是序列中第i個(gè)詞的編碼表示,st是解碼器在時(shí)間步t的隱藏狀態(tài)。在時(shí)間步t傳遞到解碼器的最終上下文向量dt的計(jì)算如式(7)所示。
(7)
其中,dt的物理意義是預(yù)測(cè)第t個(gè)標(biāo)簽時(shí)的解碼器的輸入。
本文使用LSTM[20]作為多標(biāo)簽分類的解碼器,解碼器在時(shí)間步t的隱藏狀態(tài)st的計(jì)算如式(8)所示。
st=LSTM(st-1,yt-1,dt-1)
(8)
其中,Wo,Wd,Ud是權(quán)重系數(shù),bd是偏置項(xiàng),σ是非線性激活函數(shù)。It是用于防止解碼器預(yù)測(cè)重復(fù)標(biāo)簽的掩碼向量,即圖2中mask部分。若第i個(gè)標(biāo)簽在第t-1時(shí)間步被預(yù)測(cè)出來(lái),則It的第i個(gè)分量置為負(fù)無(wú)窮,否則置為零。
最后,使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,如式(11)所示。
(11)
其中,N為樣本個(gè)數(shù),n為標(biāo)簽個(gè)數(shù),yij為實(shí)際標(biāo)簽,pij為預(yù)測(cè)標(biāo)簽。本文旨在解決案件要素識(shí)別的多標(biāo)簽預(yù)測(cè)問題,重點(diǎn)關(guān)注如何將每個(gè)樣本所對(duì)應(yīng)的各標(biāo)簽類型完整地預(yù)測(cè)出來(lái),訓(xùn)練過(guò)程中多標(biāo)簽之間采用數(shù)據(jù)集中默認(rèn)的順序形成標(biāo)簽序列。
本文實(shí)驗(yàn)使用CAIL2019“要素識(shí)別”賽道提供的數(shù)據(jù)集(1)https://github.com/china-ai-law-challenge/CAIL2019,該數(shù)據(jù)集來(lái)自“中國(guó)裁判文書網(wǎng)”公開的法律文書,由專家進(jìn)行標(biāo)注。數(shù)據(jù)的每一條由一個(gè)句子及其對(duì)應(yīng)的要素標(biāo)簽組成,句子是從一篇裁判文書中的部分段落提取出來(lái)的,如圖1所示。本文將其按3∶1∶1的比例劃分訓(xùn)練集、開發(fā)集和測(cè)試集,在測(cè)試集上評(píng)價(jià)模型性能。數(shù)據(jù)集涉及三類民事案件: 勞動(dòng)爭(zhēng)議(Labor)、離婚糾紛(Divorce)和借貸糾紛(Loan),三類案件的數(shù)據(jù)各自分開,分別進(jìn)行評(píng)價(jià)。每類案件各有20個(gè)要素類別,相應(yīng)的類別樣本數(shù)分布如圖3所示??梢姅?shù)據(jù)集存在嚴(yán)重的數(shù)據(jù)分布不均衡的問題,每個(gè)案件的要素類別樣本數(shù)從101級(jí)到103級(jí)不等。數(shù)據(jù)集的樣本數(shù)據(jù)量統(tǒng)計(jì)及在樣本的文本特點(diǎn)分析如表1所示。另發(fā)現(xiàn)平均60%以上的樣本沒有標(biāo)簽,即不是案件要素;一個(gè)樣本最多可有7個(gè)標(biāo)簽,此種情況不足0.1%;具有1到3個(gè)標(biāo)簽的樣本在三類案件中分別占約30%、25%、37%。
圖3 各要素類別的數(shù)據(jù)量分布統(tǒng)計(jì)圖
表1 數(shù)據(jù)集的樣本數(shù)量統(tǒng)計(jì)表
本文所有實(shí)驗(yàn)在如表2所示的環(huán)境下進(jìn)行。對(duì)于BERT系列模型,均采用base-Chinese版本(2)https://github.com/huggingface/transformers進(jìn)行微調(diào),隱層維度d=768,序列長(zhǎng)度m=512,編碼層層數(shù)l=12,批處理大小batch_size=16,訓(xùn)練輪數(shù)epoch=3,學(xué)習(xí)率α=4e-5。對(duì)于BiLSTM模型,設(shè)置隱層維度hidden_size=256,序列長(zhǎng)度m=256,學(xué)習(xí)率α=1e-3,批處理大小batch_size=64,訓(xùn)練輪數(shù)epoch=128,采用Word2Vec預(yù)訓(xùn)練的詞向量的維度為300。
表2 實(shí)驗(yàn)環(huán)境
對(duì)于模型的表現(xiàn),使用查準(zhǔn)率P(Precision)、查全率R(Recall)和F1值作為衡量指標(biāo)。具體使用宏平均查準(zhǔn)率ma-P(Macro Precision)、宏平均查全率ma-R(Macro Recall)、宏平均F1值ma-F(MacroF1)、微平均F1值mi-F(MicroF1)、ma-F和mi-F的均值A(chǔ)va(AverageF1)。
3.3.1 編碼器的作用
分別采用不同的編碼器模型與解碼器LSTM進(jìn)行組合,在三個(gè)案件的數(shù)據(jù)上均進(jìn)行實(shí)驗(yàn)。編碼器模型列表如下:
考慮環(huán)境因素的多能源系統(tǒng)交直流混合供能優(yōu)化策略//繆妙,李勇,曹一家,王姿雅,鄒堯,喬學(xué)博//(4):128
BERT(3)https://github.com/huggingface/transformers: 基礎(chǔ)模型[10]。
CNN-thre: Kim[6]提出的卷積神經(jīng)網(wǎng)絡(luò)模型,底層使用預(yù)訓(xùn)練的詞向量,使用多重一維卷積和最大池化提取特征。不使用解碼器,輸出層采用Algorithm 1所述方法。
BiLSTM: 雙向LSTM[20]網(wǎng)絡(luò),底層使用預(yù)訓(xùn)練的詞向量。
WWM(4)https://github.com/ymcui/Chinese-BERT-wwm: 基于Whole Word Masking訓(xùn)練樣本生成策略訓(xùn)練的BERT[24]。
XLNet(5)https://github.com/ymcui/Chinese-XLNet: 基于Transformer-XL[29]訓(xùn)練的最優(yōu)自回歸語(yǔ)言模型[23]。
RoBERTa: 采用多種技巧及更多數(shù)據(jù)訓(xùn)練的BERT[25]。
表3展示了在使用解碼器LSTM的情況下,不同編碼器模型在三類案件數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果。比較CNN-thre、BiLSTM和BERT三個(gè)模型,BiLSTM優(yōu)于CNN-thre,BERT優(yōu)于BiLSTM,但該優(yōu)勢(shì)對(duì)語(yǔ)言模型而言并不特別明顯。原因是: 一方面,任務(wù)數(shù)據(jù)量達(dá)到萬(wàn)級(jí),BiLSTM也能充分學(xué)習(xí)文本特征;另一方面,訓(xùn)練BiLSTM所依據(jù)的詞向量是根據(jù)數(shù)百萬(wàn)份裁判文書預(yù)訓(xùn)練的,Word2Vec在這里起到了很大的作用。為了詳細(xì)比較BiLSTM和BERT在每個(gè)類別上的分類能力,圖4給出了BERT 和BiLSTM在Loan案件數(shù)據(jù)上每個(gè)要素類別的F1值。圖4表明,BERT對(duì)每個(gè)類別的分類能力均高于BiLSTM,在后10個(gè)類別,BERT的性能提升比較明顯。結(jié)合圖3可知,Loan數(shù)據(jù)的后10個(gè)類別的樣本數(shù)較前10個(gè)類別的樣權(quán)數(shù)有數(shù)量級(jí)級(jí)別的差距。該結(jié)果也表明,以BERT為代表的語(yǔ)言模型處理小樣本情況的能力較強(qiáng)。
表3 不同編碼器模型在三類案件數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果
圖4 Loan數(shù)據(jù)上兩個(gè)模型的類別F1值對(duì)比
縱向比較后四個(gè)模型,即四個(gè)BERT系列語(yǔ)言模型。BERT作為基礎(chǔ)模型,性能較更先進(jìn)的語(yǔ)言模型有一定的差距,XLNet和RoBERTa在該任務(wù)上具有最好的性能。RoBERTa比CNN-thre這一baseline模型在平均F值上,三類案件平均提升7.4%。另外,ma-F得分遠(yuǎn)低于mi-F得分,原因是數(shù)據(jù)分布極不均衡,每個(gè)類別的F1值相差很大,甚至有樣本數(shù)量極少的類別的得分是0,這對(duì)ma-F影響較大,卻對(duì)mi-F影響不明顯。
3.3.2 解碼器的作用
BERT-thre: 該方法為只使用基于BERT的編碼器,不使用Attention交互和解碼器,相應(yīng)的任務(wù)層換為softmax分類器,最后使用閾值設(shè)定函數(shù)對(duì)模型輸出的概率值進(jìn)行取舍,從而預(yù)測(cè)類別,標(biāo)簽概率計(jì)算如式(12)所示。
p=σ(WpPooler(H)+bp)
(12)
其中,權(quán)重系數(shù)Wp∈Rd×d,σ為sigmoid激活函數(shù),Pooler是BERT對(duì)隱層輸出進(jìn)行pooling操作的函數(shù)[10]。p中每個(gè)維度的數(shù)值對(duì)應(yīng)每個(gè)類別的可能概率值,概率值介于[0,1]之間,仍使用二進(jìn)制交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。本文Algorithm 1所示算法用于為每個(gè)類別設(shè)定閾值。
由于多標(biāo)簽分類的特殊性,具體的P、R值只能通過(guò)兩者的宏平均或者微平均來(lái)體現(xiàn),表4通過(guò)比較模型在三類案件數(shù)據(jù)上的ma-P、ma-R和ma-F,具體驗(yàn)證解碼器對(duì)P值和R值帶來(lái)的提升。
Algorithm 1 類別閾值選擇算法(Threshold selecting, thre)Input: 在開發(fā)集上,樣本屬于第i類標(biāo)簽的概率pi,樣本在第i類的真實(shí)標(biāo)簽yi。Output: 第i類標(biāo)簽的閾值ti。1: t=arr[100],f=arr[100],s=arr[90],t[0]=0; 2: for j in 100 do3: t[j]=t[j-1]+0.01;4: if p>t[j] then5: 判斷當(dāng)前閾值t[j]下樣本類別a^i=1;6: else7: a^i=0;8: 計(jì)算當(dāng)前閾值t[j]下的類別得分f[j]=F(y^i,yi);9: j遞增1;10: for k in 90 do11: 保存每個(gè)區(qū)間下的得分均值s[k]=∑9l=0f[k+l] /10;12: k遞增1;13: 找到使得分最大的閾值區(qū)間z=argmax(s[z]),計(jì)算該區(qū)間的中值ti=t[z+5];14: return ti
表4 解碼器與閾值算法的實(shí)驗(yàn)結(jié)果對(duì)比
表4中,同一案件下編碼器較thre策略的主要提升體現(xiàn)在R值(召回率)上,尤其對(duì)Loan案件最為明顯,經(jīng)分析如Loan中兩個(gè)要素類別“貸款人系金融機(jī)構(gòu)款”和“有借貸證明”之間的線性相關(guān)系數(shù)達(dá)到了0.729,其他類別也具有明顯的相關(guān)性?;贚STM的解碼器正因?yàn)椴东@了這種相關(guān)性,才在預(yù)測(cè)出來(lái)一個(gè)標(biāo)簽的情況下能連帶著把與之相關(guān)的標(biāo)簽也預(yù)測(cè)出來(lái)。但是,準(zhǔn)確率增益差說(shuō)明這種解碼器也存在不足,標(biāo)簽預(yù)測(cè)過(guò)程中會(huì)出現(xiàn)一定的錯(cuò)誤累積,前一個(gè)標(biāo)簽預(yù)測(cè)錯(cuò)誤可能導(dǎo)致后一個(gè)相關(guān)的標(biāo)簽也預(yù)測(cè)錯(cuò)誤,后續(xù)研究工作中將著重在這方面進(jìn)行改進(jìn)。RoBERTa-LSTM相對(duì)BERT-thre在宏平均F值上,三類案件平均提升3.2%。
3.3.3 Layer-attentive策略的作用
為驗(yàn)證多層特征融合策略對(duì)模型性能的影響,以及對(duì)比不同的融合方法,本組對(duì)比實(shí)驗(yàn)以原始BERT為基礎(chǔ)模型,在此基礎(chǔ)上分別使用3Lattv、3Lconcat、4Lattv和4Lconcat的方法進(jìn)行實(shí)驗(yàn),五種方法均采用基于LSTM的解碼器,不同方法在三類數(shù)據(jù)上的得分如表5所示。
表5 Layer-attentive策略的作用
由表5可知,除BERT(4Lconcat)方法外,其他多層特征融合方法優(yōu)于原始BERT的方法。其次,除Labor案件下三層特征融合外,Layer-attentive的方法均優(yōu)于concat線性拼接的方法,最大提升可達(dá)到2.1%。分別比較BERT(4Lconcat)和BERT(3Lconcat),比較BERT(4Lattv)和BERT(3Lattv),可發(fā)現(xiàn)三層特征融合均優(yōu)于四層特征融合。最后,對(duì)三類案件的得分進(jìn)行橫向比較,相同模型在三類案件上性能差異明顯,主要原因是三類案件的數(shù)據(jù)量有一定差距,而且分別具有不同的要素類別體系。
3.3.4 模型案例分析
圖5為BiLSTM、BERT、WWM、WWM-LSTM四種模型分別對(duì)三類案件預(yù)測(cè)結(jié)果的例子。第一個(gè)例子為L(zhǎng)abor案件,實(shí)際標(biāo)簽有三個(gè),BiLSTM模型預(yù)測(cè)出0個(gè),BERT只能預(yù)測(cè)出其中一個(gè),WWM可以預(yù)測(cè)出其中兩個(gè),WWM-LSTM因?yàn)槠浣獯a器能捕獲LB3和LB6之間的依賴關(guān)系,可以將三個(gè)標(biāo)簽全部預(yù)測(cè)出來(lái)。同樣的,在第二個(gè)Divorce案件示例中,WWM與BiLSTM和BERT模型相比,可以預(yù)測(cè)出部分正確標(biāo)簽,而WWM-LSTM可以預(yù)測(cè)出全部正確標(biāo)簽。以上預(yù)測(cè)結(jié)果說(shuō)明: 語(yǔ)言模型比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的學(xué)習(xí)能力。其中,WWM因?yàn)榭紤]了中文分詞問題,比原始的BERT具有更強(qiáng)的語(yǔ)義解析能力。而基于LSTM的解碼器能夠?qū)W習(xí)到標(biāo)簽之間的依賴關(guān)系,更適用于本文多標(biāo)簽預(yù)測(cè)的任務(wù)。第三個(gè)例子是Loan案件,原本句子沒有標(biāo)簽, BiLSTM卻錯(cuò)誤地預(yù)測(cè)出了一個(gè)標(biāo)簽,因?yàn)榫渥又泻小皞鶛?quán)”關(guān)鍵字;BiLSTM只捕獲了這個(gè)特征,但卻缺乏對(duì)語(yǔ)義信息的理解,而語(yǔ)言模型的強(qiáng)大之處在于不僅能捕獲淺層的語(yǔ)法特征,還能學(xué)習(xí)到深層的語(yǔ)義信息。
圖5 不同模型的預(yù)測(cè)結(jié)果示例
本文提出了一個(gè)基于預(yù)訓(xùn)練語(yǔ)言模型的多標(biāo)簽分類模型,該模型可實(shí)現(xiàn)面向司法領(lǐng)域的案件要素識(shí)別。該模型主要分為編碼器和解碼器兩大部分,兩部分間通過(guò)注意力機(jī)制進(jìn)行交互,其中編碼器部分采用基于Layer-attentive特征增強(qiáng)的語(yǔ)言模型,解碼器采用LSTM序列生成模型。實(shí)驗(yàn)結(jié)果表明,本文提出的案件要素識(shí)別模型相較基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型在F1值上平均提高了7.4%,比基礎(chǔ)語(yǔ)言模型BERT在宏平均F1值上平均提升3.2%。本文采用的基于LSTM的多標(biāo)簽分類策略具有較大的性能增益,Layer-attentive的微調(diào)策略也有一定的性能提升。未來(lái)工作將研究要素標(biāo)簽的順序以及要素類別的含義對(duì)要素識(shí)別結(jié)果的影響。