李大鵬, 趙琪琿, 邢鐵軍, 趙大哲
(1. 東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 遼寧 沈陽(yáng) 110169; 2. 東軟集團(tuán)股份有限公司, 遼寧 沈陽(yáng) 110179)
近年來(lái),隨著人工智能等新一代信息技術(shù)的發(fā)展,司法辦案智能化成為司法領(lǐng)域信息技術(shù)的研究熱點(diǎn),尤其是案件判決預(yù)測(cè)(legal judgment prediction,簡(jiǎn)稱(chēng)LJP)日益受到關(guān)注[1].LJP使用自然語(yǔ)言處理等技術(shù)分析案件卷宗文本,預(yù)測(cè)案件罪名、刑罰和適用法律等判決結(jié)果,該技術(shù)是司法機(jī)關(guān)智能輔助辦案系統(tǒng)的核心關(guān)鍵技術(shù)之一,可以減少法官、檢察官等辦案人員的大量案件分析工作并輔助其作出決策,提高工作效率,減少犯錯(cuò)的風(fēng)險(xiǎn).同時(shí),缺少法律知識(shí)的普通人也可通過(guò)該技術(shù)了解他們所關(guān)心案件的預(yù)期判決情況.
LJP包括罪名預(yù)測(cè)、刑期預(yù)測(cè)等多個(gè)子任務(wù).近年來(lái)隨著計(jì)算能力的提高及深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等方法被廣泛地應(yīng)用在LJP領(lǐng)域.2017年,Luo等[2]使用支持向量機(jī)和循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)案件的適用罪名和適用法律,為L(zhǎng)JP任務(wù)提出了新的解決方法.同年Vaswani等[3]提出了基于多頭自注意力機(jī)制的Transformer模型,提高了文本特征的提取能力.2018年,Google公布BERT(bidirectional encoder representation from transformers)在11項(xiàng)NLP(natural language processing)任務(wù)中刷新紀(jì)錄[4],引起了業(yè)界的廣泛關(guān)注.陳劍等[5]在司法文書(shū)命名實(shí)體識(shí)別問(wèn)題上引入BERT模型,有效提升了實(shí)體識(shí)別效果.近兩年,許多學(xué)者對(duì)深度學(xué)習(xí)在LJP領(lǐng)域的應(yīng)用進(jìn)行了深入的探索.Li等[6]在2019年設(shè)計(jì)了一個(gè)基于注意力循環(huán)神經(jīng)網(wǎng)絡(luò)模型,同時(shí)完成案件的罪名預(yù)測(cè)、刑期預(yù)測(cè)和法條推薦任務(wù).2020年,Xu等[7]提出了一種新型的基于Bi-GRU(bidirectional gated recurrent unit)神經(jīng)網(wǎng)絡(luò)的多任務(wù)LJP框架,引入了被告人位置信息和不同刑期的注意力提升預(yù)測(cè)的準(zhǔn)確率;同年,Xu等[8]提出了一種基于圖蒸餾算子的端到端注意力模型LADAN,該模型通過(guò)利用相似罪名之間的差異很好地解決了LJP任務(wù)中罪名易混淆的問(wèn)題.
2018年“中國(guó)法研杯”司法人工智能挑戰(zhàn)賽(CAIL2018)提出了刑事案件的罪名預(yù)測(cè)、法條推薦和刑期預(yù)測(cè)三個(gè)LJP挑戰(zhàn)任務(wù),罪名預(yù)測(cè)和法條推薦任務(wù)準(zhǔn)確率均達(dá)到95%以上,相比較而言,刑期預(yù)測(cè)任務(wù)準(zhǔn)確率較差.產(chǎn)生這種情況的原因主要有兩個(gè):1)分析數(shù)據(jù)的不全面.CAIL2018的刑期預(yù)測(cè)任務(wù)是通過(guò)分析一段描述案件犯罪情節(jié)的文本來(lái)預(yù)測(cè)刑期,而在實(shí)際的司法實(shí)踐中,法官或檢察官在量刑時(shí)需要考慮的因素不僅僅包括被告人的犯罪情節(jié),還包括被告人的基本信息(例如健康狀況、年齡、前科等)、被捕后的態(tài)度表現(xiàn)(坦白、自首、立功情節(jié)等)等其他因素,僅僅依靠犯罪情節(jié)來(lái)預(yù)測(cè)量刑結(jié)果是不準(zhǔn)確的.2)預(yù)測(cè)模型的局限性.首先,刑期預(yù)測(cè)是歸結(jié)為分類(lèi)問(wèn)題還是回歸問(wèn)題還沒(méi)有定論,相比較而言,用回歸方式預(yù)測(cè)刑期效果較差,準(zhǔn)確率不高;其次,模型如何能夠提取案件文本深層次的語(yǔ)義特征并生成有效表征案件文本的向量表示也是影響刑期預(yù)測(cè)準(zhǔn)確性的關(guān)鍵問(wèn)題.
為了解決已有研究中存在的上述問(wèn)題,本文提出一種基于多通道分層注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(multi-channel hierarchical attentive recurrent neural network,MHARNN)的司法案件刑期預(yù)測(cè)模型.相比傳統(tǒng)刑期預(yù)測(cè)模型,本文在以下三個(gè)方面進(jìn)行了改進(jìn):1)BERT預(yù)訓(xùn)練模型,使用BERT預(yù)訓(xùn)練中文詞向量作為MHARNN模型的輸入,其強(qiáng)大的詞向量表征能力能夠有效提升分類(lèi)器性能.2)多通道模式,MHARNN模型引入多通道模式,將被告人基本信息、犯罪情節(jié)和被告人態(tài)度表現(xiàn)三類(lèi)文本信息分別輸入到編碼器中各自生成向量表示,最后三個(gè)表示向量拼接后再輸入到分類(lèi)器中.3)分層注意力機(jī)制,MHARNN模型引入基于分層注意力機(jī)制的Bi-GRU神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行輸入文本隱含特征的提取,其中分層注意力機(jī)制可以從詞語(yǔ)和句子兩個(gè)層面捕獲不同詞語(yǔ)和不同句子對(duì)于刑期預(yù)測(cè)任務(wù)的重要性.實(shí)驗(yàn)結(jié)果表明,相比其他刑期預(yù)測(cè)模型,本文模型預(yù)測(cè)準(zhǔn)確率等性能得到了顯著提高.
為了完成案件的刑期預(yù)測(cè),本文提出了MHARNN刑期預(yù)測(cè)模型,如圖1所示,模型可分為三個(gè)層次.
圖1 刑期預(yù)測(cè)模型
1) 輸入層.輸入層引入多通道模式和BERT中文預(yù)訓(xùn)練模型,將被告人基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)三類(lèi)文本轉(zhuǎn)化為BERT 詞向量序列輸入到模型編碼層中.
2) 編碼層.本文選擇使用Bi-GRU神經(jīng)網(wǎng)絡(luò)作為編碼器用于生成三類(lèi)文本的向量表示.編碼器是一個(gè)雙層結(jié)構(gòu),首先將詞向量序列作為輸入并結(jié)合詞語(yǔ)級(jí)注意力上下文向量cpw,cfw和caw生成句子向量,再將生成的多個(gè)句子向量序列作為輸入并結(jié)合句子級(jí)注意力上下文向量cps,cfs和cas生成三類(lèi)文本的向量,包括基本信息向量dp、犯罪情節(jié)向量df和態(tài)度表現(xiàn)向量da.
3) 輸出層.本文將dp,df和da拼接在一起后輸入到Softmax分類(lèi)器中.分類(lèi)器會(huì)輸出不同刑期區(qū)間的概率分布Pt,從而得出該案件的刑期預(yù)測(cè)結(jié)果.
相比于傳統(tǒng)的預(yù)測(cè)模型將案件文書(shū)整體輸入到編碼器中,MHARNN模型多通道模式的優(yōu)勢(shì)可歸納為如下兩點(diǎn):1) 多通道模式下各類(lèi)輸入信息擁有單獨(dú)的編碼器,編碼器能夠更好地學(xué)習(xí)深層特征,生成的向量表示也能夠更準(zhǔn)確地表征輸入文本數(shù)據(jù),從而提高模型的預(yù)測(cè)準(zhǔn)確率;2) 多通道模式下,模型的輸入也更加靈活,比如被告人的態(tài)度表現(xiàn),除了可以將文本向量作為輸入外,也可以使用One-hot編碼對(duì)被告人的坦白、自首和立功等情節(jié)進(jìn)行編碼,生成一個(gè)代表被告人態(tài)度表現(xiàn)的向量,之后可以將其輸入到一個(gè)多層感知機(jī)中生成與其他兩個(gè)通道相同維度的特征向量.
案件文本可以視作具有兩層結(jié)構(gòu)的序列集合,即一個(gè)案件文本是多個(gè)句子組成的序列集合,而其中每個(gè)句子則是由多個(gè)詞語(yǔ)組成的序列集合.如圖2所示,本文基于Bi-GRU神經(jīng)網(wǎng)絡(luò)構(gòu)建一個(gè)具有兩層結(jié)構(gòu)的編碼器來(lái)學(xué)習(xí)案件文本的向量表示,兩層結(jié)構(gòu)分為詞語(yǔ)級(jí)編碼器和句子級(jí)編碼器.
假設(shè)一個(gè)文本由n個(gè)句子組成,其中第i個(gè)句子si(i∈[1,n])包含m個(gè)詞語(yǔ),用wij(j∈[1,m])表示該句子中的第j個(gè)詞語(yǔ),則文本表示向量d可以表示為
d=f([s1,s2,…,sn]) ,
(1)
si=g([wi1,wi2,…,wim]) .
(2)
其中f和g函數(shù)分別代表句子級(jí)編碼器和詞語(yǔ)級(jí)編碼器.
圖2 雙層文本編碼器
本文選擇Bi-GRU神經(jīng)網(wǎng)絡(luò)構(gòu)建文本編碼器.GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體, GRU有兩個(gè)門(mén),分別為更新門(mén)和重置門(mén).更新門(mén)控制前一時(shí)刻的狀態(tài)信息被輸入到當(dāng)前狀態(tài)中的程度,更新門(mén)的值越大說(shuō)明前一時(shí)刻的狀態(tài)信息輸入越多.重置門(mén)控制忽略前一時(shí)刻的狀態(tài)信息的程度,重置門(mén)的值越小說(shuō)明忽略的信息越多.在任意時(shí)刻t,GRU的隱藏狀態(tài)計(jì)算如式(3)~式(6)所示.
rt=σ(Wrxt+Urht-1+br);
(3)
zt=σ(Wzxt+Uzht-1+bz);
(4)
(5)
(6)
其中:rt表示更新門(mén)結(jié)果;zt表示重置門(mén)結(jié)果;ht-1代表上一時(shí)刻隱藏狀態(tài);xt表示輸入的文本序列信息;Wr,Wz,Wn為權(quán)重參數(shù);σ是sigmoid函數(shù); ⊙代表兩個(gè)矩陣求Hadamard積的操作.Bi-GRU通過(guò)引入第二個(gè)層來(lái)擴(kuò)展單向的GRU網(wǎng)絡(luò),在這個(gè)層中隱藏的連接以相反的順序流動(dòng),從而有效利用文本中的上下文信息.給定一組文本數(shù)據(jù)[x1,x2,…,xT],其中第t個(gè)元素為xt(t∈[1,T]).對(duì)于xt,前向GRU隱藏狀態(tài)hft和后向GRU隱藏狀態(tài)hbt分別為
hft=GRU([x1,x2,…,xt]) ,
(7)
hbt=GRU([xT,xT-1,…,xt]) .
(8)
最后通過(guò)拼接ht=[hft,hbt]作為最終的Bi-GRU輸出.
對(duì)于一個(gè)案件文本來(lái)說(shuō),每個(gè)句子包含的信息不同,對(duì)于量刑預(yù)測(cè)結(jié)果的影響是不同的.同樣,一個(gè)句子中的詞語(yǔ)既可能是與案情緊密相關(guān)的詞語(yǔ),也可能是無(wú)關(guān)的詞語(yǔ),它們對(duì)于量刑預(yù)測(cè)結(jié)果的重要性也是不同的.因此,本文在模型中引入分層注意力機(jī)制,給不同的句子或詞語(yǔ)賦予不同的權(quán)重,從而摒棄一些噪音數(shù)據(jù),以此來(lái)提高分類(lèi)器的性能.注意力機(jī)制本質(zhì)上是為了對(duì)數(shù)據(jù)中更有價(jià)值的部分分配較多的計(jì)算資源.
如圖3所示,本文引入全局的注意力上下文向量cw和cs[9],分別參與詞語(yǔ)級(jí)和句子級(jí)的注意力計(jì)算,生成句子表示向量s和文本表示向量d.使用隨機(jī)值初始化cw和cs,并在模型訓(xùn)練過(guò)程中迭代優(yōu)化.給定一組GRU編碼器輸出[hi1,hi2,…,hiM],每個(gè)詞的注意力值為[αi1,αi2,…,αiM],其中αij∈[0,1],∑jαij=1.句子表示向量si計(jì)算過(guò)程如下:
uij=tanh(Wwhij+bw) ,
(9)
(10)
si=∑jαijhij.
(11)
同理,文本表示向量d的計(jì)算過(guò)程如下:
ui=tanh(Wshi+bs) ,
(12)
(13)
d=∑iαihi.
(14)
其中:Ww,Ws分別是詞語(yǔ)級(jí)和句子級(jí)的權(quán)重參數(shù);bw,bs分別是詞語(yǔ)級(jí)和句子級(jí)的偏置參數(shù).通過(guò)如上的計(jì)算過(guò)程,就可以計(jì)算結(jié)合了分層注意力機(jī)制的文本表示向量.
Softmax分類(lèi)器的輸入是來(lái)自三個(gè)通道的文本向量拼接后形成的向量d:
d=[dp,df,da] ,
(15)
p=softmax(Wpd+bp) .
(16)
將案件表示向量d輸入到分類(lèi)器后會(huì)得到屬于各個(gè)刑期標(biāo)簽的概率pi(pi∈[0,1],i∈[1,I]),其中pi代表案件刑期屬于該區(qū)間的概率,I是刑期區(qū)間劃分的標(biāo)簽數(shù)量.由于刑期預(yù)測(cè)問(wèn)題屬于單分類(lèi)問(wèn)題,選取概率值最大的區(qū)間為刑期預(yù)測(cè)結(jié)果.
本文使用交叉熵作為模型的損失函數(shù),記為L(zhǎng)ossF:
(17)
其中,ri表示標(biāo)簽指示變量,如果該預(yù)測(cè)結(jié)果和樣本案件的標(biāo)簽相同就是1,否則是0.
圖3 雙層注意力機(jī)制
目前,國(guó)內(nèi)公開(kāi)的司法案件數(shù)據(jù)集較少,比較知名的是2018年“中國(guó)法研杯”提供的 CAIL2018數(shù)據(jù)集[10].CAIL2018數(shù)據(jù)集涵蓋了202個(gè)罪名共260余萬(wàn)份真實(shí)案件,可用于LJP相關(guān)模型的訓(xùn)練和測(cè)試.但通過(guò)分析發(fā)現(xiàn),CAIL2018中的案件數(shù)據(jù)僅包含被告人姓名(已脫敏),并不包含被告人詳細(xì)信息,即無(wú)法獲取被告人的年齡、身體狀況及前科等與量刑結(jié)果息息相關(guān)的信息,同時(shí),部分案件也沒(méi)有被告人的態(tài)度表現(xiàn)信息.基于此種情況,本文通過(guò)中國(guó)裁判文書(shū)網(wǎng)收集了海量案件判決書(shū),得益于其比較規(guī)范的格式;通過(guò)程序?qū)⑴袥Q書(shū)中的被告人基本信息、犯罪情節(jié)、態(tài)度表現(xiàn)、罪名和判決結(jié)果等內(nèi)容自動(dòng)提取并結(jié)構(gòu)化為實(shí)驗(yàn)數(shù)據(jù)集.該數(shù)據(jù)集中的案件數(shù)據(jù)包含了模型所需的完整內(nèi)容,可以有效驗(yàn)證本文提出的MHARNN模型的性能.實(shí)驗(yàn)數(shù)據(jù)集涵蓋了58個(gè)罪名共20萬(wàn)個(gè)案件,所有案件均是單被告人且判罰結(jié)果均是有期或無(wú)期徒刑(不考慮緩刑).數(shù)據(jù)集不同罪名案件數(shù)量的分布是不均衡的,數(shù)量最多的前10個(gè)罪名的案件占數(shù)據(jù)集案件總數(shù)的72.1%.本文將數(shù)據(jù)集隨機(jī)分為三部分作為訓(xùn)練集、驗(yàn)證集、測(cè)試集,三者的文書(shū)數(shù)量比例約為8∶1∶1.
本文將刑期歸一化處理為以月份為單位的時(shí)間常數(shù),然后劃分成不同的區(qū)間(單罪名有期徒刑最少為6個(gè)月,最多為15年,數(shù)罪并罰不超過(guò)25年),例如6~8個(gè)月、8~12個(gè)月,每個(gè)區(qū)間為一個(gè)類(lèi)別,其中無(wú)期徒刑單獨(dú)歸類(lèi).具體劃分規(guī)則見(jiàn)表1.
表1 刑期區(qū)間劃分
針對(duì)從網(wǎng)上下載的案件判決書(shū),數(shù)據(jù)預(yù)處理主要包括三個(gè)步驟.
1) 結(jié)構(gòu)化:首先通過(guò)關(guān)鍵字對(duì)判決書(shū)進(jìn)行段落級(jí)別的劃分,將其分為包含基本信息、犯罪情節(jié)、態(tài)度表現(xiàn)和判決結(jié)果等段落,然后通過(guò)關(guān)鍵字和正則表達(dá)式從判決結(jié)果中提取罪名、刑期等信息,最終將一份判決書(shū)結(jié)構(gòu)化為實(shí)驗(yàn)所需的數(shù)據(jù)樣本.
2) 數(shù)據(jù)清洗:針對(duì)包含基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)的文本,去掉其中的冗余詞、停用詞以及語(yǔ)氣助詞等沒(méi)有意義的內(nèi)容.
3) 向量化:將清洗后的三部分文本進(jìn)行分詞,然后使用中文預(yù)訓(xùn)練模型ALBERT_TINY將文本中的詞轉(zhuǎn)為詞向量,詞向量的維度設(shè)置為400.
為了驗(yàn)證本文提出的MHARNN模型在刑期預(yù)測(cè)性能方面的優(yōu)越性,在相同數(shù)據(jù)集上進(jìn)行一系列對(duì)比實(shí)驗(yàn),包括:
1) 從分析模型性能優(yōu)越性的角度,選擇了CAIL2018比賽中使用的TextCNN[11],RCNN[12],DPCNN[13]和HAN[14]四種刑期預(yù)測(cè)模型與本文提出的MHARNN模型進(jìn)行比較.考慮到這些模型不是多通道模型,在實(shí)驗(yàn)過(guò)程中,將三類(lèi)數(shù)據(jù)按照基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)的順序整合在一起輸入到模型中.
2) 從分析BERT詞向量、多通道數(shù)據(jù)和雙層注意力機(jī)制對(duì)性能影響的角度,設(shè)計(jì)了多組消融實(shí)驗(yàn)進(jìn)行分析比較.
實(shí)驗(yàn)選擇TensorFlow工具訓(xùn)練以上提到的所有神經(jīng)網(wǎng)絡(luò)模型,超參數(shù)設(shè)定隱藏層數(shù)為3,隱藏層節(jié)點(diǎn)數(shù)為200,被告人基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)的Embedding長(zhǎng)度分別設(shè)置為50,100和50.本文使用Adam算法來(lái)優(yōu)化訓(xùn)練過(guò)程,學(xué)習(xí)率設(shè)置為0.001,Dropout設(shè)置為0.5;使用宏精度(macro-precision,MP)和宏召回率(macro-recall, MR)和宏F1分?jǐn)?shù)三個(gè)指標(biāo)來(lái)評(píng)價(jià)模型性能.
在相同數(shù)據(jù)集上,不同文本分類(lèi)模型在刑期預(yù)測(cè)任務(wù)上的實(shí)驗(yàn)結(jié)果如表2所示.
表2 不同模型結(jié)果對(duì)比
從結(jié)果可以看到, MHARNN模型取得了所有對(duì)比模型中最好的效果,此外,引入注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型HAN也取得了較好的性能.相較于HAN模型,MHARNN模型的F1分?jǐn)?shù)提升了14%.從5類(lèi)模型的實(shí)驗(yàn)結(jié)果可見(jiàn),TextCNN和DPCNN的性能較差,即卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理任務(wù)上的效果沒(méi)有循環(huán)神經(jīng)網(wǎng)絡(luò)的效果好,畢竟案件文本作為序列數(shù)據(jù),使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型處理更加適合.參考CAIL2018的刑期預(yù)測(cè)任務(wù)的準(zhǔn)確率, MHARNN模型在MP和MR性能上均得到顯著的提升.但是,相比于罪名預(yù)測(cè)和法條推薦任務(wù),刑期預(yù)測(cè)任務(wù)的F1分?jǐn)?shù)仍然相對(duì)較低,除了前文分析的原因外,數(shù)罪并罰導(dǎo)致刑期變化以及案件情節(jié)的復(fù)雜性仍是困擾刑期預(yù)測(cè)任務(wù)的難題.
為了深入分析多通道數(shù)據(jù)和雙層注意力機(jī)制對(duì)刑期預(yù)測(cè)任務(wù)性能的影響,設(shè)計(jì)消融實(shí)驗(yàn)進(jìn)行分析比較.模型名字中w/o是without的縮寫(xiě),w/o BERT代表用word2vec詞向量替代BERT,w/o attention模型即無(wú)雙層注意力機(jī)制;w/o hierarchical模型即不使用包括詞語(yǔ)級(jí)和句子級(jí)的雙層Bi-GRU編碼器,輸入文本后直接通過(guò)Bi-GRU編碼器獲得文本表示向量;w/o persona模型是指輸入文本只有犯罪情節(jié)和態(tài)度表現(xiàn)內(nèi)容;w/o attitude模型是指輸入文本只有犯罪情節(jié)和基本信息內(nèi)容.實(shí)驗(yàn)結(jié)果如表3所示.
表3 消融實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可知,本文模型中使用的BERT詞向量、注意力機(jī)制以及分層編碼器均有效提高了刑期預(yù)測(cè)的性能,沒(méi)有它們,分類(lèi)性能都有一定程度的下降.BERT預(yù)訓(xùn)練模型通過(guò)雙向訓(xùn)練Transformer編碼器從海量的無(wú)標(biāo)注語(yǔ)料中學(xué)習(xí)詞語(yǔ)信息特征、語(yǔ)言學(xué)特征和一定程度的語(yǔ)義信息特征,具有強(qiáng)大的詞向量表征能力.使用BERT Word Embedding作為輸入,使模型F1分?jǐn)?shù)提升6%.注意力機(jī)制給不同的句子或詞語(yǔ)賦予不同的權(quán)重,起到了摒棄噪音數(shù)據(jù)的效果.而從數(shù)據(jù)類(lèi)別來(lái)看,態(tài)度表現(xiàn)內(nèi)容對(duì)刑期預(yù)測(cè)任務(wù)的影響更大,因?yàn)楸桓嫒说膽B(tài)度表現(xiàn)與量刑的從輕和從重判罰息息相關(guān).基本信息內(nèi)容中對(duì)量刑有影響的是年齡(如未成年人)、身體狀況(如聾啞人)和前科(如累犯認(rèn)定)等信息,可見(jiàn)大部分案件的基本信息內(nèi)容對(duì)量刑結(jié)果的影響較小,但對(duì)少量案件來(lái)說(shuō),缺少基本信息內(nèi)容會(huì)造成較大的預(yù)測(cè)誤差,可見(jiàn)三類(lèi)數(shù)據(jù)一起輸入到模型中才會(huì)提高預(yù)測(cè)準(zhǔn)確率.
針對(duì)案件判決預(yù)測(cè)中的刑期預(yù)測(cè)任務(wù),本文提出一種基于多通道分層注意力循環(huán)神經(jīng)網(wǎng)絡(luò)的司法案件刑期預(yù)測(cè)模型.該模型引入了BERT預(yù)訓(xùn)練模型、多通道模式和分層注意力機(jī)制,能夠有效提升刑期預(yù)測(cè)的準(zhǔn)確率.對(duì)比實(shí)驗(yàn)結(jié)果表明,多通道分層注意力循環(huán)神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)能力更強(qiáng),具備學(xué)習(xí)深層次語(yǔ)義特征的能力,從而有效提升刑期預(yù)測(cè)的性能.下一步工作主要包含兩個(gè)方面:一方面需要進(jìn)一步提升該模型在刑期預(yù)測(cè)方面的性能;另一方面,針對(duì)數(shù)罪并罰案件在模型架構(gòu)上進(jìn)一步改進(jìn).