李培林, 龐彥燕, 賀巧琳*, 王 竹, 張世全
(1. 四川大學(xué) 數(shù)學(xué)學(xué)院, 四川 成都 610064; 2. 四川大學(xué) 法學(xué)院, 四川 成都 610207)
近幾年,自然語言處理技術(shù)飛速發(fā)展.自語言模型中的word2vec提出之后,一大批詞嵌入方法涌現(xiàn),如GloVe[1]和fastText[2]等,它們從不同的方向都得到了表現(xiàn)優(yōu)異的嵌入表征.2018年,Peters等[3]首次提出Elmo語言模型,實(shí)現(xiàn)了對(duì)無標(biāo)注數(shù)據(jù)的使用.隨后,Google團(tuán)隊(duì)在文獻(xiàn)[4]中先通過無標(biāo)注文本去訓(xùn)練生成語言模型,再根據(jù)具體的下游任務(wù)使用標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行fine-tuning.2018年末,Google發(fā)布了BERT[5]語言模型,融合了Transformer、OpenAI-GPT等工作的核心思想,并在NLP領(lǐng)域的11個(gè)方向大幅刷新了精度.BERT在各大數(shù)據(jù)集上取得的優(yōu)異成績,無疑將自然語言處理的發(fā)展推向了又一個(gè)高潮.2020至2021年,大量基于BERT的語言模型不斷涌現(xiàn),其中不乏對(duì)Attention機(jī)制的改進(jìn).Choromanski等[6]使用隨機(jī)特征改進(jìn)了Attention并推出了Performer. Kitaev等[7]發(fā)布了Reformer,通過哈希函數(shù)優(yōu)化了Attention的計(jì)算速度. Cao[8]推出了Galerkin Transformer,在原有BERT的基礎(chǔ)上改進(jìn)了算法的精度與速度.
自2013年裁判文書網(wǎng)上線以來,人工智能在法律方面的運(yùn)用也變得更為廣泛.Luo等[9]使用Attention-based神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建立了罪名預(yù)測模型.Li等[10]實(shí)現(xiàn)了在CNN模型下的半監(jiān)督學(xué)習(xí),使大量庭審數(shù)據(jù)可以在無需人工標(biāo)記的情況下使用.Long等[11]以法律事實(shí)、原告訴求以及涉及法條作為數(shù)據(jù),將標(biāo)簽分類問題轉(zhuǎn)化為閱讀理解,推出了LRC模型以及“自動(dòng)審判”系統(tǒng).Chalkidis等[12]研究發(fā)現(xiàn)對(duì)模型引入Self-attention能提高模型在多標(biāo)簽分類任務(wù)中的表現(xiàn).Wang等[13]在使用深度學(xué)習(xí)訓(xùn)練法條推斷相關(guān)模型的基礎(chǔ)上引入了分級(jí)制度,實(shí)現(xiàn)對(duì)訓(xùn)練過程中的標(biāo)簽數(shù)量的削減.
在法學(xué)人工智能和智慧法院建設(shè)中,法條推薦是關(guān)鍵任務(wù),需要根據(jù)實(shí)時(shí)變化的法律事實(shí)等文本信息,通過人工智能技術(shù)自動(dòng)推送對(duì)案件適用的法律條款,其本質(zhì)上屬于多標(biāo)簽分類問題.現(xiàn)有的法條推薦工作[14]直接以判決書中使用的法條作為標(biāo)簽,在模型訓(xùn)練中存在標(biāo)簽空間大、難分類數(shù)據(jù)樣本較多等難點(diǎn),推薦效果往往并不理想,對(duì)司法人員的幫助較為有限.
基于此,本文提出“要素標(biāo)注+法條對(duì)應(yīng)”的推薦模式.首先組織法學(xué)專業(yè)人員對(duì)研究領(lǐng)域涉及的法條和要素進(jìn)行梳理和標(biāo)注,得到案件事實(shí)的要素標(biāo)注數(shù)據(jù)集,再利用機(jī)器學(xué)習(xí)訓(xùn)練案件事實(shí)和要素的對(duì)應(yīng)關(guān)系,最后通過事先建立的要素與法條對(duì)應(yīng)關(guān)系得出最終法條的推薦結(jié)果.這種方式克服了直接文本方式訓(xùn)練過程中標(biāo)簽數(shù)量過多的難題,提高了法條推送的全面性和針對(duì)性,能夠推薦適用于具體案件的司法解釋,減少法律適用中的遺漏風(fēng)險(xiǎn).
基于要素標(biāo)注的模式在訓(xùn)練模型過程中主要有2個(gè)難點(diǎn):1) 實(shí)驗(yàn)涉及的要素標(biāo)簽在NLP分類任務(wù)中相對(duì)較多;2) 標(biāo)注的訓(xùn)練數(shù)據(jù)集中部分標(biāo)簽正樣本比例相對(duì)較少.為此,本文采用基于BERT的語言模型,根據(jù)裁判文書的數(shù)據(jù)特點(diǎn)從模型構(gòu)建、分類器優(yōu)化等方面對(duì)模型訓(xùn)練過程進(jìn)行改進(jìn),得到了能夠根據(jù)輸入案件事實(shí)文本全面準(zhǔn)確推薦適用法條的推薦模型.
本文剩余部分安排如下:第1節(jié)分別介紹了直接文本學(xué)習(xí)和基于要素標(biāo)注2種不同的法條推薦模式;第2節(jié)介紹數(shù)據(jù)集的構(gòu)成、分布與模型的選擇;第3節(jié)基于裁判文書網(wǎng)獲取并進(jìn)行要素人工標(biāo)注的數(shù)據(jù)集,使用不同的模型進(jìn)行了對(duì)比,詳細(xì)介紹了針對(duì)問題進(jìn)行改進(jìn)和優(yōu)化的模型訓(xùn)練方法;第4節(jié)展示了不同案由下模型的推薦結(jié)果和分析;最后,在第5節(jié)總結(jié)了本文推薦模型的特點(diǎn)和下一步的研究方向.
法條推薦旨在于庭審過程中,根據(jù)變化的案件事實(shí)等數(shù)據(jù)文本通過人工智能模型實(shí)時(shí)自動(dòng)完成推薦適用的法律條款等任務(wù),能減輕司法人員的負(fù)擔(dān),提高審批的效率和質(zhì)量.
1.1 直接文本學(xué)習(xí)的法條推薦模式自2013年中國裁判文書網(wǎng)①上線以來,海量裁判文書可以用于人工智能研究.上述裁判文書具有實(shí)時(shí)性、分類性、規(guī)范性的優(yōu)勢特點(diǎn).
直接文本學(xué)習(xí)法條推薦則是指在法條推薦任務(wù)中,以判決書中法律事實(shí)部分作為輸入,并將該判決書中裁判依據(jù)部分法官引用的法條作為對(duì)應(yīng)的標(biāo)簽,通過語言模型進(jìn)行訓(xùn)練.裁判文書網(wǎng)上的數(shù)據(jù)與文本法條推薦有著很好的契合度,不需要額外的人工標(biāo)注,研究人員可以輕松地篩查數(shù)據(jù),通過程序自動(dòng)對(duì)裁判文書數(shù)據(jù)進(jìn)行適用法條標(biāo)注,從而獲得大量的訓(xùn)練數(shù)據(jù).
然而,這種傳統(tǒng)的法條推薦模式存在以下幾個(gè)缺陷:1) 法條數(shù)量龐大,一個(gè)案由下的法條數(shù)量會(huì)有好幾百條甚至更多,導(dǎo)致模型訓(xùn)練標(biāo)簽數(shù)量過多,會(huì)嚴(yán)重影響模型訓(xùn)練效果與速度;2) 大部分法條使用頻率極少,數(shù)據(jù)量少,模型學(xué)習(xí)困難;3) 法條推送不夠全面,數(shù)據(jù)與輸出結(jié)果往往未能包含針對(duì)性的司法解釋和量刑意見等.
與此同時(shí),司法人員對(duì)常用法條已經(jīng)足夠熟悉,比起傳統(tǒng)的法條精確推薦,更傾向于機(jī)器推薦對(duì)當(dāng)前具體案件具有針對(duì)性的司法解釋和地方法規(guī).
1.2 基于要素標(biāo)注的法條推薦模式要素是指針對(duì)某一案由下所有涉及的法律問題、法律文本進(jìn)行專業(yè)分析、歸納,形成若干個(gè)關(guān)鍵的核心詞語或短語,用以代替某種特定的具有法律涵義的情形或者狀態(tài).這種確定要素的方式存在以下必要性:1) 法院系“依法審判”,其作出的每一個(gè)裁判結(jié)果都必須有法律依據(jù),只有對(duì)應(yīng)相關(guān)的法條,才能在審理過程中具有法律意義,產(chǎn)生相應(yīng)的法律后果,所以針對(duì)事實(shí)文本的分析也必須以法條為依歸;2) 本文的研究目的系針對(duì)事實(shí)文本進(jìn)行法條推薦,所以進(jìn)行要素標(biāo)注的目的也仍然是圍繞法條推薦,因此,每一個(gè)要素的確定都應(yīng)當(dāng)有對(duì)應(yīng)的法條.比如刑法中的累犯、自首、退贓、認(rèn)罪、未遂等,民法中的合同效力、履行期限、違約金、管轄條款等,這些都屬于本文所指的“要素”.
在對(duì)數(shù)據(jù)集進(jìn)行要素標(biāo)注時(shí),筆者組織了法律專業(yè)人員對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行逐一審查后,通過自身的法律專業(yè)判斷,為該數(shù)據(jù)逐一貼上要素標(biāo)簽,使這些基礎(chǔ)數(shù)據(jù)成為經(jīng)過專業(yè)化處理的優(yōu)化數(shù)據(jù),且上述標(biāo)注完成后將由其他同樣具備法律專業(yè)知識(shí)的人進(jìn)行復(fù)核,確保要素標(biāo)注的準(zhǔn)確度.
基于要素標(biāo)注的法條推薦模式與直接文本學(xué)習(xí)不同,在訓(xùn)練中不再以法條作為標(biāo)簽,而是用要素做標(biāo)簽對(duì)案件事實(shí)的文本進(jìn)行人工標(biāo)注,再用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練.該模式首先通過人工整理要素集和要素與法條之間的對(duì)應(yīng)關(guān)系,然后對(duì)事實(shí)文本進(jìn)行要素標(biāo)注,繼而對(duì)這些有要素標(biāo)簽的標(biāo)注數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí),訓(xùn)練得到事實(shí)文本與要素之間的對(duì)應(yīng)關(guān)系.對(duì)新的事實(shí)文本進(jìn)行分析時(shí),模型會(huì)先推送出涉及的要素,每個(gè)要素都有人工整理的對(duì)應(yīng)法條,從而完成對(duì)新的事實(shí)文本進(jìn)行適用法條推薦.
2種法條推薦模式的流程如圖1所示.對(duì)比直接文本法條推薦,要素標(biāo)注模式需要首先進(jìn)行要素的人工整理和標(biāo)注.在模型訓(xùn)練上,由于要素在單個(gè)案由下數(shù)量比法條少得多,降低了模型的標(biāo)簽數(shù)量,改善了標(biāo)簽空間過大的問題,并且要素能更準(zhǔn)確、簡練地抽取法學(xué)特征,難分類樣本的出現(xiàn)也遠(yuǎn)少于傳統(tǒng)法條推薦標(biāo)注.同時(shí)要素與法條之間有合理的法學(xué)解釋與專業(yè)人工整理對(duì)應(yīng)關(guān)系,在實(shí)際使用中,只要要素推薦的準(zhǔn)確率高,則適用法條推薦的準(zhǔn)確率就會(huì)高.
圖 1 直接文本學(xué)習(xí)法條推薦與要素標(biāo)注法條推薦流程
本文從刑事、民事中各自選取一個(gè)案由作為研究對(duì)象,選取案件類型的標(biāo)準(zhǔn)需要具有以下特點(diǎn):1) 案件事實(shí)本身較為復(fù)雜;2) 涉及的法條、司法解釋較多.這不僅使得研究過程更具有難度,而且對(duì)于法條推薦來說更具有實(shí)踐價(jià)值.基于以上選取標(biāo)準(zhǔn),本文在刑事中選取了詐騙罪這一案件類型,而民事中選取了離婚糾紛.
“要素標(biāo)注+法條對(duì)應(yīng)”模式相較于傳統(tǒng)的法條推薦在使用上更為便利.首先,可以根據(jù)不同區(qū)域的需求就法條推薦進(jìn)行區(qū)域性的專屬設(shè)置.不同地區(qū)存在著不同的地方性法規(guī)、地方法院的指導(dǎo)意見等,而要素與法條的對(duì)應(yīng)系人工整理得出的,則可以根據(jù)所處區(qū)域不同進(jìn)行專屬性推送,無需重新學(xué)習(xí).其次,要素所對(duì)應(yīng)的法條可以實(shí)時(shí)更新,包括對(duì)修改的法條進(jìn)行修改、增加新發(fā)布的法律、司法解釋等,而已有的要素?zé)o需更改.
表1為人工專業(yè)整理的部分法條與要素對(duì)應(yīng)關(guān)系示例②.在“要素-法條”對(duì)應(yīng)關(guān)系中,離婚案由對(duì)應(yīng)36個(gè)要素,共計(jì)涉及24個(gè)法條;詐騙案由對(duì)應(yīng)32個(gè)要素,共計(jì)涉及19個(gè)法條.其中,“多對(duì)一”與“一對(duì)多”的情況均出現(xiàn)在要素與法條的對(duì)應(yīng)關(guān)系中.2021年《民法典》正式實(shí)施,只需修改“要素-法條”對(duì)應(yīng)關(guān)系即可繼續(xù)使用.例如,在表1中列舉出的“要素-法條”對(duì)應(yīng)關(guān)系中,詐騙要素對(duì)應(yīng)的法條尚未存在修訂等情況,離婚要素“賭博、吸毒等惡習(xí)”原對(duì)應(yīng)法條為“《婚姻法》第32條”,現(xiàn)對(duì)應(yīng)法條為“《民法典》第1079條”.
表 1 部分要素與法條對(duì)應(yīng)關(guān)系
2.1 數(shù)據(jù)集構(gòu)成與分布本文從中國裁判文書網(wǎng)上公開的裁判文書中隨機(jī)抽取了46 300份離婚案由裁判文書與57 240份詐騙案由裁判文書,這些裁判文書包含了法律事實(shí)與涉案法條等部分.通過抽取其中涉案法條與法律事實(shí)建立了對(duì)應(yīng)關(guān)系,形成了數(shù)據(jù)集1,其中各個(gè)案由中每篇裁判文書標(biāo)簽分布統(tǒng)計(jì)如圖2所示.之后繼續(xù)在中國裁判文書網(wǎng)公開的判決書中隨機(jī)抽取10 000份詐騙罪的刑事判決書與13 200份離婚糾紛的民事判決書,提取了判決書中事實(shí)查明部分的文字作為基礎(chǔ)數(shù)據(jù),并組織法學(xué)專業(yè)人員進(jìn)行要素的人工標(biāo)注,最終得到具有要素標(biāo)注的文本數(shù)據(jù)③,作為本文的數(shù)據(jù)集2,其中各個(gè)案由中每篇裁判文書標(biāo)簽分布統(tǒng)計(jì)如圖3所示.
圖 2 數(shù)據(jù)集1中各個(gè)案由中每篇裁判文書標(biāo)簽分布統(tǒng)計(jì)
數(shù)據(jù)集2的標(biāo)注過程如下:首先提取數(shù)據(jù)集中裁判文書的法律事實(shí)部分,然后按照要素對(duì)該部分進(jìn)行人工標(biāo)注.要素標(biāo)注在遵循庭審與法律的邏輯的同時(shí),極大地降低了傳統(tǒng)法條推薦任務(wù)中的維度,減輕了后續(xù)模型訓(xùn)練的負(fù)擔(dān).這里選取法院事實(shí)認(rèn)定部分,目的在于以下幾點(diǎn):1) 判決文書的查明事實(shí)部分存在大量其他案件事實(shí)的描述,對(duì)法條推薦任務(wù)沒有直接聯(lián)系;2) 擯棄了指控與辯護(hù)意見等文字部分,最大程度上還原事實(shí)本身;3) 法院事實(shí)認(rèn)定部分用語相對(duì)精煉、專業(yè),有利于對(duì)該事實(shí)做出性質(zhì)判斷.因此,為了保障案件還原的完整性和標(biāo)注的有效性,本文進(jìn)行要素標(biāo)注時(shí)選取了法院事實(shí)認(rèn)定的一整段文本作為標(biāo)注對(duì)象.
數(shù)據(jù)集1中,離婚案由共計(jì)667個(gè)不同的涉案法條,平均每篇裁判文書包含了2.27個(gè)法條標(biāo)簽.詐騙案由共計(jì)638個(gè)涉案法條,平均每篇裁判文書包含了5.11個(gè)法條標(biāo)簽.將出現(xiàn)頻率低于20%的標(biāo)簽歸為“其他”,故圖2中“其他”包含了超過500個(gè)標(biāo)簽,數(shù)據(jù)集1為不均衡數(shù)據(jù)集.這是由庭審流程與法律條款本身的特點(diǎn)決定的,也是適用法條推薦中時(shí)常遇到的問題,在模型訓(xùn)練時(shí)優(yōu)化難度較高.
由圖3可知,在數(shù)據(jù)集2的離婚案由中,共計(jì)36個(gè)要素,平均每篇裁判文書被標(biāo)注了1.00個(gè)標(biāo)簽.詐騙案由中,共計(jì)32個(gè)要素,平均每篇裁判文書被標(biāo)注了3.03個(gè)標(biāo)簽.數(shù)據(jù)集2同樣存在數(shù)據(jù)不平衡的問題,但相較于數(shù)據(jù)集1已經(jīng)得到明顯改善.
大部分現(xiàn)有經(jīng)典分類數(shù)據(jù)集的正負(fù)標(biāo)簽比例以及標(biāo)簽數(shù)量更為均衡.例如:ChnSentiCorp_htl_all④數(shù)據(jù)集包含7 000多條評(píng)論,正向評(píng)論約占5 000條,負(fù)向評(píng)論約占2 000條;Simplifyweibo_4_moods⑤數(shù)據(jù)集包含了36萬條數(shù)據(jù)以及4類情感,“喜悅”約占20萬條,“憤怒、厭惡、低落”各約5萬條;今日頭條新聞數(shù)據(jù)集⑥共計(jì)約38萬條,15個(gè)標(biāo)簽,其中正樣本占比低于10%的僅有1類.
從統(tǒng)計(jì)的角度來講,隨機(jī)抽取裁判文書是合理的,但是作為針對(duì)深度學(xué)習(xí)的數(shù)據(jù)集而言,抽取的裁判文書仍然存在樣本分布不均的問題,部分要素在訓(xùn)練過程中仍會(huì)面臨正樣本過少的問題;這是在訓(xùn)練模型時(shí)需要解決的主要問題.
2.2 模型選擇不均衡數(shù)據(jù)集是深度學(xué)習(xí)模型訓(xùn)練中的難點(diǎn)之一.2019年,Geng等[15]將帶有Self-attention的Bi-lstm塊對(duì)輸入文本進(jìn)行編碼,從而將Few-shot方法與Attention進(jìn)行結(jié)合,緩解了不均衡數(shù)據(jù)集帶來的困難.基于此,本文將使用基于BERT的語言模型,來訓(xùn)練法律事實(shí)與要素之間的對(duì)應(yīng)關(guān)系.
Attention是BERT中最為核心的機(jī)制.在BERT中,Attention機(jī)制負(fù)責(zé)實(shí)現(xiàn)特征提取,并取代了RNN與CNN.首先對(duì)于輸入的句子,BERT會(huì)對(duì)其進(jìn)行編碼,其值為詞向量信息、句子分割信息以及詞位置信息的和.其中,詞向量信息(token-embeddings)是根據(jù)詞表生成,句子分割信息(segment-embeddings)根據(jù)中文中的逗號(hào)以及句號(hào)進(jìn)行分割.BERT的詞位置嵌入信息(position-embeddings)在編碼中的公式如下:
(1)
(2)
詞向量維度dmodel取32,即每個(gè)單詞的位置信息將被編碼成32維的向量;pos最大值取值為100,即在這個(gè)句子中共計(jì)100個(gè)單詞.可以觀察到,不同位置的詞對(duì)應(yīng)的向量存在差異,詞語在句子中的位置信息被很好地記錄下來.最終,針對(duì)段落的編碼可以寫為
Tensor_embedding=
Token+Segment+Position.
(3)
在一個(gè)Attention層中內(nèi)置了WQ、WK、WV這3個(gè)可訓(xùn)練的矩陣.當(dāng)一段文本以Tensor的形式進(jìn)入Self-attention層中后會(huì)以矩陣相乘的方式生成對(duì)應(yīng)的Q、K與V,最后通過上述公式計(jì)算得出Attention層的輸出矩陣Z.
Q=Tensor*WQ,
(4)
K=Tensor*WK,
(5)
V=Tensor*WV,
(6)
(7)
(8)
注意到在(3)式中生成Tensor_embedding時(shí),3個(gè)embedding的模長均為1,故(7)式中QKT的大小可以表示該Attention塊中輸入的query與key的關(guān)聯(lián)程度,其值越大代表兩者關(guān)聯(lián)度越高.最終Self-attention輸出的矩陣Z記錄了一個(gè)句子中各個(gè)單詞與句內(nèi)其他單詞的關(guān)聯(lián)度,不同于傳統(tǒng)的NLP語言模型,BERT主要在以下方面進(jìn)行了創(chuàng)新:1) 使用了雙向Transformer連接,增加了句段中各個(gè)句子前后的聯(lián)系,使得模型能夠捕捉上下文信息;2) 支持模型預(yù)訓(xùn)練,能針對(duì)不同的下游任務(wù)更針對(duì)性地優(yōu)化模型;3) 支持通過遮蔽語言模型來挖掘和搜索文本序列內(nèi)部的隱藏關(guān)系;4) embedding方面選擇了詞向量嵌入信息(token-embeddings)、句子分割嵌入信息(segment-embeddings)以及詞位置嵌入信息(position-embeddings)3部分構(gòu)成.
雖然BERT在NLP領(lǐng)域中大部分?jǐn)?shù)據(jù)集上刷新了精度,但Attention機(jī)制存在局部信息捕捉過弱的隱患.由于實(shí)際計(jì)算能力的限制,當(dāng)句子超過一定數(shù)量時(shí)多出來的詞將被程序忽略掉.目前,NLP領(lǐng)域中大部分實(shí)驗(yàn)也是將BERT與RNN、CNN等思想結(jié)合.
與文獻(xiàn)[16]類似,本文實(shí)驗(yàn)選擇了BERT中的Position-embedding,并分別在BERT后接入了Bi-LSTM、RCNN、RNN與LSTM進(jìn)行了對(duì)比.通過將BERT提取的特征輸入后續(xù)模型,進(jìn)行進(jìn)一步特征提取.
2.3 模型預(yù)訓(xùn)練本文針對(duì)不同案由進(jìn)行了預(yù)訓(xùn)練.在預(yù)訓(xùn)練中,BERT將使用無標(biāo)注數(shù)據(jù)記錄不同案由下的語義特征.分別使用數(shù)據(jù)集1中的離婚裁判文書與詐騙裁判文書的法律事實(shí)部分形成無標(biāo)記數(shù)據(jù),構(gòu)建了2個(gè)不同案由下的預(yù)訓(xùn)練模型.不同領(lǐng)域的法律事實(shí)主要涉及的詞語差異較大,預(yù)訓(xùn)練后模型在不同案由下的針對(duì)性更強(qiáng).
本文將數(shù)據(jù)集2中90%劃為訓(xùn)練集、5%劃為測試集、5%劃為預(yù)測集,并根據(jù)案由的不同加載訓(xùn)練集1中得出的預(yù)訓(xùn)練模型,訓(xùn)練本文案件事實(shí)與要素的對(duì)應(yīng)關(guān)系.
3.1 評(píng)估指標(biāo)與模型參數(shù)選取考慮到BERT使用的Attention機(jī)制存在局部信息捕捉弱的風(fēng)險(xiǎn),本文在BERT后分別接入了RCNN、Bi-LSTM、RNN與LSTM,并使用數(shù)據(jù)集2中的訓(xùn)練集與測試集進(jìn)行訓(xùn)練,對(duì)模型在預(yù)測集上的表現(xiàn)進(jìn)行評(píng)估.
評(píng)估指標(biāo)使用的是宏平均下的F1分?jǐn)?shù),即準(zhǔn)確率P(precision)與召回率R(recall)的調(diào)和平均.首先,準(zhǔn)確率與召回率的計(jì)算公式為:
(9)
(10)
其中,TP(truepositive)表示預(yù)測為正且實(shí)際也為正的樣本,FP(falsepositive)表示預(yù)測為正實(shí)際為負(fù)的樣本,FN(falsenegative)表示預(yù)測為負(fù)實(shí)際為正的樣本.宏平均下的準(zhǔn)確率與召回率如下:
(11)
(12)
其中,Si表示第i的標(biāo)簽的正樣本數(shù)量總和,n表示標(biāo)簽總數(shù),{Si|i=1,2,…,n}表示全體標(biāo)簽所組成的集合.接著對(duì)宏平均下的準(zhǔn)確率與召回率求調(diào)和平均即得宏平均下的F1分?jǐn)?shù)
(13)
本文實(shí)驗(yàn)的軟件環(huán)境為Ubuntu 20.04.3,代碼基于Tensorflow(版本1.13.1)進(jìn)行開發(fā).在訓(xùn)練超參數(shù)設(shè)定上,選擇文本分類任務(wù)常用預(yù)設(shè)初始值,BERT向量化維度設(shè)為768,讀取字符最大長度為512,訓(xùn)練最小批量為128,迭代epoch次數(shù)為40,學(xué)習(xí)率指數(shù)采取衰減策略,損失函數(shù)選擇如下公式[17]
Focal_loss=
(14)
其中,p表示模型輸出的預(yù)測概率值,y為真實(shí)數(shù)據(jù)(真則y=1,否則y=0),α的取值決定了模型對(duì)正樣本的關(guān)注程度,γ的取值決定了模型對(duì)難分類樣本的關(guān)注程度.
相較于傳統(tǒng)的交叉熵?fù)p失函數(shù),Focal_loss在不均衡數(shù)據(jù)集、難分類樣本上的表現(xiàn)更好,適合作為本文訓(xùn)練案件事實(shí)與要素關(guān)系的損失函數(shù).本文直接使用BERT模型進(jìn)行訓(xùn)練,關(guān)于Focal_loss中α取值進(jìn)行了實(shí)驗(yàn),在(0,1)上以0.05為步長分別驗(yàn)證了模型精度,最后發(fā)現(xiàn)α=0.4、γ=2時(shí),模型在數(shù)據(jù)集1與2上均有較優(yōu)的表現(xiàn),后續(xù)研究將以此為基礎(chǔ).
3.2 分類器優(yōu)化從上述分析中可以發(fā)現(xiàn)不同要素之間分布不均,這是法條推薦任務(wù)必須解決的難題.在實(shí)驗(yàn)中發(fā)現(xiàn)由于數(shù)據(jù)集中正樣本比例偏少,模型輸出的預(yù)測值往往低于0.5,這干擾了模型在大部分標(biāo)簽上的判斷.針對(duì)這一情況,本文采用閾值移動(dòng)對(duì)模型訓(xùn)練過程進(jìn)行了優(yōu)化.
閾值移動(dòng)是指在模型訓(xùn)練過程中,使分類器中預(yù)測閾值被調(diào)整為超參數(shù)錄入模型.語言模型執(zhí)行分類任務(wù)時(shí)將會(huì)針對(duì)每一個(gè)標(biāo)簽輸出一個(gè)概率值,當(dāng)概率值大于某一個(gè)閾值時(shí)模型輸出為是,反之為否.在模型訓(xùn)練結(jié)束后,模型會(huì)在測試集上進(jìn)行預(yù)測.加入了閾值移動(dòng)的模型將針對(duì)每個(gè)標(biāo)簽在0至1之間以F1分?jǐn)?shù)作為指標(biāo)篩選閾值,并記錄下模型在測試集上的表現(xiàn),最終對(duì)每個(gè)標(biāo)簽篩選出最合適的閾值.本文以0.01為步長進(jìn)行篩選,并將篩選的結(jié)果以超參數(shù)的形式錄入了模型.例如在詐騙案由中,標(biāo)簽“累犯”的閾值為0.33(模型預(yù)測“累犯”的概率值大于0.33,則輸出為是).以詐騙案由為例,部分標(biāo)簽的閾值見表2.觀察可知由于數(shù)據(jù)集正樣本比例較少,多數(shù)標(biāo)簽最佳閾值均為0.5以下.顯然若以0.5為閾值的話,模型在大部分標(biāo)簽上的表現(xiàn)都會(huì)受到影響.
表 2 部分標(biāo)簽最佳閾值與正樣本占比
除此之外,由于訓(xùn)練數(shù)據(jù)系從裁判文書網(wǎng)上隨機(jī)取樣,與法院受理案件有極高的相關(guān)性,故針對(duì)每個(gè)要素的最佳閾值錄入模型后對(duì)之后模型投入實(shí)際使用具有積極的影響.
表3為不同模型在2個(gè)案由下F1分?jǐn)?shù).觀察可知,離婚案由表現(xiàn)最好的模型為BERT+RCNN,詐騙案由表現(xiàn)最好的模型為BERT+Bi-LSTM.首先,本文嘗試了SVM、RNN與LSTM,其中詞嵌入部分與后續(xù)實(shí)驗(yàn)相同,均包含位置信息;同時(shí)對(duì)比了fastText(實(shí)驗(yàn)方法與參數(shù)設(shè)置見文獻(xiàn)[11]);加入了BERT部分后,模型表現(xiàn)均優(yōu)于機(jī)器學(xué)習(xí)模型.
之后嘗試了BERT和BERT后接單向或雙向語言模型.其中,BERT后接入LSTM與RNN后表現(xiàn)會(huì)降低,且與fastText不相上下.BERT后接入雙向語言模型后模型表現(xiàn)會(huì)得到穩(wěn)定的提升.
表 3 不同模型在各個(gè)案由下的F1分?jǐn)?shù)
分析表3可以得到以下結(jié)論:
1) RCNN與Bi-LSTM均為雙向模型,LSTM與RNN均為單向模型.BERT后接入雙向模型可提升模型表現(xiàn),均優(yōu)于BERT本身.這可能是BERT使用了雙向Transformer結(jié)構(gòu),單向的語言模型會(huì)對(duì)BERT提取的特征造成干擾,而雙向的語言模型能一定程度上彌補(bǔ)BERT使用Attention機(jī)制帶來的風(fēng)險(xiǎn).
2) 分類器優(yōu)化后模型表現(xiàn)均能得到大幅度提升.由于數(shù)據(jù)集正樣本比例較少,對(duì)于正樣本少的標(biāo)簽?zāi)P洼敵龅母怕手低鶗?huì)偏低.對(duì)分類器進(jìn)行優(yōu)化后可以顯著地改善這個(gè)問題.
完成以上工作后,輸入案件事實(shí)的文本,首先通過分類模型得到對(duì)應(yīng)的要素,再基于事先建立的要素與法條的對(duì)應(yīng)關(guān)系實(shí)現(xiàn)適用法條的推薦.由于要素-法條對(duì)應(yīng)關(guān)系是法學(xué)專業(yè)人員人工整理建立,可以認(rèn)為這一步?jīng)]有誤差,從而表3要素推斷的F1分?jǐn)?shù)值即可以作為最終法條推薦的精度衡量指標(biāo).
接下來討論要素標(biāo)注模式與傳統(tǒng)法條推薦模式的對(duì)比.
4.1 評(píng)估指標(biāo)與數(shù)據(jù)集選取本文以宏觀下的F1分?jǐn)?shù)作為評(píng)估指標(biāo),同時(shí)為了控制變量,只選取要素所對(duì)應(yīng)的法條的集合進(jìn)行計(jì)算,即離婚案由中24個(gè)與詐騙案由中的19個(gè)法條.
本文從數(shù)據(jù)集1中2個(gè)案由分別抽取1%的數(shù)據(jù),分別對(duì)其使用傳統(tǒng)法條推薦與“要素-法條”推薦模型.其中“要素-法條”推薦模型在不同案由上根據(jù)表3選擇精度最高的模型.
4.2 實(shí)驗(yàn)結(jié)果與樣本案例展示經(jīng)過實(shí)驗(yàn)得知:在離婚與詐騙案由中,傳統(tǒng)法條推薦F1分?jǐn)?shù)分別為0.760 9與0.735 7,“要素-法條”推薦模式分別為0.821 1與0.761 6,高于傳統(tǒng)法條推薦,在庭審輔助系統(tǒng)中能有更高的精度.
除此之外,要素標(biāo)注模式具有更好的適應(yīng)性.2021年,《中華人民共和國民法典》正式施行,婚姻法、繼承法、民法通則、收養(yǎng)法、擔(dān)保法、合同法、物權(quán)法、侵權(quán)責(zé)任法、民法總則同時(shí)廢止,文本學(xué)習(xí)推薦模式的模型將需要重新訓(xùn)練;而要素標(biāo)注推薦模型不需要重新訓(xùn)練,只需修改要素所對(duì)應(yīng)的法條,即可繼續(xù)投入使用.
本文使用基于BERT的語言模型,以數(shù)據(jù)集1作為語料庫對(duì)模型進(jìn)行了預(yù)訓(xùn)練.在此基礎(chǔ)上使用數(shù)據(jù)集2中的要素標(biāo)注數(shù)據(jù)訓(xùn)練了要素推斷模型,極大改善了傳統(tǒng)法條推薦任務(wù)中標(biāo)簽數(shù)量過多的難題,取得了更高的法條推薦精度,并且能夠根據(jù)案件事實(shí)文本推薦具有針對(duì)性的地方法規(guī)和司法解釋.同時(shí)本文實(shí)驗(yàn)探索了BERT與傳統(tǒng)語言模型的契合度,并在數(shù)據(jù)不均衡問題上尋找了一種可能的改善方案.
本文研究的要素在法學(xué)上不僅與適用法條相關(guān),還與涉案證據(jù)等庭審因素有類似的對(duì)應(yīng)關(guān)系,后續(xù)研究將嘗試把要素推薦模型運(yùn)用到智慧法院建設(shè)的其他場景中,以充分發(fā)揮該模式的最大價(jià)值.
注釋
① 中國裁判文書網(wǎng)地址:https://wenshu.court.gov.cn/.
② 《婚姻法》于1981年起開始實(shí)行,2021年1月1日廢止,同時(shí)《民法典》實(shí)行.
③ 標(biāo)注數(shù)據(jù)集樣本示例地址:https://github.com/OpenWaygate/Law-article-recommendation.
④ChnSentiCorp_htl_all數(shù)據(jù)集下載地址:https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv.
⑤Simplifyweibo_4_moods數(shù)據(jù)集下載地址:https://pan.baidu.com/s/16c93E5x373nsGozyWevITg#list/path=%2F.
⑥ 今日頭條新聞數(shù)據(jù)集下載地址:https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset.