翁 洋,谷松原,李 靜,王 楓,李俊良,李 鑫
(1. 四川大學(xué)數(shù)學(xué)學(xué)院,成都 610064;2. 四川大學(xué)法學(xué)院,成都 610207;3. 數(shù)之聯(lián)科技有限公司,成都 610041)
國(guó)務(wù)院先后發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》、《新一代人工智能發(fā)展規(guī)劃》,將大數(shù)據(jù)和人工智能發(fā)展正式上升到國(guó)家戰(zhàn)略[1].近年來(lái),最高人民法院積極推動(dòng)人工智能在司法領(lǐng)域的應(yīng)用向縱深處延展,為司法領(lǐng)域內(nèi)人工智能的應(yīng)用研究提供了時(shí)代契機(jī).在國(guó)家政策的強(qiáng)力推動(dòng)下,法院信息化建設(shè)工作蓬勃發(fā)展,法院信息化走向3.0 階段,智慧法院已經(jīng)成為中國(guó)法院組織、運(yùn)行和管理的一種新的形態(tài).法院的司法公開(kāi)工作也取得重大進(jìn)展,截至2019年12 月,已經(jīng)有超過(guò)八千萬(wàn)份的裁判文書(shū)上網(wǎng),為法律人工智能的實(shí)踐和研究提供了海量的數(shù)據(jù)資源.
裁判文書(shū)是記載司法審判活動(dòng)過(guò)程,明確當(dāng)事人權(quán)利義務(wù)的司法產(chǎn)品[2],是司法活動(dòng)成果的重要載體,也是研究法律文本信息的重要資源.裁判文書(shū)蘊(yùn)含豐富的案件審判活動(dòng)信息,其中案情事實(shí)、法律適用等信息尤為關(guān)鍵.基于案件關(guān)鍵審判信息,宏觀層面,可以進(jìn)行法律法規(guī)實(shí)施效果評(píng)估、訴訟制度改革效果評(píng)價(jià)等方面的研究;微觀層面,可以進(jìn)行裁判文書(shū)質(zhì)量評(píng)估、案件復(fù)雜度測(cè)算等具體法律問(wèn)題的研究.同時(shí),也為基于裁判文書(shū)的類案推薦、裁判結(jié)果預(yù)測(cè)、智能問(wèn)答等法律人工智能應(yīng)用研究提供重要的要素指標(biāo).但是,裁判文書(shū)基本以純文本形式公開(kāi),屬于典型的非結(jié)構(gòu)化數(shù)據(jù)[3],不同性質(zhì)的內(nèi)容的結(jié)構(gòu)和形式可以說(shuō)是完全不同的,而且因法院、法官、案由、撰寫(xiě)時(shí)間、表述風(fēng)格等因素的不同,即使是相同性質(zhì)的內(nèi)容也都有著較大差異,這就使得從裁判文書(shū)中準(zhǔn)確地識(shí)別和抽取信息變得十分困難.面對(duì)海量的裁判文書(shū),人工處理不僅要耗費(fèi)大量的時(shí)間和精力,還可能因?yàn)闃?biāo)準(zhǔn)難以統(tǒng)一、過(guò)程難以控制而效果較差.因此,十分有必要探索基于規(guī)范要求的自動(dòng)化的裁判文書(shū)結(jié)構(gòu)化方法和路徑,將形態(tài)各異的裁判文書(shū)轉(zhuǎn)化為機(jī)器更易識(shí)別的、更為標(biāo)準(zhǔn)化的文本數(shù)據(jù),為人工智能在法律領(lǐng)域更為廣泛地應(yīng)用提供數(shù)據(jù)基礎(chǔ).裁判文書(shū)根據(jù)案件類型,分為刑事、民事、行政、賠償、執(zhí)行、其他等共計(jì)6 類案件,其中民事案件文書(shū)占比達(dá)半數(shù)以上.在民事案件文書(shū)中,一審普通程序裁判文書(shū)占比超過(guò)80%,截至2019 年12 月,其數(shù)量超過(guò)兩千萬(wàn)份.此外,該類文書(shū)表達(dá)多樣性的特點(diǎn)更為突出,因此本文選取民事一審普通程序裁判文書(shū)作為研究樣本.
裁判文書(shū)結(jié)構(gòu)化是指對(duì)文書(shū)段落打上相應(yīng)標(biāo)簽,屬于文本分類任務(wù).標(biāo)簽包含標(biāo)題、首部、事實(shí)、理由、裁判依據(jù)、判決主文、尾部、落款、附錄9 大類.目前的結(jié)構(gòu)化方法因未考慮到裁判文書(shū)的上下文段落標(biāo)簽的結(jié)構(gòu)特征,結(jié)構(gòu)化效果較差.本文考慮將一種基于注意力機(jī)制的雙向編碼表征模型(bidirectional encoder representations from transformers,BERT)模型與雙向的帶條件隨機(jī)場(chǎng)的長(zhǎng)短期記憶(bidirectional long short-term memory conditional random field,Bi-LSTM-CRF)序列標(biāo)注模型結(jié)合,首先依據(jù)最高人民法院下發(fā)的工作文件,并結(jié)合司法實(shí)務(wù)中的文書(shū)表達(dá)多樣性整理民事一審普通程序裁判文書(shū)的標(biāo)簽體系;其次采用文本分類模型BERT 模型提取語(yǔ)義特征信息,作為段落的語(yǔ)義表示;最后,根據(jù)段落的語(yǔ)義內(nèi)容,考慮文書(shū)上下文段落標(biāo)簽的結(jié)構(gòu)特征,以篇章為輸入,應(yīng)用Bi-LSTM-CRF 模型進(jìn)行序列標(biāo)注,給文書(shū)段落打上相應(yīng)標(biāo)簽,得到了幾乎完全準(zhǔn)確的段落文本分類結(jié)果.這種基于段落上下文的序列標(biāo)注方法利用了裁判文書(shū)特有的段落結(jié)構(gòu)信息,能夠較好地提取語(yǔ)義特征信息,從而能夠完整地利用到整篇裁判文書(shū)的信息,不會(huì)有信息損失,成功實(shí)現(xiàn)了裁判文書(shū)的結(jié)構(gòu)化任務(wù).
綜上所述,本文首先實(shí)現(xiàn)了既符合最高人民法院裁判文書(shū)規(guī)范化改革,也滿足司法實(shí)務(wù)邏輯,同時(shí)兼顧到機(jī)器處理的技術(shù)需求的民事一審普通程序裁判文書(shū)的標(biāo)簽體系梳理;其次改進(jìn)了裁判文書(shū)結(jié)構(gòu)化方法,完整地利用了文書(shū)段落的語(yǔ)義信息和上下文段落標(biāo)簽的結(jié)構(gòu)信息;最后基于該方法實(shí)現(xiàn)了良好的結(jié)構(gòu)化效果,為基于裁判文書(shū)本身的體例研究、質(zhì)量評(píng)估提供參考工具,為裁判文書(shū)中的關(guān)鍵審判信息的提取奠定基礎(chǔ).
目前在法學(xué)領(lǐng)域內(nèi)存在兩種裁判文書(shū)結(jié)構(gòu)化方法.一是正則表達(dá)式匹配,即通過(guò)正則表達(dá)式匹配進(jìn)行相應(yīng)段落的標(biāo)簽確定[4].該方法考慮到了裁判文書(shū)中的規(guī)范性表達(dá),但是依托于海量裁判文書(shū)的正則表達(dá)式無(wú)法窮盡,存在著現(xiàn)有的正則表達(dá)式無(wú)法實(shí)現(xiàn)新增裁判文書(shū)的結(jié)構(gòu)化處理的困境,也存在著正則表達(dá)式之間彼此可能存在沖突的難題,這是基于正則表達(dá)式本身的弊端.就裁判文書(shū)的表達(dá)而言,部分段落的正則表達(dá)一致,如“原告訴稱”“被告辯稱”“第三人陳述”等段落,在語(yǔ)義上沒(méi)有明顯區(qū)分,但因其屬于不同的結(jié)構(gòu)位置,而分屬于不同段落,正則表達(dá)式無(wú)法解決這一問(wèn)題,從而無(wú)法實(shí)現(xiàn)良好的結(jié)構(gòu)化效果.二是基于文本分類模型的結(jié)構(gòu)化方法,裁判文書(shū)結(jié)構(gòu)化任務(wù)實(shí)際上就是段落文本的多分類問(wèn)題.傳統(tǒng)的分類方法一般先對(duì)文本做預(yù)處理,利用連續(xù)的詞袋模型、向量空間模型[5]或基于主題特征[6]的向量表示方法等多種方式進(jìn)行文本表示,提取特征,然后用分類器對(duì)分類結(jié)果進(jìn)行預(yù)測(cè)[7],但是傳統(tǒng)的分類方法提取特征的能力很差,并且需要大量的人工進(jìn)行特征工程.單詞的分布式表示[8]的提出和有效應(yīng)用把高稀疏的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)能有效處理的數(shù)據(jù),在圖像處理中基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模型[9]、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型[10]以及它們的變體[11]的分類方法得以在文本數(shù)據(jù)中使用.因此基于深度學(xué)習(xí)的文本分類方法得以大顯身手,端到端地解決問(wèn)題,有較強(qiáng)的特征自抽取能力,能夠顯著降低傳統(tǒng)的文本分類方法中人工抽取特征的難度.2014 年,Kim[12]提出了文本循環(huán)神經(jīng)網(wǎng)絡(luò)(text convolutional neural networks,TextCNN)模型,TextCNN 模型并行能力強(qiáng)、網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、參數(shù)數(shù)目少、計(jì)算量少、訓(xùn)練速度快、卷積網(wǎng)絡(luò)能夠有效地提取特征.但是TextCNN 模型中全局的池化操作(pooling)中丟失了結(jié)構(gòu)信息.在此基礎(chǔ)上,也可以考慮利用字向量嵌入CNN 模型對(duì)文本進(jìn)行分類[13],但同樣只能提取局部特征.快速文本分類(fast text classifier,F(xiàn)astText)模型[14]網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)捷,訓(xùn)練速度相比TextCNN 模型更快,但是效果略差于TextCNN 模型.文本遞歸神經(jīng)網(wǎng)絡(luò)(text recurrent neural network,TextRNN)模型相比TextCNN 模型,能夠提取更遠(yuǎn)距離的上下文信息,但是模型參數(shù)多、并行能力差,二者各有優(yōu)劣[14],本文選用TextCNN 模型作為基線模型.
BERT 模型由Devlin 等[15]提出,該模型是經(jīng)過(guò)大型文本語(yǔ)料庫(kù)訓(xùn)練后獲得的通用的“語(yǔ)言理解”模型,是首個(gè)用于自然語(yǔ)言處理進(jìn)行預(yù)訓(xùn)練的無(wú)監(jiān)督、深度雙向系統(tǒng).BERT 模型的優(yōu)勢(shì)是提取特征的能力強(qiáng),解決了一般的詞向量方法無(wú)法處理一詞多義問(wèn)題的困難,并且能夠適用各種自然語(yǔ)言處理任務(wù),針對(duì)不同的自然語(yǔ)言處理任務(wù),只需在微調(diào)時(shí)對(duì)模型進(jìn)行改動(dòng),調(diào)整參數(shù)即可.針對(duì)文本分類任務(wù),只需要在微調(diào)時(shí)在需要分類的文本前加上起始符號(hào)[CLS],最后加上全連接層進(jìn)行分類預(yù)測(cè).
以上模型基于文本段落的語(yǔ)義本身進(jìn)行標(biāo)簽匹配,對(duì)于裁判文書(shū)中語(yǔ)義沒(méi)有明顯區(qū)別的段落,沒(méi)有考慮到裁判文書(shū)本身存在的結(jié)構(gòu)性特征、段落級(jí)別的上下文語(yǔ)義之間的關(guān)系,難以進(jìn)行精準(zhǔn)匹配.裁判文書(shū)本身的結(jié)構(gòu)性信息使得段落標(biāo)簽有一定的關(guān)系,想要利用段落之間標(biāo)簽的信息,可以從Bi-LSTM-CRF模型得到啟發(fā).Bi-LSTM-CRF 模型結(jié)合了雙向長(zhǎng)短期記憶(bidirectional long short-term memory,Bi-LSTM)模型和條件隨機(jī)場(chǎng)(conditional random field,CRF)模型的優(yōu)點(diǎn)[16],不僅能利用上下文的語(yǔ)義信息,而且能學(xué)習(xí)前后標(biāo)簽之間的信息[17],提高分類預(yù)測(cè)的準(zhǔn)確度.RNN、長(zhǎng)短期記憶模型(long short-term memory,LSTM)、Bi-LSTM 等模型能有效地學(xué)習(xí)上下文之間的信息,但考慮到段落標(biāo)簽之間有一定的限制,因此利用CRF 模型將整個(gè)句子的局部特征加權(quán),學(xué)習(xí)標(biāo)簽之間的關(guān)系,最終得到最優(yōu)的分類結(jié)果.這種將兩種模型聯(lián)合訓(xùn)練得到最終的序列標(biāo)注模型的方法在詞法分析、序列標(biāo)注、命名實(shí)體識(shí)別等自然語(yǔ)言處理的任務(wù)種是很常見(jiàn)的[18-19].
基于以上思路,考慮將Bi-LSTM-CRF 模型用于裁判文書(shū)結(jié)構(gòu)化任務(wù).詞法分析等任務(wù)是針對(duì)句子級(jí)別的任務(wù),但是裁判文書(shū)結(jié)構(gòu)化任務(wù)針對(duì)段落進(jìn)行分類.因此本文考慮將BERT 模型與將Bi-LSTM-CRF模型結(jié)合,首先對(duì)整篇裁判文書(shū)進(jìn)行段落級(jí)別的特征向量提取,再將整篇裁判文書(shū)作為Bi-LSTM-CRF 模型的輸入,進(jìn)行段落級(jí)別的標(biāo)簽匹配任務(wù).這一方法將整篇文書(shū)作為標(biāo)注對(duì)象,考慮裁判文書(shū)的結(jié)構(gòu)性特征,段落標(biāo)簽之間有一定的順序和限制,利用CRF 模型對(duì)相應(yīng)段落標(biāo)簽的信息進(jìn)行學(xué)習(xí),最終得以匹配最合適的標(biāo)簽.本文的實(shí)驗(yàn)結(jié)果證明,基于BERT 的Bi-LSTM-CRF 模型在對(duì)裁判文書(shū)的段落進(jìn)行標(biāo)簽匹配時(shí),與基線模型相比,準(zhǔn)確度和F1值都有很大的提升,得到了幾乎完全準(zhǔn)確的結(jié)構(gòu)化結(jié)果.
裁判文書(shū)結(jié)構(gòu)化是指對(duì)文書(shū)段落打上相應(yīng)標(biāo)簽,屬于文本分類任務(wù).裁判文書(shū)具有上下文段落標(biāo)簽的結(jié)構(gòu)特征,即在同一篇裁判文書(shū)中,段落標(biāo)簽出現(xiàn)的順序有一定的規(guī)律,如“法院認(rèn)定事實(shí)”段落在“法院說(shuō)理”段落前,而上下文的標(biāo)簽信息,是文書(shū)結(jié)構(gòu)信息的參考指標(biāo).
2.2.1 TextCNN 模型
TextCNN 模型[12]借鑒了傳統(tǒng)CNN 模型的思想,類比圖像處理中的像素點(diǎn),針對(duì)段落級(jí)別的多分類問(wèn)題,TextCNN 模型選擇將一個(gè)自然段落中每個(gè)詞的詞向量拼接起來(lái)形成段落矩陣,作為輸入.因?yàn)橐粋€(gè)段落中處在相鄰位置的詞語(yǔ)是有一定聯(lián)系的,因此在卷積層選取大小不同的多個(gè)卷積核進(jìn)行處理,用以提取特征,這樣不僅考慮了單個(gè)詞語(yǔ)的語(yǔ)義信息,也考慮了該詞語(yǔ)在段落中的上下文的信息.在池化層選取了一維最大值池化(1-max-pooling)將卷積層得到的多個(gè)特征向量中的最大值取出,拼在一起得到段落級(jí)別的向量v,這個(gè)向量可以作為段落的特征表示.如果處理文本分類任務(wù),則在池化層后面加上全連接層,用于計(jì)算段落屬于每一個(gè)類別的概率,選取概率值最大的一類作為預(yù)測(cè)結(jié)果.
2.2.2 BERT 模型
BERT 模型[15]是一種無(wú)監(jiān)督的深層雙向系統(tǒng),采用一種基于注意力機(jī)制的編碼- 解碼框架(Transformer)的編碼器作為主體模型結(jié)構(gòu),對(duì)文本建模,由此得到文本中每個(gè)詞新的表示,這一表示不僅包含其本身的意思,還包括了文本上下文的信息.BERT 模型的預(yù)訓(xùn)練過(guò)程有2 個(gè)任務(wù);第1 個(gè)任務(wù)是帶掩碼的語(yǔ)言模型,隨機(jī)選取15%的位置的詞,選擇將該詞挖去、替換或保持不變,利用語(yǔ)言模型去預(yù)測(cè)該位置的正確單詞,便于利用文本上下文信息;第2個(gè)任務(wù)是預(yù)測(cè)兩個(gè)句子之間的關(guān)系,給定兩個(gè)句子s1和s2,預(yù)測(cè) s2是否為接在s1后出現(xiàn)的句子,便于學(xué)習(xí)文本片段上下文之間的信息.考慮將BERT 模型用于特定的段落級(jí)別的文本分類任務(wù)時(shí),只需要在微調(diào)階段,在待分類的段落前面加上符號(hào)[CLS],在模型訓(xùn)練的過(guò)程中,[CLS]這個(gè)符號(hào)也有對(duì)應(yīng)的向量表示,將這一向量表示視為段落的特征表示,記為p,如圖1 所示,在Bi-LSTM-CRF 模型中仍會(huì)用到這一特征表示.在這一向量表示后加上全連接層,即可計(jì)算段落屬于每一個(gè)類別的概率,選取概率值最大的一類作為分類預(yù)測(cè)結(jié)果.
圖1 用于提取段落特征表示的BERT模型Fig.1 Schematic of BERT model used to extract paragraph representations
2.2.3 Bi-LSTM-CRF 模型
圖2 Bi-LSTM-CRF模型結(jié)構(gòu)Fig.2 Bi-LSTM-CRF model architecture
在段落級(jí)別的分類任務(wù)中,基于裁判文書(shū)的段落結(jié)構(gòu)之間有特定的聯(lián)系,導(dǎo)致段落的標(biāo)簽會(huì)按照特定的順序出現(xiàn)這一特點(diǎn),考慮將Bi-LSTM-CRF 模型中的輸入由段落變?yōu)槠拢鐖D2 所示,首先以自然段為單位將篇章分為若干個(gè)段落,利用BERT 模型得到段落級(jí)別的特征表示,即BERT 模型中[CLS]對(duì)應(yīng)的向量表示,記為p.將得到的向量p 表示輸入到Bi-LSTM 層,可以得到每一個(gè)段落屬于某一類的得分.在CRF 層對(duì)段落之間的關(guān)系進(jìn)行建模,考慮到篇章的整體結(jié)構(gòu),用以排除明顯錯(cuò)誤的分類結(jié)果,得到最佳的分類預(yù)測(cè).
本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于段落上下文的裁判文書(shū)結(jié)構(gòu)化方法.首先根據(jù)最高人民法院下發(fā)的工作文件對(duì)民事一審普通程序裁判文書(shū)的標(biāo)簽體系進(jìn)行整理,對(duì)數(shù)據(jù)集中的裁判文書(shū)進(jìn)行人工標(biāo)注,即對(duì)每一篇裁判文書(shū)的每一個(gè)段落打上對(duì)應(yīng)的標(biāo)簽,得到了人工標(biāo)注的裁判文書(shū)結(jié)構(gòu)化數(shù)據(jù)集(見(jiàn)第2.3.1 節(jié)).將這一數(shù)據(jù)集分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集.模型的訓(xùn)練過(guò)程包括段落向量模型訓(xùn)練、段落向量表示轉(zhuǎn)化(見(jiàn)2.3.2 節(jié))和序列標(biāo)注模型訓(xùn)練(見(jiàn)第2.3.3 節(jié))等步驟,得到初步的序列標(biāo)注模型.接下來(lái)利用開(kāi)發(fā)集中的裁判文書(shū)數(shù)據(jù)對(duì)模型的參數(shù)進(jìn)行調(diào)整,最后利用測(cè)試集的裁判文書(shū)數(shù)據(jù)對(duì)模型的能力進(jìn)行評(píng)估.
2.3.1 段落標(biāo)簽
本文中的標(biāo)簽體系結(jié)合了最高人民法院關(guān)于裁判文書(shū)樣式的規(guī)定與司法實(shí)踐中裁判文書(shū)的撰寫(xiě)習(xí)慣,并考慮到裁判文書(shū)各部分間的內(nèi)在邏輯,進(jìn)行綜合整理.
2016 年6 月,最高人民法院下發(fā)了《人民法院民事裁判文書(shū)制作規(guī)范》、《民事訴訟文書(shū)樣式》,這兩份文件自2016 年8 月1 日起施行.《民事訴訟文書(shū)樣式》中將民事一審普通程序文書(shū)樣式歸納為9 大部分,即標(biāo)題、首部、事實(shí)、理由、裁判依據(jù)、判決主文、尾部、落款、附錄.其中標(biāo)題包括法院名稱、文書(shū)名稱、案號(hào)組成3 部分;首部包括訴訟參加人基本情況、案件由來(lái)和審理經(jīng)過(guò)2 部分;事實(shí)包括當(dāng)事人訴辯意見(jiàn)、證據(jù)和事實(shí)認(rèn)定2 部分;尾部包括遲延履行責(zé)任告知、訴訟費(fèi)用負(fù)擔(dān)、上訴權(quán)利告知3 部分;落款包括合議庭署名、日期、書(shū)記員署名、院印4 部分.綜上,最高人民法院在工作文件中對(duì)于民事一審普通程序文書(shū)的結(jié)構(gòu)規(guī)定,共計(jì)18 個(gè)標(biāo)簽.
但是由于案由特性和不同程序?qū)ξ臅?shū)需求存在差異等因素,司法實(shí)踐中生產(chǎn)出的文書(shū)的樣式和結(jié)構(gòu)與最高人民法院對(duì)文書(shū)樣式的要求存在一定差異,且這種差異是被法院系統(tǒng)和社會(huì)公眾廣泛接受的.因此,在面向已有文書(shū)的處理中,僅以最高人民法院的規(guī)范作為標(biāo)準(zhǔn)是不夠的,本文在進(jìn)行標(biāo)簽整理的過(guò)程中結(jié)合司法實(shí)務(wù)中的通常寫(xiě)法,對(duì)于最高人民法院工作文件的樣式進(jìn)行了刪減、調(diào)整與補(bǔ)充,內(nèi)容如下:刪除了“院印”(“院印”以印章形式存在,不是結(jié)構(gòu)化工作的研究對(duì)象),將“當(dāng)事人訴辯意見(jiàn)”擴(kuò)充為“原告訴稱”、“被告辯稱”、“第三人陳述”3 個(gè)標(biāo)簽,增加了“文書(shū)標(biāo)題”“其他”(兜底性標(biāo)簽)2 個(gè)標(biāo)簽,形成本文中應(yīng)用的標(biāo)簽體系.
由此,本文提出的標(biāo)簽體系,既滿足于最高人民法院對(duì)于裁判文書(shū)樣式的規(guī)范性規(guī)定,又符合司法實(shí)踐中裁判文書(shū)撰寫(xiě)的通常習(xí)慣,同時(shí)充分考慮到裁判文書(shū)不同部分之間的內(nèi)在邏輯聯(lián)系,在整理中也照顧到了機(jī)器處理的技術(shù)需求,建立以21 個(gè)標(biāo)簽為內(nèi)容的標(biāo)簽體系.即文書(shū)標(biāo)題、法院名稱、文書(shū)名稱、案號(hào)、訴訟參與人信息、案件審理經(jīng)過(guò)、原告訴稱、被告辯稱、第三人陳述、法院認(rèn)定事實(shí)、法院說(shuō)理、裁判依據(jù)、判決結(jié)果、遲延履行責(zé)任、訴訟費(fèi)用、上訴權(quán)利告知、審判人員、裁判日期、書(shū)記員、附件、其他.標(biāo)簽體系如表1 所示.
表1 標(biāo)簽體系Tab.1 Label system
根據(jù)已經(jīng)確定的21 個(gè)標(biāo)簽,對(duì)從中國(guó)裁判文書(shū)網(wǎng)隨機(jī)抽取的民事一審普通程序的裁判文書(shū)進(jìn)行人工標(biāo)注,得到了人工標(biāo)注的裁判文書(shū)結(jié)構(gòu)化數(shù)據(jù)集.
2.3.2 段落向量模型訓(xùn)練及表示轉(zhuǎn)化
將人工標(biāo)注的裁判文書(shū)結(jié)構(gòu)化數(shù)據(jù)集用來(lái)訓(xùn)練BERT 模型,取段落的起始符號(hào)[CLS]對(duì)應(yīng)的向量p作為段落的特征表示.對(duì)任意的段落文本,都可以得到這樣的特征表示,在模型的訓(xùn)練過(guò)程中這一向量逐漸有更加成熟的表示.
2.3.3 序列標(biāo)注模型訓(xùn)練
對(duì)完整的一篇裁判文書(shū),首先進(jìn)行自然分段,將每段文字輸入到用于提取段落特征的BERT 模型中,提取段落向量p 作為對(duì)應(yīng)段落的特征表示,將裁判文書(shū)每一段對(duì)應(yīng)的段落向量輸入到Bi-LSTM-CRF 模型中即可得到段落的分類結(jié)果.
本文的實(shí)驗(yàn)環(huán)境如下:Linux 操作系統(tǒng),Tensorflow 作為深度學(xué)習(xí)框架,F(xiàn)laskweb 作為服務(wù)框架,Python3 作為開(kāi)發(fā)語(yǔ)言.
本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于中國(guó)裁判文書(shū)網(wǎng).在裁判文書(shū)中,民事裁判文書(shū)在總文書(shū)中的占比達(dá)半數(shù)以上,在民事裁判文書(shū)中,一審普通程序裁判文書(shū)占比超過(guò)80%,因此選取民事一審普通程序裁判文書(shū)具有代表性.與其他審理程序的裁判文書(shū)相比,民事裁判文書(shū)表達(dá)更加多樣,段落語(yǔ)義信息更為豐富,在完成結(jié)構(gòu)化任務(wù)的過(guò)程中更具難度,而一審裁判文書(shū)是民事裁判文書(shū)中的基礎(chǔ)文書(shū),因此將民事一審裁判文書(shū)作為數(shù)據(jù)集,有利于將本文中的方法擴(kuò)展應(yīng)用于其他文書(shū).在中國(guó)裁判文書(shū)網(wǎng)上隨機(jī)抽取5 000 篇民事一審案件適用普通程序的裁判文書(shū),段落量級(jí)大概為15 萬(wàn)個(gè)自然段落.對(duì)于實(shí)驗(yàn)的裁判文書(shū)數(shù)據(jù)集進(jìn)行分割,產(chǎn)生訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集(分割比為0.7∶0.15∶0.15).
3.2.1 不同模型的對(duì)比實(shí)驗(yàn)
本文提出了基于篇章中的段落級(jí)別上下文的裁判文書(shū)結(jié)構(gòu)化方法,首先利用經(jīng)過(guò)預(yù)訓(xùn)練和下游分類任務(wù)微調(diào)的BERT 模型提取篇章中每一個(gè)段落的起始符號(hào)[CLS]對(duì)應(yīng)的向量作為段落的特征表示p,然后將整個(gè)篇章的若干個(gè)段落特征表示輸入到序列標(biāo)注模型中進(jìn)行標(biāo)簽預(yù)測(cè).在實(shí)驗(yàn)中,通過(guò)消融實(shí)驗(yàn)來(lái)比較不同的模型提取段落特征的能力以及是否利用段落上下文的結(jié)構(gòu)化信息對(duì)結(jié)果的影響,將TextCNN 模型作為基線模型,與BERT 分類模型、TextCNN+Bi-LSTM-CRF 模型與BERT+Bi-LSTMCRF 模型分別做實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表2 所示.
從準(zhǔn)確率、召回率和F1值3 個(gè)維度的整體表現(xiàn)來(lái)看,BERT+Bi-LSTM-CRF 模型效果非常好,達(dá)到了幾乎完全準(zhǔn)確的結(jié)構(gòu)化效果.TextCNN/BERT+Bi-LSTM-CRF 模型全面優(yōu)于TextCNN 模型和BERT 模型,準(zhǔn)確率、召回率和F1值均有明顯提升(均大于3%).利用BERT+Bi-LSTM-CRF 模型得到了幾乎完全準(zhǔn)確的段落文本分類結(jié)果,成功實(shí)現(xiàn)了裁判文書(shū)的結(jié)構(gòu)化任務(wù).段落向量表示方法的選擇影響裁判文書(shū)標(biāo)注的精確度,BERT 模型提取文本特征的能力優(yōu)于TextCNN 模型,BERT+Bi-LSTM-CRF 模型優(yōu)于TextCNN+Bi-LSTM-CRF 模型.使用CRF 模型對(duì)裁判文書(shū)標(biāo)簽之間的關(guān)系進(jìn)行建模,大大地提升了標(biāo)注的精確度,TextCNN +Bi-LSTM-CRF 模型優(yōu)于TextCNN 模型,BERT +Bi-LSTM-CRF 模型優(yōu)于BERT 模型.
表2 實(shí)驗(yàn)結(jié)果Tab.2 Experimental results
3.2.2 實(shí)驗(yàn)結(jié)果分析
TextCNN/BERT+Bi-LSTM-CRF 模型全面優(yōu)于TextCNN 模型和BERT 模型.TextCNN 模型和BERT模型在對(duì)數(shù)據(jù)處理時(shí),將一篇裁判文書(shū)的每段文本作為一個(gè)樣本來(lái)進(jìn)行標(biāo)注,是基于文本語(yǔ)義上來(lái)進(jìn)行分類的,忽略了一篇裁判文書(shū)的結(jié)構(gòu)信息.在裁判文書(shū)中存在著如“原告訴稱”、“被告辯稱”、“第三人陳述”等段落,在文本語(yǔ)義的表示上沒(méi)有明顯區(qū)別,只是因?yàn)槲谋境霈F(xiàn)在篇章中不同的位置,造成分屬不同的標(biāo)簽.在使用TextCNN 模型和BERT 模型對(duì)段落標(biāo)簽進(jìn)行預(yù)測(cè)時(shí),容易將文字內(nèi)容相近的部分錯(cuò)分.TextCNN/BERT+Bi-LSTM-CRF 模型將一篇裁判文書(shū)作為一個(gè)樣本,在CRF 層從篇章整體的結(jié)構(gòu)中提取標(biāo)簽之間的關(guān)系,對(duì)裁判文書(shū)的每一段進(jìn)行預(yù)測(cè)時(shí)也對(duì)該段在整個(gè)篇章的位置有所考慮.這樣模型既考慮了裁判文書(shū)文本本身的語(yǔ)義信息,也考慮了篇章的結(jié)構(gòu)信息以及上下文的標(biāo)簽信息,從而提升預(yù)測(cè)的效果.
在進(jìn)行段落向量表示時(shí),BERT 模型要優(yōu)于TextCNN 模型.其原因有兩點(diǎn):一是是否采用預(yù)訓(xùn)練.BERT 模型在語(yǔ)言模型的預(yù)訓(xùn)練階段運(yùn)用Transformer 模型提取特征,比TextCNN 模型的網(wǎng)絡(luò)更加復(fù)雜,能更多地提取語(yǔ)義信息,因此效果優(yōu)于未采用預(yù)訓(xùn)練的TextCNN 模型;二是不同模型保留信息的完整度.TextCNN 模型固定了文本的輸入長(zhǎng)度,當(dāng)文本過(guò)長(zhǎng)會(huì)從后截?cái)?;而在?xùn)練BERT 模型的時(shí)候,采用的是不固定長(zhǎng)度的方式(除非文本長(zhǎng)度大于512 個(gè)字,會(huì)進(jìn)行截?cái)啵瑢?shí)際情況中99.9%的文本段落都小于512 個(gè)字),因此保留的信息更加完整.
本文提出了一種利用裁判文書(shū)的段落上下文語(yǔ)義特征,對(duì)裁判文書(shū)結(jié)構(gòu)化的機(jī)器學(xué)習(xí)方法.該方法首先選用BERT 模型用于提取裁判文書(shū)段落的語(yǔ)義特征信息,BERT 模型采用Transformer 作為特征抽取器,在預(yù)訓(xùn)練階段選取雙向的語(yǔ)言模型,針對(duì)特定的文本分類任務(wù)進(jìn)行了微調(diào),在裁判文書(shū)的每一自然段落前加上起始符號(hào)[CLS],將在BERT 模型中這一符號(hào)對(duì)應(yīng)的向量作為該段的語(yǔ)義特征表示,提取特征的能力遠(yuǎn)遠(yuǎn)優(yōu)于TextCNN 模型.考慮文書(shū)上下文段落標(biāo)簽的結(jié)構(gòu)特征,最終以篇章為輸入,對(duì)由BERT模型得到的若干個(gè)段落的語(yǔ)義特征向量應(yīng)用 Bi-LSTM-CRF 模型,進(jìn)行序列標(biāo)注的裁判文書(shū)結(jié)構(gòu)化處理.實(shí)驗(yàn)結(jié)果表明,該模型較基線模型而言,準(zhǔn)確率、召回率和F1值均有明顯提升,尤其在考慮了裁判文書(shū)段落上下文標(biāo)簽的結(jié)構(gòu)特征之后,準(zhǔn)確率、召回率和F1值有了大幅提升,具有幾乎完全準(zhǔn)確的結(jié)構(gòu)化效果,實(shí)現(xiàn)了段落與標(biāo)簽的精準(zhǔn)匹配,為裁判文書(shū)的深度應(yīng)用提供支撐.
另外,值得注意的是本文采取的結(jié)構(gòu)化方法核心在于利用裁判文書(shū)段落級(jí)別的上下文語(yǔ)義特征信息,并非只是限定于民事一審裁判文書(shū)的方法,選取民事一審裁判文書(shū)更多是出于實(shí)踐中的普遍性需求和考量.其他審理程序的裁判文書(shū)相較于民事一審文書(shū)同樣具備段落級(jí)別的上下文語(yǔ)義特征信息,因此可以擴(kuò)展適用本文的方法.
天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版)2021年4期