高 璐,趙小兵
(1. 中央民族大學 中國少數(shù)民族語言文學學院,北京 100081;2. 邯鄲學院 軟件學院,河北 邯鄲 056005;3. 中央民族大學 信息工程學院,北京 100081;4. 國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081)
事件信息是司法案情的核心,司法事件抽取旨在識別司法案件中的多維事件要素,輔助司法工作者快速重構案件事實畫像,厘清爭議焦點,疏通司法痛點、堵點、難點問題,為類案推送、量刑輔助、偏離預警、判決結果預測等下游司法任務提供技術支持。圖1為某司法文書陳述片段(1)西藏自治區(qū)類烏齊縣人民法院刑事判決書,(2022)藏0323刑初1號,通過撬開、潛入、盜取、揮霍、鑒定、扣押等一連串事件及其要素,重塑盜竊場景,助力法官全過程研討案情,掌握案件脈絡,以便對犯罪嫌疑人的各種行為及其程度進行量化,并根據(jù)現(xiàn)有法律標準對其進行處罰,為司法工作賦能增效。
截至2022年12月17日,中國裁判文書網(wǎng)(2)中國裁判文書網(wǎng),https://wenshu.court.gov.cn公開的文書總量已達1.37億篇,訪問總量近千億人次,日均新增裁判文書10萬多篇;雙語審判工作進一步推進,蒙古語、藏語、維吾爾語、朝鮮語和哈薩克語等民族語言裁判文書體量呈上升趨勢,滿足了各族群眾多層次、多樣化的司法需求。以西藏為例,部分西藏基層80%左右的案件審理會用到藏語,涉及案件立案、審判、執(zhí)行、文書制作等環(huán)節(jié)[1]。截至2022年12月,藏文裁判文書累計公開上網(wǎng) 11 685 篇,涉及刑事、民事、行政、賠償、執(zhí)行等多種案件類型,保障了藏族群眾在訴前、訴中、訴后各個階段的監(jiān)督權、知情權、參與權,最大限度消除了當事人的訴訟不便及信息不對稱,提高了人民群眾的獲得感和滿意度。
借助海量公開的中文裁判文書,Yao Feng[2]等構建了一個大規(guī)模的中文法律事件檢測數(shù)據(jù)集LEVEN(3)LEVEN, https://github.com/thunlp/LEVEN,包括8 116份法律文件、108個事件類型、150 977個人工注釋的事件提及(4)事件提及是指描述一個事件的短語或句子。中國法律智能技術評測(CAIL2022)(5)CAIL2022, http://cail.cipsc.org.cn/新增事件檢測賽道,以LEVEN數(shù)據(jù)集為基礎,提供基于BERT的深度學習模型作為基線,極大促進了中文法律事件檢測技術的提升。近年來,藏文裁判文書呈現(xiàn)數(shù)據(jù)量豐富、公開率高、案件種類多、實時性強等特點。然而,相較于中文,其蘊含的大量案由、案件事實、爭議焦點、法律適用等有價值的數(shù)據(jù)資源有待充分挖掘,藏文司法事件抽取技術面臨以下資源挑戰(zhàn)。
數(shù)據(jù)欠缺目前缺乏公開的藏文司法事件數(shù)據(jù)集,無法提供足量的訓練信號,建立統(tǒng)一的技術評測更是無從談起,直接限制了深度學習等技術在藏文司法事件抽取方面的探索與優(yōu)化。迫切需要構建高質(zhì)量的藏文司法事件數(shù)據(jù)集,并以此為基準,推動藏文司法事件抽取技術的評測與發(fā)展。
事件模式不相容ACE2005制定了面向通用領域的事件Schema體系,其定義了8大類33小類的事件類型,DuEE構建的事件類型甚至高達65種。但上述成熟的事件Schema體系無法直接應用到藏文司法領域,原因有二: ①覆蓋度低。通用領域預定義的事件知識無法覆蓋真實的藏文司法文本,部分事件類型出現(xiàn)頻次較低甚至從未出現(xiàn)過; ②刻畫粒度粗糙。司法數(shù)據(jù)中的案件要素更加注重司法業(yè)務相關的屬性,刻畫的粒度更小、更細[3]。如“盜竊”事件涉及“盜竊者”“被盜人”“盜竊贓物”“盜竊地點”“盜竊時間”“盜竊金額”等事件要素,而非通用領域泛指的“人物”“地點”“時間”等命名實體信息。需要構建契合藏文司法文本的事件模式,滿足藏文司法事件抽取的實際需要。
鑒于上述問題,本文面向藏文司法領域,以中國裁判文書網(wǎng)公布的藏文裁判文書為研究對象,通過深入挖掘案件描述信息,探索事件、人員、財物、外部信息等數(shù)據(jù)要素之間的關聯(lián)關系,以半自動的方式構建了面向司法領域的藏文事件數(shù)據(jù)集TiEvent,以期探尋事件抽取技術在藏文司法智能領域應用的深度和廣度。本文的貢獻主要包括以下三點:
(1) 設計了“類別分組-主題建模”兩階段的契合藏文司法領域的事件模式。受ACE2005、DuEE等事件Schema構建理論啟發(fā),借助LDA主題建模技術,制定了藏文司法領域事件Schema體系,以更好地指導藏文司法事件數(shù)據(jù)標注工作。
(2) 采用模型驅(qū)動的事件觸發(fā)詞預標注與事件要素人工標注相結合的半自動化數(shù)據(jù)標注方式,構建了藏文司法事件數(shù)據(jù)集TiEvent。TiEvent共定義了3個大類、12個小類的事件類型,涉及1 863篇藏文刑事裁判文書、2 249個人工標注的事件提及。這可能是目前已知的首個藏文司法事件數(shù)據(jù)集。
(3) 對數(shù)據(jù)集進行了全面評估。搭建了BiLSTM、BiLSTM-CRF、CINO-CRF等事件抽取框架,并在該數(shù)據(jù)集上進行全要素、多維度質(zhì)量評估。實驗表明,在藏文司法文本上,TiEvent具有較高的事件覆蓋度和事件要素完整度,能夠滿足藏文司法事件抽取工作的基本需要。
隨著事件抽取技術從特征工程到神經(jīng)網(wǎng)絡模型的轉變,有關事件抽取的數(shù)據(jù)集也愈加豐富和多樣化。就領域而言,ACE2005[4]、TAC-KBP[5-7]、MAVEN[8]、DuEE1.0[9]等數(shù)據(jù)集具有良好的事件類型覆蓋度,為通用事件抽取技術統(tǒng)一評測提供了數(shù)據(jù)基準。然而,通用領域數(shù)據(jù)集包含的事件知識(事件類型、詞匯形式、句子結構等)與特定領域具有實質(zhì)性差異,因此很多研究者轉而基于特定領域文本構建相應的數(shù)據(jù)集,如CASIE[10]、CySecED[11]面向網(wǎng)絡安全領域,DuEE-Fin[12]面向金融領域,CEC(6)https://github.com/shijiebei2009/CEC-Corpus面向突發(fā)事件領域,LEVEN、CLEE[13]面向法律領域等。就語種而言,MAVEN、DuEE1.0、CASIE、LEVEN等均為單語數(shù)據(jù)集,也有研究人員構建多語數(shù)據(jù)集,對多語言事件模型進行了全面評估,如ACE2005、TAC-KBP均包含3種語言(7)ACE2005包括英語、中文、阿拉伯語3種語言;TAC-KBP包含英語、中文、西班牙語3種語言。,TempEval-2[14]包含6種語言(8)6種語言為中文、英語、法語、意大利語、韓語和西班牙語。,MINION[15]包含8種語言(9)8種語言為英語、西班牙語、葡萄牙語、波蘭語、土耳其語、印地語、日語和韓語。等。
“以賽促研”是目前技術突破的主流渠道,事件抽取技術近幾十年取得的進步與MUC[16]、ACE、TAC-KBP、TDT、TERQAS、BioNLP[17-19]等各個國際評測會議的推動密不可分。語言與智能技術競賽連續(xù)三屆(2019—2021)(10)http://lic2021.ccf.org.cn/涉及事件抽取任務,設置了豐富的數(shù)據(jù)集合和評測維度;CCKS(11)全國知識圖譜與語義計算大會(China Conference on Know ledge Graph and Semantic Computing,CCKS)評測同樣開辟了面向醫(yī)療、通信、金融等各個領域的事件抽取任務賽道,從準確性、魯棒性和泛化性等多角度對中文事件抽取效果進行綜合評價。司法領域方面,中國法律智能技術評測(Challenge of AI in Law, CAIL)在最高人民法院和中國中文信息學會的指導下已順利舉辦五屆,提供大量標簽化的法律文本作為數(shù)據(jù)集,先后吸引了來自海內(nèi)外高校和企業(yè)組織的近 5 000支隊伍參賽,成為中國法律智能技術評測的重要平臺。CAIL 2022年首次將事件檢測納入賽道,除此之外,還開辟了司法考試、文書校對、類案檢索、涉法輿情摘要、論辯理解、信息抽取、可解釋類案匹配等7個賽道,任務設置更貼合現(xiàn)實世界中的法律環(huán)境痛點。
本文結合藏文司法數(shù)據(jù)的實際特點,設計了“類別分組-主題建?!眱呻A段的事件層級體系;同時參照ACE框架,針對某類事件,對該事件類型下對應的事件論元進行人工約束,最終完成事件及其要素的完整定義。
類別分組對1 863篇藏文刑事裁判文書(12)數(shù)據(jù)來源參見3.1。進行類別分組,經(jīng)統(tǒng)計,文書類別主要圍繞危害公共安全罪、侵犯財產(chǎn)罪、侵犯公民人身權利罪、擾亂公共秩序罪等刑事案件展開,其中涉及盜竊罪的文書620篇,占總文書的30%左右(13)盜竊罪屬于侵犯財產(chǎn)罪之一。。為了確保事件類型在真實文書中有更多的事件提及,剔除比例較少的擾亂公共秩序等類別,最終確定的事件類別為危害公共安全、侵犯財產(chǎn)、侵犯公民人身權利,并對1 863篇文書分門別類。
主題建模首先對原始文本完成分詞、停用詞處理等數(shù)據(jù)清洗操作,其中分詞器的選擇,本文在李亞超開源的TIP-LAS[20]基礎上,充分利用第二屆少數(shù)民族語言分詞技術評測提供的2萬句藏文分詞語料[21]進行訓練,得到了較好的藏文分詞效果。然后利用開源第三方Python工具包Gensim(14)https://pypi.org/project/gensim/提供的LDA模型處理接口,對三個類別文書內(nèi)容分別進行主題建模,得到各個類別的主題表示和所屬主題概率。根據(jù)主題建模結果,對主題詞進行過濾、歸一與抽象。最終確定的事件類型為盜竊、藏匿、詐騙、抓捕、鑒定、倒賣、購買、死亡、醉酒駕駛、故意傷害、交通肇事、搶劫等12個事件類型。
“類別分組-主題建?!眱呻A段的事件類型層級體系構建流程如圖2所示。
對于每個事件類型,遵循ACE2005框架體系,由法學院專業(yè)人士人工確定對應的事件論元及論元限定類型。在確保事件要素在真實文本覆蓋度的同時,維護事件Schema體系的專業(yè)性。以“盜竊”事件為例,各事件要素限定類型如表1所示。
表1 “盜竊”事件要素及其限定類型
最終的事件類型及其論元如表2所示。
表2 事件類型及論元
數(shù)據(jù)集TiEvent構建包含事件Schema制定、數(shù)據(jù)處理、事件核心詞預標注、事件要素人工標注四個階段,構建流程見圖3。其中事件Schema制定在第2節(jié)已詳細闡述,下面重點闡述其余部分。
圖3 TiEvent構建流程
本文以中國裁判文書網(wǎng)公開的藏文裁判文書為原始文檔來源。藏文文書欄目共包含刑事、民事、行政、賠償、執(zhí)行等多種案件類型,但沒有分門別類,所有文書糅雜在一起。本文窮盡式爬取藏文全量文書11 685篇(截止2022年12月),由于數(shù)據(jù)量較大,考慮網(wǎng)站響應負載與反爬機制,數(shù)據(jù)采集策略為:
(1) 將11 685篇全量文書對應的ID、Title、Court、Link、Time等信息爬取并存儲在本地;
(2) 編寫Shell腳本批量下載Link對應的PDF文書,并按照對應ID進行命名;
(3) 根據(jù)文書Title篩選出刑事類文書1 863篇。
整個數(shù)據(jù)采集流程如圖4所示。
由于下載的藏文文書均為PDF文件,不能直接使用,需要進行一定的預處理:
(1)OCR識別利用西藏大學的開源系統(tǒng)(15)http://bmfx.utibet.edu.cn/socr.fds進行OCR識別,由于該系統(tǒng)僅支持對圖片的處理,故首先將所有的PDF文件批量轉為JPEG,再進行OCR識別。
(2)人工降噪OCR系統(tǒng)對藏文字符識別準確率較高,但對于阿拉伯數(shù)字、部分特殊字符的識別稍有偏差,因此本文對系統(tǒng)識別噪聲較大的文字、數(shù)字、特殊符號等進行人工降噪,并將校準后的正確內(nèi)容轉儲為TXT文本文件,方便后續(xù)標注及處理。
(3)關鍵內(nèi)容摘錄根據(jù)任務需求,本文將司法文本中的案例描述、被告及證人陳述內(nèi)容摘錄出來,作為我們數(shù)據(jù)集標注的初始語料文本。
本文采用開源標注平臺DoTAT(16)https://github.com/FXLP/MarkTool進行多人協(xié)同標注[22]。標注過程遵循MATTER理念[23](圖5),依照“生成數(shù)據(jù)集、模型訓練與測試、問題數(shù)據(jù)分析、更新策略、重新生成數(shù)據(jù)集”的輪次不斷迭代。在迭代的早期,盡量使得基線在數(shù)據(jù)集上正常收斂;在迭代的中期,重點關注基線在開發(fā)集上的表現(xiàn),留意數(shù)據(jù)泄露問題;在迭代的后期,更多關注問題數(shù)據(jù)。通過驗證可用性,盡早實現(xiàn)數(shù)據(jù)集迭代閉環(huán)。
數(shù)據(jù)標注采用半自動化方式進行,分為事件核心詞預標注和事件要素人工標注兩個環(huán)節(jié)。事件核心詞預標注即事件觸發(fā)詞的定位,采用基于預訓練模型CINO-CRF驅(qū)動的方式自動進行事件觸發(fā)詞檢測(圖6),其中CINO層獲得輸入上下文的語義特征,CRF層習得狀態(tài)序列的關系,解碼并計算最優(yōu)的序列標注,最終完成事件核心詞預標注。這種自動的事件核心詞標注方法一方面能夠提升標注效率,另一方面將包含相應事件的事件句篩選出來,為每個事件類型生成對應的待標注集,降低無效句子干擾。然而,模型預標注的準確率并不高,對于模型預標注結果,需要人工介入進行二次審查。
圖6 基于CINO-CRF的事件核心詞預標注
事件要素標注即確定事件論元,并為每個提取的論元分配特定的論元角色,采用人工方式進行,標注流程如圖7所示。
圖7 事件要素人工標注流程
培訓我們從法學院邀請母語人士,包括兩名標注人員和1名審核人員,進行標注指南解讀以及DoTAT標注平臺操作培訓。
標注每個文本分別指派給兩名注釋者獨立標注,標注者需人工審查上一環(huán)節(jié)模型自動標注的事件觸發(fā)詞及其對應的事件類型。由于事件類型一旦確定,所有待標注的論元角色會被自動確認,因此,要求標注者提取事件論元,并以類似的方式為每個提取的論元分配特定的論元角色。根據(jù)標注指南定義,對于預定義的事件類型,其觸發(fā)詞是必須的,但事件論元可缺省。另外,一個事件論元可以在同一文本中扮演不同的角色,多個事件論元也可以分配給同一個論元角色。整個標注過程一旦存疑,隨時翻閱標注平臺里嵌入的標注指南,防止標注漂移。
審核根據(jù)標注指南,每個文本被獨立注釋兩次,兩次的標注會產(chǎn)生結果完全一致、部分一致、完全不一致三種可能性,審核人員需要對兩次標注結果進行一致性檢驗、手動合并和調(diào)整,得到黃金標注數(shù)據(jù)。
迭代數(shù)據(jù)集構建并非一蹴而就,需要進行多次迭代。依據(jù)各階段迭代目標,對數(shù)據(jù)集的測試結果進行錯誤分析,回溯模式設計階段,不斷地更新標注策略,校正和豐富數(shù)據(jù)集。
以“醉酒駕駛”事件為例,標注樣例如圖8所示。
TiEvent共定義了3個大類、12個小類的事件類型,涉及1 863篇藏文刑事文檔、63個事件要素(此處包含事件觸發(fā)詞,后面同理),和2 249個人工標注的事件提及,平均每個文本包含事件提及1.2個,是目前已知的首個藏文司法事件數(shù)據(jù)集。
本文進一步分析了事件類型和論元角色的數(shù)據(jù)分布,結果分別如圖9、圖10所示。部分事件類型由于文書篇數(shù)較少,在Schema規(guī)劃初期就已排除在外,因此,本數(shù)據(jù)集涉及的事件類型分布較為均衡,即使數(shù)量最少的“購買”事件,也包含42個事件提及。然而,事件論元分布情況較為復雜: ①各事件類型包含不定數(shù)目的事件論元, 如“鑒定”事件包含3個事件論元,而“搶劫”類事件則包含多達7個事件論元,經(jīng)分析,每個事件類型平均包含5個事件論元。②部分論元事件提及偏少,長尾現(xiàn)象嚴重,如在“搶劫”事件中,每個文本都會涉及“搶劫者”“搶劫物品”等事件要素,但“搶劫工具”“搶劫金額”卻不一定存在,事件本身的特性決定了論元的稀疏性。
總體而言,TiEvent面向藏文真實司法文本,涵蓋12種事件類型和63個事件要素,標注較為全面,一定程度上可以滿足藏文司法事件抽取任務的需求。
本文按照8∶1∶1將數(shù)據(jù)集隨機劃分為訓練集、驗證集和測試集,采用宏平均的精確率、召回率和F1得分作為實驗的評估指標。
本文選擇了幾種成熟通用的基線模型,從多個維度對數(shù)據(jù)集進行全面評估,包括: ①BiLSTM: 利用雙向LSTM作為特征提取器; ②BiLSTM-CRF: 引入CRF,在雙向LSTM建模的輸出端,添加可依賴的約束; ③mBERT: 利用mBERT進行上下文語義表征及參數(shù)微調(diào); ④mBERT-CRF: 在mBERT的輸出端,添加CRF進行語義約束; ⑤CINO: 利用CINO進行特征提取及參數(shù)微調(diào)[24]; ⑥CINO-CRF: 在CINO輸出端,添加CRF進行語義約束。
由表3、表4可知,從橫向抽取階段來看,事件觸發(fā)詞檢測效果(F1最高75.36%)明顯優(yōu)于論元識別(F1最高70.98%)。產(chǎn)生這種結果的原因可能是: 事件觸發(fā)詞是必須的,每一個事件提及至少伴隨著一個事件的產(chǎn)生(即觸發(fā)詞的出現(xiàn)),觸發(fā)詞分布均衡且覆蓋度大;而事件論元的分布差異明顯,部分論元數(shù)量少,如論元“傷害部位”僅涉及16個事件提及,無法提供足量穩(wěn)定的訓練特征,影響了論元識別整體效果,這也從側面論證了數(shù)據(jù)集數(shù)據(jù)分布(4.2節(jié))情況。因此,對于部分稀疏論元,需要進行數(shù)據(jù)增廣,改善事件論元分布現(xiàn)狀,優(yōu)化論元識別效果。
表3 觸發(fā)詞檢測 (單位: %)
表4 論元識別 (單位: %)
從縱向模型結構來看,無論在事件觸發(fā)詞檢測階段還是論元識別階段,CRF結構對抽取效果都有一定提升。此外,通過BiLSTM-CRF、mBERT-CRF、CINO-CRF三個模型對比可知,由于數(shù)據(jù)集規(guī)模有限,提供的訓練特征不足,BiLSTM沒能獲取有效的訓練信號,F1_AVG(17)F1_AVG為Trigger Detection和Argument Recognition的F1平均值。僅40.25%;mBERT雖為多語言預訓練模型,但其訓練語料不包含藏語,提供的多語言語義信息雖有價值,但優(yōu)勢并不明顯;CINO 是HFL發(fā)布的首個面向少數(shù)民族語言的多語言預訓練模型,提供了藏語、蒙古語、維吾爾語、哈薩克語、朝鮮語、壯語、粵語等少數(shù)民族語言與漢語方言的理解能力,彌補了低資源語言數(shù)據(jù)規(guī)模帶來的語義限制,提升了藏文事件抽取技術的效果,其F1_AVG高達73.17%。不可否認的是,目前藏文司法事件數(shù)據(jù)集的質(zhì)量和規(guī)模與高資源語言相比仍有很大差距,需要進一步迭代完善。
我們對表現(xiàn)最佳的CINO-CRF模型的測試結果進行了錯誤分析與總結,方便后期數(shù)據(jù)優(yōu)化迭代。通過分析發(fā)現(xiàn),錯誤主要集中在論元角色重疊和論元跨句兩種類型,具體分析如下:
表5 錯誤分析
本文面向藏文司法領域,對1 863篇藏文刑事裁判文書進行爬取、整理、降噪、分析、標注,制定了契合藏文司法實際的事件Schema體系,構建了首個開源的藏文司法事件數(shù)據(jù)集TiEvent。該數(shù)據(jù)集標注了12種事件類型和63個事件要素,涵蓋1 863個藏文真實司法文本的2 249個事件提及。與此同時,本文評估了幾種成熟基線模型在TiEvent上的測試結果并進行了誤差分析。實驗結果表明,該數(shù)據(jù)集標注較為全面,能夠為藏文司法事件抽取技術的統(tǒng)一評測提供基準,為藏文司法領域的下游任務提供基礎。相對于中英文等高資源語言,其規(guī)模和質(zhì)量需進一步優(yōu)化迭代。