章華娟 汪承昊
1.廣東省人民檢察院,廣東 廣州 510623;2.北京大學(xué),北京 100871
通俗來(lái)講,自然語(yǔ)言技術(shù)(NLP)完成的是這樣一個(gè)任務(wù),即構(gòu)建人機(jī)聯(lián)系的橋梁。更加學(xué)術(shù)規(guī)范的表達(dá),則為“研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。①”這些方法具體包括中文分詞。詞性標(biāo)注、詞匯語(yǔ)義、句法解析等等,目標(biāo)是能夠?qū)⑷说陌虢Y(jié)構(gòu)化語(yǔ)言轉(zhuǎn)化為機(jī)器能夠處理的結(jié)構(gòu)化信息。
法律領(lǐng)域作為人工智能應(yīng)用的細(xì)分領(lǐng)域,離不開(kāi)自然語(yǔ)言處理技術(shù)的基礎(chǔ)性作用,即當(dāng)前國(guó)內(nèi)產(chǎn)業(yè)界很流行的一句話“讓機(jī)器習(xí)得法律人的習(xí)慣”,在此基礎(chǔ)上自動(dòng)閱卷、智能檢索,甚至炒作更為火熱的“機(jī)器裁判”等才可能有進(jìn)一步的發(fā)展。
實(shí)際上,自然語(yǔ)言技術(shù)的起源要早于人工智能的興盛,在計(jì)算機(jī)誕生時(shí)就面臨如何解析人類語(yǔ)言的問(wèn)題。當(dāng)前解析的方法分支主要有兩個(gè),稱之為規(guī)則派和統(tǒng)計(jì)派。規(guī)則派的基礎(chǔ)是語(yǔ)言學(xué)理論,采用的是規(guī)則形式描述或解釋歧義行為或歧義特征,它通過(guò)語(yǔ)言必須遵守的一系列原則來(lái)描述語(yǔ)言。此種方法下必須事先對(duì)大量的語(yǔ)言現(xiàn)象進(jìn)行研究,歸納出一系列的語(yǔ)言規(guī)則。然后再形成一套復(fù)雜的規(guī)則集。而另一種方式則是以統(tǒng)計(jì)學(xué)為基礎(chǔ),輸入的是一段文本和事先有的分類,通過(guò)有監(jiān)督或無(wú)監(jiān)督的分類器,給出文本歸屬于哪一類的概率,并在此基礎(chǔ)上可生成代表該類的一些特征詞。在人工智能領(lǐng)域,前一種更傾向于規(guī)則驅(qū)動(dòng),后一種更傾向于數(shù)據(jù)驅(qū)動(dòng)。
這兩種方式,在當(dāng)前的法律領(lǐng)域都有所適用,但適用的普遍性、受認(rèn)可程度不盡相同,并且存在較多誤區(qū),這些都是本文試圖加以厘清的問(wèn)題。
近年來(lái),各司法機(jī)關(guān)都意識(shí)到技術(shù)革新給工作帶來(lái)的意義,開(kāi)始加強(qiáng)了信息化的投入,試圖通過(guò)辦案的信息化武裝,來(lái)提高工作效率、緩解案多人少的壓力。比如最高人民檢察院《“十三五”時(shí)期科技強(qiáng)檢規(guī)劃綱要》(下稱《規(guī)劃綱要》),就明確了將來(lái)一段時(shí)期內(nèi)檢察技術(shù)科技強(qiáng)檢的目標(biāo)、任務(wù),提出了構(gòu)建智慧檢務(wù)、實(shí)現(xiàn)從數(shù)字化向智慧化躍升,強(qiáng)化司法辦案智能信息服務(wù)等重點(diǎn)任務(wù)②。再比如法院的信息化建設(shè),在最新的“五五綱要”(第五個(gè)五年改革綱要)中,也以單獨(dú)一章篇幅論述了“智慧法院”的建設(shè)任務(wù)(這在前幾次改革綱要中,都是沒(méi)有過(guò)的重視程度),其中提到推進(jìn)智慧法院基礎(chǔ)設(shè)施建設(shè)、科技創(chuàng)新手段深度運(yùn)用、電子訴訟覆蓋范圍、電子卷宗生成和歸檔機(jī)制、司法大數(shù)據(jù)管理和應(yīng)用機(jī)制等五大方面發(fā)力,整體的任務(wù)就是要牢牢把握新一輪科技革命歷史機(jī)遇,充分運(yùn)用大數(shù)據(jù)、云計(jì)算、人工智能等現(xiàn)代科技手段破解改革難題、提升司法效能,推動(dòng)人民法院司法改革與智能化、信息化建設(shè)兩翼發(fā)力,為促進(jìn)審判體系和審判能力現(xiàn)代化提供有力科技支撐③。
從技術(shù)發(fā)展和智慧司法所提出的目標(biāo)兩相比較來(lái)看,建設(shè)任務(wù)和差距仍然是不小的。從技術(shù)角度來(lái)看,其中面臨幾大矛盾點(diǎn),首先是面臨通用技術(shù)如何向法律領(lǐng)域特別技術(shù)發(fā)展,量身定做一套適合法律領(lǐng)域的技術(shù)系統(tǒng);其次是當(dāng)前的政府預(yù)算、購(gòu)買(mǎi)者的應(yīng)用場(chǎng)景能否與當(dāng)前的技術(shù)發(fā)展匹配。
自然語(yǔ)言處理,作為智能化中必不可少的一環(huán),同樣面臨上述困惑。典型比如自然語(yǔ)言技術(shù),主要發(fā)源于西方國(guó)家,主要針對(duì)的是英語(yǔ),移植到處理漢語(yǔ)就需要開(kāi)發(fā)漢語(yǔ)的分詞、標(biāo)注等詞庫(kù)、規(guī)則,這方面國(guó)內(nèi)近年來(lái)有所發(fā)展,但仍然相對(duì)不足。其次,法律領(lǐng)域又因?yàn)樽非蟊硎龅膰?yán)謹(jǐn)性,有一套嚴(yán)密的法律概念體系,這些法言法語(yǔ)明顯地不同于日常用語(yǔ),針對(duì)后者開(kāi)發(fā)的自然語(yǔ)言技術(shù)在直接套用于前者時(shí),效果難以保證。如此看,自然語(yǔ)言處理技術(shù),就智慧司法的適用而言,主要是一個(gè)如何量身定做一套適合法律表述特點(diǎn)的技術(shù)解決方案。
法言法語(yǔ)本身有其特殊性。首先表現(xiàn)為文書(shū)本身要求一定的體例格式,不論是基于規(guī)則的還是基于概率的方式,能夠準(zhǔn)確定位所需要采集的信息在文本中精確的位置都是有利因素。兩種理解文本的方法有不同,前者是采取一行或一段式遍歷的方法提取滿足規(guī)則的信息,后者則是以分段、分詞,對(duì)文本加以理解。縮小遍歷或分詞的范圍,能夠顯著提升語(yǔ)言處理的效率和理解的精度。其次表現(xiàn)為法律語(yǔ)言多數(shù)實(shí)詞都是法律領(lǐng)域特有的詞匯和概念,典型比如民事上的“承諾”、“要約”,刑事中的各種罪名,這些都是有特定含義且在日常會(huì)話中使用頻率比較低的用詞,而且其中有些概念甚至是晦澀的、不能望文生義的。特有法律概念的存在,給自然語(yǔ)言處理制造了障礙,非有一定法律專業(yè)背景的標(biāo)注員(主要指有監(jiān)督學(xué)習(xí)下,機(jī)器學(xué)習(xí)需要)、沒(méi)有完整的法律詞匯庫(kù),都會(huì)對(duì)最終的語(yǔ)言理解能力造成負(fù)面影響。
智能檢索、類似推送是人工智能落地的主要細(xì)分領(lǐng)域。智能檢索和類案推送基于一定相似的場(chǎng)景,即根據(jù)客戶輸入的特定需求或者在辦案件的場(chǎng)景,推送用戶最需要的、和場(chǎng)景最貼近、最相似的案例。從技術(shù)上來(lái)看,和自然語(yǔ)言相關(guān)的主要三個(gè)步驟,分別是解析用戶請(qǐng)求的、查詢數(shù)據(jù)庫(kù)中的文本包括哪些,以及用戶請(qǐng)求同文本間的匹配④。首先是對(duì)已有的語(yǔ)料(如果是案例推送,就主要是以案例為單元的文本)要預(yù)處理,拆解成各功能部分(component),并對(duì)各文本標(biāo)注各種為滿足檢索需求用的標(biāo)簽。其次是對(duì)檢索需求(類似推送和智能檢索只是主動(dòng)、被動(dòng)的區(qū)別,本質(zhì)上都可以理解為是一種檢索)進(jìn)行解析,同樣也需要拆解為段落、句子和詞語(yǔ),并根據(jù)語(yǔ)義分析得出可能檢索意圖;最后是檢索意圖和數(shù)據(jù)庫(kù)標(biāo)簽進(jìn)行匹配⑤。兩個(gè)理解的匹配,都離不開(kāi)自然語(yǔ)言的先期處理和即時(shí)處理的技術(shù)支撐,下面以一些案例說(shuō)明自然語(yǔ)言處理的兩大方法,是如何融合期間發(fā)揮作用的。
任務(wù)一:法規(guī)的適時(shí)推送和檢索。任務(wù)的構(gòu)造遵循上述的一般原理,即首先要對(duì)規(guī)則進(jìn)行預(yù)處理,對(duì)功能、話題進(jìn)行分類,國(guó)外的科研項(xiàng)目中比如把意大利的消費(fèi)者權(quán)益保護(hù)法分為十二個(gè)等級(jí),義務(wù)、禁止、權(quán)利和定義等四大功能⑥。在此期間,機(jī)器學(xué)習(xí)和NLP各有分工,前者主要是獲得了法規(guī)的功能性分類,后者則主要是提取了法規(guī)的特征詞(這些特征詞,可以作為發(fā)起的檢索,用于匹配標(biāo)簽)。用戶在檢索法條時(shí),多數(shù)情況下是模糊檢索,是基于案件事實(shí)的法條匹配需要產(chǎn)生的檢索,因此輸入的并不完全是具體哪部法律的哪一條(這其實(shí)也是某個(gè)文本的特征,不過(guò)這只是基本特征),該任務(wù)已經(jīng)在初級(jí)版本的法條檢索系統(tǒng)中實(shí)現(xiàn)了該功能。當(dāng)前主要是如何理解模糊檢索背后,用戶的真正意圖方面缺乏有效辦法。司法領(lǐng)域用戶的特殊之處還在于,法律規(guī)定具有時(shí)效性,新舊法律之間存在變化,需要進(jìn)行及時(shí)更新,避免推送陳舊信息。
任務(wù)二:裁判結(jié)果預(yù)測(cè)。這是人工智能在法律領(lǐng)域應(yīng)用一直以來(lái)的熱點(diǎn),也是學(xué)術(shù)、社會(huì)關(guān)注的重點(diǎn)方向。就預(yù)測(cè)的實(shí)現(xiàn)路徑來(lái)看,當(dāng)前主要有兩種思路,一種是基于邏輯、規(guī)則的推理,一種則是基于統(tǒng)計(jì)的模型建構(gòu)。從發(fā)展趨勢(shì)來(lái)看,更趨近于機(jī)器學(xué)習(xí)的后者更加受到開(kāi)發(fā)者的青睞,市面上將此類產(chǎn)品稱為“量刑輔助產(chǎn)品”,主要就是通過(guò)測(cè)試,尋找出影響量刑的主要因素,并通過(guò)模型調(diào)試將因素和最終的量刑結(jié)果的輸出間構(gòu)建起模型上的聯(lián)系。這一過(guò)程中同樣離不開(kāi)自然語(yǔ)言處理的支持,國(guó)內(nèi)的項(xiàng)目中自然語(yǔ)言處理的過(guò)程主要在研發(fā)階段完成,比如通過(guò)裁判文書(shū)的信息提取,就是人類語(yǔ)言向機(jī)器語(yǔ)言轉(zhuǎn)變的過(guò)程。但在用戶層面,呈現(xiàn)的直接是結(jié)構(gòu)化數(shù)據(jù)的輸入界面。在國(guó)外的產(chǎn)品中,已經(jīng)能夠?qū)崿F(xiàn)一定程度的用戶層面即時(shí)的自然語(yǔ)言處理,smile+IBP系統(tǒng)就是其中的典型,用戶可以輸入一段文本來(lái)描述一個(gè)問(wèn)題,smile系統(tǒng)將其拆解并表示為一組特征,并作分類,將分類結(jié)果傳至IBP系統(tǒng)中,由IBP系統(tǒng)實(shí)現(xiàn)預(yù)測(cè)輸出。該套系統(tǒng)實(shí)際上是兩個(gè)模型的嵌套,smile系統(tǒng)的任務(wù)是對(duì)自然語(yǔ)言解析,完成分類,并將分類的結(jié)果傳給IBP系統(tǒng),由其完成系統(tǒng)的主任務(wù)(這是第二個(gè)分類器)。上述兩套系統(tǒng)的根本區(qū)別在于用戶輸入的是結(jié)構(gòu)化的數(shù)據(jù)還是自然語(yǔ)言。
此外,還有一些自然語(yǔ)言技術(shù)的簡(jiǎn)單應(yīng)用,包括文書(shū)生成、文書(shū)屏蔽、文書(shū)校對(duì)等等,需要人工整理大量的文本規(guī)則,并且?guī)?lái)一定的智能化體驗(yàn)。在具體的業(yè)務(wù)場(chǎng)景中,自然語(yǔ)言技術(shù)的不同組合,能夠形成更好的支撐能力,比如綜合性的辦案平臺(tái),集成知識(shí)檢索、統(tǒng)計(jì)、文書(shū)編寫(xiě)、結(jié)果預(yù)測(cè)等等為一體,是司法信息化的發(fā)展方向。
自然語(yǔ)言技術(shù)的非結(jié)構(gòu)化信息抽取能力,還帶來(lái)了新的智能化發(fā)展機(jī)會(huì),能否采用文書(shū)數(shù)據(jù),來(lái)分析特定犯罪案件犯罪嫌疑人的羈押風(fēng)險(xiǎn)?這是一個(gè)較為前沿的題目。
為借鑒自然語(yǔ)言處理技術(shù)國(guó)外的成熟經(jīng)驗(yàn),并在法律領(lǐng)域作一定探索,研究中結(jié)合了工作的實(shí)際需要、當(dāng)前的改革熱點(diǎn),嘗試開(kāi)發(fā)一套實(shí)際應(yīng)用系統(tǒng),并在其中嘗試改進(jìn)自然語(yǔ)言處理的能力。
2.2兩組患者產(chǎn)后情況比較:產(chǎn)婦產(chǎn)后2小時(shí)血量、月經(jīng)恢復(fù)情況、乳脹及泌乳、胎盤(pán)胎膜殘留結(jié)果顯示,兩組間差距較大,觀察組各項(xiàng)指標(biāo)數(shù)據(jù)更優(yōu),兩組對(duì)比差異具備統(tǒng)計(jì)學(xué)意義,P<0.05。詳見(jiàn)表2。
本研究主要分析了刑事案件的庭前強(qiáng)制措施決定問(wèn)題,學(xué)界和實(shí)務(wù)中都對(duì)該問(wèn)題十分關(guān)注,尤其是對(duì)逮捕率太高、程序缺乏平等對(duì)抗、審查主體缺乏中立等問(wèn)題詬病不少。審查機(jī)關(guān)對(duì)于是否逮捕也十分犯難,主要對(duì)犯罪嫌疑人的非羈押時(shí)人身危險(xiǎn)性缺乏足夠證據(jù),擔(dān)心無(wú)法保障追訴、產(chǎn)生社會(huì)危險(xiǎn)是審查機(jī)關(guān)作出逮捕的重要原因之一。
本系統(tǒng)研發(fā)即在于挖掘影響是否逮捕的主要因素,并將其納入輸入指標(biāo)中,在輸出中給出是否逮捕的建議,并提示不逮捕時(shí)的風(fēng)險(xiǎn)提示?;诒疚闹饕懻撟匀徽Z(yǔ)言處理的問(wèn)題,重點(diǎn)闡釋其中的自然語(yǔ)言處理的問(wèn)題。
在系統(tǒng)開(kāi)發(fā)過(guò)程中,自然語(yǔ)言處理的主要任務(wù)是把自然語(yǔ)言句子這樣的非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)數(shù)據(jù),然后再利用強(qiáng)大的查詢功能,如SQL實(shí)現(xiàn)最終匹配。上述過(guò)程稱之為信息提?、?。
1.文書(shū)格式不統(tǒng)一,影響提取質(zhì)量。本次系統(tǒng)開(kāi)發(fā)主要采用的語(yǔ)料是已經(jīng)公開(kāi)的裁判文書(shū),因此面臨自然語(yǔ)言處理的諸多問(wèn)題。首先是文本的格式體例不統(tǒng)一,影響了提取的效率;其次是文書(shū)數(shù)據(jù)項(xiàng)的不直接呈現(xiàn),有數(shù)據(jù)的二次處理需要;最后是文本中部分?jǐn)?shù)據(jù)項(xiàng)的缺失,導(dǎo)致缺省值的出現(xiàn),需要對(duì)此單獨(dú)處理。
2.數(shù)據(jù)項(xiàng)有不同特點(diǎn),增加了自然語(yǔ)言處理的難度。在我們的輸入指標(biāo)中,有類型數(shù)據(jù)、日期數(shù)據(jù)、連續(xù)數(shù)據(jù),對(duì)不同數(shù)據(jù)的處理,適合不同的處理方式。
3.模型中的數(shù)據(jù)輸出,也存在不同的處理方式。采用不同的數(shù)據(jù)呈現(xiàn)方式,取決于客戶的需要。就本系統(tǒng)而言,就是要兼顧逮捕的預(yù)計(jì)取保風(fēng)險(xiǎn)、降低低風(fēng)險(xiǎn)案件的逮捕率兩大目標(biāo)看,我們優(yōu)化了輸出數(shù)據(jù)的輸出方式。
1.循環(huán)改進(jìn)規(guī)則。因?yàn)檎Z(yǔ)料的結(jié)構(gòu)不一致,表述多樣,我們采取了反復(fù)循環(huán)提煉規(guī)則,提高匹配效果。該部分我們吸納了大量具有法律學(xué)位背景的工程師參與工作,將各數(shù)據(jù)項(xiàng)在文書(shū)中的表現(xiàn)形式進(jìn)行歸納。
2.將適合機(jī)器學(xué)習(xí)的類型,我們采用有監(jiān)督學(xué)習(xí)的方式,多次嘗試文本分類的任務(wù)。有些任務(wù)適合機(jī)器學(xué)習(xí)的方式提取,典型的是一種語(yǔ)義型的、表述方式多元的分類任務(wù),可以采取機(jī)器學(xué)習(xí)的方式,我們的任務(wù)中就有部分的數(shù)據(jù)指標(biāo),采取了此種方式。
3.對(duì)自然語(yǔ)言處理經(jīng)驗(yàn)的積累。積累的方法有兩種,一種是通過(guò)機(jī)器學(xué)習(xí)模型的方式固定,即通過(guò)規(guī)則提取的精確部分,可以作為有監(jiān)督學(xué)習(xí)的人工標(biāo)簽語(yǔ)料,用于訓(xùn)練概率的模型;第二種是通過(guò)構(gòu)建詞典的方式,將數(shù)據(jù)指標(biāo)的文書(shū)表達(dá)用詞構(gòu)建了字典,進(jìn)行分類保存。在研發(fā)過(guò)程及后續(xù)升級(jí)中,該詞庫(kù)的形成將起到關(guān)鍵作用,可以提高自然語(yǔ)言分詞、識(shí)別的能力。
4.數(shù)據(jù)的輸入和輸出設(shè)計(jì)。從機(jī)器學(xué)習(xí)的思路看,輸入的指標(biāo)都是反映案件信息的特征,原則上講數(shù)據(jù)指標(biāo)越體系、全面,越能夠反映案件情況,所得出的輸出結(jié)果頁(yè)能夠更準(zhǔn)確。但這也有一個(gè)悖論,這給輸入體系造成了負(fù)擔(dān)?;跍?zhǔn)確性的考慮,本研究開(kāi)發(fā)的系統(tǒng)主要以輸入結(jié)構(gòu)化數(shù)據(jù)為主,過(guò)多的輸入項(xiàng)將給用戶造成負(fù)擔(dān)。因此輸入端的核心問(wèn)題是如何對(duì)輸入指標(biāo)做取舍,這部分體現(xiàn)了我們開(kāi)發(fā)該系統(tǒng)的核心能力。輸出端的問(wèn)題在于給出的建議傾向性程度如何把握,眾所周知機(jī)器學(xué)習(xí)的結(jié)果給出的只是概率,并由人調(diào)整閾值。因此,如何設(shè)計(jì)閾值,背后有系統(tǒng)研發(fā)者的刑事政策考慮,也有基于當(dāng)前的逮捕現(xiàn)狀、目標(biāo)的考慮,這部分離不開(kāi)資深法律人的介入,也充分說(shuō)明機(jī)器系統(tǒng)本身是為人所服務(wù),由人所把控的輔助理念。
在法律領(lǐng)域開(kāi)展人工智能的開(kāi)發(fā)應(yīng)用,自然語(yǔ)言處理技術(shù)是關(guān)鍵點(diǎn)。原因主要是法律活動(dòng)圍繞文書(shū)展開(kāi),以文本為載體的語(yǔ)料主要是書(shū)面的自然語(yǔ)言,這明顯有別于金融領(lǐng)域(圍繞價(jià)格,大量的結(jié)構(gòu)化數(shù)據(jù)),也不同于醫(yī)療領(lǐng)域(圖像是其重要的語(yǔ)料類型)。因此,法律領(lǐng)域適用人工智能的相關(guān)前沿技術(shù),首要前提即是自然語(yǔ)言處理的任務(wù)。從當(dāng)前看,有以下困難,造成進(jìn)一步發(fā)展出現(xiàn)了不少的障礙:一是語(yǔ)料的范圍有限,且缺乏交叉驗(yàn)證;法律人工智能之所以近年來(lái)在國(guó)內(nèi)有所發(fā)展,得益于司法公開(kāi),尤其是裁判文書(shū)的公開(kāi)。但在后續(xù),其他一些司法文書(shū)公開(kāi)并未有實(shí)質(zhì)跟進(jìn),即使是在政法機(jī)關(guān)內(nèi)部各家,公開(kāi)程度也不一致;這造成了可以依據(jù)的主要是公開(kāi)的裁判文書(shū)。但作為案件的事實(shí)信息而言,裁判文書(shū)能夠反映的十分有限,仍以羈押必要性的系統(tǒng)開(kāi)發(fā)為例,是否具有人身危險(xiǎn)性、逮捕必要性,需要結(jié)合案件、嫌疑人的全面信息綜合判斷,裁判文書(shū)中的案件信息多于個(gè)人信息,信息的缺失、缺少其他語(yǔ)料來(lái)源的交叉驗(yàn)證,都使得系統(tǒng)的預(yù)測(cè)準(zhǔn)確性大打折扣。二是語(yǔ)料的質(zhì)量不高,仍然缺乏對(duì)裁判文書(shū)的統(tǒng)一格式要求,目前能夠統(tǒng)一的主要文書(shū)一級(jí)結(jié)構(gòu),但在具體的日期、金額等關(guān)鍵信息表述方式上,仍由法官各自發(fā)揮。這對(duì)于自然語(yǔ)言處理而言,人為制造了不小麻煩,比如金額中首先需要對(duì)于金額的含義、金額間的關(guān)系,類型過(guò)多都是導(dǎo)致計(jì)算機(jī)分類準(zhǔn)確度降低的因素。三是語(yǔ)料的公開(kāi)程度與結(jié)構(gòu)仍然處于黑箱狀態(tài),即公開(kāi)的比例、選擇性等都處于不可知狀態(tài),導(dǎo)致根據(jù)公開(kāi)部分的文書(shū)所得出的模型也可能并不符合實(shí)際情況。四是文書(shū)的部分概念的字面含義,和辦案場(chǎng)景中的分類并不相同,比如取保候?qū)徶械摹霸谔印钡谋硎?,并不代表?shí)際案件中的嫌疑人即是故意違反取保規(guī)定,有可能只是短暫的失去聯(lián)系。上述問(wèn)題,部分是技術(shù)問(wèn)題,部分則是業(yè)務(wù)中對(duì)詞語(yǔ)的尺度把握問(wèn)題,但都給了自然語(yǔ)言處理及構(gòu)建模型造成了很大困擾。
因此,突破法律自然語(yǔ)言處理的瓶頸障礙,離不開(kāi)技術(shù)的進(jìn)一步提升,更重要的是相關(guān)部門(mén)的制度配合。與之相關(guān)的制度包括,統(tǒng)一文書(shū)格式的強(qiáng)制要求、案件的各類文書(shū)的精準(zhǔn)關(guān)聯(lián)和公開(kāi)使用,辦案人在用詞上的標(biāo)準(zhǔn)基本一致的要求等。這些都將有助于提高語(yǔ)料的質(zhì)量和內(nèi)容提取的精準(zhǔn)性。而從當(dāng)前的現(xiàn)實(shí)來(lái)看,我們既要保持對(duì)法律人工智能足夠的信心,又應(yīng)當(dāng)對(duì)通過(guò)裁判文書(shū)得出的模型使用場(chǎng)合有理性認(rèn)識(shí),現(xiàn)階段主要將其定位為一種輔助工具、減少人工查找的負(fù)擔(dān)等方面,基于當(dāng)前的語(yǔ)料狀況下是有希望實(shí)現(xiàn)的。
[ 注 釋 ]
①鄭捷.NLP漢語(yǔ)自然語(yǔ)言處理處理原理與實(shí)踐[M].電子工業(yè)出版社,2018,5:1.
②最高人民檢察院.《多措并舉促進(jìn)基層院信息化建設(shè)》[EB/OL].http: // www.s pp. gov. cn/ ztk/ dfld/ 2017dfld/ dfld98_4843/ywtt/ 201705/ t20170525_191464.shtml.
③最高人民法院.關(guān)于深化人民法院司法體制綜合配套改革的意見(jiàn)——人民法院第五個(gè)五年改革綱要(2019—2023).
④Charniak,Eugene.1991.Bayesian networks without tears[J].AI Magazine,12(4):50-63.
⑤Turtle,Howard.1995.Text retrieval in the legal world[J].Artificial Intelligence and Law,3(1-2):5-54.
⑥Biagioli,Carlo,F(xiàn)rancesconi,Enrico,Passerini,Andrea,Montemagni,Simonetta,and Soria,Claudia.2005.Automatic semantics extraction in law documents.In:ICAIL ’05:7th International Conference on AI and Law.New York,NY:ACM.;Francesconi,Enrico and Passerini,Andrea.2007.Automatic classification of provisions in legislative texts[Z].Artificial Intelligence and Law,15,1-17.
⑦具體流程圖,可參見(jiàn)Steven bird,ewan klein:《python 自然語(yǔ)言處理》[M].人民郵電出版社,2018:282.