邱昭繼
內(nèi)容提要:文本解析技術(shù)的突破與IBM的“沃森”和“辯論者”程序的研發(fā)團隊的努力密不可分。“沃森”基于文本的信息提取技術(shù)展現(xiàn)了不同凡響的問答本領(lǐng),“辯論者”已經(jīng)學(xué)會了論證挖掘。深度問答、信息提取和論證挖掘這些技術(shù)用更一般性的術(shù)語講就是文本解析。人工智能與法律研究者和技術(shù)專家將文本解析與法律推理和法律論證的計算模型整合在一起,創(chuàng)建了一些新的法律應(yīng)用程序。這些法律應(yīng)用程序不僅僅是將法律人的處理過程計算機化和標準流程化,更是創(chuàng)造性地處理了一些法律人過去無法完成的任務(wù)。文本解析技術(shù)的迅速發(fā)展將深刻地改變法律實踐、法律職業(yè)、法律教育和法學(xué)研究。
2011年2月,由戴維·費魯奇(David Ferrucci)領(lǐng)導(dǎo)的IBM研發(fā)團隊開發(fā)的認知計算系統(tǒng)“沃森”(Watson)參加了美國著名智力問答競賽電視節(jié)目“危險邊緣!”(Jeopardy?。?。該節(jié)目以一種獨特的問答形式進行:它以答案形式提供各種線索,參賽者以問題的形式做出簡短回答。問題設(shè)置非常廣泛,參賽者需具備歷史、文學(xué)、藝術(shù)、流行文化、科技、地理、政治、體育等多方面知識,還需要理解隱語、反諷等表述方式?!拔稚痹诠?jié)目中表現(xiàn)神勇,一舉擊敗了連勝紀錄保持者肯·詹寧斯(Ken Jennings)和最高獎金得主布拉德·魯特爾(Brad Rutter)。這是IBM歷史上繼“深藍”計算機于1997年打敗國際象棋衛(wèi)冕世界冠軍加里·卡斯帕羅夫(Gary Kasparov)后,又一次成功地挑戰(zhàn)人類?!拔稚痹诠?jié)目中能夠回答微妙、復(fù)雜、語義雙關(guān)的問題,這開啟了認知計算的新紀元,也標志著人工智能寒冬的終結(jié)。1Dr. John E. Kelly III:《認知計算和我們的未來——人類和機器如何鍛造認知新時代》,載 IBM商業(yè)價值研究院:《認知計算與人工智能》,東方出版社2016年版,第7頁。2014年春季,IBM研究院總監(jiān)約翰·凱利三世在米爾肯研究所年度會議上演示了“辯論者”(Debater)程序。“辯論者”是IBM公司研發(fā)出來的新的人工智能項目,它使用“沃森”程序的一些文本處理技術(shù)來執(zhí)行論證挖掘。
文本解析技術(shù)的突破與IBM的“沃森”和“辯論者”程序的研發(fā)團隊的努力密不可分?!拔稚被谖谋镜男畔⑻崛〖夹g(shù)展現(xiàn)了不同凡響的問答本領(lǐng),“辯論者”已經(jīng)學(xué)會了論證挖掘。深度問答、信息提取和論證挖掘這些技術(shù)用更一般性的術(shù)語講就是文本解析?!拔谋窘馕鲆卜Q為文本挖掘,是從文本數(shù)據(jù)中獲得高質(zhì)量和可操作信息和見解所遵循的方法和過程。這涉及使用自然語言處理、信息檢索和機器學(xué)習(xí)從語法上把非結(jié)構(gòu)化文本數(shù)據(jù)解析成更結(jié)構(gòu)化的形式,并從這些數(shù)據(jù)中提取出對終端用戶有幫助的模式和洞見?!?[印度]迪潘簡·撒卡爾:《Python文本分析》,閆龍川、高德荃、李君婷譯,機械工業(yè)出版社2018年版,第35頁。該書的譯者將“text analytics”翻譯成“文本分析”,我將這個概念翻譯成“文本解析”。當(dāng)被解析的文本是法律時,人們將其稱之為法律文本解析。3Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 5.法律文本解析(legal text analytics)又稱之為法律文本挖掘(legal text mining),是指“使用語言的統(tǒng)計的和機器學(xué)習(xí)的技術(shù)自動發(fā)現(xiàn)法律文本數(shù)據(jù)檔案中的知識”。4Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 397.法律文本解析簡稱為法律解析。深度問答、信息提取和論證挖掘成為了法律文本解析的核心技術(shù)。
“沃森”和“辯論者”程序雖然不會進行法律推理和法律論證,但它們?yōu)榉赏评砗驼撟C的計算模型提供了文本解析技術(shù)。兩位有遠見的作者呼吁法律界認真對待“沃森”技術(shù)對未來法律實踐的影響。他們指出,“沃森”是應(yīng)用于法律的最重要的技術(shù),“沃森”改變了人們對于法律知識結(jié)構(gòu)的理解,降低了法律成本,促進了法律信息和數(shù)據(jù)的組織管理,給年輕律師提供了更多的出人頭地的機會,給法律教學(xué)帶來了全新的挑戰(zhàn),讓法學(xué)與工程學(xué)科的交叉融合提供了可能性,等等。5Paul Lippe and Daniel Martin Katz, "10 predictions about how IBM's Watson will impact the legal profession", October 2, 2014, 載http://www.abajournal.com/legalrebels/article/10_predictions_about_how_ibms_watson_will_impact,2018年10月8日訪問。法律文本解析是人工智能時代廣泛應(yīng)用于法律實踐的一項新技術(shù)。本文試圖對法律文本解析及其在法律實踐中的應(yīng)用問題做一番初步的探討。本文將逐一闡述深度問答、信息提取和論證挖掘技術(shù)及其在法律實踐中的應(yīng)用情況。
*本文是國家社會科學(xué)基金項目“司法裁判過程中的人工智能應(yīng)用研究”(項目編輯18BFX008)階段性成果。
**邱昭繼,西北政法大學(xué)教授,法學(xué)理論教研室主任。
深度問答技術(shù)是IBM“沃森”的核心技術(shù)。“沃森”是基于自然語言處理、機器學(xué)習(xí)和高級數(shù)據(jù)解析的高級問答系統(tǒng)。2011年2月,在美國電視節(jié)目“危險邊緣!”游戲中,“沃森”“在回答問題時能夠搜索其巨大的資料庫,并判斷預(yù)估答案的可信度,當(dāng)對答案有充分把握時,搶先于人類按動了搶答器”,6[美]約翰·E. 凱利、史蒂夫·哈姆:《機器智能》,馬雋譯,中信出版社2016年版,第3—4頁。從而一戰(zhàn)成名。
為了在“危險邊緣!”游戲中獲勝,IBM組建了一支由二十多位科學(xué)家組成的核心研發(fā)團隊,這些科學(xué)家是自然語言處理、信息檢索、知識表示、自動推理、機器學(xué)習(xí)和高性能計算等領(lǐng)域的頂尖專家。他們經(jīng)過五年多時間的研究和開發(fā),實現(xiàn)了技術(shù)的突破?!拔稚笔亲鳛橐粋€問答計算系統(tǒng)創(chuàng)建的。研發(fā)者為“沃森”創(chuàng)造了一種叫做深度問答的學(xué)習(xí)能力系統(tǒng)。深度問答技術(shù)包括問題解析和分類、問題分解、自動源獲取與評價、實體和關(guān)系檢測、邏輯形式生成、知識表達和推斷等內(nèi)容?!拔稚睂C器學(xué)習(xí)提升到了一個新高度。對于每一個問題,“沃森”學(xué)習(xí)如何從數(shù)據(jù)庫的數(shù)百萬個文本中提取問題的候選答案,學(xué)習(xí)使其能夠識別該類問題的答案的各種證據(jù),學(xué)習(xí)與文本相連的各種證據(jù)的可信度。研發(fā)者“訓(xùn)練沃森識別各類信息,如名人、地點和關(guān)系,同時也解析語言。之后,他們又設(shè)計了一套統(tǒng)計方法,用來學(xué)習(xí)不同語境中詞語的使用情況。這種技術(shù)組合使“沃森”從數(shù)據(jù)中學(xué)習(xí),而不是僅僅按照指示工作。從某種意義上說,“沃森”將學(xué)習(xí)人類的學(xué)習(xí)方式,接觸大量的事情并從中得出推論并習(xí)得經(jīng)驗”。7同上注,第36—37頁。深度問答架構(gòu)將自動問答問題視為大規(guī)模平行假設(shè)生成和評價任務(wù)。深度問答的結(jié)果不僅僅是提問與回答,而且是一個執(zhí)行不同診斷的系統(tǒng)。這個系統(tǒng)基于各種數(shù)據(jù)收集、分析和評估每個結(jié)果的置信水平。通過問題、主題、案例或一組相關(guān)問題,深度問答在輸入語言中找到重要的概念及其關(guān)系,構(gòu)建用戶信息需求的表示,然后通過搜索生成許多可能的回應(yīng)。對于每個可能的回應(yīng),它產(chǎn)生獨立和競爭的線索,這些線索從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中收集、評估和組合不同類型的證據(jù)。它可以提供排序的回應(yīng)列表,每個回應(yīng)都與證據(jù)配置文件相關(guān)聯(lián),該證據(jù)配置文件描述了深度問答內(nèi)部算法是如何對支持證據(jù)進行加權(quán)的。8參見IBM“沃森”研究團隊關(guān)于深度問答架構(gòu)的描述,載https://researcher.watson.ibm.com/researcher/view_group_subpage.php?id=2159,2018年10月3日訪問。深度問答軟件架構(gòu)是根據(jù)非結(jié)構(gòu)化信息管理架構(gòu)(Unstructured Information Management Architecture,UIMA)標準建立的。UIMA是一個用于問答系統(tǒng)的開源阿帕奇(Apache)框架,在這個架構(gòu)中文本注釋器被組織到文本處理管道,將語義分配給文本區(qū)域。
通過自然語言處理和各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源組合,“沃森”擁有理解復(fù)雜上下文的能力。它可以“讀”文本、“看”圖像、“聽”自然語言,它解讀那些信息,提取信息并對信息進行標記和注釋,同時伴有推論和推理過程,提供候選答案并對它們成為一個正確答案的可能性進行評估和排名。其實,“沃森”并不真正“知道”答案。“沃森”也會犯錯。在第一天的比賽將結(jié)束時,“危險邊緣!”游戲的終局節(jié)目是“美國城市,分值400美元”。答案是“它最大的機場以第二次世界大戰(zhàn)的英雄命名;它第二大的機場以第二次世界大戰(zhàn)的一場戰(zhàn)役命名?!蔽稚o出的答案是“多倫多是什么?????”,正確的答案是“芝加哥是什么?”芝加哥的第一大機場是以“二戰(zhàn)”英雄海軍王牌少校指揮官愛德華·亨利·布奇·奧黑爾(Edward Henry “Butch” O’ Hare)的名字命名的,第二大機場中途機場(Midway Airport)是以“二戰(zhàn)”著名的太平洋海戰(zhàn)命名的。稍有常識的人都知道多倫多是加拿大城市,不是美國城市?!拔稚崩Щ笥谶@個問題的原因有很多,在美國確實有一些叫多倫多的城市,比如伊利諾伊州的多倫多、印第安納州的多倫多,并且加拿大的多倫多藍鳥隊的確參加美國棒球聯(lián)盟的比賽。結(jié)果,“沃森”的置信水平非常低,只有14%,正如5個問號所示,它對答案沒有信心。然而,“沃森”能夠從錯誤中學(xué)習(xí),通過大規(guī)模機器學(xué)習(xí),“沃森”能從訓(xùn)練和運用中不斷改善。9參見Dr. John E. Kelly III:《認知計算和我們的未來——人類和機器如何鍛造認知新時代》,載 IBM商業(yè)價值研究院:《認知計算與人工智能》,東方出版社2016年版,第9—10頁。
圖1 IBM“沃森”深度問答架構(gòu)
“沃森”和“辯論者”程序雖然不會進行法律推理和法律論證,但它們?yōu)榉赏评砗驼撟C的計算模型提供了文本解析技術(shù)。IBM試圖將“沃森”的深度問答技術(shù)應(yīng)用于法律領(lǐng)域?!拔稚钡幕救蝿?wù)是回答問題。法律問答可以讓法律知識更容易獲得。IBM的總法律顧問羅伯特·韋伯(Robert Weber)指出,深度問答技術(shù)能在幾毫秒內(nèi)解析數(shù)億頁內(nèi)容并挖掘它們以獲取事實和結(jié)論。雖然深度問答技術(shù)不會取代律師,但它讓律師如虎添翼。這項技術(shù)將在兩個方面派上用場:收集事實和建構(gòu)法律論證時識別觀點。這項技術(shù)甚至可以在法庭上近乎實時地發(fā)揮作用。如果證人說某些似乎不可信的內(nèi)容,律師現(xiàn)場就能檢查其準確性。10參見Robert C. Weber, "Why 'Watson' matters to lawyers", The National Law Journal, Feb. 18, 2011, https://www.law.com/nation allawjournal/almID/1202481662966/,2018年8月25日訪問。
阿什利想象了一個“法律危險邊緣!”游戲。主持人透露類別是“體育法”。答案是“美國棒球聯(lián)盟球隊在經(jīng)濟罷工期間不能合法雇用替補球員”?!拔稚睋尨鸬溃骸岸鄠惗嗨{鳥隊是什么?”主持人宣布:“答案正確!多倫多藍鳥隊在經(jīng)濟罷工期間不能雇傭替補工人?!薄拔稚被卮疬@個問題的方式不同于法律人。法律人首先想到的是美國棒球聯(lián)盟球隊所在國家和州的勞動法規(guī)定,看看這些法律規(guī)定是否禁止球隊在經(jīng)濟罷工期間雇用替補球員。然而,“沃森”不知道多倫多的位置或所屬國家也能正確地回答問題?!拔稚笔且蕾囌Z料庫中的信息提取答案。根據(jù)1995年《福德姆國際法期刊》發(fā)表的《多倫多藍鳥隊的替補球員?——在加拿大安大略省替補工人法與美國替補工人法之間取得恰當(dāng)?shù)钠胶狻芬晃?,美國的國家勞動關(guān)系法案允許美國的棒球隊在球員罷工期間雇用替補球員,而多倫多藍鳥隊受加拿大安大略省勞動法的約束,根據(jù)安大略省的勞動關(guān)系法案,多倫多藍鳥隊在球員罷工期間不能雇傭替補球員。11Jordan Lippner, "Replacement players for the Toronto Blue Jays? Striking the appropriate balance between replacement worker law in Ontario, Canada, and the United States", Fordham International Law Journal, 1995 (38), pp.2026-2029.只要“沃森”的語料庫中包含這篇文章,稍加訓(xùn)練的“沃森”就可以學(xué)會將其識別為與此類問題相關(guān)的信息,從中提取相關(guān)答案,并評估其對答案正確性的置信水平?!拔稚焙芸赡軣o法解釋它所提取的答案。解釋答案需要人們理解與法律選擇和法律主題相關(guān)的規(guī)則和概念,而“沃森”不掌握這些知識也不可能使用這些知識。經(jīng)過適當(dāng)訓(xùn)練的“沃森”可以學(xué)習(xí)識別相關(guān)問答對的證據(jù)類型,包括語義線索,如“合法雇用”“替代工人”“經(jīng)濟罷工”等概念和關(guān)系。在評估答案的置信水平時,“沃森”能夠?qū)W習(xí)根據(jù)這些證據(jù)給予答案多大的權(quán)重。12參見Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017,pp. 17-18。
“沃森”的深度問答技術(shù)被廣泛應(yīng)用于法律市場。法律問答讓法律知識的獲取變得更容易?!胺缮显训馈保↙egal OnRamp)是一個使用IBM“沃森”解析合同的應(yīng)用程序。公司的合同信息推動了大多數(shù)業(yè)務(wù)運營:收入確認、薪酬、服務(wù)和產(chǎn)品交付、風(fēng)險評估、大量研發(fā)和知識產(chǎn)權(quán)資產(chǎn)創(chuàng)造。當(dāng)重大的公司活動或交易發(fā)生時,公司都會聘請法律顧問審查合同。公司法律顧問希望能夠輕松回答以下問題:哪些合同包括特定約定?哪些合同包括諸如對間接損失的免責(zé)聲明?包含在合同正文而不是附錄中的特定類型的約定針對的是哪些合同?使用普通的信息檢索工具無法輕松可靠地回答此類問題?!胺缮显训馈睂⒑贤峁┙oIBM“沃森”和其他機器學(xué)習(xí)工具,以自動回答法律問題并加快人工審查流程。由于“法律上匝道”直接與公司合作,因此它可以獲得比任何律師事務(wù)所更多的合同。在回答問題時,“沃森”分解問題,從合同文本語料庫中搜索候選答案,并根據(jù)每個候選答案解決問題的信心對候選答案進行排序。13Ibid., p. 27。
加拿大多倫多大學(xué)的學(xué)生團隊創(chuàng)建的“羅斯”(Ross)是運用深度問答技術(shù)研發(fā)出來的法律應(yīng)用程序,被稱為法律領(lǐng)域的“沃森”?!傲_斯”于2015年1月參加了IBM的“沃森”挑戰(zhàn)競賽并獲得了第二名的好成績?!傲_斯”利用“沃森”提供的自然語言和認知計算平臺的優(yōu)勢,以開發(fā)者云為基礎(chǔ)向客戶提供法律問答服務(wù)。他們給“羅斯”取了一個有趣的綽號——“遇見超級聰明的律師羅斯”?!傲_斯”幾乎模仿人類閱讀過程,識別文本中的模式,并提供有關(guān)文檔片段的語境化答案?!傲_斯”接受以簡明英語提出的問題,并根據(jù)制定法、判例法和其他法律淵源提供答案。比如,你問“羅斯”:“破產(chǎn)公司還能開展業(yè)務(wù)嗎?”“羅斯”就會提供了一個帶有引文的答案,并向你提供一些與該主題相關(guān)的讀物?!傲_斯”的演示視頻列出了該程序可以處理的示例問題,包括:(1)加拿大公司需要保留哪些公司記錄?(2)加拿大公司的董事可以加入一類股票的國家資本賬戶嗎?(3)員工可以開展競爭業(yè)務(wù)嗎?(4)如果員工沒有達到銷售目標并且無法完成他們的工作要領(lǐng),他們可以在不事先通知的情況下被解聘嗎?14Brian Jackson, "Meet Ross, the Watson-Powered 'Super Intelligent' Attorney". https://www.itbusiness.ca/news/meetross-the-watson-powered-super-intelligent-attorney/53376,2018年9月12日訪問。在回答最后一個問題時,“羅斯”屏幕引用了加拿大的雷吉娜訴阿瑟斯案(Regina v.Arthurs,1967)以及該案的摘錄和文本?!傲_斯”對這個答案給出的置信水平為94%?!傲_斯”總結(jié)道:如果一名員工犯了嚴重的不當(dāng)行為,習(xí)慣性疏忽職守,無能,或與其職責(zé)不符,或者對雇主的業(yè)務(wù)造成損害,或者如果他有在實質(zhì)上對雇主的命令故意不服從,法律承認雇主有權(quán)立即解雇不盡責(zé)的雇員。“羅斯”建議額外閱讀關(guān)于“正當(dāng)理由終止”的制定法、判例法、法律備忘錄和其他淵源中的讀物。“羅斯”具有從用戶反饋中學(xué)習(xí)的能力。例如,“羅斯”在雷吉娜訴阿瑟斯案這個答案后跟著一個詢問,如果答案是準確的,請用戶按豎起的大拇指,如果答案是不準確的,請用戶按朝下的大拇指。15Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, pp. 351-352.反饋旨在告知“羅斯”這個答案的準確率,這也為“羅斯”更新答案提供信息。
“羅斯”具有四個方面的優(yōu)勢:(1)設(shè)計高度直觀,易于使用,羅斯可以無縫地引入律師的工作流程;(2)通過尖端的人工智能技術(shù),律師能夠更智能、更快速、更流暢地工作;(3)通過大幅減少研究和流程準備所需的勞動時間來提高效率;(4)通過加快工作流程和提高效率,人們能夠?qū)r間和金錢花在高價值的咨詢?nèi)蝿?wù)和復(fù)雜的法律事務(wù)上,從而提高盈利能力。16https://rossintelligence.com/,2018年9月15日訪問。北美律師事務(wù)所按小時收費,平均每小時收取400美元的勞務(wù)報酬。由于北美律師收費高昂,許多法律文書工作外包給了印度等其他國家,這些國家的勞動力成本低,他們的律師收費低、服務(wù)質(zhì)量也有保證?!傲_斯”問世后法律行業(yè)將發(fā)生巨大的變化。律師事務(wù)所可以將許多工作交給“羅斯”去完成?!傲_斯”大大地降低了法律服務(wù)的成本,也極大地提高了律師的效率、準確率和盈利能力。根據(jù)“羅斯”官網(wǎng)的統(tǒng)計,“羅斯”相比基于“布爾”的搜索節(jié)省了30.3%的時間,相比基于自然語言的搜索節(jié)省了22.3%的時間,讓每位律師增加了13,067美元的年收入。17同上注。
人工智能長期以來尋求從文本中識別和提取語義要素,如概念及其關(guān)系。計算機程序從法律文本中提取語義信息,并用它幫助人類解決法律問題?!靶畔⑻崛∈怯嬎銠C從人類語言書寫的文檔中提取可識別的信息的行為。”18[美]Douglas Downing,Michael Covington, Melody Covington, Catherine Anne Barrett, Sharon Covington編:《巴朗行業(yè)詞典—計算機與網(wǎng)絡(luò)》,清華大學(xué)出版社2015年版,“信息提取”詞條。典型的信息提取系統(tǒng)的內(nèi)部工作過程主要包括五個步驟:(1)用一組信息模式描述感興趣的信息;(2)對文本進行“適度的”詞法、句法及語義分析,并作各種文本標引;(3)使用模式匹配方法識別指定的信息;(4)進行上下文關(guān)聯(lián)、指代、引用等分析和推理,確定信息的最終形式;(5)輸出結(jié)果,例如生成一個關(guān)系數(shù)據(jù)庫或給出自然語句陳述等。19參見孫斌:《信息提取技術(shù)概述》(上),載《術(shù)語標準化與信息技術(shù)》2002年第3期。信息提取是從非結(jié)構(gòu)化的機器可讀文檔中自動提取結(jié)構(gòu)化信息的任務(wù)。自動提取信息是法律文本解析技術(shù)的一個重要特征。在法律專家系統(tǒng)中,專業(yè)知識體現(xiàn)在人類專家用于解決此類問題的規(guī)則中,這些規(guī)則通常由工程師在知識獲取過程中手動構(gòu)建。而在認知計算中,知識體現(xiàn)在文本語料庫中,計算機程序從中提取候選解決方案或解決方案元素,并根據(jù)它們與問題的相關(guān)性對解決方案進行排序。計算機程序用于評估相關(guān)性的知識主要不是手動獲取,而是通過使用機器學(xué)習(xí)從特定領(lǐng)域的數(shù)據(jù)集中提取模式而自動獲取。20參見Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 13。從法律文本中自動提取信息的技術(shù)包括:幫助法律信息檢索系統(tǒng)考慮意義,將機器學(xué)習(xí)應(yīng)用于法律文本以及從法律法規(guī)和法律判決中自動提取語義信息等方面。21參見Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, pp. 31-32。
機器學(xué)習(xí)是一種自動化分析模型構(gòu)建的數(shù)據(jù)分析方法,它是人工智能的一個分支。機器學(xué)習(xí)算法可以從數(shù)據(jù)中學(xué)習(xí)、識別文本特征模式、總結(jié)模型中的模式并做出決策。根據(jù)學(xué)習(xí)方式的不同,機器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。機器學(xué)習(xí)為從法律文本中提取信息提供了關(guān)鍵的技術(shù)支持。將機器學(xué)習(xí)應(yīng)用于法律文本分為兩個步驟。第一步是收集和處理原始數(shù)據(jù),即自然語言法律文本的語料庫。第二步是使用一些語言處理來轉(zhuǎn)換原始文本數(shù)據(jù),以標記、規(guī)范和注釋文本,然后法律文檔被表示為特征向量。法律文本中機器學(xué)習(xí)的目標是對文檔進行分類或進行預(yù)測。在涉及法律案件的機器學(xué)習(xí)語境中,目標可能是通過句子在法律意見中發(fā)揮的功能對句子進行分類,例如,分為“法律決定或法律裁決”的句子或“基于證據(jù)的發(fā)現(xiàn)”的句子。在成文法條款的機器學(xué)習(xí)語境中,目標可能是按行政法、私法、環(huán)境法或刑法等主題對條款進行分類。22Ibid., pp. 236-237。
圖2 先前案例檢索系統(tǒng)的處理模塊
“萬律歷史項目”(Westlaw History Project)是用機器學(xué)習(xí)從法律案件語料庫中提取有用信息的典型系統(tǒng)。該系統(tǒng)“從法院意見中提取信息,并用這些信息建議新案件應(yīng)當(dāng)鏈接的先前案例”。23Peter Jackson, Khalid Al-Kofahi, Alex Tyrrell, and Arun Vachher,"Information extraction from case law and retrieval of prior cases", 150Artificial Intelligence 1-2 (2003), p. 240.先前案例檢索識別當(dāng)前案件中的歷史語言影響的案例。所有案例都應(yīng)以上訴鏈接(appellate chains)的形式與法律援引集數(shù)據(jù)庫連接在一起?!皻v史項目”系統(tǒng)把來自文本語料庫的信息提取、基于提取的信息的候選案例的信息檢索以及基于機器學(xué)習(xí)的關(guān)于候選案例的判斷結(jié)合在一起。如圖2所示,先前案例檢索系統(tǒng)的處理模塊包括三個主要的組件:信息提取、信息檢索和做出決定。信息提取組件處理法院意見及其首部,提取當(dāng)事人姓名、法院、日期、案卷號和歷史語言;信息檢索組件生成查詢,并把它們提交到法律援引數(shù)據(jù)集以檢索先前案例的候選案例;決定做出組件采用機器學(xué)習(xí)算法決定哪個候選案例是當(dāng)前案件的真正先例。24Ibid., pp.274-276.
標題匹配可以有效地減少候選先例的數(shù)量,并幫助候選先例的排序。但標題信息不足以確保好的結(jié)果。特征提取和表示模塊從法院意見、案卷號、法院和歷史語言中提取額外的信息。為了最佳地表示每個案例以達到機器學(xué)習(xí)的目的,每個候選案例用八個特征表示為特征向量。八個特征包括:(1)標題相似性特征,衡量當(dāng)前案件的標題與候選先例標題的相似性;(2)歷史語言特征,這是一個二進制標志,如果自然語言組件直接從當(dāng)前案件報告中提取歷史語言,則該特征賦值為“1”;(3)案卷號匹配特征,這是一個二進制特征,當(dāng)且僅當(dāng)當(dāng)前案件和候選先例被分配了相同的案卷號,則該特征賦值為“1”;(4)檢查上訴特征,根據(jù)在法院層級中法院之間的關(guān)系估計一個法院成為當(dāng)前法院的先前法院的概率;(5)先前案例的概率特征,估計當(dāng)前案件實際上具有一個先前案例的概率;(6)引用案例特征,這是一個二進制標志,當(dāng)且僅當(dāng)檢索的先前候選案例在當(dāng)前案件中被引時,這個特征賦值為“1”;(7)標題權(quán)重特征,估計當(dāng)前案件標題中包含的信息;(8)AP1搜索特征,這是一個二進制標志,當(dāng)且僅當(dāng)先前案例的候選案例通過一個查詢檢索到并且這個查詢是從當(dāng)前案件的“上訴行”生成時,該特征賦值為“1”。25Ibid., pp.282-283.歷史項目團隊為了完成任務(wù),采用監(jiān)督學(xué)習(xí)并使用支持向量機作為機器學(xué)習(xí)算法。機器學(xué)習(xí)算法可以根據(jù)文本中的證據(jù)區(qū)分事實和法律討論,并學(xué)會識別和區(qū)分法律案件段落的事實和討論。
法律是指引和協(xié)調(diào)人的行為的社會規(guī)范。從普通公民到政府官員和法律職業(yè)人士都需要理解法律法規(guī)文本,了解法律規(guī)范的要求并按法律的要求行為。人工智能與法律研究長期以來致力于從電子化的法律法規(guī)文本中自動提取有關(guān)規(guī)范要求的信息。從法律法規(guī)文本中提取的信息可以用于自動法律推理和法律論證。自動提取信息技術(shù)可以通過各種方式支持認知計算。
從法律法規(guī)中提取的信息主要包括如下類型:(1)法律規(guī)范的功能類型,如禁止性法律規(guī)范、命令性法律規(guī)范和授權(quán)性法律規(guī)范;(2)與功能相關(guān)的特征,一些法律規(guī)范的功能類型將更具體的信息作為要素或參數(shù),如義務(wù)或責(zé)任的承擔(dān)者和受益人;(3)法律規(guī)范的邏輯構(gòu)成,法律規(guī)范在邏輯上由“前提條件”、“行為模式”和“法律后果”三部分構(gòu)成;(4)法律規(guī)范所屬的部門法類型,如刑法、民法、行政法、環(huán)境法或勞動與社會保障法;(5)出現(xiàn)在法律詞庫或本體中的規(guī)章概念,如“歐盟合同”、“少數(shù)群體保護”和“漁業(yè)管理”。從法律法規(guī)文本中自動提取功能信息對于概念信息檢索非常有用。
為了從法律法規(guī)文本中提取功能信息,意大利的人工智能與法律研究者設(shè)計了自動化方法。這種方法包括四個主要的模塊:(1)交叉引用解析器,旨在檢測交叉引用和建構(gòu)相關(guān)的統(tǒng)一命名;(2)結(jié)構(gòu)解析器,旨在自動化遺留內(nèi)容的可擴展標記語言的網(wǎng)上規(guī)范轉(zhuǎn)換;(3)條款自動分類器,根據(jù)條款的模式自動將段落分類為條款類型;(4)條款論證提取器,旨在自動提取條款論證。條款自動分類器能夠自動檢測立法文本中包含的條款類型。它主要由文本分類算法構(gòu)成。條款自動分類器的輸入是法律條款的文本段落,輸出是從一組候選類別中選擇的預(yù)測類型或條款類別。26E.Francesconi and A.Passerini, "Automatic classification of provisions in legislative texts", Artificial Intelligence and Law,2007 (15), pp. 6-7.條款論證提取器的輸入是文本段落和預(yù)測類型,輸出的是條款的功能信息和特征。下面舉一例說明條款論證提取器的輸入和輸出。27Ibid., p.3.
輸入:《意大利個人數(shù)據(jù)保護法典》第7條第1款規(guī)定:“打算處理屬于本法案適用范圍的個人數(shù)據(jù)的控制人必須通知其擔(dān)保人?!?/p>
類型:義務(wù)
輸出:系統(tǒng)提取功能信息:
特征:
接收者:“控制人”
行為:“注意”
對應(yīng)方:“擔(dān)保人”
被提取的功能信息可以作為元數(shù)據(jù)應(yīng)用于語義標記中的條款。一旦此類信息納入制定法條款的本體索引,人類用戶就可以搜索所有分配“控制人”向“擔(dān)保人”通知的義務(wù)的條款。研究者將機器學(xué)習(xí)和知識工程方法以互補的方式應(yīng)用于法律條款。機器學(xué)習(xí)提取了更多抽象的功能類型,如“義務(wù)”。知識工程規(guī)則提取了更具體的角色扮演者,如被賦予義務(wù)的“控制人”。機器學(xué)習(xí)和知識工程方法各有優(yōu)劣。機器學(xué)習(xí)方法手動注釋訓(xùn)練實例,自動使用機器學(xué)習(xí)算法來生成區(qū)別于實例訓(xùn)練集的特征。這種方法更靈活,更少領(lǐng)域依賴,并且需要較少的專業(yè)知識,但需要足夠大的手動注釋訓(xùn)練實例集。知識工程方法為每種類型的條款確定清晰的易于觀察的模式,并手動構(gòu)建規(guī)則以識別新文本中的模式并提取相關(guān)信息。這種方法不要求手動注釋的訓(xùn)練數(shù)據(jù),但需要手動創(chuàng)建的專家分類規(guī)則來捕獲與每類條款相關(guān)聯(lián)的標準短語。28參見Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, pp. 263-266。
論證挖掘(argument mining)是以語料庫為基礎(chǔ)的話語分析的新發(fā)展,包括自動識別話語的論證結(jié)構(gòu),例如前提、結(jié)論和每個論證的論證型式,以及文檔中論證與子論證以及論證與反駁的關(guān)系。論證挖掘的成功要求自然語言技術(shù)、語義學(xué)、語用學(xué)、話語理論、人工智能、論證理論和論證的計算模型等學(xué)科提供的跨學(xué)科方法,還需要不同領(lǐng)域的不同類型的來源創(chuàng)建和注釋高質(zhì)量的論證語料庫。29ACL-AMW, "3d Workshop on Argument Mining at the Association of Computational Linguistics" (ACL 2016). http://argmining2016.arg.tech/,2018年9月22日訪問。
論證挖掘技術(shù)的發(fā)展與IBM“沃森”的兄弟項目“辯論者”(Debater)緊密地聯(lián)系在一起?!稗q論者”是IBM公司研發(fā)出來的新的人工智能項目,它使用“沃森”程序的一些文本處理技術(shù)來執(zhí)行論證挖掘?!稗q論者”不僅能從文本中提取信息,還能“理解”信息并運用它們進行推理。2014年春季,IBM研究院總監(jiān)約翰·凱利三世在米爾肯研究所年度會議上演示了“辯論者”程序。演示的辯論主題為“向未成年人出售暴力視頻游戲應(yīng)該被禁止”。“辯論者”的任務(wù)是檢測相關(guān)主張并返回對正方主張和反方主張的預(yù)測。“辯論者”以近乎完美的英語回應(yīng)道:“掃描了400萬篇維基百科文章,返回10篇最相關(guān)的文章,掃描了這10篇文章中的3000個句子,檢測到包含候選主張的句子,確定了候選主張的邊界,評估候選主張是支持正方還是反方,構(gòu)建了一個具有最高主張預(yù)測的演示演講,然后準備提交!”“辯論者”能夠自動地從維基百科中提取信息,消化所提取的信息,并運用這些信息進行推理,然后用自然語言呈現(xiàn)它的論證。“辯論者”在視頻中的輸出是聽覺的,可以用視覺術(shù)語呈現(xiàn)其輸出的文本。圖3頂部框包含論辯的命題。與實線相連的主張支持該命題,與虛線相連的主張攻擊該命題。從輸入主題到輸出論證的時間是3—5分鐘。值得注意的是,“辯論者”并不真正理解所提取內(nèi)容,它只是在數(shù)據(jù)上運行算法并進行概率分析以得出結(jié)論。30George Dvorsky, "IBM's Watson Can Now Debate Its Opponents", 2014年5月5日, https://io9.gizmodo.com/ibms-wats on-can-now-debate-its-opponents-1571837847,2018年9月23日訪問。
圖3 IBM“辯論者”針對暴力視頻游戲主題輸出的論證 31
2018年6月18日,“辯論者”程序在舊金山IBM辦公室舉辦的辯論賽中擊敗了人類頂尖辯手。它的對手是以色列國際辯論協(xié)會主席丹·扎菲爾(Dan Zafrir)和2016年以色列國家辯論冠軍諾亞·奧瓦迪亞(Noa Ovadia)。這次辯論賽共分兩場,以現(xiàn)場觀眾的感受判斷輸贏。兩場辯論賽的題目分別是“我們是否應(yīng)該資助太空探索”和“我們是否應(yīng)該更多地使用遠程醫(yī)療”?!稗q論者”程序皆為正方。給定一個辯題后,“辯論者”程序迅速搜索其龐大的語料庫,尋找最相關(guān)的證據(jù),然后挑選最有說服力、多樣性的論點,并安排論點來構(gòu)建一個具有完整說服力的敘述,以此來支持或反對論點。32參見Lee:《人工智能如何參與辯論》,載《電腦報》2018年6月25日。
IBM“辯論者”團隊開發(fā)了一種手動注釋訓(xùn)練集的方法,以便機器學(xué)習(xí)可以從文本中提取信息?!稗q論者”檢測上下文的主張,直接支持或辯駁特定主題的一般性陳述,還檢測依賴上下文的證據(jù),在給定主題的語境中支持依賴上下文的主張的文本片段。在給定主題和相關(guān)文章的情況下,句子組件選擇200個最佳句子,邊界組件在每個句子中界定候選主張,排名組件根據(jù)句子和邊界分數(shù)選擇50個最佳候選主張。“辯論者”使用機器學(xué)習(xí)完成句子選擇、邊界設(shè)置和候選主張排名這三個步驟?!稗q論者”的機器學(xué)習(xí)取決于人類注釋者執(zhí)行高質(zhì)量的訓(xùn)練文檔集注釋的能力。注釋者被要求將文本片段標記為依賴上下文的主張?!稗q論者”團隊開發(fā)了一種系統(tǒng)的方法來組織人工注釋工作以最大化可靠性。33參見Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, pp. 306-307。
論證挖掘技術(shù)已被用于法律文本解析。論證挖掘技術(shù)自動地識別案例文本中最終可用的與論證相關(guān)的信息,并隨之產(chǎn)生法律實踐中智能技術(shù)的新典范:基于論證相關(guān)信息的可靠的概念法律信息檢索,也稱為論證檢索。34Ibid., p. 12。論證挖掘支持律師從法律文本中提取信息建構(gòu)回答手頭問題的論證。論證簡單地說,就是舉出理由以支持某種主張或判斷。35參見顏厥安:《法與實踐理性》,中國政法大學(xué)出版社2003年版,第88頁。有關(guān)法律主張、判斷、決定或裁判的證明或辯護就是法律論證。論證挖掘就是要識別和提取法律文本中與法律論證有關(guān)的信息。與法律論證相關(guān)的信息包括:法律論證的命題、前提或結(jié)論,連接前提與結(jié)論的論證型式和論證規(guī)則,陳述法律規(guī)則的句子,陳述案件事實的句子,影響論證強度的信息等。
使用機器學(xué)習(xí)、自然語言處理和提取規(guī)則從案例文本中提取與論證相關(guān)信息的項目有很多,比如莫查萊斯和莫恩斯研發(fā)的系統(tǒng)、智能索引學(xué)習(xí)(Smart Index Learner,SMILE)項目和法律領(lǐng)域的非結(jié)構(gòu)化信息管理架構(gòu)(Legal UIMA,LUIMA)系統(tǒng)。莫查萊斯和莫恩斯研發(fā)的系統(tǒng)在法律論證挖掘方面做出了開拓性的貢獻,它確定了在論證中起作用的句子,應(yīng)用機器學(xué)習(xí)將句子劃分為命題、前提或結(jié)論。智能索引學(xué)習(xí)是基于問題的預(yù)測程序的自然語言界面,它充當(dāng)問題的自然語言描述和預(yù)測案例結(jié)果的計算模型之間的橋梁。智能索引學(xué)習(xí)項目致力于識別和提取實質(zhì)性法律因素和事實模式,它們加強或削弱一方的法律主張。非結(jié)構(gòu)化信息管理架構(gòu)是用于問答系統(tǒng)的開源阿帕奇架構(gòu),IBM“沃森”的技術(shù)就是建立在UIMA基礎(chǔ)上的。36參見Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 287。LUIMA是應(yīng)用于法律領(lǐng)域的以UIMA為基礎(chǔ)的類型系統(tǒng)。它聚焦于概念、關(guān)系和提及,以識別司法裁判中句子的論證功能。LUIMA系統(tǒng)是一種非常成熟的法律文本解析技術(shù),因而本文主要介紹LUIMA系統(tǒng)提取與論證相關(guān)的信息的方法。
LUIMA采用基于規(guī)則的注釋器和機器學(xué)習(xí)注釋器用語義信息注釋案例文檔。句子分割是注釋案例文檔的第一步。句子分割是將案例文本語料庫分解成句子的過程。任何文本語料庫都是文本的集合,其中每一段落都包含多個句子。執(zhí)行句子分割有多種技術(shù),基本技術(shù)包括在句子之間尋找特定的分隔符,例如句號(.)、換行符( )或者分號(;)。37參見[印度]迪潘簡·撒卡爾:《Python文本分析》,閆龍川、高德荃、李君婷譯,機械工業(yè)出版社2018年版,第80頁。LUIMA注釋還標記了一些預(yù)設(shè)信息,包括事實和語言概念以及與受規(guī)制領(lǐng)域相關(guān)的提及。LUIMA注釋在案例文本中標識此類預(yù)設(shè)信息為:(1)術(shù)語,例如疫苗術(shù)語,疾病術(shù)語,因果關(guān)系術(shù)語。(2)提及,例如疫苗提及,其中包括疫苗首字母縮寫與疫苗術(shù)語[“麻腮風(fēng)(MMR)疫苗”],疫苗接種事件提及,因果關(guān)系提及。(3)規(guī)范化,疫苗提及的規(guī)范化,疾病提及的規(guī)范化,即句子中提到的疫苗或疾病的規(guī)范名稱。38參見Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 302。基于規(guī)則的注釋器根據(jù)提及和子句類型自動注釋句子。如果一個句子包括提及原告、必須關(guān)系的術(shù)語(比如,證明),那就把這個句子注釋為“法律標準表述”(Legal Standard Formulation)。在“根據(jù)該標準,請求人必須證明疫苗接種更可能是受到傷害的原因”這個句子中,包括“請求人”術(shù)語和“證明”術(shù)語,因而把這個句子注釋為表示法律標準的句子。
LUIMA注釋案例文檔的另一種技術(shù)是機器學(xué)習(xí)。機器學(xué)習(xí)將案例文檔的句子分為三類:法律規(guī)則句子,基于證據(jù)發(fā)現(xiàn)的句子,不屬于這兩類句子的句子(標記為“非注釋”句子)。出于機器學(xué)習(xí)的目的,句子文本被表示為特征向量。每個特征向量的值是這個特征在文本中沿著特征維度的量。量可以是“0”,表示文檔不具有該特征,或“1”表示它具有該特征。比如,在“羅珀訴衛(wèi)生與公眾服務(wù)部部長”一案中,“在本案的證詞中,萊西博士進一步解釋了他的觀點,即破傷風(fēng)疫苗接種可能導(dǎo)致請求人羅珀女士的胃輕癱”被注釋為證據(jù)句子,而不是基于證據(jù)發(fā)現(xiàn)的句子,因為它報告的不是法官做出的結(jié)論,而是專家證人萊西博士做出的結(jié)論。因此,機器學(xué)習(xí)注釋器將這個句子表示為“非注釋”句子。
LUIMA然后根據(jù)注釋過的信息執(zhí)行論證檢索,即識別和提取與論證有關(guān)的信息。論證檢索幫助人類用戶建構(gòu)支持一種主張的可行論證或反擊對手的最佳論證。論證挖掘技術(shù)使法律推理和法律論證的計算模型能夠直接處理法律數(shù)字文檔,幫助人們預(yù)測和證成法律結(jié)果。在疫苗傷害賠償?shù)陌咐?,請求人必須證明疫苗接種更可能是受到傷害的原因。只有在疫苗接種導(dǎo)致傷害的情況下,請求人才能獲得賠償。因而必須確定疫苗接種與傷害之間存在因果關(guān)系。請求人必須通過優(yōu)勢證據(jù)確定:(1)疫苗類型與傷害類型之間有著“醫(yī)學(xué)理論上的因果關(guān)系”;(2)特定疫苗接種與特定傷害之間存在“因果關(guān)系的邏輯順序”;(3)疫苗接種和傷害之間存在“近似時間關(guān)系”。法律論證的計算模型將適用的制定法和規(guī)章要求表示為“規(guī)則樹”,即權(quán)威性規(guī)則條件以及法律判決中的推理鏈,將證據(jù)斷言與特殊法官對這些規(guī)則條件的事實發(fā)現(xiàn)聯(lián)系起來。39Ibid., p. 161。
深度問答、信息提取和論證挖掘這些文本解析技術(shù)為法律實踐帶來了革命性的變化。IBM“沃森”、“辯論者”和UIMA等為這種變革種下了革命的種子。人工智能與法律研究者和技術(shù)專家將法律文本解析與計算模型整合在一起,創(chuàng)建了一些新的法律應(yīng)用程序。這些法律應(yīng)用程序能完成許多傳統(tǒng)上只能由人完成的智能任務(wù)。法律應(yīng)用程序在定制商品化法律服務(wù)中發(fā)揮重要作用。它能用法律文本推理,使實踐系統(tǒng)能夠根據(jù)人類用戶的特定問題定制其輸出?!胺蓱?yīng)用程序不僅會以適合人類用戶特定問題的方式選擇、預(yù)訂、突出和匯總信息,還會探索信息并以前所未有的新方式與數(shù)據(jù)互動?!?0Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 13.法律文本解析技術(shù)產(chǎn)生時間較短,但在不到十年的時間里卻涌現(xiàn)了六十余種成熟的法律應(yīng)用程序。41Jonathan Marciano, "Automating the Law: A Landscape of AISolutions", Jun 10, 2017, 載https://www.topbots.com/automatingthe-law-a-landscape-of-legal-a-i-solutions/,2018年10月4日訪問。代表性的法律應(yīng)用程序包括美國的法律集中營(LegalZoom)、法律機器(Lex Machina)、法律機器人(Legal Robot)、拉威爾(Ravel)、既判力(Judicata)和法律過濾器(Legal sifter)、加拿大的織布解析(Loom Analytics)、英國的法律智能支持助理機器法律人(Robot Lawyer LISA)、以色列的LawGeex和愛爾蘭的布賴特旗(Brightflag)等。這些新興的法律應(yīng)用程序不僅僅是將法律人的處理過程計算機化和標準流程化,而是創(chuàng)造性地處理一些法律人過去無法完成的任務(wù)。
法律文本解析或許是這個時候最重要的技術(shù),它的迅速發(fā)展將深刻改變法律實踐、法律職業(yè)、法律教育和法學(xué)研究。薩斯坎德(Susskind)指出,許多信息技術(shù)是顛覆性的,這些技術(shù)不支持或兼容傳統(tǒng)的工作方式,它們將徹底挑戰(zhàn)和改變傳統(tǒng)習(xí)慣。對法律行業(yè)也是如此,這些無處不在、急速增長的信息技術(shù)會顛覆和改造律師和法院的運作方式。42[英]理查德·薩斯坎德:《法律人的明天會怎樣?》,何廣越譯,北京大學(xué)出版社2015年版,第23頁。數(shù)百年來,訴訟律師運用法律方法分析案件的事實構(gòu)成,總結(jié)案件的爭議焦點,尋找適用于手頭案件的法律法規(guī)或判例,推理將事實涵攝于法律之下,最后提出訴訟策略并做出法律預(yù)測。法律文本解析顛覆了律師的工作方式,它將法律工作分解為不同的任務(wù)并逐項以盡可能高效的方式完成。訴訟律師的工作可以分解為文件審閱、法律研究、項目管理、訴訟支持、電子披露、策略、戰(zhàn)術(shù)、談判和法庭辯論等任務(wù)。這九項任務(wù)中除了策略、戰(zhàn)術(shù)和法庭辯論,其他的重復(fù)性事務(wù)性的工作任務(wù)都可以用不同方式分包出去。43同上注,第41—42頁。這些分包出去的工作都可以由法律應(yīng)用程序而非法律人完成。法律文本解析挖掘案件文件和卷宗中的數(shù)據(jù),然后匯總這些數(shù)據(jù),從中發(fā)現(xiàn)一些有用的洞見,包括法官、律師、法院、律師事務(wù)所和當(dāng)事人的各種信息。訴訟律師使用法律文本解析來揭示過去訴訟中的趨勢和模式,然后根據(jù)這些趨勢和模式制定手頭案件的訴訟策略并預(yù)測法律結(jié)果。44Owen Byrd, "Legal Analytics vs. Legal Research: What's the Difference?" June 12, 2017,載https://www.lawtechnolog ytoday.org/2017/06/legal-analytics-vs-legal-research/,2018年8月21日訪問。法官運用智能審判系統(tǒng)實現(xiàn)對起訴狀、答辯狀、庭審筆錄等案件卷宗信息的智能解析和信息提取,提取各類卷宗材料文書所需的核心信息,然后自動生成判決、裁定等法律文書。法律文本解析技術(shù)在法律實踐中的廣泛應(yīng)用將極大地節(jié)省律師和法官處理案件的時間,過去他們花上數(shù)周完成的工作現(xiàn)在幾分鐘就能完成。
法律職業(yè)也將因法律文本解析技術(shù)的應(yīng)用而發(fā)生翻天覆地的改變。如果法律應(yīng)用程序能夠完成許多以前只能由法律職業(yè)者完成的工作,那么部分法律職業(yè)者將要失業(yè)。2013年9月,牛津大學(xué)的卡爾·弗瑞(Carl Frey)和邁克爾·奧斯本(Michael Osborne)發(fā)表了《就業(yè)的未來》研究報告,調(diào)查各項工作在未來二十年被計算機取代的可能性。根據(jù)他們研發(fā)的算法估計,到2033年,法律秘書有98%的概率會失業(yè),律師助理的概率為94%,行政法官和聽證官的概率為64%,書記員的概率為41%,法官和地方法官的概率為40%。45Carl Benedikt Frey and Michael A. Osborne, "The Future of Employment: How Susceptible Are Jobs to Computerisation?",17 September 2013, pp. 62-71. https://www.oxfordmartin.ox.ac.uk/downloads/academic/The_Future_of_Employment.pdf,2019年1月5日訪問。又見[以色列]尤瓦爾·赫拉利:《未來簡史》,林俊宏譯,中信出版社2017年版,第293頁。當(dāng)然,淘汰傳統(tǒng)的法律的工作的同時也會產(chǎn)生一些新的法律工作。根據(jù)薩斯坎德的總結(jié),法律人的新工作包括法律知識工程師、法律技術(shù)專家、跨學(xué)科法律人才、法律流程分析師、法律項目管理師、在線糾紛解決師、法律管理咨詢師和法律風(fēng)險管理師。例如,法律知識工程師負責(zé)研發(fā)法律標準和流程,在計算機系統(tǒng)中組織和表達法律知識。法律技術(shù)專家是同時具備法律和系統(tǒng)工程及信息技術(shù)管理兩個領(lǐng)域的訓(xùn)練和經(jīng)驗的專業(yè)人士。46[英]理查德·薩斯坎德:《法律人的明天會怎樣?》,何廣越譯,北京大學(xué)出版社2015年版,第129—131頁。這些新的法律職業(yè)人士從事的工作迥異于傳統(tǒng)法律職業(yè)者所做的事情。
法律文本解析技術(shù)將改變法律教育的內(nèi)容和教學(xué)方式。多年來,如何利用技術(shù)去講授法律一直是一個法學(xué)界不關(guān)注的問題,現(xiàn)在漠視技術(shù)發(fā)展的時代將要終結(jié)。技術(shù)讓法學(xué)教育變得更有效更實際提供了可能性?,F(xiàn)如今,同步遠程學(xué)習(xí)模式、非同步遠程學(xué)習(xí)模式、大規(guī)模開放式網(wǎng)絡(luò)課程、翻轉(zhuǎn)課堂、在線教學(xué)、在線協(xié)作等創(chuàng)新技術(shù)已經(jīng)廣泛地應(yīng)用于法學(xué)院的法律教育。47[美]米歇爾·皮斯托:《法學(xué)院與技術(shù)——我們現(xiàn)在何處并將駛向何方》,周亞玲譯,邱昭繼校,載王翰主編:《法學(xué)教育研究》第15卷,法律出版社2016年版,第259—272頁。IBM“沃森”為法律教育開辟了新的可能性。法學(xué)院擅長的蘇格拉底教學(xué)法將受到嚴重的挑戰(zhàn),老師在《合同法》課程中提出的各種問題都可以交由法律應(yīng)用程序回答,在線課程將逐漸取代面授課程。法律人工作方式的改變對法律教育提出了新的要求。傳統(tǒng)的法律教育以培養(yǎng)專業(yè)基礎(chǔ)扎實、熟練掌握法律職業(yè)技能的法律人才為目標,未來的法律教育應(yīng)根據(jù)法律實踐的變化做出相應(yīng)的調(diào)整。根據(jù)理查德·格拉納特(Richard Granat)和馬克·勞里森(Marc Lauritsen)的調(diào)查,美國有10所法學(xué)院非常重視法律文本解析技術(shù),開設(shè)了多門相關(guān)課程或成立了相關(guān)的研究中心。比如,密歇根州立大學(xué)法學(xué)院建立了一個再造法律實驗室,開設(shè)了電子發(fā)現(xiàn)、創(chuàng)業(yè)律師、法律信息工程與技術(shù)、法律解析、訴訟、數(shù)據(jù)、理論、實踐、過程、律師定量分析和21世紀的法律實踐等法律實踐技術(shù)方面的課程。薩??舜髮W(xué)法學(xué)院建立了法律實踐技術(shù)與創(chuàng)新研究所。法學(xué)院提供智能機器時代的律師培訓(xùn)、流程改進和法律項目管理、法律文件自動化和21世紀律師和決策支持系統(tǒng)的調(diào)查等課程。48Richard Granat and Marc Lauritsen, "Teaching the technology of practice: the 10 top schools", Law Practice Magazine,2014: (4) ,載www.americanbar.org/publications/law_practice_magazine/2014/july-august/teachingthe-technology-of-practicethe-10-top-schools.html. 2018年10月3日訪問。
法律文本解析技術(shù)將導(dǎo)致法學(xué)研究產(chǎn)生相應(yīng)的變化,它將促使法學(xué)與理工科的交叉融合。法學(xué)與哲學(xué)、社會學(xué)、政治學(xué)、人類學(xué)、經(jīng)濟學(xué)等哲學(xué)社會科學(xué)的緊密聯(lián)系人們已經(jīng)很熟悉了,而法律文本解析技術(shù)將法學(xué)與統(tǒng)計學(xué)、信息科學(xué)、計算機科學(xué)和腦科學(xué)等學(xué)科緊密地聯(lián)系在一起。著名法學(xué)家霍姆斯早在120年前就預(yù)言:“對于法律的理性研究而言,研究歷史文本的人或許是現(xiàn)在的主人,而未來的主人則屬于研究統(tǒng)計學(xué)之人和經(jīng)濟學(xué)專家。”49[美]霍姆斯:《法律的道路》,載[美]霍姆斯:《法律的生命在于經(jīng)驗——霍姆斯法學(xué)文集》,明輝譯,清華大學(xué)出版社2007年版,第221頁。法律的經(jīng)濟學(xué)研究早在20世紀70年代就異軍突起,成為法學(xué)界的顯學(xué)。人們沒有想到的是,統(tǒng)計學(xué)會成為法學(xué)研究的主導(dǎo)學(xué)科。人工智能時代,統(tǒng)計學(xué)的重要性越發(fā)凸顯,人工智能法學(xué)的研究越來越需要統(tǒng)計學(xué)的支持。
法律文本解析技術(shù)方興未艾,這是我國法治發(fā)展的重大戰(zhàn)略機遇。法律文本解析技術(shù)在法律信息搜索、法律咨詢、法律解釋、證據(jù)收集、案例分析、法律文件閱讀與分析、法律推理和法律論證等方面大有用武之地。它的應(yīng)用是我國智慧法院、智慧檢察院、智慧律所、智慧公安和人工智能法學(xué)院建設(shè)的重要抓手。