盧新玉
河南師范大學法學院,河南 新鄉(xiāng) 453000
大數據一詞最早是由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶合著的《大數據時代》一書中提出,認為大數據“不是隨機樣本,而是全體數據”②;麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面都遠遠超出傳統(tǒng)數據庫軟件工具能力范圍的數據集合。③因此,大數據的“大”不僅體現在數量的龐大上,更是代表著數據被處理應用之后產生的一系列效應和巨大的意義。阿里巴巴的創(chuàng)始人馬云也曾在一次公開講演中提到:未來的時代將不是IT(Information Technology:信息科技)時代,而是DT(Data Technology:數據科技)的時代,顯示了大數據在阿里巴巴集團的未來發(fā)展戰(zhàn)略中的重要性。
同理,在司法領域也是如此。在將人工智能技術應用到司法領域中所要使用的法律數據也應當來自于全國各地司法機構的全部數據;同時由于行業(yè)自身具有的特殊屬性,使得法律數據還具有權威性、準確性、客觀性這三個特點。因此,在全國司法機構范圍內具有權威性、準確性、客觀性的數據才能被稱為是司法大數據。
自從阿爾法狗及其后代打敗人類圍棋高手李世石、柯潔之后,其他棋類的高手也紛紛被打敗,但卻從來沒有聽說過阿爾法狗打敗過中國象棋高手。阿爾法狗之所以能夠獲得成功,一是因為開發(fā)阿爾法狗的研發(fā)團隊為其設置了一個包含十幾萬份公開的人類職業(yè)棋手的弈棋棋譜的數據庫,這也就意味著只要能在所有能夠在棋盤上呈現的對弈方式都被編碼存入到阿爾法狗的數據庫中,大大方便了阿爾法狗能夠模仿人類的落子方式且能從不同的角度應付各種類型的對手;二是因為中國的象棋棋譜從其產生之初就有流傳,但皆有殘缺,未見有完整的棋譜。與有完整的圍棋棋譜相比,阿爾法狗不能從殘缺的象棋棋譜中獲得充分的信息。這個典型的例子能夠充分說明,擁有完整且充分數據信息是人工智能得以發(fā)揮預期效用的基本前提。
但是,這樣豐富的數據資源目前在中國并不存在,一方面,中國裁判文書網中的裁判文書是目前作為發(fā)展法律人工智能發(fā)展基礎的數據來源,雖然在裁判文書網中所公開的文書數量已有上億件,但可能也只占我國全部審結案件的50%,④,部分涉及到國家秘密、商業(yè)秘密、個人隱私的案件是不會向社會公開;而且中國裁判文書網在2013年6月28日正式上線,里面大多數的裁判文書也都是在網站建立之后才開始進行上傳工作。因此,網站里公布的文書大都集中在2013年之后,此前的文書仍舊難以查閱到,這也就導致我們難以獲得具有連貫性的法律文書信息去支撐人工智能技術在司法領域的應用。另一方面,用刑事案件來舉例,一個刑事案件的終結要經過立案、偵查、起訴、審判、執(zhí)行五個階段,公檢法機關按照自身職權的范圍在不同的階段會有產生不同的法律文書:例如在起訴階段人民檢察院會制作起訴意見書、在審判階段人民法院會制作判決書、裁定書等,而裁判文書網上卻只公布判決書這一種,其他類型的文書都未公布,種類不夠豐富。顯然,如果我們只依賴這樣有限的裁判文書及其所記載的有限內容去發(fā)展人工智能,就好比用一方有殘缺的地基去建設萬丈高樓,其結果可想而知。
數據信息不聯(lián)動是我們目前發(fā)展司法大數據的一道邁不過的坎兒。盡管全國有多個法院響應最高人民法院的號召,紛紛依據本院的需要建設“智慧法院系統(tǒng)”,如北京的智能庭審系統(tǒng)、上海高院開發(fā)出的C2J刑事審判平臺、深圳市鹽田區(qū)人民法院的無紙化辦案系統(tǒng)等等,這些法院確實做出了成效,但是這些成功系統(tǒng)的數據支撐,大部分仍舊只是本院多年來所收集的法律數據,可能還包括本地區(qū)或者本省市的數據,但這也是極少數。況且我國國土遼闊,各地經濟發(fā)展也是有較大差異,僅用一個地區(qū)的法律數據法院做出的系統(tǒng)不具有普適性,況且公眾仍然對大數據研究存在一定的錯誤認識,如將“大量數據”與“大數據”這兩個概念相等同?!叭珮颖尽笔谴髷祿铒@著的特征,然而,目前國內所謂的法律大數據實質上只是部分數據,稱其為“大量數據”或更合適。⑤
其次,除了上述的全國各地的法院數據不聯(lián)動、不統(tǒng)一之外,就連同地區(qū)內的公安司法系統(tǒng)的數據也不聯(lián)動,未形成完整的數據鏈條?!皵祿盍选笔且虿块T保護、制度設置等使得部門數據不能互聯(lián)互通而形成的割據化現象。⑥尤其是目前的司法系統(tǒng)內部的數據共享還存在著一定的壁壘,數據的共享權限呈現“倒金字塔”型,⑦以人民法院的大數據管理與服務平臺為例,自2014年上線以來,已累計匯集1.4億案件信息,盡管在上線不到一年的時間里實現了全國四級法院都可以向平臺成功地匯集案件數據,但匯集案件不等于都能夠查閱到其他法院的案件。一般認為,權限的開放程度會隨著法院的等級的提高而逐漸提高??v向上,上級法院擁有比下級法院更高、更開放的權限;橫向上,同一等級不同地區(qū)的法院之間數據互不流通,大部分的數據仍是處于分散、孤立的“冬眠”狀態(tài),仍是一種不對等的、有限的共享。
司法數據的生命力不僅在于公開,還能要能夠被社會公眾隨時地使用,通過挖掘、探究司法數據背后的價值來促進社會的治理和司法改革,這就對司法數據的格式提出了要求。數據能夠被人工智能技術識別的重要前提是數據須具有結構化特征。在我們的日常生活中,想要聽懂一些地方方言或者外語之類的自然語言已屬不易,要想識別法律語言這類的專業(yè)術語更是難上加難。相比于政府數據開放的結構化數據,法律數據多為非結構化數據,給數據的后續(xù)利用、分析帶來不便之處。除了法律文書數據可供人工智能系統(tǒng)直接分析外,庭審直播視頻數據、審判流程等非結構化數據利用程度并不高。而且,對當前的法學研究者而言,數據的收集、清洗、處理及分析等方面都存在著天然的技術門檻限制。⑧司法數據結構化不足,法學研究者對算法技術的掌握度不足、公安司法機關對數據的開放程度不足都會直接地影響到司法數據的可用性,進而影響人工智能技術在司法領域應用的準確度。
綜上,未來的人工智能技術在司法領域的應用研究應當著重于獲取全面、充分、多樣化的司法數據,警惕“數據陷阱”帶來的弊端,更加合理地獲取、開發(fā)司法數據,讓司法大數據更好地助力司法智能化建設的實現,為法治中國建設、國家治理體系和治理能力現代化作出貢獻。
注釋:
①左為民.關于法律人工智能在中國應用前景的若干思考[J].清華法學,2018(2):108-124.
②維克托·邁爾·舍恩伯格,肯尼斯·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.27.
③ Mc Kinsey Globe Institute.Big date:The next frontier for innovation,competition,and productivity[EB/OL].
④馬超,于曉紅,何海波.大數據分析:中國司法裁判文書上網公開報告[J].中國法律評論,2016(4):195-246.
⑤左為民.邁向法律大數據研究[J].法學研究,2018(4):139-150.
⑥王佳云.司法大數據與司法公正的實現[J].吉首大學學報,2020(2):137-143.
⑦王燃,徐笑菁,龔向柏.智慧法治背景下司法數據開放共享研究[J].人民法治,2018(11):18-21.
⑧左為民.基于裁判文書網的大數據法律研究:反思與前瞻[J].華東政法大學學報,2020(2):64-74.