趙澤君,蔣麗華
(西南政法大學(xué) 法學(xué)院,重慶 401120)
現(xiàn)代社會的不斷信息化和計算機硬件的不斷升級,人類擁有了大量的數(shù)據(jù),而隨著數(shù)據(jù)庫技術(shù)的成熟和普及,人類積累的數(shù)據(jù)正以指數(shù)方式增長。在1982年,趨勢大師John Naisbitt就在其著作《大趨勢》(Megatrends)中提到:“人類正被信息淹沒,卻饑渴于知識?!盵1](P16~17)面對浩如煙海的信息,從這些信息中獲取真正有用的知識已越來越難,數(shù)據(jù)挖掘技術(shù)(Data mining technology)在此背景下興起并獲得快速發(fā)展。數(shù)據(jù)挖掘技術(shù)可以幫助人們從海量信息中提取知識,但這些信息可能涉及到公民的隱私,由此可能引發(fā)一系列法律問題,但當前涉及這一交叉領(lǐng)域的研究仍較為匱乏。本文在對數(shù)據(jù)挖掘技術(shù)理論和應(yīng)用進行梳理的基礎(chǔ)上,對數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中產(chǎn)生的法律問題進行分析與討論,以期為我國數(shù)據(jù)挖掘技術(shù)的發(fā)展與應(yīng)用提供一定的理論與實踐參考。
電子科技的迅速發(fā)展產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)具有廣泛的利用價值。在浩瀚如煙的數(shù)據(jù)面前需要一種完成將其轉(zhuǎn)換為有用信息和知識的技術(shù),數(shù)據(jù)挖掘技術(shù)由此興起。數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取有意義的新的關(guān)系、趨勢和模式的過程。總體來說,數(shù)據(jù)挖掘技術(shù)是一門新興的跨領(lǐng)域交叉性學(xué)科,從技術(shù)層面看,其涉及統(tǒng)計學(xué)、數(shù)據(jù)庫系統(tǒng)、模式識別和高性能計算等多個領(lǐng)域。作為一種知識發(fā)現(xiàn)的手段,數(shù)據(jù)挖掘使用數(shù)據(jù)庫技術(shù)進行數(shù)據(jù)存儲,使用機器學(xué)習(xí)技術(shù)進行數(shù)據(jù)分析。但數(shù)據(jù)挖掘技術(shù)的應(yīng)用并不僅囿于自然科學(xué)領(lǐng)域的范疇,從社會學(xué)層面講,其在應(yīng)用過程中涉及一系列的法律問題。由數(shù)據(jù)挖掘技術(shù)獲取的信息和知識應(yīng)用廣泛,在商業(yè)、智慧校園、醫(yī)療及司法領(lǐng)域發(fā)揮著重要作用。
在進行數(shù)據(jù)挖掘之前需要進行數(shù)據(jù)集成、清洗、簡約和轉(zhuǎn)換等數(shù)據(jù)處理,為進行精準的數(shù)據(jù)挖掘服務(wù)。數(shù)據(jù)輸入錯誤、用戶掩蓋信息、技術(shù)或保密導(dǎo)致數(shù)據(jù)不完整都會影響用于數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量。和普通信息檢索相比,數(shù)據(jù)挖掘獲取的信息具有間接性和抽象性。常用的數(shù)據(jù)挖掘技術(shù)包括決策樹、遺傳算法、神網(wǎng)絡(luò)、機器學(xué)習(xí)、數(shù)據(jù)倉庫、關(guān)聯(lián)規(guī)則、貝葉斯網(wǎng)絡(luò)、可視化技術(shù)等。樸素貝葉斯算法、邏輯回歸算法、K-最近鄰算法、支持向量機算法和決策樹算法等是數(shù)據(jù)挖掘技術(shù)常用的算法。數(shù)據(jù)挖掘主要通過對數(shù)據(jù)的總結(jié)、分類、聚類、關(guān)聯(lián)等方式進行分析。
由于數(shù)據(jù)挖掘發(fā)現(xiàn)隱藏的模式,是數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowledge discovery in database, KDD)的關(guān)鍵步驟,因此很多人認為二者是等同的。[2](P4)此外,數(shù)據(jù)倉庫(data warehouse)是整個數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)。在20世紀80年代,數(shù)據(jù)倉庫的概念由W.H.Inmon在《建立數(shù)據(jù)倉庫》(Building the Data Warehouse)[3](P31~145)一書中給出,隨后又有了更為精確的定義。一般認為數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、時變的以及非易失的數(shù)據(jù)集合。數(shù)據(jù)倉庫對企業(yè)內(nèi)部的業(yè)務(wù)數(shù)據(jù)進行整合、加工和分析,因而異于其他數(shù)據(jù)庫應(yīng)用。傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)(database management system, DBMS)的主要任務(wù)是聯(lián)機事務(wù)處理(on-line transaction processing, OLTP),而數(shù)據(jù)倉庫則是稱為聯(lián)機分析處理(on-line analytical processing, OLAP),主要在數(shù)據(jù)分析和決策方面提供服務(wù)。關(guān)系數(shù)據(jù)庫之父E. F.Codd最早在1993年提出OLAP概念。[4](P87~89)Codd認為,傳統(tǒng)的OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,結(jié)構(gòu)化查詢語言(structured query language, SQL)也同樣無法勝任,為了得出可供決策參考的統(tǒng)計分析數(shù)據(jù), Codd提出了多維數(shù)據(jù)庫和多維分析的概念,進行聯(lián)機分析處理(OLAP)。
事實上,總的來說,通過聯(lián)機分析處理(OLAP)得到供決策參考的統(tǒng)計分析數(shù)據(jù)正是數(shù)據(jù)挖掘技術(shù)在較淺層次上的應(yīng)用;而在深層次上,數(shù)據(jù)挖掘技術(shù)則是要從數(shù)據(jù)庫中發(fā)現(xiàn)和提取前所未有的、隱含的知識。
圖1 數(shù)據(jù)挖掘——數(shù)據(jù)庫中知識發(fā)現(xiàn)的核心步驟
數(shù)據(jù)挖掘技術(shù)的興起,源于實際中的強烈需求。(cross-industry standard process for data mining, CRISP-DM),由SPSS、NCR和Daimler Chrysler三家公司在1996年制定的數(shù)據(jù)挖掘的交叉產(chǎn)業(yè)標準過程是數(shù)據(jù)挖掘業(yè)界流行的通用標準之一,此標準不是把數(shù)據(jù)挖掘僅僅局限在研究領(lǐng)域,它強調(diào)的是數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用、解決商業(yè)中存在的問題。事實上,數(shù)據(jù)挖掘技術(shù)在電子商務(wù)、保險、銀行、交通、零售等商業(yè)領(lǐng)域都有著重要應(yīng)用,例如客戶群體劃分、交叉銷售、客戶流失性分析、客戶生命周期管理、客戶關(guān)系管理、欺詐發(fā)現(xiàn)等等。[5](P94~95)
美國Firstar銀行使用Marksman這一數(shù)據(jù)挖掘工具,通過客戶的消費模式來預(yù)測何時應(yīng)為客戶提供何種產(chǎn)品;Bass Export作為世界最大的啤酒進出口商之一,通過使用IBM的Intelligent Miner,基于海外市場的交易過程中產(chǎn)生的眾多訂單,很好的解決了如何了解客戶的消費習(xí)慣機器對品牌的愛好問題。除此之外,對用戶信息的數(shù)據(jù)進行挖掘是當前研究得較多、應(yīng)用也十分廣泛的領(lǐng)域。通過對用戶的個人信息進行數(shù)據(jù)分析與挖掘,可以得出關(guān)于用戶興趣的挖掘報告。在電子商務(wù)網(wǎng)站,對于每天產(chǎn)生的上百萬次的游覽與在線交易記錄,可將此生成大量的記錄文件和登記表,進而對這些數(shù)據(jù)進行分析和挖掘。根據(jù)由此得出的用戶興趣的挖掘報告可以全面了解客戶的喜好、購買模式、購買習(xí)慣等,這將對企業(yè)的盈利產(chǎn)生重要影響。
從商家的角度,數(shù)據(jù)分析有助于建構(gòu)適合的模型,便于商家在此模型的基礎(chǔ)上展開商業(yè)活動達到利益的最大化。除此之外,數(shù)據(jù)挖掘技術(shù)在其他領(lǐng)域也逐漸得到應(yīng)用。如數(shù)據(jù)挖掘技術(shù)在智慧校園中可為學(xué)生的學(xué)習(xí)評價提供支持,更好的運用云平臺共享學(xué)習(xí)資源。通過對教學(xué)資源和學(xué)生學(xué)習(xí)信息等大量數(shù)據(jù)進行整理,也有助于改進教師的課堂授課模式。在圖書館管理過程中,數(shù)據(jù)分析平臺可以清晰的展現(xiàn)進館人數(shù)和時間、借閱圖書種類和數(shù)量等內(nèi)容,對此進行的數(shù)據(jù)分析有助于各大圖書館進行管理上的優(yōu)化。在數(shù)字化圖書館中應(yīng)用數(shù)據(jù)挖掘技術(shù),有利于為用戶提供個性化的服務(wù)。[6](P84~86)在醫(yī)療健康領(lǐng)域,數(shù)據(jù)挖掘技術(shù)在輔助完成醫(yī)療任務(wù)、對醫(yī)療資源進行合理的管理等方面發(fā)揮了重要作用,已成為醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的核心需求之一。[7](P114)在司法領(lǐng)域,數(shù)據(jù)挖掘技術(shù)日益廣泛應(yīng)用于公安機關(guān)情報研判工作。一方面用于收集犯罪證據(jù)偵破案件,另一方面通過對未來犯罪的預(yù)測進行提前預(yù)防和打擊。
數(shù)據(jù)挖掘技術(shù)雖然優(yōu)點眾多,但就此技術(shù)應(yīng)用來講,仍存在一些實踐難題。在進行數(shù)據(jù)挖掘之前需要進行變量的選擇和分析,在海量的數(shù)據(jù)中如何考量隱含的變化趨勢,如何進行互聯(lián)網(wǎng)中的數(shù)據(jù)挖掘以及對建構(gòu)的模型采取何種標準進行評價等問題。[8](P124)需意識到,數(shù)據(jù)挖掘只是一種建構(gòu)模型的方式,作為一種強大的分析工具,仍舊需要管理人員進行操作并通過現(xiàn)實生活對建構(gòu)的模型進行驗證。這也說明對數(shù)據(jù)挖掘理論與算法的研究任務(wù)繁重且無止境。
然而,通過利用大量的諸如網(wǎng)頁游覽記錄、購物記錄、病史、信用記錄等私人信息進行數(shù)據(jù)分析和挖掘,可以得到許多有用的模式和知識,但卻可能對個人的隱私和信息安全構(gòu)成威脅,從而使得數(shù)據(jù)挖掘這一行為面臨一些法律問題。
數(shù)據(jù)挖掘技術(shù)的精準適用建立在對數(shù)據(jù)進行完整收集的基礎(chǔ)之上。此技術(shù)的普及加大了個人信息保護的難度,由數(shù)據(jù)挖掘所得的數(shù)據(jù)在司法實踐中也面臨能否作為證據(jù)使用及應(yīng)歸為何種證據(jù)種類的爭議。針對數(shù)據(jù)挖掘技術(shù)面臨的上述挑戰(zhàn),應(yīng)完善司法救濟措施增強對個人信息權(quán)的保護,在證據(jù)層面將由數(shù)據(jù)挖掘所得的數(shù)據(jù)定性為電子數(shù)據(jù)證據(jù)并完善其審查規(guī)則。
數(shù)據(jù)挖掘技術(shù)的廣泛使用加劇了個人信息保護的難度。自媒體時代個人信息保護面臨更加嚴峻的挑戰(zhàn),個人信息泄露事件頻發(fā)也促使《民法總則》第111條的出臺。雖然“個人信息”是一種法益或是民事權(quán)利仍存有爭議,但對其應(yīng)受法律保護已達成共識。[9](P34~45)數(shù)據(jù)挖掘技術(shù)以個人信息收集為基礎(chǔ),如何平衡收集信息完整性與合法性是這一技術(shù)面臨的難題。
精準的數(shù)據(jù)分析建立在完整的數(shù)據(jù)收集基礎(chǔ)之上。然而,現(xiàn)有立法對于信息安全的規(guī)定并不能有效約束數(shù)據(jù)挖掘技術(shù)的規(guī)范性。一方面,數(shù)據(jù)收集者并不完全確定信息的使用途徑,即使提前向被采集者進行聲明,被采集者也難以了解信息的利用的模式和可能產(chǎn)生的后果。[10](P772~774)另一方面,雖然采用數(shù)據(jù)分割和加密等技術(shù)手段可以有效預(yù)測和防止隱私泄露的風險,[11](P154~160)但在商業(yè)利益的驅(qū)動下仍無法避免數(shù)據(jù)加工者和其他主體侵犯個人信息權(quán)的行為。
數(shù)據(jù)挖掘技術(shù)以人們看不見的方式進行,即使當事人懷疑個人信息被侵犯也難以證明侵權(quán)行為的存在并獲得賠償。面對數(shù)據(jù)挖掘技術(shù)對個人信息保護形成的沖擊,除完善數(shù)據(jù)挖掘技術(shù)之外,筆者認為在立法層面應(yīng)改變我國現(xiàn)有的個人信息侵權(quán)案件的證明要件。根據(jù)《侵權(quán)責任法》對一般侵權(quán)責任構(gòu)成要件的規(guī)定,需證明加害行為、損害后果、因果關(guān)系和過錯四個要件。對于任何一個要件證明不能原告將承擔不利的后果。要加大個人信息的保護力度,筆者認為有必要對個人信息侵權(quán)案件設(shè)置不同于一般侵權(quán)行為的獨立的法律構(gòu)成要件,原告僅需證明加害行為、損害后果以及兩者之間存在因果關(guān)系三個要件,即對于個人信息侵權(quán)案件責任的認定采取無過錯責任原則。
通過數(shù)據(jù)挖掘技術(shù)獲得的數(shù)據(jù)在訴訟中存在是否與案件存在關(guān)聯(lián)性進而能夠作為證據(jù)使用的爭議。通過挖掘技術(shù)所得數(shù)據(jù)存儲于特定電子系統(tǒng)中,根據(jù)三大訴訟法對于證據(jù)種類的劃分,此種數(shù)據(jù)作為證據(jù)使用時應(yīng)為電子數(shù)據(jù)證據(jù)。但嚴格來說,仍面臨與電子數(shù)據(jù)客觀屬性相沖突的難題。對此,應(yīng)通過完善電子數(shù)據(jù)的審查規(guī)則予以解決。
1.能否作為事實認定中的證據(jù)之爭議
證據(jù),一般而言是指用于法官確定判決之基礎(chǔ)的依據(jù)。[12](P370)對于通過數(shù)據(jù)挖掘所得的數(shù)據(jù)能否作為認定案件事實的證據(jù),學(xué)術(shù)界對此存在爭議。有觀點認為大數(shù)據(jù)分析預(yù)測能為案件事實認定過程提供背景知識,但不能獨立作為證據(jù)使用。[13](P64)數(shù)據(jù)挖掘作為量化分析的手段,無法挖掘出普適規(guī)律解釋所有個體行為。也有觀點認為大數(shù)據(jù)可以作為證據(jù)使用,納入電子數(shù)據(jù)這一既有的法定證據(jù)種類范疇。[14](P56)
筆者認為大數(shù)據(jù)可以對已經(jīng)發(fā)生的事實進行證明。也就是說,大數(shù)據(jù)的另一個發(fā)展方向是作為事實認定的證據(jù)。[15](P63~64)但通過數(shù)據(jù)挖掘所得的數(shù)據(jù)不同于一般的在案件發(fā)生過程中形成的證據(jù),與電子數(shù)據(jù)證據(jù)的客觀性存在一定的沖突。
2.與電子數(shù)據(jù)客觀性(真實性)的沖突及解決
電子數(shù)據(jù)是指借助現(xiàn)代信息技術(shù)或電子設(shè)備形成的一切證據(jù),或者以電子形式表現(xiàn)出來的能夠證明案件事實的一切證據(jù)。[16](P162)對于保存在特定系統(tǒng)中的電子數(shù)據(jù),使用時直接從系統(tǒng)中調(diào)出即可。通過數(shù)據(jù)挖掘獲得的電子數(shù)據(jù)往往脫離其上下文情境,從而導(dǎo)致電子數(shù)據(jù)線索被錯誤的解讀。運用數(shù)據(jù)挖掘技術(shù)分析得到的“預(yù)測”在某種程度上也具有主觀性。且數(shù)據(jù)挖掘中的電子數(shù)據(jù)往往以數(shù)據(jù)流的形式存在,對數(shù)據(jù)的利用以對數(shù)據(jù)流的有效掌控為前提,所得數(shù)據(jù)往往隨著時空變化發(fā)生改變。[17] (P111~119)
對于電子數(shù)據(jù)進行評價,與傳統(tǒng)證據(jù)一樣應(yīng)做客觀性、合法性和關(guān)聯(lián)性方面的審查。證據(jù)的客觀性要求作為證據(jù)方法的載體未經(jīng)加工、變造或呈現(xiàn)證據(jù)的過程不受扭曲、干擾,[18](P70)對于電子數(shù)據(jù)的審查和適用應(yīng)遵循此客觀性標準。然而,通過數(shù)據(jù)挖掘技術(shù)獲得的電子數(shù)據(jù)建立在對基礎(chǔ)數(shù)據(jù)的加工分析之上,與電子數(shù)據(jù)證據(jù)予以采納的客觀性要求存在一定的非調(diào)和性。
針對挖掘所得數(shù)據(jù)作為證據(jù)使用時與電子數(shù)據(jù)客觀性的沖突,筆者認為可通過完善電子數(shù)據(jù)的審查方式予以解決。對于電子數(shù)據(jù)客觀性的審查主要涉及真實性的審查,可從電子數(shù)據(jù)載體的真實性、電子數(shù)據(jù)的真實性以及電子數(shù)據(jù)內(nèi)容的真實性三個層面展開。[19](P121)對于電子數(shù)據(jù)載體的真實性著重審查保存挖掘數(shù)據(jù)的載體的同一性和完整性;對于電子數(shù)據(jù)真實性著重審查數(shù)據(jù)挖掘基礎(chǔ)數(shù)據(jù)是否與原始數(shù)據(jù)保持一致,是否存在被刪改的情況;對于電子數(shù)據(jù)內(nèi)容的真實性著重審查挖掘數(shù)據(jù)與其他證據(jù)所包含的信息能否相互印證。
數(shù)據(jù)挖掘技術(shù)作為一種新興的信息技術(shù),目前已成為計算機和情報學(xué)研究的熱點之一。因可提供個性化的服務(wù)并對整體趨勢進行預(yù)測,數(shù)據(jù)挖掘技術(shù)無論是在經(jīng)濟領(lǐng)域還是司法領(lǐng)域均具有廣闊的適用空間。然而,此技術(shù)在法律層面也面臨一些挑戰(zhàn),但并未得到研究人員的廣泛關(guān)注。從技術(shù)和法律兩個層面對數(shù)據(jù)挖掘技術(shù)進行整體性的探討和分析任重而道遠。