林偉 周耀銘
(1.福建警察學(xué)院,福州 350007;2.西南政法大學(xué),重慶 401120)
隨著全球經(jīng)濟發(fā)展和互聯(lián)網(wǎng)的廣泛應(yīng)用,國家運行、社會發(fā)展和個人生活都高度依賴網(wǎng)絡(luò),數(shù)據(jù)滲透社會生活的方方面面,包括金融、交通、醫(yī)療、教育、消費等領(lǐng)域,數(shù)據(jù)資源已成為經(jīng)濟和社會發(fā)展不可或缺的戰(zhàn)略性資源。世界各國研究發(fā)展大數(shù)據(jù)技術(shù),運用大數(shù)據(jù)推動經(jīng)濟發(fā)展、完善社會治理、提升政府管理和服務(wù)能力已成為趨勢。
數(shù)據(jù)治理的內(nèi)涵是指以“數(shù)據(jù)”為對象,在確保數(shù)據(jù)安全的前提下,建立健全規(guī)則體系,理順各方參與者在數(shù)據(jù)流通各個環(huán)節(jié)的權(quán)責(zé)關(guān)系,形成多方參與者共享共治的數(shù)據(jù)流通模式,從而最大限度地釋放數(shù)據(jù)價值[1]。自大數(shù)據(jù)時代到來,國內(nèi)外學(xué)界從不同學(xué)科、不同維度對數(shù)據(jù)治理進行充分研究。有學(xué)者從法律視角進行探討,Zech[2]提出了“數(shù)據(jù)生產(chǎn)者權(quán)”的概念,認為應(yīng)給數(shù)據(jù)載體上生成的數(shù)據(jù)承擔(dān)責(zé)任的主體制定可轉(zhuǎn)讓的數(shù)據(jù)專有權(quán)。有學(xué)者從技術(shù)視角進行分析,如邢春曉[3]認為智能數(shù)據(jù)治理需要大數(shù)據(jù)質(zhì)量實時分析與控制、算法的可解釋性、知識圖譜等相關(guān)技術(shù)的支撐。同時,還有學(xué)者從不同的視角、使用不同的方法對相關(guān)研究成果進行綜述。從定性研究來看,學(xué)者分別從醫(yī)療[4]、政務(wù)[5]等不同領(lǐng)域?qū)鴥?nèi)數(shù)據(jù)治理進行綜述。從定量研究來看,劉強[6]運用CiteSpace軟件量化分析檔案數(shù)據(jù)的國內(nèi)研究現(xiàn)狀及展望。總體來看,現(xiàn)有的綜述成果大多局限于國內(nèi)某一行業(yè)的數(shù)據(jù)治理研究,鮮有學(xué)者對國內(nèi)外數(shù)據(jù)治理研究的整體動態(tài)及發(fā)展趨勢進行系統(tǒng)梳理。為此,本文通過文獻梳理,從法律、技術(shù)、管理三個層面歸納分析國內(nèi)外數(shù)據(jù)治理領(lǐng)域的研究狀況,在此基礎(chǔ)上對未來仍需深入研究的問題提出展望。
縱觀國內(nèi)外數(shù)據(jù)治理的研究歷程,大致可以分為三個階段,第一階段與第二階段以2013年為分界線。在2013年以前(第一階段),國內(nèi)外對數(shù)據(jù)流動、數(shù)據(jù)治理等相關(guān)問題的研究仍處于相對匱乏的狀態(tài)。國外學(xué)界對數(shù)據(jù)治理的認識始于2004年,之后陸續(xù)有學(xué)者對數(shù)據(jù)治理展開研究[7]。該階段的研究多處于零星狀態(tài),并未呈現(xiàn)規(guī)模之勢。直到2013年,大數(shù)據(jù)技術(shù)迅速發(fā)展,有媒體稱該年為“大數(shù)據(jù)元年”。從此數(shù)據(jù)治理研究也進入第二階段,人們逐漸意識到以傳統(tǒng)關(guān)系型數(shù)據(jù)庫為核心的數(shù)據(jù)存儲與處理技術(shù)無法適應(yīng)多元、異構(gòu)、海量、高時效等大數(shù)據(jù)特征和應(yīng)用需求,因而逐漸加大對數(shù)據(jù)治理的研究。特別是2013年6月,震驚全球的美國“棱鏡門”事件爆發(fā),引發(fā)了世界各國對個人數(shù)據(jù)權(quán)利的思考;2015年5月我國工信部電子技術(shù)標(biāo)準(zhǔn)化研究院制定《數(shù)據(jù)治理白皮書》國際標(biāo)準(zhǔn)研究報告。但是,在該階段,國內(nèi)外對數(shù)據(jù)治理的研究仍然處于技術(shù)層面上的思考,世界各國仍未對數(shù)據(jù)治理進行系統(tǒng)性、全面性以及學(xué)科交叉性的研究。2017年以后,隨著大數(shù)據(jù)應(yīng)用的不斷深入,數(shù)據(jù)作為戰(zhàn)略資源的地位日益凸顯,數(shù)據(jù)共享與開放、安全與隱私保護、數(shù)據(jù)確權(quán)等問題引發(fā)了人們的深度思考,至此數(shù)據(jù)治理研究也進入了第三階段。學(xué)術(shù)界和產(chǎn)業(yè)界的學(xué)者開始認為,大數(shù)據(jù)治理應(yīng)該從管理、規(guī)范和技術(shù)等多個維度進行綜合考慮與研究。在國內(nèi),中共中央政治局2017年就實施國家大數(shù)據(jù)戰(zhàn)略進行第二次集體學(xué)習(xí);2018年,貴陽大數(shù)據(jù)交易所首次在交易系統(tǒng)中采用區(qū)塊鏈技術(shù),區(qū)塊鏈技術(shù)開始運用于交易;2019年中共十九屆四中全會審議通過《中共中央關(guān)于堅持和完善中國特色社會主義制度 推進國家治理體系和治理能力現(xiàn)代化若干重大問題的決定》,提出要健全勞動、資本、土地、知識、技術(shù)、管理、數(shù)據(jù)等生產(chǎn)要素由市場評價貢獻、按貢獻決定報酬的機制。這是國家層面首次將數(shù)據(jù)列為生產(chǎn)要素,數(shù)據(jù)資源的重要地位得到確立。在國外,美國出臺了《加州消費者隱私法案》(California Consumer Protection Act)和《澄清合法使用境外數(shù)據(jù)法案》(Clarifying Lawful Overseas Use of Data Act),歐盟通過了《通用數(shù)據(jù)保護條例》(General Data Protection Regulation),表明世界主要經(jīng)濟體越來越重視數(shù)據(jù)治理領(lǐng)域的立法。
筆者以中國知網(wǎng)(CNKI)、Web of Science(WOS)作為檢索數(shù)據(jù)來源,檢索并梳理數(shù)據(jù)治理領(lǐng)域的研究成果發(fā)現(xiàn),關(guān)于數(shù)據(jù)治理研究的成果主要聚焦于法律、技術(shù)、管理三個層面。
法律法規(guī)是數(shù)據(jù)治理的前提和基礎(chǔ)。數(shù)據(jù)治理的法制建設(shè)既要促進數(shù)據(jù)流通,更好地滿足多維大數(shù)據(jù)利用的需求,又要對數(shù)據(jù)利用與個人信息保護、企業(yè)利益維護、社會安全保障等目標(biāo)進行更好的平衡[1]。法律層面數(shù)據(jù)治理研究可以從個人、企業(yè)和國家這三個層面來分析。
2.1.1 個人信息權(quán)益
從個人層面看,數(shù)據(jù)權(quán)屬問題體現(xiàn)為數(shù)據(jù)人權(quán)問題。隨著大數(shù)據(jù)在國家治理、現(xiàn)代經(jīng)濟體系運行和民生方面的運用日益廣闊、影響日益加深,個人信息泄露事件頻有發(fā)生,網(wǎng)絡(luò)黑灰產(chǎn)業(yè)屢禁不止,給公民個人信息權(quán)益造成嚴(yán)重威脅。①個人信息保護的相關(guān)立法研究一直是學(xué)界關(guān)注的焦點。2021年《個人信息保護法》的出臺便是法學(xué)理論界與實務(wù)界集體智慧的結(jié)晶。國內(nèi)學(xué)者周漢華[8]在《法學(xué)研究》上發(fā)表論文指出:個人信息保護法于信息控制者而言,應(yīng)強化其內(nèi)部治理機制,承擔(dān)應(yīng)有的法律責(zé)任;于信息主體而言,應(yīng)確認其信息控制權(quán);而在實施方面,則應(yīng)當(dāng)由易到難,循序漸進,推動激勵相容機制實現(xiàn)。趙光[9]從全球數(shù)據(jù)治理視角下探討了《個人信息保護法》在個人、企業(yè)、國家利益上的平衡,以及個人信息保護和利用的關(guān)系平衡。張新寶[10]也認為應(yīng)堅持綜合立法的思路,充分兼顧信息主體、企業(yè)和國家的不同訴求,妥善處理好三方關(guān)系,平衡好人格尊嚴(yán)、商業(yè)價值與公共管理價值的利益訴求。楊震等[11]認為應(yīng)該堅持國際接軌原則,立足我國具體國情,主動適應(yīng)國際化需求,在立法中保障個人信息自決權(quán),包括信息保密權(quán)、信息選擇權(quán)、信息查詢權(quán)等。②個人數(shù)據(jù)權(quán)屬亦是學(xué)者研究的重點。在物理世界中,人們享有人格權(quán)與財產(chǎn)權(quán)以保護自身肉體尊嚴(yán);而在虛擬世界中,個人數(shù)據(jù)權(quán)是保護個人數(shù)據(jù)安全的重要防線。Kerber[12]認為個人數(shù)據(jù)財產(chǎn)權(quán)化在政治與文化上更具吸引力,其主要理由是相較于單純的憲法隱私基本權(quán),兼具經(jīng)濟誘因的制度設(shè)計更能有效減少個人數(shù)據(jù)被大量非法收集與監(jiān)控的風(fēng)險。汪厚冬[13]認為個人數(shù)據(jù)應(yīng)當(dāng)財產(chǎn)權(quán)化,這將有利個人數(shù)據(jù)主體對其數(shù)據(jù)的控制權(quán),有助于促進數(shù)據(jù)經(jīng)濟發(fā)展等,但個人數(shù)據(jù)財產(chǎn)權(quán)與傳統(tǒng)數(shù)據(jù)財產(chǎn)權(quán)應(yīng)有所不同,除了賦予其私益外,還應(yīng)根據(jù)保護個人數(shù)據(jù)主體合法權(quán)益、社會公共利益、數(shù)據(jù)經(jīng)濟發(fā)展與數(shù)據(jù)安全等對其設(shè)定相關(guān)的限制結(jié)構(gòu)。不過,也有學(xué)者對此持反對意見,如國外學(xué)者Miller[14]認為不應(yīng)將個人數(shù)據(jù)財產(chǎn)化,因為這將不利于數(shù)字經(jīng)濟的發(fā)展。
2.1.2 企業(yè)數(shù)據(jù)權(quán)屬
從企業(yè)層面看,數(shù)據(jù)權(quán)屬問題體現(xiàn)為數(shù)據(jù)產(chǎn)權(quán)問題。數(shù)據(jù)資源成為相關(guān)企業(yè)追逐的熱點,擁有更龐大數(shù)據(jù)資源的企業(yè)能在行業(yè)發(fā)展中擁有更多話語權(quán)以及更大的競爭優(yōu)勢,因此個人數(shù)據(jù)在商業(yè)化過程中引發(fā)了許多數(shù)據(jù)產(chǎn)權(quán)爭議問題。相關(guān)研究有以下兩類。①數(shù)據(jù)權(quán)力平衡研究。學(xué)者王磊[15]認為個人數(shù)據(jù)商業(yè)化利用過程中應(yīng)平衡數(shù)據(jù)開發(fā)利用方與用戶之間,數(shù)據(jù)開發(fā)利用方之間,數(shù)據(jù)開發(fā)利用方與國家、社會公共利益之間的沖突。通過設(shè)計分級分類的數(shù)據(jù)利用規(guī)則,建立起保障個人信息權(quán)益、數(shù)據(jù)追溯和共享機制、合理的數(shù)據(jù)管轄標(biāo)準(zhǔn)的法律框架。Ursic[16]認為數(shù)據(jù)可攜權(quán)可以增加用戶自由選擇服務(wù)商的權(quán)力,從而建立更可靠的數(shù)字信任環(huán)境。②數(shù)據(jù)濫用分析規(guī)制研究。大數(shù)據(jù)應(yīng)用中的數(shù)據(jù)分析算法可能直接決定或影響預(yù)測和決策,因而可能為公民個人權(quán)益乃至社會利益、國家安全帶來影響和風(fēng)險。如當(dāng)前飽受熱議的“大數(shù)據(jù)殺熟”便是利用數(shù)據(jù)挖掘算法對用戶的地理位置、消費偏好等數(shù)據(jù)的深度挖掘分析而進行差異化定價,導(dǎo)致消費者的知情權(quán)、公平交易權(quán)等受損。張欣[17]分析了當(dāng)前算法決策面臨個人主體性的不斷喪失、個體不公的結(jié)構(gòu)性鎖定、傳統(tǒng)決策治理框架的頻繁失效三重危機,探討了算法治理一般采用個體賦權(quán)、外部問責(zé)和平臺義務(wù)3種范式,提出以技術(shù)信任和治理信任根基,以算法監(jiān)管機制設(shè)計保障,有效聯(lián)結(jié)3種治理范式的智慧型型算法治理思路。湯曉瑩[18]指出在職場領(lǐng)域,算法可能對勞動者隱私權(quán)、平等就業(yè)權(quán)等帶來挑戰(zhàn),并提出相應(yīng)法律規(guī)制路徑。
2.1.3 政府?dāng)?shù)據(jù)開放
面對數(shù)據(jù)資源帶來的智慧城市治理全新賦能,提升政府?dāng)?shù)據(jù)的開放與共享能力便成為推進政府治理體系建設(shè)、促進治理能力現(xiàn)代化的重要一環(huán)。與此同時,政府層面上的數(shù)據(jù)在共享中的邊界問題和數(shù)據(jù)在流通時的安全問題也更加復(fù)雜。政府?dāng)?shù)據(jù)開放研究主要側(cè)重兩個方面。①對政府?dāng)?shù)據(jù)流通的安全性研究。政府?dāng)?shù)據(jù)的累積性、功能的融合性和信息的敏感性逐漸提升。但是,與信息產(chǎn)業(yè)界相比,政府缺少足夠的技術(shù)能力來建構(gòu)、維護和運用好這些海量的政府?dāng)?shù)據(jù)。因此,在境內(nèi)外數(shù)據(jù)流通的安全問題上,應(yīng)做好相應(yīng)的安全防范措施。國內(nèi)學(xué)者程學(xué)旗等[19]表示,要建立數(shù)據(jù)流通交易規(guī)則規(guī)范,優(yōu)化數(shù)據(jù)共享、交易、流通的相關(guān)制度,明確數(shù)據(jù)權(quán)屬分配,探索數(shù)據(jù)交易市場,構(gòu)建有序的數(shù)據(jù)流通環(huán)境。張銘慎[20]也認為基于政府?dāng)?shù)據(jù)數(shù)量的龐大性、功能的復(fù)雜性和內(nèi)容的敏感性,要求政府?dāng)?shù)據(jù)應(yīng)分類有序開放,以防止數(shù)據(jù)的濫用和泄密。②國家數(shù)據(jù)主權(quán)的自主性研究。從國家層面看,數(shù)據(jù)權(quán)屬問題體現(xiàn)為數(shù)據(jù)主權(quán)問題。數(shù)據(jù)主權(quán)體現(xiàn)為國家獨立自主對其掌控的數(shù)據(jù)進行管理和使用的權(quán)力。以美國為例,2018年3月美國通過《澄清合法使用境外數(shù)據(jù)法案》,該法案授予美國執(zhí)法機構(gòu)單邊調(diào)取域外數(shù)據(jù)的權(quán)力,建立了執(zhí)法長臂管轄規(guī)則?;诖?,國內(nèi)學(xué)者劉天驕[21]認為我國應(yīng)當(dāng)堅持以數(shù)據(jù)主權(quán)為基礎(chǔ)構(gòu)建秩序,但同時還要兼顧數(shù)字經(jīng)濟時代效率價值、長臂管轄的立法阻斷,從而達到三者之間的有效平衡。吳沈括[22]也認為我國應(yīng)立足于維護數(shù)據(jù)主權(quán)的基本價值立場,在統(tǒng)籌研判數(shù)據(jù)主權(quán)、數(shù)字經(jīng)濟發(fā)展的內(nèi)在邏輯聯(lián)系和外在規(guī)范支撐基礎(chǔ)上,建立行之有效的中國方案。
就法律層面數(shù)據(jù)治理研究而言,當(dāng)前研究普遍達成的共識是,數(shù)據(jù)治理的法制建設(shè)關(guān)鍵是在個人數(shù)據(jù)流通、企業(yè)數(shù)據(jù)利用與政府?dāng)?shù)據(jù)開放三者之間取得平衡的過程。但相關(guān)研究也存在如下不足。①數(shù)據(jù)治理的法學(xué)實證研究。對于數(shù)據(jù)治理模式的創(chuàng)新,無論是宏觀還是微觀層面,都只是提出了初步的理論研究框架,欠缺法學(xué)的實證研究。②比較法視野下的數(shù)據(jù)治理研究。隨著近幾年各國數(shù)據(jù)治理領(lǐng)域立法的不斷出臺,比較法視野下的數(shù)據(jù)治理研究明顯存在不足。③數(shù)據(jù)權(quán)力的規(guī)制研究。數(shù)據(jù)在生產(chǎn)與創(chuàng)造、記錄與傳遞、處理與使用的數(shù)據(jù)化過程中產(chǎn)生了對人的支配與控制的權(quán)力,即數(shù)據(jù)權(quán)力。在各種利益的驅(qū)使下,數(shù)據(jù)權(quán)力不斷擴張,從而導(dǎo)致數(shù)據(jù)權(quán)力異化,產(chǎn)生了平臺權(quán)力私有化等現(xiàn)象,如何有效規(guī)制這種數(shù)據(jù)權(quán)力的擴張,還待進一步深入探討。
技術(shù)創(chuàng)新是數(shù)據(jù)治理的重要保障,能夠有效解決數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換、數(shù)據(jù)集成等問題。從數(shù)據(jù)使用過程來看,技術(shù)層面數(shù)據(jù)治理研究主要圍繞數(shù)據(jù)采集技術(shù)、數(shù)據(jù)存儲技術(shù)、數(shù)據(jù)處理技術(shù)進行。
2.2.1 數(shù)據(jù)采集技術(shù)
數(shù)據(jù)采集是獲取數(shù)據(jù)的首要階段,獲得合法、有效的數(shù)據(jù)是進行數(shù)據(jù)治理的前提和基礎(chǔ)。長期以來,傳統(tǒng)數(shù)據(jù)采集方式的問題主要集中在采集源、采集終端、采集過程中,包括采集階段面臨的采集效率低下、采集終端安全性低、采集過程的事后監(jiān)督審計不足等,為數(shù)據(jù)治理帶來了一定的隱患與不便[23]。因此,數(shù)據(jù)采集技術(shù)創(chuàng)新能夠從技術(shù)層面上解決數(shù)據(jù)采集階段存在的問題與風(fēng)險,主要體現(xiàn)為:一是通過技術(shù)上保障接入安全,如IP設(shè)定、連接數(shù)量、權(quán)限設(shè)定等;二是通過數(shù)據(jù)傳輸加密的方式入手,如通過HTTPS/SFTP的方式;三是加強數(shù)據(jù)權(quán)限管理,在所操作的賬號中進行多權(quán)限管理設(shè)定;四是采集數(shù)據(jù)校驗,包括數(shù)據(jù)的一致性校驗和合法性校驗[1]。這些方式均在技術(shù)上保障了數(shù)據(jù)采集階段的合法、有效、高質(zhì)量,給數(shù)據(jù)治理提供良好的前提。在提升采集效率方面,張韜等[24]認為可以通過EtherCAT這種廣泛應(yīng)用的以太網(wǎng)協(xié)議,通過映射方式與各個從站設(shè)備通信,以提高傳輸效率和傳輸速率,達到延遲低、通信時間短、配置靈活的效果。就安全性而言,杜鵬等[25]認為數(shù)據(jù)技術(shù)在電網(wǎng)運用中可以通過采取安全消息總線,配合標(biāo)簽加密認證機制來提高控制流程的安全性。在數(shù)據(jù)采集監(jiān)管方面,徐超[26]認為可以通過網(wǎng)絡(luò)爬蟲技術(shù),對數(shù)據(jù)進行預(yù)處理,并對數(shù)據(jù)來源進行實時監(jiān)控,以保障數(shù)據(jù)的實時性與安全性。
2.2.2 數(shù)據(jù)存儲技術(shù)
數(shù)據(jù)存儲技術(shù)是數(shù)據(jù)治理的關(guān)鍵階段,保障安全可靠的數(shù)據(jù)存儲是進行數(shù)據(jù)治理的關(guān)鍵一環(huán),在數(shù)據(jù)采集和數(shù)據(jù)應(yīng)用兩個環(huán)節(jié)之間發(fā)揮著承上啟下的作用。數(shù)據(jù)治理過程中數(shù)據(jù)隱私泄露、數(shù)據(jù)濫用、數(shù)據(jù)被篡改等問題頻有發(fā)生,導(dǎo)致這些問題的主要原因是大數(shù)據(jù)收集和共享流通過程不透明以及對重要數(shù)據(jù)所提供的數(shù)據(jù)加密存儲機制不夠完善。基于以上問題,對數(shù)據(jù)存儲技術(shù)的研究主要側(cè)重以下兩個方面。一是存儲方式研究。通過對數(shù)據(jù)分類分級、數(shù)據(jù)加密、數(shù)據(jù)訪問控制等技術(shù)來解決大數(shù)據(jù)平臺數(shù)據(jù)在存儲階段的安全風(fēng)險。如國內(nèi)學(xué)者陳永府等[27]提出可以通過采用全同態(tài)加密算法對數(shù)據(jù)加密,以增強數(shù)據(jù)在云端存儲和信道傳輸過程中的安全性。肖亮等[28]也認為可以通過運用重復(fù)數(shù)據(jù)刪除技術(shù)、隱藏存儲技術(shù)、數(shù)據(jù)加密與密文搜索技術(shù)以及數(shù)據(jù)完整性審計技術(shù)來提升云存儲服務(wù)的安全性。二是存儲效率研究。數(shù)據(jù)存儲的高效性能夠為下一步數(shù)據(jù)的高效處理運用提供良好的保障與基礎(chǔ),是在數(shù)據(jù)存儲的關(guān)鍵性階段。如以區(qū)塊鏈技術(shù)為前沿技術(shù)的數(shù)據(jù)存儲技術(shù)能夠在數(shù)據(jù)透明性與高效性上提供技術(shù)支持,為數(shù)據(jù)治理提供技術(shù)保障。張桐[29]分析了傳統(tǒng)數(shù)據(jù)中心化的存儲模式存在的風(fēng)險以及采用區(qū)塊鏈技術(shù)分布式存儲優(yōu)點,指出在區(qū)塊鏈技術(shù)的加持下我們需突破傳統(tǒng)中心化思維,重塑數(shù)據(jù)治理模式。
2.2.3 數(shù)據(jù)處理技術(shù)
數(shù)據(jù)處理技術(shù)是指組織在內(nèi)部針對動態(tài)數(shù)據(jù)進行一系列活動的集合的技術(shù),是數(shù)據(jù)治理的核心過程,確保數(shù)據(jù)被合適的使用者訪問及數(shù)據(jù)被以正當(dāng)方式處理是保證數(shù)據(jù)合理應(yīng)用、處理安全的基本前提。一是數(shù)據(jù)整理技術(shù)研究。數(shù)據(jù)整理技術(shù)主要包括數(shù)據(jù)的結(jié)構(gòu)化處理、數(shù)據(jù)質(zhì)量評估與數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范化處理、數(shù)據(jù)融合與摘取、發(fā)布共享等[30]。國外學(xué)者Rzeszotarski等[31]提出一種稱為“Kinetica”的架構(gòu),使用該架構(gòu)可以一次性處理多維度的數(shù)據(jù)并識別異常值,以支持大規(guī)模的機器學(xué)習(xí)訓(xùn)練??锟″旱萚32]提出一種基于深度學(xué)習(xí)的異常數(shù)據(jù)清洗算法,通過感知數(shù)據(jù)的“時-空”相關(guān)性和異常值的稀疏性解決異常數(shù)據(jù)清洗問題。二是數(shù)據(jù)分析技術(shù)研究。數(shù)據(jù)在社會中扮演重要的角色,但是數(shù)據(jù)通常并不能直接被人們利用,數(shù)據(jù)分析是從大量看似雜亂無章的數(shù)據(jù)中揭示其中隱含的內(nèi)在規(guī)律、發(fā)掘有用的知識以指導(dǎo)人們進行科學(xué)的推斷和決策。何振等[33]指出在人工智能技術(shù)賦能下,政府?dāng)?shù)據(jù)治理呈現(xiàn)出一些新的特征,主要包括數(shù)據(jù)內(nèi)容更加豐富、數(shù)據(jù)處理更加快捷、數(shù)據(jù)管理更加高效、數(shù)據(jù)決策更加科學(xué)、數(shù)據(jù)服務(wù)更加精準(zhǔn)等。Kumar等[34]提出了一種基主外鍵的特征選擇方法,這樣機器學(xué)習(xí)算法可以同時對多個原始數(shù)據(jù)的子集進行訓(xùn)練,以提高數(shù)據(jù)分析的效率。
就技術(shù)層面數(shù)據(jù)治理研究而言,學(xué)界分別從數(shù)據(jù)采集高效性、數(shù)據(jù)存儲安全性和數(shù)據(jù)處理便利性三方面入手研究,闡述了數(shù)據(jù)治理技術(shù)對推動數(shù)據(jù)治理能力提升的作用。學(xué)者普遍對數(shù)據(jù)處理技術(shù)持積極、認可的態(tài)度,認為諸如人工智能、區(qū)塊鏈等相關(guān)技術(shù)能夠提高數(shù)據(jù)收集、處理和利用水平,技術(shù)的完備性和先進性得到了一定程度的提升。但相關(guān)研究仍然存在以下問題:一是從共享技術(shù)的視角來看,由于傳統(tǒng)煙囪式的數(shù)據(jù)技術(shù)建設(shè),導(dǎo)致“數(shù)據(jù)孤島”仍然存在,即相關(guān)數(shù)據(jù)共享技術(shù)仍付諸闕如;二是從集成技術(shù)的視角來看,當(dāng)下仍然缺乏相關(guān)技術(shù)平臺對數(shù)據(jù)進行整合,導(dǎo)致大數(shù)據(jù)集成水平不高,而相關(guān)共享集成技術(shù)的缺位則會導(dǎo)致數(shù)據(jù)應(yīng)用效率與水平的低下。因此,如何通過技術(shù)消弭“數(shù)據(jù)孤島”、打破“數(shù)據(jù)壁壘”,實現(xiàn)數(shù)據(jù)更加高效可靠的共享,學(xué)界還待進一步深入探討。
數(shù)據(jù)管理是數(shù)據(jù)治理的關(guān)鍵,數(shù)據(jù)管理能夠提供對數(shù)據(jù)的訪問、執(zhí)行或監(jiān)視數(shù)據(jù)存儲以控制輸入輸出操作的整個過程,在整個數(shù)據(jù)生命周期中,提供符合數(shù)據(jù)要求的業(yè)務(wù)數(shù)據(jù)的規(guī)劃、獲取和管理[1]。當(dāng)前數(shù)據(jù)治理在管理層面的研究主要聚焦數(shù)據(jù)生命周期管理和數(shù)據(jù)質(zhì)量管理。
2.3.1 數(shù)據(jù)生命周期管理
數(shù)據(jù)生命周期管理是指對數(shù)據(jù)在使用過程中的整個生命周期(含數(shù)據(jù)產(chǎn)生、數(shù)據(jù)傳輸、數(shù)據(jù)存儲、數(shù)據(jù)應(yīng)用和數(shù)據(jù)銷毀)進行有效管理,發(fā)揮數(shù)據(jù)最大作用的過程。常見的數(shù)據(jù)生命周期管理模型有英國數(shù)據(jù)存儲中心提出的UKDA模型、美國的雪城大學(xué)秦健等人提出的科學(xué)數(shù)據(jù)管理能力成熟度等[35]。在數(shù)據(jù)的全生命周期中,可以清洗、轉(zhuǎn)化、合并甚至生成新的數(shù)據(jù)。在數(shù)據(jù)流通過程中,趙正等[36]提出應(yīng)以數(shù)據(jù)生命周期為視角,在數(shù)據(jù)流通情景下數(shù)據(jù)要素治理應(yīng)配套促進數(shù)據(jù)要素合規(guī)高效流通,建立數(shù)據(jù)要素流通管理規(guī)則、數(shù)據(jù)要素流通標(biāo)識規(guī)則、數(shù)據(jù)要素跨境流通規(guī)則等制度。在政府?dāng)?shù)據(jù)生命周期管理方面,夏義堃等[37]基于數(shù)據(jù)生命周期理論提出應(yīng)推進數(shù)據(jù)資產(chǎn)目錄動態(tài)管理、數(shù)據(jù)資產(chǎn)分級分類管理、數(shù)據(jù)資產(chǎn)質(zhì)量控制數(shù)據(jù)治理模式。Shah等[38]提出了一種數(shù)據(jù)驅(qū)動型政府的數(shù)據(jù)生命周期管理框架,建立政府大數(shù)據(jù)生態(tài)系統(tǒng)。
2.3.2 數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量管理是指對全流程數(shù)據(jù)的真實性、準(zhǔn)確性等特質(zhì)進行的管理活動,包括數(shù)據(jù)清洗、數(shù)據(jù)監(jiān)測、數(shù)據(jù)校驗等。數(shù)據(jù)質(zhì)量管理智能平臺能夠?qū)?shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)組織等過程的數(shù)據(jù)進行采樣并輸入到質(zhì)量樣例數(shù)據(jù)庫,建立數(shù)據(jù)質(zhì)量核驗任務(wù),自動完成數(shù)據(jù)質(zhì)量規(guī)范性、一致性、準(zhǔn)確性和完整性的檢查。不同學(xué)者從不同應(yīng)用場景對數(shù)據(jù)質(zhì)量管理進行了探討。周林興等[39]分析智慧城市視域下政府?dāng)?shù)據(jù)質(zhì)量反饋機制構(gòu)建、機理模型及運行模式,提出應(yīng)從反饋組織制度建設(shè)、法律遵從、融入人工智能技術(shù)、搭建專用反饋平臺等方面優(yōu)化政府?dāng)?shù)據(jù)質(zhì)量治理。在教育數(shù)據(jù)質(zhì)量管理領(lǐng)域,美國加利福尼亞州教育局(California Department of Education)為強化數(shù)據(jù)質(zhì)量管理,于2016年1月開始實施“教育數(shù)據(jù)治理計劃”(Educational Data Governance Program),建立數(shù)據(jù)標(biāo)準(zhǔn)并倡導(dǎo)教育領(lǐng)域利益相關(guān)者共同關(guān)注教育數(shù)據(jù)質(zhì)量管理[40]。豐佰恒等[41]結(jié)合博弈論模型、改進病毒傳播SIR模型(Susceptible Infected Recovered Model)構(gòu)建科研大數(shù)據(jù)質(zhì)量管控模型,并進行仿真模擬。李青等[42]提出應(yīng)通過制定和完善數(shù)據(jù)標(biāo)準(zhǔn),推進不同層次和維度的數(shù)據(jù)共享,落實和健全數(shù)據(jù)隱私保護機制,建設(shè)數(shù)據(jù)治理技術(shù)平臺來保障數(shù)據(jù)質(zhì)量。
就管理層面數(shù)據(jù)治理研究而言,學(xué)者分別從宏觀流程管理和微觀質(zhì)量監(jiān)督兩個視角對數(shù)據(jù)治理進行闡述。通過對數(shù)據(jù)生命周期的管理,能夠加強各環(huán)節(jié)的高效流通,促進數(shù)據(jù)要素合規(guī)合理配置。對數(shù)據(jù)質(zhì)量的管理,能夠更好地保證全流程數(shù)據(jù)的真實性和準(zhǔn)確性,通過規(guī)范數(shù)據(jù)應(yīng)用進而保證數(shù)據(jù)的質(zhì)量。然而,數(shù)據(jù)治理在政府、企業(yè)中普遍存在統(tǒng)籌協(xié)調(diào)能力不足、組織權(quán)責(zé)不清、組織架構(gòu)混亂的問題,而目前研究多偏向于針對數(shù)據(jù)個體特性進行對數(shù)據(jù)管理客體的管理研究,較少針對政府、企業(yè)等管理主體存在的問題進行研究。
在數(shù)字經(jīng)濟迅猛發(fā)展的形勢下,數(shù)據(jù)資源在經(jīng)濟運行和資源配置中起著日益重要的作用。數(shù)據(jù)治理關(guān)涉關(guān)系的復(fù)雜性使高效的數(shù)據(jù)治理既要遵從自然、社會規(guī)律,也要遵從技術(shù)、法律、管理規(guī)律。數(shù)據(jù)治理研究旨在探索發(fā)現(xiàn)數(shù)據(jù)治理規(guī)律的科學(xué)研究活動,特別是理論研究活動,既無法也不能囿于一兩個學(xué)科領(lǐng)域去展開,而必須進行多學(xué)科跨領(lǐng)域的共同探索研究,因此融入了多學(xué)科的研究方法和理論,產(chǎn)生了豐碩的研究成果??v觀國內(nèi)外數(shù)據(jù)治理研究的發(fā)展歷程,它的每一次發(fā)展都源于理論與實踐相互融合與促進。隨著移動互聯(lián)網(wǎng)、云計算、人工智能等信息技術(shù)的發(fā)展,網(wǎng)絡(luò)空間成為陸、海、空、天之后的第五大空間,與現(xiàn)實空間產(chǎn)生緊密的交互作用。人類固有的社會屬性在其開啟的網(wǎng)絡(luò)化生存模式下形成全方位縮影,出現(xiàn)了一個與現(xiàn)實世界平行的“元宇宙”,而數(shù)據(jù)是連接現(xiàn)實空間與網(wǎng)絡(luò)空間的橋梁,這注定了數(shù)據(jù)治理將是未來學(xué)術(shù)界持續(xù)性關(guān)注的重要課題。數(shù)據(jù)治理研究作為一個復(fù)雜的系統(tǒng)性工程,今后仍需要從以下三方面進行拓展與完善,以期進一步提升數(shù)據(jù)治理的效果。
第一,數(shù)據(jù)安全治理研究。隨著大數(shù)據(jù)的深度應(yīng)用,網(wǎng)絡(luò)空間數(shù)據(jù)安全問題日益凸顯。于國家而言,互聯(lián)網(wǎng)資源儲備量已經(jīng)成為各國實力比拼的新戰(zhàn)略要素。某些國家借助自身先進的技術(shù)和設(shè)備支撐,大肆竊取他國數(shù)據(jù),對其他國家信息安全構(gòu)成極大威脅??赡軐?dǎo)致很多國家經(jīng)濟、軍事、商業(yè)等方面的機密泄露,從而引發(fā)重大的國家經(jīng)濟和社會安全問題。于普通民眾而言,掌握大量數(shù)據(jù)資源的企業(yè)網(wǎng)絡(luò)一旦出現(xiàn)非法采集、竊取、販賣和利用網(wǎng)絡(luò)個人信息,將給公民的隱私權(quán)利、人身和財產(chǎn)安全帶來嚴(yán)重威脅。虛擬社會的自由交互也為網(wǎng)絡(luò)犯罪的滋生提供了絕佳的機會,網(wǎng)絡(luò)攻擊、網(wǎng)絡(luò)詐騙、網(wǎng)絡(luò)黑灰產(chǎn)業(yè)交易等行為屢禁不止,致使公共網(wǎng)絡(luò)安全感缺失,引發(fā)公眾安全危機。于行業(yè)層面而言,如何在數(shù)據(jù)保護和數(shù)據(jù)的有效利用之間達成平衡是關(guān)鍵。過度的保護顯然不利于創(chuàng)新,也不利于數(shù)據(jù)的挖掘和使用;保護的缺失則易造成侵犯個人隱私,導(dǎo)致失去行業(yè)競爭優(yōu)勢,更有可能造成國家數(shù)據(jù)主權(quán)難以有效的維護。大數(shù)據(jù)作為社會科技進步和發(fā)展的重要資料的前提是,只有在安全規(guī)范的環(huán)境中使用才能整合為戰(zhàn)略性資源,否則將成為巨大的公共安全隱患。特別是隨著《數(shù)據(jù)安全法》《個人信息保護法》的相繼出臺,數(shù)據(jù)安全治理將是未來數(shù)據(jù)治理領(lǐng)域持續(xù)關(guān)注的熱點。
第二,數(shù)據(jù)協(xié)同治理研究。前文所述,數(shù)據(jù)從采集、傳輸、儲存、處理、應(yīng)用、銷毀是處于動態(tài)的數(shù)據(jù)生命周期過程,在這動態(tài)流通的過程中其所涉及的主體涵蓋個人、企業(yè)、機構(gòu)、組織、政府等?;诖?,數(shù)據(jù)治理應(yīng)聚合多方主體力量協(xié)同進行,通過發(fā)揮各方優(yōu)勢、平橫各方利益,共同提高治理效率與質(zhì)量。①多元主體協(xié)同。在進行協(xié)同治理時應(yīng)吸納政府、企業(yè)、個人等多方主體參與其中,實現(xiàn)治理主體的多元化。既要發(fā)揮政府在公共安全管理事務(wù)中的主導(dǎo)作用,保證采集、開發(fā)和使用的有序進行,又要充分發(fā)揮科技企業(yè)、非營利機構(gòu)以及社區(qū)組織的技術(shù)能力,激發(fā)創(chuàng)新活力,形成多元主體的協(xié)同開發(fā)利用模式。②技術(shù)協(xié)同。數(shù)據(jù)治理的技術(shù)既涉及傳統(tǒng)的機器學(xué)習(xí)技術(shù)、加密技術(shù)等,又涉及人工智能背景下的隱私計算,如聯(lián)邦學(xué)習(xí)、安全多方計算等。引導(dǎo)產(chǎn)學(xué)研各界聯(lián)合推動技術(shù)創(chuàng)新相關(guān)應(yīng)用落地,實現(xiàn)技術(shù)協(xié)同是數(shù)據(jù)治理的根本。③平臺協(xié)同。構(gòu)建以數(shù)據(jù)為中心的輕量化大數(shù)據(jù)治理協(xié)同平臺,通過對數(shù)據(jù)采集、驗證、轉(zhuǎn)換、處理、組織、分析等全過程可視化操作治理,建立全流程閉環(huán)的監(jiān)管體系,定位、分析、跟蹤及解決數(shù)據(jù)治理風(fēng)險問題,形成數(shù)據(jù)治理閉環(huán)的處理機制,保證數(shù)據(jù)的持續(xù)穩(wěn)定可靠。
第三,數(shù)據(jù)中臺構(gòu)建研究。隨著信息化的不斷發(fā)展,各行各業(yè)若仍采用傳統(tǒng)煙囪式的IT建設(shè)方案,“數(shù)據(jù)孤島”、數(shù)據(jù)重復(fù)開發(fā)建設(shè)、數(shù)據(jù)質(zhì)量不一致等問題將更加凸顯,對計算資源將造成更大的浪費。大數(shù)據(jù)的本質(zhì)是數(shù)據(jù)的融合,把原本各自孤立的數(shù)據(jù)互相關(guān)聯(lián)、融合,構(gòu)建數(shù)據(jù)資產(chǎn)標(biāo)簽類目體系,從而賦予數(shù)據(jù)更深層次的語義和價值,洞察事物的本質(zhì)。數(shù)據(jù)中臺的基本理念便是打通“數(shù)據(jù)孤島”和“數(shù)據(jù)煙囪”構(gòu)建數(shù)據(jù)共享的統(tǒng)一數(shù)據(jù)技術(shù)架構(gòu),讓大數(shù)據(jù)“用起來”“統(tǒng)起來”[43]。數(shù)據(jù)中臺是通過技術(shù)手段對多源異構(gòu)數(shù)據(jù)進行采集、集成、存儲與處理,同時統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),形成大數(shù)據(jù)資產(chǎn)層,為內(nèi)部和外部提供高效服務(wù)的新型數(shù)據(jù)服務(wù)平臺。數(shù)據(jù)中臺的功能包括數(shù)據(jù)融合、數(shù)據(jù)加工、數(shù)據(jù)可視化、數(shù)據(jù)服務(wù)化,通過數(shù)據(jù)融合實現(xiàn)標(biāo)準(zhǔn)化的數(shù)據(jù)采集以解決“數(shù)據(jù)孤島”問題,通過數(shù)據(jù)加工以統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和質(zhì)量體系實現(xiàn)數(shù)據(jù)資產(chǎn)化,通過數(shù)據(jù)可視化展示數(shù)據(jù)圖譜,通過數(shù)據(jù)服務(wù)化實現(xiàn)數(shù)據(jù)共享、算法共享。2019年是數(shù)據(jù)中臺爆發(fā)的元年,數(shù)據(jù)中臺必將依循從概念引爆到迭代試錯,再到規(guī)模復(fù)制的認識路徑,對數(shù)據(jù)中臺的研究任重而道遠[43]。
總體而言,我國需要通過數(shù)據(jù)治理,構(gòu)建能夠保障數(shù)據(jù)安全、承擔(dān)數(shù)據(jù)責(zé)任、解決數(shù)據(jù)問題的多元治理路徑,從而進一步提升數(shù)據(jù)治理的能力;通過多學(xué)科融合、全面協(xié)調(diào)保證決策者遵守組織戰(zhàn)略和治理規(guī)則,提高數(shù)據(jù)治理能力,促進數(shù)據(jù)治理能力的現(xiàn)代化。