支鳳穩(wěn) 云仲倫 張閃閃
DOI.10.3969/j.issn.1008-0821.2021.12.007
[中圖分類號]G203 [文獻標識碼]A [文章編號]1008-0821(2021)12-0069-10
科學數(shù)據(jù)是大數(shù)據(jù)時代最基本、最活躍的科技資源,也是科研活動的重要輸入和產(chǎn)出,更是科技創(chuàng)新的基礎(chǔ)性戰(zhàn)略資源和核心驅(qū)動要素。只有開放共享、廣泛傳播才能使其價值最大化,可見,開放共享是實現(xiàn)科學數(shù)據(jù)自身潛在價值的根本途徑,也是順應(yīng)科研范式轉(zhuǎn)變的必然要求。大數(shù)據(jù)時代,數(shù)據(jù)驅(qū)動研究成為一種趨勢,科學研究越來越依賴大量、系統(tǒng)、高可信度的數(shù)據(jù),進而發(fā)展出第4種科研范式——數(shù)據(jù)密集型范式。由于大數(shù)據(jù)集很難獨立生成,將科學研究過程中產(chǎn)生的科學數(shù)據(jù)進行開放共享,符合所有供資機構(gòu)、科學機構(gòu)和研究界各方的利益。決策者、出版機構(gòu)和資助機構(gòu)也強烈認為,共享數(shù)據(jù)對科研人員非常重要,有利于科學的發(fā)展。個體科研人員在科學數(shù)據(jù)開放共享中起到關(guān)鍵作用,他們既是科研數(shù)據(jù)產(chǎn)出的重要力量,又是其使用者和受益者,異質(zhì)科研群體間多源異構(gòu)數(shù)據(jù)聚合將有效釋放科學數(shù)據(jù)的潛在價值,打破數(shù)據(jù)壁壘,連接數(shù)據(jù)孤島,實現(xiàn)協(xié)同效應(yīng)。我國《科學數(shù)據(jù)管理辦法》明確提出,支持科研人員整理發(fā)表產(chǎn)權(quán)清晰、準確完整、共享價值高的科學數(shù)據(jù)。美國國家科學基金會也要求研究人員,在合理時間向公眾分享研究中產(chǎn)生的科學數(shù)據(jù),并鼓勵和促進此類共享。
個人科學數(shù)據(jù)是指個體科研人員或個體科研團隊在自身科學研究活動產(chǎn)生的,并用于科學研究活動的研究數(shù)據(jù)及與之相關(guān)聯(lián)的個人身份數(shù)據(jù)。其關(guān)鍵在于數(shù)據(jù)主體的可識別性,也就是說,可以據(jù)此判斷數(shù)據(jù)的來源與歸屬,明確數(shù)據(jù)主體的相對數(shù)據(jù)所有權(quán)和使用權(quán)。然而,不是所有個人身份數(shù)據(jù)都屬于個人科學數(shù)據(jù),需要根據(jù)其產(chǎn)生過程及使用目的加以判斷,如征信、醫(yī)療等領(lǐng)域通常存有大量原始身份數(shù)據(jù),若其用于科學研究活動并與研究數(shù)據(jù)相關(guān),則可作為個人科學數(shù)據(jù)支撐研究成果。個人科學數(shù)據(jù)共享是指個體科研人員(團隊)作為數(shù)據(jù)主體,將自身占有的具有科學價值和使用價值的原始數(shù)據(jù)及其衍生數(shù)據(jù),賦權(quán)給對此成果有所需求的其他個體科研人員(團隊)瀏覽、使用的行為。與組織機構(gòu)問的科學數(shù)據(jù)共享不同,個人科學數(shù)據(jù)共享更強調(diào)個體問的行為交互,共享的科學數(shù)據(jù)類型多種多樣,質(zhì)量高低不一,共享次數(shù)更為頻繁,動態(tài)伸縮性更強,更依賴于高可信度的共享環(huán)境。然而,目前還存在數(shù)據(jù)易用性差、數(shù)據(jù)安全性低、用戶隱私被泄露等問題,數(shù)據(jù)共享的風險遠遠高于預(yù)期收益,信任體系無法建立,導(dǎo)致數(shù)據(jù)貢獻者共享意愿降低、共享效率低下等后果。
區(qū)塊鏈技術(shù)的發(fā)展給個人科學數(shù)據(jù)共享提供了新的選擇。2019年10月24日,習近平總書記指出,要發(fā)揮區(qū)塊鏈技術(shù)在促進數(shù)據(jù)共享、優(yōu)化業(yè)務(wù)流程、提升協(xié)同效率、構(gòu)建可信體系等方面的作用,探索利用區(qū)塊鏈技術(shù)的數(shù)據(jù)共享模式,實現(xiàn)數(shù)據(jù)跨部門、跨區(qū)域共同維護和利用。區(qū)塊鏈作為一種確保透明度、可追溯性和安全性的分布式數(shù)字賬本技術(shù),所有區(qū)塊節(jié)點共享相同的數(shù)據(jù),保證了數(shù)據(jù)有效性和安全性,為個體或組織創(chuàng)造一個可信的空間,解決了科學數(shù)據(jù)可信問題,有助于構(gòu)建一個完善的共享數(shù)據(jù)信任體系。
在此背景下,本研究以區(qū)塊鏈技術(shù)為視角,憑借其具有的不可篡改性、可追溯性、去中心化等特點,探索構(gòu)建基于區(qū)塊鏈技術(shù)的個人科學數(shù)據(jù)共享新模式,以實現(xiàn)區(qū)塊鏈技術(shù)賦能與個人科學數(shù)據(jù)共享的結(jié)合,引入SQL數(shù)據(jù)庫,解決科學數(shù)據(jù)存儲問題:應(yīng)用智能合約和共識機制,解決個體間信任基礎(chǔ)薄弱問題:利用萬能數(shù)據(jù)結(jié)構(gòu)表技術(shù),解決數(shù)據(jù)可用和孤島問題:通過加密算法和授權(quán)共識技術(shù),解決數(shù)據(jù)安全及隱私保護問題。希望本研究能為實現(xiàn)科學數(shù)據(jù)共享中各主體的高效互動、促進個人科學數(shù)據(jù)共享利用提供新的思考,同時為后續(xù)學者進行更深入研究提供理論參考。
1相關(guān)研究述評
1.1個人科學數(shù)據(jù)共享的相關(guān)研究
個人科學數(shù)據(jù)共享屬于科學數(shù)據(jù)共享的子領(lǐng)域,雖然鮮有學者專門對此進行探討,但不少有關(guān)個人數(shù)據(jù)與科學數(shù)據(jù)共享的研究,均已涉及相關(guān)論述。①在個人數(shù)據(jù)概念與類型方面,黃國彬等認為,個人數(shù)據(jù)的核心在于數(shù)據(jù)的主體識別性、構(gòu)成內(nèi)容的豐富性及個人數(shù)據(jù)產(chǎn)生與應(yīng)用的場景性,并歸納出14種個人數(shù)據(jù)的基本類型;Zliobaite Ⅰ等認為,個人數(shù)據(jù)為識別型數(shù)據(jù),指已識別或可識別的數(shù)據(jù)主體相關(guān)的任何信息。②在個人數(shù)據(jù)管理與共享方面,Anciaux N等提出個人數(shù)據(jù)管理系統(tǒng)應(yīng)考慮功能和安全要求的結(jié)合,明確權(quán)責分擔與權(quán)益維護:針對集中數(shù)據(jù)存儲和管理更容易喪失個人數(shù)據(jù)所有權(quán)和濫用個人資料問題,PattanaikⅤ等提出基于Web瀏覽器的對等數(shù)據(jù)共享框架。③在科學數(shù)據(jù)共享方面,鄔金鳴等對人口健康科學數(shù)據(jù)中個人敏感信息做出范圍界定;傅天珍等發(fā)現(xiàn),影響個體科研人員共享科學數(shù)據(jù)的因素一般有個人利益權(quán)衡、開放獲取的壓力、技術(shù)與標準問題、文化與法律因素、利他心理因素;盛小平等通過分析GDPR相關(guān)規(guī)定,為我國科學數(shù)據(jù)共享過程中個人數(shù)據(jù)保護提供了參考。
1.2區(qū)塊鏈應(yīng)用于科學數(shù)據(jù)共享的相關(guān)研究
已有學者關(guān)注到區(qū)塊鏈技術(shù)在科學數(shù)據(jù)共享實踐中的應(yīng)用。①在科研方面,郝世博等從主體、客體、功能3個角度說明區(qū)塊鏈應(yīng)用于科學數(shù)據(jù)共享的適用性,并嘗試從技術(shù)維度改善參與者的信任危機與共享障礙:王倩等基于區(qū)塊鏈技術(shù)和演化博弈理論,分析科技服務(wù)機構(gòu)數(shù)據(jù)共享的策略,在此基礎(chǔ)上構(gòu)建了面向共享策略的智能合約激勵機制。②在醫(yī)療領(lǐng)域,黃茂漢基于區(qū)塊鏈技術(shù)構(gòu)建一個疫情防控情報系統(tǒng)模型,旨在對疫情實時情況、疫苗研發(fā)進展、患者信息等進行數(shù)據(jù)共享;Kuo TT等開發(fā)了3種基于區(qū)塊鏈的分布式方法,可供相關(guān)機構(gòu)共享基因一藥物相互作用的患者記錄:Balistri E等提出了BlockHealth解決方案,以實現(xiàn)不同公司間個人健康數(shù)據(jù)的共享。③針對數(shù)據(jù)安全,王繼業(yè)等提出基于區(qū)塊鏈技術(shù)作為動力支持的數(shù)據(jù)安全共享網(wǎng)絡(luò)體系,改善互信環(huán)境:張利華等設(shè)計一種基于區(qū)塊鏈的微電網(wǎng)數(shù)據(jù)安全共享方案,在保護用戶用電隱私的同時,促進了用戶數(shù)據(jù)的安全共享。
1.3研究評論
通過文獻梳理發(fā)現(xiàn),相關(guān)研究成果在不斷積累,為本研究提供了重要的理論基礎(chǔ)與實踐證據(jù)。從研究內(nèi)容來看:在個人科學數(shù)據(jù)共享研究中,學者們越來越重視個體用戶在數(shù)據(jù)共享中的作用,研究聚焦于數(shù)據(jù)分類、治理形態(tài)、共享意愿影響因素、共享路徑等:在基于區(qū)塊鏈的科學數(shù)據(jù)共享研究中,學者們主要在數(shù)據(jù)溯源、數(shù)據(jù)存證、數(shù)據(jù)共享模型、數(shù)據(jù)隱私保護等領(lǐng)域不斷探索。從研究邏輯來看:現(xiàn)有研究主要是基于科學數(shù)據(jù)共享現(xiàn)存問題及區(qū)塊鏈優(yōu)勢,搭建基于區(qū)塊鏈技術(shù)的科學數(shù)據(jù)互信共享模式、數(shù)據(jù)安全共享平臺等;也有不少研究是根據(jù)近年來政府發(fā)文及出臺的相關(guān)政策,提出區(qū)塊鏈技術(shù)的相應(yīng)對策方案。然而,區(qū)塊鏈在科學數(shù)據(jù)共享領(lǐng)域應(yīng)用的研究起步不久,學術(shù)界對其在子領(lǐng)域個人科學數(shù)據(jù)共享中應(yīng)用的探討更少,現(xiàn)有研究大多關(guān)注到了區(qū)塊鏈的優(yōu)勢,而對以區(qū)塊鏈用作數(shù)據(jù)存儲帶來的系統(tǒng)吞吐率降低、處理響應(yīng)延遲高、共享周期長等問題的考慮不足,這也再次確認本研究的必要性。
2現(xiàn)有科學數(shù)據(jù)共享模式問題分析
現(xiàn)有研究更多以中心化共享模式為視角,科學數(shù)據(jù)中心成為促進科學數(shù)據(jù)開放共享的重要載體,通過對有意愿參與科學數(shù)據(jù)共享個人主體的數(shù)據(jù)采集,將采集數(shù)據(jù)集中存儲管理并進行共享,主要存在數(shù)據(jù)確權(quán)、數(shù)據(jù)安全、隱私保護、基礎(chǔ)設(shè)施不匹配、數(shù)據(jù)近似化和激勵機制等問題。
2.1數(shù)據(jù)確權(quán)問題
科學數(shù)據(jù)作為基礎(chǔ)生產(chǎn)資料和個人最重要的知識資產(chǎn),具有相對稀缺性,其重要性愈加顯現(xiàn)。顯然,科研人員不可能輕易共享其核心科學數(shù)據(jù)使用權(quán)與所有權(quán),如果需要現(xiàn)有數(shù)據(jù)成果以支撐研究觀點或推進研究進程,但限于時間、能力、環(huán)境條件等多重因素無法及時獲取,就有可能將個人的部分科學數(shù)據(jù)進行開放共享,以交換所需科學數(shù)據(jù)??茖W數(shù)據(jù)本身具有可復(fù)制性,在共享中易被竊取,可能造成數(shù)據(jù)貢獻者自身產(chǎn)權(quán)受侵犯??茖W數(shù)據(jù)共享的核心問題歸根到底是數(shù)據(jù)所有權(quán)和使用權(quán)的分離,在集中式開放平臺規(guī)則下,確權(quán)成本過高,主客體數(shù)據(jù)權(quán)利劃分困難,導(dǎo)致數(shù)據(jù)歸屬未在理論上形成統(tǒng)一認識,且數(shù)據(jù)權(quán)屬相關(guān)法規(guī)界定模糊。數(shù)據(jù)所有權(quán)的難以界定會給數(shù)據(jù)共享參與主體帶來誤會及糾紛,長此惡性循環(huán),阻礙科學數(shù)據(jù)的共享流通。
2.2數(shù)據(jù)安全問題
中心化管理賦予平臺運營者過多權(quán)力,使之可以通過私下串通數(shù)據(jù)貢獻者或數(shù)據(jù)使用者中一方,操作超出用戶最初授權(quán)范圍,以套取另一方利益。中心化設(shè)置權(quán)限的數(shù)據(jù)共享模式將海量科學數(shù)據(jù)進行大規(guī)模整合并存儲,很容易造成集中攻破、數(shù)據(jù)篡改、后臺操縱等問題,威脅共享生態(tài),而平臺管理規(guī)范的紕漏導(dǎo)致數(shù)據(jù)使用邊界模糊,增加了數(shù)據(jù)誤用、數(shù)據(jù)濫用等多重風險?,F(xiàn)有大部分共享平臺可追溯性差,在數(shù)據(jù)泄露后,參與用戶也很難追究。不同于分布式系統(tǒng)架構(gòu),集中式系統(tǒng)更容易導(dǎo)致單點故障,使數(shù)據(jù)被竊。再加上不規(guī)范的管制,在網(wǎng)絡(luò)環(huán)境中各種應(yīng)用系統(tǒng)易發(fā)生撞庫,上傳的科學數(shù)據(jù)將面臨泄露的風險。出于數(shù)據(jù)安全的顧慮,更多的個體科研人員反而不愿意將科學數(shù)據(jù)進行共享。
2.3隱私保護問題
科學數(shù)據(jù)共享與隱私保護尚未實現(xiàn)協(xié)同,科學數(shù)據(jù)共享常伴有用戶信息收集與傳輸,一旦缺乏相應(yīng)管制,傳輸失控導(dǎo)致數(shù)據(jù)外流,將造成大量隱私泄露。諸如在醫(yī)療、征信等領(lǐng)域,存有海量未經(jīng)修飾的原始敏感數(shù)據(jù)??茖W數(shù)據(jù)共享雖可進行匿名分享,但若在共享過程中因操作不當或被蓄意攻擊致使個人用戶信息數(shù)據(jù)泄露,則個人隱私權(quán)就會遭受嚴重侵害。此外,隨著大數(shù)據(jù)與云計算的高速發(fā)展,共享平臺信息資源自動化獲取程度不斷提高,多源用戶信息的交叉比對、整合連接次數(shù)日益增長,洞察用戶行為從而構(gòu)建用戶畫像,以此識別出相關(guān)的個人隱私數(shù)據(jù),加重了隱私泄露風險。
2.4基礎(chǔ)設(shè)施不匹配問題
在數(shù)據(jù)驅(qū)動研究背景下,核心數(shù)據(jù)需要通過多種途徑和來源獲取,隨著同一數(shù)據(jù)集中平臺的數(shù)據(jù)貢獻者和使用者人數(shù)的上升,集中平臺的數(shù)據(jù)也在隨之增長,但由于每個貢獻者都有一套自己的數(shù)據(jù)標準,且在技術(shù)水平、算法工具上也存在差距,導(dǎo)致使用者在提取來自不同貢獻者的數(shù)據(jù)時存在數(shù)據(jù)偏差,從而產(chǎn)生大量成本。在傳統(tǒng)數(shù)據(jù)共享中,若想解決數(shù)據(jù)偏差問題,需要在共享過程中投入大量資源對現(xiàn)有數(shù)據(jù)進行改造、對接,加大了數(shù)據(jù)共享的難度,使共享周期延長。
2.5數(shù)據(jù)近似化問題
個體科研人員處理數(shù)據(jù)時,會依照個人需求、問題難易程度、繁瑣程度等對數(shù)據(jù)進行過濾和選擇,以保持個人集中的注意力和問題的基本解決。但由于傳統(tǒng)數(shù)據(jù)共享模式中數(shù)據(jù)確權(quán)、數(shù)據(jù)安全、隱私保護等問題的存在,手握核心數(shù)據(jù)的數(shù)據(jù)所有者不愿意進行數(shù)據(jù)共享,核心的、高價值含量的數(shù)據(jù)得不到及時公開,用戶共享的科學數(shù)據(jù)隨著時間的推移趨于近似,徒增巨大成本,且拖慢該領(lǐng)域的整體科研進度,久而久之導(dǎo)致領(lǐng)域內(nèi)共享數(shù)據(jù)單一化、繭房化。而在數(shù)據(jù)共享平臺之間,也會因所共享的科學數(shù)據(jù)質(zhì)量水平、實質(zhì)內(nèi)容不同逐漸“巴爾干化”,遏制了科學數(shù)據(jù)流通、共享效率。
2.6激勵機制問題
在信息不對稱情況下,大多數(shù)傳統(tǒng)科學數(shù)據(jù)共享模式未將科學數(shù)據(jù)質(zhì)量等指標納入評價機制,科學數(shù)據(jù)集缺少數(shù)據(jù)引用等量化指標,激勵政策未落實,難以衡量每個數(shù)據(jù)貢獻者的實際貢獻所占比例,出現(xiàn)參與數(shù)據(jù)共享的貢獻者提供的科學數(shù)據(jù)無論質(zhì)量好壞、內(nèi)容多少,所得到的收益都大體相同的情況,使那些原本共享了高質(zhì)量、高稀缺性數(shù)據(jù)的貢獻者感到心理不平衡,最終很可能導(dǎo)致越來越多的數(shù)據(jù)貢獻者分享較少或者直接不分享核心科學數(shù)據(jù),使科學數(shù)據(jù)共享行為失去意義。
3基于區(qū)塊鏈的個人科學數(shù)據(jù)共享模式構(gòu)建
區(qū)塊鏈是一種基于加密技術(shù)和分布式共識機制的新興交互模式,通過鏈式結(jié)構(gòu)實現(xiàn)區(qū)塊數(shù)據(jù)存儲、加密算法保障數(shù)據(jù)安全、智能合約部署以及區(qū)塊讀取。它不僅能為特定用戶群提供信任服務(wù)的基礎(chǔ)設(shè)施,還可通過加密算法優(yōu)化數(shù)據(jù)公開透明實現(xiàn)路徑,它象征了與先前不同的數(shù)據(jù)歸屬權(quán),可以很好地改善傳統(tǒng)數(shù)據(jù)共享模式的問題,天然適用于個人科學數(shù)據(jù)共享領(lǐng)域。本部分將構(gòu)建基于區(qū)塊鏈的個人科學數(shù)據(jù)共享模式,并分析其流程與特點。
3.1模式架構(gòu)模型
為實現(xiàn)數(shù)據(jù)完整、來源可追溯,建立信任體系,防止數(shù)據(jù)隱私泄露,最終促進大數(shù)據(jù)環(huán)境下個人科學數(shù)據(jù)安全共享。本研究借助SQL Sever數(shù)據(jù)庫(以下簡稱“SQL數(shù)據(jù)庫”)和萬能數(shù)據(jù)結(jié)構(gòu)表理論,嘗試構(gòu)建了基于區(qū)塊鏈的個人數(shù)據(jù)共享模式架構(gòu)模型,如圖1所示。
該模型共涉及6部分:區(qū)塊鏈、SQL數(shù)據(jù)庫、智能合約、用戶本地數(shù)據(jù)終端、點對點數(shù)據(jù)傳輸網(wǎng)絡(luò)以及用戶實體。其中,用戶實體包括數(shù)據(jù)貢獻者和數(shù)據(jù)使用者,數(shù)據(jù)貢獻者是指科研數(shù)據(jù)的供給側(cè),可以是元數(shù)據(jù)生產(chǎn)者,也可以是和生產(chǎn)者達成某種協(xié)議后準允再分享的數(shù)據(jù)擁有者;對科學數(shù)據(jù)具有使用意愿的需求側(cè)稱為數(shù)據(jù)使用者;在同一共享過程中的所有用戶稱為共享參與者。該模型結(jié)合了區(qū)塊鏈、智能合約和點對點傳輸網(wǎng)絡(luò),并通過加密算法實現(xiàn)保護共享科學數(shù)據(jù)隱私,以大數(shù)據(jù)視角下科研人員個人科學數(shù)據(jù)共享為應(yīng)用場景,構(gòu)建Fabric環(huán)境,引入SQL數(shù)據(jù)庫實現(xiàn)分布式存儲,基于萬能數(shù)據(jù)結(jié)構(gòu)表數(shù)據(jù)庫理論,其中原始科學數(shù)據(jù)存儲在用戶個人數(shù)據(jù)終端中,所需共享的科學數(shù)據(jù)經(jīng)萬能數(shù)據(jù)結(jié)構(gòu)表規(guī)范數(shù)據(jù)標準化后加密處理,存儲至SQL數(shù)據(jù)庫中,其存儲日志、地址等元數(shù)據(jù)記錄在Fabric上,以達到數(shù)據(jù)脫鏈存儲的目的,解決了區(qū)塊鏈存儲容量有限帶來的交易處理速度緩慢、共識效率低等問題,有利于科學數(shù)據(jù)的可用性開發(fā)和重復(fù)應(yīng)用。個體科研人員以此方式進行科學數(shù)據(jù)共享,相應(yīng)數(shù)據(jù)經(jīng)智能合約處理后返回,共享其處理后的數(shù)據(jù)結(jié)果,原始數(shù)據(jù)不對外公開,實現(xiàn)了數(shù)據(jù)的可用不可見,避免數(shù)據(jù)資產(chǎn)泄露的同時保證了共享的安全性,以建立起信任體系,推動科學數(shù)據(jù)有效聚合,挖掘科學數(shù)據(jù)的潛在價值。
3.2模式具體流程
模型中所涉及的具體操作流程如下:
1)生成節(jié)點,完成身份匿名,數(shù)據(jù)使用者上傳數(shù)據(jù)需求至智能合約,由智能合約發(fā)布需求信息,同時索引數(shù)據(jù)庫中已存儲數(shù)據(jù)信息,進行對應(yīng)需求匹配。
2)匹配成功后反饋配對信息至參與者,數(shù)據(jù)使用者向數(shù)據(jù)貢獻者申請所需科學數(shù)據(jù)信息,由數(shù)據(jù)貢獻者按其需求上傳數(shù)據(jù),經(jīng)自適應(yīng)萬能數(shù)據(jù)結(jié)構(gòu)表對上傳數(shù)據(jù)標準化后,進行加密算法處理形成數(shù)據(jù)密文,通過哈希算法得到概要。
3)待數(shù)據(jù)使用者確認概要信息即所需,數(shù)據(jù)密文上傳智能合約,處理后自動上傳至SQL數(shù)據(jù)庫并返回哈希值,智能合約頒發(fā)密鑰和哈希值給數(shù)據(jù)貢獻者,同時記錄操作日志到數(shù)據(jù)貢獻者個人數(shù)據(jù)終端,存儲信息、概要、哈希值等相關(guān)信息記錄做上鏈留痕處理。
4)數(shù)據(jù)貢獻者授權(quán)數(shù)據(jù)使用者,驗證數(shù)據(jù)使用者身份后調(diào)用智能合約,告知數(shù)據(jù)使用者共享數(shù)據(jù)存儲地址,滿足共享條件后數(shù)據(jù)使用者獲取密鑰通過驗證并觸發(fā)智能合約,同時更新個人數(shù)據(jù)終端相關(guān)數(shù)據(jù)屬性,并再次上鏈留痕。
5)數(shù)據(jù)使用者利用密鑰獲得共享科學數(shù)據(jù)處理結(jié)果,針對此次交互過程進行反饋并達成共識,完成共享后生成交易日志操作記錄于鏈上,更新個人科學數(shù)據(jù)集引用量信息,對應(yīng)用戶成為區(qū)塊鏈上的節(jié)點并建立連接。
綜上,科學數(shù)據(jù)共享全程由共享參與者直接參與,每一環(huán)節(jié)均具自主權(quán),整體流程公開透明,數(shù)據(jù)記錄可追溯,不可篡改。
3.3模式特點分析
相比傳統(tǒng)的中心化科學數(shù)據(jù)共享模式,本研究構(gòu)建的基于區(qū)塊鏈的個人數(shù)據(jù)共享模式,具有共享參與者自主性,共享科學數(shù)據(jù)的完整性、標準化、可追溯性與安全性更強的特點,具體如下:
3.3.1自主性
本研究構(gòu)建的去中心化的共享模式中,每個用戶均有機會參與記賬,充分保障了每個用戶的權(quán)益,最大限度地避免由中心化體系所帶來的主導(dǎo)權(quán)問題。在多個個體用戶共同搭建的數(shù)據(jù)共享平臺中,共享成功率和用戶數(shù)量大多成反比關(guān)系,該平臺的主導(dǎo)權(quán)往往會隨著個體用戶數(shù)量的增加而越難界定。個體用戶問的關(guān)系大多數(shù)呈對等關(guān)系,任何一方在數(shù)據(jù)共享過程中進行主導(dǎo)都會引起其他參與者的爭議或不滿。而分布式數(shù)據(jù)存儲使原來中心化角色權(quán)力分散化,任何一個用戶個體無法控制整體科學數(shù)據(jù)共享進程走向,權(quán)限變更需要每一個參與者共同表態(tài)來決定最終結(jié)果。通過調(diào)動每個參與者的參與度來提升平臺的可信賴性,實現(xiàn)個體用戶間點對點交互,也有利于提升參與者問數(shù)據(jù)共享成功率。
3.3.2數(shù)據(jù)完整性
傳統(tǒng)科學數(shù)據(jù)共享模式無法保證科學數(shù)據(jù)確權(quán)以及其完整性,導(dǎo)致參與者問不斷出現(xiàn)信任危機,信任成本不斷上升,從而導(dǎo)致科學數(shù)據(jù)的低流通性和低共享性。而區(qū)塊鏈技術(shù)可以給科學數(shù)據(jù)貼上“防偽標識”,強化技術(shù)保護,保證科學數(shù)據(jù)在共享過程中不可篡改,以確定科學數(shù)據(jù)的準確來源和可靠性。參與者雙方或多方需嚴格遵守操作規(guī)程,若在共享過程中途發(fā)生科學數(shù)據(jù)內(nèi)容的增減、修改,經(jīng)過參與者協(xié)商和表決后,獲得大多數(shù)甚至全部參與者的一致認可,即完成“共識過程”,才可執(zhí)行后續(xù)操作。
3.3.3數(shù)據(jù)標準化
該模式采用萬能數(shù)據(jù)結(jié)構(gòu)表存儲數(shù)據(jù),因此所有數(shù)據(jù)結(jié)構(gòu)保證了高度一致性。運用簡單的技術(shù)實現(xiàn)結(jié)構(gòu)化大數(shù)據(jù)的高效處理,從根本上解決了數(shù)據(jù)異構(gòu)問題,通過對數(shù)據(jù)和數(shù)據(jù)結(jié)構(gòu)的優(yōu)化而大幅提高結(jié)構(gòu)化數(shù)據(jù)的處理性能。進一步規(guī)范了科學數(shù)據(jù)共享規(guī)則,有助于實現(xiàn)數(shù)據(jù)的互聯(lián)共通,保證所需數(shù)據(jù)的真實性與可用性,解決個體用戶數(shù)據(jù)挖掘困難的問題,減少或避免了歧義產(chǎn)生。
3.3.4可追溯性
整個共享過程中,參與者的身份信息呈匿名狀態(tài),使用者無法知道是誰共享了科學數(shù)據(jù),共享者也無法知道是誰對這些科學數(shù)據(jù)有哪些特定需求。但共享行為是任何人都可以看到的,且無法修改刪除,每一次共享過程都是可追溯的,科學數(shù)據(jù)發(fā)生多少次交互共享,都應(yīng)具備明確的記錄,以明確數(shù)據(jù)源,即數(shù)據(jù)生產(chǎn)者的身份,保證參與者權(quán)益的同時也減少了科學數(shù)據(jù)的丟失率。參與者間達成共識后,通過特定算法產(chǎn)生的密鑰實現(xiàn)科學數(shù)據(jù)的共享傳遞。
3.3.5安全性
模型綜合使用加密算法、智能合約、點對點傳輸網(wǎng)絡(luò)等以保證安全性。共享科學數(shù)據(jù)經(jīng)加密處理后存儲數(shù)據(jù)密文,在未經(jīng)授權(quán)情況下無法解碼,防止數(shù)據(jù)隱私泄露。參與者使用獨特的身份編碼序列進行匿名廣播,保證個人隱私安全。數(shù)據(jù)使用者在滿足共享條件并驗證身份后,向數(shù)據(jù)共享者申請才可獲授權(quán),獲取處理結(jié)果而不對外公開原始密文,使用戶在共享過程中得到了全方位的保護,數(shù)據(jù)加密篩選、加密計算,以及可用不可見也使得攻擊者無法從共享的過程中獲取任何規(guī)定外的信息。這樣不僅可以保護數(shù)據(jù)貢獻者的知識產(chǎn)權(quán),其他參與者的數(shù)據(jù)安全性和隱私問題也能夠得到解決。
4基于區(qū)塊鏈的個人科學數(shù)據(jù)共享模式實現(xiàn)
根據(jù)上述模型,將針對數(shù)據(jù)存儲、智能合約、數(shù)據(jù)標準化、共識機制以及數(shù)據(jù)加密5個技術(shù)進行逐一介紹。
4.1區(qū)塊鏈與SQL數(shù)據(jù)庫結(jié)合實現(xiàn)分布式數(shù)據(jù)存儲
將區(qū)塊鏈當成數(shù)據(jù)庫使用,就會發(fā)現(xiàn)區(qū)塊鏈只有創(chuàng)建和讀取功能,沒有修改和刪除功能,所要求的日志完整化、不可篡改性以提供信任、安全的前提,并不是說其數(shù)據(jù)不可改動。隨著區(qū)塊鏈中數(shù)據(jù)存儲容量的遞增,區(qū)塊中交易處理速度變慢、網(wǎng)絡(luò)阻塞、共識效率低、匹配遲緩等問題涌現(xiàn),雖然可以采取輕節(jié)點方案、異同步技術(shù)等措施解決上述問題,但忽視了區(qū)塊鏈的可運維性和實用性。按照既定規(guī)則執(zhí)行的那些可留痕、可追溯、可復(fù)核等正?;驊?yīng)急操作,其最終操作結(jié)果應(yīng)寫在真正的數(shù)據(jù)庫中,并非區(qū)塊鏈。區(qū)塊鏈應(yīng)作為數(shù)據(jù)庫的高可靠性的前置。區(qū)塊鏈的設(shè)計首要目的是安全,數(shù)據(jù)庫的首要目的是效率,區(qū)塊鏈技術(shù)與數(shù)據(jù)庫相結(jié)合即可形成優(yōu)勢互補。區(qū)塊鏈和數(shù)據(jù)庫有兩種契合方式,其一是把區(qū)塊鏈作為引擎接人到數(shù)據(jù)庫中,相當于從底層改造存儲引擎實現(xiàn)去中心化的數(shù)據(jù)庫:其二是以區(qū)塊鏈為主體,借鑒數(shù)據(jù)庫算法,將其翻譯為智能合約代碼,以提升易用性。就目前已有研究分析,除去如用戶資產(chǎn)概況、智能合約等較為重要的信息,其余數(shù)據(jù)均采取分布式存儲的措施,不做上鏈處理。
此外,區(qū)塊鏈作為鏈式結(jié)構(gòu),每個節(jié)點獨立存在且高度自治,但節(jié)點問仍存在直接或間接影響,通過網(wǎng)絡(luò)呈非線性因果關(guān)系。在遇到問題需要對數(shù)據(jù)進行溯源或沖正時,利用改進Chain SQL技術(shù),將SQL數(shù)據(jù)庫的操作記錄各個節(jié)點共識之后,記錄到區(qū)塊鏈上,如果共識執(zhí)行失敗或不通過,SQL數(shù)據(jù)庫執(zhí)行回滾操作,定位該問題在區(qū)塊鏈上的特定位置,在此進行重演;若需對數(shù)據(jù)進行沖正,在區(qū)塊鏈上增加一條或若干條指令即可處理問題,這樣不僅使數(shù)據(jù)庫的高可用架構(gòu)大大簡化,還可將此數(shù)據(jù)修正處理進行留痕記錄。區(qū)塊鏈與SQL數(shù)據(jù)庫的結(jié)合,通過多點架設(shè)、提供冗余等,提供高效的調(diào)取架構(gòu)設(shè)置,以提高業(yè)務(wù)吞吐量以及數(shù)據(jù)存儲量,實現(xiàn)分布式存儲?;诖?,解決了由于區(qū)塊鏈的冗余特性限制了數(shù)據(jù)儲存的問題,以及傳統(tǒng)數(shù)據(jù)共享模式無法建立信任體系、去中心化的難題。
4.2基于SQL的智能合約激勵共享參與主體
區(qū)塊鏈技術(shù)可有效解決主體間互信問題,并通過智能合約自動執(zhí)行激勵過程,保證數(shù)據(jù)共享過程的有效性和安全性。在個人科學數(shù)據(jù)共享過程中,不同科學領(lǐng)域下的科研人員對共享科學數(shù)據(jù)處理的邏輯不同,可通過算法編輯不同的智能合約以實現(xiàn)不同的需求。智能合約可以完成共享參與用戶個人身份加密、發(fā)布需求信息、交易流轉(zhuǎn)等所有關(guān)鍵節(jié)點需求,其優(yōu)勢如下:第一,高透明性,智能合約允許合約中相關(guān)條款與要求對所有關(guān)聯(lián)方具有完全可見性與可訪問性,且條款內(nèi)容無法更改。第二,高安全性,智能合約采用高級別的數(shù)據(jù)加密算法,節(jié)點在建立連接過程中生成臨時會話密鑰,保證數(shù)據(jù)傳輸安全性的同時也防止了數(shù)據(jù)源泄漏。第三,存儲備份,區(qū)塊鏈環(huán)境的不可改變性,保證了任何用戶都無法修改已批準的溯源記錄,共享過程中的所有重要細節(jié)都會被智能合約以日志的形式記錄下來,具有可溯源性。第四,永久性,智能合約一旦運行,鏈上的所有節(jié)點須共同維護,保證鏈在合約在,具有相對永久運行性。
同時,智能合約支持SQL,利用SQL語句實現(xiàn)信息匹配與數(shù)據(jù)索引功能,當數(shù)據(jù)使用者在特定情況下需要某些特定的科學數(shù)據(jù)以滿足需求時,使用邏輯表達式或函數(shù)將需求表達出來,并提醒智能合約發(fā)布需求信息,根據(jù)SQL數(shù)據(jù)庫中已登記存儲的數(shù)據(jù)信息進行數(shù)據(jù)篩選,逐一匹配:若數(shù)據(jù)庫中未存在所需數(shù)據(jù)時,則對外公布需求信息,同時反饋至數(shù)據(jù)使用者進行需求信息完善。實現(xiàn)數(shù)據(jù)使用者對需求科學數(shù)據(jù)概要的在線查詢,幫助鏈上對數(shù)據(jù)庫中存儲信息的索引調(diào)用,加速與目標科學數(shù)據(jù)貢獻者的匹配進度,使得共享過程更具效率。
4.3萬能數(shù)據(jù)結(jié)構(gòu)表實現(xiàn)數(shù)據(jù)標準化
萬能數(shù)據(jù)結(jié)構(gòu)表不僅作為一種表,同時也作為一門新興理論——獨立數(shù)據(jù)庫理論,在關(guān)系數(shù)據(jù)庫理論基礎(chǔ)上進行革新,使存儲數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)完全相同,且保證了數(shù)據(jù)完整性。目前可采用關(guān)系數(shù)據(jù)庫系統(tǒng)ORACAL、DB2、SQL Server、Access等來實現(xiàn)“萬能數(shù)據(jù)結(jié)構(gòu)表”。區(qū)別于關(guān)系數(shù)據(jù)庫,獨立數(shù)據(jù)庫中的數(shù)據(jù)要求可以獨立地、完整地表達其含義。下面以征信、醫(yī)療領(lǐng)域產(chǎn)生并用于科學研究活動的個人身份數(shù)據(jù)為例來說明,如表1所示,以縱向表N(或N+M)項記錄存儲一個事件的數(shù)據(jù)信息,無須借助數(shù)據(jù)庫、App或其他任何事物,保證數(shù)據(jù)特征屬性一致。其中各字段代表含義,ID為各項記錄獨有編號:事物代號為一個獨立事件獨有編碼,數(shù)據(jù)庫中完整數(shù)據(jù)為記錄,性質(zhì)名稱表述完整數(shù)據(jù)為事件,一個事件的信息由若干條擁有相同事物代號的記錄組成:事物屬性即事物的特征:事物屬性值、超長屬性值為事物的特征值:單位代表事物屬性值的單位:附件用來存放圖象、附件等不適合轉(zhuǎn)換為字符型數(shù)據(jù)的數(shù)據(jù):時間為每一個事物的特征寫入數(shù)據(jù)庫時的時間,由系統(tǒng)自動生成。
獨立數(shù)據(jù)庫相當于一種數(shù)據(jù)優(yōu)化技術(shù),以關(guān)系數(shù)據(jù)庫理論為基礎(chǔ),在關(guān)系數(shù)據(jù)庫中亦可實現(xiàn),只需在關(guān)系數(shù)據(jù)庫中建立一張或多張結(jié)構(gòu)相同的萬能數(shù)據(jù)結(jié)構(gòu)表即可。不可避免地,為保證數(shù)據(jù)的完整性與標準化,其占用空間內(nèi)存相對較大,僅僅運用區(qū)塊鏈技術(shù)無法實現(xiàn),因此將區(qū)塊鏈技術(shù)與SQL數(shù)據(jù)庫相結(jié)合也是對此的絕佳選擇。
4.4加密算法實現(xiàn)數(shù)據(jù)“可用不可見”
區(qū)塊鏈技術(shù)可實現(xiàn)數(shù)據(jù)安全共享流通,做到數(shù)據(jù)的“可用不可見”。數(shù)據(jù)使用者上傳至區(qū)塊鏈中的數(shù)據(jù)篩選條件一般較為簡單,直接上傳該條件很容易造成數(shù)據(jù)參與者雙方的隱私泄露。如攻擊者獲取了這些條件的內(nèi)容,很容易就可以推斷出使用者的數(shù)據(jù)需求,從而可能推斷出使用者經(jīng)常出沒的領(lǐng)域范圍,一旦發(fā)生數(shù)據(jù)共享,那么雙方的數(shù)據(jù)很可能會遭受劫持。因此,為了保證共享參與者的隱私和利益,還應(yīng)在模型中對篩選條件進行函數(shù)加密,且同時進行需求匹配?;诠_\算與非對稱性同態(tài)加密算法,上傳數(shù)據(jù)以密文發(fā)送至SQL數(shù)據(jù)庫存儲日志記錄添加到智能合約中,同步記錄源至區(qū)塊鏈,智能合約將數(shù)據(jù)密文自動上傳至SQL數(shù)據(jù)庫并反饋對應(yīng)數(shù)據(jù)密文檔案哈希值生成Token,在區(qū)塊鏈進行留痕記錄。隨后,數(shù)據(jù)使用者需使用數(shù)據(jù)貢獻者頒發(fā)的Token,用其作為授權(quán)令牌在SQL數(shù)據(jù)庫中獲取對應(yīng)科學數(shù)據(jù)密文,對該部分數(shù)據(jù)進行解碼,獲取所需科學數(shù)據(jù)信息處理結(jié)果,實現(xiàn)點對點傳輸。
上述情境在傳統(tǒng)共享模式中很難實現(xiàn),其自身機制導(dǎo)致數(shù)據(jù)“可用必可見”。通過區(qū)塊鏈技術(shù)中的隱私算法,分布式執(zhí)行既定邏輯運算,使數(shù)據(jù)可在“密室”中進行共享,但也存在存量數(shù)據(jù)利用率低、更加偏于云計算、很難支持系統(tǒng)數(shù)據(jù)訓(xùn)練學習等問題。個體用戶問數(shù)據(jù)共享時,更多使用的是個人終端,增強了個人終端安全性,以避免數(shù)據(jù)泄露,進一步實現(xiàn)數(shù)據(jù)的不可見性。科學數(shù)據(jù)經(jīng)過加密算法和數(shù)據(jù)變形在一定程度上完成了脫敏,最大限度保證個人數(shù)據(jù)隱私安全,實現(xiàn)數(shù)據(jù)“可用不可見”。
4.5共識機制控制數(shù)據(jù)調(diào)用規(guī)模
共識機制作為區(qū)塊鏈去中心化的關(guān)鍵,無論是在公有鏈、聯(lián)盟鏈還是私有鏈中,都承擔著重要角色。當前,數(shù)據(jù)共享環(huán)境需要具有更高數(shù)據(jù)吞吐量的可伸縮框架,以滿足對用戶應(yīng)用系統(tǒng)和流數(shù)據(jù)的處理?;趨^(qū)塊鏈的共享模式利用智能合約協(xié)定可執(zhí)行程序后,按照參與者協(xié)議中制定的條件進行狀態(tài)轉(zhuǎn)換,在一定時間內(nèi)每個參與者按照協(xié)議狀態(tài)達成一致性。當協(xié)議中條件發(fā)生變化時,通過共識算法在全體參與者問進行共識過程,記錄結(jié)果并重新擬定協(xié)議狀態(tài),如共享過程中僅存在兩位參與者時,數(shù)據(jù)貢獻者具有最高話語權(quán)。數(shù)據(jù)貢獻者可通過智能合約擁有數(shù)據(jù)共享程度選擇權(quán),設(shè)置共享科學數(shù)據(jù)使用授權(quán),因此,在特定時間段內(nèi)進行核心數(shù)據(jù)共享時,數(shù)據(jù)貢獻者不需全盤托出,待數(shù)據(jù)使用者滿足合約中約定的使用要求后,將數(shù)據(jù)使用者所需要的部分數(shù)據(jù)處理結(jié)果共享即可。該過程亦被稱為數(shù)據(jù)篩選,數(shù)據(jù)使用者可以將自己的科學數(shù)據(jù)需求整理成一個邏輯表達或是函數(shù)存放到區(qū)塊鏈中,以供數(shù)據(jù)參與者對號完成交互過程。因科學數(shù)據(jù)在未成規(guī)模時不具有價值性,而在有協(xié)作需要時,經(jīng)過雙方或多方協(xié)商調(diào)取所需數(shù)據(jù)進行共享,既能滿足數(shù)據(jù)使用者需求,又保證了數(shù)據(jù)貢獻者的數(shù)據(jù)隱私安全與個人權(quán)益,從而提高協(xié)同效率。
5總結(jié)和展望
大數(shù)據(jù)時代,快捷有效的大數(shù)據(jù)挖掘與交叉識別技術(shù)可以在個人科學數(shù)據(jù)共享過程中抓取大量的個人隱私數(shù)據(jù)。然而,大多共享參與主體缺乏隱私保護自覺,對共享平臺的傳播性質(zhì)缺乏正確的認知,如何在保證個人隱私與數(shù)據(jù)安全的同時,有效促進科學數(shù)據(jù)共享是一個值得研究但頗具挑戰(zhàn)性的問題。針對傳統(tǒng)中心化科學數(shù)據(jù)共享模式存在的問題,本研究借助區(qū)塊鏈技術(shù)、sQL數(shù)據(jù)庫和萬能數(shù)據(jù)結(jié)構(gòu)表,構(gòu)建基于區(qū)塊鏈的個人科學數(shù)據(jù)共享模式架構(gòu)模型,介紹該模式的流程與特點,并對其實現(xiàn)的關(guān)鍵技術(shù)與機制進行了具體深入的論述,對于促進個人科學數(shù)據(jù)共享實踐與后續(xù)深入研究具有一定的參考意義。
當前,個人科學數(shù)據(jù)共享備受推崇,也飽受爭議。盡管鼓勵性或強制性數(shù)據(jù)共享政策相繼出臺,但生產(chǎn)或擁有數(shù)據(jù)的個體科研人員(團隊)的認知、意愿和行為依然是共享科學數(shù)據(jù)的關(guān)鍵所在??蒲腥藛T需要認識到科學數(shù)據(jù)共享的重要價值,在高自由性數(shù)據(jù)生態(tài)鏈下,明確界定自身需求,盡量降低共享成本,提高共享效率,從而更好地享受數(shù)據(jù)共享帶來的“紅利”。同時,區(qū)塊鏈一旦交易,其記錄不可撤銷,訪問控制權(quán)限更新延遲,還應(yīng)熟知模式平臺下操縱實現(xiàn)功能,界定自身持有的敏感數(shù)據(jù),簽訂權(quán)責明晰的合同,以保護數(shù)據(jù)安全和主體權(quán)益。最后,日志公開性易產(chǎn)生安全風險,應(yīng)加強防范意識,保持良好的自我感知,維護本地數(shù)據(jù)終端,警惕網(wǎng)絡(luò)挾持與駭客攻擊。
相比中心化科學數(shù)據(jù)共享模式,本研究提出的分布式科學數(shù)據(jù)共享模式具備更強的隱私保護能力和數(shù)據(jù)流通能力,具有巨大的研究前景和發(fā)展前景。但本研究模型僅利用區(qū)塊鏈技術(shù)進行初步搭建架構(gòu),具體技術(shù)實現(xiàn)及共享科學數(shù)據(jù)的隱私分級、總體與個人數(shù)據(jù)的結(jié)合、潛在關(guān)聯(lián)數(shù)據(jù)的發(fā)現(xiàn),需要未來研究攻關(guān)突破。本研究仍處于理論探索階段,個人科學數(shù)據(jù)共享還需要結(jié)合具體學科領(lǐng)域、數(shù)據(jù)內(nèi)容與類型、元數(shù)據(jù)標準、個人共享意愿等,模式是否真正適合,有待于后續(xù)研究進行仿真或未來實踐檢驗。此外,未來研究可積極深入探索區(qū)塊鏈技術(shù)在個人科學數(shù)據(jù)共享中的可應(yīng)用場景,精確把握用戶數(shù)據(jù)需求,以實現(xiàn)區(qū)塊鏈技術(shù)與實踐的最佳結(jié)合。
(責任編輯:孫國雷)