郭曉峰 喬曉東
北京萬方數(shù)據(jù)股份有限公司 北京 100038
當(dāng)前大數(shù)據(jù)時(shí)代,數(shù)據(jù)資源極大豐富,成為人人趨之若鶩的“金礦”。但由于數(shù)據(jù)資源的管理缺乏有效的技術(shù)手段,在數(shù)據(jù)資源的交易、利用等方面也出現(xiàn)了大量混亂現(xiàn)象,如數(shù)據(jù)資產(chǎn)交易領(lǐng)域非法交易猖獗,數(shù)據(jù)利用領(lǐng)域無視數(shù)據(jù)的權(quán)利而隨意復(fù)制傳播、非法使用等現(xiàn)象司空見慣。探究這些亂象的根本原因,是數(shù)據(jù)的知識(shí)產(chǎn)權(quán)界定以及數(shù)據(jù)的安全隱私保護(hù)等缺乏有效的法律依據(jù),同時(shí)技術(shù)上也缺乏有效的手段對(duì)于數(shù)據(jù)的合法交易、利用提供便利的基礎(chǔ)設(shè)施,促進(jìn)合法的數(shù)據(jù)交易,并保護(hù)正當(dāng)?shù)臄?shù)據(jù)利用。如能夠?qū)?shù)據(jù)資源進(jìn)行清晰的確權(quán),對(duì)數(shù)據(jù)交易及數(shù)據(jù)利用進(jìn)行管理及追溯,為數(shù)據(jù)的合法來源提供證據(jù)等。
回顧20世紀(jì)90年代互聯(lián)網(wǎng)發(fā)展之初,網(wǎng)絡(luò)中的數(shù)字資源呈現(xiàn)爆發(fā)式增長(zhǎng),但由于在網(wǎng)絡(luò)環(huán)境下缺乏有效的數(shù)字資源管理機(jī)制,同樣產(chǎn)生了大量混亂現(xiàn)象,死鏈頻發(fā)、盜版猖獗。在互聯(lián)網(wǎng)環(huán)境下,如何才能對(duì)數(shù)字資源進(jìn)行有效的管理,并對(duì)數(shù)字資源的版權(quán)提供保護(hù)手段?這些問題催生了數(shù)字對(duì)象管理理論及相關(guān)技術(shù)系統(tǒng),自此,基于數(shù)字對(duì)象標(biāo)識(shí)符和元數(shù)據(jù)的數(shù)字資源注冊(cè)與管理作為一種有效的技術(shù)手段被普遍采用,并成為數(shù)字圖書館、數(shù)字出版、科學(xué)數(shù)據(jù)管理、版權(quán)管理等領(lǐng)域成熟的內(nèi)容管理方案,Handle/DOI系統(tǒng)就是成功的范例。
參考上述領(lǐng)域的成功案例,對(duì)于數(shù)據(jù)資源的管理與交易同樣可以基于數(shù)字對(duì)象管理理論及相關(guān)技術(shù)系統(tǒng),建立有效的數(shù)據(jù)資源注冊(cè)機(jī)制,對(duì)于數(shù)據(jù)資源的基本情況及其權(quán)利歸屬等重要屬性進(jìn)行清晰的登記,并對(duì)其屬性的變更情況進(jìn)行及時(shí)的記錄與追蹤,同時(shí)提供便利的方式使大眾能隨時(shí)獲得數(shù)據(jù)資源的登記信息,便于數(shù)據(jù)資源的需求方發(fā)現(xiàn)數(shù)據(jù)資源并對(duì)其進(jìn)行合法的獲取與利用。
本文將按照上述研究思路,在介紹數(shù)字對(duì)象標(biāo)識(shí)技術(shù)及其應(yīng)用的基礎(chǔ)上,結(jié)合國家重點(diǎn)研發(fā)計(jì)劃“科技成果與數(shù)據(jù)資源產(chǎn)權(quán)交易技術(shù)”的具體研究案例,提出基于數(shù)字對(duì)象標(biāo)識(shí)技術(shù)促進(jìn)數(shù)據(jù)資源交易的應(yīng)用解決方案,并對(duì)本方案的優(yōu)勢(shì)進(jìn)行比較和分析,形成研究結(jié)論。
數(shù)字對(duì)象標(biāo)識(shí)理論與技術(shù)誕生于1990年的第一代數(shù)字圖書館發(fā)展浪潮之中,是數(shù)字對(duì)象架構(gòu)(DOA,Digital Object Architecture)的關(guān)鍵組成部分,而DOA理論為第一代數(shù)字圖書館提供了體系結(jié)構(gòu),其中數(shù)字對(duì)象標(biāo)識(shí)能夠?yàn)閿?shù)字對(duì)象(DO)提供命名與安全訪問機(jī)制。DOA由TCP/IP的聯(lián)合發(fā)明人、互聯(lián)網(wǎng)之父Robert Kahn博士提出,同時(shí)他帶領(lǐng)國家創(chuàng)新研究所(CNRI, Corporation for National Research Initiatives)研發(fā)了數(shù)字對(duì)象標(biāo)識(shí)技術(shù)系統(tǒng)——Handle系統(tǒng)[1],于1995年正式運(yùn)行,以全球分布式系統(tǒng)架構(gòu)支撐數(shù)字對(duì)象標(biāo)識(shí)的分配、 安全管理及廣泛利用。在Handle系統(tǒng)由CNRI運(yùn)行近20年、為全球提供了10億規(guī)模的Handle標(biāo)識(shí)注冊(cè)及管理服務(wù)之后,2014年,在聯(lián)合國國際電信聯(lián)盟(ITU)的監(jiān)管下,CNRI聯(lián)合多個(gè)國家相關(guān)機(jī)構(gòu)于瑞士日內(nèi)瓦正式成立非營(yíng)利性國際組織DONA(Digital Object Numbering Authority Foundation),負(fù)責(zé)Handle系統(tǒng)的全球化運(yùn)營(yíng)與發(fā)展,在治理結(jié)構(gòu)和技術(shù)設(shè)施兩個(gè)層面上創(chuàng)造性地實(shí)現(xiàn)了全世界各國聯(lián)合自治的模式,為下一代網(wǎng)絡(luò)信息管理提供基礎(chǔ)設(shè)施。我國也是DONA最早的發(fā)起成員及理事會(huì)成員之一。
在數(shù)字內(nèi)容管理及版權(quán)保護(hù)等應(yīng)用領(lǐng)域,數(shù)字對(duì)象標(biāo)識(shí)技術(shù)得到了廣泛應(yīng)用。DOI系統(tǒng)[2]基于Handle系統(tǒng)提供的唯一標(biāo)識(shí)注冊(cè)、解析和管理能力,利用數(shù)字對(duì)象唯一標(biāo)識(shí)和標(biāo)準(zhǔn)化的元數(shù)據(jù)對(duì)各類數(shù)字資源進(jìn)行注冊(cè)、管理,利用標(biāo)識(shí)符解析到數(shù)字資源的網(wǎng)絡(luò)訪問地址及其他相關(guān)信息,實(shí)現(xiàn)數(shù)字資源的唯一識(shí)別、永久鏈接,并促進(jìn)數(shù)字資源在互聯(lián)網(wǎng)環(huán)境下的版權(quán)保護(hù)、發(fā)現(xiàn)和利用,以及系統(tǒng)間的信息交換和互操作。1998年DOI系統(tǒng)首先在數(shù)字出版行業(yè)開始應(yīng)用,隨后歐洲也從2003年開始實(shí)施科研數(shù)據(jù)的DOI注冊(cè)、解析并基于DOI提供數(shù)據(jù)集的引用、復(fù)用等服務(wù),至今全世界范圍內(nèi)已有1億多篇文獻(xiàn)及2000余萬個(gè)科學(xué)數(shù)據(jù)集注冊(cè)了DOI。2012年DOI系統(tǒng)發(fā)布為ISO標(biāo)準(zhǔn)[3],成為通用性的數(shù)字資源標(biāo)識(shí)國際標(biāo)準(zhǔn),并于2018年發(fā)布為中國國家標(biāo)準(zhǔn)[4]。在我國,中國科學(xué)技術(shù)信息研究所和萬方數(shù)據(jù)公司于2007年開始運(yùn)行中文DOI服務(wù)[5],為期刊論文、科學(xué)數(shù)據(jù)等學(xué)術(shù)研究資源提供DOI注冊(cè)、解析及其他增值服務(wù)。中文DOI服務(wù)是亞洲第一個(gè)DOI服務(wù),目前服務(wù)規(guī)模在全球居第二位,共注冊(cè)DOI 3293萬余個(gè),涵蓋期刊論文、學(xué)位論文、科學(xué)數(shù)據(jù)、圖書、會(huì)議論文、預(yù)印本等資源類別。
2009年由EU DAT(歐洲數(shù)據(jù)基礎(chǔ)設(shè)施) 項(xiàng)目成立的EPIC(歐洲永久標(biāo)識(shí)聯(lián)盟)基于Handle系統(tǒng)為歐洲科學(xué)研究社區(qū)提供科學(xué)數(shù)據(jù)的永久標(biāo)識(shí)(PID) 服務(wù)[6]。同時(shí)多個(gè)著名的數(shù)字圖書館、數(shù)字內(nèi)容管理系統(tǒng),如DSpace、Fedora等都內(nèi)置了Handle系統(tǒng),為數(shù)字內(nèi)容提供唯一標(biāo)識(shí)注冊(cè)、解析功能。在數(shù)字資源的版權(quán)保護(hù)及更廣義的數(shù)字權(quán)益管理領(lǐng)域,需要在數(shù)字資源的全生命周期中對(duì)其進(jìn)行有效(持久、一致)的識(shí)別和確認(rèn),2012年由歐盟出版商協(xié)會(huì)組建的Linked Content Coalition(LCC)開發(fā)了唯一標(biāo)識(shí)規(guī)范,指出可解析的唯一標(biāo)識(shí)及持久的數(shù)字內(nèi)容注冊(cè)管理均是必要的基礎(chǔ)設(shè)施,元數(shù)據(jù)必須以標(biāo)準(zhǔn)格式發(fā)布等。
我國相關(guān)領(lǐng)域?qū)?shù)字對(duì)象標(biāo)識(shí)標(biāo)準(zhǔn)體系也予以了高度關(guān)注。2012年新聞出版領(lǐng)域發(fā)布了非等效采用DOI國際標(biāo)準(zhǔn)的新聞出版數(shù)字資源唯一標(biāo)識(shí)行業(yè)標(biāo)準(zhǔn)《CY/T 82-2012 新聞出版數(shù)字資源唯一標(biāo)識(shí)符》(PDRI)[7]??萍假Y源領(lǐng)域,2016年發(fā)布了《GB/T 32843- 2016 科技平臺(tái) 科技資源標(biāo)識(shí)》(STRI)國家標(biāo)準(zhǔn)[8],指導(dǎo)各類科技資源的統(tǒng)一標(biāo)識(shí)以及科技資源的編目、注冊(cè)、發(fā)布、查詢、維護(hù)和管理。
2017年底,科技部下達(dá)了“科技成果與數(shù)據(jù)資源產(chǎn)權(quán)交易技術(shù)”重點(diǎn)研發(fā)計(jì)劃的研發(fā)任務(wù),萬方數(shù)據(jù)公司承擔(dān)了該計(jì)劃中“基于標(biāo)識(shí)的服務(wù)數(shù)據(jù)資源管理技術(shù)體系研究”工作,主要基于Handle標(biāo)識(shí),并結(jié)合重點(diǎn)研發(fā)計(jì)劃的研究成果《服務(wù)數(shù)據(jù)資源確權(quán)標(biāo)識(shí)標(biāo)準(zhǔn)》及《服務(wù)數(shù)據(jù)資源權(quán)利描述標(biāo)準(zhǔn)》,研究形成“服務(wù)數(shù)據(jù)標(biāo)識(shí)注冊(cè)、解析與追蹤解決方案”,并開發(fā)實(shí)現(xiàn)“服務(wù)數(shù)據(jù)標(biāo)識(shí)注冊(cè)、解析與追蹤系統(tǒng)”,實(shí)驗(yàn)、驗(yàn)證服務(wù)數(shù)據(jù)資源管理的輕型技術(shù)體系,在提供促進(jìn)服務(wù)數(shù)據(jù)資源交易的基礎(chǔ)設(shè)施方面開展了創(chuàng)新性研究。
服務(wù)數(shù)據(jù)標(biāo)識(shí)注冊(cè)、解析與交易追蹤解決方案的整體流程如圖1所示。在技術(shù)路線方面主要采用標(biāo)識(shí)+元數(shù)據(jù)的基本技術(shù)方法,在第一次登記時(shí)利用基本元數(shù)據(jù)及權(quán)利描述元數(shù)據(jù)記錄數(shù)據(jù)資源基本屬性、權(quán)利狀態(tài)的同時(shí)賦予其確權(quán)標(biāo)識(shí),實(shí)現(xiàn)數(shù)據(jù)資源的登記、認(rèn)證。每次交易,實(shí)質(zhì)上是數(shù)據(jù)資源的權(quán)利轉(zhuǎn)移過程,仍然需要利用權(quán)利描述元數(shù)據(jù)記錄權(quán)利所屬狀態(tài)的變更情況。在標(biāo)識(shí)體系方面,經(jīng)過充分調(diào)研采用具有互操作性的全局性唯一標(biāo)識(shí)體系——Handle標(biāo)識(shí)體系,在標(biāo)識(shí)注冊(cè)的同時(shí),實(shí)現(xiàn)確權(quán)標(biāo)識(shí)與數(shù)據(jù)資源屬性信息的綁定;利用唯一標(biāo)識(shí)系統(tǒng)的解析功能及標(biāo)識(shí)與屬性的綁定關(guān)系,實(shí)現(xiàn)通過標(biāo)識(shí)動(dòng)態(tài)獲取資源多維度屬性信息,并可以持久鏈接到數(shù)據(jù)資源本身。同樣利用解析功能和每次交易的登記信息,實(shí)現(xiàn)基于標(biāo)識(shí)對(duì)數(shù)據(jù)資源的交易和權(quán)利變更過程的永久追溯。在元數(shù)據(jù)方面,主要包括服務(wù)數(shù)據(jù)資源基本屬性、權(quán)利狀態(tài)、交易信息等內(nèi)容的描述,并采用XML等標(biāo)準(zhǔn)化語言進(jìn)行描述。
圖1 解決方案整體流程
方案通過服務(wù)數(shù)據(jù)的首次登記、交易登記、交易追蹤等業(yè)務(wù)流程,實(shí)現(xiàn)服務(wù)數(shù)據(jù)交易的規(guī)范化管理,促進(jìn)服務(wù)數(shù)據(jù)的發(fā)現(xiàn)、交易與利用。具體描述如下:
(1)服務(wù)數(shù)據(jù)首次登記
服務(wù)數(shù)據(jù)的原始擁有方上傳服務(wù)數(shù)據(jù)的基本元數(shù)據(jù)及權(quán)利描述元數(shù)據(jù),系統(tǒng)基于Handle系統(tǒng)為該項(xiàng)服務(wù)數(shù)據(jù)分配確權(quán)標(biāo)識(shí),并將數(shù)據(jù)資源的基本屬性、權(quán)利狀態(tài)存儲(chǔ)在系統(tǒng)中,實(shí)現(xiàn)確權(quán)標(biāo)識(shí)與數(shù)據(jù)資源屬性信息的綁定,完成數(shù)據(jù)資源的首次登記與權(quán)利確認(rèn)。
(2)服務(wù)數(shù)據(jù)交易登記
每次交易實(shí)質(zhì)上都是服務(wù)數(shù)據(jù)的權(quán)利轉(zhuǎn)移過程,因此需要利用權(quán)利描述元數(shù)據(jù)記錄權(quán)利所屬狀態(tài)的變更情況。由數(shù)據(jù)交易方提交服務(wù)數(shù)據(jù)交易后的權(quán)利狀態(tài),由系統(tǒng)在該確權(quán)標(biāo)識(shí)對(duì)應(yīng)的數(shù)據(jù)記錄中增加此次交易后的權(quán)利狀態(tài)信息,實(shí)現(xiàn)數(shù)據(jù)資源權(quán)利變化更新登記與權(quán)利確認(rèn)。
(3)服務(wù)數(shù)據(jù)交易追蹤
利用Handle系統(tǒng)的解析功能,使用全網(wǎng)統(tǒng)一的解析格式,實(shí)現(xiàn)通過確權(quán)標(biāo)識(shí)(Handle)動(dòng)態(tài)獲取數(shù)據(jù)資源最新的基本屬性、權(quán)利狀態(tài)變更全流程信息,從而實(shí)現(xiàn)對(duì)服務(wù)數(shù)據(jù)交易的追蹤。
(4)服務(wù)數(shù)據(jù)的發(fā)現(xiàn)及交易促進(jìn)
利用系統(tǒng)登記的服務(wù)數(shù)據(jù)基本屬性、權(quán)利狀態(tài)等信息,可以通過這些信息的集中發(fā)布、檢索、推送等促進(jìn)服務(wù)數(shù)據(jù)的發(fā)現(xiàn)、交易;另外,通過確權(quán)標(biāo)識(shí)的解析,也可以實(shí)現(xiàn)服務(wù)數(shù)據(jù)本身或其相關(guān)信息的持久鏈接,并可動(dòng)態(tài)獲取服務(wù)數(shù)據(jù)相關(guān)信息,促進(jìn)服務(wù)數(shù)據(jù)基本屬性、權(quán)利狀態(tài)的發(fā)現(xiàn)、獲取及系統(tǒng)間的互操作。
本項(xiàng)目研究成果形成的方案具有創(chuàng)新性,在資源管理方面,首次研究形成基于標(biāo)識(shí)的服務(wù)數(shù)據(jù)資源注冊(cè)登記、解析及交易追蹤全流程管理方法及技術(shù)解決方案,實(shí)現(xiàn)利用標(biāo)識(shí)動(dòng)態(tài)獲取數(shù)據(jù)資源的最新登記狀態(tài)、權(quán)利狀態(tài)及交易信息等,并可直接從標(biāo)識(shí)永久鏈接到資源本身,起到在網(wǎng)絡(luò)環(huán)境下對(duì)資源進(jìn)行確認(rèn)的作用,同時(shí)促進(jìn)資源本身的訪問與利用。
本方案形成了一種輕型解決方案,基于成熟的、全球通用的數(shù)字對(duì)象標(biāo)識(shí)基礎(chǔ)設(shè)施進(jìn)行二次開發(fā),在減小開發(fā)工作量的同時(shí),保證了服務(wù)數(shù)據(jù)標(biāo)識(shí)注冊(cè)、解析與交易追蹤系統(tǒng)在互操作性、擴(kuò)展性、分布式部署等方面滿足性能要求;并且具備安全認(rèn)證、防截取、防假冒,保證滿足安全要求。