葉雅珍,朱揚(yáng)勇
1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200438;
2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 200438
數(shù)據(jù)是數(shù)字經(jīng)濟(jì)的關(guān)鍵要素,數(shù)據(jù)要素市場(chǎng)建設(shè)是發(fā)展數(shù)字經(jīng)濟(jì)的基礎(chǔ)性工作,數(shù)據(jù)產(chǎn)品在數(shù)據(jù)市場(chǎng)上的有效流通是數(shù)字經(jīng)濟(jì)持續(xù)健康發(fā)展的重要標(biāo)志。當(dāng)前,音樂(lè)、圖片、電影等標(biāo)準(zhǔn)化的數(shù)據(jù)產(chǎn)品已在數(shù)據(jù)市場(chǎng)上有效流通[1-2],但一般意義上的、更大規(guī)模的大數(shù)據(jù)流通卻面臨困境[3]。造成這個(gè)局面的主要原因是這類(lèi)產(chǎn)品主要是非標(biāo)準(zhǔn)化的、產(chǎn)品形態(tài)難以界定,不能準(zhǔn)確地計(jì)量,因而也難以計(jì)價(jià)。近年來(lái),國(guó)內(nèi)數(shù)據(jù)交易機(jī)構(gòu)探索通過(guò)數(shù)據(jù)交易方式實(shí)現(xiàn)大數(shù)據(jù)流通的機(jī)制和可行路徑,但在未能明確數(shù)據(jù)產(chǎn)品形態(tài)的情況下,數(shù)據(jù)的計(jì)量計(jì)價(jià)機(jī)制難以形成,數(shù)據(jù)交易面臨難以開(kāi)展數(shù)據(jù)交易業(yè)務(wù)的困境,這也是數(shù)據(jù)交易機(jī)構(gòu)面臨的困境之一。
數(shù)據(jù)產(chǎn)品的界定尚在研究階段,還未形成統(tǒng)一的標(biāo)準(zhǔn)定義。Loukides M[4]將運(yùn)用數(shù)據(jù)生產(chǎn)更多新數(shù)據(jù)并由此實(shí)現(xiàn)數(shù)據(jù)價(jià)值的應(yīng)用程序視為數(shù)據(jù)產(chǎn)品,他認(rèn)為數(shù)據(jù)科學(xué)的研究為數(shù)據(jù)產(chǎn)品的創(chuàng)建創(chuàng)造了條件。Hazen B T等人[5]認(rèn)為數(shù)據(jù)產(chǎn)品與制造業(yè)生產(chǎn)產(chǎn)品類(lèi)似,是數(shù)據(jù)生產(chǎn)的產(chǎn)出品。Huang G Y等人[6]把從原始數(shù)據(jù)中通過(guò)移除噪聲與無(wú)用信息而獲得的關(guān)鍵信息所形成的一種新的數(shù)據(jù)格式,稱為特定領(lǐng)域的數(shù)據(jù)產(chǎn)品。Bengfort B等人[7]認(rèn)為數(shù)據(jù)產(chǎn)品是數(shù)據(jù)與用于推理或預(yù)測(cè)的統(tǒng)計(jì)算法的組合。Cao L B[8]將數(shù)據(jù)產(chǎn)品定義為來(lái)自數(shù)據(jù)或由數(shù)據(jù)支持、驅(qū)動(dòng)的可交付產(chǎn)品,其可以是某種發(fā)現(xiàn)、預(yù)測(cè)、服務(wù)、決策、模型、范式、系統(tǒng)等形式,數(shù)據(jù)產(chǎn)品的最終價(jià)值將體現(xiàn)在知識(shí)、智能及決策等方面。 Pei J[9]給出的數(shù)據(jù)產(chǎn)品定義是從數(shù)據(jù)集派生出的用于產(chǎn)品和信息服務(wù)的數(shù)據(jù)集。作為一個(gè)需要在市場(chǎng)上流通的產(chǎn)品,數(shù)據(jù)產(chǎn)品應(yīng)該滿足一定的標(biāo)準(zhǔn)規(guī)范要求,是可以獨(dú)立使用、交易流通的數(shù)據(jù)集。
數(shù)據(jù)產(chǎn)品形態(tài)是數(shù)據(jù)產(chǎn)品得以計(jì)量、計(jì)價(jià)的基礎(chǔ),如果能夠設(shè)計(jì)出一個(gè)數(shù)據(jù)產(chǎn)品形態(tài),那么數(shù)據(jù)產(chǎn)品的生產(chǎn)、流通、監(jiān)管都將變得更有效率。數(shù)據(jù)產(chǎn)品到底應(yīng)該具備怎樣的形態(tài)才可以被可靠地計(jì)量、計(jì)價(jià),并得以在數(shù)據(jù)市場(chǎng)上有效流通呢?Storch T等人[10]對(duì)某領(lǐng)域的科學(xué)數(shù)據(jù)產(chǎn)品標(biāo)準(zhǔn)進(jìn)行了研究,Bing C等人[11]對(duì)某應(yīng)用領(lǐng)域的數(shù)據(jù)產(chǎn)品類(lèi)型進(jìn)行了劃分。在數(shù)據(jù)產(chǎn)品相關(guān)實(shí)踐方面,上海數(shù)據(jù)交易所積極探索數(shù)據(jù)產(chǎn)品交易環(huán)節(jié)和步驟,開(kāi)展數(shù)據(jù)產(chǎn)品登記憑證、數(shù)據(jù)產(chǎn)品說(shuō)明書(shū)等實(shí)踐工作;山東數(shù)據(jù)交易有限公司聯(lián)合中國(guó)信息通信研究院制定《數(shù)據(jù)(產(chǎn)品)登記管理辦法》,探索數(shù)據(jù)產(chǎn)品的登記流程。上述工作僅涉及數(shù)據(jù)產(chǎn)品的一些原則性規(guī)范要求,尚未考慮數(shù)據(jù)產(chǎn)品的形態(tài)。朱揚(yáng)勇等人[12-13]設(shè)計(jì)了一個(gè)數(shù)據(jù)盒模型,將結(jié)構(gòu)化和非結(jié)構(gòu)化的電子數(shù)據(jù)匯聚在一起,形成外部可見(jiàn)可用的數(shù)據(jù)容器,該模型具有數(shù)據(jù)產(chǎn)品形態(tài)雛形;葉雅珍等人[2,14]提煉了音樂(lè)、圖片、電影等單一類(lèi)型數(shù)據(jù)產(chǎn)品的形態(tài)。值得注意的是,圖書(shū)將文字、圖片、圖形等非電子數(shù)據(jù)匯聚在一起形成標(biāo)準(zhǔn)化產(chǎn)品,這種做法對(duì)于非標(biāo)準(zhǔn)數(shù)據(jù)產(chǎn)品的標(biāo)準(zhǔn)化有很好的借鑒作用?;趫D書(shū)的基礎(chǔ)頁(yè)碼數(shù)量為49頁(yè),以及外形要求、版權(quán)規(guī)則等標(biāo)準(zhǔn)規(guī)范,將文字、圖片、圖形等非電子數(shù)據(jù)匯聚在一起就形成了一種標(biāo)準(zhǔn)化的非電子數(shù)據(jù)產(chǎn)品——圖書(shū)。本文針對(duì)數(shù)據(jù)產(chǎn)品形態(tài)問(wèn)題,參考圖書(shū)形態(tài)設(shè)計(jì),基于數(shù)據(jù)盒模型設(shè)計(jì)了一種數(shù)據(jù)產(chǎn)品標(biāo)準(zhǔn)形態(tài)——盒裝數(shù)據(jù)。盒裝數(shù)據(jù)主要由“時(shí)間+空間+內(nèi)容”三維度的數(shù)據(jù)立方體組織——盒內(nèi)數(shù)據(jù),以及包括產(chǎn)品登記證書(shū)、產(chǎn)品說(shuō)明書(shū)、質(zhì)量證書(shū)、合規(guī)證書(shū)等內(nèi)容的盒外包裝組成。
作為一類(lèi)新型產(chǎn)品,數(shù)據(jù)產(chǎn)品與其他產(chǎn)品一樣,要想實(shí)現(xiàn)在數(shù)據(jù)市場(chǎng)中有效交易和流通,就需要能對(duì)其開(kāi)展可靠的計(jì)量,而數(shù)據(jù)產(chǎn)品計(jì)量要有可用可見(jiàn)的數(shù)據(jù)產(chǎn)品形態(tài)。
數(shù)據(jù)的多樣性和復(fù)雜性加大了數(shù)據(jù)產(chǎn)品計(jì)量的難度。數(shù)據(jù)產(chǎn)品由數(shù)據(jù)組成,是電子化的非實(shí)物產(chǎn)品。網(wǎng)絡(luò)空間中的數(shù)據(jù)通過(guò)鍵盤(pán)、攝影機(jī)、手機(jī)、對(duì)地觀測(cè)衛(wèi)星、正負(fù)電子對(duì)撞機(jī)、DNA測(cè)序儀等電子儀器設(shè)備不停地產(chǎn)生,隨著時(shí)間的推移,所積累的數(shù)據(jù)類(lèi)別、形式越來(lái)越多樣,復(fù)雜度越來(lái)越高[15]。因而,對(duì)不同行業(yè)、不同格式、不同類(lèi)別、在互聯(lián)網(wǎng)中/不在互聯(lián)網(wǎng)中、公開(kāi)/非公開(kāi)的數(shù)據(jù)進(jìn)行統(tǒng)一計(jì)量存在困難,對(duì)由多種數(shù)據(jù)組成、類(lèi)型多樣、規(guī)模龐大的大數(shù)據(jù)集進(jìn)行可靠計(jì)量也存在巨大挑戰(zhàn)[2]。另外,數(shù)據(jù)的信息屬性[16]使得數(shù)據(jù)產(chǎn)品的價(jià)值因人而異、存在相對(duì)性,這給數(shù)據(jù)產(chǎn)品計(jì)價(jià)帶來(lái)很大的技術(shù)挑戰(zhàn)。
數(shù)據(jù)產(chǎn)品計(jì)量方面已經(jīng)有一些探索和實(shí)踐,有些簡(jiǎn)單的數(shù)據(jù)產(chǎn)品計(jì)量方法是相對(duì)可行的,使得相應(yīng)數(shù)據(jù)產(chǎn)品能在數(shù)據(jù)市場(chǎng)上有效流通。例如,當(dāng)前在市場(chǎng)上流通的音樂(lè)數(shù)據(jù)產(chǎn)品是一首曲子、一首歌等,以一個(gè)完整的音樂(lè)作品為計(jì)量單位進(jìn)行計(jì)量;類(lèi)似地,圖片數(shù)據(jù)產(chǎn)品是以一幅圖為計(jì)量單位,影視數(shù)據(jù)產(chǎn)品是以一部電影、一集電視劇等為計(jì)量單位。這類(lèi)數(shù)據(jù)產(chǎn)品的計(jì)量單位是早期非電子化情況下就已經(jīng)設(shè)計(jì)了標(biāo)準(zhǔn)產(chǎn)品形態(tài)的結(jié)果,是這些數(shù)據(jù)產(chǎn)品能在市場(chǎng)上有效流通的基礎(chǔ)和前提[1]。
數(shù)據(jù)產(chǎn)品具有可用可見(jiàn)的形態(tài)是其能被可靠計(jì)量和計(jì)價(jià)的前提。
數(shù)據(jù)產(chǎn)品的生產(chǎn)方式主要有兩種:一種是通過(guò)數(shù)字化實(shí)物產(chǎn)品形成數(shù)據(jù)產(chǎn)品,另一種是直接加工有關(guān)數(shù)據(jù)形成數(shù)據(jù)產(chǎn)品[2]。組成數(shù)據(jù)產(chǎn)品的數(shù)據(jù)的形式、類(lèi)型是多種多樣的,可以是整數(shù)、小數(shù)等數(shù)值型數(shù)據(jù),可以是符號(hào)、字符、日期等數(shù)據(jù),也可以是文本、音頻、圖像、照片和視頻等類(lèi)別的數(shù)據(jù)[15,17]。這些數(shù)據(jù)難以有統(tǒng)一的標(biāo)準(zhǔn),這對(duì)設(shè)計(jì)統(tǒng)一的數(shù)據(jù)產(chǎn)品形態(tài)造成了極大困難,包括形式統(tǒng)一困難和規(guī)模統(tǒng)一困難。
● 數(shù)據(jù)產(chǎn)品形式統(tǒng)一困難。數(shù)據(jù)產(chǎn)品形式可以是由單一類(lèi)別數(shù)據(jù)組成的形式,亦可是由多種不同類(lèi)別的數(shù)據(jù)構(gòu)成的形式。例如,一個(gè)音樂(lè)數(shù)據(jù)產(chǎn)品可以由統(tǒng)一的數(shù)據(jù)形式組成;再如,一個(gè)電子病歷的數(shù)據(jù)產(chǎn)品包含多種類(lèi)別形式的檢疫檢驗(yàn)數(shù)據(jù)和醫(yī)囑、治療方案數(shù)據(jù);等等。如何將這些不同類(lèi)型的數(shù)據(jù)統(tǒng)一管理是一個(gè)難題,這個(gè)難題在數(shù)據(jù)庫(kù)領(lǐng)域已經(jīng)存在多年。
● 數(shù)據(jù)產(chǎn)品規(guī)模統(tǒng)一困難。數(shù)據(jù)產(chǎn)品的數(shù)據(jù)類(lèi)別形式多樣且復(fù)雜,使得數(shù)據(jù)產(chǎn)品規(guī)模難以有固定大小的基本量。例如,一個(gè)音樂(lè)數(shù)據(jù)產(chǎn)品的規(guī)模通常在MB級(jí);而一個(gè)用于某類(lèi)疾病大數(shù)據(jù)研究的電子病歷數(shù)據(jù)產(chǎn)品,一般要有數(shù)萬(wàn)份該類(lèi)疾病的電子病歷才能達(dá)到研究的要求,其數(shù)據(jù)規(guī)模通常會(huì)在GB級(jí)甚至以上;等等。那么,使用多大規(guī)模作為數(shù)據(jù)產(chǎn)品的衡量標(biāo)準(zhǔn)呢?這也是一個(gè)極具挑戰(zhàn)的難題。
由于上述兩個(gè)難題,數(shù)據(jù)產(chǎn)品的形式和規(guī)模至今未能有一個(gè)統(tǒng)一的計(jì)量方法,從而導(dǎo)致組成數(shù)據(jù)產(chǎn)品的形式、類(lèi)型以及規(guī)模都是非標(biāo)準(zhǔn)的。
圖書(shū)匯聚了文字、圖表等多種類(lèi)型的數(shù)據(jù),圖書(shū)以“本/冊(cè)”為計(jì)量單位,圖書(shū)的計(jì)價(jià)不以圖書(shū)的內(nèi)容為基準(zhǔn),而以圖書(shū)編撰、印刷、流通過(guò)程的成本為基準(zhǔn)。對(duì)于多類(lèi)型數(shù)據(jù)匯聚這種做法,圖書(shū)與數(shù)據(jù)產(chǎn)品非常相似,甚至可以說(shuō)是一致的。因此,可以借鑒圖書(shū)的形態(tài),設(shè)計(jì)數(shù)據(jù)產(chǎn)品的形態(tài)[2,14]。那么,如何將多種類(lèi)型的數(shù)據(jù)包裝成“一本書(shū)”呢?數(shù)據(jù)盒是一個(gè)很好的選擇,用數(shù)據(jù)盒包裝多種類(lèi)型的數(shù)據(jù),形成一個(gè)數(shù)據(jù)產(chǎn)品的標(biāo)準(zhǔn)形態(tài)——盒裝數(shù)據(jù)。
文字、圖片、圖形等數(shù)據(jù)匯聚通過(guò)圖書(shū)的形態(tài),從原來(lái)的非標(biāo)準(zhǔn)化產(chǎn)品變?yōu)闃?biāo)準(zhǔn)化產(chǎn)品。圖書(shū)的形態(tài)主要包括正文主體內(nèi)容和相關(guān)配套內(nèi)容兩大部分。文字產(chǎn)品按一定的排版格式分章節(jié)形成圖書(shū)的正文主體內(nèi)容,從而滿足一定的可閱讀性,這部分內(nèi)容是圖書(shū)的內(nèi)容主體,具有獨(dú)立完整性,是一個(gè)有機(jī)整體。為了讓文字、圖片、圖形等數(shù)據(jù)匯聚能合規(guī)出版發(fā)行,并成為標(biāo)準(zhǔn)產(chǎn)品得以在市場(chǎng)上流通交易,圖書(shū)形態(tài)配有封面、扉頁(yè)、版權(quán)頁(yè)、前言(或序)、后記(或跋)、目錄、插圖及其文字說(shuō)明等內(nèi)容[18]。其中, 版權(quán)頁(yè)又稱版權(quán)記錄頁(yè)[19],由版權(quán)說(shuō)明、圖書(shū)在版編目數(shù)據(jù)和版本記錄等內(nèi)容構(gòu)成,將紙質(zhì)圖書(shū)的書(shū)名、作者、國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)(international standard book number,ISBN)、出版責(zé)任人、出版發(fā)行者、規(guī)模大?。ㄩ_(kāi)本、字?jǐn)?shù)、印張等)、印刷發(fā)行記錄等信息都囊括在內(nèi)[20]。圖書(shū)形態(tài)的相關(guān)配套內(nèi)容對(duì)于保護(hù)版權(quán)人的相關(guān)權(quán)益和讀者使用引導(dǎo)等方面具有非常重要的作用。
作為一類(lèi)記錄和傳播數(shù)據(jù)的載體產(chǎn)品,圖書(shū)經(jīng)過(guò)長(zhǎng)時(shí)間的發(fā)展和實(shí)踐,已形成非常成熟和固定的產(chǎn)品形態(tài)。圖書(shū)的形態(tài)能很好地解決文字、圖片、圖形等數(shù)據(jù)匯聚在數(shù)據(jù)類(lèi)型、數(shù)據(jù)規(guī)模等方面不統(tǒng)一的問(wèn)題,使文字、圖片、圖形等數(shù)據(jù)匯聚產(chǎn)品成為標(biāo)準(zhǔn)化產(chǎn)品,并在市場(chǎng)上有效流通。
數(shù)據(jù)盒的基本形態(tài)如圖1所示。數(shù)據(jù)盒自帶自主程序單元,封裝在數(shù)據(jù)盒中的數(shù)據(jù)集只能通過(guò)該單元接口進(jìn)行受控訪問(wèn),以實(shí)現(xiàn)在數(shù)據(jù)流通過(guò)程中,數(shù)據(jù)盒中的數(shù)據(jù)集在保證方便使用的前提下能很好地維護(hù)數(shù)據(jù)擁有方的權(quán)益,即數(shù)據(jù)盒外部可見(jiàn)、可理解、可編程,內(nèi)部可控、可跟蹤、可撤銷(xiāo)[13,17]。每個(gè)數(shù)據(jù)盒設(shè)有唯一 的字符串類(lèi)型的標(biāo)識(shí)——數(shù)據(jù)盒標(biāo)牌。
圖1 數(shù)據(jù)盒的基本形態(tài)
數(shù)據(jù)盒是數(shù)據(jù)集標(biāo)準(zhǔn)化的一個(gè)框架模型。如何設(shè)計(jì)組織數(shù)據(jù)盒內(nèi)部的數(shù)據(jù)呢?先看一個(gè)簡(jiǎn)單的數(shù)據(jù)產(chǎn)品的例子。
例1:“某證券交易所2020年掛牌股票的行情數(shù)據(jù)集”數(shù)據(jù)產(chǎn)品。該數(shù)據(jù)產(chǎn)品的數(shù)據(jù)集如圖2所示??梢钥闯?,單一類(lèi)型數(shù)據(jù)產(chǎn)品(如表格、點(diǎn)集、照片集等)很容易用內(nèi)容維度、時(shí)間維度和空間維度來(lái)表達(dá)。
● 內(nèi)容維度:是數(shù)據(jù)集中每個(gè)數(shù)據(jù)對(duì)象的內(nèi)容,即數(shù)據(jù)對(duì)象有哪些屬性,這些屬性描述了數(shù)據(jù)對(duì)象的完整內(nèi)容,使得數(shù)據(jù)對(duì)象作為實(shí)體獨(dú)立存在,屬性可以是一個(gè)或多個(gè)。從圖2可以看到,內(nèi)容維度有開(kāi)盤(pán)價(jià)、收盤(pán)價(jià)、最高價(jià)、最低價(jià)。
● 時(shí)間維度:指每個(gè)數(shù)據(jù)對(duì)象的時(shí)間覆蓋范圍,即數(shù)據(jù)對(duì)象在不同時(shí)間上的值。很多數(shù)據(jù)產(chǎn)品描述了一段時(shí)間的事物或行為的變化,因此數(shù)據(jù)產(chǎn)品會(huì)用一個(gè)時(shí)間維度來(lái)描述每個(gè)數(shù)據(jù)對(duì)象在不同時(shí)間上的具體值。數(shù)據(jù)產(chǎn)品需要描述其數(shù)據(jù)對(duì)象具體的時(shí)間段和時(shí)間粒度。從圖2可以看到,時(shí)間維度為每個(gè)交易日。
● 空間維度:指符合數(shù)據(jù)產(chǎn)品描述的數(shù)據(jù)對(duì)象的空間覆蓋范圍,即滿足數(shù)據(jù)產(chǎn)品描述的數(shù)據(jù)對(duì)象全體。需要可區(qū)分、可甄別、可檢驗(yàn)地描述出數(shù)據(jù)產(chǎn)品所含數(shù)據(jù)對(duì)象的范圍。對(duì)于一個(gè)數(shù)據(jù)集,應(yīng)當(dāng)明確指明其對(duì)象空間應(yīng)覆蓋的范圍。從圖2可以看到,空間維度為在某證券交易所掛牌的所有股票。
一些數(shù)據(jù)產(chǎn)品可能沒(méi)有時(shí)間維度(如一個(gè)照片數(shù)據(jù)集就沒(méi)有時(shí)間維度),但內(nèi)容維度和空間維度是必須要有的。內(nèi)容維度是對(duì)數(shù)據(jù)對(duì)象的描述,空間維度涉及數(shù)據(jù)對(duì)象全體。
針對(duì)數(shù)據(jù)集的三維特征,設(shè)計(jì)數(shù)據(jù)盒內(nèi)部的數(shù)據(jù)組織為一個(gè)包含內(nèi)容維度、時(shí)間維度、空間維度的三維立方體結(jié)構(gòu)的數(shù)據(jù)形態(tài),簡(jiǎn)稱盒內(nèi)數(shù)據(jù)。將圖2的數(shù)據(jù)集裝入數(shù)據(jù)盒后的盒裝數(shù)據(jù)產(chǎn)品如圖3所示。沒(méi)有時(shí)間維度的圖片盒裝數(shù)據(jù)產(chǎn)品如圖4所示。
圖2 “某證券交易所2020年掛牌股票的行情數(shù)據(jù)集”數(shù)據(jù)集
圖3 “某證券交易所2020年掛牌股票的行情數(shù)據(jù)集”盒裝數(shù)據(jù)產(chǎn)品
圖4 沒(méi)有時(shí)間維度的圖片盒裝數(shù)據(jù)產(chǎn)品
對(duì)于多類(lèi)型的數(shù)據(jù)產(chǎn)品,可以用數(shù)據(jù)盒的組合形式來(lái)表示,即將多個(gè)數(shù)據(jù)盒裝入一個(gè)大的數(shù)據(jù)盒中,形成復(fù)合型盒裝數(shù)據(jù)產(chǎn)品,如圖5所示。這很類(lèi)似于用零部件組裝成一個(gè)大的部件,然后還可以用大部件繼續(xù)組裝,直到形成需要的產(chǎn)品。
圖5 復(fù)合型盒裝數(shù)據(jù)產(chǎn)品
像圖書(shū)容納文字那樣,數(shù)據(jù)盒可被看作一種能夠容納數(shù)據(jù)的容器。規(guī)定了49頁(yè)的圖書(shū)基礎(chǔ)規(guī)模后,形成了圖書(shū)的計(jì)量單位,并且設(shè)計(jì)了ISBN等。這樣,圖書(shū)就能方便地在市場(chǎng)上流通。參照?qǐng)D書(shū)的做法,可以設(shè)計(jì)一個(gè)標(biāo)準(zhǔn)化的盒裝數(shù)據(jù)產(chǎn)品的基礎(chǔ)規(guī)模和內(nèi)容。在規(guī)定盒裝數(shù)據(jù)的基礎(chǔ)規(guī)模后,盒裝數(shù)據(jù)就可以作為標(biāo)準(zhǔn)化的計(jì)量單位。
盒裝數(shù)據(jù)的基礎(chǔ)規(guī)模和內(nèi)容的設(shè)定要體現(xiàn)市場(chǎng)需求和監(jiān)管需求。
首先是市場(chǎng)需求。顯然,數(shù)據(jù)流通的基本單位不是一條條數(shù)據(jù),也不是一個(gè)簡(jiǎn)單的數(shù)據(jù)集。數(shù)據(jù)資源是有含義的數(shù)據(jù)集結(jié)到一定規(guī)模后形成的[16,21]。“一定規(guī)?!笔菙?shù)據(jù)資源的要求,沒(méi)有“一定規(guī)?!辈荒鼙环Q為數(shù)據(jù)資源。以個(gè)人數(shù)據(jù)為例,一個(gè)人的身份數(shù)據(jù)不能被稱為數(shù)據(jù)資源,但是一個(gè)城市所有居民的身份數(shù)據(jù)是很重要的數(shù)據(jù)資源。在第三屆數(shù)據(jù)科學(xué)家大會(huì)上向110位參會(huì)的數(shù)據(jù)科學(xué)家和數(shù)據(jù)從業(yè)人員發(fā)起的大數(shù)據(jù)問(wèn)卷調(diào)查顯示,有96.3%的受訪者認(rèn)為一個(gè)大數(shù)據(jù)產(chǎn)品至少應(yīng)該達(dá)到GB級(jí)別以上的數(shù)據(jù)規(guī)模,其內(nèi)容應(yīng)至少包括圖像、圖形、音頻、視頻、結(jié)構(gòu)化數(shù)據(jù)、文本等兩種以上數(shù)據(jù)類(lèi)型。
其次是監(jiān)管需求。盒裝數(shù)據(jù)作為標(biāo)準(zhǔn)產(chǎn)品在市場(chǎng)上流通,就需要政府監(jiān)管。對(duì)于數(shù)據(jù)市場(chǎng),政府監(jiān)管有兩個(gè)目的:一個(gè)是維護(hù)市場(chǎng)的公平、公開(kāi)、公正;另一個(gè)是保護(hù)國(guó)家數(shù)據(jù)安全和公民個(gè)人信息。前者是所有商品市場(chǎng)都需要的,主要是市場(chǎng)法規(guī)的建設(shè);而后者則是數(shù)據(jù)市場(chǎng)特有的。那么,多大的數(shù)據(jù)規(guī)模有利于監(jiān)管的實(shí)施呢?以公民個(gè)人信息保護(hù)為例,我國(guó)法律中針對(duì)侵犯公民個(gè)人信息有專門(mén)的量刑標(biāo)準(zhǔn),非法獲取、出售或者提供公民個(gè)人信息5 000條以上的,應(yīng)當(dāng)被認(rèn)定為《中華人民共和國(guó)刑法》所規(guī)定的“情節(jié)嚴(yán)重”,已構(gòu)成犯罪事實(shí),要接受法律的懲處。我國(guó)《最高人民法院、最高人民檢察院關(guān)于辦理侵犯公民個(gè)人信息刑事案件適用法律若干問(wèn)題的解釋》指出,公民個(gè)人信息主要包括姓名、身份證件號(hào)碼、聯(lián)系方式、住址、賬號(hào)密碼、財(cái)產(chǎn)狀況、行蹤軌跡等內(nèi)容。一條公民個(gè)人數(shù)據(jù)涉及十幾個(gè)數(shù)據(jù)項(xiàng)(1 KB),加上公民的一張證件照片(200 KB)、一個(gè)指紋(10 KB)等內(nèi)容,其數(shù)據(jù)規(guī)模約211 KB,5 000條公民個(gè)人數(shù)據(jù)大概為1 GB。
鑒于上述兩類(lèi)需求,將盒裝數(shù)據(jù)的最小規(guī)模設(shè)定為1 GB,這作為其基礎(chǔ)規(guī)模的數(shù)據(jù)量是合適的。盒裝數(shù)據(jù)采用1 GB的基礎(chǔ)規(guī)模作為計(jì)量單位,這基本參照了調(diào)查結(jié)果,也基本符合5 000條個(gè)人數(shù)據(jù)的規(guī)模,兼顧了市場(chǎng)需求和監(jiān)管需求。與“達(dá)到49頁(yè)的規(guī)模才能構(gòu)成一本圖書(shū)”類(lèi)似,“達(dá)到1 GB的數(shù)據(jù)規(guī)模才能構(gòu)成一個(gè)盒裝數(shù)據(jù)”也是一個(gè)認(rèn)定的規(guī)模數(shù)值,不是一個(gè)科學(xué)的界定,具體的標(biāo)準(zhǔn)規(guī)模還有待未來(lái)實(shí)踐總結(jié)和完善。
對(duì)于小于1 GB數(shù)據(jù)規(guī)模的數(shù)據(jù)集是否需要作為數(shù)據(jù)產(chǎn)品的問(wèn)題,從生產(chǎn)、登記、管理和流通成本多個(gè)方面來(lái)看,目前暫時(shí)不予考慮,以免使情況過(guò)于復(fù)雜,成本過(guò)高且難以被監(jiān)管。例如,人們?cè)谂笥讶χ袀鞑サ恼掌?,如果將這些都作為數(shù)據(jù)產(chǎn)品進(jìn)行登記的話,行政成本就會(huì)過(guò)高。就像不能把幾頁(yè)的文字材料以圖書(shū)的方式進(jìn)行出版一樣,在數(shù)據(jù)產(chǎn)品登記初期,先不考慮將較小數(shù)據(jù)規(guī)模的數(shù)據(jù)集作為數(shù)據(jù)產(chǎn)品。另外,單一照片、圖書(shū)、音樂(lè)等在傳統(tǒng)電子音像出版領(lǐng)域已經(jīng)有一套完整的產(chǎn)品體系,因此并不需要考慮新的產(chǎn)品形態(tài)。
盒裝數(shù)據(jù)外部形態(tài)(又稱盒外包裝)包括產(chǎn)品登記證書(shū)、產(chǎn)品說(shuō)明書(shū)、質(zhì)量證書(shū)、合規(guī)證書(shū)等。
盒裝數(shù)據(jù)產(chǎn)品登記證書(shū)是擁有者對(duì)相關(guān)數(shù)據(jù)產(chǎn)品權(quán)屬的聲明,是對(duì)盒內(nèi)數(shù)據(jù)的概述性介紹,由專門(mén)的數(shù)據(jù)產(chǎn)品登記主管部門(mén)審核發(fā)放。只有登記后的盒裝數(shù)據(jù)產(chǎn)品才具有合法性,才被允許在數(shù)據(jù)市場(chǎng)上進(jìn)行流通和交易,并受法律保護(hù)。
盒裝數(shù)據(jù)產(chǎn)品登記證書(shū)主要包含產(chǎn)品名稱、產(chǎn)品登記號(hào)(編號(hào)、條碼或二維碼)、數(shù)據(jù)盒標(biāo)牌、生產(chǎn)商/著作權(quán)人、數(shù)據(jù)量、訪問(wèn)編程接口、權(quán)利等方面的內(nèi)容,還包括產(chǎn)品說(shuō)明書(shū)、質(zhì)量證書(shū)、合規(guī)證書(shū)等附件,具體見(jiàn)表1。
表1 盒裝數(shù)據(jù)產(chǎn)品登記證書(shū)
其中,產(chǎn)品登記號(hào)(編號(hào)、條碼或二維碼)是保護(hù)知識(shí)產(chǎn)權(quán)和確認(rèn)數(shù)據(jù)權(quán)屬的一種工具,便于盒裝數(shù)據(jù)發(fā)行、流通過(guò)程中的維權(quán)和授權(quán)。這類(lèi)版權(quán)標(biāo)識(shí)需經(jīng)過(guò)專門(mén)的管理機(jī)構(gòu)登記給出,具有唯一性,可為盒裝數(shù)據(jù)后續(xù)的維權(quán)、授權(quán)等方面的追蹤提供便利。數(shù)據(jù)盒標(biāo)牌是一種數(shù)據(jù)商標(biāo),由生產(chǎn)商根據(jù)一定的標(biāo)碼規(guī)則融入品牌元素給出。此外,在互聯(lián)網(wǎng)上盒裝數(shù)據(jù)還需要給定專門(mén)的訪問(wèn)標(biāo)識(shí),以便人們使用相關(guān)系統(tǒng)在互聯(lián)網(wǎng)上快速查詢和訪問(wèn)盒裝數(shù)據(jù)。
盒裝數(shù)據(jù)產(chǎn)品可以讓購(gòu)買(mǎi)者在購(gòu)買(mǎi)前看到數(shù)據(jù)是什么、怎么用,所謂“可見(jiàn)可用、先看后買(mǎi)”。做法是提供詳細(xì)的產(chǎn)品說(shuō)明書(shū),包括數(shù)據(jù)產(chǎn)品內(nèi)容說(shuō)明、生產(chǎn)方式/著作方式說(shuō)明(被加工數(shù)據(jù)來(lái)源的合法性證明)和使用說(shuō)明等。其中使用說(shuō)明詳細(xì)介紹了使用環(huán)境、使用接口、使用舉例、接口代碼等內(nèi)容。
● 使用環(huán)境:包括對(duì)硬件(計(jì)算機(jī)集群、內(nèi)外存、CPU、集群總線等)和計(jì)算機(jī)軟件(Windows、macOS和Linux等操作系統(tǒng),Hadoop、Spark等軟件)的要求。
● 使用接口:主要為外部軟件受控訪問(wèn)、使用開(kāi)發(fā)盒內(nèi)數(shù)據(jù)提供接口,包括數(shù)據(jù)訪問(wèn)接口和數(shù)據(jù)使用軟件應(yīng)用編程接口等。其中,數(shù)據(jù)訪問(wèn)接口主要用于用戶訪問(wèn)盒內(nèi)數(shù)據(jù),主要分為元數(shù)據(jù)查詢接口、原始數(shù)據(jù)查詢接口、數(shù)據(jù)統(tǒng)計(jì)接口;數(shù)據(jù)使用軟件應(yīng)用編程接口主要用于用戶開(kāi)發(fā)數(shù)據(jù)訪問(wèn)程序,主要包括開(kāi)發(fā)態(tài)數(shù)據(jù)訪問(wèn)接口和運(yùn)行態(tài)數(shù)據(jù)訪問(wèn)接口[17,22]。
● 使用舉例:開(kāi)展用戶使用盒裝數(shù)據(jù)的引導(dǎo)工作,主要以圖文形式、通過(guò)案例來(lái)指導(dǎo)用戶使用盒裝數(shù)據(jù)的方法步驟。
● 接口代碼:主要提供訪問(wèn)、使用、開(kāi)發(fā)盒內(nèi)數(shù)據(jù)的接口代碼。
盒裝數(shù)據(jù)只有達(dá)到一定的數(shù)據(jù)質(zhì)量要求才允許被登記,才能進(jìn)入數(shù)據(jù)市場(chǎng)流通。盒裝數(shù)據(jù)的質(zhì)量證書(shū)就是盒裝數(shù)據(jù)中的數(shù)據(jù)集達(dá)到相應(yīng)質(zhì)量標(biāo)準(zhǔn)和要求的證明性文件,是其開(kāi)展交易流通的重要憑證。質(zhì)量證書(shū)的相關(guān)內(nèi)容可以作為判斷盒裝數(shù)據(jù)價(jià)值高低的依據(jù)。
盒裝數(shù)據(jù)的質(zhì)量證書(shū)內(nèi)容主要涵蓋數(shù)據(jù)集3個(gè)維度的質(zhì)量保障,用完整性來(lái)表達(dá),即時(shí)間完整性、空間完整性、內(nèi)容完整性。質(zhì)量證書(shū)由數(shù)據(jù)質(zhì)量檢測(cè)機(jī)構(gòu)出具。
盒內(nèi)數(shù)據(jù)必須合法合規(guī),即符合國(guó)家相關(guān)法律規(guī)定,這需要律師事務(wù)所出具合規(guī)證書(shū)。
盒裝數(shù)據(jù)的合規(guī)證書(shū)主要用于承諾盒內(nèi)數(shù)據(jù)符合《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》等國(guó)家有關(guān)法律要求,是由律師事務(wù)所提供的相關(guān)證書(shū)。
數(shù)據(jù)流通需要一個(gè)可計(jì)量的產(chǎn)品形態(tài),但如何定義數(shù)據(jù)產(chǎn)品形態(tài)仍面臨諸多困難和挑戰(zhàn)。參照?qǐng)D書(shū),基于數(shù)據(jù)盒模型設(shè)計(jì)了一種數(shù)據(jù)產(chǎn)品標(biāo)準(zhǔn)形態(tài)——盒裝數(shù)據(jù),一個(gè)標(biāo)準(zhǔn)盒裝數(shù)據(jù)的數(shù)據(jù)規(guī)模為1 GB。本文設(shè)計(jì)的盒裝數(shù)據(jù)是針對(duì)公開(kāi)數(shù)據(jù)市場(chǎng)數(shù)據(jù)流通的一種探索,鑒于數(shù)據(jù)要素市場(chǎng)建設(shè)的迫切性,先行將階段性研究成果公開(kāi)。后續(xù)將基于標(biāo)準(zhǔn)盒裝數(shù)據(jù)產(chǎn)品形態(tài),進(jìn)行數(shù)據(jù)產(chǎn)品定價(jià)和估值等相關(guān)研究工作,并開(kāi)發(fā)相應(yīng)的技術(shù)平臺(tái),開(kāi)展數(shù)據(jù)產(chǎn)品的交易流通實(shí)踐工作。