• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)出版及其質(zhì)量控制研究綜述*

      2020-01-09 08:28:26劉茲恒涂志芳
      圖書館論壇 2020年10期
      關(guān)鍵詞:知識庫論文期刊

      劉茲恒,涂志芳

      科學(xué)數(shù)據(jù)(scientific data)或研究數(shù)據(jù)(research data)是學(xué)術(shù)成果的重要組成部分,也是數(shù)字時代學(xué)術(shù)資源開放共享的重要內(nèi)容范疇,而數(shù)據(jù)出版正是使科學(xué)數(shù)據(jù)能夠被社會廣泛而有效利用的一種手段。較之于已經(jīng)發(fā)展成熟的傳統(tǒng)學(xué)術(shù)出版,數(shù)據(jù)出版作為一個相對新興的研究與實踐課題,無論是理論還是實踐均需要加強思考和探索,尤其較之于傳統(tǒng)學(xué)術(shù)出版嚴(yán)格的審查機(jī)制,數(shù)據(jù)出版因數(shù)據(jù)結(jié)構(gòu)復(fù)雜、準(zhǔn)入門檻較低、開放傳播等特點,更加需要通過質(zhì)量控制手段保障數(shù)據(jù)質(zhì)量和價值。因此,本文圍繞數(shù)據(jù)出版的概念、作用、模式、流程等理論與實踐問題進(jìn)行梳理,繼而對數(shù)據(jù)出版質(zhì)量控制的概念、內(nèi)容與方法進(jìn)行綜述,并對數(shù)據(jù)出版質(zhì)量控制的調(diào)查報告和實踐研究進(jìn)行述評,以期在一定程度上促進(jìn)圖書館界、出版界、科技界對數(shù)據(jù)出版的認(rèn)識,克服現(xiàn)存的問題與困難,推進(jìn)數(shù)據(jù)出版及其質(zhì)量控制理論與實踐更長足的發(fā)展。

      1 數(shù)據(jù)出版基本問題研究綜述

      國內(nèi)外對科學(xué)數(shù)據(jù)出版的研究主要從理論性思考探索和實踐性調(diào)研分析的角度進(jìn)行,其中理論研究主要包括對數(shù)據(jù)出版概念、作用、模式、流程、問題與挑戰(zhàn)等的論述,實踐研究主要包括論文數(shù)據(jù)附件、數(shù)據(jù)知識庫、數(shù)據(jù)論文等模式的數(shù)據(jù)出版調(diào)研分析及相關(guān)問題討論。

      1.1 數(shù)據(jù)出版概念

      數(shù)據(jù)出版(data publishing或data publication)首先作為一個概念而存在,不少研究都對數(shù)據(jù)出版及其相關(guān)概念進(jìn)行了釋義或辨析。從出版語義的角度,Lawrence等[1]、Callaghan等[2]對數(shù)據(jù)的“publish”和“Publish”進(jìn)行區(qū)分,前者將數(shù)據(jù)文件貼于網(wǎng)絡(luò)使數(shù)據(jù)得以開放,但文件沒有任何長期存在、不被損壞、相關(guān)信息描述等保障;而后者作為正式的數(shù)據(jù)出版,不僅可揭示數(shù)據(jù)集的科學(xué)質(zhì)量和重要性,也能為數(shù)據(jù)生產(chǎn)者帶來聲譽,同時還意味著對數(shù)據(jù)長期保存的承諾和面向數(shù)據(jù)消費者的數(shù)據(jù)增值。從出版實踐的角度,Penev等[3]認(rèn)為數(shù)據(jù)出版是將數(shù)據(jù)上載到網(wǎng)絡(luò)使得除作者以外的人和組織也能夠下載、分析、重用和引用數(shù)據(jù)的行動;Candela等[4]認(rèn)為數(shù)據(jù)出版是一項將數(shù)據(jù)公開以提供重用并且還能跟蹤數(shù)據(jù)來源和作者貢獻(xiàn)的活動。從概念辨析的角度,數(shù)據(jù)出版與數(shù)據(jù)發(fā)表、數(shù)據(jù)發(fā)布、數(shù)據(jù)開放[5-7]既關(guān)聯(lián)又區(qū)別,數(shù)據(jù)出版過程還應(yīng)考慮長期保存與存儲、元數(shù)據(jù)、引用與作者貢獻(xiàn)、出版許可與數(shù)據(jù)重用、數(shù)據(jù)傳播等關(guān)鍵要素。由此可知,數(shù)據(jù)出版是使科學(xué)數(shù)據(jù)獲得“可溯源”“可引用”“質(zhì)量審查”“承認(rèn)作者貢獻(xiàn)”“長期保存”等特征的活動和過程。

      1.2 數(shù)據(jù)出版作用

      隨著科學(xué)數(shù)據(jù)管理與共享政策法規(guī)制定、標(biāo)準(zhǔn)規(guī)范發(fā)布、基礎(chǔ)設(shè)施建設(shè)等的深入推進(jìn)和數(shù)據(jù)量的不斷積累,數(shù)據(jù)出版的作用不斷凸顯,國內(nèi)研究者均高度肯定數(shù)據(jù)出版的積極作用。數(shù)據(jù)出版的作用一方面在于其推動數(shù)據(jù)開放共享,促進(jìn)整個學(xué)術(shù)出版和科學(xué)研究的發(fā)展,如Borgman[8]強調(diào)科學(xué)數(shù)據(jù)對新的研究成果產(chǎn)生的價值,Murphy[9]強調(diào)數(shù)據(jù)出版有提高學(xué)者學(xué)術(shù)信譽、保障數(shù)據(jù)存檔與監(jiān)護(hù)、保障數(shù)據(jù)質(zhì)量、提供公共利用、提高研究過程透明度的作用。另一方面,數(shù)據(jù)出版在數(shù)據(jù)開放共享的基礎(chǔ)上,重點解決數(shù)據(jù)知識產(chǎn)權(quán)的問題,保障科學(xué)數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)重用的價值,如吳立宗等[5]突出數(shù)據(jù)出版解決知識產(chǎn)權(quán)問題、提高數(shù)據(jù)共享積極性的作用,而袁曦臨[10]認(rèn)為數(shù)據(jù)出版是科學(xué)數(shù)據(jù)管理及其可持續(xù)發(fā)展的必然結(jié)果和最終環(huán)節(jié),是推動科學(xué)數(shù)據(jù)共享的最根本途徑。此外,數(shù)據(jù)出版顯然也能夠為公眾提供更多獲取、利用科學(xué)數(shù)據(jù)的平等機(jī)會,創(chuàng)造社會價值。

      1.3 數(shù)據(jù)出版模式

      數(shù)據(jù)出版模式,又被稱為數(shù)據(jù)出版途徑、形態(tài)、機(jī)制、路徑等,現(xiàn)有研究主要從數(shù)據(jù)出版客體和數(shù)據(jù)出版主體兩個不同視角對數(shù)據(jù)出版模式進(jìn)行劃分和歸納。

      從數(shù)據(jù)出版客體角度,Lawrence等[1]較早提出數(shù)據(jù)出版的5種模式:獨立數(shù)據(jù)出版、學(xué)術(shù)論文輔助數(shù)據(jù)出版、附錄數(shù)據(jù)出版、期刊數(shù)據(jù)檔案出版、數(shù)據(jù)論文出版;王丹丹[11]、孔麗華[12]、顧立平[13]、張小強等[6]、何琳等[14]進(jìn)一步將數(shù)據(jù)出版總結(jié)為3種模式:獨立數(shù)據(jù)出版、作為論文輔助資料的數(shù)據(jù)出版、數(shù)據(jù)論文出版。從數(shù)據(jù)出版主體角度,張麗麗等[15]將數(shù)據(jù)開放模式總結(jié)為3種:自上而下模式、橫縱聯(lián)合模式、自下而上模式;張小強等[6]將數(shù)據(jù)出版分為4種模式:出版機(jī)構(gòu)控制模式、非出版機(jī)構(gòu)獨立控制模式、混合模式、“二次出版”模式。

      從數(shù)據(jù)出版客體和數(shù)據(jù)出版主體角度劃分的數(shù)據(jù)出版模式之間是相互映射的關(guān)系,雖表述略有差異,但仍可歸結(jié)為3種模式:(1)獨立數(shù)據(jù)出版,該模式將數(shù)據(jù)作為獨立的信息對象提交到開放存取數(shù)據(jù)知識庫;(2)作為論文關(guān)聯(lián)和輔助資料的數(shù)據(jù)出版,數(shù)據(jù)往往作為論文的附件、附錄而出版或存儲到期刊指定的數(shù)據(jù)倉儲并建立論文和數(shù)據(jù)的關(guān)聯(lián);(3)數(shù)據(jù)論文出版,將科學(xué)數(shù)據(jù)作為一種文本文獻(xiàn)進(jìn)行出版,包括發(fā)表在專門數(shù)據(jù)期刊的數(shù)據(jù)論文和綜合性期刊的數(shù)據(jù)論文。

      1.4 數(shù)據(jù)出版流程

      與傳統(tǒng)學(xué)術(shù)出版相似,數(shù)據(jù)出版也有完整的出版流程,數(shù)據(jù)出版流程通常指在網(wǎng)絡(luò)出版數(shù)據(jù)、相關(guān)元數(shù)據(jù)與文檔附件、軟件代碼等的活動和過程[16],數(shù)據(jù)質(zhì)量控制也往往面向出版流程的不同環(huán)節(jié)而進(jìn)行。例如,從知識轉(zhuǎn)化與創(chuàng)新的角度,Hense等[17]、杜偉等[18]參考知識螺旋模型,把數(shù)據(jù)出版過程簡化為“內(nèi)部化”和“外部化”兩大環(huán)節(jié),其中“內(nèi)部化”包括搜索和瀏覽、審核和學(xué)習(xí)、實驗3個小環(huán)節(jié),“外部化”包括解釋和注釋數(shù)據(jù)、執(zhí)行質(zhì)量保障、出版和發(fā)布數(shù)據(jù)3個小環(huán)節(jié)。從工作流程的角度,Kratz等[19]認(rèn)為數(shù)據(jù)出版有4個環(huán)節(jié),首先將數(shù)據(jù)存儲在知識庫,然后對數(shù)據(jù)進(jìn)行描述,再分配標(biāo)識符,最后進(jìn)行評審;而數(shù)據(jù)出版后應(yīng)可利用、被存檔、可引用、可驗證;吳立宗等[5]認(rèn)為數(shù)據(jù)出版包括數(shù)據(jù)發(fā)布、同行評審、數(shù)據(jù)出版和永久存儲、數(shù)據(jù)引用、數(shù)據(jù)評價等環(huán)節(jié)。目前對數(shù)據(jù)出版流程的研究主要是針對基于數(shù)據(jù)知識庫的數(shù)據(jù)出版,其他兩種出版模式下的數(shù)據(jù)出版流程則遵循傳統(tǒng)期刊出版流程和數(shù)據(jù)政策及數(shù)據(jù)期刊的出版流程。

      1.5 數(shù)據(jù)出版實踐

      數(shù)據(jù)出版實踐主要從前文所述的論文數(shù)據(jù)附件、數(shù)據(jù)知識庫、數(shù)據(jù)論文3種模式展開,相關(guān)研究也從數(shù)據(jù)知識庫與數(shù)據(jù)出版研究、期刊數(shù)據(jù)政策與數(shù)據(jù)出版研究、數(shù)據(jù)期刊與數(shù)據(jù)論文研究等方面展開。

      目前,學(xué)者們主要通過對國內(nèi)外開放數(shù)據(jù)知識庫進(jìn)行調(diào)查分析的方式研究數(shù)據(jù)知識庫的數(shù)據(jù)出版,常用數(shù)據(jù)知識庫案例包括Dryad、figshare、Dataverse、Zenodo、GenBank、北京大學(xué)開放研究數(shù)據(jù)平臺等。相關(guān)研究[20-24]主要對數(shù)據(jù)與論文的鏈接、數(shù)據(jù)出版要素、數(shù)據(jù)學(xué)科領(lǐng)域、內(nèi)容類型、唯一標(biāo)識符、質(zhì)量管理、知識庫建設(shè)過程與經(jīng)驗等問題進(jìn)行調(diào)研分析,厘清數(shù)據(jù)出版與傳統(tǒng)學(xué)術(shù)出版的異同,明確數(shù)據(jù)出版的要素、類型與特點。

      期刊出版商通過制定數(shù)據(jù)共享政策對數(shù)據(jù)出版加以控制和規(guī)范,以實現(xiàn)論文和數(shù)據(jù)的關(guān)聯(lián)出版。學(xué)者們通過調(diào)查一種或多種學(xué)科期刊的數(shù)據(jù)政策內(nèi)容,了解作為論文附件的數(shù)據(jù)開放出版情況。一方面,對特定學(xué)科領(lǐng)域期刊的數(shù)據(jù)政策進(jìn)行研究,如Zenk-M?ltgen等[25]、陳秀娟等[26]、雷秋雨等[27]對社會學(xué)、化學(xué)、生物學(xué)領(lǐng)域期刊數(shù)據(jù)政策的數(shù)據(jù)類型、數(shù)據(jù)存儲、質(zhì)量控制等內(nèi)容進(jìn)行分析;另一方面,對多種學(xué)科領(lǐng)域的期刊數(shù)據(jù)政策進(jìn)行綜合研究,如371種自然科學(xué)與人文社會科學(xué)領(lǐng)域的期刊政策內(nèi)容調(diào)查[28],多領(lǐng)域?qū)W術(shù)期刊數(shù)據(jù)政策的制定主體、客體與內(nèi)容,數(shù)據(jù)政策的實施及其效果、約束力強度及相關(guān)研究項目[29]。大型出版集團(tuán)、學(xué)協(xié)會出版社等是推動數(shù)據(jù)政策制定以及作為論文附件的數(shù)據(jù)出版的主要力量,也是面向研究人員和廣泛的研究社群強化數(shù)據(jù)共享意識、推進(jìn)數(shù)據(jù)共享行為、培養(yǎng)數(shù)據(jù)共享文化的重要陣地。

      數(shù)據(jù)期刊(data journal)是在科學(xué)數(shù)據(jù)開放共享趨勢之下發(fā)展起來的新型學(xué)術(shù)期刊,是促進(jìn)數(shù)據(jù)的使用、引用及重用的重要工具[30],數(shù)據(jù)期刊的定義、類型及出版實踐均得到了關(guān)注[16,31-32]。據(jù)Candela等[33]對國際數(shù)據(jù)期刊的不完全統(tǒng)計,2015年至少已有15家出版機(jī)構(gòu)出版了至少116種數(shù)據(jù)期刊,近年來國內(nèi)外數(shù)據(jù)期刊數(shù)量得到明顯增長,我國《中國科學(xué)數(shù)據(jù)》(2016)、《全球變化數(shù)據(jù)學(xué)報》(2017)也相繼創(chuàng)刊。數(shù)據(jù)論文(data paper)是一種新興的出版物形態(tài),與傳統(tǒng)學(xué)術(shù)論文最大的不同在于數(shù)據(jù)論文重點描述科學(xué)數(shù)據(jù)本身而不是描述基于科學(xué)假設(shè)和科學(xué)問題的研究結(jié)果[34],不過也有學(xué)者認(rèn)為中譯名“數(shù)據(jù)論文”未能很好地反映“data paper”的內(nèi)涵邊界與功能定位,而“數(shù)據(jù)導(dǎo)引”更為精準(zhǔn)貼切[35]。數(shù)據(jù)論文內(nèi)容重點描述數(shù)據(jù)的可用性、覆蓋范圍、格式、許可、共享、項目來源、數(shù)據(jù)來源、數(shù)據(jù)質(zhì)量、數(shù)據(jù)重用等要素[36],數(shù)據(jù)論文出版同樣涉及學(xué)科屬性、出版方式、收錄內(nèi)容要求、引用機(jī)制、版權(quán)協(xié)議、費用等事項[32]。

      1.6 數(shù)據(jù)出版的問題與挑戰(zhàn)

      盡管數(shù)據(jù)出版已經(jīng)在國內(nèi)外開始了較大規(guī)模的實踐,但作為學(xué)術(shù)交流、傳播與出版領(lǐng)域相對新興的議題,數(shù)據(jù)出版仍存在不少困難和問題需要克服。Hense等[17]認(rèn)為數(shù)據(jù)出版面臨的挑戰(zhàn)存在于格式、內(nèi)容、科學(xué)質(zhì)量控制、格式質(zhì)量控制、技術(shù)質(zhì)量控制、瀏覽與檢索、存儲等多方面;何琳等[14]認(rèn)為科學(xué)數(shù)據(jù)的元數(shù)據(jù)、隱私保護(hù)、組織技術(shù)、知識產(chǎn)權(quán)保護(hù)、出版激勵機(jī)制是數(shù)據(jù)出版待解決的關(guān)鍵問題。張小強等[6]認(rèn)為數(shù)據(jù)出版的主要障礙是倫理規(guī)范與標(biāo)準(zhǔn)的缺失,包括數(shù)據(jù)出版體系中獎懲功能的缺失,數(shù)據(jù)出版復(fù)雜性導(dǎo)致的短期內(nèi)標(biāo)準(zhǔn)規(guī)范的缺失,數(shù)據(jù)出版的用稿規(guī)范、數(shù)據(jù)引用規(guī)范、元數(shù)據(jù)標(biāo)準(zhǔn)等的不完善;張麗麗[37]認(rèn)為,相較于傳統(tǒng)學(xué)術(shù)論文出版,數(shù)據(jù)出版的學(xué)術(shù)地位和行業(yè)認(rèn)可度、運營模式的可持續(xù)性、數(shù)據(jù)開放與版權(quán)保護(hù)等方面仍有待發(fā)展。也就是說,數(shù)據(jù)出版的問題和困難在于數(shù)據(jù)本身內(nèi)在特性以及數(shù)據(jù)出版外在環(huán)境兩個方面:數(shù)據(jù)本身數(shù)量大、格式多樣、技術(shù)依賴、學(xué)科差異大,因此數(shù)據(jù)出版天然具有復(fù)雜性;與數(shù)據(jù)出版配套的標(biāo)準(zhǔn)規(guī)范、技術(shù)工具、體制機(jī)制等還沒有充分發(fā)展起來,數(shù)據(jù)出版要得到像傳統(tǒng)學(xué)術(shù)出版一樣的認(rèn)可,還任重而道遠(yuǎn)。

      2 數(shù)據(jù)出版質(zhì)量控制研究綜述

      2.1 數(shù)據(jù)質(zhì)量及其標(biāo)準(zhǔn)

      數(shù)據(jù)質(zhì)量(data quality)是一個多維度概念,可被描述為一組質(zhì)量特征的集合,也通常取決于對最終用戶目標(biāo)實現(xiàn)產(chǎn)生的價值大小[38]。明確數(shù)據(jù)質(zhì)量的概念及其標(biāo)準(zhǔn),是對數(shù)據(jù)出版進(jìn)行質(zhì)量控制的基礎(chǔ)。

      從質(zhì)量特征的視角,數(shù)據(jù)質(zhì)量強調(diào)數(shù)據(jù)本身應(yīng)該具有的質(zhì)量特征和屬性。Gordon[39]將數(shù)據(jù)質(zhì)量定義為數(shù)據(jù)完整性、有效性、一致性、及時性和準(zhǔn)確性的狀態(tài)以使數(shù)據(jù)適合特定用途,而高質(zhì)量的數(shù)據(jù)則能夠在運行、決策、規(guī)劃中很好地發(fā)揮預(yù)期作用;胡良霖等[40]認(rèn)為數(shù)據(jù)質(zhì)量包括數(shù)值質(zhì)量和模型質(zhì)量兩個維度,前者如準(zhǔn)確性、完整性、一致性、客觀性等,后者如相關(guān)性、可讀性、最小化等,而科學(xué)數(shù)據(jù)質(zhì)量的評價和控制則可從科學(xué)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)框架、數(shù)據(jù)成熟度模型、評價方法與軟件工具等方面展開。zhu等[41]認(rèn)為數(shù)據(jù)質(zhì)量受所使用的數(shù)據(jù)標(biāo)準(zhǔn)的質(zhì)量(quality of data standards)的影響,即提高某些數(shù)據(jù)標(biāo)準(zhǔn)的質(zhì)量便可能提高根據(jù)標(biāo)準(zhǔn)創(chuàng)建的數(shù)據(jù)的質(zhì)量,并提出將完整性(completeness)和相關(guān)性(relevancy)作為數(shù)據(jù)標(biāo)準(zhǔn)質(zhì)量的兩個重要元素。

      從數(shù)據(jù)消費者的視角,數(shù)據(jù)質(zhì)量強調(diào)數(shù)據(jù)之于用戶的質(zhì)量和價值。英國皇家學(xué)會在“科學(xué)是開放事業(yè)”[42]報告中提出開放數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn)包括可獲取、可理解、可評估和可利用;Peer等[43]認(rèn)為數(shù)據(jù)質(zhì)量意味著“對已知的數(shù)據(jù)重用而言獨立的可理解性”(Independently Understandable Data for Informed Reuse);Hense[17]認(rèn)為數(shù)據(jù)質(zhì)量的關(guān)鍵因素為聲譽、可靠性和程序規(guī)范;Wang和Strong[44]認(rèn)為數(shù)據(jù)質(zhì)量框架包含內(nèi)在數(shù)據(jù)質(zhì)量(intrinsic data quality)、語境數(shù)據(jù)質(zhì)量(contextual data quality)、可表現(xiàn)性數(shù)據(jù)質(zhì)量(representational data quality)、可訪問性數(shù)據(jù)質(zhì)量(accessibility data quality)4個維度。

      可見,數(shù)據(jù)質(zhì)量的維度和指標(biāo)十分豐富,數(shù)據(jù)出版過程中的數(shù)據(jù)質(zhì)量控制可概括為3個方面內(nèi)容:(1)內(nèi)容質(zhì)量,主要指數(shù)據(jù)內(nèi)在的科學(xué)性、邏輯性、真實性、可信度等,如支撐科學(xué)新發(fā)現(xiàn)的價值、驗證文章結(jié)論的價值;(2)形式質(zhì)量,主要指所存儲的數(shù)據(jù)格式的兼容性、可讀性、規(guī)范性、友好性等;(3)語境質(zhì)量(元數(shù)據(jù)質(zhì)量及上下文信息),主要指理解數(shù)據(jù)所需的語境信息的充分性、有用性,如元數(shù)據(jù)的準(zhǔn)確性、完整性及元數(shù)據(jù)描述與數(shù)據(jù)匹配的真實性等。

      2.2 數(shù)據(jù)質(zhì)量控制概念、內(nèi)容與方法

      以數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)為基礎(chǔ),以數(shù)據(jù)質(zhì)量事實為依據(jù),了解數(shù)據(jù)質(zhì)量控制的概念、內(nèi)容與方法,才能針對性地從數(shù)據(jù)出版的各個環(huán)節(jié)進(jìn)行數(shù)據(jù)質(zhì)量控制,從而使數(shù)據(jù)質(zhì)量結(jié)果符合預(yù)期和需求。

      關(guān)于數(shù)據(jù)質(zhì)量控制的概念,相關(guān)研究包括釋義、辨析及定義等視角。加拿大研究數(shù)據(jù)組織(Research Data Canada)[45]將數(shù)據(jù)“質(zhì)量保證”(quality assurance,QA)定義為用于測量和確保產(chǎn)品質(zhì)量的一系列過程,而將數(shù)據(jù)“質(zhì)量控制”(quality control,QC)定義為滿足消費者期望的產(chǎn)品和服務(wù)過程。兩者的主要區(qū)別[46]在于QA是過程導(dǎo)向,側(cè)重建立質(zhì)量以防止錯誤,是用正確的方式做正確的事;而QC是產(chǎn)品導(dǎo)向,側(cè)重質(zhì)量測試(如檢測錯誤),是確保所做的結(jié)果符合預(yù)期;但通常情況下不對兩者進(jìn)行嚴(yán)格區(qū)分[47]。張靜蓓等[48]進(jìn)一步將“數(shù)據(jù)質(zhì)量控制”定義為用于確定被測試的數(shù)據(jù)是否可以有效地被其他研究人員進(jìn)行驗證和重用的一套標(biāo)準(zhǔn)流程。從對概念的闡釋可知數(shù)據(jù)質(zhì)量控制發(fā)生在數(shù)據(jù)產(chǎn)生、存儲、傳播、利用多個階段,不僅需要從源頭確保數(shù)據(jù)產(chǎn)生的質(zhì)量和價值,也需要在存儲與傳播過程中對質(zhì)量進(jìn)行檢測和驗證,同時還需在面向用戶時確保較高的利用價值。本文在此基礎(chǔ)上認(rèn)為數(shù)據(jù)質(zhì)量控制是在明確數(shù)據(jù)出版的含義及范疇、確定不同的數(shù)據(jù)出版模式及其流程、了解數(shù)據(jù)質(zhì)量的內(nèi)涵及標(biāo)準(zhǔn)的基礎(chǔ)上使得出版后的數(shù)據(jù)達(dá)到甚至超過數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)的一系列政策標(biāo)準(zhǔn)、工具平臺、活動、方法等的過程。

      關(guān)于數(shù)據(jù)質(zhì)量控制的內(nèi)容與方法,包括出版環(huán)節(jié)、質(zhì)量控制對象與評審人員等維度。Pampel等[49]認(rèn)為可從數(shù)據(jù)創(chuàng)建、數(shù)據(jù)管理(計劃)、數(shù)據(jù)(集)質(zhì)量評估3個環(huán)節(jié)進(jìn)行數(shù)據(jù)質(zhì)量控制。Austin等[16]認(rèn)為數(shù)據(jù)評審與審查是數(shù)據(jù)質(zhì)量控制的重要方法,包含廣泛的質(zhì)量評估內(nèi)容,如元數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)文件與文檔的充分性和計算與分析結(jié)果的準(zhǔn)確性,評審還取決于數(shù)據(jù)出版者的要求、研究者的期望或數(shù)據(jù)敏感性等因素,數(shù)據(jù)評審具體可表現(xiàn)為:(1)數(shù)據(jù)期刊或知識庫的外部專家進(jìn)行同行評審(數(shù)據(jù)內(nèi)容的科學(xué)性、可信度審查);(2)數(shù)據(jù)知識庫的數(shù)據(jù)管理專員進(jìn)行技術(shù)審查(數(shù)據(jù)形式審查);(3)數(shù)據(jù)知識庫的學(xué)科內(nèi)容管理專員對數(shù)據(jù)內(nèi)容進(jìn)行審查(數(shù)據(jù)內(nèi)容的完整性審查)。配合數(shù)據(jù)質(zhì)量控制的內(nèi)容,數(shù)據(jù)質(zhì)量控制方法包括數(shù)據(jù)評審、數(shù)據(jù)審查、數(shù)據(jù)確認(rèn)、數(shù)據(jù)驗證等,可借助計算機(jī)技術(shù)、統(tǒng)計軟件、圖表工具或參照一般原理、科學(xué)邏輯、數(shù)據(jù)標(biāo)準(zhǔn)等實現(xiàn)。

      2.3 數(shù)據(jù)出版質(zhì)量控制研究

      2.3.1 數(shù)據(jù)出版質(zhì)量控制調(diào)查報告

      部分國外研究資助機(jī)構(gòu)或?qū)W術(shù)社群對數(shù)據(jù)出版及其質(zhì)量控制問題進(jìn)行了系統(tǒng)性的調(diào)查,包括對科研人員的數(shù)據(jù)共享意愿、數(shù)據(jù)共享現(xiàn)狀、不同模式的數(shù)據(jù)出版概況、特定學(xué)科領(lǐng)域的數(shù)據(jù)開放出版狀況等。

      2008年6月,研究信息網(wǎng)絡(luò)(Research Information Network,RIN)發(fā)布題為“共享還是不共享:研究數(shù)據(jù)出版和質(zhì)量保證”的調(diào)查報告[50],從數(shù)據(jù)創(chuàng)建過程、數(shù)據(jù)管理計劃、數(shù)據(jù)集質(zhì)量評估3個方面對天文學(xué)、系統(tǒng)生物學(xué)、氣候科學(xué)等8個學(xué)科領(lǐng)域的研究者及數(shù)據(jù)出版質(zhì)量控制進(jìn)行調(diào)查,得出結(jié)論包括:(1)大多數(shù)科研人員認(rèn)為數(shù)據(jù)創(chuàng)建者本身最適合判斷自己的數(shù)據(jù)集質(zhì)量,并且信任其他科研人員的數(shù)據(jù)質(zhì)量和完整性;(2)沒有統(tǒng)一的方法對數(shù)據(jù)集內(nèi)容或技術(shù)進(jìn)行同行評審;(3)數(shù)據(jù)中心往往采用嚴(yán)格的程序以確保數(shù)據(jù)本身結(jié)構(gòu)和格式及相關(guān)元數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn),但研究者在提交數(shù)據(jù)時往往缺乏滿足這種要求的技能。

      2012年2月,永久訪問科學(xué)網(wǎng)絡(luò)記錄聯(lián)盟(Alliance for Permanent Access to the Records of Science Network,APARSEN)發(fā)布學(xué)術(shù)交流環(huán)境下科學(xué)數(shù)據(jù)同行評審報告[49],從科研人員、數(shù)據(jù)知識庫、數(shù)據(jù)期刊三方視角調(diào)研科學(xué)數(shù)據(jù)質(zhì)量控制:(1)科研人員對數(shù)據(jù)出版持積極態(tài)度,但擔(dān)心數(shù)據(jù)同行評審因所需時間和工作量的巨大而變得不切實際;(2)數(shù)據(jù)管理計劃、數(shù)據(jù)知識庫及其認(rèn)證和審計對數(shù)據(jù)質(zhì)量控制影響突出,數(shù)據(jù)知識庫的質(zhì)量控制方法因數(shù)據(jù)形式、范圍、學(xué)科而異;(3)期刊通過編輯政策、同行評審進(jìn)行數(shù)據(jù)質(zhì)量控制,但仍存在審查任務(wù)重、缺乏技術(shù)標(biāo)準(zhǔn)和普遍做法等問題。

      2012年9月,由美國國家科學(xué)基金會(NSF)資助的調(diào)研工作組進(jìn)行了題為“數(shù)據(jù)質(zhì)量監(jiān)護(hù):確保數(shù)據(jù)質(zhì)量促進(jìn)科學(xué)新發(fā)展”[51]的專題研討會,研討會將科學(xué)數(shù)據(jù)質(zhì)量可能的問題及解決方案歸為4個方面:(1)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)與語境:識別數(shù)據(jù)生成、分析、存儲、管理、訪問、利用與重用及保存等階段可能的數(shù)據(jù)質(zhì)量威脅,明確數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)及其在不同學(xué)科的差異;(2)人和制度因素:探索利益相關(guān)者進(jìn)行數(shù)據(jù)質(zhì)量控制的激勵和限制因素,明確數(shù)據(jù)質(zhì)量控制的人力和技術(shù)成本,利用風(fēng)險模型評估數(shù)據(jù)質(zhì)量控制的投資回報率;(3)有效和無害的數(shù)據(jù)監(jiān)護(hù)工具:了解數(shù)據(jù)質(zhì)量控制的工具與技術(shù)需求,推薦現(xiàn)有工具用于數(shù)據(jù)選擇、元數(shù)據(jù)自動生成與注釋、數(shù)據(jù)攝取、審計與保存;(4)數(shù)據(jù)質(zhì)量指標(biāo):確定數(shù)據(jù)質(zhì)量指標(biāo),開發(fā)應(yīng)用測量并提高數(shù)據(jù)質(zhì)量的技術(shù)。

      2016年9月,由歐盟“地平線2020”項目資助的人文科學(xué)研究數(shù)據(jù)開放存取出版調(diào)查報告[52]指出,信任是數(shù)據(jù)知識庫與其相關(guān)主體之間的關(guān)鍵因素,而審計(audit)和認(rèn)證(certification)是對數(shù)據(jù)知識庫進(jìn)行質(zhì)量控制從而提高可信度的有效方法,聯(lián)機(jī)計算機(jī)圖書館中心(OCLC)、歐盟等已經(jīng)制定數(shù)據(jù)知識庫的認(rèn)證標(biāo)準(zhǔn)。

      以上針對數(shù)據(jù)出版質(zhì)量控制的調(diào)查報告,提出了質(zhì)量控制實踐過程中可能遇到的問題及解決方案,為了解數(shù)據(jù)出版質(zhì)量控制的不足與缺失、指明未來發(fā)展方向具有重要的參考價值。具體而言涉及數(shù)據(jù)質(zhì)量控制兩個方面的重要議題:(1)數(shù)據(jù)質(zhì)量首先依賴研究人員的“自覺”與“自律”;(2)工作量大、技能要求較高、缺乏成熟的標(biāo)準(zhǔn)規(guī)范以及工具方法,使得數(shù)據(jù)質(zhì)量控制存在困難甚至有些“不切實際”。

      2.3.2 數(shù)據(jù)出版質(zhì)量控制實踐研究

      針對期刊政策所涉數(shù)據(jù)質(zhì)量控制,不同出版社有不同做法:自然出版集團(tuán)規(guī)定數(shù)據(jù)評議編委會必須包括至少1名數(shù)據(jù)標(biāo)準(zhǔn)審核專家,對作者提交數(shù)據(jù)的質(zhì)量進(jìn)行評估,從而確保實驗數(shù)據(jù)的完整性和可重用性;Elsevier要求期刊編輯在評議文章時對數(shù)據(jù)的時效性、客觀性及來源的真實性等進(jìn)行初步評估[27]。另有期刊與數(shù)據(jù)知識庫合作進(jìn)行數(shù)據(jù)管理,如PLOS與Dryad合作進(jìn)行數(shù)據(jù)審查,PLOS的作者將數(shù)據(jù)提交到Dryad后,數(shù)據(jù)與論文分別接受評審,數(shù)據(jù)和論文同時出版[53]。

      針對數(shù)據(jù)知識庫的數(shù)據(jù)質(zhì)量控制,包括數(shù)據(jù)本身、元數(shù)據(jù)及相關(guān)文檔等內(nèi)容,采用了不同的方法技術(shù),涉及不同的利益相關(guān)方。張靜蓓等[48]認(rèn)為數(shù)據(jù)知識庫質(zhì)量控制包括文件整體質(zhì)量控制、文檔說明質(zhì)量控制、科學(xué)數(shù)據(jù)本身質(zhì)量控制、源代碼質(zhì)量控制,其利益相關(guān)者包括研究人員、大學(xué)圖書館、期刊出版商等。Gordon[39]發(fā)現(xiàn)Dryad存在同一創(chuàng)建者姓名表述不統(tǒng)一、日期表達(dá)方式不統(tǒng)一、資源類型與事實不相符等問題,建議加強對數(shù)據(jù)知識庫的元數(shù)據(jù)質(zhì)量控制。Csordas等[54]調(diào)研蛋白質(zhì)組學(xué)領(lǐng)域的數(shù)據(jù)知識庫PRIDE的數(shù)據(jù)質(zhì)量控制方法,首先對上傳至PRIDE的XML文件進(jìn)行語法檢查;其次對元數(shù)據(jù)是否缺失、是否一致進(jìn)行檢查;最后根據(jù)蛋白質(zhì)組學(xué)領(lǐng)域數(shù)據(jù)的學(xué)科特點檢查數(shù)值的正確性。

      針對數(shù)據(jù)論文的質(zhì)量控制,主要采用同行評審的方法,數(shù)據(jù)評審尚存一定的問題,需要加強解決方案的探索。數(shù)據(jù)論文同行評審包括封閉式和開放式兩種形式,側(cè)重考查前期質(zhì)量控制、論文和數(shù)據(jù)的一致性、論文中數(shù)據(jù)的質(zhì)量、論文中數(shù)據(jù)的可用性、論文中數(shù)據(jù)的功用和貢獻(xiàn)度等內(nèi)容[55]。基于對數(shù)據(jù)同行評審進(jìn)展的梳理,Murphy[56]認(rèn)為目前學(xué)界對科學(xué)數(shù)據(jù)同行評審缺少準(zhǔn)確的理解,對數(shù)據(jù)評審與傳統(tǒng)出版物評審的關(guān)聯(lián)與區(qū)別尚不明確,同時也沒有可持續(xù)的角色承擔(dān)數(shù)據(jù)評審的工作。黃如花等[57]從數(shù)據(jù)館員、數(shù)據(jù)驗證服務(wù)、數(shù)據(jù)生命周期管理的角度探索高校圖書館參與數(shù)據(jù)驗證的可能路徑。

      基于3種數(shù)據(jù)出版模式研究數(shù)據(jù)質(zhì)量控制,相關(guān)研究結(jié)果表明[11-12,58]:(1)獨立數(shù)據(jù)出版的質(zhì)量控制:同時進(jìn)行技術(shù)審查和同行評審,前者主要從技術(shù)標(biāo)準(zhǔn)層面對數(shù)據(jù)及數(shù)據(jù)文檔進(jìn)行完整性的控制;后者確認(rèn)數(shù)字資產(chǎn)的完整性、評價數(shù)據(jù)集的完整性并評估數(shù)據(jù)文檔的完整性,但目前有相當(dāng)一部分?jǐn)?shù)據(jù)知識庫不進(jìn)行同行評審或只進(jìn)行內(nèi)部評審。(2)作為論文附件的數(shù)據(jù)出版質(zhì)量控制:內(nèi)嵌于期刊論文的數(shù)據(jù)通常表現(xiàn)為圖表、表格、數(shù)字等形式,主要從邏輯上審查數(shù)據(jù)對研究結(jié)論的影響,依賴數(shù)據(jù)創(chuàng)建者對數(shù)據(jù)質(zhì)量的把控。(3)數(shù)據(jù)論文出版:考慮到數(shù)據(jù)論文是數(shù)據(jù)集的描述,數(shù)據(jù)集質(zhì)量體現(xiàn)在完整性、描述的詳細(xì)程度、數(shù)據(jù)有用性,因此數(shù)據(jù)論文質(zhì)量應(yīng)包括數(shù)據(jù)質(zhì)量、描述質(zhì)量、描述和數(shù)據(jù)一致性,一般對

      數(shù)據(jù)及論文進(jìn)行嚴(yán)格的同行評審。

      2.3.3 數(shù)據(jù)出版質(zhì)量控制的問題與困難

      綜上所述,因目前所處的數(shù)據(jù)出版環(huán)境,加之?dāng)?shù)據(jù)及數(shù)據(jù)出版本身的特點,數(shù)據(jù)出版質(zhì)量控制尚存以下問題:(1)數(shù)據(jù)龐大而復(fù)雜、數(shù)據(jù)量增長較快,數(shù)據(jù)評審不得不依靠計算機(jī)的幫助,評審者需要具備足夠的能力并借助軟件工具進(jìn)行科學(xué)質(zhì)量控制;(2)不同類型、不同學(xué)科的數(shù)據(jù)存在明顯差異,難有統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范;(3)理解數(shù)據(jù)需要了解數(shù)據(jù)產(chǎn)生背景及上下文語境,而背景通?!安豢梢姟保率箶?shù)據(jù)質(zhì)量控制的難度加大;(4)數(shù)據(jù)評審是一項復(fù)雜的系統(tǒng)工程,數(shù)據(jù)評審需與數(shù)據(jù)政策、數(shù)據(jù)發(fā)布、數(shù)據(jù)存儲等環(huán)節(jié)協(xié)同;需要學(xué)科領(lǐng)域?qū)<?、?shù)據(jù)專家、數(shù)據(jù)管理人員甚至軟件工程師的協(xié)同,很少有評審者能夠評審數(shù)據(jù)質(zhì)量的所有方面;現(xiàn)有的數(shù)據(jù)評審大多仍保留了傳統(tǒng)同行評審的形式,未曾深入對數(shù)據(jù)本身的評審;(5)數(shù)據(jù)出版質(zhì)量控制需要大量時間、精力的投入,其投入產(chǎn)出效率可能存在一定的質(zhì)疑;(6)數(shù)據(jù)質(zhì)量不僅在于數(shù)據(jù)本身,還在于對應(yīng)的元數(shù)據(jù)及相關(guān)文檔;(7)數(shù)據(jù)出版質(zhì)量控制是內(nèi)嵌于數(shù)據(jù)出版生態(tài)系統(tǒng)的子系統(tǒng),要求良好的數(shù)據(jù)共享文化作為基礎(chǔ)。鑒于以上困難,事實上目前的數(shù)據(jù)質(zhì)量控制首先有賴于作者自我審查[17],而后才是同行評審及其他各類審查的質(zhì)量控制手段。

      3 現(xiàn)有研究述評與未來研究展望

      綜合以上數(shù)據(jù)出版的理論與實踐研究綜述,目前相關(guān)研究具有以下特點及欠缺:第一,國外理論研究內(nèi)容較為豐富,涉及數(shù)據(jù)出版概念、作用、模式、流程、問題、挑戰(zhàn)等多個方面,對數(shù)據(jù)出版實踐有較強的指導(dǎo)作用;第二,國外較為注重對數(shù)據(jù)出版進(jìn)行長篇幅的系統(tǒng)研究,有助于全面了解數(shù)據(jù)出版的關(guān)鍵問題;第三,國內(nèi)早期多對國外理論研究進(jìn)行推介、對國外實踐進(jìn)行案例研究,后期開始進(jìn)行少量的創(chuàng)新性理論思考;第四,數(shù)據(jù)出版最佳實踐“從0到1”的建設(shè)過程與發(fā)展經(jīng)驗對推動更大范圍的數(shù)據(jù)出版具有重要借鑒作用,而目前較為缺乏對這種成熟經(jīng)驗的總結(jié)和呈現(xiàn);第五,目前數(shù)據(jù)出版主要發(fā)生在自然科學(xué)與工程技術(shù)領(lǐng)域,缺少對國內(nèi)期刊、人文社科期刊探索數(shù)據(jù)出版的研究與思考;第六,欠缺對研究人員數(shù)據(jù)共享意愿影響因素的調(diào)查,研究人員及學(xué)術(shù)共同體對數(shù)據(jù)出版需求的精準(zhǔn)把握;第七,存在較多的系統(tǒng)性梳理與研究欠缺之處:如對數(shù)據(jù)出版歷史機(jī)遇與發(fā)展進(jìn)程的系統(tǒng)梳理,對數(shù)據(jù)出版系統(tǒng)基礎(chǔ)設(shè)施建設(shè)與軟實力建設(shè)的系統(tǒng)研究,對數(shù)據(jù)成果和數(shù)據(jù)作者導(dǎo)向的數(shù)據(jù)出版影響力的評價方法研究等。

      綜合以上數(shù)據(jù)出版質(zhì)量控制的理論與實踐研究綜述,相關(guān)研究特點及欠缺表現(xiàn)為:第一,國外通常對數(shù)據(jù)出版質(zhì)量控制進(jìn)行專題研討和調(diào)查報告,有助于發(fā)現(xiàn)問題、探討解決方案;第二,國內(nèi)研究相對分散,缺乏調(diào)查報告、碩博士論文或?qū)V鴮ο嚓P(guān)問題進(jìn)行系統(tǒng)梳理和研究;第三,側(cè)重對數(shù)據(jù)出版質(zhì)量控制的實踐進(jìn)行案例分析和研究,較為缺少對數(shù)據(jù)出版及質(zhì)量控制理論與方法的探討;第四,國內(nèi)研究主要集中于對國外實踐經(jīng)驗的描述,缺少對國內(nèi)數(shù)據(jù)出版問題與困難的建設(shè)性思考;第五,對數(shù)據(jù)出版質(zhì)量控制所需時間、金錢等投入產(chǎn)出與成本效益缺少量化評估和直觀體現(xiàn);對研究者、數(shù)據(jù)管理者等相關(guān)人員滿足數(shù)據(jù)質(zhì)量控制所需的技能要求缺乏明確的梳理;對數(shù)據(jù)質(zhì)量控制所需的標(biāo)準(zhǔn)規(guī)范和方法工具缺乏足夠的需求分析和培訓(xùn)設(shè)計。

      可以預(yù)見,未來將有更多的學(xué)者對科學(xué)數(shù)據(jù)出版的理論、方法、平臺、工具、實踐等進(jìn)行系統(tǒng)而綜合的研究,探討數(shù)據(jù)出版及數(shù)據(jù)質(zhì)量控制存在的問題和面臨的困難,推動數(shù)據(jù)出版實踐進(jìn)展,推動科學(xué)數(shù)據(jù)開放事業(yè)的可持續(xù)發(fā)展。具體而言:加快數(shù)據(jù)出版政策制度的研究,保護(hù)數(shù)據(jù)作者的知識產(chǎn)權(quán),平衡知識產(chǎn)權(quán)保護(hù)和開放傳播的關(guān)系,對原有學(xué)術(shù)評價體系進(jìn)行適應(yīng)性變革,在學(xué)術(shù)評價體系中承認(rèn)數(shù)據(jù)出版的學(xué)術(shù)貢獻(xiàn);加快數(shù)據(jù)出版標(biāo)準(zhǔn)規(guī)范的研制,完善元數(shù)據(jù)標(biāo)準(zhǔn)、細(xì)化數(shù)據(jù)引用標(biāo)準(zhǔn)使之更具可操作性;調(diào)查數(shù)據(jù)質(zhì)量控制對研究人員和數(shù)據(jù)管理人員的技能要求并建立適應(yīng)的培訓(xùn)體系;加快數(shù)據(jù)出版技術(shù)、工具、平臺的開發(fā),將數(shù)據(jù)可視化、動態(tài)數(shù)據(jù)呈現(xiàn)等技術(shù)應(yīng)用于數(shù)據(jù)出版;對數(shù)據(jù)出版及其質(zhì)量控制的影響因素進(jìn)行實證研究,從中發(fā)現(xiàn)問題、消除障礙、提出解決方案;從投入產(chǎn)出、成本效益、定性定量的角度分析數(shù)據(jù)出版及其質(zhì)量控制的經(jīng)濟(jì)效益與社會效益;探索數(shù)據(jù)出版賦能下的科學(xué)數(shù)據(jù)影響力評價及學(xué)術(shù)評價,充分展現(xiàn)數(shù)據(jù)出版在增加學(xué)術(shù)影響力方面的作用。

      猜你喜歡
      知識庫論文期刊
      期刊更名啟事
      期刊簡介
      期刊問答
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
      高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      下期論文摘要預(yù)登
      下期論文摘要預(yù)登
      下期論文摘要預(yù)登
      2013年5—12月最佳論文
      新聞前哨(2014年1期)2014-03-12 22:10:06
      通道| 岫岩| 东阿县| 渝中区| 通渭县| 城步| 色达县| 温宿县| 汽车| 会东县| 商南县| 嘉义县| 大兴区| 天峻县| 龙井市| 安义县| 龙南县| 威海市| 瑞安市| 文安县| 彝良县| 洪雅县| 广州市| 涟水县| 塘沽区| 惠水县| 夏津县| 永济市| 疏附县| 蒙山县| 朝阳市| 蓬安县| 三明市| 瓮安县| 礼泉县| 庆安县| 兴仁县| 繁峙县| 远安县| 姚安县| 报价|