黃國彬 王舒 屈亞杰
摘要 根據科學數(shù)據產生情形,將出版模式歸納為科學數(shù)據集成出版與獨立出版兩種模式,并從數(shù)據集描述方式、質量審核方式與出版費用三個方面對歸納的出版模式進行了比較分析。通過對不同出版模式下的典型案例的分析,總結出如下結論:數(shù)據集描述方式和對象與出版模式中涉及的出版主體有關;獨立出版模式的質量審核更為完善;不同出版模式,其付費標準和費用承擔主體不同。對當前科學數(shù)據出版模式的比較研究,可為國內科學數(shù)據出版實踐發(fā)展提供借鑒。
關鍵詞 科學數(shù)據 出版模式 集成出版 獨立出版
分類號 G255.51
DOI 10.16603/j. issn- 1002-1027. 2018. 01. 005
1 引言
德國蒂姆(Thieme)出版集團的化學雜志負責人蘇珊娜·哈克(Susanne Haak)博士認為:“在自然科學領域,獲取原始研究數(shù)據是研究工作的一個基本條件?!边@一觀點同樣適用于人文社會科學領域。例如人文社會科學領域的定量研究大多基于調查數(shù)據、統(tǒng)計數(shù)據,其研究開展的關鍵在于原始數(shù)據的獲取。而不論是自然科學還是人文社會科學領域,數(shù)據的獲取一般有以下兩種途徑:一是通過研究者本人觀測、實驗、調查或訪談獲取數(shù)據;二是通過共享其他研究者已產生的數(shù)據。在實際開展研究過程中,由于資金、設備、場地、時間等因素限制,部分研究人員難以通過自身努力產生科學數(shù)據?;诖?,研究者通過數(shù)據共享渠道,利用已有的科學數(shù)據來開展研究工作顯得尤為重要。目前,雖然美國的國家自然科學基金委員會、英國的皇家理事會及其七個研究委員會等科研資助機構,出臺了關于科學數(shù)據共享的政策,但由于缺乏有效的科學數(shù)據引用機制和學術貢獻認可機制,大量分散在不同國家、不同地區(qū)、不同研究項目及各個科學家手中的科學數(shù)據難以主動、有效地共享。如何解決上述問題成為期刊出版界、數(shù)據知識庫和科研基金機構探討和研究的主要問題。而在數(shù)字環(huán)境和開放獲取潮流中,科學數(shù)據出版被認為是推動科學數(shù)據共享的重要手段。但到目前為止,學術界對科學數(shù)據出版并沒有統(tǒng)一明確的定義。而明確含義是總結和分析科學數(shù)據出版模式的前提。因此,筆者結合國內外學者的觀點,總結出科學數(shù)據出版是正式的科學數(shù)據發(fā)布,即在數(shù)據發(fā)布過程中遵循規(guī)范的質量管理和控制流程,為數(shù)據用戶增加數(shù)據的價值,如創(chuàng)建元數(shù)據和同行評審等,使得科學數(shù)據集達到可發(fā)現(xiàn)、可獲取、可理解和可追溯的狀態(tài)。
2 國內外研究現(xiàn)狀
目前國內外學者對科學數(shù)據出版模式的研究,可以歸納為如下三個方面:(1)對某一種出版模式的深入研究。例如,馬建玲、蘇珊·萊利(Susan Reil-ly)等人對學術論文與科學數(shù)據集成出版進行了研究。布瑞澤(Brase)等人以世界數(shù)據中心(World Data Centers,WDC)和德國科學技術圖書館為例,對數(shù)據知識庫獨立出版科學數(shù)據的模式展開研究。(2)以典型案例為研究對象,探討該案例的出版模式。例如,李紅星等人結合寒區(qū)旱區(qū)科學數(shù)據中心的實踐經驗,提出數(shù)據中心和多期刊聯(lián)合出版數(shù)據的模式,并對該模式深入探討。高雅探討了ENCODE項目科學數(shù)據出版模式,并總結了該出版模式在科學數(shù)據挖掘和利用方面的創(chuàng)新之處。(3)對某個學科領域的出版模式展開研究。例如埃里克(Eric C.Kansa)等人研究了考古學領域的科學數(shù)據出版現(xiàn)狀與存在的問題,在此基礎上提出“數(shù)據共享即出版”的科學數(shù)據出版模式。
上述關于科學數(shù)據出版模式的研究,多集中于對某一種出版模式或典型科學數(shù)據出版案例進行詳細介紹和分析,而對于多種模式的比較研究開展得較少。雖然梁子裕和張靜蓓對多種科學數(shù)據出版模式進行歸納總結和比較分析,但僅籠統(tǒng)地從優(yōu)缺點的角度進行分析,忽略了科學數(shù)據出版過程中的數(shù)據集描述、質量審核等關鍵環(huán)節(jié)的比較分析。此外,現(xiàn)有研究中科學數(shù)據出版模式的劃分標準模糊不清。因此,文章根據科學數(shù)據的產生情形,結合科學數(shù)據出版的定義,歸納與總結當前科學數(shù)據的出版模式。在此基礎上,運用比較分析法,從數(shù)據集描述、質量審核和出版費用三個角度對不同模式展開比較分析。
3 科學數(shù)據的出版模式及案例分析
首先,根據科學數(shù)據的產生情形對科學數(shù)據的出版模式進行一次劃分??茖W數(shù)據的產生情形有兩種,一是伴隨著期刊論文的產生而產生的,通常是科研人員為了研究某個問題,使用實驗、調查或模擬的研究方法,并在此過程中產生了原始數(shù)據。此類數(shù)據通常與某篇學術論文相關,因此通常與學術論文集成出版。第二種情形是通過儀器設備觀測自然現(xiàn)象,并以數(shù)據的形式將其觀測的現(xiàn)象記錄下來,例如水文數(shù)據、氣象數(shù)據等;或者是對社會現(xiàn)象的調查、統(tǒng)計,并以數(shù)據的形式呈現(xiàn)出來,例如調查數(shù)據、統(tǒng)計數(shù)據等。此類數(shù)據是在特定的時間、地點產生的,因其產生的時空條件具有不可復制的特點,需要被很好地保存。該類科學數(shù)據的產生與學術文獻沒有直接關系,通常以獨立學術成果的形式出版。因此,筆者將此出版模式稱為科學數(shù)據獨立出版模式。其次,對集成出版而言,依據科學數(shù)據的存儲位置,可細分為學術期刊自建設施自行出版和學術期刊與公共數(shù)據倉儲合作出版兩種。對獨立出版模式而言,依據出版主體,可細分為數(shù)據知識庫出版和數(shù)據期刊出版兩種(如圖1所示)。
3.1 科學數(shù)據集成出版
一篇學術文獻往往離不開原始數(shù)據的支撐。在傳統(tǒng)的學術出版體系中,出版商更多地關注學術期刊、科技報告等文本文獻的出版。但隨著數(shù)據驅動研究范式的形成和數(shù)字科研環(huán)境的影響,支撐學術論文的原始數(shù)據在科學研究活動中的地位越來越重要。周波認為科學數(shù)據已經由科學研究的起點和基礎發(fā)展成為科研活動的牽引力之一。越來越多的學術期刊出版商認識到在出版學術論文的同時出版支撐論文的原始數(shù)據的重要性。因此,學術論文與科學數(shù)據集成出版的模式應運而生。將二者集成出版,一方面為學術論文的評價與評審提供數(shù)據支持;另一方面,數(shù)據用戶通過文獻可以更好地理解科學數(shù)據,從而推動后續(xù)科研人員以出版的科學數(shù)據為基礎開展更深層次或更廣范圍的研究,實現(xiàn)科學創(chuàng)新。
通過該模式出版科學數(shù)據,流程通常是,在學術期刊的要求下,作者在向期刊提交學術論文的同時提交支撐其論文的科學數(shù)據,有的期刊選擇白行管理科學數(shù)據,而有的期刊選擇將科學數(shù)據提交至公共數(shù)據倉儲并委托其管理。根據科學數(shù)據管理機構和存儲位置的不同,可將集成出版模式分為以下兩種。
3.1.1 提交至學術期刊,由學術期刊自行出版
該模式以學術期刊為科學數(shù)據的出版主體,學術期刊在出版學術論文的同時將支撐學術論文核心論點的原始數(shù)據進行出版。該模式下,科學數(shù)據是由學術期刊自建設施白行管理,典型案例為德國蒂姆(Thieme)集團出版的化學期刊,如Synthesis。2010年,Thieme意識到,由于化學領域沒有科學數(shù)據中央存儲庫,大量的數(shù)據分散在科學家自己的電腦上,導致數(shù)據不能有效地發(fā)布和共享。因此,它與德國科學技術圖書館合作建立科學數(shù)據存儲平臺,成為第一家將原始數(shù)據與學術論文同時出版并在世界范圍內共享的出版社。其出版的科學數(shù)據主要是實驗中收集的原始數(shù)據,該數(shù)據幫助化學領域的學者了解在化學反應的過程中發(fā)生了什么,以便更好地理解論文。原始數(shù)據以壓縮文件的形式出版,用戶可無限制地下載至本地。數(shù)據集與論文集成在同一界面,其出版信息包括數(shù)據集出版時間、摘要和DOI號(如圖2所示)。
Thieme科學數(shù)據的出版流程為:(1)在提交論文的同時,將支持論文的原始數(shù)據提交至Thieme;(2)Thieme將科學數(shù)據貯存在白建的數(shù)據中心;(3)在德國科學技術圖書館注冊并由其向原始數(shù)據分配DOI號;(4)原始數(shù)據通過添加在Thieme e-Journal系統(tǒng)中實現(xiàn)出版。
3.1.2 提交至公共的科學數(shù)據知識庫,并委托其管理
在該模式下,科學數(shù)據的出版主體為學術期刊和科學數(shù)據知識庫。當作者向期刊提交論文時,被要求將支撐論文核心論點的科學數(shù)據提交至科學數(shù)據知識庫,由科學數(shù)據知識庫向數(shù)據集分配DOI號,之后,作者需在待發(fā)表的論文中引用數(shù)據集,同時科學數(shù)據知識庫在數(shù)據出版頁面上插入論文基本信息。該模式的典型案例為Dryad數(shù)字倉儲(DryadDigital Repository,Dryad)提供的集成出版服務。Dryad的創(chuàng)建與發(fā)展起源于聯(lián)合數(shù)據存儲政策提議(Joint Archiving Policy,JDAP)。JDAP是由生物進化領域的許多期刊于2011年聯(lián)合發(fā)表的一個政策模式倡議。其核心內容是:出版學術論文的前提是將支撐論文結論的數(shù)據存儲至合適的數(shù)據知識庫中公開出版,并委托其管理。目前該倡議提出的模板得到了其他領域學術期刊的認同。Dryad作為一個公共數(shù)據知識庫,是所有接受JDAP模板的學術期刊所推薦的數(shù)據倉儲之一。目前有107家期刊實現(xiàn)了與Dryad的集成出版。因此,筆者選取Dryad集成出版服務為該模式的典型案例并重點分析。Dryad將數(shù)據集信息與來源文獻信息集成在一個文件包中,可在該包中訪問來源文獻和下載科學數(shù)據。此外,Dryad要求,在來源文獻中必須插入存儲在Dryad中的支撐數(shù)據的DOI號。
在Dryad集成出版中涉及三個主體,分別是作者、期刊、數(shù)據倉儲。論文由作者提交至期刊,由期刊進行出版;而數(shù)據集由作者提交至Dryad.由Dry-ad進行出版,但二者需要集成,因此出版流程較為復雜,如下:(1)作者向期刊提交論文手稿;(2)當論文審核通過后,期刊利用自動通知系統(tǒng)告知Dry-ad,之后,Dryad為預期數(shù)據創(chuàng)建臨時記錄,并將臨時記錄的鏈接發(fā)送給期刊(3)同時期刊通知作者向Dryad提交數(shù)據并向作者提供臨時記錄的鏈接;(4)作者將數(shù)據及其描述文件上傳至臨時記錄中;(5)Dryad為記錄分配一個DOI號,并將其同時發(fā)送給作者和期刊;(6)Dryad 工作人員審查數(shù)據,對每個文件執(zhí)行基本檢查,并發(fā)布數(shù)據包;(7)期刊保證其所有版本的論文都在文中和文后參考引文中附有數(shù)據集的DOI號。此外,當論文在審核中時,Dryad會將數(shù)據集的臨時記錄鏈接發(fā)送至期刊,以供同行評審人員對數(shù)據集進行審查。
3.2 科學數(shù)據獨立出版
并不是所有的科學數(shù)據都有來源文獻,例如水文數(shù)據、氣象數(shù)據等,是通過某個長期觀測項目持續(xù)產生的,從來源層面并沒有直接相關的文獻。對于此類科學數(shù)據,通常是以獨立學術成果的形式出版。該出版模式下,數(shù)據歸檔是出版的必要環(huán)節(jié)。根據出版流程,可將獨立出版模式劃分兩種。一是直接通過數(shù)據歸檔機構出版;二是將數(shù)據歸檔后,由數(shù)據期刊出版。
3.2.1 數(shù)據知識庫出版
在該出版模式中,數(shù)據知識庫是科學數(shù)據出版的核心機構。數(shù)據生產者根據其科學數(shù)據的特點和資助機構的要求,選擇合適的數(shù)據知識庫存儲其科學數(shù)據,數(shù)據知識庫按其政策收取或免去費用,對科學數(shù)據實施長期監(jiān)護,并向每個數(shù)據集提供DOI號,以保證科學數(shù)據的可訪問性、可理解性和可共享性。目前,數(shù)據知識庫的學科范圍較廣,從自然科學到社會科學;涉及的數(shù)據多為特定時空范圍內通過大型儀器設備或大型調查而產生的,其類型主要包括觀測數(shù)據、統(tǒng)計數(shù)據和調查數(shù)據等。其中較為典型的數(shù)據知識庫出版案例為英國的信息環(huán)境數(shù)據中心(The Envlronmental Information Data Centre,EIDC)。EIDC由世界級的研究中心生態(tài)與水文中心(Centre for Ecology &.Hydrology,CEH)主力、,出版由CEH長期監(jiān)測全英水文環(huán)境而獲得的觀測數(shù)據。與集成出版下的兩種出版模式不同,EIDC出版信息較為單一,僅有數(shù)據集本身的相關信息,主要包含基本出版信息、數(shù)據集內容信息和數(shù)據集獲取信息三個方面。
由于該模式涉及的數(shù)據出版主體僅為數(shù)據知識庫,因此出版流程較為簡單。EIDC的出版流程為:(1)數(shù)據生產者提交數(shù)據,同時須提交數(shù)據集的描述文檔;(2)數(shù)據知識庫審查數(shù)據質量和元數(shù)據質量(3)數(shù)據知識庫存儲數(shù)據,將數(shù)據存儲在安全的位置并定期備份和審查;(4)數(shù)據知識庫為數(shù)據分配DOI號;(5)公開發(fā)布數(shù)據集,數(shù)據用戶可通過CEH數(shù)據目錄檢索數(shù)據集,出版完成。
3.2.2 數(shù)據期刊出版
數(shù)據期刊出版是指將科學數(shù)據作為獨立的學術成果,以數(shù)據論文的形式通過數(shù)據期刊出版。該出版模式下,出版的內容包含數(shù)據論文與科學數(shù)據兩個實體。數(shù)據論文是正式發(fā)表的一種論文類型,但與傳統(tǒng)學術論文不同,其內容并不包含基于科學假設和科學問題的研究結果,而是對數(shù)據采集、獲取、處理等過程和方法的描述,其目的是讓科研群體更好地發(fā)現(xiàn)、獲取、理解與復用數(shù)據,從而促進科研創(chuàng)新。數(shù)據論文發(fā)表在數(shù)據期刊上,而科學數(shù)據存儲在數(shù)據知識庫中,但數(shù)據論文須與其描述的公開發(fā)布的科學數(shù)據鏈接,這個鏈接通??梢允荱RL或數(shù)據知識庫分配給數(shù)據集的DOI。
該模式較為典型的案例是《地理數(shù)據期刊》(Geoscience Data JournaI,GDJ).GDJ是Wiley旗下的在線開放獲取數(shù)據期刊,通過數(shù)據論文的形式出版地理領域的科學數(shù)據。GDJ的出版流程包括以下幾步:(1)將科學數(shù)據存儲至推薦的數(shù)據機構庫,并獲得DOI號;(2)按照期刊的格式要求,撰寫數(shù)據論文并在線提交;(3)數(shù)據論文和數(shù)據集接受同行評議;(4)發(fā)表數(shù)據論文,并在論文中附上數(shù)據集的DOI號。用戶可通過數(shù)據論文獲取數(shù)據集的描述信息及數(shù)據集本身。
4 科學數(shù)據的不同出版模式比較分析
總體來說,當前科學數(shù)據出版處于多種模式并存的階段。雖然每種出版模式各不相同,但其m版過程都會涉及以下三個環(huán)節(jié),即對數(shù)據集進行描述、質量審核、收取出版費用。下面以這三個環(huán)節(jié)為切入點,對當前科學數(shù)據的不同出版模式進行比較分析。
4.1 數(shù)據集描述
對科學數(shù)據進行描述是數(shù)據出版的第一步。這是由于科學數(shù)據與學術論文、科技報告、科技圖書等傳統(tǒng)的科學文獻不同,從形式來看可能是一組觀測數(shù)值、實驗數(shù)據記錄、問卷數(shù)據或者一段計算機代碼。如果不對其變量含義、產生背景、獲取方法等進行描述,則無法掌握科學數(shù)據的具體含義。所以不論是通過何種模式出版科學數(shù)據,都需要對科學數(shù)據進行描述。但不同的出版模式對科學數(shù)據進行描述的方式和描述的具體內容有所不同。文章根據每種出版模式的典型案例,對不同出版模式下的描述方式和描述內容進行了總結(表1)。
就描述方式而言,主要包括結構化描述、半結構化描述和非結構化描述。結構化描述是指以元數(shù)據為描述工具對科學數(shù)據進行具體說明,通常遵循某個元數(shù)據標準,其描述結果可被計算機自動識別。例如,Dryad和EIDC都以元數(shù)據為描述工具對科學數(shù)據進行結構化描述。前者遵循Dryad元數(shù)據應用方案(Dryad Metadata Application Profile),該方案是在都柏林核心的基礎上結合本倉儲集成出版的特點進行擴展的。后者采用UK GEMINI標準和INSPIRE標準,這兩個元數(shù)據標準分別是英國和歐盟在地理學領域的認可元數(shù)據標準。非結構化描述方式是指以文本的形式對數(shù)據集進行描述,并沒有標準或固定的格式可供遵循,且描述結果僅人工可讀。例如Thieme對出版的科學數(shù)據以非結構化的方式進行描述.在數(shù)據集文件包中有一個以“Re-adme”命名的PDF文件,其內容是對數(shù)據集的簡要描述。半結構化的描述方式介于上述兩種描述之間,是指按照固定的結構對科學數(shù)據進行描述。數(shù)據期刊通常采用半結構化方式描述科學數(shù)據,這是由于數(shù)據期刊發(fā)表的數(shù)據論文即為對科學數(shù)據的描述,而數(shù)據論文一般具有固定的結構。例如《地理數(shù)據期刊》規(guī)定了詳細的數(shù)據論文結構,包括標題頁、數(shù)據集信息頁、正文、致謝、參考文獻等。其中正文包含數(shù)據摘要、數(shù)據產生方法、數(shù)據格式與存儲位置、數(shù)據集使用與再利用信息。
就描述的內容而言,包括數(shù)據集基本信息、數(shù)據集來源文獻信息、數(shù)據集使用信息、數(shù)據集內容信息。數(shù)據集基本信息包括數(shù)據集的題名、作者、出版時間和摘要;來源文獻信息是指數(shù)據集所支撐的文獻的基本信息;數(shù)據集使用信息是指數(shù)據集使用所遵循的協(xié)議或規(guī)定;數(shù)據集內容信息是指數(shù)據集產生方法、數(shù)據集質量、數(shù)據集的時空覆蓋范圍等。屬于集成出版模式的Thieme和Dryad描述的具體內容為數(shù)據集基本信息和來源文獻信息;而屬于獨立出版模式的EIDC和GDJ描述的具體內容包括數(shù)據集基本信息、數(shù)據集使用信息和數(shù)據集內容信息。
使用何種描述方式描述科學數(shù)據取決于出版過程中涉及的出版主體。出版主體包含數(shù)據知識庫的出版模式,通常采用結構化的描述方式如集成出版模式下委托數(shù)據知識庫管理模式和獨立出版模式下數(shù)據知識庫直接出版模式;出版主體涉及學術期刊的出版模式,采用非結構化的描述方式;出版主體為數(shù)據期刊的出版模式采用半結構化的描述方式。此外,四種模式在描述的具體內容方面既有共性也有差異。數(shù)據集基本信息為描述的最小信息集合,四種出版模式在描述數(shù)據集時均包含了數(shù)據集的基本信息。來源文獻信息為集成出版模式的必備描述項目,這是由集成出版的數(shù)據與文獻集成特性決定的。而獨立出版的兩種模式的描述內容除了數(shù)據集基本信息外,還包含了數(shù)據集使用信息和數(shù)據集內容信息。因此,與集成出版模式相比,獨立出版模式對數(shù)據集的描述更為詳細和全面。
4.2 質量審核
質量審核是學術出版的核心環(huán)節(jié)。而科學數(shù)據作為學術成果的一種類型,在出版過程中必然要經過質量審核這一關鍵環(huán)節(jié)。傳統(tǒng)學術文獻已有成熟的質量審核機制,如學術論文通過同行評議的方式進行質量審核。而科學數(shù)據作為一種新型的學術資源,其質量審核機制尚未成熟和統(tǒng)一,具體表現(xiàn)為不同出版模式的質量審核主體和對象不盡相同(表2)。在科學數(shù)據出版中,質量審核主體主要包括期刊編輯、數(shù)據知識庫工作人員、同行評議人員和數(shù)據集生產者;審核對象包括數(shù)據集本身、元數(shù)據、數(shù)據論文等。其中對數(shù)據集本身質量而言,包括技術質量與科學質量??茖W數(shù)據的技術質量是指數(shù)據集本身的完整性和描述的充分性,而科學質量是指數(shù)據集收集方法的評價、科學數(shù)據的合理性和再使用的價值。元數(shù)據是關于數(shù)據的數(shù)據,是對數(shù)據集的結構化描述信息,其質量主要體現(xiàn)在是否完整、準確地以可理解和可獲取的方式描述數(shù)據集。數(shù)據論文是解釋數(shù)據的學術性文章,一般有其固定的結構,因此在數(shù)據論文的質量審核中需要考慮文章的科學性、結構的完整性等。以所舉的四個典型案例對此進行具體說明。與學術論文一同提交至Thieme的原始數(shù)據,是通過期刊編輯和同行評議人員對原始數(shù)據的質量進行審核。期刊編輯主要審核的是數(shù)據集是否完整,是否論文內容一致。同行評議人員審核的對象主要是學術論文,但在審核過程中為了查驗論文的科學性,可向編輯提出申請以審查與論文相關的原始數(shù)據,客觀上實現(xiàn)了原始數(shù)據的科學質量的審核。Dryad通過與學術期刊合作實現(xiàn)科學數(shù)據與其來源文獻集成出版。在出版過程中,Dryad工作人員與同行評議人員共同完成對科學數(shù)據的質量審核。其中Dryad 工作人員在數(shù)據提交至倉儲時對數(shù)據的技術質量進行審核,例如檢查上傳的數(shù)據集是否能夠打開、數(shù)據在傳輸過程中是否有損壞等,而同行評議人員主要是來源文獻所在期刊的評審專家,在評審論文的過程中對數(shù)據集進行訪問以審查數(shù)據集的科學質量。EIDC對其出版的科學數(shù)據,由其工作人員對數(shù)據集進行質量審核,主要審核的對象是數(shù)據集的技術質量和元數(shù)據。該數(shù)據中心提出了元數(shù)據質量審核的標準:準確性、可用性、可讀性和可檢索性。而GDJ的質量審核主體為同行評議人員,對數(shù)據集的技術質量和科學質量、元數(shù)據、數(shù)據論文三方面進行了全面的審核。
總體來說,除了獨立出版模式下的數(shù)據知識庫出版模式外,其他三種模式的科學數(shù)據質量審核主體中都有同行評議人員。對于集成出版模式下的兩種出版模式而言,同行評議人員審核的重點是學術論文.而對科學數(shù)據的科學質量審核處于輔助地位。而數(shù)據期刊出版模式下,同行評議人員的審核重點包含數(shù)據集及圍繞數(shù)據展開的數(shù)據論文和元數(shù)據。此外,數(shù)據知識庫模式的審核主體為數(shù)據知識庫工作人員,其為數(shù)據管理專家并非某一領域的學科專家,因此對數(shù)據集的質量審核側重于數(shù)據集的技術質量和元數(shù)據全面性、準確性等,并不能深入審核科學數(shù)據的科學質量。因此,相比而言,獨立出版模式的質量審核更為全面和深入。
4.3 出版費用
在數(shù)據出版過程中,通過對數(shù)據集描述和質量審核,為數(shù)據用戶增加了數(shù)據集的價值。因此數(shù)據出版與傳統(tǒng)學術出版相同,需要一定的出版費用。但不同出版模式的收費標準和費用的具體承擔者有所不同(表3)。具體而言,收費標準包括數(shù)據集大小、是否為資助項目、文章數(shù)量等。作為集成出版的一種,Dryad按數(shù)據集大小進行收費。當數(shù)據集小于20GB時,每個數(shù)據包的費用為120美元;當數(shù)據集大于20GB時,每超過10GB多收取50美元。EIDC受英國自然環(huán)境理事會資助,因此該數(shù)據中心按數(shù)據的產生過程是否受到該理事會的資助為標準進行收費。一般而言,對于受資助項目產生的科學數(shù)據,該數(shù)據中心不收取出版費用。而非資助項目產生的科學數(shù)據出版時繳納的費用取決于出版數(shù)據所花費的時間、精力和財力。以數(shù)據論文的形式通過數(shù)據期刊出版科學數(shù)據,數(shù)據出版費用即數(shù)據論文的出版費用。GDJ規(guī)定,每篇數(shù)據論文的出版費用為1500美元。Thieme出版的化學期刊S ynthesis在作者指南中規(guī)定,不收取作者任何費用,包括論文及其原始數(shù)據的出版費用。
對于數(shù)據出版費用的承擔者而言,主要包括學術期刊、數(shù)據生產者與資助機構。集成出版模式下,數(shù)據出版的費用由學術期刊獨自承擔或者學術期刊與數(shù)據生產者(在集成模式下同時為論文作者)共同承擔。例如,Thieme不收取數(shù)據生產者任何費用,這意味著數(shù)據出版的費用完全由期刊承擔。而Dryad建議數(shù)據出版費用由期刊通過贊助的形式幫助作者負擔數(shù)據出版費用,因此出版費用由學術期刊與數(shù)據生產者共同承擔。獨立出版模式下,數(shù)據出版的費用通常由數(shù)據生產者承擔。但由資助項目所產生的科學數(shù)據通過該資助機構建立的數(shù)據倉儲出版時,數(shù)據生產者無需承擔出版費用。例如英國信息環(huán)境數(shù)據中心規(guī)定不收取英國自然環(huán)境理事會所資助的研究項目產生的科學數(shù)據的出版費用。
總體來說,四種科學數(shù)據出版模式在收費標準方面存在較大差異,集成出版模式下的將數(shù)據提交至公共的科學數(shù)據倉儲并委托其管理模式的收費標準是數(shù)據集大小,而期刊自行出版模式不收取數(shù)據生產者任何費用。獨立出版模式下的數(shù)據倉儲直接出版模式采取的收費標準是科學數(shù)據是否由資助項目所產出,這是因為該模式下的數(shù)據倉儲一般是國家數(shù)據中心或大型的公共數(shù)據倉儲,由政府或科研資助機構的基金資助而建立的,所以,由資助項目產出的科學數(shù)據通過這些數(shù)據倉儲出版時,無須繳納出版費用。而數(shù)據論文出版模式采取的收費標準和學術期刊類似,按篇收費的標準簡單明了,易于實施。在科學數(shù)據出版費用的具體承擔者方面,四種出版模式存在一些共性,即有三種出版模式的費用承擔者都涉及數(shù)據生產者,集成出版模式的費用承擔者都包括學術期刊。
5 結語
大數(shù)據時代,科學數(shù)據在學術研究中的價值日益受到研究人員的重視,期刊出版商、數(shù)據知識庫以及科研資助機構等主體越來越多的參與到科學數(shù)據出版實踐之中,不同程度上推動了科學數(shù)據出版的發(fā)展。然而,與傳統(tǒng)的學術文獻出版相比,科學數(shù)據作為一種新型的學術成果,其出版體系還在發(fā)展之中。
文章從科學數(shù)據產生情形出發(fā),結合現(xiàn)有的出版實踐和前人理論研究成果,歸納出四種科學數(shù)據出版模式,并從數(shù)據集描述方式、質量審核方式、引用要求與出版費用等方面對不同出版模式進行了比較分析??偨Y出以下結論:(1)不同出版模式中涉及的出版主體不同,因此描述數(shù)據集的方式不同;科學數(shù)據獨立出版模式比集成出版模式對科學數(shù)據的描述更為詳盡。(2)與集成出版模式相比,獨立出版模式對科學數(shù)據的質量審核機制更為完善。(3)由于科學數(shù)據多為開放獲取出版物,因此數(shù)據生產者需要承擔出版費用;但兩種模式不同是,集成出版模式中,傳統(tǒng)期刊對作者提供資助。