盧垚 王鸑飛 劉洪冰 袁雪 陳斯翰 劉敏娟
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
科學(xué)體系正在經(jīng)歷重大的轉(zhuǎn)變,從以研究人員為主導(dǎo)的專業(yè)體系,轉(zhuǎn)變?yōu)橛卸鄠€(gè)利益相關(guān)者的開放創(chuàng)新體系[1]。在開放科學(xué)中,開放數(shù)據(jù)作為重要要素,其實(shí)踐促進(jìn)科研協(xié)作和透明度,并且提升科研成果的重現(xiàn)性和影響力[2-3]。近年來(lái)無(wú)論是研究人員、圖書館、資助者、政策制定者,還是出版方、各類倡議組織、資源開發(fā)和策展方,各利益相關(guān)方都對(duì)推動(dòng)研究數(shù)據(jù)的有效共享給予了更高關(guān)注。研究人員對(duì)數(shù)據(jù)共享持積極態(tài)度,根據(jù)萊頓大學(xué)的調(diào)查結(jié)果[1],73%的受訪者表示獲得已發(fā)表的研究數(shù)據(jù)將有利于自身研究,69%的受訪者表示共享研究數(shù)據(jù)對(duì)于他們所在領(lǐng)域的研究很重要,同時(shí)有64%的受訪者愿意讓別人訪問自己的研究數(shù)據(jù)。2020年STM出版商協(xié)會(huì)開始實(shí)施研究數(shù)據(jù)實(shí)踐,將2020年定為“STM研究數(shù)據(jù)年”,啟動(dòng)了STM研究數(shù)據(jù)項(xiàng)目。根據(jù)該項(xiàng)目調(diào)查[4],2020年參與該項(xiàng)目的出版商中,采用數(shù)據(jù)政策的期刊從29%增加到52%,而包含數(shù)據(jù)可用性聲明(DASs)的文章數(shù)量增加一倍多。
然而研究數(shù)據(jù)的分享實(shí)踐面臨很多挑戰(zhàn),根據(jù)全球7 000余位科研人員反饋[5],46%的科研人員認(rèn)為將數(shù)據(jù)進(jìn)行共享的最主要障礙是不知道如何將數(shù)據(jù)按照可展示、有用的方式進(jìn)行有效的組織,其他困擾因素包括對(duì)版權(quán)和授權(quán)條款的不了解(37%)、不知道在何處使用何種數(shù)據(jù)倉(cāng)儲(chǔ)(33%)、缺乏時(shí)間(26%)和擔(dān)心成本(19%)。因此研究數(shù)據(jù)共享并不應(yīng)該僅是對(duì)開放數(shù)據(jù)政策開展研究和制定宏觀數(shù)據(jù)管理計(jì)劃,在推進(jìn)數(shù)據(jù)管理實(shí)踐層面也同樣重要。如何為科研人員提供良好的數(shù)據(jù)管理支撐服務(wù),創(chuàng)建便捷的數(shù)據(jù)共享路徑,幫助研究人員更容易訪問和使用數(shù)據(jù),也應(yīng)當(dāng)引起重視。
數(shù)據(jù)共享的主要目標(biāo)是使研究數(shù)據(jù)以標(biāo)準(zhǔn)化的方式被其他研究人員重用。FORCE11工作組于2016年發(fā)布了《FAIR數(shù)據(jù)原則》,代表了數(shù)據(jù)共享和重用的黃金標(biāo)準(zhǔn)[6]。開放數(shù)據(jù)不僅要可發(fā)現(xiàn)可訪問,更需要能夠被理解、可信賴和可重用。將數(shù)據(jù)存儲(chǔ)在標(biāo)準(zhǔn)化的數(shù)據(jù)倉(cāng)儲(chǔ)中可以增加公開和重用的機(jī)會(huì),目前許多組織提供了用于歸檔數(shù)據(jù)集的存儲(chǔ)庫(kù)[7]。隨著研究數(shù)據(jù)的日益豐富,高效的研究數(shù)據(jù)集成發(fā)現(xiàn)和管理工具越來(lái)越不可或缺。本文選取Mendeley Data平臺(tái)進(jìn)行調(diào)研,它是Elsevier公司2015年開發(fā)的科研數(shù)據(jù)管理與共享平臺(tái),本文針對(duì)其數(shù)據(jù)治理流程、開放關(guān)聯(lián)特征、數(shù)據(jù)存儲(chǔ)管理和共享功能進(jìn)行分析,總結(jié)其開放數(shù)據(jù)實(shí)踐過(guò)程中,遵循FAIR標(biāo)準(zhǔn)實(shí)施流程和系統(tǒng)設(shè)計(jì)的優(yōu)勢(shì)經(jīng)驗(yàn),為圖書館開展開放數(shù)據(jù)資源建設(shè)和研究數(shù)據(jù)服務(wù)帶來(lái)啟示。
Mendeley Data的數(shù)據(jù)治理流程包括數(shù)據(jù)收割、數(shù)據(jù)管理發(fā)布、數(shù)據(jù)存檔和提供訪問4 個(gè)環(huán)節(jié)(見圖1)。
圖1 Mendeley Data基于開放檔案信息系統(tǒng)(OAIS)模型的數(shù)據(jù)治理流程[8]
Mendeley Data索引的科研數(shù)據(jù)一方面來(lái)自于個(gè)人用戶通過(guò)網(wǎng)頁(yè)界面創(chuàng)建數(shù)據(jù)集;另一方面來(lái)自于外部系統(tǒng)通過(guò)配置公共API創(chuàng)建數(shù)據(jù)集,如Elsevier的文章發(fā)表投稿系統(tǒng)EVISE。個(gè)人用戶或者外部系統(tǒng)需要按照規(guī)范元數(shù)據(jù)(見表1)對(duì)數(shù)據(jù)集進(jìn)行描述。
表1 Mendeley Data元數(shù)據(jù)
數(shù)據(jù)集通過(guò)UI和API進(jìn)行發(fā)布,以便公眾進(jìn)行訪問。在數(shù)據(jù)集發(fā)布前,系統(tǒng)將從形式上確保必備元數(shù)據(jù)的完整性。數(shù)據(jù)集可立即發(fā)布,也可設(shè)置禁止日期延遲其發(fā)布,若設(shè)置禁止日期的情況下發(fā)布數(shù)據(jù)集,僅其標(biāo)題是立即公開的,其余的元數(shù)據(jù)和文件直至禁止日期才公開。公開時(shí),數(shù)據(jù)集將從DataCite接收一個(gè)新的數(shù)字對(duì)象標(biāo)識(shí)符(Digital Object Identifier,DOI)。數(shù)據(jù)集發(fā)布后,由Mendeley Data平臺(tái)審核員從內(nèi)容上進(jìn)行審核,確保其為具有科學(xué)性質(zhì)的研究數(shù)據(jù),尤其是要與包含研究結(jié)果的研究論文進(jìn)行區(qū)別,并且確保不涉及以下情況:已經(jīng)公開發(fā)布過(guò),具有DOI;含有可執(zhí)行文檔但缺乏獨(dú)立、詳細(xì)的文件描述;包含有版權(quán)的內(nèi)容(音頻、視頻、圖像等);包含敏感信息等。而不符合審核標(biāo)準(zhǔn)的數(shù)據(jù)集將被刪除并通知作者。
數(shù)據(jù)集依照上述標(biāo)準(zhǔn)被審核為有效后,隨即被歸檔到數(shù)據(jù)歸檔和網(wǎng)絡(luò)服務(wù)(Data Archiving and Network Services,DANS)長(zhǎng)期資源庫(kù)[9]中。Mendeley已經(jīng)與DANS簽署協(xié)議,確保所有已發(fā)布和有效的數(shù)據(jù)集都將被永久存檔,并且所有存檔的數(shù)據(jù)集將獨(dú)立于Mendeley Data站點(diǎn),而在DANS中可用。通過(guò)DANS存檔,保證了所有格式文件的長(zhǎng)期保存和DANS優(yōu)選數(shù)據(jù)格式文件的長(zhǎng)期可用性。
科研用戶可以從Mendeley Data網(wǎng)站查看和下載數(shù)據(jù)集。外部系統(tǒng)也可以通過(guò)Mendeley Data公共API查詢和下載任何已發(fā)布的有效數(shù)據(jù)集。平臺(tái)提供元數(shù)據(jù)和文件的全文搜索功能,并且可按數(shù)據(jù)類型、來(lái)源倉(cāng)儲(chǔ)、學(xué)科類別過(guò)濾搜索結(jié)果。同時(shí)所有數(shù)據(jù)集都分配有永久DOI,也能夠通過(guò)已發(fā)表的相關(guān)論文或其他相關(guān)數(shù)據(jù)集進(jìn)行鏈接訪問。
Mendeley Data通過(guò)與DANS[9]、OpenAIRE[10]、DataCite[11]、Scholix[12]等一系列科研數(shù)據(jù)基礎(chǔ)設(shè)施系統(tǒng)進(jìn)行集成,促進(jìn)科研數(shù)據(jù)在全球范圍內(nèi)的開放關(guān)聯(lián)。在Elsevier內(nèi)部與ScienceDirect、Scopus、Scival等產(chǎn)品進(jìn)行關(guān)聯(lián),將科研數(shù)據(jù)管理共享全面整合入其學(xué)術(shù)研究數(shù)字化服務(wù)生態(tài)。
(1)利用DANS解決數(shù)據(jù)長(zhǎng)期保存問題。DANS是一個(gè)長(zhǎng)期存檔的供應(yīng)機(jī)構(gòu),隸屬荷蘭皇家科學(xué)院KNAW和荷蘭科學(xué)研究基金會(huì)NWO[9]。Mendeley Data與DANS達(dá)成協(xié)議對(duì)所有有效的已發(fā)布數(shù)據(jù)集進(jìn)行永久存檔,協(xié)議將確保數(shù)據(jù)集分配的DOIs將始終被解析為一個(gè)包含可用數(shù)據(jù)集元數(shù)據(jù)和文件的web頁(yè)面。
(2)與歐洲科研開放獲取基礎(chǔ)設(shè)施OpenAIRE(Open Access Infrastructure for Research in Europe)及其Zenodo數(shù)據(jù)倉(cāng)儲(chǔ)創(chuàng)建索引。OpenAIRE[10]作為歐盟的研究門戶網(wǎng)站,是歐洲最大的科研數(shù)據(jù)發(fā)布中心,通過(guò)建立索引,當(dāng)數(shù)據(jù)集在Mendeley Data平臺(tái)發(fā)布時(shí),也將同步發(fā)布到OpenAIRE。
(3)通過(guò)DataCite元數(shù)據(jù)索引與數(shù)千個(gè)科研數(shù)據(jù)倉(cāng)儲(chǔ)創(chuàng)建索引,從而索引千萬(wàn)級(jí)別的數(shù)據(jù)集。DataCite是一家于2009年在英國(guó)成立的國(guó)際非營(yíng)利性組織,由多家機(jī)構(gòu)聯(lián)合發(fā)起,為科學(xué)數(shù)據(jù)創(chuàng)建元數(shù)據(jù)集[11],在Mendeley Data平臺(tái)發(fā)布的數(shù)據(jù)集,元數(shù)據(jù)也將發(fā)送至DataCite。同時(shí)DataCite作為科學(xué)數(shù)據(jù)標(biāo)識(shí)符注冊(cè)中心,為研究數(shù)據(jù)和其他研究產(chǎn)出分配DOI,增強(qiáng)數(shù)據(jù)搜索能力,建立數(shù)據(jù)共享生態(tài)和高效引用機(jī)制。
(4)通過(guò)Scholix鏈接研究論文和科研數(shù)據(jù)。學(xué)術(shù)鏈接交換(Scholix)是一項(xiàng)倡議,為其成員提供一個(gè)全面的互操作性框架,通過(guò)收集和交換研究數(shù)據(jù)與文獻(xiàn)之間的鏈接,創(chuàng)建開放的全球信息生態(tài)系統(tǒng)[12]。其成員需使用統(tǒng)一的信息模型來(lái)表示數(shù)據(jù)和文獻(xiàn)之間的鏈接,以及標(biāo)準(zhǔn)的交換格式和協(xié)議來(lái)實(shí)現(xiàn)信息交換。Mendeley Data作為Scholix的成員之一,通過(guò)將其元數(shù)據(jù)(包括相關(guān)文獻(xiàn)的鏈接)發(fā)送到DataCite來(lái)為Scholix做出貢獻(xiàn),DataCite是Scholix用于聚合數(shù)據(jù)集和文獻(xiàn)之間鏈接的信息集散中心之一,從而使鏈接被廣泛地發(fā)現(xiàn)。
(5)與Elsevier內(nèi)部產(chǎn)品關(guān)聯(lián),將科研數(shù)據(jù)服務(wù)納入其學(xué)術(shù)研究數(shù)字化服務(wù)生態(tài)。Mendeley Data數(shù)據(jù)集通過(guò)Scholix與Scopus數(shù)據(jù)庫(kù)中相應(yīng)出版物進(jìn)行關(guān)聯(lián)訪問,進(jìn)一步借助Scopus數(shù)據(jù)庫(kù)中的規(guī)范信息對(duì)數(shù)據(jù)集作者、所屬機(jī)構(gòu)等元數(shù)據(jù)進(jìn)行增強(qiáng);在ScienceDirect以及SSRN文獻(xiàn)出版流程中,Mendeley Data則被用于提交或公開與文獻(xiàn)相關(guān)的數(shù)據(jù)集;研究數(shù)據(jù)和文獻(xiàn)一樣也可通過(guò)計(jì)量指標(biāo)度量其影響力,Mendeley Data復(fù)用了Elsevier的PlumX指標(biāo)體系,包括下載、查看和數(shù)據(jù)引用(源自DataCite和Crossref)等,以及替代計(jì)量學(xué)指標(biāo)來(lái)反映社交媒體的關(guān)注度和對(duì)媒體、政策的影響力。
Mendeley Data作為覆蓋科研數(shù)據(jù)全生命周期的模塊化研究數(shù)據(jù)管理云平臺(tái),具有數(shù)據(jù)檢索、數(shù)據(jù)存儲(chǔ)和管理以及數(shù)據(jù)監(jiān)控功能,各功能模塊可獨(dú)立使用,也可以與機(jī)構(gòu)現(xiàn)有的解決方案集成在一起以確保科研管理工作的連續(xù)性。
Mendeley Data可作為研究數(shù)據(jù)開放搜索引擎進(jìn)行數(shù)據(jù)檢索,其索引了全球2 000多個(gè)公共研究數(shù)據(jù)倉(cāng)儲(chǔ)中超過(guò)2 810萬(wàn)個(gè)數(shù)據(jù)集,也包括Mendeley Data管理平臺(tái)的數(shù)據(jù)集,并且將各個(gè)來(lái)源的研究數(shù)據(jù)進(jìn)行元數(shù)據(jù)和數(shù)據(jù)文件的深度標(biāo)引,由此提供字段的高級(jí)檢索,可對(duì)檢索結(jié)果數(shù)據(jù)文件內(nèi)容進(jìn)行在線預(yù)覽,同時(shí)突出顯示搜索詞,以便用戶快速評(píng)估和選擇檢索記錄。
Mendeley Data作為數(shù)據(jù)存儲(chǔ)解決方案,使機(jī)構(gòu)能夠存儲(chǔ)文本、表格、圖像、統(tǒng)計(jì)數(shù)據(jù)、數(shù)據(jù)庫(kù)、置標(biāo)語(yǔ)言等各種類型的研究數(shù)據(jù)[13],數(shù)據(jù)通過(guò)云服務(wù)器進(jìn)行托管也可以選擇存儲(chǔ)在本地服務(wù)器。數(shù)據(jù)庫(kù)采用標(biāo)準(zhǔn)且豐富的元數(shù)據(jù)對(duì)數(shù)據(jù)記錄進(jìn)行管理,并允許機(jī)構(gòu)用戶自定義元數(shù)據(jù)。同時(shí)支持大規(guī)模的數(shù)據(jù)協(xié)作,使研究人員能夠與機(jī)構(gòu)內(nèi)外部合作者在同一個(gè)項(xiàng)目環(huán)境中對(duì)研究數(shù)據(jù)進(jìn)行組織、注釋和共享。此外,還提供一系列高級(jí)數(shù)據(jù)管理工具,如版本控制和審核工作流等,促進(jìn)研究數(shù)據(jù)管理的最佳實(shí)踐。
數(shù)據(jù)監(jiān)控模塊能追蹤檢索全球2 000多個(gè)數(shù)據(jù)庫(kù)中超過(guò)2 810萬(wàn)個(gè)數(shù)據(jù)集,機(jī)構(gòu)用戶能借助其索引自動(dòng)追蹤監(jiān)控本機(jī)構(gòu)科研數(shù)據(jù)產(chǎn)出情況。Mendeley Data從2 000多個(gè)通用和領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)收集索引研究數(shù)據(jù),按照OpenAIRE元數(shù)據(jù)方案進(jìn)行規(guī)范描述,經(jīng)數(shù)據(jù)清洗刪除無(wú)效索引記錄,再利用自然語(yǔ)言處理和文本挖掘技術(shù),綜合DataCite、Scholix、Scopus等多個(gè)來(lái)源的信息,通過(guò)添加出版物鏈接、作者標(biāo)識(shí)符(ORCID、Scopus Author ID等)和機(jī)構(gòu)標(biāo)識(shí)符(Scopus Affiliation ID等)的方式來(lái)豐富數(shù)據(jù)集元數(shù)據(jù),從而形成底層數(shù)據(jù)搜索語(yǔ)料庫(kù)(見圖2)。數(shù)據(jù)監(jiān)控模塊在此基礎(chǔ)上,比對(duì)作者信息和機(jī)構(gòu)隸屬信息的元數(shù)據(jù),確定數(shù)據(jù)集的歸屬,即使在原始元數(shù)據(jù)中缺少歸屬信息的情況下也能依據(jù)增強(qiáng)的元數(shù)據(jù)進(jìn)行判斷。因此使得機(jī)構(gòu)科研管理者、圖書館館員能夠追蹤所在機(jī)構(gòu)研究人員發(fā)布的數(shù)據(jù)集,進(jìn)而進(jìn)行監(jiān)控和審核,并且無(wú)論這些數(shù)據(jù)集是發(fā)布于機(jī)構(gòu)數(shù)據(jù)存儲(chǔ)庫(kù)中,還是發(fā)布于外部的通用或領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)中。
圖2 數(shù)據(jù)監(jiān)控模塊的工作原理
此外,數(shù)據(jù)監(jiān)控模塊通過(guò)建立機(jī)構(gòu)用戶專門的研究數(shù)據(jù)門戶,集中展示本機(jī)構(gòu)的科研數(shù)據(jù)產(chǎn)出情況,提升機(jī)構(gòu)數(shù)據(jù)的可發(fā)現(xiàn)性和可復(fù)用能力。數(shù)據(jù)監(jiān)控模塊還提供API服務(wù)將數(shù)據(jù)集元數(shù)據(jù)集成到機(jī)構(gòu)知識(shí)庫(kù)(IR)和機(jī)構(gòu)現(xiàn)有研究信息系統(tǒng)(CRIS)中,實(shí)現(xiàn)自動(dòng)匹配作者和鏈接到出版物。此外,還支持導(dǎo)出數(shù)據(jù)報(bào)表和生成報(bào)告,以進(jìn)行批量審核和分析。
用戶利用平臺(tái)進(jìn)行科研數(shù)據(jù)發(fā)布和分享,但科研數(shù)據(jù)的所有權(quán)和控制權(quán)應(yīng)當(dāng)由用戶掌握而非平臺(tái)。Mendeley Data平臺(tái)由用戶根據(jù)需求對(duì)數(shù)據(jù)集進(jìn)行“私密”或“公開”兩種狀態(tài)的權(quán)限設(shè)置,從而控制數(shù)據(jù)集的發(fā)布。私密狀態(tài)意味著數(shù)據(jù)集尚未發(fā)布,用戶可在該狀態(tài)下對(duì)數(shù)據(jù)集進(jìn)行編輯和刪除。用戶設(shè)置權(quán)限選項(xiàng)為“公開”狀態(tài)則意味著對(duì)數(shù)據(jù)集進(jìn)行發(fā)布,類似于正式發(fā)表一篇文章,數(shù)據(jù)集一旦發(fā)布則不能進(jìn)行編輯和刪除,平臺(tái)將公開數(shù)據(jù)集的名稱、所有者、版本、發(fā)布時(shí)間以及DOI。而即便是發(fā)布數(shù)據(jù)集,用戶仍可以通過(guò)設(shè)置禁止日期來(lái)延遲公開的時(shí)間,這對(duì)研究者而言有充分的自主選擇權(quán)確保在論文發(fā)表之前讓研究數(shù)據(jù)處于非公開狀態(tài),又能保證編輯和審稿人可見。此外,在用戶發(fā)布科研數(shù)據(jù)時(shí),平臺(tái)針對(duì)各種數(shù)據(jù)類型,提供了15種資料公開授權(quán)許可方式(見表2)供其選擇,包括常見的一系列CC授權(quán)條款、軟件許可條款(MIT、Apache、BSD、GPL)以及硬件許可條款,其中CC0許可相對(duì)最不受約束,Mendeley Data平臺(tái)發(fā)送至DataCite的元數(shù)據(jù)使用該許可方式。
表2 Mendeley Data提供的15種資料公開授權(quán)條款
開放高效的研究數(shù)據(jù)管理和共享工具一定是遵循FAIR原則的[14],通過(guò)分析Mendeley Data的數(shù)據(jù)治理流程、其集成的開放生態(tài)系統(tǒng),并進(jìn)一步梳理其功能,對(duì)Mendeley Data研究數(shù)據(jù)管理流程和系統(tǒng)設(shè)計(jì)中使研究數(shù)據(jù)具有可查找性、可訪問性、互操作性和可重用性特征的解決方案進(jìn)行總結(jié),以供開放科學(xué)數(shù)據(jù)資源建設(shè)進(jìn)行借鑒。
(1)可查找性。Mendeley Data數(shù)據(jù)倉(cāng)儲(chǔ)中所有數(shù)據(jù)集都將被分配DOI,包括數(shù)據(jù)集下級(jí)文件夾和文件,甚至是數(shù)據(jù)集的不同版本,并且通過(guò)數(shù)據(jù)集元數(shù)據(jù)注冊(cè)和索引,使其能在多個(gè)研究數(shù)據(jù)資源發(fā)現(xiàn)系統(tǒng)中被檢索,除Mendeley Data平臺(tái)本身提供的檢索之外,在Google Dataset Search、DataCite、OpenAIRE、Open Science Framework都可以被發(fā)現(xiàn)。
(2)可訪問性。發(fā)布的數(shù)據(jù)集通過(guò)標(biāo)準(zhǔn)化通信協(xié)議進(jìn)行訪問,借助DOI標(biāo)識(shí)符通過(guò)HTTPS協(xié)議用瀏覽器進(jìn)行訪問或者REST API訪問。在訪問過(guò)程中允許在必要時(shí)進(jìn)行身份驗(yàn)證和授權(quán),機(jī)構(gòu)用戶可以集成與行業(yè)標(biāo)準(zhǔn)SAML 2.0協(xié)議兼容(如Shibboleth)的機(jī)構(gòu)認(rèn)證。即便數(shù)據(jù)集未來(lái)不再可用,元數(shù)據(jù)仍可被訪問。Meneley Data系統(tǒng)支持“墓碑”DOIs機(jī)制,即使數(shù)據(jù)集從系統(tǒng)中刪除,DOI仍能解析數(shù)據(jù)集頁(yè)面。同時(shí)由于在DANS長(zhǎng)期存檔,確保了對(duì)數(shù)據(jù)資源的永久訪問,若Meneley Data平臺(tái)停止服務(wù),數(shù)據(jù)集將通過(guò)DOIs解析并指向存儲(chǔ)在DANS中的副本,數(shù)據(jù)集和元數(shù)據(jù)將永遠(yuǎn)可用。
(3)互操作性。Meneley Data使用標(biāo)準(zhǔn)的、廣泛應(yīng)用的、可訪問的方式來(lái)表示知識(shí),其采用JSON格式作為數(shù)據(jù)交換語(yǔ)言,通過(guò)HTTPS/REST協(xié)議同時(shí)也支持OAI-PMH元數(shù)據(jù)互操作協(xié)議,與其他研究數(shù)據(jù)管理工具集成進(jìn)行數(shù)據(jù)收割和推送;通過(guò)語(yǔ)義鏈接關(guān)聯(lián)研究論文、軟件、其他數(shù)據(jù)集等研究對(duì)象;支持Dublin Core和schema.org標(biāo)準(zhǔn)元數(shù)據(jù)框架,提供標(biāo)準(zhǔn)元數(shù)據(jù)字段的標(biāo)識(shí)符(作者及其隸屬機(jī)構(gòu)字段)和受控詞匯表(學(xué)科類別和許可條款字段)。
(4)可重用性。Meneley Data基于豐富精確的元數(shù)據(jù)描述不僅提供數(shù)據(jù)溯源信息,也促進(jìn)數(shù)據(jù)重用。通過(guò)許可條款受控詞匯表提供清晰和可訪問的數(shù)據(jù)使用許可;同時(shí)鼓勵(lì)用戶編輯“Steps to reproduce”字段,對(duì)重演該數(shù)據(jù)集對(duì)應(yīng)研究步驟和方法進(jìn)行文字描述;還允許機(jī)構(gòu)和研究人員添加自定義元數(shù)據(jù)模板來(lái)進(jìn)一步豐富元數(shù)據(jù),尤其是可以添加某些特定領(lǐng)域的元數(shù)據(jù)字段,并且可將自定義元數(shù)據(jù)字段取值范圍設(shè)置為現(xiàn)有的分類法,以便于發(fā)現(xiàn)和重用。
Mendeley Data的研究數(shù)據(jù)實(shí)踐充分證明了它不僅是研究數(shù)據(jù)存儲(chǔ)工具,更是工作工具,依據(jù)數(shù)據(jù)重用和共享標(biāo)準(zhǔn)為研究人員提供存儲(chǔ)和發(fā)布的工作環(huán)境,將研究人員作為共享和重用數(shù)據(jù)實(shí)踐的核心使之真正受益,也通過(guò)這種自下而上的方法縮小政策與開放數(shù)據(jù)基層實(shí)踐之間的差距,為開展研究數(shù)據(jù)資源建設(shè)和科研數(shù)據(jù)服務(wù)提供可借鑒的實(shí)際措施。
元數(shù)據(jù)的價(jià)值一直是科學(xué)數(shù)據(jù)各項(xiàng)研究和實(shí)踐中探討的重要問題和關(guān)鍵問題,元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)科學(xué)數(shù)據(jù)的發(fā)現(xiàn)、共享和再利用至關(guān)重要[15-16]。機(jī)構(gòu)內(nèi)部自建研究數(shù)據(jù)倉(cāng)儲(chǔ)應(yīng)使用統(tǒng)一元數(shù)據(jù)描述標(biāo)準(zhǔn),提高數(shù)據(jù)的互操作性。而圖書館或信息服務(wù)機(jī)構(gòu)進(jìn)行開放科學(xué)數(shù)據(jù)資源建設(shè)時(shí),可通過(guò)建立統(tǒng)一元數(shù)據(jù)倉(cāng)儲(chǔ),對(duì)分散的開放科學(xué)數(shù)據(jù)資源進(jìn)行集成匯聚,以便集中發(fā)現(xiàn),除對(duì)公共數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)集進(jìn)行索引之外,商業(yè)出版社也掌握豐富的研究數(shù)據(jù)資源,在2020年STM研究數(shù)據(jù)項(xiàng)目的驅(qū)動(dòng)下,有21家出版商13 064種學(xué)術(shù)期刊參與該項(xiàng)目,并且研究數(shù)據(jù)聯(lián)盟(Research Data Alliance,RDA)的數(shù)據(jù)政策標(biāo)準(zhǔn)化和實(shí)施利益小組為所有期刊和出版商開發(fā)了研究數(shù)據(jù)政策標(biāo)準(zhǔn)框架[17],從出版商的角度積極推動(dòng)研究數(shù)據(jù)共享,因此加強(qiáng)與出版商在研究數(shù)據(jù)元數(shù)據(jù)方面的合作也十分必要。除此之外,從Mendeley Data的實(shí)踐還可以看出,對(duì)元數(shù)據(jù)進(jìn)行深度標(biāo)引,配合統(tǒng)一分類系統(tǒng)和受控詞表等知識(shí)組織工具的使用,將有利于資源的深度揭示。
從Mendeley Data可以看出,Elsevier公司作為全球領(lǐng)先的出版企業(yè)在研究數(shù)據(jù)領(lǐng)域非?;钴S,是DataCite、Scholix、FORCE11、Research Data Alliance等多個(gè)聯(lián)盟和組織的成員,在研究數(shù)據(jù)資源匯聚、關(guān)聯(lián)、分享、利用,以及標(biāo)準(zhǔn)和指導(dǎo)原則制定等各方面都有布局。國(guó)內(nèi)科研機(jī)構(gòu),尤其是國(guó)家級(jí)的科技信息服務(wù)機(jī)構(gòu)也應(yīng)當(dāng)為開放數(shù)據(jù)的未來(lái)提前做準(zhǔn)備,積極加入各類研究數(shù)據(jù)國(guó)際聯(lián)盟和倡議組織,與各類學(xué)術(shù)生態(tài)系統(tǒng)參與者(如資助方、機(jī)構(gòu)、出版商和政策制定者)開展廣泛的合作。借助DataCite這類社區(qū)的數(shù)據(jù)資源集成、數(shù)據(jù)注冊(cè)等機(jī)制獲得更大范圍的研究數(shù)據(jù)共享,目前DataCite在中國(guó)有5家會(huì)員,分別是北京大學(xué)、清華大學(xué)、中國(guó)國(guó)家基因庫(kù)(China National GeneBank)、中國(guó)散裂中子源(China Spallation Neutron Source,IHEP)和全國(guó)地質(zhì)資料館(National Geological Archives of China);同時(shí)充分利用全球研究數(shù)據(jù)基礎(chǔ)設(shè)施[18],減少技術(shù)成本投入;參與研究數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)和指導(dǎo)原則的制定,并遵循通用的標(biāo)準(zhǔn)和原則開展具體實(shí)施。
圍繞研究數(shù)據(jù)服務(wù)有很多系統(tǒng)的研究,都指出應(yīng)推行面向科研全生命周期的嵌入式服務(wù),包括發(fā)現(xiàn)訪問、數(shù)據(jù)存儲(chǔ)和管理、培訓(xùn)教育等[19-23]。Mendeley Data的解決方案使一些服務(wù)更具可操作性,如數(shù)據(jù)鏈接服務(wù),指導(dǎo)作者在數(shù)據(jù)存儲(chǔ)庫(kù)與在線文章之間創(chuàng)建雙向鏈接來(lái)實(shí)現(xiàn)論文和數(shù)據(jù)的更容易被發(fā)現(xiàn)和訪問。此外以標(biāo)準(zhǔn)化且深度標(biāo)引的元數(shù)據(jù)為基礎(chǔ),也可進(jìn)一步拓展對(duì)科研數(shù)據(jù)利用價(jià)值和潛力的開發(fā),使科研數(shù)據(jù)和文摘數(shù)據(jù)一樣,能夠通過(guò)數(shù)據(jù)挖掘和情報(bào)分析,為不同類型的用戶提供數(shù)據(jù)驅(qū)動(dòng)的科研管理決策支撐服務(wù)。例如:通過(guò)追蹤本機(jī)構(gòu)研究人員發(fā)布的數(shù)據(jù)集情況,更好地響應(yīng)資助基金要求,輔助管理部門制定機(jī)構(gòu)相關(guān)的數(shù)據(jù)管理政策;跟蹤全球、區(qū)域或機(jī)構(gòu)研究數(shù)據(jù)產(chǎn)出,洞察學(xué)科發(fā)展趨勢(shì)和熱點(diǎn)前沿等[24]。
數(shù)據(jù)共享的障礙之一是研究人員需要付出額外的時(shí)間和工作,卻無(wú)法獲得直接回報(bào)。對(duì)研究數(shù)據(jù)的引用可以改變這種情況,通過(guò)引用提高發(fā)布者的學(xué)術(shù)研究聲望,以此激勵(lì)其分享行為。數(shù)據(jù)引用是支持?jǐn)?shù)據(jù)重用的學(xué)術(shù)生態(tài)系統(tǒng)的一部分,F(xiàn)ORCE11工作組為數(shù)據(jù)引用制定了一套指導(dǎo)原則[25],并為出版商和學(xué)術(shù)團(tuán)體提出了實(shí)施建議[26]。與論文產(chǎn)出成果的評(píng)估類似,引用指標(biāo)和替代計(jì)量指標(biāo),同樣適用于研究數(shù)據(jù)的影響力評(píng)估,因此未來(lái)數(shù)據(jù)引用及相關(guān)評(píng)價(jià)指標(biāo)也可納入當(dāng)前基于論文引用的評(píng)估體系和激勵(lì)機(jī)制。而推行這方面應(yīng)用的重要前提是對(duì)數(shù)據(jù)集發(fā)布者的身份識(shí)別及其歸屬機(jī)構(gòu)的認(rèn)定,Mendeley Data通過(guò)元數(shù)據(jù)增強(qiáng)進(jìn)行歸屬認(rèn)定的做法值得借鑒。