陳帥印 劉桂鋒, 劉瓊
(1. 江蘇大學科技信息研究所,鎮(zhèn)江 212013;2. 江蘇大學圖書館,鎮(zhèn)江 212013)
科學研究第四范式(數據密集型科學)[1]的產生使得科研人員將關注的焦點轉向科學數據的組織、存儲、開放、共享與使用等方面??萍嘉墨I的出版是研究人員發(fā)布科研成果的重要途徑之一,而在科研過程中產生的科學數據有十分重要的意義。為使科學研究過程可以得到重現的同時保護數據工作者的知識產權,一種可將數據以特定的形式“出版”,基于數據論文(data paper)概念的新數據出版模式開始被廣泛認識并認可[2-3],隨后出現了同時發(fā)表學術論文和數據論文的重疊期刊(overlay journal)、純數據期刊(pure data journal)[4]等新的出版物形式。數據論文率先出現在生物學、地球科學等領域[5]。早在2000年,美國生態(tài)學會(Ecological Society of America,ESA)[6]就在投稿須知中對數據論文進行闡釋,認為它是一種特殊類型的論文,用于展示大型或豐富的數據集,包括描述數據內容、數據產生背景、數據質量和結構的元數據文件。
隨著科學數據對科學研究重要性的不斷顯著,數據論文的作用與價值也在學術出版中日益凸顯,不少學者對其概念、形式與結構、出版流程、作用等進行了研究:Candela等[7]認為數據論文的概念應至少包含兩個具體的信息對象——數據集(數據論文的描述對象)和數據論文本身(描述數據集的作品),其中數據論文一詞特指后者,數據論文與傳統(tǒng)期刊文章相同,包括標題、作者、摘要、章節(jié)和參考文獻等內容;屈寶強等[8]詳細地對數據論文的形式、內容與結構進行闡述,并且總結數據論文的出現能夠強化數據利用、促進數據價值升值;Roa-Martínez等[9]在Candela對15家出版平臺的數據期刊的投稿指南、寫作指導等板塊進行分析后,進一步提出了一種通用的數據論文構成體例??偟膩碚f,數據論文是對科研過程中數據收集、數據內容、數據處理、數據格式等進行詳細描述,類似于傳統(tǒng)期刊論文中的方法部分,但不提供任何數據的分析,也沒有產生新的研究結論,其內容只是與科研過程產生的數據有關,可以在數據制作完成后迅速發(fā)表[10-12]。
科學數據與期刊文獻是科學研究的重要學術成果,但二者通常是相互獨立地支持科學研究。若對數據與論文的關聯(lián)應用進行研究,探索其中的關聯(lián)特征與關聯(lián)模式,揭示論文與數據之間清晰的關聯(lián)性,可以更好地發(fā)揮二者的科學研究價值,更好地支撐數據高效應用,對于科學數據的獲取與共享、科學數據的再利用和科研創(chuàng)新等有著重要的意義。部分學者在探討二者關聯(lián)問題時,在科學數據的元數據質量改善以及科學數據與期刊論文的關聯(lián)模式方面的研究缺乏實證、應用層面的探索。因此,本文以元數據理論為基礎,從科學數據生命周期理論、利益相關者理論等出發(fā),聚焦于探索數據論文與期刊論文的關聯(lián)模式,以實證應用為側重點,運用有代表性的具體案例,將理論研究應用到實踐中,切實實現科學數據能夠在科研成果中的可應用、可共享和可推廣的目標,推動科學數據高效流通、提高數據的應用能力。
已有研究從多個角度對科學數據與文獻的關聯(lián)方式進行分析與總結。例如:衛(wèi)軍朝[13]以Elsevier出版集團的科學數據與文獻關聯(lián)實踐作為研究對象,總結歸納科學數據與文獻的4種關聯(lián)方式為可驗證數據DOI、文本中的語義實體鏈接、數據倉儲的橫幅標識和集成數據App;姜恩波等[14]描述文獻與科學數據分離的現狀,并通過案例介紹科學數據與文獻關聯(lián)融合的呈現方式,把科學數據與文獻的關聯(lián)方式分為基于形式的硬關聯(lián)、基于內容的軟關聯(lián)、基于語義的融合。
本研究從內容、結構和目的等方面對相關研究進行歸納,將這些研究分為兩大類:基于引文的科學數據與文獻的關聯(lián),基于元數據的科學數據與文獻的關聯(lián)。
基于引文的科學數據與文獻的關聯(lián)研究主要以基于唯一標識符的關聯(lián)和基于引文分析方法對參考文獻等引用與被引用現象進行研究兩大方面為主。
唯一標識符具有用于科學數據、學術文獻等研究成果存儲以及發(fā)布時的引用功能,主要包括數字對象唯一標識符(Digital Object Unique Identifier,DOI)、國際標準關聯(lián)(International Standard Link Identifier,ISLI)、統(tǒng)一資源名稱(Uniform Resource Name,URN)等。標識符的使用能夠以可引用、可發(fā)現的方式使更多的數字資源、科學數據可見、可用和可搜索。孫文佳等[15]研究科學數據與科學文獻的關聯(lián)模式,并探討了DOI在實現科學數據與科技文獻關聯(lián)研究中的關鍵作用;朱江等[16]在《基于ISLI標準的科技文獻和科學數據的關聯(lián)》中,基于ISLI對科技文獻和科學數據關聯(lián)的ISLI元數據集擴展、編碼體系設計等方面進行研究;Kraft等[17]基于DOI對數字資源和文獻的關聯(lián)進行研究并探索永久識別碼(Persistent Identifiers,PID)服務在學術內容與數據關聯(lián)關系研究中的作用。
引文分析是對研究對象主要是學術文獻、期刊文獻、著者等的引用與被引用現象進行分析與研究,是學者進行關聯(lián)研究的重要方式之一??萍嘉墨I引用科學數據是指科研人員在論文寫作中引用已有的科學數據作為研究資料進行進一步研究,或利用已有的科學數據來證明自己的研究成果等。郭學武[18]基于引文進行了科學數據與科技文獻的關聯(lián)研究,將科學數據與科技文獻的關聯(lián)模式分為3種:基于引用的直接關聯(lián)、基于同被引的關聯(lián)、基于引文的擴展關聯(lián);孫薇[19]使用引文分析等方法探索科技文獻關聯(lián)數據的科研關系發(fā)現模型;張鑫等[20]設計一種基于引文探針的關聯(lián)算法,在高能物理領域文獻與粒子關聯(lián)場景下實現該算法,通過對關聯(lián)度的計算發(fā)現更多的隱含關聯(lián),提高關聯(lián)的覆蓋率。
科學數據的元數據以科學數據為描述對象,是對科學數據開展描述、組織、出版等工作的重要工具。科技文獻的元數據以文獻特征為描述對象,對文獻進行知識組織、結構描述等,不同文獻有著不同的元數據元素?;谠獢祿目茖W數據與文獻的關聯(lián)側重通過對科學數據的元數據與文獻的元數據進行外部特征、內容特征的對比,并對二者的相關性、關聯(lián)性進行研究。黃筱瑾[21]從科學數據和科技文獻的元數據出發(fā),從兩者的元數據描述中提取表達內容特征的元數據項,并利用向量空間模型進行特征的相似性計算,從而關聯(lián)科學數據與科技文獻;韓濤[22]以生物信息學為例,對生物信息學科學數據庫與文獻庫的外部關聯(lián)和內部關聯(lián)兩層關系進行深度探究,基于內外部關聯(lián)關系的交叉引用,對內容層面和知識層面進行聚合、關聯(lián)。
綜上可知,大多相關研究從不同角度對科學數據與文獻的關聯(lián)進行分析,已有一定的理論基礎,而基于引文的關聯(lián)和基于元數據的關聯(lián)之間基本上不會重疊,只有在一定程度上存在交叉關系?;谝牡年P聯(lián)主要通過唯一標識符和參考文獻兩個方面進行探析,而元數據元素是對科學數據與文獻關聯(lián)關系研究的重要指標之一,元數據元素根據各個研究內容及研究結構的不同也會有不同的元數據元素分類,當參考文獻或者唯一標識符作為研究的元數據元素時,則兩者之間必然存在一定的交叉關系。本研究在前期提取數據時發(fā)現,參考文獻是元數據元素之一,這也表明基于引文的關聯(lián)與基于元數據的關聯(lián)在本研究不是并列關系,而是存在一定的相互交叉融合的關系。
全球變化科學研究數據出版系統(tǒng)是中國科學院地理科學與資源研究所、中國地理學會主辦,以全球變化科學研究數據出版為核心的出版系統(tǒng)。該平臺從2014年開始收錄數據論文,每年期數不等,每期有10~20篇數據論文出版。截至2021年第12期,全球變化科學研究數據出版系統(tǒng)平臺共有50期、數據論文總數量1019篇。“關聯(lián)論文”字段是全球變化科學研究數據出版系統(tǒng)平臺數據論文的元數據元素之一,通常指利用數據集完成的研究成果,該字段主要使讀者能夠快速檢索并閱讀與數據論文相關聯(lián)的期刊論文。因此,本研究以全球變化科學研究數據出版系統(tǒng)為數據來源,對其數據論文及關聯(lián)論文字段進行研究,以探索數據論文和期刊論文的關聯(lián)關系。
從全球變化科學研究數據出版系統(tǒng)人工手動采集2016年第1期至2021年第12期發(fā)表的全部存在“關聯(lián)論文”字段的數據論文相關數據,包括數據論文題目、數據集貢獻者/作者、數據論文作者單位、數據論文關鍵詞、關聯(lián)論文篇數、關聯(lián)論文題目、關聯(lián)論文作者、關聯(lián)論文類型等,并通過“關聯(lián)論文”字段檢索到期刊論文,并采集相關數據,包括期刊論文題名、作者、作者單位、關鍵詞等。數據收集時間截至2022年1月15日,收集數據論文總量938篇,其中擁有“關聯(lián)論文”字段的數據論文共有389篇。
與期刊論文一樣,數據論文的文獻特征也可以劃分為外部特征和內容特征[23],具體見表1所示,可以看出兩者是一一對應的關系。
表1 數據論文與期刊論文的外部特征與內容特征
從數據論文及其關聯(lián)的期刊論文的發(fā)文數量及趨勢來看,2018年的關聯(lián)論文總量占數據論文總量比例最大,達63.10%,而2019年、2020年占比分別為32.89%、32.53%,原因在于2019—2021年該平臺出版大量屬于“全球變化數據大百科辭條”類型的數據論文,導致關聯(lián)論文的占比略有下降,但并不影響數據論文的發(fā)表數量及發(fā)表進展。
從關聯(lián)論文的文獻類型看,大部分關聯(lián)論文的類型在2016年為“中文期刊”,2017年開始,關聯(lián)論文的文獻類型不再僅限于中文期刊、英文期刊,增加了“年度報告”,此后文獻類型逐漸豐富,發(fā)展至2021年,關聯(lián)論文類型呈現“中文期刊”“英文期刊”“專著”“年度報告”“學位論文”“論文集”等多樣化趨勢,這意味著二者的關聯(lián)度更加緊密,而這樣的現象反映出科學數據在期刊論文中的應用是多元化的。結合文獻類型的數量統(tǒng)計及每年的變化趨勢不難看出,數據論文與其關聯(lián)論文之間不再單一化,與數據論文對應的關聯(lián)論文數量每年都有所改變,但文獻類型隨著時間的推進而逐漸多樣化,因此形成了從原來的一篇數據論文僅有一篇關聯(lián)論文發(fā)展到一篇數據論文可以關聯(lián)到多篇期刊論文的現狀,并且與數據論文相關的關聯(lián)論文的文獻類型呈現多樣化趨勢。
從數據論文及其關聯(lián)期刊論文的作者來看,大部分都有合作關系。究其原因,在大數據時代背景下,大部分科學研究依賴實驗、數據模擬或觀測等研究方法產生的海量數據(集)[24],而單個學者很難在兼顧科學研究的同時完成科學數據的采集、處理、加工、分析等全部工作,進行作者合作完成數據共享已經成為科學數據共享的主要形式。合作關系主要有弱合作、一般合作、強合作等層次的區(qū)分,強合作主要涵蓋的數據論文與其關聯(lián)密切的期刊論文的作者群一模一樣,弱合作主要指第一作者或者第一、第二作者相同。
元數據是指提供關于信息資源或數據的一種結構化的數據,是對信息資源結構化的描述,其作用是描述信息資源或數據本身的特征和屬性。本研究對元數據描述資源框架的設計主要參考了DC元數據標準。通過對基本元素的復用,可以將元數據元素分為期刊論文元素修飾詞和數據論文元素修飾詞兩大項(見表2)。
表2 期刊論文元數據元素與數據論文元數據元素
對數據論文、期刊論文的元數據元素進行修飾后,可以從單個元數據元素進行相對應的關聯(lián)應用研究,從而探究數據論文與期刊論文基于元數據元素的關聯(lián)模式。具體而言,期刊論文與數據論文的關聯(lián)可以通過研究二者的元數據元素之間的關聯(lián)應用使得二者的關聯(lián)模式更加清晰,進而實現基于元數據的關聯(lián)。鑒于此構建基于元數據元素的關聯(lián)應用機制(見圖1),從數據集名稱、數據集貢獻者/作者、貢獻者/作者單位、出版時間等多個數據論文的元數據元素展開,與論文題名、論文作者、所屬單位、論文發(fā)表時間等期刊論文的元數據元素一一相照應,對二者的元數據元素進行關聯(lián)應用的深度探討。
圖1 基于元數據元素的關聯(lián)應用機制
對于實驗、觀測等科研過程中產生的數據,數據生產者也就是研究人員在完成科技文獻的撰寫后,還會將這些數據整理成數據論文發(fā)表在數據期刊上,成為學術研究成果的一部分,那么該數據論文和期刊論文基于元數據或者其他因素都存在一定層面的關聯(lián)。
一般情況下,一項科學研究不僅靠一個研究人員就能完成,因此存在跨學科、跨領域等方式的科研合作關系,恰是作者合作關系網將本沒有關系的數據論文與科技文獻關聯(lián)起來?;谧髡吆献麝P系網的數據論文與期刊論文的關聯(lián)主要分為3種類型:不同作者或者研究團隊共同完成數據論文的撰寫,并且該數據論文與不同作者各自完成的期刊論文構成直接關聯(lián);不同作者合作完成的期刊論文與其中一個作者撰寫的數據論文構成間接關聯(lián);同一作者完成的不同數據論文之間構成互引式關聯(lián)。
數據論文和期刊論文一樣有外部特征和內容特征,內容特征主要包括論文(數據集)名稱、論文(數據集)摘要、關鍵詞。數據論文和期刊論文的元數據元素的修飾詞雖然有一定的差異,但其描述的元數據元素本質內容是相同的,尤其在內容特征元素的描述上存在相互映射的聯(lián)系。通過提取二者的內容特征進行關聯(lián)應用的研究,可以從內容特征角度進行內容之間的關聯(lián),從而使得二者的關聯(lián)模式更加明晰。
數據論文的論文(數據集)名稱與其相關聯(lián)的期刊論文的題名存在一定的映射關系,期刊論文中使用的科學數據主要名稱大多會出現在數據論文的論文(數據集)名稱中。
期刊論文的摘要主要用于對整篇文章的內容、研究方法、研究結論等進行描述,能夠使讀者在閱讀完摘要后就能對整篇文章的結構有一個較為清楚的認識。數據論文的摘要內容沒有過多對研究方法、研究流程的描述,大多會詳細地闡述該數據集的來源、用途、數據量、數據格式等。在常見的對科學數據進行統(tǒng)計計量與分析的文章中,可以明顯發(fā)現在摘要部分會提及數據的來源渠道等,鑒于此,二者的摘要部分有一定的關聯(lián)應用。
期刊論文的關鍵詞一般包含研究對象、研究方法、研究主旨等,讀者通過關鍵詞能夠確定論文的研究主題等,對閱讀正文有一定的幫助。在數據論文中,關鍵詞主要涉及數據集的名稱、數據處理與分析工具、數據集指標等,這與期刊論文的關鍵詞中有部分內容的映射和重合。在使用科學數據的期刊論文中,部分論文會以數據集的研究對象名稱、數據集部分指標等作為該論文的部分關鍵詞,其中有著基于內容的關聯(lián)應用。
引用行為是指在各種因素影響下,論文作者在撰寫相關的論文時參考或者借鑒其他學者的學術文獻并加以標注說明的學術行為,無論是期刊論文還是數據論文都存在引用行為。數據論文的參考文獻主要涵蓋期刊文獻、會議報告等,科學數據集的形成是多源的,同一研究對象的數據在不同文獻類型出現,作為數據論文需要將這些數據統(tǒng)一收集并出版。而對于期刊論文來說,參考文獻大多是其他學者的學術文獻等,但也不排除有部分期刊論文在撰寫過程中會用到數據論文或者數據集的情況?;谝梅绞浇嵌冗M行數據論文的參考文獻以及期刊論文參考文獻之間的關聯(lián)應用研究,可以更好地為二者的關聯(lián)模式提供參考。
引用位置指引用內容在施引文獻中出現的位置,從引用位置角度進行分析,能對引文出現位置的不同性與相似性進行概述,為關聯(lián)研究提供思考的新角度。
“關聯(lián)論文”字段是全球變化科學研究數據出版系統(tǒng)數據論文的元數據之一,該字段可以為閱讀者提供更便捷的方式去閱讀相對應有數據關聯(lián)的論文。該關聯(lián)模式以數據論文和期刊論文之間是否有數據應用關系為主要指標,涵蓋二者間的各類元數據元素、論文類型、論文內容等,“關聯(lián)論文”字段的論文類型涉及多種文獻形式,包含中文期刊、英文期刊、數據論文、年度報告等。使用本體編輯和知識獲取軟件Protégé對此類數據進行本體構建,并對“期刊論文”和“數據論文”兩本體間構建關聯(lián)關系為“關聯(lián)論文”(見圖2)。二者的屬性分布主要為論文的外部特征和內容特征,看似無關聯(lián)的期刊論文和數據論文,在全球變化科學研究數據出版系統(tǒng)上通過“關聯(lián)論文”字段有了內容、元數據等方面的關聯(lián)應用。
圖2 數據論文與期刊論文關聯(lián)的本體構建與可視化
為驗證上述提出的期刊論文與數據論文應用關聯(lián)模式的適用性,遵循隨機抽樣性的原則從2020年、2021年的數據集中抽取含有“關聯(lián)論文”字段的數據論文及相對應的期刊論文,并采集二者數據集的基本信息、數據集應用與處理的軟件或者工具、數據集應用在期刊論文中的位置、數據集應用目的等數據,進行期刊論文與數據論文的應用關聯(lián)分析(見圖3)。
圖3 基于數據集應用的數據論文與期刊論文關聯(lián)
數據集的應用格式主要以文字敘述、表格、圖片3種類型為主,由于全球變化科學研究數據出版系統(tǒng)的學科類型偏向地學,數據集在期刊論文中的應用格式絕大部分以圖片為主,在圖片的前后文會以文字形式進行簡單的概述和介紹。數據論文對數據集的元數據、外部特征、內容特征、引用方式等多個維度進行描述??茖W研究從收集數據、處理數據、分析數據到最終數據呈現形式的過程中,通常使用多種應用方法或指標,通過不同的軟件、工具將數據轉化。該平臺數據集的應用方法/指標與其學科密切相關,一般運用到空間分區(qū)分類分析、各類指數分析、網絡分析、凝聚子群等多種與地學相關的研究方法或指標,采用的軟件/工具主要以Unicet、ArcGIS等為主,AR模型或者其他建模工具為輔,用于將前期的科學數據可視化。因此,數據論文描述的數據集實際應用于期刊論文中,由數據集的應用格式、方法或指標、使用的軟件或工具等架構二者之間的關聯(lián)。
除了對數據集的應用格式、方法或指標、軟件工具等進行研究,還可以對數據集的應用位置及數據集的應用目的等進行多個方向的闡述與分析。數據集的應用位置主要出現在期刊論文的研究背景、數據來源、結果分析等部分中,即論文中使用數據集的位置大多是研究的主要內容部分。研究背景部分是介紹研究的大背景及研究來源,數據集在此部分的應用可以印證該研究的意義、佐證研究的可行性。數據來源部分是研究性論文的數據闡述部分,數據集在此部分的應用能夠直觀表述數據源。結果分析是較多學者在對數據進行采集、處理、分析后表述分析結果的部分,數據集應用于結果分析部分為研究結論提供數據支撐,由此可見科學數據在一項科學研究過程中的重要性。
科學數據通過前期大量的數據采集、中期的處理、后期的分析,其最終的研究目標是解決學術問題或未解決的實際問題,通過科學研究從而解決該問題,彰顯科學學術意義、為社會創(chuàng)造價值,因此數據的價值便在數據集的應用目的這一方面得到凸顯。在變化科學研究數據出版系統(tǒng)中,數據集在期刊論文中的應用目的主要為構建指數序列、呈現時空特征、構建參數、分析時空格局演變、分析影響因素等。
關聯(lián)研究是研究不同知識、不同數據之間的相互關系,并從中發(fā)現研究對象之間的潛在關系[25]。將海量科學數據以數據論文的形式發(fā)表從而起到數據共享的目的,基于元數據對數據論文與期刊論文的關聯(lián)進行分析,是科學數據共享成為大勢所趨的發(fā)展方向。本文以元數據為切入點,通過對全球變化科學研究數據出版系統(tǒng)的數據論文進行元數據相關項的提取,并通過“關聯(lián)論文”字段提取相關聯(lián)的期刊論文元數據相關項,對二者進行關聯(lián)融合研究。先從論文的文獻特征、文獻類型、發(fā)文量與趨勢等方面對二者進行論文文獻的計量與分析,接著選取代表性案例數據進行深度探討,對論文進行基于元數據的關聯(lián)應用研究,概述該平臺的數據論文及關聯(lián)的期刊論文關聯(lián)模式主要為四大類:基于作者/作者單位的關聯(lián)、基于內容特征的關聯(lián)、基于引用方式的關聯(lián)和基于“關聯(lián)論文”字段的關聯(lián)。本研究從數據的元數據、內容到數據的應用方式與應用效果逐步進行分析,側重數據元素的應用研究。
在知識創(chuàng)新日益重要的今天,對科學數據的研究不再停滯于理論層次,而是要對科學數據的應用方式以及二次利用模式進行探究。期刊論文是學術成果展示的重要形式之一,對數據論文與期刊論文的關聯(lián)進行揭示,將對科學研究和科技創(chuàng)新產生重要的推動作用?;谠獢祿祿梅绞降年P聯(lián)研究只是數據與文獻關聯(lián)的完整研究體系中的一部分,隨著科學的不斷發(fā)展,各個領域的科學研究將不斷產生新的科學數據,新的學術成果展示形式也會不斷更新。因此,在今后的研究工作中還需從不同的視角對數據與文獻進行探討分析,促進科學數據與文獻之間的深度融合,進而推進關聯(lián)研究的深入發(fā)展。