彭秀媛 ,王 楓 ,周國民
(1.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京100081;2.遼寧省農(nóng)業(yè)科學(xué)院信息所,遼寧沈陽,110161;3.中共遼寧省委黨校信息中心,遼寧沈陽110004)
農(nóng)業(yè)科學(xué)數(shù)據(jù)既是一種特殊形式的科研成果,也是最為活躍、最為基礎(chǔ)的科研要素,推動著農(nóng)業(yè)科研工作不斷向深度和廣度發(fā)展。目前我國在農(nóng)業(yè)科學(xué)數(shù)據(jù)資源管理方面開展了大量工作,取得了一定的成績,但仍未實現(xiàn)有效共享和重用(即再次利用),數(shù)據(jù)重用形式主要為數(shù)據(jù)檢索和查詢,少見對農(nóng)業(yè)共享數(shù)據(jù)再分析等數(shù)據(jù)重用及其支撐相關(guān)研究,同時缺少面向問題的、系統(tǒng)的技術(shù)解決方案。因此基于農(nóng)業(yè)科學(xué)數(shù)據(jù)特點,針對農(nóng)業(yè)科學(xué)數(shù)據(jù)共享過程中存在的技術(shù)問題,開展農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)研究具有重要意義。
該研究對象為農(nóng)業(yè)科學(xué)數(shù)據(jù),對其內(nèi)涵與特點進(jìn)行分析是該研究開展的前提和基礎(chǔ)。
以政府?dāng)?shù)據(jù)為參照對象,從數(shù)據(jù)產(chǎn)生途徑、數(shù)據(jù)內(nèi)容、數(shù)據(jù)來源及特點方面對農(nóng)業(yè)科學(xué)數(shù)據(jù)與政府?dāng)?shù)據(jù)進(jìn)行了比較分析(表1),探索農(nóng)業(yè)科學(xué)數(shù)據(jù)內(nèi)涵。
采用文獻(xiàn)調(diào)研、問卷調(diào)查等方法開展研究,總結(jié)分析了農(nóng)業(yè)科學(xué)數(shù)據(jù)特點、數(shù)據(jù)共享特點和數(shù)據(jù)重用特點[1](表2)。
表1 農(nóng)業(yè)科學(xué)數(shù)據(jù)與政府?dāng)?shù)據(jù)區(qū)別
表2 農(nóng)業(yè)科學(xué)數(shù)據(jù)相關(guān)特點
以支撐農(nóng)業(yè)科學(xué)數(shù)據(jù)重用為目的,對農(nóng)業(yè)科學(xué)數(shù)據(jù)分類進(jìn)行研究,將農(nóng)業(yè)科學(xué)數(shù)據(jù)分為以下四類[2]:①間證數(shù)據(jù),指支撐科技論文的科學(xué)數(shù)據(jù),也是形成論文結(jié)論和驗證論文結(jié)果的必要數(shù)據(jù)[3]。其主要作用是作為同行評審的參考依據(jù),以及論文發(fā)表后的研究再現(xiàn),目前主要有論文附件、論文補充數(shù)據(jù)和數(shù)據(jù)論文3種形式。②基準(zhǔn)數(shù)據(jù),指農(nóng)業(yè)統(tǒng)計數(shù)據(jù)、農(nóng)業(yè)常用參數(shù)和現(xiàn)代農(nóng)業(yè)基準(zhǔn)數(shù)據(jù)等[4]。③一次數(shù)據(jù),指科研活動中直接產(chǎn)生的觀察、調(diào)查、監(jiān)測、檢測和實驗科學(xué)數(shù)據(jù)。④二次數(shù)據(jù),指按照需求系統(tǒng)加工、整理和分析獲得的科學(xué)數(shù)據(jù)產(chǎn)品和相關(guān)信息。
從技術(shù)角度來看,農(nóng)業(yè)科學(xué)數(shù)據(jù)共享主要存在以下問題。
2.1.1 科學(xué)數(shù)據(jù)增強問題??茖W(xué)數(shù)據(jù)增強是指將原來缺少上下文背景信息的農(nóng)業(yè)科學(xué)數(shù)據(jù)進(jìn)行整體或局部的信息豐富和標(biāo)準(zhǔn)化,加強科學(xué)數(shù)據(jù)的判讀和識別效果,增強對科學(xué)數(shù)據(jù)對象的整體理解,以滿足科學(xué)數(shù)據(jù)共享和重用的需要?,F(xiàn)有大量農(nóng)業(yè)科學(xué)數(shù)據(jù)沒有進(jìn)行增強,存在數(shù)據(jù)可理解性、數(shù)據(jù)不匹配、數(shù)據(jù)語義一致和數(shù)據(jù)可發(fā)現(xiàn)障礙,因此不能進(jìn)行共享,更不能進(jìn)行重用。
2.1.2 科學(xué)數(shù)據(jù)互操作問題??茖W(xué)數(shù)據(jù)互操作是2個或多個學(xué)科系統(tǒng)之間交換數(shù)據(jù)集信息并且使用所交換數(shù)據(jù)集的能力[5]。存在數(shù)據(jù)表示、數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)查詢障礙,進(jìn)一步阻礙了農(nóng)業(yè)科學(xué)數(shù)據(jù)的共享與重用。
為了更好的共享和重用農(nóng)業(yè)科學(xué)數(shù)據(jù),保證數(shù)據(jù)共享和重用效果,基于農(nóng)業(yè)科學(xué)數(shù)據(jù)特點,以及數(shù)據(jù)共享存在的問題,提出了農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)。包括科學(xué)數(shù)據(jù)增強、科學(xué)數(shù)據(jù)互操作和科學(xué)數(shù)據(jù)重用效果評估技術(shù)(圖1)。其中科學(xué)數(shù)據(jù)增強是基礎(chǔ),科學(xué)數(shù)據(jù)互操作是手段,科學(xué)數(shù)據(jù)重用是目的。通過科學(xué)數(shù)據(jù)重用效果的評估結(jié)果體現(xiàn)數(shù)據(jù)增強和數(shù)據(jù)互操作技術(shù)的實施效果,通過調(diào)整數(shù)據(jù)增強和數(shù)據(jù)互操作的技術(shù)方案能夠更好地提升數(shù)據(jù)重用效果,進(jìn)而形成了一個良性循環(huán)的技術(shù)系統(tǒng)。上述技術(shù)集合而成的農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)能夠較好地解決農(nóng)業(yè)科學(xué)數(shù)據(jù)共享過程中存在的技術(shù)問題。
圖1 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)模型
農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)的運行原理:首先對農(nóng)業(yè)科學(xué)數(shù)據(jù)實施數(shù)據(jù)增強技術(shù)方案,進(jìn)行數(shù)據(jù)增強,之后對大量分布于科研人員手中的一次數(shù)據(jù)和二次數(shù)據(jù)實施數(shù)據(jù)互操作技術(shù)方案,支撐數(shù)據(jù)交互,從而形成數(shù)據(jù)共享環(huán)境,進(jìn)而支撐數(shù)據(jù)重用。
2.3.1 明確科學(xué)數(shù)據(jù)增強的“數(shù)據(jù)項—數(shù)據(jù)元—元數(shù)據(jù)—本體”四級技術(shù)結(jié)構(gòu)(圖2),區(qū)分農(nóng)業(yè)科學(xué)數(shù)據(jù)的數(shù)據(jù)元素和數(shù)據(jù)項,并在數(shù)據(jù)外圍增加元數(shù)據(jù)和本體信息,對數(shù)據(jù)進(jìn)行逐級標(biāo)準(zhǔn)化,自下而上逐漸增強數(shù)據(jù)的可理解能力,各層共同支撐農(nóng)業(yè)科學(xué)數(shù)據(jù)的共享和重用。其中,數(shù)據(jù)元素是對科學(xué)數(shù)據(jù)內(nèi)部組織結(jié)構(gòu)的描述、定義和規(guī)范,元數(shù)據(jù)是描述科學(xué)數(shù)據(jù)的外在特征,本體是描述科學(xué)數(shù)據(jù)的內(nèi)容特征。
圖2 科學(xué)數(shù)據(jù)增強技術(shù)結(jié)構(gòu)
2.3.2 制定科學(xué)數(shù)據(jù)增強的技術(shù)方案(圖3)。隨著相關(guān)技術(shù)的發(fā)展和需求的變化,數(shù)據(jù)增強的技術(shù)結(jié)構(gòu)也將不斷發(fā)展演變。
圖3 農(nóng)業(yè)科學(xué)數(shù)據(jù)增強技術(shù)方案
2.3.3 農(nóng)業(yè)科學(xué)數(shù)據(jù)數(shù)據(jù)元標(biāo)準(zhǔn)制定。制定科學(xué)數(shù)據(jù)實體的數(shù)據(jù)元素和數(shù)據(jù)項的屬性;基于面向數(shù)據(jù)重用的科研活動來構(gòu)建數(shù)據(jù)元標(biāo)準(zhǔn),一方面指導(dǎo)農(nóng)業(yè)科學(xué)數(shù)據(jù)收集工作,另一方面從數(shù)據(jù)重用角度規(guī)范數(shù)據(jù)收集內(nèi)容。
2.3.4 農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)制定。在元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容和元數(shù)據(jù)標(biāo)準(zhǔn)支撐的應(yīng)用方面,對比分析了生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)[6]、農(nóng)業(yè)科學(xué)數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn)[7]、農(nóng)業(yè)科技信息核心元數(shù)據(jù)標(biāo)準(zhǔn)[8],確定以生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)作為農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的主要內(nèi)容,并在應(yīng)用過程中,依據(jù)制定的元數(shù)據(jù)標(biāo)準(zhǔn)擴展機制適度修正標(biāo)準(zhǔn),從而形成農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)。確定核心元數(shù)據(jù)標(biāo)準(zhǔn)。在元數(shù)據(jù)標(biāo)準(zhǔn)基礎(chǔ)上,遵循擴展機制,提出需制定的農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)應(yīng)用方案框架結(jié)構(gòu),確定元數(shù)據(jù)應(yīng)用方案構(gòu)建流程。
2.3.5 農(nóng)業(yè)科學(xué)數(shù)據(jù)本體構(gòu)建。采用基于敘詞表的領(lǐng)域本體構(gòu)建方法構(gòu)建農(nóng)業(yè)科學(xué)數(shù)據(jù)本體。對上述元數(shù)據(jù)應(yīng)用方案采用本體描述語言分別進(jìn)行本體化描述,采用RDF格式進(jìn)行表達(dá),逐一構(gòu)建元數(shù)據(jù)應(yīng)用方案本體,并在不同元數(shù)據(jù)應(yīng)用方案本體之間建立映射關(guān)系,構(gòu)建元數(shù)據(jù)本體。
目前涉農(nóng)研究的機構(gòu)和個人之間沒有形成明確、統(tǒng)一的科學(xué)數(shù)據(jù)互操作結(jié)構(gòu)體系,阻礙了科學(xué)數(shù)據(jù)互操作[9]。因此該研究從技術(shù)角度,提出了農(nóng)業(yè)科學(xué)數(shù)據(jù)互操作技術(shù)方案,由低到高涵蓋技術(shù)、語義、組織、法律互操作(圖4)。
圖4 農(nóng)業(yè)科學(xué)數(shù)據(jù)互操作技術(shù)方案
2.4.1 技術(shù)互操作。技術(shù)互操作是數(shù)據(jù)互操作有效開展的必要條件,目的是實現(xiàn)科學(xué)數(shù)據(jù)的有效交換和利用。技術(shù)互操作形式包括結(jié)構(gòu)化互操作和非結(jié)構(gòu)化互操作兩類。結(jié)構(gòu)化互操作對象為結(jié)構(gòu)化科學(xué)數(shù)據(jù),主要指科學(xué)數(shù)據(jù)庫,采用Web服務(wù)、Web API接口等開放標(biāo)準(zhǔn)協(xié)議,對數(shù)據(jù)格式、軟件接口、通信協(xié)議、互操作的方法和工具等進(jìn)行結(jié)構(gòu)化統(tǒng)一,實現(xiàn)科學(xué)數(shù)據(jù)的技術(shù)互操作。針對數(shù)據(jù)文件等非結(jié)構(gòu)化科學(xué)數(shù)據(jù)互操作,應(yīng)對文檔、圖片、音頻、視頻等數(shù)據(jù)設(shè)定常用的文件格式,采用FTP、WebDAV等普通Web數(shù)據(jù)共享方法,基于數(shù)據(jù)集的松散耦合簡單服務(wù)和內(nèi)容訪問權(quán)限管理實現(xiàn)科學(xué)數(shù)據(jù)互操作,不對其進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化,適用于針對特定問題、特定應(yīng)用頻率和目標(biāo)多變的技術(shù)方案,以支持農(nóng)業(yè)科學(xué)數(shù)據(jù)重用多樣性。與結(jié)構(gòu)化數(shù)據(jù)不同,非結(jié)構(gòu)化數(shù)據(jù)不能直接進(jìn)行比較、聚合等操作,因此需根據(jù)不同格式的科學(xué)數(shù)據(jù)規(guī)定明確的結(jié)構(gòu)化信息提取流程,進(jìn)一步支撐科學(xué)數(shù)據(jù)分析等重用[10-12]。
2.4.2 語義互操作。語義互操作主要解決科學(xué)數(shù)據(jù)整合和一致性問題,以支持合作與協(xié)作。農(nóng)業(yè)科學(xué)數(shù)據(jù)語義互操作,在元數(shù)據(jù)互操作方面,采用基于核心元數(shù)據(jù)的互操作方法,實現(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)體系內(nèi)互操作;采用元數(shù)據(jù)靜態(tài)映射方法實現(xiàn)不同元數(shù)據(jù)標(biāo)準(zhǔn)間互操作[13]。在本體互操作方面,采用本體映射方法來確定科學(xué)數(shù)據(jù)本體間對應(yīng)關(guān)系,實現(xiàn)科學(xué)數(shù)據(jù)本體互操作;采用關(guān)聯(lián)數(shù)據(jù)技術(shù)對本體化的元數(shù)據(jù)進(jìn)行再組織,并基于關(guān)聯(lián)數(shù)據(jù)原則在網(wǎng)絡(luò)上進(jìn)行發(fā)布,構(gòu)建農(nóng)業(yè)科學(xué)數(shù)據(jù)關(guān)聯(lián)元數(shù)據(jù)本體,將富含語義關(guān)系的農(nóng)業(yè)科學(xué)數(shù)據(jù)元、數(shù)據(jù)本體與關(guān)聯(lián)數(shù)據(jù)有機結(jié)合。
2.4.3 組織互操作。現(xiàn)有研究更多關(guān)注數(shù)據(jù)交互層面的互操作研究,而對于體系架構(gòu)層面的頂層設(shè)計研究不足。但底層支撐技術(shù)的改進(jìn)無法彌補頂層設(shè)計的不足。因此農(nóng)業(yè)科學(xué)數(shù)據(jù)的互操作須關(guān)注組織層面的設(shè)計,涉及組織策略、協(xié)作目標(biāo)、組織架構(gòu)、業(yè)務(wù)流程等,從組織層面分析互操作性問題,確定組織間的協(xié)作業(yè)務(wù)流程,指導(dǎo)協(xié)作關(guān)系的建立與維護,使組織間具有協(xié)作交換數(shù)據(jù)的能力。
2.4.4 法律互操作。法律互操作性確保在不同法律框架下的組織、政策和戰(zhàn)略協(xié)同工作。農(nóng)業(yè)科學(xué)數(shù)據(jù)法律互操作需考慮組織間交換數(shù)據(jù)時,通過明確協(xié)議消除實施中存在的法律差異;向公眾提供服務(wù)時,通過明確協(xié)議解決法律層面的數(shù)據(jù)安全和數(shù)據(jù)保護等問題[14]。
借鑒已有研究提出的重要的數(shù)據(jù)質(zhì)量維度,及其在評估和選擇重用數(shù)據(jù)方面的作用,采用經(jīng)驗法,提出了農(nóng)業(yè)科學(xué)數(shù)據(jù)重用效果評估框架(圖5)??蚣芸赏ㄟ^數(shù)據(jù)增強關(guān)鍵技術(shù)和數(shù)據(jù)互操作關(guān)鍵技術(shù)進(jìn)行體現(xiàn)和支撐。其中數(shù)據(jù)可理解性、數(shù)據(jù)相關(guān)性、數(shù)據(jù)語義一致性、數(shù)據(jù)完整性、數(shù)據(jù)可信性、數(shù)據(jù)可發(fā)現(xiàn)性對應(yīng)于數(shù)據(jù)增強關(guān)鍵技術(shù),數(shù)據(jù)可發(fā)現(xiàn)性、數(shù)據(jù)可訪問性、數(shù)據(jù)易用性對應(yīng)于數(shù)據(jù)互操作關(guān)鍵技術(shù)。該框架一方面可以通過數(shù)據(jù)重用效果評估檢驗數(shù)據(jù)增強和數(shù)據(jù)互操作技術(shù)方案的實施效果,另一方面可以通過升級數(shù)據(jù)增強和數(shù)據(jù)互操作技術(shù)方案,作用于數(shù)據(jù)質(zhì)量維度,提高數(shù)據(jù)重用效果。
圖5 農(nóng)業(yè)科學(xué)數(shù)據(jù)重用效果評估框架
該研究以農(nóng)業(yè)科學(xué)數(shù)據(jù)為對象,綜合應(yīng)用元數(shù)據(jù)、本體、語義網(wǎng)、互操作、關(guān)聯(lián)數(shù)據(jù)等技術(shù),采用文獻(xiàn)調(diào)研法、案例研究法、系統(tǒng)分析法等方法,開展了農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)研究工作。提出了“三位一體”的農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng),有機結(jié)合數(shù)據(jù)增強、數(shù)據(jù)互操作、數(shù)據(jù)重用效果評估三部分內(nèi)容,制定了數(shù)據(jù)增強和數(shù)據(jù)互操作關(guān)鍵技術(shù)方案,初步解決了農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中存在的技術(shù)問題;提出了數(shù)據(jù)重用效果評估框架,對數(shù)據(jù)增強和數(shù)據(jù)互操作技術(shù)效果進(jìn)行評估,建立了數(shù)據(jù)共享與數(shù)據(jù)重用的良性循環(huán)。上述研究為農(nóng)業(yè)科學(xué)數(shù)據(jù)共享與重用實踐奠定了基礎(chǔ),也為相關(guān)研究提供了可參考的實例。