■徐 雷 潘 珺
1)武漢大學(xué)信息管理學(xué)院,湖北省武漢市洪山區(qū)珞珈山16號 4300722)武漢大學(xué)經(jīng)濟與管理學(xué)院,湖北省武漢市洪山區(qū)珞珈山16號 430072
科學(xué)出版物語義數(shù)據(jù)是出版物經(jīng)過結(jié)構(gòu)化、語義化等操作后形成的數(shù)據(jù)形態(tài),科學(xué)出版物語義數(shù)據(jù)的組織與發(fā)布可以提高科學(xué)研究成果的可發(fā)現(xiàn)性、可重復(fù)性,并提高數(shù)據(jù)的互操作性。本研究將科學(xué)出版物語義數(shù)據(jù)簡稱為語義出版數(shù)據(jù)(Semantic Publishing Data),廣義上講,語義出版數(shù)據(jù)是科學(xué)數(shù)據(jù)(Scientific Data)的一種形態(tài),傳統(tǒng)的科學(xué)數(shù)據(jù)主要指在科學(xué)活動過程中所產(chǎn)生的科學(xué)研究數(shù)據(jù),它是科研結(jié)論的重要證據(jù)及支撐材料,包括各種科學(xué)實驗與觀測數(shù)據(jù),以及基于原始數(shù)據(jù)分析而得到的科學(xué)發(fā)現(xiàn)數(shù)據(jù)等。而狹義的語義出版數(shù)據(jù)更多的是對科學(xué)出版物本身語義化而得到的數(shù)據(jù),而非上述所說的科研活動中產(chǎn)生的數(shù)據(jù)。本研究所指的語義出版數(shù)據(jù)是諸如納米出版物[1]、語義化的科學(xué)引文數(shù)據(jù)等類型的數(shù)據(jù),這些數(shù)據(jù)是在傳統(tǒng)期刊、會議、項目、論文、圖書等資源的基礎(chǔ)上經(jīng)過信息抽取、語義組織與轉(zhuǎn)換而形成的關(guān)聯(lián)數(shù)據(jù),或者從一開始就是關(guān)聯(lián)數(shù)據(jù)的組織形態(tài)數(shù)據(jù),語義出版數(shù)據(jù)是對傳統(tǒng)數(shù)字出版物內(nèi)容、結(jié)構(gòu)等層面的再組織,是出版物組織與發(fā)布的新形態(tài),也是語義出版(Semantic Publishing)[2]和數(shù)據(jù)出版(Data Publishing)[3]的最新實踐。
語義出版?zhèn)戎厥褂藐P(guān)聯(lián)數(shù)據(jù)(Linked Data)等語義技術(shù)來組織出版物,如納米出版物、增強型出版物等形態(tài),而數(shù)據(jù)出版相對于傳統(tǒng)的文獻(xiàn)出版而言,強調(diào)科學(xué)數(shù)據(jù)的開放共享、數(shù)據(jù)的重復(fù)利用等,以支持更廣泛的科學(xué)交流活動。數(shù)據(jù)出版實踐中的科學(xué)數(shù)據(jù)格式可能是文本數(shù)據(jù)、表格數(shù)據(jù)等形式,也有可能是關(guān)聯(lián)數(shù)據(jù),即鏈接科學(xué)數(shù)據(jù)(Linked Scientific Data)。語義出版數(shù)據(jù)可以看作是語義出版和數(shù)據(jù)出版的融合,語義出版數(shù)據(jù)本身就是一種數(shù)據(jù)形態(tài),可作為數(shù)據(jù)出版實踐中被發(fā)布的對象,同時語義出版數(shù)據(jù)的生產(chǎn)中使用了大量的語義技術(shù),因此它又是語義出版實踐的產(chǎn)物。
在實踐中,尤其是在數(shù)據(jù)驅(qū)動的開放學(xué)科研究環(huán)境下,語義出版與數(shù)據(jù)出版交融的趨勢越來越明顯,即語義出版中涉及數(shù)據(jù)的發(fā)布,數(shù)據(jù)出版中會應(yīng)用到語義技術(shù)。比如,在出版物語義化處理與生產(chǎn)的過程中,就包括了傳統(tǒng)科學(xué)數(shù)據(jù)的語義化過程,例如通過構(gòu)建科學(xué)數(shù)據(jù)本體來對科學(xué)數(shù)據(jù)進(jìn)行組織[4],對科學(xué)數(shù)據(jù)進(jìn)行語義化描述[5]等。還有如在Research Object[6]中,將科研項目、科學(xué)論文、科研活動、科研流程、科學(xué)假設(shè)與結(jié)論以及科研活動中產(chǎn)生的科學(xué)數(shù)據(jù)、代碼等都納入到一個統(tǒng)一的組織框架,進(jìn)行語義化關(guān)聯(lián)與發(fā)布,以促進(jìn)科學(xué)數(shù)據(jù)的共享重用以及科學(xué)成果再現(xiàn)。這些研究在一定程度上可看作是語義出版實踐,也可看作是數(shù)據(jù)出版實踐。
就科學(xué)出版物語義數(shù)據(jù)的來源而言,語義出版數(shù)據(jù)更多是伴隨著對語義出版的研究與實踐而產(chǎn)生的,語義出版的主要目的是通過可視化、動態(tài)檢索、語義標(biāo)注等手段來增強出版物的語義,進(jìn)行關(guān)聯(lián),共享出版物背后的科學(xué)數(shù)據(jù),豐富出版物的元數(shù)據(jù)來提高機器的可讀性,進(jìn)而促進(jìn)出版物的可發(fā)現(xiàn)性。在出版物的語義關(guān)聯(lián)、標(biāo)注、共享的過程中,根據(jù)不同的組織類型、組織粒度以及使用的不同數(shù)據(jù)模型就會產(chǎn)生各種類型的語義出版數(shù)據(jù)。因此,語義出版數(shù)據(jù)開發(fā)的重要性就不言而喻。本研究主要聚焦于目前主要的語義出版數(shù)據(jù)集,分析這些數(shù)據(jù)集的類型、組成要素、生成技術(shù)以及應(yīng)用狀況,總結(jié)目前語義出版數(shù)據(jù)集發(fā)布的特點,發(fā)掘基于這些數(shù)據(jù)集的可能科學(xué)研究形態(tài)及趨勢,以及作為數(shù)據(jù)出版的一種數(shù)據(jù)形態(tài),其對科技期刊發(fā)展的意義。
語義出版作為一種新型的出版物組織技術(shù)在近幾年受到了來自學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,尤其是在開放科學(xué)運動的環(huán)境下,出版物不再是傳統(tǒng)紙質(zhì)期刊的載體形態(tài),而是呈現(xiàn)出開放獲取、預(yù)印本、數(shù)據(jù)出版、納米出版物、微型出版物[7]等越來越開放、細(xì)粒度、結(jié)構(gòu)化的新型出版物形態(tài)。在這一過程中也出現(xiàn)了推動各種新形態(tài)的組織機構(gòu),如開放引文組織(Initiative for Open Citations,I4OC)[8]、出版商國際鏈接協(xié)會Crossref PILA[9]、W3C組織下的各種出版小組[10]等以及各種語義出版標(biāo)準(zhǔn),比如語義出版和引用本體(Semantic Publishing and Referencing Ontologies,SPAR)[11];同時,語義出版的應(yīng)用也逐漸增多[12],語義出版模式也逐漸被一些出版商所采納[13-14]。伴隨著語義出版和數(shù)據(jù)出版實踐的開展,已經(jīng)有大量的語義出版數(shù)據(jù)集被產(chǎn)生并發(fā)布出來,表1整理了目前為止一些典型的語義出版數(shù)據(jù)集。
目前,語義出版數(shù)據(jù)的最大來源是關(guān)聯(lián)開放數(shù)據(jù)(Linked Open Data,LOD)出版物類型中的數(shù)據(jù)集。最新版的LOD數(shù)據(jù)(2018-04-30版)中的語義出版數(shù)據(jù)集共有156個,約占整個LOD數(shù)據(jù)集的13.2%(156/1184)。通過分析LOD中的這些語義出版數(shù)據(jù)發(fā)現(xiàn),這些數(shù)據(jù)主要來自圖書館書目數(shù)據(jù)、開放獲取期刊數(shù)據(jù)、文化遺產(chǎn)數(shù)據(jù)、教學(xué)課程資源、學(xué)位論文數(shù)據(jù)、學(xué)術(shù)會議信息、引文鏈接數(shù)據(jù)、歷史檔案數(shù)據(jù)、主題詞表、各個大學(xué)的閱讀列表數(shù)據(jù)等。LOD中語義數(shù)據(jù)的發(fā)布需要滿足的條件是:該數(shù)據(jù)集必須和LOD中已有的數(shù)據(jù)進(jìn)行關(guān)聯(lián),或者被其鏈接。表1中的LOD DBLP就是一個比較有代表性的數(shù)據(jù)集,與DBLP類似的數(shù)據(jù)還有美國計算機協(xié)會(Association for Computing Machinery,ACM)、電氣和電子工程師協(xié)會(Institute of Electrical and Electronics Engineers,IEEE)等關(guān)聯(lián)數(shù)據(jù)。表1中除了DBLP和Nanopublication外,其他數(shù)據(jù)并沒有在LOD中鏈接或注冊。
在LOD語義出版數(shù)據(jù)中,DBLP是最典型的語義數(shù)據(jù)集之一,它鏈接到其他數(shù)據(jù)集的數(shù)量為34個,被其他數(shù)據(jù)集鏈接的書目為31個,是所有語義出版數(shù)據(jù)集中關(guān)聯(lián)度最高的一個,目前該數(shù)據(jù)集中含有24112294個三元組。最初DBLP的數(shù)據(jù)是XML格式的[26],因此對于這種格式化的數(shù)據(jù)極容易轉(zhuǎn)換為資源描述框架(Resource Description Framework,RDF)關(guān)聯(lián)數(shù)據(jù)。OpenCitations數(shù)據(jù)集遵循FAIR[27]原則,采用RDF格式,使用SPAR本體和OpenCitations 本體[28]來組織數(shù)據(jù)。目前開放引文運動以及OpenCitations數(shù)據(jù)的發(fā)布日益龐大,且已經(jīng)獲得了諸多出版商的支持。WikiCite基于Wikidata資源創(chuàng)建,其創(chuàng)建引用的機制沿用了很多Wikidata自有的數(shù)據(jù)模型,因此該鏈接數(shù)據(jù)可以在Wikidata的各個頁面或條目之間進(jìn)行有效鏈接,同時該數(shù)據(jù)模型也可以被其他數(shù)據(jù)集所使用。Springer-Nature的SciGraph目前包含1.55億個三元組,并且仍在持續(xù)不斷增加新的數(shù)據(jù)。目前該數(shù)據(jù)集包含了2012—2016年的Springer-Nature期刊數(shù)據(jù)。OpenAIRE可以看作一個開放的集成鏈接科學(xué)數(shù)據(jù)的平臺,其對科學(xué)數(shù)據(jù)和各種基金資助項目進(jìn)行關(guān)聯(lián),數(shù)據(jù)主要來自于各個數(shù)據(jù)的提供者,并遵循OpenAIRE的內(nèi)容獲取政策,目前主要面向歐洲,但未來有擴展到全球的計劃。截至2018年3月,OpenAIRE中已經(jīng)有1153個數(shù)據(jù)提供者。目前的數(shù)據(jù)格式遵循OpenAire Format(OAF),數(shù)據(jù)提供者可以通過OpenAIRE的驗證工具對欲提交的數(shù)據(jù)集進(jìn)行兼容性驗證。SciKG數(shù)據(jù)集是一個學(xué)術(shù)社交數(shù)據(jù)集,學(xué)術(shù)搜索引擎AMiner[29]就是基于該數(shù)據(jù)集開發(fā)的。與SciKG類似,AceKG是一個學(xué)術(shù)鏈接數(shù)據(jù)集,但其學(xué)科領(lǐng)域更廣,不側(cè)重社交屬性。
表1 語義出版數(shù)據(jù)集概覽
表2給出了這些語義出版數(shù)據(jù)集內(nèi)容的主要構(gòu)成要素,以及數(shù)據(jù)集使用外部詞匯或數(shù)據(jù)的情況。通過分析可以發(fā)現(xiàn),目前語義出版數(shù)據(jù)的學(xué)科來源以計算機、生物醫(yī)學(xué)、百科等相關(guān)領(lǐng)域居多,但全領(lǐng)域的數(shù)據(jù)集也有,如上海交通大學(xué)的AceKG數(shù)據(jù)集。在組織層面上,這些數(shù)據(jù)集在制作過程中大部分都會復(fù)用已有的本體框架或領(lǐng)域詞匯,并和其他的數(shù)據(jù)資源進(jìn)行關(guān)聯(lián),比如和出版領(lǐng)域相關(guān)的SPAR本體、都柏林核心詞匯、簡單知識組織系統(tǒng)(Simple Knowledge Organization System,SKOS)等,以及具有領(lǐng)域特色的數(shù)據(jù)資源如基因本體(Gene Ontology,GO )、醫(yī)學(xué)主題詞表(Medical Subject Headings,MeSH)、ACM計算分類系統(tǒng)等,這符合語義數(shù)據(jù)發(fā)布的參考原則。另外,從這些語義出版數(shù)據(jù)的內(nèi)容組成上看,主要圍繞出版物的元數(shù)據(jù)信息、出版物之間的參考引用信息、出版物相關(guān)的實體元數(shù)據(jù)信息(如編輯、作者、機構(gòu)、會議、期刊、出版商等)以及這些實體之間的關(guān)系來組織,組織的粒度大部分還處于出版物的元數(shù)據(jù)層面,深入到出版物內(nèi)容層面的組織形態(tài)目前只有Nanopublication這一個數(shù)據(jù)集。
LOD DBLP直接由原始的XML格式的DBLP數(shù)據(jù)庫轉(zhuǎn)換而來。CEUR-WS語義數(shù)據(jù)集將PDF格式的研討會論文數(shù)據(jù)進(jìn)行文本轉(zhuǎn)換、語義標(biāo)注、外部鏈接,生成RDF關(guān)聯(lián)數(shù)據(jù)的格式。同時,在Figshare.com網(wǎng)站上找到論文資源元數(shù)據(jù)對應(yīng)的實體、類別等信息并鏈接映射;對于Figshare.com網(wǎng)站上的文獻(xiàn)中的引用信息,也找到其相應(yīng)的DOI信息并關(guān)聯(lián)。Nanopublication數(shù)據(jù)集目前主要是從結(jié)構(gòu)化的生物醫(yī)學(xué)數(shù)據(jù)中抽取轉(zhuǎn)換而來,如WikiPathways、 Biological Expression Language(BEL)數(shù)據(jù)等。Semantic Lancet數(shù)據(jù)集是通過獲取JournalofWebSemantics的引文數(shù)據(jù),并使用SPAR等本體進(jìn)行標(biāo)引集成而生成的。Springer的SciGraph數(shù)據(jù)集,其使用了ETL(Extract Transform Load)技術(shù)來獲取這些關(guān)聯(lián)數(shù)據(jù),其中包含了大量的數(shù)據(jù)抽取任務(wù)。
表2 語義出版數(shù)據(jù)集結(jié)構(gòu)要素
OpenCitations數(shù)據(jù)集首先使用Europe PubMed Central API從PubMed中抽取開放獲取文章的參考文獻(xiàn)列表并生產(chǎn)JSON格式的數(shù)據(jù),然后基于這些數(shù)據(jù),使用Crossref API和 ORCID API工具收集更多的關(guān)于這些引文數(shù)據(jù)的補充數(shù)據(jù),并轉(zhuǎn)換為RDF格式,或發(fā)布為關(guān)聯(lián)數(shù)據(jù)。
目前,WikiCite項目還在進(jìn)行當(dāng)中,其研究的技術(shù)問題包括:構(gòu)建書目數(shù)據(jù)源的元數(shù)據(jù)模型、引用信息的抽取與查詢、有效的表征引用行為(如引用出現(xiàn)的位置、引用的目標(biāo)源等)、自動在Wikidata中添加引用信息、Wikidata結(jié)構(gòu)化數(shù)據(jù)的語義查詢、Wikidata數(shù)據(jù)的集成等。在WikiCite項目的驅(qū)動下,英文維基百科的PubMed Central ID(PMCID)、書目元數(shù)據(jù)以及部分生物醫(yī)學(xué)文獻(xiàn)的引文網(wǎng)絡(luò)等數(shù)據(jù)已經(jīng)集成進(jìn)入Wikidata。
SciKG集成了微軟學(xué)術(shù)圖譜(Microsoft Academic Graph,MAG)數(shù)據(jù),并作為學(xué)術(shù)搜索引擎AMiner的支撐數(shù)據(jù)。整個數(shù)據(jù)集使用的知識獲取核心技術(shù)包括:從社交網(wǎng)絡(luò)如Facebook、Twitter中識別并抽取學(xué)術(shù)作者,并將不同社交平臺的學(xué)者社交網(wǎng)絡(luò)進(jìn)行語義融合,涉及到實體消歧技術(shù),也需要手工糾錯、眾包的方法來提高整個數(shù)據(jù)集的質(zhì)量。整個數(shù)據(jù)集包括引文數(shù)據(jù)、學(xué)術(shù)社交網(wǎng)絡(luò)數(shù)據(jù)、導(dǎo)師與學(xué)生關(guān)系數(shù)據(jù)、主題的共同作者數(shù)據(jù)、主題和論文以及作者數(shù)據(jù)、主題與引文數(shù)據(jù)、核心社區(qū)數(shù)據(jù)、引用鏈接標(biāo)注數(shù)據(jù)等。AceKG則直接從上海交通大學(xué)開發(fā)的學(xué)術(shù)搜索引擎Acemap[30]的后臺數(shù)據(jù)中經(jīng)過抽取、格式轉(zhuǎn)換而來。這些數(shù)據(jù)集的生成方式可以通過圖1所示的流程來展示。首先,收集各種不同結(jié)構(gòu)化程度的學(xué)術(shù)資源,包括學(xué)術(shù)網(wǎng)站、結(jié)構(gòu)化數(shù)據(jù)、學(xué)術(shù)搜索引擎和數(shù)據(jù)庫等預(yù)處理的資源,然后針對數(shù)據(jù)特征,進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換以及清洗等預(yù)處理工作,對原始資源進(jìn)行結(jié)構(gòu)化。之后,通過引入本體、詞匯、數(shù)據(jù)集等外部資源對預(yù)處理之后的數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)引、結(jié)構(gòu)化表示與組織、與已有的數(shù)據(jù)集進(jìn)行鏈接映射,并按各種組織標(biāo)準(zhǔn)對其進(jìn)行形式化處理。在數(shù)據(jù)發(fā)布之前,為了保證生成數(shù)據(jù)的質(zhì)量,一般也會引入數(shù)據(jù)質(zhì)量審核流程,以提高最終發(fā)布數(shù)據(jù)的質(zhì)量,或通過眾包的方式來解決計算機算法難以處理的問題。最后,在數(shù)據(jù)發(fā)布的階段,一般會提供開放API數(shù)據(jù)訪問接口以支撐基于這些數(shù)據(jù)之上的應(yīng)用。當(dāng)然,實際情況不一定完全符合上述各個環(huán)節(jié),有些語義出版數(shù)據(jù)從生產(chǎn)開始就是結(jié)構(gòu)化了的語義數(shù)據(jù)。
圖1 語義出版數(shù)據(jù)生產(chǎn)制作流程
DBLP等LOD數(shù)據(jù)集要求數(shù)據(jù)集中的統(tǒng)一資源標(biāo)識符(Uniform Resource Identifier,URI)必須是可以解析的,同時數(shù)據(jù)集必須和其他數(shù)據(jù)集進(jìn)行鏈接。這些數(shù)據(jù)集一般都會提供SPARQL查詢服務(wù)、在線瀏覽、批量下載等訪問形式,可供其他外部程序調(diào)用。SciGraph目前推薦使用Elastic[31]套件中的ElasticSearch 或Kibana工具進(jìn)行基于該數(shù)據(jù)的應(yīng)用,比如查詢導(dǎo)覽、可視化、統(tǒng)計分析等功能。
OpenAIRE提供了訪問其數(shù)據(jù)的開放API,目前提供了強大的分面搜索功能,比如按照基金資助者、訪問的模式(開放獲取還是有限制的其他模式)、出版時間、文檔類型、語言等維度來檢索出版物、研究數(shù)據(jù)集、項目、研究人員、組織等信息,同時也提供出版物及科研數(shù)據(jù)集的提交功能,并在未來提供數(shù)據(jù)集的清洗、轉(zhuǎn)換、消歧等數(shù)據(jù)集的豐富化服務(wù)、數(shù)據(jù)集的使用分析等知識服務(wù)。
目前,Semantic Lancet提供了作者發(fā)文瀏覽,以及基于作者、摘要、文獻(xiàn)標(biāo)題、地點等信息的文獻(xiàn)深度查找功能,并將論文摘要信息進(jìn)行語義索引,和WordNet以及DBpedia資源進(jìn)行映射。基于該語義化索引的摘要數(shù)據(jù),Semantic Lancet提供了論文語義檢索功能,以及基于引文數(shù)據(jù)的論文、作者的影響力可視化分析功能,還提供了關(guān)于該數(shù)據(jù)集中存在的錯誤、不完整或重復(fù)的數(shù)據(jù)報告。
WikiCite目前提供了SPARQL查詢服務(wù),可以方便用戶自動構(gòu)建SPARQL查詢語句,并將檢索結(jié)果根據(jù)數(shù)據(jù)類型展示為各種可視化的形式,而不是傳統(tǒng)的表格數(shù)據(jù)。目前,WikiCite提供了氣泡圖、時間線、網(wǎng)絡(luò)圖、餅圖、散點圖、樹形圖、矩形樹圖、地理地形圖等形式多樣的可視化檢索結(jié)果。
納米出版物形式的語義出版數(shù)據(jù)更被認(rèn)為是未來的出版形態(tài)[32],這種直接將最核心的科學(xué)事實和結(jié)論使用極小的納米單元容器進(jìn)行組織發(fā)布,將極大地促進(jìn)科學(xué)交流與科學(xué)發(fā)現(xiàn)的進(jìn)程,縮短不必要的科學(xué)實驗時間,促進(jìn)更為廣泛的科學(xué)共享與科學(xué)創(chuàng)新。目前Nanopublications數(shù)據(jù)集已經(jīng)被組織成服務(wù)器網(wǎng)絡(luò),世界各地的Nanopublication服務(wù)器都可以發(fā)布數(shù)據(jù),并將其鏈接到該網(wǎng)絡(luò)上。
SciKG數(shù)據(jù)集已經(jīng)應(yīng)用在了AMiner學(xué)術(shù)搜索引擎,該搜索引擎以學(xué)者為中心,可以檢索到學(xué)者的姓名、頭銜、隸屬機構(gòu)、教育背景、研究興趣、發(fā)表的論文、引文指標(biāo)數(shù)據(jù)、研究興趣的歷時變化、研究的多樣性指標(biāo)及活躍度指標(biāo)等;同時,可以發(fā)現(xiàn)相似的作者、研究領(lǐng)域的新星,提供繪制作者的自我中心社交網(wǎng)絡(luò)等功能。在該數(shù)據(jù)集基礎(chǔ)上,AMiner可為學(xué)者提供個性化的學(xué)術(shù)服務(wù),如發(fā)現(xiàn)領(lǐng)域著名學(xué)者、機構(gòu)、地區(qū),推薦投稿會議,推薦論文審稿人等服務(wù)。
OpenCitations作為引文數(shù)據(jù)集,目前正在逐漸擴大,其主要的應(yīng)用領(lǐng)域是引文分析相關(guān)的文獻(xiàn)計量研究。科學(xué)引文數(shù)據(jù)分析作為科學(xué)計量學(xué)的重要研究方向和方法,在傳統(tǒng)的研究工作中,通常學(xué)者開展引文分析時,需要經(jīng)歷檢索科學(xué)文獻(xiàn)、下載題錄數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)格式轉(zhuǎn)化、導(dǎo)入分析軟件與程序、選擇分析方法與指標(biāo)、可視化分析結(jié)果、結(jié)果分析與總結(jié)等若干步驟,其中數(shù)據(jù)準(zhǔn)備就占據(jù)了大部分的時間。OpenCitations數(shù)據(jù)集是高質(zhì)量、完整的結(jié)構(gòu)化語義數(shù)據(jù),OpenCitations數(shù)據(jù)集的出現(xiàn)及壯大將極大地緩解科研人員搜集數(shù)據(jù)的壓力,同時支持更為準(zhǔn)確的計量分析結(jié)果,也勢必會極大地縮短目前的科學(xué)計量研究路徑。
整體來看,基于語義出版數(shù)據(jù)集的應(yīng)用系統(tǒng)基本都會提供開放的數(shù)據(jù)訪問接口,如SPARQL、REST API,以便于更多的應(yīng)用能夠輕易地使用這些數(shù)據(jù)。同時,結(jié)合可視化、數(shù)據(jù)挖掘、數(shù)據(jù)統(tǒng)計分析等技術(shù)為學(xué)術(shù)界提供智能的學(xué)科知識服務(wù)是所有這些系統(tǒng)的目標(biāo),語義出版數(shù)據(jù)的生產(chǎn)與發(fā)布將極大地提高學(xué)術(shù)交流的便捷性和效率。
本研究通過系統(tǒng)分析目前常見的語義出版數(shù)據(jù)集的特征,發(fā)現(xiàn)這些數(shù)據(jù)集主要圍繞出版物的相關(guān)內(nèi)外部信息來進(jìn)行組織,通常會參考外部本體等詞匯數(shù)據(jù),并和已有的數(shù)據(jù)集進(jìn)行關(guān)聯(lián)。數(shù)據(jù)集的生產(chǎn)制作過程基本遵循數(shù)據(jù)收集、預(yù)處理、形式化、發(fā)布等環(huán)節(jié),并對外提供開放API。在差異方面,首先,語義出版數(shù)據(jù)的組織粒度不同,有的數(shù)據(jù)是引文數(shù)據(jù),有的是綜合性的論文書目數(shù)據(jù),有的數(shù)據(jù)不涉及文獻(xiàn)的內(nèi)容關(guān)聯(lián),有的數(shù)據(jù)則深入到科學(xué)結(jié)論等;其次,就目前發(fā)布的語義出版數(shù)據(jù)而言,自然科學(xué)領(lǐng)域的數(shù)據(jù)集占很大一部分,社會科學(xué)、人文科學(xué)等領(lǐng)域的語義出版數(shù)據(jù)還較少;最后,提供開放API或語義查詢服務(wù)已成共識,而基于數(shù)據(jù)集之上的應(yīng)用等學(xué)科服務(wù)則存在不同,有的側(cè)重于出版物檢索與導(dǎo)航,有些則提供了更為深度的數(shù)據(jù)挖掘等知識服務(wù)功能。
針對目前語義出版數(shù)據(jù)組織粒度的差異,屬于出版物元數(shù)據(jù)、引文數(shù)據(jù)、概念主題標(biāo)引層次的語義出版數(shù)據(jù)不一定比那些深入到出版物內(nèi)容結(jié)構(gòu)、論證關(guān)系、詞匯語義等層次的語義出版數(shù)據(jù)要差。相反,對出版物數(shù)據(jù)進(jìn)行結(jié)構(gòu)化、語義化,從一開始就已經(jīng)帶來極大的好處。另外,就目前語義出版數(shù)據(jù)集的學(xué)科分布不均衡而言,這種情況應(yīng)該在未來有所改善,比如目前如火如荼開展的數(shù)字人文研究。鑒于人文科學(xué)領(lǐng)域產(chǎn)生了越來越多的結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)的產(chǎn)生并不是自然科學(xué)領(lǐng)域所獨有的,因此未來語義出版數(shù)據(jù)的領(lǐng)域來源將更豐富。最后,關(guān)于語義出版應(yīng)用的趨勢顯而易見是各種數(shù)據(jù)的集成混搭形態(tài)以及對檢索結(jié)果的可視化分析,關(guān)聯(lián)數(shù)據(jù)技術(shù)可以鏈接一切可以被鏈接的資源,進(jìn)而對各種應(yīng)用形態(tài)提供支撐。比如,對語義出版數(shù)據(jù)進(jìn)行可視化來呈現(xiàn)可視的出版物信息和內(nèi)容,對發(fā)布的圖像標(biāo)注數(shù)據(jù)并呈現(xiàn)標(biāo)注內(nèi)容,對地理信息數(shù)據(jù)呈現(xiàn)出地圖信息等。
在語義出版和數(shù)據(jù)出版實踐下,轉(zhuǎn)變傳統(tǒng)學(xué)術(shù)期刊的出版思路[33]、調(diào)整編輯活動[34]、融合語義出版操作流程是一個極大的挑戰(zhàn),進(jìn)行全面的數(shù)字出版流程再造及轉(zhuǎn)型難度極大,但學(xué)術(shù)期刊仍能有所作為。在開放科學(xué)的環(huán)境下,數(shù)據(jù)的加工處理方法和工具已經(jīng)越來越普及,在出版物發(fā)布過程中,對出版物進(jìn)行結(jié)構(gòu)化和語義化處理、關(guān)聯(lián)相關(guān)的實體資源,并以標(biāo)準(zhǔn)化的方式進(jìn)行出版物和科學(xué)數(shù)據(jù)的語義發(fā)布,是數(shù)字時代編輯、出版商等有能力采取的舉措。比如,2017年發(fā)布的OpenCitation引文數(shù)據(jù)集的生產(chǎn)就不存在很高的技術(shù)門檻,要求出版機構(gòu)將其數(shù)據(jù)庫中論文的參考文獻(xiàn)信息語義化并開放出來即可,但此舉對學(xué)術(shù)界而言意義重大。
就本研究分析的數(shù)據(jù)而言,未來語義出版數(shù)據(jù)的生產(chǎn)與消費需要關(guān)注如下幾個方面的問題:(1)數(shù)據(jù)的規(guī)范使用,如何在科學(xué)研究中正確規(guī)范地引用這些語義數(shù)據(jù),如何根據(jù)使用協(xié)議,對數(shù)據(jù)進(jìn)行二次加工與修改,這是科學(xué)發(fā)現(xiàn)與改進(jìn)的前提;(2)數(shù)據(jù)的規(guī)范組織與質(zhì)量保證,如何在語義數(shù)據(jù)的生產(chǎn)過程中保證數(shù)據(jù)的質(zhì)量,如何讓更多的人在發(fā)布數(shù)據(jù)時遵循相關(guān)的數(shù)據(jù)編碼規(guī)范及原則,如何評估語義出版數(shù)據(jù),這是科學(xué)結(jié)論重現(xiàn)的保證;(3)數(shù)據(jù)融合與應(yīng)用,如何讓更多的數(shù)據(jù)發(fā)生關(guān)聯(lián),如何在即將涌現(xiàn)的大量語義出版數(shù)據(jù)上重現(xiàn)科學(xué)結(jié)論、提供知識發(fā)現(xiàn)服務(wù),以及提供新的科學(xué)研究模式,將是語義出版數(shù)據(jù)從生產(chǎn)到消費全階段中需要關(guān)注的重點。