開放引文語料庫實踐案例及啟示*

2017-08-07 09:45:52宋丹輝

數(shù)字圖書館論壇 2017年7期

關鍵詞：書目本體文檔

宋丹輝

（河南科技大學圖書館，洛陽 471023）

開放引文語料庫實踐案例及啟示*

宋丹輝

（河南科技大學圖書館，洛陽 471023）

開放引文數(shù)據(jù)作為一種新的開放關聯(lián)數(shù)據(jù)，在國外已取得長足發(fā)展，而在國內(nèi)還未開始建設。為縮小差距，本文以國外已發(fā)揮重要作用的開放引文項目為學習案例，深入分析其在數(shù)據(jù)規(guī)模、技術路線、元數(shù)據(jù)模型和工作流程方面的建設與實踐，詳細闡述其在解決引文數(shù)據(jù)不易獲取、不一致、語義缺乏等問題的方法與特征，并從發(fā)展理念、關鍵步驟等方面總結(jié)經(jīng)驗，以期為我國引文數(shù)據(jù)開放關聯(lián)建設提供建議。

引文數(shù)據(jù)；開放關聯(lián)；開放引文語料庫

1 引言

引文數(shù)據(jù)是學術交流的重要元素，也是引文分析的基礎，但來源受限，大多存儲在Web of Science、Scopus等少數(shù)幾個商業(yè)引文數(shù)據(jù)庫中，較難免費獲取。Web of Science由美國科學家尤金·加菲爾德于1964年創(chuàng)建的科學引文索引發(fā)展而來，其主要商業(yè)對手是Scopus。二者都具有覆蓋學科范圍廣、文獻類型多樣、引文數(shù)據(jù)豐富的特點。為訪問其中資源，用戶需花費巨額經(jīng)費，還要遵守嚴格的保密協(xié)議。一些免費資源平臺如Google Scholar、Microsoft Academic Search、百度學術、必應學術等，雖然支持文獻引用統(tǒng)計、生成不同格式引文，或通過軟件導出等，但都制定有嚴格的使用條款，用戶無法進行大規(guī)模引文數(shù)據(jù)采集，從而無法自動構建引文網(wǎng)絡，開展計量、評價或智能化分析等研究[1-2]。

針對上述問題，業(yè)界提出兩種不同的解決方案：一是引文數(shù)據(jù)開放存取。隨著一系列研究報告及政府公文的發(fā)布，推行開放存取政策已成為業(yè)界共識，學者也將研究重點逐漸聚焦到實施效果上。實踐表明，將論文和數(shù)據(jù)以開放存取方式發(fā)布會提升其引用次數(shù)和學術影響力[3-6]。鑒于此，有學者嘗試引文數(shù)據(jù)的開放存取[7]，以便于科研人員順利追蹤引用軌跡、深入開展科研工作，并促進在線論文的發(fā)現(xiàn)、討論和引用。二是把引文數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù)，借助URI規(guī)范，通過HTTP/URI機制鏈接到以RDF/XML編碼的相關數(shù)據(jù)對象，從而實現(xiàn)富鏈接和富語義效果，這不僅有助于發(fā)現(xiàn)高被引論文、糾正錯誤引文數(shù)據(jù)，還有助于開發(fā)新的智能應用。

隨著開放存取運動及科學數(shù)據(jù)管理研究的不斷發(fā)展和深入，開放引文逐漸得到越來越多的關注，開放引文數(shù)據(jù)庫也逐漸受到科研人員的重視，如開放引文項目（Open Citations Project，OCP）[8]和Dryad數(shù)據(jù)庫[9]。前者由英國聯(lián)合信息系統(tǒng)委員會資助，于2010年啟動，旨在改變?nèi)驅(qū)W術交流和學術出版的現(xiàn)狀，促進引文數(shù)據(jù)開放。該項目遵循CC協(xié)議，并以RDF格式出版書目引用信息，使得人們能夠自由查看、研究、重用及豐富引文數(shù)據(jù)，不受任何限制地遍歷引文鏈接。后者由美國國家科學基金會資助，于2008年9月啟動，旨在存放優(yōu)質(zhì)數(shù)據(jù)資源，并促使科技文獻中的數(shù)據(jù)發(fā)現(xiàn)和再利用。Dryad數(shù)據(jù)庫通過聯(lián)合學術團體、出版社、研究機構、教育機構、基金資助機構等構建學術交流體系，以促進學術文獻中基礎科研數(shù)據(jù)的保護和再利用。目前，Dryad雖然已被許多主流期刊采納，但其特色主要體現(xiàn)在規(guī)范數(shù)據(jù)引用格式上，相較于OCP的主要成果——開放引文語料庫（Open Citations Corpus，OCC），其在數(shù)據(jù)關聯(lián)方面還存在很大差距[10]。此外，英國南安普頓大學、美國康奈爾大學及arXiv網(wǎng)站也于1999—2002年共同開展了“開放引文計劃”，但由于各種原因目前已經(jīng)無法使用。

截至目前，鮮有文獻針對“開放引文項目”的技術路線、工作流程等進行研究。鑒于此，本文以OCP為切入點，討論引文數(shù)據(jù)開放關聯(lián)過程中面臨的問題、可能的解決方案，并總結(jié)經(jīng)驗教訓，以期為我國引文數(shù)據(jù)開放關聯(lián)提供參考。

2 OCC的建設實踐

引文數(shù)據(jù)是書目數(shù)據(jù)的子集，書目數(shù)據(jù)開放關聯(lián)的成功經(jīng)驗可以為引文數(shù)據(jù)提供參考，基于開放獲取和關聯(lián)數(shù)據(jù)進行引文數(shù)據(jù)開放關聯(lián)的探索逐漸提上日程，主要的開放引文項目代表是OCP，其主要成果為OCC[11]。OCC遵循CC協(xié)議，提供從學術文獻中抽取的、用語義出版和引用本體（Semantic Publishing and Referencing Ontologies，SPAR）描述的、與OCC元數(shù)據(jù)模型一致的、準確的書目引用信息，用戶可自由地對這些書目信息進行構建、拓展、豐富和重用，不受任何知識產(chǎn)權或數(shù)據(jù)庫法律的限制。

2.1 OCC的規(guī)模

OCC于2011年發(fā)布第一版，實現(xiàn)對OA-PMC（PubM-ed Central Open Access）中204 637篇論文引文數(shù)據(jù)的開放關聯(lián)，包括6 325 178條指向3 373 961篇論文的引文記錄。該語料庫的規(guī)模雖然不大，但基本涵蓋1950—2010年生物醫(yī)學文獻索引中20%的內(nèi)容，包括已在PubMed發(fā)表的生物醫(yī)學領域的全部高被引論文。

隨著OA-PMC館藏數(shù)量的不斷增加（截至2014年12月，館藏資源數(shù)量已經(jīng)是創(chuàng)建時的2倍），以及arXiv preprint server中引文數(shù)據(jù)的導入（在生物醫(yī)學等基礎上，增加了數(shù)學等學科的引文數(shù)據(jù)），OCC的覆蓋范圍也逐漸得到擴展，下一步將增加CiteSeerX、CitEc（Citations in Economics）等免費數(shù)據(jù)庫的引文數(shù)據(jù)。截至2014年12月，CiteSeerX已積累近1 350萬條引文記錄，CitEc已積累1 354萬余條引文記錄。這3個數(shù)據(jù)庫累計覆蓋約198萬篇論文的引文數(shù)據(jù)，但相對于科技文獻總量而言，該數(shù)據(jù)量并不算大，OCC仍有很長的路要走。目前，OCC的工作人員正修改數(shù)據(jù)模型，加強基礎設施建設，以進一步擴大覆蓋范圍。

2.2 OCC的技術路線

現(xiàn)有期刊的引文數(shù)據(jù)主要通過CrossRef收割，出版商將論文引文數(shù)據(jù)提交至CrossRef，支持免費引用關聯(lián)服務。然而，CrossRef的使用條款是通過元數(shù)據(jù)描述的，且這些引文數(shù)據(jù)默認是不公開的，僅能在符合出版商使用條款的條件下通過元數(shù)據(jù)搜索服務獲取。對于過刊而言，若想實現(xiàn)引文數(shù)據(jù)的開放獲取，出版商必須專門向CrossRef發(fā)郵件說明。這種方法雖然簡單直接，無成本，但整個進度受工作人員回復時間限制?？傊?，引文數(shù)據(jù)開放獲取的操作效率太低，引入智能化自動處理技術才是根本解決之道[12]。

為解決上述問題，OCC設定5個逐次遞進的任務：（1）創(chuàng)建語義基礎設施，開發(fā)或重用能夠滿足學術創(chuàng)作和出版需求的、支持以RDF格式描述科技文獻書目數(shù)據(jù)、引文數(shù)據(jù)的語義模型，如本體或RDFS（Resource Description Framework Schema）詞匯表；（2）開發(fā)注釋工具，允許作者基于上述語義模型用恰當?shù)恼Z義聲明對文檔進行語義增強；（3）擴展上述書目實體和書目引用的語義處理設施，以解決數(shù)據(jù)實體和數(shù)據(jù)引用問題；（4）通過具體實例示范本體應用于現(xiàn)實數(shù)據(jù)的具體過程，創(chuàng)建科研數(shù)據(jù)與書目實體的引用關系，及描述書目實體與科研數(shù)據(jù)間引用關系的RDF元數(shù)據(jù)；（5）將OA-PMC中所有論文的引文數(shù)據(jù)轉(zhuǎn)化為RDF格式，并以開放關聯(lián)數(shù)據(jù)的格式發(fā)布在OCC上，以便第三方組織免費開展創(chuàng)新性使用[13]。

2.3 OCC的元數(shù)據(jù)模型

為描述并關聯(lián)OCC的各類書目實體，OCC構建專門的元數(shù)據(jù)模型，如圖1所示。OCC元數(shù)據(jù)模型主要包括6類書目實體：bibliographic resources（fabio:Expression）、resource embodiments（fabio:Manifestation）、bibliographic entries（biro:BibliographicReference）、responsible agents（foaf:Agent）、agent roles（pro:RoleInTime）、identifiers（datacite:Identifier）。其中核心類為“fabio:Expression”，具備“title”“subtitle”“PublicationYear”“edition”等屬性，描述其題目、出版年和版本等信息，其通過“frbr:part”與“biro:BibliographicReference”建立關聯(lián)；“biro:BibliographicReference”又通過“biro:references”與“fabio:Expression”的關聯(lián)，實現(xiàn)反饋，描述論文與參考文獻的關系；通過“datacite:hasIdentifier”與“datacite:Identifier”建立關聯(lián)，描述論文及其引用數(shù)據(jù)的關系；通過“pro:isDocumentContextFor”與“pro:RoleInTime”建立關聯(lián)，而“pro:RoleInTime”通過“pro:isHeldBy”與“foaf:Agent”關聯(lián)，描述論文是由代理機構采用某種創(chuàng)作方式產(chǎn)生；通過“fabr:endeavour”與“fabio:Manifestation”建立關聯(lián)，描述內(nèi)容表達與實體表現(xiàn)的關系[14]。

圖1 OCC元數(shù)據(jù)模型中的主要本體實體[14]

OCC由若干個子數(shù)據(jù)集構成，每個子集對應一類書目實體，其中每個實體都被賦予唯一的URL（具體由“https://w3id.org/oc/corpus/”+“實體類名首字母縮寫”+“/”+“子集內(nèi)唯一序列碼”構成），如“https://w3id.org/oc/corpus/be/537”代表“bibliographic entries”子集中第537個書目實體，可通過內(nèi)容協(xié)商機制以HTML、RDF/XML、Turtle或JSON-LD等多種格式下載[15]。描述這些實體的來源信息元數(shù)據(jù)用PROV-O本體和PROV-DC擴展來表達。

為更好地對術語進行管理，相關術語都收集在開放引用本體（Open Citations Ontology，OCO）中，其是一個用于分組存放從若干現(xiàn)有本體中抽取出來的、互為補充的、書目實體元素的專屬空間，以便為OCC提供描述性元數(shù)據(jù)。

2.4 OCC抓取實例數(shù)據(jù)的流程

如圖2所示，在OCC中對具體引用數(shù)據(jù)的抓取工作主要由BEE（Bibliographic Entries Extractor）和SPACIN（SPAR Citation Indexer）實現(xiàn)，程序代碼可從OCC的GitHub軟件存儲庫中下載。具體步驟為：（1）解析PMC論文的XML來源文檔；（2）利用DOI和書目實體生成JSON文檔；（3）對于每個引證或被引資源，若檢測到相關ID（DOI、PMID或PMCID），則進一步確認該資源是否存在，若存在，則直接進行第5步；（4）若資源不存在，則從記錄中抽取可能的IDs，并檢索ORCID和CrossRef；（5）創(chuàng)建新的元數(shù)據(jù)資源，若CrossRef返回信息，則所有相關元數(shù)據(jù)都可以使用，否則只采納基礎元數(shù)據(jù)（IDs和記錄）；（6）將所有聲明加載至三元組存儲庫，并將其加入文檔系統(tǒng)中以便將來恢復數(shù)據(jù)[16]。

BEE主要負責為每篇論文創(chuàng)建JSON文檔。針對PMC中的每篇論文，BEE從可訪問的XML來源文檔中抽取該論文的所有元數(shù)據(jù)信息（包括所有可獲取的唯一標識符，如DOI、ISSN、ISBN、ORCID、URL或Crossref member URL等）和參考文獻信息（包括通過唯一標識符獲取的信息），并將所有數(shù)據(jù)加入最終的JSON文檔中。此外，JSON文檔也包含數(shù)據(jù)出處、提供者、OCC維護者等信息。

SPACIN主要負責處理BEE生成的JSON文檔，并通過Crossref API和ORCID API檢索附加的有關引證或被引文檔的元數(shù)據(jù)信息。這些API也可以通過檢索到的唯一標識符（如DOI、ISSN、ISBN、ORCID、URL或Crossref member URL等）來辨別書目資源和責任者。一旦檢索到相關元數(shù)據(jù)，便可創(chuàng)建對應的RDF聲明（若相關RDF聲明已經(jīng)存在，則重用便可），并以JSON-LD格式存儲到文件系統(tǒng)和OCC三元組存儲庫中。此外，考慮到空間和性能因素，三元組存儲庫幾乎包含維護實體的所有數(shù)據(jù)，除來源數(shù)據(jù)和數(shù)據(jù)集自身描述信息外，二者只能通過HTTP協(xié)議訪問。

圖2 OCC抓取實例數(shù)據(jù)的流程[16]

OCC抓取實例數(shù)據(jù)的整個流程是連續(xù)不斷的，直到不再加載新的JSON文檔為止。因此，OCC實例是隨時間動態(tài)增長的，容易通過調(diào)整配置、與更多不同來源REST APIs交互來擴展PMC以外的論文，進而收集更多元數(shù)據(jù)和參考文獻的信息。目前，OCC由博洛尼亞大學的計算機科學與工程學院來維護，用戶可通過一個SPARQL查詢端點和一個支持數(shù)據(jù)消費的瀏覽界面來訪問。自2016年7月以來，該機構已經(jīng)完成PMC中科技論文參考文獻列表的抓取、處理與發(fā)布工作。自2016年9月，所有抓取到的數(shù)據(jù)均能以數(shù)據(jù)集方式下載。

3 OCC的實踐特征

作為免費引文庫，OCC打破現(xiàn)有科技文獻引文數(shù)據(jù)的商業(yè)束縛，針對引文數(shù)據(jù)可獲取性差、準確性不高、缺乏語義信息等問題提供一系列解決方案，改變了在數(shù)字化科研基礎設施中的傳統(tǒng)形象，成為引文數(shù)據(jù)開放關聯(lián)的最佳實踐。

3.1 通過數(shù)據(jù)收割協(xié)議提高引文數(shù)據(jù)的可獲取性

OCC的最終目標是匯集世界范圍的科技文獻以及藝術領域、人文學科領域的引文數(shù)據(jù)。但目前大多數(shù)出版商都把引文數(shù)據(jù)設為付費內(nèi)容，受版權保護。在OCC的引領下，已有Nature等少數(shù)幾家出版商把書目和引文數(shù)據(jù)開放共享。

針對現(xiàn)有引文庫的商業(yè)壟斷及半開放性控制，OCC與部分期刊出版商（如牛津大學出版社、麻省理工學院出版社等）就引文數(shù)據(jù)的日常收割問題簽訂合作協(xié)議，并計劃進一步整合收割數(shù)據(jù)，以清晰展現(xiàn)論文間、論文與數(shù)據(jù)庫的引用關系，拓展作者、機構、基金、論文間的多維語義關系。OCC將允許用戶免費瀏覽多種來源的引文數(shù)據(jù)，包括傳統(tǒng)學術出版物及其他數(shù)據(jù)論文等，但所有引文數(shù)據(jù)都會標明來源[15]。

基于開放獲取的引文數(shù)據(jù)，OCC計劃開發(fā)多種智能化分析服務，如分面搜索和瀏覽工具、建議和趨勢識別服務以及基于時間的可視化服務等，其中部分服務已在OCC原型系統(tǒng)中實現(xiàn)。隨著覆蓋范圍的不斷擴大，OCC在計算引用評價指標有用性方面也將不斷提升。

3.2 借助外部權威數(shù)據(jù)源糾正引文數(shù)據(jù)的不一致問題

受數(shù)據(jù)庫自身收錄文獻類型、數(shù)量或范圍的影響，不同引文庫引文數(shù)據(jù)相差較大，計算機領域更為明顯，同一篇論文在Google Scholar的引用次數(shù)會遠高于其他數(shù)據(jù)源。由于計算機領域很多重要成果以會議論文方式出版，而Google Scholar對會議論文的收錄及標引最完整，因此，既使其準確性低于其他引文庫，計算機領域?qū)W者也更傾向于使用Google Scholar查詢論文的引用次數(shù)。但Google Scholar不允許非訂購用戶對其進行檢索，并以定義的格式返回結(jié)果，這大幅降低了其在構建引文網(wǎng)絡中的影響與地位[17]。

此外，引文數(shù)據(jù)在準確性方面也存在一定問題。據(jù)不完全統(tǒng)計，在已出版文獻的引文數(shù)據(jù)中，存在不同程度的錯誤（約1%），如弄錯論文題目或作者姓名中的符號，缺少介詞，年代、卷期號、頁碼，或DOI等書寫錯誤。為降低錯誤引文數(shù)據(jù)的數(shù)量，OCC開始借助外部資源提供的權威書目記錄來糾正引文數(shù)據(jù)庫中的錯誤，同時也提供引文數(shù)據(jù)在線檢錯服務[18]。

3.3 通過SPAR本體增強引文數(shù)據(jù)的語義性

傳統(tǒng)的引文分析法只考慮在題錄數(shù)據(jù)中列出的參考文獻，關注文獻間存在的引用關系，缺乏對引用行為的語義描述，包括引用功能（引文對施引文獻的作用，如背景、基礎、比較等）、觀點傾向（否定或批判性引用會降低引文的價值）、引用頻率（文獻被引頻次越高，其學術貢獻越大）、引用位置（在方法、實驗、結(jié)論等部分的引文通常比引言、研究現(xiàn)狀或背景等部分的引文對于施引文獻的學術價值更大）、施引文獻的類型（如研究論文、技術論文、理論概念、案例分析、文獻綜述或一般性評論，因類型不同，其引用的價值也不同）等，這使得引用文獻對于施引文獻的具體貢獻以及重要性無法準確展現(xiàn)，引用文獻的相關信息如標題、關鍵詞、摘要、作者、機構等不能被正確、全面地理解，從而造成不同知識源間融合和互聯(lián)的困難[10,19,20,21,22]。

針對上述問題，OCC通過引入描述學術交流、出版和引用信息的結(jié)構化領域本體SPAR，實現(xiàn)文獻元數(shù)據(jù)和引文數(shù)據(jù)的自動化處理與互操作。如表1所示，SPAR由8個（FaBiO、CiTO、BiRO、C4O、DoCO、PRO、PSO和PWO）覆蓋整個學術出版過程的通用本體構成，基本整合了出版與引用相關的所有屬性。前4個本體主要用于描述書目對象、書目記錄、參考文獻列表、引用角色、引文記錄、引文背景等；后4個本體主要為組織文檔內(nèi)容組件、出版角色、出版狀態(tài)及出版流程提供結(jié)構化的控制詞表。8個本體既可單獨使用，也可以聯(lián)成一體并用，各本體通過OWL2.0進行編碼[22]。其中，CiTO主要通過在RDF語句中嵌入修辭性質(zhì)的元數(shù)據(jù)來描述科技文獻中不同參考文獻的引用角色。實現(xiàn)該過程的工具為CiTO參考注釋工具，其支持以自然語言和受控術語兩種方式描述參考文獻的語義特征[23]。

表1 SPAR中8個本體的功能

4 對我國引文數(shù)據(jù)開放關聯(lián)的啟示

從上述對OCC的分析看出，實現(xiàn)引文數(shù)據(jù)開放關聯(lián)的關鍵點主要有以下內(nèi)容。第一，盡可能爭取出版商的支持，通過簽署收割協(xié)議或者倡導開放獲取行動為抓取書目資源及相關引文數(shù)據(jù)提供法律保障；同時，采用CC協(xié)議發(fā)布關聯(lián)化后的引文數(shù)據(jù)，支持用戶對引文關聯(lián)數(shù)據(jù)的自由使用，實現(xiàn)創(chuàng)建OCC的初衷。第二，構建元數(shù)據(jù)模型，篩選核心實體，確定主要屬性元素，明確不同實體間的關聯(lián)關系，并為每個實體賦予唯一命名域，制定實例的命名規(guī)則，這是抓取實例數(shù)據(jù)的前提。通過元數(shù)據(jù)模型搭建書目資源內(nèi)容表達、參考文獻、載體表現(xiàn)、唯一標識符、代理及代理角色等實體（在實際應用中，根據(jù)具體需求，也可以擴展機構、項目、相關數(shù)據(jù)集等其他實體）的關聯(lián)框架。第三，通過自動化程序提高實例數(shù)據(jù)的抓取效率，既包括從XML文檔中抽取盡可能多的引文數(shù)據(jù)，轉(zhuǎn)化為JSON格式存儲，從源頭上把大量非結(jié)構化信息變成結(jié)構化信息；也包括充分利用DOI、ISSN、ISBN、ORCID、URL或Crossref member URL等唯一標識符盡可能擴展引文信息，并用元數(shù)據(jù)元素作為謂詞揭示這些信息與書目資源的各種語義關聯(lián)，為后續(xù)知識推理及知識發(fā)現(xiàn)奠定基礎。第四，利用SPAR本體為引文信息添加引用類型、引用角色等語義標簽，實現(xiàn)對引用單元的語義標注，為用戶理解引用內(nèi)涵及科學引文分析奠定基礎。第五，建立與相關人員、機構、項目、事件、知識資源、數(shù)據(jù)庫集等外部關聯(lián)數(shù)據(jù)集的關聯(lián)，多維度展示相關領域的隱性知識體系結(jié)構，豐富語義內(nèi)容，實例間的關聯(lián)關系通過類屬性來揭示。

總之，OCC融匯了對書目資源內(nèi)外部特征、引文數(shù)據(jù)的挖掘以及多維度知識關聯(lián)的構建，同時關聯(lián)了外部數(shù)據(jù)集，形成“從來源數(shù)據(jù)抓取書目及引文數(shù)據(jù)－擴展元數(shù)據(jù)－語義標注－知識關聯(lián)”的工作流程，并以此為基礎實現(xiàn)引文數(shù)據(jù)的開放共享。

我國機構數(shù)據(jù)庫、學科數(shù)據(jù)庫數(shù)量眾多，也制定了相應的引文數(shù)據(jù)開放獲取管理政策，但對于如何實施引文數(shù)據(jù)的開放獲取計劃，如何與出版商合作促進引文數(shù)據(jù)的開放與語義關聯(lián)，還有待進一步探究。我國的圖書情報服務機構應抓住機遇，制定可動態(tài)調(diào)整的引文分析發(fā)展戰(zhàn)略，整合專業(yè)機構技術力量，與有關圖情機構開展合作研究；同時，還要與計算機、網(wǎng)絡技術人員合作，積極探索將引文數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù)的方式方法，為我國引文數(shù)據(jù)的開放關聯(lián)提供參考。

[1]ROUSSEAU R,LIU Y.Interestingness and the essence of citation[J].Journal of Documentation,2013,69(4):580-589.

[2]CHADEGANI A A,SALEHI H,YUNUS M M,et al.A comparison between two main academic literature collections: Web of Science and Scopus Databases[J].Asian Social Science,2013,9(5):18-26.

[3]National Steering Committee on Open Access Policy.National principles for open access policy statement[J].Growth Hormone &Igf Research,2015,25(1):28-33.

[4]SWAN A.The open access citation advantage: studies and results to date[J].Journal of Geophysical Research Atmospheres,2010,112(FO2S06):195-225.

[5]PIWOWAR H A,DAY R S,FRIDSMA D B.Sharing detailed research data is associated with increased citation rate[J].Plos One,2007,2(3):e308.

[6]PIWOWAR H A,VISION T J.Data reuse and the open data citation advantage[J].Peerj,2013,1(3):e175.

[7]Dalmeet Singh Chawla.Now free:citation data from 14 million papers, and more might come[EB/OL].[2017-04-06].http://www.sciencemag.org/news/2017/04/now-free-citation-data-14-millionpapers-and-more-might-come.

[8]Open Citation Corpus(OCC)[EB/OL].[2017-04-06].http://opencitations.org.

[9]Dryad Digital Repository[EB/OL].[2017-04-06].http://datadryad.org/.

[10]林芳芳,趙輝.美國Dryad數(shù)據(jù)庫共享政策及啟示[J].中國科技資源導刊,2015,47(6):48-52,94.

[11]PERONI S, DUTTON A,GRAY T, et al.Setting our bibliographic references free: towards open citation data[J].Journal of Documentation,2015,71(2):253-277.

[12]CrossRef metadata best practice to support key performance indicators(KPIs)for funding agencies[EB/OL].[2016-11-05].http://fundref.crossref.org/docs/funder_kpi_metadata_best_practice.html.

[13]SHOTTON D.Open citations[J].Nature,2013,502(7471):295-297.

[14]PERONI S,SHOTTON D.Metadata for the OpenCitations Corpus[EB/OL].(2016-07-07)[2016-11-05].https://dx.doi.org/10.6084/m9. fi gshare.3443876.

[15]FALCO R,GANGEMI A,SILVIO P,et al.Modelling OWL ontologies with Graffoo[C]//In the Semantic Web:ESWC 2014 Satellite Events.Springer,2014,8798:320-325.

[16]PERONI S,SHOTTON D,VITALI F.Freedom for bibliographic references:OpenCitations arise[EB/OL].[2016-11-05].https://w3id.org/oc/paper/occ-lisc2016.html.

[17]FRANCESCHET M.A comparison of bibliometric indicators for computer science scholars and journals on Web of Science and Google Scholar[J].Scientometrics,2010,83(1):243-258.

[18]SHOTTON D.Semantic publishing:the coming revolution in scienti fi c journal publishing[J].Learned Publishing,2009,22(2):85-94.

[19]PRIEM J.Scholarship:Beyond the paper[J].Nature,2013,495(7442):437-440.

[20]CIANCARINI P,IORIO A D,NUZZOLESE A G, et al. Characterising citations in scholarly articles:an experiment[C]//International Workshop on Arti fi cial Intelligence and Cognition.[S.1.]:[s.n],2013.

[21]TEUFEL S,SIDDHARTHAN A,DAN T.An annotation scheme for citation function[C]//Proceedings of Sigdial Workshop on Discourse & Dialogue.[S.1.]:[s.n],2006.

[22]BERGSTROM C T,WEST J D, WISEMAN M A.The eigenfactor(TM)metrics[J].Journal of Neuroscience the Of fi cial Journal of the Society for Neuroscience,2008,28(45):11433-11434.

[23]PERONI S, SHOTTON D. FaBiO and CiTO: ontologies for describing bibliographic resources and citations[J].Web Semantics Science Services & Agents on the World Wide Web,2012,17(17):33-43.

作者簡介

宋丹輝，女，1983年生，博士，館員，研究方向：知識組織、知識服務，E-mail：hkdsongdh@163.com。

The Open Citation Corpus Practice Case and Its Enlightenment

SONG DanHui
( Library of Henan University of Science and Technology, Luoyang 471023, China)

As a new kind of linked data, the open citation data has already made substantial progress abroad, but has not yet to start at home. To shorten the gap,this paper chooses Open Citation Project which has played an important role in academic communication system as learning case. The author not only analysis the construction achievements and practices of its scale, technical route, the metadata model and working process in-depth, but also elaborates the methods and features in solving the problems of not easy to obtain, inconsistent, and semantic absence in citation dates. Moreover, summarizes the lessons to learn in aspects of development idea, key procedures, in order to provide sightedness suggestions to the construction of linked open citation data at home.

Citation Information; Openness and Relevance; Open Citations Corpus

G230

10.3772/j.issn.1673-2286.2017.07.009

2017-04-08）

* 本研究得到國家社會科學基金青年項目“基于引文內(nèi)容標注的引文數(shù)據(jù)開放關聯(lián)模型及發(fā)布流程研究”（編號：17CTQ005）資助。