• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于JATS標準的醫(yī)學期刊電子資源格式處理與轉化

      2018-09-06 08:38:14康宏宇
      中國科技期刊研究 2018年8期
      關鍵詞:醫(yī)學期刊結構化文檔

      ■康宏宇 李 姣 侯 震 侯 麗

      中國醫(yī)學科學院醫(yī)學信息研究所,北京市朝陽區(qū)雅寶路3號 100020

      隨著信息技術和數(shù)字技術的迅猛發(fā)展,讀者的閱讀行為從紙質閱讀逐漸轉至計算機(Personal Computer,PC)端和移動端閱讀。出版資源也以PDF、超級文本標記語言(Hyper Text Markup Language,HTML)、可擴展標記語言(Extensible Markup Language,XML)、圖片、視頻等形式存儲,并將相應的內容呈現(xiàn)給讀者。統(tǒng)一的期刊存儲標準將會促進期刊資源整合,提高數(shù)據(jù)存儲質量,方便數(shù)據(jù)管理;同時可使期刊資源與國際接軌,提升期刊自身的國際影響力。截至2017年年底,Medline收錄了全球范圍內5200多種期刊、2400萬篇文章,涉及40多種語言。其中,2016年共新增86.9萬多篇生物醫(yī)學領域的優(yōu)秀文章[1]。 目前,在Medline收錄的期刊中,中國期刊有93種,僅占所有收錄期刊的1.8%。中國科技期刊出版社/編輯部呈現(xiàn)小而散的特點[2],期刊之間的存儲格式缺乏統(tǒng)一的標準,導致國內期刊在申請國際知名檢索時遇到困難,無法實現(xiàn)與國內外同行的深度交流。因此,我國出版社和相關科研人員在加強醫(yī)學科學研究、撰寫高質量研究論文的同時,也應注重資源積累過程中的資源存儲標準構建,規(guī)范電子資源的存儲流程及方式,使期刊的資源存儲與管理方式與國際接軌,讓更多生物醫(yī)學期刊進入包括Medline檢索和PubMed Central(PMC)檢索在內的國際知名索引中[3]。

      國際上較為通用的標準是由美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)創(chuàng)建的Journal Archiving Tag Suite(JATS)數(shù)據(jù)標準。該標準已成熟地運用于Medline和PMC檢索中,用于存儲和管理科技期刊的電子資源。

      本研究以醫(yī)學類期刊的資源存儲為切入點,以JATS數(shù)據(jù)標準為例,分析國外醫(yī)學期刊的電子資源存檔格式,調研國內醫(yī)學期刊資源的存儲格式,總結資源存儲現(xiàn)狀及存在的問題,制定面向醫(yī)學類科技期刊資源存儲的格式處理與轉化流程,并開展相關實踐,以提升國內相關期刊的影響力,讓更多讀者了解并能夠迅速檢索到中國的高質量期刊。

      1 國外期刊資源存儲標準——以JATS數(shù)據(jù)標準為例

      JATS數(shù)據(jù)標準被應用于Medline檢索的文章摘要信息和PMC檢索的全文信息中,推動了期刊電子資源規(guī)范化存儲與管理的進程。

      1.1 JATS數(shù)據(jù)標準概況

      JATS(http://jats.nlm.nih.gov/)數(shù)據(jù)標準是PMC檢索中較為通用的資源存檔和交換標準,其定義了一系列描述期刊、文章特征的元素及屬性,并對文章中的圖片、表格、術語[4]等有特定的說明。標簽集共包含了250余個元素和130余個元素屬性。

      1.2 JATS數(shù)據(jù)標準在醫(yī)學期刊檢索中的應用

      (1) Medline檢索。Medline 數(shù)據(jù)庫創(chuàng)建于 1879 年,是由美國國立醫(yī)學圖書館(National Library of Medicine, NLM) 創(chuàng)建的綜合性生物醫(yī)學文獻書目數(shù)據(jù)庫,也是目前國際范圍內使用最為廣泛和權威的生物醫(yī)學文獻數(shù)據(jù)庫[6]。Medline重點收錄對衛(wèi)生和生物醫(yī)藥具有卓越貢獻的研究性期刊、臨床和實踐性期刊、評論性期刊以及相關領域的綜合性刊物。Medline遴選過程中重點關注期刊的學術水平和質量,同時要求被收錄的期刊提供符合基于JATS標準的XML格式的文章摘要信息。期刊可以向NLM提供自己網站上所有文章的PDF全文鏈接,讓讀者在Medline檢索時能夠通過索引鏈接到全文。

      (2) PMC檢索。PMC是由美國國立衛(wèi)生研究院(National Institutes of Health, NIH)和NLM創(chuàng)建并維護的生物醫(yī)學全文文獻資源,在國際生物醫(yī)學領域開放獲取和知識共享方面享有較高的學術聲譽[7]。到目前為止,PMC 檢索共收錄6900余種期刊,460萬篇全文文獻。

      期刊文章的內容和質量以及文章存儲格式是進入PMC檢索的2個關鍵點。文章內容應在原創(chuàng)研究論文、臨床病例報告、數(shù)據(jù)分析文章和臨床或外科手術描述的范圍內。同時還會考量期刊編輯的獨立性和讀者多樣性。之后,PMC會對期刊的資源存儲格式進行嚴格審查。期刊必須以符合文檔類型定義(Document Type Definition,DTD)約束方式的XML/標準通用標記語言(Standard Generalized Markup Language,SGML)格式向PMC提供文章的全文,PMC不接受HTML格式的文章。

      資源存儲格式的審查在整個PMC檢索收錄的申請流程中尤為重要。NLM建議所提交的數(shù)據(jù)要符合JATS 數(shù)據(jù)標準的XML格式,同時也可以接受符合期刊出版領域廣泛使用的其他全文文獻DTD約束方式的XML文檔。XML文檔中應包含文章的基本元數(shù)據(jù)信息(如ISSN、期刊出版商或雜志社、卷號、分頁/文章序號、發(fā)行日期等)、文章的正文信息(如段落、文字、圖表、數(shù)學公式等)以及參考文獻和其他輔助信息。在提交過程中,每篇文章的數(shù)據(jù)提交包必須完整,包含XML / SGML、PDF、高分辨率的數(shù)字圖像文件、電子表格、視頻文件等涉及文章出版的所有文件。如果審查過程中發(fā)現(xiàn)錯誤,PMC會反饋給出版商或雜志社,讓其進行修改[8]。但如果再次提交之后仍有錯誤,PMC則會拒絕該期刊的申請。

      1.3 JATS數(shù)據(jù)標準的其他應用場景

      JATS數(shù)據(jù)標準除了被應用于NLM的電子資源存儲與管理,也為眾多出版社、研究機構、公司等提供了資源管理的基礎條件,這些機構已在JATS標準的基礎上開展了相關研究。

      Penev等[9]對通用的JATS DTD進行擴展,開發(fā)了TaxPub工具,用于生物系統(tǒng)學領域的期刊資源標記和出版。Nakanishi等[10]設計了一種自動轉換流程,能夠將日文期刊轉換為符合JATS數(shù)據(jù)標準的XML文檔,并對文中的表格和數(shù)字做特殊處理,以完成表格的準確定位和內容轉換。Gebhard等[11]則更加關注文章中的數(shù)學公式,他們嘗試將Word文本文檔中的數(shù)學公式直接轉換成符合JATS數(shù)據(jù)標準的XML文檔。INERA公司也開發(fā)了一款名為eXtyles NLM的工具,試圖完成Word文檔向符合JATS數(shù)據(jù)標準的文檔的轉換[12]。

      2 國內醫(yī)學期刊資源存儲現(xiàn)狀

      隨著數(shù)字出版技術的發(fā)展,結構化文檔在電子期刊存檔過程中體現(xiàn)出更多的優(yōu)勢。由于國內醫(yī)學類期刊眾多且出版機構分散,缺乏統(tǒng)一的資源存檔格式及標準,格式轉換工作較難開展。

      2.1 結構化文檔在國內期刊中的應用

      隨著數(shù)字出版行業(yè)的發(fā)展,國內科技期刊的出版已由傳統(tǒng)的紙質出版逐漸向電子存檔與出版轉變。期刊的電子存檔和出版可以分為3個階段,即PDF全文展現(xiàn)階段、HTML階段和XML階段。目前,大多數(shù)期刊都可以先經過專業(yè)的紙質排版,再通過軟件或專業(yè)操作人員轉成一般的非結構化或半結構化的電子版,如 Word/PDF或HTML文檔[13]。其中,HTML為一種半結構化文檔,極大地提升了讀者的閱讀體驗。而XML結構化文檔的出現(xiàn),可以實現(xiàn)資源的規(guī)范化存儲與管理,節(jié)省期刊出版及資源管理的物力和人力。相較于HTML,XML文檔的另一優(yōu)勢在于這種存儲技術更注重元素和屬性的具體內容,更多地用于描述數(shù)據(jù),而不提供數(shù)據(jù)的顯示方法[14],更加保證了內容的可復用性和存儲穩(wěn)定性。上述3種資源出版與存儲格式對比情況如表1所示。

      為了推動期刊電子資源存儲的規(guī)范與統(tǒng)一,已有少數(shù)研究團體開始使用結構化文檔實現(xiàn)期刊電子資源的存儲與出版,并構建與自身期刊特點相符的資源存儲標準;但大部分出版社仍處于使用結構化文檔的探究階段。2014年10月,中華醫(yī)學會雜志社發(fā)布了CMA JATS 0.1版,它在繼承NLM DTD大部分元素的基礎上,對一些元素進行了重構[15]。目前CMA JATS被應用于中華醫(yī)學會雜志社旗下的141種期刊和10種非中華醫(yī)學會期刊,已完成超過9.6萬篇論文的全文結構化數(shù)據(jù)處理。

      2.2 國內醫(yī)學期刊資源存儲差異

      由于各期刊的排版樣式和網站呈現(xiàn)方式不同,其文檔的出版格式和存儲格式也不盡相同,缺乏統(tǒng)一的資源管理標準,最終導致資源之間的格式轉換無法快速實現(xiàn),影響了國內醫(yī)學類期刊申請Medline檢索或PMC檢索的進程。國內醫(yī)學期刊之間資源存儲差異如表2所示。

      表1 3種資源出版與存儲格式的對比

      表2 國內醫(yī)學期刊資源存儲差異對比

      (1) 作者姓名。不同期刊作者姓和名的前后位置不同,如《中華醫(yī)學雜志》等期刊將“陳萬青”表示為Chen Wanqing;而ChineseJournalofCancerResearch等期刊則將其表示為Wanqing Chen。

      (2) 作者機構。有些期刊在數(shù)據(jù)存儲過程中使用作者機構的全稱,如中國醫(yī)學科學院醫(yī)學信息研究所;有些期刊則采用機構簡稱,如醫(yī)科院信息所。

      (3) 期刊信息。有些期刊在存儲論文的收錄情況時直接采用參考文獻格式,如中華醫(yī)學雜志,2013,126(14):2705-2707;而有些期刊則將收錄時間、卷、期等信息分類別存儲,如Received: 2 October 2017; Accepted: 19 January 2018; Published: 24 January 2018。

      (4) 參考文獻。參考文獻在正文中的引用方式不同,如AIMSCellandTissueEngineering等期刊采用內容右上角數(shù)字加方括號方式引用,如 First described late in the 19th century by Neuber[1],而《中華醫(yī)學雜志英文版》等期刊則直接采用右上角數(shù)字的方式引用,如 the prevention of cancer invasion and metastasis.2,3。

      (5) 圖表、視頻等附件。附件的差異表現(xiàn)在兩個方面:一方面是存儲格式的要求,如文件類型、像素、大小等;另一方面是附件在文中的引用方式,具體形式與參考文獻在文中的引用差異相似。

      3 醫(yī)學類期刊資源存儲的格式處理與轉化

      通過上述分析可以看出:一方面,XML結構化文檔在電子期刊存檔和出版過程中具有數(shù)據(jù)結構化良好、展示性較強、復用性強、壓縮比高等優(yōu)勢,而國內僅有少數(shù)出版社能夠以結構化文檔對資源進行全面的存儲與管理;另一方面,期刊或出版社資源存儲沒有統(tǒng)一的標準,存儲格式之間差異較大,這將影響國內科技期刊的資源規(guī)范化管理和期刊申請進入國際有影響力的檢索數(shù)據(jù)庫的進度。所以,構建規(guī)范化的期刊電子資源存儲標準,設計并開發(fā)格式轉換工具是非常必要的。

      為了加大科技期刊的資源管理力度,提升期刊影響力,本研究在分析國內醫(yī)學期刊資源存儲現(xiàn)狀的基礎上,結合JATS數(shù)據(jù)標準,設計了基于JATS數(shù)據(jù)標準的格式處理與轉換流程,并據(jù)此開發(fā)系統(tǒng),實現(xiàn)異構資源存儲文檔向規(guī)范化文檔的轉化。系統(tǒng)中各模塊的運作流程如圖1所示。

      該系統(tǒng)分為4個工作模塊,分別是信息采集模塊、數(shù)據(jù)存儲模塊、信息抽取和轉化模塊及驗證模塊。根據(jù)出版社提供的數(shù)據(jù)格式,借助Dom4j/XPath、Jsoup、Apache poi等工具對文件進行解析。如果出版社已將相關信息存儲到結構化數(shù)據(jù)庫中,則直接進行數(shù)據(jù)抽取。根據(jù)PMC檢索中通用的JATS數(shù)據(jù)標準,對采集到的信息進行規(guī)范化處理,并存儲到本地數(shù)據(jù)庫中。規(guī)范化處理的信息包括期刊信息(期刊名稱、ISSN、版權聲明等)、論文基本信息(論文標題、作者、作者單位、聯(lián)系方式、出版信息等)、論文主體(摘要、關鍵詞、段落)、參考文獻及其他信息(參考文獻、致謝、附錄等)。對于用戶提交的論文圖片、表格等內容,則直接存儲到服務器中。經過規(guī)范化處理的信息,按NLM DTD文件要求對內容進行抽取,并完成自動填充,生成格式統(tǒng)一的XML文件。最后,對XML文件是否符合要求進行驗證,若通過驗證,則可以按照PMC的要求繼續(xù)完成XML文件和其他材料的提交;若沒有通過驗證,系統(tǒng)會反饋未通過的原因,用戶根據(jù)具體原因,可返回信息采集和規(guī)范化處理的相應步驟并進行人工修改。

      圖1 資源格式處理與轉化工作流程

      在運用資源格式處理與轉化系統(tǒng)方面,AMIS出版社的AMISPublicHealth期刊已完成資源的格式轉化,如圖2和圖3所示,并順利通過了PMC的格式審查。

      圖2 系統(tǒng)對AMIS Public Health進行信息采集及格式轉換

      圖3 系統(tǒng)生成的符合JATS標準的XML文檔

      4 總結與展望

      學術質量和資源存儲格式是Medline檢索和PMC檢索申請過程中兩個關鍵因素。學術質量代表著期刊內容的科學性、創(chuàng)新性、實用性和時效性;而資源存儲格式的規(guī)范與否則反映了期刊資源管理的合理性和有效性,同時也是向Medline和PMC提交資源的必備因素。醫(yī)學類科技期刊應在不斷提升自身學術質量的前提下,管理好期刊資源,注重資源格式的規(guī)范。

      JATS數(shù)據(jù)標準經過了NLM大量文獻存儲的驗證,是一種成熟的電子期刊資源存儲與管理的規(guī)范化標準。圍繞JATS數(shù)據(jù)標準開展標準制定及格式轉換研究,能夠規(guī)范國內醫(yī)學電子期刊的資源存儲、管理與信息轉換,加快國內醫(yī)學期刊進入國際權威檢索數(shù)據(jù)庫的步伐。本研究在JATS數(shù)據(jù)標準的基礎上開發(fā)了資源格式處理與轉化系統(tǒng),以探究電子科技期刊資源規(guī)范化存儲方法和流程。該資源格式處理與轉化系統(tǒng)能夠幫助期刊編輯人員快速實現(xiàn)非結構化文本向符合JATS數(shù)據(jù)標準的XML文檔的轉化,提高文檔轉化與生成效率,確保文檔格式準確性,降低人工操作的運作成本。

      為了繼續(xù)推動科技期刊資源格式轉化的相關工作,筆者將繼續(xù)深入研究NLM DTD結構及JATS標準,提高轉化系統(tǒng)的準確率,使其能夠識別各種類型以及結構復雜的科技論文;同時也將在JATS數(shù)據(jù)標準基礎上,研究適用于中文醫(yī)學期刊的資源存儲標準,推動中文科技期刊的本地化建設,規(guī)范期刊存儲與管理流程,提升國內期刊的國際影響力。

      猜你喜歡
      醫(yī)學期刊結構化文檔
      山西醫(yī)學期刊社簡介
      全科護理(2022年19期)2022-07-09 05:42:08
      山西醫(yī)學期刊社簡介
      全科護理(2022年16期)2022-06-09 07:24:38
      山西醫(yī)學期刊社簡介
      全科護理(2022年10期)2022-04-07 11:14:00
      山西醫(yī)學期刊社簡介
      全科護理(2022年8期)2022-03-23 01:00:22
      有人一聲不吭向你扔了個文檔
      促進知識結構化的主題式復習初探
      結構化面試方法在研究生復試中的應用
      計算機教育(2020年5期)2020-07-24 08:53:00
      基于RI碼計算的Word復制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于圖模型的通用半結構化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      康定县| 洪雅县| 介休市| 东兰县| 正宁县| 剑阁县| 北票市| 齐齐哈尔市| 临江市| 青河县| 体育| 南京市| 万年县| 江西省| 天祝| 应用必备| 云林县| 灵石县| 隆子县| 彰化市| 晴隆县| 临颍县| 叙永县| 泸州市| 五河县| 南和县| 焉耆| 阿图什市| 桑植县| 镇宁| 海安县| 同心县| 鲜城| 漳平市| 罗山县| 兰溪市| 昌黎县| 惠州市| 盱眙县| 郴州市| 康平县|