■包靖玲 李敬文 沈錫賓 顧 佳韓 靜 霍永豐 李 君 袁 慶
1)中華外科雜志編輯部,北京市東城區(qū)東四西大街42號(hào) 100710,Email:baojingling@cma.org.cn2)中華醫(yī)學(xué)電子音像出版社辦公室,北京市東城區(qū)東四西大街42號(hào) 1007103)中華內(nèi)科雜志編輯部,北京市東城區(qū)東四西大街42號(hào) 1007104)首都醫(yī)科大學(xué)附屬北京朝陽(yáng)醫(yī)院科研處,北京市朝陽(yáng)區(qū)工體南路8號(hào) 1000205)中華健康管理學(xué)雜志編輯部,北京市東城區(qū)東四西大街42號(hào) 1007106)中華糖尿病雜志編輯部,北京市東城區(qū)東四西大街42號(hào) 1007107)英國(guó)醫(yī)學(xué)雜志中文版編輯部,北京市東城區(qū)東四西大街42號(hào) 100710
目前互聯(lián)網(wǎng)、手機(jī)終端、PC終端等數(shù)字技術(shù)已深刻影響到科技信息的傳播,傳統(tǒng)出版向數(shù)字化出版轉(zhuǎn)變已然是種趨勢(shì)。在大規(guī)模數(shù)字生產(chǎn)的過(guò)程中,為了讓數(shù)據(jù)能更好地儲(chǔ)存和交換,采用有效的標(biāo)準(zhǔn)化技術(shù)將數(shù)字文檔進(jìn)行生產(chǎn)、整理、交換和推廣是基礎(chǔ)中的基礎(chǔ),也就是內(nèi)容的標(biāo)準(zhǔn)化[1]。為了能使這些數(shù)據(jù)在各內(nèi)容提供商、圖書(shū)館、倉(cāng)儲(chǔ)數(shù)據(jù)庫(kù)之間進(jìn)行存儲(chǔ)和交換,美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館(NLM)下的美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)基于各出版商和 PubMed Central(PMC)的實(shí)踐開(kāi)發(fā)了期刊文檔標(biāo)簽集(Journal Article Tag Suite,JATS),也就是業(yè)界普遍認(rèn)可的NLM DTD標(biāo)準(zhǔn),并于2012年8月9日被正式批準(zhǔn)成為美國(guó)國(guó)家標(biāo)準(zhǔn),成為全球電子期刊出版領(lǐng)域第一個(gè)國(guó)家標(biāo)準(zhǔn)[2]。 本文對(duì) NLM DTD 3.0 版本[3]期刊存儲(chǔ)和交換標(biāo)簽集中的文章正文模型的標(biāo)記(tag)進(jìn)行分析和解讀,以便讓同行能更真實(shí)地認(rèn)知此標(biāo)準(zhǔn)及其應(yīng)用。
2003年初第一版NLM DTD標(biāo)準(zhǔn)面世,迅速成為標(biāo)簽PMC收錄以及其外期刊文章標(biāo)記的行業(yè)標(biāo)準(zhǔn)。截至2013年5月PMC共收錄1810種期刊[4],所收錄文獻(xiàn)采用了該DTD對(duì)其論文進(jìn)行標(biāo)注。目前它已成為美國(guó) Atypon Systems的主流 DTD,Ingenta和Highwire Press出版社將NLM DTD作為其全文內(nèi)容交換的標(biāo)準(zhǔn),英國(guó)大不列顛圖書(shū)館(British Library)和美國(guó)國(guó)會(huì)圖書(shū)館(the Library of Congress)已經(jīng)宣布使用NLM DTD作為他們電子文檔的存儲(chǔ)標(biāo)準(zhǔn)[5]。
在設(shè)計(jì)之初,NLM DTD就考慮到所有的學(xué)術(shù)內(nèi)容,2001年,PMC在吸收關(guān)于美國(guó)物理學(xué)會(huì)、BioOne、Blackwell Science、Elsevier Science、Highwire Press、美國(guó)電氣和電子工程師協(xié)會(huì)、Nature出版集團(tuán)、芝加哥大學(xué)出版社、約翰威立國(guó)際出版公司幾個(gè)大型出版商期刊文檔的DTD的研究報(bào)告后發(fā)布了pmc-2.dtd,并通過(guò)對(duì)很多學(xué)科文章進(jìn)行調(diào)查研究而使新模型可擴(kuò)展適用于所有期刊文章內(nèi)容。
NLM DTD規(guī)定期刊文章(<article>,注:<>內(nèi)為JATS中標(biāo)記用的元素)分為以下幾個(gè)部分:前置部分(<front>),含有期刊和文章相關(guān)元數(shù)據(jù),不包括文檔的主體內(nèi)容;主體部分(<body>),包括文章的文字和圖表信息;后置部分(<back>)包括比如術(shù)語(yǔ)表、參考文獻(xiàn)或附錄等的輔助信息;浮動(dòng)部分(<floats-group>),如在文章的主體和后置內(nèi)容引用的圖和表,對(duì)文章本身的評(píng)論,比如編輯的總結(jié),讀者來(lái)信的回復(fù),或作者對(duì)同行評(píng)議內(nèi)容的評(píng)論。其中文章主體部分(<body>)是文章(<article>)的實(shí)質(zhì)部分,內(nèi)容最為廣泛也最重要,包括了文章段落、表格、圖片、公式等文章核心的內(nèi)容。如何將主體內(nèi)容進(jìn)行分別標(biāo)記,以在儲(chǔ)存和轉(zhuǎn)化的過(guò)程中保證其正確和完整是數(shù)字化出版的重中之重。
文章主體部分(<body>)按照文檔結(jié)構(gòu)圖的顯示來(lái)看由3部分組成(圖1),包括26個(gè)元素任意構(gòu)成的內(nèi)容部分、章節(jié)(<sec>)部分及簽名欄(<sig-block>)部分。其中26個(gè)元素所包括的內(nèi)容在正文中可以存在或者不存在,且沒(méi)有具體的出現(xiàn)順序;同時(shí)使用這些元素標(biāo)注的對(duì)應(yīng)內(nèi)容可以在主體部分(<body>)結(jié)構(gòu)下也可在章節(jié)(<sec>)結(jié)構(gòu)下。簽名欄(<sig-block>)部分置于文章的尾部,用以存放簽名或?qū)?nèi)容負(fù)有責(zé)任或證明的人的描述。因?yàn)檎鹿?jié)(<sec>)的主要組成也是26個(gè)內(nèi)容元素,故本文圍繞章節(jié)(<sec>)進(jìn)行描述。
章節(jié)(<sec>)是一篇文章的基本結(jié)構(gòu)單位,包含章節(jié)元數(shù)據(jù)(<sec-meta>)、標(biāo)題部分、主要內(nèi)容部分、嵌套的章節(jié)(<sec>)和補(bǔ)充材料部分(圖2),各部分可以有具體內(nèi)容或者缺如,但是以固定的順序出現(xiàn)。一個(gè)很短的文章可能只包含段落,但大多期刊文章都分成多個(gè)章節(jié),每一章節(jié)都有一個(gè)標(biāo)題,概括描述本章節(jié)的內(nèi)容,如“前言”、“方法學(xué)”和“結(jié)論”。需要注意的是,章節(jié)(<sec>)結(jié)構(gòu)中又可包含章節(jié)(<sec>),即章節(jié)(<sec>)是可以嵌套的。低層次的章節(jié)(<sec>)可能包含于一個(gè)高層次的章節(jié)中,但也使用章節(jié)(<sec>)元素標(biāo)記,而不是使用其他名稱如(<sec2>)、(<sec3>)或(<subsec1>)等標(biāo)記。
圖1 文章主體結(jié)構(gòu)圖
所有26個(gè)內(nèi)容元素按照順序排列,主體部分的元素均為任意組合,而這些元素涵蓋了所有期刊正文中會(huì)出現(xiàn)的各種內(nèi)容形式。其中前13個(gè)元素為“區(qū)塊顯示元素”,后13個(gè)元素為主要的正文文本內(nèi)容元素。區(qū)塊顯示元素包括了各種文章內(nèi)容表現(xiàn)樣式的定義,其所包括的內(nèi)容可以想象為一個(gè)裝有各種內(nèi)容的容器,用有明確含義的元素名稱命名,比如<fig>、<table-wrap>。使用者可以將他們像一塊塊積木一樣置放在需要出現(xiàn)的正文位置。
圖2 文章章節(jié)部分結(jié)構(gòu)圖
根據(jù)26個(gè)元素所包涵的內(nèi)容,大體將其分為以下幾個(gè)大類(lèi):
(1)數(shù)學(xué)公式相關(guān),包括公式(<disp-formula>)、公式組(<disp-formula-group>)、Tex Math數(shù)學(xué)方程式(<tex-math>)、數(shù)學(xué)(<mm l:math>);
(2)表格相關(guān),包括排列(簡(jiǎn)單表格式排列)(<array>)、表格(<table-wrap>)、表格組(<tablewrap-group>)、定義列表(<def-list>)、列表(<list>);
(3)圖片相關(guān),包括圖(<fig>)、圖組(<figgroup>)、圖形(<graphic>)、文本框(<boxed-text>)、化學(xué)結(jié)構(gòu)式(<chem-struct-wrap>);
(4)文本內(nèi)容形式,包括預(yù)編排文本(<preformat>)、增刊材料(<supplementary-material>)、段落(<p>)、引用(<disp-quote>)、演說(shuō)(<speech>)、聲明(<statement>)、詩(shī)句(<versegroup>);
(5)其他輔助信息內(nèi)容,包括地址/聯(lián)系信息(<address>)、可替換對(duì)象(<alternatives>)、多媒體(<media>)、相關(guān)文章(<related-article>)、相關(guān)對(duì)象(<related-object>)。
包括不同于根文章的章節(jié)水平元數(shù)據(jù)。在章節(jié)(<sec>)的組成中為可選內(nèi)容。具體包含貢獻(xiàn)者組(<contrib-group>)、關(guān)鍵詞組(<kwd-group>)和許可(<permissions>)。這3個(gè)均為可選項(xiàng)目。其中貢獻(xiàn)者組(<contrib-group>)和關(guān)鍵詞組(<kwd-group>)可以出現(xiàn)多次,而許可(<permissions>)僅能出現(xiàn)1次。
章節(jié)(<sec>)中的標(biāo)題部分有兩種形式,分別是純標(biāo)題(<title>)和帶標(biāo)簽(<label>)的標(biāo)題,但只能出現(xiàn)其中一種。標(biāo)簽(<label>)為編號(hào)和任何其他相關(guān)的前綴詞,如圖(<fig>)的標(biāo)題或注解,例如“Figure 3.”或“Exhibit 2.”。 標(biāo)簽( <label>)可以是文本、數(shù)據(jù)或特殊字符,且還能是一些嵌入的圖形、公式,同時(shí)還可以有各種格式上的變化。標(biāo)題(<title>)為結(jié)構(gòu)式元素的標(biāo)題,不可用于論文的標(biāo)題。在論文的元數(shù)據(jù)中,標(biāo)題被明確界定為文章標(biāo)題(<article-title>)、文章副標(biāo)題(<subtitle>)、譯文標(biāo)題(<trans-title>)、外文副標(biāo)題(<transsubtitle>)和替代標(biāo)題(<alt-title>);參考文獻(xiàn)中的論文標(biāo)題亦為文章標(biāo)題(<article-title>),而書(shū)名或雜志名(包含被引用的文獻(xiàn)或章節(jié))則定義為出處(<source>)。要注意的是,章節(jié)(<sec>)的標(biāo)題部分如果是按照帶標(biāo)簽(<label>)的標(biāo)題進(jìn)行描述的時(shí)候,可以只有標(biāo)簽(<label>)而沒(méi)有標(biāo)題(<title>),也就是其實(shí)章節(jié)(<sec>)的標(biāo)題部分包括了純標(biāo)題、純標(biāo)簽和帶標(biāo)簽的標(biāo)題3種情況。
包括腳注組(<fn-group>)、術(shù)語(yǔ)元素列表(<glossary>)和引用列表(<ref-list>)。3項(xiàng)內(nèi)容可出現(xiàn)或者不出現(xiàn),且沒(méi)有一定的順序。腳注組(<fngroup>)為在文后成組腳注(<fn>)的容器元素,包括了多個(gè)腳注且每個(gè)腳注都可以有相應(yīng)的標(biāo)簽(<label>)和標(biāo)題(<title>)。術(shù)語(yǔ)元素列表(<glossary>)為以一系列術(shù)語(yǔ)和定義為主要內(nèi)容的部分,常由一個(gè)或多個(gè)分成兩部分的稱作“定義表(<def-list>)”的列表組成。術(shù)語(yǔ)元素列表(<glossary>)模型涵蓋面較寬,以保證含有較多表格、注釋或特殊結(jié)構(gòu)的文獻(xiàn)適用這一標(biāo)簽。典型的簡(jiǎn)單條款列表可能僅包括一個(gè)標(biāo)題和一個(gè)定義表;相對(duì)復(fù)雜的條款列表可能分成幾種不同的條款列表,每個(gè)列表具有特定的標(biāo)題。標(biāo)簽集1.0和2.0版中模式化了這個(gè)遞歸結(jié)構(gòu),使用術(shù)語(yǔ)元素列表組(<gloss-group>)命名內(nèi)部列表,這個(gè)元素可以直接翻譯成術(shù)語(yǔ)元素列表(<glossary>)。在標(biāo)簽集3.0中術(shù)語(yǔ)元素列表(<glossary>)進(jìn)行了明顯的重構(gòu),其值或用法跟之前的版本不能向后兼容,即在之前的版本中術(shù)語(yǔ)元素列表(<glossary>)元素的一些通過(guò)術(shù)語(yǔ)元素列表組(<gloss-group>)元素進(jìn)行處理的功能已經(jīng)不存在了。引用列表(<ref-list>)為文章中的引用參考列表,通常被稱為“參考文獻(xiàn)”、“書(shū)目”或“附加閱讀”,引用參考文獻(xiàn)列表和建議參考文獻(xiàn)列表之間沒(méi)有區(qū)別。
以下是一個(gè)典型文章主體部分(<body>)包含有章節(jié)(<sec>)的范例:
章節(jié)類(lèi)型屬性命名了章節(jié)內(nèi)容的主要語(yǔ)義類(lèi)型,為章節(jié)(<sec>)的專屬屬性。當(dāng)定義一個(gè)章節(jié)的語(yǔ)義內(nèi)容已知時(shí),在源文件中需明確給出具體的語(yǔ)義信息。盡管章節(jié)類(lèi)型可使用任何文本值,但最好只使用說(shuō)明書(shū)推薦的用詞,否則會(huì)被忽略。推薦的章節(jié)類(lèi)型包括:cases(病例/病例報(bào)告)、conclusions(結(jié)論/評(píng)論)、discussion(討論/解讀)、intro(引言/概要)、materials(材料)、methods(方法/方法學(xué)/過(guò)程)、results(結(jié)果/結(jié)果申明)、subjects(對(duì)象/參與者/患者)、supplementary-material(補(bǔ)充材料)。使用章節(jié)類(lèi)型這個(gè)屬性對(duì)章節(jié)進(jìn)行結(jié)構(gòu)化或者對(duì)信息進(jìn)行分類(lèi)化,都是為了利于檢索和分組,該屬性通常作為轉(zhuǎn)換的一部分被提供。另外,多個(gè)章節(jié)類(lèi)型可以聯(lián)用,比如“Materials and Methods”可標(biāo)記為“type="materials|methods"”。
特別指出某種元素的資料屬性,即與眾不同的用途。JATS標(biāo)簽集并不限制特殊應(yīng)用(@specificuse)的使用,其可用于標(biāo)注文章具體內(nèi)容(如段落、注解或章節(jié))的特殊屬性,如出現(xiàn)形式(如網(wǎng)絡(luò)、紙版、音頻)、特定受眾(如教師和學(xué)生,或醫(yī)師、護(hù)士和患者)、顯示對(duì)象。該屬性無(wú)需特殊處理和展示,展示形態(tài)完全取決于用戶的用途。
對(duì)于元素知識(shí)內(nèi)容的語(yǔ)言是一個(gè)屬性,尤其是整篇文章。建議的最佳實(shí)踐是使用RFC4646中定義的值,通常使用兩個(gè)小寫(xiě)語(yǔ)言字母代碼,如“fr”(法國(guó))、“en”(英文)、“de”(德國(guó)),還包括子碼(如“en-au”)。這些值不區(qū)分大小寫(xiě),但推薦全部使用小寫(xiě),具體規(guī)范可以從IANA語(yǔ)言子標(biāo)記注冊(cè)處獲得: http://www.iana.org/assignments/languagesubtag-registry。與幾乎其他所有XML的屬性不同,語(yǔ)言值是繼承的,即最上層具有語(yǔ)言屬性的元素被設(shè)定后,其之后的所有語(yǔ)言屬性都被定義為同一種語(yǔ)言,除非它們單獨(dú)設(shè)定自己的@xml:lang屬性。如在元素章節(jié)(<sec>)處定義語(yǔ)言(@xml:lang)為“en”(英文),其內(nèi)部包含的嵌套章節(jié)(<sec>)和段落(<p>)都被自動(dòng)設(shè)定為“en”(英文),除非在這些水平重新定義語(yǔ)言(@xml:lang)。
在使用中規(guī)定,元素刊名縮寫(xiě)(<abbrevjournal-title>)、文章(<article>)、期刊副標(biāo)題(<journal-subtitle>)、期刊名(<journal-title>)、反饋(<response>)、次級(jí)文章(<sub-article>)中其默認(rèn)值為“EN”,而其他具有語(yǔ)言屬性的元素在使用時(shí),必須明確設(shè)定了它們自己的@xml:lang屬性。
作為保存優(yōu)先標(biāo)記語(yǔ)義內(nèi)容的方式,可以是文字、數(shù)字或特殊字符。這個(gè)屬性的值可包括信息的類(lèi)別、語(yǔ)義類(lèi)別或成組元素的特殊功能。比如可以定義:藥物名稱、公司或產(chǎn)品;分類(lèi)學(xué)術(shù)語(yǔ)如屬、物或科;或生物學(xué)系統(tǒng)組件,如基因、蛋白或多肽。該屬性也可以用來(lái)記錄表格單元格的合計(jì)或小計(jì)內(nèi)容、包含案例研究的文本框(<boxed-text>)或是定理和證明的聲明(<statement>)。屬性內(nèi)容類(lèi)型(@content-type)可以一種特殊方式處理元素,例如讓作品、短語(yǔ)或結(jié)構(gòu)在打印或顯示時(shí)表現(xiàn)出不同的樣式。格式的類(lèi)型可由屬性值指導(dǎo),例如讓特定內(nèi)容呈現(xiàn)紅色或在個(gè)案研究后面添加背景圖像等。
章節(jié)(<sec>)不包括@content-type屬性,即以章節(jié)(<sec>)水平描述的內(nèi)容并沒(méi)有樣式的信息,而在其下一級(jí)多個(gè)元素,如段落(<p>)中有@content-type屬性,這保證了在最初級(jí)的元素中就已經(jīng)存在了樣式的信息,不受更高級(jí)元素的改變而影響。
國(guó)外很多大型出版商如 Springer、Nature、BMJ等出版商都對(duì)出版內(nèi)容進(jìn)行加工,使用XML形式進(jìn)行儲(chǔ)存及出版,使期刊的發(fā)布和傳播效率大幅提高。作為內(nèi)容提供商,很容易基于XML對(duì)數(shù)字出版的內(nèi)容進(jìn)行標(biāo)準(zhǔn)化,建立一個(gè)適用于所有科技論文均適用的行業(yè)標(biāo)準(zhǔn)[1]。目前,圍繞NLM DTD產(chǎn)生了一個(gè)完整的上下游軟件和應(yīng)用生態(tài)鏈。比如BMJ、PLoS系列、Nature等國(guó)際知名期刊已建立了基于NCBI DTD的出版流程,甚至從投稿開(kāi)始就以XML作為數(shù)據(jù)存儲(chǔ)和交換的基礎(chǔ)。雖然我國(guó)數(shù)字出版產(chǎn)業(yè)發(fā)生了巨大變化,國(guó)內(nèi)數(shù)字出版總產(chǎn)值也突破了千億大關(guān),但我國(guó)傳統(tǒng)出版的數(shù)字化轉(zhuǎn)型依然沒(méi)有取得實(shí)質(zhì)性突破,與國(guó)外出版巨頭相比還存在很大差距,短板之一便是標(biāo)準(zhǔn)[6]。標(biāo)準(zhǔn)之爭(zhēng)其實(shí)質(zhì)為市場(chǎng)之爭(zhēng),誰(shuí)掌握了標(biāo)準(zhǔn),誰(shuí)就掌握了市場(chǎng)的主動(dòng)權(quán)[7]。目前國(guó)內(nèi)也已有學(xué)者和科研人員在研發(fā)基于XML的結(jié)構(gòu)化排版的生產(chǎn)流程,但中國(guó)科技期刊界缺乏大規(guī)模應(yīng)用XML進(jìn)行數(shù)字化出版的經(jīng)驗(yàn),對(duì)于期刊數(shù)據(jù)文檔規(guī)范化的探討還未能深入,關(guān)于XML的數(shù)據(jù)規(guī)范問(wèn)題目前尚沒(méi)未有行業(yè)內(nèi)共識(shí)[5]?;趯?duì)NLM DTD發(fā)展和應(yīng)用的上述認(rèn)識(shí),我們呼吁國(guó)內(nèi)同行能在借鑒美國(guó)NLM DTD的基礎(chǔ)上,開(kāi)展中文科技期刊文檔格式標(biāo)準(zhǔn)化的研究與探討,為實(shí)現(xiàn)“知識(shí)標(biāo)引、多重應(yīng)用、一次制作、多元應(yīng)用”的目的奠定基礎(chǔ)。
1 包靖玲,霍永豐,顧佳等.美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館期刊文檔標(biāo)簽集概述.中國(guó)科技期刊研究,2013,24(4):624-627
2 JATS:Journal Article Tag Suite.[2012-09-03].http://jats.niso.org/
3 National Center for Biotechnology Information.Journal Publishing Tag Set Tag Library version 3.0.[2012-06-19].http://dtd.nlm.nih.gov/publishing/tag-library/
4 PMC Journals. [2012-08-13].http://www.ncbi.nlm.nih.gov/pmc/
5 沈錫賓,包靖玲,顧佳等.美國(guó)NLM DTD 3.0期刊存儲(chǔ)和交換標(biāo)簽集中參考文獻(xiàn)的標(biāo)記解讀.中國(guó)科技期刊研究,2013,24(2): 233-237
6 劉成勇.推動(dòng)數(shù)字出版進(jìn)入高鐵時(shí)代.出版參考,2011,(21):1
7 沈錫賓,顧佳,韓靜等.中國(guó)科技期刊文檔格式標(biāo)準(zhǔn)化任重道遠(yuǎn).編輯學(xué)報(bào),2013,25(1): 27-30