孫海霞 李軍蓮
(1 南京大學(xué)信息管理學(xué)院 南京 210046 (中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020) 2 中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020)
?
?醫(yī)學(xué)信息研究?
學(xué)術(shù)論文作者機(jī)構(gòu)規(guī)范文檔構(gòu)建*
孫海霞 李軍蓮
(1 南京大學(xué)信息管理學(xué)院 南京 210046 (中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020) 2 中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020)
以中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)為基礎(chǔ),面向基于學(xué)術(shù)論文開(kāi)展機(jī)構(gòu)檢索、分析與評(píng)價(jià)相關(guān)知識(shí)服務(wù)需要,對(duì)學(xué)術(shù)論文作者機(jī)構(gòu)名稱規(guī)范目標(biāo)與內(nèi)容、體系結(jié)構(gòu)與組織方式以及構(gòu)建過(guò)程與實(shí)現(xiàn)策略進(jìn)行研究、實(shí)踐總結(jié)。
中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù); 機(jī)構(gòu)名稱規(guī)范;規(guī)范文檔結(jié)構(gòu);社會(huì)化協(xié)作;計(jì)算機(jī)輔助環(huán)境
隨著國(guó)家在科研領(lǐng)域資源投入的持續(xù)增加,各類學(xué)術(shù)成果的產(chǎn)出量逐年上升,以科研機(jī)構(gòu)為中心的各種知識(shí)服務(wù)理論研究與實(shí)踐工作越來(lái)越受到圖書情報(bào)領(lǐng)域的重視。學(xué)術(shù)論文作為核心知識(shí)載體之一,已成為開(kāi)展知識(shí)組織、知識(shí)檢索、科學(xué)計(jì)量分析、關(guān)聯(lián)挖掘、學(xué)科發(fā)展、最新科研動(dòng)向、科研評(píng)價(jià)等知識(shí)服務(wù)研究和實(shí)踐活動(dòng)的主要依據(jù)[1-3]?!白髡邫C(jī)構(gòu)”作為學(xué)術(shù)論文的重要標(biāo)目項(xiàng),是開(kāi)展相關(guān)知識(shí)服務(wù)活動(dòng)時(shí)科研機(jī)構(gòu)與論文銜接的紐帶。但由于機(jī)構(gòu)自身因?yàn)楦⒑喜?、拆分等帶?lái)的同一實(shí)體機(jī)構(gòu)名稱的多樣性和復(fù)雜性,不同作者發(fā)文時(shí)常常對(duì)同一機(jī)構(gòu)名使用不同的表達(dá)形式,甚至同一作者在不同時(shí)間也會(huì)如此等客觀現(xiàn)實(shí)的存在,使得目前各類數(shù)據(jù)庫(kù)很難保證作者機(jī)構(gòu)檢索點(diǎn)的查準(zhǔn)率和查全率[4-5],尤其在當(dāng)前學(xué)術(shù)論文快速增長(zhǎng)的背景下,在很大程度上影響和制約著各項(xiàng)知識(shí)服務(wù)研究和實(shí)踐活動(dòng)的開(kāi)展。對(duì)此,開(kāi)展論文作者機(jī)構(gòu)規(guī)范控制研究,構(gòu)建作者機(jī)構(gòu)規(guī)范文檔,實(shí)現(xiàn)統(tǒng)一機(jī)構(gòu)不同著錄形式的匯聚,揭示不同機(jī)構(gòu)名稱之間的變更、隸屬等語(yǔ)義關(guān)系,用于學(xué)術(shù)論文的組織,是提高數(shù)據(jù)庫(kù)作者機(jī)構(gòu)檢索點(diǎn)的文獻(xiàn)查準(zhǔn)率和查全率、最大程度解除基于學(xué)術(shù)論文開(kāi)展以科研機(jī)構(gòu)為中心的各種知識(shí)服務(wù)理論研究與實(shí)踐制約因素的重要手段之一[1]。
規(guī)范文檔(Authority File)的概念在文獻(xiàn)編目領(lǐng)域中由來(lái)已久,是指由規(guī)范記錄組成的計(jì)算機(jī)文檔。長(zhǎng)久以來(lái),規(guī)范文檔建設(shè)相關(guān)理論研究與實(shí)踐主要圍繞知識(shí)內(nèi)部特征(知識(shí)內(nèi)容)進(jìn)行,如各種主題詞表、一體化語(yǔ)言系統(tǒng)等[6-8];作者、機(jī)構(gòu)等知識(shí)外部特征項(xiàng)的規(guī)范研究與實(shí)踐則主要集中在書目規(guī)范控制方面,致力于圖書編目與檢索的一致性以及不同書目系統(tǒng)之間的互操作。如國(guó)際圖書館協(xié)會(huì)和機(jī)構(gòu)聯(lián)合會(huì)(International Federation of Library Associations and Institutions,IFLA)從服務(wù)角度對(duì)規(guī)范項(xiàng)提出了要求[9],德國(guó)國(guó)家圖書館、美國(guó)國(guó)會(huì)圖書館和OCLC啟動(dòng)了虛擬國(guó)際規(guī)范文檔(Virtual International Anthority File,VIAF) 項(xiàng)目[10-11],國(guó)家圖書館和CALIS制定了作者、團(tuán)隊(duì)作者等著錄規(guī)則,構(gòu)建了系列名稱規(guī)范庫(kù)[12-13],并進(jìn)行語(yǔ)義表達(dá)與關(guān)聯(lián)研究等[14-15]。面向?qū)W術(shù)論文的機(jī)構(gòu)名稱規(guī)范控制研究還比較少,唐金玲從檢索角度對(duì)當(dāng)前3大數(shù)據(jù)庫(kù)中論文作者機(jī)構(gòu)名稱問(wèn)題進(jìn)行了分析與總結(jié)[4],曾建勛等從知識(shí)評(píng)價(jià)角度提出了學(xué)術(shù)論文機(jī)構(gòu)著錄要求[1],董琳從學(xué)科評(píng)價(jià)角度提出了機(jī)構(gòu)名稱清洗需求與策略[3],吳英杰等進(jìn)行了學(xué)術(shù)論文數(shù)據(jù)庫(kù)作者機(jī)構(gòu)名稱非規(guī)范著錄形式自動(dòng)檢測(cè)研究[5],高星等人進(jìn)行了論文機(jī)構(gòu)規(guī)范名和別名對(duì)應(yīng)關(guān)系自動(dòng)發(fā)現(xiàn)技術(shù)研究[16],楊奕紅等進(jìn)行了多層級(jí)機(jī)構(gòu)表編制與應(yīng)用實(shí)踐[17],總體看還處于起步與探索階段。
本文以中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)(China Biomedical Literature Database, CBM)為基礎(chǔ),在借鑒現(xiàn)有書目規(guī)范控制、各類知識(shí)組織系統(tǒng)構(gòu)建與整合理論和實(shí)踐基礎(chǔ)上,面向基于學(xué)術(shù)論文開(kāi)展機(jī)構(gòu)檢索、分析與評(píng)價(jià)及相關(guān)知識(shí)服務(wù)需要,對(duì)學(xué)術(shù)論文作者機(jī)構(gòu)名稱規(guī)范目標(biāo)與內(nèi)容、體系結(jié)構(gòu)與組織方式以及構(gòu)建過(guò)程與實(shí)現(xiàn)策略進(jìn)行研究、實(shí)踐與總結(jié)。
2.1 作者機(jī)構(gòu)規(guī)范文檔知識(shí)服務(wù)目標(biāo)
CBM是國(guó)內(nèi)生物醫(yī)學(xué)領(lǐng)域最早、最權(quán)威的期刊論文數(shù)據(jù)庫(kù)之一,是一個(gè)集題錄檢索、引文檢索和學(xué)術(shù)分析于一體的知識(shí)服務(wù)型數(shù)據(jù)庫(kù)。學(xué)術(shù)分析包括引文分析、作者分析、機(jī)構(gòu)分析、基金分析等。CBM作者機(jī)構(gòu)規(guī)范文檔知識(shí)服務(wù)目標(biāo)包括兩個(gè)方面:一是提升CBM自身的知識(shí)組織、機(jī)構(gòu)檢索、分析與評(píng)價(jià)等服務(wù)能力;二是為實(shí)現(xiàn)與其他服務(wù)系統(tǒng)之間資源和服務(wù)整合提供支撐。具體通過(guò)3個(gè)階段來(lái)逐步實(shí)現(xiàn),見(jiàn)表1。
表1 CBM作者機(jī)構(gòu)規(guī)范文檔知識(shí)服務(wù)目標(biāo)
2.2 作者機(jī)構(gòu)名稱規(guī)范內(nèi)容
CBM作者機(jī)構(gòu)規(guī)范包括3個(gè)方面:形式規(guī)范、一般性描述屬性規(guī)范和關(guān)系屬性規(guī)范。形式規(guī)范的目標(biāo)是實(shí)現(xiàn)一個(gè)機(jī)構(gòu)的不同著錄形式能夠匯聚在一起,用同一個(gè)表達(dá)形式(下稱規(guī)范機(jī)構(gòu)名稱)進(jìn)行表達(dá)。一般性描述屬性規(guī)范是對(duì)機(jī)構(gòu)基本信息的揭示與控制,主要指機(jī)構(gòu)類型、所屬領(lǐng)域、等級(jí)、所在地區(qū)、地址等一般描述信息的規(guī)范。關(guān)系屬性規(guī)范可分為系統(tǒng)內(nèi)部作者機(jī)構(gòu)間關(guān)系規(guī)范和系統(tǒng)與外部機(jī)構(gòu)規(guī)范文檔之間的關(guān)系規(guī)范兩個(gè)層面。系統(tǒng)內(nèi)部作者機(jī)構(gòu)關(guān)系規(guī)范包括機(jī)構(gòu)變更、隸屬、掛靠、附屬、相關(guān)等關(guān)系的規(guī)范;與外部機(jī)構(gòu)規(guī)范文檔之間的關(guān)系規(guī)范主要指與外部機(jī)構(gòu)規(guī)范文檔的互操作,直接表現(xiàn)為各種映射關(guān)系。形式規(guī)范是構(gòu)建作者機(jī)構(gòu)規(guī)范文檔和實(shí)現(xiàn)各類機(jī)構(gòu)知識(shí)服務(wù)活動(dòng)的基礎(chǔ),一般屬性和系統(tǒng)內(nèi)部作者機(jī)構(gòu)關(guān)系屬性規(guī)范是實(shí)現(xiàn)深度知識(shí)檢索與評(píng)價(jià)的基礎(chǔ),外部關(guān)系規(guī)范是實(shí)現(xiàn)不同系統(tǒng)之間資源和服務(wù)整合的基礎(chǔ)。
3.1 概述
CBM作者機(jī)構(gòu)規(guī)范文檔體系的設(shè)計(jì)不限于最終規(guī)范內(nèi)容本身,還考慮了規(guī)范控制過(guò)程和邊建設(shè)邊服務(wù)需要。CBM作者機(jī)構(gòu)規(guī)范文檔體系由7大類文檔組成,分別為作者機(jī)構(gòu)名稱來(lái)源文檔、預(yù)規(guī)范作者機(jī)構(gòu)名稱文檔、輔助規(guī)范文檔、作者機(jī)構(gòu)規(guī)范文檔、作者機(jī)構(gòu)名稱索引文檔、映射文檔和管理文檔,見(jiàn)圖1。內(nèi)部規(guī)范文檔主要通過(guò)規(guī)范作者機(jī)構(gòu)名稱ID、預(yù)規(guī)范作者機(jī)構(gòu)名稱ID、原始作者機(jī)構(gòu)稱ID進(jìn)行關(guān)聯(lián);與外部規(guī)范文檔的映射主要基于規(guī)范作者機(jī)構(gòu)名ID進(jìn)行;與CBM文獻(xiàn)庫(kù)和論文其他知識(shí)要素的語(yǔ)義關(guān)聯(lián)主要基于上述3類唯一標(biāo)識(shí)符與CBM文獻(xiàn)ID的映射關(guān)系進(jìn)行。
圖1 CBM機(jī)構(gòu)規(guī)范文檔整體體系結(jié)構(gòu)
3.2 作者機(jī)構(gòu)名稱來(lái)源文檔
作者機(jī)構(gòu)名稱來(lái)源文檔存放的是從CBM中采集過(guò)來(lái)的原始作者機(jī)構(gòu)名稱及相關(guān)描述信息,內(nèi)容包括CBM文獻(xiàn)ID、原始作者機(jī)構(gòu)名稱ID、原始作者機(jī)構(gòu)名稱、郵編、作者、所在地等。
3.3 預(yù)規(guī)范作者機(jī)構(gòu)名稱文檔
預(yù)規(guī)范作者機(jī)構(gòu)名稱文檔存放的是對(duì)作者機(jī)構(gòu)名稱來(lái)源文檔中相關(guān)信息清洗和初步規(guī)范后的結(jié)果,內(nèi)容包括預(yù)規(guī)范作者機(jī)構(gòu)名稱ID、原始作者機(jī)構(gòu)名稱ID、預(yù)規(guī)范作者機(jī)構(gòu)名稱、語(yǔ)種、所在國(guó)家、所在地區(qū)、機(jī)構(gòu)類型等。
3.4 作者機(jī)構(gòu)規(guī)范文檔
CBM作者機(jī)構(gòu)規(guī)范文檔由基本屬性文檔、一般屬性描述文檔、關(guān)系屬性描述文檔和注釋文檔組成?;緦傩晕臋n里用于存儲(chǔ)CBM作者機(jī)構(gòu)規(guī)范名稱的基本信息,核心內(nèi)容包括規(guī)范作者機(jī)構(gòu)名稱ID、預(yù)規(guī)范作者機(jī)構(gòu)名稱ID、原始作者機(jī)構(gòu)名稱ID、CBM文獻(xiàn)ID、規(guī)范作者機(jī)構(gòu)名稱、優(yōu)選規(guī)范作者機(jī)構(gòu)名稱標(biāo)識(shí)。一般屬性描述文檔用于存儲(chǔ)CBM作者機(jī)構(gòu)規(guī)范名稱的類型、機(jī)構(gòu)分類、所屬學(xué)科與領(lǐng)域、所在地區(qū)、分級(jí)、語(yǔ)種、性質(zhì)等一般描述信息。關(guān)系屬性描述文檔用于存儲(chǔ)CBM作者機(jī)構(gòu)之間關(guān)系信息。CBM關(guān)系屬性描述文檔中關(guān)系可以是規(guī)范作者機(jī)構(gòu)名稱之間的關(guān)系、預(yù)規(guī)范作者機(jī)構(gòu)名稱之間的關(guān)系,也可以是規(guī)范作者機(jī)構(gòu)名稱與預(yù)規(guī)范作者機(jī)構(gòu)名稱之間的關(guān)系。關(guān)系類型分為變更關(guān)系(拆分、合并、更名等)、層級(jí)關(guān)系(隸屬、掛靠、附屬等)、相關(guān)關(guān)系(作者相關(guān)、文獻(xiàn)相關(guān)、基金相關(guān)、領(lǐng)域相關(guān)、分級(jí)相關(guān)等)和其他關(guān)系5大類。注釋文檔是對(duì)CBM作者機(jī)構(gòu)規(guī)范名稱各個(gè)規(guī)范項(xiàng)的說(shuō)明和其他信息的補(bǔ)充說(shuō)明,既是建設(shè)成果,也反用于輔助CBM作者機(jī)構(gòu)規(guī)范名稱文檔的構(gòu)建。
3.5 作者機(jī)構(gòu)名稱索引文檔
作者機(jī)構(gòu)名稱索引文檔分為CBM作者機(jī)構(gòu)名稱索引文檔、作者機(jī)構(gòu)規(guī)范名稱索引文檔和作者機(jī)構(gòu)預(yù)規(guī)范名稱索引文檔,前者是對(duì)后二者的綜合。索引方式上包括字索引、詞索引和綜合索引。作者機(jī)構(gòu)規(guī)范名稱索引文檔主要服務(wù)于外部系統(tǒng),CBM作者機(jī)構(gòu)名稱索引文檔和和作者機(jī)構(gòu)預(yù)規(guī)范名稱索引文檔主要服務(wù)于CBM。
3.6 映射文檔
映射文檔主要用于存儲(chǔ)和揭示CBM作者機(jī)構(gòu)規(guī)范名稱與其他機(jī)構(gòu)規(guī)范文檔中規(guī)范機(jī)構(gòu)名稱之間的映射關(guān)系,實(shí)現(xiàn)CBM作者機(jī)構(gòu)規(guī)范與外部系統(tǒng)和服務(wù)的互操作。核心元數(shù)據(jù)項(xiàng)有CBM規(guī)范作者機(jī)構(gòu)名稱ID、外部機(jī)構(gòu)規(guī)范名稱唯一標(biāo)準(zhǔn)符、外部機(jī)構(gòu)規(guī)范文檔名稱編碼、映射關(guān)系類型。CBM作者機(jī)構(gòu)規(guī)范名稱與其他機(jī)構(gòu)規(guī)范文檔中規(guī)范機(jī)構(gòu)名稱之間的映射關(guān)系類型主要分為等同映射、向上映射、向下映射、相關(guān)映射和其他映射5大類,其中相關(guān)映射又分為行政相關(guān)、地區(qū)相關(guān)、學(xué)科相關(guān)、類別相關(guān)等。
3.7 輔助規(guī)范文檔
CBM作者機(jī)構(gòu)輔助規(guī)范文檔主要用以輔助機(jī)構(gòu)一般描述項(xiàng)內(nèi)容的規(guī)范,有些是面向所有類型機(jī)構(gòu),有些則是面向特定類型機(jī)構(gòu)。表2是主要輔助規(guī)范文檔及用途說(shuō)明。所有輔助規(guī)范文檔均可動(dòng)態(tài)更新與維護(hù)。
表2 CBM機(jī)構(gòu)規(guī)范主要輔助規(guī)范文檔及用途
3.8 管理文檔
管理文檔用于各類數(shù)據(jù)的管理與說(shuō)明,包括元數(shù)據(jù)描述文檔、文檔描述文檔、用戶管理文檔、反饋文檔和版本管理文檔。元數(shù)據(jù)描述文檔用于解釋各類CBM機(jī)構(gòu)規(guī)范文檔涉及的元數(shù)據(jù)內(nèi)涵和外延;文檔描述文檔是對(duì)各類CBM機(jī)構(gòu)規(guī)范文檔內(nèi)容的說(shuō)明;用戶管理文檔是對(duì)CBM機(jī)構(gòu)規(guī)范文檔的構(gòu)建、維護(hù)和應(yīng)用等各類型用戶的統(tǒng)一管理;反饋文檔用于記錄CBM機(jī)構(gòu)規(guī)范文檔的使用反饋信息和反饋信息處理情況;版本管理文檔用于記錄CBM機(jī)構(gòu)規(guī)范文檔更新變化情況。
4.1 作者機(jī)構(gòu)名稱規(guī)范過(guò)程
CBM作者機(jī)構(gòu)名稱規(guī)范過(guò)程整體分為原始作者機(jī)構(gòu)名稱采集、清洗、形式規(guī)范控制、一般性描述屬性規(guī)范控制和關(guān)系規(guī)范控制5個(gè)主要階段。(1)原始作者機(jī)構(gòu)名稱采集階段主要是從CBM數(shù)據(jù)庫(kù)中獲取完整的原始作者機(jī)構(gòu)著錄信息。(2)清洗階段主要是對(duì)采集過(guò)來(lái)的原始作者機(jī)構(gòu)名稱進(jìn)行拆分,生成原始作者機(jī)構(gòu)名稱唯一標(biāo)識(shí)符;對(duì)拆分后的作者機(jī)構(gòu)名稱進(jìn)行形式檢查、提取有效片段、去重,生成預(yù)規(guī)范作者機(jī)構(gòu)唯一標(biāo)識(shí)符;完成機(jī)構(gòu)類型、所在地區(qū)、語(yǔ)種等部分非關(guān)系屬性的初步規(guī)范等。(3)形式規(guī)范控制階段主要是將同一機(jī)構(gòu)的不同作者機(jī)構(gòu)著錄形式的匯聚在一起,并從中推薦出CBM規(guī)范機(jī)構(gòu)名,生成規(guī)范作者機(jī)構(gòu)名稱唯一標(biāo)識(shí)符。(4)一般性描述屬性規(guī)范控制階段主要是完成機(jī)構(gòu)類型、所屬領(lǐng)域、所在地區(qū)、分級(jí)等所有非關(guān)系屬性的規(guī)范。(5)關(guān)系規(guī)范控制階段主要是進(jìn)行機(jī)構(gòu)變更、隸屬、掛靠、相關(guān)、映射等關(guān)系的規(guī)范,生成各類關(guān)系唯一標(biāo)識(shí)符。
4.2 作者機(jī)構(gòu)規(guī)范文檔主要實(shí)現(xiàn)策略
CBM作者機(jī)構(gòu)規(guī)范文檔構(gòu)建原則之一就是邊建設(shè)邊服務(wù),因此重點(diǎn)強(qiáng)調(diào)構(gòu)建過(guò)程的階梯式循環(huán),保證中間規(guī)范成果可用和可復(fù)用,注重計(jì)算機(jī)輔助和社會(huì)化協(xié)作。
4.2.1 階梯式循環(huán)建設(shè) 如圖2所示,CBM機(jī)構(gòu)規(guī)范文檔整體構(gòu)建路線不是線性的,而是循階梯式循環(huán)進(jìn)行的。首先啟動(dòng)核心類型機(jī)構(gòu)規(guī)范,且只考慮形式規(guī)范;隨后在上述基礎(chǔ)上進(jìn)行一般性描述屬性規(guī)范,并引入非核心類型機(jī)構(gòu)規(guī)范控制;接著啟動(dòng)CBM作者機(jī)構(gòu)名稱內(nèi)部關(guān)系規(guī)范,同樣是核心類型機(jī)構(gòu)優(yōu)先;最后著手構(gòu)建CBM作者機(jī)構(gòu)名稱與外部機(jī)構(gòu)規(guī)范文檔映射關(guān)系。具體實(shí)施時(shí)還考慮年代范圍和機(jī)構(gòu)類別因素。
圖2 CBM機(jī)構(gòu)規(guī)范文檔整體構(gòu)建路線
4.2.2 計(jì)算機(jī)輔助 圖3是CBM作者機(jī)構(gòu)規(guī)范文檔構(gòu)建與維護(hù)的計(jì)算機(jī)輔助環(huán)境,整體分為應(yīng)用層、軟件層和技術(shù)層3個(gè)層次,貫穿CBM論文作者機(jī)構(gòu)名稱采集、清洗(預(yù)規(guī)范)、形式規(guī)范、關(guān)系規(guī)范、互操作和服務(wù)各個(gè)階段。
圖3 作者機(jī)構(gòu)規(guī)范文檔構(gòu)建計(jì)算輔助環(huán)境
采集和清洗主要基于各類離線工具進(jìn)行,涉及的核心技術(shù)主要為不同類型機(jī)構(gòu)特征詞的總結(jié)與規(guī)則庫(kù)的構(gòu)建。形式規(guī)范、關(guān)系規(guī)范和互操作則以在線協(xié)同加工工具為主,這3個(gè)階段也是最需自動(dòng)化處理技術(shù)和語(yǔ)義資源支持的階段。其中,形式規(guī)范主要基于相似度技術(shù)、規(guī)則庫(kù)構(gòu)建、自動(dòng)聚類和分類技術(shù)、同名消歧技術(shù)進(jìn)行;關(guān)系規(guī)范主要基于自動(dòng)關(guān)系發(fā)現(xiàn)技術(shù)進(jìn)行,包括作者共現(xiàn)、文獻(xiàn)共現(xiàn)、語(yǔ)義相似度技術(shù)、規(guī)則庫(kù)構(gòu)建和各類輔助規(guī)范文檔的支持?;ゲ僮麟A段是離線與在線相結(jié)合,主要基于語(yǔ)義相似度計(jì)算和規(guī)則庫(kù)進(jìn)行計(jì)算機(jī)推薦。服務(wù)模式主要有3種:通過(guò)發(fā)布工具提供檢索和瀏覽服務(wù);通過(guò)定制工具提供定制服務(wù),通過(guò)規(guī)范接口提供數(shù)據(jù)調(diào)用服務(wù)。
4.2.3 社會(huì)化協(xié)作 學(xué)術(shù)論文機(jī)構(gòu)規(guī)范文檔的構(gòu)建與維護(hù)是一個(gè)復(fù)雜、耗時(shí)的工程,需要開(kāi)放與社會(huì)協(xié)作,建立社會(huì)化協(xié)作機(jī)制和工作模式。圖4是CBM從工具、技術(shù)、標(biāo)準(zhǔn)與內(nèi)容4個(gè)層面對(duì)需要參與的社會(huì)角色及分工進(jìn)行了思考與總結(jié)。需要參與的社會(huì)角色應(yīng)該包括7個(gè)社會(huì)角色,即作者、信息服務(wù)人員、用戶、期刊編輯部、期刊采編系統(tǒng)、專家和其他機(jī)構(gòu)規(guī)范編制機(jī)構(gòu),不同角色在不同層次需要發(fā)揮的作用各有側(cè)重:CBM主要負(fù)責(zé)提供技術(shù)和協(xié)同軟件支持;作者、信息服務(wù)人員、用戶重點(diǎn)參與內(nèi)容規(guī)范與修正;期刊編輯部、期刊采編系統(tǒng)、專家和其他機(jī)構(gòu)規(guī)范編制機(jī)構(gòu)主要負(fù)責(zé)相關(guān)標(biāo)準(zhǔn)規(guī)范的制定與實(shí)施。
圖4 作者機(jī)構(gòu)規(guī)范文檔構(gòu)建與維護(hù)社會(huì)化協(xié)作模式
對(duì)主題、學(xué)科、作者、作者機(jī)構(gòu)、期刊、基金等知識(shí)要素進(jìn)行規(guī)范控制和語(yǔ)義關(guān)聯(lián),構(gòu)建學(xué)術(shù)論文規(guī)范文檔,用于學(xué)術(shù)論文的組織,是最大程度解除基于學(xué)術(shù)論文開(kāi)展知識(shí)服務(wù)制約因素的重要手段之一[1]。本文重點(diǎn)對(duì)中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)CBM作者機(jī)構(gòu)規(guī)范內(nèi)容、規(guī)范文檔組織方式、規(guī)范文檔的構(gòu)建過(guò)程與策略進(jìn)行了介紹。目前CBM已完成近190萬(wàn)原始作者機(jī)構(gòu)名稱的形式規(guī)范,形成9萬(wàn)余條優(yōu)選作者機(jī)構(gòu)規(guī)范名、近34萬(wàn)優(yōu)選作者機(jī)構(gòu)規(guī)范名對(duì)應(yīng)的其他形式,開(kāi)始進(jìn)入機(jī)構(gòu)間關(guān)系規(guī)范和構(gòu)建階段,其中高等院校均已規(guī)范至學(xué)院級(jí)和系級(jí),醫(yī)院已規(guī)范至科室級(jí)。所有規(guī)范成果已在CBM數(shù)據(jù)庫(kù)的機(jī)構(gòu)檢索、機(jī)構(gòu)鏈接、作者消歧檢索、引文分析、作者(第一作者)分析、機(jī)構(gòu)分析、基金分析和期刊分析等服務(wù)中進(jìn)行了應(yīng)用。
誠(chéng)然,目前各種關(guān)系發(fā)現(xiàn)與不同機(jī)構(gòu)規(guī)范文檔間機(jī)器互操作技術(shù)的研究還不夠成熟,有些剛處于設(shè)計(jì)和試驗(yàn)階段,其工程化應(yīng)用還需要在CBM作者機(jī)構(gòu)關(guān)系規(guī)范實(shí)踐中不斷優(yōu)化。此外,還需進(jìn)一步加強(qiáng)語(yǔ)義存儲(chǔ)與描述技術(shù)研究,提高規(guī)范文檔的語(yǔ)義化程度,積極參與到作者機(jī)構(gòu)著錄規(guī)范的制定、數(shù)字化表達(dá)等相關(guān)標(biāo)準(zhǔn)規(guī)范的制定中,更大范圍內(nèi)進(jìn)行社會(huì)化協(xié)作實(shí)踐,促進(jìn)社會(huì)化協(xié)作環(huán)境的搭建,提高作者結(jié)構(gòu)規(guī)范文檔更新的動(dòng)態(tài)性和實(shí)時(shí)性,接受更廣范圍的應(yīng)用檢驗(yàn)。
1 曾建勛,王立學(xué).面向知識(shí)評(píng)價(jià)的規(guī)范文檔建設(shè)方法[J].圖書情報(bào)工作,2012,56(10):101-106.
2 蘇新寧. 圖書館、情報(bào)與文獻(xiàn)學(xué)學(xué)術(shù)影響力研究報(bào)告(2000—2004)[J].情報(bào)學(xué)報(bào),2006,25(2):131-153.
3 董琳.學(xué)科評(píng)價(jià)之文獻(xiàn)計(jì)量數(shù)據(jù)準(zhǔn)備[J].情報(bào)理論與實(shí)踐,2010,33(6):49-52.
4 唐金玲.國(guó)際三大檢索系統(tǒng)論文作者機(jī)構(gòu)名稱問(wèn)題研究——以高校機(jī)構(gòu)名稱為例[J].情報(bào)探索,2014,(9):80-84.
5 吳英杰.孫海霞.CBM數(shù)據(jù)庫(kù)作者機(jī)構(gòu)非規(guī)范著錄數(shù)據(jù)自動(dòng)檢測(cè)研究[J].醫(yī)學(xué)信息學(xué)雜志,2011,32(5):38-40.
6 W3C.SKOS Simple Knowledge Organization System Reference: W3C Proposed Recommendation 15 June 2009 [EB/OL]. [2015-01-25]. http://www.w3.org/TR/2009/PR-skos-reference-20090615/.
7 賈君枝.簡(jiǎn)單知識(shí)組織系統(tǒng)與漢語(yǔ)主題詞表[J].中國(guó)圖書館學(xué)報(bào),2008,34(173):75-78,84.
8 李丹亞,胡鐵軍,李軍蓮,等.中文一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)的構(gòu)建與應(yīng)用[J].情報(bào)雜志,2011,30(2):1-2,9.
9 國(guó)際圖書館協(xié)會(huì)和機(jī)構(gòu)聯(lián)合會(huì)(IFLA).規(guī)范數(shù)據(jù)的功能需求[EB/OL].[2014-12-15].http://www.ifla.org/files/cataloguing/frad/frad_2009-zh.pdg.
10 崔春,畢強(qiáng).虛擬國(guó)際規(guī)范文檔( VIAF) 項(xiàng)目進(jìn)展[J].圖書情報(bào)工作,2014,58(6):129-134.
11 賈君枝,石燕青.中文名稱規(guī)范文檔與虛擬國(guó)際規(guī)范文檔的共享問(wèn)題研究[J].中國(guó)圖書館學(xué)報(bào),2014,41(214):83-92.
12 卜書慶,郝嘉樹(shù).國(guó)家圖書館中文書目規(guī)范控制現(xiàn)狀及研究[J].圖書館論壇,2010, 30(6):209-213.
13 謝琴芳.CALIS中文名稱規(guī)范數(shù)據(jù)庫(kù)建設(shè)方案及其實(shí)施進(jìn)展[J].新世紀(jì)圖書館,2005,(1):3-5.
14 郝嘉樹(shù),王廣平.中文人名規(guī)范的語(yǔ)義描述與關(guān)聯(lián)探討[J].圖書情報(bào)工作,2012,56(14) : 47-51.
15 陳金星,祝忠明.責(zé)任者名稱規(guī)范控制研究及進(jìn)展[J].現(xiàn)代圖書情報(bào)技術(shù),2009,(12):12-17.
16 高星,戴瑋,黃利輝,等.中文生物醫(yī)學(xué)文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化研究[J].醫(yī)學(xué)信息學(xué)雜志,2010,31(12):56-60.
17 楊奕紅,李亞萍,張立麗.機(jī)構(gòu)多層級(jí)詞表的編制及在文獻(xiàn)計(jì)量評(píng)價(jià)與科研績(jī)效管理中的應(yīng)用[J].數(shù)字圖書館論壇,2013,(6):57-63.
Construction of Authority Files of Affiliations of Academic Paper Authors
SUNHai-xia,
1SchoolofInformationManagement,NanjingUniversity,Nanjing210093,China, 2InstituteofMedicalInformation,ChineseAcademyofMedicalSciences,Beijing100020,China;LIJun-lian,InstituteofMedicalInformation,ChineseAcademyofMedicalSciences,Beijing100020,China
Based on Chinese Biomedical Literature Database (CMB), as required by providing relevant knowledge services of affiliations retrieving, analyzing and evaluating based on the academic papers, the paper studies and makes a practical summary on the goal and content, the system architecture and organization form, the construction process and implementation strategy of name standardization of affiliations of academic paper authors.
China Biomedical Literature Database(CBM); Affiliations name authority, Authority file structure; Social collaboration; Computer aided environment
孫海霞,助理研究員,發(fā)表論文20余篇;通訊作者:李軍蓮,副研究館員。
中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所基本科研業(yè)務(wù)專項(xiàng)“中國(guó)生物醫(yī)學(xué)文獻(xiàn)服務(wù)系統(tǒng)發(fā)展關(guān)鍵問(wèn)題研究”(項(xiàng)目編號(hào):13R0103)。
R-056
A 〔DOI〕10.3969/j.issn.1673-6036.2015.11.010
〔投稿日期〕 2015-06-30