司新霞
摘 要:先探討編目數(shù)據(jù)質(zhì)量的評價標準,再從實際工作中總結出編目數(shù)據(jù)常見的質(zhì)量問題,最后探討大數(shù)據(jù)環(huán)境下如何利用大數(shù)據(jù)技術來及時發(fā)現(xiàn)和糾正這些問題。
關鍵詞:大數(shù)據(jù)環(huán)境;中文圖書;編目數(shù)據(jù);質(zhì)量控制
中圖分類號:F27 文獻標識碼:A doi:10.19311/j.cnki.1672-3198.2019.34.025
0 引言
圖書館編目工作的主要任務是按相關標準對文獻資源進行分類,并編制目錄,建立館藏目錄體系。編目數(shù)據(jù)是圖書館的基礎性數(shù)據(jù),高質(zhì)量的編目數(shù)據(jù)可以提高讀者查找文獻的效率,提高他們的查準率和查全率,同時也為圖書館利用數(shù)據(jù)為讀者提供專題服務等奠定數(shù)據(jù)基礎。
1 編目數(shù)據(jù)質(zhì)量
1.1 編目數(shù)據(jù)
編目數(shù)據(jù)是指編目工作人員先依據(jù)《中國圖書館分類法》等,并結合對圖書內(nèi)容的分析,賦予每種圖書一個分類號,然后按照CNMARC格式,將圖書書名、分類號、作者等信息輸入相應的書目數(shù)據(jù)庫中而形成的結構化數(shù)據(jù)。編目數(shù)據(jù)主要有編目工作人員自編數(shù)據(jù)和套錄數(shù)據(jù),其中套錄數(shù)據(jù)主要來源有:國家圖書館編目數(shù)據(jù)、CALIS編目數(shù)據(jù)、圖書出版機構提供的編目數(shù)據(jù)等。
1.2 編目數(shù)據(jù)質(zhì)量
編目數(shù)據(jù)的質(zhì)量與圖書館讀者服務的質(zhì)量和水平存在著密切的關系。編目數(shù)據(jù)質(zhì)量通??梢詮臏蚀_性、規(guī)范性、一致性、有效性、相容性等幾個方面衡量,如圖1所示。
準確性:編目員在著錄數(shù)據(jù)時要準確無誤地描述出圖書的各項信息,如果錄入數(shù)據(jù)時出現(xiàn)錯誤,尤其是關鍵信息出現(xiàn)錯誤,這樣的編目數(shù)據(jù)遲早會影響讀者對圖書的檢索操作和利用,也會影響圖書館相關的業(yè)務工作。
規(guī)范性:編目數(shù)據(jù)的規(guī)范性是指編目數(shù)據(jù)的錄入必須符合CNMARC的相關要求,相關的內(nèi)容要錄入到對應的字段中。
一致性:數(shù)據(jù)一致性是指在CNMARC格式下同一種中文圖書的編目數(shù)據(jù)必須是一致的,避免不必要的數(shù)據(jù)重復。
有效性:這里指編目數(shù)據(jù)的正確性和合理性。
相容性:整個圖書館編目系統(tǒng)中的數(shù)據(jù)應彼此協(xié)調(diào),且與其他的數(shù)據(jù)集沒有任何沖突。
2 編目數(shù)據(jù)常見的質(zhì)量問題
2.1 著錄標準不夠統(tǒng)一
在編目工作的實踐中,因各館所用軟件系統(tǒng)不同,對編目要求不同,以及每位編目員對編目規(guī)則理解程度的深淺,業(yè)務水平的高低,對工作質(zhì)量的追求不同等因素,導致普遍存在著錄標準不統(tǒng)一的現(xiàn)象,主要表現(xiàn)有:第一,對多卷書的處理不同。多卷書有的是采用集中著錄,用叢書題名作為正題名,在327字段,對每個分冊作了分卷附注,整套書作了一條記錄,有的是采用分散著錄,對分卷逐冊著錄,作了多條記錄,而在進行分散著錄時對題名的處理也有不同,有的是把分冊名作為了正題名,而把叢書的正題名放到了225叢書項字段,作了叢編題名,有的是把叢書題名作為正題名,把分卷的題名作為分冊名,二者都做在了200字段;第二,著錄的詳簡程度不一。例如,第一責任者達三個或三個以上時,有的在200字段$f子字段將所有責任者全部著錄,在7--字段中也會著錄出所有的責任者,有的則在200字段只著錄第一個責任者,其余的用“等”表示,然后在 304字段題名與責任說明附注中予以說明,在7--字段中只做第一個責任者。對其他責任者的著錄,也存在類似情況;第三,對副題名、并列題名、封面題名,書脊題名等是否作檢索點不統(tǒng)一。有的根據(jù)情況,在相應的 5--字段作了著錄,給了檢索點,有的則沒著錄;第四,屬于交叉學科的圖書,可以給出兩到三個分類號,有的在690字段中只給出一個或者兩個分類號,而且將哪一個作為首選,也會因編目員對文獻內(nèi)容的理解不同而產(chǎn)生取號不一致的情況;第五,因為學科發(fā)展,學科間的整合與分類發(fā)生變化,導致同一種書以前取的分類號和現(xiàn)在給出的分類號不一樣,有的編目員選擇與館藏的大多數(shù)或者與原來的數(shù)據(jù)保持一致,有的編目員會按照新的分類標準取號。
2.2 著錄內(nèi)容不規(guī)范
隨著網(wǎng)絡技術在圖書館的運用與發(fā)展,圖書館在不同時期對文獻的著錄標準要求也逐步提高,不同時期館藏數(shù)據(jù)著錄的級次存在著明顯的差異?;厮萁◣鞎r的編目數(shù)據(jù)(如表1所示),會發(fā)現(xiàn)二十世紀九十年代初期一般使用簡易編目,著錄級次要求不高,除了必備的字段,225,330,410,702 等字段都少有著錄,在605,606字段,對作為主要檢索點的主題詞和關鍵詞的標引,有的進行較深的標引,有的完全沒有進行標引,編目數(shù)據(jù)給人粗淺的整體印象。隨著文獻編目規(guī)則的完善以及各館對編目工作的重視及對編目質(zhì)量要求的提高,各館現(xiàn)時期的編目工作,一般著錄的級次較高,著錄詳盡細致,對文獻信息作了很好地揭示,方便了讀者對文獻的檢索和利用。
2.3 著錄信息不準確
編目員完成手頭的編目任務后,通常會通過互相審核數(shù)據(jù)以確保編目的質(zhì)量,在審核中往往會發(fā)現(xiàn)一些具有共性的問題,例如同書異號,錄入時存在錯字漏字加字,分類和主題標引不對應,字段和子字段使用錯誤,以及數(shù)據(jù)不完善,需要補充字段說明等問題。這些問題有的是由于使用的系統(tǒng)軟件的局限性造成,有的則有賴于編目員業(yè)務水平的提高以及工作專注度的加強。
3 大數(shù)據(jù)環(huán)境下中文編目數(shù)據(jù)質(zhì)量控制的探討
3.1 大數(shù)據(jù)技術
Gartner認為 “大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)具有4V特征,即數(shù)據(jù)規(guī)模大、數(shù)據(jù)流轉快、數(shù)據(jù)類型多和價值密度低。在《大數(shù)據(jù)時代》一書中,維克托認為,大數(shù)據(jù)的核心就是預測,這個核心代表著分析信息時的三個轉變,即全部而非抽樣,混雜而非精確,相關而非因果。隨著機器學習、數(shù)據(jù)挖掘、可視化分析等大數(shù)據(jù)技術的成熟,其逐步應用于其他行業(yè),并推動其他行業(yè)的進步。
3.2 改善已有編目數(shù)據(jù)的質(zhì)量問題
已有編目數(shù)據(jù)質(zhì)量存在著不規(guī)范、不準確、重復記錄等問題,人工發(fā)現(xiàn)并更正這些問題工作量很大,可以利用大數(shù)據(jù)技術來改善這種情況。在現(xiàn)有編目數(shù)據(jù)中,利用大數(shù)據(jù)技術,按書名或分類號聚類,并利用推送技術將同書異號、異書同號的數(shù)據(jù)推送給相關的圖書編目人員,同時在編目大數(shù)據(jù)中選擇一個國家圖書館、中國科學院文獻信息中心等權威機構給出的編目數(shù)據(jù),或大多數(shù)其它編目人員給出的編目數(shù)據(jù)推薦給圖書編目人員供其參考。
3.3 控制未編目數(shù)據(jù)的質(zhì)量
(1)可在《中國圖書館分類法》上查分類號的未編目數(shù)據(jù)的質(zhì)量控制。
在《中國圖書館分類法》上能查分類號的圖書,可以利用大數(shù)據(jù)技術發(fā)現(xiàn)圖書編目的權威機構賦予這類圖書的分類號,并以“信息提示”的方式推送給編目人員,這樣可以節(jié)省編目人員查找分類號的時間,提高工作效率,比如當編目工作人員在書名框中輸入《圖書館閱讀推廣研究》時,則計算機會利用大數(shù)據(jù)技術在分類號框中出現(xiàn)“G252”的信息提示,當在著者框輸入王余光時,則計算機會利用大數(shù)據(jù)技術在著者碼框中出現(xiàn)“W441”的信息提示。
(2)不能在《中國圖書館分類法》上查分類號的未編目數(shù)據(jù)的質(zhì)量控制。
科學技術的發(fā)展促進了一些交叉學科,新興學科的產(chǎn)生,而《中國圖書館分類法》一般10年左右改版1次,這樣可能導致在《中國圖書館分類法》中找不到與這些新學科有關的圖書資料的分類號。在這種情況下,可以利用機器學習等大數(shù)據(jù)技術,讓計算機通過已有分類數(shù)據(jù)的學習,掌握圖書分類的規(guī)律,從而給不能在《中國圖書館分類法》上查到分類號的圖書資料賦予對應的分類號,這樣可以避免因不同編目人員對這些圖書資料的理解不同出現(xiàn)多種不同分類號的情況。
參考文獻
[1]孫紅艷.圖書編目數(shù)據(jù)的來源及應用[J].長春大學學報,2006,(11):141-143.
[2]趙英智.中文圖書編目數(shù)據(jù)質(zhì)量分析與控制淺議[J].科技情報開發(fā)與經(jīng)濟,2006,(17):70-71.
[3]羅金姍.圖書館中文圖書編目數(shù)據(jù)質(zhì)量優(yōu)化之我見[J].辦公室業(yè)務,2011,(12):37+43.