王思敏 宋愛香
摘 要:文獻(xiàn)編目是圖書館服務(wù)的基礎(chǔ),直接影響圖書館各項(xiàng)服務(wù)工作的開展。尤其在信息共享迅猛發(fā)展的時(shí)代,編目工作的好壞直接影響到信息共享的質(zhì)量。本文對(duì)紡織高校圖書共建過程中遇到的編目數(shù)據(jù)缺失、著錄錯(cuò)誤等問題進(jìn)行匯總,并提出了通過人工清洗加計(jì)算機(jī)自動(dòng)匹配的數(shù)據(jù)整理方案,實(shí)現(xiàn)了編目數(shù)據(jù)的歸一和整理。
關(guān)鍵詞:紡織高校;資源共建;共享目錄;數(shù)據(jù)整理
中圖分類號(hào):G250
隨著信息技術(shù)的不斷發(fā)展,資源共享、互通已經(jīng)成為必然的趨勢(shì)。有效的實(shí)現(xiàn)資源的共知、共建、共享不僅可以提高圖書館資源的利用率和也可以提高讀者的滿意度。[1]近年來,“中國高等教育文獻(xiàn)保障系統(tǒng)”、“中國高校人文社會(huì)科學(xué)文獻(xiàn)中心”等資源共享平臺(tái)不斷建立,但是紡織學(xué)科的資源共享一直沒有得到應(yīng)有的規(guī)模。[2]為實(shí)現(xiàn)紡織類圖書的共知、共建和共享,筆者對(duì)全國9所紡織高校館藏進(jìn)行分析,但是各個(gè)高校編目數(shù)據(jù)的不規(guī)范,為數(shù)據(jù)的共建共享帶來了很大的困難。[3]
1 編目數(shù)據(jù)的收集和整合
1.1 編目數(shù)據(jù)來源
研究工作數(shù)據(jù)來源于武漢紡織大學(xué),東華大學(xué),江南大學(xué),北京服裝學(xué)院,蘇州大學(xué),天津工業(yè)大學(xué),鹽城工學(xué)院,浙江理工大學(xué),西安工程大學(xué)提供的TS1和TS9大類OPAC數(shù)據(jù),共計(jì)113509條。其中TS1大類35573條,TS9大類77936條。
1.2 編目數(shù)據(jù)問題分析
由于各個(gè)高校編目的詳簡(jiǎn)級(jí)次及編目規(guī)定不同,質(zhì)量差別較大,書目數(shù)據(jù)編目較為混亂,隨意性大。對(duì)計(jì)算機(jī)輔助程序的自動(dòng)識(shí)別和匹配造成了很大的困難。主要的問題有:
(1)目錄中存在冗余數(shù)據(jù)、測(cè)試數(shù)據(jù)以及信息極度不全的記錄。
(2)字段缺失嚴(yán)重:很多關(guān)鍵字段如ISBN號(hào)、題目、作者、出版社缺失,造成很多書目無法準(zhǔn)確辨識(shí)。
(3)詳簡(jiǎn)級(jí)次不一致:① ISBN號(hào)的著錄,部分帶有連字符“-”,部分沒有,ISBN號(hào)位數(shù)不同,簡(jiǎn)寫程度不同;②對(duì)機(jī)構(gòu)名稱著錄時(shí)全稱簡(jiǎn)稱并存,且簡(jiǎn)稱程度不同。
(4)著錄風(fēng)格不同:①同一責(zé)任者著錄形式不同;②多個(gè)責(zé)任者的著錄數(shù)量有差別;③對(duì)個(gè)人著者名稱的附加和復(fù)分成分沒有優(yōu)先順序。
(5)著錄存在錯(cuò)誤:①字段混淆,作者和出版社字段顛倒;②中外文著錄存在拼寫錯(cuò)誤或者落寫等問題。
(6)著錄不夠細(xì)致:題目錄入過于簡(jiǎn)單,不標(biāo)注上下冊(cè)或分冊(cè),如果同時(shí)缺少其他可識(shí)別字段,將難以被判副本和分冊(cè)。
1.3 編目數(shù)據(jù)處理流程及方法
項(xiàng)目組采用了人工與計(jì)算機(jī)相結(jié)合的方法實(shí)現(xiàn)編目數(shù)據(jù)的清洗和歸一。先通過科學(xué)的方法,在最小化人工工作量的情況下,對(duì)編目數(shù)據(jù)進(jìn)行歸一化,再利用計(jì)算機(jī)進(jìn)行自動(dòng)匹配。
數(shù)據(jù)處理的總體流程如右圖所示。
(1)EXCEL數(shù)據(jù)清洗:去除各個(gè)高校自身的空記錄和測(cè)試記錄;
(2)建立庫表:提取各個(gè)高校數(shù)據(jù)共有字段,分別在SQL SERVER中建立數(shù)據(jù)庫表;
(3)計(jì)算機(jī)第一次匹配:建立初步的總庫表。將數(shù)據(jù)量最大的高校記錄(武紡)導(dǎo)入到總表中,其他高校的數(shù)據(jù),逐條跟總表數(shù)據(jù)進(jìn)行比對(duì),總表中沒有的數(shù)據(jù)進(jìn)行增減,已有數(shù)據(jù)進(jìn)行標(biāo)注;
(4)人工清洗:將匯總后的數(shù)據(jù)導(dǎo)出為EXCEL,將相似記錄排列在一起,通過人工進(jìn)行識(shí)別,按照手工清洗的原則,將相似記錄的題目、作者、出版社黏貼一致;
(5)計(jì)算機(jī)二次匹配:將人工清洗過得數(shù)據(jù),導(dǎo)入到數(shù)據(jù)庫中,建立新的匯總表。,通過計(jì)算機(jī)進(jìn)行二次匹配,去重,標(biāo)注每條記錄所屬高校,以及副本數(shù)量;
(6)計(jì)算機(jī)統(tǒng)計(jì):通過算法,標(biāo)注館藏總量以及每本書所在的圖書館;
(7)結(jié)束。
2 數(shù)據(jù)處理結(jié)果
按照以上方式對(duì)9所紡織高校自身的書目數(shù)據(jù)進(jìn)行清洗,計(jì)算出副本數(shù)目,并對(duì)各個(gè)高校數(shù)目數(shù)據(jù)進(jìn)行歸一和匹配。如下表是數(shù)據(jù)清洗及匹配后的結(jié)果。
3 總結(jié)與展望
紡織類高校圖書的異質(zhì)性很高,對(duì)紡織類圖書進(jìn)行共建共享,不僅有利于資源的合理流動(dòng)也有利于推動(dòng)紡織行業(yè)的發(fā)展。加強(qiáng)編目工作的規(guī)范化,選擇適宜的著錄標(biāo)準(zhǔn)、著錄詳簡(jiǎn)級(jí)次,確保目錄質(zhì)量,有利于實(shí)現(xiàn)數(shù)據(jù)發(fā)現(xiàn)、加強(qiáng)資源流通,促進(jìn)資源共建和共享。
參考文獻(xiàn):
[1]王廣三.圖書館聯(lián)盟知識(shí)共享影響因素及策略研究[J].圖書館工作與研究,2017(10):37-41.
[2]尹方屏,谷秀潔.構(gòu)建跨區(qū)域“大紡織”學(xué)科聯(lián)盟共享域的可行性研究——CALIS示范館建設(shè)啟示[J].圖書館學(xué)研究,2012(10):91-94.
[3]馮雷.信息時(shí)代高校圖書館編目工作研究[J].太原師范學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2018,17(01):93-96.