劉如
(浙江圖書館浙江杭州310007)
館藏中文圖書書目數(shù)據(jù)字段糾錯
劉如
(浙江圖書館浙江杭州310007)
文章以浙江圖書館中文圖書書目數(shù)據(jù)為例,分析了在CNMARC字段中出現(xiàn)的各種常見的著錄錯誤及相應(yīng)的糾錯處理。
書目數(shù)據(jù);CNMARC字段;著錄
2005—2006年,浙江圖書館組織人員對館藏文獻書目數(shù)據(jù)突擊建庫,在ILASII系統(tǒng)中進行數(shù)據(jù)錄入(其中完成中文圖書書目數(shù)據(jù)約50萬條),然后將這些數(shù)據(jù)導入INNOPAC系統(tǒng),2012年底因更換系統(tǒng)又將這些數(shù)據(jù)導入Interlib系統(tǒng)。由于參加突擊建庫的數(shù)據(jù)錄入人員為非專業(yè)編目人員,不能熟練掌握CNMARC格式,加上當時情況特殊,條件有限,還有采訪人員的訂購數(shù)據(jù)的簡單錄入,所有數(shù)據(jù)經(jīng)歷不同系統(tǒng)間的導出導入,造成數(shù)據(jù)質(zhì)量參差不齊,產(chǎn)生了缺少必備字段、字段號有誤、字段(子字段)標識符有誤、題名有誤、分類號有誤、字段內(nèi)容亂碼等諸多“硬傷”。
2014年10月至2015年2月,筆者通過Interlib系統(tǒng)IE端“無題名”“無分類號”的檢索途徑,對Interlib系統(tǒng)OPAC界面“分類號”下“分面檢索”欄下“語言種類”中的語種錯誤及“任意詞”下“L±”的檢索,共查詢到2萬多條中文書目數(shù)據(jù),并對這些數(shù)據(jù)進行逐條審核。其中,合并及刪除近5 800條、訂正及糾錯7 200多條。現(xiàn)將在CNMARC字段中出現(xiàn)的各種常見著錄錯誤及相應(yīng)的糾錯處理進行舉例分析。
記錄頭標位于每條記錄的開頭,是必備且不可重復的。頭標的總長度固定為24個字符,其中的第5~8位在圖書著錄時一般應(yīng)為“nam0”或“oam2”,但因數(shù)據(jù)的幾番倒騰,所見的每條數(shù)據(jù)的頭標都是有錯的,諸如“oam0”、“cam#”(#表示空格,下同)、“nam#”等,或是一串數(shù)字如“0146966688#200289###450”,凡此種種,均須根據(jù)書目內(nèi)容進行糾正。
010字段為國際標準書號(ISBN),著錄格式為:010##$aISBN號$b限定$d獲得方式或定價。常見的著錄錯誤有:
例1:200 1# $a中國建筑年鑒$h1988-1989
原錄:010 ## $a 7-112-01069-1(精)$d40.00元
應(yīng)為:010 ## $a 7-112-01069-1$b精裝$dCNY 40.00
例2:200 1# $a中國古典吉它專業(yè)等級認證標
準$h下冊$i6-8級
原錄:010 ## $a 7-80028-663-0$dCNY40.00
(套CNY80.00)
應(yīng)為:010 ## $a 7-80028-663-0$dCNY80.00
(全2冊)
例3:200 1# $a當代西方經(jīng)濟學說
原錄:010 ## $a 7-307-00781-9$dCNY25.60
(全二冊)
注:因此書在215字段已著錄為$a2冊(512,378
頁),原010字段末尾的(全二冊)應(yīng)刪除。
應(yīng)為:010 ## $a 7-307-00781-9$dCNY25.60
例4:200 1# $a凱恩斯傳
原錄:010 ## $a7-108-02415-2$dCNY79.00
注:此書為軟精裝,但在原010字段漏錄了裝幀。
應(yīng)為:010 ## $a7-108-02415-2$b軟精裝$dCNY79.00
編碼信息塊中的100、101、102、105、106為必備字段,但在原建數(shù)據(jù)中經(jīng)常發(fā)現(xiàn)缺少102與105字段,甚至缺少100字段的,遇到這類情況,需根據(jù)書目內(nèi)容補錄相應(yīng)的字段。
3.1 100字段
本字段為通用處理數(shù)據(jù),共36個字符,其中的第9~16位為出版日期1與2(即印刷年與出版年)必須與210字段的印刷年與出版年一致(無印刷年則空格),常用的著錄格式示例:100 ## $a20050417d1987####em#y0chiy0110####ea。原建數(shù)據(jù)的100字段的字符集(第26~29位字符)大都為0121,最末的題名文字代碼則為eb,還有遺漏出版年、印刷年等。
例1:200 1# $a山西電影電視劇本選$e1979-1989原錄:100 ## $a 20050513d1991####m##y0chiy
0121####eb
應(yīng)為:100 ## $a 20050513d1991####em#y0chiy
0110####ea
例2:200 1# $a中國星級飯店指南
原錄:100 ## $a 20050318d########em#y0chiy
0121####eb
應(yīng)為:100 ## $a 20050318d2003####em#y0chiy
0110####ea
例3:200 1# $a梁啟超與中國思想的過渡$e1890-1907(1995年出版,2005年重?。?/p>
原錄:100 ## $a 20041215d2005####em#y0chiy
0121####eb
210 ## $a南京$c江蘇人民出版社$d2005
應(yīng)為:100 ## $a 20041215e20051995em#y0chiy
0110####ea
210 ## $a南京$c江蘇人民出版社$d1995 $h2005重印
3.2 101字段
本字段為文獻語種,著錄格式為:101 0/1/2# $a正文語種$b中間語種$c原著語種$d文摘語種$e目錄語種(后略,各子字段均可重復),其中第一指示符為0時文獻為原著、為1時文獻為譯著、為2時文獻含譯文。原建數(shù)據(jù)中的著錄錯誤通常出現(xiàn)在文獻為譯著時:
例1:200 1# $a卡夫卡全集原錄:101 1# $achi$ceng應(yīng)為:101 1# $achi$cger
例2:200 1# $a雅魯澤爾斯基選集$e1981-1987原錄:101 1# $achi$cpul應(yīng)為:101 1# $achi$cpol
3.3 102字段
本字段為出版國別,我國出版的中文圖書的著錄格式為:102 ## $aCN$b我國出版物的行政區(qū)劃代碼(各子字段均可重復)。原建數(shù)據(jù)中經(jīng)常缺失102字段,或是在102字段中只有$aCN而沒有$b地區(qū)代碼,都要補錄。
3.4 105字段
本字段為專著的編碼數(shù)據(jù),用13個字符的代碼信息表示專著性印刷文字資料在內(nèi)容與形式上的一些特征,其中的圖表代碼(第0~3位字符)應(yīng)與215字段中的$c子字段內(nèi)容相對應(yīng)(參見本文4.4 215字段),內(nèi)容特征代碼(第4~7位字符)、索引指示符(第10位字符)、文學體裁代碼(第11位字符)、傳記代碼(第12位字符)等均應(yīng)與相關(guān)字段內(nèi)容相對應(yīng)。原建數(shù)據(jù)中經(jīng)常缺失105字段,或是105字段該反映的內(nèi)容沒有錄入,遇到此類情況,需根據(jù)書目內(nèi)容進行
相應(yīng)補錄。
3.5 106字段
本字段為文字資料的編碼數(shù)據(jù),用1個字符代碼表示所著錄圖書的物理介質(zhì)及形態(tài),通常情況下用代碼“r”表示普通印刷品。原建數(shù)據(jù)中經(jīng)常缺失106字段,或是在106字段中只有$r而遺漏了子字段標識符“a”,都要補錄。
4.1 200字段
本字段為題名與責任說明,常用的著錄格式為:200 1#$a正題名($b專著)$d并列題名$e其他題名$h分卷冊號$i分卷冊名$f第一責任說明$g其他責任說明$z并列題名語種(各子字段均可重復)。原建數(shù)據(jù)中200字段出現(xiàn)的問題最多,因數(shù)據(jù)的多次換系統(tǒng),造成的亂碼現(xiàn)象比比皆是,僅是通過題名檢索亂碼符號“L±”就得到近萬條數(shù)據(jù),其中較多出現(xiàn)在數(shù)字之間,如“1927L±1949”、“0L±3歲”、“第1L± 12卷”等,在對其訂正的同時也對其他著錄錯誤進行了糾錯。較典型的著錄錯誤有:
例1:題名錯字
原錄:200 1# $a英漢科學技術(shù)大詞典$hA-F
應(yīng)為:200 1# $a英漢科學技術(shù)大辭典$h第一冊
$iA-F
例2:題名漏字及子字段標識有誤
原錄:200 1# $a世界漢語教學書概覽$i第一分
冊$e1899L±1990.3
應(yīng)為:200 1# $a世界漢語教學書目概覽$h第一
分冊$e1899-1990.3
例3:題名卷冊標識有誤
原錄:200 1# $a湖北日報大事記$e1949.7L±
1984.6
應(yīng)為:200 1# $a湖北日報大事記$e一九四九年
七月~一九八四年六月
例4:題名次序及子字段、卷冊標識有誤
原錄:200 1# $a魯迅研究學術(shù)論著資料匯編
$e1913L±1983$h第四卷$e1945L±1949
注:《1913-1983魯迅研究學術(shù)論著資料匯編》
按年代分輯為1-5卷
應(yīng)為:200 1# $a 1913-1983魯迅研究學術(shù)論著
資料匯編$h4$e1945-1949
例5:正題名選擇有誤
原錄:200 1# $a流浪的王妃$e吉林文史資料$h
第八輯
注:《吉林文史資料》館藏有多輯,大多以此為正題名,原錄將“吉林文史資料”在517字段作檢索題名,現(xiàn)將“流浪的王妃”在517字段作檢索題名。
應(yīng)為:200 1# $a吉林文史資料$h第八輯$i流浪的王妃
例6:同一種書不同著錄
原錄1:200 1# $a浙江百年大事記$e1840-1945 225 2# $a浙江文史資料選輯$h第三十一輯
原錄2:200 1# $a浙江文史資料選輯$h第三十一輯$e浙江百年大事記(1840-1945)
注:這兩條書目記錄實為同一種書。
應(yīng)為:200 1# $a浙江文史資料選輯$h第三十一輯$i浙江百年大事記(1840-1945)
4.2 205字段
本字段為版本說明,常用的著錄格式為:205 ## $a版本說明$b附加版本說明(后略,除$a外,各子字段均可重復)。在原建數(shù)據(jù)中出現(xiàn)本應(yīng)著錄在205字段的誤錄在200字段、或是未分著錄次序的錯誤。
例1:200 1# $a實用英語語法$e全新版
原錄:將“修訂本”以$e的子字段形式著錄在200$e全新版之后
應(yīng)為:205 1# $a修訂本
例2:200 1# $a第二次世界大戰(zhàn)后國際關(guān)系大事記$e1945-1986
原錄:205 1# $a2版(增訂本)
應(yīng)為:205 1# $a2版$b增訂本
4.3 210字段
本字段為出版發(fā)行項等,常用的著錄格式為:210 ## $a出版地$c出版者$d出版年$h印刷年(各子字段均可重復),其中的出版年、印刷年須與100字段一致(參見本文3.1 100字段)。原建數(shù)據(jù)中經(jīng)常缺失$a與$c子字段,須通過查詢進行補錄。
例1:200 1# $a現(xiàn)代中國思想家$e中國前途的
探險者
原錄:210 ## $a臺灣$c巨人出版社$d1978[民
國67]
應(yīng)為:210 ## $a臺北$c巨人出版社$d民國67
[1978]
例2:200 1# $a雷燁紀念集$e1914-1943$e一位杰出戰(zhàn)地記者的傳奇一生
原錄:210 ## $d 2005.9
應(yīng)為:210 ## $a[杭州]$c浙江省新四軍研究會
$d2005
4.4 215字段
本字段為載體形態(tài)項,著錄格式為:215 ## $a文獻數(shù)量及類型標識$c其他形態(tài)細節(jié)$d尺寸$e附件(除$c外,各子字段均可重復),其中的$c子字段內(nèi)容須與105字段的圖表代碼(第0~3位字符)一致,尺寸均以“cm”表示而不能用“大32開”“16開”之類。
例1:200 1# $a中國汽車五十年$e1953-2003
原錄:105 ## $az###z###000yy
215 ## $a225頁$d16開
應(yīng)為:105 ## $aa###z###000yy
215 ## $a225頁$c圖$d28×28cm
例2:200 1# $a武漢會戰(zhàn)親歷記
原錄:105 ## $aa##zn###000yy
215 ## $a489頁$c照片$d24cm
應(yīng)為:105 ## $aab##z###000yd
215 ## $a489頁$c照片(12頁),地圖$d24cm
例3:200 1# $a中國人物年鑒$h2001
原錄:105 ## $aa###z###000yy
215 ## $a458頁$d26cm
應(yīng)為:105 ## $aa###igz#00lyc
215 ## $a20,458頁$c照片$d26cm
4.5 225字段
本字段為叢編,常用的著錄格式為:225 2/1/0# $a叢編題名$e其他題名$h分叢編號$i分叢編名$v卷標識(各子字段均可重復),其中第一指示符通常為2,表示叢編題名與檢索點形式相同(即與461/462字段相同),為1時表示叢編題名不作檢索點,為0時表示叢編題名與檢索點形式不同。在原建數(shù)據(jù)中常出現(xiàn)叢編題名與正題名著錄混淆,把本應(yīng)作為正題名的卻作為叢編題名著錄了,反之亦然;或是把不是叢編題名的誤錄為叢編題名。
例1:叢編題名誤錄為正題名
原錄:200 1# $a伊林著作選$h第六冊$i自動工廠
應(yīng)為:200 1# $a自動工廠
225 2# $a伊林著作選$v6
例2:正題名誤錄為叢編題名
原錄:200 1# $a社會掠影
225 2# $a戰(zhàn)后香港軌跡
應(yīng)為:200 1# $a戰(zhàn)后香港軌跡$i社會掠影
例3:叢編題名選擇有誤
原錄:200 1# $a進級日語閱讀$e4-3級
225 2# $a 21世紀大學日語系列教材
應(yīng)為:200 1# $a進級日語閱讀$i4-3級
300 ## $a 21世紀大學日語系列教材
例4:叢編題名缺錄
原錄:200 1# $a北京地產(chǎn)十五年$e1990-2005
缺錄:225 2# $a新京報叢書$v011
本字段為并列題名(即包含不同語言或文字的正題名),常用的著錄格式為:510 1# $a并列題名$e其他題名$h分卷冊號$i分卷冊名$z并列題名語種(除$a與$z外,各子字段均可重復),其中的$z并列題名語種應(yīng)與101字段中的$c原著語種相對應(yīng)。在原建數(shù)據(jù)中出現(xiàn)較多的著錄錯誤是沒有省略首冠詞、非規(guī)定信息源的并列題名沒有在312字段作說明。
例1:200 1# $a1973-2005美國駐華大使傳奇
$dThe legendary career of American ambassadors to people's China$f王立著$zeng
原錄:510 1# $aThe legendary career of American ambassadors to people's China$zeng
應(yīng)錄:510 1# $a Legendary career of American ambassadors to people's China $zeng
例2:200 1# $a苔絲$f(英)哈代(Hardy,T.)著$g吳笛譯
原錄:510 1# $aTess of the d'Urbervilles$zeng
增錄:312 ## $a版權(quán)頁英文題名: Tess of the
d'Urbervilles
6.1 601字段
本字段為團體名稱主題,常用的著錄格式為:601 02 $a團體名稱$x論題復分$y地理復分$z年代復分$j形式復分(除$a外,各子字段均可重復)。在原建數(shù)據(jù)中常出現(xiàn)本應(yīng)著錄在601字段的誤錄到606字段,或是團體名稱著錄不規(guī)范。
例1:200 1# $a歐洲聯(lián)盟集體身份的建構(gòu)
$e1951-1995
原錄:606 0# $a歐洲聯(lián)盟$x研究
應(yīng)為: 601 02 $a歐洲國家聯(lián)盟$x研究
例2:200 1# $a中國共產(chǎn)黨歷屆中央委員大辭
典$e1921-2003
原錄:606 02 $a中共中央$x委員$x辭典
應(yīng)為:601 02 $a中共中央$x中央委員會$x人名
錄$z1921-2003
6.2 606字段
本字段為論題名稱主題,常用的著錄格式為:606 0#$a款目要素$x論題復分$y地理復分$z年代復分$j形式復分(除$a外,各子字段均可重復)。原建數(shù)據(jù)中606字段出現(xiàn)的問題最多,諸如指示符錯錄為“1#”或“#0”或干脆為“##”的、主題詞沒有首選專指詞、主題詞的組配僅為簡單的字面拼合、主題詞組配的結(jié)果沒有達到唯一性等。
例1:200 1# $a圍棋段位測試$i中級測試(業(yè)余1-4段)
原錄:606 1# $a圍棋$x習題
應(yīng)為:606 0# $a段(圍棋) $x棋題解答
例2:200 1# $a中國現(xiàn)代廣播簡史$e1923-1949
原錄:606 #0 $a廣播工作$x歷史$y中國
應(yīng)為:606 0# $a廣播工作$x新聞事業(yè)史$y中國$z1923-1949
例3:200 1# $a想象香港的方法$e香港小說(1945-2000)論集
原錄:606 ## $a小說$x文學研究$y香港特別行政區(qū)$z1945-2000
應(yīng)為:606 0# $a小說研究$y香港$z1945-2000
例4:200 1# $a中國法學教育的發(fā)展與轉(zhuǎn)型
$e1978-1998
原錄:606 #0 $a法學$x高等教育$x教育改革
$x研究$y中國
應(yīng)為:606 0# $a法學教育$x教育改革$x研究$y
中國$z1978-1998
例5:200 1# $a權(quán)力、組織與勞動$e國企江廠
$e1949-2004
原錄:606 1# $a交通運輸工具$x機械制造$x國
有企業(yè)$x發(fā)展史$y武漢市
應(yīng)為:606 0# $a機車$x車輛工廠$x工廠史$y
武漢$z1949-2004
例6:200 1# $a數(shù)學建模競賽$e浙江大學學生
獲獎?wù)撐狞c評$e1999-2004
原錄:606 ## $a數(shù)學模型$j文集
應(yīng)為:606 0# $a數(shù)學模型$x競賽$x高等學校$y
中國$z1999-2004$j文集
6.3 607字段
本字段為地理名稱主題,常用的著錄格式為:607 ## $a款目要素$x論題復分$y地理復分$z年代復分$j形式復分(除$a外,各子字段均可重復)。原建數(shù)據(jù)中有的未使用規(guī)范的地理名稱。
例:200 1# $a文史資料存稿選編$h8$i日偽政權(quán)原錄:607 ## $a滿洲國$x史料
應(yīng)為:607 ## $a偽滿洲國(1932)$j史料
此外,自2010年12月起在地理名稱主題中省略“省、市、自治區(qū)、特別行政區(qū)”等字詞(個別易造成歧義的則不省略,如“黑龍江省”、“黃山市”等),在原建數(shù)據(jù)中遇有此類字詞酌情刪除,規(guī)范為“浙江”“杭州”“新疆”“西藏”“香港”“澳門”,等等。
本塊包含對所著錄文獻內(nèi)容負有責任的個人責任者名稱(701/702字段)、團體機構(gòu)名稱和正式會議名稱(711/712字段)。通常情況下,701字段、711字段與200 $f子字段相對應(yīng),702字段、712字段與200$g子字段相對應(yīng)。
7.1 701/702字段
本字段為個人名稱(主要責任者)/(次要責任者),常用的著錄格式有兩種:701/702 #0 $c(朝代/民族)$a個人名稱$c(名稱附加和/或限定$f生卒年) $4責任方式;701/702 #0 $c(國別)$a外國人姓氏$c(外國人名稱其余部分$f生卒年)$4責任方式(除$c與$4外,各子字段不可重復)。原建數(shù)據(jù)中存在責任者姓名誤錄、缺錄等情況,或是文獻為譯著時出錯。
例1:200 1# $a英俄漢計算機與數(shù)據(jù)處理辭典
原錄:701 #0 $a吳史忠$4編譯
應(yīng)為:701 #0 $a吳克忠$4編譯
例2:200 1# $a鈴木小提琴教材$h第1-8冊
原錄:701 #0 $a鈴木$4作
701 #0 $a司華誠$4譯
應(yīng)為:701 #0 $c(日)$a鈴木鎮(zhèn)一$4編著
702 #0 $a 司徒華誠$4譯
例3:200 1# $a勒·柯布西耶全集$h第6卷
$e1952-1957年
原錄:701 #1 $a博奧席耶$4編著
701 #1 $a Boesiger$bW.$4編著
應(yīng)為:701 #0 $c(法)$a勒·柯布西耶$c(Le Cor
busier$f1887-1965)$4編著
701 #0 $c(瑞士)$a博奧席耶$c(Boesiger, W.)$4編著
7.2 711/712字段
本字段為團體名稱(主要責任者)/(次要責任者),常用的著錄格式有兩種:711/712 02 $a團體名稱款目要素$b團體名稱次級部分$4責任方式;711/712 12 $a會議名稱$d(屆次:$f會議時間:$e會議地址()除$b、$c與$4外,各子字段不可重復)。在原建數(shù)據(jù)中出現(xiàn)指示符多為“0#”或“#0”、團體名稱或會議名稱著錄不規(guī)范等錯誤。
例1:200 1# $a全國林業(yè)統(tǒng)計資料匯編
$e1949-1987
原錄:711 0# $a中華人民共和國林業(yè)部$4編
應(yīng)為:711 02 $a林業(yè)部$4編
例2:200 1# $a中國動植物物候觀測年報$h第
10號$e1985-1986年
原錄:711 #0 $a中國科學院國家計劃委員會地理研究所$4編
應(yīng)為:711 02 $a中國科學院$b地理研究所$4編
711 02 $a國家計委$b地理研究所$4編例3:200 1# $a第八屆全國結(jié)構(gòu)工程學術(shù)會議
論文集
原錄:200 1# $a第八屆全國結(jié)構(gòu)工程學術(shù)會議
論文集$h第φ卷$e(中國昆明10.22 L± 10.25,1999)$f中國國學學會[等]主辦711 02 $a中國國學學會$4主辦
應(yīng)為:200 1# $a第八屆全國結(jié)構(gòu)工程學術(shù)會議
論文集$h第Ⅰ卷
300 ## $a中國昆明10.22-10.25,1999
711 02 $a中國力學學會$b結(jié)構(gòu)工程專業(yè)委員會$4主辦
712 12 $a全國結(jié)構(gòu)工程學術(shù)會議$d(8 : $f1999.10 :$e昆明)
綜上所述,館藏文獻書目數(shù)據(jù)突擊建庫是一項繁雜而細致的工作,在建庫過程中會出現(xiàn)各種情況。錄入人員除了要增強質(zhì)量意識外,更重要的是要熟練掌握編目規(guī)則和CNMARC格式,熟悉其他相關(guān)知識,才能使數(shù)據(jù)質(zhì)量得到可靠保證,建立標準化、規(guī)范化的書目數(shù)據(jù)庫。
[1]全國圖書館聯(lián)合編目中心,國家圖書館中文采編組.中文書目數(shù)據(jù)制作[M].北京:國家圖書館出版社,2013:32-181.
Bibliographic Data Field Correction for Chinese Books
This paper takes bibliographic data of Chinese books collected by Zhejiang Library as examples,and analyzes the common errors of bibliographic field in CNMARC data with the corresponding processing.
bibliographic data;CNMARC field;recording
G254.3
A
劉如,女,浙江圖書館研究館員。
2016-04-21