郭廣堃
關(guān)鍵詞:盛京時報;TPI;特色數(shù)據(jù)庫;館藏數(shù)據(jù)庫
摘 要:《盛京時報》是由日本人中島真雄創(chuàng)辦的中文報紙,該報以中國國內(nèi)時事和評論為主,大量報道了當(dāng)時(1906-1943年)東北地區(qū)商貿(mào)、金融、交通、教育等許多方面的信息,具有很高的研究價值。為方便讀者查找和利用文獻(xiàn),充分發(fā)揮其史料參考作用,遼寧省圖書館與清華同方公司合作,利用TPI系統(tǒng)建成數(shù)據(jù)庫發(fā)布。本文從建庫意義、模式、加工平臺、發(fā)布系統(tǒng)等幾方面對此進(jìn)行了闡述。
中圖分類號:G250文獻(xiàn)標(biāo)識碼:A 文章編號:1003-1588(2009)06-0074-02
《盛京時報》于清光緒三十二年九月初一日(1906年10月18日)在沈陽創(chuàng)辦,因當(dāng)時的沈陽被稱作盛京,《盛京時報》由此得名。這張由日本人中島真雄創(chuàng)辦的中文報紙當(dāng)時的發(fā)行量很大,遍及東北地區(qū),華北以南的一些城市甚至東南亞華語國家,1943年左右停刊,歷時38年。該報對我國當(dāng)時的內(nèi)政、外交、經(jīng)濟(jì)、軍事、文化、教育、社會風(fēng)情等,特別是對當(dāng)時東北地區(qū)商貿(mào)、金融、交通、教育等方面的信息,均有詳略不等的報道,同時還記錄了眾多官府檔案與私家著述不能詳細(xì)指明的史實。它不僅是研究中國近代史、國際關(guān)系史、東北軍民抗日史、北洋軍閥史極為珍貴的資料,也是了解和掌握20世紀(jì)前半葉東三省的第一手資料。
1建庫意義
遼寧省圖書館藏有《盛京時報》從創(chuàng)始至停刊的全套原報、影印本及縮微膠片,總計有141冊,膠片近10萬拍,具有非??煽客暾臄?shù)據(jù)源。同時該文獻(xiàn)時間距今年代較為久遠(yuǎn),不存在版權(quán)問題。數(shù)據(jù)庫建成后,讀者可以通過網(wǎng)絡(luò)檢索,方便快捷,符合當(dāng)前文化信息資源網(wǎng)絡(luò)化、數(shù)字化的要求。
2建庫模式及設(shè)計
《盛京時報》 整套報紙有近10萬頁,此庫如由本館人員自行建設(shè),大約需要10個人約8年完成,而由外包公司以專業(yè)化的角度制作1年時間即可完成,并有加工發(fā)布軟件支持,大大縮短了建庫時間,提高了效率。經(jīng)過咨詢、調(diào)研,遼寧省圖書館最終選擇與清華同方公司合作,應(yīng)用TPI系統(tǒng)對《盛京時報》進(jìn)行數(shù)字化加工、標(biāo)引和發(fā)布。
2.1 總體要求
此數(shù)據(jù)庫將紙質(zhì)報紙進(jìn)行掃描(或縮微膠片轉(zhuǎn)換)形成電子文檔,通過著錄得到每篇文章的題錄信息,入庫形成《盛京時報》資源庫。
因報紙文本為繁體字,豎排版,文章成不規(guī)則排列,廣告較多,全文識別率較低,故本庫做成題錄數(shù)據(jù)庫,每條題錄做為一條數(shù)據(jù),對應(yīng)一張PDF文件(全文顯示為PDF圖片格式),生成文章索引,實現(xiàn)文獻(xiàn)資料的題名、日期、作者、版次等的檢索。這樣做的優(yōu)點是:用戶接口多為菜單驅(qū)動型,易學(xué)易用,檢索直接。
2.2 元數(shù)據(jù)及著錄細(xì)則
2.2.1 制定元數(shù)據(jù)
此庫的元數(shù)據(jù)嚴(yán)格按照《中國數(shù)字圖書館基本元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范》制定,著錄時對照規(guī)范,結(jié)合此庫特點,設(shè)立了包括題名、創(chuàng)建者、來源、欄目、分類、主題、說明、權(quán)限、格式等15個核心元素和包括副題名、出版發(fā)行年、地區(qū)、人名等項內(nèi)容的20個修飾詞,能較全面地反映報紙的客觀信息。
2.2.2 限制訪問
由于此報存在年代的特殊性,對元數(shù)據(jù)的著錄項目做了嚴(yán)格的規(guī)定:原題名有“滿洲國”字樣的在其前加著“[偽]”;偽滿時期涉及到中央或地方政府組織的會議、祭典或其他大型活動時在題名前加[偽滿洲國]字樣;有官銜或在偽滿中央、地方特定的政治、經(jīng)濟(jì)、教育、文化等機構(gòu)中任職的人物的姓名前加[偽滿洲國]字樣以示區(qū)別;出版發(fā)行年有“大同”、“康德”字樣的,自動默認(rèn)為限制訪問。
2.2.3 客觀照錄
為方便讀者檢索,將出版發(fā)行年(同時轉(zhuǎn)換并著錄公元紀(jì)年)、日期、星期、總期號、版號等客觀信息全部照錄。
2.2.4 設(shè)立欄目項
《盛京時報》收羅廣泛,前期保持了中國清朝邸報和京報的模式,每天在頭條位置刊登“宮門抄”和“上諭恭錄”,報道清朝宮廷的動態(tài)來歸順民心。同時設(shè)有多種專欄。如:時論、批示、小說、文苑、欽差行蹤,專電、京師要聞、各省要聞、世界新聞、市井雜俎、公文匯錄、緊要專件等。為全面反映該報對當(dāng)時我國內(nèi)政、外交、經(jīng)濟(jì)、軍事、文化、教育等情況的報導(dǎo),使讀者能按類檢索,特設(shè)立“欄目”著錄項。
3數(shù)據(jù)加工平臺
針對此報紙數(shù)字化加工的特點,同方應(yīng)用vc++ 在windows NT server操作系統(tǒng)上,開發(fā)了對應(yīng)的程序,以保證加工的高效及數(shù)據(jù)的質(zhì)量。平臺具有以下功能:
3.1 管理功能
此程序包括工號及權(quán)限管理功能、考勤記錄功能、建立任務(wù)批次功能、工作量統(tǒng)計功能、自動生成生產(chǎn)報表等管理功能。
3.2 批量掃描功能
此程序保證使用掃描儀對紙介質(zhì)的資料進(jìn)行批量的掃描,能向已有的圖像文件中插入漏掃的圖像文件、替換錯掃的圖像文件,并具有圖像文件格式轉(zhuǎn)換功能。
3.3 圖像處理功能
此程序能有效去除大面積的圖像黑邊和較大雜點,自動比對圖像頁數(shù)、文件夾個數(shù)是否與檔案整理環(huán)節(jié)一致;能對圖像進(jìn)行批量90度、180度旋轉(zhuǎn)和傾斜校正;有圖像恢復(fù)功能(能將處理過的圖像恢復(fù)到處理前的原始圖像狀態(tài))等。大大減少了后期人工圖像處理的工作量,提高了圖像處理的工作效率和質(zhì)量。
3.4 質(zhì)量檢查功能
此程序包括各工序根據(jù)預(yù)設(shè)的抽樣比例自動選取抽樣文件功能;圖文對照功能;修改錯誤目錄功能;自動計算錯誤率并出具質(zhì)檢報告功能。
3.5 數(shù)據(jù)掛接功能
此程序能提供圖像文件和著錄數(shù)據(jù)的按檔號批量掛接功能;提供掛接后的數(shù)據(jù)修改、替換功能。
3.6 條目著錄功能
此程序具備自定義著錄字段功能;能根據(jù)起始頁、終止頁及檔案案卷號批量掛接圖像文件;圖文對照功能;數(shù)據(jù)導(dǎo)入導(dǎo)出功能(支持常見數(shù)據(jù)格式MDB、DBF、XML及Excel表格等格式的導(dǎo)入導(dǎo)出)。
4發(fā)布系統(tǒng)
TPI數(shù)據(jù)庫建設(shè)與管理平臺是基于非結(jié)構(gòu)化文檔管理的大型智能內(nèi)容管理系統(tǒng)。該系統(tǒng)以Kbase全文檢索技術(shù)為核心,采用流行的B/S模式和先進(jìn)的三層C/S架構(gòu),能夠同時管理多種類型的信息資源,并提供全文檢索服務(wù)。
TPI的建庫發(fā)布過程遵循標(biāo)準(zhǔn)化和嚴(yán)謹(jǐn)?shù)脑瓌t,按照庫結(jié)構(gòu)建立、導(dǎo)航建立、記錄添加、數(shù)據(jù)標(biāo)引、數(shù)據(jù)分類、數(shù)據(jù)檢查、數(shù)據(jù)庫發(fā)布等步驟劃分,整個過程有全中文向?qū)е笇?dǎo)進(jìn)行操作,使用方便,易于掌握。
5問題與思考
5.1 合作建庫問題
從選題立項到外包直至全部建成上網(wǎng)發(fā)布,歷時1年多。由于初次采取合作方式建庫,缺乏經(jīng)驗,而且外包公司對數(shù)據(jù)不是很了解,并在異地加工,溝通未及時順暢,建庫初期走了一些彎路。例如圖片掃描問題,公司利用縮微膠片進(jìn)行了轉(zhuǎn)換,可由于膠片時間較久,有些毀壞,圖像模糊不清,等我們?nèi)嵉刂笇?dǎo)時,已經(jīng)全部轉(zhuǎn)換完成,還需要重新挑選進(jìn)行掃描,不僅耽誤工期,而且增加了成本。對于數(shù)據(jù)加工中的題名項,當(dāng)時公司考慮節(jié)約服務(wù)器容量空間和增加效率,前期將同張報紙中的幾條數(shù)據(jù)著錄成一條,造成檢索歧義,后及時改正。
5.2 特色數(shù)據(jù)庫建設(shè)的標(biāo)準(zhǔn)化問題
近年來遼寧省圖書館建設(shè)的特色庫由于技術(shù)原因應(yīng)用了多個加工系統(tǒng),但由于采用了統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,按照統(tǒng)一標(biāo)準(zhǔn)加工、標(biāo)引數(shù)字信息,最終的裸數(shù)據(jù)無論在哪個平臺上都能自由轉(zhuǎn)換,互相兼容,保證了發(fā)布數(shù)據(jù)的統(tǒng)一。
5.3 館藏數(shù)據(jù)庫建設(shè)的版權(quán)問題
從圖書館的角度,特色館藏資源是具有較高學(xué)術(shù)和史料價值的資料,如:遼寧省圖書館藏建國前期刊、東北抗戰(zhàn)史文獻(xiàn)、《盛京時報》等,但如果建成數(shù)據(jù)庫,就涉及著作權(quán)確認(rèn)和許可問題。對已發(fā)表作品進(jìn)行數(shù)字化,會涉及署名權(quán)、修改權(quán)、保護(hù)作品完整權(quán)、使用權(quán)和獲得報酬的權(quán)利。圖書館進(jìn)行公益性的文獻(xiàn)數(shù)字化主要是為保護(hù)文獻(xiàn)、方便讀者使用,借助網(wǎng)絡(luò)使更多人共享,但這又將侵害權(quán)利人的網(wǎng)絡(luò)傳播權(quán),是建庫的矛盾所在。對此,在數(shù)據(jù)庫建設(shè)上多選擇建設(shè)距今年代較久,過了保障期或即將過期的作品來規(guī)避版權(quán)問題,來最大限度地保護(hù)著作權(quán)人的知識產(chǎn)權(quán)。
參考文獻(xiàn):
[1] 陳建紅.廣西圖書館數(shù)據(jù)庫建設(shè)與實踐[J].圖書館界,2007,(2).
[2] 肖碧云.論特色文獻(xiàn)數(shù)據(jù)庫的建設(shè)[J].高校圖書館工作,2006,(1).
[3] 徐紅嵐.《盛京時報》述略[J].圖書館學(xué)刊,1989,(2).