●薛春香(南京理工大學(xué) 信息管理系,南京 210094)
報紙文獻(xiàn)是刊登在報紙上的新聞報道、廣告等一切文字和圖像資料,是一種極為豐富而未被充分開發(fā)的重要信息源,具有特殊的參考價值和史料價值,被稱為“活檔案”。[1]報紙文獻(xiàn)的價值一直為專家學(xué)者所認(rèn)同,但由于其加工遠(yuǎn)滯后于圖書、期刊、學(xué)位論文等其他文獻(xiàn)資料,導(dǎo)致其不便于查找獲取,被引用率極低,其參考價值尚未得到充分發(fā)揮。據(jù)CSSCI統(tǒng)計,報紙文獻(xiàn)被引用率一直徘徊在3%左右,遠(yuǎn)遠(yuǎn)低于圖書期刊;其中五年內(nèi)報紙文獻(xiàn)量占被引報紙文獻(xiàn)總量的比例(即普賴斯指數(shù))超過60%。[2]
從目前現(xiàn)狀來看,報紙文獻(xiàn)加工還處于大規(guī)模數(shù)字化階段,主要體現(xiàn)在報紙全文瀏覽、版面還原技術(shù)研究,對內(nèi)容的深加工研究比較薄弱,僅限于簡單的分類索引和剪報應(yīng)用。報紙文獻(xiàn)數(shù)據(jù)庫建設(shè)主要經(jīng)歷了三個階段:(1)從紙質(zhì)報紙索引向報紙題錄庫轉(zhuǎn)變,以提供報紙文獻(xiàn)線索為主;(2)大規(guī)模數(shù)字化加工階段,主要是一些主流報紙的全文數(shù)據(jù)庫建設(shè)和多種報紙文獻(xiàn)混合的大型報紙全文數(shù)據(jù)庫建設(shè),以回溯建庫為主;(3)數(shù)字出版階段,各大報媒除發(fā)行紙質(zhì)報紙外,還同步提供網(wǎng)絡(luò)版、手機版報紙的瀏覽服務(wù),并出現(xiàn)了綜合性電子報紙平臺,如8點報、AB報、愛讀愛看等等,但這些報紙平臺主要提供報紙閱讀功能,對內(nèi)容方面的建設(shè)很少。
早期的報紙文獻(xiàn)數(shù)據(jù)庫以題錄庫為主,主要是從印刷版的索引文獻(xiàn)向題錄數(shù)據(jù)庫發(fā)展,內(nèi)容檢索以提供分類索引為主,以上海圖書館的《全國報刊索引》數(shù)據(jù)庫和人大書報資料中心的《中文報刊資料索引》數(shù)據(jù)庫為代表。這兩種索引數(shù)據(jù)庫作為主要的文獻(xiàn)檢索工具,對報紙文獻(xiàn)進(jìn)行了規(guī)范的主題標(biāo)引和學(xué)科分類,為用戶提供了檢索的便利,但不提供原文獲取。
全文數(shù)據(jù)庫的建設(shè)是對報紙文獻(xiàn)進(jìn)行內(nèi)容深加工的前提和基礎(chǔ)。隨著全文索取需求的增長,數(shù)字化加工的規(guī)?;?shù)字出版和報紙網(wǎng)絡(luò)發(fā)行,各大報紙出版集團(tuán)開始回溯和建設(shè)本報的全文數(shù)據(jù)庫資源,如《人民日報》圖文數(shù)據(jù)庫、《解放軍報》圖文數(shù)據(jù)庫、《中國青年報》圖文數(shù)據(jù)庫、《經(jīng)濟(jì)日報》全文數(shù)據(jù)庫等等。自此,全文數(shù)據(jù)庫建設(shè)取得了實質(zhì)性進(jìn)展。
此后,一些專業(yè)文獻(xiàn)數(shù)據(jù)庫服務(wù)商開始關(guān)注報紙文獻(xiàn)全文數(shù)據(jù)庫的建設(shè),既有綜合性的中國知網(wǎng)《中國重要報紙全文數(shù)據(jù)庫》、方正阿帕比《中國報紙資源全文數(shù)據(jù)庫》等,也有專題性的如維普《中國科技經(jīng)濟(jì)新聞數(shù)據(jù)庫》、深圳巨靈《中國財經(jīng)報刊數(shù)據(jù)庫》等。
從各數(shù)據(jù)庫的規(guī)模來看,相較于國內(nèi)目前正式在版發(fā)行的2000種左右的報紙種數(shù),[3]報紙文獻(xiàn)數(shù)據(jù)庫的加工規(guī)模遠(yuǎn)遠(yuǎn)不夠;從各數(shù)據(jù)庫的文獻(xiàn)加工情況看,報紙文獻(xiàn)的加工還處于淺層次階段,主要提供:(1)基于報名、版名、新聞標(biāo)題、作者、欄目等外部特征的檢索;(2)基于全文索引的粗粒度全文檢索;(3)基于簡單分類索引體系的粗分類檢索。個別數(shù)據(jù)庫提供了基于關(guān)鍵詞的主題檢索和基于《中圖法》或《中文新聞信息分類與代碼》的檢索與導(dǎo)航。
(1)索引。各種索引是傳統(tǒng)環(huán)境下實現(xiàn)報紙文獻(xiàn)檢索最主要的途徑,也是開發(fā)利用報紙文獻(xiàn)的重要手段。據(jù)調(diào)查,國內(nèi)正式出版的2000種中文報紙中,目前僅人民日報、光明日報、解放軍報、中國青年報、解放日報、文匯報、山西日報等配置書本式索引或數(shù)據(jù)庫,其他絕大多數(shù)報紙都缺乏完善的檢索系統(tǒng),這與網(wǎng)絡(luò)信息時代的要求及我國新聞事業(yè)發(fā)展的現(xiàn)狀不相適應(yīng)。[4]索引的類型以篇名索引和分類索引為主,其中分類索引主要依據(jù)《中圖法》《資料法》或自編分類體系來編制,以《全國報刊索引》為代表。
(2)剪報。剪報的實質(zhì)是將各種報紙上的信息按照專題進(jìn)行采集、歸類、匯總,形成全文型的資料性信息產(chǎn)品。剪報是信息機構(gòu)針對報紙資源進(jìn)行開發(fā)利用的主要方式,往往會依據(jù)本機構(gòu)的服務(wù)特色就某些特定專題進(jìn)行剪報。但無論是早期的手工剪報,還是現(xiàn)在的電子剪報,對人工的依賴程度都很大。
雖然報紙文獻(xiàn)全文數(shù)據(jù)庫建設(shè)規(guī)模越來越大,但基于全文的檢索效率是低下的。因此,分類和主題標(biāo)引依然是目前報紙文獻(xiàn)內(nèi)容深加工的主要形式。鑒于報紙文獻(xiàn)信息量巨大,早在上世紀(jì)90年代就有學(xué)者提出了報紙文獻(xiàn)的自動標(biāo)引和自動分類。[5]
目前報紙文獻(xiàn)的自動標(biāo)引系統(tǒng)設(shè)計主要采用基于多種詞表和標(biāo)引源權(quán)重方案的關(guān)鍵詞抽取標(biāo)引,是一種自由標(biāo)引,適當(dāng)利用后控制詞表進(jìn)行主題規(guī)范;歸類主要基于詞表兼容互換原理,實現(xiàn)以詞(串)定類;各種命名實體的抽取也是以名稱詞典為基礎(chǔ),輔以規(guī)則。由此可見,報紙文獻(xiàn)的內(nèi)容加工對各種詞典、詞表、類表等組成的知識組織系統(tǒng)依賴性很大。[6]
(1)報紙和報紙文獻(xiàn)著錄規(guī)則。報紙是一種連續(xù)性出版物,每篇報紙文獻(xiàn)又是一個獨立的著錄標(biāo)引對象。雖然我國有專門針對報紙期刊這類連續(xù)出版物的著錄標(biāo)準(zhǔn)——《連續(xù)性資源著錄規(guī)則》,但在國家標(biāo)準(zhǔn)和相關(guān)論著中對于報紙的著錄標(biāo)引論及甚少,大多以期刊為例進(jìn)行解釋說明。實際上,報紙與期刊很不相同,不能混為一談。比如,同一種報紙存在不同地區(qū)版本、不同語種版本、不同時間版本。因此,應(yīng)該有針對報紙文獻(xiàn)加工的專門標(biāo)準(zhǔn)和規(guī)范。[7][8][9]
1988年,IFLA發(fā)布了一份《國際報紙編目指南》,用于規(guī)范報紙編目,但這只是一份指導(dǎo)性文件,并未形成報紙編目的具體規(guī)則和MARC編碼標(biāo)準(zhǔn)。[10]國內(nèi)陳源蒸、石鴻飛等學(xué)者也對報紙著錄中的問題進(jìn)行過探討,基本解決了報紙整體著錄的問題。但時至今日圖書館和文獻(xiàn)數(shù)據(jù)庫服務(wù)商對于報紙文獻(xiàn)的著錄仍未達(dá)成共識,報紙文獻(xiàn)數(shù)據(jù)庫著錄字段的設(shè)計和檢索點的提供各不相同。
(2)報紙文獻(xiàn)標(biāo)引規(guī)范。報紙文獻(xiàn)的標(biāo)引是其內(nèi)容深加工的主要形式,尤其是報紙的深度標(biāo)引更是挖掘報紙文獻(xiàn)價值、形成信息產(chǎn)品的主要手段。但目前缺乏針對報紙文獻(xiàn)的標(biāo)引方案和標(biāo)引規(guī)則,所依據(jù)的還是通用的、簡單粗略的文獻(xiàn)主題標(biāo)引規(guī)范。[11]因此,無論是分類標(biāo)引還是主題標(biāo)引,受控標(biāo)引還是自由標(biāo)引,手工標(biāo)引還是自動標(biāo)引都應(yīng)從便于檢索、充分發(fā)揮報紙文獻(xiàn)價值著手,針對各種性質(zhì)、各種專業(yè)領(lǐng)域的報紙文獻(xiàn)制訂具體的標(biāo)引規(guī)則和標(biāo)引方案。如不同實體對象(人物、地區(qū)、機構(gòu)、會議等)、不同主題(政治文獻(xiàn)、社會新聞、經(jīng)濟(jì)文獻(xiàn)、文化事業(yè)和文化活動、文藝作品、體育新聞、科技文獻(xiàn))、不同體裁(新聞消息、報告)、不同信息類型(廣告、圖片)等等,都應(yīng)規(guī)定出必須標(biāo)引的內(nèi)容和不必標(biāo)引的內(nèi)容,規(guī)定出標(biāo)引深度和標(biāo)引專指度等,這樣才能保證報紙文獻(xiàn)價值的最大化開發(fā)和利用。
各種分類表、主題詞表、術(shù)語表等知識組織工具在文獻(xiàn)內(nèi)容加工組織和開發(fā)利用中具有重要的支撐作用。但目前,針對報紙文獻(xiàn)的各種詞表存在編制困難、更新滯后、難以統(tǒng)一普及、缺乏互操作性等一系列問題。[8]
(1)分類表。在《中文新聞信息分類與代碼》標(biāo)準(zhǔn)發(fā)布之前,報紙文獻(xiàn)的分類體系一直是各自為政,比如知網(wǎng)《中國重要報紙全文數(shù)據(jù)庫》先是采用自編的三級類目體系,包括10大專輯、168個專題、近3600個細(xì)目,后又改用《中圖法》類號標(biāo)注;而《全國報刊索引》數(shù)據(jù)庫則以《資料法》作為分類依據(jù);各大報系又有適應(yīng)本報內(nèi)容的自編分類體系,缺乏針對新聞信息特點的專用統(tǒng)一的分類體系。2003年科技部啟動《中文新聞信息技術(shù)標(biāo)準(zhǔn)》的國家科技攻關(guān)項目,形成了新聞信息分類標(biāo)準(zhǔn)——《中文新聞信息分類與代碼》,并于2006年5月付諸實施。該標(biāo)準(zhǔn)把政治、經(jīng)濟(jì)、文化三大部類作為一級類目劃分的基礎(chǔ),采用層次編碼法,主表從粗到細(xì),劃分出23個一級類目、315個二級類目、5683個細(xì)目,類目總數(shù)達(dá)到9314個、類目層級達(dá)到5級,同時附加了6個通用復(fù)分表和11個專類復(fù)分表。《中文新聞信息分類與代碼》國家標(biāo)準(zhǔn)的頒行推動了報紙文獻(xiàn)分類組織的統(tǒng)一,但限于人力、分類體系轉(zhuǎn)換成本和效率等諸多原因,普及度和采用率并不高。
(2)主題詞表。報紙文獻(xiàn)涉及的主題、體裁甚廣,并且不斷有新主題、新事物涌現(xiàn),很難用一部通用的主題詞表來覆蓋?!度珖鴪罂饕芬跃C合型《中國分類主題詞表》作為其主題標(biāo)引的受控依據(jù);新華社則專門編制了用于存儲和檢索新聞資料的專業(yè)敘詞表——《新聞敘詞表》,收錄正式主題詞8603條,非正式主題詞1201條,學(xué)科范圍涉及國內(nèi)外政治、軍事、外交、文化、科技及社會生活各個方面。但總體來說,由于報紙文獻(xiàn)主題標(biāo)引規(guī)模較小,即使標(biāo)引也以自由標(biāo)引為主,因此,適用于報紙文獻(xiàn)的主題詞表編制和應(yīng)用研究甚少。
除了分類表和主題詞表外,因為報紙文獻(xiàn)中有大量的新聞報道,其中的人名、國家地區(qū)、事件名、機構(gòu)名、產(chǎn)品名等等命名實體都具有一定的檢索意義和參考價值。為了對這些命名實體進(jìn)行抽取和規(guī)范控制,還需要名稱權(quán)威檔等知識組織系統(tǒng)的支撐。
從目前報紙文獻(xiàn)內(nèi)容加工的方式來看,仍以傳統(tǒng)文獻(xiàn)著錄和標(biāo)引,形成指示性文獻(xiàn)檢索線索為主,或是人工依賴程度很大的剪報產(chǎn)品,內(nèi)容深加工形式單一。
報紙文獻(xiàn)涉及范圍廣泛,既有新聞報道類的消息型信息,也有資料型信息,還有知識型信息;報紙文獻(xiàn)的受眾面廣,用戶特點和用戶需求各異。因此,完全可在及時、新穎且多為第一手資料的報紙文獻(xiàn)基礎(chǔ)上形成針對性、特色性、高增值的各種信息產(chǎn)品。
(1)專題庫。按照各種實體、具體事件、具體行業(yè)、具體領(lǐng)域整合多種報紙上一定時間段內(nèi)的各種相關(guān)文獻(xiàn),形成各種專題數(shù)據(jù)庫,提供給不同用戶。
(2)知識庫。從抽取各種事實性、數(shù)據(jù)性的報紙資料中抽取事實、數(shù)據(jù)、實例等形成知識庫,即事實數(shù)據(jù)庫產(chǎn)品。
(3)參考咨詢庫。專題庫和知識庫還只是基于報紙文獻(xiàn)一手資料的采集、選擇和擷取的加工,而在這些分類別、序化的聚合信息基礎(chǔ)上,輔以數(shù)據(jù)挖掘和專家智慧,則可以形成研究性、預(yù)測性的市場調(diào)查報告、行情分析、趨勢預(yù)測等高增值的信息產(chǎn)品,使公開的報紙文獻(xiàn)成為重要的競爭情報信息源。
無論是舊報紙還是現(xiàn)行報紙,單純的數(shù)字化是遠(yuǎn)遠(yuǎn)不夠的,必須實現(xiàn)報紙文獻(xiàn)內(nèi)容的深加工,形成增值信息產(chǎn)品。目前學(xué)界、業(yè)界對于網(wǎng)絡(luò)新聞的組織、挖掘探索越來越多,雖然網(wǎng)絡(luò)新聞并不等同于報紙文獻(xiàn),但將在網(wǎng)絡(luò)信息挖掘、圖書期刊論文資料等領(lǐng)域內(nèi)容加工的方法和技術(shù)移植到報紙文獻(xiàn)內(nèi)容加工領(lǐng)域,并結(jié)合報紙文獻(xiàn)的特點形成針對報紙文獻(xiàn)內(nèi)容加工的專門方法是值得嘗試的。具體如下:
(1)由各自為政的分類索引向基于新聞分類標(biāo)準(zhǔn)整合報紙信息資源方向發(fā)展。分類索引是報紙文獻(xiàn)內(nèi)容組織最主要的傳統(tǒng)方式,但由于缺乏統(tǒng)一的分類體系,導(dǎo)致各個報系和文獻(xiàn)數(shù)據(jù)庫之間分類組織互操作的障礙,更遑論進(jìn)行資源整合。現(xiàn)在作為國家標(biāo)準(zhǔn)的《中文新聞信息分類與代碼》分類表已經(jīng)頒行,但讓各單位立即摒棄原有的分類體系卻不可行,何況這個國家標(biāo)準(zhǔn)的適用性還需要進(jìn)一步的驗證。因此,從資源整合的角度出發(fā),可考慮在沿用原有分類體系的基礎(chǔ)上,將其與標(biāo)準(zhǔn)分類表之間進(jìn)行映射轉(zhuǎn)換,通過分類表的互操作來實現(xiàn)資源整合。
(2)由簡單主題標(biāo)引向各種實體抽取方向發(fā)展。實體標(biāo)引在報紙文獻(xiàn)標(biāo)引中是有歷史的,而各種命名實體的抽取和標(biāo)注對于報紙文獻(xiàn)檢索、建立文獻(xiàn)關(guān)聯(lián)、形成專題產(chǎn)品都具有重要意義。因此,在計算語言學(xué)和信息組織智能化不斷發(fā)展的前提下,報紙文獻(xiàn)的主題標(biāo)引還需強化,并且要進(jìn)行多元、多角度、全方位的深度標(biāo)引。
(3)由傳統(tǒng)剪報向個性化、專題化信息產(chǎn)品方向發(fā)展。剪報是在報紙文獻(xiàn)基礎(chǔ)上形成的一種增值性信息產(chǎn)品,傳統(tǒng)的“剪刀加漿糊”的工作方式已經(jīng)不能適應(yīng)快速精準(zhǔn)的現(xiàn)代信息需求。在報紙文獻(xiàn)有序組織、深度揭示的基礎(chǔ)上,對用戶信息需求進(jìn)行細(xì)化,實現(xiàn)報紙文獻(xiàn)信息的重組和創(chuàng)新,從而形成個性化、專題化的剪報產(chǎn)品。
(4)由傳統(tǒng)文獻(xiàn)組織向內(nèi)容挖掘方向發(fā)展。報紙文獻(xiàn)的內(nèi)容加工不能局限在為提供檢索服務(wù)的信息序化層面,而應(yīng)向內(nèi)容挖掘?qū)用孢M(jìn)行深加工。報紙文獻(xiàn)的內(nèi)容挖掘既包括單篇文獻(xiàn)中的主題揭示、各種命名實體的抽取和語義關(guān)聯(lián)、觀點挖掘等;還包括集合文獻(xiàn)的專題聚類、熱點追蹤、觀點導(dǎo)向分析、新聞過濾、輿情預(yù)警等等,真正發(fā)揮報紙文獻(xiàn)的喉舌、參謀作用。
[1]張琪玉.報紙文獻(xiàn)是一種極為豐富而未被充分開發(fā)的信息源—關(guān)于發(fā)展報紙文獻(xiàn)索引和數(shù)據(jù)庫的思考 [J].圖書館雜志,1999(2):7-8.
[2]王智琦,李秋實.基于CSSCI不同類型文獻(xiàn)的發(fā)展趨勢定量研究 [J].圖書館,2008(3):38-40,68.
[3]中華人民共和國新聞出版總署.2009年全國新聞出版業(yè)基本情況[EB/OL].(2010-09-07)[2011-06-11].http://www.gapp.gov.cn/cms/html/21/493/201009/702538.html.
[4]葛永慶.開發(fā)報紙文獻(xiàn)的重要手段和有效途徑—兼談《申報索引》的編纂出版[J].中國索引,2008(2):2-3.
[5]宋明亮.報紙文獻(xiàn)機助自由標(biāo)引研究及對漢語后控制詞表動態(tài)維護(hù)的思考——《解放軍報》模擬檢索系統(tǒng)設(shè)計實驗報告[D].中國人民解放軍空軍政治學(xué)院碩士論文,1994.
[6]辛乘勝.人民日報新聞文獻(xiàn)自動標(biāo)引系統(tǒng)的設(shè)計與實現(xiàn)[J].中國傳媒科技,1997(3):17-19
[7]李素建.人民日報標(biāo)引系統(tǒng)[EB/OL].(2002-11-18)[2011-06-12].http://www.icl.pku.edu.cn/member/lisujian/papers/人民日報標(biāo)引系統(tǒng)intro.pdf.
[8]查貴庭,侯漢清.基于多詞表的自動標(biāo)引技術(shù)研究——新華社新聞稿自動標(biāo)引的實驗[J].情報學(xué)報,2002,21(3):273-277.
[9]馬金林.《申報》全文數(shù)據(jù)庫的自動標(biāo)引[J].信息系統(tǒng)工程,2009(11):39-40.
[10]HanaKomorous,RobertHarriman.InternationalGuidelines for the Cataloguing of Newspapers[EB/OL].(1988-07-01)[2011-06-11].http://www.ifla.org/VII/s39/broch/intguide.pdf.
[11]許斌.關(guān)于開發(fā)報紙文獻(xiàn)索引及數(shù)據(jù)庫的思考[J].圖書館學(xué)研究,2005(2):41-42.