• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文報紙文獻(xiàn)內(nèi)容深加工研究初探

      2012-02-15 20:03:05薛春香南京理工大學(xué)信息管理系南京210094
      圖書館理論與實踐 2012年1期
      關(guān)鍵詞:剪報標(biāo)引全文

      ●薛春香(南京理工大學(xué) 信息管理系,南京 210094)

      報紙文獻(xiàn)是刊登在報紙上的新聞報道、廣告等一切文字和圖像資料,是一種極為豐富而未被充分開發(fā)的重要信息源,具有特殊的參考價值和史料價值,被稱為“活檔案”。[1]報紙文獻(xiàn)的價值一直為專家學(xué)者所認(rèn)同,但由于其加工遠(yuǎn)滯后于圖書、期刊、學(xué)位論文等其他文獻(xiàn)資料,導(dǎo)致其不便于查找獲取,被引用率極低,其參考價值尚未得到充分發(fā)揮。據(jù)CSSCI統(tǒng)計,報紙文獻(xiàn)被引用率一直徘徊在3%左右,遠(yuǎn)遠(yuǎn)低于圖書期刊;其中五年內(nèi)報紙文獻(xiàn)量占被引報紙文獻(xiàn)總量的比例(即普賴斯指數(shù))超過60%。[2]

      1 報紙文獻(xiàn)數(shù)據(jù)庫建設(shè)現(xiàn)狀

      從目前現(xiàn)狀來看,報紙文獻(xiàn)加工還處于大規(guī)模數(shù)字化階段,主要體現(xiàn)在報紙全文瀏覽、版面還原技術(shù)研究,對內(nèi)容的深加工研究比較薄弱,僅限于簡單的分類索引和剪報應(yīng)用。報紙文獻(xiàn)數(shù)據(jù)庫建設(shè)主要經(jīng)歷了三個階段:(1)從紙質(zhì)報紙索引向報紙題錄庫轉(zhuǎn)變,以提供報紙文獻(xiàn)線索為主;(2)大規(guī)模數(shù)字化加工階段,主要是一些主流報紙的全文數(shù)據(jù)庫建設(shè)和多種報紙文獻(xiàn)混合的大型報紙全文數(shù)據(jù)庫建設(shè),以回溯建庫為主;(3)數(shù)字出版階段,各大報媒除發(fā)行紙質(zhì)報紙外,還同步提供網(wǎng)絡(luò)版、手機版報紙的瀏覽服務(wù),并出現(xiàn)了綜合性電子報紙平臺,如8點報、AB報、愛讀愛看等等,但這些報紙平臺主要提供報紙閱讀功能,對內(nèi)容方面的建設(shè)很少。

      早期的報紙文獻(xiàn)數(shù)據(jù)庫以題錄庫為主,主要是從印刷版的索引文獻(xiàn)向題錄數(shù)據(jù)庫發(fā)展,內(nèi)容檢索以提供分類索引為主,以上海圖書館的《全國報刊索引》數(shù)據(jù)庫和人大書報資料中心的《中文報刊資料索引》數(shù)據(jù)庫為代表。這兩種索引數(shù)據(jù)庫作為主要的文獻(xiàn)檢索工具,對報紙文獻(xiàn)進(jìn)行了規(guī)范的主題標(biāo)引和學(xué)科分類,為用戶提供了檢索的便利,但不提供原文獲取。

      全文數(shù)據(jù)庫的建設(shè)是對報紙文獻(xiàn)進(jìn)行內(nèi)容深加工的前提和基礎(chǔ)。隨著全文索取需求的增長,數(shù)字化加工的規(guī)?;?shù)字出版和報紙網(wǎng)絡(luò)發(fā)行,各大報紙出版集團(tuán)開始回溯和建設(shè)本報的全文數(shù)據(jù)庫資源,如《人民日報》圖文數(shù)據(jù)庫、《解放軍報》圖文數(shù)據(jù)庫、《中國青年報》圖文數(shù)據(jù)庫、《經(jīng)濟(jì)日報》全文數(shù)據(jù)庫等等。自此,全文數(shù)據(jù)庫建設(shè)取得了實質(zhì)性進(jìn)展。

      此后,一些專業(yè)文獻(xiàn)數(shù)據(jù)庫服務(wù)商開始關(guān)注報紙文獻(xiàn)全文數(shù)據(jù)庫的建設(shè),既有綜合性的中國知網(wǎng)《中國重要報紙全文數(shù)據(jù)庫》、方正阿帕比《中國報紙資源全文數(shù)據(jù)庫》等,也有專題性的如維普《中國科技經(jīng)濟(jì)新聞數(shù)據(jù)庫》、深圳巨靈《中國財經(jīng)報刊數(shù)據(jù)庫》等。

      從各數(shù)據(jù)庫的規(guī)模來看,相較于國內(nèi)目前正式在版發(fā)行的2000種左右的報紙種數(shù),[3]報紙文獻(xiàn)數(shù)據(jù)庫的加工規(guī)模遠(yuǎn)遠(yuǎn)不夠;從各數(shù)據(jù)庫的文獻(xiàn)加工情況看,報紙文獻(xiàn)的加工還處于淺層次階段,主要提供:(1)基于報名、版名、新聞標(biāo)題、作者、欄目等外部特征的檢索;(2)基于全文索引的粗粒度全文檢索;(3)基于簡單分類索引體系的粗分類檢索。個別數(shù)據(jù)庫提供了基于關(guān)鍵詞的主題檢索和基于《中圖法》或《中文新聞信息分類與代碼》的檢索與導(dǎo)航。

      2 報紙文獻(xiàn)內(nèi)容深加工的主要方法

      2.1 報紙文獻(xiàn)內(nèi)容加工傳統(tǒng)方法

      (1)索引。各種索引是傳統(tǒng)環(huán)境下實現(xiàn)報紙文獻(xiàn)檢索最主要的途徑,也是開發(fā)利用報紙文獻(xiàn)的重要手段。據(jù)調(diào)查,國內(nèi)正式出版的2000種中文報紙中,目前僅人民日報、光明日報、解放軍報、中國青年報、解放日報、文匯報、山西日報等配置書本式索引或數(shù)據(jù)庫,其他絕大多數(shù)報紙都缺乏完善的檢索系統(tǒng),這與網(wǎng)絡(luò)信息時代的要求及我國新聞事業(yè)發(fā)展的現(xiàn)狀不相適應(yīng)。[4]索引的類型以篇名索引和分類索引為主,其中分類索引主要依據(jù)《中圖法》《資料法》或自編分類體系來編制,以《全國報刊索引》為代表。

      (2)剪報。剪報的實質(zhì)是將各種報紙上的信息按照專題進(jìn)行采集、歸類、匯總,形成全文型的資料性信息產(chǎn)品。剪報是信息機構(gòu)針對報紙資源進(jìn)行開發(fā)利用的主要方式,往往會依據(jù)本機構(gòu)的服務(wù)特色就某些特定專題進(jìn)行剪報。但無論是早期的手工剪報,還是現(xiàn)在的電子剪報,對人工的依賴程度都很大。

      2.2 報紙文獻(xiàn)的自動標(biāo)引和自動分類

      雖然報紙文獻(xiàn)全文數(shù)據(jù)庫建設(shè)規(guī)模越來越大,但基于全文的檢索效率是低下的。因此,分類和主題標(biāo)引依然是目前報紙文獻(xiàn)內(nèi)容深加工的主要形式。鑒于報紙文獻(xiàn)信息量巨大,早在上世紀(jì)90年代就有學(xué)者提出了報紙文獻(xiàn)的自動標(biāo)引和自動分類。[5]

      目前報紙文獻(xiàn)的自動標(biāo)引系統(tǒng)設(shè)計主要采用基于多種詞表和標(biāo)引源權(quán)重方案的關(guān)鍵詞抽取標(biāo)引,是一種自由標(biāo)引,適當(dāng)利用后控制詞表進(jìn)行主題規(guī)范;歸類主要基于詞表兼容互換原理,實現(xiàn)以詞(串)定類;各種命名實體的抽取也是以名稱詞典為基礎(chǔ),輔以規(guī)則。由此可見,報紙文獻(xiàn)的內(nèi)容加工對各種詞典、詞表、類表等組成的知識組織系統(tǒng)依賴性很大。[6]

      3 報紙文獻(xiàn)內(nèi)容深加工的主要技術(shù)問題

      3.1 缺乏針對性、具體化的報紙文獻(xiàn)加工規(guī)范

      (1)報紙和報紙文獻(xiàn)著錄規(guī)則。報紙是一種連續(xù)性出版物,每篇報紙文獻(xiàn)又是一個獨立的著錄標(biāo)引對象。雖然我國有專門針對報紙期刊這類連續(xù)出版物的著錄標(biāo)準(zhǔn)——《連續(xù)性資源著錄規(guī)則》,但在國家標(biāo)準(zhǔn)和相關(guān)論著中對于報紙的著錄標(biāo)引論及甚少,大多以期刊為例進(jìn)行解釋說明。實際上,報紙與期刊很不相同,不能混為一談。比如,同一種報紙存在不同地區(qū)版本、不同語種版本、不同時間版本。因此,應(yīng)該有針對報紙文獻(xiàn)加工的專門標(biāo)準(zhǔn)和規(guī)范。[7][8][9]

      1988年,IFLA發(fā)布了一份《國際報紙編目指南》,用于規(guī)范報紙編目,但這只是一份指導(dǎo)性文件,并未形成報紙編目的具體規(guī)則和MARC編碼標(biāo)準(zhǔn)。[10]國內(nèi)陳源蒸、石鴻飛等學(xué)者也對報紙著錄中的問題進(jìn)行過探討,基本解決了報紙整體著錄的問題。但時至今日圖書館和文獻(xiàn)數(shù)據(jù)庫服務(wù)商對于報紙文獻(xiàn)的著錄仍未達(dá)成共識,報紙文獻(xiàn)數(shù)據(jù)庫著錄字段的設(shè)計和檢索點的提供各不相同。

      (2)報紙文獻(xiàn)標(biāo)引規(guī)范。報紙文獻(xiàn)的標(biāo)引是其內(nèi)容深加工的主要形式,尤其是報紙的深度標(biāo)引更是挖掘報紙文獻(xiàn)價值、形成信息產(chǎn)品的主要手段。但目前缺乏針對報紙文獻(xiàn)的標(biāo)引方案和標(biāo)引規(guī)則,所依據(jù)的還是通用的、簡單粗略的文獻(xiàn)主題標(biāo)引規(guī)范。[11]因此,無論是分類標(biāo)引還是主題標(biāo)引,受控標(biāo)引還是自由標(biāo)引,手工標(biāo)引還是自動標(biāo)引都應(yīng)從便于檢索、充分發(fā)揮報紙文獻(xiàn)價值著手,針對各種性質(zhì)、各種專業(yè)領(lǐng)域的報紙文獻(xiàn)制訂具體的標(biāo)引規(guī)則和標(biāo)引方案。如不同實體對象(人物、地區(qū)、機構(gòu)、會議等)、不同主題(政治文獻(xiàn)、社會新聞、經(jīng)濟(jì)文獻(xiàn)、文化事業(yè)和文化活動、文藝作品、體育新聞、科技文獻(xiàn))、不同體裁(新聞消息、報告)、不同信息類型(廣告、圖片)等等,都應(yīng)規(guī)定出必須標(biāo)引的內(nèi)容和不必標(biāo)引的內(nèi)容,規(guī)定出標(biāo)引深度和標(biāo)引專指度等,這樣才能保證報紙文獻(xiàn)價值的最大化開發(fā)和利用。

      3.2 缺乏統(tǒng)一公認(rèn)、更新及時的報紙文獻(xiàn)知識組織工具

      各種分類表、主題詞表、術(shù)語表等知識組織工具在文獻(xiàn)內(nèi)容加工組織和開發(fā)利用中具有重要的支撐作用。但目前,針對報紙文獻(xiàn)的各種詞表存在編制困難、更新滯后、難以統(tǒng)一普及、缺乏互操作性等一系列問題。[8]

      (1)分類表。在《中文新聞信息分類與代碼》標(biāo)準(zhǔn)發(fā)布之前,報紙文獻(xiàn)的分類體系一直是各自為政,比如知網(wǎng)《中國重要報紙全文數(shù)據(jù)庫》先是采用自編的三級類目體系,包括10大專輯、168個專題、近3600個細(xì)目,后又改用《中圖法》類號標(biāo)注;而《全國報刊索引》數(shù)據(jù)庫則以《資料法》作為分類依據(jù);各大報系又有適應(yīng)本報內(nèi)容的自編分類體系,缺乏針對新聞信息特點的專用統(tǒng)一的分類體系。2003年科技部啟動《中文新聞信息技術(shù)標(biāo)準(zhǔn)》的國家科技攻關(guān)項目,形成了新聞信息分類標(biāo)準(zhǔn)——《中文新聞信息分類與代碼》,并于2006年5月付諸實施。該標(biāo)準(zhǔn)把政治、經(jīng)濟(jì)、文化三大部類作為一級類目劃分的基礎(chǔ),采用層次編碼法,主表從粗到細(xì),劃分出23個一級類目、315個二級類目、5683個細(xì)目,類目總數(shù)達(dá)到9314個、類目層級達(dá)到5級,同時附加了6個通用復(fù)分表和11個專類復(fù)分表。《中文新聞信息分類與代碼》國家標(biāo)準(zhǔn)的頒行推動了報紙文獻(xiàn)分類組織的統(tǒng)一,但限于人力、分類體系轉(zhuǎn)換成本和效率等諸多原因,普及度和采用率并不高。

      (2)主題詞表。報紙文獻(xiàn)涉及的主題、體裁甚廣,并且不斷有新主題、新事物涌現(xiàn),很難用一部通用的主題詞表來覆蓋?!度珖鴪罂饕芬跃C合型《中國分類主題詞表》作為其主題標(biāo)引的受控依據(jù);新華社則專門編制了用于存儲和檢索新聞資料的專業(yè)敘詞表——《新聞敘詞表》,收錄正式主題詞8603條,非正式主題詞1201條,學(xué)科范圍涉及國內(nèi)外政治、軍事、外交、文化、科技及社會生活各個方面。但總體來說,由于報紙文獻(xiàn)主題標(biāo)引規(guī)模較小,即使標(biāo)引也以自由標(biāo)引為主,因此,適用于報紙文獻(xiàn)的主題詞表編制和應(yīng)用研究甚少。

      除了分類表和主題詞表外,因為報紙文獻(xiàn)中有大量的新聞報道,其中的人名、國家地區(qū)、事件名、機構(gòu)名、產(chǎn)品名等等命名實體都具有一定的檢索意義和參考價值。為了對這些命名實體進(jìn)行抽取和規(guī)范控制,還需要名稱權(quán)威檔等知識組織系統(tǒng)的支撐。

      3.3 缺乏特色性、高增值的報紙文獻(xiàn)內(nèi)容深加工方式

      從目前報紙文獻(xiàn)內(nèi)容加工的方式來看,仍以傳統(tǒng)文獻(xiàn)著錄和標(biāo)引,形成指示性文獻(xiàn)檢索線索為主,或是人工依賴程度很大的剪報產(chǎn)品,內(nèi)容深加工形式單一。

      報紙文獻(xiàn)涉及范圍廣泛,既有新聞報道類的消息型信息,也有資料型信息,還有知識型信息;報紙文獻(xiàn)的受眾面廣,用戶特點和用戶需求各異。因此,完全可在及時、新穎且多為第一手資料的報紙文獻(xiàn)基礎(chǔ)上形成針對性、特色性、高增值的各種信息產(chǎn)品。

      (1)專題庫。按照各種實體、具體事件、具體行業(yè)、具體領(lǐng)域整合多種報紙上一定時間段內(nèi)的各種相關(guān)文獻(xiàn),形成各種專題數(shù)據(jù)庫,提供給不同用戶。

      (2)知識庫。從抽取各種事實性、數(shù)據(jù)性的報紙資料中抽取事實、數(shù)據(jù)、實例等形成知識庫,即事實數(shù)據(jù)庫產(chǎn)品。

      (3)參考咨詢庫。專題庫和知識庫還只是基于報紙文獻(xiàn)一手資料的采集、選擇和擷取的加工,而在這些分類別、序化的聚合信息基礎(chǔ)上,輔以數(shù)據(jù)挖掘和專家智慧,則可以形成研究性、預(yù)測性的市場調(diào)查報告、行情分析、趨勢預(yù)測等高增值的信息產(chǎn)品,使公開的報紙文獻(xiàn)成為重要的競爭情報信息源。

      4 報紙文獻(xiàn)內(nèi)容深加工的主要趨向

      無論是舊報紙還是現(xiàn)行報紙,單純的數(shù)字化是遠(yuǎn)遠(yuǎn)不夠的,必須實現(xiàn)報紙文獻(xiàn)內(nèi)容的深加工,形成增值信息產(chǎn)品。目前學(xué)界、業(yè)界對于網(wǎng)絡(luò)新聞的組織、挖掘探索越來越多,雖然網(wǎng)絡(luò)新聞并不等同于報紙文獻(xiàn),但將在網(wǎng)絡(luò)信息挖掘、圖書期刊論文資料等領(lǐng)域內(nèi)容加工的方法和技術(shù)移植到報紙文獻(xiàn)內(nèi)容加工領(lǐng)域,并結(jié)合報紙文獻(xiàn)的特點形成針對報紙文獻(xiàn)內(nèi)容加工的專門方法是值得嘗試的。具體如下:

      (1)由各自為政的分類索引向基于新聞分類標(biāo)準(zhǔn)整合報紙信息資源方向發(fā)展。分類索引是報紙文獻(xiàn)內(nèi)容組織最主要的傳統(tǒng)方式,但由于缺乏統(tǒng)一的分類體系,導(dǎo)致各個報系和文獻(xiàn)數(shù)據(jù)庫之間分類組織互操作的障礙,更遑論進(jìn)行資源整合。現(xiàn)在作為國家標(biāo)準(zhǔn)的《中文新聞信息分類與代碼》分類表已經(jīng)頒行,但讓各單位立即摒棄原有的分類體系卻不可行,何況這個國家標(biāo)準(zhǔn)的適用性還需要進(jìn)一步的驗證。因此,從資源整合的角度出發(fā),可考慮在沿用原有分類體系的基礎(chǔ)上,將其與標(biāo)準(zhǔn)分類表之間進(jìn)行映射轉(zhuǎn)換,通過分類表的互操作來實現(xiàn)資源整合。

      (2)由簡單主題標(biāo)引向各種實體抽取方向發(fā)展。實體標(biāo)引在報紙文獻(xiàn)標(biāo)引中是有歷史的,而各種命名實體的抽取和標(biāo)注對于報紙文獻(xiàn)檢索、建立文獻(xiàn)關(guān)聯(lián)、形成專題產(chǎn)品都具有重要意義。因此,在計算語言學(xué)和信息組織智能化不斷發(fā)展的前提下,報紙文獻(xiàn)的主題標(biāo)引還需強化,并且要進(jìn)行多元、多角度、全方位的深度標(biāo)引。

      (3)由傳統(tǒng)剪報向個性化、專題化信息產(chǎn)品方向發(fā)展。剪報是在報紙文獻(xiàn)基礎(chǔ)上形成的一種增值性信息產(chǎn)品,傳統(tǒng)的“剪刀加漿糊”的工作方式已經(jīng)不能適應(yīng)快速精準(zhǔn)的現(xiàn)代信息需求。在報紙文獻(xiàn)有序組織、深度揭示的基礎(chǔ)上,對用戶信息需求進(jìn)行細(xì)化,實現(xiàn)報紙文獻(xiàn)信息的重組和創(chuàng)新,從而形成個性化、專題化的剪報產(chǎn)品。

      (4)由傳統(tǒng)文獻(xiàn)組織向內(nèi)容挖掘方向發(fā)展。報紙文獻(xiàn)的內(nèi)容加工不能局限在為提供檢索服務(wù)的信息序化層面,而應(yīng)向內(nèi)容挖掘?qū)用孢M(jìn)行深加工。報紙文獻(xiàn)的內(nèi)容挖掘既包括單篇文獻(xiàn)中的主題揭示、各種命名實體的抽取和語義關(guān)聯(lián)、觀點挖掘等;還包括集合文獻(xiàn)的專題聚類、熱點追蹤、觀點導(dǎo)向分析、新聞過濾、輿情預(yù)警等等,真正發(fā)揮報紙文獻(xiàn)的喉舌、參謀作用。

      [1]張琪玉.報紙文獻(xiàn)是一種極為豐富而未被充分開發(fā)的信息源—關(guān)于發(fā)展報紙文獻(xiàn)索引和數(shù)據(jù)庫的思考 [J].圖書館雜志,1999(2):7-8.

      [2]王智琦,李秋實.基于CSSCI不同類型文獻(xiàn)的發(fā)展趨勢定量研究 [J].圖書館,2008(3):38-40,68.

      [3]中華人民共和國新聞出版總署.2009年全國新聞出版業(yè)基本情況[EB/OL].(2010-09-07)[2011-06-11].http://www.gapp.gov.cn/cms/html/21/493/201009/702538.html.

      [4]葛永慶.開發(fā)報紙文獻(xiàn)的重要手段和有效途徑—兼談《申報索引》的編纂出版[J].中國索引,2008(2):2-3.

      [5]宋明亮.報紙文獻(xiàn)機助自由標(biāo)引研究及對漢語后控制詞表動態(tài)維護(hù)的思考——《解放軍報》模擬檢索系統(tǒng)設(shè)計實驗報告[D].中國人民解放軍空軍政治學(xué)院碩士論文,1994.

      [6]辛乘勝.人民日報新聞文獻(xiàn)自動標(biāo)引系統(tǒng)的設(shè)計與實現(xiàn)[J].中國傳媒科技,1997(3):17-19

      [7]李素建.人民日報標(biāo)引系統(tǒng)[EB/OL].(2002-11-18)[2011-06-12].http://www.icl.pku.edu.cn/member/lisujian/papers/人民日報標(biāo)引系統(tǒng)intro.pdf.

      [8]查貴庭,侯漢清.基于多詞表的自動標(biāo)引技術(shù)研究——新華社新聞稿自動標(biāo)引的實驗[J].情報學(xué)報,2002,21(3):273-277.

      [9]馬金林.《申報》全文數(shù)據(jù)庫的自動標(biāo)引[J].信息系統(tǒng)工程,2009(11):39-40.

      [10]HanaKomorous,RobertHarriman.InternationalGuidelines for the Cataloguing of Newspapers[EB/OL].(1988-07-01)[2011-06-11].http://www.ifla.org/VII/s39/broch/intguide.pdf.

      [11]許斌.關(guān)于開發(fā)報紙文獻(xiàn)索引及數(shù)據(jù)庫的思考[J].圖書館學(xué)研究,2005(2):41-42.

      猜你喜歡
      剪報標(biāo)引全文
      我和爺爺做剪報
      全文中文摘要
      全文中文摘要
      檔案主題標(biāo)引與分類標(biāo)引的比較分析
      我為父母做剪報本
      本刊對來稿中關(guān)鍵詞標(biāo)引的要求
      中國剪報
      空中之家(2018年1期)2018-01-31 01:50:56
      青年再造
      中國剪報
      空中之家(2016年1期)2016-05-17 04:47:42
      本刊對來稿中關(guān)鍵詞標(biāo)引的要求
      余姚市| 通道| 织金县| 怀仁县| 奉新县| 石景山区| 诏安县| 神木县| 陈巴尔虎旗| 沐川县| 云龙县| 武川县| 嫩江县| 竹溪县| 马山县| 通渭县| 塘沽区| 阿瓦提县| 大洼县| 常熟市| 丽水市| 新沂市| 望奎县| 集贤县| 庐江县| 嘉定区| 巨野县| 武夷山市| 宜兴市| 西乌| 泾阳县| 仁布县| 揭东县| 伊川县| 蚌埠市| 庆城县| 忻城县| 兰溪市| 乐都县| 四会市| 鄂托克前旗|