摘 要:圖書館具有非常豐富的館藏資源,涉及實體圖書,電子圖書,音像制品等眾多知識載體信息,信息的分布呈現(xiàn)出一定的不規(guī)則性和隨意性,本文從信息檢索的角度出發(fā),對眾多信息形式進行分析組合,構(gòu)建信息檢索架構(gòu),提高資源檢索時的效率。
關鍵詞:圖書館資源;信息檢索;系統(tǒng)架構(gòu)
中圖分類號:TH166
圖書館,是搜集、整理、收藏圖書資料以供人閱覽、參考的機構(gòu),圖書館中收藏了大量的圖書資料。以北京圖書館為例:到2011年底,總、分館文獻資源累積量約1100余萬冊(件)。其中紙質(zhì)藏書800余萬冊,以及近年來大量引進和自建的國內(nèi)外數(shù)字資源,包括各類數(shù)據(jù)庫、電子期刊、電子圖書和多媒體資源約300余萬冊(件)。面對如此浩瀚的信息知識庫,用戶如何快速定位自己需要的信息是圖書館在信息建設時必須要解決的問題。
圖書館最早的信息檢索方式是采用目錄式的方式,即將圖書進行分類,不同類別的圖書設置不同編碼形式(如TP391),用戶首先需要明確檢索信息的類別信息,再根據(jù)類別進行逐次篩選,這種方式在圖書館剛剛興起時是一種比較好的方式。如今,圖書館中各種信息資源已經(jīng)呈現(xiàn)出非常明顯的增長趨勢,基于圖書的信息檢索系統(tǒng)也因此走上歷史舞臺,本文結(jié)合圖書館中信息資源的特點,以計算機的角度對圖書信息檢索系統(tǒng)進行剖析,闡述其中的技術細節(jié)。
1 圖書信息檢索系統(tǒng)評價指標
信息檢索評價是對信息檢索系統(tǒng)性能(主要滿足用戶信息需求的能力)進行評估的活動。通過評估可以評價不同技術的優(yōu)劣,不同因素對系統(tǒng)的影響,從而促進本領域研究水平的不斷提高。信息檢索系統(tǒng)的目標是在較少消耗的情況下盡快、全面返回準確的結(jié)果。根據(jù)F.W.Lancaster的闡述,判定一個檢索系統(tǒng)的優(yōu)劣,主要從質(zhì)量、費用和時間三方面來衡量。因此,對計算機信息檢索的效果評價也應該從這三個方面進行。本文主要研究信息檢索系統(tǒng)的質(zhì)量標準,質(zhì)量標準主要通過查全率與查準率進行評價。
查全率和查準率是判定檢索效果的主要標準,而后兩者相對來說要次要些。
查全率是指系統(tǒng)在進行某一檢索時,檢出的相關文獻量與系統(tǒng)文獻庫中相關文獻總量的比率,它反映該系統(tǒng)文獻庫中實有的相關文獻量在多大程度上被檢索出來。
查全率=[檢出相關文獻量/文獻庫內(nèi)相關文獻總量]×100% (1)
查準率是指系統(tǒng)在進行某一檢索時,檢出的相關文獻量與檢出文獻總量的比率,它反映每次從該系統(tǒng)文獻庫中實際檢出的全部文獻中有多少是相關的。
查準率=[檢出相關文獻量/檢出文獻總量]×100% (2)
查全率與查準率是評價檢索效果的兩項重要指標。查全率和查準率與文獻的存儲與信息檢索兩個方面是直接相關的,也就是說,與系統(tǒng)的收錄范圍、索引語言、標引工作和檢索工作等有著非常密切的關系。
影響查全率的因素:從文獻存儲來看,主要有:文獻庫收錄文獻不全;索引詞匯缺乏控制和專指性;詞表結(jié)構(gòu)不完整;詞間關系模糊或不正確;標引不詳;標引前后不一致;標引人員遺漏了原文的重要概念或用詞不當?shù)?。此外,從情報檢索來看,主要有:檢索策略過于簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索人員業(yè)務不熟練和缺乏耐心;檢索系統(tǒng)不具備截詞功能和反饋功能,檢索時不能全面地描述檢索要求等。
影響查準率的因素:主要有:索引詞不能準確描述文獻主題和檢索要求;組配規(guī)則不嚴密;選詞及詞間關系不正確;標引過于詳盡;組配錯誤;檢索時所用檢索詞(或檢索式)專指度不夠,檢索面寬于檢索要求;檢索系統(tǒng)不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數(shù)量有限;截詞部位不當,檢索式中使用邏輯“或”不當?shù)鹊取?/p>
2 信息檢索系統(tǒng)體系架構(gòu)
一個完整的圖書信息檢索系統(tǒng)應當包括圖書信息的預處理,圖書信息的入庫、用戶檢索接口、資源匹配、資源排序等部分,本文主要就以下幾個部分進行闡述。
2.1 索引子系統(tǒng)
索引子系統(tǒng)主要完成的工作是對圖書信息的入庫工作,圖書館中信息資源具有完整的資源名,然而用戶在搜索時是通過輸入關鍵字來發(fā)現(xiàn)類似的資源,因此需要對信息資源進行預處理。主要通過對信息資源名構(gòu)建倒排索引,通過建立關鍵詞和信息資源名之間的鄰接矩陣,如此則完成信息資源和關鍵詞之間的關聯(lián)性,用戶可以通過關鍵詞發(fā)現(xiàn)自身需要的相關聯(lián)文檔。
2.2 查詢子系統(tǒng)
查詢子系統(tǒng)主要提供給用戶查詢接口,用戶通過輸入檢索關鍵詞,查詢子系統(tǒng)需要對用戶的檢索關鍵詞進行分析,可能用戶輸入的關鍵詞并非規(guī)范的形式,可能還存在著錯誤信息,或者是以字母形式輸入,或者是以英文或者其它方式輸入,查詢子系統(tǒng)需要對輸入的檢索關鍵詞進行消歧工作。
2.3 資源匹配子系統(tǒng)
資源匹配子系統(tǒng)主要根據(jù)用戶的檢索關鍵詞在圖書館數(shù)據(jù)庫資源中進行資源匹配,尋找和用戶相關聯(lián)的資源,資源匹配的方式有很多種,諸如采用完全匹配方式(即用戶輸入的關鍵詞和數(shù)據(jù)庫中資源完成匹配)、部分匹配方式(用戶輸入的關鍵詞中部分信息和數(shù)據(jù)庫中信息匹配成功)、語義匹配方式(用戶輸入的關鍵詞與數(shù)據(jù)庫中資源存在語義上的關聯(lián)性)。
2.4 資源排序子系統(tǒng)
資源排序子系統(tǒng)主要根據(jù)用戶的檢索關鍵詞對匹配完成的資源信息進行排序,按照資源的重要性和用戶檢索的相關聯(lián)程度進行梯度排序,排序的原則有多種方式,諸如余弦相似度,向量相似度,Jaccard相似度,Dice相似度等多種方式,有些排序子系統(tǒng)根據(jù)現(xiàn)今流行的搜索引擎頁面排序算法進行改進,并將改進的排序算法移植于圖書信息檢索系統(tǒng)中。
3 結(jié)束語
本文根據(jù)圖書館資源豐富的特點,從計算機的角度對圖書館資源進行分析,梳理圖書檢索系統(tǒng)的體系架構(gòu)已經(jīng)對檢索系統(tǒng)進行評價時采用的評價指標。圖書檢索系統(tǒng)可以歸納為索引子系統(tǒng)、檢索子系統(tǒng)、資源匹配子系統(tǒng)和資源子系統(tǒng)四大部分,每一個子系統(tǒng)在整個系統(tǒng)中都有著不可忽視的作用,各個子系統(tǒng)之間統(tǒng)籌合作完成圖書信息的檢索工作。
參考文獻:
[1]楊東波,廖祥文.構(gòu)建一個大規(guī)模?可擴展的數(shù)字圖書館檢索系統(tǒng)架構(gòu)[J].現(xiàn)代圖書情報技術,2006(08):24-30.
[2]肖玉華.圖書館圖書檢索系統(tǒng)建設的研究[J].科技資訊,2013(36):252.
[3]柳萍,嚴瑋.構(gòu)筑“零維護”的圖書館檢索系統(tǒng)[J].圖書館學刊,2005(02):118-120.
作者簡介:鄶媛媛(1983.10-),女,遼寧沈陽人,講師,研究方向:圖書館管理。
作者單位:遼寧行政學院,沈陽 110161