●鄧 娉(廣州市體育職業(yè)技術(shù)學(xué)院 圖書館,廣州 510650)
圖書館文獻(xiàn)檢索系統(tǒng)是圖書館信息管理系統(tǒng)的一個(gè)重要組成部分。圖書數(shù)量的急劇增長(zhǎng)以及各類新型數(shù)字文獻(xiàn)資源的不斷出現(xiàn),對(duì)傳統(tǒng)圖書館管理系統(tǒng)的檢索效率提出了嚴(yán)峻的挑戰(zhàn)。面對(duì)眾多的新型數(shù)字文獻(xiàn)資源,讀者常常感到無所適從,不知道怎樣才能找到自己需要的信息,他們希望能夠通過統(tǒng)一的界面,方便、快捷、準(zhǔn)確地檢索到圖書館的所有資源。因此如何整合傳統(tǒng)印刷型文獻(xiàn)資源與現(xiàn)有各種數(shù)字資源,并與不斷增長(zhǎng)的數(shù)字資源無縫整合,為讀者提供統(tǒng)一的檢索平臺(tái),提供個(gè)性化服務(wù),成為現(xiàn)在圖書館信息系統(tǒng)建設(shè)中的一個(gè)重要課題。本文將數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)應(yīng)用于圖書館信息管理系統(tǒng)的檢索系統(tǒng)中,引入隨機(jī)著色Petri網(wǎng)技術(shù),對(duì)圖書館文獻(xiàn)檢索系統(tǒng)重新建模,實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)模擬;對(duì)圖書館各種新型文獻(xiàn)資源的檢索方式進(jìn)行整合,提出了一種基于智能搜索引擎及讀者歷史借閱行為分析的客觀評(píng)價(jià)方法。[1,2]
Petri網(wǎng)是一種常用的圖形化動(dòng)態(tài)計(jì)算機(jī)系統(tǒng)建模工具,作為一種圖形化的工具,它將圖形描述和數(shù)字分析相結(jié)合,兼具圖形方法的直觀性和邏輯方法的概括性,所以它特別適合于描述具有并行、并發(fā)、同步、資源分配等特性的復(fù)雜系統(tǒng)。目前Petri網(wǎng)已經(jīng)被廣泛地應(yīng)用在各個(gè)領(lǐng)域進(jìn)行系統(tǒng)的建模、分析和控制。Petri網(wǎng)在線路系統(tǒng)、通信協(xié)議、軟件工程、人工智能、柔性制造系統(tǒng)、過程控制系統(tǒng)以及分布式的實(shí)時(shí)建模等方面都起著越來越重要的作用。[3]
但是,用基本Petri網(wǎng)對(duì)復(fù)雜系統(tǒng)進(jìn)行建模與分析,往往因?yàn)闋顟B(tài)空間龐大、復(fù)雜以及缺少時(shí)間表示功能而難以實(shí)現(xiàn)。因此,在描述復(fù)雜系統(tǒng)時(shí)一般多采用經(jīng)過擴(kuò)展的高級(jí)Petri網(wǎng),如隨機(jī)Petri網(wǎng)(SPN,Stochastic Petri net)、著色 Petri網(wǎng) (CPN,Colored Petri net) 等,但是同基本Petri網(wǎng)一樣,采用隨機(jī)Petri網(wǎng)模擬的系統(tǒng)維數(shù)較高,對(duì)系統(tǒng)進(jìn)行描述時(shí)會(huì)出現(xiàn)所謂“狀態(tài)空間爆炸”現(xiàn)象。而隨機(jī)著色Petri網(wǎng)(ScpN)是具有層次性的高級(jí)Petri網(wǎng),它有機(jī)結(jié)合了數(shù)據(jù)結(jié)構(gòu)和層次分解,具有賦予令牌顏色和層次網(wǎng)絡(luò)的特點(diǎn):一是標(biāo)記的顏色可以攜帶信息,代表任意復(fù)雜的數(shù)據(jù),大大簡(jiǎn)化了網(wǎng)絡(luò)的復(fù)雜度;二是利用層次結(jié)構(gòu),可以從整體到局部,逐步細(xì)化,從而具有更強(qiáng)的可重用性和可操作性。[4-6]2文獻(xiàn)檢索系統(tǒng)分析
目前各圖書館除傳統(tǒng)的印刷型圖書外都通過購買數(shù)據(jù)庫、自建數(shù)據(jù)庫的方式建立了大量的數(shù)字文獻(xiàn)資源,但由于這些數(shù)字資源建設(shè)的不同步或各提供廠商采用的技術(shù)不同,各數(shù)字資源都有自己的數(shù)據(jù)機(jī)構(gòu)、組織方式、查詢方式以及顯示界面。讀者為了查閱資料,不得不分別進(jìn)入不同的查詢系統(tǒng),熟悉每個(gè)數(shù)據(jù)資源的檢索方式和終端瀏覽軟件。另外,各種多媒體音視頻文獻(xiàn)資源沒有統(tǒng)一、有效的檢索方法,這讓不是專門從事檢索工作的讀者往往無所適從。所以,對(duì)圖書館的各類型文獻(xiàn)資源檢索方式進(jìn)行整合,就成為圖書館亟待解決的重要課題。
圖書館的文獻(xiàn)檢索系統(tǒng)可以借鑒互聯(lián)網(wǎng)搜索引擎的技術(shù)方法,應(yīng)用隨機(jī)著色Petri網(wǎng)技術(shù),分析各類數(shù)字文獻(xiàn)資源,重構(gòu)數(shù)據(jù)搜索模型,建立適合圖書館館藏特點(diǎn)的搜索算法。
在影響檢索效率的因素中,檢索結(jié)果的排序方式是最重要的一項(xiàng)。統(tǒng)計(jì)顯示,搜索用戶一般只看到檢索結(jié)果的前5頁。按照信息檢索理論的觀點(diǎn),檢索效率主要通過查全率和查準(zhǔn)率兩個(gè)指標(biāo)來體現(xiàn)。從用戶的角度來說,查準(zhǔn)率即檢索結(jié)果的有效性,比單純的檢索結(jié)果數(shù)量更有意義。信息檢索中的許多問題都可以形式化為排序問題。排序?qū)W習(xí)是近年來提出的用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法進(jìn)行排序模型建模的技術(shù),已成為信息檢索領(lǐng)域的熱點(diǎn)。此外,數(shù)據(jù)挖掘技術(shù)在商業(yè)等領(lǐng)域得到了很好的應(yīng)用。結(jié)果相關(guān)度排序、邏輯查詢、結(jié)果中查詢等技術(shù)提高了搜索的準(zhǔn)確度;而重要程度排序、讀者行為分析等技術(shù)更加符合讀者的心理。圖書館的信息服務(wù)模式與市場(chǎng)營銷模式有很多相似之處,通過收集、加工和處理大量的讀者行為信息,確定特定借閱群體的興趣和借閱習(xí)慣,可以推斷出未來的借閱行為,能夠?yàn)閳D書館提高主動(dòng)服務(wù)技術(shù)提供依據(jù)。
首先分析系統(tǒng),確定系統(tǒng)的庫所和變遷,建立系統(tǒng)的PN模型;然后在變遷的可實(shí)施與實(shí)施之間加入連續(xù)的隨機(jī)延遲時(shí)間,建立系統(tǒng)的SPN模型;再根據(jù)著色Petri網(wǎng)的思想,合并相關(guān)的同類項(xiàng),建立系統(tǒng)的SCPN模型。
對(duì)借閱數(shù)據(jù)的分析表明,讀者借還科技圖書的情況主要可以分為以下4種∶
(1)如果閱讀后發(fā)現(xiàn)某本書并不適合自己,會(huì)在較短的時(shí)間(一兩天)內(nèi)歸還圖書,這種情況常見于一些發(fā)展較快的學(xué)科,如計(jì)算機(jī)類,早期的圖書已不適用,還有一些書名容易誤導(dǎo)讀者的圖書;(2)如果某本書比較適合,則會(huì)仔細(xì)閱讀,讀完后歸還,這種情況常見于課程前期閱讀材料,借期一般在4-10天;(3)如果某本書參考價(jià)值較大,如習(xí)題集,則會(huì)保留較長(zhǎng)時(shí)間,甚至續(xù)借;(4)由于其他原因,造成的延后還書,甚至所借閱圖書丟失。
上述的第(2)和第(3)種情況屬于正常借閱,這里希望借助于排序算法解決的是第(1)種情況。其目標(biāo)是,使得屬于第(1)種情況的圖書在查詢結(jié)果中排在后面。
排序算法的基本原理是:設(shè)計(jì)一個(gè)評(píng)價(jià)系數(shù),使這個(gè)系數(shù)在第(1)種情況下緩慢增長(zhǎng),而第(2)和第(3)種情況下較快增長(zhǎng),查詢結(jié)果按評(píng)價(jià)系數(shù)排序,從而實(shí)現(xiàn)將“適合的”圖書推薦給讀者的目的。由此,可以將評(píng)價(jià)系數(shù)設(shè)計(jì)為:將每條借閱記錄的實(shí)際借閱時(shí)間除以借閱者可借閱時(shí)間并求和,這樣就可以實(shí)現(xiàn)上述目標(biāo)。
雖然第(4)種借閱情況會(huì)對(duì)評(píng)價(jià)系數(shù)造成干擾,但由于圖書丟失等原因長(zhǎng)時(shí)間不歸還,對(duì)應(yīng)圖書的評(píng)價(jià)系數(shù)較大,但在算法中可采用根據(jù)還書記錄去匹配借閱記錄的方法來防止這種干擾。圖書丟失后,因?yàn)闆]有還書記錄,此次借閱不會(huì)影響到評(píng)價(jià)系數(shù)。而第(1)種情況下,雖然借閱次數(shù)比較多,但由于實(shí)際借閱時(shí)間除以借閱者可借閱時(shí)間后,該值會(huì)非常小,而從讀者還書到重新上架還有一段時(shí)間,這些都使得評(píng)價(jià)系數(shù)增長(zhǎng)緩慢。在第(2)和第(3)種借閱情況下,評(píng)價(jià)系數(shù)的增長(zhǎng)都比第(1)種情況要快,在算法實(shí)際測(cè)試中,筆者發(fā)現(xiàn),第(3)種情況下,其評(píng)價(jià)系數(shù)增長(zhǎng)要快于第(2)種情況。這個(gè)現(xiàn)象可以通過對(duì)借閱時(shí)間進(jìn)行檢測(cè),檢測(cè)其超過一定數(shù)值后乘上一個(gè)小于1的系數(shù)來進(jìn)行調(diào)整。
基于上述原理,排序算法設(shè)計(jì)如下∶
大多數(shù)圖書自動(dòng)化管理系統(tǒng)均有記錄借閱日志的功能,根據(jù)圖書的借閱日志,對(duì)每本科技圖書的借閱信息進(jìn)行數(shù)據(jù)挖掘處理。
在圖書自動(dòng)化管理系統(tǒng)的書目信息表中增加評(píng)價(jià)系數(shù)字段PJXS,將每本圖書預(yù)處理后得到的評(píng)價(jià)系數(shù)值填入對(duì)應(yīng)的記錄。對(duì)每本書根據(jù)歷史借閱信息求得其評(píng)價(jià)系數(shù)。
處理流程為:第一步,將圖書自動(dòng)化管理系統(tǒng)中記錄的借閱日志導(dǎo)出到SQL Server的日志表中;第二步,將導(dǎo)出的日志中的還書記錄逐條處理,求得書目信息表中各記錄的評(píng)價(jià)系數(shù)字段PJXS值;第三步,返回到第二步,直至所有借閱日志被處理完成。
[1]樓玉萍.基于B/S模式的計(jì)算機(jī)基礎(chǔ)考試系統(tǒng)的研究和實(shí)現(xiàn)[D].長(zhǎng)沙:國防科技大學(xué),2005.
[2]李志明.基于Web服務(wù)的在線考試系統(tǒng)應(yīng)用及研究[D].廣州:廣東工業(yè)大學(xué),2005.
[3]于曉鵬.計(jì)算機(jī)建庫理論與技術(shù)[J].松遼學(xué)刊,1998(1)∶70-71.
[4]胡維芳.論項(xiàng)目反應(yīng)理論[J].高等理科教育,2005(3)∶66.
[5]周雪燕.網(wǎng)絡(luò)在線考試系統(tǒng)的開發(fā)及應(yīng)用研究[D].西安:陜西師范大學(xué),2006.
[6]林雪明.試題難度系數(shù)確定數(shù)學(xué)模型的建立與實(shí)現(xiàn)[J].杭州應(yīng)用工程技術(shù)學(xué)院學(xué)報(bào),2001(3)∶48-49.