隨機(jī)著色Petri網(wǎng)在圖書館文獻(xiàn)檢索系統(tǒng)中的應(yīng)用

2010-03-22 11:34:53廣州市體育職業(yè)技術(shù)學(xué)院圖書館廣州510650

圖書館理論與實(shí)踐 2010年11期

●鄧娉（廣州市體育職業(yè)技術(shù)學(xué)院圖書館，廣州 510650）

圖書館文獻(xiàn)檢索系統(tǒng)是圖書館信息管理系統(tǒng)的一個(gè)重要組成部分。圖書數(shù)量的急劇增長(zhǎng)以及各類新型數(shù)字文獻(xiàn)資源的不斷出現(xiàn)，對(duì)傳統(tǒng)圖書館管理系統(tǒng)的檢索效率提出了嚴(yán)峻的挑戰(zhàn)。面對(duì)眾多的新型數(shù)字文獻(xiàn)資源，讀者常常感到無所適從，不知道怎樣才能找到自己需要的信息，他們希望能夠通過統(tǒng)一的界面，方便、快捷、準(zhǔn)確地檢索到圖書館的所有資源。因此如何整合傳統(tǒng)印刷型文獻(xiàn)資源與現(xiàn)有各種數(shù)字資源，并與不斷增長(zhǎng)的數(shù)字資源無縫整合，為讀者提供統(tǒng)一的檢索平臺(tái)，提供個(gè)性化服務(wù)，成為現(xiàn)在圖書館信息系統(tǒng)建設(shè)中的一個(gè)重要課題。本文將數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)應(yīng)用于圖書館信息管理系統(tǒng)的檢索系統(tǒng)中，引入隨機(jī)著色Petri網(wǎng)技術(shù)，對(duì)圖書館文獻(xiàn)檢索系統(tǒng)重新建模，實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)模擬；對(duì)圖書館各種新型文獻(xiàn)資源的檢索方式進(jìn)行整合，提出了一種基于智能搜索引擎及讀者歷史借閱行為分析的客觀評(píng)價(jià)方法。［1,2］

1 隨機(jī)著色Petri網(wǎng)

Petri網(wǎng)是一種常用的圖形化動(dòng)態(tài)計(jì)算機(jī)系統(tǒng)建模工具,作為一種圖形化的工具，它將圖形描述和數(shù)字分析相結(jié)合，兼具圖形方法的直觀性和邏輯方法的概括性，所以它特別適合于描述具有并行、并發(fā)、同步、資源分配等特性的復(fù)雜系統(tǒng)。目前Petri網(wǎng)已經(jīng)被廣泛地應(yīng)用在各個(gè)領(lǐng)域進(jìn)行系統(tǒng)的建模、分析和控制。Petri網(wǎng)在線路系統(tǒng)、通信協(xié)議、軟件工程、人工智能、柔性制造系統(tǒng)、過程控制系統(tǒng)以及分布式的實(shí)時(shí)建模等方面都起著越來越重要的作用。［3］

但是，用基本Petri網(wǎng)對(duì)復(fù)雜系統(tǒng)進(jìn)行建模與分析，往往因?yàn)闋顟B(tài)空間龐大、復(fù)雜以及缺少時(shí)間表示功能而難以實(shí)現(xiàn)。因此，在描述復(fù)雜系統(tǒng)時(shí)一般多采用經(jīng)過擴(kuò)展的高級(jí)Petri網(wǎng)，如隨機(jī)Petri網(wǎng)（SPN,Stochastic Petri net）、著色 Petri網(wǎng) （CPN,Colored Petri net）等，但是同基本Petri網(wǎng)一樣，采用隨機(jī)Petri網(wǎng)模擬的系統(tǒng)維數(shù)較高，對(duì)系統(tǒng)進(jìn)行描述時(shí)會(huì)出現(xiàn)所謂“狀態(tài)空間爆炸”現(xiàn)象。而隨機(jī)著色Petri網(wǎng)（ScpN）是具有層次性的高級(jí)Petri網(wǎng)，它有機(jī)結(jié)合了數(shù)據(jù)結(jié)構(gòu)和層次分解，具有賦予令牌顏色和層次網(wǎng)絡(luò)的特點(diǎn)：一是標(biāo)記的顏色可以攜帶信息，代表任意復(fù)雜的數(shù)據(jù)，大大簡(jiǎn)化了網(wǎng)絡(luò)的復(fù)雜度；二是利用層次結(jié)構(gòu)，可以從整體到局部，逐步細(xì)化，從而具有更強(qiáng)的可重用性和可操作性。［4-6］2文獻(xiàn)檢索系統(tǒng)分析

2.1 各類文獻(xiàn)檢索方式的整合

目前各圖書館除傳統(tǒng)的印刷型圖書外都通過購買數(shù)據(jù)庫、自建數(shù)據(jù)庫的方式建立了大量的數(shù)字文獻(xiàn)資源，但由于這些數(shù)字資源建設(shè)的不同步或各提供廠商采用的技術(shù)不同，各數(shù)字資源都有自己的數(shù)據(jù)機(jī)構(gòu)、組織方式、查詢方式以及顯示界面。讀者為了查閱資料，不得不分別進(jìn)入不同的查詢系統(tǒng)，熟悉每個(gè)數(shù)據(jù)資源的檢索方式和終端瀏覽軟件。另外，各種多媒體音視頻文獻(xiàn)資源沒有統(tǒng)一、有效的檢索方法，這讓不是專門從事檢索工作的讀者往往無所適從。所以，對(duì)圖書館的各類型文獻(xiàn)資源檢索方式進(jìn)行整合，就成為圖書館亟待解決的重要課題。

圖書館的文獻(xiàn)檢索系統(tǒng)可以借鑒互聯(lián)網(wǎng)搜索引擎的技術(shù)方法，應(yīng)用隨機(jī)著色Petri網(wǎng)技術(shù)，分析各類數(shù)字文獻(xiàn)資源，重構(gòu)數(shù)據(jù)搜索模型，建立適合圖書館館藏特點(diǎn)的搜索算法。

2.2 讀者行為分析

在影響檢索效率的因素中，檢索結(jié)果的排序方式是最重要的一項(xiàng)。統(tǒng)計(jì)顯示，搜索用戶一般只看到檢索結(jié)果的前5頁。按照信息檢索理論的觀點(diǎn)，檢索效率主要通過查全率和查準(zhǔn)率兩個(gè)指標(biāo)來體現(xiàn)。從用戶的角度來說，查準(zhǔn)率即檢索結(jié)果的有效性，比單純的檢索結(jié)果數(shù)量更有意義。信息檢索中的許多問題都可以形式化為排序問題。排序?qū)W習(xí)是近年來提出的用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法進(jìn)行排序模型建模的技術(shù)，已成為信息檢索領(lǐng)域的熱點(diǎn)。此外，數(shù)據(jù)挖掘技術(shù)在商業(yè)等領(lǐng)域得到了很好的應(yīng)用。結(jié)果相關(guān)度排序、邏輯查詢、結(jié)果中查詢等技術(shù)提高了搜索的準(zhǔn)確度；而重要程度排序、讀者行為分析等技術(shù)更加符合讀者的心理。圖書館的信息服務(wù)模式與市場(chǎng)營銷模式有很多相似之處，通過收集、加工和處理大量的讀者行為信息，確定特定借閱群體的興趣和借閱習(xí)慣，可以推斷出未來的借閱行為，能夠?yàn)閳D書館提高主動(dòng)服務(wù)技術(shù)提供依據(jù)。

3 基于隨機(jī)著色Petri網(wǎng)的文獻(xiàn)檢索系統(tǒng)模型

首先分析系統(tǒng)，確定系統(tǒng)的庫所和變遷，建立系統(tǒng)的PN模型；然后在變遷的可實(shí)施與實(shí)施之間加入連續(xù)的隨機(jī)延遲時(shí)間，建立系統(tǒng)的SPN模型；再根據(jù)著色Petri網(wǎng)的思想，合并相關(guān)的同類項(xiàng)，建立系統(tǒng)的SCPN模型。

3.1 算法原理

對(duì)借閱數(shù)據(jù)的分析表明，讀者借還科技圖書的情況主要可以分為以下4種∶

（1）如果閱讀后發(fā)現(xiàn)某本書并不適合自己，會(huì)在較短的時(shí)間（一兩天）內(nèi)歸還圖書，這種情況常見于一些發(fā)展較快的學(xué)科，如計(jì)算機(jī)類，早期的圖書已不適用，還有一些書名容易誤導(dǎo)讀者的圖書;（2）如果某本書比較適合，則會(huì)仔細(xì)閱讀，讀完后歸還，這種情況常見于課程前期閱讀材料，借期一般在4-10天；（3）如果某本書參考價(jià)值較大，如習(xí)題集，則會(huì)保留較長(zhǎng)時(shí)間，甚至續(xù)借；（4）由于其他原因，造成的延后還書，甚至所借閱圖書丟失。

上述的第（2）和第（3）種情況屬于正常借閱，這里希望借助于排序算法解決的是第（1）種情況。其目標(biāo)是，使得屬于第（1）種情況的圖書在查詢結(jié)果中排在后面。

排序算法的基本原理是：設(shè)計(jì)一個(gè)評(píng)價(jià)系數(shù)，使這個(gè)系數(shù)在第（1）種情況下緩慢增長(zhǎng)，而第（2）和第（3）種情況下較快增長(zhǎng)，查詢結(jié)果按評(píng)價(jià)系數(shù)排序，從而實(shí)現(xiàn)將“適合的”圖書推薦給讀者的目的。由此，可以將評(píng)價(jià)系數(shù)設(shè)計(jì)為：將每條借閱記錄的實(shí)際借閱時(shí)間除以借閱者可借閱時(shí)間并求和，這樣就可以實(shí)現(xiàn)上述目標(biāo)。

雖然第（4）種借閱情況會(huì)對(duì)評(píng)價(jià)系數(shù)造成干擾，但由于圖書丟失等原因長(zhǎng)時(shí)間不歸還，對(duì)應(yīng)圖書的評(píng)價(jià)系數(shù)較大，但在算法中可采用根據(jù)還書記錄去匹配借閱記錄的方法來防止這種干擾。圖書丟失后，因?yàn)闆]有還書記錄，此次借閱不會(huì)影響到評(píng)價(jià)系數(shù)。而第（1）種情況下，雖然借閱次數(shù)比較多，但由于實(shí)際借閱時(shí)間除以借閱者可借閱時(shí)間后，該值會(huì)非常小，而從讀者還書到重新上架還有一段時(shí)間，這些都使得評(píng)價(jià)系數(shù)增長(zhǎng)緩慢。在第（2）和第（3）種借閱情況下，評(píng)價(jià)系數(shù)的增長(zhǎng)都比第（1）種情況要快，在算法實(shí)際測(cè)試中，筆者發(fā)現(xiàn)，第（3）種情況下，其評(píng)價(jià)系數(shù)增長(zhǎng)要快于第（2）種情況。這個(gè)現(xiàn)象可以通過對(duì)借閱時(shí)間進(jìn)行檢測(cè)，檢測(cè)其超過一定數(shù)值后乘上一個(gè)小于1的系數(shù)來進(jìn)行調(diào)整。

3.2 排序算法

基于上述原理，排序算法設(shè)計(jì)如下∶

大多數(shù)圖書自動(dòng)化管理系統(tǒng)均有記錄借閱日志的功能，根據(jù)圖書的借閱日志，對(duì)每本科技圖書的借閱信息進(jìn)行數(shù)據(jù)挖掘處理。

在圖書自動(dòng)化管理系統(tǒng)的書目信息表中增加評(píng)價(jià)系數(shù)字段PJXS，將每本圖書預(yù)處理后得到的評(píng)價(jià)系數(shù)值填入對(duì)應(yīng)的記錄。對(duì)每本書根據(jù)歷史借閱信息求得其評(píng)價(jià)系數(shù)。

處理流程為：第一步，將圖書自動(dòng)化管理系統(tǒng)中記錄的借閱日志導(dǎo)出到SQL Server的日志表中；第二步，將導(dǎo)出的日志中的還書記錄逐條處理，求得書目信息表中各記錄的評(píng)價(jià)系數(shù)字段PJXS值；第三步，返回到第二步，直至所有借閱日志被處理完成。

［1］樓玉萍.基于B/S模式的計(jì)算機(jī)基礎(chǔ)考試系統(tǒng)的研究和實(shí)現(xiàn)［D］.長(zhǎng)沙：國防科技大學(xué)，2005.

［2］李志明.基于Web服務(wù)的在線考試系統(tǒng)應(yīng)用及研究［D］.廣州：廣東工業(yè)大學(xué)，2005.

［3］于曉鵬.計(jì)算機(jī)建庫理論與技術(shù)［J］.松遼學(xué)刊,1998（1）∶70-71.

［4］胡維芳.論項(xiàng)目反應(yīng)理論［J］.高等理科教育,2005（3）∶66.

［5］周雪燕.網(wǎng)絡(luò)在線考試系統(tǒng)的開發(fā)及應(yīng)用研究［D］.西安：陜西師范大學(xué),2006.

［6］林雪明.試題難度系數(shù)確定數(shù)學(xué)模型的建立與實(shí)現(xiàn)［J］.杭州應(yīng)用工程技術(shù)學(xué)院學(xué)報(bào)，2001（3）∶48-49.