靳輝
(哈爾濱金融學(xué)院圖書(shū)館哈爾濱150030)
基于RSS技術(shù)的圖書(shū)館一站式信息服務(wù)
靳輝
(哈爾濱金融學(xué)院圖書(shū)館哈爾濱150030)
為了完善一站式服務(wù)內(nèi)容,提高圖書(shū)館信息服務(wù)水平,對(duì)RSS技術(shù)原理剖析后提出了基于RSS技術(shù)的一站式信息服務(wù)模型。該模型主要通過(guò)用戶(hù)興趣庫(kù)的構(gòu)建、信息源獲取及RSS源文件的解析、多維權(quán)值排序算法來(lái)實(shí)現(xiàn)。最后給出了模型的誤差仿真實(shí)驗(yàn)。此模型提高了圖書(shū)館信息服務(wù)的個(gè)性化程度,將知識(shí)、信息和用戶(hù)銜接起來(lái),以全新的視角改善了網(wǎng)絡(luò)資源的使用率。
RSS 圖書(shū)館 一站式服務(wù) 信息服務(wù)
G202
A
現(xiàn)代信息技術(shù)的成熟加快了圖書(shū)館的數(shù)字化、個(gè)性化信息服務(wù)的進(jìn)程。個(gè)性化信息服務(wù)就是根據(jù)用戶(hù)的信息需求供給不同的信息內(nèi)容,并利用好的信息供給刺激用戶(hù)產(chǎn)生更高的信息需求并尋求滿(mǎn)足。[1]為用戶(hù)提供豐富、便利、主動(dòng)、及時(shí)、有效的信息服務(wù),充份加強(qiáng)對(duì)信息資源的分散性與用戶(hù)需求特定性的協(xié)調(diào);對(duì)信息服務(wù)的方式與用戶(hù)的獲取信息的方便度、滿(mǎn)意度的協(xié)調(diào);對(duì)信息供給的全面性、相似性與供給速度的協(xié)調(diào)已成為高校圖書(shū)館的觀注重點(diǎn)。本文以RSS技術(shù)為基礎(chǔ)建立雙向協(xié)調(diào)性、學(xué)習(xí)性、互動(dòng)性完備的一站式服務(wù)模型,為不斷提高圖書(shū)館個(gè)性化、學(xué)科化、專(zhuān)業(yè)化服務(wù)水平提供技術(shù)平臺(tái)。
RSS技術(shù)是基于XML標(biāo)準(zhǔn)建立的內(nèi)容包裝和投遞的協(xié)議,是各站點(diǎn)之間共享內(nèi)容,實(shí)現(xiàn)個(gè)性化信息服務(wù)的信息聚合技術(shù)。服務(wù)提供者將信息以記錄的形式封裝成RSS文件,直接被其他站點(diǎn)調(diào)用或在其他的終端和服務(wù)中使用。還可根據(jù)用戶(hù)的定制項(xiàng)目,由RSS Reader(專(zhuān)用/在線(xiàn)閱讀器、Web瀏覽器)提取信息,以用戶(hù)感興趣、習(xí)慣的顯示方式向用戶(hù)提供一站式信息服務(wù)。RSS以其特有的高度聯(lián)合性、個(gè)性化動(dòng)態(tài)聚合性讓用戶(hù)可以選擇性地過(guò)濾、訂閱出自己感興趣的消息,并且獲得的是全綠色無(wú)垃圾信息。用戶(hù)不必在各網(wǎng)站來(lái)回切換查找信息。RSS文件封裝及發(fā)布在技術(shù)實(shí)現(xiàn)上是極為簡(jiǎn)單的一次性的工作,操作簡(jiǎn)單、低成本、強(qiáng)時(shí)效性是其他方式所無(wú)法比擬的。
……
元素說(shuō)明:
模型結(jié)構(gòu)如圖1所示,該模型說(shuō)明如下:
圖1 基于RSS的一站式信息服務(wù)模型
(1)用戶(hù)通過(guò)Web瀏覽器或RSS閱讀器獲得服務(wù)內(nèi)容。并可以對(duì)感興趣的內(nèi)容進(jìn)行自助式定制。
(2)模型根據(jù)用戶(hù)輸入的相關(guān)內(nèi)容對(duì)其興趣愛(ài)好進(jìn)行分析建模,從而構(gòu)建用戶(hù)興趣庫(kù)。
(3)模型提供網(wǎng)絡(luò)信息源有RSS源信息和非RSS源信息。RSS源信息來(lái)源于信息發(fā)布者(主要是搜索引擎提供商)將用戶(hù)的檢索信息歸類(lèi)、主題聚合后根據(jù)RSS規(guī)范[3]生成RSS文件并發(fā)布;非RSS源是未進(jìn)行RSS規(guī)范化的資源(如傳統(tǒng)的網(wǎng)頁(yè)信息,以HTML格式為主)和圖書(shū)館自建數(shù)據(jù)源,如根據(jù)自我特色而建立的數(shù)據(jù)庫(kù),如特色專(zhuān)題知識(shí)庫(kù)、本校教師文獻(xiàn)庫(kù)等。[4]
(4)對(duì)于RSS源信息要進(jìn)行RSS文件解析,實(shí)現(xiàn)信息特征表示,與用戶(hù)的興趣特征進(jìn)行比較,按相似度進(jìn)行排序后提供給用戶(hù),實(shí)現(xiàn)在線(xiàn)瀏覽。對(duì)于非RSS源信息用戶(hù)可以直接訪(fǎng)問(wèn)獲取,也可以由信息發(fā)布者規(guī)范化后形成RSS源文件發(fā)布后使用。
(5)模型對(duì)RSS文件進(jìn)行分類(lèi)管理。及時(shí)地將更新后的最新的信息個(gè)性化地推送給用戶(hù)。
(6)與新型圖書(shū)館OPAC[5]系統(tǒng)的結(jié)合,用戶(hù)不必再訪(fǎng)問(wèn)多個(gè)網(wǎng)站就可完成所需內(nèi)容的獲取。真正實(shí)現(xiàn)一站式信息檢索服務(wù)。
(7)提供自助式交流服務(wù),如虛擬參考咨詢(xún)、定題服務(wù)、學(xué)科導(dǎo)航、特色專(zhuān)題知識(shí)庫(kù)導(dǎo)航。
使用數(shù)據(jù)使用挖掘(Data Usage Ming)技術(shù)構(gòu)建興趣庫(kù),從文檔和服務(wù)中自動(dòng)發(fā)現(xiàn)和抽取信息,能夠幫助進(jìn)行信息分析和信息處理,從而改進(jìn)服務(wù)。[6]數(shù)據(jù)使用挖掘主要包括兩種方法:①利用COM技術(shù),[7]與瀏覽器交互,用ATL(活動(dòng)模板)實(shí)現(xiàn)與IE或Netscape等交互的DLL(動(dòng)態(tài)鏈接庫(kù))來(lái)收集用戶(hù)個(gè)性化數(shù)據(jù)。②通過(guò)對(duì)用戶(hù)訪(fǎng)問(wèn)日志的挖掘以發(fā)現(xiàn)用戶(hù)訪(fǎng)問(wèn)模式和預(yù)測(cè)用戶(hù)瀏覽行為的技術(shù)。
向量空間建模的基本思想是將文檔和個(gè)性化需求表示成為所有索引項(xiàng)組成的向量空間中的點(diǎn),通過(guò)向量空間關(guān)系來(lái)定義和計(jì)算文檔與用戶(hù)興趣的相關(guān)度。設(shè)定一個(gè)文檔:
其中Tk(1≤k≤n)為文檔的基本組成單位(字、詞、詞組或句子等),稱(chēng)為項(xiàng)。Wk(1≤k≤n)被賦予對(duì)應(yīng)項(xiàng)的權(quán)重,表示其在文檔中的重要程度。常用的計(jì)算權(quán)重的方法:
公式(2)中,W(t,d)為項(xiàng)t在文檔d中的權(quán)重,tf(t,d)為項(xiàng)在文檔中出現(xiàn)的頻率,N為訓(xùn)練樣本總數(shù),nt為訓(xùn)練樣本集中出現(xiàn)的文檔數(shù),分母為歸一化因子。
對(duì)于非RSS源的獲取本文采用了基于鏈接密度和統(tǒng)計(jì)結(jié)合的網(wǎng)頁(yè)正文提取方法。該方法首先判斷4個(gè)參量:鏈接節(jié)本密度LTD(li.nk text density):某個(gè)節(jié)點(diǎn)下所有鏈接的文字的長(zhǎng)度與所有文字長(zhǎng)度的比值;鏈接個(gè)數(shù)LA(Link Amount):該節(jié)點(diǎn)下的所有的子節(jié)點(diǎn)中含有鏈接節(jié)點(diǎn)的個(gè)數(shù);鏈接個(gè)數(shù)密度LAD(Link AmountDensity):該節(jié)點(diǎn)下所有的子節(jié)點(diǎn)中鏈接節(jié)點(diǎn)個(gè)數(shù)和所有節(jié)點(diǎn)個(gè)數(shù)的比值;節(jié)點(diǎn)文本長(zhǎng)度NTL(Node Text Length):一個(gè)節(jié)點(diǎn)下去掉網(wǎng)頁(yè)標(biāo)記后的所有文本的長(zhǎng)度,根據(jù)4個(gè)參量的值判斷文本的位置,然后抽取。
信息按照用戶(hù)興趣度高低順序依次推送給用戶(hù)是個(gè)性化服務(wù)的目的。本文采用多維權(quán)值排序算法(MWRA)實(shí)現(xiàn)信息源排序。其數(shù)學(xué)化形式為:
Mw為多維檢索衡量權(quán)值;R為信息本身的客觀重要度權(quán)值,通過(guò)超鏈接的引用情況獲得;S為用戶(hù)輸入的檢索關(guān)鍵詞與網(wǎng)頁(yè)的匹配度;I為用戶(hù)自身的檢索習(xí)慣與信息的相似度值;T為信息更新的時(shí)間。這個(gè)T值由用戶(hù)自行指定。對(duì)用戶(hù)興趣庫(kù)的數(shù)據(jù)用R,S和I值得出Mw值進(jìn)行綜合排序后,再利用T值對(duì)于相同的Mw值的頁(yè)而按時(shí)間先后進(jìn)行排序,最終的網(wǎng)絡(luò)信息是按符合度遞減的順序反饋給用戶(hù)。
利用Matlab對(duì)查詢(xún)信息數(shù)據(jù)進(jìn)行模擬分析,對(duì)比信息查詢(xún)和獲得信息相似度之間的誤差,若是誤差越小,說(shuō)明信息服務(wù)質(zhì)量越高、供給的信息越準(zhǔn)確,即信息服務(wù)的個(gè)性化服務(wù)質(zhì)量越高。設(shè)神經(jīng)元個(gè)數(shù)為1000,采用sigmoid函數(shù),a取0.2,誤差測(cè)試結(jié)果如圖2所示。通過(guò)實(shí)驗(yàn),隨著樣本量的增加,誤差趨于0。顯然得出本文提出的模型檢索信息誤差較小、準(zhǔn)確率較高。
圖2 模型誤差分析
本文提出了基于RSS技術(shù)的一站式信息服務(wù)模型及相關(guān)技術(shù)算法,通過(guò)對(duì)知識(shí)和信息的過(guò)濾,使得隱性知識(shí)通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)顯性化,把網(wǎng)絡(luò)上的最新信息資源推送給用戶(hù)。基于RSS技術(shù)一站式信息服務(wù)模型提高了圖書(shū)館信息服務(wù)的個(gè)性化程度,將知識(shí)、信息和用戶(hù)銜接起來(lái),完善了一站式信息服務(wù)內(nèi)容,以全新的視角改善了網(wǎng)絡(luò)資源的使用率。
[1]胡昌平等.信息服務(wù)與用戶(hù)[M].武漢:武漢大學(xué)出版社,2008:200-280.
[2]張延偉,RSS技術(shù)及其在數(shù)字圖書(shū)館中的應(yīng)用探討[J],圖書(shū)情報(bào)研究.2009,2(1).
[3]Winer D.RSS2.0 Specification(2.0版規(guī)范,)[EB/OL]http://blogs. law.harvard.edu/tech/rss,2005.05.20
[4]張立彬,楊軍花.基于RSS的搜索引擎技術(shù)及其發(fā)展趨向探析[J].情報(bào)科學(xué).2009,27(2).
[5]胡潛,汪會(huì)玲.基于RSS的個(gè)性化推送服務(wù)[J].情報(bào)雜志.2008,10.
[6]HAN J.數(shù)據(jù)挖掘感念與技術(shù)2版[M].范明,譯.北京:機(jī)械工業(yè)出版社.2007:100-163
[7]Kelly D,Teevan J.Implicit feedback for inferring user preference:a bibliography[C].ACM SIGIR Forum 37(2)(2003):18-28.
靳輝,女,碩士研究生,哈爾濱金融學(xué)院圖書(shū)館技術(shù)部館員。