• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于RSS技術(shù)的圖書(shū)館一站式信息服務(wù)

      2010-09-19 13:53:56靳輝
      黑龍江史志 2010年23期
      關(guān)鍵詞:文檔排序個(gè)性化

      靳輝

      (哈爾濱金融學(xué)院圖書(shū)館哈爾濱150030)

      基于RSS技術(shù)的圖書(shū)館一站式信息服務(wù)

      靳輝

      (哈爾濱金融學(xué)院圖書(shū)館哈爾濱150030)

      為了完善一站式服務(wù)內(nèi)容,提高圖書(shū)館信息服務(wù)水平,對(duì)RSS技術(shù)原理剖析后提出了基于RSS技術(shù)的一站式信息服務(wù)模型。該模型主要通過(guò)用戶(hù)興趣庫(kù)的構(gòu)建、信息源獲取及RSS源文件的解析、多維權(quán)值排序算法來(lái)實(shí)現(xiàn)。最后給出了模型的誤差仿真實(shí)驗(yàn)。此模型提高了圖書(shū)館信息服務(wù)的個(gè)性化程度,將知識(shí)、信息和用戶(hù)銜接起來(lái),以全新的視角改善了網(wǎng)絡(luò)資源的使用率。

      RSS 圖書(shū)館 一站式服務(wù) 信息服務(wù)

      G202

      A

      現(xiàn)代信息技術(shù)的成熟加快了圖書(shū)館的數(shù)字化、個(gè)性化信息服務(wù)的進(jìn)程。個(gè)性化信息服務(wù)就是根據(jù)用戶(hù)的信息需求供給不同的信息內(nèi)容,并利用好的信息供給刺激用戶(hù)產(chǎn)生更高的信息需求并尋求滿(mǎn)足。[1]為用戶(hù)提供豐富、便利、主動(dòng)、及時(shí)、有效的信息服務(wù),充份加強(qiáng)對(duì)信息資源的分散性與用戶(hù)需求特定性的協(xié)調(diào);對(duì)信息服務(wù)的方式與用戶(hù)的獲取信息的方便度、滿(mǎn)意度的協(xié)調(diào);對(duì)信息供給的全面性、相似性與供給速度的協(xié)調(diào)已成為高校圖書(shū)館的觀注重點(diǎn)。本文以RSS技術(shù)為基礎(chǔ)建立雙向協(xié)調(diào)性、學(xué)習(xí)性、互動(dòng)性完備的一站式服務(wù)模型,為不斷提高圖書(shū)館個(gè)性化、學(xué)科化、專(zhuān)業(yè)化服務(wù)水平提供技術(shù)平臺(tái)。

      一、RSS技術(shù)原理

      1、RSS技術(shù)特點(diǎn)

      RSS技術(shù)是基于XML標(biāo)準(zhǔn)建立的內(nèi)容包裝和投遞的協(xié)議,是各站點(diǎn)之間共享內(nèi)容,實(shí)現(xiàn)個(gè)性化信息服務(wù)的信息聚合技術(shù)。服務(wù)提供者將信息以記錄的形式封裝成RSS文件,直接被其他站點(diǎn)調(diào)用或在其他的終端和服務(wù)中使用。還可根據(jù)用戶(hù)的定制項(xiàng)目,由RSS Reader(專(zhuān)用/在線(xiàn)閱讀器、Web瀏覽器)提取信息,以用戶(hù)感興趣、習(xí)慣的顯示方式向用戶(hù)提供一站式信息服務(wù)。RSS以其特有的高度聯(lián)合性、個(gè)性化動(dòng)態(tài)聚合性讓用戶(hù)可以選擇性地過(guò)濾、訂閱出自己感興趣的消息,并且獲得的是全綠色無(wú)垃圾信息。用戶(hù)不必在各網(wǎng)站來(lái)回切換查找信息。RSS文件封裝及發(fā)布在技術(shù)實(shí)現(xiàn)上是極為簡(jiǎn)單的一次性的工作,操作簡(jiǎn)單、低成本、強(qiáng)時(shí)效性是其他方式所無(wú)法比擬的。

      2、RSS文件舉例說(shuō)明

      2006-10-1508:59:36

      2010-04-1521:59:36

      ……

      元素說(shuō)明:元素作為根元素,version屬性指定RSS版本,每一個(gè)RSS文件包含一個(gè)channel元素,channel至少包括:title、description和link元素,channel的title應(yīng)該和Web站點(diǎn)的title盡量一致;description簡(jiǎn)單介紹該channel是做什么的,一段簡(jiǎn)單描述;link是與該channel關(guān)聯(lián)的Web站點(diǎn)的URL。Channel元素可含若干個(gè)item子元素,每個(gè)item又包含了一個(gè)title、一個(gè)description和一個(gè)Link。一個(gè)item代表一條消息,就像報(bào)紙或者雜志上的一條新聞,那么description就是描述了item的大綱,link給出了指向這條item完整內(nèi)容的地址。item的所有子元素都是可選,但是至少需要存在一個(gè)title或者description。pubdate子元素記錄channel或item內(nèi)容的公布日期。[2]

      二、基于RSS技術(shù)的一站式信息服務(wù)模型

      1、信息服務(wù)模型結(jié)構(gòu)

      模型結(jié)構(gòu)如圖1所示,該模型說(shuō)明如下:

      圖1 基于RSS的一站式信息服務(wù)模型

      (1)用戶(hù)通過(guò)Web瀏覽器或RSS閱讀器獲得服務(wù)內(nèi)容。并可以對(duì)感興趣的內(nèi)容進(jìn)行自助式定制。

      (2)模型根據(jù)用戶(hù)輸入的相關(guān)內(nèi)容對(duì)其興趣愛(ài)好進(jìn)行分析建模,從而構(gòu)建用戶(hù)興趣庫(kù)。

      (3)模型提供網(wǎng)絡(luò)信息源有RSS源信息和非RSS源信息。RSS源信息來(lái)源于信息發(fā)布者(主要是搜索引擎提供商)將用戶(hù)的檢索信息歸類(lèi)、主題聚合后根據(jù)RSS規(guī)范[3]生成RSS文件并發(fā)布;非RSS源是未進(jìn)行RSS規(guī)范化的資源(如傳統(tǒng)的網(wǎng)頁(yè)信息,以HTML格式為主)和圖書(shū)館自建數(shù)據(jù)源,如根據(jù)自我特色而建立的數(shù)據(jù)庫(kù),如特色專(zhuān)題知識(shí)庫(kù)、本校教師文獻(xiàn)庫(kù)等。[4]

      (4)對(duì)于RSS源信息要進(jìn)行RSS文件解析,實(shí)現(xiàn)信息特征表示,與用戶(hù)的興趣特征進(jìn)行比較,按相似度進(jìn)行排序后提供給用戶(hù),實(shí)現(xiàn)在線(xiàn)瀏覽。對(duì)于非RSS源信息用戶(hù)可以直接訪(fǎng)問(wèn)獲取,也可以由信息發(fā)布者規(guī)范化后形成RSS源文件發(fā)布后使用。

      (5)模型對(duì)RSS文件進(jìn)行分類(lèi)管理。及時(shí)地將更新后的最新的信息個(gè)性化地推送給用戶(hù)。

      (6)與新型圖書(shū)館OPAC[5]系統(tǒng)的結(jié)合,用戶(hù)不必再訪(fǎng)問(wèn)多個(gè)網(wǎng)站就可完成所需內(nèi)容的獲取。真正實(shí)現(xiàn)一站式信息檢索服務(wù)。

      (7)提供自助式交流服務(wù),如虛擬參考咨詢(xún)、定題服務(wù)、學(xué)科導(dǎo)航、特色專(zhuān)題知識(shí)庫(kù)導(dǎo)航。

      三、相關(guān)技術(shù)方法和算法

      1、數(shù)據(jù)使用挖掘技術(shù)

      使用數(shù)據(jù)使用挖掘(Data Usage Ming)技術(shù)構(gòu)建興趣庫(kù),從文檔和服務(wù)中自動(dòng)發(fā)現(xiàn)和抽取信息,能夠幫助進(jìn)行信息分析和信息處理,從而改進(jìn)服務(wù)。[6]數(shù)據(jù)使用挖掘主要包括兩種方法:①利用COM技術(shù),[7]與瀏覽器交互,用ATL(活動(dòng)模板)實(shí)現(xiàn)與IE或Netscape等交互的DLL(動(dòng)態(tài)鏈接庫(kù))來(lái)收集用戶(hù)個(gè)性化數(shù)據(jù)。②通過(guò)對(duì)用戶(hù)訪(fǎng)問(wèn)日志的挖掘以發(fā)現(xiàn)用戶(hù)訪(fǎng)問(wèn)模式和預(yù)測(cè)用戶(hù)瀏覽行為的技術(shù)。

      2、向量空間建模算法

      向量空間建模的基本思想是將文檔和個(gè)性化需求表示成為所有索引項(xiàng)組成的向量空間中的點(diǎn),通過(guò)向量空間關(guān)系來(lái)定義和計(jì)算文檔與用戶(hù)興趣的相關(guān)度。設(shè)定一個(gè)文檔:

      其中Tk(1≤k≤n)為文檔的基本組成單位(字、詞、詞組或句子等),稱(chēng)為項(xiàng)。Wk(1≤k≤n)被賦予對(duì)應(yīng)項(xiàng)的權(quán)重,表示其在文檔中的重要程度。常用的計(jì)算權(quán)重的方法:

      公式(2)中,W(t,d)為項(xiàng)t在文檔d中的權(quán)重,tf(t,d)為項(xiàng)在文檔中出現(xiàn)的頻率,N為訓(xùn)練樣本總數(shù),nt為訓(xùn)練樣本集中出現(xiàn)的文檔數(shù),分母為歸一化因子。

      3、信息獲取方法

      對(duì)于非RSS源的獲取本文采用了基于鏈接密度和統(tǒng)計(jì)結(jié)合的網(wǎng)頁(yè)正文提取方法。該方法首先判斷4個(gè)參量:鏈接節(jié)本密度LTD(li.nk text density):某個(gè)節(jié)點(diǎn)下所有鏈接的文字的長(zhǎng)度與所有文字長(zhǎng)度的比值;鏈接個(gè)數(shù)LA(Link Amount):該節(jié)點(diǎn)下的所有的子節(jié)點(diǎn)中含有鏈接節(jié)點(diǎn)的個(gè)數(shù);鏈接個(gè)數(shù)密度LAD(Link AmountDensity):該節(jié)點(diǎn)下所有的子節(jié)點(diǎn)中鏈接節(jié)點(diǎn)個(gè)數(shù)和所有節(jié)點(diǎn)個(gè)數(shù)的比值;節(jié)點(diǎn)文本長(zhǎng)度NTL(Node Text Length):一個(gè)節(jié)點(diǎn)下去掉網(wǎng)頁(yè)標(biāo)記后的所有文本的長(zhǎng)度,根據(jù)4個(gè)參量的值判斷文本的位置,然后抽取。

      4、相似度排序算法

      信息按照用戶(hù)興趣度高低順序依次推送給用戶(hù)是個(gè)性化服務(wù)的目的。本文采用多維權(quán)值排序算法(MWRA)實(shí)現(xiàn)信息源排序。其數(shù)學(xué)化形式為:

      Mw為多維檢索衡量權(quán)值;R為信息本身的客觀重要度權(quán)值,通過(guò)超鏈接的引用情況獲得;S為用戶(hù)輸入的檢索關(guān)鍵詞與網(wǎng)頁(yè)的匹配度;I為用戶(hù)自身的檢索習(xí)慣與信息的相似度值;T為信息更新的時(shí)間。這個(gè)T值由用戶(hù)自行指定。對(duì)用戶(hù)興趣庫(kù)的數(shù)據(jù)用R,S和I值得出Mw值進(jìn)行綜合排序后,再利用T值對(duì)于相同的Mw值的頁(yè)而按時(shí)間先后進(jìn)行排序,最終的網(wǎng)絡(luò)信息是按符合度遞減的順序反饋給用戶(hù)。

      四、實(shí)驗(yàn)分析

      利用Matlab對(duì)查詢(xún)信息數(shù)據(jù)進(jìn)行模擬分析,對(duì)比信息查詢(xún)和獲得信息相似度之間的誤差,若是誤差越小,說(shuō)明信息服務(wù)質(zhì)量越高、供給的信息越準(zhǔn)確,即信息服務(wù)的個(gè)性化服務(wù)質(zhì)量越高。設(shè)神經(jīng)元個(gè)數(shù)為1000,采用sigmoid函數(shù),a取0.2,誤差測(cè)試結(jié)果如圖2所示。通過(guò)實(shí)驗(yàn),隨著樣本量的增加,誤差趨于0。顯然得出本文提出的模型檢索信息誤差較小、準(zhǔn)確率較高。

      圖2 模型誤差分析

      五、結(jié)束語(yǔ)

      本文提出了基于RSS技術(shù)的一站式信息服務(wù)模型及相關(guān)技術(shù)算法,通過(guò)對(duì)知識(shí)和信息的過(guò)濾,使得隱性知識(shí)通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)顯性化,把網(wǎng)絡(luò)上的最新信息資源推送給用戶(hù)。基于RSS技術(shù)一站式信息服務(wù)模型提高了圖書(shū)館信息服務(wù)的個(gè)性化程度,將知識(shí)、信息和用戶(hù)銜接起來(lái),完善了一站式信息服務(wù)內(nèi)容,以全新的視角改善了網(wǎng)絡(luò)資源的使用率。

      [1]胡昌平等.信息服務(wù)與用戶(hù)[M].武漢:武漢大學(xué)出版社,2008:200-280.

      [2]張延偉,RSS技術(shù)及其在數(shù)字圖書(shū)館中的應(yīng)用探討[J],圖書(shū)情報(bào)研究.2009,2(1).

      [3]Winer D.RSS2.0 Specification(2.0版規(guī)范,)[EB/OL]http://blogs. law.harvard.edu/tech/rss,2005.05.20

      [4]張立彬,楊軍花.基于RSS的搜索引擎技術(shù)及其發(fā)展趨向探析[J].情報(bào)科學(xué).2009,27(2).

      [5]胡潛,汪會(huì)玲.基于RSS的個(gè)性化推送服務(wù)[J].情報(bào)雜志.2008,10.

      [6]HAN J.數(shù)據(jù)挖掘感念與技術(shù)2版[M].范明,譯.北京:機(jī)械工業(yè)出版社.2007:100-163

      [7]Kelly D,Teevan J.Implicit feedback for inferring user preference:a bibliography[C].ACM SIGIR Forum 37(2)(2003):18-28.

      靳輝,女,碩士研究生,哈爾濱金融學(xué)院圖書(shū)館技術(shù)部館員。

      猜你喜歡
      文檔排序個(gè)性化
      排序不等式
      有人一聲不吭向你扔了個(gè)文檔
      堅(jiān)持個(gè)性化的寫(xiě)作
      文苑(2020年4期)2020-05-30 12:35:12
      恐怖排序
      節(jié)日排序
      新聞的個(gè)性化寫(xiě)作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      上汽大通:C2B個(gè)性化定制未來(lái)
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      泰州市| 扎赉特旗| 平昌县| 沽源县| 广水市| 库车县| 津南区| 灌南县| 平潭县| 雷州市| 策勒县| 宣化县| 云南省| 阿坝县| 隆德县| 时尚| 灵武市| 循化| 永寿县| 彩票| 和硕县| 淮阳县| 富顺县| 光泽县| 长丰县| 唐山市| 新和县| 界首市| 巨鹿县| 桑日县| 蒙阴县| 阳朔县| 垫江县| 广饶县| 枣强县| 保亭| 临洮县| 沾化县| 舒城县| 静安区| 西昌市|