• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      用戶信息檢索中的相關性反饋模型研究

      2012-12-31 00:00:00肖陽
      科技創(chuàng)新導報 2012年27期

      摘要:本文提出一種通過獲取用戶建立和更新信息相關反饋模型的思想。通過觀察用戶在瀏覽Web 頁面時所采取的動作來獲取反饋信息,利用檢索算法將用戶信息量化,并利用這些信息建立與更新用戶模型。一方面用戶對檢索結果的評價輸入到用戶模型上,另一方面,檢索系統(tǒng)通過學習跟蹤用戶信息并優(yōu)化用戶模型。

      關鍵詞:信息檢索 相關性反饋 用戶需求

      中圖分類號:G203 文獻標識碼:A 文章編號:1674-098X(2012)09(c)-0050-02

      當今進入了信息時代,隨著網(wǎng)絡技術與智能技術不斷創(chuàng)新計算機應用環(huán)境,網(wǎng)上關鍵詞不能按需要進行擴檢、縮檢或作相關檢索,從而達不到理想的檢索效果,目錄型網(wǎng)絡信息檢索分類處理跟不上信息擴張的速度且類目難以統(tǒng)一組織。高質量的信息檢索需要用戶提供準確的興趣描述,然而面對今天浩如煙海的信息,信息技術領域的一個熱點問題就是如何幫助用戶高質量地檢索,以獲取真正有用的信息,這樣可以節(jié)省科研時間,提高工作效率,同時避免重復研究,加快科技創(chuàng)新的速度,充分挖掘分析信息從而制定高明的市場謀略。近年來,各種學者研究出基于各種檢索模型下的反饋方法,均已成為當前能夠產(chǎn)生實效的新研究課題。

      1 相關性反饋概念和原理

      信息檢索的種類有許多種,但對于任何一種方法,其根本內容都是一樣的,即檢索項與標引項的匹配問題。對事先組織好的文檔,可以按用戶提出的檢索條件去進行匹配運算,符合條件的即為命中,否則為不命中。檢索過程就是對記錄的內容再細分的過程,而檢索條件就是細分的根據(jù)。對于同一個檢索題目,可以產(chǎn)生很多種方法,其反映了標引的逆向過程。

      如圖1所示,用戶需要的內容主要通過信息檢索來實現(xiàn),但在檢索的過程中存在一些不確定因素從而使該目標無法實現(xiàn)。自然語言的復雜性和模糊性是影響檢索系統(tǒng)性能的根源,其中包括文檔和查詢的表達方式、文檔和查詢相關性的匹配能力、查詢結果的排序和用戶進行相關反饋的機制等。

      就這種檢索系統(tǒng)來說,當前的信息檢索工具普遍存在這樣的一些問題。

      (1)檢索比較模糊,精準性不強。用戶所需要的文獻可能由于計算機系統(tǒng)檢索精確性低而不能完全檢測到,而不相關和相關度較低的文檔則被頻繁的檢索出來。

      (2)檢索工具在編制技術上存在問題。比如,只反映參考文獻的第一作者,若從第二作者入手查,就無法使用檢索工具;同一來源在索引中反復著錄多次,浪費了許多篇幅,不經(jīng)濟;同名著者不能區(qū)分,同一作者的不同名字不易控制和合并,等等。

      (3)無法實現(xiàn)一次性復雜檢索。傳統(tǒng)的信息檢索系統(tǒng)允許多次簡單條件進行“二次檢索”,即在第一次檢索的基礎上,根據(jù)檢索要求,在二次檢索框中輸入相應的檢索詞再次進行檢索,逐步縮小范圍。

      與傳統(tǒng)的檢索方式相比較,基于用戶的信息檢索具有以下優(yōu)勢:

      (1)利用反映用戶信息需求的特征來進行檢索。

      (2)相關反饋檢索,即根據(jù)檢索庫中各個被檢索單元與用戶檢索需求的相關程度而二次檢索。

      傳統(tǒng)的信息檢索通常是不區(qū)分用戶所處的社會環(huán)境、受教育的程度和個人的能力這些因素而進行檢索的,因而大多數(shù)用戶無法從檢索方法、檢索策略和檢索結果中獲取個人的需要。例如,輸入“番茄”關鍵詞查詢有關番茄的信息,得到的結果中一定含有“番茄”,而“西紅柿”、“圣女果”都可以表達相同的概念,卻由于詞形上的差異不能滿足關鍵詞匹配的要求。又比如“航天飛機”和“太空梭”雖然指的概念是一樣的,但在中文檢索工具上用“航天飛機”是查不到“太空梭”的主頁的。顯然,相關反饋檢索是相當有用的。

      在改進的檢索系統(tǒng)中用戶可以評估文檔,并且把信息反饋到檢索系統(tǒng)中,另一方面系統(tǒng)通過獲取用戶感興趣的領域和用戶的檢索行為建立用戶模型庫,并執(zhí)行一次新的查詢。

      相關反饋技術能夠提供更為智能化、知識化的服務的技術,它可以使檢索性能得到很大的提高,在檢索過程中,它提供了一個受控查詢改變的過程,在強調某些重要的檢索詞的同時,削弱了另外一些檢索詞。系統(tǒng)根據(jù)用戶的查詢要求返回檢索結果。用戶對檢索系統(tǒng)進行評價和標記,并將這些信息反饋給系統(tǒng),將查詢操作劃分成一個個小的查詢過程,以逐漸接近用戶想要的目標文檔。系統(tǒng)則根據(jù)這些信息進行學習,并返回新的查詢結果,從而使檢索結果更加滿足用戶的要求。在此過程中系統(tǒng)需要為用戶建立模型以用來存儲用戶的興趣、檢索習慣、用戶背景等信息,用戶所要做的工作是處理文檔所包含的思想和概念。

      首先,用戶提出一個查詢請求,檢索系統(tǒng)開始進行原始的查找,檢索系統(tǒng)根據(jù)用戶文檔修改用戶查詢條件,并對用戶提問查詢進行重新查找;其次,用戶羅列出返回的那些內容是關聯(lián)性大的,然后檢索系統(tǒng)會自動的使用其中檢索詞來進行擴檢查詢,基于用戶相關性來形成新的查詢。通過這種用戶與相關反饋系統(tǒng)的相互作用不斷完善和精確用戶的查詢請求。同時,相關反饋過程也是一個不斷重復的過程。我們要解決的重點是,怎樣收集并組織相關文獻,怎樣優(yōu)化查詢,怎樣選定新的檢索詞,而相關反饋模型檢索能比較完善的解決了這個問題。

      2 基于用戶的相關反饋模型機制

      檢索系統(tǒng)通過觀察用戶與系統(tǒng)之間的交互動作獲取用戶的個人興趣,從而利用相關反饋來擴展對用戶的查詢。因而基于用戶的相關反饋模型能夠根據(jù)用戶的使用情況,適時調整系統(tǒng)的主題和全局模式,以滿足用戶的需要,將使系統(tǒng)更加靈活。例如,當全社會掀起創(chuàng)建和諧社會時,對于互幫互助、雷鋒精神相關的文獻需求量可能會增加;在進行高科技技術學習時,可能對航空航天相關文獻的需求又會增加。對于這種需要,雖然事先無法預料,但可以通過對用戶檢索內容的分布情況的分析來對主題和全局模式進行調整。

      2.1 采集用戶查詢行為信息

      在進行采集用戶行為信息前要進行需求分析,即明確采集目標。需求分析是整個信息采集的出發(fā)點,也是整個信息采集工作效率高低和成敗的關鍵。在采集過程中根據(jù)信息采集的需求不同,要采用不同的采集。不同類型、不同內容的用戶信息,獲取的途徑和方法也不一樣。用戶查詢行為的采集應采用調查問卷、啟發(fā)式采集、現(xiàn)場搜集等方式來獲取,例如用戶的移動手持設備,方便用戶,充分發(fā)揮手持設備的優(yōu)勢,利用拍照和錄音功能實現(xiàn)用戶查詢行為信息采集、信息采集的“移動化”、“零手寫”。利用河南移動公司的設備定位技術,實現(xiàn)信息采集地點的自動定位,提高信息采集的效率。

      采用查全率和查準率來對反饋技術在經(jīng)過前處理的檢索模型和沒有經(jīng)過前處理的模型上的有效進行分析。

      查全率=檢出相關信息量/系統(tǒng)中相關信息總量×100%

      查準率=檢出相關信息量/檢出信息總量×100%

      根據(jù)實驗結果可以看出基于反饋技術在信息檢索模型上是有效的,但是實驗結果說明該種方法還需進一步的論證,從而提高查全率和查準率。

      經(jīng)過比較可以得出結論:前處理技術一定程度上提高了相關反饋的查準率,而查全率和未經(jīng)過處理前的模型差不多。

      2.2 用戶檢索結果的相關度研究

      在實際檢索中,假設用戶檢索最終結果的數(shù)量超過了一定的條數(shù),或者頁碼過多,那么用戶只能重點瀏覽前面的檢索結果,而對后面的內容漠不關心。因此,就要對檢索結果進行相關度排序,把相關度高的結果排在前面,這就要對系統(tǒng)進行設計。其主要思想是對文獻的題目、關鍵詞、作者、內容摘要四個位置進行相關度的計算,為每個地方設計一個不同的權重,相關度越高的則權重越高。

      相關度的計算方法如下:

      假設有檢索詞k,計算機檢索得到的結果集L={l0,l1, …,ln}(n∈N),L中的各個項進行相關度排序。設LKi為k的一個檢索結果li,則li∈L。LMi為li用戶使用過的次數(shù)。則L中的任意兩項li,lj存在以下關系:

      (1)當僅當LKi=LKj, LMi=LMj,那么li=lj;

      (2)如果LKi>LKj,那么li>lj;

      (3)如果LKi=LKj, LMi>LMj,那么li>lj。

      該算法表示如下:

      Void QueryResultCollection::

      RankSort()

      { if(—result.Size()<2)

      return;

      Icompare rankCompare=new RankCompare();

      —result.Sort(rankCompare);}

      Public class RankCompare:Icompare

      {int Icompare::Compare(Object x,Object y)

      {Return(QueryResult)x.CompareTo((QueryResult)y);}}

      2.3 用戶模型的設計

      用戶興趣模型的系統(tǒng)結構,以下給出用戶感興趣的主題模型:

      設xi為某個主題,集合F={x0,x1,…,xm}為某個主題領域所有主題,有xi∈{x0,x1,…,xm}.

      記L(xi)≡1代表一個用戶在一次檢索中對主題xi感興趣,∑L(xi)為在時間段t內對主題xi感興趣的用戶的總和。

      那么存在集合M={∑L(x0),∑L(x1),…,∑L(xm)},表示在時間段t內,對主題域中的每個主題,對其感興趣的用戶總數(shù)的集合M。

      在M中可以找到一個集合P,使得P,且對于P中任一元素Pi,都有Pi>Mi,Mi∈(M-P)。

      這時,由P中元素對應的主題組成的集合,就是要尋找的主題集合。

      對于集合F,如果選擇的主題太大,則在集合M中可能存在大量元素的值偏小,這時需要通過系統(tǒng)管理員的人工判斷來選擇。本系統(tǒng)主要是對一定時間內用戶檢索內容的分類情況和涉及的主題情況,進行統(tǒng)計來分析檢索內容的分布情況。在每個用戶檢索時,一方面是對其感興趣的檢索結果進行記錄,一方面是對其使用的檢索詞進行匹配,從而得到單個用戶一次檢索時的興趣范圍,通過對一段時間內所有用戶的興趣范圍的累計,得出一個用戶興趣范圍的分布情況表,即興趣模型。

      3 結語

      當前對相關反饋模型的研究日益深入,它有助于實現(xiàn)個性化的智能檢索服務,信息檢索是一個涉及自然語言處理各個方面的研究領域,用戶反饋模型的引入,可以挖掘用戶信息之間的內在聯(lián)系,檢索的結果能準確、系統(tǒng)的反映用戶的需求。通過研究新的相關反饋模型機制,拓展信息檢索領域的研究內容,推進信息技術的利用水平,主要表現(xiàn)在挖掘用戶的潛在興趣、開辟新的興趣領域和進行專門的檢索服務。信息檢索中的相關反饋模型的研究已經(jīng)成為人們日益關注的一個熱點, 是未來檢索服務的一個研究方向,基于用戶個性化的檢索模式將會隨著不斷完善的功能、不斷提高的準確性,為人們獲取信息提供更多的便利。但是在其實現(xiàn)過程中,仍舊存在不少困難,如用戶興趣的遺忘、用戶興趣的挖掘、反饋學習機制的優(yōu)化模型,以及多用戶興趣模型的設計和實現(xiàn), 這些都還有待進一步改進和解決。

      參考文獻

      [1] 李業(yè)麗,林鴻飛,姚天順.基于事例的用戶信息需求模型[J].用戶計算機工程與用,2000.

      [2] 李廣建,黃昆.用戶模型及其學習方法[J].現(xiàn)代圖書情報技術,2002.

      [3] 王志軍,于超.基于隱式反饋的個人信息檢索技術及實現(xiàn)[J].工程應用技術與實現(xiàn),2003.

      二手房| 繁昌县| 台东市| 渭南市| 久治县| 永定县| 花垣县| 嘉善县| 五莲县| 谷城县| 天门市| 临颍县| 赤壁市| 章丘市| 阜南县| 闽侯县| 明光市| 梅河口市| 专栏| 平顶山市| 濮阳市| 洪洞县| 望城县| 青龙| 长寿区| 南通市| 通辽市| 盐津县| 随州市| 泾阳县| 射阳县| 丹巴县| 安平县| 台山市| 公主岭市| 新郑市| 景宁| 界首市| 修水县| 桑日县| 土默特右旗|