歐陽柳波,譚睿哲
湖南大學 信息科學與工程學院,長沙 410082
隨著Web技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已成為人們獲取信息的主要手段,搜索引擎也在人門的日常生活中扮演越來越重要的角色。現(xiàn)有的搜索引擎和信息檢索系統(tǒng)多采用基于關(guān)鍵詞的匹配方式進行全文檢索,將包含檢索關(guān)鍵詞的文檔作為查詢結(jié)果返回。但是,由于人們對現(xiàn)實生活中相同對象的描述用詞存在著多樣性,兩個人使用同樣的關(guān)鍵詞描述同一對象的概率小于20%,因此導(dǎo)致基于關(guān)鍵詞機械式符號匹配的檢索過程中很大一部分相關(guān)文檔不能被檢索到。
另一方面,用戶輸入的初始查詢詞往往較短。研究者對搜狗搜索引擎上的用戶查詢做了分析,結(jié)果表明,長度不超過3個詞的查詢占了總查詢數(shù)的93.15%,平均長度為1.85個詞[1],在當前的搜索引擎的使用過程中,這個問題變得更加尖銳。較短的查詢輸入往往不能完整地表達用戶的查詢意圖,因此基于關(guān)鍵詞的檢索會返回大量無關(guān)的結(jié)果。
查詢擴展是解決用戶檢索關(guān)鍵詞不能準確描述用戶意圖的有效手段,它利用計算機語言學、信息學等多種技術(shù),在用戶查詢的基礎(chǔ)上通過一定的方法和策略把與查詢相關(guān)的詞、詞組添加到查詢中,組成新的、更能準確表達用戶查詢意圖的查詢詞序列,然后用新查詢對文檔重新檢索,從而改善信息檢索中的查全率和查準率低下的問題。
目前查詢擴展技術(shù)按照其擴展詞的來源不同主要有全局分析、局部分析和基于關(guān)聯(lián)規(guī)則的查詢擴展技術(shù)等幾種[2]。基于全局分析的方法是最早產(chǎn)生的查詢擴展方法,該方法對整個文檔集的語詞進行相關(guān)分析(如語詞共現(xiàn)分析),計算每對語詞間的關(guān)聯(lián)程度(如共現(xiàn)率),構(gòu)造敘詞表,再從敘詞表中選取與原查詢關(guān)聯(lián)程度較高的詞作為擴展詞進行擴展。常用的基于全局分析的方法有全局聚類技術(shù)、相似性敘詞表、潛在語義索引等[3-4]。這類方法的優(yōu)勢是可以最大限度地尋找詞及詞組之間的關(guān)系進行查詢擴展,不足之處在于計算開銷很大,不適用于海量數(shù)據(jù)檢索。基于局部分析的方法較好地解決了全局分析方法計算開銷大的缺陷,該方法利用初檢返回的前N篇文檔作為擴展詞的來源,從中選取與原查詢相關(guān)的語詞進行查詢擴展。典型的有局部聚類技術(shù)、用戶相關(guān)反饋技術(shù)和局部上下文分析技術(shù)[5-6]。這類方法的不足之處在于它的有效性過于依賴第一次檢索的結(jié)果,當初次檢索結(jié)果與原始查詢相關(guān)度不高時,查準率會嚴重降低?;陉P(guān)聯(lián)規(guī)則的查詢擴展方法的主要思想是通過數(shù)據(jù)挖掘技術(shù)挖掘詞間關(guān)聯(lián)規(guī)則,將關(guān)聯(lián)規(guī)則的后件結(jié)論部分作為擴展詞的來源。
以上查詢擴展技術(shù)雖然在一定程度上彌補了用戶查詢信息的不足,但仍存在兩個主要問題:其一,這些查詢擴展方法都是基于對文檔關(guān)鍵詞的分析,忽略了查詢概念間的語義關(guān)聯(lián),因而不能從根本上消除用戶查詢意圖與檢索結(jié)果之間的語義偏差和用戶查詢的歧義性問題;其二,對于查詢擴展中易出現(xiàn)的大量查詢無關(guān)詞加入擴展集合,使查詢擴展后的主旨偏離用戶的原始檢索意圖從而產(chǎn)生“查詢漂移”問題,這些方法并沒有有效的應(yīng)對措施。
最早給出本體定義的是Neches等人,他們將本體定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義”。本體的目標是捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯(術(shù)語)和詞匯間相互關(guān)系的明確定義。領(lǐng)域本體是本體中的一種,它描述的是領(lǐng)域內(nèi)知識,包括概念、屬性、關(guān)系、實例和其他元素。領(lǐng)域本體可以用于分析特定領(lǐng)域的類,關(guān)系和它們所滿足的約束條件,可以有效解決知識的重用和共享[7]。
借助領(lǐng)域本體庫把用戶的原始查詢映射成本體中的元素后,使用本體的語義信息及語義推理機制可實現(xiàn)對用戶查詢的語義層次擴展。
用戶查詢?nèi)罩居涗浟擞脩襞c系統(tǒng)交互的相關(guān)信息,是用戶使用檢索系統(tǒng)時多次“回饋”結(jié)果的積累,被點擊次數(shù)高的網(wǎng)頁相關(guān)性好,未點擊的網(wǎng)頁與查詢無關(guān)。國內(nèi)外的不少研究者都針對網(wǎng)絡(luò)搜索引擎的用戶日志進行了相關(guān)的研究,對它的分析相當于使用大量用戶的相關(guān)回饋,可以收集到查詢詞、返回順序、點擊順序、網(wǎng)頁URL等用戶行為信息,對查詢詞擴展更具普遍性和統(tǒng)計意義[8-10]。
針對傳統(tǒng)查詢擴展方法存在的缺陷,本文結(jié)合本體和用戶查詢?nèi)罩?,提出一種查詢擴展方法。該方法借助領(lǐng)域本體知識庫的語義關(guān)系和推理規(guī)則對用戶原始查詢進行初始語義擴展,利用本體概念間的語義關(guān)聯(lián)獲取檢索詞的同義詞、上位詞、下位詞,語義蘊涵等形成候選擴展概念集,計算擴展概念集中擴展詞與檢索詞的語義相似度篩選出初始擴展概念集。鑒于初始擴展容易加入查詢無關(guān)詞而產(chǎn)生“查詢漂移”問題,本文結(jié)合用戶查詢?nèi)罩拘畔Τ跏紨U展概念集進行二次篩選。通過計算查詢詞與初始擴展概念集中擴展詞間的共現(xiàn)度權(quán)值,篩選出最終擴展概念集。
3.2.1 本體間語義相似度的計算
語義相似度是指兩個概念在語義層次上的相似程度,其取值一般在[0,1]之間。在領(lǐng)域本體中,基于本體層次樹結(jié)構(gòu)的語義相似度計算需綜合考慮以下幾個要素:
(1)語義距離
本體層次樹結(jié)構(gòu)決定了利用兩個概念在樹中的最短路徑距離來表示它們的語義距離是一種自然的度量方法。兩個概念的語義距離越大,其相似度越低;反之,其相似度越高[11]。
(2)語義重合度
語義重合度是指本體內(nèi)部兩概念結(jié)點之間包含相同的上位概念結(jié)點在總結(jié)點中所占比例。語義重合度表明了兩個概念間的相同程度,在實際計算中,可以轉(zhuǎn)化為公共結(jié)點的個數(shù)除以總結(jié)點個數(shù)。
(3)結(jié)點所處層次深度和層次
在本體層次樹中自頂向下,概念的分類是由大到小,大類間的概念相似度一般要小于小類間的相似度,因為概念所處的層次越低,其分類越細。因此,在其他因素相同的情況下,處于層次樹中離根結(jié)點較遠的概念結(jié)點間的語義相似度要比離根結(jié)點近的概念間語義相似度大,而且處于同一層次的概念語義相似度大于不同層次的概念語義相似度,即層次差越大的兩個概念間語義相似度越小。
定義1設(shè)X、Y是本體層次樹中的任意兩個結(jié)點,用Dist(X,Y)表示從X到Y(jié)所經(jīng)過的路徑長度,即X、Y之間的語義距離。
定義2設(shè)本體層次樹的根為R,Anc(X)是從X出發(fā),向上直到根R所經(jīng)過的結(jié)點集合,|Anc(X)|表示結(jié)點集個數(shù);用Anc(X)∩Anc(Y)表示從X和Y到R共同經(jīng)過的結(jié)點集合;Anc(X)∪Anc(Y)表示從X到R經(jīng)過的結(jié)點集和從Y到R經(jīng)過的結(jié)點集的并集,則概念X,Y之間的語義重合度表示為:
定義3設(shè)Depth(X)表示結(jié)點X在層次樹中的深度,Depth(Y)表示結(jié)點Y在層次樹中的深度,|Depth(X)-Depth(Y)|表示結(jié)點X和結(jié)點Y的層次差,記層次樹的深度為MaxDepth(MaxDepth=Max((Depth(v)),v表示層次樹中的任意結(jié)點)。
根據(jù)以上三個定義,提出領(lǐng)域本體中計算兩個概念X、Y之間語義相似度的計算公式:
其中,α是一個可調(diào)節(jié)的參數(shù),α的值反映了語義距離與語義相似度的關(guān)系,取值為正實數(shù);β是一個可調(diào)節(jié)的參數(shù),β用于調(diào)節(jié)語義重合度的值對相似度的影響,β的取值范圍為(MaxDepth-1 ,MaxDepth],引入β主要是因為當本體樹深度值較小時,語義重合度對相似度的影響過大,所以加入β來做調(diào)節(jié),因為本體樹中語義重合度最大的兩個概念是本體樹中最大層次上結(jié)點和其父結(jié)點,β的這個取值范圍可以保證在X≠Y的情況下Sim(X,Y) < 1;γ是一個可調(diào)節(jié)的參數(shù),γ用于調(diào)節(jié)概念層次差對相似度的影響,γ的取值范圍一般在(0,1)之間。
3.2.2 初始擴展詞的選擇
為避免基于本體擴展后的候選擴展概念集中加入過多查詢無關(guān)詞影響擴展精度,引入?yún)?shù)λ1控制擴展的范圍。定義用戶的初始查詢?yōu)镾,S經(jīng)分詞和去掉停用詞后可表示為K={k1,k2,…,kn}。設(shè)查詢詞ki的初始權(quán)重為1,ki借助領(lǐng)域本體知識庫進行語義擴展生成候選擴展概念集Q。對Q中的每個擴展查詢詞qj,根據(jù)公式(1)計算其與ki的語義相似度值Sim(ki,qj) ,并將結(jié)果與給定的閾值λ1(λ1的值由實驗得到)比較;最后,將Q中Sim(ki,qj)>λ1的擴展詞保留形成初始擴展概念集。
3.3.1 基于用戶日志的詞共現(xiàn)計算
共現(xiàn)描述的是有相互關(guān)聯(lián)的事物在相同時間或地點一起發(fā)生或出現(xiàn)的情形??梢?,事物的相互聯(lián)系是共現(xiàn)發(fā)生的內(nèi)在原因,而共現(xiàn)現(xiàn)像是事物相互聯(lián)系的外在表現(xiàn)。所以,通過分析共現(xiàn)現(xiàn)象可以了解事物之間的聯(lián)系強弱和關(guān)聯(lián)類型。所謂共現(xiàn)詞,是指在文檔中經(jīng)常同時出現(xiàn)的詞項,以一個詞為中心,伴隨著一組經(jīng)常與之搭配出現(xiàn)的詞,把這組詞稱為它的共現(xiàn)詞匯集,該集合描述了該詞的語義上下文或語境[12-13]。
用戶查詢?nèi)罩臼撬阉饕嬗涗浻脩粜袨榈闹匾d體,用戶點擊行為在統(tǒng)計意義上表明“用戶認為點擊對象與查詢相關(guān)”[14]。通過計算原始查詢詞與查詢擴展詞在用戶點擊文檔集中的共現(xiàn)頻度和共文檔率,可以有效分析出查詢詞與擴展詞在用戶點擊文檔集中的關(guān)聯(lián)強弱,從而將用戶反饋加入到查詢擴展中避免“查詢漂移”問題的出現(xiàn)。
定義4在日志中,針對用戶的一個查詢詞ki,記錄用戶所點擊的文檔集合稱為點擊文檔集D,|D|表示集合D中元素個數(shù) (|D| =n,ds∈D,s∈[1,n]);查詢詞ki根據(jù)本體初始擴展形成的初始擴展概念集合記為Q(|Q|=m,qj∈Q,j∈ [1,m]);點擊文檔集D中包含的詞項集合稱為詞項集T,|T|表示集合T中元素個數(shù)。
定義5對于初始擴展概念集中的任意擴展詞?qj∈Q,qj在文檔ds中出現(xiàn)的頻度記為f(qj,ds),稱為qj在ds中的詞頻,如未出現(xiàn)則f(qj,ds)=0。qj與查詢詞ki在ds中的共現(xiàn)頻度表示為f(qj,ds)·f(ki,ds)。
定義6設(shè)|Dqj|表示文檔集D中包含qj的文檔的個數(shù),則查詢詞ki與擴展詞qj的共文檔率可用|Dqj|與|D|的比值來表示。共現(xiàn)文檔率體現(xiàn)的是語詞在整個文檔集合中的關(guān)系。此外,在用戶日志記錄中,用戶點擊某文檔的順序越靠前,表示用戶對網(wǎng)頁的認同度越大,可以認為該文檔中包含的詞項跟用戶的初始查詢詞越相關(guān),用Ord(ki,ds)表示文檔ds在查詢詞ki點擊記錄中的順序值。
綜合定義4到6,提出擴展詞qj在查詢詞ki點擊文檔集中的共現(xiàn)度權(quán)值計算公式:
其中,μ是一個可調(diào)節(jié)的參數(shù),用于調(diào)節(jié)用戶點擊順序?qū)铂F(xiàn)詞頻的影響,取值為正實數(shù),引入μ是為了避免用戶點擊順序值過小時,其對共現(xiàn)度權(quán)值影響過大;ω用于調(diào)節(jié)共文檔率在共現(xiàn)度權(quán)值中所占比重。
3.3.2 基于用戶查詢?nèi)罩镜臄U展詞二次篩選
為避免初始擴展出現(xiàn)“查詢漂移”問題,引入?yún)?shù)λ2對初始擴展概念集中的擴展詞進行二次篩選。利用公式(2)計算初始擴展概念集Q中的每個擴展詞qj與原始查詢詞ki在用戶點擊文檔集中的共現(xiàn)度權(quán)值,并與擴展詞qj的語義相似度權(quán)值累加作為其總權(quán)重E(ki,qj) :
最后,將E(ki,qj)<λ2(λ2的值由實驗得到)的擴展詞從初始擴展概念集中刪除形成最終擴展概念集,并以擴展詞的總權(quán)重作為其在最終擴展概念集中的排序依據(jù)。
基于本體和用戶日志的查詢擴展算法使用本體進行語義層面上的擴展,采用直接映射的方式將用戶查詢映射為本體中的概念、實例或?qū)傩?。具體的查詢擴展算法描述如下:
步驟1用戶輸入查詢請求,系統(tǒng)經(jīng)過分詞、去掉停用詞后,正確抽取出用戶查詢中的詞組作為初始查詢概念集K(K={k1,k2,…,kn})。
步驟2從K中取出一個未處理的初始檢索詞ki,設(shè)置ki的權(quán)重為1并標記為已處理。
步驟3檢查初始檢索詞ki是不是領(lǐng)域本體中的概念、實例或?qū)傩?,如果是,跳轉(zhuǎn)到步驟4;否則跳轉(zhuǎn)到步驟2。
步驟4使用本體的語義關(guān)系和推理規(guī)則獲取檢索詞ki的同義詞、上位詞、下位詞、語義蘊涵等形成候選擴展概念集Q(Q= {q1,q2,…,qn})。使用公式(1)計算Q中的每個擴展詞qj與檢索詞ki的語義相似度值Sim(ki,qj) ,根據(jù)計算結(jié)果,將Q中語義相似度值大于給定閥值λ1的擴展詞保留,并用語義相似度值作為qj的權(quán)重放入Q,此時的Q為初始擴展概念集。
步驟5在用戶查詢?nèi)罩镜幕A(chǔ)上,使用公式(2)對初始擴展概念集Q中的每個擴展詞qj計算其與檢索詞ki在用戶點擊文檔集中的共現(xiàn)度權(quán)值Coo(ki,qj) ,并由公式(3)得出擴展詞qj的擴展總權(quán)重E(ki,qj) ,從Q中刪去E(ki,qj)<λ2的擴展詞形成最終擴展概念集。
步驟6檢查是否存在未處理的檢索詞,如果有,跳轉(zhuǎn)到步驟2;否則跳轉(zhuǎn)到步驟7。
步驟7將最終擴展概念集中的檢索詞與擴展詞按其權(quán)重排序。
步驟8輸出最終擴展概念集,算法結(jié)束。
基于本體和用戶日志的查詢系統(tǒng)原型框架如圖1所示。
圖1 基于本體和用戶日志的查詢系統(tǒng)原型框架
該原型主要由4個模塊組成:用戶交互模塊、本體擴展模塊、用戶日志篩選模塊和檢索模塊。各個模塊的功能描述如下:
(1)用戶交互模塊包含用戶查詢界面和用戶查詢結(jié)果展示界面,是用戶使用系統(tǒng)的唯一接口。
(2)本體擴展模塊由領(lǐng)域本體知識庫和本體推理機構(gòu)成。其中,領(lǐng)域本體知識庫中的本體使用OWL DL語言描述。本體推理機使用惠普實驗室提供的開源工具Jena作為推理引擎,推理機通過領(lǐng)域本體知識庫對用戶原始查詢進行語義擴展,并對擴展詞計算語義相似度,選取相似度值超過閥值的擴展詞形成初始擴展概念集。
(3)用戶日志篩選模塊由用戶查詢?nèi)罩編旌凸铂F(xiàn)度計算模塊構(gòu)成,共現(xiàn)度計算模塊利用用戶查詢?nèi)罩就ㄟ^局部共現(xiàn)分析法計算初始擴展概念集中擴展詞與原始查詢詞在用戶點擊文檔集中的共現(xiàn)度權(quán)值。最后,結(jié)合初始擴展詞的語義相似度值和共現(xiàn)度權(quán)值篩選出最終擴展詞形成最終擴展概念集。
(4)檢索模塊的功能是使用最終擴展概念集對文檔集進行檢索并將結(jié)果返回給用戶。該模塊利用Lucene開源工具包對文檔集建立基于倒排序索引結(jié)構(gòu)的索引庫。檢索模塊檢索時將直接從索引庫通過關(guān)鍵詞匹配找到滿足條件的文檔,從而避免了掃描文檔集中的每一篇文檔,大大加快了檢索速度。最后,對得到的相關(guān)文檔根據(jù)檢索詞權(quán)重降序排序,取前k個文檔提交給用戶。
本文實驗的目的是驗證使用基于本體和用戶日志的查詢擴展方法后,相比于傳統(tǒng)查詢擴展方法,在檢索性能和魯棒性上是否有提升和改善。
為此,在系統(tǒng)原型上構(gòu)建了一個關(guān)于計算機軟硬件的領(lǐng)域本體知識庫,從搜狗用戶日志中抽取了有關(guān)計算機軟硬件領(lǐng)域的200個關(guān)鍵詞查詢?nèi)罩咀鳛閷嶒炄罩敬嫒胗脩舨樵內(nèi)罩編欤ζ渲杏脩酎c擊的網(wǎng)頁進行了文字內(nèi)容下載,去除了失效網(wǎng)頁和長度過短的網(wǎng)頁,最后得到的網(wǎng)頁文檔集合包括5 000個網(wǎng)頁作為測試文檔集。
實驗選取了基于局部共現(xiàn)的查詢擴展方法和基于本體的查詢擴展方法作為對比方法;采用prec@30作為檢索性能評測指標。prec@X指的是針對某個查詢,在檢索出X篇文檔時的準確率。prec@30在搜索引擎中通常反映了前兩頁檢索結(jié)果的準確率。
根據(jù)實驗需要,首先對查詢擴展方法的魯棒性進行評估。查詢擴展是對原查詢的優(yōu)化,其擴展詞數(shù)量會影響到檢索的查準率。因此,擴展詞數(shù)量對檢索性能的影響是檢驗擴展方法魯棒性的重要依據(jù)。圖2給出了擴展詞規(guī)模對三種查詢擴展方法的檢索性能影響的變化曲線。
圖2 擴展詞規(guī)模對三種查詢擴展方法的影響
從圖2中可以看出擴展詞規(guī)模對基于本體的查詢擴展方法具有較大的影響,當擴展詞數(shù)目N>20時,隨著N的增大,檢索性能下降的幅度較大,從而產(chǎn)生了“查詢漂移”問題;相比而言,基于局部共現(xiàn)的查詢擴展方法和本文方法受擴展詞規(guī)模的影響并不明顯,其魯棒性要遠遠好于基于本體的查詢擴展方法。從圖中可以看出,當擴展詞數(shù)量控制在15~25個時,本文方法檢索準確率處于最高。為此,實驗設(shè)置有效性閥值為λ1=0.5,λ2=0.7,將擴展詞數(shù)量控制在此范圍之內(nèi)。
接下來對查詢擴展方法的檢索性能進行測試。對所搜集的文檔集采取以上三種方法通過隨機構(gòu)造10次不同的查詢語句進行查詢,檢索性能對比結(jié)果如圖3所示。
圖3 三種查詢擴展方法的檢索性能對比
從圖3可以看出,在這三種查詢擴展方法中,后兩種查詢擴展方法相比于基于局部共現(xiàn)的查詢擴展方法檢索性能有較大提高。主要原因是基于局部共現(xiàn)的查詢擴展方法依然是以查詢詞為中心進行機械式的擴展,忽略了查詢概念間的語義關(guān)聯(lián),只能檢索出部分相關(guān)文檔,所以導(dǎo)致檢索性能較低。在后兩種語義查詢擴展方法中,本文方法在檢索性能上高于基于本體的查詢擴展方法,原因是本文方法利用基于用戶查詢?nèi)罩镜脑~共現(xiàn)分析算法對本體擴展形成的擴展集進行了二次篩選,縮小了擴展范圍,使擴展后的查詢與初始查詢的真實意圖更加相關(guān)。
由以上實驗結(jié)果可知,本文基于本體和用戶日志的查詢擴展方法較傳統(tǒng)查詢擴展方法不僅在檢索性能上有了明顯進步,同時可以避免在擴展詞數(shù)量增多時出現(xiàn)的“查詢漂移”問題,具有良好的魯棒性。
針對傳統(tǒng)查詢擴展的缺陷,提出一種基于本體和用戶查詢?nèi)罩镜牟樵償U展方法,從語義層次上實現(xiàn)了查詢擴展,并對擴展詞進行二次篩選。實驗結(jié)果表明,本文查詢擴展方法能有效擴展用戶查詢,大大提高檢索準確率。但本文方法的初始擴展對領(lǐng)域本體庫依賴性較強,若用戶查詢無法直接映射到領(lǐng)域本體,則擴展性能較差。下一步的工作重點是解決用戶查詢無法映射到領(lǐng)域本體時如何調(diào)整查詢擴展策略。
[1]余慧佳,劉奕群,張敏,等.基于大規(guī)模日志分析的搜索引擎用戶行為分析[J].中文信息學報,2007,21(1):109-114.
[2]黃名選,嚴小衛(wèi),張師超.查詢擴展技術(shù)進展和展望[J].計算機應(yīng)用與軟件,2007,24(11):1-5.
[3]Luan Lihua,Ji Genlin.Fast clustering algorithm based on quad-tree[J].Computer Applications,2005,25(5):1001-1003.
[4]Dai Jiahong.Fuzzy cluster-based query expansion[D].Taiwan,China:National Sun Yat-sen University,2004.
[5]Chang Y,Ounis I,Kim M.Query reformulation using automatically generated query concepts from a document space[J].Information Processing and Management,2006,42(2):453-468.
[6]張超盟,李戰(zhàn)懷,溫宗臣.局部上下文分析剪枝概念樹的查詢擴展[J].計算機工程,2009,35(14):45-48.
[7]Avigdor G,Giovanni M,Hasan J.OntoBuilder:fully automatic extraction and consolidation of ontologies from Web sources[C]//Proc of the ICDE 2004.Boston:IEEE Computer Society,2004.
[8]朱鯤鵬,魏芳.基于用戶日志挖掘的查詢擴展方法[J].計算機應(yīng)用與軟件,2012,29(6):113-116.
[9]崔航,文繼榮,李敏強.基于用戶日志的查詢擴展統(tǒng)計模型[J].軟件學報,2003,14(9):1593-1599.
[10]Wen J R,Nie J Y,Zhang H J.Query clustering using user logs[J].ACM Transactions on Information Systems,2002,20(1):59-81.
[11]王棟,吳軍華.自動更新的本體概念語義相似度計算[J].計算機工程與設(shè)計,2009,30(19):4419-4421.
[12]Peat H J,Peter W.The limitations of term co-occurrence data for query expansion in document retrieval systems[J].Journal of the American Society for Information Science,1991,42(5):378-383.
[13]陳鐘,彭波,月宏飛,等.一種詞匯共現(xiàn)算法及共現(xiàn)詞對檢索系統(tǒng)排序的影響[J].清華大學學報,2005,45(S1):1857-1860.
[14]Zhang Z,Nasraoui O.Mining search engine query logs for query recommendation[C]//Proceedings of the 15th International World Wide Web Conference,2006:1039-1040.