劉興林
信息檢索中用戶的多樣化需求促進(jìn)了多樣化排序問(wèn)題的提出,當(dāng)前國(guó)內(nèi)外多樣化排序研究的成果主要分為隱式多樣化排序和顯式多樣化排序,而在用戶潛在意圖未知的前提下,如何根據(jù)用戶提交的查詢?cè)~對(duì)信息檢索結(jié)果文檔進(jìn)行排序,從而最大化程度上滿足用戶需求,是多樣化排序問(wèn)題研究的核心問(wèn)題和難點(diǎn)。文章通過(guò)對(duì)國(guó)內(nèi)外多樣化排序研究成果進(jìn)行分析,歸納了當(dāng)前多樣化排序研究中所存在的一些不足,并指出了在多樣化排序領(lǐng)域中可以進(jìn)行研究的一些方向,特別是多樣化排序理論體系的完善和多樣化排序系統(tǒng)的構(gòu)建。
信息檢索的主要目的是對(duì)信息表示、存儲(chǔ)與組織,使用戶更容易獲得所需要或者感興趣的信息。信息檢索的多樣化排序問(wèn)題對(duì)信息檢索系統(tǒng)提出了更高的要求。為了滿足用戶的多樣化需求,信息檢索系統(tǒng)不能只是簡(jiǎn)單地根據(jù)結(jié)果文檔與用戶輸入的查詢?cè)~之間的相關(guān)度來(lái)對(duì)文檔進(jìn)行排序,必須更深層次地挖掘用戶潛在的信息需求,在結(jié)果列表靠前的位置中盡可能地提供滿足用戶各種需求的檢索結(jié)果。
目前用于分析結(jié)果與查詢的相關(guān)性技術(shù)主要有兩類:基于內(nèi)容的相關(guān)度計(jì)算和鏈接分析?;趦?nèi)容的相關(guān)度計(jì)算屬于傳統(tǒng)信息檢索領(lǐng)域的分析方法,多采用向量空間模型、概述模型等方法來(lái)逐一計(jì)算結(jié)果文檔與用戶查詢的相關(guān)度。面鏈接分析則是針對(duì)互聯(lián)網(wǎng)文檔富含超鏈接的特點(diǎn),通過(guò)對(duì)鏈接進(jìn)行分析獲得高質(zhì)量的結(jié)果文檔,包括著名的Google 搜索引擎所采用的PageRank 算法和Kleinberg 提出的HITS 算法等。排序?qū)W習(xí)方法是近幾年才興起的一類排序方法,它的本質(zhì)是利用機(jī)器學(xué)習(xí)的思想來(lái)解決信息檢索系統(tǒng)中如何對(duì)檢索結(jié)果進(jìn)行排序的問(wèn)題,它利用機(jī)器學(xué)習(xí)整合大量特征的優(yōu)勢(shì),同時(shí)把大量的基于內(nèi)容相關(guān)性的特征和鏈接結(jié)構(gòu)信息的特征融入到排序模型中,通過(guò)對(duì)大量樣本數(shù)據(jù)的學(xué)習(xí),能取得較好的排序效果。
排序方法是互聯(lián)網(wǎng)信息檢索的核心,在傳統(tǒng)的信息檢索研究中,有一個(gè)重要的排序原則,稱為概率排序原則,即:
定義1-1:概率排序原則。如果一個(gè)檢索系統(tǒng)返回給提交查詢的用戶的結(jié)果列表是根據(jù)文檔對(duì)于用戶有用的概率從高到低進(jìn)行排序的,當(dāng)這些概率的估計(jì)盡可能的正確時(shí),那么這個(gè)檢索系統(tǒng)的總體效率對(duì)用戶來(lái)說(shuō)是最高的。
然而概率排序原則有一個(gè)重要的假設(shè),就是相關(guān)度獨(dú)立假設(shè),即不同文檔與查詢的相關(guān)度之間是相互獨(dú)立,互不影響的。但在現(xiàn)實(shí)的搜索情境中,這個(gè)假設(shè)往往并不成立,在用戶搜索過(guò)程中,用戶對(duì)于文檔的相關(guān)度判斷會(huì)受到他已經(jīng)瀏覽過(guò)的文檔的影響。
用戶在進(jìn)行信息檢索時(shí)都是抱有一定的意圖的,需要信息檢索系統(tǒng)返回一定的文檔以滿足用戶的意圖。這種意圖可以表示在查詢多義情況下的各種解釋,也可以表示同一個(gè)解釋下不同方面的信息。本文把意圖定義為用戶查詢需求中的最小基本單位,而與之對(duì)應(yīng)的,可以滿足用戶意圖的信息集合,則定義為信息面(facet)。在此基礎(chǔ)上,對(duì)多樣化排序問(wèn)題進(jìn)行形式化。
問(wèn)題1-1:多樣化排序問(wèn)題。給定用戶查詢q,對(duì)應(yīng)的理想的用戶查詢意圖集合為I={c1,c2,…,cm},侯選文檔集合D={d1,d2,…,dn},每個(gè)文檔都可能滿足一定的用戶需求。假設(shè)用戶只瀏覽檢索結(jié)果列表的前k 個(gè)文檔,多樣化排序問(wèn)題的目標(biāo)就是最大化從集合D 中選擇一個(gè)不大于k 的文檔子集Ds,使得Ds 中至少有一個(gè)文檔可以滿足用戶的意圖的概率,即
其中,p(d|q,ci)表示文檔d 滿足查詢?cè)~所蘊(yùn)含的意圖ci 的概率。需要說(shuō)明的是,雖然在現(xiàn)實(shí)信息檢索過(guò)程中,用戶看到的結(jié)果是列表,是與位置相關(guān)的,但由于本文假設(shè)了用戶會(huì)瀏覽前k 個(gè)文檔,因此文檔集合與文檔列表的意義就沒(méi)有差別了。
多樣化排序是一個(gè)NP 難問(wèn)題。如果用戶潛在意圖集合已知,各文檔所能滿足的用戶意圖的程序可以進(jìn)行估算,那么,多樣化排序問(wèn)題可以用簡(jiǎn)單的貪心近似算法進(jìn)行求解。
但對(duì)于一個(gè)信息檢索系統(tǒng)來(lái)說(shuō),不僅用戶輸入查詢?cè)~所蘊(yùn)含的意圖是難以判斷的,就連一個(gè)查詢所可能蘊(yùn)含的意圖集合也是不容易估計(jì)的,這就為解決多樣化問(wèn)題帶來(lái)了困難。在用戶潛在意圖集合未知的情況下,如何根據(jù)用戶提交的查詢?cè)~對(duì)結(jié)果文檔進(jìn)行排序,以最大化用戶的滿意度,成為了多樣化排序問(wèn)題研究的核心問(wèn)題和難點(diǎn)。
現(xiàn)有的多樣化排序研究工作分別從不同的角度對(duì)多樣化問(wèn)題進(jìn)行剖析和解決。以是否對(duì)查詢?cè)~所蘊(yùn)含的用戶意圖進(jìn)行建模作為區(qū)分,現(xiàn)有的研究工作主要可以分為兩大類,分別是隱式多樣化排序方法和顯式多樣化排序方法。較早的研究工作都是隱式多樣化排序方法居多,這類方法不直接對(duì)查詢?cè)~所蘊(yùn)含的用戶意圖進(jìn)行建模,而是基于一定的假設(shè)估計(jì)文檔在信息蘊(yùn)含上的差異,通過(guò)文檔之間的相似度比較,或選擇文檔進(jìn)行詞空間覆蓋等思路達(dá)到多樣化排序的目的。而顯式多樣化排序方法則是近幾年才興起的一類研究方法,這類方法直接把多樣化排序建立在用戶意圖已知的基礎(chǔ)上,顯式地利用了用戶意圖的存在,通過(guò)探索文檔與用戶意圖的相關(guān)性,作為實(shí)現(xiàn)多樣化排序的基礎(chǔ)。
基于文檔相似度比較的隱式多樣化排序方法是最早涉及多樣化排序問(wèn)題的研究工作。顧名思義,這類排序方法把實(shí)現(xiàn)多樣化的目標(biāo)建立在文檔之間的相似度比較的基礎(chǔ)之上,其主要假設(shè)是相似的文檔往往蘊(yùn)含的信息面是相似的,也就是說(shuō)它們所能滿足的用戶意圖也是類似的。用戶在瀏覽搜索結(jié)果的過(guò)程中,如果用戶已經(jīng)瀏覽過(guò)的文檔無(wú)法滿足用戶的需求,那么與這些文檔相似的文檔能夠滿足用戶意圖的可能性就大降低了。因此,該類方法基于文檔之間的相似度,在給文檔進(jìn)行排序時(shí),通過(guò)降低與已排序文檔相似度較高的未排序文檔的排序位置來(lái)達(dá)到多樣化的目的。這類方法的關(guān)鍵就在于如何通過(guò)對(duì)未排序文檔和已排序文檔集合的相似度進(jìn)行合理的比較,以增加結(jié)果列表中靠前位置上的文檔的多樣性。
與基于文檔相似度比較的多樣化排序方法把分析的重點(diǎn)放在文檔層面上不同,基于詞空間覆蓋的隱式多樣化排序方法從更細(xì)的層面—詞的角度入手,它們用詞空間來(lái)表示與查詢?cè)~相關(guān)、能滿足用戶不同意圖的信息集合。由此,多樣化排序問(wèn)題就演化成了如何選擇限定大小的文檔子集對(duì)詞空間進(jìn)行覆蓋以滿足用戶各種潛在意圖的問(wèn)題。這類方法認(rèn)為,由于文檔數(shù)量受限,因此不同的詞被覆蓋的重要性是不同的,要最大化對(duì)各種信息面的覆蓋,必須選擇文檔盡可能多覆蓋那些重要的詞。于是它們?cè)趯?duì)詞的重要性進(jìn)行估計(jì)的基礎(chǔ)這,可以根據(jù)與詞之間的關(guān)系,通過(guò)選擇文檔子集最大化對(duì)加權(quán)詞空間的覆蓋,實(shí)現(xiàn)多樣化排序。
與上面兩種隱式多樣化排序方法不同,顯式多樣化排序方法都是假設(shè)存在(或者可以獲?。┎樵?cè)~所蘊(yùn)含的用戶意圖集合,在此基礎(chǔ)上,采用各種方法綜合考慮文檔與各種潛在意圖的相關(guān)度以及各種潛在意圖的重要性,通過(guò)選擇文檔子集優(yōu)化相應(yīng)的目標(biāo)函數(shù)實(shí)現(xiàn)多樣化排序。這類方法的關(guān)鍵點(diǎn)有兩個(gè):一個(gè)是如何挖掘(估計(jì))查詢?cè)~所蘊(yùn)含的用戶意圖集合;另一個(gè)則是如何利用潛在意圖集合的信息,對(duì)文檔排序以滿足用戶的多樣化需求?,F(xiàn)有的顯式多樣化方法主要包括兩類方法:一類是離線的方法,即先從查詢?cè)~或者候選文檔集合的內(nèi)容估計(jì)用戶的潛在意圖集合,然后通過(guò)各種排序算法提供確定的多樣化文檔子集給用戶;另一類則是在線的方法,根據(jù)用戶的點(diǎn)擊反饋在線學(xué)習(xí)用戶的潛在意圖,動(dòng)態(tài)調(diào)整文檔排序,在與用戶的不斷交互中實(shí)現(xiàn)多樣化排序。
最早的多樣化排序的工作是Carbonell 等人在1998年提出的MMR 方法,即最大邊際相關(guān)度(Maximal Marginal Relevance)方法。他們首次提出把文檔與查詢?cè)~的相關(guān)度和文檔的信息新穎度結(jié)合起來(lái)對(duì)文檔進(jìn)行排序,在保持文檔與用戶查詢相關(guān)性的同時(shí),可以減少由于只根據(jù)與查詢?cè)~的相關(guān)度進(jìn)行排序而可能造成的文檔信息的冗余。他們定義一個(gè)文檔的邊際相關(guān)度為文檔的查詢相關(guān)度與信息新穎度的純屬組合,兩者用一個(gè)參數(shù)進(jìn)行調(diào)優(yōu)。其中文檔的信息新穎度由該文檔與已排序文檔的最大相似度決定,相似度越大,新穎度越小。在對(duì)文檔進(jìn)行排序時(shí),迭代選擇邊際相關(guān)度最大的文檔可以在一定程度上減少文檔的信息冗余。MMR 方法的提出對(duì)于多樣化排序的研究有著重要的意義,后續(xù)的許多工作也是基于MMR 這種多樣化排序策略的。
把MMR 排序策略與統(tǒng)計(jì)語(yǔ)言模型結(jié)合起來(lái),Zhai 等人提出了多種多樣化方法。他們利用統(tǒng)計(jì)語(yǔ)言模型,對(duì)結(jié)果文檔的查詢相關(guān)度和新穎度進(jìn)行建模,提出敢基于K-L Divergence 和混合主題模型的六種文檔新穎度計(jì)算方法,并在基礎(chǔ)上結(jié)合相關(guān)度排序方法進(jìn)行多樣化,以解決他們提出的了主題檢索問(wèn)題。
與子主題檢索不同,Zhang 等提出在進(jìn)行多樣化排序進(jìn)既要考慮文檔的多樣性,也要考慮文檔的信息豐富程度。多樣性衡量的是一個(gè)文檔集合所包含的不同的主題數(shù),而信息豐富程度則衡量的是一個(gè)文檔所包含的不同的主題數(shù)。在此基礎(chǔ)上,他們提出了一種多樣化排序方法Affinity Ranking,首先根據(jù)文檔之間的相似度構(gòu)建有向關(guān)系圖,用類似Pagerank 的方法在圖上計(jì)算文檔的信息豐富程序;接著在對(duì)文檔進(jìn)行排序時(shí),根據(jù)文檔與已排序文檔的相似性對(duì)文檔的信息豐富程度值做一個(gè)懲罰因子,從而把信息豐富程序和多樣性結(jié)合起來(lái)對(duì)文檔進(jìn)行排序。
類似地,Goldberg 等人也提出了一種通過(guò)用文檔之間的相似度構(gòu)建加權(quán)圖,以利用文檔之間的相似度比較促進(jìn)多樣化的算法Grasshopper。不同的是,他們把文檔集中性(與信息豐富程度類似)、多樣性和用戶偏好三種因素統(tǒng)一起來(lái)考慮,利用具有成熟理論基礎(chǔ)的吸收馬爾可夫陰隨機(jī)游走(Absorbing Markov Random Walks)框架,提出了一種基于MMR 策略的多樣化算法。該算法首先根據(jù)馬爾可夫鏈的隨機(jī)游走選擇第一個(gè)文檔,然后通過(guò)把已排序文檔設(shè)置為吸收態(tài),根據(jù)吸收馬爾可夫鏈的特性拉低與已排序文檔相似的文檔的排序位置,從而達(dá)到多樣化的目的。
Gollapudi 等人在他們所提出的公理化框架下,提出了三個(gè)多樣化排序的優(yōu)化目標(biāo)函數(shù),并對(duì)三個(gè)目標(biāo)函數(shù)進(jìn)行了公理化分析。三個(gè)目標(biāo)函數(shù)都是把文檔與查詢的相關(guān)度函數(shù)以及文檔之間的距離函數(shù)融合在一起進(jìn)行優(yōu)化,他們把其中的兩個(gè)目標(biāo)函數(shù)還原為設(shè)備分置(Facility Dispersion)的組合優(yōu)化問(wèn)題,利用現(xiàn)有的兩種貪心近似優(yōu)化算法分別進(jìn)行解決。此外,他們還強(qiáng)調(diào)文檔間的距離函數(shù)是多樣化方法的關(guān)鍵,因此他們采用了兩種新的距離函數(shù),分別是基于最小哈希的語(yǔ)義距離和基于分類樹的類別距離。
除了從文檔級(jí)別的角度進(jìn)行多樣化排序之外,還有一類隱式多樣化排序方法是從詞的角度入手,通過(guò)最大化詞空間覆蓋的方法達(dá)到多樣化的目的。Swaminathan 等人首先從詞的角度入手,提出了Essential Pages 方法以減少文檔列表的信息冗余。他們定義關(guān)鍵頁(yè)面(Essential Pages)為最大化與查詢相關(guān)的信息覆蓋度的文檔(頁(yè)面)子集合。為了優(yōu)化關(guān)鍵頁(yè)面的選擇,他們提出了一個(gè)基于SFFS 算法的文檔選擇算法,通過(guò)最大化所選擇的結(jié)果文檔子集的聯(lián)合覆蓋值來(lái)實(shí)現(xiàn)文檔列表的多樣化。類似地,Yue 等人也是通過(guò)選擇文檔最大化加權(quán)詞空間覆蓋的方式實(shí)現(xiàn)多樣化排序的,但他們提出的多樣化排序方法SVMdiv 是基于監(jiān)督式機(jī)器學(xué)習(xí)中的結(jié)構(gòu)化SVM 框架的,好處是可以利用豐富的特征,通過(guò)訓(xùn)練得到多樣化排序模型。他們提出了以最小化加權(quán)子主題代價(jià)作為優(yōu)化的代價(jià)函數(shù),并且根據(jù)詞出現(xiàn)頻率、位置等設(shè)計(jì)了多項(xiàng)特征,在訓(xùn)練時(shí)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)以學(xué)習(xí)得到最終的多樣化排序函數(shù)。
除了詞之外,Lad 等人提出一種更為抽象的概念——信息塊(Information Nugget)對(duì)信息空間進(jìn)行定義。他們提出多樣化問(wèn)題可以看作是期望全局效用(Expected Global Utility)的最大化問(wèn)題。該目標(biāo)函數(shù)的定義具備幾種特性:它可以同時(shí)衡量文檔的相關(guān)性和新穎性;它更注重排序位置靠前端的文檔;它可以衡量多種不同程度的冗余。而期望全局效用是定義在信息塊的基礎(chǔ)之上的,他們?cè)谖恼轮杏迷~和命名實(shí)體表示信息塊,通過(guò)用戶反饋在線學(xué)習(xí)信息塊的權(quán)重,通過(guò)貪心算法迭代選擇文檔對(duì)目標(biāo)函數(shù)進(jìn)行尋優(yōu),以獲得多樣化排序。
此外,Chen 和Karger 還提出用概率的方法解決多樣化問(wèn)題。他們假設(shè)侯選排序文檔根據(jù)查詢?cè)~可以分為相關(guān)文檔和不相關(guān)文檔,而且它們服從不同的概念分布,為了實(shí)現(xiàn)多樣化排序,他們提出的目標(biāo)函數(shù)是最大化在排序列表前n 個(gè)文檔中找到至少k 個(gè)相關(guān)概率,并基于EMP 原則(Experted Metric Principle)設(shè)計(jì)了一個(gè)貪心算法進(jìn)行優(yōu)化。當(dāng)k 為1 時(shí),在算法對(duì)文檔進(jìn)行選擇的每一次迭代中,算法總是假設(shè)前面已排序文檔與查詢?cè)~是不相關(guān)的,在此條件下,選擇與查詢相關(guān)概率最大的文檔作為下一個(gè)排序文檔。
與隱式多樣化排序方法不同,顯式多樣化排序方法都是假設(shè)存在(或者可以獲?。┎樵?cè)~所蘊(yùn)含的用戶意圖集合,在此基礎(chǔ)上,通過(guò)對(duì)各個(gè)文檔與各種潛在意圖之間的相關(guān)度進(jìn)行建模,最終根據(jù)相應(yīng)的目標(biāo)函數(shù)選擇文檔集合以滿足各種不同的用戶意圖。為了更好地進(jìn)行多樣化排序,顯式多樣化方法需要盡可能正確地挖掘潛在的用戶意圖,現(xiàn)有的顯式多樣化方法主要采用兩類方法:一類是從查詢?cè)~或者侯選文檔集合本身的內(nèi)容進(jìn)行挖掘,另一類則是根據(jù)用戶的點(diǎn)擊反饋進(jìn)行在線學(xué)習(xí)。
Agrawal 等人試圖在已知查詢和文檔的類別信息的情況下,提出把最大化平均用戶在排序結(jié)果列表的前k 個(gè)文檔中找到至少一個(gè)相關(guān)文檔的概率作為多樣化方法優(yōu)化的目標(biāo)函數(shù),并提出了一個(gè)貪心算法IA-Select 進(jìn)行求解,從而達(dá)到多樣化的目的。他們選擇開放式分類目錄搜索系統(tǒng)(Open Directory Project)上的分類目錄作為基準(zhǔn)類別信息,查詢?cè)~的類別分布采用文獻(xiàn)中的算法來(lái)獲取,而文檔的類別,即文檔與各種用戶意圖的相關(guān)度,則用Rocchio 分類器進(jìn)行估計(jì)。
Carterette等人針對(duì)他們提出的信息面主題檢索問(wèn)題,提出了一個(gè)概率模型,通過(guò)最大化排序文檔對(duì)各種信息面覆蓋率實(shí)現(xiàn)排序結(jié)果的多樣化。模型包括了三部分:首先是通過(guò)基于LDA 和相關(guān)度模型的主題模型對(duì)信息面進(jìn)行估計(jì),然后估計(jì)文檔與信息面的相關(guān)程度,最后通過(guò)最大化文檔子集中至少有一個(gè)文檔包含信息面的概率來(lái)獲得多樣化的效果。
Santos 等人則提出了一個(gè)用于多樣化排序的概率框架xQuad。在該框架中,他們首先挖掘查詢?cè)~所蘊(yùn)含的子查詢(Sub-query,即各種潛在意圖),根據(jù)文檔與子查詢的相關(guān)度估計(jì)文檔間的相似度,然后根據(jù)四個(gè)因素進(jìn)行多樣化。這四個(gè)因素包括子查詢的重要性、文檔對(duì)子查詢的覆蓋程度、文檔的新穎程度和文檔的查詢相關(guān)度。其中,文檔的新穎度是通過(guò)文檔與尚未覆蓋得很好的子查詢的相關(guān)度來(lái)確定的。而具體到對(duì)于子查詢的挖掘工作,在文獻(xiàn)中,他們先利用k-means 算法對(duì)文檔進(jìn)行聚類,再通過(guò)查詢擴(kuò)展模型從每一類的文檔中選取最有代表性的詞集作為子查詢;而在文獻(xiàn)中,他們則是提取現(xiàn)有搜索引擎所提供的相應(yīng)查詢?cè)~的相關(guān)查詢和查詢建議作為子查詢。
前面幾種方法都是從查詢?cè)~或者文檔集合中挖掘用戶的潛在意圖,而Radlinski 等人則通過(guò)用戶的點(diǎn)擊來(lái)確定用戶對(duì)文檔的需求。他們提出了一種在線多樣化排序方法,根據(jù)用戶的點(diǎn)擊反饋,動(dòng)態(tài)調(diào)整模型,從而不斷地更新排序列表,以滿足用戶的各種需求。這種方法的好處是把對(duì)潛在意圖的估計(jì)完全交給了用戶,這樣既可以準(zhǔn)確地估計(jì)用戶的意圖,也能適應(yīng)用戶的意圖的動(dòng)態(tài)變化。不過(guò),該方法需要與用戶進(jìn)行一定的交互之后才能獲得對(duì)用戶意圖的較好的估計(jì),而在這之前,該方法的多樣化效果不會(huì)太好。
總的來(lái)說(shuō),隨著眾多學(xué)者對(duì)互聯(lián)網(wǎng)信息檢索的多樣化排序問(wèn)題的研究,該問(wèn)題的本質(zhì)和關(guān)鍵問(wèn)題也逐步被揭開面紗?,F(xiàn)有的研究工作中包含了不少突破性的成果,但目前還存在著一些問(wèn)題,總結(jié)起來(lái),有以下幾點(diǎn):
(1)對(duì)多樣化排序方法的研究居多,而相應(yīng)的理論分析則較少,尤其是對(duì)隱式多樣化的排序方法的分析。
(2)現(xiàn)有的基于詞空間覆蓋的隱式多樣化排序方法中,在選擇文檔對(duì)詞空間進(jìn)行覆蓋時(shí),都是獨(dú)立地考慮詞被覆蓋的重要性,沒(méi)有考慮詞與詞之間的關(guān)系以及由此引申出來(lái)的詞的邊際效應(yīng),這樣的排序結(jié)果可能會(huì)存在一定的信息面冗余。
(3)現(xiàn)有的離線顯式多樣化排序方法從系統(tǒng)的角度對(duì)用戶查詢的潛在意圖集合進(jìn)行估計(jì),其準(zhǔn)確性和完整性還有待進(jìn)一步提高,且由于提供的是比較固定的排序列表,無(wú)法適應(yīng)用戶的意圖遷移。
(4)現(xiàn)有的在線顯式多樣化排序方法雖然可以通過(guò)與用戶的交互獲得對(duì)用戶意圖的較為準(zhǔn)確的估計(jì),但現(xiàn)有方法的收斂速度較慢,早期難以滿足用戶的需求。
(1)探索更合理更有效的多樣化排序方法。分別從隱式多樣化排序方法的關(guān)鍵問(wèn)題——如何挖掘文檔的信息面覆蓋差異性、顯式多樣化排序方法的關(guān)鍵問(wèn)題——如何估計(jì)用戶潛在總圖集合入手,解決現(xiàn)有排序方法所存在的問(wèn)題,提出更好的多樣化排序方法。
(2)建立并完善多樣化排序問(wèn)題的理論體系。當(dāng)前的多樣化排序研究工作以方法的研究居多,而相應(yīng)的理論分析則較缺乏,尤其缺少對(duì)隱式多樣化排序方法的分析。
(3)構(gòu)建簡(jiǎn)單實(shí)用的多樣化排序檢索系統(tǒng)。多樣化排序研究主要基于互聯(lián)網(wǎng)信息檢索,因此,多樣化方法既要考慮效果,又要考慮運(yùn)行效率,構(gòu)建一個(gè)實(shí)用的多樣化排序系統(tǒng),更具有現(xiàn)實(shí)意義。