• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于查詢(xún)性能預(yù)測(cè)的魯棒檢索排序研究

    2016-05-04 02:43:14薛源海俞曉明程學(xué)旗
    中文信息學(xué)報(bào) 2016年5期
    關(guān)鍵詞:魯棒性列表文檔

    薛源海,俞曉明,劉 悅,關(guān) 峰,程學(xué)旗

    (1. 中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190; 3. 中國(guó)科學(xué)院大學(xué),北京 100190)

    基于查詢(xún)性能預(yù)測(cè)的魯棒檢索排序研究

    薛源海1,2,3,俞曉明1,2,劉 悅1,2,關(guān) 峰1,2,3,程學(xué)旗1,2

    (1. 中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190; 3. 中國(guó)科學(xué)院大學(xué),北京 100190)

    信息檢索技術(shù)致力于從海量的信息資源中為用戶(hù)獲取所需的信息。相較于傳統(tǒng)的簡(jiǎn)單模型,近些年來(lái)的大量研究工作在提升了檢索結(jié)果平均質(zhì)量的同時(shí),往往忽略了魯棒性的問(wèn)題,即造成了很多查詢(xún)的性能下降,導(dǎo)致用戶(hù)滿(mǎn)意度的顯著下降。本文提出了一種基于排序?qū)W習(xí)的查詢(xún)性能預(yù)測(cè)方法,針對(duì)每一個(gè)查詢(xún),對(duì)多種模型得到的檢索結(jié)果列表進(jìn)行預(yù)測(cè),將其中預(yù)測(cè)性能最優(yōu)的檢索結(jié)果列表展示給用戶(hù)。在LETOR的三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集OHSUMED、MQ2008和MSLR-WEB10K上的一系列對(duì)比實(shí)驗(yàn)表明,在以經(jīng)典的BM25模型作為基準(zhǔn)的情況下,與當(dāng)前最好的檢索模型之一LambdaMART相比,該方法在提升了檢索結(jié)果平均質(zhì)量的同時(shí),顯著地減少了性能下降的查詢(xún)的數(shù)量,具備較好的魯棒性。

    查詢(xún)性能預(yù)測(cè);排序?qū)W習(xí);魯棒檢索排序

    1 引言

    我們身處于一個(gè)信息爆炸的時(shí)代,而信息檢索技術(shù)正是解決信息爆炸問(wèn)題最為有效的技術(shù)手段之一[1]。各類(lèi)信息檢索模型相繼被提出并投入到實(shí)際應(yīng)用中,主要包括向量空間模型、傳統(tǒng)概率模型、統(tǒng)計(jì)語(yǔ)言模型以及排序?qū)W習(xí)模型等。與此同時(shí),查詢(xún)擴(kuò)展、偽相關(guān)反饋以及查詢(xún)性能預(yù)測(cè)等技術(shù)也大量出現(xiàn),致力于提高檢索結(jié)果的質(zhì)量。然而,對(duì)于相對(duì)簡(jiǎn)單的模型或技術(shù)來(lái)說(shuō),日益復(fù)雜的方法在提升了檢索結(jié)果平均質(zhì)量的同時(shí),往往忽略了檢索結(jié)果魯棒性的重要性。

    在真實(shí)的應(yīng)用場(chǎng)景中,相對(duì)于性能提升的查詢(xún),用戶(hù)對(duì)失敗的查詢(xún)更加敏感,更容易記住不好的查詢(xún)體驗(yàn)。這就要求相較于基準(zhǔn)的檢索結(jié)果,在提升其平均質(zhì)量的同時(shí),還要盡量避免引入太多額外的風(fēng)險(xiǎn),即造成其中某些查詢(xún)的檢索結(jié)果質(zhì)量大幅下降。雖然高收益總是不可避免地伴隨著高風(fēng)險(xiǎn),但是各種檢索模型之間卻具備一定的互補(bǔ)性,本文將基于查詢(xún)性能預(yù)測(cè)技術(shù),融合多種檢索模型的優(yōu)勢(shì),致力于實(shí)現(xiàn)收益與風(fēng)險(xiǎn)之間的優(yōu)化平衡。

    本文組織如下: 第二節(jié)分別對(duì)檢索排序的魯棒性以及查詢(xún)性能預(yù)測(cè)進(jìn)行了回顧;第三節(jié)提出了基于排序?qū)W習(xí)的查詢(xún)性能預(yù)測(cè)方法并闡述了基于該方法實(shí)現(xiàn)具有魯棒性的檢索排序算法;第四節(jié)介紹了實(shí)驗(yàn)環(huán)境并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析;第五節(jié)給出了對(duì)本文工作的總結(jié)以及未來(lái)的研究方向。

    2 相關(guān)工作

    2.1 魯棒的檢索排序

    雖然大量致力于提升檢索排序結(jié)果質(zhì)量的技術(shù)相繼被提出,但是相對(duì)于簡(jiǎn)單的基準(zhǔn)方法來(lái)說(shuō),這些研究從總體上看在平均性能上得到了大幅提升的同時(shí),卻也引入了額外的風(fēng)險(xiǎn),即造成某些查詢(xún)性能的下降甚至是查詢(xún)失敗。檢索排序的魯棒性開(kāi)始被關(guān)注,即相對(duì)于某種基準(zhǔn)排序,如何在提升平均查詢(xún)性能的同時(shí),最小化在任意一個(gè)查詢(xún)上產(chǎn)生的風(fēng)險(xiǎn)。

    為不同的查詢(xún)建立個(gè)性化的模型是有效控制風(fēng)險(xiǎn)的途徑之一。文獻(xiàn)[2]基于K近鄰的方法,針對(duì)每一個(gè)查詢(xún),使用訓(xùn)練集中與其最相近的鄰居進(jìn)行訓(xùn)練,得到查詢(xún)獨(dú)立的排序函數(shù)。文獻(xiàn)[3]使用聚類(lèi)的方法,通過(guò)分而治之的策略訓(xùn)練得到查詢(xún)獨(dú)立的排序模型。文獻(xiàn)[4]將查詢(xún)分類(lèi),對(duì)于不同種類(lèi)的查詢(xún),分別使用不同的損失函數(shù)進(jìn)行優(yōu)化訓(xùn)練,也取得了不錯(cuò)的效果。

    一些研究工作針對(duì)adhoc檢索提出了具備風(fēng)險(xiǎn)意識(shí)的排序算法,文獻(xiàn)[5]和文獻(xiàn)[6]對(duì)檢索排序的不確定性等因素進(jìn)行了分析建模,以達(dá)到控制檢索風(fēng)險(xiǎn)的目的。面向多目標(biāo)優(yōu)化的排序?qū)W習(xí)算法也相繼被提出,文獻(xiàn)[7]提出了同時(shí)考慮文檔新鮮度以及相關(guān)性的多目標(biāo)排序?qū)W習(xí)算法,文獻(xiàn)[8]則是將傳統(tǒng)的相關(guān)性指標(biāo)NDCG作為主要優(yōu)化目標(biāo),將通過(guò)點(diǎn)擊數(shù)據(jù)獲得的偽相關(guān)反饋?zhàn)鳛榇我獌?yōu)化目標(biāo)進(jìn)行訓(xùn)練學(xué)習(xí),文獻(xiàn)[9]提出了一種能夠刻畫(huà)檢索性能與魯棒性之間平衡的指標(biāo),將該指標(biāo)應(yīng)用到排序?qū)W習(xí)算法中,在取得較好的平均性能的同時(shí),減少了查詢(xún)失敗的數(shù)量。

    本文將從另一個(gè)角度出發(fā),使用排序?qū)W習(xí)算法對(duì)多種檢索模型得到的結(jié)果列表進(jìn)行相對(duì)性能好壞的預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果得到平均性能好且具備魯棒性的檢索排序結(jié)果。

    2.2 查詢(xún)性能預(yù)測(cè)

    不同的用戶(hù)給出的不同查詢(xún)的檢索結(jié)果質(zhì)量,往往具有很大的差異性。查詢(xún)性能預(yù)測(cè)技術(shù)致力于在缺乏相關(guān)性標(biāo)注的情況下,對(duì)某一查詢(xún)返回的檢索結(jié)果質(zhì)量進(jìn)行估計(jì)。目前,針對(duì)查詢(xún)性能預(yù)測(cè)技術(shù)的研究大致可分為兩類(lèi): 基于檢索前的方法(Pre-retrieval predictors)和基于檢索后的方法(Post-retrieval predictors)。

    基于檢索前的方法完全不關(guān)心檢索返回的結(jié)果列表,而僅僅對(duì)查詢(xún)本身進(jìn)行分析,同時(shí)利用待檢索數(shù)據(jù)集的統(tǒng)計(jì)信息進(jìn)行估計(jì)。這些方法主要著眼于一個(gè)查詢(xún)到底具備多強(qiáng)的區(qū)分力,其是否足夠?qū)⒋龣z索數(shù)據(jù)集中的相關(guān)文檔以及不相關(guān)文檔區(qū)分開(kāi)來(lái)。利用查詢(xún)?cè)~項(xiàng)的逆文檔頻率(IDF)進(jìn)行預(yù)測(cè)是該類(lèi)方法的主流策略,它們分別嘗試了使用查詢(xún)?cè)~項(xiàng)IDF的平均值、標(biāo)準(zhǔn)方差以及某種變形來(lái)預(yù)測(cè)查詢(xún)的性能[10-12]。這些方法雖然都具有一定的效果,但均無(wú)法較好地對(duì)查詢(xún)性能進(jìn)行預(yù)測(cè)。

    基于檢索后的方法在上述方法的基礎(chǔ)上,進(jìn)一步對(duì)檢索返回的結(jié)果列表進(jìn)行了分析,包括返回的結(jié)果列表中各文檔間的相關(guān)關(guān)系以及其與整個(gè)文檔集之間的關(guān)系等。文獻(xiàn)[13]基于查詢(xún)和整個(gè)文檔集兩個(gè)語(yǔ)言模型之間的KL距離,提出了Clarity score的方法,是早期成功預(yù)測(cè)了查詢(xún)性能的方法之一。文獻(xiàn)[14]等很多工作是其優(yōu)化后的版本。文獻(xiàn)[15]提出了一種基于決策樹(shù)的預(yù)測(cè)方法,其簡(jiǎn)單易實(shí)施,卻非常依賴(lài)于有限的訓(xùn)練數(shù)據(jù)集。文獻(xiàn)[16]提出了一個(gè)新的概念Robustness score,用于度量檢索返回文檔集列表的穩(wěn)定性,實(shí)驗(yàn)驗(yàn)證了加入噪音后,檢索結(jié)果列表的穩(wěn)定性與查詢(xún)的性能有著很強(qiáng)的相關(guān)性。文獻(xiàn)[17]提出了WIG的統(tǒng)計(jì)量,并利用檢索返回結(jié)果與整個(gè)文檔集之間的狀態(tài)差異來(lái)估計(jì)查詢(xún)的性能,取得了不錯(cuò)的效果。文獻(xiàn)[18]提出了基于CTS的預(yù)測(cè)方法,其刻畫(huà)了用戶(hù)查詢(xún)主題在檢索結(jié)果中的覆蓋度,覆蓋度越高,則說(shuō)明該查詢(xún)的檢索結(jié)果質(zhì)量越高。近年來(lái)的一些研究也表明,利用檢索結(jié)果列表的文檔得分可以有效地進(jìn)行查詢(xún)性能預(yù)測(cè),如文獻(xiàn)[19]使用檢索結(jié)果列表文檔得分的標(biāo)準(zhǔn)方差進(jìn)行了較成功的查詢(xún)性能預(yù)測(cè)。文獻(xiàn)[20]則討論了在多檢索結(jié)果列表融合場(chǎng)景下的查詢(xún)性能預(yù)測(cè)問(wèn)題。

    上述的查詢(xún)性能預(yù)測(cè)研究,多是著眼于預(yù)測(cè)查詢(xún)結(jié)果質(zhì)量的絕對(duì)好壞,而本文將針對(duì)同一查詢(xún),對(duì)不同檢索結(jié)果列表質(zhì)量的相對(duì)好壞程度進(jìn)行預(yù)測(cè),最終致力于得到具有更好魯棒性的檢索排序算法。

    3 基于查詢(xún)性能預(yù)測(cè)的魯棒檢索排序算法

    在真實(shí)的信息檢索應(yīng)用場(chǎng)景中,無(wú)論是用戶(hù)本身以及提交的查詢(xún),還是其最終的信息需求,往往都存在著極大的多樣性和不確定性,這是導(dǎo)致單一檢索排序模型難以具備較好的魯棒性的主要原因之一。

    以往的研究大多致力于提升查詢(xún)集檢索結(jié)果的平均質(zhì)量,而忽略了魯棒性的問(wèn)題,結(jié)果導(dǎo)致大量查詢(xún)的檢索結(jié)果質(zhì)量得到了提升,也確實(shí)提升了整個(gè)查詢(xún)集檢索結(jié)果的平均質(zhì)量,但不可避免的以部分查詢(xún)的檢索結(jié)果質(zhì)量下降甚至是大幅下降作為代價(jià)。以應(yīng)用最為廣泛的BM25模型和排序?qū)W習(xí)算法LambdaMART為例,在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集OHSUMED、MQ2008和MSLR-WEB10K上的測(cè)試結(jié)果如圖1所示。顯而易見(jiàn),以BM25為基準(zhǔn),LambdaMART雖然大幅提升了檢索結(jié)果的平均質(zhì)量,但在三個(gè)數(shù)據(jù)集上,均造成了大量查詢(xún)的檢索結(jié)果質(zhì)量下降,甚至于有10%左右的查詢(xún)結(jié)果質(zhì)量下降幅度超過(guò)25%。既然LambdaMART在部分查詢(xún)上的表現(xiàn)不如BM25,那么在這些查詢(xún)上,其他檢索模型的表現(xiàn)又如何呢?本文引入了布爾模型、向量空間模型以及語(yǔ)言模型等,測(cè)試結(jié)果如圖2所示。

    圖1 基于BM25,LambdaMART的魯棒性問(wèn)題

    圖2 在LambdaMART不如BM25的查詢(xún)上,表現(xiàn)最好的模型分布

    本文的目標(biāo)是,給定一組基準(zhǔn)的檢索結(jié)果列表,構(gòu)造一組新的檢索結(jié)果列表,使其相對(duì)于基準(zhǔn)結(jié)果來(lái)說(shuō),平均性能有所提升的同時(shí),避免在任意一個(gè)單獨(dú)的查詢(xún)上,性能有大幅下降。而從圖2中可以看到,在LambdaMART的表現(xiàn)不如BM25的查詢(xún)中均有至少50%以上的查詢(xún),存在比BM25表現(xiàn)更好的模型。針對(duì)同一個(gè)待檢索文檔集以及同一組查詢(xún),不同檢索模型的表現(xiàn)各不相同且各種模型之間存在一定的互補(bǔ)性。于是本文提出了基于查詢(xún)性能預(yù)測(cè)的魯棒檢索排序算法,擇優(yōu)錄用不同模型的檢索結(jié)果,預(yù)期在不明顯影響平均性能的同時(shí),顯著減少性能下降的查詢(xún)數(shù),提高最終檢索結(jié)果的魯棒性。其具體流程如下:

    1) 針對(duì)已標(biāo)注的每一個(gè)查詢(xún),使用多種檢索模型得到多個(gè)結(jié)果列表;

    2) 使用給定的評(píng)價(jià)指標(biāo)對(duì)各個(gè)結(jié)果列表的性能打分并從小到大排序,構(gòu)造基于(查詢(xún)—結(jié)果列表)對(duì)的特征向量,并以排序序號(hào)對(duì)其進(jìn)行性能等級(jí)標(biāo)注,得到訓(xùn)練集;

    3) 在訓(xùn)練集上使用排序?qū)W習(xí)算法訓(xùn)練得到用于預(yù)測(cè)結(jié)果列表性能的排序模型;

    4) 對(duì)于新的未標(biāo)注查詢(xún),使用多種檢索模型得到多個(gè)候選結(jié)果列表,然后利用學(xué)習(xí)得到的排序模型對(duì)其進(jìn)行排序,選擇排序最靠前的結(jié)果列表作為最終結(jié)果列表。

    本節(jié)接下來(lái)將分別從基礎(chǔ)符號(hào)定義、基于(查詢(xún)-結(jié)果列表)對(duì)的特征向量構(gòu)造以及性能預(yù)測(cè)模型的學(xué)習(xí)三個(gè)方面進(jìn)行詳細(xì)闡述。

    3.1 基礎(chǔ)符號(hào)定義

    1) 查詢(xún)集大小為n,記為Q= {q1,q2, …,qn};

    2) 文檔集大小為N,記為D= {d1,d2, …,dN};

    3) 檢索模型集大小為m,記為Model= {M1,M2, …,Mm},基準(zhǔn)模型Mbase∈Model;

    4) 針對(duì)查詢(xún)qi,檢索模型Mj得到的結(jié)果列表包含K個(gè)文檔,記為L(zhǎng)ij= {d1,d2, …,dK};

    5) 基于(qi-dj)對(duì)的特征向量為FQDij,基于(qi-Lij)對(duì)的特征向量為FQLij。

    3.2 基于(查詢(xún)-結(jié)果列表)對(duì)的特征向量構(gòu)造

    本文使用檢索結(jié)果列表中的文檔所對(duì)應(yīng)的基于(查詢(xún)-文檔)對(duì)的特征向量FQD構(gòu)造基于(查詢(xún)-結(jié)果列表)對(duì)的特征向量FQL,其中FQD由Y個(gè)特征組成,記為{f1,f2, …,fY}。本文主要嘗試了兩大類(lèi)構(gòu)造方法: 基于組合的方法和基于融合的方法。

    3.2.1 基于組合的方法

    基于組合的方法最為直接簡(jiǎn)單,即將檢索結(jié)果列表中各文檔所對(duì)應(yīng)的FQDk直接順序拼接得到FQL,則基于組合的方法(Combination)構(gòu)造的FQL如式(1)所示。

    (1)

    由此構(gòu)造得到的FQL所包含的特征維數(shù)將是FQD的K倍。

    3.2.2 基于融合的方法

    與基于組合的方法不同,基于融合的方法則不會(huì)造成特征維數(shù)的增長(zhǎng)。該方法通過(guò)將檢索結(jié)果列表中的K個(gè)文檔所對(duì)應(yīng)的FQDk進(jìn)行線(xiàn)性加權(quán)得到FQL,則基于融合的方法構(gòu)造的FQL如式(2)所示。

    (2)

    其中,F(xiàn)QDk為在該列表中排在第k位的文檔所對(duì)應(yīng)的FQD,而Wk為其權(quán)重。由此構(gòu)造得到的FQL與FQD具有相同特征維數(shù),且各個(gè)特征之間一一對(duì)應(yīng)。

    本文將嘗試使用三種函數(shù)對(duì)權(quán)重Wk進(jìn)行計(jì)算,它們分別如式(3)~式(5)所示。

    ? 反比例函數(shù)(Inverse):

    (3)

    ? 余弦函數(shù)(Cosine):

    (4)

    ? 三角形函數(shù)(Triangle):

    (5)

    其中,K為檢索結(jié)果列表的大小,即包含的文檔數(shù),k∈[1, K]。

    3.3 性能預(yù)測(cè)模型的學(xué)習(xí)

    本文選擇基于list-wise的排序?qū)W習(xí)算法LambdaMART[21]訓(xùn)練性能預(yù)測(cè)模型,提出了名為風(fēng)險(xiǎn)規(guī)避值的性能預(yù)測(cè)評(píng)價(jià)指標(biāo)作為其優(yōu)化目標(biāo)。

    3.3.1FQL的性能等級(jí)(Ground truth)標(biāo)注

    本文使用NDCG@10作為檢索結(jié)果的性能評(píng)價(jià)指標(biāo)。給定查詢(xún)q及其候選結(jié)果列表集List= {L1,L2, …,Lm},分別對(duì)各列表進(jìn)行打分,記為P(Li),按照P(Li)將其從小到大排序,再按照Li所處的位置對(duì)其進(jìn)行性能等級(jí)(Ground truth)標(biāo)注,記為G(Li),如式(6)所示。

    (6)

    3.3.2 風(fēng)險(xiǎn)規(guī)避值(Risk-Averse)

    給定查詢(xún)q及其候選結(jié)果列表的排序RankList={L1,L2, …,Lm},記該結(jié)果列表排序的風(fēng)險(xiǎn)規(guī)避值為RA(q,RankList),計(jì)算公式如式(7)所示。

    (7)

    其中,α的取值范圍為[0, 1),β的取值范圍為(1, ∞)。使用LambdaMART,以RA(q,RankList)最大化為優(yōu)化目標(biāo),訓(xùn)練學(xué)習(xí)得到性能預(yù)測(cè)模型。最終使用該模型對(duì)用戶(hù)提交的查詢(xún)的多個(gè)候選結(jié)果列表進(jìn)行排序,以預(yù)測(cè)性能最優(yōu)的那個(gè)結(jié)果列表作為最終呈現(xiàn)給用戶(hù)的結(jié)果列表。

    4 實(shí)驗(yàn)結(jié)果

    4.1 測(cè)試數(shù)據(jù)集

    本文在LETOR[22]的三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了一系列的實(shí)驗(yàn)。這些數(shù)據(jù)集在大小和內(nèi)容上各有不同,均是被研究者廣泛使用的公開(kāi)數(shù)據(jù)集。它們都被預(yù)先分為了五組,各組中都包含了對(duì)應(yīng)的訓(xùn)練集、驗(yàn)證集以及測(cè)試集,可以方便地進(jìn)行五折交叉驗(yàn)證。各數(shù)據(jù)集的相關(guān)信息如表1所示。

    表1 測(cè)試數(shù)據(jù)集概況

    本文使用到的檢索模型包含TF-IDF、布爾模型、向量空間模型、BM25、LMIR.ABS、LMIR.DIR、LMIR.JM以及LambdaMART,其中,除了LambdaMART,其余模型均直接使用數(shù)據(jù)集中對(duì)應(yīng)的特征值對(duì)候選文檔進(jìn)行排序。本文實(shí)驗(yàn)中在各數(shù)據(jù)集上所使用的檢索模型集以及其中各模型所對(duì)應(yīng)的特征號(hào)如表2所示。

    表2 各測(cè)試數(shù)據(jù)集上使用的模型集及其中各模型對(duì)應(yīng)的特征號(hào)

    注: “—”表示未使用;LambdaMART的參數(shù)通過(guò)網(wǎng)格搜索和在驗(yàn)證集上的結(jié)果進(jìn)行最優(yōu)設(shè)定。

    4.2 實(shí)驗(yàn)結(jié)果概要

    本文使用當(dāng)前應(yīng)用廣泛的排序?qū)W習(xí)模型之一LambdaMART作為參照,考察相對(duì)于BM25模型,上述提出的魯棒排序算法在平均性能以及魯棒性方面的表現(xiàn)。本文使用NDCG@10作為檢索結(jié)果的相關(guān)性評(píng)價(jià)指標(biāo),以BM25模型作為基準(zhǔn)的排序模型。魯棒排序算法分別使用四種基于(查詢(xún)-結(jié)果列表)對(duì)的特征向量構(gòu)造方法,在OHSUMED,MQ2008以及MSLR-WEB10K三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),其中各參數(shù)通過(guò)網(wǎng)格搜索和在驗(yàn)證集上的結(jié)果進(jìn)行最優(yōu)設(shè)定。實(shí)驗(yàn)結(jié)果概要如表3所示,其中“# of Losses”指相對(duì)于BM25模型,性能下降的查詢(xún)數(shù),數(shù)目減少超過(guò)5%的結(jié)果被加粗顯示。

    表3 魯棒排序算法與LambdaMART模型在不同數(shù)據(jù)集上的對(duì)比

    可以看到,在三個(gè)數(shù)據(jù)集上,相較于LambdaMART,通過(guò)魯棒排序算法得到的結(jié)果,均顯著地減少了性能下降的查詢(xún)數(shù),與此同時(shí),平均性能僅略微下降,與預(yù)期相符。四種特征向量構(gòu)造方法在各個(gè)數(shù)據(jù)集上各有優(yōu)劣,但總體效果都非常不錯(cuò),這也驗(yàn)證了該算法的有效性,其對(duì)特征向量的構(gòu)造方法并不特別敏感。值得注意的是,當(dāng)使用基于反比例函數(shù)的融合方法時(shí),不僅是顯著減少了性能下降的查詢(xún)數(shù),而且平均性能在OHSUMED上與LambdaMART基本持平,在MQ2008上甚至比LambdaMART還有了進(jìn)一步的提升。

    4.3 性能下降的查詢(xún)的性能下降幅度分布

    同樣是性能下降,但下降幅度的大小對(duì)于用戶(hù)體驗(yàn)來(lái)說(shuō)也是至關(guān)重要的,性能的大幅下降往往是用戶(hù)不可接受的。以MSLR-WEB10K為例,將性能下降的查詢(xún)按照下降幅度分為五個(gè)區(qū)間進(jìn)行統(tǒng)計(jì),結(jié)果如圖3所示。

    圖3 LambdaMART與魯棒排序算法在MSLR-WEB10K上的性能下降查詢(xún)的下降幅度分布

    顯而易見(jiàn),無(wú)論使用哪種特征向量的構(gòu)造方法,在任何一個(gè)性能下降幅度區(qū)間內(nèi),魯棒排序算法的結(jié)果均要明顯優(yōu)于LambdaMART,各區(qū)間內(nèi)的查詢(xún)數(shù)均大幅減少,具備更好的魯棒性。

    4.4 對(duì)查詢(xún)失敗的控制

    若某一個(gè)查詢(xún),當(dāng)使用基準(zhǔn)檢索模型所得到的結(jié)果列表時(shí),能夠獲取到相關(guān)文檔(性能指標(biāo)非零),而使用當(dāng)前新的結(jié)果列表時(shí),無(wú)法獲取到相關(guān)文檔(性能指標(biāo)為零),則本文稱(chēng)該查詢(xún)失敗。在真實(shí)的應(yīng)用場(chǎng)景中,查詢(xún)失敗對(duì)于用戶(hù)來(lái)說(shuō)往往是不可接受的,有極大的可能性將導(dǎo)致用戶(hù)的流失,所以,對(duì)查詢(xún)失敗的控制是極為重要的。依舊以MSLR-WEB10K為例,LambdaMART與魯棒排序算法的查詢(xún)失敗數(shù)對(duì)比如表4所示,魯棒排序算法在對(duì)查詢(xún)失敗的控制上顯著優(yōu)于LambdaMART,將查詢(xún)失敗數(shù)減少了超過(guò)10%。

    表4 LambdaMART與魯棒排序算法在MSLR-WEB10K上的查詢(xún)失敗數(shù)對(duì)比

    5 總結(jié)與展望

    本文對(duì)信息檢索系統(tǒng)的魯棒性進(jìn)行了研究,通過(guò)利用多種檢索模型的互補(bǔ)性,提出了一種基于查詢(xún)性能預(yù)測(cè)的魯棒排序算法并在LETOR的3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證與分析。實(shí)驗(yàn)結(jié)果表明,與LambdaMART相比,本文提出的方法能夠在幾乎不影響平均性能的同時(shí),大幅提升魯棒性,特別是使得查詢(xún)失敗的概率顯著減小,更能適應(yīng)實(shí)際應(yīng)用的需求。

    在今后的工作中,希望能夠提出更多有用的基于(查詢(xún)-結(jié)果列表)對(duì)的特征,進(jìn)一步優(yōu)化查詢(xún)性能預(yù)測(cè)方法以及最終的結(jié)果選擇策略。此外,如何更好地將平均性能以及魯棒性進(jìn)行統(tǒng)一的綜合評(píng)價(jià)也是未來(lái)的研究方向。

    [1] Baeza Yates R, Ribeiro Neto B. Modern information retrieval[M]. New York: ACM press, 1999.

    [2] Geng X, Liu T Y, Qin T, et al. Query dependent ranking using k-nearest neighbor[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2008: 115-122.

    [3] Bian J, Li X, Li F, et al. Ranking specialization for web search: a divide-and-conquer approach by using topical RankSVM[C]//Proceedings of the 19th international conference on World wide web. ACM, 2010: 131-140.

    [4] Bian J, Liu T Y, Qin T, et al. Ranking with query-dependent loss for web search[C]//Proceedings of the third ACM international conference on Web search and data mining. ACM, 2010: 141-150.

    [5] Wang J, Zhu J. Portfolio theory of information retrieval[C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval. ACM, 2009: 115-122.

    [6] Zhu J, Wang J, Cox I J, et al. Risky business: modeling and exploiting uncertainty in information retrieval[C]//Proceedings of the 32nd international ACM SIGIR conference on research and development in information retrieval. ACM, 2009: 99-106.

    [7] Dai N,Shokouhi M, Davison B D. Learning to rank for freshness and relevance[C]//Proceedings of the 34th International ACM SIGIR conference on Research and development in Information Retrieval. ACM, 2011: 95-104.

    [8] Svore K M, Volkovs M N, Burges C J C. Learning to rank with multiple objective functions[C]//Proceedings of the 20th international conference on World wide web. ACM, 2011: 367-376.

    [9] Wang L, Bennett P N, Collins-Thompson K. Robust ranking models via risk-sensitive optimization[C]//Proceedings of the 35th international ACM SIGIR conference on research and development in information retrieval. ACM, 2012: 761-770.

    [10] Tomlinson S. Robust, web and terabyte retrieval with HummingbirdSearchServertm at TREC 2004[C]//Proceedings of the 13th Text Retrieval Conference.2004.

    [11] He B,Ounis I. Inferring query performance using pre-retrieval predictors[C]//Proceedings of String processing and information retrieval. Springer Berlin Heidelberg, 2004: 43-54.

    [12] Plachouras V, He B, Ounis I. University of Glasgow at TREC 2004: Experiments in Web, Robust, and Terabyte Tracks with Terrier[C]//Proceedings of the 13th Text Retrieval Conference.2004.

    [13] Cronen Townsend S, Zhou Y, Croft W B. Predicting query performance[C]//Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2002: 299-306.

    [14] Hauff C, Murdock V, Baeza Yates R. Improved query difficulty prediction for the web[C]//Proceedings of the 17th ACM conference on Information and knowledge management. ACM, 2008: 439-448.

    [15] Yom Tov E, Fine S, Carmel D, et al. Learning to estimate query difficulty: including applications to missing content detection and distributed information retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2005: 512-519.

    [16] Zhou Y, Croft W B. Ranking robustness: a novel framework to predict query performance[C]//Proceedings of the 15th ACM international conference on information and knowledge management. ACM, 2006: 567-574.

    [17] Zhou Y, Croft W B. Query performance prediction in web search environments[C]//Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2007: 543-550.

    [18] Lang H, Wang B, Jones G, et al. Query performance prediction for information retrieval based on covering topic score[J]. Journal of Computer Science and technology, 2008, 23(4): 590-601.

    [19] Cummins R. Predicting query performance directly from score distributions[M]. Information Retrieval Technology. Springer Berlin Heidelberg, 2011: 315-326.

    [20] Markovits G, Shtok A, Kurland O, et al. Predicting query performance for fusion-based retrieval[C]//Proceedings of the 21st ACM international conference on information and knowledge management. ACM, 2012: 813-822.

    [21] Wu Q, Burges C J C,Svore K M, et al. Adapting boosting for information retrieval measures[J]. Information Retrieval, 2010, 13(3): 254-270.

    [22] Microsoft Research. LETOR[EB/OL]. http://research.microsoft.com/en-us/um/beijing/projects/letor/.

    Robust Ranking via Query Performance Prediction

    XUE Yuanhai1,2,3, YU Xiaoming1,2, LIU Yue1,2, GUAN Feng1,2,3, CHENG Xueqi1,2

    (1. Key Laboratory of Network Data Science and Technology, Chinese Academy of Sciences, Beijing 100190,China; 2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China; 3. University of Chinese Academy of Sciences, Beijing 100190,China)

    The main purpose of information retrieval technology is satisfying users information needs by using massive amounts of information recource. Recent years, many techniques increase average effectiveness relative to traditional simple model while they often ignore the robustness issue. Users satisfaction will be significantly hurt because of degraded results of many queries. A query performance prediction method based on learning to rank is proposed to obtain robust ranking results. For each query, the performance of multiple ranking results generated by different models are predicted and the best one is shown to the user. A series of experiments are conducted on three standard LETOR benchmark datasets which are OHSUMED, MQ2008 and MSLR-WEB10K. The results show that, compared to one of the state-of-the-art models named LambdaMART, the ranking results obtained this way significantly reduced the number of queries whose performance are hurt with respect to BM25 model while improving the nearly same degree of everage effectiveness.

    query performance prediction; learning to rank; robust ranking

    薛源海(1987—),博士,主要研究領(lǐng)域?yàn)樾畔z索和數(shù)據(jù)挖掘。E?mail:xueyuanhai@software.ict.a(chǎn)c.cn俞曉明(1977—),博士,高級(jí)工程師,主要研究領(lǐng)域?yàn)樾畔z索和大數(shù)據(jù)。E?mail:yuxiaoming@software.ict.a(chǎn)c.cn劉悅(1971—),博士,副研究員,主要研究領(lǐng)域?yàn)樾畔z索和數(shù)據(jù)挖掘。E?mail:liuyue@ict.a(chǎn)c.cn

    1003-0077(2016)05-0169-07

    2015-11-15 定稿日期: 2016-04-20

    國(guó)家自然科學(xué)基金(61232010,61173008);國(guó)家“863”高技術(shù)研究發(fā)展計(jì)劃(2012AA011003,2013AA01A213);國(guó)家“973”重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃(2012CB316303,2013CB329602);國(guó)家科技部“十一五”科技計(jì)劃(2012BAH39B02,2012BAH46B04)

    猜你喜歡
    魯棒性列表文檔
    巧用列表來(lái)推理
    有人一聲不吭向你扔了個(gè)文檔
    學(xué)習(xí)運(yùn)用列表法
    擴(kuò)列吧
    荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
    基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性?xún)?yōu)化
    西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    三台县| 建瓯市| 东丰县| 射阳县| 兰州市| 临泉县| 类乌齐县| 娱乐| 霍邱县| 巴中市| 隆化县| 崇仁县| 昌都县| 新绛县| 吉首市| 三台县| 敦化市| 舞阳县| 河间市| 萍乡市| 新野县| 札达县| 邵东县| 彭山县| 丹凤县| 松原市| 深圳市| 仪陇县| 金山区| 东海县| 开原市| 商都县| 循化| 龙陵县| 邹城市| 浙江省| 漾濞| 济阳县| 肃宁县| 凤台县| 佛学|