• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      搜索引擎用戶滿意度評估

      2017-06-23 12:48:01劉奕群
      關(guān)鍵詞:搜索引擎效用鼠標(biāo)

      劉奕群

      (清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 北京 100084)

      搜索引擎用戶滿意度評估

      劉奕群

      (清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 北京 100084)

      (yiqunliu@tsinghua.edu.cn)

      用戶滿意度評估一直是互聯(lián)網(wǎng)搜索領(lǐng)域的研究熱點(diǎn),并具有3方面的挑戰(zhàn):1)傳統(tǒng)的搜索性能評估方法大多基于對檢索結(jié)果相關(guān)性的標(biāo)注,但大多數(shù)基于相關(guān)性標(biāo)注的評價(jià)指標(biāo)并非針對互聯(lián)網(wǎng)搜索環(huán)境而設(shè)計(jì),其結(jié)果與搜索用戶主觀滿意度之間的關(guān)系缺乏相應(yīng)研究;2)大多數(shù)已有的工作都基于搜索結(jié)果同質(zhì)化的假設(shè),但隨著搜索引擎的發(fā)展,異質(zhì)化的搜索結(jié)果元素開始頻繁地出現(xiàn)在搜索結(jié)果列表中;3)已有的關(guān)于搜索滿意度評估的工作主要基于用戶的點(diǎn)擊和查詢修改行為開展,但實(shí)際搜索中會(huì)有大量的用戶會(huì)話中缺失此類信息.總結(jié)了近期為解決這些研究問題開展的實(shí)驗(yàn)研究工作:1)構(gòu)建了用戶行為實(shí)驗(yàn)系統(tǒng),分析了結(jié)果相關(guān)性與用戶所感知到的結(jié)果效用和滿意度之間的關(guān)系;2)基于仔細(xì)設(shè)計(jì)的異質(zhì)化搜索結(jié)果頁面,定量地分析了垂直搜索結(jié)果的質(zhì)量、展現(xiàn)形式、位置等因素對用戶滿意度的影響;3)受現(xiàn)有的采用鼠標(biāo)移動(dòng)信息進(jìn)行搜索結(jié)果相關(guān)性預(yù)測的工作啟發(fā),提出了在搜索結(jié)果頁面上抽取用戶鼠標(biāo)移動(dòng)行為模式并進(jìn)行滿意度評估的方法.實(shí)驗(yàn)結(jié)果表明:在真實(shí)搜索環(huán)境下,所提出的方法優(yōu)于現(xiàn)有的模型.

      搜索滿意度;相關(guān)性;垂直搜索;鼠標(biāo)移動(dòng)信息;網(wǎng)絡(luò)搜索引擎

      性能評價(jià)作為檢索系統(tǒng)改進(jìn)排序算法、檢測困難查詢、優(yōu)化查詢系統(tǒng)的重要依據(jù)和保障,一直是信息檢索領(lǐng)域關(guān)注的研究熱點(diǎn).Cleverdon提出的Cranfield評價(jià)體系[1]是檢索系統(tǒng)(包括搜索引擎)性能評價(jià)方面的經(jīng)典研究框架,該體系通過標(biāo)準(zhǔn)查詢輸入下系統(tǒng)輸出與標(biāo)準(zhǔn)輸出的差異來衡量檢索系統(tǒng)的性能優(yōu)劣.然而,隨著網(wǎng)絡(luò)搜索相關(guān)技術(shù)的發(fā)展與普及,傳統(tǒng)的以“文檔—查詢”相關(guān)性標(biāo)注為主要依據(jù)的Cranfield體系在實(shí)際應(yīng)用中體現(xiàn)出了越來越多的局限性[2].對搜索引擎性能的評價(jià)模式因而變得越來越多樣化,而對搜索引擎用戶的滿意度評估就是其中的一個(gè)重要的研究方向.Su[3]在20世紀(jì)70年代首次將滿意度評估引入到信息檢索領(lǐng)域.隨后,Kelly完善了對滿意度的概念定義,將其定義為“用戶滿足特定信息需求或達(dá)成特定信息獲取目的的程度”[4].對搜索用戶的滿意度評估結(jié)果能夠?yàn)樗阉饕嫔虡I(yè)運(yùn)營帶來最直觀的性能描述,也因此受到搜索產(chǎn)品研發(fā)人員和搜索廣告商的高度重視.

      雖然已有學(xué)者進(jìn)行了大量的搜索滿意度評估相關(guān)研究,但當(dāng)前關(guān)于如何合理量化估計(jì)用戶的搜索滿意度方面,仍然存在3方面的研究挑戰(zhàn):1)基于搜索滿意度的評價(jià)結(jié)果和傳統(tǒng)的基于“文檔-查詢”相關(guān)性標(biāo)注的Cranfield評價(jià)結(jié)果之間的關(guān)系缺乏定量研究,搜索用戶滿意度和搜索結(jié)果質(zhì)量之間的關(guān)聯(lián)關(guān)系也需進(jìn)一步研究.2)現(xiàn)有的大多數(shù)搜索滿意度研究都基于同質(zhì)化的搜索結(jié)果頁面(search engine result pages, SERPs)的假設(shè)進(jìn)行,即搜索結(jié)果頁面上的所有結(jié)果都具有相同的展現(xiàn)形式:一個(gè)帶超鏈接的標(biāo)題和一個(gè)短摘要.近年來,隨著商業(yè)搜索引擎的快速發(fā)展,越來越多的以異質(zhì)化形式呈現(xiàn)的垂直結(jié)果(視頻、圖片、知識圖譜等)出現(xiàn)在搜索結(jié)果頁面,用戶的檢驗(yàn)和點(diǎn)擊行為也隨之發(fā)生了顯著的改變[5-6],但用戶異質(zhì)搜索環(huán)境下的滿意度感知過程仍然鮮有研究.3)與采用點(diǎn)擊信息即可達(dá)到較好評估效果的搜索結(jié)果相關(guān)性不同,用戶的搜索滿意度可能與大量的交互行為細(xì)節(jié)有關(guān),大多數(shù)現(xiàn)有滿意度評估方法往往僅基于點(diǎn)擊行為或查詢修改行為開展[7-8],但在相當(dāng)多的真實(shí)搜索會(huì)話中點(diǎn)擊和查詢修改往往均不存在[9-10],這就導(dǎo)致了傳統(tǒng)預(yù)測方法的失效.

      基于以上這3方面研究難點(diǎn),在本文中,我們嘗試提出并回答3個(gè)問題:

      1) 搜索滿意度評估與傳統(tǒng)的基于Cranfield體系的搜索引擎相關(guān)性評價(jià)有什么聯(lián)系與差別?

      2) 異質(zhì)搜索環(huán)境下的用戶滿意度感知會(huì)受到哪些因素的影響?

      3) 有哪些用戶交互行為特征可以協(xié)助我們更好地預(yù)測搜索滿意度?

      對于問題1,我們設(shè)計(jì)用戶行為實(shí)驗(yàn),從相關(guān)性標(biāo)注可能與用戶真實(shí)感受到的文檔效用(usefulness)存在差異出發(fā),分析了文檔效用和滿意度標(biāo)注之間的差別,并進(jìn)一步研究說明了效用、相關(guān)性和搜索滿意度之間的關(guān)系,對搜索滿意度和基于相關(guān)性的評價(jià)指標(biāo)之間存在的差異進(jìn)行了解釋.

      對于問題2,我們定量研究了不同展現(xiàn)形式、位置與質(zhì)量的垂直搜索結(jié)果對用戶滿意度感知造成的影響,以深入分析用戶在真實(shí)異質(zhì)搜索環(huán)境下的滿意度感知過程.

      對于問題3,考慮到鼠標(biāo)移動(dòng)信息包含大量豐富的用戶與搜索引擎的交互細(xì)節(jié)[11],并可以被低成本地大規(guī)模收集,我們嘗試從鼠標(biāo)移動(dòng)數(shù)據(jù)中挖掘不同滿意度用戶會(huì)話之間的行為模式差異,并將其運(yùn)用到搜索滿意度評估的任務(wù)中.

      為了研究以上3個(gè)問題,我們搭建了一個(gè)實(shí)驗(yàn)性的搜索引擎系統(tǒng)并用以收集用戶在完成搜索任務(wù)時(shí)的交互行為信息,同時(shí)也收集用戶的滿意度反饋以及標(biāo)注人員對搜索結(jié)果的相關(guān)性與效用標(biāo)注信息.本文的主要貢獻(xiàn)包括:

      1) 系統(tǒng)分析了相關(guān)性、效用和搜索滿意度之間的關(guān)系,并提出了2種能夠有效估計(jì)用戶實(shí)際感受的文檔效用的方法;

      2) 對異質(zhì)環(huán)境對搜索滿意度的影響進(jìn)行了系統(tǒng)的研究,并定量分析了垂直結(jié)果的質(zhì)量、展現(xiàn)形式、展現(xiàn)位置等因素對搜索滿意度的影響;

      3) 建立了采用鼠標(biāo)移動(dòng)模式在搜索環(huán)境下進(jìn)行搜索滿意度評估的方法框架,并提出了基于距離差異和基于分布差異的2種鼠標(biāo)移動(dòng)模式篩選方法,相比傳統(tǒng)方法而言獲得了顯著的效果提升.

      1 網(wǎng)絡(luò)搜索用戶實(shí)驗(yàn)

      為了研究搜索滿意度,我們組織了一系列用戶實(shí)驗(yàn)(user study),以收集包含用戶顯式滿意度反饋的搜索行為記錄.在用戶實(shí)驗(yàn)過程中,我們通過招募參與者在實(shí)驗(yàn)室環(huán)境下使用實(shí)驗(yàn)搜索引擎系統(tǒng)完成一系列搜索任務(wù),出于模擬真實(shí)的搜索引擎使用場景的需要,所有的查詢?nèi)蝿?wù)均從搜索引擎查詢?nèi)罩局泻Y選隨機(jī)篩選中頻查詢得到.之所以選取中頻查詢,一方面是由于低頻查詢中包含著大量低質(zhì)量乃至拼寫錯(cuò)誤、內(nèi)容上非法的查詢,使用這些查詢作為用戶實(shí)驗(yàn)的對象會(huì)給實(shí)驗(yàn)對象造成很大不便;另一方面,搜索引擎對于高頻查詢的處理技術(shù)已經(jīng)相當(dāng)成熟,甚至有不少高頻查詢結(jié)果是經(jīng)過手工編輯校訂而非自動(dòng)生成的,這對于我們考察普遍情況下搜索用戶滿意度情況的實(shí)驗(yàn)?zāi)康臉?gòu)成了障礙.為了確保所有的用戶在進(jìn)行同樣的查詢?nèi)蝿?wù)實(shí)驗(yàn)時(shí)信息查找需求的一致性,我們針對每個(gè)查詢都編寫了簡短的查詢?nèi)蝿?wù)說明,明確說明了該查詢的搜索場景、何種資源是用戶需要的,以避免可能的歧義影響.

      對于不同的研究問題,我們開展3方面工作:1)設(shè)置了不同的搜索任務(wù);2)利用實(shí)驗(yàn)搜索引擎實(shí)現(xiàn)了控制返回給用戶的結(jié)果、對用戶進(jìn)行問卷調(diào)查、收集包括搜索滿意度反饋在內(nèi)的顯式反饋、自動(dòng)記錄搜索行為信息等功能;3)對收集到的用戶搜索行為數(shù)據(jù)進(jìn)行了不同類型的人工標(biāo)注.圖1展示了用戶實(shí)驗(yàn)的一般流程.本節(jié)接下來將簡要介紹我們?yōu)榱私鉀Q前述3個(gè)研究問題所組織的3次用戶實(shí)驗(yàn).

      Fig. 1 A general protocol of Web search user studies圖1 網(wǎng)絡(luò)搜索用戶實(shí)驗(yàn)的一般流程

      1) 用戶實(shí)驗(yàn)1

      為了分析相關(guān)性、效用和搜索滿意度之間的關(guān)系,在用戶實(shí)驗(yàn)1中,我們招募了29位參與者,在實(shí)驗(yàn)室環(huán)境下使用我們搭建的實(shí)驗(yàn)搜索引擎分別完成了12個(gè)搜索任務(wù).為了模擬真實(shí)的搜索環(huán)境,我們所搭建的實(shí)驗(yàn)搜索引擎界面與目前主流的商業(yè)搜索引擎類似,支持用戶自由地進(jìn)行查詢改寫和翻頁等操作.

      在參與者使用實(shí)驗(yàn)搜索引擎完成每一個(gè)搜索任務(wù)之后,實(shí)驗(yàn)系統(tǒng)會(huì)要求參與者回顧整個(gè)搜索過程,對每個(gè)點(diǎn)擊過的文檔提交4級(1~4分)的效用反饋,對每個(gè)提交的查詢提交5級(1~5分)的查詢級別滿意度反饋,最后對整個(gè)任務(wù)提交5級的任務(wù)級別滿意度反饋.圖2展示了參與者進(jìn)行效用和滿意度反饋時(shí)的操作頁面.

      在進(jìn)行用戶實(shí)驗(yàn)收集了包含用戶顯式的效用和滿意度反饋的搜索行為記錄之后,我們請第三方標(biāo)注者對其進(jìn)行了相關(guān)性、效用和滿意度標(biāo)注.我們對所有參與者點(diǎn)擊過的結(jié)果進(jìn)行了4級(1~4分)相關(guān)性和效用標(biāo)注;對每個(gè)參與者提交的查詢進(jìn)行了查詢級別的5級搜索滿意度標(biāo)注;對每個(gè)搜索任務(wù)進(jìn)行了任務(wù)級別的5級搜索滿意度標(biāo)注;最后,為了分析搜索滿意度與傳統(tǒng)搜索性能評價(jià)指標(biāo)之間的關(guān)系,我們還對每個(gè)查詢返回的前5條結(jié)果進(jìn)行了4級相關(guān)性標(biāo)注.在進(jìn)行相關(guān)性標(biāo)注時(shí),我們會(huì)將查詢連同結(jié)果標(biāo)題和摘要展示給標(biāo)注人員,并要求標(biāo)注人員在點(diǎn)擊標(biāo)題查看結(jié)果內(nèi)容后進(jìn)行相關(guān)性標(biāo)注,每個(gè)查詢-結(jié)果對會(huì)被至少3位標(biāo)注人員獨(dú)立地標(biāo)注.效用和搜索滿意度標(biāo)注是同時(shí)進(jìn)行的,為了重現(xiàn)搜索上下文環(huán)境,我們會(huì)將參與者在完成該搜索任務(wù)時(shí)完整的行為記錄展示給標(biāo)注人員.這些行為記錄包括在整個(gè)搜索會(huì)話中參與者提交的查詢、點(diǎn)擊的結(jié)果,以及在每個(gè)查詢和點(diǎn)擊的結(jié)果上的停留時(shí)間等信息.圖3展示了標(biāo)注人員進(jìn)行效用和搜索滿意度標(biāo)注的標(biāo)注頁面.我們同樣要求每個(gè)搜索任務(wù)記錄被至少3個(gè)標(biāo)注人員獨(dú)立地標(biāo)注.

      Fig. 2 User feedback interface圖2 用戶反饋頁面

      Fig. 3 Usefulness and satisfaction annotation interface圖3 文檔效用和搜索滿意度標(biāo)注頁面

      2) 用戶實(shí)驗(yàn)2

      為了定量研究異質(zhì)化結(jié)果對搜索滿意度的影響,在用戶實(shí)驗(yàn)2中我們對搜索結(jié)果頁面的垂直結(jié)果的質(zhì)量、展現(xiàn)形式、展現(xiàn)位置3個(gè)因素分別進(jìn)行控制.

      在用戶實(shí)驗(yàn)2中,我們招募了35位參與者,每個(gè)參與者需要完成30個(gè)查詢?nèi)蝿?wù),這些查詢?nèi)蝿?wù)都是日常搜索中常見的中頻查詢,從商業(yè)搜索引擎的大規(guī)模搜索日志中采樣得到.該實(shí)驗(yàn)等概率地在搜索結(jié)果頁面的第1,3,5位插入了文本、圖文、圖片、下載、新聞這5種展現(xiàn)形式的垂直結(jié)果,垂直結(jié)果的質(zhì)量(相關(guān)/不相關(guān))也隨機(jī)地進(jìn)行了控制.在完成每個(gè)查詢?nèi)蝿?wù)時(shí),參與者會(huì)首先閱讀事先給定的查詢詞和詳細(xì)的查詢?nèi)蝿?wù)描述,隨后他將被導(dǎo)引到一個(gè)搜索結(jié)果頁面,該頁面的查詢詞固定,并有10個(gè)事先從商業(yè)搜索引擎抓取的查詢結(jié)果.參與者可以按照自己的習(xí)慣隨意瀏覽、點(diǎn)擊系統(tǒng)所提供的搜索結(jié)果,如果參與者完成了查詢?nèi)蝿?wù),或者認(rèn)為系統(tǒng)所提供的結(jié)果不足以滿足需求,就可以結(jié)束該查詢.

      參與者每完成一個(gè)查詢,都會(huì)被要求給一個(gè)1~5分的5級滿意度反饋,其中5表示對剛剛完成的搜索體驗(yàn)最滿意,1表示對該搜索體驗(yàn)最不滿意,隨后用戶就可以開始下一個(gè)查詢?nèi)蝿?wù).每個(gè)參與者在真正開始任務(wù)之前,會(huì)先做2個(gè)不記錄數(shù)據(jù)的查詢?nèi)蝿?wù)用以熟悉實(shí)驗(yàn)流程.

      在所有的參與者完成實(shí)驗(yàn)后,我們還邀請了專業(yè)的標(biāo)注人員參照用戶的瀏覽日志進(jìn)行滿意度標(biāo)注.每個(gè)參與者的實(shí)驗(yàn)過程均被完整地錄制,并被提供給標(biāo)注人員作為參考,以確保標(biāo)注人員可以最大程度復(fù)現(xiàn)用戶當(dāng)時(shí)的搜索過程.標(biāo)注人員需要給出和用戶同標(biāo)準(zhǔn)的5級滿意度反饋,每個(gè)用戶搜索日志會(huì)有2個(gè)標(biāo)注人員進(jìn)行標(biāo)注,標(biāo)注人員在整個(gè)數(shù)據(jù)集上的標(biāo)注一致性為0.48[12].

      3) 用戶實(shí)驗(yàn)3

      為了研究鼠標(biāo)移動(dòng)模式在真實(shí)搜索環(huán)境下的預(yù)測效果,在用戶實(shí)驗(yàn)3中我們采用與真實(shí)搜索環(huán)境完全一致的搜索結(jié)果頁面.

      在用戶實(shí)驗(yàn)3中,我們招募了30位參與者,每人仍需完成與用戶實(shí)驗(yàn)2中相同的30個(gè)查詢?nèi)蝿?wù),與用戶實(shí)驗(yàn)2中所不同的是,用戶實(shí)驗(yàn)3中的搜索結(jié)果頁面是從商業(yè)搜索引擎直接抓取獲得,沒有做任何的結(jié)果篩選或變量控制,因而與真實(shí)環(huán)境完全一致,實(shí)際得到的搜索結(jié)果列表中,平均一個(gè)查詢?nèi)蝿?wù)的10個(gè)搜索結(jié)果中包含7.4個(gè)垂直結(jié)果.

      2 相關(guān)性、效用和搜索滿意度

      相關(guān)性(relevance)是信息檢索領(lǐng)域內(nèi)一個(gè)非常重要的概念.根據(jù)概率排序原則(probability ranking principle[13]),對于用戶提交的查詢,搜索引擎應(yīng)該盡可能返回一個(gè)按照相關(guān)性從高到低排序的結(jié)果列表.而在傳統(tǒng)的Cranfield檢索評價(jià)方法[1]中,為了比較不同搜索引擎的有效性(effectiveness),我們需要構(gòu)建一個(gè)包含待查詢語料庫、用于測試的信息需求和查詢集合以及相應(yīng)查詢-結(jié)果對的相關(guān)性標(biāo)注的測試集合.基于查詢-結(jié)果對的相關(guān)性標(biāo)注信息,我們可以使用一系列搜索性能評價(jià)指標(biāo)(如MAP,nDCG[14],ERR[15]等),對搜索引擎針對測試查詢返回的結(jié)果列表進(jìn)行評價(jià).

      在理想狀況下,相關(guān)性標(biāo)注能反映一個(gè)結(jié)果文檔是否能滿足用戶的信息需求,那么基于其計(jì)算的搜索引擎評價(jià)指標(biāo)就能較好地反映用戶的搜索滿意度.但在實(shí)際中,我們往往無法從真實(shí)的搜索用戶那里獲得相關(guān)性反饋信息,而只能依賴第三方標(biāo)注人員進(jìn)行相關(guān)性標(biāo)注.在這種情況下,第三方標(biāo)注人員只能根據(jù)提交的查詢猜測和估計(jì)真實(shí)用戶的信息需求.并且,他們很少能獲知真實(shí)用戶提交查詢時(shí)的搜索上下文信息,而只能獨(dú)立地對每一個(gè)查詢-結(jié)果對進(jìn)行相關(guān)性標(biāo)注.這些限制使得相關(guān)性標(biāo)注往往只能基于查詢和結(jié)果文檔是否在主題層面上相關(guān),進(jìn)而可能與用戶實(shí)際感受到的結(jié)果文檔的效用(usefulness)存在較大差異.

      針對以上問題,我們通過設(shè)計(jì)和組織用戶實(shí)驗(yàn),嘗試對相關(guān)性(relevance)、效用(usefulness)和搜索滿意度(satisfaction)三者之間的關(guān)系進(jìn)行研究和分析[16].基于用戶實(shí)驗(yàn)收集到的數(shù)據(jù),我們提出并嘗試回答4個(gè)子研究問題:

      1) 用戶感受到的效用和第三方標(biāo)注人員的相關(guān)性標(biāo)注之間是否存在差異?

      2) 來自用戶的效用反饋和來自標(biāo)注人員的相關(guān)性標(biāo)注與用戶的搜索滿意度之間存在怎樣的聯(lián)系?

      3) 由于在實(shí)際應(yīng)用中,我們不能獲得來自用戶的效用反饋信息.那么,我們能否依賴第三方標(biāo)注者來獲得文檔級別的效用標(biāo)注?

      4) 我們能否基于搜索日志中的用戶行為和搜索上下文特征,自動(dòng)地生成可靠的效用標(biāo)簽?

      2.1 相關(guān)性和效用之間的區(qū)別

      基于第1節(jié)用戶實(shí)驗(yàn)1中獲得的數(shù)據(jù),我們首先分析了標(biāo)注者提供的相關(guān)性標(biāo)注和用戶提供的文檔效用反饋之間的差異和聯(lián)系.圖4(a)展示了4級相關(guān)性標(biāo)注R和4級效用反饋Uu之間的聯(lián)合概率分布情況.

      Fig. 4 Joint distribution of usefulness feedbacks and annotations圖4 用戶效用反饋與標(biāo)注者之間的聯(lián)合概率分布

      從圖4(a)中我們發(fā)現(xiàn),盡管相關(guān)性標(biāo)注和效用反饋之間存在一定正相關(guān)關(guān)系(Pearson相關(guān)系數(shù),Pearson’s),它們之間存在系統(tǒng)性的誤差.一方面,在被點(diǎn)擊的結(jié)果中,只有一小部分相關(guān)性級別為1或2的結(jié)果,被用戶認(rèn)為是有用的(效用級別為3或4);但在另一方面,有大量相關(guān)性級別為3的結(jié)果被用戶認(rèn)為是對完成任務(wù)完全沒有幫助(效用反饋級別為1).這說明,結(jié)果文檔的相關(guān)性和其效用并不完全一致,結(jié)果的相關(guān)性高是結(jié)果能給用戶帶來高效用的必要非充分條件.

      2.2 相關(guān)性、效用和搜索滿意度的聯(lián)系

      由于我們發(fā)現(xiàn)相關(guān)性標(biāo)注和用戶反饋的結(jié)果效用并不一致,那么從搜索引擎評價(jià)和搜索滿意度分析的角度我們進(jìn)一步分析了相關(guān)性和效用2種文檔級別的指標(biāo)與查詢級別的搜索滿意度之間的關(guān)系.

      由于參與者只對被點(diǎn)擊結(jié)果提供了效用反饋,所以,我們分別使用被點(diǎn)擊結(jié)果的效用反饋和相關(guān)性標(biāo)注計(jì)算了4種基于點(diǎn)擊序列的在線評價(jià)指標(biāo):點(diǎn)擊累積增益(cCG)、點(diǎn)擊衰減累積增益(cDCG)、最大點(diǎn)擊增益(cMAX)和平均點(diǎn)擊增益(cCG/#clicks).為了進(jìn)行對比,我們也基于前5位搜索結(jié)果,用相關(guān)性標(biāo)注計(jì)算了包括DCG,MAP和ERR在內(nèi)的傳統(tǒng)評價(jià)指標(biāo).我們通過計(jì)算它們與查詢級別的搜索滿意度反饋之間的Pearson相關(guān)系數(shù)r來衡量不同指標(biāo)與搜索滿意度之間聯(lián)系的密切程度.

      從結(jié)果中我們發(fā)現(xiàn):

      1) 基于效用反饋計(jì)算的4種在線評價(jià)指標(biāo)與搜索滿意度之間的相關(guān)系數(shù)均顯著地比基于相關(guān)性標(biāo)注計(jì)算的同一種評價(jià)指標(biāo)對應(yīng)的相關(guān)系數(shù)高.例如,基于效用反饋Uu計(jì)算的cDCG(Uu)與搜索滿意度的Pearson相關(guān)系數(shù)r=0.724,而基于相關(guān)性標(biāo)注R計(jì)算的cDCG(R)的相關(guān)系數(shù)r=0.498.其中與搜索滿意度相關(guān)系數(shù)最高的在線評價(jià)指標(biāo)為利用效用反饋Uu計(jì)算的cMAX(Ua)(Pearson相關(guān)系數(shù)r=0.751).

      2) 4種基于點(diǎn)擊序列的在線評價(jià)指標(biāo)與搜索滿意度之間的相關(guān)系數(shù)明顯高于傳統(tǒng)的基于搜索結(jié)果列表的評價(jià)指標(biāo).傳統(tǒng)評價(jià)指標(biāo)中與滿意度相關(guān)系數(shù)最高的是DCG@5,相關(guān)系數(shù)r=0.295,顯著地低于基于點(diǎn)擊序列計(jì)算的cDCG(R)和cDCG(Uu)與搜索滿意度之間的相關(guān)系數(shù)(r=0.498和r=0.724).

      以上發(fā)現(xiàn)說明,效用反饋和在線評價(jià)指標(biāo)相較于相關(guān)性標(biāo)注和基于結(jié)果排序的傳統(tǒng)評價(jià)指標(biāo),與用戶實(shí)際的搜索滿意度聯(lián)系更為密切.未來我們可以基于它們來構(gòu)建一個(gè)更為貼近用戶的搜索引擎評價(jià)方法.

      2.3 效用標(biāo)注和效用預(yù)測

      由于在實(shí)際中,我們無法從真實(shí)用戶那里獲得效用反饋,所以,我們嘗試了效用標(biāo)注和效用預(yù)測2種方法來獲得可靠而有效的效用標(biāo)簽.

      首先,由于我們認(rèn)為導(dǎo)致相關(guān)性標(biāo)注不能很好地反映結(jié)果的真實(shí)效用的一個(gè)重要原因,是在進(jìn)行相關(guān)性標(biāo)注時(shí)標(biāo)注人員無法獲知真實(shí)的搜索上下文信息和用戶行為信息.所以,在2.1節(jié)介紹的效用標(biāo)注過程中,我們將這些信息提供給標(biāo)注者,并要求標(biāo)注者給出與搜索上下文相關(guān)的效用標(biāo)注.通??梢杂脕碜远鄠€(gè)獨(dú)立的標(biāo)注者之間的標(biāo)注一致程度(常用Cohen’sκ統(tǒng)計(jì)量衡量)來衡量標(biāo)注數(shù)據(jù)的可靠性(reliability).我們收集到的4級效用標(biāo)注的κ值為0.530,達(dá)到了中等(moderate)的一致性水平,并且比4級相關(guān)性標(biāo)注的κ值(0.413,達(dá)到合理(fair)的一致水平)更高.這說明,以傳統(tǒng)的相關(guān)性標(biāo)注為基準(zhǔn),我們提出的效用標(biāo)注方法是可靠的.提供搜索上下文信息和用戶行為信息實(shí)際上能幫助標(biāo)注者做出更加可靠的判斷.

      其次,由于效用標(biāo)注仍然需要標(biāo)注人員參與,存在費(fèi)時(shí)費(fèi)力的問題.我們還嘗試使用機(jī)器學(xué)習(xí)方法,利用用戶行為和搜索上下文特征,自動(dòng)地進(jìn)行效用預(yù)測.我們使用的特征主要包括:查詢級別(Q)的結(jié)果位置、查詢長度、點(diǎn)擊數(shù)量和點(diǎn)擊停留時(shí)間;任務(wù)級別(S)的查詢數(shù)量、無點(diǎn)擊查詢數(shù)量、任務(wù)完成時(shí)間和查詢改寫策略;用戶級別(U)的點(diǎn)擊、查詢數(shù)量和停留時(shí)間的最小、最大和平均值.我們將效用預(yù)測當(dāng)作一個(gè)利用上述特征預(yù)測用戶實(shí)際的效用反饋的回歸問題,并使用Gradient Boosting Regression Tree(GBRT)模型[17]作為我們的回歸模型.

      衡量效用標(biāo)注和效用預(yù)測2種不依賴用戶反饋生成效用標(biāo)簽的方法是否有效(valid),最直接的方法就是比較它們和用戶實(shí)際的效用反饋是否一致.圖4(b)中展示了效用標(biāo)注Ua和作為最終標(biāo)準(zhǔn)的效用反饋Uu之間的聯(lián)合概率分布.從圖4(b)中可以發(fā)現(xiàn),顏色較深的塊均分布在對角線上,和圖4(a)中的相關(guān)性R相比,效用標(biāo)注Ua和真實(shí)的效用反饋Uu更為一致.

      而對于效用預(yù)測,我們在表1中展示了采用不同特征組合預(yù)測得到的效用預(yù)測結(jié)果(UQ,UQ+S和UQ+S+U)與真實(shí)用戶反饋之間的Pearson相關(guān)系數(shù)(r,越大越好)、平均平方誤差(MSE,越小越好)和平均絕對誤差(MAE,越小越好).我們同時(shí)列出了相關(guān)性標(biāo)注和效用標(biāo)注的結(jié)果作為參照.從表1中我們可以發(fā)現(xiàn),利用用戶行為和搜索上下文信息得到的效用預(yù)測,在與用戶真實(shí)的效用反饋的一致性方面,顯著地好于相關(guān)性標(biāo)注,同時(shí)達(dá)到甚至超過了效用標(biāo)注的水平.這說明,我們能夠使用機(jī)器學(xué)習(xí)方法,有效地節(jié)省人工標(biāo)注成本,自動(dòng)生成可用的效用標(biāo)簽.

      Table 1 Results for Usefulness Prediction表1 效用預(yù)測結(jié)果

      Notes: The prediction performance is measured in Pearson’s with usefulness feedbackUa. * indicates the performance is signi-ficantly different with relevance annotationRatp<0.05 level, and ** indicates the performance is significantly different with relevance annotationRatp<0.01 level. Darker shade indicates the perfor-mance is significantly different with usefulness annotationUaatp<0.05 level, and lighter shade indicates the performance is signi-ficantly different with usefulness annotationUaatp<0.01 level.

      2.4 總 結(jié)

      針對用戶實(shí)際感受到的結(jié)果效用和傳統(tǒng)相關(guān)性標(biāo)注可能存在差異這一問題,我們通過用戶實(shí)驗(yàn)收集了一個(gè)包含用戶搜索行為記錄、用戶效用和滿意度反饋,以及相應(yīng)的相關(guān)性、效用和滿意度標(biāo)注的完整數(shù)據(jù)集.基于該數(shù)據(jù)集,我們系統(tǒng)地分析了效用、相關(guān)性和搜索滿意度之間的關(guān)系,發(fā)現(xiàn):1)結(jié)果相關(guān)性和結(jié)果效用并不完全一致,結(jié)果相關(guān)是結(jié)果能給用戶帶來效用的必要非充分條件;2)基于效用計(jì)算的在線評價(jià)指標(biāo)與用戶的搜索滿意度存在較強(qiáng)的正相關(guān)(Pearson相關(guān)系數(shù)r>0.7);3)我們能夠通過依賴第三方標(biāo)注人員的效用標(biāo)注和基于搜索行為記錄的效用預(yù)測來有效地估計(jì)用戶真實(shí)感受到的效用.結(jié)合以上3點(diǎn)發(fā)現(xiàn),我們認(rèn)為在未來可以基于文檔級別效用標(biāo)簽和基于點(diǎn)擊序列在線評價(jià)指標(biāo),設(shè)計(jì)一種更接近用戶搜索滿意度的搜索引擎評價(jià)方法.

      3 異質(zhì)化環(huán)境下的搜索滿意度

      基于第1節(jié)中用戶實(shí)驗(yàn)2中獲得的數(shù)據(jù),我們可以研究垂直結(jié)果的質(zhì)量、展現(xiàn)形式和展現(xiàn)位置等因素對搜索滿意度的影響[18].

      由于不同參與者對于滿意度的感知標(biāo)準(zhǔn)可能會(huì)有所差別,所以在進(jìn)行實(shí)驗(yàn)分析之前,我們首先將每個(gè)用戶所給出的滿意度反饋按照Z-score[18]進(jìn)行了歸一化,以從一定程度上去除不同參與者的主觀性因素影響.

      表2反映了不同展現(xiàn)形式的垂直結(jié)果對搜索滿意度的影響.表格中的第2~4列的數(shù)值是相應(yīng)類型垂直結(jié)果所對應(yīng)的搜索日志的平均滿意度,括號里的數(shù)值反映的是在帶有對應(yīng)類型垂直結(jié)果的情況下的滿意度與不帶垂直結(jié)果的情況下搜索滿意度的差異.

      Table 2 Effect of Verticals with Different Presentation Styles on Satisfaction

      Notes: *indicates statistical significance atp<0.1 level, and ** indicates statistical significance atp<0.05 level. The values in the parentheses indicate the difference with no vertical values.

      從表2中可以看到,與頁面中沒有垂直結(jié)果的情況相比,在頁面中插入相關(guān)的圖文類和下載類垂直結(jié)果可以使用戶和標(biāo)注者顯著地感到更加滿意.在頁面中插入相關(guān)的圖片類垂直結(jié)果并不會(huì)使用戶更滿意,這可能是因?yàn)槟軓膱D片中獲取的信息往往也能夠相對容易地在普通文本結(jié)果中獲得.而如果在頁面中插入了不相關(guān)的圖片,則會(huì)顯著地使用戶的滿意度降低,這是因?yàn)閳D片結(jié)果容易引人注意,而不相關(guān)的內(nèi)容就會(huì)引起用戶的不悅.新聞?lì)惖拇怪苯Y(jié)果對用戶滿意度沒有顯著的影響,并且除了新聞?lì)惔怪苯Y(jié)果之外,在頁面中插入相關(guān)的另外4種類型的垂直結(jié)果都會(huì)比插入不相關(guān)的相應(yīng)垂直結(jié)果更容易讓用戶感到滿意.

      我們進(jìn)一步研究了垂直結(jié)果在頁面中不同位置時(shí)對用戶滿意度的影響,相關(guān)結(jié)果如表3所示.垂直結(jié)果被放在整個(gè)頁面中的第1、第3、第5個(gè)位置進(jìn)行效果的對比.從表3可以看到,當(dāng)相關(guān)的垂直結(jié)果放在頁面的高位時(shí),會(huì)對用戶的滿意度帶來顯著提升;當(dāng)有不相關(guān)的垂直結(jié)果放在頁面的首位時(shí),用戶會(huì)明顯地感覺到不滿意;而當(dāng)不相關(guān)的結(jié)果放在其他位置時(shí),搜索滿意度不會(huì)受到明顯的影響.

      基于以上在異質(zhì)化搜索領(lǐng)域的研究,可以發(fā)現(xiàn)異質(zhì)化結(jié)果的存在確實(shí)會(huì)對用戶的滿意度感知帶來顯著的影響,可以總結(jié)為4點(diǎn):1)相關(guān)的圖文類和下載類垂直結(jié)果會(huì)帶來顯著的搜索滿意度提升;2)相關(guān)的圖片類垂直結(jié)果對提升用戶滿意度影響不大,但不相關(guān)的圖片結(jié)果會(huì)顯著降低搜索滿意度;3)新聞?lì)惔怪苯Y(jié)果對搜索滿意度沒有明顯的影響;4)當(dāng)垂直結(jié)果放在搜索結(jié)果列表中的位置越靠前,對用戶滿意度的影響越大.

      Table 3 Effect of Ranking Positions of Verticals on Satisfaction

      Notes: * indicates statistical significance atp<0.1 level, and ** indicates statistical significance atp<0.05 level. The values in the parentheses indicate the difference with no vertical values.

      4 基于鼠標(biāo)移動(dòng)信息的搜索滿意度評估

      Lagun等人首次提出鼠標(biāo)移動(dòng)模式(mouse movement motif)的概念[19].他們將鼠標(biāo)移動(dòng)模式定義為頻繁出現(xiàn)的鼠標(biāo)位置序列,并實(shí)現(xiàn)了在搜索著陸頁(landing page)上自動(dòng)挖掘鼠標(biāo)移動(dòng)模式的算法來進(jìn)行有效的搜索結(jié)果相關(guān)性預(yù)測.在本節(jié)中,我們嘗試進(jìn)一步改進(jìn)鼠標(biāo)移動(dòng)模式的抽取和篩選算法,在搜索結(jié)果頁面上直接抽取鼠標(biāo)移動(dòng)模式,并將其運(yùn)用到預(yù)測搜索滿意度的任務(wù)中[20].

      圖5展示了用戶在搜索結(jié)果頁面上的鼠標(biāo)移動(dòng)軌跡的2個(gè)示例,圖5(a)展示的是一個(gè)用戶反饋為滿意的例子,圖5(b)是一個(gè)用戶反饋為不滿意的例子.鼠標(biāo)移動(dòng)軌跡用帶數(shù)字的圓表示,圓中數(shù)字由小到大表示了鼠標(biāo)移動(dòng)的順序,圖中紅圈是我們的算法挖掘到的鼠標(biāo)移動(dòng)模式.從圖5(a)中可以看到,用戶仔細(xì)地檢驗(yàn)了第1個(gè)結(jié)果(能完成對應(yīng)查詢?nèi)蝿?wù)的關(guān)鍵結(jié)果),隨后快速瀏覽了其他結(jié)果,然后就結(jié)束了查詢.鼠標(biāo)移動(dòng)軌跡顯示他只花了相對小的成本就找到了完成任務(wù)所必需的信息.作為對比,圖5(b)中的大多數(shù)結(jié)果都難以滿足用戶的需求,鼠標(biāo)移動(dòng)軌跡顯示該用戶檢驗(yàn)了頁面上的很多結(jié)果,甚至檢驗(yàn)了頁面最下方的結(jié)果.這意味著用戶花了很大代價(jià)卻只獲得了很少的有用信息.圖5的例子說明,搜索結(jié)果頁面上的鼠標(biāo)移動(dòng)軌跡包含了豐富的用戶與搜索引擎交互的信息,可以幫助我們預(yù)測用戶滿意度.

      4.1 鼠標(biāo)移動(dòng)模式抽取和篩選

      在Lagun等人提出的算法的基礎(chǔ)上,我們嘗試從搜索結(jié)果頁面直接挖掘具有高區(qū)分度的鼠標(biāo)移動(dòng)模式,并將其用于搜索滿意度預(yù)測.

      我們首先采用Lagun等人提出的算法[19]從整個(gè)數(shù)據(jù)集中挖掘出大量的備選鼠標(biāo)移動(dòng)模式,然后在此基礎(chǔ)上進(jìn)一步設(shè)計(jì)了2種鼠標(biāo)移動(dòng)模式的篩選算法.與Lagun等人所采用的基于頻率的篩選方式不同,新提出的篩選方式充分利用了數(shù)據(jù)分布信息,能夠篩選出對用戶滿意度具有高區(qū)分度的鼠標(biāo)移動(dòng)模式.為了敘述方便,我們用SAT,DSAT分別表示被用戶標(biāo)注成滿意和不滿意的2類搜索會(huì)話,MSAT,MDSAT分別表示從SAT,DSAT中挖掘出的鼠標(biāo)移動(dòng)模式.

      4.1.1 基于距離差異的篩選策略

      (1)

      (2)

      在計(jì)算出所有備選移動(dòng)模式的評分以后,我們按照該評分由大到小進(jìn)行排序,并依次挑選一些具有強(qiáng)距離差異的鼠標(biāo)移動(dòng)模式.

      4.1.2 基于分布差異的篩選策略

      基于分布差異的篩選方法基于覆蓋性假設(shè):MSAT中的具有強(qiáng)區(qū)分度的移動(dòng)模式應(yīng)當(dāng)覆蓋足夠多的SAT和足夠少的DSAT,反之亦然.在這種規(guī)則下,我們首先需要判斷一個(gè)鼠標(biāo)移動(dòng)模式是否能覆蓋某一個(gè)會(huì)話(表示為一個(gè)完整的光標(biāo)位置的時(shí)間序列),因而,我們首先定義一個(gè)鼠標(biāo)移動(dòng)模式C與某個(gè)搜索日志S的距離:

      Dist(C,S)=min(DTW(Ci,C)|Ci∈S).

      (3)

      亦即,我們通過指定大小的滑動(dòng)窗口在S中截取多個(gè)移動(dòng)模式備選,而C與這些移動(dòng)模式備選的距離中最小的一個(gè)即為C與會(huì)話S的距離.

      此時(shí)我們再定義鼠標(biāo)移動(dòng)模式C在某一數(shù)據(jù)集合D上的覆蓋率:

      (4)

      有了覆蓋率的定義之后,我們就可以定義一個(gè)備選移動(dòng)模式在SAT和DSAT上的覆蓋率的比值,作為該備選移動(dòng)模式的分布差異得分:

      (5)

      (6)

      在我們計(jì)算出所有備選移動(dòng)模式的評分以后,我們將其按照分布差異度評分由大到小進(jìn)行排序,就可以挑選出具有強(qiáng)分布差異的鼠標(biāo)移動(dòng)模式.

      4.2 滿意度預(yù)測

      在挖掘出鼠標(biāo)移動(dòng)模式后,按式(3)可以計(jì)算鼠標(biāo)移動(dòng)模式與搜索會(huì)話之間的距離,該距離就可以作為分類特征進(jìn)行滿意度預(yù)測.

      基于第1節(jié)中用戶實(shí)驗(yàn)3所獲得的數(shù)據(jù),我們驗(yàn)證鼠標(biāo)移動(dòng)模式對搜索滿意度的預(yù)測效果.我們將數(shù)據(jù)中被用戶標(biāo)記為3的查詢會(huì)話去除,因?yàn)榻o出3的評分表示用戶沒有明確的滿意或不滿意的傾向.被用戶標(biāo)記為4或5的查詢會(huì)話被作為滿意的數(shù)據(jù)樣本,被用戶標(biāo)記為1或2的查詢會(huì)話被作為不滿意的數(shù)據(jù)樣本.由于數(shù)據(jù)集的不平衡性,在進(jìn)行訓(xùn)練的時(shí)候我們對滿意的數(shù)據(jù)樣本進(jìn)行了降采樣,以保證訓(xùn)練集的平衡性(測試集仍保持了原有的不平衡比例).我們采用AUC作為評價(jià)指標(biāo),因?yàn)槠湎啾绕渌笜?biāo)更不容易受到數(shù)據(jù)不平衡性的影響[21].所有的結(jié)果都基于5折交叉驗(yàn)證,預(yù)測所用的鼠標(biāo)移動(dòng)模式在每一折的訓(xùn)練集上都會(huì)重新計(jì)算.

      圖6比較了不同鼠標(biāo)移動(dòng)模式篩選方法的預(yù)測結(jié)果,橫軸表示預(yù)測所采用的鼠標(biāo)移動(dòng)模式數(shù)量,縱軸表示五折交叉驗(yàn)證的AUC值,不同顏色的折線對應(yīng)于不同的鼠標(biāo)移動(dòng)模式篩選方法,其中基于頻率的篩選方法是Lagun在他們的工作中所采用的方法[19].從圖6中可以看出,我們新提出的2種篩選方式的預(yù)測效果顯著優(yōu)于基于頻率的篩選方式,其中采用基于分布差異的篩選方法可以在只用了50個(gè)鼠標(biāo)移動(dòng)模式的時(shí)候就取得最優(yōu)的預(yù)測效果,雖然基于距離的篩選方法在使用大量鼠標(biāo)移動(dòng)模式后也可以獲得同等水平的效果,且基于分布的篩選方法在采用更多的鼠標(biāo)移動(dòng)模式之后,由于過擬合的原因會(huì)造成預(yù)測效果下降,但考慮到鼠標(biāo)移動(dòng)模式的抽取過程比較耗時(shí),如果能使用較少的移動(dòng)模式即可獲得不錯(cuò)的效果,那將可以大大提升算法的運(yùn)行效率,所以我們認(rèn)為基于分布差異的篩選方式是最優(yōu)的選擇策略.

      Fig. 6 Prediction performance with different motif selection strategies圖6 不同鼠標(biāo)移動(dòng)模式篩選策略的預(yù)測效果

      為了進(jìn)一步驗(yàn)證鼠標(biāo)移動(dòng)模式對未知用戶、查詢的泛化能力,我們采用了3種不同的訓(xùn)練-測試集生成策略:1)隨機(jī)采樣.訓(xùn)練集和測試集的數(shù)據(jù)劃分是完全隨機(jī)的.2)按用戶采樣.同一用戶完成的搜索日志數(shù)據(jù)要么全在訓(xùn)練集中,要么全在測試集中.3)按查詢采樣.基于同一查詢的搜索日志數(shù)據(jù)要么全在訓(xùn)練集中,要么全在測試集中.

      我們實(shí)現(xiàn)文獻(xiàn)[11]中的預(yù)測模型并將其作為基線方法,該方法中同時(shí)采用了點(diǎn)擊行為等粗粒度特征和滾輪速度等細(xì)粒度指標(biāo),是當(dāng)前采用鼠標(biāo)行為數(shù)據(jù)進(jìn)行搜索預(yù)測的最新方法之一[22].采用“成本-收益”預(yù)測框架對滿意度進(jìn)行預(yù)測,并取得了非常好的效果,因而我們也將其中的預(yù)測模型實(shí)現(xiàn)作為另一個(gè)基線方法.不同預(yù)測方法在不同訓(xùn)練-測試集生成策略上的預(yù)測表現(xiàn)如表4所示,表4中的數(shù)值是5折交叉驗(yàn)證的AUC值,括號內(nèi)的數(shù)值是基線方法和鼠標(biāo)移動(dòng)模式所提供的特征結(jié)合以后的方法相對于相應(yīng)基線方法的效果提升,基于鼠標(biāo)移動(dòng)模式的方法采用了50個(gè)鼠標(biāo)移動(dòng)模式作為特征.從表4中可以看到,采用鼠標(biāo)移動(dòng)模式可以獲得與采用其他鼠標(biāo)行為特征的方法相當(dāng)?shù)念A(yù)測效果,當(dāng)我們將鼠標(biāo)移動(dòng)信息整合到現(xiàn)有的模型中去時(shí),在幾乎所有的預(yù)測任務(wù)上都可以獲得穩(wěn)定的效果提升.此外,表4中也體現(xiàn)出在不同的數(shù)據(jù)采樣策略下,鼠標(biāo)移動(dòng)模式的預(yù)測效果基本穩(wěn)定,這就表示通過小群體的查詢?nèi)罩咎崛〉氖髽?biāo)移動(dòng)模式,可以對未知的用戶及查詢的搜索滿意度進(jìn)行很好的預(yù)測,該方法具有很強(qiáng)的泛化能力.

      Table 4 Comparison of Different Methods for Predicting Search Satisfaction Across Different Users and Queries

      Notes: The values in the parentheses indicate the percent increase of the satisfaction with Motif compared with the original satisfaction.

      5 總結(jié)與未來工作

      隨著網(wǎng)絡(luò)搜索引擎的不斷發(fā)展,搜索滿意度這一貼近用戶實(shí)際感受的評價(jià)指標(biāo)日益受到研究者和搜索引擎公司的重視.我們通過設(shè)計(jì)用戶實(shí)驗(yàn)的方式對搜索滿意度進(jìn)行了全面系統(tǒng)的研究.我們的研究發(fā)現(xiàn):由于相關(guān)性標(biāo)注與結(jié)果文檔給用戶帶來的實(shí)際效用并不完全一致,傳統(tǒng)的基于相關(guān)性的評價(jià)方式不能很好地估計(jì)用戶實(shí)際感受到的搜索滿意度.同時(shí),針對真實(shí)搜索環(huán)境下存在大量異質(zhì)化搜索結(jié)果的現(xiàn)象,我們深入分析了垂直結(jié)果的質(zhì)量、展現(xiàn)形式和展現(xiàn)位置對搜索滿意度的影響.最后,我們提出采用鼠標(biāo)移動(dòng)模式進(jìn)行搜索滿意度的預(yù)測,并提出了基于距離差異和基于分布差異的鼠標(biāo)移動(dòng)模式篩選方法,相比傳統(tǒng)方法而言獲得了顯著的效果提升.

      本文的研究結(jié)果可能在如下方面對商業(yè)搜索引擎的應(yīng)用產(chǎn)生積極影響:1)用戶滿意度是搜索引擎性能評價(jià)的主要標(biāo)準(zhǔn)(gold standard),通過上述研究,我們成功揭示了滿意度評價(jià)結(jié)果與已有的各種離線評價(jià)方法(Cranfield方法)之間的關(guān)聯(lián)關(guān)系,為更好地使用具有較強(qiáng)復(fù)用性和魯棒性的離線策略擬合用戶滿意度評價(jià)結(jié)果、設(shè)計(jì)更合理的離線性能評價(jià)指標(biāo)奠定了基礎(chǔ).2)與傳統(tǒng)用戶滿意度評價(jià)需要借助真實(shí)用戶反饋,耗費(fèi)大量人力資源且反饋慢、結(jié)果穩(wěn)定性差不同,本文嘗試提出利用鼠標(biāo)移動(dòng)模式這一搜索引擎可以大規(guī)模采集的用戶行為信號進(jìn)行滿意度預(yù)測,起到更高效的性能評價(jià)效果.3)本文提出的基于鼠標(biāo)移動(dòng)模式預(yù)測用戶滿意度的方法,客觀上證實(shí)了這一反饋信息可以應(yīng)用于搜索引擎的性能提升,我們在未來工作中將考慮應(yīng)用這一思路對搜索引擎排序算法的設(shè)計(jì)(如點(diǎn)擊模型設(shè)計(jì))進(jìn)行改進(jìn),試圖在查詢過程中主動(dòng)利用用戶反饋更好地滿足用戶信息需求.

      [1]Cleverdon C. The Cranfield tests on index language devices[G] //Readings in Information Retrieval. San Francisco, CA: Morgan Kaufmann, 1997: 47-59

      [2]Lang Hao, Wang Bin, Li Jintao, et al. Predicting query performance for text retrieval[J]. Journal of Software, 2008, 19(2): 291-300 (in Chinese)

      (郎皓, 王斌, 李錦濤, 等. 文本檢索的查詢性能預(yù)測[J]. 軟件學(xué)報(bào), 2008, 19(2): 291-300)

      [3]Su L T. Evaluation measures for interactive information retrieval[J]. Information Processing & Management, 1992, 28(4): 503-516

      [4]Kelly D. Methods for evaluating interactive information retrieval systems with users[J]. Foundations and Trends in Information Retrieval, 2009, 3(1/2): 1-224

      [5]Wang Chao, Liu Yiqun, Zhang Min, et al. Incorporating vertical results into search click models[C] //Proc of the 36th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2013: 503-512

      [6]Liu Zeyang, Liu Yiqun, Zhou Ke, et al. Influence of vertical result in Web search examination[C] //Proc of the 38th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2015: 193-202

      [7]Ageev M, Guo Qi, Lagun D, et al. Find it if you can: A game for modeling different types of Web search success using interaction data[C] //Proc of the 34th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2011: 345-354

      [8]Field H A, Allan J, Jones R. Predicting searcher frustration[C] //Proc of the 33rd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2010: 34-41

      [9]Li J, Huffman S, Tokuda A. Good abandonment in mobile and PC Internet search[C] //Proc of the 32nd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2009: 43-50

      [10]Huang J, White R W, Dumais S. No clicks, no problem: Using cursor movements to understand and improve search[C] //Proc of the SIGCHI Conf on Human Factors in Computing Systems. New York: ACM, 2011: 1225-1234

      [11]Guo Qi, Lagun D, Agichtein, E. Predicting Web search success with fine-grained interaction data[C] //Proc of the 21st ACM Int Conf on Information and Knowledge Management. New York: ACM, 2012: 2050-2054

      [12]Cohen J. Weighted kappa: Nominal scale agreement provision for scaled disagreement or partial credit[J]. Psychological Bulletin, 1968, 70(4): 213

      [13]Robertson S E. The probability ranking principle in IR[J]. Journal of Documentation, 1977, 33(4): 294-304

      [14]J?rvelin K, Kek?l?inen J. Cumulated gain-based evaluation of IR techniques[J]. ACM Trans on Information Systems, 2002, 20(4): 422-446

      [15]Chapelle O, Metlzer D, Zhang Y, et al. Expected reciprocal rank for graded relevance[C] //Proc of the 18th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2009: 621-630

      [16]Mao Jiaxin, Liu Yiqun, Zhou Ke, et al. When does relevance mean usefulness and user satisfaction in Web search? [C] //Proc of the 39th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2016: 463-472

      [17]Friedman J H. Greedy function approximation: A gradient boosting machine[J]. Annals of Statistics, 2001, 29(5): 1189-1232

      [18]Chen Ye, Liu Yiqun, Zhou Ke, et al. Does vertical bring more satisfaction? Predicting search satisfaction in a heterogeneous environment[C] //Proc of the 24th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2015: 1581-1590

      [19]Lagun D, Ageev M, Guo Qi, et al. Discovering common motifs in cursor movement data for improving Web search[C] //Proc of the 7th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2014: 183-192

      [20]Liu Yiqun, Chen Ye, Tang Jinhui, et al. Different users, different opinions: Predicting search satisfaction with mouse movement information[C] //Proc of the 38th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2015: 493-502

      [21]He Haibo, Garcia E A. Learning from imbalanced data[J]. IEEE Trans on Knowledge and Data Engineering, 2009, 21(9): 1263-1284

      [22]Jiang Jiepu, Hassan A A, Shi X, et al. Understanding and predicting graded search satisfaction[C] //Proc of the 8th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2015: 57-66

      Liu Yiqun, born in 1981. PhD. Associate professor. Senior member of ACM and CCF, and council member of CAAI (China Association of Artificial Intelligence) and CIPSC (Chinese Information Processing Society of China). His main research interests include Web search, user behavior analysis, and natural language processing.

      Satisfaction Prediction of Web Search Users

      Liu Yiqun

      (DepartmentofComputerScience&Technology,TsinghuaUniversity,Beijing100084)

      User satisfaction is one of the prime concerns for Web search related studies. It is a non-trivial task for three major reasons: 1) Traditional approaches for search performance evaluation mainly rely on editorial judgments of the relevance of search results. The relationship between search satisfaction and relevance-based evaluation still remains under-investigated. 2) Most existing researches are based on the hypothesis that all results on search result pages (SERPs) are homogeneous while a variety of heterogeneous components have been aggregated into modern SERPs to improve search performance. 3) Most existing studies on satisfaction prediction primarily rely on users’ click-through and query reformulation behaviors but there are plenty of search sessions without such information. In this paper, we summarize our recent efforts to shed light on these research questions. Firstly, we perform a laboratory study to investigate the relationship between relevance and users’ perceived usefulness and satisfaction. After that, we also investigate the impact of vertical results with different qualities, presentation styles and positions on search satisfaction with specifically designed SERPs. Finally, inspired by recent studies in predicting result relevance based on mouse movement patterns, we propose novel strategies to extract high quality mouse movement patterns from SERPs for satisfaction prediction. Experimental results show that our proposed method outperforms existing approaches in heterogeneous search environment.

      search satisfaction; relevance; aggregated search; mouse movement; Web search engine

      2016-11-10;

      2017-02-17

      國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目(61622208) This work was supported by the National Natural Science Foundation of China for Excellent Young Scientists (61622208).

      TP391

      猜你喜歡
      搜索引擎效用鼠標(biāo)
      Progress in Neural NLP: Modeling, Learning, and Reasoning
      Engineering(2020年3期)2020-09-14 03:42:00
      小學(xué)美術(shù)課堂板書的四種效用
      納米硫酸鋇及其對聚合物的改性效用
      中國塑料(2016年9期)2016-06-13 03:18:48
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      幾種常見葉面肥在大蒜田效用試驗(yàn)
      玉米田不同控釋肥料效用研討
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      搜索,也要“深搜熟濾”
      45歲的鼠標(biāo)
      盐池县| 阿勒泰市| 南康市| 柘城县| 宁远县| 罗江县| 石门县| 阳春市| 阳朔县| 扶沟县| 宜都市| 桃江县| 文化| 夏邑县| 方正县| 晋中市| 舟曲县| 沽源县| 和田县| 永寿县| 陆川县| 铜陵市| 长海县| 共和县| 永川市| 临清市| 廊坊市| 古蔺县| 西乡县| 灵宝市| 两当县| 阳信县| 牙克石市| 平武县| 龙井市| 武功县| 房山区| 新源县| 新建县| 廉江市| 蒲江县|