謝曉暉,王 超,劉奕群,張 敏,馬少平
(智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌),清華大學(xué) 計(jì)算機(jī)系,北京 100084)
基于深度神經(jīng)網(wǎng)絡(luò)的搜索引擎點(diǎn)擊模型構(gòu)建
謝曉暉,王 超,劉奕群,張 敏,馬少平
(智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌),清華大學(xué) 計(jì)算機(jī)系,北京 100084)
隨著富媒體展現(xiàn)形式被越來越多地引入搜索交互界面,搜索引擎的結(jié)果頁面呈異質(zhì)化和二維模塊展現(xiàn)形式,這對(duì)傳統(tǒng)的點(diǎn)擊預(yù)測模型提出了巨大的挑戰(zhàn)。針對(duì)這一情況,我們對(duì)實(shí)際搜索引擎結(jié)果頁面的多模態(tài)結(jié)果進(jìn)行了分析,構(gòu)建了一個(gè)結(jié)合深度神經(jīng)網(wǎng)絡(luò)和點(diǎn)擊模型的框架,該框架既包含了神經(jīng)網(wǎng)絡(luò)的特性,又利用了點(diǎn)擊模型的預(yù)測能力。我們希望利用這個(gè)框架挖掘出多模態(tài)信息與文本信息之間的相關(guān)性,使之具有描述異質(zhì)化結(jié)果和二維模塊展示形式的能力。實(shí)驗(yàn)表明,我們的框架相較于傳統(tǒng)的點(diǎn)擊模型在點(diǎn)擊預(yù)測性能上有顯著提升,但由于搜索引擎的多模態(tài)結(jié)果內(nèi)容復(fù)雜,僅利用多模態(tài)結(jié)果的底層特征,即使使用深度神經(jīng)網(wǎng)絡(luò),從中能夠挖據(jù)出的語義相關(guān)性較弱。
異質(zhì)化結(jié)果;深度神經(jīng)網(wǎng)絡(luò);點(diǎn)擊模型
根據(jù)2016年《CNNIC中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》的數(shù)據(jù)顯示,到2015年12月為止,我國搜索引擎用戶數(shù)量達(dá)到5.66億??梢娝阉饕嬖诨ヂ?lián)網(wǎng)用戶中的高普及率和其潛在的巨大商業(yè)價(jià)值,因此,在學(xué)術(shù)界和業(yè)界,搜索引擎都受到了極高的關(guān)注。在之前的工作中,搜索引擎結(jié)果相關(guān)度的計(jì)算有如下幾種常用的方法。除了TF-IDF[1]等統(tǒng)計(jì)方法和利用互聯(lián)網(wǎng)群體智慧來改善搜索結(jié)果相關(guān)度估計(jì)的方法[2],研究人員也從用戶與搜索引擎的交互行為出發(fā),提出了點(diǎn)擊模型[3]對(duì)用戶點(diǎn)擊行為進(jìn)行建模分析。
隨著搜索交互技術(shù)的不斷發(fā)展,富媒體展現(xiàn)形式被越來越多地引入搜索交互界面。從圖1可以看出搜索引擎的結(jié)果展示頁面呈現(xiàn)異質(zhì)化趨勢和二維模塊展現(xiàn)形式。對(duì)原有流行的點(diǎn)擊模型進(jìn)行考察可以發(fā)現(xiàn),大部分點(diǎn)擊模型都針對(duì)的是同質(zhì)化的搜索結(jié)果頁面,無法描述和分析真實(shí)的拓?fù)浣Y(jié)構(gòu)。
在本文中,我們希望建立一個(gè)能夠描述多模態(tài)結(jié)果的點(diǎn)擊模型。其中,最大的難點(diǎn)之一是文本與多模態(tài)結(jié)果之間缺乏統(tǒng)一的衡量手段。經(jīng)過前期的文獻(xiàn)調(diào)研工作,我們了解到在已有的工作中[4],已經(jīng)能夠利用卷積神經(jīng)網(wǎng)絡(luò)框架,在搜索查詢詞和文本類型結(jié)果之間建立相似性函數(shù),從而使得兩者之間可以進(jìn)行相關(guān)度分析。由這部分工作得到啟發(fā),對(duì)于多模態(tài)結(jié)果,我們考慮將其表征為矩陣形式,通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和語義挖掘,使得異質(zhì)結(jié)果之間能夠進(jìn)行比較。
圖1 搜索引擎結(jié)果頁面異質(zhì)化結(jié)果
本文的研究任務(wù)包括:
① 建立點(diǎn)擊模型,使之具有針對(duì)異質(zhì)展現(xiàn)形式結(jié)果和二維排布結(jié)果的描述能力,重點(diǎn)分析圖片和文本類型結(jié)果。
② 通過用戶的大規(guī)模點(diǎn)擊行為把圖片和文本相關(guān)信息映射到同一個(gè)relevance相關(guān)的空間中進(jìn)行比較。
③ 提高模型的點(diǎn)擊預(yù)測性能和相關(guān)性排序性能。
本文的組織結(jié)構(gòu)如下: 第2節(jié)介紹相關(guān)工作,第3節(jié)介紹本次實(shí)驗(yàn)所用到的卷積神經(jīng)網(wǎng)絡(luò)框架,第4節(jié)介紹本次實(shí)驗(yàn)的數(shù)據(jù),展示實(shí)驗(yàn)結(jié)果并進(jìn)行分析與討論,最后一節(jié)我們將提出下一步的工作和設(shè)想。
2.1 點(diǎn)擊模型
點(diǎn)擊模型是用于描述用戶從開始搜索到結(jié)束搜索之間檢驗(yàn)和點(diǎn)擊行為的模型。大部分點(diǎn)擊模型遵循了如下假設(shè): 一個(gè)文檔被點(diǎn)擊需要同時(shí)滿足該文檔被用戶瀏覽過并且該文檔與查詢詞相關(guān),并且這兩個(gè)前提是相互獨(dú)立的。如果我們用Ci=1來表示第i條結(jié)果被點(diǎn)擊,使用Ei=1來表示第i條結(jié)果被瀏覽檢驗(yàn)過,Ri=1來表示第i條結(jié)果與查詢詞相關(guān)(在有些工作中,以P(Ri=1)=ru來表示觀測相關(guān)性的概率),符號(hào)“→”來表示滿足某前提條件,則以上假設(shè)可以用如下公式進(jìn)行表示。
根據(jù)這一假設(shè),一個(gè)文檔是否被點(diǎn)擊的概率可以通過式(4)進(jìn)行表示。
一些主流的點(diǎn)擊模型沒有將點(diǎn)擊的順序加以考慮,而是將點(diǎn)擊行為簡單地對(duì)應(yīng)到搜索結(jié)果頁面的結(jié)果排序上,這些模型被稱為基于點(diǎn)擊位置的點(diǎn)擊模型。該類點(diǎn)擊模型認(rèn)為用戶會(huì)沿著結(jié)果列表從上到下地順序?yàn)g覽,并且搜索頁面的結(jié)果是同質(zhì)的,即具有類似的展現(xiàn)形式,僅在內(nèi)容相關(guān)度上有所區(qū)別。
級(jí)聯(lián)模型[5](cascade model)是經(jīng)典的基于點(diǎn)擊位置的點(diǎn)擊模型,該模型假設(shè)當(dāng)某一用戶沿著結(jié)果列表從上至下進(jìn)行瀏覽時(shí),他/她會(huì)立刻決定是否點(diǎn)擊當(dāng)前所瀏覽的結(jié)果,如果第i+1個(gè)結(jié)果被瀏覽則意味著第i個(gè)結(jié)果被瀏覽但未被點(diǎn)擊,如式(5)、式(6)所示??梢钥闯?,級(jí)聯(lián)模型能夠很好地描述僅存在一次點(diǎn)擊的搜索會(huì)話,例如導(dǎo)航類搜索等,但對(duì)于更多的瀏覽點(diǎn)擊行為,該模型將不具備較好的有效性。
針對(duì)級(jí)聯(lián)模型存在的局限,依賴點(diǎn)擊模型(DCM)[6]嘗試對(duì)用戶的多次點(diǎn)擊會(huì)話進(jìn)行建模,DCM假設(shè)一個(gè)用戶在點(diǎn)擊當(dāng)前結(jié)果后有一定的概率繼續(xù)瀏覽下一個(gè)文檔,并且這一概率會(huì)受到結(jié)果在列表中位置的影響。DCM可以由如下公式進(jìn)行描述。其中λi表示位置i的繼續(xù)瀏覽概率。
隨后,用戶瀏覽模型(UBM)[7]進(jìn)一步改進(jìn)了檢驗(yàn)假設(shè),該模型假設(shè)一個(gè)結(jié)果是否被檢驗(yàn)取決于之前被點(diǎn)擊的結(jié)果位置和兩者之間的距離,如式(9)所示。
動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型(DBN)[8]是第一個(gè)將搜索結(jié)果摘要造成的展現(xiàn)偏置考慮在內(nèi)的點(diǎn)擊模型,該模型區(qū)分了實(shí)際相關(guān)性與察覺相關(guān)性,察覺相關(guān)性指由結(jié)果標(biāo)題和摘要得出的相關(guān)性,實(shí)際相關(guān)性則代表結(jié)果主頁的相關(guān)性。以Si表示用戶對(duì)第i個(gè)文檔是否滿意,su表示該事件的概率,ru表示察覺相關(guān)性的概率,λ表示繼續(xù)瀏覽的概率。DBN可以使用如下公式進(jìn)行描述。
Wang等人首先提出了一個(gè)將結(jié)果文本信息考慮在內(nèi)的點(diǎn)擊模型[9],并且證明這部分信息對(duì)于點(diǎn)擊模型是有效的,他們提出了一系列將文本信息和用戶行為信息相結(jié)合的方法。
除了基于結(jié)果位置的模型之外,部分順序點(diǎn)擊模型(PSCM)[10]嘗試將點(diǎn)擊序列信息加入模型。PSCM模型基于眼動(dòng)實(shí)驗(yàn),提出了兩個(gè)附加的用戶行為假設(shè): ①在兩次點(diǎn)擊之間的,用戶會(huì)跳過其中的一些結(jié)果進(jìn)行瀏覽;②在兩次點(diǎn)擊之間,用戶傾向于沿著一個(gè)方向進(jìn)行瀏覽。該模型將瀏覽順序與結(jié)果位置進(jìn)行了區(qū)分,并且表現(xiàn)出了比基于位置的點(diǎn)擊模型更好的點(diǎn)擊預(yù)測性能。
2.2 深度學(xué)習(xí)
2.2.1 深度學(xué)習(xí)框架對(duì)于文本的處理
在近期的研究中,深度學(xué)習(xí)方法被成功地應(yīng)用于多個(gè)自然語言處理和信息挖掘任務(wù)中。通過使用深度學(xué)習(xí)框架,這些技術(shù)能夠挖掘數(shù)據(jù)的高層次抽象信息和相應(yīng)的特征。Salakhutdinov和Hinton等人使用深度網(wǎng)絡(luò)改進(jìn)了LSA模型[11],用于挖掘查詢詞和結(jié)果文檔中的多層次語義結(jié)構(gòu)。他們提出了一個(gè)語義哈希方法,該方法使用了從深度自動(dòng)編碼器學(xué)習(xí)到的瓶頸特征,主要用于信息檢索?;谶@部分工作,Huang和Shen[12-13]提出一個(gè)新的框架去構(gòu)建一系列潛在的語義模型,能夠?qū)⒉樵冊~和結(jié)果映射到同一個(gè)低維度的空間中,在該空間里面,查詢詞和文檔的相關(guān)度以它們之間的距離來進(jìn)行衡量。他們的深度語義框架模型以最大化給定查詢詞的文本點(diǎn)擊的條件概率為目標(biāo),有區(qū)別地進(jìn)行訓(xùn)練。
雖然上述工作在搜索任務(wù)的相關(guān)度預(yù)測上取得了良好的表現(xiàn),但因?yàn)楣ぷ髦械墓_^程基于英文字母的N元模型,所以想要進(jìn)一步在非拉丁語系的搜索環(huán)境中擴(kuò)展這些模型顯得格外困難。因此,Liu等人提出了一個(gè)應(yīng)用于廣告推廣搜索的卷積點(diǎn)擊預(yù)測模型(CCPM)[14]。這個(gè)模型能夠從包含多種元素的輸入樣例中提取出局部的關(guān)鍵特征,這一特性使得該模型能夠應(yīng)用于序列廣告曝光任務(wù)中。然而,這個(gè)方法沒有能夠?qū)⒔Y(jié)果的文本信息加以考慮。
Zhang等人提出了一個(gè)基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的點(diǎn)擊預(yù)測框架[15]。這個(gè)框架也是為廣告推廣搜索而設(shè)計(jì),并且利用RNN 中的遞歸結(jié)構(gòu)對(duì)用戶的序列行為中的依賴性進(jìn)行了建模。
Severyn等人也提出了一個(gè)深度學(xué)習(xí)框架,用于對(duì)短文本進(jìn)行排序[16]。這個(gè)工作使用了已有的詞向量結(jié)果對(duì)查詢詞和結(jié)果建立特征矩陣。在那之后,他們計(jì)算了查詢詞和結(jié)果之間的相關(guān)性,該模型的一個(gè)優(yōu)勢是它的框架能夠直接引入一些附加特征,從而提升了學(xué)習(xí)的表現(xiàn)。然而這個(gè)框架沒有將用戶的行為習(xí)慣和基本假設(shè)加以考慮。
2.2.2 深度學(xué)習(xí)框架對(duì)于圖片的處理
作為深度學(xué)習(xí)框架之一,卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像識(shí)別任務(wù)中。基于圖片自身的特性,卷積神經(jīng)網(wǎng)絡(luò)相比于普通的前饋神經(jīng)網(wǎng)絡(luò)[17]具有局部感知和參數(shù)共享的優(yōu)勢,這兩個(gè)優(yōu)勢使得卷積神經(jīng)網(wǎng)絡(luò)能夠極大地降低參數(shù)數(shù)量。
Krizhevsky等人在ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)-2012中使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型[18]達(dá)到了15.3%的錯(cuò)誤率。改進(jìn)的模型由七個(gè)層次組成,前五個(gè)是卷積層(有一些采用了最大池化操作),后兩個(gè)是全連接層。輸出層由1 000個(gè)單元組成,分別對(duì)應(yīng)1 000個(gè)圖像類別。該框架中對(duì)神經(jīng)元使用非飽和、非線性的激活函數(shù),相比于常用的sigmoid 和 tanh激活函數(shù),該激活函數(shù)的訓(xùn)練速度更快。
Lin等人構(gòu)建了一個(gè)能夠根據(jù)自然語言問題和圖片,給出自然語言回答的卷積神經(jīng)網(wǎng)絡(luò)框架[19]。該框架的整體模型主要由三部分卷積神經(jīng)網(wǎng)絡(luò)組成,分別為圖像的卷積神經(jīng)網(wǎng)絡(luò)、句子的卷積神經(jīng)網(wǎng)絡(luò)和整合前兩者輸出的卷積神經(jīng)網(wǎng)絡(luò)組成。
Wan等人[20]在多種設(shè)置下研究了卷積神經(jīng)網(wǎng)絡(luò)在基于內(nèi)容的圖片檢索方面的性能,探究卷積神經(jīng)網(wǎng)絡(luò)是否能夠填補(bǔ)低維圖片特征和高維語義特征之間的“語義間隙”。發(fā)現(xiàn)在大規(guī)模圖片數(shù)據(jù)中進(jìn)行預(yù)訓(xùn)練后得到的深度卷積神經(jīng)網(wǎng)絡(luò)能夠直接用于圖片的特征提取,并且能夠從圖片的原始像素中得到高質(zhì)量的語義信息。
在本次工作中,我們選擇了卷積神經(jīng)網(wǎng)絡(luò)作為我們點(diǎn)擊模型的框架,使用它來結(jié)合查詢詞文本信息、結(jié)果文本信息、垂直結(jié)果圖片信息和用戶行為。我們的框架主要有如下三個(gè)特點(diǎn)。
① 與現(xiàn)有的僅能預(yù)測單一信息的神經(jīng)網(wǎng)絡(luò)框架不同,我們的框架能夠像傳統(tǒng)的點(diǎn)擊模型一樣,同時(shí)預(yù)測點(diǎn)擊概率,結(jié)果的相關(guān)度和用戶的檢驗(yàn)信息等。
② 通過把傳統(tǒng)的點(diǎn)擊模型訓(xùn)練結(jié)果作為附加信息加入到了框架中,我們能夠?qū)⑽谋拘畔?、圖片信息和用戶的行為信息進(jìn)行結(jié)合。
③ 不同于現(xiàn)存的基于卷積神經(jīng)網(wǎng)絡(luò)的逐點(diǎn)學(xué)習(xí)策略,我們的框架能夠從搜索返回結(jié)果頁面中同時(shí)學(xué)習(xí)十個(gè)文本結(jié)果和四張圖片結(jié)果,這種成對(duì)學(xué)習(xí)的方法有利于整體結(jié)果排序的研究。
在這一節(jié)中,我們將具體闡述我們的基于深度神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊模型。在該框架中,為了能夠?qū)⑸疃壬窠?jīng)網(wǎng)絡(luò)與用戶行為信息相結(jié)合,所有的特征(包括點(diǎn)擊模型得出的檢驗(yàn)概率和相關(guān)性分?jǐn)?shù)等)會(huì)在連接層和隱層進(jìn)行聚合和映射,模型框架如圖2所示。
圖2 基于深度神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊模型框架
3.1 輸入層
3.1.1 句子矩陣構(gòu)造
在前人的工作中,有許多生成基于文本的特征的方法。比如基于給定文本的N元字母構(gòu)建的詞語哈希方法[12]和使用給定文本文檔的詞向量方法[14],但正如我們在相關(guān)工作中提到的,N元字母方法不適用于非拉丁語系的語言環(huán)境??紤]到基本所有主流的商業(yè)搜索引擎都提供CJK(Chinese,Japanese,Korean)語言的服務(wù),選擇詞向量的方法去生成句子矩陣顯得更加合適。
在我們的工作中,我們使用了一個(gè)開源工具[21]在某商業(yè)搜索引擎超過 1 000萬個(gè)網(wǎng)頁中進(jìn)行訓(xùn)練,獲得了詞向量數(shù)據(jù)集,每一個(gè)詞向量的維度為100維。
3.1.2 圖片矩陣構(gòu)造
相比于文本內(nèi)容,因?yàn)閳D片用其本身的顏色模型表示,在矩陣構(gòu)造這方面相對(duì)比較簡便。對(duì)于一張輸入的實(shí)際圖片,可以用多種不同的表示方式來描述圖片信息,包括使用RGB三原色光模型、HSV圓柱表示法和灰度圖等。對(duì)于RGB和HSV而言,由于其每一個(gè)像素點(diǎn)由一個(gè)三元組表示,所以其實(shí)際對(duì)應(yīng)的為三個(gè)實(shí)數(shù)矩陣,為了方便處理,我們采用縱向拼接的方式將圖片的三維表示降為兩維表示。對(duì)于灰度圖來說,其每個(gè)像素點(diǎn)本身就以一個(gè)實(shí)數(shù)進(jìn)行表示,因此不需要進(jìn)行額外處理。
3.2 卷積層
卷積層的用途是為了對(duì)文本和圖片進(jìn)行采樣,從而提取出一些有效的特征。我們使用寬卷積來對(duì)句子矩陣和圖片矩陣進(jìn)行卷積計(jì)算。相比于窄卷積,寬卷積能夠更好地保留文本和圖片的邊界信息。同時(shí)當(dāng)卷積窗口大小大于被卷積矩陣時(shí),寬卷積也能夠保證給出合法的輸出,這種魯棒性在大規(guī)模數(shù)據(jù)中是十分重要的。
為了使得網(wǎng)絡(luò)能夠?qū)W習(xí)到非線性決策邊界,每一個(gè)卷積層之后都會(huì)緊跟一個(gè)非線性的激活函數(shù),這個(gè)激活函數(shù)會(huì)對(duì)卷積層輸出的每一個(gè)元素進(jìn)行操作。在神經(jīng)網(wǎng)絡(luò)中,前人的工作[22]顯示修正線性單元能夠克服sigmoid函數(shù)和雙曲正切函數(shù)的部分缺陷,從而取得較好的表現(xiàn)。因此本次框架中,我們采用了修正線性單元f(x)=max(0,x)來對(duì)卷積層輸出元素進(jìn)行激活。
3.3 池化層
在大多數(shù)的深度神經(jīng)網(wǎng)絡(luò)中,有兩種常用的池化操作方式: 平均池化操作和最大值池化操作。其中,最大值池化方法因?yàn)闆]有弱化強(qiáng)激活值的缺點(diǎn),被廣泛地使用。因?yàn)槲覀儽敬文P偷哪繕?biāo)是為了測試將點(diǎn)擊模型和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合后的效果,所以我們在模型中僅測試最大值池化策略。我們將其他的池化策略例如第K大值池化策略作為未來工作的一部分。
3.4 相似度計(jì)算層
在之前的操作中,我們的模型學(xué)習(xí)將輸入的文本信息和圖片信息映射成向量,這樣的話我們就能夠計(jì)算查詢詞和文本、圖片結(jié)果之間的相似性。在池化操作環(huán)節(jié)后生成了查詢詞、結(jié)果文本內(nèi)容、圖片內(nèi)容對(duì)應(yīng)的向量,定義xq為搜索查詢詞對(duì)應(yīng)的向量,xdi代表搜索引擎結(jié)果頁面第i條結(jié)果標(biāo)題內(nèi)容對(duì)應(yīng)的向量,xpi表示圖片垂直結(jié)果中的第i張圖片內(nèi)容對(duì)應(yīng)的向量,我們根據(jù)Bordes等人工作中提出的方法[23],可以通過如下公式計(jì)算各個(gè)向量之間的相似度和相互影響程度。
在這里,M是相關(guān)性矩陣,會(huì)在訓(xùn)練過程中不斷更新。其中公式(13)~(14)是針對(duì)文本向量的公式,可以被看作機(jī)器翻譯中的噪聲信道法,這一方法作為打分模型,被廣泛地應(yīng)用在信息檢索和問題回答任務(wù)中[24]。受公式(13)~(14)的啟發(fā),我們針對(duì)文本與圖片、圖片與圖片定義了類似的相似度計(jì)算公式。
3.5 全連接層
全連接層的作用是為了將傳統(tǒng)點(diǎn)擊模型得到的用戶行為信息加入到我們模型的框架中。全連接層對(duì)所有的中間向量進(jìn)行了串聯(lián),包括查詢詞與圖片對(duì)應(yīng)的向量和兩者之間的相似度分?jǐn)?shù),以及一些附加信息等。其中附加信息包含點(diǎn)擊模型給出的檢驗(yàn)概率和相關(guān)性分?jǐn)?shù),還包含了四張圖片所在的結(jié)果在結(jié)果列表中的排序位置。
3.6 隱層
在全連接層得出的向量會(huì)經(jīng)過一個(gè)隱層,該隱層使得全連接向量的組成元素之間可以進(jìn)行交互。隱層通過式(17)進(jìn)行計(jì)算。
在這里,wh是隱層的權(quán)重向量,α()是非線性變換。在經(jīng)過隱層操作后,向量被傳遞給點(diǎn)擊模型層,在點(diǎn)擊模型層生成最終的點(diǎn)擊預(yù)測概率。
3.7 點(diǎn)擊模型層
點(diǎn)擊模型層的節(jié)點(diǎn)被分為兩部分,一部分代表檢驗(yàn),另一部分代表相關(guān)度。最后的點(diǎn)擊概率使用大部分點(diǎn)擊模型都會(huì)使用的檢驗(yàn)假設(shè)得出:
檢驗(yàn)概率與相關(guān)度通過一個(gè)sigmod函數(shù),從輸入特征中計(jì)算得出,如以下公式所示:
P(examination=1)=
P(relevance=1)=
雖然神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的學(xué)習(xí)復(fù)雜決策函數(shù)的能力,它們在小規(guī)模數(shù)據(jù)集上也容易出現(xiàn)過擬合的情況。為了改善過擬合現(xiàn)象,我們增加了使用L2范數(shù)正則項(xiàng)的花銷(cost)函數(shù),作為網(wǎng)絡(luò)中的節(jié)點(diǎn)。我們也采用了其他的正規(guī)化策略去約束檢驗(yàn)節(jié)點(diǎn)和相關(guān)性節(jié)點(diǎn)所表達(dá)的物理含義。本次模型使用的花銷函數(shù)如式(21)所示。
在這里,xexam和xrel是從xm中得到的檢驗(yàn)和相關(guān)性的特征。Ce和Cr是用來平衡約束項(xiàng)的參數(shù),在本次實(shí)驗(yàn)中,我們設(shè)置Ce=Cr=0.5。
這個(gè)模型的訓(xùn)練目標(biāo)就是為了最小化花銷函數(shù)的交叉熵(其中yi=0,1是實(shí)際點(diǎn)擊的信息,θ向量包含了被該網(wǎng)絡(luò)優(yōu)化的所有參數(shù)),如式(22)所示。
Loss=cost+C‖θ‖2-∑[yilogP(clicki=1)+
上述的模型能夠應(yīng)用于大多數(shù)基于概率圖的點(diǎn)擊模型,因此,本次實(shí)驗(yàn)我們選擇了其中一種基于概率圖的點(diǎn)擊模型——用戶瀏覽模型(UBM)來測試我們框架的性能。
我們采用點(diǎn)擊概率預(yù)測得分(click perplexity)這一指標(biāo)來評(píng)估點(diǎn)擊模型的性能。點(diǎn)擊概率預(yù)測得分是評(píng)價(jià)一個(gè)概率分布或概率模型對(duì)于測試樣例的預(yù)測準(zhǔn)確度,該指標(biāo)值越低就代表該概率分布或概率模型對(duì)于樣例的預(yù)測越精確[7,11]。預(yù)測點(diǎn)擊概率得分可以用公式(23)進(jìn)行計(jì)算。
4.1 實(shí)驗(yàn)設(shè)置
在實(shí)驗(yàn)中,我們將使用其他幾個(gè)基準(zhǔn)模型與我們的模型進(jìn)行比較。接下來的部分,本次工作的基于深度神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊模型將被簡寫為HDCM(異質(zhì)化深度點(diǎn)擊模型)。我們將對(duì)以下幾個(gè)模型與HDCM模型的性能對(duì)比:
① 用戶瀏覽模型(UBM)。這個(gè)基準(zhǔn)模型主要用于考量合并了神經(jīng)網(wǎng)絡(luò)和點(diǎn)擊模型后,整體的性能是否有所提高。
② 僅使用結(jié)果文本信息的HDCM(使用HDCM-text進(jìn)行簡寫)。這個(gè)基準(zhǔn)模型將主要用于比較合并了文本信息與圖片信息和僅使用純文本信息對(duì)于模型性能的影響。
③ 使用文本信息,同時(shí)將輸入圖片信息進(jìn)行全零操作后作為輸入的HDCM(使用HDCM-zero進(jìn)行簡寫)。這個(gè)基準(zhǔn)模型主要用于確認(rèn)HDCM模型是否真正挖掘出了圖片的語義信息。
④ 使用兩層圖片卷積層的HDCM(使用HDCM-double進(jìn)行簡寫)。這個(gè)模型主要用于考察增加卷積層后是否有助于圖片信息特征的提取。
在實(shí)驗(yàn)數(shù)據(jù)方面,我們采樣了一個(gè)流行的商業(yè)搜索引擎的用戶搜索日志。為了避免數(shù)據(jù)相關(guān)性帶來的實(shí)驗(yàn)誤差,我們在2016年4月和2016年5月之間以固定天數(shù)間隔采樣了兩個(gè)規(guī)模不同的數(shù)據(jù)集用于實(shí)驗(yàn)。并且和大多數(shù)點(diǎn)擊建模工作一樣,過濾了查詢次數(shù)(查詢會(huì)話數(shù)量)過多和過少的查詢詞。關(guān)于數(shù)據(jù)集的詳細(xì)說明見表1。
表1 實(shí)驗(yàn)數(shù)據(jù)規(guī)模說明
4.2 不同圖片規(guī)模對(duì)于模型性能的影響
由于用戶在瀏覽搜索引擎結(jié)果頁面時(shí),對(duì)于多模態(tài)垂直搜索結(jié)果并不會(huì)進(jìn)行全部查看,眼神覆蓋范圍可能只占據(jù)多模態(tài)的局部區(qū)域。同時(shí),為了避免稀疏,在本次實(shí)驗(yàn)中,文本類信息結(jié)果的向量表示的維數(shù)為100維。因此太大的圖片矩陣可能會(huì)在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中掩蓋掉文本類信息的特征。所以我們在實(shí)際訓(xùn)練中,會(huì)選擇對(duì)原始的大規(guī)格圖片進(jìn)行一定的壓縮,但為此也可能會(huì)丟失一些關(guān)鍵的信息。所以,我們希望通過這一節(jié)的實(shí)驗(yàn)去探究圖片規(guī)模對(duì)于模型性能的影響,考察隨著圖片大小的變化,模型的性能是不是也會(huì)有所變化。
在本節(jié)實(shí)驗(yàn)中,為了控制變量,我們對(duì)于圖片類輸入統(tǒng)一采用RGB三原色表示法。實(shí)驗(yàn)中使用了數(shù)據(jù)集1(包含4 647個(gè)查詢),對(duì)UBM、HDCM-text、HDCM、HDCM-zero這四個(gè)模型進(jìn)行了實(shí)驗(yàn)。在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),圖片的放縮采用了立方插值法。表2展示了圖片規(guī)模進(jìn)行變化時(shí),HDCM模型在perplexity這一指標(biāo)上的性能變化。
表2 不同圖片規(guī)模下的模型性能
從表2可以看出,相較于基準(zhǔn)模型UBM,HDCM在性能上有顯著的提升,不管是僅考察文本結(jié)果,還是同時(shí)考察了文本和圖片結(jié)果。同時(shí),我們也注意到,使用不同的圖片規(guī)模進(jìn)行輸入,對(duì)于HDCM而言,差別并不明顯。并且從表中的數(shù)據(jù)可以看出,同時(shí)包含了文本和圖片結(jié)果信息的模型相較于僅包含文本信息的模型,在性能上反而有所下降,這說明圖片信息帶來了一定的噪聲,或者說對(duì)于當(dāng)前的實(shí)驗(yàn)設(shè)置,我們的模型沒有從圖片信息中挖掘出語義相關(guān)性信息。為此,我們使用HDCM-zero模型對(duì)這一猜想進(jìn)行了驗(yàn)證。
圖3展示了HDCM模型在對(duì)圖片輸入進(jìn)行全零化操作前后的性能對(duì)比。從圖中可以看出,在所有圖片規(guī)模下,使用實(shí)際圖片對(duì)模型進(jìn)行訓(xùn)練的結(jié)果比使用全零圖片對(duì)模型進(jìn)行訓(xùn)練的結(jié)果差,這說明對(duì)于這一數(shù)量級(jí)的訓(xùn)練數(shù)據(jù),該框架很難從圖片中挖掘出能夠與文本建立相關(guān)性的特征。在接下來的實(shí)驗(yàn)中,我們將嘗試使用其他的圖片表示法進(jìn)行實(shí)驗(yàn),考察是否圖片的其他的特性,例如亮度等,會(huì)對(duì)用戶的瀏覽點(diǎn)擊行為產(chǎn)生影響。
圖3 實(shí)際圖片輸入與全零操作后的模型性能對(duì)比
4.3 不同圖片表示法對(duì)于模型性能的影響
用戶在瀏覽搜索引擎結(jié)果頁面的時(shí)候,對(duì)于圖片類垂直搜索結(jié)果,會(huì)根據(jù)圖片內(nèi)容判斷是否與自己的查詢意圖相關(guān)再選擇對(duì)該結(jié)果進(jìn)行點(diǎn)擊。同時(shí),用戶也會(huì)受到圖片的亮度、明暗程度等的影響。這一節(jié)中,我們希望考察不同的圖片表示法對(duì)于模型性能的影響。
在這一節(jié)的實(shí)驗(yàn)中,我們將圖片規(guī)格全部統(tǒng)一為32×32。我們還對(duì)色相(H)、飽和度(S)、明度(V)三個(gè)維度單獨(dú)進(jìn)行了考察。同時(shí),為了驗(yàn)證模型是否真正地挖掘出了圖片與文本信息之間的相關(guān)性,我們也使用HDCM-zero進(jìn)行了實(shí)驗(yàn)。
圖4展示了使用RGB和HSV兩種不同的圖片表示方法時(shí),HDCM模型的點(diǎn)擊概率預(yù)測得分。圖5展示了使用色相圖、飽和度圖、明度圖和灰度圖幾種不同的圖片表示法時(shí),HDCM模型的點(diǎn)擊概率預(yù)測得分。從圖中可以看出,雖然我們的模型相較于基準(zhǔn)的點(diǎn)擊模型——用戶瀏覽模型(UBM)在點(diǎn)擊概率預(yù)測得分上有所提高,但是從HDCM與HDCM-text和HDCM-zero的結(jié)果比較中,我們發(fā)現(xiàn),即使使用基于深度神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊模型,也很難從圖片的底層基本信息中提取出強(qiáng)語義的特征。因此在之后的實(shí)驗(yàn)中我們將嘗試增加圖片的卷積層數(shù),并嘗試增加訓(xùn)練數(shù)據(jù)量,觀察模型的性能變化。
圖4 RGB與HSV圖片表示法對(duì)比
圖5 色相圖、飽和度圖、明度圖與灰度圖表示法對(duì)比
4.4 不同卷積層數(shù)對(duì)于模型性能的影響
對(duì)于深度神經(jīng)網(wǎng)絡(luò)而言,一層卷積學(xué)到的特征一般是局部的,隨著層數(shù)的增加,神經(jīng)網(wǎng)絡(luò)所能夠?qū)W習(xí)到的特征就逐步趨于全局化。因此,我們在原有框架中增加卷積層數(shù),希望能夠得到圖片更加豐富的特征信息。同時(shí)我們也在數(shù)據(jù)量上進(jìn)行了增加,對(duì)比了數(shù)據(jù)集1(包含4 647個(gè)查詢詞)和數(shù)據(jù)集2(包含8 147個(gè)查詢詞),觀察結(jié)果的變化。本節(jié)實(shí)驗(yàn)的圖片輸入規(guī)模均統(tǒng)一為32×32,圖片均以RGB三原色表示法進(jìn)行表示。
表3展示了這部分實(shí)驗(yàn)結(jié)果。對(duì)于兩份采樣的數(shù)據(jù)集,在對(duì)模型的圖片矩陣處理模塊增加卷積層數(shù)后,整體框架的性能相較于原本的僅有一個(gè)卷積層的框架并沒有提升。并且,將圖片輸入矩陣進(jìn)行全零化操作后,整體框架的性能反而變好,這說明即使使用了深度神經(jīng)網(wǎng)絡(luò),在現(xiàn)有的實(shí)驗(yàn)設(shè)置下,也很難從圖片的基本底層信息中挖掘出語義特征,換句話說,搜索引擎的結(jié)果圖片內(nèi)容與查詢詞的相關(guān)度關(guān)系較弱,通過現(xiàn)有框架很難在圖片與文本之間建立相關(guān)性。
表3 圖片采用雙層卷積的模型性能對(duì)比
回顧本次的工作,我們首先考察了流行搜索引擎的實(shí)際用戶瀏覽數(shù)據(jù),并與實(shí)際搜索頁面進(jìn)行比對(duì),確定了具有圖片垂直結(jié)果的搜索詞。然后根據(jù)提取的搜索詞列表,使用動(dòng)態(tài)網(wǎng)頁抓取技術(shù),進(jìn)行實(shí)際搜索結(jié)果頁面(SERP)的數(shù)據(jù)抓取。接著我們設(shè)計(jì)了一個(gè)結(jié)合深度神經(jīng)網(wǎng)絡(luò)和點(diǎn)擊模型信息的框架,并對(duì)框架進(jìn)行了代碼實(shí)現(xiàn),實(shí)驗(yàn)證明我們的框架相較于原點(diǎn)擊模型在性能上有顯著提升。
在第四節(jié)中,我們對(duì)比了不同的圖片基礎(chǔ)特征對(duì)于模型性能的影響,發(fā)現(xiàn)這些特征的變化對(duì)模型的影響很小。實(shí)驗(yàn)表明,直接應(yīng)用圖片的最底層特征,即使是在深度神經(jīng)網(wǎng)絡(luò)的框架下也很難與文本信息建立強(qiáng)相關(guān)性關(guān)系,可能是因?yàn)楸菊撐牡臄?shù)據(jù)采自商業(yè)搜索引擎的實(shí)際用戶行為日志所致。與以往的圖片分類任務(wù)不同,實(shí)際的圖片搜索日志存在查詢詞不規(guī)范、搜索目的模糊、圖片搜索結(jié)果各異、結(jié)果質(zhì)量參差不齊等問題,導(dǎo)致了查詢結(jié)果中部分圖片與查詢詞的相關(guān)性不高,從而在神經(jīng)網(wǎng)絡(luò)對(duì)于語義相關(guān)性的理解過程中產(chǎn)生了噪聲。同時(shí),不同用戶之間對(duì)于符合查詢需求的圖片判斷也存在差異,也使得框架的性能受到了影響。
在未來的工作中,我們將會(huì)嘗試對(duì)圖片使用更加復(fù)雜的特征提取方法。例如通過白化操作降低輸入數(shù)據(jù)的冗余信息,更好地突出圖片的邊緣特征,更加類似于人眼對(duì)于事物的識(shí)別等。同時(shí),我們也會(huì)進(jìn)一步利用圖片的點(diǎn)擊信息。目前的點(diǎn)擊日志信息,不針對(duì)具體的圖片,使得對(duì)于用戶在二維排布模塊上的點(diǎn)擊行為難以建模。在未來,我們會(huì)設(shè)計(jì)圖片的點(diǎn)擊實(shí)驗(yàn),記錄用戶在二維模塊上的瀏覽點(diǎn)擊行為,同時(shí)比較被點(diǎn)擊與未被點(diǎn)擊圖片之間的特征差異。
[1] Sparck J K. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of documentation, 1972, 28(1): 11-21.
[2] Agichtein E, Brill E, Dumais S, et al. Learning user interaction models for predicting web search result preferences[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2006: 3-10.
[3] Chuklin A, Markov I, Rijke M. Click models for web search[J]. Synthesis Lectures on Information Concepts, Retrieval, and Services, 2015, 7(3): 1-115.
[4] Severyn A, Moschitti A. Learning to rank short text pairs with convolutional deep neural networks[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015.
[5] Craswell N, Zoeter O, Taylor M, et al. An experimental comparison of click position-bias models[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining, ACM, 2008: 87-94.
[6] Guo F, Liu C, Wang Y M. Efficient multiple-click models in web search[C]//Proceedings of the Second ACM International Conference on Web Search and Data Mining, ACM, 2009:124-131.
[7] Dupret G E, Piwowarski B. A user browsing model to predict search engine click data from past observations[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM, 2008:331-338.
[8] Chapelle O, Zhang Y. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th International Conference on World Wide Web, ACM, 2009:1-10.
[9] Wang H, Zhai C, Dong A, et al. Content-aware click modeling//The 23rd International World Wide Web Conference (WWW’2013), 2013.
[10] Wang C, Liu Y, Wang M, et al. Incorporating non-sequential behavior into click models[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM, 2013:283-292.
[11] Salakhutdinov R, Hinton G. Semantic hashing. International Journal of Approximate Reasoning, 2009,50(7):969-978.
[12] Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using click through data[C]//Proceedings of the 22nd ACM International Conference on Conference on Information and Knowledge Management, ACM, 2013: 2333-2338.
[13] Shen Y, He X, Gao J, et al. Learning semantic representations using convolutional neural networks for web search[C]//Proceedings of the Companion Publication of the 23rd International Conference on World Wide Web Companion, International World Wide Web Conferences Steering Committee, 2014:373-374.
[14] Liu Q, Yu F, Wu S, et al. A convolutional click prediction model[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, ACM, 2015: 1743-1746.
[15] Zhang Y, Dai H, Xu C, et al. Sequential click prediction for sponsored search with recurrent neural networks. arXiv preprint arXiv:1404.5772, 2014.
[16] Severyn A, Moschitti A. Learning to rank short text pairs with convolutional deep neural networks[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM, 2015:373-382.
[17] Bengio Y, Lecun Y. Convolutional networks for images, speech, and time-series[J]. The Handbook of Brain Theory amp; Neural, 1995(10):3361.
[18] Krizhevsky A, Sutskever I, Hinton G E. Image net classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012.
[19] Lin M, Lu Z, Li H. Learning to answer questions from image using convolutional neural network[C]//Proceedings of the AAAI,2016,3(7):16.
[20] Wan J, Wang D, Hoi S C H, et al. Deep learning for content-based image retrieval: A comprehensive study[C]//Proceedings of the 22nd ACM International Conference on Multimedia. ACM, 2014: 157-166.
[21] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of Advances in neural information processing systems, 2013: 3111-3119.
[22] Nair V, Hinton G E. Rectified linear units improve restricted Boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning (ICML-10), 2010:807-814.
[23] A Bordes, J Weston, N Usunier. Open question answering with weakly superised embedding models[M]. In Machine Learning and Knowledge Discovery in Databases. Springer, 2014: 165-180.
[24] Echihabi A, Marcu D. A noisy-channel approach to question answering[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2003(1):16-23.
[25] 劉龍飛. 基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J]. 中文信息學(xué)報(bào), 2015,29(6): 159-165.
[26] 孫曉, 何家勁, 任福繼. 基于多特征融合的混合神經(jīng)網(wǎng)絡(luò)模型諷刺語用判別[J]. 中文信息學(xué)報(bào),2016, 30(6): 215-223.
謝曉暉(1994—),博士研究生,主要研究領(lǐng)域?yàn)榛ヂ?lián)網(wǎng)搜索結(jié)果排序和用戶行為建模。
E-mail: xiexh_thu@163.com
王超(1989—),博士,主要研究領(lǐng)域?yàn)榛ヂ?lián)網(wǎng)搜索結(jié)果排序和用戶行為建模。
E-mail: chaowang0707@gmail.com
劉奕群(1981—),副教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樾畔z索與互聯(lián)網(wǎng)搜索技術(shù)。
E-mail: yiqunliu@tsinghua.edu.cn
ASearchEngineClickModelBasedonDeepNeuralNetwork
XIE Xiaohui, WANG Chao, LIU Yiqun, ZHANG Min,MA Shaoping
(State Key Lab of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China)
With the rich media introduced into searching interface, the result pages of the search engine appear to be heterogeneous and in a form of two-dimensional distribution. To deal with this new challenge to traditional click model, we analyze the result pages of a popular commercial search engine and build a click model based on deep neural network, trying to reveal correlations between multimedia information and text information. This framework contains both the characteristics of neural network and prediction ability of click model. The experiment demonstrates that our framework is well improved compared to original click model. However, due to the complexity of multimedia contents, even deep neural network would produce quite weak semantic correlations if we rely merely on basic characteristics of multimedia results.
heterogeneous results; deep neural network; click model
1003-0077(2017)05-0146-10
TP391
A
2016-05-16定稿日期2016-12-26
國家自然科學(xué)基金(61622208, 61532011, 61472206);國家973計(jì)劃(2015CB358700)