張森, 張晨,, 林培光, 張春云,郭玉超, 任威龍,任可
(1.山東財經大學 計算機科學與技術學院,山東 濟南 250014;2. 香港科技大學 計算機科學及工程學系,香港 999077)
基于用戶查詢日志的網絡搜索主題分析
張森1, 張晨1,2, 林培光1, 張春云1,郭玉超1, 任威龍1,任可2
(1.山東財經大學 計算機科學與技術學院,山東 濟南 250014;2. 香港科技大學 計算機科學及工程學系,香港 999077)
網絡搜索分析在優(yōu)化搜索引擎方面具有舉足輕重的作用,而且對用戶個人搜索特性進行分析能夠提高搜索引擎的精準度。目前,大多數已有模型(比如點擊圖模型及其變體),注重研究用戶群體的共同特點。然而,關于如何做到既可以獲取用戶群體共同特點又可以獲取用戶個人特點方面的研究卻非常少。本文研究了基于個人用戶網絡搜索分析新問題,即通過研究用戶搜索的突發(fā)性現象,獲取個人用戶搜索查詢的主題分布情況。提出了兩個搜索主題模型,即搜索突發(fā)性模型(SBM)和耦合敏感搜索突發(fā)性模型(CS-SBM)。SBM假設查詢詞和URL主題是無關的,CS-SBM假設查詢詞和URL之間是有主題關聯的,得到的主題分布信息存儲在偏Dirichlet先驗中,采用Beta分布刻畫用戶搜索的時間特性。實驗結果表明,每一個用戶的網絡搜索軌跡都有多種基于用戶的獨有特點。同時,在使用大量真實用戶查詢日志數據情況下,與LDA、DCMLDA、TOT相比,本文提出的模型具有明顯的泛化性能優(yōu)勢,并且有效地描繪了用戶搜索查詢主題在時間上的變化過程。
網絡搜索;搜索引擎;自然語言處理;主題模型;文本挖掘;突發(fā)性;時間分析;參數估計
1931年,Zipf[1]發(fā)現在自然語言中,詞的頻率與它在詞匯表中的排名成反比,服從冪律分布,他把這種現象稱為上下文語言模型中詞的突發(fā)性。后來發(fā)現,在金融、基因表達、計算機視覺等方面的數據也存在這種突發(fā)現象。網絡搜索已成為人們日常生活中必不可少的一部分,用戶提交的搜索查詢詞是人類智慧的結晶,并在搜索查詢和微博等網絡信息中顯現出與傳統(tǒng)的自然語言不同的特點,網絡搜索中每一個用戶的搜索條目都包括查詢詞和URL兩項。已經提出的Dirichlet Compound Multinomial (DCM)模型[2]和Dirichlet Compound Multinomial Latent Dirichlet Allocation (DCMLDA)模型[3]可以對文章中詞的突發(fā)性現象建模,但如果直接應用于網絡搜索建模卻不是很理想。雖然大多數的點擊圖模型[4]及其變體[5-6]可以對網絡搜索建模,但都是針對用戶群體進行研究而忽略了用戶個人特點。
本文通過分析用戶查詢日志來獲取網絡搜索突發(fā)現象,并提出了兩個模型:SBM(search burstiness model)和CS-SBM(coupling-sensitive search burstiness model)。SBM是一個單極模型,假設查詢詞和URL之間主題獨立,突發(fā)性的相關信息存儲在偏Dirichlet先驗里。CS-SBM充分考慮查詢詞和URL之間的關聯。本文還用Beta分布刻畫了用戶搜索的時間特性,使前面提出的模型能夠用來捕獲時間上的突發(fā)性。
Madsen指出,多項分布經常用于文本建模。然而,多項分布能獲取到文檔中詞匯的突發(fā)性現象,即一個詞如果出現過一次,那么它很有可能再次出現[7]。因此Madsen提出了Dirichlet多項分布(DCM)來代替?zhèn)鹘y(tǒng)的多項分布。DCM擁有一級自由度,能獲取到詞的突發(fā)性,但是沒有涉及文檔中詞匯的主題。文獻[2]將DCM模型擴展成為了混合DCM分布,該模型能夠訓練表示一組文檔,其中每一個文檔都來自不同的高級主題。但是,該模型還是不能建模一個文檔包含多個主題單詞的情景。
上述工作中,之所以不能很好地刻畫文檔主題,其主要原因是DCM更關注突發(fā)性現象而非獲取文檔主題。2003年Blei[8]提出的Latent Dirichlet Allocation (LDA) 是非監(jiān)督的貝葉斯生成模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。LDA包括詞匯、主題和文檔3層。LDA引入了Dirichlet先驗分布,成為了一個完備的貝葉斯模型。LDA文檔生成過程為,從Dirichlet分布中采樣文檔與主題、主題與詞匯分布,再重復從文檔-主題多項式分布中采樣主題以及由主題-詞匯多項式分布生成詞匯的過程,逐步生成整個文檔。LDA已經在學術和工業(yè)界得到廣泛應用。但是,LDA模型并不能預測詞匯突發(fā)性出現的趨勢。
為了能夠在獲取主題的同時預測詞匯突發(fā)性現象,G.Doyle[3]提出了DCMLDA主題模型,該模型結合了DCM和LDA的優(yōu)勢,直接將DCM擴展合并到主題模型里面形成了一個比LDA更加復雜的模型。在DCMLDA中對于每個主題k和每個文檔d服從新的多項式分布θkd,每個主題k都有不同的、非均勻的βk向量。對于每一個文檔d,φkd根據Dirichlet(βk)的變化而變化,因此每個主題實例在文檔之間是相互聯系的。文檔中的主題實例允許在同一主題不同文檔中每一個詞匯的概率不同,這也就是突發(fā)現象。
隨著帶有時間標記的文本集合(例如,數字化的報紙、雜志、博客等)數量和體積的增加,如何有效地搜索這些數據變得更加重要。上述模型都難以發(fā)現主題的演化趨勢。在這個背景下,文獻[9]等提出了Topic Over Time(TOT)模型。TOT將文檔的時間信息作為服從Beta分布的變量,將每個主題通過Beta分布與時間信息相關聯。TOT假設每個生成的詞匯對應的時間信息也是通過它所屬主題相關的Beta分布采樣生成,這樣主題與時間信息也有關系。TOT不依賴馬爾可夫假說,這樣能夠避免在離散化過程中遇到時間粒度選取的問題。
另外,文獻[10]系統(tǒng)地總結了自然語言處理中主題模型的發(fā)展,對LDA模型進行了詳細的分析,并對主題模型的發(fā)展趨勢進行了預測。根據微博的特殊形式,在LDA的基礎上進行了改進,分別提出了(MicroBlogs-LDA)MB-LDA模型[11]和(MicroBlogs-HDP)MB-HDP模型[12],同時證明了提出模型能夠很好地對微博進行主題挖掘。
以前的工作都是集中在對自然語言文本中的同質項目進行分析,即對一個文檔中的同質詞匯進行建模。然而在網絡搜索分析中,文檔是由查詢詞和URL兩個異構項目組成,并且?guī)в袝r間信息。因此,本文結合網絡搜索查詢的文本特點,提出并研究了將主題模型運用到網絡搜索分析中,對查詢詞和URL這兩個異構項目和它們之間的關系進行建模。
本節(jié)主要介紹了SBM和CS-SBM主題模型,以及獲取主題時間突發(fā)性的策略。
提出的模型應具備以下條件:
1)查詢詞和URL的突發(fā)性現象研究要分開建模[13]。
2)建模時,網絡搜索特點,包括查詢詞、URL和session 3個維度都要考慮在內[14-15]。
session是指在短時間內提交的滿足相同信息需求的一系列查詢。為了避免同一會話中包含不相干的查詢而導致的性能降低,本文優(yōu)先考慮同一會話中查詢詞之間的語義一致性。通過對比分析,本文采用文獻[16]提出的一系列規(guī)則來劃分搜索session。這些規(guī)則用于評估查詢之間的詞匯相似性,并在檢測相關搜索查詢時表現出很高精度。
2.1 查詢詞和URL獨立的主題模型(SBM)
SBM的生成過程是基于查詢詞和URL相互獨立的假設。與LDA和DCMLDA等傳統(tǒng)主題模型不同,SBM中的文檔有查詢詞、被點擊URL和查詢時間三項。圖1是SBM的搜索主題模型概率圖。首先,從超參數為α的Dirichlet分布中抽樣生成文檔與主題之間的關系矩陣θ,θ是一個D×K的矩陣,其中D代表文檔數量,K代表主題數。對于每一個主題k,從超參為βk和δk的Dirichlet分布中分別取樣生成查詢詞與主題之間的關系矩陣θ和URL與主題之間的關系矩陣Ω。θ和Ω是D×K×V的三維矩陣,V代表訓練語料庫中出現的所有詞的詞表。對于文檔中的每一個session,從參數為θd的多項分布中選擇一個主題z,從參數為φzd的查詢詞的多項分布中,采樣生成查詢詞w。然后,生成點擊事件的二項分布,如果URL被點擊了,從參數為Ωzd的URL的多項分布中,采樣生成URLu。變量θ和δ是基于單個特定文檔的,因此SBM可以為每一個用戶查詢詞和URL的突發(fā)性建模。
圖1 SBM網絡搜索分析主題模型Fig.1 SBM web search analysis topic model
SBM中的Gibbs采樣方法借鑒了LDA和DCMLDA中Gibbs采樣的方法,并進行了推導。模型的完全似然函數為
P(w,u,z|α,β,δ)=P(u|z,δ)P(w|z,β)P(z|α)
展開上式中的多項分布和Dirichlet分布,利用多項分布和Dirichlet分布的共軛性質,分別積分掉參數θ和φ以后,通過借鑒LDA和DCMLDA中Gibbs采樣的方法,在SBM中概率P(z|α)為
式中ndz為第d個文檔中主題z的數量。
概率P(w|z,β)為
式中ndkw為第d個文檔中第k個主題下查詢詞w的個數。
當該session中沒有URL被點擊時的條件概率為
當一個session中有URL被點擊時的條件概率為
2.2 查詢詞和URL相關聯的主題模型(CS-SBM)
查詢詞和URL通過搜索引擎緊密地結合在一起,這使得本文研究的問題變得更加復雜。被點擊的URL是由對應的查詢詞經過搜索得出的。在網絡搜索的情境中,URL是提交查詢詞給搜索引擎后返回的結果。因此,URL和查詢詞是相關的。為了獲取它們兩者之間的關系,這里引入變量Δqku來代表“查詢詞-URL”的多項分布,其先驗由δ表示。“查詢詞-URL”多項式通過目前已經被廣泛采用的點擊圖來獲得,點擊圖由搜索查詢和被點擊的URL兩部分組成。用于表示全局部分的CS-SBM定義為CS-SBM-G。因為本文重點研究以單個用戶為核心的信息能否增強主題模型的表現,所以基于單個用戶 “查詢詞-URL”多項分布的CS-SBM定義為CS-SBM-U。
圖2給出了CS-SBM的生成過程。與SBM相比,查詢詞的生成過程不變,兩者最主要的區(qū)別在于,CS-SBM在URL生成的時候要考慮查詢詞的影響,對于session中每一個查詢項q,首先生成點擊事件的二項分布,如果URL被點擊了,則從參數為Ωqz的URL多項分布中采樣生成URLu。
圖2 CS-SBM網絡搜索分析主題模型Fig.2 CS-SBM web search analysis topic model
模型的完全似然函數為
P(w,u,z|α,β,δ)=P(u|z,w,δ)P(w|z,β)P(z|α)
在CS-SBM中,同樣采用了與LDA類似的Gibbs采樣方法。P(z|α)和P(w|z,β)都與SBM中的相同。兩者主要的區(qū)別就是給定的主題中的w和u不再相互獨立。u的生成過程可能受到主題z和相關搜索查詢q的影響。
P(u|z,w,δ)=
式中,nqzu是第z個主題的第q個查詢中的URLu的數量。
當session中沒有URL被點擊時的條件概率為
P(zi=k|Xi=0,z-i,w,u,α,β,δ,Ψ)∝
當session中有URL被點擊時的條件概率為
P(zi=k|Xi=1,z-i,w,t,u,α,β,δ,Ψ)∝
2.3 主題在時間上的突發(fā)性
網絡搜索中另一個常見現象就是時間上的突發(fā)性。一個用戶更傾向于在一個很短的時間內集中查詢一些內容。因此,本文假設每一個用戶的查詢軌跡都有一個時間上的突發(fā)性,這種突發(fā)性由與查詢相關的時間戳來體現。因為時間粒度是很難設定的,所以本文采用TOT中提出的方法,使用連續(xù)的Beta分布來捕獲主題時間上的突發(fā)性。通過引入Beta分布,使一個主題能夠更容易在一個短的時間周期內出現。在這種情況下,本文從整個語料庫級別(定義為X-TG)和基于單一用戶級別(定義為X-TU)出發(fā),刻畫一個主題在時間上的變化趨勢。
因為主題-周期的多項分布是固定的(對每一個用戶而言),所以主題中存在的時間周期將會證明突發(fā)性。每天或者每小時都可以觀察到突發(fā)性現象,這表明去離散化是更合適的。
下面是SBM和CS-SBM在添加了時間信息以后的模型算法。
the same as the original model
for each sessionsinddo
choose a topicz:Multinomial(θd);
generate timestampst~Beta(τz)(X-TG) or
t:Beta(τzd) (X-TU);
the same as the original model
end for
它主要的變化在于,對文檔中的每一個session,從參數為θd的多項分布中采樣一個主題z,然后根據數據集的不同,從Beta分布Beta(τz)和Beta(τzd)分別生成基于全局的時間戳和基于特定用戶的時間戳。
TS-SBM的Gibbs采樣與LDA方法類似。本文給出了一些簡單的推導。首先,模型的完全似然函數為
P(w,u,t,z|α,β,δ,τ)=P(t|z,τ)P(u|z,δ)·
P(w|z,β)P(z|α)
如果session中沒有URL被點擊,那么此時的條件概率是:
P(zi=k|Xi=0,z-i,w,u,α,β,δ,τ)∝
式中:τdk1和τdk2是Beta分布的超參數。
對于SBM模型,如果session中有URL被點擊,此時的條件概率為
P(zi=k|Xi=1,z-i,w,u,α,β,δ)∝
對于CS-SBM模型,當session中有URL被點擊時的條件概率為
P(zi=k|Xi=1,z-i,w,t,u,α,β,δ,Ψ)∝
時間的參數按照如下方法更新:
關于超參數α和β設置問題,一些LDA應用采用默認相同值的方法獲得了成功,例如由Griffiths和Steyers[17]提出的α=50/k,β=0.01,K是主題的數量。因此,在LDA中沒有必要去研究超參數。然而,在本文提出的模型中,超參數的設置是至關重要的。因為LDA中的φ和Ω值,也被包括在SBM和CS-SBM的β和δ中。
SBM完全似然P(w,u,z|α,β,δ)的計算如下所示:
P(w,u,z|α,β,δ)=
CS-SBM完全似然P(w,u,z|α,β,δ)的計算如下所示:
P(w,u,z|α,β,δ)=
SBM-T完全似然P(w,u,z|α,β,δ)的計算如下所示:
P(w,u,z|α,β,δ)=
CS-SBM-T完全似然P(w,u,z|α,β,δ,τ)的計算如下所示:
P(w,u,z|α,β,δ,τ)=
進行對數似然轉換:
對于SBM:
對于CS-SBM:
上面的每一個公式無論α.′、β.k′還是δ.k′、δ.q′都定義了一個向量。本文采用文獻[18]中提出的有限空間的BFGS方法使它最大化。運行Gibbs采樣,然后選擇α、β和δ使P(w,u,z|α,β,δ,τ)完全似然最大化,直到達到穩(wěn)定狀態(tài)。重復上述過程,直到α、β和δ收斂。
4.1 數據集
本文選擇的實驗數據是搜狗搜索發(fā)布的匿名查詢日志。它是搜狗在網上公開發(fā)布的用戶查詢日志。該日志包括了用戶2008年6月整月的網絡查詢記錄。日志主要包括5部分,即用戶匿名ID、查詢詞、查詢時間、點擊的URL的排名、點擊的URL。這些數據是按照匿名用戶的ID順序依次排列的。本文選取了在一個月內查詢日志條目大于500條的用戶進行建模。首先,將同一用戶的搜索查詢日志放到一個文檔中。然后,用文獻[16]提出的方法將搜索查詢日志切分成了647 164個session,用于下一步搜索主題的發(fā)現。接下來,根據文獻[16]提出的停用詞列表過濾掉那些沒有意義的查詢詞。同時,例如www.sougou.com、www.baidu.com等主要的搜索引擎和門戶網站也要過濾掉[19],因為它們沒有提供有用信息。每一個文檔的時間戳是由搜索日志上提供的查詢時間決定的,并且根據文獻[20]提出的SSTM模型中用到的方法,將時間按照先后順序歸一化到(0,1)。實驗數據中,每一個文檔都包括了一些session,每一個session都包括一些查詢詞、URL(如果有點擊事件)和時間戳。
本文選用了兩個衡量標準。第1個衡量標準是用部分Held-Out數據評估模型預測未知數據的能力。第2個衡量標準,本文參照了文獻[21]提出的方法,即在觀察部分用戶搜索記錄以后,預測剩余查詢項的能力。兩個衡量標準都選擇了困惑度作為評估模型泛化能力的衡量指標。一般而言,模型的困惑度越低,表明泛化能力越強,對模型的擬合程度越高。由于很少有概率模型做有關獲取網絡搜索查詢突發(fā)性和時間上的主題突發(fā)性研究,很難找到提出模型的直接競爭對手。所以本文選取了3個常用的主題模型作為比較基線,即LDA、DCMLDA和TOT。
4.2 模型困惑度分析
對于第一個衡量標準,困惑度義如下:
式中,M是模型通過訓練過程學習到的,Nd是指第d個文檔中詞匯數量。圖3展示了困惑度的比較結果,從中可以發(fā)現這兩個提出的模型與3個基線模型相比表現出了更好的預測未知數據的能力。因此,把搜索主題數設置為1 000時,SBM、CS-SBM、LDA、DCMLDA、TOT的困惑度分別為430.347、400.16、1 080.41、995.76、830.23。SBM和CS-SBM自身的困惑度低,并且隨著主題數增加困惑度還會進一步降低。實驗結果表明,SBM和CS-SBM更適合于從給予的用戶搜索歷史中預測用戶未來網絡搜索查詢。
圖3 Held-out 數據的困惑度Fig.3 Perplexity of held-out data
第2種衡量標準的困惑度為
Perplexityportion(M)=
第2種衡量標準可以評估提出的模型在觀察一部分用戶搜索歷史記錄以后,預測剩余查詢項的能力。例如,從用戶的查詢日志中得到已經觀察的查詢詞w1:P,那么剩余查詢項的預測分布為P(w|W1:P)。測試數據的困惑度是根據上面的困惑度公式進行計算。舉例來說,選擇數據集中前80%的搜索查詢詞作為觀察訓練數據,剩余的20%作為測試數據。圖4呈現了部分觀察數據的預測困惑度,LDA、DCMLDA、TOT的困惑度分別是684.83、671.09、561.26。本文中提出的模型再次取得了顯著的優(yōu)勢,其中SBM的困惑度是206.76,而CS-SBM達到了204.87。實驗結果表明,SBM和CS-SBM有著更好的預測剩余查詢項的能力。
圖4 Observed 數據的困惑度Fig.4 Perplexity of observed data
4.3 搜索主題發(fā)現及分析
發(fā)現搜索主題的合理性是判斷模型是否成功的一個重要指標。本文中的實驗結果證明了提出的模型在發(fā)現搜索主題方面表現突出,同時還準確地預測了查詢主題在時間上的演化趨勢。
實驗中設置主題的數目為K=50。搜索主題是從Gibbs采樣的1000次迭代中單次采樣提取的。在表1~4中,展示了4個由SBM和CS-SBM分別在語料庫級上和單個用戶級上發(fā)現的搜索主題,并列出了各主題概率值最大的前5個詞匯及其概率。主題名稱是根據該主題下詞匯具體的語義信息定義的。圖5~8中,直方圖顯示了主題在時間軸上的概率分布,光滑曲線為擬合Beta分布的概率密度函數曲線。下面將選取圖中的兩個搜索主題進行具體分析。
表1~2 中的第一個主題是“地震”,通過圖5~6可以發(fā)現,本文提出的SBM模型在語料庫級上和單個用戶級上都成功獲取了主題時間上的突發(fā)性。根據其時間分布來看,由于剛剛發(fā)生過汶川地震,因此在6月份的前半個月,人們對地震的搜索比較頻繁,但隨著時間的推移,搜索數量逐漸減少。從語料庫級的分析結果看,“汶川、地震、救災”等高頻詞匯都與地震相關。對于單個用戶,本文從實驗結果中選擇了一位有大量查詢日志并且有地震主題的用戶做具體分析描述。結果發(fā)現,在這個主題下的詞,例如地震、汶川、唐山、四川等詞匯出現的概率較高??傮w來看,汶川地震引起了人們廣泛的關注,對于全局來說,用戶更關注地震救援工作;對于表2中的個人用戶來說,他們只是關注地震本身,而沒有救援相關的查詢。
表3~4中,最后一個主題是“歐洲杯”,圖7~8中,CS-SBM的實驗結果顯示關于“歐洲杯”這個話題的查詢從第十天到第三十天越來越多,這也符合隨著歐洲杯的進行人們關注的熱情越來越高的現象。從整個語料庫得到的結果來看,搜索主題“歐洲杯”主要包括歐洲杯、瑞士、奧地利等詞。其中“瑞士”和“奧地利”是本屆歐洲杯的舉辦地,這些詞匯都與歐洲杯的主題緊密相關。而對于表4中的個人用戶,我們仍然從實驗結果中選取了與“歐洲杯”主題相關的用戶進行分析說明。它包括歐洲杯、西班牙、冠軍等關鍵詞,這證明了該用戶更關注于歐洲杯的冠軍歸屬問題。
總體而言,發(fā)現的搜索主題與實際的情況大體相吻合,而且能較好地反應主題變化的趨勢。
(a) 主題“地震”隨著時間 (b) 主題“NBA”隨著時間 的變化趨勢 的變化趨勢圖5 CS-SBM網絡搜索分析主題模型Fig.5 Latent evolutions of SBM-TG discovered search topics
(a) 主題“地震”隨著時間 (b) 主題“NBA”隨著時間 的變化趨勢 的變化趨勢圖6 SBM-TU發(fā)現的搜索主題在時間上的演化趨勢Fig.6 Latent evolutions of SBM-TU discovered search topics
(a) 主題“電子產品”隨著 (b) 主題“歐洲杯”隨著 時間的變化趨勢 時間的變化趨勢圖7 CS-SBM-TG發(fā)現的搜索主題在時間上的演化趨勢Fig.7 Latent evolutions of CS-SBM-TG discovered search topics
(a) 主題“電子產品”隨著 (b) 主題“歐洲杯”隨著 時間的變化趨勢 時間的變化趨勢圖8 CS-SBM-TU發(fā)現的搜索主題在時間上的演化趨勢Fig.8 Latent evolutions of CS-SBM-TU discovered search topics
主題1地震主題2NBA搜索詞概率搜索詞概率汶川0.03628NBA0.03128地震0.03342季后賽0.02883救災0.03217西部0.02832武警0.02774湖人0.02336哄搶0.02774冠軍0.02092
表2 SBM-TU發(fā)現的搜索主題分布情況
表3 CS-SBM-TG發(fā)現的搜索主題分布情況
表4 CS-SBM-TG發(fā)現的搜索主題分布情況
本文提出了兩個主題模型SBM和CS-SBM,從全局和基于特定用戶來建模網絡搜索分析。SBM主要是用于獲取網絡查詢的突發(fā)現象。CS-SBM主要添加了查詢詞和URL之間的關系,獲取了主題突發(fā)性。為了使SBM和CS-SBM可以獲取時間上的突發(fā)性,本文采用Beta分布擬合主題在時間上的變化的策略。本文還設計了一系列的實驗驗證了提出模型擁有較好的泛化能力、主題發(fā)現能力和反應主題時間上突發(fā)性的能力。本文的貢獻主要有三個方面:第一,研究了搜索引擎用戶行為分析中突發(fā)性現象;第二,提出了兩種新型的模型用來捕獲網絡搜索中各個方面的突發(fā)性;第三,通過大量的實驗驗證了模型的有效性。下一步工作中,將把這些模型運用到團購廣告投放。通過發(fā)現用戶的搜索主題,然后將同一主題下的用戶按照社團發(fā)現的規(guī)則進行分類,并進行廣告投放。
[1]SUNEHAG P. Using two-stage conditional word frequency models to model word burstiness and motivating TF-IDF[J]. Journal of machine learning reasearch, 2017, 2: 8.
[2]ELKAN C. Clustering documents with an exponential-family approximation of the Dirichlet compound multinomial distribution[C]//Proceedings of the 23rd International Conference on Machine Learning, Pittsburgh. Pennsylvania, USA, 2006: 289-296.
[3]DOYLE G, ELKAN C. Accounting for burstiness in topic models[C]//Proceedings of the 26th Annual International Conference on Machine Learning Montreal. QC, Canada, 2009: 281-288.
[4]XUE G R, ZENG H J, CHEN Z, et al. Optimizing web search using web click-through data[C]//Proceedings of the thirteenth ACM international conference on Information and Knowledge Management. Washington, USA, 2004: 118-126.
[5]GUO F, LIU C, WANG Y M. Efficient multiple-click models in web search[C]//Proceedings of the Second ACM International Conference on Web Search and Data Mining. Barcelona, Spain, 2009: 124-131.
[6]張宇, 宋巍, 劉挺, 等. 基于 URL 主題的查詢分類方法[J]. 計算機研究與發(fā)展, 2012, 49(6): 1298-1305.
ZHANG Yu, SONG Wei, LIU Ting, et al. Query classification based on url topic[J]. Journal of computer research and development, 2012, 49(6): 1298-1305.
[7]MADSEN R E, KAUCHAK D, ELKAN C. Modeling word burstiness using the dirichlet distribution[C]//Proceedings of the 22nd international conference on Machine iearning. Bonn, Germany, 2005: 545-552.
[8]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of machine learning research, 2003, 3(1): 993-1022.
[9]WANG X, MCCALLUM A. Topics over time: a non-Markov continuous-time model of topical trends[C]//Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. Philadelphia, USA, 2006: 424-433.
[10]徐戈, 王厚峰. 自然語言處理中主題模型的發(fā)展[J]. 計算機學報, 2011, 34(8): 1423-1436.
XU Ge, WANG Houfeng. The development of topic model in natural language processing[J]. Chinese journal of computers, 2011, 34(8): 1423-1436.
[11]張晨逸, 孫建伶, 丁軼群. 基于 MB-LDA 模型的微博主題挖掘[J]. 計算機研究與發(fā)展, 2011, 48(10): 1795-1802.
ZHANG Chenyi, SUN Jianling, DING Yiqun. Topic mining for microblog based on mb-lda model[J]. Journal of computer research and development, 2011, 48(10): 1795-1802.
[12]劉少鵬, 印鑒, 歐陽佳, 等. 基于 MB-HDP 模型的微博主題挖掘[J]. 計算機學報, 2015, 38(7): 1408-1419.
LIU Shaopeng, YIN Jian, OUYANG Jia, et al. Topic mining from microblogs based on MB-HDP model[J]. Chinese Journal of Computers, 2015, 38(7): 1408-1419.
[13]JIANG D, TONG Y, SONG Y. Cross-lingual topic discovery from multilingual search engine query log[J]. ACM transactions on information systems (TOIS), 2016, 35(2): 9.
[14]JIANG D, LEUNG K W T, NG W. Query intent mining with multiple dimensions of web search data[J]. World wide web, 2016, 19(3): 475.
[15]JIANG D, YANG L. Query intent inference via search engine log[J]. Knowledge and information systems, 2016, 49(2): 661-685.
[16]HUANG J, EFTHIMIADIS E N. Analyzing and evaluating query reformulation strategies in web search logs[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong, China, 2009: 77-86.
[17]GRIFFITHS T L, STEYVERS M. Finding scientific topics[J]. Proceedings of the national academy of sciences, 2004, 101(1): 5228-5235.
[18]ZHU C, BYRD R H, LU P, et al. Algorithm 778: L-BFGS-B: Fortran subroutines for large-scale bound-constrained optimization[J]. ACM transactions on mathematical software (TOMS), 1997, 23(4): 550-560.
[19]MANNING C D, RAGHAVAN P, SCHüTZE H. Introduction to information retrieval[M]. Cambridge: Cambridge University Press, 2008: 1-16.
[20]JIANG D, NG W. Mining web search topics with diverse spatiotemporal patterns[C]//Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. Dublin, Ireland, 2013: 881-884.
[21]LI W, MCCALLUM A. Pachinko allocation: DAG-structured mixture models of topic correlations[C]//Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh, USA, 2006: 577-584.
張森,男,1992年生,碩士研究生,主要研究方向為信息檢索、自然語言處理。
張晨,男,1988年生,副教授,博士,主要研究方向為眾包、數據分析與數據挖掘、機器學習。在TKD、 VLDB、 SIGMOD、 ICDE等國內外重要期刊和頂級學術會議上發(fā)表論文10余篇。
林培光,男,1978年生,副教授,博士,主要研究方向為信息檢索、海量數據處理和集成。主持教育部課題2項、山東省自然科學基金項目1項、濟南市科技局自主創(chuàng)新計劃 1 項和青年科技明星計劃 1 項,另外參與國家自然科學基金以及省部級課題多項。發(fā)表學術論文30余篇,被SCI檢索3篇,EI檢索30余篇。
Websearchtopicanalysisbasedonusersearchquerylogs
ZHANG Sen1, ZHANG Chen1,2, LIN Peiguang1, ZHANG Chunyun1, GUO Yuchao1, REN Weilong1, REN Ke2
(1. School of Computer Science amp; Technology, Shandong University of Finance amp; Economics, Jinan 250014, China; 2.Department of Computer Science amp; Engineering, Hong Kong University of Science and Technology, Hong Kong 999077, China)
Web search analysis plays a critical role in improving the performance of contemporary search engines. In addition, search engine accuracy can be improved by analyzing the individual search properties of users. Most existing models, such as the click graph and its variants, focus on the common characteristics of the group. However, as yet, there has been little investigation of a model that would obtain both the collective group characteristics and the unique characteristics of individual users. In this paper, we investigate user-specific web search analysis, whereby we obtain the topic distributions of the search queries of individual users by determining the burstiness of user searches. We propose two topic models, i.e., the search burstiness model (SBM) and the coupling-sensitive search burstiness model (CS-SBM). The SBM adopts the assumption that the query words and URL are topically independent, The CS-SBM supposes that the query words and URL are topically relevant. The obtained topic distribution information is stored in skewed Dirichlet priors and a beta distribution is used to capture the temporal properties of the user searches. Our experimental results show that each user’s web search trail has unique characteristics, and that in the case of there being a large amount of real query log data, in comparison to the latent Dirichlet allocation (LDA) and topic over time (TOT) models, our proposed models have advantages with respect to generalized performance and effectively describes the temporal change process of user search queries.
web search; search engine; natural language processing; topic model; data mining; burstiness; temporal analysis; parameter estimate
10.11992/tis.201706096
http://kns.cnki.net/kcms/detail/23.1538.TP.20171021.1349.004.html
TP391
A
1673-4785(2017)05-0668-10
中文引用格式:張森,張晨,林培光,等.基于用戶查詢日志的網絡搜索主題分析J.智能系統(tǒng)學報, 2017, 12(5): 668-677.
英文引用格式:ZHANGSen,ZHANGChen,LINPeiguang,etal.WebsearchtopicanalysisbasedonusersearchquerylogsJ.CAAItransactionsonintelligentsystems, 2017, 12(5): 668-677.
2017-07-01. < class="emphasis_bold">網絡出版日期
日期:2017-10-21.
國家自然科學基金重點項目(U1201258);山東省自然科學杰出青年基金項目(JQ201316);教育部人文社會科學研究項目(15YJAZH042).
張晨. E-mail: zhangchen.sdufe@gmail.com.