程舒楊,熊錦華,公 帥,程學(xué)旗
(中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190)
基于內(nèi)容和用戶行為的查詢聚類
程舒楊,熊錦華,公 帥,程學(xué)旗
(中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190)
現(xiàn)有方法沒(méi)有有效利用查詢文本特征、點(diǎn)擊行為和session信息來(lái)挖掘用戶的搜索意圖,獲取的查詢特征對(duì)于多意圖查詢?cè)诓煌鈭D下的區(qū)分度不足,對(duì)于多意圖查詢的相關(guān)查詢聚類效果不佳。針對(duì)以上問(wèn)題,該文提出了基于查詢圖信息的GPLSI模型,并利用該模型學(xué)習(xí)所得的查詢特征進(jìn)行查詢聚類?;诓樵儓D信息的GPLSI模型利用查詢的詞語(yǔ)、點(diǎn)擊和session共現(xiàn)現(xiàn)象,從查詢的文本特征、點(diǎn)擊行為和session信息等多個(gè)方面來(lái)模擬查詢意圖的產(chǎn)生和表現(xiàn),學(xué)習(xí)查詢?cè)诓煌阉饕鈭D上的概率分布。最后,實(shí)驗(yàn)結(jié)果驗(yàn)證了基于查詢圖信息的PLSI模型用于查詢相似度計(jì)算和多意圖查詢聚類中的有效性。
查詢聚類;多意圖查詢;搜索意圖
正確理解查詢的搜索意圖可以提供更加準(zhǔn)確、個(gè)性化的搜索服務(wù),提高搜索結(jié)果的質(zhì)量,改善用戶的搜索體驗(yàn)。傳統(tǒng)的方法通過(guò)查詢的聚類或分類來(lái)分析、歸類用戶的需求,并利用這些需求分析結(jié)果為用戶提供更加細(xì)致的查詢優(yōu)化、查詢推薦等服務(wù)。
由于多數(shù)查詢的長(zhǎng)度較短[1],用戶在查詢中所表達(dá)的搜索意圖往往是具有多義性或多需求性的。傳統(tǒng)的方法進(jìn)行多意圖查詢不同意圖下的相關(guān)查詢聚類時(shí),不能很好地區(qū)分各種意圖。查詢的文本特征、點(diǎn)擊行為和session信息從不同的方面表達(dá)了用戶的搜索意圖,傳統(tǒng)方法簡(jiǎn)單的將詞語(yǔ)的頻率、點(diǎn)擊鏈接或session信息作為查詢的特征或利用這些信息進(jìn)行查詢相似度的計(jì)算,沒(méi)有充分地挖掘包含在這些特征中的搜索意圖。在沒(méi)有考慮搜索意圖的情況下,傳統(tǒng)的查詢特征和相似度計(jì)算方法會(huì)導(dǎo)致聚類結(jié)果的偏差。為了解決這一問(wèn)題,Guo等人利用LapPLSI模型獲取查詢意圖的概率分布作為查詢特征[2]。然而,該模型沒(méi)有考慮到查詢?cè)趕ession中的共現(xiàn)所提供的信息,此外由LapPLSI模型的原理決定了該模型僅把查詢點(diǎn)擊共現(xiàn)作為一個(gè)修正數(shù)據(jù),而非模型構(gòu)建過(guò)程中EM算法的基礎(chǔ)數(shù)據(jù),不一定能達(dá)到全局最優(yōu)解。針對(duì)以上問(wèn)題,本文提出了基于查詢圖信息的PLSI模型(簡(jiǎn)稱GPLSI模型),并利用該模型學(xué)習(xí)所得的查詢特征進(jìn)行查詢聚類。GPLSI模型利用查詢的詞語(yǔ)、點(diǎn)擊和session共現(xiàn)現(xiàn)象,從查詢的文本特征、點(diǎn)擊行為和session信息等多個(gè)方面來(lái)模擬查詢意圖的產(chǎn)生和表現(xiàn),學(xué)習(xí)查詢?cè)诓煌阉饕鈭D上的概率分布。最后,我們利用實(shí)驗(yàn)結(jié)果驗(yàn)證了GPLSI模型用于查詢相似度計(jì)算和多意圖查詢聚類中的優(yōu)越性和有效性。
文章的其他部分組織結(jié)構(gòu)如下,第二部分介紹相關(guān)工作;第三部分介紹GPLSI模型、模型的擬合以及聚類算法;第四部分對(duì)實(shí)驗(yàn)過(guò)程及結(jié)果進(jìn)行說(shuō)明;最后是總結(jié)和展望。
查詢的意圖可以基于查詢目的、查詢語(yǔ)義分類或查詢需求等多個(gè)維度進(jìn)行劃分。查詢分類是根據(jù)已經(jīng)標(biāo)注好的查詢及其類別訓(xùn)練分類模型,并根據(jù)未歸類的查詢特征將其歸類到已經(jīng)設(shè)定好的類別中[3-6]。查詢聚類是對(duì)查詢或查詢相關(guān)的網(wǎng)頁(yè)之間的相似度進(jìn)行計(jì)算,采用聚類算法將相似度較高的查詢或網(wǎng)頁(yè)聚為一類,并將聚類的結(jié)果群簇作為不同搜索意圖的體現(xiàn),主要分為基于內(nèi)容的聚類[7-12]、基于點(diǎn)擊行為和session信息的聚類[13-17]、綜合內(nèi)容和行為信息的聚類[2,18-20]。
在基于內(nèi)容聚類的相關(guān)研究中,多將詞頻、tfidf 值作為檢索結(jié)果的特征,并進(jìn)行聚類。Hearst等人采用Scatter/Gather聚類方法對(duì)檢索結(jié)果URL頁(yè)面進(jìn)行文本層次的聚類[7]。Zamir等人采用STC算法對(duì)Web文檔的摘要進(jìn)行聚類[9]。這種類型的聚類方法忽略了點(diǎn)擊、session所提供的信息,不能很好的區(qū)分文本相似查詢的不同搜索意圖。
基于點(diǎn)擊行為和session信息的查詢聚類一般利用搜索日志中的查詢點(diǎn)擊和session信息來(lái)構(gòu)建查詢關(guān)系圖,利用點(diǎn)擊次數(shù)、點(diǎn)擊共現(xiàn)、session共現(xiàn)等來(lái)進(jìn)行計(jì)算點(diǎn)與點(diǎn)之間的相似度或轉(zhuǎn)移概率,并在此基礎(chǔ)上進(jìn)行聚類。Beeferman等人利用查詢與其點(diǎn)擊的URL構(gòu)建二部圖,將二部圖中點(diǎn)與點(diǎn)之間的相似度定義為其鄰居節(jié)點(diǎn)集合之間的相似度,對(duì)二部圖中的查詢節(jié)點(diǎn)和URL節(jié)點(diǎn)交替的進(jìn)行聚合[13]。Craswell等人在查詢和文檔之間構(gòu)建了點(diǎn)擊圖,并利用隨機(jī)游走算法對(duì)圖中的點(diǎn)進(jìn)行聚類[17]。這種類型的聚類方法忽略了查詢的文本摘要信息,僅采用用戶行為這一單方面的信息來(lái)進(jìn)行分析查詢之間的關(guān)系。
綜合內(nèi)容和行為信息的聚類中,部分相關(guān)工作將內(nèi)容、點(diǎn)擊和session特征進(jìn)行簡(jiǎn)單的加權(quán)作為查詢特征,或?qū)?nèi)容、點(diǎn)擊和session相似度進(jìn)行簡(jiǎn)單的加權(quán)作為查詢之間的相似度。Wen等人在對(duì)查詢進(jìn)行聚類時(shí),利用內(nèi)容相似度和點(diǎn)擊行為相似度的加權(quán)作為查詢之間的相似度[19]。Hu等人在聚類中利用查詢的點(diǎn)擊和詞語(yǔ)特性挖掘多意圖查詢的子主題,在相似度計(jì)算過(guò)程中對(duì)點(diǎn)擊、內(nèi)容和URL鏈接字符串相似度進(jìn)行加權(quán)[18]。但是對(duì)于多意圖的查詢,不同意圖的信息混合在內(nèi)容、行為信息中,不能得到很好的區(qū)分。針對(duì)這一點(diǎn),Guo等人利用查詢之間的點(diǎn)擊共現(xiàn)信息正則化PLSI模型,學(xué)習(xí)查詢意圖的概率分布,將這些概率分布作為查詢的特征,并在此基礎(chǔ)上進(jìn)行聚類[2]。
3.1 GPLSI模型
傳統(tǒng)的PLSI模型是基于隱語(yǔ)義的統(tǒng)計(jì)模型,該模型利用隱含變量來(lái)解釋數(shù)據(jù)的共現(xiàn),例如文檔和詞的共現(xiàn)[21]。假設(shè)現(xiàn)有一組文檔D={d1,d2,...,dN},文檔中包含的詞的集合為W={w1,w2,...,wM},該組文檔和詞的集合共享一組話題Z={z1,z2,...,zK}。根據(jù)似然原理,對(duì)于觀察到的文檔-單詞對(duì),我們可以獲得似然函數(shù)如式(1)所示。
(1)
如果將PLSI模型中的文檔看作查詢及其文本摘要,主題看作用戶的搜索意圖,我們就可以獲得查詢?cè)诟魉阉饕鈭D上的概率分布。查詢的文本特征、點(diǎn)擊信息和session信息從三個(gè)不同方面表現(xiàn)了用戶的搜索意圖,傳統(tǒng)的PLSI模型利用隱含變量解釋了文檔-單詞的共現(xiàn),文獻(xiàn)[2]中采用的LapPLSI模型利用查詢的點(diǎn)擊共現(xiàn)對(duì)PLSI模型進(jìn)行正則化,然而以上模型沒(méi)有考慮到查詢-查詢之間的共現(xiàn)信息。查詢-查詢之間的共現(xiàn)信息,在此指的是不同查詢具有相同的點(diǎn)擊鏈接和不同查詢出現(xiàn)在同一session中的現(xiàn)象?,F(xiàn)有的相關(guān)工作中,有許多文獻(xiàn)[13-16]、文獻(xiàn)[18-19]利用點(diǎn)擊共現(xiàn)或session共現(xiàn)來(lái)進(jìn)行查詢相似度的計(jì)算。由于點(diǎn)擊行為和session共現(xiàn)都是用戶搜索意圖的一種具體表現(xiàn),故而我們認(rèn)為不同查詢的點(diǎn)擊共現(xiàn)和session共現(xiàn)表明了用戶在搜索不同查詢時(shí)具有相同的搜索意圖,也正是這些相同的搜索意圖觸發(fā)了相同的點(diǎn)擊或驅(qū)動(dòng)用戶在同一session內(nèi)搜索了不同的查詢。
在這一假設(shè)的基礎(chǔ)上,我們構(gòu)建了GPLSI模型。假定有一包含N個(gè)查詢的集合Q={q1,...,qN},該集合中的查詢共享一組相同的K個(gè)搜索意圖S={s1,...,sK},并且該集合查詢的文本摘要中包含的詞條集合為W={w1,...,wM}。與傳統(tǒng)的PLSI模型類似(如圖1(a)所示),我們可以獲得似然函數(shù)如式(2)所示。
(2)
在文獻(xiàn)[22]中AspectModel的基礎(chǔ)上,我們考慮到查詢-查詢之間共現(xiàn)過(guò)程如下(如圖1(b)所示)。
1. 以P(sk)的概率選擇用戶的查詢意圖;
2. 在查詢意圖sk下,用戶A1以P(qi|sk)的概率搜索了查詢qi;
3. 在查詢意圖sk下,用戶A2以P(qj|sk)的概率搜索了查詢qj。
圖1 GPLSI模型圖解
那么(qi,qj)具有相同意圖的概率可以計(jì)算如式(3)所示。
(3)
我們將qi,qj具有相同的點(diǎn)擊鏈接及其出現(xiàn)在同一session的情況看作(qi,qj)同意圖共現(xiàn)的一種表現(xiàn),也就是說(shuō)假設(shè)c(qi,qj)為查詢qi,qj之間相同點(diǎn)擊的次數(shù),s(qi,qj)為查詢qi,qj出現(xiàn)在同一session中的次數(shù)(當(dāng)i=j時(shí),c(qi,qj)、s(qi,qj)均為0),那么查詢(qi,qj)的共現(xiàn)次數(shù)如式(4)所示。
(4)
其中,λs和λc分別為session共現(xiàn)次數(shù)和點(diǎn)擊共現(xiàn)次數(shù)的權(quán)重參數(shù)。
根據(jù)似然原理,對(duì)于觀察到的查詢(qi,qj)共現(xiàn)對(duì),我們可以獲得似然函數(shù)如式(5)所示。
(5)
綜合查詢-單詞共現(xiàn)似然函數(shù)(式(2))、查詢-查詢共現(xiàn)似然函數(shù)(式(5)),我們可到GPLSI模型如式(6)所示。
(6)
3.2 模型擬合
由于GPLSI模型(式(7))由兩個(gè)部分構(gòu)成,在每次E步和M步的更新都需要保證兩個(gè)部分構(gòu)成的總和不斷地增大,并最終收斂,具體如下。
E步,對(duì)隱含變量s的后驗(yàn)概率進(jìn)行計(jì)算:
(7)
(8)
3.3 聚類算法
聚類過(guò)程中,采用基于查詢意圖概率分布的cosine相似度進(jìn)行查詢相似度計(jì)算,如式(9)所示。
(9)
我們實(shí)現(xiàn)了k-means聚類算法和complete-link聚類算法[15]用于查詢聚類。
為了驗(yàn)證GPLSI模型學(xué)習(xí)所得的查詢特征能夠有效提高查詢相似度計(jì)算的準(zhǔn)確率,我們將該模型學(xué)習(xí)所得的概率特征用于相似度計(jì)算的效果,與PLSI模型、LapPLSI模型[23]進(jìn)行對(duì)比,并且將基于詞頻特征的cosine相似度和基于圖的相似度計(jì)算方法中的random-walk算法[15]作為評(píng)估基準(zhǔn)。此外,我們將GPLSI模型學(xué)習(xí)所得的查詢意圖概率分布信息用于k-means聚類和complete-link聚類中,與PLSI模型、LapPLSI模型進(jìn)行了對(duì)比。
4.1 實(shí)驗(yàn)設(shè)定
實(shí)驗(yàn)中,我們采用了某商業(yè)搜索引擎為期一個(gè)月的搜索日志,從中隨機(jī)抽取了9 938條查詢作為模型訓(xùn)練的基礎(chǔ)數(shù)據(jù)。為了比較各模型在查詢相似度計(jì)算方法上的效果,我們挑選了206個(gè)多意圖的查詢作為種子查詢,獲取搜索日志中與其有共同點(diǎn)擊的查詢,并對(duì)這些查詢基于搜索意圖進(jìn)行人工分類,對(duì)于每個(gè)種子查詢的不同搜索意圖挑選出三個(gè)查詢,由此獲得了1 581個(gè)標(biāo)注查詢。為了比較各模型在查詢聚類上的效果,采用同樣的方法,我們獲得了由91個(gè)群簇組成的433個(gè)標(biāo)注數(shù)據(jù)。最終用于模型構(gòu)建和學(xué)習(xí)的數(shù)據(jù)為12 175條查詢及其文本摘要、點(diǎn)擊數(shù)據(jù)和session信息,包含58 665個(gè)單詞、66 493條URL鏈接和371 621個(gè)session。其中,查詢文本信息是通過(guò)抽取查詢?cè)贕oogle上的搜索結(jié)果頁(yè)面的標(biāo)題和摘要而得的,點(diǎn)擊信息和session信息都是從搜索日志上獲得的。通過(guò)獲取查詢與查詢之間的點(diǎn)擊鏈接交集和session交集,我們可以獲得其點(diǎn)擊共現(xiàn)次數(shù)和session共現(xiàn)次數(shù)。
根據(jù)經(jīng)驗(yàn),我們?cè)O(shè)定GPLSI模型中的參數(shù)λs為0.1,λc為4.6;設(shè)定LapPLSI模型中,Newton-Raphson步長(zhǎng)參數(shù)為0.1,正則化參數(shù)λ為10;并且將PLSI模型、LapPLSI模型、GPLSI模型中的隱含變量個(gè)數(shù)均設(shè)為500。在聚類算法中,我們將聚類的群簇個(gè)數(shù)設(shè)為91。
4.2 評(píng)估方法
? 相似度評(píng)估指標(biāo)
假定給予一個(gè)種子查詢q及其各搜索意圖S={s1,s2,...,sK}上的標(biāo)注查詢,可采用文獻(xiàn)[24]中的兩種指標(biāo)對(duì)不同的相似度計(jì)算方法進(jìn)行評(píng)估,如式(10)、式(11)所示。
(10)
(11)
其中,IntraSim(S)指同一搜索意圖內(nèi)不同查詢的相似度,而InterSim(S)指不同搜索意圖下查詢的相似度。我們將采用下面這個(gè)指標(biāo)綜合評(píng)價(jià)查詢相似度計(jì)算結(jié)果的優(yōu)劣如式(12)所示。
(12)
? 聚類結(jié)果評(píng)估指標(biāo)
本文中,我們將采用純度指標(biāo)和NMI指標(biāo)[25]對(duì)查詢聚類結(jié)果進(jìn)行評(píng)估。
用Q,...,}表示人工標(biāo)注的查詢簇的集合,其中∈Q為標(biāo)注的包含同一意圖查詢的群簇,N代表集合Q中所有群簇包含的查詢數(shù)量。假定聚類結(jié)果為,...,},其中∈QΩ為聚類結(jié)果中的一個(gè)群簇。純度指標(biāo)和NMI指標(biāo)的取值范圍在0到1之間,聚類結(jié)果質(zhì)量越高則純度值和NMI值越高,其計(jì)算公式如式(13)、式(14)所示。
(13)
(14)
4.3 實(shí)驗(yàn)結(jié)果
? 查詢相似度實(shí)驗(yàn)結(jié)果
如圖2所示,其中cos-word代表基于文本特征的cosine相似度計(jì)算方法,random-walk代表random-walk算法,prob-PLSIprob-LapPLSIprob-GPLSI分別為采用PLSI、LapPLSI與GPLSI模型學(xué)習(xí)獲得的查詢意圖概率分布{P(sk|qi)}進(jìn)行相似度計(jì)算所得的結(jié)果。
圖2 查詢相似度計(jì)算實(shí)驗(yàn)結(jié)果
? 查詢聚類實(shí)驗(yàn)結(jié)果
如圖3所示,采用GPLSI模型學(xué)習(xí)所得的查詢意圖概率分布信息用于k-means聚類和complete-link聚類時(shí),其聚類結(jié)果的純度值和NMI值均高于PLSI模型和LapPLSI模型。從結(jié)果中可知,采用complete-link聚類方法得到的聚類結(jié)果優(yōu)于k-means方法,而且采用這兩種聚類方法對(duì)查詢進(jìn)行聚類時(shí),實(shí)驗(yàn)結(jié)果中純度越高的聚類結(jié)果,其NMI值也越高。實(shí)驗(yàn)結(jié)果中,GPLSI模型在聚類結(jié)果的純度值和NMI值上較LapPLSI模型的提高較少,主要是由于實(shí)驗(yàn)數(shù)據(jù)中查詢之間session共現(xiàn)現(xiàn)象較為稀疏,提供的信息不足所導(dǎo)致的。
針對(duì)現(xiàn)有方法在多意圖查詢聚類中的問(wèn)題,本文提出了GPLSI模型,利用該模型學(xué)習(xí)所得的查詢特征進(jìn)行查詢聚類,并利用實(shí)驗(yàn)驗(yàn)證了該模型用于查詢相似度計(jì)算和多意圖查詢聚類中的優(yōu)越性和有效性。在下一步的工作中,我們將研究不同的方式計(jì)算查詢-查詢共現(xiàn)對(duì)GPLSI模型擬合效果的影響,并對(duì)LDA模型用于查詢意圖概率計(jì)算的效果進(jìn)行研究。
圖3 k-means和complete-link聚類結(jié)果
[1]BJJansen,ASprink,TSaracevic.Reallife,realusers,andrealneeds:astudyandanalysisofuserqueriesontheweb[J].InformProcessManage, 2000, 36(2):207-227.
[2]JGuo,XCheng,GXu,etal.Intent-awarequerysimilarity[C]//ProceedingsofCIKM2011.NewYork,NY,USA:ACM, 2011:259-268.
[3]AZBroder,MFontoura,EGabrilovich,etal.Robustclassificationofrarequeriesusingwebknowledge[C]//ProceedingsofSIGIR2007.NewYork,NY,USA:ACM, 2007: 231-238.
[4]XLi,YWang,AAcero.Learningqueryintentfromregularizedclickgraphs[C]//ProceedingsofSIGIR2008.NewYork,NY,USA:ACM, 2008: 339-346.
[5]YLiu,XNi,JSun,etal.Unsupervisedtransactionalqueryclassificationbasedonwebpageformunderstanding[C]//ProceedingsofCIKM2011.NewYork,NY,USA:ACM, 2011: 57-66.
[6]XLi,YWang,DShen,etal.Learningwithclickgraphforqueryintentclassification[J].ACMTransactionsonInformationSystems, 2010, 28(3):Article12.
[7]MAHearst,JOPedersen.Reexaminingtheclusterhypothesis:scatter/gatheronretrievalresults[C]//ProceedingsofSIGIR1996.NewYork,NY,USA:ACM, 1996: 76-84.
[8]XWang,CZhai.Learnfromwebsearchlogstoorganizesearchresults[C]//ProceedingsofSIGIR2007.NewYork,NY,USA:ACM, 2007: 87-94.
[9]OZamir,OEtzioni.Webdocumentclustering:afeasibilitydemonstration[C]//ProceedingsofSIGIR1998.NewYork,NY,USA:ACM, 1998: 46-54.
[10]HJZeng,QHe,ZChen,etal.Learningtoclusterwebsearchresults[C]//ProceedingsofSIGIR2004.NewYork,NY,USA:ACM, 2004: 210-217.
[11]JCKCheung,XLi.Sequenceclusteringandlabelingforunsupervisedqueryintentdiscovery[C]//ProceedingsofWSDM2012.NewYork,NY,USA:ACM, 2012: 383-392.
[12]SVadrevu,CHTeo,SRajan,etal.Scalableclusteringofnewssearchresults[C]//ProceedingsofWSDM2011.NewYork,NY,USA:ACM, 2011: 675-684.
[13]DBeeferman,ABerger.Agglomerativeclusteringofasearchenginequerylog[C]//ProceedingsofKDD2000.NewYork,NY,USA:ACM, 2000: 407-416.
[14]HCao,DJiang,JPei,etal.Context-awarequerysuggestionbyminingclick-throughandsessiondata[C]//ProceedingsofKDD2008.NewYork,NY,USA:ACM, 2008: 875-883.
[15]ESadikov,JMadhavan,LWang,etal.Clusteringqueryrefinementsbyuserintent[C]//ProceedingsofWWW2010.NewYork,NY,USA:ACM, 2010: 841-850.
[16]TYamamoto,TSakai,MIwata,etal.Thewisdomofadvertisers:miningsubgoalsviaqueryclustering[C]//ProceedingsofCIKM2012.NewYork,NY,USA:ACM, 2012: 505-514.
[17]NCraswell,MSzummer.Randomwalksontheclickgraph[C]//ProceedingsofSIGIR2007.NewYork,NY,USA:ACM, 2007: 239-246.
[18]YHu,YQian,HLi,etal.Miningquerysubtopicsfromsearchlogdata[C]//ProceedingsofSIGIR2012.NewYork,NY,USA:ACM: 2012: 305-314.
[19]JWen,JNie,HZhang.Clusteringuserqueriesofasearchengine[C]//ProceedingsofWWW2001.NewYork,NY,USA:ACM, 2001: 162-186.
[20]LMAiello,DDonato,UOzertem,etal.Behavior-drivenclusteringofqueriesintotopics[C]//ProceedingsofCIKM2011.NewYork,NY,USA:ACM, 2011: 1373-1382.
[21]THofmann.Probabilisticlatentsemanticindexing[C]//ProceedingsofSIGIR1999.NewYork,NY,USA:ACM, 1999: 50-57.
[22]THofmann,JPuzicha.UnsupervisedLearningfromDyadicData[C]//Proceedingsofthe1998NeuralInformationProcessingSystems.Cambridge,MA,USA:TheMITPress, 1999, 11: 466-472.
[23]DCai,QMei,JHan,etal.Modelinghiddentopicsondocumentmanifold[C]//ProceedingsofCIKM2008.NewYork,NY,USA:ACM, 2008: 911-920.
[24]IBordino,CCastillo,DDonato,etal.Querysimilaritybyprojectingthequery-flowgraph[C]//ProceedingsofSIGIR2010.NewYork,NY,USA:ACM, 2010: 515-522.
[25]CDManning,PRaghavan,HSchütze. 信息檢索導(dǎo)論(第一版)[M].王斌譯.北京:人民郵電出版社,2010.
Query Clustering Based on Content and User Behavior
CHENG Shuyang, XIONG Jinhua, GONG Shuai, CHENG Xueqi
(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China)
This paper proposes a probabilistic latent semantic indexing model based on query graph (GPLSI) to learn query features for query clustering in this paper. GPLSI for query-word co-occurrence and query-query co-occurrence simulates the generation of query intent and its representation based on query text, click and session information, and learns the probability distribution of query on different intents. Experimental results illustrate GPLSI’s effectiveness in query similarity measurement and multi-intent query clustering.
query clustering; multi-intent query; query intent
程舒楊(1988—),碩士,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:shuyangcheng@gmail.com公帥(1984—),博士,主要研究領(lǐng)域?yàn)樾畔z索、機(jī)器學(xué)習(xí)。E?mail:gongdonghui@gmail.com熊錦華(1972—),博士,副研究員,主要研究領(lǐng)域?yàn)榛ヂ?lián)網(wǎng)搜索與挖掘,大規(guī)模數(shù)據(jù)處理,分布式計(jì)算。E?mail:xjh@ict.a(chǎn)c.cn
1003-0077(2016)02-0121-07
2013-06-08 定稿日期: 2013-10-09
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃(973計(jì)劃)項(xiàng)目(2014CB340406,2012CB316303,2013CB329602);國(guó)家自然科學(xué)基金(61173064);國(guó)家科技支撐計(jì)劃項(xiàng)目(2015BAK20B03);國(guó)家科技支撐計(jì)劃課題(2011BAH11B02,2012BAH39B04);國(guó)家242專項(xiàng)(2012F86)
TP391
A