宋 毅
(哈爾濱華德學(xué)院 數(shù)據(jù)科學(xué)與人工智能學(xué)院,黑龍江 哈爾濱 150025)
用戶搜索主題模型更新和學(xué)習(xí)研究工作,用戶搜索主題并非一成不變,有相關(guān)實(shí)驗(yàn)證明,用戶搜索主題隨時間變化符合一定規(guī)律,基本規(guī)律是先快后慢,先多后少,逐漸遺忘。面對興趣遺忘過程,如果興趣模型不進(jìn)行更新,將會出現(xiàn)用戶搜索主題漂移現(xiàn)象:搜索引擎使用的數(shù)據(jù)操作簡單,一般而言,只需要增、刪、改、查幾個功能,而且數(shù)據(jù)都有特定的格式,可以針對這些應(yīng)用設(shè)計出簡單高效的應(yīng)用程序。而一般的數(shù)據(jù)庫系統(tǒng)則支持大而全的功能[1-3],同時損失了速度和空間。最后,搜索引擎面臨大量的用戶檢索需求,搜索引擎在檢索程序的設(shè)計上要分秒必爭,將大運(yùn)算量工作在索引建立時完成,使檢索運(yùn)算盡量少。一般的數(shù)據(jù)庫系統(tǒng)很難承受如此大量的用戶請求,而且在檢索響應(yīng)時間和檢索并發(fā)度上都不及專門設(shè)計的索引系統(tǒng)。大型的商業(yè)搜索引擎索引都是億級甚至百億級的網(wǎng)頁數(shù)量,面對如此海量數(shù)據(jù)[4],使得數(shù)據(jù)庫系統(tǒng)很難有效的管理。個性化、智能化的檢索系統(tǒng)在獲取用戶興趣時,其目的是提取真實(shí)準(zhǔn)確的用戶興趣,同時盡量減少用戶的參與程度。不同的用戶由于不同的偏好,可能需要不同的相關(guān)搜索結(jié)果。個性化的基本構(gòu)成是模型表示和存儲用戶興趣偏好的算法[5]。個性化搜索引擎以用戶需求為前提,分析用戶上網(wǎng)特征,例如,鼠標(biāo)滾動次數(shù)、拖動滾動條次數(shù)、網(wǎng)頁瀏覽時間、保存、打印和收藏等行為。個性化服務(wù)通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣偏好,從而實(shí)現(xiàn)主動推薦的目的。個性化服務(wù)技術(shù)能充分提高搜索的服務(wù)質(zhì)量,從而吸引更多的訪問用戶。個性化服務(wù)實(shí)現(xiàn)信息找人、按需服務(wù)、信息推送和減輕用戶負(fù)擔(dān)。個性化搜索服務(wù)首先需要建立對用戶的描述,當(dāng)用戶的興趣、偏好和訪問模式等用戶信息可以很好地被系統(tǒng)理解的時候,才可能實(shí)現(xiàn)理想的個性化服務(wù)。根據(jù)用戶搜索歷史構(gòu)建用戶模型,發(fā)現(xiàn)用戶興趣偏好,即用戶興趣偏好挖掘,也就成為了個性化服務(wù)的核心和關(guān)鍵技術(shù)。對個性化服務(wù)系統(tǒng)來說,最重要的是用戶的參與,為了跟蹤用戶的興趣與行為,有必要建立用戶模型。文中用戶模型特點(diǎn):(1)可以通過搜索歷史構(gòu)建,不需要用戶主動提交信息,減小用戶額外負(fù)擔(dān),方便用戶;(2)用戶模型進(jìn)行個性化查詢擴(kuò)展,通過分類詞典自動抽取特征詞進(jìn)行擴(kuò)展,不但可以識別普通用戶興趣類別偏好,對于查詢屬于兼類的用戶興趣類別偏好能夠有效識別,解決查詢類別歧義問題;(3)用戶興趣模型能夠根據(jù)用戶搜索歷史發(fā)現(xiàn)用戶興趣,通過性能評價發(fā)現(xiàn)用戶興趣模型可以有效識別用戶興趣類別偏好,為個性化搜索機(jī)制提供了良好的條件。而且通過發(fā)現(xiàn)用戶興趣,對于分類的網(wǎng)站,實(shí)現(xiàn)個性化用戶產(chǎn)品推薦、社交網(wǎng)絡(luò)挖掘、個性化搜索排序等應(yīng)用。
不同的信息檢索模型都需要對Term的權(quán)重進(jìn)行估計。影響權(quán)重的因素包括:(1)Term頻率(term frequency,TF);(2)文檔頻率(document frequency,DF)或反文檔頻率(inverse document frequency,IDF);(3)文檔長度。TF是在一篇文檔中Term出現(xiàn)的頻率;文檔頻率是文檔集中包含該Term的文檔個數(shù);IDF可以根據(jù)log(N/df)計算,其中N為文檔集中的文檔個數(shù)[6-7]??梢赃@樣理解這三個因素,Term在一篇文檔出現(xiàn)的次數(shù)越多,這個Term就越重要,這也就是TF的作用;一個Term在某篇文檔中出現(xiàn)的次數(shù)越多,在其他文檔中出現(xiàn)的越少,這個Term的區(qū)分度越大,在這個文檔中也越重要,這也就是IDF的作用;長文檔和短文檔都包含了相關(guān)內(nèi)容,但由于長文檔還會含有不相關(guān)內(nèi)容,應(yīng)把短文檔排在前面,這也就是文檔長度的作用。
為了精確地表示用戶搜索主題,文本用特征向量去表示微博信息;文本特征向量由特征詞和對應(yīng)的權(quán)重組成,表示該詞在文檔中的重要程度。詞的特征越重要,權(quán)重越高。目前,很多研究學(xué)者通過TF-IDF表示詞的特征權(quán)重。而且TF-IDF使用很多,如式(1)所示。
(1)
TF-IDF算法考慮了特征詞在收集的全部文檔中的關(guān)系,沒有考慮特征詞在每個興趣類別文檔中的分布情況。所以權(quán)重對精確度有一些影響。
目前,特征詞權(quán)重[8]算法有一些成熟的計算方法。但是這些算法仍然有缺點(diǎn)和不足之處。許多國內(nèi)外研究人員已經(jīng)進(jìn)行了相關(guān)研究,而且有些研究人員提出了合理的先進(jìn)算法。
特征詞通過該詞所在的文檔和詞的頻率來計算,如式(2)所示。
(2)
算法:計算微博特征詞權(quán)重。
步驟1:統(tǒng)計在這段時間興趣類別里的所有內(nèi)容的微博數(shù)量N。
步驟2:首先找到特征詞集合t={t1,t2,…,tm},然后這個t被用作用戶搜索主題類別向量的候選集合。
步驟3:計算特征詞ti在第i篇文檔ni中的出現(xiàn)頻率。
步驟4:采用TF-IDF-MI方法計算特征詞在候選特征詞的權(quán)重,如式(3)所示。
wi=TFi*IDFi
(3)
用戶搜索主題模型不僅要記錄興趣內(nèi)容,而且需要記錄其他信息。例如興趣更新或者次數(shù)的創(chuàng)造和興趣權(quán)重。為了提供個性化服務(wù),如何存儲用戶搜索主題模型很重要。用戶搜索主題模型(包括長期興趣模型、短期興趣模型和混合優(yōu)劃模型)使用向量空間模型VSM表示。向量空間模型利用n維向量特征{(c1,w1),(c2,w2),(c3,w3)}來表示。每個特征向量維度表示用戶的一個興趣類別和興趣類別的擴(kuò)展興趣。VSM不僅能反映用戶搜索主題在各個類別的興趣度,而且也能通過計算向量來提供個性化推薦服務(wù)[6-7]。因此,文中用戶搜索主題模型的邏輯結(jié)構(gòu)如圖1所示。
圖中根節(jié)點(diǎn)是用戶,第二層是用戶搜索主題類別。為了更好地表示用戶搜索主題變化,該文采用了兩個用戶搜索主題樹模型,分別表示短期用戶搜索主題模型和長期用戶搜索主題模型。最后,通過短期用戶搜索主題和長期用戶搜索主題來分析用戶的最終興趣類別。實(shí)際生活中用戶搜索主題常常隨時間變化。用戶搜索主題類別也會有一些變化。隨著時間變化用戶搜索主題被認(rèn)為是用戶搜索主題漂移。因此,興趣模型應(yīng)該包括用戶搜索主題偏移的解決策略。兩個用戶搜索主題漂移模型經(jīng)常被使用:第一個是用滑動時間窗口模型表示用戶搜索主題模型。該方法非常注重用戶實(shí)時時間,忽略了性能的持久性。第二個方法是使用遺忘函數(shù)策略,忽略了發(fā)現(xiàn)新的用戶搜索主題[9-11]。該文指出現(xiàn)有用戶搜索主題模型用戶搜索主題漂移和用戶搜索主題更新的不足之處,然后提出改進(jìn)的用戶搜索主題模型策略。首先采用用戶搜索主題向量模型提出模型算法,然后分析當(dāng)前用戶的用戶搜索主題漂移策略,最后改進(jìn)用戶搜索主題模型的這些缺點(diǎn)。
圖1 用戶主題模型構(gòu)建
人的記憶力遵循自然遺忘的規(guī)律[12-16]。意味著人的記憶力隨著時間的流失會逐漸減弱。筆者認(rèn)為用戶搜索主題也遵循像用戶搜索主題遺忘規(guī)律一樣的規(guī)律。也就意味著用戶搜索主題隨著時間推移逐漸減弱。而且遺忘規(guī)律是先快后慢原則。通常用戶最新更新的興趣類別屬于短期用戶搜索主題。對于用戶搜索主題類別還沒有更新的屬于長期用戶搜索主題??梢宰屗ダ系挠脩羲阉髦黝}對象過濾。因此,該文在用戶搜索主題模型中介紹了遺忘因子的概念。當(dāng)用戶搜索主題模型更新時,用戶不僅僅在用戶搜索主題模型中添加最新的用戶搜索主題類別,而且也調(diào)整了現(xiàn)有的用戶搜索主題類別的權(quán)重。也意味著確定用戶搜索主題類別特征詞權(quán)重通過遺忘因子和逐漸消失的那些老的舊的不再使用的特征詞。
語義知識辭典擴(kuò)展方法大多在某一具體領(lǐng)域的知識辭典中應(yīng)用,將查詢串與分類字典里每一項(xiàng)進(jìn)行匹配,并進(jìn)行相應(yīng)的特征項(xiàng)的權(quán)值求和計算,權(quán)值和最大的一類就是與查詢串最相關(guān)的一類。這種方法可以較快地定位到相關(guān)類,但是分類字典里計算特征項(xiàng)的權(quán)值是以單個單詞為單位,而每個單詞可能同屬多個類,導(dǎo)致最相關(guān)類別判定錯誤,影響下步檢索結(jié)果的準(zhǔn)確度。
擴(kuò)展中詞典方法采用搜狗詞庫作為詞典。搜狗拼音輸入法可以覆蓋幾乎所有的中文詞匯,所以文中詞典使用搜狗細(xì)胞詞庫。搜狗細(xì)胞詞庫11 016個詞條,包括8個大類,49個小類。例如,體育健身:足球、籃球、健身、田徑等。每個小類下包含詞庫,例如籃球(23個詞條)、籃球明星(718詞條)、NBA球隊(duì)名(57詞條)、籃球術(shù)語(228詞條)、籃球詞匯大全(2 384詞條)、NBA球員名字(75詞條)、NBA(43詞條)和體育類專用(621詞條)等。用戶輸入的查詢首先對詞典進(jìn)行掃描,在詞典中進(jìn)行最長匹配查找過程,即輸入查詢序列,查找序列在詞典中所有最長的匹配詞條。如果有和查詢串匹配的詞,將其加入擴(kuò)展詞庫。例如,輸入查詢?yōu)樘O果,文中擴(kuò)展為:蘋果手機(jī)、蘋果11,如圖2所示。
圖2 基于詞典擴(kuò)展樣例
通過研究發(fā)現(xiàn),存在用戶查詢是不同類別的現(xiàn)象,單獨(dú)根據(jù)用戶查詢很難分清用戶感興趣的類別,所以該文將查詢進(jìn)行個性化查詢擴(kuò)展,通過查詢擴(kuò)展技術(shù),將與“蘋果”相關(guān)的兩類查詢,依據(jù)用戶搜索主題興趣相關(guān)度都擴(kuò)展進(jìn)來,然后再進(jìn)行實(shí)驗(yàn)。經(jīng)過查詢擴(kuò)展前后實(shí)驗(yàn)對比,擴(kuò)展后有效改進(jìn)了歧義類別的興趣查詢的識別問題。查詢擴(kuò)展庫樣例如表1所示。
表1 查詢擴(kuò)展庫樣例
通過查詢擴(kuò)展,查詢相關(guān)和相似的都加入查詢擴(kuò)展庫,為下一步用戶興趣模型識別用戶興趣兼類類別提供基礎(chǔ),有效改進(jìn)了用戶搜索主題的整體性能。
采用分類技術(shù)對用戶的興趣進(jìn)行挖掘,相比于用關(guān)鍵詞匹配方式,達(dá)到了模糊識別主題的效果,取得了較好的興趣挖掘結(jié)果。該文通過爬蟲爬取實(shí)驗(yàn)數(shù)據(jù),在分類過程完成之后,需要對分類效果進(jìn)行評估。平均準(zhǔn)確率和平均召回率都達(dá)到96%以上,分類效果比較理想,分類實(shí)驗(yàn)結(jié)果計算文本的類別,然后通過查詢和文檔關(guān)系以及文檔類別將用戶查詢映射到類別體系,進(jìn)而識別用戶興趣類別偏好。
興趣通過爬蟲爬取,采用微博數(shù)據(jù)。采用5 260條微博最近一段時間的,4 230有用的微博日志抽取和分析在挖掘之前,然后分別通過微博日志文本處理。首先,抽取15天的用戶數(shù)據(jù)作為短期用戶搜索主題,然后抽取30天用戶數(shù)據(jù)作為長期數(shù)據(jù)。然后,使用抽取的數(shù)據(jù)去更新短期用戶搜索主題模型,每隔15天。長期興趣模型每隔30天更新一次。實(shí)驗(yàn)分別在每個時間點(diǎn)完成。最終,長期用戶搜索主題模型和短期用戶搜索主題模型分別計算它們所占的比例。文中采用各種測試結(jié)合,短期用戶搜索主題模型和長期用戶搜索主題模型,短期興趣一般有10天,長期興趣有30天;綜合興趣顯示如圖3所示。
圖3 興趣綜合曲線
在實(shí)驗(yàn)中,模型參數(shù)選擇如下:a=0.6,b=0.4,hlper=25,hlcur=10。使用爬蟲爬取微博數(shù)據(jù)測試效率,提出改進(jìn)算法,滑動時間窗口模型、遺忘策略興趣模型。確定興趣模型比例和優(yōu)化混合性啟蒙關(guān)系;關(guān)鍵搜索性能是每次的100倍。第15個結(jié)果用戶搜索主題類別;最后興趣比例被計算。測試結(jié)果如圖4所示。
圖4 興趣度曲線
每個用戶總體興趣是個恒定常數(shù)。人的精力是有限的,用戶興趣類別偏好也是有限的,如果對某些類興趣度高,對其他類興趣度必然降低,文中關(guān)注用戶感興趣的類別。用戶整體興趣滿足固定常數(shù),也就是隨著更新學(xué)習(xí),用戶某些興趣可能由高到低遞減變化,而有些類別興趣由低到高遞增變化,但是用戶在整個類別偏好體系中興趣度總和是個恒定常數(shù),用戶興趣能夠反映用戶主題偏好。然而現(xiàn)有大部分個性化搜索引擎沒有識別用戶長期興趣和短期興趣。當(dāng)用戶更關(guān)心短期用戶搜索主題模型時,滑動窗口策略優(yōu)于遺忘策略模型;因?yàn)榛瑒哟翱谀P蛯τ陂L期用戶搜索主題模型是最差的。不僅僅開發(fā)長期和短期混合策略,而且也改變用戶搜索主題模型調(diào)整時間和興趣模型。這興趣模型影響更實(shí)際的用戶搜索主題。
首先闡述了用戶搜索主題更新學(xué)習(xí)意義和現(xiàn)有方法,基本的用戶搜索主題更新學(xué)習(xí)方法包括時間窗機(jī)制、遺忘因子更新學(xué)習(xí)和最近最少使用算法等。文中分為短期用戶搜索主題更新學(xué)習(xí)和長期用戶搜索主題更新學(xué)習(xí)。其中短期興趣學(xué)習(xí)方法采用遺忘因子進(jìn)行更新學(xué)習(xí),長期興趣更新學(xué)習(xí)方法采用最近最少使用算法進(jìn)行更新學(xué)習(xí)。用戶搜索主題模型通過更新學(xué)習(xí),能夠更好地動態(tài)識別用戶搜索主題。首先介紹了個性化搜索研究相關(guān)技術(shù)、個性化搜索關(guān)鍵技術(shù),以及個性化搜索中用戶興趣偏好學(xué)習(xí)獲取方法,基于搜索日志分析,從實(shí)驗(yàn)分析中可以看出用戶查詢滿足一定規(guī)律性。引入查詢擴(kuò)展技術(shù)進(jìn)行個性化查詢擴(kuò)展,通過查詢擴(kuò)展形成擴(kuò)展詞庫,采用基于詞典查詢擴(kuò)展方法進(jìn)行查詢擴(kuò)展。通過查詢擴(kuò)展技術(shù),解決了用戶查詢串短、用戶查詢歧義等問題。同時將查詢擴(kuò)展技術(shù)應(yīng)用在用戶興趣模型中,能夠有效識別用戶興趣類別屬于兼類的查詢,例如用戶輸入“蘋果”,事先并不知道用戶對電子產(chǎn)品的“蘋果”感興趣,還是對水果類別的“蘋果”感興趣,但是通過查詢擴(kuò)展技術(shù),將電子和水果類別相關(guān)的查詢信息擴(kuò)展,能夠清晰識別用戶查詢的意圖。因此,查詢擴(kuò)展技術(shù)為用戶興趣模型識別兼類興趣打下良好基礎(chǔ)。然后研究了用戶搜索主題模型的評價方法,包括相對誤差分析方法、傳統(tǒng)的準(zhǔn)確率方法。相對誤差值越小、查詢串分類準(zhǔn)確率越高,說明用戶搜索主題模型識別用戶搜索主題類別越準(zhǔn)確。相應(yīng)地給出實(shí)驗(yàn)分析,具體評價了用戶搜索主題模型的性能。挖掘用戶興趣主題搜索研究工作一直有學(xué)者研究。尤其是用戶興趣模型的建立工作。對于實(shí)驗(yàn)數(shù)據(jù)稀疏問題,最佳解決辦法是和大型互聯(lián)網(wǎng)公司合作,互聯(lián)網(wǎng)公司提供真實(shí)數(shù)據(jù)進(jìn)行科研。也有研究學(xué)者開發(fā)了元搜索系統(tǒng),掛在搜索系統(tǒng)上來獲取用戶上網(wǎng)習(xí)慣。通過服務(wù)器管理用戶日志,然后通過日志進(jìn)行分析用戶偏好類別,也是可行的研究方法。
總之,機(jī)遇深度學(xué)習(xí)挖掘用戶搜索主題能夠有效地為不同用戶提供個性化服務(wù),用戶不再為面對浩如煙海的信息如何進(jìn)行選擇而愁眉不展。隨著時代發(fā)展,手機(jī)、平板上網(wǎng)用戶增多,個性化服務(wù)可以由互聯(lián)網(wǎng)向手機(jī)上網(wǎng)用戶研究應(yīng)用轉(zhuǎn)變,這將是未來的研究工作熱點(diǎn)問題。