李文清
摘要:用戶興趣建模是通過(guò)對(duì)用戶的偏好信息、行為過(guò)程和背景理論等信息綜合分析并計(jì)算構(gòu)建用戶的興趣模型。用戶興趣模型的構(gòu)建是個(gè)性化信息推送應(yīng)用的關(guān)鍵環(huán)節(jié),是為用戶提供個(gè)性化服務(wù)的基礎(chǔ)部分,用戶建模的質(zhì)量直接決定著個(gè)性化推送服務(wù)水平的高低。該文依據(jù)用戶建模的流程依次對(duì)用戶數(shù)據(jù)收集、用戶模型的表示、用戶模型的學(xué)習(xí)和用戶模型的更新四個(gè)部分展開(kāi)研究,最后通過(guò)個(gè)性化推送方法進(jìn)行旅游信息推送分析。
關(guān)鍵詞:用戶偏好;興趣建模;旅游信息;個(gè)性化推薦
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)21-0155-04
用戶興趣模型的構(gòu)建實(shí)質(zhì)上是經(jīng)過(guò)收集跟用戶的興趣偏好相關(guān)的各種數(shù)據(jù)來(lái)分析用戶興趣,最終設(shè)計(jì)構(gòu)建一套計(jì)算機(jī)可識(shí)別的模型,這套模型可以精準(zhǔn)的將用戶興趣偏好表達(dá)出來(lái),并且能有效獲取其興趣的變化。在各類個(gè)性化推薦服務(wù)平臺(tái)中,只有建立準(zhǔn)確的用戶興趣模型,才能開(kāi)展下一步項(xiàng)目匹配、智能推送等相關(guān)工作。其興趣建模的過(guò)程如圖1所示:
1 用戶興趣數(shù)據(jù)收集
采集用戶的興趣偏好數(shù)據(jù)是構(gòu)建興趣模型以及個(gè)性化推薦的直接數(shù)據(jù)源,所采集到的用戶數(shù)據(jù)質(zhì)量與格式?jīng)Q定了個(gè)性化推送方法的選擇與用戶興趣建模所能達(dá)到的質(zhì)量。在抽取用戶反饋內(nèi)容方面,目前主要有兩種不同的技術(shù)手段來(lái)記錄各類用戶反饋的數(shù)據(jù)。其中一種是通過(guò)用戶直接評(píng)價(jià)項(xiàng)目來(lái)獲得用戶偏好,此類技術(shù)稱作顯式反饋技術(shù);另一種是整個(gè)過(guò)程中無(wú)需用戶的實(shí)際評(píng)價(jià)與主動(dòng)參與,通過(guò)系統(tǒng)對(duì)用戶行為過(guò)程的分析與監(jiān)視,此類技術(shù)稱作隱式反饋技術(shù),下面將逐一來(lái)分析這兩種用戶反饋技術(shù)。
(1)顯式反饋:用戶的顯式反饋主要是通過(guò)用戶自主給平臺(tái)反饋其對(duì)項(xiàng)目?jī)?nèi)容的喜好程度,用評(píng)價(jià)等級(jí)的方式來(lái)展現(xiàn),這就需要系統(tǒng)用戶積極參與評(píng)價(jià)。這樣獲取到的用戶數(shù)據(jù)比較簡(jiǎn)單易懂,并且能直接反饋出用戶對(duì)系統(tǒng)相關(guān)項(xiàng)目的喜好程度。但是,顯示反饋的明顯不足是用戶不喜歡占用太多時(shí)間和精力去反饋其對(duì)項(xiàng)目的喜好與否,一般愿意自主去評(píng)價(jià)項(xiàng)目的用戶不多。因此,能獲取到的顯示反饋數(shù)據(jù)是極其的寶貴,然而卻也十分稀疏,只能反映少部分用戶的興趣偏好,不能準(zhǔn)確獲取大部分用戶興趣偏好。目前用得比較多的顯示反饋方法,有如下三類:
①喜歡/不喜歡。這類方法簡(jiǎn)單明了,將項(xiàng)目分成兩個(gè)截然不同的評(píng)價(jià)體系,非此即彼的二進(jìn)制評(píng)價(jià)方式。
②評(píng)分。評(píng)分是指用打分的形式來(lái)評(píng)價(jià)項(xiàng)目,常見(jiàn)的有五分制和百分制等。
③文本評(píng)論。這是指通過(guò)用戶的文本信息來(lái)反饋用戶對(duì)項(xiàng)目的喜好程度,進(jìn)而分析判斷用戶興趣偏好。
(2)隱式反饋:這類數(shù)據(jù)收集過(guò)程不通過(guò)用戶的自主參與,而是系統(tǒng)根據(jù)后臺(tái)監(jiān)控的方式收集用戶的搜索次數(shù)、訪問(wèn)次序、歷史瀏覽情況、點(diǎn)擊次數(shù)等信息,進(jìn)而分析得出用戶的興趣偏好,自動(dòng)完成信息的收集,無(wú)須增加用戶的負(fù)擔(dān)。由于隱式反饋的操作過(guò)程全程不影響到用戶就能獲取到用戶對(duì)哪些項(xiàng)目感興趣,哪些項(xiàng)目不感興趣。因此隱式反饋比顯示反饋技術(shù)更可靠。但是,問(wèn)題的關(guān)鍵在于隱式反饋技術(shù)需要處理并分析大量的冗余無(wú)關(guān)數(shù)據(jù),這樣會(huì)大大加重系統(tǒng)的計(jì)算成本。
2 用戶興趣模型表示
在眾多個(gè)性化推薦系統(tǒng)中,用戶從平臺(tái)獲取到的推薦信息(項(xiàng)目)一般都可描述成一系列特征詞項(xiàng)集合。例如,在個(gè)性化旅游推薦系統(tǒng)中,用來(lái)描述旅游的特征詞項(xiàng)主要有:類別(自然、人文、歷史等)、地域(華南、華中,華北,西北,西南等)、風(fēng)格(清新、厚重等)等等。然而,目前大多數(shù)基于內(nèi)容的推薦服務(wù)系統(tǒng)中,項(xiàng)目描述主要是通過(guò)各種網(wǎng)頁(yè)中抽取出來(lái)的文本信息進(jìn)行分析,而計(jì)算機(jī)無(wú)法直接處理分析這些非結(jié)構(gòu)化描述性文本信息?;诖耍覀兺ㄟ^(guò)一種用戶模型表示的手段來(lái)將文本內(nèi)容數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別可運(yùn)算的結(jié)構(gòu)性信息。常用的用戶模型表示方法主要有以下兩種:
(1)基于關(guān)鍵詞的向量空間模型:目前絕大部分基于內(nèi)容的推薦系統(tǒng),一般會(huì)采用向量空間模型和關(guān)鍵詞匹配等方式來(lái)進(jìn)行分析表達(dá)。向量空間模型指的是將網(wǎng)頁(yè)或者系統(tǒng)中的文本內(nèi)容信息用空間多維表達(dá)的方式展現(xiàn),是現(xiàn)在使用最多的一種用戶模型表示方法。在此類模型中,文本文檔信息被理解成一系列特征項(xiàng)的集合,文本信息用空間坐標(biāo)系統(tǒng)中的不同維度來(lái)表達(dá),不同的維度代表文本集中不同的特征項(xiàng)。其簡(jiǎn)易示意圖如圖2所示:
圖2中的[di]和[dj]代表兩個(gè)不同的n維向量?;陉P(guān)鍵詞的向量空間模型表示方法最大的優(yōu)勢(shì)在于將文本內(nèi)容信息用特征項(xiàng)和權(quán)重的向量這種方式來(lái)轉(zhuǎn)換成計(jì)算機(jī)可運(yùn)算的結(jié)構(gòu)性數(shù)據(jù),并且通過(guò)不同向量之間的相關(guān)性來(lái)計(jì)算用戶興趣偏好。但是,基于關(guān)鍵詞的向量空間模型表示方法存在的嚴(yán)重不足在于沒(méi)法精準(zhǔn)獲取到用戶實(shí)質(zhì)上的興趣偏好中關(guān)于語(yǔ)義表達(dá)的信息。
(2)概率主題模型:其中心思想主要是將每一個(gè)文本信息當(dāng)作眾多主題混合分布在一起,而主題就是相應(yīng)詞項(xiàng)的概率分布。如圖3所示,將文檔信息拆分成若干主題,每個(gè)主題用相應(yīng)詞項(xiàng)的概率來(lái)表示其權(quán)重大小,其中,兩個(gè)主題信息都是和金錢(qián)以及河流存在關(guān)聯(lián)性,但是每個(gè)詞項(xiàng)的概率大小不一樣,也就是權(quán)重不同。因此,對(duì)于不同的主題,可以選出若干個(gè)不同的詞以及其概率分布來(lái)表示各個(gè)詞項(xiàng)對(duì)于主題的作用大小。
3 用戶興趣模型學(xué)習(xí)
用戶模型的學(xué)習(xí)指的是運(yùn)算分析和推理用戶數(shù)據(jù)中有價(jià)值的信息,總結(jié)歸納出對(duì)用戶興趣偏好有效的內(nèi)容,這些內(nèi)容通常以格式化的手段來(lái)表達(dá)。目前實(shí)際使用最多的模型學(xué)習(xí)算法是[TF-IDF]。
[TF-IDF]法的核心問(wèn)題是特征選擇,目前有諸多平臺(tái)和系統(tǒng)用此類方法學(xué)習(xí),比如[Amalthaea、Letizia]等。[TF-IDF]法的主要思想是把不同用戶、不同文本信息用向量的形式表達(dá),其中各個(gè)維度都是用各種特征詞項(xiàng)組合而成,而特征詞項(xiàng)在里邊所占的權(quán)重比例是根據(jù)其詞頻以及文檔的頻率來(lái)分析計(jì)算,整個(gè)過(guò)程可以分為兩個(gè)主要學(xué)習(xí)步驟:
①按照獲取的樣本數(shù)據(jù)抽取其中的文檔信息特征項(xiàng)集合[T={t1,t2,......,tn}];
②計(jì)算每個(gè)特征項(xiàng)的權(quán)重大?。ǜ怕史植迹wkj]([tk]在[dj]中的權(quán)重大小);
問(wèn)題解決的重點(diǎn)在于是提取特征,主要的可行方法有開(kāi)方檢驗(yàn)法、文檔頻率法、信息增益法等;而對(duì)于計(jì)算權(quán)重大小,可以依據(jù)統(tǒng)計(jì)分析方法來(lái)獲取,比如TF-IDF權(quán)值、詞頻權(quán)值、布爾權(quán)值等。
(1)特征項(xiàng)抽取
特征項(xiàng)的提取算法有很多種,各有利弊,目前最常用的有開(kāi)方檢驗(yàn)法與信息增益法這兩種抽取方法,下面將對(duì)這兩種方法進(jìn)行分析。
①信息增益法
信息增益法按照各個(gè)詞項(xiàng)[t]對(duì)整體分類所起到的作用大小來(lái)衡量計(jì)算出[t]的重要性程度,并進(jìn)一步對(duì)詞項(xiàng)[t]進(jìn)行取舍,這和決策樹(shù)學(xué)習(xí)分析方法中對(duì)屬性選擇比較類似。詞項(xiàng)[t]的信息增益指的是在分類過(guò)程中,有詞項(xiàng)[t]相比較沒(méi)有詞項(xiàng)[t]時(shí),對(duì)整個(gè)過(guò)程所產(chǎn)生的差別。對(duì)于文本分類,信息增益度量主要是指某詞項(xiàng)的存在與否對(duì)整個(gè)分類所產(chǎn)生的信息量差異程度,這個(gè)差異程度通過(guò)熵來(lái)進(jìn)行計(jì)算和分析,如公式(1)所示。
式中,[P(Cj)]指的是類別[Cj]的文檔信息存在于語(yǔ)料庫(kù)里的概率大小,[P(t)]指的是在語(yǔ)料庫(kù)里含有詞項(xiàng)[t]文檔的概率大小,[P(t)]指的是在語(yǔ)料庫(kù)里不含有詞項(xiàng)[t]的概率大小,[P(Cj|t)]指的是含有詞項(xiàng)[t]的信息文檔中屬于類[Cj]的條件概率,[P(Cj|t)]指的是沒(méi)有詞項(xiàng)[t]的文檔中屬于類[Cj]的條件概率。
②開(kāi)方檢驗(yàn)法
開(kāi)方檢驗(yàn)這個(gè)方法的核心思想是指對(duì)比實(shí)際值和理論值差距的大小來(lái)判斷假定的理論是否是對(duì)的。正常而言,首先對(duì)兩個(gè)變量進(jìn)行假設(shè)相互之間是不相干的,兩兩獨(dú)立,進(jìn)而去對(duì)比分析實(shí)際值和理論值之間的差距是否過(guò)大,最后確定能否接受之前的假設(shè)。當(dāng)偏差足夠小的時(shí)候,則接受之前的假設(shè),當(dāng)偏差大于某一限值時(shí)則否定之前的假設(shè),并接受備選的另一個(gè)假設(shè)。
公式中,[xi]代表實(shí)際值,[E]代表理論值。
通過(guò)分析文本分類,發(fā)現(xiàn)問(wèn)題的核心在于詞項(xiàng)[t]與類別[Cj,1≤j≤n],總共有n個(gè)類別相互之間存在一定的關(guān)聯(lián)性。如果詞項(xiàng)[t]和類別[Cj]之間不存在關(guān)聯(lián),相互獨(dú)立,則意味著詞項(xiàng)[t]對(duì)類別[Cj]不存在表征的能力,同時(shí)也說(shuō)明無(wú)法通過(guò)利用詞項(xiàng)[t]來(lái)分析判斷類別[Cj]。
(2)特征權(quán)重值計(jì)算
①布爾權(quán)重
4 用戶興趣模型更新
用戶模型是決定個(gè)性化推薦系統(tǒng)質(zhì)量好壞的重要部分,一個(gè)優(yōu)質(zhì)的個(gè)性化推薦系統(tǒng),不僅需要通過(guò)用戶興趣模型來(lái)精確的分析各用戶的興趣偏好,同時(shí)還需要實(shí)時(shí)的跟蹤并更新用戶興趣偏好的變化。用戶興趣的變化過(guò)程一般都會(huì)經(jīng)由顯式和隱式反饋兩種方式反映出來(lái),對(duì)于用戶模型的更新是需要實(shí)時(shí)自動(dòng)跟蹤反饋用戶偏好隨時(shí)間的變化過(guò)程,也就是能實(shí)時(shí)追蹤用戶興趣的轉(zhuǎn)移。目前常用的用戶興趣模型更新技術(shù)一般可以分成下面三類:(1)神經(jīng)網(wǎng)絡(luò)技術(shù);(2)自然進(jìn)化技術(shù);(3)信息增補(bǔ)技術(shù)。
5 基于用戶興趣的個(gè)性化旅游推薦
5.1 用戶興趣偏好推薦
該推薦方式表示利用核心的用戶興趣偏好信息有根據(jù)、有目的的推送給別的用戶,比如當(dāng)一個(gè)游客在某一景點(diǎn)駐留的時(shí)間過(guò)長(zhǎng),超過(guò)某一限定閾值,則意味著此游客對(duì)該旅游區(qū)域比較感興趣?;诖四軌虻贸鲇脩羝眯畔ⅲ旅鎸?duì)用戶的興趣向量進(jìn)行相關(guān)分析。
當(dāng)存在有[n]個(gè)旅游用戶,以及有[m]個(gè)興趣景點(diǎn)區(qū)域,則可以分別以用戶集[U={u1,u2,...,un}]與興趣區(qū)域集[R={r1,r2,...,rm}]來(lái)進(jìn)行表達(dá),每個(gè)旅游用戶,都存在一個(gè)對(duì)應(yīng)的興趣向量[Vi={ai1,ai2,...,aim}],并且對(duì)于所有游客的興趣向量可用n×m階矩陣的方式來(lái)表示,當(dāng)游客[ui]對(duì)區(qū)域[rj]比較有興趣,則游客在此景點(diǎn)相關(guān)區(qū)域逗留的時(shí)間超過(guò)某一限定閾值,并且對(duì)應(yīng)的興趣向量為[aij=1],當(dāng)游客對(duì)區(qū)域[rj]沒(méi)有興趣,則表示對(duì)應(yīng)的興趣向量為[aij=0]。
通過(guò)核心用戶的興趣向量,可以得出核心用戶相應(yīng)的興趣矩陣,也就是核心興趣矩陣,在該矩陣基礎(chǔ)之上,計(jì)算分析用戶的相似度。這個(gè)方法具備兩大核心優(yōu)勢(shì),首先該方法大幅度降低了計(jì)算的復(fù)雜度,其次是大幅度增加了推薦的精準(zhǔn)度。
5.2 流行景點(diǎn)推薦
5.3 上下文感知推薦
游客選擇一個(gè)或多個(gè)景點(diǎn)時(shí)通常會(huì)受到幾大因素的影響,常見(jiàn)的因素包括天氣、當(dāng)前所處地理位置以及環(huán)境上下文等等。比如,游客在搜索景點(diǎn)時(shí),通常更傾向于選擇距離相對(duì)比較近點(diǎn)的一些景點(diǎn)。按照天氣上下文可知,其對(duì)我們選擇去哪個(gè)景點(diǎn)會(huì)產(chǎn)生一定的影響。當(dāng)天氣比較晴朗舒適時(shí),我們更傾向于選擇公園,當(dāng)天氣不太好時(shí),我們更傾向于選擇去圖書(shū)館等室內(nèi)場(chǎng)所,這對(duì)在特定環(huán)境和天氣條件下,對(duì)用戶進(jìn)行推薦有一定的作用。再比如,有些景點(diǎn)只在周一至周五對(duì)游客開(kāi)放,那么在周六周日給游客推薦去此類景點(diǎn)則毫無(wú)意義。而且,不僅可以通過(guò)在線天氣服務(wù)來(lái)實(shí)時(shí)的獲取某一特定區(qū)域的天氣信息,還能獲取到該區(qū)域的歷史天氣信息。
因此,我們通過(guò)將目標(biāo)城市、用戶興趣偏好、流行景點(diǎn)和上下文感知信息這四個(gè)影響因子進(jìn)行綜合分析對(duì)游客產(chǎn)生個(gè)性化景點(diǎn)推薦。
6 結(jié)束語(yǔ)
本文從基于用戶興趣建模的個(gè)性化推薦系統(tǒng)中用到的用戶興趣建模流程和個(gè)性化推薦方法入手,將用戶興趣建模分為用戶數(shù)據(jù)收集、用戶數(shù)據(jù)模型表示、用戶數(shù)據(jù)模型學(xué)習(xí),用戶數(shù)據(jù)更新四個(gè)流程進(jìn)行分析,并對(duì)個(gè)性化旅游推薦過(guò)程中用到的用戶興趣偏好推薦、流行景點(diǎn)推薦和上下文感知推薦等方法進(jìn)行闡述,為用戶提供更加高效智能的個(gè)性化推送信息奠定理論基礎(chǔ)。
參考文獻(xiàn):
[1] 韓旭. 個(gè)性化推薦系統(tǒng)用戶興趣建模方式的研究[J].數(shù)字技術(shù)與應(yīng)用,2010(11):44-46.
[2] 付關(guān)友,朱征宇. 個(gè)性化服務(wù)中基于行為分析的用戶興趣建模[J].計(jì)算機(jī)工程與科學(xué),2005,27(12):76-78.
[3] 許波,張結(jié)魁,周軍.基于行為分析的用戶興趣建模[J].情報(bào)雜志,2009,28(6):166-169.
[4] 蔣 翀,費(fèi)紅曉. 基于線性衰減的用戶興趣建模[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(6):140-143.
[5] 張玉連,王權(quán).基于瀏覽行為和瀏覽內(nèi)容的用戶興趣建模[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),2007(6):52-55.
[6] JANNACH D, ZANKER M, FUCHS M. Constraint-based recommendation in tourism: a multi-perspective case study[J]. Journal of Information Technology and Tourism, 2009,11(2):139-155.
[7] ZHANG M, YI C, ZHANG X H, et al. Study on the recommendation technology for tourism information service[A]. ZHANG M. The Second International Symposium on Computational Intelligence and Desig[C]. New Jersey: IEEE Press, 2009. 410-415.
[8] 徐麟軍,吳飛,李伐. 學(xué)習(xí)資源個(gè)性化檢索系統(tǒng)中用戶興趣建模研究[J]. 電腦知識(shí)與技術(shù),2008(26):1788-1791.
[9] 陳抒然. 面向個(gè)性化服務(wù)的用戶興趣建模及應(yīng)用研究[D]. 重慶: 重慶大學(xué),2007.
[10] 顏端武,劉明巖,許應(yīng)楠. 基于領(lǐng)域本體的細(xì)粒度用戶興趣建模研究[J].情報(bào)學(xué)報(bào),2010,29(3):433-442.
【通聯(lián)編輯:王力】