姜宜鑫 吳杰
遼寧科技大學(xué)計(jì)算機(jī)與軟件工程學(xué)院 遼寧 鞍山 114051
對話推薦系統(tǒng)(CRS)的目標(biāo)是通過互動(dòng)對話的方式了解用戶的喜好并推薦。作為推薦系統(tǒng)重要的研究方向,具有明確獲取用戶偏好和揭示推薦原因的天然優(yōu)勢,CRS已經(jīng)成為推薦系統(tǒng)的研究熱點(diǎn)之一,并受到越來越多的關(guān)注。傳統(tǒng)的推薦系統(tǒng)和交互式推薦系統(tǒng)(IRS)主要解決推薦哪些項(xiàng)目問題,而CRS一般存在兩個(gè)核心問題,分別是問題提問的時(shí)間和內(nèi)容,通過問題的提問方式,引導(dǎo)用戶提供推薦信息。研究表明,詢問問題對CRS的推薦性能影響巨大。
根據(jù)問題設(shè)置的不同,可以將CRS相關(guān)研究分為四種。第一種使用強(qiáng)規(guī)則[1-3],解決用戶推薦中的冷啟動(dòng)問題;第二種為問題驅(qū)動(dòng)的方法[4-6],旨在向用戶提問,以獲取關(guān)于他們偏好的更多信息;第三種方法為對話理解與生成,這種方法旨在理解用戶的喜好,從他們的話語中傳遞有效的推薦信息。
神經(jīng)網(wǎng)絡(luò)中基于圖的推薦研究主要包括兩種方法。一是通過圖表示學(xué)習(xí)提高推薦性能,包括利用結(jié)構(gòu)信息進(jìn)行協(xié)同過濾;采用圖嵌入作為豐富的上下文信息。另一種將推薦建模問題轉(zhuǎn)化為路徑推理問題,以構(gòu)建可解釋的推薦系統(tǒng)。神經(jīng)網(wǎng)絡(luò)中基于圖的推薦研究主要包括兩種方法。一種是通過圖表示學(xué)習(xí)提高推薦性能,包括利用結(jié)構(gòu)信息進(jìn)行協(xié)同過濾;采用圖嵌入作為豐富的上下文信息。另一種將推薦建模問題轉(zhuǎn)化為路徑推理問題,以構(gòu)建可解釋的推薦系統(tǒng)。本文研究了基于動(dòng)態(tài)加權(quán)圖的會話推薦系統(tǒng),綜合了上述模型的優(yōu)點(diǎn),實(shí)驗(yàn)結(jié)果性能更好。
本文提出的方法主要包括:基于圖的MDP環(huán)境、圖表示學(xué)習(xí)、行動(dòng)選擇策略和深度Q-Learning網(wǎng)絡(luò)。MDP環(huán)境負(fù)責(zé)通知代理當(dāng)前狀態(tài)和可能采取的操作,然后根據(jù)當(dāng)前策略觀察用戶交互獎(jiǎng)勵(lì)代理。在形式上,MDP環(huán)境可以定義為一個(gè)元組其中表示狀態(tài)空間,為動(dòng)作空間,表示狀態(tài)轉(zhuǎn)移函數(shù),表示獎(jiǎng)勵(lì)函數(shù)。狀態(tài)空間主要為會話推薦的所有信息,包括會話歷史和所有用戶、項(xiàng)目和屬性的全圖。給定一個(gè)用戶u,主要考慮兩個(gè)元素:
MDP環(huán)境負(fù)責(zé)通知代理當(dāng)前狀態(tài)和可能采取的操作,然后根據(jù)當(dāng)前策略觀察用戶交互獎(jiǎng)勵(lì)代理。在形式上,MDP環(huán)境可以定義為一個(gè)元組其中表示狀態(tài)空間,為動(dòng)作空間,表示狀態(tài)轉(zhuǎn)移函數(shù),表示獎(jiǎng)勵(lì)函數(shù)。
結(jié)合目前的MCR研究,我們的環(huán)境包含五種獎(jiǎng)勵(lì):當(dāng)用戶接受推薦項(xiàng)時(shí)會獲得一個(gè)強(qiáng)獎(jiǎng)勵(lì);當(dāng)用戶獲得推薦項(xiàng)時(shí),獲得一個(gè)負(fù)獎(jiǎng)勵(lì);當(dāng)用戶接受詢問屬性時(shí),獲得一個(gè)次級正獎(jiǎng)勵(lì);當(dāng)用戶拒絕請求屬性時(shí),獲得一個(gè)負(fù)獎(jiǎng)勵(lì);當(dāng)達(dá)到最大回合數(shù)時(shí),獲得一個(gè)強(qiáng)消極獎(jiǎng)勵(lì)。
基于圖的MDP環(huán)境中,將會話推薦作為統(tǒng)一的策略學(xué)習(xí)問題,因此需要將會話和圖結(jié)構(gòu)信息編碼到潛在的分布式表示中。為了利用用戶、項(xiàng)目和屬性之間的相互關(guān)系,采用基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練方法,對全圖G中的所有結(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)嵌入。
將基于圖的MDP環(huán)境的當(dāng)前狀態(tài)表示為一個(gè)動(dòng)態(tài)加權(quán)圖。定義一個(gè)無向加權(quán)圖其中為圖的節(jié)點(diǎn)集合,表示邊的集合,表示節(jié)點(diǎn)集合中的每個(gè)元素,間的邊。
除了涉及的用戶、項(xiàng)目和屬性之間的相互關(guān)系,CRS還期望在當(dāng)前狀態(tài)下對會話歷史建模。與啟發(fā)式特征進(jìn)行會話歷史的研究不同,使用Transformer編碼器捕獲會話歷史記錄的順序信息,并參與決定下一個(gè)動(dòng)作的重要信息。
行為搜索空間將在很大的程度上影響策略學(xué)習(xí)的性能。處理巨大的操作空間特征非常重要。本文提出兩種簡單的策略提高候選行動(dòng)選擇的樣本效率。
對于推薦的候選項(xiàng)目,只考慮從少數(shù)最符合用戶偏好的候選項(xiàng)目中推薦,因?yàn)橛脩舨惶赡軐λ许?xiàng)目感興趣。而對于要求的候選屬性,期望屬性不僅能夠很好地消除選項(xiàng)的不確定性,而且還能編碼用戶偏好,采用加權(quán)熵作為篩選候選屬性的標(biāo)準(zhǔn)。
獲取圖表示和動(dòng)作空間后,使用深度Q-Learning網(wǎng)絡(luò)完成統(tǒng)一的對話推薦策略。根據(jù)延遲獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)假設(shè),每一個(gè)時(shí)間步都要計(jì)算對應(yīng)的獎(jiǎng)勵(lì),定義表示為狀態(tài)行動(dòng)的預(yù)期獎(jiǎng)勵(lì)。Q-network利用兩個(gè)深度神經(jīng)網(wǎng)絡(luò)計(jì)算價(jià)值函數(shù)和優(yōu)勢函數(shù)
模型學(xué)習(xí)后,給定一個(gè)用戶和他的對話歷史,遵循同樣的過程來獲得候選動(dòng)作空間和當(dāng)前狀態(tài)表示,然后根據(jù)最大間隔值Q決定下一個(gè)動(dòng)作。如果選擇的操作指向一個(gè)屬性,系統(tǒng)將詢問用戶對該屬性的偏好程度,如果選擇操作指向項(xiàng)目,則將這個(gè)項(xiàng)目推薦給用戶。
表1顯示了本文提出的方法和UNICORN方法對比,同時(shí)比較了在這些數(shù)據(jù)集上的基線模型??傮w來說,UNICORN的成功率明顯更高,平均回合數(shù)更少。對于真實(shí)的電子商務(wù)數(shù)據(jù)集,SCPR優(yōu)于EAR和CRM,它們的性能在很大程度上受到了電子商務(wù)數(shù)據(jù)集中較大的操作空間的影響。具體分析如下:
表1 不同數(shù)據(jù)集的結(jié)果
由表中的數(shù)據(jù)可以清晰的看到,本文提出的模型訓(xùn)練更加穩(wěn)定,需要更少的交互回合數(shù),就能獲得更好的性能。在這些基線模型中,SCPR曲線是最活躍的,因?yàn)樗豢紤]什么時(shí)候詢問和建議決策,而詢問和建議決策是兩個(gè)獨(dú)立的組成部分。對于EAR和CRM模型,由于前3個(gè)數(shù)據(jù)集的動(dòng)作空間較大,在模型的訓(xùn)練過程中,并沒有明顯的性能提升,甚至模型性能更差。這些結(jié)果證明了所提出的統(tǒng)一策略學(xué)習(xí)方法的有效性。為了更好地觀察不同方法的差異,表中展示了最先進(jìn)的基線SCPR的推薦成功率。值得注意的是:在所有數(shù)據(jù)集和幾乎每一次對話中,本文提出的模型性能都大大超過了這些基線模型;由于貪婪匹配推薦的方法,對會話的早期階段成功擊中目標(biāo),導(dǎo)致在前幾個(gè)回合中表現(xiàn)較強(qiáng),但是,隨著回合的增加,這個(gè)性能會迅速下降;本文提出的方法在會話的中間階段表現(xiàn)突出,此時(shí)仍然有大量的候選項(xiàng)目和屬性需要?jiǎng)h除。這種現(xiàn)象表明,本文提出的方法在不同的情況下有效處理大型候選空間的強(qiáng)大可擴(kuò)展性;SCPR在對話后期的性能越來越接近本文提出的方法,因?yàn)楹蜻x項(xiàng)和屬性集越來越小,任務(wù)變得越來越容易;EAR和CRM在具有大型候選屬性集和數(shù)據(jù)集中具有與AbsGreedy相似的性能,這表明他們的政策學(xué)習(xí)只是在遇到大的行動(dòng)空間時(shí)才會起作用。
本文提出的模型和最先進(jìn)的CRS模型相比,從電子商務(wù)數(shù)據(jù)集隨機(jī)抽樣的真實(shí)世界交互之間差異明顯。面對巨大的候選操作空間,CRM傾向于只觸發(fā)推薦組件進(jìn)行推薦,而EAR則不斷地詢問用戶不喜歡的問題。盡管SCPR在預(yù)測用戶偏好屬性方面取得了成功,但是SCPR中的策略學(xué)習(xí)只是根據(jù)候選條目數(shù)量決定何時(shí)提問或推薦,這導(dǎo)致了一些不必要或冗余的問題循環(huán)。本文提出的模型通過對下一步行動(dòng)做出全面的評估,系統(tǒng)的解決了這些問題。
本研究將3種獨(dú)立的CRS決策過程,包括何時(shí)詢問或建議、問什么和推薦什么,作為一個(gè)統(tǒng)一規(guī)則學(xué)習(xí)問題。為了解決統(tǒng)一會話推薦策略學(xué)習(xí)問題,提出一種基于動(dòng)態(tài)加權(quán)圖的自適應(yīng)RL框架。此外,本文進(jìn)一步設(shè)計(jì)了2個(gè)簡單而有效的行動(dòng)選擇策略處理樣本效率問題,實(shí)驗(yàn)結(jié)果證明,該模型的性能明顯優(yōu)于4個(gè)基準(zhǔn)數(shù)據(jù)集,并具有顯著的可擴(kuò)展性和穩(wěn)定性。