賀雋文 邵偉 衛(wèi)剛
摘要:推薦系統(tǒng)中對多模態(tài)的數(shù)據(jù)處理方式是業(yè)界長期關注的重點,基于各類數(shù)據(jù)的特點設計模型,可以有效利用信息,從而提升推薦效率。文章針對新聞推薦系統(tǒng)提出SIA-Transformer結構,在傳統(tǒng)Transformer的基礎上結合了新聞的邊信息。通過多組內積的形式,將單詞特征與邊信息特征在多頭注意力層中進行交叉,提高了邊信息利用率的同時,也豐富了文本特征提取的語義,使得基于SIA-Transformer的新聞文本特征提取方法獲取到更多信息,從而提高了推薦的效果。文章基于微軟MSN開放的大型新聞數(shù)據(jù)集MIND進行了實驗,驗證了模型的效果。
關鍵詞:新聞推薦系統(tǒng);邊信息;多模態(tài);深度學習
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2023)01-0004-03
1 概述
隨著消費互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)的馬太效應帶來了嚴重的信息過載問題,推薦系統(tǒng)在互聯(lián)網(wǎng)平臺解決信息過載問題的過程中發(fā)揮了巨大作用。以新聞推薦系統(tǒng)為例,通常需要基于新聞內容、用戶信息以及用戶的歷史行為等特征,使用自然語言處理、統(tǒng)計機器學習、計算機視覺等技術,精準地將新聞推送給用戶。面對多模態(tài)的數(shù)據(jù),如離散型和連續(xù)型數(shù)據(jù)、文本和圖像數(shù)據(jù)、圖數(shù)據(jù)等,業(yè)界的常用做法是針對不同類型的數(shù)據(jù),分別獨立地提取數(shù)據(jù)特征。當獨立處理各模態(tài)數(shù)據(jù)時,缺乏各模態(tài)數(shù)據(jù)之間的交互與監(jiān)督,因此難以提取到各模態(tài)數(shù)據(jù)之間的關聯(lián),導致信息的損耗。
個性化新聞推薦系統(tǒng)中通常包含新聞模型與用戶模型兩大模塊,前者是基于內容理解技術提取新聞的內容和特點,后者則是基于用戶信息與歷史點擊行為來建模用戶的興趣愛好。基于協(xié)同過濾的推薦算法主要是根據(jù)用戶與商品交互記錄來進行推薦,本質上是基于用戶/商品相似度的統(tǒng)計方法。在新聞推薦系統(tǒng)中,由于新聞商品往往具有較強的時效性,因此會面臨嚴重的商品冷啟動問題。對標題、摘要等文本信息和主題、類別等邊信息的利用則是緩解商品冷啟動問題的主要辦法,也是新聞推薦系統(tǒng)中優(yōu)化文本特征提取的動機。
1.1 相關工作
現(xiàn)有主流的基于深度學習的新聞推薦系統(tǒng)通常使用自動編碼器、CNN[1](卷積神經(jīng)網(wǎng)絡)、RNN(循環(huán)神經(jīng)網(wǎng)絡)、Transformer來進行文本特征的提取。
Okura[2]等引入帶有弱監(jiān)督的自動編碼器實現(xiàn)文本特征提取,Zhang等[3]進一步使用改進的自動編碼器SDAE(stacked denoising auto-encoder) 作為文本特征提取器。An等[4]提出使用CNN網(wǎng)絡來提取新聞標題及類別中的文本特征,并在用戶興趣建模中使用GRU(Gated Recurrent Unit) 處理用戶歷史點擊的新聞稿件特征,從而實現(xiàn)對用戶的長短期興趣的建模。Lee[5]等則使用BIGRU(Bi-directional Gated Recurrent Unit) 來進行文本特征提取。Wu等[6]在用戶興趣建模中引入注意力機制,從而更好地聚合用戶的歷史點擊新聞特征。Wu等[8]則使用Transformer作為文本的特征提取器。
部分模型將邊信息引入了新聞商品的文本特征提取流程中,取得了更好的效果,如Wang等[7]在文本提取過程中引入邊信息,將新聞的類別特征也視作文本與標題中的文本拼接后再輸入3D卷積網(wǎng)絡。但此方法融合邊信息的方式過于簡單,且僅利用了文本類的邊信息。因此,面對不同類型的邊信息,對現(xiàn)有文本提取網(wǎng)絡進行優(yōu)化改進,從而在文本特征提取過程中最大程度地發(fā)揮邊信息的約束與監(jiān)督作用,是本文的改進重點。
2 模型結構
2.1 SIA-Transformer框架
如圖1所示,SIA-Transformer基于傳統(tǒng)Transformer網(wǎng)絡的編碼層,在其基礎上將邊信息引入到最核心的多頭注意力層中,邊信息類型可以包括文本信息(如用戶評論、新聞類別),圖片信息(如新聞封面、知識圖譜等),統(tǒng)一以embedding的形式輸入到多頭注意力層中。
2.2 邊信息融合
2.3 邊信息注意力權重
傳統(tǒng)Transformer認為,每個單詞的特征表示由其他單詞的V向量根據(jù)注意力權重聚合而成,注意力權重則通過由目標單詞的Q向量點乘其他單詞的K向量,再通過softmax歸一化后得到。
考慮到在不同類別的新聞文本當中,對相同單詞的關注程度是不相同的,因此本文將邊信息引入到多頭注意力層中注意力權重的計算過程中,改良后的注意力權重計算方式如圖2所示。
2.4 邊信息融合特征
3 實驗結果與分析
本文選用微軟MSN大規(guī)模數(shù)據(jù)集MIND,通過對比不同模型中分別使用傳統(tǒng)Transformer與SIA-Transformer作為文本特征提取器的效果,驗證本文中方法的有效性。實驗中使用新聞的一級與二級類別作為邊信息,選用AUC作為模型效果指標,以經(jīng)典新聞推薦模型NPA和LSTUR作為基線模型的對比結果,如表1所示。
通過實驗結果可以看到,在NPA及LSTUR中,相較于Transformer,以SIA-Transformer作為文本特征提取器,使得auc指標在驗證集上均取得了正向收益,說明了模型的有效性。
4 結束語
本文中提出的SIA-Transformer作為新聞推薦系統(tǒng)中的文本特征提取器,通過引入邊信息到多頭注意力層中,使得邊信息能夠更充分地約束與指引文本特征的提取,使得提取的單詞特征向量具有更準確與豐富的語義,在實驗中取得了較好的效果。
同時,本文中的方法也存在一些問題與待改進的方向。首先,本文中只使用了新聞的一級與二級類別邊信息,還有待于擴展到其他模態(tài)的邊信息,從而獲取到更多的信息增益,如圖像信息、知識圖譜實體映射關系等。另外,本文中邊信息作用于注意力權重及特征融合的方式較為簡單,更復雜與精巧的設計可以在將來的研究中再進一步探索。最后,提取文本特征的方法除了在Transformer的基礎上進行改進以外,還可以考慮自然語言處理領域的其他最新成果,如Bert模型,如何將其他自然語言處理領域的最新成果與新聞推薦的任務結合起來優(yōu)化模型,從而獲取到更好的推薦效果,也是未來的研究方向之一。
參考文獻:
[1] Zhang Y, Wallace B C. A sensitivity analysis of (and practitioners guide to) convolutional neural networks for sentence classification[C]//Proceedings of the Eighth International Joint Conference on Natural Language Processing.Taipei:Asian Federation of Natural Language Processing,2017:253-263.
[2] Okura S,Tagami Y,Ono S,et al.Embedding-based news recommendation for millions of users[C]// Halifax,NS,Canada:Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2017. New York:ACM,2017:1933-1942.
[3] Zhang F Z,Yuan N J,Lian D F,et al.Collaborative knowledge base embedding for recommender systems[C]// San Francisco,California,USA:Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2016. New York:ACM,2016:353-362.
[4] An Mingxiao,Wu Fangzhao,Wu Chuhan,et al.Neural News Recommendation with Long- and Short-term User Representations[J].ACL,2019(1):336-345.
[5] Lee D,Oh B,Seo S,et al.News recommendation with topic-enriched knowledge graphs[C]// Virtual Event,Ireland:Proceedings of the 29th ACM International Conference on Information & Knowledge Management,2020. New York:ACM,2020:695-704.
[6] Wu C H,Wu F Z,An M X,et al.Neural news recommendation with attentive multi-view learning[J].CoRR,2019,abs/1907.05576:3863-3869.
[7] Wang H Y,Wu F Z,Liu Z,et al.Fine-grained interest matching for neural news recommendation[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.Online.Stroudsburg,PA,USA:Association for Computational Linguistics,2020:836-845.
[8] Wu C H,Wu F Z,Huang Y F,et al.Neural news recommendation with negative feedback[J].CCF Transactions on Pervasive Computing and Interaction,2020,2(3):178-188.
【通聯(lián)編輯:唐一東】