摘要:信息過載是目前互聯(lián)網(wǎng)及電子商務(wù)發(fā)展的嚴重障礙。個性化推薦技術(shù),尤其是基于內(nèi)容的推薦技術(shù)可以很好地解決信息過載,受到了各界的關(guān)注。本文首先介紹了基于內(nèi)容的推薦技術(shù)的背景,闡述了其基本思想和方法,并分析了基于內(nèi)容的推薦技術(shù)的優(yōu)缺點,總結(jié)了基于內(nèi)容的推薦系統(tǒng)的性能評價指標,并就其未來的研究方向提出了自己的見解。
關(guān)鍵詞:推薦技術(shù);內(nèi)容;信息過載
21世紀以來,隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)正在深刻地影響大眾的生活方式。人們通過互聯(lián)網(wǎng)獲取到越來越豐富而全面的信息,為日常生活帶來了便利。然而,在海量信息帶給人們多樣的選擇的同時,也增加了獲取所需信息的難度,無法準確的選擇需要的信息。人們已經(jīng)從信息匱乏時代邁入信息過載時代。
信息過載現(xiàn)象的出現(xiàn),為信息的使用者帶來了極大的影響。面對目前大量的信息資源,如何精確、高效地幫助用戶獲取需要的信息資源,已經(jīng)成為目前網(wǎng)絡(luò)技術(shù)發(fā)展的首要任務(wù)。推薦系統(tǒng)通過隱式或顯式的方式搜集用戶的行為信息來向其推薦信息或者商品,已經(jīng)成為應(yīng)對信息過載的有效工具。目前主流的推薦技術(shù)包括協(xié)同過濾推薦技術(shù)和基于內(nèi)容的推薦技術(shù)。基于內(nèi)容的推薦技術(shù),是來源自信息檢索領(lǐng)域,主要是對產(chǎn)品的內(nèi)容等信息進行特征提取,而不是依賴于用戶的評分信息。近年來,針對基于內(nèi)容的推薦系統(tǒng)的改進也越來越多,如Zenebe在基于內(nèi)容的推薦算法中加入了模糊的有關(guān)方法。Mostafa將神經(jīng)網(wǎng)絡(luò)引入到了基于內(nèi)容的推薦算法中,進而改善了推薦的效果。
1.基于內(nèi)容的推薦算法
基于內(nèi)容的推薦算法可以應(yīng)用項目的特性和用戶的偏好,從而直觀地為用戶進行推薦。基于內(nèi)容的推薦算法的基本思想是計算用戶還沒購買的項目和當前用戶過去選擇的項目的相似度。首先根據(jù)產(chǎn)品信息構(gòu)造產(chǎn)品配置文件,其次根據(jù)用戶之前的評分、收藏、評論等用戶交互信息構(gòu)造用戶偏好配置文件。最后通過方法比較用戶與產(chǎn)品的相似度,為目標用戶提供與其過去的行為偏好相似的項目。
1.1產(chǎn)品描述模型
基于內(nèi)容的推薦算法的重點是為產(chǎn)品建立描述模型。對產(chǎn)品信息的提取包括結(jié)構(gòu)化的數(shù)據(jù),比如現(xiàn)有的項目屬性或標簽;也包括非結(jié)構(gòu)化的數(shù)據(jù),例如對新聞文章的評價或其本身的內(nèi)容。對于項目的非結(jié)構(gòu)化數(shù)據(jù)的提取可以利用TF-IDF方法來確定項目的關(guān)鍵詞。TF代表詞頻率,IDF代表逆向文件頻率。文本文檔可以通過分詞和TF-IDF來轉(zhuǎn)換成空間中的向量,空間維度對應(yīng)文檔分詞結(jié)果。
1.2用戶配置文件
利用目標用戶過去的評論、收藏、需求等行為信息構(gòu)造用戶的偏好模型。利用樸素貝葉斯分類器、聚類分析、支持向量機等統(tǒng)計方法和機器學(xué)習(xí)技術(shù)分析對數(shù)據(jù)經(jīng)過訓(xùn)練得到模型。在基于內(nèi)容的推薦算法中,如何實時更新用戶的偏好描述模型是較為困難的步驟,是目前重點研究的方向。
計算用戶偏好模型和產(chǎn)品的內(nèi)容特征模型的相似度是基于內(nèi)容的推薦算法中重要的步驟。計算相似度的方法眾多,例如向量夾角余弦方法是最為普及的方法之一。
2.基于內(nèi)容的推薦算法的優(yōu)缺點
2.1基于內(nèi)容的推薦算法的優(yōu)點是:
2.1.1推薦較為準確,思路簡單,容易理解。
2.1.2不需要用戶評分數(shù)據(jù),沒有數(shù)據(jù)稀疏影響推薦結(jié)果的問題。
2.1.3目前有較為成熟的機器學(xué)習(xí)技術(shù)提供模型的構(gòu)建和分析。
2.2基于內(nèi)容的推薦算法的缺點是:
2.2.1存在新用戶冷啟動問題。由于新用戶進入時,不能獲取到用戶的偏好信息,無法構(gòu)建用戶偏好模型。
2.2.2雖然目前文本提取技術(shù)較為成熟,但是對于多媒體資源如視頻、音樂的特征提取目前尚無較為深入的研究。
3.推薦系統(tǒng)的評價指標
如何評估一個推薦系統(tǒng)的性能至關(guān)重要。若推薦系統(tǒng)的性能可以滿足用戶的需求,就會吸引用戶的進入,從而進一步優(yōu)化推薦效果,形成良性的循環(huán)。目前評價推薦系統(tǒng)有準確率和召回率、實時性等多種指標。
3.1準確率和召回率。對于推薦結(jié)果為TopN列表的推薦系統(tǒng),衡量指標大多是利用準確率和召回率指標。準確率衡量指標是代表推薦正確的數(shù)量占推薦物品總量的比例。召回率衡量指標是指推薦正確的物品數(shù)量占推薦列表中物品數(shù)量的比例。
3.2實時性。在目前的推薦系統(tǒng)中,系統(tǒng)實時性是最為重要的評價指標之一。推薦系統(tǒng)必須以相對較快的速度更新為用戶推薦的物品列表來滿足用戶的需求。因此系統(tǒng)實時性在很大程度上對用戶的使用體驗存在影響。
4.基于內(nèi)容的推薦技術(shù)未來的發(fā)展方向
基于內(nèi)容的推薦技術(shù)從上世紀八九十年代至今經(jīng)歷了快速的發(fā)展,日漸成熟和完善。但在發(fā)展過程中,也出現(xiàn)了一些難點正待解決。這些難點都將是未來研究的重點問題。
4.1用戶偏好的獲取和項目特征提取。目前基于內(nèi)容的推薦算法使用的用戶行為信息和項目相關(guān)信息較少。對于多媒體信息、輔助信息、真實語義等信息的提取還需要不斷地研究完善。
4.2推薦安全性?;趦?nèi)容的推薦系統(tǒng)進行推薦時需要調(diào)用大量用戶及項目信息,而在個人隱私引起大家廣泛關(guān)注的今日,大量用戶并不愿意主動提供過多個人信息。因此如何得到大量用戶的行為數(shù)據(jù)用來提高推薦系統(tǒng)的效果,同時保證不被不法分子利用是未來基于內(nèi)容的推薦系統(tǒng)的研究方向之一。
4.3冷啟動問題。由于新用戶并沒有歷史偏好信息,基于內(nèi)容的推薦系統(tǒng)無法為用戶建立偏好模型。因此用戶的冷啟動問題嚴重影響著目前基于內(nèi)容的推薦系統(tǒng)的性能。雖然目前對于冷啟動有很多相關(guān)的研究,但是問題依然沒有得到解決。冷啟動問題依然需要進一步的研究改善。
參考文獻:
[1]劉瑋.電子商務(wù)系統(tǒng)中的信息推薦方法研究[J].情報科學(xué),2006,24(2):300-303.
[2]Balabanovi,Marko.Fab:content-based,collaborative recommendation[J]. Communications of the Acm,1997,40(3):66-72.
[3]蒲國林.基于內(nèi)容的個性化新聞推薦[J].四川文理學(xué)院學(xué)報,2013,9:57-60.
作者簡介:
劉明昌(1991.12- ),男,漢族,河北保定人,碩士研究生在讀,現(xiàn)就讀于河北大學(xué)管理學(xué)院,管理科學(xué)與工程專業(yè)。