魏思怡 陳鵬 胡正凱
摘? ?要:隨著網(wǎng)絡的飛速發(fā)展,交友網(wǎng)站大量涌現(xiàn),為快節(jié)奏的單身男女提供了廣闊的交友平臺。本文在考慮現(xiàn)實交友的審美觀、門當戶對觀的基礎上,采用融合算法, 融合了基于內(nèi)容的Bayes推薦與基于用戶的KNN協(xié)同過濾兩種方法,構造了有效的評分排序模型,能夠為用戶推薦適合的交友對象。通過使用美國某大型交友網(wǎng)站的用戶數(shù)據(jù),驗證了該模型的精度。經(jīng)計算得出上述融合模型NDCG@20值高于單一方法精度,能有效地避免過擬合問題,提高了推薦精度。
關鍵詞:融合算法;Bayes;KNN;協(xié)同過濾;交友推薦
1? 引言
隨著網(wǎng)絡時代的飛速發(fā)展,各種交友網(wǎng)站層出不窮。研究國內(nèi)多數(shù)交友網(wǎng)站發(fā)現(xiàn),很多網(wǎng)站為吸引客源,追求快速匹配,基于用戶的少量特征簡單分類,無法有效處理大批質(zhì)量參差不齊的用戶信息,導致用戶間成功配對率很低,無法有效的配對交友。因此,本文設計了一套合理有效的算法,在學歷、經(jīng)濟水平、地域范圍推薦的基礎上,根據(jù)用戶的興趣偏好推薦其適合的交友對象,以期提高用戶的交友成功率。
2? 模型建立
2.1? 評價指標
交友網(wǎng)站主要關注用戶的交友成功率及準確性兩方面[1]。針對實際情況采用Normalized Discounted Cumulative Gain(NDCC)作為評價標準,定義如下:
其中DCG是根據(jù)已給評分排序后計算推薦精度的指標,如果所給評分較理想,能準確預測用戶A對于所推薦用戶的偏好排序,則此時DCG為IdealDCG。
2.2? 基于內(nèi)容的交友對象推薦
基于內(nèi)容的推薦[2]主要通過選取候選用戶的一些特征指標,計算用戶對其興趣得分??紤]到實際生活中的交友情況并結合美國大型交友網(wǎng)站eHarmony上的用戶信息初步劃分以下影響用戶產(chǎn)生關注及通信的因素有:候選用戶的受歡迎程度:用戶的頭像和昵稱;用戶和候選用戶之間的匹配度,如年齡、學歷、收入等;網(wǎng)站推薦功能。
將用戶與候選用戶之間的關注或通信作為事件的發(fā)生,變量[XA]表示用戶A是否產(chǎn)生關注或通信,變量[YB]表示候選用戶B是否被關注或有通信。計算用戶A對候選用戶B產(chǎn)生關注或通信的概率,據(jù)此對候選用戶B進行排序:
Step1:計算P([YB]=1),即候選用戶B被關注或產(chǎn)生通信的概率,主要依賴于候選用戶B的個人魅力或流行度,統(tǒng)計候選用戶B的個人流行度并定義下列函數(shù)計算此概率:
式中,分子為候選用戶B被關注或產(chǎn)生通信的次數(shù),分母為推薦用戶A的候選用戶B人數(shù),[ω1],[ω2]為平滑參數(shù)。
Step2:計算P([XA]=1|[YB]=1),通過計算用戶的收入差距及候選用戶B的流行度計算候選用戶B被關注或通信對象為用戶A的概率。
由數(shù)據(jù)分析得:所有用戶對收入的要求符合正態(tài)分布,呈現(xiàn)中間高兩邊低的規(guī)律。同時男女用戶的偏好也呈現(xiàn)不同趨勢,男性用戶普遍偏左,而女性用戶普遍偏右,因此設置男女收入差距系數(shù)[ω3],[ω4]。同時,因為被推薦次數(shù)多的候選用戶被關注和通信次數(shù)遠多于被推薦次數(shù)少的候選用戶,設置被推薦次數(shù)系數(shù)[ω5]。
2.3? 基于用戶的協(xié)同過濾
基于用戶的協(xié)同過濾思想主要是通過計算用戶之間的相似度,找到與用戶興趣偏好相似的用戶群,根據(jù)用戶群對候選用戶的評價進一步確定用戶的吸引度得分,根據(jù)得分排序候選用戶。根據(jù)交友網(wǎng)站分別給用戶[A1]、[A2]推薦的候選用戶集合的相似程度定義用戶之間的相似性:
2.4? 融合算法
融合以上兩種方法可從多個角度為用戶推薦最適合的交友人選,有效避免了單一方法的局限性可有效避免過擬合現(xiàn)象。采用加權投票算法將兩種算法分別所得NDCG@20值作為排序權值,得到加權排序序列,再次計算排序序列NDCG@20值。
3? 結果驗證與檢驗
通過調(diào)節(jié)相應參數(shù)和權重,分別計算:采用Bayes算法計算得基于內(nèi)容交友推薦的NDCG@20值為0.24844,采用KNN算法計算得基于用戶協(xié)同過濾的NDCG@20值為0.21356,融合算法計算得出NDCG@20值為0.25168,充分說明利用融合算法計算的合理性。
4? 結論
本文基于現(xiàn)實交友狀況與某大型交友網(wǎng)站的真實數(shù)據(jù),提出了融合基于內(nèi)容和基于用戶兩種推薦模型的融合算法,可有效地減少由于交友信息的龐大復雜造成的誤差,幫助用戶找到適合的交友對象,具有較高精度。模型結合審美觀、門當戶對觀念等社會婚戀觀,多重考慮IDF思想和推薦次數(shù),實現(xiàn)網(wǎng)站的智能推薦。同時發(fā)現(xiàn)基于內(nèi)容的推薦結果優(yōu)于基于用戶的協(xié)同過濾結果,說明在交友網(wǎng)站上用戶的個人魅力所占權重更大。
參考文獻:
[1] Burke R. Hybrid recommender systems: Survey and experiments[J].User modeling and user-adapted interaction,2002(4):331~370.
[2] 許海玲,吳瀟,李曉東,閻保平.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學報,2009(2):350~362.