王 偉, 徐平平, 王華君, 黎遠(yuǎn)松
(1.無(wú)錫太湖學(xué)院 工學(xué)院,江蘇 無(wú)錫 214064;2.東南大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 南京 211189;3.四川理工學(xué)院 計(jì)算機(jī)學(xué)院,四川 自貢 643000)
?
基于概率回歸模型和K-最近鄰的電子商務(wù)個(gè)性化推薦方案*
王偉1,徐平平2*,王華君1,黎遠(yuǎn)松3
(1.無(wú)錫太湖學(xué)院 工學(xué)院,江蘇 無(wú)錫 214064;2.東南大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 南京 211189;3.四川理工學(xué)院 計(jì)算機(jī)學(xué)院,四川 自貢 643000)
針對(duì)電子商務(wù)中個(gè)性化推薦問(wèn)題,提出一種基于概率回歸模型和K-最近鄰的電子商務(wù)個(gè)性化推薦方案.實(shí)驗(yàn)結(jié)果表明,該方案能夠準(zhǔn)確為客戶推薦所需的商品.
電子商務(wù);個(gè)性化推薦;概率回歸模型;K-最近鄰
許多學(xué)者提出了多種電子商務(wù)推薦方案.[2]提出一種基于評(píng)價(jià)特征分析的推薦方案,從眾多評(píng)價(jià)中提取特征,采用多關(guān)系矩陣分解(MRMF)來(lái)搭建用戶對(duì)于商品和特定特征觀點(diǎn)之間相關(guān)性的模型,從而預(yù)測(cè)客戶所需商品的可能性.這種方案的局限性在于沒(méi)有強(qiáng)調(diào)新用戶“不完全偏好”現(xiàn)象.為了在電子商務(wù)領(lǐng)域開(kāi)發(fā)更為有效的推薦系統(tǒng),需要充分挖掘商品評(píng)價(jià)中其他客戶有價(jià)值的評(píng)價(jià)信息,為新用戶決策提供幫助[7].
本文提出一種基于概率回歸模型(PRM)和K-最近鄰(K-NN)的電子商務(wù)個(gè)性化推薦方案,首次將概率回歸模型(PRM)用來(lái)確定整體評(píng)價(jià)和特征評(píng)價(jià)之間的關(guān)系,從文本評(píng)價(jià)中挖掘評(píng)價(jià)者的權(quán)重偏好.再利用K-NN算法,基于獲得的用戶權(quán)重偏好,定位與當(dāng)前買家具有相似權(quán)重偏好的評(píng)價(jià)者組,并給出前N名的商品推薦列表.實(shí)驗(yàn)結(jié)果表明,本文方案能夠準(zhǔn)確地給出用戶推薦.
為了生成當(dāng)前買家的精確推薦,其核心理念是:區(qū)分買家固有偏好與商品評(píng)價(jià)者間的相似性[3].其中,亟待解決的問(wèn)題有:(1)根據(jù)買家提供的評(píng)價(jià)信息來(lái)恢復(fù)評(píng)價(jià)者的多特征偏好;(2)建立當(dāng)前買家和評(píng)價(jià)者間的偏好相關(guān)性;(3)預(yù)測(cè)買家的完整偏好,并做出推薦.
本文推薦系統(tǒng)的工作流程主要由三個(gè)步驟構(gòu)成.
步驟1:對(duì)文本進(jìn)行預(yù)處理,進(jìn)行特征級(jí)意見(jiàn)挖掘,用以確定每個(gè)評(píng)價(jià)者的特征-意見(jiàn)值〈feature,opinion_value〉對(duì).意見(jiàn)(opinion)表示評(píng)價(jià)者對(duì)特征的積極、中性,或負(fù)面的評(píng)價(jià).
步驟2:利用了概率回歸模型(PRM)[4]生成評(píng)價(jià)者的權(quán)重偏好.
步驟3:根據(jù)步驟2輸出的評(píng)價(jià)者偏好權(quán)重,利用K最近鄰算法(K-NN)[5]來(lái)定位與當(dāng)前買家具有相似權(quán)重偏好的評(píng)價(jià)者組,并定位相關(guān)商品.最終返回排名前N的商品,并通過(guò)評(píng)價(jià)任務(wù)測(cè)試當(dāng)前買家的目標(biāo)選擇是否在反饋商品列表中.表1列出了文中相關(guān)符號(hào)說(shuō)明.
表1 本文所涉及的符號(hào)及含義Tab.1 The symbols and meaning involved in this paper
在推導(dǎo)評(píng)價(jià)者權(quán)重偏好前,需先對(duì)原始評(píng)價(jià)文本進(jìn)行預(yù)處理,轉(zhuǎn)化生成特征-意見(jiàn)值〈feature,opinion_value〉對(duì).本文實(shí)施兩個(gè)步驟來(lái)生成特征-意見(jiàn)對(duì).
步驟1:從評(píng)價(jià)中提取特征并對(duì)同義詞特征進(jìn)行分組.本文中使用Core-NLP包的詞性(POS)標(biāo)記來(lái)提取常見(jiàn)的名詞(和名詞短語(yǔ)),用以識(shí)別潛在的候選特征.此外,定義了種子詞集合,利用WordNet工具[6],通過(guò)計(jì)算詞匯與種子詞的相似度來(lái)對(duì)同義特征進(jìn)行分組.
步驟2:量化意見(jiàn)值.這步中,本文評(píng)估每個(gè)意見(jiàn)詞的情緒強(qiáng)度(也叫做極性值).為此,文中對(duì)每個(gè)意見(jiàn)詞s提供三種極性值:積極性、消極性和客觀性,分別記為Pos(s)、Neg(s)和Obj(s),其范圍區(qū)間從0.0到1.0,并滿足Pos(s)+Neg(s)+Obj(s)=1.然后,將三種分值綜合為單一的情感評(píng)分:Os=Neg(s)*Rmin+Pos(s)*Rmax+Obj(s)*(Rmin+Rmax)/2.其中,Rmin和Rmax分別表示最小和最大規(guī)模;設(shè)置Rmin=1、Rmax=5;Os范圍為從1到5.
在每次評(píng)價(jià)后,進(jìn)行預(yù)處理,提取〈feature,opinion_value〉.然后推導(dǎo)出對(duì)應(yīng)評(píng)價(jià)者的權(quán)重特征偏好.為此,本文基于概率回歸模型(PRM)學(xué)習(xí)單個(gè)評(píng)價(jià)者的權(quán)重,生成評(píng)價(jià)者級(jí)權(quán)重偏好.
假設(shè)當(dāng)前買家偏好為Wu,則買家評(píng)價(jià)相似度由以下公式計(jì)算得到:
式中wfl(u)為基于特征的當(dāng)前買家權(quán)重偏好fl,wfl(revi)為第i個(gè)評(píng)價(jià)者.然后檢索k個(gè)與當(dāng)前買家具有較高相似評(píng)分的評(píng)價(jià)者,并據(jù)此定位得到商品,形成商品池(product pool).商品池中的商品pj用預(yù)測(cè)評(píng)分來(lái)表示商品對(duì)當(dāng)前買家的吸引度:
PredictionScore(u,pj)=∑revi∈Ksim(Wu,Wrevi)×Rij[∑revi∈Ksim(Wu,Wrevi)]-1,
式中K表示一組(k個(gè))相似的評(píng)價(jià)者,Rij是評(píng)價(jià)者revi對(duì)商品的評(píng)價(jià)(如果沒(méi)有評(píng)價(jià)者則評(píng)價(jià)為0).具有最高預(yù)測(cè)評(píng)分的前N個(gè)商品,作為推薦商品反饋給買家.
5.1實(shí)驗(yàn)設(shè)置及數(shù)據(jù)集
實(shí)驗(yàn)中從一個(gè)電子商務(wù)網(wǎng)站上獲取筆記本電腦網(wǎng)上銷售數(shù)據(jù)集.對(duì)于每個(gè)文本,對(duì)評(píng)價(jià)者的評(píng)價(jià)分配等級(jí)為1到5星.首先清理數(shù)據(jù)集:(1)移除少于4個(gè)特征的評(píng)價(jià)(包括那些太短或沒(méi)有意義的字符);(2)移除少于10個(gè)評(píng)價(jià)的商品.清理過(guò)程確保每個(gè)評(píng)價(jià)都包含相當(dāng)量的信息,每個(gè)商品都有充分的評(píng)價(jià)用于分析.該步驟之后,筆記本電腦數(shù)據(jù)集有155臺(tái)筆記本電腦,一共6 024個(gè)評(píng)價(jià).其中,每個(gè)評(píng)價(jià)者在商品上只給出一條評(píng)價(jià).?dāng)?shù)據(jù)集的詳細(xì)信息見(jiàn)表2.
表2 筆記本電腦測(cè)試數(shù)據(jù)集參數(shù)Tab.2 The parameters of notebook computer test data set
5.2性能指標(biāo)
5.3結(jié)果分析
表3和表4分別列出了在不同推薦列表長(zhǎng)度情況下(分別為5、10和20個(gè)),筆記本數(shù)據(jù)集上各種方案的命中率和MRR的比較結(jié)果.可以看出,隨著特征數(shù)量的增加,各種方案的性能有所提高.從命中率指標(biāo)上看,本文方案性能優(yōu)于其他兩種方案,當(dāng)N=20時(shí),本文方案所生成的推薦列表的命中率為83.1%,分別比[1]和[2]方案提高了37.6%和7.6%.這是因?yàn)槲墨I(xiàn)[4]方案只是簡(jiǎn)單地使用了評(píng)價(jià)匹配值實(shí)現(xiàn)商品排名,與其他方法差距較大.[2]純粹依靠評(píng)價(jià)者提供的評(píng)價(jià)信息進(jìn)行偏好提取,這樣在稀疏評(píng)價(jià)的情況下,不可避免地存在偏見(jiàn)和過(guò)擬合現(xiàn)象,所以影響了推薦精確度.然而,本文方案基于評(píng)價(jià)者的權(quán)重偏好,利用客戶和評(píng)價(jià)者組之間的相似性預(yù)測(cè)買家未聲明的偏好,所以能夠準(zhǔn)確地給出推薦.
同樣,MRR的實(shí)驗(yàn)結(jié)果也表明了本文方案的有效性,不僅能夠提高推薦表中用戶選擇目標(biāo)命中的數(shù)量,還能提高選擇目標(biāo)在列表中排名位置,使其能夠更好地呈現(xiàn)在用戶面前.
本文提出一種基于概率回歸模型和K-最近鄰的電子商務(wù)個(gè)性化推薦方案.通過(guò)對(duì)評(píng)價(jià)數(shù)據(jù)進(jìn)行預(yù)處理,提取出每個(gè)評(píng)價(jià)者的特征-意見(jiàn)對(duì).利用概率回歸模型(PRM)生成了評(píng)價(jià)者的權(quán)重偏好.利用K-最近鄰(K-NN)算法,尋找出與當(dāng)前客戶具有相似權(quán)重偏好的評(píng)價(jià)者組,定位該評(píng)價(jià)者組相關(guān)的商品,從而生成推薦列表.在一個(gè)筆記本電腦網(wǎng)上銷售數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文方案所產(chǎn)生的推薦列表中的商品符合用戶需求的準(zhǔn)確率達(dá)到了83%.
表3 不同推薦列表長(zhǎng)度下,實(shí)驗(yàn)數(shù)據(jù)集中命中率比較Tab.3 The accuracy in experiment data set under different suggestion list length
表4不同推薦列表長(zhǎng)度下,實(shí)驗(yàn)數(shù)據(jù)集中MRR比較
Tab.4The MRR in experiment data set under different suggestion list length
方案偏好大小N=5N=10N=20[1]0.0310.0320.030[2]0.0540.0610.063本文0.0720.0760.078
[1]HUANG S L. Designing utility-based recommender systems for e-commerce: Evaluation of preference-elicitation methods[J]. Electronic Commerce Research & Applications, 2011, 10(4):398-407.
[2]KROHN-GRIMBERGHE A, DRUMOND L, FREUDENTHALER C, et al. Multi-relational matrix factorization using bayesian personalized ranking for social network data.[J]. User Behavior, 2012, 26(8):173-182.
[3]PU Q, LBATH A, HE D. Location based recommendation for mobile users using language model and skyline query[J]. International Journal of Information Technology & Computer Scien, 2012, 4(10):19-28.
[4]GRAFAREND D I E W, AWANGE D I J L. The second problem of probabilistic regression[J]. Linear & Nonlinear Models, 2012, 25(6):183-261.
[5]碩良勛, 柴變芳, 張新東. 基于改進(jìn)最近鄰的協(xié)同過(guò)濾推薦算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2015, 51(5):137-141.
[6]LI L, XIAO H, XU G. Finding related micro-blogs based on word net[J]. Lecture Notes in Computer Science, 2012, 32(4):115-122.
責(zé)任編輯:龍順潮
Personalized Recommendation Scheme Based on Probabilistic Regression Mode and K-Nearest Neighbor in E-Commerce
WANGWei1,XUPing-ping2*,WANGHua-jun1,LIYuan-song3
(1.School of Engineering, Taihu University of Wuxi, Wuxi 214064;2.School of Information Science and Engineering, Southeast University, Nanjing 211189;3.School of Computer Science, Sichuan University of Science & Engineering, Zigong 643000 China)
For the issues that the personalized recommendation in e-commerce, a personalized recommendation scheme based on probabilistic regression mode and K-nearest neighbor in e-commerce is proposed.Experimental results show that the proposed scheme can be accurate for customers to recommend the required goods.
e-commerce; personalized recommendation; probabilistic regression mode; K-nearest neighbor
2015-10-05
江蘇省高校自然科學(xué)研究項(xiàng)目(14KJB520036)
徐平平(1957-),女,江蘇 南京人,博士,教授,博士生導(dǎo)師. E-mail:wangweithu@126.com
TP391
A
1000-5900(2016)01-0097-04