• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于網(wǎng)絡(luò)購(gòu)物評(píng)論的協(xié)同過(guò)濾推薦算法

      2018-05-07 03:27:23徐文祥魏紅芹
      現(xiàn)代計(jì)算機(jī) 2018年9期
      關(guān)鍵詞:極性詞語(yǔ)協(xié)同

      徐文祥,魏紅芹

      (東華大學(xué)旭日工商管理學(xué)院,上海 200051)

      0 引言

      Web2.0下,電子商務(wù)發(fā)生了翻天覆地的變化,傳統(tǒng)的電子商務(wù)以企業(yè)為中心發(fā)布產(chǎn)品信息逐漸轉(zhuǎn)變?yōu)槠髽I(yè)與消費(fèi)者的互動(dòng),網(wǎng)絡(luò)購(gòu)物評(píng)論作為口碑的一種新形式,指的是消費(fèi)者對(duì)產(chǎn)品的質(zhì)量和服務(wù),通過(guò)短文本形式在網(wǎng)購(gòu)平臺(tái)評(píng)論系統(tǒng)中發(fā)表的評(píng)價(jià)。根據(jù)相關(guān)調(diào)查研究,網(wǎng)絡(luò)購(gòu)物評(píng)論對(duì)消費(fèi)者的決策產(chǎn)生了重要的影響。而現(xiàn)有的電子商務(wù)只是簡(jiǎn)單地根據(jù)商品的好評(píng)和差評(píng)數(shù)量幫助用戶進(jìn)行快速?zèng)Q策,并沒(méi)有考慮不同用戶的情感傾向和偏好,基于此,本文在短文本觀點(diǎn)抽取和推薦算法相關(guān)研究進(jìn)入深入分析的基礎(chǔ)上,通過(guò)挖掘評(píng)論信息中產(chǎn)品的特征和對(duì)應(yīng)的用戶觀點(diǎn),構(gòu)建產(chǎn)品特征模型和用戶偏好模型,結(jié)合修正的余弦相似度計(jì)算對(duì)傳統(tǒng)的協(xié)同過(guò)濾算法進(jìn)行改進(jìn),最終得到了融合網(wǎng)絡(luò)購(gòu)物評(píng)論的協(xié)同過(guò)濾推薦算法。

      1 相關(guān)工作

      協(xié)同過(guò)濾推薦算法可以分為基于內(nèi)存(Memorybased)的方法和基于模型(Model-based)的方法[1]。其中基于內(nèi)存[2]的方法根據(jù)研究對(duì)象的不同,又可以分為基于用戶的推薦(User-based)和基于項(xiàng)目的推薦(Item-based)兩種?;谟脩舻耐扑]是根據(jù)用戶對(duì)項(xiàng)目打分等數(shù)據(jù),計(jì)算目標(biāo)用戶與其他用戶的相似度,再尋找與目標(biāo)用戶最為接近的Top-k個(gè)相似用戶,對(duì)于目標(biāo)用戶未曾打分的物品用相似用戶的歷史打分?jǐn)?shù)據(jù)進(jìn)行加權(quán)打分,最后根據(jù)物品的打分進(jìn)行排序得到一個(gè)推薦結(jié)果列表給目標(biāo)用戶?;陧?xiàng)目的協(xié)同過(guò)濾與基于用戶的協(xié)同過(guò)濾相似,不同是將最近鄰搜索從用戶整體空間轉(zhuǎn)換到項(xiàng)目空間上,大大地改善了傳統(tǒng)基于用戶算法的計(jì)算瓶頸,但是這兩者都無(wú)法解決推薦系統(tǒng)冷啟動(dòng)問(wèn)題。為了解決用戶冷啟動(dòng)和項(xiàng)目冷啟動(dòng)問(wèn)題,相關(guān)學(xué)者提出了基于模型的協(xié)同過(guò)濾推薦算法,其主要思想是用基礎(chǔ)的協(xié)同過(guò)濾從歷史數(shù)據(jù)中訓(xùn)練出一個(gè)模型,再通過(guò)訓(xùn)練出來(lái)的模型進(jìn)行預(yù)測(cè)。

      網(wǎng)絡(luò)評(píng)論數(shù)據(jù)屬于非結(jié)構(gòu)化的文本信息,主要由評(píng)論者、評(píng)論的對(duì)象、評(píng)論內(nèi)容、評(píng)價(jià)者觀點(diǎn)四個(gè)部分組成。大部分的研究工作主要為產(chǎn)品特征提取和情感分析以及極性分析,涉及到的相關(guān)學(xué)科領(lǐng)域知識(shí)有信息檢索知識(shí)、自然語(yǔ)言的處理、機(jī)器學(xué)習(xí)等。

      挖掘評(píng)論信息中用戶感興趣的產(chǎn)品特征分為兩種[3],一種是顯性的特征,如:“整體用著還不錯(cuò),開(kāi)機(jī)速度挺快的,十幾秒。”其中“整體”、“開(kāi)機(jī)速度”可以自己從評(píng)論語(yǔ)句中提取出來(lái)的為顯性特征;一類為隱形特征,如“機(jī)器顏色很好看,攜帶很方便,不過(guò)手部有油,留的痕跡也很明顯?!逼渲小邦伾敝傅氖鞘謾C(jī)的外觀,而“攜帶很方便”討論的是手機(jī)的尺寸,但是這些特征都不能夠直接從評(píng)論語(yǔ)句中獲得,只能根據(jù)上下文語(yǔ)境進(jìn)行語(yǔ)義分析獲取。產(chǎn)品的顯性特征挖掘,常用的方法有監(jiān)督式和非監(jiān)督式算法[4]。隱性方面的特征詞挖掘需要對(duì)評(píng)論語(yǔ)句進(jìn)行深刻的語(yǔ)義理解[4]。觀點(diǎn)挖掘的算法主要分為:基于規(guī)則的抽取、基于統(tǒng)計(jì)模型提取和基于深度模型的提取方法[4]。

      在結(jié)合評(píng)論挖掘的推薦方面,藍(lán)金炯[5]運(yùn)用LDA模型挖掘評(píng)論主題分布,利用Rocchio算法得到了用戶的主題分布向量,改進(jìn)了協(xié)同過(guò)濾推薦。那日薩[6]等運(yùn)用構(gòu)建產(chǎn)品屬性與推薦度模糊規(guī)則,實(shí)現(xiàn)了個(gè)性化產(chǎn)品推薦計(jì)算。扈中凱利用相似度傳遞技術(shù)環(huán)節(jié)了緩解了推薦系統(tǒng)中數(shù)據(jù)稀疏性問(wèn)題。

      2 整體框架

      本節(jié)主要針對(duì)網(wǎng)絡(luò)評(píng)論挖掘和改進(jìn)的個(gè)性化推薦模型進(jìn)行實(shí)驗(yàn)研究,實(shí)驗(yàn)思路和過(guò)程如圖1所示,首先從收集評(píng)論數(shù)據(jù);接著對(duì)收集的評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理;隨后就是從評(píng)論語(yǔ)句中挖掘產(chǎn)品特征集、觀點(diǎn)識(shí)別、極性判斷和計(jì)算;然后對(duì)評(píng)論挖掘的結(jié)果進(jìn)行分析,改進(jìn)協(xié)同過(guò)濾推薦算法,構(gòu)建產(chǎn)品特征模型和用戶偏好模型,產(chǎn)生推薦。

      圖1 基于網(wǎng)絡(luò)購(gòu)物評(píng)論的產(chǎn)品推薦框架

      3 融合用戶評(píng)論挖掘的協(xié)同過(guò)濾推薦算法

      3.1 評(píng)論數(shù)據(jù)預(yù)處理

      (1)關(guān)鍵詞過(guò)濾

      網(wǎng)絡(luò)評(píng)論數(shù)據(jù)充滿著大量無(wú)用的垃圾信息,例如廣告、推廣等,例如評(píng)論中出現(xiàn)通知、公告、簡(jiǎn)訊、快訊等詞語(yǔ),可以通過(guò)建立關(guān)鍵詞過(guò)濾詞典,進(jìn)行去噪。

      (2)句式過(guò)濾

      消費(fèi)者發(fā)表的評(píng)論往往都帶有一定的感情色彩,句型一般要不為感嘆句,要不就是陳述語(yǔ)氣,很少有疑問(wèn)句或者反問(wèn)句式對(duì)商品進(jìn)行評(píng)價(jià),針對(duì)于這種情況,可以判斷如果評(píng)論語(yǔ)句中包含了“?”等表示疑問(wèn)的標(biāo)點(diǎn)符號(hào),可以直接從評(píng)論集中過(guò)濾掉。

      (3)冗余消除

      另外,經(jīng)常在購(gòu)物網(wǎng)站中會(huì)發(fā)現(xiàn)有些評(píng)論是完全一模一樣,基于某中原因,有的是出自同一個(gè)評(píng)論者,或者不同的評(píng)論者,對(duì)于研究是沒(méi)有用處的,所以也可以去掉這些重復(fù)的評(píng)論,保證了評(píng)論的唯一性。

      3.2 特征情感詞語(yǔ)對(duì)提取

      定義 1:用戶評(píng)論數(shù)據(jù)集 R={r1,r2,…,rn},r={s1,s2,…,sm},評(píng)論數(shù)據(jù)集由所有的用戶評(píng)論組成,每一條評(píng)論包含多個(gè)句子。

      定義2:特征情感詞語(yǔ)對(duì)由<Fword,Oword,Mword,Is?Neg>表示,其中Fword表示特征指示詞語(yǔ),一般為名詞或名詞詞組,Oword表示情感詞語(yǔ),一般為形容詞,Mword為情感修飾詞語(yǔ),一般為程度副詞,IsNeg代表否定詞,若句中含有否定詞語(yǔ),則情感的極性要取反。

      本文基于詞性抽取評(píng)論中的產(chǎn)品特征和用戶觀點(diǎn),首先要對(duì)評(píng)論中的句子進(jìn)行分詞和詞性標(biāo)注(part of speech)。通過(guò)建立產(chǎn)品特征詞語(yǔ)庫(kù)FDict進(jìn)行過(guò)濾,特征情感詞語(yǔ)對(duì)提取步驟如下:

      步驟1:迭代每條評(píng)論r,對(duì)r分句,分句后對(duì)每條句子s分詞和標(biāo)注詞性;

      步驟2:抽取句子s中的名詞詞語(yǔ)N,如N存在于FDict中,則將 N存入 Fword中,不存在,則 Fword置為NULL;

      步驟3:抽取句子s中中的形容詞ADJ,若包含一個(gè)或多個(gè),則將 ADJ存入 Oword中,否則 Oword置為NULL;

      步驟4:抽取句子中程度修飾副詞ADV,若ADV不存在,則Mword置為NULL,否則將ADV存入Mword中;

      步驟 5:尋找否定詞語(yǔ)NEG,若存在,則IsNeg=true,否則,IsNeg=Flase;

      步驟6:將抽取的結(jié)果按照<Rid,Sid,Fword,Oword,Mword,IsNeg>存放,其中Rid表示評(píng)論編號(hào),Sid表示評(píng)論的句子編號(hào)。

      3.3 情感極性計(jì)算

      本文基于HowNet情感字典構(gòu)建電子產(chǎn)品領(lǐng)域的極性字典。極性判定詞典的詞性分為3類:褒義(Posi?tive)、貶義(Negative)、中性(Neutral),這 3類詞語(yǔ)極性的取值(Pvalue)為 positive、negative、neutral、unknown,其中Spos、Sneg和Sneu分別表示褒義詞集合,貶義詞集合和中性詞集合。unk為未登錄詞,不在這3個(gè)集合中,需要通過(guò)一定的方法進(jìn)行判斷。本文計(jì)算未登錄詞的極性采用SO-PMI算法。

      PMI(Pointwise Mutual Information),中文全稱點(diǎn)互信息,常用于機(jī)器學(xué)習(xí)領(lǐng)域,是計(jì)算兩個(gè)事物之間的相關(guān)性,計(jì)算公式(1)如下:

      如果x與y不相關(guān),則上式為零,若x與y相關(guān)性越大,則上式就越大。

      本文通過(guò)建立極性詞典,通過(guò)信息檢索的方式,分別求出未登錄詞與極性詞典里面的正向詞和負(fù)向詞的PMI,若正向的PMI值大,則未登錄詞判定為正向,否則判定為負(fù)向。SO-PMI計(jì)算公式(2)如下:

      如果 SO(unk)為正,則極性為 Positive,否則,極性為Negative

      極性強(qiáng)度strength(w)計(jì)算公式如公式(5)所示。

      公式(3)中V表示情感詞語(yǔ)原始極性,公式(4)中L1,L2,L3,L4,L5,L6分別代表 HowNet中程度修飾副詞不同的六個(gè)等級(jí)。

      3.4 用戶偏好模型構(gòu)建

      傳統(tǒng)的協(xié)同過(guò)濾推薦算法只考慮到了用戶評(píng)分之間的相似性,本文通過(guò)抽取用戶在產(chǎn)品特征層面的興趣偏好,通過(guò)用戶偏好來(lái)修正基于用戶的協(xié)同過(guò)濾推薦算法。

      定義:用戶的關(guān)注偏好可以用向量來(lái)表示Pij={pij1,pij2,…,pijk},其中 pijk表示用戶i對(duì)產(chǎn)品j的第K個(gè)特征的偏好程度。對(duì)于用戶共同評(píng)價(jià)的項(xiàng)目可以用用戶-產(chǎn)品特征矩陣如圖2所示:

      圖2 用戶-產(chǎn)品特征矩陣

      傳統(tǒng)的余弦相似度計(jì)算,不能反映出不同的用戶對(duì)不同的產(chǎn)品的主觀評(píng)價(jià)尺度,往往會(huì)導(dǎo)致沒(méi)有相同的興趣愛(ài)好的用戶錯(cuò)誤的聚類在一起,產(chǎn)生了不相關(guān)的推薦,為了克服不同用戶主觀差異帶來(lái)的問(wèn)題,本文在原來(lái)相似度的基礎(chǔ)上,減去原來(lái)用戶對(duì)所有項(xiàng)目的平均得分作為用戶對(duì)產(chǎn)品的新評(píng)分,其改進(jìn)的余弦相似度計(jì)算公式如下所示,其中-Ra和-Rb表示用戶a和用戶b對(duì)產(chǎn)品的所有屬性的平均得分。

      3.5 評(píng)分預(yù)測(cè)產(chǎn)生推薦

      在協(xié)同過(guò)濾推薦算法中,通過(guò)K個(gè)最近鄰用戶預(yù)測(cè)目標(biāo)用戶對(duì)未評(píng)分的項(xiàng)目進(jìn)行評(píng)分預(yù)測(cè)。

      其中Puif表示用戶u對(duì)產(chǎn)品i的第j個(gè)特征的預(yù)測(cè)評(píng)分,U表示K個(gè)相似用戶集合,表示K個(gè)相似用戶的平均評(píng)分。Sim(u,m)表示用戶u和用戶m的相似度。

      根據(jù)上式對(duì)目標(biāo)用戶未評(píng)分的項(xiàng)目進(jìn)行預(yù)測(cè)評(píng)分,再與用戶的實(shí)際評(píng)分進(jìn)行比較,最后可以得出該模型的精確,并將評(píng)分按照從大到小進(jìn)行排序,產(chǎn)生推薦結(jié)果。

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 數(shù)據(jù)來(lái)源

      本文數(shù)據(jù)來(lái)自于京東電子商務(wù)平臺(tái)的手機(jī)評(píng)論數(shù)據(jù),通過(guò)運(yùn)用網(wǎng)頁(yè)采集技術(shù),一共爬取了100款手機(jī)共300,000評(píng)論數(shù)據(jù)。通過(guò)建立手機(jī)特征詞語(yǔ)庫(kù)和手機(jī)領(lǐng)域極性詞典,經(jīng)過(guò)數(shù)據(jù)清洗,一共提取了564個(gè)用戶對(duì)57款手機(jī)的12,148條評(píng)論。

      實(shí)驗(yàn)采用交叉驗(yàn)證,隨機(jī)提取75%的數(shù)據(jù)作為訓(xùn)練集TrainSet,剩下的作為測(cè)試集TestSet,驗(yàn)證模型的精確度。

      4.2 評(píng)價(jià)標(biāo)準(zhǔn)

      推薦算法的評(píng)價(jià)公式一般驗(yàn)證采用平均絕對(duì)誤差,其公式(8)如下所示:

      其中Ra表示用戶的實(shí)際評(píng)分,pa表示預(yù)測(cè)得分。

      4.3 結(jié)果分析

      通過(guò)設(shè)定不同的相似用戶的數(shù)量,比較本文算法同傳統(tǒng)協(xié)同過(guò)濾算法的MAE比較。結(jié)果如圖3所示。從圖中可以,橫坐標(biāo)為相似用戶選取數(shù)量,取值從15-30,縱坐標(biāo)表示MAE值,系列1表示本文改進(jìn)的協(xié)同過(guò)濾算法,系列2表示傳統(tǒng)的協(xié)同過(guò)濾算法,結(jié)果表明,本文的算法評(píng)分預(yù)測(cè)精確度要高于傳統(tǒng)的協(xié)同過(guò)濾推薦算法。

      圖3 本文算法與傳統(tǒng)協(xié)同過(guò)濾算法MAE比較

      5 結(jié)語(yǔ)

      本文提出了融合網(wǎng)絡(luò)購(gòu)物評(píng)論的協(xié)同過(guò)濾推薦算法,通過(guò)對(duì)挖掘評(píng)論中的特征觀點(diǎn)詞對(duì),得到了用戶在產(chǎn)品特征層面的偏好程度,改善了用戶的偏好模型的質(zhì)量,同時(shí),在用戶相似度計(jì)算方面,修正了傳統(tǒng)余弦相似度未考慮不同用戶主觀評(píng)價(jià)尺度不同的問(wèn)題,通過(guò)減去用戶的平均得分,得到用戶的新評(píng)分,在一定程度上解決了用戶主觀評(píng)價(jià)帶來(lái)的不足。最后通過(guò)預(yù)測(cè)用戶的評(píng)分進(jìn)行排序產(chǎn)生推薦結(jié)果,實(shí)驗(yàn)結(jié)果,表明,本文的推薦算法較傳統(tǒng)的給予用戶的推薦算法推薦精度有明顯的提高。

      本文的不足在于未考慮用戶其他的歷史行為數(shù)據(jù),只將評(píng)論作為模型的數(shù)據(jù)源,在實(shí)際的推薦系統(tǒng)中,建模的數(shù)據(jù)會(huì)是來(lái)自多個(gè)層面的,推薦的數(shù)據(jù)源選取還有待更進(jìn)一步的研究。在評(píng)論特征挖掘方面,本文只針對(duì)了顯性特征的抽取,對(duì)于隱性特征的提取,本文沒(méi)有涉及,隱形特征對(duì)于產(chǎn)品特征建模同樣的重要,后期還有待進(jìn)一步完善。

      參考文獻(xiàn):

      [1]Breese J S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C].Fourteenth Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc,1998:43-52.

      [2]Gong S J,Ye H W,Tan H S.Combining Memory-Based and Model-Based Collaborative Filtering in Recommender System[C].Circuits,Communications and Systems,2009.PACCS'09.Pacific-Asia Conference on.IEEE,2009:690-693.

      [3]Hu M,Liu B.Mining and Summarizing Customer Reviews[C].Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Seattle,Washington,Usa,August.DBLP,2004:168-177.

      [4]韓忠明,李夢(mèng)琪,劉雯,張夢(mèng)玫,段大高,于重重.網(wǎng)絡(luò)評(píng)論方面級(jí)觀點(diǎn)挖掘方法研究綜述.軟件學(xué)報(bào)[J].2017:1-23.

      [5]藍(lán)金炯.融合在線用戶評(píng)論的協(xié)同過(guò)濾推薦研究[D].華南理工大學(xué),2016.

      [6]那日薩,鐘佳豐,童強(qiáng).基于情感詞匯的在線評(píng)論產(chǎn)品個(gè)性化推薦方法研究[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2011,43(2):48-51.

      猜你喜歡
      極性詞語(yǔ)協(xié)同
      容易混淆的詞語(yǔ)
      蜀道難:車與路的協(xié)同進(jìn)化
      找詞語(yǔ)
      跟蹤導(dǎo)練(四)
      “四化”協(xié)同才有出路
      汽車觀察(2019年2期)2019-03-15 06:00:50
      詞語(yǔ)欣賞
      三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
      表用無(wú)極性RS485應(yīng)用技術(shù)探討
      一種新型的雙極性脈沖電流源
      一枚詞語(yǔ)一門(mén)靜
      若羌县| 徐汇区| 汕尾市| 富裕县| 锡林浩特市| 巢湖市| 盘山县| 云霄县| 天台县| 南京市| 江安县| 炉霍县| 平利县| 罗田县| 九龙城区| 浠水县| 永顺县| 抚宁县| 尖扎县| 波密县| 湖州市| 正安县| 孟津县| 同德县| 于田县| 灵川县| 依兰县| 平罗县| 聊城市| 景谷| 鄂州市| 栾川县| 子洲县| 辛集市| 义乌市| 安平县| 新密市| 将乐县| 古田县| 江孜县| 将乐县|