王曄 楊耀田 李政誼 李興隆
摘要:近年來,客戶對購買產(chǎn)品滿意度的評價在市場銷售中占有越來越高的地位。為了解決Sunshine公司銷售pacifier、microwave、hair_dryer三款產(chǎn)品的問題和需求,首先建立了基于LDA的數(shù)據(jù)評論模型,對產(chǎn)品進行星級評價。然后,建立基于TF-IDF的評論語料庫,通過產(chǎn)生高權(quán)重的詞語頻率,構(gòu)建語義情感詞典。研究結(jié)果表明:pacifier的銷售非常穩(wěn)定,商譽波動率很低;microwave產(chǎn)品聲譽的較高峰的4月9月,聲譽的低谷的2月和11月;hair_dryer產(chǎn)品的星級評價較為穩(wěn)定,可以一直保持在相對穩(wěn)定的聲譽。
關(guān)鍵詞:TF-IDF? LDA? 聲譽? 星級評價
一、引言
亞馬遜在其創(chuàng)建的在線市場中,亞馬遜為客戶提供了一個評價和審查購買的機會。個人評級=稱為“星級評級”。允許購買者使用1(低評級,低滿意度)到5(高評級,高滿意度)的等級來表達他們對產(chǎn)品的滿意度。此外,客戶可以提交基于文本的消息稱為“評論”以表達關(guān)于產(chǎn)品的進一步意見和信息。其他客戶可以在這些評論中提交對他們自己的產(chǎn)品購買決策是否有幫助的評級——稱為“幫助度評級”。公司利用這些數(shù)據(jù)來洞察他們所參與的市場、參與的時機以及產(chǎn)品設(shè)計特性選擇的潛在成功。
Sunshine公司計劃在網(wǎng)上市場推出并銷售三種新產(chǎn)品:微波爐、嬰兒奶嘴和電吹風(fēng)。該公司過去曾使用數(shù)據(jù)來告知銷售策略,但他們以前從未使用過這種特定的組合和類型的數(shù)據(jù)。Sunshine公司特別感興趣的是這些數(shù)據(jù)中的基于時間的模式,以及它們之間的交互方式是否有助于該公司打造成功的產(chǎn)品。因此本文即利用該公司2005-2015年的產(chǎn)品銷售數(shù)據(jù)進行了相關(guān)評價研究。
二、基于LDA的產(chǎn)品星級評價模型
為了方便訓(xùn)練數(shù)據(jù),還需要將數(shù)據(jù)集中的月和日按照線性分布,分布在單位為12的橫坐標上,假設(shè)月為month,日為day,當(dāng)月的數(shù)據(jù)集樣本量為N。假設(shè)Vrtified_purchase is Yes,Normal buyer和Amazon vine Voices在第j天評價的數(shù)量為a,b,c,不同購買者,每個人的評星為ri,可以得到當(dāng)日評價的總星數(shù)yj為:
根據(jù)公式計算可知,5階多項式具有較好的擬合性。microwave在一月份也出現(xiàn)了較為大的波動,也是由于一月數(shù)據(jù)量較為密集導(dǎo)致的。其他月份銷售在4月份和9月份有著較為明顯的聲譽高峰,在2月份和11月份會有聲譽的低谷。如下選取了pacifier產(chǎn)品在聲譽的較高峰的6月份和8月份,聲譽的低谷的4月份和12月份的評價星級進行了統(tǒng)計:
可以看來這是由于在差評率不變的情況下,5星或4星好評變多,從而導(dǎo)致這些月份之間造成了一定的差異。同樣地選取microwave產(chǎn)品聲譽的較高峰的4月份和9月份,聲譽的低谷的2月份和11月份的評價星級進行了統(tǒng)計。發(fā)現(xiàn)同樣在不同月份,好評的多少決定了整體評價的高低,這是因為從比重上來說好評比差評造成的影響更高,過高的好評有助于提升產(chǎn)品整體的聲譽。
三、基于TF-IDF的統(tǒng)計詞頻語料庫評級模型
我們需要用Term frequency–Inverse document frequency(TF-IDF)統(tǒng)計詞頻,然后進行半自動化打標記,通過將高贊成票的評論分成不同星級,然后分別構(gòu)建不同感情色彩的語料庫。Term frequency(TF),是表示詞條在文本中出現(xiàn)的頻率,我們需要對得到的數(shù)字進行歸一化。我們用nij表示該詞在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù),可以得到:
根據(jù)產(chǎn)品評論情感分析數(shù)據(jù)得出,評價星級較低的評論負面詞匯較多,而評價星級較高的評論積極詞匯較多,但也有一些評價與星級不符的評論,但是大體上符合上述的規(guī)律。所以我們認為如“熱情”、“失望”等不同感情色彩的詞匯往往與其評級的水平密切相關(guān)。
四、小結(jié)
為了解決Sunshine公司銷售電吹風(fēng)、微波爐、奶嘴三款產(chǎn)品的問題和需求,本研究對Sunshine公司的三組數(shù)據(jù)進行了深入分析。考慮了helpful_votes、vine和verified_purchase三個字段,并為它們的不同效果設(shè)置了不同的權(quán)重,以獲得更準確的數(shù)據(jù)。然后利用LDA模型對評論數(shù)據(jù)進行矢量化處理,并通過術(shù)語頻率逆文檔頻率(TF-IDF)建立具有不同情感取向的評論語料庫,利用自然語言處理(NLP)方法獲得可視化分析數(shù)據(jù)。我們發(fā)現(xiàn)奶嘴的銷售非常穩(wěn)定,每個月的商譽波動率很低,綜合得分為0.7562;微波銷售4月和9月,達到了聲譽的頂峰,進入了一個低谷的聲譽與綜合評分在2月和11月的銷售hair_dryer達到頂峰的名聲在6月和8月,并進入了一個低谷的聲譽4月和12月,綜合得分為0.7123分。我們了解到微波爐是最低的,反映了奶嘴的銷售穩(wěn)定,購買人群穩(wěn)定,性價比高,深受消費者歡迎,微波爐的質(zhì)量有待提高。
參考文獻
[1]廖斌峰,余體偉.大型企業(yè)的部門管理成熟度評價方案探索[J].中國標準化,2019(20):153-154.
[2]雒婉,王瑜,魏慧嬌,林麗霞,韓明勇.生態(tài)城區(qū)綠色建筑星級潛力評價體系研究[J].建筑節(jié)能,2019,47(09):66-69+97.