楊君子,周林錦,張利民,韓媛媛,程鳳林,張軍芳,袁 挺
(衡水學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,河北 衡水 053000)
在互聯(lián)網(wǎng)迅速發(fā)展的今天,手機(jī)、電腦等電子設(shè)備的使用越來(lái)越廣泛,人們已經(jīng)逐漸養(yǎng)成了線上購(gòu)物的習(xí)慣。隨著線上購(gòu)物越來(lái)越受歡迎,電子商務(wù)成為了新潮流,電商平臺(tái)直播營(yíng)銷成為了一種新的銷售手段,為助推鄉(xiāng)村振興,各地掀起了主播帶貨的熱潮,為特色農(nóng)產(chǎn)品打開了更為寬廣的銷售渠道。特色農(nóng)產(chǎn)品企業(yè)要想取得長(zhǎng)久的發(fā)展,需要線上平臺(tái)和企業(yè)保障自身產(chǎn)品物美價(jià)廉,誠(chéng)信經(jīng)營(yíng)。此外,企業(yè)還需要對(duì)消費(fèi)者的消費(fèi)心理進(jìn)行研究,根據(jù)平臺(tái)上消費(fèi)者的評(píng)論數(shù)據(jù),制定合理的銷售策略。
傳統(tǒng)的購(gòu)物可以直接通過觸摸、試穿等方式直接感受到產(chǎn)品質(zhì)量的好壞,來(lái)決定是否購(gòu)買。但在線上購(gòu)物時(shí),消費(fèi)者無(wú)法直接感受到產(chǎn)品的好壞,只有通過商品的評(píng)論來(lái)進(jìn)行判斷,所以商品評(píng)論的好壞能間接決定產(chǎn)品的銷量。特色農(nóng)產(chǎn)品企業(yè)要充分利用平臺(tái)上海量的銷售數(shù)據(jù)信息,對(duì)這些信息進(jìn)行深度挖掘,獲得有價(jià)值的信息,分析消費(fèi)者對(duì)所購(gòu)買產(chǎn)品的情感態(tài)度,及時(shí)發(fā)現(xiàn)消費(fèi)者的購(gòu)買偏好,及時(shí)了解消費(fèi)者的購(gòu)物需求,從而抓住商機(jī),提升銷售量,減少風(fēng)險(xiǎn)損失。課題組主要基于電商平臺(tái)特色農(nóng)產(chǎn)品的評(píng)論數(shù)據(jù),分析特色農(nóng)產(chǎn)品在電商平臺(tái)銷售中存在的問題,主要應(yīng)用一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)LDA主題模型,構(gòu)建消費(fèi)者對(duì)商品的情感分析,幫助賣家發(fā)現(xiàn)產(chǎn)品銷售中存在的問題,改進(jìn)銷售策略,擴(kuò)大銷售。
本研究對(duì)電商商品的評(píng)論數(shù)據(jù)進(jìn)行挖掘,是對(duì)電商產(chǎn)品評(píng)論關(guān)注點(diǎn)的研究。如圖1所示,是電商平臺(tái)上面銷量最好的4款某酒業(yè)產(chǎn)品的評(píng)論數(shù),因?yàn)?0度產(chǎn)品的評(píng)論數(shù)樣本最多同時(shí)好壞評(píng)差異最大,所以選擇某酒業(yè)50度產(chǎn)品作為研究對(duì)象。
圖1 評(píng)論數(shù)表
獲取到數(shù)據(jù)以后,構(gòu)建了包含數(shù)據(jù)預(yù)處理和LDA模型分析的一套情感分析模型,其技術(shù)路線如圖2所示。首先,從電商產(chǎn)品評(píng)論中把關(guān)鍵詞提取出來(lái),然后進(jìn)行文本去重分詞等數(shù)據(jù)的預(yù)處理,最后建立LDA情感分析模型,并進(jìn)行模型結(jié)果的評(píng)估。
圖2 電商商品評(píng)價(jià)情感分析技術(shù)路線
評(píng)論數(shù)據(jù)中包含了很多重復(fù)的文本,這些重復(fù)的數(shù)據(jù)有可能是平臺(tái)商家購(gòu)買的水軍所發(fā)布的評(píng)論,即為了營(yíng)造出商品很好的假象而通過不正當(dāng)手段對(duì)自家商品直接給予好評(píng)。這些重復(fù)評(píng)論可能掩飾商品品質(zhì)而誤導(dǎo)消費(fèi)者,現(xiàn)對(duì)這些重復(fù)的文本進(jìn)行處理。如圖3所示,為本研究獲取的部分評(píng)論數(shù)據(jù)。
圖3 部分評(píng)論數(shù)據(jù)
因?yàn)榫€上購(gòu)物平臺(tái)的商品評(píng)價(jià)信息有效性不一,進(jìn)行去重后還是有很多參考意義不大的重復(fù)語(yǔ)句,比如“可以可以可以”“不錯(cuò)不錯(cuò)不錯(cuò)”“好喝好喝”等。
因此,設(shè)定語(yǔ)句壓縮的規(guī)則[1]如下:
若讀入與上列表相同,下為空,則放下;
若讀入與上列表相同,下有,判斷重復(fù),清空下表;
若讀入與上列表相同,下有,判斷不重,清空上下;
若讀入與上列表不同,字符≥2,判斷重復(fù),清空上下;
若讀入與上列表不同,下為空,判斷不重復(fù),繼續(xù)放上;
若讀入與上列表不同,下有,判斷不重復(fù),放下;
讀完后,判斷上下,若重復(fù)則壓縮。
根據(jù)以上幾條壓縮語(yǔ)句規(guī)則,得到了已壓縮去詞完成的精簡(jiǎn)語(yǔ)料,如圖4所示。
圖4 壓縮去詞結(jié)果
有部分評(píng)論過短,比如“很好”“很棒”“贊”“不好”,這些過短的評(píng)論看似是對(duì)商品的好評(píng)或差評(píng),但還有可能是消費(fèi)者為了獲取積分而給予的評(píng)論,是隨意完成的,而刪除之后保留的長(zhǎng)句子能更好地完成對(duì)商品評(píng)論的情感分析。因此,需要對(duì)這樣的短句子進(jìn)行過濾,過濾后的結(jié)果中已經(jīng)不顯示較短的句子。
文本分詞是中文文本處理中的一個(gè)重要步驟,若分詞效果好,可以清晰看出評(píng)論內(nèi)容主要表達(dá)的含義;若分詞效果不好,則嚴(yán)重影響對(duì)評(píng)論文本情感的分析。比如,“服務(wù)非常好”分詞的一般結(jié)果應(yīng)為“服務(wù)”“非?!焙汀昂谩保舴殖伞胺薄皠?wù)非”和“常好”則嚴(yán)重丟失了文本的情感含義。根據(jù)已有研究結(jié)果顯示,jieba分詞精度高達(dá)97%以上。采用jieba分詞對(duì)本研究的評(píng)論數(shù)據(jù)進(jìn)行處理,獲得的正面詞匯和負(fù)面詞匯數(shù)據(jù)如表1所示。
表1 正面和負(fù)面評(píng)論數(shù)據(jù)分詞結(jié)果
評(píng)價(jià)信息中也有很多出現(xiàn)次數(shù)很多但是沒有明顯意義的用詞,例如語(yǔ)氣助詞等。 把停用詞進(jìn)行過濾去除,可以減少存儲(chǔ)空間的占用,提升搜索速度,更能在一定程度上增加關(guān)鍵詞密度,讓優(yōu)化的關(guān)鍵詞更突出。
通過挖掘評(píng)論數(shù)據(jù),分析購(gòu)買者的情感需求,即深入探究評(píng)論信息中包含的潛在主題。在模型里,可觀測(cè)變量就是評(píng)論信息中的特征詞。假如某個(gè)潛在主題又是其他評(píng)論信息中的主題,那么這個(gè)潛在主題很大程度上就可以認(rèn)為是整體評(píng)論信息中的熱門點(diǎn)。而在這個(gè)潛在主題中出現(xiàn)次數(shù)最多的特征詞就可能是熱門關(guān)注點(diǎn)中的評(píng)論詞。分別統(tǒng)計(jì)正面和負(fù)面兩種情緒傾向下的主題發(fā)生和分布的情況,對(duì)兩種情緒和傾向下各主題的發(fā)生概率和發(fā)生次數(shù)進(jìn)行由高到低的排序,根據(jù)分析的需要,在重點(diǎn)評(píng)論中選擇一個(gè)最熱門的話題作為熱點(diǎn),然后根據(jù)潛在話題和注意詞的出現(xiàn)概率,得到相應(yīng)的熱門關(guān)注點(diǎn)。計(jì)算主題概率的LDA模型步驟如下[2-3]:
1)輸入文檔集,對(duì)文檔集的各個(gè)子文檔進(jìn)行編號(hào);
2)獲取每篇文章的主題概率分布;
3)獲取每篇文章下每個(gè)主題的生成詞概率分布;
4)從文檔集合中獲取每個(gè)主題的編號(hào)映射表;
5)通過統(tǒng)計(jì)詞頻對(duì)參數(shù)進(jìn)行評(píng)估,選取最大概率詞作為主題詞。
將數(shù)據(jù)代入程序中,實(shí)現(xiàn)了對(duì)正面主題和負(fù)面主題的分析,結(jié)果如圖5所示。
經(jīng)過LDA模型主題分析,可以把評(píng)論數(shù)據(jù)歸納成4個(gè)主題,每個(gè)主題下分別生成10個(gè)出現(xiàn)可能性最高的詞匯。
根據(jù)對(duì)電商產(chǎn)品正面評(píng)論的4個(gè)潛在主題的特征詞進(jìn)行提取,主題一中的高頻特征詞有專業(yè)、舒適、香型、口感,主要反映用戶本身對(duì)某酒業(yè)酒味道的喜歡;主題二中的高頻特征詞有推薦、經(jīng)典、值得、期待,主要反映客戶主觀上的喜歡;主題三和四中的高頻特征詞為值得、設(shè)計(jì)、紙箱、速度、包裝,主要反映產(chǎn)品質(zhì)量很好,外觀漂亮,值得買,客戶很滿意。
根據(jù)對(duì)電商產(chǎn)品負(fù)面評(píng)論的4個(gè)潛在主題的特征詞進(jìn)行提取,主題一中的高頻特征詞有不能、打開、整箱、包裝,主要反映商家對(duì)酒的包裝防護(hù)不足;主題二中的高頻特征詞有后勁、質(zhì)量、一般、郁悶,主要反映了酒的后勁有點(diǎn)大;主題三中的高頻特征詞有發(fā)貨、塑料、防護(hù)、未敢,主要也是反映商家對(duì)酒包裝防護(hù)的不足;主題四中的高頻特征詞有送貨、下樓、發(fā)貨、一般、郁悶、店家、降價(jià),主要反映客戶對(duì)商品價(jià)格不穩(wěn)定、物流服務(wù)差的不滿。
綜合以上對(duì)主題及其中的高頻特征詞的分析可以看出,某酒業(yè)產(chǎn)品有以下幾個(gè)優(yōu)勢(shì):口感好,性價(jià)比高,外觀顏值高,質(zhì)量不錯(cuò)。相對(duì)而言,也有幾個(gè)不足:對(duì)酒的包裝防護(hù)不到位,酒的后勁大,價(jià)格不穩(wěn)定,物流服務(wù)不好。
根據(jù)對(duì)電商平臺(tái)產(chǎn)品的用戶評(píng)價(jià)進(jìn)行LDA主題模型分析,對(duì)電商平臺(tái)提出以下建議:
1)在產(chǎn)品性價(jià)比高、顏值高、服務(wù)好的前提下,要保證口感不變,提高產(chǎn)品質(zhì)量;
2)提升商品的包裝防護(hù),保持商品價(jià)格的穩(wěn)定;
3)選擇好的物流公司進(jìn)行合作,提高物流服務(wù)態(tài)度。
互聯(lián)網(wǎng)的發(fā)展帶動(dòng)了人們的在線消費(fèi)能力,而部分特色農(nóng)產(chǎn)品賣家則對(duì)商品的優(yōu)點(diǎn)、賣點(diǎn)和不足不夠清晰。為了發(fā)現(xiàn)市場(chǎng)中存在的問題和潛在的機(jī)遇,課題組構(gòu)建了基于電商商品評(píng)論數(shù)據(jù)的情感分析文本挖掘模型,以幫助特色農(nóng)產(chǎn)品銷售賣家和電商平臺(tái)做出合適的產(chǎn)品發(fā)展決策,為提高產(chǎn)品競(jìng)爭(zhēng)力提供參考。首先,對(duì)評(píng)論數(shù)據(jù)進(jìn)行了預(yù)處理,包含文本去重、機(jī)械壓縮去詞、短句過濾、文本分詞、去除停用詞5個(gè)步驟,獲取到了用于主題分析的數(shù)據(jù)文檔[4-5]。再根據(jù)分析結(jié)果,分別挖掘情感態(tài)度不同情況下的潛在主題,以此獲取不同需求的消費(fèi)者對(duì)線上消費(fèi)產(chǎn)品的情感喜好度。分析結(jié)果顯示,產(chǎn)品有以下幾個(gè)優(yōu)勢(shì):口感好,性價(jià)比高,外觀顏值高。相對(duì)而言也有幾個(gè)不足:對(duì)酒的包裝防護(hù)不到位,產(chǎn)品后勁大,價(jià)格不穩(wěn)定,物流服務(wù)不好。因此,商家仍需提高產(chǎn)品質(zhì)量和服務(wù),研發(fā)不同類型的產(chǎn)品,以滿足不同消費(fèi)者的購(gòu)買需求。同時(shí),物流公司需要有良好的服務(wù)態(tài)度,及時(shí)將產(chǎn)品送到顧客手中,提升和維護(hù)企業(yè)形象。另外,商家仍需要?jiǎng)?chuàng)新網(wǎng)絡(luò)發(fā)展?fàn)I銷模式,發(fā)揮產(chǎn)品特色,不斷使網(wǎng)絡(luò)營(yíng)銷策略更加成熟,推動(dòng)區(qū)域經(jīng)濟(jì)的發(fā)展。