王升盈
摘 要:以美團外賣為研究平臺,爬取美團外賣用戶數(shù)據(jù),對數(shù)據(jù)進行預(yù)處理,利用百度AI開放平臺進行情感分析得到評論數(shù)據(jù)的情緒值,在此基礎(chǔ)上檢驗評論數(shù)據(jù)的情感傾向和打分評價的相關(guān)性,并進一步了解在不同等級的城市中消極情緒是否有差異,以及一些門店消極情緒高于積極情緒的原因。最后根據(jù)分析的結(jié)果對商家、消費者和美團平臺提出合理性的建議。
關(guān)鍵詞:在線評論;情感分析;關(guān)鍵詞云圖
中圖分類號:F27 文獻標識碼:A doi:10.19311/j.cnki.1672-3198.2018.23.030
1 引言
隨著信息的高速傳播,社交網(wǎng)絡(luò)的快速發(fā)展已經(jīng)滲透到人們生活的各個方面,越來越多的用戶傾向于在公眾平臺上表達自己的觀點、態(tài)度和情感?;ヂ?lián)網(wǎng)的各大平臺為網(wǎng)民發(fā)表評論、交換觀點提供了極大的便捷,也給人們做選擇提供了參考方向。評論信息對消費者的選擇和商業(yè)組織的決策都有重要的意義。一些學者開始了對這些評論數(shù)據(jù)的情感傾向進行研究,運用不同的算法和模型對文本評論進行情感分類。張膂采用邏輯斯蒂回歸算法對餐飲評論數(shù)據(jù)進行情感分類,馬松岳,馮莎分別對豆瓣電影評論數(shù)據(jù)進行情感分析研究,石強強、趙應(yīng)丁和楊紅云對基于SVM方法對酒店評論數(shù)據(jù)進行情感分析。
目前對文本情感分析的研究很多,比如對電商產(chǎn)品、微博熱門事件、熱門電影等情感傾向研究,對餐飲方面的情感分析研究比較少,并且都是對評論文本挖掘技術(shù)的討論?;诖吮疚闹饕菍η楦袃A向的結(jié)果展開研究,根據(jù)得到的結(jié)論對用戶、商家和美團平臺提出合理建議。
2 數(shù)據(jù)獲取和預(yù)處理
本文首先采用分層抽樣的方法選取12個城市,然后再采用簡單隨機抽樣的方法選取了美團外賣APP中這些城市里面的部分門店評論數(shù)據(jù)作為研究對象。其中12個城市是按照城市等級來抽取的,門店包括大品牌必勝客和若干小品牌,一共161家。本文采用Charles軟件對美團外賣APP的數(shù)據(jù)接口進行用戶評論抓取。由于美團對數(shù)據(jù)采取了反爬蟲技術(shù),只能抓取網(wǎng)頁數(shù)據(jù),并且還需要不定時的變換電腦ID,才可以獲取評論數(shù)據(jù)。
由于爬取的數(shù)據(jù)可能存在一些特殊的字符、重復(fù)數(shù)據(jù)和類似廣告信息這種沒有價值的數(shù)據(jù)等,所以需要先對數(shù)據(jù)進行一下清洗。本文利用HashSet原理編寫源代碼去重,經(jīng)過清洗后用于研究的數(shù)據(jù)一共87558條。由于用Charles抓取的數(shù)據(jù)量比較大,需要建立一個數(shù)據(jù)庫存放數(shù)據(jù)。為了方便快速的查找需要研究的數(shù)據(jù),本文選擇建立非關(guān)系型數(shù)據(jù)庫。其中抓取數(shù)據(jù)的情況如表1。
3 基于百度AI的評論數(shù)據(jù)情感傾向性分析
文本情感分析的研究方法主要有兩大類:基于詞典的方法和基于機器學習的方法?;谠~典的方法主要是通過建立一系列的情感詞庫和規(guī)則,對文本進行段落分詞、句法分析,計算感情值,最后通過情感值來作為文本的情感傾向依據(jù)。
本文采用基于詞典的方法,使用百度自然語言處理技術(shù)即百度AI開放平臺軟件進行情感分析。通過調(diào)用百度的API(應(yīng)用程序編程接口),就可以得到8萬多條評論數(shù)據(jù)的情感分布,包括積極情緒、中立、消極情緒。通過簡單的計算,可以得到積極情緒比例、中立情緒比例和消極情緒比例,最終確定每家店的情感傾向值。百度AI在進行情感分析時,無法識別帶有表情的語句,只能手動進行分析。同時,對于只有星級評論的空白文本百度AI是無法進行分析的,忽略空白文本,百度AI識別出7萬多條數(shù)據(jù)。最終可以得到每條評論文本的情感傾向,如表2。
根據(jù)輸出的情感傾向進行統(tǒng)計分析,可以得到每一家店的積極、消極和中立的比例,抽取的161家門店中,157家門店的用戶評論情感是積極的,2家門店的用戶評論情感是消極的,2家用戶評論情感是中立的。如表3所示的是抓取的北京門店評論文本的情感分析結(jié)果,從表中可以知道大部分門店的積極比例是較高的,情感傾向是積極的。只有花家怡園、南京大排檔和綠茶餐廳的積極比例較低,甚至綠茶餐廳的消極比例高于積極比例。
4 情感傾向的研究分析
4.1 情感傾向和打分評價的關(guān)系
美團平臺本身會根據(jù)用戶評論的星星數(shù),將評論分為好評和差評展現(xiàn)給用戶。用戶就會根據(jù)看到的好評數(shù)來判斷門店的好壞。但是美團給出的好評數(shù)和差評數(shù)是否真正代表了用戶的真實情感,因此我們將得到的情感傾向和美團給出的打分評價進行對比分析。
我們通過SPSS軟件分別對積極情緒和好評、消極情緒和差評做相關(guān)性分析來檢測他們之間是否有關(guān)聯(lián)性,得到積極情緒和好評之間的相關(guān)性為0.643,消極情緒和差評之間的相關(guān)性為0.731,消極情緒和差評的相關(guān)性大于積極情緒和好評的相關(guān)性。
由于美團平臺把中立的評論即3顆星星的評論給歸類為好評,才會造成積極情緒和好評之間的相關(guān)性不是很高。因此用戶在瀏覽評論信息時,不能只關(guān)心好評數(shù),更主要的是了解差評數(shù),差評數(shù)和情感分析方法得到的消極數(shù)是基本一致的。用戶通過瀏覽美團平臺歸類出的差評評論,會更快的了解門店的信息,為下單提供指導(dǎo)意義。
4.2 不同城市等級的必勝客消極情緒對比分析
根據(jù)不同的城市等級,將特大城市、一線城市、二線城市和三線城市的必勝客評論文本中消極情緒進行對比分析,了解不同等級的城市消極情緒是否有差異。
首先通過百度AI將消極的評論文本進行輸出,然后使用R中的jiebaR包對評論文本進行分詞且抽取文本中的關(guān)鍵詞,對關(guān)鍵詞進行詞頻統(tǒng)計,最后再用wordcloud2包繪制詞云,根據(jù)wordcloud2函數(shù)調(diào)節(jié)關(guān)鍵詞、詞頻、字號和顏色等??梢愿鶕?jù)云圖,可以看到差評中提到的最多的點。
根據(jù)圖1-圖4的云圖,可以知道在不同等級的城市中,都提到了對披薩的評論,尤其是特大城市和二線城市的云圖中“披薩”的字體最大,代表提到的次數(shù)最多,在一線城市和三線城市的云圖中相對較小。披薩作為必勝客的招牌,下單量還是很大的,但是對它的味道也是存在不滿的。同時這四個云圖中也都提到了“難吃”、“味道”,可以得到用戶對必勝客菜品是不滿意的。
從圖1的云圖中可知,“披薩”、“發(fā)票”、“商家”、“態(tài)度”、“難吃”、“客服”的字體比較突出。從這些關(guān)鍵詞中得到在特大城市中,用戶多由于發(fā)票、菜品的味道和商家的服務(wù)態(tài)度產(chǎn)生消極情緒。
從圖2的云圖中可知,“味道”、“難吃”、“配送”、“送的慢”、“海鮮”、“披薩”、“雞肉”的字體比較突出。從這些關(guān)鍵字中可以得到在一線城市中,用戶多由于菜品不好吃,配送慢的問題做出差評,同時對海鮮和雞肉的披薩也是不滿意的。
從圖3的云圖中可知,“披薩”、“難吃”、“味道”、“態(tài)度”、“口感”、“番茄醬”、“配送”的字體比較突出。從這些關(guān)鍵字中可以得到在二線城市中,用戶多由于披薩的味道和口感、商家和外賣小哥的態(tài)度以及配送的快慢而做出差評。
從圖4的云圖中可知,“騎手”、“味道”、“速度”、“包裝袋”、“披薩”、“餐具”、“番茄醬”的字體比較突出。從這些關(guān)鍵字中可以得到在三線城市中,用戶多由于騎手的送餐速度,菜品的包裝和餐具的問題而做出差評。
4.3 情感傾向消極的門店原因分析
利用4.2中的關(guān)鍵詞云圖的方法,研究門店情感傾向偏消極的原因。將用戶情緒是消極的兩家店分別用R做關(guān)鍵詞云圖。對永和大王消極文本做關(guān)鍵詞云圖,得到“豆?jié){”、“油條”、“味道”、“難吃”、“太少”這些詞較突出并且權(quán)重都大于等于0.9。對綠茶餐廳消極文本做關(guān)鍵詞云圖,得到“米飯”、“綠茶”、“難吃”,“太少”、“味道”這些詞較突出并且權(quán)重都大于0.95。
通過對關(guān)鍵詞的分析,可以知道菜品難吃和量少是用戶做出差評的主要原因。豆?jié){和油條是永和大王的招牌菜,綠茶和米飯是綠茶餐廳的必點菜品,但是用戶對這些主打菜品的意見是最大的。要想提高訂單量,商家必須保證菜品質(zhì)量和數(shù)量。
5 結(jié)論和建議
通過和建議以上研究,得到以下結(jié)論:
(1)評論文本情感傾向和美團本身的評價并不完全相同,消極情緒和差評的相關(guān)性較高,消極情緒和好評的相關(guān)性較低。
(2)不同等級城市中的必勝客造成用戶消極情緒的原因既有相同點,又有不同點。
(3)用戶做出差評的主要原因是菜品的質(zhì)量和數(shù)量不能得到保證。
對于以上的結(jié)論,可以提出以下建議:
(1)由于用戶評論情感和美團平臺給出的打分評價不一致,用戶在瀏覽評論信息時,應(yīng)該多關(guān)注一下差評的內(nèi)容和數(shù)量,不應(yīng)該只看好評的數(shù)量,好評數(shù)會比用戶所表達的實際好評評論要高。美團平臺應(yīng)該反映真實的用戶情感,因此應(yīng)該增加一項中立條數(shù),將用戶評論3顆星的視為中立情感。
(2)披薩作為必勝客的招牌菜,必須要保證其特色和口味,也要考慮到用材的新鮮。在特大城市中,必勝客要提高服務(wù)態(tài)度,用心對待每一個顧客,及時給用戶開具發(fā)票。在一線城市中,美團要培訓(xùn)出專業(yè)的騎手,規(guī)劃出最佳配送時間和路線,縮短配送時間。在二線城市中,必勝客要改善披薩的口感,騎手也要提升服務(wù)態(tài)度。在三線城市中,必勝客要提高菜品的包裝質(zhì)量和味道,提高騎手的配送速度。
(3)對于情感傾向不是積極的4家門店應(yīng)該從根本上面解決問題,也就是必須保證菜品的質(zhì)量和數(shù)量,這樣才能提高顧客的滿意度,從而提高銷售量。
參考文獻
[1]張膂.基于餐飲評論的情感傾向性分析[D].昆明:昆明理工大學,2016:1-50.
[2]馬松岳,許鑫.基于評論情感分析的用戶在線評價研究—以豆瓣網(wǎng)電影為例[J].圖書情報工作.2016,60(10):95-103.
[3]馮莎.豆瓣電影評論文本的情感分析研究—基于2017年電影《乘風破浪》爬蟲數(shù)據(jù)[J].中國統(tǒng)計,2017:30-33.
[4]石強強,趙應(yīng)丁,楊紅云.基于SVM的酒店客戶評價情感分析[J].計算機與現(xiàn)代化,2017,(3):117-126.
[5]張紫瓊,葉強等.互聯(lián)網(wǎng)商品評價情感分析研究綜述[J].管理科學學報,2010,(6):84-96.
[6]史偉,王洪偉等.基于微博平臺的公眾情感分析[J].情報學報,2011,(11):1171-1178.
[7]李明.面向微博電影評論的情感分類研究[D].昆明:云南財經(jīng)大學,2014:10-40.