陳俊宇,鄭 列
(湖北工業(yè)大學(xué)理學(xué)院,湖北 武漢 430068)
在線評論來自消費者使用產(chǎn)品后的自身感受,能夠反映賣家產(chǎn)品質(zhì)量和服務(wù)的好壞。通過情感分析,對評論者的褒貶態(tài)度、意見進行判斷或評估,從而了解用戶對商品的情感態(tài)度,評論情感可視化是將評論文本抽象量化的過程,將用戶評論情感數(shù)據(jù)通過豐富的圖形或圖像進行內(nèi)容展示,可以使情感分析的結(jié)果直觀化,便于被有效接納和應(yīng)用,進而幫助商家洞察文本數(shù)據(jù)中隱含的產(chǎn)品信息和顧客需求。本文通過自然語言處理技術(shù),實現(xiàn)對文本數(shù)據(jù)的可視化流程分析,對評論數(shù)據(jù)進行高頻詞匯和主題詞的提取,挖掘和分析文本數(shù)據(jù)所包含的隱含信息,通過對用戶的評論進行文本挖掘,能夠從大量網(wǎng)絡(luò)評論中提取反映評論褒貶極性的特質(zhì)詞語,避免消費者所需信息被大量的評論噪音掩蓋,從而為消費者的購買決策和企業(yè)的營銷策略提供支持[1-2]。
評論情感可視化分析可歸納為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、特征詞提取、主題模型建立和情感可視化五個步驟,通過將量化的數(shù)據(jù)轉(zhuǎn)換為直觀感受圖形以便大眾感知。本文研究的文本對象是京東商城華為榮耀系列magic2的評論數(shù)據(jù),目的在于通過對購買者的文本評論數(shù)據(jù)的信息挖掘,獲取此類文本數(shù)據(jù)隱含的消費者關(guān)注的評論觀點。先對數(shù)據(jù)進行情感分類,再對數(shù)據(jù)進行包括文本去重、中文分詞,去停用詞等預(yù)處理;再對預(yù)處理后的數(shù)據(jù)提取特征詞,對評論數(shù)據(jù)進行詞頻分析并制作詞云圖,并結(jié)合LDA主題模型,運用LDAvis 可視化工具對評論數(shù)據(jù)作可視化分析,流程見圖1。
圖1 評論數(shù)據(jù)可視化分析過程
2.1.1 分詞在對文本數(shù)據(jù)分析前,需要對文本做分詞處理,分詞的過程是將連續(xù)的詞句按照一定的規(guī)范重新排列組合,分割成單個詞序列的過程。文本分詞對后續(xù)文本挖掘有著十分重要的影響。本文采用的文本分詞方法是基于R軟件,調(diào)用jiebaR安裝包來實現(xiàn)。jiebaR包擁有自己的系統(tǒng)詞典,且詞匯量相當(dāng)豐富,在此次文本分析中夠用[3]。
2.1.2 去停用詞停用詞是指某一行業(yè)領(lǐng)域目前不再使用的詞條。刪除這類詞,既可以基于現(xiàn)有的停用詞詞典,也可以根據(jù)需要手動建立詞典。另外,文本中使用頻率不高的非停用詞往往對文本特征的表示沒有價值,故對這類詞也可以進行篩選,即可根據(jù)詞的長度或出現(xiàn)頻率高低進行過濾處理。
特征選擇是特征降維的一種技術(shù),目的在于從樣本所有特征中篩選出具有區(qū)分性和代表性的特征,通過減少無關(guān)特征來提高模型的性能。特征選擇一般要先構(gòu)造目標(biāo)評分函數(shù),然后基于評分函數(shù)來篩選出高評分的特征。本文采用的算法是TF-IDF算法。其中,TF(Term Frequency)代表詞頻,IDF(Inverse Document Frequency)表示逆文檔頻率[4]。
如果一個詞在文章中出現(xiàn)多次并且不是停用詞,那么在這種情況下,它很可能就代表了文章的特性,也就是要提取的特征詞。文本特征提取公式如下:
TF×IDF(i,j)=tfij×idfi=
|D|表示語料庫中的文檔總數(shù)。
商品評論主題挖掘是從大量評論中找到消費者關(guān)注的主題。LDA主題模型是一種文檔主題生成模型,包含詞、主題和文檔三層結(jié)構(gòu),通過訓(xùn)練語料,生成文檔主題、主題詞語概率矩陣,同時LDA 主題模型也是一種非監(jiān)督的學(xué)習(xí)方法,運用詞袋模型,將每篇文檔視作一個詞頻的向量,
從而識別文檔中隱藏的主題信息[5]。
圖2 LDA模型圖
如圖2所示,假設(shè)某個商品評論集由M篇評論文檔構(gòu)成,K為主題的個數(shù),N為文檔的單詞總數(shù),α和β分別是文檔主題分布和主題詞語分布的參數(shù),Z是文檔中生成詞W的主題,整個過程就是利用“文檔-主題”概率分布模型來選取某個主題,然后根據(jù)選到的主題,利用“主題-詞語”概率分布模型來抽取該主題下的某個單詞。不斷重復(fù)上述步驟,最后形成文檔。
商品評論中隱含的信息,必須通過獲取商品的評論數(shù)據(jù)分析得到。網(wǎng)絡(luò)爬蟲技術(shù)作為一種自動爬取網(wǎng)頁、獲取網(wǎng)頁內(nèi)容的方式被廣泛應(yīng)用。八爪魚數(shù)據(jù)采集器是一種分布式云計算平臺,它可以在很短的時間內(nèi)從不同的網(wǎng)站或網(wǎng)頁輕松獲取大量的標(biāo)準(zhǔn)化數(shù)據(jù),并幫助任何需要從網(wǎng)頁獲取信息的客戶實現(xiàn)自動化采集數(shù)據(jù),從而降低獲取信息的成本,提高效率[6]。本文利用八爪魚軟件采集了京東商城華為榮耀系列magic2手機的在線評論(表1)。
表1 商品部分評論數(shù)據(jù)
通過八爪魚采集器內(nèi)置的京東評論數(shù)據(jù)采集規(guī)則,共爬取了magic2手機從上市至今的購買者評論數(shù)據(jù)共計3687條,針對反爬蟲機制出現(xiàn)的重復(fù)爬取和噪聲數(shù)據(jù),需要對文本數(shù)據(jù)作去重刪除處理,將剩余的2850條評論數(shù)據(jù),最終存儲到txt文本中,將其作為實驗的樣本數(shù)據(jù)。對這些評論數(shù)據(jù)進行手動分類,類別包括情感傾向為正面、負面、中性的評論以及噪聲評論,最終得到如表2所示的樣本集統(tǒng)計。
本文采用的文本分詞方法是基于R軟件,調(diào)用jiebaR安裝包來實現(xiàn)。jiebaR包擁有自己的系統(tǒng)詞典,且詞匯量相當(dāng)豐富,在此次文本分析中夠用。在對文本分詞之后,全文共分成了36905個詞語,但其實這些詞中包括了語氣助詞、副詞、介詞、連接詞等,這些詞語沒有太大的分析意義,但出現(xiàn)的頻率卻很高,比如“得、呢、了、還、于是、那么”等。為了避免后期統(tǒng)計詞頻時增加許多的噪音,所以一般都會將這些詞進行過濾處理。本文采用的是哈工大停用詞,在篩出了停用詞后剩余27277個詞。經(jīng)過分詞和去停用詞處理后,提取詞頻如表3所示。
表3 詞頻統(tǒng)計結(jié)果(前10)
文本處理中一個非常重要的環(huán)節(jié)是特征詞提取,然后由IDF來算出每個詞的權(quán)重,詞語出現(xiàn)的頻率越高則IDF值越大。得到"詞頻"(TF)和"逆文檔頻率"(IDF)以后,數(shù)值相乘即得到這個詞的TF-IDF值。一個詞對文章的重要性與該詞的TF-IDF值大小成正比關(guān)系。最后只需要選取TF-IDF值排在最前面的幾個詞,即為文章的特征詞。根據(jù)算法,將手機評論的特征詞提取出來,大致分為6類(表4)。
表4 屬性特征詞
4.5.1 詞云圖對情感分類后的評論數(shù)據(jù),在完成分詞等一系列預(yù)處理操作后,按照詞頻降序排列,畫出排在前 100熱詞的詞云圖,其中正面評論詞云圖見圖3,負面評論詞見圖4。
圖3 正面評論詞云圖
圖4 負面評論詞云圖
正面評論詞云圖中詞頻較高的詞語是手機、華為、不錯、喜歡、流暢等,從這些評論中可以看出該款手機的外觀、運行速度都給用戶帶來了很好的體驗;負面高頻詞語主要是退貨、售后、降價、問題、劃痕等,從這些評論中可以看出手機的硬件、細節(jié)及賣家售后等方面并沒有讓顧客滿意,主要原因在于該款手機上市時期正值雙十一狂歡節(jié),活動期間商鋪推出的優(yōu)惠活動不一樣,導(dǎo)致前后價格波動較大,另外負面情緒還集中在京東售后服務(wù)方面,大多數(shù)買家對京東非自營賣家的服務(wù)態(tài)度表示失望,并且在商品退換過程中出現(xiàn)糾紛等問題。
4.5.2LDA主題可視化利用LDAvis 作為可視化工具對主題模型進行交互式可視化分析,結(jié)果為可以交互的html頁面,左邊面板代表主題氣泡,當(dāng)選定一個主題氣泡時,右邊面板就變成與選定主題最相關(guān)的30個術(shù)語,紅色橫條代表該術(shù)語在選定主題中出現(xiàn)的頻次,而淺藍色橫條代表該術(shù)語在語料料庫中出現(xiàn)的頻次[7]。
某個詞語主題的相關(guān)性,由右邊面板上方的參數(shù)λ來調(diào)節(jié),以確定最相關(guān)的30個術(shù)語是出現(xiàn)頻率最高的,還是該主題最獨特的。當(dāng)λ接近1時,在該主題下頻繁出現(xiàn)的詞跟主題正相關(guān),所以可以通過調(diào)節(jié)λ的大小來改變詞語與主題的相關(guān)性。本文選擇參數(shù)λ為0.8,點擊主題1后的可視化結(jié)果如圖5所示。該主題與手機性能相關(guān),代表主題的主要關(guān)鍵詞有“喜歡、清晰、像素、還行、效果、指紋、軟件”等。當(dāng)點擊右邊面板的術(shù)語時,左邊面板代表主題的氣泡也會隨之發(fā)生變化,每個氣泡的位置不變,但面積變成由該術(shù)語在這些主題上的分布比例決定,圖6為點擊“像素”術(shù)語后的可視化結(jié)果,可以看出該術(shù)語主要出現(xiàn)在主題1中,在主題18中也占少許。
圖5 LDAvis主題可視化
圖6 點擊“像素”術(shù)語后的LDAvis主題可視化
詞云圖能直觀地將高頻詞匯通過顏色和大小展示出來,同時LDAvis能夠?qū)χ黝}模型進行交互式可視化分析,在高頻詞匯的基礎(chǔ)上能夠提取出詞語與文本關(guān)聯(lián)度高的主題詞,將兩種方法結(jié)合,能夠?qū)⑽谋拘畔⒏庇^、準(zhǔn)確地呈現(xiàn)出來。
對商品評論進行特征提取和可視化分析,能夠幫助商家指導(dǎo)客戶購買產(chǎn)品,而且能夠讓商家更好地發(fā)現(xiàn)用戶的需求,進而改進產(chǎn)品,提升用戶體驗?;赗軟件對手機評論進行可視化分析方法不僅適用于不同型號的手機評論分析,而且適用于不同種類的商品評論分析。結(jié)合主題模型和詞云圖兩種可視化方法將用戶評論情感數(shù)據(jù)通過豐富的圖形進行內(nèi)容展示,可以使情感分析的結(jié)果更準(zhǔn)確,更能全方面了解產(chǎn)品和客戶需求,此外本文的文本數(shù)據(jù)分類通過人工標(biāo)注,這是本文的不足之處,后續(xù)可在這一模塊深入研究。