曾志偉,刁明光,王欣鵬,何炳輝
(中國地質(zhì)大學(xué)(北京) 信息工程學(xué)院,北京 100083)
在疫情期間,人們急需獲得口罩等防護(hù)物資.而對于用戶關(guān)于口罩的評論的分析研究不僅能從側(cè)面反映出當(dāng)前疫情對人們的情緒影響程度,而且也能反映出疫情一定的發(fā)展趨勢;對于用戶評論的情感關(guān)注的研究,還對商家提高口罩銷量和評分,有著積極作用.因此對于口罩評論數(shù)據(jù)的分析研究,具有一定的理論與現(xiàn)實(shí)意義,并且具有很高的應(yīng)用價(jià)值.
如今,國內(nèi)外的學(xué)者對于用戶評論數(shù)據(jù)的研究,大多只停留在單一的情感分析上,而忽略了評論數(shù)據(jù)在時(shí)間緯度上所蘊(yùn)含的情感趨勢、對于特定事件從側(cè)面反映出的發(fā)展趨勢,以及在關(guān)注點(diǎn)上對于商家發(fā)展的影響.
近年來,對于在線商品評論數(shù)據(jù)的情感分析研究[1]在不斷發(fā)展.有研究人員[2]運(yùn)用擴(kuò)展的情感傾向點(diǎn)互信息算法,構(gòu)建了一個(gè)面向中文微博的情感詞典,從而實(shí)現(xiàn)了相應(yīng)的情感傾向分類系統(tǒng);針對情感分析和觀點(diǎn)挖掘而提出的詞典模型[3],包括了與觀點(diǎn)挖掘和情感分析相關(guān)語義范疇的分類,為態(tài)度持有者和態(tài)度的極性以及文本中不同參與者的情緒和情感的識別提供了方法;將在線評論文本分解為評論對象-對象屬性-評論描述三層體系,并結(jié)合評論模式和評論語境提出的基于屬性特征的評論情感量化分析算法[4],提高了文本情感分類的準(zhǔn)確性;通過獲得特定領(lǐng)域具有感情傾向的特征詞語[5],而后利用基準(zhǔn)詞與特征詞語進(jìn)行的情感分類有著較好的效果;在文本特征中探索在線評論的有用性因素,而建立相應(yīng)的有用性影響因素模型[6],在分類預(yù)測上,對在線評論的有用性有較強(qiáng)的判別能力;針對特定事件結(jié)合時(shí)間信息和地理位置信息而建立的輿情時(shí)空演化分析方法[7]能可視化地展示輿情的時(shí)空演化過程;基于語義理解[8]的文本情感分類方法,能有效地判定文本情感傾向性.
本文對于口罩評論數(shù)據(jù)的情感分析,采用了針對口罩評論而訓(xùn)練的特定語料庫,并且將Jieba[9,10]分詞與SnowNLP[11]情感分析模型結(jié)合,對用戶的情感發(fā)展趨勢和關(guān)注點(diǎn)進(jìn)行了分析.期望得出針對口罩評論的較高情感分類準(zhǔn)確率,以及從中挖掘出用戶對口罩評論的整體態(tài)度、影響用戶對口罩不同情感關(guān)注的相關(guān)屬性和疫情發(fā)展趨勢對用戶評論的每日情感趨勢的影響.
本文采用的是Python 的類庫SnowNLP 情感分析模型對口罩的用戶評論數(shù)據(jù)進(jìn)行的情感分析.
SnowNLP 情感分析中運(yùn)用的情感分類方法為樸素貝葉斯定理.它是在貝葉斯定理上作出“認(rèn)為每個(gè)屬性各個(gè)特征是相互獨(dú)立的”這一假設(shè)而得出的.
樸素貝葉斯定理在情感分類中的公式如下:
在假設(shè)下可簡化為:
其中,隨機(jī)事件Ci表示樣本為C類的情感正負(fù)概率,Xn表示測試樣本中某一特征詞X出現(xiàn)的概率.在計(jì)算每個(gè)語句情感正負(fù)時(shí),用計(jì)算出的先驗(yàn)概率P(Ci)分別乘以它的每個(gè)屬性特征詞的條件概率而得出的情感概率值,取其中正負(fù)情感值較大的作為此語句的情感.
SnowNLP 的情感分析大致判斷過程如圖1所示.
圖1 SnowNLP 情感分析流程圖
由于SnowNLP 自帶的語料庫本身包含的是不同種類商品評論的語料,其語料具有局限性與滯后性,因此情感預(yù)測準(zhǔn)確率將會受到很大的限制,所以并不適合本文針對口罩評論的情感分析預(yù)測.因此,本文通過標(biāo)注情感為積極和情感為消極的共計(jì)14 400 條評論數(shù)據(jù)后,通過SnowNLP 自帶的貝葉斯模型進(jìn)行訓(xùn)練生成關(guān)于針對口罩評論的語料庫,便于后續(xù)精確的情感分析預(yù)測.
洪澤縣中小河流治理重點(diǎn)縣綜合整治方案實(shí)施后,可以達(dá)到以下幾方面效益:一是河道防洪排澇能力得到明顯提高,內(nèi)部河道水系得以溝通,降低了洪澇災(zāi)害的發(fā)生頻率,減少因洪水泛濫、排水不暢造成的危害;二是農(nóng)村基礎(chǔ)設(shè)施得到明顯改善,工程實(shí)施后,改善排澇面積82.9萬畝,改善灌排面積56萬畝,為農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整和農(nóng)民脫貧致富以及農(nóng)村經(jīng)濟(jì)的發(fā)展創(chuàng)造了基礎(chǔ)條件,為促進(jìn)區(qū)域經(jīng)濟(jì)共同發(fā)展和穩(wěn)定農(nóng)村奠定了基礎(chǔ);三是人居環(huán)境得到明顯改善,凈化水體,美化河坡,為提高農(nóng)村集居區(qū)建設(shè)中的基礎(chǔ)設(shè)施條件、吸引農(nóng)民遷入集居區(qū),提供強(qiáng)有力的水利支撐。
本文的數(shù)據(jù)來源于淘寶網(wǎng)站,其內(nèi)容為用戶對口罩的評論文本信息.
本文通過谷歌瀏覽器的插件Web Scraper 進(jìn)行數(shù)據(jù)爬取,獲得了關(guān)于口罩的用戶評論文本數(shù)據(jù).其Web Scraper 的采集流程如圖2所示.
圖2 Web Scraper 采集流程圖
獲取的數(shù)據(jù)里含有許多臟數(shù)據(jù),因此需要進(jìn)行一系列的數(shù)據(jù)預(yù)處理工作:首先需要進(jìn)行數(shù)據(jù)清洗,清洗掉無效的表情以及“此用戶沒有填寫評論!”這一類無效評論數(shù)據(jù),然后進(jìn)行文本分詞,最后去除停用詞.
SnowNLP 的分詞方法是基于Character-Based Generative Model[12]的,其中=[w1,w2,···wm] 為特定單詞序列,為 給定的包含n個(gè)字符的句子,[c,t]為的縮寫,公式如下:
可進(jìn)一步簡化為:
Jieba 分詞則是基于Trie 樹結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞的情況構(gòu)成有向無環(huán)圖,再采用動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合,對于未登錄詞(Out-Of-Vocabulary,OOV),則采用基于漢字成詞能力的HMM(Hidden Markov Model),使用Viterbi 算法,生成按B(Begin)E(End)M(Middle)S(Siggle)標(biāo)記的中文詞匯.并且Jieba 分詞還支持自定義字典,對于提高分詞準(zhǔn)確率有一定幫助.
在文本分詞方面,本文沒有用SnowNLP 自帶的分詞而選擇的是Jieba 分詞.因?yàn)橥ㄟ^對比SnowNLP 和Jieba 的分詞效果(如表1),可知SnowNLP 在分詞時(shí),無法識別否定詞,如“不貪便宜”被分成了“不”和“貪便宜”,“不喜歡”分成了“不”和“喜歡”,這會導(dǎo)致在后續(xù)的情感分析時(shí)使整體偏向的情緒與語句正確的情緒相反.但是Jieba 分詞的效果卻相對更好,“不貪便宜”和“不喜歡”都分詞正確.因?yàn)槭褂肑ieba 分詞能調(diào)用Jieba 分詞提供的load_userdict()函數(shù)來自定義相應(yīng)的詞庫(本文為常用詞詞典和針對口罩評論詞的結(jié)合),優(yōu)化分詞效果,如“很好”、“不敢恭維”和“買教訓(xùn)”等,從而提高情感判斷的準(zhǔn)確率.
表1 Jieba 分詞與SnowNLP 分詞效果對比
在生成了針對口罩評論數(shù)據(jù)的語料庫和對數(shù)據(jù)進(jìn)行預(yù)處理后,為了得到經(jīng)過處理后的數(shù)據(jù)在此語料庫下的情感分析的準(zhǔn)確率,因此本文用通過手工標(biāo)注的16 308 條數(shù)據(jù)進(jìn)行了情感分析檢驗(yàn).得到檢驗(yàn)表表2.
表2 情感分析準(zhǔn)確率檢驗(yàn)表
表2中情感為積極的語句的準(zhǔn)確率為94.69%,情感為消極的語句的準(zhǔn)確率為89.65%,總語句的準(zhǔn)確率為92.20%.可見語句情感分析結(jié)果較好,因此可以用此方法對文本數(shù)據(jù)進(jìn)行情感分析.
通過對文本數(shù)據(jù)進(jìn)行情感分析的檢驗(yàn)后,以下將對剩下的112 622 條口罩的用戶評論文本數(shù)據(jù)進(jìn)行基于用戶評論的每日情感趨勢分析和情感關(guān)注分析.
通過SnowNLP 情感分析得到的數(shù)值分布在0 到1 之間,數(shù)值大于0.5 的評論情感為積極,小于等于0.5的評論情感為消極.其中數(shù)值越接近1,情感越積極,數(shù)值越接近0,情感越消極.在對用戶評論的每日情感趨勢進(jìn)行分析的研究中,對每天所預(yù)測出的所有情感數(shù)值做了取平均值的處理,并與國內(nèi)每日新增病例(含海外輸入)和本土每日新增病例(不含海外輸入)一起進(jìn)行相應(yīng)分析(如圖3),其中病例信息來自國家衛(wèi)生健康委員會官方網(wǎng)站.可見用戶評論的每日情感數(shù)值都較積極,但整體上情感數(shù)值有下降的趨勢.在3月11日前每日平均情感指數(shù)較高,之后指數(shù)就呈現(xiàn)緩緩下降趨勢,而本土每日新增的病例數(shù)在3月11日前病例數(shù)都較高,但是整體處于下降趨勢,而本土病例新增趨勢在3月11日之后就呈現(xiàn)平穩(wěn)態(tài)勢,這與情感指數(shù)在3月11日后整體處于下降趨勢相呼應(yīng).可見本土新增病例的趨勢在一定程度上影響著情感指數(shù)整體上的趨勢變化.而國內(nèi)新增病例在3月10日、14日、16日、23日、30日和4月11日的趨勢上升變化導(dǎo)致了當(dāng)日或之后一段時(shí)間每日情感趨勢上升的變化,在3月12日、17日、24日、31日和4月6日、9日的趨勢下降變化也相應(yīng)導(dǎo)致了當(dāng)日或之后一段時(shí)間每日情感趨勢下降的變化.因此本土新增病例的趨勢在一定程度上影響著每日情感趨勢的整體變化,而國內(nèi)新增病例的局部波動(dòng)變化趨勢也影響著每日情感相應(yīng)局部的波動(dòng)變化趨勢.
圖3 口罩評論數(shù)據(jù)的每日平均情感數(shù)值與新增病例
在對用戶評論進(jìn)行了每日情感趨勢分析后,為了進(jìn)一步了解用戶對于口罩的關(guān)注點(diǎn),因此本文將用SnowNLP情感分析得出的情感分析數(shù)值進(jìn)行了分類,分為積極情感和消極情感兩類,再分別取出出現(xiàn)次數(shù)前10 的高頻詞分別繪制成了情感為積極的高頻詞柱狀圖(圖4)和情感為消極的高頻詞柱狀圖(圖5).圖4中出現(xiàn)頻率最高的詞為“質(zhì)量”,共出現(xiàn)了30 921 次.其中從“質(zhì)量”、“包裝”、“價(jià)格”、“厚實(shí)”等詞中可以看出,影響用戶評論情感為積極的因素主要為口罩的質(zhì)量好、包裝好、價(jià)格實(shí)惠和口罩的厚實(shí),其次用戶也直接對其收到的口罩表達(dá)了“不錯(cuò)”、“好”、“挺好”等主觀情感.
圖4 口罩評論情感為積極的高頻詞統(tǒng)計(jì)柱狀圖
圖5 口罩評論情感為消極的高頻詞統(tǒng)計(jì)柱狀圖
在圖5中,值得注意的是,用戶的消極評論主要圍繞在“質(zhì)量”、“包裝”、“味道”、“醫(yī)用” 等關(guān)鍵詞上,可以看出用戶對于口罩的質(zhì)量差、包裝差、有異味、不是醫(yī)用等有著明顯的消極情感.并且客服的態(tài)度也對用戶的評論是否為消極有著一定的影響因素.
為了更直觀且美觀的顯示出用戶的關(guān)注點(diǎn),因此繪制出了用戶評論情感為積極的詞云圖(圖6)和情感為消極的詞云圖(圖7),圖中的字體的大小代表的是詞頻.從圖6中可以看出,用戶關(guān)注的核心為口罩的質(zhì)量,其次,“包裝”、“價(jià)格”、“厚實(shí)”等詞的關(guān)注點(diǎn)也較為突出,體現(xiàn)出了在疫情期間用戶對店鋪出售的口罩的質(zhì)量、包裝和價(jià)格表達(dá)了很高的贊美.從情感為消極的詞云圖圖7中可以看出用戶關(guān)注的核心依然為口罩的質(zhì)量,其次為“包裝”、“味道”、“醫(yī)用”、“客服”等,體現(xiàn)出用戶對個(gè)別店鋪售賣的口罩的質(zhì)量差、包裝差、有異味、沒有醫(yī)用標(biāo)準(zhǔn)、客服態(tài)度差表達(dá)了深深的憂慮.
圖6 口罩評論情感為積極的詞云圖
圖7 口罩評論情感為消極的詞云圖
因此對于需要提高口罩評論評分的商鋪,可以從口罩的質(zhì)量、包裝、價(jià)格、送貨速度、厚實(shí)度、是否有醫(yī)用標(biāo)準(zhǔn)以及客服態(tài)度上進(jìn)行改良.
本文對用戶評論數(shù)據(jù)的分析,是按照日期遞增進(jìn)行的,并且總天數(shù)只有42 天,因此對于不同的季節(jié)對用戶情感關(guān)注的影響以及疫情的不同發(fā)展階段對用戶對口罩評論的每日情感的發(fā)展趨勢的影響的分析是不太全面的,因此后續(xù)就需要采集時(shí)間跨度更大的數(shù)據(jù)進(jìn)行相應(yīng)研究.
本研究還存在著一定的缺陷,如情感分析所采集的數(shù)據(jù)量較小,導(dǎo)致情感分類準(zhǔn)確率只達(dá)到了92.20%,因此在后續(xù)的研究中,就需要采集更多的數(shù)據(jù)來對模型進(jìn)行訓(xùn)練,進(jìn)一步提高情感分類的準(zhǔn)確率.