基于在線問卷調(diào)查的卷煙競品評價文本挖掘分析

2021-09-14 15:17:46汪顯國李思源李思典林鴻佳楊晶津劉丹許磊

中國市場 2021年25期

關(guān)鍵詞：文本挖掘

汪顯國李思源李思典林鴻佳楊晶津劉丹許磊

[摘要]為了維護卷煙產(chǎn)品質(zhì)量和把握消費者關(guān)注熱點，通過在線問卷調(diào)查獲取消費者抽吸感知評價數(shù)據(jù)，并從消費者滿意度、評論熱度和文本特征提取等方面開展競品對比分析，實現(xiàn)了新的競品篩選及其特征提取方式。研究表明：①通過客觀評分得出卷煙A在外觀整體、吸味整體和產(chǎn)品綜合上的滿意度遠高于其他競品;②文本挖掘得出消費者關(guān)注的競品與專家篩選的競品存在差異，且其產(chǎn)品優(yōu)勢集中表現(xiàn)為“口感”“價格”“吸味”等。該分析方法可有效動態(tài)監(jiān)測消費者偏好和市場消費趨勢，為卷煙工業(yè)企業(yè)改進產(chǎn)品質(zhì)量提供支持。

[關(guān)鍵詞]在線問卷調(diào)查;競品評價;文本挖掘;TF-IDF算法;詞云圖

[DOI]10.13939/j.cnki.zgsc.2021.25.133

1 前言

卷煙產(chǎn)品質(zhì)量與卷煙企業(yè)的信譽、消費者的體驗、企業(yè)的生存發(fā)展息息相關(guān)。當前，以市場為導向，在滿足不同消費者需求的前提下培育高質(zhì)量的卷煙品牌已經(jīng)成為行業(yè)企業(yè)發(fā)展的共識。因此，獲取消費者的消費評價和需求信息對卷煙工業(yè)企業(yè)維護產(chǎn)品質(zhì)量而言顯得尤為重要。隨著互聯(lián)網(wǎng)的迅速發(fā)展，各種網(wǎng)絡(luò)平臺為企業(yè)提供與消費者溝通的便利渠道。利用網(wǎng)絡(luò)平臺形成的在線問卷調(diào)查成了獲取卷煙消費評價的有效途徑，同時彌補了由評吸員評價的傳統(tǒng)方式中存在的樣本少、成本高、主觀性不強等不足。在所收集的問卷數(shù)據(jù)中，通常會存在消費者對產(chǎn)品的主觀評價，以文本數(shù)據(jù)的形式呈現(xiàn)，反映了消費者的真實體驗和使用心得，蘊含了極其豐富的信息。采用文本分析方法挖掘文本數(shù)據(jù)的隱含信息，可以幫助企業(yè)了解消費者的真實需求，具有重要的現(xiàn)實意義[1]。

文本挖掘分析，又稱為意見挖掘，是利用自然語言處理技術(shù)、數(shù)據(jù)挖掘算法等對帶有情感色彩的主觀性文本進行預處理、歸納和推理的過程[2]。近些年來，運用文本挖掘技術(shù)將難以量化的文本數(shù)據(jù)進行清洗、整合、轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)，并提取有價值的信息已廣泛應(yīng)用于商業(yè)[3]、旅游[4]和金融[5]等領(lǐng)域。然而，對于問卷調(diào)查中消費者主觀評價文本的研究卻鮮見報道。因此，文章基于在線問卷調(diào)查采集而來的競品評價文本，利用文本挖掘技術(shù)探索消費者對卷煙產(chǎn)品的關(guān)注熱點，剖析國內(nèi)市場卷煙的熱銷品及其產(chǎn)品優(yōu)勢，捕捉消費者對產(chǎn)品質(zhì)量的需求，為卷煙工業(yè)企業(yè)改進卷煙產(chǎn)品質(zhì)量提供參考。

2 研究方法

2.1 在線問卷調(diào)查

為了深入了解消費者評價卷煙抽吸感知的關(guān)鍵要素，通過營銷渠道邀請全國31個省市消費者參與卷煙A及競品的評吸、評價活動，并進行在線問卷調(diào)查。問卷由結(jié)構(gòu)化客觀題和非結(jié)構(gòu)化主觀題組成，分為人口學特征、抽吸評價和競品對比及質(zhì)量改進三部分。人口學特征包括性別、年齡、煙齡、消費水平4個問題，抽吸評價包括香氣濃度、香氣類型、一致性、抽吸感受等8個問題，競品對比及質(zhì)量改進的指標評價、主觀評價等3個問題。其中，第三部分除了客觀評分以外，還設(shè)置主觀評價的問題。例如“您認為在15～20元/包的常規(guī)支產(chǎn)品中，還有哪款產(chǎn)品抽吸體驗更好或在當?shù)馗鼤充N，該產(chǎn)品主要好在哪些方面？”該部分構(gòu)成了問卷調(diào)查中競品評價的文本數(shù)據(jù)。

2.2 文本挖掘方法

2.2.1 中文分詞

在進行文本數(shù)據(jù)分析前，需要對文本進行分詞處理。中文分詞就是將一段話切割成有字和詞或短語的小片段，是文本挖掘、特征提取的基礎(chǔ)[6]。在自然語言分類中，中文原本起步就比國外晚了很多年，在分詞的技術(shù)上更是借鑒國外的方法。目前，常用的中文分詞算法有：基于詞典的分詞方法、基于語義的分詞方法及基于統(tǒng)計的分詞方法等。其中，基于詞典的分詞方法是選定的字或詞構(gòu)成字符串，與字典里的字符串進行匹配[6]。假設(shè)需識別文本中的字符串Z，若詞典中存在字符串Z，則可匹配成功。該方法效率高但是對新詞的識別能力不足，需經(jīng)常更新詞典[7];基于語義的分詞方法是根據(jù)中文的句法以及語義來劃分句子，從而達到分詞的目的。這種方法需要前期做大量的準備工作，需要對幾乎所有的語料、語義、語法進行標注，甚至還需要考慮中文語義里的反諷、反語以及正詞反義等一系列的特殊語義;基于統(tǒng)計的分詞方法是根據(jù)同時出現(xiàn)的相鄰兩個字的頻率來進行分詞，可以不受待處理文本領(lǐng)域的限制自動排除歧義并識別相應(yīng)的詞語[7]。

以上3種中文分詞方法各有優(yōu)缺點，文章采用基于詞典的分詞方法對文本進行分詞，并調(diào)用R軟件的jiebaR安裝包來實現(xiàn)。jiebaR包擁有自己的系統(tǒng)詞典，且詞匯量相當豐富，結(jié)合自建的煙草專有名詞詞典，共同形成本文文本分析的分詞詞典。

2.2.2 文本數(shù)據(jù)清洗

首先，原始文本數(shù)據(jù)會包含大量重復性、無語義的評論，例如數(shù)字、字母以及特殊字符，或者包含例如“沒有”“好”字符很小的極短評論，此類評論內(nèi)容蘊含的信息量很少，會增加文本分析的復雜度，需將其清除過濾。

其次，對文本分詞處理后會出大量的停用詞。停用詞是指在信息檢索中，為節(jié)省存儲空間和提高搜索效率，在處理自然語言數(shù)據(jù)之后會自動過濾掉某些字或詞，這些字或詞即被稱為Stop-Words。對于停用詞的去除，即可采用現(xiàn)有的停用詞詞典，也可以根據(jù)需要自建停用詞典。

最后，文本中使用頻率不高的非停用詞往往對文本特征的提取也沒有價值，故對這類詞也需要進行清除，即可根據(jù)詞語的長度或出現(xiàn)的頻數(shù)進行過濾處理。

2.2.3 文本特征提取

特征提取本質(zhì)上是一種降維的技術(shù)，目的是從樣本所有的特征中篩選出具有區(qū)分性和代表性的特征，從而提高模型或方法的分類性能[8]。特征提取一般先構(gòu)建特征選取函數(shù)，計算所有特征的權(quán)重，然后篩選出權(quán)重大的特征作為關(guān)鍵特征。文本特征提取時常用的方法有文檔頻數(shù)[9]（Document Frequency，DF）、信息增益[10-11]（Information Gain，IG）、互信息[10，12-13]（Mutual Information，MI）、x2統(tǒng)計法[10，12]（CHI）等。通過比較，文章采用的方法是TF-IDF算法[14]，TF-IDF實際上是TF與IDF的乘積。TF代表詞頻（Term Frequency），指詞或短語在一篇文檔中出現(xiàn)的頻數(shù);IDF代表逆向文件頻率（Inverse Document Frequency），指含有詞或短語的文檔數(shù)在總文檔中所占比例取逆后的對數(shù)值，表征該詞項區(qū)分文檔的能力。當某個詞或短語在一篇文檔中出現(xiàn)的頻率越高并且在其他文檔中出現(xiàn)的次數(shù)越少，說明該詞或短語的區(qū)分能力越強，其TF-IDF值越大。計算公式如下：