李 想
(寧波大學 機械工程與力學學院,寧波 315211)
在線客戶評論是消費者在網(wǎng)絡消費平臺上發(fā)表的,對某種產(chǎn)品或服務的使用體驗和質量評價,通過在線評論,消費者可以更好地獲取產(chǎn)品質量信息、評估商家信譽[1].一方面,對在線評論的研究有助于幫助電商平臺挖掘顧客消費行為與消費特征[2,3],并根據(jù)消費者的差異性為不同類別的消費者提供專屬服務;另一方面,以顧客需求為主導的消費模式以深入人心,在線評論包含大量的顧客意見[4],對產(chǎn)品的優(yōu)化改進有重要的參考意義.
目前,對于在線評論的研究已經(jīng)取得很多的成果.苗蕊等從歸因理論的視角,對真實評分和平均評分的差異性所產(chǎn)生的有用性影響進行解讀,為評論數(shù)據(jù)的研究提供新的理論支撐[5];Alaei AR 等從數(shù)據(jù)集的使用和關鍵評價指標的表現(xiàn)兩個方面對旅游業(yè)應用的不同情緒分析方法進行了評價,并對情感分析在旅游業(yè)中未來的研究趨勢進行了總結[6];修國義等引入信源和信宿對在線評論信息傳遞效率進行測量,輔助讀者對重要的在線信息進行篩選[7];Cheng XS 等通過實證研究了網(wǎng)上評論內(nèi)容對潛在顧客信任認知的影響,并對信任感知的相關關系進行了研究,發(fā)現(xiàn)評論內(nèi)容正向影響消費者對酒店的信任[8];于超等提出一種基于在線評論的服務要素的優(yōu)化配置方法,提取出滿足顧客需求程度最大的服務要素[9].
不難看出,對在線評論的研究多集中在對消費者的影響上[10],在企業(yè)的產(chǎn)品優(yōu)化決策方面的應用較少.在線評論中包含了大量的顧客對產(chǎn)品的意見信息,研究如何從非結構化的評論數(shù)據(jù)中提取出重要的意見信息,對產(chǎn)品的優(yōu)化有著重要的指導意義.文章把產(chǎn)品評論數(shù)據(jù)應用于產(chǎn)品的更新優(yōu)化中,對產(chǎn)品優(yōu)化輔助信息獲取的技術和方法進行研究,第1 節(jié)介紹了基于在線評論的產(chǎn)品優(yōu)化決策信息的獲取的分析流程,第2 節(jié)計算了顧客意見的權值計算方法,第3 節(jié)介紹了產(chǎn)品優(yōu)化信息的提取流程,第4 節(jié)通過實例驗證了方法的可行性.
基于在線評論的產(chǎn)品優(yōu)化決策信息的獲取的分析流程分為幾個步驟:評論數(shù)據(jù)采集,對數(shù)據(jù)的進行預處理,對評論數(shù)據(jù)進行挖掘,數(shù)據(jù)的應用和展示,如圖1所示.
圖1 基于在線評論的產(chǎn)品優(yōu)化決策信息獲取的挖掘流程
文章采用scrapy 爬蟲框架從電商網(wǎng)站爬取在線評論數(shù)據(jù),并保存到語料庫中;然后對語料庫中的數(shù)據(jù)進行清洗和預處理,如去重、分詞、分句等;在線評論挖掘是對預處理后的數(shù)據(jù)進行產(chǎn)品特征抽取和顧客意見抽取,評論數(shù)據(jù)的情感分類計算,產(chǎn)品特征意見詞對的抽??;評論的應用主要是通過特征意見權重計算對特征意見詞對進行重要性排序,構建從評論到產(chǎn)品優(yōu)化的關聯(lián)矩陣,獲取優(yōu)化信息.
詞頻統(tǒng)計指統(tǒng)計某詞在文件中出現(xiàn)的次數(shù),主要方法有IDF、TF-IDF 等[11],對評論數(shù)據(jù)進行詞頻統(tǒng)計一定程度上可以反映顧客對產(chǎn)品各維度的關注情況.詞頻統(tǒng)計的基本思想是根據(jù)詞頻找到重要性較高的詞,而通過加權的方式過濾掉重要性低的詞,由于是對評論數(shù)據(jù)進行統(tǒng)計,一個詞出現(xiàn)在多條評論中時,其重要性并不需要被降低,所以文章采用基于詞頻的方式直接進行統(tǒng)計,并通過詞頻占比的方式計算詞的關注度,如式(1)所示.
情感分類是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程[12-15].文章通過對評論數(shù)據(jù)的情感分析,探究顧客對產(chǎn)品各特征(外觀、功能等)的看法,確定產(chǎn)品在客戶心中的滿意程度,根據(jù)顧客的滿意情況求出產(chǎn)品各特征在優(yōu)化過程中的情感權重,即滿意度和重要性呈負相關,基本步驟如下:
(1)預處理 通過編寫代碼自動實現(xiàn)評論數(shù)據(jù)的去重、清洗、分詞、去停用詞的工作.
(2)特征提取 由于機器學習只能對數(shù)值或類別數(shù)據(jù)進行訓練,所以需要轉化成向量的形式,文章通過Doc2Vec 詞向量模型[16]對處理好的數(shù)據(jù)進行特征向量提取.
(3)情感分類 通過邏輯回歸分類器對提取的特征向量進行訓練,生成情感分類模型,實現(xiàn)對評論數(shù)據(jù)的情感分類.
文章選取已標記的消極評論和積極評論各5000 條作為訓練集,通過對訓練集預處理、特征提取、分類器訓練3 個步驟,構建分類模型,隨機抽取消極評論和積極評論各1000 條作為測試集,分類準確率88.6%,召回率87.7%,通過訓練好的模型對數(shù)據(jù)進行情感分類,然后按照式(2)進行顧客的滿意度在產(chǎn)品優(yōu)化中的權重計算.
一般顧客的產(chǎn)品某一特征滿意程度越低其在產(chǎn)品優(yōu)化中的重要性越高,即其重要性和滿意度成負相關,式(2)主要用于計算產(chǎn)品各特征的情感權值,表征產(chǎn)品各維度在產(chǎn)品優(yōu)化中的重要程度.ti為產(chǎn)品的某一特征,Q(ti)表示ti特征的情感權值,qi為情感占比,λ為權重系數(shù),qk表示情感閾值,當產(chǎn)品某一維度情感占比低于閾值時,可以根據(jù)優(yōu)化的需要適當提高情感權重,情感閾值體現(xiàn)對滿意度低于某值的特征的容忍程度.
顧客對產(chǎn)品某一特征可能會有多個意見,為表征各意見的重要程度,文章把在某一產(chǎn)品特征中的某一顧客意見的重要性用內(nèi)權值表示,并通過式(3)計算某一產(chǎn)品特征的各意見內(nèi)權值.由于顧客的表達的多數(shù)為非專業(yè)術語,同一意見可能適用于多個產(chǎn)品特征,這時需要降低其權重,文章提出了外權值的概念,表示某一意見對各產(chǎn)品維度的重要程度,使用式(4)進行計算.
式中,ti表示產(chǎn)品某一維度,oj表示ti的某一顧客意見,oji為權重,In(ti)為指向ti的 意見權重集合,out(ti)為oj指向的產(chǎn)品維度的意見權重集時合.
產(chǎn)品特征ti的 某一顧客意見oj的重要性由ti的關注度、滿意度、內(nèi)權重、外權重共同決定,所以由式(1)-式(4)得出產(chǎn)品特征ti的 某一顧客意見oj的總的權值為:
通過式(5)即可分別求得各客戶意見總體權重,權值越大其特征-意見詞對tioj的重要程度越高,其中 β是為了平衡值得大小便于展示,當qi≥qk時 λ的值為1.
文章為了能從評論數(shù)據(jù)中提取出用于產(chǎn)品優(yōu)化的輔助信息,需要先提取出在線評論中的顧客的具體意見,基本流程如圖2所示.
圖2 顧客意見提取流程
文章通過詞頻抽取出來客戶關注的產(chǎn)品特征和顧客意見構建特征詞庫T和意見詞庫O,假設每個產(chǎn)品特征都指向所有的客戶意見,形成特征-意見詞對tioj,再通過權重計算式(5)計算出評論中的特征-意見詞對tioj的權重矩陣,最后根據(jù)權重矩陣提取出重要的顧客意見.
評論中的顧客意見一般為顧客對產(chǎn)品某些特征的情感表達或問題現(xiàn)象的描述,表達較為模糊,需要構建客戶意見tioj與具體優(yōu)化信息optr的映射關系,映射關系及其權重w每個企業(yè)都有所偏重,一般由專業(yè)人士確定,其映射關系如表1所示,其optr的重要性由tioj-optr映射關系表中的權重w和顧客意見的重要性共同決定.
表1 顧客意見和優(yōu)化輔助信息的映射關系
假設任何一個的tioj都指向所有opt,通過w表示其相關性程度,如表1所示.映射關系組成的矩陣中,一般一個tioj對應一個或幾個optr,所以映射關系矩陣是一個多數(shù)值為零的矩陣.通過權重矩陣提取出重要的tioj,再由映射關系表提取出對應的optr,實現(xiàn)由顧客模糊的情感表達到產(chǎn)品優(yōu)化所需要的決策信息的映射.
通過scrapy 框架爬取vivo X20 手機在天貓網(wǎng)站上的產(chǎn)品評論信息,構建分析模型對這些評論語句進行分詞等預處理操作,計算顧客關注的詞頻占比F(ti),詞頻統(tǒng)計的結果可視化展示如圖3所示.
圖3 評論數(shù)據(jù)的詞云圖
根據(jù)詞頻統(tǒng)計提取出的客戶關注度較高的產(chǎn)品特征,更新特征詞庫,對特征詞進行情感分類,并計算客戶滿意度Q(ti),情感閾值設置為0.5,情感權重系數(shù)設置為2,情感分類結果的可視化展示如圖4所示.
在圖4中,x軸以上的為正面評論數(shù),x軸以下的為負面的評論數(shù).通過情感分類結果可以直觀的了解顧客對產(chǎn)品和服務屬性的滿意情況.
圖4 在線評論的情感分類結果
更新顧客意見詞庫,構建產(chǎn)品特征和顧客意見的映射關系,根據(jù)權重計算式(5)把評論中的特征-意見詞對tioj轉化為權重矩陣,對重要的客戶意見進行降序排列,提取前5 個特征-意見詞對,如表2所示.
表2 顧客意見及其權重表
根據(jù)tioj-optr映射關系,提取出產(chǎn)品優(yōu)化所需要的輔助參考信息optr,文章設置信息映射關系表中的權重都為1,其optr重要性全由tioj的重要性決定,optr的提取 如表3所示.
表3 顧客意見和優(yōu)化輔助信息的相關矩陣
通過分析可知,這款產(chǎn)品在服務質量、電池、內(nèi)存等方面需要優(yōu)化提升,具體優(yōu)化方案如上表所示,優(yōu)化信息中的列權重之和表征優(yōu)化信息的重要性,在實際應用中,每個企業(yè)的優(yōu)化方法有所側重,這時專家可以適當?shù)恼{整映射關系矩陣中的權重系數(shù),提高本方法的適用性.
最終根據(jù)相關矩陣中權重的列和,對產(chǎn)品優(yōu)化信息進行降序排列,本章節(jié)僅取top4 進行展示,如表4所示.
表4 產(chǎn)品優(yōu)化方案
文章對產(chǎn)品優(yōu)化輔助信息獲取的技術和方法進行了研究,通過構建的客戶意見的權重算法模型,實現(xiàn)了產(chǎn)品優(yōu)化輔助信息提取,為企業(yè)中產(chǎn)品的優(yōu)化提供參考.通過實例分析提取出產(chǎn)品優(yōu)化所需要的顧客反饋信息,在節(jié)省的大量的人力成本的情況下為產(chǎn)品的優(yōu)化提供數(shù)據(jù)支持,提高了產(chǎn)品優(yōu)化的科學性.