王安寧,張 強(qiáng),彭張林,倪 鑫
(1.合肥工業(yè)大學(xué)管理學(xué)院,安徽 合肥 230009;2.過程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 23009)
在競(jìng)爭(zhēng)激烈的細(xì)分市場(chǎng)中,產(chǎn)品或服務(wù)的成功主要依賴于如何滿足用戶的需求[1-2]。為了避免單純的價(jià)格競(jìng)爭(zhēng),企業(yè)必須從用戶需求出發(fā)進(jìn)行下一代產(chǎn)品的改進(jìn)與創(chuàng)新[3]。Tietz等[4]已經(jīng)證實(shí)將用戶納入到產(chǎn)品的設(shè)計(jì)過程比單純地將其作為產(chǎn)品的消費(fèi)者更加有效,特別是產(chǎn)品領(lǐng)先用戶的參與,能夠幫助企業(yè)及時(shí)把握市場(chǎng)需求動(dòng)向,獲取更多的產(chǎn)品創(chuàng)新源泉[5]。因此,用戶作為產(chǎn)品使用者參與產(chǎn)品的設(shè)計(jì)與開發(fā)過程已經(jīng)成為產(chǎn)品創(chuàng)新的發(fā)展趨勢(shì)。其中,準(zhǔn)確地獲取用戶的需求是產(chǎn)品設(shè)計(jì)的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的問卷調(diào)查和用戶訪談等用戶需求獲取方法存在投入成本高、花費(fèi)時(shí)間長(zhǎng),樣本量較小等諸多局限[6]。隨著在線社交媒體的快速發(fā)展,越來越多的用戶傾向通過在線社交媒體表達(dá)自己的消費(fèi)體驗(yàn)。研究表明77%消費(fèi)者在購(gòu)買之前會(huì)瀏覽在線評(píng)論,并且相比個(gè)人推薦,75%消費(fèi)者更加相信在線評(píng)論[7]。在線評(píng)論成為了用戶購(gòu)買決策的關(guān)鍵影響因素[8-11]。
相比較于傳統(tǒng)的用戶需求獲取方法,從在線評(píng)論中獲取用戶需求存在如下優(yōu)勢(shì):1)數(shù)據(jù)來源于真實(shí)用戶的主動(dòng)分享,并不依賴于被動(dòng)的調(diào)研和訪談[8];2)樣本量大,而且數(shù)據(jù)易獲取[12];3)數(shù)據(jù)內(nèi)容豐富,包含了各種產(chǎn)品特征。這些在線評(píng)論包括用戶對(duì)產(chǎn)品多個(gè)特征的評(píng)價(jià),并帶有正面或負(fù)面的態(tài)度。因此,社交媒體中的在線評(píng)論成為企業(yè)挖掘用戶需求的重要信息資源[13-16]。當(dāng)前研究工作圍繞著產(chǎn)品特征的提取[17]、情感分析[18]和重要性識(shí)別[19-20]等方面,采用了計(jì)量經(jīng)濟(jì)學(xué)等模型對(duì)在線評(píng)論中產(chǎn)品特征偏好進(jìn)行合計(jì),并反饋到下一代產(chǎn)品的開發(fā)過程[9,21]。
從在線評(píng)論中提取產(chǎn)品特征是獲取用戶需求偏好至關(guān)重要的一步。產(chǎn)品特征一般可分為兩類,一類是由企業(yè)提供的產(chǎn)品結(jié)構(gòu)和性能,一類是用戶提出的產(chǎn)品屬性[22]。Hu和Liu[23]認(rèn)為產(chǎn)品特征通常為名詞或名詞短語,提出使用詞性分析方法。此外,分析特征的情感可以幫助企業(yè)明白產(chǎn)品的成功和失敗,以便更好地適應(yīng)市場(chǎng)需求的改變。Tuarob和Tucker[24]提出利用情感分析量化產(chǎn)品的市場(chǎng)支持度,識(shí)別成功和失敗的產(chǎn)品,并將產(chǎn)品特征自動(dòng)分成兩類:滿意特征和抱怨特征。
用戶偏好識(shí)別對(duì)于理解用戶需求至關(guān)重要,在企業(yè)的產(chǎn)品規(guī)劃以及產(chǎn)品設(shè)計(jì)過程中扮演重要角色。一些學(xué)者采用計(jì)量經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)方法確定不同產(chǎn)品特征的偏好程度[25-26]。為了縮短數(shù)據(jù)收集時(shí)間和降低調(diào)研成本,F(xiàn)ader和Hardie[27]利用銷售點(diǎn)數(shù)據(jù)提出離散選擇模型計(jì)算不同產(chǎn)品特征的用戶偏好。近幾年,在線評(píng)論成為獲取用戶偏好的一種重要信息資源,對(duì)企業(yè)的市場(chǎng)定位、市場(chǎng)細(xì)分、新產(chǎn)品開發(fā)以及廣告投放都必不可少[28]。Decker等[8]基于在線評(píng)論的打分行為提出了一種計(jì)量經(jīng)濟(jì)學(xué)的框架去計(jì)算產(chǎn)品特征的偏好系數(shù)。
目前,相關(guān)研究工作主要側(cè)重于用戶綜合偏好的識(shí)別,忽視了區(qū)域特征對(duì)用戶偏好的影響。區(qū)域特征作為企業(yè)區(qū)域化經(jīng)營(yíng)策略以及個(gè)性化產(chǎn)品設(shè)計(jì)需要考慮的重要維度,是用戶偏好識(shí)別的關(guān)鍵要素。以汽車產(chǎn)品為例,用戶偏好受到區(qū)域地理環(huán)境的影響,山地地區(qū)的用戶更加重視汽車的動(dòng)力效果。此外,大城市和中小城市用戶的需求則可能會(huì)由于消費(fèi)觀念的不同而產(chǎn)生差異。例如大城市用戶節(jié)能環(huán)保意識(shí)較好,可能更加重視汽車產(chǎn)品的油耗性能。因此,相比較于不考慮區(qū)域特征得到的用戶綜合需求偏好,如何識(shí)別顯著的區(qū)域需求偏好成為了在線評(píng)論分析的關(guān)鍵問題之一。用戶需求偏好一般包括產(chǎn)品需求偏好和特征需求偏好兩個(gè)層次,產(chǎn)品需求偏好表現(xiàn)為用戶對(duì)產(chǎn)品的滿意度[24],特征需求偏好表現(xiàn)為用戶對(duì)產(chǎn)品特征的情感極性[19-20]。
鑒于此,本文將利用文本挖掘方法提取產(chǎn)品評(píng)論中的“特征-觀點(diǎn)”對(duì),并識(shí)別產(chǎn)品特征的情感極性(正面或者負(fù)面)。然后,基于特征觀點(diǎn)計(jì)算每條評(píng)論的產(chǎn)品滿意度。最后,利用卡方檢驗(yàn)?zāi)P秃头讲罘治瞿P头謩e驗(yàn)證特征情感極性和產(chǎn)品滿意度與區(qū)域特征的關(guān)聯(lián)關(guān)系,并發(fā)現(xiàn)其中顯著的區(qū)域需求偏好。
目前研究大多選用易于量化的指標(biāo)來度量產(chǎn)品滿意度,例如用戶評(píng)分等級(jí)、評(píng)論數(shù)量等,忽視了產(chǎn)品評(píng)論內(nèi)容中各維度的信息。由于產(chǎn)品具有多特征的特點(diǎn),用戶對(duì)各產(chǎn)品特征的態(tài)度構(gòu)成了用戶對(duì)產(chǎn)品的滿意度?;谶@種考慮,本文提出了一種基于用戶對(duì)產(chǎn)品特征態(tài)度的方法量化產(chǎn)品滿意度。此外,由于不同區(qū)域的人文、經(jīng)濟(jì)以及地理環(huán)境都存在一定的差異,導(dǎo)致用戶對(duì)產(chǎn)品性能的偏好并不相同。因此,對(duì)于同一款產(chǎn)品在不同區(qū)域受歡迎程度是存在差異的。為此,本文定義如下三個(gè)子問題:(1)構(gòu)建面向特征的產(chǎn)品滿意度計(jì)算方法;(2)構(gòu)建卡方檢驗(yàn)?zāi)P妥R(shí)別產(chǎn)品特征情感極性與區(qū)域特征的關(guān)聯(lián)關(guān)系;(3)構(gòu)建方差分析模型識(shí)別產(chǎn)品滿意度與區(qū)域特征的關(guān)聯(lián)關(guān)系。
對(duì)于區(qū)域特征,本文選取了城市等級(jí)和城市地區(qū)兩個(gè)維度,城市等級(jí)主要是反映區(qū)域的經(jīng)濟(jì),而城市地區(qū)主要是反映是區(qū)域的人文與環(huán)境。其中對(duì)于城市等級(jí),本文根據(jù)2016中國(guó)城市等級(jí)劃分設(shè)置為{一線城市,二線城市,三線及以下城市}。而對(duì)于城市地區(qū),根據(jù)中國(guó)自然地理特征將城市地區(qū)劃分為七大區(qū)域,包括{華東,華南,華北,華中,東北,西北,西南}。
給定產(chǎn)品評(píng)論集合R={r1,r2,…,rn},其中每條用戶評(píng)論可以看作為一組“用戶—特征—觀點(diǎn)”對(duì)的集合,即:rk={(uk,fj,oj)|fj∈rk}。
其中,元素(uk,fj,oj)表示用戶uk對(duì)特征fj的觀點(diǎn)態(tài)度為oj。研究表明在用戶評(píng)論中產(chǎn)品特征通常是名詞或名詞短語[23]。本文采用POS標(biāo)記對(duì)用戶評(píng)論進(jìn)行詞性標(biāo)注,將名詞與名詞短語視為
圖1 基于在線評(píng)論的區(qū)域用戶需求偏好識(shí)別方法架構(gòu)
特征詞的候選集。通過對(duì)名詞和名詞短語進(jìn)行關(guān)聯(lián)規(guī)則挖掘,提取頻繁項(xiàng)集,作為新的特征候選集,一般僅考慮頻繁一項(xiàng)集和頻繁二項(xiàng)集。得到的頻繁項(xiàng)還需要進(jìn)行剪枝,主要是去除單字名詞和過濾一些常見名詞但又不是產(chǎn)品特征詞,例如“問題”、“家人”等[29]??紤]到很多特征詞表達(dá)的是同一產(chǎn)品特征,例如汽車產(chǎn)品的 “外觀”、“外形”、“車身”等特征詞反映的都是汽車外觀的整體情況。本文利用WordNet同義詞詞庫(kù)將特征候選集進(jìn)行同義詞整合,形成產(chǎn)品特征詞庫(kù)[30]。此外,特征的觀點(diǎn)詞通常都是形容詞,并在特征詞附近,比如:外觀顯得大氣,車頭十分飽滿等。本文先根據(jù)特征的觀點(diǎn)詞屬于積極詞庫(kù)還是消極詞庫(kù)作為初步的情感極性;再判斷是否存在否定或雙重否定的情況,如果存在否定,則轉(zhuǎn)換特征觀點(diǎn)的情感極性,若是雙重否定則不變。
“用戶-特征-觀點(diǎn)”對(duì)(uk,fj,oj)是用戶對(duì)產(chǎn)品特征表達(dá)個(gè)人觀點(diǎn)。從情感分析角度,一般可分為兩個(gè)維度來描述用戶觀點(diǎn):極性與強(qiáng)度。情感極性是描述用戶的正負(fù)面態(tài)度;情感強(qiáng)度是描述用戶態(tài)度強(qiáng)弱。用戶uk對(duì)特征fj的情感極性記為ek(fj),如果情感極性屬于積極,則ek(fj)值為1;如果情感極性屬于消極,則ek(fj)的值為0。
特征fj的情感強(qiáng)度記為ik(fj),一般分為三個(gè)等級(jí):加強(qiáng)型,一般型與削弱型。觀點(diǎn)附近出現(xiàn)“非?!?、“很”等有加強(qiáng)情感傾向的副詞,視為加強(qiáng)型;出現(xiàn)“比較”、“還”等有削弱情感傾向的副詞,視為削弱型;沒有出現(xiàn)相關(guān)副詞,視為一般型。對(duì)于情感強(qiáng)度的量化,一般采用如下規(guī)則[30]:加強(qiáng)型情感,賦值為5;一般型情感,賦值為3;削弱型情感,賦值為1。
用戶uk對(duì)產(chǎn)品的滿意度sk,本文用概率p(sk)表示對(duì)產(chǎn)品滿意的概率。根據(jù)全概率公式:
p(sk)=∑p(sk/fj)p(fj)
(1)
其中,p(fj)為特征fj的權(quán)重wj,表示用戶uk對(duì)特征fj的重視程度。本文考慮情感強(qiáng)度i和描述內(nèi)容長(zhǎng)度l兩個(gè)因素來衡量特征的權(quán)重。為了確保wj的值在0到1之間,可以定義為公式(2):
(2)
(3)
受區(qū)域經(jīng)濟(jì)、人文以及環(huán)境等因素的影響,特征情感極性和產(chǎn)品滿意度與區(qū)域特征存在一定的關(guān)聯(lián)關(guān)系。因此,本節(jié)包括兩方面內(nèi)容:(1)構(gòu)建卡方檢驗(yàn)?zāi)P妥R(shí)別產(chǎn)品特征情感極性與區(qū)域特征的關(guān)聯(lián)關(guān)系;(2)構(gòu)建方差分析模型識(shí)別產(chǎn)品滿意度與區(qū)域特征的關(guān)聯(lián)關(guān)系。
特征情感極性是定性變量,屬性值只有正面和負(fù)面。因此,本文采用交叉表卡方檢驗(yàn)識(shí)別特征情感極性與區(qū)域特征的關(guān)聯(lián)關(guān)系。本節(jié)以城市等級(jí)為例,根據(jù)城市等級(jí)和特征情感極性,評(píng)論被分成6組,如表1。Rk表示城市等級(jí)k的評(píng)論數(shù)量,Ci表示特征情感極性ei的評(píng)論數(shù)量,nki表示城市等級(jí)k,并且特征情感極性ei的評(píng)論數(shù)量。
表1 城市等級(jí)-產(chǎn)品特征交叉表
原假設(shè)H0:對(duì)于產(chǎn)品p,用戶對(duì)特征fj的情感極性與用戶所在城市等級(jí)之間相互獨(dú)立。
備選假設(shè)H1:對(duì)于產(chǎn)品p,用戶對(duì)特征fj的情感極性與用戶所在城市等級(jí)存在關(guān)聯(lián)關(guān)系。
基于原假設(shè)H0,得到如下公式:
pki=pkpi
(4)
(5)
(6)
其中,pki表示評(píng)論既屬于城市等級(jí)k,特征情感極性又為ei的概率;pk表示評(píng)論屬于城市等級(jí)k的概率;pi表示特征的情感極性為ei的概率。
Eki表示既屬于城市等級(jí)k,且對(duì)特征fj的情感極性為ei的期望評(píng)論數(shù),易得:
(7)
根據(jù)卡方檢驗(yàn)?zāi)P?,特征情感極性與城市等級(jí)的卡方統(tǒng)計(jì)量計(jì)算公式如(11)所示:
(8)
本文結(jié)合城市等級(jí)和城市地區(qū)兩個(gè)區(qū)域特征,構(gòu)建方差分析模型識(shí)別產(chǎn)品滿意度與區(qū)域特征的關(guān)聯(lián)關(guān)系。因此,該問題可以分解成三個(gè)子問題:(1)識(shí)別城市等級(jí)與產(chǎn)品滿意度的關(guān)聯(lián)關(guān)系;(2)識(shí)別城市地區(qū)與產(chǎn)品滿意度的關(guān)聯(lián)關(guān)系;(3)識(shí)別城市等級(jí)和城市地區(qū)交互效應(yīng)與產(chǎn)品滿意度的關(guān)聯(lián)關(guān)系。
(1)城市等級(jí)與產(chǎn)品滿意度的關(guān)聯(lián)關(guān)系
原假設(shè)H0:對(duì)于產(chǎn)品p,不同城市等級(jí)的產(chǎn)品滿意度均值沒有差異。
備選假設(shè)H1:對(duì)于產(chǎn)品p,不同城市等級(jí)的產(chǎn)品滿意度均值存在差異
(2)城市地區(qū)與產(chǎn)品滿意度的關(guān)聯(lián)關(guān)系
原假設(shè)H0:對(duì)于產(chǎn)品p,不同城市地區(qū)的產(chǎn)品滿意度均值沒有差異。
備選假設(shè)H1:對(duì)于產(chǎn)品p,不同城市地區(qū)的產(chǎn)品滿意度均值存在差異
(3)城市等級(jí)和城市地區(qū)交互效應(yīng)與產(chǎn)品滿意度的關(guān)聯(lián)關(guān)系
原假設(shè)H0:對(duì)于產(chǎn)品p,城市等級(jí)因素和城市地區(qū)因素對(duì)的產(chǎn)品滿意度均值沒有交互效應(yīng)影響。
備選假設(shè)H1:對(duì)于產(chǎn)品p,城市等級(jí)因素和城市地區(qū)因素對(duì)的產(chǎn)品滿意度均值有交互效應(yīng)影響。
(9)
此外,SSA,SSB,SSAB分別計(jì)算如下:
(10)
(11)
(12)
SSE=SST-SSA-SSB-SSAB
(13)
若F≥Fα,拒絕原假設(shè)H0,接受備選假設(shè)H1。F值越大,說明影響程度越大。通過上述方差分析模型,可以驗(yàn)證區(qū)域特征對(duì)產(chǎn)品滿意度的影響程度以及檢驗(yàn)是否存在顯著影響,并得出產(chǎn)品滿意度與區(qū)域特征的關(guān)聯(lián)關(guān)系。
表2 方差分析表
注:因素A表示城市等級(jí),因素B表示城市地區(qū);df為自由度,n表示樣本總數(shù),SS為方差平方和,MS=SS/df
5.1.1 數(shù)據(jù)收集與預(yù)處理
本文數(shù)據(jù)來源汽車之家(autohome.com.cn)的口碑,口碑是由購(gòu)買相應(yīng)車型的用戶發(fā)表。本文以瑞虎5車型和艾瑞澤5車型為案例,共獲取有效口碑樣本4448條。由于汽車產(chǎn)品的層次結(jié)構(gòu)復(fù)雜,特征眾多。為了便于分析,將評(píng)論中的眾多特征整合成:外觀、空間、內(nèi)飾、油耗、動(dòng)力、操控、舒適性和性價(jià)比八個(gè)特征。根據(jù)本文第3節(jié)提出的“特征-觀點(diǎn)”提取、情感極性判定以及產(chǎn)品滿意度計(jì)算,得到特征情感極性和產(chǎn)品滿意度的結(jié)構(gòu)化數(shù)據(jù),如表3所示。
表3 評(píng)論的特征情感極性和產(chǎn)品滿意度結(jié)構(gòu)化數(shù)據(jù)
5.1.2 特征情感極性與產(chǎn)品滿意度分布
根據(jù)產(chǎn)品特征情感極性和產(chǎn)品滿意度的結(jié)構(gòu)化數(shù)據(jù),統(tǒng)計(jì)特征情感極性,如圖2和圖3所示。其中,艾瑞澤5的空間和外觀性能優(yōu)異,而動(dòng)力、內(nèi)飾和油耗的抱怨則較多。瑞虎5的操控、舒適性以及性價(jià)比表現(xiàn)突出,而油耗、外觀,尤其是空間,負(fù)面情感較多。
圖2 艾瑞澤5車型產(chǎn)品特征情感極性的分布
圖3 瑞虎5車型產(chǎn)品特征情感極性的分布
對(duì)于產(chǎn)品滿意度的分布,均值越大,說明產(chǎn)品口碑越好。方差越小,說明品牌感知較一致。圖4展示了瑞虎5和艾瑞澤5的滿意度分布,可以發(fā)現(xiàn)瑞虎5車型的滿意度大致服從正態(tài)分布,均值不大,同時(shí)方差也不大,說明口碑一般,用戶感知較一致。而艾瑞澤5車型的滿意度大致服從線性分布,均值較大,同時(shí)方差也較大,說明口碑較好,用戶感知存在差異,部分用戶的需求偏好沒有得到滿足。
圖4 產(chǎn)品滿意度的分布
圖5 艾瑞澤5車型不同城市等級(jí)的產(chǎn)品特征極性均值
圖6 艾瑞澤5車型不同城市地區(qū)的產(chǎn)品特征極性均值
圖7 瑞虎5車型不同城市等級(jí)的產(chǎn)品滿意度分布
圖8 瑞虎5車型不同城市地區(qū)的產(chǎn)品滿意度分布
本文主要研究特征情感極性和產(chǎn)品滿意度的區(qū)域差異。為了便于觀察,圖5和圖6分別展示了艾瑞澤5車型各產(chǎn)品特征情感極性均值在不同城市等級(jí)和城市地區(qū)的分布差異。從圖5可以發(fā)現(xiàn)動(dòng)力、油耗和舒適性在不同城市等級(jí)的分布差異較大。其中,對(duì)于油耗特征,城市等級(jí)越高,情感極性均值越低,這與大城市的交通擁堵和節(jié)能環(huán)保意識(shí)較高相符合。從圖6可以發(fā)現(xiàn)空間、動(dòng)力、油耗、操控和舒適性在不同城市地區(qū)的分布差異很大,其中,動(dòng)力和油耗的情感極性均值在西南地區(qū)都比較低,說明西南地區(qū)的用戶對(duì)油耗和動(dòng)力的性能比較重視。
圖7和圖8分別展示了瑞虎5車型產(chǎn)品滿意度在不同城市等級(jí)和城市地區(qū)的分布差異。可以發(fā)現(xiàn)不同城市等級(jí)的產(chǎn)品滿意度分布差異并不大,而不同城市地區(qū)的產(chǎn)品滿意度分布存在較大差異,其中西北地區(qū)產(chǎn)品滿意度均值明顯低于其他地區(qū)。
5.2.1 特征情感極性與區(qū)域特征的關(guān)聯(lián)關(guān)系
對(duì)于產(chǎn)品特征情感極性與區(qū)域特征的關(guān)聯(lián)關(guān)系,本文分別建立城市等級(jí)和城市地區(qū)與產(chǎn)品特征情感極性的卡方檢驗(yàn)?zāi)P停錂z驗(yàn)結(jié)果如表4和表5所示。結(jié)果發(fā)現(xiàn)空間和油耗的情感極性與城市等級(jí)的關(guān)聯(lián)程度較大。對(duì)于油耗特征,瑞虎5車型和艾瑞澤5車型分別為5.129和12.175,接近或高于5.991。說明油耗在不同城市等級(jí)的情感極性分布存在較顯著差異。圖9展示了瑞虎5和艾瑞澤5不同城市等級(jí)的油耗特征正面評(píng)論與期望正面評(píng)論之差??梢园l(fā)現(xiàn)兩款車型的分析結(jié)果比較一致,其中,三線及以下城市的油耗正面情感極性的評(píng)論數(shù)量明顯高于期望值,而一線城市對(duì)油耗正面情感極性的評(píng)論數(shù)量則明顯低于期望值。這說明三線及以下城市用戶對(duì)油耗性能的要求相對(duì)較低,而一線城市用戶則更加看重油耗性能。
此外,空間和外觀的情感極性受城市地區(qū)因素的影響顯著,尤其是空間特征,瑞虎5和艾瑞澤5的卡方值達(dá)到14.134和13.834,都高于12.593。圖10展示了瑞虎5和艾瑞澤5不同城市地區(qū)的空間特征正面評(píng)論與期望正面評(píng)論之差??梢园l(fā)現(xiàn)瑞虎5和艾瑞澤5空間特征的區(qū)域偏好并不一致,主要是由于瑞虎5屬于SUV車型,而艾瑞澤5屬于轎車,兩者的用戶對(duì)空間特征的需求差別很大。對(duì)于瑞虎5車型,東北和華南地區(qū)的空間特征正面情感極性的評(píng)論數(shù)量明顯高于期望值,而西北地區(qū)的正面情感極性的評(píng)論數(shù)量則明顯低于期望值,說明東北和華南地區(qū)的用戶對(duì)瑞虎5車型的空間特征比較滿意,而西北地區(qū)的用戶可能由于對(duì)SUV車型空間特征要求相對(duì)更高,導(dǎo)致對(duì)瑞虎5車型的空間特征還不是很滿意。對(duì)于艾瑞澤5車型,東北地區(qū)的用戶對(duì)艾瑞澤5車型的空間特征比較滿意,而華中地區(qū)用戶則相對(duì)還不是很滿意。綜合來看,東北地區(qū)用戶相對(duì)來說對(duì)兩種車型的空間特征需求并不高,而西北地區(qū)用戶對(duì)SUV車型空間要求相對(duì)較高,華中地區(qū)用戶對(duì)轎車空間要求相對(duì)較高。
表4 瑞虎5車型的產(chǎn)品特征-情感極性區(qū)域特征的卡方值
表5 艾瑞澤5車型的產(chǎn)品特征-情感極性區(qū)域特征的卡方值
圖9 不同城市等級(jí)的油耗特征正面評(píng)論期望落差
圖10 不同城市地區(qū)的空間特征正面評(píng)論的期望落差
5.2.2 產(chǎn)品滿意度與區(qū)域特征的關(guān)聯(lián)關(guān)系
對(duì)于產(chǎn)品滿意度與區(qū)域特征的關(guān)聯(lián)關(guān)系,本文得出瑞虎5和艾瑞澤5車型的方差分析結(jié)果分別如表6和7表所示。其中,瑞虎5車型的產(chǎn)品滿意度與城市等級(jí)的Sig.值為0.660,說明受城市等級(jí)的影響較小。而城市地區(qū)的Sig.值為0.262,說明一定程度上存在較顯著影響。若僅對(duì)城市地區(qū)與產(chǎn)品滿意度的單因素方差分析如表8,發(fā)現(xiàn)Sig.的值為0.041,說明城市地區(qū)在一定程度上對(duì)產(chǎn)品滿意度產(chǎn)生了顯著影響。同時(shí),艾瑞澤5車型的城市等級(jí)和城市地區(qū)Sig.的值分別為0.041和0.023,如表7所示。說明艾瑞澤5車型的滿意度同時(shí)受城市等級(jí)和城市地區(qū)的顯著影響。
5.3.1 特征提取及其情感分析的驗(yàn)證
為進(jìn)一步說明實(shí)驗(yàn)結(jié)論的有效性,需要驗(yàn)證產(chǎn)品特征提取及其情感極性判定方法的有效性。本文從在線評(píng)論數(shù)據(jù)中隨機(jī)抽取50條,進(jìn)行人工產(chǎn)品特征和情感極性標(biāo)注,標(biāo)注結(jié)果包含16個(gè)特征,117次特征情感極性描述。對(duì)于產(chǎn)品特征的提取,在保證準(zhǔn)確率不是太低的情況下,召回率要盡可能大,從而保證最終形成的產(chǎn)品特征詞庫(kù)盡可能多地包含用戶描述的產(chǎn)品特征。
表6 瑞虎5車型產(chǎn)品滿意度的方差分析
表7 艾瑞澤5車型產(chǎn)品滿意度的方差分析
表8 城市地區(qū)與產(chǎn)品滿意度的單因素方差分析結(jié)果
特征提取算法中,頻繁項(xiàng)集的支持度大小設(shè)置決定了特征提取的準(zhǔn)確率和召回率。表9顯示了不同支持下的特征提取的準(zhǔn)確率、召回率以及F1值。隨著支持度的增加,準(zhǔn)確率呈上升趨勢(shì),召回率呈下降趨勢(shì),F(xiàn)1值呈下降趨勢(shì),支持度設(shè)置大約在0.03左右為最佳。
表9 不同支持度下的產(chǎn)品特征提取實(shí)驗(yàn)
對(duì)于產(chǎn)品特征的情感分析,本實(shí)驗(yàn)使用已標(biāo)注數(shù)據(jù)(正負(fù)樣例)訓(xùn)練了情感詞典,得到了1484個(gè)情感詞。通過50條標(biāo)注評(píng)論的檢驗(yàn),117個(gè)情感極性標(biāo)注被正確識(shí)別出109個(gè)。準(zhǔn)確率達(dá)到93.2%,而常用的樸素貝葉斯算法準(zhǔn)確率僅為87.6%,主要是由于本文方法是具體地針對(duì)每條評(píng)論中每個(gè)產(chǎn)品特征的情感詞來識(shí)別情感極性,因而具有更高的準(zhǔn)確率。
5.3.2 產(chǎn)品滿意度驗(yàn)證
產(chǎn)品滿意度在一定程度上與用戶打分保持一致。滿意度越高,打分越高。很多在線評(píng)論網(wǎng)站,都提供在線打分,汽車之家網(wǎng)站上有大量打分?jǐn)?shù)據(jù)。實(shí)驗(yàn)獲取了2000個(gè)艾瑞澤5車型的用戶打分,對(duì)比本文方法得到的產(chǎn)品滿意度,兩者皮爾遜相關(guān)系數(shù)為0.91,說明本文方法計(jì)算的產(chǎn)品滿意度具備一定的可靠性。此外,我們計(jì)算每個(gè)打分下的產(chǎn)品滿意度均值,如圖11所示。可以看出打分越高,滿意度均值越高。
圖11 打分和滿意度的關(guān)系圖
本文首先利用特征提取與情感分析方法處理在線評(píng)論文本,識(shí)別用戶對(duì)產(chǎn)品特征的情感極性以及量化用戶對(duì)產(chǎn)品的滿意度。再考慮城市等級(jí)和城市地區(qū)兩個(gè)因素對(duì)區(qū)域需求偏好的影響,分別采用卡方檢驗(yàn)?zāi)P秃头讲罘治瞿P万?yàn)證特征情感極性和產(chǎn)品滿意度與區(qū)域特征之間的關(guān)聯(lián)關(guān)系,發(fā)現(xiàn)存在顯著區(qū)域差異的產(chǎn)品特征。
本文利用汽車之家網(wǎng)站的瑞虎5和艾瑞澤5的評(píng)論數(shù)據(jù)驗(yàn)證了模型的有效性。實(shí)驗(yàn)結(jié)果表明,油耗、空間、外觀和內(nèi)飾等特征的情感極性以及產(chǎn)品滿意度受區(qū)域因素的顯著影響。本文研究建立起了產(chǎn)品特征情感極性與區(qū)域特征的關(guān)聯(lián)關(guān)系,為企業(yè)的區(qū)域化產(chǎn)品配置設(shè)計(jì)與營(yíng)銷策略提供理論依據(jù)。
此外,由于區(qū)域的人文經(jīng)濟(jì)以及環(huán)境條件是隨著時(shí)間不斷改變的。企業(yè)需要及時(shí)把握這種變化來改進(jìn)和創(chuàng)新產(chǎn)品以適應(yīng)不斷改變的用戶需求偏好。因此,未來的研究我們將進(jìn)一步探索區(qū)域用戶需求偏好的變化趨勢(shì)和規(guī)律。