蔣楷丞,李艷婷*
(1.上海交通大學(xué)中國質(zhì)量發(fā)展研究院,上海 200240;2.上海交通大學(xué)機(jī)械與動力工程學(xué)院,上海 200240)
汽車產(chǎn)業(yè)是中國的重要支柱產(chǎn)業(yè)之一,隨著中國經(jīng)濟(jì)發(fā)展進(jìn)入新常態(tài),國家貿(mào)易形勢發(fā)生巨大變化,準(zhǔn)確地預(yù)測汽車銷量,無論是對政府從宏觀上整體掌控汽車行業(yè)的發(fā)展態(tài)勢和行業(yè)現(xiàn)狀,還是對生產(chǎn)銷售企業(yè)從微觀上研究市場行情、制定產(chǎn)銷計劃和庫存計劃都有著至關(guān)重要的作用。
自汽車行業(yè)興起以來,汽車銷售預(yù)測便一直受到很多學(xué)者關(guān)注。Fantazzini等[1]使用多元模型對德國10個汽車品牌的汽車月度銷量進(jìn)行了預(yù)測。Landwehr等[2]將汽車設(shè)計質(zhì)量相關(guān)指標(biāo)納入預(yù)測模型,用以提高汽車預(yù)測準(zhǔn)確度。為提高汽車銷量的預(yù)測準(zhǔn)確度,學(xué)者通常會在模型中加入相關(guān)的宏觀經(jīng)濟(jì)指標(biāo)作為解釋變量,如國民生產(chǎn)總值、失業(yè)率和股市的變化指標(biāo)等。Wang等[3]使用基于自適應(yīng)網(wǎng)絡(luò)的模糊推理系統(tǒng),通過大量宏觀經(jīng)濟(jì)指標(biāo)來估算臺灣的新車銷量。Sangasoongsong等[4]在向量誤差修正模型(vector error correction model,VECM)中加入消費(fèi)者物價指數(shù)、失業(yè)率、汽油價格和新房開工數(shù)4個經(jīng)濟(jì)指標(biāo),有效提升了模型預(yù)測準(zhǔn)確率。實證分析表明,汽車銷量與國家部分宏觀經(jīng)濟(jì)指標(biāo)存在長期均衡關(guān)系,將宏觀經(jīng)濟(jì)指標(biāo)加入預(yù)測模型能輔助銷量預(yù)測。
近年來,隨著互聯(lián)網(wǎng)的發(fā)展和網(wǎng)上評論的興起,網(wǎng)絡(luò)口碑評論已經(jīng)發(fā)展成為消費(fèi)者購買決策的重要參考依據(jù),對產(chǎn)品銷量有著重要影響,因此網(wǎng)上的口碑?dāng)?shù)據(jù)也逐漸作為解釋變量加入預(yù)測模型。Fan等[5]利用樸素貝葉斯(naive Bayes,NB)算法的情感分析方法,從汽車論壇的在線評論內(nèi)容中提取情感指標(biāo),并將其整合到模型的仿制系數(shù)中,有效提高了年度汽車預(yù)測精度。Pai等[6]綜合推文和股票數(shù)據(jù)以及歷史銷量數(shù)據(jù),使用最小二乘支持向量回歸(least squares support vector regression,LSSVR)對美國月度汽車總銷量進(jìn)行預(yù)測。劉業(yè)政等[7]通過口碑評論提取某些汽車品牌的情感極性來對這些汽車品牌月度銷量進(jìn)行預(yù)測。
在現(xiàn)有研究中,一方面,大多數(shù)學(xué)者對評論情感在汽車銷量預(yù)測上的應(yīng)用還不夠完善,有的學(xué)者使用通用的情感詞典對評論進(jìn)行情感提取,情感提取準(zhǔn)確度相對不高,隨后直接使用評論情感值對汽車銷量進(jìn)行預(yù)測,缺乏對消費(fèi)者感知情感和評論有用性進(jìn)行研究,導(dǎo)致結(jié)果可能存在誤差;另一方面,現(xiàn)有的汽車銷量預(yù)測研究主要集中在國家總體汽車銷量或者是某一類車型銷量,如SUV汽車、新能源汽車銷量預(yù)測,相對而言較為宏觀,缺乏針對具體車型銷量的預(yù)測研究,難以為企業(yè)制定排產(chǎn)和銷售計劃提供有效情報數(shù)據(jù)。
為此,提出考慮線上評論的感知情感和宏觀經(jīng)濟(jì)指標(biāo)的銷量預(yù)測模型,用于提升單一車型銷量預(yù)測準(zhǔn)確度,為相關(guān)企業(yè)的制定產(chǎn)銷計劃和發(fā)展戰(zhàn)略提供支撐。
提出的考慮評論感知情感和宏觀經(jīng)濟(jì)環(huán)境的汽車銷量預(yù)測模型主要包括以下3個階段:第一階段為將口碑評論文本量化為評論感知情感指數(shù);第二階段為對宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行選擇;第三階段為結(jié)合三類數(shù)據(jù)構(gòu)建了預(yù)測模型,對車型銷量進(jìn)行預(yù)測。整個銷量預(yù)測模型框架如圖1所示。
網(wǎng)上口碑評論數(shù)據(jù)是典型的文本數(shù)據(jù),進(jìn)行感知情感指數(shù)計算需要用到文本情感分析技術(shù)。目前的情感分析技術(shù)可以分為兩類:一類是有監(jiān)督的,通過標(biāo)注預(yù)料進(jìn)行訓(xùn)練,提取特征,從而進(jìn)行情感傾向性分析,主要是基于機(jī)器學(xué)習(xí)方法,這種方法的優(yōu)點(diǎn)是情感的獲取相對客觀,但是對訓(xùn)練語料的依賴程度較高,需要大量的標(biāo)注語料;另一類是無監(jiān)督的,主要是基于情感詞典的方法,由詞典中情感詞的傾向性來決定語料的情感。
評論正文沒有特定的句式結(jié)構(gòu),用詞規(guī)范程度不高,存在很多專業(yè)詞匯,且缺少標(biāo)注預(yù)料用于提取相關(guān)特征,可使用無監(jiān)督的方法,構(gòu)建領(lǐng)域情感詞典來提取情感極性。適用于無監(jiān)督的方法。據(jù)此,構(gòu)建了領(lǐng)域?qū)S性~典,結(jié)合大連理工情感詞典對口碑評論進(jìn)行情感分?jǐn)?shù)提取,提高了情感提取的準(zhǔn)確度,其后依據(jù)消費(fèi)者對正負(fù)評論內(nèi)容感知的差異,基于前景理論計算消費(fèi)者感知情感,再依據(jù)消費(fèi)者對評論描述的歸因作用,將口碑評論文本量化為評論感知情感指數(shù),用于下一步的模型預(yù)測。
1.1.1 汽車領(lǐng)域情感詞典構(gòu)建
目前已有研究機(jī)構(gòu)構(gòu)建了一些通用情感詞典供學(xué)者研究應(yīng)用,如大連理工大學(xué)的情感詞匯本體庫[8],但是由于不同領(lǐng)域通常具有領(lǐng)域特征詞匯,同一個情感詞匯在不同領(lǐng)域的情感表達(dá)也存在差異,基礎(chǔ)情感詞典往往會表現(xiàn)出領(lǐng)域適應(yīng)性的問題,因此在特定的領(lǐng)域,需要結(jié)合該領(lǐng)域的專有情感詞典進(jìn)行情感分析,以提高準(zhǔn)確度。
圖1 預(yù)測模型框架圖Fig.1 A framework of forecast model
情感詞典的自動構(gòu)建方法主要分為以下兩類[9]:①基于知識庫的方法是通過詞和詞、詞義和詞義之間的關(guān)系,對通用的情感詞典進(jìn)行擴(kuò)展,來構(gòu)造新的情感詞典[10];②基于語料庫的方法則是依據(jù)語料庫中詞間關(guān)系或句式關(guān)系等來確定候選情感詞的情感極性,從而構(gòu)建詞典,特定領(lǐng)域的情感詞典通常是基于語料庫來進(jìn)行構(gòu)建[11]。
在基于語料庫的方法中,點(diǎn)互信息(pointwise mutual information,PMI)[12]的方法在所有可用的自動識別方法中有著精度較高、對各種類型的識別對象廣泛適用和語言適用范圍廣等優(yōu)點(diǎn),被廣泛應(yīng)用[13]。
點(diǎn)互信息方法主要思想是根據(jù)候選詞和正、負(fù)基準(zhǔn)詞在搜索引擎中共現(xiàn)的頻次來計算候選詞的情感傾向。借用點(diǎn)互信息方法的思想,根據(jù)汽車評論的實際特點(diǎn),將評論中的“最滿意”文本作為正向文檔,“最不滿意”文本作為負(fù)向文檔,通過候選情感詞在正負(fù)文檔中出現(xiàn)的頻次來計算其情感強(qiáng)度。候選詞w的情感極性Score(w)計算公式為
(1)
(2)
Score(w)=PMI(w,positive)-
PMI(w,negative)
(3)
式中:C(w,positive)、C(w,negative)分別表示候選詞在正、負(fù)向文檔中出現(xiàn)的頻次;C(w)表示詞語出現(xiàn)的總次數(shù);C(positive)、C(negative)分別表示正、負(fù)向文檔數(shù)。
為保證汽車領(lǐng)域?qū)S忻~的分詞準(zhǔn)確性,在使用結(jié)巴分詞工具對評論正文進(jìn)行分詞和詞性標(biāo)注前,在分詞詞庫中加入搜狗汽車領(lǐng)域細(xì)胞詞庫(https://pinyin.sogou.com/dict/),引入了汽車領(lǐng)域?qū)S性~匯。去除分詞結(jié)果中的停用詞后,本文將較大可能作為情感詞的形容詞、名詞、副詞和動詞加入到候選情感詞典[14],再通過上文介紹的點(diǎn)互信息方法來計算候選詞的情感極性??紤]情感詞出現(xiàn)頻次較小的時候,點(diǎn)互信息的方法可能會造成情感極性判斷出現(xiàn)誤差,故舍棄在正負(fù)文本中出現(xiàn)總頻率小于5的情感詞,生成最終的汽車領(lǐng)域情感詞典。
構(gòu)建的汽車領(lǐng)域?qū)S星楦性~典共有情感詞2 382個,其中正面情感詞1 288個,負(fù)面情感詞1 094個,部分情感詞分?jǐn)?shù)如表1所示。
1.1.2 評論感知情感提取
評論感知情感在基于詞典的方法提取評論的情感后,還需要考慮正負(fù)面情感帶來的感知差異,使用前景理論進(jìn)行調(diào)整計算得出。
表1 部分情感詞示例Table 1 Examples of the emotional words
采用大連理工情感詞匯本體庫[8]作為通用情感詞典,將其與本文構(gòu)建的領(lǐng)域情感詞典合并去重,并通過最大最小值方法將情感極性調(diào)整到[-2,2]區(qū)間,生成本文用于情感提取的詞典。隨后通過匹配句子中的情感詞獲取該句子最初始的情感分?jǐn)?shù)。
句子的情感不僅由情感詞確定,還會受到副詞的削弱或者增強(qiáng)、否定詞的反轉(zhuǎn)等影響。例如,“喜歡”是肯定的,但如果前面加上“不”一詞則變?yōu)榉穸āK?,對于單條評論,需要通過計算評論中情感詞的極性分?jǐn)?shù)、程度副詞及否定詞的調(diào)整影響來獲得單個句子的情感分?jǐn)?shù)。使用的是HowNet程度副詞和否定詞詞典,并且按照文獻(xiàn)[15]中的方法,根據(jù)否定詞和程度副詞的位置進(jìn)行調(diào)整,程度副詞調(diào)整分?jǐn)?shù)如表2所示。
實際生活中,消費(fèi)者瀏覽商品評論的時候,對正面的評論內(nèi)容往往不會很在意,相反,對負(fù)面的評論內(nèi)容會非常敏感??崧岢龅那熬袄碚揫16]能夠很好地對這個現(xiàn)象作出解釋:人們對損失和獲得的敏感程度不同,損失的痛苦要遠(yuǎn)遠(yuǎn)大于獲得的快樂,其價值函數(shù)如圖2所示。這種感知差異會在很大程度上會影響消費(fèi)者的決策行為:在購物時,評價中的負(fù)面描述往往會對消費(fèi)者造成更大的觸動和影響。
表2 程度副詞調(diào)整分?jǐn)?shù)Table 2 Degree adverb adjustment score
圖2 前景理論價值函數(shù)圖Fig.2 Prospect theory value function chart
1.1.3 感知情感指數(shù)計算
考慮到消費(fèi)者對評論的有用性感知,以及評論的傳播廣度等因素影響,基于歸因理論和評論瀏覽情況設(shè)計計算感知情感指數(shù),用以準(zhǔn)確量化評論對銷量的影響。
歸因指個體通過分析他人或自己的外在行為表現(xiàn)以推論和解釋其原因的過程。在商品評論中,在考慮是否接受評論者發(fā)布的評價時,消費(fèi)者會對評價信息進(jìn)行推測,以作為接受評論與否的重要依據(jù)[17]:當(dāng)評論的信息內(nèi)容被歸因于出自客觀(產(chǎn)品)因素時,消費(fèi)者認(rèn)為評論可信度更高,感知有用性越強(qiáng);相反,如果評論被歸因為主觀(個人)因素,則評論感知有用性弱。
通過評論中顯示的購買時間和評論時間的間隔來量化歸因傾向性帶來的評論感知有用性變化。通常,對于物質(zhì)產(chǎn)品,如本文的汽車,人們認(rèn)為購買和評論時間間隔越長,對產(chǎn)品的了解程度越高,則評論越客觀。所以設(shè)計如下分段函數(shù)來表征歸因感知有用性Gti,可表示為
(4)
式(4)中:θ為有用性調(diào)整因子,取值范圍為[0,1];Pti為月份t第i條評論的購車和評論間隔的月份;K1、K2為購買和評論間隔月份參數(shù),月份參數(shù)K1取值范圍為[1,5],月份參數(shù)K2取值范圍為[3,9],且K2-K1≥1。式(4)意義如下:購買和評論時間間隔小于K1,認(rèn)為其評論比較主觀,對消費(fèi)者影響程度較??;K1<時間間隔<K2,對消費(fèi)者影響程度一般;當(dāng)時間間隔大于K2,則認(rèn)為其評論比較客觀,影響程度大。
此外,感知情感指數(shù)的計算還需要考慮到評論的傳播范圍。通常,單條評論的瀏覽人數(shù)越多,評論人數(shù)和點(diǎn)贊人數(shù)越多,則其對銷量造成的影響越大[18]。因此,所設(shè)計的口碑指數(shù)計算公式為
(5)
宏觀經(jīng)濟(jì)指標(biāo)反映了當(dāng)前經(jīng)濟(jì)的運(yùn)行發(fā)展?fàn)顩r,對汽車行業(yè)上下游乃至消費(fèi)端有著重要的影響?,F(xiàn)存有大量可獲得宏觀經(jīng)濟(jì)指標(biāo),但其中只有部分指標(biāo)能夠用于汽車銷量預(yù)測。選擇經(jīng)濟(jì)指標(biāo)旨在改善對汽車銷量的預(yù)測,因此必須選擇足夠數(shù)量的經(jīng)濟(jì)指標(biāo)來揭示汽車銷量與經(jīng)濟(jì)指標(biāo)之間的結(jié)構(gòu)關(guān)系[ 4]。故在選擇候選經(jīng)濟(jì)指標(biāo)時考慮以下三個屬性來構(gòu)建候選經(jīng)濟(jì)指標(biāo)庫:表征汽車消費(fèi)者支付價格變化的指標(biāo);影響汽車行業(yè)大大小小的細(xì)分市場的需求行為的指標(biāo);代表國民經(jīng)濟(jì)和經(jīng)濟(jì)周期變化的指標(biāo)。
初步選擇的候選經(jīng)濟(jì)指標(biāo)庫中部分具有很強(qiáng)的共線性,且各經(jīng)濟(jì)指標(biāo)對銷量影響不同,需要對指標(biāo)作進(jìn)一步選擇。套索模型在回歸優(yōu)化函數(shù)中增加一個偏置項——L1范數(shù),以減少共線性的影響,從而減少模型誤差,并且L1范數(shù)傾向于產(chǎn)生稀疏系數(shù),能夠?qū)δP椭械淖兞窟M(jìn)行選擇。因此本文選用帶L1范數(shù)的套索模型對宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行選擇。在傳統(tǒng)的套索模型中,需要根據(jù)預(yù)測結(jié)果對參數(shù)α進(jìn)行調(diào)參,這里僅對宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行選擇,所以采用交叉驗證(cross-validation,CV)的方式選擇目標(biāo)損失函數(shù)評估最優(yōu)的模型和參數(shù),省去調(diào)參的過程。模型目標(biāo)損失函數(shù)為
(6)
基于計算得出的評論感知情感指數(shù)、篩選出的宏觀經(jīng)濟(jì)指標(biāo)和歷史銷量,構(gòu)建線性回歸模型對銷量進(jìn)行預(yù)測:
(7)
表3 預(yù)測模型輸入變量表及其含義Table 3 List of forecast model input variables and their meanings
模型輸入自變量較多,容易在擬合過程中造成過擬合現(xiàn)象,為了增強(qiáng)模型泛化能力,防止過擬合,并增強(qiáng)模型的解釋性,故在誤差損失函數(shù)中引入L1范數(shù)α‖w‖1。
現(xiàn)使用平均絕對誤差(mean absolute percentage error,MAPE)、均方根誤差(root mean squared error,RMSE)評判4個模型預(yù)測結(jié)果的準(zhǔn)確性,其數(shù)學(xué)表達(dá)式分別為
(8)
(9)
選用數(shù)據(jù)類型包括有汽車月度銷量、網(wǎng)上汽車評論以及相關(guān)宏觀經(jīng)濟(jì)指標(biāo)。其中汽車月度銷量數(shù)據(jù)來自搜狐汽車網(wǎng)(http://db.auto.sohu.com/home/),網(wǎng)上汽車評論數(shù)據(jù)來自汽車之家(https://www.autohome.com.cn/),宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)來自國家統(tǒng)計局(http://data.stats.gov.cn/)。
收集車型比較經(jīng)典、歷史銷量數(shù)據(jù)較為完整的卡羅拉、邁騰和捷達(dá)三款車型2015年3月—2019年2月,共48個月銷量數(shù)據(jù),在模型中將前36個月數(shù)據(jù)用作訓(xùn)練,后12個月數(shù)據(jù)用作測試。汽車銷量數(shù)據(jù)如圖3所示。
圖3 車型銷量Fig.3 Model sales
汽車之家作為China Webmaster 綜合排名第一的汽車行業(yè)網(wǎng)站,其數(shù)據(jù)具有較高的可信度和參考度,是眾多消費(fèi)者購車前的重要參考信息來源,故選取汽車之家上的相關(guān)車型數(shù)據(jù)進(jìn)行研究??紤]到口碑評論對汽車銷量帶來的影響可能存在較長的滯后性,因此選擇2014年3月—2019年2月,即往前延伸一年的評論數(shù)據(jù)進(jìn)行研究。共爬取了3個車型的11 794條數(shù)據(jù),其中卡羅拉6 263條,捷達(dá)2 258條,邁騰3 273條。單條評論數(shù)據(jù)包括有口碑的發(fā)表時間、購買時間、對該車最滿意的點(diǎn)、最不滿意的點(diǎn)、評論正文、瀏覽人數(shù)、評論人數(shù)和支持人數(shù)等內(nèi)容。單條評論示例如圖4所示。
依據(jù)3個屬性來對大量的宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行初步選擇,共選擇了工業(yè)品出廠價格指數(shù)、制造業(yè)采購經(jīng)理人指數(shù)、全國居民消費(fèi)價格指數(shù)和貨幣等47個指標(biāo),構(gòu)成候選經(jīng)濟(jì)指標(biāo)庫。同樣,考慮到宏觀經(jīng)濟(jì)指標(biāo)對汽車銷量影響的滯后性,選擇的數(shù)據(jù)時間跨度前移1個月,為2015年2月—2019年1月。
2.2.1 汽車評論處理
針對單條評論文本,先根據(jù)標(biāo)點(diǎn)符號,將文本分成多個句段,再對每個句段進(jìn)行情感提取和調(diào)整加和,得到該評論的感知情感,其后再根據(jù)式(5)計算得到車型該月的感知情感指數(shù)。計算得出的卡羅拉感知情感指數(shù)走勢如圖5所示。
從圖5可以看出,2015年2月的評論評分較低,閱讀了瀏覽人數(shù)較多的幾條評論,其情感值基本都偏負(fù)面,其部分描述為“剛開始的時候容易滅火”“有點(diǎn)小顛簸的時候發(fā)飄”“異響那是通病了”“玻璃縫隙太大”,感知情感指數(shù)計算較為準(zhǔn)確。
圖4 單條評論內(nèi)容示例Fig.4 An example of the comment content
圖5 卡羅拉感知情感指數(shù)Fig.5 Corolla perceived emotion index
2.2.2 宏觀經(jīng)濟(jì)指標(biāo)處理
候選經(jīng)濟(jì)指標(biāo)庫中小部分宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)存在少量缺失值,因缺失值較少,且基于宏觀經(jīng)濟(jì)指標(biāo)變化趨勢較為穩(wěn)定的原因,使用線性插值的方法對缺失值進(jìn)行填補(bǔ)。在加入模型之前,使用最大最小值方法將其轉(zhuǎn)換到[0,1]區(qū)間,轉(zhuǎn)換后的部分宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)如圖6所示。隨后通過套索方法對參數(shù)數(shù)據(jù)進(jìn)行篩選。最終加入模型中的宏觀經(jīng)濟(jì)指標(biāo)如圖6所示。
考慮到模型預(yù)測準(zhǔn)確度,在進(jìn)行各車型銷量的最終預(yù)測之前,需要對口碑情感計算過程中的參數(shù)進(jìn)行優(yōu)化選擇。采用卡羅拉車型數(shù)據(jù)作為輸入,以MAPE為評價標(biāo)準(zhǔn),對參數(shù)進(jìn)行選擇。各參數(shù)預(yù)設(shè)如下:a=0.7、b=0.8、φ=2;θ=0.5、K1=2、K2=5,隨后對各參數(shù)在取值范圍內(nèi)的值進(jìn)行討論。
圖6 宏觀經(jīng)濟(jì)指標(biāo)Fig.6 Macroeconomic indicators
首先對評論感知情感計算過程中的三個參數(shù)進(jìn)行討論,參數(shù)a、b的取值范圍為[0,1],設(shè)定步長為0.1,分別將其代入到評論感知情感計算過程,隨后按步驟進(jìn)行預(yù)測,從圖7(a)、圖7(b)明顯看出當(dāng)a=0.7時,MAPE取得最小值;b=0.8時,MAPE取得最小值。參數(shù)φ為大于等于1的常數(shù),故設(shè)定為[1,3],步長同樣為0.1,MAPE在φ=2.0時取的最小值,結(jié)果如圖7(c)所示。
圖7 MAPE與a、b、φ和θ的關(guān)系Fig.7 Relationship between MAPE and a,b,φ and θ
隨后對感知情感指數(shù)計算過程中的參數(shù)的取值進(jìn)行討論,θ的取值范圍為[0,1],設(shè)定步長為0.1,代入到模型中進(jìn)行計算,當(dāng)θ=0.5的時候預(yù)測的MAPE值最小,結(jié)果如圖7(d)所示。對計算過程中的K1、K2進(jìn)行討論,K1取值范圍為[1,5],K2取值范圍為[3,9],取值均為整數(shù),且K2-K1≥1,結(jié)果如圖8所示。從圖8可以看出,當(dāng)K1>2時,預(yù)測的MAPE顯著增大;當(dāng)K2>5時,預(yù)測的MAPE顯著變小。因此,得出如下結(jié)論:消費(fèi)者認(rèn)為,當(dāng)購買和評論的時間間隔小于2個月時,評論者對購買的汽車了解不足,其評論有用性較弱;當(dāng)時間間隔大于等于2個月,小于5個月時,評論者對汽車了解一般,其評論有用性一般;當(dāng)時間間隔大于等于5個月時,評論者對汽車了解充分,其評論有用性較強(qiáng)。
圖8 MAPE與K1、K2取值關(guān)系Fig.8 Relationship between MAPE and K1,K2
通過對各參數(shù)進(jìn)行充分的討論,對感知情感指數(shù)計算過程中的參數(shù)作出如下賦值:a=0.7、b=0.8、φ=2、θ=0.5、K1=2、K2=5。
為了驗證感知情感指數(shù)和宏觀經(jīng)濟(jì)指標(biāo)的加入對模型預(yù)測準(zhǔn)確度的提升,構(gòu)建了僅使用歷史銷量變量的模型(M1)、使用感知情感指數(shù)和歷史銷量的模型(M2)、使用宏觀經(jīng)濟(jì)指標(biāo)和歷史銷量的模型(M3)以及使用上述提到所有變量的模型(M4)共4個模型來進(jìn)行對比研究。3個車型的預(yù)測結(jié)果如表4所示。
從預(yù)測結(jié)果可以看出,與僅使用歷史銷量的M1模型相比,添加了感知情感指數(shù)變量的M2模型,其3個車型預(yù)測的MAPE和RMSE都明顯減少。同樣,添加了宏觀經(jīng)濟(jì)指標(biāo)變量的M3模型,相較于M1,預(yù)測準(zhǔn)確度也有所提升。添加了情感評分和宏觀經(jīng)濟(jì)指標(biāo)的預(yù)測模型即M4模型,預(yù)測準(zhǔn)確度得到進(jìn)一步增強(qiáng),與M1模型相比,預(yù)測結(jié)果最好的卡羅拉車型MAPE從13.02%減少到7.96%,RMSE從4 259減少到2 774,其他兩個車型的MAPE也下降了約4%,RMSE下降了1 000左右??_拉車型銷量的擬合結(jié)果和預(yù)測結(jié)果如圖9所示。
圖9 卡羅拉模型預(yù)測結(jié)果Fig.9 Corolla models forecast results
通過構(gòu)造汽車領(lǐng)域的專用詞典,基于前景理論和歸因理論構(gòu)建了感知情感指數(shù),結(jié)合宏觀經(jīng)濟(jì)指標(biāo)和歷史銷量數(shù)據(jù),建立了回歸模型對汽車銷量進(jìn)行滾動預(yù)測。
表4 各車型預(yù)測結(jié)果Table 4 Forecast results for each model
(1)實例研究證明,加入口碑?dāng)?shù)據(jù)和宏觀經(jīng)濟(jì)指標(biāo)能夠有效提高了具體車型的銷量預(yù)測準(zhǔn)確度,證實了在線評論和國家宏觀經(jīng)濟(jì)環(huán)境對汽車銷售有著重要影響,在模型中加入相關(guān)解釋變量能夠有效增強(qiáng)預(yù)測準(zhǔn)確度。
(2)在感知情感指數(shù)計算過程中獲得如下啟示:在潛在消費(fèi)者進(jìn)行決策的時候,汽車在線評論中的負(fù)面情感對潛在消費(fèi)者決策帶來的影響要大于正面情感;在潛在消費(fèi)者看來,購車時間與評論發(fā)表時間間隔在2~5個月的評論更具有可信度。
(3)本文模型在銷量波動大的節(jié)點(diǎn)預(yù)測效果不佳。在時間序列模型上,灰色預(yù)測模型、支持向量回歸(support vector regression,SVR)、反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)等方法已經(jīng)得到廣泛應(yīng)用,在后續(xù)的研究中,可以根據(jù)數(shù)據(jù)特性考慮運(yùn)用組合預(yù)測模型進(jìn)行預(yù)測。所使用的網(wǎng)絡(luò)評論數(shù)據(jù)僅來自一家汽車網(wǎng)站,難以完整表征整個網(wǎng)絡(luò)對該車型的口碑情感,后續(xù)可以考慮基于多源數(shù)據(jù)來計算網(wǎng)絡(luò)情感指數(shù)。