蔣麗雯,張革伕,王雄峰,魏俊蓉
(1.衡陽市煙草專賣局(公司),湖南衡陽 421001;2.南華大學(xué)經(jīng)濟(jì)管理與法學(xué)學(xué)院,湖南衡陽 421001)
我國煙草生產(chǎn)量和銷售量占全世界的35%,是煙草生產(chǎn)大國,也是消費(fèi)大國。煙草稅收是我國國民經(jīng)濟(jì)重要來源之一,占全國總稅收收入的7%。近年來,隨著“Z 時(shí)代”變?yōu)橄M(fèi)主力,原有群體的健康消費(fèi)理念的起伏,煙草消費(fèi)市場同樣呈現(xiàn)出多樣化,許多品牌卷煙生產(chǎn)企業(yè)傾向于研發(fā)新品規(guī)香煙來應(yīng)對復(fù)雜多變的市場環(huán)境。2012至2017年,卷煙行業(yè)共有673個(gè)新品上市[1],到2018 年的卷煙在銷品達(dá)千個(gè),但其中有近半數(shù)的卷煙品規(guī)并未受到消費(fèi)者的歡迎,年銷售量僅在千箱以下的有相當(dāng)一部分是新開發(fā)的品規(guī)。這種情形對于零售商和商業(yè)企業(yè)構(gòu)成了巨大的庫存負(fù)擔(dān),最終影響到煙草工業(yè)企業(yè)的開發(fā)生產(chǎn)。國家煙草局提出,要充分應(yīng)用行業(yè)數(shù)據(jù)來評估品規(guī)市場狀態(tài),實(shí)施精準(zhǔn)市場投放。本文試圖通過對卷煙品規(guī)的外顯屬性特征進(jìn)行分析,尋找其與品規(guī)的市場狀態(tài)之間的關(guān)聯(lián)性,從而幫助相關(guān)企業(yè)在品規(guī)采購、品規(guī)開發(fā)設(shè)計(jì)決策上快速做出優(yōu)化,減少損失。
隨著數(shù)據(jù)在企業(yè)運(yùn)行過程中積累越來越多,數(shù)據(jù)逐漸被認(rèn)為是企業(yè)新的資產(chǎn)而加以利用,數(shù)據(jù)挖掘技術(shù)應(yīng)時(shí)而生。數(shù)據(jù)挖掘作為新興的信息處理技術(shù)逐漸被應(yīng)用于各行各業(yè),就是要從“看似無益的數(shù)據(jù)堆中找出有價(jià)信息”的過程,如在稅收領(lǐng)域可用來尋找逃稅漏稅者,證券領(lǐng)域可用來識別老鼠倉,教育領(lǐng)域可用來發(fā)現(xiàn)行為異常者。煙草行業(yè)也有大量的應(yīng)用,包括用來優(yōu)化卷煙倉儲、物流和營銷等[2]。數(shù)據(jù)挖掘技術(shù)通常包含一系列的數(shù)據(jù)分析算法模型,例如決策樹、關(guān)聯(lián)規(guī)則、聚類、神經(jīng)網(wǎng)絡(luò)、回歸、支持向量機(jī)等,所謂的大數(shù)據(jù)分析技術(shù)也以這些算法模型為基礎(chǔ)。限于本研究僅采用決策樹技術(shù),在此僅就決策樹技術(shù)應(yīng)用做介紹。
決策樹算法常用于分類預(yù)測。張偉豐[3]提出了將決策樹算法應(yīng)用于卷煙產(chǎn)品零售客戶分類中,從而根據(jù)客戶重要性和產(chǎn)品依存度來制定更為合理化的卷煙營銷策略。Salazar-Concha C 等人[4]通過決策樹技術(shù)建立了捐贈者重復(fù)獻(xiàn)血意愿的預(yù)測模型,準(zhǔn)確性達(dá)到84.17%,預(yù)計(jì)可以降低聯(lián)系希望獻(xiàn)血人和血液管理系統(tǒng)的成本。Permana B A C等[5]通過決策樹得出煩渴現(xiàn)象是糖尿病患者發(fā)病跡象的主導(dǎo)因素,分析了該因素對疾病的預(yù)測價(jià)值,可以幫助醫(yī)生更快地進(jìn)行診斷和分析疾病。Yunmeng Zhang[6]等人運(yùn)用決策樹算法來預(yù)測和分析兩種類型員工的營業(yè)額,管理者可以依據(jù)實(shí)驗(yàn)結(jié)果制定相應(yīng)的管理措施。構(gòu)建決策樹常用的算法有:CHAID、CART、QUEST、ID3、C4.5和C5.0算法等。鄒黃剛等[7]用ID3決策樹算法來設(shè)計(jì)一種新型汽車故障檢查方案,查找出何種因素引起的汽車故障,使駕駛員自身具備故障檢查能力,并做出相應(yīng)的預(yù)檢修,大大節(jié)約時(shí)間與成本。徐蕾等[8]在探討基于信息熵的決策樹在慢性胃炎中醫(yī)辨證分型中的應(yīng)用中,采用基于信息熵的決策樹C4.5算法建立中醫(yī)辨證模型,產(chǎn)生了可用于分類的診斷規(guī)則。蔣麗雯等[9]構(gòu)建了一個(gè)兩階段卷煙市場狀態(tài)評價(jià)模型,第一階段用決策樹C5.0算法進(jìn)行“俏、緊、待評”三態(tài)分類,然后再用C5.0對“待評”態(tài)進(jìn)行“平、松、軟”三態(tài)分類預(yù)測。
將決策樹算法和其他算法進(jìn)行組合,形成更為精準(zhǔn)和有效的分析模型也應(yīng)用廣泛,在此不再進(jìn)行介紹。
決策樹算法是一種機(jī)器學(xué)習(xí)模型,是一種導(dǎo)師監(jiān)督的機(jī)器學(xué)習(xí)模式,保證每次學(xué)習(xí)都能比原來做得更好。有監(jiān)督學(xué)習(xí)是一種從實(shí)例中學(xué)習(xí)的方法,導(dǎo)師能夠憑借自身掌握的知識對實(shí)例中樣本進(jìn)行分類,學(xué)習(xí)者可以利用導(dǎo)師分類好的實(shí)例進(jìn)行學(xué)習(xí),總結(jié)并導(dǎo)出其中的決策規(guī)則。導(dǎo)師分類決策的結(jié)果稱之為目標(biāo)變量值,樣本的其他屬性稱之為輸入變量。決策樹算法通過歸納和提煉現(xiàn)有數(shù)據(jù)中目標(biāo)變量和輸入變量的取值規(guī)律,以樹形結(jié)構(gòu)的形式展示實(shí)例的分類規(guī)則。
一棵決策樹可以劃分為節(jié)點(diǎn)和有向邊兩部分,節(jié)點(diǎn)分為三種:根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)與葉子節(jié)點(diǎn)。根節(jié)點(diǎn)是位于決策樹第一層的節(jié)點(diǎn),包含了所有的樣本。內(nèi)部節(jié)點(diǎn)代表著樣本中的某個(gè)屬性,葉子節(jié)點(diǎn)則表示實(shí)例劃分到最后的決策結(jié)果。有向邊表示從決策樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑,對應(yīng)著一條取值規(guī)則。一棵決策樹如圖1所示。
圖1 決策樹模型
ID3 算法作為決策樹的最典型模型,采用所謂的啟發(fā)式學(xué)習(xí)法,以信息增益率來確定最佳的分組變量和分割點(diǎn)。
基本問題描述:一個(gè)數(shù)據(jù)集可分為訓(xùn)練集和測試集兩個(gè)實(shí)例集,每個(gè)實(shí)例屬于一個(gè)特定的類型即分類,訓(xùn)練集用于學(xué)習(xí)以生成分類模型,測試集用來檢測模型的分類效果。數(shù)據(jù)集包含一組可供分割的屬性,每個(gè)屬性的取值可把訓(xùn)練實(shí)例集劃分為多個(gè)子集。每個(gè)屬性就是對實(shí)例進(jìn)行分類的可選影響因素。定義如下:
選擇屬性集A={A1,A2,…,Ai,…,An}
選擇的檢測屬性設(shè)為:Ai
Ai的值域V(Ai)={V1, …, VS}的S 個(gè)取值把訓(xùn)練實(shí)例集T分為S個(gè)子集如式(1)。
實(shí)例分類結(jié)果為Cj的概率為式(2)。
定義訓(xùn)練實(shí)例集T 的實(shí)例平均信息量由式(3)決定。
子集實(shí)例數(shù)與實(shí)例總數(shù)關(guān)系滿足式(5)。
選擇屬性作為檢測屬性的原則是:屬性Ai的不同取值把實(shí)例集劃分為若干子集之前和之后的實(shí)例平均信息量差值最大的那個(gè),即挑選式(7)取最大值的屬性。這就是啟發(fā)式規(guī)則。
GI(T,Ai)可認(rèn)為是屬性Ai對訓(xùn)練實(shí)例集T的信息變化量,熵總是朝大的方向增加,故稱之為熵增益原理。因此,啟發(fā)式規(guī)則實(shí)際上是選擇信息量最大的屬性作為檢測屬性Ai來劃分實(shí)例集,從而達(dá)到分類的目的。C4.5 和C5.0 都以ID3 算法為基礎(chǔ),做了改進(jìn)和優(yōu)化。
IBM SPSS Modeler 從SPSS 旗下的Clementine 而來,因后者被IBM公司收購,而改名為IBM SPSS Modeler。Clementine 最開始由SPSS軟件開發(fā)的部分人員脫離出來,以開發(fā)專業(yè)的商業(yè)智能軟件,旨在對海量數(shù)據(jù)進(jìn)行商業(yè)洞悉,挖掘數(shù)據(jù)價(jià)值。Clementine 提供了大量的算法模型,例如決策樹、C5.0、Apriori、KMeans和神經(jīng)網(wǎng)絡(luò)等,通過數(shù)據(jù)流圖來完成建模,并進(jìn)行可視化輸出。本文將利用該工具建模,完成從卷煙品規(guī)外顯屬性特征來預(yù)測其市場狀態(tài)。
卷煙的外顯屬性是指卷煙品規(guī)的外部包裝顯示出來的卷煙結(jié)構(gòu)特征,這種特征無需煙民實(shí)際品吸感受后形成認(rèn)知,而是實(shí)際存在的物理特征,對所有人的感知無差別。這些外顯特征包括如下:
1)品牌名稱(品規(guī),實(shí)際上為包含一定的子品牌和規(guī)格特征合成稱呼,例如:云煙小熊貓家園);省內(nèi)外(分省內(nèi)品規(guī)、省外品規(guī));類型(分烤煙型、非烤煙型);
2)焦油含量(實(shí)際由機(jī)構(gòu)測定,外包裝上注明);一氧化碳含量(實(shí)際由機(jī)構(gòu)測定,外包裝上注明);煙氣煙堿量(實(shí)際由機(jī)構(gòu)測定,外包裝上注明);
3)長度(異型煙的參數(shù)之一,標(biāo)準(zhǔn)為84cm);過濾嘴長(異型煙的參數(shù)之一,標(biāo)準(zhǔn)為25cm);
4)包裝類型(軟、硬兩種);包裝主色調(diào);包裝副色調(diào);
5)煙支數(shù)(20支為標(biāo)準(zhǔn),其他數(shù)量為異型);零售價(jià)(單位元/盒)。
品規(guī)的市場狀態(tài)以國家煙草總局發(fā)布的要求為依據(jù),各地根據(jù)卷煙品規(guī)的市場表現(xiàn)來評估,參考品規(guī)的訂購頻率、覆蓋面等指標(biāo),分為“俏、緊、平、松、軟”,反映出消費(fèi)者的接受度,是煙草商業(yè)企業(yè)采購卷煙和投放卷煙的依據(jù)。蔣麗雯等以衡陽地區(qū)銷售的卷煙為研究對象,就銷售的190多種卷煙品規(guī)進(jìn)行了市場狀態(tài)評估,本文研究的卷煙同樣為衡陽煙草,將以這些狀態(tài)數(shù)據(jù)為導(dǎo)師,應(yīng)用決策樹模型,基于卷煙品規(guī)的外顯屬性特征來預(yù)測其可能狀態(tài)。也就是看卷煙外表來預(yù)判卷煙在消費(fèi)者中的接受情況。本研究所采集的卷煙品規(guī)外顯屬性特征數(shù)據(jù)如圖2所示,用Excel文件形式作為數(shù)據(jù)源,右邊最后一列為市場狀態(tài),最開始將利用文獻(xiàn)給出的狀態(tài)值作為導(dǎo)師,交給模型學(xué)習(xí)。
本研究模型的構(gòu)建包含三個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理和建模。
本文使用的卷煙外顯屬性特征數(shù)據(jù)通過相關(guān)煙草網(wǎng)站和煙草局查詢獲得,對應(yīng)的卷煙市場狀態(tài)根據(jù)相關(guān)領(lǐng)域蔣麗雯等的研究所得。研究數(shù)據(jù)集包含湖南省在銷的45個(gè)大品牌、191個(gè)香煙品規(guī)的外表特征值記錄,每條記錄的屬性包括上文所交代的14個(gè)。
在實(shí)際業(yè)務(wù)中所采集的數(shù)據(jù)往往是臟數(shù)據(jù),所謂的臟數(shù)據(jù)是指數(shù)據(jù)中出現(xiàn)數(shù)據(jù)缺失、數(shù)據(jù)噪聲、數(shù)據(jù)冗余、數(shù)據(jù)集不均衡和離群點(diǎn)等問題。這需要進(jìn)行處理,否則可能產(chǎn)生運(yùn)算異常,影響準(zhǔn)確性。
圖2 卷煙品規(guī)外顯屬性特征數(shù)據(jù)集
1)數(shù)據(jù)空缺值的處理。其處理方式主要有直接刪除含有缺失值的記錄和補(bǔ)全缺失值兩種。對于原始數(shù)據(jù)集中部分雪茄型香煙的焦油含量、一氧化碳含量和煙氣煙堿量缺失,本文通過其他雪茄煙的特征經(jīng)驗(yàn)推導(dǎo)出來。對于零售價(jià)字段的缺失,本文通過獲得的單支雪茄煙價(jià)格和每盒支數(shù)進(jìn)行簡單運(yùn)算得到。
2)分類屬性值較繁雜的數(shù)據(jù)。收集的原始數(shù)據(jù)集包裝主色調(diào)和副色調(diào)顏色類型繁雜,在建立決策樹中可能會造成“過擬合”的現(xiàn)象,對預(yù)測結(jié)果產(chǎn)生不良的影響,所以需要化繁為簡。根據(jù)相同色系聚集的方法,將包裝主副色調(diào)重新進(jìn)行簡化分類,主色調(diào)分為白、黑、紅、黃、藍(lán)、棕六種顏色,副色調(diào)分為白、黑、紅、金、藍(lán)、綠、棕七種顏色。
3)異常值處理。異常值也稱為離群點(diǎn),指其數(shù)值明顯偏離樣本其余觀測值。在進(jìn)行異常值處理前,首先要辨別出異常值。在SPSS Modeler 軟件中,可以利用“數(shù)據(jù)審核”節(jié)點(diǎn)對異常值進(jìn)行辨別和處理,如針對焦油含量、一氧化碳含量、煙氣煙堿量、長度、過濾嘴長、零售價(jià)和煙支數(shù)這些連續(xù)型變量,選擇四分位差方法對異常值進(jìn)行判斷。同樣的方法,可處理極值、離群值,如圖3所示,在“質(zhì)量”窗口對離群值進(jìn)行“強(qiáng)制替換離群值/丟棄極值”操作。之后,數(shù)據(jù)集刪除了9條記錄,剩余182條記錄。
圖3 異常值處理操作
4)數(shù)據(jù)規(guī)約
本文所采集的數(shù)據(jù)中存在大量離散數(shù)據(jù),例如焦油含量、一氧化碳含量、卷煙長度等,對這些數(shù)據(jù)值進(jìn)行規(guī)約,進(jìn)行分級處理,有利于統(tǒng)一認(rèn)識。在SPSS Modeler針對數(shù)據(jù)離散化處理問題,提供了包括固定寬度、分位數(shù)法、等級法、平均值、標(biāo)準(zhǔn)差法和最優(yōu)法等分級方法。本文應(yīng)用三分位數(shù)法對一氧化碳含量、焦油含量和煙氣煙堿量進(jìn)行分級,分成高、中、低三級。
在SPSS Modeler 18.0 版本軟件中,建立數(shù)據(jù)流,形成基于卷煙品規(guī)外顯屬性特征的市場狀態(tài)預(yù)測決策樹模型,決策樹算法使用C5.0,如圖4所示。
圖4 基于決策樹的品規(guī)市場狀態(tài)分類模型
在上述數(shù)據(jù)流圖中,包含數(shù)據(jù)源Excel、輸出觀察表格、數(shù)據(jù)審核超級節(jié)點(diǎn)、分級化、等級重新分類、過濾器、分區(qū)、C5.0模型、生成模型應(yīng)用及模型效果分析等11種節(jié)點(diǎn)。將運(yùn)行后生成的決策樹模型與“輸出”選項(xiàng)卡中的“分析”節(jié)點(diǎn)連接,可以得到預(yù)測正確率,從而評估模型預(yù)測效果。
本研究設(shè)置的樣本數(shù)據(jù)訓(xùn)練集合測試集比例為7:3,設(shè)置修剪置信度為75,每個(gè)節(jié)點(diǎn)允許的最小樣本量為3,決策樹模型的準(zhǔn)確性可達(dá)到87.91%。
圖5 為決策樹模型的規(guī)則輸出圖,影響卷煙市場狀態(tài)重要的因素依次有:包裝主色調(diào)、省內(nèi)外、一氧化碳含量、長度、焦油含量、零售價(jià)、包裝副色調(diào),其中包裝主色調(diào)相對于其他因素來說更為關(guān)鍵。煙氣煙堿量、過濾嘴長和包裝類型這三個(gè)屬性由于在剪枝過程中被剪掉,沒有進(jìn)入決策樹,因此香煙煙氣煙堿量、過濾嘴長和包裝類型對卷煙市場狀態(tài)評價(jià)的影響很小。
圖5 決策樹模型運(yùn)行結(jié)果
實(shí)際在Modeler 中,決策規(guī)則集可轉(zhuǎn)換為一棵相應(yīng)的決策樹,如圖6所示,只實(shí)現(xiàn)了部分決策規(guī)則。
圖6 卷煙市場狀態(tài)的決策樹模型
下面來解釋所得到的有價(jià)值的分類預(yù)測規(guī)則集,如表1所示。所謂有價(jià)值是指置信度在一定范圍內(nèi)的規(guī)則,例如80%~95%,剔除100%的過擬合嫌疑情形。分類規(guī)則4很有意思,“如果一款香煙屬于湖南省外,零售價(jià)格>82元,則其市場狀態(tài)為‘平’”,置信度大于92%,十拿九穩(wěn),外省的昂貴煙在湖南幾乎賣不動。
表1 部分預(yù)測規(guī)則集
“分析”節(jié)點(diǎn)展示了模型的效果,表明:訓(xùn)練樣本中預(yù)測正確的記錄有105 條,預(yù)測錯(cuò)誤的記錄有17條,訓(xùn)練樣本正確率約為86.1%。測試樣本中預(yù)測正確的記錄有49條,預(yù)測錯(cuò)誤的記錄有11條,測試樣本正確率為81.7%。
從卷煙品規(guī)的外顯屬性特征來預(yù)測其市場接受度,或者預(yù)估卷煙的采購量與投放量,可比針對消費(fèi)者的大量市場調(diào)查來得更簡單,成本更低。構(gòu)建的決策樹模型,以卷煙品規(guī)的外顯屬性特征數(shù)據(jù)為輸入,以卷煙市場品規(guī)狀態(tài)為分類輸出,通過學(xué)習(xí)已有的品規(guī)市場狀態(tài)評價(jià)訓(xùn)練數(shù)據(jù),可以讓預(yù)測輸出變得更有效。研究表明,卷煙品規(guī)的部分外顯屬性特征對消費(fèi)影響很小,影響最大的除了工業(yè)企業(yè)屬地屬性,還包括包裝主色調(diào)、一氧化碳含量等屬性。預(yù)測的置信度達(dá)到了8成,模型具有較強(qiáng)應(yīng)用可行性。當(dāng)然模型受數(shù)據(jù)量限制,機(jī)器學(xué)習(xí)深度有限,下一步可直接讓外顯特征與其銷售投放數(shù)據(jù)結(jié)合,數(shù)據(jù)學(xué)習(xí)量可達(dá)到千萬級以上,相信可獲得更加準(zhǔn)確的預(yù)測效果。