朱鵬飛,冉延平,謝璐偉,栗亞琪
(天水師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 甘肅 天水 741001)
隨著全球環(huán)境污染和資源緊缺問(wèn)題日益凸顯,保護(hù)環(huán)境、崇尚自然、促進(jìn)可持續(xù)發(fā)展的“綠色消費(fèi)” 理念更加深入人心,世界開(kāi)始進(jìn)入“綠色消費(fèi)” 時(shí)代。[1]相比傳統(tǒng)燃油汽車(chē)而言更加綠色、低碳的電動(dòng)汽車(chē)開(kāi)始邁入歷史舞臺(tái),大力發(fā)展新能源汽車(chē),成為緩解汽車(chē)產(chǎn)業(yè)環(huán)境資源問(wèn)題的有效途徑之一。[2]中國(guó)2021 年新能源車(chē)銷(xiāo)售達(dá)到352.1 萬(wàn)輛,同比增長(zhǎng)1.6 倍,不但再次打破歷史紀(jì)錄,而且已經(jīng)連續(xù)第七年位居世界第一位。[3]新能源汽車(chē)產(chǎn)業(yè)已然成為戰(zhàn)略性新興產(chǎn)業(yè)。但是,與傳統(tǒng)汽車(chē)相比,電動(dòng)汽車(chē)畢竟是新興事物,消費(fèi)者對(duì)之在某些方面還心存疑慮,一定程度上影響了電動(dòng)汽車(chē)的銷(xiāo)售[4],所以對(duì)目標(biāo)客戶挖掘和銷(xiāo)售決策進(jìn)行研究具有重要的現(xiàn)實(shí)意義。本文以2021 年華數(shù)杯C 題為例[5],對(duì)電動(dòng)汽車(chē)銷(xiāo)售數(shù)據(jù)進(jìn)行異常值識(shí)別、缺失值填充、客戶購(gòu)車(chē)意愿預(yù)測(cè),以制定科學(xué)的銷(xiāo)售策略,提高電動(dòng)汽車(chē)的銷(xiāo)售成交率[6]。
隨機(jī)森林算法是一種使用分類(lèi)回歸樹(shù)作為元分類(lèi)器的有監(jiān)督學(xué)習(xí)算法,算法由樹(shù)的生長(zhǎng)與投票過(guò)程兩部分組成,其流程如下[7]:
Step1:通過(guò)Bootstraping 方法隨機(jī)有放回采樣取出樣本,制造T 個(gè)有差異的訓(xùn)練集,記為S1,S2,…ST。
Step2:利用不同的訓(xùn)練集分別生長(zhǎng)出對(duì)應(yīng)的決策樹(shù) C1,C2,…CT,并對(duì)單個(gè)決策樹(shù)模型,選擇最好的特征進(jìn)行分裂。
Step3:每棵樹(shù)完整生長(zhǎng),分裂過(guò)程中不進(jìn)行剪枝。
Step4:對(duì)測(cè)試集樣本X,使用上述決策樹(shù)進(jìn)行測(cè)試,得到對(duì)應(yīng)的C1(X),C2(X),…CT(X)。
Step5:采用少數(shù)服從多數(shù)原則,將T 個(gè)決策樹(shù)中輸出最多的類(lèi)別作為測(cè)試樣本X 所屬的類(lèi)別。
為保證模型精度,對(duì)所建立模型多次進(jìn)行5折交叉驗(yàn)證[8],計(jì)算所建立模型的Area Under Curve(AUC)均值,AUC 是受試者在操作特征曲線下與坐標(biāo)軸圍成的面積,其取值越接近1 說(shuō)明模型越精確。
網(wǎng)格搜索算法是一種調(diào)參手段,是通過(guò)遍歷給定參數(shù)組合來(lái)優(yōu)化模型表現(xiàn)的方法[9]。為減少計(jì)算量,本文對(duì)其進(jìn)行改良,其算法流程如下:
Step1:以步長(zhǎng)1 為單位,通過(guò)網(wǎng)格法逐步向上遍歷搜索,當(dāng)條件函數(shù)返回值為1 時(shí),終止搜索,記錄總提升量及各項(xiàng)提升量,保存為上界;
Step2:以步長(zhǎng)2 為單位,以Step1 記錄的各項(xiàng)提升量為初值,通過(guò)網(wǎng)格法逐步向下搜索,當(dāng)條件函數(shù)返回值為0 時(shí),終止搜索,記錄前一次的總提升量以及各項(xiàng)提升量,保存為下界。
箱型圖四分位法是一種簡(jiǎn)單易操作的識(shí)別方法,本文擬采用該法對(duì)異常值進(jìn)行識(shí)別;考慮客戶數(shù)據(jù)多達(dá)27 項(xiàng),且數(shù)據(jù)間可能存在多重共線性,本文擬采用隨機(jī)森林算法解決缺失值填充及客戶購(gòu)車(chē)意愿的預(yù)測(cè)問(wèn)題;在客戶購(gòu)買(mǎi)汽車(chē)的前提下,為減少計(jì)算量,擬采用改良的網(wǎng)格搜索法對(duì)滿意度數(shù)據(jù)進(jìn)行調(diào)整,以求得最佳銷(xiāo)售策略。
本文利用箱型圖對(duì)客戶滿意度數(shù)據(jù)的異常值進(jìn)行檢測(cè),箱型圖的定義如圖1 所示。
圖1 箱型圖定義
其中,QS指上四分位數(shù),QX指下四分位數(shù),R是上四分位數(shù)與下四分位數(shù)的差值,其計(jì)算式為:
異常值α 的判定公式為:
綜上所述,建立異常值檢測(cè)模型,對(duì)A1~A8(客戶滿意度)進(jìn)行檢測(cè),按車(chē)輛品牌分別計(jì)算客戶滿意度的均值,使用對(duì)應(yīng)均值替換異常值,結(jié)果如圖2 所示。
圖2 異常值處理前后箱型圖對(duì)比
問(wèn)題一的數(shù)據(jù)包括A1~A8(客戶滿意度)、B1~B17(客戶個(gè)人特征)、電動(dòng)汽車(chē)品牌類(lèi)型和客戶購(gòu)買(mǎi)意愿等,共計(jì)27 項(xiàng)。由于調(diào)研失誤,部分客戶的數(shù)據(jù)B7(目標(biāo)客戶子女?dāng)?shù)量)缺失。含有缺失值的客戶個(gè)案共計(jì)492 個(gè),不含缺失值的客戶個(gè)案共計(jì)1 472 個(gè),缺失率約25 %。
數(shù)據(jù)庫(kù)中含有目標(biāo)客戶的個(gè)人信息、車(chē)型選擇和滿意度評(píng)分等特征因素,這些特征與目標(biāo)客戶的子女?dāng)?shù)量密切相關(guān)。因此,建立隨機(jī)森林模型描述各量化特征與相關(guān)目標(biāo)客戶子女?dāng)?shù)量的關(guān)系,其模型建立過(guò)程如下:
Step1:對(duì) A1~A8、B1~B17、電動(dòng)汽車(chē)品牌類(lèi)型和客戶購(gòu)買(mǎi)意愿數(shù)據(jù)進(jìn)行無(wú)量綱化處理[10]。
Step2:以 A1~A8、B1~B6、B8~B17、電動(dòng)汽車(chē)品牌類(lèi)型和客戶購(gòu)買(mǎi)意愿數(shù)據(jù)共計(jì)26 項(xiàng)因素作為模型的輸入,以B7(目標(biāo)客戶子女?dāng)?shù)量)作為模型的輸出。其中,訓(xùn)練集為1 472 個(gè)不含缺失值的樣本,隨機(jī)森林樹(shù)為500 棵。
Step3:對(duì)所建立隨機(jī)森林模型進(jìn)行5 折交叉驗(yàn)證運(yùn)行1 000 次,得到該模型的AUC 均值為0.97,表明準(zhǔn)確率達(dá)97 %,模型具有較高的準(zhǔn)確性;在建模問(wèn)題背景中,部分客戶的子女?dāng)?shù)量缺失時(shí),該模型可實(shí)現(xiàn)對(duì)缺失數(shù)據(jù)的補(bǔ)齊。模型中B7對(duì)各因素影響的重要程度如表1 所示。
表1 B7 對(duì)各影響因素的重要程度
Step4:根據(jù)上述模型,對(duì)492 個(gè)缺失B7的樣本進(jìn)行預(yù)測(cè),得到B7的分布情況如圖3 所示。
圖3 B7 分布情況
目標(biāo)客戶是否購(gòu)車(chē)與目標(biāo)客戶的個(gè)人情況、車(chē)型選擇和滿意度評(píng)分等因素密切相關(guān)[11]。因此,建立隨機(jī)森林模型描述上述特征與客戶購(gòu)車(chē)意愿的關(guān)系,過(guò)程如下:
Step1:對(duì) A1~A8、B1~B17、電動(dòng)汽車(chē)品牌類(lèi)型和客戶購(gòu)買(mǎi)意愿數(shù)據(jù)進(jìn)行無(wú)量綱化處理。
Step2:以 A1~A8、B1~B17、電動(dòng)汽車(chē)品牌類(lèi)型和客戶購(gòu)買(mǎi)意愿數(shù)據(jù)共計(jì)26 個(gè)相關(guān)因素作為模型輸入,以目標(biāo)客戶是否購(gòu)買(mǎi)汽車(chē)作為模型輸出,建立隨機(jī)森林模型,隨機(jī)森林樹(shù)為500 棵。
Step3:為驗(yàn)證模型的穩(wěn)定性,對(duì)所建立的模型進(jìn)行5 折交叉驗(yàn)證運(yùn)行1 000 次,得到模型的AUC 均值為0.97,準(zhǔn)確率達(dá)97 %,說(shuō)明模型具有較高的準(zhǔn)確性,可有效預(yù)測(cè)目標(biāo)客戶是否購(gòu)車(chē)。模型中各因素對(duì)客戶購(gòu)車(chē)意愿影響的重要程度如表2 所示。
表2 各因素對(duì)客戶購(gòu)車(chē)意愿影響的重要程度
從表2 可以看出,影響目標(biāo)客戶購(gòu)車(chē)意愿的前3 項(xiàng)因素是全年房貸的支出占家庭年總收入的比例(B17)、電池耐用和充電方便性(A1)、全年車(chē)貸支出占家庭年總收入的比例(B16),全年家庭可支配收入影響著目標(biāo)客戶的經(jīng)濟(jì)實(shí)力,進(jìn)而影響著目標(biāo)客戶是否買(mǎi)車(chē);同時(shí),對(duì)于新能源汽車(chē),目標(biāo)客戶更看重的是電池的耐用性與充電方便性。
3.2.1 目標(biāo)客戶個(gè)人信息填補(bǔ)
問(wèn)題三的數(shù)據(jù)由15 名客戶的A1~A8(客戶滿意度)、B1~B17(客戶個(gè)人特征)和電動(dòng)汽車(chē)品牌類(lèi)型構(gòu)成,這些客戶均未表露出是否購(gòu)車(chē)的意愿。由于調(diào)研失誤,部分客戶缺失數(shù)據(jù)B7(目標(biāo)客戶子女?dāng)?shù)量),含缺失值的客戶編號(hào)為 2、8、9、10。為填充其缺失值,根據(jù)目標(biāo)客戶子女?dāng)?shù)量影響的25 個(gè)相關(guān)因素,利用缺失數(shù)據(jù)處理模型中建立的隨機(jī)森林模型,以問(wèn)題一中1 445 位不含缺失值的客戶作為訓(xùn)練集,填補(bǔ)上述4 名目標(biāo)客戶的缺失值,結(jié)果如表3 所示。
表3 缺失的目標(biāo)客戶子女?dāng)?shù)量
3.2.2 購(gòu)車(chē)意愿模型預(yù)測(cè)
根據(jù)影響目標(biāo)客戶購(gòu)車(chē)的26 個(gè)相關(guān)因素,利用影響購(gòu)車(chē)意愿的因素量化模型中建立的隨機(jī)森林模型,以1 937 位目標(biāo)客戶的數(shù)據(jù)作為訓(xùn)練集,對(duì)15 位目標(biāo)客戶購(gòu)車(chē)意愿進(jìn)行預(yù)測(cè),結(jié)果如表4所示。
表4 15 位目標(biāo)客戶購(gòu)車(chē)意愿預(yù)測(cè)
由于服務(wù)難度與滿意度期待值成正比,在保證潛在客戶購(gòu)車(chē)的前提下,應(yīng)當(dāng)盡可能降低服務(wù)難度,即降低滿意度期待值?;诖私N(xiāo)售策略?xún)?yōu)化模型。潛在客戶的原始滿意度為A=(A1,A2,…,A8),其他特征為 T,構(gòu)建影響購(gòu)車(chē)意愿的因素量化隨機(jī)森林模型,記為f。以0.1 %為滿意度提升單位,滿意度總提升量Z,各項(xiàng)滿意度提升量為 β=(β1,β2,…,β8),構(gòu)造大小為 8 × 1 的全1 向量,記為α,目標(biāo)函數(shù)為
其中,f 為1 表示潛在客戶購(gòu)買(mǎi)汽車(chē),f 為0 表示潛在客戶不購(gòu)買(mǎi)汽車(chē)。
分步求解上述目標(biāo)函數(shù)。
Step1:以0.5 %為單位,以潛在客戶原始滿意度為初值,通過(guò)網(wǎng)格法逐步向上搜索,當(dāng)條件函數(shù)返回值為1 時(shí),終止搜索。記錄當(dāng)前滿意度總提升量Z 及各項(xiàng)滿意度提升量β。
Step2:以0.1 %為單位,以Step1 記錄的各項(xiàng)滿意度提升量β 為初值,通過(guò)網(wǎng)格法逐步向下搜索,當(dāng)條件函數(shù)返回值為0 時(shí),終止搜索。記錄前一次的滿意度總提升量Z 及各項(xiàng)滿意度提升量β。
通過(guò)求解,可得客戶編號(hào)為2、7、11 的目標(biāo)客戶滿意度總提升量分別為0.9 %、3.4 %和1 %,各項(xiàng)滿意度提升量如表5 所示。
表5 目標(biāo)客戶的各項(xiàng)滿意度提升量 %
由表5 可推出具體銷(xiāo)售策略:以7 號(hào)客戶為例,銷(xiāo)售人員在推銷(xiāo)時(shí)應(yīng)當(dāng)注意強(qiáng)調(diào)電池技術(shù)性能(A1)、舒適性(A2)、經(jīng)濟(jì)性(A3)、動(dòng)力性表現(xiàn)(A5)、駕駛操控性表現(xiàn)(A6)等方面的優(yōu)勢(shì),其中需要著重說(shuō)明經(jīng)濟(jì)性(A3)、動(dòng)力性表現(xiàn)(A5)及舒適性(A2)等特點(diǎn)。
本文針對(duì)電動(dòng)汽車(chē)的銷(xiāo)售問(wèn)題,根據(jù)影響客戶購(gòu)車(chē)的相關(guān)因素,構(gòu)建了影響購(gòu)車(chē)意愿的因素量化模型,對(duì)影響客戶購(gòu)車(chē)意愿的相關(guān)因素的重要程度進(jìn)行了分析,并對(duì)無(wú)購(gòu)車(chē)記錄的潛在目標(biāo)客戶,利用隨機(jī)森林模型,對(duì)其是否購(gòu)車(chē)進(jìn)行預(yù)測(cè)。最后,考慮在滿意度總提升量最小的情況下,對(duì)目標(biāo)客戶的原始滿意度進(jìn)行調(diào)整,促使目標(biāo)客戶購(gòu)買(mǎi)汽車(chē),為汽車(chē)銷(xiāo)售商提供了有針對(duì)性的銷(xiāo)售策略。