王琦 丁勝鋒 安宇 徐子豪
(遼寧石油化工大學經(jīng)濟管理學院 遼寧省撫順市 113001)
隨著石油銷售企業(yè)信息化建設的不斷發(fā)展,以ERP系統(tǒng)為代表的信息系統(tǒng)得到廣泛應用,這些系統(tǒng)積累了大量的管理數(shù)據(jù)和外部信息,但是這些海量數(shù)據(jù)并沒有得到很好的分析和利用。大數(shù)據(jù)是云計算、物聯(lián)網(wǎng)之后IT 行業(yè)又一大顛覆性的技術(shù)革命。大數(shù)據(jù)已被視為石油銷售企業(yè)核心資產(chǎn),利用大數(shù)據(jù)技術(shù)能夠深入了解和獲取用戶的需求,并針對性地制定精準的油品營銷方案,為客戶提供個性化和精準化的服務,從而實現(xiàn)市場價值的最大化[1-3]。
到目前為止,大數(shù)據(jù)還沒有一個統(tǒng)一的定義。一般來說,大數(shù)據(jù)(Big Data)是指數(shù)據(jù)量大小超出了傳統(tǒng)數(shù)據(jù)庫系統(tǒng)存儲管理和分析處理能力的數(shù)據(jù)集合。大數(shù)據(jù)具有五個“V”的特征:大容量(Volume)、高速率(Velocity)、多樣化(Variety)、真實性(Veracity)和價值性(Value)。石油產(chǎn)品銷售大數(shù)據(jù)帶有明顯的行業(yè)特征,表現(xiàn)在:數(shù)據(jù)體量大;數(shù)據(jù)類型多;數(shù)據(jù)時效性快;數(shù)據(jù)顯性和隱性信息復雜;數(shù)據(jù)來源復雜;數(shù)據(jù)質(zhì)量參差不齊;與業(yè)務的緊密結(jié)合。
石油銷售市場包括汽油市場、柴油市場、水上市場、國省道市場和網(wǎng)上營業(yè)廳等。汽油市場主要是政府采購、企事業(yè)單位、私家車三類客戶,柴油市場是客運、物流、農(nóng)機作業(yè)及施工作業(yè)四類客戶。客戶大數(shù)據(jù)采集的方式包括互聯(lián)網(wǎng)營銷類和物聯(lián)網(wǎng)平臺類,前者包括客戶自助服務網(wǎng)站、客戶APP、客戶微信公眾號和微商城,后者包括視頻監(jiān)控及車牌識別、加油站 Wi-Fi 和車聯(lián)網(wǎng)[4]。石油銷售大數(shù)據(jù)如表1 所示。
表1: 石油銷售大數(shù)據(jù)
大數(shù)據(jù)的到來正好迎合了精準營銷的實現(xiàn),企業(yè)可以通過各種技術(shù)對大數(shù)據(jù)進行分析和研究,通過對大數(shù)據(jù)的挖掘和利用,制定出可以提高營銷效率的并符合大數(shù)據(jù)應用的營銷策略。在此基礎上,對于消費者的需求和營銷市場的動態(tài)也要有所掌握,充分了解掌握消費者的行為和心理,在一定程度上大大提高營銷的效率,進而推動精準營銷的實現(xiàn)。
大數(shù)據(jù)在精準營銷中起著至關重要的作用,也可以說精準營銷的實施離不開大數(shù)據(jù)的支持,在精準營銷實施的過程中,大數(shù)據(jù)為其提供了技術(shù)平臺和理論依據(jù)。大數(shù)據(jù)對精準營銷如此重要,經(jīng)研究發(fā)現(xiàn),客戶數(shù)據(jù)的挖掘是其主要影響因素。
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程[5]。數(shù)據(jù)挖掘主要包含商業(yè)問題定義、數(shù)據(jù)準備、挖掘?qū)嵤?、性能評估解釋和知識應用等步驟[6]。
2.1.1 問題定義
弄清楚需要哪些方面的數(shù)據(jù)(也稱為數(shù)據(jù)選擇)以及希望挖掘出什么樣的知識,即確定挖掘任務。
2.1.2 數(shù)據(jù)準備
數(shù)據(jù)準備是要根據(jù)問題定義階段確定的數(shù)據(jù)挖掘任務,從各種數(shù)據(jù)源中抽取與挖掘任務相關的數(shù)據(jù),并將其轉(zhuǎn)化為挖掘算法所需要的組織形式存儲起來,形成待挖數(shù)據(jù)集。
(1)數(shù)據(jù)抽?。簭母鞣N可用數(shù)據(jù)源中抽取與挖掘任務相關的數(shù)據(jù)。
(2)數(shù)據(jù)預處理:對已抽取的數(shù)據(jù)進行再加工,從而保證數(shù)據(jù)的完整性和一致性。主要包括消除噪聲數(shù)據(jù)、補充缺損值數(shù)據(jù)、消除重復記錄、轉(zhuǎn)換數(shù)據(jù)類型(連續(xù)型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù),或與之相反)等。
(3)數(shù)據(jù)儲存:數(shù)據(jù)先經(jīng)過預處理,然后按照數(shù)據(jù)挖掘任務和數(shù)據(jù)挖掘算法的要求集成起來,重新組織并以數(shù)據(jù)庫或數(shù)據(jù)文件等恰當?shù)姆绞酱鎯?,作為?shù)據(jù)挖掘的對象。
2.1.3 挖掘?qū)嵤?/p>
根據(jù)選定的數(shù)據(jù)挖掘算法,編寫應用程序或使用商品化挖掘工具的功能模塊,從數(shù)據(jù)挖掘?qū)ο笾型诰虺鲇脩艨赡苄枰闹R或模式,并將這些知識或模式用一種特定的方式,比如表格、圖形等可視化方法表示。
2.1.4 評估解釋
邀請企業(yè)高管和領域?qū)<?,對發(fā)現(xiàn)的知識、模式或規(guī)律進行性能評估,刪除冗余或無關的模式,對保留的知識或模式進行解釋,發(fā)現(xiàn)并理解其中有實際應用價值的知識。如果挖掘出來的知識無法滿足用戶的要求,就需要開始新一輪的數(shù)據(jù)挖掘,或者回到前面的某一步重新開始。
2.1.5 知識應用
將經(jīng)過評估解釋,且被用戶理解的知識,用于商業(yè)決策。
石油銷售大數(shù)據(jù)挖掘過程包括石油銷售數(shù)據(jù)的獲取、清洗、存儲及客戶聚類細分、化工產(chǎn)品與非化工產(chǎn)品的交叉銷售、高價值客戶挽留等,如圖1 所示。
圖1: 石油銷售大數(shù)據(jù)挖掘過程
3.1.1 k-means 聚類分析方法
k-means 聚類分析方法是先求解各個劃分子集內(nèi)全部樣本的均值,該均值作為該子集類別的代表點,然后通過不斷的迭代將原始數(shù)據(jù)集劃分為不同的類別,使得評價聚類性能的準則函數(shù)達到最優(yōu),從而使生成的每個聚類子集類別內(nèi)盡量緊湊,子集類別之間盡量獨立。k-means 聚類分析方法主要包括三個步驟:
(1)計算數(shù)據(jù)樣本之間的相似性度量,通常選擇某種空間距離。計算數(shù)據(jù)樣本之間的空間距離時,可以根據(jù)實際需要選擇明可夫斯基距離、二次型距離或歐幾里得距離中的一種來作為數(shù)據(jù)樣本間的相似性度量,其中最常用的是歐幾里得距離。
(2)構(gòu)造評價聚類性能的準則函數(shù)。k-means 聚類分析方法通常采用誤差平方和準則函數(shù)來評價聚類性能。假定原始數(shù)據(jù)集合X,其中只包含描述屬性,不包含類別屬性。假設X包含k個聚類子集X1,X2,...,XK,k個聚類子集中的數(shù)據(jù)樣本數(shù)量分別為n1,n2,...,nK,k個聚類子集中所有數(shù)據(jù)樣本的均值(也稱作聚類中心)分別為m1,m2,...,mK。則數(shù)據(jù)集X的誤差平方和準則函數(shù)如公式(1)所示。
誤差平方和準則函數(shù)衡量數(shù)據(jù)集中的所有樣本與相應聚類子集中心的方差之和,當該準則函數(shù)的值達到最優(yōu)時,各個聚類子集內(nèi)的數(shù)據(jù)樣本相對緊湊,而各個聚類子集之間則相對分散。
(3)選擇某個原始分類之后,采用迭代優(yōu)化的方法得到聚類結(jié)果,從而使得評價聚類的誤差平方和準則函數(shù)達到最優(yōu)值。為了得到最佳的聚類結(jié)果,首先要對原始數(shù)據(jù)集進行初始劃分,常規(guī)的做法是事先從數(shù)據(jù)集中選擇各個聚類的代表點,然后將其余的數(shù)據(jù)樣本按照某種方式歸類到相應的聚類子集中去。
3.1.2 基于k-means 聚類分析的客戶價值細分模型
客戶細分的主要思想是將所有的客戶劃分成具有不同交易習慣和內(nèi)在需求的群體,同一群體中的客戶在對產(chǎn)品的性能需求、交易習慣和交易文化等方面具有較大的相似性,而不同群體之間的差異較大。對于石油銷售企業(yè)來說,將客戶劃分成高價值客戶、低價值客戶、負價值客戶等層次,有助于優(yōu)化配置資源和安排生產(chǎn)經(jīng)營活動。
依據(jù)客戶的描述屬性、需求、行為、偏好和價值層次等因素,構(gòu)建基于k-means 的客戶聚類細分模型,建立客戶畫像和客戶標簽庫,設置相應客戶級別,即高價值客戶、最具增長性客戶、普通客戶、負價值客戶和新客戶。企業(yè)可以針對不同客戶群體制訂有效的營銷策略,實現(xiàn)銷售資源的合理分配,從而達到減少營銷成本,提高銷售業(yè)績的目的。
3.2.1 關聯(lián)規(guī)則分析
關聯(lián)規(guī)則是指在交易數(shù)據(jù)庫中的項目或項目集合之間存在的一些潛在規(guī)則,這些項目或項目集合之間存在的緊密程度。例如某個項目或項目集合出現(xiàn)了,其他項目或項目集合也隨之出現(xiàn),隱藏在項目或項目集合之間的關系也稱為關聯(lián)規(guī)則。
關聯(lián)規(guī)則分析可以找出交易數(shù)據(jù)庫中項目或項目集合之間存在的有趣或潛在的關聯(lián)關系。分析出這些規(guī)則,同時找到影響這些規(guī)則的重要因素。這些因素可以輔助企業(yè)在CRM 中對產(chǎn)品的性能進行定位,對客戶群進行劃分,對客戶進行細分和保持,對銷售業(yè)務活動進行分析,嘗試策劃有效的市場營銷活動。
關聯(lián)規(guī)則分析中的經(jīng)典算法是Apriori 方法。Apriori 算法主要包括兩個步驟:
(1)發(fā)現(xiàn)頻繁項集。根據(jù)用戶給定的最小支持度MinS,尋找出所有的頻繁項集,即支持度Support 不低于MinS 的所有項集。由于這些頻繁項集之間有可能存在包含關系,因此可以只關心所有的最大頻繁項集,即那些不被其他頻繁項集所包含的所有頻繁項集。
(2)生成強關聯(lián)規(guī)則。根據(jù)用戶給定的最小可信度MinC,在每個最大頻繁項集中,尋找可信度Confidence 不小于MinC 的關聯(lián)規(guī)則。
3.2.2 基于關聯(lián)規(guī)則分析的交叉銷售
石油銷售企業(yè)非油品業(yè)務已經(jīng)涉及便利店、餐飲、住宿、汽車美容、汽車維修等多種業(yè)務形態(tài)。大數(shù)據(jù)可以幫助企業(yè)在油品銷售的基礎上,實現(xiàn)高質(zhì)量的非油品交叉銷售服務。交叉銷售主要是從顧戶的交易習慣和交易行為出發(fā),挖掘顧戶的多層次需求,通過滿足客戶的需求來實現(xiàn)相應產(chǎn)品和服務的銷售方式。交叉營銷能夠在同一個顧戶身上開發(fā)出更多的產(chǎn)品和服務需求,而不僅僅是滿足顧戶的某一次交易需求。
關聯(lián)規(guī)則可以有效地分析不同商品之間的緊密程度,計算出客戶購買某些商品組合的可能性,查找出哪些商品組合是客戶一塊購買的,因此關聯(lián)規(guī)則分析結(jié)果可用于商品交叉營銷。根據(jù)客戶的購買歷史和消費屬性數(shù)據(jù),采取關聯(lián)規(guī)則建立數(shù)據(jù)分析模型,計算出顧戶購買產(chǎn)品組合的可能性,采取增加顧戶的轉(zhuǎn)移成本方式,提升顧戶忠誠度,同時降低邊際銷售成本,提高利潤率水平。
3.3.1 基于混合模糊隸屬度的模糊雙支持向量機
雙支持向量機是近年提出的一種新的支持向量機。在處理模式分類問題時,雙支持向量機速度遠遠超過傳統(tǒng)支持向量機,而且顯示出較好的推廣能力。但雙支持向量機沒有考慮不同輸入樣本點可能會對分類超平 面的形成產(chǎn)生不同影響,在某些實際問題中具有局限性。為了克服這個缺點,提出了一種基于混合模糊隸屬度的模糊雙支持向量機[7]。該算法設計了一種結(jié)合距離和緊密度的模糊隸屬度函數(shù),給不同的訓練樣本賦予不同的模糊隸屬度,構(gòu)建兩個最優(yōu)非平行超平面,最終實現(xiàn)二值分類。
3.3.2 客戶流失分析過程
隨著石油銷售行業(yè)的競爭越來越激烈,企業(yè)在新客戶上的成本開銷正在不斷上升,避免客戶流失顯得十分重要。一定時間內(nèi),未發(fā)生交易行為的用戶定義為流失用戶。流失客戶有兩大類,一類是單站流失客戶,一類是公司流失客戶,單站流失可能因為客戶因搬家或工作調(diào)動發(fā)生遷徙,而公司流失客戶,則多數(shù)是選擇了其他成品油品牌。
確定瀕臨流失客戶需要從用戶畫像標簽提取特征,利用數(shù)據(jù)挖掘模型建立基于混合模糊隸屬度雙支持向量機的客戶流失預警模型,根據(jù)模型得出流失傾向分值,按分值確定瀕臨流失客戶。瀕臨流失客戶確定后,可用于業(yè)務人員對流失客戶制定營銷及跟蹤、挽回策略等。對瀕臨流失客戶采取積極促銷活動預防流失,對已流失客戶進行一對一回訪,找到流失原因,從客戶保有、電子券、積分回饋等開展高價值客戶挽留。