胡常偉,危 虎
(1.巨輪股份有限公司,廣東揭陽 515500;2.廣東工業(yè)大學廣東省計算機集成制造重點實驗室,廣東廣州 510006)
基于Logistic回歸的模具行業(yè)訂單流失分析*
胡常偉1,危 虎2
(1.巨輪股份有限公司,廣東揭陽 515500;2.廣東工業(yè)大學廣東省計算機集成制造重點實驗室,廣東廣州 510006)
模具行業(yè)客戶數(shù)量相對較少但訂單較多,針對用客戶人口學數(shù)據進行客戶流失分析的不足,基于訂單信息建立模具業(yè)的訂單流失預測模型。針對模具業(yè)訂單樣本分布極不平衡及其產生的不同錯分代價的問題,提出一種基于Logistic回歸的多元分類器方法,將此方法應用于某大型模具企業(yè)的訂單流失分析,并與傳統(tǒng)的Logistic回歸預測算法進行比較,實驗結果表明該方法能有效解決模具行業(yè)的訂單流失分析問題。
模具行業(yè);訂單流失;Logistic回歸;多元分類器
模具行業(yè)產品更新頻繁,隨著技術的進步客戶對產品要求也在不斷提高,多元化的市場需求使得模具企業(yè)對客戶的爭奪也越來越激烈[1]。對模具企業(yè)而言,開發(fā)一個新客戶的成本往往比保留一個老客戶的成本要大得多,因此減少客戶流失對模具企業(yè)至關重要。另一方面,模具產品大多是定制的,模具企業(yè)在實際生產過程中積累了大量的訂單信息(主要包括客戶的合同信息和生產過程中的業(yè)務數(shù)據),它們實時地反映了市場需求的變動和企業(yè)的運營情況?;谶@些數(shù)據從企業(yè)內部挖掘出導致客戶流失的因素對模具企業(yè)贏得市場具有十分重要的意義。
數(shù)據挖掘是為了建立商務決策支持系統(tǒng),從大型數(shù)據庫中抽取以前未知的、有效的和可控的模式或知識的過程[2]。分類作為數(shù)據挖掘中的一種重要技術,已被廣泛用于金融、電信等行業(yè)的客戶流失預測,且都取得了較好的預測效果[3]。這類研究主要采用決策樹、Logistic回歸、神經網絡、支持向量機等方法建立客戶流失模型。然而采用這些方法建立模具行業(yè)客戶流失模型則會存在一些不足。首先,不同于常見的金融、電信等行業(yè),模具企業(yè)客戶數(shù)量往往比較少,但一個客戶往往會帶來多個訂單;且模具客戶流失往往不會是一次性徹底終止往來,通常是逐漸減少訂單,降低訂單交易的頻率和金額,此時,同一個客戶不同訂單流失的可能性往往大不相同,因而導致對客戶流失狀態(tài)的劃分很難準確。其次,模具企業(yè)對客戶的人口學信息收集得較少,而且很多都不精準(如客戶的區(qū)域分布、客戶的信譽等級等),因此,基于客戶信息來進行數(shù)據挖掘很難找出對模具業(yè)客戶流失有著顯著影響的因素。最后,客戶流失預測是二分類問題,上述方法在追求較高預測精度的同時往往忽略兩類樣本數(shù)據分布不平衡的差異,而普適分類方法對這種不平衡數(shù)據集進行預測時會產生較大的錯分代價[4]。
考慮客戶人口學數(shù)據建立模具業(yè)客戶流失預測模型的不足,基于模具業(yè)大量的合同信息和業(yè)務數(shù)據建立訂單流失預測模型,幫助模具企業(yè)從內部分析導致訂單流失的原因。另外針對模具訂單中流失樣本與非流失樣本分布極不平衡的問題,在Logistic回歸算法的基礎上提出一種多元分類器方法,以降低Logistic回歸模型在進行訂單流失預測時的錯分代價,將該方法應用于某大型模具企業(yè)的訂單流失分析,并通過與傳統(tǒng)的Logistic回歸分類方法進行對比來驗證此改進方法的有效性。
模具企業(yè)客戶往往針對不同模具產品選擇不同的供應商,并依據各供應商在交貨期、質量等方面提供的服務質量來不斷調整訂單的分配。對模具企業(yè)而言,從企業(yè)內部分析客戶訂單流失的原因,提高自身服務質量對贏得訂單十分重要。模具制造業(yè)是典型的訂單式小批量生產行業(yè)[5],模具企業(yè)在生產過程中積累了大量的訂單信息,這些訂單信息實時反映了客戶的需求變化和企業(yè)本身對訂單的完成情況[6]。因此考慮基于模具企業(yè)大量訂單數(shù)據建立模具業(yè)訂單流失預測模型,基于客戶合同信息和業(yè)務數(shù)據預測訂單在未來發(fā)生流失的概率,為模具企業(yè)減少訂單流失提供決策依據。圖1為本文進行模具業(yè)訂單流失分析的架構,包括數(shù)據輸入、模型、分類輸出和決策支持四個部分。
模具可重復性制造程度較低且產品種類繁多,企業(yè)通常基于產品特征將訂單分為若干類型,比如可將訂單類型分為全套類型、部件類型、配件類型、返修類型等,并根據實際情況可進一步細分為若干小類。各個行業(yè)對客戶流失的定義都有所不同,結合模具業(yè)客戶的特點,在模具專家的指導下,基于模具訂單的產品類型將訂單狀態(tài)劃分為2個類別:“未流失的訂單”和“流失的訂單”。其中流失的訂單包括:①與當前年同比,上一年出現(xiàn)過,當前年沒有再出現(xiàn)的訂單類型;②與上一年同比,當前年訂單的數(shù)量減少50%以上的訂單類型。
圖1 訂單流失分析架構
本文以國內某大型模具企業(yè)為研究對象,采取分層抽樣的方式從其ERP系統(tǒng)中抽取某個5年期共5 000條訂單數(shù)據作為研究樣本?;谟唵螌傩灶A測訂單發(fā)生流失的概率,因變量為訂單的流失狀態(tài),該訂單流失預測是一個二分類問題。若訂單狀態(tài)為未流失取值為1,訂單狀態(tài)為流失取值為0,則根據之前對流失訂單的定義,抽取的5 000個樣本中訂單狀態(tài)取值為1的占85.5%(共4 275條訂單),取值為0的占14.5%(共725條訂單),可以看到數(shù)據集中流失樣本與非流失樣本的分布是極不平衡的。
2.1 Logistic回歸方法
本文以訂單屬性為輸入變量來預測訂單的流失狀態(tài),因此選用分類算法來建立模型,在常用建模方法中,神經網絡和支持向量機雖然預測精度較高,但其得到的規(guī)則可解釋性太差,需要借助合適的規(guī)則抽取算法才能提取易于理解的知識[7]。決策樹算法由于采取貪心算法而得到較多的規(guī)則集[8],模具訂單根據實際業(yè)務需要往往對訂單屬性進行較多的劃分,如果用決策樹算法會基于屬性的分裂對樣本大量的劃分,而這種劃分可能對于訂單分類是沒有用的。Logistic回歸不僅能有效地處理二值因變量問題,還可以進行模型精確度和擬合優(yōu)度的檢驗[9]。這樣不僅可以方便了解屬性變量對訂單流失的預測能力,而且還能分析訂單流失狀態(tài)對屬性變量的響應程度,因此本文使用Logistic回歸方法建模。
若用第1類錯分率表示模型將流失的訂單錯分為未流失的訂單的比例,第2類錯分率表示模型將未流失的訂單錯分為流失的訂單的比例。對于建立的訂單流失預測模型,如果第1類錯分率較高,則會增加模具企業(yè)挽留具有較高流失風險訂單的機會成本,如果第2類錯分率較高,則可能導致模具企業(yè)針對未流失的訂單增加一些不必要的成本。而對模具企業(yè)來說,開發(fā)一個新客戶來新增訂單和挽留一個老客戶來減少訂單流失,前者的成本要大得多。因此,從模具企業(yè)實際出發(fā),所建立的訂單流失預測模型應該將第2類錯分率控制在合理范圍內的同時,盡可能降低第1類錯分率。然而,傳統(tǒng)的Logistic回歸算法在分類過程中假設這兩種分類錯誤的代價是相等的,處理模具訂單這種樣本分布極不平衡的數(shù)據集可能會產生較大的錯分代價。
2.2 多元分類器方法
針對模具行業(yè)訂單樣本分布不平衡的特點,以及傳統(tǒng)的Logistic回歸算法在處理模具訂單流失分析問題上的不足,本文借鑒文獻[10]的方法,提出一種多元分類器的方法來降低流失預測模型的錯分率以及由此產生的錯分代價。該方法的描述如下。
(1)對于一個包含N個樣本的訓練集S,若其中少數(shù)樣本與多數(shù)樣本的數(shù)量之比為1∶x,則產生一個期望的分類比1∶y來將多數(shù)樣本均勻、隨機的劃分為x/y個部分。此時,由每個部分的多數(shù)樣本加上S中所有的少數(shù)樣本組成一個訓練集,則可將S劃分為x/y個訓練集,每個訓練集包含N/(1+x)個少數(shù)樣本和(N×y)/(1+x)個多數(shù)樣本。
(2)對于劃分后得到的每一個訓練集,分別用分類算法建立流失預測模型。對一個新的測試樣本每個預測模型都能獨立輸出一個分類結果,再用多元分類器來組合分類結果就可實現(xiàn)對測試樣本的全面預測。由于研究旨在盡可能識別流失風險較高的訂單,因此本文考慮使用加權的策略來組建多元分類器,對于未流失的訂單C1和流失的訂單C2,給C1賦予一個權重w1,則C2的權重為w2(w2=1-w1)。用n1和n2分別表示x/y個模型中將樣本訂單狀態(tài)預測為未流失和流失的模型個數(shù),當w1×n1>w2×n2時,多元分類器將測試樣本預測為未流失的訂單,反之則為流失的訂單。
(3)隨著權重w1的不斷變化(單調遞增或遞減),多元分類器的第1類錯分率和第2類錯分率也將隨之變化。
本文提出的多元分類器通過調整權重w1的大小可得到不同的錯分率,基于兩類錯分率不斷變化的數(shù)值可以繪制一條檢測誤差權衡曲線。模具企業(yè)可根據實際錯分代價的不同從曲線中確定合適的錯分平衡點,以建立更切合實際的訂單流失預測模型。
3.1 變量分析
在本文樣本數(shù)據庫中,有關訂單的屬性有近50個,由于屬性過多會增加計算的復雜程度并降低模型的有效性,故屬性數(shù)量需要精減。因此應用專家評判法來挑選最為關鍵的主要屬性,并參考其他相關研究最后確定表1所示的共12個屬性變量用于建模分析。
表1 有關的屬性變量
表1中,編號X1到X5是從客戶合同信息中挑選出來的屬性變量。其中,合同所含的產品類型分為全套類型(A類)、零部件類型(B類)、返修類型(C類)共3個大類;結算方式指客戶支付貨款的方式,包括現(xiàn)金、電匯和其他抵押方式等;訂單來源是指訂單對應的客戶是來自境內還是境外;收款類型指客戶所支付款項的用途,基于客戶支付款項中是否含質保金來對收款類型分別取值。
X6到X12的共7個屬性來自訂單生產過程中產生的業(yè)務數(shù)據。其中,加工方法是指根據訂單的產品類型和技術要求,模具企業(yè)所采取的生產加工手段,一般包含精鑄、電火花加工、直接雕刻等;質量統(tǒng)計指訂單在生產過程中,是否出現(xiàn)了與訂單要求不相符合的不一致品(如次品、廢品等);催款次數(shù)指由于客戶沒能按合同付款,業(yè)務員對其進行催款的頻率;客戶投訴指客戶對訂單完成情況進行的反饋,投訴途徑主要分直接投訴和間接投訴兩種,投訴問題主要包含產品加工不良、圖紙信息不夠等。
3.2 數(shù)據預處理
對于挑選出來的12個屬性變量,用交叉表可進一步分析每個屬性變量對訂單流失影響的程度。將全部樣本放在SPSS11.0上用交叉表技術進行分析,得到每一個屬性變量各自識別流失訂單的概率大小如表2所示。表2中,“全部樣本的百分比”指在全部樣本中實際擁有某一個屬性的訂單的比重,“流失樣本的百分比”指已經流失的訂單中由該屬性識別的訂單所占的比重。比如,在全部訂單樣本中,有16.2%的訂單沒有準時交貨,而已經流失的訂單樣本中,交貨期取值為不準時的占82.7%。用各行的“流失樣本的百分比”除以“全部樣本的百分比”可以得到“比率”,這個“比率”值可以有效地反應各屬性對流失樣本的識別能力[8]。從比率排名可以看到產品類型、交貨期是否準時、客戶對訂單的投訴次數(shù)這三個屬性的“比率”值較高,表明這些屬性能從具有這一屬性的所有訂單中識別出很大比重的流失訂單。因此研究將這3個屬性作為能夠顯著影響訂單流失的變量,其他屬性由于不能顯著地識別將要流失的訂單而在分析中被排除。
表2 各屬性對訂單流失的影響情況
3.3 建立訂單流失預測模型
將5 000條樣本隨機分為兩部分,其中的3 500條樣本(其中508個為流失訂單)用做訓練集,1 500條樣本(其中217個為流失訂單)用做測試集。根據Logistic函數(shù)的定義,設訂單不流失(訂單狀態(tài)取值為1)的概率為P,訂單發(fā)生流失(訂單狀態(tài)取值為0)的概率為1-P,則P與影響訂單流失的各變量Xi之間的關系可用下列Logistic回歸模型表示:
其中β0為變量無關的常數(shù)項,β1,β2,βn是回歸系數(shù),訂單不流失與發(fā)生流失的概率之比為:
這個比就是事件的發(fā)生比,將它取自然對數(shù)可得到一個線性方程:
對于訓練集數(shù)據,將交貨期(JHQ)、產品類型(CPLX)、投訴次數(shù)(TSCS)作為輸入變量,訂單的流失狀態(tài)(LSZT)作為輸出變量,在SPSS軟件上使用Logistic回歸分析方法得到以下模型:
由于產品類型分為A、B、C三個大類,故對應三個不同的回歸系數(shù)。此時模型輸出的卡方統(tǒng)計檢驗值X2為12.725,顯著性值Sig=0.000 5<0.001,因此可認為模型中這三個屬性對因變量有顯著影響。此時選用10折交叉驗證法得到模型的分類準確率為79.32%,第1類錯分率為52.44%,第2類錯分率為18.82%。用訓練集數(shù)據得到模型的具體參數(shù)之后,對于測試樣本將其對應的參數(shù)代入方程(1)或(2)便可預測每個訂單發(fā)生流失的概率,從而得到訂單流失狀態(tài)的輸出。
為解決樣本分布極不平衡的問題,研究使用多元分類器方法。數(shù)據集中流失樣本與非流失樣本的比例接近1∶6,為平衡兩類樣本分布可將期望的分類比設為1∶1。此時,未流失的樣本被均勻、隨機地分成6個部分,加上流失的樣本可構成6個訓練集。對6個訓練集分別建立Logistic回歸模型,將測試集的新樣本分別輸入這6個模型,則每個樣本都可得到6個分類預測結果。當賦給未流失訂單的權重以0.01的增量從0.01增加到0.99時,根據之前的多元分類器算法可得到一條基于兩種錯分率的檢測誤差權衡曲線,如圖2所示。從圖2可以看到,隨著未流失訂單權重的增加,第1類錯分率在不斷上升而第2類錯分率在不斷下降。
3.4 結果與分析
將訂單的相關屬性作為輸入變量,應用交叉表技術進行分析,發(fā)現(xiàn)在模具企業(yè)運營過程中交貨期、訂單的產品類型、客戶的投訴次數(shù)對訂單流失有著顯著的影響。研究建立的回歸分析模型反映了這些屬性與訂單流失之間的相關性,根據模型識別出的流失訂單特征,模具企業(yè)可以采取相應的管理策略來預防訂單流失。
另外,在圖2中標示用傳統(tǒng)單個分類器建模時獲得的第1類錯分率和第2類錯分率,可以看到對于多元分類器建立的模型,在第1類錯分率為52.44%的時候第2類錯分率為15.67%,第2類錯分率為18.82%的時候第1類錯分率為43.82%。由此可見本文的多元分類器方法對降低預測模型的兩類錯分率都取得了較好的效果。通過圖2所示的檢測誤差權衡曲線,模具企業(yè)可根據實際來選取合適的錯分率,從而得到更有效的訂單流失預測模型。
Response圖和Lift指標可用來評價模型的性能,如圖3所示,Response圖橫軸表示抽取的樣本占訂單總數(shù)的百分比,縱軸表示所抽取樣本中的流失訂單占流失訂單總數(shù)的百分比,對角線表示不用模型隨機抽取的預測效果。用本文的Logis?tic回歸模型對測試集數(shù)據進行預測時得到圖3模型1所示的Lift曲線,當橫軸抽取10%總訂單數(shù)時,Logistic回歸模型能識別出45.85%的流失訂單,此時模型的Lift指標為:45.85%/10%= 4.585,由此可見與隨機抽取相比預測效果有了較大提升。為方便與其它普適分類方法進行對比,研究假定預測模型的兩類錯分代價相等,在多元分類器中給流失訂單和未流失訂單賦予相同的權重(即w1=w2),此時用多元分類器模型對測試集進行預測得到圖3模型2所示的Lift曲線。顯然,模型2比模型1獲得了更高的Lift指標,實證結果表明,本文提出的基于Logistic回歸的多元分類器方法對模具行業(yè)的訂單流失分析取得了較好的預測效果。
針對模具行業(yè)用客戶人口學數(shù)據進行客戶流失分析的局限性,本文基于客戶合同信息和業(yè)務數(shù)據建立了模具業(yè)的訂單流失預測模型,對模具企業(yè)的訂單流失現(xiàn)象進行了分析。另外研究在Logistic回歸算法基礎上提出了一種多元分類器的建模方法,以解決模具訂單樣本分布極不平衡及其產生不同錯分代價的問題。該方法在建立流失預測模型時能夠為模型的兩類錯分率找到一個平衡點,在一定程度上彌補了傳統(tǒng)分類算法建模時默認兩種錯分代價相同的不足,提高了模型在實際應用中的有效性。將該方法應用于某大型模具企業(yè)的訂單流失分析問題,獲得了較好的預測效果。
[1]鮑明飛.模具企業(yè)轉型發(fā)展的挑戰(zhàn)和機遇[J].模具工業(yè),2012,38(10):1-4.
[2]Berry M J A,Linoff G.Data mining techniques:for marketing,sales,and customer support[M].New York:Wiley,1997.
[3]劉志嫵.基于決策樹算法的學生成績的預測分析[J].計算機應用與軟件,2012,29(11):312-315.
[4] Elkan C.The foundations of cost-sensitive learning[A].Proceeding of the Seventeenth International Joint Conference on Artifi?cial Intelligence [C]. 200l:973-978.
[5]胡鈺松,胡常偉.模具制造企業(yè)備件庫存分類方法研究[J].機械設計與制造,2012(11):236-238.
[6]陳少鎮(zhèn),陳慶新,毛寧,等.考慮進度協(xié)調的模具訂單投放控制策略[J].機電工程技術,
2012(10):17-22.
[7]張旭梅,石瀚凌.基于分類挖掘方法的商業(yè)銀行個人理財業(yè)務客戶流失分析[J].工業(yè)工程,2011,14(6):126-132.
[8]Jiawei Han,Micheline Kamber.數(shù)據挖掘:概念與技術[M].北京:機械工業(yè)出版社,2001.
[9]蒙肖蓮,蔡淑琴,杜寬旗,等.商業(yè)銀行客戶流失預測模型研究[J].系統(tǒng)工程,2004,22(12):67-71.
[10]Chan P K,F(xiàn)an W,Prodromidis A L,Stolfo S J.Dis?tributed data mining in credit card fraud detection[J]. IEEE Intelligent Systems,1999,14(6):67-74.
Order Churn Analysis in Mold Industry Based on Logistic Regression
HU Chang-wei1,WEI Hu2
(1.Greatoo Inc.,Jieyang515500,China;2.Guangdong Provincial Key Lab of Computer Integrated Manufacturing System,Guangdong University of Technology,Guangzhou510006,China)
The number of customers in the mold industry are limit but the orders are adequate,in response to the unavailability of customer demographics while doing customer churn analysis in the mold industry,order churn prediction model of mold industry based on customer contractual information and business data was set up.To deal with the challenge of a highly skewed class distribution between churn and non-churn and different classification cost it cause,a multi-classifier approach based on logistic regression was proposed. Then,the proposed method was applied to a mold enterprise,by comparing with the model build by traditional logistic regression,results suggest that the proposed method exhibits satisfactory predictive effectiveness in the mold industry.
mold industry;order churn;logistic regression;multi-classifier
TH166
A
1009-9492(2014)08-0062-06
10.3969/j.issn.1009-9492.2014.08.018
胡常偉,男,1978年生,湖北仙桃人,博士后。研究領域:企業(yè)信息化、項目管理、智能制造。
(編輯:向 飛)
*國家科技支撐計劃項目(編號:2012BAF12B10)
2014-06-30