代雯月 DAI Wen-yue
(四川文理學(xué)院數(shù)學(xué)學(xué)院,達(dá)州 635000)
隨著經(jīng)濟(jì)的快速的發(fā)展,人們的消費(fèi)觀念也在增強(qiáng),客戶(hù)分類(lèi)的應(yīng)用也在頻繁運(yùn)用于各商業(yè)銀行中,商業(yè)銀行也在市場(chǎng)經(jīng)濟(jì)中發(fā)揮著至關(guān)重要的作用。與此同時(shí),商業(yè)銀行運(yùn)營(yíng)過(guò)程中面臨著諸多風(fēng)險(xiǎn),其中判別客戶(hù)信用以此來(lái)進(jìn)行客戶(hù)分類(lèi)是商業(yè)銀行面臨的主要營(yíng)銷(xiāo)之一,利用判別分析對(duì)銀行客戶(hù)進(jìn)行預(yù)判是有效降低信用風(fēng)險(xiǎn)的方法,所以正確分類(lèi)客戶(hù)類(lèi)型的重要性越發(fā)突出。
客戶(hù)信用分類(lèi)是指,根據(jù)個(gè)人的各種相關(guān)經(jīng)濟(jì)指標(biāo)建模,指標(biāo)的選取可以使用專(zhuān)家選擇或者大眾評(píng)估得到,進(jìn)一步根據(jù)這些指標(biāo)所建立的模型是對(duì)個(gè)人是否能履約各種承諾和信用程度高低的全面評(píng)價(jià),并用簡(jiǎn)單明了的符號(hào)或文字表達(dá)出來(lái),以滿足社會(huì)需要的市場(chǎng)行為。
此數(shù)據(jù)集來(lái)自UCI機(jī)器學(xué)習(xí)庫(kù)被公開(kāi)的信息,是關(guān)于一家葡萄牙銀行機(jī)構(gòu)從2008年5月到2010年11月的直接電話營(yíng)銷(xiāo)活動(dòng),旨在促進(jìn)現(xiàn)有客戶(hù)的定期存款,內(nèi)含兩個(gè)數(shù)據(jù)集,數(shù)據(jù)集1(bank-full.csv)共有45211條數(shù)據(jù),數(shù)據(jù)集2(bank.csv)是數(shù)據(jù)集1中隨機(jī)選取的10%的子集,共有4521條數(shù)據(jù)。每一個(gè)數(shù)據(jù)樣本有17個(gè)屬性。前16個(gè)是預(yù)測(cè)變量(自變量),依次表示為“年齡”,“工作”,“婚姻”,“教育”,“違約”,“余額”,“住房”,“貸款”,“聯(lián)系人通訊類(lèi)型”,“天數(shù)”,“月數(shù)”,“持續(xù)時(shí)間”,“接觸次數(shù)”,“活動(dòng)日數(shù)”,“聯(lián)系人數(shù)量”,“營(yíng)銷(xiāo)活動(dòng)結(jié)果”(分別用X1—X16表示),最后一個(gè)為響應(yīng)變量(因變量),表示“訂閱定期存款”(用Y表示,當(dāng)Y=1時(shí)表示“是”,當(dāng)Y=0時(shí)表示“否”),這是真實(shí)的商業(yè)數(shù)據(jù)銀行根據(jù)客戶(hù)當(dāng)時(shí)的社會(huì)經(jīng)濟(jì)情況,以此來(lái)預(yù)測(cè)客戶(hù)是否可能購(gòu)買(mǎi)儲(chǔ)蓄產(chǎn)品從而接受營(yíng)銷(xiāo),此數(shù)據(jù)集具有普適性和一般性。
首先,以分類(lèi)模型理論為基礎(chǔ),基于判別分析思想,選取并對(duì)比邏輯回歸模型和支持向量機(jī)模型,說(shuō)明模型的可行性;然后,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)集的劃分、平衡、類(lèi)別變換,以此建立兩種判別函數(shù)模型求出判別結(jié)果;其次,針對(duì)模型判別結(jié)果,利用混淆矩陣對(duì)比錯(cuò)判率,利用ROC曲線進(jìn)行性能評(píng)估;最后,選取相對(duì)最優(yōu)模型來(lái)進(jìn)行客戶(hù)的判別分類(lèi),根據(jù)判別表達(dá)式得出客戶(hù)預(yù)約定期存款的概率較小,刻畫(huà)出潛在的客戶(hù)人群。
判別分析是多元統(tǒng)計(jì)推斷中應(yīng)用于對(duì)樣品進(jìn)行判別分類(lèi)的一種實(shí)用性很強(qiáng)的統(tǒng)計(jì)方法,是一種通過(guò)對(duì)已知分類(lèi)樣本的研究得出具體模型,將模型用于未知樣本的判別分類(lèi)中的多元統(tǒng)計(jì)分析方法。不論用什么具體的判別分析方法處理問(wèn)題,通常模擬出用來(lái)衡量與所有已知樣本組別的接近程度的標(biāo)志值,即判別函數(shù)值,同時(shí)也需要指定具體的判別準(zhǔn)則,用以判定待判別樣品的組別。常用的有距離式準(zhǔn)則、費(fèi)歇準(zhǔn)則、貝葉斯準(zhǔn)則,逐步判別準(zhǔn)則等。
邏輯回歸(Logistic Regression,LR)是研究二元分類(lèi)的表現(xiàn)變量(因變量)與預(yù)測(cè)變量(自變量)之間關(guān)系的一種多變量統(tǒng)計(jì)分析方法,屬于概率型非線性回歸,是二分?jǐn)?shù)據(jù)的廣義線性模型。由于因變量二分類(lèi)數(shù)據(jù)的取值特點(diǎn)(一般設(shè)置為取0或1),該模型實(shí)際上就是在一般線性回歸的基礎(chǔ)上,引入了一個(gè)邏輯轉(zhuǎn)化函數(shù)Sigmoid,因此邏輯回歸被認(rèn)為是一個(gè)被Sigmoid函數(shù)所歸一化后的線性回歸模型[1]。
對(duì)于二分類(lèi)因變量Y和解釋變量X,令概率p為:
借助Sigmoid函數(shù)的轉(zhuǎn)換,此時(shí)的Logistic回歸模型為:
β向量中各分量(β1,β2…βp)′的符號(hào)決定了發(fā)生比是會(huì)隨著解釋變量X的增加而上升還是下降,其變化的速度由│βi│所決定。一般會(huì)將閾值設(shè)置為0.5,如果輸出結(jié)果p大于等于0.5時(shí),把待判樣本歸為1類(lèi),反之歸為0類(lèi)。
支持向量機(jī)(Support Vector Machines,SVM)是一種二分類(lèi)模型,它的本質(zhì)思想是構(gòu)建特征空間上不同類(lèi)別間隔最大的分類(lèi)器,通過(guò)轉(zhuǎn)化為凸二次規(guī)劃問(wèn)題,從而實(shí)現(xiàn)間隔最大化。SVM的目標(biāo)是找到一個(gè)最優(yōu)決策超平面,使不同的兩類(lèi)樣本之間的距離達(dá)到最大,其中距離超平面最近的點(diǎn)稱(chēng)為“支持向量”。假設(shè)數(shù)據(jù)集的樣本D={(x1,y1),(x2,y2)…(xm,ym)},yi∈{-1,+1}是線性可分的,對(duì)于超平面(ω,b),要使得不同類(lèi)支持向量間的間隔距離最大化,即:
這就是支持向量機(jī)的基本型[1]。
邏輯回歸與支持向量機(jī)都是分類(lèi)算法和監(jiān)督學(xué)習(xí)算法,如果不考慮核函數(shù)兩者都屬于線性分類(lèi)。但是,兩者之間也存在著顯著的差異:首先,支持向量機(jī)只考慮局部的邊界線附近的點(diǎn),而邏輯回歸考慮全局;其次,支持向量機(jī)不直接依賴(lài)于數(shù)據(jù)分布,分類(lèi)平面不受一類(lèi)點(diǎn)影響,而邏輯回歸則受所有數(shù)據(jù)點(diǎn)的影響,一般需要先對(duì)數(shù)據(jù)做平衡性處理;最后,在解決非線性問(wèn)題時(shí),支持向量機(jī)采用核函數(shù)的機(jī)制,而LR通常不采用核函數(shù)的方法。
由于支持向量機(jī)并不是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,因此其經(jīng)驗(yàn)風(fēng)險(xiǎn)可能較大,為了解決這個(gè)問(wèn)題,本文將邏輯回歸引入到傳統(tǒng)支持向量機(jī)中,利用邏輯回歸的輸出概率為支持向量機(jī)的輸出結(jié)果提供支持信念,其目的是降低支持向量機(jī)對(duì)預(yù)測(cè)樣本進(jìn)行判別的經(jīng)驗(yàn)風(fēng)險(xiǎn)[2]。
將數(shù)據(jù)集2(bank.csv)中的4521條數(shù)據(jù)視為測(cè)試集,用于模型結(jié)果的測(cè)試,將數(shù)據(jù)集1(bank-full.csv)中的45211條數(shù)據(jù)減去數(shù)據(jù)集2(bank.csv)中的4521條數(shù)據(jù)后的結(jié)果記為數(shù)據(jù)集3,將其視為訓(xùn)練集,共有40690條數(shù)據(jù),用于模型的訓(xùn)練。
通過(guò)簡(jiǎn)單的統(tǒng)計(jì)發(fā)現(xiàn)樣本分配差距很大,其中Y=1的那部分樣本占了13.16%,樣本具有不平衡性,采取了欠采樣、過(guò)采樣、人工數(shù)據(jù)合成三種方法分別進(jìn)行了數(shù)據(jù)平衡化處理,但卻發(fā)現(xiàn)平衡后數(shù)據(jù)的預(yù)測(cè)精度還不如原始數(shù)據(jù)的精度值高。經(jīng)過(guò)文獻(xiàn)閱讀,這類(lèi)數(shù)據(jù)的不平衡性由于銀行做客戶(hù)分類(lèi),客戶(hù)具有一定的偏好性,即具有一個(gè)先驗(yàn)概率問(wèn)題。因此后面的分析使用原始數(shù)據(jù)進(jìn)行。
此外,數(shù)據(jù)不缺在缺失值,由于采用的是R語(yǔ)言,在使用邏輯回歸模型時(shí)會(huì)自動(dòng)對(duì)因子型變量設(shè)置虛擬變量,從而實(shí)現(xiàn)了對(duì)分類(lèi)變量的量化。至此數(shù)據(jù)處理完畢,可應(yīng)用于后續(xù)數(shù)據(jù)分析。
將預(yù)處理完后的數(shù)據(jù)分別建立邏輯回歸和支持向量機(jī)的判別模型,借助R語(yǔ)言[3],通過(guò)對(duì)比選擇錯(cuò)判率更低的模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),兩類(lèi)模型的預(yù)測(cè)結(jié)果混淆矩陣如表1和表2所示。
表1 邏輯回歸的混淆矩陣
表2 支持向量機(jī)的混淆矩陣
模型結(jié)果的性能評(píng)估往往采取ROC(Receiver Operating Characteristic)曲線,全稱(chēng)為“受試者工作特征曲線”,源于雷達(dá)信號(hào)分析技術(shù)。ROC曲線的橫軸是“假正例率”(FPR),縱軸是“真正例率”(TPR),如果曲線越靠近左上角,則說(shuō)明分類(lèi)模型的分類(lèi)結(jié)果準(zhǔn)確率越高。AUC(Area Under ROC Curve)指ROC曲線與坐標(biāo)軸圍成的面積,相對(duì)于ROC曲線,它是一個(gè)更加直觀的準(zhǔn)確率評(píng)判標(biāo)準(zhǔn),面積越大,則說(shuō)明分類(lèi)模型的分類(lèi)性能較好,兩類(lèi)模型的ROC曲線如圖1和圖2所示。
圖1 邏輯回歸ROC曲線
圖2 支持向量機(jī)ROC曲線
通過(guò)判對(duì)率和ROC曲線的性能評(píng)估可知,邏輯回歸的效果要更優(yōu)于支持向量機(jī),因此在分析客戶(hù)是否預(yù)約定期存款上選擇邏輯回歸模型。為了更直觀的看出16個(gè)預(yù)測(cè)變量對(duì)響應(yīng)變量的具體影響,將采用逐步回歸法依次篩選有效的預(yù)測(cè)變量[4],最終的顯著性變量表和邏輯回歸結(jié)果如表3和表4所示。
表3 顯著性變量表
表4 邏輯回歸結(jié)果
邏輯回歸判別表達(dá)式為:
通過(guò)對(duì)訓(xùn)練集建立的逐步邏輯回歸可知,對(duì)16個(gè)預(yù)測(cè)變量整體而言,“age(X1)”、“job(X2)”、“default(X5)”、“days(X10)”、“months(X11)”、“previous(X15)”顯著性不明顯,即這六個(gè)方面各自差異并不能很好的體現(xiàn)客戶(hù)對(duì)于是否訂閱定期存款的偏好。其中的“marital(X3)”、“housing(X7)”、“l(fā)oan(X8)”、“campaign(X13)”、“pdays(X14)”變量對(duì)最后結(jié)果的影響顯著,且為負(fù)向影響,即其數(shù)值越大則表明客服訂閱定期存款的可能性約低,其中“housing”的負(fù)向影響程度最大,“pdays”的影響程度最小。其中的“education(X4)”、“balance(X6)”、“contact(X9)”、“duration(X12)”、“poutcome(X16)”變量對(duì)最后的結(jié)果影響也為顯著,且為正向影響,即其數(shù)值越大則表明客服訂閱定期存款的可能性約高,其中“poutcome”的正向影響程度最大,“balance”的正向影響程度最小。
根據(jù)最終擇優(yōu)選出的邏輯回歸方法,根據(jù)訓(xùn)練集中已有的數(shù)據(jù)建立的判別模型,預(yù)測(cè)出在測(cè)試集的4521個(gè)客戶(hù)人群中,可以得出:有272個(gè)客戶(hù)會(huì)訂閱定期存款,其余的4249個(gè)客戶(hù)不會(huì)訂閱定期存款。
為判別銀行客戶(hù)是否預(yù)約定期存款,建立邏輯回歸判別模型與支持向量機(jī)判別模性,并進(jìn)行綜合比較,最后建立最優(yōu)逐步邏輯回歸模性。得出最終以下結(jié)論:從整體上講,“marital”、“education”、“balance”、“housing”、“l(fā)oan”、“contact”、“duration”、“campaign”、“pdays”和“poutcome”這10個(gè)預(yù)測(cè)變量對(duì)結(jié)果有較強(qiáng)的影響,其中,變量“poutcome”的正向影響因素最顯著,即其數(shù)值越大則表明客服訂閱定期存款的可能性約高,變量“housing”的負(fù)向影響因素最顯著,即其數(shù)值越大則表明客服訂閱定期存款的可能性約低。從分類(lèi)變量上講,應(yīng)著重關(guān)注單身人員、受教育程度更高的客戶(hù)、具有貸款的、余額越多、與客接觸的時(shí)間越長(zhǎng)則越有可能前來(lái)訂閱定期存款。此外,盡量減少在二月份進(jìn)行營(yíng)銷(xiāo)活動(dòng),適當(dāng)增加三月份的營(yíng)銷(xiāo)活動(dòng),在營(yíng)銷(xiāo)活動(dòng)中接觸客戶(hù)人數(shù)適當(dāng)就好,越多并不代表成功率越高。