夏春梅
摘 要: 為了開發(fā)一個(gè)中國郵政儲(chǔ)蓄銀行某分行的信貸風(fēng)險(xiǎn)管理系統(tǒng),采用了數(shù)據(jù)挖掘技術(shù)。首先對(duì)數(shù)據(jù)挖掘和數(shù)據(jù)倉庫技術(shù)的相關(guān)概念進(jìn)行了介紹,對(duì)現(xiàn)有的信貸管理情況進(jìn)行了分析,結(jié)合我國銀行業(yè)的實(shí)際特點(diǎn),得到了一個(gè)基于數(shù)據(jù)挖掘的信貸風(fēng)險(xiǎn)管理模型的設(shè)計(jì)和實(shí)現(xiàn)方法。在此基礎(chǔ)上,通過在分類以前進(jìn)行屬性選擇,不僅改善了分類器的總體性能,也降低了數(shù)據(jù)采集成本,可以提高銀行信貸工作的效率。
關(guān)鍵字: 數(shù)據(jù)挖掘; 分類算法; 決策樹; 信貸風(fēng)險(xiǎn)管理
中圖分類號(hào): TN964?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2014)04?0078?04
Application of data mining technology in loan risk management
XIA Chun?mei
(Binzhou University, Binzhou 256600, China)
Abstract: In order to develop a loan risk management system for Binzhou Branch of Postal Savings Bank of China, the data mining (DM) technology is applied. The relevant concepts of DM and data warehouse technology are introduced. The available circumstances existing in the credit information management is analyzed. In combination with the actual characteristics of Chinese banking industry, a loan risk management model based on DM was designed. By attributes selection before classification, the overall performance of the classifier was improved, and the data acquisition cost was reduced. As a result, the efficiency of the bank credit service was improved.
Keywords: data mining; classification algorithm; decision tree; loan risk management
0 引 言
長(zhǎng)期以來,銀行管理人員由于硬件設(shè)施和數(shù)據(jù)處理技術(shù)的限制,不能全面把握貸款的相關(guān)信息,往往不能對(duì)信貸資產(chǎn)的風(fēng)險(xiǎn)做出正確的評(píng)估,從而導(dǎo)致決策失誤。如何從海量的數(shù)據(jù)中發(fā)掘出風(fēng)險(xiǎn)評(píng)估的規(guī)律使銀行規(guī)避風(fēng)險(xiǎn)成為銀行業(yè)面臨的一大挑戰(zhàn)。
經(jīng)中國政府批準(zhǔn),中國郵政儲(chǔ)蓄銀行有限責(zé)任公司于2007年3月6日依法成立。郵政儲(chǔ)蓄小額貸款業(yè)務(wù)不需質(zhì)押、抵押,具有擔(dān)保方式靈活、放款速度快、貸款額度高等優(yōu)點(diǎn)。對(duì)于拓寬城鄉(xiāng)居民融資渠道、有效緩解農(nóng)民“貸款難”問題、促進(jìn)農(nóng)民增收、農(nóng)村經(jīng)濟(jì)發(fā)展具有重要意義。但是,防范風(fēng)險(xiǎn)是金融業(yè)永恒的主題,在推出業(yè)務(wù)的同時(shí)要加強(qiáng)宏觀經(jīng)濟(jì)形勢(shì)分析和市場(chǎng)調(diào)研,密切關(guān)注可能出現(xiàn)的各種風(fēng)險(xiǎn),維護(hù)金融安全穩(wěn)定。在銀行信貸風(fēng)險(xiǎn)管理中使用數(shù)據(jù)挖掘技術(shù),可以從海量的信貸數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的客觀規(guī)律,還可以更好地降低金融機(jī)構(gòu)存在的業(yè)務(wù)風(fēng)險(xiǎn)。本文就是運(yùn)用數(shù)據(jù)挖掘技術(shù)來解決郵政某銀行的信貸風(fēng)險(xiǎn)管理問題。
1 提出問題
數(shù)據(jù)挖掘(Data Mining),數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)并提取隱藏在內(nèi)的、人們事先不知道的但又可能有用的信息和知識(shí)的一種新技術(shù)[1],是從海量數(shù)據(jù)中發(fā)現(xiàn)人們事先未知的、規(guī)律性的,隱蔽信息和知識(shí)的非平凡過程[2]。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)理論自1989年8月提出至今得到了廣泛的研究,內(nèi)容包括基礎(chǔ)理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉庫、可視化技術(shù)、定性定量互換模型[3]、知識(shí)表示方法、發(fā)現(xiàn)知識(shí)的維護(hù)和再利用、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)挖掘等。
現(xiàn)在有很多適用于各種商業(yè)應(yīng)用橫向解決方案(Horizontal Solution)的通用數(shù)據(jù)挖掘系統(tǒng),而專用的數(shù)據(jù)挖掘系統(tǒng)的應(yīng)用多集中在電信、保險(xiǎn)、生物醫(yī)學(xué)、零售業(yè)等部門[4]。數(shù)據(jù)挖掘的所有工作都應(yīng)該與工作領(lǐng)域的實(shí)際業(yè)務(wù)相掛鉤,銀行業(yè)要根據(jù)各個(gè)銀行不同信貸業(yè)務(wù)的特點(diǎn)來確定具體的數(shù)據(jù)分析主題。全國的眾多銀行受各個(gè)地方的經(jīng)濟(jì)發(fā)展水平等各種因素的影響,肯定會(huì)存在一些業(yè)務(wù)差異和業(yè)務(wù)特色。所以,只有緊密結(jié)合某個(gè)具體銀行業(yè)的實(shí)際業(yè)務(wù),確定一個(gè)合適的數(shù)據(jù)分析主題,這樣的數(shù)據(jù)挖掘成果才具有現(xiàn)實(shí)意義。本文定義了貸款風(fēng)險(xiǎn)分類分析作為數(shù)據(jù)挖掘的目標(biāo)。
貸款管理一般使用貸款風(fēng)險(xiǎn)分類法對(duì)貸款質(zhì)量進(jìn)行分類。中國人民銀行按照風(fēng)險(xiǎn)程度將貸款劃分為不同檔次,并于2001年12月頒布了《貸款風(fēng)險(xiǎn)分類指導(dǎo)原則》,把貸款分為5類:正常、關(guān)注、次級(jí)、可疑和損失。期中后3類合稱為不良貸款[5]。商業(yè)銀行可以直接采用此標(biāo)準(zhǔn)對(duì)貸款風(fēng)險(xiǎn)進(jìn)行分類,也可以根據(jù)指導(dǎo)原則制定自己的貸款分類制度。但是,要求商業(yè)銀行制定的貸款分類制度必須和中國人民銀行采用的貸款風(fēng)險(xiǎn)分類法具有非常明確的對(duì)應(yīng)和轉(zhuǎn)換關(guān)系。
可以通過數(shù)據(jù)挖掘,分析不同類別貸款的具有的特征,建立一個(gè)模型。當(dāng)有一筆新申請(qǐng)貸款時(shí),可以利用模型估計(jì)它的類別,從而針對(duì)不同類別的貸款申請(qǐng)采取相應(yīng)的措施。例如,對(duì)屬于正常范圍的貸款可以直接批準(zhǔn)通過,而對(duì)于關(guān)注以下的貸款則需要加強(qiáng)審查,或者加強(qiáng)對(duì)該企業(yè)的貸后檢查,或者拒絕貸款,從而提高了信貸資產(chǎn)的安全性。當(dāng)然,信貸資產(chǎn)的風(fēng)險(xiǎn)等級(jí)也會(huì)隨著企業(yè)經(jīng)營情況發(fā)生變化,銀行需要每隔一定的時(shí)間對(duì)每一筆貸款的當(dāng)前分類進(jìn)行重新分析,提高信貸風(fēng)險(xiǎn)的管理力度,降低銀行信貸資產(chǎn)的損失。
2 問題解決
本文采用WEKA3.5.7作為數(shù)據(jù)挖掘平臺(tái)。懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,WEKA)是一個(gè)開放源碼的數(shù)據(jù)挖掘軟件[6]。
2.1 原始數(shù)據(jù)描述
據(jù)統(tǒng)計(jì),由于[23]的郵政儲(chǔ)蓄網(wǎng)點(diǎn)都是在縣及縣以下的地方,自開辦郵政儲(chǔ)蓄小額質(zhì)押貸款和小額貸款業(yè)務(wù)以來,80%的貸款發(fā)放到了農(nóng)村地區(qū)。郵政儲(chǔ)蓄小額貸款業(yè)務(wù)又分為農(nóng)戶小額貸款和商戶小額貸款兩種。其中,農(nóng)戶小額貸款指的是向農(nóng)戶發(fā)放的用于滿足其農(nóng)作物種植、養(yǎng)殖業(yè)或非農(nóng)業(yè)(日用百貨、生產(chǎn)加工、服務(wù)、建筑類、運(yùn)輸?shù)龋┥a(chǎn)經(jīng)營等需要的短期貸款。商戶小額貸款是指向從事批發(fā)零售、服務(wù)業(yè)(餐飲類)、生產(chǎn)加工等部門的微小企業(yè)主提供的用來滿足其經(jīng)營中資金需求的貸款。本文選擇了郵政儲(chǔ)蓄小額貸款業(yè)務(wù)中的商戶小額貸款作為研究對(duì)象。商戶小額貸款又分為2種:商戶聯(lián)保貸款和商戶保證貸款。
對(duì)于本文所研究的商戶小額貸款業(yè)務(wù)來說,涉及的數(shù)據(jù)表很多,如客戶及家庭信息表、業(yè)務(wù)信息表、采購信息表、季節(jié)性分析表、毛利率計(jì)算表、資產(chǎn)負(fù)債表、損益表、保證人信息表、小組聯(lián)保信息表等。這些信息雖然都與業(yè)務(wù)相關(guān),但并非都有利于本文的研究。為了不侵犯和泄漏商戶的秘密,本文在提取數(shù)據(jù)過程中過濾了營業(yè)執(zhí)照編號(hào)、商戶姓名、居住地址、店名或廠名、聯(lián)系方式等屬性。經(jīng)過分析,抽取了客戶代碼、婚姻狀況、貸款種類、教育程度、年齡、貸款額度、貸款期限、還款方式、主營業(yè)務(wù)、經(jīng)營年限、流動(dòng)資產(chǎn)總額、固定資產(chǎn)總額、負(fù)債、月凈收入、月投入、信用、分類結(jié)果17個(gè)字段作為事實(shí)表數(shù)據(jù)。
2.2 數(shù)據(jù)預(yù)處理
經(jīng)過初步采集的源數(shù)據(jù)往往是不完整的、有噪聲的和不一致的。銀行的數(shù)據(jù)庫中由于人工輸入錯(cuò)誤,收集數(shù)據(jù)設(shè)備的故障、以及數(shù)據(jù)傳輸中出現(xiàn)的錯(cuò)誤造成了銀行數(shù)據(jù)庫中的大量噪聲數(shù)據(jù)[7]。并且有些屬性,如客戶的收入狀況,包括收入的來源都沒有詳盡的正確的記錄。有些數(shù)據(jù)如住房情況、工作單位、職務(wù)、家庭人口情況在輸入數(shù)據(jù)庫時(shí)為空值。所以,對(duì)于這些錯(cuò)誤和空值數(shù)據(jù)有必要先進(jìn)行預(yù)處理。
在這個(gè)階段,主要進(jìn)行數(shù)據(jù)收集、數(shù)據(jù)選擇、數(shù)據(jù)清理、數(shù)據(jù)變換等工作。在提取數(shù)據(jù)時(shí)選擇了17個(gè)屬性字段,從數(shù)據(jù)庫中隨機(jī)抽取整理了100條記錄。其中,婚姻狀況均為已婚(未婚不予貸款),還款方式均為階段性等額本息還款法,對(duì)分類沒有參考價(jià)值,去除這2個(gè)屬性。客戶代碼取值有許多且無概化操作,屬性刪除。對(duì)其他屬性字段的概化結(jié)果如表1所示。
表1 概化后的屬性字段
在分類抽取整理的客戶資料中一共有52個(gè)己分類的案例。其中正常類30個(gè),關(guān)注類9個(gè),次級(jí)類6個(gè),可疑類5個(gè),損失類2個(gè)。
由于損失類的借款人財(cái)務(wù)資料絕大多數(shù)無法獲得,故只有前4類參與。實(shí)際是正常類30個(gè),關(guān)注類9個(gè),次級(jí)類6個(gè),可疑類5個(gè),一共50個(gè)。
根據(jù)上面的數(shù)據(jù)準(zhǔn)備,得到了此模型的訓(xùn)練數(shù)據(jù)集如表2所示。
2.3 構(gòu)造決策樹
上表的數(shù)據(jù)已經(jīng)全部轉(zhuǎn)換為WEKA可以讀取的數(shù)據(jù)文件格式(CSV Data Files),接下來利用WEKA來建立模型。啟動(dòng)WEKA的Explorer界面,并載入數(shù)據(jù)。然后選擇一種構(gòu)建決策樹[8]的方法將樹建立起來。通過對(duì)BFTree,DecisionStump,J48,LMT,NBTree,RandomForest,Randomtree,REPTree,SimpleCart 9種分類器的實(shí)驗(yàn)結(jié)果分析,J48分類器的準(zhǔn)確率最高。
2.4 模型評(píng)估
根據(jù)建立的分類模型和樣本數(shù)據(jù),評(píng)估模型的預(yù)測(cè)準(zhǔn)確率。模型的準(zhǔn)確率可以用被模型正確分類的測(cè)試樣本的百分比表示,如模型的預(yù)測(cè)正確率是可以接受的,就可以用來指導(dǎo)對(duì)客戶群分類。應(yīng)用J48分類器進(jìn)行分類評(píng)估,準(zhǔn)確率為82%,即50個(gè)樣本數(shù)據(jù)中,對(duì)41個(gè)進(jìn)行了正確分類,有9個(gè)分類不正確。該評(píng)估結(jié)果是通過默認(rèn)的分層10折交叉驗(yàn)證得到的。
3 改 進(jìn)
數(shù)據(jù)挖掘從源數(shù)據(jù)發(fā)掘、知識(shí)發(fā)現(xiàn)到應(yīng)用是一個(gè)系統(tǒng)的過程[8],而不僅僅是需要有算法。在分類過程中,一般隨著選擇屬性數(shù)目的增加分類性能會(huì)有所提高。但是,當(dāng)屬性增加到一定程度后,有時(shí)再增加屬性反而會(huì)導(dǎo)致分類性能有所下降,這種現(xiàn)象稱為Hughes現(xiàn)象。因此,雖然從理論角度來講,多選擇幾個(gè)屬性意味著信息量的增加,但是屬性過多時(shí)反而會(huì)使性能變差,因?yàn)閷?shí)際應(yīng)用總是作用在規(guī)模有限的樣本之上。因此,在分類器集成設(shè)計(jì)中進(jìn)行屬性消減是十分必要的。
可以通過2種方法消減問題域中的屬性數(shù)目:屬性提取和屬性選擇[9]。屬性提取通過某種映射將一個(gè)處于高維空間的樣本轉(zhuǎn)換為一個(gè)低維空間的樣本。映射后的屬性稱為二次屬性,它們是原始屬性的某種組合(通常是線性組合)。屬性提取在廣義上就是一種變換。若X是原始的測(cè)量空間,X′是屬性空間,則變換X→X′就叫作屬性提取器。屬性選擇是指從一組屬性中挑選出一些最有效的屬性以有效降低空間維數(shù)的過程。屬性選擇可以看作屬性提取的一個(gè)特例。對(duì)變量進(jìn)行提取往往失去了結(jié)果的可解釋性。特別的,對(duì)于離散變量而言,進(jìn)行屬性提取是沒有意義的。因此,本文著重研究屬性選擇方法。
在對(duì)樣本數(shù)據(jù)集建立分類模型之前,先進(jìn)行屬性選擇處理。WEKA中提供了“Select attributes”專門用于屬性選擇。通過對(duì)“Search method”的選擇比較,屬性選擇的結(jié)果大部分為6個(gè)屬性:年齡、經(jīng)營年限、負(fù)債、月凈收入、月投入、信譽(yù)狀況,根據(jù)以上屬性選擇結(jié)果,從樣本數(shù)據(jù)集中去掉其他屬性,共保留包括貸款類別在內(nèi)的7個(gè)屬性,重新利用J48分類器建立決策樹模型。準(zhǔn)確率提高為86%,即50個(gè)樣本數(shù)據(jù)中,對(duì)43個(gè)進(jìn)行了正確分類,有7個(gè)分類不正確。
上面利用J48分類器構(gòu)建的決策樹模型準(zhǔn)確率是可以接受的,銀行可以為每一筆新申請(qǐng)貸款通過模型得出一個(gè)估計(jì)的類別,從而針對(duì)不同類別的貸款申請(qǐng)采取相應(yīng)的措施。例如,對(duì)屬于正常范圍的貸款可以直接批準(zhǔn)通過,而對(duì)于關(guān)注以下的貸款則需要加強(qiáng)審查,或者加強(qiáng)對(duì)該企業(yè)的貸后檢查,或者拒絕貸款,從而提高了信貸資產(chǎn)的安全性。當(dāng)然,信貸資產(chǎn)的風(fēng)險(xiǎn)等級(jí)也會(huì)隨著企業(yè)經(jīng)營情況發(fā)生變化,銀行需要每隔一定時(shí)間重新分析每筆貸款的當(dāng)前分類,然后總結(jié)出貸款分類特征的變化趨勢(shì),提高信貸風(fēng)險(xiǎn)的管理力度,降低信貸資產(chǎn)的損失。
4 結(jié) 論
在應(yīng)用中選擇和概化了與分類結(jié)果密切相關(guān)的14個(gè)屬性字段,將大量的數(shù)據(jù)進(jìn)行了預(yù)處理,得到訓(xùn)練集。然后利用WEKA3.5.7挖掘平臺(tái)對(duì)訓(xùn)練集進(jìn)行了有效的數(shù)據(jù)挖掘。這里選擇了J48分類算法,通過在分類以前進(jìn)行屬性選擇,不僅改善了分類器的總體性能,也降低了數(shù)據(jù)采集成本,顯著提高了銀行信貸工作的效率。至此,完成了數(shù)據(jù)挖掘技術(shù)在一個(gè)基于決策樹分類技術(shù)的貸款風(fēng)險(xiǎn)分類的簡(jiǎn)單應(yīng)用。
參考文獻(xiàn)
[1] 王珊,薩師煊.數(shù)據(jù)庫系統(tǒng)概論[M].4版.北京:高等教育出版社,2006.
[2] 張?jiān)茲?,龔?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[3] 陳貴林.一種定性定量信息轉(zhuǎn)換的不確定性模型:云模型[J].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2006?2010.
[4] YU Ming?kai, GOU Xue?rong, ZHANG Xun, et al. Research of SOA?based data mining application platform in telecommunications industry [J]. Computer Systems & Applications, 2009(6): 196?202.
[5] 林躍雄.商業(yè)銀行分支機(jī)構(gòu)利用貸款風(fēng)險(xiǎn)分類調(diào)節(jié)利潤的主要做法和防范對(duì)策[J].經(jīng)濟(jì)師,2009(11):195?197.
[6] 佚名.數(shù)據(jù)挖掘軟件:WEKA [EB/OL]. [2008?09?20]. http:// www.baike.baidu.com/ view/ 1380214.htm.
[7] 王石,李玉忱,劉乃麗,等.在屬性級(jí)別上處理噪聲數(shù)據(jù)的數(shù)據(jù)清洗算法[J].計(jì)算機(jī)工程,2005(9):86?87.
[8] KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].2版.范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.
[9] 焦鵬,王新政,謝鵬遠(yuǎn).基于屬性選擇法的樸素貝葉斯分類器性能改進(jìn)[J].電訊技術(shù),2013(3):329?333.
[10] 朱元波.一種數(shù)據(jù)挖掘系統(tǒng)的研究與實(shí)現(xiàn)[J].電子科技,2013(3):99?101.
[11] 周牒嵐,陳琳,向華.數(shù)據(jù)挖掘算法研究[J].現(xiàn)代電子技術(shù),2011,34(20):75?78.
[12] 陳光海.基于SOA的網(wǎng)上銀行客戶評(píng)估系統(tǒng)的研究與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2009,32(24):42?44.
[13] 龍海燕,奚振斐,宋國鄉(xiāng).基于模糊綜合評(píng)判防范的電子銀行內(nèi)部風(fēng)險(xiǎn)分析[J].現(xiàn)代電子技術(shù),2008,31(24):151?153.
[14] 張蕾.電子銀行的風(fēng)險(xiǎn)分析及對(duì)策[J].電子設(shè)計(jì)工程,2009(6):25?27.
4 結(jié) 論
在應(yīng)用中選擇和概化了與分類結(jié)果密切相關(guān)的14個(gè)屬性字段,將大量的數(shù)據(jù)進(jìn)行了預(yù)處理,得到訓(xùn)練集。然后利用WEKA3.5.7挖掘平臺(tái)對(duì)訓(xùn)練集進(jìn)行了有效的數(shù)據(jù)挖掘。這里選擇了J48分類算法,通過在分類以前進(jìn)行屬性選擇,不僅改善了分類器的總體性能,也降低了數(shù)據(jù)采集成本,顯著提高了銀行信貸工作的效率。至此,完成了數(shù)據(jù)挖掘技術(shù)在一個(gè)基于決策樹分類技術(shù)的貸款風(fēng)險(xiǎn)分類的簡(jiǎn)單應(yīng)用。
參考文獻(xiàn)
[1] 王珊,薩師煊.數(shù)據(jù)庫系統(tǒng)概論[M].4版.北京:高等教育出版社,2006.
[2] 張?jiān)茲徚?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[3] 陳貴林.一種定性定量信息轉(zhuǎn)換的不確定性模型:云模型[J].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2006?2010.
[4] YU Ming?kai, GOU Xue?rong, ZHANG Xun, et al. Research of SOA?based data mining application platform in telecommunications industry [J]. Computer Systems & Applications, 2009(6): 196?202.
[5] 林躍雄.商業(yè)銀行分支機(jī)構(gòu)利用貸款風(fēng)險(xiǎn)分類調(diào)節(jié)利潤的主要做法和防范對(duì)策[J].經(jīng)濟(jì)師,2009(11):195?197.
[6] 佚名.數(shù)據(jù)挖掘軟件:WEKA [EB/OL]. [2008?09?20]. http:// www.baike.baidu.com/ view/ 1380214.htm.
[7] 王石,李玉忱,劉乃麗,等.在屬性級(jí)別上處理噪聲數(shù)據(jù)的數(shù)據(jù)清洗算法[J].計(jì)算機(jī)工程,2005(9):86?87.
[8] KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].2版.范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.
[9] 焦鵬,王新政,謝鵬遠(yuǎn).基于屬性選擇法的樸素貝葉斯分類器性能改進(jìn)[J].電訊技術(shù),2013(3):329?333.
[10] 朱元波.一種數(shù)據(jù)挖掘系統(tǒng)的研究與實(shí)現(xiàn)[J].電子科技,2013(3):99?101.
[11] 周牒嵐,陳琳,向華.數(shù)據(jù)挖掘算法研究[J].現(xiàn)代電子技術(shù),2011,34(20):75?78.
[12] 陳光海.基于SOA的網(wǎng)上銀行客戶評(píng)估系統(tǒng)的研究與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2009,32(24):42?44.
[13] 龍海燕,奚振斐,宋國鄉(xiāng).基于模糊綜合評(píng)判防范的電子銀行內(nèi)部風(fēng)險(xiǎn)分析[J].現(xiàn)代電子技術(shù),2008,31(24):151?153.
[14] 張蕾.電子銀行的風(fēng)險(xiǎn)分析及對(duì)策[J].電子設(shè)計(jì)工程,2009(6):25?27.
4 結(jié) 論
在應(yīng)用中選擇和概化了與分類結(jié)果密切相關(guān)的14個(gè)屬性字段,將大量的數(shù)據(jù)進(jìn)行了預(yù)處理,得到訓(xùn)練集。然后利用WEKA3.5.7挖掘平臺(tái)對(duì)訓(xùn)練集進(jìn)行了有效的數(shù)據(jù)挖掘。這里選擇了J48分類算法,通過在分類以前進(jìn)行屬性選擇,不僅改善了分類器的總體性能,也降低了數(shù)據(jù)采集成本,顯著提高了銀行信貸工作的效率。至此,完成了數(shù)據(jù)挖掘技術(shù)在一個(gè)基于決策樹分類技術(shù)的貸款風(fēng)險(xiǎn)分類的簡(jiǎn)單應(yīng)用。
參考文獻(xiàn)
[1] 王珊,薩師煊.數(shù)據(jù)庫系統(tǒng)概論[M].4版.北京:高等教育出版社,2006.
[2] 張?jiān)茲?,龔?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[3] 陳貴林.一種定性定量信息轉(zhuǎn)換的不確定性模型:云模型[J].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2006?2010.
[4] YU Ming?kai, GOU Xue?rong, ZHANG Xun, et al. Research of SOA?based data mining application platform in telecommunications industry [J]. Computer Systems & Applications, 2009(6): 196?202.
[5] 林躍雄.商業(yè)銀行分支機(jī)構(gòu)利用貸款風(fēng)險(xiǎn)分類調(diào)節(jié)利潤的主要做法和防范對(duì)策[J].經(jīng)濟(jì)師,2009(11):195?197.
[6] 佚名.數(shù)據(jù)挖掘軟件:WEKA [EB/OL]. [2008?09?20]. http:// www.baike.baidu.com/ view/ 1380214.htm.
[7] 王石,李玉忱,劉乃麗,等.在屬性級(jí)別上處理噪聲數(shù)據(jù)的數(shù)據(jù)清洗算法[J].計(jì)算機(jī)工程,2005(9):86?87.
[8] KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].2版.范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.
[9] 焦鵬,王新政,謝鵬遠(yuǎn).基于屬性選擇法的樸素貝葉斯分類器性能改進(jìn)[J].電訊技術(shù),2013(3):329?333.
[10] 朱元波.一種數(shù)據(jù)挖掘系統(tǒng)的研究與實(shí)現(xiàn)[J].電子科技,2013(3):99?101.
[11] 周牒嵐,陳琳,向華.數(shù)據(jù)挖掘算法研究[J].現(xiàn)代電子技術(shù),2011,34(20):75?78.
[12] 陳光海.基于SOA的網(wǎng)上銀行客戶評(píng)估系統(tǒng)的研究與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2009,32(24):42?44.
[13] 龍海燕,奚振斐,宋國鄉(xiāng).基于模糊綜合評(píng)判防范的電子銀行內(nèi)部風(fēng)險(xiǎn)分析[J].現(xiàn)代電子技術(shù),2008,31(24):151?153.
[14] 張蕾.電子銀行的風(fēng)險(xiǎn)分析及對(duì)策[J].電子設(shè)計(jì)工程,2009(6):25?27.