裴永強
(重慶交通大學信息科學與工程學院 重慶市 400064)
數(shù)據(jù)挖掘作為一個新興的領域,隨著互聯(lián)網信息化的發(fā)展,已經廣泛的運用到很多行業(yè)中,金融數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個一部分。金融的范圍非常廣泛,數(shù)據(jù)在金融行業(yè)中也起著非常重要的作用,一個微小數(shù)據(jù)的變化,就可能會對經濟造成很大的影響。因此通過對數(shù)據(jù)的分析,可以在金融業(yè)在經濟全球化浪潮中把握先機,得到更大的發(fā)展。隨著經濟全球化和互聯(lián)網金融的發(fā)展,金融開放性讓我國金融也面臨著整個世界金融機構帶來的巨大挑戰(zhàn)。這樣的壓力下給我國金融行業(yè)提供了機遇和發(fā)展空間,要想把握機遇,就要對金融數(shù)據(jù)做好分析。
21 世紀世界有著經濟全球化,數(shù)據(jù)信息化以及金融國際化等諸多特征,金融數(shù)據(jù)信息化在生活中起到越來越大作用,人們通過對信息化金融數(shù)據(jù)大規(guī)模的分析,找到重要的信息。方便處理相關的金融業(yè)務,數(shù)據(jù)挖掘是一項和未來發(fā)展緊密聯(lián)系的技術。通過對數(shù)據(jù)挖掘可以提前有效的幫助人們獲取有用信息。數(shù)據(jù)挖掘的基本概述數(shù)據(jù)挖掘是對大數(shù)據(jù)庫中的數(shù)據(jù)進行處理,從大量的隨機數(shù)據(jù)中提取出隱含的潛在有用的信息的過程。這個過程需要面對的對象是大量的業(yè)務數(shù)據(jù),因此它需要在人工智能,統(tǒng)計學,自動化的幫助下,對海量數(shù)據(jù)作出歸納整理,概括出有效信息,對信息進行應用。數(shù)據(jù)挖掘可以有效的幫助人們找到方向,占領市場先機,獲得最大化收益。
數(shù)據(jù)挖掘也需要根據(jù)相關的理論來進行。數(shù)據(jù)挖掘的技術理論主要有關聯(lián)規(guī)則挖掘理論和蟻群算法理論。采取關聯(lián)規(guī)則理論挖掘就能夠發(fā)現(xiàn)金融數(shù)據(jù)中存在的聯(lián)系。大量的數(shù)據(jù)中存在潛在聯(lián)系的,借助于關聯(lián)規(guī)則挖掘理論,可以找到數(shù)據(jù)間的聯(lián)系。例如結合關聯(lián)性理論找到具有對銀行融資業(yè)務感興趣的客戶,將這些客戶劃分群體,針對性的對他們開展理財,購買金融產品等業(yè)務。這個理論是從金融機構當中采集相關的金融數(shù)據(jù),對數(shù)據(jù)運算處理后,結合關鍵部分的屬性進行關聯(lián)分析,獲取潛在的關聯(lián)數(shù)據(jù)。這樣的方式主要是用在金融風險防范方面,它可以用來甄別潛在客戶,然后劃分群體,開展相關的業(yè)務。
蟻群算法理論是根據(jù)螞蟻在覓食過程中的活動來進行數(shù)據(jù)挖掘計算。螞蟻在進行覓食的時候,它是通過多次搜索的方法來找到食物的,這樣在時間上達到了最優(yōu)化。因此采取蟻群算法來進行數(shù)據(jù)挖掘就需要在整個數(shù)據(jù)中建立不同途徑的分析路徑,然后對全集的信息進行更新,結合螞蟻路徑進行優(yōu)化,每一個路徑所反映的問題的最優(yōu)解。利用這些就可以有效的對信息進行挖掘分析,這樣的方法主要是用在股票投資用戶行為模型和商業(yè)銀行信用評估中。例如圖一,股票是以時間為序列排列的,所以對股票的處理就可以通過蟻群算法理論。按照時間發(fā)生的先后數(shù)據(jù)對數(shù)據(jù)進行排列,例如一秒,一分鐘,一小時,一天,一年。這樣的時間排列對離散的數(shù)據(jù)進行分析處理,從而得到了股票隨時間變化的趨勢,結合這些趨勢,更好的分析未來投資人的投資去向。
伴隨著金融機構管理信息系統(tǒng)的推廣,在日常使用過程中,很多金融機構運營所產生的信息會形成豐富的數(shù)據(jù)庫。在這大量的數(shù)據(jù)庫中,只有一少部分數(shù)據(jù)得到了應用。這些有用的數(shù)據(jù)在工作過程中,隨著時間積累形成高價值數(shù)據(jù)。這些高價值數(shù)據(jù)會隱藏在這些數(shù)據(jù)中,通過人工的方式難以發(fā)覺,需要借助計算機設備進行挖掘,需要進行更為全面的金融數(shù)據(jù)分析系統(tǒng)來進行分析。要想分析系統(tǒng),就需要對系統(tǒng)進行設計,系統(tǒng)主要聯(lián)系的包括系統(tǒng)分析人員,系統(tǒng)管理人員,數(shù)據(jù)倉庫人員和金融機構的用戶。數(shù)據(jù)分析員要根據(jù)用戶進行設計方案,然后系統(tǒng)管理員維護系統(tǒng)的運行,最后由用戶展現(xiàn)自身的請求,然后得出結果查詢,用戶還需要進一步的反饋給金融機構結果,在這樣一個總體的流程后,數(shù)據(jù)挖掘才算完成。數(shù)據(jù)挖掘的過程中設計好結構框架就需要對用戶的需求做好分析,然后才能進一步的對系統(tǒng)進行設計。對用戶的需求進行分析,需要進行前期大量的數(shù)據(jù)搜尋數(shù)據(jù),然后形成數(shù)據(jù)庫,在用戶完成了對數(shù)據(jù)的反饋之后,也需要將反饋的信息放入數(shù)據(jù)庫中,這樣方便金融部門在其他業(yè)務中進一步的分析。
金融行業(yè)因本身的復雜性,他需要涉及到大量的搜集和處理數(shù)據(jù)。大部分的金融銀行和金融機構都會提供金融服務,例如個人存款,信用卡,貸款業(yè)務和投資等業(yè)務,這些交易的復雜性和信息的不對稱性,再加上每天所進行相關業(yè)務的人數(shù)眾多,所以會產生大量的數(shù)據(jù)這些大量的金融數(shù)據(jù)。在這海量的信息中包含著極少數(shù)的有效信息,而通過數(shù)據(jù)挖掘,可以挖掘出這些存在的有效信息。幫助監(jiān)管部門和投資部門對金融行業(yè)進行有效的監(jiān)管,銀行也可以結合信息得出未來的趨勢,更好的對自身發(fā)展作出規(guī)劃。還可以通過對一些信譽較差的客戶信息分析,采取措施有效地減少自身的損失。結合金融機構的特性以及金融信息的特點對金融數(shù)據(jù)挖掘主要包括以下方面。
建造數(shù)據(jù)倉庫這樣可以保障數(shù)據(jù)的有效使用。金融機構可以通過按月,按地區(qū),按部門等因素,在這些數(shù)據(jù)庫中,對債務和稅收的變化進行分析,通過分析最大,最小,總和與平均值趨勢以及其他信息幫助金融機構得到更好的發(fā)展。數(shù)據(jù)倉庫的建立是進行數(shù)據(jù)挖掘的基礎,也是金融業(yè)更好發(fā)展的前提。也只有建立好的數(shù)據(jù)庫,才能夠結合各行業(yè)的需求對這種數(shù)據(jù)進行挖掘。挖掘數(shù)據(jù)的前提就是有充足的數(shù)據(jù),將數(shù)據(jù)統(tǒng)一的放在一個范圍內,才能更好地對數(shù)據(jù)進行分析。如果銀行和其他相關機構將自己的信息進行封閉,沒有將大量的信息放置在倉庫中,進而也無法對信息進行挖掘。因此銀行和其他相關的金融機構要積極地建造數(shù)據(jù)倉庫,可以將相關的金融信息放置在倉庫中,實現(xiàn)金融信息的有效挖掘和有效利用,幫助金融行業(yè)得到更好的發(fā)展。
銀行貸款償還預測和客戶的信用分析,在銀行是需要大量數(shù)據(jù)挖掘的金融機構,由于銀行涉及到眾多的業(yè)務,所以銀行需要對貸款償還預測,這樣可以保障銀行借出去貸款合理的收回來,銀行不會遭受巨大損失。同時對于顧客信用分析可以幫助銀行更好的鑒別客戶,實現(xiàn)自身效益的最大化。貸款和信用卡業(yè)務是銀行的關鍵業(yè)務,但很多因素都會對貸款償還履行和客戶的信用等級產生影響,通過數(shù)據(jù)挖掘可以剔除不相關的因素。例如與貸款償還風險相關的有貸款利率、貸款期限、負債率、償還收入比、顧客收入水平、受教育水平、顧客信用等多方面情況,結合這些情況,可以發(fā)現(xiàn)只有償還收入比是最重要的因素,顧客受教育情況和負債率與償還速度之間聯(lián)系不是特別密切,所以銀行就可以根據(jù)償還收入比來自對貸款政策進行發(fā)放。
分類的方法可以有效的對客戶群體進行識別,然后開展定向銷售,采取數(shù)據(jù)挖掘對客戶信息進行分類,可以幫助銀行更好地開展業(yè)務。將不同的客戶分類,也能夠推動客戶進行定向消費,促進金融業(yè)的發(fā)展,對于一些資產狀況良好且有投資意向的客戶,銀行可以定期的針對這些客戶開展相關的業(yè)務活動。不僅對銀行的業(yè)務有所提升,而且還能方便客戶,這樣形成互惠互利的局面。這樣還能夠減少銀行不必要的工作,如果沒有進行數(shù)據(jù)挖掘就,就無法對客戶展開統(tǒng)一的分類,開展定向銷售。例如1000 個銀行的客戶信息中,對投資業(yè)務感興趣的只有10 個客戶。如果沒有數(shù)據(jù)挖掘,銀行就需要對1000 個用戶進行調查溝通,然后向他們介紹業(yè)務活動,這樣會花費銀行大量的時間和精力。如果能夠采取數(shù)據(jù)挖掘,就能夠精準地對客戶進行分類,準確的找到這10 個對投資業(yè)務感興趣的客戶。針對這些客戶進行業(yè)務介紹,幫助銀行更好達成業(yè)務,也幫助客戶快速的了解到業(yè)務,極大地提高金融機構的工作效率。
在金融行業(yè)洗黑錢和一些金融犯罪的偵破是非常困難的,在當前只有把多個數(shù)據(jù)庫內的信息匯集起來,才能夠通過這些信息挖掘,幫助偵破金融犯罪。同時金融犯罪也可以通過數(shù)據(jù)挖掘進行提前預測,采取多種數(shù)據(jù)分析工具檢測金融信息,發(fā)現(xiàn)某個人短時間內發(fā)生大量的現(xiàn)金流動,就可以借助于可視化的工具,對該人的交易活動以及交易人之間的聯(lián)系進行有效分析,通過分類工具過濾掉不相關的因素。進一步準確判斷出這個人的行為,幫助調查人員進一步確定調查方向。因為一些金融犯罪行為一旦產生,就會對國家金融業(yè)造成嚴重的危害,不僅破壞金融業(yè)的秩序,而且讓國家遭受巨大的損失。因此通過數(shù)據(jù)挖掘就可以預先的對金融犯罪行為進行判斷,提前發(fā)現(xiàn)金融犯罪行為,及時的制止,減少國家財物的流失。例如,一個人在時間間隔很短的周期內向海外賬戶匯入多筆賬款,這些就可以借助于數(shù)據(jù)挖掘發(fā)現(xiàn)。通過對這個人的進一步調查,確定是否屬于金融犯罪行為,還能借助犯罪后的數(shù)據(jù)調查,幫助監(jiān)察機關及時破案。
圖1:某股數(shù)據(jù)均值計算
圖2:股票K 線圖
通過對股票數(shù)據(jù)的分析,找到股票移動的規(guī)律,然后發(fā)現(xiàn)規(guī)律,進一步確定金融行為,是否參與投資等。以分析股票為例,可以采用移動平均線等算數(shù)方法,是指特定期間的收盤價進行平均化比如說,5 日的均線SMA=(C1+ C2 + C3 + C4 + C5) / 5。數(shù)據(jù)挖掘過程中,不僅要對數(shù)據(jù)做好挖掘,更要對挖掘好的數(shù)據(jù)進行分析,以股票市場為例。在股票市場中,他的交易日收盤價是不同的,每天都會有不同的數(shù)據(jù),在這樣的情況下,如何把握好股票的移動規(guī)律,找到相關規(guī)律進行投資行為,才是非??茖W有指導意義的。例如,在圖1 中對某一只股票連續(xù)十個交易日的收盤價進行統(tǒng)計,分別是8.15、8.07、8.84、8.10、8.40、9.10、8.95、8.70,這組數(shù)據(jù)借助單個的數(shù)據(jù)來看,找不到任何聯(lián)系。但是通過均值的計算就可以發(fā)現(xiàn),第五天的均值為8.31,第六天均值為8.50,第七天的均值為8.73,第八天的均值為8.78,第八天的均值為8.95,第九天的均值為9.01,然后對所計算的均值進行圖像化表達,在圖1 中就可以發(fā)現(xiàn)通過對均值的計算,股票是呈現(xiàn)上漲的趨勢。由此可以方便公司進行相關金融業(yè)務,根據(jù)股票呈現(xiàn)上漲,這個趨勢就可以由客戶對該公司進行深入研究,然后進行相關金融行為。股票K 線圖如圖2 所示。
總結全文,數(shù)據(jù)挖掘已經在我國金融信息化建設中被廣泛應用,也幫助企業(yè)在激烈的市場中獲得了獨特的優(yōu)勢地位,彰顯出巨大的應用前景。企業(yè)要在激烈的競爭中獲得更好的發(fā)展,要做好金融數(shù)據(jù)分析,就需要對數(shù)據(jù)挖掘的情況進行基本了解。了解數(shù)據(jù)挖掘的基礎理論,根據(jù)不同數(shù)據(jù)所適用的理論展開相關的分析,做好需求分析與系統(tǒng)的設計。結合數(shù)據(jù)挖掘在金融數(shù)據(jù)分析中的具體應用,進行有效的思考借鑒,實現(xiàn)金融行業(yè)長遠的科學的發(fā)展。