胡杰
摘要:文章首先簡要概述與數(shù)據(jù)挖掘技術(shù)相關(guān)內(nèi)容,隨后從分類、聚類兩種數(shù)據(jù)挖掘應(yīng)用較廣的維度來開展研究,分別有神經(jīng)網(wǎng)絡(luò)、決策樹法、層次方法、基于密度(或網(wǎng)絡(luò))方法等;剖析了數(shù)據(jù)挖掘技術(shù)應(yīng)用于信用信息分析的問題,而后圍繞問題內(nèi)容,指出可從強(qiáng)化海量數(shù)據(jù)處理效果、快速提煉信息分析報告、提前預(yù)測未來發(fā)展趨勢、積極融合智慧化服務(wù)平臺等方面解決問題,以期為相關(guān)技術(shù)工作提供可靠參考。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);信用信息;分析算法;對策
中圖分類號:TP311. 13
文獻(xiàn)標(biāo)志碼:A
0 引言
大數(shù)據(jù)即巨量資料,指所涉及的資料量規(guī)模巨大,無法通過主流軟件工具實(shí)現(xiàn)獲取、管理的咨詢。新時期背景下大數(shù)據(jù)有著無限潛力和優(yōu)勢,但同時也給各領(lǐng)域工作帶來考驗(yàn)。有更多的人在現(xiàn)代社會中挖掘出數(shù)據(jù)的價值和戰(zhàn)略意義,并開始延伸到對數(shù)據(jù)的研究中。如何在數(shù)據(jù)海洋中獲得利于發(fā)展的信息和商機(jī),有效提升利潤,就必須借助于各種智能化方法來分析處理,即采取相應(yīng)的數(shù)據(jù)挖掘技術(shù)。利用數(shù)據(jù)挖掘技術(shù)能深入數(shù)據(jù)深層找出隱含的知識,從而提升各種管理決策的科學(xué)性,減少不必要的損失,優(yōu)勢突出。
1 數(shù)據(jù)挖掘技術(shù)簡述
1.1 數(shù)據(jù)挖掘技術(shù)定義
數(shù)據(jù)挖掘( Daca Mining)是指從大量數(shù)據(jù)中通過計(jì)算分析方法來獲得其中隱藏信息的過程。該概念屬于計(jì)算機(jī)科學(xué)的學(xué)科領(lǐng)域,常常和人工智能、數(shù)據(jù)庫等多領(lǐng)域緊密聯(lián)系,又有著“資料探勘”“數(shù)據(jù)采礦”之稱。此技術(shù)的實(shí)施過程主要包括3個階段:第一,準(zhǔn)備數(shù)據(jù);第二,挖掘數(shù)據(jù);第三,對結(jié)果進(jìn)行表達(dá)及解釋[1]。如今,數(shù)據(jù)挖掘理念受到了信息產(chǎn)業(yè)的關(guān)注,對大量數(shù)據(jù)有效利用并轉(zhuǎn)化成有用信息,將其利用在生產(chǎn)控制、商務(wù)管理、市場分析、科學(xué)探索上。
1.2 數(shù)據(jù)挖掘技術(shù)模型
數(shù)據(jù)挖掘技術(shù)的模型主要是信息挖掘過程的模型展示。此過程可將信息挖掘的步驟劃分成以下3步:第一步,預(yù)處理。預(yù)處理就是提前對海量的冗余的數(shù)據(jù)信息加以篩選、剔除,只留下有效的數(shù)據(jù),確保數(shù)據(jù)挖掘技術(shù)的應(yīng)用效率。第二步,信息特征的抽取[2]。整理上一步驟所篩選出的數(shù)據(jù)信息后,對信息結(jié)構(gòu)間轉(zhuǎn)化,保障轉(zhuǎn)化后的結(jié)構(gòu)能被計(jì)算機(jī)軟件所識別和存儲,滿足用戶信息使用的需求。第三步,數(shù)據(jù)挖掘。將上述步驟中所處理好的數(shù)據(jù)和信息收集后并加以挖掘,將挖掘出的結(jié)果用客戶能識別的語言表現(xiàn)出來,確保符合以人為本的原則和實(shí)際應(yīng)用需求。
2 數(shù)據(jù)挖掘技術(shù)在信用信息分析中的應(yīng)用算法
2.1 分類算法
2.1.1 決策樹法
決策樹法( Decision Tree Method)是常用的機(jī)器學(xué)習(xí)算法之一,也被廣泛用于風(fēng)險性決策問題中,具體如表1所示。決策樹就如同樹木的枝干,從主到次進(jìn)行逐一分解,隨后形成不同的規(guī)則鏈條。決策樹的生成有3個較經(jīng)典方法,分別是信息增益(ID3)、增益指數(shù)(ID3,C4. 5)、基尼指數(shù)(SLIQSPEINT)。此外,還存在多種改進(jìn)的算法。關(guān)于此方法的應(yīng)用優(yōu)勢較多,如便于理解和解釋,計(jì)算代價相對較低。即便是存在冗余數(shù)據(jù),也不會對最終決策造成較大的不利影響[3]。但需明確的是,該方法也存在不足,如天生過擬合、數(shù)據(jù)碎片問題、有一定的復(fù)雜性。
2.1.2 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)( Neural Necwork,NN)指模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的計(jì)算模型。多數(shù)情況下,它能借助大量人工神經(jīng)元的聯(lián)結(jié)來分析,屬于探索數(shù)據(jù)的新模式[4]。該方法最突出的優(yōu)點(diǎn)是能夠?qū)κ占龅臄?shù)據(jù)加以分類,例如能有效識別垃圾郵件信息,提取出相關(guān)的詞匯后來及時判定:又如還可利用在疾病的判斷中。例如有患者在醫(yī)院經(jīng)多項(xiàng)基礎(chǔ)檢查后,系統(tǒng)會自動生成了許多數(shù)據(jù),單純地分析數(shù)據(jù)無疑難度較大。此時便可利用神經(jīng)網(wǎng)絡(luò)的計(jì)算方式,及時分析該患者是否得病及其種類。在數(shù)據(jù)挖掘過程中,神經(jīng)網(wǎng)絡(luò)的運(yùn)作主要有4點(diǎn):(l)確定輸入、輸出(見圖1);(2)找到一種或多種算法;(3)找到數(shù)據(jù)集,訓(xùn)練模型;(4)產(chǎn)生新數(shù)據(jù),輸入模型得到結(jié)果。
2.2 聚類分析
聚類分析與分類算法的相同處在于,都是將數(shù)據(jù)分組后再挖掘及分析,但不同之處是聚類分析的數(shù)據(jù)處理對象有未知性。
2.2.1 層次方法
層次方法聚類,是將數(shù)據(jù)對象組合成“聚類樹”的方法。該方法的處理方式有多種,可從上至下、從下至上??蛇M(jìn)一步分成凝聚、分裂形式。BIRCH可利用層次法或其他方法對海量的數(shù)據(jù)進(jìn)行聚類。(1)凝聚。白底向上處理并將各對象看作一個簇(數(shù)據(jù)被劃分后的子集),合并后組成更大的簇,直到所有對象均處于相同簇中,或滿足某終結(jié)條件[5]。(2)分裂。和凝聚相反,分裂的方法是將所有數(shù)據(jù)納入一個簇中,而后逐步將其細(xì)化、分裂,直到各對象形成一簇或達(dá)到終結(jié)條件,處理過程結(jié)束。
2.2.2 基于密度法
以DBSCAN法為例,該方法將簇定義成為“密度相連點(diǎn)的最大集合”。該數(shù)據(jù)挖掘算法的優(yōu)點(diǎn)在于:第一,不需要了解形成簇類的數(shù)量;第二,能發(fā)現(xiàn)任意形狀簇類(見圖2);第三,識別出噪聲點(diǎn),甚至是檢測到離群點(diǎn);第四,和數(shù)據(jù)庫一同使用后,能加速區(qū)域的查詢[6]。但此方法同樣存在不足之處,例如:第一,不能很好反映出高維數(shù)據(jù);第二,無法很好反映出數(shù)據(jù)集以變化的密度;第三,若計(jì)算資源有限,但數(shù)據(jù)量卻非常龐大時,會極大地影響到該方法運(yùn)算效率。
2.2.3 基于網(wǎng)格法
此方法優(yōu)點(diǎn)有處理效率高、時間短,典型方法包括STING,WAVECLUSTER.CLIQUE等。以STING為例,它能將空間區(qū)域劃分成多個的矩形單元。和其他運(yùn)算技術(shù)方法相比,優(yōu)點(diǎn)如下:第一,能實(shí)現(xiàn)獨(dú)立查詢分析;第二,利于并行處理數(shù)據(jù)和增量更新;第三,此方法最典型的優(yōu)點(diǎn)是效率高[7]。但要注意雖然此運(yùn)算方法處理速度很快,效率較高,但可能會降低簇的精確性和質(zhì)量。
3 數(shù)據(jù)挖掘技術(shù)在信用信息分析面臨問題及對策
3.1 數(shù)據(jù)挖掘技術(shù)應(yīng)用于信用信息分析面臨的問題
第一,信息來源單一。信息存在來源單一、覆蓋面窄的問題,而該問題所導(dǎo)致的結(jié)果,則是無法更全面地挖掘信息,促使最終的信用信息分析可信度、科學(xué)性明顯降低。第二,信息更新緩慢。當(dāng)前社會經(jīng)濟(jì)發(fā)展速度迅速,各種金融活動的流動也隨之加快。若對信用信息的收集、分析跟不上節(jié)奏,會導(dǎo)致信用信息的分析時效性顯著降低,影響到信息的具體使用。第三,信息分享不足。部分企業(yè)或單位不愿對信息合理的配置和共享,不僅可能影響到信息分析的時效性,甚至造成信息孤島、分散、屏蔽的狀態(tài),無法滿足當(dāng)前社會用戶需求。第四,利益驅(qū)使影響。受到市場利益的驅(qū)使,以金融企業(yè)為例,在獲得大量用戶數(shù)據(jù)信息后,若對信用信息加以壟斷,就能在激烈市場競爭中占據(jù)有利的位置[8]。但如此舉措會影響到信用信息數(shù)據(jù)的聯(lián)通,加大了其他企業(yè)的數(shù)據(jù)挖掘成本。第五,法律制度較落后。和國外的發(fā)達(dá)國家相比,我國對信用信息的管理制度重視度相對不高,也缺乏更完善的信用管理法規(guī)體系和法律依據(jù),諸多因素都會限制信用信息的發(fā)展水平。
3.2 數(shù)據(jù)挖掘技術(shù)在信用信息分析的應(yīng)用對策
信用信息也有巨大信息量,數(shù)據(jù)挖掘技術(shù)能很好地對該類信息加以處理,滿足新時期用戶需求。我國對于信用信息的分析、評價相關(guān)制度建立相對于其他發(fā)達(dá)國家更晚,可以以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),有效提升信用信息的運(yùn)用價值。以下從4個方面來探究其應(yīng)用。
3.2.1 強(qiáng)化海量數(shù)據(jù)處理效果
在對相應(yīng)的信用信息數(shù)據(jù)分析處理時,最為關(guān)鍵的分析和評價,可著眼于對數(shù)據(jù)挖掘技術(shù)的計(jì)算方法上。分析除了借鑒其他發(fā)達(dá)國家的優(yōu)秀經(jīng)驗(yàn)外,還應(yīng)當(dāng)應(yīng)結(jié)合我國實(shí)際國情來統(tǒng)計(jì)分析構(gòu)建模型。近年來,我國對信用信息分析的重視程度不斷提升,數(shù)據(jù)挖掘技術(shù)的應(yīng)用也愈發(fā)廣泛。信用信息數(shù)據(jù)量不斷增大,更要重視數(shù)學(xué)模型的建立。可利用關(guān)聯(lián)函數(shù)等方式來提高模型查詢、定位的效率。此外,數(shù)據(jù)挖掘技術(shù)本身具備了自動預(yù)測趨勢、描述等功能,能切入實(shí)際來分析當(dāng)前事物的發(fā)展形勢,作用突出[9]總之,借助于數(shù)據(jù)挖掘技術(shù)來有效提取、分析海量的信用信息數(shù)據(jù)非常關(guān)鍵,整個過程中構(gòu)建模型也勢在必行。
3.2.2 快速提煉信息分析報告
信息分析和論證、行為、決策等方面都有關(guān)。論證是根據(jù)已知“信息”來推論出新的信息的過程:決策則是根據(jù)已知的“信息”來指導(dǎo)個人或組織行為模式的轉(zhuǎn)變。信息分析側(cè)重于信息,信息不僅是決策的依據(jù),也是行為改變的基礎(chǔ)。以往對信用信息進(jìn)行分析時,因條件受到限制往往無法更全面地掌握出企業(yè)、個人所有的有效信息,存在信息閉塞的情況,很難用傳統(tǒng)的信用信息評價方式來評估,也無法全面觀察到有效信息的變化。如今,可積極發(fā)揮數(shù)據(jù)挖掘技術(shù)的作用。即便是不同格式的信息也能記憶加以轉(zhuǎn)化,更清晰直觀地反映出企業(yè)或事業(yè)單位的信用信息評審制度。同時利用此技術(shù)后能實(shí)現(xiàn)白動化查找分析,及時過濾剔除掉多余的信息,并借助于交互的方式分析,最終從不同格式的信息中獲取有作用的信用信息并分析,確保信用信息分析制度也能常規(guī)運(yùn)作,獲得更為詳細(xì)完善的信息分析報告,來作為可靠的發(fā)展依據(jù)。
3.2.3 提前預(yù)測未來發(fā)展趨勢
信用風(fēng)險指交易雙方不履行到期債務(wù)的風(fēng)險,又被稱作違規(guī)風(fēng)險。傳統(tǒng)的信息信用評價往往只能對某個企業(yè)、某個用戶的信用情況加以評估,缺乏預(yù)見性。當(dāng)未來發(fā)展過程出現(xiàn)風(fēng)險時,很可能造成損失。數(shù)據(jù)挖掘技術(shù)能更全面地分析企業(yè)或個人行為,了解企業(yè)或個人的日常交易行為模式、行為習(xí)慣等,從中獲取有利的信息數(shù)據(jù)后來實(shí)現(xiàn)對未來發(fā)展的預(yù)測,做到“防患于未然”。以金融行業(yè)機(jī)構(gòu)為例,當(dāng)預(yù)測到信用信息未來的發(fā)展趨勢后,能及時采取風(fēng)險預(yù)防措施,最大化地減少所謂的信用風(fēng)險,及時從深處挖掘到數(shù)據(jù)中的失信行為,確保穩(wěn)定發(fā)展。又如對當(dāng)前企業(yè)、個人的信貸過程中使用數(shù)據(jù)挖掘技術(shù),能利用其預(yù)測性來分析該對象在未來是否會有良好的信用制度,也能減少信用風(fēng)險。
3.2.4 積極融合智慧化服務(wù)平臺
當(dāng)前,數(shù)據(jù)挖掘技術(shù)和“智慧化”的融合已呈炙手可熱的趨勢,各類智慧場景(如智慧社區(qū)、智慧安防)層出不窮,促使數(shù)據(jù)平臺的智慧化發(fā)展不斷深化。以河南省某信用信息平臺智能化的成功案例分析,此平臺的建設(shè)可分為以下3個層面(見圖3)。第一,數(shù)據(jù)感知層。該層主要是負(fù)責(zé)對數(shù)據(jù)的質(zhì)量、安全性加以管控的環(huán)節(jié),包含了硬感知、軟感知兩個方面。硬感知:收集以實(shí)體為載體(如二維碼、傳感器)的信息、狀態(tài)等數(shù)據(jù);軟感知:搜集網(wǎng)絡(luò)爬蟲、系統(tǒng)日志、探針埋點(diǎn)等數(shù)據(jù)。第二,數(shù)據(jù)分析決策層。通過深入學(xué)習(xí)和利用數(shù)據(jù)挖掘技術(shù)分析后,能得出有價值且利于決策的信息,同時構(gòu)建出對應(yīng)模型[10]。第三,交互表現(xiàn)層。此層主要用于和外界的關(guān)聯(lián),用語音、視頻等方式交互??傊ㄟ^積極融合智慧化服務(wù)平臺,能構(gòu)建出更多的智慧化場景,充分發(fā)揮信用信息功能。
4 結(jié)語
綜上所述,數(shù)據(jù)挖掘技術(shù)在諸多企業(yè)、事業(yè)單位中的應(yīng)用越發(fā)廣泛,甚至成為一種新的經(jīng)濟(jì)資產(chǎn)。從宏觀角度來看,正是因?yàn)榇嬖跀?shù)據(jù)挖掘技術(shù),才能從數(shù)據(jù)分析的層面給企事業(yè)帶來幫助,也為社會帶來全新的創(chuàng)業(yè)方向、商業(yè)模式和投資機(jī)會。目前,以大數(shù)據(jù)為基礎(chǔ)的各種科技類成果一躍成為市場發(fā)展的熱點(diǎn),無論是產(chǎn)品營銷、企業(yè)風(fēng)險管控,還是用戶體驗(yàn)改進(jìn)等方面都有大數(shù)據(jù)的身影,也取得豐碩實(shí)踐成果。未來除信用信息分析外,數(shù)據(jù)挖掘技術(shù)的運(yùn)用會更加廣泛,并在更多行業(yè)中發(fā)揮出其重要價值。
參考文獻(xiàn)
[1]李迎國,李永華,何兆照.?dāng)?shù)據(jù)挖掘技術(shù)在高職教學(xué)質(zhì)量評價中的應(yīng)用[J].無線互聯(lián)科技,2022(2):134-135.
[2]陳銳,范小光,吳益平.基于數(shù)據(jù)挖掘技術(shù)的白水河滑坡多場信息關(guān)聯(lián)準(zhǔn)則分析[J].中國地質(zhì)災(zāi)害與防治學(xué)報,2021(6):1-8.
[3]楊銀娣,嚴(yán)金哲,崔明哲,等.基于Tobit模型的大學(xué)生信用消費(fèi)分析研究[J].中南民族大學(xué)學(xué)報(自然科學(xué)版),2021(6):654-660.
[4]郭文波,周慧靜.基于信息雙要素理論的公共信用信息增值與實(shí)踐路徑[J].宏觀經(jīng)濟(jì)管理,2021(6):47-53.
[5]張巧珍,吳雯婷,李紫萱,等.采用數(shù)據(jù)挖掘技術(shù)對湖北省人類狂犬病開展生物信息學(xué)研究[J].中國生物工程雜志,2021( S1):14-29.
[6]鐘亮,郭熙,國佳欣,等.基于數(shù)據(jù)挖掘技術(shù)的高光譜土壤質(zhì)地分類研究[J].中國農(nóng)業(yè)科學(xué),2020( 21):4449-4459.
[7]盂秋晴.在線健康信息的數(shù)據(jù)分析與挖掘技術(shù)研究——評《統(tǒng)計(jì)分析與數(shù)據(jù)挖掘技術(shù)》[J].材料保護(hù),2020(9):164.
[8]李儀,陶宇.大數(shù)據(jù)技術(shù)下消費(fèi)者個人信用信息共享的治理機(jī)制[J].中國流通經(jīng)濟(jì),2020(2):92-100.
[9]祁鵬,彭俊文,許多恒,等.基于頻繁事項(xiàng)數(shù)據(jù)挖掘的醫(yī)療設(shè)備技術(shù)管理研究[J].中國醫(yī)學(xué)裝備,2020(1):62-65.
[10]陳君.?dāng)?shù)據(jù)挖掘技術(shù)在二手車交易系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2020(5):180-184.
(編輯李春燕)