龐泰 翁巍 孟燦 趙蕾 牛紅偉
摘要:現(xiàn)階段的數(shù)據(jù)挖掘方法缺少對數(shù)據(jù)關(guān)聯(lián)分析的過程,挖掘效果較差,故文章提出基于關(guān)聯(lián)分析頻繁模式樹(FrequentPattern Tree,F(xiàn)P-Tree)算法的企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)在線挖掘方法。選取與企業(yè)風(fēng)險(xiǎn)相關(guān)的信息指標(biāo),收集有關(guān)數(shù)據(jù)并進(jìn)行預(yù)處理操作后,設(shè)計(jì)一種考慮關(guān)聯(lián)分析的FP-Tree算法,生成FP-Tree節(jié)點(diǎn)的條件模式樹挖掘頻繁項(xiàng)集,計(jì)算滿足最小置信度的頻繁項(xiàng)集,實(shí)現(xiàn)企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)在線挖掘。實(shí)驗(yàn)結(jié)果表明,所用方法挖掘量和挖掘效率較高。
關(guān)鍵詞:關(guān)聯(lián)分析FP-Tree算法;企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù);在線挖掘方法;數(shù)據(jù)挖掘
中圖分類號:TP391? 文獻(xiàn)標(biāo)志碼:A
0 引言
小微企業(yè)在我國經(jīng)濟(jì)中占據(jù)重要地位,近年來其抗風(fēng)險(xiǎn)能力有所下降,資金需求變得更為迫切,且融資成本容忍度更低。深入挖掘企業(yè)風(fēng)險(xiǎn)信息,可整合分析大量數(shù)據(jù),揭示數(shù)據(jù)背后的規(guī)律。多位專家對此展開研究。
徐靜等[1]采用卡方自動(dòng)交叉檢驗(yàn)算法設(shè)計(jì)風(fēng)險(xiǎn)數(shù)據(jù)挖掘方法,基于現(xiàn)代風(fēng)險(xiǎn)導(dǎo)向?qū)徲?jì)理論,結(jié)合數(shù)據(jù)挖掘算法實(shí)現(xiàn)風(fēng)險(xiǎn)挖掘。此法雖可避免錯(cuò)誤財(cái)報(bào)導(dǎo)致的決策失誤,但因指標(biāo)范圍狹窄,關(guān)聯(lián)性低,挖掘風(fēng)險(xiǎn)數(shù)據(jù)量較少。劉柯倩[2]提出基于云計(jì)算的財(cái)務(wù)風(fēng)險(xiǎn)數(shù)據(jù)挖掘方法,降低了挖掘深度和量,但可能泄露用戶隱私。司橋林[3]則設(shè)計(jì)財(cái)務(wù)信息管理系統(tǒng)風(fēng)險(xiǎn)數(shù)據(jù)挖掘方法,結(jié)合技術(shù)實(shí)現(xiàn)風(fēng)險(xiǎn)信息挖掘,但結(jié)果存在偏差。
本文設(shè)計(jì)了關(guān)聯(lián)規(guī)則頻繁模式樹算法,利用此樹挖掘頻繁項(xiàng)集和生成關(guān)聯(lián)規(guī)則,實(shí)現(xiàn)數(shù)據(jù)挖掘。
1 企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)在線挖掘方法設(shè)計(jì)
1.1 企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)采集
在進(jìn)行企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)在線挖掘前,數(shù)據(jù)準(zhǔn)備是關(guān)鍵。需根據(jù)企業(yè)運(yùn)營情況,采集與風(fēng)險(xiǎn)信息相關(guān)的多項(xiàng)指標(biāo)數(shù)據(jù)。這些風(fēng)險(xiǎn)數(shù)據(jù)涉及財(cái)務(wù)、市場、技術(shù)和運(yùn)營等多個(gè)方面。財(cái)務(wù)風(fēng)險(xiǎn)關(guān)注盈利能力、償債能力和運(yùn)營效率等,可通過財(cái)務(wù)報(bào)表和財(cái)務(wù)比率來評估;市場風(fēng)險(xiǎn)關(guān)注競爭地位、市場份額和客戶需求變化,需結(jié)合市場調(diào)研和消費(fèi)者行為分析;技術(shù)風(fēng)險(xiǎn)涉及技術(shù)研發(fā)、創(chuàng)新速度和專利申請,與研發(fā)投入和技術(shù)人員相關(guān);運(yùn)營風(fēng)險(xiǎn)則關(guān)注生產(chǎn)流程、供應(yīng)鏈和人力資源,需防范生產(chǎn)事故、供應(yīng)鏈中斷和員工流失等風(fēng)險(xiǎn)。為應(yīng)對這些挑戰(zhàn),企業(yè)需建立風(fēng)險(xiǎn)管理體系,利用大數(shù)據(jù)和人工智能提高管理效率,確保穩(wěn)健運(yùn)營。本文選取盈利能力、償債能力、經(jīng)營能力、發(fā)展能力、現(xiàn)金流、流動(dòng)比率及非財(cái)務(wù)指標(biāo)等作為關(guān)鍵風(fēng)險(xiǎn)信息指標(biāo)[4]。
1.2 企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)預(yù)處理
在企業(yè)風(fēng)險(xiǎn)管理中,數(shù)據(jù)清洗是核心環(huán)節(jié)。原始風(fēng)險(xiǎn)數(shù)據(jù)常含控制與冗余值,這些無助于風(fēng)險(xiǎn)分析,還可能干擾結(jié)果準(zhǔn)確性。因此,清洗這些不必要數(shù)據(jù)至關(guān)重要,可凈化數(shù)據(jù)集[5]。同時(shí),異常值亦需特別關(guān)注,可能源于錄入錯(cuò)誤或系統(tǒng)故障,它們會扭曲數(shù)據(jù)分布。若未剔除,將導(dǎo)致分析失真,無法真實(shí)反映企業(yè)風(fēng)險(xiǎn)。故需專門檢測并剔除異常值。此外,數(shù)據(jù)轉(zhuǎn)換也必不可少,主要涉及正向化與標(biāo)準(zhǔn)化。正向化主要調(diào)整指標(biāo)意義和處理負(fù)值,確保符合分析模型要求。某些風(fēng)險(xiǎn)指標(biāo)可能低值表示低風(fēng)險(xiǎn),高值表示高風(fēng)險(xiǎn),但模型可能要求相反。因此,需進(jìn)行調(diào)整,使指標(biāo)與模型匹配。同時(shí),負(fù)值處理也是關(guān)鍵,需通過平移、縮放等方法轉(zhuǎn)為正數(shù),以滿足模型要求。標(biāo)準(zhǔn)化旨在消除量綱差異,使各指標(biāo)在分析中地位平等。常用方法是基于均值和標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)轉(zhuǎn)為均值為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布。這樣,數(shù)據(jù)點(diǎn)差異更多取決于相對位置而非絕對值,便于更精確比較和分析不同風(fēng)險(xiǎn)指標(biāo)間的關(guān)系與影響力,為企業(yè)制定有效風(fēng)險(xiǎn)管理策略提供有力支持。
由于企業(yè)風(fēng)險(xiǎn)信息相關(guān)的指標(biāo)數(shù)據(jù)大多為適度財(cái)務(wù)指標(biāo),具有一定特殊性,所以需要對其做正向化處理。假設(shè)第i個(gè)企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)指標(biāo)為xi,正向化計(jì)算如公式(1)所示。
x′i=11+|x0-xi|×φ(1)
式(1)中,x′i為正向化處理后的企業(yè)風(fēng)險(xiǎn)信息指標(biāo)數(shù)據(jù);x0為適度財(cái)務(wù)指標(biāo)數(shù)據(jù)的最優(yōu)值。同時(shí),為消除指標(biāo)量綱、數(shù)值大小等差異,本文采用下式對原始企業(yè)風(fēng)險(xiǎn)信息指標(biāo)數(shù)據(jù)做標(biāo)準(zhǔn)化處理。
x″i=x′i-minx′imaxx′i-minx′i(2)
式(2)中,x″i為標(biāo)準(zhǔn)化處理后的企業(yè)風(fēng)險(xiǎn)信息指標(biāo)數(shù)據(jù);minx′i、maxx′i分別為標(biāo)準(zhǔn)化處理前的企業(yè)風(fēng)險(xiǎn)信息指標(biāo)數(shù)據(jù)x′i的最小值和最大值。
1.3 基于關(guān)聯(lián)分析FP-Tree算法設(shè)計(jì)與應(yīng)用
本文利用關(guān)聯(lián)分析FP-Tree算法進(jìn)行且與風(fēng)險(xiǎn)信息數(shù)據(jù)在線挖掘時(shí),主要分為2個(gè)環(huán)節(jié):構(gòu)建FP-Tree;利用FP-Tree挖掘數(shù)據(jù)對象關(guān)聯(lián)規(guī)則。構(gòu)建FP-Tree是關(guān)聯(lián)分析過程中的核心環(huán)節(jié),其目的在于建立一個(gè)能夠高效存儲和查詢頻繁項(xiàng)集的數(shù)據(jù)結(jié)構(gòu)。為了實(shí)現(xiàn)這一目標(biāo),首先需要對收集到的企業(yè)風(fēng)險(xiǎn)信息相關(guān)指標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗和轉(zhuǎn)換,以確保數(shù)據(jù)的質(zhì)量和一致性。隨后,對預(yù)處理后的數(shù)據(jù)進(jìn)行掃描,記錄每個(gè)數(shù)據(jù)項(xiàng)的支持度計(jì)數(shù),即它們在數(shù)據(jù)集中出現(xiàn)的頻次,反映數(shù)據(jù)項(xiàng)的普遍性?;谶@些支持度計(jì)數(shù),按照降序依次插入數(shù)據(jù)項(xiàng)來構(gòu)建FP-Tree,如式(3)所示。
m=σ(X)M(x″i)(3)
式(3)中,m為企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)項(xiàng)X的支持度計(jì)數(shù);σ(X)為數(shù)據(jù)項(xiàng)X出現(xiàn)的次數(shù);M為記錄次數(shù)。利用上述構(gòu)建的FP-Tree進(jìn)行企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘是一個(gè)系統(tǒng)性的過程。首先從最低支持度計(jì)數(shù)的數(shù)據(jù)項(xiàng)開始,遍歷整個(gè)企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)的FP-Tree。在遍歷過程中,為每個(gè)FP-Tree節(jié)點(diǎn)生成條件模式樹。條件模式樹是基于當(dāng)前節(jié)點(diǎn)的所有路徑集合構(gòu)建的,它反映了該節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系。通過構(gòu)建條件模式樹,能夠更深入地探索不同風(fēng)險(xiǎn)指標(biāo)之間的潛在聯(lián)系。接下來,根據(jù)條件模式樹,對最低支持度計(jì)數(shù)節(jié)點(diǎn)進(jìn)行剔除。這一步是為了確保挖掘出的關(guān)聯(lián)規(guī)則是基于足夠數(shù)量的數(shù)據(jù)支持,從而避免產(chǎn)生誤導(dǎo)性的結(jié)論。通過剔除不滿足最低支持度要求的節(jié)點(diǎn),可以得到一個(gè)更加精煉和可靠的頻繁項(xiàng)集,然后對頻繁項(xiàng)集進(jìn)行置信度計(jì)算。
δ=P(1-P)N(m)(4)
式(4)中,δ為頻繁項(xiàng)集的置信度;P為事件發(fā)生概率;N為頻繁項(xiàng)集的數(shù)據(jù)項(xiàng)容量。對企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)進(jìn)行FP-Tree關(guān)聯(lián)規(guī)則的挖掘后,通過公式(5)的挖掘計(jì)算,實(shí)現(xiàn)企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)在線挖掘。計(jì)算公式如下。
θ=1N×∑niP(1-P)×δ(m)(5)
式(5)中,θ為挖掘得出的企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù),即挖掘結(jié)果。
2 實(shí)驗(yàn)分析
2.1 實(shí)驗(yàn)設(shè)置
本次實(shí)驗(yàn)采用了青海省小微企業(yè)信用融資服務(wù)中心平臺的企業(yè)風(fēng)險(xiǎn)數(shù)據(jù)集,選取了其中的5000個(gè)事務(wù)樣本。每個(gè)事務(wù)包含2~8個(gè)項(xiàng),最長事務(wù)序列有17個(gè)不同項(xiàng)。
實(shí)驗(yàn)對比了徐靜等[1]基于CHAID算法、司橋林[3]基于灰色模型和BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法以及本文提出的基于關(guān)聯(lián)分析FP-Tree算法的企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)在線挖掘方法。
為評估各方法的性能,實(shí)驗(yàn)以企業(yè)風(fēng)險(xiǎn)信息挖掘量為主要指標(biāo),同時(shí)考慮挖掘時(shí)間和最低支持度作為實(shí)驗(yàn)變量。通過統(tǒng)計(jì)不同變量下各方法挖掘的事務(wù)數(shù)量,對比了它們在企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)挖掘方面的效率。
2.2 結(jié)果分析
2.2.1 不同挖掘時(shí)間下企業(yè)風(fēng)險(xiǎn)信息挖掘量
在上述實(shí)驗(yàn)條件下,首先進(jìn)行不同挖掘時(shí)間下企業(yè)風(fēng)險(xiǎn)信息挖掘量的對比,將數(shù)據(jù)最低支持度設(shè)置為20%,統(tǒng)計(jì)各方法實(shí)際挖掘的事務(wù)數(shù)量如圖1所示。
由圖1可知,挖掘時(shí)間在5000 ms時(shí),不同數(shù)據(jù)挖掘方法展現(xiàn)出了不同的性能表現(xiàn)。具體而言,徐靜等[1]提出的基于CHAID算法的數(shù)據(jù)挖掘方法挖掘出的事務(wù)數(shù)量達(dá)到2625個(gè),司橋林[3]提出的基于灰色模型和BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法挖掘出的事務(wù)數(shù)量達(dá)到3749個(gè),這2種方法在挖掘企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)時(shí),其事務(wù)數(shù)量均未能超過本文提出的設(shè)計(jì)方法。而采用本文設(shè)計(jì)方法挖掘企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)時(shí),挖掘出的事務(wù)數(shù)量達(dá)到了4138個(gè),挖掘的事務(wù)數(shù)量均高于另2種方法,效率更高。
2.2.2 不同最低支持度下企業(yè)風(fēng)險(xiǎn)信息挖掘量
本文將最低支持度作為實(shí)驗(yàn)變量,對比不同方法在最低支持度下企業(yè)風(fēng)險(xiǎn)信息挖掘量。將數(shù)據(jù)挖掘時(shí)間設(shè)置為5000 ms,統(tǒng)計(jì)各方法實(shí)際挖掘的事務(wù)數(shù)量如圖2所示。
由圖2可知,當(dāng)數(shù)據(jù)挖掘時(shí)間等其他約束條件固定時(shí),3種不同數(shù)據(jù)挖掘方法下的數(shù)據(jù)挖掘量均隨著最低支持度的增加而降低,但本文設(shè)計(jì)方法下挖掘出? 的事務(wù)個(gè)數(shù)一直大于對照組方法,當(dāng)支持度增大到80%,本文設(shè)計(jì)方法實(shí)際挖掘出的事務(wù)數(shù)量仍有1624個(gè);而徐靜等[1]方法挖掘出的事務(wù)數(shù)量僅為812個(gè),司橋林[3]方法挖掘出的事務(wù)數(shù)量為1189個(gè)。由此可以說明,本文所提方法在支持度不斷增加的情況下,依舊能夠保持較高的挖掘量,挖掘能力較好。
3 結(jié)語
本文所提基于關(guān)聯(lián)分析FP-Tree算法的企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)在線挖掘方法是一種有效且正確的數(shù)據(jù)挖掘方法,該方法可以從海量數(shù)據(jù)中提取出對企業(yè)運(yùn)營風(fēng)險(xiǎn)有重要影響的信息,能對企業(yè)風(fēng)險(xiǎn)信息數(shù)據(jù)進(jìn)行有效的挖掘; 不受時(shí)間與支持度的影響,能夠保持較好的挖掘能力,從而能夠更好地輔助企業(yè)進(jìn)行風(fēng)險(xiǎn)識別。
參考文獻(xiàn)
[1]徐靜,李俊林.基于數(shù)據(jù)挖掘的重大錯(cuò)報(bào)風(fēng)險(xiǎn)識別和評估研究[J].財(cái)經(jīng)理論與實(shí)踐,2022(6):79-85.
[2]劉柯倩.基于云計(jì)算的企業(yè)財(cái)務(wù)數(shù)據(jù)挖掘方法[J].信息與電腦,2023(14):203-205.
[3]司橋林.基于數(shù)據(jù)挖掘的財(cái)務(wù)信息管理系統(tǒng)風(fēng)險(xiǎn)識別[J].微型電腦應(yīng)用,2021(6):132-135.
[4]金恒,過文俊.基于數(shù)據(jù)挖掘的異常財(cái)務(wù)數(shù)據(jù)識別方法研究[J].電子設(shè)計(jì)工程,2021(21):43-46,52.
[5]侯旭華,蔣昕.互聯(lián)網(wǎng)保險(xiǎn)公司審計(jì)風(fēng)險(xiǎn)及其防范方法[J].財(cái)務(wù)與會計(jì),2021(17):52-55.
(編輯 沈 強(qiáng))
Online mining method of enterprise risk information data based on association analysis FP-Tree algorithm
PANG? Tai, WENG? Wei, MENG? Can, ZHAO? Lei, NIU? Hongwei
(Qinghai Provincial Center For Public Credit Information, Xining 810001, China)
Abstract:? The current data mining methods lack the process of data association analysis, and the mining effect is poor, so the online mining method of enterprise risk information data based on the FrequentPattern Tree (FP-Tree) algorithm is proposed. After selecting information indicators related to enterprise risk, collecting relevant data and conducting pre-processing operations, an FP-Tree algorithm considering association analysis is designed to generate the conditional pattern tree of FP-Tree nodes to mine frequent item sets, calculate frequent item sets meeting the minimum confidence, and realize online mining of enterprise risk information data. The experimental results show that the method has higher excavation capacity and efficiency.
Key words: correlation analysis FP-Tree algorithm; enterprise risk information data; online mining method; data mining