• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于模型組合的網(wǎng)絡(luò)迭代識(shí)別法

      2023-05-24 09:06:38丁霖澤葸娟霞
      關(guān)鍵詞:剪枝數(shù)據(jù)流聚類(lèi)

      丁霖澤,葸娟霞

      (廣東東軟學(xué)院 信息管理與工程學(xué)院,廣東 佛山 528200)

      0 引言

      當(dāng)前神經(jīng)網(wǎng)絡(luò)的應(yīng)用已涉及到各個(gè)領(lǐng)域[1],在智能控制、模式識(shí)別、計(jì)算機(jī)識(shí)別[2]等方面取得了長(zhǎng)足的發(fā)展[3]BP 算法具有非線性轉(zhuǎn)移函數(shù)的三層前饋網(wǎng)絡(luò),體現(xiàn)了人工神經(jīng)系統(tǒng)的最精華部分。

      神經(jīng)網(wǎng)絡(luò)在實(shí)際問(wèn)題應(yīng)用中,受自身梯度下降、步長(zhǎng)規(guī)則等因素影響,在處理時(shí)會(huì)遇到4 種常見(jiàn)問(wèn)題[4]:

      (1)由于實(shí)際問(wèn)題規(guī)模往往很大,因此理論上需要神經(jīng)網(wǎng)絡(luò)與其相匹配,而網(wǎng)絡(luò)過(guò)大,將極大降低網(wǎng)絡(luò)的推廣能力,不能發(fā)現(xiàn)其合理規(guī)則,從問(wèn)題中選取典型實(shí)例組合是困難的。

      (2)神經(jīng)網(wǎng)絡(luò)在執(zhí)行梯度下降時(shí),其所需的最小化目標(biāo)過(guò)于復(fù)雜,因此必然會(huì)出現(xiàn)“鋸齒形現(xiàn)象”[4]。

      (3)運(yùn)行中往往可能陷入“局部最優(yōu)陷阱”從而無(wú)法達(dá)到學(xué)習(xí)目的。

      (4)在BP 網(wǎng)絡(luò)用于識(shí)別時(shí),自身算法往往存在收斂速度緩慢、網(wǎng)絡(luò)性能較差、誤差平方和函數(shù)可能有局部極小點(diǎn)出現(xiàn)的可能性,以及學(xué)習(xí)率不穩(wěn)定的問(wèn)題[5]。

      綜上所述,如采用自適應(yīng)學(xué)習(xí)速率等不依賴(lài)梯度信息[6],但是收斂精度可能不高[7];采用進(jìn)化算法,進(jìn)行優(yōu)化計(jì)算來(lái)確定,對(duì)大規(guī)模FNN,工作量大,耗時(shí)過(guò)長(zhǎng)且無(wú)法保證效果;采用刪除冗余樣本信息的特征樣本[8],驗(yàn)證樣本誤差的下降趨勢(shì)決定何時(shí)結(jié)束訓(xùn)練,一旦出現(xiàn)部分?jǐn)?shù)據(jù)與目標(biāo)關(guān)系較小,將會(huì)導(dǎo)致完全刪除。

      針對(duì)單模型容易丟棄或無(wú)視數(shù)據(jù)潛在的影響因素,本文提出基于模型組合的網(wǎng)絡(luò)迭代法(LDKB),該方法基于多模型建立數(shù)據(jù)流循環(huán)模型,在保證主題結(jié)構(gòu)完整的前提下,有效減少單模型的局限性,實(shí)現(xiàn)數(shù)據(jù)精確化展現(xiàn)。LDKB 法通過(guò)數(shù)據(jù)流循環(huán)過(guò)程,迭代模型組合,使其在現(xiàn)有機(jī)器學(xué)習(xí)模型下,通過(guò)模型優(yōu)化數(shù)據(jù),獲得較高精度結(jié)果,多次迭代后模型組合策略為總體精度提升帶來(lái)積極影響。

      1 LDKB 算法實(shí)現(xiàn)

      1.1 模型組合流程參數(shù)計(jì)算

      LDKB 算法的組合流程如圖1 所示,其實(shí)現(xiàn)步驟如下:

      (1)首次循環(huán)進(jìn)入決策樹(shù)部分(剪枝詳見(jiàn)1.4節(jié))分 別使 用Enter、Forward、Remove、Backward、Stepwise 5 種方法篩選變量?jī)?yōu)化回歸模型,并利用Chi-Square、-2 Log likelihood、BIC、AIC 作為衡量標(biāo)準(zhǔn)確立回歸部分的最優(yōu)參數(shù)[9]。

      (2)以0.1 為基礎(chǔ),引用函數(shù)“cv”在每一次迭代中使用交叉驗(yàn)證,并返回理想的樹(shù)數(shù)量,利用bagging 算法降低泛化誤差,計(jì)算基尼系數(shù)分割父子節(jié)點(diǎn),獲取子節(jié)點(diǎn)的計(jì)算反饋數(shù)據(jù)模型迭代前最優(yōu)化樹(shù)。

      (3)選取目標(biāo)中的一個(gè)樣本點(diǎn)作為第一個(gè)聚類(lèi)中心,計(jì)算每個(gè)樣本點(diǎn)與當(dāng)前已有聚類(lèi)中心的最短距離,即

      則樣本點(diǎn)被選為下一個(gè)簇中心的概率為

      (4)在神經(jīng)網(wǎng)絡(luò)階段,確定隱藏層中采用tanh函數(shù)作為激活函數(shù),計(jì)算隱藏層神經(jīng)元個(gè)數(shù)為

      數(shù)據(jù)中共有11 個(gè)字段,分別計(jì)算其權(quán)重w與偏差b相對(duì)于損失的梯度,所有字段的權(quán)重w總和與偏差b的總和為:

      (5)更新系統(tǒng)數(shù)據(jù),以融合得到新的類(lèi)別與數(shù)據(jù)。

      (6)重復(fù)執(zhí)行步驟(2)~步驟(5)直至循環(huán)的第N次輸出模型效果小于N -1,保存最佳輸出結(jié)果。

      1.2 組循環(huán)判斷實(shí)現(xiàn)

      (1)原理:取最優(yōu)組合權(quán)重向量,利用精度法判斷最優(yōu)模型組合。

      (2)實(shí)現(xiàn):當(dāng)c為真實(shí)值,b為使用LDKB 法輸出其中一節(jié)得到的預(yù)測(cè)值數(shù),a為使用LDKB 法另一節(jié)得到的預(yù)測(cè)值,那么利用精度法有:

      即可由公式(7)、(8)得到輸出預(yù)測(cè)值x。

      (3)利用結(jié)果構(gòu)造損失函數(shù),用來(lái)估量模型的預(yù)測(cè)值f(x)與真實(shí)值Y的不一致程度:

      (4)利用拉格朗日乘數(shù)法得最優(yōu)組合權(quán)重向量,以預(yù)測(cè)誤差平方最小為最優(yōu)構(gòu)架優(yōu)化模型,獲取最優(yōu)組合:

      由式(10)~式(12)可得組合預(yù)測(cè)平方和最小值j。

      1.3 BP 模型損失函數(shù)

      在LDKB 法的BP 網(wǎng)絡(luò)部分進(jìn)行識(shí)別類(lèi)時(shí),使用softmax 模型利用權(quán)重參數(shù)w,偏差b(即上文提到的預(yù)測(cè)輸出值個(gè)數(shù)),將輸出值作為對(duì)該類(lèi)別的置信度,通過(guò)softmax 模型將其轉(zhuǎn)化為正且為1 的概率分布[10]。對(duì)于訓(xùn)練集樣本,構(gòu)造向量y∈Rq,其屬于哪個(gè)類(lèi)別,就將那個(gè)類(lèi)別的值置為1。使用交叉熵函數(shù)訓(xùn)練:

      訓(xùn)練BP 網(wǎng)絡(luò)時(shí),由于輸入數(shù)據(jù)標(biāo)簽已經(jīng)確定(分布率P(x)已經(jīng)確定),因此信息熵為常量[11]。KL 散度等于交叉熵-信息熵,因此需要最小化KL散度,所以選用交叉熵?fù)p失函數(shù)計(jì)算loss 即可。

      1.4 特征分箱與WOE 編碼

      LDKB 法進(jìn)入循環(huán)前,需將連續(xù)變量離散化或?qū)⒍酄顟B(tài)的離散變量組合并成少狀態(tài)的變量,易于LDKB 模型的快速迭代。根據(jù)向?qū)ё兞?,將現(xiàn)有的連續(xù)變量按照導(dǎo)向變量間差異最大化的原則離散化為分類(lèi)變量。

      在LDKB 法的邏輯回歸部分,由于數(shù)據(jù)流中數(shù)據(jù)難以判斷線性相關(guān)關(guān)系,數(shù)據(jù)存在極大偶然性,因此需要WOE 編碼將回歸系數(shù)“正則化”。WOE 法公式如下:

      公式(14)利用審批中的good 與bad 比例作為條件,分別計(jì)算數(shù)據(jù)流分箱各項(xiàng)的WOE 值。通常情況下,可以通過(guò)建立較少的分箱提高數(shù)據(jù)的平滑性,WOE 重新編碼后可以很容易的建立自變量與目標(biāo)變量間的單調(diào)關(guān)系。

      1.5 決策剪枝

      在LDKB 法的決策樹(shù)部分,最容易出現(xiàn)的問(wèn)題是過(guò)擬合[12]。剪枝過(guò)程需針對(duì)i層的計(jì)算,其關(guān)鍵需要獲得等于n +1 循環(huán)操作的FLOPS,即

      用權(quán)重因素的剪枝算法運(yùn)行中,第i層保留的FLOPS為

      因此,在LDKB 算法下的FLOPS計(jì)算量差異為

      通過(guò)式(14)的推導(dǎo),在相同的剪枝策略下,LDKB 法的剪枝不但沒(méi)有增加計(jì)算,反而降低了訓(xùn)練時(shí)間。

      2 實(shí)驗(yàn)結(jié)果分析

      2.1 實(shí)驗(yàn)設(shè)置

      文章采用LDKB 法,利用銀行中的個(gè)人信用評(píng)級(jí)數(shù)據(jù)作為測(cè)試數(shù)據(jù)流進(jìn)行循環(huán)處理,分別記錄循環(huán)中輸出的模型概況與模型準(zhǔn)確率等提升情況,比較LDKB 法與單模型訓(xùn)練差距,用以驗(yàn)證LDKB 法的優(yōu)勢(shì)。

      2.1.1 簡(jiǎn)介與預(yù)處理

      本文使用數(shù)據(jù)是來(lái)自銀行對(duì)于客戶(hù)的申請(qǐng)信息表、匯總信息表,消費(fèi)記錄表與拖欠記錄表構(gòu)成,數(shù)據(jù)總量1 萬(wàn)條。摘除重復(fù)的字段,將缺失率超過(guò)50%的數(shù)據(jù)字段舍去。無(wú)法簡(jiǎn)單歸一化變量,利用隨機(jī)森林算法進(jìn)行數(shù)值填充。加入WOE 編碼將分箱后的字段分別計(jì)算其WOE 值,將回歸系數(shù)“正則化”(詳見(jiàn)1.4 節(jié))。

      2.1.2 回歸部分

      回歸階段使用部分差量較大的字段,利用WOE編碼(詳見(jiàn)1.4 節(jié))平滑數(shù)據(jù),顯示good 與bad 的差異。利用Forward、Remove、Backward、Stepwise 優(yōu)化回歸模型,以及Chi-Square、-2 Log likelihood、BIC、AIC 作為衡量標(biāo)準(zhǔn),確立回歸部分的最優(yōu)參數(shù)。

      2.1.3 決策樹(shù)部分

      利用拉格朗日乘數(shù)法得LDKB 循環(huán)最優(yōu)組合中含有決策樹(shù)模型結(jié)果輸出見(jiàn)表1。LDKB 法循環(huán)中數(shù)據(jù)流會(huì)逐步通過(guò)選用模型調(diào)整與完善,因此不會(huì)受到原數(shù)據(jù)反向Acc 的質(zhì)量影響。

      循環(huán)中的總數(shù)據(jù)流經(jīng)過(guò)LDKB 算法優(yōu)化,驗(yàn)證對(duì)于識(shí)別目標(biāo)的影響程度,僅用作數(shù)據(jù)增強(qiáng)后的字段篩選,輸出終止n -1 次最優(yōu)效果。

      由表1 可看出,決策樹(shù)模型被選中循環(huán)6 次,從Acc、AUC、Gini 系數(shù)看出其中第1,2 次循環(huán)數(shù)據(jù)雜冗嚴(yán)重且準(zhǔn)確率低,在循環(huán)過(guò)程中數(shù)據(jù)流逐步被優(yōu)化,在第6 次調(diào)用時(shí)準(zhǔn)確率下降循環(huán)終止,輸出影響因素字段。

      2.1.4 聚類(lèi)部分

      表2,利用LDKB 法循環(huán)中,聚類(lèi)被選用3 次,同時(shí)LDKB 法報(bào)出amount 為2 或3 時(shí),quality 值相等的特殊情況。因此,LDKB 法在循環(huán)運(yùn)行時(shí)首先在BP 網(wǎng)絡(luò)識(shí)別階段驗(yàn)證首類(lèi)中是否存在A 與B 完全分開(kāi)互補(bǔ)影響的情況,再進(jìn)行下一類(lèi)迭代。

      表2 聚類(lèi)迭代節(jié)點(diǎn)Tab.2 Clustering iteration node

      2.1.5 類(lèi)神經(jīng)網(wǎng)絡(luò)部分

      本研究在BP 網(wǎng)絡(luò)循環(huán)節(jié)點(diǎn)中準(zhǔn)確率于2 簇網(wǎng)絡(luò)起并于4 簇網(wǎng)絡(luò)開(kāi)始回弱,見(jiàn)表3。

      表3 BP 網(wǎng)絡(luò)迭代節(jié)點(diǎn)Tab.3 BP network iteration node

      表3 利用LDKB 法在BP 網(wǎng)絡(luò)節(jié)點(diǎn)經(jīng)過(guò)迭代輸出最優(yōu)結(jié)果。顯而易見(jiàn),聚類(lèi)循環(huán)過(guò)程中特殊類(lèi)1?中為因素完全分開(kāi)互補(bǔ),可使用其判斷好壞,無(wú)法用作因素識(shí)別。因目標(biāo)中存在完全互補(bǔ)的量,因此網(wǎng)絡(luò)識(shí)別中總存在存儲(chǔ)該效果的簇。輸出最優(yōu)結(jié)果如圖2 所示。

      圖2 識(shí)別結(jié)果輸出Fig.2 Identification result output

      2.2 實(shí)驗(yàn)分析

      通過(guò)采用LDKB 法識(shí)別信用等級(jí),得到以下研究成果:

      LDKB 循環(huán)回歸模型初步判定環(huán)節(jié)中,通過(guò)調(diào)整分別使用Forward、Remove、Backward、Stepwise 4種方法優(yōu)化,利用Chi-Square、-2 Log likelihood、BIC、AIC 4 種因素衡量模型狀態(tài),并在循環(huán)中利用決策樹(shù)判定效果,通過(guò)公式計(jì)算父、子樹(shù)的最優(yōu)最小記錄數(shù)進(jìn)行優(yōu)化模型,并在LDKB 循環(huán)法中不斷驗(yàn)證數(shù)據(jù)流,輸出變量因素同比優(yōu)化232.54%,達(dá)72.13%。

      LDKB 循環(huán)聚類(lèi)環(huán)節(jié)共計(jì)調(diào)用3 次,測(cè)試出特殊聚類(lèi)質(zhì)量數(shù)并驗(yàn)證,數(shù)據(jù)存在2 類(lèi)為因素完全分開(kāi)互補(bǔ)情況,同步輸出正常聚類(lèi)效果結(jié)果并作為BP網(wǎng)絡(luò)識(shí)別因素。

      LDKB 循環(huán)BP 網(wǎng)絡(luò)環(huán)節(jié)中,采用構(gòu)建的BP 模型,利用計(jì)算得到隱藏層最小單位為23,最大單位為102,同時(shí)計(jì)算最初學(xué)習(xí)率為0.43,在保證誤差精確度為0.001 0的前提下,利用參數(shù)參與迭代優(yōu)化后的BP 模型收斂速度提高37.29%。

      采用基于模型組合的網(wǎng)絡(luò)迭代法對(duì)目標(biāo)進(jìn)行識(shí)別,總體Acc 達(dá)97.3%,ROC 總體檢測(cè)效果優(yōu)于任意單個(gè)模型或單個(gè)調(diào)參后模型。

      綜上,LDKB 法有效實(shí)現(xiàn)了客戶(hù)信用等級(jí)因素的評(píng)估,并有效根據(jù)歷史記錄識(shí)別信用等級(jí)。

      3 結(jié)束語(yǔ)

      本文提出的基于模型組合的網(wǎng)絡(luò)迭代法(LDKB),使用拉格朗日乘數(shù)法取得最優(yōu)組合權(quán)重向量,并作為選用模型組合的依據(jù)。實(shí)驗(yàn)證明,利用回歸、聚類(lèi)加以輔助,提高了LDKB 的容錯(cuò)性;迭代優(yōu)化數(shù)據(jù)流用于識(shí)別與多種單模型算法識(shí)別相比,LDKB 法得到的信息有著更少的精度損失,在決策識(shí)別時(shí)可以利用更小的決策成本得到更好的模型壓縮效果。

      根據(jù)實(shí)例分析可知,結(jié)合了LDKB 算法的信用等級(jí)識(shí)別系統(tǒng)性能提升較高,輸出也更接近實(shí)際值,可達(dá)到評(píng)定需求。

      進(jìn)一步探索在循環(huán)迭代過(guò)程中同步迭代模型最優(yōu)參數(shù)[13],實(shí)現(xiàn)實(shí)時(shí)調(diào)優(yōu);當(dāng)前迭代過(guò)程中無(wú)法實(shí)現(xiàn)實(shí)時(shí)了解模型間的相互影響因素,其中決策樹(shù)模型剪枝效果是對(duì)于預(yù)訓(xùn)練權(quán)重的數(shù)據(jù)環(huán)境敏感,因此迭代終止前可能產(chǎn)生當(dāng)前迭代環(huán)境整體優(yōu)化,而調(diào)參后的單模型效果并非最優(yōu)。因此,未來(lái)可以嘗試調(diào)整實(shí)現(xiàn)單模型最優(yōu),以查看模型間的潛在影響因素[14]。

      猜你喜歡
      剪枝數(shù)據(jù)流聚類(lèi)
      人到晚年宜“剪枝”
      基于YOLOv4-Tiny模型剪枝算法
      汽車(chē)維修數(shù)據(jù)流基礎(chǔ)(下)
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
      基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
      剪枝
      基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
      基于數(shù)據(jù)流聚類(lèi)的多目標(biāo)跟蹤算法
      一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
      北醫(yī)三院 數(shù)據(jù)流疏通就診量
      凤阳县| 定日县| 全州县| 西盟| 景宁| 台南市| 巴林右旗| 长阳| 武穴市| 贺州市| 剑阁县| 剑川县| 阜康市| 英吉沙县| 满城县| 迁安市| 太原市| 二手房| 瑞昌市| 平山县| 西城区| 旬邑县| 措勤县| 镇雄县| 大渡口区| 长葛市| 南皮县| 龙陵县| 垣曲县| 乐至县| 磐安县| 金昌市| 泗水县| 津南区| 盐源县| 乌拉特前旗| 阿克陶县| 吉林省| 汕尾市| 古浪县| 阜新市|