戴小鳳,朱衛(wèi)東
(1.安徽審計職業(yè)學(xué)院 工程管理系,安徽 合肥 230601;2.合肥工業(yè)大學(xué) 管理學(xué)院, 安徽 合肥 230009)
隨著社會經(jīng)濟(jì)的快速發(fā)展,我國的電網(wǎng)體系日漸完善,電力企業(yè)已經(jīng)得到了跨越式的發(fā)展[1]。與此同時,若想保證電網(wǎng)體系愈加成熟,應(yīng)該加強(qiáng)對工程造價的管理工作,合理的工程造價數(shù)據(jù)有利于提高電力工程的整體質(zhì)量和水平,使工程建設(shè)可以事半功倍[2]。只有對工程造價數(shù)據(jù)異常進(jìn)行準(zhǔn)確地識別,才能有效地節(jié)約電網(wǎng)建設(shè)的投資成本,提高整體的經(jīng)濟(jì)效益。
胡姣姣等人[3]提出了一種基于深度學(xué)習(xí)算法的異常序列數(shù)據(jù)的檢測方法,用來解決部分不平衡數(shù)據(jù)不易檢測出異常數(shù)據(jù)的現(xiàn)狀。該檢測方法可以有效解決傳統(tǒng)的異常序列數(shù)據(jù)檢測方法檢測不準(zhǔn)確的問題,并通過深度學(xué)習(xí)算法,提高了該檢測方法的檢測效率和準(zhǔn)確性,但是質(zhì)量較差。李新鵬等人4]為了提高電力調(diào)度數(shù)據(jù)在檢測過程中的準(zhǔn)確率,提出一種基于隨機(jī)森林算法的電力調(diào)度異常數(shù)據(jù)檢測方法,實(shí)驗(yàn)結(jié)果表明,該方法在應(yīng)用中具有一定的可實(shí)用性,但是識別精度較低。針對上述問題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的工程造價數(shù)據(jù)異常識別方法,從而保證數(shù)據(jù)識別的精度和質(zhì)量。
(1)
式中:γ、ξ代表工程造價異常數(shù)據(jù)的估計參數(shù)。利用卷積神經(jīng)網(wǎng)絡(luò)模型對工程造價異常數(shù)據(jù)進(jìn)行估計[6],并計算出工程造價異常數(shù)據(jù)的波動系數(shù),計算方法如式(2)所示,即
(2)
式中:β代表工程造價異常數(shù)據(jù)的置信度。當(dāng)工程造價異常數(shù)據(jù)系數(shù)變化波動大時,工程造價異常數(shù)據(jù)的數(shù)值越不穩(wěn)定,會出現(xiàn)較多的異常數(shù)據(jù)。
根據(jù)線性處理法,對工程造價異常數(shù)據(jù)進(jìn)行優(yōu)化[7],結(jié)合數(shù)據(jù)補(bǔ)償算法將獨(dú)立的工程造價數(shù)據(jù)鏈接到一起,通過式(3)計算出工程造價異常數(shù)據(jù)的包絡(luò)特征。
(3)
式中:k(t)表示工程造價異常數(shù)據(jù)識別過程中的局部數(shù)據(jù)特征;?(t)表示工程造價異常數(shù)據(jù)的局部特征分量;a(t)、b(t)分別代表通信系統(tǒng)中工程造價異常數(shù)據(jù)的幅值和相位。
根據(jù)工程造價異常數(shù)據(jù)的包絡(luò)特征,計算工程造價異常數(shù)據(jù)的空間距離,考慮到工程造價異常數(shù)據(jù)的性質(zhì),對異常數(shù)據(jù)進(jìn)行分類[8],以確定工程造價異常數(shù)據(jù)的隸屬度,計算方法如式(4)所示。
D(i,j)=d1|yi1-yj1|2+…+dm|yim-yjm|2,
(4)
式中:yim代表工程造價異常數(shù)據(jù)監(jiān)測數(shù)據(jù)值;yjm代表第m維的權(quán)重信息值。
利用工程造價異常數(shù)據(jù)的波動系數(shù),確定工程造價異常數(shù)據(jù)的權(quán)重,計算方法如式(5)所示。
(5)
通過搭建密度分布函數(shù),利用卷積神經(jīng)網(wǎng)絡(luò)模型,確定工程造價異常數(shù)據(jù)的波動系數(shù),根據(jù)線性處理法,對工程造價異常數(shù)據(jù)進(jìn)行優(yōu)化,根據(jù)工程造價異常數(shù)據(jù)的包絡(luò)特征,計算工程造價異常數(shù)據(jù)權(quán)重。
在進(jìn)行工程造價異常數(shù)據(jù)預(yù)處理的過程中,首先采用函數(shù)極值法,得到工程造價異常數(shù)據(jù)的權(quán)重信息值,從而獲取工程造價異常數(shù)據(jù)的權(quán)重特征;再利用離散小波變換算法,對工程造價數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行預(yù)處理,具體過程如下:
假設(shè),C={C1,C2,…,Cn}代表工程造價異常數(shù)據(jù)中有待于識別的異常數(shù)據(jù)的數(shù)目,根據(jù)各個識別數(shù)據(jù)的特征,獲取工程造價異常數(shù)據(jù)的數(shù)據(jù)矩陣,如式(6)所示。
(6)
式中:cnm代表識別第n個工程造價異常數(shù)據(jù)中第m個指標(biāo)的初始數(shù)據(jù)。利用函數(shù)的極值法,確定工程造價異常數(shù)據(jù)的隸屬度[9],獲取工程造價異常數(shù)據(jù)的特征,對n個異常數(shù)據(jù)的數(shù)據(jù)向量ci進(jìn)行劃分,分成κ個模糊組合,并求解聚類中心的最小目標(biāo)函數(shù),計算方法如式(7)。
(7)
式中:γ代表工程造價異常數(shù)據(jù)的目標(biāo)函數(shù)值;(φpq)γ代表Cq的隸屬度函數(shù);χζψ代表第ζ個造價異常數(shù)據(jù)與第ψ個造價異常數(shù)據(jù)之間的距離。計算獲得工程造價異常數(shù)據(jù)的特征如式(8)所示。
(8)
式中:λ代表工程造價異常數(shù)據(jù)的權(quán)值;N代表工程造價異常數(shù)據(jù)與聚類中心的距離。
采用數(shù)據(jù)轉(zhuǎn)化法對工程造價異常數(shù)據(jù)進(jìn)行預(yù)處理[10],利用式(9)給出處理后的m類工程造價異常數(shù)據(jù)的區(qū)間集,即
rm=([rmj-,rmj+],[rmk-,rmk+]).
(9)
以上述公式為基礎(chǔ),通過式(10)求得有待于識別的工程造價異常數(shù)據(jù)的參數(shù)和數(shù)據(jù)庫中工程造價異常數(shù)據(jù)特征參數(shù)之間的關(guān)聯(lián)度。
(10)
式中:l為工程造價異常數(shù)據(jù)之間的關(guān)聯(lián)系數(shù)。
在獲取工程造價異常數(shù)據(jù)的特征后,采用小波離散變換原理[11],對工程造價異常數(shù)據(jù)進(jìn)行預(yù)處理,通過式(11)計算出工程造價異常數(shù)據(jù)變量y的信息熵。
S(y)=-∑p(yi)log2p(yi)T(X,Y),
(11)
式中:p(yi)代表工程造價異常數(shù)據(jù)變量Y的各個組成樣本yi的先驗(yàn)概率。
(12)
利用工程造價異常數(shù)據(jù)矩陣,求解工程造價異常數(shù)據(jù)的聚類中心,根據(jù)工程造價異常數(shù)據(jù)特征的向量區(qū)間集,得到工程造價數(shù)據(jù)特征參數(shù)之間的關(guān)聯(lián)度,通過計算工程造價異常數(shù)據(jù)的信息熵,完成工程造價異常數(shù)據(jù)的預(yù)處理。
在利用卷積神經(jīng)網(wǎng)絡(luò)設(shè)計工程造價數(shù)據(jù)異常識別算法的過程中,根據(jù)采集的工程造價異常數(shù)據(jù)樣本,對差異特征進(jìn)行分類,識別出工程造價異常數(shù)據(jù)的特征,并對各個類型的工程造價異常數(shù)據(jù)特征進(jìn)行聚類分析,設(shè)定工程造價異常數(shù)據(jù)的識別閾值,采集不同的工程造價異常數(shù)據(jù)的特征樣本,如式(13)所示。
(13)
式中:mg代表工程造價異常數(shù)據(jù)的狀態(tài)空間;As代表mg的k組測量值;v(xk|Ak|)代表工程造價異常數(shù)據(jù)的分布函數(shù)。
根據(jù)采集的不同的工程造價異常數(shù)據(jù)樣本的類型,利用卷積神經(jīng)網(wǎng)絡(luò)劃分工程造價異常數(shù)據(jù)的分布區(qū)域[13],計算方法如式(14)所示。
(14)
式中:fd代表工程造價異常數(shù)據(jù)的初始值;gf代表分布區(qū)域中工程造價異常數(shù)據(jù)的樣本數(shù)量;εg代表工程造價異常數(shù)據(jù)類型;df代表異常數(shù)據(jù)的訓(xùn)練樣本特征;λm代表時間序列集合;uk代表識別到的工程造價異常數(shù)據(jù)差異特征;sr代表工程造價異常數(shù)據(jù)在識別中的特征矢量。
在工程造價異常數(shù)據(jù)的差異分布區(qū)域中,將每一個數(shù)據(jù)節(jié)點(diǎn)的概率密度向量定義為dζ,利用式(15)確定工程造價異常數(shù)據(jù)的識別閾值。
(15)
式中:dj代表工程造價異常數(shù)據(jù)的二維信息權(quán)值向量;gh為工程造價異常數(shù)據(jù)的約束條件;hk代表工程造價異常數(shù)據(jù)的差異特征。
在此基礎(chǔ)上,采用卷積神經(jīng)網(wǎng)絡(luò)中的二維信息權(quán)值向量,確定工程造價異常數(shù)據(jù)的平均長度,通過識別不同類型的異常數(shù)據(jù),劃分相似度比較高的差異特征[14],得到工程造價異常數(shù)據(jù)的最大識別結(jié)構(gòu),如式(16)所示,即
(16)
式中:kg表示工程造價異常數(shù)據(jù)的字符串結(jié)構(gòu);de表示工程造價異常數(shù)據(jù)的差異特征;sa表示工程造價異常數(shù)據(jù)的平均長度;kh表示相似度比較高的差異特征劃分結(jié)果。
利用卷積神經(jīng)網(wǎng)絡(luò),通過以上計算識別到工程造價異常數(shù)據(jù),具體如式(17)所示。
(17)
式中:δu代表每個差異特征分布區(qū)域中工程造價異常數(shù)據(jù)的分布比例;sg代表不同劃分區(qū)域中工程造價異常數(shù)據(jù)的相似程度。
在此基礎(chǔ)上設(shè)計了工程造價數(shù)據(jù)異常識別算法,實(shí)現(xiàn)了工程造價數(shù)據(jù)的異常識別。
為了驗(yàn)證基于卷積神經(jīng)網(wǎng)絡(luò)的工程造價數(shù)據(jù)異常識別方法在實(shí)際應(yīng)用中的性能,在Windows 7操作系統(tǒng)下,搭建了工程造價數(shù)據(jù)異常識別的仿真平臺,工程造價異常數(shù)據(jù)庫為MySQL 2019,數(shù)據(jù)庫編程語言為Java語言,仿真平臺中硬件配置為8GB內(nèi)存、主頻為200GHz的CPU Intel CORE i5處理器、IE瀏覽器。
實(shí)驗(yàn)過程中,采用某一公司的工程造價數(shù)據(jù),構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,命名為KB93LD數(shù)據(jù)集。在該數(shù)據(jù)集中,包含工程造價正常數(shù)據(jù)、DoS攻擊數(shù)據(jù)和Probe攻擊數(shù)據(jù),將DoS攻擊數(shù)據(jù)和Probe攻擊數(shù)據(jù)作為異常數(shù)據(jù),在KB93LD數(shù)據(jù)集中選擇20%的異常數(shù)據(jù)作為測試集,其余80%的異常數(shù)據(jù)作為訓(xùn)練集,利用卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行訓(xùn)練,測試文中數(shù)據(jù)識別方法的性能。
為了保證工程造價數(shù)據(jù)異常識別的精度和質(zhì)量,先利用召回率指標(biāo)衡量工程造價數(shù)據(jù)異常識別的精度,召回率越低說明工程造價數(shù)據(jù)異常識別的精度越高,計算方法如式(18)所示。
(18)
式中:kb表示工程造價異常數(shù)據(jù)的屬性特征;dp為工程造價數(shù)據(jù)異常識別的準(zhǔn)確率;Sr為工程造價異常數(shù)據(jù)采集周期;lp為數(shù)據(jù)特征之間的關(guān)聯(lián)度。
利用冗余度指標(biāo)衡量工程造價數(shù)據(jù)異常識別的質(zhì)量,冗余度值越低,說明工程造價數(shù)據(jù)異常識別的質(zhì)量就越高,計算方法如式(19)所示。
(19)
式中:?s表示工程造價異常數(shù)據(jù)的觀測向量;μj表示工程造價數(shù)據(jù)異常識別的均衡性。
為了突出文中方法在識別工程造價異常數(shù)據(jù)時的性能,引入基于深度學(xué)習(xí)的數(shù)據(jù)識別方法和基于孤立森林算法的數(shù)據(jù)識別方法作對比,在本仿真實(shí)驗(yàn)平臺中,測試3種方法在識別工程造價異常數(shù)據(jù)時的召回率和冗余度,工程造價數(shù)據(jù)異常識別的召回率測試結(jié)果如圖1所示。
由圖1可知,在工程造價數(shù)據(jù)異常識別的召回率測試中,隨著工程造價異常數(shù)據(jù)量的增加,3種方法在識別工程造價異常數(shù)據(jù)時的召回率也在增加。其中基于深度學(xué)習(xí)的數(shù)據(jù)識別方法得到的召回率最高。當(dāng)工程造價異常數(shù)據(jù)量達(dá)到200個時,召回率達(dá)到了58.9%?;诠铝⑸炙惴ǖ臄?shù)據(jù)識別方法的召回率達(dá)到了41%,而采用卷積神經(jīng)網(wǎng)絡(luò)識別方法識別工程造價異常數(shù)據(jù)召回率最低,只有14.2%。說明該方法在識別工程造價異常數(shù)據(jù)時具有更高的精度。由此可知,利用本文方法進(jìn)行數(shù)據(jù)異常識別的效果更準(zhǔn)確。工程造價數(shù)據(jù)異常識別的冗余度測試結(jié)果如圖2所示。
圖1 工程造價數(shù)據(jù)異常識別的召回率測試結(jié)果
圖2 工程造價數(shù)據(jù)異常識別的冗余度測試結(jié)果
由圖2可知,隨著工程造價異常數(shù)據(jù)量的增加,3種方法在識別工程造價異常數(shù)據(jù)時的冗余度都在35%以內(nèi),采用基于深度學(xué)習(xí)的數(shù)據(jù)識別方法的冗余度為33%,基于孤立森林算法的數(shù)據(jù)識別方法的冗余度為28%,而采用卷積神經(jīng)網(wǎng)絡(luò)識別方法識別工程造價異常數(shù)據(jù)的冗余度也在10%以內(nèi),說明文中方法在識別工程造價異常數(shù)據(jù)時可以提高數(shù)據(jù)識別的質(zhì)量。
由于傳統(tǒng)方法在工程造價數(shù)據(jù)異常識別中存在識別精度低、質(zhì)量差等問題。對此,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)工程造價數(shù)據(jù)異常識別方法。通過特征提取,確定工程造價異常數(shù)據(jù)序列。采用卷積神經(jīng)網(wǎng)絡(luò)模型來計算工程造價異常數(shù)據(jù)的波動系數(shù),再根據(jù)計算工程造價異常數(shù)據(jù)的信息熵,完成工程造價異常數(shù)據(jù)的預(yù)處理。實(shí)驗(yàn)測試表明:該方法在識別工程造價異常數(shù)據(jù)時的召回率和冗余度都有所提高,使用本文方法可提高數(shù)據(jù)識別的準(zhǔn)確性和質(zhì)量。