李 軍
(上海寶信軟件股份有限公司,上海 201203)
目前深度學習和聚類分析已經(jīng)廣泛應用于工業(yè)生產(chǎn)中,深度學習主要應用于圖像識別、語音識別等方面,是生產(chǎn)控制和工藝研究的一個輔助手段。聚類分析作為無監(jiān)督學習的關鍵技術也被廣泛應用于工業(yè)生產(chǎn),主要是發(fā)現(xiàn)數(shù)據(jù)間內(nèi)在結構的相關性,完成自主分類。兩類技術的集成應用也越來越多,如楊琪設計的DBNOC算法,在工業(yè)生產(chǎn)領域也有應用,如趙晶晶等提出一種將深度學習、聚類算法結合用于電網(wǎng)快速分區(qū)。
鋼鐵行業(yè)是中國經(jīng)濟高質量發(fā)展的重要支撐,如何對鋼鐵行業(yè)進行精準的優(yōu)化控制以及趨勢預測至關重要。鋼鐵企業(yè)生產(chǎn)過程時刻都在產(chǎn)生海量數(shù)據(jù),例如煉鐵高爐各項指標及工藝參數(shù),這些數(shù)據(jù)規(guī)模大、實時性強、結構多樣且維度高,需要及時高效地從中挖掘出關鍵特征指標,通過聚類生成高爐畫像,并通過對標找差的方式實現(xiàn)對高爐生產(chǎn)狀況的精準把控。該文借鑒Lim等人的設計思路,采用有監(jiān)督學習和無監(jiān)督學習結合的方式,將各高爐指標數(shù)據(jù)先抽象化為高維空間中的點,再映射到低維流形中進行聚類,解決了聚類過程中由于指標數(shù)量龐大且屬性分布分散帶來的指標權重難以量化分配的問題。
高爐指標聚類算法模型以高爐畫像中高維數(shù)據(jù)作為輸入,最終輸出結果用以支撐高爐對標管理實際應用需要,主要流程包括數(shù)據(jù)預處理、特征工程、算法建模及訓練、模型驗證上線及模型自學習等,其總體流程如圖1所示。
圖1 算法模型總體流程
基于高爐4類高維特征數(shù)據(jù),通過構建統(tǒng)計模型生成各高爐個體畫像,經(jīng)過異常數(shù)據(jù)清洗、數(shù)據(jù)補全和歸一化等預處理后,采用相關性檢驗、自變量篩選、因變量加工等特征工程算法為深度學習聚類算法建模提供規(guī)范化數(shù)據(jù);基于歷史數(shù)據(jù)完成模型訓練和測試,測試結果達標的納入模型庫管理,并定期導入生產(chǎn)過程中新產(chǎn)生數(shù)據(jù),對模型結果進行動態(tài)監(jiān)控,達標則輸出到高爐對標應用,未達標則通過自訓練控制進入下一次迭代。
高爐煉鐵是鋼鐵工業(yè)降低能源消耗、降低污染排放、控制制造成本的核心工序?;诟郀t生產(chǎn)管理系統(tǒng)數(shù)據(jù),通過統(tǒng)計模型,建立各高爐個體畫像,采集指標包括操作類、排放類、鐵水成本類、能耗類等數(shù)十個指標。通過高爐畫像為每座在役高爐建立檔案信息,包括高爐身份ID、爐役、爐齡、爐容、爐缸直徑、地理位置、所屬基地等,支持爐役、爐齡等屬性的自動更新。通過高爐畫像,可以支撐實現(xiàn)以下3點。
篩選反映高爐爐況的生產(chǎn)指標和工藝參數(shù),按爐容等級設置評價規(guī)則。
根據(jù)收集到的高爐實際生產(chǎn)數(shù)據(jù),匹配評價規(guī)則,形成單高爐、制造基地、公司法人層級的高爐評價報告。
采用多指標、考慮權重,計算高爐綜合競爭力分值,綜合比較評價各生產(chǎn)基地每座高爐的競爭力。
對高爐畫像指標數(shù)據(jù)進行異常數(shù)據(jù)清洗、缺失值補充,并使用MinMaxScaler方法進行歸一化預處理后,抽象化為高維空間中的數(shù)據(jù)點。將預處理后的數(shù)據(jù)使用Pearson相關系數(shù)法,保留相關性最強的幾個特征,作為模型的輸入?yún)?shù)。
該文構建深度學習聚類算法中包括表達空間學習、低維空間聚類以及最優(yōu)解算法模塊三部分,如圖2所示,最終將輸出每個高爐畫像高維原始數(shù)據(jù)、表達空間低維特征數(shù)據(jù)、低維特征數(shù)據(jù)聚類所屬族群等三項結果。
圖2 深度學習聚類算法流程
算法以經(jīng)過預處理和特征工程的高爐畫像高維原始數(shù)據(jù)作為輸入,通過基于神經(jīng)網(wǎng)絡自編碼器的表達空間學習同時輸出高爐畫像低維特征數(shù)據(jù)和高維近似數(shù)據(jù),使用高斯混合模型(Gaussian Mixture Model,GMM)完成低維特征數(shù)據(jù)聚類,同時考慮表達空間學習損失和低維空間聚類損失,通過超參數(shù)訓練求得最優(yōu)。
表達空間學習部分的核心是神經(jīng)網(wǎng)絡自編碼器模型,分為編碼器和解碼器兩個部分。編碼器將高維高爐畫像數(shù)據(jù)通過深度神經(jīng)網(wǎng)絡轉化為低維表達空間數(shù)據(jù),解碼器將低維表達空間數(shù)據(jù)逆轉換為高維高爐畫像數(shù)據(jù)。訓練后,通過編碼器與解碼器以后的擬合數(shù)據(jù)與原始數(shù)據(jù)誤差足夠小,表達空間學習完成,其架構圖如圖3所示。
圖3 表達空間學習模型架構
從輸入層到隱藏層,神經(jīng)網(wǎng)絡編碼器將高爐畫像高維原始數(shù)據(jù)壓縮為低維特征數(shù)據(jù),從隱藏層到輸出層,神經(jīng)網(wǎng)絡解碼器再將還原為高維數(shù)據(jù),將其作為原始數(shù)據(jù)的近似表達。在表達空間學習的過程中反復對比與的誤差,并進行反向傳遞,逐步提升神經(jīng)網(wǎng)絡自編碼器的準確性,最終得到能夠很好地描繪出高爐畫像的低維特征數(shù)據(jù)。
低維空間聚類部分的核心采用GMM聚類模型。將通過上述步驟以后的高維高爐畫像數(shù)據(jù)的結果基于GMM模型進行聚類,根據(jù)屬于不同簇的概率分布,確定單個高爐數(shù)據(jù)點的最終簇歸屬。。
最優(yōu)解算法模塊是綜合考量前兩個步驟,也就是有監(jiān)督學習和無監(jiān)督學習模型的損失函數(shù),建立統(tǒng)一損失函數(shù)和最優(yōu)化模型,并尋找表達空間學習和聚類模型中參數(shù)最優(yōu)解,優(yōu)化前兩個步驟中的模型。統(tǒng)一損失函數(shù)定義如公式(1)所示。
式中:和分別代表編碼器和解碼器函數(shù),x是高爐畫像第維特征,(x)是其經(jīng)過編碼后的低維特征表達,((x))是經(jīng)過解碼的高維近似特征,||x-((x))||即為表達空間學習損失,C為(x)所屬簇k的質心,||(x)-C||即為低維空間聚類損失,是介于0和1之間用于平衡兩個損失函數(shù)的影響的超參數(shù),模型最優(yōu)化目標函數(shù)為min()。
數(shù)據(jù)集選用國內(nèi)某大型多基地鋼鐵企業(yè)4大類高爐指標數(shù)據(jù),其中包括操作類指標,如爐容利用系數(shù)、爐缸截面利用系數(shù)、煤氣利用率、休風率、燃料比、焦比、煤比、富氧率等;排放類指標,如熱風爐煙氣SO、熱風爐煙氣NO、爐頂煤氣SO和降塵量等;鐵水成本類指標,如全成本、變動成本、固定成本、原料成本、燃料成本、能介成本、噸鐵折舊等;能耗類指標,如煉鐵工序能耗、高爐工序能耗等。
訓練集和測試集按照8∶2的比例劃分,對每個模型的超參數(shù)(如GMM聚類簇數(shù)n_components、統(tǒng)一損失函數(shù)權重)選擇,使用交叉驗證,其中驗證集合占比1/6。
模型整體性能采用統(tǒng)一損失函數(shù)和最優(yōu)化模型進行訓練、優(yōu)化,針對該文設計的基于GMM的低維空間聚類模型,采用CH分數(shù)(Calinski Harabasz Score,CHS)和輪廓系數(shù)(Silhouette Coefficient,SC)作為其性能評估指標,其中CH分數(shù)主要基于簇間協(xié)方差與簇內(nèi)協(xié)方差比值計算,其值越大越好,輪廓系數(shù)基于每個樣本與簇內(nèi)及簇間其他樣本間平均距離計算,其取值為[-1,1],為1時表示簇內(nèi)樣本緊湊,為0時簇間存在重疊,為-1時則聚類效果差。
自學習機制由聚類結果監(jiān)測與自訓練模塊組成,針對動態(tài)變化的高爐指標數(shù)據(jù),定時監(jiān)測聚類模型性能指標,當性能指標顯著下降,低于系統(tǒng)設定閾值時,啟動自訓練模塊對模型進行重訓練提升模型性能。
試驗數(shù)據(jù)集選用該鋼鐵企業(yè)2021年全年7個基地24座高爐指標歷史數(shù)據(jù),共42萬條,每條數(shù)據(jù)包括基地、爐號以及四大類101項指標數(shù)據(jù),對其進行異常數(shù)據(jù)去除與歸一化預處理后,通過表達空間學習模型抽象化為高維空間中的數(shù)據(jù)點,采用8∶2的比例劃分為訓練集和測試集。針對訓練集,留取1/6的數(shù)據(jù)作為驗證集,用于交叉驗證和超參數(shù)最優(yōu)化,迭代試驗結果見表1。
表1 性能對比結果
結合深度學習聚類算法模型最終輸出的每個高爐聚類所屬族群、高爐綜合爐況等信息,通過豐富的圖形化方式實現(xiàn)多層級、多維度的高爐生產(chǎn)指標對標功能。對標層級包括單高爐、爐容等級、制造基地、公司法人等。對標的主要指標包括利用系數(shù)、截面利用系數(shù)、煤氣利用率、休風率、冶煉強度、燃料比、焦比、煤比、工序能耗、風溫、全焦負荷、礦耗、噸鐵耗風、TRT噸鐵發(fā)電量、富氧率、鐵水合格率等。
針對試驗所選用的鋼鐵企業(yè),將高爐聚類生成的4個族群結果應用到高爐對標管理中,按照高爐聚類族群,展示對標對象綜合爐況排名結果,刻畫出綜合爐況的高爐群像,體現(xiàn)高爐與高爐、高爐與高爐群體、高爐群體與高爐群體之間的關系,應用效果圖如圖4所示。
圖4 高爐對標應用效果圖
該研究借助于深度學習聚類算法模型,減少人為因素的介入,適用于需要業(yè)務快速部署與迭代、冷啟動等場景,如在業(yè)務需要增加或者減少考量多個生產(chǎn)、經(jīng)濟效益指標情景下,能夠不依靠大量一線操作人員經(jīng)驗判斷指標權重,自行訓練得出最合理的聚類結果。
該研究通過試驗驗證了該算法模型在高爐指標聚類應用中的有效性,研究更為重要的意義在于促進各個鋼鐵企業(yè)、設計院、供應商、科研機構以及行業(yè)協(xié)會等整個鋼鐵生態(tài)圈的信息互聯(lián)互通、數(shù)據(jù)深度應用、產(chǎn)學研用緊密結合和核心競爭力提高。