基于動態(tài)閾值的酸軋機組設備健康監(jiān)測及故障診斷

2023-05-20 10:36:50潘明皓

中國科技縱橫 2023年5期

潘明皓

（武鋼日鐵（武漢）鍍錫板有限公司，湖北武漢 430080）

0. 引言

黨的十九大報告提出“加快建設制造強國，加快發(fā)展先進制造業(yè)，推動互聯(lián)網、大數(shù)據(jù)、人工智能和實體經濟深度融合”，以促進新一代信息技術和人工智能技術與制造業(yè)深度融合，推動實體經濟轉型升級，大力發(fā)展智能制造[1]。

武鋼日鐵（武漢）鍍錫板酸軋機組（后簡稱CDCM機組）已運行10 年，為全國運行速度最高（出口速度最高2000m/s），可軋最?。?.15mm）的高速機組，由于前期先天涉及缺陷，為了保障設備高效穩(wěn)定地運行，設備管理人員一直在探索設備管理的方法。但高速旋轉的傳動設備和嘈雜的現(xiàn)場給點巡檢造成一定安全風險和難度。為了及時掌握其運行狀態(tài)，及時調整運行模式，避免大故障發(fā)生。因此需要結合最新的技術手段，通過遠程智能監(jiān)控保證機組的穩(wěn)定運行，同時通過智能分析提高設備預判，進行相關故障診斷與排除。

基于目前冷軋機組現(xiàn)狀，以及設備管理要求及公司的“四個一律”的發(fā)展方向。實現(xiàn)對設備運行、維修、故障診斷及預測、缺陷及事故分析、設備狀態(tài)健康評估、風險評價等業(yè)務的有效管控，促使管理人員和基層職工自覺地將企業(yè)管理要求落實在日常工作中，幫助企業(yè)提高管理水平，優(yōu)化業(yè)務流程，改善數(shù)據(jù)信息系統(tǒng)，實現(xiàn)設備管理的技術與經濟管控與生產安全風險預控，同時通過該服務，統(tǒng)一、集中收集、掌握設備管理核心業(yè)務和技術，有力提升決策支持，實時掌握設備健康信息，降低設備成本及故障率，提高維護檢修水平及效率。

綜上，本文根據(jù)新技術的應用結合現(xiàn)場實際，針對冷軋機組現(xiàn)狀，在冷軋機組準備新增一套酸軋齒輪軸承振動監(jiān)測系統(tǒng)，如圖1 所示，現(xiàn)場新增溫度振動數(shù)據(jù)采集設備，同時根據(jù)工藝及邏輯需要甄選采集現(xiàn)有生產線PLC 系統(tǒng)及現(xiàn)場智能傳感器儀表相關數(shù)據(jù)，結合機組負荷/軋制速度等參數(shù)，通過AI 技術與數(shù)據(jù)信息及工藝邏輯支撐對設備的評估、判斷、決策，以預設的作業(yè)標準或工作方法制約工作、作業(yè)的決定或處理結合工藝邏輯，提供關鍵設備的故障診斷預測服務，變被動計劃性維護為預測性維護，及時預警，提供診斷建議，避免事故發(fā)生。從而減少故障，降低設備損壞率，提高設備運行時間，降低維護成本，降低備件及運營成本，降低由于設備損壞對生產造成的影響。

圖1 CDCM機組組成結構圖

1. 相關研究

近年來，越來越多的過程監(jiān)控與故障診斷技術被用于保證工業(yè)生產過程的安全、節(jié)能、穩(wěn)定與高效，目前針對故障診斷問題已經建立了相對完整的理論體系，并積累了一定的實踐經驗，但是冷軋過程中的不確定、不規(guī)則、強相關、高主觀等因素仍制約著這項傳統(tǒng)工業(yè)的數(shù)字化轉型進程[2]。

Gartner 連續(xù)3 年（2017—2019 年）在其發(fā)布的“十大戰(zhàn)略科技發(fā)展趨勢”報告中，將動態(tài)閾值（Dynamic Threshold）和數(shù)字孿生（Digital Twin）列為在未來5 ～10 年內會產生顛覆性創(chuàng)新的技術之一[3]。

在動態(tài)閾值與孿生數(shù)據(jù)的驅動下，基于物理設備與虛擬設備的同步映射與實時交互而形成的設備健康管理新模式，設備狀態(tài)監(jiān)測系統(tǒng)可以實現(xiàn)快速捕捉故障現(xiàn)象，同時建立設備檔案，并對前期數(shù)據(jù)進行自學習，準確定位故障原因，合理設計并驗證維修策略。

傳統(tǒng)的電機報警系統(tǒng)主要使用固定的閾值用以監(jiān)測SCADA 和CMS 指標，而沒有考慮指標參數(shù)直接的相關性，從而使得部分故障不能被及時識別。

采用逐步回歸法篩選得到神經網絡輸出為t時刻主軸承溫度時的輸入?yún)?shù)，當模型預測值與實際檢測數(shù)據(jù)的馬氏距離超過閾值時，則判斷當前時刻數(shù)據(jù)異常；該方法優(yōu)于傳統(tǒng)利用預測誤差進行故障預警的方法。

利用徑向基核函數(shù)的支持向量機回歸（Support Vector Regression, SVR）建立正常狀態(tài)下的溫度預測模型，并使用統(tǒng)計過程控制分析得到殘差近似服從正態(tài)分布，并依此設定故障預警與報警閾值，后期通過機器學習結合工況和大數(shù)據(jù)智能生成動態(tài)閾值，若發(fā)現(xiàn)實際值與動態(tài)閾值之間的殘差長時間超過預警范圍且越過報警線，則發(fā)出警報。但由于數(shù)據(jù)量的限制，未能指明報警前殘差越限的具體時長，從而也無法定量得出模型的超前預測時長。

2. 基于動態(tài)閾值和數(shù)字孿生的設備健康狀態(tài)監(jiān)測

動態(tài)閾值是人工智慧物聯(lián)網（AIoT）的基礎智能化。通過將傳統(tǒng)工藝中固定的閾值轉化為基于機器學習算法的動態(tài)閾值，將實時變化的環(huán)境因素、溫度、震動、厚度紅外等傳感器參數(shù)與PLC 參數(shù)相結合，動態(tài)地繪制出一條更加貼近于顯示狀態(tài)的閾值線，如圖2 所示。結合了實時的傳感器讀數(shù)，用戶可以更有信心地將工藝系統(tǒng)的效率推向極限。更進一步結合對單點數(shù)據(jù)的預測，系統(tǒng)也實現(xiàn)了對動態(tài)閾值的預測。最終，該系統(tǒng)幫助用戶實現(xiàn)了從實時報警到實時預警再到動態(tài)預警的功能跨越。

圖2 動態(tài)閾值預警線（橙色）

數(shù)字孿生系統(tǒng)通過展示工藝流程上的實時傳感器讀數(shù)幫助工程師掌握冷軋線的最新動態(tài)。超出健康閾值的數(shù)據(jù)點將會產生亞健康和異常事件，提醒用戶進行處理。經過升級后的數(shù)字孿生系統(tǒng)還將擁有流程模擬功能，通過輸入鋼卷規(guī)格型號和冷軋工藝的控制參數(shù)，系統(tǒng)幫助工程師模擬冷軋工藝流程中的狀態(tài)和產出鋼材參數(shù)。幫助工程師探索特定用戶需求下的工藝參數(shù)預設值，提高成材率，降低錯誤成本，相關報表功能如圖3 所示。

圖3 CDCM機組5機架數(shù)字孿生示意圖（動態(tài)）

通過動態(tài)閾值和數(shù)字孿生系統(tǒng)對單體設備可以進行單點數(shù)據(jù)的預測和預警，包括傳統(tǒng)MES 系統(tǒng)中的數(shù)據(jù)歷史統(tǒng)計和趨勢分析。同時，系統(tǒng)會對工藝線上的屬性值和輸出參數(shù)進行預測，如震動、溫度、張力信息（tension information）、IMR 曲率（IMR Bending Rate）、軋制力、鋼板厚度等。得益于對單點數(shù)據(jù)的預測，系統(tǒng)不僅實現(xiàn)了對單點信息的實時報警，也進一步實現(xiàn)了對單點數(shù)據(jù)的提前預警，從而幫助工程師提前定位可疑信息點，幫助實現(xiàn)從被動維護到主動優(yōu)化的轉變，防患于未然。

通過單點預測和預警，然后結合工藝，同時對機器學習的深度使用，通過基于K-Means Clustering, Mean-Shifted Clustering, Density-based Clustering，Expectationmaximization clustering 和Mahalanobis 距離等算法的健康狀態(tài)診斷系統(tǒng)。系統(tǒng)將收集（1）溫度、振動等傳感器讀數(shù)，（2）PLC 的控制信號（電機電流、壓力、張力，變形量、轉速等），（3）鋼板規(guī)格（coil identification number）、厚度、寬度等全面的冷軋線信息綜合信息。使用聚類算法將綜合信息匯聚成不同健康狀態(tài)下的類別，從而訓練出針對用戶冷軋線的定制健康模型。最終使用Mahalanobis 距離等算法比較系統(tǒng)實時狀態(tài)、預測狀態(tài)與模型中健康狀態(tài)的距離，分析出系統(tǒng)的實時健康狀態(tài)和未來健康狀態(tài)。

2.1 數(shù)據(jù)抓取和預處理

酸軋機組此次共采集振動溫度點99 個，如圖4 和圖5所示，通過FDAA 系統(tǒng)可讀取機組日立PLC 系統(tǒng)工藝數(shù)據(jù)，并通過平臺設備檔案輸入對應設備參數(shù)，以上數(shù)據(jù)和工藝、生產數(shù)據(jù)實時相結合，結合工藝專家的經驗，作為本項目中用來建模分析的所有變量。

圖4 CDCM機組軋機振動檢測點示意圖

圖5 CDCM機組卷曲振動檢測點示意

2.2 機器學習建模分析

人工神經網絡基于稱為人工神經元的連接單元或節(jié)點的集合，它們對生物大腦中的神經元進行松散的建模。每個連接就像生物大腦中的突觸一樣，可以將信號傳遞給其他神經元，如圖6 所示。人工神經元接收信號，然后對其進行處理，并可以向與其相連的神經元發(fā)出信號。連接處的“信號”是一個實數(shù)，每個神經元的輸出由其輸入之和的某個非線性函數(shù)計算得出。這些連接稱為邊，神經元和邊緣通常具有隨著學習的進行而調整的權重。權重增加或減少連接處的信號強度。神經元可能有一個閾值，這樣只有當聚合信號超過該閾值時才會發(fā)送信號。通常，神經元被聚合成層。不同的層可以對其輸入執(zhí)行不同的轉換。信號從第一層輸入層傳播到最后一層輸出層，可能是在多次遍歷這些層之后，如圖7 所示。

圖6 神經網絡結構示意圖

圖7 鋼卷模型與振動及工藝參數(shù)關聯(lián)模型構建圖

隱藏層中的每個神經元接收加權輸入加上前一層中每個神經元的偏差，如公式1 所示。

Zi被傳遞給一個激活函數(shù)，該函數(shù)數(shù)用于對非線性行為進行建模。

以產生節(jié)點的輸出，計算公式：Yi=f(Zi)。sigmoidal函數(shù)是最常用的激活函數(shù)，計算公式為：

3. 應用及結果分析

實際項目從部署到實驗開始經歷了4 個月的時間，在該時間內冷軋線工況穩(wěn)定，相關設備并未出現(xiàn)明顯的故障特征。因此，為了實驗的完整性，本項目基于真實、健康的電機振動、溫度數(shù)據(jù)生成了部分人工異常數(shù)據(jù)，以便檢測模型效果。

項目過程中使用到的相關術語和計算規(guī)則如下。

（1）樣本總數(shù)：給定測試集的樣本總數(shù)，用F 表示。

（2）正確預測樣本數(shù)：模型預測結果與樣本實際相吻合的樣本數(shù)量，包含兩部分，即故障樣本預測為故障樣本，用TP（True Positive）表示；正常樣本預測為正常樣本數(shù)量，用TN（True Negative）表示。

（3）誤報樣本數(shù)：將正常的樣本預測為故障樣本的數(shù)量，用FP（False Positive）表示。

（4）漏報樣本數(shù)：將故障樣本預測為正常樣本的數(shù)量，用FN（False Negative）表示。

（5）準確率：在給定測試數(shù)據(jù)集的基礎上，樣本數(shù)據(jù)中模型預測結果與樣本數(shù)據(jù)實際結果相吻合的程度，用Accuracy 表示，計算公式：Accuracy=(TP+TN)/(TP+TN+FP+FN)＊100%=(TP+TN)/F＊100%。

（6）誤報率：在樣本數(shù)據(jù)測試中，被模型誤報成故障的正常樣本數(shù)占正常樣本總數(shù)的百分比，用FAR（False Alarm Rate）表示，計算公式如下：FAR=FP/(FP+TN)＊100%。

（7）故障檢測率：在樣本測試數(shù)據(jù)集中，被正確檢測的故障樣本數(shù)占故障總數(shù)目的百分比，用FDR（Fault Detection Rate）表示，計算公式：FDR=TP/(TP+ FN)＊100%。

項目最終效果如表1所示。

表1 項目實驗結果

4. 結語

本項目通過冷軋生產過程中的實際數(shù)據(jù)構建了一套針對客戶場景的神經網絡算法和針對同樣冷軋場景的模型搭建方法。模型最終在真實的健康數(shù)據(jù)和模擬的異常數(shù)據(jù)集中達到了準確率96.7%和故障檢測率98.1%的表現(xiàn)。