朱雯瓊,周木春,趙 琦,廖 俊
南京理工大學電子工程與光電技術學院,江蘇 南京 210094
轉爐煉鋼是我國主要的煉鋼技術,它通過吹入氧氣與鐵水進行化學反應,以消除鐵水中的雜質(zhì),最終產(chǎn)出鋼鐵的質(zhì)量與出鋼時的溫度和鋼鐵中的成分含量密切相關,因此對煉鋼終點的精準控制尤為重要。近年來,針對傳統(tǒng)控制方法如人工經(jīng)驗控制、 副槍控制、 煙氣分析等命中率低、 成本高、 難以實時控制的缺陷,火焰光譜分析技術被提出并用于煉鋼終點的控制[1]。光譜分析早在冶金、 化學等方面被廣泛應用,不僅可以用于測量溫度,也可用于檢測物質(zhì)成分含量, 它所提供的的實時測量信息可保證生產(chǎn)過程的優(yōu)化控制[2]。目前,機器學習方法隨著硬件的發(fā)展,在各個領域顯示出優(yōu)越的性能,特別在數(shù)據(jù)分析預測方面表現(xiàn)出色,若將火焰光譜分析與機器學習方法相結合,建立煉鋼終點預測模型,能夠有效對煉鋼過程進行實時控制,從而提高鋼鐵產(chǎn)量、 降低工業(yè)成本。但由于爐口火焰光譜數(shù)據(jù)量大,包含大量冗余信息,直接使用其進行建模會導致模型預測精度低且耗時長,因此需要首先對光譜進行處理,提取出相應特征用于建模。
目前的光譜特征提取方法主要分為兩種,一種是連續(xù)譜分段處理法, 通過對光譜整體特征的分析,使用數(shù)學方法計算出能夠代表光譜整體信息的某些參數(shù),如張彩軍等[3]對爐口火焰光譜進行分段最小二乘擬合得到擬合參數(shù)作為光譜穩(wěn)定特征,并對特征峰區(qū)域光強積分值作為光譜不穩(wěn)定特征; Anton Stadler等[4]通過計算光譜的連續(xù)差異、 加權差異、 二值差異以及在小波域的過零點和高通差異作為光譜特征; SedatGolgiyaz等[5]通過計算功率譜密度來提取火焰光譜的閃爍特性; Chang等[6]對光譜進行希爾伯特黃變換(HHT),將原始數(shù)據(jù)進行經(jīng)驗模式分解,得到代表光譜有效信息的固有模態(tài)函數(shù); Yin等[7]對火焰光譜進行傅里葉變換,并用直方圖均衡和能量譜對光譜特征進行計算。另一種特征波長選取法是使用變量選擇算法直接從原始光譜中選出具有顯著特征的波長,如Fan等[8]用競爭性自適應重加權采樣(CARS)方法提取特征波長用于建立醋酸含量預測模型; Li等[9]用蒙特卡洛無信息變量消除方法對棉籽近紅外光譜進行波長選擇,并將其用于測定其棉酚含量; Shao等[10]直接選取了光譜峰值點并進行計算處理,用于煉鋼終點的分類研究。
由于光譜分段處理方法計算緩慢,無法滿足工業(yè)煉鋼的實時控制要求,且在計算過程中容易模糊原始光譜中的某些信息,導致預測結果差,因此常使用特征波長選擇法對爐口火焰光譜進行處理,而一些傳統(tǒng)的特征選擇算法存在選取的特征可信度低、 結果過擬合等問題。為解決以上方法的缺陷,提高碳含量的預測準確度,提出了一種窗口競爭性自適應重加權采樣(WCARS)結合迭代式連續(xù)投影算法(ISPA)的特征變量選擇方法,先用WCARS對原始光譜進行粗選,再用ISPA方法精選得到特征波長,最后使用支持向量機回歸(SVR)建立煉鋼終點C含量預測模型,并將模型預測結果與其他方法進行比較。
數(shù)據(jù)選用了包鋼煉鋼廠實際冶煉的156個爐次共363組煉鋼后期爐口火焰光譜數(shù)據(jù),光譜波段為400~1 100 nm,采樣維數(shù)為3 648。采集到的原始光譜存在較多噪聲毛刺,對光譜特征的提取可能產(chǎn)生干擾,因此使用Savitzky-Golay平滑濾波對光譜進行預處理。圖1為預處理后的爐口火焰光譜。
圖1 爐口火焰光譜數(shù)據(jù)集Fig.1 Furnace mouth flame spectrum data sets
傳統(tǒng)競爭性自適應重加權采樣過于注重校正集交叉驗證結果,容易導致過擬合,而窗口競爭性自適應重加權采樣(window competitive adaptive reweighted sampling,WCARS)[11]可以有效解決過擬合問題。WCARS是在傳統(tǒng)CARS算法的基礎上,考慮相鄰波長之間的協(xié)同關系,將變量沿著波長方向劃分為窗口,對數(shù)據(jù)建立PLS模型,以窗口的回歸系數(shù)絕對值的均值作為衡量窗口重要性的指標,最終利用k折交叉驗證選出RMSECV最小的窗口子集。圖2為WCARS的算法流程圖。
圖2 WCARS流程圖Fig.2 Flowchart of WCARS
連續(xù)投影算法(successive projections algorithm, SPA)[12]是一種前向變量選取法,它通過計算剩余變量與選取變量的投影向量大小來選擇特征變量,能夠保證選取變量間的線性關系最小,以消除變量間的冗余信息,達到選擇特征波長的目的。
迭代式選擇是將待選擇的變量集分為k份,先對第一份進行特征選擇,將得到的特征變量加入第二份,再對第二份進行特征選擇,直到第k份。將迭代式選擇與連續(xù)投影算法相結合,能夠降低高維數(shù)據(jù)計算的復雜度,避免計算過程中的遺漏,通過重復迭代最終選出最優(yōu)特征變量。
迭代式連續(xù)投影算法(ISPA)的步驟如下:
(1)將待選擇的光譜矩陣按波長分為k份,記為Xm×nw,w=1, 2, …,k,m為光譜數(shù),N為需要選擇的波長個數(shù);
(2)在光譜矩陣中任選一列向量,記為xjo;
(3)計算剩余列向量xj與當前所選向量的投影
p=1, 2, …,N
(1)
(4)取投影向量最大的變量序號
jp=arg[max(‖pxj‖)]
(2)
(5)令xj=Pxj,P=P+1,返回第(3)步,直到p=N;
(6)將得到的N個特征變量加入下一份待選擇變量中,返回第(2)步進行計算,直到w=k。
支持向量機回歸(support vector regression,SVR)是根據(jù)結構風險最小化原則,以尋找一個最優(yōu)超平面為目的機器學習算法。SVR通過核函數(shù)將原始數(shù)據(jù)映射到高維空間,保證數(shù)據(jù)集可以與目標值具有最大偏差ε,同時平坦度應盡可能高[13]。應用線性學習機的方法解決樣本空間中的非線性問題,具有很強的非線性建模能力。本文使用SVR建立碳含量預測模型,選用徑向基函數(shù)(RBF)作為核函數(shù),使用粒子群算法選擇最佳參數(shù)c和g[14]。
在進行波長篩選之前需要先設定合適的窗口數(shù)目對光譜進行劃分。一幀爐口火焰光譜有3 648個波長采樣點,窗口太少可能導致有效數(shù)據(jù)與大量冗余數(shù)據(jù)被分在同個窗口,降低了被選中的概率,太多則與傳統(tǒng)CARS無異,因此選擇150~450個窗口計算建模,根據(jù)模型RMSE選擇最佳窗口數(shù)。
計算得到的RMSE隨選擇窗口數(shù)的變化如圖3所示??梢钥闯鲭S著窗口數(shù)的增大RMSE先逐漸減小,在窗口數(shù)為400時達到最小,而后重新增大。因此選擇400個窗口對原始光譜進行劃分。圖4為當窗口數(shù)為400時,WCARS對原始光譜計算得到的結果,共選出48段特征波長子集,包含434個波長。
圖3 RMSE與窗口數(shù)的變化情況Fig.3 Variation of RMSE with the number of windows
圖4 WCARS粗選結果Fig.4 Rough selection result of WCARS
WCARS以窗口為單位進行波長選擇,每個窗口中包含多個相鄰波長,其互相影響會導致一些干擾信息的存在,且粗選得到434個波長,數(shù)據(jù)量仍較大,影響模型預測速度。因此使用ISPA算法對選出的波長進行精選,通過消除變量間的無效冗余信息來進一步壓縮數(shù)據(jù)。
圖5(a)為用ISPA對粗選波長進行計算得到的結果,可以看出隨選擇變量數(shù)的增多,模型RMSE迅速減小,當選擇變量數(shù)為10時,RMSE達到最小值,為0.094 482,而后增大。圖5(b)為傳統(tǒng)SPA對粗選波長的計算結果,當選擇變量數(shù)為8時,RMSE最小為0.096 096,可以看出ISPA相比SPA結果更好,且ISPA所選波長包含這8個波長。因此選用ISPA計算得到的10個特征變量作為最終結果,這10個特征波長序號為252,253,971,1 189,1 217,1 502,2 039,2 142,2 662和2 782,如圖6所示。
圖5 RMSE與選擇變量數(shù)的變化情況(a): ISPA; (b): SPAFig.5 Variation of RMSE with the numberof selected variables(a): ISPA; (b): SPA
煉鋼過程十分復雜,光譜特征與碳含量的關系并非簡單的線性關系,支持向量機回歸(SVR)對于非線性建模問題具有很強的能力,因此常用于煉鋼終點模型的建立。SVR是一種有監(jiān)督的學習方法,其性能取決于訓練和測試數(shù)據(jù)集,模型的輸入?yún)?shù)對最終結果的影響極大,因此,光譜特征的選取對最終碳含量的預測十分重要。為驗證WCARS-ISPA算法選取出的火焰光譜特征波長點用于預測煉鋼終點碳含量的有效性,本文使用SVR建立終點碳含量預測模型。
圖6 WCARS-ISPA特征波長選擇結果Fig.6 Selection result of characteristicwavelengths with WCARS-ISPA
將選取的10個光譜特征波長與16個爐口火焰圖像特征、 2個峰值特征共28個變量作為輸入,碳含量為輸出。使用kennard-stone算法對訓練集和測試集進行劃分,將363個數(shù)據(jù)分為290個訓練數(shù)據(jù)和73個測試數(shù)據(jù)。將C含量的平均誤差、 預測誤差在±2%以內(nèi)的命中率以及運行30次的平均時間作為模型評價指標。圖7為WCARS-ISPA-SVM模型的訓練結果,從圖中可以看出預測C含量與實際數(shù)據(jù)基本重合。WCARS-ISPA-SVR模型得到的平均C含量誤差為1.413 2%,命中率高達90.63%,平均時間為0.019 679 s,能夠滿足工業(yè)生產(chǎn)實時預報要求。
圖7 WCARS-ISPA模型的訓練結果Fig.7 Training results of the WCARS-ISPA model
為證明本方法的優(yōu)越性,分別使用全光譜和WCARS-ISPA,CARS-SPA,WCARS,SPA四種不同特征選取方法選出的特征波長建模,并對其結果進行比較。表1總結了五個模型的三項評價指標,從表中可以看到,使用全光譜建立終點碳預測模型得到的平均預測誤差高達3.369 1,遠遠超過其他模型,命中率低且運行時間過長,無法滿足工業(yè)生產(chǎn)要求,因此說明對原始光譜進行特征提取是必要的。而與其他三種常用特征選取方法相比,WCARS-ISPA模型得到的終點碳平均預測誤差更小,且命中率最高,說明該方法效果更好,能夠進一步提高煉鋼終點碳含量的預測精度。
表1 不同模型的預測結果Table 1 Prediction results of different models
針對轉爐火焰光譜數(shù)據(jù)量大、 傳統(tǒng)特征選擇算法選取的特征可信度低、 結果過擬合等問題,提出了一種WCARS-ISPA算法,對爐口火焰光譜進行特征波長選取,并在此基礎上使用SVR建立煉鋼終點碳含量預測模型。先使用WCARS對爐口火焰光譜進行粗選,再用ISPA對選出波長進一步精選,最終選出10個特征波長作為SVR輸入變量。該方法能夠得到較好的實驗結果,模型預測平均碳含量誤差為1.413 2%,誤差在±2%以內(nèi)的命中率高達90.63%,運行時間小于0.02 s,結果優(yōu)于現(xiàn)有其他波長選擇方法。將該模型用于實際生產(chǎn),能夠有效地對轉爐煉鋼終點進行控制,滿足煉鋼終點實時預測的需求,幫助降低工業(yè)成本、 提高鋼鐵產(chǎn)量。