• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于遷移學(xué)習(xí)和知識(shí)蒸餾的加熱爐溫度預(yù)測(cè)

    2022-07-07 08:23:04翟乃舉周曉鋒史海波
    關(guān)鍵詞:爐溫加熱爐卷積

    翟乃舉,周曉鋒,李 帥,史海波

    (1.中國(guó)科學(xué)院 網(wǎng)絡(luò)化控制系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,遼寧 沈陽 110016;2.中國(guó)科學(xué)院 沈陽自動(dòng)化研究所,遼寧 沈陽 110016;3.中國(guó)科學(xué)院 機(jī)器人與智能制造創(chuàng)新研究院,遼寧 沈陽 110169;4.中國(guó)科學(xué)院大學(xué),北京 100049)

    0 引言

    加熱爐對(duì)鋼坯進(jìn)行加熱,使鋼坯達(dá)到設(shè)定溫度后送入軋機(jī)進(jìn)行軋制[1]。鋼坯的加熱溫度直接決定鋼坯質(zhì)量,但鋼坯溫度很難直接測(cè)量,需要通過精確預(yù)測(cè)鋼坯所經(jīng)過的加熱爐內(nèi)加熱區(qū)的溫度來近似推斷鋼坯的加熱溫度。準(zhǔn)確預(yù)測(cè)爐溫的目的是建立鋼坯加熱跟蹤模型,以此指導(dǎo)手工操作。如果爐溫能夠被準(zhǔn)確預(yù)測(cè)和控制,操作人員就可以保持燃料正常配比[2],從而降低加熱爐運(yùn)行成本,優(yōu)化加熱爐的工作效率,提高加熱爐的使用壽命。鋼坯的加熱過程具有多變量、非線性、強(qiáng)耦合、大慣性和滯后性等特點(diǎn)[3],爐內(nèi)溫度很難精準(zhǔn)預(yù)測(cè),具體表現(xiàn)在:

    (1)滯后性 在對(duì)加熱爐實(shí)施控制后,會(huì)延遲一段時(shí)間才能看到效果,因此需建立時(shí)序預(yù)測(cè)模型提前預(yù)測(cè)爐溫變化趨勢(shì),以便及時(shí)調(diào)整控制策略。

    (2)多目標(biāo)性 鋼坯在爐膛內(nèi)的加熱過程會(huì)經(jīng)過多個(gè)加熱區(qū),各加熱區(qū)對(duì)應(yīng)不同的加熱曲線,而且各加熱區(qū)會(huì)受到一部分相同控制變量的影響。

    (3)模型部署困難性 加熱過程是一個(gè)時(shí)變過程,需要溫度預(yù)測(cè)模型快速響應(yīng),對(duì)所有區(qū)進(jìn)行高效、準(zhǔn)確預(yù)測(cè)是一個(gè)棘手的問題。

    綜上所述,準(zhǔn)確預(yù)測(cè)爐溫是加熱爐優(yōu)化的核心和基礎(chǔ),也是當(dāng)今冶金科技發(fā)展的前沿課題。

    一些學(xué)者嘗試通過機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)的方法解決上述問題,PANDIT等[4]基于時(shí)序自回歸(Autoregression, AR)建立多變量爐溫預(yù)測(cè)模型,可以在爐溫穩(wěn)定下進(jìn)行準(zhǔn)確預(yù)測(cè),然而該方法僅建立一階線性模型,并不適合擬合非線性、非平穩(wěn)的爐溫?cái)?shù)據(jù);ZHANG等[5]基于模糊最小二乘支持向量機(jī)(Support Vector Machine, SVM)建立爐溫預(yù)測(cè)模型,具有較強(qiáng)的抗干擾能力,然而該方法忽略了加熱過程的時(shí)序信息,長(zhǎng)期預(yù)測(cè)能力有限;CUI等[6]考慮時(shí)序信息對(duì)模型的影響,建立了基于BP(back propagation)神經(jīng)網(wǎng)絡(luò)的爐溫預(yù)測(cè)模型,從多組實(shí)驗(yàn)中選取最優(yōu)模型;CHEN等[7]建立了人工神經(jīng)網(wǎng)絡(luò)和極限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)來預(yù)測(cè)溫度。文獻(xiàn)[6-7]兩種方法均引入神經(jīng)網(wǎng)絡(luò)擬合非線性數(shù)據(jù),并取得良好的預(yù)測(cè)結(jié)果,但是仍存在學(xué)習(xí)速度慢、無法解決溫度滯后等問題。針對(duì)上述模型的缺陷,深度學(xué)習(xí)提供了一種有效的解決方案。

    深度學(xué)習(xí)結(jié)構(gòu)中的多個(gè)隱藏層可以自動(dòng)提取加熱過程中多個(gè)變量的相關(guān)特征和時(shí)序信息,具有強(qiáng)大的特征學(xué)習(xí)能力[8],目前該技術(shù)已應(yīng)用于高爐研究,DING等[9]提出循環(huán)神經(jīng)網(wǎng)絡(luò)—長(zhǎng)短期記憶(Recurrent Neural Network-Long Short Term Memory, RNN-LSTM)來解決高爐的非線性和滯后性問題,取得了良好的預(yù)測(cè)精度和很強(qiáng)的適應(yīng)性;最近的研究也表明,時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network, TCN)由于架構(gòu)簡(jiǎn)單、學(xué)習(xí)速度快、可以捕獲任意長(zhǎng)度的輸入序列而不泄漏信息等特點(diǎn)已經(jīng)廣泛應(yīng)用于序列建模[10]。然而,現(xiàn)有的深度學(xué)習(xí)模型用于加熱爐溫度預(yù)測(cè)存在以下兩方面缺陷:①實(shí)際生產(chǎn)中,鋼坯在爐內(nèi)經(jīng)過多個(gè)加熱區(qū),各加熱區(qū)采集的數(shù)據(jù)具有不穩(wěn)定性和非線性特點(diǎn),由于神經(jīng)網(wǎng)絡(luò)沒有外推性,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)無法準(zhǔn)確預(yù)測(cè)此類工業(yè)數(shù)據(jù),加熱爐系統(tǒng)中大部分加熱區(qū)的溫度難以準(zhǔn)確預(yù)測(cè)。另外,在不同加熱區(qū)域訓(xùn)練不同的模型會(huì)增加計(jì)算成本。針對(duì)以上兩個(gè)難點(diǎn),并結(jié)合各加熱區(qū)相似性的特點(diǎn),提出一種基于時(shí)間卷積網(wǎng)絡(luò)[11]的遷移學(xué)習(xí)[12](Temporal Convolutional Network-Transfer Learning, TCN-TL)框架來預(yù)測(cè)多區(qū)溫度。②深層網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)中表現(xiàn)良好,但是當(dāng)其結(jié)果反饋給控制器時(shí)會(huì)產(chǎn)生災(zāi)難性后果,同時(shí)部署到應(yīng)用的深層模型因使用較大的計(jì)算資源而產(chǎn)生較高的延遲。針對(duì)這一缺點(diǎn),提出基于知識(shí)蒸餾網(wǎng)絡(luò)(Knowledge Distillation network, KD)[13]的爐溫預(yù)測(cè)網(wǎng)絡(luò),然而現(xiàn)有研究大都為分類的應(yīng)用[14],很少關(guān)注知識(shí)蒸餾在回歸預(yù)測(cè)中的應(yīng)用,因此提出一種基于多任務(wù)學(xué)習(xí)的知識(shí)蒸餾方法應(yīng)用于加熱爐溫度預(yù)測(cè)這樣的回歸任務(wù)。

    本文貢獻(xiàn)如下:①建立基于遷移學(xué)習(xí)和知識(shí)蒸餾網(wǎng)絡(luò)(Transfer Learning-Knowledge Distillation network, TL-KD)的爐溫預(yù)測(cè)模型來準(zhǔn)確、高效預(yù)測(cè)所有加熱區(qū)溫度;②提出基于自遷移的神經(jīng)網(wǎng)絡(luò)權(quán)重初始化方法用于優(yōu)化模型;③提出可用于回歸任務(wù)的知識(shí)蒸餾方法來解決深度遷移網(wǎng)絡(luò)延遲高的缺點(diǎn);④通過大量實(shí)驗(yàn)證明本文所提TL-KD框架是解決爐溫預(yù)測(cè)問題的先進(jìn)模型。

    1 研究思路

    本文所提溫度預(yù)測(cè)框架包括兩個(gè)階段:①基于TCN-TL的溫度預(yù)測(cè)模型準(zhǔn)確預(yù)測(cè)所有加熱區(qū)的溫度;②結(jié)合爐溫預(yù)測(cè)建立模型,提出TL-KD來解決深層網(wǎng)絡(luò)應(yīng)用于爐溫預(yù)測(cè)的缺點(diǎn)。具體研究思路如圖1所示。

    (1)階段1 本文采用自相關(guān)系數(shù)[15]方法確定滑窗尺度,使經(jīng)過處理后的數(shù)據(jù)符合TCN的輸入格式,然后根據(jù)溫度分布確定遷移學(xué)習(xí)的源域;接著,建立時(shí)間卷積網(wǎng)絡(luò)擬合源域數(shù)據(jù),并采用基于遷移學(xué)習(xí)思想的權(quán)重初始化方法優(yōu)化網(wǎng)絡(luò)形成源域模型;通過在遷移學(xué)習(xí)階段采用生成對(duì)抗損失[16]最大化源域和目標(biāo)域的相似性來完成知識(shí)遷移,解決神經(jīng)網(wǎng)絡(luò)無外推性的缺點(diǎn);最后通過目標(biāo)域的目標(biāo)變量微調(diào)高層權(quán)重形成目標(biāo)模型,同時(shí)目標(biāo)模型也作為TL-KD的Teacher。

    (2)階段2 首先用階段1的Teacher擬合訓(xùn)練集,訓(xùn)練集的預(yù)測(cè)結(jié)果作為soft-label,真實(shí)的訓(xùn)練集的目標(biāo)變量作為hard-label;然后構(gòu)建單層全連接循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)作為Student,用Student擬合soft-label作為輔助任務(wù),擬合hard-label作為主任務(wù),采用L1損失分配主任務(wù)和輔助任務(wù)的權(quán)重,以此實(shí)現(xiàn)基于知識(shí)蒸餾網(wǎng)絡(luò)的參數(shù)預(yù)測(cè);最后,由TL-KD輸出預(yù)測(cè)結(jié)果以及Student和Teacher的參數(shù)數(shù)目。

    2 基于時(shí)間卷積網(wǎng)絡(luò)的遷移學(xué)習(xí)的爐溫預(yù)測(cè)方法

    2.1 TCN構(gòu)建和優(yōu)化

    爐溫預(yù)測(cè)需要利用歷史時(shí)刻的數(shù)據(jù)來預(yù)測(cè)未來溫度,TCN的因果卷積[17]保證了這種單向性:t時(shí)刻的溫度值通過t時(shí)刻之前的控制變量預(yù)測(cè)。然而,TCN可捕獲的歷史時(shí)刻范圍受限于卷積核的大小,要獲取更長(zhǎng)的時(shí)間范圍,就需要堆疊很多隱藏層。針對(duì)上述問題,TCN采用空洞卷積[18]來使網(wǎng)絡(luò)以較少的隱藏層捕獲較長(zhǎng)的歷史信息。因此,t時(shí)刻的溫度F定義為

    (1)

    式中:d為空洞因子,隨隱藏層的增加呈指數(shù)型增加;k為卷積核大小。網(wǎng)絡(luò)可捕獲的歷史信息為k·dmax。

    除此之外,TCN還引入殘差連接[19]來解決卷積層數(shù)增加帶來的梯度消失、訓(xùn)練復(fù)雜等問題,以有效訓(xùn)練深層網(wǎng)絡(luò)。TCN通過一個(gè)殘差塊堆疊兩個(gè)卷積層,并在每層中采用權(quán)重歸一化和Dropout來防止過擬合。

    (2)

    當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)確定后,提出如圖3所示的基于自遷移學(xué)習(xí)的權(quán)重初始化方法來優(yōu)化網(wǎng)絡(luò)參數(shù),具體步驟如下:①訓(xùn)練集預(yù)訓(xùn)練一個(gè)TCN模型;②考慮到空洞因子高的隱藏層會(huì)遺漏信息,凍結(jié)淺層權(quán)重;③再次用訓(xùn)練集更新未凍結(jié)的權(quán)重。

    2.2 遷移網(wǎng)絡(luò)的構(gòu)建

    神經(jīng)網(wǎng)絡(luò)無外推性的缺陷導(dǎo)致其難以預(yù)測(cè)分布外的數(shù)據(jù)。因?yàn)闋t溫曲線具有不穩(wěn)定性、非線性等特點(diǎn),所以神經(jīng)網(wǎng)絡(luò)無法預(yù)測(cè)多個(gè)加熱區(qū)訓(xùn)練數(shù)據(jù)分布外的爐溫曲線。為此,利用同一個(gè)加熱爐內(nèi)各加熱區(qū)具有相似加熱過程的特點(diǎn),將神經(jīng)網(wǎng)絡(luò)在能夠準(zhǔn)確預(yù)測(cè)爐溫的加熱區(qū)(源域)學(xué)習(xí)到的知識(shí)傳遞到其余加熱區(qū)(目標(biāo)域)。除此之外,加熱爐有多個(gè)加熱區(qū),若對(duì)每個(gè)加熱區(qū)都建立預(yù)測(cè)模型,則不同加熱區(qū)可能有不同的神經(jīng)網(wǎng)絡(luò)模型,從而增加計(jì)算成本。因此提出如圖4所示的基于遷移學(xué)習(xí)的爐溫預(yù)測(cè)方法。

    針對(duì)源域和目標(biāo)域不同的特征,采用基于生成對(duì)抗損失的域自適應(yīng)方法。生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)同時(shí)訓(xùn)練兩個(gè)模型:①捕獲數(shù)據(jù)分布的生成模型G;②估計(jì)樣本來自真實(shí)數(shù)據(jù)而不是G的判別模型D。D的目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)源的兩種分類,G的目標(biāo)是生成偽數(shù)據(jù)G(z),使D無法判別數(shù)據(jù)源[20]。換言之,D和G用值函數(shù)V(G,D)進(jìn)行以下極小極大對(duì)策:

    [log(1-D(G(z)))]+Ex~pdata(x)[logD(x)])。

    (3)

    通過式(3)可以得出GAN的訓(xùn)練方式為首先固定生成器G,同時(shí)訓(xùn)練判別器D:

    Ex~pdata(x)[logD(x)])。

    (4)

    最大化式(4)的值,使判別器將真實(shí)數(shù)據(jù)劃分為1,生成的數(shù)據(jù)劃分為0。若一個(gè)生成的數(shù)據(jù)被分為1,則第一項(xiàng)趨于負(fù)無窮;同理,若錯(cuò)誤地將真實(shí)數(shù)據(jù)分為0,則第二項(xiàng)判別器趨于負(fù)無窮。然后訓(xùn)練生成器:

    Ex~pdata(x)[logD(x)])。

    (5)

    訓(xùn)練生成器使式(5)最小,使判別器D不能區(qū)分真假數(shù)據(jù)。

    [fd(fg(x))]+E(x)~Pt(xt)log[1-fd(fg(x))]。

    (6)

    本文通過生成對(duì)抗損失最小化目標(biāo)域和源域差異,然后利用目標(biāo)域數(shù)據(jù)Dt微調(diào)目標(biāo)模型,微調(diào)階段采用平均絕對(duì)誤差(Mean Absolute Error, MAE)損失。最終的目標(biāo)函數(shù)為

    (7)

    3 基于多任務(wù)學(xué)習(xí)的蒸餾網(wǎng)絡(luò)

    上述爐溫預(yù)測(cè)模型均為深層網(wǎng)絡(luò)模型,深層網(wǎng)絡(luò)的結(jié)果反饋到加熱爐控制器時(shí)可能產(chǎn)生災(zāi)難性后果,淺層模型由于容量和能力而很難獲得較優(yōu)的性能。除此之外,大模型有推斷速度慢、部署資源要求高等特點(diǎn),不滿足加熱爐要求模型快速反饋的需求。因此,提出基于知識(shí)蒸餾的方法減少網(wǎng)絡(luò)參數(shù)來進(jìn)行爐溫預(yù)測(cè)。HINTON[13]首次提出知識(shí)蒸餾概念,將復(fù)雜、學(xué)習(xí)能力好的Teacher網(wǎng)絡(luò)學(xué)習(xí)到的知識(shí)蒸餾到參數(shù)少、結(jié)構(gòu)簡(jiǎn)單的Student網(wǎng)絡(luò)。具體來說,知識(shí)蒸餾將Teacher網(wǎng)絡(luò)的輸出結(jié)果t作為Student網(wǎng)絡(luò)的目標(biāo)變量,訓(xùn)練Student網(wǎng)絡(luò),使Student網(wǎng)絡(luò)的結(jié)果s接近t,實(shí)際上Student學(xué)習(xí)的是帶有噪聲的Teacher的輸出,可以將損失函數(shù)寫為L(zhǎng)=CE(y,s)+αCE(s,t),CE為交叉熵(cross entropy),y為真實(shí)標(biāo)簽。然而現(xiàn)有研究大多關(guān)注分類問題,很少關(guān)注知識(shí)蒸餾在回歸問題中的應(yīng)用,原因是回歸問題一般不采用交叉熵?fù)p失,甚至因Teacher預(yù)測(cè)結(jié)果顯然不能完全等于真實(shí)數(shù)據(jù)而不能直接用Student模型擬合Teacher的輸出。因?yàn)門eacher網(wǎng)絡(luò)的學(xué)習(xí)能力強(qiáng)大,能夠捕獲到Student無法學(xué)習(xí)到的特征,所以Teacher有指導(dǎo)Student的能力?;谏鲜龇治觯疚牡膿p失函數(shù)如下:

    (8)

    式中α為權(quán)重參數(shù),0≤α≤1。

    如果Student預(yù)測(cè)誤差小于等于Teacher預(yù)測(cè)誤差,則不需要Teacher輔導(dǎo)Student,否則Teacher需要指導(dǎo)Student的學(xué)習(xí)。

    不只Teacher預(yù)測(cè)的輸出,真實(shí)目標(biāo)變量也存在噪聲,兩個(gè)任務(wù)存在不同的噪聲模式,聯(lián)合地學(xué)習(xí)兩個(gè)任務(wù)能夠使模型通過平均噪聲模式獲得更好的表征[22]。因此,提出如圖5所示的基于多任務(wù)學(xué)習(xí)[23]的TL-KD來解決回歸問題:①采用遷移學(xué)習(xí)生成的目標(biāo)模型作為Teacher預(yù)測(cè)原訓(xùn)練集,輸出結(jié)果為t,將其稱為soft-label;②建立單層全連接RNN網(wǎng)絡(luò)作為Student構(gòu)建多任務(wù)學(xué)習(xí)網(wǎng)絡(luò),主任務(wù)為Student擬合真實(shí)標(biāo)簽,即擬合hard-label,輔助任務(wù)為Student擬合soft-label。因?yàn)閮蓚€(gè)任務(wù)相似,所以本文采用硬共享機(jī)制[24]在兩個(gè)任務(wù)中共享RNN的參數(shù),硬共享機(jī)制為所有任務(wù)共用隱藏層參數(shù),同時(shí)保留各自任務(wù)的輸出層。由于為回歸預(yù)測(cè),提出MAE損失作為兩個(gè)網(wǎng)絡(luò)的損失函數(shù)。所提TL-KD的目標(biāo)函數(shù)為

    (9)

    由于Student擬合hard-label為主任務(wù),定義α=0.6。

    4 實(shí)驗(yàn)驗(yàn)證

    4.1 加熱過程

    本文研究的加熱爐類型為步進(jìn)梁式三段加熱爐,分為預(yù)熱段、加熱段、均熱段,共10個(gè)加熱區(qū),如圖6所示。每個(gè)區(qū)有一對(duì)燒嘴,奇數(shù)區(qū)為上燒,偶數(shù)區(qū)為下燒。溫度檢測(cè)值由加熱爐燃燒系統(tǒng)的熱電偶傳感器采集。

    4.2 數(shù)據(jù)分析和處理

    本文采集了某集團(tuán)熱軋寬帶生產(chǎn)線某加熱爐10個(gè)加熱區(qū)的實(shí)際生產(chǎn)數(shù)據(jù)。數(shù)據(jù)采集時(shí)間為2019年1月24日10:00~2019年1月25日10:00,各加熱區(qū)的采樣頻率為1/30 Hz,每個(gè)加熱區(qū)有2 859個(gè)樣本??刂谱兞堪諝鈮毫?、氧氣流量、氣體流量、氮?dú)饬髁俊㈤y門開度等62個(gè)變量,用每個(gè)加熱區(qū)前70%的數(shù)據(jù)作為訓(xùn)練集,最后30%作為測(cè)試集。

    研究發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)的外推性不強(qiáng),即神經(jīng)網(wǎng)絡(luò)對(duì)該訓(xùn)練集分布之外數(shù)據(jù)的預(yù)測(cè)并不可靠,現(xiàn)有神經(jīng)網(wǎng)絡(luò)對(duì)這種分布不穩(wěn)定的爐溫?cái)?shù)據(jù)無能為力。如前所述,由于各加熱區(qū)有很高的相似性,提出采用遷移學(xué)習(xí)的思想克服神經(jīng)網(wǎng)絡(luò)無外推性的缺點(diǎn),最終選擇溫度曲線比較穩(wěn)定的1區(qū)作為源域,將1區(qū)學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到其余9個(gè)加熱區(qū)。

    (10)

    歸一化時(shí)采用線性函數(shù)將原始數(shù)據(jù)等比例縮放到[0,1]范圍。本文提出用源域目標(biāo)變量的自相關(guān)系數(shù)確定窗寬范圍

    (11)

    式中:Cov(·)為協(xié)方差,σ(·)為方差。式(11)表示一個(gè)時(shí)間序列在任意t時(shí)刻和t+Δt時(shí)刻的相關(guān)性。計(jì)算結(jié)果如圖7所示,一般自相關(guān)系數(shù)大于0.8表示高度相關(guān)。圖7中,當(dāng)相關(guān)系數(shù)大于0.8時(shí),滯后時(shí)間步長(zhǎng)小于28,因此將滑窗范圍縮小到[1,28]。考慮到目標(biāo)域的預(yù)測(cè)精度,當(dāng)源域和目標(biāo)域差異最小時(shí)遷移結(jié)果最佳。由于各加熱區(qū)共享控制參數(shù),滑窗范圍越大,源域和目標(biāo)域的相似性越高,因此滑窗大小為28。

    4.3 基于時(shí)間卷積的遷移網(wǎng)絡(luò)預(yù)測(cè)結(jié)果

    此前設(shè)置窗寬為28,因此TCN的空洞因子d=[1,2,4,8,16]。所提出的TCN結(jié)構(gòu)包括輸入層、初始卷積層、5個(gè)殘差塊結(jié)構(gòu)、一維卷積和最后的全連接層。

    根據(jù)前文提到的基于自遷移的權(quán)重初始化方法優(yōu)化TCN的參數(shù),設(shè)置每層卷積核數(shù)為64個(gè),在訓(xùn)練TCN模型時(shí),epoch的值設(shè)為100,選擇Adam作為優(yōu)化器來自適應(yīng)學(xué)習(xí)速率。將均方根誤差(Root Mean Squard Error, RMSE)和MAE作為評(píng)價(jià)標(biāo)準(zhǔn)。經(jīng)過多次實(shí)驗(yàn)取均值后確定,當(dāng)1區(qū)為源域時(shí),凍結(jié)前29層時(shí)預(yù)測(cè)誤差最小。圖8所示為優(yōu)化后的TCN同未優(yōu)化的TCN和經(jīng)典的時(shí)間序列模型進(jìn)行的性能對(duì)比,這些模型的參數(shù)均通過網(wǎng)格搜索確定。從圖中可見,所提基于自遷移的權(quán)重初始化方法的預(yù)測(cè)誤差更小。

    在知識(shí)遷移階段,因?yàn)樗屑訜釁^(qū)都在同一個(gè)爐內(nèi),各加熱區(qū)受所有控制變量的影響,所以各區(qū)有很高的相似性。因此本文采用GAN作為域自適應(yīng)網(wǎng)絡(luò):采用三層Dense層作為判別器,第二層和第三層之間采用dropout防止過擬合,前兩層用ReLU作為激活函數(shù),因?yàn)榕袆e器做二分類,所以用sigmoid作為最后一層的激活函數(shù)。文獻(xiàn)[25]提出一種基于雙向長(zhǎng)短期記憶(Bi-directional Long Short-Term Memory, BiLSTM)網(wǎng)絡(luò)的遷移學(xué)習(xí)方法來提升空氣質(zhì)量預(yù)測(cè)結(jié)果,本文也建立了基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的遷移學(xué)習(xí)(Bi-directional Long Short-Term Memory-Transfer Learning, BiLSTM-TL)方法預(yù)測(cè)加熱爐溫度用于對(duì)比。本文所采用的遷移學(xué)習(xí)爐溫預(yù)測(cè)方法和與未采用遷移學(xué)習(xí)預(yù)測(cè)結(jié)果的比較如表1所示。從表中可見,所提基于自遷移學(xué)習(xí)的權(quán)重初始化方法的性能優(yōu)于初始的TCN,同時(shí)提出的基于遷移學(xué)習(xí)的爐溫預(yù)測(cè)方法有效解決了部分加熱區(qū)預(yù)測(cè)誤差過大的問題,大大降低了預(yù)測(cè)誤差。10個(gè)加熱區(qū)的一致性結(jié)果表明所提方法是有效的。

    表1 不同模型在目標(biāo)域的得分

    續(xù)表1

    圖9所示為3個(gè)不同加熱段爐溫預(yù)測(cè)結(jié)果對(duì)比圖,對(duì)比模型為所提模型與表1其余模型中誤差最低的模型,即經(jīng)過自遷移優(yōu)化后的TCN模型。從圖中可以明顯看出,相比于單個(gè)模型預(yù)測(cè),所提遷移學(xué)習(xí)框架可以明顯提升預(yù)測(cè)精度,解決爐溫預(yù)測(cè)中因神經(jīng)網(wǎng)絡(luò)外推性不強(qiáng)而造成的預(yù)測(cè)誤差較大的問題。

    4.4 基于多任務(wù)學(xué)習(xí)的蒸餾網(wǎng)絡(luò)預(yù)測(cè)結(jié)果

    實(shí)際生產(chǎn)過程需要模型迅速響應(yīng),而深層模型反饋速度慢,因此提出TL-KD結(jié)構(gòu)。兩個(gè)任務(wù)共享單層RNN的參數(shù),有各自的輸出層,神經(jīng)元個(gè)數(shù)設(shè)置為128,Adam作為自適應(yīng)優(yōu)化器。TL-KD要求Teacher有良好的預(yù)測(cè)結(jié)果,因此本文將遷移學(xué)習(xí)得到的目標(biāo)模型作為TL-KD的Teacher。表2所示為采用TL-KD后的Student參數(shù)、Teacher參數(shù),以及兩個(gè)單獨(dú)的任務(wù),即Student擬合soft-label和Student擬合hard-label的預(yù)測(cè)結(jié)果。從表中可見,Student網(wǎng)絡(luò)的參數(shù)明顯減少,最少減少33 344個(gè)參數(shù),最多減少95 360個(gè)參數(shù)。而且所提TL-KD主任務(wù)的誤差明顯比Student擬合hard-label進(jìn)行單任務(wù)學(xué)習(xí)的誤差更小,輔助任務(wù)的誤差也比Student擬合soft-label進(jìn)行單任務(wù)學(xué)習(xí)的誤差小。本文案例中,主任務(wù)的預(yù)測(cè)結(jié)果為網(wǎng)絡(luò)最終的輸出結(jié)果。雖然TL-KD中的Student預(yù)測(cè)結(jié)果不如Teacher預(yù)測(cè)結(jié)果,但是參數(shù)明顯減少,且與表1的其他網(wǎng)絡(luò)相比,TL-KD的預(yù)測(cè)誤差更低。除此之外,表3所示為用于結(jié)果對(duì)比的TL-KD與其他網(wǎng)絡(luò)的參數(shù)數(shù)目,可見TL-KD的參數(shù)數(shù)目明顯減少。以上分析更加直觀的表示如圖10所示,圖10a的縱坐標(biāo)為預(yù)測(cè)模型的各評(píng)價(jià)指標(biāo)得分,圖10b的縱坐標(biāo)為預(yù)測(cè)模型的參數(shù)量對(duì)比,參數(shù)量由特征向量的權(quán)重和偏置組成。本文選取所提TL-KD、Teacher模型和其余模型中誤差最低的模型,即基于自遷移的權(quán)重初始化優(yōu)化后的網(wǎng)絡(luò)。圖10a為3個(gè)模型的預(yù)測(cè)結(jié)果對(duì)比,可見所提TL-KD比Teacher模型誤差更高,但在大多數(shù)加熱區(qū)所提TL-KD比自遷移網(wǎng)絡(luò)誤差更低,自然比表1其余模型的誤差更低。圖10b為3個(gè)模型的參數(shù)量對(duì)比,可見相比其余網(wǎng)絡(luò),所提TL-KD的參數(shù)規(guī)模明顯下降。結(jié)合圖10a和圖10b得出,相比未采用遷移學(xué)習(xí)的模型,所提TL-KD預(yù)測(cè)精度提升的同時(shí)參數(shù)規(guī)模明顯降低,即性能最優(yōu);相比采用遷移學(xué)習(xí)的模型,所提TL-KD在預(yù)測(cè)精度下降不多的情況下參數(shù)規(guī)模大幅度降低。綜上所述,所提TL-KD更適合實(shí)際部署。

    表2 基于多任務(wù)學(xué)習(xí)的蒸餾網(wǎng)絡(luò)參數(shù)數(shù)目和輸出結(jié)果

    表3 蒸餾網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的參數(shù)數(shù)目

    5 結(jié)束語

    本文基于遷移學(xué)習(xí)和知識(shí)蒸餾開展加熱爐溫度預(yù)測(cè)研究。相比于現(xiàn)有的爐溫預(yù)測(cè)方法,本文基于遷移學(xué)習(xí)的爐溫預(yù)測(cè)方法可以明顯提升預(yù)測(cè)精度,對(duì)于不穩(wěn)定、非線性的加熱爐數(shù)據(jù),本文遷移學(xué)習(xí)框架為解決神經(jīng)網(wǎng)絡(luò)無外推問題提供了一種新的途徑。另外,本文提出的基于自遷移的權(quán)重初始化方法可以提升神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力?;谶w移學(xué)習(xí)生成的Teacher網(wǎng)絡(luò)因其低誤差性,可以為Student網(wǎng)絡(luò)提供良好的指導(dǎo),在此基礎(chǔ)上本文提出TL-KD,利用多任務(wù)學(xué)習(xí)將知識(shí)蒸餾方法用于解決回歸預(yù)測(cè)問題,且大大減少了網(wǎng)絡(luò)參數(shù),解決了深度網(wǎng)絡(luò)延遲高、時(shí)效性差的缺點(diǎn)。未來的工作將關(guān)注于進(jìn)一步提升Student網(wǎng)絡(luò)的預(yù)測(cè)精度,這也是后續(xù)工作的重點(diǎn)。

    猜你喜歡
    爐溫加熱爐卷積
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    萊鋼2#1880m3高爐開爐爐溫平衡實(shí)踐
    山東冶金(2019年2期)2019-05-11 09:11:58
    爐溫決策中收斂因子的算法
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    爐溫均勻性校驗(yàn)在鑄鍛企業(yè)的應(yīng)用
    基于信捷PLC 電熱鍋爐溫控系統(tǒng)的設(shè)計(jì)
    電子制作(2017年13期)2017-12-15 09:00:24
    便攜無火加熱爐
    加熱爐富氧推火與引火燃燒的火焰變化規(guī)律分析
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
    定陶县| 炎陵县| 延吉市| 晋中市| 滁州市| 旬邑县| 师宗县| 罗平县| 宣汉县| 武汉市| 凤城市| 兴宁市| 新民市| 兰考县| 高邑县| 曲松县| 马关县| 孝昌县| 红河县| 沐川县| 化州市| 静宁县| 左贡县| 沛县| 会宁县| 崇左市| 德安县| 平原县| 洪湖市| 宝山区| 甘肃省| 龙里县| 青河县| 威远县| 嘉兴市| 视频| 塔城市| 来安县| 南皮县| 常山县| 东台市|