基于靈敏度分析與增強(qiáng)捕食-食餌優(yōu)化的重介質(zhì)選煤過程動(dòng)態(tài)模型

2021-10-30 04:18:26王光輝馬小平

煤炭學(xué)報(bào) 2021年9期

王光輝，彭勇，代偉，董良，馬小平

(1.中國礦業(yè)大學(xué) 化工學(xué)院，江蘇徐州 221116; 2.中國礦業(yè)大學(xué) 地下空間智能控制教育部工程研究中心，江蘇徐州 221116; 3.中國礦業(yè)大學(xué) 信息與控制工程學(xué)院，江蘇徐州 221116)

重介質(zhì)選煤是常用的煤炭洗選工藝之一，其是將密度介于精煤和矸石之間的重介質(zhì)懸浮液和原煤混合后送入重介質(zhì)旋流器，在離心力和重力的作用下實(shí)現(xiàn)精煤和矸石的分離。重介質(zhì)旋流器因分選精度高、分選密度調(diào)節(jié)范圍寬、適應(yīng)能力強(qiáng)等特點(diǎn)，在選煤工藝中廣泛使用[1-2]。

先進(jìn)控制是提升重介質(zhì)選煤效率和穩(wěn)定性的重要手段之一，其實(shí)現(xiàn)往往需要依托過程動(dòng)態(tài)數(shù)學(xué)模型，因此重介質(zhì)選煤過程模型的研究一直是礦物分選領(lǐng)域的重要研究內(nèi)容之一?，F(xiàn)有的研究成果主要研究集中在靜態(tài)模型、流體力學(xué)模型、數(shù)據(jù)驅(qū)動(dòng)模型、質(zhì)量守恒模型等。如文獻(xiàn)[3]通過多項(xiàng)方程式擬合實(shí)驗(yàn)數(shù)據(jù)法的方法，建立了一種將配分因子作為相對(duì)密度和礦石粒度函數(shù)的重介質(zhì)選煤靜態(tài)模型。文獻(xiàn)[4]采用同樣的建模與策略構(gòu)建了一種能夠表示分選效率的靜態(tài)模型。然而靜態(tài)模型僅能用于工藝設(shè)計(jì)與優(yōu)化，難以基于此設(shè)計(jì)閉環(huán)控制控制系統(tǒng)。文獻(xiàn)[5]通過使用Fluent等軟件求解Navier-Stokes方程建立了重介質(zhì)旋流器的計(jì)算機(jī)流體動(dòng)力學(xué)(Computational Fluid Dynamics,CFD)模型。文獻(xiàn)[6-8]將CFD法與離散元法相結(jié)合，建立了煤粒在重介質(zhì)旋流器中的動(dòng)態(tài)模型，但CFD模型過于復(fù)雜而難以用于控制器設(shè)計(jì)[9]。當(dāng)前，數(shù)據(jù)驅(qū)動(dòng)建模方法由于較少依賴先驗(yàn)知識(shí)，難以機(jī)理建?；蛉狈C(jī)理知識(shí)的復(fù)雜工業(yè)過程中被廣泛使用。文獻(xiàn)[10]采用機(jī)器學(xué)習(xí)模型，建立了基于變塊寬增量隨機(jī)配置網(wǎng)絡(luò)的精煤灰分模型。文獻(xiàn)[11]針對(duì)重介質(zhì)選煤過程動(dòng)態(tài)時(shí)變與精煤灰分?jǐn)?shù)據(jù)稀缺感知的問題，提出了基于在線自適應(yīng)半監(jiān)督學(xué)習(xí)的精煤灰分模型。但上述基于機(jī)器學(xué)習(xí)方法的數(shù)據(jù)驅(qū)動(dòng)模型是在模型輸入特征空間映射到復(fù)雜高維非線性特征空間基礎(chǔ)上，再進(jìn)行回歸計(jì)算，模型結(jié)構(gòu)相對(duì)復(fù)雜，無法直接用于控制器設(shè)計(jì)。

質(zhì)量平衡模型是一種描述原料投入、產(chǎn)量與損耗之間關(guān)系的機(jī)理模型，文獻(xiàn)[12]基于礦漿中各物料的質(zhì)量平衡關(guān)系，建立了重介質(zhì)選煤動(dòng)態(tài)模型，被用于設(shè)計(jì)了重介質(zhì)選煤過程模型預(yù)測控制器與自適應(yīng)控制器[13-14]。但所建立的質(zhì)量平衡模型對(duì)不確定的模型參數(shù)，主要是依靠經(jīng)驗(yàn)或?qū)嶒?yàn)試湊來獲得，難以精確描述實(shí)際動(dòng)態(tài)過程，給實(shí)際控制系統(tǒng)的設(shè)計(jì)帶來難題。因此，重介質(zhì)選煤過程控制系統(tǒng)性能的提高迫切需要進(jìn)一步開展模型參數(shù)的優(yōu)化方法研究，以提高模型質(zhì)量。

受這一問題驅(qū)動(dòng)，筆者致力于采用捕食-食餌優(yōu)化(Prey-Predator Optimization,PPO)算法[15]對(duì)重介質(zhì)選煤過程動(dòng)態(tài)模型參數(shù)進(jìn)行優(yōu)化。PPO是一種新型元啟發(fā)式優(yōu)化算法，相較于傳統(tǒng)算法，具有收斂速度快、對(duì)最優(yōu)值敏感等優(yōu)點(diǎn)。在PPO算法框架中，搜索步長是決定對(duì)最優(yōu)值搜索程度的重要因素，傳統(tǒng)方法將Best Prey以恒定的搜索步長對(duì)最優(yōu)值進(jìn)行搜索。此時(shí)，如果搜索步長過小將導(dǎo)致收斂過慢，過大則可能導(dǎo)致在臨近最優(yōu)解時(shí)被跳過，從而陷入局部最優(yōu)。文獻(xiàn)[16]根據(jù)判斷Prey與最優(yōu)值之間的距離來選擇步長，可快速調(diào)整2者之間距離，達(dá)到快速收斂的目的，但依然需要依托在人為設(shè)定步長的基礎(chǔ)上;文獻(xiàn)[17]利用遞減函數(shù)來實(shí)現(xiàn)搜索步長隨迭代的自適應(yīng)變小，但搜索步長只能機(jī)械性變小，無法自適應(yīng)調(diào)整算法的搜索能力。

為此，筆者應(yīng)用增強(qiáng)學(xué)習(xí)思想，提出增強(qiáng)PPO(Reinforcement PPO,RPPO)算法，主要思想是，搜索個(gè)體利用神經(jīng)網(wǎng)絡(luò)將自身的狀態(tài)信息映射到動(dòng)作集合，通過動(dòng)作來控制搜索步長的增減以及網(wǎng)絡(luò)權(quán)重的更新，從而使優(yōu)化模型中搜索個(gè)體通過不斷學(xué)習(xí)自身歷史信息來選擇模型參數(shù)，建立數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化模型參數(shù)自適應(yīng)調(diào)整策略，最終提高優(yōu)化性能。此外，充分考慮機(jī)理模型參數(shù)眾多，難以對(duì)模型參數(shù)直接進(jìn)行優(yōu)化的難題，采用了低差異的Sobol’序列與基于方差的Sobol’參數(shù)靈敏分析相結(jié)合的方法[18]，分析了在建模過程中產(chǎn)生的不確定性參數(shù)對(duì)精煤中灰分含量的影響，確定各參數(shù)對(duì)模型輸出的重要性，進(jìn)而對(duì)這些“重要的”模型采用RPPO算法進(jìn)行尋優(yōu)。通過與其他傳統(tǒng)啟發(fā)式優(yōu)化算法進(jìn)行對(duì)比，分析了所提算法的性能;且采用實(shí)際數(shù)據(jù)驗(yàn)證了所提模型的準(zhǔn)確性。

1 重介質(zhì)選煤過程與動(dòng)態(tài)模型

1.1 重介質(zhì)選煤過程描述

典型的重介質(zhì)選煤過程如圖1所示[19]，經(jīng)過篩選加工的原煤和由合格介質(zhì)桶傳輸出的密度適中的重介質(zhì)懸浮液共同加入混料桶中。經(jīng)充分混合后，礦漿由礦漿泵打入到重介質(zhì)旋流器，在離心力和重力的作用下，密度小于重介質(zhì)懸浮液的煤礦在重介質(zhì)旋流器上方聚集，相反，密度大于重介質(zhì)懸浮液的礦物雜質(zhì)由重介質(zhì)旋流器底流口流出。重介質(zhì)旋流器的溢流和底流經(jīng)脫水脫介處理后，分別形成精煤和尾礦，送下一道工序;脫水脫介篩將殘余的介質(zhì)溶液送入磁選機(jī)中進(jìn)行回收;從磁選機(jī)回收的介質(zhì)與從高濃介質(zhì)桶中的高濃度介質(zhì)、稀釋水以一定比例共同加入合格介質(zhì)桶中，經(jīng)過混合后進(jìn)行再次工藝循環(huán)。

圖1 重介質(zhì)選煤過程工藝流程Fig.1 Flow diagram of classical dense medium coal separation process

1.2 重介質(zhì)選煤動(dòng)態(tài)模型

重介質(zhì)選煤過程主要分為礦漿混合、重介質(zhì)分選以及重介質(zhì)回收3個(gè)動(dòng)態(tài)過程。

1.2.1混合過程模型

原煤經(jīng)過破碎等工藝后，與來自合格介質(zhì)桶傳輸?shù)闹亟橘|(zhì)懸浮液在混料桶中進(jìn)行充分混合。由質(zhì)量平衡定理可得混合過程模型為

(1)

(2)

(3)

Wi=Qmbρmb

(4)

1.2.2重介質(zhì)分選過程模型

從混料桶中流出的混合礦漿送入重介質(zhì)旋流器，在離心力和重力的作用下，煤與礦物雜質(zhì)分別在底流和溢流礦漿中被排出，根據(jù)質(zhì)量平衡定理可建立如下的重介質(zhì)分選過程模型:

ρm)xi.ash]-xu,c[Wi-Qoρo-KoVo(ρo-ρm)xi,C]-

Ku,cVuρu(ρc-ρm)(xi,c-xu,c)}

(5)

ρm)xi.ash]-xu,m[Wi-Qoρo-KoVo(ρo-ρm)xi,C]-

Ku,mVuρu(ρo,m-ρm)(xi,m-xu,m)}

(6)

ρm)xi.ash]-xu,c[Wi-Qoρo-KoVo(ρo-ρm)xi,C]-

Ko,cVoρo(ρm-ρc)(xi,c-xo,c)}

(7)

ρm)xi.ash]-xu,m[Wi-Qoρo-KoVo(ρo-ρm)xi,C]-

Ko,mVuρu(ρm-ρu,m)(xi,m-xo,m)}

(8)

(9)

(10)

(11)

(12)

式中，Vc為重介質(zhì)旋流器中礦漿體積，假設(shè)其不變。

1.2.3重介質(zhì)回收過程模型

重介質(zhì)選煤過程需要通過對(duì)旋流器產(chǎn)物進(jìn)行脫介、脫水來回收磁性介質(zhì)，回收的介質(zhì)與高濃介質(zhì)在合格介質(zhì)桶中經(jīng)稀釋水按照期望的介質(zhì)濃度進(jìn)行調(diào)節(jié)。為保證模型的精確性，需考慮介質(zhì)回收中的損耗。因此假設(shè)介質(zhì)從重介質(zhì)旋流器到磁選機(jī)的回收率為β，介質(zhì)從磁選機(jī)到合格介質(zhì)桶的回收率為γ，磁選機(jī)出口的重介質(zhì)密度維持在ρrm，從而可建立的重介質(zhì)回收過程模型為

磁選機(jī)可回收到的介質(zhì)質(zhì)量mm:

(13)

磁選機(jī)可回收到的介質(zhì)體積流量Qrm:

(14)

合格介質(zhì)桶內(nèi)部動(dòng)態(tài)模型:

(15)

(16)

(17)

其中，Qmm，ρmm分別為高濃介質(zhì)的體積流量及密度;Vcor為重介質(zhì)溶液在合格介質(zhì)桶中的體積;Qw為稀釋水的體積流量;ΔP，Cw和lw分別為閥門系數(shù)、閥門開度和閥門壓差。

在上述動(dòng)態(tài)模型中，待確定的模型參數(shù)有α，Ku，Ko，Ku,ash，Ko,ash等13個(gè)，實(shí)際過程中難以直接測量。由模型可以看出，對(duì)上述參數(shù)進(jìn)行優(yōu)化，是一個(gè)復(fù)雜的非線性優(yōu)化問題，啟發(fā)式優(yōu)化算法是解決這一問題的有效方法。然而，過多的模型參數(shù)會(huì)大大增加優(yōu)化算法的復(fù)雜性和難度。實(shí)際上，模型輸出可能僅對(duì)一部分參數(shù)敏感，其它參數(shù)對(duì)模型品質(zhì)不起決定性作用。因此，可通過參數(shù)靈敏度分析來確定模型參數(shù)的“重要性”，然后只對(duì)“重要的”模型參數(shù)進(jìn)行尋優(yōu)，大大簡化計(jì)算負(fù)荷，并有利于最優(yōu)值的求解[20]。

2 基于參數(shù)靈敏度與增強(qiáng)捕食-食餌的模型參數(shù)優(yōu)化

2.1 參數(shù)靈敏度分析

參數(shù)靈敏度分析研究了機(jī)理模型輸出的變化如何歸因于其輸入?yún)?shù)的變化。從參數(shù)變化范圍的角度可將靈敏度分析方法分成局部靈敏度分析和全局靈敏度分析方法。局部靈敏度只能在參數(shù)范圍內(nèi)進(jìn)行小范圍靈敏度分析，難以應(yīng)用在非線性模型中;而全局靈敏度分析則考慮了參數(shù)在整個(gè)取值范圍內(nèi)的變化。同時(shí)，考慮到重介質(zhì)選煤過程動(dòng)態(tài)模型具有強(qiáng)非線性、不確定性參數(shù)多等特點(diǎn)，一般的局部靈敏度分析方法難以用于對(duì)此模型的分析，而Sobol’靈敏分析方法作為一種單次可處理多輸入變量的全局靈敏度分析方法，與重介質(zhì)選煤過程動(dòng)態(tài)模型特點(diǎn)十分契合。因此，文本采用基于方差的Sobol’參數(shù)靈敏度方法對(duì)上述重介質(zhì)選煤過程動(dòng)態(tài)模型參數(shù)進(jìn)行靈敏度分析。

首先在各個(gè)模型參數(shù)允許的取值范圍內(nèi)進(jìn)行采樣，并求得模型輸出，將模型輸出的方差歸因于某些參數(shù)或某些參數(shù)的集合，對(duì)模型輸出的影響大小定義為模型靈敏度。

Sobol’方法定義只含各參數(shù)或各階參數(shù)集合的模型輸出偏方差與模型輸出總方差的比值為各參數(shù)以及參數(shù)之間的靈敏度:

(18)

其中，1≤i1<…

(19)

其中，S下標(biāo)的個(gè)數(shù)為靈敏度的階數(shù)，如Si為一階靈敏度，用于估計(jì)單獨(dú)參數(shù)i對(duì)模型輸出的影響;Sij為二階靈敏度，表示參數(shù)i，j之間的組合對(duì)模型輸出的影響;S12…d為d階靈敏度，用于計(jì)算不同參數(shù)組合對(duì)模型輸出影響。另定義參數(shù)i在f(x)中的全階靈敏度為STi=1-V-i/V，用于計(jì)算含有參數(shù)i的靈敏度總和，其中，V-i為不包含參數(shù)i的其余參數(shù)偏方差。

一般情況下,上述方差通過積分求得[21]，但由于重介質(zhì)選煤動(dòng)態(tài)模型復(fù)雜難以直接解析求得積分，因此本文基于蒙特卡羅法估計(jì)總方差和偏方差，具體步驟為:

(20)

(21)

(22)

式中，f(A)j下標(biāo)j為采樣矩陣的第j行。

式(22)用于計(jì)算某參數(shù)的全階靈敏度，以此作為模型參數(shù)的靈敏度的最終判斷依據(jù)，可確定各參數(shù)對(duì)模型的“重要性”?；诖耍瑢⑾鄬?duì)“不重要”的模型參數(shù)固定在經(jīng)驗(yàn)值，繼而采用元啟發(fā)式優(yōu)化算法對(duì)“重要的”模型參數(shù)進(jìn)行尋優(yōu)。

2.2 增強(qiáng)捕食-食餌優(yōu)化算法

本文提出的增強(qiáng)捕食-食餌優(yōu)化(Reinforcement Prey-Predator Optimization,RPPO)算法是一種基于捕食者(Predator)與食餌(Prey)之間相互作用的元啟發(fā)式算法。其首先需要定義m個(gè)可行解，{?1,?2,…,?i,…,?m}，并將每個(gè)可行解賦予生存值(Sv)，Sv可通過計(jì)算目標(biāo)函數(shù)得到，且與目標(biāo)函數(shù)性能成正比例關(guān)系。通過Sv大小做出以下分類:最小可行解稱作Predator，最大可行解稱作Best Prey，其余稱作Prey。在完成各角色分配后，Predator會(huì)追捕Prey，而Prey自然會(huì)遠(yuǎn)離Predator，而且會(huì)傾向于跟隨生存值更高且位置較近的Prey運(yùn)動(dòng)，如果不滿足跟隨概率，則只會(huì)在保證遠(yuǎn)離Predator的情況下做隨機(jī)方向運(yùn)動(dòng)。不同于Prey，Best Prey則不需要擔(dān)憂Predator的追捕，只考慮尋找更好的躲避處，即專注于對(duì)最優(yōu)解的搜索(Exploitation)即可。采用增強(qiáng)學(xué)習(xí)方法不斷尋找最優(yōu)的搜索步長，從而保證了算法的收斂速度和準(zhǔn)確性。

2.2.1更新可行解位置

(1)Best Prey

(23)

其中，ξ1∈[0,1]分布;dl為一個(gè)隨機(jī)向量;‖·‖為歐氏距離;Best Prey沿著dl方向在自身周圍采用較小的搜索步長(λmin)對(duì)最優(yōu)值進(jìn)行搜索，防止跳過最優(yōu)值。

(2)Prey

(24)

其中，ξ2,ξ3,ξ4∈[0,1]且服從均勻分布;Pf為Prey向其他Prey靠攏的概率，如果Pf≤ξ4，Prey只會(huì)沿隨機(jī)方向dr運(yùn)動(dòng)來躲避Predator;反之，Prey還會(huì)以di方向跟隨其他Prey;λmax為Prey的探索步長;根據(jù)文獻(xiàn)[15]得

(25)

在式(25)中，di由其他Prey的方向及其生存值共同決定。其中，u為比例參數(shù)，對(duì)Sv(?j)在di中的貢獻(xiàn)進(jìn)行縮放。

在式(24)中，dr為Prey躲避Predator的方向，Prey應(yīng)沿著離Predator較遠(yuǎn)的方向移動(dòng)，因此，需先做以下判斷:

(26)

dr1=‖?p.d-(?i+dr)‖

(27)

dr2=‖?p.d-(?i-dr)‖

(28)

其中，dr1，dr2為Prey分別沿著±dr方向移動(dòng)后與Predator的歐式距離。

(3)Predator

(29)

算法在運(yùn)行過程中會(huì)涉及到探索、搜索2種步長，探索步長主要是在迭代前期對(duì)可行解空間的探索，擴(kuò)大種群個(gè)體的可搜索空間;而搜索步長是在迭代后期針對(duì)可行解現(xiàn)有空間的搜索，搜索步長過大不利于對(duì)現(xiàn)有空間充分搜索，過小則需要冗余的迭代次數(shù)才能尋得最優(yōu)解，因此適當(dāng)?shù)乃阉鞑介L對(duì)算法最終尋得的最優(yōu)解起著至關(guān)重要的作用。為避免因搜索步長固定不變而導(dǎo)致算法尋優(yōu)能力不足的問題，本文采用增強(qiáng)學(xué)習(xí)的思想，用種群中的個(gè)體代表智能體，通過讓其對(duì)自身歷史經(jīng)驗(yàn)的學(xué)習(xí)來選擇動(dòng)作，依據(jù)個(gè)體采取的動(dòng)作來判斷搜索步長的變化，整個(gè)算法流程如圖2所示。

2.2.2基于增強(qiáng)學(xué)習(xí)的自適應(yīng)搜索步長

選擇Prey作為增強(qiáng)學(xué)習(xí)個(gè)體，通過設(shè)定個(gè)體的動(dòng)作、狀態(tài)及獎(jiǎng)懲機(jī)制，建立增強(qiáng)學(xué)習(xí)模型，實(shí)現(xiàn)搜索步長的自適應(yīng)調(diào)整。增強(qiáng)學(xué)習(xí)的思想是個(gè)體接收當(dāng)前狀態(tài)，并通過神經(jīng)網(wǎng)絡(luò)將狀態(tài)映射到相應(yīng)的動(dòng)作，環(huán)境根據(jù)所選動(dòng)作更新狀態(tài)，與此同時(shí)，通過獎(jiǎng)懲機(jī)制計(jì)算所采取的動(dòng)作相應(yīng)的獎(jiǎng)懲，并據(jù)此更新神經(jīng)網(wǎng)絡(luò)，逐漸獲取與環(huán)境相一致的狀態(tài)-動(dòng)作映射。本文所定義的動(dòng)作、狀態(tài)及獎(jiǎng)懲機(jī)制如下:

(1)動(dòng)作。個(gè)體設(shè)定3種動(dòng)作:步長加速、步長減速、步長不變，即

(30)

(2)狀態(tài)。個(gè)體的T個(gè)歷史狀態(tài)組成狀態(tài)集合Statet， Statet會(huì)隨著選擇動(dòng)作而產(chǎn)生相應(yīng)的變化，并由式(31)來更新。

(31)

(32)

(3)獎(jiǎng)懲機(jī)制。每次迭代中，當(dāng)個(gè)體與最優(yōu)解的距離變小時(shí)，應(yīng)當(dāng)給予獎(jiǎng)勵(lì);反之，應(yīng)當(dāng)收到懲罰:

(33)

(4)狀態(tài)-動(dòng)作映射。選用單隱含層神經(jīng)網(wǎng)絡(luò)來映射狀態(tài)與動(dòng)作之間的關(guān)系。以式(31)得到的狀態(tài)集合作為神經(jīng)網(wǎng)絡(luò)的輸入，即輸入節(jié)點(diǎn)有T個(gè);將動(dòng)作集合中的3種動(dòng)作作為3個(gè)輸出節(jié)點(diǎn)，并通過式(34)選擇將要執(zhí)行的動(dòng)作:

y=min|1-yi| 1≤i≤3

(34)

其中，y為與1距離最小的輸出節(jié)點(diǎn);yi為神經(jīng)網(wǎng)絡(luò)第i個(gè)輸出節(jié)點(diǎn)，當(dāng)i取1,2,3時(shí)，分別對(duì)應(yīng)步長加速、減速與不變3個(gè)動(dòng)作，即

(35)

本文將隱含層和輸出層的激活函數(shù)設(shè)為Sigmoid函數(shù)，隱含層到輸出層的權(quán)重更新公式:

(36)

其中，η為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率;g為隱含層的輸出;di為輸出節(jié)點(diǎn)i的期望輸出，設(shè)定當(dāng)個(gè)體受到獎(jiǎng)賞，即Feedbackt=+1時(shí)，di=1，否則為0;yi為輸出節(jié)點(diǎn)i的實(shí)際輸出。同樣，可得到輸入層到隱含層權(quán)重公式:

(37)

RPPO算法每次迭代都會(huì)先確定搜索步長，然后通過所描述方程進(jìn)行更新Best Prey，普通Prey及Predator的位置。具體描述如下:

輸入:可行解(x1,x2,…,xm)，最大迭代次數(shù)Niter，狀態(tài)向量T，步長變化因子σ，神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率η，目標(biāo)函數(shù)Fit，PPO算法參數(shù)(λmax，λmin，Pf)

(1)將可行解作為Fit的輸入，得到x的生存值Sv;

(2)初始化神經(jīng)網(wǎng)絡(luò);

(3)fort=1:Niter

按Sv從小到大對(duì)可行解排序;

利用式(29)更新Predator位置;

fori=2:m-1

根據(jù)式(24)更新Prey位置;

i=i+1;

End

根據(jù)式(23)更新Best Prey位置;

當(dāng)前所受獎(jiǎng)懲Feedbackt由式(33)計(jì)算;

利用式(36),(37)更新神經(jīng)網(wǎng)絡(luò)權(quán)重;

根據(jù)式(31)更新狀態(tài)集合;

下一代步長可由式(30)得到;

t=t+1;

End

(4)選擇Sv的可行解作為最終結(jié)果;

輸出:Best Prey的位置及生存值

3 實(shí) 驗(yàn)

精煤中灰分是決定煤炭的質(zhì)量主要因素，因此，本文主要研究對(duì)象為分選動(dòng)態(tài)過程模型中精煤灰分模型，并以其為目標(biāo)函數(shù)。在給煤量不斷變化情況下，本文將探究通過所提方法對(duì)模型參數(shù)進(jìn)行優(yōu)化后，精煤灰分模型是否能夠較好跟隨實(shí)測精煤灰分。

3.1 靈敏度分析

原煤給煤量Wore的變化情況如圖3所示;同時(shí)，根據(jù)各參數(shù)的實(shí)際物理含義[12]，并通過工藝知識(shí)或?qū)嶒?yàn)確定其取值范圍，見表1;而選煤模型運(yùn)行過程中所需設(shè)備參數(shù)值見表2。

表1 模型參數(shù)取值范圍Table 1 Range of each model parameters

表2 設(shè)備參數(shù)取值Table 2 Values of equipment parameters

圖3 原煤的給煤量變化曲線Fig.3 Curve of raw coal feed rate

在此范圍內(nèi)，利用Sobol’序列進(jìn)行采樣，以采樣所得參數(shù)集為輸入，運(yùn)行重介質(zhì)分選過程模型。通過Sobol’方法對(duì)多參數(shù)變化下的各模型進(jìn)行分析，得到各模型參數(shù)的一階靈敏度及全階靈敏度，如圖4，5所示。

圖4，5利用箱型圖表示各參數(shù)在完整工藝過程中的靈敏度變化范圍，其中，菱形為所有時(shí)刻靈敏度的均值。從圖4，5可知，雖各參數(shù)的一階靈敏度和全階靈敏度有所差別，但不影響參數(shù)“重要性”的判斷，因此文中將不考慮各參數(shù)之間的高階靈敏度。同時(shí)，本文認(rèn)定靈敏度均值大于0.05且變化范圍較大的參數(shù)為“重要”參數(shù)，需要將其進(jìn)行進(jìn)一步的參數(shù)優(yōu)化。由圖5可知重介質(zhì)分選過程模型中只有α，Ku,ash，Ko,ash符合上述要求，說明在設(shè)計(jì)重介質(zhì)回收過程模型參數(shù)時(shí)，應(yīng)考慮對(duì)這些參數(shù)進(jìn)行優(yōu)化。而對(duì)于輸出結(jié)果影響較小的參數(shù)，將通過工程經(jīng)驗(yàn)確定其近似值。

圖4 模型參數(shù)的一階靈敏度Fig.4 First-order indices of each model parameters

圖5 模型參數(shù)的全階靈敏度Fig.5 Total-effect indices of each model parameters

3.2 參數(shù)優(yōu)化

為使所建立模型能更好的描述選煤過程，本文以每一時(shí)刻模型仿真輸出與實(shí)際過程24 h測量數(shù)據(jù)之間的差距為目標(biāo)函數(shù)，整個(gè)工業(yè)過程中每一時(shí)刻的差距之和越小說明優(yōu)化所得的參數(shù)越合適，即所有差距和的倒數(shù)越大越好:

(38)

其中，F(xiàn)it為目標(biāo)函數(shù);t為模型運(yùn)行過程中的某時(shí)刻;fs為所建立的模型輸出;fm(t)為實(shí)際測量數(shù)據(jù);τ為模型運(yùn)行時(shí)間。

為驗(yàn)證RPPO在重介質(zhì)選煤模型參數(shù)優(yōu)化過程中的有效性，本文將其與PPO、遺傳算法(Genetic Algorithm,GA)[23]以及粒子群算法(Particle Swarm Optimization,PSO)[24]在相同初始條件下運(yùn)行，各算法對(duì)目標(biāo)函數(shù)的尋優(yōu)過程如圖6所示。本文根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)得出各參數(shù)取值，見表3。

表3 各算法參數(shù)設(shè)置Table 3 Parameters of each algorithm

圖6 目標(biāo)函數(shù)隨迭代次數(shù)的變化情況Fig.6 Variation of the objective function with iterations

為了避免初始條件的隨機(jī)性對(duì)實(shí)驗(yàn)結(jié)果的影響，本文采取了種群同一初始位置的方法，使得4種算法初始條件相同，并基于此初始位置進(jìn)行30次重復(fù)試驗(yàn)。圖6為某一次對(duì)比實(shí)驗(yàn)結(jié)果，其他結(jié)果類似。由圖6可看出，在開始迭代的初期，RPPO和PSO可快速將目標(biāo)函數(shù)收斂在理想最優(yōu)值附近，這說明RPPO和PSO在迭代初期可以實(shí)現(xiàn)很好的探索;結(jié)束迭代過程后，以RPPO算法的結(jié)果最為突出，說明了RPPO中Best Prey的后期搜索能力相較于其他算法有所提高。在整個(gè)尋優(yōu)過程中，個(gè)體的搜索步長變化如圖7所示，個(gè)體可根據(jù)自身的歷史信息來判斷所處搜索空間的形勢，進(jìn)而選擇不同的動(dòng)作，保證了對(duì)現(xiàn)處地形的充分搜索，可避免選擇次優(yōu)解。

圖7 搜索步長變化Fig.7 Variation diagram of exploitation step lengths

表4給出了整個(gè)24 h的實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果。從表4可看出，RPPO和PSO尋找最優(yōu)值能力相當(dāng);在平均值、最差值及標(biāo)準(zhǔn)差指標(biāo)中，RPPO和PPO表現(xiàn)較好且接近，表明這2種算法的穩(wěn)定性都較高。說明相較于其他3種算法，RPPO兼顧尋優(yōu)能力及穩(wěn)定性，因此，本文選用RPPO來進(jìn)行重介質(zhì)選煤的參數(shù)進(jìn)行優(yōu)化。

表4 4種算法統(tǒng)計(jì)結(jié)果Table 4 Statistical results of the four algorithms

為使所建立模型貼合實(shí)際工藝過程，本文基于已建立的重介質(zhì)分選過程模型，進(jìn)行了各優(yōu)化算法對(duì)比尋優(yōu)實(shí)驗(yàn)，將所得的模型參數(shù)代入重介質(zhì)分選過程模型公式得到整個(gè)工藝過程的精煤灰分，如圖8所示。其中，RPPO所優(yōu)化的模型參數(shù)為(1.389 7，6.270 0×10-4，7.934 4×10-4)。

圖8 模型仿真結(jié)果與實(shí)際測量數(shù)據(jù)對(duì)比Fig.8 Comparison curves between the simulation results and actual measurement data

為了更清楚的表明所提算法的性能，圖8給出了具有代表性的30 min內(nèi)的對(duì)比實(shí)驗(yàn)結(jié)果。從工業(yè)過程來看，由RPPO所得灰分曲線圖與實(shí)際采樣數(shù)據(jù)最為接近，PPO次之;計(jì)算得各算法(按圖例從上至下)與實(shí)測數(shù)據(jù)的均方誤差分別為0.009 3，0.004 6，0.006 6，0.004 2。圖9為不同算法優(yōu)化所得模型的誤差概率密度函數(shù)(Probability Density Function，PDF)對(duì)比圖，圖9中，各PDF曲線是以誤差的均值為中心值所得，顯然，RPPO與PPO算法的PDF曲線中心點(diǎn)更接近0，且RPPO的PDF曲線更高，與其他方法相比標(biāo)準(zhǔn)差更小;圖10為以0為中心值的各算法PDF曲線，從圖10可以看出，RPPO算法的PDF曲線最高且窄，效果明顯優(yōu)于其他算法。綜上，可得RPPO相較于傳統(tǒng)PPO及其他傳統(tǒng)算法能夠更精確的估計(jì)重介質(zhì)選煤模型參數(shù)，便于基于模型的進(jìn)一步工作展開。

圖9 不同算法建模誤差PDF對(duì)比(以均值為中心)Fig.9 PDF comparison curves of modeling errors based on mean values by different algorithms

4 結(jié) 論

(1)針對(duì)一個(gè)典型由礦漿混合、重介質(zhì)分選和重介質(zhì)回收3部分組成的重介質(zhì)選煤過程，建立基于質(zhì)量平衡重介質(zhì)選煤過程動(dòng)態(tài)數(shù)學(xué)模型。

(2)基于所建立模型，首先利用Sobol’參數(shù)靈敏度分析方法分析出“重要的”模型參數(shù)，進(jìn)而采用自適應(yīng)步長的RPPO算法進(jìn)行模型參數(shù)優(yōu)化，從而提高了重介質(zhì)選煤動(dòng)態(tài)模型精度，使其更接近真實(shí)的工業(yè)過程。

(3)從實(shí)驗(yàn)結(jié)果可以看出，本文所提的方法相較于傳統(tǒng)PPO等算法可自適應(yīng)控制步長，搜索能力有所增強(qiáng)，進(jìn)而能夠避免選擇次優(yōu)解且穩(wěn)定性高;應(yīng)用在重介質(zhì)選煤模型參數(shù)優(yōu)化中可充分發(fā)揮RPPO的優(yōu)勢，尋找到最佳的模型參數(shù)，使得模型輸出更貼合實(shí)際工業(yè)采樣數(shù)據(jù)。

(4)本文所提的靈敏度分析與增強(qiáng)捕食-食餌優(yōu)化相結(jié)合的模型參數(shù)優(yōu)化策略，不限于本文所研究的典型重介質(zhì)選煤過程模型，可推廣用于解決煤炭領(lǐng)域其他過程或裝備的建模問題。