摘要:針對車間峰值功率受限約束下的柔性作業(yè)車間調(diào)度面臨的作業(yè)周期增加、機(jī)器負(fù)荷增大的問題,建立以最小化最大完工時(shí)間和最小化機(jī)器最大負(fù)載為優(yōu)化目標(biāo)、考慮車間峰值功率約束的柔性作業(yè)車間調(diào)度問題(PPCFJSP)模型。為更好地調(diào)度決策,首先將該問題轉(zhuǎn)化為馬爾可夫決策過程,基于此設(shè)計(jì)了一個(gè)結(jié)合離線訓(xùn)練與在線調(diào)度的用于求解PPCFJSP的調(diào)度框架。然后設(shè)計(jì)了一種基于優(yōu)先級經(jīng)驗(yàn)重放的雙重決斗深度Q網(wǎng)絡(luò)(D3QNPER)算法,并設(shè)計(jì)了一種引入噪聲的ε-貪婪遞減策略,提高了算法收斂速度,進(jìn)一步提高了求解能力和求解結(jié)果的穩(wěn)定性。最后開展實(shí)驗(yàn)與算法對比研究,驗(yàn)證了模型和算法的有效性。
關(guān)鍵詞:柔性作業(yè)車間調(diào)度;馬爾可夫決策過程;深度強(qiáng)化學(xué)習(xí);峰值功率受限
中圖分類號:TH165;TP18
Research on Flexible Job-shop Scheduling Considering Constraints of Peak Power Constrained
LI Yibing1,2 CAO Yan1 GUO Jun1,2* WANG Lei1,2 LI Xixing3 SUN Libo4
1.School of Mechanical and Electronic Engineering,Wuhan University of Technology,Wuhan,430070
2.Hubei Key Laboratory of Digital Manufacturing,Wuhan University of Technology,Wuhan,430070
3.School of Mechanical Engineering,Hubei University of Technology,Wuhan,430068
4.Tianjin Cement Industry Design amp; Research Institute Co.,Ltd.,Tianjin,300400
Abstract: Peak power constrained flexible job shop scheduling problem(PPCFJSP) model was established to address the challenges of increased work cycles and increased machine load in flexible job shop scheduling under the constraints of peak power in the workshops. The optimization objectives were to minimize the maximum completion time and the maximum machine loads, taking into account the constraints of peak power in the workshops. For better scheduling decisions, firstly, the problem was transformed into a Markov decision process, then, a scheduling framework combining offline training and online scheduling was designed for solving PPCFJSP. Secondly, a double dueling deep q-network based on priority experience replay(D3QNPER) algorithm was designed based on priority experience replay, and a ε- greedy descent strategy introducing noise was designed to improve the convergence speed of the algorithm, further enhance the solving ability and stability of the solution results. Finally, experimental and algorithmic comparative studies were conducted to verify the effectiveness of the model and algorithm.
Key words: flexible job shop scheduling; Markov decision process; deep reinforcement learning; peak power constrained
0 引言
在當(dāng)今全球氣候變化和環(huán)境保護(hù)的背景下,“雙碳”戰(zhàn)略已成為國家發(fā)展戰(zhàn)略的重要組成部分。隨著“雙碳”戰(zhàn)略的深入實(shí)施,各地區(qū)開始逐步推行“雙控”政策,即對能耗總量和能耗強(qiáng)度進(jìn)行雙重控制,以實(shí)現(xiàn)節(jié)能降耗和減排目標(biāo)。這些政策措施對高耗能行業(yè)產(chǎn)生了深遠(yuǎn)影響,近年我國多地發(fā)布迎峰度夏冬有序用電指導(dǎo)方案,限電措施也從化工、冶金行業(yè)轉(zhuǎn)向全體商業(yè)、工業(yè),限電限產(chǎn)已成為一些地區(qū)常見的現(xiàn)象。企業(yè)在面臨停電限荷的情況下,如何優(yōu)化生產(chǎn)調(diào)度以應(yīng)對突發(fā)的電力供應(yīng)問題,成為企業(yè)管理者必須面對的新問題。管理者需要快速作出調(diào)整生產(chǎn)計(jì)劃的決策,這不僅要求調(diào)度決策能夠迅速響應(yīng)變化,還需要對生產(chǎn)過程有深入的理解和預(yù)測。同時(shí),停電導(dǎo)致的作業(yè)周期增加問題也不容忽視。由于電力供應(yīng)不穩(wěn)定,企業(yè)可能不得不延長某些產(chǎn)品的生產(chǎn)周期,這直接影響到交貨期和客戶滿意度。此外,由于用電功率限制,車間中全部機(jī)器無法同時(shí)作業(yè),導(dǎo)致個(gè)別機(jī)器的負(fù)荷增大,會(huì)導(dǎo)致機(jī)器過度磨損甚至故障,增加了維護(hù)成本和生產(chǎn)風(fēng)險(xiǎn),故設(shè)計(jì)一種高效、穩(wěn)定、泛化能力強(qiáng)的車間調(diào)度方法具有緊迫性和現(xiàn)實(shí)意義。
隨著機(jī)器學(xué)習(xí)技術(shù)的不斷進(jìn)步,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)將深度學(xué)習(xí)的表征學(xué)習(xí)能力與強(qiáng)化學(xué)習(xí)的決策求解能力相結(jié)合,使得強(qiáng)化學(xué)習(xí)技術(shù)逐漸變得實(shí)用化。為了更好地作出決策,DRL算法被應(yīng)用在多種組合優(yōu)化問題的求解中,并在車間調(diào)度領(lǐng)域展現(xiàn)出色的性能[1-2],而且DRL彌補(bǔ)了整數(shù)規(guī)劃、基于規(guī)則和元啟發(fā)式方法無法利用歷史學(xué)習(xí)經(jīng)驗(yàn)預(yù)測調(diào)度決策的不足。在處理決策響應(yīng)及預(yù)測問題和完工時(shí)間與機(jī)器負(fù)荷平衡問題上,黎聲益等[3]提出了一種面向設(shè)備負(fù)荷穩(wěn)定的智能車間調(diào)度方法,利用Double DQN解決半導(dǎo)體車間動(dòng)態(tài)事件下設(shè)備負(fù)荷的穩(wěn)定調(diào)度。賀俊杰等[4]以加權(quán)完工時(shí)間和為目標(biāo),提出了一種基于長短期記憶近端策略優(yōu)化(proximal policy optimization with long short-term memory, LSTM-PPO)強(qiáng)化學(xué)習(xí)的在線調(diào)度方法,通過設(shè)計(jì)融合LSTM的智能體記錄車間的歷史狀態(tài)變化和調(diào)度策略,實(shí)現(xiàn)了智能體根據(jù)狀態(tài)信息進(jìn)行在線調(diào)度。LIU等[5]和LI等[6]分別提出了基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)柔性車間調(diào)度方法,用于處理不確定性和限制資源的情況,取得了良好的性能。WU等[7]采用深度強(qiáng)化學(xué)習(xí)方法解決了過程規(guī)劃中的動(dòng)態(tài)加工資源調(diào)度問題,通過蒙特卡羅方法和深度學(xué)習(xí)算法評估和改進(jìn)了過程策略。LEE等[8]和HE等[9]提出了基于多智能體強(qiáng)化學(xué)習(xí)的紡織制造和半導(dǎo)體制造過程優(yōu)化方法,通過引入深度Q網(wǎng)絡(luò)和多智能體學(xué)習(xí)實(shí)現(xiàn)了多目標(biāo)優(yōu)化。郭具濤等[10]提出了一種基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的調(diào)度方法用于求解混流裝配線的平衡與排序問題,實(shí)現(xiàn)了復(fù)合規(guī)則權(quán)值參數(shù)的調(diào)控優(yōu)化。劉亞輝等[11]解決了航天結(jié)構(gòu)件生產(chǎn)過程中柔性作業(yè)車間面臨的動(dòng)態(tài)調(diào)度問題,提出了感知認(rèn)知雙系統(tǒng)驅(qū)動(dòng)的雙環(huán)深度Q網(wǎng)絡(luò)方法,通過感知和認(rèn)知系統(tǒng)提高了調(diào)度決策對知識圖譜的利用。ZHANG等[12]提出了一種基于多代理圖的深度強(qiáng)化學(xué)習(xí)的柔性作業(yè)車間調(diào)度模型(deep reinforcement learning with multi-agent graphs,DeepMAG),通過將不同的智能體關(guān)聯(lián)到每臺機(jī)器和作業(yè),將DRL與多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning, MARL)集成在一起共同作用完成決策。GUI等[13]針對動(dòng)態(tài)柔性車間調(diào)度問題,提出了一種具有復(fù)合調(diào)度動(dòng)作的馬爾可夫決策過程,設(shè)計(jì)了由單個(gè)調(diào)度規(guī)則和連續(xù)權(quán)重變量聚合的復(fù)合調(diào)度動(dòng)作,以提供連續(xù)的規(guī)則空間和單一調(diào)度規(guī)則權(quán)重選擇。ZHANG等[14]針對機(jī)器加工時(shí)間不確定的動(dòng)態(tài)柔性作業(yè)車間調(diào)度問題,采用近端策略優(yōu)化算法對模型進(jìn)行求解,使用處理信息矩陣作為網(wǎng)絡(luò)輸入,通過圖神經(jīng)網(wǎng)絡(luò)將一些高級狀態(tài)嵌入車間中,使得智能體能夠?qū)W習(xí)環(huán)境的完整狀態(tài)。由此可見,DRL算法在不同領(lǐng)域的調(diào)度問題中得到了廣泛應(yīng)用,展現(xiàn)了出色的性能,使得歷史學(xué)習(xí)經(jīng)驗(yàn)得到充分利用,應(yīng)用DRL的車間調(diào)度領(lǐng)域也在不斷擴(kuò)大。
近年來,越來越多的研究人員也將DRL用于處理考慮能耗約束的柔性作業(yè)車間調(diào)度。例如,何彥等[15]針對車間調(diào)度中柔性工藝路線對調(diào)度能耗的影響特性,使用改進(jìn)的Q學(xué)習(xí)算法求解節(jié)能調(diào)度模型并得到Pareto解。DU等[16]設(shè)計(jì)了12個(gè)狀態(tài)特征和7個(gè)動(dòng)作來描述調(diào)度過程中的特征,使用DQN算法對具有起重機(jī)運(yùn)輸和安裝時(shí)間的柔性作業(yè)車間調(diào)度問題(multiobjective FJSP with crane transportation and setup times,F(xiàn)JSP-CS)進(jìn)行了有效求解,對完工時(shí)間和能耗進(jìn)行了同時(shí)優(yōu)化。NAIMI等[17]提出了一種結(jié)合能量和生產(chǎn)率目標(biāo)的機(jī)器故障環(huán)境下柔性作業(yè)車間問題的Q學(xué)習(xí)重調(diào)度方法,使得系統(tǒng)能夠?qū)σ馔馐录鞒隹焖俜磻?yīng),實(shí)現(xiàn)了對制造跨度和能耗變化的同步優(yōu)化。LI等[18]在求解具有2型模糊處理時(shí)間的FJSP(energy-efficient FJSP with type-2 processing time, ET2FJSP)時(shí),為了更好地模擬綠色柔性車間調(diào)度實(shí)際生產(chǎn),設(shè)計(jì)了一種基于學(xué)習(xí)的參考向量模因算法(learning-based reference vector memetic algorithm, LRVMA),實(shí)現(xiàn)了對時(shí)間約束的不確定性預(yù)測。
當(dāng)前,針對具有能耗約束的柔性作業(yè)調(diào)度問題,相關(guān)研究多將總能耗或總成本作為目標(biāo)函數(shù),這樣可以得到總能耗或總成本與完工時(shí)間的“最優(yōu)前沿解”。然而,在當(dāng)前迎峰度夏冬有序用電各類管理措施中一般以用電負(fù)荷(即總功率)來對能耗進(jìn)行描述。一旦執(zhí)行限電要求,如果仍以此前研究中的總能耗作為約束,便無法應(yīng)對峰值功率受限的情形,會(huì)導(dǎo)致車間功率峰值居高不下、執(zhí)行限電要求不力,企業(yè)面臨更大損失,因此,對于考慮峰值功率約束的生產(chǎn)調(diào)度問題,還需要進(jìn)一步研究和關(guān)注。為了在峰值功率約束條件下優(yōu)化生產(chǎn)效率,提高決策響應(yīng)能力,本文提出了一種考慮峰值功率受限的柔性作業(yè)車間調(diào)度問題(peak power constrained flexible job shop scheduling problem,PPCFJSP)模型,主要研究內(nèi)容包括:①建立了一個(gè)基于馬爾可夫決策過程的符合當(dāng)前產(chǎn)業(yè)環(huán)境需求的峰值功率受限柔性車間調(diào)度問題模型,設(shè)計(jì)了一個(gè)用于求解PPCFJSP的DRL調(diào)度框架。②設(shè)計(jì)了一種結(jié)合離線訓(xùn)練與在線調(diào)度的基于優(yōu)先級經(jīng)驗(yàn)重放的雙重決斗深度Q網(wǎng)絡(luò)(double dueling deep q-network based on priority experience replay,D3QNPER)算法,用來求解PPCFJSP模型。同時(shí),設(shè)計(jì)了一種引入噪聲的ε-貪婪遞減策略,提高了算法收斂速度,進(jìn)一步提高了求解能力和求解結(jié)果的穩(wěn)定性。③進(jìn)行仿真實(shí)驗(yàn)分析,與不同調(diào)度規(guī)則和深度強(qiáng)化學(xué)習(xí)算法進(jìn)行對比,用實(shí)驗(yàn)結(jié)果來證明本文算法的有效性。
1 問題描述及數(shù)學(xué)模型
本文提出的PPCFJSP模型主要研究n個(gè)工件在設(shè)有用電負(fù)荷上限的車間m臺機(jī)器上加工,每個(gè)工件均有多道工序,同一工件的各道工序的先后關(guān)系不能發(fā)生改變。同時(shí),還需要滿足以下約束:①某一時(shí)刻一個(gè)工件只能有一道工序被加工;②工件的任一工序在同一時(shí)刻只能被一臺機(jī)器加工;③車間存在峰值功率限制,在任一時(shí)刻運(yùn)行設(shè)備疊加功率不能超過峰值功率限制;④任一工件的工序在加工過程中不能被中斷;⑤認(rèn)為車間中各機(jī)器的加工功率不隨外部條件變化。
由于加工所需的最大完工時(shí)間和機(jī)器負(fù)載情況均會(huì)隨機(jī)器的選擇而變化,同時(shí)考慮到車間設(shè)有用電峰值功率上限,還會(huì)導(dǎo)致車間中個(gè)別功率小的機(jī)器負(fù)載情況加重,影響機(jī)器使用壽命,故本文以考慮車間功率峰值約束時(shí)最小化最大完工時(shí)間和最小化機(jī)器的最大負(fù)載為優(yōu)化目標(biāo)。本文所使用的符號定義見表1。
本文的優(yōu)化目標(biāo)有兩個(gè):一是最小化最大完工時(shí)間CT,二是最小化最大機(jī)器負(fù)載WT,即
CT=min max(Ci)(1)
WT=min maxk∈{1,2,…,m}∑ni=1∑jij=1(CijkXijk)(2)
在不考慮待機(jī)功耗且加工過程的功率不變的情況下,最小化最大機(jī)器負(fù)載可以用機(jī)器處于加工狀態(tài)的總耗時(shí)來表示。本文的輸出結(jié)果為兩個(gè)優(yōu)化目標(biāo)的Pareto前沿上取得最優(yōu)解的集合。約束條件表示如下:
Sij≥F(i-1)j(igt;1)(3)
Lijt1≠Lijt2→t1≠t2(4)
Pt=∑mk=1PWk·l(i∈1,2,…,n,
j∈1,2,…,ji:(Sijk≤tlt;Fijk))(5)
Pt≤Pu(6)
Fijk-Sijk=Tijk(7)
Ci=maxjk(Fijk)(8)
Sij,F(xiàn)ij≥0(9)
其中,式(3)表示某一時(shí)刻一個(gè)工件只能有一道工序被加工;式(4)表示工件的任一工序在同一時(shí)刻只能被一臺機(jī)器加工,Lijt1為t1時(shí)刻執(zhí)行Oij的設(shè)備編號, Lijt2為t2時(shí)刻執(zhí)行Oij的設(shè)備編號;式(5)表示t時(shí)刻的車間峰值功率,l為指示函數(shù);式(6)表示車間峰值功率不能超過限制,且待機(jī)功率忽略不計(jì);式(7)表示最大完工時(shí)間大于或等于任一工件的末道工序的完工時(shí)間;式(8)表示Ci為同一工件的Fijk中最大值;式(9)為非負(fù)性約束。
2 求解PPCFJSP問題的DRL調(diào)度框架
為了更好地求解PPCFJSP問題,本文構(gòu)建了基于馬爾可夫決策過程的深度強(qiáng)化學(xué)習(xí)DRL的調(diào)度框架,如圖1所示,主要包含三部分:調(diào)度環(huán)境層、數(shù)據(jù)處理層與測試應(yīng)用層。
在調(diào)度環(huán)境層,本文將PPCFJSP問題轉(zhuǎn)化為馬爾可夫決策過程,結(jié)合PPCFJSP問題中對峰值功率的解釋,對馬爾可夫決策過程的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)進(jìn)行了設(shè)計(jì),包括使用調(diào)度特征網(wǎng)絡(luò)矩陣表示狀態(tài),使用不同的機(jī)器分配策略和工件分配策略組成動(dòng)作空間,使用三個(gè)特征數(shù)值來指導(dǎo)獎(jiǎng)勵(lì)函數(shù)。
在數(shù)據(jù)處理層,本文設(shè)計(jì)了一種改進(jìn)的D3QNPER算法用于訓(xùn)練調(diào)度環(huán)境中生成的調(diào)度數(shù)據(jù)。該算法融合了雙重深度Q網(wǎng)絡(luò)(double deep q-network ,Double DQN)、決斗深度Q網(wǎng)絡(luò)(dueling deep q-network ,Dueling DQN)、優(yōu)先級經(jīng)驗(yàn)回放深度Q網(wǎng)絡(luò)(prioritized experience replay DQN ,PER DQN)三種深度強(qiáng)化學(xué)習(xí)算法在數(shù)據(jù)處理上的優(yōu)勢,將卷積神經(jīng)網(wǎng)絡(luò)、前饋神經(jīng)網(wǎng)絡(luò)、決斗網(wǎng)絡(luò)進(jìn)行有效結(jié)合,在探索和利用策略上設(shè)計(jì)了一種結(jié)合ε-greed和noisy-greed的探索策略。通過調(diào)度環(huán)境與數(shù)據(jù)處理的不斷迭代交互,最終得到最優(yōu)的調(diào)度策略。
在測試應(yīng)用層,對約束和優(yōu)化目標(biāo)進(jìn)行調(diào)控,使用調(diào)度環(huán)境與數(shù)據(jù)處理交互訓(xùn)練過程中得到的最優(yōu)策略代入案例,從而完成對PPCFJSP問題的求解,最終得到滿足約束、符合調(diào)度目標(biāo)的調(diào)度結(jié)果。
2.1 調(diào)度問題的馬爾可夫決策過程轉(zhuǎn)化
深度強(qiáng)化學(xué)習(xí)應(yīng)用于車間調(diào)度問題的關(guān)鍵和難點(diǎn)是將車間調(diào)度問題轉(zhuǎn)化為馬爾可夫決策過程(markov decision processes,MDP)。MDP 由一組狀態(tài)S和操作A組成,針對PPCFJSP的最小化最大完工時(shí)間與機(jī)器最大負(fù)載兩個(gè)優(yōu)化目標(biāo),本文設(shè)計(jì)了以下MDP的狀態(tài)空間表示、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)。
2.1.1 狀態(tài)空間表示
在狀態(tài)空間表示上,依據(jù)文獻(xiàn)[19]提出的表述原則,本文將調(diào)度過程需要的機(jī)器、工序、功率、加工時(shí)間等調(diào)度特征信息以網(wǎng)絡(luò)矩陣的形式作為輸入圖像的通道直接輸入深度神經(jīng)網(wǎng)絡(luò)中訓(xùn)練。每個(gè)通道包含不同的調(diào)度特征,使用卷積、池化等操作來捕捉調(diào)度問題中的空間局部性和特征關(guān)聯(lián)性,從而提高模型的表達(dá)能力和性能。
本文將作業(yè)號編碼為圖像的高度和寬度,從而保留作業(yè)之間的空間關(guān)系。在作業(yè)時(shí)間層,第1行第1列數(shù)據(jù)表示第1個(gè)工件的第1道工序,依此類推;在考慮功率限制的調(diào)度完成層,第1行第1列數(shù)據(jù)表示第1個(gè)工件的第1道工序是否在峰值功率未超限時(shí)進(jìn)行操作,依此類推;在機(jī)器利用率層,第1行第1列數(shù)據(jù)表示在當(dāng)前調(diào)度時(shí)刻第1個(gè)工件的第1道工序在作業(yè)完成后其使用的加工機(jī)器的機(jī)器利用率,其值越接近1表示該機(jī)器負(fù)載越大。以3×3調(diào)度為例,其特征狀態(tài)與狀態(tài)空間的轉(zhuǎn)化如圖2所示。圖中,圈出部分為考慮功率限制而采取的延時(shí)和更換操作,該操作將在動(dòng)作空間設(shè)計(jì)中具體說明。
以第4次調(diào)度為例,假設(shè)在執(zhí)行第4次調(diào)度前已經(jīng)完成了第1個(gè)工件的第1道工序、第2個(gè)工件的第1道工序、第3個(gè)工件的第1道工序,第4次調(diào)度選擇第3個(gè)工件的第2道工序進(jìn)行加工,根據(jù)對應(yīng)索引找到加工機(jī)器為1號的機(jī)器。因?yàn)檐囬g有峰值功率的限制,此時(shí)發(fā)現(xiàn)不能直接安排生產(chǎn)作業(yè),需要采取一定的措施避免峰值功率超限后再安排生產(chǎn)。為此延時(shí)實(shí)行1個(gè)時(shí)間單位,于是得到第4次調(diào)度的結(jié)束時(shí)刻為8。調(diào)整后,在考慮功率限制的調(diào)度完成層中將第3個(gè)工件的第2道工序?qū)?yīng)位置設(shè)置為1,表示已完成該工序。由于沒有采用更換操作,此時(shí)1號機(jī)器利用率為加工狀態(tài)總用時(shí)/機(jī)器開機(jī)時(shí)間,即(3+4)/(3+4+1)=0.875,其他機(jī)器的利用率均為0.5。
2.1.2 動(dòng)作空間設(shè)計(jì)
相較于常規(guī)柔性作業(yè)車間調(diào)度問題,由于考慮了峰值功率約束,故還需要對動(dòng)作的合法性進(jìn)行判斷。一般情況下,認(rèn)定選定操作執(zhí)行后會(huì)引起車間峰值功率超過上限的操作為非法操作。假設(shè)某車間有6臺加工機(jī)器,加工機(jī)器功率PWk∈{3, 2, 3, 2.4, 1.8, 3},單位為kW,當(dāng)車間沒有用電負(fù)荷約束時(shí),車間各類加工機(jī)器的車間峰值功率為15.2 kW且可以同時(shí)工作;而當(dāng)企業(yè)收到限電限產(chǎn)通知,如要求企業(yè)用電負(fù)荷降為原來車間峰值功率的一半(即7.6 kW)時(shí),生產(chǎn)運(yùn)作安排就要考慮設(shè)備的用電負(fù)荷,否則極易出現(xiàn)用電負(fù)荷超限而導(dǎo)致斷電停產(chǎn)或設(shè)備供電不足等問題,例如當(dāng)車間中已開啟第1、2號機(jī)器時(shí),如果再選擇第3號機(jī)器,那么就會(huì)導(dǎo)致車間峰值功率超限,此時(shí)選擇第3號機(jī)器進(jìn)行加工的操作定義為非法操作。為此,本文設(shè)計(jì)了兩種處理操作來避免非法動(dòng)作的產(chǎn)生,即延時(shí)操作和更換操作。
延時(shí)操作,即在選定非法動(dòng)作后,將該操作延時(shí)到最早滿足峰值功率限制的時(shí)刻執(zhí)行,其操作如圖3所示。當(dāng)執(zhí)行選定動(dòng)作后,反饋的調(diào)度決策為工件1的第1道工序在機(jī)器2上加工,此時(shí)由于存在功率限制,導(dǎo)致該動(dòng)作執(zhí)行后會(huì)使車間峰值功率超限。若沒有可以替換的柔性執(zhí)行機(jī)器,此時(shí)便需要采用延時(shí)操作來執(zhí)行,延時(shí)至最早可執(zhí)行操作的時(shí)刻,即工件3第1道工序的結(jié)束時(shí)刻t1。
更換操作,即在選定非法動(dòng)作后,由于該工序的加工機(jī)器具有柔性,可以選擇其他能夠滿足峰值功率限制的機(jī)器來執(zhí)行,其操作如圖4所示。當(dāng)執(zhí)行選定動(dòng)作后,反饋的調(diào)度決策為工件3的第2道工序在機(jī)器1上加工,此時(shí)由于存在功率限制,導(dǎo)致該動(dòng)作執(zhí)行后會(huì)使車間峰值功率超限。假設(shè)此時(shí)有可以替換的柔性執(zhí)行機(jī)器3且替換后不會(huì)導(dǎo)致車間峰值功率超限,便采用更換操作來執(zhí)行,更換機(jī)器3作為可執(zhí)行操作的機(jī)器。
此外,為更好地求解PPCFJSP問題的調(diào)度過程,包括以下5種機(jī)器分配策略、18種工件分配規(guī)則,與兩種非法動(dòng)作處理操作共同構(gòu)成動(dòng)作空間。其中,18種工件分配策略由文獻(xiàn)[20]提到的16種分配策略和該文獻(xiàn)未提到的與SRM、SRPT相對的LRM、LRPT共同組成。在初始階段,機(jī)器分配策略與工件分配策略均為等概率隨機(jī)選擇。5種機(jī)器分配策略如下:①最小機(jī)器負(fù)荷優(yōu)先,優(yōu)先選擇待機(jī)序列中加工時(shí)間最少的機(jī)器;②最短加工時(shí)間優(yōu)先,優(yōu)先選擇該工序可選加工機(jī)器中加工時(shí)間最短的機(jī)器;③最少作業(yè)數(shù)量優(yōu)先,優(yōu)先選擇加工作業(yè)數(shù)量最少的機(jī)器;④最小功率優(yōu)先,優(yōu)先選擇空閑機(jī)器中功率最小的機(jī)器;⑤完全隨機(jī)分配,即隨機(jī)選擇機(jī)器。18種工件分配規(guī)則見表2。
2.1.3 獎(jiǎng)勵(lì)設(shè)計(jì)
因調(diào)度目標(biāo)結(jié)果均在全部工序安排完成后才能知曉,如果將調(diào)度目標(biāo)結(jié)果直接作為獎(jiǎng)勵(lì)函數(shù)的參數(shù),會(huì)導(dǎo)致獎(jiǎng)勵(lì)函數(shù)的反饋?zhàn)兊孟∈?,且輸出結(jié)果為一組動(dòng)作的綜合獎(jiǎng)勵(lì),無法判斷是否陷入局部最優(yōu),因此,需要將調(diào)度目標(biāo)進(jìn)行合理轉(zhuǎn)化,使得智能體執(zhí)行一個(gè)動(dòng)作后,根據(jù)當(dāng)前狀態(tài)和執(zhí)行的動(dòng)作立即得到獎(jiǎng)勵(lì)值作為反饋,使得調(diào)度過程的每一步都盡可能采取最優(yōu)策略,從而避免陷入局部最優(yōu)。為此,額外定義三個(gè)變量Ck(t)、Oi(t)和Uk(t):
Uk(t)=(Ck(t))-1∑ni=1∑Oi(t)j=1∑mk=1(CijkXijk)(10)
Ja=1n∑ni=1Oi(t)Ji(11)
Ua=1m∑mk=1Uk(t)(12)
Wa=1mUk(t)Ck(t)(13)
Waa=1m∑mk=1[∑ni=1∑Oi(t)j=1(CijkXijk)-Wa)]2(14)
其中,Ck(t)表示在t時(shí)刻機(jī)器k上已完成的最后一道工序的完工時(shí)間;Oi(t)表示在t時(shí)刻工件i已完成的工序數(shù)量;Uk(t)表示在t時(shí)刻機(jī)器k的利用率;式(11)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下工件的工序平均完成率;式(12)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下機(jī)器的平均利用率;式(13)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下機(jī)器的平均工作負(fù)載;式(14)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下機(jī)器工作負(fù)載的標(biāo)準(zhǔn)差。
由式(10)~式(12)可以發(fā)現(xiàn),式中的指標(biāo)均與最大完工時(shí)間直接或間接相關(guān),所以最小化最大完工時(shí)間可以描述為使得機(jī)器利用率、工件完成率盡可能大。由于峰值功率約束直接影響到機(jī)器能否被選擇,而選擇延時(shí)或更換操作來處理非法操作均大概率會(huì)導(dǎo)致等待時(shí)間增加,故最小化最大機(jī)器負(fù)載可以描述為使得工作負(fù)載均勻分布在各個(gè)機(jī)器上的同時(shí)機(jī)器工作負(fù)載的標(biāo)準(zhǔn)差盡可能小。
調(diào)度未完成時(shí),每執(zhí)行一個(gè)動(dòng)作后計(jì)算對應(yīng)的U′a、J′a、W′aa,通過比較前一狀態(tài)下的Ua、Ja、Waa進(jìn)行賦獎(jiǎng)勵(lì)值(reward)。本文獎(jiǎng)勵(lì)值的設(shè)置參考文獻(xiàn)[19]中的設(shè)置方法,在執(zhí)行一個(gè)動(dòng)作后如果機(jī)器平均利用率、工件平均完成率增加的同時(shí)機(jī)器平均工作負(fù)載標(biāo)準(zhǔn)差沒有增加,這種情況說明機(jī)器分布更加均勻,這一動(dòng)作是能夠使得兩個(gè)優(yōu)化目標(biāo)均減小的動(dòng)作,故給予一個(gè)較大獎(jiǎng)勵(lì)10;如果機(jī)器平均利用率、工件平均完成率增加的同時(shí)機(jī)器平均工作負(fù)載標(biāo)準(zhǔn)差增加,這種情況下對優(yōu)化最大完工時(shí)間是有益的,但不能完全認(rèn)為是最大機(jī)器工作負(fù)載的增加導(dǎo)致機(jī)器平均工作負(fù)載增加或考慮了均勻分布負(fù)載但由于該工序加工時(shí)間較長導(dǎo)致的機(jī)器平均工作負(fù)載增加,故給予一個(gè)較小的獎(jiǎng)勵(lì)1;如果機(jī)器平均利用率減小,這種情況下不能完全認(rèn)為是由最大機(jī)器工作負(fù)載增加導(dǎo)致的機(jī)器平均利用率減小或延時(shí)操作的存在而導(dǎo)致的機(jī)器平均利用率減小,故給予一個(gè)較小的懲罰-1。獎(jiǎng)勵(lì)設(shè)計(jì)偽代碼如下。
偽代碼1:獎(jiǎng)勵(lì)設(shè)計(jì)偽代碼
if 調(diào)度過程未完成
if U′a-Uagt;0,J′a-Jagt;0
if W′aa-Waa≤0
reward=10
else
reward=1
else
reward=-1
else
終止調(diào)度,reward=-99
end if
2.2 改進(jìn)的D3QNPER算法設(shè)計(jì)
D3QNPER算法是在DQN(Deep Q- Network)算法的基礎(chǔ)上發(fā)展起來的。由于DQN算法在求解過程中存在積極性偏差、高方差、非靜態(tài)目標(biāo)影響等問題,故在將PPCFJSP問題轉(zhuǎn)化為MDP問題后,需要進(jìn)一步對算法進(jìn)行改進(jìn),改進(jìn)D3QNPER算法的主要內(nèi)容包括:
1)引入Double DQN算法改善積極性偏差。通過不同網(wǎng)絡(luò)解耦動(dòng)作選擇與評估,使用兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)來分別估計(jì)當(dāng)前狀態(tài)下的動(dòng)作值函數(shù)和目標(biāo)動(dòng)作值函數(shù)。其中一個(gè)網(wǎng)絡(luò)用于選擇動(dòng)作,另一個(gè)網(wǎng)絡(luò)用于評估選擇的動(dòng)作的價(jià)值。這種解耦的方式具體體現(xiàn)為使用θt決定的網(wǎng)絡(luò)選擇動(dòng)作a,再用θ-t決定的網(wǎng)絡(luò)計(jì)算Q值,這樣的改動(dòng)可以減少動(dòng)作價(jià)值的高估,從而減小積極性偏差,提高Q-learning算法的穩(wěn)定性和性能。此時(shí)目標(biāo)網(wǎng)絡(luò)的目標(biāo)函數(shù)變?yōu)?/p>
Yt≡rt+1+γQ^(st+1,argmaxaQ(st+1,a;θt),θ-t)(15)
式中:Yt為目標(biāo)網(wǎng)絡(luò)的目標(biāo)函數(shù);rt+1為下一動(dòng)作的獎(jiǎng)勵(lì);Q(s,a,θ)為計(jì)算Q值的函數(shù)。
2)引入Dueling DQN優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來緩解神經(jīng)網(wǎng)絡(luò)的高方差問題。將動(dòng)作值函數(shù)分解為狀態(tài)值函數(shù)和優(yōu)勢函數(shù)。狀態(tài)值函數(shù)表示在給定狀態(tài)下不同動(dòng)作的平均價(jià)值,而優(yōu)勢函數(shù)表示每個(gè)動(dòng)作相對于平均值的優(yōu)勢。通過Dueling DQN的優(yōu)化,神經(jīng)網(wǎng)絡(luò)可以更有效地學(xué)習(xí)狀態(tài)的價(jià)值和動(dòng)作的優(yōu)勢,從而提高了對動(dòng)作價(jià)值的估計(jì)效果,提高了算法的性能和效率。此時(shí)動(dòng)作值函數(shù)為
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)-
1|A|∑a′A(s,a′;θ,α)(16)
式中:θ為共享參數(shù);α為優(yōu)勢函數(shù)A的參數(shù);β為狀態(tài)值函數(shù)V的參數(shù);|A|為動(dòng)作空間的大小。
3)引入PER DQN設(shè)定樣本優(yōu)先級,減小非靜態(tài)目標(biāo)的影響。通過引入優(yōu)先級隊(duì)列,根據(jù)樣本的TD誤差(temporal difference error)來賦予樣本優(yōu)先級,TD誤差可以被視為樣本的重要性指標(biāo)。通過優(yōu)先級采樣,網(wǎng)絡(luò)更多地關(guān)注那些對于當(dāng)前參數(shù)下預(yù)測不準(zhǔn)確的樣本,從而提高了訓(xùn)練的效率和收斂速度。改進(jìn)后的損失函數(shù)為
Li(θi)=E(ωi(Yt-Q(s,a;θi)))2(17)
式中:E為期望值函數(shù);ωi為重要性參數(shù)。
D3QNPER算法結(jié)合了Double DQN、Dueling DQN和PER DQN算法的優(yōu)點(diǎn),進(jìn)一步提高了學(xué)習(xí)的效率和穩(wěn)定性,其算法流程如圖5所示,其中,每個(gè)episode表示一次完整調(diào)度過程。
4)此外,設(shè)計(jì)一種引入噪聲的ε-貪婪遞減策略來增加算法的探索性,從而幫助算法更充分地探索環(huán)境。為平衡探索和利用,本文綜合noisy-greed和ε-greed兩種探索策略,在訓(xùn)練前期通過隨機(jī)策略和noisy-greed策略提高智能體的探索能力,在訓(xùn)練后期則更多地考慮利用已知信息中最優(yōu)的行為。探索和利用策略可以表示為
at=argmax (s,a)"""" P=1-ε2
argmax((s,a)+σε2)P=ε2-ε1
randomP=ε1(18)
ε2=max(εmin,(1-μ2)ε2)(19)
ε1=max(εmin,(1-μ1)ε1)(20)
式中:P為選擇對應(yīng)策略的概率;random為隨機(jī)一個(gè)動(dòng)作a,σ~N(0,1);εmin為遞減策略中最小ε值;μ1、μ2為遞減速率。
對比使用引入噪聲的ε-貪婪遞減策略前后D3QNPER算法的reward值變化(圖6)可以發(fā)現(xiàn),使用該策略改進(jìn)D3QNPER算法網(wǎng)絡(luò)收斂速度和穩(wěn)定程度明顯提高,改進(jìn)后的算法獎(jiǎng)勵(lì)函數(shù)曲線明顯優(yōu)于改進(jìn)前,結(jié)果擁有更高的均值及穩(wěn)定性。
在訓(xùn)練階段,本文將描述作業(yè)時(shí)間、考慮功率限制的調(diào)度結(jié)果和機(jī)器利用率三通道圖像作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入和輸出。偽代碼2描述了改進(jìn)D3QNPER算法求解MDP流程。在求解過程中,首先需要對環(huán)境進(jìn)行初始化,包括初始化估計(jì)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)、經(jīng)驗(yàn)池和優(yōu)先級隊(duì)列。然后進(jìn)行多輪訓(xùn)練。在每一輪訓(xùn)練中,根據(jù)調(diào)度方案的初始狀態(tài),在每個(gè)時(shí)間步中以一定的概率選擇動(dòng)作。概率通過ε的值來調(diào)整。當(dāng)ε較小時(shí),會(huì)盡可能選擇當(dāng)前Q值函數(shù)估計(jì)的最優(yōu)動(dòng)作;當(dāng)ε較大時(shí),會(huì)更多地進(jìn)行探索。執(zhí)行選擇的動(dòng)作后,觀察下一個(gè)狀態(tài)并計(jì)算獎(jiǎng)勵(lì)。然后將得到的經(jīng)驗(yàn)元組存入經(jīng)驗(yàn)池,并計(jì)算樣本的優(yōu)先級。當(dāng)滿足條件時(shí),從經(jīng)驗(yàn)池中采樣一批樣本,根據(jù)計(jì)算得到的目標(biāo)值和當(dāng)前Q值計(jì)算TD誤差。然后更新樣本的優(yōu)先級,并根據(jù)累積的權(quán)重更新量來執(zhí)行梯度下降,從而更新神經(jīng)網(wǎng)絡(luò)參數(shù)。在每一輪訓(xùn)練結(jié)束后,周期性地更新目標(biāo)網(wǎng)絡(luò)的參數(shù),將當(dāng)前的Q值函數(shù)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò)。整個(gè)過程循環(huán)執(zhí)行,直到達(dá)到預(yù)定的訓(xùn)練次數(shù)。最后將訓(xùn)練好的Q網(wǎng)絡(luò)作為輸出結(jié)果。
偽代碼2:改進(jìn)D3QNPER算法求解MDP流程偽代碼
初始化神經(jīng)網(wǎng)絡(luò)Q(s,a;θ)和目標(biāo)網(wǎng)絡(luò)Q^(s,a;θ-)
初始化經(jīng)驗(yàn)池D和優(yōu)先級隊(duì)列P
初始化參數(shù),誤差Δ=0,樣本優(yōu)先級p1=1
對于episode=1∶M
重置調(diào)度方案,生成初始化狀態(tài)s1
對于t=1∶T
以一定的概率ε選擇動(dòng)作at
動(dòng)作at=argmax (s,a)"""" P=1-ε2
argmax((s,a)+σε2)P=ε2-ε1
randomP=ε1
執(zhí)行動(dòng)作at,觀察下一個(gè)狀態(tài)st+1,計(jì)算獎(jiǎng)勵(lì)rt
將(st,at,rt,st+1)存入經(jīng)驗(yàn)池D,優(yōu)先級pt=maxjlt;tpj
如果k能夠被t整除(k為最小批量)
對于i=1∶k
從D中采樣
令yi=ri
當(dāng)前步數(shù)調(diào)度結(jié)束
ri+γQ^(si+1,argmaxa(Q(si+1,
a;θ)),θ-)其他
計(jì)算當(dāng)前Q值:Qcur=Q(si,ai;θ)
計(jì)算TD誤差:δ=(yi-Qcur)2
更新優(yōu)先級:pi←δ
累積權(quán)重更新量Δ←Δ+wiδθQ(si,ai)
執(zhí)行梯度下降更新神經(jīng)網(wǎng)絡(luò)參數(shù):
θ←θ+ηΔ (η為步長)
Δ=0
s=s′
每隔C步更新Q^=Q
返回Q網(wǎng)絡(luò)
2.3 基于改進(jìn)D3QNPER算法的調(diào)度訓(xùn)練過程
在應(yīng)用改進(jìn)D3QNPER算法進(jìn)行PPCFJSP問題的MDP求解訓(xùn)練時(shí),需要對動(dòng)作進(jìn)行合法性判斷,即在完成機(jī)器分配工件分配后,檢查調(diào)度環(huán)境中峰值功率是否超過設(shè)定上限,如果超過功率上限則需要執(zhí)行更換或延時(shí)操作,此后再循環(huán)此操作直至所有工序都已安排完畢;如果沒有超限則認(rèn)為此動(dòng)作合法,將狀態(tài)中對應(yīng)位置置為1。
在調(diào)度任務(wù)分配流程的基礎(chǔ)上,基于改進(jìn)D3QNPER算法的調(diào)度過程可以分為訓(xùn)練、算法、測試三個(gè)層面。首先應(yīng)用本文設(shè)計(jì)的調(diào)度框架將車間的狀態(tài)、任務(wù)的特征、資源的可用性等信息傳遞到訓(xùn)練層構(gòu)成訓(xùn)練和驗(yàn)證過程使用的數(shù)據(jù)集。然后將訓(xùn)練集用于訓(xùn)練改進(jìn)D3QNPER網(wǎng)絡(luò),驗(yàn)證集用于調(diào)整網(wǎng)絡(luò)的超參數(shù)和監(jiān)控訓(xùn)練進(jìn)度,期間重復(fù)算法訓(xùn)練流程,進(jìn)一步優(yōu)化調(diào)度策略。最后在訓(xùn)練完成后,使用測試集對訓(xùn)練得到的調(diào)度策略進(jìn)行評估和驗(yàn)證。改進(jìn)D3QNPER求解PPCFJSP問題的過程如圖7所示。
3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
為驗(yàn)證D3QNPER算法在求解PPCFJSP問題時(shí)的優(yōu)越性,本文結(jié)合Benchmark標(biāo)準(zhǔn)算例,為其中Mk01~Mk15這15組擁有不同工件數(shù)、工序數(shù)、機(jī)器數(shù)的柔性作業(yè)車間調(diào)度問題標(biāo)準(zhǔn)測試集引入機(jī)器的加工功率集(表3),此時(shí)生成的測試集規(guī)模和參數(shù)見表4。
對得到的新數(shù)據(jù)集DMk01-DMk15進(jìn)行等權(quán)重實(shí)驗(yàn)。實(shí)驗(yàn)程序在Windows 11 64位的個(gè)人計(jì)算機(jī)(CPU:AMD R7-6800H、內(nèi)存:16 GB)上運(yùn)行。語言環(huán)境基于Python 3.8.16,問題環(huán)境基于OpenAIGym,深度網(wǎng)絡(luò)基于Torch 2.1.0和Numpy 1.24.1編寫。
3.1 改進(jìn)D3QNPER算法與單一調(diào)度規(guī)則對比
在實(shí)驗(yàn)中,依據(jù)我國各地迎峰度夏冬負(fù)荷管理方案的相關(guān)要求,本文將企業(yè)生產(chǎn)車間最大功率限制為全部加工機(jī)器功率總和的一半。為了便于比較本文方法與單一調(diào)度規(guī)則的優(yōu)劣,以等權(quán)重對最大完工時(shí)間和機(jī)器最大負(fù)載兩個(gè)指標(biāo)的加權(quán)值作為評估值,選擇動(dòng)作空間中35種基于規(guī)則的調(diào)度方法與改進(jìn)的D3QNPER方法進(jìn)行對比,再將改進(jìn)的D3QNPER方法與和單一方式DQN優(yōu)化方法進(jìn)行對比,在全隨機(jī)機(jī)器分配策略下為獨(dú)立運(yùn)行20次的最優(yōu)結(jié)果,見表5??梢园l(fā)現(xiàn),改進(jìn)D3QNPER與任意調(diào)度規(guī)則相比較,均可得到較好結(jié)果。
3.2 改進(jìn)D3QNPER算法與優(yōu)化DQN對比
首先使用等權(quán)重評估值對算法效果進(jìn)行對比。表6表明,相同的MDP下,單一優(yōu)化DQN算法在各算例的訓(xùn)練測試結(jié)果一般優(yōu)于單一調(diào)度規(guī)則方法,但也存在樣本數(shù)據(jù)規(guī)模較大時(shí)訓(xùn)練結(jié)果劣于單一調(diào)度規(guī)則方法,而本文設(shè)計(jì)的改進(jìn)D3QNPER算法在每個(gè)算例下均優(yōu)于單一調(diào)度規(guī)則方法且表現(xiàn)最優(yōu)。
為了更詳細(xì)地比較各DQN優(yōu)化方法差異性與本文設(shè)計(jì)算法的優(yōu)越性,以五個(gè)不同規(guī)模算例DMK03、DMK07、DMK10、DMK13、DMK15為例,以評估值作為指標(biāo)可以得到訓(xùn)練迭代測試結(jié)果變化,如圖8所示??梢杂^察到,改進(jìn)D3QNPER算法的收斂速度更快,輸出結(jié)果更穩(wěn)定,其求解性能優(yōu)于單一DQN及DQN改進(jìn)算法。
同時(shí),依據(jù)Pareto最優(yōu)理論將所得數(shù)據(jù)轉(zhuǎn)化為二維散點(diǎn),可以得到三個(gè)算例的散點(diǎn)圖以及Pareto前沿,如圖9所示??梢园l(fā)現(xiàn)使用改進(jìn)D3QNPER算法得到的結(jié)果分布明顯更加靠近由各算法Pareto前沿組成的各測試算例真實(shí)的Pareto前沿,離散程度更低,與前文以評估值作為指標(biāo)得到的訓(xùn)練迭代測試結(jié)果變化一致,說明改進(jìn)的D3QNPER算法得到的Pareto解更優(yōu),更能滿足本文的優(yōu)化目標(biāo)。
對比DMK07算例各算法reward變化(圖10)可以觀察到,Double DQN算法比DQN算法結(jié)果更具穩(wěn)定性,數(shù)據(jù)波動(dòng)明顯改善,收斂更加快速,但它對噪聲干擾的處理能力較差,因此導(dǎo)致訓(xùn)練后期出現(xiàn)較大偏差值;Dueling DQN與Double DQN算法效果無較大差別,但它對噪聲干擾的處理明顯優(yōu)于Double DQN算法;PER DQN算法能夠利用重要的經(jīng)驗(yàn)樣本,因而探索空間獲得的收益較DQN算法有明顯提升,但也存在探索能力減小,從而在算例中結(jié)果表現(xiàn)不盡如人意;而改進(jìn)的D3QNPER算法綜合了三者優(yōu)點(diǎn),在輸出效果整體上優(yōu)于其他算法。
4 結(jié)語
本文面向車間峰值功率受限這一特定約束,構(gòu)建了峰值功率受限單約束的柔性作業(yè)車間調(diào)度問題模型,提出了基于深度強(qiáng)化學(xué)習(xí)的調(diào)度框架,設(shè)計(jì)了改進(jìn)的D3QNPER算法求解該模型。其中包括設(shè)計(jì)了兩個(gè)用于應(yīng)對峰值功率超限的調(diào)度策略,設(shè)計(jì)了引入噪聲的ε貪婪遞減策略來提高算法的探索和利用能力。通過對比引入噪聲的ε貪婪遞減策略改進(jìn)前后的回報(bào)值可以發(fā)現(xiàn),改進(jìn)后的方法收斂更快、回報(bào)值更高。同時(shí),使用帶有峰值功率約束的Benchmark標(biāo)準(zhǔn)算例的實(shí)驗(yàn)結(jié)果表明,改進(jìn)D3QNPER算法在求解PPCFJSP問題時(shí),其求解能力優(yōu)于單一調(diào)度規(guī)則方法和單一DQN優(yōu)化方法。
本文方法為求解峰值功率受限的柔性作業(yè)車間調(diào)度雙目標(biāo)優(yōu)化問題提供了有效解決方案。在實(shí)際生產(chǎn)中,生產(chǎn)調(diào)度往往需要面臨更為復(fù)雜的調(diào)度目標(biāo)和條件約束。后續(xù)研究可以進(jìn)一步考慮成本、排放等經(jīng)濟(jì)或綠色指標(biāo)或者其他條件約束等,或者探索動(dòng)態(tài)環(huán)境下柔性作業(yè)車間調(diào)度問題模型的算法設(shè)計(jì)與改進(jìn)策略等。
參考文獻(xiàn):
[1] 李凱文, 張濤, 王銳, 等. 基于深度強(qiáng)化學(xué)習(xí)的組合優(yōu)化研究進(jìn)展[J]. 自動(dòng)化學(xué)報(bào), 2021, 47(11):2521-2537.
LI Kaiwen, ZHANG Tao, WANG Rui, et al. Research Reviews of Combinatorial Optimization Methods Based on Deep Reinforcement Learning[J]. Acta Automatica Sinica, 2021, 47(11):2521-2537.
[2] 李穎俐, 李新宇, 高亮. 混合流水車間調(diào)度問題研究綜述[J]. 中國機(jī)械工程, 2020, 31(23):2798-2813.
LI Yingli, LI Xinyu, GAO Liang. Review on Hybrid Flow Shop Scheduling Problems[J]. China Mechanical Engineering, 2020, 31(23):2798-2813.
[3] 黎聲益, 馬玉敏, 劉鵑. 基于雙深度Q學(xué)習(xí)網(wǎng)絡(luò)的面向設(shè)備負(fù)荷穩(wěn)定的智能車間調(diào)度方法[J]. 計(jì)算機(jī)集成制造系統(tǒng), 2023, 29(1):91-99.
LI Shengyi, MA Yumin, LIU Juan. Smart Shop Floor Scheduling Method for Equipment Load Stabilization Based on Double Deep Q-learning Network[J]. Computer Integrated Manufacturing Systems, 2023, 29(1):91-99.
[4] 賀俊杰, 張潔, 張朋, 等. 基于長短期記憶近端策略優(yōu)化強(qiáng)化學(xué)習(xí)的等效并行機(jī)在線調(diào)度方法[J]. 中國機(jī)械工程, 2022, 33(3):329-338.
HE Junjie, ZHANG Jie, ZHANG Peng, et al. Related Parallel Machine Online Scheduling Method Based on LSTM-PPO Reinforcement Learning[J]. China Mechanical Engineering, 2022, 33(3):329-338.
[5] LIU Renke, PIPLANI R, TORO C. Deep Reinforcement Learning for Dynamic Scheduling of a Flexible Job Shop[J]. International Journal of Production Research, 2022, 60(13):4049-4069.
[6] LI Yuxin, GU Wenbin, YUAN Minghai, et al. Real-time Data-driven Dynamic Scheduling for Flexible Job Shop with Insufficient Transportation Resources Using Hybrid Deep Q Network[J]. Robotics and Computer-Integrated Manufacturing, 2022, 74:102283.
[7] WU Wenbo, HUANG Zhengdong, ZENG Jiani, et al. A Fast Decision-making Method for Process Planning with Dynamic Machining Resources via Deep Reinforcement Learning[J]. Journal of Manufacturing Systems, 2021, 58:392-411.
[8] LEE Y H, LEE S. Deep Reinforcement Learning Based Scheduling within Production Plan in Semiconductor Fabrication[J]. Expert Systems with Applications, 2022, 191:116222.
[9] HE Zhenglei, TRAN K P, THOMASSEY S, et al. Multi-objective Optimization of the Textile Manufacturing Process Using Deep-Q-network Based Multi-agent Reinforcement Learning[J]. Journal of Manufacturing Systems, 2022, 62:939-949.
[10] 郭具濤, 呂佑龍, 戴錚, 等. 基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線調(diào)度方法[J]. 中國機(jī)械工程, 2023, 34(21):2600-2606.
GUO Jutao, LYU Youlong, DAI Zheng, et al. Compound Rules and Reinforcement Learning Based Scheduling Method for Mixed Model Assembly Lines[J]. China Mechanical Engineering, 2023, 34(21):2600-2606.
[11] 劉亞輝, 申興旺, 顧星海, 等. 面向柔性作業(yè)車間動(dòng)態(tài)調(diào)度的雙系統(tǒng)強(qiáng)化學(xué)習(xí)方法[J]. 上海交通大學(xué)學(xué)報(bào), 2022, 56(9):1262-1275.
LIU Yahui, SHEN Xingwang, GU Xinghai, et al. A Dual-system Reinforcement Learning Method for Flexible Job Shop Dynamic Scheduling[J]. Journal of Shanghai Jiao Tong University, 2022, 56(9):1262-1275.
[12] ZHANG Jiadong, HE Zhixiang, CHAN W H, et al. DeepMAG:Deep Reinforcement Learning with Multi-agent Graphs for Flexible Job Shop Scheduling[J]. Knowledge-Based Systems, 2023, 259:110083.
[13] GUI Yong, TANG Dunbing, ZHU Haihua, et al. Dynamic Scheduling for Flexible Job Shop Using a Deep Reinforcement Learning Approach[J]. Computers amp; Industrial Engineering, 2023, 180:109255.
[14] ZHANG Lu, FENG Yi, XIAO Qinge, et al. Deep Reinforcement Learning for Dynamic Flexible Job Shop Scheduling Problem Considering Variable Processing Times[J]. Journal of Manufacturing Systems, 2023, 71:257-273.
[15] 何彥, 王樂祥, 李育鋒, 等. 一種面向機(jī)械車間柔性工藝路線的加工任務(wù)節(jié)能調(diào)度方法[J]. 機(jī)械工程學(xué)報(bào), 2016, 52(19):168-179.
HE Yan, WANG Lexiang, LI Yufeng, et al. A Scheduling Method for Reducing Energy Consumption of Machining Job Shops Considering the Flexible Process Plan[J]. Journal of Mechanical Engineering, 2016, 52(19):168-179.
[16] DU Yu, LI Junqing, LI Chengdong, et al. A Reinforcement Learning Approach for Flexible Job Shop Scheduling Problem with Crane Transportation and Setup Times[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(4):5695-5709.
[17] NAIMI R, NOUIRI M, CARDIN O. A Q-learning Rescheduling Approach to the Flexible Job Shop Problem Combining Energy and Productivity Objectives[J]. Sustainability, 2021, 13(23):13016.
[18] LI Rui, GONG Wenyin, LU Chao, et al. A Learning-based Memetic Algorithm for Energy-efficient Flexible Job-shop Scheduling with Type-2 Fuzzy Processing Time[J]. IEEE Transactions on Evolutionary Computation, 2023, 27(3):610-620.
[19] 張凱, 畢利, 焦小剛. 集成強(qiáng)化學(xué)習(xí)算法的柔性作業(yè)車間調(diào)度問題研究[J]. 中國機(jī)械工程, 2023, 34(2):201-207.
ZHANG Kai, BI Li, JIAO Xiaogang. Research on Flexible Job-shop Scheduling Problems with Integrated Reinforcement Learning Algorithm[J]. China Mechanical Engineering, 2023, 34(2):201-207.
[20] 陳睿奇, 黎雯馨, 王傳洋, 等. 基于深度強(qiáng)化學(xué)習(xí)的工序交互式智能體Job shop調(diào)度方法[J]. 機(jī)械工程學(xué)報(bào), 2023, 59(12):78-88.
CHEN Ruiqi, LI Wenxin, WANG Chuanyang, et al. Interactive Operation Agent Scheduling Method for Job Shop Based on Deep Reinforcement Learning[J]. Journal of Mechanical Engineering, 2023, 59(12):78-88.
(編輯 陳 勇)
作者簡介:李益兵,男,1978年生,教授。研究方向?yàn)檐囬g調(diào)度與優(yōu)化等,發(fā)表論文50余篇。E-mail:ahlyb@whut.edu.cn。
郭 鈞*(通信作者),男,1982年生,副教授。研究方向?yàn)橹圃煜到y(tǒng)決策與優(yōu)化,發(fā)表論文20余篇。E-mail:Junguo@whut.edu.cn。
本文引用格式:李益兵,曹巖,郭鈞,等.考慮峰值功率受限約束的柔性作業(yè)車間調(diào)度研究[J]. 中國機(jī)械工程,2025,36(2):280-293.
LI Yibing, CAO Yan, GUO Jun, et al. Research on Flexible Job-shop Scheduling Considering Constraints of Peak Power Constrained[J]. China Mechanical Engineering, 2025, 36(2):280-293.
基金項(xiàng)目:國家自然科學(xué)基金(52305552,52375510)