• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    考慮峰值功率受限約束的柔性作業(yè)車間調(diào)度研究

    2025-03-10 00:00:00李益兵曹巖郭鈞王磊李西興孫利波
    中國機(jī)械工程 2025年2期
    關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)

    摘要:針對車間峰值功率受限約束下的柔性作業(yè)車間調(diào)度面臨的作業(yè)周期增加、機(jī)器負(fù)荷增大的問題,建立以最小化最大完工時(shí)間和最小化機(jī)器最大負(fù)載為優(yōu)化目標(biāo)、考慮車間峰值功率約束的柔性作業(yè)車間調(diào)度問題(PPCFJSP)模型。為更好地調(diào)度決策,首先將該問題轉(zhuǎn)化為馬爾可夫決策過程,基于此設(shè)計(jì)了一個(gè)結(jié)合離線訓(xùn)練與在線調(diào)度的用于求解PPCFJSP的調(diào)度框架。然后設(shè)計(jì)了一種基于優(yōu)先級經(jīng)驗(yàn)重放的雙重決斗深度Q網(wǎng)絡(luò)(D3QNPER)算法,并設(shè)計(jì)了一種引入噪聲的ε-貪婪遞減策略,提高了算法收斂速度,進(jìn)一步提高了求解能力和求解結(jié)果的穩(wěn)定性。最后開展實(shí)驗(yàn)與算法對比研究,驗(yàn)證了模型和算法的有效性。

    關(guān)鍵詞:柔性作業(yè)車間調(diào)度;馬爾可夫決策過程;深度強(qiáng)化學(xué)習(xí);峰值功率受限

    中圖分類號:TH165;TP18

    Research on Flexible Job-shop Scheduling Considering Constraints of Peak Power Constrained

    LI Yibing1,2 CAO Yan1 GUO Jun1,2* WANG Lei1,2 LI Xixing3 SUN Libo4

    1.School of Mechanical and Electronic Engineering,Wuhan University of Technology,Wuhan,430070

    2.Hubei Key Laboratory of Digital Manufacturing,Wuhan University of Technology,Wuhan,430070

    3.School of Mechanical Engineering,Hubei University of Technology,Wuhan,430068

    4.Tianjin Cement Industry Design amp; Research Institute Co.,Ltd.,Tianjin,300400

    Abstract: Peak power constrained flexible job shop scheduling problem(PPCFJSP) model was established to address the challenges of increased work cycles and increased machine load in flexible job shop scheduling under the constraints of peak power in the workshops. The optimization objectives were to minimize the maximum completion time and the maximum machine loads, taking into account the constraints of peak power in the workshops. For better scheduling decisions, firstly, the problem was transformed into a Markov decision process, then, a scheduling framework combining offline training and online scheduling was designed for solving PPCFJSP. Secondly, a double dueling deep q-network based on priority experience replay(D3QNPER) algorithm was designed based on priority experience replay, and a ε- greedy descent strategy introducing noise was designed to improve the convergence speed of the algorithm, further enhance the solving ability and stability of the solution results. Finally, experimental and algorithmic comparative studies were conducted to verify the effectiveness of the model and algorithm.

    Key words: flexible job shop scheduling; Markov decision process; deep reinforcement learning; peak power constrained

    0 引言

    在當(dāng)今全球氣候變化和環(huán)境保護(hù)的背景下,“雙碳”戰(zhàn)略已成為國家發(fā)展戰(zhàn)略的重要組成部分。隨著“雙碳”戰(zhàn)略的深入實(shí)施,各地區(qū)開始逐步推行“雙控”政策,即對能耗總量和能耗強(qiáng)度進(jìn)行雙重控制,以實(shí)現(xiàn)節(jié)能降耗和減排目標(biāo)。這些政策措施對高耗能行業(yè)產(chǎn)生了深遠(yuǎn)影響,近年我國多地發(fā)布迎峰度夏冬有序用電指導(dǎo)方案,限電措施也從化工、冶金行業(yè)轉(zhuǎn)向全體商業(yè)、工業(yè),限電限產(chǎn)已成為一些地區(qū)常見的現(xiàn)象。企業(yè)在面臨停電限荷的情況下,如何優(yōu)化生產(chǎn)調(diào)度以應(yīng)對突發(fā)的電力供應(yīng)問題,成為企業(yè)管理者必須面對的新問題。管理者需要快速作出調(diào)整生產(chǎn)計(jì)劃的決策,這不僅要求調(diào)度決策能夠迅速響應(yīng)變化,還需要對生產(chǎn)過程有深入的理解和預(yù)測。同時(shí),停電導(dǎo)致的作業(yè)周期增加問題也不容忽視。由于電力供應(yīng)不穩(wěn)定,企業(yè)可能不得不延長某些產(chǎn)品的生產(chǎn)周期,這直接影響到交貨期和客戶滿意度。此外,由于用電功率限制,車間中全部機(jī)器無法同時(shí)作業(yè),導(dǎo)致個(gè)別機(jī)器的負(fù)荷增大,會(huì)導(dǎo)致機(jī)器過度磨損甚至故障,增加了維護(hù)成本和生產(chǎn)風(fēng)險(xiǎn),故設(shè)計(jì)一種高效、穩(wěn)定、泛化能力強(qiáng)的車間調(diào)度方法具有緊迫性和現(xiàn)實(shí)意義。

    隨著機(jī)器學(xué)習(xí)技術(shù)的不斷進(jìn)步,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)將深度學(xué)習(xí)的表征學(xué)習(xí)能力與強(qiáng)化學(xué)習(xí)的決策求解能力相結(jié)合,使得強(qiáng)化學(xué)習(xí)技術(shù)逐漸變得實(shí)用化。為了更好地作出決策,DRL算法被應(yīng)用在多種組合優(yōu)化問題的求解中,并在車間調(diào)度領(lǐng)域展現(xiàn)出色的性能1-2,而且DRL彌補(bǔ)了整數(shù)規(guī)劃、基于規(guī)則和元啟發(fā)式方法無法利用歷史學(xué)習(xí)經(jīng)驗(yàn)預(yù)測調(diào)度決策的不足。在處理決策響應(yīng)及預(yù)測問題和完工時(shí)間與機(jī)器負(fù)荷平衡問題上,黎聲益等3提出了一種面向設(shè)備負(fù)荷穩(wěn)定的智能車間調(diào)度方法,利用Double DQN解決半導(dǎo)體車間動(dòng)態(tài)事件下設(shè)備負(fù)荷的穩(wěn)定調(diào)度。賀俊杰等4以加權(quán)完工時(shí)間和為目標(biāo),提出了一種基于長短期記憶近端策略優(yōu)化(proximal policy optimization with long short-term memory, LSTM-PPO)強(qiáng)化學(xué)習(xí)的在線調(diào)度方法,通過設(shè)計(jì)融合LSTM的智能體記錄車間的歷史狀態(tài)變化和調(diào)度策略,實(shí)現(xiàn)了智能體根據(jù)狀態(tài)信息進(jìn)行在線調(diào)度。LIU等5和LI等6分別提出了基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)柔性車間調(diào)度方法,用于處理不確定性和限制資源的情況,取得了良好的性能。WU等7采用深度強(qiáng)化學(xué)習(xí)方法解決了過程規(guī)劃中的動(dòng)態(tài)加工資源調(diào)度問題,通過蒙特卡羅方法和深度學(xué)習(xí)算法評估和改進(jìn)了過程策略。LEE等8和HE等9提出了基于多智能體強(qiáng)化學(xué)習(xí)的紡織制造和半導(dǎo)體制造過程優(yōu)化方法,通過引入深度Q網(wǎng)絡(luò)和多智能體學(xué)習(xí)實(shí)現(xiàn)了多目標(biāo)優(yōu)化。郭具濤等10提出了一種基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的調(diào)度方法用于求解混流裝配線的平衡與排序問題,實(shí)現(xiàn)了復(fù)合規(guī)則權(quán)值參數(shù)的調(diào)控優(yōu)化。劉亞輝等11解決了航天結(jié)構(gòu)件生產(chǎn)過程中柔性作業(yè)車間面臨的動(dòng)態(tài)調(diào)度問題,提出了感知認(rèn)知雙系統(tǒng)驅(qū)動(dòng)的雙環(huán)深度Q網(wǎng)絡(luò)方法,通過感知和認(rèn)知系統(tǒng)提高了調(diào)度決策對知識圖譜的利用。ZHANG等12提出了一種基于多代理圖的深度強(qiáng)化學(xué)習(xí)的柔性作業(yè)車間調(diào)度模型(deep reinforcement learning with multi-agent graphs,DeepMAG),通過將不同的智能體關(guān)聯(lián)到每臺機(jī)器和作業(yè),將DRL與多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning, MARL)集成在一起共同作用完成決策。GUI等13針對動(dòng)態(tài)柔性車間調(diào)度問題,提出了一種具有復(fù)合調(diào)度動(dòng)作的馬爾可夫決策過程,設(shè)計(jì)了由單個(gè)調(diào)度規(guī)則和連續(xù)權(quán)重變量聚合的復(fù)合調(diào)度動(dòng)作,以提供連續(xù)的規(guī)則空間和單一調(diào)度規(guī)則權(quán)重選擇。ZHANG等14針對機(jī)器加工時(shí)間不確定的動(dòng)態(tài)柔性作業(yè)車間調(diào)度問題,采用近端策略優(yōu)化算法對模型進(jìn)行求解,使用處理信息矩陣作為網(wǎng)絡(luò)輸入,通過圖神經(jīng)網(wǎng)絡(luò)將一些高級狀態(tài)嵌入車間中,使得智能體能夠?qū)W習(xí)環(huán)境的完整狀態(tài)。由此可見,DRL算法在不同領(lǐng)域的調(diào)度問題中得到了廣泛應(yīng)用,展現(xiàn)了出色的性能,使得歷史學(xué)習(xí)經(jīng)驗(yàn)得到充分利用,應(yīng)用DRL的車間調(diào)度領(lǐng)域也在不斷擴(kuò)大。

    近年來,越來越多的研究人員也將DRL用于處理考慮能耗約束的柔性作業(yè)車間調(diào)度。例如,何彥等15針對車間調(diào)度中柔性工藝路線對調(diào)度能耗的影響特性,使用改進(jìn)的Q學(xué)習(xí)算法求解節(jié)能調(diào)度模型并得到Pareto解。DU等16設(shè)計(jì)了12個(gè)狀態(tài)特征和7個(gè)動(dòng)作來描述調(diào)度過程中的特征,使用DQN算法對具有起重機(jī)運(yùn)輸和安裝時(shí)間的柔性作業(yè)車間調(diào)度問題(multiobjective FJSP with crane transportation and setup times,F(xiàn)JSP-CS)進(jìn)行了有效求解,對完工時(shí)間和能耗進(jìn)行了同時(shí)優(yōu)化。NAIMI等17提出了一種結(jié)合能量和生產(chǎn)率目標(biāo)的機(jī)器故障環(huán)境下柔性作業(yè)車間問題的Q學(xué)習(xí)重調(diào)度方法,使得系統(tǒng)能夠?qū)σ馔馐录鞒隹焖俜磻?yīng),實(shí)現(xiàn)了對制造跨度和能耗變化的同步優(yōu)化。LI等18在求解具有2型模糊處理時(shí)間的FJSP(energy-efficient FJSP with type-2 processing time, ET2FJSP)時(shí),為了更好地模擬綠色柔性車間調(diào)度實(shí)際生產(chǎn),設(shè)計(jì)了一種基于學(xué)習(xí)的參考向量模因算法(learning-based reference vector memetic algorithm, LRVMA),實(shí)現(xiàn)了對時(shí)間約束的不確定性預(yù)測。

    當(dāng)前,針對具有能耗約束的柔性作業(yè)調(diào)度問題,相關(guān)研究多將總能耗或總成本作為目標(biāo)函數(shù),這樣可以得到總能耗或總成本與完工時(shí)間的“最優(yōu)前沿解”。然而,在當(dāng)前迎峰度夏冬有序用電各類管理措施中一般以用電負(fù)荷(即總功率)來對能耗進(jìn)行描述。一旦執(zhí)行限電要求,如果仍以此前研究中的總能耗作為約束,便無法應(yīng)對峰值功率受限的情形,會(huì)導(dǎo)致車間功率峰值居高不下、執(zhí)行限電要求不力,企業(yè)面臨更大損失,因此,對于考慮峰值功率約束的生產(chǎn)調(diào)度問題,還需要進(jìn)一步研究和關(guān)注。為了在峰值功率約束條件下優(yōu)化生產(chǎn)效率,提高決策響應(yīng)能力,本文提出了一種考慮峰值功率受限的柔性作業(yè)車間調(diào)度問題(peak power constrained flexible job shop scheduling problem,PPCFJSP)模型,主要研究內(nèi)容包括:①建立了一個(gè)基于馬爾可夫決策過程的符合當(dāng)前產(chǎn)業(yè)環(huán)境需求的峰值功率受限柔性車間調(diào)度問題模型,設(shè)計(jì)了一個(gè)用于求解PPCFJSP的DRL調(diào)度框架。②設(shè)計(jì)了一種結(jié)合離線訓(xùn)練與在線調(diào)度的基于優(yōu)先級經(jīng)驗(yàn)重放的雙重決斗深度Q網(wǎng)絡(luò)(double dueling deep q-network based on priority experience replay,D3QNPER)算法,用來求解PPCFJSP模型。同時(shí),設(shè)計(jì)了一種引入噪聲的ε-貪婪遞減策略,提高了算法收斂速度,進(jìn)一步提高了求解能力和求解結(jié)果的穩(wěn)定性。③進(jìn)行仿真實(shí)驗(yàn)分析,與不同調(diào)度規(guī)則和深度強(qiáng)化學(xué)習(xí)算法進(jìn)行對比,用實(shí)驗(yàn)結(jié)果來證明本文算法的有效性。

    1 問題描述及數(shù)學(xué)模型

    本文提出的PPCFJSP模型主要研究n個(gè)工件在設(shè)有用電負(fù)荷上限的車間m臺機(jī)器上加工,每個(gè)工件均有多道工序,同一工件的各道工序的先后關(guān)系不能發(fā)生改變。同時(shí),還需要滿足以下約束:①某一時(shí)刻一個(gè)工件只能有一道工序被加工;②工件的任一工序在同一時(shí)刻只能被一臺機(jī)器加工;③車間存在峰值功率限制,在任一時(shí)刻運(yùn)行設(shè)備疊加功率不能超過峰值功率限制;④任一工件的工序在加工過程中不能被中斷;⑤認(rèn)為車間中各機(jī)器的加工功率不隨外部條件變化。

    由于加工所需的最大完工時(shí)間和機(jī)器負(fù)載情況均會(huì)隨機(jī)器的選擇而變化,同時(shí)考慮到車間設(shè)有用電峰值功率上限,還會(huì)導(dǎo)致車間中個(gè)別功率小的機(jī)器負(fù)載情況加重,影響機(jī)器使用壽命,故本文以考慮車間功率峰值約束時(shí)最小化最大完工時(shí)間和最小化機(jī)器的最大負(fù)載為優(yōu)化目標(biāo)。本文所使用的符號定義見表1。

    本文的優(yōu)化目標(biāo)有兩個(gè):一是最小化最大完工時(shí)間CT,二是最小化最大機(jī)器負(fù)載WT,即

    CT=min max(Ci)(1)

    WT=min maxk∈{1,2,…,m}∑ni=1∑jij=1(CijkXijk)(2)

    在不考慮待機(jī)功耗且加工過程的功率不變的情況下,最小化最大機(jī)器負(fù)載可以用機(jī)器處于加工狀態(tài)的總耗時(shí)來表示。本文的輸出結(jié)果為兩個(gè)優(yōu)化目標(biāo)的Pareto前沿上取得最優(yōu)解的集合。約束條件表示如下:

    Sij≥F(i-1)j(igt;1)(3)

    Lijt1≠Lijt2→t1≠t2(4)

    Pt=∑mk=1PWk·l(i∈1,2,…,n,

    j∈1,2,…,ji:(Sijk≤tlt;Fijk))(5)

    Pt≤Pu(6)

    Fijk-Sijk=Tijk(7)

    Ci=maxjk(Fijk)(8)

    Sij,F(xiàn)ij≥0(9)

    其中,式(3)表示某一時(shí)刻一個(gè)工件只能有一道工序被加工;式(4)表示工件的任一工序在同一時(shí)刻只能被一臺機(jī)器加工,Lijt1為t1時(shí)刻執(zhí)行Oij的設(shè)備編號, Lijt2為t2時(shí)刻執(zhí)行Oij的設(shè)備編號;式(5)表示t時(shí)刻的車間峰值功率,l為指示函數(shù);式(6)表示車間峰值功率不能超過限制,且待機(jī)功率忽略不計(jì);式(7)表示最大完工時(shí)間大于或等于任一工件的末道工序的完工時(shí)間;式(8)表示Ci為同一工件的Fijk中最大值;式(9)為非負(fù)性約束。

    2 求解PPCFJSP問題的DRL調(diào)度框架

    為了更好地求解PPCFJSP問題,本文構(gòu)建了基于馬爾可夫決策過程的深度強(qiáng)化學(xué)習(xí)DRL的調(diào)度框架,如圖1所示,主要包含三部分:調(diào)度環(huán)境層、數(shù)據(jù)處理層與測試應(yīng)用層。

    在調(diào)度環(huán)境層,本文將PPCFJSP問題轉(zhuǎn)化為馬爾可夫決策過程,結(jié)合PPCFJSP問題中對峰值功率的解釋,對馬爾可夫決策過程的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)進(jìn)行了設(shè)計(jì),包括使用調(diào)度特征網(wǎng)絡(luò)矩陣表示狀態(tài),使用不同的機(jī)器分配策略和工件分配策略組成動(dòng)作空間,使用三個(gè)特征數(shù)值來指導(dǎo)獎(jiǎng)勵(lì)函數(shù)。

    在數(shù)據(jù)處理層,本文設(shè)計(jì)了一種改進(jìn)的D3QNPER算法用于訓(xùn)練調(diào)度環(huán)境中生成的調(diào)度數(shù)據(jù)。該算法融合了雙重深度Q網(wǎng)絡(luò)(double deep q-network ,Double DQN)、決斗深度Q網(wǎng)絡(luò)(dueling deep q-network ,Dueling DQN)、優(yōu)先級經(jīng)驗(yàn)回放深度Q網(wǎng)絡(luò)(prioritized experience replay DQN ,PER DQN)三種深度強(qiáng)化學(xué)習(xí)算法在數(shù)據(jù)處理上的優(yōu)勢,將卷積神經(jīng)網(wǎng)絡(luò)、前饋神經(jīng)網(wǎng)絡(luò)、決斗網(wǎng)絡(luò)進(jìn)行有效結(jié)合,在探索和利用策略上設(shè)計(jì)了一種結(jié)合ε-greed和noisy-greed的探索策略。通過調(diào)度環(huán)境與數(shù)據(jù)處理的不斷迭代交互,最終得到最優(yōu)的調(diào)度策略。

    在測試應(yīng)用層,對約束和優(yōu)化目標(biāo)進(jìn)行調(diào)控,使用調(diào)度環(huán)境與數(shù)據(jù)處理交互訓(xùn)練過程中得到的最優(yōu)策略代入案例,從而完成對PPCFJSP問題的求解,最終得到滿足約束、符合調(diào)度目標(biāo)的調(diào)度結(jié)果。

    2.1 調(diào)度問題的馬爾可夫決策過程轉(zhuǎn)化

    深度強(qiáng)化學(xué)習(xí)應(yīng)用于車間調(diào)度問題的關(guān)鍵和難點(diǎn)是將車間調(diào)度問題轉(zhuǎn)化為馬爾可夫決策過程(markov decision processes,MDP)。MDP 由一組狀態(tài)S和操作A組成,針對PPCFJSP的最小化最大完工時(shí)間與機(jī)器最大負(fù)載兩個(gè)優(yōu)化目標(biāo),本文設(shè)計(jì)了以下MDP的狀態(tài)空間表示、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)。

    2.1.1 狀態(tài)空間表示

    在狀態(tài)空間表示上,依據(jù)文獻(xiàn)[19]提出的表述原則,本文將調(diào)度過程需要的機(jī)器、工序、功率、加工時(shí)間等調(diào)度特征信息以網(wǎng)絡(luò)矩陣的形式作為輸入圖像的通道直接輸入深度神經(jīng)網(wǎng)絡(luò)中訓(xùn)練。每個(gè)通道包含不同的調(diào)度特征,使用卷積、池化等操作來捕捉調(diào)度問題中的空間局部性和特征關(guān)聯(lián)性,從而提高模型的表達(dá)能力和性能。

    本文將作業(yè)號編碼為圖像的高度和寬度,從而保留作業(yè)之間的空間關(guān)系。在作業(yè)時(shí)間層,第1行第1列數(shù)據(jù)表示第1個(gè)工件的第1道工序,依此類推;在考慮功率限制的調(diào)度完成層,第1行第1列數(shù)據(jù)表示第1個(gè)工件的第1道工序是否在峰值功率未超限時(shí)進(jìn)行操作,依此類推;在機(jī)器利用率層,第1行第1列數(shù)據(jù)表示在當(dāng)前調(diào)度時(shí)刻第1個(gè)工件的第1道工序在作業(yè)完成后其使用的加工機(jī)器的機(jī)器利用率,其值越接近1表示該機(jī)器負(fù)載越大。以3×3調(diào)度為例,其特征狀態(tài)與狀態(tài)空間的轉(zhuǎn)化如圖2所示。圖中,圈出部分為考慮功率限制而采取的延時(shí)和更換操作,該操作將在動(dòng)作空間設(shè)計(jì)中具體說明。

    以第4次調(diào)度為例,假設(shè)在執(zhí)行第4次調(diào)度前已經(jīng)完成了第1個(gè)工件的第1道工序、第2個(gè)工件的第1道工序、第3個(gè)工件的第1道工序,第4次調(diào)度選擇第3個(gè)工件的第2道工序進(jìn)行加工,根據(jù)對應(yīng)索引找到加工機(jī)器為1號的機(jī)器。因?yàn)檐囬g有峰值功率的限制,此時(shí)發(fā)現(xiàn)不能直接安排生產(chǎn)作業(yè),需要采取一定的措施避免峰值功率超限后再安排生產(chǎn)。為此延時(shí)實(shí)行1個(gè)時(shí)間單位,于是得到第4次調(diào)度的結(jié)束時(shí)刻為8。調(diào)整后,在考慮功率限制的調(diào)度完成層中將第3個(gè)工件的第2道工序?qū)?yīng)位置設(shè)置為1,表示已完成該工序。由于沒有采用更換操作,此時(shí)1號機(jī)器利用率為加工狀態(tài)總用時(shí)/機(jī)器開機(jī)時(shí)間,即(3+4)/(3+4+1)=0.875,其他機(jī)器的利用率均為0.5。

    2.1.2 動(dòng)作空間設(shè)計(jì)

    相較于常規(guī)柔性作業(yè)車間調(diào)度問題,由于考慮了峰值功率約束,故還需要對動(dòng)作的合法性進(jìn)行判斷。一般情況下,認(rèn)定選定操作執(zhí)行后會(huì)引起車間峰值功率超過上限的操作為非法操作。假設(shè)某車間有6臺加工機(jī)器,加工機(jī)器功率PWk∈{3, 2, 3, 2.4, 1.8, 3},單位為kW,當(dāng)車間沒有用電負(fù)荷約束時(shí),車間各類加工機(jī)器的車間峰值功率為15.2 kW且可以同時(shí)工作;而當(dāng)企業(yè)收到限電限產(chǎn)通知,如要求企業(yè)用電負(fù)荷降為原來車間峰值功率的一半(即7.6 kW)時(shí),生產(chǎn)運(yùn)作安排就要考慮設(shè)備的用電負(fù)荷,否則極易出現(xiàn)用電負(fù)荷超限而導(dǎo)致斷電停產(chǎn)或設(shè)備供電不足等問題,例如當(dāng)車間中已開啟第1、2號機(jī)器時(shí),如果再選擇第3號機(jī)器,那么就會(huì)導(dǎo)致車間峰值功率超限,此時(shí)選擇第3號機(jī)器進(jìn)行加工的操作定義為非法操作。為此,本文設(shè)計(jì)了兩種處理操作來避免非法動(dòng)作的產(chǎn)生,即延時(shí)操作和更換操作。

    延時(shí)操作,即在選定非法動(dòng)作后,將該操作延時(shí)到最早滿足峰值功率限制的時(shí)刻執(zhí)行,其操作如圖3所示。當(dāng)執(zhí)行選定動(dòng)作后,反饋的調(diào)度決策為工件1的第1道工序在機(jī)器2上加工,此時(shí)由于存在功率限制,導(dǎo)致該動(dòng)作執(zhí)行后會(huì)使車間峰值功率超限。若沒有可以替換的柔性執(zhí)行機(jī)器,此時(shí)便需要采用延時(shí)操作來執(zhí)行,延時(shí)至最早可執(zhí)行操作的時(shí)刻,即工件3第1道工序的結(jié)束時(shí)刻t1。

    更換操作,即在選定非法動(dòng)作后,由于該工序的加工機(jī)器具有柔性,可以選擇其他能夠滿足峰值功率限制的機(jī)器來執(zhí)行,其操作如圖4所示。當(dāng)執(zhí)行選定動(dòng)作后,反饋的調(diào)度決策為工件3的第2道工序在機(jī)器1上加工,此時(shí)由于存在功率限制,導(dǎo)致該動(dòng)作執(zhí)行后會(huì)使車間峰值功率超限。假設(shè)此時(shí)有可以替換的柔性執(zhí)行機(jī)器3且替換后不會(huì)導(dǎo)致車間峰值功率超限,便采用更換操作來執(zhí)行,更換機(jī)器3作為可執(zhí)行操作的機(jī)器。

    此外,為更好地求解PPCFJSP問題的調(diào)度過程,包括以下5種機(jī)器分配策略、18種工件分配規(guī)則,與兩種非法動(dòng)作處理操作共同構(gòu)成動(dòng)作空間。其中,18種工件分配策略由文獻(xiàn)[20]提到的16種分配策略和該文獻(xiàn)未提到的與SRM、SRPT相對的LRM、LRPT共同組成。在初始階段,機(jī)器分配策略與工件分配策略均為等概率隨機(jī)選擇。5種機(jī)器分配策略如下:①最小機(jī)器負(fù)荷優(yōu)先,優(yōu)先選擇待機(jī)序列中加工時(shí)間最少的機(jī)器;②最短加工時(shí)間優(yōu)先,優(yōu)先選擇該工序可選加工機(jī)器中加工時(shí)間最短的機(jī)器;③最少作業(yè)數(shù)量優(yōu)先,優(yōu)先選擇加工作業(yè)數(shù)量最少的機(jī)器;④最小功率優(yōu)先,優(yōu)先選擇空閑機(jī)器中功率最小的機(jī)器;⑤完全隨機(jī)分配,即隨機(jī)選擇機(jī)器。18種工件分配規(guī)則見表2。

    2.1.3 獎(jiǎng)勵(lì)設(shè)計(jì)

    因調(diào)度目標(biāo)結(jié)果均在全部工序安排完成后才能知曉,如果將調(diào)度目標(biāo)結(jié)果直接作為獎(jiǎng)勵(lì)函數(shù)的參數(shù),會(huì)導(dǎo)致獎(jiǎng)勵(lì)函數(shù)的反饋?zhàn)兊孟∈?,且輸出結(jié)果為一組動(dòng)作的綜合獎(jiǎng)勵(lì),無法判斷是否陷入局部最優(yōu),因此,需要將調(diào)度目標(biāo)進(jìn)行合理轉(zhuǎn)化,使得智能體執(zhí)行一個(gè)動(dòng)作后,根據(jù)當(dāng)前狀態(tài)和執(zhí)行的動(dòng)作立即得到獎(jiǎng)勵(lì)值作為反饋,使得調(diào)度過程的每一步都盡可能采取最優(yōu)策略,從而避免陷入局部最優(yōu)。為此,額外定義三個(gè)變量Ck(t)、Oi(t)和Uk(t):

    Uk(t)=(Ck(t))-1∑ni=1∑Oi(t)j=1∑mk=1(CijkXijk)(10)

    Ja=1n∑ni=1Oi(t)Ji(11)

    Ua=1m∑mk=1Uk(t)(12)

    Wa=1mUk(t)Ck(t)(13)

    Waa=1m∑mk=1[∑ni=1∑Oi(t)j=1(CijkXijk)-Wa)]2(14)

    其中,Ck(t)表示在t時(shí)刻機(jī)器k上已完成的最后一道工序的完工時(shí)間;Oi(t)表示在t時(shí)刻工件i已完成的工序數(shù)量;Uk(t)表示在t時(shí)刻機(jī)器k的利用率;式(11)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下工件的工序平均完成率;式(12)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下機(jī)器的平均利用率;式(13)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下機(jī)器的平均工作負(fù)載;式(14)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下機(jī)器工作負(fù)載的標(biāo)準(zhǔn)差。

    由式(10)~式(12)可以發(fā)現(xiàn),式中的指標(biāo)均與最大完工時(shí)間直接或間接相關(guān),所以最小化最大完工時(shí)間可以描述為使得機(jī)器利用率、工件完成率盡可能大。由于峰值功率約束直接影響到機(jī)器能否被選擇,而選擇延時(shí)或更換操作來處理非法操作均大概率會(huì)導(dǎo)致等待時(shí)間增加,故最小化最大機(jī)器負(fù)載可以描述為使得工作負(fù)載均勻分布在各個(gè)機(jī)器上的同時(shí)機(jī)器工作負(fù)載的標(biāo)準(zhǔn)差盡可能小。

    調(diào)度未完成時(shí),每執(zhí)行一個(gè)動(dòng)作后計(jì)算對應(yīng)的U′a、J′a、W′aa,通過比較前一狀態(tài)下的Ua、Ja、Waa進(jìn)行賦獎(jiǎng)勵(lì)值(reward)。本文獎(jiǎng)勵(lì)值的設(shè)置參考文獻(xiàn)[19]中的設(shè)置方法,在執(zhí)行一個(gè)動(dòng)作后如果機(jī)器平均利用率、工件平均完成率增加的同時(shí)機(jī)器平均工作負(fù)載標(biāo)準(zhǔn)差沒有增加,這種情況說明機(jī)器分布更加均勻,這一動(dòng)作是能夠使得兩個(gè)優(yōu)化目標(biāo)均減小的動(dòng)作,故給予一個(gè)較大獎(jiǎng)勵(lì)10;如果機(jī)器平均利用率、工件平均完成率增加的同時(shí)機(jī)器平均工作負(fù)載標(biāo)準(zhǔn)差增加,這種情況下對優(yōu)化最大完工時(shí)間是有益的,但不能完全認(rèn)為是最大機(jī)器工作負(fù)載的增加導(dǎo)致機(jī)器平均工作負(fù)載增加或考慮了均勻分布負(fù)載但由于該工序加工時(shí)間較長導(dǎo)致的機(jī)器平均工作負(fù)載增加,故給予一個(gè)較小的獎(jiǎng)勵(lì)1;如果機(jī)器平均利用率減小,這種情況下不能完全認(rèn)為是由最大機(jī)器工作負(fù)載增加導(dǎo)致的機(jī)器平均利用率減小或延時(shí)操作的存在而導(dǎo)致的機(jī)器平均利用率減小,故給予一個(gè)較小的懲罰-1。獎(jiǎng)勵(lì)設(shè)計(jì)偽代碼如下。

    偽代碼1:獎(jiǎng)勵(lì)設(shè)計(jì)偽代碼

    if 調(diào)度過程未完成

    if U′a-Uagt;0,J′a-Jagt;0

    if W′aa-Waa≤0

    reward=10

    else

    reward=1

    else

    reward=-1

    else

    終止調(diào)度,reward=-99

    end if

    2.2 改進(jìn)的D3QNPER算法設(shè)計(jì)

    D3QNPER算法是在DQN(Deep Q- Network)算法的基礎(chǔ)上發(fā)展起來的。由于DQN算法在求解過程中存在積極性偏差、高方差、非靜態(tài)目標(biāo)影響等問題,故在將PPCFJSP問題轉(zhuǎn)化為MDP問題后,需要進(jìn)一步對算法進(jìn)行改進(jìn),改進(jìn)D3QNPER算法的主要內(nèi)容包括:

    1)引入Double DQN算法改善積極性偏差。通過不同網(wǎng)絡(luò)解耦動(dòng)作選擇與評估,使用兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)來分別估計(jì)當(dāng)前狀態(tài)下的動(dòng)作值函數(shù)和目標(biāo)動(dòng)作值函數(shù)。其中一個(gè)網(wǎng)絡(luò)用于選擇動(dòng)作,另一個(gè)網(wǎng)絡(luò)用于評估選擇的動(dòng)作的價(jià)值。這種解耦的方式具體體現(xiàn)為使用θt決定的網(wǎng)絡(luò)選擇動(dòng)作a,再用θ-t決定的網(wǎng)絡(luò)計(jì)算Q值,這樣的改動(dòng)可以減少動(dòng)作價(jià)值的高估,從而減小積極性偏差,提高Q-learning算法的穩(wěn)定性和性能。此時(shí)目標(biāo)網(wǎng)絡(luò)的目標(biāo)函數(shù)變?yōu)?/p>

    Yt≡rt+1+γQ^(st+1,argmaxaQ(st+1,a;θt),θ-t)(15)

    式中:Yt為目標(biāo)網(wǎng)絡(luò)的目標(biāo)函數(shù);rt+1為下一動(dòng)作的獎(jiǎng)勵(lì);Q(s,a,θ)為計(jì)算Q值的函數(shù)。

    2)引入Dueling DQN優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來緩解神經(jīng)網(wǎng)絡(luò)的高方差問題。將動(dòng)作值函數(shù)分解為狀態(tài)值函數(shù)和優(yōu)勢函數(shù)。狀態(tài)值函數(shù)表示在給定狀態(tài)下不同動(dòng)作的平均價(jià)值,而優(yōu)勢函數(shù)表示每個(gè)動(dòng)作相對于平均值的優(yōu)勢。通過Dueling DQN的優(yōu)化,神經(jīng)網(wǎng)絡(luò)可以更有效地學(xué)習(xí)狀態(tài)的價(jià)值和動(dòng)作的優(yōu)勢,從而提高了對動(dòng)作價(jià)值的估計(jì)效果,提高了算法的性能和效率。此時(shí)動(dòng)作值函數(shù)為

    Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)-

    1|A|∑a′A(s,a′;θ,α)(16)

    式中:θ為共享參數(shù);α為優(yōu)勢函數(shù)A的參數(shù);β為狀態(tài)值函數(shù)V的參數(shù);|A|為動(dòng)作空間的大小。

    3)引入PER DQN設(shè)定樣本優(yōu)先級,減小非靜態(tài)目標(biāo)的影響。通過引入優(yōu)先級隊(duì)列,根據(jù)樣本的TD誤差(temporal difference error)來賦予樣本優(yōu)先級,TD誤差可以被視為樣本的重要性指標(biāo)。通過優(yōu)先級采樣,網(wǎng)絡(luò)更多地關(guān)注那些對于當(dāng)前參數(shù)下預(yù)測不準(zhǔn)確的樣本,從而提高了訓(xùn)練的效率和收斂速度。改進(jìn)后的損失函數(shù)為

    Li(θi)=E(ωi(Yt-Q(s,a;θi)))2(17)

    式中:E為期望值函數(shù);ωi為重要性參數(shù)。

    D3QNPER算法結(jié)合了Double DQN、Dueling DQN和PER DQN算法的優(yōu)點(diǎn),進(jìn)一步提高了學(xué)習(xí)的效率和穩(wěn)定性,其算法流程如圖5所示,其中,每個(gè)episode表示一次完整調(diào)度過程。

    4)此外,設(shè)計(jì)一種引入噪聲的ε-貪婪遞減策略來增加算法的探索性,從而幫助算法更充分地探索環(huán)境。為平衡探索和利用,本文綜合noisy-greed和ε-greed兩種探索策略,在訓(xùn)練前期通過隨機(jī)策略和noisy-greed策略提高智能體的探索能力,在訓(xùn)練后期則更多地考慮利用已知信息中最優(yōu)的行為。探索和利用策略可以表示為

    at=argmax (s,a)"""" P=1-ε2

    argmax((s,a)+σε2)P=ε2-ε1

    randomP=ε1(18)

    ε2=max(εmin,(1-μ2)ε2)(19)

    ε1=max(εmin,(1-μ1)ε1)(20)

    式中:P為選擇對應(yīng)策略的概率;random為隨機(jī)一個(gè)動(dòng)作a,σ~N(0,1);εmin為遞減策略中最小ε值;μ1、μ2為遞減速率。

    對比使用引入噪聲的ε-貪婪遞減策略前后D3QNPER算法的reward值變化(圖6)可以發(fā)現(xiàn),使用該策略改進(jìn)D3QNPER算法網(wǎng)絡(luò)收斂速度和穩(wěn)定程度明顯提高,改進(jìn)后的算法獎(jiǎng)勵(lì)函數(shù)曲線明顯優(yōu)于改進(jìn)前,結(jié)果擁有更高的均值及穩(wěn)定性。

    在訓(xùn)練階段,本文將描述作業(yè)時(shí)間、考慮功率限制的調(diào)度結(jié)果和機(jī)器利用率三通道圖像作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入和輸出。偽代碼2描述了改進(jìn)D3QNPER算法求解MDP流程。在求解過程中,首先需要對環(huán)境進(jìn)行初始化,包括初始化估計(jì)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)、經(jīng)驗(yàn)池和優(yōu)先級隊(duì)列。然后進(jìn)行多輪訓(xùn)練。在每一輪訓(xùn)練中,根據(jù)調(diào)度方案的初始狀態(tài),在每個(gè)時(shí)間步中以一定的概率選擇動(dòng)作。概率通過ε的值來調(diào)整。當(dāng)ε較小時(shí),會(huì)盡可能選擇當(dāng)前Q值函數(shù)估計(jì)的最優(yōu)動(dòng)作;當(dāng)ε較大時(shí),會(huì)更多地進(jìn)行探索。執(zhí)行選擇的動(dòng)作后,觀察下一個(gè)狀態(tài)并計(jì)算獎(jiǎng)勵(lì)。然后將得到的經(jīng)驗(yàn)元組存入經(jīng)驗(yàn)池,并計(jì)算樣本的優(yōu)先級。當(dāng)滿足條件時(shí),從經(jīng)驗(yàn)池中采樣一批樣本,根據(jù)計(jì)算得到的目標(biāo)值和當(dāng)前Q值計(jì)算TD誤差。然后更新樣本的優(yōu)先級,并根據(jù)累積的權(quán)重更新量來執(zhí)行梯度下降,從而更新神經(jīng)網(wǎng)絡(luò)參數(shù)。在每一輪訓(xùn)練結(jié)束后,周期性地更新目標(biāo)網(wǎng)絡(luò)的參數(shù),將當(dāng)前的Q值函數(shù)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò)。整個(gè)過程循環(huán)執(zhí)行,直到達(dá)到預(yù)定的訓(xùn)練次數(shù)。最后將訓(xùn)練好的Q網(wǎng)絡(luò)作為輸出結(jié)果。

    偽代碼2:改進(jìn)D3QNPER算法求解MDP流程偽代碼

    初始化神經(jīng)網(wǎng)絡(luò)Q(s,a;θ)和目標(biāo)網(wǎng)絡(luò)Q^(s,a;θ-)

    初始化經(jīng)驗(yàn)池D和優(yōu)先級隊(duì)列P

    初始化參數(shù),誤差Δ=0,樣本優(yōu)先級p1=1

    對于episode=1∶M

    重置調(diào)度方案,生成初始化狀態(tài)s1

    對于t=1∶T

    以一定的概率ε選擇動(dòng)作at

    動(dòng)作at=argmax (s,a)"""" P=1-ε2

    argmax((s,a)+σε2)P=ε2-ε1

    randomP=ε1

    執(zhí)行動(dòng)作at,觀察下一個(gè)狀態(tài)st+1,計(jì)算獎(jiǎng)勵(lì)rt

    將(st,at,rt,st+1)存入經(jīng)驗(yàn)池D,優(yōu)先級pt=maxjlt;tpj

    如果k能夠被t整除(k為最小批量)

    對于i=1∶k

    從D中采樣

    令yi=ri

    當(dāng)前步數(shù)調(diào)度結(jié)束

    ri+γQ^(si+1,argmaxa(Q(si+1,

    a;θ)),θ-)其他

    計(jì)算當(dāng)前Q值:Qcur=Q(si,ai;θ)

    計(jì)算TD誤差:δ=(yi-Qcur)2

    更新優(yōu)先級:pi←δ

    累積權(quán)重更新量Δ←Δ+wiδθQ(si,ai)

    執(zhí)行梯度下降更新神經(jīng)網(wǎng)絡(luò)參數(shù):

    θ←θ+ηΔ (η為步長)

    Δ=0

    s=s′

    每隔C步更新Q^=Q

    返回Q網(wǎng)絡(luò)

    2.3 基于改進(jìn)D3QNPER算法的調(diào)度訓(xùn)練過程

    在應(yīng)用改進(jìn)D3QNPER算法進(jìn)行PPCFJSP問題的MDP求解訓(xùn)練時(shí),需要對動(dòng)作進(jìn)行合法性判斷,即在完成機(jī)器分配工件分配后,檢查調(diào)度環(huán)境中峰值功率是否超過設(shè)定上限,如果超過功率上限則需要執(zhí)行更換或延時(shí)操作,此后再循環(huán)此操作直至所有工序都已安排完畢;如果沒有超限則認(rèn)為此動(dòng)作合法,將狀態(tài)中對應(yīng)位置置為1。

    在調(diào)度任務(wù)分配流程的基礎(chǔ)上,基于改進(jìn)D3QNPER算法的調(diào)度過程可以分為訓(xùn)練、算法、測試三個(gè)層面。首先應(yīng)用本文設(shè)計(jì)的調(diào)度框架將車間的狀態(tài)、任務(wù)的特征、資源的可用性等信息傳遞到訓(xùn)練層構(gòu)成訓(xùn)練和驗(yàn)證過程使用的數(shù)據(jù)集。然后將訓(xùn)練集用于訓(xùn)練改進(jìn)D3QNPER網(wǎng)絡(luò),驗(yàn)證集用于調(diào)整網(wǎng)絡(luò)的超參數(shù)和監(jiān)控訓(xùn)練進(jìn)度,期間重復(fù)算法訓(xùn)練流程,進(jìn)一步優(yōu)化調(diào)度策略。最后在訓(xùn)練完成后,使用測試集對訓(xùn)練得到的調(diào)度策略進(jìn)行評估和驗(yàn)證。改進(jìn)D3QNPER求解PPCFJSP問題的過程如圖7所示。

    3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

    為驗(yàn)證D3QNPER算法在求解PPCFJSP問題時(shí)的優(yōu)越性,本文結(jié)合Benchmark標(biāo)準(zhǔn)算例,為其中Mk01~Mk15這15組擁有不同工件數(shù)、工序數(shù)、機(jī)器數(shù)的柔性作業(yè)車間調(diào)度問題標(biāo)準(zhǔn)測試集引入機(jī)器的加工功率集(表3),此時(shí)生成的測試集規(guī)模和參數(shù)見表4。

    對得到的新數(shù)據(jù)集DMk01-DMk15進(jìn)行等權(quán)重實(shí)驗(yàn)。實(shí)驗(yàn)程序在Windows 11 64位的個(gè)人計(jì)算機(jī)(CPU:AMD R7-6800H、內(nèi)存:16 GB)上運(yùn)行。語言環(huán)境基于Python 3.8.16,問題環(huán)境基于OpenAIGym,深度網(wǎng)絡(luò)基于Torch 2.1.0和Numpy 1.24.1編寫。

    3.1 改進(jìn)D3QNPER算法與單一調(diào)度規(guī)則對比

    在實(shí)驗(yàn)中,依據(jù)我國各地迎峰度夏冬負(fù)荷管理方案的相關(guān)要求,本文將企業(yè)生產(chǎn)車間最大功率限制為全部加工機(jī)器功率總和的一半。為了便于比較本文方法與單一調(diào)度規(guī)則的優(yōu)劣,以等權(quán)重對最大完工時(shí)間和機(jī)器最大負(fù)載兩個(gè)指標(biāo)的加權(quán)值作為評估值,選擇動(dòng)作空間中35種基于規(guī)則的調(diào)度方法與改進(jìn)的D3QNPER方法進(jìn)行對比,再將改進(jìn)的D3QNPER方法與和單一方式DQN優(yōu)化方法進(jìn)行對比,在全隨機(jī)機(jī)器分配策略下為獨(dú)立運(yùn)行20次的最優(yōu)結(jié)果,見表5??梢园l(fā)現(xiàn),改進(jìn)D3QNPER與任意調(diào)度規(guī)則相比較,均可得到較好結(jié)果。

    3.2 改進(jìn)D3QNPER算法與優(yōu)化DQN對比

    首先使用等權(quán)重評估值對算法效果進(jìn)行對比。表6表明,相同的MDP下,單一優(yōu)化DQN算法在各算例的訓(xùn)練測試結(jié)果一般優(yōu)于單一調(diào)度規(guī)則方法,但也存在樣本數(shù)據(jù)規(guī)模較大時(shí)訓(xùn)練結(jié)果劣于單一調(diào)度規(guī)則方法,而本文設(shè)計(jì)的改進(jìn)D3QNPER算法在每個(gè)算例下均優(yōu)于單一調(diào)度規(guī)則方法且表現(xiàn)最優(yōu)。

    為了更詳細(xì)地比較各DQN優(yōu)化方法差異性與本文設(shè)計(jì)算法的優(yōu)越性,以五個(gè)不同規(guī)模算例DMK03、DMK07、DMK10、DMK13、DMK15為例,以評估值作為指標(biāo)可以得到訓(xùn)練迭代測試結(jié)果變化,如圖8所示??梢杂^察到,改進(jìn)D3QNPER算法的收斂速度更快,輸出結(jié)果更穩(wěn)定,其求解性能優(yōu)于單一DQN及DQN改進(jìn)算法。

    同時(shí),依據(jù)Pareto最優(yōu)理論將所得數(shù)據(jù)轉(zhuǎn)化為二維散點(diǎn),可以得到三個(gè)算例的散點(diǎn)圖以及Pareto前沿,如圖9所示??梢园l(fā)現(xiàn)使用改進(jìn)D3QNPER算法得到的結(jié)果分布明顯更加靠近由各算法Pareto前沿組成的各測試算例真實(shí)的Pareto前沿,離散程度更低,與前文以評估值作為指標(biāo)得到的訓(xùn)練迭代測試結(jié)果變化一致,說明改進(jìn)的D3QNPER算法得到的Pareto解更優(yōu),更能滿足本文的優(yōu)化目標(biāo)。

    對比DMK07算例各算法reward變化(圖10)可以觀察到,Double DQN算法比DQN算法結(jié)果更具穩(wěn)定性,數(shù)據(jù)波動(dòng)明顯改善,收斂更加快速,但它對噪聲干擾的處理能力較差,因此導(dǎo)致訓(xùn)練后期出現(xiàn)較大偏差值;Dueling DQN與Double DQN算法效果無較大差別,但它對噪聲干擾的處理明顯優(yōu)于Double DQN算法;PER DQN算法能夠利用重要的經(jīng)驗(yàn)樣本,因而探索空間獲得的收益較DQN算法有明顯提升,但也存在探索能力減小,從而在算例中結(jié)果表現(xiàn)不盡如人意;而改進(jìn)的D3QNPER算法綜合了三者優(yōu)點(diǎn),在輸出效果整體上優(yōu)于其他算法。

    4 結(jié)語

    本文面向車間峰值功率受限這一特定約束,構(gòu)建了峰值功率受限單約束的柔性作業(yè)車間調(diào)度問題模型,提出了基于深度強(qiáng)化學(xué)習(xí)的調(diào)度框架,設(shè)計(jì)了改進(jìn)的D3QNPER算法求解該模型。其中包括設(shè)計(jì)了兩個(gè)用于應(yīng)對峰值功率超限的調(diào)度策略,設(shè)計(jì)了引入噪聲的ε貪婪遞減策略來提高算法的探索和利用能力。通過對比引入噪聲的ε貪婪遞減策略改進(jìn)前后的回報(bào)值可以發(fā)現(xiàn),改進(jìn)后的方法收斂更快、回報(bào)值更高。同時(shí),使用帶有峰值功率約束的Benchmark標(biāo)準(zhǔn)算例的實(shí)驗(yàn)結(jié)果表明,改進(jìn)D3QNPER算法在求解PPCFJSP問題時(shí),其求解能力優(yōu)于單一調(diào)度規(guī)則方法和單一DQN優(yōu)化方法。

    本文方法為求解峰值功率受限的柔性作業(yè)車間調(diào)度雙目標(biāo)優(yōu)化問題提供了有效解決方案。在實(shí)際生產(chǎn)中,生產(chǎn)調(diào)度往往需要面臨更為復(fù)雜的調(diào)度目標(biāo)和條件約束。后續(xù)研究可以進(jìn)一步考慮成本、排放等經(jīng)濟(jì)或綠色指標(biāo)或者其他條件約束等,或者探索動(dòng)態(tài)環(huán)境下柔性作業(yè)車間調(diào)度問題模型的算法設(shè)計(jì)與改進(jìn)策略等。

    參考文獻(xiàn):

    [1] 李凱文, 張濤, 王銳, 等. 基于深度強(qiáng)化學(xué)習(xí)的組合優(yōu)化研究進(jìn)展[J]. 自動(dòng)化學(xué)報(bào), 2021, 47(11):2521-2537.

    LI Kaiwen, ZHANG Tao, WANG Rui, et al. Research Reviews of Combinatorial Optimization Methods Based on Deep Reinforcement Learning[J]. Acta Automatica Sinica, 2021, 47(11):2521-2537.

    [2] 李穎俐, 李新宇, 高亮. 混合流水車間調(diào)度問題研究綜述[J]. 中國機(jī)械工程, 2020, 31(23):2798-2813.

    LI Yingli, LI Xinyu, GAO Liang. Review on Hybrid Flow Shop Scheduling Problems[J]. China Mechanical Engineering, 2020, 31(23):2798-2813.

    [3] 黎聲益, 馬玉敏, 劉鵑. 基于雙深度Q學(xué)習(xí)網(wǎng)絡(luò)的面向設(shè)備負(fù)荷穩(wěn)定的智能車間調(diào)度方法[J]. 計(jì)算機(jī)集成制造系統(tǒng), 2023, 29(1):91-99.

    LI Shengyi, MA Yumin, LIU Juan. Smart Shop Floor Scheduling Method for Equipment Load Stabilization Based on Double Deep Q-learning Network[J]. Computer Integrated Manufacturing Systems, 2023, 29(1):91-99.

    [4] 賀俊杰, 張潔, 張朋, 等. 基于長短期記憶近端策略優(yōu)化強(qiáng)化學(xué)習(xí)的等效并行機(jī)在線調(diào)度方法[J]. 中國機(jī)械工程, 2022, 33(3):329-338.

    HE Junjie, ZHANG Jie, ZHANG Peng, et al. Related Parallel Machine Online Scheduling Method Based on LSTM-PPO Reinforcement Learning[J]. China Mechanical Engineering, 2022, 33(3):329-338.

    [5] LIU Renke, PIPLANI R, TORO C. Deep Reinforcement Learning for Dynamic Scheduling of a Flexible Job Shop[J]. International Journal of Production Research, 2022, 60(13):4049-4069.

    [6] LI Yuxin, GU Wenbin, YUAN Minghai, et al. Real-time Data-driven Dynamic Scheduling for Flexible Job Shop with Insufficient Transportation Resources Using Hybrid Deep Q Network[J]. Robotics and Computer-Integrated Manufacturing, 2022, 74:102283.

    [7] WU Wenbo, HUANG Zhengdong, ZENG Jiani, et al. A Fast Decision-making Method for Process Planning with Dynamic Machining Resources via Deep Reinforcement Learning[J]. Journal of Manufacturing Systems, 2021, 58:392-411.

    [8] LEE Y H, LEE S. Deep Reinforcement Learning Based Scheduling within Production Plan in Semiconductor Fabrication[J]. Expert Systems with Applications, 2022, 191:116222.

    [9] HE Zhenglei, TRAN K P, THOMASSEY S, et al. Multi-objective Optimization of the Textile Manufacturing Process Using Deep-Q-network Based Multi-agent Reinforcement Learning[J]. Journal of Manufacturing Systems, 2022, 62:939-949.

    [10] 郭具濤, 呂佑龍, 戴錚, 等. 基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線調(diào)度方法[J]. 中國機(jī)械工程, 2023, 34(21):2600-2606.

    GUO Jutao, LYU Youlong, DAI Zheng, et al. Compound Rules and Reinforcement Learning Based Scheduling Method for Mixed Model Assembly Lines[J]. China Mechanical Engineering, 2023, 34(21):2600-2606.

    [11] 劉亞輝, 申興旺, 顧星海, 等. 面向柔性作業(yè)車間動(dòng)態(tài)調(diào)度的雙系統(tǒng)強(qiáng)化學(xué)習(xí)方法[J]. 上海交通大學(xué)學(xué)報(bào), 2022, 56(9):1262-1275.

    LIU Yahui, SHEN Xingwang, GU Xinghai, et al. A Dual-system Reinforcement Learning Method for Flexible Job Shop Dynamic Scheduling[J]. Journal of Shanghai Jiao Tong University, 2022, 56(9):1262-1275.

    [12] ZHANG Jiadong, HE Zhixiang, CHAN W H, et al. DeepMAG:Deep Reinforcement Learning with Multi-agent Graphs for Flexible Job Shop Scheduling[J]. Knowledge-Based Systems, 2023, 259:110083.

    [13] GUI Yong, TANG Dunbing, ZHU Haihua, et al. Dynamic Scheduling for Flexible Job Shop Using a Deep Reinforcement Learning Approach[J]. Computers amp; Industrial Engineering, 2023, 180:109255.

    [14] ZHANG Lu, FENG Yi, XIAO Qinge, et al. Deep Reinforcement Learning for Dynamic Flexible Job Shop Scheduling Problem Considering Variable Processing Times[J]. Journal of Manufacturing Systems, 2023, 71:257-273.

    [15] 何彥, 王樂祥, 李育鋒, 等. 一種面向機(jī)械車間柔性工藝路線的加工任務(wù)節(jié)能調(diào)度方法[J]. 機(jī)械工程學(xué)報(bào), 2016, 52(19):168-179.

    HE Yan, WANG Lexiang, LI Yufeng, et al. A Scheduling Method for Reducing Energy Consumption of Machining Job Shops Considering the Flexible Process Plan[J]. Journal of Mechanical Engineering, 2016, 52(19):168-179.

    [16] DU Yu, LI Junqing, LI Chengdong, et al. A Reinforcement Learning Approach for Flexible Job Shop Scheduling Problem with Crane Transportation and Setup Times[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(4):5695-5709.

    [17] NAIMI R, NOUIRI M, CARDIN O. A Q-learning Rescheduling Approach to the Flexible Job Shop Problem Combining Energy and Productivity Objectives[J]. Sustainability, 2021, 13(23):13016.

    [18] LI Rui, GONG Wenyin, LU Chao, et al. A Learning-based Memetic Algorithm for Energy-efficient Flexible Job-shop Scheduling with Type-2 Fuzzy Processing Time[J]. IEEE Transactions on Evolutionary Computation, 2023, 27(3):610-620.

    [19] 張凱, 畢利, 焦小剛. 集成強(qiáng)化學(xué)習(xí)算法的柔性作業(yè)車間調(diào)度問題研究[J]. 中國機(jī)械工程, 2023, 34(2):201-207.

    ZHANG Kai, BI Li, JIAO Xiaogang. Research on Flexible Job-shop Scheduling Problems with Integrated Reinforcement Learning Algorithm[J]. China Mechanical Engineering, 2023, 34(2):201-207.

    [20] 陳睿奇, 黎雯馨, 王傳洋, 等. 基于深度強(qiáng)化學(xué)習(xí)的工序交互式智能體Job shop調(diào)度方法[J]. 機(jī)械工程學(xué)報(bào), 2023, 59(12):78-88.

    CHEN Ruiqi, LI Wenxin, WANG Chuanyang, et al. Interactive Operation Agent Scheduling Method for Job Shop Based on Deep Reinforcement Learning[J]. Journal of Mechanical Engineering, 2023, 59(12):78-88.

    (編輯 陳 勇)

    作者簡介:李益兵,男,1978年生,教授。研究方向?yàn)檐囬g調(diào)度與優(yōu)化等,發(fā)表論文50余篇。E-mail:ahlyb@whut.edu.cn。

    郭 鈞*(通信作者),男,1982年生,副教授。研究方向?yàn)橹圃煜到y(tǒng)決策與優(yōu)化,發(fā)表論文20余篇。E-mail:Junguo@whut.edu.cn。

    本文引用格式:李益兵,曹巖,郭鈞,等.考慮峰值功率受限約束的柔性作業(yè)車間調(diào)度研究[J]. 中國機(jī)械工程,2025,36(2):280-293.

    LI Yibing, CAO Yan, GUO Jun, et al. Research on Flexible Job-shop Scheduling Considering Constraints of Peak Power Constrained[J]. China Mechanical Engineering, 2025, 36(2):280-293.

    基金項(xiàng)目:國家自然科學(xué)基金(52305552,52375510)

    猜你喜歡
    深度強(qiáng)化學(xué)習(xí)
    基于DDPG算法的路徑規(guī)劃研究
    基于深度強(qiáng)化學(xué)習(xí)的木材缺陷圖像重構(gòu)及質(zhì)量評價(jià)模型研究
    基于深度強(qiáng)化學(xué)習(xí)與圖像智能識別的輸電線路在線監(jiān)測系統(tǒng)
    基于云控制的業(yè)務(wù)服務(wù)機(jī)器人系統(tǒng)設(shè)計(jì)
    人工智能深度強(qiáng)化學(xué)習(xí)的原理與核心技術(shù)探究
    基于人工智能的無人機(jī)區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
    基于策略梯度算法的工作量證明中挖礦困境研究
    基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
    關(guān)于人工智能阿法元綜述
    商情(2019年14期)2019-06-15 10:20:13
    深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
    在线观看一区二区三区激情| 精品人妻熟女毛片av久久网站| 国产女主播在线喷水免费视频网站| 精品国产一区二区久久| 丁香六月欧美| 欧美日韩亚洲高清精品| 日本黄色日本黄色录像| 在线观看免费日韩欧美大片| 久久综合国产亚洲精品| 韩国av在线不卡| 亚洲精品久久成人aⅴ小说| 大陆偷拍与自拍| 日本午夜av视频| 久久综合国产亚洲精品| 女人被躁到高潮嗷嗷叫费观| 黄色视频不卡| 国产国语露脸激情在线看| 天美传媒精品一区二区| 啦啦啦啦在线视频资源| 国产不卡av网站在线观看| 交换朋友夫妻互换小说| 男女国产视频网站| 国产精品熟女久久久久浪| 男女午夜视频在线观看| 最近中文字幕2019免费版| 国产欧美日韩综合在线一区二区| 最近中文字幕高清免费大全6| 韩国高清视频一区二区三区| 亚洲精品美女久久av网站| 亚洲精品视频女| 男女边吃奶边做爰视频| 男男h啪啪无遮挡| 一边摸一边抽搐一进一出视频| 韩国高清视频一区二区三区| 一区福利在线观看| 国产黄色免费在线视频| 人人妻人人添人人爽欧美一区卜| 激情视频va一区二区三区| 亚洲国产毛片av蜜桃av| 国产成人一区二区在线| 精品少妇黑人巨大在线播放| 人人妻人人澡人人爽人人夜夜| 日韩av不卡免费在线播放| 亚洲国产欧美一区二区综合| 哪个播放器可以免费观看大片| 少妇的丰满在线观看| 亚洲国产中文字幕在线视频| 天堂8中文在线网| 免费日韩欧美在线观看| 老熟女久久久| tube8黄色片| 人妻一区二区av| 天堂中文最新版在线下载| 国产精品无大码| 久久久久视频综合| 精品第一国产精品| 91精品伊人久久大香线蕉| 亚洲,一卡二卡三卡| 亚洲成人一二三区av| 国产毛片在线视频| 亚洲精品,欧美精品| 亚洲欧洲精品一区二区精品久久久 | 色综合欧美亚洲国产小说| 日韩免费高清中文字幕av| 精品人妻一区二区三区麻豆| 国产伦人伦偷精品视频| 各种免费的搞黄视频| 又黄又粗又硬又大视频| 久久精品aⅴ一区二区三区四区| 纵有疾风起免费观看全集完整版| 成人影院久久| 中文字幕亚洲精品专区| 精品国产一区二区三区久久久樱花| 国产一区二区在线观看av| 精品少妇久久久久久888优播| 又黄又粗又硬又大视频| 亚洲熟女毛片儿| 久久精品国产a三级三级三级| 男人舔女人的私密视频| 国产亚洲av片在线观看秒播厂| 午夜福利乱码中文字幕| 深夜精品福利| av有码第一页| 老司机影院毛片| 母亲3免费完整高清在线观看| 国产极品天堂在线| 观看av在线不卡| 国产成人免费观看mmmm| 中文字幕最新亚洲高清| 欧美乱码精品一区二区三区| 成年动漫av网址| 母亲3免费完整高清在线观看| 激情五月婷婷亚洲| 三上悠亚av全集在线观看| 久久久久久久久久久免费av| 日韩大片免费观看网站| 少妇人妻精品综合一区二区| kizo精华| 午夜老司机福利片| av国产久精品久网站免费入址| 精品亚洲成a人片在线观看| 在线天堂最新版资源| 狂野欧美激情性xxxx| 免费日韩欧美在线观看| 人人妻人人爽人人添夜夜欢视频| 99香蕉大伊视频| 毛片一级片免费看久久久久| 久久狼人影院| 国产 一区精品| 黄色毛片三级朝国网站| 新久久久久国产一级毛片| 免费女性裸体啪啪无遮挡网站| 国产男女内射视频| 亚洲精品国产区一区二| 中文字幕人妻丝袜制服| 久久午夜综合久久蜜桃| 丝瓜视频免费看黄片| 欧美日韩一区二区视频在线观看视频在线| 中文字幕色久视频| 一级a爱视频在线免费观看| 亚洲精华国产精华液的使用体验| 日韩不卡一区二区三区视频在线| 国产老妇伦熟女老妇高清| 国产午夜精品一二区理论片| 久久精品久久久久久噜噜老黄| 精品卡一卡二卡四卡免费| 一级爰片在线观看| 免费人妻精品一区二区三区视频| 丝袜美足系列| 美女中出高潮动态图| 亚洲精品自拍成人| 国产99久久九九免费精品| 亚洲精品一区蜜桃| 男的添女的下面高潮视频| 国产人伦9x9x在线观看| 日韩制服丝袜自拍偷拍| 日韩av不卡免费在线播放| 国产成人av激情在线播放| 成年av动漫网址| 美女脱内裤让男人舔精品视频| av又黄又爽大尺度在线免费看| 777久久人妻少妇嫩草av网站| 人妻一区二区av| 亚洲欧美成人综合另类久久久| 一本久久精品| 亚洲,欧美精品.| 操出白浆在线播放| 丝袜脚勾引网站| 免费在线观看完整版高清| 欧美日韩福利视频一区二区| 中文乱码字字幕精品一区二区三区| 免费看不卡的av| 亚洲天堂av无毛| 好男人视频免费观看在线| 欧美在线黄色| 男人操女人黄网站| 一区二区三区乱码不卡18| 成年动漫av网址| 欧美日韩视频精品一区| 色婷婷久久久亚洲欧美| 国产在线免费精品| 免费av中文字幕在线| 999精品在线视频| 叶爱在线成人免费视频播放| 9色porny在线观看| 巨乳人妻的诱惑在线观看| 黄片大片在线免费观看| 国产伦一二天堂av在线观看| 日韩欧美三级三区| 狂野欧美激情性xxxx| 不卡av一区二区三区| 亚洲一区中文字幕在线| 免费在线观看日本一区| 亚洲人成网站在线播放欧美日韩| 久久精品国产亚洲av香蕉五月| av有码第一页| 少妇裸体淫交视频免费看高清 | 久久人人爽av亚洲精品天堂| 变态另类成人亚洲欧美熟女 | 搞女人的毛片| 亚洲av成人av| 国产激情久久老熟女| 妹子高潮喷水视频| 男女下面插进去视频免费观看| 黄色a级毛片大全视频| 91成人精品电影| 视频在线观看一区二区三区| 欧美乱色亚洲激情| 精品乱码久久久久久99久播| 精品午夜福利视频在线观看一区| 18禁观看日本| 十八禁人妻一区二区| 亚洲精品av麻豆狂野| 成人三级黄色视频| 操出白浆在线播放| 老熟妇乱子伦视频在线观看| 国产精品自产拍在线观看55亚洲| 高潮久久久久久久久久久不卡| 天天躁狠狠躁夜夜躁狠狠躁| 99香蕉大伊视频| 亚洲国产精品合色在线| 黑丝袜美女国产一区| 国产高清videossex| 大型黄色视频在线免费观看| 亚洲五月天丁香| 男男h啪啪无遮挡| 在线观看免费视频网站a站| 男人操女人黄网站| 精品不卡国产一区二区三区| 香蕉丝袜av| 成人18禁高潮啪啪吃奶动态图| 久久欧美精品欧美久久欧美| 在线观看午夜福利视频| 欧美国产精品va在线观看不卡| 国产又色又爽无遮挡免费看| 亚洲精品粉嫩美女一区| 一级a爱片免费观看的视频| 亚洲精品国产精品久久久不卡| 黄色视频,在线免费观看| 如日韩欧美国产精品一区二区三区| 伦理电影免费视频| 九色亚洲精品在线播放| 午夜久久久久精精品| 又紧又爽又黄一区二区| av视频免费观看在线观看| 两个人视频免费观看高清| 精品午夜福利视频在线观看一区| 天天一区二区日本电影三级 | tocl精华| 可以在线观看毛片的网站| 久久人人97超碰香蕉20202| 国产精品av久久久久免费| 亚洲av电影不卡..在线观看| 一级a爱视频在线免费观看| 欧美午夜高清在线| 免费在线观看亚洲国产| 每晚都被弄得嗷嗷叫到高潮| 日韩大码丰满熟妇| 亚洲午夜精品一区,二区,三区| 美女高潮到喷水免费观看| 国产精品 欧美亚洲| 亚洲伊人色综图| 午夜免费激情av| 两性午夜刺激爽爽歪歪视频在线观看 | 国产激情欧美一区二区| 一区福利在线观看| 精品久久蜜臀av无| 一区二区三区高清视频在线| 91国产中文字幕| 老司机深夜福利视频在线观看| 在线天堂中文资源库| 一卡2卡三卡四卡精品乱码亚洲| 亚洲专区中文字幕在线| 丝袜人妻中文字幕| 精品福利观看| 亚洲av熟女| 亚洲av成人一区二区三| av有码第一页| 国产成人av激情在线播放| av欧美777| 非洲黑人性xxxx精品又粗又长| 一边摸一边做爽爽视频免费| av网站免费在线观看视频| 男男h啪啪无遮挡| 亚洲av美国av| 成人18禁高潮啪啪吃奶动态图| 美女午夜性视频免费| 人人妻人人澡人人看| 国产精品亚洲一级av第二区| 日本a在线网址| 91精品国产国语对白视频| 免费av毛片视频| 中出人妻视频一区二区| 波多野结衣av一区二区av| 操出白浆在线播放| 免费在线观看影片大全网站| 两性夫妻黄色片| 国产精品一区二区精品视频观看| 亚洲精品中文字幕一二三四区| 国产成人免费无遮挡视频| 欧美激情 高清一区二区三区| 欧美丝袜亚洲另类 | 首页视频小说图片口味搜索| 神马国产精品三级电影在线观看 | 久久久久国内视频| 国产乱人伦免费视频| 极品教师在线免费播放| 亚洲国产欧美网| 亚洲精品美女久久久久99蜜臀| 欧美另类亚洲清纯唯美| 巨乳人妻的诱惑在线观看| 很黄的视频免费| 国产一区二区三区视频了| 麻豆av在线久日| 不卡av一区二区三区| 精品久久久久久久毛片微露脸| 中文字幕久久专区| 亚洲成av片中文字幕在线观看| 免费久久久久久久精品成人欧美视频| 精品国产一区二区三区四区第35| 桃色一区二区三区在线观看| 国产男靠女视频免费网站| 一区在线观看完整版| 国产亚洲精品久久久久久毛片| 欧美激情高清一区二区三区| 久久精品亚洲精品国产色婷小说| 嫩草影院精品99| 欧洲精品卡2卡3卡4卡5卡区| 在线观看www视频免费| 最近最新中文字幕大全免费视频| 丁香六月欧美| 成人三级黄色视频| 欧美色欧美亚洲另类二区 | 婷婷丁香在线五月| 日韩成人在线观看一区二区三区| 夜夜夜夜夜久久久久| 嫩草影视91久久| 在线观看日韩欧美| 日韩免费av在线播放| 久久九九热精品免费| 精品不卡国产一区二区三区| 一级片免费观看大全| 不卡av一区二区三区| 久久中文字幕人妻熟女| 9191精品国产免费久久| 国产一区二区激情短视频| 啦啦啦观看免费观看视频高清 | 欧美乱码精品一区二区三区| 欧美日韩亚洲综合一区二区三区_| 国产1区2区3区精品| 亚洲精品美女久久久久99蜜臀| 最近最新中文字幕大全电影3 | 欧美激情极品国产一区二区三区| 日日爽夜夜爽网站| 一进一出好大好爽视频| av片东京热男人的天堂| 亚洲欧美日韩另类电影网站| 欧美激情高清一区二区三区| 久久人人爽av亚洲精品天堂| 国产一区在线观看成人免费| 亚洲一卡2卡3卡4卡5卡精品中文| 黄色成人免费大全| 亚洲狠狠婷婷综合久久图片| 国产片内射在线| 亚洲少妇的诱惑av| 午夜精品在线福利| 亚洲色图av天堂| 国产午夜精品久久久久久| 亚洲欧美精品综合久久99| 每晚都被弄得嗷嗷叫到高潮| 18美女黄网站色大片免费观看| 99国产精品99久久久久| 久热这里只有精品99| 国产单亲对白刺激| 午夜视频精品福利| 大型av网站在线播放| 精品国内亚洲2022精品成人| 日本 av在线| 欧美色视频一区免费| 在线十欧美十亚洲十日本专区| 亚洲激情在线av| 非洲黑人性xxxx精品又粗又长| 国产精品1区2区在线观看.| 日韩欧美三级三区| e午夜精品久久久久久久| 欧美精品啪啪一区二区三区| 亚洲精品美女久久久久99蜜臀| 中文字幕色久视频| 身体一侧抽搐| 一夜夜www| 国产精品电影一区二区三区| 99re在线观看精品视频| 在线观看日韩欧美| 精品福利观看| 露出奶头的视频| 亚洲精品国产色婷婷电影| 亚洲全国av大片| 亚洲五月天丁香| 搡老熟女国产l中国老女人| 国产精品久久久av美女十八| 国产精华一区二区三区| 老司机深夜福利视频在线观看| www.999成人在线观看| 97超级碰碰碰精品色视频在线观看| 又黄又爽又免费观看的视频| 他把我摸到了高潮在线观看| 国内精品久久久久久久电影| 亚洲中文字幕日韩| 久久精品国产亚洲av高清一级| 欧美最黄视频在线播放免费| 男人舔女人下体高潮全视频| 一进一出抽搐动态| 国产亚洲精品久久久久久毛片| 狠狠狠狠99中文字幕| 真人做人爱边吃奶动态| 1024香蕉在线观看| 性欧美人与动物交配| 丝袜在线中文字幕| 国产精品久久久久久人妻精品电影| 窝窝影院91人妻| 亚洲第一青青草原| 精品欧美一区二区三区在线| 一进一出抽搐gif免费好疼| 中国美女看黄片| 757午夜福利合集在线观看| 色综合站精品国产| 人人澡人人妻人| 色综合亚洲欧美另类图片| 十分钟在线观看高清视频www| 久久人人精品亚洲av| 99久久综合精品五月天人人| 丰满的人妻完整版| 亚洲欧美日韩高清在线视频| 久久久国产精品麻豆| 在线观看舔阴道视频| 性色av乱码一区二区三区2| 曰老女人黄片| 嫁个100分男人电影在线观看| 亚洲中文字幕日韩| 一进一出抽搐动态| 亚洲全国av大片| 如日韩欧美国产精品一区二区三区| 极品教师在线免费播放| 免费久久久久久久精品成人欧美视频| 日韩中文字幕欧美一区二区| 国产精品二区激情视频| 男人的好看免费观看在线视频 | 国产精品,欧美在线| 自拍欧美九色日韩亚洲蝌蚪91| 男人舔女人的私密视频| 日本一区二区免费在线视频| 精品福利观看| 国产av又大| 精品电影一区二区在线| 久久这里只有精品19| 亚洲欧美日韩无卡精品| 国产av一区在线观看免费| 宅男免费午夜| 99精品在免费线老司机午夜| 国产精品自产拍在线观看55亚洲| 老熟妇乱子伦视频在线观看| 久久九九热精品免费| 18禁观看日本| 99久久综合精品五月天人人| 宅男免费午夜| 成人精品一区二区免费| 满18在线观看网站| 亚洲 欧美 日韩 在线 免费| 无人区码免费观看不卡| 亚洲国产看品久久| 久久久久久久久免费视频了| 精品久久久久久久毛片微露脸| 国产精品乱码一区二三区的特点 | 每晚都被弄得嗷嗷叫到高潮| 欧美丝袜亚洲另类 | 看免费av毛片| 亚洲精品在线观看二区| 视频在线观看一区二区三区| 亚洲午夜精品一区,二区,三区| 啦啦啦免费观看视频1| 精品欧美一区二区三区在线| 村上凉子中文字幕在线| 久久九九热精品免费| 国产成+人综合+亚洲专区| 国产三级黄色录像| 国产精品 欧美亚洲| 欧美av亚洲av综合av国产av| 久久性视频一级片| 欧美日韩瑟瑟在线播放| 亚洲精品国产精品久久久不卡| 久久国产亚洲av麻豆专区| 午夜福利,免费看| 国产av一区在线观看免费| 大型黄色视频在线免费观看| 一本久久中文字幕| 老司机深夜福利视频在线观看| 久久久久久大精品| 50天的宝宝边吃奶边哭怎么回事| 精品人妻在线不人妻| 欧美日韩亚洲国产一区二区在线观看| 在线视频色国产色| 十分钟在线观看高清视频www| 波多野结衣高清无吗| 国产国语露脸激情在线看| 女人被躁到高潮嗷嗷叫费观| 成年人黄色毛片网站| 中文亚洲av片在线观看爽| a级毛片在线看网站| av免费在线观看网站| 色播亚洲综合网| 曰老女人黄片| 人成视频在线观看免费观看| www日本在线高清视频| 国产亚洲精品久久久久5区| 一本综合久久免费| 国内毛片毛片毛片毛片毛片| 欧美乱码精品一区二区三区| 亚洲人成77777在线视频| 亚洲一区二区三区不卡视频| 99riav亚洲国产免费| 黑人巨大精品欧美一区二区蜜桃| 亚洲精品国产一区二区精华液| 91精品三级在线观看| 亚洲专区字幕在线| 99riav亚洲国产免费| 老司机靠b影院| 国产麻豆成人av免费视频| 中文字幕人成人乱码亚洲影| 看免费av毛片| 亚洲av熟女| 黄色 视频免费看| 十分钟在线观看高清视频www| 欧美午夜高清在线| 91在线观看av| a在线观看视频网站| 亚洲伊人色综图| 亚洲第一电影网av| 亚洲人成77777在线视频| 一级a爱视频在线免费观看| bbb黄色大片| 男人舔女人下体高潮全视频| 亚洲精品av麻豆狂野| 99国产精品一区二区蜜桃av| 不卡一级毛片| 国产成人一区二区三区免费视频网站| 日韩欧美一区视频在线观看| 亚洲色图综合在线观看| cao死你这个sao货| 每晚都被弄得嗷嗷叫到高潮| 一卡2卡三卡四卡精品乱码亚洲| 天堂√8在线中文| 欧美日韩瑟瑟在线播放| 在线观看日韩欧美| 久久亚洲精品不卡| 久久久久久久久中文| 国产精品久久视频播放| 神马国产精品三级电影在线观看 | 免费在线观看亚洲国产| 午夜免费观看网址| 亚洲一区二区三区不卡视频| 两性夫妻黄色片| 国产精品久久久av美女十八| 一级毛片女人18水好多| 高清黄色对白视频在线免费看| 久久久久久人人人人人| 日本三级黄在线观看| 露出奶头的视频| 国产精品亚洲一级av第二区| 欧美丝袜亚洲另类 | 国产熟女xx| 国产精华一区二区三区| 一级a爱片免费观看的视频| 国内精品久久久久精免费| 高清黄色对白视频在线免费看| 一进一出抽搐gif免费好疼| 国产激情久久老熟女| 90打野战视频偷拍视频| 亚洲三区欧美一区| 中文字幕色久视频| 久久久水蜜桃国产精品网| 亚洲色图av天堂| 国产精品秋霞免费鲁丝片| 国产一卡二卡三卡精品| 欧美乱色亚洲激情| 国产欧美日韩一区二区精品| 国产主播在线观看一区二区| 国产亚洲精品综合一区在线观看 | 电影成人av| 日韩欧美国产一区二区入口| 亚洲天堂国产精品一区在线| 国内毛片毛片毛片毛片毛片| 亚洲国产欧美日韩在线播放| 校园春色视频在线观看| videosex国产| 一区二区三区激情视频| 自拍欧美九色日韩亚洲蝌蚪91| 久久久久久国产a免费观看| 又紧又爽又黄一区二区| 欧美中文日本在线观看视频| 国产黄a三级三级三级人| 国产精品一区二区精品视频观看| 日本vs欧美在线观看视频| 国产成年人精品一区二区| 久久精品亚洲熟妇少妇任你| 一进一出抽搐动态| 国产精品,欧美在线| 欧美精品啪啪一区二区三区| 国产麻豆成人av免费视频| 宅男免费午夜| 757午夜福利合集在线观看| 无人区码免费观看不卡| 日韩欧美三级三区| 亚洲午夜精品一区,二区,三区| 精品一区二区三区四区五区乱码| 88av欧美| 欧美精品亚洲一区二区| 亚洲一区高清亚洲精品| 黄色视频不卡| 午夜两性在线视频| 亚洲欧美精品综合久久99| 90打野战视频偷拍视频| 国产午夜福利久久久久久| 精品久久久久久成人av| 国产精品av久久久久免费| 丝袜在线中文字幕| 国产av一区在线观看免费| 黄频高清免费视频| 亚洲 国产 在线| 国产在线精品亚洲第一网站| 一个人观看的视频www高清免费观看 | 人人妻人人爽人人添夜夜欢视频| 搞女人的毛片| 美女 人体艺术 gogo| 国产精品,欧美在线| 日韩精品中文字幕看吧|