郭 劍,史耀耀,胡 昊,陳 振,張軍鋒,趙 盼
(1.西北工業(yè)大學(xué)機電學(xué)院,西安 710072;2.西北工業(yè)大學(xué)航空發(fā)動機高性能制造工業(yè)和信息化部重點實驗室,西安 710072;3.西安建筑科技大學(xué)機電工程學(xué)院,西安 710055)
隨著計算機技術(shù)、傳感器技術(shù)、無線通信技術(shù)和機器人技術(shù)快速發(fā)展,制造業(yè)正向高度自動化和智能化方向發(fā)展[1]。自新冠肺炎全球蔓延以來,5G技術(shù)、大數(shù)據(jù)中心、工業(yè)物聯(lián)網(wǎng)、人工智能和機器人技術(shù)在“抗疫”中發(fā)揮了極大作用,力促我國加速工業(yè)“新基建”的投入。在這一背景下,企業(yè)將大量使用移動機器人和自動導(dǎo)引運輸車(Automated guided vehicle,AGV)進行車間調(diào)度和倉庫物料配送,實現(xiàn)智能化生產(chǎn)和供應(yīng)鏈管理[2]。
當前,制造企業(yè)面臨著激烈的市場競爭和不斷上升的制造成本等方面的挑戰(zhàn),同時產(chǎn)品需求頻繁波動也給企業(yè)帶來較大壓力[3]。而物料調(diào)度不僅能夠優(yōu)化完工時間,同時在遵從客戶需求下能夠找到設(shè)備、路徑和運送時間等的最佳組合。近幾年國內(nèi)外對于物料機器人調(diào)度方面的研究主要集中于傳統(tǒng)靜態(tài)調(diào)度問題,即在所有信息穩(wěn)定且已知的情況下通過啟發(fā)算法求解。朱琳等[4]提出了一種改進的遺傳算法進行自動導(dǎo)航小車的任務(wù)分配和任務(wù)排序優(yōu)化。Mousavi等[5]結(jié)合遺傳算法和粒子群算法優(yōu)化柔性車間中的多目標AGV調(diào)度問題。Gen等[6]以最小完工時間為優(yōu)化目標,應(yīng)用基于混合優(yōu)先級的遺傳算法求解AGV調(diào)度問題。Jerald等[7]提出自適應(yīng)的遺傳算法和蟻群算法,以實現(xiàn)AGV調(diào)度中的綜合懲罰成本和機器空閑時間的最小化。Batur等[8]在兩種鄰域結(jié)構(gòu)下應(yīng)用模擬退火啟發(fā)算法求解混流車間(Hybrid flow shop,HFS)中的物料機器人調(diào)度問題,并通過對比驗證了該方法的有效性。Zabihzadeh等[9]應(yīng)用雙信息素的蟻群算法和遺傳算法分別優(yōu)化混流車間中多物料機器人調(diào)度問題,結(jié)果表明遺傳算法性能更優(yōu)。然而,在實際生產(chǎn)中,難以提前獲知所有加工任務(wù)信息,并且在動態(tài)的車間環(huán)境中存在諸多不確定信息(如緊急任務(wù),設(shè)備故障,任務(wù)返工等),因此難以將靜態(tài)調(diào)度用于實際生產(chǎn)中。
近年來,由于無線射頻識別和條形碼等工業(yè)物聯(lián)網(wǎng)技術(shù)已逐步擴展到制造環(huán)境中,車間實時數(shù)據(jù)經(jīng)多源數(shù)據(jù)融合處理后形成制造業(yè)的大數(shù)據(jù)環(huán)境[10]。而這些來自各種傳感器的實時數(shù)據(jù)流并不能直接適用于傳統(tǒng)的物料處理系統(tǒng),因此,越來越多的學(xué)者開始關(guān)注物料機器人實時調(diào)度問題,以解決運行環(huán)境中動態(tài)調(diào)度問題。Lee等[11]指出在實時數(shù)據(jù)環(huán)境下,制造系統(tǒng)中的物料處理系統(tǒng)將更加高效。Zhang等[12]基于AGV實時狀態(tài)提出物料運送的優(yōu)先策略用于物料調(diào)度。Li等[13]提出了同時面臨多個客戶需求時的智能倉庫系統(tǒng)AGV調(diào)度機制。研究表明,在車間調(diào)度中使用多種調(diào)度規(guī)則(Multiple scheduling rules,MSRs)比使用單一調(diào)度規(guī)則能更大程度地提高生產(chǎn)效率[14],劉想德[15]應(yīng)用層次分析法(Analytic hierarchy process,AHP)在組合規(guī)則中選擇調(diào)度規(guī)則,避免了傳統(tǒng)調(diào)度人員在制定調(diào)度方案時憑借經(jīng)驗或自己偏好選擇調(diào)度規(guī)則。上述文獻中,多在實時環(huán)境下應(yīng)用先進先出(First come first served,F(xiàn)CFS),最短距離(Shortest distance first,SDF)和最早截止時間 (Earliest due date first,EDD)等規(guī)則調(diào)度物料機器人,或基于傳統(tǒng)知識庫選擇規(guī)則,因此實時適應(yīng)性較差。
為解決上述問題,越來越多的學(xué)者開始應(yīng)用強化學(xué)習(xí)算法求解車間物料調(diào)度問題。Wang[16]提出基于加權(quán)的強化學(xué)習(xí)車間自適應(yīng)調(diào)度方法,通過聚類和動態(tài)搜索確定適合策略。另外Zhang等[17]通過融合遙感信息和AGV信息實時共享,并優(yōu)化AGV速度避免碰撞,同時提出緊急任務(wù)超車策略實現(xiàn)AGV調(diào)度。Shahrabi等[18]引入帶有Q因子的強化學(xué)習(xí)算法以提高動態(tài)車間調(diào)度性能,仿真結(jié)果表明該方法相比傳統(tǒng)單規(guī)則調(diào)度和鄰域搜索,優(yōu)化性能較高。
盡管上述文獻中物料機器人調(diào)度研究取得了一些研究成果,但考慮到在工業(yè)物聯(lián)網(wǎng)下車間調(diào)度屬于復(fù)雜的實時優(yōu)化問題,且鮮有涉及大批量和多種類任務(wù)的動態(tài)混流車間調(diào)度問題的相關(guān)研究。因此本文提出應(yīng)用SP–MCTS的機器人自適應(yīng)調(diào)度方法,是在基于工業(yè)物聯(lián)網(wǎng)的混流車間中以最小化完工時間和延遲率為優(yōu)化目標,將調(diào)度系統(tǒng)實時信息作為輸入狀態(tài),通過搜索學(xué)習(xí)快速選出實時狀態(tài)下適應(yīng)的調(diào)度規(guī)則和機器人,然后發(fā)送調(diào)度指令進行工件運送。最后通過模擬試驗對所提方法進行分析評估,驗證其可靠性和有效性。
混流車間中物料機器人的調(diào)度問題可以描述為:多組工件je={1,2,…,ne}需經(jīng)Oj1→Oj2→,…,→Ojs道工序加工。每道工序S={1,2,…,s}內(nèi)有Mk≥1個同類并行設(shè)備,且工件j只能占用工序內(nèi)一臺平行設(shè)備加工。R個機器人對線內(nèi)物料進行卸載、運送、裝載。由于各工序間不設(shè)緩沖工位,物料完成加工后將在設(shè)備上等待運送,因此當阻塞發(fā)生時機器人選擇運送工件的實時調(diào)度策略尤為重要。如圖1所示,物料運送過程滿足以下約束:(1)開始調(diào)度時,各組內(nèi)的工件釋放時間相同;(2)工件j在每道工序只能加工一次,且每臺設(shè)備同一時刻只能加工一個工件;(3)工件在占用每臺設(shè)備的時間由兩部分組成,即加工時間和等待運送時間;(4)物料的運輸時間由設(shè)備的距離決定。
為模型建立需要,引入?yún)?shù)變量用于描述數(shù)學(xué)模型,見表1。
混流車間實時調(diào)度是依據(jù)實時狀態(tài)選擇規(guī)則,然后按照規(guī)則在車間約束關(guān)系下選擇運送物料的方法,因此混流車間中物料運送的約束關(guān)系如下[19]:
即
s.t.
圖1 混合流水車間物料流動示意圖Fig.1 Diagram of material flow in hybrid flow shop
表1 符號說明Table 1 Problem notation
上述模型中:式(1)最小化最大完工時間;式(2)最小化延遲率;式(3)最小化綜合優(yōu)化目標;式(4)每個工件各階段完工時間;式(5)各工件的完工時間;式(6)用來約束工件按照工序加工;式(7)工件在各工序段中只能在一個加工設(shè)備上完成加工;式(8)和式(9)用來約束在每個工序中同一設(shè)備工件的加工順序;式(10)和式(11)確保每個機器人在任何時候只能運送一個工件;式(12)確保每個工件運送過程按照工序的先后順序進行;式(13)和式(14)機器人的調(diào)度順序符合工件在同一設(shè)備的處理順序。
文中將多機器人調(diào)度過程轉(zhuǎn)化為馬爾科夫決策過程[20-21],通過四元組描述為(S,A,P,R)。其中S為調(diào)度車間狀態(tài)空間,車間現(xiàn)場狀態(tài)s∈S;A表示動作空間,由調(diào)度規(guī)則、工序ID、機器人ID組成;P(s,A,s')= 1,一旦動作選擇,狀態(tài)從s轉(zhuǎn)換至s'的概率為1;R表示在狀態(tài)s下執(zhí)行動作a狀態(tài)轉(zhuǎn)換至s'所得報酬。如圖2所示,根據(jù)混流車間的調(diào)度問題數(shù)學(xué)約束關(guān)系建立物料車間環(huán)境,馬爾科夫決策過程即為智能系統(tǒng)根據(jù)當前車間環(huán)境選擇一個機器人運送動作a作用于車間,完成運送后車間狀態(tài)發(fā)生改變,同時產(chǎn)生一個獎勵信號反饋給智能系統(tǒng)。智能體再根據(jù)獎勵函數(shù)和車間狀態(tài)s選擇下一個動作a'。針對多機器人混流車間調(diào)度的實際情況,將車間運行中的狀態(tài)、動作和報酬函數(shù)定義如下。
將車間設(shè)備特征信息與任務(wù)信息組成一個狀態(tài)變量來引導(dǎo)調(diào)度決策,即在時間t時狀態(tài)向量St=(Tt,Ft,Rt),Tt代表待運送工件特征信息,F(xiàn)t代表車間狀態(tài)信息,Rt代表機器人特征信息。
(1)Tt為3×s矩陣,Tt(:,1)至Tt(:,s)依次為進線工位至最后一道加工工序的統(tǒng)計信息。Tt(1,:)為每道工序中待運送工件數(shù)目,Tt(2,:)代表每道工序待運送工件平均剩余時間,Tt(3,:)代表每道工序待運送工件中最小剩余時間。
圖2 車間調(diào)度的馬爾科夫決策過程Fig.2 Diagram of Markov decision process for flow shop scheduling
式中tk,l代表在第k階段待運送工件l的剩余時間,該參數(shù)反映工件的緊迫程度。
(2)Ft為車間現(xiàn)場狀態(tài)描述矩陣,F(xiàn)t為3×s矩陣,F(xiàn)t(1,:)表示每道工序的空閑設(shè)備數(shù),例如Ft(1,1)=1 即為工序1中有1臺空閑設(shè)備。Ft(2,:)為每道工序中正在加工狀態(tài)的設(shè)備數(shù),F(xiàn)t(3,:)代表每道工序中被待運送工件占用的設(shè)備數(shù)。
(3)Rt為2×i矩陣,表示各機器人的工作狀態(tài)。i與機器人ID對應(yīng),Rt(1,:)表示機器人的狀態(tài),Rt(1,2)=1為2號機器人“運送”,Rt(1,2)=0為“空閑”。Rt(2,:)為機器人當前位置ID。
動作即為機器人的運送行為,其通過工序ID,調(diào)度規(guī)則和機器人ID組成向量at=(Sat,Rut,Rbt)。工序ID選擇調(diào)度工件所在工序,調(diào)度規(guī)則選擇運送工件,同時,機器人ID確定哪一臺機器人被選中用于調(diào)度。文中選用5種調(diào)度規(guī)則用于緩沖工位調(diào)度,SSO用于工序內(nèi)待運送工件調(diào)度。調(diào)度規(guī)則的詳細描述如表2所示,Sat={進線緩沖工位=0,工序=1,…,s},Rut={SPT=1,LPT=2,SLACK =3,SPT/TWK=4,LPT/TWK=5,SSO=6},Rbt={1=robot 1,2=robot 2,…,r=robotr},通過上述動作設(shè)計,時間t時將在指定規(guī)則下分配機器人運送指定工序下的唯一任務(wù)。
獎勵函數(shù)被用來對當前行為和調(diào)度策略進行評估,由于SP–MCTS是通過最終收益回溯逐個更新節(jié)點信息,而本文將最小化最大完工時間和延遲率作為綜合評價指標,因此獎勵函數(shù)設(shè)計為:
式(17)中C1為子樹內(nèi)第1次搜索至當前所有工件完成加工時所得時間,Cn為子樹內(nèi)實時狀態(tài)節(jié)點的第n次搜索所得時間,其中項C1–Cn若大于0則取實際差值,若小于0則取0值。ND表示當前子樹延遲率(延遲工件包括當前搜索中出線延遲的工件和線內(nèi)剩余時間小于0的工件,總數(shù)即為子樹中的所有工件),b1,b2為權(quán)重因子。
SP–MCTS是一類利用模擬運行過程來評價非終端狀態(tài)的搜索樹算法。模擬過程中選擇執(zhí)行動作,直到達到一個終端狀態(tài),并基于多次模擬中平均獎勵,以此評估每個動作的潛力[22]。針對工業(yè)物聯(lián)網(wǎng)下混流車間多機器人調(diào)度問題提出基于SP–MCTS算法的多層子樹自適應(yīng)優(yōu)化方法,如圖3所示。圖3中根據(jù)各組任務(wù)和當前車間環(huán)境依次建立多個子樹(TR1,TR2,…TRn)進行策略優(yōu)化,如子樹TR1進行實時優(yōu)化時,是以車間當前狀態(tài)作為根節(jié)點,組內(nèi)所有工件完成加工作為目標狀態(tài),應(yīng)用SP–MCTS算法進行優(yōu)化,并取使節(jié)點收益最大的分支規(guī)則作為運送動作。根據(jù)實時狀態(tài)依次進行優(yōu)化,最終取最優(yōu)路徑節(jié)點S43(組間臨界實時狀態(tài),即進線工位清空,工件全部進線加工時)作為下一個子樹TR2的根節(jié)點原始環(huán)境,此時下一組進入緩沖區(qū)的工件與當前車間環(huán)境建立子樹TR2根節(jié)點,從而依次優(yōu)化直至各組工件完成加工。
表2 調(diào)度規(guī)則Table 2 Scheduling rules
如圖4子樹模擬優(yōu)化過程,工序內(nèi)和進線出線緩沖區(qū)的數(shù)字“1,2,3”分別代表工件等待、加工、和出線3種狀態(tài),各工序的平行設(shè)備數(shù)為“2 2 1 2”。在子樹TR1內(nèi),若實時車間為狀態(tài)s1,優(yōu)化完成后執(zhí)行策略π(s)至s2,然后保留節(jié)點s2下的子樹信息,丟棄其他節(jié)點信息。此時等待下一個實時調(diào)度狀態(tài)信息與s2進行對比,若相同則以根節(jié)點s2繼續(xù)優(yōu)化(子樹節(jié)點信息可累積使用)。依次搜索和節(jié)點更新,最終直至該組調(diào)度完成。
結(jié)合SP–MCTS算法尋優(yōu)特性,設(shè)計適應(yīng)于文中混流車間調(diào)度問題的選擇、擴展、模擬和回溯方案[23],如圖5所示。
2.1 選擇
選擇步驟始于當前根節(jié)點s0,終止于樹中葉節(jié)點sL,其選擇策略根據(jù)UCT[24](Upper confidence bounds applied to trees)算法構(gòu)建,其改進如下:
圖3 基于SP-MCTS算法的多層子樹示意圖Fig.3 Diagram of multi-layer subtree based on SP-MCTS algorithm
式(18)中N(s)代表狀態(tài)s被訪問的次數(shù),N(s,a)表示狀態(tài)s時執(zhí)行運送動作a的次數(shù),Q(s,a)表示節(jié)點s處選擇運送動作a的平均收益,∑q(s,a)2表示到目前為止在狀態(tài)s處執(zhí)行動作a獲得收益Q(s,a)的平方和。式(19)中π(s)代表狀態(tài)s下的最優(yōu)策略。
2.2 擴展與模擬
如果搜索至葉節(jié)點sL且該節(jié)點遍歷次數(shù)大于P(P為節(jié)點擴展臨界值)時,應(yīng)用選擇策略后執(zhí)行動作a得到狀態(tài)sCL。此時將狀態(tài)sCL擴展為樹中葉節(jié)點且節(jié)點信息初始為{N(sL,a)=0,Q(sL,a) = 0,N(sCL)=0}。
圖4 子樹優(yōu)化過程Fig.4 Subtree optimization process
如果搜索至葉節(jié)點sL且該節(jié)點遍歷次數(shù)小于P時,sL將作為初始的模擬節(jié)點。在模擬過程中,每一次執(zhí)行模擬策略前需對線內(nèi)工件評估緊迫度,若剩余時間tkr<2Tr(tkr任務(wù)k的剩余時間,Tr為車間中設(shè)備最大距離間機器人運送時間),則執(zhí)行LLF作為模擬策略,否則執(zhí)行既定的3種模擬策略SPT,LPT和隨機策略(Random)。
2.3 回溯
當模擬至終止狀態(tài)時,信息更新從模擬的初始葉節(jié)點sL回溯至根節(jié)點s0。更新各遍歷節(jié)點信息:
式(20)更新節(jié)點s被訪問的總次數(shù)。式(21)記錄s狀態(tài)下動作a被執(zhí)行的次數(shù),式(22)更新節(jié)點s執(zhí)行動作a的平均收益。式(23)計算收益求平方和。
如上所述,文中提出了基于SP–MCTS求解工業(yè)物聯(lián)網(wǎng)的混流車間多機器人調(diào)度問題,其體系架構(gòu)如圖6所示。
該架構(gòu)包含4個子模塊,基于工業(yè)物聯(lián)網(wǎng)的混流車間,系統(tǒng)狀態(tài)模塊,SP–MCTS模塊和規(guī)則與執(zhí)行動作模塊。在機器人完成運送或空閑時且有新工件組進入緩沖區(qū)或狀態(tài)改變時,調(diào)度過程立即觸發(fā)。此時,工業(yè)物聯(lián)網(wǎng)采集混流車間內(nèi)各制造資源實時狀態(tài),并且發(fā)送實時信息至系統(tǒng)狀態(tài)模塊以提取關(guān)鍵狀態(tài)信息,這些信息包括任務(wù)信息和設(shè)備信息。上述這些關(guān)鍵信息最終被傳輸至SP–MCTS模塊用于優(yōu)化調(diào)度策略。數(shù)據(jù)經(jīng)SP–MCTS模塊處理后,輸出數(shù)據(jù)至規(guī)則與執(zhí)行動作模塊。最終,規(guī)則與執(zhí)行動作模塊根據(jù)規(guī)則選擇調(diào)度工件并規(guī)劃機器人傳輸動作,從而實現(xiàn)基于工業(yè)物聯(lián)網(wǎng)混流車間自適應(yīng)調(diào)度的閉環(huán)反饋機制。
SP–MCTS系統(tǒng)自適應(yīng)優(yōu)化過程可分為擴展方法和剪支方法。如圖4所示,以實時狀態(tài)s1為根節(jié)點,多次迭代后建立了TR1,滿足停止條件時,則依據(jù)策略π(s)執(zhí)行動作a得到實時調(diào)度狀態(tài)s2,此時以s2為根節(jié)點繼續(xù)搜索,實時狀態(tài)依次建樹的過程稱為擴展過程。選擇動作a時,樹內(nèi)則保留節(jié)點s2以下分支,剪掉其他分支即剪支過程,這樣依次搜索直至目標狀態(tài)sgoal。其求解混流車間多機器人調(diào)度問題的流程圖如圖7所示,SP–MCTS算法偽代碼如算法1所示(表3)。
圖5 SP-MCTS算法原理圖Fig.5 Schematic diagram of SP-MCTS algorithm
圖6 應(yīng)用SP-MCTS的多機器人調(diào)度方法架構(gòu)Fig.6 Architecture of multi-robot scheduling approach using SP-MCTS
為評估所提方法的有效性,在此提出基于工業(yè)物聯(lián)網(wǎng)混流車間多機器調(diào)度的案例用于模擬驗證。
應(yīng)用西門子Tecnomatix 數(shù)字化平臺作為案例模擬軟件,如圖8所示,混流車間主要由9臺加工設(shè)備以及4道工序組成,其中9臺加工設(shè)備、進線緩沖工位、出線緩沖工位均勻分布于機器人軌道兩側(cè),且有兩臺機器人用于物料運送。
應(yīng)用TensorFlow軟件和西門子Tecnomatix 數(shù)字化平臺聯(lián)合模擬工業(yè)物聯(lián)網(wǎng)下混流車間多機器人實時調(diào)度系統(tǒng),如圖9所示。
該系統(tǒng)軟件可分為兩部分,分別是在TensorFlow平臺使用python開發(fā)的SP–MCTS程序和使用西門子Tecnomatix平臺模擬軟件開發(fā)的模擬程序。其整個模擬程序分為以下幾個子模塊:設(shè)備管理、任務(wù)管理、狀態(tài)管理、通信模塊和調(diào)度指令模塊。在模擬車間生產(chǎn)過程中,設(shè)備管理模塊負責(zé)車間內(nèi)加工設(shè)備、機器人和各類傳感器的信息管理;任務(wù)管理模塊負責(zé)所有工件的管理;狀態(tài)處理模塊作為關(guān)鍵的信息處理模塊,其作用是處理從設(shè)備管理和任務(wù)管理模塊發(fā)送的實時設(shè)備和工件信息,并將提取的關(guān)鍵信息發(fā)送至通信模塊。通信模塊是在SP–MCTS程序和模擬程序間建立一個通信網(wǎng)絡(luò),實時傳輸狀態(tài)信息和調(diào)度指令信息。SP–MCTS優(yōu)化策略根據(jù)當前狀態(tài)優(yōu)化調(diào)度策略,將調(diào)度策略發(fā)送至調(diào)度指令模塊。最后,調(diào)度指令模塊根據(jù)策略協(xié)調(diào)規(guī)則和機器人執(zhí)行調(diào)度任務(wù)。
混流車間內(nèi)的設(shè)備、任務(wù)、機器人以及計算機模擬環(huán)境等參數(shù)設(shè)置如下:
圖7 混流車間多機器人自適應(yīng)調(diào)度流程Fig.7 Multi-robot scheduling process with SP-MCTS
(1)總的加工任務(wù)數(shù)為500,進線緩沖工位有20個工位,根據(jù)緊迫度確定工件的進線次序,如果存在緊迫度相同的產(chǎn)品,則按交貨期由早到晚排序[23]。從而將500個任務(wù)分成25組,依次送入進線緩沖工位。
(2)工件在每個工序的加工時間服從(10,50)的均勻分布。
(3)為使問題簡單化,文中在機器人運輸過程中不考慮最優(yōu)路徑和機器人碰撞沖突問題,同時工件運輸時間服從(0.5,1)均勻分布。
(4)參數(shù)(C,D)設(shè)置為(0.5,10000)[25],P=3,b1=0.5,b2=2。
(5)計算機模擬環(huán)境為i7–6700 CPU@3.40GHz,16G RAM。
依據(jù)上述參數(shù)取一組車間加工參數(shù),應(yīng)用SP–MCTS算法對模擬車間中物料進行實時調(diào)度。如圖10所示,以第一組進線任務(wù)的路徑節(jié)點與最大收益值為例,可以看出在前期搜索中隨著節(jié)點經(jīng)驗信息依次累加,收益數(shù)值快速提高,后期搜索中隨著狀態(tài)空間不斷縮小,樹節(jié)點越深其收益數(shù)值變化越趨平緩,且數(shù)據(jù)波動越趨收窄。因而說明應(yīng)用SP–MCTS在實時優(yōu)化中能夠快速準確地選擇最優(yōu)策略進行物料調(diào)度。
表3 算法1: 基于SP-MCTS算法的優(yōu)化主程序Table 3 Algorithm 1:Optimized main procedure based on SP-MCTS
圖8 混流車間多機器人調(diào)度模擬環(huán)境Fig.8 Simulation of multi-robot scheduling on shop floor environment
圖9 混流車間多機器人調(diào)度系統(tǒng)Fig.9 Implementation of the SP-MCTS based multi-robot scheduling system
在此引入RLVNS[18]、AHP[15]、SPT、LPT和SLACK與本文所提方法進行對比,在相同的環(huán)境下處理隨機生成的500個任務(wù),通過完工時間和延遲率進行綜合比較。
圖10 子樹內(nèi)節(jié)點深度與收益值關(guān)系Fig.10 Relationship between node depth and revenue value in subtree
圖11 各方法比較結(jié)果示意圖Fig.11 Diagram of comparison results of scheduling methods
隨機產(chǎn)生10組案例車間參數(shù)應(yīng)用各方法分別優(yōu)化,然后取平均值進行比較,如圖9所示。多機器人調(diào)度方法比較示意圖見圖11,可以直觀看出5種方法在完工時間和延遲率兩個指標下的比較結(jié)果。與SPT、LPT和SLACK規(guī)則相比,SP–MCTS算法調(diào)度所得完工時間分別降低了28.3%、27.8%和31.4%,同時延遲率分別降低了70.4%、81%和42.9%;而相比于AHP和RLVNS方法,完工時間分別降低了16.7%和9.9%,延遲率分別降低了38.5%和22%。由此看出,單一的SPT、LPT和SLACK規(guī)則調(diào)度,雖然能快速響應(yīng),但其適應(yīng)性差且調(diào)度質(zhì)量難以保證,而應(yīng)用SP–MCTS算法搜索尋優(yōu)后建立信息網(wǎng)絡(luò),其結(jié)合現(xiàn)場狀況在多種規(guī)則中選擇適應(yīng)當前狀態(tài)的最優(yōu)調(diào)度策略,從而得到更好的求解質(zhì)量。
基于SP–MCTS解的質(zhì)量優(yōu)于多規(guī)則組合AHP方法和強化學(xué)習(xí)RLVNS方法,可知,與多規(guī)則組合AHP方法相比,SP–MCTS算法的適應(yīng)性更強;而RLVNS方法只考慮第一工序的鄰域搜索學(xué)習(xí),不能夠分辨工序之間工件調(diào)度時的信息差異,存在明顯的局限性。因此,該模擬結(jié)果驗證了在工業(yè)物聯(lián)網(wǎng)下應(yīng)用SP–MCTS對混流車間進行多機器人調(diào)度的有效性和優(yōu)越性。
為最小化工業(yè)物聯(lián)網(wǎng)混流車間中多機器人調(diào)度的完工時間和延遲率,本文提出基于SP–MCTS算法的自適應(yīng)調(diào)度方法。由于工件分組進入緩沖工位,因而采用分層子樹搜索機制,應(yīng)用SP–MCTS以實時狀態(tài)為節(jié)點進行搜索和信息積累,然后根據(jù)現(xiàn)場情況快速選擇合適的規(guī)則和物料機器人,從而達到了自適應(yīng)調(diào)度目的。主要結(jié)論如下:
(1)分層子樹優(yōu)化,使得各組工件從一個完整的根節(jié)點出發(fā)同時兼顧相鄰子樹,簡化了模型難度。
(2)狀態(tài)依次作為根節(jié)點搜索,能夠根據(jù)累積的節(jié)點信息,精確快速定位動作分支,提高了搜索效率。
(3)在模擬實驗中與AHP方法和調(diào)度規(guī)則比較,驗證了SP–MCTS方法的適應(yīng)性;同時SP–MCT求解的完工時間和延遲率均優(yōu)于RLVNS方法,驗證了SP–MCTS方法在求解混流車間調(diào)度問題時的搜索理念的優(yōu)越性。
本文調(diào)度方法架構(gòu)簡明,易于實現(xiàn),為進一步解決工業(yè)物聯(lián)網(wǎng)下車間實時調(diào)度問題提供了參考。下一步,將結(jié)合深度學(xué)習(xí)方法建立各規(guī)則的概率網(wǎng)絡(luò)和價值網(wǎng)絡(luò),從而使調(diào)度系統(tǒng)成為一種有意識的智慧大腦。