高 鵬,蘇雍賀,左 穎,陶 飛
(北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191)
近年來(lái),我國(guó)光伏產(chǎn)業(yè)發(fā)展迅速,其中分布式光伏電站的裝機(jī)總量占比逐年上升,對(duì)分布式光伏運(yùn)維服務(wù)效率和服務(wù)質(zhì)量提出了更高的要求。分布式光伏運(yùn)維資源主要包括運(yùn)維人員、輔助工具、備件等,運(yùn)維任務(wù)根據(jù)緊急程度分為計(jì)劃型任務(wù)和應(yīng)急型任務(wù)兩類(lèi),不同類(lèi)型任務(wù)的調(diào)度需求如圖 1所示。計(jì)劃性任務(wù)通過(guò)人工手段、根據(jù)任務(wù)所需時(shí)間窗制定調(diào)度計(jì)劃,當(dāng)出現(xiàn)緊急任務(wù)時(shí),采取插單方式對(duì)運(yùn)維資源進(jìn)行重調(diào)度[1],這種調(diào)度方式效率較低,難以滿足日益增長(zhǎng)的運(yùn)維需求,而通過(guò)研究分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度方法,根據(jù)任務(wù)插單情況對(duì)運(yùn)維資源進(jìn)行動(dòng)態(tài)調(diào)度,可以提升分布式光伏的運(yùn)維效率和服務(wù)質(zhì)量。
為了實(shí)現(xiàn)分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度,本文將開(kāi)展以下研究[2]:①構(gòu)建分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度優(yōu)先級(jí)規(guī)則,通過(guò)該規(guī)則確定運(yùn)維任務(wù)執(zhí)行的先后順序;②根據(jù)運(yùn)維單位調(diào)度需求建立動(dòng)態(tài)調(diào)度數(shù)學(xué)模型;③為了保證調(diào)度計(jì)劃的求解速度和求解穩(wěn)定性,選擇Q-Learning算法求解本文調(diào)度模型,通過(guò)與其他常用智能優(yōu)化算法進(jìn)行對(duì)比,證明Q-Learning算法更適合求解本文的動(dòng)態(tài)調(diào)度模型。
分布式光伏運(yùn)維任務(wù)進(jìn)行中會(huì)有新的任務(wù)插單,在運(yùn)維資源有限的情況下,需要通過(guò)任務(wù)優(yōu)先級(jí)規(guī)則確定執(zhí)行順序[3]。單一任務(wù)優(yōu)先級(jí)規(guī)則[4-5]靈活性較差,難以滿足不同類(lèi)型運(yùn)維任務(wù)的動(dòng)態(tài)調(diào)度需求,需要建立組合優(yōu)先級(jí)規(guī)則對(duì)分布式光伏運(yùn)維任務(wù)的順序進(jìn)行靈活調(diào)整[6]。
王雄偉等[7]針對(duì)戰(zhàn)場(chǎng)車(chē)輛搶修動(dòng)態(tài)調(diào)度問(wèn)題,基于維修時(shí)間、維修前等待時(shí)間、受敵威脅程度與裝備重要程度等因素建立組合優(yōu)先級(jí)規(guī)則,戰(zhàn)場(chǎng)車(chē)輛搶修需要重點(diǎn)考慮在最短時(shí)間恢復(fù)最大戰(zhàn)斗力,而在分布式光伏運(yùn)維資源調(diào)度中,除維修時(shí)間最短外,還需綜合考慮客戶提出的任務(wù)時(shí)間窗限制及運(yùn)維任務(wù)對(duì)運(yùn)維資源數(shù)量的需求等,合理調(diào)整任務(wù)執(zhí)行順序;馬麗萌等[8]針對(duì)車(chē)間動(dòng)態(tài)調(diào)度問(wèn)題,選擇最早交貨期、最短剩余加工時(shí)間等因素建立組合優(yōu)先級(jí)規(guī)則,可以及時(shí)滿足客戶訂單需求,但在本文中,因?yàn)楣收系燃?jí)不同導(dǎo)致任務(wù)重要性存在差異,同時(shí)部分任務(wù)需要根據(jù)業(yè)主空余時(shí)間確定時(shí)間窗,所以基于不同優(yōu)先級(jí)規(guī)則組合綜合考慮任務(wù)優(yōu)先級(jí)。在分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度中,需要考慮任務(wù)緊急程度差異、任務(wù)時(shí)間窗限制、任務(wù)接收時(shí)間、任務(wù)對(duì)運(yùn)維資源需求的數(shù)量等因素,對(duì)任務(wù)優(yōu)先級(jí)進(jìn)行調(diào)整。
在運(yùn)維資源調(diào)度模型方面,ASVIN等[9]針對(duì)電網(wǎng)維護(hù)的人員調(diào)度問(wèn)題,以電網(wǎng)停機(jī)時(shí)間最短和人員路徑最短為優(yōu)化目標(biāo)建立調(diào)度模型,因其故障類(lèi)型單一而未考慮人員技能差異;YUAN等[10]針對(duì)高壓電傳輸設(shè)備的檢修調(diào)度問(wèn)題,考慮最小檢修成本建立維修任務(wù)動(dòng)態(tài)調(diào)度模型,該調(diào)度場(chǎng)景中的檢修設(shè)備相對(duì)集中,而分布式光伏電站相對(duì)分散,需要考慮任務(wù)執(zhí)行過(guò)程的運(yùn)輸距離;HUA等[11]針對(duì)光伏電站設(shè)備維修調(diào)度問(wèn)題,考慮維修人員技能差異,以維修成本最低和最短路程時(shí)間為優(yōu)化目標(biāo)建立調(diào)度模型,但未考慮對(duì)輔助工具與備件的調(diào)度。
本文因?yàn)橛糜诜植际焦夥\(yùn)維的部分輔助工具單價(jià)較高,對(duì)運(yùn)維人員有操作資質(zhì)要求,所以需要對(duì)輔助工具進(jìn)行合理調(diào)度;同時(shí),不同類(lèi)型、不同數(shù)量的備件分別存儲(chǔ)在不同的運(yùn)輸倉(cāng)庫(kù),調(diào)度時(shí)需要考慮備件的數(shù)量和運(yùn)輸距離進(jìn)行合理調(diào)度。因此,本文需要針對(duì)不同類(lèi)型和技能的運(yùn)維資源分析優(yōu)化目標(biāo)與約束條件,建立分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度模型。
動(dòng)態(tài)調(diào)度算法用于求解動(dòng)態(tài)調(diào)度模型,對(duì)穩(wěn)定性和實(shí)時(shí)性要求較高[12]。其中,以遺傳模擬退火算法[13]、粒子群優(yōu)化算法[14]為代表的智能優(yōu)化算法是求解運(yùn)維資源動(dòng)態(tài)調(diào)度問(wèn)題常用的算法,但是由于存在較高的隨機(jī)性,其在動(dòng)態(tài)環(huán)境中的適應(yīng)能力較差[15]。
強(qiáng)化學(xué)習(xí)算法中的Q-Learning算法憑借穩(wěn)定性好、求解速度快的優(yōu)點(diǎn),在動(dòng)態(tài)調(diào)度問(wèn)題求解中應(yīng)用較廣[16-20]。汪浩祥等[21]采用Q-Learning算法求解航空發(fā)動(dòng)機(jī)自適應(yīng)裝配調(diào)度問(wèn)題,在裝配環(huán)境變化頻繁的情況下具有較好的自適應(yīng)性;CAMILA等[22]采用Q-Learning算法求解太陽(yáng)能熱水系統(tǒng)的運(yùn)行調(diào)度問(wèn)題,能夠在不同月份、不同天氣狀況下制定合理的運(yùn)行計(jì)劃來(lái)保證熱水供應(yīng);蘇兆品等[23]針對(duì)災(zāi)后受損路網(wǎng)修復(fù)的搶修隊(duì)動(dòng)態(tài)調(diào)度問(wèn)題,通過(guò)改進(jìn)Q-Learning算法并進(jìn)行求解來(lái)提高運(yùn)輸效率和修復(fù)效率。
現(xiàn)有的動(dòng)態(tài)調(diào)度問(wèn)題主要針對(duì)單一對(duì)象、采用Q-Learning算法求解,本文在采用Q-Learning算法求解時(shí)需要考慮多類(lèi)型資源下對(duì)Q矩陣狀態(tài)與行為的定義方式;同時(shí),因?yàn)椴煌?lèi)型資源間存在一定約束關(guān)系,所以需要考慮在這種約束關(guān)系下如何更新Q矩陣的評(píng)價(jià)值。本文基于上述兩方面問(wèn)題,對(duì)Q-Learning算法進(jìn)行改進(jìn),用于求解本文動(dòng)態(tài)調(diào)度模型,并通過(guò)與其他部分智能優(yōu)化算法對(duì)比,證明本文方法的優(yōu)越性。
分布式光伏運(yùn)維單位負(fù)責(zé)指定區(qū)域內(nèi)的電站運(yùn)維工作,而運(yùn)維單位的運(yùn)維人員、輔助工具和備件數(shù)量是有限的。在運(yùn)維資源調(diào)度過(guò)程中存在計(jì)劃型任務(wù)的時(shí)間窗要求或應(yīng)急型任務(wù)插單等情況,當(dāng)某一周期內(nèi)有多個(gè)任務(wù)需要同時(shí)派遣運(yùn)維資源前去處理時(shí),應(yīng)根據(jù)分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度優(yōu)先級(jí)規(guī)則計(jì)算不同運(yùn)維任務(wù)的優(yōu)先級(jí)指標(biāo),對(duì)任務(wù)執(zhí)行順序進(jìn)行調(diào)整。
根據(jù)上述分析,本文按照嚴(yán)重任務(wù)先處理、允許期限短任務(wù)先處理、任務(wù)先到先處理、資源需求少的任務(wù)先處理4條規(guī)則構(gòu)建分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度規(guī)則。設(shè)某時(shí)刻的任務(wù)集合為J*={J1,J2,…,Jn},其中任務(wù)Ji的子任務(wù)集合為Ji={Ji1,Ji2,…,Jim}。下面分別介紹上述單一規(guī)則的計(jì)算方法。
(1)嚴(yán)重任務(wù)先處理
分布式光伏運(yùn)維任務(wù)分為輕微故障、一般故障、緊急故障3類(lèi)。其中,緊急故障需盡快處理,非緊急故障允許在當(dāng)天無(wú)法完成的情況下放入后續(xù)維修計(jì)劃。任務(wù)Jij的嚴(yán)重程度用常數(shù)表示,令輕微故障嚴(yán)重程度Cij-minor=1,一般故障嚴(yán)重程度Cij-impor=2,緊急故障嚴(yán)重程度Cij-emerg=10;令任務(wù)Jij對(duì)應(yīng)的故障設(shè)備數(shù)量為nij,對(duì)應(yīng)故障的緊急程度指數(shù)為cij,則任務(wù)Ji的嚴(yán)重程度
(1)
(2)期限短任務(wù)先處理
令當(dāng)前時(shí)刻為T(mén)c,任務(wù)Ji的任務(wù)時(shí)間窗所允許任務(wù)的最晚開(kāi)始時(shí)刻為T(mén)i-latest,則任務(wù)Ji剩余允許期限
Ti-remain=Ti-latest-Tc。
(2)
(3)任務(wù)先到先處理
令任務(wù)Ji的申報(bào)時(shí)刻為T(mén)i-occur,當(dāng)前時(shí)刻為T(mén)c;設(shè)當(dāng)日值班的開(kāi)始時(shí)間為0時(shí)刻,當(dāng)日值班開(kāi)始之前接受的任務(wù)申報(bào)時(shí)刻Ti-occur=-Ti,其中Ti為任務(wù)接受時(shí)刻與當(dāng)日值班開(kāi)始時(shí)刻相隔的時(shí)長(zhǎng);當(dāng)日插單任務(wù)的申報(bào)時(shí)刻按照任務(wù)接受實(shí)際時(shí)刻計(jì)算。則任務(wù)Ji的已等待時(shí)間
Ti-wait=Tc-Ti-occur。
(3)
(4)資源需求少任務(wù)先處理
此處任務(wù)資源數(shù)量主要考慮人員與輔助工具,令任務(wù)Ji的人員需求數(shù)量為Ni-Mreq,輔助工具需求數(shù)量為Ni-Ereq,則任務(wù)Ji的資源需求數(shù)量
Ni-req=Ni-Mreq+Ni-Ereq。
(4)
逼近理想解排序法(Technique for Order Preference by Similarity to an Ideal Solution,TOPSIS)[24]是一種用于評(píng)價(jià)多目標(biāo)下方案優(yōu)劣的方法,常用于評(píng)價(jià)多種調(diào)度規(guī)則下的任務(wù)優(yōu)先級(jí),本文采用該方法構(gòu)建動(dòng)態(tài)調(diào)度規(guī)則,具體流程如下:
步驟1設(shè)當(dāng)前調(diào)度周期待調(diào)度任務(wù)集合J={J1,J2,…,Jm},其中m>1,任務(wù)Ji∈J表示當(dāng)前某一站點(diǎn)的故障;其各項(xiàng)規(guī)則指數(shù)集合Vi={Vi1,Vi2,Vi3,Vi4}。構(gòu)建當(dāng)前任務(wù)集合的初始評(píng)價(jià)矩陣
式中第i行表示任務(wù)Ji的各項(xiàng)規(guī)則指數(shù)。
步驟2對(duì)初始化矩陣中的數(shù)值進(jìn)行標(biāo)準(zhǔn)化,其中:任務(wù)緊急程度和任務(wù)等待時(shí)間兩項(xiàng)為極大型指標(biāo),用式(5)進(jìn)行標(biāo)準(zhǔn)化處理;任務(wù)完成期限和任務(wù)資源需求數(shù)兩項(xiàng)為極小型指標(biāo),用式(6)進(jìn)行標(biāo)準(zhǔn)化處理。若矩陣中某一列所有元素均為0,則將分母設(shè)置為一個(gè)極小的正數(shù)。
(5)
(6)
此時(shí)得到標(biāo)準(zhǔn)矩陣
步驟3將標(biāo)準(zhǔn)矩陣的每列乘以對(duì)應(yīng)規(guī)則的權(quán)重指數(shù)ωj,得到最終的規(guī)范化矩陣W,
(7)
步驟4按照式(8)計(jì)算極大指標(biāo)、極小指標(biāo)的理想解W+和負(fù)理想解W-。
(8)
步驟5分別按照式(9)和式(10)計(jì)算每個(gè)任務(wù)與理想解、負(fù)理想解的歐氏距離。
(9)
(10)
步驟6貼近度Ci表示任務(wù)與理想解、非理想解的接近程度,其值越大,任務(wù)的優(yōu)先級(jí)越高。采用式(11)計(jì)算貼近度,然后根據(jù)貼近度值調(diào)整當(dāng)前調(diào)度任務(wù)的優(yōu)先級(jí)順序。
(11)
動(dòng)態(tài)調(diào)度數(shù)學(xué)模型指動(dòng)態(tài)調(diào)度過(guò)程中優(yōu)化目標(biāo)和約束條件的數(shù)學(xué)描述。首先,根據(jù)分布式光伏運(yùn)維資源調(diào)度問(wèn)題特點(diǎn)對(duì)調(diào)度場(chǎng)景進(jìn)行如下假設(shè):
(1)運(yùn)維任務(wù)的時(shí)間窗指任務(wù)可以開(kāi)始執(zhí)行的時(shí)間窗,不考慮任務(wù)結(jié)束時(shí)間是否在時(shí)間窗內(nèi)。
(2)本文一個(gè)電站的所有子任務(wù)均可同時(shí)進(jìn)行,沒(méi)有先后順序。
(3)運(yùn)維資源最初起始點(diǎn)均為運(yùn)維單位,在完成當(dāng)前任務(wù)后,可以從當(dāng)前站點(diǎn)直接前往下一站點(diǎn),不用返回運(yùn)維單位。
(4)一個(gè)子任務(wù)最多只能由一位運(yùn)維人員攜帶一臺(tái)輔助工具或備件進(jìn)行處理,運(yùn)維人員和輔助工具可以在一次任務(wù)中處理多個(gè)子任務(wù)。
(5)運(yùn)維人員因?yàn)閸徫缓唾Y質(zhì)差異,不同人員可執(zhí)行的任務(wù)不同,不同類(lèi)型輔助工具可執(zhí)行的任務(wù)也不同。
基于已有的分布式光伏運(yùn)維資源靜態(tài)調(diào)度方法研究成果[25],結(jié)合動(dòng)態(tài)調(diào)度需求,本文將任務(wù)運(yùn)輸總路程、任務(wù)完成總成本和任務(wù)完成總時(shí)間作為優(yōu)化目標(biāo),設(shè)本次調(diào)度任務(wù)集合J*={J1,J2,…,Jn},其中任務(wù)Ji的子任務(wù)集合Ji={Ji1,Ji2,…,Jim}。構(gòu)建的動(dòng)態(tài)調(diào)度數(shù)學(xué)模型如下:
(12)
(13)
(14)
(15)
(16)
(17)
(18)
(19)
式(12)是將3個(gè)優(yōu)化目標(biāo)函數(shù)進(jìn)行歸一化處理[26]的函數(shù),其中:a1,a2,a3為各優(yōu)化目標(biāo)的權(quán)重值;F1-max,F(xiàn)2-max,F(xiàn)3-max為各項(xiàng)指標(biāo)對(duì)應(yīng)的最大值;F1-min,F(xiàn)2-min,F(xiàn)3-min為各項(xiàng)指標(biāo)對(duì)應(yīng)的最小值。
式(13)~式(15)表示本次調(diào)度計(jì)劃的目標(biāo)函數(shù),分別為最短運(yùn)輸總路程、最低任務(wù)完成成本和最短任務(wù)完成總時(shí)間,其中βB為備件存儲(chǔ)數(shù)量不足的成本懲罰系數(shù)。
式(16)表示任務(wù)Ji的運(yùn)輸路程,其中:l為運(yùn)維資源的運(yùn)輸路徑條數(shù);Dk為移動(dòng)路徑k的距離。
式(17)和式(18)分別表示人員執(zhí)行成本、輔助工具損耗成本,其中:cMij為子任務(wù)Jij的負(fù)責(zé)人員時(shí)薪;tij為任務(wù)Jij的預(yù)計(jì)完成時(shí)間;cEij為子任務(wù)Jij所使用的輔助工具的損耗成本,與任務(wù)時(shí)間長(zhǎng)短無(wú)關(guān)。
Q-Learning算法[27]是強(qiáng)化學(xué)習(xí)中常用的算法之一,其主要通過(guò)構(gòu)建狀態(tài)—行為的評(píng)價(jià)Q矩陣選擇最優(yōu)路徑。本文將任務(wù)Ji中子任務(wù)所需的運(yùn)維資源類(lèi)型分別看做一個(gè)狀態(tài),每個(gè)狀態(tài)選擇的人員、工具、備件看做行為。某個(gè)狀態(tài)若選擇了符合當(dāng)前狀態(tài)所需的運(yùn)維資源,則給予歸一化后的優(yōu)化目標(biāo)值作為獎(jiǎng)勵(lì);若選擇了不符合當(dāng)前狀態(tài)所需的資源,例如需要人員的狀態(tài)選擇了輔助工具或選擇了不具備該項(xiàng)技能的運(yùn)維人員,則獎(jiǎng)勵(lì)值為0。本文對(duì)Q矩陣狀態(tài)—行為的描述如圖2所示。
針對(duì)分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度問(wèn)題,改進(jìn)后的算法流程如下:
步驟1初始化每次的訓(xùn)練周期次數(shù)t、更新程度γ、折扣因子α、動(dòng)作選擇概率μ,設(shè)當(dāng)前任務(wù)集合中有n個(gè)任務(wù),令i=0,根據(jù)圖5生成任務(wù)J0的初始Q矩陣,并令其所有元素值為0。
步驟2本文調(diào)度問(wèn)題需要為每個(gè)子任務(wù)分配運(yùn)維資源,設(shè)每個(gè)子任務(wù)調(diào)度方案的初始狀態(tài)為S0。每一步動(dòng)作執(zhí)行后,轉(zhuǎn)移至下一個(gè)狀態(tài)Si+1。
步驟3從當(dāng)前狀態(tài)Si下選擇當(dāng)前狀態(tài)下的動(dòng)作,其中有μ∈(0,1)的概率隨機(jī)選擇當(dāng)前動(dòng)作,有(1-μ)的概率選擇當(dāng)前狀態(tài)下最大Q矩陣值對(duì)應(yīng)的動(dòng)作。
步驟4設(shè)選定的動(dòng)作為Aj,此時(shí)對(duì)于下一狀態(tài)Si+1的各項(xiàng)選擇,其可能獲得的最大Q值為
(21)
式中:γ為Q值的更新程度;R為當(dāng)前動(dòng)作的評(píng)價(jià)值;α為折扣因子。按照式(21)繼續(xù)計(jì)算下一狀態(tài),直至計(jì)算完所有狀態(tài)。
本文存在操作技能約束和備件存儲(chǔ)數(shù)量約束,在對(duì)輔助工具狀態(tài)進(jìn)行行為選擇時(shí),默認(rèn)對(duì)應(yīng)任務(wù)人員狀態(tài)下的最大Q矩陣值對(duì)應(yīng)的人員為輔助工具操作人員,按照約束條件更新兩個(gè)狀態(tài)的獎(jiǎng)勵(lì)值。備件存儲(chǔ)數(shù)量也是在選擇對(duì)應(yīng)倉(cāng)庫(kù)后,按照懲罰系數(shù)計(jì)算相應(yīng)指標(biāo)。
步驟5重復(fù)步驟1~步驟4,直至達(dá)到最大訓(xùn)練次數(shù)。此時(shí)根據(jù)Q矩陣每個(gè)狀態(tài)下的最大值輸出任務(wù)Ji最優(yōu)的調(diào)度方案。采用更新后的評(píng)價(jià)矩陣對(duì)下一個(gè)任務(wù)Ji+1制定調(diào)度計(jì)劃,直至完成所有任務(wù)的制定。
步驟6經(jīng)過(guò)上述步驟的訓(xùn)練,為每個(gè)任務(wù)找到了最優(yōu)調(diào)度方案,然后根據(jù)Q矩陣輸出最終的動(dòng)作序列,即為最終的調(diào)度方案。
本文根據(jù)國(guó)電電網(wǎng)電子商務(wù)公司某運(yùn)維單位的分布式光伏實(shí)際運(yùn)維情況設(shè)計(jì)實(shí)驗(yàn)方案。該運(yùn)維單位的運(yùn)維資源信息如表1所示,運(yùn)維人員對(duì)輔助工具的操作能力如表2所示,各類(lèi)型輔助工具參與不同類(lèi)型電站運(yùn)維任務(wù)的效率提升系數(shù)如表3所示;設(shè)備故障對(duì)運(yùn)維人員、輔助工具和備件的需求信息如表4所示,其中包括分別對(duì)屋頂型光伏電站和地
表1 運(yùn)維資源信息表
面型光伏電站執(zhí)行同類(lèi)型任務(wù)的預(yù)計(jì)時(shí)間參數(shù);運(yùn)維單位與管轄范圍內(nèi)的電站和倉(cāng)庫(kù)間路程如表5所示,實(shí)驗(yàn)假設(shè)車(chē)輛運(yùn)輸速度為40 km/h;人員時(shí)薪和輔助工具執(zhí)行一次任務(wù)的損耗成本分別如表6和表7所示。
表2 人員對(duì)輔助工具的操作能力矩陣
表3 輔助工具調(diào)度任務(wù)的效率提升系數(shù)
表4 分布式光伏部分運(yùn)維任務(wù)的需求信息和處理時(shí)間
表5 運(yùn)維單位與電站間的距離 km
表6 人員時(shí)薪表
表7 輔助工具損耗成本
設(shè)某日的初始任務(wù)信息和后續(xù)插單任務(wù)信息如表8所示,任務(wù)類(lèi)型和數(shù)量中對(duì)應(yīng)的數(shù)字表示發(fā)生該故障的設(shè)備數(shù)量。從當(dāng)日0時(shí)刻開(kāi)始,按周期驅(qū)動(dòng)[28]方式制定初始調(diào)度計(jì)劃。
表8 某日任務(wù)信息表
根據(jù)上述實(shí)驗(yàn)方案的設(shè)置信息,在運(yùn)維調(diào)度系統(tǒng)中設(shè)置任務(wù)信息。國(guó)電電網(wǎng)電子商務(wù)公司的光伏運(yùn)維工作中,為了減少發(fā)電收益,首先要在較短時(shí)間內(nèi)處理完當(dāng)前的運(yùn)維任務(wù),其次盡量降低運(yùn)維人工成本,最后考慮運(yùn)輸距離。因此,將式(7)中的優(yōu)先級(jí)權(quán)重設(shè)置為ω0=0.4,ω1=0.2,ω2=0.2,ω3=0.2,將式(12)中的權(quán)重設(shè)置為a1=0.2,a2=0.3,a3=0.5,分別對(duì)應(yīng)式(13)~式(15)的3項(xiàng)優(yōu)化目標(biāo),動(dòng)態(tài)調(diào)度觸發(fā)周期T=60 min。
在求解算法方面,本文另外選取遺傳模擬退火算法[29]和粒子群優(yōu)化算法[30]進(jìn)行對(duì)比,算法參數(shù)設(shè)置如表9所示。驗(yàn)證平臺(tái)的CPU處理器為Intel Core i7-4710MQ,內(nèi)存為8 GB,操作系統(tǒng)為64位 Windows 10,開(kāi)發(fā)語(yǔ)言為Python 3.9。
表9 算法參數(shù)配置
針對(duì)上述研究?jī)?nèi)容,本文首先對(duì)組合優(yōu)先級(jí)規(guī)則的合理性進(jìn)行驗(yàn)證分析;其次,通過(guò)采用不同算法對(duì)上述任務(wù)列表制定調(diào)度計(jì)劃,對(duì)比不同算法的求解質(zhì)量和求解穩(wěn)定性,證明Q-Learning算法更適合求解分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度模型;最后,通過(guò)Q-Learning算法分別求解基于不同優(yōu)先級(jí)規(guī)則的任務(wù)序列,驗(yàn)證本文優(yōu)先級(jí)規(guī)則對(duì)調(diào)度模型優(yōu)化目標(biāo)的影響。
6.3.1 優(yōu)先級(jí)規(guī)則驗(yàn)證分析
根據(jù)上述任務(wù)的任務(wù)接收時(shí)刻和任務(wù)可執(zhí)行時(shí)間窗信息,按照周期T=60 min對(duì)運(yùn)維任務(wù)進(jìn)行動(dòng)態(tài)調(diào)度。可將運(yùn)維任務(wù)分為3次調(diào)度,每次調(diào)度對(duì)應(yīng)的任務(wù)集合及其相關(guān)優(yōu)先級(jí)參數(shù)如表10所示。其中,第1次調(diào)度為0時(shí)刻,第2次調(diào)度為1時(shí)刻,因?yàn)?時(shí)刻時(shí)無(wú)任務(wù)調(diào)度,所以跳過(guò),即第3次調(diào)度為3時(shí)刻。根據(jù)表8,分別僅考慮單一優(yōu)先級(jí)規(guī)則對(duì)每一次調(diào)度周期的任務(wù)進(jìn)行排序,結(jié)果如表11所示。其中:“→”表示前者任務(wù)優(yōu)先執(zhí)行,“,”表示任務(wù)沒(méi)有明確的先后順序。再按照本文TOPSIS方法計(jì)算每一次調(diào)度時(shí)各任務(wù)的優(yōu)先級(jí)指數(shù),根據(jù)該優(yōu)先級(jí)指數(shù)對(duì)運(yùn)維任務(wù)進(jìn)行排序。計(jì)算得到的任務(wù)貼近度值及任務(wù)執(zhí)行順序如表12所示。
表10 每次調(diào)度任務(wù)的單一優(yōu)先級(jí)規(guī)則參數(shù)
表11 只考慮單一規(guī)則的任務(wù)優(yōu)先級(jí)順序
表12 基于組合優(yōu)先級(jí)規(guī)則的任務(wù)貼近度值與執(zhí)行順序
由上述結(jié)果可見(jiàn),在本文調(diào)度問(wèn)題中,若只考慮某一項(xiàng)單一規(guī)則,則會(huì)出現(xiàn)任務(wù)順序難以確定的情況,而通過(guò)組合優(yōu)先級(jí)規(guī)則可以較好地避免該問(wèn)題;同時(shí),當(dāng)不同任務(wù)的某一項(xiàng)指標(biāo)參數(shù)接近時(shí),采用本文方法可以結(jié)合其余幾項(xiàng)規(guī)則得出最佳方案。綜上所述,本文所提動(dòng)態(tài)調(diào)度組合優(yōu)先級(jí)規(guī)則基本可以確定分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度過(guò)程中運(yùn)維任務(wù)的優(yōu)先級(jí)。
6.3.2 算法性能對(duì)比分析
根據(jù)上述算法參數(shù)配置,對(duì)當(dāng)日任務(wù)的調(diào)度計(jì)劃進(jìn)行求解。每一次觸發(fā)調(diào)度時(shí),分別采用遺傳模擬退火算法、粒子群優(yōu)化算法和改進(jìn)Q-Learning算法求解3次,對(duì)比各項(xiàng)優(yōu)化目標(biāo),如圖3~圖5所示。然后,統(tǒng)計(jì)各項(xiàng)優(yōu)化目標(biāo)的平均標(biāo)準(zhǔn)差和每次求解時(shí)算法的運(yùn)行時(shí)間,如表13所示。
表13 算法求解時(shí)間與求解穩(wěn)定性的對(duì)比
以上實(shí)驗(yàn)表明,Q-Learning算法在幾次調(diào)度中,不但相對(duì)其他算法性能均有較好的表現(xiàn),可以較快找到調(diào)度方案,而且多次求解的結(jié)果差異較小,算法比較穩(wěn)定,更適合求解分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度模型。
6.3.3 優(yōu)先級(jí)規(guī)則驗(yàn)證
為了進(jìn)一步驗(yàn)證分析本文動(dòng)態(tài)調(diào)度優(yōu)先級(jí)規(guī)則對(duì)制定調(diào)度計(jì)劃的影響,按照4條單一規(guī)則采用Q-Learning算法求解調(diào)度計(jì)劃,最終的任務(wù)執(zhí)行順序和求解優(yōu)化指標(biāo)如表14所示。單條規(guī)則下無(wú)法確定的任務(wù)順序采用隨機(jī)方式確定,以便于算法求解。
表14 不同優(yōu)先級(jí)規(guī)則下求解的平均優(yōu)化指標(biāo)對(duì)比
通過(guò)對(duì)比單一規(guī)則求解的最終調(diào)度方案與采用TOPSIS方法進(jìn)行組合優(yōu)先級(jí)排序后求解的最終調(diào)度方案,證明本文動(dòng)態(tài)調(diào)度組合優(yōu)先級(jí)規(guī)則可以在一定程度上提升任務(wù)執(zhí)行效率,同時(shí)明顯降低任務(wù)執(zhí)行成本并縮短運(yùn)輸成本。最終的調(diào)度計(jì)劃如表15所示,其對(duì)應(yīng)的任務(wù)完成時(shí)間甘特圖如圖6所示。
表15 最終的調(diào)度計(jì)劃表
6.3.4 額外實(shí)例驗(yàn)證
分布式光伏運(yùn)維單位一般負(fù)責(zé)一個(gè)區(qū)域內(nèi)光伏電站的運(yùn)維工作,在某些特殊情況下,可能在某個(gè)時(shí)間點(diǎn)出現(xiàn)大量電站故障。因此,本節(jié)重點(diǎn)針對(duì)某一時(shí)刻出現(xiàn)較多運(yùn)維任務(wù)時(shí)的調(diào)度算法性能進(jìn)行驗(yàn)證。設(shè)在時(shí)刻6由中午天氣狀況造成大量光伏電站出現(xiàn)異常,具體信息如表16所示。下班時(shí)間為時(shí)刻9,時(shí)刻9以后不再調(diào)度新的任務(wù),將當(dāng)日未完成的非緊急故障放入第2天調(diào)度計(jì)劃。
表16 額外實(shí)例任務(wù)信息表
根據(jù)優(yōu)先級(jí)規(guī)則可知,任務(wù)優(yōu)先級(jí)順序應(yīng)為J14→J11→J12→J13→J10→J9。算法參數(shù)設(shè)置如表9所示,采用3種算法分別求解,結(jié)果如圖7所示,可見(jiàn)相比其他兩種算法,Q-Learning算法的優(yōu)勢(shì)較明顯。對(duì)應(yīng)的甘特圖如圖8所示。
由上述結(jié)果可見(jiàn),采用遺傳模擬退火算法和粒子群優(yōu)化算法求解時(shí),任務(wù)完成時(shí)間均超過(guò)下班時(shí)間,而當(dāng)任務(wù)量較大時(shí),Q-Learning算法能夠更合理地調(diào)度運(yùn)維資源,保證任務(wù)的完成效率。
隨著分布式光伏電站的發(fā)展,目前的運(yùn)維調(diào)度方式很難滿足快速增長(zhǎng)的運(yùn)維需求。本文根據(jù)分布式光伏運(yùn)維工作的實(shí)際情況,對(duì)分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度方法展開(kāi)研究。首先,通過(guò)建立分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度優(yōu)先級(jí)規(guī)則,在資源有限時(shí)確定任務(wù)執(zhí)行的先后順序;其次,選擇強(qiáng)化學(xué)習(xí)中的Q-Learning算法求解本文的動(dòng)態(tài)調(diào)度模型,并基于調(diào)度模型特點(diǎn),針對(duì)算法的Q矩陣生成與評(píng)價(jià)值更新進(jìn)行改進(jìn)。實(shí)驗(yàn)表明,本文動(dòng)態(tài)調(diào)度優(yōu)先級(jí)規(guī)則可用于確定不同類(lèi)型運(yùn)維任務(wù)的優(yōu)先級(jí)順序,改進(jìn)Q-Learning算法對(duì)本文動(dòng)態(tài)調(diào)度模型的求解質(zhì)量高,算法穩(wěn)定性好。通過(guò)實(shí)際應(yīng)用證明,本文的分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度方法可以合理分配運(yùn)維資源,并降低運(yùn)維成本,提高任務(wù)完成效率。本文對(duì)動(dòng)態(tài)因素只考慮了任務(wù)插單情況,今后將分析更多類(lèi)型的動(dòng)態(tài)因素,并進(jìn)一步研究動(dòng)態(tài)調(diào)度驅(qū)動(dòng)流程,以完善分布式光伏運(yùn)維資源動(dòng)態(tài)調(diào)度方法。