• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強(qiáng)化學(xué)習(xí)的有源中點(diǎn)鉗位逆變器效率優(yōu)化設(shè)計(jì)

    2023-10-17 01:15:20王佳寧楊仁海姚張浩謝綠偉
    電子與信息學(xué)報(bào) 2023年9期
    關(guān)鍵詞:歷法損耗遺傳算法

    王佳寧 楊仁海 姚張浩 彭 強(qiáng) 謝綠偉

    (合肥工業(yè)大學(xué)電氣與自動(dòng)化工程學(xué)院 合肥 230009)

    1 引言

    如何更快速、更好地設(shè)計(jì)電力電子變換器參數(shù)以提升變換器的整體性能一直是電力電子領(lǐng)域追求的目標(biāo)。傳統(tǒng)的電力電子變換器設(shè)計(jì)主要采用順序設(shè)計(jì)的階段優(yōu)化方法,但此類設(shè)計(jì)方法通常依賴于人工經(jīng)驗(yàn)。文獻(xiàn)[1]介紹了雙有源橋變換器效率-功率密度-成本的順序優(yōu)化設(shè)計(jì)方法,設(shè)計(jì)人員需要憑經(jīng)驗(yàn)預(yù)估相關(guān)數(shù)據(jù),或采用過設(shè)計(jì),這將無法從理論上保證裝置的整體性能達(dá)到最優(yōu)。文獻(xiàn)[2]提出了一種寬負(fù)載范圍下功率變換器效率的階段優(yōu)化方法,但該方法需要進(jìn)行繁瑣的數(shù)學(xué)公式推導(dǎo)過程和大量的人工試錯(cuò)優(yōu)化過程,計(jì)算負(fù)擔(dān)重且耗時(shí)長(zhǎng)。

    近年來,電力電子自動(dòng)化設(shè)計(jì)可通過遺傳算法、粒子群算法、蟻群算法等元啟發(fā)式算法實(shí)現(xiàn)電力電子系統(tǒng)的優(yōu)化設(shè)計(jì)而受到了研究人員的廣泛關(guān)注[3–5],此類算法在一定范圍內(nèi)對(duì)設(shè)計(jì)變量進(jìn)行智能搜索,并計(jì)算優(yōu)化目標(biāo)值,最后得到非支配最優(yōu)設(shè)計(jì)目標(biāo)集供設(shè)計(jì)者選擇[6–8],降低了尋優(yōu)計(jì)算量。文獻(xiàn)[9]將人工神經(jīng)網(wǎng)絡(luò)和遺傳算法相結(jié)合對(duì)功率變換器的電路參數(shù)進(jìn)行設(shè)計(jì),避免了復(fù)雜繁瑣的建模過程,提高了設(shè)計(jì)速度。但如果變換器的設(shè)計(jì)需求發(fā)生改變,如功率等級(jí)、電壓等級(jí)等,該算法需要重新進(jìn)行整個(gè)優(yōu)化過程,耗時(shí)且不方便,這將會(huì)對(duì)實(shí)際的工業(yè)運(yùn)用造成障礙。

    為了克服元啟發(fā)式算法因設(shè)計(jì)需求改變帶來的尋優(yōu)耗時(shí)問題,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)因其能夠快速響應(yīng)環(huán)境狀態(tài)變化提供最優(yōu)決策得到了廣泛的應(yīng)用[10,11],但RL只能學(xué)習(xí)低維、離散的設(shè)計(jì)變量數(shù)據(jù)[11]。在深度學(xué)習(xí)的影響下,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法采用了基于人工神經(jīng)網(wǎng)絡(luò)的策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò),可以面向高維、連續(xù)的設(shè)計(jì)變量空間解決實(shí)際工業(yè)應(yīng)用中的各類優(yōu)化決策問題[12]。文獻(xiàn)[13]利用柔性行動(dòng)器-評(píng)判器方法實(shí)現(xiàn)了電-氣綜合能源系統(tǒng)的優(yōu)化調(diào)度,文獻(xiàn)[14]和文獻(xiàn)[15]采用DDPG算法求解雙有源橋變換器三重移相控制策略的最優(yōu)移相控制角,實(shí)現(xiàn)了無功功率和效率的優(yōu)化。但上述研究主要是利用DRL求解能源與電力系統(tǒng)的最優(yōu)調(diào)度策略和從軟件層面優(yōu)化電力電子變換器的控制參數(shù),無法從硬件層面為變換器的系統(tǒng)設(shè)計(jì)提供思路,同時(shí)目前關(guān)于機(jī)器學(xué)習(xí)的電力電子變換器自動(dòng)化設(shè)計(jì)鮮有研究。

    本文以三相三電平有源中點(diǎn)鉗位(Active Neutral Point Clamped, ANPC)逆變器為研究對(duì)象,提出了一種基于DRL的逆變器效率優(yōu)化設(shè)計(jì)方法。面向不同的設(shè)計(jì)需求,該方法均可以快速提供最大化效率的設(shè)計(jì)參數(shù),從系統(tǒng)硬件的角度為變換器的優(yōu)化設(shè)計(jì)提供了新的思路。本文首先介紹了基于DRL的逆變器效率優(yōu)化設(shè)計(jì)框架,然后對(duì)逆變器的效率進(jìn)行建模,并基于效率模型建立逆變器的環(huán)境模型,接著利用DDPG算法的智能體與環(huán)境模型不斷進(jìn)行交互和自學(xué)習(xí)以求解最小化損耗的決策策略,最后對(duì)DRL的優(yōu)化結(jié)果進(jìn)行性能評(píng)估,并搭建了ANPC逆變器的實(shí)驗(yàn)樣機(jī),實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性。

    2 基于DRL的逆變器效率優(yōu)化設(shè)計(jì)

    為了實(shí)現(xiàn)逆變器的效率優(yōu)化設(shè)計(jì),本文提出一種基于DRL的自學(xué)習(xí)優(yōu)化設(shè)計(jì)方法,利用DRL的DDPG算法建立靈活的優(yōu)化機(jī)制,該方法能夠快速響應(yīng)設(shè)計(jì)需求變化,提供最小化功率損耗的決策策略,其優(yōu)化設(shè)計(jì)框架如圖1所示。

    圖1 基于DRL的逆變器效率優(yōu)化設(shè)計(jì)框架

    首先,根據(jù)設(shè)計(jì)需求建立DDPG算法所要探索的逆變器環(huán)境模型,該環(huán)境模型主要包括效率建模,狀態(tài)Sen,動(dòng)作Aen和獎(jiǎng)勵(lì)Ren的設(shè)定。其中,狀態(tài)Sen代表逆變器的設(shè)計(jì)規(guī)格,如輸入電壓、功率等級(jí)等,動(dòng)作Aen代表影響逆變器效率的設(shè)計(jì)變量,如開關(guān)頻率、器件參數(shù)等,獎(jiǎng)勵(lì)Ren用于對(duì)施加在逆變器上的動(dòng)作進(jìn)行打分,其主要與系統(tǒng)損耗有關(guān),然后利用DDPG算法的智能體與逆變器環(huán)境模型進(jìn)行交互學(xué)習(xí),不斷優(yōu)化動(dòng)作,從而獲取最大化效率的優(yōu)化策略。

    在智能體與環(huán)境的交互過程中,效率優(yōu)化設(shè)計(jì)問題可表述為RL的馬爾可夫決策過程[16],即智能體在某一時(shí)刻的狀態(tài)(即設(shè)計(jì)規(guī)格)下采取動(dòng)作(即設(shè)計(jì)變量)得到逆變器環(huán)境模型反饋的獎(jiǎng)勵(lì),并進(jìn)入下一狀態(tài)。智能體根據(jù)獎(jiǎng)勵(lì)改進(jìn)下一時(shí)刻所要采取的動(dòng)作,利用RL的優(yōu)化策略訓(xùn)練策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò),直到獲取的累計(jì)獎(jiǎng)勵(lì)達(dá)到最大并收斂,從而可以根據(jù)策略網(wǎng)絡(luò)得到任意設(shè)計(jì)規(guī)格下的最優(yōu)設(shè)計(jì)變量實(shí)現(xiàn)效率最大化。

    3 三相三電平ANPC逆變器效率建模

    3.1 系統(tǒng)介紹

    根據(jù)第2節(jié)的逆變器效率優(yōu)化設(shè)計(jì)框架,本節(jié)將對(duì)三相三電平ANPC逆變器的效率進(jìn)行建模,其拓?fù)浣Y(jié)構(gòu)如圖2所示。其中,UDC為直流側(cè)輸入電壓,CDC為直流側(cè)支撐電容。以A相為例,Ta2和Ta3是高頻工作的SiC開關(guān)管,Ta1, Ta4, Ta5, Ta6是工頻工作的Si開關(guān)管,Da1~Da6是開關(guān)管的反并聯(lián)二極管,本文采用載波同相SPWM調(diào)制策略。LCL濾波器由濾波電感L1、濾波電感L2和濾波電容CAC組成,三相負(fù)載為電阻RL,ia, ib, ic分別是逆變器A相、B相、C相的輸出電流,且設(shè)其有效值為I,系統(tǒng)規(guī)格如表1所示。

    表1 三相三電平ANPC逆變器的系統(tǒng)規(guī)格

    圖2 三相三電平ANPC逆變器的拓?fù)浣Y(jié)構(gòu)

    由于直流側(cè)支撐電容和濾波電容產(chǎn)生的損耗在系統(tǒng)總損耗中所占的比例較小,故本文忽略兩者對(duì)系統(tǒng)總損耗的影響,將其作為固定參數(shù),同時(shí)將開關(guān)管的開關(guān)頻率fsw、濾波電感L1和濾波電感L2作為系統(tǒng)的設(shè)計(jì)參數(shù),其中L1和L2為非獨(dú)立的設(shè)計(jì)變量,濾波電感的設(shè)計(jì)與UDC, I, fsw和電流紋波系數(shù)有關(guān)[17]。

    3.2 損耗分析

    系統(tǒng)損耗由開關(guān)管損耗PT、電感損耗PL和其他損耗Pother組成。其中,其他損耗主要包括與溫度相關(guān)的SiC開關(guān)管通態(tài)損耗、直流側(cè)支撐電容損耗和濾波電容損耗,且由于其只占整體損耗很小的一部分,因此本文忽略其他損耗的影響,其他功率損耗分析如下所述。

    3.2.1 開關(guān)管損耗

    開關(guān)管損耗主要包括通態(tài)損耗Pcond、開關(guān)損耗Psw和驅(qū)動(dòng)損耗Pg[18],具體的計(jì)算公式為

    其中,Rdson為開關(guān)管的通態(tài)電阻,Eon_nom和Eoff_nom分別為標(biāo)準(zhǔn)測(cè)試條件下系統(tǒng)中SiC開關(guān)管的開通損耗和關(guān)斷損耗,Qg為柵極電容電荷,Vgs為柵極驅(qū)動(dòng)電壓。系統(tǒng)含有18個(gè)開關(guān)管,因此開關(guān)管損耗為

    3.2.2 電感損耗

    電感損耗由繞組銅損Pcop[19]和磁芯鐵損Pcore[20]組成。其中,由集膚效應(yīng)產(chǎn)生的交流繞組銅損忽略不計(jì),磁芯鐵損包括工頻電流和開關(guān)頻率次諧波電流產(chǎn)生的鐵損,可根據(jù)斯坦梅茨公式計(jì)算得到,計(jì)算公式為

    其中,Rcop為繞組的直流電阻,k, α, β為磁芯數(shù)據(jù)手冊(cè)中的斯坦梅茨參數(shù),Bm為磁通密度最大值,VL為單個(gè)濾波電感的體積。系統(tǒng)含有6個(gè)濾波電感,因此電感損耗為

    所以,整個(gè)三相三電平ANPC逆變器系統(tǒng)的總損耗Ptot為

    Ptot=PT+PL(5)

    綜上所述,系統(tǒng)效率η可通過系統(tǒng)總損耗Ptot和輸出功率Po計(jì)算得到,即

    4 基于DDPG算法的三相三電平ANPC逆變器效率優(yōu)化設(shè)計(jì)

    4.1 環(huán)境模型的關(guān)鍵變量

    由于逆變器輸入電壓、輸出電流和開關(guān)頻率對(duì)損耗有較大影響,且直流側(cè)輸入電壓和輸出電流有效值能夠反映逆變器的設(shè)計(jì)規(guī)格,所以環(huán)境模型的狀態(tài)和動(dòng)作分別定義為

    為了給智能體交互過程中采取的動(dòng)作進(jìn)行打分,需要根據(jù)采取動(dòng)作后的逆變器損耗對(duì)智能體施加相應(yīng)的獎(jiǎng)勵(lì),而最大化獎(jiǎng)勵(lì)可以轉(zhuǎn)化為最小化損耗,因此獎(jiǎng)勵(lì)Ren為

    其中,?為獎(jiǎng)勵(lì)系數(shù)且? > 0,它衡量對(duì)所采取動(dòng)作的獎(jiǎng)勵(lì)尺度。當(dāng)系統(tǒng)功率損耗逐漸降低時(shí),獎(jiǎng)勵(lì)將會(huì)逐漸增加,因此在DDPG算法中,智能體通過最大化獎(jiǎng)勵(lì)實(shí)現(xiàn)效率的最大化。

    4.2 DDPG算法

    本文采用DDPG算法求解最小化損耗的開關(guān)頻率,利用智能體與環(huán)境交互學(xué)習(xí)獲取的經(jīng)驗(yàn)數(shù)據(jù)訓(xùn)練智能體,使其能夠在任意狀態(tài)下快速提供最優(yōu)動(dòng)作實(shí)現(xiàn)效率最大化,整體的優(yōu)化設(shè)計(jì)框架如圖3所示。DDPG算法包括Actor策略網(wǎng)絡(luò)和Critic評(píng)價(jià)網(wǎng)絡(luò)兩部分,為了提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)穩(wěn)定性,每部分均包含在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),因此整個(gè)DDPG算法共涉及4個(gè)神經(jīng)網(wǎng)絡(luò):在線策略網(wǎng)絡(luò)μ、目標(biāo)策略網(wǎng)絡(luò)μ′、在線評(píng)價(jià)網(wǎng)絡(luò)Q和目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)Q′[12]。首先,在t時(shí)刻的狀態(tài)st= (UDC, I)t下,通過策略網(wǎng)絡(luò)得到動(dòng)作at= (fsw)t,將其輸入至逆變器環(huán)境模型中,得到此時(shí)的獎(jiǎng)勵(lì)rt= (–φ·Ptot)t和下一狀態(tài)st+1,然后將狀態(tài)轉(zhuǎn)換序列(st, at, rt, st+1)存入經(jīng)驗(yàn)回放池,最后根據(jù)小批量采樣策略隨機(jī)抽取N組數(shù)據(jù)訓(xùn)練策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)。其中,動(dòng)作at由式(10)計(jì)算得到

    圖3 基于DDPG算法的ANPC逆變器效率優(yōu)化設(shè)計(jì)框架

    其中,μ(st)為在線策略網(wǎng)絡(luò)μ輸出的動(dòng)作,δt為標(biāo)準(zhǔn)正態(tài)分布噪聲,可以避免優(yōu)化過程陷入局部最優(yōu)。

    在線評(píng)價(jià)網(wǎng)絡(luò)Q和在線策略網(wǎng)絡(luò)μ分別通過誤差反向傳播算法和確定性策略梯度定理進(jìn)行參數(shù)更新,目標(biāo)策略網(wǎng)絡(luò)μ′和目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)Q′通過滑動(dòng)平均方法進(jìn)行參數(shù)更新[12],如式(11)、式(12)和式(13)所示

    其中,yi為由目標(biāo)策略網(wǎng)絡(luò)μ′和目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)Q′產(chǎn)生的目標(biāo)評(píng)分值,L為損失函數(shù),基于誤差反向傳播算法可以得到L相對(duì)于θQ的梯度?θQL,從而對(duì)參數(shù)θQ進(jìn)行優(yōu)化更新。Q(s, a|θQ)為動(dòng)作值函數(shù),μ(s|θμ) 為在線策略網(wǎng)絡(luò)μ輸 出的策略。和分別為更新后的目標(biāo)策略網(wǎng)絡(luò)μ′參數(shù)和目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)Q′參數(shù),τ為滑動(dòng)平均更新參數(shù),且通常取值為0.001。通過不斷采樣經(jīng)驗(yàn)回放池的狀態(tài)轉(zhuǎn)換序列數(shù)據(jù),利用誤差反向傳播算法和確定性策略梯度定理按照最大化獎(jiǎng)勵(lì)的目標(biāo)迭代訓(xùn)練策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò),最終得到優(yōu)化的策略網(wǎng)絡(luò),輸入任意狀態(tài)便能立即輸出動(dòng)作使得智能體獲得最大獎(jiǎng)勵(lì),從而實(shí)現(xiàn)效率優(yōu)化設(shè)計(jì)。

    4.3 DDPG算法的訓(xùn)練結(jié)果

    在正式訓(xùn)練之前,需要對(duì)DDPG算法的關(guān)鍵參數(shù)進(jìn)行設(shè)置,如表2所示。另外,策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)均包含1個(gè)隱藏層,隱藏層神經(jīng)元個(gè)數(shù)分別為6和3,最大訓(xùn)練回合數(shù)M為5 000,每個(gè)訓(xùn)練回合包含的步數(shù)T為20,詳細(xì)的算法訓(xùn)練流程可參考文獻(xiàn)[12]。

    表2 DDPG算法的關(guān)鍵參數(shù)

    通過大量的迭代訓(xùn)練,圖4(a)和圖4(b)分別為DDPG算法訓(xùn)練過程中平均累計(jì)獎(jiǎng)勵(lì)和平均動(dòng)作的變化情況,兩者均為每個(gè)訓(xùn)練回合內(nèi)20步的平均值。從圖4可以看出,在訓(xùn)練過程的前期階段,平均累計(jì)獎(jiǎng)勵(lì)和平均動(dòng)作均比較小,這是因?yàn)橹悄荏w在前期探索階段隨機(jī)執(zhí)行動(dòng)作,與環(huán)境進(jìn)行交互并收集經(jīng)驗(yàn)數(shù)據(jù),策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)暫未更新。當(dāng)經(jīng)驗(yàn)回放池里的數(shù)據(jù)達(dá)到最大容量后,網(wǎng)絡(luò)參數(shù)開始更新,智能體逐漸學(xué)習(xí)到最小化損耗的優(yōu)化策略,平均累計(jì)獎(jiǎng)勵(lì)和平均動(dòng)作逐漸增加并收斂。訓(xùn)練過程結(jié)束后,便得到優(yōu)化的策略網(wǎng)絡(luò),在狀態(tài)空間內(nèi)向策略網(wǎng)絡(luò)輸入任意狀態(tài),便能得到最優(yōu)的動(dòng)作。

    圖4 DDPG算法訓(xùn)練過程中平均累計(jì)獎(jiǎng)勵(lì)和平均動(dòng)作的變化情況

    5 優(yōu)化效果評(píng)估

    根據(jù)DDPG算法訓(xùn)練完成的策略網(wǎng)絡(luò)能夠得到逆變器不同狀態(tài)下的開關(guān)頻率優(yōu)化結(jié)果。同時(shí)通過遍歷法能夠確定唯一的開關(guān)頻率使得系統(tǒng)總損耗最小,因此遍歷法的優(yōu)化結(jié)果可以被視為最優(yōu)值。選取逆變器的5個(gè)狀態(tài),將DRL的開關(guān)頻率優(yōu)化結(jié)果與遍歷法、遺傳算法和RL進(jìn)行對(duì)比,如表3所示,其中,遍歷法所選取的開關(guān)頻率步長(zhǎng)為Δfsw=100 Hz,遺傳算法采用了NSGA-II算法,RL采用的算法是Q-learning算法[16]。根據(jù)表3的優(yōu)化結(jié)果計(jì)算得到5種狀態(tài)下的開關(guān)管損耗、電感損耗、總損耗和效率,如圖5所示。

    表3 不同狀態(tài)下的開關(guān)頻率優(yōu)化結(jié)果對(duì)比

    圖5 不同優(yōu)化方法之間的功率損耗和效率優(yōu)化結(jié)果對(duì)比

    由圖5(a)和圖5(b)可以發(fā)現(xiàn):5個(gè)狀態(tài)下DRL和遍歷法優(yōu)化后的開關(guān)管損耗均小于遺傳算法和RL,且遺傳算法優(yōu)化后的開關(guān)管損耗最大;而DRL和遍歷法的電感損耗曲線均高于遺傳算法和RL,這主要是因?yàn)檫z傳算法和RL優(yōu)化后的開關(guān)頻率均大于DRL和遍歷法。與遍歷法相比,5個(gè)狀態(tài)下DRL的開關(guān)管損耗和電感損耗的誤差百分比平均值分別為2.83%和9.63%,分別低于遺傳算法的10.52%和21.83%以及RL的5.84%和14.79%。同時(shí)通過圖5(c)可以看出DRL的總損耗曲線均低于遺傳算法和RL,3種方法相比于遍歷法的總損耗誤差百分比平均值依次為0.31%, 3.32%和1.26%。圖5(d)為5個(gè)狀態(tài)下4種優(yōu)化方法的效率優(yōu)化結(jié)果對(duì)比圖,可以看出DRL的效率曲線均高于遺傳算法和RL,且更接近于遍歷法的效率曲線,3種方法相比于遍歷法的效率誤差平均值依次為0.004%, 0.042%和0.016%。因此,相比于遺傳算法和RL, DRL的優(yōu)化結(jié)果更接近于遍歷法,且5個(gè)狀態(tài)下DRL優(yōu)化后的效率均大于遺傳算法和RL。

    改變DDPG算法的狀態(tài)空間范圍為400 V ≤ UDC≤600 V, 20 A ≤ I ≤ 60 A,然后重新進(jìn)行訓(xùn)練,并得到低功率等級(jí)下4種方法的開關(guān)頻率優(yōu)化結(jié)果。通過計(jì)算得到3種電壓等級(jí)、2種電流等級(jí)下詳細(xì)的功率損耗分布,如圖6所示,其中UDC分別取值為400 V, 500 V, 600 V,I分別取值為30 A, 50 A;功率損耗包括通態(tài)損耗Pcond、開關(guān)損耗Psw、驅(qū)動(dòng)損耗Pg、繞組銅損Pcop和磁芯鐵損Pcore。

    圖6 不同優(yōu)化方法之間詳細(xì)的功率損耗對(duì)比

    以圖6(a)為例進(jìn)行分析,3種電壓等級(jí)下不同方法之間的通態(tài)損耗、驅(qū)動(dòng)損耗和磁芯鐵損均相近。遺傳算法的開關(guān)損耗較大,繞組銅損較小,而RL的開關(guān)損耗較小,繞組銅損較大。通過對(duì)比,3種電壓等級(jí)下DRL的開關(guān)損耗和繞組銅損更接近于遍歷法。這主要是因?yàn)檫z傳算法優(yōu)化后的開關(guān)頻率較大,RL的開關(guān)頻率較小,而DRL的開關(guān)頻率更加接近于遍歷法。相比于遍歷法,遺傳算法、RL和DRL優(yōu)化后的各部分功率損耗如表4所示,3種電壓等級(jí)下DRL的損耗誤差百分比平均值分別為7.73%, 4.90%和4.29%,在大多數(shù)情況下均低于遺傳算法和RL。總體而言,DRL優(yōu)化后的各部分損耗更接近于遍歷法的優(yōu)化結(jié)果。

    表4 I = 30 A時(shí),相比于遍歷法,其他優(yōu)化方法的各部分功率損耗對(duì)比

    通過詳細(xì)對(duì)比不同方法優(yōu)化后的功率損耗和效率,DRL與遍歷法的優(yōu)化結(jié)果更相近,所以DRL具有更好的優(yōu)化性能,能夠最大化系統(tǒng)的效率,且DRL優(yōu)化后的效率大于遺傳算法和RL優(yōu)化后的效率。同時(shí),在表2的參數(shù)設(shè)置下,DRL的整個(gè)訓(xùn)練過程耗時(shí)約40 min,優(yōu)化后的策略網(wǎng)絡(luò)可以面向狀態(tài)空間內(nèi)的任一狀態(tài)在3 s內(nèi)輸出優(yōu)化動(dòng)作。當(dāng)采用遍歷法時(shí),每個(gè)狀態(tài)的優(yōu)化過程耗時(shí)約110 s。RL的訓(xùn)練過程耗時(shí)約為53 min,每個(gè)狀態(tài)輸出動(dòng)作的耗時(shí)約為3.5 s。對(duì)于遺傳算法,單個(gè)狀態(tài)的程序運(yùn)行時(shí)間約為5 926.3 s。另外,以上4種方法的程序代碼均運(yùn)行在Win 10操作系統(tǒng)上,CPU型號(hào)為AMD Ryzen 5 3600X @3.8 GHz。

    為了驗(yàn)證DRL優(yōu)化策略的快速性,根據(jù)表2的狀態(tài)空間取值范圍,以ΔUDC= 10 V和ΔI = 10 A為變量步長(zhǎng)共選取40個(gè)設(shè)計(jì)規(guī)格,圖7為不同方法完成多個(gè)設(shè)計(jì)規(guī)格的逆變器優(yōu)化設(shè)計(jì)的優(yōu)化耗時(shí)對(duì)比。從圖7可以看出,任意設(shè)計(jì)規(guī)格數(shù)量下遺傳算法的優(yōu)化耗時(shí)均高于另外3種方法,通過局部放大圖可以發(fā)現(xiàn)RL的優(yōu)化耗時(shí)均高于DRL,當(dāng)設(shè)計(jì)規(guī)格數(shù)量小于或等于22時(shí),DRL的優(yōu)化耗時(shí)高于遍歷法,但當(dāng)設(shè)計(jì)規(guī)格數(shù)量大于22時(shí),DRL的優(yōu)化耗時(shí)逐漸低于遍歷法,且基本保持不變,即DRL不會(huì)因?yàn)樵O(shè)計(jì)規(guī)格數(shù)量的增加而大幅增加優(yōu)化耗時(shí),同時(shí)DRL的優(yōu)化耗時(shí)遠(yuǎn)低于遺傳算法,因此DRL能夠快速響應(yīng)設(shè)計(jì)規(guī)格變化,輸出最優(yōu)的設(shè)計(jì)參數(shù)。

    圖7 不同方法之間的優(yōu)化耗時(shí)對(duì)比

    綜上所述,本文基于DRL的效率優(yōu)化設(shè)計(jì)方法既能最大化系統(tǒng)效率,又能快速響應(yīng)設(shè)計(jì)規(guī)格變化提供最優(yōu)設(shè)計(jì)變量,建立了靈活的效率優(yōu)化機(jī)制。

    6 實(shí)驗(yàn)驗(yàn)證

    為了驗(yàn)證DRL的有效性,本文搭建了額定功率為140 kW的三相三電平ANPC逆變器的實(shí)驗(yàn)樣機(jī),如圖8所示。其中LCL濾波器位于電磁兼容(Electro Magnetic Compatibility, EMC)板的下方,CDC位于直流源的下方。由于實(shí)驗(yàn)條件有限,本文將實(shí)驗(yàn)樣機(jī)運(yùn)行在4種低功率等級(jí)下,根據(jù)DRL、遍歷法、遺傳算法和RL得到相應(yīng)的開關(guān)頻率優(yōu)化結(jié)果,在此優(yōu)化結(jié)果的工作條件下,采用型號(hào)為WT3000E的功率分析儀實(shí)測(cè)樣機(jī)的效率,實(shí)驗(yàn)測(cè)試條件如表5所示,不同優(yōu)化方法的理論效率和實(shí)測(cè)效率對(duì)比結(jié)果如圖9所示。

    表5 實(shí)驗(yàn)樣機(jī)的測(cè)試條件

    圖8 三相三電平ANPC逆變器實(shí)驗(yàn)樣機(jī)

    圖9 不同優(yōu)化方法的理論效率與實(shí)測(cè)效率

    從圖9可以看出,隨著直流側(cè)輸入電壓UDC的增加,系統(tǒng)的效率逐漸增加,4種優(yōu)化方法的效率測(cè)量值及理論值的變化趨勢(shì)相同。由于開關(guān)頻率優(yōu)化結(jié)果存在誤差,DRL的效率理論值略小于遍歷法的效率理論值,4種電壓等級(jí)下兩者效率理論值的平均相對(duì)誤差為0.005%,同時(shí)DRL的理論效率曲線均高于遺傳算法和RL的理論效率曲線。高頻磁芯鐵損計(jì)算誤差的存在,以及未考慮的其他損耗的影響,使得遍歷法、遺傳算法、RL和DRL的效率測(cè)量值均小于其理論值,效率測(cè)量值與理論值之間的平均相對(duì)誤差依次約為0.145%, 0.168%, 0.165%和0.153%。另外,與遍歷法相比,4種電壓等級(jí)下DRL的效率測(cè)量值均較小,平均相對(duì)誤差約為0.013%;而相比于遺傳算法和RL, DRL的效率測(cè)量值均較大,平均相對(duì)誤差分別為0.025%和0.025%。

    根據(jù)上述分析,DRL的效率測(cè)量值和理論值均接近于遍歷法,且大于遺傳算法和RL的效率測(cè)量值和理論值。實(shí)驗(yàn)測(cè)量結(jié)果與理論計(jì)算結(jié)果基本吻合,兩者的誤差來源于忽略不計(jì)的其他損耗和計(jì)算誤差。因此,本文提出的DRL優(yōu)化設(shè)計(jì)方法能夠最大化系統(tǒng)的效率,同時(shí)可以快速提供任意設(shè)計(jì)規(guī)格下的最優(yōu)設(shè)計(jì)參數(shù),打破了傳統(tǒng)算法優(yōu)化設(shè)計(jì)過程耗時(shí)、計(jì)算量大以及無法快速響應(yīng)設(shè)計(jì)需求變化的局限性。

    7 結(jié)束語

    本文提出一種基于DRL的ANPC逆變器效率優(yōu)化設(shè)計(jì)方法。具體地說,通過DDPG算法與三相三電平ANPC逆變器環(huán)境模型進(jìn)行不斷交互,利用交互過程中獲得的經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行自學(xué)習(xí),逐漸改進(jìn)智能體的動(dòng)作決策以最小化功率損耗,從而獲得最大化效率的決策策略。首先,介紹了基于DRL的逆變器效率優(yōu)化設(shè)計(jì)框圖;其次對(duì)逆變器的效率進(jìn)行建模,并采用DDPG算法求解最小化功率損耗的開關(guān)頻率;然后將DRL的優(yōu)化結(jié)果與遍歷法、遺傳算法和RL進(jìn)行優(yōu)化性能對(duì)比;最后搭建了三相三電平ANPC逆變器的實(shí)驗(yàn)樣機(jī)進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文基于DRL的優(yōu)化策略能夠最大化系統(tǒng)的效率。

    綜上所述,本文以三相三電平ANPC逆變器的效率為設(shè)計(jì)指標(biāo),利用DRL的DDPG算法建立了靈活、快速的優(yōu)化機(jī)制,且通過實(shí)驗(yàn)驗(yàn)證了優(yōu)化策略的有效性。相比于遺傳算法和RL,實(shí)測(cè)效率平均提高了0.025%和0.025%。面向不同的逆變器設(shè)計(jì)規(guī)格,該優(yōu)化策略均可以快速提供最優(yōu)的設(shè)計(jì)參數(shù)實(shí)現(xiàn)效率最大化,從系統(tǒng)硬件的角度為電力電子變換器的優(yōu)化設(shè)計(jì)提供了新的思路和方法,在電力電子變換器設(shè)計(jì)領(lǐng)域開展了有益的嘗試。

    猜你喜歡
    歷法損耗遺傳算法
    遨游天地話歷法 穿越時(shí)空訪古臺(tái)
    軍事文摘(2023年20期)2023-10-31 08:43:18
    從走馬樓西漢簡(jiǎn)歧異干支談漢初歷法混用問題
    基于自適應(yīng)遺傳算法的CSAMT一維反演
    一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
    基于遺傳算法和LS-SVM的財(cái)務(wù)危機(jī)預(yù)測(cè)
    自我損耗理論視角下的編輯審讀
    新聞傳播(2016年11期)2016-07-10 12:04:01
    基于改進(jìn)的遺傳算法的模糊聚類算法
    變壓器附加損耗對(duì)負(fù)載損耗的影響
    非隔離型單相光伏并網(wǎng)逆變器的功率損耗研究
    歷法術(shù)語“執(zhí)徐“”大荒落”“敦牂”“協(xié)洽”詞義及相關(guān)考索
    語言與翻譯(2014年2期)2014-07-12 15:49:22
    双牌县| 综艺| 顺义区| 石屏县| 广州市| 三门县| 开封市| 博乐市| 遂平县| 宣化县| 德保县| 格尔木市| 汾阳市| 抚州市| 永吉县| 衡山县| 濮阳市| 城口县| 东乌珠穆沁旗| 丽江市| 房产| 彭州市| 玛纳斯县| 虞城县| 鹤岗市| 乌鲁木齐县| 通渭县| 阆中市| 重庆市| 台湾省| 陕西省| 达尔| 万安县| 孝感市| 黔西县| 广安市| 光泽县| 清水县| 古丈县| 屏山县| 宕昌县|