• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度強化學(xué)習(xí)的PHEV能量管理策略

      2024-09-15 00:00:00李洪歌趙培耕張昊陽張珂代偉
      物聯(lián)網(wǎng)技術(shù) 2024年6期
      關(guān)鍵詞:深度強化學(xué)習(xí)

      摘 要:為了優(yōu)化插電式混合動力汽車(Plug-in Hybrid Electric Vehicles, PHEV)能量管理策略,提高燃油經(jīng)濟性,提出基于深度強化學(xué)習(xí)的能量管理策略。通過對整車MATLAB/SimuLink建模,設(shè)計隨動力電池SOC自適應(yīng)獎勵函數(shù),使用NEDC和FTP-75工況進行智能體訓(xùn)練,在并聯(lián)混動模式下,以WLTC-class3工況繼續(xù)進行測試,相比于等效燃油消耗最小策略節(jié)省燃油8.63%,且實時性提高16.32倍,驗證了該策略的可行性。

      關(guān)鍵詞:能量管理策略;深度強化學(xué)習(xí);等效燃油消耗最?。徊咫娛交旌蟿恿?;智能體訓(xùn)練;PHEV

      中圖分類號:TP39;TN05 文獻標識碼:A 文章編號:2095-1302(2024)06-00-07

      0 引 言

      隨著國家對于“碳達峰、碳中和”目標的明確,混合動力汽車(Hybrid Electric Vehicles, HEV)成為我國應(yīng)對節(jié)能降耗、從燃油車向純電汽車過渡的可行性方案之一。相比于普通混合動力汽車,插電式混合動力汽車具有外部充電接口、更大容量的動力電池等特點,支持純油、純電以及并聯(lián)混動多種工作模式,提高了對復(fù)雜工況的適應(yīng)程度,在環(huán)保與節(jié)能領(lǐng)域有重要意義。

      能量管理策略實現(xiàn)不同動力源之間的功率分配,直接影響混合動力汽車的能耗性能,因此其一直是PHEV控制問題的核心。該問題是一個復(fù)雜的非線性問題,行駛工況與控制策略在不斷的相互影響。目前,較為成熟的解決方法有基于規(guī)則和基于優(yōu)化兩種。

      基于規(guī)則的控制策略是目前應(yīng)用最多的控制方法,如電量消耗-電量維持型、基于模糊規(guī)則的控制策略[1]、功率規(guī)則控制策略[2]和有限狀態(tài)機控制策略[3]等,這類策略對控制器的算力要求較低,實時性和可靠性好,但是節(jié)能效果較差,而且不能適應(yīng)駕駛環(huán)境的變化。另一類思路是基于優(yōu)化的控制策略,其利用最優(yōu)思想求解最小化成本函數(shù),以達到節(jié)省油耗的效果。文獻[4]提出了具有在線優(yōu)化能力的等效燃油消耗最小策略(Equivalent Con-smption Minimization Strategy, ECMS),但是其具有嚴重依賴等效因子的缺陷。文獻[5]進一步將ECMS策略與控制預(yù)測(Model Predictive Control, MPC)結(jié)合對其進行了修正,相比基于規(guī)則的控制策略,這類算法具有良好的動態(tài)控制能力,也能一定程度適應(yīng)外界環(huán)境的變化,然而隨著對模型的細化,其約束條件和離散程度也將增加,龐大的計算量將使得控制器難以承擔,在現(xiàn)實中失去應(yīng)用的可能。

      隨著人工智能技術(shù)的不斷發(fā)展,基于深度強化學(xué)習(xí)的智能優(yōu)化能量管理策略應(yīng)運而生,與上述策略不同,基于學(xué)習(xí)的策略既有較強的適應(yīng)性,又在深度神經(jīng)網(wǎng)絡(luò)的加持下避免了計算量的指數(shù)型增加。其是一個綜合考慮智能體動作和回報的馬爾科夫決策過程,以找到最優(yōu)控制動作從而達到整車最佳的燃油經(jīng)濟性為目標。通過好的能量管理策略,動力源之間可以互為補充,獲得更佳的能耗經(jīng)濟性。

      1 混合動力系統(tǒng)建模

      能量管理策略需要建立在特定的混合動力汽車動力結(jié)構(gòu)上。本模型發(fā)動機和主電機為并聯(lián)工作關(guān)系,發(fā)動機和電機同時工作時通過轉(zhuǎn)矩耦合方式進行動力連接,具體結(jié)構(gòu)如

      圖1所示。

      汽車仿真參數(shù)與環(huán)境條件見表1所列。

      1.1 汽車動力學(xué)模型

      汽車運行環(huán)境中,會受到滾動阻力和空氣阻力的影響,設(shè)定好行駛速度后,汽車需要的推進力為:

      (1)

      式中:Fpw為動力系統(tǒng)的推動力;Froll為滾動阻力;Fair為空氣阻力;Fg為重力分量;m為汽車質(zhì)量;a為汽車加速度。滾動阻力、空氣阻力及重力分量具體數(shù)學(xué)模型如下:

      Froll≈KrcKscmvg" " " " " " " " " " " " " " " " " " (2)

      式中:Krc為滾動阻力系數(shù);Ksc為空氣阻力系數(shù)。

      (3)

      (4)

      式中:Ca為給定高度的空氣密度校正系數(shù);Ad為空氣質(zhì)量密度;Fa為汽車迎風(fēng)面積。

      (5)

      式中:α為路面傾斜角。

      1.2 汽車動力學(xué)模型

      文中建立了內(nèi)燃機的輸入輸出機械特性模型來描述發(fā)動機的工作狀態(tài)。

      發(fā)動機在工作狀態(tài)下離合器接合,提供推動扭矩。閉節(jié)氣門扭矩如下:

      (6)

      發(fā)動機加速所需扭矩:

      (7)

      發(fā)動機產(chǎn)生的扭矩:

      (8)

      式中:Jeng為發(fā)動機轉(zhuǎn)動慣量;Jdemand為汽車所需扭矩;ωMeng為發(fā)動機最大允許角速度;α1、α2、α3、α4分別代表靜摩擦力系數(shù)、粘性摩擦力系數(shù)、庫侖摩擦力系數(shù)以及制動壓縮扭矩系數(shù)。

      1.3 主電機模型

      電動機工作時,為汽車提供拖動扭矩,可以描述如下:

      (9)

      式中:tmot為電動機提供的拖動扭矩;tspin-loss為摩擦帶來的損失扭矩;Jmot為電動機轉(zhuǎn)動慣量;tdemand為汽車所需扭矩。

      其產(chǎn)生的功率模型如下:

      (10)

      (11)

      (12)

      式中:Pelec為電動機所需電功率;ηmot為電動機、逆變器和控制器的總效率。

      1.4 ISG起動發(fā)電機一體機模型

      起動發(fā)電一體機(Integrated Starter and Generator, ISG)是由一臺電機實現(xiàn)起動和發(fā)電兩個過程。ISG能夠根據(jù)車輛運行狀況決定其工作狀態(tài)。車輛啟動時,動力電池為系統(tǒng)供能,驅(qū)動車輛行駛;汽車在減速行駛時,飛輪帶動ISG電機發(fā)電并將電能存儲到動力電池中[6-7]。

      1.4.1 ISG工作在起動狀態(tài)

      當ISG工作在起動狀態(tài)時相當于電動機,其工作模式與主電動機工作模型一致。

      1.4.2 ISG工作在發(fā)電狀態(tài)

      當ISG工作在發(fā)電狀態(tài)時,為汽車提供制動扭矩。ISG反向扭矩可描述為:

      (13)

      式中:Jgen為發(fā)電機轉(zhuǎn)動慣量。

      1.5 動力電池模型

      動力電池是為混合動力汽車提供輸出電壓、功率和能量的重要組成部分。下面從電學(xué)特性、電荷狀態(tài)計算兩個部分進行模型建立。

      1.5.1 電學(xué)特性

      通常由多個單體電池通過串聯(lián)、并聯(lián)或串并聯(lián)的形式組裝,等效建立如下模型。

      端電壓:

      (14)

      歐姆電阻器電壓:

      (15)

      動態(tài)電壓微分方程:

      (16)

      1.5.2 電荷狀態(tài)計算

      我們以通過電流積分計算電池電荷的狀態(tài):

      (17)

      式中:ηbat為電池的庫倫效率;CapAhr為安-時容量[8-9]。

      2 能量管理策略

      2.1 控制問題分析

      文中將PHEV的能量管理抽象成數(shù)學(xué)控制模型。經(jīng)過對混合動力整車參數(shù)和動力總成數(shù)學(xué)建模的分析,認為駕駛員油門踏板開度決定當前車速的期望值,根據(jù)當前實際車速、阻力,結(jié)合坡度計算出車輛需求總功率。

      在已知車輛需求總功率的情況下,發(fā)動機系統(tǒng)和電機系統(tǒng)對功率的分流將直接影響到混合動力汽車的能量消耗經(jīng)濟性。文中所設(shè)計的混合動力汽車模型中發(fā)動機、電機轉(zhuǎn)速與車輪無法完全解耦,從而通過機械耦合裝置將轉(zhuǎn)矩任意耦

      合[10],因此控制問題可以從數(shù)學(xué)的角度簡化為:在當前車速下對發(fā)動機和電機輸出轉(zhuǎn)矩進行實時分配以實現(xiàn)燃油與耗電、發(fā)電的經(jīng)濟性。

      2.2 深度強化學(xué)習(xí)策略

      2.2.1 深度學(xué)習(xí)基本原理

      強化學(xué)習(xí)是一種從環(huán)境中學(xué)習(xí)最佳行為策略的機器學(xué)習(xí)方法。在強化學(xué)習(xí)中,智能體(Agent)在與環(huán)境(Environment)交互的過程中,通過觀察環(huán)境的狀態(tài)(State)、采取行動(Action)并獲得獎勵(Reward)來學(xué)習(xí)最佳的決策策略。

      馬爾科夫決策過程描述了強化學(xué)習(xí)中的智能體、環(huán)境和它們之間的交互,由狀態(tài)、行動、狀態(tài)轉(zhuǎn)移概率和獎勵構(gòu)成。強化學(xué)習(xí)示意圖如圖2所示。

      St為當前t時刻的狀態(tài),若t+1時刻的狀態(tài)St+1僅取決于當前t時刻的狀態(tài),則認為狀態(tài)St具有馬爾科夫性。若一個過程具備馬爾科夫性,則過程中任何時刻的狀態(tài)都具有馬爾科夫性。系統(tǒng)在t+1時刻的狀態(tài)完全由t時刻的狀態(tài)決定。狀態(tài)轉(zhuǎn)移概率矩陣表示的是由狀態(tài)s到狀態(tài)s'的狀態(tài)轉(zhuǎn)移概率[11]。

      (18)

      考慮從環(huán)境中得到反饋獎勵的馬爾科夫獎勵過程,根據(jù)狀態(tài)轉(zhuǎn)移概率Pss'從狀態(tài)St轉(zhuǎn)移到St+1,并得到一個獎勵Rt(St, St+1),從狀態(tài)St一直到最終狀態(tài)結(jié)束。由于獎勵的累計具有一定的長度,因此引入折扣因子γ,所以最終的累計獎勵為:

      (19)

      在馬爾科夫獎勵過程的基礎(chǔ)上,加入行動集合A構(gòu)成完整的馬爾科夫決策過程,用元組[S, A, P, R, γ]表示。其中概率分布:

      (20)

      R為獎勵函數(shù):

      (21)

      在強化學(xué)習(xí)中,智能體根據(jù)一個狀態(tài)做出一個行動的過程稱為策略π,用來表示給定狀態(tài)s的行為概率集合:

      (22)

      在整個馬爾科夫決策過程中,根據(jù)一個狀態(tài),由策略π就可以得到一個行動,策略是行動產(chǎn)生的依據(jù),與狀態(tài)的變化無關(guān)[12]。

      2.2.2 雙延遲深度確定性策略梯度

      雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)是一種連續(xù)控制任務(wù)的深度強化學(xué)習(xí)算法。它是深度確定性策略梯度(Dispatch Deviation Procedure Guide, DDPG)算法的改進版本,解決了DDPG算法存在的“高估”問題。

      TD3是一種將策略梯度和價值函數(shù)相結(jié)合的算法,即A2C框架。Actor作為策略函數(shù),負責(zé)根據(jù)策略得到行動,Critic為值函數(shù),得到梯度信息來評價Actor網(wǎng)絡(luò)的表現(xiàn),同時指導(dǎo)網(wǎng)絡(luò)更新[13-14]。TD3網(wǎng)絡(luò)架構(gòu)如圖3所示。

      TD3算法應(yīng)用2個獨立的Q網(wǎng)絡(luò)來估計Q函數(shù)的值,每個Q網(wǎng)絡(luò)都有自己的參數(shù)θ1和θ2。對于給定的狀態(tài)s和a,Q的估計值為:

      (23)

      式中:r是由環(huán)境得到的獎勵;γ是折扣因子;s'是下一個狀態(tài);πφ'是策略函數(shù)。

      算法使用策略梯度來最小化策略的損失函數(shù):

      (24)

      由于TD3算法中包含了Actor網(wǎng)絡(luò),因此可以通過在目標動作上添加高斯噪聲以提高算法的探索性。具體來說,對于給定的狀態(tài)s,可計算其目標動作為:

      (25)

      式中:σ是高斯噪聲的標準差[15]。

      文中將以深度強化學(xué)習(xí)算法作為混合動力系統(tǒng)的能量管理控制器,強化學(xué)習(xí)智能體Agent通過對車速Vnow、加速度a以及電池SOC進行環(huán)境觀測,以燃油消耗dfuel和電能消耗dsoc作為獎勵函數(shù)的自變量,通過建立深度神經(jīng)網(wǎng)絡(luò)擬合學(xué)習(xí)最優(yōu)策略,輸出最優(yōu)功率分流系數(shù)α,其中:

      0≤α≤1。

      設(shè)置獎勵函數(shù)為:

      (26)

      耗電量為:

      (27)

      由于道路坡度無法控制,故剎車引起的發(fā)電不應(yīng)影響算法獎勵值,d*soc為dsoc對[-1, 0]的限幅值。

      燃油消耗量為:

      (28)

      考慮到過度放電容易降低電池循環(huán)次數(shù)[16]以及電池SOC較大或較小時內(nèi)阻大[17-18]使得效率低下,故設(shè)置可變的電量消耗對燃油消耗的等效權(quán)重wsoc,使得電池SOC較大時用電成本低、電池SOC較小時用電成本高。

      關(guān)于Actor網(wǎng)絡(luò)配置見表2所列。Actor網(wǎng)絡(luò)的學(xué)習(xí)率為1×10-3。

      Critic輸入狀態(tài)信息與輸入動作信息通過第一層網(wǎng)絡(luò)后,相加形成一個全連接層,再通過表3所列的剩余網(wǎng)絡(luò)層進行信息提取,最終計算出Q值。

      Critic網(wǎng)絡(luò)的學(xué)習(xí)率為5×10-4。

      TD3算法中的Critic網(wǎng)絡(luò)包含輸入狀態(tài)信息網(wǎng)絡(luò)層和輸入動作信息網(wǎng)絡(luò)層。輸入狀態(tài)信息網(wǎng)絡(luò)層是一個一層全連接神經(jīng)網(wǎng)絡(luò),節(jié)點個數(shù)為256,激活函數(shù)為LeakyReLU。輸入動作信息網(wǎng)絡(luò)層無隱藏層,在輸入狀態(tài)信息網(wǎng)絡(luò)層與輸入動作信息網(wǎng)絡(luò)層的輸出相加后,通過三層全連接網(wǎng)絡(luò)進行計算。這三層全連接網(wǎng)絡(luò)的節(jié)點個數(shù)分別為256、128、64,且每層的激活函數(shù)均為LeakyReLU。TD3算法的Critic網(wǎng)絡(luò)采用學(xué)習(xí)率為5×10-4的優(yōu)化算法進行訓(xùn)練,以最大化Critic網(wǎng)絡(luò)的Q值估計,進而提高智能體的決策效果。

      TD3超參數(shù)配置見表4所列。

      2.3 等效燃油最小策略

      ECMS是基于PMP的一種瞬時優(yōu)化策略,它克服了普通優(yōu)化算法需要全時域工況的缺點,可以將其轉(zhuǎn)化為一個實時優(yōu)化問題。

      該算法的思想核心是分別通過發(fā)動機與電機所有可能的轉(zhuǎn)速與扭矩,計算出發(fā)動機實時油耗與通過等效因子折合計算出的電機等效油耗,再尋找最小值對應(yīng)的發(fā)動機與電機的轉(zhuǎn)速與扭矩,即為最優(yōu)控制策略。

      首先計算發(fā)動機與電機的功率:

      (29)

      式中:Pmot、Tmot、nmot分別為電動機的功率、扭矩與轉(zhuǎn)速;Peng、Teng、neng分別為發(fā)動機的功率、扭矩與轉(zhuǎn)速。

      發(fā)動機的油耗通過發(fā)動機的燃油消耗率即可計算:

      (30)

      式中:ηeng是發(fā)動機燃油消耗率,其是關(guān)于Teng、neng的函數(shù),可以通過查表得到。

      電動機等效油耗可以通過等效因子折合計算得出:

      (31)

      式中:ηmot是電動機的工作效率,其是關(guān)于Tmot、nmot的函數(shù),可以通過查表得到;s(t)是等效因子,其計算公式如下:

      (32)

      式中:ηeng、ηmot、ηinv、ηbatt分別為發(fā)動機、電機、電機控制器和電池的平均效率;SOCmax、SOCmin為電池電荷量的最大、最小范圍;SOCref、SOC(t)表示期望電池電荷量與實際電池電荷量。

      再利用:

      (33)

      即可得出等效燃油消耗量。計算不同策略下的最小等效燃油值,此刻對應(yīng)的扭矩分配即為最佳控制策略[19-20]。

      3 TD3與ECMS仿真分析

      在利用深度強化學(xué)習(xí)算法進行智能體訓(xùn)練時,文中采用NEDC工況作為離線訓(xùn)練工況,其速度變化較為線性,模擬暢通道路;再使用美國城市測試工況FTP-75訓(xùn)練,增加車速的變化,進一步優(yōu)化模型。NEDC工況速度曲線如圖4所示。FTP-75工況速度曲線如圖5所示。

      采用TD3算法,其AveragReward-Episode訓(xùn)練圖如圖6所示。

      從圖6可以看出,經(jīng)過NEDC和FTP-75兩種工況的訓(xùn)練,智能體獎勵值均在50 Episode后趨于平穩(wěn),雖然仍然有一定波動,但這是由于設(shè)置噪聲進行小范圍動作探索再調(diào)整網(wǎng)絡(luò)導(dǎo)致,對策略穩(wěn)定性基本沒有影響[21],此時停止訓(xùn)練。

      根據(jù)中華人民共和國工業(yè)和信息化部發(fā)布的《乘用車燃料消耗量限值》(現(xiàn)行),混合動力汽車的燃料消耗采用統(tǒng)一輕型車輛測試循環(huán)(WLTC)進行測定[22]。其中WLTC工況加減速次數(shù)更加頻繁,有利于通過更多的瞬時狀態(tài)識別車輛的性能優(yōu)劣以及能量消耗情況[23-25],故文中采用WLTC工況作為測試工況。WLTC-class3工況速度曲線如圖7所示。變速箱擋位圖如圖8所示。

      3.1 能量管理策略仿真結(jié)果分析

      將TD3和ECMS算法應(yīng)用于整車模型,將WLTC-class3工況應(yīng)用于能量消耗測試,整車功率、發(fā)動機功率和電機功率分布如圖9所示,其中電機功率為負時表示飛輪拖動電機對電池充電。

      從圖9可以看出,在WLTC-class3工況較大的速度變化下,TD3控制發(fā)動機和電動機功率變化較大,ECMS算法控制發(fā)動機和電機功率變化較小。TD3發(fā)動機工作點如圖10所示。ECMS發(fā)動機工作點如圖11所示。

      在總功率相同的情況下,發(fā)動機和電機工作越經(jīng)濟、高效將會獲得越小的能量消耗,故對比兩種算法下發(fā)動機和電機工作點。對比可以看出,TD3算法下發(fā)動機工作點更多處于比油耗低的高效區(qū)間且變化范圍廣闊,反映了TD3良好的探索能力。

      從TD3-ECMS發(fā)動機扭矩-電動機扭矩曲線和TD3-ECMS發(fā)動機工作點綜合來看,TD3相比于ECMS對轉(zhuǎn)速-扭矩響應(yīng)更加積極,能夠根據(jù)車速變化調(diào)整分配發(fā)動機和電機的功率,以盡可能提高效率,增強燃油經(jīng)濟性。

      對整車模型進行5個連續(xù)WLTC-class3工況實驗共計116 km/9 000 s,測試得純油油耗11.43 kg/100 km,發(fā)電2.23 kW·h/100 km,純電電耗30.13 kW·h/100 km。按照1 kW·h電能折合0.35 kg燃油,記錄見表5所列。

      計算可知,TD3相比ECMS在本模型中節(jié)省燃油8.63%,同時運行速度提高16.32倍,實時性更好。

      4 結(jié) 語

      本文利用MATLAB/SimuLink對PHEV進行建模,設(shè)計了深度強化學(xué)習(xí)和等效燃油消耗最小兩種能量管理策略,其中在WLTC-class3工況的測試下,深度強化學(xué)習(xí)相對等效燃油消耗至少節(jié)省燃油8.63%,并且實時性提高16.32倍,驗證了強化學(xué)習(xí)在混合動力汽車能量管理中應(yīng)用的可行性。

      注:本文通訊作者為張珂。

      參考文獻

      [1] GUO Q,ZHAOZ,SHEN P,et al. Adaptive optimal control based on driving style recognition for plug-in hybrid electric vehicle [J]. Energy,2019,186:115824.

      [2] PENG C,F(xiàn)ENG F,XIAO Y,et al. Multi-working points power follower based energy management strategy for series hybrid electric vehicle [C]// Journal of Physics:Conference Series,2020,1601:022039.

      [3] LI Q,SU B,PU Y,et al. A state machine control based on equivalent consumption minimization for fuel cellsupercapacitor hybrid tramwave [J]. IEEE transactions on transportation electrification,2019,5(2):552-564.

      [4]司遠,錢立軍,邱利宏,等.基于等效油耗最小的四驅(qū)混合動力汽車能量管理[J].中國機械工程,2017,28(9):1112-1117.

      [5] BOUWMAN K R,PHAM T H,WILKINS S,et al. Predictive energy management strategy including traffic flow data for hybrid electric vehicles [J]. IFAC-Papers on line,2017,50(1):10046-10051.

      [6]肖磊,韓雪峰,陳銳,等.基于起動發(fā)電一體機的車用混合動力總成控制策略研究[J].兵工學(xué)報,2015,36(9):1799-1804.

      [7]趙金國,閻治安.基于一種插電式混合動力汽車的控制方法研究[J].汽車實用技術(shù),2020,45(22):69-72.

      [8]劉偉.混合動力汽車系統(tǒng)建模與控制[M].北京:機械工業(yè)出版社,2015.

      [9]夏克剛,錢祥忠,余懿衡,等.基于BP神經(jīng)網(wǎng)絡(luò)的鋰電池SOC在線精確估算[J].電子設(shè)計工程,2019,27(5):61-65.

      [10]方瑞蓮,陳善球,范健文.基于matlab的并聯(lián)式混合動力汽車動力耦合淺析[J].內(nèi)燃機與配件,2018,39(23):52-54.

      [11]陳福云,花春梅.基于馬爾科夫決策過程的混動汽車能量管理建模及控制策略[J].遼寧省交通高等專科學(xué)校學(xué)報,2020,22(6):19-22.

      [12]顧存昕.基于馬爾科夫的機場機位分配建模與強化學(xué)習(xí)算法[D].武漢:華中科技大學(xué),2021.

      [13]李衛(wèi).基于深度強化學(xué)習(xí)的燃料電池混合動力汽車能量管理策略[D].北京:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進技術(shù)研究院),2021.

      [14]張松,王坤羽,楊蓉,等.混合動力公交車深度強化學(xué)習(xí)能量管理策略研究[J].內(nèi)燃機工程,2021,42(6):10-16.

      [15]胡悅.混合動力電動汽車控制系統(tǒng)設(shè)計與能量管理策略研究[D].北京:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進技術(shù)研究院),2018.

      [16]黃彥博,馮忠楠,隨權(quán),等.考慮實時SOC與動態(tài)循環(huán)效率的電池損耗評估及儲能定容策略[J].太陽能學(xué)報,2022,43(11):413-423.

      [17]盧艷華.車用三元鋰離子動力電池內(nèi)阻特性分析[J].電源技術(shù),2017,41(5):702-704.

      [18]丁亞軍.動力電池單體及模組熱特性試驗與仿真研究[D].揚州:揚州大學(xué),2020.

      [19]林歆悠,孫冬野.基于ECMS混聯(lián)式混合動力客車工況識別控制策略[J].湖南大學(xué)學(xué)報(自然科學(xué)版),2012,39(10):43-49.

      [20]劉少華.基于改進ECMS的插電式混合動力客車能量管理策略研究[D].洛陽:河南科技大學(xué),2022.

      [21]李家曦,孫友長,龐玉涵,等.基于并行深度強化學(xué)習(xí)的混合動力汽車能量管理策略優(yōu)化[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2020,34(9):62-72.

      [22]工業(yè)和信息化部組織.GB 19578—2021乘用車燃料消耗量限值[S]. 2021.

      [23]李孟良,朱西產(chǎn),張建偉,等.典型城市車輛行駛工況構(gòu)成的研究[J].汽車工程,2005,27(5):54-57.

      [24]劉春娜. 基于工況識別和多目標優(yōu)化的PHEV能量管理策略研究[D].濟南:山東大學(xué),2022.

      [25]陳澤宇,方志遠,楊瑞鑫,等.基于深度強化學(xué)習(xí)的混合動力汽車能量管理策略[J].電工技術(shù)學(xué)報,2022,37(23):6157-6168.

      基金項目:國家自然科學(xué)基金(61973306)

      作者簡介:李洪歌(2002—),男,本科,研究方向為強化學(xué)習(xí)、通信技術(shù)。

      趙培耕(2002—),男,本科,研究方向為強化學(xué)習(xí)。

      張昊陽(2002—),男,本科,研究方向為人工智能。

      張 珂(1988—),男,本科,中級工程師,研究方向為齒輪傳動。

      代 偉(1984—),男,人工智能研究院副院長,研究員,教授,博導(dǎo),研究方向為人工智能、工業(yè)控制。

      猜你喜歡
      深度強化學(xué)習(xí)
      基于DDPG算法的路徑規(guī)劃研究
      基于深度強化學(xué)習(xí)的木材缺陷圖像重構(gòu)及質(zhì)量評價模型研究
      基于深度強化學(xué)習(xí)與圖像智能識別的輸電線路在線監(jiān)測系統(tǒng)
      基于云控制的業(yè)務(wù)服務(wù)機器人系統(tǒng)設(shè)計
      人工智能深度強化學(xué)習(xí)的原理與核心技術(shù)探究
      基于人工智能的無人機區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
      基于策略梯度算法的工作量證明中挖礦困境研究
      基于深度強化學(xué)習(xí)的圖像修復(fù)算法設(shè)計
      關(guān)于人工智能阿法元綜述
      商情(2019年14期)2019-06-15 10:20:13
      深度強化學(xué)習(xí)研究進展
      濮阳市| 宁国市| 娱乐| 汽车| 大丰市| 凭祥市| 唐山市| 进贤县| 康定县| 涪陵区| 喀什市| 武山县| 长岭县| 姜堰市| 莱州市| 云南省| 若羌县| 屏边| 大埔区| 凉城县| 齐齐哈尔市| 烟台市| 屏南县| 温州市| 鞍山市| 监利县| 东海县| 霍林郭勒市| 定远县| 句容市| 石渠县| 福州市| 怀仁县| 克拉玛依市| 新竹县| 墨脱县| 万宁市| 呼玛县| 甘谷县| 宽甸| 社旗县|