(沈陽(yáng)理工大學(xué) 遼寧 沈陽(yáng) 110159)
目前,普遍的交通燈配時(shí)方法是及與強(qiáng)化學(xué)習(xí)方法進(jìn)行的,且普遍應(yīng)用于單交叉口,然而,強(qiáng)化學(xué)習(xí)方法局限于動(dòng)作空間和樣本空間都很小的情況。交通路網(wǎng)的狀態(tài)往往是復(fù)雜的,往往用強(qiáng)化學(xué)習(xí)的算法會(huì)忽略路網(wǎng)本身特征。只對(duì)單交叉口進(jìn)行控制會(huì)出現(xiàn)擁擠擴(kuò)散問(wèn)題。
本研究基于深度強(qiáng)化學(xué)習(xí)對(duì)全路網(wǎng)搭建合適的交通燈配時(shí)模型,使用這種方法提取有效的特征進(jìn)行預(yù)測(cè),調(diào)整參數(shù),得到最佳結(jié)果。
因?yàn)橄袼鼐哂凶匀坏目臻g順序,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用于圖像中,但是路網(wǎng)中道路的狀態(tài)不似圖像具有自然順序的空間位置信息,卷積神經(jīng)網(wǎng)絡(luò)在處理交通路網(wǎng)狀態(tài)數(shù)據(jù)時(shí)需要具備一定的刻畫空間特征的能力。因此本研究提出的方法需要將路網(wǎng)中道路狀態(tài)轉(zhuǎn)換成具有空間順序的狀態(tài)。將路網(wǎng)劃分成多個(gè)相互重疊的感受野,既保證了感受野之間的聯(lián)系,又保證了路網(wǎng)感知的全局性。
1.狀態(tài)
我們根據(jù)整個(gè)路網(wǎng)的道路擁擠度定義狀態(tài)S。先將整個(gè)路網(wǎng)分成若干個(gè)感受野,感受野為若干條道路的集合,然后將感受野中道路的車輛密度規(guī)范化為密度矩陣C,將矩陣C確定為對(duì)路網(wǎng)狀態(tài)S的表示方式輸入到卷積神經(jīng)網(wǎng)絡(luò)中。
2.動(dòng)作
動(dòng)作At是路網(wǎng)中所有交叉口相位a(x)t∈A,A={0,1}的序列,在我們的實(shí)驗(yàn)中采取兩個(gè)相位。相位一就是南北方向上的車輛允許通行,東西方向上的車輛禁止通行,相位二是東西方向上的車輛允許通行,而南北方向的車輛禁止通行。交叉口x在時(shí)間步t時(shí)的相位表示為a(x)t,當(dāng)選擇相位一時(shí),a(x)t=0,反之選擇相位二時(shí),a(x)t=1。
3.獎(jiǎng)勵(lì)值函數(shù)
wx,t為交叉口x的入邊車輛在時(shí)間步t的信號(hào)時(shí)長(zhǎng)內(nèi)的總和。當(dāng)上一時(shí)間步t-1的累計(jì)車輛數(shù)小于時(shí)間步t的累計(jì)車輛數(shù)時(shí),智能體應(yīng)該受到懲罰。反之,當(dāng)上一時(shí)間步t-1的累計(jì)車輛數(shù)大于時(shí)間步t的累計(jì)車輛數(shù)時(shí),智能體應(yīng)該受到獎(jiǎng)勵(lì)。所以,交叉口x第t個(gè)時(shí)間步的獎(jiǎng)勵(lì)rx,t如下公式1定義:
rx,t=wx,t-1-wx,t
(公式1)
4.DQN模型
本研究中,將控制問(wèn)題建模為強(qiáng)化學(xué)習(xí)問(wèn)題。然后,利用深度卷積神經(jīng)網(wǎng)絡(luò)從原始實(shí)時(shí)交通數(shù)據(jù)中提取有用的特征,并輸出最優(yōu)的交通信號(hào)控制決策。交叉口復(fù)雜的交通狀況構(gòu)成了巨大的交叉口狀態(tài),很難找到這些狀態(tài)的轉(zhuǎn)換概率。我們不直接求解公式2,而是利用參數(shù)化卷積神經(jīng)網(wǎng)絡(luò)(cnn)來(lái)近似這些最優(yōu)Q值q(s,a),從而使神經(jīng)網(wǎng)絡(luò)的輸出Q(s,a;θ)≈Q*(s,a),其中θ是將從原始交通數(shù)據(jù)中學(xué)習(xí)的特征/參數(shù)。
(公式2)
在預(yù)訓(xùn)練階段智能體將隨機(jī)選擇動(dòng)作a。在訓(xùn)練階段的時(shí)間步t時(shí),以一定的概率從預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)中得到at。將動(dòng)作at施加到環(huán)境中,環(huán)境將獎(jiǎng)勵(lì)rt和下一時(shí)間步的狀態(tài)St給傳智能體。得到的作為樣本經(jīng)驗(yàn)存到經(jīng)驗(yàn)池中,為了加速訓(xùn)練過(guò)程,使用隨機(jī)梯度下降的算法,從經(jīng)驗(yàn)池中隨機(jī)取m個(gè)數(shù)量的經(jīng)驗(yàn)樣本數(shù)據(jù),隨機(jī)優(yōu)化一定數(shù)量樣本的訓(xùn)練數(shù)據(jù)上的損失函數(shù)。應(yīng)用Double DQN機(jī)制,將m個(gè)經(jīng)驗(yàn)樣本的集合中的S作為主卷積神經(jīng)網(wǎng)絡(luò)輸入層得到估計(jì)Q值,將S’輸入到輔助網(wǎng)絡(luò)和主神經(jīng)網(wǎng)絡(luò)中,用主網(wǎng)絡(luò)選擇出來(lái)的a’選擇輔助網(wǎng)絡(luò)輸出得中輸出的,然后計(jì)算估計(jì)Q值與目標(biāo)Q值的均方誤差。此研究中使用Adam優(yōu)化算法反向傳播優(yōu)化主卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)取值。
本實(shí)驗(yàn)采用國(guó)際通用路網(wǎng)仿真系統(tǒng)SUMO,共160個(gè)交叉路口,進(jìn)行20000秒的模擬實(shí)驗(yàn)。分析本文提出方法的表現(xiàn)如表1所示,一級(jí)流量下的路網(wǎng)飽和度較低,發(fā)現(xiàn)在低飽和路網(wǎng)中我們提出的方法的車輛平均等待時(shí)間比基于Q-Learning(QL)單交叉口控制下減少了1.8%,比基于QL協(xié)同控制減少了0.9%。在路網(wǎng)車輛數(shù)上比QL單交叉口控制減少了45.6%,比QL協(xié)同控制增加了8.3%,從中我們發(fā)現(xiàn)隨著路網(wǎng)車輛的飽和度逐漸上升,我們提出的方法的優(yōu)勢(shì)明顯增加。說(shuō)明基于深度強(qiáng)化學(xué)習(xí)的協(xié)同交叉口控制確實(shí)在高飽和路網(wǎng)中顯現(xiàn)出明顯作用。
表1 在不同流量下基于DQN協(xié)同交叉口配時(shí)的優(yōu)化效果表
本文利用深度學(xué)習(xí)發(fā)掘復(fù)雜路網(wǎng)路網(wǎng)整體的特征,通過(guò)與強(qiáng)化學(xué)習(xí)相結(jié)合,整體實(shí)現(xiàn)對(duì)交通路網(wǎng)交叉口的控制決策。實(shí)驗(yàn)表明,本文提出的改進(jìn)深度強(qiáng)化學(xué)習(xí)在協(xié)同交叉口控制上的算法在不同的路網(wǎng)出車數(shù)量、不同路網(wǎng)規(guī)模和不同的綠燈時(shí)間上都有提升。在今后的研究中,我們會(huì)將單一時(shí)刻擴(kuò)展到連續(xù)時(shí)刻對(duì)路網(wǎng)特征的提取,提高DQN協(xié)同控制的表現(xiàn)。