朱連偉
(安徽工業(yè)大學(xué)管理科學(xué)與工程學(xué)院,馬鞍山243032)
隨著通訊技術(shù)的發(fā)展和科技的進步,互聯(lián)網(wǎng)已經(jīng)深入到了人們生活的各個角落,而且隨著擁有高寬帶、低時延、多點連接特點的5G 網(wǎng)絡(luò)的出現(xiàn)和應(yīng)用,人們在現(xiàn)在的生活在越來難以離開通信網(wǎng)絡(luò)。所以當(dāng)遇到自然災(zāi)害導(dǎo)致通訊設(shè)施毀壞時,這對受災(zāi)區(qū)域人們的生活和營救人員的通訊都會造成很大的影響,雖然現(xiàn)在有通訊衛(wèi)星、通訊車和通訊氣球可以用于災(zāi)害區(qū)域的緊急聯(lián)絡(luò),但是都會有著通訊范圍、傳輸數(shù)據(jù)量和使用時等問題之中的一個或者多個問題。所以怎么解決災(zāi)害區(qū)域的通信問題是在移動網(wǎng)絡(luò)研究中一個比較重要的問題。
而在應(yīng)急通信中,國際上通常使用的手段時使用空中平臺中繼通信,而且空中平臺中繼通信可以很好地解決在地形復(fù)雜區(qū)域的信號覆蓋問題[1]。無人機擁有機動性好、生存能力強、部署迅速的特點,將無人機當(dāng)成空中平臺中繼通信應(yīng)用在災(zāi)害區(qū)域用于應(yīng)急通信和救災(zāi)指揮具有著重要的實際意義和應(yīng)用前景[2]。
強化學(xué)習(xí)就是學(xué)習(xí)“做什么才能使得數(shù)值化的收益信號最大”,學(xué)習(xí)者不會被告知應(yīng)該采取什么動作,而是必須自己通過嘗試去發(fā)現(xiàn)那些動作會產(chǎn)生最豐厚的收益。強化學(xué)習(xí)最大的特點就是考慮的是長期收益最大化,即目標(biāo)是最優(yōu)解,所以使用強化學(xué)習(xí)的理論和模型對以無人機為中繼通信節(jié)點的問題進行建模,從而找到研究問題中的最優(yōu)解。
在強化學(xué)習(xí)中,除了采取學(xué)習(xí)行為的智能體和智能體所處的環(huán)境之外,強化學(xué)習(xí)系統(tǒng)還有以下幾個子要素:策略、回報信號、價值函數(shù)以及可選的環(huán)境模型(Model-Free or Model Based)。
(1)策略(Policy):定義了一個特定時刻智能體的行為方式,一般用π 表示。簡單來說,策略是一個從當(dāng)前感知到的環(huán)境狀態(tài)到該狀態(tài)下采取的動作的一個映射。它對應(yīng)于心理學(xué)中被稱為“刺激-反應(yīng)”的規(guī)則或關(guān)聯(lián)關(guān)系。在某些情況下,策略可能是一個簡單的函數(shù)或者是一個查找表,然而在其他情況下,也可能涉及大量的計算,例如搜索過程。策略本身是可以決定行為的,因此策略是強化學(xué)習(xí)智能體的核心。一般來說,策略可能是環(huán)境所在狀態(tài)和智能體所采取的動作的隨機函數(shù)。
(2)回報信號(Reward):定義了強化學(xué)習(xí)問題中的目標(biāo),一般用R 表示。在每一步中,環(huán)境向強化學(xué)習(xí)智能體發(fā)送一個稱為收益的標(biāo)量數(shù)值。智能體的唯一目標(biāo)就是最大化長期總收益。因此,收益信號是改變策略的主要基礎(chǔ),如果策略選擇的某個動作導(dǎo)致了一個低的回報,那么這個策略可能會改變自己以便于在將來相同的情景下獲得更多的回報。
(3)價值函數(shù)(Value Function):表示從長遠的角度看什么是好的,簡單地說,一個狀態(tài)的價值是一個智能體從這個狀態(tài)開始,對將來累積的總收益的期望,一般用vπ(s)表示。盡管收益決定了環(huán)境狀態(tài)直接、即時、內(nèi)在的吸引力,但是價值表示了接下來所有可能狀態(tài)的長期期望。
(4)環(huán)境模型:這是一種對環(huán)境的反應(yīng)模式的模擬,或者更一般的說,它允許對外部環(huán)境的行為進行推斷。例如,給定一個狀態(tài)和動作,模型就可以預(yù)測外部環(huán)境的下一個狀態(tài)和下一個收益。環(huán)境模型會被用于做規(guī)劃。使用環(huán)境模型和規(guī)劃來解決強化學(xué)習(xí)問題的方法被稱為有模型方法。而簡單的無模型方法就是直接的試錯,這與有目標(biāo)地進行規(guī)劃恰好相反。
圖1 解釋了強化學(xué)習(xí)的基本過程。進行操作的主體來做決策,即選擇一個合適的動作(Action)At。而系統(tǒng)(環(huán)境)有自己的狀態(tài)模型,我們選擇了動作At后,環(huán)境的狀態(tài)(State)會變,我們會發(fā)現(xiàn)環(huán)境狀態(tài)已經(jīng)變?yōu)镾t+1,同時我們得到了我們采取動作At的延時獎勵(Re?ward)Rt+1。
圖1 強化學(xué)習(xí)過程
在上面介紹強化學(xué)習(xí)的基本原理中涉及以下到幾個強化學(xué)習(xí)的要素。
首先是比較簡單地三個:環(huán)境狀態(tài)S,t 時刻環(huán)境的狀態(tài)St是它的環(huán)境狀態(tài)集中某一個狀態(tài);個體的動作A,t 時刻個體采取的動作At是它的動作集中某一個動作;環(huán)境的獎勵R,t 時刻個體在狀態(tài)St采取的動作At對應(yīng)的獎勵Rt+1會在t+1 時刻得到。當(dāng)有給定策略的時候,一般會計算累積回報,計算公式如下:
其中γ是獎勵衰減因子,在[0,1]之間。如果為0,則是貪婪法,即價值只由當(dāng)前延時獎勵決定,如果是1,則所有的后續(xù)狀態(tài)獎勵和當(dāng)前獎勵重要性一樣。大多數(shù)時候,我們會取一個0 到1 之間的數(shù)字,即當(dāng)前延時獎勵的權(quán)重比后續(xù)獎勵的權(quán)重大。
其次是個體的策略π,最常見的策略表達方式是一個條件概率分布π(a|s),即在狀態(tài)s 時采取動作a 的概率。即π(a|s)=P(At=a|St=s)此時概率大的動作被個體選擇的概率較高。
最后是個體在策略π和狀態(tài)s 時,采取行動后得到的價值(value),一般用vπ(s)表示。這個價值一般是一個期望函數(shù)。雖然當(dāng)前動作會給一個延時獎勵Rt+1,但是光看這個延時獎勵是不行的,因為當(dāng)前的延時獎勵高,不代表到了t+1,t+2,...時刻的后續(xù)獎勵也高。因此我們的價值要綜合考慮當(dāng)前的延時獎勵和后續(xù)的延時獎勵。價值函數(shù)vπ(s)一般可以表示為下式:
強化學(xué)習(xí)的基本方法就是通過智能體與環(huán)境的多次交互進行多次學(xué)習(xí),然后根據(jù)學(xué)習(xí)到的收益來更新相關(guān)的價值函數(shù),理想情況是通過多次學(xué)習(xí)來獲取一個真實的價值函數(shù),也就是最終獲得最優(yōu)的結(jié)果。
目前世界上的應(yīng)急通信方式基本有三種,分別是應(yīng)急通信車、通信衛(wèi)星和通信氣球,而應(yīng)急通信車可以將突發(fā)事件產(chǎn)生地點的聲音圖像傳給指揮中心,同時還可以通過應(yīng)急通信保障指揮系統(tǒng)保障通信[3]。通信衛(wèi)星可以在災(zāi)害發(fā)生第一時間獲取災(zāi)區(qū)信息,同時也可以將信息送至相關(guān)部門,同時還可以對災(zāi)區(qū)的即時情況進行跟蹤,保障災(zāi)區(qū)和外界之間的通訊和聯(lián)絡(luò)[4]。衛(wèi)星通信雖然在應(yīng)急通信中有很大的優(yōu)勢,但是衛(wèi)星通信往往需要專用的通信設(shè)備(例如衛(wèi)星電話),所以很難大規(guī)模應(yīng)用[5]。所以,許多國家也十分重視應(yīng)急信息無線電發(fā)布系統(tǒng)的研發(fā)工作[6],國際上許多標(biāo)準(zhǔn)化組織也在從事相關(guān)標(biāo)準(zhǔn)的研究。而且無線電發(fā)布系統(tǒng)需要一定的通信設(shè)施。這也就導(dǎo)致在通訊設(shè)施損壞的災(zāi)區(qū)很難使用。
雖然國內(nèi)外對與應(yīng)急通信都有很多研究,但是這些研究在無基礎(chǔ)通信設(shè)施的情況下效果并沒有達到十分好的結(jié)果,所以很多研究人員提出了基于無人機的應(yīng)急通信網(wǎng)絡(luò)研究[7]。其中有結(jié)合智能手機的藍牙功能和Wi-Fi 功能來構(gòu)建臨時的mesh 網(wǎng)絡(luò),并通過mesh 網(wǎng)絡(luò)來將災(zāi)區(qū)的受災(zāi)信息已分布式的方法儲存在網(wǎng)絡(luò)節(jié)點,最后通過無人機將這些存儲的信息傳送給相關(guān)的部門以支援災(zāi)區(qū)救援[8]。
由于無線自組網(wǎng)應(yīng)用在應(yīng)急通信的時候可以為救災(zāi)工作提供方便、穩(wěn)定和靈活的通信服務(wù)[9],所以將無人機應(yīng)用于應(yīng)急網(wǎng)絡(luò)的同時使用自組網(wǎng)來代替毀壞的通信設(shè)施,這兩者結(jié)合應(yīng)該會有較好的結(jié)果。因此可以使用無線自組網(wǎng)來代替損壞的通訊設(shè)施來接收災(zāi)區(qū)的數(shù)據(jù),然后通過無人機來將自組網(wǎng)絡(luò)中的數(shù)據(jù)轉(zhuǎn)發(fā)給附近的基站從而實現(xiàn)與外界網(wǎng)絡(luò)的聯(lián)系。
強化學(xué)習(xí)是機器學(xué)習(xí)的一種,也是通過反復(fù)訓(xùn)練來得到一個好的結(jié)果,強化學(xué)習(xí)的特點就是在智能體與環(huán)境交互后獲得的收益來更新策略,目標(biāo)是最大化最終收益,所以對于無線通信網(wǎng)絡(luò),強化學(xué)習(xí)可以應(yīng)用到路由協(xié)議上面,例如通強化學(xué)習(xí)方法來學(xué)習(xí)得到當(dāng)前網(wǎng)絡(luò)狀況下最好的數(shù)據(jù)傳輸路徑[10],這里作者將無線傳感器網(wǎng)絡(luò)當(dāng)做環(huán)境,然后將節(jié)點當(dāng)成智能體,節(jié)點根據(jù)數(shù)據(jù)的優(yōu)先級、與鄰居節(jié)點之間的鏈路質(zhì)量等信息選擇路由,然后或得一個收益,最后通過強化學(xué)習(xí)得到一個較優(yōu)的路由路徑。也有不少研究者將強化學(xué)習(xí)用于無線電動態(tài)頻譜分配,例如將強化學(xué)習(xí)用于學(xué)習(xí)引擎,通過采取動作獲取的收益值來認識動作策略對于環(huán)境的影響,其中有用來學(xué)習(xí)信道狀況,收益是吞吐量和分組成功傳輸功率,所以最大化收益能夠增強網(wǎng)絡(luò)的性能。同時文獻中提到了強化學(xué)習(xí)在動態(tài)信道的選擇上有以下優(yōu)勢:強化學(xué)習(xí)幫助用戶適應(yīng)于不確定的動態(tài)的環(huán)境,還有就是可以讓操作環(huán)境和信道的異構(gòu)性的復(fù)雜度可以最小化[11]。本文關(guān)注的是使用路由器搭建自組網(wǎng)絡(luò),然后將無人機當(dāng)成移動基站來收集和轉(zhuǎn)發(fā)來自網(wǎng)絡(luò)中的數(shù)據(jù)達到和外界聯(lián)通的效果。這種模式擁有布置速度快和靈活性高的優(yōu)點,而引入強化學(xué)習(xí)后,可以通過強化學(xué)習(xí)去尋找使得當(dāng)前條件下效果最好的一條無人機的移動路徑。
如圖2 所示的網(wǎng)絡(luò)模型,其中地面部分是由N 個路由器組成的無線自組網(wǎng)絡(luò),主要功能是為用戶提供數(shù)據(jù)傳輸服務(wù)。而天空中的無人機則是充當(dāng)一個移動基站,負責(zé)將無線自組網(wǎng)中的數(shù)據(jù)傳輸給遠程的基站,從而實現(xiàn)用戶和外界的通信。這種網(wǎng)絡(luò)模型的特點是無線自組網(wǎng)布置便捷快速,在受災(zāi)區(qū)域能夠快速搭建起臨時網(wǎng)絡(luò),而且無人機是一個空中的移動基站,受地面環(huán)境影響較小。同時由于路由器在災(zāi)區(qū)布置時會存在能量的限制,所以研究的方向是利用無人機的移動性來延長路由器網(wǎng)絡(luò)的生存時間。在強化學(xué)習(xí)中,無人機就是強化學(xué)習(xí)中的智能體,而無線自組網(wǎng)絡(luò)就是強化學(xué)習(xí)中的環(huán)境,而智能體在每一步中選擇動作也就是無人機決定下一步飛的方向,這個方向可以是連續(xù)的,也就是在無人機所處的平面隨意選擇方向移動,這是一個連續(xù)的動作空間,但是也可以將空間簡單地離散化,例如只有四個方向東、南、西、北,或者更加的細化,無人機選擇移動方向和環(huán)境交互產(chǎn)生的收益就是網(wǎng)絡(luò)的生存時間,無人機移動的最終目標(biāo)就是使得無線自組網(wǎng)絡(luò)的生存時間最大化,即通過強化學(xué)習(xí)的方法來學(xué)習(xí)得到一條無人機的移動路徑,使得地面的無線自組網(wǎng)絡(luò)生存時間最大。
圖2 網(wǎng)絡(luò)模型
本文介紹路由器組成的無線自組網(wǎng)在應(yīng)急通訊中的優(yōu)勢,并且可以用無人機作為移動基站來優(yōu)化無線自組網(wǎng)的生存時間。對如何選擇無人機的路徑方面提出了使用強化學(xué)習(xí)方法,無人機也就是強化學(xué)習(xí)中的智能體通過學(xué)習(xí)得到一條移動路徑從而使得網(wǎng)絡(luò)的生存時間最大。