張湘婷,張福鼎
(江蘇第二師范學(xué)院 物理與電子工程學(xué)院,江蘇 南京 210013)
傳統(tǒng)通信系統(tǒng)容易造成系統(tǒng)資源消耗以及過(guò)程時(shí)間損耗,隨著移動(dòng)通信設(shè)備廣泛使用和新媒體業(yè)務(wù)的爆炸式增長(zhǎng)需求,傳輸速率低及頻譜資源不足問(wèn)題逐漸暴露,對(duì)未來(lái)無(wú)線通信的發(fā)展提出了一個(gè)很大的挑戰(zhàn)[1]。D2D技術(shù)直接通信的質(zhì)量較高,系統(tǒng)吞吐量得到大大提升;由于通信過(guò)程中基站不被使用,當(dāng)發(fā)生一些自然災(zāi)害,即使基站被毀壞導(dǎo)致通信系統(tǒng)無(wú)法實(shí)現(xiàn)時(shí),緊急性地通信需求就可以寄托于多跳D2D組網(wǎng)技術(shù),保障信息傳遞的及時(shí)性[2]。D2D通信一般用于設(shè)備之間短距離的信息傳遞,傳播過(guò)程中的時(shí)間延遲會(huì)降低[3]。并且由于D2D通信不涉及到其他網(wǎng)絡(luò)設(shè)備,傳輸過(guò)程中的延遲和處理過(guò)程產(chǎn)生的延遲被大大降低。傳統(tǒng)的通信網(wǎng)絡(luò)中,通信必須依賴基站的中繼才能完成設(shè)備的通信。而D2D通信不需要經(jīng)過(guò)基站,減輕了基站和其他網(wǎng)絡(luò)設(shè)備的傳輸任務(wù)。
因此,在蜂窩小區(qū)內(nèi)建立端到端的直接鏈路,可以獲得高傳輸速率、低傳輸時(shí)延等,而且系統(tǒng)吞吐量得到了提升[4]。商場(chǎng)里的一些促銷(xiāo)信息、商品折扣信息可以通過(guò)D2D通信技術(shù)準(zhǔn)確地發(fā)布到目標(biāo)群體客戶手中。此外,家庭成員之間分享圖片和短視頻時(shí)或者進(jìn)行其他近距離的網(wǎng)絡(luò)社交時(shí),也可以依賴于這種技術(shù),減少內(nèi)容發(fā)送次數(shù),從而減輕基站的負(fù)載[5]。車(chē)輛網(wǎng)絡(luò)中,短距離車(chē)輛之間可以交換速度信息、路況信息等,利用D2D通信技術(shù)降低時(shí)延,車(chē)輛駕駛員的生命也能得到一定程度的保障。
復(fù)雜多變的網(wǎng)絡(luò)環(huán)境也使得傳統(tǒng)的資源分配算法效用低下。目前,大多對(duì)于D2D通信的研究還是針對(duì)靜態(tài)環(huán)境下的資源分配,并且在假設(shè)用戶信道、狀態(tài)信息已知的情況下進(jìn)行資源分配的研究。但傳統(tǒng)算法卻不具備這種利用歷史經(jīng)驗(yàn)進(jìn)行資源分配的能力。強(qiáng)化學(xué)習(xí)非常適應(yīng)在陌生的環(huán)境或者狀態(tài)等信息未知的情況下,由系統(tǒng)在交互過(guò)程中,自己做出更新和調(diào)整,自發(fā)地學(xué)習(xí)過(guò)往經(jīng)驗(yàn),強(qiáng)化系統(tǒng),最終得到利益最大化的策略。因?yàn)槠潇`活性和自由性,強(qiáng)化學(xué)習(xí)同時(shí)被應(yīng)用到未來(lái)無(wú)線通信領(lǐng)域中。
Q學(xué)習(xí)過(guò)程簡(jiǎn)單描述就是學(xué)習(xí)者從環(huán)境中獲取狀態(tài)和執(zhí)行上一動(dòng)作獲得的回報(bào)值,依據(jù)策略選擇后一時(shí)刻的動(dòng)作[6]。深度Q學(xué)習(xí)算法針對(duì)的是環(huán)境狀態(tài)連續(xù)的情況下,結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)無(wú)限趨近值函數(shù),因?yàn)榇藭r(shí)Q值表會(huì)失去作用,可以通過(guò)函數(shù)擬合的方法對(duì)值函數(shù)直接學(xué)習(xí),從而使得Q值表更新被轉(zhuǎn)化成函數(shù)擬合問(wèn)題,來(lái)解決狀態(tài)連續(xù)的問(wèn)題。
強(qiáng)化學(xué)習(xí)算法利用歷史先驗(yàn)信息調(diào)整自我,是一種靈活性、自適應(yīng)性很強(qiáng)的算法,尤其是針對(duì)動(dòng)態(tài)環(huán)境,其優(yōu)點(diǎn)更為突顯,不需要事先知道數(shù)學(xué)模型,可以通過(guò)自身“試錯(cuò)”獲得反饋,從而更新策略,優(yōu)化系統(tǒng),使得智能體獲得最優(yōu)的動(dòng)作[7]。因此,只要通過(guò)多次與環(huán)境的試探過(guò)程,系統(tǒng)就可以獲得在每一個(gè)狀態(tài)下的最佳動(dòng)作。在通信領(lǐng)域,利用Q學(xué)習(xí)算法,與傳感器中的決策機(jī)制相結(jié)合,可以適應(yīng)動(dòng)態(tài)環(huán)境;在異構(gòu)網(wǎng)絡(luò)中,利用Q學(xué)習(xí)算法,完成無(wú)線資源的配置。
如圖1所示,首先提出了一種最小模型(簡(jiǎn)化框架),學(xué)習(xí)者(Agent)從環(huán)境中獲取環(huán)境狀態(tài)參數(shù)化模型,依據(jù)學(xué)習(xí)策略選擇動(dòng)作執(zhí)行,環(huán)境同時(shí)變化到下一環(huán)境狀態(tài),并且給出當(dāng)前動(dòng)作的獎(jiǎng)勵(lì)信號(hào)。智能體探測(cè)環(huán)境狀態(tài)并且結(jié)合獎(jiǎng)勵(lì)信號(hào),選擇需要執(zhí)行的動(dòng)作可以看出,每一次選擇動(dòng)作都會(huì)對(duì)環(huán)境狀態(tài)和獎(jiǎng)勵(lì)信號(hào)產(chǎn)生變化,從而導(dǎo)致最終獎(jiǎng)勵(lì)值的變動(dòng)。簡(jiǎn)而言之,就是通過(guò)學(xué)習(xí)使得選擇某個(gè)特定動(dòng)作的概率最大化,而這個(gè)特定動(dòng)作執(zhí)行帶來(lái)的則是系統(tǒng)利益最大化,所以智能體與環(huán)境的交互簡(jiǎn)單來(lái)說(shuō)就是Agent學(xué)習(xí)一種行為策略。
圖1 系統(tǒng)整體框架
一次完整的業(yè)務(wù)到達(dá),通過(guò)策略體系,系統(tǒng)分配通道和功率的過(guò)程可以用如下的框圖來(lái)描述。在蜂窩小區(qū)中,D2D用戶對(duì)A和B相距很近,用戶設(shè)備A想要傳輸一個(gè)數(shù)據(jù)給用戶B,就需要復(fù)用蜂窩資源,在蜂窩小區(qū)中同時(shí)存在一個(gè)基站,負(fù)責(zé)控制分配資源;收到用戶A的業(yè)務(wù)請(qǐng)求之后,基站根據(jù)設(shè)計(jì)的算法獲得的策略信息,給用戶分配合適的信道,以保證利益最大化。用戶A和用戶B在數(shù)據(jù)傳輸過(guò)程中不再需要通過(guò)基站中繼,通過(guò)復(fù)用資源實(shí)現(xiàn)交互傳輸?;痉峙浜眯诺乐螅脩鬉、B之間開(kāi)始通信,完成此次的數(shù)據(jù)傳輸。在合理的算法控制下,這種通信方式既不會(huì)對(duì)蜂窩小區(qū)中的原有蜂窩用戶造成太大的干擾,還能節(jié)省資源,提高傳輸速率。
本文提出的資源分配系統(tǒng)運(yùn)行的流程如圖2所示,分為幾個(gè)主要的模塊,如蜂窩小區(qū)內(nèi)需要傳遞數(shù)據(jù)的用戶設(shè)備、負(fù)責(zé)接收業(yè)務(wù)請(qǐng)求的接收模塊以及算法模塊。核心模塊是存放在基站中的算法系統(tǒng),在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上實(shí)現(xiàn)設(shè)計(jì),算法主要分成兩部分,一部分是占用信道和發(fā)射功率的調(diào)配,另一部分是調(diào)度控制,兩個(gè)模塊的共同作用下實(shí)現(xiàn)設(shè)備之間的傳輸交互。將引入D2D通信的蜂窩系統(tǒng)進(jìn)行數(shù)學(xué)建模。馬爾科夫決策過(guò)程通常包含4個(gè)要素:(1)有限的狀態(tài)集集合,通常用S表示;(2)有限的動(dòng)作集合,用A來(lái)表示;(3)執(zhí)行動(dòng)作的回報(bào)值集合,可以用R表示;(4)當(dāng)前狀態(tài)執(zhí)行動(dòng)作進(jìn)入下一狀態(tài)的概率值的集合,用P來(lái)表示。強(qiáng)化學(xué)習(xí)的原理是找到一種策略φ,表示選擇某個(gè)動(dòng)作來(lái)執(zhí)行的概率;通過(guò)策略a=φ(x),學(xué)習(xí)者可以在任意的狀態(tài)x下找到對(duì)應(yīng)的動(dòng)作,使得其獲得最大獎(jiǎng)賞值。在非正交模式下,系統(tǒng)內(nèi)提供多條通信通道,并且每個(gè)通道上都有不同的功率等級(jí)可供選擇。智能體的任務(wù)目標(biāo)是在每個(gè)用戶的業(yè)務(wù)請(qǐng)求到達(dá)系統(tǒng)時(shí),系統(tǒng)能夠通過(guò)在線學(xué)習(xí)算法分配合適的信道和功率等級(jí),以使得長(zhǎng)期回報(bào)最大化。
圖2 通信資源分配算法流程
基于Q學(xué)習(xí)的資源分配算法,學(xué)習(xí)者通過(guò)與環(huán)境交互對(duì)環(huán)境狀態(tài)產(chǎn)生影響;通過(guò)把這種造成的影響進(jìn)行量化,可以作為環(huán)境對(duì)執(zhí)行動(dòng)作后反饋的回報(bào)值。Agent探測(cè)環(huán)境,結(jié)合反饋值信息,采取動(dòng)作,從而得到新的反饋值,目的是最大化智能體執(zhí)行動(dòng)作得到最大獎(jiǎng)勵(lì)值的概率,直到收斂。因此,智能體執(zhí)行當(dāng)前動(dòng)作除了受到當(dāng)前狀態(tài)影響,還與前一時(shí)刻執(zhí)行動(dòng)作的回報(bào)值有關(guān)。在動(dòng)作集合A和狀態(tài)集合S下,所有的動(dòng)作a∈A,所有的環(huán)境狀態(tài)s∈S,Q(s,a)表示在狀態(tài)s下采取動(dòng)作a獲得回報(bào)的期望。
Q學(xué)習(xí)實(shí)際上是通過(guò)交互獲得值建立Q值表,系統(tǒng)根據(jù)Q值來(lái)選擇動(dòng)作以使得利益最大化,具體實(shí)現(xiàn)步驟如下:
(1)初始化環(huán)境狀態(tài)、動(dòng)作行為、Q值表;
(2)探測(cè)環(huán)境狀態(tài)選擇執(zhí)行動(dòng)作;
(3)環(huán)境反饋回報(bào)值,更新Q值表;
(4)環(huán)境進(jìn)入下一狀態(tài),持續(xù)重復(fù)以上動(dòng)作,直到收斂。
在t時(shí)刻,當(dāng)任務(wù)開(kāi)始時(shí),系統(tǒng)內(nèi)提供有多條信道并且每條信道上都有等級(jí)不同的功率,智能體(Agent)需要根據(jù)相關(guān)分配策略對(duì)每一個(gè)D2D用戶和蜂窩用戶進(jìn)行信道和功率等級(jí)的分配。首先需要將環(huán)境狀態(tài)模型、Q值表初始化,當(dāng)用戶帶著業(yè)務(wù)請(qǐng)求到達(dá)智能體(Agent)時(shí),智能體探測(cè)環(huán)境狀態(tài)(St),選取執(zhí)行動(dòng)作(At)(即分配信道和功率等級(jí)),并且接收獎(jiǎng)勵(lì)值(Rt+1);智能體繼續(xù)探測(cè)下一時(shí)刻環(huán)境狀態(tài)(St+1),結(jié)合獎(jiǎng)勵(lì)值(Rt+1)和算法公式更新Q值;判斷此時(shí)是否滿足結(jié)束條件,若是,則結(jié)束;若否,則t=t+1。
設(shè)定在一個(gè)小區(qū)內(nèi)存在兩個(gè)蜂窩用戶B1、B2,兩個(gè)D2D用戶D1、D2,用戶業(yè)務(wù)到達(dá)服從泊松分布,為了對(duì)比Q學(xué)習(xí)下用戶通信的特點(diǎn),在仿真時(shí)加上隨機(jī)分配方法和以最大發(fā)射功率分配方法作對(duì)比。在業(yè)務(wù)到達(dá)率相同的情況下,Q學(xué)習(xí)資源分配算法明顯優(yōu)于其他另外兩種算法,以最大發(fā)射功率的分配方法來(lái)說(shuō),結(jié)果最不理想。隨著業(yè)務(wù)到達(dá)率降低,也就是系統(tǒng)不忙碌的情況下,用戶在Q學(xué)習(xí)的方法下獲得的平均信道容量呈現(xiàn)出明顯升高的趨勢(shì),主要也是因?yàn)樾枰瑫r(shí)處理業(yè)務(wù)的用戶減少,干擾也減少。而隨機(jī)分配方法在這個(gè)時(shí)候就沒(méi)有什么意義,無(wú)論業(yè)務(wù)到達(dá)情況如何,因?yàn)橄到y(tǒng)隨機(jī)分配資源,所以用戶獲得的平均信道容量沒(méi)有什么可參考的變化趨勢(shì)。測(cè)試的是當(dāng)業(yè)務(wù)持續(xù)時(shí)間不同的情況下,系統(tǒng)的平均信道容量。ε受到業(yè)務(wù)進(jìn)行時(shí)間的影響,業(yè)務(wù)持續(xù)時(shí)間越短,ε也就越大。因?yàn)闃I(yè)務(wù)持續(xù)時(shí)間短,系統(tǒng)完成業(yè)務(wù)的效率就會(huì)相對(duì)來(lái)說(shuō)更高,如此一來(lái),在同一時(shí)刻需要處理的用戶業(yè)務(wù)請(qǐng)求就會(huì)減少,系統(tǒng)就可以選擇功率等級(jí)高的發(fā)射功率來(lái)分配,從而也能滿足降低干擾、緩解資源匱乏的目的。
本文提出一種基于強(qiáng)化學(xué)習(xí)的通信資源分配系統(tǒng),將Q學(xué)習(xí)引入分配算法中,通過(guò)在線學(xué)習(xí)構(gòu)建Q值表,使得系統(tǒng)能夠進(jìn)行合理地資源分配,對(duì)架構(gòu)的蜂窩小區(qū)內(nèi)的用戶進(jìn)行資源分配,為小區(qū)內(nèi)的每一位用戶分配信道和功率等級(jí),減小用戶之間的干擾,使得系統(tǒng)平均信道容量最大化。通過(guò)仿真,可以發(fā)現(xiàn)文中提到的資源分配系統(tǒng)確實(shí)可以在一定程度上解決蜂窩小區(qū)內(nèi)的干擾問(wèn)題,同時(shí)也為小區(qū)內(nèi)各用戶的通信資源分配提供了一種參考方案。除此之外,文中提到的Q學(xué)習(xí)算法,適用于環(huán)境狀態(tài)比較理想化的模型。在實(shí)際情況下,如果環(huán)境狀態(tài)比較復(fù)雜時(shí),文中的方法相對(duì)來(lái)說(shuō)就有些低效,結(jié)合神經(jīng)網(wǎng)絡(luò)的方法或許可以使得算法更簡(jiǎn)便。