李 燁,肖夢巧
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
由于5G研究的全面發(fā)展、無線接入技術(shù)的多樣化和頻譜資源的整合,無線接入網(wǎng)(Radio Access Network,RAN)在處理性能、協(xié)調(diào)能力和業(yè)務(wù)部署等方面面臨著新的挑戰(zhàn)。因此,RAN架構(gòu)需要取得顯著進(jìn)展,以滿足未來的各種需求。同時,云計(jì)算、大數(shù)據(jù)和虛擬化技術(shù)在核心網(wǎng)絡(luò)中的應(yīng)用,為RAN架構(gòu)的演進(jìn)提供了堅(jiān)實(shí)的基礎(chǔ)。
為了更好地實(shí)現(xiàn)用戶對移動通信網(wǎng)絡(luò)的無線接入,合理分配基站導(dǎo)頻功率十分重要,因其影響著網(wǎng)絡(luò)的覆蓋。作為下行鏈路功率的一部分,導(dǎo)頻功率與其它下行信道共享額定的基站功率。一方面,過多的導(dǎo)頻功率分配會增加小區(qū)重疊區(qū)域,從而導(dǎo)致下行鏈路干擾和小區(qū)重疊區(qū)域的增加,這也可能將導(dǎo)致導(dǎo)頻污染問題;另一方面,導(dǎo)頻能力不足將導(dǎo)致覆蓋漏洞,從而減少所支持的業(yè)務(wù)。
為了實(shí)現(xiàn)網(wǎng)絡(luò)性能的最大化,一些專家學(xué)者對導(dǎo)頻功率分配優(yōu)化問題進(jìn)行了研究。Ma等人以漸近信干噪比為目標(biāo),將導(dǎo)頻分配問題表述為最小權(quán)重多指標(biāo)分配問題。該方案提高了系統(tǒng)性能,但算法復(fù)雜度較高。為了降低導(dǎo)頻分配算法的復(fù)雜度,Omid等人提出一種低復(fù)雜度的導(dǎo)頻分配策略,采用SCP的迭代,構(gòu)造求解局部優(yōu)化的非凸問題,有效降低了迭代算法的復(fù)雜度。Jang等人提出的中下行多用戶、多輸入、多輸出系統(tǒng)的節(jié)能設(shè)計(jì),考慮了導(dǎo)頻功率、數(shù)據(jù)功率和速率自適應(yīng)。Liu等人通過優(yōu)化導(dǎo)頻功率配置,使基站總功率更加合理。在RAN中,導(dǎo)頻功率一般是依靠人工經(jīng)驗(yàn)進(jìn)行配置,后期再根據(jù)需求逐步進(jìn)行人工優(yōu)化。由于小區(qū)導(dǎo)頻功率變化后,會同步影響周邊鄰區(qū)。如果導(dǎo)頻功率配置過大,會對鄰區(qū)造成干擾;導(dǎo)頻功率配置過小,又會造成覆蓋空洞。因此,導(dǎo)頻功率優(yōu)化不能僅針對單小區(qū)進(jìn)行處理,還要對整網(wǎng)或整片區(qū)域進(jìn)行聯(lián)合動態(tài)優(yōu)化。
基于此,本文提出了一種基于強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的導(dǎo)頻功率動態(tài)優(yōu)化方案,設(shè)計(jì)了一種結(jié)合強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的新型模型。該模型研究了導(dǎo)頻功率與網(wǎng)絡(luò)性能增益之間的關(guān)系,通過最大化網(wǎng)絡(luò)性能來適應(yīng)連續(xù)變化的RAN環(huán)境;以網(wǎng)絡(luò)環(huán)境狀態(tài)和導(dǎo)頻功率調(diào)整值作為學(xué)習(xí)的輸入,網(wǎng)絡(luò)流量和容量作為輸出。由于表不適用連續(xù)狀態(tài)空間,因此結(jié)合神經(jīng)網(wǎng)絡(luò),將狀態(tài)和動作映射到值,使得整個系統(tǒng)更加靈活。此外,為了確保網(wǎng)絡(luò)的穩(wěn)定性和連續(xù)調(diào)整導(dǎo)頻功率的可行性,通過有效分析歷史數(shù)據(jù),并充分利用所獲得的實(shí)時數(shù)據(jù),提出了關(guān)鍵性能指標(biāo)(Key Performance Indicator,)保護(hù)機(jī)制和回退機(jī)制,以滿足工程要求。
假設(shè)一個覆蓋區(qū)配置一個中心小區(qū)和被動聯(lián)動調(diào)整小區(qū)。中心小區(qū)根據(jù)本小區(qū)配置和負(fù)載狀態(tài)以及被動聯(lián)動調(diào)整小區(qū)的負(fù)載狀態(tài),進(jìn)行導(dǎo)頻功率聯(lián)動調(diào)整,從而優(yōu)化覆蓋區(qū)的網(wǎng)絡(luò)性能,實(shí)現(xiàn)覆蓋區(qū)內(nèi)基站間的負(fù)載均衡。
覆蓋區(qū)包含數(shù)據(jù)模塊和導(dǎo)頻模塊。其中,數(shù)據(jù)模塊負(fù)責(zé)采集各類數(shù)據(jù)(如基站配置數(shù)據(jù)等),在學(xué)習(xí)算法和保護(hù)機(jī)制中使用,歷史數(shù)據(jù)也用于基線計(jì)算;導(dǎo)頻模塊與數(shù)據(jù)模塊交互,獲取運(yùn)行環(huán)境中所有網(wǎng)絡(luò)狀態(tài)信息,實(shí)時識別神經(jīng)網(wǎng)絡(luò)模塊的狀態(tài)。學(xué)習(xí)算法在每次迭代中向?qū)ьl模塊提供最優(yōu)的導(dǎo)頻功率調(diào)整動作,從而根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出獲得良好的RAN性能增益。
學(xué)習(xí)是最流行的強(qiáng)化學(xué)習(xí)算法之一,旨在處理馬爾科夫決策過程問題。本文將每個小區(qū)的基站建模為智能體,每個基站維護(hù)自己的值表,以降低優(yōu)化復(fù)雜度。結(jié)合學(xué)習(xí)模型中智能體、環(huán)境、動作、狀態(tài)及獎勵五大元素,對該問題進(jìn)行建模。與學(xué)習(xí)相關(guān)的所有參數(shù)定義如下:
(1)智能體:智能體通過與環(huán)境進(jìn)行交互獲取獎勵值(),來學(xué)習(xí)改善自己的策略,從而獲得該環(huán)境下最優(yōu)策略。在導(dǎo)頻功率優(yōu)化問題中,將每個小區(qū)基站作為一個智能體。
(2)環(huán)境:本文將RAN作為與智能體進(jìn)行交互的環(huán)境。
(3)狀態(tài):每個智能體都有各自的狀態(tài)向量。本文基站的狀態(tài)向量可定義為如下五元組:
其中,為小區(qū)網(wǎng)絡(luò)TCP負(fù)載;為用戶設(shè)備數(shù)量;為當(dāng)前導(dǎo)頻功率;、分別表示參考信號接收功率(Reference Signal Receiving Power,RSRP)分布的均值和方差;s表示基站采用某一個動作后,同覆蓋區(qū)內(nèi)所有小區(qū)中用戶導(dǎo)頻功率分配狀態(tài)。
(4)動作:每個智能體都有一個動作集合,即每個小區(qū)基站對本小區(qū)用戶進(jìn)行導(dǎo)頻功率分配的調(diào)整值集合,定義為:
導(dǎo)頻功率的最大值和最小值限制可表示為:
其中,和分別表示導(dǎo)頻功率與基站功率的最大和最小比值。調(diào)整后的導(dǎo)頻功率應(yīng)限制在一定范圍內(nèi),即:[,]。 對于超出最大值或最小值的值,將其調(diào)整為最大值或最小值。
(5)獎勵:表示智能體在當(dāng)前狀態(tài)下選擇動作獲得的收益、即網(wǎng)絡(luò)增益,由流量和容量兩部分組成。由于接入RAN的用戶設(shè)備數(shù)量在不斷變化,系統(tǒng)需要消除網(wǎng)絡(luò)波動和附加增益(正/負(fù)增益)的影響,因此在獎勵計(jì)算中引入相對增益的概念,以保證算法帶來增益。
數(shù)學(xué)定義式可寫為:
其中,r是各狀態(tài)到狀態(tài)1之間的相對流量增益;T表示網(wǎng)絡(luò)業(yè)務(wù)(如呼叫建立)數(shù)量的網(wǎng)絡(luò)流量;L為BS的TCP負(fù)載,表示網(wǎng)絡(luò)資源的利用率;T/L反映單位資源占用下,BS支持的業(yè)務(wù)數(shù)量。
數(shù)學(xué)定義式可寫為:
其中,r表示狀態(tài)到狀態(tài)1的相對容量增益,C為網(wǎng)絡(luò)容量,描述了基站支持的最大網(wǎng)絡(luò)吞吐量。
因此,獎勵由RAN相對流量增益r和RAN相對容量增益r共同計(jì)算,即:
其中,∈0,1[ ]量化了2部分重要性之間的權(quán)衡。
在學(xué)習(xí)中,估計(jì)動作值函數(shù),( )用來學(xué)習(xí)最優(yōu)導(dǎo)頻功率分配方案,從而在執(zhí)行動作的狀態(tài)中獲得最大期望獎勵。換言之,在每個步驟處選擇使函數(shù),( )最大化的動作。,( )的更新為:
其中,表示當(dāng)前動作;表示當(dāng)前狀態(tài);a表示狀態(tài)中任何可能的動作;s表示采取行動后的新狀態(tài);是在狀態(tài)下根據(jù)特定動作獲得的立即獎勵;∈0,1[ ]表示學(xué)習(xí)率;∈0,1[ ]表示延遲與立即獎勵的相對值的折扣因子。
動作選擇機(jī)制,負(fù)責(zé)選擇代理執(zhí)行的操作。在本文中,采用貪婪策略,對應(yīng)的數(shù)學(xué)公式如下:
其中,∈0,1[ ]為固定概率;∈0,1[ ]表示時間步長上的一致隨機(jī)數(shù);為可選擇的動作集。該規(guī)則利用概率1( )選取最佳動作,利用概率進(jìn)行探索。
在迭代過程中,學(xué)習(xí)算法通常使用表來儲存不同時刻的狀態(tài)動作值。這一算法在面對大規(guī)模數(shù)據(jù)空間或連續(xù)數(shù)據(jù)的任務(wù)時非常低效。因此,在導(dǎo)頻功率優(yōu)化問題中,采用表單獨(dú)存儲每個因子是并不現(xiàn)實(shí)的。本文利用非線性函數(shù)來近似,;( ),這里的描述了近似的可調(diào)參數(shù)。在此情況下,通常利用神經(jīng)網(wǎng)絡(luò)處理狀態(tài)空間爆炸問題,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The structure of Neural Network
由圖1可以看出,神經(jīng)網(wǎng)絡(luò)的輸入是模型和導(dǎo)頻功率調(diào)整前的狀態(tài),輸出是導(dǎo)頻可以采取的每個動作的值。根據(jù)學(xué)習(xí)算法選擇導(dǎo)頻功率最優(yōu)動作,智能體從環(huán)境中獲得真正的收益。
綜合前述可知,通過實(shí)際回報與預(yù)測回報之間的誤差訓(xùn)練算法權(quán)重,并在迭代過程中利用梯度下降法進(jìn)行更新。
研究推得,神經(jīng)網(wǎng)絡(luò)模型的輸入為:
其中,,…,s,…,s
()表示實(shí)際狀態(tài)映射到狀態(tài)空間,a∈是智能體在該狀態(tài)下可以采取的動作。
神經(jīng)網(wǎng)絡(luò)模型的輸出為基于狀態(tài)的學(xué)習(xí)算法的值。此外,神經(jīng)網(wǎng)絡(luò)采用直接梯度下降法更新參數(shù)。在學(xué)習(xí)中,通過最小化樣本上的損失函數(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),其損失函數(shù)公式見如下:
其中,(,)是預(yù)測值,Q(,)是真實(shí)值。
利用神經(jīng)網(wǎng)絡(luò)估計(jì)每個動作的價值函數(shù)(,a),采用動作的函數(shù)值a進(jìn)行估計(jì)。進(jìn)而傳統(tǒng)的學(xué)習(xí)算法中的表被替換為:
實(shí)際應(yīng)用中,在不出現(xiàn)急劇惡化的情況下,網(wǎng)絡(luò)性能通常表現(xiàn)為某些指標(biāo)。該模型提供各種保證,并為每個定義一個基線。如果導(dǎo)頻功率調(diào)整后,的計(jì)算值低于基線,則獎勵為0。因此,獎勵功能改進(jìn)為:
其中,()為單位步長函數(shù),使服從正態(tài)分布。
因此,ξ為KPI的基線,基線ξ為:
其中,μ和σ分別是從數(shù)據(jù)模塊中得到的歷史數(shù)據(jù),經(jīng)計(jì)算得出的平均值和標(biāo)準(zhǔn)差,結(jié)果值見表1。
表1 6個關(guān)鍵性能指標(biāo)Tab.1 Six key performance indicators
在RAN中,由于用戶設(shè)備的位置在不斷移動,同時導(dǎo)頻功率的調(diào)整將影響基站服務(wù)范圍,因此需要進(jìn)行軟切換操作。軟切換比例在一定程度上能較好地反映基站的活躍度,基站的軟切換比例越高,用戶在基站的覆蓋范圍內(nèi)進(jìn)行的通信越多,基站對覆蓋區(qū)域網(wǎng)絡(luò)性能的考量就越重要。在進(jìn)行整體性能優(yōu)化時,需要考慮軟切換比例所連接的所有基站之間的協(xié)同優(yōu)化。則獎勵函數(shù)計(jì)算為:
其中,N是用戶設(shè)備從其它BS到BS與BS到其它BS的軟切換次數(shù)之和;N是所有BS之間的軟切換次數(shù)之和。
結(jié)合式(12)、(14)和(15),整個覆蓋區(qū)(所有相鄰BS)的獎勵函數(shù)為:
值定義為:
其中,(s,a)為最佳動作選擇a和狀態(tài)下新的值。在有回退機(jī)制時,用(s,a)替換(s,a)。
本文通過冷啟動仿真和模型試驗(yàn),給出了導(dǎo)頻功率動態(tài)優(yōu)化仿真中的設(shè)置參數(shù):導(dǎo)頻功率與基站功率的最小和最大比值和分別為5%和20%,系統(tǒng)模型的生命周期為24 h,折扣因子為0.7,覆蓋區(qū)基站數(shù)量為10。神經(jīng)網(wǎng)絡(luò)的輸入范圍與的均值和標(biāo)準(zhǔn)方差分別見表2、表3。
表2 神經(jīng)網(wǎng)絡(luò)的輸入范圍Tab.2 The input ranges of the Neural Networks
表3 KPI的均值和標(biāo)準(zhǔn)方差Tab.3 The means and standard variances of the KPIs
圖2給出了冷啟動期間的每代通信量。圖2中,實(shí)線對應(yīng)使用預(yù)訓(xùn)練得到的權(quán)重初始化神經(jīng)網(wǎng)絡(luò)的情況,虛線對應(yīng)隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)的情況。
圖2 導(dǎo)頻功率優(yōu)化Fig.2 Pilot power optimization
由圖2可見,冷啟動過程中使用的離線數(shù)據(jù)集合是在密集區(qū)域中心,負(fù)荷高。用戶設(shè)備位置在基站中隨機(jī)均勻分布,因此容量是恒定的,冷啟動效果可以通過對比流量來體現(xiàn)。具有隨機(jī)參數(shù)的神經(jīng)模型經(jīng)過約45次迭代后幾乎收斂,神經(jīng)網(wǎng)絡(luò)的收斂速度明顯提高。從圖2中實(shí)線可以看出,經(jīng)過10次左右的迭代后,網(wǎng)絡(luò)流量增益可以提升約6.2%。
導(dǎo)頻功率的結(jié)果對比如圖3所示。從圖3中可以看出:導(dǎo)頻功率是下調(diào)的,調(diào)整后的大多數(shù)基站導(dǎo)頻功率為30 dBm,該結(jié)果與預(yù)期一致,說明導(dǎo)頻功率配置更高效、更穩(wěn)定。冷啟動方法可以作為神經(jīng)網(wǎng)絡(luò)的初始權(quán)重,從而提高早期模型的效率。
圖3 導(dǎo)頻功率對比Fig.3 The comparison of pilot power
具有神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法進(jìn)行導(dǎo)頻功率優(yōu)化的結(jié)果如圖4、圖5所示。圖4、圖5中包括不同網(wǎng)絡(luò)波動和用戶數(shù)。
從圖4、圖5可以看出:相對流量增長7%,相對容量增長16%。結(jié)果表明,該模型能夠有效地解決基站導(dǎo)頻功率動態(tài)實(shí)時調(diào)整問題,并在獲得更多話務(wù)量和充足容量的同時,獲得了更好的網(wǎng)絡(luò)性能。
圖4 相對流量增益rT前后對比Fig.4 The comparison of relative traffic gain rT
圖5 相對容量增益rC前后對比Fig.5 The comparison of relative capacity gain rC
研究得到的各指標(biāo)的對比如圖6所示。由圖6中每個的比較顯示可以看出,本文選取的指標(biāo),可以有效反映網(wǎng)絡(luò)性能的穩(wěn)定性和用戶接入的可靠性。顯然,部署后值更穩(wěn)定。
圖6 KPI對比Fig.6 The comparison of KPIs
在測試期間,各指標(biāo)均值和標(biāo)準(zhǔn)差見表4、表5,可見各指標(biāo)值均得到改善,表明本文提出的系統(tǒng)模型在保證關(guān)鍵性能指標(biāo)穩(wěn)定性的同時,提高了當(dāng)前網(wǎng)絡(luò)的性能,進(jìn)而為智能基站的發(fā)展打下基礎(chǔ)。
表4 KPI的均值對比Tab.4 The average comparison of KPIs
表5 KPI標(biāo)準(zhǔn)方差對比Tab.5 The standard variances comparison of KPIs
本文研究了強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)聯(lián)合優(yōu)化導(dǎo)頻功率的方法。在RAN中,設(shè)計(jì)了一個基站覆蓋區(qū)系統(tǒng)模型,建立了導(dǎo)頻功率與網(wǎng)絡(luò)性能的關(guān)系,使得網(wǎng)絡(luò)流量和容量最大化;在學(xué)習(xí)獎勵計(jì)算中提出了相對增益的概念,并利用軟切換比例將同覆蓋區(qū)基站進(jìn)行協(xié)同優(yōu)化;利用神經(jīng)網(wǎng)絡(luò)解決了表狀態(tài)空間爆炸問題;增加冷啟動程序,以減少算法參數(shù)隨機(jī)化的影響。此外,提出了保護(hù)和回退機(jī)制,保證導(dǎo)頻功率部署的穩(wěn)定性和可靠性。仿真結(jié)果表明,所提算法能夠很好地解決基站導(dǎo)頻功率的動態(tài)調(diào)整問題,在RAN環(huán)境變化中取得了很大的優(yōu)勢。后續(xù)將考慮導(dǎo)頻功率與小區(qū)實(shí)際覆蓋情況和小區(qū)邊緣用戶分布的影響,進(jìn)一步優(yōu)化基站導(dǎo)頻功率。