馬 彬 陳海波 張 超
(重慶郵電大學重慶市計算機網(wǎng)絡與通信技術重點實驗室 重慶 400065)
(重慶郵電大學計算機科學與技術學院 重慶 400065)
隨著無線移動通信的發(fā)展,由5G異構蜂窩網(wǎng)絡、無線局域網(wǎng)等多種接入技術構成的超密集異構無線網(wǎng)絡,可為終端提供多種接入方式,支持終端的無縫移動。超密集組網(wǎng)會帶來較高的能耗問題,引入休眠機制會一定程度降低能耗,同時,會進一步增強網(wǎng)絡的動態(tài)性,導致終端服務質量和網(wǎng)絡吞吐量等性能均下降。如何在高動態(tài)的超密集異構無線網(wǎng)絡,保證終端所獲得的吞吐量,并提升網(wǎng)絡系統(tǒng)綜合切換性能,成為當前研究需要解決的重要課題[1]。
目前,國內外相關研究工作較多,從采取的研究方法來劃分,網(wǎng)絡選擇算法大致可以分成兩類:(1)基于參數(shù)閾值的網(wǎng)絡選擇算法[2—5],主要是以接收信號強度(Receive Signal Strength, RSS)等參數(shù)進行網(wǎng)絡選擇判決。文獻[4]基于RSS的閾值,通過比較候選網(wǎng)絡的RSS數(shù)值大小,從而進行網(wǎng)絡選擇。該類算法實現(xiàn)簡單,選網(wǎng)參數(shù)易于獲取,計算復雜度較低;但是,該類算法容易導致乒乓效應,無法完全體現(xiàn)接入網(wǎng)絡的服務質量。(2)基于模糊邏輯或強化學習等人工智能方法的網(wǎng)絡選擇算法[6—14]。文獻[6]采用模糊邏輯算法,根據(jù)終端應用對QoS參數(shù)的需求,通過設計不同的隸屬度函數(shù),合理地選擇網(wǎng)絡。該類算法選網(wǎng)效率較高,但是需要事先建立相應的模糊推理規(guī)則庫,在輸入?yún)?shù)增加的情況下,模糊規(guī)則庫的數(shù)量會激增,導致推理時間復雜度過大。文獻[8]基于神經網(wǎng)絡算法,根據(jù)不同業(yè)務類型,對分類后的參數(shù)進行訓練,從而進行網(wǎng)絡選擇。該類算法具有強大的學習能力,能夠根據(jù)環(huán)境自適應地進行調整。文獻[11]提出一種基于體驗質量(Quality of Experience, QoE)感知的網(wǎng)絡選擇方案,將QoS的網(wǎng)絡參數(shù)映射成QoE參數(shù),然后利用QoE參數(shù)構造回報函數(shù),最后采用Q學習算法進行網(wǎng)絡選擇。該類算法能夠通過不斷的學習強化已有收益,從而選擇高收益網(wǎng)絡;但是,如果網(wǎng)絡環(huán)境過于復雜,會導致網(wǎng)絡控制模塊學習效果下降,繼而導致無法選擇到最佳網(wǎng)絡。
對于引入休眠機制的超密集異構無線網(wǎng)絡環(huán)境,隨著該網(wǎng)絡環(huán)境下基站數(shù)量的激增,同時引入休眠機制以節(jié)能,導致基站數(shù)量發(fā)生動態(tài)改變,繼而導致網(wǎng)絡動態(tài)性增強,網(wǎng)絡拓撲結構時變性提高。同時,終端自身的移動性和基站之間由于密集布網(wǎng)所產生的干擾,導致網(wǎng)絡動態(tài)性進一步加劇,而現(xiàn)有的相關文獻,解決的是常規(guī)異構無線網(wǎng)絡下的網(wǎng)絡選擇問題,并未考慮到如此高動態(tài)的網(wǎng)絡環(huán)境,這樣會使終端在通過現(xiàn)有選網(wǎng)算法切換到目標網(wǎng)絡之后,可能因目標網(wǎng)絡突然休眠,導致所獲得的吞吐量出現(xiàn)快速下滑,無法為終端提供持續(xù)穩(wěn)定的吞吐量,基站之間產生的干擾又會嚴重影響到終端的服務滿意度,最終發(fā)生系統(tǒng)切換性能嚴重降低的問題。因此,上述算法對于這一嚴峻問題,關注不足。
通過上述對引入休眠機制的超密集異構無線網(wǎng)絡環(huán)境進行動態(tài)性分析,可以得出,該網(wǎng)絡環(huán)境具有高動態(tài)特性,會使現(xiàn)有的網(wǎng)絡選擇算法出現(xiàn)切換性能嚴重下降的問題。因此,本文基于一種改進深度Q學習算法,以保證終端所獲得的網(wǎng)絡吞吐量,緩解系統(tǒng)因高動態(tài)性網(wǎng)絡環(huán)境導致的切換性能嚴重降低的問題。同時,針對傳統(tǒng)的深度Q學習算法在進行網(wǎng)絡選擇時,由于在線訓練神經網(wǎng)絡導致時延過大,出現(xiàn)算法失效的情況,本文利用遷移學習,加速訓練神經網(wǎng)絡,以降低在線選網(wǎng)的時間復雜度。綜上,本文的主要貢獻可概括為:
(1)針對由無線局域網(wǎng)絡和引入休眠機制的超密集蜂窩網(wǎng)絡異構而成的超密集異構無線網(wǎng)絡環(huán)境,進行動態(tài)性分析,以期緩解系統(tǒng)切換性能降低的問題。
(2)本文采用遷移學習對深度Q學習算法進行改良,提出一種基于改進深度Q學習的網(wǎng)絡選擇算法,降低了傳統(tǒng)深度Q學習算法在線上選網(wǎng)過程中的時間復雜度。
本文算法的流程圖如圖1所示,主要包括參數(shù)采樣及初始化過程、深度Q學習選網(wǎng)模型、最優(yōu)策略及網(wǎng)絡選擇3個階段。第1階段通過周期性采樣網(wǎng)絡參數(shù)的值來初始化深度Q學習選網(wǎng)模型,該模型由線下訓練模塊與線上決策模塊構成,上述兩個模塊均采用深度Q網(wǎng)絡構建;第2階段利用遷移學習對線下訓練模塊和線上決策模塊進行協(xié)同交互;第3階段通過深度Q學習選網(wǎng)模型得到最優(yōu)策略并進行網(wǎng)絡選擇。圖1的歷史信息數(shù)據(jù)庫包含網(wǎng)絡參數(shù)的采樣值以及歷史選網(wǎng)信息數(shù)據(jù),作為深度Q學習選網(wǎng)模型的訓練數(shù)據(jù)。
圖1 本文算法流程圖
由于本文采用深度Q學習算法對網(wǎng)絡選擇行為進行建模,因此,在通過深度Q學習算法進行建模的過程中,需要周期性采樣網(wǎng)絡參數(shù)的值來構建深度Q學習的動作空間、狀態(tài)空間和回報函數(shù),以初始化深度Q學習選網(wǎng)模型,本文采樣的參數(shù)如下。
(1)接收信號強度表示為
其中,dij為用戶終端i到網(wǎng)絡接入點j的距離,ρij為用戶終端i接收到網(wǎng)絡接入點j的發(fā)射功率,η為路徑損耗因子,u1為服從均值為0、標準差為σ1的高斯白噪聲。
(2)終端所獲下行吞吐量可表示為
本文將超密集異構無線網(wǎng)絡環(huán)境中終端可以接入的候選網(wǎng)絡(基站和訪問點)用集合N={n1,n2,...,ni}表示;其中終端在t時刻接入候選網(wǎng)絡ni表示為at(ni),則本文的動作空間可定義為At={at,at ∈{at(n1),at(n2),...,at(ni)}}。
本文將狀態(tài)空間定義為St=(rsst,ct,ψt,pt),其中, rsst表示在t時刻各候選網(wǎng)絡的接收信號強度集合,ct表示在t時刻各候選網(wǎng)絡的吞吐量集合,ψt表示在t時刻各候選網(wǎng)絡的干擾影響因子集合,pt表示在t時刻各候選網(wǎng)絡的休眠概率集合。
本文將引入休眠機制的超密集異構無線網(wǎng)絡環(huán)境下的選網(wǎng)問題,基于深度Q學習算法進行建模求解,該算法過程利用Q函數(shù)實現(xiàn)。Q函數(shù)表示在狀態(tài)S下執(zhí)行動作a,以及采取后續(xù)動作所產生累計回報值的期望,定義為
其中,γt ∈[0,1]為折扣因子,用于調整對未來回報的重視程度,隨著時刻t的增加而呈現(xiàn)指數(shù)型下降趨勢,E(·)為期望函數(shù)。
由式(6)可得,Q(S,a)在t →+∞時才能收斂到最佳Q值,在實際的網(wǎng)絡選擇過程中很難實現(xiàn)。因此,深度Q學習算法利用神經網(wǎng)絡構建Q(S,a;θ),其中,θ為權值,使得Q(S,a;θ)≈max(Q(S,a))來進行近似求解。
對于傳統(tǒng)的深度Q學習算法,終端需要多次進行交互以獲取足夠樣本,但是,這樣會使神經網(wǎng)絡的訓練時間過長,導致算法因延遲過高而失效。綜上,本文引入遷移學習[17],提出一種改進深度Q學習算法,來解決上述問題,該算法能夠減少終端與網(wǎng)絡環(huán)境實時交互的次數(shù)。同時,相比傳統(tǒng)深度Q學習算法以隨機賦權值的方法來訓練神經網(wǎng)絡,遷移線下訓練權值之后,使得訓練的起點更加接近神經網(wǎng)絡收斂條件,從而加速了算法的收斂性。
4.2.1 樣本與權重的生成及遷移
本文所提的深度Q學習選網(wǎng)模型由線下訓練模塊與線上決策模塊構成,而上述兩個模塊均由深度Q網(wǎng)絡構建。為了加速線上決策模塊的神經網(wǎng)絡訓練過程,通過遷移線下訓練模塊的訓練樣本與權值,并對遷移后上述兩個模塊產生的訓練誤差進行校正,直到誤差恒定,整個遷移學習過程結束。其中,訓練樣本與權值的生成及遷移過程如下:
神經網(wǎng)絡的訓練樣本是由歷史信息數(shù)據(jù)庫中不同時刻的當前狀態(tài)、動作、回報值以及未來狀態(tài)所構成的,即,其中,。在深度Q網(wǎng)絡中,為了高效地訓練神經網(wǎng)絡,通過設置經驗回放池,以緩解訓練過程中出現(xiàn)的迭代不穩(wěn)定問題。因此,本文將線下訓練模塊的訓練樣本遷移到線上決策模塊中,利用遷移的線下訓練樣本以及線上學習樣本,構建線上決策模塊的經驗回放池,表示為
(St,at,Rt,St+1)t ∈(0,+∞)
4.2.2 遷移誤差調整
在神經網(wǎng)絡進行迭代訓練時,由于線下訓練模塊與線上決策模塊之間在訓練樣本、權值存在差異的情況,可能出現(xiàn)訓練樣本、權值遷移過后,線上決策模塊的神經網(wǎng)絡訓練效果不佳,從而導致神經網(wǎng)絡的收斂速度未能達到預期效果。為了解決上述問題,本文將線下訓練與線上決策模塊之間產生的訓練誤差定義為策略損失,為了將策略損失降至最低,采用策略模仿機制,通過線下訓練模塊中,預估Q值Qoff(St,at;θoff)的玻爾茲曼分布,將線下訓練模塊的估值網(wǎng)絡轉化為線下策略網(wǎng)絡πoff(St,at;θoff),表示為
圖2 終端移動模型圖
本文采用5G異構蜂窩網(wǎng)絡和無線局域網(wǎng)(Wireless Local Area Network, WLAN)組成超密集異構無線網(wǎng)絡環(huán)境,無線接入網(wǎng)絡均采用正交頻分復用(Orthogonal Frequency Division Multiplexing, OFDM)技術。仿真場景如圖3所示,并在MATLAB平臺進行仿真。仿真場景中,有2個5G宏基站、4個5G微基站和3個WLAN接入點,5G宏基站的半徑均為800 m,5G微基站的半徑均為300 m,WLAN的半徑均為80 m。假設用戶隨機分布在仿真區(qū)域內,每隔一段時間隨機改變運動方向。仿真過程中,假設終端在網(wǎng)絡選擇決策時刻k獲得的候選網(wǎng)絡參數(shù)如表1所示。
表1 候選網(wǎng)絡的參數(shù)值
圖3 超密集異構無線網(wǎng)絡仿真場景圖
仿真對比了本文算法與現(xiàn)有基于Q學習(Qlearning)的網(wǎng)絡選擇算法[11]、基于深度Q學習網(wǎng)絡(Deep Q-Network, DQN)的網(wǎng)絡選擇算法[12]以及基于長短期記憶神經網(wǎng)絡(Long Short-Term Memory,LSTM)的網(wǎng)絡選擇算法[13]。
時間復雜度是網(wǎng)絡選擇算法的一個重要指標,本文算法與另外3種算法的時間開銷對比如圖4所示,隨著迭代次數(shù)的增加,4種算法所消耗的時間都在增加;但是,本文所采用的算法時間增加的幅度明顯慢于另外3種算法。這是因為本文算法采用遷移學習對傳統(tǒng)深度Q學習算法進行改進,極大地減少了神經網(wǎng)絡訓練時間,從而使整個算法的時間消耗降低。對于Q學習算法,在狀態(tài)與動作空間迅速增大的時候,計算能力持續(xù)下降,耗時逐漸加大,與本文算法的時間差距逐漸拉開。而DQN算法和LSTM算法,則直接采用深度神經網(wǎng)絡進行迭代運算,在迭代次數(shù)巨大的情況下,它們與本文算法的時間消耗差距將更為顯著。
圖4 算法時間開銷
圖5給出了隨著仿真次數(shù)的增加,終端在4種算法下受到的平均信干噪比數(shù)值情況。通過對比可以看到,采用本文算法所得到的平均信干噪比,高于另外3種算法。這是因為本文考慮到終端所受到的干擾,將干擾因素考慮進來,成功預測了基站未來對終端所造成的干擾影響情況,最大限度地降低了因基站所產生的干擾而對終端造成損失;同時,通過引用干擾影響因子參數(shù)來構建深度Q學習算法的回報函數(shù),有效緩解了干擾對終端產生的影響,從而為用戶帶來更高的信干噪比。對于其他3種算法,由于沒有專門考慮終端受到干擾的情況,為用戶設計合適的回報函數(shù)來降低干擾影響,導致了平均信干噪比沒有本文算法高。
圖5 平均信干噪比
圖6給出了隨著仿真次數(shù)的增加,終端在4種算法下平均吞吐量變化情況。通過對比可以得出,采用本文算法所得到的平均吞吐量,遠高于另外3種算法。這是因為本文采用深度Q學習算法成功預測了基站未來因休眠機制所導致的狀態(tài)變化情況,使得終端可以根據(jù)網(wǎng)絡未來發(fā)生的動態(tài)性變化合理地選擇網(wǎng)絡,極大地降低了由于基站干擾和休眠情況造成的吞吐量損失;同時,本文根據(jù)用戶獲得的吞吐量定義深度Q學習算法的回報函數(shù),更加符合用戶的實際需求。對于3種算法,由于它們既沒有充分考慮在未來網(wǎng)絡環(huán)境下基站的狀態(tài),也沒有為用戶設計合適的回報函數(shù)來增加網(wǎng)絡吞吐量,從而導致了吞吐量沒有本文算法高。
圖6 平均吞吐量
圖7為4種算法的掉話率與用戶數(shù)之間的比較。由圖可以看出,雖然4種算法的掉話率都在緩慢增加,但是,在用戶數(shù)增加到40以后,本文算法的掉話率增加幅度最小,另外3種算法增加幅度明顯高于本文算法。這是因為本文算法相比較其他3種算法,在網(wǎng)絡動態(tài)性持續(xù)增加的情況下,能夠預測到未來網(wǎng)絡的變化情況,繼而為用戶提供較高質量的網(wǎng)絡進行選擇,有效地降低了切換失敗的可能性。對于Q學習算法,由于不能夠準確地對網(wǎng)絡狀態(tài)進行預測,在用戶數(shù)增加的情況下,掉話率急劇增加。同樣,對于DQN和LSTM算法,由于在訓練深度神經網(wǎng)絡的過程中,會造成選網(wǎng)時延較高的結果,使得掉話率上升明顯。
圖7 網(wǎng)絡掉話率
圖8為用戶采用4種算法后產生的總切換次數(shù)。由圖可以看出,在用戶數(shù)不斷增加的情況下,采用本文算法產生的網(wǎng)絡總切換次數(shù),在所述4種算法中始終處于最低。這是因為本文考慮了因網(wǎng)絡環(huán)境動態(tài)性增強,導致算法切換失效率增加,從而發(fā)生頻繁切換的情況。本文算法成功預測了用戶在進行網(wǎng)絡選擇之后的網(wǎng)絡狀態(tài)變化情況,從而使發(fā)生切換的次數(shù)大大降低。而另外3種算法,由于均未妥善解決基站因休眠機制帶來的網(wǎng)絡高動態(tài)性影響,導致網(wǎng)絡的切換頻發(fā),乒乓效應加??;因此,本文算法能夠有效地降低無謂的網(wǎng)絡切換。
圖8 網(wǎng)絡總切換次數(shù)
本文提出一種基于改進深度Q學習的網(wǎng)絡選擇算法,緩解了在引入休眠機制的超密集異構無線網(wǎng)絡中,由于網(wǎng)絡動態(tài)性的明顯提升而引發(fā)系統(tǒng)切換性能降低的問題。通過利用網(wǎng)絡參數(shù)來構建回報函數(shù),從而盡可能地降低引入休眠機制后,網(wǎng)絡高動態(tài)性所造成的影響;同時,通過遷移學習對傳統(tǒng)的深度Q學習算法進行優(yōu)化,使得算法的時間復雜度大大降低。實驗結果表明,該算法在提升網(wǎng)絡吞吐量的同時,降低了時間復雜度,減少了網(wǎng)絡切換次數(shù)。