張鵬飛,張月霞
(北京信息科技大學(xué) a.信息與通信工程學(xué)院; b.現(xiàn)代測控技術(shù)教育部重點實驗室; c.高動態(tài)導(dǎo)航技術(shù)北京市重點實驗室,北京 100101)
近年來,隨著移動互聯(lián)網(wǎng)的廣泛普及與移動智能設(shè)備的大量應(yīng)用,5G系統(tǒng)業(yè)務(wù)需求出現(xiàn)大幅增長,如何提升系統(tǒng)吞吐量和容量成為5G領(lǐng)域的研究熱點[1]。超密集網(wǎng)絡(luò)(Ultra Dense Network,UDN)通過部署大量低功率接入點(Access Point,AP)可有效提高系統(tǒng)吞吐量和容量[2-3],但是網(wǎng)絡(luò)節(jié)點的增加導(dǎo)致小區(qū)間干擾(Inter-Cell Interference,ICI)嚴(yán)重,從而降低了小區(qū)用戶的服務(wù)質(zhì)量[4]。針對該問題,研究者們提出以用戶為中心的超密集網(wǎng)絡(luò)(User-Centric Ultra Dense Network,UUDN),采用去蜂窩方式對傳統(tǒng)蜂窩網(wǎng)絡(luò)體系結(jié)構(gòu)進(jìn)行改進(jìn),使得處于小區(qū)任意地點的用戶設(shè)備(User Equipment,UE)獲得相同服務(wù)質(zhì)量[5]。UUDN通過組建1個動態(tài)接入點組(Access Point Group,APG)使用戶設(shè)備能實時接收到信號。每個用戶設(shè)備有1個自身專屬APG,在用戶設(shè)備移動過程中,AP會根據(jù)其位置動態(tài)調(diào)整APG內(nèi)的AP以使用戶設(shè)備位于網(wǎng)絡(luò)中心[6]。雖然UUDN能提高用戶的服務(wù)質(zhì)量,但是仍存在復(fù)雜的信號干擾,因此,如何減少信號干擾成為其亟需解決的問題。
針對上述問題,國內(nèi)外學(xué)者們進(jìn)行了深入研究,將功率控制作為抑制信號干擾的有效手段。文獻(xiàn)[7]提出以用戶為中心的蜂窩網(wǎng)上行功率控制方案,通過波束賦形層面有效提升系統(tǒng)容量,但僅適用于多進(jìn)多出(Multiple In Multiple Out,MIMO)情況,未考慮超密集網(wǎng)絡(luò)下多個用戶之間的復(fù)雜干擾。文獻(xiàn)[8]提出基于用戶為中心的博弈論功率控制算法,針對5G異構(gòu)網(wǎng)絡(luò)進(jìn)行分層博弈,有效提高了系統(tǒng)容量,但未考慮同層用戶之間的干擾。文獻(xiàn)[9]提出上行功率控制方案,分析了天線數(shù)目對系統(tǒng)容量的作用,但未考慮用戶之間同頻干擾的影響。文獻(xiàn)[10]提出以用戶為中心的動態(tài)小區(qū)分簇聚類算法,將用戶分簇并采用貪婪算法對系統(tǒng)容量進(jìn)行優(yōu)化,雖然考慮了不同簇間的干擾,但其頻譜效率大幅降低。上述算法在一定程度上提高了系統(tǒng)的吞吐量和容量,但是未對UUDN中同頻小區(qū)間干擾問題進(jìn)行研究,且缺乏可行性分析。
本文針對UUDN用戶間存在復(fù)雜干擾及系統(tǒng)容量受限的問題,提出一種UUDN結(jié)構(gòu)中雙層Stackelberg博弈的功率控制(Two-Layer Stackelberg Game Power Control,TSGPC)算法。建立UUDN上行功率控制系統(tǒng)模型,采用TSGPC算法設(shè)定不同用戶的收益函數(shù),計算得到最優(yōu)發(fā)射功率和最佳懲戒因子的納什均衡解,并對納什均衡解的存在性和唯一性進(jìn)行證明。
本文建立了UUDN上行功率控制系統(tǒng)模型,如圖1 所示。協(xié)作用戶1與協(xié)作基站1、協(xié)作用戶2與協(xié)作基站2、服務(wù)用戶1和服務(wù)用戶k及服務(wù)基站這3組分別進(jìn)行組內(nèi)數(shù)據(jù)通信。以服務(wù)用戶k為中心組建1個APG,大圓圈表示服務(wù)用戶k的APG覆蓋范圍,APG中有1個服務(wù)基站,并有1個或多個協(xié)作基站。
圖1 UUDN上行功率控制系統(tǒng)模型
假設(shè)在APG中有T個協(xié)作基站(1,2,…,q,…,T),有M個服務(wù)用戶(1,2,…,k,…,M)與服務(wù)基站進(jìn)行數(shù)據(jù)通信,有N個協(xié)作用戶(1,2,…,i,…,j,…,N)與各自的協(xié)作基站進(jìn)行數(shù)據(jù)通信。由于服務(wù)用戶(1,2,…,k,…,M)均使用不同頻率與服務(wù)基站通信,因此他們之間不存在干擾;而服務(wù)用戶k與協(xié)作用戶使用相同頻率,因此他們之間存在相互干擾。假設(shè)服務(wù)用戶以固定功率pt進(jìn)行發(fā)射,而協(xié)作用戶以可變功率pi進(jìn)行發(fā)射,其中pi為第i個協(xié)作用戶的發(fā)射功率,其對應(yīng)協(xié)作基站q,則某個協(xié)作用戶i的信噪比為:
(1)
UUDN上行功率控制系統(tǒng)模型取消了小區(qū)邊緣用戶,能為每個用戶提供較高的服務(wù)質(zhì)量。在該系統(tǒng)模型中,每個UE均有專屬的動態(tài)APG為其提供服務(wù)。用戶在移動過程中,無論位于何處,APG都將為其提供良好的鏈路通信質(zhì)量。此外,服務(wù)用戶能根據(jù)不同用戶發(fā)射功率與收到的懲戒因子,動態(tài)調(diào)整自身發(fā)射功率,從而減小用戶之間的干擾,提升系統(tǒng)吞吐量[11-12]。
在標(biāo)準(zhǔn)的博弈模型中,通常包含博弈參與者、參與者決策集以及博弈方收益函數(shù)3個基本元素。本文提出的TSGPC博弈模型中基本元素如下:
1)第1層博弈參與者。參與博弈的協(xié)作用戶集合Ψ={1,2,…,N}。
2)第1層參與者的決策。每位參與者的決策可表示為{p1,p2,…,pi,…,pn},且各決策相互獨(dú)立。
3)第1層博弈方的收益函數(shù)。協(xié)作用戶i的收益函數(shù)為Ui(pi,λi)。
4)第2層博弈的參與者。參與博弈的協(xié)作用戶集合Ψ={1,2,…,N}。
5)第2層參與者的決策。每位參與者的決策可表示為{λ1,λ2,…,λi,…,λn},且各決策相互獨(dú)立。
6)第2層服務(wù)用戶的收益函數(shù)UUk(pi,λi)。
在雙層博弈之間,第1層博弈所求最佳發(fā)射功率會影響第2層博弈最佳懲戒因子的結(jié)果,而第2層博弈所求最佳懲戒因子也會影響第1層博弈最佳發(fā)射功率的結(jié)果,兩者相互制約并調(diào)節(jié)以獲取動態(tài)平衡,最終求解出協(xié)作用戶的最優(yōu)發(fā)射功率和最佳懲戒因子,使所有用戶的收益達(dá)到最大。
協(xié)作用戶i發(fā)送信息到基站時,總希望使自身發(fā)送速率最大化,即實現(xiàn)最大傳輸速率Ri。由于所有協(xié)作用戶為使自身收益最大化,均不考慮對其他用戶的影響,因此各協(xié)作用戶之間屬于非合作博弈。
假設(shè)所有用戶的傳輸帶寬為單位帶寬,則協(xié)作用戶i的傳輸速率Ri表達(dá)式為:
(2)
然而協(xié)作用戶的信號傳輸會對服務(wù)用戶產(chǎn)生干擾,為減弱該干擾,需對協(xié)作用戶設(shè)置抑制干擾函數(shù)如下:
Ci=λipili
(3)
Ui(pi,λi)=Ri-Ci=
(4)
本文同時考慮了協(xié)作用戶和服務(wù)用戶的收益函數(shù)。服務(wù)用戶的收益函數(shù)定義為服務(wù)用戶對協(xié)作用戶的總懲罰量減去協(xié)作用戶干擾給服務(wù)用戶造成的性能損失,表達(dá)式為[15]:
(5)
由于當(dāng)懲戒因子λi較小時,協(xié)作用戶的發(fā)射功率會增大,從而對服務(wù)用戶造成強(qiáng)干擾,因此對協(xié)作用戶發(fā)射的干擾進(jìn)行以下限制:
(6)
若門限值T較小,則會給服務(wù)用戶帶來較大的性能損失。當(dāng)協(xié)作用戶發(fā)射功率給服務(wù)用戶造成的干擾接近門限值時,服務(wù)用戶的收益函數(shù)會增大。協(xié)作用戶對服務(wù)用戶的干擾功率不超過門限值T。
上述服務(wù)用戶收益函數(shù)考慮了服務(wù)用戶對協(xié)作用戶的懲戒收益總量,并分析了協(xié)作用戶對服務(wù)用戶產(chǎn)生的干擾,函數(shù)設(shè)置更合理。當(dāng)懲戒因子λi很大時,根據(jù)式(5),服務(wù)用戶收益將增大,但是根據(jù)式(4),協(xié)作用戶收益將減小,協(xié)作用戶為增大收益會提高自身發(fā)射功率,導(dǎo)致服務(wù)用戶收益降低,系統(tǒng)總干擾增加;當(dāng)懲戒因子λi很小時,根據(jù)式(4),協(xié)作用戶收益將增大,其會采用較高發(fā)射功率,但是根據(jù)式(5),服務(wù)用戶收益將降低,系統(tǒng)總干擾增加。因此,需要服務(wù)用戶和協(xié)作用戶之間相互博弈,以獲取最佳發(fā)射功率使雙方收益達(dá)到最大。
根據(jù)Stackelberg安全博弈模型,參與者任何決策都應(yīng)滿足服務(wù)用戶收益UUk(pi,λi)和每個協(xié)作用戶收益Ui(pi,λi)最大,而由于服務(wù)用戶與協(xié)作用戶的收益都是關(guān)于pi和λi的函數(shù),因此優(yōu)化目標(biāo)可表示為:
(7)
(8)
約束條件為:
(9)
(10)
對協(xié)作用戶收益函數(shù)求導(dǎo)得到如下關(guān)系式:
(11)
(12)
由式(9)得到:
(13)
(14)
根據(jù)式(14),服務(wù)用戶收益為N+1減去1個關(guān)于λi的對勾函數(shù),計算公式為:
(15)
(16)
(17)
由式(10)得到:
(18)
(19)
圖2 博弈流程
定理1對于協(xié)作用戶的懲戒因子λi,協(xié)作用戶之間非合作博弈必定存在納什均衡解。非合作博弈存在納什均衡解,需要滿足以下條件:1)所有協(xié)作用戶參與博弈的集合有限;2)所有協(xié)作用戶的決策集合封閉有界;3)收益函數(shù)在所有協(xié)作用戶的決策集上,且為連續(xù)擬凹函數(shù)。
證明具體過程如下:
1)參與博弈的協(xié)作用戶人數(shù)Ψ={1,2,…,N},為有限集合。
3)對協(xié)作用戶i的收益函數(shù)進(jìn)行2階求導(dǎo)得到:
(20)
定理2對于協(xié)作用戶的懲戒因子λi,協(xié)作用戶間的非合作博弈必存在唯一納什均衡解。非合作博弈收斂得到唯一納什均衡解,需滿足以下條件:1)函數(shù)具有非負(fù)性,即f(p)≥0;2)函數(shù)具有單調(diào)性,?pa≥pb,f(pa)≥f(pb);3)函數(shù)具有擴(kuò)展性:若α>1,則αf(p)≥f(αp)。
證明具體過程如下:
1)根據(jù)式(20),得到0≤p≤pmax且p(k+1)=f(p(k))>0。
2)對式(19)求導(dǎo)得到:
(21)
由于式(21)各項均為正數(shù),f(p)′>0,因此f(p)為單調(diào)增函數(shù),?pa≥pb,f(pa)≥f(pb)。
3)令L(p)=αf(p)-f(αp),結(jié)合式(1)和式(12),將該式轉(zhuǎn)化為:
(22)
其中,由于α>1,L(p)中各項均為正數(shù),因此L(p)>0,即αf(p)≥f(αp)。綜上可知,協(xié)作用戶之間非合作博弈的納什均衡解唯一。
為驗證TSGPC算法的有效性,本文構(gòu)建以用戶為中心的網(wǎng)絡(luò)架構(gòu),將服務(wù)基站的半徑覆蓋范圍設(shè)置為200 m,并假設(shè)存在4個服務(wù)用戶和6個協(xié)作用戶,具體參數(shù)設(shè)置如表1所示。
表1 仿真參數(shù)設(shè)置
圖3為TSGPC算法中不同協(xié)作用戶的發(fā)射功率隨迭代次數(shù)的收斂情況??梢钥闯?協(xié)作用戶之間相互博弈,隨著迭代次數(shù)的增加,協(xié)作用戶自身發(fā)射功率逐漸提高,并在多次博弈后達(dá)到穩(wěn)定狀態(tài)。
圖3 協(xié)作用戶發(fā)射功率的收斂情況
圖4為TSGPC算法中服務(wù)用戶k和協(xié)作用戶i收益隨迭代次數(shù)的變化情況(由于協(xié)作用戶收益曲線大致相同,因此以協(xié)作用戶i(i=4)為例)??梢钥闯?在迭代初始階段,協(xié)作用戶i的發(fā)射功率低且懲戒因子小,導(dǎo)致服務(wù)用戶k和協(xié)作用戶i的收益較低;隨著迭代次數(shù)的增加,由于協(xié)作用戶之間相互博弈,其自身發(fā)射功率不斷提高,導(dǎo)致協(xié)作用戶i和服務(wù)用戶k的收益增大,服務(wù)用戶k為獲取更大收益,提高了協(xié)作用戶i的懲戒因子,從而造成協(xié)作用戶i收益降低。協(xié)作用戶之間通過相互博弈提高自身發(fā)射功率,提升了協(xié)作用戶i和服務(wù)用戶k的收益。最終協(xié)作用戶通過多次博弈到穩(wěn)定狀態(tài),使得服務(wù)用戶和協(xié)作用戶的收益達(dá)到最大。
圖4 不同用戶收益隨迭代次數(shù)的變化情況
圖5為K-G算法[16]、SGUPPC算法[17]、PCBSW算法與TSGPC算法中協(xié)作用戶的信干噪比(Signal to Interference plus Noise Ratio,SINR)[18]隨迭代次數(shù)的收斂情況??梢钥闯?上述4種算法經(jīng)過博弈后均達(dá)到穩(wěn)定狀態(tài),但是K-G算法、SGUPPC算法、PCBSW算法中協(xié)作用戶的SINR僅收斂到6 dB,雖滿足正常通信要求,但通信質(zhì)量遠(yuǎn)不如TSGPC算法,TSGPC算法的通信質(zhì)量更優(yōu)。
圖5 不同算法中協(xié)作用戶的SINR收斂情況對比
圖6為TSGPC算法和CHAOS算法中服務(wù)用戶收益隨懲戒因子的變化情況??梢钥闯?在TSGPC算法中服務(wù)用戶收益隨著懲戒因子增加而先增后減,并在懲戒因子為7×1012時達(dá)到最大值;CHAOS算法[19]中服務(wù)用戶收益隨著懲戒因子增大而逐漸降低。理論上,當(dāng)協(xié)作用戶的懲戒因子為0時,由于服務(wù)用戶未對協(xié)作用戶的發(fā)射功率進(jìn)行懲罰,因此協(xié)作用戶將提高發(fā)射功率以獲取更高的協(xié)作用戶收益,從而導(dǎo)致服務(wù)用戶收益降低,此時服務(wù)用戶收益為最小值。但圖6中協(xié)作用戶懲戒因子為0時,CHAOS算法中服務(wù)用戶收益最大,這與理論值相悖。本文TSGPC算法優(yōu)化了效用函數(shù),使協(xié)作用戶懲戒因子為0時,TSGPC算法中服務(wù)用戶收益最小,這與理論值一致,同時經(jīng)過博弈使服務(wù)用戶收益逐漸提升。此外,TSGPC算法與CHAOS算法最終收斂值較接近,這證明了TSGPC算法的正確性。
圖6 不同算法中服務(wù)用戶收益隨懲戒因子的變化情況
圖7為TSGPC算法與Nash算法[20]的單位帶寬吞吐量隨協(xié)作用戶數(shù)量的變化情況。可以看出,2種算法的系統(tǒng)吞吐量均隨協(xié)作用戶數(shù)量的增加而逐漸增大,但是當(dāng)協(xié)作用戶數(shù)量增大到一定程度后,系統(tǒng)吞吐量增速逐漸減緩。和Nash算法相比,TSGPC算法的系統(tǒng)吞吐量更大。
圖7 不同算法中單位帶寬吞吐量隨協(xié)作用戶數(shù)量的變化情況
本文在UUDN應(yīng)用場景下提出TSGPC算法,通過建立UUDN上行功率控制系統(tǒng)模型,求解出最優(yōu)發(fā)射功率控制方案和最佳懲戒因子,使協(xié)作用戶與服務(wù)用戶的收益最大化,并證明其納什均衡解的存在性和唯一性。仿真實驗表明,與SGUPPC、PCBSW等算法相比,該算法能更有效地降低UUDN用戶間干擾,提升系統(tǒng)吞吐量與容量。下一步將在考慮用戶速率的情況下改進(jìn)功率,對功率、信道和用戶速率進(jìn)行聯(lián)合優(yōu)化,以滿足多用戶速率服務(wù)需求。