黃 影,嚴定宇,李 男
(1.西安文理學院數(shù)學與計算機工程學院,陜西西安 710068;2.西安電子科技大學綜合業(yè)務網理論及關鍵技術國家重點實驗室,陜西西安 710071)
動態(tài)頻譜接入的Q學習優(yōu)化算法
黃 影1,嚴定宇2,李 男2
(1.西安文理學院數(shù)學與計算機工程學院,陜西西安 710068;2.西安電子科技大學綜合業(yè)務網理論及關鍵技術國家重點實驗室,陜西西安 710071)
在認知無線電網絡的中心架構下針對網絡整體性能和用戶需求,提出一種基于Q學習的動態(tài)頻譜接入優(yōu)化算法.該算法通過認知用戶根據Q學習算法提出信道申請和控制節(jié)點;根據網絡整體性能處理申請兩個主要步驟的實施,完成動態(tài)頻譜的接入.仿真與分析表明,該優(yōu)化算法在滿足用戶頻譜需求的同時使得網絡整體性能得到明顯的改善.
認知無線電網絡;動態(tài)頻譜接入;Q學習
隨著無線技術的飛速發(fā)展,與日俱增的頻譜需求使得無線頻譜資源面臨著緊缺危險[1].而傳統(tǒng)的固定頻譜分配策略嚴重限制了用戶接入的能力,從而導致了頻譜資源的嚴重浪費.為有效解決網絡頻譜資源緊缺且利用率不高的問題,認知無線電技術應運而生,其基本功能之一就是整合空閑頻譜,為擇機使用頻譜的用戶提供接入服務,提高頻譜利用率[2].當次級用戶在使用空閑的主用戶信道時,必須滿足在主用戶不做任何改變的情況下,不給主用戶帶來任何形式干擾的條件,即當信道沒有被主用戶占用而處于空閑的狀態(tài)時,次級用戶方可以接入空閑信道進行通信;當信道被主用戶占用而處于忙碌的狀態(tài)時,次級用戶應立即停止在此信道的通信,并且切換到其他空閑信道繼續(xù)數(shù)據通信.
由于主用戶使用頻譜的限制,次級用戶可用頻譜的數(shù)量和位置會隨時間而不斷變化.因此,對于這些“不確定”的頻譜資源進行優(yōu)化分配本質上是一個受限的頻譜分配問題.對于認知無線電網絡,選擇高效、自適應的頻譜資源分配方案及管理策略直接關系著網絡的正常運行[3].Q學習算法適用于外部環(huán)境變化復雜,而獎勵易積累計算的場景,其應用的場景非常符合認知無線電網絡的動態(tài)頻譜接入環(huán)境,能夠為認知無線電網絡提供一種動態(tài)的、自適應的頻譜資源優(yōu)化方法[4].
現(xiàn)有的基于Q學習的動態(tài)頻譜接入研究大都集中在對Q學習算法和外部環(huán)境建模以及提高算法效率上,而同時考慮用戶需求和網絡整體性能的研究較少.文獻[5]提出利用Q學習算法有效地利用頻譜空洞,不需要任何動態(tài)環(huán)境的先驗知識和較多的信息交換,只通過與環(huán)境的交互達到高性能的學習方案.而文獻[6]則分別通過提出將Q學習算法和拍賣算法相結合的方法來進一步提高算法效率.文獻[7]利用Q學習算法和跨層技術設計出一種在認知無線電網絡環(huán)境下的學習引擎.文獻[8]則將Q學習算法用于認知傳感器網絡中繼節(jié)點的選舉上.這些研究僅從單一角度提高網絡性能,如吞吐量、時延和公平性等,但當外部網絡環(huán)境比較復雜、通信場景多樣化時,這些算法就不能針對多個目標起到資源優(yōu)化的作用.因此,筆者提出一種優(yōu)化資源的Q學習方案,旨在盡量滿足用戶需求的同時提升網絡整體性能.
1.1 認知無線電網絡架構模型
文中提出的基于Q學習的動態(tài)頻譜接入方案,旨在盡量滿足用戶需求的同時提升網絡整體性能,而單個次級用戶很難確保周圍環(huán)境信息的全面性和實時性,不利于網絡整體環(huán)境的實時獲取,因此,文中設計的認知無線電網絡架構為一種弱集中式架構,即一定范圍內必須存在1個控制節(jié)點.控制節(jié)點可由次級用戶基站充當,也可以由分層網絡中具備較強計算能力的簇頭節(jié)點充當,同時默認次級用戶彼此之間存在用于傳輸控制信息的控制信道,具體網絡架構模型如圖1所示.
圖1 認知無線電網絡架構模型
1.2 Q學習算法模型
Q學習算法是Watkins在1989年提出的一種無模型強化學習算法,是強化學習算法中的一個里程碑[9].Q學習算法主要通過馬爾科夫決策過程建模,以迭代方法逼近最優(yōu)解,基本模型如圖2所示.Q學習算法的具體步驟如下[10]:
圖2 Q學習算法的基本模型
Step 1 初始化Q(s,a),隨機生成查找表,初始化參數(shù)?和γ,令t=0.
Step 2 觀測當前狀態(tài)st.
Step 3 按照某種動作選擇機制選擇動作at,并執(zhí)行.
Step 4 觀測執(zhí)行完動作at后的下一個狀態(tài)st+1和獎懲值rt+1.
Step 5 按照下式更新狀態(tài)動作對(st,at)的Q值函數(shù),得到Qt+1(st,at),即
Step 6 判斷是否達到終止條件.若達到終止條件則結束;否則,轉Step 3,并且令t=t+1.
2.1 方案問題描述
認知無線電網絡中的動態(tài)頻譜接入技術,除了面臨可用頻譜資源隨著主用戶使用情況而變化的問題外,還面臨著認知用戶需求實時變化的問題.具體問題描述如下:
(1)環(huán)境狀態(tài)S的問題映射,S={s1,s2,…,sk,…,sn},表示目前認知用戶可以二次利用的信道列表,n表示認知用戶可達的所有信道數(shù).當sk=1時,表示當前信道k被主用戶占用;當sk=0時,表示當前信道k未被主用戶占用,是空閑的信道.
(2)動作選擇集合A的問題映射,A={a1,a2,…,ak,…,am},系統(tǒng)狀態(tài)的動作選擇主要受兩種行為的影響:一種是主用戶的行為,即認知用戶只能選擇那些主用戶沒有占用的空閑信道接入,不能對主用戶已占用的信道的數(shù)據通信產生影響;一種是其他認知用戶的行為,即認知用戶應該盡量選擇其他認知用戶沒有選擇的信道接入,進而減小認知用戶彼此之間的碰撞概率和認知用戶系統(tǒng)資源的浪費.
(3)獎賞值,又稱為回報,即應當能夠體現(xiàn)出學習的目標.該方案的目標就是在不對主用戶系統(tǒng)的通信造成干擾的前提下,降低認知用戶彼此之間的沖突概率,進而達到提高系統(tǒng)吞吐量的目的,同時盡量滿足認知用戶的需求,具體表現(xiàn)為盡量使得各個認知用戶獲得更高的傳輸速率.基于此,文中設計的獎賞函數(shù)為
當次級用戶USi申請信道j,控制節(jié)點分配給該用戶信道j時,使用式(2a);當次級用戶USi申請信道j,控制節(jié)點分配給該用戶信道k時,使用式(2b);當次級用戶USi申請信道j,控制節(jié)點沒有分配給該用戶任何空閑信道進行數(shù)據通信時,使用式(2c).
2.2 方案實施步驟
從用戶需求和網絡整體性能兩個角度出發(fā),筆者提出了一種基于Q學習的動態(tài)頻譜接入方案,即一種面向用戶需求和提升網絡整體性能的動態(tài)頻譜接入方案.具體算法流程如圖3所示.
圖3 優(yōu)化算法的主要流程圖
Step 1 入網初始化:①根據感知結果完成主用戶占用信道的初始化;②對各個次級用戶在各個傳輸信道上的傳輸速率進行初始化;③次級用戶信道申請失敗記錄器全部初始化為0;④將次級用戶的優(yōu)先級全部初始化為0;⑤將所有狀態(tài)動作對的Q值初始化為0.
Step 2 各個次級用戶在數(shù)據傳輸時隙開始時按照自己的Q學習算法計算出將要申請的信道標號,并將信道標號上報給控制節(jié)點:①根據感知結果構建狀態(tài)空間;②根據狀態(tài)空間調整Q值表大小;③根據貪婪策略進行下一次動作的選擇;④將下一個動作得到的下一個狀態(tài)作為本次信道申請的信道標號;④次級用戶根據自己通信需求的緊急程度(gur)修改自己優(yōu)先級(pri),prii=prii+ guri,guri值越大,次級用戶的額外代價越大,將優(yōu)先級的數(shù)值上傳給控制節(jié)點后,默認prii=0,guri=0.
Step 3 控制節(jié)點根據各個次級用戶上報信息處理申請:①有且僅有次級用戶USi申請信道j,將信道j分配給次級用戶USi;②若次級用戶USi和USj同時申請信道j,則將信道j分配給優(yōu)先級較大的次級用戶,若次級用戶彼此之間的優(yōu)先級相等,當時,將信道分配給Ns較大的次級用戶;當時,將信道分配給傳輸能力較強的次級用戶,其中,N0為判定門限,其具體數(shù)值可根據網絡具體情況確定;③以剩余隨機分配的形式保證所有空閑信道都被分配給次級用戶或者所有次級用戶都分配到信道;④若次級用戶USi分配到信道,則保持Nsi數(shù)值不變;否則,令Nsi=Nsi+1.
Step 4 控制節(jié)點通過控制信道將分配信息下發(fā)給各個次級用戶,次級用戶利用自己分配到的空閑信道開始數(shù)據傳輸,直至下一個感知時隙的到來.
Step 5 在感知時隙期間,各個次級用戶根據分配結果和獎賞函數(shù)計算出獎賞值,進而根據更新公式完成Q值的更新調整.
Step 6 判斷次級用戶是否需要繼續(xù)進行數(shù)據傳輸,若否,則轉Step 7;若是,則轉Step 2.
Step 7 次級用戶結束數(shù)據傳輸,退出認知無線電網絡.
文中提出的基于Q學習的動態(tài)頻譜接入優(yōu)化算法,主要是從用戶需求和網絡整體性能兩個角度出發(fā),旨在提升網絡整體性能的同時盡量滿足用戶的需求,這里從網絡整體性能和用戶需求兩個方面對文中優(yōu)化算法進行仿真性能的分析.
仿真時假設認知用戶數(shù)目多于空閑信道數(shù)目,即有5個認知用戶,4個空閑信道,各個認知用戶在各個信道上有不同的傳輸速率.假設傳輸速率為
其中,vij表示認知用戶usj在空閑信道i上的傳輸速率.仿真時,設置式(1)中?=0.5,?=0.3.
3.1 網絡整體性能仿真分析
網絡整體性能的衡量指標主要是認知用戶在提出信道申請時彼此沖突的概率和系統(tǒng)整體的平均信道傳輸速率,即每次數(shù)據傳輸時各認知用戶在各自信道上傳輸速率的總和.綜合圖4和圖5可得,雖然簡單Q學習方案申請概率比文中優(yōu)化方案低,能一定程度降低控制節(jié)點的計算負擔,但系統(tǒng)平均速率低于文中優(yōu)化方案;拍賣方案雖然在申請重復概率和系統(tǒng)平均速率方面接近或略高于文中的優(yōu)化方案,但是拍賣方案不具備隨著外界環(huán)境的變化而自適應調整的能力,給控制節(jié)點造成嚴重負荷,同時也局限了拍賣方案在外部快速變化環(huán)境下的使用幾率.
圖4 提交申請重復概率對比圖
圖5 系統(tǒng)平均速率對比圖
圖6 認知用戶平均速率對比圖
圖7 認知用戶成功接入概率對比圖
3.2 用戶需求仿真分析
認知用戶需求的衡量指標主要是認知用戶傳輸數(shù)據的傳輸速率和認知用戶成功接入空閑信道的概率.從圖6和圖7可得出,拍賣方案在滿足用戶需求方面有明顯的缺陷,即用戶4的平均傳輸速率和成功信道概率明顯低于其他方案,會出現(xiàn)用戶4非常不滿意當前服務的情況.在認知用戶成功接入信道概率方面,文中優(yōu)化算法與隨機方案和簡單Q學習方案功能大致相同,但是采用文中優(yōu)化算法能夠使得各個認知用戶獲得更高的平均傳輸速率.
仿真與分析表明,相比于隨機方案和簡單Q學習方案,文中優(yōu)化方案在滿足用戶需求方面有了明顯改善.
筆者提出了一種基于Q學習的動態(tài)頻譜接入優(yōu)化算法,從網絡整體性能和用戶需求兩方面對動態(tài)頻譜接入進行了優(yōu)化,同時本優(yōu)化將控制節(jié)點的一部分運算轉移到認知用戶節(jié)點上,在一定程度上將串行運算變成了并行運算,減輕了控制節(jié)點的運算負擔,縮短了算法的運行時間,為數(shù)據通信贏得了更多的時間.
[1]Marinho J,Monteiro E.Cognitive Radio:Survey on Communication Protocols,Spectrum Decision Issues,and Future Research Directions[J].Wireless Networks,2012,18(2):147-164.
[2]Mitola J,Maguire Jr G Q.Cognitive Radio:Making Software Radios More Personal[J].IEEE Personal Communications,1999,6(4):13-18.
[3]Tragos E Z,Zeadally S,Fragkiadakis A G,et al.Spectrum Assignment in Cognitive Radio Networks:a Comprehensive Survey[J].IEEE Communications Surveys and Tutorials,2013,15(3):1108-1135.
[4]Gavrilovska L,Atanasovski V,Macaluso I,et al.Learning and Reasoning in Cognitive Radio Networks[J].IEEE Communications Surveys&Tutorials,2013,15(4):1761-1777.
[5]Xu Y,Wang J,Wu Q,et al.Opportunistic Spectrum Access in Unknown Dynamic Environment:a Game-theoretic Stochastic Learning Solution[J].IEEE Wireless Communications,2012,11(4):1380-1391.
[6]Chen Z,Qiu R C.Q-learning Based Bidding Algorithm for Spectrum Auction in Cognitive Radio[C]//Proceedings of IEEE Southeastcon.Piscataway:IEEE,2011:409-412.
[7]Liu C B,Jiang H,Yang Y C,et al.Q-learning-based Cross-layer Learning Engine Design for Cognitive Radio Network [C]//Proceedings of SPIE:8784.Bellingham:SPIE,2013:878419.
[8]Peng J,Li J,Li S,et al.Multi-relay Cooperative Mechanism with Q-learning in Cognitive Radio Multimedia Sensor Networks[C]//Proceedings of the IEEE 10th International Conference on Trust,Security and Privacy in Computing and Communications.Piscataway:IEEE,2011:1624-1629.
[9]Bkassiny M,Li Y,Jayaweera S K.A Survey on Machine-learning Techniques in Cognitive Radios[J].IEEE Communications Surveys&Tutorials,2013,15(3):1136-1159.
[10]Rummery G A,Niranjan M.On-line Q-learning Using Connectionist Systems[M].Cambridge:University of Cambridge,1994.
(編輯:齊淑娟)
Optimization algorithm for dynamic spectrum access based on Q-learning in cognitive radio networks
HUANG Ying1,YAN Dingyu2,LI Nan2
(1.School of Mathematics and Computer Engineering,Xi’an Univ.of Arts and Science,Xi’an 710068,China;2.State Key Lab.of Integrated Service Networks,Xidian Univ.,Xi’an 710071,China)
Under the centralized cognitive radio network architecture,considering the network performance and users’demands.We propose an optimized dynamic spectrum access algorithm based on Q-learning.The proposed algorithm has two steps,which consist of user request according to Q-learning and the application process according to the overall system performance.Simulation results show that the proposed scheme can improve the overall system performance obviously,and that the user requirements could be satisfied at the same time.
cognitive radio networks;dynamic spectrum access;Q-learning
TN92
A
1001-2400(2015)06-0179-05
10.3969/j.issn.1001-2400.2015.06.030
2014-07-16
時間:2015-03-13
國家自然科學基金資助項目(61172068,61373170);中央高校基本科研業(yè)務費專項資金資助項目(JB150317)
黃 影(1977-),女,助理工程師,碩士,E-mail:yhuang@xidian.edu.cn.
http://www.cnki.net/kcms/detail/61.1076.TN.20150313.1719.030.html