基于UCB的短波認(rèn)知信道選擇算法

2016-05-08 06:22:30王董禮黃國(guó)策孫啟祿王葉群

鐵道學(xué)報(bào) 2016年12期

王董禮，黃國(guó)策，曹鵬，孫啟祿，王葉群

(空軍工程大學(xué) 信息與導(dǎo)航學(xué)院，陜西西安 710077)

短波具有超視距通信能力，開通架設(shè)方便，一直是重要的遠(yuǎn)程和機(jī)動(dòng)通信手段，用途十分廣泛。目前短波電臺(tái)各自非合作的頻率競(jìng)爭(zhēng)和功率競(jìng)爭(zhēng)不僅導(dǎo)致自身干擾沖突，而且污染了短波電磁環(huán)境，致使其他短波用戶的可用頻率減少和頻譜質(zhì)量下降[1]，使得用戶間沖突碰撞嚴(yán)重，頻譜資源使用比較緊張。短波工業(yè)協(xié)會(huì)HFIA(High Frequency Industry Association)的研究表明，看似擁擠的短波頻段存在數(shù)量可觀的頻譜空洞[2,3]，因此，如何高效利用這些空閑的頻譜資源具有重要意義。

認(rèn)知無線電允許認(rèn)知用戶接入頻譜空洞，減少?zèng)_突碰撞的同時(shí)實(shí)現(xiàn)頻譜的高效利用?，F(xiàn)有對(duì)認(rèn)知無線電的研究主要集中在短波以上頻段，文獻(xiàn)[4]從動(dòng)態(tài)頻譜接入DSA(Dynamic Spectrum Access)的角度，提出將認(rèn)知無線電應(yīng)用到短波通信中。文獻(xiàn)[5]分析驗(yàn)證了短波頻段頻譜空洞的可用性和穩(wěn)定性，指出頻譜空洞持續(xù)時(shí)間在數(shù)秒到數(shù)分鐘間具有規(guī)律性，為DSA奠定了基礎(chǔ)。文獻(xiàn)[6]通過感知短波電磁環(huán)境，運(yùn)用DSA策略實(shí)現(xiàn)抗干擾設(shè)計(jì)，避開干擾噪聲較強(qiáng)的頻率進(jìn)行實(shí)時(shí)信道選擇。因此，將認(rèn)知無線電技術(shù)應(yīng)用到短波通信中，可以使短波認(rèn)知用戶根據(jù)周圍環(huán)境動(dòng)態(tài)選擇最佳工作頻率，調(diào)整自身參數(shù)，優(yōu)化通信效果。

動(dòng)態(tài)頻譜接入允許短波認(rèn)知用戶[7]在特定時(shí)間、地點(diǎn)使用空閑信道，根據(jù)強(qiáng)化學(xué)習(xí)(Reinforcement Learning)理論[8]，通過對(duì)信道的探索和利用，動(dòng)態(tài)接入空閑信道，能夠在最大化自身傳輸機(jī)會(huì)的同時(shí)減少與其他用戶的相互干擾。文獻(xiàn)[9]使用強(qiáng)化學(xué)習(xí)中的UCB(Upper Confidence Bound)算法，驗(yàn)證其在短波環(huán)境下具有優(yōu)良的性能。由于UCB算法學(xué)習(xí)時(shí)間較長(zhǎng)，收斂到最優(yōu)信道的速度較慢，影響其在短波環(huán)境下性能的提升。本文在文獻(xiàn)[9]的基礎(chǔ)上，建立適合認(rèn)知背景的評(píng)價(jià)準(zhǔn)則，提出一種改進(jìn)的UCB算法，該算法借鑒權(quán)重驅(qū)動(dòng)(Weight-Driven)算法思想[10]，引入信道質(zhì)量差異因子，根據(jù)探索學(xué)習(xí)結(jié)果動(dòng)態(tài)調(diào)整探索信道數(shù)量和探索系數(shù)，能夠快速收斂于最優(yōu)信道，較原始UCB算法和隨機(jī)信道選擇算法具有較高的成功傳輸率和較低的累積接入損失。

1 系統(tǒng)模型

圖1 系統(tǒng)的信道模型

2 UCB算法

2.1 UCB1算法

UCB算法是強(qiáng)化學(xué)習(xí)算法之一，是1995年由AGRAWAL R[13]提出的基于索引的算法，能夠解決MAB中探索新臂以獲得更多收益信息和選擇已有收益最高的臂來獲取最大利益之間的權(quán)衡問題。在認(rèn)知無線電應(yīng)用場(chǎng)景下，該算法不需任何信道先驗(yàn)信息，通過對(duì)歷史決策行為和獲得收益的學(xué)習(xí)進(jìn)行決策，能夠最大化認(rèn)知用戶的累積接入次數(shù)和時(shí)間[14]。根據(jù)強(qiáng)化學(xué)習(xí)理論[8]，UCB算法分為探索(Exploration)和利用(Exploitation)兩個(gè)階段，該算法能夠在探索學(xué)習(xí)的同時(shí)預(yù)測(cè)下一時(shí)隙最可用的信道，并根據(jù)利用階段的接入結(jié)果更新相應(yīng)信息，因此能夠?yàn)槎滩ㄕJ(rèn)知用戶選擇最優(yōu)信道提供依據(jù)。

UCB算法在每個(gè)時(shí)隙更新索引值Bt,k,Tk(t)，并返回使該索引值最大的信道索引號(hào)k。索引值Bt,k,Tk(t)的計(jì)算方法為

(1)

(2)

式中：am∈{1,2,…,K}為短波認(rèn)知用戶在第m時(shí)隙使用UCB算法選取感知的信道索引號(hào)；l{am=k}為邏輯表達(dá)式，當(dāng)am=k時(shí)，其值為1，反之為0；Tk(t)為在前t個(gè)時(shí)隙內(nèi)信道k被該算法選擇的次數(shù)。

At,k,Tk(t)為索引值Bt,k,Tk(t)的置信因子，即

(3)

該UCB算法被稱為UCB1算法，其中，α為探索系數(shù)，具體算法如下。

輸入：K，a,{a0,r0,a1,r1,…,at-1,rt-1}

輸出：at

ift

at=t+1

else

at=arg maxk(Bt,k,Tk(t))

end if

returnat

2.2 改進(jìn)UCB1算法

定義信道質(zhì)量差異因子βt為

(4)

(5)

(6)

(7)

(8)

為避免由于學(xué)習(xí)不充分造成的信道誤判，導(dǎo)致無法收斂于最優(yōu)信道，陷入局部最優(yōu)值，應(yīng)當(dāng)在進(jìn)行可觀的N0次接入后再進(jìn)行信道數(shù)量縮減操作。改進(jìn)UCB1算法的具體流程如圖2所示，當(dāng)有新的業(yè)務(wù)傳輸請(qǐng)求時(shí)，若t

圖2 改進(jìn)UCB1算法流程圖

3 評(píng)價(jià)準(zhǔn)則

(9)

3.1 機(jī)器學(xué)習(xí)下的評(píng)價(jià)準(zhǔn)則

在機(jī)器學(xué)習(xí)領(lǐng)域，短波認(rèn)知用戶如果選擇最優(yōu)信道(即空閑概率最高的信道)進(jìn)行數(shù)據(jù)傳輸，此時(shí)對(duì)其他短波用戶產(chǎn)生干擾的可能性較小，因而可以使用最優(yōu)信道選擇比率Poptimal作為準(zhǔn)則評(píng)估學(xué)習(xí)算法的性能。

(10)

同樣，從機(jī)器學(xué)習(xí)的角度，如果短波認(rèn)知用戶每個(gè)時(shí)隙選擇最優(yōu)信道，則認(rèn)為能夠取得最佳性能。因此與最優(yōu)信道選擇策略相比，使用改進(jìn)UCB1算法進(jìn)行信道選擇，短波認(rèn)知用戶的累積接入損失為Rt=tμmax-Wt，其中，μmax=max{μ1,μ2,…,μK}。因此，在t足夠大時(shí)，短波認(rèn)知用戶的平均累積接入損失為

(11)

式中：θmax=max{θ1,θ2,…,θK}。

3.2 認(rèn)知無線電下的評(píng)價(jià)準(zhǔn)則

在短波中應(yīng)用認(rèn)知無線電，此時(shí)評(píng)估改進(jìn)UCB1算法的準(zhǔn)則與機(jī)器學(xué)習(xí)領(lǐng)域不同[9,16]。短波認(rèn)知用戶不關(guān)心選擇的信道是否為最優(yōu)信道，而是選擇的信道在當(dāng)前時(shí)刻是否空閑，因此最優(yōu)信道選擇比率Poptimal無法用來衡量認(rèn)知背景下該算法的性能，此時(shí)用成功傳輸率Psuccess進(jìn)行表征。

(12)

式中：Wt為短波認(rèn)知用戶進(jìn)行信道選擇后接入的累積收益。

在機(jī)器學(xué)習(xí)準(zhǔn)則下，短波認(rèn)知用戶趨向接入最優(yōu)信道，由于最優(yōu)信道并非任意時(shí)刻空閑，非最優(yōu)信道在未被占用時(shí)也能接入進(jìn)行傳輸，因此累積接入損失Rt并未真實(shí)反映短波認(rèn)知用戶損失的傳輸機(jī)會(huì)?？紤]機(jī)會(huì)式頻譜接入OSA(Opportunistic Spectrum Access)策略，此時(shí)認(rèn)知用戶能夠獲得信道先驗(yàn)信息，只要信道組中所有信道并非完全被占用，短波認(rèn)知用戶就能接入未被占用的信道進(jìn)行數(shù)據(jù)傳輸，最大化信道利用率。引入邏輯符號(hào)St表示信道組中信道狀態(tài)的整體情況。

(13)

(14)

4 仿真分析

4.1 機(jī)器學(xué)習(xí)下的性能分析

圖3為三種算法的最優(yōu)信道選擇比率Poptimal，由于隨機(jī)信道選擇算法為非學(xué)習(xí)算法，無法利用歷史信息進(jìn)行學(xué)習(xí)決策，所以其Poptimal最低，約為12.5%(即1/K)；原始UCB1算法的Poptimal隨時(shí)隙t增長(zhǎng)并趨于穩(wěn)定，在t=5 000時(shí)略高于90%，收斂速度較慢，在仿真時(shí)間內(nèi)最高可達(dá)94.18%；而改進(jìn)UCB1算法的Poptimal最高，由于該改進(jìn)算法能夠根據(jù)學(xué)習(xí)的信道情況主動(dòng)縮減探索信道范圍，調(diào)整探索系數(shù)，在t=620時(shí)Poptimal達(dá)到90%，收斂于最優(yōu)信道的速度最快，并且隨著時(shí)間的增長(zhǎng)Poptimal趨于100%。

圖3 最優(yōu)信道選擇比率Poptimal

因?yàn)殡S機(jī)信道選擇算法的累積接入損失Rt較大，只給出改進(jìn)UCB1算法和原始UCB1算法Rt的對(duì)比，如圖4所示。由于所選信道并非任意時(shí)刻空閑，Rt反映了短波認(rèn)知用戶與其他短波用戶產(chǎn)生沖突的可能，Rt越高意味著較最優(yōu)信道選擇產(chǎn)生的錯(cuò)誤越多，產(chǎn)生沖突的可能越大，浪費(fèi)的傳輸機(jī)會(huì)越多。從圖4可知，改進(jìn)UCB1算法具有更低的Rt，在t=104時(shí)僅為80.5，較原始UCB1算法減少47.56%，可見改進(jìn)算法能夠更好地找到最優(yōu)信道，減少累積接入損失。UCB算法通過選擇最優(yōu)信道和周期性的探索其他信道，從而對(duì)信道情況進(jìn)行更好的學(xué)習(xí)，因此在圖4的累積接入損失Rt中會(huì)出現(xiàn)輕微的跳躍。

圖4 累積接入損失Rt

4.2 認(rèn)知背景下的性能分析

圖5為三種算法的成功傳輸率Psuccess，同樣隨機(jī)信道選擇算法的Psuccess最低，約為54%；原始UCB1算法的Psuccess隨時(shí)隙t增長(zhǎng)并趨于穩(wěn)定，在仿真時(shí)間內(nèi)最高可達(dá)88.34%；而改進(jìn)UCB1算法能夠動(dòng)態(tài)調(diào)整探索信道數(shù)量和探索系數(shù)，保留空閑概率較高的信道，因此其Psuccess最高，最高可達(dá)91.31%，并隨時(shí)間增長(zhǎng)逐漸趨于90%(仿真條件中信道最高空閑概率為90%)。由于該算法選擇的最優(yōu)信道中，并非每一時(shí)刻都是空閑，對(duì)比圖3中的Poptimal可知，改進(jìn)UCB1算法的Psuccess低于Poptimal，并且空閑概率較小的信道對(duì)成功傳輸率影響不大，通過剔除空閑概率較小的信道，在時(shí)隙t較小時(shí)，就能達(dá)到較高的成功傳輸率。

圖5 成功傳輸率Psuccess

圖6 對(duì)比OSA的累積接入損失

5 結(jié)束語

在短波中應(yīng)用認(rèn)知無線電，能夠提高短波頻段頻譜利用率，減少?zèng)_突碰撞的幾率。結(jié)合強(qiáng)化學(xué)習(xí)理論，本文提出基于UCB的短波認(rèn)知信道選擇算法，采用多種指標(biāo)分別在機(jī)器學(xué)習(xí)和認(rèn)知背景下驗(yàn)證算法性能。仿真結(jié)果表明，該算法能夠有效提高信道接入成功傳輸率并降低累積接入損失，具有良好的通信效果。但是隨著短波寬帶技術(shù)的發(fā)展，在每個(gè)時(shí)隙只選擇一個(gè)信道無法滿足寬帶傳輸?shù)男枨螅虼巳绾卫肬CB算法在每個(gè)時(shí)隙選擇多個(gè)可用信道進(jìn)行寬帶傳輸是下一步研究的重點(diǎn)。

參考文獻(xiàn)：

[1]姚富強(qiáng), 劉忠英, 趙杭生.短波電磁環(huán)境問題研究——對(duì)認(rèn)知無線電等通信技術(shù)再認(rèn)識(shí)[J].中國(guó)電子科學(xué)研究院學(xué)報(bào), 2015, 10(4):156-161.

YAO Fuqiang, LIU Zhongying, ZHAO Hangsheng. Study on the Issues of HF Electromagnetic Environment[J]. Journal of CAEIT, 2015, 10(2):156-161.

[2]WILLIAM F. Summary: Wideband HF Channel Availability Working Group[R/OL]. http://www.hfindustry.com/meetings_presentations/presentation_materials/2015_feb_hfia/presentations/4-HFIAWidebandHF.pdf.

[3]BRAM W. Wide Band HF UK Spectrum Utilisation [R/OL]. http://www.hfindustry.com/ca_meetings/presentation_materials/2015_feb_wb/2-WideBandHFSpectrumAvailability.pdf.

[4]KOSKI E, FURMAN W N. Applying Cognitive Radio Concepts to HF Communications[C]// IET 11th International Conference on Ionospheric Radio Systems and Techniques. New York:IEEE Press, 2009:1-6.

[5]閆建峰,郭銳,田驊. 基于認(rèn)知的短波動(dòng)態(tài)頻譜孔洞率與時(shí)效性研究[J]. 艦船科學(xué)技術(shù), 2011, 33(6):56-60.

YAN Jianfeng，GUO Rui，TIAN Hua. Research on Spectrum Hole Probability and Effectiveness for a Given Period of Time of Dynamic Spectrum of HF Channel Based on Cognition[J]. Ship Science and Technology, 2011, 33(6):56-60.

[6] ZHU Y C, WANG P, LU J X. A New HF Radio Prototype Based on Dynamic Spectrum Anti-Jamming Concept[C]// 6th International ICST Conference on Communications and Networking in China. New York: IEEE Press, 2011:955-958.

[7]彭開志,劉進(jìn),王書誠(chéng).基于頻譜檢測(cè)的短波認(rèn)知用戶性能優(yōu)化[J].鐵道學(xué)報(bào), 2012, 34(4): 57-63.

PENG Kaizhi, LIU Jin, WANG Shucheng. Optimization of HF Secondary User Performance through Spectrum Sensing[J]. Journal of the China Railway Society, 2012, 34(4): 57-63.

[8] SUTTON R S, BARTO A G. Reinforcement Learning[M].Cambridge:The MIT Press, 1998.

[10] JIANG T, GRACE D, MITCHELL P D. Efficient Exploration in Reinforcement Learning-based Cognitive Radio Spectrum Sharing[J].IET Communications, 2011, 10(5):1 309-1 317.

[11] ROBBINS H. Some Aspects of the Sequential Design of Experiments[J]. Bulletin of the American Mathematical Society, 1952,58(5): 527-535.

[12]趙林靖, 茍俊杰. 基于MAB模型的多信道選擇與接入算法研究[D]. 西安: 西安電子科技大學(xué), 2014.

[13] AGRAWAL R. Sample Mean Based Index Policies with O(log n) Regret for the Multi-armed Bandit Problem[J]. Advances in Applied Probability,1995,27(4):1 054-1 078.

[14] JOUINI W, ERNST D, MOY C, et al. Multi-armed Bandit Based Policies for Cognitive Radio’s Decision Making Issues[C]// 3rd International Conference on Signals, Circuits and Systems (SCS). New York: IEEE Press, 2009:1-6.

[15] AUER P, Cesa-Bianchi N, FISCHER P. Finite Time Analysis of the Multi-armed Bandit Problem[J]. Machine Learning, 2002,47(2-3):235-256.

[16] ROBERT C, MOY C, WANG C X. Reinforcement Learning Approaches and Evaluation Criteria for Opportunistic Spectrum Access[C]// IEEE International Conference on Communications. New York: IEEE Press,2014:1 508-1 513.