黃川,鄭寶玉
(1.南京郵電大學(xué)信號(hào)處理與傳輸研究院,江蘇南京210003; 2.福建師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州350007)
一種新型認(rèn)知無(wú)線電信道狀態(tài)的預(yù)測(cè)算法
黃川1,2,鄭寶玉1
(1.南京郵電大學(xué)信號(hào)處理與傳輸研究院,江蘇南京210003; 2.福建師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州350007)
基于部分可測(cè)馬爾科夫決策過(guò)程(POMDP)模型,結(jié)合認(rèn)知無(wú)線電頻譜偵測(cè)技術(shù),提出一種新的多無(wú)線電多信道環(huán)境下認(rèn)知無(wú)線電檢測(cè)信道算法.該算法通過(guò)對(duì)信道狀態(tài)歷史信息的分析,推導(dǎo)出信道信念狀態(tài)的初始分布和轉(zhuǎn)移概率;然后,以此選擇出具有最佳回報(bào)的信道以供接入,使得次用戶能獲得最佳帶寬回報(bào),從而達(dá)到提高信道利用率的目的.仿真結(jié)果表明,算法獲得相對(duì)于傳統(tǒng)認(rèn)知無(wú)線電頻譜接入方式更高的信道帶寬,并接近無(wú)漏檢和虛警現(xiàn)象的理想情況,有效地提高了信道利用率.
認(rèn)知無(wú)線電;多無(wú)線電;多信道;馬爾科夫模型;頻譜偵測(cè)
新興的認(rèn)知無(wú)線技術(shù)為解決非授權(quán)用戶有效利用閑置頻譜,提高頻譜利用率提供了可能[1].然而,由于網(wǎng)絡(luò)的未知性,使得次用戶很難獲得不同信道的精確狀態(tài),而必須依據(jù)當(dāng)前的不完全狀態(tài)信息做出決策.因此,對(duì)網(wǎng)絡(luò)的未知性采用部分可測(cè)馬爾科夫模型(POMDP)建立信道狀態(tài)信息模型,并以此做出選擇最佳信道的決策具有合理性[2-3〗.文[2]提出了一種基于POMDP模型的認(rèn)知MAC(Media Access Control)協(xié)議,解決了異構(gòu)網(wǎng)絡(luò)中信道選擇決策問(wèn)題.文[3]在文[2]的基礎(chǔ)上,提出更為具體的以POMDP模型為基礎(chǔ)的頻譜檢測(cè)策略、信道選擇決策,以及接入策略的聯(lián)合優(yōu)化方案.上述研究仍存在著兩個(gè)問(wèn)題:其一是信道狀態(tài)間的轉(zhuǎn)移概率是事先給定的,無(wú)法根據(jù)實(shí)際情況變化;另一個(gè)是只有一個(gè)無(wú)線電收發(fā)器,使得用戶不得不經(jīng)常中斷數(shù)據(jù)傳輸過(guò)程轉(zhuǎn)而檢測(cè)授權(quán)用戶(或稱為主用戶)是否出現(xiàn),從而浪費(fèi)信道帶寬.針對(duì)上述問(wèn)題,本文通過(guò)建立以POMDP模型為基礎(chǔ)的多無(wú)線電系統(tǒng)[4]模型,提出一種與認(rèn)知無(wú)線電頻譜偵測(cè)技術(shù)相結(jié)合的在異構(gòu)網(wǎng)絡(luò)環(huán)境下的新型信道狀態(tài)預(yù)測(cè)算法.
假設(shè)網(wǎng)絡(luò)中每個(gè)次用戶配備兩個(gè)獨(dú)立的,具有認(rèn)知無(wú)線電功能的無(wú)線電收發(fā)設(shè)備.當(dāng)次用戶從網(wǎng)絡(luò)A向不同的網(wǎng)絡(luò)B移動(dòng)時(shí),其中一個(gè)無(wú)線電保持與網(wǎng)絡(luò)A的連接,稱為工作無(wú)線電;而另一個(gè)無(wú)線電處于認(rèn)知偵測(cè)狀態(tài),則稱為觀測(cè)無(wú)線電.由觀測(cè)無(wú)線電偵測(cè)結(jié)果組成的信道狀態(tài)歷史信息,由離散觀測(cè)時(shí)間序列DT內(nèi)的一系列行為a、回報(bào)r、觀測(cè)狀態(tài)z和應(yīng)答狀態(tài)k的序列h組成.即
假設(shè)在網(wǎng)絡(luò)B中存在N(0 其中:M=2N,且Si(t)=s1(t)…sN(t),sj(t)∈{0,1},每個(gè)信道的帶寬表示為WB,j,j=1,…,N.由于環(huán)境的未知性,設(shè)次用戶可偵測(cè)到的信道數(shù)目n≤N. 一個(gè)典型POMDP模型可用六元組表示為〈S,A,T,R,Z,O〉[5].其中:S為系統(tǒng)中有限信道狀態(tài)集合;A為次用戶采取的有限行為(觀測(cè),接入)的集合,用A={a1,a2}表示;T表示當(dāng)前信道狀態(tài)s在行為a的作用下變?yōu)閟’的轉(zhuǎn)移函數(shù),記為T(mén)(s,a,s′);R為瞬時(shí)回報(bào)函數(shù),記為R(s,a);Z為用戶對(duì)系統(tǒng)狀態(tài)的有限觀測(cè)狀態(tài)集合;O為觀測(cè)函數(shù),記為O(s′,a,z).此外,ki(t)∈{0,1}表示次用戶在執(zhí)行行為a后得到的應(yīng)答.此處,設(shè)應(yīng)答是無(wú)錯(cuò)的. 由于S是未知的,采用信念狀態(tài)空間B來(lái)表示信道狀態(tài)的概率分布,有 其中:b(s)表示信道處于狀態(tài)s的概率.根據(jù)Bayes法則,可得在t+1時(shí)隙信念狀態(tài)更新的表達(dá)式為 式(4)中:ζ為折扣因子,0<ζ≤1;P為條件轉(zhuǎn)移的概率函數(shù). 以POMDP模型為基礎(chǔ)的多無(wú)線電多信道,其信道狀態(tài)預(yù)測(cè)算法(CSPA)可分為如下兩個(gè)階段. (1)觀測(cè)階段.通過(guò)一段時(shí)間的觀測(cè),將獲得的系統(tǒng)環(huán)境信息記錄到h中,期間的執(zhí)行接入行為僅為向相應(yīng)頻段發(fā)送探測(cè)包,并未真正執(zhí)行信道接入操作.(2)預(yù)測(cè)階段.通過(guò)h,對(duì)信道的初始狀態(tài)分布、狀態(tài)轉(zhuǎn)移概率和觀測(cè)概率進(jìn)行估計(jì),并利用啟發(fā)式算法找出具有最大折扣回報(bào)的策略π′,在接入時(shí)隙次用戶按其接入.在預(yù)測(cè)階段,對(duì)次用戶來(lái)說(shuō),信道狀態(tài)個(gè)數(shù)M是N的指數(shù),要計(jì)算出最大折扣回報(bào)是很困難的.然而,實(shí)際網(wǎng)絡(luò)中的信道一般是獨(dú)立的,有如下定理. 定理1 假設(shè)n個(gè)獨(dú)立信道,有Λ=[λ1,…,λn],其中λi為信道i在某個(gè)時(shí)隙t開(kāi)始時(shí)刻所處的狀態(tài),則L是信道狀態(tài)Si(t)的充分統(tǒng)計(jì)量. 證明 參見(jiàn)文[6]. 根據(jù)定理1,POMDP模型中信念狀態(tài)空間B={b(Si(t)),i=1,…,n}可簡(jiǎn)化為B={b(sk(t)),k= 1,…,n},從而信念空間維度由2n降為n.對(duì)于每個(gè)信道i來(lái)說(shuō),其最大折扣回報(bào)表達(dá)式為 式(7)中:q(θi)為θi的先驗(yàn)分布.對(duì)于次用戶來(lái)說(shuō),信道i處于空閑或忙狀態(tài)是等可能的,故先驗(yàn)分布q (θi)為[0,1]上的均勻分布,有 用θi對(duì)h的條件期望E{θi|h}估計(jì)信道狀態(tài)為空閑的概率,有 信道狀態(tài)轉(zhuǎn)移概率T(s,a,s′)也是未知的.設(shè)psa,s′為信道i執(zhí)行行為a后,狀態(tài)從s轉(zhuǎn)移到s′的轉(zhuǎn)移概率.其中:s,s′∈{0,1),向量Pi=(psa,s′k,a∈A,k=1,…,|S|).在T個(gè)時(shí)隙中信道i的狀態(tài)從s到s′的轉(zhuǎn)移次數(shù)向量φi=(φsa,s′,a∈A,k=1,…,|S|).在執(zhí)行行為a條件下,Pi服從Dirichlet分布,(psa,s′,…, k1 當(dāng)信道狀態(tài)轉(zhuǎn)移后,向量φ′i=φi+δas,s′.其中:|δas,s′|=|S|,且δas,s′[s′=j]=1,其余為0.用期望值估計(jì)轉(zhuǎn)移概率,有 在頻譜偵測(cè)中,由于存在漏檢和虛警現(xiàn)象,因此對(duì)于次用戶來(lái)說(shuō),所觀測(cè)到的信道狀態(tài)并不一定與信道真實(shí)狀態(tài)相符.假設(shè)信道為AWGN,pd為檢測(cè)概率,pf為虛警概率,且采用能量檢測(cè)器的頻譜偵測(cè)方法[2],則有 由于信道真實(shí)狀態(tài)的未知性,次用戶可根據(jù)執(zhí)行行為a后得到的應(yīng)答信息k,來(lái)驗(yàn)證觀測(cè)狀態(tài)的正確與否,有 從而可求出次用戶可獲得的最大折扣回報(bào).即 為了測(cè)試CSPA算法的性能,引入隨機(jī)接入算法(Random Access A lgo rithm,RAA)[2]與之比較.在RAA算法中,次用戶在剛進(jìn)入未知新網(wǎng)絡(luò)時(shí),不使用信道狀態(tài)預(yù)測(cè)方法,而是通過(guò)每一接入時(shí)隙開(kāi)始時(shí)刻的偵測(cè)來(lái)獲知可以采用的若干信道,并隨機(jī)選擇其中一個(gè)接入.為了體現(xiàn)公平性,設(shè)新網(wǎng)絡(luò)中每一信道的帶寬均為1個(gè)單位,且每個(gè)時(shí)隙為1個(gè)單位時(shí)間.設(shè)折扣因子ζ=1.同時(shí)比較CSPA算法與理想情況下所獲得的信道帶寬回報(bào),即與不存在漏檢和虛警現(xiàn)象條件下的對(duì)比. 信噪比(RSN)和檢測(cè)樣本數(shù)目(L)的不同時(shí),虛警率Pf值對(duì)檢測(cè)率Pd的影響,如圖1所示.從圖1中可知,當(dāng)RSN=10,L=5時(shí),虛警率Pf的變化對(duì)檢測(cè)率Pd的影響最小,且Pd值在0.9~1.0之間變動(dòng).因此,設(shè)Pd=0.95.仿真中,算法對(duì)10 000個(gè)隨機(jī)信道進(jìn)行運(yùn)算,然后取回報(bào)的平均值(單位每時(shí)隙). CSPA算法與RAA算法的對(duì)比,如圖2所示.圖2中:觀測(cè)時(shí)隙TO=30,接入時(shí)隙TA=30,信道數(shù)目n= 2.從圖2的平均回報(bào)值(δ)曲線可以看到,CSPA算法在剛開(kāi)始的時(shí)隙獲得約0.55的平均回報(bào)值,在第14個(gè)接入時(shí)隙上升至0.73,而后增長(zhǎng)平穩(wěn),逐漸趨近于0.74; RAA算法每個(gè)時(shí)隙的平均回報(bào)值穩(wěn)定在0.5左右,在理想情況下,其平均回報(bào)值穩(wěn)定在0.755左右. 從圖2的平均回報(bào)值百分比(φ)曲線可以看到,CSPA算法能獲得的平均回報(bào)值比RAA算法平均多出約43%.表明次用戶采用CSPA算法,在每個(gè)時(shí)隙都能夠取得最佳的接入策略,因此獲得的信道帶寬平均回報(bào)優(yōu)于采用傳統(tǒng)認(rèn)知無(wú)線電隨機(jī)頻譜接入方式.但是,由于頻譜偵測(cè)中存在漏檢和虛警現(xiàn)象,使得算法與無(wú)漏檢和虛警現(xiàn)象存在的理想值有一定的偏差. 采用不同的觀測(cè)時(shí)隙值來(lái)比較CSPA算法和RAA算法所獲得的平均回報(bào)值,結(jié)果如圖3所示.從圖3中可以看到,觀測(cè)時(shí)隙分別為30,100時(shí),CSPA算法所獲得的平均回報(bào)值略有差異.如果在觀測(cè)階段觀測(cè)越充分(觀測(cè)時(shí)隙越長(zhǎng)),CSPA算法所獲得的初始信念狀態(tài)和狀態(tài)轉(zhuǎn)移概率越準(zhǔn)確,其獲得的回報(bào)越精確.然而,觀測(cè)時(shí)隙具體的取值應(yīng)根據(jù)實(shí)際情況而定,這也是下一步研究工作的重點(diǎn).從圖中3可以看到,RAA算法由于沒(méi)有觀測(cè)時(shí)隙,故其在不同觀測(cè)時(shí)隙條件下,其所獲得的平均回報(bào)值變化不大,基本穩(wěn)定在0.5左右. 圖3 不同觀測(cè)時(shí)隙值對(duì)算法的影響 Fig.3 Effect of different valuesof observation time slo ts on the algo rithm 圖1 虛警率和檢測(cè)率的關(guān)系Fig.1 Relationship of p robability of false alarm and detection 圖2 CSPA算法與RAA算法的對(duì)比Fig.2 Comparison of CSPA and RAA 信道數(shù)目對(duì)算法的影響,如圖4所示.從圖4中可以看出,當(dāng)可被偵測(cè)到的信道數(shù)目由2增加到12時(shí),CSPA算法獲得的平均回報(bào)值有顯著的提升.n=2時(shí)的平均回報(bào)值趨近于0.74,而當(dāng)n=12時(shí),平均回報(bào)值趨近于0.98.這是因?yàn)榭捎玫男诺罃?shù)目越多,CSPA算法在每個(gè)時(shí)隙可能獲得的最大回報(bào)機(jī)會(huì)越大,從而獲得的平均回報(bào)越多.由于RAA算法信道選擇的隨機(jī)性,信道數(shù)目的增多對(duì)其影響不大,基本維持在0.5左右.如果不考慮漏檢和虛警現(xiàn)象對(duì)系統(tǒng)的影響,當(dāng)信道數(shù)目足夠大時(shí),其獲得的平均回報(bào)值能達(dá)到1.由此說(shuō)明,CSPA算法更適用于多信道環(huán)境. 圖4 信道數(shù)目對(duì)算法的影響Fig.4 Effect of different numbers of channel on the algorithm 文中基于POMDP模型,提出了一種在多無(wú)線電多信道環(huán)境下帶有認(rèn)知無(wú)線電頻譜偵測(cè)功能的信道狀態(tài)預(yù)測(cè)算法(CSPA),以實(shí)現(xiàn)用戶在多信道切換時(shí)能得到最佳信道帶寬回報(bào).仿真結(jié)果表明,CSPA算法獲得相對(duì)于傳統(tǒng)認(rèn)知無(wú)線電頻譜接入方式更高的信道帶寬,并接近無(wú)漏檢和虛警現(xiàn)象的理想情況,從而有效地提高了信道利用率. [1] AKYILD IZ I,LEEW Y,VURAN M C,et al.A survey on spectrum management in cognitive radio netwo rks[J]. IEEE Communications Magazine,2008,46(4):40-48. [2] ZHAO Q,TONGL,SWAM IA,et al.Decentralized cognitive MAC fo r opportunistic spectrum access in ad hoc networks:A POMDP framework[J].IEEE Journal on Selected A reas in Communications,2007,25(3):589-600. [3] CHEN Y X,ZHAO Q,SWAM IA.Joint design and separation p rincip le for oppo rtunistic spectrum access in the p resence of sensing errors[J].IEEE Trans on Information Theo ry,2008,54(5):2053-2071. [4] PIAO G,DAV ID K.M ulti-standard radio resource management fo r integrated voice and data services[C]∥IEEE 65th Vehicular Technology Conference.Dublin:IEEE,2007:990-995. [5] KAELBL ING L P,L ITTMAN M L,CASSANDRA A R.Planning and acting in partially observable stochastic domains[J].A Rtificial Intelligence,1998,101(1):99-134. [6] SMALLWOOD R D,SOND IK E J.The op timal control of partially observable Markov p rocesses over a finite ho rizon[J].Operations Research,1973,21(5):1071-1088. A Novel Channel State Prediction Algorithm of Cogn itive Radio HUANG Chuan1,2,ZHENGBao-yu1 Based on the theory of partially observable Markov decision p rocess(POMDP)model,a novel cognitive radio channel sensing algo rithm integrated w ith spectrum sensing technique for cognitive radio under multi-radio multi-channel enviroment.By the analysisof the channel state historical information,the initial distribution of the belief state and transition p robability is derived and the channelw ith op timal reward is selected fo r unlicensed user to imp rove the spectrum utilization.The simulation results demonstrate that the p roposed algorithm has better performance than classical algorithm s. cognitive radio;multi-radio;multi-channel;Markov model;spectrum sensing TN 014;TN 914.4 A (責(zé)任編輯:黃仲一 英文審校:吳逢鐵) 1000-5013(2010)05-0521-05 2009-11-29 鄭寶玉(1945-),男,教授,博士生導(dǎo)師,主要從事無(wú)線通信與網(wǎng)絡(luò)信號(hào)處理的研究.E-mail:zby@njup t. edu.cn. 國(guó)家自然科學(xué)基金資助項(xiàng)目(60972039)2 典型的POMDP模型
3 信道預(yù)測(cè)算法及收斂性證明
4 仿真結(jié)果及分析
5 結(jié)束語(yǔ)
(1.Institute of Signal Processing and Transmission,Nanjing University of Posts and Telecommunications,Nanjing 210003,China; 2.School of Mathematics and Computer Science,Fujian Normal University,Fuzhou 350007,China)