尹之杰 汪一鳴 吳 澄
(蘇州大學(xué)軌道交通學(xué)院,蘇州,215131)
隨著無(wú)線通信業(yè)務(wù)的不斷拓展和增長(zhǎng),頻譜資源的匱乏已成為現(xiàn)階段面臨的一個(gè)嚴(yán)峻問題。為此,美國(guó)聯(lián)邦通信委員會(huì)(FCC)在2002年成立了頻譜政策特別工作組,指出現(xiàn)有的固定頻譜分配方式已成為無(wú)線通信發(fā)展的阻礙。隨著科技進(jìn)步以及地區(qū)因素變化,這些被固定分配的頻段并非全天滿負(fù)荷運(yùn)行,甚至有些頻段已極少或不再被使用,已造成嚴(yán)重的資源浪費(fèi)。例如美國(guó)已被棄用的電視頻段698~806 MHz[1]。針對(duì)該問題,Mitola曾在博士論文中提出了認(rèn)知無(wú)線電的概念[2],Haykin對(duì)認(rèn)知無(wú)線電做了進(jìn)一步的研究,提出了在認(rèn)知無(wú)線電中有待發(fā)展的各個(gè)方面,并指出有效的頻譜管理對(duì)提升頻譜利用率有至關(guān)重要的作用[3]。
現(xiàn)階段頻譜管理模型的研究分為集中式和分布式兩種[4]。集中式模型由基站獨(dú)立感知頻譜,對(duì)頻譜空洞統(tǒng)一分配。該模型優(yōu)點(diǎn)是基站收集全局信息獨(dú)立工作,不受其他信息干擾,非授權(quán)用戶不需要具備感知頻譜的能力。缺點(diǎn)是基站內(nèi)部功能復(fù)雜,需要強(qiáng)大的計(jì)算能力[5]。在分布式模型中,基站與用戶協(xié)商合作,進(jìn)行頻譜空洞分配。這種模型可以顯著降低基站負(fù)載,缺點(diǎn)是基站與用戶須遵循固有的協(xié)商策略,這些策略較難制定[6-7],網(wǎng)絡(luò)內(nèi)的非授權(quán)用戶須具備感知頻譜和用戶間協(xié)作的能力。
在頻譜管理模型中,研究的一個(gè)重點(diǎn)是信道分配。針對(duì)這一問題,研究者提出了大量的方法來(lái)提高非授權(quán)用戶的服務(wù)質(zhì)量[8]。研究普遍選取吞吐率或系統(tǒng)傳輸成功率作為一種系統(tǒng)性能的評(píng)判標(biāo)準(zhǔn)[9]。但在授權(quán)用戶頻發(fā)的認(rèn)知無(wú)線網(wǎng)絡(luò)中,非授權(quán)用戶需要進(jìn)行頻譜切換以避免干擾其通信,但頻繁的頻譜切換不僅降低自身的吞吐率,還會(huì)造成許多其他的開銷[10-14]。所以信道切換次數(shù)也應(yīng)是服務(wù)質(zhì)量的重要評(píng)判標(biāo)準(zhǔn)。
增強(qiáng)學(xué)習(xí)是解決頻譜感知、接入和共享問題的一種有效途徑。在認(rèn)知無(wú)線網(wǎng)絡(luò)環(huán)境的信道分配過(guò)程中應(yīng)用增強(qiáng)學(xué)習(xí)已被眾多文獻(xiàn)證明可以提高非授權(quán)用戶的成功傳輸率[15-18]。在具體建立增強(qiáng)學(xué)習(xí)模型的過(guò)程中,有兩個(gè)關(guān)鍵問題。一是如何定義環(huán)境狀態(tài)和智能體動(dòng)作。復(fù)雜的狀態(tài)動(dòng)作集會(huì)導(dǎo)致計(jì)算量龐大甚至維數(shù)災(zāi)難[19]。二是智能體如何在探索環(huán)境和開采知識(shí)之間獲得平衡,選擇生成問題最優(yōu)解的最佳度量標(biāo)準(zhǔn)。該問題在機(jī)器學(xué)習(xí)領(lǐng)域已被深入研究[20],但在認(rèn)知無(wú)線電領(lǐng)域中仍值得探討。
對(duì)于上述問題,本文采用集中式頻譜管理模型,在對(duì)信道分配的研究中,以降低模型難度和提升非授權(quán)用戶服務(wù)質(zhì)量為目標(biāo),提出基于兩步?jīng)Q策的新型增強(qiáng)學(xué)習(xí)認(rèn)知基站。首先,通過(guò)對(duì)狀態(tài)動(dòng)作集的充分利用,在原有的決策過(guò)程中,增加了一次以降低信道切換次數(shù)的為目的的決策。該步?jīng)Q策決定認(rèn)知基站是否需要切換信道提供服務(wù)。當(dāng)決定切換后,再進(jìn)行第二步信道選擇決策。其次,本文引入ε-greedy方法對(duì)兩步?jīng)Q策進(jìn)行有效的優(yōu)化,避免貪婪選擇落入局部最優(yōu)。實(shí)驗(yàn)證明,基于此算法的認(rèn)知基站在提高非授權(quán)用戶服務(wù)質(zhì)量方面具有有效的作用。
圖1 認(rèn)知基站與非授權(quán)用戶通信的一個(gè)時(shí)槽內(nèi)部的時(shí)間分配結(jié)構(gòu)的3種不同情況Fig.1 Slot structure of the transmission between cognitive base station and secondary user
本文提出一種基于機(jī)器學(xué)習(xí)模型的新型認(rèn)知基站。其功能是在保障授權(quán)用戶的通信不受干擾的情況下,發(fā)現(xiàn)并分配頻譜空洞給覆蓋范圍內(nèi)的非授權(quán)用戶。采用集中式頻譜管理模式的認(rèn)知基站具有頻譜感知,頻譜決策和分配的功能。本文研究重點(diǎn)是頻譜決策和分配過(guò)程,所以認(rèn)知基站的頻譜感知功能被假設(shè)為理想,不存在錯(cuò)誤感知授權(quán)用戶行為的可能。在與非授權(quán)用戶通信的過(guò)程中,認(rèn)知基站采用時(shí)槽結(jié)構(gòu)的數(shù)據(jù)通信方式。在一個(gè)時(shí)槽Tslot內(nèi),認(rèn)知基站需在τsensing時(shí)間內(nèi)感知該信道上是否有授權(quán)用戶的存在。之后根據(jù)授權(quán)用戶的占用情況,在剩余時(shí)間Tslot-τsensing內(nèi)做出與非授權(quán)用戶數(shù)據(jù)傳輸、命令其退避等待或者與其在另一條信道上重新建立連接的動(dòng)作。圖1描述了認(rèn)知基站與非授權(quán)用戶通信的一個(gè)時(shí)槽內(nèi)的時(shí)間結(jié)構(gòu)分配,圖2描述了認(rèn)知基站與非授權(quán)用戶通信的方式。
圖2 認(rèn)知基站與非授權(quán)用戶通信的方式Fig.2 Communication model of cognitive base station
授權(quán)用戶作為授權(quán)頻段主要使用者,占用信道的時(shí)間模型選擇對(duì)網(wǎng)絡(luò)環(huán)境的真實(shí)性有重要的影響。本文中采用連續(xù)時(shí)間馬爾科夫模型描述授權(quán)用戶對(duì)信道占用的情況,其到達(dá)或離開授權(quán)信道后經(jīng)過(guò)一段指數(shù)分布的時(shí)間后狀態(tài)轉(zhuǎn)移
(1)
式中,Tbusy代表授權(quán)用戶轉(zhuǎn)移到占用狀態(tài)(Busy)后經(jīng)過(guò)的時(shí)間,Tbusy代表其轉(zhuǎn)移到空閑狀態(tài)(Idle)后經(jīng)過(guò)的時(shí)間,均服從指數(shù)分布。λbusy,λidle是指數(shù)分布參數(shù)。授權(quán)用戶依概率p,q進(jìn)行狀態(tài)轉(zhuǎn)移的過(guò)程如圖3所示。
增強(qiáng)學(xué)習(xí)提供了一種在學(xué)習(xí)的過(guò)程中進(jìn)行決策的可能。智能體無(wú)須經(jīng)歷大量樣本的監(jiān)督訓(xùn)練之后才能工作。這樣的學(xué)習(xí)模式更適合在復(fù)雜的未知認(rèn)知無(wú)線電環(huán)境中應(yīng)用。
增強(qiáng)學(xué)習(xí)的基本模型為{S,A,T,R},其中S={s1,s2,…},代表環(huán)境狀態(tài)空間,A={a1,a2,…}代表智能體的動(dòng)作空間,T:s*a→s′代表當(dāng)前狀態(tài)下,采取動(dòng)作之后得到的下一狀態(tài),R:s*a*s′→r代表在當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作轉(zhuǎn)移到狀態(tài)s′時(shí)獲得的立即回報(bào)值r。
定義狀態(tài)和動(dòng)作是集中式頻譜管理高效工作的關(guān)鍵。本文以最大化非授權(quán)用戶吞吐率以及最小化頻譜切換次數(shù)兩個(gè)目標(biāo)進(jìn)行建模。
首先,將認(rèn)知基站視作智能體,其覆蓋范圍視作所處的環(huán)境。狀態(tài)空間S由基站正在提供服務(wù)的信道組成
ch={ch1,ch2,ch3,…,chM}
(2)
在當(dāng)前信道上考慮第一步?jīng)Q策,即是否需要更換信道提供服務(wù)。對(duì)于基站,在時(shí)刻的觀測(cè)狀態(tài)為
st=cht
(3)
基站在給定時(shí)間t時(shí)刻的狀態(tài)下,定義其動(dòng)作,有
at={k}t
(4)
將switch_channel表示為k1,代表基站更換服務(wù)信道,在該時(shí)槽內(nèi)完成狀態(tài)轉(zhuǎn)移之后,等待后續(xù)時(shí)槽開始后,重新感知信道的狀態(tài)。將stay表示為k2,代表認(rèn)知基站無(wú)論授權(quán)用戶狀態(tài)如何,均在原信道提供服務(wù)。有
kt∈k={switch_channel,stay}
(5)
立即回報(bào)值R選取是根據(jù)基站的決策對(duì)非授權(quán)用戶服務(wù)質(zhì)量的影響來(lái)決定的。立即回報(bào)值的給予如下所示:
(1)當(dāng)基站感知到服務(wù)信道chx上授權(quán)用戶活躍,選擇動(dòng)作k2保持在chx上服務(wù),下一狀態(tài)仍是chx,此時(shí)槽無(wú)法進(jìn)行數(shù)據(jù)傳輸,則給予-1的懲罰值。
(2)當(dāng)基站在本時(shí)槽內(nèi)沒有感知到服務(wù)信道chx上有授權(quán)用戶活躍,則進(jìn)行傳輸數(shù)據(jù),狀態(tài)轉(zhuǎn)移后仍是chx。將給予當(dāng)前狀態(tài)chx下選擇k2一個(gè)+1的獎(jiǎng)勵(lì)值。
(3)當(dāng)基站在感知到服務(wù)信道chx上授權(quán)用戶活躍,選擇動(dòng)作,進(jìn)入第二步?jīng)Q策后更換至信道chy提供服務(wù),認(rèn)知基站的狀態(tài)轉(zhuǎn)移至下一信道chy。此時(shí)認(rèn)知基站與非授權(quán)用戶在信道chy上重新建立連接并等待下一個(gè)時(shí)槽的開始,感知chy授權(quán)用戶狀態(tài)。如果活躍,記作一次失敗的切換,則給予-2的懲罰值。如果可以傳輸數(shù)據(jù),則記作一次成功的切換,給予+1的獎(jiǎng)勵(lì)回報(bào)值。設(shè)定-2的懲罰回報(bào)值是因?yàn)檎J(rèn)知基站在切換信道之后,仍無(wú)法繼續(xù)傳輸,將浪費(fèi)兩個(gè)時(shí)槽的傳輸時(shí)間。
定義完成后,就有n*2組狀態(tài)動(dòng)作組合。認(rèn)知基站使用Q表來(lái)累計(jì)每組狀態(tài)動(dòng)作組合的回報(bào)值,累計(jì)回報(bào)值的方法基于下式[21]
(6)
式中:st是基站在t時(shí)刻的服務(wù)信道,st+1是轉(zhuǎn)移之后的信道;at代表基站采取的動(dòng)作;α是學(xué)習(xí)速率;rt是立即回報(bào)值;γ,0≤γ≤1是折現(xiàn)因子,是未來(lái)的回報(bào)值對(duì)現(xiàn)在的影響程度。
在決策過(guò)程中,智能體依據(jù)的是其所維護(hù)Q表當(dāng)中的Q(st,at),即累計(jì)回報(bào)值。智能體根據(jù)這些值來(lái)做出決策π
(7)
式中:Eπ是在任意時(shí)刻智能體在所處信道chi上選擇動(dòng)作kt可獲得的立即回報(bào)值rt。智能體決策所期望的是全局獎(jiǎng)勵(lì)最大化。所以后續(xù)動(dòng)作也應(yīng)對(duì)目前的決策產(chǎn)生影響。由折現(xiàn)因子γ控制的目前決策對(duì)未來(lái)獎(jiǎng)勵(lì)的依賴程度也應(yīng)列入考慮。
當(dāng)認(rèn)知基站感知到在當(dāng)前信道上有授權(quán)用戶活躍,便在可行的動(dòng)作k1和k2中選取基于累計(jì)回報(bào)值的最優(yōu)決策,即第1步?jīng)Q策。當(dāng)選擇更換信道,目標(biāo)信道則根據(jù)其學(xué)習(xí)結(jié)果選取。即第2步?jīng)Q策。本文中的所有累計(jì)回報(bào)值均以矩陣的形式記錄在認(rèn)知基站之中。第1步?jīng)Q策比較當(dāng)前信道上離開或是停留的累計(jì)回報(bào)值。第2步?jīng)Q策比較在其他信道上停留的累計(jì)回報(bào)值。這樣Q表就得以充分利用。
在未知無(wú)線環(huán)境中,認(rèn)知基站選擇的動(dòng)作是否最優(yōu)是不確定的。選擇一個(gè)局部最優(yōu)信道而非全局最優(yōu)信道提供服務(wù),可能會(huì)在授權(quán)用戶突發(fā)時(shí),引起非授權(quán)用戶不必要的滯留或是頻譜切換。因此平衡增強(qiáng)學(xué)習(xí)的探索和利用的至關(guān)重要。本文使用ε-greedy算法來(lái)保證認(rèn)知基站探索環(huán)境的同時(shí)也保證決策的質(zhì)量。應(yīng)用ε-greedy之后的增強(qiáng)學(xué)習(xí)認(rèn)知基站在進(jìn)行第一步?jīng)Q策時(shí),認(rèn)知基站當(dāng)前狀態(tài)st下進(jìn)行是否離開當(dāng)前信道的決策。為防止滯留在局部最優(yōu)信道,做出第一步?jīng)Q策π1依據(jù)
(8)
式中ξ是一個(gè)在0~1之間服從均勻分布的隨機(jī)變量,在每次決策之前隨機(jī)選取。ε1,0≤ε1≤1是恒定的探索參數(shù)。
當(dāng)認(rèn)知基站選擇離開當(dāng)前信道,則需選擇切換目標(biāo)。此時(shí)應(yīng)以一定的概率去隨機(jī)選擇信道以避免貪婪地選擇局部最優(yōu)。做出第2步?jīng)Q策π2依據(jù)的是
(9)
式中Q(ch′,k2)是認(rèn)知基站在所有信道上選擇的累計(jì)回報(bào)值,η是一個(gè)在0~1之間服從均勻分布的隨機(jī)變量,在決策之前隨機(jī)選取,ε2,0≤ε2≤1是恒定探索參數(shù)。ch′是不包含當(dāng)前信道的其余所有信道的集合。當(dāng)認(rèn)知基站服務(wù)信道上沒有授權(quán)用戶出現(xiàn)時(shí),Q(s,k2)會(huì)一直增加。其大小可以作為信道優(yōu)劣的考量。
為了驗(yàn)證算法的有效性,本節(jié)針對(duì)算法的每一個(gè)模塊進(jìn)行測(cè)試。首先選定第一步?jīng)Q策的ε參數(shù)進(jìn)行測(cè)試,檢驗(yàn)第二步?jīng)Q策探索參數(shù)對(duì)系統(tǒng)性能的影響情況。之后以找出最佳ε參數(shù)組合為目的,給出對(duì)于ε值組合的嘗試。最后,在確定最佳的ε取值組合后,對(duì)認(rèn)知基站進(jìn)行訓(xùn)練,將本文提出算法的訓(xùn)練結(jié)果與隨機(jī)與輪詢分配模型、傳統(tǒng)增強(qiáng)學(xué)習(xí)模型[21]、貪婪的增強(qiáng)學(xué)習(xí)模型進(jìn)行比較。
仿真實(shí)驗(yàn)平臺(tái)選擇通信網(wǎng)絡(luò)離散事件模擬器NS-3。場(chǎng)景是在1個(gè)認(rèn)知基站覆蓋范圍內(nèi),有10條相同帶寬的授權(quán)信道,10條授權(quán)信道由10個(gè)服從連續(xù)時(shí)間馬爾科夫過(guò)程的授權(quán)用戶分別占用,范圍內(nèi)存在1個(gè)一直有數(shù)據(jù)待發(fā)送的非授權(quán)用戶。認(rèn)知基站負(fù)責(zé)利用空閑的授權(quán)信道與非授權(quán)用戶通信。仿真時(shí)間為2 000 s。服務(wù)質(zhì)量指標(biāo)設(shè)置為吞吐率和信道切換次數(shù)。仿真參數(shù)見表1。
(4) 圖2中,小腸在吸收營(yíng)養(yǎng)物質(zhì)時(shí),小腸絨毛內(nèi)有豐富的____________和毛細(xì)淋巴管,有利于食物中的營(yíng)養(yǎng)成分通過(guò)消化道壁進(jìn)入血液。
表1 仿真參數(shù)
為了驗(yàn)證加入ε-greedy探索的必要性,先將參數(shù)ε1分別設(shè)置為0.1,0.3,0.6和1,觀察并比較在不同的ε1下,非授權(quán)用戶服務(wù)質(zhì)量隨ε2的變化情況。結(jié)果如圖4(a)和圖4(b)所示。當(dāng)ε1=1時(shí),是否切換信道依據(jù)貪婪方式選擇。此時(shí),可以單獨(dú)觀測(cè)參數(shù)ε2對(duì)系統(tǒng)性能的影響。首先,從圖4(a)和圖4(b)中ε1=1的曲線可知,吞吐率的峰值出現(xiàn)在ε2=0.75時(shí),值為7.63 Mb/s。信道切換最小次數(shù)出現(xiàn)在ε2=0.5時(shí),平均值為11.9次。均優(yōu)于ε2=1時(shí)的系統(tǒng)性能(7.48 Mb/s, 23.6次)。相同的,觀察ε1=0.1,0.3,0.6時(shí)的系統(tǒng)性能曲線,最高吞吐率和最低信道切換次數(shù)均沒有出現(xiàn)在ε2=1時(shí)。其次,從圖4(a)中可知,ε1=0.6這條曲線明顯高于其他曲線,而ε1=0.1,0.3這兩條曲線卻普遍低于ε1=1。而在圖4(b)中,也反映了相同的情況。當(dāng)ε1=0.6時(shí),信道切換次數(shù)普遍低于其他3條曲線。出現(xiàn)上述情況的原因是貪婪決策可能會(huì)導(dǎo)致無(wú)法找到全局最優(yōu)信道,引起非授權(quán)用戶不必要的停留。并且不恰當(dāng)?shù)奶剿鲄?shù)選擇,會(huì)導(dǎo)致認(rèn)知基站決策過(guò)于偏向隨機(jī)或者是貪婪,影響系統(tǒng)的性能。所以,選取合適的探索參數(shù),可以使得全局最優(yōu)信道更早被發(fā)現(xiàn)。
圖4 小量貪婪參數(shù)對(duì)系統(tǒng)性能的有效性實(shí)驗(yàn)結(jié)果Fig.4 Experimental results of the validity of epsilon-greedy parameters on system performance
實(shí)驗(yàn)結(jié)果表明,在有效的探索下,系統(tǒng)的性能會(huì)明顯優(yōu)于貪婪決策,而不恰當(dāng)?shù)奶剿鲿?huì)降低系統(tǒng)性能。
3.2節(jié)對(duì)ε1和ε2的有效性進(jìn)行了單獨(dú)的分析。從圖4中可以得知,雖然全局吞吐率最高值出現(xiàn)在ε1=0.6,ε2=0.7時(shí),為8.13 Mb/s,且ε1=0.6的取值普遍優(yōu)于其他取值,但依然存在性能劣于其他取值的區(qū)間。所以尋找能使系統(tǒng)性能最佳化的參數(shù)組合至關(guān)重要。因此設(shè)置ε1和ε2的取值從0~1,間隔為0.05以測(cè)試服務(wù)質(zhì)量。系統(tǒng)吞吐率和信道切換次數(shù)隨ε1和ε2取值的變化情況如圖5(a),(b)所示。為了能突出較好的取值組合,本文將實(shí)驗(yàn)結(jié)果繪制成熱力圖,以便觀察最佳性能出現(xiàn)的位置。圖5(a)紅色區(qū)域是吞吐率出現(xiàn)峰值的位置,位于ε1=0.6,ε2=0.75時(shí),吞吐率的較高的區(qū)域集中在峰值周圍,探索參數(shù)相對(duì)這一取值增加或減小后,吞吐率均產(chǎn)生下降。圖5(b)中的分布的黑色暗區(qū)域是信道切換次數(shù)低的區(qū)域,集中在ε2取值為0.5~0.8左右,離開此區(qū)域后,切換次數(shù)明顯上升,說(shuō)明ε2取值對(duì)其影響有偏重。圖5(a)中的吞吐率峰值區(qū)域小于圖5(b)中切換次數(shù)低值區(qū)域是因?yàn)檎J(rèn)知基站在過(guò)度隨機(jī)或貪婪的情況下,被迫滯留在局部最優(yōu)信道,無(wú)法獲得高吞吐率。
綜合圖4與圖5,選取ε1=0.6,ε2=0.75來(lái)訓(xùn)練認(rèn)知基站,可以獲得最佳的系統(tǒng)性能。
圖5 最佳小量貪婪參數(shù)組合的選取實(shí)驗(yàn)結(jié)果Fig.5 Selection experiment results of optimal combination of ε-greedy parameters
根據(jù)上節(jié)實(shí)驗(yàn)所得出最佳ε1和ε2取值的組合,對(duì)認(rèn)知基站信道分配進(jìn)行時(shí)長(zhǎng)為4 000 s的仿真,結(jié)果與文獻(xiàn)[21]中使用的基于復(fù)雜狀態(tài)動(dòng)作集的Q學(xué)習(xí)算法和文獻(xiàn)[15]與文獻(xiàn)[20]中所使用的無(wú)狀態(tài)Q學(xué)習(xí)算法進(jìn)行比較。文獻(xiàn)[21]中所提出的增強(qiáng)學(xué)習(xí)方式,將智能體環(huán)境狀態(tài)設(shè)置為所處信道,但動(dòng)作卻細(xì)化到切換至具體的信道。此種方式可以較為精確的規(guī)劃信道切換路徑,卻構(gòu)造了一個(gè)平方級(jí)的復(fù)雜Q值矩陣,有待探索的區(qū)域非常龐大,且該文獻(xiàn)并未提及對(duì)狀態(tài)動(dòng)作集合的探索問題。而文獻(xiàn)[15]中,其智能體可采取的動(dòng)作為切換信道和切換功率等級(jí),由于本文中假設(shè)基站和非授權(quán)用戶位置相對(duì)靜止,所以功率等級(jí)不發(fā)生改變,僅考慮信道切換[20]。本文將兩步?jīng)Q策ε-greedy增強(qiáng)學(xué)習(xí)方法命名為DERL,而文獻(xiàn)[15,20]使用的無(wú)狀態(tài)Q學(xué)習(xí)稱作DRL,文獻(xiàn)[21]提出的算法稱為TRL。比較結(jié)果如圖6(a)和圖6(b)所示。
從圖6(a)可以看出,所比較的3種方法DERL、DRL、TRL的吞吐率變化過(guò)程均可分為兩個(gè)階段。第一階段是學(xué)習(xí)階段,采用不同算法的基站,呈現(xiàn)出不同程度的振蕩。而在仿真時(shí)間達(dá)到1 500 s左右,進(jìn)入第二階段,此階段性能指標(biāo)趨向于穩(wěn)定,由于DERL的方法在第一個(gè)階段進(jìn)行了較好的探索。所以非授權(quán)用戶的傳輸被分配到全局最佳信道,吞吐率在經(jīng)過(guò)學(xué)習(xí)階段之后有明顯的上升。而DRL和TRL算法進(jìn)行貪婪決策,導(dǎo)致對(duì)信道環(huán)境探索的不完全,認(rèn)知基站在局部最優(yōu)信道上過(guò)早的停留。這樣的決策方式,可以較快地使非授權(quán)用戶獲得較高的吞吐率,但由于局部最優(yōu)信道的授權(quán)用戶出現(xiàn)更為頻繁,導(dǎo)致傳輸失敗的可能性變大,吞吐率在第二階段出現(xiàn)下降。所以,本文提出的DERL算法可以使非授權(quán)用戶獲得優(yōu)于其余兩種算法更好的吞吐率。
圖6 幾種不同算法的訓(xùn)練過(guò)程比較結(jié)果Fig.6 Comparison results of training process of several different algorithms
綜上所述,針對(duì)較為復(fù)雜的認(rèn)知無(wú)線網(wǎng)絡(luò)環(huán)境,構(gòu)造狀態(tài)動(dòng)作集的數(shù)量級(jí)和決策方式非常關(guān)鍵。本文中探索方式和較為簡(jiǎn)單的狀態(tài)動(dòng)作集,使非授權(quán)用戶獲得了更好的服務(wù)質(zhì)量。
圖7(a)和圖7(b)顯示了在仿真時(shí)間為2 000 s的時(shí)間內(nèi),本文中提出算法與DRL,TRL,以及兩種基礎(chǔ)方法的性能比較。兩種基礎(chǔ)方法的第1步?jīng)Q策分為總是選擇切換的稱為AS,和以一定概率Pr選擇切換,否則退避等待的PS。第2步?jīng)Q策時(shí)隨機(jī)選擇信道接入稱為OP,輪詢選擇信道接入稱為RR。其中,概率切換的參數(shù)Pr經(jīng)過(guò)測(cè)試,本文選取的是可以使非授權(quán)用戶獲得最佳服務(wù)質(zhì)量的概率Pr=0.8。
圖7 幾種不同算法訓(xùn)練完成后的性能比較結(jié)果Fig.7 Performance comparison results of several different algorithms after training completion
從圖7(a)和圖7(b)中看出,在認(rèn)知基站選定最佳探索參數(shù)組合之后,通信的吞吐率以及頻譜切換次數(shù)均優(yōu)于其他的方法,吞吐率達(dá)到了8.63 Mb/s,信道切換次數(shù)為12次。無(wú)狀態(tài)Q學(xué)習(xí)模型測(cè)試所得結(jié)果為7.83 Mb/s,16次。由于無(wú)狀態(tài)Q學(xué)習(xí)僅設(shè)置智能體可采取的動(dòng)作,而不設(shè)置狀態(tài),使得Q得到極大的簡(jiǎn)化。但缺點(diǎn)是在學(xué)習(xí)時(shí)受到懲罰將使其馬上采取行動(dòng)。雖然尋找全局最佳信道的速度較快,但在最佳信道收斂時(shí),一旦與授權(quán)用戶通信發(fā)生沖突,則會(huì)立即切換至其他信道。而在文獻(xiàn)[21]提出的復(fù)雜的狀態(tài)動(dòng)作集構(gòu)建的增強(qiáng)學(xué)習(xí)模型下,測(cè)試結(jié)果為6.59 Mb/s,26次。面對(duì)本文中設(shè)置的較為復(fù)雜的授權(quán)用戶模型,TRL性能大幅下降。因?yàn)楫?dāng)信道數(shù)量增加從5增至10條時(shí),其Q值則由25個(gè)狀態(tài)動(dòng)作組合擴(kuò)展為100個(gè)。完備的探索100個(gè)狀態(tài)動(dòng)作組合直至收斂需要很長(zhǎng)的時(shí)間。所以呈平方級(jí)增長(zhǎng)的復(fù)雜狀態(tài)動(dòng)作集不適合應(yīng)用在復(fù)雜的認(rèn)知無(wú)線網(wǎng)絡(luò)環(huán)境中。本文還選取了在認(rèn)知無(wú)線電頻譜分配中的兩個(gè)傳統(tǒng)方法與本文中提出的算法進(jìn)行比較。在與授權(quán)用戶發(fā)生沖突時(shí)立即切換并且以輪詢方式接入信道的AS+RR頻譜管理方法吞吐率要略高于概率切換和隨機(jī)接入方式。對(duì)以Pr=0.8進(jìn)行概率切換之后隨機(jī)選擇信道接入的PS+OP頻譜管理方法進(jìn)行測(cè)試后發(fā)現(xiàn),即使在第一步?jīng)Q策時(shí)以概率切換方式做出對(duì)頻繁切換信道的避免,但該方法信道切換次數(shù)仍高于AS+RR方法的組合,這也反映出選擇目標(biāo)信道(第二步?jīng)Q策)對(duì)信道切換次數(shù)的偏重影響。
本文研究了頻譜管理中出現(xiàn)的兩個(gè)重要問題。第1個(gè)問題是在授權(quán)用戶頻發(fā)的環(huán)境中,如何避免過(guò)多的頻譜切換對(duì)系統(tǒng)性能造成的危害,并提升系統(tǒng)的吞吐率。第2個(gè)問題是在應(yīng)用增強(qiáng)學(xué)習(xí)到認(rèn)知無(wú)線網(wǎng)絡(luò)的過(guò)程中,如何解決探索以及利用的平衡問題。針對(duì)吞吐率和信道切換次數(shù)的雙目標(biāo)優(yōu)化問題,本文給出了一種新型的多用途狀態(tài)動(dòng)作集。實(shí)驗(yàn)證明,運(yùn)用該新的狀態(tài)動(dòng)作集的認(rèn)知基站比一些傳統(tǒng)的增強(qiáng)學(xué)習(xí)信道分配方式的認(rèn)知基站在性能上有較大的提升。針對(duì)第二個(gè)探索與利用的平衡問題,我們給出了驗(yàn)證ε-greedy探索有效性的實(shí)驗(yàn),在與貪婪決策的方法比較的過(guò)程中,平衡探索與利用的認(rèn)知基站性能更好,證明了在認(rèn)知無(wú)線網(wǎng)絡(luò)中對(duì)環(huán)境探索的必要性。在兩步都應(yīng)用ε-greedy的認(rèn)知基站性能結(jié)果分析中,本文發(fā)現(xiàn)了兩個(gè)ε取值分別對(duì)不同優(yōu)化目標(biāo)的影響有各自的偏重,也找出了一組ε值,使得系統(tǒng)的性能相比其他的ε取值更為優(yōu)異。實(shí)驗(yàn)結(jié)果證明了本文提出的算法在應(yīng)用到認(rèn)知無(wú)線網(wǎng)絡(luò)環(huán)境的基站中進(jìn)行頻譜管理的有效性。