胡 敏,朱 琦
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
近年來(lái),認(rèn)知無(wú)線電成為減輕擁擠無(wú)線電頻譜的有效技術(shù),通過(guò)動(dòng)態(tài)的頻譜接入,可以大大地提高現(xiàn)有頻譜資源的利用效率[1-2]。認(rèn)知無(wú)線電的關(guān)鍵技術(shù)是頻譜感知,認(rèn)知設(shè)備(即次用戶)感知到主用戶的空閑頻譜后可以以機(jī)會(huì)式的方式動(dòng)態(tài)接入。一般將頻譜感知方法技術(shù)分為發(fā)射機(jī)檢測(cè)、協(xié)作檢測(cè)和基于干擾的檢測(cè)[3],由于受陰影效應(yīng)和深度衰落影響,單節(jié)點(diǎn)感知結(jié)果不準(zhǔn)確,因此需要多個(gè)節(jié)點(diǎn)協(xié)作感知來(lái)提高檢測(cè)可靠性。隨著當(dāng)前科學(xué)技術(shù)的快速發(fā)展和學(xué)習(xí)模式的巨大改變,人們對(duì)移動(dòng)通信方面的需求大大增加,而計(jì)算機(jī)技術(shù)是這一需求的依靠。新形勢(shì)下的移動(dòng)通信技術(shù)其實(shí)是依靠計(jì)算機(jī)技術(shù)和通信設(shè)備將信息數(shù)據(jù)進(jìn)行傳輸,再經(jīng)過(guò)信息處理實(shí)現(xiàn)資源共享和其余的服務(wù)。
計(jì)算機(jī)通信技術(shù)是計(jì)算機(jī)技術(shù)和通訊技術(shù)的融合,應(yīng)用于實(shí)時(shí)遠(yuǎn)程通信、多媒體技術(shù)應(yīng)用和無(wú)線計(jì)算機(jī)通信技術(shù)等。計(jì)算機(jī)通信技術(shù)的原理是把信息轉(zhuǎn)換為數(shù)據(jù),通過(guò)數(shù)據(jù)的方式傳遞信息[4]。
文獻(xiàn)[5]中使用基于能量檢測(cè)和特征值檢測(cè)的兩種頻譜感知技術(shù)來(lái)判斷信道是否空閑,通過(guò)能量檢測(cè)的方法推導(dǎo)了頻譜感知中檢測(cè)概率和虛警概率的表達(dá)式,并研究了在主用戶得到充分保護(hù)的約束下,優(yōu)化感知時(shí)間來(lái)最大化網(wǎng)絡(luò)的吞吐量。文獻(xiàn)[6]通過(guò)利用次用戶的空間分集來(lái)提高頻譜感知性能。文獻(xiàn)[7]提出了一種分布式協(xié)作算法,兩個(gè)次用戶進(jìn)行合作,其中一個(gè)次用戶距離主用戶較近,感知準(zhǔn)確性較高,另一個(gè)次用戶離主用戶較遠(yuǎn),這樣就不需要集中機(jī)制就可以配對(duì)次用戶。
以上研究都是假設(shè)用戶均愿意參與感知任務(wù),但是由于感知頻譜需要消耗用戶終端的資源,因此需要采用一定的激勵(lì)機(jī)制來(lái)激勵(lì)更多的次用戶參與感知。
群智感知可以利用大量的移動(dòng)設(shè)備共同提供某類(lèi)感知信息,廣泛應(yīng)用于交通監(jiān)控、環(huán)境監(jiān)控、城市安全等領(lǐng)域[8]。文獻(xiàn)[9]提出了基于斯坦伯格博弈的方法來(lái)激勵(lì)移動(dòng)用戶的參與,并使用后向歸納來(lái)分析群智感知平臺(tái)的最優(yōu)激勵(lì)機(jī)制。文獻(xiàn)[10]提出了一種基于反向拍賣(mài)的激勵(lì)機(jī)制,并在初始激勵(lì)中采用Vickrey-Clarke-Groves(VCG)機(jī)制,使得競(jìng)價(jià)成為最終激勵(lì)機(jī)制中的主導(dǎo)策略。
文獻(xiàn)[11]提出了一種基于隨機(jī)博弈的激勵(lì)機(jī)制,該機(jī)制針對(duì)用戶行為的不確定性,通過(guò)確定任務(wù)參與者級(jí)別,為參與者設(shè)計(jì)策略來(lái)選擇合適任務(wù),并保證參與者的最低收益。文獻(xiàn)[12]設(shè)計(jì)了一種新穎的基于逆向拍賣(mài)的動(dòng)態(tài)定價(jià)激勵(lì)機(jī)制,提出的激勵(lì)機(jī)制側(cè)重于最小化和穩(wěn)定激勵(lì)成本,同時(shí)通過(guò)防止用戶退出參與感知來(lái)保持足夠的參與者水平。文獻(xiàn)[13]設(shè)計(jì)了一種基于反向拍賣(mài)的激勵(lì)機(jī)制,其目標(biāo)是通過(guò)優(yōu)化系統(tǒng)中人員的組成來(lái)最大程度地減少系統(tǒng)維護(hù)成本(包括拍賣(mài)成本和招聘成本)。以上研究都沒(méi)有將群智感知應(yīng)用到具體場(chǎng)景。
該文將頻譜感知和群智感知相結(jié)合,設(shè)計(jì)了一種基于微分博弈的群智頻譜感知算法。將平臺(tái)的效用定義為第三方支付的報(bào)酬減去付給次用戶的報(bào)酬,次用戶的效用定義為平臺(tái)支付的報(bào)酬減去次用戶參與頻譜感知任務(wù)的花費(fèi),平臺(tái)決定任務(wù)的價(jià)格,各個(gè)次用戶決定對(duì)任務(wù)的檢測(cè)概率,以獲得各自效用最大為目標(biāo)設(shè)計(jì)了一種非合作的微分博弈模型,通過(guò)求解反饋納什均衡推導(dǎo)證明了平臺(tái)和用戶的最優(yōu)策略。微分博弈是指在時(shí)間連續(xù)的系統(tǒng)內(nèi),多個(gè)參與者進(jìn)行持續(xù)的博弈,力圖最優(yōu)化各自獨(dú)立、沖突的目標(biāo),最終獲得各參與者隨時(shí)間演變的策略并達(dá)到納什均衡,即任何參與者都沒(méi)有單獨(dú)改變策略的意愿,其狀態(tài)的演化由微分方程描述。
文中的系統(tǒng)模型如圖1所示,平臺(tái)發(fā)布頻譜感知任務(wù),次用戶根據(jù)發(fā)布的任務(wù)對(duì)頻譜進(jìn)行感知。假設(shè)次用戶數(shù)為N,各個(gè)次用戶均可以通過(guò)能量檢測(cè)感知主用戶頻段,得到相應(yīng)的檢測(cè)結(jié)果和檢測(cè)概率,次用戶將相關(guān)信息通過(guò)基站發(fā)送到平臺(tái)。相關(guān)信息被轉(zhuǎn)化成數(shù)據(jù)在計(jì)算機(jī)之間進(jìn)行傳遞,移動(dòng)通信技術(shù)與計(jì)算機(jī)技術(shù)相互促進(jìn)推動(dòng),逐漸融合。
圖1 系統(tǒng)模型
檢測(cè)概率是頻譜感知的重要參數(shù),用戶i(i=1,2,…,N)能量檢測(cè)的檢測(cè)概率為[14]:
(1)
其中,Pf表示虛警概率,即當(dāng)主用戶不存在時(shí)次用戶誤判主用戶存在的概率,τi為次用戶i的感知時(shí)間,fs為采樣頻率,τifs則是采樣點(diǎn)數(shù),SNRi表示次用戶i接收主用戶發(fā)送信號(hào)的信噪比,Q函數(shù)為互補(bǔ)累計(jì)分布函數(shù):
(2)
平臺(tái)和用戶之間存在價(jià)格和檢測(cè)概率的博弈,用戶通過(guò)完成任務(wù)獲得收益,其獲得的收益與檢測(cè)概率成正比,由式(1)可以看到,當(dāng)信噪比一定時(shí),獲得的檢測(cè)概率與檢測(cè)時(shí)間有關(guān),檢測(cè)時(shí)間越長(zhǎng),則檢測(cè)概率越高,但是用戶付出的代價(jià)越大,因此用戶需要確定最優(yōu)的檢測(cè)時(shí)間(即檢測(cè)概率)以使得自己的效用最大化;另一方面,平臺(tái)獲得檢測(cè)數(shù)據(jù)需要付出支付給用戶費(fèi)用,并且支付的費(fèi)用與數(shù)據(jù)的檢測(cè)概率成正比,因此N個(gè)用戶和平臺(tái)為了得到自身效用的最優(yōu)進(jìn)行博弈,構(gòu)成了一個(gè)N+1的非合作微分博弈。令v(t)表示在時(shí)刻t(t∈[t0,T])平臺(tái)發(fā)布的頻譜感知任務(wù)單價(jià),ui(t)表示次用戶i在時(shí)刻t提供的對(duì)頻譜的檢測(cè)概率,x(t)表示所有次用戶從開(kāi)始到時(shí)刻t(t∈[t0,T])上報(bào)的所有的感知數(shù)據(jù)量。x(t)會(huì)隨著用戶上報(bào)的檢測(cè)概率和平臺(tái)決定的任務(wù)價(jià)值而改變,其變化可以用微分方程表示為:
(3)
其中,a,b,c為歸一化因子,a>0,b>0表示次用戶上報(bào)檢測(cè)概率對(duì)最終的數(shù)據(jù)量的影響,c>0表示平臺(tái)對(duì)任務(wù)定價(jià)對(duì)數(shù)據(jù)量的影響。
每個(gè)用戶根據(jù)檢測(cè)概率的大小獲得收益,用戶的收益和檢測(cè)概率成正比,定義收益函數(shù):
gi=ui(t)v(t)
(4)
用戶進(jìn)行頻譜感知需要消耗存儲(chǔ)資源和電量,將數(shù)據(jù)上傳至平臺(tái)時(shí)需要消耗電量,因此定義其代價(jià)函數(shù):
(5)
其中,δi表示次用戶i頻譜感知的代價(jià),δi與信噪比成反比,次用戶的信噪比越大,δi越小。σi表示次用戶i上傳數(shù)據(jù)的代價(jià),σi與用戶到基站的距離成有關(guān),因此可以定義次用戶i的效用函數(shù):
(6)
其中,α>0為加權(quán)因子。
次用戶的目標(biāo)是最大化個(gè)人的累計(jì)效用,表示為:
σix(t)]e-r(t-t0)dt+qix(T)e-r(T-t0)
(7)
其中,r>0表示折扣因子,T-t0表示博弈時(shí)長(zhǎng),qix(T)表示次用戶的邊緣效用[15]。
平臺(tái)完成任務(wù)會(huì)獲得第三方的報(bào)酬,定義收益函數(shù)為:
(8)
平臺(tái)需要付給次用戶報(bào)酬以及處理接收到的數(shù)據(jù),因此定義平臺(tái)的代價(jià)函數(shù)為:
(9)
其中,m>0表示平臺(tái)處理數(shù)據(jù)的花費(fèi)。因此定義平臺(tái)的效用函數(shù)為:
(10)
其中,β>0為加權(quán)因子。
平臺(tái)的目標(biāo)是最大化累計(jì)效用,故表示為:
(11)
其中,r>0表示折扣因子,T-t0表示博弈時(shí)間間隔,qx(T)表示平臺(tái)的邊緣效用。
根據(jù)建立的非合作微分博弈模型(3)、(7)、(11),求解該模型的反饋納什均衡。每個(gè)次用戶通過(guò)優(yōu)化上報(bào)結(jié)果的檢測(cè)概率以使效用最大化,平臺(tái)通過(guò)優(yōu)化任務(wù)的價(jià)格以獲得自身效用的最優(yōu),下面將推導(dǎo)次用戶的最優(yōu)檢測(cè)概率和平臺(tái)最優(yōu)價(jià)格的表達(dá)式。
(12)
Ui(T,x)=qix(T)e-r(T-t0)
(13)
對(duì)式(12)求ui(t)的一階導(dǎo),并令其等于0,得到反饋納什均衡的解:
(14)
對(duì)于平臺(tái)來(lái)說(shuō),如果存在連續(xù)微分函數(shù)V(t,x):[t0,T]×R→R滿足以下的偏微分方程,則策略集v*(t)=φ*(t)是(3)和(11)的反饋納什均衡解[15]:
mx(t)]e-r(t-t0)+Vx(t,x)[ax(t)+
(15)
V(T,x)=qx(T)e-r(T-t0)
(16)
對(duì)式(15)求v(t)的一階導(dǎo),并令其等于0,得到反饋納什均衡的解:
(17)
引理1:博弈模型(12)-(13)、(15)-(16)的納什均衡解可以表示為[16]:
Ui(t,x)=e-r(t-t0)[Ai(t)x+Bi(t)]
(18)
V(t,x)=e-r(t-t0)[A(t)x+B(t)]
(19)
其中,
(20)
Ai(T)=qi
(21)
(22)
A(T)=q
(23)
證明:將式(18)和式(19)分別對(duì)x和t求導(dǎo),得到如下的表達(dá)式:
(24)
(25)
Vx(t,x)=e-r(t-t0)A(t)
(26)
Vt(t,x)=
(27)
將式(24)-(25)帶入式(12)-(13):
e-r(T-t0)[Ai(T)x+Bi(T)]=e-r(T-t0)qix(T)
(29)
為了使得式(28)-(29)成立,應(yīng)滿足下面的條件:
(30)
求解微分方程(30),得到下面的表達(dá)式:
(31)
將式(26)-(27)帶入式(12)-(13):
e-r(T-t0)[A(T)x+B(T)]=e-r(T-t0)qx(T)
(33)
為了使得式(32)-(33)成立,應(yīng)滿足下面的條件:
(34)
求解微分方程(34),得到下面的表達(dá)式:
(35)
根據(jù)式(14)、(17)、(24)、(26)、(31)、(35),可以得到用戶檢測(cè)概率和平臺(tái)定價(jià)的最優(yōu)解分別為:
(36)
(37)
(39)
將式(37)-(38)代入微分方程(3),可以得到非合作微分博弈最優(yōu)狀態(tài)表達(dá)式:
(40)
該文采用MATLAB進(jìn)行仿真,假設(shè)參與感知的次用戶數(shù)為3,T=5,折扣因子r=0.05,δi服從期望為0.5,方差為0.05的正態(tài)分布,σi服從期望為0.26,方差為0.05的正態(tài)分布,qi服從期望為1.8,方差為0.05的正態(tài)分布,采樣頻率為10 MHz,次用戶的虛警概率為0.01,其余參數(shù)如表1所示。
表1 參數(shù)設(shè)置
圖2(a)給出了r=0.05時(shí)三個(gè)次用戶的最優(yōu)策略隨時(shí)間變化曲線。從圖中可以看出次用戶最優(yōu)的檢測(cè)概率隨著時(shí)間的增加而增大,這是因?yàn)榇斡脩籼岣邫z測(cè)概率參與頻譜感知可以獲得更多的報(bào)酬,為了使得效用最大,次用戶會(huì)更愿意參與感知任務(wù)。
圖2(b)給出了r=0.05時(shí)用戶的最優(yōu)感知時(shí)間變化曲線。用戶的信噪比與發(fā)射功率和到主用戶的距離相關(guān),從仿真圖可以看到用戶的感知時(shí)間逐漸上升,這是因?yàn)樵诖_定的信噪比條件下,檢測(cè)概率確定后可由式(1)計(jì)算感知時(shí)間。
(a)r=0.05時(shí)次用戶最優(yōu)檢測(cè)概率ui/t隨時(shí)間變化曲線
(b)r=0.05時(shí)次用戶最優(yōu)感知時(shí)間變化曲線圖2 仿真曲線
圖3給出了r=0.05時(shí)平臺(tái)最優(yōu)價(jià)格v(t)隨時(shí)間變化曲線。從仿真圖可以看到任務(wù)的價(jià)格隨著時(shí)間的增加而減小,這是因?yàn)殡S著時(shí)間的增加,平臺(tái)能收到的信息增多,平臺(tái)為了提高自身效用則盡可能地降低價(jià)格。
圖4給出了r取不同值時(shí)平臺(tái)效用隨時(shí)間變化曲線。從仿真圖可以看到r越大平臺(tái)的效用越高。當(dāng)r不變時(shí),平臺(tái)的效用隨著時(shí)間的增加而減小,這是因?yàn)関(t)隨著時(shí)間的增加而減小,平臺(tái)得到的收益也會(huì)隨之下降。
圖3 r=0.05時(shí)平臺(tái)最優(yōu)價(jià)格v/t隨時(shí)間變化曲線
圖4 平臺(tái)效用隨時(shí)間變化曲線
圖5給出了當(dāng)用戶均采用最優(yōu)檢測(cè)概率時(shí),平臺(tái)分別取最優(yōu)價(jià)格和固定價(jià)格時(shí)效用隨用戶數(shù)變化曲線。固定價(jià)格取值為0.385,從仿真圖可以看到平臺(tái)采用最優(yōu)價(jià)格時(shí),平臺(tái)效用值高于取固定價(jià)格相對(duì)應(yīng)的效用,對(duì)平臺(tái)來(lái)說(shuō),招募到更多的用戶數(shù)可以提高檢測(cè)概率,第三方支付的報(bào)酬會(huì)增加,平臺(tái)效用增加,因此取最優(yōu)價(jià)格能夠提高平臺(tái)的效用。
圖5 平臺(tái)取最優(yōu)價(jià)格與固定價(jià)格時(shí)效用 隨用戶數(shù)變化曲線
圖6給出了當(dāng)平臺(tái)取最優(yōu)價(jià)格時(shí),用戶分別取最優(yōu)檢測(cè)概率和固定檢測(cè)概率時(shí)的平均效用變化曲線。檢測(cè)概率均取0.6,從仿真圖可以看到用戶采取最優(yōu)檢測(cè)概率時(shí),用戶的平均效用高于取固定價(jià)格相對(duì)應(yīng)的平均效用,因此取最優(yōu)檢測(cè)概率能夠提高用戶的平均效用。對(duì)用戶來(lái)說(shuō),當(dāng)采取最優(yōu)檢測(cè)概率時(shí),用戶的平均效用高于取固定價(jià)格相對(duì)應(yīng)的平均效用,隨著用戶數(shù)增加,平臺(tái)所能增加的檢測(cè)概率相對(duì)減小,用戶的平均效用隨之下降;當(dāng)用戶采取固定策略時(shí),用戶的平均效用隨著用戶數(shù)的增加而增加,這是因?yàn)殡S著用戶數(shù)增加,第三方給的報(bào)酬會(huì)增加,所以用戶的平均效用會(huì)增加。
圖6 用戶取最優(yōu)檢測(cè)概率與固定檢測(cè)概率時(shí) 平均效用隨用戶數(shù)變化曲線
通信技術(shù)的開(kāi)展離不開(kāi)計(jì)算機(jī)技術(shù),當(dāng)下用戶對(duì)通信技術(shù)最關(guān)注的是其可靠性、安全性和保密性,將計(jì)算機(jī)技術(shù)的優(yōu)勢(shì)和功能與通信技術(shù)結(jié)合起來(lái),可以加快計(jì)算機(jī)通信技術(shù)的發(fā)展。該文將群智感知與頻譜感知相結(jié)合,提出了一種基于微分博弈的群智頻譜感知算法。平臺(tái)的效用定義為第三方支付的報(bào)酬減去付給次用戶的報(bào)酬,次用戶的效用定義為平臺(tái)支付的報(bào)酬減去次用戶參與頻譜感知任務(wù)的成本,以各自效用最大為目標(biāo)設(shè)計(jì)了一種非合作的微分博弈模型,通過(guò)求解反饋納什均衡獲得了平臺(tái)和用戶的最優(yōu)策略,即平臺(tái)決定任務(wù)的最優(yōu)價(jià)格,各個(gè)次用戶確定頻譜的最優(yōu)檢測(cè)概率(即感知時(shí)間)。仿真結(jié)果表明,平臺(tái)和次用戶采取最優(yōu)策略時(shí)效用高于采取固定策略時(shí)的效用。