黃錦灝,江東華,丁鈺真,肖 亮*,范業(yè)仙,陳建成
(1.廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,福建 廈門 361005;2.寧德師范學(xué)院信息與機(jī)電工程學(xué)院,福建 寧德 352100;3.廈門盈趣科技股份有限公司,福建 廈門 361006)
物聯(lián)網(wǎng)技術(shù)被廣泛應(yīng)用于醫(yī)療保健[1]、智能交通[2]、環(huán)境檢測[3]等領(lǐng)域,其視頻壓縮編碼和傳輸方案決定了物聯(lián)網(wǎng)設(shè)備的能量損耗、視頻傳輸質(zhì)量和用戶的網(wǎng)絡(luò)體驗[4].隨著第五代移動通信技術(shù)[5]和邊緣計算[6]的發(fā)展,物聯(lián)網(wǎng)用戶廣泛關(guān)注傳輸?shù)陌踩訹7]、隱私性[8]、用戶體驗度和物聯(lián)網(wǎng)設(shè)備的電池壽命[9].同時,H.264等視頻編碼標(biāo)準(zhǔn)雖可改善視頻的壓縮比和對信道的適應(yīng)性[10],但卻增加了傳輸能耗[11]和要求更短的視頻傳輸時延[12].因此,如何優(yōu)化物聯(lián)網(wǎng)設(shè)備的視頻編碼方案,綜合提高視頻質(zhì)量、降低設(shè)備能耗和時延,成為物聯(lián)網(wǎng)技術(shù)發(fā)展的關(guān)鍵問題之一.
能量采集技術(shù)通過采集裝置將射頻信號等環(huán)境能量轉(zhuǎn)化為電能,提高了網(wǎng)絡(luò)設(shè)備的電池使用壽命[13].例如,物聯(lián)網(wǎng)設(shè)備根據(jù)當(dāng)前電量水平和能量采集效率優(yōu)化中繼選擇以降低成本[14]或者在任務(wù)調(diào)度中優(yōu)化采集能量的分配可以執(zhí)行更多的任務(wù)[15].目前,物聯(lián)網(wǎng)設(shè)備基于已知的視頻傳輸模型和無線信道模型等信息來優(yōu)化視頻壓縮編碼的量化參數(shù)[16]和編碼碼率[17],從而提高視頻傳輸質(zhì)量.然而,能量采集物聯(lián)網(wǎng)設(shè)備在動態(tài)的網(wǎng)絡(luò)環(huán)境中難以精確預(yù)估上述信息并據(jù)此來優(yōu)化視頻質(zhì)量.物聯(lián)網(wǎng)設(shè)備應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)可以在動態(tài)博弈中優(yōu)化其策略,提高設(shè)備的傳輸質(zhì)量等效益.例如,物聯(lián)網(wǎng)設(shè)備采用強(qiáng)化學(xué)習(xí)為用戶不同的需求分配緩存資源,不需要預(yù)知網(wǎng)絡(luò)模型即可提高用戶的體驗質(zhì)量[18];物聯(lián)網(wǎng)醫(yī)療設(shè)備采用強(qiáng)化學(xué)習(xí)選擇感知數(shù)據(jù)的上傳策略,從而保證用戶傳輸模型的隱私[1].
因此,本文中提出了一種基于強(qiáng)化學(xué)習(xí)的能量采集物聯(lián)網(wǎng)設(shè)備視頻編碼參數(shù)選擇方案.該技術(shù)選擇視頻壓縮的編碼碼率和量化參數(shù),將其卸載至邊緣設(shè)備進(jìn)行數(shù)據(jù)處理,旨在提高視頻質(zhì)量,降低計算和傳輸?shù)哪芰繐p耗和時延,并應(yīng)用能量采集技術(shù)對物聯(lián)網(wǎng)設(shè)備補(bǔ)給能量來延長電池壽命.該過程可建模為馬爾可夫決策過程,物聯(lián)網(wǎng)設(shè)備根據(jù)邊緣設(shè)備反饋的視頻質(zhì)量和時延,以及當(dāng)前的無線信道帶寬、設(shè)備電能和采集的能量等信息,利用強(qiáng)化學(xué)習(xí)算法動態(tài)優(yōu)化視頻編碼碼率和量化參數(shù).該方案不需要預(yù)知視頻傳輸模型和能量采集模型,通過試錯來改善視頻質(zhì)量、設(shè)備能耗和傳輸時延等視頻傳輸性能.
考慮一個能量采集物聯(lián)網(wǎng)視頻傳輸系統(tǒng)由物聯(lián)網(wǎng)設(shè)備和邊緣設(shè)備組成.物聯(lián)網(wǎng)設(shè)備首先選擇合適的視頻編碼碼率和量化參數(shù)對視頻進(jìn)行編碼,然后將編碼后視頻傳輸給邊緣設(shè)備,最后獲得邊緣設(shè)備反饋的視頻質(zhì)量和時延.在這個過程中應(yīng)用能量采集技術(shù)來對物聯(lián)網(wǎng)設(shè)備提供能量,提高物聯(lián)網(wǎng)設(shè)備完成視頻傳輸任務(wù)的概率.
圖1 能量采集物聯(lián)網(wǎng)視頻傳輸模型Fig.1 Video transmission model for IoT devices with energy harvesting
視頻編碼傳輸過程主要考慮視頻質(zhì)量、能量損耗和時延.視頻質(zhì)量q(k)包含了視頻的壓縮質(zhì)量η(k)和傳輸質(zhì)量ν(k),即q(k)=η(k)+ν(k).壓縮質(zhì)量η(k)通過編碼后視頻的峰值信噪比(peak signal-to- noise ratio, PSNR)來衡量.PSNR是一種常用的客觀視頻質(zhì)量評價指標(biāo),值越大表示視頻質(zhì)量越高.傳輸質(zhì)量ν(k)使用信噪比(signal-to-noise ratio, SNR)來進(jìn)行衡量.視頻傳輸過程中的能量損耗E(k)會影響物聯(lián)網(wǎng)設(shè)備的電能和任務(wù)完成情況.為了避免電量不足導(dǎo)致的任務(wù)失敗,物聯(lián)網(wǎng)設(shè)備利用能量采集技術(shù)進(jìn)行自產(chǎn)能.
視頻傳輸?shù)臅r延ω(k)包括排隊時延、處理時延、傳輸時延和傳播時延4個部分,根據(jù)文獻(xiàn)[19],視頻傳輸過程所需帶寬不會超過系統(tǒng)總有效帶寬,并且實驗證明排隊時延不會影響視頻傳輸質(zhì)量,而傳播時延和其他部分相比較小,所以在本方案中不考慮將排隊時延和傳播時延作為優(yōu)化目標(biāo),只關(guān)注處理時延(即視頻壓縮編碼時間)和傳輸時延這兩個部分.
根據(jù)視頻編碼傳輸過程中的q(k)、E(k)、ω(k)和任務(wù)失敗的額外損耗評估物聯(lián)網(wǎng)設(shè)備的效益u(k),定義單位能量損耗σ、單位時延τ、額外損耗系數(shù)γ,則有
u(k)=q(k)-σE(k)-τω(k)-γφ(b(k)-
E(k)+ρ(k)<0).
(1)
其中,φ為指示函數(shù),表示當(dāng)b(k)-E(k)+ρ(k)<0時物聯(lián)網(wǎng)設(shè)備傳輸任務(wù)失敗需要付出的額外損耗.另外,Q函數(shù)Q(s(k),x(k))根據(jù)當(dāng)前動作狀態(tài)對(s(k),x(k))、當(dāng)前時刻的效益u(k)和下一時刻的值函數(shù)V(s(k+1))使用學(xué)習(xí)速率α和折扣因子δ進(jìn)行更新,其中學(xué)習(xí)速率α∈(0,1],折扣因子δ∈(0,1].
基于強(qiáng)化學(xué)習(xí)的能量采集物聯(lián)網(wǎng)設(shè)備的視頻編碼參數(shù)選擇技術(shù)的算法步驟如下:
1) 初始化強(qiáng)化學(xué)習(xí)的參數(shù):學(xué)習(xí)速率α,折扣因子δ,初始狀態(tài)s(0),Q函數(shù)Q(s(0),x(0))=0和值函數(shù)V(s)(1)=0.
2) 根據(jù)強(qiáng)化學(xué)習(xí)對Q,V進(jìn)行迭代運(yùn)算.
a) 接收邊緣設(shè)備反饋的上一時刻視頻質(zhì)量q(k-1)和時延ω(k-1);
b) 觀測自身電能b(k)、傳輸信道帶寬B(k)、信道特征g(k)和采集的能量ρ(k);
c) 構(gòu)建當(dāng)前時刻的系統(tǒng)狀態(tài)s(k)=[ρ(k),b(k),B(k),g(k),q(k-1),ω(k-1)];
f) 傳輸編碼后的視頻到邊緣設(shè)備;
g) 觀測能量損耗E(k)和下一時刻電能b(k+1);
h) 根據(jù)公式(5)評估物聯(lián)網(wǎng)設(shè)備的效益u(k);
i) 根據(jù)Q(s(k),x(k))←(1-α)Q(s(k),x(k))+α(u(k)+δV(s(k+1)))更新Q函數(shù)Q(s(k),x(k));
j) 根據(jù)V(s(k))=maxQ(s(k),x(k))更新值函數(shù)V(s(k));
3) 當(dāng)k=K時停止迭代運(yùn)算.
(2)
(3)
(4)
其中,視頻傳輸時間t為300 ms,根據(jù)文獻(xiàn)[25],視頻傳輸所需時延為:
其中,系統(tǒng)模型參數(shù)w1為0.01,w2為-1.37,w3為 8.3.視頻傳輸?shù)谋忍財?shù)NB為128 bit.在本文算法中,設(shè)置α為0.7,δ為0.8.式(1)中的單位能量損耗系數(shù)σ為1,單位時延系數(shù)τ為8,額外損耗系數(shù)γ為200.為了評估本文算法的性能,對比了文獻(xiàn)[26]提出的基于拉格朗日乘子(lagrange multiplier, LM)、忽略無線信道衰落的強(qiáng)化學(xué)習(xí)(Q-learning)和考慮無線信道衰落的強(qiáng)化學(xué)習(xí)(Q-leaning-shudow)3種方法的視頻質(zhì)量、物聯(lián)網(wǎng)設(shè)備的效益、能量損耗和時延.
從圖2可看出,無線信道衰落對本文強(qiáng)化學(xué)習(xí)方法的影響不大.忽略無線信道衰落時,相較于基于LM的方案,本文中提出的基于強(qiáng)化學(xué)習(xí)的能量采集物聯(lián)網(wǎng)設(shè)備的視頻編碼方案能夠使傳輸?shù)囊曨l質(zhì)量從33.8 dB 上升到34.9 dB,并在3 s時達(dá)到收斂,相較于基于LM的方案,本文中提出的方案能使傳輸?shù)囊曨l質(zhì)量提高29.2%(圖2(a)).使物聯(lián)網(wǎng)設(shè)備的效益從-1 000 上升到300,并在3 s時達(dá)到收斂,與基于LM的方案相比,能使物聯(lián)網(wǎng)設(shè)備的效益提高13倍(圖2(b));能量損耗從1.65 J下降到1.40 J,并在3 s時達(dá)到收斂,相較于基于LM的方案,本文中提出的方案能使物聯(lián)網(wǎng)設(shè)備的能量損耗下降13.3%;能使物聯(lián)網(wǎng)設(shè)備的時延從1.60 s下降到1.20 s,并在 3 s 時達(dá)到收斂,與基于LM的方案相比,能使視頻傳輸所需時延下降25%(圖2(d)).
綜上所述,本文中所提基于強(qiáng)化學(xué)習(xí)的能量采集物聯(lián)網(wǎng)設(shè)備的視頻編碼方案性能明顯優(yōu)于基于LM的方案,即能夠更有效地提高視頻質(zhì)量和物聯(lián)網(wǎng)設(shè)備的效益,并且降低能量損耗和時延.
本文中提出了一種基于強(qiáng)化學(xué)習(xí)的能量采集物聯(lián)網(wǎng)設(shè)備的視頻編碼技術(shù),物聯(lián)網(wǎng)設(shè)備通過采集外界能量并轉(zhuǎn)化為自身電量來抵消部分能量損耗,并利用強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行視頻編碼參數(shù)選擇,根據(jù)傳輸信道帶寬、電能、上一時刻視頻質(zhì)量等系統(tǒng)狀態(tài)動態(tài)選擇視頻編碼碼率和量化參數(shù),提高視頻傳輸性能.仿真結(jié)果表明,本文中提出的方案比基于LM的方案能更有效地提高視頻質(zhì)量和物聯(lián)網(wǎng)設(shè)備的效益,并且降低物聯(lián)網(wǎng)設(shè)備的能量損耗和時延.