朱曉慶,楊 紅,陳洪剛,王蘋宇,卿粼波
(四川大學 電子信息學院,四川 成都 610065)
隨著物聯(lián)網(wǎng)(Internet of Things,IoT)、人工智能、6G 通信技術的逐步發(fā)展,傳統(tǒng)的人—人通信將延伸到機—機、人—機、人—人多種方式智能互聯(lián)[1-2]。傳輸通信不再只是面向人與人之間的交流,更多是為了實現(xiàn)目標檢測、語義分割、視頻監(jiān)控等機器視覺任務[3],通信的信源和信宿將變成具有智能分析和處理能力的人、機等智能體。在這樣的背景下,語義通信[4]成為熱點技術,以語義表征信息并傳輸,在語義層面解決信息的含義表達與傳輸,把信息含義的理解環(huán)節(jié)部分或全部地前置到發(fā)送端,從而降低傳輸量,減少帶寬需求[5]。
語義通信是一種通信新范式,與傳統(tǒng)通信基于經(jīng)典香農(nóng)信息論不同的是,語義通信關注的是信息的語義級特征,遵循的是語義級傳輸機制,并且語義通信允許在帶寬有限的通信信道中超越香農(nóng)的容量限制,打破了香農(nóng)極限與馮諾依曼架構的瓶頸[6]。早在20 世紀40 年代,韋弗[7]就已經(jīng)開始研究語義,開創(chuàng)了語義通信的研究先河。隨后,Schrejder 從解釋文本的角度探討了語義信息論問題[8]。受這些開創(chuàng)性工作的啟發(fā),Bao 等人[9]回顧了量化語義信息的現(xiàn)有工作,然后研究了語義數(shù)據(jù)壓縮和可靠語義通信的模型理論方法。近年來,在深度學習技術的推動下,涌現(xiàn)了大量端到端語義通信系統(tǒng)模型,有面向文本的語義通信[10-13],有面向圖像的語義通信[14-16],也有面向語音的語義通信[11,17]。根據(jù)接收端的任務類型,迄今為止的基于深度學習的語義通信傳輸工作主要分為數(shù)據(jù)重建和執(zhí)行具體任務兩類。
對于數(shù)據(jù)重建形式來說,語義通信系統(tǒng)的構建主要是在信源部分提取信源的語義信息,然后通過信道傳輸在接收端進行重建。具體來說,比如Wang 等人[12]提出了一種用于文本數(shù)據(jù)傳輸?shù)恼Z義通信框架,發(fā)送端從文本數(shù)據(jù)中提取語義信息,將其傳輸給用戶,然后用戶使用圖到文本的生成模型恢復原始文本。張振國等人[15]提出了一種基于深度學習的圖像語義通信系統(tǒng),該系統(tǒng)在發(fā)送端提取信源信息不同類型和不同形式的語義特征,并在接收端融合各類型語義特征進行目標語義恢復。
對于執(zhí)行具體任務,只有與任務相關的語義信息被提取并傳輸?shù)浇邮斩?,在接收端利用接收到的相關語義信息執(zhí)行具體任務。比如,Dinh 等人[18]提出了一種提取圖像對象之間的語義關系并進行分類的方法,應用于基于語義的圖像檢索系統(tǒng)。劉傳宏等人[19]基于深度學習方法提出了人工智能物聯(lián)網(wǎng)(Artificial Intelligence Internet of Things,AIoT)中面向圖像分類的語義通信方法。Pan 等人[20]提出了一種圖像分割語義通信系統(tǒng),該系統(tǒng)從感知圖像中提取語義特征,并將特征傳輸給接收車輛,由接收車輛進行圖像分割,以幫助車輛做出駕駛決策。然而,大多數(shù)現(xiàn)有的面向具體任務的語義通信傳輸系統(tǒng)都存在一個問題,即信道變化情況下的適應性問題。機器學習算法的步驟通常分為訓練階段和預測階段[21]。在訓練階段調(diào)整好需要的參數(shù),并利用數(shù)據(jù)集進行訓練,得到訓練好的模型,然后在預測階段利用訓練好的模型預測未來的數(shù)據(jù)樣本。通常的面向機器視覺任務的語義通信系統(tǒng)在訓練階段都是在固定信道信噪比的條件下進行訓練,得到的訓練模型是該信噪比下的專用模型,只有當預測階段的信道信噪比條件與之相似時,才能夠得到較好的預測結果。然而實際上語義通信的信道條件是變化的,如果想要在實際情況下進行通信傳輸后得到最佳性能,就需要多次訓練相應的信噪比條件模型。然而這樣的方式會導致訓練階段占用更多的計算資源和測試階段更高的存儲需求。
為了解決上述問題,本文提出一種面向圖像分類任務的自適應語義通信框架。該框架在AIoT中面向智能任務的語義通信方法[19]的基礎上,聯(lián)合信源信道編碼(Joint Source-Channel Coding,JSCC),采用軟注意力機制根據(jù)信噪比和語義概念自適應調(diào)整要傳輸?shù)呐c任務相關的語義特征順序,在降低需要傳輸?shù)臄?shù)據(jù)量的同時不影響任務執(zhí)行性能,并且大大節(jié)省數(shù)據(jù)發(fā)送端計算資源,降低資源消耗。
以任務為驅動的語義通信,其目的在于確保有效的語義信息傳遞與理解,以實現(xiàn)特定的目標或完成特定的任務。這種通信方式可以通過去除與任務無關的冗余數(shù)據(jù),顯著降低帶寬消耗和傳輸延遲,最大限度地提高傳輸效率和準確性。
圖1 是傳統(tǒng)數(shù)字通信系統(tǒng),通過分離或聯(lián)合信源信道編碼器將信源編碼為比特流經(jīng)過無線信道進行傳輸,接收端以相應的解碼流程解碼,最終達到數(shù)據(jù)重建的目的。
圖1 傳統(tǒng)數(shù)字通信系統(tǒng)
圖2 和圖3 分別展示了兩種目前最通用的面向任務的語義通信系統(tǒng)框架。圖2 是一種通用的面向任務的語義通信系統(tǒng),通過分離的信源語義編碼器和信道編碼提取并編碼壓縮與任務相關的語義特征,并通過數(shù)字通信將其轉換為比特流進行傳輸,在接收端解碼,以執(zhí)行相應任務。由于針對傳統(tǒng)數(shù)字通信系統(tǒng)的研究較為廣泛,圖2 所示方法相較而言更易于實現(xiàn),只需要深入研究信源語義編碼器即可。圖3 展示了另一種通用的面向任務的語義通信系統(tǒng),與圖2 所示系統(tǒng)相比,該系統(tǒng)采用了端到端的聯(lián)合信源信道編碼方法[10],在編碼器階段直接將提取到的與任務相關的語義特征映射為可傳輸?shù)耐ǖ婪枴?/p>
圖2 面向任務的語義通信系統(tǒng)1
圖3 面向任務的語義通信系統(tǒng)2
雖然香農(nóng)分離定理[22]證明了在傳輸無限長比特時,分離的信源編碼與信道編碼能夠實現(xiàn)理論上的最優(yōu)性能,其模塊化的設計能實現(xiàn)靈活的調(diào)整。然而,實際中并不能滿足香農(nóng)定理的無限位假設,并且實際接收端接收到的信息受到信源編碼和信道編碼的共同影響,因此在面向任務的語義通信中更多的是考慮使用聯(lián)合信源信道編碼方法。此外,深度學習的快速發(fā)展使得聯(lián)合信源信道編解碼更具實現(xiàn)的可能性。
與傳統(tǒng)的數(shù)字通信系統(tǒng)相比,面向任務的語義通信系統(tǒng)最大的突破在于提取信源語義層級信息并且篩選與任務相關的信息進行傳輸,并基于深度學習的方法將編碼器、解碼器和物理信道一起以端到端的方式進行訓練,每個訓練模型都是用特定的信道信噪比進行訓練的。對整個通信過程從原始信源輸入到最終任務執(zhí)行進行優(yōu)化得到全局最優(yōu)網(wǎng)絡,在測試時,當信道信噪比與其相應的訓練信噪比相似時,能達到任務執(zhí)行的最優(yōu)性能。
針對機器視覺任務中的圖像分類,目前已有的語義通信系統(tǒng)大多被設計為在特定的信噪比下訓練模型,在預測階段應用相似的信噪比。然而,這種方式忽略了實際任務中信道因多徑衰落、路徑損耗、干擾和噪聲等影響會在一定范圍內(nèi)進行波動,一旦信噪比條件偏離最佳點就會造成性能下降,想實現(xiàn)最佳性能就得多次訓練不同信噪比條件下的網(wǎng)絡模型用以切換。這種對實際動態(tài)變化信道條件的忽視往往會導致計算效率低下和存儲資源的浪費,在資源有限的情況下并不能很好地完成最終任務目標。針對這一問題,本文提出了一種面向圖像分類任務的自適應語義通信方法。圖4 展示了所提方法的框架。
圖4 面向圖像分類任務的自適應語義通信框架
該框架基于深度學習的信源信道聯(lián)合編解碼(Deep Joint Source-Channel Coding,DJSCC)方案,將信源編碼器和信道編碼器串聯(lián)在一起,加入軟注意力機制,并根據(jù)信噪比條件和基于梯度的語義關系調(diào)整信源語義特征權重,在固定壓縮比下壓縮更多相對權重值更小的與任務無關的語義特征,使得單次自適應模型訓練與多次固定模型訓練相比,在最終執(zhí)行圖像分類任務時能獲得相似甚至更高的準確率。
為方便配合信噪比調(diào)整信源編碼和信道編碼的資源分配,考慮采用DJSCC 編碼器對輸入的預處理圖像進行語義特征提取及編碼。語義特征的提取采用的是卷積神經(jīng)網(wǎng)絡,并在最后一層卷積層后加入基于軟注意力機制的模塊,根據(jù)學習到的信噪比動態(tài)調(diào)整提取到的語義特征權重,以便后續(xù)對具有權重值的語義特征進一步基于語義關系進行壓縮傳輸。
接收端接收到具有語義權重的語義信息之后進入由全連接層組成的全連接分類器,將信息映射到不同的類別,得到分類依據(jù)。最后,利用Softmax函數(shù)得到圖像分類結果。
圖4 中發(fā)送端輸入維度為n的圖像x0∈Rn,其中R 為實數(shù)集。發(fā)送端將圖像x0輸入DJSCC 編碼器fθ中,得到具有信噪比自適應特性的語義特征x',編碼過程可以表示為:
式中:θ為DJSCC 編碼器的參數(shù)集,μ為反饋給DJSCC 編碼器的信噪比。
為適應大范圍信道信噪比條件,解決因多次訓練合適的信噪比條件模型而造成的計算資源消耗過多的問題,加入軟注意力機制來達到這一目的。
模型框架中加入的軟注意力機制結構如圖5所示,將前面一層卷積層提取的語義特征xa作為自適應模塊的輸入,xa=[xa1,xa2,xa3,…,xac]∈Rc×h×w,其中,c為語義特征的數(shù)量,h和w代表特征的高和寬。對xa使用全局平均池化函數(shù)進行池化操作,然后加入信噪比條件SNR與之相連,得到基于信噪比的上下文信息,上下文信息用xb表示,xb=[SNR,xb1,xb2,xb3,…,xbc]∈Rc×1×1。將上下文信息送入主要由兩層全連接層組成的全連接神經(jīng)網(wǎng)絡,從而產(chǎn)生縮放比例因子,最終將產(chǎn)生的比例因子與之前的語義特征xa相乘得到占有不同比例權重的縮放特征x'=[x'1,x'2,x'3,…,x'c]∈Rc×h×w,該縮放特征主要取決于信噪比條件。
圖5 基于軟注意力機制的自適應模塊架構
對于編碼后的特征圖x',將根據(jù)提取到的語義關系再一次進行重要性排序。語義關系的提取采用基于梯度的方法求得,其過程可以表示為:
由式(2)可求得所有特征圖針對語義概念q的重要性權值,再將這些權值按從大到小的順序排序,得到排序后的針對語義概念q的特征圖重要性權值向量,N為特征圖總數(shù)。基于此,可以得到針對所有語義概念的降序特征圖重要性權值矩陣,Q為語義概念的總數(shù)。然后根據(jù)得到的權值矩陣選擇對特征圖進一步進行壓縮,因為排序后與語義概念相關性最強的語義特征圖順序最靠前,相較而言相關性沒那么強的特征圖順序靠后,可選取相對比例靠前的語義特征傳輸給接收端,壓縮掉剩余弱關聯(lián)性語義特征,在進一步減少傳輸數(shù)據(jù)量的同時不影響后續(xù)任務的執(zhí)行。
壓縮后的語義特征通過無線噪聲信道進行傳輸,此處考慮加性高斯白噪聲(Additive White Gaussian Noise,AWGN)信道,AWGN 信道是獨立同分布的高斯白噪聲信道,噪聲的樣本之間是相互獨立的,這種獨立性使得對信道分析更加方便,也更加可靠,因此可以很方便地進行性能分析。壓縮后的語義特征經(jīng)過無線信道傳輸,并被加性高斯白噪聲破壞,隨后被接收器接收,接收到的信號可以表示為:
式中:α∈C為信道增益;e∈CN(0,σ2I)為加性高斯白噪聲,CN表示復高斯分布函數(shù),σ2為噪聲功率。因為在AWGN 信道中,信號傳輸過程中可忽略衰落或干擾的影響,即信號在傳輸過程中的功率保持不變,所以信道增益可以看作恒定的,通常將其表示為單位增益,因此式(3)可以簡化為:
接收器接收到信號y'之后,輸入全連接分類器中,將信號映射到預定義的概念類別上,隨后使用Softmax 函數(shù)將全連接層的輸出轉換為概率分布,表示每個圖像屬于每個類別的概率,以此完成圖像分類任務。由于模型框架最終面向的是圖像分類任務,因此檢驗模型的優(yōu)越性主要體現(xiàn)在最終的分類準確率上。此外,為了考察資源消耗情況,還將檢驗模型的訓練時間復雜度。
為了更好地評估模型框架對面向圖像分類任務的語義通信的性能,并與文獻[19]中的方法進行對比,實驗采用的數(shù)據(jù)集和遷移網(wǎng)絡模型與文獻[19]相同。實驗選擇STL-10[23]數(shù)據(jù)集,它包含來自10個不同類別的圖像,共有5 000 張訓練圖像和8 000張測試圖像,涵蓋了常見的物體和場景,為多類別分類問題提供了良好的基準,并且使用此數(shù)據(jù)集可以評估模型在處理多類別圖像分類任務時的性能,能更好地貼合實際任務情況。STL-10 數(shù)據(jù)集的圖像分辨率為96×96 像素,相對適中,不會太低使得模型無法捕捉更多的細節(jié)和特征,也不會太高導致計算復雜度過高。訓練時首先對圖像進行擴展和隨機裁剪,將圖像尺寸裁剪為224×224;其次將裁剪后的圖像送入訓練網(wǎng)絡。
ResNet18[24]是一個經(jīng)典的深度卷積神經(jīng)網(wǎng)絡模型,具有較好的性能并被廣泛地應用。它在圖像分類任務中表現(xiàn)出色,并且需要的參數(shù)量較少,計算復雜度也較低,因此實驗選擇ResNet18 網(wǎng)絡完成特征提取部分。為了加速目標任務的訓練過程,選擇遷移學習方式,通過下載預訓練的ResNet18 網(wǎng)絡模型作為初始參數(shù),減少需要從頭開始訓練的時間和計算資源。
訓練網(wǎng)絡時迭代次數(shù)Epochs設置為30,Batchsize設置為64,選用隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器,學習率設置為0.001,損失函數(shù)選擇交叉熵損失函數(shù)(crossentropyloss)。
為了適應動態(tài)信噪比條件,在信噪比0~25dB范圍內(nèi)對所提方法進行均勻分布訓練。在特定信噪比下,對對比方法和所提方法的性能進行評價。評價指標選取最終的分類準確率和訓練時間復雜度,分類準確率定義為分類正確圖片數(shù)量與待分類圖片數(shù)量的比值。
實驗中對比方法模型分別在信噪比為0 dB、5 dB、10 dB、15 dB、20 dB和25 dB的條件下進行訓練,本文所提方法從0 dB 到20 dB 進行均勻分布訓練。
圖6 展示了在壓縮比為80%和65%的條件下對比方法和本文所提方法最終得到的圖像分類性能,其中實線代表所提方法分類性能,虛線代表對比方法分類性能。
圖6 不同壓縮比下不同方法在STL-10 測試圖像上的性能
圖6(a)中,當壓縮比為80%時,本文所提方法的性能始終與對比方法的性能保持一致甚至更優(yōu),優(yōu)于對比方法最多能達5%。并且可以看到隨著SNR_test的增大,所提方法性能更穩(wěn)定。圖6(b)中壓縮比為65%時的結果與圖6(a)的結果相似,然而可以看到整體分類準確率有一定的提升,這是因為壓縮率變小了,實際從發(fā)送端傳輸?shù)浇邮斩说恼Z義特征信息變多了,提供給分類任務的依據(jù)更多了。
為了證明本文所提方法擁有更少的計算資源消耗,實驗記錄了為滿足在SNR_test=[0,5,10,15,20,25]條件下獲得最高的圖像分類準確率對比方法和所提方法所需的訓練時間,結果如圖7 所示。結果顯示,所提方法所需訓練時間遠遠少于對比方法所需訓練時間,這是因為為了在相應信噪比條件下獲得最高的圖像分類準確率,對比方法必須分別在固定信噪比下進行多次訓練,而本文所提方法僅需訓練一次即可。
圖7 不同方法的網(wǎng)絡模型訓練時間復雜度對比
針對實際通信傳輸時面臨的信道信噪比動態(tài)變化的挑戰(zhàn),本文提出了一種面向機器視覺任務的語義自適應通信方法,旨在解決面對實現(xiàn)機器視覺任務時現(xiàn)有通信方法無法滿足的低消耗高效處理的需求。本文所提方法將信道信噪比通過軟注意力機制納入語義信息提取過程中,使得提取到的語義信息能自適應動態(tài)變化的實際信道條件,提高了傳輸框架的魯棒性。對比試驗結果表明,本文所提方法不僅在面向圖像分類任務中取得了顯著的性能提升,還能夠節(jié)省計算資源,使其在實際應用中更具可行性。在后續(xù)的研究中,將進一步探索本文所提方法在面向不同的機器視覺任務時的可行性與性能優(yōu)勢。同時,將繼續(xù)研究面向不同機器視覺任務的分層語義提取方法及壓縮傳輸方法,為語義通信的發(fā)展提供更多新思路。