牛凱,戴金晟,張平,姚圣時,王思賢
(1.北京郵電大學(xué)泛網(wǎng)無線通信教育部重點實驗室,北京 100876;2.鵬城實驗室,廣東 深圳 518000;3.北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點實驗室,北京 100876)
2019年11月3日召開的6G技術(shù)研發(fā)工作啟動會,標(biāo)志著我國6G研發(fā)正式提上日程。芬蘭奧盧大學(xué)的6G白皮書[1],列出了6G的主要性能指標(biāo):峰值傳輸速率達(dá)到100 Gbps~1 Tbps;通信時延50~100 μs;超高可靠性:中斷概率小于10-6;超高密度:連接設(shè)備密度達(dá)到每立方米大于100;超大容量:采用THz頻段,大幅度提高網(wǎng)絡(luò)容量??傮w而言,6G系統(tǒng)的性能指標(biāo),相比5G將提升10到100倍。
在未來第六代(6G)移動通信系統(tǒng)中,用戶的智能需求將被進(jìn)一步挖掘和實現(xiàn),并以此為基準(zhǔn)進(jìn)行技術(shù)規(guī)劃與演進(jìn)布局。6G不僅包含5G涉及的人、機、物這3類服務(wù)對象,還引入第四類服務(wù)對象—靈(Genie)[2]。作為人類用戶的智能代理,靈存在于虛擬世界,基于實時采集的大量數(shù)據(jù)和高效機器學(xué)習(xí)技術(shù),存儲和交互用戶的所說、所見和所思,完成用戶意圖的獲取以及決策的制定。由此可見,未來6G移動通信需要服務(wù)人-機-物-靈四類對象,同時滿足低時延高可靠、高頻譜效率、高密度大連接的性能要求。
自從1948年香農(nóng)奠基信息論[3]以來,現(xiàn)代通信技術(shù),特別是移動通信技術(shù)的發(fā)展已經(jīng)逐步逼近通信理論極限,例如信源編碼技術(shù)已經(jīng)逼近了信源熵/率失真函數(shù),LDPC碼、極化碼等先進(jìn)信道編碼技術(shù)已經(jīng)逼近信道容量。建立在概率信息基礎(chǔ)上的通信系統(tǒng),迫切需要技術(shù)突破與變革,才能應(yīng)對未來6G移動通信的發(fā)展需求。
近年來,語義信息(Semantic Information)研究成為學(xué)術(shù)界的關(guān)注熱點。基于語義信息的數(shù)據(jù)傳輸將是非常有競爭力的一種6G候選技術(shù)。本文旨在介紹面向6G傳輸需求的語義通信技術(shù),展望語義信息處理的應(yīng)用前景。
從認(rèn)識論觀點看,信息分為三個層次:語法、語義和語用。經(jīng)典信息論只研究語法信息,在研究范疇、研究層次與研究維度方面存在局限,從而限制了信息與通信系統(tǒng)性能的持續(xù)提升。擴(kuò)展信息研究的層次,從語法信息深入到語義信息,將為通信系統(tǒng)優(yōu)化提供新的研究角度,具有重要的變革意義。
在經(jīng)典信息論誕生后不久,人們就展開了語義信息論的研究。1953年,Weaver[4]考慮了信息分析的三個層次,他指出“與發(fā)射機預(yù)期含義相比,語義問題更關(guān)心接收機對收到信息含義的統(tǒng)一性解釋”。Weaver的先驅(qū)工作啟發(fā)了人們對語義信息的探索與研究。
Carnap與Bar-Hillel提出了語義信息論[5-6]的概念框架,試圖對傳統(tǒng)通信理論進(jìn)行補充。他們認(rèn)為語句中含有的語義信息,應(yīng)當(dāng)基于語句內(nèi)容的邏輯概率來定義。Barwise與Perry進(jìn)一步提出了場景邏輯原則定義語義信息[7]。Floridi提出強語義信息理論[8],指出Carnap語義信息理論中,語句矛盾將具有無窮大的信息。2011年,Alfonso進(jìn)一步引入了類真性概念[9],對語義信息進(jìn)行度量。鐘義信從信息的三位一體特征出發(fā),對語義信息理論進(jìn)行總結(jié),證明語義信息表征具有唯一性[10]。
盡管人們一直在進(jìn)行語義信息的研究探索,但與經(jīng)典信息論相比,語義信息的理論框架遠(yuǎn)未成熟,語義信息的定義與度量也尚未達(dá)成一致。最近二十年,腦科學(xué)與認(rèn)知科學(xué)取得了巨大進(jìn)展,特別是神經(jīng)認(rèn)知科學(xué)的發(fā)展,對神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)理論產(chǎn)生了深遠(yuǎn)影響。最近,華為公司提出的后香農(nóng)時代十大問題[11],將語義信息論列為首要的基礎(chǔ)理論問題。人們對語義信息的度量、提取與表征的關(guān)注越來越多,這一方向有望成為6G移動通信的基礎(chǔ)理論之一。
正如Weaver所指出的,語義信息不僅與發(fā)送者有關(guān),更與接收者的理解有關(guān),因此具有概率性與模糊性的雙重不確定性。事實上,具有語法與語義特征的信源均為廣義信源,既具有隨機性,又具有模糊性,單純的隨機和模糊不能全面刻畫廣義信源特征。
經(jīng)典信息論建立在概率論基礎(chǔ)上,不考慮信息的內(nèi)容和含義,它主要對信息的隨機性進(jìn)行度量,稱為信息熵,確切地說,是概率信息熵。但現(xiàn)實生活中,最常用的便是自然語言信息,也即語義信息,其典型特征是模糊性。比如:高、矮、胖、瘦、大概、差不多等,這些語義描述是模糊變量而不是隨機變量,需要借助模糊集合論作定性和定量分析。
1972年,De Luca與Termini[12-13]首先研究了純模糊性引入的不確定性,把概率信息熵移植到了模糊集合上,給出了模糊熵的定義。他們將隨機與模糊這兩方面不確定性的聯(lián)合熵定義為總熵,但這個定義不便于推廣。1982年吳偉陵進(jìn)一步推廣了模糊熵概念,提出了廣義聯(lián)合熵、廣義條件熵與廣義互信息[14],建立了語義信息的基本度量方案。
原則上,已知概率分布,選擇合適的隸屬函數(shù),對于給定信源,就可以計算信源的概率熵與模糊熵,從而度量信源的語法與語義信息。但是由于語義信息蘊含在語法信息中,隸屬函數(shù)通常都是復(fù)雜的非線性形式,并且可能動態(tài)變化,因此式(2)的廣義熵形式只具有理論意義,難以對語義通信進(jìn)行實際指導(dǎo)。文獻(xiàn)[15]提出了語義基(Seb, Semantic Base)的思想,基于神經(jīng)網(wǎng)絡(luò)模型,提取語義特征,用于語義信息度量,避免了隸屬函數(shù)選擇的困難問題,是值得深入研究的新思路。
基于概率與模糊二重不確定性的廣義熵以及廣義互信息,對于面向6G的語義通信系統(tǒng)優(yōu)化,具有重要的理論指導(dǎo)意義。但這些語義信息的定量指標(biāo)分析仍然是開放問題,還需要隨著語義信息論的發(fā)展,逐步明確并加以完善。
所謂語義通信(Semantic Communications),是指從信源中提取語義信息并編碼,在有噪信道中傳輸?shù)耐ㄐ欧绞?。傳統(tǒng)的語法通信,要求接收端譯碼信息與發(fā)送端編碼信息嚴(yán)格一致,即實現(xiàn)比特級的無差錯傳輸。而語義通信與之相反,并不要求譯碼序列與編碼序列嚴(yán)格匹配,只要求接收端恢復(fù)的語義信息與發(fā)送語義信息匹配即可。由于放松了信息傳輸?shù)牟铄e要求,語義通信有望突破經(jīng)典通信系統(tǒng)的傳輸瓶頸,為6G移動通信提供新的解決思路[15]。
學(xué)術(shù)界對于語義通信已經(jīng)有一些初步研究。Xie等人[16]針對文本信息傳輸提出了基于深度學(xué)習(xí)的語義通信系統(tǒng)(DeepSC),初步考慮了信源-信道聯(lián)合編碼,使接收端從語義角度恢復(fù)文本。針對文本信源,F(xiàn)arsad等人[17]設(shè)計了基于雙向長短期記憶模型(BiLSTM)的語義編解碼方案,本文作者提出了改進(jìn)方案[21],可以達(dá)到滿意的語義誤詞率(WER, Word Error Rate)性能。針對圖像信源,Gunduz與Kurka等人基于卷積神經(jīng)網(wǎng)絡(luò),設(shè)計了多種模擬式的語義編解碼方案[18-20],具有顯著的壓縮效率,并且能夠?qū)篃o線信道傳輸中的差錯。
如前所述,在6G移動通信的各種場景中,人-機-物-靈四類通信對象之間會產(chǎn)生大量不同形態(tài)的數(shù)據(jù),各種對象之間的通信不再僅僅是傳輸比特數(shù)據(jù),而是借助其“智能”特性實現(xiàn)以“達(dá)意”為目標(biāo)的語義通信。智能任務(wù)復(fù)雜多變,語義通信對實現(xiàn)6G業(yè)務(wù)對象間的高效通信與準(zhǔn)確控制具有重要意義,有著廣闊的研究和應(yīng)用前景。
面向6G移動通信的語義通信系統(tǒng)如圖1所示,在發(fā)送端,信源產(chǎn)生的信息首先送入語義提取模塊,產(chǎn)生語義表征序列,接著送入語義信源編碼器,對語義特征壓縮編碼,然后送入信道編碼器,產(chǎn)生信道編碼序列,送入傳輸信道。在接收端,信道輸出信號首先送入信道譯碼模塊,輸出的譯碼序列再送入語義信源譯碼器,得到的語義表征序列再送入語義恢復(fù)與重建模塊,最終得到信源數(shù)據(jù)送入信宿。
圖1 面向6G的語義通信系統(tǒng)結(jié)構(gòu)
在語義通信系統(tǒng)中,信道編譯碼器屬于經(jīng)典通信系統(tǒng),而語義提取與編碼模塊則屬于語義通信系統(tǒng),經(jīng)典通信信道通過統(tǒng)計轉(zhuǎn)移概率建模,而語義信道則通過語義標(biāo)簽之間的邏輯轉(zhuǎn)移概率來建模。
語義通信與經(jīng)典通信最重要的差異在于,語義編碼與譯碼模塊基于海量數(shù)據(jù)訓(xùn)練的知識庫,通過深度學(xué)習(xí)網(wǎng)絡(luò),提取與重建語義信息,該過程對經(jīng)典信號傳輸提供強先驗知識,有效提升傳輸有效性和可靠性。在發(fā)送端,語義提取模塊基于知識庫和深度學(xué)習(xí)網(wǎng)絡(luò),對信源消息提取語義特征。其中,語義提取模塊根據(jù)信源冗余特性,采用不同結(jié)構(gòu)的深度學(xué)習(xí)網(wǎng)絡(luò)模型。例如,時序以及文本信源采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)網(wǎng)絡(luò)模型、圖像信源采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型、圖數(shù)據(jù)源采用圖卷積網(wǎng)絡(luò)(GCN)模型。在接收端,語義綜合模塊基于知識庫和深度學(xué)習(xí)網(wǎng)絡(luò),對接收的語義信息進(jìn)行重建。若信源具有多模態(tài)或異構(gòu)性,則語義提取編碼時還需要對多源數(shù)據(jù)進(jìn)行語義綜合。收發(fā)兩端共享云端知識庫,通過數(shù)據(jù)驅(qū)動的方法賦予神經(jīng)網(wǎng)絡(luò)特定場景下的先驗知識。
定義知識庫K,設(shè)信源消息集合為X,語義信息集合為S,語義消息碼序列構(gòu)成的集合為U,信宿接收碼序列集合為V,重建語義信息集合為S′,信宿譯碼消息集合為Y。
當(dāng)H(S) 與香農(nóng)信道容量類似,語義信道容量定義為可以實現(xiàn)任意小語義誤差的最大傳輸速率: 其中,I(S;S′)為S與S′之間的互信息,H(Y)為接收端語法信息Y的熵。 基于語義信道容量或語義率失真函數(shù)的通信系統(tǒng)優(yōu)化,為6G移動通信高譜效、高可靠通信提供了新的技術(shù)思路。但是,如前所述,現(xiàn)有語義信息論研究在語義信息度量與優(yōu)化指標(biāo)方面還沒有明確結(jié)論。因此,語義信息熵、語義信道容量、語義率失真函數(shù)建模與評估還是開放問題,需要進(jìn)一步深入研究。 在語義通信系統(tǒng)結(jié)構(gòu)的基本框架下,本文針對典型文本和圖像信源,采用不同的語義編解碼器,根據(jù)語義評價指標(biāo),設(shè)計對應(yīng)的語義通信系統(tǒng)結(jié)構(gòu)。 對于文本信源,傳輸?shù)哪康氖莻鬟f文本表達(dá)的內(nèi)容及含義,而文本的組織方式,如助詞、連接詞、標(biāo)點符號的使用是實現(xiàn)通暢且符合語法規(guī)則表達(dá)文本內(nèi)容的手段。因此文本信源除具有統(tǒng)計冗余外,還含有額外的語義冗余。文本信源可采用雙向長短期記憶(BiLSTM)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語義提取與關(guān)聯(lián)建模[17,21],如圖2所示: 圖2 基于BiLSTM網(wǎng)絡(luò)的文本語義編碼傳輸示意 文本語義編碼傳輸?shù)脑u估指標(biāo)包括: (1)誤詞率(WER)。誤詞率可以用歸一化Levenshtein距離(編輯距離)評估。 (2)雙語評估替換分?jǐn)?shù)(BLEU, Bilingual Evaluation Understudy)可評估任意兩段文本之間的差異性。連續(xù)n個單詞(n-gram)準(zhǔn)確率越高,恢復(fù)語義越準(zhǔn)確。BLEU為n-gram準(zhǔn)確率的加權(quán)得分,定義如下: 其中Pn為n-gram的準(zhǔn)確率,wn為權(quán)重系數(shù)。 圖3給出了在占用相同帶寬條件下,傳統(tǒng)編碼與文本語義編碼在AWGN信道下的傳輸性能對比,其中文本信源采用BiLSTM模型進(jìn)行編碼,信道編碼采用LDPC碼,碼率R=0.75。子圖(a)為WER性能,子圖(b)為BLEU分?jǐn)?shù)。如圖3(a)所示,語義編碼傳輸方案的誤詞率遠(yuǎn)低于傳統(tǒng)信源信道編碼方案,如Huffman編碼,定長5 bit編碼與RS編碼。圖3(b)給出了文本語義編碼在不同句長條件下的平均BLEU分?jǐn)?shù)和長句(30詞)的重建分?jǐn)?shù)。由圖可知,與傳統(tǒng)的Huffman+RS編碼相比,語義編碼傳輸?shù)腂LEU分?jǐn)?shù)有大幅度提升,特別是在低信噪比條件下,能顯著改善傳輸可靠性。 圖3 傳統(tǒng)編碼與文本語義編碼的性能對比 下面給出文本語義編碼在AWGN信道中傳輸?shù)囊粋€樣例: 原始文本:I hope that even more study courses will be set up which offer this as an integral part of the course. 5bit編碼+RS編碼重建文本:i t!pe dhat evmn moqe qtudy aourses will ba gt up which offer dfis as an integzal part of xgm cpurse. 語義編碼重建文本:I hope that even more study reading can be applied, which already this as an integral part of the course. 對比原始文本與5 bit編碼+RS編碼重建文本、語義編碼重建文本可知,由于傳統(tǒng)編碼存在差錯,因此重建文本存在語義錯誤。而語義編碼能夠很好地對抗信道傳輸差錯,其重建文本與原始文本的含義一致。 圖4 圖像語義編碼傳輸框架 將語義提取與編碼網(wǎng)絡(luò)、語義分析與綜合網(wǎng)絡(luò)級聯(lián)信道編譯碼模塊在無線信道中進(jìn)行聯(lián)合訓(xùn)練,采用隨機梯度下降算法迭代更新網(wǎng)絡(luò)的參數(shù),網(wǎng)絡(luò)的損失函數(shù)L建模為: 其中α和β用于權(quán)衡兩種失真。 模型的訓(xùn)練集采集自真實工業(yè)場景的監(jiān)控攝像頭,分辨率為256×256,訓(xùn)練500 000次迭代后使用1 080p分辨率進(jìn)行微調(diào)。訓(xùn)練過程固定學(xué)習(xí)率為0.000 2,當(dāng)loss穩(wěn)定時對學(xué)習(xí)率進(jìn)行一次0.1倍的衰減。在幀內(nèi)編碼模式(全I(xiàn)幀)下與H.264經(jīng)典編碼方案進(jìn)行比較,信道編碼為LDPC碼。由于經(jīng)典的逐像素比較指標(biāo)如峰值信噪比(PSNR)、多尺度結(jié)構(gòu)相似度(MS-SSIM)[22]往往與用戶的真實感知相去甚遠(yuǎn),本文采用基于深度學(xué)習(xí)的圖像相似度指標(biāo)LPIPS[23]用于評估圖像的感知相似度,仿真參數(shù)配置如表1所示: 表1 仿真參數(shù)配置 由表可知,H.264編碼級聯(lián)LDPC信道碼方案雖然在PSNR評價指標(biāo)上占據(jù)優(yōu)勢,但在用戶感知相似度(LPIPS)接近的情況下,語義編碼方案的編碼速率僅有H.264編碼方案的1/5,因此前者相比后者,能大幅度降低傳輸帶寬開銷,從而顯著提升了頻譜效率。 圖5給出了AWGN信道下兩種編碼方案的重建樣本對比??梢钥闯鯤.264+LDPC重建圖像(子圖(c))產(chǎn)生了差錯傳播現(xiàn)象,而語義編碼傳輸方案(子圖(b))對信道差錯更魯棒,且重建質(zhì)量與在主觀感受上沒有差距。 圖5 H.264編碼與圖像語義編碼對比示例 本文簡述了語義信息論以及語義編碼通信技術(shù)的基本原理。語義編碼通過對信源語義信息的深度挖掘與充分利用,有望突破經(jīng)典信息論的約束,為6G移動通信的高頻譜效率與高可靠傳輸提供新型解決思路。 目前,語義通信技術(shù)仍然在快速發(fā)展中,語義信息論有眾多基本概念與基礎(chǔ)問題亟待討論與完善,針對多種信源媒體特征的語義編譯碼方案層出不窮,但編碼方案的優(yōu)化設(shè)計與適用場景還需要深入探討??偠灾?,面向6G的語義通信技術(shù),是一個新的研究領(lǐng)域,存在大量的理論與應(yīng)用問題,需要學(xué)術(shù)界同仁共同推動完成。3 語義通信初步結(jié)果
3.1 文本信源的語義編碼傳輸
3.2 圖像信源的語義編碼傳輸
4 結(jié)束語