李衛(wèi) 馬駿 辛蕾 李峰,*
基于重建輔助的壓縮學(xué)習(xí)圖像分類
李衛(wèi)1,2馬駿1辛蕾2李峰2,*
(1 河南大學(xué)軟件學(xué)院,開封 475100)(2 中國空間技術(shù)研究院錢學(xué)森空間技術(shù)實驗室,北京 100094)
壓縮感知理論認為可以從少量測量中重建稀疏信號,盡管壓縮感知能夠?qū)崿F(xiàn)低成本采樣,但其重建過程需要高昂的代價。已有的研究工作成果表明,圖像分類可以在測量域進行,而無需重建信號,但目前直接從壓縮測量中推理難以提取到深層次特征,無法獲得較好的分類效果,針對此問題,為了進一步提升分類結(jié)果,文章提出了一種帶有重建輔助的深度學(xué)習(xí)框架直接從圖像的壓縮測量中推斷分類。該框架在分類網(wǎng)絡(luò)中加入了重建分支作為輔助,聯(lián)合重建損失與分類損失組合成一個新的加權(quán)損失函數(shù)調(diào)整網(wǎng)絡(luò)參數(shù),幫助網(wǎng)絡(luò)提取深層次特征。重建分支只在訓(xùn)練階段使用來調(diào)整網(wǎng)絡(luò)參數(shù),在訓(xùn)練完成后,重建分支將被舍棄,在實際使用中將不會增加分類任務(wù)的時間成本,并保護了數(shù)據(jù)的隱私。在MNIST和CIFAR-10數(shù)據(jù)集上進行了實驗,結(jié)果表明,相比現(xiàn)有方法,所提出的方法在不增加使用成本的情況下有效提高了分類準確度,在兩數(shù)據(jù)集上最高分別提升了1.19個百分點和17.69個百分點,為基于壓縮測量的直接推理研究提供了新思路。
壓縮感知 深度學(xué)習(xí) 圖像分類 圖像重建 輔助任務(wù) 壓縮學(xué)習(xí) 遙感應(yīng)用
在對大量信號進行采樣且需要節(jié)約傳輸與存儲成本的實際應(yīng)用中,通常需要對原始數(shù)字信號壓縮,消除冗余信息。但傳統(tǒng)高速采樣再壓縮的方式在采樣和壓縮階段都浪費了大量資源。壓縮感知(Compressed Sensing,CS)理論的提出打破了這種現(xiàn)狀[1-5]。該理論認為如果信號本身具有稀疏性或在某個變換域是稀疏的,那么它可由遠低于奈奎斯特采樣定理要求的觀測值數(shù)量重構(gòu)原信號。CS將采樣與壓縮融合,在采樣時便完成了壓縮,規(guī)避了以往方法的缺點。對CS采樣信號重構(gòu)往往不是最終目標,人們更關(guān)注對采樣信號本身所包含信息的處理,如檢測、分類等。壓縮感知框架下的采樣信號的處理工作通常需要兩個階段,第一階段對信號進行重構(gòu),第二階段對重構(gòu)信號進行推理。然而CS重構(gòu)算法往往有著較高的計算成本。因此,直接從壓縮測量中推理就變得相當(dāng)重要。
近年來,關(guān)于CS測量直接推斷的研究已經(jīng)取得了一些進展。Haupt等人基于M-ary假設(shè)檢驗研究了CS投影觀測在信號分類的應(yīng)用[6];Davenport等人研究了直接在壓縮感知測量上進行推斷的問題,提供了一些理論邊界和實驗結(jié)果[7];Davenport等人提出了粉碎濾波器[8],表明如果滿足Johnson-Lindenstrauss引理[9],可以在CS中執(zhí)行分類任務(wù)。之后,不同版本的粉碎濾波器又被研究用于人臉、動作識別[10-11]。Calderbank等人在工作中引入了“壓縮學(xué)習(xí)”(Compressive Learning,CL)一詞代表直接在測量領(lǐng)域進行學(xué)習(xí)而無需付出將數(shù)據(jù)恢復(fù)到高維數(shù)據(jù)域的代價,其研究在理論上表明,在壓縮域上運行的線性支持向量機分類器的性能與在原始信號空間上運行的最佳線性分類器幾乎一樣好[12]。
深度神經(jīng)網(wǎng)絡(luò)近年來發(fā)展迅速[13],Lohit等人首次將神經(jīng)網(wǎng)絡(luò)用于從CS測量中直接提取非線性特征[14]。該方法使用觀測矩陣獲取圖像壓縮測量值,并通過一個簡單的投影操作產(chǎn)生一個原尺寸代理圖像作為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的輸入執(zhí)行分類推理任務(wù)。還提出了兩種投影方法,一種是使用轉(zhuǎn)置后的觀測矩陣,另一種是使用一個帶有可學(xué)習(xí)參數(shù)的全連接層(Fully Connected Layer,F(xiàn)C)。Adler等人提出了一種聯(lián)合可學(xué)習(xí)的觀測矩陣與推理任務(wù)的方法[15]。其使用兩個FC分別表示觀測矩陣與投影操作,通過聯(lián)合后續(xù)CNN執(zhí)行分類任務(wù)。Xuan等人針對文獻[15]的網(wǎng)絡(luò)結(jié)構(gòu)進行了一些更新,包括激活函數(shù)的選擇、投影FC的調(diào)整以及一個正則化的損失函數(shù)等[16]。文獻[17]則是在上述工作[14-15]中產(chǎn)生的代理圖像上通過一種基于離散余弦變換的方法從中提取二進制特征,并與CNN所提取的特征進行融合執(zhí)行分類任務(wù),在較低采樣量下取得了不錯的結(jié)果。
這些CL方法都致力于跳過重建階段,直接從壓縮測量中提取特征執(zhí)行推理任務(wù),來降低計算復(fù)雜度與處理時間,同時保護數(shù)據(jù)的隱私,但相比重建后的數(shù)據(jù),直接從壓縮測量中進行推理是非常具有挑戰(zhàn)性的。目前對于復(fù)雜圖像壓縮測量的分類任務(wù)仍然存在準確度較低的問題。是否存在一種折中方案,在保留CL優(yōu)點的同時加入重建?基于這樣的思考,本文提出了一種基于深度學(xué)習(xí)帶有重建輔助的CL框架用于圖像分類,該框架在執(zhí)行分類任務(wù)的深度網(wǎng)絡(luò)中加入了一個重建分支作為分類任務(wù)的輔助任務(wù),聯(lián)合重建損失與分類損失組合成一個新的加權(quán)損失函數(shù),通過重建與分類任務(wù)共同調(diào)整網(wǎng)絡(luò)參數(shù),幫助網(wǎng)絡(luò)提取深層次特征。重建分支只在訓(xùn)練過程中使用來調(diào)整網(wǎng)絡(luò)參數(shù),在訓(xùn)練完成后,重建分支將被舍棄,在實際使用中將不會增加網(wǎng)絡(luò)分類任務(wù)的時間成本,且并無實際重建內(nèi)容的產(chǎn)生,保護了數(shù)據(jù)的隱私。在MNIST[18]和CIFAR-10[19]數(shù)據(jù)集上測試了所提出的方法。結(jié)果表明,所提出的方法在保留CL優(yōu)點的同時有效提高了分類準確度。
本文所提方法在現(xiàn)有框架[14-16]的基礎(chǔ)上,加入了重建分支作為輔助任務(wù),在框架結(jié)構(gòu)上與現(xiàn)有方法的區(qū)別如圖1所示。
圖1 基于深度學(xué)習(xí)的壓縮學(xué)習(xí)圖像分類框架
壓縮與投影模塊主要用于壓縮圖像數(shù)據(jù),以及在進入分類網(wǎng)絡(luò)前將壓縮數(shù)據(jù)投影回壓縮前數(shù)據(jù)量形成一張代理圖像。投影可以看作是替代重建的操作,跳過復(fù)雜的重建過程,用一個簡單的投影操作來生成一個偽重建圖像。其結(jié)構(gòu)如圖2所示。
圖2 壓縮與投影模塊的結(jié)構(gòu)
為了驗證本文方法的效果,在實驗中采用了四種壓縮與投影方法。分別將其命名為CP-1[14]、CP-2[14]、CP-3[15]、CP-4。前三種是現(xiàn)有CL方法所采用的壓縮與投影方法,CP-4是本文基于CP-3的修改,意在探究代理圖像尺寸對本文方法的影響。四種方法如圖3所示。
圖3 四種壓縮與投影方法
CP-1與CP-2在數(shù)據(jù)獲取上采用的觀測矩陣是固定的,其優(yōu)點在于與后續(xù)分類網(wǎng)絡(luò)是分離的,可應(yīng)用于多種場景,在星上任務(wù)中有著較為靈活、廣泛的應(yīng)用。CP-2通過將投影過程可學(xué)習(xí)化提高了與分類網(wǎng)絡(luò)的配合,在較少采樣數(shù)據(jù)下取得了比CP-1更好的效果,但在較多采樣數(shù)據(jù)下存在過擬合的問題,相較于CP-1效果差。CP-3通過將觀測矩陣與投影過程可學(xué)習(xí)化,在較少采樣數(shù)據(jù)下取得了比CP-2更好的結(jié)果,但在較多采樣數(shù)據(jù)下同樣因過擬合問題相較于CP-1效果差,且由于觀測矩陣的可學(xué)習(xí)化,在不同場景需要學(xué)習(xí)不同的觀測矩陣,在星上應(yīng)用將會受到較大限制。提出CP-4探究尺寸影響是因為較小的代理圖像尺寸將會在訓(xùn)練與使用時花費更少的時間成本,具有一定研究價值。以上這些結(jié)果差異均來自現(xiàn)有CL方法。
在本文實驗中,CP-1和CP-2中的與T使用noiselet[21-22]變換域下的隨機采樣作為觀測矩陣,對采樣數(shù)據(jù)的逆變換作T。
第二部分是分類網(wǎng)絡(luò),本文采用較為先進的分類網(wǎng)絡(luò)之一,寬殘差網(wǎng)絡(luò)(Wide Residual Network,WRN)[23]。WRN是ResNet[24]的一種擴展,比ResNet更注重于縮減長度而加大寬度。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 WRN結(jié)構(gòu)
為了使分類網(wǎng)絡(luò)具有重建能力,將重建分支加入分類網(wǎng)絡(luò)中。用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)通常會通過一系列的池化層來逐步降低特征圖的尺寸[23-27]以實現(xiàn)降維與減少計算量,而重建任務(wù)最終得到的是一張與真實圖像同尺寸的圖像。進入重建分支的特征圖尺寸是小于原圖尺寸的,重建分支用于提升特征圖的尺寸到原圖尺寸,并對通道降維得到一張圖像,最終以真實圖像計算損失來調(diào)整網(wǎng)絡(luò)參數(shù)。
本文采用亞像素卷積(PixelShuffle)[28]進行上采樣操作,PixelShuffle通過對特征圖多通道重組來提升圖像尺寸,即將多個通道上的特征圖拼接在一起,以降低通道數(shù)為代價來提升圖像尺寸。圖5給出了重建分支的具體結(jié)構(gòu)。
圖5 重建分支結(jié)構(gòu)
現(xiàn)有基于深度學(xué)習(xí)的CL方法主要通過計算預(yù)測標簽與真實類別標簽之間的損失來求解如下的優(yōu)化問題進行網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)。
(2)
本文方法框架中的參數(shù)分布與正向計算流程,如圖6所示。
圖6 參數(shù)分布與正向計算流程
在本文方法中,額外加入了重建分支,整體網(wǎng)絡(luò)的最終輸出變?yōu)閮刹糠?,且將會計算兩個損失,預(yù)測標簽與真實標簽計算損失loss1,重建圖像與真實圖像計算損失loss2,兩個損失的計算可表示為:
組織蛋白、酸性磷酸酶(ACP)、堿性磷酸酶(AKP)、溶菌酶(LSZ)試劑盒均購買于南京建成生物工程研究院。水蛭素活性測定采用《中國藥典》2010版規(guī)定的測定方法及陳華友等[12]提供的方法(數(shù)據(jù)體現(xiàn)時,在相應(yīng)標號前增加指標英文縮寫,如“LSZss”代表配合飼料組嗉囊組織中溶菌酶的活力)。
實驗平臺為搭載Ubuntu 18.04.6 LTS系統(tǒng)的計算機。硬件配置:Quadro RTX 5000顯卡、IntelRXeon(R) Gold 5218處理器、128GB內(nèi)存。采用Pytorch深度學(xué)習(xí)框架。軟件配置:Pytorch 1.11.0、Torchvision 0.12.0、CUDA Version:11.4。
實驗使用MNIST和CIFAR-10數(shù)據(jù)集作為實驗數(shù)據(jù)集。訓(xùn)練網(wǎng)絡(luò)時使用Adam優(yōu)化器來更新網(wǎng)絡(luò)參數(shù)。批次大小設(shè)置為128。總數(shù)據(jù)訓(xùn)練迭代150輪,初始學(xué)習(xí)率設(shè)置為0.005,每迭代50輪學(xué)習(xí)率衰減一次,即當(dāng)前學(xué)習(xí)率乘以0.1。
實驗中分類結(jié)果使用準確度作為評測指標,重建結(jié)果使用峰值信噪比(PSNR)作為評測指標。準確度為正確分類數(shù)與樣本總數(shù)的比值。PSNR用來計算真實圖像與重建圖像之間的像素誤差,單位為dB,數(shù)值越大表明圖像重建效果越好。
MNIST數(shù)據(jù)集是一個手寫數(shù)字圖像數(shù)據(jù)集,分為10類別,即0到9數(shù)字。包含60 000個訓(xùn)練樣本和10 000個測試樣本,所有圖像尺寸為28像素×28像素,且為灰度圖像。實驗從60 000個訓(xùn)練樣本每個類別中隨機抽取1 000個樣本,共計10 000樣本作為驗證集,剩余50 000樣本作為訓(xùn)練集,原測試樣本作為測試集。對原圖像采用雙三次插值方法上采樣到32像素×32像素尺寸用于實驗。
實驗采用1.1章節(jié)中的四種壓縮與投影方式,以及兩種壓縮率壓縮數(shù)據(jù),分別將數(shù)據(jù)壓縮為原數(shù)據(jù)量的1/4和1/16,即4倍壓縮與16倍壓縮,并與WRN結(jié)合執(zhí)行分類任務(wù),對比了現(xiàn)有CL方法在重建分支加入前后的分類準確度。表1和表2分別展示了在MNIST和CIFAR-10數(shù)據(jù)集上的實驗結(jié)果。
表1 在MNIST數(shù)據(jù)集上的分類結(jié)果
Tab.1 Classification results on the MNIST dataset
表2 在CIFAR-10數(shù)據(jù)集上的分類結(jié)果
Tab.2 Classification results on CIFAR-10 dataset
可以看到,無論在哪種情況下,重建分支的加入都提升了分類準確度。在MNIST上,4倍壓縮下最高獲得了1.05個百分點的提升,16倍壓縮下最高獲得了1.19個百分點的提升。在CIFAR-10上,4倍壓縮下最高獲得了17.69個百分點的提升,16倍壓縮下最高獲得了10.3個百分點的提升。這些結(jié)果充分說明了重建分支優(yōu)秀的輔助能力,驗證了本文方法的有效性。
在兩個數(shù)據(jù)集上,壓縮與投影方法若采用FC,則重建分支所帶來的提升往往較高,這是因為FC本身具有可學(xué)習(xí)參數(shù),隨著網(wǎng)絡(luò)優(yōu)化進行調(diào)整,可以與后續(xù)網(wǎng)絡(luò)形成配合,更好地采樣數(shù)據(jù)并從中提取適合網(wǎng)絡(luò)任務(wù)的特征。
對比CP-3和CP-4的結(jié)果可以看出,在代理圖像尺寸小于原始圖像時,重建分支的加入對分類結(jié)果都有提升效果。對于簡單數(shù)據(jù)(MNIST),較小的代理圖像與重建分支的結(jié)合所帶來的提升比原始尺寸更高,而對于復(fù)雜數(shù)據(jù)(CIFAR-10),其情況則是相反的。這些結(jié)果表明了雖然不同尺寸的代理圖像對于重建分支的輔助性能有所影響,但重建分支對于代理圖像的尺寸并沒有硬性要求,即使尺寸不同也可以發(fā)揮出不錯的輔助性能。
圖7 分類準確度與重建圖像平均PSNR隨超參數(shù)變化的曲線圖
本文提出了一種基于深度學(xué)習(xí)帶有重建輔助的CL框架,在現(xiàn)有方法框架的基礎(chǔ)上,通過加入重建分支來輔助分類任務(wù),并通過一個聯(lián)合損失函數(shù)來優(yōu)化網(wǎng)絡(luò)。在MNIST和CIFAR-10兩個數(shù)據(jù)集上進行分類任務(wù)實驗,結(jié)果表明與現(xiàn)有的CL框架相比,在沒有增加使用階段時間成本以及破壞數(shù)據(jù)隱私性的情況下,本文所提方法提高了分類結(jié)果,適合實際應(yīng)用,也證明了重建分支提取深層次特征的能力。在以后的工作中,如何將重建任務(wù)以無成本、低成本的方式加入將會是一個不錯的思考方向。
[1] CANDES E J. Compressive Sampling[C]//The International Congress of Mathematicians, Aug 22-23, 2006, Madrid, Spain. 2006: 1433-1452.
[2] CANDES E J, WAKIN M B. An Introduction to Compressive Sampling[J]. IEEE Signal Processing Magazine, 2008, 25(2): 21-30.
[3] DONOHO D L. Compressed Sensing[J]. IEEE Transactions on Information Theory, 2006, 52(4): 1289-1306.
[4] CANDES E, ROMBERG J. Sparsity and Incoherence in Compressive Sampling[J]. Inverse Problems, 2007, 23(3): 969.
[5] CANDES E J, ROMBERG J, TAO T. Robust Uncertainty Principles: Exact Signal Reconstruction from Highly Incomplete Frequency Information[J]. IEEE Transactions on Information Theory, 2006, 52(2): 489-509.
[6] HAUPT J, CASTRO R, NOWAK R, et al. Compressive Sampling for Signal Classification[C]//2006 Fortieth Asilomar Conference on Signals, Systems and Computers, October 9-November 1, 2006, Pacific Grove, CA, USA. IEEE, 2006: 1430-1434.
[7] DAVENPORT M A, BOUFOUNOS P T, WAKIN M B, et al. Signal Processing with Compressive Measurements[J]. IEEE Journal of Selected Topics in Signal Processing, 2010, 4(2): 445-460.
[8] DAVENPORT M A, DUARTE M F, WAKIN M B, et al. The Smashed Filter for Compressive Classification and Target Recognition[C]//Proceedings of SPIE—The International Society for Optical Engineering, 2007, 6498: 142-153.
[9] JOHNSON W B, LINDENSTRAUSS J. Extensions of Lipschitz Mappings into a Hilbert Space[J]. Contemp Math, 1984, 26: 189-206.
[10] LOHIT S, KULKARNI K, TURAGA P, et al. Reconstruction-Free Inference on Compressive Measurements[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 7-12, 2015, Boston, MA, USA. IEEE, 2015: 16-24.
[11] KULKARNI K, TURAGA P. Reconstruction-Free Action Inference from Compressive Imagers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(4): 772-784.
[12] CALDERBANK R, JAFARPOUR S, SCHAPIRE R. Compressed Learning: Universal Sparse Dimensionality Reduction and Learning in the Measurement Domain[EB/OL]. [2022-09-06]. https://www.researchgate.net/publication/228364241.
[13] 張春曉, 鮑云飛, 馬中祺, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的光學(xué)遙感目標檢測研究進展[J]. 航天返回與遙感, 2020, 41(6): 45-55. ZHANG Chunxiao, BAO Yunfei, MA Zhongqi, et al. Research Progress on Optical Remote Sensing Object Detection Based on CNN[J]. Spacecraft Recovery & Remote Sensing, 2020, 41(6): 45-55. (in Chinese)
[14] LOHIT S, KULKARNI K, TURAGA P. Direct Inference on Compressive Measurements Using Convolutional Neural Networks[C]//IEEE International Conference on Image Processing (ICIP), September 25-28, 2016,Phoenix, AZ, USA. IEEE, 2016: 1913-1917.
[15] ADLER A, ELAD M, ZIBULEVSKY M. Compressed Learning: A Deep Neural Network Approach[EB/OL]. [2022-09-06]. https://arxiv.org/pdf/1610.09615.pdf.
[16] XUAN V N, LOFFELD O. A Deep Learning Framework for Compressed Learning and Signal Reconstruction[C]//5th International Workshop on Compressed Sensing Applied to Radar, Multimodal Sensing, and Imaging (CoSeRa), September 10-13, 2018, University of Siegen, Germany. 2018: 1-5.
[17] DEGERLI A, ASLAN S, YAMAC M, et al. Compressively Sensed Image Recognition[C]//7th European Workshop on Visual Information Processing (EUVIP), November 26-28, 2018, Tampere, Finland. IEEE, 2018: 1-6.
[18] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-Based Learning Applied to Document Recognition[J]. Proceedings of The IEEE, 1998, 86(11): 2278-2324.
[19] KRIZHEVSKY A, NAIR V, HINTON G. The CIFAR-10 Dataset[EB/OL]. [2022-09-06]. http://www.cs.toronto.edu/~ kriz/cifar.html.
[20] GLOROT X, BORDES A, BENGIO Y. Deep Sparse Rectifier Neural Networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011, 15: 315-323.
[21] WEN J, CHEN Z, HAN Y, et al. A Compressive Sensing Image Compression Algorithm Using Quantized DCT and Noiselet Information[C]//Proceedings of the 2010 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), March 14-19, 2010, Dallas, TX, USA. IEEE, 2010: 1294-1297.
[22] PASTUSZCZAK A, SZCZYGIEL B, MIKOLAJCZYK M, et al. Modified Noiselet Transform and Its Application to Compressive Sensing with Optical Single-Pixel Detectors[C]//18th International Conference on Transparent Optical Networks (ICTON), July 10-14, 2016, Trento, Italy. IEEE, 2016: 1-4.
[23] ZAGORUYKO S, KOMODAKIS N. Wide Residual Networks[EB/OL]. [2022-09-06]. https://arxiv.org/pdf/1605.07146.pdf.
[24] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-778.
[25] HUANG G, LIU Z, MAATEN L V D, et al. Densely Connected Convolutional Networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 2261-2269.
[26] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[27] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. [2022-09-06]. https://arxiv.org/pdf/1409.1556.pdf.
[28] SHI W, CABALLERO J, HUSZAR F, et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 1874-1883.
Image Classification Based on Reconstruction Assisted Compressive Learning
LI Wei1,2MA Jun1XIN Lei2LI Feng2,*
(1 College of Software, Henan University, Kaifeng 475100, China)(2 Qian Xuesen Space Technology Laboratory, China Academy of Space Technology, Beijing 100094, China)
Compressive sensing theory suggests that sparse signals can be reconstructed from a small number of measurements. Although compressive sensing enables low cost sampling, its reconstruction process is costly. Recent work has shown that image classification can be performed in the measurement domain without reconstruction of the signal, but it is currently difficult to extract deep features for better classification by inference directly from compressed measurements. To address this problem and to further improve the classification results, the article proposes a deep learning framework with reconstruction assistance to infer classification directly from compressed measurements of images. The framework adds a reconstruction branch to the classification network as an aid, and the joint reconstruction and classification losses are combined into a new weighted loss function to adjust the network parameters. The reconstruction branch is only used during the training phase to adjust the network parameters, and is discarded after training is complete, which in practice will not increase the time cost of the classification task and protects the privacy of the data. Experiments were conducted on the MNIST and CIFAR-10 datasets, and the results show that the proposed method effectively improves the classification accuracy without increasing the cost of use, by up to 1.19 and 17.69 percentage points on the two datasets respectively, providing a new idea for direct inference studies based on compressed measurements.
compressive sensing; deep learning; image classification; image reconstruction; auxiliary task; compressive learning; remote sensing application
TP75
A
1009-8518(2023)05-0105-11
10.3969/j.issn.1009-8518.2023.05.012
李衛(wèi),男,1995年生,2018年獲河南大學(xué)軟件工程專業(yè)學(xué)士學(xué)位,現(xiàn)在河南大學(xué)電子信息專業(yè)攻讀碩士學(xué)位。主要研究方向為壓縮學(xué)習(xí)、圖像分類。E-mail:lwei@henu.edu.cn。
2022-09-06
科技部重點研發(fā)計劃(2020YFA0714100)
李衛(wèi), 馬駿, 辛蕾, 等. 基于重建輔助的壓縮學(xué)習(xí)圖像分類[J]. 航天返回與遙感, 2023, 44(5): 105-115.
LI Wei, MA Jun, XIN Lei, et al. Image Classification Based on Reconstruction Assisted Compressive Learning[J]. Spacecraft Recovery & Remote Sensing, 2023, 44(5): 105-115. (in Chinese)
(編輯:龐冰)