陳劍濤
(1.華僑大學工學院,泉州362021;2.華僑大學工業(yè)智能化技術與系統(tǒng)福建省高校工程研究中心,泉州362021)
科技和經(jīng)濟的進步,信息互聯(lián)網(wǎng)時代的信息以爆炸式的方式增長,而這些信息的主要載體為音頻、視頻和圖像。根據(jù)調(diào)查顯示,人們?nèi)粘I钪饕男畔碓从谝曈X方面,由于圖像能更加直觀傳遞信息,大約占據(jù)了所有信息獲取途徑的60%,由此可以看出圖像對于信息傳遞具有非常重要的作用。
近些年來,安防、醫(yī)學、遙感等領域?qū)D像的需求以及質(zhì)量都越來越高。圖像的分辨率是衡量圖像質(zhì)量的重要指標之一,如何獲取更分辨率的圖像已經(jīng)成為科學研究中的重要熱點了。圖像的分辨率指的是,在單位面積中能夠存放的像素點的個數(shù),分辨率越高的圖像,表示圖像中存儲的信息量也就越大。一方面,由于硬件設備的局限性,使得人們通過攝像頭所采集的圖像往往很難獲得更高質(zhì)量的圖像,甚至丟失很多重要的細節(jié)信息,比如道路安全監(jiān)控圖像。另一方面,在網(wǎng)絡的傳輸過程中,為了節(jié)約資源,用戶常常會選擇低分辨率圖像儲存或是傳遞信息。為了提高圖像的分辨率,可以對硬件設備進行改進升級,但此方法需要大量的成本,難以廣泛應用。而通過軟件實現(xiàn)對圖像像素的放大,提高圖像質(zhì)量則能夠有效解決這類問題,也就是利用圖像超分辨率重建技術。圖像超分辨率重建技術可以分為三類:基于插值[1]、基于重建[2]和基于學習的方法。
基于插值的超分辨率算法是一種早期提出的圖像放大算法?;诓逯档姆椒梢苑譃榫€性和非線性。插值算法利用待插值位置周圍分布的像素值,通過插值核逼近原始圖像信息。其算法模型較為簡單,計算量低且實時性高,對于硬件的要求低,因此應用較為廣泛。但由于缺少引入外部信息的特點,圖像退化后高頻特征的丟失無法恢復,存在明顯的模糊和振鈴效應,圖像失真嚴重,特別是在色彩豐富、結構復雜的區(qū)域中。常用的插值算法有最鄰插值算法、雙線性插值算法、雙三次插值算法。為了優(yōu)化圖像的插值效果,提高算法的魯棒性,學者們提出了自適應的插值算法,利用最小二乘法降低了圖像內(nèi)部區(qū)域塊模糊問題。雖然自適應插值有效的提高了圖像重建質(zhì)量,但是其計算復雜度太高,不易于實現(xiàn)。
基于重建的超分辨率算法利用圖像的先驗知識對圖像的重建過程建立數(shù)學模型,主要可以分為空域法和頻域法。頻域法根據(jù)消除的頻譜混疊提高圖像的分辨率,由于缺乏引入的空間域先驗知識,因此這類分支不是基于重建算法的研究熱點。相反,空域法具備空間域的先驗知識,研究應用相對廣泛,其經(jīng)典的方法包括:迭代反投影法、凸集投影法和最大后驗概率估計的重建算法[3]。基于重建的方法相比基于插值的方法,盡管提升顯著,但是隨著圖像重建倍數(shù)的增大,此類算法在圖像高頻特征往往出現(xiàn)平滑模糊的問題。
基于學習的超分辨率算法是現(xiàn)在最為主流的算法,它根據(jù)學習成對高低分辨率圖像塊之間的映射關系,主要分為基于稀疏表示算法和基于深度學習算法。其中,稀疏表示法通過訓練高、低樣本從而獲得稀疏字典,重建高分辨率圖像。但隨著深度學習在計算機視覺領域的發(fā)展,2014 年Dong 等人[4]第一次提出基于卷積神經(jīng)網(wǎng)絡的圖像超分辨率算法SRCNN(Super-Resolution using Convolutional Neural Network),構造了一個三層的端到端網(wǎng)絡模型,實現(xiàn)了圖像重建。這三層的卷積層分別對應了低分辨率(Low Resolution,LR)圖像的特征提取,建立高分辨率圖像(High Resolution,HR)和低分辨率圖像之間的非線性映射關系,以及圖像重建的三個步驟。通過對公式(1)最小化L進行模型訓練,
其中W={w1,w2,w3,b1,b2,b3,}為模型中的卷積層的權重值和偏置值,xi和yi分別為成對的HR 圖像塊和LR 圖像塊,N為訓練樣本的批次數(shù)。
由于SRCNN 只采用3 層卷積層的結構,參數(shù)量較小,并不能很好地提取出圖像更深層次的特征。為了保證模型的重建能力和一定的訓練時長,提出基于深度特征學習的SRCNN 算法,將SRCNN 優(yōu)化為5 層卷積層結構,卷積核參數(shù)統(tǒng)一壓縮為3×3 大小的卷積核,其數(shù)量為64。同時該改進算法引入殘差學習,在第一層淺層特征提取層后,增加一條殘差跳躍連接,加到第四層卷積層的輸出位置,提高算法模型的淺層特征利用率。
實驗采用Windows 10 系統(tǒng),PyCharm 開發(fā)工具,使用PyTorch 框架,是由Facebook 人工智能研究院推出的一個開源Python 機器學習庫,版本為PyTorch1.0.0。實驗訓練SRCNN 模型以及基于深度特征學習的SRCNN 算法,采用BSDS200 數(shù)據(jù)集的200 張圖像作為訓練集,測試采用Urban100 數(shù)據(jù)集的100 張圖像作為測試集。
實驗將訓練集裁剪成128 大小的圖像塊作為高分辨率圖像訓練集,并采用下采樣4 倍的方式獲得相對應的低分辨率圖像訓練集。實驗使用Adam[5]優(yōu)化器更新權重參數(shù),并且設置學習率為0.001,其余參數(shù)保持默認設置。設置批次batch_size 大小為16,總共訓練迭代次數(shù)為100 個周期。
評價圖像重建客觀指標采用峰值信噪比(Peak Single to Noise Ratio,PSNR),作用在于衡量圖像的失真大小,其計算公式為:
其中,I1表示原始的高分辨率圖像,I2表示重建后的高分辨率圖像,w和h分別對應圖像的寬度和高度。峰值信噪比的值與圖像重建質(zhì)量好壞成正比,數(shù)值越大則表示圖像重建的效果越好。表1 展示了SRCNN 算法和提出的基于深度特征學習的SRCNN 算法在Urban100 數(shù)據(jù)集上,4 倍尺度下的測試實驗結果,其峰值信噪比由26.0231dB 提高到了26.2288dB,上升了0.2057dB。由此可見隨著網(wǎng)絡模型深度以及參數(shù)量的增加,會有利于重建圖像的質(zhì)量,其客觀指標峰值信噪比也相應提高。
表1 SRCNN 算法與其改進優(yōu)化算法PSNR 比較結果
圖1 展示出了SRCNN 與其改進模型算法重建圖像質(zhì)量比較。從圖中可以看出,在經(jīng)過優(yōu)化后的模型算法能夠生成質(zhì)量更高,邊緣更加清晰的圖像。圖像的細節(jié)與邊緣更加銳利,降低了模糊效應,更有利于重要信息的采集。
圖1 SRCNN算法(左)與改進算法(右)重建圖像比較
圖像超分辨率重建技術是近幾年來計算機視覺任務重要的分支之一,它不僅具有重要的理論意義,而且對于實際的工業(yè)應用需求也急劇增加。例如在醫(yī)學診斷領域中,對于CT 圖像和MRI 圖像,可以通過圖像超分辨率重建技術放大圖像,能夠更加有效輔助醫(yī)生找到病變區(qū)域,診斷病人病情,找到更佳的治療方案。在游戲領域中,許多游戲通過體感等設備獲取玩家的動作,進行人機交互,超分辨率重建出更高質(zhì)量的圖像,給游戲玩家?guī)砀诱鎸嵉挠螒蝮w驗。在視頻監(jiān)控領域中,超分辨率技術可以幫助警察交警偵破案件,更有利于找到肇事車輛和犯罪分子,降低犯罪率,維持一個更加安穩(wěn)的生活環(huán)境。在自動駕駛領域,超分辨率重建可以針對車輛采集到的周圍圖像概況,獲得更加精確的描述,幫助車輛避開障礙與行人。當然,隨著超分辨率重建的發(fā)展和成熟,對于科研學者要求更高,同時也是一個不小的挑戰(zhàn)。
超分辨率重建技術是對于原始圖像復原上的一種形式,適用于經(jīng)典的圖像復原任務存在的領域,同時也具備更好的效果。雖然具有廣泛的應用前景,但是該領域仍然存在許許多多需要解決的問題。例如,需要建立更加復合實際生活與應用場景的數(shù)據(jù)集。在當前的重建任務公開數(shù)據(jù)集中,研究者們大都采用了具有非常高的峰值信噪比的場景圖,并不適用于在實際下所采集到的退化場景。其次,基于深度學習的超分辨率算法雖然表現(xiàn)突出,但是神經(jīng)網(wǎng)絡的訓練也耗時巨大,對于在終端設備上的部署要求也會提高。因此,在研究更加復雜有效的網(wǎng)絡模型的同時,也需要盡可能地降低模型參數(shù),更加符合于實際。