許韜 段宣堯
(廣西大學電氣工程學院 廣西壯族自治區(qū)南寧市 530000)
生成式對抗網(wǎng)絡簡稱為GAN,是一種生成式模型,其靈感來自于博弈論,整個生成式對抗網(wǎng)絡由生成器和判別器兩部分組成,生成器的主要功能是對于真實數(shù)據(jù)的收集,并根據(jù)收集的數(shù)據(jù)樣本的潛在分布生成新的數(shù)據(jù)樣本;判別器的主要功能是判定生成器中所采集的樣本是真實數(shù)據(jù)還是其后來生成的樣本。對于生成式對抗網(wǎng)絡中生成器和判別器的設計均可直接套用神經(jīng)網(wǎng)絡系統(tǒng)。生成式對抗網(wǎng)絡的工作過程從其功能上來說其實是對于數(shù)據(jù)樣本的一個優(yōu)化過程,以目前的科研來說,人工智能屬于最為熱門的領(lǐng)域,而GAN 的機理正是人工智能所需要的,所以其在人工智能上的應用較為廣泛,同時也為人工智能的研究提供了新的方向。從生成式對抗網(wǎng)絡目前的實際應用來講,圖像和視覺領(lǐng)域是最為廣泛的領(lǐng)域,通過GAN 可以實現(xiàn)生成數(shù)字、人臉等物體的圖像,模擬出各種真實的場景,另外其對于圖像的處理也有著極為廣泛的用途,如圖像的修復等。除了在圖像、視覺領(lǐng)域上的應用,GAN 還廣泛的應用于計算機病毒防護、語音智能化處理等其他領(lǐng)域。除了人工智能領(lǐng)域,醫(yī)學領(lǐng)域也有著GAN 廣泛的應用,對于醫(yī)學來說,通常需要大量的圖像模擬生成以及圖像的修復處理工作,GAN 的優(yōu)勢之處可以很好的發(fā)揮。本文主要是對生成式對抗網(wǎng)絡的現(xiàn)實應用進行舉例說明,并從這些現(xiàn)實應用中解析出生成式對抗網(wǎng)絡實踐應用的意義及未來的發(fā)展方向。
GAN 的基本模型由一個生成網(wǎng)絡和一個判別網(wǎng)絡組成。生成網(wǎng)絡的主要作用是收集大量真實數(shù)據(jù)的分布規(guī)則,并根據(jù)這些分布規(guī)則按照一定的算法生成新的樣本數(shù)據(jù),生成網(wǎng)絡中所生成的新數(shù)據(jù)樣本會和真實樣本一起輸入到判別網(wǎng)絡之中,判別網(wǎng)絡依照特定的算法判斷哪些是真實數(shù)據(jù)哪些是生成網(wǎng)絡生成的新樣本數(shù)據(jù)?;诓┺恼摰乃枷?,判別器和生成器會一直在對抗的過程中不斷地學習,生成器會學習如何對抗判別器對于數(shù)據(jù)的甄別,而判別器會不斷的學習如何去更好地甄別出真實數(shù)據(jù),最后達到一個最優(yōu)的平衡狀態(tài)。
生成式對抗網(wǎng)絡相比較于傳統(tǒng)的生成模型最大的區(qū)別在于省去了大量的采樣和推斷,對于傳統(tǒng)網(wǎng)絡模型來說,采樣和推斷的過程不斷重復進行的,不僅浪費了大量的時間,降低了效果,還對原始數(shù)據(jù)產(chǎn)生了過度的依賴性。生成式對抗網(wǎng)絡會直接對數(shù)據(jù)進行采樣和推斷,且擁有非常靈活的設計,以針對不同的場景不同的應用領(lǐng)域。針對不同的任務可以對生成式對抗網(wǎng)絡設計不同的函數(shù),且任何一個可微分的函數(shù)都可以用來構(gòu)建生成式對抗網(wǎng)絡中的生成器和判別器,靈活度比傳統(tǒng)網(wǎng)絡模型更高,具有更強的易用性。另外,生成式對抗網(wǎng)絡可以和其他網(wǎng)絡模型相結(jié)合使用,如卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡等。還可以和GNN 相結(jié)合來處理一些連續(xù)的數(shù)據(jù),在數(shù)據(jù)的建模和數(shù)據(jù)生成等方面有著巨大的應用價值。
2.1.1 圖像和視覺領(lǐng)域
GAN 最為典型的一個應用是對于模糊圖像的清晰度處理,根據(jù)GAN 的工作原理可知,其生成器可以生成與真實數(shù)據(jù)同樣分布的圖像數(shù)據(jù),故而可以應用生成式對抗網(wǎng)絡來增加圖像的細節(jié)度。
在自動駕駛領(lǐng)域,利用GAN 來生成車輛周圍環(huán)境的圖像模擬,再通過轉(zhuǎn)移模型來實現(xiàn)對于汽車下一步駕駛行為的預測。GAN 另一個突出的特性是其自我學習能力,通過對大量的環(huán)境圖像進行生成,GAN 所生成的圖像會越來越接近于周圍真實環(huán)境,細節(jié)度也會越來越高,大量的視頻幀數(shù)會不斷的對GAN 的生成器進行優(yōu)化。對于視覺領(lǐng)域來說,仿真圖像和真實圖像可以實現(xiàn)人眼檢測,但其數(shù)據(jù)分布仍然存在差距,基于GAN 的仿真圖像細節(jié)豐富技術(shù)可以使仿真圖像更加接近于真實圖像,從而減小仿真圖像和真實圖像所帶來檢測結(jié)果誤差。
2.1.2 語音和語言領(lǐng)域
對于GAN 在語音和語言領(lǐng)域的研究已經(jīng)頗有建樹,利用GAN來分析語言對話之間的關(guān)聯(lián)性可以讓機器更加智能化地同人類進行語言溝通。GAN 判別器在進行更新之前,生成器需要先進行多次更新以達到梯度訓練生成器的目的。大量的實驗表明,GAN 在語言文本生成方面的表現(xiàn)已經(jīng)可以超越傳統(tǒng)的生成方式,而且生成器和判別器在不斷改進的過程中,其生成的圖像與說明文字的關(guān)聯(lián)性也在不斷地提高。
2.1.3 超分辨率
超分辨率是指將低分辨率的圖像通過一定的手段轉(zhuǎn)化成高分辨率圖像的過程。在原始圖像分辨率一定的情況下,對于圖像的處理只能在其原有分辨率的基礎(chǔ)上進行,如果沒有特定的數(shù)據(jù)分布規(guī)律識別算法,運用傳統(tǒng)人工智能的方式來增加圖像的分辨率往往只是對于局部相似數(shù)據(jù)的模擬,這與PhotoShop 中所提供的內(nèi)容識別功能頗為相似。超分辨率主要應用的領(lǐng)域是監(jiān)控、衛(wèi)星圖像以及醫(yī)學圖像。傳統(tǒng)的超分辨率方法雖然也可以實現(xiàn)圖像率的增加或者是圖像細節(jié)的增加,但往往處理過后的成像較為模糊。而Tweitter 公司最新的研究成果顯示,他們已經(jīng)成功開發(fā)出了全新的損失函數(shù),通過GAN 實現(xiàn)了細節(jié)豐富的超分辨率清晰圖像。
2.1.4 數(shù)據(jù)合成
2016年美國蘋果公司在一篇有關(guān)人工智能的論文中表示,他們已經(jīng)成功構(gòu)建了一個GAN 網(wǎng)絡,并且實現(xiàn)了可定制的帶有標簽的真實圖像數(shù)據(jù)合成。利用GAN 進行數(shù)據(jù)合成不僅可以極大縮短所花費的時間,同時合成的圖像與真實視頻也有著更多的相似性。
2.1.5 將文字轉(zhuǎn)化成圖像
把一段有關(guān)圖像的文字描述,按照其釋義轉(zhuǎn)換成與文本內(nèi)容相符合的圖像是一項有高難度且十分復雜的工作。2016年的ICML會議上,提出了兩種基于GAN 算法的解決方案,這兩種解決方案不僅高效地實現(xiàn)了從文本到圖像的轉(zhuǎn)換過程,且其所用的架構(gòu)和訓練策略均十分簡單。對于該轉(zhuǎn)換過程,如輸入“一顆紅色的蘋果”,對應的輸出內(nèi)容是包含有“紅色蘋果”實物的圖像內(nèi)容,這個轉(zhuǎn)換過程需要基于生成式對抗網(wǎng)絡系統(tǒng)完成兩個任務:一是可以準確的捕捉到文本里的“紅色”、“蘋果”這兩個關(guān)鍵性的信息;二是通過匹配真實事物中正確的數(shù)據(jù)信息將蘋果繪制出來并且上色。這兩種解決方案均是以單一文本信息作為特征,后來相繼提出了多本文生成圖像的方法以及更為先進的改進策略。
2.2.1 醫(yī)學圖像生成
醫(yī)學圖像生成技術(shù)最大的難點在于根據(jù)生物學變化來生成最為可信的影像。GAN 的特性恰好為解決這些難度提供了可能性,利用GAN 來實現(xiàn)醫(yī)學圖像的生成是基于其可以理解的圖像數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu),并且可以將噪聲圖像生成新的數(shù)據(jù)樣本。
2.2.2 醫(yī)學影像生成
GAN 在醫(yī)學影像生成上的應用主要是生成MR 圖像和生成超聲圖像。MR 圖像和超聲圖像都是醫(yī)學中相對較為重要的圖像類型。GAN 在解決MR 圖像生成的方案中,有效降低了MR 圖像對比度低的關(guān)鍵性技術(shù)難度。利用GAN 實現(xiàn)醫(yī)學影像生成,研究者們首先是將傳統(tǒng)的圖像增強方式與生成式對抗網(wǎng)絡相結(jié)合,進行了腦部MR 切片圖像生成的多次試驗,試驗的結(jié)果證明此種方法生成的MR 圖像具有很高的可信度,足以證明此方法的有效性。另外,其他學者嘗試了利用生成式對抗網(wǎng)絡來實現(xiàn)腦部MR 序列的合成、T1 加權(quán)腦部MRI 的無監(jiān)督合成、X 射線圖像的合成等,嘗試結(jié)果均表明了方案的可行性。特別是X 射線圖像的增強方式,研究人員基于僅僅包含簡單輪廓的圖像就得到了準確度非常高的腰椎平面X射線圖像。
2.2.3 病理圖像生成
生成式對抗網(wǎng)絡在醫(yī)學上的另一個十分重要的應用便是病理圖像的生成。組織病理的顯微圖像在沒有進行染色之前是沒有顏色且不可以直接分辨形狀的紋理。想要生成較為清晰的圖像需要用專門的染色材料對圖像進行染色以增加整個圖像的對比度。病理圖像主要是用來診斷和研究一些復雜疾病,這個診斷和研究的過程往往耗時較長,所以需要對病理圖像進行長久的保存,但是無論是何種染色劑配方,其所呈現(xiàn)出的結(jié)果以及存放時間等都會導致組織圖像的可讀性外觀,從而影響對于病理圖像的自動化解讀。由于以上所述的幾種原理,在進行病理圖像的生成研究時,首先要解決的問題是找到一種統(tǒng)一的染色方法。利用GAN 進行病理圖像的生成,可以將不同實驗方案所呈現(xiàn)的視覺效果統(tǒng)一,減少變化。利用GAN 處理病理圖像不僅能極大的減少生成所需的時間,同時也可以減少其間所花費的成本,因此避免了染色流程對組織的不利影響,所以同時也提高了醫(yī)生對于病理診斷的準確性。
2.2.4 視網(wǎng)膜圖像的生成
對于以往的方法來說,視網(wǎng)膜圖像的合成是項難度極高的技術(shù)。為了找尋更好的解決方案,Costa 等人提出了利用生成式對抗網(wǎng)絡來進行視網(wǎng)膜圖像的合成,這種基于對抗學習的視網(wǎng)膜圖像合成方法首先是通過血管分割技術(shù)將血管樹從視網(wǎng)膜圖像之中分離出來,然后利用生成對抗網(wǎng)絡的學習技術(shù)來不斷的優(yōu)化血管樹和真實視網(wǎng)膜圖像之間的映射關(guān)系,最后找到一個最優(yōu)的平衡點,這些平衡點的基礎(chǔ)上,生成的視網(wǎng)膜圖像是最為接近真實的視網(wǎng)膜圖像的。由于生成式對抗網(wǎng)絡的生成器是基于實現(xiàn)數(shù)據(jù)生成的,擁有同一血管樹真實圖像的多個圖像,所以樣本量數(shù)量較多,在后來又引進有自動編碼器技術(shù),經(jīng)編碼解碼后生成的視網(wǎng)膜圖像基本上和真實的視網(wǎng)膜圖像一致,并且擁有更多的細節(jié)變化。
2.2.5 醫(yī)學圖像重建
在醫(yī)學圖像應用中,有一個基礎(chǔ)的問題就是醫(yī)學圖像的重建問題。醫(yī)學圖像的重建工作首先要對峰值信噪比進行優(yōu)化,盡可能地用更少的原始數(shù)據(jù)來獲得最為理想的重建效果。引進生成式對抗網(wǎng)絡相較于傳統(tǒng)方法所得到的圖像有著更高的對比度,其重建效果也比已有的方法更加優(yōu)秀。由生成式對抗網(wǎng)絡引申出來的另一種方法被稱之為壓縮感知GAN,此方法是將最小二生成式對抗網(wǎng)絡與Cycle-GAN 相結(jié)合,利用雙通道的網(wǎng)絡數(shù)據(jù)輸入來進行訓練,可以獲得對比度更高的圖像效果,更加有利于醫(yī)學圖像的重建工作。在融合更多的網(wǎng)絡思想之后,相信整體的重建效果還會進一步的得到優(yōu)化。
2.2.6 三維醫(yī)學圖像處理
在醫(yī)學圖像處理中,網(wǎng)絡結(jié)構(gòu)通常是可以學習已經(jīng)試驗成功的圖像處理模型。研究人員在研究對于低劑量CT 的噪聲降低方案時,提出了采用3D-GAN 生成三維像素作為輸入,并進行卷積核運算,在對比了多種損失函數(shù)的方案之后,找出了能夠增加信噪比的有效方法。與此方法類似的是,采用3D U-net 結(jié)構(gòu)以及跳躍式鏈接的方法同樣也可以進行醫(yī)學三維圖像的生成,并且相對于3D-GAN的方式還解決了深層網(wǎng)絡的梯度消失,獲得更高質(zhì)量的圖像生成結(jié)果。目前利用基于生成式對抗網(wǎng)絡重建的損失函數(shù)已經(jīng)在多個肺總圖像數(shù)據(jù)集上成功的進行了三維醫(yī)學圖像的處理,不過相較于二維圖像來說,三維圖像對于空間維度的需求要高得多,由于很多情況下所得的數(shù)據(jù)是十分有限的,所以很容易引發(fā)其他的問題,故而生成式對抗網(wǎng)絡在三維圖像處理的應用要比二維圖像少的多。
雖然目前生成式對抗網(wǎng)絡處于一個全面發(fā)展階段,在很多方面的應用仍然不是非常成熟,但優(yōu)點是多方面的。生成式對抗網(wǎng)絡受啟發(fā)于博弈論,生成器和判別器在對抗的過程中不斷地學習,通過這種迭代訓練的方式,逐漸向著更加均衡的方向發(fā)展。生成式對抗網(wǎng)絡作為一種生成式模型,并非直接來處理數(shù)據(jù)模型,而是生成器根據(jù)已有的真實數(shù)據(jù)分布來生成新的樣本數(shù)據(jù),從而獲得更多的數(shù)據(jù)基礎(chǔ),這個生成新樣本數(shù)據(jù)的過程可以被視為是無限的。生成式對抗網(wǎng)絡在視覺應用領(lǐng)域、圖像處理領(lǐng)域、語音智能處理領(lǐng)域以及醫(yī)學領(lǐng)域都有著巨大的應用潛力,本文列舉了其在人工智能領(lǐng)域及醫(yī)學領(lǐng)域幾個重要的應用方面,結(jié)合生成式對抗網(wǎng)絡的原理,對其應用價值和未來的發(fā)展?jié)摿右苑治觥?/p>