文/哈文全
GAN對(duì)于生成式模型的發(fā)展具有非常重要的的意義。GAN的訓(xùn)練過程創(chuàng)新性地將兩個(gè)神經(jīng)網(wǎng)絡(luò)的對(duì)抗作為訓(xùn)練準(zhǔn)則并且可以使用反向傳播進(jìn)行訓(xùn)練,大大改善了生成式模型的訓(xùn)練難度和訓(xùn)練效率.對(duì)抗訓(xùn)練方法摒棄了直接對(duì)真實(shí)數(shù)據(jù)的復(fù)制或平均,增加了生成樣本的多性。GAN在生成樣本的實(shí)踐中, 生成的樣本易于人類理解。GAN解決了生成模型的一些問題,但是GAN也存在一些缺點(diǎn)。GAN采用對(duì)抗學(xué)習(xí)的準(zhǔn)則,理論上還不能判斷模型的收斂性和均衡點(diǎn)的存在性。并且在實(shí)際操作過程中,這種平衡性與同步性是很難把握的,導(dǎo)致了訓(xùn)練過程的不穩(wěn)定性。另外,GAN生成的樣本雖然存在多樣性,但是存在崩潰模式現(xiàn)象,可能生成多樣性,但是站在人們的角度看差別不大的樣本。而本文旨在立足于GAN的基礎(chǔ)上,使用Wasserstein-GAN (采用Earth-Mover(EM)距離代替JS散度來度量真實(shí)樣本和生成樣本分布之間的距離)來彌補(bǔ)原始GAN的訓(xùn)練不穩(wěn)定以及易崩潰導(dǎo)致的多樣性不足問題。
在本文中我們主要關(guān)注兩種類型的信息:環(huán)境信息和知覺信息。我們從一種概率密度分布入手:正態(tài)分布(PDF)。圖像和統(tǒng)計(jì)學(xué)之間的關(guān)鍵聯(lián)系在于,我們可以把圖像解析成一個(gè)高維概率分布中的樣本點(diǎn)。當(dāng)我們知道一些值并想修復(fù)所有缺失值時(shí),我們就把它當(dāng)作了一個(gè)最大化問題來討論,修復(fù)得到的就是可能性最大的圖像。如果直接觀察正態(tài)分布中那些樣本點(diǎn),使用GAN來得到最適合的概率統(tǒng)計(jì)模型并且用它來擬合數(shù)據(jù)就可以了。
圖1
本文所用方法是在DCGAN的基礎(chǔ)上使用Wasserstein距離來規(guī)避GAN的缺點(diǎn),Wasserstein的距離又叫做Earth-Mover(EM)距離,定義如下:
W距離相比KL散度、JS散度的優(yōu)越性在于,即使兩個(gè)分布沒有重疊,W距離任然能夠反映它們的遠(yuǎn)近。而其優(yōu)點(diǎn)可以概括如下:
(1)徹底解決GAN訓(xùn)練不穩(wěn)定的問題;
(2)基本解決collapse mode多樣性的問題,確保了生成樣本的多樣性;
(3)訓(xùn)練過程中終于有一個(gè)像交叉熵、準(zhǔn)確率這樣的數(shù)值來指示訓(xùn)練的進(jìn)程,這個(gè)數(shù)值越小代表GAN訓(xùn)練得越好,代表生成器產(chǎn)生的圖像質(zhì)量越高;
(4)以上一切好處不需要精心設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),最簡(jiǎn)單的多層全連接網(wǎng)絡(luò)就可以做到??偨Y(jié)一下,WGAN徹底解決了訓(xùn)練不穩(wěn)定問題, 同時(shí)基本解決了崩潰模式現(xiàn)象。
首先定義一個(gè)指定大小的二進(jìn)制掩碼,用來給輸入圖像添加遮蓋,作為破損圖像以供生成模型使用。
1.self.mask = tf.placeholder(tf.float32, self.image_shape, name='mask)
語境損失:為了得到和輸入圖像相同的上下文,需要確保y已知像素對(duì)應(yīng)位置的G(z)盡可能相似。所以當(dāng)G(z)的輸出和y已知位置圖像不相似的時(shí)候,需要對(duì)G(z)進(jìn)行懲罰。為此,我們用G(z)減去y中對(duì)應(yīng)位置的像素,然后得到它們不相似的程度:感知損失:為了重建一個(gè)看起來真實(shí)的圖像,需要確保判別器判定圖像看起來是真實(shí)的D(G(Z)))。最后,將語境損失和感知損失組合起來,就可以找到