• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種改進(jìn)的小批量手寫(xiě)體字符識(shí)別算法

      2020-07-13 06:17:16李遠(yuǎn)沐王展青
      關(guān)鍵詞:變分后驗(yàn)高斯

      李遠(yuǎn)沐,王展青

      (武漢理工大學(xué) 理學(xué)院,武漢 430000)

      1 引 言

      人類(lèi)往往可以通過(guò)學(xué)習(xí)少量的標(biāo)注樣本就能獲得識(shí)別某種事物的能力,哪怕是四五歲的孩子,看了幾張老虎的圖片之后也能準(zhǔn)確的識(shí)別老虎.而一般的深度學(xué)習(xí)系統(tǒng)往往需要大量的已標(biāo)注訓(xùn)練數(shù)據(jù)才能擁有有限的識(shí)別能力,人類(lèi)和深度學(xué)習(xí)系統(tǒng)之間的這種顯著的差距喚起了人們對(duì)小樣本學(xué)習(xí)的研究興趣[4-6].小樣本學(xué)習(xí)關(guān)注的是如何從很少的訓(xùn)練樣本中學(xué)習(xí)到有用的信息,其目的是學(xué)習(xí)一個(gè)在訓(xùn)練樣本很少時(shí)仍具有良好泛化能力的分類(lèi)器.目前主流的小樣本學(xué)習(xí)方法大致分為三大類(lèi):基于模型的方法[24],基于度量的方法[5]和基于優(yōu)化的方法[25].

      小樣本學(xué)習(xí)的難點(diǎn)在于由于訓(xùn)練樣本很少,難以從中提取出足夠的特征來(lái)滿足模型需要,所以需要充分利用擁有的有限標(biāo)注樣本樣本,利用深度學(xué)習(xí)模型提取其中的“深度特征”.近年來(lái)深度神經(jīng)網(wǎng)絡(luò)(DNN)的許多巨大突破[1-3]都相當(dāng)?shù)囊蕾?lài)于規(guī)模龐大的標(biāo)注訓(xùn)練集,小樣本領(lǐng)域缺乏足夠的樣本來(lái)更新傳統(tǒng)DNN模型中大量的參數(shù),因而無(wú)法訓(xùn)練到理想的模型.同時(shí)DNN極度依賴(lài)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,在訓(xùn)練集較小,網(wǎng)絡(luò)較深時(shí),極易出現(xiàn)過(guò)擬合.而且少量的標(biāo)注樣本并不能代表數(shù)據(jù)真實(shí)的分布,導(dǎo)致得到的分類(lèi)器方差較大,從而導(dǎo)致模型泛化能力不強(qiáng),常用的微調(diào)(Fine-tuning)技術(shù)在小樣本學(xué)習(xí)也會(huì)產(chǎn)生過(guò)擬合.為了使得少量標(biāo)注樣本得到充分利用,本文引入具有數(shù)據(jù)高效性的高斯過(guò)程模型,同時(shí)賦予其深度結(jié)構(gòu)用于提取樣本深度抽象特征用于改善模型的推斷和學(xué)習(xí)質(zhì)量,從理論和實(shí)驗(yàn)兩個(gè)方面來(lái)選擇合適的模型訓(xùn)練方法.

      本文提出了基于深度高斯過(guò)程的小樣本學(xué)習(xí)模型,利用多層的高斯過(guò)程模型,充分的提取樣本深度特征,得到一種改進(jìn)的基于度量的小樣本學(xué)習(xí)方法,在小批量手寫(xiě)體字符識(shí)別領(lǐng)域表現(xiàn)優(yōu)秀.

      2 相關(guān)工作

      以高斯過(guò)程[7]為代表的貝葉斯非參數(shù)模型都具有數(shù)據(jù)高效性的優(yōu)點(diǎn),往往只需較少的數(shù)據(jù),就能推斷出擬合函數(shù)的分布情況,而且這種推斷一般發(fā)生在測(cè)試階段,顯著減少了訓(xùn)練階段的工作量,而且訓(xùn)練得到的模型在測(cè)試時(shí)仍然可以靈活進(jìn)行調(diào)整.同時(shí)高斯過(guò)程模型具備很好的度量不確定性的能力,并且Neal[8]早在1998年就證明了單層具有無(wú)限節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)等價(jià)于一個(gè)具有特定協(xié)方差函數(shù)的高斯過(guò)程.為了使模型同時(shí)具有參數(shù)模型和非參數(shù)模型的特性[17,18],Damianou和Neil[9]于2013年通過(guò)結(jié)合深度神經(jīng)網(wǎng)絡(luò)和高斯過(guò)程提出了深度高斯過(guò)程(DGP).深度高斯過(guò)程是一種具有類(lèi)似于DNN結(jié)構(gòu)的深度模型,善于處理抽象特征.相比于標(biāo)準(zhǔn)的DNN,DGP只有少量的核參數(shù)和變分參數(shù),因此可以通過(guò)少量的訓(xùn)練數(shù)據(jù)去學(xué)習(xí)復(fù)雜的函數(shù).同時(shí),DGP作為一個(gè)非參模型,數(shù)據(jù)的生成過(guò)程不依賴(lài)于DNN那樣龐大的參數(shù)集,而且不同于DNN通過(guò)引入非線性函數(shù)使得DNN獲得處理非線性問(wèn)題的能力,DGP是通過(guò)隨機(jī)高斯函數(shù)的組合自動(dòng)的獲得處理非線性的能力,這種處理能力在針對(duì)劇烈變化的數(shù)據(jù)(數(shù)據(jù)集越小,數(shù)據(jù)的波動(dòng)越明顯)時(shí)優(yōu)勢(shì)尤為明顯.同時(shí),DNN的架構(gòu)往往依賴(lài)于主觀經(jīng)驗(yàn),難以得出最優(yōu)的選擇策略.而DGP因?yàn)楸A袅撕芏鄦螌痈咚鼓P偷膬?yōu)點(diǎn),比如關(guān)于核參數(shù)來(lái)優(yōu)化邊緣似然函數(shù),有效的避免了過(guò)擬合的發(fā)生,同時(shí)可以自適應(yīng)的選擇網(wǎng)絡(luò)結(jié)構(gòu).DGP作為一個(gè)貝葉斯模型,擁有許多優(yōu)良的概率特性,這使得它在小數(shù)據(jù)集上能有不錯(cuò)的表現(xiàn).基于以上幾點(diǎn),我們考慮將DGP模型運(yùn)用于小樣本學(xué)習(xí),用于提取抽象特征和刻畫(huà)細(xì)節(jié)特征.

      關(guān)于如何訓(xùn)練DGP,因?yàn)橥茢噙^(guò)程中存在一個(gè)很難處理的復(fù)雜積分,所以DGP的精確推斷是不可行的,因此人們提出了許多近似算法[9-12,19-21].變分推斷(VI)就是一種常用的近似方法,但是傳統(tǒng)的VI往往選擇簡(jiǎn)單的高斯分布作為后驗(yàn)分布的近似分布,因?yàn)樵诖蟛糠值那闆r真實(shí)后驗(yàn)都不是高斯分布,這在很大程度上限制了模型的表達(dá)能力.在變分推斷框架中,似然函數(shù)被分為ELBO和近似后驗(yàn)和真實(shí)后驗(yàn)的KL散度,后者往往可以看做是一個(gè)正則項(xiàng),為了改善推斷效果,需要盡可能減少這個(gè)正則項(xiàng)的影響,一個(gè)方法是去尋找更緊的下界[23],而本文從另一個(gè)角度出發(fā),通過(guò)尋找更加復(fù)雜和靈活的變分分布來(lái)減輕正則項(xiàng)的影響.引入標(biāo)準(zhǔn)化流方法(Normalizating Flow[13]),通過(guò)對(duì)一個(gè)簡(jiǎn)單的分布反復(fù)的施加一系列的可逆變換,得到靈活且復(fù)雜度可控的后驗(yàn)分布族,結(jié)合變分推斷方法,得到一個(gè)易處理的變分下界,通過(guò)優(yōu)化這個(gè)下界來(lái)更新核參數(shù)和變分參數(shù).

      3 高斯過(guò)程回歸模型

      隨機(jī)過(guò)程早已在機(jī)器學(xué)習(xí)領(lǐng)域有了廣泛的應(yīng)用.在具備一些觀測(cè)數(shù)據(jù)的情況下,在隨機(jī)過(guò)程的框架下運(yùn)用貝葉斯規(guī)則去推斷預(yù)測(cè)分布,可以使模型具備高效使用數(shù)據(jù)的能力,而這正好是神經(jīng)網(wǎng)絡(luò)所缺乏的.高斯過(guò)程(GP)可以由一個(gè)均值函數(shù)和一個(gè)協(xié)方差函數(shù)完全共同決定(高斯過(guò)程存在性定理),其中協(xié)方差函數(shù)蘊(yùn)含了我們對(duì)想要建模函數(shù)的先驗(yàn)假設(shè),例如光滑性.

      設(shè)X={xi|i=1,…,N},xi∈d對(duì)應(yīng)的目標(biāo)值為ti,且T={ti|i=1,…,N}.已知集合D={(xi,ti)|i=1,…,N},對(duì)于新的數(shù)據(jù)點(diǎn)x′,我們希望找到其對(duì)應(yīng)的目標(biāo)值t′的預(yù)測(cè)分布.設(shè)目標(biāo)函數(shù)為f,并記FN=[f1,…,fN]=[f(x1),…,f(xN)],以及FN+1=[f1,…,fN+1]=[f(x1),…,f(xN+1)],其中x′=xN+1.目標(biāo)函數(shù)f的高斯過(guò)程先驗(yàn)可以隱式的表示為:

      (1)

      由多元聯(lián)合高斯分布的性質(zhì),可得預(yù)測(cè)分布

      (2)

      其中HN和HN+1是兩個(gè)歸一化常數(shù).ΣN和ΣN+1的關(guān)系為

      (3)

      其中K=[k(x′,x1;Θ),…,k(x′,xN;Θ)]T,Kx′x′=k(x′,x′;Θ),K為核函數(shù).最后得出預(yù)測(cè)分布為

      p(fN+1|D,xN+1,Θ)=N(KTΣ-1t,Kx′x′-KTΣ-1K)

      (4)

      4 基于深度高斯匹配網(wǎng)絡(luò)的小批量字符識(shí)別算法

      雖然DNN在手寫(xiě)體分類(lèi)領(lǐng)域取得了巨大的成功,但是當(dāng)訓(xùn)練數(shù)據(jù)不足時(shí),由于其海量的參數(shù),DNN很容易產(chǎn)生過(guò)擬合現(xiàn)象.DGP相比于DNN,其參數(shù)數(shù)量要少的多,并且具有貝葉斯性質(zhì),是一個(gè)很理想的用于小樣本學(xué)習(xí)的模型.我們知道,在機(jī)器學(xué)習(xí)領(lǐng)域,往往都希望訓(xùn)練和測(cè)試在完全相同的條件下進(jìn)行,然而DNN模型的訓(xùn)練過(guò)程和測(cè)試過(guò)程相對(duì)獨(dú)立.針對(duì)這兩個(gè)問(wèn)題,本文借鑒KNN模型的思想提出深度高斯匹配網(wǎng)絡(luò)(Deep Gaussian Processes Matching Network)用于小批量手寫(xiě)字符分類(lèi).

      4.1 深度高斯過(guò)程

      為了提升神經(jīng)網(wǎng)絡(luò)模型的表達(dá)能力,引入深度結(jié)構(gòu),Hinton等人提出了深度神經(jīng)網(wǎng)絡(luò).同樣為了改善高斯模型,通過(guò)對(duì)隨機(jī)過(guò)程而不是函數(shù)進(jìn)行組合,并引入深度結(jié)構(gòu),Diamianou通過(guò)堆疊幾個(gè)高斯過(guò)程模型得到深度高斯過(guò)程模型.深度高斯模型是一種包含多個(gè)隱藏層的深度有向圖模型,并且運(yùn)用高斯過(guò)程來(lái)控制層與層之間的映射關(guān)系.相比于標(biāo)準(zhǔn)的參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)中預(yù)先給定的非線性函數(shù),深度高斯過(guò)程層與層之間的的映射關(guān)系有更強(qiáng)的表達(dá)能力和數(shù)據(jù)依賴(lài)性(data dependent).而且相較于DNN,DGP模型的參數(shù)較少(只有少量的核超參數(shù)和變分參數(shù)).并且作為一個(gè)貝葉斯模型,DGP可以有效的避免DNN中當(dāng)數(shù)據(jù)不足時(shí)出現(xiàn)的過(guò)擬合現(xiàn)象.而從高斯模型中繼承到的隨機(jī)性質(zhì),使得DGP能夠很好的處理數(shù)據(jù)的不確定性的問(wèn)題.

      記具有L個(gè)隱藏層的DGP模型的輸入為x,輸出為y,模型定義如下

      f1~GP(μ1,k(·)1),h1=f1(h0)+ε1,u1=f1(z0)

      (5)

      fl~GP(μl,k(·)l),hl=fl(hl-1)+εl,ul=fl(zl-1)

      (6)

      fL~GP(μL,k(·)L),hL=fL(hL-1)+εL,uL=fL(zL-1)

      (7)

      有時(shí)為了減少變分參數(shù)的數(shù)量,常常把高斯噪聲項(xiàng)置于核函數(shù)之內(nèi).需要注意的是,每一個(gè)高斯函數(shù)都有它自己對(duì)應(yīng)的核函數(shù)和核參數(shù),故而一層中有可能會(huì)出現(xiàn)多個(gè)核.此時(shí)模型的聯(lián)合分布為:

      (8)

      通過(guò)對(duì)所有的隱變量積分,可以得出作為模型目標(biāo)函數(shù)的邊緣似然函數(shù).為簡(jiǎn)便起見(jiàn),所有概率分布中都省略了核參數(shù)σ.但是所得的仍是一個(gè)復(fù)雜的積分,使得推斷很難進(jìn)行,所以需要近似的方法,如變分推斷[9-11]和期望傳播[12].

      4.2 余弦距離

      余弦距離常常也被稱(chēng)為余弦相似度,是用兩個(gè)向量之間夾角的余弦作為作為兩向量差異程度的度量.當(dāng)X=(x1,x2,…,xn),Y=(y1,y2,…,yn)時(shí),X和Y的余弦相似度為

      (9)

      余弦相似度往往對(duì)絕對(duì)的數(shù)值不敏感,而是注重兩個(gè)向量方向上的差異,即余弦相似度更多的是體現(xiàn)兩者的相對(duì)差異.

      4.3 深度高斯匹配網(wǎng)絡(luò)

      第1步.使用如下結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),分別提取測(cè)試集和支撐集中圖像的抽象特征,將105×105大小的圖片扁平化為長(zhǎng)度為4096的向量.

      圖1 本文使用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      第2步.將兩個(gè)DGP結(jié)構(gòu)作為編碼函數(shù),將得到的特征向量嵌入到特征空間中去.然后計(jì)算測(cè)試圖像特征與支撐集中圖像特征的余弦距離,完成圖像分類(lèi),具體如下.

      為了得到一個(gè)類(lèi)似于KNN的端到端的手寫(xiě)體字符識(shí)別模型,類(lèi)似于文獻(xiàn)[5],引入注意力核,基于k近鄰方法的思想,有:

      (10)

      其中yi為只有一個(gè)維度為1,其余全是0的向量.注意力核為:

      (11)

      圖2 深度高斯匹配網(wǎng)絡(luò)

      其中φ和ψ是由深度高斯過(guò)程模型參數(shù)化的編碼函數(shù),其參數(shù)可以通過(guò)對(duì)訓(xùn)練集分類(lèi)的準(zhǔn)確度進(jìn)行調(diào)整.φ和ψ的作用是提取圖像的抽象特征,并將x*和xi嵌入到特征空間中去.

      為了確保訓(xùn)練過(guò)程和測(cè)試過(guò)程發(fā)生在相同的條件下,首先在原數(shù)據(jù)集D中采樣一個(gè)小數(shù)據(jù)集W,對(duì)于W中的每一類(lèi),隨機(jī)的選擇K個(gè)樣本去構(gòu)造支撐集S,同時(shí)隨機(jī)選擇一些樣本作為訓(xùn)練集T.由于層與層之間存在復(fù)雜的相關(guān)性,本文引入偽數(shù)據(jù),使用稀疏化方法來(lái)簡(jiǎn)化DGP模型層級(jí)之間的相關(guān)性.接下來(lái)使用隨機(jī)梯度下降法,通過(guò)極大化識(shí)別率來(lái)更新參數(shù)嵌入函數(shù)的參數(shù)和偽數(shù)據(jù)的位置,利用log函數(shù)為增函數(shù)的特點(diǎn),所得目標(biāo)函數(shù)為:

      (12)

      模型需要學(xué)習(xí)的參數(shù)有偽點(diǎn)和各層各節(jié)點(diǎn)的核參數(shù):

      其中L為模型的層數(shù),Dl為第l層的結(jié)點(diǎn)數(shù).如果偽輸出和偽輸入都要學(xué)習(xí)得到的話,由于更多的參數(shù)會(huì)提高過(guò)擬合發(fā)生的幾率,模型會(huì)損失一部分貝葉斯模型的標(biāo)準(zhǔn)化優(yōu)勢(shì).結(jié)合先驗(yàn)信息,我們知道偽點(diǎn)應(yīng)當(dāng)與輸入點(diǎn)有類(lèi)似的結(jié)構(gòu),可以一定程度緩解這個(gè)問(wèn)題.合適的參數(shù)初始值可以有效的避免模型陷入局部最優(yōu),本文基于最優(yōu)K均值為所有的輸入點(diǎn)聚類(lèi),將K個(gè)聚類(lèi)中心作為偽點(diǎn)的初始選擇.除了第一層之外,在之后的各層中由于缺乏偽數(shù)據(jù)的先驗(yàn)信息,而且往往并非簡(jiǎn)單的標(biāo)準(zhǔn)正態(tài)分布,我們假設(shè)偽輸入采樣于一個(gè)由標(biāo)準(zhǔn)化流構(gòu)造的復(fù)雜靈活的分布.

      為了在下文中闡明模型推斷的細(xì)節(jié),我們關(guān)注特定的模型.為了簡(jiǎn)便起見(jiàn),先考慮單層的情況,誤差可以通過(guò)變分推斷方法在層與層之間傳播.其層與層之間的推斷方式如下,常常將輸入x也視為隱變量,記f=f(x),為了簡(jiǎn)潔起見(jiàn),省略偽數(shù)據(jù),此時(shí)模型的邊緣似然函數(shù)為:

      (13)

      變分推斷是根據(jù)兩個(gè)分布之間的KL散度值來(lái)尋找一個(gè)接近真實(shí)后驗(yàn)分布的近似后驗(yàn)分布,近似分布往往被限制為一些易處理的分布族,如高斯分布.以這種方式將復(fù)雜的推斷問(wèn)題變?yōu)闃O小化分布間KL散度的優(yōu)化問(wèn)題.在邊緣似然函數(shù)中運(yùn)用Jensen不等式可以獲得相同的目標(biāo)函數(shù),同時(shí)假設(shè)各個(gè)近似分布之間滿足均值場(chǎng)假設(shè),即q(f,x)=q(f)q(x).此時(shí),模型的真實(shí)邊緣似然函數(shù)為:

      (14)

      式(14)中的期望為關(guān)于變分分布的期望,兩邊同時(shí)取對(duì)數(shù),根據(jù)Jensen不等式,有:

      (15)

      一般情況下,為了計(jì)算的簡(jiǎn)便,都會(huì)用一些簡(jiǎn)單的分布去近似真實(shí)的后驗(yàn)分布,而且往往會(huì)假設(shè)近似分布滿足類(lèi)似于均值場(chǎng)這樣的簡(jiǎn)單結(jié)構(gòu)特征.這在很大程度上影響了變分方法的推斷效果,常會(huì)導(dǎo)致對(duì)預(yù)測(cè)分布方差的低估,使得做出的決策不可靠,同時(shí),有限容量的近似后驗(yàn)分布族會(huì)導(dǎo)致模型參數(shù)的MAP估計(jì)退化成有偏估計(jì).為了解決這個(gè)問(wèn)題,本文從標(biāo)準(zhǔn)化流方法構(gòu)造的靈活且任意復(fù)雜的分布族中選取近似分布,使得近似分布更有可能接近真實(shí)后驗(yàn)分布.

      4.4 基于標(biāo)準(zhǔn)化流的DGPMN模型訓(xùn)練方法

      由下界可知,我們希望變分分布可以盡可能的接近于真實(shí)z的后驗(yàn)分布,但是如果僅僅是基于變分分布為相互獨(dú)立高斯分布的先驗(yàn)假設(shè)或者其他的平均場(chǎng)假設(shè)的話,這是很難實(shí)現(xiàn)的.事實(shí)上,這就是變分方法最大的局限所在,近似分布族不夠靈活,哪怕是在一個(gè)近似的區(qū)域內(nèi)也無(wú)法得到真實(shí)后驗(yàn)的一個(gè)很好的近似.一個(gè)真正理想的變分分布族應(yīng)該是非常的靈活,并且包含真實(shí)后驗(yàn).標(biāo)準(zhǔn)化流就是通過(guò)一系列的可逆變換來(lái)對(duì)一個(gè)簡(jiǎn)單的密度函數(shù)進(jìn)行轉(zhuǎn)換,最后得到一個(gè)更復(fù)雜的表達(dá)力更強(qiáng)更加復(fù)雜的概率分布.

      如果我們假設(shè)隨機(jī)變量f的分布函數(shù)為p(f),f′=g(f),使用反函數(shù)定理和鏈?zhǔn)椒▌t,得到f′的密度分布函數(shù)p(f′)為:

      (16)

      通過(guò)這些簡(jiǎn)單可逆函數(shù)的堆疊,我們可以構(gòu)造出任意復(fù)雜的密度函數(shù).

      fM=gM…g2g1(f0)

      (17)

      (18)

      之所以這樣做除了因?yàn)橥ㄟ^(guò)對(duì)簡(jiǎn)單分布進(jìn)行非線性變換后可以得到更復(fù)雜的分布之外,由于統(tǒng)計(jì)學(xué)家LOTUS曾提出,關(guān)于變換后分布求期望時(shí),可以不知道變換后的分布的具體形式,僅僅由原始的簡(jiǎn)單分布和變換函數(shù)便可求得這個(gè)期望,即:

      EpM(fM)[h(fM)]=Ep0(f0)[h(gMgM-1…g1(f0))]

      (19)

      而且如果h和pM無(wú)關(guān)的話,還不需要計(jì)算雅克比行列式.考慮平面流q(f)=f+v·ρ(wTf+b),其中參數(shù)Ω={w,v,b}.若設(shè)ζ(f)=ρ′(wTf+b),那么此時(shí)雅克比行列式:

      (20)

      那么由初始密度函數(shù)q0(f0)通過(guò)一系列可逆變換獲得的變分分布可以表示為:

      (21)

      此時(shí),我們用長(zhǎng)度為M的流來(lái)參數(shù)化近似后驗(yàn)分布,即設(shè)q(x)?qM(xM),q(f)?qM(fM),可以將式(15)的變分下界寫(xiě)成:

      (22)

      每一層都以類(lèi)似的方式進(jìn)行推斷.本文提出的識(shí)別算法流程如下,并且在下一節(jié)中在真實(shí)的數(shù)據(jù)集上驗(yàn)證了算法的有效性.

      算法流程如下所示.

      算法1.基于深度高斯過(guò)程的小批量手寫(xiě)字符識(shí)別算法

      參數(shù).模型(核)參數(shù),變分參數(shù)

      Whilenot convergeddo

      X← 小批量訓(xùn)練數(shù)據(jù)

      基于圖1的CNN結(jié)構(gòu)初步提取圖片特征

      利用DGP深度編碼圖片特征

      基于式(10)的注意力核進(jìn)行特征匹配

      x0~q0(x),f0~q0(f)

      Endwhile

      關(guān)于模型中的噪聲項(xiàng),我們發(fā)現(xiàn)在優(yōu)化Damianou[9]給出的目標(biāo)函數(shù)時(shí),由于較強(qiáng)的模型假設(shè),導(dǎo)致模型極易發(fā)生噪聲退化的情況,即信噪比趨于零.為了緩解這一問(wèn)題,我們使用聚合性噪聲來(lái)代替簡(jiǎn)單的加性噪聲[h,ε]即將其也看成隱變量.

      5 實(shí)驗(yàn)及其分析

      為了說(shuō)明本文模型在小樣本手寫(xiě)字符分類(lèi)問(wèn)題上的表現(xiàn),我們?cè)贠mniglot數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).其中Omniglot數(shù)據(jù)集包含來(lái)自50個(gè)不同地區(qū)字母表的1623個(gè)手寫(xiě)體字符,每個(gè)字符由20個(gè)不同的人手寫(xiě)得到.本文的實(shí)驗(yàn)平臺(tái)為python3.6,高斯過(guò)程模型基于GPflow平臺(tái)實(shí)現(xiàn),利用tensorflow的自動(dòng)求導(dǎo)功能進(jìn)行參數(shù)優(yōu)化.實(shí)驗(yàn)環(huán)境為酷睿i5處理器,頻率為2.6GHz,RAM為8G.首先,通過(guò)誤差曲線來(lái)對(duì)比本文訓(xùn)練算法和傳統(tǒng)訓(xùn)練算法的性能.圖3顯示了訓(xùn)練集和測(cè)試集上的基于困惑度的誤差曲線,我們發(fā)現(xiàn)相比于傳統(tǒng)的DGP模型,本文提出的DGPMN模型收斂速度快,而且誤差較低.MNIST是常用的手寫(xiě)體數(shù)字?jǐn)?shù)據(jù)集,圖4為將MNIST數(shù)據(jù)集投影到優(yōu)化后的二元隱空間的圖像,不同類(lèi)別的數(shù)據(jù)點(diǎn)用不同的顏色表示,不同類(lèi)的數(shù)據(jù)點(diǎn)之間的區(qū)分度越大說(shuō)明隱空間的優(yōu)化效果越好,結(jié)果顯示本文訓(xùn)練算法的優(yōu)化效果較傳統(tǒng)DGP好.

      圖3 訓(xùn)練集和測(cè)試集的誤差收斂圖(左:DGPMN,右:DGP)

      圖4 二元隱空間投影圖

      為了說(shuō)明本文模型的效果,分別使用基于像素匹配的方法(pixels)和經(jīng)典卷積孿生網(wǎng)絡(luò)(CNN-S)網(wǎng)絡(luò)以及本文模型進(jìn)行多次對(duì)比實(shí)驗(yàn).對(duì)于Omniglot數(shù)據(jù)集,我們選擇其中的30個(gè)地區(qū)的字母表作為訓(xùn)練集,其中有964個(gè)類(lèi).剩余的20個(gè)地區(qū)的字母表作為測(cè)試集,其中有659個(gè)類(lèi).這意味著測(cè)試過(guò)程中模型遇到的都是從未見(jiàn)過(guò)的樣本.訓(xùn)練過(guò)程中,每次迭代都從964個(gè)類(lèi)中隨機(jī)選取20個(gè)類(lèi),從中選取5個(gè)作為支撐集.測(cè)試時(shí),從659個(gè)類(lèi)中隨機(jī)選M個(gè)類(lèi),每個(gè)類(lèi)提供K個(gè)樣本來(lái)泛化模型,即所謂的M-Way K-shot學(xué)習(xí)任務(wù),隨機(jī)猜中正確結(jié)果的概率為1/M.結(jié)果顯示,本文模型在我們比較關(guān)心的20通道單樣本學(xué)習(xí)任務(wù)中相比于傳統(tǒng)的CNN-S網(wǎng)絡(luò)將預(yù)測(cè)準(zhǔn)確率從88%提高到了94.7%

      表1 本文模型在Omniglot數(shù)據(jù)集上的表現(xiàn)

      Table 1 Performance of our model on Omniglot

      模型5-way1-shot5-shot15-way1-shot5-shot20-way1-shot5-shotPIXELS41.6%63%38%52%25.1%41.8%CNN-S96.7%98.7%90%95%88%93.4%DGPMN97.8%98.5%94.5%96%94.7%95.5%

      在小樣本學(xué)習(xí)中,由于訓(xùn)練集較小,此時(shí),微調(diào)網(wǎng)絡(luò)的結(jié)果會(huì)比重新訓(xùn)練網(wǎng)絡(luò)好很多.但是我們發(fā)現(xiàn),本文模型并不依賴(lài)于網(wǎng)絡(luò)的微調(diào)操作,這可以有效的避免由微調(diào)帶來(lái)的過(guò)擬合現(xiàn)象,實(shí)驗(yàn)結(jié)果如表1所示,其中N表示未使用微調(diào),Y表示使用了微調(diào).

      圖5 微調(diào)對(duì)模型預(yù)測(cè)Omniglot效果的影響

      手寫(xiě)字符圖像相對(duì)簡(jiǎn)單,為了進(jìn)一步說(shuō)明本文模型的效果,我們?cè)贛iniImage數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).MiniImage數(shù)據(jù)集是從ImageNet數(shù)據(jù)集中提取出來(lái)的一個(gè)針對(duì)小樣本學(xué)習(xí)問(wèn)題的數(shù)據(jù)集,比常用的CIFAR10數(shù)據(jù)集要復(fù)雜.MiniImage數(shù)據(jù)集包含60000張84×84大小的彩色圖片,共100類(lèi),每類(lèi)有600個(gè)樣本.我們將其中80類(lèi)作為訓(xùn)練集,另外的20類(lèi)作為測(cè)試集,并進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表2所示.

      表2 本文模型在MiniImage數(shù)據(jù)集上的表現(xiàn)

      Table 2 Performance of our model on MiniImage

      模型PIXELSCNN-SDGPMN5-way1-shot22.0%43.2%46.7%5-shot26.1%47.8%56.7%

      5 結(jié)束語(yǔ)

      DGP模型作為一個(gè)強(qiáng)大的貝葉斯模型,同時(shí)具有信念網(wǎng)絡(luò)的深度結(jié)構(gòu)和高斯模型的概率性質(zhì),在處理小樣本手寫(xiě)字符識(shí)別問(wèn)題上有較好的表現(xiàn).基于采樣來(lái)訓(xùn)練DGP盡管很靈活,但是難以?xún)?yōu)化,而且在模型較深時(shí)極易陷入局部最優(yōu).本文基于標(biāo)準(zhǔn)化流構(gòu)造靈活的變分分布,同時(shí)使用最優(yōu)K均值聚類(lèi)方法選擇偽點(diǎn),改善了深度高斯過(guò)程模型的訓(xùn)練效果.相比于比較淺的模型,較深的模型一旦訓(xùn)練好必定有更強(qiáng)的預(yù)測(cè)能力,所以探索更加可行的DGP模型的訓(xùn)練方法是非常有意義的.如何通過(guò)并行計(jì)算技術(shù)提高模型的計(jì)算效率也是一個(gè)重要的研究方向.

      猜你喜歡
      變分后驗(yàn)高斯
      小高斯的大發(fā)現(xiàn)
      逆擬變分不等式問(wèn)題的相關(guān)研究
      基于對(duì)偶理論的橢圓變分不等式的后驗(yàn)誤差分析(英)
      求解變分不等式的一種雙投影算法
      貝葉斯統(tǒng)計(jì)中單參數(shù)后驗(yàn)分布的精確計(jì)算方法
      天才數(shù)學(xué)家——高斯
      關(guān)于一個(gè)約束變分問(wèn)題的注記
      一種基于最大后驗(yàn)框架的聚類(lèi)分析多基線干涉SAR高度重建算法
      一個(gè)擾動(dòng)變分不等式的可解性
      有限域上高斯正規(guī)基的一個(gè)注記
      苗栗县| 天柱县| 麻江县| 滨海县| 中西区| 探索| 营山县| 五家渠市| 义乌市| 平利县| 尚义县| 新蔡县| 奉节县| 甘德县| 通州市| 湖南省| 阜平县| 西乌珠穆沁旗| 溆浦县| 孝感市| 东安县| 黑水县| 江津市| 当阳市| 咸宁市| 杭州市| 邵武市| 庆元县| 宁安市| 阿尔山市| 库伦旗| 东城区| 三原县| 安阳县| 康保县| 姚安县| 博兴县| 冀州市| 武清区| 定西市| 清流县|