李 敏
(河南經(jīng)貿(mào)職業(yè)學(xué)院, 鄭州 450018)
圖像分類的目標(biāo)是將圖像根據(jù)其包含的視覺信息,將其劃分到對(duì)應(yīng)的語義類別。要實(shí)現(xiàn)圖像的準(zhǔn)確分類,首要任務(wù)是確定圖像的相似性,主要是如何度量圖像與相應(yīng)語義類別之間的相互關(guān)系。由于同一類圖像之間的內(nèi)在變化(如光照變化、視角變化、遮擋等),確定圖像與類別之間的相似性關(guān)系,是一個(gè)挑戰(zhàn)問題,也是整個(gè)計(jì)算機(jī)視覺領(lǐng)域的重點(diǎn)關(guān)注和研究的問題。
針對(duì)上述圖像與語義類別的相似性度量問題,通常有兩種解決思路:① 設(shè)計(jì)能夠抓住同一類別圖像共同具有的不變性視覺特征,這些特征能夠魯棒地表述同一個(gè)類別下圖像所具有的特定屬性,這些屬性在不同的圖像類別中具有較強(qiáng)的可區(qū)分度。② 組合多個(gè)視覺特征,不同的視覺特征揭示著圖像中包括的不同視覺屬性,如顏色、紋理和形狀等信息。這些被組合的視覺特征往往起到相互補(bǔ)充的作用,因?yàn)椴煌囊曈X特征在不同的圖像類別中或不同的應(yīng)用領(lǐng)域起著不同的作用,即不存在“放之四海皆準(zhǔn)”的視覺特征。就近年的研究現(xiàn)狀來看,研究者們青睞于以多特征組合的方式進(jìn)行圖像與語義類別之間的相似性度量,進(jìn)而提高圖像分類的準(zhǔn)確度[1-2]。
本文提出了一種改進(jìn)的基于在線被動(dòng)-主動(dòng)學(xué)習(xí)(Online Passive-Aggressive,OPA)算法[3]來獲取不同圖像特征下的加權(quán)權(quán)值。鑒于OPA算法使用數(shù)據(jù)采樣以在線的方式更新特征之間的加權(quán)權(quán)值,本文推導(dǎo)出求解加權(quán)系數(shù)的閉式解,以加快算法的執(zhí)行效率。實(shí)驗(yàn)結(jié)果表明,與多核學(xué)習(xí)算法相比,基于在線被動(dòng)-主動(dòng)學(xué)習(xí)的多特征融合圖像分類算法在保持圖像分類準(zhǔn)確度的情況下,所需的計(jì)算時(shí)間只有多核學(xué)習(xí)算法的10%左右。提出的算法在滿足確保圖像分類準(zhǔn)確度的同時(shí),提高了多特征組合的執(zhí)行效率,降低了基于直方圖交核學(xué)習(xí)算法計(jì)算復(fù)雜度。
組合多種視覺特征吸引了計(jì)算機(jī)視覺研究者的廣泛興趣,因?yàn)殡S著特征的增多,視覺相似性度量的準(zhǔn)確度也會(huì)相應(yīng)提高[4]。很多研究工作通過采用某種方式將所選特征進(jìn)行組合,再應(yīng)用機(jī)器學(xué)習(xí)方法得到相應(yīng)的能夠很好地度量視覺相似性的特征。基于核函數(shù)的方法是求解這類問題的首選機(jī)器學(xué)習(xí)方法,因?yàn)楹撕瘮?shù)可以被看作是一種相似性的度量方式?;诤撕瘮?shù)的方法對(duì)每個(gè)視覺特征定義一個(gè)核函數(shù)來度量該特征之間的相似性,并且不依賴圖像特征的維數(shù)。然后以某些恰當(dāng)?shù)姆绞綄?duì)這些核函數(shù)或者對(duì)應(yīng)的核矩陣進(jìn)行加權(quán)組合。
對(duì)于核函數(shù)的組合方式,最簡單的莫過于取平均值,即把所有的核函數(shù)加起來再除以總個(gè)數(shù)。這種組合方式下,如果某個(gè)特征并不適合當(dāng)前任務(wù)或者是噪聲特征時(shí),圖像分類性能反而會(huì)有所下降[5]。近幾年,多核學(xué)習(xí)(Multiple Kernel Learning,MKL)算法的發(fā)展對(duì)多特征組合的研究工作帶來了巨大的成功[6]。多核學(xué)習(xí)算法的目的在于從成百上千的核函數(shù)中自動(dòng)發(fā)掘那些對(duì)當(dāng)前任務(wù)合適的核函數(shù)或核矩陣,并為這些核函數(shù)分配相應(yīng)的權(quán)值[7]。多核學(xué)習(xí)算法本質(zhì)上是將多個(gè)核函數(shù)的組合轉(zhuǎn)化為求解一個(gè)復(fù)雜的凸優(yōu)化問題。如果將多個(gè)核函數(shù)以線性加權(quán)的方式組合,則在多核學(xué)習(xí)框架下配合L1范數(shù)的稀疏限制條件,可以得到分類器模型的稀疏解,即只有少數(shù)幾個(gè)核函數(shù)的權(quán)值非零,而大部分核函數(shù)的權(quán)值為零。解的稀疏性有兩個(gè)方面的優(yōu)勢(shì):① 能夠很好地對(duì)結(jié)果進(jìn)行解釋,權(quán)值非零的核函數(shù)能夠較好地度量數(shù)據(jù)之間的相似性;② 在對(duì)后續(xù)新的數(shù)據(jù)進(jìn)行分析時(shí),能夠減少計(jì)算量。通過凸優(yōu)化理論確保了最終解的唯一性。
多核學(xué)習(xí)算法自主地組合多個(gè)核函數(shù),其本身具有3個(gè)方面的優(yōu)勢(shì)[7-8]:① 核函數(shù)與特征的維數(shù)無關(guān),而視覺計(jì)算領(lǐng)域中的特征通常都是上千維的,多個(gè)核函數(shù)的組合自然也與特征的維數(shù)無關(guān);② 核函數(shù)僅考慮的是特征,因此,多核學(xué)習(xí)可以組合來自多個(gè)數(shù)據(jù)源的不同特征;③ 多核學(xué)習(xí)在轉(zhuǎn)化為凸優(yōu)化的表示時(shí),通過引入正則化項(xiàng)來避免出現(xiàn)過擬合現(xiàn)象,或者給出相應(yīng)的先驗(yàn)性限制條件。但是,多核學(xué)習(xí)的計(jì)算復(fù)雜性非常高,雖然已經(jīng)有了一些快速算法,但都是針對(duì)中等規(guī)模數(shù)據(jù)量的,難以達(dá)到視覺計(jì)算的實(shí)時(shí)性需要。另外,研究表明線性組合方式的多核學(xué)習(xí)模型本身存在一些不足,當(dāng)核函數(shù)處在正交的情形時(shí),一些重要的信息將不會(huì)被選擇;當(dāng)兩個(gè)核函數(shù)高度相關(guān)時(shí),最終解往往是不唯一的[9];而當(dāng)核函數(shù)相互正交時(shí),則算法會(huì)只選取其中一個(gè),而忽略另一個(gè),即使這兩個(gè)核函數(shù)均對(duì)當(dāng)前圖像分類應(yīng)用起著重要的作用。
Kk(xi,xj)=κ(fk(xi),fk(xj))
(1)
式中:核函數(shù)κ(·,·)屬于可再生希爾伯特空間[10];K為第k個(gè)視覺特征形成的核矩陣。
對(duì)多個(gè)特征加權(quán)組合,最直接的方式有兩個(gè):以平均的方式進(jìn)行加權(quán)和將所有的核矩陣對(duì)應(yīng)相乘。以平均的方式進(jìn)行加權(quán)其表達(dá)式為
(2)
再將組合后的核矩陣K*代入到相應(yīng)的基于核的分類器學(xué)習(xí)算法,如支持向量機(jī)等。
將多個(gè)視覺特征形成的核矩陣以乘積的形式進(jìn)行組合,其表達(dá)式為
(3)
同樣將K*代入到相應(yīng)的基于核的分類器學(xué)習(xí)算法。
多核學(xué)習(xí)算法將多個(gè)視覺特征形成的核矩陣以加權(quán)的方式進(jìn)行組合,并將問題轉(zhuǎn)化為凸優(yōu)化理論問題。一般而言,在圖像分類任務(wù)中,多個(gè)核矩陣以線性方式進(jìn)行加權(quán)組合,即
(4)
對(duì)系數(shù)β采用不同的限制條件導(dǎo)致不同的多核學(xué)習(xí)算法,如l1-MKL其系數(shù)限制為
該限制條件使得最終求解結(jié)果更具有可解釋性,即不相關(guān)的視覺特征其系數(shù)為零,l1-MKL也因此而常被用于做特征選擇。因此,基于多核學(xué)習(xí)的多特征組合算法通常需要求解下述凸優(yōu)化問題[2]:
(4)
(5)
式中,l(z)=max(0,1-z)是hinge損失函數(shù)。多核學(xué)習(xí)的最終分類器函數(shù)表示為:
(6)
大多數(shù)多核學(xué)習(xí)算法主要關(guān)注兩個(gè)研究點(diǎn)[6]:①通過設(shè)計(jì)不同的目標(biāo)函數(shù)和核函數(shù)的組合形式,以提高分類模型的準(zhǔn)確度;②設(shè)計(jì)不同的優(yōu)化求解策略,提高多核學(xué)習(xí)算法的執(zhí)行效率,適應(yīng)當(dāng)前大數(shù)據(jù)發(fā)展趨勢(shì)。由于多核學(xué)習(xí)算法通常將核函數(shù)的組合形式嵌入到半正定優(yōu)化框架或者錐優(yōu)化等復(fù)雜的凸優(yōu)化問題,而這類凸優(yōu)化問題的計(jì)算復(fù)雜度為O(n3),這對(duì)于處理圖像、視頻等多媒體數(shù)據(jù)而言是很不切實(shí)際的。
(7)
式中,mt是第t個(gè)圖像特征的維度,d是圖像特征的個(gè)數(shù),即圖像分類任務(wù)使用的特征數(shù)量。其他基于直方圖表示的核函數(shù)同樣可以應(yīng)用在式(7)中形成相應(yīng)的核矩陣。
由于不同的圖像特征只能揭示圖像的某一方面屬性,故不同的構(gòu)造核矩陣也只是揭示了圖像某些方面的視覺特性,若要盡可能地揭示圖像多方面的視覺特性,則需要將不同的構(gòu)造核矩陣以其貢獻(xiàn)大小進(jìn)行加權(quán)融合。于是,構(gòu)造核矩陣的加權(quán)融合可在數(shù)學(xué)上表示為:
(8)
本文的終極目標(biāo)是確保式(8)所示的加權(quán)相似性度量在度量相同標(biāo)簽的圖像時(shí)其值比度量不同標(biāo)簽的圖像時(shí)其值要大,即相同類別的圖像相似性大于不同類別的圖像相似性。理想情況下,加權(quán)相似性度量式(8)中的權(quán)值η∈Rd應(yīng)該滿足:
Kη(i,p)≥Kη(i,n),?(i,p,n)∈Γ
(9)
即
(10)
?(i,p,n)∈Γ
式中:Γ={(i,p,n)|yi=yp,yi≠yn}為數(shù)據(jù)采樣三元組;yi表示圖像Ii的標(biāo)簽。
然而,不可能使得所有的限制條件式(9)均能夠同時(shí)滿足,因此,允許少部分圖像違背限制條件。通過引入松弛變量ξipn,將上述限制條件式(9)轉(zhuǎn)化為:
Kη(i,p)-Kη(i,n)≥1-ξipn
(11)
?(i,p,n)∈Γ
松弛變量ξipn可以看作是對(duì)違背限制條件式(9)的圖像進(jìn)行一定的懲罰,即損失函數(shù)。在軟限制條件式(11)下,本文的目標(biāo)是最小化所有采樣三元組的損失值,其數(shù)學(xué)表示為min∑i,p,nξipn。于是,類似于支持向量機(jī)的數(shù)學(xué)表達(dá)方式,將上述損失函數(shù)及其限制條件形式化表示為二次優(yōu)化問題:
(12)
(13)
二次優(yōu)化問題表示為式(12)和式(13),是一個(gè)凸優(yōu)化問題,其存在唯一解,可以直接通過數(shù)學(xué)優(yōu)化工具求解,如LIBSVM[12]和MOSEK[13]等。然而,直接求解二次優(yōu)化問題其計(jì)算復(fù)雜度為,不適合于圖像分類等大規(guī)模數(shù)據(jù)處理應(yīng)用,尤其是當(dāng)數(shù)據(jù)量很大時(shí),如網(wǎng)絡(luò)圖像分類等應(yīng)用場(chǎng)景。
采用數(shù)學(xué)優(yōu)化程序包直接優(yōu)化二次問題時(shí)需要仔細(xì)考慮算法的執(zhí)行效率和內(nèi)存消耗情況,尤其是當(dāng)數(shù)據(jù)集中圖像本身數(shù)量以及其視覺特征數(shù)量很多時(shí)。通過改進(jìn)的OPA算法[3]以在線學(xué)習(xí)的方式求解上述二次優(yōu)化問題。OPA算法是基于數(shù)據(jù)采樣的在線學(xué)習(xí)算法,該算法的目標(biāo)函數(shù)需要取一個(gè)折衷,這個(gè)折衷是在當(dāng)前訓(xùn)練數(shù)據(jù)下?lián)p失函數(shù)最小和當(dāng)前迭代參數(shù)與上一次迭代參數(shù)距離最小之間實(shí)現(xiàn)。首先定義三元組(i,p,n)的hinge損失函數(shù)為:
L(η)=max(0,1-Kη(i,p)+Kη(i,n))
(14)
由上述討論得知,算法的最終目標(biāo)是使得對(duì)所有的三元組(i,p,n),hinge損失函數(shù)∑(i,p,n)∈ΓL(η)最小。鑒于當(dāng)數(shù)據(jù)集中圖像數(shù)量很大時(shí),直接求解二次優(yōu)化問題式(12)變得不可行,因此,通過求解其近似解來代替其準(zhǔn)確解,以期能夠快速求解上述二次優(yōu)化問題。由于直接最小化損失函數(shù)∑(i,p,n)∈ΓL(η)很困難,于是,若對(duì)于每個(gè)三元組(i,p,n)使得其對(duì)于得損失函數(shù)L(η)最小,則可以得到上述優(yōu)化問題的近似解。本文通過改進(jìn)的OPA算法,使得對(duì)每個(gè)三元組(i,p,n)最小化其損失函數(shù)L(η)來迭代地求解權(quán)值。類似于文獻(xiàn)[14],本文將二次優(yōu)化問題(4-7)轉(zhuǎn)化為求解下述問題:
(15)
(16)
因此,對(duì)于迭代次數(shù)i,新的權(quán)值ηi需要在上一次的更新結(jié)果ηi-1和最小化當(dāng)前三元組下的損失函數(shù)L(η)之間取一個(gè)折中。
接下來,類似于文獻(xiàn)[3],本文給出上述優(yōu)化問題式(15)、(16)的求解過程。當(dāng)L(η)=0時(shí),可以清楚看到此時(shí)η=ηi-1滿足上述限制條件。當(dāng)L(η)≠0時(shí),定義式(15)和(16)優(yōu)化問題的拉格朗日表達(dá)式為
λξipn+τ(1-Kη(i,p)+Kη(i,n)-ξipn)
(17)
式中,拉格朗日乘數(shù)算子τ>0,λ>0。當(dāng)式(17)相對(duì)于權(quán)值η取最優(yōu)解時(shí),其對(duì)應(yīng)的偏導(dǎo)數(shù)等于零,即
根據(jù)式(17),展開上式得
η-ηi-1-τ(κ(i,p)-
κ(i,n))=0
其中,κ(i,p)=[K1(i,p),…,Kd(i,p)]T∈Rd為相應(yīng)的核矩陣對(duì)應(yīng)元素組成的向量。新一次迭代得到最優(yōu)權(quán)值為:
η=ηi-1-τ(κ(i,p)-κ(i,n))
(18)
到此為止,仍需要求解拉格朗日乘數(shù)算子τ。對(duì)拉格朗日表達(dá)式(17)相對(duì)于松弛變量ξipn求偏導(dǎo)數(shù)并令其偏導(dǎo)數(shù)等于零,則有
τ-λ=0
(19)
由于拉格朗日乘數(shù)算子τ>0,λ>0,故0<τ 將式(18)和式(19)代入到拉格朗日表達(dá)式(17),可得: τ(1-Kηi-1(i,p)+Kηi-1(i,n)) (20) 對(duì)式(20)求取其相對(duì)于拉格朗日乘數(shù)算子τ的偏導(dǎo)數(shù),并令偏導(dǎo)數(shù)為零,有 對(duì)上式進(jìn)行整理得 由上述推導(dǎo)得知,0<τ (21) 通過上述推導(dǎo)過程,可以得到式(15)優(yōu)化問題的閉式解式(18)和式(21)。為得到優(yōu)化問題式(15)的最終解,只需要不斷迭代執(zhí)行式(18)和式(21)即可,即以在線采樣的方式從訓(xùn)練數(shù)據(jù)中不斷采樣三元組(i,p,n)∈Γ,直到滿足條件為止。 綜上所述,算法1總結(jié)了本文改進(jìn)的OPA算法進(jìn)行在線加權(quán)的權(quán)值學(xué)習(xí)算法過程。值得注意的是,該算法給出了權(quán)值更新的閉式解,從后續(xù)實(shí)驗(yàn)效果來看,閉式解使得算法在計(jì)算效率上有很大的優(yōu)勢(shì)。 算法1 基于被動(dòng)-主動(dòng)學(xué)習(xí)的圖像分類算法 初始化:η=[1,…,1]T 重復(fù) 采樣三元組(i,p,n)∈Γ; 更新權(quán)值η=ηi-1-τ(κ(i,p)-κ(i,n)),其中, τi滿足式(21),κ(i,p)=[K1(i,p),…,Kd(i,p)]T∈Rd。 直到收斂條件滿足,即最大迭代次數(shù)滿足。 本文主要是在Caltech-101數(shù)據(jù)集[15]和Scene-15數(shù)據(jù)集[16]這兩組圖像分類數(shù)據(jù)集上通過實(shí)驗(yàn)驗(yàn)證上述提出的基于在線被動(dòng)-主動(dòng)學(xué)習(xí)的圖像分類算法(算法1)的有效性。 圖像分類中采用不同的視覺特征會(huì)取得不同的分類準(zhǔn)確度,因?yàn)椴煌囊曈X特征往往只能反映出圖像中不同的像素屬性及其統(tǒng)計(jì)結(jié)果。在本文實(shí)驗(yàn)中盡量使用開源程序包Vlfeat[17]已經(jīng)實(shí)現(xiàn)的視覺特征,其他一些視覺特征也來源于相應(yīng)的程序包,并對(duì)程序包做相應(yīng)的說明。本文實(shí)驗(yàn)中使用的特征如下: (1) SIFT特征[18]。在本文實(shí)驗(yàn)中,對(duì)每幅圖像使用密集采樣方式每隔3個(gè)像素采樣的子圖像。在提取SIFT特征之后,使用空間金字塔匹配模型[14]的視覺詞袋模型對(duì)每個(gè)圖像的視覺特征進(jìn)行量化,金字塔劃分為2l×2l=0,1,2。3個(gè)不同尺度,視覺字典設(shè)置為(400、1 000和4 000)3個(gè)不同規(guī)模。同一個(gè)金字塔尺度構(gòu)建同一個(gè)視覺特征表示,在構(gòu)建核矩陣時(shí),使用核、直方圖交核以及線性核這3個(gè)不同的核函數(shù),結(jié)核3個(gè)不同規(guī)模的視覺字典,共構(gòu)建9個(gè)核矩陣。 (2) 彩色圖像的SIFT特征[19]。本文實(shí)驗(yàn)RGB彩色空間和HSV彩色空間在不同的顏色通道上分別提取SIFT特征,再組合成一個(gè)完整的圖像視覺特征表示,因此,相比于傳統(tǒng)的SIFT特征,其維度為384。對(duì)提取的彩色圖像的SIFT特征按照上述的SIFT特征一樣處理彩色圖像的SIFT特征,即相同的視覺字典、核函數(shù)等。RGB-SIFT和HSV-SIFT分別得到9個(gè)核矩陣,共18個(gè)核矩陣。 (3) Fisher特征向量[20-22]。Fisher特征向量可以獲取圖像像素間的0階、1階和2階統(tǒng)計(jì)屬性。由于Fisher特征向量的維度為(2d+1)K,其中d是基礎(chǔ)特征的維度,如使用SIFT特征,則d=128,K是混合高斯的個(gè)數(shù)。在本文的實(shí)驗(yàn)中使用改進(jìn)的Fisher特征向量[21],設(shè)置混合高斯的高斯函數(shù)為256個(gè),基礎(chǔ)特征使用SIFT特征。由于該特征維度過高,本文使用主成分分析方法將圖像的特征降低到64K維,即將每個(gè)SIFT特征降到64K維。在特征歸一化方面使用冪歸一化(Power Normalization),設(shè)置歸一化因子為0.5。該特征使用χ2核和線性核獲取2個(gè)核矩陣。 (4) 局部二值模式LBP。局部二值模式描述的是圖像的紋理信息,最早用于做紋理識(shí)別。該視覺特征相比于傳統(tǒng)的紋理特性而言,其高準(zhǔn)確性和低計(jì)算復(fù)雜度贏得了許多研究工作者的青睞。本文使用LBP8,1特征,因?yàn)樵撎卣鳚M足旋轉(zhuǎn)不變性,所以該特征使用二進(jìn)制編碼,故使用直方圖交核對(duì)其進(jìn)行映射。該特征與SIFT特征一樣,使用3層空間金字塔模型進(jìn)行簡單的空間劃分,每個(gè)金字塔層分別獲取一個(gè)核矩陣,共計(jì)3個(gè)核矩陣。 (5) 自相似特征(Self-similarity features)。自相似特征用于描述目標(biāo)內(nèi)在的相似性關(guān)系,該特征通過在一個(gè)固定大小的矩形框中,每隔5個(gè)像素進(jìn)行采樣并計(jì)算采樣點(diǎn)之間的相似關(guān)系得到的。在整個(gè)圖像中,每次采樣大小為的窗口圖像,每個(gè)窗口圖像之間相距40個(gè)像素,并計(jì)算每個(gè)窗口圖像之間的相關(guān)性映射。最后,將這些窗口圖像的相關(guān)性關(guān)系量化為幅度為3個(gè)量綱,角度為10個(gè)量綱的二維直方圖,即自相似特征的維度為30。對(duì)自相似特征采用與SIFT特征一樣的處理方式,得到9個(gè)核矩陣。本文使用牛津大學(xué)視覺幾何組的程序包來計(jì)算的自相似特征,該程序包的下載地址為:http://www.robots.ox.ac.uk/~vgg/software/SelfSimilarity/。 綜上所述,本文共使用5組視覺特征,共計(jì)41核矩陣進(jìn)行實(shí)驗(yàn)驗(yàn)證。 近年來,多核學(xué)習(xí)算法取得了長足的發(fā)展,形成了各種各樣的算法,很難對(duì)所有的多核學(xué)習(xí)算法進(jìn)行完整的評(píng)價(jià)與對(duì)比,因此,參與本文的實(shí)驗(yàn)對(duì)比的多核學(xué)習(xí)算法的選取準(zhǔn)則有兩個(gè):① 在圖像分類領(lǐng)域使用過;② 在圖像分類領(lǐng)域應(yīng)用范圍比較廣泛。鑒于此,本文對(duì)比實(shí)驗(yàn)中使用的多核學(xué)習(xí)算法有: (1) 核矩陣的算術(shù)平均加權(quán)組合。平均加權(quán)組合是最簡單的多核學(xué)習(xí)的組合方法; (2) 核矩陣的對(duì)應(yīng)乘積加權(quán)。乘積加權(quán)是對(duì)多個(gè)核函數(shù),按照其對(duì)應(yīng)的元素相乘,然后再求取其對(duì)應(yīng)的根; (3) 多核學(xué)習(xí)算法。多核學(xué)習(xí)算法是將多個(gè)核矩陣及其對(duì)應(yīng)的加權(quán)權(quán)值組合在同一個(gè)凸優(yōu)化問題進(jìn)行統(tǒng)一求解。由于該凸優(yōu)化問題的計(jì)算復(fù)雜度為o(n3),因而出現(xiàn)了許多快速求解算法。本文使用SimpleMKL算法[25]來求解下述多核學(xué)習(xí)算法的凸優(yōu)化問題: 因此,本文實(shí)驗(yàn)對(duì)比的共4個(gè)算法,即上述3個(gè)組合算法和算法1。 這一節(jié)主要給出本文的實(shí)驗(yàn)結(jié)果與相應(yīng)的分析,所有實(shí)驗(yàn)均在Caltech-101數(shù)據(jù)集和Scene-15數(shù)據(jù)集上進(jìn)行。所有實(shí)驗(yàn)均使用Matlab語言實(shí)現(xiàn),視覺特征除了自相似特征外,均使用Vlfeat軟件程序包[17]上的實(shí)現(xiàn)方式。凸優(yōu)化問題使用SimpleMKL算法的程序包求解,其余算法均使用LIBSVM程序包[12]求解。所有實(shí)驗(yàn)除了多核學(xué)習(xí)算法的凸優(yōu)化問題外,均運(yùn)行10次,求取均值和方差,凸優(yōu)化問題由于其高計(jì)算復(fù)雜度僅運(yùn)行3次,取其均值和方差進(jìn)行實(shí)驗(yàn)對(duì)比。 表1給出了相應(yīng)的對(duì)比算法在Caltech-101數(shù)據(jù)集上的圖像分類準(zhǔn)確度對(duì)比結(jié)果。由表1可以看到,多核學(xué)習(xí)算法取得了最佳的分類準(zhǔn)確度,即在15個(gè)訓(xùn)練圖像時(shí),可以取得67.04%的準(zhǔn)確度,在30個(gè)訓(xùn)練圖像時(shí),可以取得78.16%的圖像分類準(zhǔn)確度。而本文提出算法的分類準(zhǔn)確度均高于核矩陣的平均組合和核矩陣的乘積組合?;谔岢龅幕谠诰€被動(dòng)-主動(dòng)學(xué)習(xí)的圖像分類算法(算法1)在15個(gè)訓(xùn)練圖像時(shí),可以取得66.59%的分類準(zhǔn)確度,在30個(gè)訓(xùn)練圖像時(shí),可以取得77.29%的準(zhǔn)確度,這與多核學(xué)習(xí)算法的分類準(zhǔn)確度相差不到1個(gè)百分點(diǎn)。而單個(gè)特征的最佳結(jié)果在15個(gè)訓(xùn)練圖像和30個(gè)訓(xùn)練圖像時(shí),分別可以獲得62.37%和73.02%的分類準(zhǔn)確度,這樣的結(jié)果與核矩陣的平均組合和核矩陣的乘積組合的結(jié)果相差不大,由此可以說明,對(duì)核矩陣進(jìn)行簡單的組合并不能對(duì)圖像分類結(jié)果有較大的提升。值得說明的是,取得最佳分類結(jié)果的單個(gè)特征是Fisher特征向量。 表1 Caltech-101數(shù)據(jù)集的圖像分類準(zhǔn)確度對(duì)比 (%) 表2給出了參與對(duì)比的4個(gè)算法在Caltech-101數(shù)據(jù)集上的計(jì)算時(shí)間對(duì)比結(jié)果。需要說明的是,本文考慮的計(jì)算時(shí)間不包括圖像的特征提取時(shí)間和構(gòu)建核矩陣的時(shí)間,僅僅只包含從多個(gè)核矩陣到得到最終分類器所需要的時(shí)間。值得注意的是,除了多核學(xué)習(xí)算法外,其余的算法均可以在模型訓(xùn)練之前即可得到多個(gè)核矩陣組合之后的核矩陣表示。所有時(shí)間計(jì)算結(jié)果均來自相同的個(gè)人計(jì)算機(jī),該計(jì)算機(jī)的配置如下:Intel Core i5四核處理器,主頻為3.4 GHz,8 GB內(nèi)存,Windows 7 64位操作系統(tǒng)。所有實(shí)驗(yàn)運(yùn)行在Matlab 2012b平臺(tái),編程語言為Matlab,執(zhí)行過程中不開啟并行模式,所有實(shí)驗(yàn)均采樣單線程。 表2 Caltech-101數(shù)據(jù)集的計(jì)算時(shí)間對(duì)比 s-1 從計(jì)算時(shí)間上來看,核矩陣的算術(shù)平均加權(quán)組合和核矩陣的對(duì)應(yīng)乘積加權(quán)兩個(gè)方法的耗時(shí)最少,處理41個(gè)核矩陣的組合僅僅只需要幾十秒,其中LibSVM的訓(xùn)練時(shí)間不足10 s時(shí)間。多核學(xué)習(xí)算法的運(yùn)行時(shí)間最長,在15個(gè)訓(xùn)練圖像時(shí),需要超過20 min的運(yùn)行時(shí)間,當(dāng)訓(xùn)練圖像為30時(shí),需要超過30 min的運(yùn)行時(shí)間。這樣的運(yùn)行時(shí)間,很難適應(yīng)當(dāng)前大數(shù)據(jù)的需求,如ImageNet圖像數(shù)據(jù)集等,而多個(gè)核函數(shù)的簡單組合又不能滿足準(zhǔn)確度的需求。本文提出的基于在線被動(dòng)-主動(dòng)學(xué)習(xí)的圖像分類研究算法需要的運(yùn)行時(shí)間遠(yuǎn)遠(yuǎn)低于多核學(xué)習(xí)算法,僅為多核學(xué)習(xí)算法相應(yīng)時(shí)間的10%左右。結(jié)合表1的結(jié)果來看,本文提出的算法在減少算法執(zhí)行時(shí)間的同時(shí),基本上保持了圖像分類的準(zhǔn)確度,當(dāng)大數(shù)據(jù)環(huán)境下,往往是以犧牲性能換取高效的結(jié)果反饋。 綜上所述,結(jié)合表1和表2的實(shí)驗(yàn)結(jié)果,可以得出結(jié)論:本文提出的基于在線被動(dòng)-主動(dòng)學(xué)習(xí)的圖像分類算法在保障圖像分類準(zhǔn)確度的情況下,有效地降低了算法的計(jì)算復(fù)雜度,使得算法能夠在更短的時(shí)間內(nèi)處理相應(yīng)的圖像數(shù)量,可以為大數(shù)據(jù)環(huán)境下的圖像分類研究提供一定的指導(dǎo)作用。 Scene-15數(shù)據(jù)集的圖像分類結(jié)果如表3所示,相應(yīng)的計(jì)算時(shí)間對(duì)比如表4所示。從表3可以看到,多核學(xué)習(xí)算法同樣獲得最高的圖像分類準(zhǔn)確度,其準(zhǔn)確度達(dá)到87.69%,緊隨其后的是本文提出的基于在線被動(dòng)-主動(dòng)學(xué)習(xí)的圖像分類算法(算法1),它的分類準(zhǔn)確度達(dá)到了87.35%,與多核學(xué)習(xí)算法的準(zhǔn)確度相距只有0.3百分點(diǎn)。這表明在圖像分類準(zhǔn)確度這個(gè)層面上,兩者相差很小,基本上可以認(rèn)為它們的分類準(zhǔn)確度是相同的,因?yàn)?.3個(gè)百分點(diǎn)的差距很可能是由于算法的不穩(wěn)定或者特征編碼階段的不確定性引起的。 表3 Scene-15數(shù)據(jù)集的圖像分類準(zhǔn)確度對(duì)比 (%) 表4 Scene-15數(shù)據(jù)集的計(jì)算時(shí)間對(duì)比 s-1 從表4的計(jì)算時(shí)間來看,本文提出算法的計(jì)算時(shí)間為140 s,而多核學(xué)習(xí)的計(jì)算時(shí)間達(dá)到1 193 s,差不多有20 min。相比而言,本文提出的算法,其運(yùn)算時(shí)間只占到多核學(xué)習(xí)算法計(jì)算時(shí)間的12%,計(jì)算時(shí)間被大大縮減。 與在Caltech-101數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比一樣,本文提出的算法在保障圖像分類準(zhǔn)確度的情況下,有效地降低了算法的計(jì)算復(fù)雜度。進(jìn)一步可以推斷,使用恰當(dāng)?shù)臋?quán)值學(xué)習(xí)算法,可以有效的減少多核學(xué)習(xí)算法的計(jì)算時(shí)間,同時(shí),如果恰當(dāng)?shù)剡M(jìn)行實(shí)驗(yàn),圖像分類的準(zhǔn)確度并不會(huì)有很大的降低。本文提出的算法將多視覺特征的組合研究向大數(shù)據(jù)處理方向推進(jìn)起到了探索性的研究。 在圖像分類研究中,組合多個(gè)視覺特征有助于提高圖像分類的準(zhǔn)確度,不同的視覺特征在一定程度上可以實(shí)現(xiàn)互為補(bǔ)充,從不同的視覺屬性上彌補(bǔ)圖像類別之間、類別內(nèi)部間的各種挑戰(zhàn)。本文首先回顧基于多核學(xué)習(xí)的多特征組合圖像分類算法,多核學(xué)習(xí)以其內(nèi)在的優(yōu)勢(shì)在多特征組合上取得了很大的成就,但是其高計(jì)算復(fù)雜度的本質(zhì)限制了這類算法在大數(shù)據(jù)環(huán)境下的應(yīng)用。鑒于此,本文提出了提出的基于在線被動(dòng)-主動(dòng)學(xué)習(xí)的圖像分類算法,該方法將多核學(xué)習(xí)問題轉(zhuǎn)化為基于隨機(jī)采樣的在線核分類器求解問題,在一定程度上降低了問題的求解復(fù)雜度。與多核學(xué)習(xí)算法相比,提出的基于在線被動(dòng)-主動(dòng)學(xué)習(xí)的圖像分類算法在保持圖像分類準(zhǔn)確度非常接近的情況下,所需的計(jì)算時(shí)間只有多核學(xué)習(xí)算法的10%左右。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的算法在保持分類準(zhǔn)確度的情況下,降低了基于直方圖交核學(xué)習(xí)算法的計(jì)算復(fù)雜度。 在當(dāng)前大數(shù)據(jù)環(huán)境下,集群、Hadoop以及Spark等大數(shù)據(jù)計(jì)算平臺(tái),均擁有多個(gè)CPU或者通過網(wǎng)絡(luò)連接形成分布式計(jì)算結(jié)點(diǎn)。本文提出的算法其本質(zhì)是基于數(shù)據(jù)采樣,通過在數(shù)據(jù)集中隨機(jī)采樣三元組來迭代更新分類器的權(quán)重?;跀?shù)據(jù)采樣的方法由于不需要對(duì)樣本進(jìn)行批量處理,可以擴(kuò)展到上述分布式計(jì)算結(jié)點(diǎn)上,因此,本文的下一步工作將考慮將算法擴(kuò)展到分布式計(jì)算平臺(tái),利用當(dāng)前大數(shù)據(jù)計(jì)算平臺(tái)的優(yōu)勢(shì),適應(yīng)當(dāng)前大數(shù)據(jù)發(fā)展趨勢(shì)。 參考文獻(xiàn)(References): [1] Zhang J, Marszalek M, Lazebnik S,etal. Local features and kernels for classification of texture and object categories: A comprehensive study[J]. International Journal of Computer Vision, 2007, 73(2): 213-238. [2] Gehler P, Nowozin S. On feature combination for multiclass object classification[C]//Proceedings of IEEE International Conference on Computer Vision, Kyoto: IEEE, 2009: 221-228. [3] Crammer K, Dekel O, Keshet J,etal. Online passive-aggressive algorithms[J]. Journal of Machine Learning Research. 2006, 7: 551-585. [4] Vedaldi A, Gulshan V, Varma M,etal. Multiple kernels for object detection[C]//Proceedings of IEEE International Conference on Computer Vision, Kyoto: IEEE, 2009: 606-613. [5] Varma M, Ray D. Learning the discriminative power-invariance trade-off[C]//Proceedings of IEEE 11th International Conference on Computer Vision, Brazil: IEEE, 2007: 1-8. [6] Bucak S S, Jin R, Jain A. Multiple Kernel Learning for Visual Object Recognition: A Review[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1354-1369. [7] Lanckriet G R, Cristianini N, Bartlett P,etal. Learning the kernel matrix with semidefiniteprogramming[J]. Journal of Machine Learning Research, 2004, 5: 27-72. [8] Gonen M, Alpaydin E. Multiple kernel learning algorithms[J]. Journal of Machine Learning Research, 2011, 12: 2211-2268. [9] Sun T, Jiao L, Liu F,etal. Selective multiple kernel learning for classification with ensemble strategy[J]. Pattern Recognition, 2013, 46(11): 3081-3090. [10] Lampert C H. Kernel methods in computer vision[J]. Foundations and Trends in Computer Graphics and Vision, 2009, 4(3): 193-285. [11] Chen S, Ma B, Zhang K. On the similarity metric and the distance metric[J]. Theoretical Computer Science. 2009, 410(24): 2365-2376. [12] Chang C, Lin C. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 1-27. [13] Aps M. The MOSEK optimization toolbox for MATLAB manual, version 7.0 (Revision 114)[R]. Denmark: MOSEK ApS, 2014. [14] Chechik G, Sharma V, Shalit U,etal. Large scale online learning of image similarity through ranking[J]. Journal of Machine Learning Research, 2010, 11: 1109-1135 [15] Fei-Fei L, Fergus R, Perona P. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories[J]. Computer Vision and Image Understanding, 2007, 106(1): 59-70. [16] Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching forrecognizing natural scene categories[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York: IEEE, 2006: 2169-2178. [17] Vedaldi A, Fulkerson B. VLFeat: An open and portable library of computer vision algorithms[C]//Proceedings of the International Conference on Multimedia, Italy: ACM, 2010: 1469-1472. [18] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. [19] Van De Sande K E, Gevers T, Snoek C G. Evaluating color descriptors for object and scene recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1582-1596. [20] Perronnin F, Dance C. Fisher kernels on visual vocabularies for image categorization[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, USA: IEEE, 2007: 1-8. [21] Perronnin F, S ANchez J, Mensink T. Improving the fisher kernel for large-scale image classification[C]//Proceedings of European Conference on Computer Vision, Springer, Greece: Springer, 2010: 143-156. [22] Sanchez J, Perronnin F, Mensink T,etal. Image classification with the Fisher vector: Theory and practice[J]. International Journal of Computer Vision, 2013, 105(3): 222-245.3 實(shí)驗(yàn)設(shè)計(jì)
3.1 實(shí)驗(yàn)中使用的圖像視覺特征
3.2 對(duì)比實(shí)驗(yàn)中使用的算法
4 實(shí)驗(yàn)結(jié)果與分析
4.1 Caltech-101數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果對(duì)比與分析
4.2 Scene-15數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果對(duì)比與分析
5 結(jié) 語