夏戰(zhàn)國(guó),夏士雄,蔡世玉,萬(wàn)玲
(中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)
高斯過(guò)程[1]是近年在國(guó)際上機(jī)器學(xué)習(xí)研究的熱點(diǎn)領(lǐng)域之一。高斯過(guò)程是基于貝葉斯框架的無(wú)參數(shù)核方法,可用于有監(jiān)督學(xué)習(xí),被成功應(yīng)用于回歸與分類[2~5]。與人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)相比,高斯過(guò)程的優(yōu)點(diǎn)主要有3點(diǎn):1) 在不犧牲性能的條件下容易實(shí)現(xiàn),在模型構(gòu)建過(guò)程中自動(dòng)地獲取超參數(shù),具有完全的貝葉斯公式化表示,預(yù)測(cè)輸出具有清晰的概率解釋,并且可以直接實(shí)現(xiàn)多分類[6~13];2) 由于高斯過(guò)程采用核函數(shù),使它具有較強(qiáng)的非線性性能,可以解決線性不可分和特征維數(shù)過(guò)多的問(wèn)題,從而在一定程度上避免了ANN中的“維數(shù)災(zāi)難”問(wèn)題[14];3) 高斯過(guò)程為貝葉斯學(xué)習(xí)提供了一個(gè)范式,根據(jù)訓(xùn)練樣本可以從先驗(yàn)分布轉(zhuǎn)換到后驗(yàn)分布,并可以對(duì)核函數(shù)的超參數(shù)進(jìn)行推理;而 SVM 對(duì)超參數(shù)的選擇卻通常只能采用經(jīng)驗(yàn)法或交叉驗(yàn)證方法[15,16]。因此,在數(shù)據(jù)挖掘、模式識(shí)別、故障檢測(cè)、生物醫(yī)學(xué)、圖像及文本識(shí)別等領(lǐng)域得到了廣泛的應(yīng)用,并已取得了較為顯著的研究。
傳統(tǒng)的監(jiān)督學(xué)習(xí)方法只利用標(biāo)記數(shù)據(jù)進(jìn)行模型訓(xùn)練,一旦標(biāo)記數(shù)據(jù)量很少,就會(huì)導(dǎo)致訓(xùn)練集不足,模型的泛化能力得不到保證,勢(shì)必會(huì)引起回歸或分類結(jié)果的精度下降,最終難以解決實(shí)際應(yīng)用的問(wèn)題。而在現(xiàn)實(shí)世界中,難以獲得過(guò)多的已標(biāo)記數(shù)據(jù),對(duì)無(wú)標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記則需要昂貴的代價(jià),且易于標(biāo)記錯(cuò)誤。針對(duì)這種情況,學(xué)者們嘗試使用基于半監(jiān)督學(xué)習(xí)的推理方法,即同時(shí)考慮少量的標(biāo)記數(shù)據(jù)和大量的無(wú)標(biāo)記數(shù)據(jù),從而解決了前述的標(biāo)記數(shù)據(jù)少且獲取困難的問(wèn)題,具有重要意義。半監(jiān)督學(xué)習(xí)主要有基于約束條件和基于距離度量的半監(jiān)督學(xué)習(xí),同時(shí)還有基于模型和基于密度的半監(jiān)督學(xué)習(xí),以及基于數(shù)據(jù)集空間結(jié)構(gòu)方法的半監(jiān)督學(xué)習(xí)方法[17~19]。Catanzaro等人[17]提出了將半監(jiān)督譜學(xué)習(xí)與隱馬爾科夫模型相結(jié)合的人臉識(shí)別算法,解決了標(biāo)記信息相對(duì)較少的問(wèn)題。Mireille[18]討論了基于密度的半監(jiān)督學(xué)習(xí)方法,從約束關(guān)系著手,拓展must-link和cannot-link關(guān)系集合,以滿足即使只有部分標(biāo)記信息情況下,依然可以很好地訓(xùn)練學(xué)習(xí)。
但是以上半監(jiān)督學(xué)習(xí)方法針對(duì)類不均衡的訓(xùn)練數(shù)據(jù)均未作深入討論。類不均衡數(shù)據(jù)并非傳統(tǒng)意義上的噪聲數(shù)據(jù),而是廣泛存在于異常檢測(cè)、醫(yī)療診斷等各個(gè)領(lǐng)域中的真實(shí)存在的數(shù)據(jù)集合,這些數(shù)據(jù)中的一類屬于正常數(shù)據(jù),容易獲得其標(biāo)記信息,而另一部分則由于數(shù)據(jù)存在相對(duì)概率小、數(shù)據(jù)特征難以捕捉等各種原因,導(dǎo)致了類不均衡情況的出現(xiàn)。類不均衡數(shù)據(jù)主要有數(shù)據(jù)稀缺性、將數(shù)據(jù)分類預(yù)測(cè)傾向于多類、不平衡數(shù)據(jù)難以識(shí)別以及決策面偏移失衡等問(wèn)題?,F(xiàn)在研究的很多聚類分類問(wèn)題大都是在類別大致平衡的條件下討論的,因而對(duì)于類不均衡數(shù)據(jù)往往得不到有效的處理。類不均衡問(wèn)題容易導(dǎo)致劃分面的位置過(guò)度偏向于一類,可能最終結(jié)果是基本上把幾乎所有的正類和負(fù)類都劃在劃分面的一側(cè),使得最終的結(jié)果都為同一類,甚至將正常數(shù)據(jù)錯(cuò)劃分為噪音數(shù)據(jù)。
針對(duì)以上問(wèn)題,本文提出了類不均衡的半監(jiān)督高斯過(guò)程分類算法,其基本原理是利用數(shù)據(jù)空間分布的自適應(yīng)特性,利用極少量不平衡的標(biāo)記數(shù)據(jù)來(lái)構(gòu)建半監(jiān)督分類器,用其對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行分類,從而使數(shù)據(jù)的分類標(biāo)簽信息達(dá)到相對(duì)平衡。該算法中,未標(biāo)記數(shù)據(jù)通過(guò)半監(jiān)督自訓(xùn)練的方法逐漸被標(biāo)注上類別標(biāo)記,并且被加入到訓(xùn)練樣本集合中作為標(biāo)記數(shù)據(jù),從而可進(jìn)行新的訓(xùn)練。半監(jiān)督分類器不斷通過(guò)自我訓(xùn)練,獲取可信度高的標(biāo)記數(shù)據(jù)來(lái)平衡數(shù)據(jù)中原來(lái)存在的類別不均衡問(wèn)題。對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行類別標(biāo)記是迭代進(jìn)行的,通過(guò)判斷設(shè)置的閾值或者迭代次數(shù),決定是否進(jìn)行重復(fù)訓(xùn)練直至達(dá)到要求為止。半監(jiān)督高斯過(guò)程分類器可以根據(jù)要求主動(dòng)尋找數(shù)據(jù)內(nèi)部的類別信息進(jìn)行自動(dòng)分類,訓(xùn)練自動(dòng)化,減少了人工標(biāo)記的錯(cuò)誤率,提高了分類標(biāo)記數(shù)據(jù)平衡比例和數(shù)量,從而解決了類不均衡數(shù)據(jù)稀缺而導(dǎo)致的錯(cuò)分問(wèn)題,提高了對(duì)不平衡數(shù)據(jù)進(jìn)行正確分類的準(zhǔn)確度,算法簡(jiǎn)單而高效?;谧赃m應(yīng)類不均衡的半監(jiān)督高斯過(guò)程分類算法的具體步驟是:首先根據(jù)類不均衡數(shù)據(jù)特性進(jìn)行數(shù)據(jù)預(yù)處理,然后利用少量的標(biāo)記數(shù)據(jù)進(jìn)行高斯過(guò)程分類訓(xùn)練,選取預(yù)測(cè)概率置信度最高的未標(biāo)記數(shù)據(jù),向該未標(biāo)記數(shù)據(jù)注入合理的類標(biāo)記信息,并且自動(dòng)地將新標(biāo)記過(guò)的數(shù)據(jù)樣本加入到原有的訓(xùn)練集中,用擴(kuò)充后的訓(xùn)練集再次進(jìn)行高斯過(guò)程分類;最后采用自訓(xùn)練迭代執(zhí)行,直至構(gòu)造出最優(yōu)的高斯過(guò)程分類器,用以對(duì)測(cè)試數(shù)據(jù)集分類。算法將標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)結(jié)合,實(shí)現(xiàn)自訓(xùn)練的半監(jiān)督高斯過(guò)程分類,即使在有少量標(biāo)記數(shù)據(jù)訓(xùn)練樣本的情況下,同樣保證了分類結(jié)果的準(zhǔn)確度。本文通過(guò)多組實(shí)驗(yàn)對(duì)類不均衡的半監(jiān)督高斯過(guò)程分類算法的效果進(jìn)行了驗(yàn)證。
高斯過(guò)程分類算法的核心思想是:把非高斯的真實(shí)后驗(yàn)分布p(f|D,θ)通過(guò)一個(gè)高斯類近似后驗(yàn)分布q(f|D,θ)=N(f|(μ,∑))來(lái)代替,再通過(guò)此后驗(yàn)分布給出測(cè)試數(shù)據(jù)的近似預(yù)測(cè)分布。其中,μ為均值,∑表示方差。
對(duì)于高斯過(guò)程分類(GPC)問(wèn)題的定義:給定的訓(xùn)練數(shù)據(jù)集D={(xi,yi),i=1,2,…,m},xi為連續(xù)數(shù)據(jù),表示特征向量,yi為離散數(shù)據(jù),表示類別標(biāo)記。目標(biāo)是對(duì)于新輸入x*,預(yù)測(cè)其輸出y*。若y取值為{0,1}或者{1,-1}稱為二類分類;若y取值為多個(gè)整數(shù)值,稱為多分類。本文主要討論二分類問(wèn)題。
對(duì)于確定的輸入矢量x,p(y|x)分布為伯努利分布,y=1的概率為p(y=1|x)=Ф(f(x)),其中,f(x)稱為潛在函數(shù),服從高斯過(guò)程:f(x|θ)~GP(0,K)。f(x)定義了標(biāo)記數(shù)據(jù)集合和相對(duì)應(yīng)的類標(biāo)記集Y之間的映射關(guān)系。Ф函數(shù)為標(biāo)準(zhǔn)高斯分布的累積概率密度函數(shù),取Sigmoid函數(shù),保證概率值落在[0,1]區(qū)間。
由于給定的潛在函數(shù)f,其觀測(cè)數(shù)據(jù)是相互獨(dú)立的伯努利分布變量,似然函數(shù)可以描述為
潛在函數(shù)的先驗(yàn)分布為
在式(2)中,K定義了協(xié)方差矩陣(核函數(shù)),Kij=k(xi,xj,θ),這里k(·)是與θ有關(guān)的正定協(xié)方差函數(shù);θ可通過(guò)潛在函數(shù)f的極大似然法來(lái)估計(jì)[20]得到最優(yōu)超參數(shù)。
高斯過(guò)程模型的協(xié)方差函數(shù)需要滿足:對(duì)任一點(diǎn)集都能夠保證產(chǎn)生一個(gè)非負(fù)正定協(xié)方差矩陣。本文采用的協(xié)方差函數(shù)為高斯核函數(shù)。
其中,xc為核函數(shù)的中心,超參數(shù)θ={σf,l}。由式(3)可以看出,協(xié)方差函數(shù)由2部分組成:第一部分用來(lái)表示2個(gè)數(shù)據(jù)點(diǎn)間的距離相關(guān)性,如果它們的距離相對(duì)于寬度參數(shù)l很小,即相關(guān)性高,指數(shù)項(xiàng)就趨于 1;否則兩數(shù)據(jù)點(diǎn)之間相關(guān)性低,指數(shù)項(xiàng)就趨于0。超參數(shù)σf用來(lái)控制局部相關(guān)性的程度。
當(dāng)獲得實(shí)際觀察值后,根據(jù)貝葉斯規(guī)則,潛在函數(shù)f的后驗(yàn)分布為
其中,均值和方差為
其中,k*=[k(x1,x*),…,k(xm,x*)]T表示測(cè)試數(shù)據(jù)x*與訓(xùn)練數(shù)據(jù)集的先驗(yàn)協(xié)方差函數(shù)。
本文將半監(jiān)督學(xué)習(xí)思想與高斯過(guò)程機(jī)器學(xué)習(xí)相結(jié)合,綜合利用類不均衡數(shù)據(jù)特點(diǎn)進(jìn)行半監(jiān)督訓(xùn)練,提出了類不均衡的半監(jiān)督高斯過(guò)程分類算法。對(duì)于給定的訓(xùn)練數(shù)據(jù)集,將其中的一小部分?jǐn)?shù)據(jù)定義為標(biāo)記數(shù)據(jù)對(duì)象,其他數(shù)據(jù)為未標(biāo)記數(shù)據(jù)對(duì)象。下面給出具體的相關(guān)定義。
定義1令X表示數(shù)據(jù)對(duì)象集合,XL表示該集合中的原始標(biāo)記數(shù)據(jù)集,XU表示未標(biāo)記數(shù)據(jù)集,則,其中,n表示數(shù)據(jù)集數(shù)目,p表示標(biāo)記數(shù)據(jù)集數(shù)目(1≤p 定義2令Y表示標(biāo)記數(shù)據(jù)集合的類標(biāo)記信息,Y={y1,y2, …,yp},yi∈{1,-1},Y與XL數(shù)據(jù)集中的元素一一對(duì)應(yīng)。 定義3預(yù)測(cè)概率置信度α,在進(jìn)行半監(jiān)督高斯過(guò)程分類訓(xùn)練時(shí),若預(yù)測(cè)概率達(dá)到置信度α或者小于α則將該數(shù)據(jù)考慮是否注入類標(biāo)記。α可人工設(shè)置,根據(jù)多次實(shí)驗(yàn)經(jīng)驗(yàn),本文設(shè)定α=0.95為最佳置信度閾值。 類不均衡的半監(jiān)督高斯過(guò)程分類算法主要結(jié)合高斯過(guò)程分類算法和自訓(xùn)練半監(jiān)督學(xué)習(xí)方法以解決類不均衡數(shù)據(jù)分類問(wèn)題。該算法包括引用文獻(xiàn)[21]的部分算法1和本文提出的算法2兩部分,具體描述如下。 算法1高斯過(guò)程分類(GPC)算法[21] 輸入:協(xié)方差矩陣K,訓(xùn)練集標(biāo)記Y,似然函數(shù)p(y|f); 輸出:分類預(yù)測(cè)分類函數(shù)f。 Step1初始化預(yù)測(cè)函數(shù)f=0。 Step2令對(duì)角矩陣W=-??logp(y|f),對(duì)矩陣L做cholesky 矩陣分解,使得 Step6返回f和logq(y|X,θ),算法結(jié)束。 算法1為高斯過(guò)程二分類構(gòu)造器構(gòu)造過(guò)程[21]。通過(guò)目標(biāo)函數(shù)建立收斂準(zhǔn)則。f是由牛頓計(jì)算公式而得到的隱變量的最大后驗(yàn)概率,即分類預(yù)測(cè)函數(shù),是邊緣最大似然函數(shù),可以通過(guò)f和矩陣W不斷地對(duì)其進(jìn)行優(yōu)化,使該函數(shù)通過(guò)訓(xùn)練數(shù)據(jù)樣本低密度區(qū)域最終得出分類預(yù)測(cè)函數(shù)。 算法2半監(jiān)督高斯過(guò)程分類(SSGP)算法 輸入:標(biāo)記數(shù)據(jù)集合XL,未標(biāo)記數(shù)據(jù)集合XU,測(cè)試數(shù)據(jù)集XT。 輸出:分類預(yù)測(cè)結(jié)果R,R與測(cè)試集XT中一一對(duì)應(yīng),且ri∈{1,-1}。 Step1標(biāo)記數(shù)據(jù)集XL全部復(fù)制到XLnew中。 Step2將更新后的標(biāo)記數(shù)據(jù)集合XLnew作為訓(xùn)練集,利用算法1輸入到高斯過(guò)程,進(jìn)行分類訓(xùn)練學(xué)習(xí),構(gòu)造高斯過(guò)程分類器。 Step3使用Step 2構(gòu)造的高斯過(guò)程分類器,對(duì)未標(biāo)記數(shù)據(jù)集合進(jìn)行自訓(xùn)練分類,且對(duì)分類結(jié)果做如下篩選:若選取的數(shù)據(jù)點(diǎn)Xi預(yù)測(cè)概率p≥α,則將該數(shù)據(jù)點(diǎn)Xi加入到XLnew中,置其類標(biāo)記信息Yi=+1;若選取預(yù)測(cè)概率p≤1-α,則將該數(shù)據(jù)點(diǎn)Xi加入到XLnew中,置其類標(biāo)記信息Yi= -1;同時(shí)從XU去除該數(shù)據(jù)信息。更新標(biāo)記數(shù)據(jù)集XLnew,未標(biāo)記數(shù)據(jù)集合XU; Step4若更新后的XLnew與XL數(shù)據(jù)集相同或者構(gòu)造的分類器分類結(jié)果穩(wěn)定即概率相同時(shí),停止XLnew的更新,輸出數(shù)據(jù)集XLnew和對(duì)應(yīng)的標(biāo)記信息Y;否則,置XL=XLnew,更新XL,重復(fù)Step2。 Step5更新后的XL為訓(xùn)練集合,利用算法 1構(gòu)造高斯過(guò)程分類器,對(duì)分類數(shù)據(jù)集合XT進(jìn)行分類,輸出XT的類標(biāo)記信息R,算法2結(jié)束。 算法 2通過(guò)自訓(xùn)練的半監(jiān)督學(xué)習(xí)方法向未標(biāo)記數(shù)據(jù)注入類標(biāo)記信息,用擴(kuò)充后的標(biāo)記數(shù)據(jù)集構(gòu)造分類器,未標(biāo)記數(shù)據(jù)反饋預(yù)測(cè)結(jié)果指導(dǎo)下次的分類。 在SSGP算法的自訓(xùn)練過(guò)程中,利用少量的標(biāo)記數(shù)據(jù)進(jìn)行高斯過(guò)程分類訓(xùn)練,得到一個(gè)初始學(xué)習(xí)器,然后選取預(yù)測(cè)概率置信度最高的未標(biāo)記數(shù)據(jù)注入標(biāo)記,同時(shí)將新標(biāo)記的樣本加入到原來(lái)的訓(xùn)練集中,隨后使用這個(gè)擴(kuò)充后的訓(xùn)練集再次進(jìn)行高斯過(guò)程分類,重新訓(xùn)練學(xué)習(xí)器,重復(fù)以上過(guò)程直到滿足迭代終止條件。算法從無(wú)標(biāo)記數(shù)據(jù)和有標(biāo)記數(shù)據(jù)開(kāi)始,通過(guò)將無(wú)標(biāo)記樣本整合進(jìn)有標(biāo)記樣本中,自訓(xùn)練在這個(gè)過(guò)程中實(shí)際上進(jìn)行的是一個(gè)強(qiáng)化過(guò)程,目的是為了改進(jìn)學(xué)習(xí)器性能。 SSGP算法的復(fù)雜度與GPC算法的復(fù)雜度緊密相關(guān),但是由于 GPC算法用不同的方法進(jìn)行優(yōu)化近似求解,其時(shí)間復(fù)雜度和空間復(fù)雜度差異較大,因此不容易直接計(jì)算SSGP算法的復(fù)雜度[22]。根據(jù)文獻(xiàn)[23]可以通過(guò)計(jì)算 SSGP算法執(zhí)行時(shí)所用的訓(xùn)練樣本總數(shù)來(lái)衡量算法的復(fù)雜度。定理 1表明,SSGP算法與標(biāo)記樣本和未標(biāo)記樣本的數(shù)量呈線性關(guān)系而不是指數(shù)關(guān)系。 定理 1 SSGP算法執(zhí)行時(shí)所用的訓(xùn)練樣本復(fù)雜度為O(Max_Iter(p+q)),其中,Max_Iter是半監(jiān)督訓(xùn)練最大迭代次數(shù),p和q分別是標(biāo)記樣本集數(shù)目和未標(biāo)記樣本集數(shù)目。 證明 設(shè)s為從未標(biāo)記樣本集XU中選擇出來(lái)的置信度最高的樣本所占的比例,在第一次迭代訓(xùn)練中,p和q分別是標(biāo)記樣本集數(shù)目和未標(biāo)記樣本集數(shù)目。在第一次迭代后,qs個(gè)未標(biāo)記樣本被標(biāo)記,并加入到已標(biāo)記樣本中,且有qs個(gè)樣本從XU中刪除。因此,在第二次迭代訓(xùn)練中,已標(biāo)記樣本數(shù)為p+qs,未標(biāo)記樣本數(shù)為q(1-s)。依此類推,在第i次迭代訓(xùn)練中,已標(biāo)記樣本數(shù)為 所以 SSGP算法執(zhí)行時(shí)所用的訓(xùn)練樣本復(fù)雜度為O(Max_Iter(p+q)),定理得證。 為驗(yàn)證SSGP算法對(duì)數(shù)據(jù)集信息具有更好的提取,本文首先將仿真數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比。仿真數(shù)據(jù)是從 2個(gè)不同的二維正態(tài)分布中隨機(jī)采樣 80、40個(gè)數(shù)據(jù)點(diǎn),共120個(gè)數(shù)據(jù)點(diǎn)。圖1為用GP算法與SSGP算法時(shí),仿真數(shù)據(jù)信息的邊緣似然值和空間分布信息。 圖1說(shuō)明了高斯過(guò)程使用SE內(nèi)核在二分類問(wèn)題上的分類情況,SE內(nèi)核函數(shù)為一個(gè) variable length-scale和logistic響應(yīng)函數(shù)。Laplace近似法畫出該數(shù)據(jù)集的似然函數(shù)值,體現(xiàn)該數(shù)據(jù)信息。這些數(shù)據(jù)點(diǎn)分布在[-4,4],似然值則集中在[0,1]區(qū)間范圍內(nèi)。*和Δ分別表示2類數(shù)據(jù),從圖1中可以很明顯地區(qū)分出每一類。圖1顯示了二維數(shù)據(jù)點(diǎn)分布空間情況。這些數(shù)據(jù)點(diǎn)被分成2類,*代表正類(+1),Δ代表負(fù)類(-1),圖1中等高線為不同超參數(shù)情況下的預(yù)測(cè)概率等高線,越是接近于1的等高線,其值極有可能被分為正類,相反,接近于0的等高線一般被劃分為負(fù)類。 圖1(a)表示為未優(yōu)化情況,數(shù)據(jù)錯(cuò)分情況十分嚴(yán)重,難以正確分類,顯示的幾條等高線都是在0.2~0.5之間,基本上無(wú)法分類。圖 1(b)顯示通過(guò)GP算法優(yōu)化后,其新的超參數(shù)對(duì)構(gòu)造分類器更加合理些,但是由于部分等高線仍然是從高密度區(qū)域穿過(guò),依然存在錯(cuò)分問(wèn)題。在圖 1(c)中,SSGP算法在正確劃分?jǐn)?shù)據(jù)的基礎(chǔ)之上,提高了可信度,似然函數(shù)等高線盡可能地從低密度區(qū)域劃分,數(shù)據(jù)集中在0.1或0.9附近。實(shí)驗(yàn)表明,經(jīng)過(guò)超參數(shù)優(yōu)化后的高斯過(guò)程算法盡可能地平衡了length-scale,使似然函數(shù)等高線從低密度區(qū)域穿過(guò),提高了分類準(zhǔn)確度,減少了錯(cuò)分?jǐn)?shù),增加了可信度。 為驗(yàn)證類不均衡的半監(jiān)督高斯過(guò)程分類算法的有效性和可行性,本文采用USPS手寫數(shù)據(jù)集進(jìn)行性能測(cè)試對(duì)比實(shí)驗(yàn)。在USPS數(shù)據(jù)集中,共有9 298個(gè)16×16灰度圖像,經(jīng)過(guò)數(shù)據(jù)預(yù)處理,其像素強(qiáng)度均在[-1,1]范圍內(nèi)。從該數(shù)據(jù)集中,筆者提取了數(shù)字“3”和“5”,其中,訓(xùn)練樣本 767個(gè),包括 406個(gè)“3”和361個(gè)“5”。測(cè)試樣本773個(gè),包括418個(gè)“3”和355個(gè)“5”。在本組實(shí)驗(yàn)的訓(xùn)練樣本中,只選取其中一部分樣本用于訓(xùn)練,并將正類標(biāo)記與負(fù)類標(biāo)記比例依次從1:1~1:16做多組比較。 圖1 不同超參數(shù)下的似然函數(shù) 圖2和圖3實(shí)驗(yàn)結(jié)果分別為標(biāo)記比率為1:1和1:16條件下,其GP算法與SSGP算法性能比較。圖2和圖3所示為分類預(yù)測(cè)概率示意,從中可以看出半監(jiān)督學(xué)習(xí)高斯過(guò)程算法的預(yù)測(cè)概率明顯優(yōu)于高斯過(guò)程算法。在1:1條件下,正負(fù)類比率相同,GP預(yù)測(cè)精度為93.79%,SSGP算法利用半監(jiān)督學(xué)習(xí)得到的信息將預(yù)測(cè)精度提高到了 95.08%,而正類的預(yù)測(cè)準(zhǔn)確度分別為92.11%和94.74%,也都達(dá)到了很高的準(zhǔn)確度。實(shí)驗(yàn)表明,在高斯過(guò)程分類算法中,當(dāng)訓(xùn)練集標(biāo)記比率接近時(shí),單類預(yù)測(cè)概率接近于整體預(yù)測(cè)概率,且標(biāo)記信息較多的情況下,預(yù)測(cè)準(zhǔn)確度很高,SSGP算法的性能與GP算法性能效果相似,半監(jiān)督信息利用率較低。在 1:16條件下,正類標(biāo)記數(shù)大大降低,訓(xùn)練集中大部分都是負(fù)類標(biāo)記信息。此時(shí),GP算法對(duì)全局?jǐn)?shù)據(jù)預(yù)測(cè)精度為86.55%,而SSGP算法對(duì)全局?jǐn)?shù)據(jù)預(yù)測(cè)精度為93.66%,提高了7.11%,SSGP算法的優(yōu)越性逐漸體現(xiàn)出來(lái)了。對(duì)于正類的預(yù)測(cè)分類,GP算法和SSGP算法準(zhǔn)確度分別為75.12%和88.52%,雖然都不如比率為 1:1情況預(yù)測(cè)分類的準(zhǔn)確度高,但GP算法降低了16.99%,而SSGP算法僅僅降低了6.22%。此外,在數(shù)據(jù)失衡為1:16的情況下,SSGP算法比GP算法在正類準(zhǔn)確度上提高了13.4%。由此可見(jiàn),SSGP算法在數(shù)據(jù)比率嚴(yán)重失衡的情況下,充分利用半監(jiān)督信息,擴(kuò)充了標(biāo)記信息集合,提高了分類準(zhǔn)確度,其算法依然具有較好的穩(wěn)定性、頑健性,性能幅度下降盡可能地小。而高斯過(guò)程分類算法的分類準(zhǔn)確性雖然很好,但是難以適應(yīng)真實(shí)數(shù)據(jù)情況,一般都是在理想數(shù)據(jù)集下的性能比較,未充分考慮到數(shù)據(jù)的各種情況,在數(shù)據(jù)失衡情況下,其預(yù)測(cè)分類性能低于SSGP算法的分類性能。實(shí)驗(yàn)表明,在高斯過(guò)程分類算法中,當(dāng)訓(xùn)練集標(biāo)記比率接近時(shí),且標(biāo)記信息較多的情況下,預(yù)測(cè)準(zhǔn)確度很高,SSGP算法的性能與GP算法性能效果相似,半監(jiān)督信息利用率較低。當(dāng)訓(xùn)練集標(biāo)記比例嚴(yán)重失衡時(shí),全局預(yù)測(cè)依賴于單類預(yù)測(cè)結(jié)果,訓(xùn)練數(shù)目較少的一類極有可能被訓(xùn)練數(shù)目較大的一類所覆蓋,造成該類預(yù)測(cè)概率嚴(yán)重降低,錯(cuò)分?jǐn)?shù)目大于各種情況。此時(shí)GP算法不再完全適用該情況,而SSGP算法則可以利用數(shù)據(jù)集中的未標(biāo)記信息指導(dǎo)高斯過(guò)程分類,通過(guò)可信度判斷不斷地進(jìn)行標(biāo)記信息的擴(kuò)展,從而提高分類器的準(zhǔn)確度,為分類預(yù)測(cè)數(shù)據(jù)提供更加可靠的分類器和精確度。 圖2 類標(biāo)記比率1:1的預(yù)測(cè)概率散點(diǎn)對(duì)比 圖3 類標(biāo)記比率1:16的預(yù)測(cè)概率散點(diǎn)對(duì)比 實(shí)驗(yàn)表明,在數(shù)據(jù)失衡條件下,高斯過(guò)程算法的預(yù)測(cè)概率除了錯(cuò)分較多之外,密度分布還不明顯,很多預(yù)測(cè)概率點(diǎn)都落在了p=0.5附近,難以辨析其分類結(jié)果,預(yù)測(cè)概率低,準(zhǔn)確度不高。類不均衡的半監(jiān)督高斯過(guò)程分類算法通過(guò)對(duì)未標(biāo)記數(shù)據(jù)的學(xué)習(xí),訓(xùn)練集獲取的已知信息量增大,構(gòu)造分類器精度提高,概率密度分布集中且主要集中在概率1和概率0附近,即對(duì)數(shù)據(jù)點(diǎn)分類更加明確,不確定性減小,準(zhǔn)確度大大提高。分析實(shí)驗(yàn)可知,使用自訓(xùn)練半監(jiān)督學(xué)習(xí)的高斯過(guò)程算法在進(jìn)行分類器訓(xùn)練時(shí)更加有效,進(jìn)行分類預(yù)測(cè)時(shí)更加準(zhǔn)確。SSGP算法分類的確定性和預(yù)測(cè)的穩(wěn)定性明顯優(yōu)于高斯過(guò)程分類算法。 圖4和圖5分別表示在不同標(biāo)記比率下,使用GP算法與SSGP算法時(shí)的分類可信度情況。實(shí)驗(yàn)規(guī)定,預(yù)測(cè)概率越接近于1和0時(shí),預(yù)測(cè)準(zhǔn)確度越高,可信度越大。比率為1:1時(shí),GP算法和SSGP算法預(yù)測(cè)概率值都主要集中在0和1附近,表明分類的可信度很高,準(zhǔn)確度也相應(yīng)較高,且兩者區(qū)分不大,SSGP算法此時(shí)可以認(rèn)為近似于GP算法。而比率為1:16時(shí),對(duì)于標(biāo)記信息多的負(fù)類,影響不大,仍然集中在0附近,可信度依然很高,而對(duì)于筆者想得到的正類分類情況,利用GP算法卻難以獲得相應(yīng)的正確分類,具有較低的可信度,概率1附近幾乎沒(méi)有數(shù)據(jù),SSGP算法卻可以根據(jù)未標(biāo)記信息,進(jìn)行迭代計(jì)算后,可信度逐漸提高。圖5(b)顯示了與圖4近似的效果。在該組實(shí)驗(yàn)中,標(biāo)記比例依次從1:1~1:16,標(biāo)記數(shù)據(jù)逐漸失衡,GP算法分類預(yù)測(cè)效果逐漸不佳,當(dāng)最后為1:16時(shí),其正類可信度大大下降。而SSGP算法克服了數(shù)據(jù)失衡的問(wèn)題,保持了分類的可信度和準(zhǔn)確度。實(shí)驗(yàn)表明,SSGP算法具有更加穩(wěn)定的可靠性和有效性。 圖4 類標(biāo)記比率1:1的概率統(tǒng)計(jì)柱狀示意 圖5 標(biāo)記比率1:16的概率統(tǒng)計(jì)柱狀示意 圖6為不同標(biāo)記比率下,GP算法、TSVM算法與 SSGP算法在同一數(shù)據(jù)集上的迭代次數(shù)與準(zhǔn)確度的關(guān)系。在數(shù)據(jù)比例為1:1的情況下,3種算法的分類準(zhǔn)確度曲線都相對(duì)較為平緩,預(yù)測(cè)分類也都比較高。從圖6(a)可以發(fā)現(xiàn),TSVM分類算法的分類精度較高,分類效果較好,SSGP算法分類準(zhǔn)確度略低于TSVM算法,但3種算法分類準(zhǔn)確度都達(dá)到了90%以上,無(wú)太大差異。而在1:16的情況下,SSGP算法在進(jìn)行第4次迭代后,準(zhǔn)確度明顯攀升較快,分類性能較佳,效果相對(duì)明顯。TSVM算法雖然分類效果也較好,但相對(duì)于SSGP分類算法準(zhǔn)確度低了1.2個(gè)百分點(diǎn),在迭代過(guò)程中,其準(zhǔn)確度也一直低于SSGP算法的分類效果。從圖6(b)可以看出,隨著比例逐漸失衡,SSGP算法準(zhǔn)確度一直保持相對(duì)較高水平,更加適合數(shù)據(jù)比例失衡的分類。 圖6 GP算法與SSGP算法在不同比例下的性能曲線(正類準(zhǔn)確度) 表1主要討論了數(shù)據(jù)在不同標(biāo)記比例失衡情況下,SSGP算法與GP算法、TSVM算法分類精度的問(wèn)題。經(jīng)過(guò)對(duì)比可發(fā)現(xiàn),若標(biāo)記比例為 1:1時(shí),兩者精度差異不明顯,但隨著標(biāo)記比例的逐步增加,傳統(tǒng)的 GP算法難以應(yīng)付,其中一類分類錯(cuò)誤率大大提高,其可信度也在不斷地降低,TSVM 算法準(zhǔn)確度也由原來(lái)的 96.06%下降到了87.32%,波動(dòng)幅度較大。而SSGP算法通過(guò)自訓(xùn)練得到部分標(biāo)記數(shù)據(jù),提高了標(biāo)記數(shù)目,雖然調(diào)整了標(biāo)記比例,其最終效果還是得到了相應(yīng)的提高,尤其對(duì)標(biāo)記比例相對(duì)比較少的一類,效果尤為明顯,可信度也提高了很多,對(duì)整體分類的準(zhǔn)確度有了較大的改善。從實(shí)驗(yàn)中可以分析得出,在標(biāo)記比例嚴(yán)重失衡的情況下,SSGP算法有更高的準(zhǔn)確度和可信度。實(shí)驗(yàn)顯示,為了達(dá)到相同的預(yù)測(cè)分類準(zhǔn)確率,經(jīng)典高斯過(guò)程算法需要使用更多的標(biāo)記數(shù)據(jù),這在實(shí)際需求中將會(huì)增加相應(yīng)代價(jià),也說(shuō)明了自訓(xùn)練的半監(jiān)督高斯過(guò)程分類算法在數(shù)據(jù)失衡的情況下確實(shí)能起到提高預(yù)測(cè)準(zhǔn)確率的作用。由此得到下述結(jié)論:在具有少量標(biāo)記數(shù)據(jù)信息或標(biāo)記信息不對(duì)稱情況下,較 GP算法與TSVM分類算法而言,SSGP算法能更充分利用少量標(biāo)記數(shù)據(jù)進(jìn)行數(shù)據(jù)分類。 表1 GP算法、TSVM算法與SSGP算法在不同比例的性能比較 為進(jìn)一步研究標(biāo)記數(shù)據(jù)率對(duì)分類結(jié)果的影響并驗(yàn)證本文提出的SSGP算法的有效性,分別從訓(xùn)練樣本數(shù)據(jù)類別比例失衡和數(shù)據(jù)標(biāo)記率失衡角度進(jìn)行實(shí)驗(yàn)研究。本文在USPS數(shù)據(jù)集上抽取了“2”、“3”和“5”共3種數(shù)據(jù)構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集,并且比較了3種標(biāo)記數(shù)據(jù)率:1/30、1/20、1/10。假設(shè)數(shù)字“3”為正常數(shù)據(jù)類(正類),數(shù)字“2”和“5”的混合集為異常數(shù)據(jù)類(負(fù)類),正負(fù)類數(shù)據(jù)量比例為20:1,每次實(shí)驗(yàn)都在該標(biāo)記數(shù)據(jù)率的情況下,隨機(jī)選取標(biāo)記數(shù)據(jù)集50次,總共進(jìn)行150次對(duì)比實(shí)驗(yàn)。比較了GP算法與SSGP算法及SVM算法的平均性能、最佳性能和最差性能,實(shí)驗(yàn)結(jié)果如圖7和表2所示。 圖7為SSGP算法、GP算法和SVM算法的數(shù)據(jù)分類情況,在訓(xùn)練樣本情況較少、比例嚴(yán)重失衡的條件下,自訓(xùn)練的半監(jiān)督高斯過(guò)程分類算法充分利用未標(biāo)記信息,通過(guò)學(xué)習(xí)獲得了更多的標(biāo)記信息,增加了算法的準(zhǔn)確度。尤其對(duì)于負(fù)類,該算法通過(guò)從測(cè)試集的未標(biāo)記信息中擴(kuò)展負(fù)類標(biāo)記信息,盡量使得負(fù)類標(biāo)記信息數(shù)據(jù)分布與整體負(fù)類信息數(shù)據(jù)分布相似,為構(gòu)造分類器提供了更多的信息參考,明顯提高了每一類的數(shù)據(jù)分類準(zhǔn)確度。實(shí)驗(yàn)結(jié)果顯示,在1/30的標(biāo)記數(shù)據(jù)率情況下,SSGP算法平均錯(cuò)分率為12.57%,而GP算法和SVM算法平均錯(cuò)分率分別為29.40%和29.57%。經(jīng)過(guò)多次隨機(jī)實(shí)驗(yàn)表明,即使在最佳情況下,GP算法和SVM算法依然難以達(dá)到SSGP算法的平均水平。隨著標(biāo)記數(shù)量的增加SSGP算法、GP算法和SVM算法的性能均得到了相應(yīng)的提升,從圖7和表2中可以看出,在1/20和1/10兩種標(biāo)記比率下,GP算法與SVM算法性能提高幅度較大,也就是說(shuō)標(biāo)記數(shù)據(jù)率的提高使得這2種算法的分類期望和均差均得到了很大的提高。由此可以得到下述結(jié)論:在具有少量標(biāo)記數(shù)據(jù)信息下,較高斯過(guò)程分類和SVM算法而言,自訓(xùn)練的半監(jiān)督高斯過(guò)程分類算法更能充分利用少量標(biāo)記數(shù)據(jù)來(lái)指導(dǎo)未標(biāo)記數(shù)據(jù)進(jìn)行分類。此外,從圖7中還可以看出,選取標(biāo)記數(shù)據(jù)存在很大的隨機(jī)性和誤差,如果開(kāi)始選取的標(biāo)記數(shù)據(jù)處在分布邊緣,則分類效果不明顯。然而使用半監(jiān)督高斯過(guò)程分類算法時(shí),首先在分類之前進(jìn)行二次選擇,構(gòu)造更新的標(biāo)記數(shù)據(jù)集,約束了標(biāo)記數(shù)據(jù)的選取。其次,通過(guò)半監(jiān)督學(xué)習(xí)方法向未標(biāo)記數(shù)據(jù)中注入類標(biāo)記,使得最后的標(biāo)記數(shù)據(jù)分布與全局?jǐn)?shù)據(jù)分布的相似度提高,減小了邊緣值對(duì)整體數(shù)據(jù)分類的影響,有效地克服了初始隨機(jī)選擇標(biāo)記數(shù)據(jù)帶來(lái)的不良影響,提高了分類精度。 圖7 SSGP算法與GP算法、SVM算法在不同標(biāo)記數(shù)據(jù)率下性能對(duì)比 表2 3種算法在USPS數(shù)據(jù)集不同標(biāo)記數(shù)據(jù)上的性能對(duì)比 本文提出了一種類不均衡的半監(jiān)督高斯過(guò)程分類算法,利用未標(biāo)記數(shù)據(jù)集合進(jìn)行半監(jiān)督學(xué)習(xí),把未標(biāo)記數(shù)據(jù)集通過(guò)半監(jiān)督學(xué)習(xí)將其部分轉(zhuǎn)換為標(biāo)記數(shù)據(jù),有效地解決了高斯過(guò)程分類訓(xùn)練中標(biāo)記數(shù)據(jù)集過(guò)少、類不均衡的問(wèn)題,增加了高斯過(guò)程在異常數(shù)據(jù)分類中的準(zhǔn)確性,提高了其分類精度和可信度。實(shí)驗(yàn)結(jié)果表明了該算法的可靠性和有效性。 [1] KITAYAMA S, YAMAZAKI K.Simple estimate of the width in Gaussian kernel with adaptive scaling technique[J].Applied Soft Computering, 2011, 11(8):4726-4737. [2] RODNER E, WACKER E S, KEMMLER M,et al.One-class classification for anomaly detection in wire ropes with Gaussian processes in a few lines of code[A].Proceedings of the 12th IAPR Conference on Machine Vision Applications (MVA)[C].Nara, Japan, 2010.296-308. [3] 姚伏天.基于高斯過(guò)程的高光譜圖像分類研究[D].杭州:浙江大學(xué),2011.YAO F T.Gaussian Processes based Classification for Hyperspectral Imagery[D].Hang Zhou: Zhejiang University, 2011. [4] KAPOOR A, GRAUMAN K, URTASUN R,et al.Gaussian processes for object categorization[J].International Journal of Computer Vision,2010, 88(2):169-188. [5] 孫欣堯,王雪,王晟.無(wú)線傳感網(wǎng)絡(luò)協(xié)同概率多模識(shí)別方法[J].通信學(xué)報(bào), 2011, 32(6):141-147.SUN X Y, WANG X, WANG C.Collaborative probability based multimodel target identification in wireless sensor networks[J].Journal on Communications, 2011, 32(6):141-147. [6] 熊志化.高斯過(guò)程模型及其在工業(yè)過(guò)程軟測(cè)量中的應(yīng)用研究[D].上海: 上海交通大學(xué),2006.XIONG Z H.Study on Gaussian Process Model and Its Application to Soft Sensor in Process Industries[D].Shanghai: Shanghai Jiao Tong University, 2006. [7] VAN GOOL E, WINN W, ZISSERMAN A.The PASCAL visual object classes (VOC) challenge[J].International Journal of Computer Vision, 2010, 88(2):303-338. [8] 陳鳳.基于HRRP和JEM信號(hào)的雷達(dá)目標(biāo)識(shí)別技術(shù)研究[D].西安:西安電子科技大學(xué),2009.CHEN F.Radar Target Recognition Based on HRRP and JEM Signal[D].Xi'an: XiDian University,2009. [9] 王磊, 鄒北驥, 彭小寧等.基于高斯過(guò)程的表情動(dòng)作單元跟蹤技術(shù)[J].電子學(xué)報(bào), 2007, 35(11):2087-2091.WANG L, ZOU B J, PENG X N,et al.Facial tracking by Gaussian process[J].Acta Electronica Sinica, 2007, 35(11):2087-2091. [10] DEISENROTH M P, TURNER R D, HUBER M F,et al.Robust filtering and smoothing with Gaussian processes[J].IEEE Transactions on Automatic Control, 2012, 57(7):1865-1871. [11] GASBARRA D, SOTTINEN T, ZANTEN H V.Conditional full support of Gaussian processes with stationary increments[J].Journal of Applied Probability, 2011, 48(2):561-568. [12] RODNER E, DENZLER J.One-shot learning of object categories using dependent Gaussian processes[A].Proceedings of the DAGM Conference on Pattern Recognition[C].Springer, Heidelberg, 2010.232-241. [13] BOSCH A, ZISSERMAN A, MUNOZ X.Representing shape with a spatial pyramid kernel[A].ACM International Conference on Image and Video Retrieval (CIVR)[C].Amsterdam, Netherlands, 2007.401-408. [14] CHUM O, ZISSERMAN A.An exemplar model for learning object classes[A].ACM International Conference on Image and Video Retrieval (CIVR)[C].Amsterdam, Netherlands, 2007.19-21. [15] HAGERW W.Updating the inverse of a matrix[J].Society for Industrial and Applied Mathematics (SIAM) Review, 1989, 31(2):221-239 . [16] ADANKON M M, CHERIET M.Model selection for the LS-SVM application to handwriting recognition[J].Pattern Recognition, 2009,42(12):3264-3270. [17] CATANZARO B, SUNDARAM N, KEUTZER K.Fast support vector machine training and classification on graphics processors[A].Proceedings of the 25th International Conference on Machine Learning(ICML)[C].New York, NY, USA, 2008.104-111. [18] TOHME M, LENGELLE R.Maximum margin one class support vector machines for multiclass problems[J].Pattern Recognition Letters, 2011,32(13):1652-1658. [19] FENG W, XIE L, ZENG J,et al.Audio-visual human recognition using semi-supervised spectral learning and hidden Markov models[J].Journal of Visual Languages & Computing, 2009, 20(3):188-195. [20] RUIZ C, SPILIOPOULOU M, MENASALVAS E.Density-based semi-supervised clustering[J].Data Mining and Knowledge Discovery,2010, 21(3):345-370. [21] RASMUSSEN C E, WILLIAMS C K I.Gaussian Processes for Machine Learning[M].Cambridge: MIT Press, 2006. [22] 陳曉峰, 王士同, 曹蘇群.半監(jiān)督多標(biāo)記學(xué)習(xí)的基因功能分析[J].智能系統(tǒng)學(xué)報(bào), 2008, 3(1):83-90.CHEN X F, WANG S T, CAO S Q.Gene function analysis of semi 2 supervised multi-label learning[J].CAAI Transactions on Intelligent Systems, 2008, 3(1):83-90. [23] KLAUS B, JOHANNS F, EYKE H.A unified model for multilabel classification and ranking[A].Proceedings of the 2006 Conference on ECAI 2006: 17th European Conference on Artificial Intelligence[C].Riva del Garda, Italy, 2006.489-493.3.2 算法描述
3.3 算法復(fù)雜度
4 實(shí)驗(yàn)結(jié)果與分析
4.1 仿真數(shù)據(jù)集實(shí)驗(yàn)分析
4.2 USPS數(shù)據(jù)集實(shí)驗(yàn)
4.3 極端數(shù)據(jù)比例失衡實(shí)驗(yàn)
5 結(jié)束語(yǔ)