彭 興李 嬋吳其林程一元
(1.巢湖學(xué)院 信息工程學(xué)院,安徽 巢湖 238024;2.巢湖學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,安徽 巢湖 238024)
標(biāo)記學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域的熱點(diǎn)之一,傳統(tǒng)的標(biāo)記學(xué)習(xí)包括單標(biāo)記學(xué)習(xí)和多標(biāo)記學(xué)習(xí)[1]。單標(biāo)記學(xué)習(xí)是指一個(gè)示例分配一個(gè)標(biāo)記,多標(biāo)記學(xué)習(xí)是指一個(gè)示例分配多個(gè)標(biāo)記。近年來(lái)多標(biāo)記學(xué)習(xí)在很多領(lǐng)域都得到了充分應(yīng)用,比如網(wǎng)頁(yè)分類(lèi)領(lǐng)域、視頻分類(lèi)領(lǐng)域、生物醫(yī)學(xué)圖像領(lǐng)域等。通過(guò)大量的研究表明多標(biāo)記學(xué)習(xí)框架能夠處理許多標(biāo)記多義性問(wèn)題,是一種有效的學(xué)習(xí)范式[2]。多標(biāo)記學(xué)習(xí)對(duì)于一個(gè)示例允許標(biāo)上多個(gè)標(biāo)記,但只能關(guān)注相應(yīng)的標(biāo)記與示例相關(guān)或不相關(guān),而不能表達(dá)每個(gè)標(biāo)記如何描述該示例[3]。例如,自然場(chǎng)景圖像被標(biāo)記了“樹(shù)”“水”“天空”“云”“陸地”,傳統(tǒng)標(biāo)記學(xué)習(xí)認(rèn)為這些標(biāo)記具有相同的重要程度,用1,0表示“有”“沒(méi)有”。但經(jīng)過(guò)仔細(xì)觀察和思考,可以發(fā)現(xiàn)這些標(biāo)記在具體描述圖像時(shí)所體現(xiàn)的重要程度并不一樣,圖1可以看到“水”和“天空”占據(jù)主要地位。
圖1 自然場(chǎng)景圖像實(shí)例
在現(xiàn)實(shí)世界中也更有可能會(huì)出現(xiàn)有的標(biāo)記很重要,而有的標(biāo)記相對(duì)而言沒(méi)有那么重要。為了描述這種標(biāo)記的不同重要程度,Geng[4]提出標(biāo)記分布學(xué)習(xí)(LDL)新范式。該范式不僅提出了標(biāo)記分布學(xué)習(xí)的完整學(xué)習(xí)框架和適合的衡量標(biāo)準(zhǔn),還根據(jù)不同的設(shè)計(jì)策略提出了許多的標(biāo)記分布學(xué)習(xí)算法[5-7]。這些標(biāo)記分布學(xué)習(xí)算法根據(jù)不同的設(shè)計(jì)思路,可以分為算法適應(yīng)、問(wèn)題轉(zhuǎn)換和專(zhuān)門(mén)的算法[4]。算法適應(yīng)類(lèi)標(biāo)記分布學(xué)習(xí)算法是指延拓某些已有的標(biāo)記學(xué)習(xí)算法,使算法能夠適應(yīng)標(biāo)記分布問(wèn)題,例如AA-BP算法和AA-kNN算法。問(wèn)題轉(zhuǎn)換類(lèi)的標(biāo)記分布學(xué)習(xí)算法是通過(guò)將學(xué)習(xí)任務(wù)轉(zhuǎn)換為現(xiàn)有的單示例學(xué)習(xí)或者多示例多標(biāo)記學(xué)習(xí)的問(wèn)題,再利用相應(yīng)領(lǐng)域的已有算法進(jìn)行處理,最后將輸出的標(biāo)記換算為相應(yīng)的標(biāo)記分布[8],例如PT-SVM算法和PT-Bayes算法。專(zhuān)用的標(biāo)記分布學(xué)習(xí)算法是指直接通過(guò)邏輯回歸或者條件概率等概率思想建立模型,以概率分布數(shù)據(jù)作為輸出,例如 LDLogitBoost算法[9]和 BFGS-LDL 算法[4]。另外,也有研究者將已有算法進(jìn)行改造和優(yōu)化以處理標(biāo)記分布型數(shù)據(jù)作為標(biāo)記分布學(xué)習(xí)專(zhuān)門(mén)算法,例如 IIS-LDL算法[6]。
線性重構(gòu)[10]與非負(fù)稀疏表示[11]標(biāo)記分布中的數(shù)據(jù)呈連續(xù)性,表示對(duì)示例的描述程度,通過(guò)與原標(biāo)記描述程度的相似性或者距離度量來(lái)進(jìn)行驗(yàn)證。針對(duì)標(biāo)記分布數(shù)據(jù)的此類(lèi)特性,并受線性重構(gòu)[10]與非負(fù)稀疏表示[11]的啟發(fā),提出聯(lián)合線性重構(gòu)與非負(fù)稀疏表示的標(biāo)記分布學(xué)習(xí)算法(LRNSRLDL)。首先考慮到特征空間本身的相關(guān)性,利用特征的自我表示屬性[12],通過(guò)矩陣變換的方式重構(gòu)原始樣本空間,獲得特征相似矩陣,以最小損失建立兩者關(guān)系;然后考慮到特征空間與標(biāo)記空間的相關(guān)性,令轉(zhuǎn)化之后的樣本空間擬合標(biāo)記分布空間,以最小損失建立模型;最后融合非負(fù)矩陣約束和l2,1-范數(shù)正則化項(xiàng)求解模型[13],并在6個(gè)公開(kāi)數(shù)據(jù)集上與3種算法進(jìn)行對(duì)比實(shí)驗(yàn),最終的結(jié)果表明所提出的標(biāo)記分布學(xué)習(xí)算法預(yù)測(cè)的標(biāo)記分布具有一定的優(yōu)勢(shì)。
標(biāo)記分布學(xué)習(xí)中標(biāo)記的數(shù)值特點(diǎn)與傳統(tǒng)的有標(biāo)記數(shù)據(jù)有所不同,在包含多個(gè)標(biāo)記存在與否的同時(shí),還能夠具體反映標(biāo)記對(duì)示例的描述度。與多標(biāo)記學(xué)習(xí)的輸出有所不同,不再是“0”“1”集合,而是0~1的任意常數(shù)。例如圖1中的自然場(chǎng)景,不僅能像多標(biāo)記一樣表示標(biāo)記的“有”“無(wú)”,還可以表示為圖2中的標(biāo)記分布信息,體現(xiàn)每個(gè)標(biāo)記的重要程度。類(lèi)似的應(yīng)用場(chǎng)景還有很多,如:面部表情的識(shí)別[3]、人臉面部年齡的識(shí)別[5]以及酵母菌基因表達(dá)水平問(wèn)題等[6],這些數(shù)據(jù)都更加適合用標(biāo)記分布學(xué)習(xí)范式來(lái)處理。具體地,將樣本集定義為 X=[x1,x2,…xn]T,其中 xi∈Rd表示樣本集的第 i個(gè)實(shí)例,i=1,2,…,n。相應(yīng)的示例集的特征空間表示為 X=[f1,f2,…fd],fj∈Rn表示第j個(gè)特征,j=1,2,…,d。對(duì)應(yīng)的標(biāo)記集表示為 Y=[y1,y2,…,yc],其中 yk∈Rn表示第 k 個(gè)標(biāo)記,k=1,2,…,c。樣本所對(duì)應(yīng)的標(biāo)記分布集表示為D=[D1,D2,…Dn]T,表示實(shí)例xi的標(biāo)記分布集,表示實(shí)例xi對(duì)應(yīng)標(biāo)記yk的標(biāo)記分布。根據(jù)相關(guān)定義,,且,因此標(biāo)記分布類(lèi)似于一個(gè)概率分布的數(shù)值形式。標(biāo)記分布學(xué)習(xí)的訓(xùn)練集表示為 S=[(x1,D1),…,(xi,Di),…,(xn,Dn)]T。在測(cè)試過(guò)程中,測(cè)試集樣本信息定義為,測(cè)試集標(biāo)記分布定義為,預(yù)測(cè)標(biāo)記分布定義為
圖2 自然場(chǎng)景圖像相應(yīng)的標(biāo)記分布圖像
根據(jù)三類(lèi)不同設(shè)計(jì)策略算法的已有效果,一些問(wèn)題轉(zhuǎn)換和算法適應(yīng)有不俗的表現(xiàn),但專(zhuān)用算法在實(shí)際應(yīng)用中比問(wèn)題轉(zhuǎn)換和算法適應(yīng)更具優(yōu)勢(shì)。設(shè)計(jì)標(biāo)記分布學(xué)習(xí)專(zhuān)用算法時(shí),主要從三個(gè)部分入手:目標(biāo)函數(shù)的建立,輸出模型的選擇和相關(guān)算法的優(yōu)化[14]。目標(biāo)函數(shù)常通過(guò)KL散度(Kullback-Leibler divergence)建立參數(shù)模型,如BFGS-LDL算法,輸出模型通常利用最大熵和邏輯回歸等不同模型[15-17]。在進(jìn)一步研究中也有許多研究者將其他損失模型或者近鄰算法等進(jìn)行優(yōu)化應(yīng)用于標(biāo)記分布學(xué)習(xí)中,例如,邵佳鑫等[14]提出的樣本稀疏表示標(biāo)記分布學(xué)習(xí)算法,姚成亮和朱慶生[18]提出的自然鄰居標(biāo)記分布學(xué)習(xí)算法。目前部分專(zhuān)門(mén)算法也通過(guò)標(biāo)記分布之間的相關(guān)信息來(lái)提高學(xué)習(xí)模型的性能,例如Jia等[19]借助距離度量來(lái)研究標(biāo)記之間的相關(guān)性,已取得了較好的效果。然而這個(gè)過(guò)程在某種程度上未能同時(shí)考慮到特征空間的內(nèi)在相關(guān)性以及特征空間與標(biāo)記空間之間相關(guān)性。本研究充分考慮特征空間與標(biāo)記空間相關(guān)性,提出了一種基于特征之間線性關(guān)系和特征與標(biāo)記空間相關(guān)性的標(biāo)記分布學(xué)習(xí)算法。
聯(lián)合線性重構(gòu)與非負(fù)稀疏表示的標(biāo)記分布學(xué)習(xí)算法(LRNSR-LDL)模型,首先用特征的自我表示屬性,獲得特征相似空間;然后利用特征和標(biāo)記之間的相關(guān)性,將標(biāo)記分布用特征相似空間表示,并分別用損失函數(shù)建立優(yōu)化模型;最后引入l2,1-范數(shù)約束,降低離群點(diǎn)的不良影響,同時(shí)增加模型的泛化能力。
根據(jù)樣本特征的自我表達(dá)屬性,每個(gè)特征向量都可以被全體特征向量線性表示,那么對(duì)于每個(gè)特征向量有公式(1)的關(guān)系式成立:
其中Tjl為特征相似系數(shù)。對(duì)于給定的數(shù)據(jù)矩陣有公式(2)成立,其中 T=[Tjl]∈Rd×d為特征相似矩陣:
X作為研究中的樣本集,一般情況下樣本個(gè)數(shù)大于維度,即n>d。顯然,對(duì)于公式(2)此時(shí)的未知量T無(wú)解。為了避免該問(wèn)題,引入最小二乘損失函數(shù)有:
根據(jù)文獻(xiàn)[18],當(dāng)矩陣 L= (I-T)(I-T)',I為單位矩陣,公式(3)等價(jià)于公式(4),其中 Tr表示矩陣的秩:
1)考慮到特征空間和標(biāo)記空間的高度相關(guān)性,利用特征相似空間與標(biāo)記空間的相關(guān)性構(gòu)造兩個(gè)空間的線性關(guān)系。用非負(fù)矩陣分解令標(biāo)記分布矩陣D=AW,特征相似空間A=XT,特征轉(zhuǎn)換矩陣 W=[Wjk]∈Rd×c,損失函數(shù)最小化如公式(5):
2)若直接對(duì)最小二乘損失進(jìn)行求解,所求得數(shù)據(jù)缺乏穩(wěn)定性與可靠性,同時(shí)造成過(guò)擬合問(wèn)題。因此,在特征轉(zhuǎn)換矩陣W上加入l2,1-范數(shù):
這里wi表示特征轉(zhuǎn)換矩陣W的第i行向量,當(dāng) wi為非零向量時(shí),有||wi||2≠0(i=1,2,…,d),這意味著||W||2,1可導(dǎo)。
結(jié)合三個(gè)方面的綜合考慮,得到聯(lián)合線性重構(gòu)與非負(fù)稀疏表示的標(biāo)記分布學(xué)習(xí)的目標(biāo)函數(shù)公式(7),其中 α,β為平衡參數(shù):
根據(jù)文獻(xiàn)[20],l2,1-范數(shù)可通過(guò)迭代更新求解。公式(7)可利用拉格朗日乘子法構(gòu)造拉格朗日函數(shù),處理后得到公式(8):
本研究提出聯(lián)合線性重構(gòu)與非負(fù)稀疏表示的標(biāo)記分布學(xué)習(xí)算法具體步驟如表1所示。
表1 基于線性重構(gòu)與非負(fù)矩陣分解的標(biāo)記分布學(xué)習(xí)算法LRNSR-LDL算法
這部分通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證所提出的聯(lián)合線性重構(gòu)與非負(fù)稀疏表示的標(biāo)記分布學(xué)習(xí)(LRNSRLDL)算法是有效的。實(shí)驗(yàn)在6個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行,將結(jié)果與3種現(xiàn)有標(biāo)記分布學(xué)習(xí)算法對(duì)比,并應(yīng)用5種相關(guān)評(píng)價(jià)指標(biāo)進(jìn)行比較[6-7],本研究算法具有一定的優(yōu)勢(shì)。
標(biāo)記分布學(xué)習(xí)不同于單標(biāo)記和多標(biāo)記學(xué)習(xí),實(shí)驗(yàn)的輸出是一個(gè)標(biāo)記分布,數(shù)據(jù)形式類(lèi)似于一個(gè)概率分布。因此,評(píng)價(jià)方法也不同于傳統(tǒng)的單標(biāo)記和多標(biāo)記學(xué)習(xí)。研究者們針對(duì)這樣的數(shù)據(jù)形式,由文獻(xiàn)[4]提出以原始標(biāo)記分布和預(yù)測(cè)標(biāo)記分布距離和相似度作為評(píng)價(jià)指標(biāo)。根據(jù)文獻(xiàn)[6,21]所提出的篩選規(guī)則以及實(shí)驗(yàn)條件限制選出5種評(píng)價(jià)方法。評(píng)價(jià)方法的具體計(jì)算公式和相應(yīng)屬性如表2 所示,其中分別為原始標(biāo)記分布和預(yù)測(cè)標(biāo)記分布。
表2 評(píng)價(jià)指標(biāo)
為了進(jìn)一步探究算法的性能,實(shí)驗(yàn)過(guò)程采用十折交叉法將本研究算法與3種標(biāo)記分布學(xué)習(xí)算法在6個(gè)公開(kāi)的標(biāo)記分布數(shù)據(jù)集上開(kāi)展實(shí)驗(yàn)。對(duì)比算法選自三種不同的設(shè)計(jì)策略,分別是PT-SVM算法、AA-kNN算法和IIS-LDL算法①http://cse.seu.edu.cn/PersonalPage/xgeng/LDL/index.htm。預(yù)測(cè)結(jié)果用三種距離指標(biāo)和兩種相似性指標(biāo)進(jìn)行度量評(píng)價(jià),最終輸出結(jié)果為測(cè)試集的預(yù)測(cè)標(biāo)記分布值與原始標(biāo)記分布值之間的距離或者相似度的期望與標(biāo)準(zhǔn)差。實(shí)驗(yàn)用到的6個(gè)公開(kāi)數(shù)據(jù)集①分別為SBU_3DFE數(shù)據(jù)集,Yeast-alpha數(shù)據(jù)集,Yeastcold數(shù)據(jù)集,Yeast-diau數(shù)據(jù)集,Yeast-elu數(shù)據(jù)集和Yeast-spo數(shù)據(jù)集,數(shù)據(jù)集的簡(jiǎn)要信息如表3所示。第1個(gè)數(shù)據(jù)集來(lái)自人臉表情數(shù)據(jù)集BU_3DFE,包含2500張人臉表情圖像作為樣本集,每個(gè)樣本通過(guò)特征提取得到243維的特征信息[6],標(biāo)記信息中包含6種情感。對(duì)于一個(gè)樣本圖像請(qǐng)若干實(shí)驗(yàn)參與者在6個(gè)標(biāo)記下分級(jí)打分,再進(jìn)行歸一化獲得相應(yīng)的標(biāo)記分布。第2~6個(gè)數(shù)據(jù)集是關(guān)于酵母菌的基因表達(dá),酵母菌的2465種酵母基因作為樣本,由24維的系統(tǒng)發(fā)育譜向量表示特征,標(biāo)記分布表示不同時(shí)間節(jié)點(diǎn)基因表達(dá)的強(qiáng)度。
表3 實(shí)驗(yàn)數(shù)據(jù)集描述
基于線性重構(gòu)與非負(fù)稀疏表示的標(biāo)記分布學(xué)習(xí)算法LRNSR-LDL涉及兩個(gè)平衡參數(shù),統(tǒng)一設(shè)置為{103,102,101,1,10-1,10-2,10-3},分別通過(guò)實(shí)驗(yàn)進(jìn)行參數(shù)調(diào)整,記錄平均結(jié)果,并選取平均結(jié)果最優(yōu)值對(duì)應(yīng)的參數(shù)[12]。其他對(duì)比算法的算法設(shè)置和相關(guān)參數(shù)設(shè)置均與文獻(xiàn)[4]所提供的實(shí)驗(yàn)一致。每次實(shí)驗(yàn)輸出相應(yīng)的測(cè)試集預(yù)測(cè)標(biāo)記分布與原始標(biāo)記分布之間的距離或者相似度。將十折交叉的10次結(jié)果均值作為實(shí)驗(yàn)效果估計(jì)??紤]到算法的穩(wěn)定性,同時(shí)輸出相應(yīng)的標(biāo)準(zhǔn)差,以“平均值±標(biāo)準(zhǔn)差”表示。
表4至表9分別列出算法在不同數(shù)據(jù)集上的結(jié)果(平均值±標(biāo)準(zhǔn)差)。各表中的前三個(gè)指標(biāo)是距離指標(biāo),平均值越小表示預(yù)測(cè)效果越好;后兩個(gè)指標(biāo)是相似性指標(biāo),值越大表示算法預(yù)測(cè)效果越好,標(biāo)準(zhǔn)差都是越小越好。對(duì)于各表中的值用粗體表示平均值最優(yōu)結(jié)果,下劃線表示次優(yōu)結(jié)果。根據(jù)實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論。
表4 數(shù)據(jù)集SBU_3DFE的實(shí)驗(yàn)結(jié)果
表5 數(shù)據(jù)集Yeast-alpha的實(shí)驗(yàn)結(jié)果
表6 數(shù)據(jù)集Yeast-cold的實(shí)驗(yàn)結(jié)果
表7 數(shù)據(jù)集Yeast-diau的實(shí)驗(yàn)結(jié)果
表8 數(shù)據(jù)集Yeast-elu的實(shí)驗(yàn)結(jié)果
表9 數(shù)據(jù)集Yeast-spo的實(shí)驗(yàn)結(jié)果
(1)從表4可以看出,LRNSR-LDL算法在評(píng)價(jià)指標(biāo) Clark↓、Cosine↑、Intersec↑下相較于其他算法取得了最好的結(jié)果,在其余兩種評(píng)價(jià)指標(biāo)的衡量下均值僅取得了次好的結(jié)果。主要原因是該數(shù)據(jù)集中特征數(shù)較多,在計(jì)算特征的自我表示屬性時(shí)存在部分誤差。另外從標(biāo)準(zhǔn)差看,所提出的LRNSR-LDL算法相較于其他三種算法有最好的表現(xiàn),說(shuō)明LRNSR-LDL算法在該數(shù)據(jù)集上具有更好的適應(yīng)性和穩(wěn)定性。
(2)表5至表9為5種酵母菌數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果,可以看出LRNSR-LDL算法在5種評(píng)價(jià)指標(biāo)下表現(xiàn)較好,僅在Yeast-spo數(shù)據(jù)集中Cosine指標(biāo)次優(yōu),但是差距很小,幾乎可以忽略不計(jì)。說(shuō)明該算法在絕大部分情況下均為有效算法,具備較強(qiáng)的泛化能力。
標(biāo)記分布學(xué)習(xí)是比單標(biāo)記和多標(biāo)記學(xué)習(xí)適應(yīng)性更加廣泛的機(jī)器學(xué)習(xí)范式,能夠處理復(fù)雜的標(biāo)記多義性問(wèn)題和標(biāo)記模糊性問(wèn)題。針對(duì)標(biāo)記分布型數(shù)據(jù)包含多個(gè)標(biāo)記的特點(diǎn),充分考慮樣本的特征空間與標(biāo)記空間之間的線性關(guān)系,提出了一種聯(lián)合線性重構(gòu)與非負(fù)稀疏表示的標(biāo)記分布學(xué)習(xí)算法(LRNSR-LDL)。算法根據(jù)特征的自我表示屬性重構(gòu)原始樣本空間,用非負(fù)矩陣分解建立特征空間與標(biāo)記空間的關(guān)系式,引入l2,1-范數(shù)正則項(xiàng)訓(xùn)練轉(zhuǎn)換矩陣。實(shí)際問(wèn)題中,通過(guò)運(yùn)用設(shè)計(jì)算法在訓(xùn)練階段學(xué)習(xí)獲得轉(zhuǎn)換矩陣,然后以轉(zhuǎn)換矩陣和測(cè)試集特征數(shù)據(jù)矩陣乘積構(gòu)造測(cè)試集標(biāo)記信息,從而學(xué)得測(cè)試集的預(yù)測(cè)標(biāo)記分布。實(shí)驗(yàn)部分在6個(gè)真實(shí)的數(shù)據(jù)集上進(jìn)行,通過(guò)比較不同算法學(xué)習(xí)所預(yù)測(cè)的標(biāo)記分布與原始標(biāo)記分布的距離和相似度進(jìn)行驗(yàn)證。結(jié)果表明本研究提出的算法在適當(dāng)調(diào)整參數(shù)的情況下,都能有較為理想的效果。但在算法速度上還有提升空間,后續(xù)研究中一方面將進(jìn)一步優(yōu)化模型求解過(guò)程,另一方面將考慮增加高維數(shù)據(jù)的降維處理環(huán)節(jié),從而提高算法在高維數(shù)據(jù)空間中的效率。