• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖譜的多標(biāo)記特征選擇算法*

      2016-05-25 07:58:52嚴(yán)鵬,李
      計(jì)算機(jī)與生活 2016年4期

      嚴(yán) 鵬,李 云

      南京郵電大學(xué)計(jì)算機(jī)學(xué)院,南京210023

      ISSN 1673-9418 CODEN JKYTA8

      Journal of Frontiers of Computer Science and Technology

      1673-9418/2016/10(04)-0543-11

      ?

      基于圖譜的多標(biāo)記特征選擇算法*

      嚴(yán)鵬,李云+

      南京郵電大學(xué)計(jì)算機(jī)學(xué)院,南京210023

      ISSN 1673-9418 CODEN JKYTA8

      Journal of Frontiers of Computer Science and Technology

      1673-9418/2016/10(04)-0543-11

      E-mail: fcst@vip.163.com

      http://www.ceaj.org

      Tel: +86-10-89056056

      * The Natural Science Foundation of Jiangsu Province of China under Grant Nos. BK20131378, BK20140885 (江蘇省自然科學(xué)基金); the Postdoctoral Science Foundation of Jiangsu Province under Grant No. 1401045C (江蘇省博士后科研資助計(jì)劃); the Science Foundation of Nanjing University of Posts and Telecommunications under Grant No. NY214034 (南京郵電大學(xué)科研基金).

      Received 2015-05,Accepted 2015-07.

      CNKI網(wǎng)絡(luò)優(yōu)先出版: 2015-08-11, http://www.cnki.net/kcms/detail/11.5602.TP.20150811.1537.007.html

      摘要:特征選擇在傳統(tǒng)的單標(biāo)記問題中已經(jīng)得到深入的研究,但是大多數(shù)傳統(tǒng)的特征選擇算法卻無法用于多標(biāo)記問題。這是因?yàn)槎鄻?biāo)記問題中的每一個(gè)數(shù)據(jù)樣本都同時(shí)與多個(gè)類標(biāo)相關(guān)聯(lián),此時(shí)需要設(shè)計(jì)新的指標(biāo)來book=544,ebook=98評(píng)價(jià)特征。并且由于多個(gè)類標(biāo)之間通常存在一定的關(guān)聯(lián)性,在設(shè)計(jì)特征選擇算法時(shí)還需要對(duì)類標(biāo)的結(jié)構(gòu)進(jìn)行建模以利用類標(biāo)的關(guān)聯(lián)信息。采用譜特征選擇(spectral feature selection,SPEC)框架解決上述問題。SPEC所需的相似性矩陣和圖結(jié)構(gòu)由樣本類標(biāo)的Jaccard相似性來構(gòu)建,它能反映類標(biāo)間的關(guān)聯(lián)性。此外,所提出的方法屬于過濾器模型,它獨(dú)立于分類算法且不需要將多標(biāo)記問題轉(zhuǎn)化為單標(biāo)記問題來處理。在現(xiàn)實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了所提出算法的正確性和較好的性能。

      關(guān)鍵詞:多標(biāo)記學(xué)習(xí);譜特征選擇;標(biāo)記關(guān)聯(lián)性

      1 引言

      在傳統(tǒng)監(jiān)督學(xué)習(xí)領(lǐng)域,每個(gè)樣本只屬于一個(gè)概念,即每個(gè)樣本只與一個(gè)類標(biāo)相關(guān)聯(lián)。而在多標(biāo)記學(xué)習(xí)中,每個(gè)樣本可以同時(shí)與多個(gè)類標(biāo)相關(guān)聯(lián)。這些類標(biāo)可能相互依賴也可能相互獨(dú)立,于是與多標(biāo)記學(xué)習(xí)相關(guān)的算法通常需要能夠表示和利用類標(biāo)間的關(guān)聯(lián)信息。例如,在Emotions數(shù)據(jù)集中,每首樂曲用72個(gè)節(jié)奏和音色的特征來描述,并被標(biāo)有吃驚、愉快、放松、安靜、悲傷、生氣這6種類標(biāo)中的一個(gè)或多個(gè)。多標(biāo)記學(xué)習(xí)的任務(wù),就是在已標(biāo)記好的數(shù)據(jù)集上訓(xùn)練分類器,使其能為未標(biāo)記樣本添加正確的類標(biāo)。很自然的,“放松”與“安靜”相比“放松”與“生氣”更可能被同時(shí)標(biāo)記在同一首樂曲上,這就是類標(biāo)間的關(guān)聯(lián)信息。

      此外,多標(biāo)記學(xué)習(xí)同樣會(huì)受到維度災(zāi)難的困擾,冗余和不相關(guān)的特征會(huì)讓數(shù)據(jù)變得難以處理,并導(dǎo)致訓(xùn)練得到的模型不可靠。因此,需要設(shè)計(jì)能夠有效處理多標(biāo)記問題的特征選擇算法。與傳統(tǒng)的特征選擇算法相比,多標(biāo)記特征選擇算法需要能更好地利用類標(biāo)間的關(guān)聯(lián)信息。

      然而,那些成熟的特征選擇算法通常是針對(duì)傳統(tǒng)的單標(biāo)記問題或無監(jiān)督學(xué)習(xí)問題而設(shè)計(jì)的。盡管可以先將多標(biāo)記問題轉(zhuǎn)化為多個(gè)單標(biāo)記問題,再用這些已有的算法去處理轉(zhuǎn)化后得到的單標(biāo)記問題,但是這類基于轉(zhuǎn)化策略的方法在應(yīng)用時(shí)卻會(huì)遇到許多新問題。例如,利用Binary Relevance Strategy[1]將多標(biāo)記問題轉(zhuǎn)換成多個(gè)單標(biāo)記分類問題,再直接利用傳統(tǒng)的特征選擇算法對(duì)每個(gè)單標(biāo)記問題進(jìn)行特征選擇。顯然,這一策略完全忽略了類標(biāo)間的關(guān)聯(lián)性,并且當(dāng)類標(biāo)空間很稀疏時(shí)會(huì)導(dǎo)致類別不平衡的問題。為此,采用基于圖譜的特征選擇算法[2]來直接進(jìn)行特征選擇而不需進(jìn)行多標(biāo)記問題的轉(zhuǎn)化。這一算法屬于過濾器模型,它不依賴于特定的分類算法或是某類問題轉(zhuǎn)化策略,但依然能有效利用類標(biāo)間的關(guān)聯(lián)信息。

      本文組織結(jié)構(gòu)如下:第2章介紹多標(biāo)記學(xué)習(xí)和特征選擇的相關(guān)工作,并討論一些現(xiàn)有的多標(biāo)記特征選擇算法;第3章詳細(xì)介紹所提出的用于多標(biāo)記問題的譜特征選擇算法;第4章給出在現(xiàn)實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果和相應(yīng)的評(píng)價(jià)指標(biāo);第5章進(jìn)行總結(jié)和討論。

      2 相關(guān)工作

      2.1多標(biāo)記學(xué)習(xí)

      多標(biāo)記學(xué)習(xí)算法按照是否利用類標(biāo)的關(guān)聯(lián)信息通常被分為3個(gè)階次[3]。一階算法為每個(gè)類標(biāo)單獨(dú)構(gòu)建一個(gè)分類器,這樣有q個(gè)候選類標(biāo)的多標(biāo)記問題就被轉(zhuǎn)化為q個(gè)二分類問題。典型的一階算法有Binary Relevance[1]、多標(biāo)記k近鄰算法(multi-label k-nearest neighbor,ML-kNN)[4]等。二階算法考慮成對(duì)類標(biāo)的關(guān)聯(lián)性,通常將多標(biāo)記分類問題轉(zhuǎn)化為類標(biāo)排序問題。典型的二階算法有Calibrated Label Ranking[5]和rank-支持向量機(jī)(rank-support vector machine,rank-SVM)[6]。二階算法在訓(xùn)練時(shí)通常將類標(biāo)兩兩組合,構(gòu)建出q(q-1)/2個(gè)二分類問題,并對(duì)每個(gè)二分類問題進(jìn)行學(xué)習(xí)而得到相應(yīng)的分類器。在分類時(shí)根據(jù)q(q-1)/2個(gè)分類器的結(jié)果為每個(gè)類標(biāo)進(jìn)行投票。某個(gè)類標(biāo)得票數(shù)越高,那么該類標(biāo)就越可能和該樣本相關(guān)。高階算法為類標(biāo)間的關(guān)聯(lián)性建立更復(fù)雜的模型,它們可能考慮所有類標(biāo)對(duì)某一類標(biāo)的影響或者隨機(jī)選取一個(gè)類標(biāo)子集將其轉(zhuǎn)化為多類問題,例如Classifier Chain[7-8]和Random k-label Set[9-10]屬于高階算法。

      2.2特征選擇

      特征選擇是一種被廣泛采用的降維技術(shù),它按照一定評(píng)價(jià)準(zhǔn)則從原始特征空間中選取一個(gè)維度較低的子空間,使得后續(xù)的學(xué)習(xí)算法在該子空間上有更好的性能。根據(jù)評(píng)價(jià)準(zhǔn)則,常規(guī)的特征選擇算法通??蓺w納為3種模型:過濾器模型、封裝器模型和嵌入式模型[11-12]。屬于過濾器模型的特征選擇算法獨(dú)立于具體的分類算法,因此所使用的分類器的特性和偏差并不會(huì)對(duì)選擇結(jié)果產(chǎn)生影響。屬于過濾器模型的典型算法有Relief/ReliefF[13]、Fisher Score[14]和基于信息增益的算法等。封裝器模型可以看作分類算法的一部分,屬于封裝器模型的算法通常利用分類器的分類性能來評(píng)價(jià)候選特征。這類算法針對(duì)特定的分類器能取得很好的性能,但卻常受限于較大的計(jì)算開支和所使用的特定分類算法。嵌入式模型結(jié)合了過濾器模型和封裝器模型的特點(diǎn)。屬于嵌入式模型的算法首先獨(dú)立于分類算法產(chǎn)生若干候選特征子空間,再根據(jù)分類器在這些子空間上的分類性能,選取獲得最優(yōu)性能的特征子空間作為最終結(jié)果。

      2.3多標(biāo)記特征選擇

      近幾年,研究人員已提出了一些針對(duì)多標(biāo)記問題的特征選擇算法。在這些算法中,第一個(gè)考慮類標(biāo)關(guān)聯(lián)性的多標(biāo)記特征選擇算法是由Zhang等人在文獻(xiàn)[15]中提出的。該算法首先用傳統(tǒng)的主成分分析方法(principle component analysis,PCA)和遺傳算法(genetic algorithm,GA)來生成特征,再由多標(biāo)記樸素貝葉斯算法來衡量這些特征的分類性能。Doquire等人在文獻(xiàn)[16]中先將多標(biāo)記問題轉(zhuǎn)化為多類問題,然后再采用傳統(tǒng)的特征選擇算法對(duì)轉(zhuǎn)化后的問題進(jìn)行特征選擇。Gu等人在文獻(xiàn)[17]中改進(jìn)了rank-SVM,并結(jié)合該分類算法進(jìn)行特征選擇。Kong等人在文獻(xiàn)[18]中拓展了傳統(tǒng)的ReliefF和F-Statistic算法來處理多標(biāo)記問題,并應(yīng)用于圖像標(biāo)注。但是,這些算法大都屬于封裝器模型,它們的使用受限于巨大的計(jì)算量和特定的分類器。例如文獻(xiàn)[15]中所介紹的算法需要利用多標(biāo)記樸素貝葉斯算法的性能來評(píng)價(jià)特征,而文獻(xiàn)[16-17]中所介紹的算法需要依賴特定的問題轉(zhuǎn)化策略。

      3 基于圖譜的多標(biāo)記特征選擇

      本文將研究基于圖譜的多標(biāo)記特征選擇算法,該方法可以充分利用類標(biāo)間的關(guān)聯(lián)信息,并且具有較小的計(jì)算復(fù)雜度。傳統(tǒng)的譜特征選擇算法首先根據(jù)訓(xùn)練樣本的結(jié)構(gòu)提取出這些數(shù)據(jù)的圖譜信息,再根據(jù)圖譜信息選取那些與其結(jié)構(gòu)一致的特征。當(dāng)處理多標(biāo)記問題時(shí),如果能在提取圖譜信息的同時(shí)提取類標(biāo)的結(jié)構(gòu)信息,那么在此基礎(chǔ)上進(jìn)行特征選擇既利用了類標(biāo)的關(guān)聯(lián)性又不需要將多標(biāo)記問題轉(zhuǎn)化為單標(biāo)記問題。已有一些算法采用類似的思想來處理多標(biāo)記學(xué)習(xí)問題,例如文獻(xiàn)[19-20]所介紹的算法先從訓(xùn)練數(shù)據(jù)中提取類標(biāo)的結(jié)構(gòu)信息,然后利用這些信息與原始的特征來學(xué)習(xí)多標(biāo)記分類模型。

      3.1譜特征選擇

      譜特征選擇是一種通用的特征選擇算法框架,既可以用在監(jiān)督學(xué)習(xí)領(lǐng)域也可以用在無監(jiān)督學(xué)習(xí)領(lǐng)域。一些經(jīng)典的特征選擇算法已被證明屬于譜特征選擇的框架,例如Relief、Fisher Score等[21]。在選取特征時(shí),譜特征選擇算法以特征取值的分布是否與目標(biāo)概念的結(jié)構(gòu)相一致作為特征選擇的評(píng)價(jià)標(biāo)準(zhǔn)。例如在圖1中,每個(gè)圖形(三角和圓圈)表示一個(gè)樣本,不同的形狀表示這些樣本在同一特征上的不同取值,橢圓A和橢圓B表示目標(biāo)概念的區(qū)域,同一區(qū)域內(nèi)的樣本具有相同的類別(類別A或類別B)。在圖1的左半部分,具有相同類別的樣本在特征F1上取值相同,而具有不同類別的樣本在特征F1上取值不同,因此特征F1對(duì)類別A和類別B有很好的判別能力,此時(shí)稱特征F1的取值分布與目標(biāo)概念結(jié)構(gòu)一致。相反,特征F2的取值分布則與目標(biāo)概念的結(jié)構(gòu)不一致,F(xiàn)2對(duì)類別A和類別B不具有很好的判別能力(圖1右半部分)。因此譜特征選擇會(huì)選取F1而非F2。

      Fig.1 Consistency of a feature and target concept圖1 特征與目標(biāo)概念的一致性示意圖

      本文用Fm(1≤m≤d)表示第m個(gè)特征,fm為所有樣本在第m個(gè)特征上的取值所構(gòu)成的向量,則第i個(gè)樣本可以表示成xi=(f1i,f2i,…,fdi)。目標(biāo)概念的結(jié)構(gòu)由無向圖G(V,E)表示,其中V、E分別為圖的點(diǎn)集和邊集。圖的第i個(gè)結(jié)點(diǎn)vi?V對(duì)應(yīng)于數(shù)據(jù)集中的第i個(gè)樣本xi,邊eii′?E的權(quán)重Wii′對(duì)應(yīng)于第i個(gè)樣本和第i′個(gè)樣本的相似度Sii′(1≤i,i′≤n)。對(duì)于所給定的圖G,其鄰接矩陣W和度矩陣D為:

      則相應(yīng)的拉普拉斯矩陣L和正則化的拉普拉斯矩陣L為:

      而譜特征選擇算法將選擇那些與目標(biāo)概念結(jié)構(gòu)一致的特征,即選擇那些使得式(3)取較小值的特征:

      其中fmT為fm的轉(zhuǎn)置。又因?yàn)閒m和L的范數(shù)會(huì)影響φ(Fm)的取值,所以還需對(duì)fm與L進(jìn)行正則化,即:

      其中‖·‖表示2-范數(shù),且

      譜特征選擇算法的偽代碼如算法1所示。

      算法1譜特征選擇框架

      輸入:X,Y,φ(×)

      輸出:SFSPEC-排序后的特征列表

      1.依據(jù)X、Y計(jì)算每兩個(gè)樣本間的相似度Sii′(1≤i,i′≤n)

      2.依據(jù)相似度構(gòu)建圖G并獲得式(1)、(2)中定義的W、D、L

      3. For每個(gè)特征Fm(1≤m≤d) do

      4.SFSPEC(m)?φ(Fm)

      5. End for

      6.將SFSPEC按升序排列

      返回SFSPEC

      3.2多標(biāo)記問題目標(biāo)概念的圖結(jié)構(gòu)

      如3.1節(jié)所述,譜特征選擇用無向圖來表示目標(biāo)概念的結(jié)構(gòu),那么要將傳統(tǒng)的譜特征選擇應(yīng)用于多標(biāo)記學(xué)習(xí),也需要用無向圖來表示多標(biāo)記問題的目標(biāo)概念結(jié)構(gòu)。圖2作為圖1的拓展,給出了多標(biāo)記問題的目標(biāo)概念(類標(biāo))結(jié)構(gòu)。F1表示數(shù)據(jù)的某一特征。每個(gè)圖形(叉、三角、圓圈和星)表示一個(gè)樣本,圖形的不同形狀表示這些樣本在特征F1上的不同取值。橢圓A、B、C表示3個(gè)不同的目標(biāo)概念區(qū)域。多標(biāo)記學(xué)習(xí)的目標(biāo)就是將樣本正確分配到各個(gè)橢圓(類標(biāo))中。其中橢圓D是一個(gè)特殊的目標(biāo)概念區(qū)域,落在D中的樣本表示其不與任何類標(biāo)相關(guān)聯(lián)。顯然,多標(biāo)記問題和傳統(tǒng)單標(biāo)記問題的目標(biāo)結(jié)構(gòu)的主要區(qū)別在于:多標(biāo)記問題的兩個(gè)不同概念(類標(biāo))間可能存在交集,即一個(gè)樣本可以同時(shí)屬于多個(gè)概念(與多個(gè)類標(biāo)相關(guān)聯(lián))。此外,落在兩個(gè)概念(類標(biāo))相交區(qū)域中的樣本越多,則這兩個(gè)概念(類標(biāo))同時(shí)出現(xiàn)的可能性就越大,它們?cè)娇赡苁窍嗷ヒ蕾嚨摹O喾?,如果交集區(qū)域中幾乎沒有樣本,那么相關(guān)的概念(類標(biāo))越可能是互斥的關(guān)系。例如在圖2中,A和B交集區(qū)域中存在少量樣本,因此一個(gè)樣本可能同時(shí)與A和B相關(guān)聯(lián),而C與A和B間均不存在交集,它們可能為互斥的關(guān)系,即一個(gè)樣本與C相關(guān)聯(lián)則不會(huì)再與A或B相關(guān)聯(lián)。同時(shí),圖2中與相同類標(biāo)相關(guān)聯(lián)的樣本(落在同一區(qū)域中的樣本)在特征F1上取值相同,而與不同類標(biāo)相關(guān)聯(lián)的樣本(落在不同區(qū)域的樣本)在特征F1上取值不同,因此特征F1對(duì)此結(jié)構(gòu)圖中所描述的多標(biāo)記問題具有很好的判別性。

      Fig.2 Target concept of a multi-label learning problem圖2 多標(biāo)記問題的目標(biāo)概念結(jié)構(gòu)圖

      基于上述分析,譜特征選擇中使用到的目標(biāo)概念的結(jié)構(gòu)圖也能很好地描述類標(biāo)間的關(guān)聯(lián)信息,那些取值分布與目標(biāo)概念的結(jié)構(gòu)一致的特征通常具有很好的判別性,因此,可以自然地對(duì)常規(guī)譜特征選擇算法進(jìn)行拓展,以用于處理多標(biāo)記學(xué)習(xí)的特征選擇問題。

      3.3多標(biāo)記問題樣本相似度的定義

      要構(gòu)建目標(biāo)概念的結(jié)構(gòu)圖,就需要計(jì)算樣本間的相似度。在傳統(tǒng)的譜特征選擇算法中,通常用式(5)或式(6)來定義樣本的相似度。式(5)用于監(jiān)督學(xué)習(xí),其中nc為屬于類別c的樣本的個(gè)數(shù),式(6)是徑向基(radial basis function,RBF)核函數(shù),通常用于無監(jiān)督學(xué)習(xí)。

      這兩種相似度的定義在多標(biāo)記問題中均無法直接使用。對(duì)于式(5),因?yàn)槎鄻?biāo)記問題中每個(gè)樣本可以同時(shí)與多個(gè)類標(biāo)相關(guān)聯(lián),即同時(shí)屬于多個(gè)類別,所以無法確定nc的值。而對(duì)于式(6),它本身用于無監(jiān)督學(xué)習(xí),并沒有使用相應(yīng)的監(jiān)督信息(類標(biāo)信息)。為了有效定義樣本的相似性,一種直觀的解決方案是對(duì)式(6)進(jìn)行修改:

      然而,RBF核函數(shù)中通常是依據(jù)類標(biāo)集合在歐氏空間中的距離來度量樣本相似性的,這類距離并不能很好地度量類標(biāo)集合之間的相似度。例如,假設(shè)類標(biāo)集合為Y={y1,y2,y3}以及4個(gè)樣本(x1,y1),(x2,y2),(x3,y3),(x4,y4),其中y1=(1,1,1),y2=(0,1,1),y3=(1,0,0),y4=(0,0,0),那么依據(jù)式(7)有S12=S34=e-1/(2δ2)。但是這4個(gè)樣本的目標(biāo)結(jié)構(gòu)如圖3所示。因?yàn)闃颖?x1,y1)與樣本(x2,y2)有兩個(gè)共同的類標(biāo)y2和y3,它們落在了y2和y3的交集中,而樣本(x3,y3)和樣本(x4,y4)并沒有共同關(guān)聯(lián)的類標(biāo),它們屬于圖中兩個(gè)不相交的區(qū)域,由此直觀上可得出S12>S34=0。這與依據(jù)式(7)計(jì)算所得的結(jié)果并不一致。

      Fig.3 Label structure of instances圖3 樣本的類標(biāo)結(jié)構(gòu)示例

      因此,將利用Jaccard相似度(式(8))來度量兩個(gè)樣本間的相似度。依據(jù)式(8),Sii′?[0,1],兩個(gè)樣本共同關(guān)聯(lián)的類標(biāo)越多,Sii′越接近1。當(dāng)每個(gè)樣本最多只能與1個(gè)類標(biāo)相關(guān)聯(lián)時(shí),多標(biāo)記問題就退化為傳統(tǒng)的單標(biāo)記多類問題,式(8)也相應(yīng)地變?yōu)槭剑?),而它剛好是傳統(tǒng)單標(biāo)記問題中所使用的相似度式(5)的特例。

      3.4與wrapper-SPEC的聯(lián)系

      傳統(tǒng)的譜特征選擇適用于單標(biāo)記問題,可以將多標(biāo)記問題經(jīng)某種轉(zhuǎn)化策略轉(zhuǎn)化為若干單標(biāo)記問題后,再對(duì)各單標(biāo)記問題使用傳統(tǒng)的譜特征選擇。不過此時(shí)的特征選擇已經(jīng)依賴于問題轉(zhuǎn)化策略,屬于封裝器模型,不妨稱這類算法為wrapper-SPEC。而由式(8)確定了樣本間的相似度后,可直接根據(jù)算法1對(duì)多標(biāo)記數(shù)據(jù)進(jìn)行特征選擇。此時(shí)算法不依賴于特定的分類算法或問題轉(zhuǎn)化策略,屬于過濾器模型,稱其為filter-SPEC。用filter-SPEC和wrapper-SPEC進(jìn)行特征選擇和分類的過程見圖4和圖5。

      Fig.4 Progress of feature selection and classification of filter-SPEC圖4 利用filter-SPEC進(jìn)行特征選擇和分類

      此外,filter-SPEC所選出的特征對(duì)經(jīng)過轉(zhuǎn)化得到的單標(biāo)記問題依然具有判別性,因此與wrapper-SPEC在每個(gè)單標(biāo)記問題上所選出的特征密切相關(guān)。例如,圖6中的每個(gè)圖形(叉、三角、圓圈和星)表示一個(gè)樣本,不同形狀表示不同樣本對(duì)同一特征的不同取值,其分布與目標(biāo)概念(類標(biāo))的結(jié)構(gòu)一致,因此filter-SPEC會(huì)選出該特征。

      Fig.5 Progress of feature selection and classification of wrapper-SPEC圖5 利用wrapper-SPEC進(jìn)行特征選擇和分類

      Fig.6 Target graph of a multi-label learning problem圖6 多標(biāo)記問題的目標(biāo)概念結(jié)構(gòu)圖

      而在wrapper-SPEC中,如果利用一階算法的轉(zhuǎn)化策略將多標(biāo)記問題轉(zhuǎn)化為單標(biāo)記問題(對(duì)每個(gè)類標(biāo)分別進(jìn)行處理),則圖6所介紹的多標(biāo)記數(shù)據(jù)可轉(zhuǎn)化成3個(gè)單標(biāo)記問題,即對(duì)A/-A、B/-B和C/-C的分類。同時(shí),該策略可視為將圖6中的目標(biāo)概念圖G分解,得到圖G1'、圖G2'和圖G3' 3個(gè)子目標(biāo)概念圖,如圖7所示。此外,在wrapper-SPEC中,如果利用二階策略將原始多標(biāo)記問題轉(zhuǎn)化為對(duì)A/B、A/C和B/C的二分類單標(biāo)記問題,則該策略同樣可將圖G進(jìn)行分解,得到如圖8所示的目標(biāo)概念子圖。不難得到由filter-SPEC所選出的特征對(duì)轉(zhuǎn)化所得的單標(biāo)記子問題仍然具有判別性。

      在計(jì)算復(fù)雜度上,filter-SPEC的計(jì)算復(fù)雜度為Tfilter= O(n2(q+d)),采用一階轉(zhuǎn)化策略的wrapper-SPEC的計(jì)算復(fù)雜度為T1-order=O(n2(1+d)q),采用二階轉(zhuǎn)化策略的wrapper- SPEC的計(jì)算復(fù)雜度為T2-order=O(n2(1+d)q(q-1))。顯然,Tfilter

      Fig.7 Target graphs transformed by the first order strategy圖7 一階策略轉(zhuǎn)化后的目標(biāo)結(jié)構(gòu)

      Fig.8 Target graphs transformed by the second order strategy圖8 二階策略轉(zhuǎn)化后的目標(biāo)結(jié)構(gòu)

      4 實(shí)驗(yàn)

      為了驗(yàn)證上述算法的有效性,在現(xiàn)實(shí)世界數(shù)據(jù)集上比較了filter-SPEC和其他封裝器模型算法的性能。對(duì)于filter-SPEC,分別使用式(7)(filter-SPEC-RBF)和式(8)(filter-SPEC-Jaccard)計(jì)算樣本相似度。對(duì)于封裝器模型,除了wrapper-SPEC外,還使用了具有代表性的Relief算法。雖然Relief在處理單標(biāo)記問題時(shí)屬于過濾器模型,但應(yīng)用于多標(biāo)記問題時(shí),它依賴于特定的問題轉(zhuǎn)化策略[18],因此不妨稱用于多標(biāo)記問題的Relief為wrapper-Relief。所有實(shí)驗(yàn)在Matlab仿真環(huán)境下進(jìn)行,使用Intel酷睿i7 2720QM CPU,4 GB內(nèi)存。

      4.1數(shù)據(jù)集

      為了驗(yàn)證算法的性能,在4個(gè)來自不同領(lǐng)域的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn)。表1給出了實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)信息。

      Table 1 Summary of data sets表1 實(shí)驗(yàn)數(shù)據(jù)信息

      4.2多標(biāo)記學(xué)習(xí)算法

      為了驗(yàn)證選擇出的特征的性能,分別采用ML-kNN 和Calibrated Label Ranking作為多標(biāo)記分類算法。這兩種算法分別基于一階策略和二階策略將多標(biāo)記問題轉(zhuǎn)化為單標(biāo)記問題,如文獻(xiàn)[6,17,22-25]等一些多標(biāo)記分類算法和特征選擇算法都是在它們的基礎(chǔ)上發(fā)展而來,因此具有一定代表性。

      4.2.1ML-kNN

      ML-kNN[4]屬于一階算法,它依次對(duì)多標(biāo)記問題的每個(gè)類標(biāo)進(jìn)行分類,并最終給出與樣本相關(guān)的類標(biāo)集合,即ML-kNN為h:X?2Y的一種實(shí)現(xiàn)。本文采用漢明損失衡量ML-kNN的性能,其定義見式(10):

      式(10)中p為測試樣本個(gè)數(shù);q為類標(biāo)個(gè)數(shù);?為異或操作。漢明損失越小表明所用的特征選擇算法性能越優(yōu)秀。實(shí)驗(yàn)結(jié)果見圖9。

      經(jīng)過10次交叉驗(yàn)證后的實(shí)驗(yàn)結(jié)果如圖9所示,其中橫軸表示所選取的特征個(gè)數(shù)占原始特征維數(shù)的百分比,縱軸為漢明損失的值。其中水平線base為未進(jìn)行任何特征選擇時(shí)ML-kNN的分類性能。實(shí)驗(yàn)結(jié)果表明利用Jaccard相似度的filter-SPEC能取得最優(yōu)性能,而wrapper-SPEC和使用RBF核函數(shù)的filter-SPEC性能較差。

      Fig.9 Results of ML-kNN圖9 ML-kNN算法實(shí)驗(yàn)結(jié)果

      4.2.2Calibrated Label Ranking

      Calibrated Label Ranking[5]屬于二階算法。它將多標(biāo)記問題的類標(biāo)兩兩組合轉(zhuǎn)化得到q(q-1)/2個(gè)單標(biāo)記二分類問題,再根據(jù)這些單標(biāo)記問題的分類結(jié)果對(duì)類標(biāo)排序,某類標(biāo)票數(shù)越多樣本越可能和該類標(biāo)相關(guān)聯(lián)。顯然,該算法為h′:X′Y?R的一種實(shí)現(xiàn)。

      因?yàn)樵撍惴ǖ妮敵霾⒉皇蔷唧w的類標(biāo)集合而是類標(biāo)的排序,所以使用平均精確率而非漢明損失來衡量算法的性能,其定義為:

      其中,rank(yj)為第j個(gè)類標(biāo)在輸出中所排的位次,該指標(biāo)的范圍是[0,1],越接近1表明算法性能越好。

      本實(shí)驗(yàn)中使用SVM+RBF kernel作為轉(zhuǎn)換后單標(biāo)記問題的分類器。在基準(zhǔn)數(shù)據(jù)集上利用10次交叉驗(yàn)證后的實(shí)驗(yàn)結(jié)果如圖10所示,橫軸表示選取的特征個(gè)數(shù)與原始特征維數(shù)的百分比,縱軸為平均精確率。其中水平線base為未進(jìn)行特征選擇時(shí)Calibrated Label Ranking的分類性能。實(shí)驗(yàn)結(jié)果表明filter-SPEC、wrapper-Relief和wrapper-SPEC具有相似的分類性能。但耗時(shí)上,medical數(shù)據(jù)集上filter-SPEC所用的平均時(shí)間為53.880 7 s,而wrapper-Relief為91.831 5 s,wrapper-SPEC為132.513 2 s;在yeast數(shù)據(jù)集上,filter-SPEC、wrapper-Relief和wrapper-SPEC的平均耗時(shí)分別為81.816 1 s、90.579 3 s和138.429 8 s。emotions數(shù)據(jù)集上各算法耗時(shí)均小于3 s,tmc2007數(shù)據(jù)集上各算法均沒能在10 h內(nèi)完成,故沒有列出詳細(xì)的運(yùn)行時(shí)間。如上文所述,因?yàn)樾枰獙?duì)轉(zhuǎn)化后的單標(biāo)記問題依次進(jìn)行特征選擇,wrapper-SPEC的計(jì)算復(fù)雜度大于filter-SPEC的計(jì)算復(fù)雜度。并且此處wrapper-Relief的計(jì)算復(fù)雜度為O((n2+nd)q(q-1)),也大于filter-SPEC的計(jì)算復(fù)雜度。因此filter-SPEC在計(jì)算復(fù)雜度上更具競爭力。

      Fig.10 Results of Calibrated Label Ranking圖10 Calibrated Label Ranking實(shí)驗(yàn)結(jié)果

      4.3結(jié)果分析

      已有文獻(xiàn)表明[2,11-12],基于封裝器模型所選出的特征在分類性能上通常要優(yōu)于基于過濾器模型所選出的特征,但封裝器模型受限于計(jì)算復(fù)雜度和所采用的分類算法。而上述實(shí)驗(yàn)結(jié)果表明,在基準(zhǔn)數(shù)據(jù)集上,本文改進(jìn)的譜特征選擇算法(filter-SPEC)與依賴于問題轉(zhuǎn)化的多標(biāo)記特征選擇算法(封裝器模型)相比,在更低的計(jì)算復(fù)雜度下卻取得了相似或更為優(yōu)秀的分類性能。這主要是因?yàn)椋阂环矫嫠鶚?gòu)建的概念圖很好地反應(yīng)了樣本結(jié)構(gòu)和類標(biāo)的關(guān)聯(lián)信息,從而保證了所選特征的分類性能;另一方面,在用filter-SPEC選出特征后依舊采用了一階和二階分類算法,這些算法仍是將多標(biāo)記問題轉(zhuǎn)化為單標(biāo)記問題后再進(jìn)行分類,這一過程并不能很好地利用原始數(shù)據(jù)集上樣本的結(jié)構(gòu)和類標(biāo)的關(guān)聯(lián)信息,使得filter-SPEC所選特征和封裝器模型所選特征取得了相似的分類性能。

      5 結(jié)束語

      多標(biāo)記學(xué)習(xí)的特征選擇問題開始引起來自多標(biāo)記學(xué)習(xí)領(lǐng)域和特征選擇領(lǐng)域的研究人員的關(guān)注,盡管已經(jīng)提出了一些用于多標(biāo)記學(xué)習(xí)問題的特征選擇算法,但它們大都屬于封裝器模型,具有較高的時(shí)間復(fù)雜度。本文對(duì)傳統(tǒng)的譜特征選擇框架進(jìn)行改進(jìn),以便能有效處理多標(biāo)記問題的特征選擇。所提出的基于圖譜的特征選擇算法屬于過濾器模型,不依賴于具體的多標(biāo)記分類算法或問題轉(zhuǎn)化策略。理論分析和實(shí)驗(yàn)結(jié)果表明,本文算法具有與封裝器模型相似或更好的性能,且時(shí)間開銷較少。鑒于圖譜能很好地描述類標(biāo)間的關(guān)聯(lián)信息,在未來工作中,將圖譜理論應(yīng)用于多標(biāo)記學(xué)習(xí)的整個(gè)過程中,而不僅限于特征選擇。

      References:

      [1] Zhou Zhihua, Zhang Minling. Multi-instance multi-label learning with application to scene classification[C]//Advances in Neural Information Processing Systems 19: Proceedings of the 20th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 4-7, 2006. Cambridge, USA: MIT Press, 2007: 1609-1616.

      [2] Zhao Zheng, Liu Huan. Spectral feature selection for supervised and unsupervised learning[C]//Proceedings of the 24th International Conference on Machine Learning, Corvallis, USA, 2007. New York, USA:ACM, 2007: 1151-1157.

      [3] Zhang Minling, Zhou Zhihua.Areview on multi-label learning algorithms[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(8): 1819-1837.

      [4] Zhang Minling, Zhou Zhihua. ML-KNN: a lazy learning approach to multi- label learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048.

      [5] Fürnkranz J, Hüllermeier E, Mencía E L, et al. Multilabel classification via calibrated label ranking[J]. Machine Learning, 2008, 73(2): 133-153.

      [6] Elisseeff A, Weston J. A kernel method for multi-labelled classification[C]//Advances in Neural Information Processing Systems 14: Proceedings of the 2002 Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 9-14, 2002. Cambridge, USA: MITPress, 2003: 681-687.

      [7] Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-label classification[J]. Machine Learning, 2011, 85(3): 333-359.

      [8] Sanden C, Zhang J Z. Enhancing multi-label music genre classification through ensemble techniques[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval, Beijing, Jul 24-28, 2011. New York, USA:ACM, 2011: 705-714.

      [9] Tsoumakas G, Katakis I, Vlahavas I. Random k-labelsets for multilabel classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(7): 1079-1089.

      [10] Tsoumakas G, Vlahavas I. Random k-labelsets: an ensemble method for multilabel classification[C]//LNCS 4701: Proceedings of the 18th European Conference on Machine Learning, Warsaw, Poland, Sep 17-21, 2007. Berlin, Heidelberg: Springer, 2007: 406-417.

      [11] Tang Jiliang,Alelyani S, Liu Huan. Feature selection for classification: a review[J/OL]. (2014)[2015-03-01]. http://www. public.asu.edu/~jtang20/publication/feature_selection_for_ classification.pdf.

      [12]Alelyani S, Tang Jiliang, Liu Huan. Feature selection for clustering: a review[J/OL]. (2013)[2015-03-01]. http://www.public.asu.edu/~jtang20/publication/FSClustering.pdf.

      [13] Robnik-?ikonja M, Kononenko I. Theoretical and empirical analysis of ReliefF and RReliefF[J]. Machine Learning, 2003, 53(1/2): 23-69.

      [14] Duda R O, Hart P E, Stork D G. Pattern classification[M]. Hoboken, USA: John Wiley & Sons, 2012.

      [15] Zhang M L, Pe?a J M, Robles V. Feature selection for multilabel naive Bayes classification[J]. Information Sciences, 2009, 179(19): 3218-3229.

      [16] Doquire G, Verleysen M. Feature selection for multi-label classification problems[C]//LNCS 6691: Proceedings of the 11th International Work- Conference on Artificial Neural Networks, Torremolinos- Málaga, Spain, Jun 8- 10, 2011. Berlin, Heidelberg: Springer, 2011: 9-16.

      [17] Gu Quanquan, Li Zhenhui, Han Jiawei. Correlated multi-label feature selection[C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management, Glasgow, UK, Oct 24-28, 2011. New York, USA:ACM, 2011: 1087-1096.

      [18] Kong Deguang, Ding C H Q, Huang Heng, et al. Multi-label ReliefF and F-statistic feature selections for image annotation[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, Jun 16-21, 2012. Piscataway, USA: IEEE, 2012: 2352-2359.

      [19] Huang Shengjun, Zhou Zhihua. Multi-label learning by exploiting label correlations locally[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence, Toronto,Canada, 2012. Menlo Park, USA:AAAI, 2012: 949-955.

      [20] Tsoumakas G, Katakis I, Vlahavas I. Effective and efficient multilabel classification in domains with large number of labels[C]//Proceedings of the ECML/PKDD 2008 Workshop on Mining Multidimensional Data, 2008: 30-44.

      [21] Zhao ZA,Liu Huan.Spectralfeatureselectionfordatamining[M]. Boca Raton, USA: CRC Press, 2011.

      [22] Madjarov G, Gjorgjevikj D, Delev T. Efficient two stage voting architecture for pairwise multi-label classification[C]// LNCS 6464: Proceedings of the 23rd Australasian Joint Conference on Artificial Intelligence, Adelaide, Australia, Dec 7-10, 2010. Berlin, Heidelberg: Springer, 2011: 164-173.

      [23] Madjarov G, Gjorgjevikj D, D?eroski S. Two stage architecture for multi-label learning[J]. Pattern Recognition, 2012, 45(3): 1019-1034.

      [24] Cheng Weiwei, Hüllermeier E, Dembczynski K J. Bayes optimal multilabel classification via probabilistic classifier chains[C]//Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel, 2010: 279-286.

      [25] Zhang Minling, Zhang Kun. Multi-label learning by exploiting label dependency[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Washington, USA, Jul 25-28, 2010. New York, USA: ACM, 2010: 999-1008.

      YAN Peng was born in 1990. He is an M.S. candidate at Nanjing University of Posts and Telecommunications. His research interests include machine learning and pattern recognition, etc.

      嚴(yán)鵬(1990—),男,江蘇南京人,南京郵電大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),模式識(shí)別等。

      LI Yun was born in 1974. He received the Ph.D. degree from Chongqing University in 2005. Now he is a professor at Nanjing University of Posts and Telecommunications, and the member of CCF. His research interests include machine learning and pattern recognition, etc.

      李云(1974—),男,2005年于重慶大學(xué)獲得博士學(xué)位,現(xiàn)為南京郵電大學(xué)教授,CCF會(huì)員,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),模式識(shí)別等。

      Spectral Theory Based Multi-Label Feature Selection?

      YAN Peng, LI Yun+
      School of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210023, China

      + Corresponding author: E-mail: liyun@njupt.edu.cn

      YAN Peng, LI Yun. Spectral theory based multi-label feature selection. Journal of Frontiers of Computer Science and Technology, 2016, 10(4):543-553.

      Abstract:Feature selection has been deeply studied in traditional single label problem. When it comes to multi-label problem, most of traditional feature selection algorithms for single label problem are not able to be applied directly, since instances in multi-label problems are associated with several labels simultaneously, new criteria to evaluate features are needed. Because of the correlations among several labels, new methods to model labels structure are needed for using the correlation information when designing feature selection algorithm. This paper uses the spectral feature selection (SPEC) framework to handle multi-label problem and uses Jaccard similarity to construct the similarity matrix and the target graph in SPEC for multi-label problem. This method is under filter model, which is different from the wrapper model. The latter always transforms the multi-label problem into some single label problems, and traditional feature selection algorithm is applied to these single label problems. The experiments on real world data sets demonstrate the correctness and high performance of the proposed algorithm.

      Key words:multi-label learning; spectral feature selection; label correlation

      文獻(xiàn)標(biāo)志碼:A

      中圖分類號(hào):TP181

      doi:10.3778/j.issn.1673-9418.1505064

      娄烦县| 平江县| 克山县| 呼玛县| 牟定县| 通许县| 赞皇县| 莱阳市| 醴陵市| 城口县| 梁平县| 桓仁| 吐鲁番市| 东辽县| 阿拉尔市| 银川市| 垫江县| 大石桥市| 沅江市| 中西区| 临澧县| 姜堰市| 九龙县| 准格尔旗| 泰来县| 永川市| 德江县| 商都县| 句容市| 资中县| 湖南省| 清水县| 车险| 恭城| 元谋县| 安新县| 中宁县| 德阳市| 蓬安县| 修水县| 柳河县|