• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多標(biāo)記特征選擇算法的綜述

      2020-11-18 02:09:58姚二亮李德玉
      關(guān)鍵詞:特征選擇專屬子集

      姚二亮,李德玉,2

      (1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院 山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室 山西 太原 030006)

      0 引言

      現(xiàn)實(shí)領(lǐng)域中,很多場(chǎng)景下樣本不僅僅對(duì)應(yīng)單一語(yǔ)義。例如圖像標(biāo)注領(lǐng)域[1],一幅圖片可能具有多個(gè)標(biāo)注概念;文本分類領(lǐng)域[2],一件新聞事件可能同時(shí)具有多個(gè)主題;生物工程領(lǐng)域[3],一個(gè)蛋白質(zhì)可能同時(shí)具有多種生物功能。傳統(tǒng)單標(biāo)記監(jiān)督方法已不能很好地解決多語(yǔ)義問(wèn)題,為此多標(biāo)記學(xué)習(xí)框架被提出。不同于單標(biāo)記學(xué)習(xí),多標(biāo)記學(xué)習(xí)中一個(gè)樣本對(duì)應(yīng)一個(gè)非空標(biāo)記集合,其豐富的標(biāo)記概念往往需要高維的特征空間描述,因此特征維度災(zāi)難已是多標(biāo)記學(xué)習(xí)的重要挑戰(zhàn)之一[4]。

      在多標(biāo)記學(xué)習(xí)中,特征高維問(wèn)題一方面使得學(xué)習(xí)算法具有較高的時(shí)間和空間復(fù)雜度,另一方面,也降低了學(xué)習(xí)器的精度和泛化能力,甚至造成過(guò)擬合現(xiàn)象。為此已有大量多標(biāo)記降維方法被提出。同單標(biāo)記學(xué)習(xí)一樣,多標(biāo)記降維方法大致分為兩類,一類為多標(biāo)記特征抽取方法[5-7],另一類為多標(biāo)記特征選擇方法。特征抽取是指對(duì)原始特征空間進(jìn)行特定組合(線性組合)將其映射到一個(gè)低維空間,該類方法通??梢杂行Ы稻S并取得不錯(cuò)的分類效果,但是不能保留原始特征的物理意義,對(duì)應(yīng)分類過(guò)程不具有解釋性。而現(xiàn)實(shí)領(lǐng)域中的很多問(wèn)題,往往需要更好的解釋性,例如醫(yī)療領(lǐng)域,好的解釋性有助于醫(yī)生更好地運(yùn)用模型;金融領(lǐng)域,好的解釋性有助于金融公司了解為用戶推薦基金的原因。相較于特征抽取,特征選擇方法不僅可以有效去除特征空間中冗余、無(wú)關(guān)特征,而且可以保留原始特征的物理意義,具有更好的解釋性,為此多標(biāo)記特征選擇已成為一項(xiàng)重要研究課題。近年來(lái),已有大量多標(biāo)記特征選擇算法被提出,在很大程度上降低了維度災(zāi)難對(duì)于多標(biāo)記學(xué)習(xí)的影響。與單標(biāo)記特征選擇不同,多標(biāo)記特征選擇需要綜合考慮特征與多個(gè)標(biāo)記之間的關(guān)系,同時(shí)需要考慮標(biāo)記之間的相關(guān)性。對(duì)多標(biāo)記特征選擇的研究主要包括,怎樣構(gòu)建合適的特征選擇框架和怎樣定義特征與標(biāo)記集相關(guān)性的度量?,F(xiàn)有的多標(biāo)記特征選擇可以從4個(gè)角度進(jìn)行歸類。

      1) 從數(shù)據(jù)轉(zhuǎn)換角度,現(xiàn)有多標(biāo)記特征選擇算法可分為:轉(zhuǎn)化法、直接法。轉(zhuǎn)化法是指將多標(biāo)記問(wèn)題轉(zhuǎn)化為單標(biāo)記問(wèn)題,進(jìn)而可直接運(yùn)用已有單標(biāo)記特征選擇方法。直接法是指對(duì)現(xiàn)有特征選擇方法進(jìn)行改進(jìn),例如構(gòu)建新的多元度量、運(yùn)用矩陣稀疏范數(shù)等方法。

      2) 從特征選擇過(guò)程與學(xué)習(xí)器的聯(lián)系出發(fā),考慮到多標(biāo)記特征選擇是否依賴于特定學(xué)習(xí)器,現(xiàn)有多標(biāo)記特征選擇算法可分為:過(guò)濾式、包裹式、嵌入式三種。

      3) 從不同標(biāo)記特征子集的共享程度出發(fā),考慮到不同標(biāo)記可能擁有不同的特征子集,現(xiàn)有多標(biāo)記特征選擇算法可分為:標(biāo)記共享式、標(biāo)記粒化式、標(biāo)記專屬式三種。

      4) 從數(shù)據(jù)的應(yīng)用場(chǎng)景出發(fā),考慮到現(xiàn)實(shí)多標(biāo)記數(shù)據(jù)會(huì)存在動(dòng)態(tài)更新現(xiàn)象,現(xiàn)有多標(biāo)記特征選擇算法可分為:非增量式、增量式。

      本文將從以上4種不同角度對(duì)多標(biāo)記特征選擇方法進(jìn)行歸類論述,并具體介紹各類方法的相關(guān)理論及具體方法,分析各類方法優(yōu)缺點(diǎn),進(jìn)而對(duì)多標(biāo)記特征選擇方法的進(jìn)一步研究進(jìn)行總結(jié)。

      1 數(shù)據(jù)轉(zhuǎn)化

      多標(biāo)記數(shù)據(jù)可通過(guò)不同方式轉(zhuǎn)為單標(biāo)記數(shù)據(jù),包括將多標(biāo)記問(wèn)題轉(zhuǎn)為多個(gè)二分類問(wèn)題或?qū)⒍鄻?biāo)記問(wèn)題轉(zhuǎn)為一個(gè)多分類問(wèn)題,這些轉(zhuǎn)化方法已在多標(biāo)記分類中得到很好應(yīng)用,可以直接運(yùn)用已有單標(biāo)記分類算法解決多標(biāo)記分類問(wèn)題。多標(biāo)記特征選擇同樣也可以轉(zhuǎn)化為具體的單標(biāo)記特征選擇。從數(shù)據(jù)轉(zhuǎn)化角度分析,現(xiàn)有多標(biāo)記特征選擇算法可歸為:基于標(biāo)記冪集的多標(biāo)記特征選擇(label powerset multi-label feature selection, LP_MLFS);基于二值相關(guān)的多標(biāo)記特征選擇(binary relevance multi-label feature selection, BR_MLFS);非轉(zhuǎn)化多標(biāo)記特征選擇(directed multi-label feature selection, Direct_MLFS)。

      1.1 基于標(biāo)記冪集的多標(biāo)記特征選擇

      最直接的轉(zhuǎn)化方法為標(biāo)記冪集方法(label power set,LP)[8],這類方法的主要思想是將多標(biāo)記數(shù)據(jù)中的每一種標(biāo)記組合看作一種類別,將多標(biāo)記數(shù)據(jù)轉(zhuǎn)化為一個(gè)多類別單標(biāo)記數(shù)據(jù),例如表1到表2的轉(zhuǎn)化;然后運(yùn)用單標(biāo)記特征選擇算法選出重要特征子集。接下來(lái),首先介紹LP以及它的改進(jìn)方法PPT(pruned problem transformation),然后介紹一些基于LP的多標(biāo)記特征選擇方法。

      表1 多標(biāo)記數(shù)據(jù)Table 1 Multi-label data

      表2 多類別數(shù)據(jù)Table 2 Multi-class data

      LP最初被提出用于解決多標(biāo)記分類,這種轉(zhuǎn)化方法有效考慮了標(biāo)記相關(guān)性,但是也存在兩個(gè)比較大的問(wèn)題。一類問(wèn)題是,該方法轉(zhuǎn)化所得數(shù)據(jù)類別數(shù)與標(biāo)記個(gè)數(shù)呈指數(shù)關(guān)系,并且類別往往不平衡,分類效果不太理想。另一類問(wèn)題是,由于訓(xùn)練集數(shù)量有限,并非所有可能的組合類別都出現(xiàn)在訓(xùn)練集中,因此LP的預(yù)測(cè)結(jié)果僅局限于訓(xùn)練集中已出現(xiàn)類別,不具有好的泛化能力。

      針對(duì)LP在轉(zhuǎn)化過(guò)程中數(shù)據(jù)類別數(shù)與標(biāo)記個(gè)數(shù)呈指數(shù)關(guān)系的問(wèn)題,文獻(xiàn)[9]提出一種新的轉(zhuǎn)化方法PPT,該方法運(yùn)用剪枝策略,在LP的基礎(chǔ)上,通過(guò)設(shè)置最小類別數(shù)閾值,過(guò)濾掉出現(xiàn)頻率小的類別數(shù)據(jù),有效避免了LP方法中類別多、類別不平衡問(wèn)題。

      基于LP轉(zhuǎn)化方法,已有大量多標(biāo)記特征選擇算法被提出。文獻(xiàn)[10]在音樂(lè)情感識(shí)別多標(biāo)記任務(wù)中,首先基于LP方法將多標(biāo)記數(shù)據(jù)轉(zhuǎn)化為單標(biāo)記數(shù)據(jù),然后運(yùn)用單標(biāo)記卡方檢驗(yàn)方法對(duì)轉(zhuǎn)換后數(shù)據(jù)進(jìn)行特征選擇,實(shí)驗(yàn)展示了該方法的有效性。文獻(xiàn)[11]提出一種基于PPT轉(zhuǎn)化的多標(biāo)記特征選擇算法,首先應(yīng)用PPT轉(zhuǎn)化策略將多標(biāo)記數(shù)據(jù)轉(zhuǎn)為單標(biāo)記數(shù)據(jù),然后基于互信息運(yùn)用啟發(fā)式搜索策略對(duì)轉(zhuǎn)化后數(shù)據(jù)進(jìn)行特征選擇,實(shí)驗(yàn)驗(yàn)證了該方法的有效性。文獻(xiàn)[12]將PPT轉(zhuǎn)化策略和ReliefF算法相結(jié)合構(gòu)建了一種新的多標(biāo)記特征選擇算法。

      1.2 基于二值相關(guān)的多標(biāo)記特征選擇

      二值相關(guān)(binary relevance,BR)法可以將多標(biāo)記數(shù)據(jù)轉(zhuǎn)化為多個(gè)二分類數(shù)據(jù)[1],已在多標(biāo)記分類中得到有效運(yùn)用,也被運(yùn)用于多標(biāo)記特征選擇。需要注意的是,本文所介紹的BR方法在文獻(xiàn)[13]中歸為external approach BR方法,本文將從標(biāo)記是否共享特征的角度詳細(xì)介紹。基于BR轉(zhuǎn)化的多標(biāo)記特征選擇主要思想是,首先將多標(biāo)記數(shù)據(jù)轉(zhuǎn)為多個(gè)二分類數(shù)據(jù);然后運(yùn)用單標(biāo)記特征選擇算法對(duì)每個(gè)二分類數(shù)據(jù)進(jìn)行特征排序;最后根據(jù)某種融合策略對(duì)所得多個(gè)排序序列進(jìn)行融合,得出合適的特征排序或特征子集。

      文獻(xiàn)[14]提出了隨機(jī)“k-標(biāo)記集”(randomk-label sets, RAKEL)多標(biāo)記分類方法。作者首先基于BR轉(zhuǎn)化策略將多標(biāo)記數(shù)據(jù)轉(zhuǎn)化為多個(gè)二分類數(shù)據(jù);然后運(yùn)用卡方檢驗(yàn)得出每個(gè)二分類數(shù)據(jù)的特征排序;最后運(yùn)用融合策略選出最終的特征子集,有效提高了RAKEL算法的分類效率。

      文獻(xiàn)[15]分別應(yīng)用BR和LP策略對(duì)多標(biāo)記數(shù)據(jù)進(jìn)行轉(zhuǎn)換,運(yùn)用信息增益和ReliefF度量對(duì)特征進(jìn)行評(píng)價(jià),并給出了4種算法的對(duì)比結(jié)果,分析了不同算法和不同度量的優(yōu)勢(shì)與缺點(diǎn)。

      1.3 非轉(zhuǎn)化多標(biāo)記特征選擇

      將多標(biāo)記數(shù)據(jù)轉(zhuǎn)化為單標(biāo)記數(shù)據(jù),再運(yùn)用已有特征選擇方法對(duì)轉(zhuǎn)化后的單標(biāo)記數(shù)據(jù)進(jìn)行特征選擇,轉(zhuǎn)化過(guò)程往往會(huì)造成一些信息的損失或轉(zhuǎn)化本身會(huì)存在一些問(wèn)題,直接對(duì)多標(biāo)記數(shù)據(jù)進(jìn)行特征選擇是一種更加自然的方法[16-22]。這類方法主要思想是運(yùn)用或構(gòu)建多元變量相關(guān)性度量或借助一些矩陣稀疏化方法等。

      文獻(xiàn)[16]首次將ReliefF算法應(yīng)用于多標(biāo)記特征選擇。文獻(xiàn)[17]對(duì)ReliefF度量進(jìn)行改進(jìn)以便適用于多標(biāo)記特征選擇,該方法不同于上面所介紹的轉(zhuǎn)化類方法,不需要將多標(biāo)記數(shù)據(jù)轉(zhuǎn)化為單標(biāo)記數(shù)據(jù),而是引入漢明距離作為樣本之間不相似性度量,去計(jì)算樣本之間的最近鄰樣本,進(jìn)而使ReliefF算法能有效對(duì)多標(biāo)記數(shù)據(jù)進(jìn)行特征選擇。

      文獻(xiàn)[18]提出一種基于多元互信息多標(biāo)記特征選擇(pairwise multivariate mutual information, PMU)算法,該方法首先給出了高維聯(lián)合熵的近似計(jì)算方法;然后運(yùn)用多元互信息度量特征子集與標(biāo)記集之間的相關(guān)性,運(yùn)用前向貪心策略對(duì)特征進(jìn)行排序,并根據(jù)給定選擇特征個(gè)數(shù)獲得了對(duì)應(yīng)的特征子集。

      文獻(xiàn)[19]提出一種快速多標(biāo)記特征選擇算法,首先從理論上分析了PMU算法中基于互信息的特征得分函數(shù)具有較高時(shí)間復(fù)雜度,提出三種加速策略:丟棄得分函數(shù)中非必要計(jì)算項(xiàng);重用預(yù)計(jì)算熵項(xiàng);識(shí)別有效標(biāo)記對(duì)。實(shí)驗(yàn)展示了該算法相比于其他多標(biāo)記特征選擇算法具有更高效率。

      文獻(xiàn)[20]提出一種新的基于互信息的多標(biāo)記特征選擇算法,定義了一種新的得分函數(shù),相比于PMU中只考慮二階交叉信息,該函數(shù)能夠考慮任意程度的交叉信息。文中也從理論上分析了考慮低階交叉信息的得分函數(shù)為何可以獲得有效的特征子集,實(shí)驗(yàn)結(jié)果也表明考慮高階交叉信息的得分函數(shù)反而具有較高計(jì)算成本和更低的分類性能。

      PMU算法在處理大規(guī)模多標(biāo)記時(shí),會(huì)隨標(biāo)記規(guī)模增加而不能很好地考慮特征間的冗余性,很容易引入冗余特征。文獻(xiàn)[21]給出一種新的特征度量準(zhǔn)則,有效避免處理大規(guī)模標(biāo)記時(shí),偏重于考慮最大化相關(guān)性,而不能很好地考慮最小冗余性的問(wèn)題,提出了一種處理大規(guī)模標(biāo)記的多標(biāo)記特征選擇。與傳統(tǒng)的多標(biāo)記特征選擇方法相比,該方法在處理大規(guī)模多標(biāo)記數(shù)據(jù)時(shí)取得了更好的效果。

      文獻(xiàn)[22]基于帕累托優(yōu)勢(shì)概念提出一種快速的多標(biāo)記特征選擇算法,將多標(biāo)記特征選擇問(wèn)題作為多目標(biāo)優(yōu)化問(wèn)題,首先運(yùn)用對(duì)稱不確定性(symmetrical uncertainty, SU)度量每個(gè)特征與每個(gè)標(biāo)記的相關(guān)性,依據(jù)帕累托優(yōu)勢(shì)概念,特征集被劃分為可支配特征集和非支配特征集,將非支配特征集作為約簡(jiǎn)子集。

      現(xiàn)有的多標(biāo)記特征選擇方法大多屬于非轉(zhuǎn)換式方法,接下來(lái)本文會(huì)從特征選擇過(guò)程與學(xué)習(xí)器的聯(lián)系角度進(jìn)行更多的介紹。

      1.4 各類方法對(duì)比

      無(wú)論是基于轉(zhuǎn)化還是直接的多標(biāo)記特征選擇,都在一定程度上降低了特征維度,提高了算法的效率和精度。為了更好地闡述這些方法,表3對(duì)各類方法的優(yōu)缺點(diǎn)進(jìn)行了詳細(xì)介紹。

      2 特征選擇過(guò)程與學(xué)習(xí)器的聯(lián)系

      考慮到多標(biāo)記特征選擇是否依賴于特定學(xué)習(xí)器,多標(biāo)記特征選擇算法可分為:過(guò)濾式(filter)、包裹式(wrapper)、嵌入式(embed)。

      2.1 過(guò)濾式多標(biāo)記特征選擇

      過(guò)濾式多標(biāo)記特征選擇不依賴具體學(xué)習(xí)器,過(guò)濾式方法一般分為兩類:第1類方法是選擇合適的評(píng)價(jià)指標(biāo)度量每個(gè)特征關(guān)于標(biāo)記集的重要性,得出特征排序,根據(jù)預(yù)先設(shè)定的最小閾值或特征個(gè)數(shù),選出對(duì)應(yīng)特征子集;第2類方法是選擇合適的評(píng)價(jià)指標(biāo),運(yùn)用相應(yīng)的搜索策略選出一個(gè)特征子集,無(wú)須預(yù)先設(shè)定最小閾值或特征個(gè)數(shù)。

      表3 LP_MLFS、BR_MLFS、Direct_MLFS方法對(duì)比Table 3 The comparison of LP_MLFS、BR_MLFS、Direct_MLFS

      第1類方法關(guān)鍵在于特征排序的好壞,且需要預(yù)先設(shè)定所選特征個(gè)數(shù),這類方法常用評(píng)價(jià)標(biāo)準(zhǔn)主要有卡方、信息增益、互信息等。具體一些方法如下。

      文獻(xiàn)[23]基于信息增益提出了一種多標(biāo)記特征選擇方法,該方法首先計(jì)算每個(gè)特征和標(biāo)記集之間的信息增益大小,以此度量每個(gè)特征的重要度;然后給定最小重要度閾值,進(jìn)而選出特征子集。

      文獻(xiàn)[24]基于最大相關(guān)性最小冗余性(minimum redundancy maximum relevancy,mRMR)原則提出一種新的多標(biāo)記特征選擇方法,該方法運(yùn)用互信息分別度量候選特征與標(biāo)記集之間的相關(guān)性、候選特征與已選特征之間的冗余性,然后基于mRMR原則給出最終特征重要性度量。根據(jù)預(yù)先設(shè)定要選擇的特征個(gè)數(shù),運(yùn)用所定義度量基于前向增量式搜索策略選出特征子集。該方法充分地考慮了特征之間的冗余性,剔除了更多的冗余特征。

      文獻(xiàn)[25]基于鄰域互信息提出一種多標(biāo)記過(guò)濾式特征選擇方法,該方法從最大、平均、最小三個(gè)不同粒度的樣本間隔定義了三種多標(biāo)記鄰域互信息,同樣根據(jù)預(yù)先設(shè)定特征子集個(gè)數(shù),選出合適的特征子集。相比于已有基于互信息的多標(biāo)記特征選擇方法,該方法最大優(yōu)勢(shì)在于處理數(shù)值型數(shù)據(jù)時(shí)無(wú)須進(jìn)行離散化處理,避免了離散化所帶來(lái)的信息損失。

      第2類方法可直接選出特征子集,無(wú)須預(yù)先設(shè)定特征個(gè)數(shù),這類方法主要基于粒計(jì)算理論,具體的特征評(píng)價(jià)標(biāo)準(zhǔn)有依賴度、鄰域依賴度、模糊依賴度和辨識(shí)能力等,主要方法有互補(bǔ)屬性約簡(jiǎn)、基于變精度粗糙集的多標(biāo)記特征選擇、基于鄰域粗糙集的多標(biāo)記特征選擇、基于模糊粗糙集的多標(biāo)記特征選擇等。

      文獻(xiàn)[26]基于粗糙集理論構(gòu)建了多標(biāo)記可變精度屬性約簡(jiǎn)方法,稱為δ-置信度約簡(jiǎn),它可以正確捕獲標(biāo)簽間隱含的不確定性。此外,還引入了與δ-置信度約簡(jiǎn)相關(guān)的可分辨矩陣,基于可分辨矩陣來(lái)計(jì)算δ-置信度約簡(jiǎn),進(jìn)而得出多標(biāo)記決策表的約簡(jiǎn)子集。該方法在理論和應(yīng)用方面都具有重要意義。

      文獻(xiàn)[27]針對(duì)多標(biāo)記分類任務(wù),運(yùn)用粗糙集理論系統(tǒng)分析了標(biāo)記的不確定性,提出了保持標(biāo)記不確定性不變的多標(biāo)記特征選擇方法。首先通過(guò)分析表明經(jīng)典粗糙集中的依賴度并不能有效度量標(biāo)記的不確定性;然后從標(biāo)記不確定角度構(gòu)建了多標(biāo)記粗糙集模型,定義粗糙決策函數(shù)表示樣本可能具有的標(biāo)記集,細(xì)致決策函數(shù)表示樣本確定具有的標(biāo)記集,并結(jié)合這兩種決策函數(shù)定義了特征的依賴度函數(shù),提出了一種啟發(fā)式多標(biāo)記特征選擇算法,即互補(bǔ)決策約簡(jiǎn)(complementary decision reduct, CDR)。CDR具有很強(qiáng)的理論保證,可以直接處理多標(biāo)記數(shù)據(jù),實(shí)驗(yàn)也展示了該方法的優(yōu)越性。

      文獻(xiàn)[28]針對(duì)多標(biāo)記分類任務(wù),構(gòu)建了多標(biāo)記鄰域粗糙集模型,給出新的下近似定義去刻畫(huà)特征對(duì)于標(biāo)記集的分類能力,設(shè)計(jì)了一種啟發(fā)式多標(biāo)記特征選擇算法。算法基于鄰域關(guān)系,因此可以直接對(duì)數(shù)值型多標(biāo)記數(shù)據(jù)進(jìn)行特征選擇,而無(wú)須進(jìn)行離散化。文中在5個(gè)數(shù)值型多標(biāo)記數(shù)據(jù)上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了該算法的有效性。

      文獻(xiàn)[29]從標(biāo)記關(guān)系出發(fā)對(duì)多標(biāo)記數(shù)值型數(shù)據(jù)進(jìn)行特征選擇,首先定義了屬性-標(biāo)記矩陣概念;然后運(yùn)用標(biāo)記集上的模糊相似關(guān)系去刻畫(huà)標(biāo)記關(guān)系,給出了新的模糊上下近似、依賴度定義,并設(shè)計(jì)了一種前向啟發(fā)式多標(biāo)記特征選擇算法。該方法將標(biāo)記關(guān)系引入到多標(biāo)記特征選擇中,并從理論上分析了標(biāo)記關(guān)系隨屬性集的粒度變化,實(shí)驗(yàn)驗(yàn)證了挖掘標(biāo)記關(guān)系在多標(biāo)記特征選擇中的有效性。

      文獻(xiàn)[30]提出一種新的模糊粗糙集模型用于多標(biāo)記特征選擇。文中指出運(yùn)用模糊粗糙集對(duì)多標(biāo)記進(jìn)行特征分析的瓶頸在于難以找到目標(biāo)樣本的真正異類樣本,這直接影響模糊上下近似的魯棒性。文中首先定義每個(gè)樣本的得分向量,以評(píng)估相對(duì)于目標(biāo)樣本而言是異類樣本的概率;然后利用局部采樣來(lái)構(gòu)造樣本之間的穩(wěn)健距離。文中定義了候選屬性的重要度度量,并設(shè)計(jì)了一種貪心前向特征選擇算法,實(shí)驗(yàn)驗(yàn)證了該算法的有效性。

      文獻(xiàn)[31]從樣本和標(biāo)記兩個(gè)角度共同去刻畫(huà)特征的區(qū)分能力。針對(duì)多標(biāo)記特征選擇任務(wù),對(duì)模糊粗糙集框架下的模糊辨識(shí)關(guān)系重新定義,利用最大樣本模糊辨識(shí)度量特征可區(qū)分的樣本對(duì)個(gè)數(shù),和最大標(biāo)記模糊辨識(shí)度量特征可區(qū)分的樣本對(duì)所對(duì)應(yīng)的標(biāo)記個(gè)數(shù),引入調(diào)和系數(shù)將兩種度量結(jié)合,設(shè)計(jì)了一種新的啟發(fā)式多標(biāo)記特征選擇算法。文中從兩個(gè)不同的角度度量特征的區(qū)分能力,可以在保持或提高分類性能的基礎(chǔ)上有效降低特征維度。

      2.2 包裹式多標(biāo)記特征選擇

      包裹式多標(biāo)記特征選擇方法主要思想是從特征集合中選擇可使學(xué)習(xí)器性能最佳的特征子集。由于特征子集組合種類隨特征個(gè)數(shù)增加而指數(shù)性增長(zhǎng),因此從所有特征組合中進(jìn)行搜索是一個(gè)NP-hard問(wèn)題。為此一般會(huì)選取一些時(shí)間復(fù)雜度低的搜索策略,例如啟發(fā)式策略或是演化算法等。

      文獻(xiàn)[32]提出了基于樸素貝葉斯的多標(biāo)記分類(multi-label naive bayes classification, MLNB)算法。為了提高算法的效率,文中首先運(yùn)用主成分分析法(principal component analysis, PCA)進(jìn)行特征抽取,在降維后的數(shù)據(jù)上將MLNB作為包裹式分類器,排序損失RankLoss和漢明損失HammingLoss作為適應(yīng)度函數(shù),運(yùn)用遺傳算法搜索策略對(duì)多標(biāo)記數(shù)據(jù)進(jìn)行特征選擇。

      文獻(xiàn)[33]首次將文化基因算法(memetic algorithm)應(yīng)用到多標(biāo)記特征選擇方法中,統(tǒng)一了多標(biāo)記特征選擇與局部?jī)?yōu)化設(shè)計(jì)有關(guān)的特定問(wèn)題,解決了關(guān)于染色體進(jìn)行選擇的局部?jī)?yōu)化問(wèn)題。考慮到計(jì)算成本隨特征和標(biāo)記個(gè)數(shù)指數(shù)性增長(zhǎng),文中運(yùn)用近似互信息降低增加操作(add operation,ADD)和刪除操作(delete operation, DEL)的計(jì)算負(fù)擔(dān)。相比于基于遺傳算法的特征選擇,該方法可有效防止過(guò)早收斂,并提高了計(jì)算效率。

      文獻(xiàn)[34]將多標(biāo)記特征選擇作為一種多目標(biāo)優(yōu)化問(wèn)題,其目的是尋找一組帕累托非支配解。文中運(yùn)用改進(jìn)的多目標(biāo)粒子群算法進(jìn)行優(yōu)化,采用概率編碼運(yùn)算符表示粒子,將漢明損失(HammingLoss)和特征數(shù)量作為算法的適應(yīng)度函數(shù)。為保證粒子群優(yōu)化(particle swarm optimization, PSO)算法能夠收斂到帕累托前沿,采用自適應(yīng)均勻變異來(lái)擴(kuò)展所提算法的搜索能力;為提高算法的性能,文中也設(shè)計(jì)了一種基于差分學(xué)習(xí)的局部研究策略來(lái)探索搜索空間稀疏區(qū)域。

      針對(duì)基于進(jìn)化算法(evolutionary algorithm, EA)的多標(biāo)記特征選擇,文獻(xiàn)[35]首次提出一種無(wú)參種群初始化方法,該方法可以作為進(jìn)化算法的預(yù)處理。文中首先引入條件互信息,設(shè)計(jì)了一種得分函數(shù)計(jì)算每個(gè)特征的重要度,進(jìn)而生成初始種群;然后將生成的種群作為基于EA的多標(biāo)記特征選擇方法的輸入。該方法提高了傳統(tǒng)基于EA的多標(biāo)記選擇方法的分類性能。

      2.3 嵌入式多標(biāo)記特征選擇

      在嵌入式特征選擇中,學(xué)習(xí)器訓(xùn)練與特征選擇在同一個(gè)優(yōu)化框架內(nèi)完成,兩者不可獨(dú)立,一般嵌入式多標(biāo)記特征選擇式方法可分為兩類:一類為基于樹(shù)模型的特征選擇方法,樹(shù)節(jié)點(diǎn)的劃分特征所組成的集合就是選擇出的特征子集;另一類是在回歸模型中引入懲罰項(xiàng)進(jìn)行特征選擇,基于不同的假設(shè),一般的方法是使用l2,1或l1范數(shù)對(duì)模型進(jìn)行正則化。

      文獻(xiàn)[36]提出了基于樹(shù)模型的多標(biāo)記特征選擇方法(multi-label C4.5, ML C4.5),該方法中首先訓(xùn)練多標(biāo)記分類樹(shù)模型;然后基于樹(shù)頂端特征分類能力強(qiáng)、樹(shù)底端特征分類能力弱的原則,選擇出合適的特征子集,該方法在訓(xùn)練分類模型的同時(shí)選出了合適的特征子集。

      文獻(xiàn)[37]提出了一種凸半監(jiān)督多標(biāo)記特征選擇算法。文中首先將未標(biāo)記數(shù)據(jù)的標(biāo)記初始化為零,選用最小二乘損失函數(shù)和l2,1正則項(xiàng)進(jìn)行模型訓(xùn)練和稀疏特征選擇;之后,將置信度高的未標(biāo)記訓(xùn)練數(shù)據(jù)保存,并在下一輪迭代中將其視為已標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練;最后,將獲得的稀疏系數(shù)矩陣用于特征選擇。該方法可以有效運(yùn)用未標(biāo)記數(shù)據(jù)進(jìn)行特征選擇,與現(xiàn)有的涉及特征分解的多標(biāo)記特征選擇算法不同,該算法只需要解決幾個(gè)線性方程組。因此可應(yīng)用于大規(guī)模多標(biāo)記數(shù)據(jù)。

      文獻(xiàn)[38]提出了一種基于l2,1范數(shù)正則化的多標(biāo)記特征選擇,該方法考慮了標(biāo)記相關(guān)性,為避免原始標(biāo)記空間噪音干擾,首先運(yùn)用矩陣壓縮的方法將原始標(biāo)記空間壓縮到一個(gè)低維空間;然后在壓縮后的標(biāo)記空間上構(gòu)建回歸模型,基于l2,1范數(shù)行式稀疏的性質(zhì)構(gòu)建了一種嵌入式多標(biāo)記特征選擇。

      文獻(xiàn)[39]針對(duì)多標(biāo)記學(xué)習(xí)提出一種基于流形正則化判別式特征選擇(manifold regularized discriminative feature selection, MDFS)算法,MDFS結(jié)合流行假設(shè),首先誘導(dǎo)出與原始特征空間具有相同局部結(jié)構(gòu)的低維嵌入,引入線性映射函數(shù)去構(gòu)建原始特征與低維嵌入之間的聯(lián)系;考慮到標(biāo)記之間的共現(xiàn)關(guān)系,MDFS引入標(biāo)記流行正則化去捕獲全局標(biāo)記關(guān)系;最后引入l2,1范數(shù)正則化實(shí)現(xiàn)特征選擇。實(shí)驗(yàn)驗(yàn)證了MDFS具有較好的效果,引入標(biāo)記相關(guān)性使MDFS的性能有了總體提高。

      2.4 三種方法優(yōu)缺點(diǎn)對(duì)比

      以上分別介紹了過(guò)濾式、包裹式、嵌入式的關(guān)鍵思想和代表方法,為更好地認(rèn)識(shí)各類方法,表4給出了各類方法優(yōu)缺點(diǎn)的具體描述。

      表4 過(guò)濾式、包裹式和嵌入式方法對(duì)比Table 4 The comparison of filter, wrapper and embedded

      3 不同標(biāo)記共享特征子集的程度

      多標(biāo)記學(xué)習(xí)中每個(gè)標(biāo)記具有不同的語(yǔ)義,因此每個(gè)標(biāo)記可能對(duì)應(yīng)不同的特征描述。針對(duì)多標(biāo)記特征選擇,從不同標(biāo)記共享特征子集的程度,存在三種不同假設(shè):1) 所有標(biāo)記共享相同特征子集;2) 不同的標(biāo)記享有不同的特征子集;3) 將標(biāo)記依據(jù)某種度量劃分為多個(gè)標(biāo)記粒,同一個(gè)粒內(nèi)的標(biāo)記享有相同的特征子集,不同粒內(nèi)的標(biāo)記享有不同特征子集?;谶@三種不同假設(shè),多標(biāo)記特征選擇算法可分為三類:標(biāo)記共享式、標(biāo)記專屬式、標(biāo)記?;?。

      3.1 標(biāo)記共享式

      標(biāo)記共享式多標(biāo)記特征選擇方法,假設(shè)所有標(biāo)記共享相同特征子集,圖1給出標(biāo)記共享方法的直觀示意。

      3.2 標(biāo)記專屬式

      標(biāo)記專屬式多標(biāo)記特征選擇方法,考慮到每個(gè)標(biāo)記應(yīng)有不同刻畫(huà),對(duì)每個(gè)標(biāo)記單獨(dú)進(jìn)行特征選擇,選出每個(gè)標(biāo)記專屬特征子集,在圖2給出標(biāo)記專屬式方法的直觀示意。

      文獻(xiàn)[40]首次提出了標(biāo)記專屬特征的概念,認(rèn)為每個(gè)標(biāo)記具有其自身的特征,稱這些特征為專屬特征。文章提出了一種基于專屬特征的多標(biāo)記學(xué)習(xí)(multi-label learning with label specific features, LIFT)算法。LIFT首先對(duì)每個(gè)標(biāo)記的正負(fù)類樣本分別聚類,利用聚類結(jié)果分析得出每個(gè)標(biāo)記的專屬特征;然后利用專屬特征對(duì)每個(gè)標(biāo)記訓(xùn)練一個(gè)二分類模型。LIFT利用專屬特征更好地刻畫(huà)了每一個(gè)標(biāo)記概念,取得了不錯(cuò)的分類效果。

      LIFT專屬特征的構(gòu)建往往會(huì)增加特征維度,且在特征空間中存在大量冗余特征。為了解決這種問(wèn)題,文獻(xiàn)[41]提出一種基于模糊粗糙集的多標(biāo)記專屬特征選擇(label-specific feature reduction with fuzzy rough set, FRS-LIFT)算法。同LIFT方法一樣,該方法首先對(duì)每個(gè)標(biāo)記構(gòu)建其專屬特征;然后,對(duì)每個(gè)標(biāo)記的專屬特征運(yùn)用模糊粗糙集進(jìn)行約簡(jiǎn)。為提高特征選擇效率,文中也引入樣本選擇對(duì)數(shù)據(jù)進(jìn)行壓縮。與LIFT相比,該方法有效降低了特征維度,提高了算法效率,獲得了不錯(cuò)的分類效果。

      考慮到LIFT獲得的專屬特征不具有好的解釋性或?qū)嶋H物理意義,且LIFT運(yùn)用k-means聚類算法學(xué)習(xí)標(biāo)記的專屬特征,因此只能處理數(shù)值型多標(biāo)記數(shù)據(jù)。文獻(xiàn)[42]基于粗糙集理論提出一種新的專屬特征學(xué)習(xí)算法(R-LIFT), R-LIFT運(yùn)用正域約簡(jiǎn)獲得每個(gè)標(biāo)記的特征子集,將其作為標(biāo)記的專屬特征。R-LIFT基于粗糙集理論,無(wú)須引入?yún)?shù),所獲得的標(biāo)記專屬特征具有很好的解釋性。

      文獻(xiàn)[43-44]提出一種嵌入式標(biāo)記專屬特征學(xué)習(xí)算法(learning label specific features, LLSF),并引入高階標(biāo)記相關(guān)性的改進(jìn)算法(learning label specific features by learning class-dependent labels, LLSF-DL)。文中運(yùn)用矩陣l1范數(shù)稀疏正則化進(jìn)行特征選擇,通過(guò)對(duì)稀疏向量之間內(nèi)積進(jìn)行約束和堆棧的方式引入二階和高階標(biāo)記相關(guān)性,運(yùn)用加速近端梯度法對(duì)模型進(jìn)行優(yōu)化。LLSF和LLSF-DL可以直接用于多標(biāo)記分類,也可將所得到的特征作為一些二元相關(guān)分類方法的輸入。

      文獻(xiàn)[45]在LLSF的基礎(chǔ)上構(gòu)建了一種新的嵌入式多標(biāo)記專屬特征選擇算法(joint feature selection and classification for multilabel learning, JFSC),該方法同LLSF相同之處在于,都在回歸框架下引入矩陣l1范數(shù)稀疏正則化學(xué)習(xí)標(biāo)記專屬特征,并在學(xué)習(xí)到的標(biāo)記專屬特征上構(gòu)建多標(biāo)記分類器。不同之處在于,JFSC結(jié)合判別分析的思想,引入Fisher判別式正則項(xiàng)去最大化類間方差和最小化類內(nèi)方差,文中通過(guò)實(shí)驗(yàn)證明了利用標(biāo)記相關(guān)性和學(xué)習(xí)標(biāo)記專屬特征對(duì)多標(biāo)簽學(xué)習(xí)的有效性。

      文獻(xiàn)[46]同時(shí)考慮標(biāo)記相關(guān)性和標(biāo)記專屬特征,提出一種新的多標(biāo)記學(xué)習(xí)方法。該方法通過(guò)增加額外特征引入標(biāo)記相關(guān)性,運(yùn)用矩陣l1范數(shù)稀疏正則化學(xué)習(xí)標(biāo)記專屬特征。標(biāo)記關(guān)系和回歸系數(shù)均作為未知變量,作為兩個(gè)子問(wèn)題交替優(yōu)化,回歸系數(shù)的優(yōu)化是非光滑凸優(yōu)化問(wèn)題,文中采用近端梯度法。測(cè)試數(shù)據(jù)則先采用k最近鄰(k-nearest neighbor, KNN)獲得標(biāo)記關(guān)系,再對(duì)其分類。

      3.3 標(biāo)記?;?/h3>

      標(biāo)記粒化式多標(biāo)記特征選擇方法,考慮了標(biāo)記之間的相關(guān)性,相關(guān)性強(qiáng)的標(biāo)記之間應(yīng)該具有相同特征子集,反之相關(guān)性弱的標(biāo)記應(yīng)該具有不同特征子集,圖3給出了標(biāo)記粒化式多標(biāo)記特征選擇算法的直觀示意。

      圖1 共享式示意圖Figure 1 The display of label-shared

      圖2 專屬式示意圖Figure 2 The display of label-specific

      圖3 ?;绞疽鈭DFigure 3 The display of label-granulated

      文獻(xiàn)[47]基于粒計(jì)算思想首次將標(biāo)記?;\(yùn)用到多標(biāo)記特征選擇中,指出并非全部標(biāo)記之間存在強(qiáng)的相關(guān)性,某個(gè)標(biāo)記重要的特征可能反而會(huì)降低其他標(biāo)記的分類性能,因此所有標(biāo)記共享同一個(gè)特征子集不太合理;而標(biāo)記的專屬特征選擇方法,在選擇每個(gè)標(biāo)記類屬特征時(shí)并未考慮其他標(biāo)記信息,并且處理大規(guī)模標(biāo)記時(shí),往往需要多次特征選擇和訓(xùn)練多個(gè)學(xué)習(xí)器,效率低下。文獻(xiàn)[47]為解決這兩類方法所存在問(wèn)題,提出了一種基于互信息的粒化多標(biāo)記特征選擇方法。算法分為三步:首先運(yùn)用平衡聚類將標(biāo)記集?;揭幌盗袠?biāo)記粒,進(jìn)而考慮了標(biāo)記關(guān)系;然后對(duì)每個(gè)標(biāo)記?;谧畲笙嚓P(guān)性最小冗余性原則進(jìn)行特征選擇;最后對(duì)每個(gè)標(biāo)記粒利用所選特征子集訓(xùn)練分類模型。該方法首次將標(biāo)記?;乃枷脒\(yùn)用到多標(biāo)記特征選擇中,為多標(biāo)記特征選擇提供了一個(gè)新視角。

      文獻(xiàn)[48]提出一種新的多標(biāo)記特征選擇方法,基于粒計(jì)算理論,首先定義了一種基本元素用于刻畫(huà)每個(gè)標(biāo)記和特征的內(nèi)在聯(lián)系,根據(jù)標(biāo)記之間基本元素集合的重疊程度,度量標(biāo)記的相關(guān)性并計(jì)算對(duì)應(yīng)判別矩陣,將相關(guān)性強(qiáng)的標(biāo)記劃分到同一個(gè)標(biāo)記組,同時(shí)局部和全局標(biāo)記關(guān)系被計(jì)算;然后對(duì)每個(gè)標(biāo)記組分別進(jìn)行特征選擇;最后對(duì)每個(gè)標(biāo)記組運(yùn)用所選特征子集訓(xùn)練分類模型,該方法取得了不錯(cuò)的分類效果。

      3.4 三種方法優(yōu)缺點(diǎn)對(duì)比

      以上分別從標(biāo)記的特征子集共享程度出發(fā),分別介紹了標(biāo)記共享式、標(biāo)記粒化式、標(biāo)記專屬式三類多標(biāo)記特征選擇的核心思想和一些方法。為更好地認(rèn)識(shí)各類方法的性質(zhì),表5給出了各類方法優(yōu)點(diǎn)和缺點(diǎn)的具體描述。

      表5 標(biāo)記共享式、標(biāo)記專屬式、標(biāo)記?;椒椒▽?duì)比Table 5 The comparison of label-shared, label-specific, label-granulated

      4 應(yīng)用場(chǎng)景

      根據(jù)應(yīng)用場(chǎng)景不同,多標(biāo)記特征選擇方法可分為靜態(tài)式和增量式,下面將具體介紹這兩類方法。

      4.1 靜態(tài)多標(biāo)記特征選擇

      本文前面所介紹的方法多為靜態(tài)多標(biāo)記特征選擇方法,例如文獻(xiàn)[24-25,27-29],通常這類方法假設(shè)數(shù)據(jù)集直接全部給定,其樣本、特征、特征值、標(biāo)記不會(huì)隨時(shí)間而發(fā)生改變。在數(shù)據(jù)集發(fā)生變化或更新時(shí),這類方法通常需要重新對(duì)新數(shù)據(jù)進(jìn)行特征選擇,必然會(huì)存在很多冗余計(jì)算,浪費(fèi)計(jì)算資源和時(shí)間。由于上面章節(jié)已經(jīng)介紹了很多靜態(tài)式方法,這部分不再對(duì)該類方法進(jìn)行具體介紹。

      4.2 增量式多標(biāo)記特征選擇

      在實(shí)際應(yīng)用場(chǎng)景中,多標(biāo)記數(shù)據(jù)的樣本、特征、特征值、標(biāo)記會(huì)隨時(shí)間發(fā)生改變。對(duì)于更新后數(shù)據(jù)重新進(jìn)行特征選擇必然會(huì)存在冗余計(jì)算,怎樣有效利用已獲得的特征子集及引入動(dòng)態(tài)更新機(jī)制已成為多標(biāo)記特征選擇的研究熱點(diǎn)之一,目前已有一些相關(guān)方法被提出[49-55]。

      流標(biāo)記[49]:一般的多標(biāo)記特征選擇方法假設(shè)標(biāo)記概念全部給定,但是現(xiàn)實(shí)領(lǐng)域中往往存在標(biāo)記隨著時(shí)間逐步加入的現(xiàn)象。例如圖像標(biāo)注領(lǐng)域,由于標(biāo)注需求的改變可能會(huì)引入新的標(biāo)注概念;社交網(wǎng)絡(luò)中,熱門(mén)話題標(biāo)簽每天也在不斷變化。

      文獻(xiàn)[49]首次提出多標(biāo)記流標(biāo)記特征選擇算法(multi-label feature selection with streaming labels, MLFSL),其思想是結(jié)合最大相關(guān)性最小冗余性原則和互信息度量獲得每個(gè)新標(biāo)記的特征排序列表;然后運(yùn)用一個(gè)優(yōu)化框架獲得最終特征排序列表。無(wú)論是在標(biāo)記空間固定還是在流標(biāo)記實(shí)驗(yàn)設(shè)置下,MLFSL方法都取得了不錯(cuò)的效果。文獻(xiàn)[50]基于類間區(qū)分和類內(nèi)鄰居識(shí)別策略提出一種新的多標(biāo)記流標(biāo)記特征選擇(feature selection for multi-label learning with streaming label, FSSL)方法,該方法可以有效獲得每個(gè)標(biāo)記的專屬特征,并定義一種新的融合策略獲得最終的特征子集。相比靜態(tài)多標(biāo)記特征選擇算法以及流標(biāo)記特征選擇算法,F(xiàn)SSL獲得了更優(yōu)越的性能,但是這些方法仍未將標(biāo)記關(guān)系引入到特征選擇中。

      流特征[51]:一般的多標(biāo)記特征選擇方法假設(shè)特征全部給定,但是現(xiàn)實(shí)領(lǐng)域往往存在訓(xùn)練樣本數(shù)保持不變而特征維度隨時(shí)間逐步增加的現(xiàn)象,這種現(xiàn)象稱為多標(biāo)記流特征。大量現(xiàn)實(shí)應(yīng)用領(lǐng)域存在流特征現(xiàn)象,如垃圾郵件過(guò)濾中,往往會(huì)設(shè)置敏感詞庫(kù)用于判斷當(dāng)前郵件是否為垃圾郵件,而敏感詞庫(kù)中的詞匯會(huì)逐漸增加。傳統(tǒng)的靜態(tài)多標(biāo)記特征選擇算法已不能有效解決流特征問(wèn)題。

      文獻(xiàn)[51]基于模糊互信息設(shè)計(jì)了特征完全已知或動(dòng)態(tài)增加的多標(biāo)記特征選擇算法。文中首先給出樣本在標(biāo)記空間的相似性度量,以便計(jì)算特征和標(biāo)記之間的模糊互信息。然后基于最大相關(guān)性最小冗余性原則,構(gòu)建了一種特征空間完全已知的多標(biāo)記特征選擇算法。文中也構(gòu)建了多標(biāo)記流特征選擇(multi-label streaming feature selection, MSFS)算法,MSFS具體分為兩個(gè)主要步驟:在線相關(guān)性分析、在線冗余性分析。MSFS是首個(gè)多標(biāo)記流特征選擇方法,可以選擇少量的特征來(lái)訓(xùn)練更強(qiáng)的模型。文獻(xiàn)[52]基于鄰域粗糙集模型提出一種多標(biāo)記流特征選擇算法。

      文獻(xiàn)[53]提出動(dòng)態(tài)滑動(dòng)窗口加權(quán)互信息流特征選擇,首先引入互補(bǔ)概率定義了一種新的模糊信息熵;然后運(yùn)用滑動(dòng)窗口策略,分別設(shè)計(jì)了窗口大小固定和窗口大小自適應(yīng)的多標(biāo)記特征選擇算法。文獻(xiàn)[54]同時(shí)考慮流特征和標(biāo)記分布問(wèn)題,基于粗糙集理論提出一種新的多標(biāo)記特征選擇算法。

      文獻(xiàn)[55]提出一種在線多標(biāo)記組特征選擇(online multi-label group feature selection, OMGFS)算法,其面向特征隨時(shí)間分組加入的場(chǎng)景由兩階段組成:在線組選擇和在線組間選擇。在線組選擇主要判斷新加入特征組是否應(yīng)該添加到存儲(chǔ)相關(guān)特征的緩沖池中。在線組間選擇主要用于剔除緩沖池和已選特征中的冗余特征。OMGFS考慮了多標(biāo)記問(wèn)題中特征分組加入的場(chǎng)景,其對(duì)于多標(biāo)記特征選擇在動(dòng)態(tài)環(huán)境下的研究具有重要意義。

      5 進(jìn)一步研究方向

      多標(biāo)記特征選擇可以有效解決多標(biāo)記特征維度災(zāi)難,盡管已有大量多標(biāo)記特征選擇方法被提出,但仍然存在一些問(wèn)題值得我們深入研究。

      5.1 標(biāo)記關(guān)系在多標(biāo)記特征選擇中的作用

      標(biāo)記關(guān)系蘊(yùn)含大量重要信息,已有許多研究將標(biāo)記關(guān)系引入到多標(biāo)記學(xué)習(xí)中,也有一些工作將標(biāo)記關(guān)系引入到特征選擇。即使有大量對(duì)于標(biāo)記關(guān)系的研究,但是對(duì)于特征選擇與標(biāo)記關(guān)系的結(jié)合方式研究仍然很少,雖然有一些探索性工作,例如對(duì)標(biāo)記空間?;蚍纸M[47-48],但是這些方法仍然存在粒度個(gè)數(shù)不確定等問(wèn)題。因此怎樣引入標(biāo)記關(guān)系到多標(biāo)記特征選擇中仍然是一個(gè)挑戰(zhàn)。

      5.2 多標(biāo)記特征選擇的效率和搜索策略

      對(duì)于過(guò)濾式多標(biāo)記特征選擇方法,直接計(jì)算各個(gè)特征重要度得出特征排序,這種方法不能有效考慮特征之間的冗余性。即使運(yùn)用貪心搜索策略可以在一定程度上考慮特征之間的冗余性,但這種方法需要多次對(duì)特征排序,時(shí)間復(fù)雜度很高,且得到的不一定是最優(yōu)特征子集。包裹式多標(biāo)記特征選擇算法同樣存在這種問(wèn)題。因此,運(yùn)用更高效的搜索策略,設(shè)計(jì)更快的多標(biāo)記特征選擇算法依舊是未來(lái)研究的重點(diǎn)。

      5.3 弱監(jiān)督問(wèn)題下的多標(biāo)記特征選擇

      由于多標(biāo)記數(shù)據(jù)標(biāo)注概念多、標(biāo)注代價(jià)大,人工標(biāo)注往往會(huì)出現(xiàn)漏標(biāo)或錯(cuò)標(biāo)問(wèn)題,稱含有這種問(wèn)題的學(xué)習(xí)為弱監(jiān)督多標(biāo)記學(xué)習(xí)。弱監(jiān)督多標(biāo)記學(xué)習(xí)近來(lái)已受到很多學(xué)者關(guān)注,其研究具有十分重要的意義。目前,對(duì)弱監(jiān)督問(wèn)題下的多標(biāo)記特征選擇研究工作仍然很少[56-57],弱監(jiān)督問(wèn)題下的多標(biāo)記特征選擇仍是未來(lái)一項(xiàng)重要研究課題。

      5.4 多視圖問(wèn)題下的多標(biāo)記特征選擇

      多視圖多標(biāo)記學(xué)習(xí)是近來(lái)的研究熱點(diǎn)之一[58],但是同一視圖內(nèi)不同特征之間以及不同視圖不同特征之間必然存在冗余問(wèn)題,從多個(gè)視圖中選擇合適的特征子集進(jìn)行多標(biāo)記分類,可有效提高分類的性能和效率。現(xiàn)有多標(biāo)記特征選擇方法不能直接處理多視圖問(wèn)題,因此多視圖下的多標(biāo)記特征選擇仍值得深入研究。

      6 總結(jié)

      本文對(duì)多標(biāo)記特征選擇方法進(jìn)行總結(jié),從4個(gè)角度對(duì)現(xiàn)有多標(biāo)記特征選擇方法進(jìn)行歸類,闡述各類方法的關(guān)鍵思想以及代表算法,并對(duì)每類方法進(jìn)行客觀概括,最后提出了若干有價(jià)值的方向。隨著對(duì)多標(biāo)記特征選擇研究的不斷深入,無(wú)論是效率、效果還是應(yīng)用場(chǎng)景,一定會(huì)產(chǎn)生更多更好的研究成果。

      猜你喜歡
      特征選擇專屬子集
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      關(guān)于奇數(shù)階二元子集的分離序列
      母女三人的專屬空間
      解放J7專屬服務(wù)介紹
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      專屬“水晶鞋”
      Coco薇(2016年10期)2016-11-29 17:01:36
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      專屬90后的青春色彩
      Coco薇(2015年10期)2015-10-19 12:54:32
      每一次愛(ài)情都只是愛(ài)情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      通山县| 台中县| 南木林县| 汝城县| 隆昌县| 隆安县| 潮安县| 上栗县| 沧源| 新密市| 惠安县| 禹州市| 湾仔区| 长垣县| 米林县| 楚雄市| 海安县| 曲麻莱县| 瓦房店市| 开原市| 宣城市| 大厂| 黔江区| 林口县| 鹤山市| 锡林浩特市| 莆田市| 阜宁县| 化州市| 蒙自县| 右玉县| 贵溪市| 仁怀市| 都江堰市| 康马县| 绥宁县| 克什克腾旗| 搜索| 通化市| 凉城县| 庄浪县|