• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種KD樹集成偏標(biāo)記學(xué)習(xí)算法

      2019-05-25 11:26:10盧勇全劉振丙顏振翔方旭升
      關(guān)鍵詞:集上分類器標(biāo)簽

      盧勇全, 劉振丙,2, 顏振翔, 方旭升

      (1.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)

      偏標(biāo)記學(xué)習(xí)從本質(zhì)上看是屬于多類分類問題的特例。多類分類問題可以轉(zhuǎn)換為構(gòu)建多個(gè)二分類問題來解決。然而現(xiàn)有的一對(duì)多或一對(duì)一方式構(gòu)建二類基分類器的算法中,很少考慮各個(gè)類別樣本數(shù)目之間的極度不平衡問題,偏標(biāo)記學(xué)習(xí)在處理標(biāo)簽問題上已經(jīng)是個(gè)難題,加上類不平衡問題,則更加難以解決,且偏標(biāo)記樣本真實(shí)標(biāo)簽不可知,故該方法不能直接在偏標(biāo)記學(xué)習(xí)中使用。做交叉驗(yàn)證時(shí),有可能將類別少的數(shù)據(jù)集作為測(cè)試使用,從而導(dǎo)致此類別訓(xùn)練樣本缺失,若運(yùn)用標(biāo)簽劃分?jǐn)?shù)據(jù)集,則可能存在某類樣本數(shù)為0的情況,忽略此極有可能導(dǎo)致算法崩潰。如Lost[4]數(shù)據(jù)集中存在一類僅有4個(gè)樣本的數(shù)據(jù),在算法中若不對(duì)此情況進(jìn)行處理,會(huì)導(dǎo)致實(shí)驗(yàn)失敗。鑒于此,提出一種KD樹集成偏標(biāo)記學(xué)習(xí)算法(ensemble K-dimension tree for partial label learning,簡(jiǎn)稱PL-EKT),將樣本候選標(biāo)簽所攜帶的信息和樣本特征綜合利用,構(gòu)建多個(gè)二分類樣本集,采用集成學(xué)習(xí)中Stacking的方法處理偏標(biāo)記學(xué)習(xí)問題。

      1 相關(guān)工作

      偏標(biāo)記學(xué)習(xí)的難度主要是由偏標(biāo)記數(shù)據(jù)集的偽標(biāo)簽造成的[7],為此,學(xué)者們提出了一系列算法。最為直觀的方法是對(duì)偏標(biāo)記的偽標(biāo)簽進(jìn)行操作,將樣本的偽標(biāo)簽去掉,也稱為消岐操作,即辨識(shí)消岐和平均消岐[8]。辨識(shí)消岐是將偏標(biāo)記的真實(shí)標(biāo)記作為隱變量,采用迭代的方式優(yōu)化內(nèi)嵌隱變量的目標(biāo)函數(shù)實(shí)現(xiàn)消岐[8]。平均消岐是賦予偏標(biāo)記對(duì)象的各個(gè)候選標(biāo)記相同的權(quán)重,通過綜合學(xué)習(xí)模型在各候選標(biāo)記上的輸出實(shí)現(xiàn)消岐[8]。在辨識(shí)消岐中,通過基于極大似然準(zhǔn)則的方法優(yōu)化參數(shù),解決偏標(biāo)記學(xué)習(xí)問題。文獻(xiàn)[9]提出一種基于最大間隔偏標(biāo)記學(xué)習(xí)算法(PL-SVM),通過模型在Si和非Si上的最大輸出差異進(jìn)行優(yōu)化。文獻(xiàn)[10]提出了一種新的基于最大間隔的偏標(biāo)記學(xué)習(xí)算法(M3PL),直接優(yōu)化真實(shí)標(biāo)記與其他標(biāo)記的差異。在平均消岐中,文獻(xiàn)[11]提出一種代表性的惰性學(xué)習(xí)算法PL-KNN,類似KNN算法,通過距離度量的方式,根據(jù)示例的K個(gè)近鄰樣本進(jìn)行投票預(yù)測(cè)。文獻(xiàn)[12]提出了基于凸優(yōu)化的偏標(biāo)記學(xué)習(xí)算法CLPL,算法將問題轉(zhuǎn)化為多個(gè)二分類問題,通過在二類訓(xùn)練集上優(yōu)化特定的凸損失函數(shù)求解偏標(biāo)記學(xué)習(xí)問題。

      在解決偏標(biāo)記學(xué)習(xí)問題上,也有非消岐策略的方法。如文獻(xiàn)[13]提出的編碼解碼策略的輸出糾錯(cuò)編碼算法PL-ECOC,通過特定編碼和解碼方式實(shí)現(xiàn)二分類過程。在編碼階段,通過隨機(jī)生成的列編碼來劃分樣本正負(fù)集,從而構(gòu)建二分類器;在解碼階段,讓未見示例在二分類器上輸出特定長(zhǎng)度的碼字,將最接近的類別作為測(cè)試樣本的預(yù)測(cè)輸出。PALOC算法[14]、CORD算法[15]通過集成多個(gè)分類器,運(yùn)用模型投票的方法來解決偏標(biāo)記學(xué)習(xí)問題。

      KD樹(K-dimension tree)是平衡二叉樹,通過利用已有數(shù)據(jù)對(duì)K維空間進(jìn)行切分[16-17]。KD樹在進(jìn)行檢索時(shí),以目標(biāo)點(diǎn)為圓心,以目標(biāo)點(diǎn)到葉子節(jié)點(diǎn)樣本實(shí)例的距離為半徑,得到一個(gè)超球體,最近鄰的點(diǎn)一定在這個(gè)超球體內(nèi)部。然后返回葉子節(jié)點(diǎn)的父節(jié)點(diǎn),檢查另一個(gè)子節(jié)點(diǎn)包含的超矩形體是否與超球體相交,若相交,就尋找是否有與該子節(jié)點(diǎn)更近的近鄰,有的話就更新最近鄰節(jié)點(diǎn);若不相交,直接返回父節(jié)點(diǎn),在另一個(gè)子樹繼續(xù)搜索最近鄰節(jié)點(diǎn)。當(dāng)回溯到根節(jié)點(diǎn)時(shí),保存的最近鄰節(jié)點(diǎn)就是最終的最近鄰節(jié)點(diǎn)。

      集成學(xué)習(xí)通過聯(lián)合幾個(gè)模型來提高機(jī)器學(xué)習(xí)效果[18]。與單一模型相比,這種方法可以很好地提升模型的預(yù)測(cè)性能。其中Stacking是一種通過元分類器或元回歸器來綜合幾個(gè)分類模型和回歸模型的集成學(xué)習(xí)技術(shù)。基模型基于整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,元模型再將基模型的輸出作為特征進(jìn)行訓(xùn)練。

      2 KD樹集成偏標(biāo)記學(xué)習(xí)

      在訓(xùn)練階段,通過充分利用樣本的候選標(biāo)簽和樣本特征所隱藏的信息,將樣本分成正負(fù)類。其中,1表示正類,0表示負(fù)類。劃分正負(fù)類數(shù)據(jù)集后,由于偏標(biāo)記樣本屬多分類,一般情況下屬于某一類樣本的數(shù)量并不多,大部分是其他類別的樣本。在初級(jí)模型訓(xùn)練階段,為了使樣本數(shù)量均衡,以小的樣本數(shù)量為標(biāo)準(zhǔn),允許在2倍內(nèi)波動(dòng),當(dāng)出現(xiàn)某一類樣本極少時(shí),利用KD樹搜索找出特征相似的樣本進(jìn)行補(bǔ)充,保證正負(fù)兩類樣本趨于均衡。完成數(shù)據(jù)集的劃分后,先訓(xùn)練出初級(jí)分類模型,再利用初級(jí)分類模型對(duì)樣本進(jìn)行預(yù)測(cè)并投票,將初級(jí)分類器的預(yù)測(cè)值加入到原樣本中形成新樣本。運(yùn)用集成學(xué)習(xí)的Stacking方法,再次進(jìn)行分類模型的訓(xùn)練,最終完成模型的訓(xùn)練。PL-EKT算法實(shí)現(xiàn)過程如下。

      輸入:D偏標(biāo)記樣本集

      輸出:根據(jù)式(8),返回x*的預(yù)測(cè)標(biāo)簽y*

      1K:檢索KD的最近K個(gè)樣本

      2x*:未見示例

      3 輸出y*:樣本x*的預(yù)測(cè)標(biāo)簽

      5 訓(xùn)練初級(jí)分類器Hab←β(D)

      6 根據(jù)式(6)預(yù)測(cè)標(biāo)簽,根據(jù)式(7)形成新特征并加入

      在預(yù)測(cè)階段,利用初級(jí)分類模型對(duì)未見樣本進(jìn)行投票,將投票結(jié)果作為新特征加入未見示例中,最后將加入了新特征的未見示例進(jìn)行最終預(yù)測(cè)。

      按照標(biāo)簽1、0,根據(jù)

      (1)

      (2)

      (3)

      Dab={T(x1)∪T(x2)…∪T(xk)}

      (4)

      (5)

      其中l(wèi)max和lmax為設(shè)置的樣本數(shù)目閾值范圍。

      數(shù)據(jù)集均衡化過程如下:

      1)根據(jù)式(1)劃分樣本;

      2)根據(jù)式(2)處理劃分樣本集公共部分,構(gòu)建KD樹;

      5)樣本為空檢測(cè);

      6)若劃分結(jié)果不滿足式(5),則返回第2)步。

      (6)

      實(shí)現(xiàn)消岐操作。利用Hab構(gòu)建樣本新特征,

      (7)

      (8)

      其中γ為平衡因子。

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)設(shè)置

      本次實(shí)驗(yàn)分別在UCI人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集2類不同數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。表2為2組人工UCI偏標(biāo)記數(shù)據(jù)集的特性,表3為4組真實(shí)偏標(biāo)記數(shù)據(jù)集的特性。

      表2 UCI數(shù)據(jù)集特性

      表3 真實(shí)數(shù)據(jù)集特性

      3.2 實(shí)驗(yàn)結(jié)果

      在UCI數(shù)據(jù)集中,研究提出的算法與各類算法分別在r=1,2,3,步長(zhǎng)p從0.1~0.7變化時(shí)的分類準(zhǔn)確率。采用10倍交叉驗(yàn)證結(jié)果做顯著程度為0.05的成對(duì)t檢驗(yàn),實(shí)驗(yàn)結(jié)果如圖1~3所示。

      圖1 r=1時(shí)p取0.1~0.7的分類精度

      圖2 r=2時(shí)p取0.1~0.7的分類精度

      圖3 r=3時(shí)p取0.1~0.7的分類精度

      通過觀察實(shí)驗(yàn)結(jié)果,可得出如下結(jié)論:

      1)在vehicle數(shù)據(jù)集上各算法魯棒性均較好,但在glasss數(shù)據(jù)集上,在不同參數(shù)下,各算法分類結(jié)果波動(dòng)較大,魯棒性不足。

      2)在vehicle數(shù)據(jù)集上,除了在個(gè)別步長(zhǎng)時(shí)劣于PL-ECOC算法,PL-EKT算法性能優(yōu)于其他算法。

      在真實(shí)數(shù)據(jù)集上,采用10倍交叉驗(yàn)證結(jié)果做顯著程度為0.05的成對(duì)t檢驗(yàn)。表4給出了各算法在真實(shí)數(shù)據(jù)集上分類精度。

      表4 各算法在真實(shí)數(shù)據(jù)集上分類精度

      從表4可看出:

      1)在Lost數(shù)據(jù)集上,PL-EKT算法性能比其他3種算法表現(xiàn)好。

      2)在MSRCv2數(shù)據(jù)集上,PL-EKT算法與PL-ECOC算法基本持平,但優(yōu)于其他算法。

      3)在BirdSong和Soccer Play數(shù)據(jù)集上,PL-EKT算法劣于PL-ECOC算法,優(yōu)于其他算法。

      PL-EKT偏標(biāo)記學(xué)習(xí)算法在2組UCI人工數(shù)據(jù)集和4組真實(shí)數(shù)據(jù)集上都具有較好的表現(xiàn)力。從整體上看,PL-EKT算法在UCI數(shù)據(jù)集中比其他算法分類精度高,且魯棒性相對(duì)較好;在真實(shí)數(shù)據(jù)集上,PL-EKT算法相比于其他算法也擁有較好的效果,僅在Birdsong數(shù)據(jù)集上劣于PL-ECOC算法。

      4 結(jié)束語

      為了充分利用候選標(biāo)記來劃分樣本,提出了KD樹集成偏標(biāo)記學(xué)習(xí)算法,通過KD樹均衡訓(xùn)練集,使得偏標(biāo)記學(xué)習(xí)算法有較好的泛化性能。實(shí)驗(yàn)結(jié)果表明,該算法在真實(shí)數(shù)據(jù)集上有較好的表現(xiàn)。但同時(shí)也存在一些不足的地方,在UCI數(shù)據(jù)集Glass上算法的魯棒性不夠,劃分子數(shù)據(jù)集仍會(huì)存在樣本均衡的問題等,有待進(jìn)一步改進(jìn)。

      猜你喜歡
      集上分類器標(biāo)簽
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      復(fù)扇形指標(biāo)集上的分布混沌
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      標(biāo)簽化傷害了誰
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      宁都县| 镇原县| 姚安县| 依兰县| 渭南市| 昂仁县| 芦溪县| 昌吉市| 闻喜县| 张家口市| 大庆市| 涡阳县| 当阳市| 永寿县| 永春县| 乃东县| 社旗县| 新野县| 宣化县| 博野县| 高唐县| 许昌县| 班戈县| 砀山县| 天镇县| 玉门市| 荆州市| 金塔县| 额尔古纳市| 宿州市| 和平区| 沐川县| 芜湖市| 吴忠市| 清新县| 嵊州市| 靖州| 桑植县| 荃湾区| 永康市| 凤翔县|