• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于投票機制的神經(jīng)架構(gòu)搜索

    2022-09-17 04:42:48楊軍張景發(fā)
    光學(xué)精密工程 2022年17期
    關(guān)鍵詞:架構(gòu)權(quán)重節(jié)點

    楊軍,張景發(fā)

    (1.蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070;2.蘭州交通大學(xué) 測繪與地理信息學(xué)院,甘肅 蘭州 730070)

    1 引言

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)顯著提高了各種視覺分析任務(wù)的性能,包括圖像分類、人臉識別和目標(biāo)檢測等領(lǐng)域[1],這得益于其良好的模塊設(shè)計和復(fù)雜的網(wǎng)絡(luò)架構(gòu)。VGGNet[2]提出使用小的卷積濾波器并堆疊一系列卷積層來實現(xiàn)更好的性能,RESNet[3]引入殘差塊以利于更深層次神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,PointNet[4]使 用 多 層 感 知 機(Multilayer Perceptron,MLP)來學(xué)習(xí)單個點的特征,并利用T-net對全局信息進(jìn)行編碼,實現(xiàn)了數(shù)據(jù)及特征的有效對齊,在點云模型識別任務(wù)上做出了開創(chuàng)性的工作。盡管這些人工設(shè)計的網(wǎng)絡(luò)可以有效地完成給定數(shù)據(jù)集的模型識別和分類任務(wù),但在網(wǎng)絡(luò)架構(gòu)的設(shè)計過程中依賴專家經(jīng)驗和大量的超參數(shù)調(diào)整,且計算復(fù)雜度比較高,設(shè)計出的網(wǎng)絡(luò)架構(gòu)很難達(dá)到最優(yōu)。因此,研究人員提出了神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS),其目標(biāo)是通過選擇和組合預(yù)定義搜索空間中的各種候選操作,自動找到最優(yōu)的網(wǎng)絡(luò)架構(gòu)。

    NAS方法主要包含3個基本模塊:搜索空間、搜索策略和性能評估策略。預(yù)定義一個搜索空間,并使用特定的搜索策略在搜索空間中尋找網(wǎng)絡(luò)架構(gòu),然后通過性能評估策略對搜索到的網(wǎng)絡(luò)進(jìn)行測試,根據(jù)測試結(jié)果再次迭代,直到找出最優(yōu)的網(wǎng)絡(luò)架構(gòu)。其中,搜索空間定義了NAS算法可以搜索到神經(jīng)網(wǎng)絡(luò)的類型,同時也定義了如何描述神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。搜索通常包括兩種類型,直接搜索整個網(wǎng)絡(luò)體系架構(gòu)(宏搜索)或搜索Cell結(jié)構(gòu)并以預(yù)定義的方式堆疊此Cell結(jié)構(gòu)(微搜索)。搜索策略定義了如何找到最優(yōu)的網(wǎng)絡(luò)架構(gòu),主要包括強化學(xué)習(xí)、遺傳算法和基于梯度的優(yōu)化算法。性能評估策略用于度量搜索到網(wǎng)絡(luò)體系架構(gòu)的性能優(yōu)劣,包括低保真度、早停、代理模型和權(quán)值共享等方法。

    目前,NAS在計算機視覺和模式識別領(lǐng)域得到了廣泛應(yīng)用,有效減少了人工干預(yù)。文獻(xiàn)[5]利用強化學(xué)習(xí)方法訓(xùn)練一個循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)控制器,自動搜索一個可以應(yīng)用于大規(guī)模圖像分類和目標(biāo)檢測的神經(jīng)網(wǎng)絡(luò)架構(gòu),但該方法依賴大量的硬件資源,存在計算量較大、時間成本較高的問題。文獻(xiàn)[6]利用Softmax函數(shù)放縮搜索空間使目標(biāo)函數(shù)可微,通過高效的梯度反向傳播算法進(jìn)行架構(gòu)搜索,大大提高了NAS的效率,然而由于GPU內(nèi)存消耗隨著候選搜索集的大小呈線性增長,該方法仍存在GPU內(nèi)存消耗過高的問題。文獻(xiàn)[7]在跳躍連接之后使用dropout策略,并在優(yōu)化過程中限制跳躍連接的數(shù)量,但此方法搜索到的架構(gòu)深度在訓(xùn)練過程中逐漸增長,搜索和評估場景中的架構(gòu)深度之間存在巨大差異。文獻(xiàn)[8]提出了一個基于Gumbel-Max策略的可微采樣器,一次只對一個架構(gòu)進(jìn)行采樣,減少了內(nèi)存的使用,但搜索到體系結(jié)構(gòu)的性能低于基于遺傳算法的方法。

    為了解決現(xiàn)有NAS算法自動搜索到的網(wǎng)絡(luò)架構(gòu)與評估的網(wǎng)絡(luò)架構(gòu)之間存在較大差異的問題,本文提出基于投票機制的神經(jīng)架構(gòu)搜索(Neural Architecture Search Based on Voting Scheme,NAS-VS)算法,以多策略融合的方法自動搜索出最優(yōu)的Cell結(jié)構(gòu);利用小批量訓(xùn)練數(shù)據(jù)上測試的訓(xùn)練損失作為性能估計器,只在性能表現(xiàn)良好的候選網(wǎng)絡(luò)架構(gòu)中進(jìn)行采樣,以解決均勻采樣會導(dǎo)致網(wǎng)絡(luò)訓(xùn)練效率低的問題;利用組稀疏正則化策略的路徑選擇方法,解決Cell結(jié)構(gòu)中各節(jié)點之間候選操作權(quán)重相近時路徑難以選擇的問題。

    2 研究現(xiàn)狀

    為了自動高效地搜索最優(yōu)的神經(jīng)網(wǎng)絡(luò)架構(gòu),大量架構(gòu)搜索算法被提出,主要分為三類:基于強化學(xué)習(xí)的方法、基于遺傳算法的方法和基于梯度的算法。其中,基于強化學(xué)習(xí)的方法從搜索空間采樣網(wǎng)絡(luò)架構(gòu),并相應(yīng)地訓(xùn)練控制器?;谶z傳算法的方法首先隨機初始化若干個子網(wǎng)絡(luò)作為初始解,計算其適應(yīng)度,并使用變異和交叉的遺傳操作來生成新的網(wǎng)絡(luò)架構(gòu)。基于梯度的算法對共享權(quán)重和結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化,大大降低了對計算資源的需求,提高了搜索效率。

    2.1 基于強化學(xué)習(xí)的方法

    文獻(xiàn)[9]首次將強化學(xué)習(xí)應(yīng)用于NAS,利用一個循環(huán)神經(jīng)網(wǎng)絡(luò)作為控制器,通過強化學(xué)習(xí)的方法來搜索子網(wǎng)絡(luò),不斷更新RNN控制器的參數(shù),直到搜索到符合要求的網(wǎng)絡(luò)架構(gòu);但由于該方法設(shè)計的搜索空間較大,因此需要訓(xùn)練數(shù)以萬計的網(wǎng)絡(luò)架構(gòu),計算資源消耗巨大。為解決該問題,文獻(xiàn)[10]提出了搜索Cell結(jié)構(gòu)或者block結(jié)構(gòu),并將其堆疊以得到最終的網(wǎng)絡(luò)架構(gòu),大大降低了搜索空間的復(fù)雜性。文獻(xiàn)[11]將基于強化學(xué)習(xí)方法搜索到的小模型按比例放大,沿著深度、寬度和輸入分辨率3個方向構(gòu)建大模型,從而提高了搜索較大數(shù)據(jù)集網(wǎng)絡(luò)架構(gòu)的準(zhǔn)確率。文獻(xiàn)[12]提出了一種參數(shù)共享的高效NAS算法,通過策略梯度訓(xùn)練控制器,使所有網(wǎng)絡(luò)架構(gòu)共享參數(shù),進(jìn)一步減少了獲得獎勵的訓(xùn)練步驟。然而,基于強化學(xué)習(xí)的方法需要枚舉大量的網(wǎng)絡(luò)架構(gòu),并從頭開始訓(xùn)練其相應(yīng)的模型參數(shù)以獲得準(zhǔn)確的性能估計,因此計算資源需求大。

    2.2 基于遺傳算法的方法

    遺傳算法為NAS提供了另一個方向,文獻(xiàn)[13]將遺傳算法應(yīng)用于ImageNet,在相同的硬件條件下,其搜索速度快于強化學(xué)習(xí)的方法,特別是在搜索的早期階段。搜索算法迭代評估從群體中性能最佳的體系結(jié)構(gòu)演化而來的少量子網(wǎng)絡(luò)架構(gòu)以加速搜索,但仍需要訓(xùn)練數(shù)千個單獨的體系結(jié)構(gòu)。因此,雖然遺傳算法適用于NAS,但它面臨著與強化學(xué)習(xí)方法相同的問題,即訓(xùn)練過程需要大量計算資源。為了解決此問題,文獻(xiàn)[14]提出單路徑聚合網(wǎng)絡(luò)架構(gòu)搜索算法,利用自頂向下、自底向上、融合-分裂、尺度均衡、跳躍-連接和無操作6個異構(gòu)信息路徑來構(gòu)建搜索空間,并通過進(jìn)化算法來尋找最優(yōu)候選路徑。然而,進(jìn)化算法只允許變異和交叉操作,沒有考慮層間關(guān)系,導(dǎo)致搜索到的網(wǎng)絡(luò)架構(gòu)不是最優(yōu)的。

    2.3 基于梯度的方法

    基于梯度的方法利用Softmax函數(shù)將搜索空間從離散松弛化為連續(xù),并通過梯度下降算法來優(yōu)化網(wǎng)絡(luò)架構(gòu),大大降低了計算資源使用,但其訓(xùn)練過程需要遍歷搜索空間中的所有候選操作,難以直接在搜索空間中搜索大型網(wǎng)絡(luò)架構(gòu),因此,基于梯度的方法大多在搜索時使用淺層模型作為代理任務(wù),并在評估時多次堆疊搜索到的Cell結(jié)構(gòu)以構(gòu)建更大的模型。為了改進(jìn)基于梯度的方法,文獻(xiàn)[15]提出了一種基于采樣的方法來學(xué)習(xí)體系結(jié)構(gòu)上的概率分布,不斷在搜索空間中采樣候選網(wǎng)絡(luò),以獲得性能優(yōu)秀的網(wǎng)絡(luò)架構(gòu),然而由于不停地采樣,計算資源消耗也比較大。文獻(xiàn)[16]通過路徑二進(jìn)制化探索沒有特定代理的搜索空間,利用one-shot方法和參數(shù)共享來加速NAS搜索過程。文獻(xiàn)[17]以最小化權(quán)重共享子網(wǎng)絡(luò)和獨立網(wǎng)絡(luò)之間的評估差異性為目標(biāo),引入漸進(jìn)式搜索空間縮減策略,利用貪心算法的路徑過濾技術(shù),使超網(wǎng)更加關(guān)注那些性能優(yōu)異的路徑。文獻(xiàn)[18]以貪婪的方式修剪搜索空間中的候選操作,隨著排名較低的候選操作被移除,搜索空間逐漸縮小,搜索專注于剩余的候選操作以進(jìn)行充分地訓(xùn)練和評估。

    綜上所述,NAS研究目前主要存在的問題有:(1)在搜索空間中選擇候選網(wǎng)絡(luò)架構(gòu)時一般使用均勻采樣,而每個候選網(wǎng)絡(luò)架構(gòu)的性能存在差異,如果對性能較弱的網(wǎng)絡(luò)架構(gòu)進(jìn)行采樣和訓(xùn)練,由于所有網(wǎng)絡(luò)權(quán)值共享,會干擾其他網(wǎng)絡(luò)架構(gòu),最終搜索到的最優(yōu)網(wǎng)絡(luò)架構(gòu)性能不佳;(2)在路徑選擇過程中,由于一些候選操作的權(quán)值相近,無法準(zhǔn)確地對其進(jìn)行排名,搜索與評估時期選擇的最優(yōu)模型之間容易存在較大的差異。本文提出NAS-VS算法,使用小批量訓(xùn)練數(shù)據(jù)上測試的訓(xùn)練損失作為性能估計器,對訓(xùn)練損失較小的候選網(wǎng)絡(luò)進(jìn)行采樣,并以集成學(xué)習(xí)的思想融合多種路徑選擇算法,進(jìn)一步提高網(wǎng)絡(luò)架構(gòu)的性能。

    3 基于投票機制的神經(jīng)架構(gòu)搜索

    3.1 網(wǎng)絡(luò)整體架構(gòu)

    本文采用了基于梯度的架構(gòu)搜索策略,搜索一個Cell結(jié)構(gòu)作為基本的模塊,并通過堆疊該Cell結(jié)構(gòu)來構(gòu)建最優(yōu)的網(wǎng)絡(luò)架構(gòu)。為了驗證搜索到的最優(yōu)網(wǎng)絡(luò)架構(gòu)在評估階段中是否也是最優(yōu),引入肯德爾系數(shù)[19]來評估這一過程??系聽栂禂?shù)是衡量兩個排名相關(guān)性的常用指標(biāo),計算公式如下:

    式中:n表示排名中的樣本數(shù)量,Nc表示在兩個排名中順序一致的數(shù)量,Nd表示在兩個排名中順序不一致的數(shù)量??系聽栂禂?shù)τ是介于-1到1之間的數(shù)字,其中-1表示兩個排名完全負(fù)相關(guān),1表示兩個排名完全正相關(guān),0表示兩個排名完全獨立。

    使用DARTS算法在modent40數(shù)據(jù)集上進(jìn)行了10組實驗,得到了10個不同分類精度的網(wǎng)絡(luò)架構(gòu),根據(jù)分類精度對這10組實驗搜索出的最優(yōu)網(wǎng)絡(luò)進(jìn)行了排名。同理,將這10個最優(yōu)網(wǎng)絡(luò)在驗證集上的精度也進(jìn)行了排名,對比搜索階段的性能排名和評估階段的性能排名,理想情況下,利用NAS方法搜索到的網(wǎng)絡(luò)架構(gòu)應(yīng)具有較高的肯德爾系數(shù)。從圖1可以看到,肯德爾系數(shù)只有0.16,即搜索階段得到的最優(yōu)網(wǎng)絡(luò)架構(gòu)在測試時并不是精度最高的網(wǎng)絡(luò),這是由于權(quán)重共享過程中隨著網(wǎng)絡(luò)的逐漸收斂,搜索到的網(wǎng)絡(luò)會更加地契合源數(shù)據(jù)集,而不是遷移之后的目標(biāo)數(shù)據(jù)集,且在搜索過程中Cell結(jié)構(gòu)的路徑選擇并不是最優(yōu)的,導(dǎo)致自動搜索的網(wǎng)絡(luò)架構(gòu)性能沒有達(dá)到最優(yōu)。為了緩解這一問題,需要改進(jìn)的核心問題有:(1)搜索和評估階段的差異;(2)權(quán)重共享的負(fù)面影響。因此,本文提出了NAS-VS算法。首先,以小批量訓(xùn)練數(shù)據(jù)上測試的訓(xùn)練損失作為性能估計器,對訓(xùn)練損失較小的候選網(wǎng)絡(luò)進(jìn)行采樣,以提高訓(xùn)練效率;其次,利用可微架構(gòu)搜索策略、組稀疏正則化策略和噪聲策略分別對Cell結(jié)構(gòu)中各節(jié)點之間的路徑選擇進(jìn)行初步判定;最后,通過加權(quán)投票方法對初步判定的路徑進(jìn)行再次選擇,進(jìn)一步提高網(wǎng)絡(luò)架構(gòu)的性能,搜索出最優(yōu)的Cell結(jié)構(gòu)。整體網(wǎng)絡(luò)框架如圖2所示。

    圖1 搜索與評估階段的肯德爾系數(shù)Fig.1 Maurice Kendall coefficient in search and evaluation phases

    3.2 性能估計器

    首先在搜索空間中對候選網(wǎng)絡(luò)進(jìn)行采樣,然后通過隨機梯度下降算法對每個樣本進(jìn)行優(yōu)化,以便候選網(wǎng)絡(luò)獲得更好的性能。通常來說,整個NAS過程可以分解為兩個相對獨立的階段:無約束預(yù)訓(xùn)練階段和資源受限階段。在無約束預(yù)訓(xùn)練階段,通過權(quán)值共享聯(lián)合優(yōu)化搜索空間中所有可能的候選網(wǎng)絡(luò),其目標(biāo)是學(xué)習(xí)權(quán)重共享網(wǎng)絡(luò)的超參數(shù),如式(2)所示:

    式中:ω為網(wǎng)絡(luò)中的共享權(quán)重,ωα是由體系結(jié)構(gòu)α規(guī)定的一個子網(wǎng)絡(luò)的權(quán)重,Ω為搜索空間,L(·)為損失函數(shù),Dtrn為訓(xùn)練數(shù)據(jù)。期望項E通常由n個均勻采樣的網(wǎng)絡(luò)架構(gòu)來近似,并用隨機梯度下降算法來求解。采樣到的較大的網(wǎng)絡(luò)架構(gòu)和較小的網(wǎng)絡(luò)架構(gòu)都會通過式(2)聯(lián)合優(yōu)化,從而提高網(wǎng)絡(luò)的整體性能。

    在資源受限階段,在給定的資源約束下搜索出性能最好的網(wǎng)絡(luò)架構(gòu),經(jīng)過式(2)的預(yù)訓(xùn)練,所有的候選網(wǎng)絡(luò)架構(gòu)都得到了充分的優(yōu)化,這一步就是通過搜索算法找出最優(yōu)性能的網(wǎng)絡(luò)架構(gòu),如式(3)所示:

    圖2 整體網(wǎng)絡(luò)框架Fig.2 Overall network frame

    式中:是在上一階段學(xué)習(xí)到的最優(yōu)權(quán)重共享參數(shù),ψi是給定的資源約束閾值,是最優(yōu)權(quán)重參數(shù)對應(yīng)的體系結(jié)構(gòu),Dval表示驗證數(shù)據(jù),F(xiàn)LOPs(αi)表示架構(gòu)αi消耗的計算資源。由于不需要重新訓(xùn)練或微調(diào),該階段的總體搜索成本通常較低。

    盡管已經(jīng)在這兩個相對獨立的階段取得了良好的效果,但在搜索過程中采樣時將每個候選網(wǎng)絡(luò)視為同等重要,這在一定程度上會偏向于性能較差的網(wǎng)絡(luò)。為了解決此問題,本文利用小批量訓(xùn)練數(shù)據(jù)上測試的訓(xùn)練損失作為性能估計器,來學(xué)習(xí)搜索空間中各候選網(wǎng)絡(luò)架構(gòu)的概率分布,找出符合要求的一組模型,并將采樣的重心集中在這組模型上。首先,引入操作選擇的先驗分布P(α|A),其中A表示選擇不同網(wǎng)絡(luò)架構(gòu)的概率。單個網(wǎng)絡(luò)架構(gòu)α可以表示為{αi}的離散選擇,并從P(α|A)中采樣。因此,網(wǎng)絡(luò)架構(gòu)搜索轉(zhuǎn)化為在一定監(jiān)督下的學(xué)習(xí)分布P(α|A)。由于不同層的選擇是彼此獨立的,對網(wǎng)絡(luò)架構(gòu)α進(jìn)行采樣的概率如下:

    在訓(xùn)練過程中,使用貝葉斯蒙特卡羅法優(yōu)化連續(xù)網(wǎng)絡(luò)架構(gòu)參數(shù)α,即有:

    式中:X為輸入的點云數(shù)據(jù),y為類別標(biāo)簽,利用采樣的K個架構(gòu)和其平均最大似然估計來近似P(y|X,ω,α)的最大似然估計。對于采樣的體系結(jié)構(gòu),通過估計梯度?αlogP(y|X,ω,α)和?ωlogP(y|X,ω,α)共同優(yōu)化體系結(jié)構(gòu)參數(shù)α和模型權(quán)重參數(shù)ω。

    然后,按照小批量訓(xùn)練數(shù)據(jù)上測量的訓(xùn)練損失來決定要采樣的網(wǎng)絡(luò)架構(gòu),即在每次迭代中,從P(α|A)中采樣K個架構(gòu){α1,···,αK},用R(α)表示模型α的性能估計器,權(quán)重為ωα。性能估計器R(α)的驗證損失為:

    本文將原始訓(xùn)練數(shù)據(jù)集分成90%的訓(xùn)練集和10%的測試集,然后對子樣本訓(xùn)練集進(jìn)行無約束預(yù)訓(xùn)練,將訓(xùn)練迭代次數(shù)設(shè)置為50,訓(xùn)練完成后,隨機采樣1 024個子網(wǎng)絡(luò),并在子樣本的測試數(shù)據(jù)集上測試它們的性能。最后,利用性能估計器R(α)對這1 024個子網(wǎng)絡(luò)進(jìn)行篩選,根據(jù)測試結(jié)果選擇訓(xùn)練損失較小的前256個子網(wǎng)絡(luò)作為最終需要采樣的網(wǎng)絡(luò)架構(gòu)。圖3為本文利用性能估計器采樣與均勻采樣的對比圖,從圖中可以看出,本文算法可以有效地從搜索空間中采樣到性能良好的候選網(wǎng)絡(luò),從而提高超網(wǎng)的整體性能。

    圖3 采樣方式對比Fig.3 Comparison of sampling method

    3.3 加權(quán)投票融合

    在搜索Cell結(jié)構(gòu)時,由于一些候選操作的權(quán)值相近,無法準(zhǔn)確地對其進(jìn)行選擇,搜索到的網(wǎng)絡(luò)架構(gòu)達(dá)不到最優(yōu)性能。因此,本文利用組稀疏正則化策略擴大候選操作之間的差異,對所有候選操作進(jìn)行篩選,進(jìn)一步增加Cell結(jié)構(gòu)中路徑選擇的準(zhǔn)確性,以選擇出合適的路徑,如式(7)所示:

    式中:S是候選操作得分,μ是一個可學(xué)習(xí)的超參數(shù),f(α)是驗證損失,B是Cell結(jié)構(gòu)中的總層數(shù)。在搜索階段,αb,i表示第b層中第i次操作的得分,所有得分組成體系結(jié)構(gòu)α。對候選操作進(jìn)行排序,篩選出各節(jié)點之間候選操作得分最高的操作。

    利用組稀疏正則化策略對候選操作得分進(jìn)行排名,并按照該排名選擇Cell結(jié)構(gòu)中各節(jié)點之間的路徑,然而在權(quán)重選擇過程中可能會出現(xiàn):(1)有些候選操作的得分排名不是最高的,但此候選操作在網(wǎng)絡(luò)架構(gòu)中所起的作用無法被取代,對后續(xù)操作的影響可能強于其他操作,按照得分排名而舍棄此操作,網(wǎng)絡(luò)的整體性能會下降;(2)在搜索空間中存在跳躍連接操作,如文獻(xiàn)[20]中所述,由于跳躍連接與卷積結(jié)合比較好,網(wǎng)絡(luò)架構(gòu)搜索過程中會出現(xiàn)不公平競爭的現(xiàn)象,隨著迭代次數(shù)的增加,跳躍連接所占的權(quán)重會逐步增大,在多次迭代搜索之后,搜索到的網(wǎng)絡(luò)架構(gòu)中包含過多的跳躍連接,導(dǎo)致網(wǎng)絡(luò)性能下降。本文提出的NAS-VS算法,首先,通過Softmax函數(shù)放縮搜索空間使搜索空間連續(xù)化;其次,使用組稀疏正則化策略,結(jié)合DARTS算法中的路徑選擇策略和文獻(xiàn)[21]中的噪聲策略,對Cell結(jié)構(gòu)中各節(jié)點之間的路徑選擇進(jìn)行初步判定;最后,通過加權(quán)投票將各節(jié)點之間路徑的選擇加以融合,確定最終的Cell結(jié)構(gòu)。這樣可避免由于路徑選擇不準(zhǔn)確引起的搜索與評估階段的不一致,進(jìn)而搜索出最優(yōu)的網(wǎng)絡(luò)架構(gòu),提高三維模型識別與分類的能力。

    NAS-VS算法的具體操作如下:給出上述3種路徑選擇方法下Cell結(jié)構(gòu)中各節(jié)點間的路徑預(yù)測結(jié)果,將每個預(yù)測結(jié)果看作是一個獨立的得分,以加權(quán)投票方式聚合全部的預(yù)測結(jié)果來進(jìn)行路徑選擇,達(dá)到尋找最優(yōu)路徑的目的。由于搜索空間中有9種候選操作,故給出的得分為[S1,S2,…,S9],通過投票機制判斷任意節(jié)點對中第i條路徑的投票結(jié)果為Hvote(Si|Gj),路徑u的最終選擇為,其中,Si為第i條路徑的得分,Gj表示任意節(jié)點對,k為路徑選擇的數(shù)目。

    將路徑i的得分Si作為該路徑選擇的投票值,令Zk(Si)表示節(jié)點對Gj中屬于各候選操作得分Si的第k條路徑,則當(dāng)各節(jié)點對Gj中某條路徑Si的得分最大時,對該路徑投票,有Hvote(Si|Gj)=1;若節(jié)點之間的路徑以相近的權(quán)重屬于多個候選操作,則給這幾個候選操作都投出一票。即Hvote(Si|Gj)=1,否則Hvote(Si|Gj)=0,即:

    式中:θ為閾值,取值為[0,1)。當(dāng)θ=0時,各個節(jié)點之間僅可以對概率最大的候選操作投一票;當(dāng)θ>0時,允許對各節(jié)點對之間更多接近最大權(quán)重值的候選操作投票。也就是說,θ取值較小時,只有一個或多個最為相似的候選操作獲得投票,這樣限定嚴(yán)格,更多相近的候選操作可能被忽略;θ取值較大時,更多的候選操作獲得投票,雖然考慮全面,但是投票結(jié)果的可信度也有所降低。

    在式(8)中,θ選值不同,有些候選操作可能投了多票,有些候選操作可能只投了一票,不具有公平性。為此,加入了權(quán)重系數(shù)λ,如式(9)所示:

    式中:節(jié)點對Gj之間的權(quán)重λ為其投票數(shù)量的倒數(shù),以確保各候選操作在投票中的相對平等地位。所以,最終的投票結(jié)果為Hvote(Si|Gj)=

    4 實驗結(jié)果與分析

    在ModelNet10和ModelNet40兩個公開的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實驗。ModelNet10包含4 899個三維模型,分為10個不同的類別。Model-Net40數(shù)據(jù)集有40個類別,包含12 311個三維模型,其中9 843個為訓(xùn)練模型,2 468個為測試模型??紤]到在大規(guī)模數(shù)據(jù)集上的巨大計算成本,首先在較小的數(shù)據(jù)集ModelNet10上搜索架構(gòu),然后將網(wǎng)絡(luò)架構(gòu)遷移到大數(shù)據(jù)集ModelNet40上,并在大的數(shù)據(jù)集上訓(xùn)練派生架構(gòu)的網(wǎng)絡(luò)權(quán)重。

    4.1 搜索空間及參數(shù)設(shè)置

    本文對搜索空間的設(shè)計,遵循SGAS[18]同樣的設(shè)置。Cell結(jié)構(gòu)如圖4所示,它由具有6個節(jié)點的有向無環(huán)圖表示(兩個輸入節(jié)點,三個中間節(jié)點以及一個輸出節(jié)點)。節(jié)點是構(gòu)成Cell結(jié)構(gòu)的基本元素,每個節(jié)點Xi是特定張量,如卷積神經(jīng)網(wǎng)絡(luò)中的特征映射,每個有向邊(i,j)表示搜索空間中節(jié)點Xi到另一個節(jié)點Xj的候選操作選擇O(i,j)。輸入節(jié)點是前兩個Cell結(jié)構(gòu)的輸出表示,中間節(jié)點聚集來自它所有前置節(jié)點的信息流,輸出節(jié)點被定義為固定數(shù)量的前置節(jié)點的串聯(lián)。

    圖4 Cell結(jié)構(gòu)Fig.4 Cell structure

    實驗中,從ModelNet10中的每個三維模型中采樣1 024個點,輸入特征維度為3,分別為x,y和z坐標(biāo)。對于體系結(jié)構(gòu)參數(shù)α和模型權(quán)重ω,使用初始學(xué)習(xí)率為3×10-4、動量為0.5和權(quán)重衰減為10-3的Adam優(yōu)化器進(jìn)行優(yōu)化。為防止架構(gòu)搜索過程中出現(xiàn)梯度爆炸,在每個節(jié)點處都采用批歸一化(Batch Normalization,BN)處理,網(wǎng)絡(luò)迭代次數(shù)設(shè)置為50。所采用的硬件環(huán)境為Intel Core i9-10900k+NVIDIA RTX3090(24GB顯存),深度學(xué)習(xí)環(huán)境為Linux Ubuntu 18.04+Pytorch1.4.0。

    4.2 實驗結(jié)果分析

    在ModelNet10上搜索到最優(yōu)Cell結(jié)構(gòu)之后,將其堆疊3次,并在網(wǎng)絡(luò)頂部使用全局平均池化,然后使用Softmax層進(jìn)行輸出,以構(gòu)建最終的網(wǎng)絡(luò)架構(gòu)。將此網(wǎng)絡(luò)架構(gòu)遷移到ModelNet40數(shù)據(jù)集中,在此過程中,會隨機初始化網(wǎng)絡(luò)的權(quán)重(丟棄在搜索過程中學(xué)習(xí)到的權(quán)重),重新訓(xùn)練網(wǎng)絡(luò)架構(gòu),并在測試集上測試此網(wǎng)絡(luò)的性能。設(shè)置迭代次數(shù)為250,使網(wǎng)絡(luò)趨于收斂。

    表1 不同算法在ModelNet40的分類準(zhǔn)確率對比Tab.1 Comparison of recognition accuracy of different algorithms on ModelNet40

    表2 NAS-VS在ModelNet40的分類效果Tab.2 Classification effect of NAS-VS on ModelNet40

    實驗中進(jìn)行了5次獨立搜索,得到了5個不同的體系結(jié)構(gòu)。在ModelNet40數(shù)據(jù)集上對這5個體系結(jié)構(gòu)進(jìn)行了性能評估,并給出了5次評估的最高和平均分類準(zhǔn)確率。NAS-VS算法搜索到的體系結(jié)構(gòu)與主流的人工設(shè)計網(wǎng)絡(luò)結(jié)果對比如表1所示??梢钥闯?,使用NAS算法自動搜索出的網(wǎng)絡(luò)架構(gòu)其三維模型分類準(zhǔn)確率明顯高于人工設(shè)計的網(wǎng)絡(luò),在ModelNet40數(shù)據(jù)集上達(dá)到了93.9%的分類準(zhǔn)確率,同時優(yōu)于SGAS[18]、Noisy-DARTS[21]等自動搜 索 算法,充分驗 證 了本文算法的優(yōu)勢。原因在于:一是利用性能估計器采樣性能優(yōu)秀的網(wǎng)絡(luò)架構(gòu),避免了權(quán)重共享對超網(wǎng)造成的負(fù)面影響;二是加權(quán)投票方法融合了多種路徑選擇策略,不僅使cell結(jié)構(gòu)中路徑的選擇更準(zhǔn)確,同時還抑制了跳躍連接的不公平競爭,使搜索到的網(wǎng)絡(luò)架構(gòu)更深,有利于深層次特征的提取。由于5次獨立搜索到網(wǎng)絡(luò)架構(gòu)中候選操作的不同,其參數(shù)值也有所差異,其中跳躍連接操作的參數(shù)計算最少,因此包含跳躍連接越多的網(wǎng)絡(luò)架構(gòu),其參數(shù)量少于其他網(wǎng)絡(luò)。此外,本文利用小批量訓(xùn)練數(shù)據(jù)上測試的訓(xùn)練損失作為性能估計器,只在性能表現(xiàn)良好的候選網(wǎng)絡(luò)架構(gòu)中進(jìn)行采樣,相比于Noisy-DARTS[21]、DARTS[6]算法,在計算效率上也有所提高。

    實驗統(tǒng)計了5次獨立搜索得到的最優(yōu)Cell結(jié)構(gòu)和分類準(zhǔn)確率,如表2所示。圖5則是在搜索階段迭代50次之后,搜索出的網(wǎng)絡(luò)架構(gòu)可視化結(jié)果。從表2和圖5中可以看出,NAS-VS的分類準(zhǔn)確率最高。這是由于NAS算法的特點是在搜索過程中傾向于選擇在搜索早期就表現(xiàn)出易收斂性質(zhì)的網(wǎng)絡(luò),相比于其他Cell結(jié)構(gòu),它的拓?fù)浣Y(jié)構(gòu)明顯是淺且寬的。此外,跳躍連接的數(shù)量越多,可學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)就更少,從而導(dǎo)致網(wǎng)絡(luò)性能不佳。圖5中,mr_conv代表搜索空間中的圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN),gin代表圖同構(gòu)網(wǎng)絡(luò)(Graph Isomorphic Network,Gin),conv_1×1代 表1×1的 卷 積 操作,skip_connect代表跳躍連接操作,edge_conv代表邊緣卷積操作,gat代表圖注意力網(wǎng)絡(luò)(Graph Attention Network,Gat),none代表空操作,sage代表圖樣本和聚合(Graph Sample and Aggregate,GraphSAGE),semi_gcn代表基于圖卷積的半監(jiān)督分類操作。

    圖5 NAS-VS方法搜索得到的最優(yōu)Cell結(jié)構(gòu)Fig.5 Optimal Cell structure obtained by proposed NASVS method

    圖5(e)中cell結(jié)構(gòu)的加權(quán)投票選擇過程如表3所示。由表可知,利用可微架構(gòu)搜索策略、組稀疏正則化策略和噪聲策略初步判定出的cell結(jié)構(gòu)是各不相同的,利用加權(quán)投票機制對這3個不同的cell結(jié)構(gòu)進(jìn)行再次的路徑選擇,可進(jìn)一步提高網(wǎng)絡(luò)架構(gòu)的性能,搜索出最優(yōu)的Cell結(jié)構(gòu)。在ModelNet40數(shù)據(jù)集上達(dá)到了93.9%的分類準(zhǔn) 確度。

    表3 最優(yōu)Cell結(jié)構(gòu)的加權(quán)投票選擇過程Tab.3 Weighted voting selection process for optimal Cell structure

    圖6 肯德爾系數(shù)相關(guān)性Fig.6 Correlation of Maurice Kendall coefficient

    4.3 消融實驗

    4.3.1肯德爾系數(shù)對比

    通過實驗來驗證本文算法能否有效地縮小搜索和評估體系結(jié)構(gòu)之間的差異,使用前文提到的肯德爾系數(shù),利用3種路徑選擇策略和投票機制各進(jìn)行10次實驗,得到了10個不同精度的網(wǎng)絡(luò)架構(gòu),并在驗證集上進(jìn)行評估。通過搜索階段和評估階段的排名計算出肯德爾系數(shù),如圖6所示。本算法的肯德爾系數(shù)τ為0.56,相比于單獨的噪聲策略、組稀疏正則化策略和可微架構(gòu)搜索策略,總體上更接近最終排名,證明本文算法可以自動搜索出更優(yōu)的網(wǎng)絡(luò)架構(gòu),降低了搜索和評估體系結(jié)構(gòu)之間的差異。

    4.3.2性能估計器的優(yōu)勢

    為了更好地分析本文采樣方式的有效性,設(shè)置了兩種不同的采樣方式進(jìn)行了實驗對比。第一組實驗使用本文基于性能估計器的采樣方式,第二組實驗使用均勻采樣,其他設(shè)置則全部相同。實驗結(jié)果如表4和圖7所示,可以看出,基于性能估計器的采樣方式可以取得更高的分類精度。這是由于在搜索空間中采樣時,所有路徑共享權(quán)值,如果對一條弱路徑進(jìn)行采樣和訓(xùn)練,會干擾那些優(yōu)良路徑的權(quán)重,這種干擾會破壞它們最終的性能估計,并影響搜索到的最優(yōu)體系結(jié)構(gòu)。而基于性能估計器的采樣方式不用覆蓋所有路徑,性能估計器會鼓勵超網(wǎng)更多地關(guān)注那些潛在的強力候選網(wǎng)絡(luò)架構(gòu),忽略表現(xiàn)較差的網(wǎng)絡(luò)架構(gòu),以此來減輕超網(wǎng)的負(fù)擔(dān),提高訓(xùn)練效率。

    圖7 不同采樣方式的分類準(zhǔn)確率Fig.7 Classification accuracy of different sampling methods

    表4 不同采樣方式的影響Tab.4 Influence of different sampling methods

    4.3.3權(quán)重變化過程

    為了更好地分析投票機制對各節(jié)點之間路徑選擇的影響,本文將路徑選擇過程中各節(jié)點之間的權(quán)重變化可視化,如圖8所示。圖8(a)是架構(gòu)搜索時跳躍連接操作的權(quán)重變化過程,圖8(b)~8(i)是架構(gòu)搜索時其他候選操作的權(quán)重變化過程??梢钥闯?,在DARTS方法中,隨著迭代次數(shù)的增多,跳躍連接操作的權(quán)重增長迅速,在路徑選擇中逐漸占據(jù)主導(dǎo)地位,削弱了其他候選操作的權(quán)重,各候選操作之間出現(xiàn)了不公平競爭現(xiàn)象。這種現(xiàn)象會導(dǎo)致搜索到的Cell結(jié)構(gòu)中存在太多的跳躍連接,使網(wǎng)絡(luò)性能下降。而本文算法使用投票機制融合3種路徑選擇策略消除了跳躍連接的不公平競爭,使跳躍連接的競爭能力同其他候選操作處于同一水準(zhǔn),各候選操作之間表現(xiàn)出較強的獨立性,從而搜索出一個性能穩(wěn)定的網(wǎng)絡(luò)架構(gòu)。

    4.3.4跳躍連接操作的影響

    為了分析跳躍連接操作對網(wǎng)絡(luò)架構(gòu)性能的影響,本文設(shè)置了兩個搜索空間:Ω1(包含跳躍連接操作)和Ω2(不包含跳躍連接操作),其他設(shè)置則完全一致,實驗結(jié)果如表5所示。Ω1搜索空間搜索到的網(wǎng)絡(luò)架構(gòu)分類準(zhǔn)確率高于Ω2搜索空間,這是由于雖然跳躍連接操作在神經(jīng)架構(gòu)搜索過程中具有不公平競爭性,但適當(dāng)數(shù)量的跳躍連接可以解決較深網(wǎng)絡(luò)中梯度爆炸和梯度消失的問題,有利于網(wǎng)絡(luò)的性能提升。因此,只能對跳躍連接的不公平競爭進(jìn)行限制,不能直接舍棄跳躍連接操作。

    圖8 各候選操作的權(quán)重變化Fig.8 Weight change of each candidate operation

    表5 跳躍連接對搜索空間的影響Tab.5 Impact of skip connections on search space

    表6 加權(quán)投票實驗對比Tab.6 Comparison of weighted voting experiments

    4.3.5加權(quán)投票機制的優(yōu)勢

    為了驗證本文加權(quán)投票融合方法的有效性,在ModelNet40數(shù)據(jù)集上做了4組實驗進(jìn)行對比。第一組實驗對可微架構(gòu)搜索策略和噪聲策略進(jìn)行加權(quán)融合,第二組實驗對可微架構(gòu)搜索策略和組稀疏正則化策略進(jìn)行加權(quán)融合,第三組實驗對噪聲策略和組稀疏正則化策略進(jìn)行加權(quán)融合,第四組實驗對這3種用于Cell結(jié)構(gòu)路徑選擇的方法進(jìn)行加權(quán)融合。實驗結(jié)果見表6,可以看出,第二組實驗的分類準(zhǔn)確率明顯低于其他3組。這是由于只對可微架構(gòu)搜索策略和組稀疏正則化策略進(jìn)行融合,雖然在一定程度上提高了搜索和評估體系結(jié)構(gòu)之間的相關(guān)性,搜索到更優(yōu)的網(wǎng)絡(luò)架構(gòu),但并沒有完全消除掉跳躍連接的不公平競爭。而相比于只對兩種路徑選擇方法進(jìn)行融合,本文算法搜索到的網(wǎng)絡(luò)架構(gòu)分類準(zhǔn)確率最高,由此表明利用投票機制對3種路徑選擇方法進(jìn)行融合,可以有效地提高Cell結(jié)構(gòu)中路徑選擇的準(zhǔn)確性。

    5 結(jié)論

    NAS已經(jīng)在模式識別領(lǐng)域取得了巨大突破,本文在DARTS算法的基礎(chǔ)上,提出了一種NAS-VS算法。相比人工設(shè)計的網(wǎng)絡(luò)以及其他NAS算法,本算法在ModelNet40數(shù)據(jù)集上取得了較高的分類準(zhǔn)確率,達(dá)到了93.9%。該方法有效地縮小了搜索和評估階段網(wǎng)絡(luò)架構(gòu)之間的差異,并解決了以往NAS方法中均勻采樣所導(dǎo)致的網(wǎng)絡(luò)訓(xùn)練效率低的問題。本文方法的局限性在于搜索到的最優(yōu)網(wǎng)絡(luò)架構(gòu)同實際最優(yōu)網(wǎng)絡(luò)架構(gòu)只是部分相關(guān)的,不是完全相關(guān),因此,還需要更進(jìn)一步的研究。

    猜你喜歡
    架構(gòu)權(quán)重節(jié)點
    基于FPGA的RNN硬件加速架構(gòu)
    CM節(jié)點控制在船舶上的應(yīng)用
    Analysis of the characteristics of electronic equipment usage distance for common users
    功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實踐
    汽車工程(2021年12期)2021-03-08 02:34:30
    基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
    權(quán)重常思“浮名輕”
    為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
    LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實現(xiàn)
    基于公約式權(quán)重的截短線性分組碼盲識別方法
    抓住人才培養(yǎng)的關(guān)鍵節(jié)點
    宣武区| 甘泉县| 池州市| 康乐县| 甘肃省| 乌苏市| 林州市| 凌源市| 江北区| 阿巴嘎旗| 云浮市| 阿瓦提县| 巴彦县| 丁青县| 金平| 大石桥市| 中卫市| 阳高县| 绍兴市| 封丘县| 东明县| 宣城市| 民勤县| 金平| 新邵县| 岱山县| 即墨市| 洛宁县| 阳泉市| 宁德市| 新余市| 济宁市| 肥西县| 安吉县| 大宁县| 万全县| 乌鲁木齐市| 武威市| 公主岭市| 德惠市| 双江|