• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      激活函數(shù)的發(fā)展綜述及其性質(zhì)分析

      2021-07-14 03:31:46于紀(jì)言
      關(guān)鍵詞:半軸表達式導(dǎo)數(shù)

      張 煥,張 慶,于紀(jì)言

      (南京理工大學(xué)機械工程學(xué)院,智能彈藥技術(shù)國防重點學(xué)科實驗室,江蘇 南京 210094)

      近年來,深度學(xué)習(xí)[1](deep learning,DL)成為人工智能(artificial intelligence,AI)相關(guān)領(lǐng)域中發(fā)展最快、最有活力的研究方向之一。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為深度學(xué)習(xí)的最重要組成部分,其應(yīng)用范圍越來越廣,在語音識別、自然語言處理、圖像識別等領(lǐng)域表現(xiàn)優(yōu)異[2?6]。卷積神經(jīng)網(wǎng)絡(luò)是由傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)[7?9](artificial neural network,ANN)發(fā)展而來。激活函數(shù)(activation functions)是卷積神經(jīng)網(wǎng)絡(luò)的一個必不可少的部分,它增加了網(wǎng)絡(luò)的非線性表達能力。

      激活函數(shù)可以看作卷積神經(jīng)網(wǎng)絡(luò)模型中一個特殊的層,即非線性映射層。卷積神經(jīng)網(wǎng)絡(luò)在進行完線性變換后,都會在后邊疊加一個非線性的激活函數(shù),在非線性激活函數(shù)的作用下數(shù)據(jù)分布進行再映射,以增加卷積神經(jīng)網(wǎng)絡(luò)的非線性表達能力。從模仿人類神經(jīng)科學(xué)的角度來看,激活函數(shù)在模型中對數(shù)據(jù)的作用過程是模擬了生物神經(jīng)元對電信號的處理過程。生物神經(jīng)元的作用過程是設(shè)定一定的閾值激活或抑制接收到的電信號而進行生物信息和信號的傳播。模擬生物神經(jīng)元的作用過程,理想的激活函數(shù)應(yīng)該是將輸入數(shù)據(jù)通過一定的閾值直接輸出為“0”“1”這2 種結(jié)果。但是,卷積神經(jīng)網(wǎng)絡(luò)模型在前向傳播、誤差反向傳播的過程中要求激活函數(shù)具備連續(xù)性、可微性等性質(zhì),顯然目前理想生物神經(jīng)元激活函數(shù)不符合該要求。激活函數(shù)的自身函數(shù)性質(zhì)決定了在作用過程的優(yōu)勢和缺陷。研究激活函數(shù)的性質(zhì),分析激活函數(shù)性質(zhì)與優(yōu)缺點的關(guān)聯(lián)性,尋找時間、空間及特征采集度高效的激活函數(shù)成了一項比較重要的研究內(nèi)容。

      1 卷積神經(jīng)網(wǎng)絡(luò)中常見的激活函數(shù)

      在深度學(xué)習(xí)發(fā)展初期,傳統(tǒng)S 型非線性飽和激活函數(shù)sigmoid 和 tanh 函數(shù)得到了廣泛的應(yīng)用[10]。然而,隨著模型深度的提高,S 型激活函數(shù)出現(xiàn)了梯度彌散的問題,這也是早期神經(jīng)網(wǎng)絡(luò)不能深度化發(fā)展的原因之一[11?15]。2010 年,Hinton 首次提出了修正線性單元[16](rectified linear units,ReLU)作為激活函數(shù)。Krizhevsky 等[1]在2012 年 ImageNet ILSVRC 比賽中使用了激活函數(shù)ReLU。ReLU 表達式簡單易于求導(dǎo),使得模型訓(xùn)練速度大大加快,且其正半軸導(dǎo)數(shù)恒定為1,很好地解決了S 型激活函數(shù)存在的梯度彌散問題。但是ReLU 激活函數(shù)在負(fù)半軸的梯度始終為0,在模型學(xué)習(xí)率設(shè)置較大情況下,會發(fā)生神經(jīng)元“壞死”的情況[17?18]。

      為了解決ReLU 激活函數(shù)的負(fù)半軸“神經(jīng)元壞死”的情況,研究者們提出Leaky ReLU[19]、PReLU[20]、Noisy ReLU[21]、ELUs[17]、ReLU-softplus[22]、ReLUsoftsign[23]、TReLU[24]等激活函數(shù)。這些激活函數(shù)有效緩減了“神經(jīng)元壞死”的問題。下面將詳細介紹各類激活函數(shù)的性質(zhì)、優(yōu)缺點,并總結(jié)得到優(yōu)秀激活函數(shù)應(yīng)該具備的特性。

      1.1 sigmoid 和tanh 激活函數(shù)

      sigmoid 和tanh 激活函數(shù)是深度學(xué)習(xí)初期常用的S 型激活函數(shù),其函數(shù)、導(dǎo)數(shù)數(shù)學(xué)表達式為式(1)(2)(3)(4);其函數(shù)、導(dǎo)數(shù)圖像如圖1、圖2 所示。

      圖1 sigmoid 和tanh 的函數(shù)圖

      圖2 sigmoid 和tanh 的導(dǎo)數(shù)圖

      由圖1 知:sigmoid 激活函數(shù)值的范圍為(0,1),經(jīng)過它激活得到的數(shù)據(jù)為非0 均值;sigmoid 激活函數(shù)具有雙向飽和性,即在一定數(shù)據(jù)范圍內(nèi),其導(dǎo)數(shù)趨于0 收斂。由圖2 可知:sigmoid 激活函數(shù)導(dǎo)數(shù)范圍為(0,0.25),且不在(?3,3)的數(shù)據(jù)導(dǎo)數(shù)值很小,在反向傳播過程時,導(dǎo)數(shù)相乘很容易造成梯度彌散;sigmoid 激活函數(shù)求導(dǎo)過程計算量較大,模型訓(xùn)練的時間復(fù)雜度較高。由圖1、圖2 對比知:tanh 激活函數(shù)解決了sigmoid 激活函數(shù)非0 均值的問題,且其導(dǎo)數(shù)范圍為(0,1),從而略微緩減了sigmoid 激活函數(shù)梯度彌散的問題;但tanh 激活函數(shù)存在的雙向飽和性仍然使得梯度彌散問題存在,且模型訓(xùn)練的時間復(fù)雜度較高。

      1.2 ReLU、Nosiy ReLU、Leaky ReLU、PReLU、RReLU 激活函數(shù)

      激活函數(shù)ReLU 的提出和應(yīng)用很好地解決了sigmoid 和tanh 函數(shù)存在的“梯度消失”問題。ReLU 可以擴展為包括高斯噪聲的Noisy ReLU(noisy rectified linear unit),其在受限玻爾茲曼機解決計算機視覺任務(wù)中得到應(yīng)用[21]。

      雖然ReLU 函數(shù)的稀疏性很好地解決了“S 型”軟飽和激活函數(shù)帶來的梯度消失的問題,但是ReLU 負(fù)半軸存在的硬飽和置0,這可能會導(dǎo)致“神經(jīng)元壞死”,也使得它的數(shù)據(jù)分布不為0 均值,模型在訓(xùn)練過程可能會發(fā)生神經(jīng)元“壞死”的狀況。為了解決Relu 負(fù)半軸“神經(jīng)元壞死”的情況,研究者們對ReLU 的負(fù)半軸下功夫改造,提出了Leaky ReLU(leaky rectified linear unit)、PReLU(parametric rectified linear unit)、RReLU(randomized leaky rectified linear unit)等激活函數(shù)。其中,RReLU最初是在Kaggle NDSB 競賽中得到使用。以上所提到的函數(shù)數(shù)學(xué)表達式為式(5)(6)(7)(8)(9),表達式中a為小于1 的正數(shù),它們的函數(shù)圖像如圖3所示。

      圖3 幾種“變種”ReLU 激活函數(shù)的函數(shù)圖

      由式(5)(7)(8)(9)以及圖3 知,Leaky ReLU、RReLU 和PReLU 分別通過手動、隨機以及待訓(xùn)練的方式在負(fù)半軸添加一個很小的線性參數(shù),其目的是在一定程度上緩減ReLU 負(fù)半軸硬飽和的問題,但是引入的參數(shù)給模型訓(xùn)練帶來了一定的麻煩。由式(6)知,Noisy ReLU(noisy rectified linear unit)在正半軸添加了高斯噪聲,但是和ReLU 存在一樣的問題。

      1.3 ReLU6 與神經(jīng)元的稀疏性

      ReLU 的稀疏性給卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練帶來了巨大的成功。無獨有偶,2003 年Lennie 等估測大腦同時被激活的神經(jīng)元只有1%~4%,進一步表明神經(jīng)元工作的稀疏性。神經(jīng)元只對輸入信號的少部分選擇性響應(yīng),大量信號被刻意的屏蔽。類似神經(jīng)元信號傳播,在一定模型下,ReLU 的稀疏性可以提高學(xué)習(xí)的精度。然而傳統(tǒng)的sigmoid 激活函數(shù)幾乎同時有一半的神經(jīng)元被激活,這和神經(jīng)科學(xué)的研究不太相符,可能會給深度網(wǎng)絡(luò)訓(xùn)練帶來潛在的問題。

      在深度學(xué)習(xí)中,有研究者嘗試使用ReLU6 激活函數(shù)。ReLU6 是在ReLU 激活函數(shù)的基礎(chǔ)上將大于6 的數(shù)據(jù)部分置為0,以進一步提高連接的稀疏性。式(10)為ReLU6 的函數(shù)表達式,圖4、圖5 為其函數(shù)、導(dǎo)數(shù)的圖像,圖6 為稀疏性連接的示意圖。

      圖4 ReLU6 函數(shù)圖

      圖5 ReLU6 導(dǎo)數(shù)圖

      圖6 稀疏性連接示意圖

      1.4 Swish 和Xwish 激活函數(shù)

      Swish 激活函數(shù)[25]是谷歌提出的一個效果更優(yōu)于ReLU 的激活函數(shù)。經(jīng)過測試,在保持模型其他參數(shù)不改變的條件下,只把原模型中的ReLU激活函數(shù)修改為Swish 激活函數(shù),模型的準(zhǔn)確率均有提升。Swish 激活函數(shù)的數(shù)學(xué)表達式為式(11)所示,函數(shù)圖像為圖7 所示,導(dǎo)數(shù)圖像為圖8 所示。式(11)中β是常數(shù)或可訓(xùn)練的參數(shù)。Swish 激活函數(shù)沒有上界有下界,具有可微、非單調(diào)的性質(zhì)。當(dāng)β=0 時,Swish 變?yōu)榫€性函數(shù);當(dāng)β→ ∞,Swish 成為了ReLU 函數(shù):因此,可以將Swish 函數(shù)看成線性函數(shù)和ReLU 函數(shù)之間的線性插值的平滑激活函數(shù)。

      圖7 Swish 函數(shù)圖

      圖8 Swish 導(dǎo)數(shù)圖

      劉宇晴等提出的Xwish 激活函數(shù)[26]與Swish激活函數(shù)有相似的函數(shù)曲線及性質(zhì)。其函數(shù)、導(dǎo)數(shù)數(shù)學(xué)表達式為式(12)(13)所示,函數(shù)、導(dǎo)數(shù)圖像為圖9、圖10 所示。

      圖9 Xwish 函數(shù)圖

      圖10 Xwish 在不同參數(shù)下的導(dǎo)數(shù)圖

      1.5 Maxout 激活函數(shù)

      Maxout 激活函數(shù)的原理是通過線性分段函數(shù)來擬合可能的目標(biāo)凸函數(shù),并將其作為激活函數(shù)。它可以看作在卷積神經(jīng)網(wǎng)絡(luò)中添加的一層激活層。它包含1 個參數(shù)k。相比其他激活函數(shù),它的特殊之處在于,增加了k個神經(jīng)元,經(jīng)過神經(jīng)元輸出最大的激活值。Maxout 激活函數(shù)可以看作ReLU激活函數(shù)的推廣。Maxout 激活函數(shù)能增強Dropout函數(shù)的功能,實驗證明二者一起使用時能發(fā)揮比較好的效果[27]。

      任意的凸函數(shù)都可以由分段線性函數(shù)擬合,而Maxout 取k個線性隱藏層節(jié)點的最大值。圖11依次示出Maxout 激活函數(shù)擬合線性激活函數(shù)、絕對值激活函數(shù)、二次激活函數(shù)的過程。圖中展示了在一維輸入下Maxout 激活函數(shù)擬合二維平面函數(shù)的過程。實際上,Maxout 激活函數(shù)可以逼近擬合更高維度的凸函數(shù)。Maxout 具有ReLU 的優(yōu)點,即線性和不飽和性,同時它也解決了ReLU 存在的“神經(jīng)元壞死”的問題。但是,Maxout 引入了訓(xùn)練參數(shù)而導(dǎo)致了模型整體參數(shù)數(shù)量的激增,導(dǎo)致模型的復(fù)雜度增高。

      圖11 Maxout 示意圖

      1.6 ELU 和TReLU 激活函數(shù)

      ELU 和TReLU 激活函數(shù)的正半軸與ReLU 激活函數(shù)保持一致,通過對負(fù)半軸引入軟飽和以代替置“0”。式(14)(15)為ELU 激活函數(shù)的函數(shù)、導(dǎo)數(shù)數(shù)學(xué)表達式,圖12、13 為其函數(shù)、導(dǎo)數(shù)圖像。從數(shù)學(xué)表達式(14)(15)和圖12、13 可以看出,ELU 激活函數(shù)[13]在正半軸具有與ReLU 激活函數(shù)一樣的優(yōu)勢,同時引入了負(fù)半軸的定義使得整體輸出均值接近0。與LeakyReLU 和PReLU 相比,雖同樣都是激活了負(fù)半軸,但ELU 的負(fù)半軸為軟飽和區(qū),斜率具有衰減性,這使得其對噪聲有一些魯棒性。同時,參數(shù)a控 制著函數(shù)的斜率變化。

      圖12 ELU 在不同參數(shù)下的函數(shù)圖

      圖13 ELU 在不同參數(shù)下的導(dǎo)數(shù)圖

      張濤等同樣提出了負(fù)半軸為飽和區(qū)的TReLU激活函數(shù)[24]。式(16)(17)為其函數(shù)、導(dǎo)數(shù)數(shù)學(xué)表達式。式中a為可變參數(shù),用來控制非飽和區(qū)域的斜率變化。TReLU 擁有和ELU 相似的優(yōu)勢:緩減了梯度彌散的問題;激活了負(fù)半軸,從而緩減了“神經(jīng)元壞死”的問題;近似于0 均值分布;負(fù)半軸的軟飽和性使得其對噪聲具有魯棒性。圖14、15 為其函數(shù)、導(dǎo)數(shù)圖像。

      圖14 TReLU 在不同參數(shù)下的函數(shù)圖

      圖15 TReLU 在不同參數(shù)下的導(dǎo)數(shù)圖

      1.7 softplus、softsign 和relu-softplus、relu-softsign激活函數(shù)

      softplus 是對所有輸入數(shù)據(jù)進行非線性映射的一種激活函數(shù)。式(18)(19)為其函數(shù)、導(dǎo)數(shù)表達式,圖16、圖17 為其函數(shù)、導(dǎo)數(shù)圖像。從數(shù)學(xué)表達式和函數(shù)圖像可以看出:softplus 無上界,具有負(fù)半軸單向軟飽和性,函數(shù)值始終大于0;同時引入了對數(shù)和指數(shù)運算,計算量較大。

      圖16 softplus 和softsign 函數(shù)圖

      圖17 softplus 和softsign 導(dǎo)數(shù)圖

      softsign 激活函數(shù)是一種雙向軟飽和“S 型”激活函數(shù),可以看作tanh 激活函數(shù)的改進版。式(20)(21)為其函數(shù)、導(dǎo)數(shù)表達式,圖16、圖17 為其函數(shù)、導(dǎo)數(shù)圖像。圖18 示出softplus、softsign、tanh 的函數(shù)圖像比較結(jié)果。圖19 示出softplus、softsign、tanh 的導(dǎo)數(shù)圖像比較結(jié)果。從式(20)(21)和圖18、圖19 可以看出,softsign 激活函數(shù)是0 均值分布的,且相比于tanh 激活函數(shù),softsign 激活函數(shù)的曲線變化更加平緩,其導(dǎo)數(shù)下降的速率較慢。從理論上看,相較于tanh 激活函數(shù),其能夠進一步緩減雙向軟飽和“S 型”激活函數(shù)存在的梯度彌散問題。

      圖18 softplus/softsign/tanh 函數(shù)對比圖

      圖19 softplus/softsign/tanh 導(dǎo)數(shù)對比圖

      曲之琳等[22]將ReLU 激活函數(shù)和softplus 激活函數(shù)進行了結(jié)合,并對softplus 的負(fù)半軸做減常數(shù)ln2 處理,提出了relu-softplus 組合激活函數(shù)。式(22)(23)為其函數(shù)、導(dǎo)數(shù)表達式,圖20、圖21 為函數(shù)、導(dǎo)數(shù)圖像。和ELU、TReLU 等激活函數(shù)一樣,relu-softplus 激活函數(shù)的負(fù)半軸軟飽和緩減了“神經(jīng)元壞死“問題,且負(fù)半軸做減常數(shù)處理,巧妙地完成了與正半軸的連接。但是relu-softplus 激活函數(shù)存在指數(shù),在負(fù)半軸零點附近的導(dǎo)數(shù)存在突變,持續(xù)減小直至0。其存在的問題是對學(xué)習(xí)率要求較高:若學(xué)習(xí)率設(shè)置過大,容易出現(xiàn)模型不收斂的問題;學(xué)習(xí)率設(shè)計較小,模型收斂得慢。

      王紅霞等[23]將ReLU 激活函數(shù)和softsign 激活函數(shù)進行了結(jié)合,提出了relu-softsign 組合激活函數(shù)。式(24)(25)為其函數(shù)、導(dǎo)數(shù)表達式,圖20、圖21 示出relu-softplus 和relu-softsign 的函數(shù)、導(dǎo)數(shù)的比較結(jié)果。從公式(24)(25)以及圖20、圖21 中可以看出:relu-softsign 激活函數(shù)在正半軸為線性單元,其導(dǎo)數(shù)始終為1,這一特點保證了模型的加速收斂;relu-softsign 激活函數(shù)在負(fù)半軸為softsign 激活函數(shù)的負(fù)半軸軟飽和部分,其導(dǎo)數(shù)在零點不存在突變,導(dǎo)數(shù)值由1 減小至趨于0。relusoftsign 激活函數(shù)由于在負(fù)半軸提供的非0 導(dǎo)數(shù),增加了對非正值處理的魯棒性,也加速了模型的收斂速度。

      圖20 relu-softsign 和relu-softplus 函數(shù)圖

      圖21 relu-softsign 和relu-softplus 導(dǎo)數(shù)圖

      比較二者的負(fù)半軸斜率,由圖20、圖21 可以看出,relu-softsign 激活函數(shù)在負(fù)半軸零點附近較relu-softplus 激活函數(shù)整體有更大的導(dǎo)數(shù),前者在零點附近導(dǎo)數(shù)由1 衰減較快,但保證了模型在零點附近的數(shù)據(jù)特征下有較快的收斂性;后者在零點附近導(dǎo)數(shù)值由1 突變?yōu)?.5,相較于前者,其模型在零點附近的數(shù)據(jù)特征下收斂性不足。王紅霞等[23]通過仿真實驗驗證了此理論分析。

      2 激活函數(shù)的性質(zhì)分析

      依據(jù)上文的討論及激活函數(shù)的發(fā)展規(guī)律,可以初步得出一個良好的激活函數(shù)常具備以下一些特點:1)非線性以及可微性;2)解決梯度消失問題,也避免出現(xiàn)梯度爆炸問題;3)解決“神經(jīng)元壞死“問題;4)符合或近似符合0 均值分布;5)計算的時間、空間復(fù)雜度??;6)存在一定的稀疏性;7)模型收斂速度相對較快;8)對數(shù)據(jù)噪聲具有一定的魯棒性等。

      sigmoid 和tanh 激活函數(shù)符合1)、4)特點,但不符合2)、5)、6)、7);ReLU 激活函數(shù)緩和了“S”型激活函數(shù)存在的問題2)、5)、6)、7),但是引入了問題3)、4);Nosiy ReLU、Leaky ReLU、PReLU、RReLU 激活函數(shù)對ReLU 激活函數(shù)負(fù)半軸進行改造,緩減了ReLU 激活函數(shù)存在的問題3);ReLU6激活函數(shù)引進稀疏性,因此符合特點6)、8);Swish和Xwish 激活函數(shù)可看成線性函數(shù)和ReLU 函數(shù)之間的線性插值的平滑激活函數(shù),其保留了負(fù)半軸的特征,緩和了ReLU 存在的問題3)、4);Maxout激活函數(shù)緩和了ReLU 激活函數(shù)存在的問題3),但是引入?yún)?shù)也帶來了問題5);ELU 和TReLU 激活函數(shù)緩減了ReLU 激活函數(shù)的問題3)、4),且引入的軟飽和滿足特點8);relu-softplus、relu-softsign激活函數(shù)結(jié)合了softplus/softsign 和ReLU 的正負(fù)半軸,不但緩和了ReLU 激活函數(shù)存在的問題3)、4),且符合特點7)、8),將激活函數(shù)負(fù)半軸斜率變化快慢和模型收斂速度結(jié)合了起來。

      為了進一步分析激活函數(shù)的性質(zhì),本文以多層感知機為例,推導(dǎo)激活函數(shù)在前向傳播和反向傳播過程中的作用表達式。

      2.1 損失函數(shù)

      在多層感知機中,給定樣本集合,其整體代價函數(shù)為式(26)。其中,前一項為誤差項,常見的有平方誤差項、交叉熵誤差項等;后一項為正則化項,此處使用的是L2 正則化。

      2.2 前向傳播

      多層感知機中,輸入信號通過各個網(wǎng)絡(luò)層的隱節(jié)點產(chǎn)生輸出的過程稱為前向傳播。在網(wǎng)絡(luò)訓(xùn)練過程中,前向傳播會生成一個標(biāo)量損失函數(shù)。定義第i層的輸入、輸出為x[i]、a[i],上一層的輸出作為下一層的輸入。w[i]、b[i]為 第i層的權(quán)值參數(shù)和偏置,z[i]是 第i層 輸入神經(jīng)元未經(jīng)激活的值,g[i](x)為 第i層的激活函數(shù)。前向傳播過程的表達式為

      分析式(27),在神經(jīng)網(wǎng)絡(luò)的前向傳播的過程中,輸入和本層的權(quán)值相乘,加上偏置,并將各項結(jié)果累加,得到下一層神經(jīng)元的初步輸入值,其與上一層的關(guān)系為線性關(guān)系。這個初步輸入值經(jīng)過激活函數(shù)的加工,對初步輸入值進行非線性映射,增強了表達能力。因此激活函數(shù)應(yīng)該具備以下性質(zhì):

      1)激活函數(shù)具有較強的非線性表達能力;

      2)激活函數(shù)應(yīng)該符合或近似符合0 均值分布條件,以增加其對數(shù)據(jù)的適應(yīng)性;

      3)激活函數(shù)應(yīng)該具有良好的計算特性。

      2.3 反向傳播

      多層感知機中,反向傳播過程是將損失函數(shù)的梯度信息沿著網(wǎng)絡(luò)向后傳播,以更新權(quán)值參數(shù)。其過程是將 da[j]作 為輸入,得到 dw[j]、db[j],作為輸出,a為學(xué)習(xí)率,其余參數(shù)表達參照2.2 中的前向傳播,其過程表達式如式(28)—(34)所示。

      對于sigmoid 激活函數(shù),其求導(dǎo)展開式為

      對于tanh 激活函數(shù),其求導(dǎo)展開式為

      對于ReLU 激活函數(shù),其求導(dǎo)展開式為

      對于ReLU6 激活函數(shù),其求導(dǎo)展開式為

      對于Xwish 激活函數(shù),其求導(dǎo)展開式為

      對于ELU 激活函數(shù),其求導(dǎo)展開式為

      對于TReLU 激活函數(shù),其求導(dǎo)展開式為

      對于relu-softplus 激活函數(shù),其求導(dǎo)展開式為

      對于relu-softsign 激活函數(shù),其求導(dǎo)展開式為

      分析式(28)—(43),可以得出,權(quán)值參數(shù)(Wb)的更新與激活函數(shù)導(dǎo)數(shù)值的大小存在線性相關(guān)關(guān)系,深層神經(jīng)網(wǎng)絡(luò)的參數(shù)更新中會出現(xiàn)激活函數(shù)的導(dǎo)數(shù)連乘。因此分析反向傳播過程,激活函數(shù)應(yīng)該具備以下性質(zhì):

      1)在連乘情況下避免出現(xiàn)梯度消失問題,也避免出現(xiàn)梯度爆炸問題;

      2)避免出現(xiàn)激活函數(shù)導(dǎo)數(shù)過于置0 從而導(dǎo)致參數(shù)不更新,出現(xiàn)“神經(jīng)元壞死“問題;

      3)激活函數(shù)的導(dǎo)數(shù)計算的時間、空間復(fù)雜度應(yīng)該較小;

      4)由神經(jīng)科學(xué)學(xué)科的研究論證,激活函數(shù)應(yīng)該存在一定的稀疏性;

      5)模型剛開始訓(xùn)練的時候,激活函數(shù)的導(dǎo)數(shù)應(yīng)該較大,加速模型收斂,在模型收斂后半段,激活函數(shù)有一定的軟飽和性,即導(dǎo)數(shù)漸漸趨于0,使得模型收斂至最優(yōu)值;

      6)參數(shù)w的更新方向與該層的輸入a[j?1]有關(guān),參數(shù)的更新方向應(yīng)該自由,因此應(yīng)該選擇一個正負(fù)值都可以輸出的激活函數(shù);

      7)模型對數(shù)據(jù)噪聲應(yīng)具有一定的魯棒性,因此激活函數(shù)應(yīng)該具備一定的飽和性。

      3 結(jié)束語與展望

      本文較詳細地列舉了激活函數(shù)的發(fā)展歷程及當(dāng)前主流激活函數(shù)所固有的特點,并推導(dǎo)了多層感知機的前向傳播、反向傳播過程,結(jié)合激活函數(shù)的發(fā)展經(jīng)驗提出了優(yōu)良激活函數(shù)應(yīng)該具備的一些性質(zhì)。這為深入了解激活函數(shù)提供了便利,為研究改進激活函數(shù)提供了一種思路。隨著計算機計算水平以及深度學(xué)習(xí)理論的不斷發(fā)展,激活函數(shù)的角色還會發(fā)生變化。未來可能從以下幾個方向突破:1)從計算機的計算能力限制中解放出來,應(yīng)用更復(fù)雜、特征映射更精細的激活函數(shù);2)深度學(xué)習(xí)理論的重大突破及神經(jīng)科學(xué)的解密可能會帶來激活函數(shù)發(fā)展的新思路;3)在ReLU 激活函數(shù)的模板下,對激活函數(shù)進行負(fù)半軸改造;4)稀疏性連接理念在激活函數(shù)中的應(yīng)用啟發(fā);5)針對特定任務(wù)應(yīng)用而設(shè)計激活函數(shù)(精度與時間復(fù)雜度的權(quán)衡)。

      激活函數(shù)作為卷積神經(jīng)網(wǎng)絡(luò)的一個必不可少的組成部分,不論是在ReLU 的基礎(chǔ)上進行改進,還是構(gòu)造全新激活函數(shù);不論是通用型激活函數(shù),還是單適用性激活函數(shù):其最終的目的是為了增強或更快速地對數(shù)據(jù)特征進行非線性映射,最終實現(xiàn)模型的高泛化能力或低時間復(fù)雜度。

      猜你喜歡
      半軸表達式導(dǎo)數(shù)
      法蘭盤半軸鉆鉸錐孔專用夾具設(shè)計
      解導(dǎo)數(shù)題的幾種構(gòu)造妙招
      一個混合核Hilbert型積分不等式及其算子范數(shù)表達式
      表達式轉(zhuǎn)換及求值探析
      淺析C語言運算符及表達式的教學(xué)誤區(qū)
      汽車半軸用鋼電沉積Ni-SiC復(fù)合鍍層的耐磨性
      關(guān)于導(dǎo)數(shù)解法
      導(dǎo)數(shù)在圓錐曲線中的應(yīng)用
      某重型車橋半軸斷裂失效分析
      函數(shù)與導(dǎo)數(shù)
      凉城县| 江城| 中西区| 清水河县| 淳化县| 绩溪县| 洛川县| 天等县| 涡阳县| 明光市| 徐水县| 临漳县| 井研县| 饶河县| 中西区| 云龙县| 辽宁省| 祁门县| 枝江市| 新建县| 景洪市| 灌阳县| 当涂县| 门源| 霍山县| 迁西县| 铜山县| 南漳县| 比如县| 绵竹市| 衡南县| 德阳市| 平顺县| 崇明县| 南漳县| 凤庆县| 剑阁县| 乐山市| 开封市| 天峻县| 奇台县|