黃穎 顧長貴 楊會杰
(上海理工大學管理學院,上海 200093)
隨著深度學習處理問題的日益復雜,神經(jīng)網(wǎng)絡的層數(shù)、神經(jīng)元個數(shù)、和神經(jīng)元之間的連接逐漸增加,參數(shù)規(guī)模急劇膨脹,優(yōu)化超參數(shù)來提高神經(jīng)網(wǎng)絡的預測性能成為一個重要的任務.文獻中尋找最優(yōu)參數(shù)的方法如靈敏度剪枝、網(wǎng)格搜索等,算法復雜而且計算量龐大.本文提出一種超參數(shù)優(yōu)化的“刪除垃圾神經(jīng)元策略”.權重矩陣中權重均值小的神經(jīng)元,在預測中的貢獻可以忽略,稱為垃圾神經(jīng)元.該策略就是通過刪除這些垃圾神經(jīng)元得到精簡的網(wǎng)絡結構,來有效縮短計算時間,同時提高預測準確率和模型泛化能力.采用這一策略,長短期記憶網(wǎng)絡模型對幾種典型混沌動力系統(tǒng)的預測性能得到顯著改善.
深度學習被廣泛應用于多學科領域,極大地提高了人們對復雜系統(tǒng)的認識.隨著應用場景日益復雜,數(shù)據(jù)量和系統(tǒng)特征量增多,網(wǎng)絡規(guī)模(層數(shù)、神經(jīng)元個數(shù)和神經(jīng)元之間的連接)日益膨脹,算法復雜度和計算量也因此在指數(shù)增長,通常用月或年來計算.而大規(guī)模的參數(shù),也意味著過擬合問題,從而降低習得的模型的泛化能力.超參數(shù)優(yōu)化,也就是通過優(yōu)化網(wǎng)絡結構,得到一個精簡的網(wǎng)絡結構,在計算時間可接受的條件下,顯著提高預測水平,達到性能最優(yōu),成為當前人工智能領域一個基本而迫切需要解決的任務.
目前網(wǎng)絡結構優(yōu)化大致分為兩種類型.一是基于相關參數(shù)和評價指標的變化情況直觀調整網(wǎng)絡結構,如擬合精度等指標的網(wǎng)格搜索法.這類方法理論上要遍歷所有參數(shù),耗時巨多,遠超當前計算能力.實際中往往按照一定比例枚舉參數(shù)取值,這又極易跳過最佳參數(shù).二是基于一些高效的優(yōu)化算法,如貝葉斯優(yōu)化[1]、靈敏度和相關性剪枝相結[2,3]、學習率優(yōu)化[4]、徑向基函數(shù)優(yōu)化[5]、多核極端學習機[6]、注意力機制引進[7]、擴展儲量計算分化神經(jīng)元[8]以及一些自適應算法[9]等,來提升訓練效率.在廣泛采用的靈敏度剪枝中,輪流刪除節(jié)點操作意味著龐大的計算量.為避免大計算量而采用的工程近似方法,易導致節(jié)點誤刪除[10].
本文提出神經(jīng)網(wǎng)絡超參數(shù)優(yōu)化的“刪除垃圾神經(jīng)元策略”.這一策略依據(jù)的一個簡單事實是,神經(jīng)元在時間序列預測中貢獻是不一樣的.給定一個初始的網(wǎng)絡結構,并對它進行訓練,在權重矩陣中權重平均值小的神經(jīng)元,在預測中的貢獻可忽略不計,稱為垃圾神經(jīng)元.從這一原始的神經(jīng)網(wǎng)絡中刪除這些垃圾神經(jīng)元,簡化網(wǎng)絡結構,來達到減小計算量、提高預測能力、增強泛化的目的.采用這一策略對長短期記憶網(wǎng)絡(LSTM)模型的網(wǎng)絡結構進行了優(yōu)化.LSTM 模型[11]作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的改進,既能記住短期信息,又能記住長期信息,克服了RNN 模型在時間跨度過長時容易存在梯度爆炸或梯度消失的問題,被廣泛應用于時間序列分析,如自然語言處理(NLP)、語音識別、金融數(shù)據(jù)預測等.對Logistic,Henon,Rossler 三種典型混沌系統(tǒng)的預測表明,這一策略可以有效改善LSTM的預測性能.
如圖1(a)所示[12],LSTM 網(wǎng)絡包含輸入層、隱藏層和輸出層,每一層由多個單元組成.在隱藏層的每個單元加入記憶細胞,并通過輸入門、遺忘門和輸出門來控制狀態(tài).
圖1 LSTM 神經(jīng)網(wǎng)絡 (a)LSTM 模型網(wǎng)絡結構;(b)單元內(nèi)部運行邏輯Fig.1.LSTM neural network: (a)network structure of LSTM;(b)run logic inside the cell.
其中,⊙為向量元素相乘.
ft控制ct-1到當前時間步的信息流動,it控制到當前時間步的信息流動,ot控制當前時間步的ct到ht的信息流動.如當ft接近1 且it接近0 時,過去的記憶細胞信息將會一直保留,可更好地捕捉時間序列中時間步較大的樣本間的依賴關系.當ot接近1 時,ct的信息將傳遞至ht供輸出層使用;當ot接近0 時,ct的信息將自己保留.
作為實例,我們考察了LSTM 對混沌系統(tǒng)預測的能力.采用刪除垃圾神經(jīng)元策略,簡化了隱藏層結構,顯著提高了預測能力.刪除垃圾神經(jīng)元策略的具體操作步驟如下.
1)搭建含有兩層LSTM和兩層全連接層的模型,用網(wǎng)格搜索法尋找最佳參數(shù)的大致取值范圍.由于模型中參數(shù)眾多,若以等差為1 的序列遍歷,模型訓練耗時將長達數(shù)年,因此以等比序列 2n或其他步長遍歷參數(shù).
2)由于初始權重隨機生成,單次訓練結果沒有統(tǒng)計意義,本文滑動讀取樣本分別進行多次訓練,并計算各組參數(shù)的預測準確率(預測值的漲跌趨勢和真實值漲跌趨勢相同的樣本量占總預測樣本量的比值)、R方值、MSE 等評價指標的平均值并輸出.根據(jù)準確率和R方值最高、MSE 最低、神經(jīng)元數(shù)最少的原則,初步選取最佳參數(shù)組合,包括各層神經(jīng)元數(shù)、迭代次數(shù)、batch、dropout 等.
3)用初步選取的最佳參數(shù)組合訓練模型并輸出網(wǎng)絡權重,分析各組權重代表的意義,明確垃圾神經(jīng)元.刪除垃圾神經(jīng)元得到簡潔的網(wǎng)絡結構,比較模型效果.
4)以不同的權重閾值為界,定義垃圾神經(jīng)元,盡量使每組閾值刪除的神經(jīng)元數(shù)分布均勻;比較精簡網(wǎng)絡后的預測效果,找到能最大程度提升模型性能的閾值.
具體考察Logistic[13],Henon[14]和Rossler[15]三個典型混沌系統(tǒng)的LSTM 預測.Takens 嵌入定理指出,混沌系統(tǒng)的每一維度變量都包含整個系統(tǒng)的長期演化信息[16].因此,我們從每個系統(tǒng)的動力學軌跡中,只抽取一維數(shù)據(jù)作為樣本,以使得各系統(tǒng)實驗結果之間具有可比性.
Logistic 模型也稱蟲口模型,其差分方程表示為
隨著參數(shù)μ的增加,系統(tǒng)發(fā)生倍周期分叉,當μ∈[3.569,4],系統(tǒng)出現(xiàn)混沌現(xiàn)象.由于Logistic 系統(tǒng)隨著參數(shù)取值不同,混沌程度也不同,因此μ分別取3.6,3.7,3.8,3.9,3.99 生成樣本量為50000 的一維時間序列數(shù)據(jù).圖2(a)給出的是μ取3.9 時的軌跡.
Henon 映射的迭代表達式為
其 中a=1.4,b=0.3.x和y初始值取 為0.01 生成樣本量為50000 的時間序列數(shù)據(jù).圖2(b)中橫軸表示系統(tǒng)的迭代次數(shù),圖像給出迭代前100 次得到的x,y值構成的軌跡.
Rossler 系統(tǒng)是一連續(xù)混沌動力系統(tǒng),其微分方程組為
其中參數(shù)a取0.2,b取0.4,c取5.7.以xyz0為初始值,采用四階Runge-Kutta 方法[17],以0.001為步長模擬出t∈[0,500] 的運動軌跡,圖2(c)給出前10000 個時間點的軌跡.為使樣本量同另外兩個系統(tǒng)一致從而結果具有可比性,本文再以10 為抽樣步長得到50000 條數(shù)據(jù)作為樣本.
圖2 混沌時間序列 (a)Logistic 系統(tǒng),μ=3.9;(b)Henon系統(tǒng);(c)Rossler 系統(tǒng)Fig.2.Chaotic time series: (a)Logistic system,μ=3.9;(b)Henon system;(c)Rossler system.
對數(shù)據(jù)進行歸一化處理.三個系統(tǒng)的訓練集樣本量均取為5000.由于LSTM 模型預測較長時間后的數(shù)據(jù)意義不大,因此選取測試集樣本量為15.為使實驗結果具有統(tǒng)計意義,以一定步長滑動選取樣本進行多次實驗.本文分別以100,200,300,···,4000 作為滑動窗口訓練10 次模型,取10 次預測準確率的均值為最終結果,發(fā)現(xiàn)不同滑動窗口對應的平均預測準確率在70%附近上下波動,可見滑動窗口大小對預測結果沒有顯著影響.為充分利用并均勻覆蓋已有樣本,選取4000 為滑動窗口進行預測,如第一批樣本以1—5000 條數(shù)據(jù)作為訓練集,5001—5015 條數(shù)據(jù)作為測試集;第二批樣本以4000—9000 條數(shù)據(jù)作為訓練集,9001—9015 條數(shù)據(jù)作為測試集;以此類推,共訓練10 批樣本(最后一批樣本以40000—45000 條數(shù)據(jù)作為訓練集,45001—45015 條數(shù)據(jù)作為測試集).最終以10 次預測評價指標的均值作為模型最終的評價指標.
三個系統(tǒng)初步選取的最佳參數(shù)組合如表1 所列.其中,train 為訓練集樣本量;test 為測試集樣本量;win 為滑動窗口數(shù),表示每次觀測到的樣本數(shù),如win 為3 表示第一批輸入模型的樣本為x1,x2,x3,下一批為x2,x3,x4,以此類推;L1為第一層LSTM 輸出神經(jīng)元數(shù);L2為第二層LSTM 輸出神經(jīng)元數(shù);D1為第一層全連接層輸出神經(jīng)元數(shù);D2為第二層全連接層輸出神經(jīng)元數(shù),即最終輸出.
表1 模型參數(shù)及結果Table 1.Parameters and results of the models.
在多數(shù)模型中,以較為常見的步長2n進行網(wǎng)格搜索得到的預測準確率是相對較高的,第一層網(wǎng)絡的最優(yōu)參數(shù)基本穩(wěn)定在16 個神經(jīng)元,對于訓練集樣本數(shù)為5000 的數(shù)量級來說是足夠的,更復雜的網(wǎng)絡容易造成過擬合;當然也有部分模型以2n為步長網(wǎng)格搜索時未能得到不錯的預測效果,文中也會視情況選擇其他步長,如μ3.8 的Logistic 模型,以10 為步長進行網(wǎng)格搜索可得到更好的預測效果,此時便在網(wǎng)格搜索最優(yōu)參數(shù)為20 的基礎上進一步優(yōu)化超參數(shù).
全連接層的權重較為簡單,在此不做分析.LSTM 層的權重包含三個張量: kernel,recurrent_kernel和bias,每個張量的維數(shù)為4×神經(jīng)元數(shù),依次為input_gate,forget_gate,cell和output_gate,權重拆分如表2 所列.
表2 權重結構拆分Table 2.Weight structure resolution.
根據(jù)(1a)式—(1d)式可知,output_gate 權重直接關系到神經(jīng)元的最終輸出結果,因此對該權重做熱度圖以便于分析.以Logistic 系統(tǒng)中μ3.99為例,LSTM 輸出層神經(jīng)元數(shù)為16,輸出門對應的權重矩陣維數(shù)為16×16.如表3 所列,第一行權重表示隱藏層輸入的16 個神經(jīng)元對輸出的第一個神經(jīng)元影響大小,第一列則表示隱藏層輸入的第一個神經(jīng)元對輸出的16 個神經(jīng)元的影響大小,均值行為每個輸入神經(jīng)元對所有輸出神經(jīng)元的權重絕對值的平均值,均值越小的神經(jīng)元可以理解為對整個輸出層的影響越小.
在python 中用imshow 函數(shù)繪制出該權重矩陣對應的熱圖.首先對表3 中每一行的權重數(shù)據(jù)分別進行歸一化,便于分析隱藏層輸入神經(jīng)元對各個輸出神經(jīng)元的影響大小;接著繪制熱圖,顏色越黃權重越高,顏色越藍權重越低.為了更直觀地體現(xiàn)各輸入神經(jīng)元的重要性,進一步繪制如圖3和圖4所示的熱圖.同樣地,顏色越黃權重均值越高,表示該輸入神經(jīng)元給整個輸出層提供的信息越多;顏色越藍權重均值越低,表示該輸入神經(jīng)元給整個輸出層提供的信息越少,均值足夠低的輸入神經(jīng)元即可作為垃圾神經(jīng)元刪除.
圖3 隱藏層輸入神經(jīng)元對輸出神經(jīng)元的權重熱圖Fig.3.Heat map of weight of input neuron to output neuron in hidden layer.
表3 輸出門權重矩陣圖Table 3.Heat diagram of output door’s weights.
圖4 隱藏層各輸入神經(jīng)元對輸出神經(jīng)元的權重均值熱圖Fig.4.Heat map of weights’ mean value of input neurons to output neurons in hidden layer.
輸出神經(jīng)元的計算公式
在以 2n為參數(shù)序列進行網(wǎng)格搜索[18-20]時,與16 個相鄰的神經(jīng)元參數(shù)為8,在該參數(shù)區(qū)間內(nèi),以不同閾值刪減神經(jīng)元并觀察模型預測結果變化.圖5 為16 個輸入神經(jīng)元的權重均值折線圖,如w11列的權重均值在均值行中的顏色最淺,則該神經(jīng)元對輸出值的影響最小,w15 列的權重均值在均值行中的顏色最深,則該神經(jīng)元對輸出值的影響最大.
圖5 權重均值折線圖Fig.5.Line graph of the weights’ mean.
表4 給出以權重均值低于0.09,0.1和0.11 為閾值刪除垃圾神經(jīng)元以及神經(jīng)元數(shù)調整前后的預測準確率,通過迷你趨勢圖觀察以不同閾值刪除垃圾神經(jīng)元對模型預測性能的影響.通過網(wǎng)格搜索得到神經(jīng)元數(shù)為16 時模型預測準確率為57.1%;權重均值低于0.09 的神經(jīng)元有1 個,刪除后神經(jīng)元數(shù)降為15,預測準確率為59.3%,比初始結果提升2.2 個百分點;權重均值低于0.1 的神經(jīng)元有4 個,刪除后神經(jīng)元數(shù)降為12,預測準確率為56.4%,比初始結果降低0.7 個百分點;權重均值低于0.11 的神經(jīng)元有6 個,刪除后神經(jīng)元數(shù)降為10,預測準確率為51.4%,與初始降低5.7 個百分點.從預測準確率的迷你趨勢圖來看,刪除1 個權重均值低于0.09 的垃圾神經(jīng)元可提升預測效果,減少了部分過擬合;隨著刪減數(shù)目的增多,模型欠擬合,預測準確率逐漸低于原始水平.因此,基于權重分析適當刪減垃圾神經(jīng)元的方法能有效提升模型性能.
表4 μ=3.99 時不同參數(shù)的預測準確率Table 4.The prediction accuracy of different parameters when μ=3.99.
三個系統(tǒng)在不同參數(shù)取值下,以相同策略選取刪減垃圾神經(jīng)元的權重閾值以提升最終的預測準確率;刪除垃圾神經(jīng)元的數(shù)量及調整網(wǎng)絡結構前后的預測準確率具體結果如表5 所列.
表5 神經(jīng)元數(shù)及預測準確率變化表Table 5.Table of neuron numbers and prediction accuracy.
在Logistic 系統(tǒng)中,μ3.6 時的結果如表6 所列,網(wǎng)格搜索得到神經(jīng)元數(shù)為16,模型預測準確率為82.9%.為使神經(jīng)元數(shù)位于區(qū)間(8,16)中,分別以權重均值低于0.08,0.09,0.095 為閾值刪減神經(jīng)元并觀察模型效果.刪除權重均值低于0.08 的1 個神經(jīng)元,預測準確率為90.7%,比初始預測結果提升7.8%;刪除權重均值低于0.09 的4 個神經(jīng)元,預測準確率為87.9%,比初始結果提升5%;刪除權重均值低于0.095 的6 個神經(jīng)元,預測準確率為78.6%,比初始結果降低4.3%,效果更差.從迷你趨勢圖來看,刪除1 個權重均值在0.08 以下的垃圾神經(jīng)元可最大程度提升預測效果;隨著刪減數(shù)目增多,運行成本持續(xù)降低,預測準確率逐漸回落,直至模型欠擬合使預測效果低于原始水平.
表6 μ=3.6 時不同參數(shù)的預測準確率Table 6.The prediction accuracy of different parameters when μ=3.6.
μ3.7 時的結果如表7 所列,網(wǎng)格搜索得到神經(jīng)元數(shù)為16,模型預測準確率為70.7%.為使神經(jīng)元數(shù)位于區(qū)間(8,16)中,分別以權重均值低于0.075,0.09,0.105 為閾值刪減神經(jīng)元并觀察模型效果.刪除權重均值低于0.08 的3 個神經(jīng)元,預測準確率為71.4%,比初始預測結果提升0.7%;刪除權重均值低于0.095 的5 個神經(jīng)元,準確率為65%,比初始結果降低5.7%;刪除權重均值低于0.105 的7 個神經(jīng)元,預測準確率為60.7%,比初始結果降低10%,效果更差.從迷你趨勢圖來看,刪除3 個權重均值在0.075 以下的垃圾神經(jīng)元可最大程度提升預測效果;隨著刪減數(shù)目的增多,模型欠擬合導致預測效果愈發(fā)低于原始水平.
表7 μ=3.7 時不同參數(shù)的預測準確率Table 7.The prediction accuracy of different parameters when μ=3.7.
μ3.8 時的結果如表8 所列,網(wǎng)格搜索得到神經(jīng)元數(shù)為20,模型預測準確率為68.6%.為使神經(jīng)元數(shù)位于區(qū)間(10,20)中,分別以權重均值低于0.08,0.09,0.1 為閾值刪減神經(jīng)元并觀察模型效果.刪除權重均值低于0.08 的2 個神經(jīng)元和權重均值低于0.095 的5 個神經(jīng)元,預測準確率均為68.6%,均與初始結果持平,但刪減數(shù)量越多,運行成本會相對越低;權重均值低于0.105 的神經(jīng)元有8 個,刪除后神經(jīng)元數(shù)降為12,預測準確率為65%,比初始結果降低3.6%.從迷你趨勢圖來看,刪除4 個權重均值在0.09 以下的垃圾神經(jīng)元可在預測準確率不降低的前提下節(jié)省最多的運行成本;繼續(xù)刪減便會導致模型欠擬合,使得預測效果低于原始水平.
表8 μ=3.8 時不同參數(shù)的預測準確率Table 8.The prediction accuracy of different parameters when μ=3.8.
μ3.9 時的結果如表9 所列,網(wǎng)格搜索得到神經(jīng)元數(shù)為16,模型預測準確率為60%.為使神經(jīng)元數(shù)位于區(qū)間(8,16)中,分別以權重均值低于0.09,0.095,0.1 為閾值刪減神經(jīng)元并觀察模型效果.刪除權重均值低于0.09 的2 個神經(jīng)元和權重均值低于0.095 的4 個神經(jīng)元,預測準確率均為60%,均與初始結果持平,但刪減數(shù)量越多,運行成本會相對越低;權重均值低于0.105 的神經(jīng)元有6 個,刪除后神經(jīng)元數(shù)降為10,預測準確率為55%,比初始結果降低5%.從迷你趨勢圖來看,刪除4 個權重均值在0.095 以下的垃圾神經(jīng)元可在預測準確率不降低的前提下節(jié)省最多的運行成本;繼續(xù)刪減便會導致模型欠擬合,使得預測效果低于原始水平.
表9 μ=3.9 時不同參數(shù)的預測準確率Table 9.The prediction accuracy of different parameters when μ=3.9.
圖6 給出參數(shù)μ分別取值3.6,3.7,3.8,3.9,3.99 時選擇最優(yōu)權重閾值的變化.μ值越小混沌程度越弱,μ值越大混沌程度越強,可見隨著混沌程度的提升,最優(yōu)權重閾值整體呈上升趨勢;系統(tǒng)越混沌,需要保留的神經(jīng)元權重越高.圖7 給出參數(shù)μ分別取值3.6,3.7,3.8,3.9,3.99 時優(yōu)化超參數(shù)前后的模型預測準確率變化.由于參數(shù)越大,模型的混沌程度越高,當μ接近4 時,x取值越近似于在0—1 之間隨機分布,預測難度更大.因此整體來看,無論超參數(shù)調整前還是調整后的預測準確率都呈下降趨勢;從調整超參數(shù)前后的預測準確率變化幅度來看,剔除垃圾神經(jīng)元對模型性能的提升效果是逐步降低的.但最差的效果也就是預測準確率與原先持平,而運行成本卻大大降低了,說明該方法可準確定位到對模型預測沒有貢獻的垃圾神經(jīng)元,在不影響訓練效果的情況下,最大程度降低模型運行負擔、提升模型性能,這在參數(shù)眾多、耗時較長的深度學習模型訓練中是有重要意義的.
圖6 不同混沌狀態(tài)對應的最優(yōu)權重閾值變化Fig.6.The change of optimal weight threshold corresponding to different chaotic states.
圖7 不同混沌狀態(tài)對應的預測準確率變化Fig.7.The change of prediction accuracy of different chaotic states.
為了進一步說明該方法的可行性,本文用Henon 系統(tǒng)和Rossler 系統(tǒng)的一維獨立變量分別再次進行實證研究,結果如表10和表11 所列.
表11 Rossler 系統(tǒng)取不同參數(shù)的預測準確率Table 11.Prediction accuracy of Rossler system for different parameters.
在Henon 系統(tǒng)一維獨立數(shù)據(jù)模型中,網(wǎng)格搜索得到神經(jīng)元數(shù)為22,模型預測準確率為67.1%.為使神經(jīng)元數(shù)位于區(qū)間(14,22)中,分別以權重均值低于0.1,0.11,0.12,0.14 為閾值刪減神經(jīng)元并觀察模型效果.如表10 所列,刪除權重均值低于0.1 的1 個神經(jīng)元后,預測準確率為70%,比初始結果提升2.9%;刪除權重均值低于0.11 的3 個神經(jīng)元后,預測準確率為66.4%,比初始結果降低0.7%;刪除權重均值低于0.12 的6 個神經(jīng)元后,預測準確率為65.7%,比初始結果降低1.4%;刪除權重均值低于0.14 的8 個神經(jīng)元后,預測準確率為65%,比初始結果降低2.1%.從迷你趨勢圖來看,刪除1 個權重均值在0.1 以下的垃圾神經(jīng)元可最大程度提升預測效果;更多的刪減則導致模型欠擬合,預測效果越來越差.
表10 Henon 系統(tǒng)取不同參數(shù)的預測準確率Table 10.Prediction accuracy of Henon system for different parameters.
在Rossler 系統(tǒng)一維獨立數(shù)據(jù)模型中,網(wǎng)格搜索得到神經(jīng)元數(shù)為16,模型預測準確率為77.1%.為使神經(jīng)元數(shù)位于區(qū)間(8,16)中,分別以權重均值低于0.085,0.095,0.105,0.115 為閾值刪減神經(jīng)元并觀察模型效果.如表11 所列,刪除權重均值低于0.085 的2 個神經(jīng)元后,預測準確率為83.6%,比初始結果提升6.5%;刪除權重均值低于0.095的4 個神經(jīng)元后,預測準確率為81.4%,比初始結果提升4.3%;刪除權重均值低于0.105 的5 個神經(jīng)元后,預測準確率為80.7%,比初始結果提升3.6%;刪除權重均值低于0.115 的8 個神經(jīng)元后,預測準確率為71.4%,比初始結果降低5.7%.從迷你趨勢圖來看,刪除1 個權重均值在0.085 以下的垃圾神經(jīng)元預測效果最好;以低于0.095和0.105 為閾值刪減神經(jīng)元帶來的預測準確率提升相對前者越來越低,但仍然高于初始水平,且運行成本越來越低;繼續(xù)刪減更多的神經(jīng)元,模型欠擬合導致預測效果越來越差,低于初始水平.
以上所有模型均采用滑動選取樣本的方法,進行了10 次以上的訓練并對最終的評價指標取平均值,故結果具有統(tǒng)計意義,并非偶然現(xiàn)象.觀察這些系統(tǒng)在刪減不同閾值下垃圾神經(jīng)元時的預測效果變化,發(fā)現(xiàn)大多情況下,使預測效果提升最大的閾值不超過0.1,即通常將權重均值不超過0.1(甚至更低)的神經(jīng)元視為垃圾神經(jīng)元并刪除可較大提升模型性能.通過多次實驗,充分證明所提方法的可行性與有效性.
針對現(xiàn)有的超參數(shù)優(yōu)化方法存在的過擬合、計算量龐大等問題,本文提出了通過分析權重含義定位冗余神經(jīng)元,從而快速高效地精簡網(wǎng)絡結構、降低運行成本、提升訓練效果的方法.
由于深度學習模型參數(shù)眾多,挨個遍歷所有參數(shù)動輒耗時長達數(shù)年,運行成本極高;否則又會躍過最佳參數(shù),達不到最好的訓練效果,即使達到最好的訓練效果,也可能因為模型結構不夠精簡而導致過擬合,冗余神經(jīng)元也會大大降低運行效率.通過Logistic 模型、Henon 模型、Rossler 模型的實證分析,證明此方法可大大提高尋找最優(yōu)參數(shù)的效率,減少模型中冗余的神經(jīng)元,從而避免過擬合、提高泛化能力.在模型預測準確率不受影響的前提下,有效縮短計算時間,提高運行效率,甚至可以通過減少過擬合使準確率得到提升.
混沌時間序列為看似無序的有序系統(tǒng),以此進行實證研究可證明方法本身的有效性.但在實際數(shù)據(jù)中往往存在許多白噪聲,因此,如何降噪并有效應用于實際數(shù)據(jù)成為我們下一步繼續(xù)研究的問題.