王欣羽,孟品超,尹偉石
(長春理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長春 130022)
近年來深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為人工智能的核心框架,神經(jīng)網(wǎng)絡(luò)的理論分析也成為學(xué)術(shù)研究的熱點(diǎn)問題之一。Weinan[1]研究發(fā)現(xiàn)殘差神經(jīng)網(wǎng)絡(luò)(ResNet)中的殘差結(jié)構(gòu)與連續(xù)(離散)動(dòng)力系統(tǒng)存在某些一致性,把ResNet 解釋為一階非線性常微分方程。隨后,這種思想被應(yīng)用到深度神經(jīng)網(wǎng)絡(luò)(DNN),更一般地,機(jī)器學(xué)習(xí)可以看作由函數(shù)的表示、損失函數(shù)和訓(xùn)練動(dòng)力學(xué)構(gòu)成的一個(gè)連續(xù)公式,這使得許多機(jī)器學(xué)習(xí)模型被證明可以轉(zhuǎn)化為不同連續(xù)方程的特定離散化,如隨機(jī)特征模型、雙層神經(jīng)網(wǎng)絡(luò)模型和殘差神經(jīng)網(wǎng)絡(luò)模型等[2]。神經(jīng)網(wǎng)絡(luò)能夠用微分方程解釋,就能夠利用微分方程解的穩(wěn)定性來分析神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性。在常微分方程理論啟發(fā)下,Haber E 和Ruthotto L[3]通 過使Jacobi 矩 陣 特 征值實(shí)部足夠小,來構(gòu)造能夠保持穩(wěn)定性的網(wǎng)絡(luò)框架。除此之外,也可以利用方程的數(shù)值方法設(shè)計(jì)新的網(wǎng)絡(luò)結(jié)構(gòu),以此提高網(wǎng)絡(luò)的穩(wěn)定性和泛化能力[4-6]。
門控循環(huán)單元網(wǎng)絡(luò)(GRU)是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在解決各類實(shí)際問題中表現(xiàn)出較好的能力,尤其在學(xué)習(xí)長序列時(shí),能夠解決梯度爆炸和梯度消失的問題[7-8]。通過研究RNN 引起的動(dòng)力系統(tǒng)行為,發(fā)現(xiàn)在沒有輸入數(shù)據(jù)的情況下,GRU 表現(xiàn)出混沌動(dòng)力學(xué)[9-10]。但在各類實(shí)際應(yīng)用中,GRU 在訓(xùn)練和測試中都保持了穩(wěn)定性,本文給出并證明了GRU 穩(wěn)定性的定理。
單層GRU 結(jié)構(gòu)如圖1 所示,每個(gè)節(jié)點(diǎn)的運(yùn)算結(jié)構(gòu)代表一個(gè)門控單元的運(yùn)算過程,節(jié)點(diǎn)t(t= 1,2,…,T)的輸入xt與節(jié)點(diǎn)t- 1 的輸出ht-1合并后,經(jīng)過門控單元的運(yùn)算,得到節(jié)點(diǎn)t的狀態(tài)ht,將其傳入下一個(gè)節(jié)點(diǎn)t+ 1。這里節(jié)點(diǎn)t的輸入xt和輸出ht分別表示為:,。
圖1 GRU 結(jié)構(gòu)圖
門控單元主要包括更新門和重置門。更新門zt+1是通過節(jié)點(diǎn)t+ 1 的輸入數(shù)據(jù):xt+1∈?n(t= 0,1,…,T- 1) 與節(jié)點(diǎn)t的隱含層狀態(tài)ht∈?m,利用激活函數(shù)作用生成:
更新門用于控制前一節(jié)點(diǎn)的狀態(tài)信息被帶入到當(dāng)前狀態(tài)中的程度,其值越大說明前一個(gè)節(jié)點(diǎn)保留下的信息越多。
重置門rt+1用來控制忽略前一節(jié)點(diǎn)的狀態(tài)信息的程度,其值越小說明忽略的信息越多。
在將節(jié)點(diǎn)t的信息傳遞到節(jié)點(diǎn)t+ 1 時(shí),還需要利用重置門信息對(duì)前一節(jié)點(diǎn)狀態(tài)ht進(jìn)行忽略,再與輸入xt+1作用得到候選激活狀態(tài),表示為:
其中,代表矩陣乘積;?代表Hadamard 積;權(quán)重矩陣Wzx、Wrx、Wh?h∈?m×m;Wzx、Wrx、Wh?x∈?m×m。
從而,GRU節(jié)點(diǎn)t+1的輸出ht+1可表示為:
其中,ht+1的第i項(xiàng)可寫為:
每個(gè)節(jié)點(diǎn)t+ 1 的狀態(tài)ht+1只與上一節(jié)點(diǎn)的狀態(tài)ht和當(dāng)前節(jié)點(diǎn)的輸入值xt+1有關(guān)。
為了用離散動(dòng)力系統(tǒng)逼近GRU,下面討論GRU 的動(dòng)力學(xué)表示。
其中,映射關(guān)系G(ht,xt+1)滿足:
因此,單層GRU 在給定一個(gè)初值h0時(shí),都能得到一個(gè)近似解ht,使得該方程在每個(gè)節(jié)點(diǎn)的解都是連續(xù)方程在節(jié)點(diǎn)的近似解,當(dāng)計(jì)算到方程在節(jié)點(diǎn)T的解時(shí),就相當(dāng)于GRU 完成了前向傳播過程。
映射關(guān)系? 滿足:
由此得到無輸入GRU 的動(dòng)力系統(tǒng)表達(dá)式為:
可見系統(tǒng)中?(ht)不顯含變量t。因此,可以得出以下結(jié)論:
定理1:單層無輸入的GRU 系統(tǒng)是一種自治非線性動(dòng)力系統(tǒng)。
因此,可以用動(dòng)力學(xué)系統(tǒng)的理論來判斷單層無輸入GRU 的穩(wěn)定性。
一般地,通過微分方程的平衡解或零解隨時(shí)間變化的程度,來判斷方程的解的穩(wěn)定性。這里首先給出Lyapunov 意義下微分方程解的穩(wěn)定性的定義和Krasovskii 方法。
定義1:設(shè)f(t,x)滿足解的存在唯一性定理的條件,且微分方程初值問題,x∈?n的解x(t)=x(t,t0,x0)在(-∞, +∞)存在,f(t,x)還滿足f(t,0)= 0,即x(t)= 0 是方程的解,稱x(t)= 0 為方程的零解。
定理1 給出GRU 系統(tǒng)是一種非線性系統(tǒng),這種非線性系統(tǒng)的穩(wěn)定性可以通過Lyapunov 穩(wěn)定性判定方法中Krasovskii 方法來判斷。
引理1:(Krasovskii 方法)對(duì)于非線性系統(tǒng):
若系統(tǒng)滿足如下條件:
(1)平衡解為x= 0。
(2)f(x) 對(duì)狀態(tài)變量x是連續(xù)可微的,即存在矩陣,使為負(fù)定矩陣,其中,那么系統(tǒng)(11)漸近穩(wěn)定。
由此給出n維單層無輸入GRU 的局部穩(wěn)定性條件。
定理2:若n階權(quán)重矩陣的所有n個(gè)特征值都小于2,則單層無輸入的GRU 在原點(diǎn)處是局部漸近穩(wěn)定的。
證明:由公式(10)單層無輸入的GRU 網(wǎng)絡(luò)可以表示為:
式中,T是GRU 單元個(gè)數(shù);ct為中間變量。
其對(duì)應(yīng)的連續(xù)方程形式為:
其中,h=(h1,h2,…,hn)T。
該微分方程的解h在(-∞, +∞)存在,滿足存在唯一性定理,且f(h)滿足f(0) = 0,故h= 0 為方程的零解,進(jìn)一步得到h=c= 0。
單層無輸入GRU 的Jacobi矩陣表達(dá)式中僅含有權(quán)重矩陣Wh?和單位矩陣E,這說明系統(tǒng)的穩(wěn)定性只依賴于候選激活狀態(tài)的權(quán)重矩陣Wh?。因此,可以通過在訓(xùn)練中選擇滿足該條件的權(quán)值矩陣Wh?,來保證其前向傳播的穩(wěn)定性。
任意選擇三種初始狀態(tài):(0.5, - 0.75),(-0.9,0.5),(-0.19, - 1.5),取總體迭代次數(shù)T= 50,步長ε= 0.1。利用二維無輸入的單層GRU 來預(yù)測隱藏狀態(tài)的軌跡,考慮以下兩種候選激活狀態(tài)的權(quán)重矩陣Wh?,他們分別對(duì)應(yīng)圖2(a)和圖2(c):
圖2 GRU 動(dòng)力學(xué)可視化和變化趨勢圖
權(quán)重矩陣W+的兩個(gè)特征值分別為λ1(W+)=-5,λ2(W+)= -3,權(quán)重矩陣的所有特征值都小于2,且隱藏狀態(tài)分別從各自初始點(diǎn)(用星號(hào)表示)向原點(diǎn)移動(dòng),此時(shí)網(wǎng)絡(luò)在原點(diǎn)處滿足局部漸近穩(wěn)定。而權(quán)重矩陣W-的特征值λ1(W-)= 4 +1.7i,λ2(W-)= 4 - 1.7i,實(shí)部都是大于2的正數(shù),每個(gè)初始點(diǎn)都向不同的終點(diǎn)移動(dòng),從圖2(d)也可看出每個(gè)初始點(diǎn)的坐標(biāo)最終都穩(wěn)定在不同的坐標(biāo)點(diǎn)下。若權(quán)重矩陣對(duì)應(yīng)的特征值不滿足定理2 的穩(wěn)定條件,那么在多次迭代后其輸出值不趨于零點(diǎn),且輸出值不可預(yù)測。
若動(dòng)力系統(tǒng)在零解處漸近穩(wěn)定,那么隨迭代次數(shù)的增加,每次迭代得到的結(jié)果都會(huì)逐步趨向零解,直至達(dá)到完全平穩(wěn)。從圖2(b)的仿真結(jié)果可以看出,盡管無輸入的GRU 在不同初始值下到穩(wěn)定的速度不同,但其最終都在零點(diǎn)處達(dá)到穩(wěn)定。而對(duì)于不滿足穩(wěn)定條件的GRU,雖然每個(gè)初始點(diǎn)在迭代多次后最終都趨于穩(wěn)定,但每個(gè)初始點(diǎn)的穩(wěn)定點(diǎn)都不相同,無法預(yù)測最終的運(yùn)行軌跡。因此,可以說在滿足定理2 的條件下,無輸入的GRU 其結(jié)果具有可預(yù)測的動(dòng)態(tài)特性。
對(duì)于波動(dòng)方程的散射問題,正向物理過程屬于適定問題,但在求解反問題過程中,方程的解關(guān)于已知數(shù)據(jù)不穩(wěn)定,這就導(dǎo)致了波場障礙物反演是一種典型的不適定問題??紤]在Dirichlet條件下,利用GRU 反演單入射波和多角度入射波下的障礙物形狀[11-12]。
網(wǎng)絡(luò)的運(yùn)行效果通過對(duì)花生形狀邊界的反演誤差來進(jìn)行評(píng)估。障礙物邊界反演過程以遠(yuǎn)場數(shù)據(jù)作為GRU 輸入,GRU 最終節(jié)點(diǎn)的隱藏狀態(tài)hT發(fā)送到全連接層進(jìn)行形狀參數(shù)提取,將所得參數(shù)帶入到經(jīng)過傅里葉展開的曲線方程中繪制預(yù)測曲線。這里Adam 作為優(yōu)化器,將遠(yuǎn)場數(shù)據(jù)依次按節(jié)點(diǎn)順序呈現(xiàn)到GRU 中,換句話說,每個(gè)節(jié)點(diǎn)的輸入是遠(yuǎn)場數(shù)據(jù)中實(shí)部和虛部構(gòu)成的二維向量,輸出是曲線參數(shù)方程的傅里葉系數(shù),時(shí)間步長在單入射情況下為T=n,在多角度入射時(shí)T=n2。
研究二維不可穿透障礙物的邊界曲線f(x),其中入射波數(shù)k= 1.5。在散射場[ 0,2π ]中均勻設(shè)置n個(gè)觀測點(diǎn),且GRU 的門控單元個(gè)數(shù)與觀測點(diǎn)個(gè)數(shù)n相同,利用GRU 得到反演結(jié)果,誤差計(jì)算函數(shù)為,表1 給 出了網(wǎng)絡(luò)的訓(xùn)練誤差和測試誤差。
表1 單入射下不同觀測點(diǎn)個(gè)數(shù)對(duì)反演效果的影響
由表1 可見,觀測點(diǎn)個(gè)數(shù)的增加意味著包含的障礙物遠(yuǎn)場信息增多,在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測中,網(wǎng)絡(luò)的運(yùn)行所消耗的時(shí)間也會(huì)增加,相應(yīng)的反演結(jié)果與真實(shí)曲線的誤差逐漸減小,這說明網(wǎng)絡(luò)在整個(gè)學(xué)習(xí)過程中保持了穩(wěn)定反演效果和泛化能力。圖3 給出了在單入射下的反演效果圖。
圖3 觀測點(diǎn)個(gè)數(shù)為n= 5,15,25,30,35 時(shí)反演效果圖
從圖3 可見,在單入射情況下,隨著觀測點(diǎn)的增加,獲得了更多的遠(yuǎn)場信息,較好地反演出障礙物的形狀曲線,尤其是在圖像拐點(diǎn)處也能很好地貼合真實(shí)曲線形狀。
相比于單入射情況,多角度入射得到的遠(yuǎn)場數(shù)據(jù)能夠包含更多的障礙物邊界信息,從理論上能夠得到更好的反演效果。
在多角度入射的情況下,設(shè)置觀測點(diǎn)個(gè)數(shù)和入射點(diǎn)個(gè)數(shù)相同。取入射點(diǎn)的個(gè)數(shù)分別為n=3,5,7,研究在這種情況下網(wǎng)絡(luò)對(duì)障礙物形狀邊界的反演效果。
從表2 中的測試誤差可以看出,利用越多的有效信息反演出障礙物的效果越好。這與理論分析結(jié)果相同。當(dāng)入射點(diǎn)個(gè)數(shù)和觀測點(diǎn)個(gè)數(shù)均為7 時(shí),每個(gè)障礙物形狀由7 × 7 個(gè)遠(yuǎn)場數(shù)據(jù)表示,而單入射15 個(gè)觀測點(diǎn)的情況僅包含15 個(gè)遠(yuǎn)場數(shù)據(jù),此時(shí)多入射反演產(chǎn)生的誤差與單入射情況下效果基本相同,因此,在數(shù)據(jù)集遠(yuǎn)場數(shù)據(jù)有限的情況下,通過構(gòu)造單入射多個(gè)觀測點(diǎn)的數(shù)據(jù)能夠通過較少的遠(yuǎn)場數(shù)據(jù)得到相似的訓(xùn)練效果。反演結(jié)果如圖4 所示。
表2 觀測點(diǎn)個(gè)數(shù)對(duì)反演效果的影響
在觀測點(diǎn)數(shù)n= 3 時(shí),圖4 所示的反演結(jié)果,在外凸部分相對(duì)于觀測點(diǎn)個(gè)數(shù)為5 和7 時(shí)誤差較大,圖4 反演的花生形狀在曲線拐點(diǎn)處的凹陷較淺,曲線夾角大,在不同觀測點(diǎn)個(gè)數(shù)時(shí)都能較好地反演出原有形狀。而當(dāng)觀測點(diǎn)個(gè)數(shù)增加到7 時(shí),反演結(jié)果都能夠幾乎與原曲線重合,從表3上的誤差結(jié)果看,這三種觀測點(diǎn)個(gè)數(shù)的選取都能使預(yù)測誤差低于0.05,在實(shí)際反演形狀曲線時(shí)能夠得到接近真實(shí)值的邊界曲線。
圖4 觀測點(diǎn)個(gè)數(shù)為n= 3,5,7 時(shí)反演效果圖
表3 不同噪聲程度下的訓(xùn)練效果
實(shí)際計(jì)算得到的遠(yuǎn)場數(shù)據(jù)是存在誤差的,為了檢測遠(yuǎn)場數(shù)據(jù)中誤差對(duì)網(wǎng)絡(luò)反演效果的影響,在遠(yuǎn)場數(shù)據(jù)集中添加了一些隨機(jī)噪聲。當(dāng)入射點(diǎn)和觀測點(diǎn)個(gè)數(shù)都為n= 7 時(shí),反演出的障礙物形狀與原形狀誤差最小,在原有參數(shù)下,對(duì)數(shù)據(jù)集添加高斯白噪聲N(0,per2),分別考慮噪聲per =5,20,50 的情況。訓(xùn)練時(shí)間和誤差如表3 所示。
將帶有不同噪聲的遠(yuǎn)場數(shù)據(jù)的反演結(jié)果顯示在表3 中,可見添加不同程度的噪聲對(duì)整體的反演效果影響不大,噪聲越小其誤差也就越小,當(dāng)原始數(shù)據(jù)集中噪聲占比達(dá)到50%時(shí),依然能夠描繪出障礙物的邊界形狀,表明了在該條件下的網(wǎng)絡(luò)結(jié)構(gòu)具有穩(wěn)定性。
如圖5 所示,當(dāng)遠(yuǎn)場數(shù)據(jù)包含低水平的噪聲時(shí),該模型可以準(zhǔn)確地反轉(zhuǎn)形狀參數(shù)并重建障礙物的形狀。可以看出,該網(wǎng)絡(luò)對(duì)噪聲具有很強(qiáng)的魯棒性。
圖5 噪聲per=5,20,50 時(shí)反演效果圖
從3.1 和3.2 的實(shí)驗(yàn)可以看出,在數(shù)據(jù)中不存在噪聲時(shí),GRU 都能夠根據(jù)現(xiàn)有的遠(yuǎn)場數(shù)據(jù)準(zhǔn)確地反演出障礙物的形狀曲線。由3.3 節(jié)的實(shí)驗(yàn)證明,當(dāng)遠(yuǎn)場數(shù)據(jù)集含有不同程度的噪聲時(shí),網(wǎng)絡(luò)的反演誤差也能達(dá)到與不含誤差同等的實(shí)驗(yàn)效果。因此,對(duì)于這種不適定的反散射問題,不論遠(yuǎn)場數(shù)據(jù)集是否存在誤差,都能夠得到較好的反演結(jié)果,且在網(wǎng)絡(luò)的反演過程中都保持了穩(wěn)定的運(yùn)行。
將GRU 與常微分方程聯(lián)系起來,從常微分方程的穩(wěn)定性理論入手分析GRU 的穩(wěn)定性。同時(shí),提出了一種通過循環(huán)神經(jīng)網(wǎng)絡(luò)反演障礙物形狀的方法,由于聲波反散射問題非線性不適定性,而神經(jīng)網(wǎng)絡(luò)能夠很好地?cái)M合非線性系統(tǒng),因而選擇GRU 來重構(gòu)障礙物形狀。數(shù)值實(shí)驗(yàn)表明,該方法適用于具有多個(gè)入射和多個(gè)觀測方向的全孔徑條件,在能夠處理單一入射方向和多觀測情況。實(shí)驗(yàn)中該網(wǎng)絡(luò)在反演障礙物形狀時(shí)誤差均維持在10-2,可見GRU 在處理這類不適定問題時(shí)保持了較好的可訓(xùn)練性和穩(wěn)定性。