柏沫羽,劉 昊,陳浩川,張振華
應(yīng)用知識蒸餾的深度神經(jīng)網(wǎng)絡(luò)波束形成算法
柏沫羽,劉 昊,陳浩川,張振華
(北京遙測技術(shù)研究所 北京 100076)
自適應(yīng)波束形成技術(shù)廣泛應(yīng)用于雷達(dá)領(lǐng)域的旁瓣抗干擾中。當(dāng)回波數(shù)據(jù)量增多時,傳統(tǒng)的波束形成算法無法進(jìn)行快速處理,而應(yīng)用深度神經(jīng)網(wǎng)絡(luò)模型通過數(shù)據(jù)的預(yù)訓(xùn)練則可以快速地進(jìn)行波束形成,因此根據(jù)波束形成原理設(shè)計深度神經(jīng)網(wǎng)絡(luò),并利用知識蒸餾的方式對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮,使壓縮后的模型既有原始模型良好的泛化性能而且又有更快的計算速度。仿真結(jié)果表明,相比于傳統(tǒng)的LMS算法,在實(shí)驗(yàn)環(huán)境下,未經(jīng)模型壓縮的深度神經(jīng)網(wǎng)絡(luò)自適應(yīng)波束形成算法的計算速度提高了約7倍,基于模型壓縮的深度神經(jīng)網(wǎng)絡(luò)自適應(yīng)波束形成算法的計算速度提高了約20倍。
信號處理;深度神經(jīng)網(wǎng)絡(luò);自適應(yīng)波束形成;知識蒸餾
自適應(yīng)波束形成技術(shù)是陣列信號處理的重要分支,近年來己成為新一代多功能自適應(yīng)相控陣?yán)走_(dá)的關(guān)鍵技術(shù)之一。自適應(yīng)波束形成技術(shù)能夠通過調(diào)整接收通道權(quán)系數(shù)來有效地實(shí)現(xiàn)干擾抑制等功能,在雷達(dá)、無線通信、聲納、地震勘測等系統(tǒng)中得到了廣泛的應(yīng)用。最小均方誤差算法LMS(Least Mean Square Algorithm)是自適應(yīng)波束形成算法中一種被廣泛應(yīng)用的迭代算法。但是當(dāng)所得到的回波數(shù)據(jù)量增多時,傳統(tǒng)的波束形成算法無法進(jìn)行及時處理。而深度神經(jīng)網(wǎng)絡(luò)模型可以在前期對大量的數(shù)據(jù)進(jìn)行訓(xùn)練,之后利用訓(xùn)練好的模型就可以快速準(zhǔn)確地進(jìn)行波束形成,比傳統(tǒng)的波束形成算法更加快速。不過,為了滿足模型的準(zhǔn)確性,深度神經(jīng)網(wǎng)絡(luò)模型需要大量的參數(shù),這將占用過多的資源和訓(xùn)練時間,因此應(yīng)用知識蒸餾的方式對模型進(jìn)行壓縮,建立“學(xué)生”網(wǎng)絡(luò),使模型在保持精確性的同時又具有更快的計算速度,使算法滿足在大數(shù)據(jù)的情況下進(jìn)行快速波束形成的需求,具有理論上和工程上的雙重研究意義。
將深度神經(jīng)網(wǎng)絡(luò)與自適應(yīng)波束形成技術(shù)相結(jié)合,具有提升自適應(yīng)波束形成算法高效性的前景。2004年Suksmono等人引入了多層感知機(jī)來替換傳統(tǒng)的LMS算法的單層模型[1],在收斂速度上有所提升,但是依然采用的是迭代的方法,并沒有充分利用神經(jīng)網(wǎng)絡(luò)的非線性擬合能力。2015年張寶軍等人研究了利用徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行波束形成的方法[2],但是這種方法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程較為復(fù)雜,需要進(jìn)行額外的k-means聚類等操作,并且為了不使用更深層的神經(jīng)網(wǎng)絡(luò)而引入了過多的人工先驗(yàn)假設(shè)。2018年馮曉宇等人提出了在低快拍情況下利用徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行波束形成的方法[3],這種方法僅僅是在低快拍情況下的改進(jìn),并沒有對以上徑向基神經(jīng)網(wǎng)絡(luò)存在的問題進(jìn)行解決。對于模型壓縮而言,在2013年,Denil等人提出了“在很多的深度神經(jīng)網(wǎng)絡(luò)中存在著顯著的冗余,僅僅使用很少一部分(5%)權(quán)值就足以預(yù)測剩余的權(quán)值”的觀點(diǎn)[4]。根據(jù)上述觀點(diǎn),2015年Hinton等人提出了知識蒸餾的概念[5],通過引入“教師-學(xué)生”網(wǎng)絡(luò)使模型參數(shù)大為減少,模型速度得到提升。因此本文將深度神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于波束形成算法中,并對模型進(jìn)行壓縮優(yōu)化,使波束形成算法相較于傳統(tǒng)的算法有更快的速度,在大數(shù)據(jù)情況下具有更好的性能。
本論文根據(jù)波束形成原理設(shè)計深度神經(jīng)網(wǎng)絡(luò)模型,并對模型進(jìn)行壓縮,建立“教師-學(xué)生”網(wǎng)絡(luò),“教師”網(wǎng)絡(luò)模型TNNBF(Teacher Neural Network Beamforming)使用了Leaky-ReLU激活函數(shù),解決了模型訓(xùn)練過程中的梯度消失以及神經(jīng)元提前失活的問題。運(yùn)用Adam優(yōu)化器提高模型訓(xùn)練的全局收斂性,加快了算法的速度,并結(jié)合Dropout正則化方法提升過參數(shù)化網(wǎng)絡(luò)的泛化性能,之后根據(jù)原始數(shù)據(jù)和泛化數(shù)據(jù)聯(lián)合訓(xùn)練了“教師-學(xué)生”網(wǎng)絡(luò),提出了經(jīng)過模型壓縮后的深度神經(jīng)網(wǎng)絡(luò)波束形成算法SNNBF(Student Neural Network Beamforming)。
現(xiàn)階段,深度神經(jīng)網(wǎng)絡(luò)在信號處理、語音識別和計算機(jī)視覺等領(lǐng)域都取得了非常好的表現(xiàn)。復(fù)雜的模型固然具有更好的性能,但是高額的存儲空間和計算資源消耗是其難以有效地應(yīng)用在各硬件平臺上的重要原因。為了解決這些問題,許多業(yè)界學(xué)者研究模型壓縮方法來最大限度地減小模型對于計算空間和時間的消耗[6]。
在使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練大規(guī)模數(shù)據(jù)集時,為了處理復(fù)雜的數(shù)據(jù)分布:一種做法是建立復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,例如含有上百層的殘差網(wǎng)絡(luò),這種復(fù)雜的網(wǎng)絡(luò)往往含有多達(dá)幾百萬個參數(shù);另一種做法往往會混合多種模型,將幾個大規(guī)模的神經(jīng)網(wǎng)絡(luò)在同一個數(shù)據(jù)集上訓(xùn)練好,然后綜合多個模型,得到最終的分類結(jié)果。但是這種復(fù)雜模型,一是在新的場景下重新訓(xùn)練成本過高,二是由于模型過于龐大而難以大規(guī)模部署。所以,最基本的想法就是將大模型學(xué)習(xí)出來的知識作為先驗(yàn),將先驗(yàn)知識傳遞到小規(guī)模的神經(jīng)網(wǎng)絡(luò)中,之后在實(shí)際應(yīng)用中部署小規(guī)模的神經(jīng)網(wǎng)絡(luò)。
基于上述思想,為了最大程度地減小模型復(fù)雜度,減少模型存儲需要的空間,同時也致力于加速模型的訓(xùn)練和推測,2015年Hinton等人提出了知識蒸餾的概念。所謂蒸餾就是將復(fù)雜網(wǎng)絡(luò)中的有用信息提取出來遷移到一個更小的網(wǎng)絡(luò)上,這樣學(xué)習(xí)出來的小網(wǎng)絡(luò)可以具備和大的復(fù)雜網(wǎng)絡(luò)相接近的性能效果,并且也大大地節(jié)省了計算資源。這個復(fù)雜的網(wǎng)絡(luò)可以看成是一個教師,而小的網(wǎng)絡(luò)則可以看成是一個學(xué)生。對于“教師”網(wǎng)絡(luò)的蒸餾過程,可以認(rèn)為是通過溫度系數(shù),將復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)中的概率分布蒸餾出來,并用該概率分布來指導(dǎo)精簡網(wǎng)絡(luò)進(jìn)行訓(xùn)練。整個通過溫度系數(shù)的蒸餾過程由如下公式實(shí)現(xiàn)[5]:
損失函數(shù)的loss值為
算法的具體過程可以簡單概述為:
①首先用較大的來訓(xùn)練模型,這時候復(fù)雜的神經(jīng)網(wǎng)絡(luò)能產(chǎn)生更均勻分布的軟目標(biāo)。
②之后小規(guī)模的神經(jīng)網(wǎng)絡(luò)用相同的值來學(xué)習(xí)由大規(guī)模神經(jīng)網(wǎng)絡(luò)產(chǎn)生的軟目標(biāo),接近這個軟目標(biāo)從而學(xué)習(xí)到數(shù)據(jù)的結(jié)構(gòu)分布特征。
③最后在實(shí)際應(yīng)用中,將值恢復(fù)到1,對數(shù)據(jù)進(jìn)行測試。
從算法的具體過程中可以得到,數(shù)據(jù)本身是其結(jié)構(gòu)信息和數(shù)值的一種混合物,結(jié)構(gòu)關(guān)聯(lián)信息通過概率分布被蒸餾分離出來。值很大時,相當(dāng)于用很高的溫度將關(guān)鍵的分布信息從原有的數(shù)據(jù)中分離出來,之后在同樣的溫度下用新模型融合蒸餾出來的數(shù)據(jù)分布,最后恢復(fù)溫度,讓兩者充分融合起來。知識蒸餾這種模型壓縮方法本質(zhì)上相當(dāng)于對數(shù)據(jù)進(jìn)行了增強(qiáng),加入了類別之間關(guān)聯(lián)性的先驗(yàn)信息。將大規(guī)模網(wǎng)絡(luò)學(xué)習(xí)到的這種關(guān)系包裝到數(shù)據(jù)中,用這種更強(qiáng)的數(shù)據(jù)來訓(xùn)練小規(guī)模的模型,充分考慮到了類間的距離和類內(nèi)的方差信息,從而提升了小規(guī)模模型的性能,達(dá)到了蒸餾的效果。與直接使用預(yù)訓(xùn)練模型的結(jié)構(gòu)和權(quán)重相比,這是一種相對更高級的知識遷移方式。此外,Hinton提出的知識蒸餾方法是針對分類問題的,本文將知識蒸餾的思路應(yīng)用于回歸問題的深度神經(jīng)網(wǎng)絡(luò)模型中,使設(shè)計完成的深度神經(jīng)網(wǎng)絡(luò)波束形成算法具有更好的性能,即算法有更快的計算速度并且其占用更少的計算資源。
深度神經(jīng)網(wǎng)絡(luò)[7]是一種能夠構(gòu)建復(fù)雜非線性關(guān)系的模型,在通過一定數(shù)量的樣本訓(xùn)練之后,它也可以推斷未知數(shù)據(jù)之間的未知關(guān)系,擁有較強(qiáng)的泛化性能。波束形成技術(shù)是一種通過回波信息和約束關(guān)系來合成波束的一種技術(shù),傳統(tǒng)的波束形成算法運(yùn)算量大,運(yùn)算時間長,占用資源多,在接收到大量回波數(shù)據(jù)時無法快速地進(jìn)行實(shí)時處理。因此利用深度神經(jīng)網(wǎng)絡(luò)對傳統(tǒng)的波束形成技術(shù)進(jìn)行改進(jìn),之后再對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮,去除模型中的冗余,可以使波束形成的時間縮短,還可以根據(jù)所得的回波數(shù)據(jù)不斷更新網(wǎng)絡(luò)模型,使訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)可以更好地應(yīng)對各種情況,具有良好的穩(wěn)健性。
根據(jù)波束形成的基本原理,建立深度神經(jīng)網(wǎng)絡(luò)模型。首先將相同的期望信號方向、干擾信號方向的數(shù)據(jù)進(jìn)行分組,每一組訓(xùn)練樣本先采用LMS算法獲得期望權(quán)重因子向量,然后將作為新的訓(xùn)練樣本目標(biāo),訓(xùn)練框架可用下述公式進(jìn)行表示:
對于模型中的激活函數(shù)而言,本文采用Leaky-ReLU激活函數(shù)作為隱藏層的輸出[8]。這種激活函數(shù)在神經(jīng)元抑制區(qū)域依然擁有非零的梯度值,使得隱藏層的神經(jīng)元在訓(xùn)練過程中不會大量死亡,可以讓更多的神經(jīng)元得到充分訓(xùn)練。對于模型中的優(yōu)化算法而言,由于深度神經(jīng)網(wǎng)絡(luò)是一個非凸優(yōu)化問題,擁有很多的局部極值點(diǎn)以及鞍點(diǎn),普通的梯度下降算法很容易讓模型陷入局部極值,所以應(yīng)該采用帶動量的一階優(yōu)化算法,使算法能夠跳出局部極值以及鞍點(diǎn),得到更優(yōu)質(zhì)的解。SGD算法是一種固定學(xué)習(xí)率的經(jīng)典算法[9],而Momentum方法是一種通過添加動量[10]、提高收斂速度的算法,Adagrad算法讓不同的參數(shù)擁有不同的學(xué)習(xí)率[11],并且通過引入梯度的平方和來作為衰減項(xiàng),而在訓(xùn)練過程中自動降低學(xué)習(xí)率。AdaDelta算法[12]則對Adagrad算法進(jìn)行改進(jìn),讓模型在訓(xùn)練后期也能夠有較為合適的學(xué)習(xí)率。Adam方法就是根據(jù)上述思想而提出的[13],對于每個參數(shù),其不僅僅有自己的學(xué)習(xí)率,還有自己的Momentum量,這樣,在訓(xùn)練的過程中,每個參數(shù)的更新都更加具有獨(dú)立性[14]。它的自適應(yīng)學(xué)習(xí)率調(diào)節(jié)功能可以使神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度在下降初期更加迅速,在后期更加穩(wěn)健,并且不會提前停止;對于收斂性而言,Adam優(yōu)化算法的動量部分能夠使模型收斂到相較于普通梯度下降算法更優(yōu)的局部最優(yōu)解上,提高了模型的性能。本文使用Adam算法作為網(wǎng)絡(luò)模型的優(yōu)化函數(shù)。
在訓(xùn)練過程中發(fā)現(xiàn)設(shè)計的深度神經(jīng)網(wǎng)絡(luò)相較于訓(xùn)練樣本而言是過參數(shù)化的,很容易過擬合。為了降低深度神經(jīng)網(wǎng)絡(luò)過擬合的風(fēng)險,本文采用了Dropout方法來進(jìn)行深度神經(jīng)網(wǎng)絡(luò)的正則化。Dropout算法是一種神經(jīng)網(wǎng)絡(luò)的正則化方法[15],其功能是防止神經(jīng)網(wǎng)絡(luò)的過擬合。基于上述各個流程的操作,深度神經(jīng)網(wǎng)絡(luò)模型的總體原理如圖1所示。
圖1 “教師”網(wǎng)絡(luò)模型總體原理
之后對模型中的損失函數(shù)進(jìn)行設(shè)計,損失函數(shù)設(shè)計為“教師”網(wǎng)絡(luò)和“學(xué)生”網(wǎng)絡(luò)的均方誤差值,然后將“教師”網(wǎng)絡(luò)中的所有參數(shù)都固定,不進(jìn)行梯度更新;并將數(shù)據(jù)同時輸入“教師”網(wǎng)絡(luò)和“學(xué)生”網(wǎng)絡(luò),并使用Adam優(yōu)化算法進(jìn)行模型優(yōu)化。按照上述流程“教師-學(xué)生”網(wǎng)絡(luò)的整體訓(xùn)練架構(gòu)如圖2所示。
訓(xùn)練結(jié)束之后,“學(xué)生”網(wǎng)絡(luò)中的隱藏層和最后的線性變換層中的參數(shù)可以提取出來作為蒸餾之后的模型,理論上蒸餾后的“學(xué)生”網(wǎng)絡(luò)模型能夠擁有和原來的“教師”網(wǎng)絡(luò)模型同等的泛化誤差,并且大大降低了計算開銷。因此基于模型壓縮后的“學(xué)生”深度神經(jīng)網(wǎng)絡(luò)波束形成算法相比于未經(jīng)壓縮的深度神經(jīng)網(wǎng)絡(luò)波束形成算法有更好的性能。
圖2 模型的總體原理
以一維線陣為例進(jìn)行仿真。其中天線陣元數(shù)為16,陣元間距為半波長,信噪比為10dB,干噪比為30dB,取6個不同目標(biāo)方向和干擾方向的6000個訓(xùn)練樣本和60個測試樣本,其來波方向分別為0°、10°、20°、30°、40°、50°方向,對應(yīng)干擾方向分別為–50°、–40°、–30°、–20°、–10°、0°方向。此外,在下述仿真中,驗(yàn)證SNNBF算法的可行性以及意義時,均采用傳統(tǒng)的LMS算法作為基準(zhǔn)。下述所有仿真圖均基于此條件進(jìn)行仿真分析。
圖3期望信號方向?yàn)?°,干擾信號方向?yàn)楱C50°,分別采用LMS算法、TNNBF算法和SNNBF算法得到的天線方向圖,可以看到LMS算法、TNNBF算法和SNNBF算法都可以在期望信號方向進(jìn)行很好的波束形成,并且在干擾信號方向都可以進(jìn)行很好的抑制,因此通過圖3可知SNNBF算法有良好的波束形成性能。
“教師”網(wǎng)絡(luò)是過參數(shù)化的,理論上“學(xué)生”網(wǎng)絡(luò)能夠以更少的參數(shù)規(guī)模達(dá)到類似于“教師”網(wǎng)絡(luò)的泛化性能。選擇60組不同信號源和干擾源的樣本進(jìn)行測試,統(tǒng)計最終合成的信號的均方誤差,對兩種算法在不同迭代步長的情況下?lián)p失值的大小進(jìn)行實(shí)驗(yàn),圖4為SNNBF算法和TNNBF算法的性能對比圖。從圖中可以看出,“學(xué)生”網(wǎng)絡(luò)在四分之一“教師”網(wǎng)絡(luò)的參數(shù)規(guī)模下提供了和“教師”網(wǎng)絡(luò)類似的波束形成性能,經(jīng)過試驗(yàn),“學(xué)生”網(wǎng)絡(luò)在測試集上的均方誤差為1.429371785,“教師”網(wǎng)絡(luò)在測試集的均方誤差為1.291752884,均方誤差差距在10%以內(nèi)。
圖3 LMS算法、TNNBF算法和SNNBF算法天線方向圖
為了進(jìn)一步驗(yàn)證知識蒸餾在深度神經(jīng)網(wǎng)絡(luò)波束形成問題上的意義,本文重新訓(xùn)練了一個參數(shù)規(guī)模和“學(xué)生”網(wǎng)絡(luò)一樣的小網(wǎng)絡(luò),測試結(jié)果如圖5所示??梢钥闯觯苯佑?xùn)練的小網(wǎng)絡(luò)由于沒有“教師”網(wǎng)絡(luò)提供的泛化訓(xùn)練樣本,所以在個別測試樣本中的誤差明顯高于“學(xué)生”網(wǎng)絡(luò),測試數(shù)據(jù)集中小網(wǎng)絡(luò)的平均均方誤差是“學(xué)生”網(wǎng)絡(luò)的1.57倍。因此“教師-學(xué)生”網(wǎng)絡(luò)訓(xùn)練模式在波束形成的模型壓縮問題上是有效的。
圖4 SNNBF算法和TNNBF算法性能對比
圖5 相同規(guī)模的“學(xué)生”模型和小模型性能對比
圖6 不同規(guī)?!皩W(xué)生”網(wǎng)絡(luò)模型性能
圖7 不同規(guī)模網(wǎng)絡(luò)模型算法性能
使用知識蒸餾壓縮方法可以在波束形成精度幾乎無損失的情況下,大幅度降低計算代價,加快運(yùn)算速度,并且擁有遠(yuǎn)高于直接訓(xùn)練的小網(wǎng)絡(luò)的精度。同時,根據(jù)實(shí)際使用場景對于精度的需求,使用知識蒸餾框架可以方便地從一個大網(wǎng)絡(luò)中蒸餾出不同精度的小網(wǎng)絡(luò),讓模型在精度和運(yùn)算效率之間做出權(quán)衡。
自適應(yīng)波束形成技術(shù)是一種良好的空域抗干擾技術(shù),其廣泛應(yīng)用于航天導(dǎo)航、飛行器測控、地面通信和新體制雷達(dá)等領(lǐng)域。本文以LMS算法為根本,利用深度學(xué)習(xí)模型對LMS算法進(jìn)行改進(jìn),并利用知識蒸餾的方式對模型進(jìn)行壓縮,使算法在大數(shù)據(jù)的情況下能夠快速穩(wěn)健地進(jìn)行波束形成。
SNNBF算法采用深度學(xué)習(xí)的相關(guān)技術(shù),設(shè)計了自適應(yīng)波束形成的權(quán)重推斷網(wǎng)絡(luò),利用知識蒸餾的原理建立了“教師-學(xué)生”神經(jīng)網(wǎng)絡(luò)模型。其中,“教師”網(wǎng)絡(luò)使用Adam優(yōu)化器增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的全局收斂性,然后用Leaky-ReLU激活函數(shù)解決深度神經(jīng)網(wǎng)絡(luò)的梯度消失問題,并利用Dropout方法抑制波束形成深度神經(jīng)網(wǎng)絡(luò)的過擬合現(xiàn)象,使自適應(yīng)波束形成的權(quán)重推斷網(wǎng)絡(luò)在準(zhǔn)確性和泛化性上均有較好的性能。這種神經(jīng)網(wǎng)絡(luò)模型存在冗余,因此利用“知識蒸餾”的方式對模型進(jìn)行壓縮,生成“學(xué)生”網(wǎng)絡(luò),這一網(wǎng)絡(luò)既包含“教師”網(wǎng)絡(luò)的精確性,又具有更快的計算速度,在同樣的計算資源下,TNNBF算法將LMS算法收斂速度提高了約7倍,SNNBF算法將LMS算法收斂速度提高了約20倍,并且在未來隨著訓(xùn)練數(shù)據(jù)的增加,權(quán)重推斷網(wǎng)絡(luò)的泛化性能以及準(zhǔn)確性能夠繼續(xù)提高,具有較大的理論和工程的應(yīng)用價值。
[1] BAYU S A, HIROSE A. Intelligent beamforming by using a complex-valued neural network[J]. Journal of Intelligent and Fuzzy Systems, 2004, 15(3-4): 139–147.
[2] 張寶軍, 盧夢怡, 陳治清, 等. 基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的波束形成算法[J]. 西安郵電大學(xué)學(xué)報, 2015, 20(6): 33–36.ZHANG Baojun, LU Mengyi, CHEN Zhiqing, et al. Beamforming algorithm based on RBF neural network[J]. Journal of Xi'an University of Posts and Telecommunications, 2015, 20(6): 33–36.
[3] 馮曉宇, 謝軍偉, 張晶, 等. 低快拍下模糊徑向基神經(jīng)網(wǎng)絡(luò)波束形成算法[J]. 火力與指揮控制, 2018, 43(4): 132–135,140. FENG Xiaoyu, XIE Junwei, ZHANG Jing, et al. Beamforming algorithm based on fuzzy RBF neural network in the situation of limited snapshots[J]. Fire Control & Command Control, 2018, 43(4): 132–135,140.
[4] MISHA D, BABAK S, LAURENT D, et al. Predicting parameters in deep learning. Advances in Neural Information Processing Systems[C]. 2013: 2148–2156.
[5] HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[J]. Computer Science, 2015, 14(7): 38–39.
[6] 葉遠(yuǎn)征. 基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法研究與應(yīng)用[D]. 綿陽: 西南科技大學(xué), 2019. YE Yuanzheng. Research and application of target detection algorithm based on convolutional neural network[D]. Mianyang: Southwest University of Science and Technology, 2019.
[7] HINTON G, GEOFFREY E, SIMON O, YEEWHYE T. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006: 1527–1554.
[8] MAAS A L, HANNUN A Y, NG A Y. Rectifier nonlinearities improve neural network acoustic models[C]//In Proc. ICML, 2013, 30(1): 3.
[9] PARAS. Stochastic gradient descent[J]. Optimization, 2014.
[10] PHANSALKAR V V, SASTRY P S. Analysis of the back-propagation algorithm with momentum[J]. IEEE Transactions on Neural Networks, 1994, 5(3): 505–506.
[11] WILSON A C, ROELOFS R, STERN M, et al. The marginal value of adaptive gradient methods in machine learning[J]. 2017.
[12] ZEILER M D. ADADELTA: an adaptive learning rate method[J]. Computer Science, 2012.
[13] KINGMA D, BA J. Adam: a method for stochastic optimization[J]. Computer Science, 2014.
[14] 史浩強(qiáng). 陀螺儀若干典型故障智能診斷與預(yù)測技術(shù)[D]. 西安: 西安理工大學(xué), 2019. SHI Haoqiang. Intelligent diagnosis and prediction technology for some typical faults of gyroscopes[D]. Xi'an:Xi'an University of Technology, 2019.
[15] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The journal of machine learning research, 2014, 15(1): 1929–1958.
Beamforming algorithm for deep neural network using knowledge distillation
BAI Moyu, LIU Hao, CHEN Haochuan, ZHANG Zhenhua
(Beijing Research Institute of Telemetry, Beijing 100076, China)
Adaptive beamforming technology is widely used in sidelobe anti-interference in the radar field. When the amount of echo data increases, the traditional beamforming algorithm cannot perform fast processing, and the deep neural network model can quickly perform beamforming through data pre-training. Therefore, this paper designs a deep neural network according to the beamforming principle. The deep neural network is compressed by means of knowledge distillation, so that the compressed model has both good generalization performance and faster calculation speed. The simulation results show that compared with the traditional LMS algorithm, the computational speed of the adaptive beamforming algorithm for deep neural networks without model compression is improved by about 7 times and the computational speed of the adaptive beamforming algorithm based on model compression is improved by about 20 times in the experimental environment.
Signal processing; Deep neural network; Adaptive beamforming; Knowledge distillation
TN911.7
A
CN11-1780(2020)01-0066-07
Email:ycyk704@163.com
TEL:010-68382327 010-68382557
2019-12-17
柏沫羽 1993年生,在讀碩士,研究方向?yàn)槔走_(dá)信號處理。
劉 昊 1976年生,博士,研究員,研究方向?yàn)橄嗫仃囂炀€與微波技術(shù)。
陳浩川 1979年生,研究員,研究方向?yàn)槔走_(dá)總體設(shè)計。
張振華 1977年生,研究員,研究方向?yàn)槔走_(dá)系統(tǒng)與信號處理。