高峰 聶普璇 劉俊 王港
摘要:面向艦船目標(biāo)識(shí)別應(yīng)用需求,針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)模型在實(shí)際應(yīng)用場(chǎng)景下泛化能力不足的問(wèn)題,設(shè)計(jì)了一種基于人在回路的目標(biāo)數(shù)據(jù)集均衡完備評(píng)價(jià)方法。構(gòu)建艦船目標(biāo)數(shù)據(jù)集的均衡完備評(píng)價(jià)指標(biāo)體系,通過(guò)人在回路的方式進(jìn)行有監(jiān)督的評(píng)估,同時(shí)對(duì)數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)網(wǎng)絡(luò)模型訓(xùn)練和測(cè)試。根據(jù)評(píng)價(jià)指標(biāo)統(tǒng)計(jì)量和深度學(xué)習(xí)網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率,采用灰色關(guān)聯(lián)分析和逼近理想排序法建立數(shù)據(jù)集評(píng)價(jià)模型,實(shí)現(xiàn)艦船目標(biāo)數(shù)據(jù)集的均衡完備性評(píng)價(jià)。結(jié)合具體實(shí)例,研究了對(duì)自建數(shù)據(jù)集采用均衡完備評(píng)價(jià)方法的評(píng)價(jià)結(jié)果與其識(shí)別準(zhǔn)確率的變化趨勢(shì)一致性,驗(yàn)證了該方法的有效性和可靠性??陀^定量評(píng)價(jià)艦船目標(biāo)數(shù)據(jù)集均衡完備性能的同時(shí),為數(shù)據(jù)集的均衡完備性能改進(jìn)提供優(yōu)化方向,有助于提高艦船目標(biāo)識(shí)別模型的泛化性能,提高作戰(zhàn)信息化、智能化水平。
關(guān)鍵詞:數(shù)據(jù)集;均衡性;完備性;目標(biāo)識(shí)別;艦船
中圖分類號(hào):TP319文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2022)22-52-7
隨著深度學(xué)習(xí)技術(shù)的日益成熟,人工智能的浪潮正席卷全球,在軍事應(yīng)用領(lǐng)域,作戰(zhàn)信息化、智能化水平也在不斷提高[1]。深度學(xué)習(xí)作為人工智能關(guān)鍵技術(shù)之一,其三大核心要素為:大數(shù)據(jù)、深度學(xué)習(xí)算法和高性能計(jì)算平臺(tái)[2]。其中,大數(shù)據(jù)是當(dāng)前人工智能發(fā)展的基礎(chǔ),在目標(biāo)識(shí)別領(lǐng)域,體現(xiàn)為待識(shí)別目標(biāo)圖像樣本大數(shù)據(jù)構(gòu)成的目標(biāo)數(shù)據(jù)集。目標(biāo)數(shù)據(jù)集的完整性、均衡性和規(guī)模大小直接影響目標(biāo)識(shí)別深度學(xué)習(xí)網(wǎng)絡(luò)模型的性能[3-4]。然而,在目標(biāo)數(shù)據(jù)集的構(gòu)建過(guò)程中,受成像條件、采集條件、成本、合作/非合作目標(biāo)等多方面因素限制,存在不均衡、不完備的問(wèn)題,表現(xiàn)為深度學(xué)習(xí)目標(biāo)識(shí)別模型泛化能力差,在實(shí)驗(yàn)室環(huán)境下能取得較好的識(shí)別效果,但實(shí)際應(yīng)用中結(jié)果不如人意。針對(duì)這些問(wèn)題,數(shù)據(jù)集均衡完備的全面綜合評(píng)價(jià)顯得尤為重要[5-6],目前的研究大多聚焦于算法和數(shù)據(jù)層面,Krawczyk[7]引入類別損失來(lái)適應(yīng)不均衡的數(shù)據(jù)集,F(xiàn)erreira等[8]通過(guò)采樣方法調(diào)整優(yōu)化數(shù)據(jù)集。本文面向艦船目標(biāo)識(shí)別應(yīng)用需求,構(gòu)建數(shù)據(jù)集均衡完備評(píng)價(jià)指標(biāo)體系,通過(guò)人在回路的方式進(jìn)行有監(jiān)督的評(píng)估。根據(jù)評(píng)價(jià)指標(biāo)統(tǒng)計(jì)量和深度學(xué)習(xí)網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率建立數(shù)據(jù)集評(píng)價(jià)模型,實(shí)現(xiàn)圖像目標(biāo)數(shù)據(jù)集的均衡完備性評(píng)價(jià)。
本文以海洋艦船目標(biāo)識(shí)別場(chǎng)景為例,艦船目標(biāo)識(shí)別數(shù)據(jù)集的不完備問(wèn)題主要體現(xiàn)在無(wú)法全面描述實(shí)際場(chǎng)景中的艦船特點(diǎn)。完備性要求數(shù)據(jù)集除了能夠描述艦船目標(biāo)的基本形態(tài),還要能夠參考實(shí)際海洋情況,在船載、岸基等場(chǎng)景下,體現(xiàn)艦船目標(biāo)應(yīng)有的特點(diǎn)。結(jié)合實(shí)際場(chǎng)景下的艦船數(shù)據(jù)特點(diǎn),主要從圖像屬性和目標(biāo)屬性進(jìn)行完備性分析。圖像屬性包括圖像分辨率、圖像質(zhì)量、類別涵蓋和目標(biāo)數(shù)量;目標(biāo)屬性包括目標(biāo)類別、目標(biāo)尺度、目標(biāo)角度和目標(biāo)背景。
艦船目標(biāo)識(shí)別數(shù)據(jù)集的不均衡問(wèn)題主要體現(xiàn)在數(shù)據(jù)集按不同規(guī)則進(jìn)行劃分后,數(shù)量比例不均勻。均衡性要求數(shù)據(jù)集中的不同類別樣本數(shù)量或比例分布均勻且符合實(shí)際場(chǎng)景要求,同時(shí)在完備性的各項(xiàng)要求下,每一類屬性數(shù)量或比例分布均勻。因此除了考慮結(jié)合實(shí)際的識(shí)別框架按類別進(jìn)行劃分,還應(yīng)當(dāng)考慮完備性因素。參照傳統(tǒng)分類問(wèn)題中類間距離與類內(nèi)距離的定義,主要從類間和類內(nèi)兩方面對(duì)艦船目標(biāo)識(shí)別數(shù)據(jù)集進(jìn)行均衡性分析。均衡性在類間表現(xiàn)為目標(biāo)類別的數(shù)量比例滿足均衡性要求,即數(shù)量均勻,或與實(shí)際場(chǎng)景的目標(biāo)類別比例一致。均衡性在類內(nèi)表現(xiàn)為,在單一類別中,從完備性相關(guān)因素角度能夠滿足均衡性要求,即按其完備性因素進(jìn)行劃分后,數(shù)量比例均勻,或與實(shí)際場(chǎng)景劃分后數(shù)量比例一致。
在建立圖像目標(biāo)數(shù)據(jù)集均衡完備評(píng)價(jià)指標(biāo)體系的基礎(chǔ)上,通過(guò)人在回路的方式對(duì)艦船目標(biāo)識(shí)別數(shù)據(jù)集進(jìn)行有監(jiān)督的評(píng)估,根據(jù)評(píng)價(jià)指標(biāo)統(tǒng)計(jì)量和深度學(xué)習(xí)目標(biāo)識(shí)別模型的識(shí)別準(zhǔn)確率進(jìn)行參數(shù)計(jì)算,建立評(píng)價(jià)模型,實(shí)現(xiàn)圖像目標(biāo)數(shù)據(jù)集的均衡完備性評(píng)價(jià)。基于人在回路的圖像目標(biāo)數(shù)據(jù)集均衡完備評(píng)價(jià)方法原理框架如圖1所示。
以自建艦船目標(biāo)數(shù)據(jù)為基礎(chǔ),構(gòu)建個(gè)指標(biāo)分布不同的數(shù)據(jù)集,分別用選定的目標(biāo)識(shí)別深度學(xué)習(xí)網(wǎng)絡(luò)模型(為不失一般性,本文選擇YOLOV3模型)進(jìn)行訓(xùn)練[9],在相同測(cè)試集上測(cè)試得到平均準(zhǔn)確率、漏報(bào)率和誤報(bào)率3項(xiàng)識(shí)別準(zhǔn)確率指標(biāo),并計(jì)算各自最終的識(shí)別準(zhǔn)確率。依據(jù)評(píng)價(jià)指標(biāo)體系,得到個(gè)數(shù)據(jù)集的指標(biāo)統(tǒng)計(jì)量,并使用卡方檢驗(yàn)對(duì)統(tǒng)計(jì)量進(jìn)行預(yù)處理,確定原始數(shù)據(jù)與滿足均勻分布數(shù)據(jù)的偏離程度。通過(guò)計(jì)算評(píng)價(jià)指標(biāo)與識(shí)別準(zhǔn)確率參考值的關(guān)聯(lián)度,得到指標(biāo)權(quán)重;由此確定數(shù)據(jù)集的最優(yōu)、最劣方案,計(jì)算待評(píng)價(jià)數(shù)據(jù)集與最優(yōu)方案的貼近度。最后,計(jì)算整體評(píng)價(jià)結(jié)果和局部評(píng)價(jià)結(jié)果,輸出最終的評(píng)價(jià)結(jié)果。
2.1完備均衡性的數(shù)據(jù)集評(píng)價(jià)指標(biāo)體系設(shè)計(jì)
以艦船目標(biāo)識(shí)別數(shù)據(jù)集完備均衡性為基礎(chǔ),參考常規(guī)評(píng)價(jià)體系的指標(biāo)與原則,按照代表性、全面性和可量化性等標(biāo)準(zhǔn),設(shè)計(jì)評(píng)價(jià)指標(biāo)體系,如表1所示。
3.1基于評(píng)價(jià)指標(biāo)的數(shù)據(jù)統(tǒng)計(jì)與處理
4.1數(shù)據(jù)統(tǒng)計(jì)與處理
實(shí)驗(yàn)自建了艦船目標(biāo)數(shù)據(jù)集,包含軍船和民船2類數(shù)據(jù)共6 348張圖像,以此為基礎(chǔ),構(gòu)建不同數(shù)據(jù)分布的數(shù)據(jù)集15個(gè),以表示,其中1~10為實(shí)驗(yàn)數(shù)據(jù)集,11~15為待評(píng)價(jià)數(shù)據(jù)集,圖5為自建數(shù)據(jù)集的部分展示。構(gòu)建的各個(gè)數(shù)據(jù)集在所設(shè)計(jì)的數(shù)據(jù)集評(píng)價(jià)指標(biāo)下,具有不同的數(shù)據(jù)分布和相同的規(guī)模(均為4 228張艦船目標(biāo)圖像以及相同的目標(biāo)數(shù)量(均包含8 757個(gè)艦船目標(biāo))。為了模擬實(shí)際場(chǎng)景下的數(shù)據(jù),構(gòu)建的測(cè)試集盡可能滿足完備性、均衡性各項(xiàng)要求。所有數(shù)據(jù)集通過(guò)相同的YOLOV3進(jìn)行訓(xùn)練,相關(guān)訓(xùn)練參數(shù)保持一致,并通過(guò)統(tǒng)一測(cè)試集進(jìn)行驗(yàn)證,得到目標(biāo)識(shí)別算法經(jīng)過(guò)各個(gè)數(shù)據(jù)集訓(xùn)練后的識(shí)別準(zhǔn)確率,如表3所示。
對(duì)原始數(shù)據(jù)進(jìn)行基于卡方檢驗(yàn)的關(guān)聯(lián)度計(jì)算,將單個(gè)指標(biāo)下多個(gè)分級(jí)統(tǒng)計(jì)量的集合轉(zhuǎn)化為單一的指標(biāo)特征量,即指標(biāo)的偏離度。計(jì)算完成的各個(gè)數(shù)據(jù)集在各項(xiàng)評(píng)價(jià)指標(biāo)下的偏離度如表4所示。
對(duì)識(shí)別準(zhǔn)確率進(jìn)行轉(zhuǎn)化,將多個(gè)識(shí)別準(zhǔn)確率指標(biāo)轉(zhuǎn)化為一個(gè)值,用作描述數(shù)據(jù)集優(yōu)劣的參考量,得到的準(zhǔn)確率參考值如表5所示。
4.2參數(shù)計(jì)算實(shí)驗(yàn)
根據(jù)基于人在回路的數(shù)據(jù)集均衡完備評(píng)價(jià)方法流程,使用GRA方法對(duì)指標(biāo)與識(shí)別準(zhǔn)確率參考值的關(guān)聯(lián)度進(jìn)行參數(shù)計(jì)算。將實(shí)驗(yàn)數(shù)據(jù)集指標(biāo)偏離度進(jìn)行同向化處理和無(wú)量綱化處理,由計(jì)算出的關(guān)聯(lián)系數(shù)計(jì)算指標(biāo)與準(zhǔn)確率參考值關(guān)聯(lián)度,確定各個(gè)指標(biāo)的權(quán)重,計(jì)算結(jié)果如表6所示。
以上為待評(píng)價(jià)數(shù)據(jù)集的整體評(píng)價(jià)結(jié)果,可以直觀地描述數(shù)據(jù)集的整體性優(yōu)劣。接下來(lái)計(jì)算局部評(píng)價(jià)結(jié)果和可接受最大指標(biāo)偏離度的卡方值,本文以數(shù)據(jù)偏差為1倍時(shí)的指標(biāo)偏離度卡方值作為最大指標(biāo)偏離度。結(jié)合指標(biāo)權(quán)重,計(jì)算得到待評(píng)價(jià)數(shù)據(jù)集各指標(biāo)偏差因素和對(duì)應(yīng)參考值,如表7所示。
以上為本文中待評(píng)價(jià)數(shù)據(jù)集的局部評(píng)價(jià)結(jié)果,可以反映待評(píng)價(jià)對(duì)象的局部性問(wèn)題,為數(shù)據(jù)集優(yōu)化提供支撐。
4.5分析與討論
對(duì)數(shù)據(jù)集評(píng)價(jià)結(jié)果進(jìn)行分析,首先針對(duì)整體評(píng)價(jià)結(jié)果,待評(píng)價(jià)數(shù)據(jù)集貼近度與準(zhǔn)確率參考值對(duì)比如圖6所示,橙色線條表示待評(píng)價(jià)數(shù)據(jù)集與最優(yōu)方案貼近度,藍(lán)色線條表示待評(píng)價(jià)數(shù)據(jù)集的識(shí)別準(zhǔn)確率??梢钥闯觯?個(gè)待評(píng)價(jià)數(shù)據(jù)集與最優(yōu)方案的貼近度整體呈現(xiàn)從高到低下降的趨勢(shì),而作為參考的識(shí)別準(zhǔn)確率參考值也呈整體下降趨勢(shì),二者變化趨勢(shì)相近,說(shuō)明本文的數(shù)據(jù)集評(píng)價(jià)方法能夠全面、合理地描述數(shù)據(jù)集各方面特征,評(píng)價(jià)其優(yōu)劣,驗(yàn)證了該方法的可靠性。
其次,對(duì)于局部評(píng)價(jià)結(jié)果,由表7可知,在5個(gè)待評(píng)價(jià)數(shù)據(jù)集中,數(shù)據(jù)集13有1個(gè)指標(biāo)超出了參考偏差因素,數(shù)據(jù)集14有2個(gè)指標(biāo)超出了參考偏差因素,數(shù)據(jù)集15有3個(gè)指標(biāo)超出了參考偏差因素。這與整體評(píng)價(jià)結(jié)果基本一致,同時(shí)依照這些指標(biāo)偏差因素,在對(duì)數(shù)據(jù)集進(jìn)行優(yōu)化時(shí),可以準(zhǔn)確了解到數(shù)據(jù)集在完備性、均衡性角度具體存在問(wèn)題的指標(biāo),進(jìn)而進(jìn)行調(diào)整。因此,局部評(píng)價(jià)結(jié)果能夠?yàn)閿?shù)據(jù)集的構(gòu)建和優(yōu)化提供支撐。
綜上,本文的數(shù)據(jù)集均衡完備評(píng)價(jià)方法能夠從完備性、均衡性的角度全面、合理地對(duì)數(shù)據(jù)集進(jìn)行評(píng)價(jià),具有良好的可靠性,同時(shí),評(píng)價(jià)結(jié)果可為數(shù)據(jù)集構(gòu)建和優(yōu)化提供理論支撐,滿足實(shí)際工程應(yīng)用的需要。
本文面向艦船目標(biāo)識(shí)別應(yīng)用需求,對(duì)艦船目標(biāo)數(shù)據(jù)集進(jìn)行均衡完備性分析,構(gòu)建數(shù)據(jù)集均衡完備評(píng)價(jià)指標(biāo)體系,通過(guò)人在回路的方式進(jìn)行有監(jiān)督的評(píng)估,同時(shí)對(duì)數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)網(wǎng)絡(luò)模型訓(xùn)練和測(cè)試。根據(jù)評(píng)價(jià)指標(biāo)統(tǒng)計(jì)量和深度學(xué)習(xí)網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率,計(jì)算指標(biāo)與識(shí)別準(zhǔn)確率參考值的關(guān)聯(lián)度,建立數(shù)據(jù)集評(píng)價(jià)模型。本文的創(chuàng)新點(diǎn)在于構(gòu)建數(shù)據(jù)集均衡完備評(píng)價(jià)指標(biāo)體系,根據(jù)評(píng)價(jià)指標(biāo)統(tǒng)計(jì)量和深度學(xué)習(xí)網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率進(jìn)行GRA,從而確定評(píng)價(jià)指標(biāo)權(quán)重,并使用TOPSIS建立數(shù)據(jù)集評(píng)價(jià)模型,計(jì)算待評(píng)價(jià)數(shù)據(jù)集與最優(yōu)方案的貼近度,實(shí)現(xiàn)艦船目標(biāo)數(shù)據(jù)集的均衡完備性評(píng)價(jià)。本文可為數(shù)據(jù)集的科學(xué)、全面評(píng)價(jià)提供理論支持,為構(gòu)建均衡完備數(shù)據(jù)集提供解決方案,進(jìn)而有助于提高艦船目標(biāo)識(shí)別模型的泛化性能,提高作戰(zhàn)信息化、智能化水平。
[1]萬(wàn)維.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法研究及應(yīng)用[D].成都:電子科技大學(xué),2015.
[2]趙寶康,李晉文,楊帆,等.一種基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與科學(xué),2019,41(12):2166-2172.
[3]李國(guó)和,張騰,吳衛(wèi)江,等.面向機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集均衡化方法[J].計(jì)算機(jī)工程與設(shè)計(jì), 2019, 40(3):812-818.
[4] JOHNSON J M, KHOSHGOFTAAR T M. Survey on Deep Learning with Class Imbalance[J]. Journal of Big Data, 2019, 6(1):27.
[5]柯逍,鄒嘉偉,杜明智,等.基于蒙特卡羅數(shù)據(jù)集均衡與魯棒性增量極限學(xué)習(xí)機(jī)的圖像自動(dòng)標(biāo)注[J].電子學(xué)報(bào), 2017, 45(12):2925-2935.
[6]張騰.不平衡數(shù)據(jù)集均衡化方法研究及其應(yīng)用[D].北京:中國(guó)石油大學(xué)(北京), 2018.
[7] KRAWCZYK B. Learning from Imbalanced Data:Open Challenges and Future Directions[J].Progress in Artificial Intelligence, 2016, 5(4):221-232.
[8] FERREIRA L E B,BARDDAL J P ,ENEMBRECK F,et al. An Experimental Perspective on Sampling Methods for Imbalanced Learning from Financial Databases[C]// International Joint Conference on Neural Networks.Riode Janeiro:IEEE,2018:1206-1212.
[9] REDMON J,F(xiàn)ARHADI A.YOLOv3:An Incremental Improvement[J].[2022-09-10]. https://arxiv.org/abs/1804. 02767.
[10]宋福志.ATR與人在回路的選擇[J].戰(zhàn)術(shù)導(dǎo)彈技術(shù),2006(2):59-62.
[11]鄭利平,劉曉平.人在回路仿真運(yùn)行有效性評(píng)估方法研究[J].系統(tǒng)仿真學(xué)報(bào), 2007, 19(7):1417-1420.
[12] GREENWOOD P E, NIKULIN M S. A Guide to Chi-squared Testing[J]. Biometrics, 1996, 39(4):392.
[13] GAU H S, HSIEH C Y,LIU C W. Application of Grey Correlation Method to Evaluate Potential Groundwater Recharge Sites[J].Stochastic Environmental Research and Risk Assessment,2006,20(6):407-421.
[14] SHIH H S,SHYUR H J,LEE E S.An Extension of TOPSIS for Group Decision Making[J]. Mathematical & Computer Modelling, 2007, 45(7-8):801-813.
[15]龔永紅,鄭威,吳林,等.基于自步學(xué)習(xí)的無(wú)監(jiān)督屬性選擇算法[J].計(jì)算機(jī)應(yīng)用, 2018, 38(10):2856-2861.
[16]汪業(yè)成.基于自步學(xué)習(xí)的興趣點(diǎn)(POI)推薦技術(shù)研究[D].成都:電子科技大學(xué),2020.