張子安,張永強,丁明理
(哈爾濱工業(yè)大學儀器科學與工程學院,黑龍江哈爾濱 150001)
在人工智能、互聯(lián)網(wǎng)、大數(shù)據(jù)等新興技術(shù)的推動下,利用計算機代替人工進行自動化圖像處理得到了廣泛應用?;谏疃葘W習的目標定位技術(shù)[1-2]應用于計算機分析圖像信息的首要環(huán)節(jié),其定位質(zhì)量直接影響視覺系統(tǒng)的分析結(jié)果。在大多數(shù)情況下,基于深度學習能夠獲得較傳統(tǒng)方法更為精確的定位結(jié)果,但有時也會輸出一些誤差較大甚至完全錯誤的定位結(jié)果。在諸如自動駕駛[3]、醫(yī)學圖像分析[4]等對定位結(jié)果要求較高的領(lǐng)域,這些不可靠的定位結(jié)果如果不能得到有效的發(fā)現(xiàn)和抑制,可能導致錯誤操作,造成難以挽回的嚴重后果。
在測量測試行業(yè),完整且有意義的測量結(jié)果應該包含其不確定度。不確定度被用于表示測量結(jié)果的分散性,測量結(jié)果的可靠性在很大程度上取決于其不確定度的大?。?-6]。此外,統(tǒng)一的測量不確定度評定方法使得測量結(jié)果可以方便地被比較和選用。主流的不確定度評定方法包括測量不確定度表示指南(Guide to the expression of Uncertainty in Measurement,GUM)法[7]和蒙特卡洛法(Monte Carlo Method,MCM)[8],其評定流程屬于被公認的行業(yè)標準。測量不確定度的評定結(jié)果能夠反映測量結(jié)果的可靠性,使得數(shù)以萬計的測量系統(tǒng)能夠被合理地工程化應用。然而,因為缺少可靠的不確定度評定手段,所以基于深度學習的目標定位技術(shù)的應用存在諸多限制。雖然部分學者已經(jīng)開展了有關(guān)深度學習不確定度的研究[9],但是仍缺少對實際工程場景的分析和對不確定度統(tǒng)一、規(guī)范的評定方法,因此與實現(xiàn)可靠的不確定度評定還有一定的差距。
本文從符合測量測試行業(yè)規(guī)范的測量不確定度評定的角度切入,分析深度學習中目標定位不確定度的研究現(xiàn)狀,列舉基于深度學習的目標定位方法的誤差來源,討論當前相關(guān)技術(shù)評價指標的價值與不足,并提出對規(guī)范化基于深度學習的目標定位技術(shù)不確定度評定的建議。
測量值指示被測量真值的估計值,測量過程中的隨機效應和系統(tǒng)效應導致了測量結(jié)果的不確定性。不確定度用以衡量測量結(jié)果的可信程度,在JJF 1059.1—2012《測量不確定度評定與表示》中將測量不確定度定義為:根據(jù)所用到的信息,表征被測量值分散性的非負參數(shù)。具體來說,由于被測量真值以較大的概率分布在測得值與測量不確定度確定的區(qū)間之內(nèi),因此在給出測量結(jié)果時,只有附加不確定度說明的測量結(jié)果才是完整和有意義的。通過測量不確定度進行測量測試設(shè)備的質(zhì)量把控,是推動計量產(chǎn)業(yè)合理化發(fā)展的基石。依據(jù)目前的JJF 1059 系列計量技術(shù)規(guī)范,通用的測量不確定度評定方法包括GUM法和MCM。
GUM法的流程由JJF 1059.1—2012《測量不確定度評定與表示》所表述,該方法通過不確定度傳播率計算合成標準不確定度,從而得到被測量估計值的測量不確定度。為了合成標準不確定度,GUM法首先需分析不確定度來源并建立如下測量模型:
式中:Y為被測量;f 為測量函數(shù);Xi為輸入量;N 為輸入量個數(shù)。通常每個輸入量都存在不確定度,因此需要分別求取各輸入量Xi對應的估計值xi的標準不確定度u(xi),評定各分量標準不確定度的方法分為A類評定方法和B類評定方法。
A類評定方法對輸入量的估計值xi進行n 次獨立重復觀測,再計算得到一系列估計值xi的標準差s(xi)作為標準不確定度u(xi)。若使用重復觀測的均值作為估計值,則標準不確定度為
B類評定方法根據(jù)先驗信息,判斷并獲得估計值xi的標準不確定度u(xi)。在獲得所有Xi的估計值的標準不確定度u(xi)后,便可通過不確定度傳播原理計算被測量Y的估計值y的合成標準不確定度uc(y):
GUM法的適用條件為:①可以假設(shè)輸入量的概率分布呈對稱分布;②可以假設(shè)輸出量的概率分布近似為正態(tài)分布或者t 分布;③測量模型為線性模型、可以轉(zhuǎn)化為線性模型或可用線性模型近似的模型。當測量函數(shù)f為使用泰勒展開的近似線性函數(shù)時,同樣存在誤差干擾,此時需要將省略的高階項作為不確定度分量進行評定。
MCM的流程由JJF 1059.2—2012《用蒙特卡洛法評定測量不確定度》所表述,該方法是在如下情況時對GUM 方法的補充:①測量模型明顯呈非線性;②輸入量的概率密度函數(shù)(Probability Density Function,PDF)明顯非對稱;③輸出量的PDF 較大程度地偏離正態(tài)分布或t 分布,尤其分布明顯非對稱。MCM通過對輸入量Xi的PDF 離散抽樣,由測量模型傳播輸入量的分布,計算獲得輸出量Y的PDF的離散抽樣值,進而進行不確定度評定。MCM 在確定輸入量Xi的PDF后,需進行M 次采樣并將輸入量傳播為Y,其中M的選擇方法為
式中:p為包含概率,即在規(guī)定包含區(qū)間內(nèi)包含真值的概率。獲得M 組Y 的估計量集合y(M)={y1,y2,…,yM}后,可分別計算其均值y(M)和標準差s(y(M))作為Y的估計值y 及其標準不確定度u(y)。此時標準不確定度u(y)計算公式為
在使用MCM的情況下,Y 的PDF 不一定對稱,因此采用最短包含區(qū)間作為包含區(qū)間。
不確定度是指示測量結(jié)果可信度時常用的評價指標,基于深度學習的預測模型在開發(fā)和應用過程中均存在不確定性,各類不確定度分量導致了最終測量結(jié)果的不確定度。針對基于深度學習的預測結(jié)果缺少可信度指標的問題,學界已開展了對深度學習不確定度分析的研究。其中,部分學者認為深度學習的不確定度包括數(shù)據(jù)不確定度(也稱為“偶然不確定度”)和模型參數(shù)不確定度(也稱為“認知不確定度”)兩種分量,其中數(shù)據(jù)不確定度來自數(shù)據(jù)采集和人工標注過程的噪聲,而模型參數(shù)不確定度來自訓練數(shù)據(jù)的分布偏移、模型結(jié)構(gòu)不合理、訓練程度不充分造成的建模偏差[10]。兩種不確定度的舉例如圖1 所示。
圖1 深度學習的數(shù)據(jù)不確定度和模型參數(shù)不確定度舉例
圖1 中橙色實線為真值,紅色虛線為預測結(jié)果,藍色點為訓練數(shù)據(jù)。圖1 中(b)段實現(xiàn)了正確的數(shù)據(jù)擬合。數(shù)據(jù)不確定度如圖1 中(c)段和圖1 中(d)段所示,采樣或標注誤差導致的訓練數(shù)據(jù)與真值出現(xiàn)偏移,若該誤差呈對稱分布(誤差期望近似0),訓練結(jié)果通常誤差較小;若該誤差有明顯偏移,訓練結(jié)果也將出現(xiàn)偏移。模型參數(shù)不確定度如圖1 中(a)段和圖1 中(e)段所示,在訓練數(shù)據(jù)不充足或是沒有訓練數(shù)據(jù)的部分,建模誤差將會很大。上述兩種不確定度分量組成了深度學習模型建模的不確定度,由于神經(jīng)網(wǎng)絡(luò)的輸入和預測結(jié)果的映射關(guān)系是確定且唯一的,因此估計其不確定度需要特別的方法。當前深度學習不確定度的主流估計方法如圖2 所示,包括基于直接預測的方法、基于多模型的方法和基于多輸入的方法,以下將從目標定位任務(即估計圖像中目標關(guān)鍵點的像素坐標)的角度分別對這些方法進行敘述。
圖2 主流的深度學習不確定度估計方法
基于直接預測的方法隱式地估計不確定度,并將其作為一項網(wǎng)絡(luò)預測結(jié)果輸出,如圖2(a)所示[11]。該方法首先先驗地建模預測結(jié)果的誤差分布,然后用最大似然估計的方法進行訓練階段目標函數(shù)的設(shè)計。對于目標定位任務的像素坐標預測,若先驗地設(shè)置預測誤差呈高斯分布,則獲得對測量結(jié)果分布的如下:
式中:σ*為預測誤差分布的標準差,通過網(wǎng)絡(luò)直接輸出。
使用最大后驗估計作為訓練的目標函數(shù),可表示為
使用目標函數(shù)L 訓練網(wǎng)絡(luò),可預測每組測量結(jié)果的σ*作為不確定度,以表示預測結(jié)果的可信度。
神經(jīng)網(wǎng)絡(luò)的輸入和預測結(jié)果的映射關(guān)系是確定且唯一的,為了統(tǒng)計預測結(jié)果的分布,可以使用多個模型進行預測,此時只須保證這些模型的參數(shù)符合獨立同分布即可?;诙嗄P偷姆椒ㄈ鐖D2(b)所示,可分為基于貝葉斯神經(jīng)網(wǎng)絡(luò)的方法[12]和基于模型集成的方法[13]。
與基于最大似然估計的方法不同,貝葉斯神經(jīng)網(wǎng)絡(luò)[14]能夠擬合模型參數(shù)的分布。當給定一組訓練用的輸入-標注對(x,y)時,先假設(shè)θ的先驗分布P(θ),再利用如下貝葉斯理論建模θ的后驗分布P(θ|x,y):
式中:常數(shù)項P(y|x)的定義為
估計出模型參數(shù)的后驗分布后,對于一個輸入x*,其預測輸出的坐標y*可以用貝葉斯模型平均獲得,方法如下:
這種基于貝葉斯神經(jīng)網(wǎng)絡(luò)的方法能夠直接應用模型參數(shù)的分布來估計預測結(jié)果的分布,但在實際應用中通常需要針對離散且有限的模型參數(shù),因此需要使用蒙特卡洛近似來獲取預測的最佳估計值和標準差。具體地,可以從模型參數(shù)的后驗分布P(θ|x,y)中采樣N組樣本{θ1,θ2,…,θN},之后再按如下方法計算多組測量結(jié)果的均值和方差作為被測量真值的最佳估計值和測量結(jié)果的不確定度:
式中:E為求期望函數(shù);Var為求方差函數(shù)。
基于多模型的方法通過執(zhí)行多組并行訓練過程,獲得多組網(wǎng)絡(luò)模型參數(shù),這些參數(shù)符合獨立同分布假設(shè)。若執(zhí)行了N 組訓練,則獲得N 組模型參數(shù){θ1,θ2,…,θN},之后同樣使用式(11)進行統(tǒng)計分析,可獲得被測量真值的最佳估計值和測量結(jié)果的不確定度。
神經(jīng)網(wǎng)絡(luò)的輸入和預測結(jié)果的映射關(guān)系是確定且唯一的,為了統(tǒng)計預測結(jié)果的分布,可以使用多個輸入進行預測。該方法的原理是用數(shù)據(jù)增強的手段從單個輸入樣本生成多個樣本,其思想是通過數(shù)據(jù)增強來擴大樣本允許探索的視圖,以此來捕捉不確定性[15]。常用的數(shù)據(jù)增強手段包括加噪、翻轉(zhuǎn)、裁剪、拉伸等。需要注意的是,在使用此技術(shù)時應只對數(shù)據(jù)進行有效增強,而不應生成目標分布以外的數(shù)據(jù)[16]。具體的方法如圖2(c)所示,輸入數(shù)據(jù)x*經(jīng)由N 種數(shù)據(jù)增強手段生成{},將這些增強后的數(shù)據(jù)分別輸入網(wǎng)絡(luò)模型f可得N組關(guān)鍵點坐標{},之后同樣使用式(11)進行統(tǒng)計分析,可得被測量真值的最佳估計值和測量結(jié)果的不確定度。
深度學習的不確定度包括數(shù)據(jù)不確定度和模型參數(shù)不確定度兩個分量,當前深度學習目標定位結(jié)果的不確定度估計方法包括基于直接預測的方法、基于多模型的方法和基于多輸入的方法3 類。
基于直接預測的方法利用高斯等先驗模型建模輸出預測結(jié)果的誤差分布,再使用最大后驗估計作為目標函數(shù)。最大后驗估計是針對模型參數(shù)的點估計方法,因此無法捕捉模型參數(shù)的不確定性,故利用直接預測的方法獲得的是數(shù)據(jù)不確定度分量。盡管使用該方法可得到數(shù)據(jù)不確定度,但是該不確定度的計算是基于神經(jīng)網(wǎng)絡(luò)的預測方法,因此可信度較低。
使用基于多模型的方法和基于多輸入的方法,分別可以獲得數(shù)據(jù)不確定度和模型參數(shù)不確定度分量。該類方法與MCM 較為相似,都是先從輸入分布采樣計算多組輸出,再利用統(tǒng)計方法分析輸出的分布。相比直接預測不確定度的方法,該類統(tǒng)計重復實驗結(jié)果后評價出的不確定度更具備說服力,且易規(guī)范化。
由于訓練數(shù)據(jù)和模型參數(shù)互不相關(guān),因此在利用統(tǒng)計分析分別得到數(shù)據(jù)x和模型參數(shù)θ造成結(jié)果y的標準不確定度ux(y)和uθ(y)后,可利用GUM 法按式(12)計算y的合成標準不確定度uc(y)。
盡管當前的研究可以獲得模型和數(shù)據(jù)兩個方面的不確定度分量并計算合成標準不確定度,但該指標僅針對數(shù)據(jù)集的擬合效果,并未被拓展到具體工程環(huán)境,因此還有諸多干擾未被考慮。此外,當前針對深度學習模型的不確定度評估的研究仍未形成規(guī)范的方法。上述原因使得工業(yè)界缺少可靠的深度學習目標定位不確定度評定標準。以下將從工程應用的角度討論深度學習中目標定位任務的誤差來源和主流指標,并為可靠的不確定度評定標準建設(shè)提出建議。
深度學習中的目標定位通常指從輸入圖像中估計目標物體的像素位置,常見的任務包括人體姿態(tài)估計中的關(guān)節(jié)點定位和物體檢測中的物體邊界框定位。人體姿態(tài)估計需要從人體圖像中檢測出能反映運動學特性的身體鍵節(jié)點,例如頭、脖子、胸腔、肩膀、肘部、手腕、骨盆、臀部、膝蓋、腳踝等[17]。身體關(guān)鍵點定位流程如圖3(a)所示,得益于深度學習的發(fā)展,使用神經(jīng)網(wǎng)絡(luò)可直接回歸出人體圖像中身體節(jié)點的像素坐標,并且能夠取得較高的準確率。物體檢測需要從輸入圖像中檢測出不同種類的物體,并分別進行定位和分類。其中的物體邊界框定位的流程如圖3(b)所示,定位結(jié)果為包含物體的最小邊界框[18],可通過神經(jīng)網(wǎng)絡(luò)回歸出各邊界框的頂點坐標。
圖3 人體姿態(tài)估計和物體檢測中的目標定位流程
無論是身體關(guān)鍵點定位還是邊界框定位,神經(jīng)網(wǎng)絡(luò)的開發(fā)和應用過程較為統(tǒng)一,主要包括數(shù)據(jù)獲取及標注、模型選取與網(wǎng)絡(luò)訓練、推理測試和現(xiàn)場應用4 個階段。各階段簡述如下。
(1)數(shù)據(jù)獲取及標注。
深度學習技術(shù)的核心是數(shù)據(jù)驅(qū)動的模型擬合,因此需要準備大量的圖像數(shù)據(jù),并且人工標注每一幅圖像中的身體關(guān)鍵點或者邊界框的像素坐標以備訓練。這些數(shù)據(jù)是從真實世界中的相關(guān)場景采樣出來的離散點,為了使訓練數(shù)據(jù)能夠盡可能地擬合真實場景的分布,通常需要采集大量的圖像。
(2)模型選取與網(wǎng)絡(luò)訓練。
神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)種類紛繁復雜,需要研究者根據(jù)具體任務選取恰當?shù)木W(wǎng)絡(luò)模型。選取網(wǎng)絡(luò)模型后,通過反向傳播的訓練手段擬合模型參數(shù),使得神經(jīng)網(wǎng)絡(luò)的輸出能夠接近人工標注的結(jié)果。通常在平均誤差達到最小值時,網(wǎng)絡(luò)訓練結(jié)束。
(3)推理測試。
完成網(wǎng)絡(luò)參數(shù)擬合后,通常在與訓練數(shù)據(jù)獨立同分布的測試數(shù)據(jù)上進行模型泛化性測試。通過統(tǒng)計測量值和真值(標注值)的差距并進行分析,可以獲得多種評價模型性能的指標。
(4)現(xiàn)場應用。
在獲得足夠性能的網(wǎng)絡(luò)模型后,需要將其嵌入測量現(xiàn)場的系統(tǒng)進行應用。在該階段,測量結(jié)果還將受到成像系統(tǒng)和計算機系統(tǒng)的誤差干擾,因此檢測精度較推理測試階段更差。同時,應用時通常無法獲得被測量值的真值,因此可以用不確定度指標反映測量結(jié)果的可信度。
基于深度神經(jīng)網(wǎng)絡(luò)的目標定位模型可表示為
式中:Y為被測量,即深度模型輸出的目標像素坐標;f為神經(jīng)網(wǎng)絡(luò)模型,具體表現(xiàn)為神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。分析測量模型可知誤差來源應包括輸入圖像、模型參數(shù)和網(wǎng)絡(luò)模型;X 為輸入圖像,即現(xiàn)場采集獲取的圖像數(shù)據(jù);θ為模型參數(shù)。為細化誤差來源,繪制網(wǎng)絡(luò)模型的開發(fā)及應用過程如圖4 所示。
圖4 網(wǎng)絡(luò)模型的開發(fā)及應用過程
圖4 中藍色模塊表示開發(fā)和應用的各項處理過程,誤差由這些過程引入,分析如下。
(1)相機采樣誤差。
相機采樣誤差由采樣范圍和噪聲導致。由于真實場景是多元且高度非線性的連續(xù)分布,因此有限的離散采樣通常難以表征所有情況(例如天氣、對象的種類和人體生理特征),這將導致訓練數(shù)據(jù)分布與真實場景分布的偏移,進而引入建模的誤差。此外,圖像采集系統(tǒng)會受到光學鏡頭畸變和成像噪聲的干擾,使得圖像與真實場景存在差異,引入誤差。相機采樣的誤差最終被疊加在輸入圖像和模型參數(shù)上。
(2)人工標注誤差。
針對人體姿態(tài)估計和物體檢測任務,人工標注的身體節(jié)點和邊界框位置都存在誤差,這將影響訓練過程和預測結(jié)果。人工標注誤差最終被疊加在模型參數(shù)上。
(3)模型結(jié)構(gòu)誤差。
模型設(shè)計決定了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)和任務的不適配將造成過擬合或欠擬合,使得預測誤差加大。通常認為神經(jīng)網(wǎng)絡(luò)能夠擬合目標函數(shù),因此分析時不考慮網(wǎng)絡(luò)模型的誤差。
(4)網(wǎng)絡(luò)訓練誤差。
網(wǎng)絡(luò)訓練的目的是擬合出恰當?shù)木W(wǎng)絡(luò)參數(shù),該過程存在隨機性。初始參數(shù)、訓練批次、優(yōu)化器、學習率、損失函數(shù)、正則項、中止判定條件等超參數(shù)的設(shè)置都會影響最終的訓練結(jié)果,因此引入了誤差。網(wǎng)絡(luò)訓練誤差最終被疊加在模型參數(shù)上。
(5)計算機誤差。
神經(jīng)網(wǎng)絡(luò)的推理過程通過計算機實現(xiàn),因此計算機的舍入誤差和故障性誤差都會干擾測量結(jié)果。計算機誤差最終被疊加在輸入圖像和模型參數(shù)上。
在測量測試行業(yè),測量不確定度是一個成熟的測量質(zhì)量評價指標,受到了從業(yè)人員廣泛的認可和使用。而在深度學習領(lǐng)域,不確定度是一個較為新穎的評價指示,該領(lǐng)域占主導地位的仍是均方誤差、準確率等指標。本節(jié)將從測量不確定度的角度討論基于深度學習的目標定位技術(shù)的各項主流評價指標的意義。
當前深度學習中目標定位任務的主流評價指標都側(cè)重于推理測試結(jié)果,即關(guān)注神經(jīng)網(wǎng)絡(luò)對訓練數(shù)據(jù)所代表分布的擬合能力。身體節(jié)點和物體邊界框定位模型的訓練過程均屬于非線性回歸,給定數(shù)據(jù)集D ={(x1,y1),(x2,y2),…,(xm,ym)},其中xi為輸入圖像,yi為輸入xi的真實標記(身體節(jié)點或邊界框頂點的像素坐標),則參數(shù)擬合后的模型可表示為
式中:ε為預測誤差,通常假定模型的預測結(jié)果f(xi,θ)是對真值yi的無偏估計,即E[]ε =0。由于深度神經(jīng)網(wǎng)絡(luò)是高度非線性的模型,并且其輸入數(shù)據(jù)的分布較為復雜,因此其模型的指標評定多與MCM 的思想相近:從分布中采樣大批量輸入數(shù)據(jù),并對這些數(shù)據(jù)對應的預測結(jié)果進行統(tǒng)計分析。
(1)均方誤差。
均方誤差(Mean Squared Error,MSE)是回歸任務常用的性能度量,可用于評估關(guān)節(jié)點定位模型的性能。使用該指標時要把預測結(jié)果f(xi,θ)與真實標記yi進行比較:
更一般地,對于數(shù)據(jù)分布X 的概率密度函數(shù)P(x),均方誤差可描述為
可見均方誤差度量了整個量程(X 所描述的真實場景分布)內(nèi)模型預測誤差的期望和方差,該指標可作為對神經(jīng)網(wǎng)絡(luò)模型整體精確度的度量。此外,在用無偏的分布建模ε的先驗條件下,均方誤差可表示模型預測結(jié)果的不確定度。與測量不確定度不同,均方誤差衡量的是模型在整個量程(分布X)下的不確定度,并不是對單個測量結(jié)果的估計。
(2)準確率。
準確率是常用的分類任務性能指標,指分類正確的樣本數(shù)占樣本總數(shù)的比例。雖然身體節(jié)點和物體邊界框定位屬于回歸任務,但通過設(shè)置閾值可以將其轉(zhuǎn)換為一個二分類任務。具體的,身體節(jié)點定位任務使用目標節(jié)點相似度(Object Keypoint Similarity,OKS)對測量誤差f(xi,θ)-yi進行轉(zhuǎn)化[19],即
此處不對OKS的計算過程做解釋,只需了解di表示估計的身體節(jié)點像素坐標f(xi,θ)和真值yi之間的歸一化距離,該參數(shù)與測量誤差正相關(guān)。若設(shè)置閾值為U,則模型在數(shù)據(jù)集D中預測的準確率計算為
式中:I(·)為指示函數(shù),當滿足條件時輸出為1,反之為0。同樣的,物體檢測中的定位結(jié)果可以用準確率進行評估。要評估物體檢測模型的定位性能,需將邊界框測量值與真值進行比較?;谏疃葘W習的物體檢測評價體系中,使用交并比IIoU,i∈R[0,1]計算測量值ti和真值Ti的距離(R 為實數(shù)域),其計算方法為:測量值ti與真值Ti的交集除以它們的并集,這里的交集和并集均以面積表示,其計算公式可以表示為
一個正確的物體邊界框測量值ti與真值Ti的交并比IIoU,i必須大于某特定閾值H,既然IIoU,i可看作物體邊界框測量值與真值的距離,就可用類似式(18)的方法計算物體定位的準確率,計算如下:
準確率計算和測量不確定度評定時的各項參數(shù)存在相似性,如圖5 所示。在用MCM 評定測量不確定度時,通過重復測量得到一組測量值,并將其均值作為最佳估計值。在計算所有測量值的殘差后,獲得如圖5(a)所示的分布圖,可作為對殘差分布的離散采樣。在選定包含區(qū)間后,便可將包含區(qū)間內(nèi)測量值占所有測量值的比例作為包含概率。在計算基于深度學習的目標定位模型的準確率時,首先遍歷數(shù)據(jù)集D 的樣本xi獲得對應的測量結(jié)果,然后計算相對于真值的歸一化距離(di或IIoU,i),歸一化距離的離散分布如圖5(b)所示(為便于展示,此處為測量值增加了相對于真值的方位)。在選定閾值U或H后,可按式(18)或式(20)計算目標定位的準確率。
圖5 準確率計算和測量不確定度評定的相似性對比
通過上述對比可知,模型的預測準確率和不確定度評估給出的包含概率較為相似,差別在于準確率計算對象是模型擬合數(shù)據(jù)集D 的誤差,而不確定度評估的對象是針對單個樣本的測量誤差。
綜合上述分析可知,主流指標著重評價模型整體的擬合能力。相比較而言,測量不確定度更適用于評價實際應用中單個預測結(jié)果的好壞。
在基于深度學習的目標定位任務中,現(xiàn)有的主流評價指標反映了開發(fā)階段模型在數(shù)據(jù)所表示的分布上的平均精度,并未針對實際使用中的單次測量結(jié)果進行可靠性分析。對基于深度學習的圖像關(guān)鍵點定位結(jié)果進行不確定度評定,能夠促進該技術(shù)的工業(yè)化應用。下面將結(jié)合標準的測量不確定度評定方法和深度學習中目標定位不確定度的現(xiàn)有研究成果,為設(shè)計規(guī)范化的、可靠的深度學習中目標定位不確定度評定方法提出建議。
由式(14)可知,基于深度學習的目標定位的不確定度分量包括輸入數(shù)據(jù)不確定度和模型參數(shù)不確定度。輸入數(shù)據(jù)不確定度的來源包括相機采樣誤差和計算機誤差,而模型參數(shù)不確定度的來源包括相機采樣誤差、人工標注誤差、網(wǎng)絡(luò)訓練誤差和計算機誤差。在模型的推理應用階段,相機采樣誤差、計算機誤差是計算機視覺和機器視覺模型所共有的隨機或粗大誤差,可通過多次重復實驗的方法評估由其造成的不確定性。而在模型的訓練階段,相機采樣誤差、人工標注誤差和網(wǎng)絡(luò)訓練誤差直接造成了深度學習目標定位模型參數(shù)的不確定性,該類不確定性需要根據(jù)具體的目標定位模型進行分析。盡管根據(jù)第2 節(jié)所述的方法可獲得神經(jīng)網(wǎng)絡(luò)預測的不確定度,但是在具體的工程應用中,該方法還存在如下問題:
①數(shù)據(jù)不確定度分量雖然評估了輸入數(shù)據(jù)造成的不確定性,但是其針對的是訓練數(shù)據(jù)的噪聲或數(shù)據(jù)增強手段帶來的不確定性。在實際工程應用中,成像系統(tǒng)噪聲和計算機的干擾并不能被先驗地分析,因此評定測量結(jié)果的不確定度時,還應對具體場景進行分析。
②相較于GUM法和MCM,深度學習中的目標定位不確定度缺乏統(tǒng)一、規(guī)范的評定方法,使得其評估結(jié)果不易被認可且缺乏通用性。因此設(shè)計符合技術(shù)規(guī)范的不確定度評定流程顯得尤為必要。
上述問題使得工業(yè)界難以獲得深度學習中目標定位結(jié)果不確定度的可靠估計,因此規(guī)范化的不確定度評定方法應該著手解決這些問題。
在具體工程應用中,存在無法被先驗分析的成像噪聲和計算機的干擾,這些誤差來源同樣會導致測量結(jié)果的不確定性。成像噪聲導致了輸入數(shù)據(jù)的隨機誤差,計算機的干擾來源于舍入誤差導致的系統(tǒng)誤差和故障性誤差導致的隨機及粗大誤差。針對當前目標定位不確定度評定的需求,為了量化工程現(xiàn)場帶來的不確定度,將測量模型修改為
式中:yr為工程現(xiàn)場對被測量的預測結(jié)果,即深度模型輸出的目標像素坐標;f為測量函數(shù),具體表現(xiàn)為神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);xr為包括成像和計算機系統(tǒng)干擾的輸入數(shù)據(jù),即現(xiàn)場采集獲取的圖像數(shù)據(jù);θr為受計算機系統(tǒng)干擾的神經(jīng)網(wǎng)絡(luò)模型參數(shù);ε 為預測誤差分布。由于深度神經(jīng)網(wǎng)絡(luò)是高度非線性函數(shù),因此可利用MCM進行測量不確定度評定。下文將分析各參數(shù)的PDF,并提出適用于基于深度學習的目標定位任務的不確定度計算方法。
(1)輸入數(shù)據(jù)xr的PDF。
使用MCM 首先需要獲得xr的PDF。舉例來說,對于某真實場景x*~δ(x*),其首先經(jīng)過成像過程φi得到存在噪聲的圖像分布P(x*,φi),之后圖像被進行數(shù)據(jù)增強φa得到分布P(x*,φi,φa),同時計算機干擾φp被處理過程引入得到的分布P(x*,φi,φa,φp)。由于真實場景、成像、數(shù)據(jù)增強和計算機干擾相互獨立,因此的分布生成過程可表示為
(2)模型參數(shù)θr的PDF。
目標定位模型參數(shù)θr的不確定度來自訓練過程中對θ進行點估計的誤差,以及計算機舍入和故障導致的誤差。對θ點估計的誤差導致了模型擬合訓練數(shù)據(jù)集的誤差,因此可將訓練過程的干擾作為系統(tǒng)誤差引入測量現(xiàn)場的不確定度分析。對于訓練得到的模型參數(shù)θ ~P(θ),計算機運算過程導致的干擾φp會將其轉(zhuǎn)化為θr~P(θ,φp)。因為模型訓練過程和現(xiàn)場測量過程不相關(guān),所以P(θr)的生成過程可表示為
在確定了θr的PDF 的前提下,同樣可以利用MCM評定θr的不確定度。如2.2 節(jié)所述,θ 的分布P(θ)可直接基于貝葉斯推斷的方法獲取,并在評定階段通過在P(θ)內(nèi)采樣獲得樣本。此外,也可以對模型進行足夠多次的獨立訓練,獲得多組θ作為對P(θ)的采樣。獲得多組θ 后,基于這些參數(shù)的多次模型推理過程可作為對計算機干擾P(φp)的采樣,至此完成了對θr的分布P(θ,φp)的采樣。
(3)測量結(jié)果yr的不確定度。
為規(guī)范且合理地評價基于深度學習的目標定位結(jié)果,本文以測量不確定度為切入點,對目標定位技術(shù)的指標評定展開討論。首先,對深度學習中目標定位不確定度分析的研究現(xiàn)狀進行了討論,指出當前的研究并未拓展到具體工程環(huán)境,僅僅是針對數(shù)據(jù)擬合過程的不確定度進行分析。然后,對基于深度學習的目標定位技術(shù)的誤差來源進行了總結(jié),并對比了該領(lǐng)域當前主流的評價指標與測量不確定度的異同,指出了主流指標缺少對實際應用時測量結(jié)果質(zhì)量的評估。最后,結(jié)合測量不確定度評價方法、深度學習不確定度分析技術(shù)和深度學習中目標定位的誤差來源,針對基于深度學習的目標定位技術(shù)設(shè)計規(guī)范的不確定度評定方法提出了建議。
本文對深度學習中目標定位技術(shù)的測量可靠性進行了系統(tǒng)的分析,可在一定程度上促使新興的基于深度學習的測量技術(shù)向工程化、規(guī)范化和標準化的應用邁進。除定位技術(shù)外,完整的目標檢測任務還應包括分類技術(shù),未來針對分類技術(shù)繼續(xù)進行不確定度分析是一個有價值的研究方向。