• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于向量叉乘標簽分配的遙感圖像目標檢測算法①

      2024-03-20 08:21:46禹鑫燚林密盧江平歐林林
      高技術(shù)通訊 2024年2期
      關(guān)鍵詞:中心點集上像素點

      禹鑫燚 林密 盧江平 歐林林

      (浙江工業(yè)大學(xué)信息工程學(xué)院 杭州 310023)

      目標檢測是機器視覺中最具挑戰(zhàn)性的問題之一。近年來隨著深度卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,許多優(yōu)秀的水平目標檢測算法相繼被提出,包括快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region-based convolution neural network,Faster-RCNN)[1]、RetinaNet[2]、全卷積單階段目標檢測(fully convolutional one-stage object detection,FCOS)[3]和YOLOX(you only look once X)[4]等,這些算法在人臉檢測、行人計數(shù)和自動駕駛等方面取得了較好的結(jié)果。與自然場景下的目標不同,遙感圖像中的目標往往排列密集,尺度、長寬比以及方向變化比較大,因而水平目標檢測算法難以在遙感圖像中實現(xiàn)準確的檢測[5]。

      近年來,許多優(yōu)秀的遙感圖像目標檢測算法相繼被提出,它們通過引入額外的角度來實現(xiàn)遙感圖像中任意方向目標的檢測,即旋轉(zhuǎn)目標檢測。這些檢測器首先預(yù)設(shè)大量的先驗框(也稱為錨點[6])來實現(xiàn)與真實框的空間對齊,然后通過預(yù)設(shè)框與真實目標的交并比(intersection-over-union,IoU)來選擇正負樣本,最后根據(jù)損失來實現(xiàn)正樣本的邊界回歸[7]。其中,基于預(yù)設(shè)框和真實框IoU 選擇正負樣本的過程被稱為基于IoU 的標簽分配策略。由于遙感圖像中目標在尺度、長寬比和方向上的變化很大,因此這種基于IoU 的標簽分配策略需要預(yù)設(shè)大量的錨框來更好地匹配真實目標,這極大增加了訓(xùn)練過程的計算量,同時加劇了正負樣本的不平衡。此外,在密集的目標檢測中存在分類和回歸不一致的問題,導(dǎo)致了目標的復(fù)檢或者漏檢,進而降低了模型的檢測性能。

      為了解決上述問題,本文提出了一種基于改進YOLOX 的無錨框旋轉(zhuǎn)目標檢測算法。首先,在YOLOX 邊界回歸的基礎(chǔ)上通過引入角度信息使其變成旋轉(zhuǎn)目標檢測算法。然后,提出了一種基于向量叉乘的無錨框標簽粗分配策略,通過判斷特征圖的像素點是否位于旋轉(zhuǎn)目標內(nèi)或者中心點附近的旋轉(zhuǎn)正方形框內(nèi),進而確定其是否為候選正樣本。此外,通過增加旋轉(zhuǎn)中心度量的方法,使得正樣本的分布更加趨近于中心點附近。最后,將基于向量叉乘的標簽粗分配策略和中心點度量的方法添加到基于最優(yōu)傳輸分配(sim-optimal transmission assignment,simOTA)的代價函數(shù)中,通過最優(yōu)傳輸?shù)玫阶罱K的正負樣本。本文的主要貢獻如下。

      (1) 提出了一種簡單且快速的單階段無錨框遙感圖像目標檢測算法YOLOXR,基于向量叉乘的標簽粗分配策略,可以為訓(xùn)練樣本分配更加合適的候選正樣本。

      (2) 為了降低旋轉(zhuǎn)目標邊緣低質(zhì)量樣本的權(quán)重,基于旋轉(zhuǎn)框向量叉乘的比值,設(shè)計了旋轉(zhuǎn)中心度量方法,使得正樣本更加趨近于中心點附近。

      (3) 提出的方法在DOTA v1.0、HRSC 2016 和UCAS-AOD 數(shù)據(jù)集上分別實現(xiàn)了78.21%、97.11%和98.00%的檢測精度,超越了目前大多數(shù)旋轉(zhuǎn)目標檢測算法,并且保持了較高的檢測速度。

      1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

      目前的旋轉(zhuǎn)目標檢測主要是通過生成旋轉(zhuǎn)的錨框或者增加特征精練的兩階段方法來解決,但是這些方法增加了旋轉(zhuǎn)框回歸過程的推理時間和計算量。在本文的工作中,基于改進YOLOX 設(shè)計了單階段無錨框旋轉(zhuǎn)目標檢測器,與基于錨框的兩階段方法相比,該方法更簡單、更快,而且取得了不錯的檢測性能。

      1.1 YOLOX 網(wǎng)絡(luò)結(jié)構(gòu)

      YOLOX[4]是目前最先進的單階段無錨框目標檢測器之一,主要由CSPDarkNet 53、FPN +PAN 和Decoupled Head 這3 個部分構(gòu)成。

      YOLOX 的主干檢測網(wǎng)絡(luò)延續(xù)了YOLO v4[8]和YOLO v5 的主干網(wǎng)絡(luò),由跨階段局部網(wǎng)絡(luò)(cross stage partial network,CSP[9])和DarkNet 53[10]構(gòu)成。為了解決網(wǎng)絡(luò)優(yōu)化過程中的梯度信息重復(fù)導(dǎo)致推理計算過高的問題,本文采用了CSP 模塊,將網(wǎng)絡(luò)分成基礎(chǔ)層和映射層2 部分,然后通過跨階段層次結(jié)構(gòu)將它們合并,在保證準確率的同時可以有效降低模型的計算量。CSPDarkNet 53 在DarkNet 53 的基礎(chǔ)上加入了CSP 模塊,在提高卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力的同時,有效地降低了計算量,提升了模型的推理速度。

      YOLOX 的頸部網(wǎng)絡(luò)由特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)[11]和路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)這2 部分組成。FPN 也叫特征金字塔,是針對圖像目標中多尺度的特點提出的,其將高層特征通過上采樣和低層特征融合得到進行預(yù)測的特征圖,為每一層特征圖賦予了更強的捕獲語義信息的能力。然而FPN 的自底向上的融合方式略微簡單,只是將高層的語義信息傳遞到低層,而低層的紋理信息并沒有傳遞到高層。為此,YOLOX在FPN 層的后面還添加了一個自底向上的特征金字塔PAN。FPN 把深層的語義特征傳到淺層,從而增強多個尺度上的語義表達,而PAN 則把淺層的定位信息傳導(dǎo)到深層,增強多個尺度上的定位能力,通過融合自底向上和自頂向下2 條路徑的方式增強了骨干網(wǎng)絡(luò)的表征能力。

      YOLOX 的頭部網(wǎng)絡(luò)采用了解耦頭Decoupled Head,將檢測和分類分開輸出,由于其具有更好的表達能力,所以可以加速網(wǎng)絡(luò)的收斂并且提高檢測精度。此外,YOLOX 首先通過尋找目標邊界框內(nèi)的像素點以及目標中心點附近的像素點作為正樣本的候選樣本,然后將標簽分配問題轉(zhuǎn)化為最優(yōu)傳輸問題,通過求解真實框和預(yù)測框的最優(yōu)匹配對,進而為目標匹配合適的標簽。

      1.2 YOLOXR 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

      由于YOLOX 是水平框的目標檢測算法,而遙感圖像的目標檢測是旋轉(zhuǎn)框目標檢測,因此本文在保留YOLOX 的基礎(chǔ)網(wǎng)絡(luò)以及特征聚合網(wǎng)絡(luò)情況下,主要對YOLOX 的頭部網(wǎng)絡(luò)進行修改,使其變成旋轉(zhuǎn)框的目標檢測器YOLOXR,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

      圖1 YOLOXR 網(wǎng)絡(luò)結(jié)構(gòu)圖

      首先,YOLOX 目標檢測是針對水平框設(shè)計的目標檢測器,用(x,y,w,h) 來表示水平框,而本文設(shè)計的YOLOXR 是針對旋轉(zhuǎn)框設(shè)計的目標檢測,相比于YOLOX 多了一個角度信息,因而采用(x,y,w,h,θ) 來表示旋轉(zhuǎn)框。其次,YOLOX 的標簽分配策略是針對水平框設(shè)計的,用在旋轉(zhuǎn)目標檢測中顯然不合適,為此,YOLOXR 設(shè)計了新的標簽分配策略。通過判斷特征圖的像素點是否位于目標旋轉(zhuǎn)框內(nèi)或是否位于目標中心點附近的旋轉(zhuǎn)正方形框內(nèi),進而確定其是否為候選正樣本。此外,通過向量叉乘判斷像素點距離中心點的遠近程度進而賦予不同的權(quán)重,使得標簽分配更加趨向于中心點附近。同樣地,YOLOX 采用了simOTA 方法來確定最終的正負樣本。最后,修改了YOLOX 的損失函數(shù)。由于IoU 損失函數(shù)在水平框檢測中具有較強的適用性,但在旋轉(zhuǎn)目標檢測中IoU 損失函數(shù)不可導(dǎo),而Smooth L1[12]損失函數(shù)又不能準確地表示旋轉(zhuǎn)框的各個參數(shù)之間的聯(lián)系,因此,YOLOXR 使用了Kullback-Leibler 散度(Kullback-Leibler divergence,KLD)[13]損失函數(shù)來代替原本的IoU 損失函數(shù),從而有效地解決了上述問題。

      2 基于向量叉乘的標簽分配策略

      目前大多數(shù)旋轉(zhuǎn)目標檢測器都是基于錨框的,通過預(yù)設(shè)錨框與真實框之間的IoU 進行正負樣本的劃分,IoU 大于預(yù)設(shè)閾值的樣本則作為正樣本,否則作為負樣本。這種基于錨框的正負樣本分配方法需要預(yù)設(shè)一定數(shù)量的錨框,在旋轉(zhuǎn)目標檢測中包括尺寸、長寬比和角度不同的錨框,這極大地增加了訓(xùn)練過程中的計算量和時間。此外,基于IoU 標簽分配策略在密集的目標檢測中存在分類和回歸不一致的問題,進而導(dǎo)致了目標的復(fù)檢或者漏檢。

      為了解決上述問題,本文基于YOLOX 設(shè)計了旋轉(zhuǎn)目標檢測器YOLOXR,并提出了基于旋轉(zhuǎn)框的標簽分配方法。首先通過向量叉乘的方法來判斷像素點是否位于真實旋轉(zhuǎn)框或中心點附近的旋轉(zhuǎn)正方形框內(nèi),初步篩選出正負樣本;然后根據(jù)向量叉乘的最小值和最大值之間的比值來確定特征圖中像素點距離中心的遠近程度,進而賦予不同的權(quán)重;最后采用simOTA 方法來確定最終的正負樣本。

      2.1 基于向量叉乘的標簽粗分配策略

      對于任意給定的一個旋轉(zhuǎn)真實框(x,y,w,h,θ),其坐標可以轉(zhuǎn)化為八參數(shù)表示為(x1,y1,x2,y2,x3,y3,x4,y4),按照順時針的順序?qū)ζ渑判?如圖2 所示。通過向量叉乘判斷特征圖的像素點是否位于旋轉(zhuǎn)真實框或者目標中心點附近的旋轉(zhuǎn)正方形框內(nèi),初步篩選出滿足該條件的像素點作為候選正樣本,其余的作為負樣本。圖2 表示的是遙感圖像中的一艘船,通過向量叉乘判斷特征圖的像素點是否位于這艘船所在的真實框以及它的中心點附近的正方形框內(nèi),如果在則將這個像素點標注出來(如圖2 所標注的像素點),作為候選正樣本,其余的則作為負樣本處理。

      圖2 標簽粗分配策略示意圖

      YOLOX 檢測器定義了{P3,P4,P5} 3 個級別的特征圖,它們的步長{s3,s4,s5} 分別為8、16 和32。選取任意一層特征圖上的任意一個像素點P,其像素坐標值可以表示為(xP,yP)。如圖3 所示,選取出真實框的任意一個頂點A,它與P組成的向量為另外,它與順時針方向的下個頂點B組成向量為的值可以用式(1)來表示。

      圖3 像素點和旋轉(zhuǎn)框的位置關(guān)系

      同樣地,選取出真實框頂點A的對角頂點C,它與P組成的向量為,此外,頂點C順時針方向的下個頂點為D,它們所組成的向量為的值如式(2)所示。

      由于旋轉(zhuǎn)目標ABCD是一個矩形框,AB與CD是2 條相互平行的直線,而BC與DA也是相互平行的2 條直線,同理可得,點P和直線BC和直線DA的關(guān)系為

      通過式(3)和式(4),可以確定點P是否位于AB和CD之間以及BC和DA之間,進而可以確定點P是否在旋轉(zhuǎn)真實框ABCD內(nèi)部。對于特征圖上的任意一個坐標點P,如果其滿足:

      則點P位于旋轉(zhuǎn)框ABCD的內(nèi)部,它是一個正樣本的候選樣本;否則,點P位于旋轉(zhuǎn)框的邊上或者外部,需要進一步判斷其是否位于目標中心點附近的旋轉(zhuǎn)正方形框內(nèi)。

      已知任意一個旋轉(zhuǎn)目標可以表示為(x,y,w,h,θ),則它的中心點坐標為(x,y),其旋轉(zhuǎn)角度為θ。根據(jù)這個旋轉(zhuǎn)角度,向該角度的特征圖上下左右擴張3 個像素點,得到一個正方形的旋轉(zhuǎn)框EFGH,該旋轉(zhuǎn)框的4 個頂點坐標(x5,y5,x6,y6,x7,y7,x8,y8) 分別為

      其中,cendis表示旋轉(zhuǎn)正方形框距離中心點的距離,由于如圖1 所示的{P3,P4,P5}3 個特征圖步長分別為8、16 和32,因此它在3 個特征圖中表示的距離分別為24、48 和96。

      在確定旋轉(zhuǎn)正方形框4 個頂點的坐標之后,可以通過向量叉乘的方法來判斷像素點P(xp,yp) 是否存在于旋轉(zhuǎn)正方形框內(nèi)。因此,對于特征圖上的任意一個坐標點P,如果其滿足:

      則點P位于旋轉(zhuǎn)框EFGH的內(nèi)部,它是一個正樣本的候選樣本,否則,點P作為負樣本處理。

      綜上所得,對于位于特征圖上的任意一個像素點,只要其滿足式(5)或式(7),那么該像素點就是正樣本的候選點,否則該像素點作為負樣本處理?;谙蛄坎娉说臉撕灤址峙洳呗匀缢惴? 所示。

      2.2 基于向量叉乘的旋轉(zhuǎn)中心度量方法

      基于向量叉乘的標簽粗分配方法能夠判斷特征圖的像素點是否位于真實框或者真實框中心點附近的旋轉(zhuǎn)正方形框內(nèi),但是不能判斷這個像素點距離中心點的遠近程度,進而造成遠離中心點的邊緣低質(zhì)量樣本參與正樣本的回歸,影響到最終的檢測精度。為此,本文提出了一種簡單而有效的策略來抑制這些檢測到的低質(zhì)量邊界框,而無需引入任何超參數(shù)。本文在代價函數(shù)之中添加了與分類損失和位置回歸損失并行的旋轉(zhuǎn)中心度量損失,使得標簽分配更加趨近于中心點附近的正樣本,進而降低邊緣低質(zhì)量樣本對標簽分配造成的影響。

      由2.1 節(jié)可以得知,對于任意一個像素點P,它與4 個頂點ABCD組成向量之間叉乘的值分別為為了方便描述,使用來分別表示它們。由于向量叉乘的模表示的是2 個向量所圍成的平行四邊形的面積,當點P越靠近真實框的中心點時,向量和表示的平行四邊形面積越接近,也就是它們的模相近;而當點P越遠離中心點時,向量中靠近P點的平行四邊形面積比較小,而遠離P點的平行四邊形面積比較大,進而造成它們的模相差較大。因此,YOLOXR 的旋轉(zhuǎn)中心度量(center-ness)公式為

      由于圖像坐標系相比于通常的笛卡爾坐標系是關(guān)于X軸對稱的,因此,在圖像坐標系下順時針排序的真實框,換算成常用的笛卡爾坐標系下是逆時針,這也導(dǎo)致了任何位于圖像真實框內(nèi)的點,它們的向量a→、c→、b→和d→均為正數(shù)并且位于同一個方向。因此,在式(8)中,直接采用它們的最大最小值來計算該點距離中心點的遠近程度,而無需對它們進行取模操作。圖4 給出了基于向量叉乘的中心度量方法的取值情況,當距離中心點較近時,中心值越高,距離中心點越遠時,中心值越低。

      圖4 基于向量叉乘的旋轉(zhuǎn)中心度量方法

      在得到中心值之后,相應(yīng)的中心度量損失(center-ness loss)為它表示的是像素點P距離中心點的遠近程度。像素點P距離中心點越遠,損失越大,它在代價矩陣的值也越大,因此它成為正樣本的可能性也就越小。

      2.3 基于最優(yōu)傳輸?shù)臉撕灧峙?/h3>

      目前大多數(shù)的正負樣本分配是根據(jù)預(yù)選框和真實框的IoU 來進行分配的,最優(yōu)傳輸分配(optimal transmission assignment,OTA)[14]認為目標在不同的大小、形狀和遮擋條件下的正負樣本的分配應(yīng)該不一樣,同時應(yīng)該考慮上下文信息,因此將標簽分配問題當成一個線性規(guī)劃中的最優(yōu)傳輸問題來處理,其核心思想是建立一個代價矩陣。假設(shè)有M個真實框和N個樣本(特征圖的像素點),那么代價矩陣的大小就為M×N,矩陣中的每個元素就是從不同真實框到不同樣本點的代價(用損失來表示)。最優(yōu)傳輸?shù)哪康氖侨ミx取真實框和樣本點的匹配對,使得總體代價最小。

      由于OTA 使用Sinkhorn-Knopp 迭代求解最優(yōu)匹配對的過程,因此在訓(xùn)練過程中比較耗時,而sim-OTA[4]直接用動態(tài)top-k 的方式選取匹配對,在保證精度的情況下極大地降低了訓(xùn)練的成本。simOTA首先獲取當前真實框KLD 值最大的15 個結(jié)果,把這15 個KLD 進行求和并向下取整,得到當前真實框的正樣本數(shù)量Dp;然后針對真實框挑選代價值最低的Dp個候選框;最后過濾掉共用的樣本點,對于不同的真實框均為正樣本的樣本點,選取代價值較小的點作為正樣本,其余的作為負樣本。需要注意到的是代價包括分類損失、回歸損失以及2.2 節(jié)所提到旋轉(zhuǎn)中心度量損失。simOTA 能夠自動地分析每個真實框需要正樣本的數(shù)量,并且能夠自動決定每個真實框從哪個特征圖來檢測。

      3 損失函數(shù)構(gòu)建

      常見的水平框檢測通常是通過4 個偏移量的形式來對框的大小和位置進行預(yù)測的,借鑒于此,目前大多數(shù)的旋轉(zhuǎn)目標檢測在水平框的基礎(chǔ)上加上了角度參數(shù)的回歸,如常見的Smooth L1[12]損失。但是,這5 個參數(shù)是獨立優(yōu)化的,這使得損失(或檢測精度)對任何參數(shù)的欠擬合都很敏感。此外,不同類型的物體對這5 個參數(shù)的靈敏度也不同。例如,角度參數(shù)對于檢測大長寬比的物體是非常重要的,而中心點參數(shù)對小目標非常重要。這需要在訓(xùn)練過程中給一個特定目標樣本選擇一組適當?shù)臋?quán)重,這顯然難以實現(xiàn)。

      IoU 損失是水平框目標檢測中最常用的損失函數(shù),它有效地結(jié)合水平框的大小和位置信息,并且能反映出預(yù)測檢測框與真實檢測框的檢測效果,更重要的是它具有尺度不變性。然而,在旋轉(zhuǎn)目標檢測中,旋轉(zhuǎn)的IoU 是不可導(dǎo)的,因此不能直接使用旋轉(zhuǎn)的IoU 來代替水平框的IoU。為此,基于KLD[12]的思想,將旋轉(zhuǎn)框轉(zhuǎn)化為二維高斯分布,然后計算真實框和預(yù)測框二維高斯分布之間的Kullback-Leibler散度(KLD)作為回歸損失,以此來代替IoU 損失,有效解決旋轉(zhuǎn)IoU 損失不可導(dǎo)的問題,進而提升旋轉(zhuǎn)目標的檢測精度。

      4 實驗結(jié)果及分析

      4.1 數(shù)據(jù)集

      為了驗證本文提出的YOLOXR 的有效性,本文在公開的遙感數(shù)據(jù)集DOTA、HRSC 2016 和UCASAOD 數(shù)據(jù)集上進行了實驗。

      DOTA[15]是目前公開的最全面的用于目標檢測的光學(xué)遙感圖像數(shù)據(jù)集。DOTA v1.0 數(shù)據(jù)集包含來自不同衛(wèi)星和傳感器的2 806 張圖像,圖像的大小在800 ×800 和4 000 ×4 000 的大小之間。該數(shù)據(jù)集標注了15 個類別的188 282 個實例,每個實例都由一個四邊形邊界框標注,頂點按順時針順序排列。官方使用1/2 的圖像作為訓(xùn)練集,1/6 作為驗證集,1/3 作為測試集,測試集的標簽沒有公開,需要上傳至服務(wù)器。

      HRSC 2016[16]數(shù)據(jù)集所有圖像均來自6 個著名的港口,包含海上船只和近海船只2 種場景的圖像。圖像尺寸范圍從300 ×300 到1 500 ×900,訓(xùn)練、驗證和測試集分別包含436 個圖像(包括1 207 個樣本),181 個圖像(包括541 個樣本)和444 個圖像(包括1 228 個樣本)。

      USCA-AOD[17]是中國科學(xué)院大學(xué)模式識別與智能系統(tǒng)開發(fā)實驗室發(fā)布的用于車輛和飛機檢測的遙感數(shù)據(jù)集。該數(shù)據(jù)集包含1 510 張航空圖像,分辨率大小為659×1 280,共14 596 個實例。本文隨機選擇了1 110 張圖像用于訓(xùn)練,400 張圖像用于測試。

      4.2 實驗設(shè)置

      本文所有的實驗都是基于YOLOX 來設(shè)計的,以CSPDarkNet 53 作為特征提取骨干網(wǎng)絡(luò),并利用在COCO[18]數(shù)據(jù)集預(yù)訓(xùn)練的模型參數(shù)對網(wǎng)絡(luò)進行初始化。本文在DOTA、HRSC 2016 和UCAS-AOD數(shù)據(jù)集上分別訓(xùn)練了150、150 和200 個訓(xùn)練輪數(shù),采用隨機梯度下降法(stochastic gradient descent,SGD)進行訓(xùn)練,動量和權(quán)重衰減分別設(shè)置為0.9和5 ×10-4,采用余弦退火學(xué)習(xí)率,大小為初始學(xué)習(xí)率lr×批量大小batchzise/64,初始學(xué)習(xí)率為0.01。由于在DOTA 數(shù)據(jù)集中,不同類別的實例分布極其不均衡,因此將類別的損失函數(shù)修改為焦點損失Focal loss[2],進而緩解類別不平衡帶來的影響。值得注意的是,在沒有特殊說明的情況下,其他與程序相關(guān)的超參數(shù)設(shè)置和YOLOX 一致。

      4.3 消融實驗

      為了驗證本文所提出的標簽分配策略的有效性,本文在基準模型YOLOX 基礎(chǔ)上加入了標簽粗分配策略以及旋轉(zhuǎn)中心度量方法。所有的消融實驗均以YOLOX-s 作為骨干網(wǎng)絡(luò),并在DOTA v1.0、HRSC 2016 和UCAS-AOD 數(shù)據(jù)集上訓(xùn)練并測試。為了保證實驗的公平和準確性,除了標簽分配策略,其他實驗參數(shù)設(shè)置嚴格保持一致。實驗結(jié)果如表1 所示,在加入標簽分配粗策略之后,本文的方法相比于原始的方法在DOTA v1.0、HRSC 2016 和UCASAOD 數(shù)據(jù)集上檢測精度分別提高了2.48%、0.35%及0.31%。這說明本文設(shè)計的標簽粗分配策略(判斷樣本點是否在旋轉(zhuǎn)目標內(nèi)或目標中心點附近的旋轉(zhuǎn)正方形框內(nèi))有利于正負樣本的選擇,進而提高遙感圖像目標檢測的精度。由于DOTA 數(shù)據(jù)集包含的目標類別較多,分辨率變化比較大,基準模型的檢測精度比較低,因此提升效果也比較明顯。而HRSC 2016 和UCAS-AOD 數(shù)據(jù)集類別少,分辨率變化不大,檢測精度已經(jīng)達到95.00%以上,因此提升的效果并不明顯。此外,本文還在此基礎(chǔ)上加上了中心度量的方法,在DOTA v1.0、HRSC 2016 和UCASAOD 數(shù)據(jù)集上檢測精度進一步提高了1.73%、0.22%和0.27%。這證明了中心度量方法有助于減少低質(zhì)量的邊緣樣本點,從而進一步提高檢測的精度。

      表1 本文方法在不同遙感數(shù)據(jù)集上的消融實驗結(jié)果(%)

      4.4 實驗結(jié)果

      4.4.1 在DOTA 數(shù)據(jù)集上的實驗結(jié)果

      DOTA 是目前公開的最全面的用于目標檢測的遙感圖像數(shù)據(jù)集,其中不僅包含了車輛、船只等小目標,還包括了橋梁等大長寬比的目標,這有利于檢驗旋轉(zhuǎn)目標檢測算法的性能。為了評估本文方法的性能,實驗中的方法均選擇相同的數(shù)據(jù)作為訓(xùn)練集,實驗結(jié)果來源于DOTA 的評估服務(wù)器所測試的結(jié)果。在DOTA v1.0 數(shù)據(jù)集上的實驗結(jié)果如表2 所示,其中R-101 表示ResNet-101,H-104 表示Hourglass-104,其他以此類推。從表2 的檢測結(jié)果可以看出,YOLOXR 在DOTA v1.0 上取得了78.21%檢測精度,優(yōu)于目前絕大多數(shù)旋轉(zhuǎn)目標檢測器。其中小型車輛、大型車輛和船只這些類別取得了較高的檢測精度,這說明YOLOXR 的標簽分配策略可以為小目標分配更加細致的標簽,從而避免了復(fù)檢和漏檢,有利于密集排列的小目標檢測。而在精度較高的飛機、網(wǎng)球場、籃球場以及游泳池這些場景下,本文的方法同樣取得了和其他優(yōu)秀算法相當?shù)慕Y(jié)果。這些檢測結(jié)果充分說明了YOLOX 可以為遙感目標分配更加合適的標簽,進而提升目標檢測的精度,其在DOTA v1.0 上的檢測結(jié)果如圖5 所示。

      表2 不同方法在DOTA v1.0 數(shù)據(jù)集上的檢測精度(%)

      圖5 YOLOXR 在DOTA v1.0 數(shù)據(jù)集上的檢測效果圖

      4.4.2 在HRSC 2016 數(shù)據(jù)集上的實驗結(jié)果

      HRSC 2016 數(shù)據(jù)集的實驗結(jié)果在PASCAL VOC 2007 和VOC 2012 這2 種指標下進行評估,以便公平地比較不同方法的性能。如表3 所示,YOLOXR 的小模型YOLOX-s 在VOC 2007 和VOC 2012 指標下分別實現(xiàn)了89.68%和96.20%的精度,優(yōu)于R3Det等旋轉(zhuǎn)目標檢測檢測器。更重要的是,在該模型下,所提的方法在RTX 2080 Ti GPU 上實現(xiàn)了49 FPS的超快檢測,是目前該數(shù)據(jù)集下最快的旋轉(zhuǎn)目標檢測器。與此同時,YOLOXR 的大模型YOLOX-x 在VOC 2007 和VOC 2012 指標下分別實現(xiàn)了90.25%和97.11%的精度,和目前最先進的旋轉(zhuǎn)目標檢測器性能相當,這充分說明了所提方法在面對大橫縱比的目標時仍然具有優(yōu)勢。通過上面的結(jié)果可以看出,YOLOXR 可以在HRSC 2016 數(shù)據(jù)集中實現(xiàn)準確且快速的旋轉(zhuǎn)目標檢測。圖6 展示了YOLOXR 在HRSC 2016 上的檢測效果圖。

      表3 不同方法在HRSC2016 數(shù)據(jù)上的檢測精度和速度比較

      圖6 YOLOXR 在HRSC 2016 數(shù)據(jù)集上的檢測效果圖

      4.4.3 在UCAS-AOD 數(shù)據(jù)集上的實驗結(jié)果

      為了進一步檢驗YOLOXR 對密集小目標的檢測性能,在車輛和飛機檢測的小目標數(shù)據(jù)集UCASAOD 上進行了實驗,實驗結(jié)果如表4 所示。結(jié)果顯示,本文提出的方法在UCAS-AOD 數(shù)據(jù)集上取得了98.00%的檢測精度,優(yōu)于R3Det[19]和PolarDet[20]等優(yōu)秀的旋轉(zhuǎn)目標檢測器。在車輛的檢測上,YOLOXR相比與最優(yōu)秀的檢測算法更是取得了1.75%的提升,這充分說明了YOLOXR 在小而密集目標檢測中的優(yōu)異性能。由于本文提出的標簽分配方法在面對小而密集目標時,總是能分配到最適合的標簽,而不會出現(xiàn)目標復(fù)檢和漏檢的情況,因而實現(xiàn)了精準的密集小目標檢測。YOLOXR 在UCAS-AOD 數(shù)據(jù)集上檢測的可視化結(jié)果如圖7 所示。

      表4 不同方法在UCAS-AOD 數(shù)據(jù)集上的檢測精度比較(%)

      圖7 YOLOXR 在UCAS-AOD 數(shù)據(jù)集上的檢測效果圖

      5 結(jié)論

      本文提出了一種基于向量叉乘的遙感圖像目標檢測算法YOLOXR。根據(jù)遙感圖像目標方向任意、小而密集等特點,提出了基于向量叉乘的標簽分配策略,通過判斷像素點是否在旋轉(zhuǎn)目標內(nèi)或者目標中心點附近的旋轉(zhuǎn)正方形框內(nèi),進而確定其是否為候選正樣本。此外,為了降低邊緣低質(zhì)量樣本的權(quán)重,引入了旋轉(zhuǎn)中心度量的概念,通過向量叉乘最小值與最大值的比值來確定像素點距離中心的遠近,進而賦予不同的權(quán)重。之后,通過最優(yōu)傳輸(simOTA)來尋找真實框和樣本點之間最優(yōu)的匹配對,進而確定最終的正負樣本。為了解決Smooth L1 損失不精確以及旋轉(zhuǎn)IoU 損失不可導(dǎo)的問題,引用了KLD 損失。實驗結(jié)果表明,YOLOXR 在DOTA、HRSC 2016 和UCAS-AOD 這3 個公開的遙感數(shù)據(jù)集上取得了卓越的檢測精度和速度。但是,對DOTA 數(shù)據(jù)集中個別類別的檢測仍然欠佳,如橋和直升機。因此,在下一步的工作中,根據(jù)目標的形狀大小等進一步細化標簽分配,為大長寬以及數(shù)量較少的實例目標分配更加合適的標簽,從而提升檢測效果。

      猜你喜歡
      中心點集上像素點
      Cookie-Cutter集上的Gibbs測度
      Scratch 3.9更新了什么?
      電腦報(2020年12期)2020-06-30 19:56:42
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      如何設(shè)置造型中心點?
      電腦報(2019年4期)2019-09-10 07:22:44
      基于canvas的前端數(shù)據(jù)加密
      復(fù)扇形指標集上的分布混沌
      基于逐像素點深度卷積網(wǎng)絡(luò)分割模型的上皮和間質(zhì)組織分割
      漢字藝術(shù)結(jié)構(gòu)解析(二)中心點處筆畫應(yīng)緊奏
      尋找視覺中心點
      大眾攝影(2015年9期)2015-09-06 17:05:41
      基于Node-Cell結(jié)構(gòu)的HEVC幀內(nèi)編碼
      鄂伦春自治旗| 阜平县| 丹巴县| 黄骅市| 四子王旗| 凤翔县| 泰和县| 禄丰县| 修水县| 丘北县| 武夷山市| 千阳县| 梁山县| 阳西县| 怀安县| 平南县| 灵丘县| 云霄县| 鹤庆县| 乌海市| 靖安县| 大港区| 安乡县| 房山区| 二连浩特市| 桂平市| 武清区| 潜江市| 大新县| 仪陇县| 拉萨市| 青河县| 积石山| 报价| 元江| 绥宁县| 新蔡县| 赣州市| 汤阴县| 晋江市| 达拉特旗|