• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于深度學(xué)習(xí)的視頻單應(yīng)性估計(jì)算法

      2021-04-25 05:24:14郭孟夏
      現(xiàn)代計(jì)算機(jī) 2021年6期
      關(guān)鍵詞:角點(diǎn)灰度卷積

      郭孟夏

      (四川大學(xué)視覺合成圖形圖像技術(shù)國(guó)防重點(diǎn)學(xué)科實(shí)驗(yàn)室,成都610065)

      0 引言

      單應(yīng)性矩陣的使用一直是熱門話題,在進(jìn)行平面目標(biāo)追蹤時(shí),尋找其單應(yīng)性矩陣尤為重要。到目前為止,越來(lái)越多的人使用傳統(tǒng)方法在進(jìn)行單應(yīng)性矩陣的估計(jì)計(jì)算,并不斷的改進(jìn),但是在提取圖像對(duì)的特征點(diǎn)時(shí),極容易產(chǎn)生誤匹配和累計(jì)誤差。而使用基于深度學(xué)習(xí)的單應(yīng)性估計(jì)算法可以減少誤匹配帶來(lái)的累計(jì)誤差。近年來(lái),現(xiàn)代深度學(xué)習(xí)模型[4]廣泛運(yùn)用在各個(gè)領(lǐng)域,包括圖像分類、對(duì)象檢測(cè)、場(chǎng)景分割、自然語(yǔ)言處理等。在計(jì)算機(jī)視覺領(lǐng)域,他們已經(jīng)取得了超越傳統(tǒng)方法的巨大成功。深度模型和傳統(tǒng)方法的一個(gè)主要區(qū)別是以前手工制作的特征提取的自動(dòng)化,它可以針對(duì)特定的數(shù)據(jù)和任務(wù)進(jìn)行優(yōu)化。

      1 單應(yīng)性矩陣估計(jì)概述

      1.1 相機(jī)標(biāo)定簡(jiǎn)述

      相機(jī)標(biāo)定[7]技術(shù)是根據(jù)物體在三維空間位置和圖像位置之間的關(guān)系,建立相機(jī)幾何成像模型并計(jì)算出相機(jī)參數(shù)的過(guò)程,通過(guò)攝像機(jī)拍攝的圖片用某種算法計(jì)算出相機(jī)內(nèi)部和外部參數(shù),外部參數(shù)包括旋轉(zhuǎn)矩陣和平移向量,內(nèi)部參數(shù)包括相機(jī)焦距、光心和畸變參數(shù)等。由此,我們可以得到像素坐標(biāo)系和世界坐標(biāo)系的坐標(biāo)映射關(guān)系:

      其中,u、v 表示像素坐標(biāo)系中的坐標(biāo),s 表示尺度因子,fx、fy、u0、v0、γ(由于制造誤差產(chǎn)生的兩個(gè)坐標(biāo)軸偏斜參數(shù),通常很?。┍硎? 個(gè)相機(jī)內(nèi)參,R,t 表示相機(jī)外參,xw、yw、zw(假設(shè)標(biāo)定棋盤位于世界坐標(biāo)系中zw=0 的平面)表示世界坐標(biāo)系中的坐標(biāo),M 是內(nèi)參矩陣。

      1.2 單應(yīng)性矩陣引入

      經(jīng)過(guò)(4)計(jì)算可以得到(5)(6)。

      對(duì)單應(yīng)性矩陣的9 個(gè)參數(shù)進(jìn)行歸一化,為H 添加約束條件,將H 矩陣模設(shè)為1,如(7)所示,經(jīng)整理后可得(8)(9)。

      假如我們得到了兩幅圖片中對(duì)應(yīng)的N 個(gè)點(diǎn)對(duì)(特征點(diǎn)匹配對(duì)),可以得到一個(gè)線性方程組,用矩陣形式表示為(10),A 的維度由N 確定。

      由于單應(yīng)矩陣H 包含了約束(7),因此根據(jù)上述線性方程組,8 個(gè)自由度的H 我們至少需要4 對(duì)對(duì)應(yīng)的點(diǎn)才能計(jì)算出單應(yīng)性矩陣。但是,在真實(shí)的應(yīng)用場(chǎng)景中,我們計(jì)算的點(diǎn)對(duì)中都會(huì)存在誤差。例如點(diǎn)的位置偏差幾個(gè)像素,甚至出現(xiàn)特征點(diǎn)對(duì)誤匹配的現(xiàn)象,如果只使用4 個(gè)點(diǎn)對(duì)來(lái)計(jì)算單應(yīng)性矩陣,又會(huì)出現(xiàn)累計(jì)誤差。因此,為了使得計(jì)算更精確,一般都會(huì)使用遠(yuǎn)大于4 個(gè)點(diǎn)對(duì)來(lái)計(jì)算單應(yīng)矩陣。

      2 單應(yīng)性矩陣的計(jì)算方法

      2.1 基于傳統(tǒng)方法的單應(yīng)性估計(jì)

      一般有以下5 個(gè)步驟:

      (1)提取每張圖SIFT/SURF/FAST 等特征點(diǎn);

      (2)提取每個(gè)特征點(diǎn)對(duì)應(yīng)的特征描述子;

      (3)通過(guò)匹配特征點(diǎn)描述子,找到圖像對(duì)中匹配的特征點(diǎn)對(duì);

      (4)使用RANSAC 算法剔除錯(cuò)誤的匹配;

      (5)求解方程組,計(jì)算單應(yīng)性矩陣;

      以上特征點(diǎn)提取算法和對(duì)匹配的特征點(diǎn)求解單應(yīng)性在OpenCV 中都有已封裝的庫(kù)函數(shù)。

      2.2 基于深度學(xué)習(xí)方法的單應(yīng)性估計(jì)

      目前最廣為人知的方法有兩類,一類是文獻(xiàn)[1]中提出的基于CNN 的單應(yīng)性估計(jì)方法使用類VGG 網(wǎng)絡(luò)結(jié)構(gòu)[5]來(lái)處理圖像對(duì)中的兩個(gè)圖像塊。這兩個(gè)輸入塊被轉(zhuǎn)換為灰度級(jí)、歸一化,然后相互堆疊。該架構(gòu)使用八個(gè)卷積層,后面是兩個(gè)完全連接的層,卷積層則使用3×3 內(nèi)核。第二類是文獻(xiàn)[2]中提出的基于CNN 的單應(yīng)性估計(jì)方法,它試圖通過(guò)使用多個(gè)首尾相連堆疊的孿生卷積神經(jīng)網(wǎng)絡(luò)來(lái)提高先前方法的準(zhǔn)確性。類似于之前的基于CNN 的方法,該方法還將兩個(gè)圖像塊作為輸入,并輸出估計(jì)的角擾動(dòng)值,該值可以映射到單應(yīng)矩陣H。這種CNN 架構(gòu)使用八個(gè)卷積層,后面是兩個(gè)完全連接的層。在文獻(xiàn)[6]中,對(duì)上述兩種算法進(jìn)行了對(duì)比,并提出,色彩對(duì)于單應(yīng)性的估計(jì)并不敏感,因此考慮使用灰度圖像。

      以上算法所使用的數(shù)據(jù)都是在MS-COCO 中選取圖像,在該圖像上經(jīng)過(guò)隨機(jī)擾動(dòng)和相應(yīng)變化,與原圖像形成圖像對(duì),使得其背景都一樣,從而作為groundtruth進(jìn)行訓(xùn)練。但是在視頻場(chǎng)景中,幀與幀之間的連續(xù)變化,使得其單應(yīng)性具有一定的關(guān)聯(lián)性和規(guī)律。

      3 在視頻連續(xù)場(chǎng)景下的單應(yīng)性矩陣估計(jì)

      3.1 算法假設(shè)條件與前提

      本文的主要工作是介紹了一種在視頻場(chǎng)景下基于深度學(xué)習(xí)的單應(yīng)性矩陣的估計(jì)方法。由于視頻背景是實(shí)時(shí)變化的,有自然場(chǎng)景下有各種不同運(yùn)動(dòng)狀態(tài),包含縮放(Scale change,SC)、旋轉(zhuǎn)(Rotation,RT)、透視傾斜(Perspective distortion,PD)、遮擋(Occlusion,OC)和超出視野范圍(Out of view,OV),等等,無(wú)法實(shí)現(xiàn)背景的一致性。因此針對(duì)視頻場(chǎng)景下,存在連續(xù)的幀變化,首先我們?cè)O(shè)視頻第一幀為交互幀,在該幀標(biāo)定平面目標(biāo)的位置坐標(biāo),平面目標(biāo)的位置在視頻中隨時(shí)變化。為了便于闡述視頻序列中的前后關(guān)系,將前一幀設(shè)為第k-1幀,當(dāng)前幀設(shè)為第k 幀。

      3.2 算法流程與網(wǎng)絡(luò)架構(gòu)

      該視頻每個(gè)視頻可拆分成501 幀,幀圖像為三通道RGB 圖像,像素為1280×720。首先對(duì)圖像進(jìn)行預(yù)處理,如圖1 所示,圖像第k-1 幀和第k 幀分別經(jīng)過(guò)降采樣和灰度化得到A 和B,然后將A,B 堆疊成雙通道的灰度圖像作為深度學(xué)習(xí)訓(xùn)練的輸入。

      圖1

      如圖2 所示,基于回歸的VGG 改進(jìn)網(wǎng)絡(luò)深度學(xué)習(xí)架構(gòu)。我們的網(wǎng)絡(luò)使用3×3 的卷積,并帶有歸一化(Batchnorm)和線性整流函數(shù)(Rectified Linear Unit,Re?LU),在結(jié)構(gòu)上類似于VGG[5]網(wǎng)絡(luò)。以128×72×2 的雙通道灰度圖像作為輸入。我們使用8 個(gè)卷積層,每?jī)蓚€(gè)卷積后有一個(gè)最大池化層(maxpooling layer)(2×2,stride=2),8 個(gè)卷積層分別有64,64,64,64,128,128,128,128 個(gè)濾波器。決策層是兩個(gè)完全連接層,第一個(gè)完全連接層有1024 個(gè)單元。最后生成8 個(gè)實(shí)數(shù),并在訓(xùn)練中使用Euclidean(L2)損失函數(shù)。

      圖2

      視頻幀序列中,每一幀中都有一個(gè)平面目標(biāo),在現(xiàn)實(shí)中為矩形。對(duì)該模型進(jìn)行訓(xùn)練之前,標(biāo)定該目標(biāo)的四個(gè)角點(diǎn)坐標(biāo),第k-1 幀的四個(gè)角點(diǎn)分別為A,B,C,D,第k 幀的對(duì)應(yīng)角點(diǎn)分別為A’,B’,C’,D’,根據(jù)坐標(biāo)點(diǎn)的變化制作訓(xùn)練的標(biāo)簽(11),訓(xùn)練的結(jié)果表征的是相鄰兩幀對(duì)應(yīng)平面目標(biāo)的角點(diǎn)坐標(biāo)變化。而這一變化可以唯一的映射到單應(yīng)性矩陣H,從而估計(jì)出我們想得到的結(jié)果。

      圖3

      4 實(shí)驗(yàn)

      本文使用Python 編程語(yǔ)言并基于TensorFlow 后臺(tái)進(jìn)行編碼。電腦使用Intel Core i7-4790@3.6GHz CPU,8G RAM,NVIDIA GeForce GTX 1060 3GB GPU 的配置。訓(xùn)練單應(yīng)性矩陣估計(jì)模型過(guò)程中,最小批大小設(shè)為32,學(xué)習(xí)率設(shè)為0.0001,優(yōu)化器使用Adam,為防止模型過(guò)擬合,將丟失概率設(shè)為0.5。由于視頻的幀序列之間存在連續(xù)性,而以往的圖像預(yù)處理都忽略了這一點(diǎn),因此,本文還在文獻(xiàn)[1]的基礎(chǔ)上設(shè)計(jì)了一種生成訓(xùn)練集的方法,從而可以將視頻幀序列的連續(xù)性加以利用。

      4.1 數(shù)據(jù)集生成

      在文獻(xiàn)[3]中,有多個(gè)不同場(chǎng)景、不同運(yùn)動(dòng)狀態(tài)的視頻,其中每個(gè)視頻中都存在同一平面目標(biāo),本文使用其中縮放、旋轉(zhuǎn)、透視傾斜三個(gè)運(yùn)動(dòng)狀態(tài)的視頻。圖像的預(yù)處理過(guò)程如下:

      (1)調(diào)整所有訓(xùn)練圖像樣本的大小,所有圖像從1280×720 降采樣到128×72;

      (2)然后將所有三通道彩色圖像樣本都轉(zhuǎn)化為灰度圖;

      (3)接著將第k 幀和第k-1 幀經(jīng)過(guò)(1)(2)后的單通道灰度圖像結(jié)合成雙通道灰度圖像。

      本文選擇了20 個(gè)場(chǎng)景,共計(jì)60 個(gè)視頻,約30000張圖片作為樣本進(jìn)行訓(xùn)練和測(cè)試。

      4.2 實(shí)驗(yàn)結(jié)果

      通過(guò)訓(xùn)練,我們可以得到的是一個(gè)權(quán)重模型,模型的輸入為經(jīng)過(guò)預(yù)處理的雙通道灰度圖像,輸出為8 個(gè)自由度的向量,它們代表的是圖3 中四個(gè)角點(diǎn)A,B,C,D 與A’,B’,C’,D’的坐標(biāo)差值。在對(duì)測(cè)試集進(jìn)行測(cè)試時(shí),我們已知第k-1 幀的角點(diǎn)坐標(biāo),通過(guò)訓(xùn)練好的模型計(jì)算可得到第k 幀的角點(diǎn)坐標(biāo),從而可以計(jì)算得到第k-1 幀和第k 幀之間變換的單應(yīng)性矩陣。圖4 展示了部分圖像對(duì)單應(yīng)性矩陣估計(jì)的結(jié)果,左邊是視頻k-1幀,右邊是第k 幀,藍(lán)色線段標(biāo)注的是四點(diǎn)坐標(biāo)的GroundTruth。我們?cè)趫D4 中畫出了前后幀對(duì)應(yīng)角點(diǎn),從而可以更直觀地看到估計(jì)效果。

      本文使用約21000 張圖像作為訓(xùn)練集,約9000 張圖像作為測(cè)試集。在縮放、旋轉(zhuǎn)和透視傾斜上,都相比于現(xiàn)有算法具有更好的魯棒性。

      圖4

      5 結(jié)語(yǔ)

      本文提出了一種在視頻場(chǎng)景下的單應(yīng)性矩陣估計(jì)算法,相比于現(xiàn)有算法對(duì)圖像進(jìn)行切割或者拼接的圖像預(yù)處理方法而言,更適用于在自然場(chǎng)景下,當(dāng)背景發(fā)生變化時(shí),對(duì)單應(yīng)性矩陣進(jìn)行估計(jì)。而實(shí)驗(yàn)結(jié)果表明,該算法有助于提高估計(jì)單應(yīng)性矩陣的準(zhǔn)確性,可以運(yùn)用在平面目標(biāo)追蹤和SLAM(Simultaneous Localization And Mapping)等領(lǐng)域中。

      但是本文也存在一些問(wèn)題,在發(fā)生劇烈運(yùn)動(dòng)和運(yùn)動(dòng)模糊的狀態(tài)下,由于圖像的辨識(shí)度不夠高,訓(xùn)練模型提取的特征點(diǎn)不夠多,導(dǎo)致單應(yīng)性的估計(jì)精度會(huì)降低。因此,針對(duì)上述問(wèn)題,還有很大的改進(jìn)空間,我們可以考慮對(duì)網(wǎng)絡(luò)和損失函數(shù)進(jìn)行改進(jìn),例如:在損失函數(shù)中加入一個(gè)權(quán)重影響因子等,從而實(shí)現(xiàn)優(yōu)化后的視頻單應(yīng)性估計(jì)。

      猜你喜歡
      角點(diǎn)灰度卷積
      采用改進(jìn)導(dǎo)重法的拓?fù)浣Y(jié)構(gòu)灰度單元過(guò)濾技術(shù)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      基于灰度拉伸的圖像水位識(shí)別方法研究
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于FAST角點(diǎn)檢測(cè)算法上對(duì)Y型與X型角點(diǎn)的檢測(cè)
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于最大加權(quán)投影求解的彩色圖像灰度化對(duì)比度保留算法
      基于邊緣的角點(diǎn)分類和描述算法
      電子科技(2016年12期)2016-12-26 02:25:49
      基于灰度線性建模的亞像素圖像抖動(dòng)量計(jì)算
      基于圓環(huán)模板的改進(jìn)Harris角點(diǎn)檢測(cè)算法
      濮阳县| 乌拉特中旗| 潼关县| 页游| 井冈山市| 方城县| 青神县| 刚察县| 马关县| 吴堡县| 秦安县| 吴旗县| 林周县| 隆子县| 仁怀市| 灵川县| 奉节县| 甘肃省| 定日县| 台前县| 兴安盟| 保定市| 教育| 图木舒克市| 塔城市| 奉节县| 万全县| 定边县| 南靖县| 岢岚县| 称多县| 三门峡市| 杭锦旗| 宾川县| 莱州市| 房山区| 郑州市| 玛曲县| 凤阳县| 天全县| 漾濞|