• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的文本檢測算法研究

      2019-04-12 01:46:42李陽李紹彬解云超馮爽
      關(guān)鍵詞:足球賽事損失卷積

      李陽,李紹彬,解云超,馮爽

      (中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)

      1 引言

      文本檢測是近年來計(jì)算機(jī)視覺領(lǐng)域具有挑戰(zhàn)性的熱門研究課題之一。文本作為一種特殊的視覺信息,它除了具備顏色、紋理這些基本的計(jì)算機(jī)視覺特征外,還具有較為明確的、有針對性的語義信息,在圖像及場景理解中扮演著關(guān)鍵角色。

      足球是全世界最受歡迎的體育運(yùn)動之一,觀眾、球隊(duì)教練、球迷等等都有對足球比賽進(jìn)行智能分析的需求。近年來,對足球賽事自動分析工具的需求大大增加。在足球比賽場景畫面復(fù)雜的情況下,對足球賽事圖像進(jìn)行較為精準(zhǔn)的文本檢測,為理解賽事場景中的信息、分析足球賽事提供了研究基礎(chǔ)。

      場景圖像中的文本檢測是場景文本分析的第一步,目前已經(jīng)有很多不同的方法可以用于文本檢測。場景文本檢測方法主要分為兩類:一類是基于連通區(qū)域分析的方法,另一類是基于滑動窗口的方法。Yao[1]、Epshtein[2]、Neumann[3]等人采用連通區(qū)域分析的方法進(jìn)行文本檢測,這類方法[1-5]首先根據(jù)顏色相似或空間鄰接等一致性特征,進(jìn)行連通域分析,然后對連通區(qū)域按照文本區(qū)域、非文本區(qū)域做出判定,從而將文本區(qū)域從整幅圖像中區(qū)分出來。Kim[6]、Gllavata[7]、Lyu[8]等人采用滑動窗口的方法進(jìn)行文本檢測,基于滑動窗口的方法[6-10]主要通過采用大小可變的滑動窗口在多個空間尺度上進(jìn)行采樣,然后利用機(jī)器學(xué)習(xí)的方法判別窗口里是否具有文本信息。

      本文基于TextBoxes[11]算法,提出新的卷積神經(jīng)網(wǎng)絡(luò),對足球賽事場景下的文本能夠有效檢測。針對足球賽事場景下,文本幾何形狀多樣、球衣號碼和廣告牌的寬高比例不同等問題,設(shè)置適用于足球場景中文本檢測的默認(rèn)框;針對足球賽事場景下,圖像背景遠(yuǎn)遠(yuǎn)多于文本而導(dǎo)致的樣本不均衡問題,提出使用Focal Loss作為用于分類的損失函數(shù),并制作用于足球賽事場景下文本檢測的數(shù)據(jù)集,在該數(shù)據(jù)集上對算法有效性進(jìn)行了驗(yàn)證。

      2 基于卷積神經(jīng)網(wǎng)絡(luò)的文本檢測算法

      2.1 文本檢測網(wǎng)絡(luò)結(jié)構(gòu)

      文本檢測的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,這是一個28層的卷積網(wǎng)絡(luò),其中前13層繼承于VGG-16[12]的網(wǎng)絡(luò)結(jié)構(gòu),保留了VGG-16的conv1_1至conv4_3層,之后額外添加了15層,包括13個卷積層和2個池化層。卷積層的尺寸逐漸減小,可以預(yù)測出不同尺度的檢測框。其中,6個卷積層的特征圖直接連接到文本框?qū)?Text-box Layers),文本框?qū)虞敵鰹槊總€默認(rèn)框相對于真實(shí)邊界框的偏移值和預(yù)測的檢測框的分類分?jǐn)?shù)。最后,采取非極大值抑制整合輸出。該網(wǎng)絡(luò)模型具體配置參數(shù)如表1所示。

      圖1 文本檢測網(wǎng)絡(luò)結(jié)構(gòu)示意圖

      網(wǎng)絡(luò)中的所有卷積核尺寸均較小,為3×3或1×1,故該網(wǎng)絡(luò)參數(shù)較少。添加填充(padding)后的特征圖經(jīng)過3×3和1×1的卷積核卷積計(jì)算后,寬和高不變,隨著網(wǎng)絡(luò)層數(shù)加深,網(wǎng)絡(luò)能夠表征抽象和高級的特征。對于采用大卷積核的網(wǎng)絡(luò),輸入圖像經(jīng)過一次卷積,會產(chǎn)生較小的特征圖,經(jīng)過數(shù)層卷積便會生成1×1特征圖,網(wǎng)絡(luò)層數(shù)較淺,映射關(guān)系相對簡單,學(xué)習(xí)到的特征泛化能力不夠突出。因此,采用小卷積核具有減少參數(shù)和加深網(wǎng)絡(luò)的優(yōu)點(diǎn)。

      為了檢測到不同尺寸的目標(biāo)文本,傳統(tǒng)方法將圖像縮放至不同大小進(jìn)行檢測,最后再將結(jié)果合并。對于卷積層來說,越底層對應(yīng)的感受野越小,保留的圖像細(xì)節(jié)越多;越高層對應(yīng)的感受野越大,能捕捉到更全局的信息。本文利用卷積網(wǎng)絡(luò)中不同層提取特征不同的特點(diǎn),可以達(dá)到對不同尺寸的目標(biāo)文本進(jìn)行檢測的目的。所以,本文檢測網(wǎng)絡(luò)采用6個不同的特征圖,來實(shí)現(xiàn)多尺度檢測。

      表1 文本檢測CNN詳細(xì)配置

      續(xù)表

      2.2 默認(rèn)框的設(shè)置

      本文針對足球場景下的文本進(jìn)行檢測。在足球場景下,文本主要包括球衣號碼、場景中的廣告牌、球員名稱以及臺標(biāo)等。相較于普通的自然場景中的文本,足球場景下的文本類別和幾何形狀的多樣,分別體現(xiàn)在球衣號碼和英文單詞、數(shù)字和單詞的幾何形狀間區(qū)別很大。如圖2所示,球衣號碼多是高大于寬的,而球員名稱或者廣告中的單詞多是寬大于高的。

      圖2 足球場景下文本形狀示意圖

      根據(jù)文本特點(diǎn),選取適用于足球場景中文本檢測的默認(rèn)框。針對號碼選取寬高比為{1:5、1:3、1:2}的默認(rèn)框,針對單詞文本選取寬高比為{1:1、2:1、3:1、5:1}的默認(rèn)框,即定義了{(lán)1:5,1:3,1:2,1:1,2:1,3:1,5:1}這7種比例的默認(rèn)框。并采取3×3卷積核代替原始模型中1×5卷積核,3×3卷積核對較大寬高比和較小寬高比的文本都適用。

      對Text-box Layers的卷積核的通道數(shù),根據(jù)默認(rèn)框的改變而做出相應(yīng)的改變。檢測網(wǎng)絡(luò)使用卷積神經(jīng)網(wǎng)絡(luò)特征圖生成相應(yīng)的默認(rèn)框,在Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Global這6個卷積層的特征圖上,每一個神經(jīng)元具有對原始圖像的感受野,對應(yīng)著原始圖像感受野區(qū)域的不同比例的默認(rèn)框。對這6個特征圖上的每一個神經(jīng)元節(jié)點(diǎn),可以預(yù)測其對應(yīng)的默認(rèn)框的偏移值,以及是否為檢測框的類別分?jǐn)?shù)。例如,對于每一個特征點(diǎn)對應(yīng)的區(qū)域,取k個不同形狀的默認(rèn)框,那么就會產(chǎn)生(2+4)*k個輸出,其中2是指對于每個默認(rèn)框會計(jì)算2個二分類的分?jǐn)?shù),4是指對于每個默認(rèn)框會計(jì)算4個位置偏移值。對于m×n大小的特征圖,應(yīng)將卷積核通道數(shù)設(shè)置為(2+4)*k,產(chǎn)生(2+4)kmn個輸出。

      在訓(xùn)練過程中,需要判定默認(rèn)框是否為正樣本,當(dāng)默認(rèn)框與標(biāo)定框(ground truth)的面積的交叉重疊比(Intresection Over Union,IOU)大于閾值0.5時,判定為正樣本,反之則判定為負(fù)樣本。

      2.3 損失函數(shù)

      訓(xùn)練分為兩個任務(wù):分類任務(wù)和回歸任務(wù)。分類任務(wù)用于判別默認(rèn)框是否為文本,輸出是2維向量,表示是文本的概率以及不是文本的概率;回歸任務(wù)用于預(yù)測默認(rèn)框位置的偏移值,以得到更貼近真實(shí)文本框的檢測框,輸出是4維向量,表示經(jīng)過特定規(guī)則平移縮放后的偏移值。因此,檢測網(wǎng)絡(luò)的損失函數(shù)由兩部分構(gòu)成,分別為代表置信度的分類損失函數(shù)和代表位置的回歸損失函數(shù)。

      檢測網(wǎng)絡(luò)采用的損失函數(shù)如下:

      L(p,l,v*,v)=Lconf(p,l)+αLloc(v*,v)

      (1)

      其中,Lconf為評估分類的損失函數(shù);Lloc為評估位置的損失函數(shù);l為代表類別的標(biāo)簽,l=1表示是文本區(qū)域,l=0表示是背景;參數(shù)p=(p0,p1)代表每個類別的概率;v是預(yù)測框相對于默認(rèn)框的偏移值;v*是真實(shí)框相對于默認(rèn)框的偏移值;α為兩個損失函數(shù)的權(quán)衡值,這里取1。

      對于回歸損失函數(shù)Lloc,使用Smooth L1 Loss[13],該損失函數(shù)具體表示如下:

      (2)

      (3)

      其中,參數(shù)v和v*定義如下:

      (4)

      (5)

      其中,x、y、h、w分別是預(yù)測出的檢測框的中心點(diǎn)橫坐標(biāo)、縱坐標(biāo)、高、寬;xa、ya、ha、wa分別是默認(rèn)框的中心點(diǎn)的橫坐標(biāo)、縱坐標(biāo)、高、寬;x*、y*、h*、w*分別是真實(shí)框的中心點(diǎn)的橫坐標(biāo)、縱坐標(biāo)、高、寬。

      對于分類損失函數(shù),使用Focal Loss[14],使得模型在訓(xùn)練時更注重于難訓(xùn)練的樣本。難于區(qū)分的樣本對損失的貢獻(xiàn)變大,網(wǎng)絡(luò)更傾向于對這些樣本學(xué)習(xí)。Focal Loss定義如下:

      FL(pl)=-α(1-pl)γlog(pl)

      (6)

      其中,l為類別的標(biāo)簽,l=1表示是文本區(qū)域,l=0表示是背景;參數(shù)p=(p0,p1)代表每個類別的概率;α是權(quán)重參數(shù),這里取0.25;γ是聚焦參數(shù),這里取2。

      將表示置信度的分類損失函數(shù)用Focal Loss表示,即:

      Lconf(p,l)=FL(p)

      (7)

      由式(6)可知,當(dāng)概率大,也就是容易正確分類時,會減小損失對網(wǎng)絡(luò)的反饋;當(dāng)概率小,也就是樣本難以區(qū)分時,會增加這些樣本的權(quán)重。α解決了正負(fù)樣本之間的平衡問題,(1-pl)γ則對易分樣本和難分樣本進(jìn)行區(qū)分。當(dāng)一個樣本分類錯誤,即概率p很小時,(1-p)因子就會接近1,其損失不被影響;當(dāng)一個樣本分類正確,即其概率很大接近1時,因子(1-p)就接近0,這個樣本的權(quán)重就被降低了。γ參數(shù)調(diào)節(jié)易分樣本降低權(quán)重的比例,顯然,樣本越易分,則對損失的貢獻(xiàn)越小,相對來說,難分樣本所占的比重就會變大。

      2.4 非極大值抑制

      在檢測任務(wù)的后續(xù)處理中,需要使用非極大值抑制進(jìn)行搜尋,消除冗余的檢測框,找到最佳的檢測框,非極大值抑制效果示意圖如圖3所示。首先,將檢測結(jié)果按照置信度得分進(jìn)行排序,選中概率最大的檢測結(jié)果,將其余檢測框與這個檢測框進(jìn)行比較,若IOU大于某一設(shè)定的閾值,則認(rèn)為這些檢測框包含于目前這個得分最高的檢測框中;然后,將這些檢測框刪除,保留第一個檢測框;最后,從未處理的檢測框中繼續(xù)選擇概率最大的檢測框,重復(fù)上述過程,直到處理完所有的檢測框,得到最終保留下來的結(jié)果。

      圖3 非極大值抑制效果示意圖

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)集

      (1)足球場景的文本檢測數(shù)據(jù)集:對足球賽事場景下的文本進(jìn)行標(biāo)注。足球賽事圖片截取于20個足球賽事視頻中,對圖片中英文字符、數(shù)字、符號“:”和符號“-”進(jìn)行標(biāo)注。分別標(biāo)注了文本的坐標(biāo)信息以及文本內(nèi)容,生成相應(yīng)的xml標(biāo)簽文件。標(biāo)注共得到3000張圖片,包含34512個文本區(qū)域。足球賽事場景下文本標(biāo)注的圖片如圖4所示,標(biāo)簽如圖5所示。使用該數(shù)據(jù)集的2300張樣本作為訓(xùn)練數(shù)據(jù),用于微調(diào)訓(xùn)練網(wǎng)絡(luò)模型;其余的700張樣本作為測試數(shù)據(jù),用于對算法的驗(yàn)證。

      圖4 足球場景下文本標(biāo)注圖片

      圖5 足球場景下文本標(biāo)注的標(biāo)簽

      (2)數(shù)字合成數(shù)據(jù)集:制作合成數(shù)據(jù)工具,由背景圖片和提供的數(shù)字或字符自動合成供文本檢測的圖片,每張圖片具有對應(yīng)的標(biāo)簽文件,標(biāo)簽文件中是文本的位置信息。該方法共合成200000張圖片。數(shù)字合成圖片如圖6所示,標(biāo)簽如圖7所示。該數(shù)據(jù)集用于預(yù)訓(xùn)練網(wǎng)絡(luò)模型。

      圖6 數(shù)字合成圖片

      圖7 數(shù)字合成圖片的標(biāo)簽

      (3)SythText[15]數(shù)據(jù)集:SythText是公開數(shù)據(jù)集,由真實(shí)的自然場景圖片和文本實(shí)例合成。該數(shù)據(jù)集包含858750張圖片,這些圖片由11698張背景圖片和7266866個單詞文本構(gòu)成。SythText數(shù)據(jù)集用于預(yù)訓(xùn)練網(wǎng)絡(luò)模型。

      3.2 實(shí)驗(yàn)細(xì)節(jié)

      網(wǎng)絡(luò)輸入采用300×300大小的圖片,RGB三通道輸入。在訓(xùn)練過程中,加載VGG-16模型中相應(yīng)的參數(shù)(即表1中Conv1_1到Conv4_3的參數(shù))對網(wǎng)絡(luò)這部分卷積層進(jìn)行初始化。訓(xùn)練采用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)進(jìn)行網(wǎng)絡(luò)優(yōu)化學(xué)習(xí),動量參數(shù)為0.9,權(quán)值衰減為(Weight Decay)為0.0005,學(xué)習(xí)率初始化設(shè)置為0.001,以指數(shù)衰減法更新學(xué)習(xí)率。實(shí)驗(yàn)在Windows系統(tǒng)下完成,GPU配置為NVIDIA GTX1080,采用的深度學(xué)習(xí)框架為Google的TensorFlow,使用Python進(jìn)行編程實(shí)驗(yàn)。

      3.3 實(shí)驗(yàn)結(jié)果與分析

      本文分別對基礎(chǔ)網(wǎng)絡(luò)TextBoxes、重新設(shè)定默認(rèn)框的改進(jìn)網(wǎng)絡(luò)OursDefault、在OursDefault基礎(chǔ)上使用Focal Loss作為損失函數(shù)的改進(jìn)網(wǎng)絡(luò)OursDefault+Focal進(jìn)行訓(xùn)練與測試。

      測試數(shù)據(jù)為700張足球場景下文本檢測圖片,與訓(xùn)練數(shù)據(jù)不重復(fù)。評估基于三個指標(biāo):精確度P、召回率R、綜合指標(biāo)F。精確度P為正確檢測到的文本數(shù)量與所有預(yù)測出的矩形框個數(shù)的比值;召回率R為正確檢測到的文本數(shù)量與所有真實(shí)文本數(shù)量的比值;綜合指標(biāo)F為精確度P和召回率R的調(diào)和平均值。本文對測試數(shù)據(jù)中全部文本的精確度、召回率和綜合指標(biāo)進(jìn)行評估,并分別對數(shù)字文本和字母文本的召回率進(jìn)行評估。

      表2 不同算法的檢測性能對比

      表2為對基礎(chǔ)算法TextBoxes、本文改進(jìn)算法OursDefault、OursDefault+Focal的檢測性能的對比。可以看出,本文改進(jìn)的模型在召回率和綜合指標(biāo)上均有提升。首先,OursDefault模型與TextBoxes基礎(chǔ)模型的結(jié)果相比較,召回率有較大的提升,說明本文提出的改進(jìn)方法能正確檢測到更多的真實(shí)文本。尤其是數(shù)字文本的召回率,OursDefault模型相比TextBoxes模型提高了將近10%,說明本文提出的改進(jìn)算法能夠有效檢測數(shù)字文本。其次,OursDefault+Focal模型與前兩個模型相比較,全部文本、數(shù)字文本、字母文本的召回率均有提升,并且綜合指標(biāo)F最高。精確度有所下降的原因是,改進(jìn)后的模型對文本特征更為敏感,會將測試圖片中與文本極為相似的圖案檢測為文本。

      圖8為TextBoxes模型與OursDefault模型檢測結(jié)果的展示。可以看出,TextBoxes算法對于橫向文本可以成功檢測,但是對于豎狀的文本、側(cè)身時導(dǎo)致寬高比很小的文本,如圖8中的球衣號碼“7”、球衣號碼“16”,難以檢測。本文算法OursDefault在重新對默認(rèn)框進(jìn)行設(shè)置后,對于這些寬高比小的豎狀文本,均能夠有效檢測。檢測效果得到改善是因?yàn)樵糡extBoxes模型中均為寬高比大于1的默認(rèn)框,而改進(jìn)后的OursDefault模型中設(shè)置有寬高比小于1 的默認(rèn)框,這些默認(rèn)框能夠?qū)η蛞绿柎a這種大多為豎狀的文本更好地?cái)M合。

      圖9為OursDefault模型與OursDefault+Focal模型檢測結(jié)果比較。可以看出,相較于OursDefault模型,OursDefault+Focal模型在遮擋、殘缺、模糊的情況下,能夠更成功地檢測到文本。這是因?yàn)?,足球賽事場景中的背景區(qū)域遠(yuǎn)遠(yuǎn)多于文本區(qū)域,在我們選取的默認(rèn)框中,負(fù)樣本數(shù)要遠(yuǎn)遠(yuǎn)多于正樣本,正負(fù)樣本不均衡。本文提出使用Focal Loss作為分類損失函數(shù)進(jìn)行訓(xùn)練,在訓(xùn)練過程中Focal Loss對不同樣本賦予不同的權(quán)重。易于區(qū)分的樣本權(quán)重較小,難以檢測的目標(biāo)權(quán)重較大,有效解決了樣本不均衡帶來的問題。對遮擋、殘缺、模糊這類難以區(qū)分的樣本,在訓(xùn)練時給予較大權(quán)重,因此該模型能夠?qū)ζ溆行z測。

      TextBoxes檢測結(jié)果 OursDefault檢測結(jié)果圖8 TextBoxes與OursDefault檢測結(jié)果比較

      OursDefault檢測結(jié)果 OursDefault+Focal檢測結(jié)果圖9 OursDefault與OursDefault+Focal檢測結(jié)果比較

      4 結(jié)論

      本文采用卷積神經(jīng)網(wǎng)絡(luò)對足球賽事場景下的文本進(jìn)行檢測,在TextBoxes網(wǎng)絡(luò)的基礎(chǔ)上提出兩點(diǎn)改進(jìn):一是重新設(shè)置默認(rèn)框,解決球衣號碼等豎狀文本的檢測問題;二是使用Focal Loss作為分類損失函數(shù)進(jìn)行訓(xùn)練,解決背景與文本的正負(fù)樣本不均衡問題。此外,還制作了足球賽事場景下文本檢測的數(shù)據(jù)集,用于訓(xùn)練和測試。實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)方法是有效的。在下一步的研究中,考慮將角度信息用于位置回歸任務(wù)中,實(shí)現(xiàn)對傾斜文本的多方向檢測。

      猜你喜歡
      足球賽事損失卷積
      重慶市南岸區(qū)珊瑚魯能小學(xué)校開展足球賽事精彩瞬間
      校園足球(2023年4期)2023-08-10 10:21:50
      體教融合:青少年校園足球賽事的教育價值探析
      和足球賽事有關(guān)的英文表達(dá)
      少問一句,損失千金
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      胖胖損失了多少元
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      一般自由碰撞的最大動能損失
      龙州县| 万全县| 富民县| 车致| 江北区| 沁水县| 文昌市| 咸阳市| 禹州市| 宾川县| 莫力| 龙门县| 合水县| 汤原县| 台中县| 肇源县| 林甸县| 射洪县| 巩义市| 蓬莱市| 温州市| 兰州市| 灵丘县| 汽车| 铜梁县| 志丹县| 浦县| 光山县| 吴桥县| 澜沧| 盐山县| 固原市| 上杭县| 利津县| 新邵县| 从江县| 南投县| 荔波县| 新平| 安康市| 庆元县|