• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自然場景圖像中的文本檢測綜述

      2018-04-23 04:01:38王潤民桑農(nóng)丁丁陳杰葉齊祥高常鑫劉麗
      自動化學(xué)報 2018年12期
      關(guān)鍵詞:文獻文本區(qū)域

      王潤民 桑農(nóng) 丁丁 陳杰 葉齊祥 高常鑫 劉麗

      文本作為人類文明的標志、信息交流的載體,廣泛地存在于自然場景圖像中(如:路牌、商品名稱、車輛牌照等),相較圖像中的其他自然場景內(nèi)容(如:樹木、行人、建筑物等),自然場景文本具有更強的邏輯性與更概括的表達性,能更加有效地提供高層語義信息,準確地識別圖像中的文本將有助于場景內(nèi)容的分析與理解.

      1 研究背景與意義

      基于文本具有高度的概括性和抽象的描述能力,自然場景文本檢測技術(shù)在智能交通系統(tǒng)[1?3]、視障人導(dǎo)盲[4?5]、基于內(nèi)容的圖像/視頻檢索[6]以及可穿戴/便攜式視覺系統(tǒng)[7?10]等方面具有重要的應(yīng)用.隨著互聯(lián)網(wǎng)技術(shù)以及便攜式移動設(shè)備的高速發(fā)展,越來越多的應(yīng)用場景需要利用圖像中的文本信息.目前自然場景文本檢測已成為計算機視覺與模式識別、文檔分析與識別領(lǐng)域的一個研究熱點,一些國際頂級會議,如:CVPR、ICCV、ECCV,已將自然場景文本檢測列為其重要主題之一.特別是自2003年以來,作為文檔分析與識別領(lǐng)域最重要的國際學(xué)術(shù)會議–文檔分析與識別國際會議(International Conference on Document Analysis and Recognition,ICDAR)定期組織自然場景文本檢測競賽,通過競賽對該領(lǐng)域研究現(xiàn)狀、發(fā)展趨勢進行分析,及時地跟蹤并推動該技術(shù)的研究發(fā)展.

      目前,自然場景文本檢測問題已受到國內(nèi)外研究人員的廣泛關(guān)注,一些國外研究團隊,比如牛津大學(xué)視覺幾何組(Visual geometry group,VGG)、捷克理工大學(xué)機器感知中心Jiri Matas組、日本九州大學(xué)Seiichi Uchida組以及微軟亞洲研究院等,在該領(lǐng)域取得了一些里程碑式的研究成果.國內(nèi)研究機構(gòu)與學(xué)者在文檔分析與識別領(lǐng)域也發(fā)揮著舉足輕重的作用[11?21].一些國內(nèi)研究者,比如,中科院自動化所劉成林研究員、華中科技大學(xué)白翔教授、北京科技大學(xué)殷緒成教授、華南理工大學(xué)金連文教授、中國科學(xué)院大學(xué)葉齊祥教授以及中科院深圳先進技術(shù)研究院喬宇研究員、黃偉林博士等在歷屆ICDAR自然場景文本檢測競賽中獲得了令人矚目的成績.特別是,華中科技大學(xué)白翔教授受邀作為ICDAR自舉辦26年來以來第一位來自中國的主講嘉賓在日本京都舉辦的ICDAR 2017上作大會特邀報告,展現(xiàn)了中國學(xué)者在此領(lǐng)域的影響力.一些國內(nèi)研究機構(gòu),比如中科院自動化所、北京大學(xué)、清華大學(xué)、華中科技大學(xué)、北京科技大學(xué)、三星中國研究院、騰訊、百度、曠視科技等,在ICDAR組織的一系列活動中表現(xiàn)活躍.2011年,由清華大學(xué)與中科院自動化所合辦的第十一屆文檔分析與識別國際會議(ICDAR 2011)在北京舉辦(ICDAR首次在國內(nèi)舉辦),清華大學(xué)丁曉青教授擔任了大會主席.2017年,由華中科技大學(xué)白翔教授等組織了ICDAR 2017自然場景中的中文文本識別競賽(RCTW-17),共有來自高校、企業(yè)的17支隊伍參賽了RCTW-17競賽1競賽結(jié)果鏈接:http://mclab.eic.hust.edu.cn/icdar2017chinese/result.html.2017年,中科院自動化所劉成林研究員領(lǐng)導(dǎo)的模式分析與學(xué)習(xí)團隊(PAL團隊)與法國拉羅切爾大學(xué)、三星中國研究院等單位合作舉辦了多語言場景文本檢測與語種判別的競賽,發(fā)布了包括9種語言,18000幅圖像的多語言場景文本數(shù)據(jù)庫.

      國內(nèi)研究團隊在包括 TPAMI、TIP、PR、CVPR等各類主流國際期刊、會議的投稿數(shù)量逐年增加[11?19],在本次ICDAR 2017會議中來自國內(nèi)學(xué)者的投稿論文數(shù)高居第一.此外,國內(nèi)研究團隊在該領(lǐng)域各項競賽中也取得了矚目的成績,在第14屆國際文檔分析與識別會議(ICDAR 2017)所組織的各項技術(shù)競賽中,中科院自動化所劉成林研究員領(lǐng)導(dǎo)的PAL團隊在頁面目標檢測、中世紀文檔版面分析、視頻阿拉伯文本檢測與識別、中文場景文本閱讀等競賽中獲得了8項任務(wù)的第一名、2項任務(wù)的第二名的突出成績.華南理工大學(xué)金連文教授帶領(lǐng)的團隊,通過構(gòu)建高性能的基于深度學(xué)習(xí)的文本檢測與識別系統(tǒng),在場景文本檢測,端到端場景文本檢測及識別兩項任務(wù)中取得第一名的好成績(后者較其他參賽團隊具有明顯的優(yōu)勢),在語種分類任務(wù)中以0.4%的微弱差距位居第二名.北京科技大學(xué)殷緒成教授團隊再次(連續(xù)三屆)榮獲魯棒閱讀競賽冠軍.

      盡管國內(nèi)學(xué)者在自然場景文本檢測領(lǐng)域取得了一些令人矚目的成果,在本領(lǐng)域重要的外文期刊上也發(fā)表了英文綜述性論文[22?25],然而我們以自然場景文本檢測為關(guān)鍵詞在國內(nèi)中文期刊數(shù)據(jù)庫中進行檢索時卻遺憾地發(fā)現(xiàn),除了出現(xiàn)個別手寫文本識別的綜述[26]外,關(guān)于自然場景文本檢測的中文綜述幾近空白.據(jù)我們所知,最近的英文綜述[22?25]發(fā)表至今已逾兩年,然而在這兩年以來,一些新的測試數(shù)據(jù)庫與一些新的檢測結(jié)果的推出,以及一些新型深度學(xué)習(xí)方法在自然場景文本檢測領(lǐng)域的應(yīng)用都極大地推動了相關(guān)技術(shù)的發(fā)展.此外,計算機視覺領(lǐng)域中的一些新的研究成果,比如目標顯著性檢測、視覺上下文等,也被引入到自然場景文本檢測領(lǐng)域,進一步提升了文本檢測性能.基于上述情況,有必要對自然場景文本檢測領(lǐng)域的相關(guān)研究工作進行全面綜述和討論.本文系統(tǒng)綜述了自然場景文本檢測技術(shù)的研究進展和目前面臨的挑戰(zhàn)與困難,以期為研究人員進一步深入研究自然場景文本檢測以及拓展其應(yīng)用領(lǐng)域提供幫助,并期待能夠啟發(fā)更多的創(chuàng)新性工作.

      本文首先論述了自然場景文本檢測的研究背景、現(xiàn)狀、自然場景文本特點以及主要技術(shù)路線.接下來,梳理、分析并比較了各類自然場景文本檢測方法的動機、原理、優(yōu)勢與不足,揭示了各類方法之間的區(qū)別與聯(lián)系.本文還介紹了端對端文本識別技術(shù),闡述并討論了文本顯著性、視覺上下文等其他領(lǐng)域知識在自然場景文本檢測中的應(yīng)用.此外,本文還論述了自然場景文本檢測技術(shù)所面臨的挑戰(zhàn),并探討了相應(yīng)的解決方案.列舉了測試基準數(shù)據(jù)集、評估方法,將最具代表性的自然場景文本檢測方法的性能進行了比較.最后,給出了我們對該領(lǐng)域發(fā)展的一些思考.

      2 研究現(xiàn)狀

      相對人臉檢測、印刷體文檔中的光學(xué)字符檢測等經(jīng)典問題,自然場景文本檢測研究還相對滯后,直到20世紀90年代中期才開始出現(xiàn)該領(lǐng)域的研究報道[27?29].目前,自然場景文本檢測已成為計算機視覺領(lǐng)域的熱門研究課題,吸引了國內(nèi)外眾多的研究機構(gòu)與學(xué)者開展該課題的研究.特別是國際文檔分析與識別會議(ICDAR)定期舉辦的各項技術(shù)競賽極大地推動了該領(lǐng)域的發(fā)展,從而使得自然場景文本檢測技術(shù)的瓶頸與難題不斷地被突破.比如在2011年,ICDAR 2011自然場景文本檢測競賽冠軍[30]所獲得的結(jié)果為召回率(Recall)0.63,準確率(Precision)0.83,綜合指標(F-measure)0.71.而在2017年,文獻[31]公布其在ICDAR 2011自然場景文本檢測數(shù)據(jù)庫上所獲得的指標為召回率(Recall)0.82,準確率(Precision)0.89,綜合指標(F-measure)0.86.再如在2015年,ICDAR 2015非受限環(huán)境下的自然場景文本(Incidental scene text)檢測(Task 4.1)競賽冠軍[32]的指標為召回率(Recall)0.37,準確率(Precision)0.77,綜合指標(F-measure)0.50.在2017年,文獻[33]公布對ICDAR 2015非受限環(huán)境下的自然場景文本檢測(Task 4.1)所獲得的結(jié)果為召回率(Recall)0.77,準確率(Precision)0.73,綜合指標(F-measure)0.75.由此可見,自然場景文本檢測技術(shù)在近幾年取得了長足的發(fā)展.

      目前針對自然場景文本處理的研究工作主要包括三個方面:自然場景文本檢測、自然場景文本識別、以及端對端(End-to-end)自然場景文本檢測與識別.分析2017年發(fā)表在CVPR、ICCV、NIPS、IJCAI、AAAI、ICDAR 等各類頂級會議上的相關(guān)論文,超過80%的自然場景文本檢測論文主要關(guān)注多方向排列的文本檢測問題,大部分文獻主要處理英文文本,較少的文獻涉及自然場景文本識別以及端對端自然場景文本檢測與識別問題.從自然場景文本檢測技術(shù)的處理對象來看,主要經(jīng)歷了水平方向排列的文本檢測[34?37]到多方向排列的文本檢測[15,33,38?42],從單一的英文、阿拉伯數(shù)字的文本檢測[34?36]到多語種的文本檢測[37,41,43?44].從自然場景文本檢測所采用的描述特征來看,主要經(jīng)歷了兩個階段:首先是基于傳統(tǒng)手工設(shè)計的特征(Handcraft features),然后在2014年前后出現(xiàn)了基于深度學(xué)習(xí)的自然場景文本檢測方法[19,31,45?49].一些深度學(xué)習(xí)技術(shù),比如:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)以及遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN)等在自然場景文本檢測領(lǐng)域得到了很好的應(yīng)用,目前采用深度學(xué)習(xí)方法檢測自然場景文本已成為了該領(lǐng)域研究的主要技術(shù)手段.

      不同于印刷體文檔中的文本,自然場景文本的字體大小、顏色、排列方向、稀疏性、對比度等有著很大的差異.與此同時,還受到光照變化、復(fù)雜背景、噪聲干擾、拍攝視角等方面的影響.盡管對僅包含英文與數(shù)字的ICDAR 2011數(shù)據(jù)集已取得綜合指標(F-measure)0.86[31]以及ICDAR 2015數(shù)據(jù)集已取得綜合指標(F-measure)0.81的性能[50],但從最近剛落幕的ICDAR 2017自然場景中的中文文本識別競賽(RCTW-17)[51]所公布的結(jié)果來看,競賽冠軍所取得的準確率為0.74,召回率為0.59,綜合指標為0.66.從上述文本檢測結(jié)果中不難發(fā)現(xiàn),現(xiàn)有的自然場景文本檢測技術(shù)受限于被檢測文本的語種、排列方向、數(shù)據(jù)集公布的時間、數(shù)據(jù)集的規(guī)模等,由此表明該技術(shù)的成熟度、魯棒性還遠非達到實用水平.綜上所述,基于自然場景文本檢測技術(shù)的研究現(xiàn)狀以及該技術(shù)廣闊的應(yīng)用前景,對該領(lǐng)域的深入研究具有重要的理論意義與應(yīng)用價值.

      3 自然場景文本的特點

      圖像中的文本根據(jù)其形成方式可以劃分為場景文本和疊加文本[52].疊加文本是人們?yōu)榱四撤N目的而后期人為添加的注釋性內(nèi)容(比如新聞內(nèi)容摘要、影視臺詞、體育賽況介紹等,如圖1所示);場景文本作為固有的自然場景內(nèi)容隨機地存在于圖像當中(比如道路指示牌、商品名稱、廣告牌等,如圖2所示2示例圖像源自ICDAR系列數(shù)據(jù)庫以及MSRA-TD500數(shù)據(jù)庫.).與疊加文本相比,自然場景文本在字體大小、類型、顏色、排列方向等方面具有更大的復(fù)雜性.自然場景文本區(qū)域的視覺特性主要體現(xiàn)在以下幾個方面:

      1)對比度屬性:文本作為人類社會人際溝通的信息載體,可讀性是自然場景文本具有存在意義的基本要求.自然場景文本相對其背景區(qū)域而言,其灰度、顏色信息往往具有較明顯的對比度.

      2)梯度、邊緣屬性:文本通常具有復(fù)雜的空間結(jié)構(gòu),因此文本區(qū)域往往存在相對密集的邊緣以及較明顯的梯度信息.

      3)灰度、顏色屬性:為了視覺上的舒適性,往往選擇與背景有明顯反差的顏色進行書寫,且文本的顏色與灰度分布均勻.

      4)筆畫寬度屬性:盡管文本由不同的筆畫組成,但同一個文本中的筆畫寬度近似相等.

      5)幾何大小屬性:自然場景文本具有任意的尺寸大小,但為了滿足人眼視覺要求,自然場景文本的尺寸通常滿足一定的變化范圍.

      6)視覺上下文屬性:在同一個文本行區(qū)域內(nèi),相鄰文本之間具有筆畫寬度、顏色、高度以及像素灰度值相近等特點.

      7)空間分布屬性:文本在圖像中通常以文本行的形式存在,相鄰文本之間的排列方式是任意的,其間隔距離通常滿足一定的規(guī)律.

      圖1 疊加文本示例Fig.1 Examples of overlay text

      圖2 自然場景文本示例Fig.2 Examples of natural scene text

      4 自然場景文本檢測所面臨的挑戰(zhàn)

      除了受到復(fù)雜背景、光照變化、拍攝視角等外界因素影響外,相比一般性物體檢測問題,自然場景文本檢測技術(shù)還面臨著自身特征的諸多挑戰(zhàn).

      1)從文本的種類來看:自然場景文本包含了不同的語種,每一種語種包含了數(shù)量規(guī)模不等的文本類型,比如英文包括了52個大、小寫字母,而中文漢字所包含的文本類別則更多,僅1980年制定的國標GB2312-80編碼就定義了多達6763類常用漢字,不同語種或者相同語種的不同文本類型之間的視覺特征具有很大的差異.

      2)從文本排列方向來看:相鄰自然場景文本之間的排列是沿任意方向的,從而導(dǎo)致很難找到合適的描述特征與邊界框來表示文本區(qū)域.

      3)從文本行的組成來看:自然場景文本行通常由不同類別的文本所構(gòu)成,盡管每一種文本具有固定的空間結(jié)構(gòu),但是將不同類別的文本組合成文本行時就會呈現(xiàn)出雜亂的視覺特征.正因為不同文本行之間的結(jié)構(gòu)共性很少,所以我們很難找到一個區(qū)分性好的描述特征來表達文本行區(qū)域.

      4)從文本行的大小及長寬比來看:文本行大小不一,且其長度與寬度的比值也不確定.對文本行進行檢測時,我們不僅需要考慮尺度大小問題,而且還需要考慮文本行長寬比問題,從而大大增加了文本行檢測的難度.

      5)從文本行檢測結(jié)果來看:文本行檢測通常需要檢測一個文本序列.根據(jù)算法性能評測要求(比如ICDAR競賽測評標準),所有的自然場景文本檢測算法需要得到以單詞為單元的檢測結(jié)果,而不同單詞包括的字符數(shù)有所不同,單詞之間的間隔距離也會經(jīng)常受到單個文本檢測結(jié)果的影響,因此自然場景文本檢測較傳統(tǒng)的獨立目標檢測更具挑戰(zhàn)性.

      5 自然場景文本檢測方法

      20世紀90年代中期,文獻[27?29]等率先開展了自然場景文本檢測研究.經(jīng)過20余年的發(fā)展,該領(lǐng)域涌現(xiàn)出大量行之有效的解決方法.特別是近年來目標檢測技術(shù)與語義分割技術(shù)的快速發(fā)展使得文本檢測領(lǐng)域取得了重大的突破.依據(jù)文本檢測技術(shù)的發(fā)展歷程及文本區(qū)域描述特征分類標準,自然場景文本檢測方法大體上可以歸納為:1)傳統(tǒng)的自然場景文本檢測方法;2)基于深度學(xué)習(xí)的自然場景文本檢測方法.

      5.1 傳統(tǒng)的自然場景文本檢測方法

      傳統(tǒng)的自然場景文本檢測方法主要沿用兩條技術(shù)路線;基于連通域分析的方法和基于滑動檢測窗的方法.該方法首先獲得文本候選區(qū)域,然后采用傳統(tǒng)手工設(shè)計的特征(Handcraft features)對所獲得的候選區(qū)域進行驗證,并最終獲得文本位置信息.

      5.1.1 基于連通域分析的方法

      基于連通域分析的方法采用自底向上策略檢測文本.從獲得連通域的途徑來看可以分為邊緣檢測方法和文本級檢測方法,該類方法通常先檢測得到單個文本,然后將相鄰文本進行關(guān)聯(lián)形成文本行.

      1)邊緣檢測方法

      考慮到自然場景文本具有豐富的邊緣以及角點信息,該類方法主要通過檢測邊緣或者角點等方式來獲得文本候選區(qū)域,然后對所獲得的文本候選區(qū)域利用規(guī)則或者分類器進行分類.文獻[38,53?57]等采用了一些邊緣檢測算子(如:Sobel,Canny等)檢測出圖像的邊緣信息,然后對邊緣圖像進行形態(tài)學(xué)處理以剔除偽文本區(qū)域.文獻[55]首先提取水平、垂直、左上、右上方向邊緣圖像,然后基于上述邊緣圖像采用K均值(K-means)聚類方法獲得初始的文本區(qū)域檢測結(jié)果,最后對初始的檢測結(jié)果采用經(jīng)驗規(guī)則以及投影分析來進行驗證.文獻[38]采用K均值聚類方法對傅里葉–拉普拉斯濾波處理后的圖像像素進行分類從而獲得文本連通區(qū)域,通過對各個連通區(qū)域的骨架進行分析,將連通區(qū)域分為“簡單”和“復(fù)雜”兩類,保留簡單的連通區(qū)域并對復(fù)雜的連通區(qū)域進行進一步分析,最后根據(jù)文本行平直度以及邊緣密度等特征對文本候選區(qū)域進行判斷以去除背景區(qū)域.文獻[57]首先提取邊緣,然后通過候選邊緣重組以及識別的方法獲得文本區(qū)域.Busta等在文獻[53]中通過定制Fast角點使其更有利于場景文本檢測,根據(jù)文獻[53]報道的結(jié)果,該方法所獲得的場景文本檢測召回率(Recall)較傳統(tǒng)MSER方法高25%,且速度是傳統(tǒng)MSER方法的4倍以上.除此以外,Jiri Matas課題組還參與推出了COCO-Text自然場景文本數(shù)據(jù)集[58].

      2)文本級檢測方法

      該類方法利用自然場景文本通常具有像素灰度值近似相等、顏色近似相同以及筆畫寬度相近等特點,對自然場景圖像進行特定處理后,文本中的相鄰像素在其空間結(jié)構(gòu)上表現(xiàn)出連通性,該類方法通過檢測圖像中的連通區(qū)域來獲得文本候選區(qū)域.為了獲得文本連通區(qū)域,該類方法采取了許多行之有效的手段,比如極值區(qū)域(Extremal regions,ERs)[47,49,59]、最大穩(wěn)定極值區(qū)域(Maximally stable extremal regions,MSER)[18,60?64]、顏色對比度增強極值區(qū)域(Color-enhanced contrasting extremal region,CER)[47,65]、顏色聚類方法(Color clustering)[66?68]、筆畫寬度變換(Stroke width transform,SWT)[34,69?71]、筆畫特征變換(Stroke feature transform,SFT)[72]、級聯(lián)空間變換[43]、圖割二值化[35,73?74]、手工閾值分割[75]等.在文本級檢測方法中,首先將圖像分割成若干個連通區(qū)域,然后對每一個連通區(qū)域的幾何特征進行分析,利用文本候選區(qū)域的邊緣密度[38]、前景像素密度[18]、長寬比[34]、文本候選區(qū)域緊致度[13]、輪廓梯度[13]、筆畫寬度變化率[18,34]、平均方向偏差[76]等特征通過設(shè)定判斷規(guī)則,或者提取文本區(qū)域的描述特征并結(jié)合已訓(xùn)練好的分類器對其進行判斷,從而將之分類為文本區(qū)域與背景區(qū)域.

      圖3 基于筆畫寬度變換的自然場景文本檢測[34]Fig.3 Natural scenes text detection based on stroke width transformation[34]

      圖4 任意方向文本檢測方法[39]Fig.4 Detecting texts of arbitrary orientations in natural images[39]

      在文本級檢測方法中,最為代表性的方法主要包括:筆畫寬度變換(SWT)[34]、最大穩(wěn)定極值區(qū)域(MSER)[60]等.筆畫寬度變換算法由Epshtein等[34]于2010年首次提出(如圖3所示),該方法主要利用了位于同一個文本中的筆畫具有寬度近似相等的性質(zhì)來獲取文本候選區(qū)域.在實施筆畫寬度變換的過程中,首先利用Canny算子對輸入圖像進行邊緣檢測,并計算邊緣像素點的梯度方向,沿著梯度方向的路線尋找與之匹配的像素.匹配像素p與q之間搜索路線上的每一個像素值被指定為上述兩個像素之間的筆畫寬度(即像素點p與像素點q之間的歐氏距離).對于某個像素而言,若其屬于多個搜索線路,則其像素值為上述搜索線路對應(yīng)的最小筆畫寬度值.文獻[39]采用圖4所示的檢測框架,較早地實現(xiàn)了任意方向排列的自然場景文本檢測任務(wù).該文獻通過筆畫寬度變換(SWT)處理獲得文本候選區(qū)域,用文本級分類器(簡單特征+隨機森林)過濾非文本區(qū)域;利用文本間的相似性連接成文本行,再用文本行級的分類器(簡單特征+隨機森林)進一步過濾背景區(qū)域.采用筆畫寬度變換(SWT)處理可以提取出不同尺度和方向的文本候選區(qū)域,然而該方法在圖像邊緣檢測不準確以及背景復(fù)雜的情況下魯棒性較差,此外,筆畫寬度變換的運算效率也受到圖像邊緣像素數(shù)目的影響.針對筆畫寬度變換方法的一些不足,在后續(xù)研究[70,72]中也出現(xiàn)了一些筆畫寬度變換的變體,比如文獻[72]考慮到傳統(tǒng)的筆畫寬度變換方法在應(yīng)對圖像中包含一些具有不規(guī)則梯度方向的邊緣時往往不能準確地計算出筆畫寬度,該文獻利用了顏色信息來改進筆畫寬度算子并提出了筆畫特征變換(Stroke feature transform)算子.最大穩(wěn)定極值區(qū)域(MSER)基于分水嶺的概念,該方法取[0,255]范圍的閾值對圖像進行二值化處理,所獲得的二值化圖像經(jīng)歷了一個從全黑到全白的過程(猶如水位不斷上升的俯瞰圖).在此過程中,有些連通區(qū)域面積隨閾值上升的變化很小,定義該類區(qū)域為最大穩(wěn)定極值區(qū)域(MSER).根據(jù)MSER的工作原理,檢測得到的MSER內(nèi)部灰度值是小于邊界的,因此通過MSER方法檢測不到位于黑色背景中的白色區(qū)域.在實際處理的過程中,通常需要對原圖進行一次MSER檢測后將其反轉(zhuǎn),然后再做一次MSER檢測,上述兩次操作分別稱MSER+ 和MSER?.Neumann等[60]提出將MSER方法應(yīng)用于自然場景文本檢測(如圖5所示),通過對圖像中的一些最大穩(wěn)定極值區(qū)域的檢測來獲得文本候選區(qū)域.最大穩(wěn)定極值區(qū)域能夠很好地描述文本內(nèi)部顏色的一致性,且可以克服噪聲和仿射變換等因素的影響.一些文獻[18,62?64]采用MSER方法在復(fù)雜的自然場景圖像上取得了優(yōu)異的文本檢測性能.此后,在文獻[60]的基礎(chǔ)上,最大穩(wěn)定極值區(qū)域的一些變體[20,47,77?80]相繼被提出,比如文獻[20,80]利用梯度信息來增強MSER,并提出了Edge-preserving MSER算子.文獻[81]采用局部自適應(yīng)閾值方法來增強MSER.考慮到MSER在處理“低對比度”圖像時不夠魯棒,Neumann等在文獻[59]中提出直接用極值區(qū)域(ER)來作為文本候選區(qū)域,并設(shè)計了一套能夠快速去除明顯非文本區(qū)域的方法.Sun等考慮到文獻[59]所獲得的極值區(qū)域的數(shù)量過大,進而對后續(xù)的文本分類精度產(chǎn)生影響,因此在文獻[82]中提出了對比極值區(qū)域(Contrasting extremal region,CER)方法.文獻[82]所得到的CER是跟周圍的背景有一定對比度的極值區(qū)域,其數(shù)量遠小于極值區(qū)域(ER),略多于最大穩(wěn)定極值區(qū)域(MSER),CER應(yīng)對“低對比度”圖像更為魯棒.此后,Sun等在文獻[83]中又提出了顏色增強的對比極值區(qū)域(Color-enhanced CER).

      值得注意的是,區(qū)別于前述邊緣檢測方法以及文本級檢測方法.一些文獻[84?87]利用文本行上下邊緣近似平行或者文本行的上下部分近似對稱的性質(zhì),實現(xiàn)對文本行候選區(qū)域的檢測處理,該類文本行級檢測方法主要應(yīng)用于印刷體/手寫文檔中的文本處理[84?86].文獻[87]利用了自然場景文本行上下結(jié)構(gòu)相似的特點,創(chuàng)新性地實現(xiàn)對場景文本的有效檢測.文獻[87]設(shè)計了一個具有對稱性的模板(如圖6(g)所示),通過該模板獲得文本區(qū)域的自相似度與區(qū)分度,即:上半部和下半部的對稱性、文本區(qū)域的上半部與背景的差異、文本區(qū)域的下半部與背景的差異等特征.該模板在不同尺度下掃描圖像,通過其響應(yīng)得到對稱的中心點,在得到對稱中心點后通過文本的高度和連通性得到候選區(qū)域.與傳統(tǒng)的文本檢測方法所采用的手工設(shè)計的特征所不同的是,文獻[87]使用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行后續(xù)處理.文本行級檢測方法能有效地減少單個文本檢測失誤所帶來的負面影響,但該方法對文本行的邊緣檢測結(jié)果以及邊緣對稱性較為敏感.

      基于連通域分析的自然場景文本檢測方法主要通過提取圖像中的連通區(qū)域來獲得文本候選區(qū)域,從而能有效地減少自然場景文本的搜索范圍.該類方法依賴于文本連通區(qū)域的檢測結(jié)果,連通區(qū)域的檢測結(jié)果不僅影響文本檢測召回率,而且還會影響文本輪廓的準確性.文本欠分割、過分割的處理結(jié)果將勢必影響該文本候選區(qū)域的準確性,進而對整個自然場景文本檢測結(jié)果產(chǎn)生負面影響,因此在保證文本連通區(qū)域檢測高召回率的情況下,獲得準確的文本輪廓是提高文本檢測性能的重要途徑.事實上,在復(fù)雜的自然場景圖像中準確地檢測出文本連通區(qū)域是一件非常困難的事情,光照變化、顏色褪色、噪聲干擾等因素都將可能導(dǎo)致相鄰文本出現(xiàn)粘連現(xiàn)象,從而極大地影響文本檢測系統(tǒng)的性能.與此同時,對每一個作為文本候選區(qū)域的連通區(qū)域進行驗證時,設(shè)計一個合理的連通區(qū)域分析器也是一件非常困難的事情.受上述因素的影響,基于連通區(qū)域分析的自然場景文本檢測方法在背景復(fù)雜、噪聲干擾、低對比度以及顏色多變等情況下難以魯棒地檢測自然場景文本.

      5.1.2 基于滑動檢測窗的方法

      圖5 基于最大穩(wěn)定極值區(qū)域的自然場景文本檢測[18]Fig.5 Natural scenes text detection based on maximally stable extremal regions[18]

      圖6 基于對稱性的自然場景文本行檢測[87]Fig.6 Symmetry-based text line detection in natural scenes[87]

      基于滑動檢測窗的方法采用了自頂向下策略檢測文本,該類方法[88?92]通過采用滑動檢測窗口的方式對整幅自然場景圖像進行掃描,將每一個檢測窗口所覆蓋的圖像區(qū)域視為文本候選區(qū)域,然后提取文本候選區(qū)域的手工設(shè)計的特征,結(jié)合已訓(xùn)練好的分類器獲得該文本候選區(qū)域的置信度值,通過將所獲得的文本候選區(qū)域的置信度值與所設(shè)定的置信度閾值進行比較,將文本候選區(qū)域分類為文本區(qū)域或者背景區(qū)域.為了有效地應(yīng)對文本大小、文本行長度多變的情況,該類方法采用了多尺度滑動窗口的方式來得到文本候選區(qū)域.基于滑動檢測窗的自然場景文本檢測方法主要采用了二種技術(shù)途徑:1)一般性滑窗方法;2)基于特定單詞的方法.

      自然場景文本檢測屬于一種特定目標檢測,級聯(lián)自適應(yīng)增強算法(Cascaded adaboost)結(jié)合類哈爾(Haar-like)特征在人臉檢測[93?95]領(lǐng)域獲得了巨大成功,該技術(shù)方案為自然場景文本檢測提供一種解決思路,比如文獻[89,96?98]采用了Adaboost方法檢測自然場景文本.文獻[97]采用級聯(lián)Adaboost方式從一組特征池中選擇79個特征并訓(xùn)練得到4個強分類器.此后,在文獻[96]中,他們進一步將文獻[97]中的特征提取方法擴充至6種,即X?Y方向梯度信息、Gabor濾波器的局部能量、圖像紋理的統(tǒng)計直方圖、圖像小波變換系數(shù)的方差、邊緣間距以及連通區(qū)域分析等,進而使得檢測性能得到了較大幅度的改善.然而值得注意的是,文獻[93?95]之所以能夠快速地實現(xiàn)人臉檢測,主要依賴于其采用的兩個關(guān)鍵技術(shù):1)構(gòu)建了一種有效的級聯(lián)檢測框架;2)使用了一種計算高效且對人臉分類性能好的類哈爾(Haar-like)特征.然而自然場景文本與人臉的視覺特性存在著較大的差異,文獻[93?95]中所采用的類哈爾(Haar-like)特征雖然能很好地反映人臉特征,然而上述特征在描述文本區(qū)域時卻表現(xiàn)差強人意.文獻[88]提出一種基于特定單詞的自然場景文本檢測方法.該方法首先通過滑動檢測窗口的方式獲得單個的文本,然后根據(jù)相鄰文本之間的結(jié)構(gòu)關(guān)系對可能的組合進行評分,最后從給定的列表中選出最相近的組合作為輸出結(jié)果.區(qū)別于前述一般性的基于滑動檢測窗的方法,該方法只能檢測事先給定列表中的單詞,對于列表之外的單詞則無能為力.然而,在現(xiàn)實中不可能為每一幅圖像指定一個包含所有可能出現(xiàn)的單詞列表,從而使得該方法的適用范圍受到一定程度的限制.

      基于滑動檢測窗的自然場景文本檢測方法的一個關(guān)鍵問題就是如何找到區(qū)分度好的描述特征來區(qū)分文本區(qū)域與背景區(qū)域.傳統(tǒng)的自然場景文本檢測技術(shù)主要選擇了手工設(shè)計的特征,比如:梯度邊緣特征[99]、局部二值模式(Local binary patterns,LBP)[100?101]、邊緣局部二值模式(Edge local binary patern,eLBP)[102]、方向梯度直方圖(Histograms of oriented gradients,HOG)[90,103?104]、共生方向梯度直方圖(Co-occurrence histogram of oriented gradients,CoHOG)[105?106]、基于方向梯度直方圖的紋理特征(HOG-based texture descriptor,T-HOG)[107]、邊緣方向梯度直方圖(Histogram of gradients at edges,eHOG)[20]、小波變換特征[17,108?109]、離散小波變換特征[101]等.相應(yīng)地,為了分類文本區(qū)域與背景區(qū)域,一些監(jiān)督學(xué)習(xí)方法廣泛地應(yīng)用于自然場景文本檢測領(lǐng)域,比如支持向量機 (Support vector machine,SVM)[17,101,110?114]、自適應(yīng)增強算法 (Adaptive boosting,Adaboost)[98,115?116]、隨機森林 (Random forest,RF)[104,117?119]、以及人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)[120]等.大部分基于滑動檢測窗的文本檢測方法利用了文本候選區(qū)域的全局特征,而文獻[121]則從文本的局部特征出發(fā),提出了一種基于文本部件的樹形結(jié)構(gòu)模型(Partbased tree-structured models),該算法[121]能較好地適應(yīng)文本的字體變化,對噪聲、模糊等干擾因素也相對不敏感.然而該模型依賴于詳細的標注信息,對不同語種文本的適應(yīng)性也非常有限,不能直接推廣到新的語種文本.若要處理新的語種文本,則需要重新設(shè)計字符模板以及標注文本部件.

      基于滑動檢測窗的自然場景文本檢測方法無需通過提取文本邊緣、角點、連通區(qū)域或者文本行邊緣等方式來獲得文本/文本行候選區(qū)域,該類方法在處理文本尺度較小或者對比度欠佳等情況具有較大的優(yōu)勢,能有效地避免相鄰文本間的粘連現(xiàn)象對文本候選區(qū)域提取的影響.與此同時,該類方法通常采用了區(qū)分性能好的手工設(shè)計的特征來區(qū)分文本區(qū)域與背景區(qū)域,因此能較好地應(yīng)對復(fù)雜自然場景中的文本檢測問題.考慮到自然場景圖像中的文本區(qū)域通常由單個文本或者由多個文本構(gòu)成,除了文本位置隨機分布以及相鄰文本間隔距離多樣化外,文本大小尺寸以及文本區(qū)域的長寬比也存在著多個自由度,此外,文本行的排列方向通常比較隨意,有橫行、豎行、斜行、甚至是彎曲的,這對檢測窗口的選取帶來了很大的難度.與此同時,檢測窗口的滑動步長的選取也是一個棘手的問題,上述參數(shù)若設(shè)置不恰當將導(dǎo)致相當部分的文本漏檢、欠分割、過分割以及出現(xiàn)虛警(如圖7所示),從而影響文本檢測性能.基于滑動檢測窗的自然場景文本檢測方法采用多尺度滑動檢測窗口的方式遍歷整幅圖像來獲得文本候選區(qū)域.為了有效地區(qū)分文本區(qū)域與背景區(qū)域,一些復(fù)雜的手工設(shè)計的特征被大量使用,從而增加了描述特征的計算復(fù)雜度,進而導(dǎo)致了該類方法的檢測效率通常不盡人意.除此以外,基于滑動檢測窗的自然場景文本檢測方法除了需要獲得一個分類性能好的描述特征外,還對正、負訓(xùn)練樣本的規(guī)模以及訓(xùn)練集的完備性提出了嚴格的要求.不少算法的訓(xùn)練不僅需要知道每張訓(xùn)練樣本中是否包含文本,而且還需要知道每個文本所處的位置.為了應(yīng)對單文本與多文本情形,還需要建立單文本訓(xùn)練樣本、多文本訓(xùn)練樣本.與此同時,為了獲得良好的學(xué)習(xí)效果,需要大量貼近真實場景的樣本進行訓(xùn)練,增加了標注工作量與訓(xùn)練時間.盡管基于滑動檢測窗口的方法在其他類型物體檢測問題上取得了很好的結(jié)果,但從ICDAR 2011[122]以及ICDAR 2013[123]的“Robust Reading Competition Challenge 2” 的競賽結(jié)果來看,該類方法尚遜于基于連通區(qū)域分析的方法,近幾年基于滑動窗口的方法并沒有成為文本檢測算法的主流.

      5.2 基于深度學(xué)習(xí)的自然場景文本檢測方法

      局限于手工設(shè)計的特征分類能力的不足,文本檢測性能在較長的一段時間內(nèi)難以取得較大突破,直至有了深度學(xué)習(xí)技術(shù)之后.深度學(xué)習(xí)作為神經(jīng)網(wǎng)絡(luò)模型的新發(fā)展[124],它模擬了人腦認識事物機理.與傳統(tǒng)的淺層人工神經(jīng)網(wǎng)絡(luò)相比,深度學(xué)習(xí)含有多隱藏層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).區(qū)別于傳統(tǒng)的“手工設(shè)計的特征提取+分類器”的目標識別框架,深度學(xué)習(xí)網(wǎng)絡(luò)通過組合低層特征形成更加抽象的高層來表示屬性類別,使計算機自動學(xué)習(xí)數(shù)據(jù)的有效特征表示,應(yīng)用深度學(xué)習(xí)有一個很大的優(yōu)勢是可以避免繁瑣低效的人工特征工程.深度學(xué)習(xí)通過對訓(xùn)練樣本進行學(xué)習(xí)以自動地獲取描述特征[125]的方式,特別適合于物體識別與語音識別等模式識別問題.典型的深度學(xué)習(xí)結(jié)構(gòu)包括:深度置信網(wǎng)絡(luò)(Deep belief network,DBN)[125?126]、卷積神經(jīng)網(wǎng)絡(luò) (Convolutional neural network,CNN)[127]以及遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)[128]等.

      深度學(xué)習(xí)(如CNN/LSTM 等模型)在文本識別領(lǐng)域的應(yīng)用有著較長的歷史.上世紀90年代,深度學(xué)習(xí)的先驅(qū)者Lecun很早就用神經(jīng)網(wǎng)絡(luò)來解決文本識別,1998年,Lecun等合作設(shè)計了LeNet5模型[127],在MNIST數(shù)據(jù)集上的識別率高達99.1%;在加上變形樣本訓(xùn)練后,其識別率進一步提升到99.2%.2003年微軟研究院Simard等[129]引入彈性變形(Elastic distortion)及仿射變形(Affine distortion)兩種數(shù)據(jù)增廣(Data argumentation)技術(shù),采用類似CNN的網(wǎng)絡(luò)結(jié)構(gòu),在MNIST數(shù)據(jù)集上將識別率提升至99.6%,從而有效地解決了手寫數(shù)字識別問題.牛津大學(xué)VGG組的Jaderberg等[48]較早地提出將深度學(xué)習(xí)方法運用于自然場景文本檢測與識別領(lǐng)域,他們在2014年利用深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了如圖8所示的自然場景文本識別框架.在第一階段,學(xué)習(xí)一個不區(qū)分大小寫的CNN文本分類器;在第二階段,根據(jù)需要將結(jié)果特征映射應(yīng)用于其他分類問題,比如文本/背景分類器,區(qū)分大小寫的文本分類器以及二元分類器等.

      圖7 基于自頂向下策略文本區(qū)域的錯誤提取結(jié)果[90]Fig.7 Error extraction result of text region based on top-down strategy[90]

      圖8 基于卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)[48]Fig.8 Feature learning using a convolutional neural network[48]

      目前已涌現(xiàn)出大量的基于深度學(xué)習(xí)的自然場景文本檢測方法[12,19,31,33,37,41,45?49],這些方法通過深度學(xué)習(xí)獲得文本特征,并依據(jù)上述特征對自然場景文本進行檢測.相比以前所使用的傳統(tǒng)手工設(shè)計的特征,該類方法取得了更加令人鼓舞的檢測結(jié)果.從檢測文本對象的排列方向這一角度來看,基于深度學(xué)習(xí)的文本檢測方法先后經(jīng)歷了水平方向排列的文本檢測[31,130]、任意方向排列的文本檢測[15,33,50,131?134]以及目前少數(shù)文獻[135?136]所涉及的弧形排列方向的文本檢測.在基于深度學(xué)習(xí)的自然場景文本檢測方法中,基于文本區(qū)域建議(Text region proposal)的方法使用最為廣泛,其次是基于圖像分割的方法.主要的深度學(xué)習(xí)文本檢測路線與一些代表性方法如圖9所示.

      5.2.1 基于區(qū)域建議的文本檢測方法

      圖9 主要的深度學(xué)習(xí)文本檢測路線與一些代表性方法((a)文獻[137]方法,該方法采用CNN與ACF提取文本候選區(qū)域;(b)文獻[130]方法,該方法對faster RCNN進行改進,并提出Inception-RPN方式提取文本候選區(qū)域;(c)文獻[37]方法,該方法提出了Connectionist text proposal network檢測文本候選區(qū)域;(d)文獻[138]方法,該方法提出旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(RRPN);(e)文獻[139]方法,該方法提出了垂直回歸建議網(wǎng)絡(luò)(VRPN);(f)文獻[33]方法,該方法采用Segment linking方式解決多方向排列的文本檢測問題;(g)文獻[31]方法,該方法以SSD作為基礎(chǔ)框架,提出了一個端對端訓(xùn)練文本檢測器(TextBoxes);(h)文獻[15]方法,該方法創(chuàng)新性提出采用四邊形窗口(非矩形)的方式檢測任意方向排列的文本;(i)文獻[41]方法,該方法提出采用Text-block全卷積網(wǎng)絡(luò)獲得文本候選區(qū)域;(j)文獻[140]方法,該方法采用FCN綜合多信息屬性來獲得文本候選區(qū)域;(k)文獻[50]方法,該方法參考了DenseBox的架構(gòu),采用FCN網(wǎng)絡(luò)檢測任意方向排列的文本;(l)文獻[141]方法,該方法采用深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)來學(xué)習(xí)文本的高級視覺表示+循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)處理文本序列.)Fig.9 The main deep learning text detection framework and some representative methods((a)method[137],the CNN and the ACF are integrated to obtain the text region proposal.(b)method[130],the inception-RPN has been proposed in this work.(c)method[37],the connectionist text proposal network has been proposed in this work.(d)method[138],the RRPN has been proposed in this work.(e)method[139],the VRPN has been proposed in this work.(f)method[33],the segment and linking has been proposed in this work.(g)method[31],the TextBoxes method has been proposed in this work.(h)method[15],the deep matching prior network(DMPNet)with tighter quadrangle has been proposed in this work.(i)method[41],the text-block FCN has been proposed in this work.(j)method[140],the FCN and multi-channel prediction method has been proposed in this work.(k)method[50],the DenseBox framework has been followed and the FCN has been proposed in this work.(l)method[141],the DCNN and the RNN has been adopted in this work.)

      基于區(qū)域建議的文本檢測方法遵循一般目標檢測的框架,通常采用回歸文本框的方式來獲得文本區(qū)域信息.文獻[119]提出了分層文本檢測策略,該方法首先采用CNN提取特征,從所獲得的最大穩(wěn)定極值區(qū)域中獲得種子文本并依據(jù)種子文本來定位其他退化的文本區(qū)域,然后采用隨機森林結(jié)合文本行的上下文信息精細地分類文本候選區(qū)域.文獻[130]對Faster RCNN進行改進,提出采用Inception-RPN方式獲得文本候選區(qū)域,然后利用一個文本檢測網(wǎng)絡(luò)去除背景區(qū)域,最后對重疊的檢測結(jié)果進行投票來獲得最優(yōu)的檢測結(jié)果.文獻[37]首次將RNN引入到場景文本檢測當中,使用CNN得到深度特征,然后用固定寬度的Anchor來檢測文本建議區(qū)域(Text proposal),將同一行Anchor對應(yīng)的特征輸入到RNN中進行分類,最后將正確的文本建議區(qū)域進行合并,該方法得益于使用子塊(Block、Anchor)對文本進行表示,因此在一定程度上也能解決文本方向變化的問題.文獻[12]針對單詞的分類問題,將CNN與RNN進行聯(lián)合訓(xùn)練,首先,采用標準CNN提取圖像特征,并利用Map-to-sequence表示成特征向量;然后,使用雙向LSTM(BLSTM)學(xué)習(xí)場景文本的空間上下文信息;最后,對特征進行編碼并得到最終的預(yù)測結(jié)果,該方法將檢測和識別模型結(jié)合之后得到了目前端到端模型中最好的文本檢測結(jié)果.文獻[33]通過加入方向信息使得SSD(Single shot detector)檢測器可以應(yīng)對任意方向排列的文本檢測問題.該方法多尺度預(yù)測文本片段及其連接關(guān)系,將文本信息轉(zhuǎn)換為兩個局部可檢測信息,即:文本級或者單詞級的Segments以及Segments之間的Links.其創(chuàng)新之處在于把這些Links加入到網(wǎng)絡(luò)中去學(xué)習(xí),從而使得網(wǎng)絡(luò)自動學(xué)習(xí)出哪些Segments屬于同一個文本行(或者單詞).文獻[137]較早地開展了端到端(End-to-end)場景文本識別研究,該方法針對文本檢測問題對R-CNN進行了改造,其工作內(nèi)容主要分為二個部分:基于目標候選區(qū)域(Region proposal)的文本檢測部分以及基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的文本識別部分.該方法獲得了很好的場景文本識別效果,并且在其后兩年內(nèi)一直保持領(lǐng)先地位.文獻[79]除了提出對比度增強的最大穩(wěn)定極值方法(Contrast-enhancement maximally stable extremal regions,CE-MSERs)來提高文本檢測召回率外,還提出了基于多任務(wù)學(xué)習(xí)的文本注意卷積神經(jīng)網(wǎng)絡(luò)(Text-attentional convolutional neural network,text-CNN)模型,該方法將底層像素級分割、高層的文本識別以及文本與背景分類融合到一個text-CNN模型中,從而獲得了較強的文本檢測器.傳統(tǒng)的文本檢測系統(tǒng)通常包含了多個處理流程,各處理環(huán)節(jié)的性能均將直接影響到最終的檢測結(jié)果,文獻[15]提出了一種深度匹配先驗網(wǎng)絡(luò)(Deep matching prior network,DMPNet),該方法考慮到原來的方法都專注于用矩形框來對文本進行定位,然而實際上自然場景圖像中的文本圖像可能存在透視變換等問題,從而導(dǎo)致圖像中的文本區(qū)域并不是嚴格地呈現(xiàn)為矩形,若繼續(xù)采用矩形框來定位將出現(xiàn)錯誤的結(jié)果,文獻[15]創(chuàng)新性地提出采用四邊形窗口(非矩形)來表示文本區(qū)域.文獻[31]提出了Textboxes文本檢測方法,該方法對SSD框架進行了改進,其目的能實現(xiàn)快速地計算文本在每個區(qū)域存在的可能性,文獻[31]發(fā)現(xiàn)長條形的卷積核比常用的1×1或3×3卷積核更適合自然場景文本檢測,該方法在設(shè)計默認框(Default box)時考慮了包含較長的形狀,提出了一個實用的“檢測+識別”框架對文本候選區(qū)域進行判斷.其后,Liao等在文獻[131]中對他們的前期工作[31]進行了改進,提出了Textboxes++文本檢測方法,與前期工作Textboxes方法相比,文獻[131]除進一步修改網(wǎng)絡(luò)結(jié)構(gòu)以外,其主要貢獻是將Textboxes水平排列文本檢測器擴展為任意方向排列文本檢測器.文獻[139]提出了垂直回歸建議網(wǎng)絡(luò)(VRPN).為了生成具有文本方向角信息的傾斜候選框用于檢測任意方向文本區(qū)域,文獻[138]提出了旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(Rotation region proposal networks,RRPN).考慮到傳統(tǒng)的RoI池化層只能處理軸對齊的候選框,該文獻還提出了旋轉(zhuǎn)RoI(RRoI)池化層來調(diào)整RRPN生成的面向任意的候選框.文獻[134]為了檢測任意方向的文本,在R-CNN[142]構(gòu)架的基礎(chǔ)上提出了一種新的旋轉(zhuǎn)區(qū)域CNN(R2CNN)方法.該文獻使用RPN來生成軸對齊的包圍不同方向的文本邊界框,通過合并RPN生成的不同大小的每個軸對齊文本框的特征來分類文本與非文本區(qū)域;文獻[143]針對端對端文本識別問題提出了一個統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu)模型,該模型主要包含了一個文本建議網(wǎng)絡(luò)(Text proposal network,TPN)以及遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN),該模型可以直接通過一次前向計算就可以同時實現(xiàn)文本檢測和文本識別任務(wù).對該網(wǎng)絡(luò)模型進行訓(xùn)練時,只需要輸入圖像、圖像中文本的Bbox以及文本對應(yīng)的標簽信息.與此同時,文獻[143]無需實施諸如文本行形成、單詞分割等中間處理步驟,從而可以減少錯誤.文獻[133]從實例感知語義分割(Instance-aware semantic segmentation)的角度提出了一種端對端訓(xùn)練框架(Fused text segmentation networks,FTSN)以應(yīng)對多方向場景文本檢測問題,該方法采用Resnet-101 backbone提取特征后利用區(qū)域建議網(wǎng)絡(luò)(Region proposal network,RPN)同時檢測與分割文本實例,通過非最大抑制方法(Non-maximum suppression,NMS)解決文本實例重疊的問題,最后生成適合每個文本實例區(qū)域的最小四邊形邊界框作為整終的檢測結(jié)果.文獻[144]為了應(yīng)對任意方向的文本檢測問題,創(chuàng)新性地設(shè)計RoIRotate算法將任意方向特征轉(zhuǎn)換為軸對齊特征.近年來少數(shù)研究者基于深度學(xué)習(xí)方法對弧形排列方向的文本檢測問題進行了研究.文獻[136]提出了滑動線點回歸(Sliding line point regression,SLPR)方法檢測任意方向排列的文本(包括弧形排列方向文本),該方法首先采用區(qū)域建議網(wǎng)絡(luò)(Region proposal network,RPN)生成包含文本的最小矩形框,然后分別沿著垂直方向和水平方向等距滑動線并回歸文本的邊緣點,最后基于這些點獲得文本的輪廓.文獻[135]提出了一種基于多邊形的弧形文本檢測算法(Curve text detector,CTD),此外該方法還提出了兩個簡單有效的后處理方法,即:非多邊形抑制(NPS)和多邊形非最大抑制(PNMS),以進一步提高文本檢測精度.除此以外,文獻[135]還推出了主要包含弧度方向排列文本的數(shù)據(jù)集(SCUT-CTW1500),該數(shù)據(jù)集共包含了1500張圖片,其中1000張圖像作為訓(xùn)練集,500張圖片作為測試集,累積標注了約10000個文本區(qū)域.

      5.2.2 基于圖像分割的文本檢測方法

      基于圖像分割的文本檢測方法[41,50,132,140?141]將文本檢測視為一種廣義的“分割問題”.該類方法通常利用語義分割中常用的全卷積網(wǎng)絡(luò)(FCN)等方式來進行像素級別的文本/背景標注.文獻[41]首次采用了全卷積網(wǎng)絡(luò)(Fully convolutional network,FCN)從像素層面對圖像進行處理,該方法首先利用Text-block FCN進行像素級的標定,從而獲得每個像素屬于文本的概率,進而得到文本區(qū)域顯著圖(Salient map),最后基于顯著圖得到文本候選區(qū)域(如圖10所示).文獻[145]提出了一種級聯(lián)卷積文本網(wǎng)絡(luò)(Cascaded convolutional text network,CCTN),該方法采用級聯(lián)的方式檢測文本,具體處理步驟主要包括:首先,采用一個Coarse-CNN進行檢測得到粗略的文本區(qū)域,然后,對所獲得的文本區(qū)域檢測結(jié)果進行判斷是否需要進一步處理(Refine),若需要,則采用Fine-CNN進行處理以得到更細致的文本線進行輸出.文獻[50]提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)(FCN)與非最大抑制算法(Nonmaximum suppression,NMS)的簡單高效的文本檢測框架,該方法首先通過全卷積神經(jīng)網(wǎng)絡(luò)輸出文本區(qū)域像素級檢測結(jié)果,然后將上述結(jié)果通過非最大抑制算法獲得文本區(qū)域.文獻[132]提出基于深度直接回歸的多方向場景文本檢測方法,該文獻在其所提出的檢測框架中對全卷積神經(jīng)網(wǎng)絡(luò)進行了端對端的優(yōu)化并雙任務(wù)輸出,其中一個任務(wù)是對文本與非文本進行像素級分類,另一個任務(wù)則是采用該文獻所提出的新貢獻―直接回歸的方式以確定四邊形文本邊界的頂點坐標.文獻[141]中先采用深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)來學(xué)習(xí)文本的高級視覺表示,然后用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)處理不規(guī)則文本(Irregular text)序列.為了獲得文本候選區(qū)域,文獻[141]采用了FCN網(wǎng)絡(luò)來完成密集的文本檢測任務(wù).文獻[140]方法基于全卷積網(wǎng)絡(luò),把“預(yù)測文本區(qū)域概率”、“預(yù)測字符概率”、“預(yù)測相鄰字符連接概率”三個問題整合到一個網(wǎng)絡(luò)中去進行整體學(xué)習(xí)以獲得文本候選區(qū)域.

      圖10 基于全卷積神經(jīng)網(wǎng)絡(luò)的自然場景文本檢測[41]((a)Text-Block全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);(b)Text-Block全卷積神經(jīng)網(wǎng)絡(luò)獲得的結(jié)果)Fig.10 Natural scenes text detection based on fully convolutional networks[41]((a)The network architecture of the Text-Block FCN,(b)The illustration of feature maps generated by the Text-Block FCN)

      絕大部分基于深度學(xué)習(xí)的文本檢測方法主要包含了兩個部分內(nèi)容,即文本/非文本分類處理以及文本邊界框回歸處理,盡管文本邊界框回歸處理并不是必須的處理步驟,然而它對最終的檢測結(jié)果產(chǎn)生重要影響.區(qū)別于絕大部分基于深度學(xué)習(xí)的文本檢測方法,文獻[146]直接通過實例分割處理來獲得文本位置信息而無需進行文本邊界框回歸處理.受到SegLink[33]方法的啟發(fā),文獻[146]所提出的PixelLink方法采用了一個深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)來實現(xiàn)二種像素級預(yù)測,即文本/非文本預(yù)測以及連接預(yù)測,將所有文本實例中的像素進行標注并形成連通區(qū)域,最后從分割結(jié)果中直接提取文本邊界框.文獻[147]為了降低文本排列方向以及文本區(qū)域長寬比變化的影響,該方法首先檢測文本角點,然后通過對角點進行采樣和分組得到文本候選區(qū)域的邊框,最后基于分割信息對所獲得的文本候選區(qū)域的邊框進行評價,并采用非極大抑制處理(NMS)來獲得最終的檢測結(jié)果.基于文本區(qū)域建議的文本檢測方法[15,31,131,134]通常遵循一般目標檢測的框架,采用回歸文本框的方式來獲得文本區(qū)域的位置信息,該類方法受到文本排列方向的任意性以及文本區(qū)域長寬比多樣性的困擾.基于圖像分割的文本檢測方法[41,50,132,140?141]從另外的視角出發(fā),視文本檢測為一種廣義的“分割問題”,可以較好地避免文本排列方向以及文本區(qū)域長寬比變化的影響,然而該類方法的后續(xù)處理通常比較的復(fù)雜.此外,由于目前絕大部分文本檢測數(shù)據(jù)集的標注都是文本框類型,僅僅將文本標記在某一矩形區(qū)域內(nèi)而沒有詳細地標注出哪些像素點是文本哪些是背景,因此基于圖像分割的文本檢測方法還面臨著像素級別圖像標注的困難.考慮到人工標注像素(Pixel)級別的標記(Label)代價很高,采用人工合成數(shù)據(jù)是一個值得嘗試的替代手段.

      為了獲得較現(xiàn)有方法更優(yōu)的檢測結(jié)果,選擇或者設(shè)計更有效的深度學(xué)習(xí)文本檢測框架顯得格外重要.仍然需要指出的是,盡管深度學(xué)習(xí)方法在基于大量訓(xùn)練樣本的情況下獲得了較傳統(tǒng)的手工設(shè)計的特征更優(yōu)的區(qū)分性能,但是自然場景文本檢測系統(tǒng)通常包含了多個處理環(huán)節(jié),任何環(huán)節(jié)的處理結(jié)果都將會影響整個系統(tǒng)的檢測性能.深度學(xué)習(xí)方法雖然能很好地解決文本分類這一局部問題,然而較難有效地利用文本的上下文信息以及其他知識.雖然簡單直接地應(yīng)用深度學(xué)習(xí)技術(shù)可以達到還不錯的檢測結(jié)果,但依然有必要將深度學(xué)習(xí)方法與其他的領(lǐng)域知識或者技巧相結(jié)合來設(shè)計文本檢測系統(tǒng).此外,采用深度學(xué)習(xí)方法進行訓(xùn)練時,訓(xùn)練集的規(guī)模將對訓(xùn)練結(jié)果產(chǎn)生重要影響.訓(xùn)練樣本規(guī)模小將容易導(dǎo)致訓(xùn)練過擬合,訓(xùn)練樣本規(guī)模大則使得構(gòu)建訓(xùn)練集及手工標注的工作量過大.為了構(gòu)建大規(guī)模訓(xùn)練集,文獻[137,141,148?149]等提出通過合成的方法生成含有文本信息的樣本,進而為擴充訓(xùn)練集的規(guī)模提供了一種有效的解決途徑.牛津大學(xué)VGG組的Jaderberg等除了在文獻[149]中提出采用合成圖(Synthetic image)的方式訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)外,他們還在文獻[148]中詳細地介紹了如何通過合成的方法生成自然場景文本樣本,文獻[148]通過人工生成自然場景文本樣本在ICDAR 2011數(shù)據(jù)集上獲得了F-measure為82.3%的成績.此外,文獻[150]考慮到現(xiàn)有的真實文本數(shù)據(jù)集大多是在單詞或文本行級別進行標注的,因此該文獻提出了一個弱監(jiān)督的框架,基于單詞級訓(xùn)練數(shù)據(jù)庫來訓(xùn)練文本檢測器以解決文本訓(xùn)練數(shù)據(jù)集不足的難題.

      6 端對端文本識別方法

      區(qū)別于單獨的文本檢測與單獨的文本識別任務(wù),端到端文本識別包含了從自然場景圖像中檢測和識別文本的完整過程(如圖11所示).在端到端文本識別任務(wù)中,輸入的是自然場景圖像,輸出結(jié)果為圖像中的文本內(nèi)容.從本質(zhì)上來說,文本檢測和文本識別同屬于模式分類問題.文本檢測的核心任務(wù)是區(qū)分圖像中的文本和非文本成分,因此文本檢測是一個粗略的二分類問題;而文本識別則需要在文本檢測結(jié)果中進一步區(qū)分文本的所屬類別,因此文本識別則需要完成更精細的分類任務(wù).從針對自然場景文本檢測與識別的研究內(nèi)容來看,目前大部分工作將文本檢測與文本識別作為兩個獨立的內(nèi)容來展開研究,只有少數(shù)工作將文本檢測與文本識別融合到一個框架中執(zhí)行粗糙檢測與精細化分類的兩個任務(wù),從而達到同時進行文本檢測和文本識別的目的.相比單純的文本檢測與文本識別問題,端對端文本識別更加具有挑戰(zhàn)性.從ICDAR 2015自然場景文本檢測及識別競賽[32]的結(jié)果來看:非受限環(huán)境下的自然場景文本(Incidental scene text)在無語料信息的真實環(huán)境下的端到端識別任務(wù)(Task 4.4)的最好識別率僅為34.96%,可見端對端文本識別技術(shù)具有很大的提升空間.

      圖11 端到端場景文本識別框架[22]Fig.11 Scene text end to end recognition framework[22]

      文獻[34,73,151?152]較早地提出了端對端文本識別系統(tǒng),但這些系統(tǒng)主要關(guān)注文本檢測部分,文本的識別則依賴于已有的光學(xué)字符識別引擎.文獻[153]所提出的端對端文本識別系統(tǒng)則主要關(guān)注文本識別部分,其文本檢測部分利用了文獻[93,154]所提出的目標檢測方法.與文獻[34,73,151]方法不同,Wang等[91]和Neumann等[60]在他們所提出的端到端文本識別系統(tǒng)中并沒有采用已有的光學(xué)字符識別軟件,而是自主設(shè)計了自然場景文本識別方法.Wang等[91]將單詞作為一種特殊的待檢測目標,視字符為單詞的組成部件,通過各個字符的置信度以及字符之間的空間約束關(guān)系搜索最可能的檢測和識別結(jié)果.捷克理工大學(xué)Jiri Matas以及Neumann等[60]通過提取圖像中的最大穩(wěn)定極值區(qū)域作為文本候選區(qū)域,然后通過訓(xùn)練好的分類器剔除非文本區(qū)域,將余下的候選區(qū)域輸入到字符識別模型屮進行識別.Neumann等在前期工作[60]的基礎(chǔ)上,在文獻[59]中提出一個實時的端到端場景文本檢測和識別方法,其文本檢測部分基于一種高效的序貫選擇機制,從一個極值區(qū)域集合中挑選可能的文本區(qū)域,文本識別模型則由合成訓(xùn)練樣本得到.需要指出的是,文獻[59]是第一個在ICDAR 2011數(shù)據(jù)集上發(fā)布端對端文本識別結(jié)果報告的,該文獻所述方法現(xiàn)已被OpenCV 3.0所采用.文獻[34,59?60,91,151]只能處理水平方向或者接近水平方向排列的自然場景文本.考慮到上述方法的不足,華中科技大學(xué)研究團隊Yao等在文獻[76]中率先提出了一種可以處理自然場景中任意方向文本的端到端識別方法.該方法將文本檢測和文本識別作為一個整體進行考慮,在統(tǒng)一的框架中利用相同的特征和分類結(jié)構(gòu)同時完成檢測和識別任務(wù),此外該方法設(shè)計了一種基于字典搜索的糾錯策略來提高文本識別準確性.

      圖12 基于卷積神經(jīng)網(wǎng)絡(luò)的端對端自然場景文本識別方法[137]Fig.12 Feature learning using a convolutional neural network[137]

      由于傳統(tǒng)手工設(shè)計的特征不能有效地區(qū)分文本區(qū)域,從而導(dǎo)致端對端文本識別性能在較長的一段時間里難以取得突破,直至2014年前后深度學(xué)習(xí)方法為端對端文本識別問題提供了全新的解決方案.在文獻[48,137,143,148,155?156]等中設(shè)計了各種基于深度學(xué)習(xí)的端對端文本識別框架.牛津大學(xué)VGG組在2016年IJCV期刊的首卷首期發(fā)表了基于區(qū)域建議(Region proposal)的方法[137],該方法在端到端文本識別領(lǐng)域保持了近兩年的領(lǐng)先地位.文獻[137]從兩個方面展開對端到端(Endto-end)場景文本識別的研究(如圖12所示),即:基于目標區(qū)域建議(Region proposal)的文本檢測部分以及基于卷積神經(jīng)網(wǎng)絡(luò)的文本識別部分.Shi等在文獻[12]中針對圖像中的序列物體的識別問題提出了Convolutional recurrent neural network(CRNN)端對端檢測框架.針對單詞的分類問題,該方法首先采用標準CNN提取圖像特征并利用Map-to-sequence表示成特征向量,然后使用雙向LSTM(BLSTM)學(xué)習(xí)場景文本的空間上下文信息,最后對特征進行編碼并得到最終的預(yù)測結(jié)果,該方法得到了目前端到端模型中最好的文本檢測結(jié)果.Alsharif等[157]采用了一種包含分割、矯正以及文本識別的CNN網(wǎng)絡(luò),結(jié)合使用固定詞典的隱馬爾科夫模型(HMM)來獲得最終的識別結(jié)果.Liao等在文獻[31]中對SSD框架進行了改進,針對水平方向排列的文本提出了一種“Textboxes”+“CRNN”的端對端識別框架,其中Textboxes用來實現(xiàn)文本檢測,CRNN則用來進行文本識別;最近,Liao等在文獻[131]中對其前期工作[31]進行了改進,提出了一種“Textboxes++”+“CRNN”的端對端的文本識別框架,文獻[131]的主要貢獻是將其前期工作Textboxes[31]進行了擴展,在其所提方法中設(shè)計了Textboxes++文本檢測方法以應(yīng)對任意方向排列的文本的檢測問題.文獻[158]借鑒人類閱讀文本的認知機制,提出了一種基于卷積特征映射的端對端場景文本識別方法.該方法首先采用滑動檢測窗口的方式對輸入圖像進行掃描,并將輸入圖像按照檢測窗口大小切割出來,然后獲得所有切割后圖片的特征向量,由時序分類算法(Connectionist temporal classification,CTC)預(yù)測得到最終的識別結(jié)果.該方法表現(xiàn)出一些優(yōu)勢,比如避免了復(fù)雜的字符分割過程以及可以識別基于單詞方法所不能識別的文本.文獻[144]提出了一種任意方向排列文本識別方法(Fast oriented text spotting system,FOTS),該方法考慮到提取特征是一個較耗時的過程,為了加快系統(tǒng)的處理速度,該方法采用共享特征的方式同時實現(xiàn)文本檢測與文本識別處理.為了應(yīng)對文本排列方向的任意性,文獻[144]設(shè)計了RoIRotate算法將任意方向特征轉(zhuǎn)換為軸對齊特征.在文獻[148]所提出的端對端文本識別方法中,首先訓(xùn)練了一個全卷積回歸網(wǎng)絡(luò)(Fully convolutional regression network,FCRN)以及文本位置回歸的方式檢測文本,然后通過文獻[149]所采用的單詞分類器(Word classifier)進行文本識別.Li等在文獻[143]中提出了一種端對端文本識別網(wǎng)絡(luò)結(jié)構(gòu)模型,該模型主要包含了一個文本建議網(wǎng)絡(luò)(Text proposal network,TPN)以及遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN),該模型可以直接通過一次前向計算就可以同時實現(xiàn)文本檢測和文本識別任務(wù).Patel等在文獻[159]中提出了E2E-MLT多語言場景文本識別算法,該方法集成了多個卷積神經(jīng)網(wǎng)絡(luò),有效地實現(xiàn)了自然場景文本檢測、識別以及文種分類等任務(wù).特別需要指出的是,文獻[159]所提的E2E-MLT模型是迄今為止第一個面向多種語言的文本識別方法.與大部分傳統(tǒng)的監(jiān)督訓(xùn)練方式不同,Bartz等在文獻[155,160]中對其提出的端對端文本檢測與識別系統(tǒng)采用了半監(jiān)督學(xué)習(xí)方法進行了訓(xùn)練.為了應(yīng)對任意方向排列的自然場景文本,在文獻[156]所提出的端對端文本識別系統(tǒng)中,首先采用了旋轉(zhuǎn)文本建議網(wǎng)絡(luò)(Region proposal network,RPN)來獲得文本區(qū)域,然后采用基于合成文本樣本訓(xùn)練后得到的文本分類器進行識別.對于單個文本的識別問題,基于深度學(xué)習(xí)文本識別方法的做法通常與傳統(tǒng)方法類似,采用CNN獲取文本的描述特征并進行分類[46];對于由多個文本構(gòu)成的單詞,主要采用了CNN+LSTM結(jié)構(gòu)[12,16],首先利用CNN學(xué)習(xí)圖像相鄰像素之間的關(guān)系,然后利用長短期記憶神經(jīng)網(wǎng)絡(luò)(Long short-term memory,LSTM)學(xué)習(xí)較長跨度的上下文關(guān)系.

      7 性能評估

      7.1 測試數(shù)據(jù)集

      隨著自然場景文本檢測這一研究領(lǐng)域的不斷發(fā)展,越來越多的文本數(shù)據(jù)集被推出以供研究人員來檢驗其方法的性能.最為常見且使用最為廣泛的數(shù)據(jù)集有ICDAR自然場景文本檢測競賽的系列數(shù)據(jù)集.除此以外,自然場景文本檢測數(shù)據(jù)集還包括了MSRA-TD500、SVT、COCO-Text等.上述各種數(shù)據(jù)集的特點如表1所示.

      表1 常用自然場景文本檢測數(shù)據(jù)集Table 1 Widely used natural scene text detection datasets and their download link

      上述數(shù)據(jù)集的下載地址分別為:ICDAR0033Available at:http://algoval.essex.ac.uk/icdar/Datasets.html,ICDAR0114Available at:http://robustreading.opendfki.de/,ICDAR0135Available at:http://dag.cvc.uab.es/icdar2013competition,ICDAR0156Available at:http://www.iapr.org/archives/icdar2015/index.tml%3Fp=254.html,SVT7Available at:http://vision.ucsd.edu/~kai/grocr/,MSRA-TD5008Available at:http://pages.ucsd.edu/~ztu/Download front.htm,KIST9Available at:http://www.iapr-tc11.org/mediawiki/index.php/KAIST_Scene_Text_Database,OSTD10Available at:http://media-lab.ccny.cuny.edu/wordpress/cyi/www/project_scenetextdetection.html,NEOCR11Available at:http://www.iapr-tc11.org/mediawiki/index.php?title=NEOCR:Natural_Environment_OCRDataset,USTB-SV1K12Available at:http://prir.ustb.edu.cn/TexStar/MOMV-text-detection/,COCO-Text13Available at:https://vision.cornell.edu/se3/coco-text-2/,RCTW-1714Available at:http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html,SCUT-CTW150015Available at:https://github.com/Yuliang-Liu/Curve-Text-Detector.

      7.2 評估方法

      為了客觀地評測各種方法的檢測性能,目前已推出了幾種測評方法(后續(xù)小節(jié)中將對各種評測方法進行詳細介紹).現(xiàn)有檢測性能評測方法主要考慮三個性能參數(shù),即:準確率(Precision,P)、召回率(Recall,R)、綜合評價指標(F-measure,F).準確率(P)表示檢測得到的真實文本與所有檢測結(jié)果之間的比率,召回率(R)表示檢測得到的真實文本和所有手工標注的真實文本之間的比值,綜合評價指標(F)是準確率與召回率的調(diào)和平均值,該值是評價文本檢測方法性能的綜合指標.

      7.2.1 ICDAR 2003/2005評估方法

      具體辦法是通過將檢測結(jié)果的最小外接矩形與手工標注的文本區(qū)域矩形進行比較以獲得其公共部分面積,并通過公共部分面積計算出文本檢測召回率、精確率以及綜合評價指標,最后根據(jù)上述三個性能指標對檢測結(jié)果的優(yōu)劣性進行評價.匹配度mp定義為上述兩個矩形之間的公共部分面積與包含上述兩個矩形的最小外接矩形的面積之比.當兩個矩形完全重合時,匹配度mp=1;當兩個矩形之間無公共部分時,則匹配度mp=0.

      一個矩形r與一組矩形Re之間的最佳匹配度采用式1進行定義.

      召回率(Recall,R)和準確度(Precision,P)分別采用式(2)和式(3)進行定義.

      其中,T表示手工標注文本區(qū)域的矩形集合,E表示檢測結(jié)果的矩形集合.綜合評價指標(F-measure)為召回率(Recall)和精確率(Precision)的調(diào)和平均值,其定義如式(4)所示.

      其中,參數(shù)α為檢測召回率與準確率之間的權(quán)重,通常取值為:α=0.5.

      7.2.2 ICDAR 2011/2013評估方法

      ICDAR 2003以及ICDAR 2005評估方法沒有考慮檢測結(jié)果與手工標注結(jié)果(Ground-truth)之間一對多(One-to-many)與多對一(Many-to-one)的匹配情形.事實上,檢測結(jié)果與Ground-truth之間一對多(One-to-many)與多對一(Many-to-one)的匹配情形在實際檢測結(jié)果中并不少見,因此在采用ICDAR 2003以及ICDAR 2005評估方法時容易低估自然場景文本檢測方法的實際性能.考慮到上述情況,ICDAR 2011以及ICDAR 2013自然場景文本檢測競賽采用了文獻[166]所提出的評估方法.需要指出的是,文獻[166]認為多對多(Manyto-many)的匹配情形并不常見,因此在文獻[166]中暫未考慮多對多匹配情形.

      文獻[166]所提出的評估方法主要考慮了檢測結(jié)果與Ground-truth之間的三種匹配情形,即:一對一(One-to-one)、一對多(One-to-many)以及多對一(Many-to-one)(如圖13所示).準確率(P)與召回率(R)分別定義為

      其中,G,D分別表示Ground-truth與檢測結(jié)果,tr∈[0,1]是召回率約束項,tp∈[0,1]是精確率約束項,其取值分別為tr=0.8,tp=0.4.函數(shù)MatchD與MatchP用來區(qū)分匹配類型,具體來說可以表示為

      其中,fsc(k)為針對欠分割與過分割情況的懲罰函數(shù),文獻[166]取fsc(k)=0.8.

      7.2.3 ICDAR 2015評估方法

      ICDAR 2015自然場景文本檢測競賽采用了文獻[167]所提出的目標檢測評價方法,通過比較檢測結(jié)果矩形框與Ground-truth矩形框之間的公共區(qū)域與并集區(qū)域之間的比值來進行衡量.具體做法是,定義覆蓋面積比值為

      其中,a0為覆蓋率,Bp和Bgt分別表示檢測結(jié)果與Ground-truth,area(Bp∩Bgt)與area(Bp∪Bgt)分別表示Bgt,Bp之間的交集區(qū)域與并集區(qū)域.若檢測結(jié)果與Ground-truth之間的實際面積覆蓋率a0>0.5,則認為該檢測結(jié)果為正確的;反之,則認為是虛警.當同一文本行出現(xiàn)多個檢測結(jié)果時,根據(jù)降序順序?qū)⒊说谝粋€檢測結(jié)果以外的其余檢測結(jié)果視為虛警.準確率(P)與召回率(R)分別定義為

      其中TP,E,T分別表示正確的檢測結(jié)果集合,檢測結(jié)果集合以及Ground-truth集合,綜合評價指標(F)則定義為

      7.2.4 MSRA-TD500評估方法

      文獻[39]針對任意方向自然場景文本檢測提出了一種有效的評估方法.該方法采用了文獻[168]所提出的最小面積矩形框?qū)ξ谋緟^(qū)域進行了標記,圖14(a)為手工標記的結(jié)果.對于任意方向排列的文本而言,采用文獻[168]所提出的最小面積矩形框相較軸對稱矩形框更加緊致(如圖14(b)所示).采用圖14(c)所示方式計算檢測結(jié)果與Ground-truth之間的覆蓋率,其中G,D分別表示為Ground-truth與檢測結(jié)果.考慮到在計算G,D之間的覆蓋率時不夠方便,文獻[39]將G,D按照其中心點CG,CD進行旋轉(zhuǎn)至G0,D0所示位置(如圖14(c)所示).G,D之間的覆蓋率定義為

      圖13 檢測結(jié)果與Ground-truth匹配模式[166]Fig.13 Matching model of the detection results and ground-truth[166]

      圖14 MSRA-TD500數(shù)據(jù)集評估方法[39]Fig.14 Evaluation method of the MSRA-TD500 datasets[39]

      A(G0∩D0)與A(G0∪D0)分別表示G0,D0之間的交集與并集區(qū)域,文獻[39]借鑒了PASCAL目標檢測性能評估方法[169],其具體做法是:當G,D之間的傾斜角之差小于π/8且覆蓋率m大于0.5時,則認為D為一個正確的檢測結(jié)果.對于同一文本行而言,若出現(xiàn)多個檢測結(jié)果,則根據(jù)降序順序?qū)⒊说谝粋€檢測結(jié)果以外的其余檢測結(jié)果視為虛警.準確率(P)與召回率(R)分別定義為

      其中,TP,E,T分別表示正確的檢測結(jié)果集合,檢測結(jié)果集合以及Ground-truth集合,綜合評價指標(F)定義為

      7.3 測試結(jié)果

      各種自然場景文本檢測方法在各類公開數(shù)據(jù)集上進行測試,一些代表性的文本檢測方法的測評結(jié)果如表2所示[170?173].由表2可知,自然場景文本檢測技術(shù)在近幾年得到了長足發(fā)展,比如在ICDAR 2011數(shù)據(jù)庫上的綜合標價指標從0.71上升到0.85(2011~2017年),在ICDAR 2015數(shù)據(jù)庫上的綜合標價指標從0.50上升到0.81(2015~2017年).

      8 自然場景文本檢測方法存在的問題

      近年來,盡管不少行之有效的文本檢測方法被提出,文本檢測的性能也獲得了大幅度提升,但自然場景文本檢測技術(shù)依然存在著一些不足.

      8.1 端到端(End-to-end)場景文本識別問題

      端到端場景文本識別需要同時應(yīng)對文本檢測與文本識別雙重任務(wù)(如圖11所示),目前針對端對端自然場景文本識別的研究還相對的單薄;從已發(fā)表文獻所采用的技術(shù)手段來看,大部分工作[34,49,79,88]將端到端場景文本識別的二個任務(wù)獨立地進行處理,只有少數(shù)文獻[59,137,143,174]將該問題作為一個整體來進行研究.從ICDAR 2015自然場景文本檢測及識別競賽[32]的結(jié)果來看,在無語料信息的真實環(huán)境下的端對端(End-to-end)場景文本識別(Task 4.4)的最好識別率僅為34.96%,由此可見端對端場景文本識別性能尚有很大的提升空間.

      8.2 多方向與形變文本檢測問題

      從目前所提出的自然場景文本檢測方法來看,大多數(shù)方法主要針對直線方向排列(即:水平排列、垂直排列以及斜線排列)的文本進行檢測.然而對于自然場景文本而言,相鄰文本之間的排列方向具有多樣性,除直線方向排列外,還可能沿弧形等不規(guī)則方向排列.對于多方向排列的場景文本,其邊界框可能是旋轉(zhuǎn)的矩形或者四邊形,因此很難設(shè)計有效的方法來統(tǒng)計相鄰文本之間排列方向的規(guī)律性.此外,形變場景文本的視覺特征的不規(guī)則性也阻礙了該技術(shù)的進一步發(fā)展.

      8.3 少語種與混合語種文本檢測問題

      根據(jù)2009年聯(lián)合國教科文組織《瀕危語言圖譜》統(tǒng)計結(jié)果表明,全世界有7000種語言,其中有83種主要語言被80%的人所使用.目前大部分自然場景文本檢測方法只能檢測漢字、英文或者阿拉伯數(shù)字等單一語種文本或者極少數(shù)混合語種文本,而其他的少數(shù)語種以及混合語種的文本檢測問題卻關(guān)注很少.混合語種文本檢測所遇到的挑戰(zhàn)主要包括:文本種類繁多且不同種類文本的空間結(jié)構(gòu)存在多樣性,從而導(dǎo)致了文本區(qū)域的視覺特征具有很大的差異,以致很難找到區(qū)分性好的描述特征來分類文本區(qū)域與背景區(qū)域,此外,構(gòu)建多分類的識別框架也是一件困難的工作.

      8.4 文本檢測結(jié)果評價方法問題

      目前的評價方法主要采用交并比(Intersectionover-union,IoU)指標來評價文本檢測結(jié)果,然而該方法并不能很好地反映文本檢測方法的性能.對于一般性的目標檢測問題,如果能檢測出超過50%的IoU,則表明獲得了很好的檢測結(jié)果,然而對于文本檢測問題而言,即使IoU獲得了大于50%的結(jié)果,也不能保證在后續(xù)的文本識別與語義理解中能得到很好的結(jié)果,檢測框內(nèi)的內(nèi)容和細節(jié)同樣對后續(xù)處理產(chǎn)生很大的影響.目前絕大部分自然場景文本檢測方法采用了ICDAR性能評價標準,在特定的、小規(guī)模的公開測試數(shù)據(jù)集上進行評估,因此方法性能的魯棒性還有待于進一步驗證.

      8.5 文本檢測研究內(nèi)容與創(chuàng)新性問題

      對2017年在 CVPR、ICCV、NIPS、ICDAR等頂級會議上發(fā)表的自然場景文本相關(guān)論文進行分析后發(fā)現(xiàn),超過80%的自然場景文本檢測論文主要關(guān)注多方向排列的場景文本檢測問題,較少文獻涉及自然場景文本識別與端對端自然場景文本檢測與識別問題,從而導(dǎo)致了目前該領(lǐng)域的研究工作重檢測輕識別;另外,目前所提出的大部分文本檢測方法主要在一些公共數(shù)據(jù)集上測試性能,相當一部分方法為了獲得更高的測試性能,往往簡單地堆積一些領(lǐng)域知識與反復(fù)調(diào)整參數(shù)(比如采用Faster R-CNN,SSD,FCN,RNN等模式識別領(lǐng)域知識),從而導(dǎo)致缺乏創(chuàng)新和深度思考,沒有形成文檔分析領(lǐng)域特色.

      表2 近期主流自然場景文本檢測方法性能總結(jié)(數(shù)據(jù)都是原文報道的結(jié)果,帶(*)標記的數(shù)據(jù)是引自相關(guān)論文)Table 2 Performance summary of recent dominant natural scene text detection methods(All results are quoted directly from original papers,except for those marked with(*),which are from a recent related paper.)

      9 發(fā)展趨勢及應(yīng)用

      9.1 任務(wù)實施步驟層面的幾點思考

      從自然場景文本檢測任務(wù)的實施步驟來看,主要需要解決三個問題:如何獲得文本候選區(qū)域、如何驗證文本候選區(qū)域以及如何得到以單詞為分割單元的檢測結(jié)果.

      對于第一個問題,可以考慮將自頂向下檢測方法與自底向上檢測方法進行綜合運用.因為我們欣喜地發(fā)現(xiàn),文本在自然場景中通常表現(xiàn)出聚集性,相鄰文本往往具有高度、寬度與顏色的相似性,即便是任意方向排列的文本區(qū)域,其相鄰文本間的排列方向也具有一定的規(guī)律,因此自然場景文本相較其他的物體往往具有顯著的視覺上下文信息.基于自然場景文本的上述特點,我們可以考慮將前期自底向上方式處理后所獲得的文本區(qū)域作為種子區(qū)域,然后將種子區(qū)域的大小、排列方向等信息作為先驗知識,為后續(xù)將要開展的自頂向下處理方法提供線索,指導(dǎo)其檢測窗口的大小以及搜索方向的設(shè)定,進而可以兼顧檢測效率與檢測召回率.

      對于第二個問題,近年來基于深度學(xué)習(xí)的目標檢測方法如Faster R-CNN、YOLO、SSD、R-FCN等為解決文本檢測問題提供了全新的思路.盡管文本檢測屬于目標檢測中的一個特例,但是簡單地把深度學(xué)習(xí)中的目標檢測框架應(yīng)用于文本檢測問題可能會達不到滿意的效果.然而,自然場景文本所具有的獨特性以及視覺上下文信息使得其具有了其他場景目標所不具備的優(yōu)勢.如果能設(shè)法將文本上下文信息融入深度學(xué)習(xí)框架,有望提升文本檢測系統(tǒng)的整體性能;另外,從訓(xùn)練文本分類器的方式來看,目前主要采用了監(jiān)督學(xué)習(xí)方法,半監(jiān)督,弱監(jiān)督甚至無監(jiān)督方法鮮有人關(guān)注,而事實上,上述學(xué)習(xí)方式可望在一定程度上減輕方法對大規(guī)模訓(xùn)練數(shù)據(jù)集的依賴.

      對于第三個問題,由于受到文本漏檢、誤檢等因素的影響,如果只是單向地通過經(jīng)驗或者統(tǒng)計學(xué)習(xí)方法來設(shè)計單詞分割規(guī)則,往往難以獲取理想的分割結(jié)果.然而我們注意到,自然場景文本中的單詞絕大部分都是常用單詞,盡管單詞的總數(shù)有幾十萬個,但是根據(jù)Test your vocab網(wǎng)站上兩百萬份測試的結(jié)果,大部分母語為英語人的單詞量為20000~35000之間,國內(nèi)英語專業(yè)研究生畢業(yè)應(yīng)掌握單詞量也才8000以上,因此我們可以考慮基于常用單詞建立字典進而對所分割得到的結(jié)果進行對比,(盡管單詞誤分割后有可能剛好成為一個新的單詞,但是這樣的幾率相對很少),在此基礎(chǔ)上可嘗試通過引入反饋機制來指導(dǎo)單詞分割.比如:如果發(fā)生比對錯誤,則將出錯的信息反饋到單詞分割處理的前端,在單詞分割的前端通過對該出錯的單詞調(diào)整其閾值以獲得新的分割結(jié)果.此外,在設(shè)計自然場景文本檢測方法時,我們還應(yīng)該借鑒計算機視覺與模式識別領(lǐng)域的一些新的研究成果,并挖掘一些技巧性處理辦法.

      9.2 任務(wù)整體層面的思考

      盡管自2012年以來,任意方向排列的自然場景文本檢測成為了該領(lǐng)域的研究熱點,然而我們卻發(fā)現(xiàn)絕大部分任意方向排列的文本檢測方法[15,33,50,131?134]的檢測對象僅僅是直線方向排列(即:水平排列、垂直排列以及斜線排列)的文本,只有極少的文獻[135,136]對包含弧形排列方向的任意方向排列文本開展了檢測研究.對任意方向排列的文本進行檢測時將面臨兩個關(guān)鍵性問題:1)文本區(qū)域描述;2)文本行的形成.

      1)對于第一個問題,為了適應(yīng)文本的旋轉(zhuǎn)變化,需要設(shè)計文本級別以及文本行級別這兩組旋轉(zhuǎn)不變的描述特征.所幸的是,近年來所提出的深度學(xué)習(xí)方法[15,33,50,131?134]+合成文本數(shù)據(jù)技術(shù)[148?149]已能較好地突破一些傳統(tǒng)手工設(shè)計的特征[39,101,104]的局限,因此進一步提出更優(yōu)的深度學(xué)習(xí)框架是一個有效的解決方法.即便如此,文本行相比其他獨立的物體而言,文本具有著特定的空間結(jié)構(gòu)與語義屬性,因此文本滿足一定的“典型性”與“描述性”特點.根據(jù)文本行的組成特點,除了設(shè)計更優(yōu)的深度網(wǎng)絡(luò)框架以外,我們還可以借助視覺特性好的文本檢測結(jié)果來提升視覺特性差的文本的檢測效果.文獻[74]采用自底向上策略從局部特征提取角度來描述文本行區(qū)域,為任意方向排列的文本行以及形變文本的檢測問題提供了一種思路.

      2)對于第二個問題,由于任意方向排列的文本區(qū)域其邊界框可能是旋轉(zhuǎn)的矩形或者是不規(guī)則的四邊形,從而導(dǎo)致傳統(tǒng)的一般物體檢測方法[93,95,175]所采用的矩形檢測框很難有效地應(yīng)對任意方向排列的文本檢測問題.與此同時,在文本行形成的過程中連接規(guī)則的設(shè)計也是一個非常重要的處理步驟,一些基于連接的檢測方法(Linking methods)[33,37,150]首先檢測單個文本,然后將單個文本通過一定的連接規(guī)則融合成文本行,然而該方法有一定的缺點,當出現(xiàn)大量堆疊的文本區(qū)域或者文本尺寸太小的情況時,該類方法往往不能獲得一個滿意的效果.區(qū)別于傳統(tǒng)的基于連接的文本檢測方法,文獻[136]針對任意方向排列的文本(包含弧形排列方向)的檢測問題提供了一種新的解決思路,該文獻提出了滑動線點回歸(Sliding line point regression,SLPR)方法.文獻[135]在提出基于多邊形的弧形方向排列的文本檢測方法的基礎(chǔ)上,首次推出了包含弧度方向排列文本的數(shù)據(jù)集(SCUT-CTW1500),從一定程度上為更廣泛的任意方向排列的文本檢測研究提供了方便.

      9.3 領(lǐng)域知識對文本檢測性能影響的幾點思考

      自然場景文本檢測屬于一種典型的二分類模式識別問題,計算機視覺與模式識別領(lǐng)域中的其他目標檢測方法可以為自然場景文本檢測提供思路.

      9.3.1 視覺注意機制對文本檢測的影響

      文本在自然場景圖像中表現(xiàn)出稀疏性特點,大量的背景區(qū)域給真實文本檢測帶來了極大困難(特別是一些類文本的背景區(qū)域).事實上,采用視覺注意機制對特定目標進行顯著性檢測時,可以在突出特定目標的同時抑制其他背景信息,進而減少背景干擾所帶來的虛警.一些研究者[20,79,176?182]對自然場景文本的顯著性檢測問題展開了研究,文獻[176?178]的研究結(jié)果表明可以通過構(gòu)建視覺注意模型來表示文本區(qū)域的顯著性.文獻[180]認為圖像中的文本區(qū)域并不是所謂“最顯著”的區(qū)域,因此只使用了文獻[183]所提出的視覺注意模型中的強度突出圖作為顯著圖.文獻[79]提出了一種文本–注意卷積神經(jīng)網(wǎng)絡(luò)(Text-attentional convolutional neural network,Text-CNN),并采用了多任務(wù)學(xué)習(xí)的方式訓(xùn)練Text-CNN模型.在訓(xùn)練的過程中將低級的像素級信息(分割問題)、高級的字符多類信息(62類字符識別問題)以及字符與非字符信息(2類字符分類問題)融合到Text-CNN模型中,從而使得Text-CNN具有強大的識別歧義文本的能力,同時也增強了算法在應(yīng)對復(fù)雜背景時的魯棒性,最后通過采用訓(xùn)練后的Text-CNN對圖像進行處理進而獲得顯著性圖像,在顯著性圖像中文本區(qū)域往往具有高的置信度值,而背景區(qū)域所對應(yīng)的置信度值較低.最近,He等在文獻[184]中提出了一種視覺注意模型,該方法通過自動地學(xué)習(xí)注意圖來初步地獲得文本區(qū)域.區(qū)別于大部分文本顯著性檢測方法,文獻[185]關(guān)注于檢測背景區(qū)域,反向思維地將檢測出的背景區(qū)域去除,從而凸顯待檢測文本區(qū)域.文獻[41]則采用了全卷積網(wǎng)絡(luò)(Fully convolutional network,FCN)直接得到文本區(qū)域的顯著圖(Salient map),然后基于該顯著圖進行后續(xù)處理.通過對上述研究工作的分析我們可以發(fā)現(xiàn),結(jié)合自然場景文本的特點合理地設(shè)計一個視覺顯著性模型將有助于自然場景文本檢測問題的解決.

      9.3.2 視覺上下文對文本檢測的影響

      諸如人臉檢測、行人檢測以及車輛檢測等其他物體檢測的對象往往是一些獨立目標,然而自然場景文本檢測通常需要檢測一個文本序列.盡管自然場景文本種類多樣,由不同文本任意組合而成的文本行區(qū)域的視覺特征差異較大,但是我們欣喜地發(fā)現(xiàn):對于某一特定語種其包含的文本種類是有限的,而且文本序列中的相鄰文本之間通常具有著獨特的上下文信息,比如:相鄰文本之間具有相近的高度、顏色、筆畫寬度以及均勻的間隔距離等.根據(jù)自然場景文本的上述特點,如果我們能合理地利用相鄰文本間的上下文信息,無疑將有助于提高文本區(qū)域的分類正確性.除此以外,自然場景文本檢測的目標是判斷給定的圖像區(qū)域中是否包含文本,并不關(guān)心所包含文本的具體種類,因此自然場景文本檢測屬于二分類模式識別問題,從而為利用視覺上下文信息提供了便利.近年來,一些研究者開始關(guān)注自然場景文本視覺上下文信息對文本檢測性能的影響,文獻[35,64,74,80,184,186?189]通過利用相鄰文本間的視覺上下文信息設(shè)計了不同的文本檢測方法并取得了滿意的檢測結(jié)果.通過對前期研究工作的分析我們可以發(fā)現(xiàn),在深度學(xué)習(xí)的框架內(nèi)合理地融入文本視覺上下文信息可望有效地提升文本檢測的性能.

      9.4 應(yīng)用層面的幾點思考

      基于文本的高度抽象描述能力,自然場景文本檢測技術(shù)具有廣泛的應(yīng)用價值.在應(yīng)用需求的驅(qū)動下,目前自然場景文本檢測技術(shù)在一些特定領(lǐng)域中獲得了應(yīng)用,比如:智能交通系統(tǒng)(如:美國Hi-Tech公司的See/Car System以及香港Asia Vision Technology公司的VECON-VIS等);基于內(nèi)容的視頻檢索系統(tǒng)(如:美國卡耐基梅隆大學(xué)的Informedia Digital Video Library[190]以及美國哥倫比亞大學(xué)的WebSeek[191]等);可穿戴/便攜式視覺系統(tǒng)(美國麻省理工學(xué)院的FingerReader[9]以及Goggles[10]等).除了上述應(yīng)用以外,一些研究者還將自然場景文本檢測技術(shù)應(yīng)用到圖像理解[192],文種識別[193]等領(lǐng)域.相比自然場景文本檢測技術(shù)的潛在應(yīng)用市場,上述應(yīng)用只是“冰山一角”.

      文本具有高層的語義信息,而語義信息往往能有助于解決計算機視覺中的一些傳統(tǒng)問題以及拓展新的應(yīng)用,比如在特定目標(如運動員、汽車)的跟蹤與重檢測的問題上,我們可以引入運動員的標牌或者汽車的車牌來幫助實現(xiàn)上述任務(wù);再如無人駕駛汽車的輔助導(dǎo)航問題上,我們也可以通過引入自然場景文本檢測技術(shù)來獲得交通標識信息,通過識別交通標識牌的語義信息來提高汽車的智能感知與行駛規(guī)劃能力;還有無紙化辦公方面也可望使用文本檢測技術(shù),對于會議后書寫在白板上的工作安排,我們只需用智能設(shè)備拍照留存與分析處理,系統(tǒng)將根據(jù)白板上的文本識別結(jié)果來分類相關(guān)人員的后續(xù)工作.另外,自然場景文本檢測技術(shù)還可以與音頻信息結(jié)合起來共同解決諸如“以詞搜圖”的圖片檢索、地圖定點導(dǎo)航等實際問題.作為一項面向具體應(yīng)用場景的技術(shù),自然場景文本檢測的應(yīng)用領(lǐng)域?qū)⒃诟鞣N應(yīng)用需求的驅(qū)動下不斷拓展、不斷成熟.

      9.5 其他問題的思考

      1)據(jù)報道,人臉的識別在大腦中有專用機構(gòu)[194?195],那么是否在大腦里存在類似的專用機構(gòu)處理文本的識別問題?盡管目前的深度學(xué)習(xí)是最接近人腦思維過程,相信神經(jīng)生物學(xué)家未來的研究成果將有助于深入理解大腦的工作原理,進而為構(gòu)造更有效的文本識別機制提供依據(jù).

      2)盡管深度學(xué)習(xí)在文本表示方面展現(xiàn)出顯著的優(yōu)勢,但是自然場景文本相對圖片而言其尺寸較小,網(wǎng)絡(luò)的深度太深可能會對文本識別產(chǎn)生大的影響,從而面臨著網(wǎng)絡(luò)的深度規(guī)模如何選取的問題.

      3)對于多語種文本檢測是否會存在分類性能好且通用的描述特征?通過觀察我們發(fā)現(xiàn):如果一個中國小孩不學(xué)英文,是不具備檢測與識別英文文本的能力的.

      10 結(jié)束語

      自然場景文本檢測是計算機視覺與模式識別領(lǐng)域中的一個新興的研究課題,具有重要的理論意義和實際應(yīng)用價值.國內(nèi)外許多學(xué)者對該課題展開了大量研究,然而復(fù)雜自然環(huán)境中所存在的諸多挑戰(zhàn)使得該技術(shù)與實際實用仍然有一定距離.為了全面分析文本檢測中的問題,本文對自然場景文本檢測技術(shù)的研究背景與意義、發(fā)展現(xiàn)狀等內(nèi)容進行了闡述、對該技術(shù)的方法進行了詳細的梳理和評述,并揭示了它們之間內(nèi)在聯(lián)系、優(yōu)勢與不足.與此同時,本文介紹了端對端文本識別技術(shù),并對計算機視覺與模式識別領(lǐng)域中的一些新發(fā)展對自然場景文本檢測技術(shù)的影響進行了介紹,拓寬了研究思路;本文還對一些主流數(shù)據(jù)庫進行了總結(jié)和評述,并列舉了目前一些主流方法的性能參數(shù);在此基礎(chǔ)上,對自然場景文本檢測技術(shù)的未來發(fā)展方向以及該技術(shù)的一些潛在的應(yīng)用領(lǐng)域進行了分析與展望.我們有理由相信,計算機視覺與機器學(xué)習(xí)領(lǐng)域的進步,將極大地促進自然場景文本檢測問題的解決;與此同時,文本檢測技術(shù)中的關(guān)鍵性問題的突破也將啟發(fā)計算機視覺相關(guān)領(lǐng)域的發(fā)展.

      猜你喜歡
      文獻文本區(qū)域
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      在808DA上文本顯示的改善
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      關(guān)于四色猜想
      分區(qū)域
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      基于嚴重區(qū)域的多PCC點暫降頻次估計
      電測與儀表(2015年5期)2015-04-09 11:30:52
      佛学| 分宜县| 通化县| 综艺| 松潘县| 蓝田县| 清徐县| 沙河市| 潜江市| 海盐县| 阳原县| 炎陵县| 兰坪| 安龙县| 文水县| 宁夏| 四平市| 奎屯市| 衡东县| 元朗区| 仁怀市| 积石山| 中方县| 东乡县| 武安市| 新绛县| 顺昌县| 昌邑市| 荔浦县| 合阳县| 合江县| 施甸县| 山阳县| 伽师县| 东乡族自治县| 靖边县| 济源市| 台安县| 忻州市| 隆昌县| 通化市|