雷方元, 戴青云, 趙慧民, 蔡 君,魏文國
(廣東技術(shù)師范學(xué)院電子與信息學(xué)院,廣東 廣州 510665)
移動(dòng)視覺搜索中無線網(wǎng)絡(luò)帶寬技術(shù)研究進(jìn)展*
雷方元, 戴青云, 趙慧民, 蔡 君,魏文國
(廣東技術(shù)師范學(xué)院電子與信息學(xué)院,廣東 廣州 510665)
移動(dòng)視覺搜索(MVS)是一種融合了移動(dòng)計(jì)算、圖像處理技術(shù)、無線通信技術(shù)的圖像檢索技術(shù),旨在為移動(dòng)用戶提供基于移動(dòng)互聯(lián)網(wǎng)的圖像搜索服務(wù)。無線網(wǎng)絡(luò)帶寬是影響MVS技術(shù)發(fā)展和應(yīng)用的關(guān)鍵因素。文中分析了解決網(wǎng)絡(luò)帶寬的關(guān)鍵技術(shù)低比特率編碼和網(wǎng)絡(luò)傳輸技術(shù),并對(duì)MPEG的視覺搜索緊湊型描述符進(jìn)行了詳細(xì)探討。最后討論了MVS領(lǐng)域中的無線帶寬的研究方向與挑戰(zhàn)。
移動(dòng)視覺搜索;有限的無線傳輸帶寬;低比特率編碼;視覺搜索緊湊型描述符
隨著移動(dòng)智能終端的大量普及和寬帶無線接入技術(shù)飛速發(fā)展,移動(dòng)互聯(lián)網(wǎng)應(yīng)運(yùn)而生并迅猛發(fā)展。截至2014年6月30日[1],中國網(wǎng)民數(shù)量多達(dá)6.32億,其中,手機(jī)網(wǎng)民數(shù)量為5.27億,占網(wǎng)民總數(shù)的83.4%,這些用戶中占90.1%使用移動(dòng)終端來訪問社交網(wǎng)站。據(jù)思科公司預(yù)測(cè)分析[2],未來5年中,全球移動(dòng)網(wǎng)絡(luò)用戶將增加10億人,從2014年的43億人增加到52億人,移動(dòng)設(shè)備將超過100億部。移動(dòng)互聯(lián)網(wǎng)提供了最具個(gè)性化、全天候、全方位的服務(wù);而智能移動(dòng)終端也逐步代替PC機(jī)成為人們接入移動(dòng)互聯(lián)網(wǎng)的主要入口。
通過智能終端拍攝圖片等生活影像記錄,并通過微信、微博、Facebook等社交平臺(tái)向他人分享逐步成為人們生活習(xí)慣的一部分。在2010年圖像共享網(wǎng)站Flickr上的圖像就突破了50億張,并統(tǒng)計(jì)出過去3年Flickr每年以10億的數(shù)量增長(zhǎng)。Twitter上分享的圖像數(shù)量在2011年增長(zhǎng)了421%;到2009年4月,F(xiàn)acebook就已經(jīng)存儲(chǔ)了150億張圖像,截至2010年1月,其圖像的數(shù)量就突破了250億張。
基于移動(dòng)互聯(lián)環(huán)境下的圖像檢索技術(shù)(Mobile Image Retrieval或者M(jìn)obile Visual Search, MVS),是隨著移動(dòng)互聯(lián)網(wǎng)和移動(dòng)智能終端(主要為手機(jī)、平板電腦等)普及而快速發(fā)展的圖像檢索技術(shù),涉及到模式識(shí)別、人工智能、移動(dòng)計(jì)算、語義計(jì)算、移動(dòng)互聯(lián)網(wǎng)等領(lǐng)域,是一種全新體驗(yàn)式的應(yīng)用技術(shù)。MVS是指智能移動(dòng)終端獲取現(xiàn)實(shí)世界的圖像,識(shí)別圖像中的目標(biāo)對(duì)象,并從本地?cái)?shù)據(jù)庫或者在線數(shù)據(jù)庫中檢索這些目標(biāo)對(duì)象的相關(guān)信息及元數(shù)據(jù)。智能移動(dòng)終端設(shè)備的攝像頭是獲取外界的圖像入口,同時(shí),智能移動(dòng)終端還是用戶信息處理的前端和用戶體驗(yàn)界面。
本文系統(tǒng)討論了MVS系統(tǒng)的無線網(wǎng)絡(luò)帶寬所帶來的問題及其解決方法,并總結(jié)了面臨的問題及其解決思路。
典型的MVS系統(tǒng)在邏輯架構(gòu)上可以分為服務(wù)器側(cè)和智能移動(dòng)終端側(cè)兩部分。在智能移動(dòng)終端側(cè)獲取圖像,并確定視覺信息查詢對(duì)象和查詢結(jié)果顯示,在服務(wù)器側(cè)實(shí)現(xiàn)圖像特征描述符匹配;圖像特征描述符提取可以在服務(wù)器側(cè)上實(shí)現(xiàn)也可以在智能移動(dòng)終端上實(shí)現(xiàn),這兩種實(shí)現(xiàn)方法的MVS系統(tǒng)架構(gòu)分別如圖1(a)和1(b)所示。
圖1 MVS系統(tǒng)架構(gòu)Fig 1 MVS system architecture
MVS系統(tǒng)是典型的資源受限型系統(tǒng),主要體現(xiàn)在智能移動(dòng)終端的有限的計(jì)算能力[3]、有限的存儲(chǔ)能力、有限的電池續(xù)航能力、有限的顯示能力以及無線網(wǎng)絡(luò)的有限的無線網(wǎng)絡(luò)帶寬這五個(gè)方面。其中無線網(wǎng)絡(luò)的有限帶寬是最為關(guān)鍵的因素,它同時(shí)是決定MVS系統(tǒng)架構(gòu)的關(guān)鍵因素之一。智能移動(dòng)終端通過無線網(wǎng)絡(luò)接入Internet網(wǎng)絡(luò)中,有限的網(wǎng)絡(luò)帶寬限制了移動(dòng)智能終端與服務(wù)器平臺(tái)之間的信息交互。有限的網(wǎng)絡(luò)帶寬導(dǎo)致信息的延遲,這就降低了用戶使用MVS系統(tǒng)的實(shí)時(shí)性體驗(yàn)感,特別是在智能移動(dòng)終端需要與服務(wù)器大量交互數(shù)據(jù)的系統(tǒng)中。隨著無線通信網(wǎng)絡(luò)技術(shù)2G、3G和4G的發(fā)展,在一定程度上緩解了MVS系統(tǒng)無線網(wǎng)絡(luò)帶寬的壓力。隨著智能移動(dòng)終端的攝像頭的分辨率越來越高,拍攝高清新的圖像質(zhì)量,也增加了無線帶寬的壓力。
在無線環(huán)境中,無線網(wǎng)絡(luò)傳輸是MVS的瓶頸[4-5], MSV的查詢響應(yīng)的延遲依賴與網(wǎng)絡(luò)帶寬。在3G無線網(wǎng)絡(luò)中傳輸一張典型的JPEG圖片(30~40 kB)從智能手機(jī)終端到服務(wù)器將耗時(shí)8~10 s[6]。移動(dòng)圖像檢索可以簡(jiǎn)化為移動(dòng)智能終端獲取圖像,在服務(wù)器端基于語義空間進(jìn)行圖像的分類。移動(dòng)智能終端發(fā)送的信息可以是圖像原始數(shù)據(jù),也可以是提取之后的特征,緊湊特征簽名,或者縮略圖等,這些信息在服務(wù)器端進(jìn)行識(shí)別處理。由于移動(dòng)智能終端和服務(wù)器之間的無線帶寬的限制,數(shù)據(jù)傳輸要求最小化的目的是為了提高響應(yīng)速度,這是移動(dòng)視覺圖像搜索中最為主要的挑戰(zhàn),這也是MVS系統(tǒng)中研究的熱點(diǎn)問題。
由于MVS的無線網(wǎng)絡(luò)帶寬限制,使得無法簡(jiǎn)單地將CBIR基于PC機(jī)和服務(wù)器這種檢索模式簡(jiǎn)單地復(fù)制到移動(dòng)終端上并能夠有效地使用起來。因此,許多研究者開展了大量針對(duì)有限的無線網(wǎng)絡(luò)帶寬限制的工作,主要集中在低比特率特征編碼和圖像特征的無線傳輸策略這兩個(gè)方面。
視覺對(duì)象的特征提取可以分為局部特征和全局特征提取兩大類,基于局部特征提取的方法具有較強(qiáng)的魯棒性、良好的區(qū)分性以及局部的幾何不變性?;谌值奶卣魈崛〉膬?yōu)點(diǎn)是計(jì)算負(fù)責(zé)度低,但是對(duì)圖像變換和遮擋的魯棒性不高。因此,在目前的MVS系統(tǒng)中的特征表示主要是基于局部特征提取。
2.1 低比特率傳輸編碼
設(shè)計(jì)低比特速率描述符的方法分為兩類,一類是通過維數(shù)降維或者h(yuǎn)ash編碼來直接壓縮原始描述符[7]。許多研究者集中于如何將128維的SIFT描述符減少到較低維空間,如LSH(Locality Sensitive Hashing) SIFT, SSC(Similarity Sensitive Coding) SIFT和PCA(Principal Component Analysis) SIFT等[7-11]。但是,矢量量化和降維為基礎(chǔ)的方案需要大型碼本或者投影矩陣[12-13],這對(duì)內(nèi)存受限的智能移動(dòng)終端不同適合。Perronnin等[8]提出的CFV( Compressed Fisher Vector)將每一維FV基于符號(hào)函數(shù)量化為單個(gè)比特,其性能在低比特時(shí)較LSH好。Chen等[14]提出的REVV(Residual Enhanced Visual Vector)算法中,采用LDA來降低VLAD的維數(shù),然后符號(hào)二進(jìn)制化來產(chǎn)生緊湊編碼。另一類是基于壓縮的思想來直接設(shè)計(jì)低比特描述符[8,12-15],這些方案如SURF, GLOH和CHoG等[16-18]。采用低比特描述符是為了減少圖像特征的比特率,同時(shí)節(jié)省傳輸帶寬資源。
在BOW 框架上進(jìn)行的各種壓縮算法和編碼算法目的是為了減少內(nèi)存占用[19-22],同時(shí),減少網(wǎng)絡(luò)傳輸帶寬。Hartl等[23]提出將64個(gè)維的SURF描述符減少為32維的描述符,這種做法可以將視覺字典壓縮一半,但隨之而來的是檢索精度的降低。一階VLAD 和二階的Fisher Vector可以在128單詞的小型詞袋上提高精度,同時(shí)降低了傳輸帶寬的需求[24-25]。
Lan 等[26]關(guān)注于減少描述符的數(shù)量來解決延遲的問題,提出的WMDD(Weighted Matching of Dominant Descriptor,主要描述符加權(quán)匹配)方案集中于減少描述符的數(shù)量。Lin等提出了吸引子傳播AP(Affinity Propagation)為基礎(chǔ)的算法來確定主要的描述符[27]。其次,在特征的權(quán)重匹配時(shí)考慮采用不同的主要描述符。與CHoG相比較,WMDD能夠減少40%的數(shù)據(jù)傳輸量,同時(shí),檢索的準(zhǔn)確性平均提高5%。
Elhoseiny 等[28]對(duì)JPEG壓縮后提取的描述符對(duì)檢索準(zhǔn)確率的研究表明,JPEG的壓縮質(zhì)量降低了70%時(shí),對(duì)檢索準(zhǔn)確率有輕微的影響,但是這是提取的特征描述符所需的傳輸帶寬僅為原始圖像的30%。
文獻(xiàn)[29]研究圖像采用JPEG壓縮為不同等級(jí)的質(zhì)量時(shí),在圖像數(shù)據(jù)庫VLBenchmarks上對(duì)60種不同的檢測(cè)算子及其組合的圖像檢索性能表現(xiàn)[30]。結(jié)果表明Hessian-Affine檢測(cè)子對(duì)JPEG的壓縮編碼具有最好的魯棒性性能,也就是說采用Hessian-Affine可以傳輸?shù)捅忍芈实腏PEG圖片[31]。此外,對(duì)采用不同塊濾波器的JPEG編碼圖像之后的不同檢測(cè)算子-描述符的檢索增益進(jìn)行了比較。結(jié)果表明,MSER, MFD and WαSH檢測(cè)子與其他任意描述符的組合在低比特率上表現(xiàn)較好,MROGH描述符與其他的檢測(cè)算子的組合能夠提高檢索性能[32-39]。
Lin等[40]提出的速率自適應(yīng)的緊湊Fisher編碼RCFC(Rate-adaptive Compact Fisher Codes)產(chǎn)生一個(gè)可擴(kuò)展比特速率的圖像簽名[41]。RCFC支持基于Hamming距離的描述符快速匹配,同時(shí)內(nèi)存占用低。RCFC將固定長(zhǎng)度的FV ( Fisher vector)壓縮為變長(zhǎng)度的二進(jìn)制編碼[20]。RCFC編碼能夠根據(jù)無線網(wǎng)絡(luò)環(huán)境狀況而采用不同編碼速率進(jìn)行傳輸。
2.1.1 SIFT編碼 SIFT 是一種特性穩(wěn)定的檢測(cè)局部特征的算法,是許多局部特征檢測(cè)算法的基礎(chǔ)。該算法通過計(jì)算圖像的特征點(diǎn)及其尺度性和方向性來得到特征點(diǎn)的描述符矢量;在圖像進(jìn)行相似性比較時(shí),是計(jì)算通過計(jì)算圖像描述符的相似性關(guān)系來獲得圖像特征點(diǎn)之間的。
SIFI算法的步驟如下:① 構(gòu)建尺度空間:通過金字塔分解來構(gòu)造高斯差分空間圖像;② 檢測(cè)DOG尺度空間極值點(diǎn):采用LoG來近似DOG,從而降低計(jì)算復(fù)雜度問題。③ 消除冗余的特征點(diǎn)。采用泰勒展開找到了亞像素級(jí)的特征點(diǎn)、消除對(duì)比度低的特征點(diǎn)、消除邊界上的特征點(diǎn)這三個(gè)方面措施來達(dá)到增強(qiáng)檢測(cè)邊緣點(diǎn)的穩(wěn)定性、抗噪聲能力。④ 給特征點(diǎn)賦值一個(gè)128維的方向參數(shù)。利用關(guān)鍵點(diǎn)鄰域像素的梯度方向分布特性為每個(gè)關(guān)鍵點(diǎn)指定方向參數(shù),使算子具備旋轉(zhuǎn)不變性。⑤ 關(guān)鍵點(diǎn)描述子的生成。通過以關(guān)鍵點(diǎn)為中心取8×8的窗口,坐標(biāo)軸旋轉(zhuǎn)為關(guān)鍵點(diǎn)的方向,以確保旋轉(zhuǎn)不變性。旋轉(zhuǎn)主方向、生成128維描述子和歸一化處理。
2.1.2 MPEG CDVS編碼 移動(dòng)視覺搜索是智能移動(dòng)終端最有前景的發(fā)展方向之一,MPEG組織于2011年7月開始提議制定移動(dòng)視覺搜索的緊湊描述符CDVS(Compact Descriptors for Viusal Search),并于2014年4月確定了CDVS的draft 版本。
CDVS是MPEG-7標(biāo)準(zhǔn)的第13部分,目標(biāo)是實(shí)現(xiàn)高效和互操作的視覺搜索應(yīng)用及圖像視覺內(nèi)容匹配的描述工具??梢暬瘍?nèi)容匹配包括視圖中的對(duì)象、地標(biāo)和印刷文件,同時(shí)在內(nèi)容匹配時(shí),對(duì)目標(biāo)對(duì)象的部分遮擋、改變視點(diǎn)、攝像機(jī)參數(shù)以及照明條件的改變具有魯棒性。
CDVS描述符處理流程如下圖2所示[37],其中計(jì)算不同尺度的壓縮特征描述符長(zhǎng)度是可選步驟,其余的圖像預(yù)處理、興趣點(diǎn)檢測(cè)、局部特征選取、局部特征描述、局部特征聚類、局部特征壓縮、局部特征位置壓縮、局部特征編碼等八個(gè)必須步驟。
步驟一為圖像預(yù)處理。在圖像預(yù)處理中,要求圖像是255亮度等級(jí)的光柵圖像。如果圖像分辨率大于640像素,則通過空間重采樣壓縮到640像素,如果不大于640像素則不需要處理。
步驟二為興趣點(diǎn)檢測(cè)。興趣點(diǎn)的檢測(cè)采用ALP (A Low-degree Polynomial)檢測(cè)算子。ALP采用多項(xiàng)式的均值來近似LoG的結(jié)果。興趣點(diǎn)的檢測(cè)流程如圖3所示,主要的處理過程為先通過2維高斯核來構(gòu)造4個(gè)尺度空間,并計(jì)算處理圖像的各點(diǎn)在尺度空間的極大值。進(jìn)一步將極大值點(diǎn)的坐標(biāo)精細(xì)化到子像素級(jí)別;并將極大值點(diǎn)的坐標(biāo)變換到轉(zhuǎn)變后的圖像的尺度上,也就是預(yù)處理后的圖像尺度上;消除冗余的興趣點(diǎn);最后是為了保證后續(xù)的旋轉(zhuǎn)不變形,每一個(gè)興趣像素點(diǎn)在其半徑為3.96×σ*(x,y)的圖像塊中采用梯度分布方向來確定興趣點(diǎn)的主方向。興趣點(diǎn)可以通過四個(gè)參數(shù):位置坐標(biāo)(x,y)、對(duì)應(yīng)的尺度σ, 對(duì)應(yīng)的方向θ來確定。
圖2 CDVS編碼流程圖Fig.2 The coding flow chart of CDVS
圖3 CDVS的興趣點(diǎn)檢測(cè)流程圖Fig.3 The flow chart of interest point detect
步驟三為局部特征選擇,也就是選擇在步驟二中不同計(jì)算所得的不同尺度的中局部特征描述數(shù)量多的作為局部特征。
步驟四為局部特征的描述,在興趣點(diǎn)(x,y)的基礎(chǔ)上,將坐標(biāo)方向旋轉(zhuǎn)到興趣點(diǎn)的主方向,將局部區(qū)域劃分為4×4的空間細(xì)分小塊,稱為一個(gè)單元(cell)。對(duì)應(yīng)的每一個(gè)單元確定一個(gè)8個(gè)方向柱的直方圖梯度,稱為單元直方圖。局部描述符是基于單元直方圖進(jìn)行構(gòu)造的,它維數(shù)為4×4×8=128。
步驟五為局部特征描述符聚類。對(duì)TopK個(gè)局部特征描述符進(jìn)行聚類,從而形成一個(gè)全局的描述符。這里的K的取值與局部特征描述符的數(shù)量M多少有關(guān)系,如果局部描述符M不大于250,則K等于M;否則,K為250。128維局部描述符采用PCA降維為32維矢量。聚類得到的全局描述符包含512B、1 024B、2 048B、4 096B、8 192B和16 284B六種長(zhǎng)度。
步驟六為局部特征描述符壓縮。通過線性組合變換將全局描述符壓縮為對(duì)應(yīng)的20B、20B、40B、64B、80B和128B六種長(zhǎng)度。
步驟七為局部特征位置壓縮。在前面的步驟中未涉及局部特征的空間信息。在步驟一預(yù)處理之后的圖像上,將圖像按照3×3大小進(jìn)行非重疊的劃分為矩陣LB,在這個(gè)分塊的基礎(chǔ)上可以構(gòu)成直方圖地圖HM(HistogramMap)二值矩陣,HM的維數(shù)和LB一樣。矩陣HM的元素取值為0和1兩種,如果在小塊內(nèi)有興趣點(diǎn),取值為1,否則為0。直方圖計(jì)數(shù)矢量HC(HistogramCountVector)用于統(tǒng)計(jì)HM中非零值,統(tǒng)計(jì)過程采用回字形掃描。獲取到HC和HM采用靜態(tài)算術(shù)編碼方式來編碼。
步驟八為壓縮的局部特征和相關(guān)位的編碼順序。對(duì)壓縮的局部特征描述符編碼是從直方圖地圖矩陣開始編碼,按照自頂而下逐行掃描的方式進(jìn)行編碼。對(duì)HM的非空塊進(jìn)行編碼,而在非空塊中包含超過一個(gè)以上的描述符,則按照降序的方式進(jìn)行編碼。
步驟九為計(jì)算不同圖像描述符的壓縮局部描述符的數(shù)量。這一步驟是可選步驟。它主要用于給定一個(gè)指定的圖像描述符的長(zhǎng)度時(shí),確定可在一個(gè)圖像描述符被添加壓縮局部特征描述符的數(shù)目。
2.2 傳輸策略
傳輸策略是研究圖像或者圖像特征在無線環(huán)境中傳遞的策略,傳遞的策略的好壞能夠直接影響用戶體驗(yàn)。
Zhang等等漸進(jìn)傳輸策略是基于BoHB(BagofHashBits)和ITQ(IterativeQuantization)的特征提取的基礎(chǔ)之上[35,42-44]。在移動(dòng)終端查詢圖像采用一組hash比特表示,Hash比特的IDF權(quán)重被編碼到移動(dòng)客戶端的稀疏矢量中,這就是傳輸hash比特的順序。具有低IDF權(quán)重的Hash比特更有區(qū)分能力,它們?cè)趥鬏斨芯哂休^高的優(yōu)先級(jí)。同樣,在服務(wù)器端的所有圖像按照其hash比特來被索引。在傳輸開始之后,當(dāng)接收到前面幾個(gè)Hash比特時(shí)就可以開始進(jìn)行圖像數(shù)據(jù)的查詢,隨著接收的數(shù)據(jù)越多查詢的精確程度越好,這樣就可以節(jié)省反饋響應(yīng)時(shí)間。
Chandrasekhar等[36]的漸進(jìn)傳輸策略是首先提取CHoG特征,然后采用Hessian響應(yīng)來排序描述符。具有較高級(jí)Hessian響應(yīng)的描述符具有較高的優(yōu)先級(jí),在傳輸時(shí)具有較高的優(yōu)先級(jí)。在服務(wù)器一側(cè)收到最初的幾個(gè)描述符之后就可以開始特征匹配,但是這種方法丟失了圖像中幾何位置信息。
Xia等[45]提出的幾何位置信息保留的漸進(jìn)傳輸方式是一種能夠有效減少延遲的方法,在傳輸時(shí)按照特征的重要性進(jìn)行排序傳輸,越重要的描述符具有越高的優(yōu)先級(jí)。首先在移動(dòng)客戶端將圖像分為若干個(gè)固定大小的塊,利用提取局部描述符如SURF和CHoG來提取每一個(gè)塊的特征,并將每個(gè)塊特征作為一個(gè)傳輸單元來進(jìn)行信息傳遞。同時(shí),這種方法存在的一個(gè)問題是有可能把一些相鄰的相關(guān)區(qū)域劃分到不同的圖像塊中。為了解決相關(guān)特征分散到不同圖像塊的問題,Du等[42]提出采用SIFT來檢測(cè)圖像顯著特征模型(MVSS)的基礎(chǔ)上,通過僅僅傳輸顯著區(qū)域的SIFT描述符的策略來降低傳輸延遲。
研究表明,人和計(jì)算機(jī)可以識(shí)別非常小解析度中的圖像[46],這些圖像的尺寸通常都遠(yuǎn)遠(yuǎn)小于原始圖像的尺寸。Dai等[34]在IMShare系統(tǒng)中通過在無線網(wǎng)絡(luò)中傳遞縮略圖的形式來實(shí)現(xiàn)手機(jī)圖片共享。移動(dòng)智能終端拍攝照片形成縮略圖,同時(shí)將提取到的圖像局部特征傳送到服務(wù)器,在服務(wù)器側(cè)基于縮略圖和傳送過來的從縮略圖提取的圖像局部特征來重構(gòu)圖像。Su等[47]利用縮略圖所攜帶的多種語義空間的融合特征,提出采用單個(gè)局部特征和縮略圖的方式來進(jìn)行傳輸。在對(duì)ImageNet的兩個(gè)樣本超過10 000幅圖像,種類分別為19類和137類的子類對(duì)縮略圖的有效性評(píng)估得出,平均的傳輸比特率下降95.4%,而檢索的性能下降僅為10%。
Qi等[48]提出將BoW的矢量量化從服務(wù)器端遷移到智能移動(dòng)終端,把大的單詞分解為幾個(gè)小的單詞的方式可以滿足在智能移動(dòng)終端的存儲(chǔ)要求。這樣的話,不管使用何種描述符,從客戶端僅僅傳輸BoW的ID到服務(wù)器,這樣就可以是傳輸達(dá)到最小化。實(shí)驗(yàn)的結(jié)果表明可以減少95%的傳輸資源消耗。
移動(dòng)智能終端和移動(dòng)互聯(lián)網(wǎng)的崛起架起了移動(dòng)信息搜索的橋梁,實(shí)現(xiàn)對(duì)在任何時(shí)間任何地方了解任何事情。移動(dòng)視覺搜索提供便捷訪問的方式將改變整個(gè)人們的知識(shí)組織。移動(dòng)視覺搜索還處于研究的初期階段,但已經(jīng)顯現(xiàn)出巨大的應(yīng)用前景,同時(shí)移動(dòng)視覺搜索還面臨著挑戰(zhàn)與機(jī)遇[49]。
3.1 低時(shí)延的MVS系統(tǒng)的構(gòu)建
在MVS系統(tǒng)中,戶的實(shí)時(shí)性體驗(yàn)是一個(gè)非常關(guān)鍵因素。MVS系統(tǒng)的時(shí)延包括移動(dòng)智能終端硬件資源受限引起時(shí)延,無線傳輸時(shí)延以及算法復(fù)雜引起的時(shí)延。
隨著以4G為代表的無線網(wǎng)絡(luò)技術(shù)的發(fā)展,無線網(wǎng)絡(luò)能夠提供的帶寬在逐漸的增加,影響MVS的無線網(wǎng)絡(luò)帶寬未來將逐漸不再成為影響MVS的核心因素,但目前任然是影響MVS發(fā)展及應(yīng)用的關(guān)鍵因素。移動(dòng)智能終端的發(fā)展移動(dòng)智能終端的CPU處理能力增強(qiáng)(8核)和采用大內(nèi)存為離線系統(tǒng)的提供了可能。因此,在未來的MVS系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)中需要考慮到影響硬件資源的因素?;诟鞣N基礎(chǔ)模型和云計(jì)算相結(jié)合的MVS架構(gòu)將是發(fā)展的方向。
視覺對(duì)象的特征提取和特征表示是影響MVS實(shí)時(shí)性的非常重要的因素。傳統(tǒng)的基于局部特征檢測(cè)-特征描述-BoW-幾何校驗(yàn)為主的算法過程,特別是幾何校驗(yàn)的復(fù)雜性,影響了在移動(dòng)智能終端上實(shí)現(xiàn)該功能。適合于移動(dòng)智能終端的全局特征提取,可以避免在局部特征提取中的幾何校正問題。在視覺對(duì)象提取中的低比特率的算法研究,特征降維、描述算子的壓縮依然是一個(gè)研究熱點(diǎn)。
3.2 移動(dòng)視覺搜索行業(yè)應(yīng)用研究
對(duì)圖像的語義理解隨視覺特征關(guān)注的重點(diǎn)不同表現(xiàn)出不同的形式,因此,開展基于MVS的應(yīng)用研究將有力地推動(dòng)MVS技術(shù)的發(fā)展。以MVS為基礎(chǔ)的應(yīng)用,即拍即搜的可視化電子商務(wù)模式將極大的改變現(xiàn)有的商業(yè)模式,同時(shí)也進(jìn)一步能夠提供產(chǎn)品預(yù)警功能。基于MVS的智能旅游輔助系統(tǒng),如OCR相結(jié)合的文字識(shí)別與翻譯系統(tǒng)可以用于對(duì)外文廣告翻譯、對(duì)交通標(biāo)志的識(shí)別與提示、少數(shù)民族文字的識(shí)別與翻譯等?;贛VS的手勢(shì)識(shí)別系統(tǒng)將進(jìn)一步解放雙手,增強(qiáng)人機(jī)交流。
MVS正改變著人類的視覺信息搜索、利用與分享交換方式。MVS以用戶為中心提供移動(dòng)信息服務(wù)的同時(shí),用戶之間的社會(huì)關(guān)系可以來優(yōu)化視覺信息交換、共享和轉(zhuǎn)發(fā),以提高系統(tǒng)的服務(wù)。此外,通過MVS技術(shù),可以即拍即搜的方式將視覺信息快速通過移動(dòng)互聯(lián)網(wǎng)接入到云計(jì)算為代表的網(wǎng)絡(luò)架構(gòu)中,形成統(tǒng)一的整體,這也是MVS的最大優(yōu)勢(shì)。本文通過介紹MVS的基本概念、架構(gòu)與應(yīng)用,討論MVS系統(tǒng)的架構(gòu)、關(guān)鍵技術(shù)和未來研究方向,力圖展示MVS的基本技術(shù)框架。相信通過對(duì)MVS技術(shù)的應(yīng)用研究可促進(jìn)MVS系統(tǒng)的性能優(yōu)化,使人類的社會(huì)活動(dòng)更加方便、快捷、高效。
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心. 2013-2014 年中國移動(dòng)互聯(lián)網(wǎng)調(diào)查研究報(bào)告[EB/OL]. (2014-08-08)[2015-04-08].http:∥www.cnnic.net.cn/hlwxzbg/hlwxzbg/201408/P02014082636626517897 6.pdf.
[2]INDEXCVN.GlobalMobileDataTrafficForecastUpdate2014-2019.Whitepaperc11-520862[EB/OL]. (2015-01-01)[2015-04-01].http:∥www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-indexvni/white_paper_c11-520862.html.
[3]CHEND,TSAIS,CHANDRASEKHARV,etal.Residualenhancedvisualvectorsforon-deviceimagematching[C]∥Signals,SystemsandComputers(ASILOMAR), 2011ConferenceRecordoftheFortyFifthAsilomarConference.IEEE, 2011: 850-854.
[4]TSAISS,CHEND,SINGHJP,etal.Rate-efficient,real-timeCDcoverrecognitiononacamera-phone[C]∥Proceedingsofthe16thACMInternationalConference.Multimedia,ACM, 2008: 1023-1024.
[5]TSAIS,CHEND,CHANDRASEKHARV,etal.Mobileproductrecognition[C]∥Proceedingsofthe18thACMInternationalConference.Multimedia(MM), 2010: 1587-1590.
[6]GIRODB,CHANDRASEKHARV,CHENDM,etal.Mobilevisualsearch[J].SignalProcessingMagazine,IEEE, 2011, 28(4): 61-76.
[7]KEY,SUKTHANKARR.PCA-SIFT:Amoredistinctiverepresentationforlocalimagedescriptors[C]∥ProcComputerVisionandPatternRecognition(CVPR), 2004: 506-513.
[8]PERRONNINF,LIUY,SNCHEZJ,etal.Large-scaleimageretrievalwithcompressedfishervectors[C]∥ComputerVisionandPatternRecognition(CVPR), 2010IEEEConference.IEEE, 2010: 3384-3391.
[9] 左軍,周靈,孫亞民. 基于RBF神經(jīng)網(wǎng)絡(luò)PCA變換的識(shí)別技術(shù)[J]. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014,53(6):135-139.
[10]DATARM,IMMORLICAN,INDYKP,etal.Locality-sensitivehashingschemebasedonp-stabledistributions[C]∥ProceedingsoftheTwentiethAnnualSymposium.ComputationalGeometry,ACM, 2004: 253-262.
[11]SHAKHNAROVICHG.Learningtask-specificsimilarity[D].MassachusettsInstituteofTechnology, 2005.
[12]JéGOUH,DOUZEM,SCHMIDC,etal.Aggregatinglocaldescriptorsintoacompactimagerepresentation[C]∥ComputerVisionandPatternRecognition(CVPR), 2010IEEEConference.IEEE, 2010: 3304-3311.
[13]JéGOUH,PERRONNINF,DOUZEM,etal.Aggregatinglocalimagedescriptorsintocompactcodes[J].PatternAnalysisandMachineIntelligence,IEEETransactions, 2012, 34(9): 1704-1716.
[14]CHEND,TSAIS,CHANDRASEKHARV,etal.Residualenhancedvisualvectorasacompactsignatureformobilevisualsearch[J].SignalProcessing, 2013, 93(8): 2316-2327.
[15]CHANDRASEKHARV,TAKACSG,CHENDM,etal.Compressedhistogramofgradients:Alow-bitratedescriptor[J].InternationalJournalofComputerVision, 2012, 96(3): 384-399.
[16]BAYH,TUYTELAARST,VANGOOLL.Surf:Speededuprobustfeatures[M].ComputerVision-ECCV2006,SpringerBerlinHeidelberg, 2006: 404-417.
[17]MIKOLAJCZYKK,SCHMIDC.Aperformanceevaluationoflocaldescriptors[J].PatternAnalysisandMachineIntelligence,IEEETransactions, 2005, 27(10): 1615-1630.
[18]CHANDRASEKHARV,TAKACSG,CHEND,etal.Chog:Compressedhistogramofgradientsalowbit-ratefeaturedescriptor[C]∥ComputerVisionandPatternRecognition, 2009.CVPR2009.IEEEConference,IEEE, 2009: 2504-2511.
[19]CHENDM,GIRODB.Memory-efficientimagedatabasesformobilevisualsearch[J].MultiMedia,IEEE, 2014, 21(1): 14-23.
[20]CHUMO,PHILBINJ,ZISSERMANA.Nearduplicatelmagedetection:min-Hashandtf-idfweighting[J].BMVC, 2008, 810: 812-815.
[21]SNCHEZJ,PERRONNINF.High-dimensionalsignaturecompressionforlarge-scaleimageclassification[C]∥ComputerVisionandPatternRecognition(CVPR), 2011IEEEConference.IEEE, 2011: 1665-1672.
[22]JéGOUH,DOUZEM,SCHMIDC.Packingbag-of-features[C]∥ComputerVision, 2009IEEE12thInternationalConference.IEEE, 2009: 2357-2364.
[23]HARTLA,SCHMALSTIEGD,REITMAYRG.Client-sidemobilevisualsearch[C]∥VISAPP2014-Proceedingsofthe9thInternationalConference.ComputerVisionTheoryandApplications, 2014.
[24]ARANDJELOVICR,ZISSERMANA.AllaboutVLAD[C]∥ComputerVisionandPatternRecognition(CVPR), 2013IEEEConference.IEEE, 2013: 1578-1585.
[25]PERRONNINF,SNCHEZJ,MENSINKT.Improvingthefisherkernelforlarge-scaleimageclassification[M]∥ComputerVision-ECCV2010.Berlin,Heidelberg:Springer, 2010: 143-156.
[26]LANG,QIH,LIK,etal.Aframeworkofmobilevisualsearchbasedontheweightedmatchingofdominantdescriptor[C]∥ProceedingsoftheACMInternationalConference.Multimedia,ACM, 2014: 1181-1184.
[27]FREYBJ,DUECKD.Clusteringbypassingmessagesbetweendatapoints[J].Science, 2007, 315(5814): 972-976.
[28]ELHOSEINYM,SONGB,SUDOLJ,etal.Low-bitratebenefitsofJPEGcompressiononsiftrecognition[C]∥ImageProcessing(ICIP), 2013 20thIEEEInternationalConference.IEEE, 2013: 3657-3661.
[29 ]CHAOJ,AL-NUAIMIA,SCHROTHG,etal.Performancecomparisonofvariousfeaturedetector-descriptorcombinationsforcontent-basedimageretrievalwithJPEG-encodedqueryimages[C]∥MultimediaSignalProcessing(MMSP), 2013IEEE15thInternationalWorkshop.IEEE, 2013: 029-034.
[30]LENCK,GULSHANV,VEDALDIA.VLBenchmarks[Z].Available:http:∥www.vlfeat.org/benchmarks/2012.
[31]MIKOLAJCZYKK,SCHMIDC.Scale&affineinvariantinterestpointdetectors[J].InternationalJournalofComputerVision, 2004, 60(1): 63-86.
[32]MATASJ,CHUMO,URBANM,etal.Robustwide-baselinestereofrommaximallystableextremalregions[J].ImageandVisionComputing, 2004, 22(10): 761-767.
[33]AVRITHISY,RAPANTZIKOSK.Themedialfeaturedetector:Stableregionsfromimageboundaries[C]∥ComputerVision(ICCV), 2011IEEEInternationalConference.IEEE, 2011: 1724-1731.
[34]DAIL,YUEH,SUNX,etal.IMShare:Instantlysharingyourmobilelandmarkimagesbysearch-basedreconstruction[C]∥Proceedingsofthe20thACMInternationalConference.Multimedia,ACM, 2012: 579-588.
[35]GONGY,LAZEBNIKS.Iterativequantization:Aprocrusteanapproachtolearningbinarycodes[C]∥ComputerVisionandPatternRecognition(CVPR), 2011IEEEConference.IEEE, 2011: 817-824.
[36]CHANDRASEKHARVR,TSAISS,TAKACSG,etal.LowlatencyimageretrievalwithprogressivetransmissionofCHoGdescriptors[C]∥Proceedingsofthe2010ACMMultimediaWorkshoponMobileCloudMediaComputing.ACM, 2010: 41-46.
[37 ]ISO/IECDIS15938-13.Informationtechnology—Multimediacontentdescriptioninterface—Part13:Compactdescriptorsforvisualsearch[S].MPEG, 2014.
[38]VARYTIMIDISC,RAPANTZIKOSK,AVRITHISY.WαSH:weightedα-shapesforlocalfeaturedetection[M]∥ComputerVision-ECCV2012.Berlin,Heidelberg:Springer, 2012: 788-801.
[39]FANB,WUF,HUZ.Rotationallyinvariantdescriptorsusingintensityorderpooling[J].PatternAnalysisandMachineIntelligence,IEEETransactions, 2012, 34(10): 2031-2045.
[40]LINJ,DUANLY,HUANGY,etal.Rate-adaptivecompactfishercodesformobilevisualsearch[J].SignalProcessingLetters,IEEE, 2014, 21(2): 195-198.
[41]ISO/IECJTC1/SC29/WG11/M26726,PekingUnivResponsetocoreexperiments1:Ascalablelow-memoryglobaldescriptor[S]. 2012.
[42]DUY,LIZ,QUW,etal.Mvss:Mobilevisualsearchbasedonsaliency[C]∥HighPerformanceComputingandCommunications& 2013IEEEInternationalConferenceonEmbeddedandUbiquitousComputing(HPCC_EUC), 2013IEEE10thInternationalConference.IEEE, 2013: 922-928.
[43]HEJ,LINTH,FENGJ,etal.Mobileproductsearchwithbagofhashbits[C]∥Proceedingsofthe19thACMInternationalConference.Multimedia,ACM, 2011: 839-840.
[44]ZHANGQ,LIZ,DUY,etal.ANovelProgressiveTransmissioninMobileVisualSearch[C]∥Dependable,AutonomicandSecureComputing(DASC), 2014IEEE12thInternationalConference.IEEE, 2014: 259-264.
[45]XIAJ,GAOK,ZHANGD,etal.Geometriccontext-preservingprogressivetransmissioninmobilevisualsearch[C]∥Proceedingsofthe20thACMInternationalConference.Multimedia,ACM, 2012: 953-956.
[46]TORRALBAA,FERGUSR,WEISSY.Smallcodesandlargeimagedatabasesforrecognition[C]∥ComputerVisionandPatternRecognition, 2008.CVPR2008.IEEEConference.IEEE, 2008: 1-8.
[47]SUYC,CHIUTH,CHENYY,etal.Enablinglowbitratemobilevisualrecognition:aperformanceversusbandwidthevaluation[C]∥Proceedingsofthe21stACMInternationalConference.Multimedia,ACM, 2013: 73-82.
[48]QIH,STOJMENOVICM,LIK,etal.Alowtransmissionoverheadframeworkofmobilevisualsearchbasedonvocabularydecomposition[J].Multimedia,IEEETransactions. 2014, 16(7): 1963-1972.
[49]HEJ,FENGJ,LIUX,etal.Mobileproductsearchwithbagofhashbitsandboundaryreranking[C]∥ComputerVisionandPatternRecognition(CVPR), 2012: 3005-3012.
Limited bandwidth in wireless network of mobile visual search: a survey
LEIFangyuan,DAIQINGyun,ZHAOHuimin,CAIJun,WEIWenguo
(School of Electronic and Information Engineering, Guangdong Polytechnic Normal University,Guangzhou 510665, China)
Combining techniques of mobile computing, image retrieval, wireless communications and Internet, Mobile Visual Search (MVS) aims to provide a mobile image retrieval services for mobile terminal user. Limited bandwidth in wireless network is the key factor to affect the MVS technical development and application. The key technical of limited bandwidth in wireless network including low bit rate feature code and transmission strategy was analyzed, specially for the Compact Descriptor for Visual Search of MPEG-7. Moreover, future research direction and challenges of MVS are presented.
mobile visual search (MVS); limited bandwidth in wireless network; low bit rate code; compact descriptors for visual search (CDVS)
10.13471/j.cnki.acta.snus.2016.01.012
2015-06-11
國家自然科學(xué)基金資助項(xiàng)目(61272381); 廣東省自然科學(xué)基金資助項(xiàng)目(2014A030310346, 2015A030313672); 廣東省教育廳省級(jí)重大資助項(xiàng)目(2014KZDXM060); 廣東省教育廳資助項(xiàng)目(GCZX-A1413);廣東省公益與能力建設(shè)專項(xiàng)資金資助項(xiàng)目(2014A010103032)
雷方元(1972年生),男;研究方向:圖像處理技術(shù)、移動(dòng)圖像檢索;E-mail:leify@126.com
TP
A
0529-6579(2016)01-0068-08