曾瑞 王英彥
摘要:隨著人類社會的不斷進步和信息技術的發(fā)展,對智能化設備和技術需求越來越高,為了讓計算機更好的理解世界,誕生了計算機視覺這門科學。目前計算機視覺已經(jīng)遍及生活各個方面,并且在日常生活、醫(yī)學應用、工業(yè)檢測等領域中發(fā)揮重要的作用。圖像紋理是人類觀察物體獲取的重要信息之一,也是最有感知意義的主要特征。在計算機視覺技術的應用中,圖像分析、物體識別等應用都和匹配密切相關。此研究從圖像的紋理特征為切入點,研究多模態(tài)圖像檢索技術,討論紋理特征抽象與圖像查詢的匹配方法,對跨媒體圖像檢索技術具有借鑒和指導意義。
關鍵詞:多模態(tài);檢索;圖像特征
0 引言
現(xiàn)階段基于圖像檢索普遍采用方式是人工對上傳到網(wǎng)絡中的數(shù)字圖像進行文字標注,根據(jù)每幅圖像的視覺特征人為的設置他們的文字描述。在檢索時,使用標注的文字作為關鍵字來檢索我們想要的數(shù)字圖像。這種依據(jù)圖像標注的文字匹配檢索的方法簡稱為“字找圖”,它的缺點為:(1)由于需要大量的人工對每幅圖像進行文字標注,數(shù)字圖像的數(shù)量是海量的,標注工作是非常耗費人力和時間;(2)由于每個人對圖像的認識不同,所以,在標注的過程中會按照自己對圖像的認識來選擇標注文字,這樣會使不同的人對圖像的標注不同,而在檢索中會產(chǎn)生很大誤差;(3)不同國家使用的標注文字不同,所以在匹配文字時也會產(chǎn)生很大的偏差;(4)有的圖像里面含有大量的內(nèi)容,不可能用幾個關鍵字就能表達清楚。為解決標注圖像檢索的缺陷問題。學者著手開展對內(nèi)容的圖像檢索技術的研究?;诙嗄B(tài)的圖像檢索的改善了此類瓶頸問題,主要從被檢圖像庫根據(jù)海量圖像特征進行檢測和匹配,獲取圖像之間的相關性特征信息。
1 基于多模態(tài)的圖像特征匹配方法
(1)直接從圖像中尋找匹配線索,而不是通過人為的文字標注,正因為這個特點,突破了傳統(tǒng)的關鍵字標注的耗費人力時間的缺點,而是直接對圖像本身進行處理和分析,使檢索更貼近圖像本身。
(2)檢索可以是人機交互的,當使用一種特征選取方式檢索的結(jié)果不能滿足人們的需求時,人們可以人工的改變特征選取方式使檢索結(jié)果向于人們需求的方向接近。這樣避免了計算機檢索圖像時的不靈活性,加入了人為的因素。因此,人和計算機結(jié)合檢索能使效率和準確率更高。
(3)基于內(nèi)容的圖像檢索是一種相似性檢索,可以將檢索結(jié)果進行相似性排序,我們可以采取逐步求精的算法,不斷減小檢索的范圍,直到定位到準確目標,這與傳統(tǒng)數(shù)據(jù)庫精確匹配有很大的不同。
由于這些方法,基于多模態(tài)內(nèi)容的圖像檢索漸漸成為人們研究的重點,此類技術可以應用在社會安全、遙感、醫(yī)學、數(shù)字圖書館、建筑、計算機輔助設計、地理信息系統(tǒng)、商標版權管理、等諸多領域。
2 基于紋理識別的多模態(tài)的圖像檢索系統(tǒng)的框架和技術
基于紋理識別的多模態(tài)圖像檢索系統(tǒng)組成部分如圖1所示。
(1)輸入模塊:分析和獲取圖像的紋理特征值,并將特征向量輸入圖像特征數(shù)據(jù)庫。
(2)描述模塊:利用查詢抽象檢索技術,實現(xiàn)將用戶需求抽象提取相關圖像特征語義,并完整描述成計算機能進行識別的特征向量。
(3)檢索模塊:與圖像數(shù)據(jù)庫的圖像紋理特征值進行相關性匹配,根據(jù)機器學習和神經(jīng)網(wǎng)絡技術,對跨語義的特征向量進行學習和篩選,獲取最符合查詢要求的圖像信息,并返回給用戶。
3 基于圖像紋理特征的檢測方法
圖像有三大底層特征,分別是顏色特征、紋理特征和形狀特征。紋理特征是顯著的視覺特征,其弱化了顏色和亮度的作用,但它吸收了表面結(jié)構(gòu)的排列與組織次序,而且表現(xiàn)出了上下文的關系,反映出了同質(zhì)再現(xiàn)的視覺特征。
紋理源于人們對物體表面觸感的概念,這種固有的內(nèi)在特征反映了物體表面的組織結(jié)構(gòu)或者上下文內(nèi)容的關系等諸多有用的信息,或者反映了圖像像素間的灰度變化情況或者顏色變化情況。組成紋理的基本元素叫作紋元或者紋理基元,是一個觸發(fā)視覺感知并且特性相對穩(wěn)定的基本單元,這些單元在一定的區(qū)域內(nèi)的不同位置會以不同的形態(tài)再現(xiàn),主要是灰度或色彩模式呈現(xiàn)不同特點,其包含多個像素,在物體表面呈現(xiàn)三種:周期性、準周期性或隨機性。
如今,神經(jīng)網(wǎng)絡、最近鄰分類器、決策樹和支持向量機等模式方法已經(jīng)廣泛的應用到了許多領域,譬如圖像分類、視頻處理、檢索等。模式類就是由一些共同屬性所決定的,模式分類就是根據(jù)對象的特征或?qū)傩赃M行分類。
按照學習方法的監(jiān)督程度,也就是根據(jù)否存在先驗知識并且是否使用到這些先驗知識,模式分類方法可以分為監(jiān)督分類和非監(jiān)督分類。
監(jiān)督分類對各對象分類的依據(jù)是通過訓練樣本,選擇合適的特征參數(shù),以此建立判別函數(shù)。監(jiān)督分類必須要有分類區(qū)域的先驗類別知識用以建立判別函數(shù),從而獲得訓練分類器,它把圖像分解為多個組成部分,求解各部分之間的空間關系。一般監(jiān)督分類在訓練階段需要手工選擇分類區(qū)域從而可以確定模型。
在沒有先驗知識情況下,非監(jiān)督分類能夠有效地分類,是因為其根據(jù)圖像像元間的相似度和從分析數(shù)據(jù)上得到的統(tǒng)計特性,它不需要獲取判別函數(shù)集而去進行場地訓練。熟知并且常用的K-means和ISODATA法就是非監(jiān)督分類方法,也是一種聚類分析方法。這種方法是將圖像視作一些特征的集合,先對這些特征進行聚類分析,得到特征單詞和特征碼,再用統(tǒng)計方法對特征單詞和特征碼進行統(tǒng)計分析,最后根據(jù)統(tǒng)計特征進行有效分類。
前面一種分類是根據(jù)監(jiān)督程度來劃分,模式分類方法還可以分為經(jīng)驗型分類方法和理論型分類方法,此時是根據(jù)有無前人分類算法的思想。經(jīng)驗型方法中比較常用的有最近鄰分類器、RBF網(wǎng)絡和神經(jīng)網(wǎng)絡等。理論型模式分類算法比較常用的有貝葉斯分類器,支持向量機,這種分類算法數(shù)量較少,遠沒有經(jīng)驗型分類方法多。貝葉斯分類器通過計算樣本概率的差異,將樣本進行分類,但是分布函數(shù)的求取較為困難;支持向量機方法SVM基于統(tǒng)計學習理論,在實際應用中取得了一定的成效。
4 結(jié)語
此研究根據(jù)圖像特征信息提出了基于多模態(tài)的圖像檢索思路,研究了基于紋理的多模態(tài)檢索和樸素貝葉斯分類的實現(xiàn)方法。設計了基于多模態(tài)內(nèi)容的圖像檢索系統(tǒng)的框架,歸納了實現(xiàn)的關鍵技術,隨著人們對信息管理要求的提高,必將有著廣泛的應用。