楊穎 李冬睿
摘要 隨著當前社會信息時代的發(fā)展,圖像檢索的相關(guān)技術(shù)也得到了逐步的完善。傳統(tǒng)的圖像檢索方法在操作過程中不僅需要耗費大量的實踐也無法充分適應(yīng)用戶的需求,因此,而通過大數(shù)據(jù)挖掘的方式來對圖像數(shù)據(jù)實時分布式存儲并進行后續(xù)的處理,不僅會進一步縮短圖像檢索的時間,也會進一步挖掘圖像與語義上的關(guān)聯(lián),促進檢索效率的提升。因此,本文將會對大數(shù)據(jù)挖掘做簡要的闡述,并分析海量圖像檢索的處理技術(shù),期望為大數(shù)據(jù)的應(yīng)用提供新的方向與思路。
【關(guān)鍵詞】大數(shù)據(jù) 圖像檢索 關(guān)鍵技術(shù)研究
自進入互聯(lián)網(wǎng)時代以來,越來越多的信息數(shù)據(jù)來源被擴充,對存儲系統(tǒng)的性能也提出了更多的要求。而如何規(guī)范這類數(shù)據(jù)并挖掘數(shù)據(jù)的可用性,采取更方便的工具來提取信息,擴大信息的存儲空間,是信息資源發(fā)展與應(yīng)用需要充分關(guān)注的內(nèi)容。尤其是在信息資源與媒體種類逐漸更新的今天,每天近十幾億的圖像信息的纏身,行業(yè)內(nèi)對于數(shù)據(jù)庫的研究也更加復雜,快速的存取與檢索已經(jīng)成為時代發(fā)展下的迫切需求。圖像通過文件的方式在操作上已經(jīng)十分便捷,因此,圖像檢索效率的提升成為關(guān)鍵。
傳統(tǒng)意義上的圖像檢索是通過文本的方式來進行,這需要對圖像文件的情況做信息描述,才能在檢索上提取到相應(yīng)信息。但不可否認,這種描述的字符或者數(shù)值存在較大的主觀性,無法全面滿足圖像內(nèi)容的多樣性,并且在海量信息充斥的背景下,傳統(tǒng)的方式也會暴露出更多的問題。比如,在基于文本的圖像檢索技術(shù)上,無法管理具備時空關(guān)系的多媒體信息,且沒有對圖像特定特征提取的公爵,并且缺乏多樣化的客觀性查詢方式。
而基于文本的檢索,是通過語義上下的聯(lián)系來進行查詢,利用語義特征來檢查具有類似特性的圖像,這項技術(shù)會與圖像本身結(jié)合起來,無論是在理論研究上還是現(xiàn)實的應(yīng)用上,都是各行各業(yè)的熱點關(guān)注對象,也是當前數(shù)字圖書館發(fā)展中的一項重大技術(shù)。
1 圖像的內(nèi)容性
圖像的內(nèi)容設(shè)置可以認為是一項精簡的層次模型,如圖1所示,對于圖像特征的表示主要包含三種方式,數(shù)值、語義、關(guān)系等表示。一般情況下,圖像檢索的方式會以第二層與第三層來表示,包括對顏色、紋理、形狀等內(nèi)容特征。首先,對于顏色特征來說,它是一種全局性的特征,也是可以描述圖像最為簡單并有效的形式。它是圖像視覺特性的最佳體現(xiàn),因此,在圖像檢索中,這種特征也會最快被采納,但是這種特性由于對圖像區(qū)域的大小、旋轉(zhuǎn)等缺乏敏感度,因此存在較強的魯棒性。關(guān)于圖像特征的索引,可以包含顏色集、顏色聚合向量、顏色直方圖、顏色相關(guān)圖等。利用平均查全率與平均查準率兩項,可以有效比較各自的性能,并且很少會受到數(shù)據(jù)庫尺寸的影響;其次,形狀特征是一個該物體被描述的一項重要特征,通常在2D的圖像中其形狀是一條封閉性的曲線以及被其所包圍的部分,因此,對于形狀的描述,主要涉及到區(qū)域特性與輪廓邊界特性;此外,紋理特征屬于統(tǒng)計型的特征,它可以有效描述圖像在空間上分布的圖像像素灰度級,這不同于圖像基于像素點的特性,它需要對區(qū)域內(nèi)的像素灰度級進行統(tǒng)計計算,從一定程度上來說,紋理是對圖像局部強度變化的重復性模式。這種特征常見的會通過統(tǒng)計法、頻譜法等來完成;而空間關(guān)系主要是指分割出的對象所處的空間位置與方向,通常這種位置信息設(shè)計到絕對空間與相對空間兩個,這其中利用絕對空間可以有效描述相對方位。綜合上述幾項特征的描述,對于圖像的顏色特征是一項較為有效的選擇。
2 大數(shù)據(jù)挖掘概述
計算機網(wǎng)絡(luò)技術(shù)快速發(fā)展的背景下,海量圖像信息檢索需求在逐步攀升,目前的圖像包含了多樣化、大容量、處理速度快且價值密度低等特征,這也是當前傳統(tǒng)檢索技術(shù)中所無法滿足的部分。根據(jù)當前學者在圖像檢索中的研究,大數(shù)據(jù)的應(yīng)用價值是其重要的環(huán)節(jié)。大數(shù)據(jù)的核心應(yīng)用便是大數(shù)據(jù)挖掘技術(shù),也是其價值體現(xiàn)的重要內(nèi)容。通過高效的技術(shù)方法對數(shù)據(jù)信息進行分析,挖掘其潛在的過濾,消除雜質(zhì)信息的干擾,提煉出利于用戶決策的關(guān)鍵信息。
針對當前大數(shù)據(jù)的應(yīng)用概況,云計算是其中一項較為主流的挖掘方式。2006年Google公司首次提出這項概念,其提供的資源聚合的技術(shù)可以有效支持大數(shù)據(jù)挖掘的需求,利用web定制化的方式可以幫助用戶迅速選擇可用的存儲方式以及應(yīng)用服務(wù),不僅降低其頻繁訪問的實踐,也為其數(shù)據(jù)檢索服務(wù)提供了強有力的支持。
3 海量圖像信息檢索
傳統(tǒng)單機處理的檢索方法并行處理能力較弱,并且存在較低的時效,而采用分布式架構(gòu)的大數(shù)據(jù)技術(shù)可以幫助其實現(xiàn)快速的檢索。Hadoop可以幫助快速獲取多臺計算機之間并行處理的能力,也能完成對大量圖像信息進行相似度運算,并被存儲到分布式數(shù)據(jù)庫中,通過若干臺的計算機作為從屬節(jié)點來實現(xiàn)分布式管理,促進其檢索效率與準確率的提升。而在大數(shù)據(jù)挖掘技術(shù)的應(yīng)用中,數(shù)據(jù)存儲、處理以及視覺模式挖掘則是成為其重要的組成部分。
3.1 分布式文件系統(tǒng)
作為Hadoop集群架構(gòu),HDPS利用分布式的存儲與數(shù)據(jù)訪問模式可以幫助更快的處理數(shù)據(jù)。如圖2所示,其主要包含主體系架構(gòu)與從體系架構(gòu)兩項,前者設(shè)置主節(jié)點,并對其他部分處于從屬節(jié)點的機器分配任務(wù),并進行系統(tǒng)協(xié)調(diào)、數(shù)據(jù)復制等和內(nèi)容。在整個數(shù)據(jù)處理系統(tǒng)中,根據(jù)其節(jié)點位置的差異可將數(shù)據(jù)細分成元數(shù)據(jù)與數(shù)據(jù)兩項,這其中元數(shù)據(jù)處于主節(jié)點中,通過客戶端對這幾項數(shù)據(jù)進行存取,在基于數(shù)據(jù)分塊?;姆绞綄嵤ψ涌斓姆植际酱鎯?,這也是數(shù)據(jù)處理中最為基礎(chǔ)的單元,幫助信息處理更快的實現(xiàn)。根據(jù)當前大數(shù)據(jù)應(yīng)用的現(xiàn)狀來看,HDFS具有兩項優(yōu)勢,一是可以通過“單輸入多響應(yīng)”的方式實現(xiàn)對流數(shù)據(jù)的訪問,提高信息的存取效率,二是數(shù)據(jù)的處理不會受到單機硬件環(huán)境的影響,不需要投入高性能的計算機設(shè)備,不僅可以有效降低其集群的成本,對于挖掘數(shù)據(jù)技術(shù)也有著較大的應(yīng)用價值。
3.2 并行數(shù)據(jù)處理
MapReduce是一項并行計算模型,包含映射與約簡兩項,對于海量圖像的相似度計算有著較大的幫助,通過圖像匹配可以有效適應(yīng)用戶的需求。在并行數(shù)據(jù)處理中,鍵值對是圖像數(shù)據(jù)類型的體現(xiàn),在映射之前表示為圖像的屬性與位置,在映射之后表示為其特征的相似度與圖像的編號。映射操作可以對具有相似度的圖像進行合并并處理,這項并行處理的流程定義通過基于MapReduce以HDFS分布式圖像輸入,再通過檢索結(jié)果來進行輸出。
3.3 視覺模式檢索
在圖像的檢索中,其較為關(guān)鍵的是如何區(qū)分圖像之間的相似度,雖然對于人類自身而言,并不是一項復雜的事情,但是如果要通過計算機來實現(xiàn),那么則需要其能夠具有類似于人類的提取語義概念的能力,這也是大數(shù)據(jù)挖掘中的一項難點與關(guān)鍵點。傳統(tǒng)的檢索方式,是基于顏色、紋理等上述描繪的圖像特征來進行展現(xiàn),并且也易于實現(xiàn),但是不可否認的是,這種模式依然無法有效滿足圖像檢索的需求。在大量的圖像數(shù)據(jù)中,他們有各自相對的圖像視覺模式單元,這些也會在數(shù)據(jù)庫中重復的出現(xiàn)并反映圖像的數(shù)據(jù)結(jié)構(gòu),這也是本文所探討的視覺模式的概念。這種模式可以有效縮小圖像的高層語義與底層特征的距離,并通過圖像檢索來作為其判別條件,提升圖像的檢索效率。
4 結(jié)束語
綜上所述,在如今大數(shù)據(jù)時代背景下,圖像檢索的技術(shù)要想更好的替身其檢索效率與時效,應(yīng)當在大數(shù)據(jù)挖掘方向上做進一步的投入與分析。傳統(tǒng)的基于文本模式的檢索方式已經(jīng)無法滿足當前海量信息的需求,隨著人們信息獲取途徑的拓展,實際的數(shù)據(jù)使用必然更加追求精準性與效率性。上文在探討當前圖像特性中,了解到圖像的顏色、紋理、形狀等特性,通過對各項信息特性的融合,可以幫助更快的找到用戶需要的圖像。因此,本文在結(jié)合當前大數(shù)據(jù)挖掘的基礎(chǔ)上,通過闡述分布式文件存儲、并行數(shù)據(jù)處理以及視覺模式的應(yīng)用,深入了解其與傳統(tǒng)圖像處理方式相比的優(yōu)勢,這些也真是未來圖像檢索的關(guān)鍵技術(shù)。行業(yè)相關(guān)的研究者應(yīng)當對此引起重視,深入挖掘具有代表性的視覺特性,幫助提升圖像檢索系統(tǒng)的處理技術(shù),實現(xiàn)更大規(guī)模更加復雜的圖像檢索,為信息使用率的增加提供支持。
參考文獻
[1]郭飛,詹炳宏,劉剛,基于Hadoop的服飾圖像存儲與檢索關(guān)鍵技術(shù)研究[J].計算機應(yīng)用研究,2014,31(04):1086-1089+1126.
[2]徐華珺,韓立新,圖像檢索系統(tǒng)關(guān)鍵技術(shù)的研究與應(yīng)用[J],電子測量技術(shù),2014,37 (05):33-37.
[3]胡二雷,馮瑞,基于深度學習的圖像檢索系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2017,26 (03):8 -19.