• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Hadoop分布式的海量圖像檢索

      2018-05-05 05:42:50王立陳軍峰
      現(xiàn)代電子技術(shù) 2018年9期
      關(guān)鍵詞:means聚類數(shù)據(jù)挖掘檢索

      王立 陳軍峰

      摘 要: 傳統(tǒng)基于內(nèi)容的圖像檢索方法通過相似度測量算法獲取檢索結(jié)果,對海量圖像存在檢索效率低和精度差的弊端,因此設(shè)計基于Hadoop分布式的海量圖像檢索方法,其基于Hadoop云平臺對海量數(shù)碼圖像實施分布式運(yùn)算,采集圖像SURF特征,采用K?Means聚類方法將相似圖像SURF特征聚集起來,通過TF?IDF數(shù)據(jù)挖掘技術(shù)對圖像特征實施量化,進(jìn)而基于Hadoop平臺中的Lucene框架塑造海量圖像數(shù)據(jù)的索引模塊和搜索模塊,依據(jù)用戶輸入的圖像SURF特征塑造海量圖像數(shù)據(jù)索引,完成相似圖像的準(zhǔn)確檢索。實驗結(jié)果說明,所提圖像檢索方法檢索出的圖像質(zhì)量佳,對海量圖像進(jìn)行檢索的效率和精度高。

      關(guān)鍵詞: Hadoop分布式; 海量圖像; SURF特征; K?Means聚類; 檢索; 數(shù)據(jù)挖掘

      中圖分類號: TN911.73?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2018)09?0062?06

      Abstract: The traditional content based image retrieval method obtains the retrieval results by means of similarity measurement algorithm, which has the disadvantages of poor retrieval accuracy and low retrieval efficiency for massive image. Therefore, a massive image retrieval method based on Hadoop distribution was designed to implement the distributed computing for massive digital image on the basis of its Hadoop cloud platform. The image SURF feature is acquired. And then the K?Means clustering method is used to assemble the SURF feature of similar images together. The TF?IDF data mining technology is used to quantify the image features, and then the index module and search module of massive image data are constructed on the basis of Lucene framework in Hadoop platform. According to the image SURF feature of user input, the data index of massive image was constructed to retrieve the similar images accurately. The experimental results show that the image retrieval method has high retrieval image quality, and high retrieval efficiency and accuracy of massive image.

      Keywords: Hadoop distribution; massive image; SURF feature; K?Means clustering; retrieval; data mining

      0 引 言

      由于當(dāng)前移動互聯(lián)網(wǎng)的不斷發(fā)展和網(wǎng)絡(luò)服務(wù)應(yīng)用領(lǐng)域的逐漸擴(kuò)展,產(chǎn)生的用戶數(shù)據(jù)量也不斷增長。圖像擁有詳細(xì)、直觀的屬性,是重要的多媒體數(shù)據(jù)載體。圖像檢索方法能夠從海量圖像數(shù)據(jù)內(nèi)采集同目標(biāo)圖像相似度最高的特征以及內(nèi)容的圖像,為用戶檢索到滿足自身興趣度的圖像。隨著圖像數(shù)據(jù)量的提升,海量數(shù)據(jù)的圖像檢索問題成為相關(guān)學(xué)者研究的熱點。傳統(tǒng)基于內(nèi)容的圖像檢索方法,通過相似度測量算法獲取檢索結(jié)果,對海量圖像數(shù)據(jù)處理能力差,存在圖像檢索效率低和精度差的弊端。

      面對該問題,本文提出基于Hadoop分布式的海量圖像檢索方法,提高海量圖像檢索的效率和精度,增強(qiáng)圖像檢索質(zhì)量。

      1 Hadoop分布式的海量圖像檢索

      1.1 圖像檢索的整體框架設(shè)計

      本文設(shè)計的基于Hadoop分布式海量圖像檢索框架能夠?qū)A康膱D像進(jìn)行檢索。以往的方法對海量圖像的檢索任務(wù)計算量大且檢索時間長[1]。本文設(shè)計的基于Hadoop分布式的圖像檢索框架包括以下模塊:

      1) 用戶與計算機(jī)交互模塊:其功能是確保計算機(jī)接收用戶要檢索的圖像,并對其進(jìn)行計算機(jī)處理,將查詢結(jié)果返回用戶。

      2) 圖像特征向量提取模塊:在Hadoop分布式平臺上,將SURF和K?Means算法相結(jié)合,進(jìn)而對海量的圖像特征值實施提取。

      3) 圖像特征聚類及特征量化:采用K?Means聚類算法對圖像的特征進(jìn)行聚類操作,再通過TF?IDF數(shù)據(jù)挖掘技術(shù)對圖像特征實施量化處理。

      4) 塑造海量圖像分布式索引模塊以及搜索模塊:基于Hadoop平臺中的Lucene框架塑造海量圖像數(shù)據(jù)的索引模塊和搜索模塊,基于用戶輸入的圖像SURF特征塑造海量圖像數(shù)據(jù)索引并完成相似圖像的準(zhǔn)確檢索。

      5) 用戶圖像檢索:用戶輸入需檢索圖像,計算機(jī)獲取圖像SURF特征和特征量化結(jié)果[2],通過分布式索引模塊和分布式搜索模塊獲取準(zhǔn)確相似圖像搜索結(jié)果。

      本文圖像檢索框架首先利用SURF算法對圖像的特征向量進(jìn)行提取,對特征向量進(jìn)行K?Means聚類得到統(tǒng)一的特征向量,接著采用TF?IDF數(shù)據(jù)挖掘技術(shù)對特征向量實施量化[3]。用戶輸入圖像,提取特征向量并對其進(jìn)行聚類得到統(tǒng)一特征向量,通過分布式索引模塊和分布式搜索模塊基于圖像特征向量獲取準(zhǔn)確圖像檢索結(jié)果,詳細(xì)的圖像檢索流程圖用圖1描述。

      1.2 圖像SURF特征提取

      SURF特征提取是在空間尺度中搜索極值點,以此來描繪圖像尺度不變的局部特征,局部特征越明顯越能描繪圖像。因為SURF具有較強(qiáng)的魯棒性和對光線感知不明顯等特征,多被用于進(jìn)行物體識別和3D模型建立。圖像在尺度空間中處理圖像信息時,采用尺度參數(shù)來描繪各種尺度下的視覺效果[4],連續(xù)的尺度參數(shù)下能獲取連續(xù)的尺度空間,連續(xù)的尺度空間能得到圖像的本質(zhì)特征。采用高斯卷積核尺度進(jìn)行特征提取。圖像[Ix,y]的尺度空間[Lx,y,σ]由高斯函數(shù)[Gx,y,σ]和[Ix,y]進(jìn)行卷積操作得出:

      多尺度空間表示方法有小波理論表示法、非線性尺度表示法和金字塔表示法。用金字塔表示法進(jìn)行多尺度空間表示是對原圖像進(jìn)行降采樣操作,降采樣操作后得到各種尺度空間的圖像[5],原始圖像為金字塔的最底層,按照圖像大小依次從下至上排列,最終構(gòu)成金字塔形狀模型。金字塔層數(shù)[n]由最底層的原始圖像和最高層的采樣圖像決定,金字塔層數(shù)[n]的計算公式為:

      式中:[M,N]為圖像的原始尺寸;[t]表示金字塔頂端圖像的最小維度的對數(shù)。

      為了得到連續(xù)的尺度空間,對原始圖像的金字塔每層圖像進(jìn)行高斯模糊操作,得到的每層圖像都包括多張高斯模糊圖像,以每層圖像為一組,采用降采樣得到更多組且得到的組中底層圖像由前組圖像的倒數(shù)第三張圖像隔點獲得。高斯金字塔模型如圖2所示。

      1.3 圖像特征的聚類

      基于1.2節(jié)獲取圖像SURF特征,采用K?Means聚類算法對圖像SURF特征實施聚類分析,該聚類算法將獲取的圖像SURF特征當(dāng)成采樣點,對采樣點和聚類中心進(jìn)行測量,將類似采樣點分為一簇,最終實現(xiàn)同種圖像SURF特征的聚類,為后續(xù)圖像索引和搜索提供依據(jù)。K?Means聚類算法流程如下:

      1) 在數(shù)據(jù)點中隨機(jī)選取[K]個中心點。

      2) 對這些點進(jìn)行初始聚類操作[6]。

      3) 計算各個數(shù)據(jù)點到聚類中心的距離,選取最小距離的聚類中心[Cm。]

      4) 將[k]個聚類中心重新劃分,并與原始聚類中心進(jìn)行對比,若兩次結(jié)果不同或不同時收斂某個范圍,返回過程2)重新進(jìn)行聚類操作,結(jié)果相同則結(jié)束聚類。

      數(shù)據(jù)點到聚類中心的計算公式如下:

      采用SURF算法對圖像進(jìn)行特征向量提取,會得出大量的特征向量。數(shù)據(jù)點的隨機(jī)選取會造成迭代多次得不到準(zhǔn)確的聚類中心,計算機(jī)處理速度變緩。改進(jìn)后的算法對特征點進(jìn)行隨機(jī)數(shù)據(jù)抽樣,從整體提取部分?jǐn)?shù)據(jù)代表整體進(jìn)行研究[7],隨機(jī)抽樣不改變原始數(shù)據(jù)的特征和規(guī)律。

      則隨機(jī)抽樣樣本方差為:

      1.4 圖像特征的量化

      TF?IDF是一種信息檢索與數(shù)據(jù)挖掘技術(shù),可用來評價一組文字在文檔中的重要性。若這組文字在該文檔中出現(xiàn)的頻率高于出現(xiàn)在其他文檔中的頻率[8],則這組文字具有較高的辨識度。

      在進(jìn)行SIFT特征提取和K?Means特征聚類后,產(chǎn)生[K]個聚類中心,將每個聚類中心都視為一組視覺文字,采用TF?IDF表達(dá)式可以計算每組視覺文字的TF?IDF值,將圖像信息用向量的形式表示出來,解決了SURF特征的歸一化難題,實現(xiàn)了圖像SURF特征的量化。

      1.5 Hadoop平臺下基于Lucene的圖像檢索

      本文設(shè)計分布式索引模塊以及分布式搜索模塊,實現(xiàn)海量圖像檢索時的索引以及搜索。分布式索引模塊基于Hadoop平臺中的Lucene框架塑造海量圖像數(shù)據(jù)的索引,分布式搜索模塊將索引庫分段完成海量圖像數(shù)據(jù)的并行搜索。

      1.5.1 分布式索引模塊設(shè)計

      實現(xiàn)海量圖像數(shù)據(jù)的多節(jié)點并行化操作能夠增強(qiáng)海量圖像數(shù)據(jù)的操作效率,采用Hadoop中的MapReduce模式為海量圖像數(shù)據(jù)塑造倒排索引庫[9],可塑造分布式索引模塊,詳細(xì)的內(nèi)容如下:

      1) 設(shè)計MapReduce的輸入數(shù)據(jù)格式是<圖像元數(shù)據(jù)信息,圖像數(shù)據(jù)信息>。

      2) 主節(jié)點分割海量圖像操作任務(wù)為不同的子任務(wù),同時將這些任務(wù)通過計算節(jié)點實施操作,計算節(jié)點通過本地圖像實施Map操作,采集圖像SURF特征,獲取圖像SURF特征的倒排索引。

      3) Reduce 對Map獲取的圖像SURF倒排索引結(jié)果實施融合,同時向HDFS文件中存儲融合結(jié)果。

      詳細(xì)的分布式圖像索引流程圖用圖4描述。從中能夠看出,主控制節(jié)點對總體索引模塊中的計算節(jié)點實施分布式操作,計算節(jié)點操作的局部任務(wù)。

      1.5.2 分布式搜索模塊設(shè)計

      通過Hadoop平臺中的MapReduce編程框架規(guī)劃分布式搜索模塊。該模塊基于Lucene索引文件實現(xiàn)海量圖像數(shù)據(jù)的搜索,該索引文件中包括一個或多個分段,各分段中包括一個或多個文檔,各文檔用于描述一個圖像文件,一個文檔由4個圖像SURF特征構(gòu)成,本文設(shè)計的Lucene索引結(jié)構(gòu)用圖5描述??梢钥闯?,本文方法在不同的計算節(jié)點中設(shè)置圖5中的索引結(jié)構(gòu),搜索圖像特征時,主控制節(jié)點對倒排索引庫實施分段操作[10],各計算節(jié)點對局部分段實施搜索,獲取局部相似結(jié)果集,同時對該結(jié)果集實施統(tǒng)計以及再次排序,最終得到準(zhǔn)確的圖像搜索結(jié)果。

      2 實驗與分析

      2.1 檢索結(jié)果分析

      實驗在MirFlicker圖像集中隨機(jī)采樣20萬張輸入數(shù)據(jù)進(jìn)行圖像搜索,設(shè)置聚類中心為170,將第一張圖像作為待檢索圖像進(jìn)行檢索,實驗獲取本文方法的檢索結(jié)果如圖6所示,檢索結(jié)果1~5為檢索輸出圖像,按照檢測結(jié)果相似度進(jìn)行排列,從結(jié)果可以看出,檢索圖像1~5與待檢索圖像相似度高。本次檢索結(jié)果優(yōu)秀,令人滿意。

      2.2 檢索性能分析

      實驗對圖像檢索方法的檢索精度以及檢索耗時情況實施分析,進(jìn)而驗證本文方法在海量圖像檢索過程中具有較高的檢索性能。實驗在MirFlicker圖像集中選取不同萬張圖像為輸入數(shù)據(jù),聚類中心為170,將基于內(nèi)容的圖像檢索方法作為對比方法,用圖像的查全率和準(zhǔn)確率對不同方法的檢測效果進(jìn)行分析,檢測公式如下:

      實驗還分別對基于內(nèi)容的圖像檢索方法和本文檢索方法運(yùn)行下的不同數(shù)量的待檢測圖像進(jìn)行顏色直方圖、顏色布局、Tamura紋理和邊緣直方圖的檢測。不同方法的平均檢索時間用表1描述,用折線圖描述的結(jié)果如圖8所示。

      分析表1和圖8可得,當(dāng)檢索的圖像數(shù)量小于10萬幅時,基于內(nèi)容的圖像檢索方法的檢索耗時低于本文方法,主要是因為本文方法對圖像數(shù)據(jù)實施檢索時,需要對任務(wù)實施調(diào)度以及分配,耗費(fèi)了較多時間。而當(dāng)檢索的圖像數(shù)據(jù)提升到100萬幅時,本文方法的檢索耗時略低于基于內(nèi)容的圖像檢索方法,當(dāng)圖像數(shù)據(jù)提升到1 000萬幅時,本文方法的檢索耗時遠(yuǎn)遠(yuǎn)低于基于內(nèi)容的圖像檢索方法,當(dāng)圖像數(shù)量為5 000萬和1億幅時,基于內(nèi)容的圖像檢索方法已經(jīng)不能檢索出圖像數(shù)據(jù),而本文方法只需很短的時間則可完成海量圖像的檢索。能夠看出,本文方法針對海量圖像具有較高的檢索效率。主要是因為本文圖像檢索方法利用MapReduce模型,對圖像特征點進(jìn)行降維操作簡化了運(yùn)算過程,對圖像的檢索效果最好。

      3 結(jié) 論

      本文提出基于Hadoop分布式的海量圖像檢索方法,基于Hadoop云平臺對海量數(shù)碼圖像實施分布式運(yùn)算,依據(jù)Hadoop平臺中的Lucene框架塑造海量圖像數(shù)據(jù)的索引模塊和搜索模塊,實現(xiàn)了圖像的準(zhǔn)確檢索。

      參考文獻(xiàn)

      [1] 朱為盛,王鵬.基于Hadoop云計算平臺的大規(guī)模圖像檢索方案[J].計算機(jī)應(yīng)用,2014,34(3):695?699.

      ZHU Weisheng, WANG Peng. Large?scale image retrieval solution based on Hadoop cloud computing platform [J]. Journal of computer applications, 2014, 34(3): 695?699.

      [2] 郭飛,詹炳宏,劉剛.基于Hadoop的服飾圖像存儲與檢索關(guān)鍵技術(shù)研究[J].計算機(jī)應(yīng)用研究,2014,31(4):1086?1089.

      GUO Fei, ZHAN Binghong, LIU Gang. Research on key technology of clothing image storage and retrieval based on Hadoop [J]. Application research of computers, 2014, 31(4): 1086?1089.

      [3] 吳松洋,張熙哲,王旭鵬,等.基于Hadoop的高效分布式取證:原理與方法[J].電信科學(xué),2014,30(1):31?38.

      WU Songyang, ZHANG Xizhe, WANG Xupeng, et al. An efficient distributed forensic system based on Hadoop: principle and method [J]. Telecommunications science, 2014, 30(1): 31?38.

      [4] 蔡曉東,華娜,吳迪,等.云平臺上基于圖像特征索引的并行檢索系統(tǒng)技術(shù)研究[J].電視技術(shù),2015,39(13):24?26.

      CAI Xiaodong, HUA Na, WU Di, et al. Research on parallel retrieval system based on image feature index on cloud platform [J]. Video engineering, 2015, 39(13): 24?26.

      [5] 劉有耀,李彬.基于Hadoop的測試數(shù)據(jù)處理系統(tǒng)設(shè)計與實現(xiàn)[J].電子技術(shù)應(yīng)用,2015,41(7):140?143.

      LIU Youyao, LI Bin. Design and implementation of test data processing system based on Hadoop [J]. Application of electronic technology, 2015, 41(7): 140?143.

      [6] 劉賢熜,宋斌.基于Hadoop的海量數(shù)據(jù)TCP報文重組技術(shù)[J].計算機(jī)工程,2016,42(10):113?117.

      LIU Xiancong, SONG Bin. Hadoop?based mass data TCP packet reassembly technology [J]. Computer engineering, 2016, 42(10): 113?117.

      [7] 孫衛(wèi)真,王秀錦,徐遠(yuǎn)超.交通信息分布式處理中的Hadoop調(diào)度算法優(yōu)化[J].計算機(jī)工程與設(shè)計,2014,35(4):1269?1273.

      SUN Weizhen, WANG Xiujin, XU Yuanchao. Optimization of Hadoop scheduling algorithms on distributed system for traffic information processing [J]. Computer engineering and design, 2014, 35(4): 1269?1273.

      [8] 胡靜泓,李德文,黃文君,等.一種流程工業(yè)的分布式海量報警管理系統(tǒng)[J].上海交通大學(xué)學(xué)報,2015,49(11):1660?1664.

      HU Jinghong, LI Dewen, HUANG Wenjun, et al. A distributed mass alarm management system in process industry [J]. Journal of Shanghai Jiao Tong University, 2015, 49(11): 1660?1664.

      [9] 余征,龔勛,李天瑞,等.Hadoop的小圖片處理技術(shù)及其在人臉特征提取上的應(yīng)用[J].小型微型計算機(jī)系統(tǒng),2015,36(8):1891?1895.

      YU Zheng, GONG Xun, LI Tianrui, et al. Small image processing techniques in Hadoop and its application on facial feature extraction [J]. Journal of Chinese computer systems, 2015, 36(8): 1891?1895.

      [10] 彭天強(qiáng),粟芳.基于深度卷積神經(jīng)網(wǎng)絡(luò)和二進(jìn)制哈希學(xué)習(xí)的圖像檢索方法[J].電子與信息學(xué)報,2016,38(8):2068?2075.

      PENG Tianqiang, SU Fang. Image retrieval based on deep convolutional neural networks and binary Hashing learning [J]. Journal of electronics & information technology, 2016, 38(8): 2068?2075.

      猜你喜歡
      means聚類數(shù)據(jù)挖掘檢索
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      2019年第4-6期便捷檢索目錄
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      人工神經(jīng)網(wǎng)絡(luò)在聚類分析中的運(yùn)用
      雹云圖像的識別指標(biāo)設(shè)計
      基于QPSO聚類算法的圖像分割方法
      科技視界(2016年12期)2016-05-25 11:54:25
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于知網(wǎng)的無指導(dǎo)詞義消歧
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      宜良县| 洛川县| 陆丰市| 日土县| 兴城市| 河南省| 宁德市| 宁蒗| 杭锦后旗| 永善县| 西乌珠穆沁旗| 于田县| 乌兰察布市| 吴旗县| 高陵县| 福海县| 库车县| 甘孜| 察隅县| 陵水| 普兰县| 灵宝市| 庆城县| 黄石市| 镇安县| 镇宁| 长丰县| 长兴县| 阿城市| 杭锦旗| 龙井市| 葫芦岛市| 南溪县| 枞阳县| 冀州市| 威信县| 蒙城县| 宁河县| 禄丰县| 瑞安市| 札达县|