基于云平臺的海量數(shù)字圖像數(shù)據(jù)挖掘探討

2014-02-24 08:59:28張燕麗廣東農(nóng)工商職業(yè)技術學院廣東510507

電子測試 2014年23期

張燕麗（廣東農(nóng)工商職業(yè)技術學院，廣東,510507）

張燕麗
（廣東農(nóng)工商職業(yè)技術學院，廣東,510507）

本文借助云平臺Hadoop的分布式文件系統(tǒng)（HDFS）和分布式并行計算框架（MapReduce），來進行海量數(shù)字圖像的數(shù)據(jù)挖掘。構建了基于Hadoop云平臺的海量數(shù)字圖像數(shù)據(jù)挖掘系統(tǒng)，實現(xiàn)海量數(shù)字圖像信息數(shù)據(jù)挖掘。

云計算；數(shù)據(jù)挖掘；Hadoop；MapReduce

1 數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘就是指從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中提取或“挖掘”知識，這些知識具有未知性、有效性和實用性。由于知識事先不為人們所知，而是隱藏于大量數(shù)據(jù)之內，如何通過尋找數(shù)據(jù)間潛在的關聯(lián)，挖掘出隱藏于大量數(shù)據(jù)之內的知識，數(shù)據(jù)知識的挖掘的具體過程如圖1所示。

圖1 數(shù)據(jù)知識的挖掘過程圖

2 Hadoop云平臺

Hadoop云平臺一個是包括分布式文件系統(tǒng)（HDFS）和分布式并行計算框架（MapReduce）為核心的開源分布式的計算平臺。用戶可以利用Hadoop輕松地組織計算機資源，Hadoop云平臺為不同的用戶提供了編程環(huán)境。用戶可以根據(jù)需要，構建自己的Hadoop計算云平臺，另外，云平臺還為用戶提供了方便可以隨時充分利用的集群的計算和存儲能力，可以有效地解決海量數(shù)據(jù)的處理問題。MapReduce是一個軟件框架，可以高效地處理大規(guī)模的數(shù)據(jù)集，是一種可靠容錯的并行處理方式。MapReduce中的并行計算模式，可以對需要任務的處理分為Map(映射)和Reduce(規(guī)約)兩個階段。Hadoop云平臺的項目結構如2所示。

圖2 Hadoop項目結構

3 圖像數(shù)據(jù)信息的挖掘流程

作為多媒體數(shù)據(jù)挖掘的一個分支——數(shù)字圖像數(shù)據(jù)信息挖掘，其挖掘的具體流程包括：圖像數(shù)據(jù)的預處理，在對圖像數(shù)據(jù)信息進行數(shù)據(jù)挖掘前，首先要預處理，對預處理后的圖像數(shù)據(jù)信息的特征，進行提取出，根據(jù)提取出的圖像數(shù)據(jù)信息的特征，對提取的圖像數(shù)據(jù)，來構建數(shù)據(jù)特征空間。然后根據(jù)提取的圖像特征對來進行圖像數(shù)據(jù)信息的分類，從中挖掘出知識與規(guī)則，可以用得到的知識與規(guī)則來預測未來的信息。在多維分析圖像數(shù)據(jù)信息中，根據(jù)圖像的形狀、紋理、顏色等來構建多維的數(shù)據(jù)特征，然后依據(jù)多維的數(shù)據(jù)特征來進行綜合分析。另外，根據(jù)數(shù)據(jù)圖像多特征構成的特征、數(shù)據(jù)圖像的顏色直方圖的特征和基于小波的帶有區(qū)域粒度的特征，對圖像數(shù)據(jù)信息進行相似性檢索。同時，可以依據(jù)圖像的特征，完成運用關聯(lián)規(guī)則對圖像數(shù)據(jù)信息進行挖掘。運用以上數(shù)據(jù)挖掘方法從原始圖像數(shù)據(jù)信息中挖掘出有價值的信息規(guī)則與模式。對挖掘發(fā)現(xiàn)的信息規(guī)則與模式，還需要進行模式提取、知識表達和知識推理，最后得到所需要的知識與規(guī)則。要實現(xiàn)圖像數(shù)據(jù)信息的挖掘，是一項需要綜合應用各類知識與技術才能實現(xiàn)的復雜的工程。

4 海量數(shù)字圖像數(shù)據(jù)挖掘系統(tǒng)的構建

隨著每天海量數(shù)字圖像的產(chǎn)生，要挖掘出有用的知識信息，需要其超大的存儲空間，Hadoop云平臺可以處理TB級數(shù)據(jù)。如何快速高效地解決海量圖像數(shù)據(jù)的存儲和計算，是目前要解決的問題。Hadoop云平臺的分布式文件系統(tǒng)（HDFS）和分布式并行計算框架（MapReduce）能夠滿足整個挖掘系統(tǒng)的需求。對數(shù)字圖像的數(shù)據(jù)挖掘，因其存儲數(shù)據(jù)格式的不同，需要分別利用不同的處理技術來解決格式問題。因此，基于Hadoop云平臺，構建海量數(shù)字圖像數(shù)據(jù)挖掘系統(tǒng)。

在云平臺下運用圖像并行化處理技術，用HBase和Hive存儲和管理海量圖像數(shù)據(jù)，map的功能是對海量圖像數(shù)據(jù)首先進行圖像的預處理和圖像特征的提取，reduce 根據(jù)提取到的圖像特征，對同類圖像特征進行數(shù)據(jù)挖掘，從而實現(xiàn)了通過MapReduce 程序從它們中獲得圖像數(shù)據(jù)并處理。最終輸出保存獲得的挖掘知識與規(guī)則。因此，在Hadoop云平臺下，對海量圖像數(shù)據(jù)進行挖掘，利用分布式文件系統(tǒng)（HDFS）和分布式并行計算框架（MapReduce），可以有效地解決了對海量圖像數(shù)據(jù)信息的存儲和計算的難題。

在Hadoop中MapReduce來進行海量圖像數(shù)據(jù)挖掘，了解數(shù)據(jù)流，設計所需的鍵值對類型。MapReduce程序由用戶定義的 map 函數(shù)、reduce函數(shù)和作業(yè)驅動程序三部分組成，在MapReduce計算框架中，Hadoop將輸入數(shù)據(jù)劃分成等長的作業(yè)分片，在Map任務執(zhí)行時調用map 函數(shù)，每個Map任務處理一個作業(yè)分片，這些Map任務是并行執(zhí)行的。Hadoop又將每個作業(yè)分片劃分為多個相同的鍵值對，每個Map任務對該分片中每個鍵值對再調用map函數(shù)來進行處理。在Reduce任務執(zhí)行時被調用reduce函數(shù)，作業(yè)驅動程序用于初始化作業(yè)的配置。本系統(tǒng)把一個圖像文件作為一個作業(yè)分片，再把整個作業(yè)分片作為一個鍵值對來處理。這樣每個Map任務只需調用一次map函數(shù)來處理一個圖像文件，進而實現(xiàn)多個圖像文件的并行化處理。

5 結束語

文章利用Hadoop云平臺構建了基于Hadoop云平臺的海量數(shù)字圖像數(shù)據(jù)挖掘系統(tǒng)，利用Hadoop云平臺來進行海量數(shù)字圖像數(shù)據(jù)的信息的挖掘，挖掘海量數(shù)字圖像數(shù)據(jù)的有用信息為人們的不同需要服務，有效解決了網(wǎng)絡中海量數(shù)字圖像信息挖掘。

范明譯.數(shù)據(jù)挖掘——概念與技術[M].北京:機械工業(yè)出版社，2001.

Exploration on the Digital Image Data Mining Based on the Cloud platform

Zhang Yanli
（Guangdong AIB Polytechnic College,Guangdong,510507）

In this paper,by means of the cloud platform Hadoop distributed file system(HDFS)and distributed parallel computing framework(graphs),for huge amounts of digital image data mining.Build a huge amounts of digital image based on Hadoop cloud platform data mining system,realize the huge amounts of digital image information data mining.

cloud computing;Data mining;Hadoop;graphs

TP311

張燕麗（1975-），女，河南鄭州人，講師，研究方向：計算機應用