• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop云平臺(tái)的空間屬性數(shù)據(jù)挖掘技術(shù)研究

      2022-09-08 00:38:48
      關(guān)鍵詞:屬性數(shù)據(jù)貝葉斯數(shù)據(jù)挖掘

      李 娟

      (金陵科技學(xué)院 計(jì)算機(jī)工程學(xué)院,江蘇 南京 211169)

      Hadoop是一種分布式計(jì)算框架,它可以向?qū)W者提供云計(jì)算服務(wù)。Hadoop技術(shù)的核心包含Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)、MapReduce等,利用此分布式集散框架處理海量數(shù)據(jù),具有較高的執(zhí)行能力[1,2]。因此,通過Hadoop構(gòu)建云平臺(tái),可以更好地處理數(shù)據(jù)??臻g屬性是地理信息系統(tǒng)(Geographic information system,GIS)中一類重要而特殊的名詞,它包含了大量的空間數(shù)據(jù)、屬性數(shù)據(jù)及其相互關(guān)系。相對(duì)于一般的關(guān)系數(shù)據(jù)庫系統(tǒng)和事務(wù)數(shù)據(jù)庫系統(tǒng),空間屬性系統(tǒng)有著豐富而復(fù)雜的語義信息,同時(shí)也隱藏著大量的冗余數(shù)據(jù)。在空間屬性數(shù)據(jù)庫數(shù)據(jù)挖掘中,包含位置和拓?fù)湫畔⒌?屬性數(shù)據(jù)包含了空間屬性數(shù)據(jù)庫的名稱、分類、數(shù)值等信息;通常應(yīng)用在時(shí)序特征數(shù)據(jù)挖掘和非空間型數(shù)據(jù)挖掘中,對(duì)數(shù)據(jù)進(jìn)行采集、儲(chǔ)藏、管理以及分析等。

      由于社會(huì)的高速發(fā)展,GIS得到迅速更新,如何對(duì)應(yīng)用于GIS的空間數(shù)據(jù)與屬性數(shù)據(jù)進(jìn)行挖掘是當(dāng)前較多學(xué)者正在研究的問題。其中,空間數(shù)據(jù)實(shí)質(zhì)上是空間對(duì)象自身的空間定位特征[3,4],而屬性數(shù)據(jù)描述的是空間對(duì)象的特征反應(yīng),將兩者結(jié)合,即為空間屬性數(shù)據(jù),有較多學(xué)者對(duì)這一數(shù)據(jù)挖掘過程進(jìn)行了研究。孫紅等[5]研究融合遺傳算法和關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),申燕萍等[6]研究基于云計(jì)算平臺(tái)的仿生優(yōu)化聚類數(shù)據(jù)挖掘技術(shù),但在數(shù)據(jù)挖掘過程中仍然需要面對(duì)數(shù)據(jù)挖掘速度較慢、無法較為完美地對(duì)數(shù)據(jù)實(shí)現(xiàn)去噪等問題,因此本文提出基于Hadoop云平臺(tái)的空間屬性數(shù)據(jù)挖掘技術(shù),構(gòu)建Hadoop云平臺(tái),在這一平臺(tái)中實(shí)現(xiàn)對(duì)空間屬性數(shù)據(jù)的挖掘。

      1 空間屬性數(shù)據(jù)挖掘技術(shù)

      1.1 Hadoop云平臺(tái)構(gòu)建

      Hadoop是一種較好的數(shù)據(jù)處理技術(shù)框架,它的性能表現(xiàn)穩(wěn)定,可以將其用作云計(jì)算的基礎(chǔ)設(shè)施。Hadoop云平臺(tái)是一種分布式的、可在低配置的硬件設(shè)備上運(yùn)行的架構(gòu),能夠?yàn)閼?yīng)用軟件提供可靠的界面,具有良好的可擴(kuò)展性、可靠性和可移植性。在Hadoop框架下利用MapReduce計(jì)算模型與HDFS構(gòu)建實(shí)現(xiàn)空間屬性數(shù)據(jù)處理的云平臺(tái)。具體內(nèi)容如下所示:

      1.1.1 MapReduce原理

      MapReduce是于一種可以高效實(shí)現(xiàn)空間屬性數(shù)據(jù)處理的分布式編程模型,可通過兩部分實(shí)現(xiàn)具體工作,分別為Map部分與Reduce部分。用戶可設(shè)定一個(gè)Map函數(shù),通過此函數(shù)處理初始數(shù)據(jù),處理后得到一組鍵值對(duì)(key/value),之后用戶可再次設(shè)定一個(gè)Reduce函數(shù),通過此函數(shù)合并全部具備同樣key值的中間結(jié)果[7,8]。

      利用MapReduce將輸入的內(nèi)容調(diào)整為大量各自獨(dú)立的小任務(wù),并通過Map函數(shù)對(duì)這些小任務(wù)進(jìn)行處理,獲取單個(gè)鍵值對(duì),中間結(jié)果會(huì)暫存至內(nèi)存[9]。之后利用Shufle,將Map輸出過程調(diào)整為Reduce的輸入,可利用Hadoop自備的合并器實(shí)現(xiàn)Map輸出中間結(jié)果的首次合并。當(dāng)初步輸出完成后,Reduce對(duì)輸出結(jié)果進(jìn)行復(fù)制,這一復(fù)制過程稱為Reduce任務(wù)的copy過程。Reduce在進(jìn)行copy時(shí)可以存在大量復(fù)制線程,所以可通過并行的形式復(fù)制Map輸出。當(dāng)全部Map輸出均被復(fù)制時(shí),Reduce開始進(jìn)行排序操作,排序的過程實(shí)質(zhì)上是按Map輸出的初始順序完成排列[10],且循環(huán)實(shí)現(xiàn)排序操作。當(dāng)排序完成后,Reduce開始合并數(shù)據(jù)輸入Reduce函數(shù)。

      1.1.2 搭建HDFS

      HDFS是Hadoop框架下一種可實(shí)現(xiàn)數(shù)據(jù)分布式保存與管理的并行文件系統(tǒng)。HDFS由大量數(shù)據(jù)節(jié)點(diǎn)DataNode與一個(gè)名字節(jié)點(diǎn)NameNode構(gòu)成。在DataNode中,每個(gè)文件都會(huì)被均勻調(diào)整為數(shù)量不等的64M數(shù)據(jù)塊,且通過分散的形式保存在不同DataNode上。同時(shí),HDFS還具備數(shù)據(jù)備份功能,HDFS以默認(rèn)形式將每個(gè)數(shù)據(jù)塊制造出3個(gè)副本[11],并依次放置在不同機(jī)器中,當(dāng)用戶通過NameNode獲取數(shù)據(jù)位置信息時(shí),可與放置數(shù)據(jù)塊的DataNode進(jìn)行直接通信[12]。

      1.1.3 基于Hadoop云平臺(tái)的數(shù)據(jù)挖掘設(shè)計(jì)

      基于上述Hadoop云平臺(tái)搭建過程,利用分層理論,通過分層形式搭建數(shù)據(jù)挖掘云平臺(tái)。在云平臺(tái)中,從上至下每層都具備調(diào)用下層的接口,這使得每層不僅具備獨(dú)立功能,還可以完善云平臺(tái)的功能。具體Hadoop云平臺(tái)的整體結(jié)構(gòu)如圖1所示。

      圖1 Hadoop云平臺(tái)的整體結(jié)構(gòu)

      (1)交互層。這一層主要提供交互接口。利用圖形界面向用戶展示平臺(tái)內(nèi)容,用戶可通過登陸查看與操作。這一層共具備以下單元:

      ①用戶管理單元:此單元可以設(shè)置用戶權(quán)限,并完成用戶身份的驗(yàn)證。

      ②業(yè)務(wù)單元:用戶利用此單元提交需求。

      ③展示單元:用戶可通過此單元查詢、存儲(chǔ)業(yè)務(wù)結(jié)果,同時(shí)平臺(tái)的執(zhí)行結(jié)果通過此模塊反饋至用戶。

      (2)業(yè)務(wù)應(yīng)用層。這一層可調(diào)用下層中已完成的各個(gè)單元中的業(yè)務(wù),并調(diào)用數(shù)據(jù)挖掘?qū)拥膱?zhí)行結(jié)果。同時(shí),這一層還可以實(shí)現(xiàn)對(duì)下層執(zhí)行進(jìn)度的控制。這一層具備以下單元:

      ①業(yè)務(wù)響應(yīng)單元:通過調(diào)用下層單元實(shí)現(xiàn)需完成業(yè)務(wù)的子業(yè)務(wù)的調(diào)用。

      ②工作流單元:管理與監(jiān)控業(yè)務(wù)執(zhí)行情況,并將監(jiān)控結(jié)果返回至業(yè)務(wù)響應(yīng)單元。

      (3)數(shù)據(jù)挖掘平臺(tái)層。

      這一層向業(yè)務(wù)應(yīng)用層輸送數(shù)據(jù)挖掘過程中所需單元的執(zhí)行結(jié)果。它屬于本文Hadoop云平臺(tái)的核心層,利用這一層實(shí)現(xiàn)空間數(shù)據(jù)數(shù)據(jù)挖掘業(yè)務(wù),并向下層提交業(yè)務(wù)結(jié)果進(jìn)行計(jì)算,計(jì)算完成后,向業(yè)務(wù)應(yīng)用層輸送挖掘結(jié)果。本層具備以下單元:

      ①數(shù)據(jù)轉(zhuǎn)換單元:利用此單元實(shí)現(xiàn)空間數(shù)據(jù)與屬性數(shù)據(jù)的統(tǒng)一。

      ②數(shù)據(jù)去噪單元:通過快速獨(dú)立成分分析(Fast independent component analysis,FastICA)算法實(shí)現(xiàn)空間屬性數(shù)據(jù)去噪。

      ③數(shù)據(jù)挖掘單元:在此單元中利用貝葉斯分類算法實(shí)現(xiàn)空間屬性數(shù)據(jù)挖掘。

      ④結(jié)果存儲(chǔ)單元:此單元類似于知識(shí)庫,用于保存挖掘過程中制造出的各種模式。

      ⑤數(shù)據(jù)加載單元:此單元對(duì)空間數(shù)據(jù)數(shù)據(jù)進(jìn)行注冊(cè),并將其保存至云平臺(tái)的HDFS內(nèi)。

      (4)分布式計(jì)算層。利用Hadoop框架完成集群保存與計(jì)算。Hadoop完成對(duì)云平臺(tái)的管理并提供了云平臺(tái)的運(yùn)行模式。

      1.2 空間屬性數(shù)據(jù)變換

      在進(jìn)行數(shù)據(jù)挖掘之前,由于空間屬性數(shù)據(jù)量綱與類型不同,且數(shù)據(jù)之間的關(guān)系也呈線性與非線性兩種狀態(tài),因此,需采用數(shù)據(jù)轉(zhuǎn)換方法對(duì)空間屬性數(shù)據(jù)進(jìn)行一定的預(yù)處理[13,14]。即將空間屬性數(shù)據(jù)盡可能調(diào)整為正態(tài)分布,并統(tǒng)一數(shù)據(jù)量綱[15]。

      在空間屬性數(shù)據(jù)轉(zhuǎn)換過程中,為了不讓數(shù)據(jù)損失,且不增加干擾,通過數(shù)學(xué)邏輯形式,設(shè)定一個(gè)全新的空間屬性觀測(cè)值,通過式(1)表示

      U=F(R)

      (1)

      式中:初始觀測(cè)值由R表示;變換的函數(shù)由F表示;U表示新的空間屬性觀測(cè)值。當(dāng)前較為流行的變換方法有均勻化變換、歸一化變換等。為實(shí)現(xiàn)空間屬性數(shù)據(jù)量綱的統(tǒng)一,本文采取歸一化變換,將全部數(shù)據(jù)變化限制在0~1之間,即變換后的數(shù)據(jù)變量最小值為0,最大值為1。

      1.3 空間屬性數(shù)據(jù)去噪

      1.3.1 基于FastICA算法的空間屬性數(shù)據(jù)去噪

      空間屬性數(shù)據(jù)經(jīng)轉(zhuǎn)換后雖然可以進(jìn)行數(shù)據(jù)挖掘,但為進(jìn)一步提升數(shù)據(jù)挖掘的精準(zhǔn)度,在數(shù)據(jù)挖掘之前,利用固定點(diǎn)算法即FastICA算法對(duì)數(shù)據(jù)進(jìn)行去噪。此算法在每次迭代時(shí),通過成批操作來采樣數(shù)據(jù)[16,17],屬于并行分布式算法。FastICA算法在使用時(shí)依據(jù)非高斯性最大化理論,在計(jì)算過程中,利用固定點(diǎn)迭代原理,計(jì)算出wTq的非高斯最大值(T表示時(shí)間),同時(shí)利用牛頓迭代算法,以成批操作形式處理觀測(cè)變量q的若干采樣點(diǎn)。FastICA的非高斯型度量函數(shù)如下

      J(y)∝[E{G(y)}-E{G(v)}]2

      (2)

      利用式(2)估計(jì)獨(dú)立分量,其中,∝的含義為正比;期望值由E(·)描述;非線性函數(shù)由G(·)描述;v與y表示零均值高斯變量,且兩者具備相同方差。

      為獲取第i個(gè)獨(dú)立分量,或計(jì)算得到y(tǒng)iwTq的投影位置,利用式(3)將式(2)的計(jì)算結(jié)果最大化,其理論依據(jù)是式(2)非高斯型度量函數(shù)是客觀存在的規(guī)律,同時(shí)也是計(jì)算的依據(jù),為計(jì)算提供了正確的思維方式,保證了計(jì)算結(jié)果最大化的合理性和可行性,具體公式如下

      JG(w)=[E{G(wTq)}-E{G(v)}]2

      (3)

      式中:m維變量由w表示;其中,q與v具備一致的均值與協(xié)方差矩陣的高斯變量,當(dāng)處理完成后,可將式(3)的最大化過程視為E{G(wTq)}的優(yōu)化過程。根據(jù)Kuhn-Tucher理論,當(dāng)E{(wTq)2}=‖w‖2=1時(shí),可利用牛頓迭代法對(duì)E{G(wTq)}的優(yōu)化過程采用式(4)計(jì)算

      (4)

      wk+1=wk+1/‖wk+1‖

      (5)

      同時(shí),將式(4)兩邊數(shù)值與β-E{G′(wTq)}相乘,得出wk+1迭代計(jì)算后的結(jié)果

      (6)

      1.3.2 FastICA算法具體操作步驟

      步驟1設(shè)初始權(quán)值矢量w0為隨機(jī)獲取,并設(shè)k=0;

      步驟2通過式(6)對(duì)權(quán)值矢量wk+1進(jìn)行更新;

      步驟3對(duì)wk+1=wk+1/‖wk+1‖進(jìn)行歸一化處理;

      步驟4若|wk+1-wk|>ε,則算法停止收斂,若未實(shí)現(xiàn),則跳轉(zhuǎn)回步驟2繼續(xù)執(zhí)行,直至估算出一個(gè)獨(dú)立分量后結(jié)束收斂。

      若想實(shí)現(xiàn)多分量提取,反復(fù)執(zhí)行算法進(jìn)行分離即可。若要確定每次提取出的分量均不是相似分量,則需在每次完成一個(gè)分量提取后,將此分量從觀測(cè)信號(hào)中剔除掉,反復(fù)進(jìn)行剔除操作,即能夠提取全部所需獨(dú)立分量,執(zhí)行完成后,即可實(shí)現(xiàn)原始空間屬性數(shù)據(jù)的去噪處理。

      2 空間屬性數(shù)據(jù)挖掘技術(shù)

      2.1 貝葉斯分類

      在大量數(shù)據(jù)挖掘算法中,貝葉斯分類算法應(yīng)用較為廣泛,且此算法適用于多種類型的數(shù)據(jù)。貝葉斯分類實(shí)質(zhì)是依據(jù)歷史訓(xùn)練數(shù)據(jù),挖掘出數(shù)據(jù)性質(zhì)。通過貝葉斯分類構(gòu)造出的分類模型,也稱為分類器,利用此分類器,可以知道待分類數(shù)據(jù)屬于哪部分[18]。本文利用貝葉斯分類進(jìn)行空間屬性數(shù)據(jù)的挖掘,將上述去噪后的數(shù)據(jù)應(yīng)用于貝葉斯分類過程中,能夠有效提升挖掘的精確度。

      2.2 貝葉斯定理

      P(A|B)P(B)=P(AB)=P(B|A)P(A)

      (7)

      式(7)的計(jì)算過程可以稱為概率乘法規(guī)則,假設(shè)P(B)屬于非零狀態(tài),當(dāng)兩邊同時(shí)除以P(B)時(shí),可得式(8)

      (8)

      (9)

      式(9)即為貝葉斯定理的通常形式。

      2.3 極大后驗(yàn)假設(shè)與極大似然假設(shè)

      給定類別集合C,也稱為待選假設(shè)集合,并設(shè)一個(gè)假設(shè)為c,兩者滿足c∈C;設(shè)標(biāo)號(hào)樣本為X;若假設(shè)c為可實(shí)現(xiàn)假設(shè),則通過P(c)表示,即P(c)為c的先驗(yàn)概率,同時(shí)設(shè)X的先驗(yàn)概率為P(X);當(dāng)假設(shè)c為可實(shí)現(xiàn)時(shí),X發(fā)生的概率由P(X|c)表示,利用貝葉斯定理實(shí)現(xiàn)對(duì)它的計(jì)算

      (10)

      當(dāng)標(biāo)號(hào)樣本X處于已設(shè)定的狀態(tài)時(shí),配合貝葉斯理論,可獲取可能性最高的未知假設(shè)c∈C,因此可將c表示為極大后驗(yàn)假設(shè),通過CMAP描述極大后驗(yàn)假設(shè),并通過式(11)計(jì)算

      (11)

      通常情況下,假設(shè)c與先驗(yàn)概率P(X)不存在關(guān)系,因此,可將式(11)調(diào)整為式(12)

      (12)

      當(dāng)無法得出類別發(fā)生概率時(shí),可認(rèn)定全部類別的先驗(yàn)概率相等,即認(rèn)定任意的ci,cj∈(i≠j),可實(shí)現(xiàn)P(ci)=P(cj)。先驗(yàn)概率不會(huì)對(duì)可能性最高的假設(shè)的計(jì)算造成影響,所以,計(jì)算出P(X|c)的最大值即可,同時(shí)P(X|c)稱作極大似然假設(shè),表示為CML,計(jì)算過程如式(13)所示

      (13)

      2.4 樸素貝葉斯分類模型

      樸素貝葉斯分類器(Naive bayes classifier,NBC)是當(dāng)前數(shù)據(jù)挖掘技術(shù)中應(yīng)用較廣的一種分類器。此分類器中,包含變量集U={X,C},其中類變量集為C={c1,c2,…,cm},具備m個(gè)取值,屬性變量集為X={x1,x2,…,xn},具備n個(gè)條件屬性,若已設(shè)定屬性變量之間不存在影響,且各自獨(dú)立,則可通過式(14)描述樸素貝葉斯分類器

      (14)

      通過上述過程,即能完成對(duì)空間屬性數(shù)據(jù)的挖掘,同時(shí)利用樸素貝葉斯分類器,可有效降低網(wǎng)絡(luò)計(jì)算復(fù)雜度,由此完成基于Hadoop云平臺(tái)的空間屬性數(shù)據(jù)挖掘技術(shù)研究。

      3 試驗(yàn)分析

      將本文平臺(tái)應(yīng)用至某城市農(nóng)業(yè)區(qū)域,對(duì)這個(gè)區(qū)域中的空間屬性數(shù)據(jù)進(jìn)行試驗(yàn)分析。從農(nóng)業(yè)生產(chǎn)的氣象條件來看,在農(nóng)業(yè)生產(chǎn)中,不同地區(qū)的氣象要素如降雨量、日照時(shí)長、溫度值等,都會(huì)對(duì)作物生長產(chǎn)生不同影響,需要采取不同的管理措施。通過不同管理措施,產(chǎn)生如表1所示參數(shù)的具體選擇。

      表1 試驗(yàn)參數(shù)設(shè)置表

      由表1可知,以這5種參數(shù)類型為研究對(duì)象進(jìn)行空間屬性數(shù)據(jù)挖掘技術(shù)試驗(yàn)分析,根據(jù)農(nóng)業(yè)氣象要素的分段取值,氣溫分為特別低、偏低、正常、偏高以及特別高5種;降水量可分為特別大、偏大、正常、偏小以及特別小5種類型。農(nóng)業(yè)生產(chǎn)場(chǎng)景如圖2所示,應(yīng)用基于Hadoop云平臺(tái)的空間屬性數(shù)據(jù)挖掘技術(shù)后,得到的農(nóng)業(yè)生產(chǎn)場(chǎng)景如圖3所示。

      圖2 農(nóng)業(yè)生產(chǎn)場(chǎng)景如圖

      圖3 應(yīng)用所設(shè)計(jì)技術(shù)后農(nóng)業(yè)生產(chǎn)場(chǎng)景

      由圖2和圖3可知,應(yīng)用所設(shè)計(jì)的空間屬性數(shù)據(jù)挖掘技術(shù)后,農(nóng)業(yè)生產(chǎn)場(chǎng)景更加有序。根據(jù)空間屬性數(shù)據(jù)挖掘技術(shù),從屬性數(shù)據(jù)中挖掘出指導(dǎo)農(nóng)業(yè)生產(chǎn)的有用知識(shí),并將此數(shù)據(jù)挖掘技術(shù)應(yīng)用在農(nóng)業(yè)種植管理中,能增加經(jīng)濟(jì)效益,極大程度地節(jié)省成本,成為經(jīng)濟(jì)復(fù)蘇的有力支撐。

      分析挖掘節(jié)點(diǎn)不斷增加的情況下,選取文獻(xiàn)[5]融合遺傳算法和關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法和文獻(xiàn)[6]基于云計(jì)算平臺(tái)的仿生優(yōu)化聚類數(shù)據(jù)挖掘算法作為對(duì)照組,與本文算法進(jìn)行對(duì)比。3種算法挖掘時(shí)的加速比如圖4所示。

      圖4 數(shù)據(jù)挖掘技術(shù)加速比性能分析

      根據(jù)圖4可知,隨著節(jié)點(diǎn)數(shù)量的上升,本文技術(shù)挖掘加速比也隨之增加,在節(jié)點(diǎn)個(gè)數(shù)為10時(shí),加速比最大值達(dá)到10;而文獻(xiàn)[5]算法和文獻(xiàn)[6]算法的加速比分別為6.3和5.9,本文技術(shù)挖掘加速比與之相比分別提高了3.7和4.1,由此可知本文技術(shù)可有效實(shí)現(xiàn)空間屬性數(shù)據(jù)的并行挖掘。同時(shí),本文算法挖掘的加速比均保持在4以上,說明利用本文技術(shù)挖掘數(shù)據(jù)時(shí),可有效提升數(shù)據(jù)挖掘的速度。

      選取不同噪聲污染比例的數(shù)據(jù),分析當(dāng)測(cè)試數(shù)據(jù)的數(shù)量不斷增加時(shí),通過本文技術(shù)去噪后的峰值信噪比變化情況,結(jié)果如圖5所示。

      圖5 空間屬性數(shù)據(jù)去噪效果

      根據(jù)圖5可知,當(dāng)測(cè)試數(shù)據(jù)數(shù)量不斷增加,去噪后空間屬性數(shù)據(jù)的峰值信噪比也有所降低。在不同噪聲污染比例下,當(dāng)噪聲污染比例為0.006%時(shí),去噪后的峰值信噪比保持最高,證明本文技術(shù)對(duì)含噪比例較大數(shù)據(jù)的去噪效果更顯著。雖然在數(shù)據(jù)數(shù)量為50萬條時(shí)信噪比有所下降,但利用本文技術(shù)去噪后峰值信噪比始終保持在20 dB以上,由此可知,本文技術(shù)能夠較好地實(shí)現(xiàn)數(shù)據(jù)去噪。

      選取3組數(shù)據(jù)集,其中數(shù)據(jù)集1共有10萬條數(shù)據(jù),數(shù)據(jù)集2共有20萬條數(shù)據(jù),數(shù)據(jù)集3共有30萬條數(shù)據(jù),分析在不同時(shí)間下對(duì)空間屬性數(shù)據(jù)進(jìn)行去噪時(shí)的數(shù)據(jù)結(jié)構(gòu)相似度,結(jié)果如圖6所示。

      圖6 去噪時(shí)空間屬性數(shù)據(jù)結(jié)構(gòu)相似度

      由圖6可知,當(dāng)時(shí)間不斷增加,本文技術(shù)在對(duì)空間屬性數(shù)據(jù)進(jìn)行處理時(shí)的數(shù)據(jù)結(jié)構(gòu)相似度也有所上升。同時(shí),雖然數(shù)據(jù)集越大在去噪時(shí)的結(jié)構(gòu)相似度越低,但本文技術(shù)在去噪時(shí)的結(jié)構(gòu)相似度始終保持在0.8以上,因此利用本文技術(shù)進(jìn)行去噪時(shí)可有效保障數(shù)據(jù)的完整。

      綜上所述,應(yīng)用所設(shè)計(jì)的基于Hadoop云平臺(tái)的空間屬性數(shù)據(jù)挖掘技術(shù)后,農(nóng)業(yè)生產(chǎn)場(chǎng)景更加有序,利用本文技術(shù)挖掘數(shù)據(jù),可有效提升數(shù)據(jù)挖掘的速度,能夠較好地實(shí)現(xiàn)數(shù)據(jù)去噪;當(dāng)時(shí)間不斷增加,本文技術(shù)在對(duì)空間屬性數(shù)據(jù)進(jìn)行處理時(shí)的數(shù)據(jù)結(jié)構(gòu)相似度也有所上升,進(jìn)行去噪時(shí)可有效保障完整的數(shù)據(jù)結(jié)構(gòu)。

      4 結(jié)束語

      本文研究基于Hadoop云平臺(tái)的空間屬性數(shù)據(jù)挖掘技術(shù),通過搭建Hadoop云平臺(tái)實(shí)現(xiàn)對(duì)空間屬性數(shù)據(jù)的多角度處理,在平臺(tái)中設(shè)計(jì)數(shù)據(jù)挖掘技術(shù),利用樸素貝葉斯分類器完成空間屬性數(shù)據(jù)的挖掘。樸素貝葉斯分類器能夠有效提升挖掘的精確度。利用本文數(shù)據(jù)挖掘技術(shù),能夠較好地實(shí)現(xiàn)數(shù)據(jù)去噪,有效保障數(shù)據(jù)的完整,挖掘結(jié)果較為精準(zhǔn),有效提升數(shù)據(jù)挖掘的速度,將其應(yīng)用在農(nóng)業(yè)生產(chǎn)中,能增加經(jīng)濟(jì)效益。在后續(xù)研究中,可繼續(xù)優(yōu)化本文技術(shù),使這一平臺(tái)可應(yīng)用至各個(gè)領(lǐng)域中,實(shí)現(xiàn)多種數(shù)據(jù)的挖掘。

      猜你喜歡
      屬性數(shù)據(jù)貝葉斯數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于GIS的房產(chǎn)測(cè)繪管理信息系統(tǒng)架構(gòu)研究
      科技資訊(2019年18期)2019-09-17 11:03:28
      無源多傳感器綜合數(shù)據(jù)關(guān)聯(lián)算法研究
      屬性數(shù)據(jù)分析教學(xué)改革初探
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      额敏县| 容城县| 门头沟区| 沙洋县| 庆阳市| 土默特右旗| 玉树县| 原平市| 陈巴尔虎旗| 汉川市| 龙泉市| 宁化县| 高要市| 中西区| 台江县| 博白县| 深水埗区| 凤山市| 石景山区| 区。| 马龙县| 华容县| 华蓥市| 龙口市| 安平县| 玛多县| 黎川县| 邳州市| 肥乡县| 贡觉县| 林州市| 泰宁县| 南溪县| 安远县| 西和县| 南宁市| 永兴县| 余江县| 蓝山县| 临沧市| 南昌市|