王 昊,師 衛(wèi),李 歡(太原理工大學(xué)信息工程學(xué)院,太原030024)
Hadoop下基于貝葉斯網(wǎng)絡(luò)的氣象數(shù)據(jù)挖掘研究
王昊,師衛(wèi)*,李歡
(太原理工大學(xué)信息工程學(xué)院,太原030024)
為了提高傳統(tǒng)樸素貝葉斯分類器對(duì)氣象數(shù)據(jù)挖掘的精度,擁有更高的處理海量數(shù)據(jù)的效率,提出了一種Hadoop平臺(tái)下基于離散貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)挖掘改進(jìn)算法。算法不要求屬性之間相互獨(dú)立,且充分結(jié)合Hadoop平臺(tái)適應(yīng)處理大數(shù)據(jù)的優(yōu)點(diǎn),利用海量數(shù)據(jù)選取預(yù)測(cè)因子來(lái)訓(xùn)練貝葉斯網(wǎng)絡(luò)分類器模型,以達(dá)到預(yù)測(cè)溫度的目的。實(shí)驗(yàn)結(jié)果表明,算法不但預(yù)測(cè)精度明顯高于目前短期氣候預(yù)測(cè)中采用的樸素貝葉斯算法,而且極大地提高了運(yùn)算效率。
數(shù)據(jù)挖掘;貝葉斯網(wǎng)絡(luò);Hadoop;MapReduce;氣象預(yù)測(cè)
自古以來(lái)氣象預(yù)報(bào)在防災(zāi)減災(zāi)和國(guó)民經(jīng)濟(jì)建設(shè)中都發(fā)揮著巨大作用,隨著社會(huì)經(jīng)濟(jì)的發(fā)展和人民生活水平的提高,如何更加準(zhǔn)確高效的進(jìn)行天氣預(yù)測(cè)也越來(lái)越重要[1]。
傳統(tǒng)基于樸素貝葉斯分類器[2]的氣象預(yù)測(cè)算法在處理大規(guī)模數(shù)據(jù)時(shí)缺點(diǎn)越來(lái)越突出,主要表現(xiàn)為:一是沒(méi)有充分考慮到氣象屬性的特點(diǎn),仍以屬性之間互不相關(guān)為基本出發(fā)點(diǎn);二是隨著氣象預(yù)報(bào)要求的不斷提高,氣象數(shù)據(jù)計(jì)算規(guī)模急劇膨脹,其處理數(shù)據(jù)的效率已不能適應(yīng)現(xiàn)代天氣預(yù)測(cè)的要求。
針對(duì)上述不足,本文提出Hadoop[3]下基于貝葉斯網(wǎng)絡(luò)的氣象預(yù)測(cè)算法。該算法以貝葉斯網(wǎng)絡(luò)[4]為理論依據(jù),在Hadoop平臺(tái)下,利用MapReduce[5]對(duì)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)中的預(yù)處理、模型訓(xùn)練和精度評(píng)估3個(gè)過(guò)程進(jìn)行分布式并行處理,充分利用了海量的氣象數(shù)據(jù)中蘊(yùn)藏的大量有價(jià)值的信息。
1.1樸素貝葉斯分類器和貝葉斯網(wǎng)絡(luò)分類器
樸素貝葉斯分類器(Native Bayes)[6]是基于貝葉斯公式的一類簡(jiǎn)單概率分類器,它以各個(gè)屬性間的條件獨(dú)立性假設(shè)為前提,假定特征向量的各分量間相對(duì)于決策變量是相對(duì)獨(dú)立的,也就是說(shuō)各分量獨(dú)立地作用于決策變量,因此構(gòu)造過(guò)程簡(jiǎn)單,具有錯(cuò)誤率小、穩(wěn)定、健壯性強(qiáng)等特點(diǎn)。在氣象數(shù)據(jù)量小的時(shí)代,這種條件獨(dú)立假設(shè)還能保持比較高的準(zhǔn)確性,但是在海量氣象數(shù)據(jù)面前,這種假設(shè)的缺點(diǎn)變得越來(lái)越明顯。
與樸素貝葉斯所不同,貝葉斯網(wǎng)絡(luò)是一種概率網(wǎng)絡(luò),是基于概率推理的圖形化網(wǎng)絡(luò),貝葉斯公式是這個(gè)概率網(wǎng)絡(luò)的基礎(chǔ)。它采用圖形化的網(wǎng)路結(jié)構(gòu)直觀地表達(dá)變量的聯(lián)合概率分布及其條件獨(dú)立性,一個(gè)貝葉斯網(wǎng)絡(luò)是一個(gè)有向無(wú)環(huán)圖,由代表變量結(jié)點(diǎn)及連接這些結(jié)點(diǎn)的有向邊組成。
一個(gè)完整的貝葉斯網(wǎng)絡(luò)是由一個(gè)二元組B=(BS,BP),BS是貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),包括網(wǎng)絡(luò)結(jié)構(gòu)中的節(jié)點(diǎn)集合A,每一節(jié)點(diǎn)表示特定域中一個(gè)特征屬性,還包括有直接關(guān)系的節(jié)點(diǎn)之間的有向邊E,BP是每一節(jié)點(diǎn)都附有與該變量相聯(lián)系的條件概率分布函數(shù)(CPT),如果變量是離散的,則它表現(xiàn)為給定其父節(jié)點(diǎn)狀態(tài)時(shí)該節(jié)點(diǎn)取不同值的條件概率表(CPT),表示它們之間的概率依賴關(guān)系,當(dāng)節(jié)點(diǎn)X沒(méi)有父節(jié)點(diǎn)時(shí),節(jié)點(diǎn)X的CPT中只有X的先驗(yàn)概率P(X),當(dāng)節(jié)點(diǎn)X有k個(gè)父節(jié)點(diǎn){Y1,…,Yk}時(shí),節(jié)點(diǎn)X的CPT中是條件概率P(X|Y1,…,Yk)??梢?jiàn),貝葉斯網(wǎng)是一種表示數(shù)據(jù)變量之間潛在關(guān)系的定性定量的方法,它使用這種圖形結(jié)構(gòu)制定了一組條件獨(dú)立的聲明和用于刻畫(huà)概率依賴強(qiáng)度的條件概率的數(shù)字值。
1.2貝葉斯網(wǎng)絡(luò)學(xué)習(xí)
貝葉斯網(wǎng)絡(luò)具有牢固的數(shù)學(xué)基礎(chǔ),Pearl在其[1988]的專著[7]中奠定了貝葉斯網(wǎng)絡(luò)的了基礎(chǔ)理論。其中給出并證明了如下定理:
對(duì)給定的概率分布P(x1,…,xn),存在P的貝葉斯網(wǎng)絡(luò)G,使,其中πxi是Xi的父結(jié)點(diǎn)集∏xi的配置。
貝葉斯網(wǎng)絡(luò)學(xué)習(xí)一般包含兩個(gè)內(nèi)容,貝葉斯參數(shù)學(xué)習(xí)和貝葉斯結(jié)構(gòu)學(xué)習(xí),而貝葉斯網(wǎng)絡(luò)學(xué)習(xí)的核心是對(duì)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)?,F(xiàn)在最流行的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法可分為兩類,一類是基于搜索評(píng)分的學(xué)習(xí)方法,此方法過(guò)程簡(jiǎn)單規(guī)范,易于操作,但由于搜索空間大,一般只適用于變量少或在一定范圍內(nèi)的結(jié)構(gòu)學(xué)習(xí);還有一類是基于約束測(cè)試的學(xué)習(xí)方法,此方法過(guò)程比較復(fù)雜,但在一些假設(shè)下學(xué)習(xí)效率較高,而且在耗時(shí)方面,它往往要更快一些?,F(xiàn)有的約束測(cè)試方法中,冗余邊檢測(cè)是在確定邊的方向之前進(jìn)行,這樣無(wú)法準(zhǔn)確地確定切割集,這就導(dǎo)致大量的高維條件概率計(jì)算,這樣經(jīng)常不能定向所有的邊,這些都降低了學(xué)習(xí)效率和準(zhǔn)確性[8]。
本文在此基礎(chǔ)上提出了基于預(yù)測(cè)能力的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)方法。
1.3基于預(yù)測(cè)能力的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)
因?yàn)轭A(yù)測(cè)能力就是預(yù)測(cè)正確率,預(yù)測(cè)能力相同是條件獨(dú)立性的充分必要條件[9],這樣預(yù)測(cè)能力便把變量之間弧的存在性與方向有機(jī)的結(jié)合在一起。此結(jié)構(gòu)學(xué)習(xí)算法首先依次計(jì)算兩個(gè)變量之間的預(yù)測(cè)能力,再根據(jù)條件預(yù)測(cè)能力確定弧的存在性及方向。
設(shè)有離散隨機(jī)變量X1,X2,…,Xn,x1,x2,…,xn為變量的值;D是變量X1,X2,…,Xn產(chǎn)生的大小為N的隨機(jī)數(shù)據(jù)集。
將F(Xi→Xi)定義為變量Xi的自預(yù)測(cè)能力,F(xiàn)^(Xi→Xi)記作F(Xi→Xi)的估計(jì)值;
將F(Xm1,…,Xmt→Xi)定義為變量 Xm1,…,Xmt對(duì)變量 Xi的預(yù)測(cè)能力,F(xiàn)^(Xm1,…,Xmt→Xi)記作F(Xm1,…,Xmt→Xi)的估計(jì)值。
第1步確定貝葉斯網(wǎng)絡(luò)的初始結(jié)構(gòu)
Xj→Xi;
Xi→Xj
第2步對(duì)初始結(jié)構(gòu)進(jìn)行調(diào)整
如果P(X|Y1,…,Yk)>ρz,則添加弧Xj→Xi;
則刪除Xi→Xj之間的??;
定向?yàn)閄j→Xi;
第3步進(jìn)行環(huán)路檢驗(yàn)[11]
在經(jīng)過(guò)第二步調(diào)整過(guò)的結(jié)構(gòu)圖中,我們要把沒(méi)有父結(jié)點(diǎn)或沒(méi)有子結(jié)點(diǎn)的結(jié)點(diǎn)和與他們相連的弧刪除,在剩下的子圖中依照剛剛的做法把這些結(jié)點(diǎn)和弧都刪除,這樣一直做下去,若始終沒(méi)有出現(xiàn)一個(gè)每個(gè)結(jié)點(diǎn)都既有父結(jié)點(diǎn)又有子結(jié)點(diǎn)的子圖,則說(shuō)明結(jié)構(gòu)圖不存在環(huán)路。否則,存在環(huán)路。
針對(duì)溫度氣象數(shù)據(jù)集特征,基于MapReduce改進(jìn)貝葉斯網(wǎng)絡(luò)算法的過(guò)程包括:數(shù)據(jù)預(yù)處理、模型訓(xùn)練和精度評(píng)估三大過(guò)程。其流程圖如圖1所示。
圖1 算法流程圖
2.1數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)清洗
氣象數(shù)據(jù)質(zhì)量的好壞直接影響著氣象領(lǐng)域中數(shù)據(jù)挖掘的準(zhǔn)確度。實(shí)驗(yàn)中采集到中國(guó)地面氣候資料日值數(shù)據(jù)集中,存在缺省漏測(cè)和格式不一致的數(shù)據(jù)值,這嚴(yán)重影響到數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至有可能導(dǎo)致挖掘結(jié)果的偏差,故需要對(duì)數(shù)據(jù)集進(jìn)行清洗。首先,基于MapReduce編程模型,統(tǒng)計(jì)含有缺失值的數(shù)據(jù)條數(shù),結(jié)果顯示日值數(shù)據(jù)集中含有缺失值的數(shù)據(jù)條數(shù)占總條數(shù)不到1%,因而直接采用把不完整的數(shù)據(jù)全部剔除出數(shù)據(jù)集;其次,基于MapReduce編程模型,對(duì)數(shù)據(jù)格式不一致的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換。最終使得數(shù)據(jù)集中的每一條數(shù)據(jù)都是格式一致的和完整可靠的。
(2)預(yù)測(cè)因子選擇
基于MapReduce編程模型完成對(duì)溫度和其他氣象要素之間的相關(guān)性分析,選取合適的預(yù)測(cè)因子。對(duì)于任意兩個(gè)氣象要素X和Y,其相關(guān)系數(shù)的計(jì)算公式為:
γXY取值在-1到1之間。當(dāng)γXY=0時(shí),稱X與Y不相關(guān);當(dāng)|γXY|=1時(shí),稱X與Y完全相關(guān),此時(shí),X與Y之間具有線性函數(shù)關(guān)系;當(dāng)|γXY|<1時(shí),X的變動(dòng)引起Y的部分變動(dòng),γXY的絕對(duì)值越大,X的變動(dòng)引起Y的變動(dòng)就越大,一般情況下當(dāng)|γXY|>0.8時(shí)為高度相關(guān),當(dāng)0.5<|γXY|<0.8時(shí)為顯著相關(guān),當(dāng)0.3<|γXY|<0.5時(shí)為低度相關(guān),當(dāng)|γXY|<0.3時(shí)為不相關(guān)。
(3)數(shù)據(jù)離散化和整理
根據(jù)氣溫在一年中的分布情況,把氣溫按照溫度的高低分為寒冷(-15℃以下),涼爽(-15℃~0℃),溫和(0℃~15.9℃),暖和(15.9℃~25℃),炎熱(25℃以上)5個(gè)級(jí)別。
數(shù)據(jù)預(yù)處理分為兩個(gè)任務(wù),一個(gè)是離散化預(yù)測(cè)因子,另一個(gè)是輸出整理數(shù)據(jù)與溫度分級(jí)標(biāo)識(shí)。這兩個(gè)任務(wù)是獨(dú)立的,因此將這兩個(gè)過(guò)程作為并行的MapReduce任務(wù)完成,定義Step1負(fù)責(zé)預(yù)測(cè)因子的區(qū)間離散化,定義Step2負(fù)責(zé)輸出數(shù)據(jù)整理與溫度分級(jí)標(biāo)識(shí)。
①Step 1預(yù)測(cè)因子在數(shù)據(jù)集中以數(shù)字值的形式描述,因此需要對(duì)預(yù)測(cè)因子進(jìn)行離散化操作。首先對(duì)預(yù)測(cè)因子和預(yù)測(cè)目標(biāo)做標(biāo)識(shí),如下表所示:
離散過(guò)程中,我們采用PKI算法[12],其一般采取離散區(qū)間大小等于離散區(qū)間數(shù)量的方法,但是在數(shù)據(jù)量巨大且分布不均勻的情況下,離散區(qū)間大小過(guò)大,會(huì)使得有些區(qū)間內(nèi)沒(méi)有值。針對(duì)氣象數(shù)據(jù)大而不均的特點(diǎn),我們令k=,以達(dá)到擴(kuò)大區(qū)間的目的。
基于MapReduce編程模型完成統(tǒng)計(jì)預(yù)測(cè)因子的最大值和最小值,因此各個(gè)預(yù)測(cè)因子的離散化區(qū)間寬度w表達(dá)式如下:
②Step 2輸出數(shù)據(jù)需要進(jìn)行整理,定義當(dāng)前日期為t,則前一日為t-1,整理后每一行數(shù)據(jù)為(t-2,t-1,t)的各個(gè)預(yù)測(cè)因子和明日的氣溫等級(jí)。Hadoop框架中的MapReduce的shuffle過(guò)程會(huì)將相同的key值放在一起,可以將t-2,t-1,t的各個(gè)預(yù)測(cè)因子所生成的key值設(shè)置為待連接的每一行,然后MapReduce框架會(huì)自行將其連接起來(lái)。
2.2模型訓(xùn)練
一般情況下,為了提高數(shù)據(jù)挖掘的準(zhǔn)確度,將數(shù)據(jù)預(yù)處理中的J2整理的數(shù)據(jù)集分為兩部分:80%訓(xùn)練集和20%測(cè)試集,訓(xùn)練集用于訓(xùn)練貝葉斯網(wǎng)絡(luò)模型,測(cè)試集用于測(cè)試貝葉斯網(wǎng)絡(luò)分類模型的精度。模型訓(xùn)練過(guò)程中,分為兩大任務(wù),一是統(tǒng)計(jì)各個(gè)溫度級(jí)別頻率和各個(gè)預(yù)測(cè)因子頻率,另一是根據(jù)統(tǒng)計(jì)的頻率計(jì)算各個(gè)預(yù)測(cè)因子之間以及預(yù)測(cè)因子與預(yù)測(cè)目標(biāo)之間的預(yù)測(cè)能力,后一次的過(guò)程依賴于前一次的頻率統(tǒng)計(jì)結(jié)果。
根據(jù)計(jì)算出的預(yù)測(cè)能力,運(yùn)用第1節(jié)提出的算法,經(jīng)過(guò)確定初始貝葉斯結(jié)構(gòu)、調(diào)整初始貝葉斯結(jié)構(gòu)和環(huán)路檢驗(yàn)3個(gè)步驟,最終確定出貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)。
2.3精度評(píng)估
精度評(píng)估MapReduce過(guò)程中,將測(cè)試集分割成多個(gè)小塊,對(duì)每一小塊中各行數(shù)據(jù)通過(guò)分類模型進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果與測(cè)試集中的溫度真實(shí)數(shù)據(jù)進(jìn)行比較,記錄其正確與否的情況。最后用MapReduce統(tǒng)計(jì)預(yù)測(cè)情況,計(jì)算出正確率和預(yù)測(cè)率,公式如下:
正確率=正確分類數(shù)/實(shí)際分類數(shù)預(yù)測(cè)率=正確分類數(shù)/真實(shí)分類數(shù)在精度評(píng)估過(guò)程中,通過(guò)式(3)
預(yù)測(cè)分類時(shí),由于數(shù)據(jù)量大且分布不均,導(dǎo)致大量的條件概率相乘后,引起浮點(diǎn)數(shù)結(jié)果下溢的情況,因此對(duì)上式兩邊用求對(duì)數(shù)做處理,則c可表示為式(4)
精度評(píng)估結(jié)果不理想時(shí),需對(duì)模型重新訓(xùn)練,直到結(jié)果可以接受為止。
3.1實(shí)驗(yàn)環(huán)境和數(shù)據(jù)
本文實(shí)驗(yàn)環(huán)境基于Hadoop云平臺(tái),采用完全分布式模式搭建于9臺(tái)普通PC機(jī)上,其中一臺(tái)為NameNode,其余八臺(tái)作為DataNode。電腦的配置如下:3.4 GHz雙核CPU、4 G內(nèi)存、150 G磁盤(pán)、Linux CentOS 6.0操作系統(tǒng)、Hadoop 1.0.2版本。
研究數(shù)據(jù)來(lái)自中國(guó)的氣象數(shù)據(jù)共享服務(wù)體系從1951年到2014年的環(huán)境數(shù)據(jù),包括降水量、平均氣溫、平均氣壓、平均風(fēng)速、平均相對(duì)濕度、日照時(shí)數(shù)、最大風(fēng)速、最大風(fēng)速的方向等其他因素。我們?cè)囼?yàn)采取的數(shù)據(jù)是太原市從1951年到2014年底的全部數(shù)據(jù)。
3.2實(shí)驗(yàn)結(jié)果與分析
(1)相關(guān)性分析
首先通過(guò)對(duì)數(shù)據(jù)的清洗,把原來(lái)不完整、格式不正確的數(shù)據(jù)全部剔除出我們的數(shù)據(jù)庫(kù)。然后對(duì)各類各類預(yù)測(cè)因子進(jìn)行標(biāo)識(shí),并計(jì)算它們與氣溫之間的相關(guān)系數(shù)。計(jì)算結(jié)果如表1所示。
表1 各個(gè)氣象要素與平均氣溫之間的相關(guān)系數(shù)
我們?cè)谠囼?yàn)中選取|γXY|>0.3的氣象要素作為預(yù)測(cè)因子,他們分別是平均氣壓B、平均水汽壓D、日最低氣溫G、日最高氣溫H和小型蒸發(fā)量I,平均氣溫是我們的目標(biāo)因子,我們用字母R作為它的標(biāo)識(shí)。
(2)模型訓(xùn)練
取 ρc=ρz=ρj=1.1,根據(jù)計(jì)算出的變量之間的預(yù)測(cè)能力,得到初始的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖,如圖2所示。
調(diào)整貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過(guò)調(diào)整后的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 調(diào)整后的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖
(3)精度評(píng)估
本實(shí)驗(yàn)的正確率和預(yù)測(cè)率如表2所示,其中R0代表寒冷,R1代表涼爽,R2代表溫和,R3代表暖和,R4代表炎熱。
表2 正確率和預(yù)測(cè)率
圖4和圖5分別展示了本算法和短期預(yù)測(cè)的樸素貝葉斯分類方法在正確率和預(yù)測(cè)率方面的對(duì)比,通過(guò)圖形可以看出,不管是在正確率方面還是在預(yù)測(cè)率方面,本文算法都有較大的優(yōu)勢(shì)。
圖4 正確率對(duì)比圖
圖5 預(yù)測(cè)率對(duì)比圖
(4)效率評(píng)估
為了驗(yàn)證本文方案在海量氣象數(shù)據(jù)情況下的運(yùn)行效率,如圖5,我們采用加速比對(duì)集群執(zhí)行時(shí)間與單機(jī)時(shí)間進(jìn)行對(duì)比。加速比公式定義為:
加速比=單機(jī)執(zhí)行時(shí)間/集群執(zhí)行時(shí)間
如圖6所示,在數(shù)據(jù)量較大的情況下,本文方案的加速比接近于線性加速比。隨著節(jié)點(diǎn)數(shù)的增多,對(duì)海量數(shù)據(jù)訓(xùn)練的加速優(yōu)勢(shì)也就越明顯。
圖6 加速比曲線
本文對(duì)Hadoop下基于貝葉斯網(wǎng)絡(luò)的氣象數(shù)據(jù)挖掘進(jìn)行了研究,給出了一種基于預(yù)測(cè)能力的離散貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)和Hadoop相結(jié)合處理數(shù)據(jù)的新方法,該方法具有以下特點(diǎn):(1)可以充分利用大數(shù)據(jù)時(shí)代下的海量數(shù)據(jù),有效避免信息丟失及假依賴的出現(xiàn)(2)運(yùn)算效率及準(zhǔn)確率高于常規(guī)預(yù)測(cè)方法(3)不要求預(yù)測(cè)因子相互獨(dú)立等,對(duì)預(yù)測(cè)因子要求不高(4)能夠處理不完全、不精確或不確定訓(xùn)練數(shù)據(jù)集。在數(shù)據(jù)量不斷飛漲的今天,此算法提供了在海量數(shù)據(jù)中挖掘有用的信息的新思路,其在電子商務(wù)、移動(dòng)互聯(lián)網(wǎng)、反恐等諸多領(lǐng)域的應(yīng)用值得進(jìn)一步研究。
[1] 樊改娥,張順利.淺談氣象預(yù)報(bào)的作用[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2008,18(16):217-218.
[2] 張晨陽(yáng),劉利民,馬志強(qiáng).云計(jì)算下基于貝葉斯分類的氣象數(shù)據(jù)挖掘研究[D].內(nèi)蒙古:內(nèi)蒙古工業(yè)大學(xué),2014.
[3] 李斌,張建平,劉學(xué)軍.基于Hadoop的不確定異常時(shí)間序列檢測(cè)[J].傳感技術(shù)學(xué)報(bào),2015,28(7):1066-1072.
[4] 史志富,郭曜華.機(jī)載光電系統(tǒng)目標(biāo)威脅估計(jì)的模糊貝葉斯網(wǎng)絡(luò)方法[J].傳感技術(shù)學(xué)報(bào),2011,24(11):1584-1589.
[5] Kadirvel SELVI,F(xiàn)ortes JAB.Towards Self-Caring MapReduce:A Study of Performance Penalties Under Faults[J].Concurrency and Computation-Practice&Experience,2015,27(9):2310-2328.
[6] 趙力.基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法[J].電子器件,2015,38(5):1135-1137.
[7] Peal J.Fusion ProPagation and Structuring in Belief Network[J]. Artificial Intelligence,1986,29:241-288
[8] 馬明,劉浩然.貝葉斯網(wǎng)絡(luò)算法研究及應(yīng)用[D].秦皇島:燕山大學(xué),2014.
[9] 張劍飛,王輝,王雙成.基于預(yù)測(cè)能力的貝葉斯網(wǎng)絡(luò)分類器學(xué)習(xí)[J].計(jì)算機(jī)應(yīng)用研究,2007,24(8):50-52.
[10]Lam W,Bacchus F.Learning Bayesian Belief Network:An Approach Based on the MDL Principle[J].Computational Intelligence,1994,10:269-293.
[11]李碩豪,張軍.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究,2015(3):641-646.
[12]Yang Y,Webb G I.Weighted Proportional k-Interval Discretization for Naive Bayes Classifiers[C]//The 7th Pacific-Asia Conference on Knowledge Discovery and Data Mining(PAKDD),2009:501-512.
王昊(1989-),男,漢族,河北省保定人,太原理工大學(xué)信息工程學(xué)院,碩士研究生在讀,主要研究方向?yàn)榇髷?shù)據(jù)挖掘,wanghao_tyut@163.com;
師衛(wèi)(1956-),男,漢族,山西省朔州人,太原理工大學(xué)信息工程學(xué)院,副教授,主要研究方向?yàn)榍度胧较到y(tǒng)研究、大數(shù)據(jù)挖掘,shi_w@163.com。
The Research of MeteorologicalData Mining Using Bayesian Network Based on Hadoop
WANG Hao,SHI Wei*,LI Huan
(Taiyuan Uniυersity of Technology Institute of Information Engineering,Taiyuan 030024,China)
In order to improve the precision of themeteorological datamining using raditionalnaive bayesian classifier,and own a higher efficiency ofhandling the huge amountsof data,this paper proposes an improved algorithm of discrete Bayesian network to predict the temperature.This algorithm can eliminate theweakness of naive bayesian method on the premise thatattributes are independentof each other,and combine the characteristics of the Hadoop platform processing large data.Usingmassivemeteorological data,it selects predictors and trains the Bayesian network classificationmodelon Hadoop platform.The experiments show that the improved algorithm isnotonly the accuracy is significantly higher than the short-term climate prediction using Naive Bayesian analysis,regression analysisand clusteranalysismethod,butalso improves the efficiency of the algorithm greatly.
datamining;bayesian network;hadoop;mapreduce;weather prognosis
TP301.6
A
1005-9490(2016)04-0841-06
2015-09-13修改日期:2015-11-19
EEACC:614010.3969/j.issn.1005-9490.2016.04.018