胡麗娜
(黑龍江工業(yè)學(xué)院,黑龍江 雞西 158100)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,龐大數(shù)據(jù)中隱藏著很多價(jià)值信息,為了在大量的數(shù)據(jù)中找到其存在的規(guī)律,技術(shù)人員必須采用數(shù)據(jù)挖掘技術(shù),從而有效預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。氣象數(shù)據(jù)在國(guó)民經(jīng)濟(jì)建設(shè)與科學(xué)研究過(guò)程中具備十分重要的價(jià)值,應(yīng)用十分廣泛,可為基礎(chǔ)的地面與高空氣象提供更多的參考資料,且很多災(zāi)害資料與雷達(dá)氣象資料中蘊(yùn)藏著氣象規(guī)律,可有效預(yù)測(cè)氣象。因此,在提取價(jià)值氣象數(shù)據(jù)的過(guò)程中,應(yīng)用云計(jì)算與關(guān)聯(lián)規(guī)則挖掘技術(shù)具備十分重要的作用。
當(dāng)前對(duì)云計(jì)算并未形成公認(rèn),其具備高度可靠性、虛擬性、可拓展性、分布性以及資源聚合性等特點(diǎn)?;谠朴?jì)算主要指的是結(jié)合各個(gè)服務(wù)器的資源,通過(guò)虛擬技術(shù)將開發(fā)的服務(wù)與網(wǎng)絡(luò)計(jì)算擴(kuò)展至每一個(gè)服務(wù)器,從而實(shí)現(xiàn)超級(jí)計(jì)算的功能。當(dāng)前關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用十分廣泛,其可以有效發(fā)現(xiàn)事物數(shù)據(jù)庫(kù)各個(gè)屬性之間的關(guān)聯(lián),隨著關(guān)聯(lián)規(guī)則挖掘技術(shù)的深入研究,工作人員改進(jìn)優(yōu)化了技術(shù)算法,包括FP-Tree 算法等。
在本次研究中,首先,技術(shù)人員準(zhǔn)備硬件與軟件環(huán)境,并開始進(jìn)行算法實(shí)驗(yàn)。第一步應(yīng)利用一個(gè)磁盤與兩臺(tái)服務(wù)器搭建實(shí)驗(yàn)環(huán)境,且實(shí)驗(yàn)采用三節(jié)點(diǎn)集群方式,利用weiUbuntu 12.04 版的操作版本,并在服務(wù)區(qū)中采用虛擬3臺(tái)PC 機(jī)。同時(shí),應(yīng)在Hadoop 平臺(tái)版上搭建集群,且采用完全分布模式搭建Hadoop 環(huán)境,并在后期考慮Hadoop 集群的裝備配置。具體步驟為:配置Hadoop 運(yùn)行環(huán)境,并通過(guò)修改配置文件啟動(dòng)或關(guān)閉集群。為了便于后期的開發(fā)與調(diào)試工作,在完成之后配置基于Eclipse 的Hadoop 應(yīng)用開發(fā)環(huán)境,在實(shí)現(xiàn)遠(yuǎn)程操作的基礎(chǔ)上,在Eclipse 集成環(huán)境中測(cè)試與編譯代碼,提升開發(fā)效率。整個(gè)過(guò)程中做好集成環(huán)境與插件類型的選擇工作,在完成準(zhǔn)備工作后便開始部署Hadoop。第二步則開始進(jìn)入正式的實(shí)驗(yàn)階段,技術(shù)人員應(yīng)做好數(shù)據(jù)的準(zhǔn)備工作,利用中國(guó)地面國(guó)際交換站的氣候資料數(shù)據(jù)集尋找氣象數(shù)據(jù)局。平均風(fēng)速、平均氣溫、平均相對(duì)濕度、降水量以及小型蒸發(fā)量屬于收集資料內(nèi)容,應(yīng)根據(jù)上述資料完成數(shù)據(jù)的挖掘與預(yù)測(cè)工作。同時(shí),技術(shù)人員在遵循氣象數(shù)據(jù)關(guān)聯(lián)規(guī)則的基礎(chǔ)上,離散化相關(guān)數(shù)據(jù),并將屬性轉(zhuǎn)化為布爾型,之后挖掘關(guān)聯(lián)規(guī)則。
其次,開始進(jìn)行本次實(shí)驗(yàn),在使用Eclipse 平臺(tái)的基礎(chǔ)上利用Java 語(yǔ)言編寫FP-Tree,并將待挖掘的數(shù)據(jù)上傳至Ha-doop 分布式文件系統(tǒng),做好相關(guān)文件的標(biāo)注工作,之后找到運(yùn)算結(jié)果。之后將挖掘數(shù)據(jù)進(jìn)行統(tǒng)一,了解程序的運(yùn)行狀態(tài),在完成程序運(yùn)行后通過(guò)保存的文件獲得試驗(yàn)結(jié)果。之后改變各個(gè)參數(shù)反復(fù)完成試驗(yàn),提取獲得實(shí)際數(shù)據(jù)的挖掘結(jié)果,做好氣象數(shù)據(jù)的預(yù)測(cè)工作。同時(shí),挖掘期間應(yīng)考慮數(shù)據(jù)的大小問題,大數(shù)據(jù)為集群性測(cè)試的關(guān)鍵因素,為了確保算法結(jié)果的準(zhǔn)確性,應(yīng)在單機(jī)環(huán)境與分布式環(huán)境中完成大小不同數(shù)據(jù)的試驗(yàn)工作,對(duì)相同數(shù)據(jù)進(jìn)行支持度的試驗(yàn),對(duì)同組數(shù)據(jù)根據(jù)Mab 數(shù)大小的不同試驗(yàn)。最后,應(yīng)充分了解氣象數(shù)據(jù)中氣象結(jié)果的預(yù)測(cè)作用,在本次實(shí)驗(yàn)中,技術(shù)人員收集了各種真實(shí)數(shù)據(jù)信息,但利用信任度與支持度的關(guān)聯(lián)規(guī)則挖掘無(wú)法有效判斷預(yù)測(cè)結(jié)果的真實(shí)性,對(duì)此還應(yīng)考慮計(jì)算規(guī)則相關(guān)性問題,計(jì)算時(shí)間同時(shí)出現(xiàn)可能性與各個(gè)事件完全獨(dú)立性可能性的比例,當(dāng)比例小于1 時(shí),呈負(fù)相關(guān),無(wú)意義。當(dāng)結(jié)果等于1 時(shí)則代表事件相互獨(dú)立,當(dāng)結(jié)果大于1 時(shí),呈正相關(guān),有意義。
當(dāng)前我國(guó)氣象事業(yè)正處于不斷發(fā)展的過(guò)程中,對(duì)天氣預(yù)報(bào)具備十分重要的意義。對(duì)此,相關(guān)工作人員應(yīng)利用云計(jì)算與關(guān)聯(lián)規(guī)則挖掘技術(shù)在海量信息數(shù)據(jù)中挖掘更多有價(jià)值的信息,提升算法效率,增強(qiáng)氣象數(shù)據(jù)的可用價(jià)值。本次研究雖然獲得了一定的成效,但依然存在很多亟待改善的地方,需要更多學(xué)者投入其中,完善理論與實(shí)踐基礎(chǔ)。