陳少斌 蘇 彥
(廣西崇左市氣象局,廣西 崇左 530001)
我國(guó)經(jīng)濟(jì)和社會(huì)發(fā)展迅速,導(dǎo)致氣候和氣象災(zāi)害對(duì)國(guó)家經(jīng)濟(jì)和社會(huì)帶來(lái)很大影響,因此社會(huì)對(duì)氣象服務(wù)的質(zhì)量需求就越來(lái)越高。氣象服務(wù)主要是對(duì)大量的氣象探測(cè)數(shù)據(jù)進(jìn)行分析整理,氣象信息數(shù)據(jù)要保證規(guī)范化、準(zhǔn)確化、豐富化和標(biāo)準(zhǔn)化,這是氣象工作的首要前提。最近幾年,地面自動(dòng)氣象站觀測(cè)系統(tǒng)已經(jīng)替代了原有的人工觀測(cè)站,自動(dòng)氣象站成為氣象觀測(cè)主要方式,其探測(cè)的氣象信息數(shù)據(jù)也成為天氣預(yù)報(bào)和科研人員的數(shù)據(jù)來(lái)源。并且自動(dòng)觀測(cè)數(shù)據(jù)和人工觀測(cè)相比時(shí)間和空間的密度都大幅度提升,在我國(guó)很多地區(qū)的氣象部門使用自動(dòng)氣象站觀測(cè)數(shù)據(jù),尤其是以數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和分析更受關(guān)注。
在如今的信息社會(huì)中大量數(shù)據(jù)中提取有用信息的能力是十分重要的,而數(shù)據(jù)庫(kù)的應(yīng)用就應(yīng)用而生,使用數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)存儲(chǔ)、統(tǒng)計(jì)和查詢等,但是數(shù)據(jù)庫(kù)卻無(wú)法發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系和遵守的規(guī)則,也不能預(yù)測(cè)未來(lái)發(fā)展情況。主要是因?yàn)槿狈?shù)據(jù)挖掘技巧,所以數(shù)據(jù)挖掘技術(shù)就逐步發(fā)展起來(lái),主要對(duì)信息材料進(jìn)行數(shù)據(jù)處理。
數(shù)據(jù)挖掘也成為對(duì)數(shù)據(jù)庫(kù)中知識(shí)的發(fā)現(xiàn),目前被大多數(shù)人認(rèn)同的定位是U.M.Fayyad等人提出的:從大量模糊、不安全、大量、隨機(jī)的數(shù)據(jù)中,提取人們不知道、潛在的有用信息的過(guò)程,提取的有用信息主要為規(guī)則、概念、規(guī)律或模式等。數(shù)據(jù)挖掘技術(shù)主要對(duì)各組織原來(lái)就具有的數(shù)據(jù)進(jìn)行分析,并整理、歸納和推理,從而為相關(guān)人員提供幫助和支持,實(shí)際上是一種決策支持的過(guò)程。
數(shù)據(jù)挖掘過(guò)程包括在某個(gè)特定的數(shù)據(jù)庫(kù)中提取模型,并圍繞數(shù)據(jù)挖掘進(jìn)行的結(jié)果表現(xiàn)和預(yù)處理過(guò)程,該過(guò)程具有反復(fù)性。對(duì)知識(shí)發(fā)現(xiàn)和提取的過(guò)程是由多個(gè)挖掘步驟構(gòu)成,其中數(shù)據(jù)挖掘是一個(gè)重要步驟。而完整的步驟由目標(biāo)定義階段、數(shù)據(jù)準(zhǔn)備階段和數(shù)據(jù)挖掘階段組成。
目前國(guó)際上對(duì)于氣象數(shù)據(jù)應(yīng)用在數(shù)據(jù)挖掘的技術(shù)是數(shù)據(jù)庫(kù)信息系統(tǒng)研究的主要方向,這也引起了氣象和學(xué)術(shù)界的重點(diǎn)關(guān)注,同時(shí)也吸引了很多研究人員和商業(yè)公司的關(guān)注。但是數(shù)據(jù)挖掘技術(shù)還需要面臨很多無(wú)法避免的問(wèn)題,為了保證數(shù)據(jù)挖掘的有效性,要檢查數(shù)據(jù)挖掘的期望特性,還要考慮將面臨的挑戰(zhàn):對(duì)并行挖掘的高度結(jié)構(gòu)和分布式的數(shù)據(jù)挖掘算法的探究;保證數(shù)據(jù)挖掘結(jié)果的確定性、可用性和解釋性;數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)和分析處理結(jié)合的開(kāi)發(fā);在多層知識(shí)面和多個(gè)抽象等級(jí)上進(jìn)行交互挖掘;數(shù)據(jù)挖掘建模語(yǔ)言和應(yīng)用規(guī)范的統(tǒng)一性、靈活性和開(kāi)放性。
氣象數(shù)據(jù)的時(shí)間和空間特性比較強(qiáng),所以利用時(shí)間分析、空間分析和時(shí)間空間結(jié)合對(duì)氣象數(shù)據(jù)分析,能夠有效避開(kāi)復(fù)雜的非線性動(dòng)力學(xué)機(jī)制的數(shù)據(jù),是分析氣象信息數(shù)據(jù)很好的出發(fā)點(diǎn)。對(duì)于氣象特征,要先通過(guò)空間分析,得到氣象特征的描述,再進(jìn)行時(shí)間分析,做出氣象特征的提前預(yù)報(bào)??臻g分析的過(guò)程為:首先,利用聚類分析手段對(duì)空間站點(diǎn)的數(shù)據(jù)信息進(jìn)行分析,并通過(guò)地理位置進(jìn)行劃分;然后再使用主成份分析法對(duì)數(shù)據(jù)分析,獲取氣象特征明顯的地區(qū);最后使用聚類分析方法對(duì)非正?,F(xiàn)象進(jìn)行分析。時(shí)間分析的過(guò)程是:首先利用回歸分析、趨勢(shì)預(yù)測(cè)和奇異分析對(duì)數(shù)據(jù)分析;然后跟蹤數(shù)據(jù)演變,最終得出結(jié)論。
能夠影響氣象的因素很多,并且關(guān)系很復(fù)雜,目前的氣象預(yù)報(bào)基本是通過(guò)衛(wèi)星、臺(tái)站觀測(cè)和雷達(dá)獲取數(shù)據(jù),然后通過(guò)復(fù)雜的計(jì)算得出,計(jì)算能力要求非常高,需要高性能的大型計(jì)算機(jī)才可以承受。所以,如果對(duì)預(yù)測(cè)結(jié)果精確度沒(méi)有影響的前提下,將數(shù)據(jù)維度有效降低,并降低對(duì)計(jì)算機(jī)資源的依賴,這樣能夠?qū)崿F(xiàn)利用一般計(jì)算機(jī)對(duì)數(shù)據(jù)處理的目標(biāo)。降維分析主要分為近似降維和精確降維兩種,近似降維主要是主成分分析方法,主要是對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)化,降低數(shù)據(jù)維數(shù)的同時(shí)保證數(shù)據(jù)集中對(duì)方差最大,分析中對(duì)高階成分忽略而保留低階成分,也就是保留數(shù)據(jù)的最重要部分,因此不夠精確;精確降維主要是粗糙集分析方法,直接對(duì)數(shù)據(jù)推理并分析,獲取潛在的知識(shí)和規(guī)律,其基本思想是將數(shù)據(jù)特性分為條件和結(jié)論兩種,然后根據(jù)特性分為不同子集,然后對(duì)子集和結(jié)論劃分子集之間形成近似空間,如果特性子集忽略某一屬性而對(duì)結(jié)論屬性乜有影響,那么就忽略此特性,這樣能夠精確降低數(shù)據(jù)維數(shù)。
氣象信息數(shù)據(jù)挖掘就是從復(fù)雜大量的氣象數(shù)據(jù)和資料中,建立可描述的復(fù)雜非線性氣象系統(tǒng)模型,對(duì)數(shù)據(jù)隱藏的知識(shí)和規(guī)律進(jìn)行分析,并且對(duì)未來(lái)的氣象信息進(jìn)行預(yù)測(cè),更好的為相關(guān)部門和研究人員提供數(shù)據(jù)。分類預(yù)測(cè)主要分為連續(xù)值預(yù)測(cè)和離散值預(yù)測(cè)兩種,其中連續(xù)值預(yù)測(cè)是利用回歸分析和神經(jīng)網(wǎng)絡(luò)對(duì)降雨量、溫度等進(jìn)行預(yù)測(cè);離散值預(yù)測(cè)主要利用決策樹(shù)、SVM分類算法、粗糙集、神經(jīng)網(wǎng)絡(luò)和分類統(tǒng)計(jì)等方法,對(duì)降雨、降霜、臺(tái)風(fēng)和暴雨等進(jìn)行預(yù)測(cè)。
關(guān)聯(lián)分析主要是多個(gè)事物間如果存在關(guān)聯(lián),那么利用其中一個(gè)事物能夠?qū)ζ渌挛镞M(jìn)行預(yù)測(cè),達(dá)到對(duì)數(shù)據(jù)間隱藏的關(guān)系進(jìn)行挖掘。由于氣象信息數(shù)據(jù)的多維性和時(shí)空性,所以氣象信息數(shù)據(jù)的關(guān)聯(lián)分析要從兩方面進(jìn)行分析:第一降低頻繁集個(gè)數(shù),對(duì)特定屬性關(guān)聯(lián)分析;第二是不同時(shí)空中對(duì)同一屬性的關(guān)聯(lián)分析。對(duì)于某一時(shí)空的氣象會(huì)受到周圍氣象因素的干擾,而且具有時(shí)間上的連續(xù)性,所以頻繁集的選取就要求跨地域、跨時(shí)間。對(duì)于氣象信息的數(shù)據(jù)庫(kù)中,氣象要素字段非常多,考慮所有字段的關(guān)聯(lián)就會(huì)導(dǎo)致頻繁集很多,而這樣復(fù)雜大量的頻繁集只有一部分具有價(jià)值,所以要找到關(guān)鍵字段,將該字段和其他字段同時(shí)發(fā)生的頻率進(jìn)行分析,這樣研究?jī)r(jià)值更高。
總之,氣象信息數(shù)據(jù)的領(lǐng)域和容量不斷拓寬并增長(zhǎng),如何對(duì)氣象數(shù)據(jù)進(jìn)行利用和挖掘已經(jīng)成為氣象領(lǐng)域研究人員面臨的重要問(wèn)題。本文對(duì)氣象信息數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,希望對(duì)相關(guān)人員有所幫助。
[1]李一平.數(shù)據(jù)挖掘技術(shù)在天氣預(yù)報(bào)中的應(yīng)用研究.內(nèi)蒙古大學(xué).2003
[2]韓濤.陜西省區(qū)域自動(dòng)氣象站觀測(cè)資料分析系統(tǒng)研究與實(shí)現(xiàn).西安電子科技大學(xué).2012