李愛民
數(shù)據(jù)挖掘技術(shù)作為現(xiàn)代統(tǒng)計分析技術(shù)之一,在經(jīng)歷統(tǒng)計中的應(yīng)用具有很大的優(yōu)勢,同時由于其自身特點,可以一定程度上提升數(shù)據(jù)深加工的效率。時代在發(fā)展,面對當(dāng)前這個龐雜繁瑣的經(jīng)濟統(tǒng)計體系,高效率的先進現(xiàn)代化處理手段的應(yīng)用已經(jīng)成為了一種趨勢,這些技術(shù)的應(yīng)用會改善我國當(dāng)前數(shù)據(jù)龐雜繁瑣難以“深加工”的現(xiàn)狀。筆者擬將對數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用進行分析。
數(shù)學(xué)挖掘技術(shù)的相關(guān)介紹
數(shù)據(jù)挖掘技術(shù)的主要內(nèi)容。所謂數(shù)據(jù)挖掘(Datammmg),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘技術(shù)的發(fā)展歷程。從20世紀70年代開始,平均的通訊量以每年幾倍的速度增長。一直到1995年,以Web技術(shù)為代表的信息發(fā)布系統(tǒng),爆炸式地成長起來,成為目前Internet的主要應(yīng)用。數(shù)據(jù)挖掘技術(shù)發(fā)展的第三個階段是EC(Electronic Commerce),即電子商務(wù)階段,IBM、HP和Sun等國際著名的信息技術(shù)廠商已經(jīng)宣布1998年為電子商務(wù)年。隨著SaaS(Software as a servlce)軟件服務(wù)模式的出現(xiàn),軟件紛紛登陸互聯(lián)網(wǎng),延長了電子商務(wù)鏈條,形成了當(dāng)下最新的“全程電子商務(wù)”概念模式。也因此形成了一門獨立的學(xué)科——數(shù)據(jù)挖掘與客戶關(guān)系管理碩士。
數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中應(yīng)用的優(yōu)勢
工作效率較高。數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用是存在很大優(yōu)勢的,由于其自身操作特點,工作效率會較其他技術(shù)來說會高出很多。數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)深加工技術(shù),其本身是具有很強的目的性的,在實踐活動的應(yīng)用中,一般會有兩種表現(xiàn)形式,即對積累的經(jīng)濟統(tǒng)計數(shù)據(jù)進行高效化處理以及對現(xiàn)有的經(jīng)濟統(tǒng)計數(shù)據(jù)進行高效化分析,不論是哪一種,都深深地體現(xiàn)了數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計應(yīng)用中的高效性。
綜合應(yīng)用性強。數(shù)據(jù)挖掘技術(shù)不同于其他現(xiàn)代數(shù)據(jù)處理手段,其并不是單一的數(shù)據(jù)處理技術(shù),而是一個數(shù)據(jù)處理系統(tǒng),所以在系統(tǒng)中可以完成操作者對數(shù)據(jù)的多種分析需求,具有很強的綜合應(yīng)用性。隨著社會的發(fā)展,經(jīng)濟管理部門對數(shù)據(jù)的需求量日漸龐大,但由于其所在部門中分工不同,對數(shù)據(jù)的處理需求也不盡相同。而數(shù)據(jù)挖掘技術(shù)則很好地適應(yīng)了這一現(xiàn)狀,作為一個數(shù)據(jù)處理系統(tǒng),數(shù)據(jù)挖掘技術(shù)剛好可以滿足不同部門的不同數(shù)據(jù)處理需求,具有很強的綜合應(yīng)用性。
宏觀數(shù)據(jù)庫可作為數(shù)據(jù)挖掘技術(shù)應(yīng)用的支持。數(shù)據(jù)挖掘技術(shù)的實現(xiàn)不同于其他的現(xiàn)代化數(shù)據(jù)處理技術(shù),因為數(shù)據(jù)挖掘技術(shù)有宏觀數(shù)據(jù)庫作為支持,在實際應(yīng)用中與其他現(xiàn)代數(shù)據(jù)處理技術(shù)相比具有很大的優(yōu)勢。當(dāng)前經(jīng)濟管理體系的運轉(zhuǎn)對數(shù)據(jù)有著不同的需求,但是當(dāng)前的數(shù)據(jù)采集手段仍然具有很大的局限性,這一問題嚴重影響著經(jīng)濟管理部門做出的決策。而數(shù)據(jù)挖掘技術(shù)有宏觀數(shù)據(jù)庫作為支持,就能在很大程度上改善當(dāng)前的數(shù)據(jù)收集現(xiàn)狀。
數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用方法分析
預(yù)處理方法。雖然數(shù)據(jù)挖掘技術(shù)有宏觀數(shù)據(jù)庫作為支持,卻并不能完全代替數(shù)據(jù)收集系統(tǒng)的作用,數(shù)據(jù)挖掘技術(shù)仍然是基于數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)深加工手段,數(shù)據(jù)預(yù)處理是主要應(yīng)用方法之一。數(shù)據(jù)預(yù)處理的主要內(nèi)容包括——數(shù)據(jù)的不真實、不準確、不正確、不同經(jīng)濟體系間數(shù)據(jù)差別較大等問題。只有將數(shù)據(jù)挖掘技術(shù)應(yīng)用到預(yù)處理后的數(shù)據(jù)中,才能得到實際應(yīng)用中所期望的處理結(jié)果,滿足不同經(jīng)濟管理部門間的數(shù)據(jù)處理需求。
決策樹方法。在通過數(shù)據(jù)挖掘技術(shù)獲得所需的數(shù)據(jù)處理結(jié)果后,對數(shù)據(jù)的整合和分析就顯得尤為重要。分析數(shù)據(jù)的輸出作為數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)之一,對經(jīng)濟管理部門做出的決策有著直接的影響。決策樹是常見的分析方法之一,首先需要利用訓(xùn)練集建立并精簡出一棵決策樹,進而利用構(gòu)建完畢的決策樹進行數(shù)據(jù)輸出的分類,同時還需要注意后續(xù)的“剪枝”環(huán)節(jié)。
集成化處理方法。集成化處理方法主要分為模式集成和冗余問題兩方面。由于當(dāng)前的信息采集主要源于民間或者一線數(shù)據(jù)處理部門,在后期的數(shù)據(jù)應(yīng)用過程中需要對數(shù)據(jù)和相應(yīng)模式進行集成化處理,便于后期應(yīng)用。同時對于處理好的數(shù)據(jù)也要進行冗余清除,以保證數(shù)據(jù)庫中的數(shù)據(jù)量保持在一個相對較低的水平。
本文首先對數(shù)據(jù)挖掘技術(shù)的主要內(nèi)容和發(fā)展歷程進行了介紹,并分析了數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中應(yīng)用的優(yōu)勢,主要包括——工作效率較高、綜合應(yīng)用性強、有宏觀數(shù)據(jù)庫作為數(shù)據(jù)挖掘技術(shù)應(yīng)用的支持,并就幾種應(yīng)用方法(預(yù)處理方法、決策樹方法、集成化處理方法)進行了分析。希望可以起到拋磚引玉的作用,在大數(shù)據(jù)時代中,為我國經(jīng)濟統(tǒng)計方面的發(fā)展做出貢獻。
(作者單位:駐馬店農(nóng)業(yè)學(xué)校)endprint