田長磊
(山東省濟(jì)寧市汶上縣統(tǒng)計(jì)局,山東 濟(jì)寧 272500)
對(duì)經(jīng)濟(jì)統(tǒng)計(jì)工作來講,需要對(duì)數(shù)據(jù)信息進(jìn)行有效的收集和整合,但由于數(shù)據(jù)存在一定的不完整性和模糊性,使得經(jīng)濟(jì)統(tǒng)計(jì)工作的質(zhì)量受到嚴(yán)重影響。為了對(duì)其進(jìn)行有效的改變,需要將數(shù)據(jù)挖掘技術(shù)引入其中。本文從以下方面對(duì)其進(jìn)行詳細(xì)的闡述。此次研究對(duì)豐富數(shù)據(jù)挖掘技術(shù)方面的知識(shí)具有理論性意義。
數(shù)據(jù)挖掘指的是數(shù)據(jù)的深加工,即數(shù)據(jù)信息精細(xì)化處理的過程。數(shù)據(jù)挖掘技術(shù)的作用體現(xiàn)在,對(duì)大量的數(shù)據(jù)進(jìn)行深層次的開發(fā),并在數(shù)據(jù)庫中整理自身需要的數(shù)據(jù),同時(shí),將零散數(shù)據(jù)進(jìn)行完整化處理。由于數(shù)據(jù)的隨機(jī)性和噪聲性相對(duì)突出,因此,使模糊數(shù)據(jù)出現(xiàn)概率明顯增加。在數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,能夠?qū)?shù)據(jù)中的可用信息進(jìn)行深度挖掘,并進(jìn)行有效的提取和整理,從而使數(shù)據(jù)的清晰度和實(shí)用性得到顯著的提升。為了使數(shù)據(jù)挖掘技術(shù)能夠?qū)π畔⑦M(jìn)行有效處理,需在經(jīng)濟(jì)數(shù)據(jù)轉(zhuǎn)換的基礎(chǔ)上進(jìn)行,并利用統(tǒng)計(jì)學(xué)、神經(jīng)網(wǎng)絡(luò)學(xué)等技術(shù)進(jìn)行有效的輔助,因此,數(shù)據(jù)挖掘技術(shù)是學(xué)科交叉技術(shù)的一種。在統(tǒng)計(jì)學(xué)科中應(yīng)用數(shù)據(jù)挖掘技術(shù),可以對(duì)數(shù)據(jù)進(jìn)行有效的統(tǒng)計(jì)分析,這樣不僅可以使數(shù)據(jù)分析效率得到顯著的提升,而且能夠使數(shù)據(jù)分析過程得到明顯的簡(jiǎn)化。
數(shù)據(jù)挖掘技術(shù)的特點(diǎn)主要體現(xiàn)在以下方面:第一,有效信息包含在數(shù)據(jù)本身之中,但是會(huì)被其他數(shù)據(jù)信息所隱藏。因此,在對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行使用時(shí),其需要對(duì)海量信息進(jìn)行處理,一般情況下,利用TB或GB對(duì)大數(shù)據(jù)進(jìn)行表示;第二,當(dāng)數(shù)據(jù)庫構(gòu)建完成之后,利用關(guān)聯(lián)詞的方式來對(duì)有用數(shù)據(jù)進(jìn)行搜索,這樣不僅可以使自身所需信息被有效找到,而且可以使搜索范圍被有效縮小,從而使數(shù)據(jù)收集的效率顯著提升;第三,隨著經(jīng)濟(jì)社會(huì)信息的不斷擴(kuò)充,信息庫中儲(chǔ)存的信息量也隨之增加。因此,信息庫需要對(duì)容量進(jìn)行不斷的擴(kuò)大,這樣可以使生產(chǎn)信息的需求得到滿足。除此之外,為了讓使用者對(duì)所需信息進(jìn)行快速找尋,需要對(duì)信息搜索的精準(zhǔn)性進(jìn)行有效的提升。
數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì)主要體現(xiàn)在以下方面:第一,其能夠?qū)A啃畔⑦M(jìn)行有效處理,從而使工作效率得到明顯提升。數(shù)據(jù)挖掘技術(shù)能夠?qū)Υ罅繑?shù)據(jù)信息進(jìn)行快速處理,在經(jīng)濟(jì)統(tǒng)計(jì)工作中應(yīng)用數(shù)據(jù)挖掘技術(shù),可以使其工作效率得到明顯的提高。另外,面對(duì)復(fù)雜程度較高的海量數(shù)據(jù)信息時(shí),數(shù)據(jù)挖掘技術(shù)能夠?qū)ζ溥M(jìn)行有效的整合,工作人員在數(shù)據(jù)規(guī)律的基礎(chǔ)之上,對(duì)其進(jìn)行有效的深度分析;第二,對(duì)搜索和實(shí)時(shí)預(yù)測(cè)進(jìn)行有效支持,為市場(chǎng)決策提供一定的協(xié)助作用。在數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,使用者可以通過關(guān)鍵詞輸入的方式來完成聯(lián)想搜索,這樣可以使搜索信息的速度明顯提升,以此來使工作效率得到大幅度的提高。與此同時(shí),相關(guān)統(tǒng)計(jì)人員可以對(duì)信息進(jìn)行有效的分析和整合,并對(duì)其存在的關(guān)聯(lián)性進(jìn)行有效構(gòu)建,從而來合理預(yù)測(cè)未來經(jīng)濟(jì)的發(fā)展趨勢(shì);第三,綜合性相對(duì)較強(qiáng),能夠?qū)Χ喾浇?jīng)濟(jì)工作進(jìn)行有效的協(xié)調(diào)。數(shù)據(jù)挖掘技術(shù)能夠?qū)?fù)雜、亂序的信息進(jìn)行有效整合,使其能夠轉(zhuǎn)換成有效信息,這樣可以為部門工作提供重要的數(shù)據(jù)支撐,從而使不同部門數(shù)據(jù)信息的需求得到有效滿足;第四,有效性相對(duì)突出,安全性相對(duì)較高。在經(jīng)濟(jì)統(tǒng)計(jì)中應(yīng)用數(shù)據(jù)挖掘技術(shù),相關(guān)工作人員不僅可以對(duì)數(shù)據(jù)進(jìn)行系統(tǒng)的了解和掌握,而且能夠?qū)?shù)據(jù)進(jìn)行深度分析和整合,這樣可以使其工作效率得到大幅度的提升。除此之外,對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行合理化的應(yīng)用,使其能夠長期儲(chǔ)存海量經(jīng)濟(jì)信息,從而為后續(xù)工作的開展提供有效保障。
對(duì)經(jīng)濟(jì)統(tǒng)計(jì)來講,由于數(shù)據(jù)本身存在一定的特殊屬性,如復(fù)雜多樣性、不完整性等,在利用數(shù)據(jù)之前,需要對(duì)其進(jìn)行必要的預(yù)處理策略。對(duì)數(shù)據(jù)預(yù)處理來講,其為處理方式的一種,主要由以下方面構(gòu)成:第一,數(shù)據(jù)清理,數(shù)據(jù)清理指的是對(duì)無效信息進(jìn)行清除,常用的方法為預(yù)測(cè)法、平滑法等。對(duì)原始數(shù)據(jù)來講,其通常存在不完整性、模糊以及隨機(jī)等特點(diǎn),這使得原始數(shù)據(jù)存在明顯的局限,從而使其無法直接的進(jìn)行應(yīng)用,需要對(duì)其進(jìn)行處理,將其中包含的無效信息進(jìn)行清除,如空值、含有噪聲的數(shù)據(jù)等,這樣可以使數(shù)據(jù)的準(zhǔn)確性和有效性得到保障;第二,數(shù)據(jù)集成,數(shù)據(jù)集成指的是有效整合原始數(shù)據(jù)中的不同數(shù)據(jù),使其能夠以整體的形式存在。在對(duì)數(shù)據(jù)進(jìn)行整合的過程中,不僅要使數(shù)據(jù)集合的可操作性得到保障,而且需要使數(shù)據(jù)集合的準(zhǔn)確性得到保障;第三,數(shù)據(jù)變換,數(shù)據(jù)變換也稱之為數(shù)據(jù)轉(zhuǎn)化,其主要對(duì)不同的方法進(jìn)行使用,使其能夠?qū)?shù)據(jù)進(jìn)行轉(zhuǎn)化,從而為數(shù)據(jù)規(guī)?;蛿?shù)據(jù)泛化的有效實(shí)現(xiàn)提供基礎(chǔ)保障。
決策樹方法是快速分類法的一種,在經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)中運(yùn)用決策樹方法,能夠以直觀的方式對(duì)數(shù)據(jù)進(jìn)行呈現(xiàn)。對(duì)收集的經(jīng)濟(jì)數(shù)據(jù)來講,需要對(duì)其有用價(jià)值進(jìn)行深入挖掘,因此,需要對(duì)系統(tǒng)分析進(jìn)行有效應(yīng)用。利用決策樹方式對(duì)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析時(shí),需要對(duì)決策樹結(jié)構(gòu)進(jìn)行合理化的構(gòu)建,主要從以下兩方面入手:一方面,對(duì)分析輸出的基本模型進(jìn)行有效構(gòu)建,并在訓(xùn)練集的基礎(chǔ)上,對(duì)決策樹進(jìn)行有效構(gòu)建;另一方面,對(duì)已構(gòu)建完成的決策樹來講,需要對(duì)其進(jìn)行數(shù)據(jù)分類,分類工作是由下及上,即由根部向樹枝方向發(fā)展,當(dāng)數(shù)據(jù)輸入符合相關(guān)設(shè)置時(shí),才會(huì)停止。該種方式是遞歸的過程,需要和樹枝開展同步進(jìn)行。在對(duì)決策樹進(jìn)行使用的過程中,想要使決策樹有效停止,需要滿足以下條件:第一,節(jié)點(diǎn)上數(shù)據(jù)全都屬于同一類別,使得數(shù)據(jù)會(huì)出現(xiàn)停止現(xiàn)象;第二,并沒有分類屬性,但對(duì)數(shù)據(jù)依舊進(jìn)行二次分割。
在學(xué)術(shù)領(lǐng)域中,遺傳算法指的是生物自然和遺傳機(jī)理進(jìn)行有效結(jié)合,在數(shù)據(jù)處理過程中,對(duì)算法進(jìn)行隨機(jī)選擇。對(duì)經(jīng)濟(jì)統(tǒng)計(jì)工作來講,相關(guān)統(tǒng)計(jì)人員需要將社會(huì)現(xiàn)狀考慮其中,對(duì)特定人群數(shù)據(jù)進(jìn)行收集,并對(duì)數(shù)據(jù)中含有的信息進(jìn)行全面分析,以此來對(duì)最終分析結(jié)果進(jìn)行有效獲得。遺傳算法的隱含特征得到突出表現(xiàn),在該特征的基礎(chǔ)上,相關(guān)統(tǒng)計(jì)人員將遺傳算法和數(shù)學(xué)模型進(jìn)行結(jié)合,對(duì)其中隱含的數(shù)據(jù)進(jìn)行全面采集,并對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行有效應(yīng)用,使其能夠?qū)﹄[藏的價(jià)值信息進(jìn)行全面挖掘。
綜上所述,在經(jīng)濟(jì)統(tǒng)計(jì)中應(yīng)用數(shù)據(jù)挖掘技術(shù)具有重要的意義,其不僅能夠使數(shù)據(jù)的完整性和真實(shí)性得到保障,而且能夠使數(shù)據(jù)潛在價(jià)值被有效挖掘,因此,需要對(duì)其進(jìn)行不斷深入探討,從而使其作用得到有效凸顯,進(jìn)而使統(tǒng)計(jì)經(jīng)濟(jì)數(shù)據(jù)的價(jià)值得到充分發(fā)揮。