林潘能
摘要:伴隨信息化水平的不斷提高,信息系統(tǒng)的應(yīng)用范圍不斷拓展,與此同時(shí),信息數(shù)據(jù)量不斷增加,由此產(chǎn)生了大數(shù)據(jù),也促進(jìn)了大數(shù)據(jù)挖掘技術(shù)的發(fā)展。本文簡(jiǎn)單闡述了大數(shù)據(jù)及數(shù)據(jù)挖掘的概念,并就大數(shù)據(jù)挖掘當(dāng)中數(shù)據(jù)處理與數(shù)據(jù)挖掘兩方面探討了數(shù)學(xué)的運(yùn)用,間接地表明了數(shù)學(xué)對(duì)于大數(shù)據(jù)挖掘的重要性和作用,在對(duì)大數(shù)據(jù)進(jìn)行挖掘的過(guò)程當(dāng)中應(yīng)充分發(fā)揮數(shù)學(xué)的作用。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代 數(shù)據(jù)挖掘 數(shù)學(xué)
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-5349(2018)09-00253-02
隨著全球進(jìn)入信息化時(shí)代,現(xiàn)數(shù)據(jù)已滲透于人們生活及工作的各個(gè)角落,并逐步成為社會(huì)生產(chǎn)的重要因素之一,人們也開(kāi)始運(yùn)用大數(shù)據(jù)來(lái)改變傳統(tǒng)的生產(chǎn)模式及消費(fèi)模式,從而推動(dòng)人類(lèi)社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘成為時(shí)代的核心,如何深入挖掘大數(shù)據(jù)當(dāng)中有用的信息成為各行業(yè)關(guān)注的重點(diǎn)。數(shù)學(xué)是實(shí)施數(shù)據(jù)分析的重要手段,在挖掘大數(shù)據(jù)時(shí),必然要運(yùn)用到各種數(shù)學(xué)理論及知識(shí)。
一、大數(shù)據(jù)挖掘概述
(一)大數(shù)據(jù)的概念及特征
進(jìn)入信息化時(shí)代,“大數(shù)據(jù)”已成為人們耳熟能詳?shù)脑~匯。何為“大數(shù)據(jù)”,百度百科是如此定義的:無(wú)法在一定時(shí)間內(nèi)利用常規(guī)軟件工具捕捉、管理或處理的數(shù)據(jù)集合,需采取新模式才可進(jìn)行處理的信息資產(chǎn)。維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶所編寫(xiě)的《大數(shù)據(jù)時(shí)代》當(dāng)中,是如此定義大數(shù)據(jù)的:無(wú)法利用隨機(jī)分析法而必須采取所有數(shù)據(jù)進(jìn)行分析處理的數(shù)據(jù)。[1]大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)多數(shù)大數(shù)據(jù)均為非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量大且形式多樣。
大數(shù)據(jù)具5V特征,即Volume(大量),數(shù)據(jù)容量大;Velocity(高速),數(shù)據(jù)獲取及處理速度快;Variety(多樣),數(shù)據(jù)類(lèi)型多樣;Value(低價(jià)值密度),數(shù)據(jù)價(jià)值較低;Veracity(真實(shí)性),數(shù)據(jù)質(zhì)量較高且真實(shí)。相關(guān)統(tǒng)計(jì)表明,至2011年,全球數(shù)據(jù)量增長(zhǎng)達(dá)1.8ZB,全球人均數(shù)據(jù)資源量超過(guò)200GB[2],且近些年來(lái),伴隨信息化水平的不斷提高,信息技術(shù)及信息資源的廣泛應(yīng)用,全球每年數(shù)據(jù)增長(zhǎng)率高達(dá)50%,現(xiàn)全球已進(jìn)入大數(shù)據(jù)時(shí)代。
(二)數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是大數(shù)據(jù)的重點(diǎn)內(nèi)容,其是伴隨大數(shù)據(jù)的出現(xiàn)而逐步形成的新興學(xué)科。對(duì)于數(shù)據(jù)挖掘,因側(cè)重點(diǎn)不同,其方法定義也有所差異,最早對(duì)于數(shù)據(jù)挖掘的定義是指全面提取數(shù)據(jù)當(dāng)中暗示或未知的可能有用的信息?,F(xiàn)數(shù)據(jù)挖掘已成為一種專(zhuān)業(yè)活動(dòng),其不僅僅是一種統(tǒng)計(jì)模型技術(shù),而且還有著更深層的知識(shí)發(fā)現(xiàn)。現(xiàn)數(shù)據(jù)挖掘已廣泛應(yīng)用于各領(lǐng)域和各行業(yè),包括教育、科研、市場(chǎng)營(yíng)銷(xiāo)、制造業(yè)、電信業(yè)、互聯(lián)網(wǎng)產(chǎn)業(yè)等,尤其多用于商業(yè)人工智能研究領(lǐng)域,通過(guò)提取大數(shù)據(jù)中潛在的有用的信息或知識(shí),以為商業(yè)決策及建設(shè)提供客觀數(shù)據(jù)依據(jù)。[3]
二、大數(shù)據(jù)挖掘中數(shù)學(xué)的運(yùn)用
(一)運(yùn)用于數(shù)據(jù)處理當(dāng)中
實(shí)施大數(shù)據(jù)挖掘,首先要對(duì)數(shù)據(jù)進(jìn)行收集和初步處理。大數(shù)據(jù)具強(qiáng)時(shí)效性,在對(duì)數(shù)據(jù)進(jìn)行處理時(shí),對(duì)時(shí)間的要求非常嚴(yán)格,因此,在有效的時(shí)間內(nèi),數(shù)據(jù)必須既要保持高效率,同時(shí)又要保證良好的處理效果。若原始數(shù)據(jù)存在噪聲或是不完整、不統(tǒng)一等情況時(shí),還應(yīng)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以提高數(shù)據(jù)的準(zhǔn)確性;若數(shù)據(jù)量或指標(biāo)集過(guò)大,就可從中挑選一些較為重要的與研究結(jié)果相關(guān)的數(shù)據(jù),或是一些能充分反映研究結(jié)果的關(guān)鍵指標(biāo)。
在進(jìn)行數(shù)據(jù)處理的過(guò)程當(dāng)中,通常會(huì)利用到數(shù)學(xué)當(dāng)中很多常用的或經(jīng)典的分析方法,其中最為常用的便是統(tǒng)計(jì)學(xué)方法,如描述性分析法、回歸分析法、相關(guān)性分析法等。其中回歸分析法通常與相關(guān)性分析法相互結(jié)合,在進(jìn)行相關(guān)性分析的基礎(chǔ)上,通過(guò)觀察某兩個(gè)或多個(gè)相關(guān)變量的數(shù)量變化關(guān)系,再建立相應(yīng)的數(shù)學(xué)模式,以利用已知量來(lái)推斷未知量。進(jìn)行回歸分析的主要目的在于利用樣本數(shù)據(jù)對(duì)參數(shù)進(jìn)行估計(jì),然后通過(guò)建數(shù)學(xué)模型,以檢驗(yàn)、判斷或預(yù)測(cè)參數(shù)或模型。另,在進(jìn)行數(shù)據(jù)處理時(shí),還會(huì)利用到很多數(shù)學(xué)理論。如測(cè)度論,即通過(guò)運(yùn)算結(jié)合兩個(gè)或多個(gè)單調(diào)測(cè)度,以構(gòu)造出一個(gè)新的單調(diào)測(cè)度,在實(shí)施數(shù)據(jù)降維處理時(shí),即可應(yīng)用測(cè)度論,相比于利用傳統(tǒng)的主因子分析法,此分析方法可有效保證數(shù)據(jù)的完整性,從而保留更多相關(guān)信息,提高分析結(jié)果的科學(xué)性。
(二)運(yùn)用于數(shù)據(jù)挖掘當(dāng)中
數(shù)據(jù)挖掘是大數(shù)據(jù)的核心,大數(shù)據(jù)看似復(fù)雜、無(wú)規(guī)律,要想從巨大量的數(shù)據(jù)當(dāng)中獲取有效或有價(jià)值的信息,就必須實(shí)施數(shù)據(jù)挖掘。數(shù)據(jù)挖掘具應(yīng)用性、工程性、集合性和交叉性。在實(shí)施數(shù)據(jù)挖掘的過(guò)程當(dāng)中,數(shù)學(xué)發(fā)揮著無(wú)可替代的作用。在進(jìn)行數(shù)據(jù)挖掘時(shí),常用的數(shù)學(xué)方法有神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析法、聚類(lèi)分析法及決策樹(shù)法等,其中最重要的當(dāng)屬聚類(lèi)分析法,其還廣泛應(yīng)用于其他行業(yè)及領(lǐng)域,包括心理學(xué)、醫(yī)學(xué)、統(tǒng)計(jì)學(xué)、市場(chǎng)營(yíng)銷(xiāo)行業(yè)、數(shù)據(jù)識(shí)別等。
聚類(lèi)分析法是以“物理類(lèi)取”為基礎(chǔ),依一定標(biāo)準(zhǔn),將具較大相關(guān)性的對(duì)象劃為一類(lèi),且盡量拉大不同類(lèi)對(duì)象間的差異,從而將數(shù)據(jù)集或關(guān)鍵指標(biāo)進(jìn)行科學(xué)分組。在利用聚類(lèi)分析法實(shí)施數(shù)據(jù)挖掘的過(guò)程當(dāng)中,所應(yīng)用到的數(shù)學(xué)方法主要有灰色關(guān)聯(lián)分析、目標(biāo)函數(shù)模糊及區(qū)間值算法等。首先,利用灰色關(guān)聯(lián)分析,通過(guò)比較幾何曲線(xiàn)間的幾何形狀來(lái)判斷數(shù)據(jù)間的關(guān)聯(lián)性大小,幾何形狀(下轉(zhuǎn)第252頁(yè))(上接第253頁(yè))越相近,表明關(guān)聯(lián)性越大,反之則小?;疑P(guān)聯(lián)分析實(shí)施數(shù)據(jù)挖掘多用于樣本數(shù)據(jù)量較小,或是樣本存在殘缺現(xiàn)象的數(shù)據(jù)分析當(dāng)中,如因歷史原因?qū)е聰?shù)據(jù)樣本缺少的數(shù)據(jù)分析,或是因樣本更新速度過(guò)快導(dǎo)致樣本數(shù)據(jù)不統(tǒng)一等情況的數(shù)據(jù)分析。其次,利用目標(biāo)函數(shù)模糊,將數(shù)據(jù)實(shí)施標(biāo)準(zhǔn)化后再進(jìn)行標(biāo)定,并建立模糊矩陣,然后采取直接聚類(lèi)或模糊等價(jià)矩陣的方式實(shí)施數(shù)據(jù)集或關(guān)鍵指標(biāo)的聚類(lèi),同時(shí)也可利用最大樹(shù)法或是編網(wǎng)法進(jìn)行聚類(lèi)。目標(biāo)函數(shù)模糊具效率高、伸縮性大、處理維度高等特征,是數(shù)據(jù)挖掘過(guò)程當(dāng)中使用的重點(diǎn)方法。實(shí)際上,目標(biāo)函數(shù)模糊的聚類(lèi)分析法在人們的日常生活當(dāng)中也非常常見(jiàn),各類(lèi)數(shù)據(jù)分析、數(shù)據(jù)挖掘,甚至圖像處理都會(huì)應(yīng)用到此方法進(jìn)行數(shù)據(jù)集或關(guān)鍵指標(biāo)的聚類(lèi)。目標(biāo)函數(shù)模糊法相對(duì)科學(xué),其應(yīng)用也相對(duì)成熟,是解決聚類(lèi)問(wèn)題的有效方法。最后,利用區(qū)間值算法,可對(duì)數(shù)據(jù)挖掘過(guò)程當(dāng)中一些能進(jìn)行轉(zhuǎn)化的“比較型”數(shù)據(jù),或是有固定取值范圍的數(shù)據(jù)進(jìn)行分析。區(qū)間值算法是一種常用的數(shù)學(xué)方法,其在數(shù)據(jù)挖掘中的應(yīng)用多體現(xiàn)于對(duì)不完全的系統(tǒng)信息進(jìn)行挖掘和分析。在實(shí)施數(shù)據(jù)挖掘時(shí),所采取的區(qū)間值算法主要有以下三種:數(shù)與區(qū)間聚類(lèi)法、區(qū)間與區(qū)間聚類(lèi)法以及矩陣與區(qū)間聚類(lèi)法,其中數(shù)與區(qū)間聚類(lèi)法最為常用,可高效、準(zhǔn)確、真實(shí)地對(duì)不完全的系統(tǒng)信息進(jìn)行統(tǒng)計(jì)分析。在對(duì)區(qū)間值進(jìn)行確定時(shí),既可由具豐富經(jīng)驗(yàn)的專(zhuān)家進(jìn)行確定,也可利用統(tǒng)計(jì)學(xué)方法進(jìn)行確定。
三、結(jié)語(yǔ)
總而言之,發(fā)展至今,大數(shù)據(jù)已不僅僅是指單純的數(shù)據(jù),其是一種技術(shù),也是一種應(yīng)用。要想真正做好大數(shù)據(jù)的應(yīng)用,首先應(yīng)牢牢掌握其應(yīng)用的理論基礎(chǔ),自數(shù)據(jù)的前期收集著手,進(jìn)行深入分析,并形成結(jié)論。而在整個(gè)過(guò)程當(dāng)中,大數(shù)據(jù)無(wú)論是處理或是挖掘都需數(shù)學(xué)理論的支撐,包括其后期應(yīng)用,也需應(yīng)用到數(shù)學(xué)知識(shí)。因此,在實(shí)施大數(shù)據(jù)挖掘的過(guò)程當(dāng)中,應(yīng)充分重視數(shù)學(xué)的作用,并合理應(yīng)用數(shù)學(xué)知識(shí)。
參考文獻(xiàn):
[1]王少博,景劍文,房玄驊.淺談大數(shù)據(jù)背景下數(shù)據(jù)挖掘的方法及其應(yīng)用[J].管理觀察,2017(14):102-103.
[2]張倍嫻.數(shù)學(xué)在大數(shù)據(jù)挖掘中的應(yīng)用研究[J].教育科學(xué)(全文版),2016(4):284.
[3]王小龍.數(shù)學(xué)在數(shù)據(jù)挖掘中的應(yīng)用[J].中國(guó)科教創(chuàng)新導(dǎo)刊,2014(2):74.
責(zé)任編輯:劉健