摘 要:隨著計(jì)算機(jī)的普及,我們的生活逐漸進(jìn)入大數(shù)據(jù)時(shí)代,可通過(guò)數(shù)據(jù)搜索質(zhì)量較高的餐館、飯店,也可通過(guò)數(shù)據(jù)使商家更加清晰的了解用戶的想法,以滿足用戶的需求,更好的為用戶提供服務(wù)。這也使得在大數(shù)據(jù)分析和決策制定等方面的作用至關(guān)重要,而本次實(shí)驗(yàn)主要研究計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā)和應(yīng)用進(jìn)行深入的分析。
關(guān)鍵詞:計(jì)算機(jī);數(shù)據(jù)挖掘;開(kāi)發(fā)與應(yīng)用
數(shù)據(jù)挖掘技術(shù)是一門(mén)利用某種算法對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行處理以提取隱含重要信息的交叉性學(xué)科,而由于在進(jìn)行數(shù)據(jù)挖掘的過(guò)程中需要進(jìn)行大量的數(shù)據(jù)分析、搜集和計(jì)算等工作,因此需要伴隨著計(jì)算機(jī)的使用,這也使得數(shù)據(jù)挖掘技術(shù)的發(fā)展和計(jì)算機(jī)科學(xué)的進(jìn)行相輔相成[1]。數(shù)據(jù)挖掘技術(shù)是與20實(shí)際70年代開(kāi)始得到迅猛的發(fā)展,并且被各界學(xué)者和企事業(yè)極大的關(guān)注?,F(xiàn)階段,數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛使用到社會(huì)生活中的各個(gè)方面,比如用戶需求挖掘、產(chǎn)品數(shù)據(jù)分析、市場(chǎng)分析分析等[2]。
一、計(jì)算機(jī)挖掘技術(shù)的過(guò)程簡(jiǎn)介
(一)確定數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘的目的
在數(shù)據(jù)挖掘過(guò)程中,首先需要確定數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘的目的。其由于是數(shù)據(jù)挖掘中存在的方法較多,不同的方法造成的影響也是不僅相同,因此只有確定數(shù)據(jù)挖掘的目的,才可選擇合適正確的數(shù)據(jù)挖掘方法,這也是確定數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘的目的的關(guān)鍵所在。
(二)數(shù)據(jù)選擇和預(yù)處理
數(shù)據(jù)選擇和預(yù)處理是計(jì)算機(jī)挖掘技術(shù)過(guò)程中的第二步,其中數(shù)據(jù)選擇是指根據(jù)數(shù)據(jù)挖掘的目的從數(shù)據(jù)庫(kù)中選擇合適的目標(biāo)數(shù)據(jù),預(yù)處理則是對(duì)選擇的目標(biāo)數(shù)據(jù)進(jìn)一步搜索。而進(jìn)行預(yù)處理的原因?yàn)椋簲?shù)據(jù)庫(kù)中的數(shù)據(jù)的數(shù)量過(guò)于龐大,存在大量冗余數(shù)據(jù)以及存在錯(cuò)誤的信息,而預(yù)處理就是將這些冗余信息和錯(cuò)誤信息進(jìn)行篩選剔除,保證數(shù)據(jù)分析的正確性[3]。
(三)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是整個(gè)過(guò)程中的核心,其主要包括三步:首先根據(jù)數(shù)據(jù)挖掘的不低確定數(shù)據(jù)挖掘技術(shù)的類型和采用的算法,其次是根據(jù)數(shù)據(jù)挖掘的算法結(jié)構(gòu)建立數(shù)學(xué)模型;最后是在計(jì)算機(jī)上利用算法進(jìn)行數(shù)據(jù)挖掘并得到相應(yīng)的結(jié)果[4]。其中首先確定朱解決挖掘技術(shù)的類型和采用的算法,原因是算法是數(shù)據(jù)挖掘的精髓,只有確定合適的算法,才可保證數(shù)據(jù)結(jié)果的準(zhǔn)確性,是數(shù)據(jù)挖掘才更具有意義。
(四)評(píng)估結(jié)果
在利用計(jì)算機(jī)進(jìn)行數(shù)據(jù)挖掘得到結(jié)果后,需要對(duì)得到的結(jié)果進(jìn)行評(píng)估。如果檢測(cè)的記過(guò)比較合理,便可使用,而如果檢測(cè)的結(jié)果和現(xiàn)實(shí)存在一定的差異,則需要重新選取數(shù)據(jù)挖掘的算法和模型。
二、計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā)
(一)基于傳統(tǒng)統(tǒng)計(jì)方法的數(shù)據(jù)挖掘技術(shù)
隨著技術(shù)的普遍發(fā)展,出現(xiàn)了新型的統(tǒng)計(jì)方法,但是某些傳統(tǒng)統(tǒng)計(jì)放在在數(shù)據(jù)挖掘中仍然使用,比如抽樣、多遠(yuǎn)統(tǒng)計(jì)、統(tǒng)計(jì)預(yù)測(cè)三種方法。其中抽樣是應(yīng)用較為廣泛的一種方法,其主要針對(duì)數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)較大的情況,通過(guò)隨機(jī)選取某些樣本進(jìn)行檢測(cè);多遠(yuǎn)統(tǒng)計(jì)是指針對(duì)含有多個(gè)統(tǒng)計(jì)量的數(shù)據(jù)庫(kù);統(tǒng)計(jì)預(yù)測(cè)則通常用來(lái)利用先驗(yàn)信息和其他知識(shí)對(duì)數(shù)據(jù)發(fā)展的趨勢(shì)進(jìn)行預(yù)測(cè)。
(二)基于可視化技術(shù)的數(shù)據(jù)挖掘技術(shù)
可視化技術(shù)也是常見(jiàn)的方式。一般來(lái)說(shuō)可視化技術(shù)的應(yīng)用可以更加清晰的表明數(shù)據(jù)之間存在的關(guān)系以及數(shù)據(jù)特征,其常用的方式為:圖示、表格等。而在實(shí)際應(yīng)用中,一元數(shù)據(jù)的可視化已經(jīng)達(dá)到一定的水平,并且被廣泛的使用,但是對(duì)于多元數(shù)據(jù)的可視化技術(shù)的應(yīng)用方面,仍然存在這一定的缺陷,需要進(jìn)一步研究。
(三)基于聯(lián)機(jī)分析處理的數(shù)據(jù)挖掘技術(shù)
聯(lián)機(jī)分析處理主要針對(duì)于聯(lián)機(jī)中的用戶組,其主要進(jìn)行多遠(yuǎn)數(shù)據(jù)的數(shù)據(jù)挖掘。在聯(lián)機(jī)中,如果某一用戶提出數(shù)據(jù)分析的需求,可以通過(guò)選擇相應(yīng)的數(shù)據(jù)挖掘算法,對(duì)相應(yīng)的數(shù)據(jù)庫(kù)實(shí)行數(shù)據(jù)挖掘。并且在實(shí)際應(yīng)用中,可以針對(duì)數(shù)據(jù)挖掘內(nèi)數(shù)據(jù)特征的不同,選擇對(duì)聯(lián)系分析處理和可視化技術(shù)進(jìn)行選擇,從而進(jìn)行使用。
(四)基于決策樹(shù)的數(shù)據(jù)挖掘技術(shù)
決策數(shù)是利用大量的數(shù)據(jù)歸納出一系列因果關(guān)系,基于其中的邏輯和規(guī)律關(guān)系,構(gòu)成關(guān)系圖,而關(guān)系圖主要以樹(shù)狀圖為主。其主要的作用是分析內(nèi)部結(jié)構(gòu),因此在分類、分析與預(yù)測(cè)中有著廣泛應(yīng)用。
(五)基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)
神經(jīng)網(wǎng)絡(luò)方法是模擬人的神經(jīng)進(jìn)行數(shù)據(jù)處理的方法,其結(jié)果包括輸入層、隱藏層和輸出層[5]。而在神經(jīng)網(wǎng)絡(luò)使用之前需要進(jìn)行測(cè)試,即將大量的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)中,并根據(jù)相關(guān)的結(jié)果調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),從而保證數(shù)據(jù)的可靠性。
(六)基于遺傳算法的數(shù)據(jù)挖掘技術(shù)
遺傳算法,主要基于進(jìn)化論的“優(yōu)勝劣汰”的自然規(guī)則,對(duì)數(shù)據(jù)中“優(yōu)”的一方進(jìn)行保存,對(duì)“劣”的一方進(jìn)行剔除或者改造,從而保證算法達(dá)到最優(yōu)水平,得到最優(yōu)的結(jié)果[6]。
三、計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的應(yīng)用
(一)數(shù)據(jù)挖掘技術(shù)在市場(chǎng)營(yíng)銷上的應(yīng)用
我國(guó)作為人口大國(guó),同樣也是消費(fèi)者的大國(guó)。每個(gè)消費(fèi)者的信息都對(duì)市場(chǎng)營(yíng)銷起著重要的作用,有助于市場(chǎng)了解消費(fèi)者的需求,更好的為消費(fèi)者服務(wù)。同時(shí)也可以擴(kuò)大企業(yè)的效益,推動(dòng)消費(fèi)者的消費(fèi)行為。而數(shù)據(jù)挖掘技術(shù)在市場(chǎng)營(yíng)銷的應(yīng)用中,是基于市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)分原理并利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)不同商品消費(fèi)者的年齡、購(gòu)買(mǎi)數(shù)量、購(gòu)買(mǎi)頻率、性別、購(gòu)物習(xí)慣以及購(gòu)物金額等相關(guān)信息進(jìn)行分析,從而提到數(shù)據(jù)分析的效率,而常用的方式便是通過(guò)對(duì)信用卡的使用情況進(jìn)行分析,不同促銷形式下消費(fèi)者的購(gòu)買(mǎi)情況進(jìn)行分析。
(二)數(shù)據(jù)挖掘技術(shù)在指導(dǎo)投資上的應(yīng)用
商品或者股票的價(jià)格并不是保持不變的,也不是變化的毫無(wú)規(guī)律的,因此可以通過(guò)對(duì)價(jià)格的變化趨勢(shì)進(jìn)行分析,從而預(yù)測(cè)未來(lái)的變化,以保證具有較高的投資收益。而計(jì)算機(jī)數(shù)據(jù)挖掘在知道投資上的應(yīng)用便是是指利用數(shù)據(jù)挖掘分析某種商品或骨片在一定時(shí)期的數(shù)據(jù)對(duì)價(jià)格的趨勢(shì)進(jìn)行預(yù)測(cè),降低投資的風(fēng)險(xiǎn)。
(三)數(shù)據(jù)挖掘技術(shù)在其他領(lǐng)域的領(lǐng)用
數(shù)據(jù)挖掘技術(shù)除了可應(yīng)用到市場(chǎng)營(yíng)銷和指導(dǎo)投資等方面,在社會(huì)生活的其他方面也是比較常見(jiàn)的,比如在文化建設(shè)方面,相關(guān)部門(mén)或者圖書(shū)館可以利用數(shù)據(jù)挖掘技術(shù)對(duì)消費(fèi)者的數(shù)據(jù)進(jìn)行分析,了解其常看的數(shù)目類型,從而進(jìn)行文化建設(shè)等。此外,其在企業(yè)利潤(rùn)的最大化、行業(yè)生產(chǎn)指標(biāo)設(shè)計(jì)、資金鏈管理設(shè)計(jì)與風(fēng)險(xiǎn)控制等方面也得到較為廣泛的應(yīng)用。
總結(jié):數(shù)據(jù)挖掘技術(shù)在現(xiàn)在社會(huì)生活中具有至關(guān)重要的作用,因此需要深入的了解數(shù)據(jù)挖掘技術(shù),熟練的掌握計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)。
參考文獻(xiàn):
[1]郝園園. 計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā)及其應(yīng)用探究[J]. 信息化建設(shè),2015(10):105.
[2]李春安. 基于WebGIS的土壤作物動(dòng)態(tài)信息智能系統(tǒng)的開(kāi)發(fā)與應(yīng)用[D].吉林農(nóng)業(yè)大學(xué),2013.
[3]徐欣航. 基于電廠運(yùn)行參數(shù)最優(yōu)值確定的評(píng)測(cè)系統(tǒng)的開(kāi)發(fā)與應(yīng)用[D].河北科技大學(xué),2012.
[4]梁瑩. 基于數(shù)據(jù)挖掘技術(shù)的客戶消費(fèi)行為分析系統(tǒng)的開(kāi)發(fā)與應(yīng)用[D].廣西大學(xué),2011.
[5]陳桂香. 大數(shù)據(jù)對(duì)我國(guó)高校教育管理的影響及對(duì)策研究[D].武漢大學(xué),2017.
[6]李鋼. 大數(shù)據(jù)時(shí)代文本挖掘的版權(quán)例外[J]. 圖書(shū)館工作與研究,2016(03):28-31+46.
作者簡(jiǎn)介:
姓名:陳新昕(1999.02--);性別:男,籍貫:湖北省武漢人,學(xué)歷:本科,畢業(yè)于武漢東湖學(xué)院;現(xiàn)有職稱:web前端工程師;研究方向:前端開(kāi)發(fā).
(武漢東湖學(xué)院 ? 湖北 ?武漢 ? 430212)