王榕 江西外語(yǔ)外貿(mào)職業(yè)學(xué)院
大數(shù)據(jù)時(shí)代下,以大數(shù)據(jù)挖掘平臺(tái)為支持,能夠高質(zhì)量、高效率的來(lái)對(duì)數(shù)據(jù)進(jìn)行處理。在云計(jì)算背景下來(lái)構(gòu)建大數(shù)據(jù)挖掘平臺(tái),能夠促進(jìn)數(shù)據(jù)挖掘獲取效率的顯著提升,有助于合理控制企業(yè)成本,滿(mǎn)足用戶(hù)對(duì)于挖掘計(jì)算的性能需求??梢哉f(shuō),云計(jì)算與大數(shù)據(jù)之間存在著密切的聯(lián)系,彼此相輔相成,大數(shù)據(jù)以云計(jì)算為基礎(chǔ),并且是云計(jì)算的重要應(yīng)用。
在先進(jìn)科學(xué)技術(shù)的支持下,云計(jì)算作為一種先進(jìn)的計(jì)算方式,以現(xiàn)代互聯(lián)網(wǎng)為支持,能夠結(jié)合實(shí)際需求出發(fā),將網(wǎng)絡(luò)平臺(tái)各項(xiàng)可共享的軟硬件資源信息提供給計(jì)算機(jī)與其他設(shè)備。通過(guò)并行計(jì)算與分布式計(jì)算技術(shù)應(yīng)用價(jià)值的協(xié)調(diào)發(fā)揮,云計(jì)算的優(yōu)勢(shì)也得以充分凸顯出來(lái),這就使得市場(chǎng)用戶(hù)在這一方面的需求也能夠得到滿(mǎn)足。從本質(zhì)上來(lái)看,大數(shù)據(jù)挖掘就是以海量數(shù)據(jù)為對(duì)象,對(duì)高價(jià)值的需求信息數(shù)據(jù)進(jìn)行挖掘,為用戶(hù)提供幫助,保證決策的科學(xué)性,通過(guò)數(shù)據(jù)挖掘技術(shù)應(yīng)用價(jià)值的發(fā)揮,能夠?yàn)檎麄€(gè)社會(huì)的和諧發(fā)展提供幫助。就云計(jì)算與大數(shù)據(jù)挖掘之間關(guān)系來(lái)看,彼此相輔相成,互相促進(jìn),大數(shù)據(jù)挖掘平臺(tái)的建立,以云計(jì)算為重要基礎(chǔ),通過(guò)云計(jì)算的合理化運(yùn)用,能夠?qū)?shù)據(jù)計(jì)算處理效率顯著提升,為企業(yè)創(chuàng)新發(fā)展提供可靠助力,企業(yè)也具備了創(chuàng)造更多經(jīng)濟(jì)效益的能力。而在云計(jì)算發(fā)展過(guò)程中,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用占據(jù)著重要地位,通過(guò)預(yù)測(cè)任務(wù)與描述任務(wù)的協(xié)調(diào)配合,來(lái)促進(jìn)云計(jì)算的穩(wěn)定發(fā)展。這一過(guò)程中預(yù)測(cè)任務(wù)就是依照屬性值來(lái)科學(xué)預(yù)測(cè)目標(biāo)屬性值,而描述任務(wù)就是對(duì)不同數(shù)據(jù)之間潛在的聯(lián)系模式進(jìn)行有效總結(jié)。
現(xiàn)代社會(huì)快速發(fā)展,數(shù)據(jù)信息量巨大,個(gè)體在工作與生活中所接觸到的信息也具有多樣化的特征,工作效率與數(shù)據(jù)價(jià)值之間也存在著密切的聯(lián)系,這就需要做好數(shù)據(jù)價(jià)值挖掘工作,自海量信息中將具備潛在價(jià)值的數(shù)據(jù)精準(zhǔn)提取出來(lái),以此為依托,對(duì)大數(shù)據(jù)挖掘平臺(tái)進(jìn)行構(gòu)建,保證數(shù)據(jù)挖掘的時(shí)效性。傳統(tǒng)單機(jī)系統(tǒng)下,存在諸多不足,整體數(shù)據(jù)處理的運(yùn)行效率不高,并且在這一過(guò)程中會(huì)消耗較多的能源,實(shí)際效果并不理想。而在云計(jì)算背景下,對(duì)大數(shù)據(jù)挖掘平臺(tái)進(jìn)行構(gòu)建,能夠確保與新時(shí)期下大數(shù)據(jù)挖掘計(jì)算性能要求相符合,可支配資源得以獲取,并且數(shù)量巨大。在云計(jì)算背景下,能夠于計(jì)算組成的“云”中分布復(fù)雜的計(jì)算任務(wù),把握用戶(hù)實(shí)際需求,通過(guò)云系統(tǒng)諸多能力的發(fā)揮來(lái)對(duì)任務(wù)進(jìn)行分配,這就需要就云系統(tǒng)的計(jì)算、應(yīng)用以及存儲(chǔ)等能力進(jìn)行綜合分析,確保高效率的開(kāi)展數(shù)據(jù)挖掘,滿(mǎn)足市場(chǎng)用戶(hù)對(duì)于價(jià)值數(shù)據(jù)的需求。在海量應(yīng)用數(shù)據(jù)中,數(shù)據(jù)挖掘就是隨機(jī)加工并處理,在系統(tǒng)篩選和優(yōu)化工作,確保所獲取信息數(shù)據(jù)具有潛在的應(yīng)用價(jià)值。大數(shù)據(jù)的特征在于復(fù)雜、模糊、海量,這就需要以先進(jìn)存儲(chǔ)運(yùn)算技術(shù)為支持來(lái)進(jìn)行輔助。云計(jì)算技術(shù)的應(yīng)用,能夠促進(jìn)數(shù)據(jù)挖掘效率的提升,并且能夠有效控制用戶(hù)對(duì)于數(shù)據(jù)運(yùn)算與存儲(chǔ)的成本。
大數(shù)據(jù)挖掘平臺(tái)中,數(shù)據(jù)挖掘法是一項(xiàng)重要技術(shù),與統(tǒng)計(jì)學(xué)、建模學(xué)、模式識(shí)別等學(xué)科領(lǐng)域都存在密切關(guān)聯(lián),神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)分析、決策樹(shù)等都是常用的數(shù)據(jù)挖掘方法,其中統(tǒng)計(jì)分析有著簡(jiǎn)單的操作,就是通過(guò)相關(guān)、方差、最大小值等方法來(lái)科學(xué)的統(tǒng)計(jì)分析數(shù)據(jù)統(tǒng)計(jì)規(guī)律。神經(jīng)網(wǎng)絡(luò)方法的運(yùn)用,以自我學(xué)習(xí)、適應(yīng)和組織為顯著特征,主要以各項(xiàng)數(shù)據(jù)為對(duì)象,做出聯(lián)想分類(lèi)和預(yù)測(cè)工作。決策樹(shù)的作用在于,分類(lèi)整理相關(guān)數(shù)據(jù),運(yùn)用簡(jiǎn)單圖形來(lái)進(jìn)行準(zhǔn)確描述。不同數(shù)據(jù)挖掘方法在不同行業(yè)領(lǐng)域內(nèi)數(shù)據(jù)挖掘中的應(yīng)用,必須要把握其特征,重視其各自?xún)?yōu)勢(shì)的發(fā)揮,立足市場(chǎng)用戶(hù)需求特點(diǎn)出發(fā),保證數(shù)據(jù)挖掘的針對(duì)性和實(shí)效性。
云計(jì)算技術(shù)的應(yīng)用,能夠通過(guò)分布式并行計(jì)算與文件存儲(chǔ)技術(shù)的應(yīng)用來(lái)為用戶(hù)提供幫助。分布式并行計(jì)算技術(shù)源于科學(xué)計(jì)算領(lǐng)域,在云計(jì)算技術(shù)不斷創(chuàng)新的情況下,分布式并行計(jì)算技術(shù)也得以快速發(fā)展,在各領(lǐng)域內(nèi)得以應(yīng)用,范圍也逐步擴(kuò)大,比較經(jīng)典的應(yīng)用案例為Spark和Hadoop。在數(shù)據(jù)挖掘工作中,通過(guò)分布式并行技術(shù)的合理化應(yīng)用,能夠顯著提升工作效率。通過(guò)文件存儲(chǔ)技術(shù)的應(yīng)用,能夠快速處理并加工數(shù)據(jù),為并行計(jì)算的開(kāi)展提供保障,并在學(xué)術(shù)領(lǐng)域和經(jīng)濟(jì)領(lǐng)域創(chuàng)造較多的現(xiàn)實(shí)價(jià)值。
頂層構(gòu)建需要重視工作流子系統(tǒng)和用戶(hù)接口子系統(tǒng),以用戶(hù)為對(duì)象進(jìn)行操作,前者作用在于為在數(shù)據(jù)挖掘相關(guān)任務(wù)的建立方面為用戶(hù)提供幫助,后者作用在于促進(jìn)用戶(hù)交互功能的實(shí)現(xiàn),以輸入模塊為支持來(lái)對(duì)參數(shù)進(jìn)行設(shè)置,保證數(shù)據(jù)挖掘算法選擇的適用性,在MapReduce平臺(tái)的支持下,來(lái)對(duì)數(shù)據(jù)進(jìn)行挖掘,所選擇理解方式必須具有可視化特征,來(lái)將結(jié)果呈現(xiàn)出來(lái)。在工作流子系統(tǒng)中,用戶(hù)可結(jié)合數(shù)據(jù)挖掘需求建立工作流任務(wù),保持任務(wù)之間并行,任務(wù)內(nèi)部也得以并行,用戶(hù)新算法的添加也更為便利。在用戶(hù)接口子系統(tǒng)中,包含用戶(hù)輸入模塊和結(jié)果展示模塊,依據(jù)并行分類(lèi)算法來(lái)將算法參數(shù)輸入其中,并在結(jié)果展示界面生成直方圖或者圓餅圖等,保證數(shù)據(jù)挖掘工作的整體效率,大數(shù)據(jù)挖掘平臺(tái)構(gòu)建的價(jià)值也得以充分體現(xiàn)出來(lái)。
在大數(shù)據(jù)挖掘系統(tǒng)中,以中間層為核心,其中模塊為數(shù)據(jù)預(yù)處理子系統(tǒng)和并行數(shù)據(jù)挖掘子系統(tǒng)。在云計(jì)算背景下,同類(lèi)型、同結(jié)構(gòu)的數(shù)據(jù)挖掘可通過(guò)MapReduce 計(jì)算模型來(lái)實(shí)現(xiàn),在不規(guī)則大數(shù)據(jù)的預(yù)先處理方面,主要應(yīng)用數(shù)據(jù)預(yù)處理子系統(tǒng),經(jīng)過(guò)處理后可獲得結(jié)果,數(shù)據(jù)挖掘算法的輸入得以明確。數(shù)據(jù)預(yù)處理過(guò)程中,一般會(huì)應(yīng)用到數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)抽取、集成以及加載等方法。在預(yù)處理后,噪聲數(shù)據(jù)、無(wú)用數(shù)據(jù)等得以有效減少,數(shù)據(jù)挖掘的整體效率也能夠得到明顯提升。在大數(shù)據(jù)挖掘平臺(tái)中,并行數(shù)據(jù)挖掘子系統(tǒng)占據(jù)著重要地位,隨著經(jīng)典數(shù)據(jù)挖掘算法的出現(xiàn),在應(yīng)用過(guò)程中必須要積極整合、改造現(xiàn)有算法以及并行化策略,優(yōu)化云計(jì)算平臺(tái),從而確保數(shù)據(jù)挖掘的實(shí)效性。
在整個(gè)系統(tǒng)中,數(shù)據(jù)中心層處于底層位置,能夠?qū)Υ髷?shù)據(jù)進(jìn)行存儲(chǔ),通過(guò)分布式并行來(lái)處理數(shù)據(jù)。在數(shù)據(jù)中心層,為確保數(shù)據(jù)安全性與高可用性得到保證,必須要對(duì)多份副本進(jìn)行保留。云計(jì)算過(guò)程中所應(yīng)用的工作模式為并行式,能夠滿(mǎn)足大量用戶(hù)的請(qǐng)求需求,回應(yīng)的時(shí)效性較強(qiáng)。
在社會(huì)發(fā)展新技術(shù)下,云計(jì)算技術(shù)不斷創(chuàng)新,大數(shù)據(jù)挖掘平臺(tái)的構(gòu)建,要把握云計(jì)算背景,正確運(yùn)用數(shù)據(jù)挖掘法和分布式并行技術(shù),做好頂層、中間層和數(shù)據(jù)中心層的構(gòu)建,確保大數(shù)據(jù)挖掘平臺(tái)具有良好的應(yīng)用價(jià)值,能夠高效的處理加工海量數(shù)據(jù),精準(zhǔn)完成數(shù)據(jù)挖掘任務(wù),滿(mǎn)足用戶(hù)需求,使得應(yīng)用價(jià)值更為顯著,這對(duì)于整個(gè)社會(huì)經(jīng)濟(jì)的穩(wěn)定健康發(fā)展也具有重要意義。