摘要:合理的利用信息技術(shù)帶來的相關(guān)成果,并且運用到物流領(lǐng)域、電力控制等多個行業(yè),能夠使信息技術(shù)在其中發(fā)揮卓越的作用。目前在信息化時代,針對大數(shù)據(jù)、AI人工智能等多項信息技術(shù)均得到廣泛的關(guān)注和深入的探究。企業(yè)以及政府的管理往往依靠大量的數(shù)據(jù)資料,對于相應(yīng)數(shù)據(jù)的挖掘深度和分析能力決定該數(shù)據(jù)的價值,因此需要提升數(shù)據(jù)的利用有效性,可靠性以及數(shù)據(jù)傳輸能力和分析的深度。應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠使相應(yīng)的管理能力和質(zhì)量水平有較高的提升?;诖?,梳理了大數(shù)據(jù)時代數(shù)據(jù)挖掘的相關(guān)概念,并且對具體的數(shù)據(jù)挖掘過程進行分析探究,最后對該技術(shù)相關(guān)的應(yīng)用進行多方面的闡述。結(jié)果表明,科學(xué)合理地應(yīng)用數(shù)據(jù)挖掘技術(shù),可快速從海量的情報數(shù)據(jù)信息中提出隱藏的、具有價值的情報數(shù)據(jù),促使相應(yīng)的決策和管理更加高效科學(xué)。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘技術(shù);應(yīng)用探究
中圖分類號:TP311.13文獻標(biāo)識碼:A文章編號:1672-9129(2020)03-0045-02
Abstract:Therationaluseofinformationtechnologybroughtaboutbytherelevantresults,andtheuseoflogistics,powercontrolandotherindustries,canmakeinformationtechnologyplayanoutstandingrole.Atpresent,intheinformationage,manyinformationtechnologiessuchasbigdataandAIartificialintelligencehavereceivedextensiveattentionandin-depthexploration.Enterprisesandgovernmentsoftenrelyonalargenumberofdata,andtheminingdepthandanalysisabilityofthecorrespondingdatadeterminethevalueofthedata.Therefore,itisnecessarytoimprovetheeffectivenessandreliabilityofdatautilization,aswellasthedatatransmissionabilityandanalysisdepth.Theapplicationofdataminingtechnologycanimprovethecorrespondingmanagementabilityandqualitylevel.Basedonthis,relevantconceptsofdataminingintheeraofbigdataaresortedout,specificdataminingprocessisanalyzedandexplored,andrelevantapplicationsofthistechnologyareelaboratedinvariousaspects.Theresultsshowthattheapplicationofdataminingtechnologyscientificallyandreasonablycanquicklyproposethehiddenandvaluableintelligencedatafromthemassiveintelligencedatainformation,andpromotethecorrespondingdecision-makingandmanagementtobemoreefficientandscientific.
Keywords:Bigdata;Dataminingtechnology;Applicationtoexplore
1數(shù)據(jù)挖掘的概念及作用
1.1數(shù)據(jù)挖掘的概念。數(shù)據(jù)挖掘(DM)可以從大量,嘈雜,不完整,模糊和隨機的數(shù)據(jù)源中提取潛在、有價值和不可見數(shù)據(jù),通過對這些數(shù)據(jù)對應(yīng)的信息和傳遞的知識進行檢索,即可高效的利用數(shù)據(jù)。在數(shù)據(jù)的利用過程中首先應(yīng)保證真實度,再者,在數(shù)量級龐大且繁雜的數(shù)據(jù)中應(yīng)該針對自身需要的數(shù)據(jù)目標(biāo)進行方向性的選擇,不能盲目的將所有的數(shù)據(jù)知識應(yīng)用到任意問題中,應(yīng)該在發(fā)現(xiàn)問題的基礎(chǔ)上帶著問題在找到數(shù)據(jù)中相應(yīng)的知識,進行概念的理解和規(guī)則的判定,通過在龐大數(shù)據(jù)體系中進行分析統(tǒng)計能夠?qū)ξ磥淼陌l(fā)展形勢以及可預(yù)見性的行為進行推測,從而能夠使決策者采取更加科學(xué)的管理手段和決策方法。數(shù)據(jù)挖掘是多種專業(yè)領(lǐng)域相應(yīng)知識進行交叉的學(xué)科,對人工智能、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)管理等多種學(xué)科均有密切的聯(lián)系。數(shù)據(jù)庫技術(shù),機器學(xué)習(xí)和統(tǒng)計信息對數(shù)據(jù)挖掘的影響最大。迄今為止,數(shù)據(jù)挖掘技術(shù)已應(yīng)用于許多方面,以解決相關(guān)問題。
1.2數(shù)據(jù)挖掘技術(shù)主要作用。從數(shù)據(jù)量龐大,并且在有噪點或噪音以及相對模糊隨機的數(shù)據(jù)庫中,對潛在價值的信息和知識進行過濾和篩選,能夠搜索出人們有利用價值的信息和數(shù)據(jù),使人們對信息能夠更好的接受,理解并且適當(dāng)?shù)倪\用。在數(shù)據(jù)挖掘過程中,并不能保障所有的數(shù)據(jù)全部能夠被人們理解所應(yīng)用,但是能夠?qū)μ囟ǖ臋z索內(nèi)容進行數(shù)據(jù)挖掘工作的開展。最后提取到的相應(yīng)數(shù)據(jù)可以以多種表達形式進行展示,比如通過概念規(guī)則,模式,圖形等方式。合理運用數(shù)據(jù)挖掘技術(shù)能對未來的目標(biāo)的發(fā)展導(dǎo)向進行展望,幫助做出科學(xué)合理的計劃。
1.3數(shù)據(jù)挖掘的過程。數(shù)據(jù)挖掘可以大致分為6個階段,主要由業(yè)務(wù)分析、數(shù)據(jù)分析與理解、數(shù)據(jù)處理組成。下圖展示的為數(shù)據(jù)挖掘的整體流程:
a)業(yè)務(wù)分析,通過明確具體挖掘任務(wù)的需求,根據(jù)需求和目標(biāo)定制網(wǎng)挖掘計劃。
b)數(shù)據(jù)收集,根據(jù)業(yè)務(wù)需求,搜集相關(guān)數(shù)據(jù),篩選數(shù)據(jù),甄別出有可以利用的數(shù)據(jù)。
c)數(shù)據(jù)處理,在已搜集的數(shù)據(jù)中,結(jié)合具體業(yè)務(wù)需求和目標(biāo),對數(shù)據(jù)進行處理,刪除數(shù)據(jù)中不必要的屬性,對數(shù)據(jù)進行清洗等。
d)數(shù)據(jù)建模,主要是運用相應(yīng)的數(shù)據(jù)挖掘技術(shù),創(chuàng)建相應(yīng)的模式,調(diào)節(jié)相應(yīng)的數(shù)據(jù)讓模型達到最好。模型效果不佳,則需要從數(shù)據(jù)處理階段或者業(yè)務(wù)分析重新開始。
e)評估模型,評價模型的合理性和可靠性,未經(jīng)過評估的模型不能直接去應(yīng)用。
f)部署應(yīng)用,將通過評估的模型,制作相應(yīng)的應(yīng)用策略,最后應(yīng)用到業(yè)務(wù)上。
2數(shù)據(jù)挖掘的算法
2.1聚類挖掘算法。該算法首先選取k一個對象作為分析中心,然后對不同對象與該中心的距離進行相應(yīng)數(shù)學(xué)模型的構(gòu)建,是廣泛應(yīng)用于數(shù)據(jù)挖掘技術(shù)中的一種基礎(chǔ)算法,屬于聚類挖掘的開端。在各行業(yè)根據(jù)需求在獲取數(shù)據(jù)過程中,可以相應(yīng)的將數(shù)據(jù)情報數(shù)據(jù)進行聚類存放。
2.2關(guān)聯(lián)規(guī)則挖掘算法。Apriori算法通過兩階段的鏈接矩陣運算,能夠探索相應(yīng)安全、交易等多種數(shù)據(jù)庫不同事件和物體之間的相應(yīng)聯(lián)系和內(nèi)在的規(guī)則。該算法可以高效、準(zhǔn)確地收集相應(yīng)的數(shù)據(jù),為順利完成各項任務(wù)奠定基礎(chǔ)。Apriori算法在大量的數(shù)據(jù)中通過項目集創(chuàng)建關(guān)聯(lián)規(guī)則,最后對對應(yīng)的候選項目,出現(xiàn)的頻率和次數(shù)進行統(tǒng)計,根據(jù)人為設(shè)定相應(yīng)支持度為判斷依據(jù),從而分析關(guān)聯(lián)規(guī)則是否有顯著作用。該算法水平方向通過m項目集來尋找下一個項目集,以此形成相互的聯(lián)系,從而能夠開展高效的項目集搜索,實現(xiàn)所有高頻項目集均被檢索。
強關(guān)聯(lián)規(guī)則是否成立,需要通過上述的檢驗才能進行有效的利用,接著哪些有效的關(guān)聯(lián)規(guī)則對當(dāng)前管理具有實際使用價值,需要經(jīng)過管理人員和數(shù)據(jù)控制人員的判斷才可以認(rèn)為是關(guān)聯(lián)的最終結(jié)果;通過相關(guān)性分析獲得的關(guān)聯(lián)規(guī)則結(jié)果的前后項之間的相關(guān)性是可能同時發(fā)生的一種相關(guān)性,而不是因果關(guān)系。根據(jù)算法的思想和執(zhí)行步驟,Apriori關(guān)聯(lián)算法的優(yōu)勢在于對數(shù)據(jù)要求不高,容易分析、簡便,但是也發(fā)現(xiàn)存在著相應(yīng)的缺陷:
(1)對項目集生產(chǎn)過程所需要的循環(huán)和相對應(yīng)的步驟較多,并且不能較好的去除非參與組合的元素。
(2)對項目集的運算需要支持度的評估,并且每次計算均需要與數(shù)據(jù)庫T中整體的記錄進行對比,如果該數(shù)據(jù)庫較大,那么掃描對比需要耗費大量的時間,并且占用計算機系統(tǒng)較大的資源,數(shù)據(jù)庫記錄越大,那么導(dǎo)致相應(yīng)的運算壓力呈指數(shù)增加。
3數(shù)據(jù)挖掘技術(shù)運行過程
3.1數(shù)據(jù)轉(zhuǎn)換處理。Clementine是能夠兼容并且支撐整個挖掘體系的相關(guān)軟件,該軟件擁有眾多的分析技術(shù),將相應(yīng)的技術(shù)融為一體,并且配合多種接口,能夠展現(xiàn)出更加簡單且可視化的操作應(yīng)用環(huán)境。對于數(shù)據(jù)的讀取和寫入等多項工作均能高效的運行,并且配合人工智能以及數(shù)據(jù)統(tǒng)計等多種模型能夠?qū)崿F(xiàn)更加有效的數(shù)據(jù)挖掘。數(shù)據(jù)信息系統(tǒng)可以利用該軟件,并且借鑒此軟件的設(shè)計思想,將數(shù)據(jù)挖掘工作變得簡單化和易行化,降低算法的復(fù)雜程度以及軟件操作的困難度,從而使相關(guān)數(shù)據(jù)挖掘工作人員效率翻倍。
3.2異常錯誤分析和解決。Python應(yīng)用廣泛的開源計算機編程語言,在該體系的內(nèi)部已購置高級數(shù)據(jù)分析結(jié)構(gòu),并且將相應(yīng)的數(shù)據(jù)能夠分解成模塊和包,在多種硬件平臺均能進行應(yīng)用和拓展。該編程語言最大的優(yōu)勢在于學(xué)習(xí)難度較低,并且易開展維護工作,對于理論知識薄弱的工作人員也能進行快速的上手,并且高效讀取展示的信息和內(nèi)容,并且伴隨著NumPy、Pandas等程序庫的完善,能夠使數(shù)據(jù)分析領(lǐng)域不斷完善和發(fā)展。
3.3數(shù)據(jù)最終處理。通過對相應(yīng)的數(shù)據(jù)庫掃描,根據(jù)相應(yīng)的項出現(xiàn)在數(shù)據(jù)庫中一次,則該項的計算相加1,則相應(yīng)的支持度計數(shù)也加1。根據(jù)預(yù)先設(shè)定的最小支持度的值與相應(yīng)項的支持度數(shù)值,當(dāng)兩者相等時,可以判定該項是頻繁項,所以可以停止對該項的掃描,開始掃描下一個項集。數(shù)據(jù)搜索到的知置信度和支撐的能力可以通過關(guān)聯(lián)規(guī)則進行分析,從而將各數(shù)據(jù)的屬性和相關(guān)的聯(lián)系進行有效歸納。為了避免太多規(guī)則的產(chǎn)生以至于不能突出真正重要的規(guī)則,必須適當(dāng)定義最小支持量以過濾大多數(shù)不必要的規(guī)則,并且所生成規(guī)則的置信度和增益值必須高于決策者給出的最小值,這樣的規(guī)則才滿足需求條件??傊x了相關(guān)閾值,就可以相應(yīng)地搜索數(shù)據(jù)庫中的滿足條件的關(guān)聯(lián)規(guī)則。將系統(tǒng)收集到繁雜的、混亂的各種數(shù)據(jù)信息通過特定的具有數(shù)據(jù)處理、計算和制圖功能的軟件系統(tǒng),將情報數(shù)據(jù)分門別類、打包裝進特定的數(shù)據(jù)庫,為之后的數(shù)據(jù)挖掘提供便利。
4大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)的應(yīng)用
4.1在物流方面的應(yīng)用。在傳統(tǒng)物流管理過程中,通常都是采用定點配送的方式,將產(chǎn)品運送到經(jīng)銷商手上就算完成了物流運輸任務(wù)。但是在這一過程中產(chǎn)品質(zhì)量保證以及物流運輸質(zhì)量管理等方面都缺乏一定的管控,在產(chǎn)品送到消費者手上之后,針對消費者滿意度的調(diào)查和反饋更是一片空白。這樣不利于物流行業(yè)不斷發(fā)展,也不利于其科學(xué)合理地制定市場營銷戰(zhàn)略,容易讓物流相關(guān)的行業(yè)陷入閉環(huán)發(fā)展的困局。數(shù)據(jù)挖掘技術(shù)和大數(shù)據(jù)技術(shù)在其中的應(yīng)用,能夠結(jié)合RFID技術(shù)應(yīng)用,對產(chǎn)品的物流路徑進行科學(xué)追蹤和管控,并將最終的管理數(shù)據(jù)信息集中于MES系統(tǒng)中來,能夠大大提升物流管理質(zhì)量以及產(chǎn)品追溯管理效果。首先,可以對相關(guān)物流產(chǎn)品的配送時間、配送路徑以及主要供應(yīng)地區(qū)進行數(shù)據(jù)挖掘,并利用大數(shù)據(jù)技術(shù)進行云端分類管理。這樣能夠更好地統(tǒng)計不同類型產(chǎn)品的物流時效等。其次,依托大數(shù)據(jù)庫建設(shè),能夠更為直觀地看到不同產(chǎn)品倉儲情況,節(jié)約物流調(diào)控的中間環(huán)節(jié),節(jié)約大量的時間成本。最后,大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)的應(yīng)用還能夠通過分析多次物流運輸線路所遇到的路況問題以及時效問題,科學(xué)計算出最優(yōu)物流運輸和配送路線,最大限度地降低物流運送環(huán)節(jié)的時間成本,提升客戶滿意度。利用大數(shù)據(jù)技術(shù)和RFID技術(shù)對整個流程進行追蹤,能夠在面對客戶問詢時準(zhǔn)確有效地匯報產(chǎn)品所在地。依托MES系統(tǒng)的數(shù)據(jù)挖掘和信息整合,可以對產(chǎn)品進行追溯分析,明確物流出現(xiàn)的質(zhì)量不佳或者客戶不滿意的具體原因。
4.2電力行業(yè)的應(yīng)用。通過大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù),能夠保障電網(wǎng)安全運行,提升管理效益、決策能力,優(yōu)化電網(wǎng)運行方式、降低管理成本。在電力大數(shù)據(jù)安全防護方面,一方面需要先進的技術(shù)做支撐,另一方面需要提升數(shù)據(jù)的安全管理能力,有效保護電力大數(shù)據(jù)的安全。這主要是因為在大量的電力數(shù)據(jù)中,不僅包括企業(yè)的運營信息和用電用戶的隱私信息,而且還有一些關(guān)系國國家和社會決策的重要信息。電力數(shù)據(jù)挖掘技術(shù)的應(yīng)用,需要統(tǒng)一的電力行業(yè)數(shù)據(jù)標(biāo)準(zhǔn),建設(shè)更高效、準(zhǔn)確率更高的大數(shù)據(jù)分析系統(tǒng),更好地應(yīng)用電力大數(shù)據(jù)技術(shù)為了建設(shè)更高效、準(zhǔn)確率更高的大數(shù)據(jù)分析系統(tǒng),需要建設(shè)和完善電力行業(yè)知識管理系統(tǒng)。不斷電力行業(yè)知識管理系統(tǒng),建設(shè)電力數(shù)據(jù)共享中心,統(tǒng)一電力行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)。
4.3政府及其多個領(lǐng)域的綜合應(yīng)用。在傳統(tǒng)的信息環(huán)境下,我國政府及企業(yè)開展的數(shù)據(jù)研究主要依靠圖書館等有特定歷史背景的檔案機構(gòu)。在這種環(huán)境下,受傳統(tǒng)的信息環(huán)境和技術(shù)條件的限制,他們不能及時、廣泛地獲取信息,也不具備組織和處理大量信息的技術(shù)手段,不能滿足信息的分析和研究的要求。然而,網(wǎng)絡(luò)化和計算機技術(shù)的發(fā)展使信息收集和研究發(fā)生了一些變化。SASEnterpriseMiner(簡稱SASEM)是一種數(shù)據(jù)挖掘工具,已被中國的政府及國有企業(yè)廣泛使用。典型的應(yīng)用是上海寶鋼的礦石分配系統(tǒng)的應(yīng)用、招商銀行的系統(tǒng)應(yīng)用以及鐵路部門的客運運營研究。SAS是通過數(shù)據(jù)庫將數(shù)據(jù)進行集成,然后簡化相應(yīng)提取數(shù)據(jù)和捕捉數(shù)據(jù)的工作,能夠?qū)崿F(xiàn)“端到端”的數(shù)據(jù)捕捉??梢愿鶕?jù)情況存儲、修改、更新和重新調(diào)整此過程以供以后使用。它的優(yōu)點是可以指導(dǎo)沒有足夠的數(shù)學(xué)統(tǒng)計理論知識和經(jīng)驗積累的淺層次用戶,并且針對經(jīng)驗豐富的專家而言,SAS還可以為有經(jīng)驗的專家提供許多選擇,以執(zhí)行精細(xì)調(diào)整分析和處理。
5結(jié)語
在大數(shù)據(jù)時代背景下,大數(shù)據(jù)已經(jīng)成為重要的國家戰(zhàn)略資源,對社會經(jīng)濟發(fā)展產(chǎn)生了深遠影響。數(shù)據(jù)挖掘工作作為國家宏觀調(diào)控、產(chǎn)業(yè)結(jié)構(gòu)調(diào)整、企業(yè)戰(zhàn)略發(fā)展的重要依據(jù),必須適應(yīng)大數(shù)據(jù)時代的發(fā)展,強化大數(shù)據(jù)和數(shù)據(jù)挖掘應(yīng)用能力和范圍,運用大數(shù)據(jù)思維、技術(shù)和方法,積極推進各行業(yè)的數(shù)字化變革,加大數(shù)據(jù)在統(tǒng)計數(shù)據(jù)生成、處理、交換和發(fā)布等各個環(huán)節(jié)的應(yīng)用力度,構(gòu)建起適應(yīng)大數(shù)據(jù)時代的現(xiàn)代化發(fā)展模式。
參考文獻:
[1]田志民,梁品超,任艷紅,等.大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].當(dāng)代教育實踐與教學(xué)研究(電子刊),2017,000(010):4.
[2]周凌.淺析大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].中小企業(yè)管理與科技旬刊,2018,No.540(05):194-195.
[3]劉春琳,冷紅.基于大數(shù)據(jù)挖掘的城市關(guān)注平臺的構(gòu)建與應(yīng)用[C]//城鄉(xiāng)治理與規(guī)劃改革——2014中國城市規(guī)劃年會.0.
作者簡介:徐文平(1983-),女,四川德昌縣人,副教授,碩士研究生,主要研究方向為計算機應(yīng)用、大數(shù)據(jù)。