胡智鋒
(武漢商學(xué)院,湖北武漢 430000)
網(wǎng)絡(luò)信息技術(shù)和電子計算機(jī)技術(shù)的快速發(fā)展,促使各行業(yè)工作期間產(chǎn)生大量數(shù)據(jù)信息,為提高數(shù)據(jù)信息的采集、存儲與處理效率,要加快建立智能化預(yù)測系統(tǒng),在機(jī)器學(xué)習(xí)原理下,解決數(shù)據(jù)發(fā)展問題,提高大數(shù)據(jù)技術(shù)的應(yīng)用效果。
大數(shù)據(jù)技術(shù)的應(yīng)用,主要依托數(shù)據(jù)處理系統(tǒng),其關(guān)鍵性技術(shù)包括大數(shù)據(jù)采集、大數(shù)據(jù)存儲、大數(shù)據(jù)管理、大數(shù)據(jù)分析以及大數(shù)據(jù)應(yīng)用等技術(shù)類型,針對較大數(shù)據(jù)量進(jìn)行有效處理,通過數(shù)據(jù)系統(tǒng),將不同類型的應(yīng)用數(shù)據(jù)進(jìn)行歸納和分類,深入挖掘數(shù)據(jù)信息中蘊(yùn)含的資源和價值,在實際應(yīng)用期間,綜合運(yùn)用物聯(lián)網(wǎng)對目標(biāo)信息進(jìn)行采集,接著利用云計算功能對數(shù)據(jù)進(jìn)行深入挖掘和處理,通過云平臺進(jìn)行數(shù)據(jù)信息儲存,最終由移動互聯(lián)網(wǎng)終端進(jìn)行信息數(shù)據(jù)發(fā)布,形成大數(shù)據(jù)技術(shù)應(yīng)用背景下數(shù)據(jù)信息處理系統(tǒng)的運(yùn)行閉環(huán),極大提高數(shù)據(jù)信息的處理效率,保證數(shù)據(jù)信息的真實性和準(zhǔn)確性。
實施智慧教育的關(guān)鍵,是要運(yùn)用云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等新一代信息技術(shù),來實現(xiàn)整個教育信息系統(tǒng)的重構(gòu),通過云計算對傳統(tǒng)教育信息系統(tǒng)與校園網(wǎng)絡(luò)系統(tǒng)進(jìn)行整合、優(yōu)化,建立起教育云服務(wù)平臺, 從而在較大范圍內(nèi)聚合教育資源,形成大規(guī)模非結(jié)構(gòu)化教育數(shù)據(jù)(教育大數(shù)據(jù)),并最終實現(xiàn)整個教育信息系統(tǒng)的重構(gòu),以支持教與學(xué)過程的智能決策、智能實施與智能評價。
基于大數(shù)據(jù)技術(shù)發(fā)展的時代背景,智能預(yù)測系統(tǒng)建設(shè)方法包括數(shù)據(jù)清洗法、特征分析法、模型構(gòu)建與融合、智能預(yù)測法,具體論述如下:
2.1.1 數(shù)據(jù)清洗法
數(shù)據(jù)清洗作為智能預(yù)測系統(tǒng)運(yùn)行的基礎(chǔ)環(huán)節(jié),要求對原始數(shù)據(jù)進(jìn)行預(yù)處理,利用大數(shù)據(jù)手段,對異常和空缺數(shù)據(jù)進(jìn)行處理,通過繪制散點(diǎn)圖的方式,將數(shù)據(jù)本身代表的意義和價值結(jié)合起來,根據(jù)離散變量空值情況,采用連續(xù)變量向數(shù)據(jù)平均值進(jìn)行補(bǔ)充,保證數(shù)據(jù)信息鏈條的完整。
2.1.2 特征分析法
針對數(shù)據(jù)清洗結(jié)果,利用特征工程對數(shù)據(jù)展開全面分析,通過綜合分析明確數(shù)據(jù)特征,根據(jù)數(shù)據(jù)的具體特征嘗試將數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)類型進(jìn)行關(guān)聯(lián),顯現(xiàn)數(shù)據(jù)中隱藏的統(tǒng)計結(jié)構(gòu),為數(shù)據(jù)處理和智能預(yù)測系統(tǒng)工作提供數(shù)據(jù)特征輔助。
2.1.3 模型構(gòu)建與融合法
智能預(yù)測系統(tǒng)建立初期,要求構(gòu)建系統(tǒng)模型,利用大數(shù)據(jù)手段,通過精度較高的XG、GBM等模型對數(shù)據(jù)進(jìn)行簡單預(yù)測,根據(jù)初預(yù)測結(jié)果,結(jié)合數(shù)據(jù)權(quán)重,對不同數(shù)據(jù)類型進(jìn)行劃分,經(jīng)過加權(quán)計算后初步形成智能預(yù)測系統(tǒng)模型,強(qiáng)化系統(tǒng)運(yùn)行的泛化效果,進(jìn)而實現(xiàn)對數(shù)據(jù)信息發(fā)展趨勢的智能預(yù)測,提高數(shù)據(jù)預(yù)測分析的綜合效果。
2.1.4 智能預(yù)測法
智能預(yù)測是該系統(tǒng)運(yùn)行中的末端工作環(huán)節(jié),通過對數(shù)據(jù)分析和預(yù)測模型的科學(xué)性檢驗,結(jié)合數(shù)據(jù)加權(quán)運(yùn)算結(jié)果,調(diào)整樣本數(shù)據(jù)的權(quán)重,選擇分?jǐn)?shù)較高的樣本數(shù)據(jù),采用lgb模型對數(shù)據(jù)進(jìn)行集中訓(xùn)練,選取優(yōu)質(zhì)的數(shù)據(jù)樣本,從而融合成新型智能數(shù)據(jù)預(yù)測分析系統(tǒng)[1]。
智能預(yù)測系統(tǒng)運(yùn)行期間,圍繞數(shù)據(jù)分析結(jié)構(gòu)開展具體預(yù)測工作,從變量數(shù)據(jù)的量化處理角度出發(fā),綜合分析數(shù)據(jù)的集聚效應(yīng),利用大數(shù)據(jù)技術(shù),完成對數(shù)據(jù)信息的管理和預(yù)測。智能預(yù)測系統(tǒng)運(yùn)行過程中,關(guān)鍵預(yù)測流程如下:
第一步,智能預(yù)測系統(tǒng)根據(jù)相關(guān)行業(yè)數(shù)據(jù)信息進(jìn)行收集和整理,利用篩選和分類系統(tǒng),完成對不同類型數(shù)據(jù)的歸納和分類,通過大數(shù)據(jù)技術(shù)手段,在數(shù)據(jù)庫中挑選關(guān)鍵信息進(jìn)行分析、關(guān)聯(lián)和對比;第二步,智能預(yù)測系統(tǒng)根據(jù)不同行業(yè)的實際需求,對機(jī)器學(xué)習(xí)算法進(jìn)行優(yōu)化設(shè)計,實現(xiàn)對基礎(chǔ)數(shù)據(jù)的分析和預(yù)測,建立數(shù)據(jù)預(yù)測模型,完成對數(shù)據(jù)的預(yù)處理;第三步,智能預(yù)測系統(tǒng)利用數(shù)據(jù)整體基數(shù)大的特點(diǎn),發(fā)揮云計算功能作用,生成動態(tài)化數(shù)據(jù),系統(tǒng)運(yùn)行過程中,數(shù)據(jù)被輸送至預(yù)測模型中,經(jīng)過篩選、分析和預(yù)測等環(huán)節(jié),系統(tǒng)自動輸出智能預(yù)測結(jié)果。
智能預(yù)測系統(tǒng)的應(yīng)用,依托于智能化預(yù)測模型的建立,該模型參與訓(xùn)練與應(yīng)用期間,實際應(yīng)用效果集中體現(xiàn)在以下幾方面:
2.3.1 算法模型驗證
智能預(yù)測系統(tǒng)的運(yùn)行,需要對系統(tǒng)內(nèi)部數(shù)據(jù)運(yùn)算機(jī)制進(jìn)行優(yōu)化,采用驗證法對數(shù)據(jù)算法模型進(jìn)行簡單驗證,根據(jù)數(shù)據(jù)收集和發(fā)布的生命周期,定期執(zhí)行數(shù)據(jù)算法驗證工作,針對異常數(shù)據(jù)采取表格的形式進(jìn)行展示,通過相關(guān)數(shù)據(jù)的采集和分析,對異常數(shù)據(jù)進(jìn)行處理,實現(xiàn)對數(shù)據(jù)風(fēng)險的有效控制,保證數(shù)據(jù)準(zhǔn)確性。
2.3.2 實際預(yù)測應(yīng)用
智能預(yù)測系統(tǒng)運(yùn)行期間,實際運(yùn)行情況以系統(tǒng)應(yīng)用效果為準(zhǔn),數(shù)據(jù)分析工作人員利用預(yù)測結(jié)果,對智能預(yù)測系統(tǒng)的運(yùn)行效果展開分析和評價,實現(xiàn)對數(shù)據(jù)信息的高效利用,完成對只能預(yù)測系統(tǒng)運(yùn)行效果的質(zhì)量檢驗[2]。
3.1.1 機(jī)器學(xué)習(xí)概述
機(jī)器學(xué)習(xí)是一門綜合性強(qiáng)且多領(lǐng)域交叉的學(xué)科,涉獵范圍較為廣泛,在大數(shù)據(jù)背景下,機(jī)器學(xué)習(xí)逐漸成為人工智能系統(tǒng)運(yùn)行的核心,為智能化預(yù)測系統(tǒng)提供技術(shù)支持。大數(shù)據(jù)時代的到來,教育行業(yè)逐步加強(qiáng)對機(jī)器學(xué)習(xí)的應(yīng)用,將機(jī)器學(xué)習(xí)由傳統(tǒng)的綜合性學(xué)科轉(zhuǎn)變?yōu)榉?wù)型技術(shù)手段,針對計算機(jī)無法統(tǒng)計和整理的數(shù)據(jù)信息進(jìn)行集中研究,通過技術(shù)手段,對機(jī)器學(xué)習(xí)方式進(jìn)行改良,進(jìn)而形成機(jī)器學(xué)習(xí)算法,為數(shù)據(jù)信息系統(tǒng)的建設(shè)工作創(chuàng)造良好的應(yīng)用條件。
3.1.2 大數(shù)據(jù)背景
大數(shù)據(jù)技術(shù)在發(fā)展過程中,呈現(xiàn)出明顯的形態(tài)波動,伴隨著計算機(jī)的普及和推廣,大數(shù)據(jù)逐步登上歷史舞臺,各行各業(yè)開始利用大數(shù)據(jù)進(jìn)行信息采集和整理,完成數(shù)據(jù)信息的實時傳輸工作,集中體現(xiàn)了機(jī)器學(xué)習(xí)發(fā)展的創(chuàng)新性和實用性,在機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)進(jìn)步的同時,數(shù)據(jù)處理人員對數(shù)據(jù)采集系統(tǒng)進(jìn)行優(yōu)化設(shè)計,及時更新數(shù)據(jù)分析和處理的方法及相關(guān)設(shè)備,確保在大數(shù)據(jù)時代背景下,全面促進(jìn)智能預(yù)測系統(tǒng)建設(shè)和機(jī)器學(xué)習(xí)水平的提升。
基于大數(shù)據(jù)背景下,機(jī)器學(xué)習(xí)的具體學(xué)習(xí)方法主要分為四大類,分別為機(jī)器學(xué)習(xí)策略、機(jī)器學(xué)習(xí)方法、學(xué)習(xí)目標(biāo)及數(shù)據(jù)形式的分類,基礎(chǔ)概念論述如下:
3.2.1 機(jī)器學(xué)習(xí)策略
基于機(jī)器學(xué)習(xí)理論下的學(xué)習(xí)策略由模擬人腦、統(tǒng)計數(shù)學(xué)兩方面構(gòu)成,其中模擬人腦的學(xué)習(xí)方式,包括符號學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),以數(shù)據(jù)數(shù)值為基礎(chǔ),利用現(xiàn)代化技術(shù)手段,模擬人腦的運(yùn)算方式,針對圖像信息、狀態(tài)空間、推演流程等方面進(jìn)行模擬,完成對相關(guān)知識信息的有效采集;統(tǒng)計數(shù)學(xué)的方式則是通過構(gòu)建數(shù)據(jù)訓(xùn)練模型、制定學(xué)習(xí)策略、確定最優(yōu)算法等方式,完成對相關(guān)數(shù)據(jù)信息的獲取工作[3]。
3.2.2 機(jī)器學(xué)習(xí)方法
機(jī)器學(xué)習(xí)具體的學(xué)習(xí)方法包括歸納學(xué)習(xí)法、演繹學(xué)習(xí)法、類比學(xué)習(xí)法和分析學(xué)習(xí)法,通過決策樹、函數(shù)計算、經(jīng)典案例分析等方式,以概率函數(shù)、代數(shù)函數(shù)及人工神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),將統(tǒng)計與動態(tài)規(guī)劃相結(jié)合,優(yōu)化機(jī)器學(xué)習(xí)結(jié)構(gòu),進(jìn)而形成完整的機(jī)器學(xué)習(xí)模式。
3.2.3 機(jī)器學(xué)習(xí)目標(biāo)
學(xué)習(xí)目標(biāo)是機(jī)器學(xué)習(xí)的關(guān)鍵部分,具體包括概念、規(guī)則、函數(shù)、類別和網(wǎng)絡(luò)的學(xué)習(xí),根據(jù)學(xué)習(xí)內(nèi)容制定相應(yīng)的學(xué)習(xí)目標(biāo),對機(jī)器學(xué)習(xí)模式進(jìn)行科學(xué)合理規(guī)劃,為后續(xù)進(jìn)行機(jī)器學(xué)習(xí)算法分析工作創(chuàng)造條件。
3.2.4 數(shù)據(jù)學(xué)習(xí)形式
機(jī)器學(xué)習(xí)模式應(yīng)用期間,以數(shù)據(jù)為主要的學(xué)習(xí)形式,通過結(jié)構(gòu)化學(xué)習(xí)和非結(jié)構(gòu)化學(xué)習(xí),對數(shù)據(jù)信息進(jìn)行有效輸入,根據(jù)數(shù)值或符號運(yùn)算結(jié)果,深入挖掘數(shù)據(jù)中有用的價值信息,完善數(shù)據(jù)鏈條中的關(guān)鍵節(jié)點(diǎn),采用大數(shù)據(jù)技術(shù)手段,補(bǔ)全數(shù)據(jù)信息,強(qiáng)化機(jī)器學(xué)習(xí)效果。
3.3.1 決策樹算法
基于大數(shù)據(jù)背景下,對機(jī)器學(xué)習(xí)算法進(jìn)行分析,利用決策樹對不同數(shù)據(jù)類型進(jìn)行輸入空間劃分,明確各個區(qū)域參數(shù)的獨(dú)立運(yùn)算機(jī)制,利用樹形結(jié)構(gòu),對數(shù)據(jù)節(jié)點(diǎn)進(jìn)行路徑分析,判斷不同數(shù)據(jù)象征類型,根據(jù)數(shù)據(jù)分析樣本生成相對應(yīng)的數(shù)據(jù)子集,通過分割遞推的形式,對節(jié)點(diǎn)進(jìn)行有效測試,提高數(shù)據(jù)信息處理效率。
3.3.2 支持向量機(jī)算法
基于大數(shù)據(jù)手段,采用非線性變換方式,將空間向更高維度進(jìn)行轉(zhuǎn)變,在全新空間表面形成最優(yōu)分類,利用支持向量機(jī)進(jìn)行機(jī)器學(xué)習(xí)運(yùn)算,在方法類型上與神經(jīng)網(wǎng)絡(luò)算法基本一致,在數(shù)據(jù)分析和處理方面,以現(xiàn)代技術(shù)手段為核心,構(gòu)建SVM算法模型,發(fā)揮監(jiān)督學(xué)習(xí)的優(yōu)勢,構(gòu)建最優(yōu)數(shù)據(jù)結(jié)構(gòu)運(yùn)算模式,結(jié)合有限的數(shù)據(jù)樣本信息,尋求機(jī)器學(xué)習(xí)算法應(yīng)用路徑,完成對數(shù)據(jù)空間的最優(yōu)劃分,逐步實現(xiàn)機(jī)器學(xué)習(xí)算法的全局優(yōu)化。
3.3.3 人工神經(jīng)網(wǎng)絡(luò)算法
人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元組成,在該算法機(jī)制內(nèi),個體單元相互連接且有相應(yīng)數(shù)據(jù)值實時輸入和輸出,以實數(shù)或線性組合為基本形式,將機(jī)器學(xué)習(xí)能力進(jìn)行泛化,呈現(xiàn)明顯的非線性映射效果,針對數(shù)據(jù)信息量進(jìn)行模型處理,提高數(shù)據(jù)信息的傳遞速率,逐步推進(jìn)預(yù)測系統(tǒng)的智能化建設(shè)。
3.4.1 分治型數(shù)據(jù)處理模式
分治算法在大數(shù)據(jù)處理工作中,具有先天的應(yīng)用優(yōu)勢,將數(shù)據(jù)庫內(nèi)數(shù)據(jù)信息作為核心運(yùn)算內(nèi)容,將分治型算法進(jìn)行拓展延伸,實現(xiàn)對數(shù)據(jù)信息的精準(zhǔn)分析,有利于明確機(jī)器學(xué)習(xí)的根本目標(biāo),降低學(xué)習(xí)難度,精準(zhǔn)判斷數(shù)據(jù)樣本類型。在數(shù)據(jù)篩選和分析過程中,采用約減法在大數(shù)據(jù)中選取最小數(shù)據(jù)集合,借助測試子集完成數(shù)據(jù)的采樣和優(yōu)化工作,提高數(shù)據(jù)決策效率和質(zhì)量[4]。
3.4.2 并行式數(shù)據(jù)處理模式
為滿足大數(shù)據(jù)時代對于大量數(shù)據(jù)的處理需求,將數(shù)據(jù)與機(jī)器學(xué)習(xí)進(jìn)行有機(jī)結(jié)合,通過并行式數(shù)據(jù)處理模式,完成對大數(shù)據(jù)的聯(lián)合處理,建立并行化數(shù)據(jù)轉(zhuǎn)換機(jī)制,在并行處理觀念的指導(dǎo)下,對“碎片化”數(shù)據(jù)進(jìn)行分類,利用大數(shù)據(jù)手段,對各類數(shù)據(jù)運(yùn)行規(guī)律進(jìn)行整體性把握,保證機(jī)器學(xué)習(xí)目標(biāo)及效果定位的精準(zhǔn)性。
3.4.3 聚類式數(shù)據(jù)處理模式
數(shù)據(jù)處理過程中,常用聚類法進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)根據(jù)不同節(jié)點(diǎn)信息進(jìn)行類型劃分,將大型數(shù)據(jù)劃分至多項子數(shù)據(jù)的節(jié)點(diǎn)之中,針對已完成分類的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行集中處理。聚類式數(shù)據(jù)處理模式在實際應(yīng)用期間,具體應(yīng)用途徑分為三類,分別是非迭代化拓展、持續(xù)擴(kuò)充子集合、抽樣均值,提升數(shù)據(jù)信息的綜合處理效率。
綜上所述,隨著大數(shù)據(jù)時代的不斷深入發(fā)展,傳統(tǒng)的機(jī)器學(xué)習(xí)方式和智能預(yù)測系統(tǒng)必須結(jié)合大數(shù)據(jù)背景,基于校園管理、教學(xué)、服務(wù)、就業(yè)、科研五個層面的需求,研究校園大數(shù)據(jù)的應(yīng)用關(guān)聯(lián),分析基于時間和空間維度的數(shù)據(jù)變化規(guī)律,考慮未來數(shù)據(jù)趨勢走向,對數(shù)據(jù)處理模式進(jìn)行創(chuàng)新應(yīng)用,積極構(gòu)建智能化預(yù)測系統(tǒng),實現(xiàn)對數(shù)據(jù)信息的綜合預(yù)測與分析,提高數(shù)據(jù)的處理效率,建立基于智能預(yù)測和機(jī)器學(xué)習(xí)的管理和服務(wù),幫助學(xué)校真正的發(fā)現(xiàn)學(xué)生、了解學(xué)生,充分發(fā)現(xiàn)學(xué)生的個性,并且?guī)椭蠋煂崿F(xiàn)針對高校學(xué)生的因材施教、個性化管理。