摘要:針對(duì)數(shù)據(jù)挖掘算法以及在解決在線學(xué)習(xí)領(lǐng)域中解決復(fù)雜問題的優(yōu)勢(shì)及不足,本文提出一種基于支持向量機(jī)SVM算法的學(xué)生學(xué)習(xí)行為聚類算法,并將基于隨機(jī)森林模型下的基尼指標(biāo)特征加權(quán)的支持向量機(jī)方法應(yīng)用于學(xué)生學(xué)習(xí)行為分析中。從而改善了SVM算法在分類識(shí)別方面性能,并且驗(yàn)證了采用數(shù)據(jù)挖掘算法應(yīng)用到分析學(xué)生學(xué)習(xí)行為是可行的,并且具有較高的準(zhǔn)確性。
關(guān)鍵詞:SVM;學(xué)習(xí)行為聚類
1 引言
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和互聯(lián)網(wǎng)應(yīng)用的普及,信息技術(shù)正在不斷地改變我們傳統(tǒng)的教育教學(xué)模式。數(shù)據(jù)挖掘于2003年正式開啟開發(fā)和研究工作,美國的七所頂尖院校的研究人員共同提出了“數(shù)據(jù)挖掘VGrADS和網(wǎng)格虛擬化”的項(xiàng)目,之后Amazon、Giftag、Saleforce.com以及IBM都使用數(shù)據(jù)挖掘來提高自己在業(yè)界的競(jìng)爭(zhēng)力。例如,Google以企業(yè)搜索、應(yīng)用托管等形式向企業(yè)提供Google開放云,而Microsoft推出了Live Mesh這種網(wǎng)絡(luò)管理和數(shù)據(jù)存儲(chǔ)軟件來與Google競(jìng)爭(zhēng)。在2006年Amazon推出了彈性計(jì)算云和簡單存儲(chǔ)服務(wù),是建立在2004年Amazon提出了MechanicalTurk、簡單隊(duì)列服務(wù)等數(shù)據(jù)挖掘服務(wù)雛形之上的。在2008年,IBM提出了公有云和私有云的定義。而Apple公司近年來也相繼推出iTunes服務(wù)以及MobileMe服務(wù)等,標(biāo)志向數(shù)據(jù)挖掘開始進(jìn)軍。從而采用數(shù)據(jù)挖掘技術(shù)進(jìn)行學(xué)生學(xué)習(xí)行為分析將十分有必要,并且會(huì)迅速掀起了一場(chǎng)全球范圍的教育技術(shù)革命,得到了教育界、高校教師和學(xué)生以及社會(huì)受眾的普遍歡迎。
2 改進(jìn)的支持向量機(jī)SVM
特征加權(quán)支持向量機(jī)由核函數(shù)經(jīng)特征加權(quán)構(gòu)造的支持向量機(jī)。并且特征加權(quán)核函數(shù)的定義為:
若Kp是定義在X*X(X∈Rn)上的核函數(shù), p是已知的待輸入集的n階線性變換矩陣,其中n為待輸入集的維數(shù)。特征加權(quán)核函數(shù)Kp定義為
(1)
由于在隨機(jī)森林(RandomForest)模型中可以根據(jù)Gini指標(biāo)來確定每個(gè)樣本自變量對(duì)應(yīng)變量的影響程度,即確定樣本量中特征屬性的重要性,并且本文將特征加權(quán)核函數(shù)的 值進(jìn)行優(yōu)化,用此Gini指標(biāo)確定樣本特征的重要性之后,構(gòu)造了在RandomForest模型下的Gini指標(biāo)特征加權(quán)的支持向量機(jī),即為改進(jìn)的支持向量機(jī)SVM。
改進(jìn)支持向量機(jī)SVM算法的詳細(xì)步驟如下:
Step1.確定樣本集S,即為:
其中x(i)為特征變量,y(i)為類別量。
Step2.在隨機(jī)森林模型下計(jì)算各個(gè)特征變量的Gini指標(biāo),標(biāo)準(zhǔn)化各個(gè)指標(biāo)參數(shù),并以所得指標(biāo)參數(shù)對(duì)其相應(yīng)的特征屬性加權(quán),構(gòu)造加權(quán)的特征向量: 來優(yōu)化核函數(shù)中的原始特征內(nèi)積。
Step3.構(gòu)造待輸入空間的線性變換矩陣 (也可以是一個(gè)數(shù)據(jù)向量或者是一稀疏矩陣),以p建立特征加權(quán)的核函數(shù)Kp。
Step4.對(duì)所建立的核函數(shù)Kp進(jìn)行有效性判定;如果假設(shè)K是正定的,則根據(jù)定義有:
(2)
Step5.應(yīng)用所構(gòu)造的特征加權(quán)的核函數(shù) 在程序設(shè)計(jì)中替換傳統(tǒng)的支持向量機(jī)SVM模型中的線性核函數(shù),并且輸出核心的SVM構(gòu)造分類器,與此同時(shí),對(duì)構(gòu)造的改進(jìn)的支持向量機(jī)SVM算法進(jìn)行性能測(cè)試。
3 實(shí)驗(yàn)與結(jié)果分析
為了驗(yàn)證所提出方法的可行性及實(shí)用性,本文學(xué)生進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集的原始樣本共有699行數(shù)據(jù),10列特征屬性,在 R語言的R-Studio環(huán)境中對(duì)其進(jìn)行數(shù)據(jù)清洗預(yù)處理,消除了其中缺失以及不完整的樣本,得到683行10列數(shù)據(jù)集。然后在隨機(jī)森林模型中用VarImpPlot()函數(shù)包對(duì)清洗后的數(shù)據(jù)進(jìn)行特征分析。本文將以上三種算法在學(xué)生數(shù)據(jù)庫中的多個(gè)在線學(xué)習(xí)學(xué)生學(xué)習(xí)行為分析數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),將數(shù)據(jù)集分別應(yīng)用前面所提到的SVM, FWSVM, 改進(jìn)的支持向量機(jī)SVM三種算法在MATLAB 2014a環(huán)境中進(jìn)行仿真實(shí)驗(yàn),其統(tǒng)計(jì)結(jié)果如圖1所示:
UCI在線學(xué)習(xí)學(xué)生學(xué)習(xí)行為分析數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果的分析如圖1所示,在這五個(gè)分析數(shù)據(jù)上,可以看出本文所提出的改進(jìn)的支持向量機(jī)SVM算法算法平均的識(shí)別性能相對(duì)最高,而經(jīng)典的SVM算法的識(shí)別性能最差,但總體而言,本文所提出的改進(jìn)的支持向量機(jī)SVM算法在在線學(xué)習(xí)中識(shí)別的正確率最高,效果最為明顯。
綜上實(shí)驗(yàn)數(shù)據(jù)可知,本文提出的基于隨機(jī)森林模型下Gini指標(biāo)的特征加權(quán)支持向量機(jī)算法的的正確率相對(duì)更高,分類性能相對(duì)更具優(yōu)勢(shì)。
4總結(jié)
本文通過分析數(shù)據(jù)挖掘算法以及在解決在線學(xué)習(xí)領(lǐng)域中復(fù)雜問題的優(yōu)勢(shì)及不足,提出一種基于支持向量機(jī)SVM算法的學(xué)生學(xué)習(xí)行為聚類算法,并將基于隨機(jī)森林模型下的基尼指標(biāo)特征加權(quán)的支持向量機(jī)方法應(yīng)用于學(xué)生學(xué)習(xí)行為分析中。從而改善了SVM算法在分類識(shí)別方面性能,而且驗(yàn)證了采用數(shù)據(jù)挖掘算法應(yīng)用到分析學(xué)生學(xué)習(xí)行為的可行性以及準(zhǔn)確性,實(shí)驗(yàn)結(jié)果表明,本文所提出的改進(jìn)的支持向量機(jī)SVM算法在在線學(xué)習(xí)中識(shí)別的正確率最高,效果最為明顯。
參考文獻(xiàn):
[1] 黃晟. 基于變電站為中心的配電網(wǎng)電壓態(tài)勢(shì)圖片圖形特征的態(tài)勢(shì)評(píng)估模型及算法[D]. 杭州電子科技大學(xué), 2017.
[2] 許國棟. 半監(jiān)督學(xué)習(xí)框架下基于圖的SVM分類算法研究[D]. 北方民族大學(xué), 2017.
楊子恒(1986.9-),男,漢族,原籍湖南常德,香港中文大學(xué)信息工程系碩士研究生,現(xiàn)任天津華泰克數(shù)碼科技有限公司總經(jīng)理,主要從事政府和企事業(yè)單位信息化建設(shè)方面的工作。歷經(jīng)公安、大型醫(yī)院、高職院校等多處的重大信息化建設(shè)項(xiàng)目的管理工作,對(duì)大數(shù)據(jù)、虛擬現(xiàn)實(shí)、網(wǎng)絡(luò)及音視頻、安全防范技術(shù)等方向有較深的設(shè)計(jì)及實(shí)施經(jīng)驗(yàn)。