葉舒雁 張未展 齊天亮 李 靜 鄭慶華
(西安交通大學(xué)計算機(jī)科學(xué)與技術(shù)系 西安 710049)(陜西省天地網(wǎng)技術(shù)重點(diǎn)實(shí)驗室(西安交通大學(xué)) 西安 710049)(zhangwzh@mail.xjtu.edu.cn)
?
一種基于傳感器與用戶行為數(shù)據(jù)分析的移動學(xué)習(xí)場景感知分類方法
葉舒雁 張未展 齊天亮 李 靜 鄭慶華
(西安交通大學(xué)計算機(jī)科學(xué)與技術(shù)系 西安 710049)(陜西省天地網(wǎng)技術(shù)重點(diǎn)實(shí)驗室(西安交通大學(xué)) 西安 710049)(zhangwzh@mail.xjtu.edu.cn)
隨著智能手機(jī)和移動互聯(lián)網(wǎng)的普及,使用智能移動終端進(jìn)行學(xué)習(xí)的用戶也逐漸增多,移動學(xué)習(xí)在數(shù)字教育領(lǐng)域占據(jù)著越來越重要的地位.移動學(xué)習(xí)的有效性體現(xiàn)在情境感知的能力,即能夠感知不同學(xué)習(xí)情境并提供相應(yīng)合理的學(xué)習(xí)內(nèi)容.因而,移動學(xué)習(xí)中的情境感知技術(shù)已經(jīng)成為一個研究熱點(diǎn).學(xué)習(xí)場景的感知是移動學(xué)習(xí)情境感知的重點(diǎn),但是由于移動學(xué)習(xí)的動態(tài)性和復(fù)雜性,準(zhǔn)確的場景感知具有一定的難度.基于實(shí)際的移動學(xué)習(xí)環(huán)境,提出了一種根據(jù)傳感器與學(xué)習(xí)操作行為對學(xué)習(xí)場景進(jìn)行感知分類的方法,處理并分析了由移動學(xué)習(xí)客戶端采集到的傳感器數(shù)據(jù)和學(xué)習(xí)操作行為日志數(shù)據(jù),對比了以傳感器數(shù)據(jù)特征值與學(xué)習(xí)操作行為特征值共同作為輸入特征值的多種場景感知分類算法.結(jié)果表明:對比僅使用傳感器數(shù)據(jù)作為分類算法輸入特征值的結(jié)果,結(jié)合學(xué)習(xí)操作行為日志和傳感器數(shù)據(jù)一起作為學(xué)習(xí)場景分類感知的依據(jù),可以顯著提高移動學(xué)習(xí)場景的感知分類效果.
移動學(xué)習(xí);移動傳感器;學(xué)習(xí)操作;學(xué)習(xí)場景感知;場景分類
隨著移動終端設(shè)備的普及,近幾年移動學(xué)習(xí)應(yīng)用也呈現(xiàn)出爆發(fā)性的增長趨勢,對比傳統(tǒng)學(xué)習(xí)方式,移動學(xué)習(xí)有著非常顯著的特點(diǎn):多變的學(xué)習(xí)場景.現(xiàn)有場景感知的研究主要是從原始環(huán)境、服務(wù)設(shè)計開發(fā)、可用性研究等方面開展,比如將地理位置信息與帶寬預(yù)測結(jié)合,從而優(yōu)化視頻自適應(yīng)服務(wù)技術(shù)[1],考慮場景因素對于QoE的影響,進(jìn)而提高視頻質(zhì)量[2],利用移動用戶位置信息,提高移動網(wǎng)絡(luò)服務(wù)的可靠性和準(zhǔn)確性[3]等.通過考慮終端位置、用戶相關(guān)數(shù)據(jù)等場景相關(guān)信息感知場景,進(jìn)而提供自適應(yīng)的內(nèi)容、個性化的動態(tài)服務(wù)[4],可以顯著地提高用戶的積極性和服務(wù)的有效性.通過獲取用戶手機(jī)的各類傳感器數(shù)據(jù)信息并采用一定的數(shù)據(jù)挖掘算法來學(xué)習(xí)感知用戶情境信息,進(jìn)一步與移動學(xué)習(xí)應(yīng)用結(jié)合成為目前教育學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)[5].在此基礎(chǔ)上,基于具體學(xué)習(xí)情境向?qū)W習(xí)者推送適合的學(xué)習(xí)資源,以實(shí)現(xiàn)個性化學(xué)習(xí)是移動學(xué)習(xí)發(fā)展的趨勢[6].
不同學(xué)習(xí)場景下學(xué)生的學(xué)習(xí)操作行為也有一定的差異[7],因此本文在不影響用戶體驗的情況下在后臺采集移動學(xué)習(xí)用戶手機(jī)傳感器數(shù)據(jù)并記錄學(xué)生學(xué)習(xí)操作行為,在傳感器數(shù)據(jù)感知場景的基礎(chǔ)上,進(jìn)一步考慮綜合傳感器數(shù)據(jù)和學(xué)習(xí)操作日志共同來感知學(xué)生的學(xué)習(xí)情境以獲取更好的場景感知效果.
1.1 傳感器數(shù)據(jù)與學(xué)習(xí)操作行為采集
不同于一般的移動學(xué)習(xí)應(yīng)用,本文中使用自主研發(fā)的客戶端,在學(xué)生學(xué)習(xí)過程中會在后臺采集學(xué)生課程視頻學(xué)習(xí)過程中的一些學(xué)習(xí)操作數(shù)據(jù),比如開始學(xué)習(xí)課程的時刻、暫停操作的時刻和暫停時長、拖動操作的時刻和拖動的時長、結(jié)束學(xué)習(xí)的時刻和學(xué)習(xí)時長.通過這4類操作記錄數(shù)據(jù)可以完整地還原出某個學(xué)生的學(xué)習(xí)過程.由于研究課題的需要,客戶端在學(xué)生學(xué)習(xí)課程視頻的過程中還會采集手機(jī)上8類傳感器數(shù)據(jù),分別是加速度傳感器、重力傳感器、陀螺儀傳感器、旋轉(zhuǎn)矢量傳感器、溫度傳感器、光線傳感器、濕度傳感器和聲音傳感器.本文后續(xù)的場景感知分類首先是基于從服務(wù)器上下載的原始傳感器數(shù)據(jù),然后在此基礎(chǔ)上以學(xué)習(xí)操作行為日志分析出的一些學(xué)習(xí)操作為指標(biāo),比如學(xué)習(xí)時長、暫停以及拖動的次數(shù)和時長這些行為指標(biāo)連同傳感器數(shù)據(jù)一起作為場景感知分類的依據(jù),從而達(dá)到優(yōu)化場景分類感知的效果.
數(shù)據(jù)采集完成后,就可以針對數(shù)據(jù)進(jìn)行具體分析了.然而由于手機(jī)使用過程中的移動性、電量消耗、網(wǎng)絡(luò)傳輸?shù)纫蛩兀瑐鞲衅鲾?shù)據(jù)的獲取并不穩(wěn)定,當(dāng)傳感器的能量較低時采集到的數(shù)據(jù)通常是不可用的臟數(shù)據(jù)、噪聲數(shù)據(jù)或者直接數(shù)據(jù)丟失[8],所以原始傳感器數(shù)據(jù)必須經(jīng)過特定的處理才能進(jìn)行分析.本文對傳感器數(shù)據(jù)的處理主要包括臟數(shù)據(jù)處理以及對缺失值的插補(bǔ).本文利用不同傳感器屬性之間的相關(guān)性和傳感器數(shù)據(jù)自身的時間特性來針對缺失數(shù)據(jù)進(jìn)行插補(bǔ).除此之外,傳感器數(shù)據(jù)也需要與從服務(wù)器中提取的移動學(xué)習(xí)操作數(shù)據(jù)進(jìn)行匹配.
1.2 傳感器臟數(shù)據(jù)處理
盡管目前移動設(shè)備中傳感器已經(jīng)有了很大的改進(jìn),但是由于手機(jī)電量和用戶移動的影響,傳感器數(shù)據(jù)中不可避免地存在噪聲[9],數(shù)據(jù)還是要依賴各種形式的平滑和均衡,也就是通常說的低通濾波,它可以濾除高頻率的噪聲,而“放行”低頻率和改變緩慢的變化[8].而高通濾波可以去除對靜態(tài)和緩慢變化的背景數(shù)據(jù)的強(qiáng)調(diào),它強(qiáng)調(diào)的是更高頻率和瞬變分量.因此本文首先使用加權(quán)平均法作為低通濾波算法來實(shí)現(xiàn)對數(shù)據(jù)的平滑作用,然后從傳感器數(shù)據(jù)中減去低通濾波后的結(jié)果,從而得到高通濾波的最終數(shù)據(jù).
另外,對于變化劇烈的數(shù)據(jù),計算簡單移動平均線對單個數(shù)據(jù)點(diǎn)的峰值能起到更好的平滑作用,可以更好地分析數(shù)據(jù).簡單移動平均線(simple moving average, SMA)也被稱為滾動平均值或移動平均值,它能夠很方便地找到數(shù)據(jù)序列中最近的k個數(shù)據(jù)的算術(shù)平均值,其中整數(shù)k代表平均“窗口”的大小.只有k個值全部被采集到后,該方法才能奏效.對前k-1個值,平均值可以取任意值(例如0),或者將SMA的計算延遲到采集到k個值之后進(jìn)行.平滑參數(shù)和窗口大小的選擇需要權(quán)衡,在定義1個合適的窗口大小時,最好能夠平滑在給定的時間段內(nèi)采集到的所有數(shù)據(jù)值,而不僅僅考慮最新的,本文中選取最近的60個值作為窗口大小.
1.3 傳感器數(shù)據(jù)缺失值處理
由于移動手機(jī)的特殊性,傳感器數(shù)據(jù)的缺失是無法避免的.對于缺失的傳感器數(shù)據(jù),本文考慮到傳感器數(shù)據(jù)的時間序列特性和其他一些相關(guān)特性,因此插值在準(zhǔn)確性上明顯不夠[10],會對后續(xù)的數(shù)據(jù)建模帶來偏差,影響場景感知的正常進(jìn)行[11].傳感器數(shù)據(jù)的缺失模式通常也是隨機(jī)缺失模式,數(shù)據(jù)缺失時間之間不存在線性關(guān)系,某屬性值這一刻缺失,下一時刻可能就可以正常采集.在對已有的傳感器數(shù)據(jù)進(jìn)行分析和挖掘后,本文根據(jù)不同傳感器屬性值之間的相關(guān)性和傳感器數(shù)據(jù)自身的時間特性來針對缺失的傳感器數(shù)據(jù)進(jìn)行插補(bǔ),取得了良好的數(shù)據(jù)插值效果.
由于溫度、濕度和光照強(qiáng)度這3個傳感器屬性數(shù)據(jù)之間存在極大的相關(guān)性,因此可以通過分析傳感器屬性之間的相關(guān)性并加以利用來恢復(fù)某些傳感器數(shù)據(jù)缺失值.通過一元回歸模型和多元回歸模型的使用,本文成功對一些場景相關(guān)傳感器的缺失數(shù)據(jù),比如溫度、濕度、光強(qiáng)進(jìn)行了預(yù)測和插補(bǔ)[12].
利用不同類型傳感器數(shù)據(jù)之間的屬性相關(guān)性可以預(yù)測部分?jǐn)?shù)據(jù),然而原始數(shù)據(jù)中也存在多種傳感器數(shù)據(jù)在某一時刻數(shù)據(jù)都缺失的情況,現(xiàn)有的缺失數(shù)據(jù)插補(bǔ)方法沒有考慮到傳感器數(shù)據(jù)的時間信息.由于手機(jī)傳感器采集到的環(huán)境數(shù)據(jù)如溫度、光強(qiáng)、濕度等都是一些連續(xù)變化的物理量,即相鄰時刻的數(shù)據(jù)值相差不大,所以傳感器數(shù)據(jù)作為時間序列數(shù)據(jù),數(shù)據(jù)之間通常具有一定的時間相關(guān)性[13],利用這種時間相關(guān)性來預(yù)測丟失的傳感器數(shù)據(jù),準(zhǔn)確率應(yīng)該相對較高.因此本文根據(jù)傳感器數(shù)據(jù)的時間序列特性,通過對相鄰時刻數(shù)據(jù)構(gòu)建線性插值函數(shù)對某些缺失值進(jìn)行估計和預(yù)測.
缺失值插值完成后,本文需要對數(shù)據(jù)完整性進(jìn)行檢查,檢查傳感器數(shù)據(jù)的采樣率和序列長度以及傳感器類型的完整性.確保分析的每個傳感器序列文件都是基于采樣率20 Hz、時長為10 min,且包含所有需要的傳感器類型的數(shù)據(jù).
1.4 學(xué)習(xí)操作行為日志預(yù)處理
由于移動學(xué)習(xí)客戶端是在判斷網(wǎng)絡(luò)狀況良好的情況下才進(jìn)行學(xué)習(xí)操作行為數(shù)據(jù)的發(fā)送,所以可能導(dǎo)致學(xué)習(xí)操作行為發(fā)生時間和操作數(shù)據(jù)被上傳到服務(wù)器的時間并不一致,學(xué)習(xí)操作在服務(wù)器數(shù)據(jù)庫中的順序并不一定對應(yīng)操作真實(shí)發(fā)生的順序.在此本文需要對操作日志進(jìn)行一定的處理,根據(jù)操作行為發(fā)生的時間對操作進(jìn)行排序,整理出正確的操作行為發(fā)生順序.學(xué)生1次學(xué)習(xí)過程中產(chǎn)生的學(xué)習(xí)操作行為日志中的開始操作和結(jié)束操作的時刻對應(yīng)于傳感器采集開始和結(jié)束的時刻,這樣使學(xué)習(xí)操作日志數(shù)據(jù)和傳感器日志數(shù)據(jù)文件可以對應(yīng)起來,從而可以確定某學(xué)習(xí)場景下的學(xué)習(xí)操作行為數(shù)據(jù).
2.1 傳感器數(shù)據(jù)特征值選取與計算
經(jīng)過第1節(jié)除噪和缺失值插補(bǔ)后的傳感器數(shù)據(jù)并不能直接作為場景感知分類算法的輸入,為了降低建模時間,提高分類效果,本文基于原始傳感器數(shù)據(jù)處理選取出某些對分類結(jié)果有較大影響的特征值作為算法建模的依據(jù)[14].移動終端采集的傳感器數(shù)據(jù)是時間上連續(xù)的序列,本文選取的是時長超過10 min的數(shù)據(jù),可以采用滑動窗口的方法進(jìn)行特征提取.
設(shè)A3a為3軸加速度的信號強(qiáng)度矢量,可以為
在情境感知研究中常用的特征值有:均值、方差、相關(guān)系數(shù)等;本文選取了6種特征值:平均值(mean)、標(biāo)準(zhǔn)偏差(standard deviation)、中值(median)、偏度(skewness)、峰態(tài)(kurtosis)和4分位點(diǎn)范圍(inter-quartile range),這6個統(tǒng)計學(xué)特征被證明是利用傳感器數(shù)據(jù)進(jìn)行分類的比較有效的選擇[15].
2.2 基于傳感器數(shù)據(jù)的場景感知方法
由于數(shù)據(jù)量非常大,靜態(tài)場景和動態(tài)場景的比例差距也很大,考慮到靜態(tài)場景和動態(tài)場景的數(shù)據(jù)很容易區(qū)分,本文選擇對傳感器數(shù)據(jù)采用2次分類策略.首先確定場景的基本類型:動態(tài)或者靜態(tài);然后再進(jìn)行第2次分類,分別在這2類場景中判斷出具體的場景類型.
經(jīng)實(shí)驗分析,靜態(tài)場景和動態(tài)場景僅根據(jù)加速度傳感器數(shù)據(jù)的變化即可判斷.如圖1所示,在圖書館和辦公室場景中學(xué)生手機(jī)3軸加速度傳感器的數(shù)據(jù)幾乎保持恒定不變,而在公交或地鐵中手機(jī)3軸加速度傳感器的數(shù)據(jù)變化劇烈,波動很大.因此通過計算加速度傳感器數(shù)據(jù)的標(biāo)準(zhǔn)差,很容易區(qū)分出靜態(tài)場景和動態(tài)場景.
Fig. 1 The triaxial acceleration data of different scenarios.圖1 不同場景下的3軸加速度數(shù)據(jù)
Fig. 2 Dynamic and static scene classification.圖2 動靜態(tài)場景分類
本文分別隨機(jī)抽取了200個靜態(tài)和200個動態(tài)場景的傳感器數(shù)據(jù)文件,并計算出每個場景對應(yīng)的3軸加速度傳感器數(shù)據(jù)的標(biāo)準(zhǔn)差特征值,得到如圖2所示兩大類場景的分類結(jié)果的散點(diǎn)圖.很明顯地看到,靜態(tài)場景的3軸加速度標(biāo)準(zhǔn)差集中在坐標(biāo)原點(diǎn)附近,動態(tài)場景的3軸加速度標(biāo)準(zhǔn)差離原點(diǎn)較遠(yuǎn),比較分散.通過對已有場景的加速度傳感器數(shù)據(jù)的統(tǒng)計分析,得出當(dāng)3軸加速度x,y,z方向上傳感器數(shù)據(jù)標(biāo)準(zhǔn)差有任意1個超過2.0的即為動態(tài)場景,否則為靜態(tài)場景.分類的準(zhǔn)確率達(dá)到96%以上.
針對已區(qū)分的靜態(tài)和動態(tài)場景,本文仍需要再在這2個大類里面進(jìn)行細(xì)化分類,目標(biāo)是區(qū)分出具體的場景類型.由于本文采集了8種傳感器類型的數(shù)據(jù),根據(jù)2.1節(jié)選取的6個特征量共計算得到48個特征值.
本文選擇了隨機(jī)森林(random forest,RF)、J48決策樹、隨機(jī)委員會(random committee,RC)、貝葉斯網(wǎng)絡(luò)(Bayesian network,BN)和k最近鄰算法中的IBk共5種分類算法來對傳感器數(shù)據(jù)進(jìn)行建模.
由于不同傳感器對于不同場景分類的影響程度不同,因此首先要分別篩選出對動靜態(tài)場景影響較大的傳感器屬性值.使用Weka對4種靜態(tài)場景下的傳感器數(shù)據(jù)特征值進(jìn)行排序,對靜態(tài)場景影響較大的排名前10的屬性分別是:光強(qiáng)度中值、音量4分位點(diǎn)范圍、溫度中值、音量中值、光強(qiáng)度偏度、光強(qiáng)度標(biāo)準(zhǔn)差、溫度峰態(tài)、光強(qiáng)度4分位點(diǎn)范圍、光強(qiáng)度平均值、光強(qiáng)度峰態(tài).由此可知,環(huán)境傳感器數(shù)據(jù)對靜態(tài)場景的感知分類起著關(guān)鍵作用.使用5種不同分類算法對所有48個傳感器特征值數(shù)據(jù)建模并采用十折交叉驗證進(jìn)行驗證,算法運(yùn)行結(jié)果如表1所示:
Table 1 Classification Results of Static Learning Situations
可見,使用RC算法建模的性能最好,準(zhǔn)確度最高,建模時間也在可以接受的合理范圍.表2為使用傳感器特征值集合時RC算法分類結(jié)果的混淆矩陣.
Table 2 Confusion Matrix of RC
由于所有6種動態(tài)場景中,不同場景所占比例區(qū)別較大,公交場景的比例31.55%遠(yuǎn)遠(yuǎn)高于飛機(jī)場景的比例4.34%,因此不能直接采用分類算法[16].這是一個不平衡類的分類問題,本文采用smote抽樣方法,過分抽樣復(fù)制數(shù)據(jù)量少的樣本,主要是火車、飛機(jī)和其他場景的數(shù)據(jù),使各樣本的數(shù)據(jù)量保持大致平衡,然后再對所有數(shù)據(jù)樣本采用不同分類算法建模.同樣使用Weka對所有動態(tài)場景下的傳感器數(shù)據(jù)特征值進(jìn)行排序,得出的對動態(tài)場景分類影響較大的排名前10的屬性分別是:加速度中值、加速度標(biāo)準(zhǔn)差、加速度4分位點(diǎn)范圍、旋轉(zhuǎn)矢量中值、加速度峰態(tài)、音量偏度、陀螺儀峰態(tài)、重力中值、旋轉(zhuǎn)矢量偏度、重力4分位點(diǎn)范圍,說明對動態(tài)場景分類結(jié)果影響較大的是加速度傳感器數(shù)據(jù)、陀螺儀數(shù)據(jù)以及旋轉(zhuǎn)矢量傳感器數(shù)據(jù)的特征值,這些都是動作行為傳感器.使用不同分類算法對所有傳感器數(shù)據(jù)特征值建模并采用十折交叉方法進(jìn)行驗證,表3為算法運(yùn)行結(jié)果.
根據(jù)表3得出:IBk算法對動態(tài)場景的分類感知效果最好.本文選取所有的傳感器數(shù)據(jù)特征值建立全特征值集合,表4為使用全特征值集合時IBk分類算法分類結(jié)果的混淆矩陣.
Table 3 Classification Results of Dynamic Learning Situations
Table 4 Confusion Matrix of IBk
不同場景下學(xué)生的學(xué)習(xí)操作行為通常也呈現(xiàn)出明顯的差異化.對2015-08-12—2016-03-10期間產(chǎn)生的77 875條Android移動學(xué)習(xí)客戶端的學(xué)習(xí)操作行為記錄進(jìn)行統(tǒng)計分析.圖3是根據(jù)學(xué)習(xí)操作行為日志計算出的不同場景下的一些學(xué)習(xí)操作行為指標(biāo),包括學(xué)生在不同場景下的平均暫停和拖動的時長、平均暫停和拖動的次數(shù)以及平均學(xué)習(xí)時長;圖3的橫坐標(biāo)表示不同的學(xué)習(xí)場景:1代表辦公室,2代表家里,3代表圖書館,4代表室外,5代表汽車,6代表公交,7代表飛機(jī),8代表地鐵,9代表火車,10代表其他學(xué)習(xí)場景.
Fig. 3 Learning operation in different contexts.圖3 不同場景下的學(xué)習(xí)行為
由圖3可以看出不同場景下的學(xué)習(xí)行為呈現(xiàn)出很大的差異,例如學(xué)生在圖書館和辦公室等安靜的學(xué)習(xí)場所的單次學(xué)習(xí)時長通常比交通工具上的學(xué)習(xí)時長相對長些.在動態(tài)場景比如火車上的暫停時長相對長些.所以本文進(jìn)一步考慮綜合學(xué)習(xí)操作行為日志計算出的一些學(xué)習(xí)行為指標(biāo),將學(xué)習(xí)行為指標(biāo)和傳感器數(shù)據(jù)一起作為場景感知分類的特征值以達(dá)到更好的移動學(xué)習(xí)場景感知分類效果.
本文基于學(xué)習(xí)操作行為日志計算出特征值:某場景下的學(xué)習(xí)時長、暫停次數(shù)、暫停時長以及拖動次數(shù)、拖動時長共5個學(xué)習(xí)操作行為指標(biāo)作為結(jié)合傳感器數(shù)據(jù)特征值與學(xué)習(xí)操作行為日志的移動學(xué)習(xí)場景感知分類的特征值.
本次同樣采用2次分類:第1次分類同第2節(jié)中介紹的一樣,首先根據(jù)3軸加速度傳感器數(shù)據(jù)的標(biāo)準(zhǔn)差來區(qū)分出靜態(tài)場景和動態(tài)場景;第2次分類中算法的輸入不只有傳感器數(shù)據(jù)特征值,本節(jié)將計算出來的5個學(xué)習(xí)操作行為指標(biāo)連同傳感器數(shù)據(jù)特征值一起作為分類算法的輸入,同樣將場景類型數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù).
首先進(jìn)行特征選擇,將所有靜態(tài)場景的5個學(xué)習(xí)操作行為指標(biāo)連同48個傳感器數(shù)據(jù)特征值導(dǎo)入Weka,得到排名靠前的10個特征值,對比只有傳感器特征值的情況,發(fā)現(xiàn)學(xué)習(xí)過程中的暫停次數(shù)、暫停時長、總的學(xué)習(xí)時長對于靜態(tài)場景的分類也有影響,而拖動次數(shù)和拖動時長對靜態(tài)場景分類結(jié)果影響不大.
采用5種不同分類算法對所有48個傳感器數(shù)據(jù)特征值和5個學(xué)習(xí)行為指標(biāo)進(jìn)行建模,并采用十折交叉方法進(jìn)行驗證,算法運(yùn)行結(jié)果如表5所示,結(jié)果表明RC算法對靜態(tài)場景的感知分類效果最好.將算法結(jié)果與僅使用傳感器數(shù)據(jù)特征值作為分類依據(jù)的結(jié)果對比,每個算法的準(zhǔn)確率都有不同程度的提升.RC算法的準(zhǔn)確率可以達(dá)到88.5%,說明結(jié)合學(xué)習(xí)操作行為日志之后的場景感知分類效果更好.
Table 5 Classification Results of Static Learning Situations with Learning Operation Data
“↑” means the improvement of accuracy.
綜合所有48個傳感器數(shù)據(jù)與5個學(xué)習(xí)操作行為指標(biāo)建立全特征值集合,表6為采用全特征值集合時RC分類算法分類結(jié)果的混淆矩陣.對比表3中數(shù)據(jù),每個靜態(tài)場景被正確分類的個數(shù)都有一定程度的增加,進(jìn)一步驗證了結(jié)合學(xué)習(xí)操作行為日志后可以提高學(xué)習(xí)場景感知的準(zhǔn)確度.
Table 6 Confusion Matrix of RC with Learning Operation Data
同基于傳感器數(shù)據(jù)的場景感知分類方法一樣,首先采用smote抽樣方法使各樣本的數(shù)據(jù)量保持大致平衡;然后進(jìn)行特征選擇,將所有動態(tài)場景的5個學(xué)習(xí)操作行為指標(biāo)連同48個傳感器數(shù)據(jù)特征值導(dǎo)入Weka,得到排名靠前的10個特征值:加速度中值、加速度標(biāo)準(zhǔn)差、學(xué)習(xí)時長、加速度4分位點(diǎn)范圍、暫停時長、陀螺儀偏度、拖動次數(shù)、拖動時長、加速度峰態(tài)、音量偏度.特征選擇結(jié)果表明學(xué)習(xí)時長、暫停時長、拖動次數(shù)和拖動時長等學(xué)習(xí)操作行為指標(biāo)對動態(tài)場景的分類結(jié)果影響較大.
采用不同分類算法對所有傳感器數(shù)據(jù)特征值和學(xué)習(xí)操作行為指標(biāo)數(shù)據(jù)進(jìn)行建模,并采用十折交叉驗證,算法運(yùn)行結(jié)果如表7所示,可以看出IBk算法的準(zhǔn)確率最高,分類性能最好,對動態(tài)場景的感知分類效果最好.
Table 7 Classification Results of Dynamic Learning Situations with Learning Operation Data
“↑” in the fourth column means the improvement of accuracy,in the fifth column it means the modeling time increased.
將算法結(jié)果與僅使用傳感器數(shù)據(jù)特征值作為分類依據(jù)的結(jié)果對比,IBk算法進(jìn)行動態(tài)場景分類感知的效果最好,選取的學(xué)習(xí)操作行為指標(biāo)可以明顯提高動態(tài)場景感知分類的準(zhǔn)確率,優(yōu)化場景感知分類效果.
表8為采用IBk分類算法對動態(tài)場景進(jìn)行感知分類結(jié)果的混淆矩陣.對比表5中的數(shù)據(jù),每個動態(tài)場景被正確分類的個數(shù)都有一定程度的增加,進(jìn)一步驗證了結(jié)合學(xué)習(xí)操作行為日志后可以提高學(xué)習(xí)場景感知的準(zhǔn)確度.
Table 8 Confusion Matrix of IBk with Learning Operation Data
本文研究了基于移動學(xué)習(xí)系統(tǒng)的學(xué)習(xí)場景感知過程,通過采集學(xué)生使用Android移動學(xué)習(xí)客戶端進(jìn)行課程視頻學(xué)習(xí)過程中的傳感器數(shù)據(jù)和學(xué)習(xí)操作行為采集,并對原始數(shù)據(jù)進(jìn)行一定的預(yù)處理和分析;然后選取合適的特征值來作為場景感知分類的依據(jù),進(jìn)而挖掘出用戶所在的學(xué)習(xí)場景,為后續(xù)根據(jù)不同場景提供不同的學(xué)習(xí)內(nèi)容以達(dá)到最優(yōu)的學(xué)習(xí)效果提供一定的借鑒意義.
[1]Hao Jia, Zimmermann R, Ma H. GTube: Geo-predictive video streaming over HTTP in mobile environments[C] //Proc of the 5th ACM Multimedia Systems Conf. New York: ACM, 2014: 259-270
[2]Awobuluyi O, Nightingale J, Wang Qi, et al. Video qualiy in 5G networks: Context-aware QoE management in the SDN control plane[C] //Proc of the 3rd Int Workshop on Mutimedia Communication & Networking. Piscataway, NJ: IEEE, 2015: 1657-1662
[3]Liu Shudong, Meng Xiangwu. Approach to network services recommendation based on mobile user’s location[J]. Journal of Software, 2014, 25(11): 2556-2574 (in Chinese)(劉樹棟, 孟祥武. 一種基于移動用戶位置的網(wǎng)絡(luò)服務(wù)推薦方法[J]. 軟件學(xué)報, 2014, 25(11): 2556-2574)
[4]Kapitsaki G M, Prezerakos G N, Tselikas N D, et al. Context-aware service engineering: A survey[J]. Journal of Systems & Software, 2009, 82(8): 1285-1297
[5]Gellersen H, Beigl M, Schmidt A. Sensor-based context-awareness for situatedcomputing[C] // Proc of Workshop on Software Engineering for Wearable and Pervasive Computing (ICSE’00). Limerick, Ireland: ICSE, 2000: 77-83
[6]Wang Yuankai. Context awareness and adaptation in mobile learning[C] // Proc of the 2nd IEEE Int Workshop on Wireless and Mobile Technologies in Education. Los Alamitos, CA: IEEE Computer Society, 2004: 154-158
[7]Krause A, Smailagic A, Siewiorek D P. Context-aware mobile computing: Learning context-dependent personal preferences from a wearable sensor array[J]. IEEE Trans on Mobile Computing, 2006, 5(2): 113-127
[8]Milette G, Stroud A. Professional Android Sensor Programming[M]. Indianapolis, Indiana: Wiley, 2012: 127-181
[9]Hernandez M, Stolfo S. Real-world data is dirty: Data cleansing and the merge/purge problem[J]. Data Mining and Knowledge Discovery, 1998, 2(1): 9-37
[10]Li Yuanyuan, Parker L. A spatial-temporal imputation technique for classification with missing data in a wireless sensor network[C] // Proc of IEEE/RSJ Int Conf on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2008: 3272-3279
[11]Kong Linghe, Xia Mingyuan, Liu Xiaoyang, et al. Data loss and reconstruction in sensor networks[C] //Proc of the IEEE INFOCOM’13. Piscataway, NJ: IEEE, 2013: 1654-1662
[12]Xu Ke, Lei Jianjun. Estimating algorithm for missing values based on attribute correlation in wireless sensor network[J]. Journal of Computer Applications, 2015, 35(12): 3341-3343 (in Chinese)(許可, 雷建軍. 基于屬性相關(guān)性的無線傳感網(wǎng)絡(luò)缺失值估計方法[J]. 計算機(jī)應(yīng)用, 2015, 35(12): 3341-3343)
[13]Pan Liqiang, Li Jianzhong, Luo Jizhou. A temporal and spatial correlation based missing values imputation algorithm in wireless sensor networks[J]. Chinese Journal of Computers, 2010, 33(1): 1-11 (in Chinese)(潘立強(qiáng), 李建中, 駱吉州. 傳感器網(wǎng)絡(luò)中一種基于時-空相關(guān)性的缺失值估計算法[J]. 計算機(jī)學(xué)報, 2010, 33(1): 1-11)
[14]Hong Jongyi, Suh E H, Kim S J. Context-aware systems: A literature review and classification[J]. Expert Systems with Applications, 2009, 36(4): 8509-8522
[15]Zhang Mi, Sawchuk A. A feature selection-based framework for human activity recognition using wearable multimodal sensors[C] //Proc of the 6th Int Conf on Body Area Networks. Brussels: ICST, 2011: 92-98
[16]Wang Shuo, Yao Xin. Diversity analysis on imbalanced data sets by using ensemble models[C] //Proc of the 2009 IEEE Symp on Computational Intelligence and Data Mining. Piscataway, NJ: IEEE, 2009: 324-331
Ye Shuyan, born in 1991. Master candidate. Her main research interest is multimedia systems for e-learning.
Zhang Weizhan, born in 1977. Associate professor and PhD supervisor. His main research interests include multimedia systems for e-learning, peer-to-peer computing, analysis and application of big data and wireless networks.
Qi Tianliang, born in 1993. Master candidate. His main research interests include personalization service in e-learning, analysis and application of big data.
Li Jing, born in 1993. Master. Her main research interest is multimedia systems for e-learning.
Zheng Qinghua, born in 1969. Professor, PhD supervisor, and vice-president of Xi’an Jiaotong University. His main research interests include multimedia distance education, computer network security, intelligent e-learning theory and algorithm.
A Sensor and User Behavior Data Analysis Based Method of Mobile Learning Situation Perception
Ye Shuyan, Zhang Weizhan, Qi Tianliang, Li Jing, and Zheng Qinghua
(Department of Computer Science and Technology, Xi’an Jiaotong University, Xi’an 710049)(ShaanxiProvinceKeyLaboratoryofSatelliteandTerrestrialNetworkTechnology(Xi’anJiaotongUniversity),Xi’an710049)
As the popularity of the smart phones and mobile technologies, more and more people begin to use smartphones to learn and get new knowledge. Mobile learning has played a critical role in the field of education for a few years. The effectiveness of mobile learning reflects in the ability of perceiving different learning contexts and then provides matched learning resource. Context awareness has become a research hotspot, but the most important is learning situation perception. We can provide proper learning resources according to the specific learning situation. Because of the mobility and complexity of mobile learning, it’s difficult to perceive learning situation. The thesis proposes a method to perceive learning situations by combining sensor data and learning operation data and conducts some experiments. It chooses and calculates some sensor data eigenvalues and learning operation index eigenvalues as the inputs of the classification algorithms, the learning situations that students provide as training set data. The result shows that combining sensor data and learning operation data to perceive learning situations can improve the accuracy of the learning situation perception, which proves the feasibility and effectiveness of learning situation perception based on sensor data and learning operations.
mobile learning; mobile sensor; learning operation; learning context perception; context classification
2016-08-19;
2016-10-28
國家重點(diǎn)研發(fā)計劃項目(2016YFB1000903);國家自然科學(xué)基金項目(61472317,61428206,61472315,61532015,61532004);教育部創(chuàng)新團(tuán)隊發(fā)展計劃資助項目(IRT13035);陜西省科技統(tǒng)籌創(chuàng)新工程重點(diǎn)實(shí)驗室項目(2013SZS05-Z01) This work was supported by the National Key Research and Development Program of China (2016YFB1000903), the National Natural Science Foundation of China (61472317, 61428206, 61472315, 61532015, 61532004), the Innovative Research Team in University of Ministry of Education of China (IRT13035), and the Co-ordinator Innovation Project for the Key Lab of Shaanxi Province (2013SZS05-Z01).
TP391