李森林 彭小寧
(懷化學院計算機科學與工程學院,湖南 懷化 418000)
基于深度神經(jīng)網(wǎng)絡CNN的學生聽課狀態(tài)應用研究
李森林 彭小寧
(懷化學院計算機科學與工程學院,湖南 懷化 418000)
目前,大學生上課玩手機不再是個別現(xiàn)象,而授課老師在專注授課時又難以及時察覺和制止。對此,提出了一種基于卷積神經(jīng)網(wǎng)絡模型的學生聽課狀態(tài)應用。對拍攝獲取的學生頭像狀態(tài)由網(wǎng)絡模型自動識別并分析學生聽課情況,低頭族為疑似看手機對象或不在聽課狀態(tài)。課后,經(jīng)由班主任進行針對性談話了解情況并給予指導,以提高教學效果。
聽課狀態(tài);深度學習;卷積網(wǎng)絡
隨著智能手機的出現(xiàn),大學生對手機產(chǎn)生了一種迷戀狀態(tài),無論課內(nèi)課外,重點大學還是高職院校,人手一機,機不離手成為了大學生的常態(tài)。尤其課堂上部分學生不自覺或自制力差,出現(xiàn)玩手游或聊天等行為,并且這種現(xiàn)象呈蔓延的趨勢,而授課老師在專注教學的情況下,又難以及時察覺和制止,嚴重影響了課堂教學效果,不利于大學生的身心和智力發(fā)展。這種情況與用智能手機實現(xiàn)碎片化學習目標背道而馳。為此,大學有責任和義務進行解決,深度卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)是一種深度學習模型,在圖像識別領域取得了顯著成果[1],這方面的研究已非常成熟。論文從CNN架構研究入手,全面分析研究了卷積神經(jīng)網(wǎng)絡的原理、實現(xiàn)與學生聽課狀態(tài)的應用。
早期的神經(jīng)網(wǎng)絡發(fā)源于感知器,對于單個神經(jīng)元的感知器輸入數(shù)據(jù)為x1,x2...xn,那么感知器的輸出為output=f(x1*w1+x2*w2...xn*wn)-b,其中wi為連接權值,b為偏置,f(x)為激活函數(shù),一般為signoid。由神經(jīng)元構成的神經(jīng)網(wǎng)絡BP一般為三層結構:輸入層、隱含層和輸出層。訓練方式為前向計算和反向計算兩個過程。前向計算是對輸入數(shù)據(jù)進行逐層處理,對網(wǎng)絡輸出值與標簽數(shù)據(jù)進行比較,根據(jù)差值再進行反向逐層調(diào)節(jié)權值w和偏置b,這種調(diào)節(jié)方法為隨機梯度下降方法[2],反復迭代直至符合設置的條件為止。CNN是基于神經(jīng)網(wǎng)絡和反向傳播理論創(chuàng)建的一種重點應用于圖像處理的深度學習架構之一。20世紀90年代,LeCun et al.等人[3]確立了CNN的現(xiàn)代結構,他們設計了基于mnist的分類模型LeNet-5。2006年,Krizhevsky et al[4]提出了一個更加經(jīng)典的AlexNet CNN架構,致使圖像識別率效果極為顯著,甚至超過了人類的圖像識別能力。
CNN含有三種類型的神經(jīng)網(wǎng)絡層:
(1)卷積層:學會識別輸入數(shù)據(jù)的特性表征;(2)池化層:簡化數(shù)據(jù)的特性表征;(3)全連接層:將卷積層和池化層堆疊形成一層或多層全連接層,實現(xiàn)分類。如圖1所示,c為卷積層,s為采樣層,flat為平鋪向量化,h為隱層。
圖1 卷積神經(jīng)網(wǎng)絡示意圖
CNN網(wǎng)絡的卷積層是提取數(shù)據(jù)特性表征的關鍵層,在輸入圖像后,通過一系列的過濾器(也稱卷積核)對圖像數(shù)據(jù)進行局部感知過濾獲取關鍵特征。這種局部感知能力是卷積神經(jīng)網(wǎng)絡的關鍵技術之一,由于CNN中每一層神經(jīng)元只是和上層的局部區(qū)域相連,有效地解決了高維數(shù)據(jù)連接參數(shù)較多、難以訓練的缺點。在這種局部感知區(qū)域間特征過濾時,需要考慮深度、步長和填充值[5],這些參數(shù)決定了輸出的特征維度。CNN另一個關鍵技術是參數(shù)共享,這將大大降低網(wǎng)絡訓練的計算復雜度和參數(shù)個數(shù)。
對于每一個卷積層的特征通過卷積核進行卷積激活后,就可以得到該層的輸出特征。計算公式為:,其中f(x)為激活函數(shù)。采樣層的目的是減少映射特征維度,操作函數(shù)為,對于采用數(shù)據(jù)都進行了加權系數(shù)和偏置。最后進行特征平鋪構成線性數(shù)據(jù)輸入到softmax的多線性分類模型。CNN模型采用的梯度計算方法與反向傳播網(wǎng)絡類似,對于卷積層梯度計算,每層神經(jīng)元的權值更新需要對應的靈敏度δ,其計算公式為,up操作為Kronecher乘積所得。
CNN在卷積層和子采樣層的訓練,主要包括:(1)前向傳播過程:下采樣每個卷積層的maps;(2)反向傳播過程:上采樣高層子采樣層的靈敏度map,以匹配底層的卷積層輸出maps的大??;(3)sigmoid的運用和求導。
具體步驟如下:
(1)網(wǎng)絡初始化
CNN的初始化主要是初始化卷積層和輸出層的卷積核(權重)和偏置,系統(tǒng)里對卷積核和權重進行隨機初始化,對偏置進行全0初始化。
(2)前向傳輸計算
a.輸入層:輸入層沒有輸入值,輸出向量的大小就是圖片的大小。
b.卷積層:卷積層的輸入來源于輸入層或者采樣層。其中每一個map都有一個大小相同的卷積核。
c.采樣層:采樣層是對上一層map的相鄰小區(qū)域進行聚合統(tǒng)計。
(3)反向傳輸調(diào)整權重
反向傳輸過程從宏觀上來看基本思想跟BP一樣,是通過最小化殘差來調(diào)整權重和偏置,文獻[1]進行了詳細講述。
(4)輸出層的殘差
輸出層的殘差是輸出值與類標值的誤差值,而中間各層的殘差來源于下一層的殘差的加權和。
(5)下一層為采樣層的卷積層的殘差
當一個卷積層L的下一層(L+1)為采樣層,根據(jù)采樣層的殘差,計算該卷積層的殘差。但是采樣層(L+1)的map大小是卷積層L的1/(scale*scale),兩層的map個數(shù)是一樣的,可以對采樣層的殘差與一個scale*scale的全1矩陣進行克羅內(nèi)克積擴充,達到維度一致。
實驗環(huán)境為安裝了Anaconda2(64)計算機系統(tǒng)的Spyder集成平臺,用Python語言開發(fā),對CNN模型進行編程實現(xiàn),建立了基于CNN的圖像識別模型,獲取的特征結果如圖2所示,分別為截取了3個人的頭像行為特征,樣例預測錯誤率如表1所示,可以看出正例和負例錯誤率都在百分之十以上,實驗中的樣本為正例和負例,即看手機狀態(tài)和聽課狀態(tài),對看手機狀態(tài)學生預測為聽課狀態(tài)的比率為18.23%,反之,把聽課狀態(tài)的學生預測為看手機狀態(tài)的比率為19.57%,說明自己建立的模型還有待完善和修正,這是下一步需要深度研究的內(nèi)容。
表1 預測誤差率
圖2 圖像特征提取
圖像識別是計算機人工智能的視覺識別的重要領域之一,通過研究人員的努力取得了豐碩的成果。論文總結和研究了CNN模型的實現(xiàn),把該模型應用于學生課堂狀態(tài)自動檢測領域,根據(jù)學生聽課圖像由模型自動識別檢測出學生玩手機行為,進而反饋給上課老師,以便對這些學生進行交流溝通,進一步提高教學效果。該方法是解決當前大學生課堂上看手機行為的解決辦法之一。
[1]Lawrence S,Giles C L,Tsoi A C,et al.Face recognition:A convolutional neural-network approach[J].IEEE transactions on neural networks,1997,8(1):98-113.
[2]趙志宏,楊紹普,馬增強.基于卷積神經(jīng)網(wǎng)絡LeNet-5的車牌字符識別研究[J].系統(tǒng)仿真學報,2010(3):638-641.
[3]Krizhevsky A,Sutskever I,Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[4]Ji S,Xu W,Yang M,et al.3D convolutional neural networks for human action recognition[J].IEEE transactions on pattern analysis and machine intelligence,2013,35(1):221-231.
[5]Vedaldi A,Lenc K.Matconvnet:Convolutional neural networks for matlab[C]//Proceedings of the 23rd ACM international conference on Multimedia.ACM,2015:689-692.
Application of Deep CNN in the Class Status of Students
Li Senlin Peng Xiaoning
(School of Computer Science and Engineering,Huaihua University,Huaihua 418000,Hunan)
At present,playing with mobile phones in the class is no longer an individual phenomenon for college students,and most teachers cannot be aware and stop it in time due to the focus on teaching.This paper proposes the application of convolution neural network model in class status for students.The state of students obtained by shooting is automatically recognized by network model and the listening status is identified.After class,teachers can give some guidance to the students purposely,to improve the teaching effects.
class status;deep learning;convolutional neural networks
TP183
A
1008-6609(2017)10-0035-03
李森林(1973-),男,河北邯鄲人,碩士,講師,研究方向為機器學習、操作系統(tǒng)。
懷化學院科研資助項目,項目編號:hhuy2016-3。