左國才, 張 玨, 蘇秀芝, 王海東, 韓東初
(1 湖南軟件職業(yè)學院, 湖南 湘潭 411100; 2 湖南大學, 長沙 410082)
《國務院關于印發(fā)國家職業(yè)教育改革實施方案的通知(國發(fā)〔2019〕4號)》中指出:“總結現(xiàn)代學徒制試點經(jīng)驗,推進校企融合、教學管理等改革與創(chuàng)新,對全國職業(yè)院校的教育管理、教學質量、學生職業(yè)技能提升等方面進行考核評估,促進職業(yè)院校深化課程改革,提高師資水平,全面提升教育教學質量?!?/p>
堆棧式去噪自編碼器(SDAE)深度學習框架已經(jīng)成功應用于人臉識別、單目標跟蹤、多目標跟蹤、生物醫(yī)學圖像檢索等方面[1],本文設計基于堆棧式去噪自編碼器(SDAE)深度學習框架的課堂行為分析模型,用于研究現(xiàn)代學徒制班的教師、學生課堂行為與教學效果的關系,為課堂教學質量評價提供依據(jù),實現(xiàn)更有針對性的教學。并且,研究學生課堂專注度分布情況,掌握一堂課中學生的專注度分布情況,有利于教師將重點內容放在學生專注度相對較高的時間段進行講解,合理地設計教學方案,改進教學效果,切實提高教學質量。
Bengio等人[2]提出通過增加噪音的方式來獲得更加魯棒特征的去噪自編碼器算法(DAE)。此后研發(fā)的堆棧式去噪自編碼器(SDAE)是基于DAE算法提出的,在網(wǎng)絡層次逐漸加深和完善。去噪自編碼器可以將一個帶有噪音干擾的圖像恢復到?jīng)]有噪音的原始圖像,具有較少特征單元的隱藏層特征可以用于表示原始的圖像輸入層,去噪自編碼器可以獲得更少而且更加魯棒的圖像特征表示,成功實現(xiàn)了圖像的降維。去噪自編碼器可以編碼帶有噪音干擾的輸入數(shù)據(jù)X'到隱藏層數(shù)據(jù)Y,再將隱藏層數(shù)據(jù)Y解碼回近似于原始輸入數(shù)據(jù)Y'。為了使解碼后的數(shù)據(jù)Y'和原始輸入數(shù)據(jù)X盡可能相等,去噪自編碼器通過下面的優(yōu)化函數(shù)來調整編碼層和解碼層的參數(shù),這里用到的數(shù)學公式可順次表示為:
假設:
Y=f(WX+b),
(1)
Y'=f(W'Y+b'),
(2)
那么:
(3)
相比于堆棧原始的自編碼器所建立的網(wǎng)絡模型,堆棧式去噪自編碼器將取得更好的表現(xiàn),并能獲得更加魯棒的圖像特征。這種去噪策略和堆棧式多層結構將有助于指導網(wǎng)絡模型去學習更加有用和高級的圖像特征表示,而且采用了無監(jiān)督方式來獲得較為抽象和精致的圖像特征。其網(wǎng)絡結構設計和訓練過程中使用無監(jiān)督的訓練方式均將用來逐層訓練參數(shù)權重,再將上一層的輸出作為下一層的輸入繼續(xù)訓練,從而產(chǎn)生越來越高級別的特征表示。堆棧式去噪自編碼器網(wǎng)絡模型[3]如圖1所示。
基于堆棧式去噪自編碼器(SDAE)的更加魯棒、更加高級的圖像特征表示優(yōu)勢,本文利用堆棧式去噪自編碼器(SDAE)模型實現(xiàn)人臉識別與人的姿態(tài)檢測識別,對現(xiàn)代學徒制班教師、學生的課堂行為進行客觀量化的分析,為課程教學質量提供客觀評價依據(jù)。
無監(jiān)督訓練的堆棧式去噪自編碼器模型學習一般圖像的深度特征表示,使用有監(jiān)督的微調網(wǎng)絡模型學習和調整人臉識別任務中部分微小的且不同于一般化圖像的特征。關于在線進行人臉識別的深度網(wǎng)絡模型如圖2所示。
算法步驟可分述如下:
(1)利用大規(guī)模圖像數(shù)據(jù)集Tiny[4],離線訓練堆棧式去噪自編碼器深度學習模型,學習圖像的一般化特征。
(2)使用帶標簽的人臉數(shù)據(jù)庫進行深度特征的微調和訓練新的特征提取網(wǎng)絡模型,并在頂層輸出層后添加分類層,構建深度特征提取模型。
(3)通過分類層和人臉訓練數(shù)據(jù),有監(jiān)督在線微調特征模型,利用新的深度在線人臉識別模型完成判別和識別人臉目標的任務。
圖1 堆棧式去噪自編碼器網(wǎng)絡模型 圖2 人臉識別的深度網(wǎng)絡模型
Fig. 1Network model of stack denoising self-encoder Fig. 2 Depth network model for face recognition
設計基于SDAE人臉識別技術的教師與學生課堂行為分析算法。通過檢測識別教師、學生在教室中表現(xiàn)出的姿態(tài)、神情、動作等特征[5],判斷教師授課狀態(tài)及學生上課專注度的高低。研究可得闡釋解析如下。
(1)算法思想。本次研究擬設計基于SDAE人臉識別技術的課堂行為分析算法,提取到目標人臉,對人臉面部特征進行檢測,同時檢測目標人物的姿態(tài)。
通過檢測目標(教師、學生)所在教室表現(xiàn)出的姿態(tài)、神情、動作等,判斷教師授課狀態(tài)及學生聽課專注度的狀況,用于研究現(xiàn)代學徒制班的課堂專注行為與學習效果的關系,為現(xiàn)代學徒制班課堂教學質量評價提供客觀依據(jù),實現(xiàn)更真實有效的課程教學質量評價。
(2)專注度判定流程。首先在課堂教學視頻中間隔5 s隨機采集一幀圖片,通過SDAE人臉識別模型,判斷其身份(教師或者學生)并標識出來,然后分別根據(jù)教師或者學生的姿態(tài)、神情、動作檢測識別,判斷被測目標是否專注課堂。教師與學生上課專注度判斷流程如圖3所示。
(3)專注度判定算法實現(xiàn)步驟
① 利用海量圖片集對堆棧式去噪自編碼器深度學習模型進行離線訓練,無監(jiān)督地學習圖像的一般化特征。
② 將拍攝的教師、學生所在教室表現(xiàn)出的姿態(tài)、神情、動作圖片數(shù)據(jù)用于實驗訓練和測試。從中隨機選擇80%的課堂行為圖片作為訓練數(shù)據(jù)集,其余的20%圖片作為測試數(shù)據(jù)集。
圖3 課堂行為判斷流程
③ 使用離線訓練好的堆棧式去噪自編碼器模型進行在線深度學習,并更新目標人臉與目標姿態(tài)、神情、動作檢測識別模型,再通過誤差反饋,進行權重參數(shù)微調。
④ 使用微調后的權重參數(shù)和教師或學生的課堂行為測試數(shù)據(jù)集,來測試目標的人臉及姿態(tài)、神情、動作識別算法,利用sigmoid分類層來判別和輸出教師或者學生課堂專注度識別結果。
基于SDAE深度學習模型的教師、學生上課專注度判斷實驗環(huán)境主要包括:視頻采集,采用了分辨率較高的網(wǎng)絡視頻監(jiān)控攝像機;軟件環(huán)境方面,操作系統(tǒng)為Windows7,64位,CPU為2.6 G,內存為4 GB。深度學習實驗環(huán)境為:CPU為i7-5830K,內存為128 G,GPU為GTX1080,深度學習框架使用TensorFlow1.4 ,開發(fā)語言選用Python3.6。
實驗中采用教室任意采集的50組時長為200 s的視頻序列。采集任意一張教師或學生上課中的課堂圖像,進行專注度判斷,檢測結果如圖4、圖5所示。在課堂上,根據(jù)教師、學生的姿態(tài)、神情、動作進行檢測識別。坐姿端正,雙手擺放桌上,眼睛注視講臺或者教師的行為被檢測為課堂專注行為,否則被檢測為不專注行為。
由于課堂行為訓練數(shù)據(jù)量不夠大,容易導致過擬合;訓練數(shù)據(jù)標識不精確、學生在課堂上表現(xiàn)的姿態(tài)、神情、動作等比較隨意和多樣化,這均會影響最終的識別效果;由于教師與學生是面對面的情況,教師與學生同時拍攝到的圖像只能識別一類,不能同時識別教師與學生,識別一張圖像需要用到2個模型,增加了算法復雜度,影響識別速度和效率。
圖4 教師與學生專注行為檢測結果
圖5 學生專注行為檢測結果
SDAE深度學習框架能夠提取更魯棒更高級的深度特征,提高了人臉及學生的姿態(tài)、神情、動作的識別效率與準確率。本文設計研發(fā)了基于SDAE深度學習框架的教師與學生的課堂行為分析算法,對教師、學生課堂專注行為進行研究,實現(xiàn)對人臉及學生的姿態(tài)、神情、動作的識別,判斷教師授課的狀態(tài)與學生聽課的專注度情況,為教學質量評價提供客觀量化的分析評測基礎。