摘 要:本文針對傳統(tǒng)授課存有的問題,例如學(xué)生注意力監(jiān)測不準(zhǔn)、課堂互動評估難和教學(xué)內(nèi)容理解不足等,提出基于多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)的授課輔助系統(tǒng)。運(yùn)用MTCNN的特征提取與多任務(wù)學(xué)習(xí)能力,實(shí)時(shí)分析師生課堂行為。MTCNN通過多級互連獲取不同級別特征,不同視覺下游任務(wù)可以共享參數(shù),能夠顯著降低視覺分析的時(shí)間成本。結(jié)果表明,該系統(tǒng)可以有效分析課堂情況,為教師提供反饋與決策輔助,在提升授課質(zhì)量與教學(xué)效果上具有較大潛力,有望助力于教學(xué)優(yōu)化。
關(guān)鍵詞:MTCNN;授課輔助系統(tǒng);教育技術(shù)
中圖分類號:TP 311" " " 文獻(xiàn)標(biāo)志碼:A
在教育技術(shù)持續(xù)演進(jìn)的背景下,利用先進(jìn)技術(shù)提升授課質(zhì)量與教學(xué)效果已經(jīng)成為教育領(lǐng)域的研究熱點(diǎn)。傳統(tǒng)授課方式多基于教師主觀判斷和經(jīng)驗(yàn),無法全面、精準(zhǔn)評估學(xué)生課堂學(xué)習(xí)狀態(tài)與參與度[1]。因此本文開發(fā)能夠?qū)崟r(shí)監(jiān)測課堂并提供有效輔助的系統(tǒng)極具現(xiàn)實(shí)意義。
深度學(xué)習(xí)利用組合低層特征構(gòu)建抽象的高層特征表示,挖掘數(shù)據(jù)分布式特征,大幅提升了人臉識別領(lǐng)域的識別準(zhǔn)確率。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是多層神經(jīng)網(wǎng)絡(luò),擅長處理圖像相關(guān)深度學(xué)習(xí)問題[2-3]。MTCNN的典型結(jié)構(gòu)包括卷積層、池化層與全連接層,經(jīng)各層協(xié)作進(jìn)行特征提取與分類[4-6]?;谏疃葘W(xué)習(xí)的人臉識別方法精度與速度優(yōu)勢明顯。
多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)已獲廣泛應(yīng)用。例如王弘宇等[7]基于相關(guān)級聯(lián)模型提出多任務(wù)級聯(lián)模型,用于交通標(biāo)識檢測;程淑紅等[8]融合多種網(wǎng)絡(luò)和方法進(jìn)行吸煙行為檢測;丁柏群等[9]根據(jù)P4P原理并利用MTCNN測試車輛間距,MTCNN在駕駛員疲勞檢測和公共醫(yī)療方面也有顯著應(yīng)用。在此基礎(chǔ)上,本文利用MTCNN構(gòu)建了授課輔助系統(tǒng)。
1 多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)原理
本文提出的基于MTCNN的授課輔助系統(tǒng)具有較高的靈活性,可以實(shí)時(shí)監(jiān)測課堂學(xué)生聽課狀態(tài),并根據(jù)檢測結(jié)果為教師提供建議,使教師根據(jù)修改意見改進(jìn)教學(xué)計(jì)劃,以實(shí)時(shí)適應(yīng)學(xué)生學(xué)習(xí)狀態(tài)。MTCNN包括3個(gè)子網(wǎng)絡(luò),即Proposal Network(P-Net)、Refine Network(R-Net)和 Output Network(O-Net)。模型框架如圖1所示。網(wǎng)絡(luò)逐級對特征進(jìn)行精煉以適應(yīng)不同下游任務(wù),不同金字塔層級縮放特征以滿足從局部到全局的特征學(xué)習(xí),為最終檢測性能提升提供豐富的目標(biāo)特征。訓(xùn)練樣本尺寸標(biāo)準(zhǔn)為160×160,模型訓(xùn)練的損失函數(shù)可以用三元組損失函數(shù),如公式(1)所示。
Li=[||f(xai)-f(xpi)||2+α-||f(xai)-f(xni)||2] (1)
三元組損失函數(shù)會在一批次采樣中選擇3個(gè)樣本,xai和xpi對應(yīng)同一個(gè)人的圖像,xni為另外一個(gè)人的人臉圖像。該取樣方式可以度量相同類別的類內(nèi)距離(||f(xai)-f(xpi)||2)和不同類別的類間距離(||f(xai)-f(xni)||2),利用三元組損失函數(shù)控制最小化類內(nèi)距離,最大化類間距離。α用來控制正、負(fù)樣本距離的差異。
訓(xùn)練集采集完畢進(jìn)入網(wǎng)絡(luò),網(wǎng)絡(luò)訓(xùn)練模型步驟如下所示。1) P-Net是一個(gè)全卷積網(wǎng)絡(luò),利用淺層的CNN用來生成候選區(qū)域。使用Bounding box regression和非極大值抑制(NMS)來過濾并校正候區(qū)域。2) 利用N-Net對候選區(qū)域進(jìn)行調(diào)整。將通過P-Net的候選窗輸入R-Net中,拒絕大部分效果比較差的候選區(qū)域,使用Bounding box regression和NMS進(jìn)一步優(yōu)化候選區(qū)域。3) O-Net是一個(gè)較復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)。O-Net輸出最終的人臉框和特征點(diǎn)位置。該網(wǎng)絡(luò)最終輸出人臉框的位置和5個(gè)人臉關(guān)鍵點(diǎn)。4) 人臉歸一化。人臉歸一化主要是指亮度歸一化和姿態(tài)歸一化(即人臉對齊拉正),亮度歸一化包括亮度調(diào)整和對比度調(diào)整。
由此可以獲得人臉區(qū)域特征,用于人臉身份比較。O-Net訓(xùn)練流程如圖2所示。
上述步驟完成后能夠生成視覺分析模型,將攝像頭拍攝的視頻傳輸給模型進(jìn)行識別,為了保證識別的實(shí)時(shí)性,本文每隔6幀識別一次,以此提升系統(tǒng)的響應(yīng)速度。P-Net、R-Net和O-Net的詳細(xì)介紹如下所示。
1.1 P-Net(Proposal Network)
P-Net是MTCNN的第一個(gè)子網(wǎng)絡(luò),它的主要任務(wù)是快速生成候選面部區(qū)域。它采用的是輕量級的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠在圖像中快速搜索可能存在面部的區(qū)域。P-Net的輸入是原始圖像,輸出是一系列候選面部區(qū)域的邊界框和相應(yīng)的置信度得分。它采用的是卷積層和池化層的組合結(jié)構(gòu)。卷積層用于提取圖像特征,池化層用于降低數(shù)據(jù)維度,減少計(jì)算量,同時(shí)保留重要的特征信息。這種輕量級的設(shè)計(jì)使P-Net能夠快速處理輸入圖像,在整個(gè)MTCNN架構(gòu)中起到了快速篩選的作用,為后續(xù)的網(wǎng)絡(luò)提供了一個(gè)相對較小的搜索空間。
1.2 R-Net(Refinement Network)
R-Net是對P-Net輸出的候選面部區(qū)域進(jìn)行進(jìn)一步細(xì)化和篩選的網(wǎng)絡(luò)。它的輸入是P-Net輸出的候選區(qū)域,利用更復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對這些區(qū)域進(jìn)行再次分析,去除低置信度的區(qū)域,并進(jìn)一步調(diào)整邊界框的位置和大小。R-Net的輸出是經(jīng)過細(xì)化后的候選面部區(qū)域和新的置信度得分。R-Net是對P-Net輸出的候選區(qū)域進(jìn)行進(jìn)一步細(xì)化和篩選的網(wǎng)絡(luò)。它比P-Net具有更復(fù)雜的結(jié)構(gòu),通常包括更多的卷積層和全連接層。其設(shè)計(jì)理念是在P-Net的基礎(chǔ)上,利用更強(qiáng)大的特征提取能力進(jìn)一步分析候選區(qū)域,去除低置信度的區(qū)域,更精確地調(diào)整邊界框的位置和大小。增加網(wǎng)絡(luò)的復(fù)雜度可以更好地捕捉面部的特征信息,提高檢測的準(zhǔn)確性。
1.3 O-Net(Output Network)
O-Net是MTCNN的最后一個(gè)子網(wǎng)絡(luò),包括多個(gè)卷積層、池化層和全連接層的組合,其任務(wù)是對R-NNet輸出的候選面部區(qū)域進(jìn)行最終確認(rèn)和特征提取。它采用更復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠準(zhǔn)確識別面部的各個(gè)關(guān)鍵部位,例如眼睛、鼻子和嘴巴等,并提取面部的特征向量。對這些關(guān)鍵部位進(jìn)行精確識別和特征提取,可以更全面地描述面部信息,為后續(xù)的分析任務(wù)提供更豐富的特征數(shù)據(jù)。O-Net的輸出包括面部的精確邊界框、面部關(guān)鍵點(diǎn)的位置以及面部的特征向量。
2 授課輔助系統(tǒng)架構(gòu)設(shè)計(jì)
系統(tǒng)結(jié)構(gòu)如圖3所示。系統(tǒng)能夠提取關(guān)鍵點(diǎn),利用關(guān)鍵點(diǎn)進(jìn)行行為分析,基于MTCNN的授課輔助系統(tǒng)主要由以下3個(gè)模塊組成。
2.1 圖像采集模塊
該模塊用于采集課堂場景中的圖像信息,可以利用安裝在教室中的攝像頭來實(shí)現(xiàn)圖像實(shí)時(shí)采集。采集到的圖像將作為后續(xù)模塊的輸入數(shù)據(jù)。
2.2 MTCNN處理模塊
MTCNN是系統(tǒng)的核心模塊,它將采集的圖像輸入MTCNN中并進(jìn)行處理。MTCNN根據(jù)其內(nèi)部的3個(gè)子網(wǎng)絡(luò)結(jié)構(gòu),依次對圖像進(jìn)行面部檢測、面部關(guān)鍵點(diǎn)檢測和面部特征提取等操作?;谶@些操作,系統(tǒng)能夠獲取課堂場景中每個(gè)學(xué)生和教師的面部信息和相關(guān)特征。
2.3 學(xué)生狀態(tài)分析模塊
該模塊根據(jù)MTCNN提取的學(xué)生面部特征分析學(xué)生的狀態(tài),具體包括注意力監(jiān)測和情感分析。1) 注意力監(jiān)測。通過分析學(xué)生的面部表情、眼神方向等特征,判斷學(xué)生是否集中注意力。其實(shí)現(xiàn)機(jī)理為人臉特征點(diǎn)識別,利用模型識別人臉特征點(diǎn),主要包括眉毛、眼睛、鼻子和嘴。并根據(jù)特征點(diǎn)的分布來分析當(dāng)前人臉的狀態(tài),以此度量學(xué)生聽課的投入度。另外,動作識別也能夠識別身體的關(guān)鍵點(diǎn),根據(jù)關(guān)鍵點(diǎn)的位置分析、識別當(dāng)前動作,例如“看書”“玩手機(jī)”和“玩電腦”等交互動作識別。動作識別配有物體識別,主要包括書、手機(jī)、電腦和物品(除以上3種)。根據(jù)識別的物體并結(jié)合動作進(jìn)行行為分析,包括注意和分心2種類型。其中注意類型包括看黑板、看書、看電腦、舉手答問和同伴討論,分心類型包括看手機(jī)、說話和吃東西。2) 情感分析。利用面部表情識別技術(shù)分析學(xué)生的情感狀態(tài),例如快樂、悲傷、憤怒和驚訝等。了解學(xué)生的情感狀態(tài)有助于教師及時(shí)調(diào)整教學(xué)策略,以提高學(xué)生的學(xué)習(xí)積極性。
3 試驗(yàn)與分析
本文旨在驗(yàn)證基于多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)的授課輔助系統(tǒng)在課堂場景中的實(shí)際應(yīng)用效果。試驗(yàn)設(shè)計(jì)主要包括學(xué)生的注意力監(jiān)測、情感分析和教師的授課行為分析3個(gè)方面,根據(jù)真實(shí)課堂場景數(shù)據(jù)測試系統(tǒng)的準(zhǔn)確性、實(shí)時(shí)性和穩(wěn)定性,并與現(xiàn)有方法進(jìn)行比較,來評估系統(tǒng)在提高課堂教學(xué)效果和質(zhì)量方面的實(shí)際應(yīng)用潛力。
3.1 試驗(yàn)設(shè)置
3.1.1 試驗(yàn)環(huán)境
試驗(yàn)在一間標(biāo)準(zhǔn)教室中進(jìn)行,教室內(nèi)配備高分辨率攝像頭,用于采集學(xué)生和教師的圖像數(shù)據(jù)。攝像頭安裝于教室前方中央位置,以便能夠捕捉學(xué)生和教師的面部特征和行為。試驗(yàn)設(shè)備的詳細(xì)參數(shù)如下:攝像頭分辨率1080p,幀率為30f/s;處理器為Intel Core i7-11700;GPU為NVIDIA RTX 3080;操作系統(tǒng)為Windows 10;MTCNN模型為基于Pytorch框架訓(xùn)練的多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)。
3.1.2 數(shù)據(jù)集
為了評估MTCNN在課堂場景中的面部檢測準(zhǔn)確性,我們進(jìn)行了大規(guī)模的數(shù)據(jù)收集工作。從多個(gè)教室在不同時(shí)間段采集了大量的課堂圖像數(shù)據(jù),涵蓋了不同的光照條件和學(xué)生的姿勢以及課堂活動場景。將收集到的圖像數(shù)據(jù)按照一定比例劃分為訓(xùn)練集和測試集。訓(xùn)練集用于訓(xùn)練MTCNN模型,使其學(xué)習(xí)到面部的特征模式。測試集則用于獨(dú)立評估訓(xùn)練后的模型性能。
試驗(yàn)數(shù)據(jù)集包括從課堂場景中采集的5000張圖像樣本,涵蓋多種課堂情況及學(xué)生的不同情緒狀態(tài)。為驗(yàn)證系統(tǒng)的準(zhǔn)確性和廣泛性,樣本數(shù)據(jù)集包括包括2類。1)注意力樣本。學(xué)生處于注意、分心、低頭和走神等狀態(tài),共計(jì)2000張圖像。2)情感樣本。情感樣本包括學(xué)生在課堂中的各種情緒狀態(tài),包括積極、困惑、憤怒和無聊等,共計(jì)1500張圖像。
3.2 試驗(yàn)結(jié)果
3.2.1 注意力監(jiān)測的準(zhǔn)確性
將MTCNN系統(tǒng)的檢測結(jié)果與人工標(biāo)注數(shù)據(jù)進(jìn)行比較,注意力監(jiān)測的準(zhǔn)確率為92.7%。本文試驗(yàn)中發(fā)現(xiàn),MTCNN在學(xué)生集中注意力和低頭分心的場景識別方面具有較高的準(zhǔn)確性,但是在識別微妙的眼神變化或短暫的分神方面仍存在一定偏差,誤差率約為7.3%。注意力檢測結(jié)果見表1。
3.2.2 情感分析的效果評估
比較MTCNN與傳統(tǒng)情感識別方法(如SVM、Haar級聯(lián)分類器)的分析結(jié)果,MTCNN在情感識別的準(zhǔn)確率和處理速度方面均具有顯著優(yōu)勢。該系統(tǒng)能夠較準(zhǔn)確地識別學(xué)生的情感狀態(tài),對“積極”和“困惑”情緒的識別準(zhǔn)確率分別為91.3%和89.6%,對相似情緒(例如“無聊”和“困惑”)的區(qū)分準(zhǔn)確率相對較低。情感分析檢測結(jié)果見表2。
3.3 與其他方法的比較
將MTCNN系統(tǒng)與傳統(tǒng)方法(例如支持向量機(jī)和Haar級聯(lián)分類器)進(jìn)行比較,MTCNN在多任務(wù)處理能力、識別準(zhǔn)確率和實(shí)時(shí)性方面均具有優(yōu)勢。在情感識別和注意力檢測方面,MTCNN的準(zhǔn)確率比傳統(tǒng)方法平均提升12%以上,并且響應(yīng)時(shí)間縮短約30%。MTCNN識別結(jié)果見表3。
4 結(jié)論
本文提出了一種基于多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的授課輔助系統(tǒng)。系統(tǒng)利用MTCNN的強(qiáng)大功能,能夠?qū)崟r(shí)分析課堂場景中的各種信息,為授課教師提供有價(jià)值的反饋和輔助決策。試驗(yàn)結(jié)果表明,該系統(tǒng)在面部檢測、學(xué)生狀態(tài)分析和教師授課行為分析等方面效果良好。然而,系統(tǒng)仍然存在一些不足之處,例如復(fù)雜環(huán)境下的學(xué)生狀態(tài)分析準(zhǔn)確率有待提高,教師授課行為分析的維度還可以進(jìn)一步拓展等。未來研究將致力于優(yōu)化系統(tǒng)性能,提高系統(tǒng)的準(zhǔn)確性和實(shí)用性,為教育、教學(xué)提供更優(yōu)質(zhì)的輔助服務(wù)。
參考文獻(xiàn)
[1]王弘宇,張雪芹.基于多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)識檢測[J].計(jì)算機(jī)工程與設(shè)計(jì),2022(1):210-216.
[2]程淑紅,馬曉菲,張仕軍,等.基于多任務(wù)分類的吸煙行為檢測[J].計(jì)量學(xué)報(bào),2020(5):538-543.
[3]丁柏群,李敬宇.基于MTCNN算法的單目視覺車距檢測方法[J].重慶交通大學(xué)學(xué)報(bào)(自然科學(xué)版),2023(5):139-144.
[4]劉星,文良華,成奎,等.改進(jìn)多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的駕駛員疲勞檢測[J].宜賓學(xué)院學(xué)報(bào),2024(12):7-11,68.
[5]陳之坤,遲萬達(dá),高尚,等.基于深度學(xué)習(xí)的疲勞檢測算法[J].計(jì)算機(jī)與網(wǎng)絡(luò),2020(11):68-71.
[6]徐蓮,任小洪,陳閏雪.基于眼睛狀態(tài)識別的疲勞駕駛檢測[J].科學(xué)技術(shù)與工程,2020(20):8292-8299.
[7]莫亞霓,陳曉婕,張本鑫.基于級聯(lián)網(wǎng)絡(luò)的肝臟腫瘤CT圖像分割[J].電視技術(shù),2023,48(1):38-41.
[8]邢新穎,冀俊忠,姚垚.基于自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的腦網(wǎng)絡(luò)分類方法[J].計(jì)算機(jī)研究與發(fā)展,2020,57(7):1149-1459.
[9]孔德壯,朱夢宇,于江坤.人臉表情識別在輔助醫(yī)療中的應(yīng)用及方法研究[J].生命科學(xué)儀器,2023(18):43-48.