袁同慶, 席 鵬
(1. 安徽師范大學(xué) a. 智能教育研究院, b. 教育科學(xué)學(xué)院, 安徽 蕪湖 241000; 2. 中國(guó)科學(xué)技術(shù)大學(xué) 蘇州研究院, 江蘇 蘇州 215000)
目前,質(zhì)量評(píng)價(jià)任務(wù)主要采用調(diào)查問(wèn)卷的形式搜集評(píng)價(jià)目標(biāo)相關(guān)的主觀評(píng)價(jià)資料,這種方式主要采用評(píng)價(jià)主體的主觀評(píng)價(jià),不僅耗時(shí)、費(fèi)力且采集的調(diào)查問(wèn)卷不易保存,難以分析和利用[1-3].近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)和信息技術(shù)的快速發(fā)展,質(zhì)量評(píng)價(jià)逐漸采用網(wǎng)絡(luò)形式展開(kāi),不僅可以搜集評(píng)價(jià)目標(biāo)的主觀評(píng)價(jià)結(jié)果,而且評(píng)價(jià)主體可以提交充分的材料以佐證評(píng)價(jià)結(jié)果[4].采用信息化的質(zhì)量評(píng)價(jià)與采集方式,可以及時(shí)、全面地采集評(píng)價(jià)主體對(duì)于評(píng)價(jià)目標(biāo)的反饋情況[5-7].雖然這種方法簡(jiǎn)化了傳統(tǒng)的質(zhì)量評(píng)價(jià)采集方式,但仍需花費(fèi)大量的人力資源和時(shí)間對(duì)這些評(píng)價(jià)進(jìn)行分析與處理.為了提升質(zhì)量評(píng)價(jià)的精度和速度,國(guó)內(nèi)外學(xué)者提出了基于機(jī)器學(xué)習(xí)方法[8]、基于深度學(xué)習(xí)方法[9]和基于情感詞典方法[10-11]對(duì)評(píng)價(jià)主體的調(diào)查問(wèn)卷進(jìn)行分析.其中,基于情感詞典的方法通過(guò)構(gòu)建包括形容詞、程度副詞和否定詞的情感詞典對(duì)評(píng)價(jià)文本進(jìn)行分類(lèi);基于機(jī)器學(xué)習(xí)的方法采用傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)來(lái)完成文本情感數(shù)據(jù)的分類(lèi);而基于深度學(xué)習(xí)的方法使用深度神經(jīng)網(wǎng)絡(luò)從文本數(shù)據(jù)中提取特征,并進(jìn)行情感分類(lèi)[12-13].雖然這些方法使基于調(diào)查問(wèn)卷的質(zhì)量評(píng)價(jià)得到了顯著的提升,但若僅采用調(diào)查問(wèn)卷數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià)仍顯說(shuō)服力不足.
隨著多媒體技術(shù)的普及,在信息化評(píng)價(jià)過(guò)程中留下了大量的視頻和語(yǔ)音資料,如何充分挖掘這些多媒體數(shù)據(jù)中的有效信息成為了研究的熱點(diǎn).本文充分利用多媒體資源,提出了一種基于多模態(tài)音視頻融合的客觀質(zhì)量評(píng)價(jià)算法.該算法充分考慮評(píng)價(jià)目標(biāo)的視頻、音頻和文本信息,并挖掘信息間的相關(guān)性進(jìn)行評(píng)價(jià)與分類(lèi).
本文采用多模態(tài)數(shù)據(jù)進(jìn)行客觀質(zhì)量評(píng)價(jià).為了實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一輸入和處理,對(duì)不同的模態(tài)提取不同的特征,并根據(jù)其特點(diǎn)選擇相應(yīng)的分類(lèi)器進(jìn)行預(yù)測(cè)分類(lèi).最后,對(duì)各模態(tài)的分類(lèi)預(yù)測(cè)結(jié)果進(jìn)行融合訓(xùn)練,組成一個(gè)綜合分類(lèi)器,從而得到質(zhì)量分類(lèi)結(jié)果.
文本數(shù)據(jù)包含了對(duì)評(píng)價(jià)目標(biāo)的直接評(píng)價(jià),然而文本數(shù)據(jù)包含著復(fù)雜的語(yǔ)言種類(lèi)和語(yǔ)法,使得對(duì)其分析與建模異常困難.為了有效提取出文本中包含的與評(píng)價(jià)目標(biāo)相關(guān)的特征,本文首先使用Jieba分詞工具對(duì)輸入文本進(jìn)行分詞,即將文本序列表示成詞向量集合;然后過(guò)濾掉與評(píng)價(jià)目標(biāo)無(wú)關(guān)的停用詞,包括中英文標(biāo)點(diǎn)符號(hào)、特殊字符、阿拉伯?dāng)?shù)字和一些影響較小的高頻詞匯;最后,使用Word2vec模型將詞向量表示為多維空間向量.
本文通過(guò)提取文本的互信息作為文本特征,互信息通過(guò)衡量事件發(fā)生所提供的信息量來(lái)衡量文本特征對(duì)于評(píng)價(jià)結(jié)果的影響[14].互信息計(jì)算表達(dá)式為
(1)
式中,X和Y分別為文本特征集合及類(lèi)別集合.本文選取前K個(gè)互信息最大的特征作為輸入文本集合的特征.
語(yǔ)音作為評(píng)價(jià)目標(biāo)的一種信息媒介,不僅包含評(píng)價(jià)目標(biāo)的內(nèi)容,且包含事件發(fā)生時(shí)周?chē)h(huán)境.本文通過(guò)提取語(yǔ)音信息特征,從語(yǔ)音信號(hào)中獲取評(píng)價(jià)目標(biāo)的相關(guān)信息.首先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀和加窗等處理,然后提取語(yǔ)音的梅爾頻譜倒譜系數(shù)(MFCC)特征.其中,預(yù)加重處理采用數(shù)字濾波的方法來(lái)提升語(yǔ)音信號(hào)的高頻衰減;分幀是將語(yǔ)音信號(hào)分割成較短的幀序列;加窗則是采集在增強(qiáng)采樣點(diǎn)附近的語(yǔ)音信號(hào).MFCC特征是根據(jù)人類(lèi)聽(tīng)覺(jué)的臨界頻帶效應(yīng)來(lái)模擬人耳對(duì)不同聲音的感知和響應(yīng),從而提取特征.具體的特征提取過(guò)程如下:
1) 使用快速傅里葉變換對(duì)N幀語(yǔ)音序列x[n](n=0,1,2,…,N-1)進(jìn)行變換.
2) 將傅里葉變換后得到的頻率信號(hào)轉(zhuǎn)換為梅爾尺度Mel(f)=2 597lg(1+f/700).
3) 計(jì)算三角形濾波后的結(jié)果,即
F(l)=∑wl(k)|x[k]| (l=1,2,…,L)
(2)
式中:k為轉(zhuǎn)換后的頻率;
4) 對(duì)步驟3)中得到的結(jié)果進(jìn)行對(duì)數(shù)運(yùn)算和離散余弦運(yùn)算,得到MFCC特征為
(3)
本文使用循環(huán)神經(jīng)網(wǎng)絡(luò)提取視頻特征,該網(wǎng)絡(luò)采用CNN結(jié)構(gòu)來(lái)提取輸入幀的表征特征,采用堆疊的RNN單元來(lái)捕捉時(shí)序信息.提取單元結(jié)構(gòu)如圖1所示,R為ReLU(Conv())函數(shù),用來(lái)提取輸入幀的表征,T為Sigmoid(Conv())函數(shù),用來(lái)提取時(shí)序信息,oi,t為網(wǎng)絡(luò)輸出,ci,t表示第t幀在第i個(gè)循環(huán)單元的記憶狀態(tài).
本文采用堆疊的循環(huán)特征提取單元來(lái)提取輸入視頻的深度特征.由于深度網(wǎng)絡(luò)在建模長(zhǎng)序列時(shí)容易出現(xiàn)梯度消失的問(wèn)題,本文使用跳躍連接來(lái)加深網(wǎng)絡(luò).為了訓(xùn)練該網(wǎng)絡(luò)以提取評(píng)價(jià)目標(biāo)相關(guān)的特征,本文直接使用BP算法對(duì)輸出特征進(jìn)行分類(lèi)訓(xùn)練,通過(guò)最小化網(wǎng)絡(luò)輸出與評(píng)價(jià)標(biāo)簽之間的交叉熵?fù)p失來(lái)完成迭代優(yōu)化.
圖1 循環(huán)特征提取單元Fig.1 Recurrent feature extraction unit
由于評(píng)價(jià)數(shù)據(jù)中存在大量的與客觀質(zhì)量評(píng)價(jià)無(wú)關(guān)的數(shù)據(jù),需要對(duì)這些數(shù)據(jù)進(jìn)行篩選和過(guò)濾,以此實(shí)現(xiàn)客觀評(píng)價(jià)質(zhì)量的分類(lèi).本文使用了Stacking算法構(gòu)建客觀質(zhì)量分類(lèi)模型來(lái)融合不同數(shù)據(jù)間的特點(diǎn).算法分別對(duì)視頻、語(yǔ)音和文本所提出的特征構(gòu)建預(yù)測(cè)分類(lèi)模型,然后使用一個(gè)元分類(lèi)器對(duì)其分類(lèi)結(jié)果進(jìn)行融合,并得到最終的課程評(píng)價(jià)結(jié)果.相比于其他集成學(xué)習(xí)方法,該算法適用于異構(gòu)數(shù)據(jù)和異質(zhì)分類(lèi)器,且最終的分類(lèi)結(jié)果采用更復(fù)雜的元分類(lèi)器,而并非傳統(tǒng)集成學(xué)習(xí)方法所采用的平均法或基于投票的方法.本文使用樸素貝葉斯算法(NB)對(duì)文本特征進(jìn)行分類(lèi),使用支持向量機(jī)算法(SVM)對(duì)語(yǔ)音特征進(jìn)行分類(lèi),使用BP算法對(duì)視頻特征進(jìn)行分類(lèi),而元分類(lèi)器則采用SVM分類(lèi)器.文中各分類(lèi)器將輸入數(shù)據(jù)分類(lèi)為正向情感、負(fù)面情感和無(wú)關(guān)三類(lèi),其中無(wú)關(guān)類(lèi)即為不包含任何情感傾向.
文中提出的算法主要包含兩層學(xué)習(xí):多模態(tài)初始學(xué)習(xí)器和元學(xué)習(xí)器,其中多模態(tài)初始學(xué)習(xí)器采用K折交叉驗(yàn)證的方式進(jìn)行訓(xùn)練,在訓(xùn)練預(yù)測(cè)器的同時(shí)生成訓(xùn)練元數(shù)據(jù)所需的數(shù)據(jù);在得到這些數(shù)據(jù)后,訓(xùn)練元學(xué)習(xí)器實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的融合和評(píng)價(jià)質(zhì)量的預(yù)測(cè).元學(xué)習(xí)器的輸入為基學(xué)習(xí)器的輸出,而不同模態(tài)的數(shù)據(jù)具有不同的特點(diǎn),故本文為每個(gè)初始學(xué)習(xí)器賦予了一個(gè)權(quán)重.
基于該權(quán)值計(jì)算方式,本文基于Stacking算法構(gòu)建的質(zhì)量分類(lèi)模型的訓(xùn)練步驟如下:
1) 定義訓(xùn)練數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xK,yK)}=(X,Y),初始學(xué)習(xí)器M1,M1,…,MZ;
3) 對(duì)于每個(gè)分類(lèi)器計(jì)算其權(quán)重.根據(jù)各初始分類(lèi)器的預(yù)測(cè)結(jié)果對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行篩選,刪除與質(zhì)量預(yù)測(cè)無(wú)關(guān)的數(shù)據(jù).
4) 使用上述步驟得到的初始分類(lèi)器,針對(duì)各訓(xùn)練數(shù)據(jù)的預(yù)測(cè)結(jié)果和各分類(lèi)器的權(quán)重來(lái)訓(xùn)練元分類(lèi)器.
本文以質(zhì)量評(píng)估為例進(jìn)行仿真試驗(yàn)與分析.為了對(duì)模型進(jìn)行訓(xùn)練和測(cè)試評(píng)估,本文搜集了某高校20門(mén)公共課程的多媒體數(shù)據(jù),包括教學(xué)視頻、語(yǔ)音和文本評(píng)價(jià),共采集了包括30名學(xué)生對(duì)于各門(mén)課程的評(píng)價(jià)結(jié)果.其中約有20 TB視頻數(shù)據(jù),10 GB語(yǔ)音數(shù)據(jù)和5 GB文本數(shù)據(jù),每一門(mén)課程對(duì)應(yīng)的視頻、語(yǔ)音和文本的比例大約為1∶12∶60.通過(guò)統(tǒng)計(jì)各課程的評(píng)價(jià)結(jié)果,并將其作為標(biāo)簽進(jìn)行模型訓(xùn)練評(píng)估.隨機(jī)選取該數(shù)據(jù)集中15門(mén)課程的數(shù)據(jù)作為訓(xùn)練集,使用剩下的5門(mén)課程數(shù)據(jù)作為測(cè)試集進(jìn)行仿真分析.本文實(shí)驗(yàn)平臺(tái)為Intel Xeon CPU E5-2430,使用Ubuntu操作系統(tǒng),并采用Python實(shí)現(xiàn)所提出的分類(lèi)算法.文中使用預(yù)測(cè)準(zhǔn)確率和預(yù)測(cè)結(jié)果的F1值作為算法性能的評(píng)價(jià)指標(biāo),F(xiàn)1計(jì)算方式為
(4)
(5)
(6)
式中:TP為正確分類(lèi)的正類(lèi);FP為錯(cuò)誤分類(lèi)的正類(lèi);FN為錯(cuò)誤分類(lèi)的負(fù)類(lèi).本文將每條評(píng)價(jià)對(duì)應(yīng)的類(lèi)別作為正類(lèi),將其他類(lèi)別作為負(fù)類(lèi).
首先驗(yàn)證了各個(gè)基礎(chǔ)分類(lèi)器的分類(lèi)準(zhǔn)確率與F1值,結(jié)果如表1所示.其中樸素貝葉斯算法采用多項(xiàng)式樸素貝葉斯算法,其平滑參數(shù)設(shè)置為1.支持向量機(jī)算法采用徑向基核函數(shù),核帶寬設(shè)置為0.5,懲罰因子設(shè)置為1.BP算法采用3層神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),其輸入神經(jīng)元數(shù)量為100,輸出神經(jīng)元預(yù)測(cè)類(lèi)別數(shù)量為3,包括正向評(píng)價(jià)、中性評(píng)價(jià)和負(fù)面評(píng)價(jià).從表1結(jié)果可以看出,使用文本評(píng)價(jià)數(shù)據(jù)可以得到最高的分類(lèi)精度,而使用視頻和語(yǔ)音得到的評(píng)估精度相對(duì)較低.綜合各初始分類(lèi)器的預(yù)測(cè)結(jié)果后,可以得到精度更高的質(zhì)量評(píng)價(jià)結(jié)果.由此表明,融合多模態(tài)數(shù)據(jù)可以提升質(zhì)量評(píng)價(jià)的精度.
表1 各類(lèi)預(yù)測(cè)結(jié)果的準(zhǔn)確率和F1值Tab.1 Accuracy and F1 values of various prediction results
為了驗(yàn)證所提出自適應(yīng)加權(quán)算法的有效性,對(duì)加權(quán)前后模型的分類(lèi)精度進(jìn)行測(cè)試,結(jié)果如圖2所示.從圖2中可以看出,采用加權(quán)算法不僅可以提升元分類(lèi)器的性能,還可提升各初始分類(lèi)器的性能,表明所提出的分類(lèi)器加權(quán)方法能夠明顯提升預(yù)測(cè)精度.
圖2 加權(quán)前后分類(lèi)精度比較Fig.2 Comparison of classification accuracy before and after weighting
本文對(duì)于不同數(shù)據(jù)采用了不同的分類(lèi)器,并使用元分類(lèi)器集成所有分類(lèi)器的預(yù)測(cè)結(jié)果.為了驗(yàn)證該多樣性集成方法的有效性,將所提出的方法與僅采用單一分類(lèi)器的方法進(jìn)行比較,結(jié)果如圖3所示.從圖3中可以看出,所提出的多樣性集成方法具有最優(yōu)的分類(lèi)精度,且相對(duì)于僅使用單一分類(lèi)器的方法有明顯提升.根據(jù)不同數(shù)據(jù)的特點(diǎn),選擇不同的分類(lèi)器將有助于提升質(zhì)量評(píng)價(jià)的精度.
為了比較本文與傳統(tǒng)算法性能間的差異,使用提出的數(shù)據(jù)集進(jìn)行了驗(yàn)證實(shí)驗(yàn),結(jié)果如表2所示.其中,文獻(xiàn)[4]采用純調(diào)查問(wèn)卷的方式進(jìn)行質(zhì)量評(píng)價(jià);文獻(xiàn)[7]只使用文本特征提取的方法進(jìn)行評(píng)價(jià).從表2中可以看出,相比于傳統(tǒng)的算法,本算法具有明顯的性能優(yōu)勢(shì).其中,文獻(xiàn)[7]方法所使用的特征比較單一,而本文算法融合多模態(tài)的特征進(jìn)行評(píng)價(jià),說(shuō)明使用多模態(tài)特征可以明顯增強(qiáng)評(píng)價(jià)的精度.
圖3 集成模型與初始分類(lèi)器比較Fig.3 Comparison of ensemble model and initial classifier
表2 不同方法的性能比較Tab.2 Performance comparison of different methods
本文提出了一種基于多模態(tài)音視頻融合的質(zhì)量評(píng)價(jià)算法,該算法根據(jù)客觀質(zhì)量評(píng)價(jià)過(guò)程中產(chǎn)生的視頻、音頻和文本等多媒體數(shù)據(jù)對(duì)相關(guān)的具體情況進(jìn)行分類(lèi).通過(guò)對(duì)不同模態(tài)數(shù)據(jù)提取不同的特征,并使用Stacking算法挖掘不同特征間的關(guān)聯(lián)關(guān)系,從而預(yù)估出評(píng)價(jià)結(jié)果.以質(zhì)量評(píng)價(jià)為例,搜集和整理了質(zhì)量評(píng)價(jià)數(shù)據(jù)集,在該數(shù)據(jù)集上的測(cè)試結(jié)果表明,本文所提出的方法能有效提升評(píng)價(jià)精度.