劉金花,樊敏,王洋,賀瀟磊
(1.山西醫(yī)科大學(xué)汾陽學(xué)院,汾陽032200;2.北方自動(dòng)控制技術(shù)研究所,太原030006)
大規(guī)模線上課程的開放作為一種新型的教育模型引起各大高校和學(xué)習(xí)者的關(guān)注,但目前線上課程的發(fā)展備受高輟學(xué)率的打擊。顯然課程質(zhì)量是導(dǎo)致學(xué)習(xí)者輟學(xué)的直接因素,然而通過挖掘和分析學(xué)習(xí)者的線上互動(dòng)與課程評(píng)價(jià),能夠及時(shí)發(fā)現(xiàn)學(xué)習(xí)者面臨的問題和困境,對(duì)教學(xué)質(zhì)量的提升具有巨大的推動(dòng)力。另外,通過挖掘和分析這些互動(dòng)文本和評(píng)價(jià)還可以讓學(xué)習(xí)者從海量的線上課程中挑選出適合自己學(xué)習(xí)方式的課程。
線上互動(dòng)與評(píng)價(jià)為課程建設(shè)者提供了一種較少侵入式收集和存儲(chǔ)學(xué)習(xí)者行為的數(shù)據(jù),已有大量的研究致力于對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,如學(xué)習(xí)者的點(diǎn)擊率、瀏覽記錄和提交作業(yè)記錄等。然而,由于大量的交互平臺(tái)中會(huì)大量產(chǎn)生基于文本的非結(jié)構(gòu)化數(shù)據(jù),如課程評(píng)價(jià),這些數(shù)據(jù)中不僅蘊(yùn)含了學(xué)習(xí)者對(duì)課程更加主觀的評(píng)價(jià),并且還會(huì)涉及到學(xué)習(xí)者的關(guān)注點(diǎn)和興趣所在,如對(duì)課程內(nèi)容、教學(xué)風(fēng)格、選用案例和平臺(tái)建設(shè)等的相關(guān)的評(píng)價(jià)。因此,探索學(xué)習(xí)者的這種互動(dòng)行為,對(duì)于教師構(gòu)建教學(xué)資料或者新課都具有極大的價(jià)值。通過主題動(dòng)態(tài)的研究,教師可以找到學(xué)習(xí)者課程失敗的潛在原因,以便通過調(diào)整教學(xué)方法和完善教學(xué)資料來滿足未來學(xué)習(xí)者的需求,這也就同時(shí)解決了目前線上課程輟學(xué)率高的問題。
隨著實(shí)時(shí)互動(dòng)信息媒體的出現(xiàn),涌現(xiàn)出大量的短文本數(shù)據(jù),如微博微信上的留言互評(píng)、搜索引擎中的搜索片段、在線課堂的討論與評(píng)價(jià)和BBS論壇上的留言等。挖掘這些短文本的主題可以發(fā)現(xiàn)隱藏在非結(jié)構(gòu)化文本的底層結(jié)構(gòu),是一項(xiàng)很有意義但又具有挑戰(zhàn)性的任務(wù)[1]。因?yàn)槎涛谋局兄话^少的幾個(gè)詞,這些詞又比較隨意、口語化嚴(yán)重且上下文信息缺乏,使得有效地表示短文本和從短文本中發(fā)現(xiàn)知識(shí)變得十分困難[2]。傳統(tǒng)的主題模型典型的有生成概率圖模型和非負(fù)矩陣分解,即LDA(Latent Dirichlet Allocation)[3]和NMF(Non-negative Matrix Factorization)[4]。然而,它們更適用于從內(nèi)容豐富的文本中發(fā)現(xiàn)隱藏語義信息。為了解決上述問題許多人致力于短文本主題的研究。一種策略是利用詞匯內(nèi)部的語義關(guān)系來克服詞共現(xiàn)缺乏的問題,如Nguyen等人[5]提出利用Word2Vec在非常大的語料上訓(xùn)練詞向量,然后輸入到LDA模型中。另一種策略是通過將短文本聚合到偽文檔中來捕獲跨文檔的詞共現(xiàn)信息。如Hong等人[6]將同一用戶發(fā)表的短評(píng)聚集到了一個(gè)偽文檔中來豐富短文本中詞的語義信息;Li等人[7]和Sridhar V K R.[8]通過來自外部語料庫的詞匯語義信息來表示短文本中詞;Yan等人[9]也利用詞項(xiàng)相關(guān)信息提出了用Ncut加權(quán)的NMF短文本主題模型。盡管提出的這些模型確實(shí)在某些方面比較有優(yōu)勢(shì),但效率很低且需要預(yù)先輸入兩個(gè)參數(shù)α和β。本文在NMF主題模型的基礎(chǔ)上提出了知識(shí)誘導(dǎo)的非負(fù)矩陣分解主題模型,它利用詞對(duì)之間的語義相似度作為具有低秩形式的圖拉普拉斯正則項(xiàng)來增加外部語言信息,因此學(xué)習(xí)效率非常高。
為了在短文本背景下獲得更準(zhǔn)確的主題,利用外部的詞對(duì)來指導(dǎo)傳統(tǒng)的NMF文本主題模型,該模型稱為知識(shí)誘導(dǎo)的非負(fù)矩陣分解主題模型。標(biāo)準(zhǔn)的NMF中D的每一列代表一個(gè)文檔,U的每一列代表一個(gè)主題,V的每一列代表文檔在潛在語義空間中的一種新的約簡(jiǎn)嵌入[10],如圖1所示。
圖1 NMF文本主題模型
然而,U的每一行代表了主題空間的一詞項(xiàng)。一個(gè)好的學(xué)習(xí)模型應(yīng)該不僅能夠保留語料庫中潛在的信息,而且還能夠保留不同詞對(duì)之間的關(guān)系,例如“課程”和“教學(xué)大綱”之間的關(guān)系要比“課程”和“技巧”之間的關(guān)系更密切。因此,整合了從外部知識(shí)學(xué)習(xí)到的詞對(duì)之間的語義知識(shí),這些知識(shí)可以從維基百科中訓(xùn)練獲得,引入外部知識(shí)后可以使NMF短文本主題模型得到很大的改善。
用sij表示詞wi和wj從外部知識(shí)中獲得的相似度。U的每?jī)尚校啃写硪粋€(gè)單詞項(xiàng))之間的相似度應(yīng)該與來自外部知識(shí)的相似度一致。具體來說,我們可以做以下最小化:
其中ui*表示主題矩陣U的第i行,L=diag(S·1)-S,1表示全為1的列向量,S=(sij)。結(jié)合語料庫和外部知識(shí)庫,可以將基本的NMF與詞對(duì)語義知識(shí)相結(jié)合,最終得到式(2)所示的優(yōu)化模型:
其中,λ是超參數(shù)來平衡文檔數(shù)據(jù)集信息和外部知識(shí)之間的重要程度。在這里還得注意,圖拉普拉斯矩陣L的維數(shù)是M×M,當(dāng)詞匯量很豐富時(shí)M的值會(huì)變得很大,這是算法運(yùn)算速度的一個(gè)障礙,我們用一個(gè)低秩形式化表示以提高算法效率。
公式(2)整體上它是非凸的,很難得到全局最優(yōu)解。在實(shí)際應(yīng)用中通常通過尋求局部最小值的方式解決。通過交替迭代的方式得到局部最優(yōu)解。令公式(2)等于變量J。
對(duì)V的每個(gè)變量Vij采取梯度下降的方法來對(duì)V進(jìn)行更新:
上述迭代式中S·U的復(fù)雜度為O(KM2),當(dāng)詞匯豐富時(shí)計(jì)算量會(huì)很大。這里我們采用了低秩形式來表示S。具體地說,假設(shè)每個(gè)單詞都采用Word2Vec從外部知識(shí)(Wikipedia)訓(xùn)練出的q維列向量w來表示,那么對(duì)于wi和wj任意兩個(gè)單詞之間的相似度可定義為:
其中W=[w1,w2,…,wM]T∈RM×Q,用公式(10)替換公式(8)中的S,得到式(11):
將S·U的復(fù)雜度從O(KM2)降低到O(MKQ),由于Q和K通常比M小得多,計(jì)算效率大大提高。這里將知識(shí)誘導(dǎo)的非負(fù)矩陣分解短文本主題模型用算法1進(jìn)行總結(jié)。
算法1:知識(shí)誘導(dǎo)的非負(fù)矩陣分解短文本主題模型輸入:文檔集合用TF-IDF表示的矩陣D,主題數(shù)K,詞向量W;超參數(shù)λ輸出:詞項(xiàng)-主題矩陣U和詞項(xiàng)-文檔矩陣V 1 begin:2 隨機(jī)初始化U和V;3 For t=1,2,…,T do 4 利用迭代式(6)更新V 5 利用迭代式(11)更新U 6 if收斂條件滿足then 7 Break;8 End 9 End 10 End
本文在MOOC網(wǎng)站上選取北京理工大學(xué)開設(shè)的《大學(xué)計(jì)算機(jī)》這門課,采用Python編寫爬蟲自動(dòng)爬取該課程下相關(guān)的課程評(píng)價(jià),每條評(píng)價(jià)都記錄了評(píng)論者的ID、評(píng)論日期、課程的完成狀態(tài)和評(píng)論文本,并將其解析為純文本文件。該課程共有65900多人參與學(xué)習(xí),有3942條課程評(píng)價(jià)。
另外,為了對(duì)評(píng)論文本進(jìn)行分析,按以下準(zhǔn)則對(duì)評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理:
(1)由于絕大多數(shù)的評(píng)論都是短評(píng),所以將評(píng)論按照標(biāo)點(diǎn)進(jìn)行了切分。
(2)去掉了評(píng)論中全是字母、全是數(shù)字、全是標(biāo)點(diǎn)符號(hào)或者整個(gè)評(píng)論都是一個(gè)字等無效評(píng)論。如:“kk jhhjhjhjb”、“12121212”、“.....”、“哈哈哈哈哈哈”、“啦啦啦啦啦”等。
(3)采用中國科學(xué)院ICTCLAS(Zhang,Yu,Xiong,&Liu,2003)的中文分詞系統(tǒng),將每個(gè)句子進(jìn)行了分詞。
(4)去除評(píng)論數(shù)據(jù)中存在的一些表情符號(hào)。而形容詞、副詞、動(dòng)詞和名詞被認(rèn)為對(duì)理解文本意義更有幫助,于是對(duì)評(píng)論句進(jìn)行了詞性標(biāo)注。
表1 采集到的數(shù)據(jù)的基本統(tǒng)計(jì)描述
根據(jù)上面第2節(jié)介紹的主題模型,對(duì)評(píng)論文本進(jìn)行主題的提取,將課程評(píng)價(jià)從課程內(nèi)容、平臺(tái)信息和學(xué)習(xí)者體驗(yàn)三個(gè)維度分為了六大主題類,要注意的是這里我們?cè)O(shè)置超參數(shù)λ=5。表2為主題類型及對(duì)應(yīng)的關(guān)鍵詞。根據(jù)主題的關(guān)鍵詞,我們將課程評(píng)價(jià)句進(jìn)行主題標(biāo)記,要求每個(gè)短評(píng)都隸屬于一類主題。
表2 課程評(píng)價(jià)的主題分類
為了分析學(xué)習(xí)者的學(xué)習(xí)行為與評(píng)價(jià)的關(guān)系,根據(jù)學(xué)習(xí)者的課程狀態(tài),將這些評(píng)論數(shù)據(jù)分成兩組:完成者和未完成者。另外,我們根據(jù)上述主題分類的方法將這兩組的課程評(píng)價(jià)也進(jìn)行了分類,這里每個(gè)評(píng)價(jià)文本只能屬于一個(gè)類別,圖2為統(tǒng)計(jì)結(jié)果。從圖2中可以看出,完成者更傾向于分享自己的學(xué)習(xí)體驗(yàn),而未完成者的評(píng)價(jià)分布在各個(gè)主題類別中,更多評(píng)論集中在平臺(tái)信息中。從這里也可以推測(cè)出可能是由于在使用平臺(tái)時(shí)不熟練或不滿意,而導(dǎo)致他們放棄學(xué)習(xí)。
圖2 兩種狀態(tài)學(xué)習(xí)者的主題分類統(tǒng)計(jì)
從上面評(píng)價(jià)文本抽取出的主題發(fā)現(xiàn),其實(shí)每個(gè)主題中都有表達(dá)觀點(diǎn)的詞語。如“喜歡”、“全面”、“用心”、“詳細(xì)”、“模糊”、“抽象”等。這些觀點(diǎn)詞能真實(shí)表達(dá)評(píng)論者的情感傾向。為此,本文將課程評(píng)價(jià)用〈評(píng)價(jià)主題,修飾詞,情感特征〉三元組表示,其中評(píng)價(jià)主題為上面抽取出的六大類,如課程內(nèi)容、課程組織、講授方式、平臺(tái)信息、學(xué)習(xí)者體驗(yàn)和其他;情感特征就是評(píng)論者針對(duì)課程教學(xué)發(fā)表的觀點(diǎn),當(dāng)然我們需要構(gòu)建教學(xué)領(lǐng)域的情感特征詞庫;修飾詞包括否定修飾詞和程度修飾詞,主要用來表達(dá)情感傾向的強(qiáng)弱。表3給出了部分常用情感特征的修飾詞。
表3 常用情感特征的修飾詞
從漢語言學(xué)的角度分析,在一條評(píng)價(jià)語句中評(píng)價(jià)的主題詞性多是名詞或動(dòng)詞,如“內(nèi)容”、“講解”、“設(shè)計(jì)”、“聲音”等;情感特征詞多是形容詞、動(dòng)詞或動(dòng)名詞,如“具體”、“詳細(xì)”、“新穎”等,我們通過詞性標(biāo)注的方式提取并構(gòu)建了情感特征詞庫,表4所示為情感詞匯及分值的部分示例;至于修飾詞絕大多數(shù)是副詞,如表3所示。
表4 情感特征詞匯及分值的部分示例
由于我們將每條課程評(píng)價(jià)都按標(biāo)點(diǎn)進(jìn)行了切分,那么每個(gè)小短句必定評(píng)價(jià)的是一個(gè)主題,而其中的情感特征詞和修飾詞也必然是刻畫這個(gè)主題的。因此,對(duì)詞性標(biāo)注后的評(píng)價(jià)句遵循一定的匹配規(guī)則就可以很方便轉(zhuǎn)換為〈評(píng)價(jià)主題,修飾詞,情感特征〉三元組的形式。這里特別要注意否定修飾詞和程度修飾詞同時(shí)出現(xiàn)的情況,表5給出了轉(zhuǎn)換為三元組的部分評(píng)價(jià)句。
表5 評(píng)價(jià)句轉(zhuǎn)換為三元組的部分示例
對(duì)于提取到的三元組,接下來就可以計(jì)算每個(gè)評(píng)價(jià)句的情感極性,根據(jù)情感特征詞匯的分值和修飾詞的乘積進(jìn)行情感打分。否定修飾詞的分值為-1,強(qiáng)化程度修飾詞分值為2,弱化程度修飾詞分值為-0.5,沒有程度修飾詞分值為1。另外,還需要考慮轉(zhuǎn)換成三元組,沒有情感特征詞或者情感特征詞不在情感特征詞庫中的情況,如表5中的例句3。這時(shí)我們都按中性詞統(tǒng)一賦值為0.3。表6給出了部分評(píng)價(jià)句的情感得分。
表6 評(píng)價(jià)句情感得分部分示例
根據(jù)上述規(guī)則,就可以得到所有評(píng)價(jià)句的情感得分。其實(shí)對(duì)于課程的建設(shè)者來說,他們更關(guān)注的是負(fù)面的評(píng)價(jià),以便對(duì)課程進(jìn)行改進(jìn)和完善。根據(jù)因此,我們對(duì)所有情感得分為負(fù)值的評(píng)價(jià)句進(jìn)行了主題統(tǒng)計(jì)分析,如圖3所示。從圖中可以看出學(xué)習(xí)者對(duì)平臺(tái)信息的負(fù)評(píng)價(jià)最多,課程內(nèi)容次之。追溯到原始評(píng)價(jià)句,發(fā)現(xiàn)有這樣的一些評(píng)論“視頻畫質(zhì)是真的差”,“還可以,一般般”,“錄制質(zhì)量不高”,“聲音不清楚”,“感覺有點(diǎn)難”,“有一些磕磕巴巴的說不清楚和出錯(cuò)”,“上網(wǎng)課真無聊”,“太難學(xué)不會(huì)”,“作業(yè)多”,“講述水平一般”……,課程的建設(shè)者可以很快地找出學(xué)習(xí)者的困惑和他們的關(guān)注點(diǎn),不斷對(duì)課程進(jìn)行改進(jìn)。
圖3 各類主題負(fù)評(píng)價(jià)占比
本文通過對(duì)線上課程的課程評(píng)價(jià)進(jìn)行主題挖掘,發(fā)現(xiàn)學(xué)習(xí)完成者更傾向發(fā)表自己的學(xué)習(xí)體驗(yàn),并且也更關(guān)注課程的內(nèi)容;而未完成者更多地會(huì)對(duì)平臺(tái)信息提出意見,更關(guān)注課程的組織和講授方式。接著本文各類主題的評(píng)價(jià)句進(jìn)行了觀點(diǎn)的抽取和情感打分,可以很方便地發(fā)現(xiàn)負(fù)面評(píng)價(jià)集中在哪方面,以便課程建設(shè)者進(jìn)行課程的改進(jìn)和調(diào)整。