張 瑩 宋 磊 韓 丹 蔡永明
濟(jì)南大學(xué)商學(xué)院 山東濟(jì)南 250022
自美國麻省理工學(xué)院2001年啟動開放課程運(yùn)動后,各國200多所名校逐漸加入開放課程體系。近年來,國內(nèi)網(wǎng)絡(luò)教育平臺進(jìn)入飛速發(fā)展時期,目前較著名的平臺主要有網(wǎng)易公開課、MOOC學(xué)院、Coursera等。大量優(yōu)質(zhì)課程資源在各大學(xué)習(xí)平臺聚集,涵蓋國內(nèi)外高校開設(shè)的精品開放課程,學(xué)習(xí)者可以通過網(wǎng)絡(luò)挑選課程并進(jìn)行自主學(xué)習(xí)。然而,面對海量的學(xué)習(xí)資源,學(xué)習(xí)者如何快速找到適合自己的課程資源成為一大難題。學(xué)習(xí)者大多通過課程簡介選擇課程,很多人往往花費(fèi)了數(shù)小時之后才發(fā)現(xiàn)課程內(nèi)容、講授方式并不適合自己。因此,急需一種方法幫助學(xué)習(xí)者快速、有效地把握課程內(nèi)容、講課風(fēng)格及講授質(zhì)量。
在網(wǎng)絡(luò)課程內(nèi)容評價方面,早有研究者從各個角度給出評判。宋志明[1]提出傳承知識、啟迪智慧,滿足學(xué)習(xí)者的學(xué)習(xí)需求是網(wǎng)絡(luò)公開課的主要目的。劉進(jìn)軍(2011)[2]提出要建立完善的評價體系,實行學(xué)生和專家打分評價的模式。孫傳遠(yuǎn)(2013)分析愛課程網(wǎng)的評論內(nèi)容得出了開放課程質(zhì)量評價的八個維度,給出正面或負(fù)面的評價傾向[3]。上述研究主要停留在人工評價方面,面對海量課程信息該方法費(fèi)時費(fèi)力,效率不高。本文利用LDA文本挖掘技術(shù)通過抽取用戶評論的主題,獲取課程的內(nèi)容主題及用戶評論的情感傾向,為后來學(xué)習(xí)者提供課程選擇的重要依據(jù)。
潛在狄利克雷分配模型LDA是由DavidM.Blei等人在2003年提出的一種概率主題模型。其在PLSA基礎(chǔ)上,增加了文檔-主題分布及主題-特征詞的Dirichlet共軛先驗,生成一種更完備的概率主題模型。其貝葉斯生成圖如圖1所示。圖中,K為主題個數(shù),M為文檔總數(shù),Nm是第m個文檔的單詞總數(shù)。 是每個主題下詞的多項分布的 Dirichlet先驗參數(shù),是每個文檔下主題的多項分布的 Dirichlet先驗參數(shù)。Zm,n是第m個文檔中n個詞的主題,Wm,n是m個文檔中的n個詞。兩個隱含變量 m和 k分別表示第m個文檔下的主題分布和第k個主題下的單詞分布,前者是k維(k為主題總數(shù))向量,后者是v維向量(v為詞典中單詞的總數(shù))。
圖1 LDA貝葉斯生成模型圖
文檔的生成過程可描述為:首先,依據(jù)參數(shù) ,生成文檔-主題多項式分布 和主題-單詞多項式分布 ;其次,對第m篇文檔,隨機(jī)抽樣 得到文檔中每個詞的主題分布 m;根據(jù)所得每個詞所在的主題k,隨機(jī)抽樣 k到主題上的一個單詞。持續(xù)該過程直到生成整篇文檔。
本文以網(wǎng)易公開課浙江大學(xué)《王陽明心學(xué)》為研究對象,該課程共9集,由浙江大學(xué)董平老師主講,目前在網(wǎng)易公開課平臺上有5874人參與學(xué)習(xí),579人跟帖評論。自課程站點(http://open.163.com/movie/2011/10/F/G/ M7GF17HPS_M7GHGQTFG.html)利用火車頭軟件抓取該頁面中的用戶評論數(shù)據(jù),部分評論數(shù)據(jù)如下面圖2所示:
圖2 《王陽明心學(xué)》網(wǎng)絡(luò)評論數(shù)據(jù)
為保證分類過程中各環(huán)節(jié)的透明化,以減少中間過程的不可控因素,因此分詞方法主要采用中科院ICTCLAS分詞系統(tǒng)進(jìn)行分詞,經(jīng)過分詞、去除重復(fù)詞匯和停用詞、以及網(wǎng)頁非文字符號,生成分析語料庫。對模型進(jìn)行訓(xùn)練以獲取最優(yōu)參數(shù)的設(shè)定,將LDA模型中超參數(shù) 和 設(shè)為默認(rèn)值 =50/k,=0.01,迭代次數(shù)設(shè)置為1000次。本文采用困惑度結(jié)合肉眼觀察結(jié)果,模型主題數(shù)最終確定為4個。從主題分布上看,比較突出的主題詞是“王陽明”,查看相關(guān)主題詞主要有:“不錯”、“內(nèi)容”、“平淡”、“唯心”……,分析可見該課程隸屬唯心主義范疇,內(nèi)容尚可,講課風(fēng)格比較平淡。
對網(wǎng)絡(luò)課程的在線評論進(jìn)行主題抽取,能快速獲取評論中的有效信息內(nèi)容,為后來學(xué)習(xí)者和主講教師提供了重要的參考依據(jù)。不足之處在于,受分詞影響,主題挖掘僅能獲取零散的用戶評論中的情感詞,未能全面刻畫課程不同緯度的精確情感傾向。因此,下一步擬針對網(wǎng)絡(luò)課堂在線評論展開意見挖掘研究。
[1]宋志明.視頻公開課“中國傳統(tǒng)哲學(xué)通論”建設(shè)的經(jīng)驗與體會[J].中國大學(xué)教學(xué),2012,(1):13-15.
[2]劉進(jìn)軍.視頻公開課:有挑戰(zhàn)才有價值[J].中國教育網(wǎng)絡(luò),2011,(7):20.
[3]孫傳遠(yuǎn),劉玉梅.中國大學(xué)視頻公開課評價——基于愛課程網(wǎng)“精彩評論”的內(nèi)容分析研究[J].現(xiàn)代教育技術(shù),2013,23(12):91-95.