羅玉萍 潘慶先等
摘要:學(xué)生評(píng)教是高校普遍實(shí)行的一項(xiàng)管理制度,評(píng)教結(jié)果的有效性,即評(píng)教的質(zhì)量受到教師、學(xué)生、教學(xué)管理者的高度關(guān)注。該文利用語義分析技術(shù)對(duì)學(xué)生留言進(jìn)行情感挖掘,建立基于知網(wǎng)的情感詞庫(kù),并設(shè)置詞的極性權(quán)重;以3GWS工具進(jìn)行分詞與詞性標(biāo)注;對(duì)留言的情感褒貶程度進(jìn)行計(jì)算,形成教師的評(píng)價(jià)摘要。以煙臺(tái)大學(xué)評(píng)教數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證該方法科學(xué)、有效。
關(guān)鍵詞:學(xué)生評(píng)教;情感分析;學(xué)生留言;數(shù)據(jù)挖掘
中圖分類號(hào):G434 文獻(xiàn)標(biāo)識(shí)碼:A
隨著我國(guó)高等教育的大眾化,《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》明確指出提高質(zhì)量是當(dāng)前高等教育的核心任務(wù),是建設(shè)高等教育強(qiáng)國(guó)的基本要求。如何保證和提高高等教育教學(xué)質(zhì)量已成為高等學(xué)校深化教育教學(xué)改革的焦點(diǎn)和全社會(huì)關(guān)注的熱點(diǎn)。教育部《關(guān)于深化高校教師考核評(píng)價(jià)制度改革的指導(dǎo)意見》(教師[2016]7號(hào))文件,對(duì)師德考核、教學(xué)業(yè)績(jī)、科研評(píng)價(jià)、社會(huì)服務(wù)在職稱中的作用、教師自身發(fā)展等提出了一系列具體措施。學(xué)生評(píng)教是教學(xué)工作考核評(píng)價(jià)的重要維度之一,是學(xué)生依據(jù)一定的評(píng)價(jià)指標(biāo)對(duì)教師的教學(xué)態(tài)度、教學(xué)方法、教學(xué)內(nèi)容、教學(xué)效果等方面做出定性或定量的評(píng)價(jià)?!霸u(píng)價(jià)最重要的意圖不是為了證明,而是為了改進(jìn)”,學(xué)生評(píng)教已經(jīng)成為高校普遍采用的教學(xué)評(píng)價(jià)與管理制度,成為了各高校內(nèi)涵發(fā)展的重要措施之一。
在我國(guó),學(xué)生評(píng)教自20世紀(jì)七八十年代出現(xiàn)起,便受到學(xué)術(shù)界的廣泛關(guān)注,研究者們對(duì)學(xué)生評(píng)教的作用、中外比較、價(jià)值取向、評(píng)教工具、評(píng)教結(jié)果的有效性等展開了深入研究,其中結(jié)果的有效性被認(rèn)為是研究的焦點(diǎn),得到教師、學(xué)生、教學(xué)管理者的高度關(guān)注,研究者主要對(duì)學(xué)生的客觀評(píng)價(jià)進(jìn)行統(tǒng)計(jì)與分析,而對(duì)學(xué)生評(píng)教中學(xué)生主觀留言的分析與挖掘基本沒有涉及,本文提出了基于情感挖掘的學(xué)生主觀留言傾向性分析模型,建立了基于知網(wǎng)的情感詞典庫(kù),利用3GWS工具對(duì)留言進(jìn)行分詞與詞性標(biāo)注;通過對(duì)留言的情感褒貶程度計(jì)算,形成教師的評(píng)價(jià)摘要,并通過煙臺(tái)大學(xué)評(píng)教數(shù)據(jù)驗(yàn)證其有效性、科學(xué)性。
上世紀(jì)20年代初,美國(guó)在高校中開始學(xué)生評(píng)教活動(dòng)。1984年,北京師范大學(xué)通過問卷的方式對(duì)教師的教學(xué)質(zhì)量進(jìn)行評(píng)價(jià),學(xué)生評(píng)教一度成為國(guó)內(nèi)外研究的熱點(diǎn),并取得了豐碩的成果,對(duì)學(xué)生評(píng)教的研究基本分為基本理論研究和實(shí)踐研究?jī)蓚€(gè)方面,基本理論的研究主要關(guān)注學(xué)生評(píng)教的權(quán)利、作用、意義、價(jià)值取向、中外比較與本土化等方面,其中梅萍等研究了近十年我國(guó)高校學(xué)生評(píng)教有效性問題;韓天學(xué)等研究了美國(guó)高校學(xué)生評(píng)教體系,并通過實(shí)例證實(shí)本土化的可行性;羅玉萍等研究了在普通高校開展學(xué)生評(píng)教的必要性及具體方法。實(shí)踐研究主要是關(guān)于學(xué)生評(píng)教的有效性研究,包括指標(biāo)體系設(shè)置、評(píng)教工具的設(shè)計(jì)、評(píng)教結(jié)果的統(tǒng)計(jì)分析方法、結(jié)果的應(yīng)用等。其中潘慶先等利用關(guān)聯(lián)數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生評(píng)教的評(píng)價(jià)指標(biāo)體系的權(quán)重進(jìn)行設(shè)置;馬秀麟等從大數(shù)據(jù)挖掘的視角分析學(xué)生評(píng)教的有效性;譚征、潘慶先等利用中文文本挖掘技術(shù)建立了中文評(píng)教文本分類模型;傅龍等通過聽評(píng)課的方法實(shí)證研究了新教師與經(jīng)驗(yàn)教師評(píng)價(jià)的方法;鄭燕林等分析了美國(guó)利用大數(shù)據(jù)分析技術(shù)進(jìn)行教育評(píng)價(jià)的方法和路徑;羅玉萍等對(duì)學(xué)生評(píng)教工作的動(dòng)員、分類評(píng)價(jià)、數(shù)據(jù)處理、結(jié)果與反饋等過程進(jìn)行了研究并以煙臺(tái)大學(xué)為例證實(shí)其有效性。
隨著學(xué)生評(píng)教工作的普及與深入,評(píng)價(jià)結(jié)果的有效性越來越受到廣大教師、學(xué)生、教學(xué)管理者的關(guān)注??v觀對(duì)學(xué)生評(píng)教結(jié)果有效性的研究,大部分都集中在客觀性評(píng)價(jià)的統(tǒng)計(jì)與處理上,其中潘慶先等采用了課程分類、學(xué)生分年級(jí)的方法,利用標(biāo)準(zhǔn)偏差來糾偏的數(shù)據(jù)處理技術(shù)對(duì)學(xué)生評(píng)教中客觀評(píng)價(jià)部分進(jìn)行處理,并成功應(yīng)用于煙臺(tái)大學(xué),得到了廣大教師的認(rèn)可。
但對(duì)于學(xué)生主觀留言部分的研究很少有所涉及,學(xué)生留言是學(xué)生在評(píng)教過程中對(duì)教師的主觀評(píng)價(jià),其中有褒獎(jiǎng)之詞也有中肯之建議,作為學(xué)生評(píng)教中重要的組成部分,學(xué)生留言也是教師與學(xué)生進(jìn)行交流的重要方式。對(duì)于學(xué)生留言的處理方式大部分高校將留言直接反饋給教師本人,并沒有對(duì)學(xué)生留言進(jìn)行任何處理,也沒有在留言中挖掘有效信息。煙臺(tái)大學(xué)每學(xué)期學(xué)生留言約16萬條,期初采用人工過濾的方式,工作人員將所有留言進(jìn)行分類,把留言分為:正常、不適合給老師看、上課遲到、接聽電話、要求換老師、普通話不標(biāo)準(zhǔn)等類別,分類后再將相關(guān)留言反饋給教師本人,發(fā)現(xiàn)異常情況后及時(shí)與相關(guān)學(xué)院主管教學(xué)領(lǐng)導(dǎo)聯(lián)系,這種做法保證了教師對(duì)教學(xué)的積極性,保護(hù)了教師不受學(xué)生不恰當(dāng)言辭的傷害,也能夠發(fā)現(xiàn)教師教學(xué)過程中的優(yōu)點(diǎn)和不足,但這種做法所需人力較大。后來利用關(guān)鍵詞過濾技術(shù)將學(xué)生留言進(jìn)行篩選過濾,這種做法雖然提高了效率,但容易受到關(guān)鍵詞庫(kù)的影響,容易遺漏有用的信息。
本文提出了對(duì)留言進(jìn)行情感分析的方法,通過情感分析技術(shù)對(duì)每條留言進(jìn)行情感計(jì)算,把學(xué)生留言以定量的方式表示其情感強(qiáng)度,設(shè)置強(qiáng)度閾值,達(dá)到閾值時(shí),自動(dòng)形成教師的評(píng)價(jià)摘要。
情感分析又稱意見挖掘(Opinion Mining),旨在利用計(jì)算機(jī)技術(shù)研究人們針對(duì)物體、個(gè)人、事件、主題及其屬性的主觀意見和情感,對(duì)文本的觀點(diǎn)、情緒、情感極性做出判斷。情感分析是自然語言處理領(lǐng)域的一個(gè)重要話題,旨在對(duì)無結(jié)構(gòu)的主觀性文本進(jìn)行分析、處理和歸納,最終形成方便機(jī)器理解和用戶使用的結(jié)構(gòu)化數(shù)據(jù)。情感分析是一個(gè)多學(xué)科綜合的領(lǐng)域,涉及語言學(xué)、統(tǒng)計(jì)學(xué)、心理學(xué)、機(jī)器學(xué)習(xí)、人工智能等領(lǐng)域的理論與方法。內(nèi)容涉及多層語言分析技術(shù),如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、句法分析、社會(huì)網(wǎng)絡(luò)構(gòu)建等。
文本情感分析分為兩個(gè)步驟,首先需要對(duì)文本來源進(jìn)行處理,對(duì)文本進(jìn)行主客觀分類,從主客觀混合的文本中將描述事實(shí)的客觀性文本與表達(dá)意見的主觀性文本區(qū)分開來,將主觀語言的文本抽取出來,過濾掉不帶情感色彩的文本。下一步是對(duì)主觀性文本的分析,主要包括文本情感極性分析和文本情感極性強(qiáng)度分析。
由于學(xué)生評(píng)教的留言基本都為中文,中文文本的情感分析過程包括了分詞、詞性標(biāo)注、情感詞提取、情感詞典的構(gòu)建、情感極性判斷等過程。
(一)中文文本的分詞
中文分詞是指將組成句子的漢字序列用分隔符加以區(qū)分,切分成一個(gè)個(gè)單獨(dú)的詞,它是中文文本處理的基礎(chǔ)。經(jīng)過學(xué)者們?nèi)嗄甑难芯亢吞剿?,中文分詞已取得了長(zhǎng)足的進(jìn)步,分詞的準(zhǔn)確率得到大幅提高,特別是在使用了機(jī)器學(xué)習(xí)和基于統(tǒng)計(jì)的方法后,中文分詞效果有了顯著的進(jìn)步。
本文采用第三代智能分詞系統(tǒng)3GWS,3GWS是飛嘉華公司智能分詞系列的產(chǎn)品,它是在繼承優(yōu)秀研究成果ICTCLAS自由源代碼的基礎(chǔ)上,綜合統(tǒng)計(jì)方法、語義網(wǎng)絡(luò)、模式推理與語言進(jìn)化論等領(lǐng)域的最新研究成果。其主要功能有漢語智能分詞、命名實(shí)體與新詞識(shí)別、詞性標(biāo)注以及支持用戶自定義詞典。分詞界面如圖1所示。
(二)情感詞抽取
情感詞又稱極性詞、評(píng)價(jià)詞語,特指帶有情感傾向性的詞。一般情感詞有褒義和貶義兩類極性。情感詞抽取是情感分析的基礎(chǔ),因此引起了學(xué)者的廣泛關(guān)注和研究。情感詞抽取目前主要分為基于語料庫(kù)和基于詞典的兩種研究方法。基于語料庫(kù)的情感詞抽取和判別主要是利用大語料庫(kù)的統(tǒng)計(jì)特性,優(yōu)點(diǎn)在于簡(jiǎn)單易行。基于詞典的方法具有獲取情感詞全面、準(zhǔn)確的優(yōu)點(diǎn),但是由于存在一詞多義現(xiàn)象,構(gòu)建的情感詞典往往含有較多的歧義詞。
本文提出了基于詞性的情感詞抽取方法,提取留言中所關(guān)心的詞性,比如:形容詞、副詞、程度詞;為了形成自動(dòng)摘要,本文把相關(guān)名詞和動(dòng)詞與進(jìn)行提取,建立了關(guān)心詞性表(見表1),表的內(nèi)容可以根據(jù)不同領(lǐng)域自行增減。
(三)詞語的情感極性
判別詞語的情感極性是文本情感分析的基礎(chǔ),為了定量表示詞語的情感程度,通常用[-1,1]之間的某個(gè)小數(shù)作為情感權(quán)重,來表示詞語的褒貶程度。如果權(quán)重大于0,則表示詞語為褒義詞;情感權(quán)重小于0,則表示詞語為貶義詞。情感權(quán)重的絕對(duì)值越大則意味著詞語的褒貶程度越大。
詞語的情感極性判別主要有基于語料庫(kù)和基于詞典兩種方法。基于語料庫(kù)的方法主要是利用詞語之間的連詞以及統(tǒng)計(jì)特征來判別詞語的情感極性?;谠~典的方法是利用中文詞典知網(wǎng)提供的語義相似度或者層次結(jié)構(gòu)來判別詞語的情感極性。
本文采用基于知網(wǎng)的情感極性標(biāo)注方法,褒義詞賦權(quán)為1,貶義詞賦權(quán)為-1,程度副詞按強(qiáng)度不同分別賦予2、1.5、0.8、0.5的權(quán)重,名詞、動(dòng)詞賦權(quán)0,否定詞為“-1”。
(四)留言的情感分析
在情感分析的典型應(yīng)用中,產(chǎn)品評(píng)論的情感分析、新聞評(píng)論的情感分析、電影影評(píng)的情感分析被廣大研究者所關(guān)注,這些研究具有一定的商業(yè)價(jià)值和社會(huì)價(jià)值。產(chǎn)品評(píng)論的情感分析主要任務(wù)是獲取產(chǎn)品的特征或?qū)傩?,定位用戶的主觀性評(píng)論,抽取評(píng)論詞,判別用戶評(píng)論的褒貶。新聞評(píng)論的情感分析是對(duì)評(píng)論人的評(píng)論進(jìn)行挖掘,可以了解民眾對(duì)新聞人物和新聞事件的總體評(píng)價(jià),及時(shí)掌握當(dāng)前的輿情信息,特別是熱點(diǎn)事件的輿情信息,在輿情控制中起到了重要作用。
本文提出了基于表達(dá)式的留言情感分析方法,將褒義詞、貶義詞的運(yùn)算符設(shè)置為“+”,將程度副詞的運(yùn)算符設(shè)置為“*”。留言的情感褒貶強(qiáng)度計(jì)算公式為:
其中qi為情感詞的權(quán)重,Ti為詞的運(yùn)算符,o為學(xué)生留言的詞集合,“&”為字符連接運(yùn)算符。通過上式得到留言褒貶強(qiáng)度的計(jì)算表達(dá)式,然后執(zhí)行表達(dá)式得到此留言的褒貶強(qiáng)度。
隨著互聯(lián)網(wǎng)的普及以及Web2.0技術(shù)的發(fā)展,數(shù)據(jù)量爆炸式地增長(zhǎng),海量的信息以及豐富的網(wǎng)絡(luò)應(yīng)用改變了人類的生活和生產(chǎn)方式。怎樣在過載的數(shù)據(jù)中挖掘出有用的信息,在成千上萬條文本數(shù)據(jù)中,提煉、精簡(jiǎn)出關(guān)鍵信息,已經(jīng)成為文本挖掘中研究的熱點(diǎn)。章彥星等提出了一種基于特征的用戶評(píng)論自動(dòng)摘要方法,能夠自動(dòng)生成簡(jiǎn)潔、全面的摘要。指出自動(dòng)摘要過程主要包括4個(gè)步驟:(1)特征識(shí)別,從用戶評(píng)論中識(shí)別出被用戶評(píng)價(jià)的商品特征;(2)評(píng)論句分類,將用戶評(píng)論的句子按其評(píng)價(jià)的特征進(jìn)行分類;(3)特征過濾,根據(jù)句子分類的結(jié)果過濾特征;(4)摘要生成,使用句子抽取的方法生成摘要。
目前文本自動(dòng)文摘的研究對(duì)象主要是科技文獻(xiàn)和新聞等具有嚴(yán)謹(jǐn)?shù)恼Z言風(fēng)格和文檔結(jié)構(gòu)、陳述客觀事實(shí)的文本,而學(xué)生留言往往是結(jié)構(gòu)松散、語言風(fēng)格多樣化、內(nèi)容帶有主觀性的文本。本文借助情感分析方法與技術(shù),提出了基于閾值的自動(dòng)摘要方法,該方法通過記錄學(xué)生留言中詞的位置,當(dāng)留言的情感程度達(dá)到閾值時(shí),通過位置反推而形成評(píng)價(jià)摘要。
本文以煙臺(tái)大學(xué)學(xué)生評(píng)教系統(tǒng)為實(shí)驗(yàn)平臺(tái),煙臺(tái)大學(xué)自2003年開展學(xué)生網(wǎng)上評(píng)教活動(dòng),每學(xué)期積累學(xué)生留言近16萬條,為該系統(tǒng)的分析與設(shè)計(jì)提供了有利保障。本系統(tǒng)以情感分析為基本理論,建立了基于情感挖掘的學(xué)生留言分析系統(tǒng),系統(tǒng)框架如下頁圖2所示,系統(tǒng)以SQL2008為數(shù)據(jù)庫(kù)管理系統(tǒng),建立了基于知網(wǎng)的情感詞庫(kù),整個(gè)處理過程分為數(shù)據(jù)提取與預(yù)處理、分詞與詞性標(biāo)注、傾向性分析、自動(dòng)摘要等四個(gè)過程。
(一)基于知網(wǎng)的情感詞典
詞典是情惑分析的基礎(chǔ),本系統(tǒng)采用知網(wǎng)的正面詞、負(fù)面詞、程度副詞為基礎(chǔ),建立了情感字典表,表結(jié)構(gòu)如下頁表2所示,其中權(quán)重表示情感詞的褒貶程度,運(yùn)算符在生成留言的情感計(jì)算表達(dá)式時(shí)來連接不同詞的權(quán)重。為適應(yīng)時(shí)代的發(fā)展,本系統(tǒng)建立了自適應(yīng)的字典庫(kù),用戶可以根據(jù)應(yīng)用領(lǐng)域的特點(diǎn)自動(dòng)增刪情感詞,其詞典維護(hù)界面如下頁圖3所示。
(二)留言提取與預(yù)處理
從數(shù)據(jù)庫(kù)中提取學(xué)生對(duì)教師的主觀留言,形成分詞軟件可識(shí)別的文件格式。對(duì)留言進(jìn)行預(yù)處理,去除噪音能夠提高留言情感分析的精度,在預(yù)處理中一般去除重復(fù)性留言,去除沒有真正含義的留言比如“……”等,合理處理如“好好好好好好好”等類似留言。
(三)分詞與入庫(kù)
利用3GWS分詞系統(tǒng),對(duì)學(xué)生留言進(jìn)行分詞,并進(jìn)行詞性標(biāo)注。針對(duì)感興趣的情感詞性,比如:形容詞、副詞、名詞、動(dòng)詞等入庫(kù),并記錄該詞在評(píng)價(jià)中的位置。
(四)情感程度計(jì)算
利用字典庫(kù)中詞性的權(quán)重和運(yùn)算符,根據(jù)分詞結(jié)果生成計(jì)算表達(dá)式,下面用一具體實(shí)例說明處理過程。
實(shí)例:學(xué)生留言為“老師教的很好,課程學(xué)得也輕松有趣”;
分詞后數(shù)據(jù)為:“老師/n教/v的/udel很,d好/a,/wd課程,n學(xué),v得/ude3也/d輕松/a有趣,a”;
提取關(guān)心的詞人庫(kù)后如表3所示,其中教師編號(hào)為教師的唯一標(biāo)識(shí),行號(hào)代表學(xué)生留言的具體行號(hào),詞語位置為該詞在留言中的位置,為自動(dòng)摘要的反推提供依據(jù)。
生成的留言傾向性程度表達(dá)式為:Q=0+1.5*1+1+1+0,結(jié)果為3.5,表示此留言的情感強(qiáng)度為3.5。當(dāng)超過閾值時(shí),此留言就被當(dāng)作自動(dòng)摘要的候選項(xiàng),可以通過表3中的詞語和位置反推摘要為:“老師教很好,課程學(xué)也輕松有趣”。
隨著高等教育大眾化的普及,內(nèi)涵式發(fā)展是各高校發(fā)展的內(nèi)在要求,提高教育教學(xué)質(zhì)量是促進(jìn)內(nèi)涵發(fā)展的重要內(nèi)容;學(xué)生評(píng)教作為各高校普遍采用的教學(xué)評(píng)價(jià)方式,其結(jié)果的有效性將直接影響教師的教學(xué)積極性和教學(xué)管理的服務(wù)水平。本文提出了對(duì)學(xué)生主觀留言的情感分析方法,建立了基于知網(wǎng)的情感詞庫(kù),通過對(duì)留言分詞、詞性標(biāo)注、賦權(quán)等過程計(jì)算留言的情感褒貶強(qiáng)度,以煙臺(tái)大學(xué)學(xué)生評(píng)教數(shù)據(jù)為例,驗(yàn)證了該方法科學(xué)有效。
學(xué)生評(píng)教是一多元化的過程,其中受到學(xué)生、教師、課程、環(huán)境等多種因素的影響,比如:同樣的“好”,不同學(xué)生可能表達(dá)不同的情感,對(duì)于評(píng)價(jià)嚴(yán)格的學(xué)生表達(dá)的是褒獎(jiǎng)的程度很強(qiáng)的情感,而對(duì)于評(píng)價(jià)寬松的學(xué)生表達(dá)的是一般的情感;因此在今后的研究中要考慮評(píng)價(jià)用戶的情感信息,探索神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)的方法,以使評(píng)價(jià)結(jié)果更加客觀、科學(xué)、有效。