邱均平,孫月瑞,b(杭州電子科技大學.中國科教評價研究院,b.管理學院)
自20世紀90年代我國逐步引進國際科技期刊的評價體系以來,我國科研能力迎來了巨大的提升,作為培養(yǎng)優(yōu)秀高等人才的高等院校,科研素養(yǎng)和學術成果成為評價一所大學的核心標準。但近些年一些部門對該標準的過度依賴,大學評價在實踐應用中逐漸趨向單一化。
大數(shù)據(jù)時代的來臨促使數(shù)據(jù)挖掘技術日益成熟,合理利用機器學習等手段能夠較為準確、快速地發(fā)現(xiàn)知識、總結(jié)規(guī)律。其中,文本挖掘作為數(shù)據(jù)挖掘的一個重要分支,近些年來獲得了巨大發(fā)展。目前,對網(wǎng)絡評論的文本挖掘研究主要集中于商品評論、網(wǎng)絡輿情這兩個方向,而對學校環(huán)境的在線評論研究關注不足。微博、知乎等社交媒體已經(jīng)成為大學生了解信息、相互討論、表達訴求的主要渠道[1],本研究以浙江工業(yè)大學、杭州電子科技大學和浙江師范大學為例,通過收集評價大學的在線評論數(shù)據(jù),利用文本挖掘技術對評論進行文本拆分,對生成的各評論語句集進行情感分類,探尋產(chǎn)生消極評論的主要問題,并對教學的非消極評論進行詞頻統(tǒng)計,所獲得的實驗結(jié)果可以洞悉大學生對所在學校的生活服務、學習體驗的集中情感,把握學校的熱門專業(yè)和學科特色。
目前,我國對于高校的評價以學術評價為主。占侃[2]對我國高校主要評價體系做了對比分析,發(fā)現(xiàn)各機構單位都重點考量高校的創(chuàng)新能力,但由于評價的實體指標各有側(cè)重,高校評價結(jié)果往往并不相同。大數(shù)據(jù)時代,很多學者提出了對大學評價體系的質(zhì)疑和改進措施,如湯建民等對高??蒲袠I(yè)績評價是否科學、如何改進提出了意見[3],唐曉波等[4]構建了依托大數(shù)據(jù)技術的信息云平臺和智能服務框架。在學校的內(nèi)部評價中,很多研究工作轉(zhuǎn)向于學生教學評價文本,如范宇辰等[5]利用詞典匹配法與情感詞庫統(tǒng)計中文教評文本的情感得分,劉毓等[6]結(jié)合Word2Vec與支持向量機方法實現(xiàn)對科教短文本數(shù)據(jù)的情感分類。
隨著互聯(lián)網(wǎng)的高速發(fā)展,人們能夠在虛擬的網(wǎng)絡中暢所欲言,將凝聚個人情感的評價信息發(fā)布于網(wǎng)絡,形成了許多以某一對象為中心的海量的、富有內(nèi)涵的評論集,如何從中挖掘出有價值的知識成為學者研究的熱點問題。陸泉等[7]利用樸素貝葉斯分類和“密度—距離”快速搜索聚類實現(xiàn)了專業(yè)領域稀疏環(huán)境下微博評論的熱點主題挖掘;李金海等[8]從百度貼吧中收集本校的言辭信息,探索高校輿情形成的原因和影響;楊單等[9]從兩所高校的網(wǎng)絡輿情熱點出發(fā),利用Rost、Gooseeker等工具進行情感分析,合理地判斷了網(wǎng)絡輿情的走勢。但是,除了上述研究方向外,對于網(wǎng)絡用戶(特別是正在就讀或曾就讀過的學生)對大學環(huán)境的在線評論的研究卻少有開展。
本研究從各網(wǎng)站中收集網(wǎng)絡用戶對浙江工業(yè)大學、杭州電子科技大學、浙江師范大學這三所院校的在線評論,主要以“某某大學怎么樣”的提問方式收集評論,獲取信息的主要平臺有百度知道、中國教育在線、知乎和職朋校友圈,發(fā)表評論的時間跨度定為2016年1月1日至2021年1月1日。通過剔除重復評論,最終獲得5,889條評論,其中浙江工業(yè)大學1,771條、杭州電子科技大學2,441條、浙江師范大學1,677條。所獲得的評論樣例見表1。
表1 學校評論樣例
本研究最初收集到的評論大都是對院校的綜合評價,為了更合理地對評論文本進行分類分析,筆者對評論進行拆分。在細粒度文本抽取上,康月等[10]利用句法特征對評論的實體、屬性、情感進行標注,形成訓練集后對BERT詞嵌入的BILSTM-CRF注意力機制模型進行訓練,取得了良好的效果。周清清等利用評論中高頻名詞作為候選屬性詞,利用word2vec模型詞向量表示并進行AP聚類,通過降噪等處理,較好地實現(xiàn)了細粒度屬性抽?。?1]。
本研究獲得的大部分在線評論的內(nèi)容跨度非常大。通過觀察,筆者發(fā)現(xiàn)這些評論主要圍繞吃、住、景、學習這四個主題展開。為了解決評論內(nèi)部細分問題,筆者利用StanfordNLP工具對其進行詞性標注,提取評論中的名詞,再結(jié)合word2vec模型,形成名詞的詞向量形式,通過AP聚類形成初始類簇,達到詞語詞義相近則相聚的效果。接下來,筆者對分類的各詞集進行評論語句重現(xiàn),將其作為輔助參考,對形成的各個類簇進行人工分類,最終構成以“飲食”“景色”“教學”“住宿”“其他”為類別的評論語句集。
對三所院校的評論數(shù)據(jù)進行變換。具體地,對各院校的評論進行切分,以逗號、句號、問號等有句間停頓意義的符號作為分割點,形成新的評論語句集,再利用StanfordNLP工具對評論集進行詞性標注,抽取名詞(帶有“NN”和“NR”標注的詞語)并刪除代詞后,生成關鍵詞,最終得到6,779個關鍵詞。
本研究借助word2vec模型對關鍵詞進行詞向量表示。word2vec是Mikolov等提出的,這種詞向量表示方式名為“Distributed Representation”,能有效避免“One-hot Representation”維度高、詞間相似難以比較等問題[12-13]。利用語料庫對word2vec進行訓練,可以表示詞語的詞向量,并且意思越相近的詞語在向量空間上的位置越接近。word2vec有兩個訓練模式,分別為Skip-Gram和CBOW,前者以輸入詞來預測上下文,后者是以輸入上下文來預測當前詞。本研究采用的訓練模式為Skip-Gram,該模式的模型是一個三層神經(jīng)網(wǎng)絡,選擇5作為上下文窗口參數(shù),250作為詞向量維度。筆者以維基百科、微信公眾號文章的海量文本集作為語料庫,對word2vec模型進行訓練,在訓練好的word2vec模型中輸入去重后的關鍵詞,表示出關鍵詞的詞向量形式。
聚類指將許多實在或者抽象的對象按自身某些屬性或動作之間的相似情況進行劃分,形成不同類別的集合。本文對關鍵性名詞的詞向量進行AP聚類。AP(Affinity Propagation)聚類算法由Frey[14]等提出,該算法將所有樣本當作潛在的聚類中心看待,定義樣本對每一個其他樣本具有兩個屬性,分別為吸引值(responsibility)和歸屬值(availability)。在聚類過程中,不斷更新樣本對每一個其他樣本的屬性值,直至兩值(吸引值和歸屬值)穩(wěn)定或達到最大迭代次數(shù),兩值相加后得到最大的、相對應的樣本對象作為該樣本的聚類中心。AP聚類無須設置初始聚類數(shù)目,聚類過程依托于樣本之間的相似度,適合多維度的數(shù)據(jù)集。相似度量方法有余弦系數(shù)、曼哈頓距離、負歐式距離等多種,本研究采用負歐氏距離和余弦系數(shù)進行聚類并對結(jié)果進行對比。負歐氏距離公式和余弦系數(shù)公式分別如公式(1)和公式(2)所示。
其中,x與y分別代表兩個樣本,xi與yi分別代表這兩個樣本在i維特征的數(shù)值,m代表詞向量的總維數(shù),dxy和cos(x,y)代表兩個樣本間的相似度。
筆者以距離中值為參考度,阻尼系數(shù)為0.5,對關鍵詞分別進行聚類,得出的部分聚類結(jié)果見表2。
表2 部分聚類結(jié)果樣例
通過對比分析,以負歐氏距離為相似度量的方法表現(xiàn)更優(yōu),更有利于接下來的人工分類。因此,本研究使用負歐氏距離作為聚類的距離計算方式,聚類最終形成439個簇。筆者對含有聚類詞語的原有評論語句進行還原、重現(xiàn),重點參考每個聚類的聚類中心,以簇為單位進行人工區(qū)分,以“飲食”“景色”“教學”“住宿”“其他”進行分類。由三位經(jīng)過培訓的志愿者進行分類,對分類結(jié)果進行一致性檢驗,Cohen's kappa系數(shù)[15]分別為0.826(標準誤差為0.025)、0.843(標準誤差為0.024)、0.97(標準誤差為0.11),P小于0.001,可見上述三人的分類結(jié)果具有較強的一致性,分類效果具有高信度。按分類結(jié)果對各評論進行不同地標號,同時附上學校代號,得到五類評論語句集(見表3)。
表3 五類詞語集和評論語句集樣例
為了解網(wǎng)絡用戶對不同院校的情感傾向,本研究對分類后新的評論語句集進行情感判斷。在情感分析上,朱軍等[16]通過判斷評論是否含情感詞,如果有則利用情感詞典和樸素貝葉斯分類進行情感判斷,沒有則利用支持向量機進行判斷,在酒店評論集上取得了良好效果。陳玉嬋等[17]利用情感詞典和SnowNLP工具相結(jié)合的方法對學生的評教文本進行情感分析,在測試集上取得了不錯的分類效果。近年來,典型的深度學習方法如循環(huán)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡等在文本分類上取得了良好效果,其中預訓練語言模型的方法效果十分出色。BERT模型[18]是Google提供的預訓練語言模型,它利用雙向Transformer網(wǎng)絡結(jié)構來獲取文本語義信息,它具有遷移學習的能力,針對文本分類、實體識別、語言翻譯等不同下游處理任務時,在外接輸出層下利用該預訓練模型進行參數(shù)微調(diào)訓練,就可滿足任務需要。ERNIE模型是BERT的中文改進增強模型,由百度提供,在掩碼語言模型訓練階段上,增加了短語級與實體級掩碼,即將掩碼層次從字提升到了詞。
本研究利用ERNIE預訓練模型外接線性分類器的方式進行情感分類,直接使用已經(jīng)發(fā)布的ERNIE預訓練模型,進行參數(shù)微調(diào)訓練。從SnowNLP工具包中獲取帶有情感標注的訓練集,將它作為ERNIE模型微調(diào)所需的主要訓練語料。同時將許多事實性語句,如學校簡介、景點介紹、食品說明等,標為非消極類別,歸入到訓練集中。
為了考察該情感分類方法是否對本次評論語句集有效、是否能準確識別出消極評論,筆者從評論語句集中隨機抽取200個評論進行人工標注。由于其中消極評論較少,所以從網(wǎng)絡中搜索了90份酒店消極評論和90份教學消極評價進行補充,形成測試集。
SnowNLP的情感分類器是基于貝葉斯模型生成的,來源于Python的第三方庫。筆者將情感詞典和SnowNLP相結(jié)合的情感分類方法作為本次驗證效果的對照組方法,總體流程見圖1,其中SnowNLP分類器以本次訓練集進行過二次訓練。
圖1 基本流程
本研究使用精確率(precision)、召回率(recall)與F1值(F1 measure)進行效果驗證(見表4)。精確率指正確預測某一類別數(shù)目跟全部預測為該類別數(shù)目之間的比,召回率指正確預測某一類別數(shù)目跟實際上是這一類別的全部數(shù)目之間的比,F(xiàn)1值指精確率與召回率的調(diào)和平均數(shù)。需要注意的是,在情感詞典和SnowNLP相結(jié)合的方法中,分詞使用了Jieba工具,停用詞參考了百度資料,情感詞典大部分來自知網(wǎng)中文情感詞典和大連理工大學的中文情感詞匯本體庫[19];在利用ERNIE模型的方法進行訓練時,Learning rate為1e-5,epoch為3。
表4 評估指標得分
可見,在精準率、召回率、F1值這三個指標上,不論是消極類別還是非消極類別,基于ERNIE模型的情感分類方法都能很好地實現(xiàn)分類效果,且效果優(yōu)于通過情感詞典和SnowNLP相結(jié)合的方法。
筆者對以“飲食”“景色”“教學”“住宿”為類別的四種新評論語句集進行情感分類,得出不同類別下不同院校的情感分布(見圖2)。
圖2 不同類別下不同院校的情感分布
由圖2可得:縱向比較上,三所院校在飲食、景色、教學、住宿上均以非消極評價居多;橫向比較上,三所院校在各類別上的消極程度各有差異,但并不明顯。為了探究學校在各類別上產(chǎn)生消極評論的主要原因,本研究對消極評論做來源統(tǒng)計分析,使用公式(3)得出圖3,使用公式(4)得出圖4。
圖3 消極評論來源分布
圖4 消極評論在來源評論中的占比
由圖3、圖4可知,在所有類別評論語句集中,來源于知乎的消極評論占比最高且在來源于知乎的評論中發(fā)現(xiàn)消極評論的可能性最高,因此本次重點分析各類別中來源于知乎的消極評論。這也表明,知乎作為互聯(lián)網(wǎng)問答社區(qū),可以作為學??疾熳陨砉芾硎欠翊嬖诓蛔愕挠行緩?。
考慮到消極評論的真實性和可信度,筆者分別統(tǒng)計知乎各類別消極評論中所反映各個問題的次數(shù)(以所來源的評論用戶為統(tǒng)計單位),并主要統(tǒng)計2019年后的評論內(nèi)容(見表5)。
表5 多類別問題
通過評論細分、情感分類和來源分析可以較好地洞悉網(wǎng)絡用戶對院校各方面的評價及院校管理服務上的遺漏,對學校改善學校服務水平具有極大的現(xiàn)實意義。
為了深入分析三所院校在教學特色方面的差異,尋找出能使社會公眾(特別是學生家長、企業(yè)招聘單位、外部評價機構)了解院校教育優(yōu)勢所在的方法,本研究對非消極的教學評論語句集進行了詞頻分析。
具體地,對三所院校的非消極教學評論語句集以評論用戶為單位進行合并,在對新的評論集進行去除表情符號、學校的名稱與俗稱、數(shù)字、字母與標點符號等處理后,再對其進行分詞、去停用詞和去重,構造出每個評論對應的詞語集合,然后以每個詞語集合所對應的院校進行分類,分別匯集成有關Y、Z、F三所院校的詞語列表,并對詞語進行頻率統(tǒng)計,將每個列表最靠前的五個專業(yè)視為熱門專業(yè)(見表6)。
表6 高頻專業(yè)
由于詞語列表中有關三所院校的相同高頻詞語(如大學、學校、浙江省等)較多,使一些真正有價值的詞語不容易察覺。為了解決這一問題,筆者將Y、Z、F院校所涉及的詞匯視為元素,分別組成Y、Z、F集合,制作韋恩圖(見圖5)。其中,DG、EG、FG區(qū)域分別表示Y集合與Z集合的詞匯交集、Y集合與F集合的詞匯交集、F集合與Z集合的詞匯交集(這里的交集指多個集合中相同的詞語并且該詞語在原有列表中的頻率相除不超過2且不低于0.5),G區(qū)域表示Y、Z、F三者集合的詞匯交集,A、B、C區(qū)域分別表示Y、F、Z集合中除了上述交集詞匯外的特有詞匯。將韋恩圖中的詞匯繼續(xù)繪制成詞云圖(見圖6),詞語頻數(shù)參考原有詞語列表中的頻率,交集區(qū)域中的詞語頻率為該詞語在含有該詞語的多個詞語列表中的頻率平均值。
圖5 集合樣式
圖6 三所院校的集合詞云
由表6及圖6可知,有關這三所院校的非消極教學評價各有側(cè)重點,三所院校在學科特色方面具有較大差異。在涉及Y院校的高頻專業(yè)名稱中,化工、機械、制藥、化學被高頻提及,結(jié)合圖6表明Y院校在工科教學方面的能力較為突出;在涉及Z院校的高頻專業(yè)名稱中,計算機、電子信息、通信工程、自動化這些學科被高頻提及,結(jié)合圖6表明Z院校在信息處理領域的教學能力較為突出,同時會計作為經(jīng)濟管理類專業(yè)也出現(xiàn)在了表格上,表明該專業(yè)受到網(wǎng)絡用戶的重點推薦;在涉及F院校的高頻專業(yè)名稱中,漢語言、英語、體育、數(shù)學被高頻提及,結(jié)合圖6表明F院校在教育相關專業(yè)的教學能力較為突出,受到了評論用戶的普遍認可。同時,計算機專業(yè)均出現(xiàn)在這三所院校的高頻專業(yè)里,說明三者有關計算機的專業(yè)實力得到了網(wǎng)絡用戶的普遍認可。
總體上,該研究結(jié)果有利于學校加強自身管理,達到改善學生體驗的效果,同時,本研究所涉及的評論研究方法有利于外部評價機構更加多方位評價一所院校,給出合適結(jié)論。當然,該研究過程中還存在不足:如在評論拆分上,是通過句間停頓進行句子切分,在極少部分評論中,后句是前句的補充,并且不含名詞,可能會被遺棄而丟失重要的評價信息;在情感分類上,精確率和召回率雖然分值很高,但在消極評論上仍存在誤判,在情感分類的效果上還有較大的提升空間。