仲偉偉 劉麗萍 汪方正
摘要:正值于青少年時期的大學(xué)生很容易受到各種外界因素的影響,導(dǎo)致心理情緒波動較大。特別是進入21世紀(jì)以來的大學(xué)生大多都是獨生子女,通常具有感情色彩豐富、心理較脆弱的特點,如果長期處于一種負面情緒的狀態(tài)則很有可能會引發(fā)一些極端的不良事件,因此維護大學(xué)生的心理健康成為高校教師的重點工作。而傳統(tǒng)的心理測評往往容易受到主觀條件的影響不能準(zhǔn)確和及時地反映當(dāng)前學(xué)生的心理問題,本文結(jié)合當(dāng)前互聯(lián)網(wǎng)大數(shù)據(jù)時代的特征,提出一種利用模糊聚類算法對大學(xué)生在微博等網(wǎng)絡(luò)社交平臺的文本狀態(tài)進行情感分析的方法,旨在能夠及時有效地發(fā)現(xiàn)學(xué)生的心理健康問題避免不良的影響。
關(guān)鍵詞:模糊理論;聚類算法;大數(shù)據(jù);情感分析;人工智能
中圖分類號:G434? ? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)28-0226-03
Abstract: College students who are in adolescence are very susceptible to various external factors, resulting in greater fluctuations in psychological mood. In particular, most of the college students who have entered the new century are only children. They are usually characterized by rich emotions and psychological weakness. If they are in a state of negative emotion for a long time, they are likely to cause some extreme adverse events. Mental health has become a key task for college teachers. However, the traditional psychological assessment is often susceptible to subjective conditions, which can not accurately and timely reflect the current students' psychological problems. This paper combines the characteristics of the current Internet big data era, and proposes a fuzzy clustering algorithm for college students to socialize on Weibo and other networks. The method of emotional analysis of the textual state of the platform aims to be able to timely and effectively discover the mental health problems of students to avoid adverse effects.
Key words: Fuzzy theory; Clustering algorithm; Big data; Sentiment analysis; Artificial intelligence
1 引言
目前我國高校大學(xué)生的心理健康問題正日益成為社會關(guān)注的焦點,當(dāng)代大學(xué)生正處于一個心理素質(zhì)快速成長的青少年階段,他們的思想開放又活躍、同時情感色彩豐富且表達愿望強烈。但是心理上的不成熟通常使他們?nèi)菀资艿酵饨缫蛩氐挠绊懚鴮?dǎo)致情緒失常,例如失戀、考試以及就業(yè)壓力等都會對大學(xué)生造成一定程度的負面影響,如果不能及時做出自我調(diào)整往往會形成抑郁和焦慮等心理健康問題,以至于頻頻出現(xiàn)大學(xué)生自殺新聞,甚至發(fā)生馬加爵事件和復(fù)旦投毒案這樣對社會造成嚴(yán)重影響的惡性案件,因此心理健康教育成為廣大教育工作者的重中之重。
情感是心理學(xué)中的一個重要概念,是人對客觀事物是否滿足自身需要而產(chǎn)生的一種態(tài)度體驗,能夠反映出在某個特定時刻某人的心理狀態(tài)[1]。人類之所以區(qū)別于動物或者機器,很大程度上是因為人類善于表達自身的七情六欲,高興的時候笑逐顏開,傷心的時候郁郁寡歡,生氣的時候又咬牙切齒。而在互聯(lián)網(wǎng)時代,人們更多的會在微博、微信朋友圈或者QQ空間等網(wǎng)絡(luò)社交平臺表達自己的情感,下圖是來自于2018年新浪微博和騰訊微信官方的用戶數(shù)據(jù)報告:
從圖中我們可以看出,隨著互聯(lián)網(wǎng)的日益普及,網(wǎng)絡(luò)社交平臺的用戶數(shù)逐漸增多,截至2018年第四季度新浪微博的活躍用戶數(shù)已經(jīng)達到4.62億,同時在活躍用戶的各年齡段數(shù)量占比中18-22歲以及23-30歲的人數(shù)最多。這在客觀上反映了在校大學(xué)生以及剛畢業(yè)初入社會的職場青椒們更喜歡在社交平臺上分享自己生活中的各種喜怒哀樂,而從整體數(shù)據(jù)上也可以看出他們相對于中年人樸素樂觀的心態(tài)使用更多的是無奈和苦笑的表情。
針對網(wǎng)絡(luò)社交平臺上海量的文本信息,使用傳統(tǒng)的人工識別方法顯然不能實時和有效地掌握大學(xué)生的情感動態(tài)。因此,利用大數(shù)據(jù)的技術(shù)手段從海量文本信息中挖掘出帶有感情色彩的詞語進行智能的情感分析具有重要的研究意義,本文通過數(shù)據(jù)挖掘中經(jīng)典的聚類算法來對大學(xué)生網(wǎng)絡(luò)社交平臺中的文本進行情感分析,提出一種能夠及時有效地發(fā)現(xiàn)學(xué)生心理動態(tài)的技術(shù)方法和預(yù)警機制。
2 基于模糊聚類的情感分析方法
當(dāng)我們在微博或者朋友圈中更新一條狀態(tài)或者發(fā)表一段評論時,通常會通過文本或表情符號等形式表達自己的情感信息,而將文本中的情感詞進行量化并計算出整段文本的情感值就是情感分析的目的。然而中文文本中的情感詞匯很豐富,還包括的大量的否定詞和修飾詞等,具有一定的模糊性和不確定性,難以準(zhǔn)確地計算出整段文本的情感值,因此本文將文本識別技術(shù)與模糊理論思想結(jié)合,計算出每個情感詞隸屬于基本情感種類的隸屬度,關(guān)鍵的步驟如下:
2.1 文本中情感詞和表情符號的提取
首先是網(wǎng)絡(luò)情感詞典的構(gòu)建,其中基礎(chǔ)情感詞主要源自著名的HowNet在2007年發(fā)布的情感分析專用詞語集,該文件中共收錄了17887個中英文情感詞,其中中文部分包括219個“程度級別”詞匯、3116個“負面評價”詞匯、1254個“負面情感”詞匯、3730個“正面評價”詞匯、836個“正面情感”詞匯以及38個“主張”類詞匯;網(wǎng)絡(luò)情感詞典的另一部分則是由心理學(xué)領(lǐng)域的專業(yè)詞匯以及社交平臺中出現(xiàn)頻率較高的網(wǎng)絡(luò)熱詞組成,如“寬心”“中年油膩”“戲精”等等;表情符號則選取了微博和微信中的最常用的基礎(chǔ)表情,包括“哈哈”“鼓掌”等37個正面表情以及“怒火”“傷心”等49個負面表情。
其次是文本中情感詞的提取,先是利用文獻[2]中基于專家系統(tǒng)的中文分詞技術(shù),該技術(shù)采用首字索引的數(shù)據(jù)結(jié)構(gòu)在實驗中精確度達到99%以上,然后將分割的詞匯與網(wǎng)絡(luò)情感詞典進行比對,如果匹配到,則標(biāo)記為情感詞;如果匹配不到,則不參與情感計算。
2.2 情感詞和表情符號的量化處理
網(wǎng)絡(luò)社交平臺的文本內(nèi)容通常比較簡短,且一般是非書面語言,因此存在大量的修飾詞或表情符號,這些詞語對文本情感的判斷很重要,在情感計算中占有很大的比重,例如“今天心情非常好”與“今天心情還算好”的修飾詞不一樣,所表達的心情好的程度也完全不同,另外如果在文本末尾加上一個“苦笑”的表情往往使前面的語句帶有一定的反語性質(zhì)。因此不僅需要對基礎(chǔ)情感詞典中詞語進行量化,還需要對程度副詞、否定詞以及表情符號等進行量化。在計算過程中如果情感詞帶有程度副詞或者否定詞等,則需要乘以相應(yīng)的系數(shù);如果沒有則權(quán)值不變,最后將所有情感詞的權(quán)值相加就可以得到整段文本的情感值。
2.3 模糊聚類分析
客觀世界中的絕大多數(shù)現(xiàn)象都會隨著時間或環(huán)境的改變而產(chǎn)生相應(yīng)的變化,具有一定的不確定性,模糊聚類分析就是利用模糊理論的思想建立一個隸屬度矩陣,從而比較真實的反應(yīng)樣本之間似是而非的隸屬關(guān)系。目前最經(jīng)典的模糊聚類算法是1974年由Dunn[3]提出并由Bezdek[4,5]加以推廣的模糊C-均值(fuzzy C-means,簡稱FCM)算法。
FCM算法的基本思想是用X={x1, x2, …, xn}來表示測試樣本集的n個數(shù)據(jù) ,并假設(shè)這些樣本可以形成c種不同的類簇,通過隨機初始化程序生成這些聚類中心,并用V={v1, v2, …, vc}的形式來表示他們。接著算法開始用歐氏距離計算測試集中的每個樣本對所有初始聚類中心的隸屬度,構(gòu)造出一個隸屬度矩陣,然后利用隸屬函數(shù)不斷地進行迭代計算出新的聚類中心,最后的終止條件是使目標(biāo)函數(shù)的值達到最小。目標(biāo)函數(shù)為:
[F(U,V)=j=1ni=1c(umijxj-vi2)]? ? ? ? ? ? ? ? ? ? ? (1)
其中,m為模糊指數(shù);U={[uij]}是隸屬度矩陣,表示第j個樣本屬于第i個聚類中心的隸屬度,
[uij=1/k=1c(dij/dkj)2/(m-1)](其中dkj[≠]0)? ? ? ? ? ? ? ? ? ? ?(2)
其中[dij=xj-vi]是對象xj到聚類中心vi的歐式距離。約束為:0<[uij]<1且[i=1cuij=1],[i≠j]。聚類中心設(shè)置為:
[vi=j=1nxjuijmj=1nuijm]? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)
模糊C-均值算法具體步驟如下:
(1)設(shè)定聚類數(shù)目c和參數(shù)m,算法終止閾值[ε],迭代次數(shù)t=1,允許最大迭代數(shù)為tmax;
(2)初始化各個聚類中心vi;
(3)用當(dāng)前聚類中心根據(jù)公式2計算隸屬函數(shù);
(4)用當(dāng)前隸屬函數(shù)按公式3更新各類聚類中心;
(5)選取合適的矩陣范數(shù),如果[vt+1-vt≤ε]或[t≥tmax],停止運算;否則t=t+1,返回(3)。
通過以上步驟最終可以計算出每個類的聚類中心以及所有樣本對于每個聚類中心的隸屬度矩陣,通過不斷地迭代優(yōu)化使得樣本點逐漸接近其隸屬度最大的一個類中。
3 在大學(xué)生網(wǎng)絡(luò)社交平臺中的情感分析應(yīng)用
基于模糊聚類的大學(xué)生網(wǎng)絡(luò)情感分析過程如圖4所示。首先,利用谷歌爬蟲軟件從已注冊大學(xué)生的微博等社交平臺獲取原始的文本數(shù)據(jù);其次,對抓取的文本內(nèi)容進行預(yù)處理,獲得文本中的情感詞,并進行量化形成有利于聚類分析的數(shù)值形式;然后,使用模糊聚類算法對待檢測的文本數(shù)據(jù)進行聚類分析,形成若干個不同的情感類簇(如正面情感、負面情感、正面評價、負面評價或是主張等);最后,通過聚類分析得到的結(jié)果,對較多或長時間處于負面情感以及負面評價的網(wǎng)絡(luò)賬號進行預(yù)警,必要時對學(xué)生進行有效的心理或?qū)W習(xí)生活上的幫助。
在聚類分析時還需要先將情感值進行標(biāo)準(zhǔn)化處理,通過公式4使得所有樣本的情感值數(shù)據(jù)分布在[-1,1]的區(qū)間內(nèi),其中Xi為原始數(shù)據(jù),Xmax為樣本絕對值最大的,Xmin為樣本絕對值最小的。如果是正向情感值,則標(biāo)準(zhǔn)化處理后在(0,1]之間;如果是負向情感值,則將樣本數(shù)據(jù)取絕對值后經(jīng)過標(biāo)準(zhǔn)化處理再乘以-1使得情感值在[-1,0)區(qū)間。通常我們根據(jù)實際分類,將文本情感值范圍在[0.3,1]區(qū)間的定義為正面情感類別,而文本情感值范圍在[-1,-0.3]區(qū)間的定義為負面情感類別,另外情感值范圍在(-0.3,0.3)之間的則為中性情感類別。
4 總結(jié)與展望
隨著互聯(lián)網(wǎng)的日益普及,社交網(wǎng)絡(luò)成為各類人群與外界溝通的橋梁,是我們展示生活狀態(tài)或情感交流的重要平臺。面對日益嚴(yán)峻的大學(xué)生心理健康問題,傳統(tǒng)的心理調(diào)查方式很難及時準(zhǔn)確地測出學(xué)生的實時情感狀態(tài),本文采用數(shù)據(jù)挖掘中經(jīng)典的模糊聚類算法對大學(xué)生在網(wǎng)絡(luò)社交平臺的信息進行情感分析,提出一個針對社交平臺的大學(xué)生心理情感分析方法和預(yù)警機制,從而充分發(fā)揮大數(shù)據(jù)的技術(shù)優(yōu)勢保障大學(xué)生的心理健康。
然而在進行大規(guī)模數(shù)據(jù)的聚類計算時,模糊聚類算法的迭代次數(shù)較多,計算量很大會嚴(yán)重影響系統(tǒng)的分析性能[6]。因此我們還需要研究基于云平臺的MapReduce框架將本文算法做進一步的分布式改造[7,8],充分利用云平臺的海量數(shù)據(jù)計算能力,提高整體系統(tǒng)的實時數(shù)據(jù)處理能力。
參考文獻:
[1] 韓雪.論大學(xué)生職業(yè)生涯規(guī)劃中心理健康教育的運用[J].科技咨訊,2018,16(20):220-221.
[2] 朱世猛.中文分詞算法的研究與實現(xiàn)[D].電子科技大學(xué),2011.
[3] J.C.Dunn.Agraph theoretic analysis of pattern classification via Tatnuras fuzzy relation. IEEE Trans.SMC,1974,4(3):310-313.
[4] J.C.Bezdek.A convergence theorem for the fuzzy ISODATA clustering algorithm.IEEE? Traps.PAMI,1980,1(2):335-340.
[5] 李潔,高新波,焦李成. 基于特征加權(quán)的模糊聚類新算法[J].電子學(xué)報.2006,34(1):89-92.
[6] 余曉東,雷英杰,岳韶華,等.基于粒子群優(yōu)化的直覺模糊核聚類算法研究[J].通信學(xué)報,2015,36(5):74-80.
[7] 張曉麗,楊家海,孫曉晴,等.分布式云的研究進展綜述[J].軟件學(xué)報,2018,29(07):2116-2132.
[8] 王志剛,蒲文彬,滕鵬國.云計算下數(shù)據(jù)安全存儲技術(shù)研究[J].通信技術(shù),2019,52(02):
471-475.
【通聯(lián)編輯:王力】