劉德喜,邱家洪,萬常選,劉喜平,鐘敏娟,郭海峰,鄧 松
(1. 江西財經(jīng)大學 信息管理學院,江西 南昌 330013;2. 江西財經(jīng)大學 江西省高校數(shù)據(jù)與知識工程重點實驗室,江西 南昌 330013;3. 江西財經(jīng)大學 學生工作處,江西 南昌 330013;4. 江西財經(jīng)大學 軟件與通信工程學院,江西 南昌 330013)
世界健康組織(WHO)在2012年的研究表明,全世界約有3.5億人患有抑郁癥,嚴重的抑郁可以導致自殺[1]。由于缺少心理健康知識以及心理疾病顯著區(qū)別于身體疾病的無疼痛感,導致許多人身患抑郁而不知或是由于抑郁羞恥感而不敢主動尋找專業(yè)人士幫助。心理學上通過抑郁自評量表檢測的方法屬于侵入型檢測方法,在適時性和自評頻率方面存在不足,導致不能及時檢測出抑郁癥患者,延誤治療。隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,Twitter、微博、微信等社交媒體已經(jīng)成為人們互相交流必不可少的工具,形成與物理空間相對等的網(wǎng)絡(luò)社區(qū),用戶網(wǎng)絡(luò)行為信息也記錄在社交網(wǎng)絡(luò)中,為檢測用戶抑郁癥等心理健康疾病提供了一種新的途徑。
目前,已有較多利用用戶在社交網(wǎng)絡(luò)上的行為和發(fā)布的文本進行用戶心理健康分析的相關(guān)研究工作,所選取的社交網(wǎng)絡(luò)平臺大都是Twitter、微博、人人網(wǎng)等公開社交網(wǎng)絡(luò)。公開社交網(wǎng)絡(luò)支持單向關(guān)注的特點使得用戶隱私權(quán)無法得到有效的保障。因此,用戶在公開社交網(wǎng)絡(luò)上更傾向于表達話題性觀點,大部分用戶僅僅是在熱點話題上表現(xiàn)活躍。
與公開社交網(wǎng)絡(luò)相比,QQ、微信等社交網(wǎng)絡(luò)因為朋友圈的劃分和有限的用戶訪問權(quán)限設(shè)置等,更能保障用戶隱私不被泄露,私密性更強,更加受到用戶的青睞。本文稱這種信息只在好友圈可見的社交網(wǎng)絡(luò)為準私密社交網(wǎng)絡(luò),準私密社交網(wǎng)絡(luò)越來越成為人們?nèi)粘I畈豢煞指畹囊徊糠帧V庇^上,相比公開社交網(wǎng)絡(luò)數(shù)據(jù),準私密社交網(wǎng)絡(luò)數(shù)據(jù)能夠更有效地反映出用戶的生活狀態(tài)與心理狀態(tài),更能反映用戶的抑郁等心理健康問題。
已有的研究工作大部分是基于公開社交網(wǎng)絡(luò)的,鮮有文獻分析準私密社交網(wǎng)絡(luò)數(shù)據(jù)是否可用于分析用戶的抑郁傾向,以及如何利用這些數(shù)據(jù)分析用戶的抑郁傾向。本文從訓練樣本選擇、特征量化方法、分類模型的選擇、文本內(nèi)容特征四個角度考察利用準私密社交網(wǎng)絡(luò)文本檢測抑郁用戶的可行性,并與基于公開社交網(wǎng)絡(luò)數(shù)據(jù)進行抑郁檢測的相關(guān)文獻進行比較。論文的結(jié)構(gòu)安排如下: 首先介紹研究背景,然后介紹利用社交網(wǎng)絡(luò)數(shù)據(jù)分析用戶心理健康的研究現(xiàn)狀,接下來介紹數(shù)據(jù)采集與預處理、候選特征抽取與量化、訓練樣本選擇、相關(guān)性分析、檢測模型選擇,并通過實驗考察樣本選擇、特征量化方法對抑郁用戶檢測模型的影響,分析不同的文本特征在檢測模型上的表現(xiàn),最后對全文進行總結(jié)。
利用社交網(wǎng)絡(luò)數(shù)據(jù)分析用戶心理健康狀態(tài)具有實時性、高效性、無侵入性等特點,對心理健康狀況欠佳人員的及時檢測、輔導和診療具有重要意義,得到心理學領(lǐng)域和計算機科學領(lǐng)域研究者的關(guān)注。已有的研究工作通常把利用社交網(wǎng)絡(luò)數(shù)據(jù)分析用戶心理健康狀態(tài)視為一個分類問題,通過樣本訓練分類模型,將社交網(wǎng)絡(luò)用戶的自殺傾向、抑郁等心理健康問題分類為“有”“無”兩大類。下面主要從社交網(wǎng)絡(luò)數(shù)據(jù)與抑郁的相關(guān)性分析、數(shù)據(jù)源選擇、特征選擇和量化、訓練樣本選擇、分類模型五個方面對研究現(xiàn)狀進行描述。
大量研究發(fā)現(xiàn)可以通過社交網(wǎng)絡(luò)活動記錄對用戶的抑郁狀態(tài)進行檢測[1-19],嚴重的抑郁癥患者在社交網(wǎng)絡(luò)上的行為與正常人存在顯著的差異[1]。Choudhury等[3]通過研究Amazon用戶的語言風格和網(wǎng)絡(luò)行為,發(fā)現(xiàn)抑郁用戶社會活動少,消極情感更為嚴重,對人際關(guān)系和藥物的使用更為擔心,同時更注重宗教思想的表達。Park等[5]發(fā)現(xiàn)抑郁用戶使用消極情感詞和憤怒詞明顯較正常用戶多,用戶在社交網(wǎng)絡(luò)上不僅表達抑郁情感也會發(fā)布一些非常隱私的信息。
數(shù)據(jù)源方面,大多數(shù)相關(guān)研究使用了當前比較流行的社交網(wǎng)絡(luò)平臺,如Twitter[2-5,13-15]、Facebook[9-11,19]、論壇[16-17]、新浪微博[1,6-7,18]、人人網(wǎng)[20]等。也有利用用戶的其他上網(wǎng)痕跡,如網(wǎng)關(guān)記錄的網(wǎng)頁瀏覽、搜索行為等[21]。而Hiraga[22]使用了來自Yahoo Japan、Livedoor等多個blog平臺的數(shù)據(jù)。
特征選擇方面,被采用較多的特征主要包括語言特征、行為特征、屬性特征、社交關(guān)系特征等。語言特征是指用戶的社交網(wǎng)絡(luò)用語表現(xiàn)出來的特征,主要有情感詞、人稱代詞、表情符號的使用等[1,5-7,10,16-18]。行為特征主要有點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、原創(chuàng)帖子數(shù)等[8],研究者認為不同心理健康狀態(tài)的用戶網(wǎng)絡(luò)行為表現(xiàn)不同。屬性特征是指社交網(wǎng)絡(luò)用戶的屬性,主要包括年齡、性別、職業(yè)等[2,8,11-12]。社交關(guān)系特征是社交網(wǎng)絡(luò)中錯綜復雜的社交關(guān)系的表現(xiàn),主要有好友個數(shù)、互動頻數(shù)、親密度等[7]。由于LIWC詞典(Linguistic Inquiry and Word Count)[注]http: //liwc.wpengine.com/.是從心理學的角度描繪用戶的用詞特點,因此經(jīng)常被用作心理健康分析的語言特征[5,16-18,23]。除以上幾類特征外,也有文獻直接利用文本中的n-gram、詞性(POS)等信息[22]。
相對其他用戶,社交網(wǎng)絡(luò)上的抑郁用戶數(shù)量非常少,因此采集的樣本通常是極度不平衡的,大量的研究工作采用高底分組的方法構(gòu)建平衡訓練樣本。文獻[6]采用隨機抽取的方式,而文獻[24]則采用高低分組的方式,分別抽取了自殺風險最高的和最低的80%的用戶構(gòu)成自殺用戶數(shù)據(jù)集。為了在訓練樣本中反映抑郁用戶和正常用戶的真實分布,文獻[21]采用非平衡采樣的方式,其中449個抑郁用戶、279個正常用戶。
分類模型的選擇方面,線性回歸[2,22]、多任務(wù)線性回歸[18]、SVM[4,22]、樸素貝葉斯[21]、貝葉斯網(wǎng)絡(luò)[6,22]、神經(jīng)網(wǎng)絡(luò)[18,21]、決策樹[6,21]、規(guī)則決策表[6]等常用的分類模型大都被使用或比較過。
利用準私密社交網(wǎng)絡(luò)文本數(shù)據(jù)進行抑郁用戶檢測的可行性分析,主要包含六個階段: 數(shù)據(jù)采集與預處理,候選特征抽取與量化,訓練樣本選擇,相關(guān)性分析,檢測模型選擇,檢測效果評估與分析。本節(jié)僅介紹前五個階段,最后一階段在下一節(jié)介紹。
2.1.1 數(shù)據(jù)采集
通過用戶填寫抑郁自評問卷得到用戶抑郁狀況,即標簽;同時,收集用戶的QQ和微信賬號并獲取數(shù)據(jù)使用授權(quán),采集得到用戶準私密社交網(wǎng)絡(luò)數(shù)據(jù)。本研究邀請了江西財經(jīng)大學6 378位大一新生于2016年10月參與研究,所有參與者完成抑郁測評問卷,同時簽署數(shù)據(jù)保密協(xié)議,獲取參與者QQ空間和微信朋友圈數(shù)據(jù)(問卷截止日期前一年內(nèi)的數(shù)據(jù))。為了保證數(shù)據(jù)質(zhì)量,采取了一系列措施,包括: 采用CES-D[注]流行學研究中心抑郁量表的縮寫.和BDI[注]貝克抑郁量表的縮寫.雙量表形式設(shè)計問卷,舍棄兩個量表分值相差過大的用戶;去除問卷得分為零分或滿分的特殊用戶以及問卷完成時間少于4min的用戶;去除無法采集到QQ空間及微信朋友圈數(shù)據(jù)的用戶。
CES-D和BDI是心理學上常用于測量抑郁癥的抑郁量表,從多個維度綜合考查了用戶的抑郁狀態(tài),同時也是典型的4點李克特度量量表(每道題有四個選項,得分為0~3,對應(yīng)抑郁程度由無到嚴重)。CES-D量表有20道題,得分區(qū)間在[0,60],分值分布區(qū)間為: “<=10分”為無抑郁,“11~20分”為可能有抑郁,“21~60分”為肯定有抑郁[25];BDI量表有21道題,得分區(qū)間在[0,63],“<=15分”為無抑郁,“16~35分”為輕度抑郁或中度抑郁,“36~63分”為重度抑郁[26]。合并兩個量表的分值分布區(qū)間得到問卷分值分布區(qū)間[0,123],本文設(shè)置正常用戶得分區(qū)間為[1,25],輕度抑郁用戶得分區(qū)間為[26,55],重度抑郁用戶得分區(qū)間為[56,123]。
經(jīng)過以上篩選,獲取了1 522個有QQ空間數(shù)據(jù)的有效用戶,710個有微信朋友圈數(shù)據(jù)的有效用戶,這些用戶心理健康狀況分布如表1所示。本文獲取的準私密社交網(wǎng)絡(luò)數(shù)據(jù)與文獻[21]有較大的不同,數(shù)據(jù)不平衡問題更嚴重。在QQ空間用戶中,抑郁自評量表反映出正常用戶占60.5%,輕度抑郁用戶占36.7%,重度抑郁用戶占2.8%;而微信用戶中,正常用戶占36.8%,輕度抑郁用戶占61.3%,重度抑郁用戶占1.9%。導致這種分布差異的可能原因有兩個: 一是不同抑郁狀態(tài)的用戶在QQ空間和微信朋友圈的使用上有差異;二是由于部分用戶(特別是有重度抑郁傾向的用戶)的QQ空間設(shè)置了密碼無法抓取,導致樣本分布的改變。
對微信朋友圈和QQ空間中用戶發(fā)布的帖子數(shù)的統(tǒng)計顯示,大部分用戶發(fā)布帖子數(shù)量都在50條以下(截止填寫自評量表前一年內(nèi))。
2.1.2 數(shù)據(jù)預處理
數(shù)據(jù)預處理主要包括去除和轉(zhuǎn)換兩個操作。去除內(nèi)容包括: (1)轉(zhuǎn)義字符,例如,以“ ”和“ ”的形式出現(xiàn)的空格和換行符;(2)偏僻字符,例如,“卐、※、ぷ”等;(3)英文文本,本研究只針對中文文本。
轉(zhuǎn)換操作: (1)將表情符轉(zhuǎn)換為
數(shù)據(jù)預處理還包括分詞,本文選用的分詞工具是NLPIR漢語分詞系統(tǒng)[注]http://ictclas.nlpir.org/.,它針對微博等數(shù)據(jù)有優(yōu)化、有新詞識別能力,比較適合微博、微信、QQ空間上的文本。
當前研究對特征的選取主要有兩種方法: 一是借助心理學家對抑郁用戶社交文本、網(wǎng)絡(luò)行為、用戶屬性的統(tǒng)計和分析,歸納出抑郁用戶的特征[6,10];二是通過統(tǒng)計用詞或行為的頻率,根據(jù)相關(guān)性分析,得出抑郁用戶與正常用戶在用詞或行為上的不同[2]。本文使用了如下候選特征。
(1) 行為特征。行為特征是用戶在社交網(wǎng)絡(luò)上所表現(xiàn)出的行為,包括用戶發(fā)布帖子、用戶之間的互動等,本文考察的網(wǎng)絡(luò)行為特征主要有: 轉(zhuǎn)載帖子數(shù)、原創(chuàng)帖子數(shù)、點贊數(shù)、用戶在凌晨0點到6點之間發(fā)布的帖子數(shù)、@符號數(shù)、帖子評論數(shù)等。
(2) 語言特征。本文考察的語言特征主要來自LIWC,包括表情符號、第一人稱單復數(shù)等71個詞類。LIWC中的每個詞類被視為一個特征,特征值為樣本中包含該類詞的帖子數(shù)量。
(3) 文本內(nèi)容特征: 利用用戶在準私密社交網(wǎng)絡(luò)上發(fā)布的文本來檢測其是否有抑郁傾向的問題,可以視為文本分類的問題,因此用于文本分類的特征可以被借鑒。本文在實驗中考察了以下特征:
BagofWords(BOW,或1-gram): 以用戶發(fā)布的文本中全部的詞為特征,以詞的TFIDF值為權(quán)重。
主題(Topics): 對數(shù)據(jù)集進行主題分析,以用戶發(fā)布的文本的主題分布為特征。本文利用Gensim工具[注]http://radimrehurek.com/gensim/.中的LDA模型進行主題分析。
詞向量(Word2vect): 將用戶發(fā)布的文本中的詞轉(zhuǎn)換為詞向量,并將文本中全部詞的詞向量平均值作為特征。本文利用Gensim工具,在維基百科數(shù)據(jù)上進行訓練,詞向量的維度設(shè)置為400。
對行為特征和語言特征采用了三種量化方式,以探討不同的量化方式對檢測效果的影響。根據(jù)相關(guān)工作中的研究結(jié)果,抑郁用戶和正常用戶在社交網(wǎng)絡(luò)上的行為和詞匯的使用上是有區(qū)別的,這種區(qū)別可以通過行為或詞匯的使用頻次、頻率的差異來度量。
頻次(TF,TermFrequency)。對語言特征,統(tǒng)計某用戶發(fā)布的全部帖子中包含第j類特征詞的帖子總條數(shù)。例如,對于第一人稱單數(shù),統(tǒng)計包含第一人稱單數(shù)的帖子總條數(shù)。對行為特征,統(tǒng)計用戶帖子中包含或具有該行為特征的帖子總條數(shù),例如,統(tǒng)計點贊數(shù)不為0(被點贊過)的帖子的總條數(shù),如式(1)所示。
(1)
式(1)中,di是用戶發(fā)布的第i條帖子,wj是第j類特征詞,n是該用戶發(fā)布的帖子總數(shù)量。
歸一化頻率(NTF,NormalizedTF): 把某用戶第j類特征發(fā)生的頻次轉(zhuǎn)換為頻率,即映射到[0,1]之間,如式(2)所示。
式(2)中,TFj是某用戶發(fā)布的包含第j類特征的帖子數(shù)量(頻次),n是該用戶發(fā)布的貼子總數(shù)。
Z-Score標準化頻率(ZTF,Z-ScorenormalizedTF): 對全部用戶某一特征的歸一化頻率進行Z分值標準化,Z分值標準化如式(3)所示。
式(3)中,NTFj是式(2)所計算的歸一化頻率,μ和σ是NTFj在全部用戶上的平均值和標準差。
相對正常用戶,社交網(wǎng)絡(luò)上的抑郁用戶數(shù)量非常少,因此采集的樣本通常是極度不平衡的,如表1所示。大量的研究工作采用隨機選擇或利用高底分組的方法構(gòu)建平衡訓練樣本。本文對是否需要構(gòu)建以及如何構(gòu)建平衡樣本進行探討。
在數(shù)據(jù)采集階段,用戶被分成了三組: 正常組,輕度抑郁組,重度抑郁組。實驗階段采用三種不同的樣本選擇方式來構(gòu)建數(shù)據(jù)集。
(1) 非平衡高低分組樣本(UHLSG,unbalance high/low scores grouping): 選取表1中所有的正常用戶組和所有的重度抑郁用戶組的數(shù)據(jù),構(gòu)成數(shù)據(jù)集。
(2) 平衡高低分組樣本(BHLSG,balance high/low scores grouping): 由于重度抑郁用戶數(shù)量與正常用戶數(shù)量差異巨大,因此,為構(gòu)建平衡樣本,根據(jù)抑郁問卷得分由低到高(分值越高,抑郁越嚴重)選取表1中與重度抑郁用戶組人數(shù)相同的正常用戶,與重度抑郁用戶組一起構(gòu)成數(shù)據(jù)集。
(3)離散化高低分組樣本(DHLSG,discretized high/low scores grouping): 參照文獻[20]對用戶抑郁問卷得分由低到高進行排序,通過式(4)對用戶進行離散化:
其中,E(x)代表所有用戶抑郁問卷自評得分的平均值,σ(x)代表所有用戶問卷得分的標準差。將抑郁問卷分值的區(qū)間[1,123]劃分為三段,分值介于[1,α]的用戶為低分組用戶,分值介于[β,123]的用戶為高分組用戶,數(shù)據(jù)集由低分組用戶與高分組用戶構(gòu)成。式(4)的實質(zhì)是找分值有顯著差異的樣本。
本文對QQ空間數(shù)據(jù)集(簡稱QD)和微信朋友圈數(shù)據(jù)集(簡稱WD)都進行了如上三種樣本選擇,得到的樣本數(shù)量如表2所示。其中,低分組或正常組用戶被貼上normal或“+”標簽,高分組或嚴重抑郁組用戶被貼上depressed或“-”標簽。微信數(shù)據(jù)集因重度抑郁人數(shù)只有14人,樣本太少,實驗中放棄使用相應(yīng)的平衡高低分組的樣本采樣方法。
由于文本內(nèi)容特征中的主題特征Topics和詞向量特征Word2Vect是基于數(shù)據(jù)集分析的結(jié)果,不依賴于某個具體的詞或詞類,因此,相關(guān)性分析只在行為特征和語言特征兩類上開展。在QQ空間和微信朋友圈數(shù)據(jù)集上各得到78個語言和行為特征,但是并不是所有的特征都是與抑郁相關(guān)的。因此,本文通過分析各特征值與抑郁自評量表得分之間的相關(guān)性,選擇相關(guān)性較高且顯著的特征用于分類模型中。本文假設(shè)所有特征的取值服從正態(tài)分布,采用皮爾遜相關(guān)系數(shù)分析特征值與用戶抑郁自評量表得分之間的相關(guān)性。
2.2節(jié)中介紹了對QQ空間數(shù)據(jù)集和微信朋友圈數(shù)據(jù)集上的候選特征的三種特征量化方法,本文在三種不同的候選特征量化方法上分別進行相關(guān)性分析和顯著性分析。相關(guān)性分析結(jié)果顯示,選擇頻次TF量化方法時,兩個數(shù)據(jù)集上的各候選特征與抑郁自評量表得分的相關(guān)性都小于0.1,且相關(guān)性不顯著(顯著水平均遠大于0.05)。因此,本文后續(xù)實驗只考慮除頻次TF量化方法以外的其他兩種候選特征量化方法。本文選取顯著水平小于0.05的特征,即該特征有95%以上的可能性與用戶的抑郁自評量表得分是相關(guān)的。由于篩選后的特征主要為來自LIWC的語言特征,因此統(tǒng)稱它們?yōu)長IWC特征。
表3是在QQ空間數(shù)據(jù)集QD_BHLSG上通過相關(guān)性分析篩選得到的特征,特征量化方法為Z-Score方法。包括微信朋友圈數(shù)據(jù)集在內(nèi)的不同數(shù)據(jù)集、不同特征量化方法上的特征選擇過程類似,選擇結(jié)果不再贅述。
表3 QD_BHLSG數(shù)據(jù)集上特征選擇結(jié)果(Z-Score量化)
續(xù)表
在檢測模型上,選擇了相關(guān)工作中分類效果較好的模型,同時也對比了其他具有代表性的分類模型,包括Na?ve Bayes、LibSVM、SMO、Voted Perceptron、SGD(Stochastic Gradient Descent),其中Na?ve Bayes、LibSVM、SMO、Voted Perceptron模型來自Weka,SGD (Stochastic Gradient Descent)模型來自Python scikit-learn,模型參數(shù)基于網(wǎng)格搜索法進行設(shè)置。
在QQ空間數(shù)據(jù)和微信朋友圈數(shù)據(jù)上均進行了同樣的實驗,限于篇幅,重點對QQ空間數(shù)據(jù)集上的實驗結(jié)果進行分析,同時也對微信數(shù)據(jù)集上的一些有趣的結(jié)果進行說明。
選用的評價指標有精確率P、召回率R、F1值,評測得分為十折交叉驗證的結(jié)果。實驗結(jié)果中,P-、R-和F-分別表示對抑郁用戶分類的精確率、召回率和F1值;P+、R+和F+分別表示對正常用戶分類的精確率、召回率和F1值。P±、R±和F±表示相應(yīng)指標在兩類用戶上的加權(quán)平均,如式(5)所示。
式(5)中,X表示P、R或F,Per+和Per-表示正常用戶和抑郁用戶的比例。
Z-Score標準化是文獻中通常采用的一種特征量化方法[21],也是在本文的實驗中表現(xiàn)較好的特征量化方法,因此,在考察樣本選擇對抑郁用戶檢測的影響時,采用Z-Score標準化方法(ZTF)對特征進行量化,分類器用到的特征為LIWC特征。表4是不同的樣本選擇方法在分類器為LibSVM、VotedPerceptron、NaiveBayes、SMO和SGD上的表現(xiàn)。
表4中的實驗結(jié)果顯示: 總體上,非平衡高低分組樣本QD_UHLSG效果最差,平衡高低分組樣本QD_BHLSG比離散化高低分組樣本QD_DHLSG效果要好。在非平衡高低分組樣本QD_UHLSG上,P±、R±、F±均達到了0.9以上,然而P-、R-、F-卻非常小,表明在QD_UHLSG數(shù)據(jù)集上構(gòu)建的模型無法識別抑郁用戶,將幾乎全部的抑郁用戶都識別成了正常用戶,原因是QD_UHLSG是一個極度不均衡的數(shù)據(jù)集,正常用戶921個,抑郁用戶42個,而本文所選擇的模型沒有處理樣本的不均衡問題。
表4 樣本選擇對抑郁用戶檢測的影響(特征: LIWC;特征量化方法: ZTF)
在平衡高低分組數(shù)據(jù)集QD_BHLSG上,大部分模型的評測分值均大于其在離散化高低分組數(shù)據(jù)集QD_DHLSG上的分值(Naive Bayes分類器上的R-稍小),表明平衡高低分組樣本選擇效果比離散化高低分組樣本選擇效果要好。對比QD_BHLSG數(shù)據(jù)集和DQ_DHLSG數(shù)據(jù)集上的實驗結(jié)果,如果僅從高低分組數(shù)據(jù)集的角度考慮,使用抑郁自評得分越極端的用戶,所訓練出的模型評測結(jié)果越優(yōu)良。原因是,相對QD_DHLSG數(shù)據(jù)集(正負樣本各213個),QD_BHLSG數(shù)據(jù)集上樣本更少,正負樣本各42個,分值分布更極端,用戶更集中,抑郁特征更突出、更顯著,而離散化高低分組樣本的高分組中同時包含嚴重抑郁用戶和輕度抑郁用戶。
使用歸一化的特征量化方法NTF時,得到的實驗結(jié)論與ZTF上的結(jié)論是一致的。
表5顯示了在QD_BHLSG數(shù)據(jù)集上,選擇不同的特征量化方法對抑郁用戶檢測的影響??梢钥闯?,使用Z-Score標準化頻率ZTF對特征進行量化比使用歸一化頻率NTF效果好。使用ZTF特征量化方法時,P±、R±、R-、F±和F-在所有分類模型上均大于或等于NTF方法,特別是LibSVM和VotedPerceptron兩個分類模型在R-上表現(xiàn)明顯。一個可能的原因是,由于QD_BHLSG數(shù)據(jù)集樣本數(shù)量有限,該數(shù)據(jù)集上的特征值波動較大,且特征值的分布與其實際分布有較大差異,ZTF量化方法降低了這種波動,而NTF卻沒有。
表5 特征量化方法對抑郁用戶檢測的影響(特征: LIWC;數(shù)據(jù)集: QD_BHLSG)
表4和表5列出了五種分類模型在不同數(shù)據(jù)集和不同特征量化時的表現(xiàn)。總體上看,SGD分類器的性能表現(xiàn)更突出,其在QD_BHLSG數(shù)據(jù)集和ZTF特征量化時表現(xiàn)達到最佳,F(xiàn)±和F-的值分別為0.638和0.681。但表4和表5同時也顯示,在不同的數(shù)據(jù)集上、采用不同的特征量化方法時,不同的分類模型的表現(xiàn)并不完全一致,例如,在QD_DHLSG數(shù)據(jù)集上使用ZTF特征量化時,LibSVM較其他模型要好(表4)。
以上實驗所使用的特征主要是語言學特征,即LIWC特征。本節(jié)討論其他文本特征,包括BOW、Topics、Word2Vect。根據(jù)3.3節(jié)可知,在QQ空間數(shù)據(jù)集上,使用平衡高低分組的樣本選擇方法、Z-score標準化的特征量化方法,以及SGD分類模型,得到的檢測效果較好,因此本節(jié)的實驗延用這些方法。Z-score標準化還可以應(yīng)對不同類型特征取值范圍的差異給檢測模型帶來的挑戰(zhàn)。
表6是在QD_BHLSG數(shù)據(jù)集上,SGD分類器在LIWC、BOW、Topics、Word2Vect上的檢測效果。其中Topics特征上,主題數(shù)設(shè)置為25,主題數(shù)對檢測效果的影響如圖1所示。
圖1 主題數(shù)對檢測模型的影響
實驗結(jié)果表明,相對于BOW和Word2Vect,LIWC特征的效果較好。原因有兩個方面,一是LIWC詞典本身是從心理學的角度對文本內(nèi)容進行統(tǒng)計分析,二是2.4節(jié)中通過相關(guān)性分析保留了與抑郁自評結(jié)果相關(guān)性較高的詞類,減少了潛在的噪聲干擾。在LIWC、BOW和Word2Vect這三類特征中,詞袋特征BOW表現(xiàn)最差,這與其在其他文本分類問題中的表現(xiàn)類似。
相對于LIWC、BOW和Word2Vect,主題特征Topics的表現(xiàn)更佳,其F值達到0.753,而對抑郁用戶的檢測精確率P-達到0.813。主題特征考慮了上下文之間的語義關(guān)聯(lián),從更深層次挖掘出了文本之間的語義關(guān)聯(lián)性,取得較好的效果。然而圖1也讓我們也看到,主題個數(shù)的選擇對于檢測模型有較大的影響。
比較意外的是,當在主題特征Topics的基礎(chǔ)上增加其他特征時,檢測的效果反而下降。但從另一個角度看,在LIWC、BOW和Word2Vect這三類特征的基礎(chǔ)上,增加主題特征Topics后,檢測效果都有顯著提高,這也證明了主題特征在抑郁用戶檢測中的重要作用。
表6 SGD分類器在文本內(nèi)容特征上的效果(數(shù)據(jù)集: QD_BHLSG;特征量化方法: ZTF)
為進一步分析在準私密社交網(wǎng)絡(luò)數(shù)據(jù)上進行抑郁用戶檢測的可行性,本節(jié)介紹相關(guān)文獻中利用Twitter、微博、Blog、網(wǎng)關(guān)日志等數(shù)據(jù)檢測抑郁用戶的效果。
文獻[3]以476個用戶的Twitter數(shù)據(jù)作為數(shù)據(jù)集,其中抑郁用戶171個,正常用戶305個,定義了六種抑郁行為衡量方法,包括engagement、ego-network、emotion、linguistic style、depression language、demographics,通過相關(guān)性分析篩選得到與抑郁最相關(guān)的特征,選擇SVM為檢測模型,得到的最好結(jié)果中,精確率和召回率分別為0.742和0.629,顯著低于本文的0.753和0.738。
文獻[6]以中文新浪微博數(shù)據(jù)為數(shù)據(jù)源,在行為特征、交互特征和語言特征的基礎(chǔ)上,引入微博的情感特征,并借助心理學家對數(shù)據(jù)的觀察分析結(jié)果,利用Bayes、Trees、Rules等幾類模型進行抑郁用戶檢測,在抑郁和正常用戶各90個的數(shù)據(jù)集上,F(xiàn)值的最好效果為0.85。文獻[7]是在文獻[6]的基礎(chǔ)上,考慮社會關(guān)系(鏈接)特征后,檢測正確率達到0.95。進一步分析發(fā)現(xiàn),文獻[6]和文獻[7]取得較好效果主要有以下兩個原因。首先,在數(shù)據(jù)集的采集上,除采用用戶自評量表外,還配合訪談的方式進一步確認用戶的抑郁傾向,較本文只采用自評量表的方式,采集的數(shù)據(jù)集質(zhì)量更高,抑郁用戶和正常用戶之間的劃分更清晰,從而使得特征對數(shù)據(jù)的區(qū)分更強。例如,文獻[6]中微博數(shù)量特征和情感符數(shù)量特征與抑郁自評分值的相關(guān)顯著水平達0.002和0.003,遠低于本文表3中的最低值0.018。其次,使用了情感、社會關(guān)系等更豐富的特征,并且通過心理學家輔助特征的篩選。
文獻[21]以用戶的網(wǎng)關(guān)日志為數(shù)據(jù)源,把728個用戶分為449個抑郁用戶和279個正常用戶,組成訓練集,通過聚類和離散傅里葉變換分別得到了聚類特征和頻率特征,對抑郁用戶檢測的精確率和召回率最高分別為0.756和0.623,相應(yīng)的F值為0.683,低于本文的F最高值0.703。
文獻[22]針對包括49個抑郁用戶和59個正常用戶的日語博客數(shù)據(jù),利用character n-grams、token n-grams、lemmas(詞的原形)、詞性等特征,通過特征篩選后,用Na?ve Bayes、SVM、Logistic回歸等模型分類,得到最優(yōu)結(jié)果的準確率達0.95,而最優(yōu)結(jié)果所采用的特征僅為來自動詞和副詞兩種詞性且詞干化后的2007個詞,分類模型為Na?ve Bayes。文獻[22]分類效果較好,也與其數(shù)據(jù)集構(gòu)建有密切關(guān)系,其中抑郁用戶和正常用戶的識別主要依據(jù)用戶在博客中是否用了“depression(抑郁”一詞并透露了他們是抑郁患者。盡管與“depression”主題相關(guān)的博客都在后來的實驗中被棄用,但與之相關(guān)的詞匯仍然會給分類器提供較好的指示。該數(shù)據(jù)集的不足在于它沒有包含那些沒在博客中用“depression”一詞透露其是抑郁患者的用戶,而這部分用戶相對更難識別,并且檢測出那些潛在的、未被確診的抑郁患者較確診的抑郁患者有更重要的意義。
與上述文獻相比,本文的優(yōu)勢在于: (1)對抑郁用戶和非抑郁用戶檢測的平均F值達到0.734,而對抑郁用戶的檢測精確率P-達到0.813,優(yōu)于文獻[3]和文獻[21];(2)不需要心理學家參與構(gòu)建數(shù)據(jù)集和特征選擇,僅使用社會網(wǎng)絡(luò)用戶的自評量表,對數(shù)據(jù)質(zhì)量的要求較文獻[6-7]和文獻[22]更低;(3)數(shù)據(jù)含蓋未確診的潛在抑郁用戶,較文獻[22]更接近真實數(shù)據(jù)。
從特征量化、訓練樣本選擇、模型選擇、文本內(nèi)容特征四個角度考察了利用QQ空間這種準私密社交網(wǎng)絡(luò)數(shù)據(jù)進行抑郁用戶檢測的可行性。對比了常用的特征量化方式: 頻次、歸一化頻率、Z-Score標準化;對比了常用的訓練樣本選擇方式: 平衡高低分組方法、非平衡高低分組方法、離散化高低分組方法;對比了LibSVM、Voted Perceptron、Na?ve Bayes、SGD等分類模型。實驗發(fā)現(xiàn): Z-Score標準化比其他兩種特征量化方法要好;平衡高低分組方法較其他樣本選擇方法要好;檢測模型則比較依賴于數(shù)據(jù)集、樣本選擇、特征及其量化方法。
實驗還分析了在平衡樣本上,不同的文本內(nèi)容特征對抑郁用戶檢測的影響。結(jié)果發(fā)現(xiàn),主題特征對抑郁用戶的檢測效果最好,其他特征如語言特征LIWC、詞袋BOW、詞向量Word2Vect等,在加上主題特征后對檢測效果有明顯改善。最后還對比分析了相關(guān)文獻中基于Twitter、微博、Blog、網(wǎng)關(guān)日志等數(shù)據(jù)檢測抑郁用戶的效果,明確了本文的優(yōu)勢,進一步說明了使用準私密社交網(wǎng)絡(luò)數(shù)據(jù)檢測抑郁用戶是可行的。
從實驗以及與相關(guān)工作的對比可以看出,數(shù)據(jù)集、特征和檢測模型都是基于社會網(wǎng)絡(luò)數(shù)據(jù)的抑郁用戶檢測的關(guān)鍵,不同文獻在這幾方面的差異也較大,可比性不強。另外,已有工作中各種高達0.8以上的準確率都是在平衡樣本上得到的,與抑郁用戶的實際分布差異較大,也意味著在實際應(yīng)用中還會面臨諸多挑戰(zhàn)。最后,采用自評量表的方式獲取的樣本受用戶填寫量表時的心情影響較大,而確診抑郁等心理問題需要更長期、更專業(yè)的觀察,因此,樣本采集需要結(jié)合心理醫(yī)生的診斷才更為準確。