摘" 要: 針對現(xiàn)有模型未充分利用社交媒體中文本歷史動態(tài)信息進(jìn)行自殺風(fēng)險檢測的問題,引入CapsNet模型。在CapsNet模型中,層與層之間傳遞的是有向神經(jīng)元組,能夠更好地感知長文本中的空間信息,發(fā)現(xiàn)社交媒體用戶的情感趨勢,為自殺風(fēng)險檢測提供依據(jù)。文中對CapsNet模型進(jìn)行改進(jìn),首先改變尺度空間,增加網(wǎng)絡(luò)寬度,充分提取隱藏在句子中的特征信息;其次,使用指數(shù)函數(shù)對Squash函數(shù)進(jìn)行優(yōu)化,放大膠囊輸出,充分利用膠囊提取用戶歷史動態(tài)中的特征信息;最后,在動態(tài)路由中采用優(yōu)化算法對耦合系數(shù)進(jìn)行初始化,去除噪聲膠囊的干擾。使用預(yù)訓(xùn)練的SBERT模型對社交媒體文本數(shù)據(jù)進(jìn)行特征提取,得到改進(jìn)CapsNet文本自殺風(fēng)險檢測模型二分類的準(zhǔn)確率達(dá)到95.93%,F(xiàn)1分?jǐn)?shù)達(dá)到95.86%,優(yōu)于自殺風(fēng)險檢測的其他模型。
關(guān)鍵詞: CapsNet模型; 自殺風(fēng)險檢測; 社交媒體; 長文本信息; 特征提??; SBERT模型
中圖分類號: TN911.25?34; TP391" " " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " 文章編號: 1004?373X(2024)14?0009?06
Improved CapsNet text suicide risk detection model
CHEN Bin, LI Hongyan, LIANG Zhuo
(College of Electronic Information and Optical Engineering, Taiyuan University of Technology, Jinzhong 030600, China)
Abstract: In allusion to the problem that the existing models do not make full use of the historical dynamic information of text in social media for suicide risk detection, the CapsNet model is introduced. In the CapsNet model, groups of directed neurons are transmitted between layers, which can better perceive spatial information in long texts, find emotional trends of social media users, and provide a basis for suicide risk detection. The CapsNet model is improved. The scale space is changed and the network width is increased to fully extract the feature information hidden in the sentence. The exponential function is used to optimize the Squash function, so as to enlarge the capsule output, and make full use of the capsule to extract the feature information in user's historical dynamics. In dynamic routing, an optimization algorithm is used to initialize the coupling coefficient to remove the interference of noisy capsules. The pre?trained SBERT model is used to extract features of social media text data. The binary classification accuracy of the improved CapsNet text suicide risk detection model can reach 95.93%, and the F1 score can reach 95.86%, which is better than other models of suicide risk detection.
Keywords: CapsNet model; suicide risk detection; social media; long text information; feature exteraction; SBERT model
0" 引" 言
據(jù)世界健康組織(World Health Organization, WHO)的數(shù)據(jù),自殺已經(jīng)成為全球三大死因之一,每30 s就有1人死于自殺,而這個問題在青少年中更為明顯。研究人員發(fā)現(xiàn),抑郁癥是導(dǎo)致自殺的主要原因之一,全球每年因抑郁而自殺人數(shù)高達(dá)100萬人,自殺未遂的人更是自殺人數(shù)[1]的20倍。因此,對抑郁癥患者進(jìn)行自殺風(fēng)險檢測的研究十分必要。
隨著Reddit、Twitter等社交媒體的流行,越來越多的人喜歡在網(wǎng)絡(luò)上分享自己的心情和生活,社交媒體也成為人們傾訴心情的一種方式,甚至具有自殺風(fēng)險的人在社交媒體上公開自己的自殺想法和計劃[2]。A. Lamont?Mills等證實(shí),有自殺風(fēng)險的人在網(wǎng)絡(luò)上的表達(dá)與他們的真實(shí)情緒幾乎一致,這也激勵了更多的研究人員考慮從社交媒體中獲取用戶在試圖自殺時的想法和情感狀態(tài)[3]。Ji等使用長短期記憶(Long Short?Term Memory, LSTM)[4]網(wǎng)絡(luò)增強(qiáng)了文本表示和情感詞典之間的關(guān)系,并建立了自殺風(fēng)險和抑郁癥的分類模型,使用注意力機(jī)制來關(guān)注更加重要的關(guān)系特征,在Reddit等三個數(shù)據(jù)集上取得了優(yōu)于同行的表現(xiàn)[5]。M. M. Tadesse等使用LSTM與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的組合模型對來自Reddit的帖子進(jìn)行自殺風(fēng)險檢測,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和詞嵌入技術(shù)的結(jié)合可以實(shí)現(xiàn)更好的分類結(jié)果[6]。A. Haque等使用基于Transformer的雙向編碼(Bidirectional Encoder Representations from Transformer, BERT)[7]模型進(jìn)行特征提取[8],無監(jiān)督地統(tǒng)一流形逼近和投影(Uniform Manifold Approximation and Projection, UMAP)[9]聚類算法對Reddit數(shù)據(jù)集標(biāo)簽進(jìn)行校正。采用雙向長短期記憶(Bi?directional Long Short?Term Memory, BiLSTM)[10]網(wǎng)絡(luò)和門控循環(huán)單元(Gate Recurrent Unit, GRU)[11]的混合模型進(jìn)行自殺風(fēng)險的檢測,達(dá)到了較好的效果。
由于自殺風(fēng)險并不是突發(fā)性的,它是由持續(xù)的情緒低落引起的,所以長距離的語義信息就顯得尤為重要?,F(xiàn)階段,自殺風(fēng)險也已經(jīng)被證明和歷史狀態(tài)高度相關(guān)[1],但是現(xiàn)有的研究并沒有充分利用社交媒體用戶的歷史動態(tài)數(shù)據(jù)進(jìn)行自殺風(fēng)險的檢測,從而導(dǎo)致自殺風(fēng)險檢測丟失了重要的文本歷史情感依據(jù)。為了解決上述問題,本文提出一種改進(jìn)CapsNet的自殺風(fēng)險檢測模型。
1" 改進(jìn)CapsNet的自殺風(fēng)險檢測模型
1.1" 網(wǎng)絡(luò)框架
本文提出一種改進(jìn)CapsNet的自殺風(fēng)險檢測模型,模型主要分為三個部分:特征預(yù)處理、改進(jìn)CapsNet模型和分類輸出,模型結(jié)構(gòu)如圖1所示。
本文使用經(jīng)過預(yù)訓(xùn)練的SBERT模型[12]進(jìn)行特征預(yù)處理,提取原始文本中的語義特征;再將語義特征輸入到多尺度的改進(jìn)CapsNet模型中,三個尺度的信息經(jīng)過卷積、改進(jìn)Squash函數(shù)和優(yōu)化的動態(tài)路由等,成為更高級的特征;最后通過池化共同參與分類的決策。
1.2" 改進(jìn)CapsNet模型
CapsNet是由Sabour等在2017年提出的一種稱為膠囊網(wǎng)絡(luò)的方法,相對于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),CapsNet的層與層之間傳遞的是矢量而不是標(biāo)量,使其對于文本空間信息更加敏感,能夠更好地從文本數(shù)據(jù)中發(fā)掘社交媒體用戶的情感走向,為自殺風(fēng)險檢測提供長期文本依賴[13]。本文對CapsNet進(jìn)行改進(jìn):首先,分別使用大小為3×3、4×4和5×5的卷積核對語義特征進(jìn)行卷積,充分提取位于句子不同位置的特征;其次,使用[ex]形式的指數(shù)函數(shù)對非線性Squash激活函數(shù)進(jìn)行優(yōu)化,將膠囊放大輸出,更好地捕捉文本語序和詞組的特征;最后,在動態(tài)路由中,采用優(yōu)化算法[14]代替Softmax函數(shù)對耦合系數(shù)[c]進(jìn)行初始化,在不增加計算量的基礎(chǔ)上規(guī)避噪聲的干擾。
圖2所示為卷積核大小為3×3的改進(jìn)CapsNet模型結(jié)構(gòu),其輸入為SBERT模型,提取并使用Reshape重整得到的28×28特征矩陣。
第1層Conv層是一個標(biāo)準(zhǔn)的卷積層,使用128個3×3、步長為1的卷積提取位于句子不同位置的特征,激活函數(shù)為ReLU,輸出為26×26×128的標(biāo)量。
第2層PrimCaps層是第一個膠囊層,使用256個9×9、步長為2的卷積提取更深層次的特征。在膠囊網(wǎng)絡(luò)中,每一個膠囊輸出矢量的長度代表該膠囊在當(dāng)前輸入中的概率。因此,激活函數(shù)就要將模長較小的矢量收縮到0,而模長較大的矢量收縮到1。膠囊網(wǎng)絡(luò)中使用Squash函數(shù)作為激活函數(shù),公式如下:
[v=s21+s2·ss] (1)
式中:[s]為輸入;[v]為輸出。本文使用[ex]形式的指數(shù)函數(shù)對Squash函數(shù)進(jìn)行優(yōu)化,優(yōu)化后Squash函數(shù)公式如下:
[v=1-e-s2ss] (2)
優(yōu)化的Squash函數(shù)可以將膠囊放大輸出,讓更多的膠囊參與到計算中,充分利用膠囊提取文中的情感信息。優(yōu)化的Squash函數(shù)使輸出變?yōu)?×9×8×32的矢量,即維度為8的2 592個初級膠囊,膠囊中保留了卷積提取到的單詞語義及順序等實(shí)例化參數(shù),使模型對歷史動態(tài)數(shù)據(jù)更加敏感。
第3層ConvCaps層是第二個膠囊層,使用128個7×7、步長為1的卷積進(jìn)一步提取空間信息,使用優(yōu)化的Squash激活函數(shù),將初級膠囊轉(zhuǎn)換為3×3×8×16的矢量,即維度為8的144個中級膠囊,中級膠囊中保留更為復(fù)雜的特征。
在動態(tài)路由中,本文使用優(yōu)化算法代替Softmax函數(shù)對耦合系數(shù)[c]進(jìn)行初始化,可以在不增加運(yùn)算量的前提下減輕噪聲膠囊的干擾。優(yōu)化算法對耦合系數(shù)[c]的初始化步驟如下。
1) 在特征傳遞系數(shù)[b]前增加一列0,得到[b']。
2) 對[b']的行使用Softmax進(jìn)行初始化,得到[c']。
3) 刪除[c']的第一列,得到耦合系數(shù)[c]。
改進(jìn)的動態(tài)路由算法步驟如下。
1) 對特征傳遞系數(shù)[b]初始化,[l]層膠囊[i]到[l+1]層膠囊[j]的特征傳遞系數(shù)[bij←0]。
2) 在膠囊網(wǎng)絡(luò)中引入膠囊耦合系數(shù)[c],[l]層的膠囊[i]傳遞到[l+1]層的膠囊[j],得到[l+1]層的膠囊耦合系數(shù)[c],公式為:
[cij=f(bij)] (3)
式中[f(?)]為優(yōu)化算法。
3) [l]層的膠囊特征[ui]傳遞到[l+1]層的膠囊[j],得到[l+1]層的膠囊特征[sj],公式為:
[sj=i=1kcijuji] (4)
式中:[uji=Wijui],[Wij]為權(quán)重,由誤差反向傳播更新。
4) 膠囊特征的長度代表特征概率的大小,使用優(yōu)化的Squash函數(shù)保證[l+1]層膠囊特征[sj]的長度壓縮到0~1的范圍內(nèi),公式為:
[vj=1-e-sj2sjsj] (5)
式中[vj]為[l+1]層膠囊[j]壓縮后的特征。
5) 以迭代的方式更新[l]層膠囊[i]到[l+1]層膠囊[j]的特征傳遞系數(shù)[bij],本文迭代次數(shù)為3,公式為:
[bij=bij+uji×vj] (6)
第5層使用L2正則化,使分類器運(yùn)用盡可能多的高級膠囊進(jìn)行分類,從而提升模型的泛化能力。損失函數(shù)為二元交叉熵?fù)p失函數(shù),公式為:
[BCELoss=-1Ni=1Nyi?log(p(yi))+(1-y)?" " " " " " " " " " " " log(1-p(yi))] (7)
式中:[yi]表示樣本[i]的標(biāo)簽(抑郁或自殺);[p(yi)]表示樣本[i]真實(shí)標(biāo)簽的預(yù)測值。
動態(tài)路由原理圖如圖3所示。
2" 實(shí)驗(yàn)設(shè)計
2.1" 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集
實(shí)驗(yàn)所用的硬件配置為英特爾至強(qiáng)處理器;RAM為13 GB;GPU為NVIDIA TESLA?P100 16 GB;操作系統(tǒng)為Linux;實(shí)驗(yàn)平臺為Python3.7,Keras2.11+TensorFlow 2.11框架。
數(shù)據(jù)集使用PushshuftAPI按照時間順序在社交媒體Reddit網(wǎng)站上收集,本文收集了“自殺觀察”板塊下從創(chuàng)建之初到2021年1月2日的所有帖子?!耙钟舭Y”板塊下從2009年1月1日—2021年1月2日的所有帖子,一共收集到232 074條數(shù)據(jù),來自“自殺觀察”板塊的樣本數(shù)據(jù)標(biāo)記為“自殺”,來自“抑郁癥”板塊的樣本數(shù)據(jù)標(biāo)記為“抑郁”。
由于Reddit是一個網(wǎng)絡(luò)社交媒體,用戶的表達(dá)方式并不規(guī)范,表達(dá)方式各有不同,有些用戶喜歡使用疊詞,有些用戶喜歡轉(zhuǎn)發(fā)網(wǎng)頁,有些用戶喜歡使用表情,使得文本中存在不利于自殺風(fēng)險檢測的噪聲。為得到一個干凈的文本數(shù)據(jù)集,通過自然語言處理技術(shù)對其進(jìn)行處理和篩選,即刪除所有標(biāo)點(diǎn),刪除疊詞,刪除所有含有表情和超鏈接的帖子,對同一用戶ID發(fā)出的帖子進(jìn)行整合。最后,一共篩選出7 730個用戶的數(shù)據(jù),其中,標(biāo)簽為“自殺”的用戶有3 830個,“抑郁”的用戶有3 900個,可近似看作是一個平衡的數(shù)據(jù)集。
2.2" 評價指標(biāo)
本文使用準(zhǔn)確率(Acc)和F1分?jǐn)?shù)2個評價指標(biāo)來對自殺風(fēng)險檢測模型進(jìn)行評價,參數(shù)定義如下。
準(zhǔn)確率為預(yù)測正確的樣本占總樣本數(shù)的比例,公式如下:
[Acc=TP+TNTP+FP+TN+FN×100%] (8)
F1分?jǐn)?shù)為召回率和精確度的加權(quán)平均,可以表征模型的穩(wěn)健程度,公式如下:
[F1=2×TP2TP+FP+FN×100%] (9)
式中:TP表示實(shí)際為正被預(yù)測為正的樣本數(shù)量;FP表示實(shí)際為負(fù)但被預(yù)測為正的樣本數(shù)量;TN表示實(shí)際為負(fù)被預(yù)測為負(fù)的樣本數(shù)量;FN表示實(shí)際為正但被預(yù)測為負(fù)的樣本數(shù)量。
2.3nbsp; 不同尺度的CapsNet
為探究不同尺度大小對模型性能的影響,本文對CapsNet模型進(jìn)行二分類實(shí)驗(yàn),三層卷積層的步長分別為1、2、2,卷積核大小及實(shí)驗(yàn)結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果表明,CapsNet模型在卷積核尺度分別為5×5、7×7和9×9時,檢測模型可以有效地提取社交媒體用戶推文中的情感特征,使模型性能達(dá)到最佳,正確率為93.59%,F(xiàn)1分?jǐn)?shù)為93.37%,并以此模型作為CapsNet基線模型。
2.4" 增加網(wǎng)絡(luò)寬度的多尺度CapsNet
為探究增加網(wǎng)絡(luò)寬度以及改變尺度空間對模型性能的影響,在CapsNet模型的基礎(chǔ)上,增加兩條采用不同尺度空間的分支網(wǎng)絡(luò),卷積核組合及實(shí)驗(yàn)結(jié)果如表2所示。
對比表2和表1數(shù)據(jù)可知,增加網(wǎng)絡(luò)寬度可以有效提升模型性能。當(dāng)卷積核組合為3×3、5×5和5×5,5×5、3×3和1×1,5×5、7×7和9×9時,增加網(wǎng)絡(luò)寬度的多尺度CapsNet模型的性能達(dá)到最佳,正確率可達(dá)94.70%,F(xiàn)1分?jǐn)?shù)可達(dá)94.63%,相較于單通道的CapsNet基線模型,正確率提高1.11%,F(xiàn)1分?jǐn)?shù)提高1.26%。
2.5" 優(yōu)化Squash函數(shù)的實(shí)驗(yàn)
為驗(yàn)證本文優(yōu)化Squash函數(shù)的有效性,使用優(yōu)化的Squash函數(shù)對CapsNet模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
表3實(shí)驗(yàn)結(jié)果表明,優(yōu)化的Squash函數(shù)能夠放大膠囊輸出,將靠近0的膠囊放大輸出,讓更多的膠囊參加到向量的計算中,從而更加充分地發(fā)掘空間位置信息;相較于CapsNet基線模型,加入優(yōu)化Squash函數(shù)正確率提升1.16%,F(xiàn)1分?jǐn)?shù)提升1.28%。增加網(wǎng)絡(luò)寬度的多尺度CapsNet在使用優(yōu)化Squash函數(shù)后,性能也在一定程度上得到了提升,相較于最優(yōu)的多尺度CapsNet,正確率最大提升0.73%,F(xiàn)1分?jǐn)?shù)最大提升0.70%。
2.6" 改進(jìn)動態(tài)路由的實(shí)驗(yàn)
為驗(yàn)證本文改進(jìn)動態(tài)路由的有效性,使用改進(jìn)的動態(tài)路由對CapsNet模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。
表4實(shí)驗(yàn)結(jié)果表明,改進(jìn)的動態(tài)路由能夠去除噪聲的干擾,更加準(zhǔn)確地確定耦合系數(shù),使CapsNet模型的性能得到提升;相較于CapsNet模型,改進(jìn)動態(tài)路由能夠帶來正確率1.72%和F1分?jǐn)?shù)1.91%的性能提升。多尺度CapsNet模型使用優(yōu)化Squash函數(shù)和改進(jìn)動態(tài)路由后,性能達(dá)到最佳,正確率可達(dá)95.93%,F(xiàn)1分?jǐn)?shù)可達(dá)95.86%,相較于CapsNet模型,正確率和F1分?jǐn)?shù)分別提升2.34%和2.49%。
2.7" 不同研究方法對比
為進(jìn)一步驗(yàn)證本文模型的有效性,將本文模型與其他自殺風(fēng)險檢測相關(guān)文獻(xiàn)的模型進(jìn)行比較,對比結(jié)果如表5所示。
由表5可知,本文改進(jìn)CapsNet的準(zhǔn)確率能夠達(dá)到95.93%,F(xiàn)1分?jǐn)?shù)達(dá)到95.86%,優(yōu)于自殺風(fēng)險監(jiān)測領(lǐng)域的其他分類器。相較于文獻(xiàn)[16]中表現(xiàn)最優(yōu)的GRU+注意力模型,準(zhǔn)確率高出1.48%,F(xiàn)1分?jǐn)?shù)高出0.84%。
3" 結(jié)" 語
根據(jù)自殺風(fēng)險檢測對歷史動態(tài)有著強(qiáng)烈的依賴這一特性,本文提出一種基于改進(jìn)CapsNet的自殺風(fēng)險檢測模型。在改進(jìn)CapsNet模型中,增加網(wǎng)絡(luò)寬度的多尺度卷積核,能從長文本信息中提取隱藏在單詞和短語中的豐富信息;優(yōu)化Squash激活函數(shù)能夠放大膠囊輸出,充分發(fā)掘文本中的空間位置信息;改進(jìn)的動態(tài)路由可以去除噪聲膠囊的干擾,更加準(zhǔn)確地計算網(wǎng)絡(luò)參數(shù)。
在未來的工作中,本文將考慮增加用戶的其他信息,如性別、職業(yè)和年齡等來擴(kuò)充用戶特征,使自殺風(fēng)險檢測的準(zhǔn)確性進(jìn)一步提升。
注:本文通訊作者為李鴻燕。
參考文獻(xiàn)
[1] SAWHNEY R, JOSHI H, GANDI S, et al. A time?aware transformer based model for suicide ideation detection on social media [C]// Association for Computational Linguistics. [S.l.]: ACM, 2020: 7685?7697.
[2] ROHAN M, PRADYUMN P S, RAMIT S, et al. SNAP?BATNET: cascading author profiling and social network graphs for suicide ideation detection on social media [C]// Association for Computational Linguistics. [S.l.]: ACM, 2019: 147?156.
[3] LAMONT?MILLS A, BAYLISS L T, CHRISTENSEN S A. Online suicidal thoughts and/or behaviours talk: a scoping review protocol [J]. PLoS One, 2022, 17(10): e0276776.
[4] LIU Q, JIA M, GAO Z, et al. Correntropy long short term memory soft sensor for quality prediction in industrial polyethylene process [J]. Chemometrics and intelligent laboratory systems, 2022, 231: 104678.
[5] JI S, LI X, HUANG Z, et al. Suicidal ideation and mental disorder detection with attentive relation networks [J]. Neural computing amp; applications, 2022, 34(13): 10309?10319.
[6] TADESSE M M, LIN H, XU B, et al. Detection of suicide ideation in social media forums using deep learning [J]. Algorithms, 2020, 13(1): 7?26.
[7] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre?training of deep bidirectional transformers for language understanding [C]// Conference of the North?American?Chapter of the Association for Computational Linguistics. [S.l.]: ACM, 2019: 4171?4186.
[8] HAQUE A, REDDI V, GIALLANZA T. Deep learning for suicide and depression identification with unsupervised label correction [C]// International Conference on Artificial Neural Networks. [S.l.]: IEEE, 2021: 436?447.
[9] MCINNES L, HEALY J. UMAP: uniform manifold approximation and projection for dimension reduction [J]. The journal of open source software, 2018, 3(29): 861?924.
[10] ZHANG Z, ZHANG W, YANG K, et al. Remaining useful life prediction of lithium?ion batteries based on attention mechanism and bidirectional long short?term memory network [J]. Measurement, 2022, 204: 112093?112105.
[11] ZARZYCKI K, ?AWRY?CZUK M. Advanced predictive control for GRU and LSTM networks [J]. Information sciences, 2022, 616: 229?254.
[12] REIMERS N, GUREVYCH I. Sentence?bert: Sentence embeddings using siamesebert?networks [EB/OL]. [2023?07?18]. https://www.xueshufan.com/publication/2970641574.
[13] SABOUR S, FROSST N, HINTON G E. Dynamic routing between capsules [C]// Advances in Neural Information Processing Systems. [S.l.]: ACM, 2017: 1?11.
[14] ZHAO W, YE J, YANG M, et al. Investigating capsule networks with dynamic routing for text classification [C]// Conference on Empirical Methods in Natural Language Processing. Baltimore, MD, USA: IEEE, 2018: 3110?3119.
[15] XUE Y, LI Q, WU T, et al. Incorporating stress status in suicide detection through microblog [J]. International journal of computer systems science amp; engineering, 2019, 34(2): 65?78.
[16] CAO L, ZHANG H, WANG X, et al. Learning users inner thoughts and emotion changes for social media based suicide risk detection [J]. IEEE transactions on affective computing, 2023, 14(2): 1280?1296.