• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于社交數(shù)據(jù)挖掘的心理健康預(yù)警建模與分析

      2020-04-23 11:17:14林靖怡黎大坤吳平鑫王旭周燕
      電子技術(shù)與軟件工程 2020年8期
      關(guān)鍵詞:詞典分類器心理健康

      林靖怡 黎大坤 吳平鑫 王旭 周燕

      (華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院 廣東省廣州市 510642)

      1 問題背景

      當(dāng)今世界處于激烈競爭的時代,經(jīng)濟發(fā)展不斷加速,生活方式急劇變化,人際關(guān)系日益復(fù)雜,從而造成了各種心理疾病發(fā)生率的日益增多。當(dāng)代大學(xué)生作為具有較高智力、較髙文化和較髙自尊心的群體,有著不同于一般青年的更高抱負和追求,面臨更多的機遇和挑戰(zhàn),因而也承受著更大的心理壓力和沖突。據(jù)教育部門有關(guān)調(diào)查顯示,較多的在校大學(xué)生存在著不同程度的心理問題,因心理健康問題引發(fā)的大學(xué)生一系列惡性事件。2017年,大學(xué)生自殺事件接連出現(xiàn)。1月11日,山東大學(xué)一名女生被發(fā)現(xiàn)在出租屋內(nèi)上吊自殺,被發(fā)現(xiàn)時已身亡四天;2月27日,廣西大學(xué)一名在讀研究生燒炭自殺死亡;3月4日,渭南職業(yè)技術(shù)學(xué)院農(nóng)學(xué)院一名大二學(xué)生在宿舍內(nèi)上吊身亡;事件頻發(fā),心理健康是主因。因此,各大高等學(xué)校也越來越重視學(xué)生心理危機的監(jiān)控和預(yù)防工作,并積極構(gòu)建心理測評與篩查系統(tǒng),建立心理數(shù)據(jù)檔案。

      我國許多大學(xué)新生在入學(xué)一個月內(nèi)都進行人格問卷(UPI)調(diào)查或者心理健康測評(SCL-90)。然而,自編的問卷達不到廣泛應(yīng)用的標(biāo)準(zhǔn)程度,且大學(xué)生心理健康會隨著環(huán)境變化和所面臨的挫折而具有波動性。學(xué)生管理工作人員只保存這些靜態(tài)的數(shù)據(jù),而不及時更新以了解學(xué)生進入大學(xué)后的心理健康狀態(tài)趨勢,對大學(xué)生心理健康危機的預(yù)防起不到重要作用。而在2012年,一名昵稱為“走飯”的微博用戶在發(fā)布了一條遺言微博,引起轟動。她以往的微博內(nèi)容中揭示出她有嚴(yán)重的心理問題,同時說明了大部分學(xué)生都會在社交網(wǎng)絡(luò)上發(fā)泄更真實的情緒。所以,基于此背景下,本項目利用社交數(shù)據(jù)預(yù)測學(xué)生群體的抑郁傾向,具有較強的解決實際問題的意義。

      2 數(shù)據(jù)分析

      2.1 抑郁和非抑郁用戶的選取

      在2012年,有一名昵稱為“走飯”的微博用戶發(fā)了一條遺言微博,隨后并自殺身亡。她的最后一條微博在當(dāng)時引起轟動,眾多網(wǎng)友相繼轉(zhuǎn)發(fā)。“走飯”是一名女生,自從她去世,許多抑郁癥患者會在她的最后一條微博下評論訴說自己的痛苦。本文以此為突破口,在評論中及走飯超話中選取抑郁癥狀明顯的微博用戶作為抑郁用戶。為確保數(shù)據(jù)來源的可靠性,人工篩選發(fā)言中有明確提到“確證抑郁癥”等的用戶。同時,本文在熱搜評論中選取非抑郁用戶。由于抑郁用戶與非抑郁用戶在語言上會有明顯差異,人工篩選時仔細甄別微博用戶多條微博的用詞,保證非抑郁用戶數(shù)據(jù)的真實性。最后確定了149 名抑郁用戶和234 名非抑郁用戶。

      2.2 數(shù)據(jù)獲取及預(yù)處理

      2.2.1 數(shù)據(jù)獲取

      我們獲取的數(shù)據(jù)主要為抑郁用戶和非抑郁用戶的一定數(shù)量的微博正文及基本信息,我們獲取微博正文的方法為網(wǎng)絡(luò)爬蟲(網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF 社區(qū)中間,更經(jīng)常的

      稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲)。按照網(wǎng)絡(luò)爬蟲的步驟,我們首先分析了網(wǎng)頁結(jié)構(gòu),然后發(fā)現(xiàn)分布規(guī)律并從中找到微博正文的位置,最后選擇適當(dāng)?shù)呐老x工具爬取到對應(yīng)的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲最終生成對應(yīng)用戶微博內(nèi)容的txt 文件,命名是昵稱和ID 號的組合。

      2.2.2 數(shù)據(jù)預(yù)處理

      在預(yù)處理過程中,主要是數(shù)據(jù)清洗,去除一些不需要的數(shù)據(jù),并添加標(biāo)簽。因此本文進行了以下處理:

      (1)過濾掉微博話題的內(nèi)容,如#微博熱門話題動態(tài)#,微博話題并非用戶表達出來的,為避免影響微博內(nèi)容的分析,將其去除;

      (2)過濾掉圖片、鏈接的信息,本文針對的情感分析是文本內(nèi)容,這些信息會影響分析,因此去除;

      (3)過濾掉用戶轉(zhuǎn)發(fā)的內(nèi)容,認為轉(zhuǎn)發(fā)的內(nèi)容不能準(zhǔn)確描述用戶的心理狀態(tài),如果過濾轉(zhuǎn)發(fā)內(nèi)容后僅?!稗D(zhuǎn)發(fā)微博”,則過濾掉本條微博;

      (4)將性別轉(zhuǎn)換為獨熱編碼,“男”為1,“女”為0;

      (5)添加人工標(biāo)簽,“抑郁用戶”為1,“非抑郁用戶”為0。

      2.2.3 情緒分析技術(shù)

      情緒分析的步驟為:

      (1)對將要進行分析的微博正文進行分詞;

      (2)用對應(yīng)的抑郁詞庫和非抑郁詞庫對分好的詞進行統(tǒng)計分析;

      (3)計算該微博的情感值。

      在此我們選擇用Python 中的SnowNLP 第三方庫進行分詞和情緒分析,SnowNLP 是一個python 寫的類庫,可以方便的處理中文文本內(nèi)容,是受到了TextBlob 的啟發(fā)而寫的,由于現(xiàn)在大部分的自然語言處理庫基本都是針對英文的,于是寫了一個方便處理中文的類庫,并且和TextBlob 不同的是,這里沒有用NLTK,所有的算法都是自己實現(xiàn)的,并且自帶了一些訓(xùn)練好的字典。不過,SnowNLP中的情感分析主要是用于商品評價的分析,并不符合我們所需要的關(guān)于個人心理狀態(tài)的分析,因此我們爬取抑郁超話和抑郁癥超話中的內(nèi)容作為抑郁詞典,然后隨機爬取微博內(nèi)容作為非抑郁詞典,因為我們認為抑郁用戶僅占人群的一小部分,微博中普遍文本來自非抑郁用戶的。我們對抑郁詞典和非抑郁詞典都進行了數(shù)據(jù)清洗,并保留了表情字符,以此提高對微博表情和網(wǎng)絡(luò)熱詞的分析能力。然后用SnowNLP 庫中本身帶有的sentiment.train 和sentiment.save 方法進行新的訓(xùn)練,實現(xiàn)新訓(xùn)練集的生成和保存,最后實現(xiàn)對于微博正文的情緒分析。情感分析所獲取得到的情感值的范圍為0 到1,情感值越接近0,則表示用戶發(fā)該條微博內(nèi)容的心理狀態(tài)接近抑郁,越接近1 的情況越接近正常。下面以用戶“走飯”在上圖中的微博內(nèi)容為例,對其進行情緒分析,得出相應(yīng)的情感值。

      表1

      圖1:非抑郁用戶的詞云

      圖2:抑郁用戶的詞云

      (0.0 11 8 3 3 3 9 9 5 8 7 3 4 0 0 8 8,6.5 8 8 5 1 4 7 8 0 3 1 4 6 3 6 e-0 5, 0.5806662157427955, 0.0036783454087553347,0.0264076 6065997402,0.1290528045904359,0.015297355613529295, 0.008188068840033536)

      由此可以看出這些微博正文中大部分是比較消極的,與原本的微博正文較為吻合,本情感分析技術(shù)是可信的。

      3 基于情緒詞典的預(yù)測模型

      3.1 特征選取

      個人特征:性別、粉絲數(shù)、關(guān)注數(shù)、總轉(zhuǎn)發(fā)數(shù)、總評論數(shù)、總點贊數(shù)。

      在獲取的數(shù)據(jù)中可以得到如性別、微博等級、微博說明、粉絲數(shù)、關(guān)注數(shù)等個人信息,從這些個人信息可以挖掘出用戶的社交特點,并深入了解到用戶的心理狀態(tài)。本文最終選擇了與社交狀態(tài)密切相關(guān)的性別、粉絲數(shù)、關(guān)注數(shù)、總轉(zhuǎn)發(fā)數(shù)、總評論數(shù)、總點贊數(shù)。

      語言特征:多條微博內(nèi)容的情感值的上、下四分位數(shù)及中位數(shù)。

      個體的語言是帶有個人色彩的,而在不同的心理狀態(tài)下,用詞也會有所不同。本文隨機抽取抑郁用戶和非抑郁用戶的部分微博內(nèi)容(如圖1 和圖2 所示),發(fā)現(xiàn)非抑郁用戶的微博內(nèi)容涉及方面很多,感情層次豐富,而抑郁用戶的微博內(nèi)容呈現(xiàn)出一種恐慌、脆弱的狀態(tài)。因此極具用戶語言特點的微博內(nèi)容是情感分析的主要對象,因此為了更好地了解用戶的心理狀態(tài),預(yù)處理過程中剔除了微博內(nèi)容較少的用戶,避免出現(xiàn)被較極端的微博影響分析結(jié)果的情況。利用前面構(gòu)建的情感分析模型對微博內(nèi)容進行分析,得出用戶的情感值上、下四分位數(shù)及中位數(shù),這里沒有選用更常用的平均值和最值,因為我們并不了解抑郁用戶的情感波動情況,中位數(shù)能比平均數(shù)更體現(xiàn)集中趨勢,四分位區(qū)間也更能描述離散程度。

      3.2 實驗結(jié)果及分析

      本文將數(shù)據(jù)集按7:3 的比例隨機劃分了訓(xùn)練集和測試集,選擇了XGBoost、SVM、決策樹、lightGBM 等算法構(gòu)建了不同的分類器,分別得到如表1 結(jié)果。

      其中,精確率反映了各分類器判定的抑郁用戶中真正抑郁用戶樣本的比重,體現(xiàn)了分類器對非抑郁用戶的區(qū)分能力;召回率反映了被正確判定的抑郁用戶占總的抑郁用戶的比重,體現(xiàn)了分類器對抑郁用戶的識別能力。由于精確率和召回率是相互影響的,通常精確率高,則召回率低,或是精確率低,則召回率高。因此我們需要借助F1 值在這兩者之間找到一個平衡點,F(xiàn)1 值越高,則說明模型越穩(wěn)健。

      綜合各分類器,本文認為XGBoost 效果最好,其次是lightGBM和SVM,最后是決策樹。

      4 總結(jié)

      本文實驗結(jié)果表明,基于情緒詞典的XGBoost 模型具有較好的識別效果。而本文利用社交數(shù)據(jù)來預(yù)測微博用戶的抑郁傾向,具有一定的實際意義:可快速而及時地發(fā)現(xiàn)有抑郁傾向的人,能夠及時發(fā)現(xiàn)目標(biāo),為有效的干預(yù)和幫助提供了非常好的基礎(chǔ);考慮到在線社會網(wǎng)絡(luò)的用戶規(guī)模和年輕的學(xué)生用戶居多的特點,使用這種方法將能發(fā)現(xiàn)數(shù)以百萬計受到抑郁癥威脅的人群。尤其對于在線社會網(wǎng)絡(luò)普及率很高的高校學(xué)生來說,用本文提出的方法進行抑郁癥問題狀況評估是合適的。本方法將極大地提升高校等機構(gòu)應(yīng)對學(xué)生抑郁癥問題的能力,從而減少抑郁癥對學(xué)生群體造成的傷害。

      由于本文的情感分析技術(shù)僅針對文本內(nèi)容,對圖片內(nèi)容無能為力,難以分析微博用戶發(fā)布的圖片中的情感。雖然在構(gòu)建詞典時保留了微博表情,但有時表情會被人們用來表達多重意思,給用于訓(xùn)練的詞典提出了非常高的要求。同時在特征工程中,過少的特征向量也限制了分類模型的分類效果。以上種種都是本模型有待改進的地方。

      猜你喜歡
      詞典分類器心理健康
      心理健康
      品牌研究(2022年9期)2022-04-06 02:41:56
      心理健康
      品牌研究(2022年8期)2022-03-23 06:49:06
      心理健康
      品牌研究(2022年6期)2022-03-23 05:25:50
      心理健康
      品牌研究(2022年1期)2022-03-18 02:01:10
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      評《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      蒲江县| 隆德县| 宕昌县| 潮安县| 太湖县| 淮滨县| 崇仁县| 北辰区| 湖州市| 临夏市| 曲阳县| 孟津县| 安义县| 天水市| 大连市| 凤凰县| 阿拉善左旗| 青龙| 柳林县| 潢川县| 长丰县| 汉川市| 东城区| 浦东新区| 阆中市| 中西区| 丰县| 石台县| 兴山县| 亚东县| 保山市| 教育| 永川市| 禄劝| 乌鲁木齐县| 溆浦县| 浮山县| 鄂托克前旗| 平潭县| 吕梁市| 阳新县|