• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于社交網(wǎng)絡(luò)信息的用戶抑郁癥傾向識(shí)別

      2021-10-21 03:46:34劉定平張雪燕
      關(guān)鍵詞:社交指標(biāo)用戶

      劉定平 張雪燕

      (河南財(cái)經(jīng)政法大學(xué)統(tǒng)計(jì)與大數(shù)據(jù)學(xué)院,河南鄭州450046)

      一、引言

      抑郁癥是常見疾病,由此產(chǎn)生的心理障礙會(huì)對(duì)人體產(chǎn)生較大影響,輕癥者會(huì)減弱對(duì)學(xué)習(xí)和工作的興趣,導(dǎo)致學(xué)習(xí)能力和工作效率降低;重癥者可能會(huì)喪失生活的動(dòng)力,甚至萌生自殘、自殺念頭。根據(jù)世界衛(wèi)生組織2019年底發(fā)布的報(bào)告,抑郁癥的發(fā)病率僅次于世界第一大嚴(yán)重的缺血性心臟病,在世界排名前十位的使人喪失勞動(dòng)能力的疾病中,抑郁癥甚至名列首位,這無(wú)疑成為社會(huì)安定的巨大隱患。截至目前,全球已有超過(guò)2.64億抑郁癥患者,每年自殺身亡者高達(dá)80萬(wàn)人。其中,中國(guó)的抑郁癥患者達(dá)9000萬(wàn),占比超過(guò)全球抑郁癥患者總數(shù)的34%。由于抑郁癥患者的病恥感以及大眾對(duì)抑郁癥的污名化,使這種敏感性疾病的識(shí)別率僅為21%,在僅有的已識(shí)別的患者中,主動(dòng)接受干預(yù)和治療者更是少之又少。這是抑郁癥診療和研究面臨的主要障礙,也是當(dāng)前亟待解決的問(wèn)題。

      隨著社交網(wǎng)絡(luò)的迅速發(fā)展,在社交平臺(tái)上分享情緒逐漸成為年輕人熱衷的新潮流,其中不乏大量的抑郁癥患者。作為深受國(guó)民喜愛(ài)的微博社交平臺(tái),是大量用戶發(fā)表言論和與人互動(dòng)的場(chǎng)所,微博平臺(tái)每天都充斥著豐富的信息動(dòng)態(tài),深入挖掘抑郁用戶在微博平臺(tái)的網(wǎng)絡(luò)軌跡,無(wú)疑為抑郁癥的識(shí)別提供了新的思路。

      二、文獻(xiàn)綜述

      對(duì)于抑郁癥的檢測(cè),最直接的方式莫過(guò)于早期的心理量表測(cè)評(píng),劉芳宜(2012)等將漢密爾抑郁量表、Zung抑郁自評(píng)量表以及羅馬心理社會(huì)警報(bào)問(wèn)卷三種心理測(cè)評(píng)量表應(yīng)用于受試者的問(wèn)卷調(diào)查,根據(jù)受試者對(duì)問(wèn)題的回答情況判定其抑郁與否。

      此外,也有相當(dāng)一部分學(xué)者從生物學(xué)角度出發(fā),通過(guò)抑郁癥患者的腦網(wǎng)絡(luò)信號(hào)(沈?yàn)t童,2020)、面部動(dòng)態(tài)特征(安昳,2020)以及眼部動(dòng)態(tài)特征(袁一方,2020)提取相關(guān)信息,構(gòu)建抑郁癥識(shí)別分類模型。上述方式對(duì)于主動(dòng)參與抑郁癥檢測(cè)的患者群體固然有效,但面對(duì)龐大的畏于主動(dòng)就醫(yī)的抑郁癥傾向群體卻顯不足。國(guó)外學(xué)者首先提出通過(guò)社交網(wǎng)絡(luò)媒介進(jìn)行抑郁癥傾向識(shí)別,William(2015)以抑郁癥患者的Twitter文本為數(shù)據(jù)集,通過(guò)建立主題模型對(duì)抑郁癥患者和非抑郁癥患者的語(yǔ)言信號(hào)進(jìn)行分析。目前國(guó)內(nèi)的研究多基于社交網(wǎng)絡(luò)平臺(tái)微博的數(shù)據(jù),Li Genghao(2020)提出一種構(gòu)建抑郁癥領(lǐng)域詞匯的有效方法,該詞匯包含豐富的語(yǔ)言特征,可以幫助識(shí)別潛在患有抑郁癥的社交媒體用戶。方振宇(2017)基于微博用戶的文本信息,采用基于擴(kuò)展的抑郁詞典的特征統(tǒng)計(jì)法以及基于詞向量構(gòu)建用戶向量的方法,通過(guò)深度學(xué)習(xí)工具word2vec訓(xùn)練對(duì)抑郁用戶和非抑郁用戶進(jìn)行識(shí)別。

      觀察發(fā)現(xiàn),學(xué)者對(duì)社交網(wǎng)絡(luò)用戶的抑郁癥識(shí)別大多立足于用戶的語(yǔ)言特征,通過(guò)文本挖掘技術(shù)進(jìn)行情感分析,進(jìn)而達(dá)到分類目的。然而用戶的個(gè)人信息以及與他人互動(dòng)的相關(guān)特征似乎被學(xué)者忽略,本文通過(guò)抑郁癥患者在微博平臺(tái)的多方面表現(xiàn),對(duì)抑郁癥患者進(jìn)行表征提取,確定特征向量后,從構(gòu)建抑郁指標(biāo)體系和統(tǒng)計(jì)識(shí)別模型兩個(gè)角度出發(fā),開展社交網(wǎng)絡(luò)用戶抑郁癥傾向識(shí)別研究。

      三、抑郁癥的表征

      (一)數(shù)據(jù)獲取

      本文數(shù)據(jù)均基于微博爬蟲技術(shù),通過(guò)提取用戶相關(guān)信息,建立抑郁用戶與非抑郁用戶數(shù)據(jù)集。微博平臺(tái)為有共同興趣的人提供一個(gè)交流的社區(qū)并命名為“××超話”,本案例測(cè)試集中抑郁用戶的選取將從“抑郁癥超話”社區(qū)入手(見圖1),該社區(qū)設(shè)立初衷是探討抑郁癥的預(yù)防以及為抑郁癥患者提供治療過(guò)程的分享平臺(tái),越來(lái)越多有抑郁傾向用戶將該社區(qū)當(dāng)作樹洞宣泄自己的情緒。超話建立至今,擁有27.2萬(wàn)粉絲,發(fā)帖量達(dá)65.7萬(wàn),閱讀量超23.7億,足見抑郁癥群體的龐大。

      圖1 新浪微博抑郁癥超話社區(qū)

      通過(guò)對(duì)該社區(qū)帖子的爬取,初步獲取抑郁用戶的ID、性別、年齡、所在地、關(guān)注數(shù)以及粉絲數(shù)等基本信息。通過(guò)數(shù)據(jù)預(yù)處理,剔除性別、年齡及所在地有缺失的用戶,最終定位到50名抑郁用戶。由于抑郁癥為長(zhǎng)期存在的疾病,因此在對(duì)抑郁用戶的微博內(nèi)容進(jìn)行抓取時(shí)將時(shí)間設(shè)定為1年,起止時(shí)間為2020年1月1日至2021年1月1日。對(duì)于非抑郁用戶的選取,則采取在搜索欄里輸入積極情感詞匯的方式進(jìn)行定位。為與抑郁用戶的數(shù)據(jù)集進(jìn)行匹配,非抑郁用戶同樣進(jìn)行篩選后定位到50名,并對(duì)其相應(yīng)時(shí)段的微博文本進(jìn)行抓取。

      (二)特征提取

      1.抑郁用戶畫像分析

      (1)個(gè)人信息

      微博用戶的資料欄包括個(gè)人基本信息、聯(lián)系信息、職業(yè)信息、教育信息以及標(biāo)簽信息,結(jié)合數(shù)據(jù)的完整性和有效性,本文選定基本信息中的性別、年齡、所在地3個(gè)指標(biāo)作為研究對(duì)象,其中年齡指標(biāo)由資料欄中的生日信息推算求得。獲取到相關(guān)數(shù)據(jù)后,針對(duì)抑郁用戶、非抑郁用戶在上述指標(biāo)的表現(xiàn)差異進(jìn)行對(duì)比分析。

      性別特征。分別計(jì)算男性、女性用戶中有抑郁傾向和無(wú)抑郁傾向的比例得到圖2所示結(jié)果,直觀看,女性群體中有抑郁傾向用戶占比高達(dá)61.54%,男性用戶中有抑郁傾向的僅占28.57%,這一特點(diǎn)與流行病學(xué)相關(guān)研究結(jié)論一致。流行病學(xué)研究表明,女性抑郁癥患病率通常是男性的兩倍,究其原因,除了性別差異帶來(lái)的大腦功能差異外,生理原因是女性更容易得抑郁癥的重要因素。與男性相比,女性更容易產(chǎn)生敏感和不穩(wěn)定情緒,因此在遇到挫折時(shí)受到的影響更大,進(jìn)而容易引發(fā)抑郁。

      圖2 抑郁癥傾向的性別差異

      年齡特征。觀察抑郁用戶的年齡分布圖(見圖3)可以發(fā)現(xiàn),抑郁用戶的年齡近似服從正態(tài)分布,并集中在20歲左右的大學(xué)生群體,最低年齡為15歲,發(fā)病呈顯著低齡化。研究表明,大學(xué)生群體面臨的來(lái)自同齡人的競(jìng)爭(zhēng)更為激烈,這同時(shí)給他們帶來(lái)多方面的壓力。據(jù)《2020中國(guó)大學(xué)生健康調(diào)查報(bào)告》顯示,將近90%的大學(xué)生在最近一年內(nèi)產(chǎn)生過(guò)心里困擾,產(chǎn)生誘因比例計(jì)算如表1。

      圖3 抑郁用戶年齡分布圖

      表1 大學(xué)生心理困擾誘因

      由表1可知,大學(xué)生的心理困擾包括學(xué)業(yè)、人際關(guān)系和工作規(guī)劃,其中學(xué)業(yè)壓力是最令大學(xué)生不安的因素。學(xué)業(yè)成績(jī)是衡量學(xué)生優(yōu)秀與否的重要指標(biāo),因此落后的恐懼心理時(shí)??M繞;其次是人際關(guān)系和性格問(wèn)題,大學(xué)時(shí)期的人際交往比以前更為復(fù)雜。除與同學(xué)交往外,還有來(lái)自社團(tuán)和學(xué)生工作的老師,如何正確處理這些關(guān)系是大學(xué)生需要思考的問(wèn)題。倘若這些困擾和焦慮不能得到及時(shí)排解,勢(shì)必導(dǎo)致大學(xué)生長(zhǎng)期處于負(fù)性情緒之下,增加患抑郁癥的概率。

      地區(qū)特征。抑郁用戶在我國(guó)東南部地區(qū)的分布較為突出,尤其是廣東省、上海市、山東省和浙江省,中部地區(qū)次之,西北、西南和東北部地區(qū)幾乎沒(méi)有涵蓋入內(nèi)。這與我國(guó)經(jīng)濟(jì)發(fā)展的空間分布特征極為相似,經(jīng)濟(jì)高速發(fā)展的地域生活節(jié)奏較快,高壓強(qiáng)迫下的群體易擁有持續(xù)緊繃的狀態(tài),出現(xiàn)錯(cuò)誤導(dǎo)致的打擊也隨之嚴(yán)重放大,引發(fā)患病。

      (2)與人交往

      作為社交工具的微博平臺(tái)給用戶提供了多種溝通交流方式,用戶可以關(guān)注自己感興趣的博主,點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)喜歡的微博內(nèi)容,同時(shí)粉絲數(shù)也會(huì)隨著活躍度的提高而增加。為考察抑郁用戶與非抑郁用戶在與人溝通交往方面的差異,對(duì)爬取的用戶微博進(jìn)行獲贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)統(tǒng)計(jì),同時(shí)記錄用戶的微博關(guān)注數(shù)和粉絲數(shù),得到表2所示結(jié)果。

      表2 抑郁用戶與非抑郁用戶與人交往方面的差異

      通過(guò)抑郁用戶和非抑郁用戶在關(guān)注數(shù)、粉絲數(shù)、獲贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)的對(duì)比數(shù)據(jù),可以清楚感知到抑郁用戶在與人交往方面存在的缺失。很多抑郁癥患者習(xí)慣于把自己的感受放在內(nèi)心世界,不愿抽離出自己營(yíng)造的幻想,躲在自認(rèn)為的保護(hù)圈中難以自拔。當(dāng)他們過(guò)多關(guān)注自身的情緒卻不愿與人傾訴排解時(shí),勢(shì)必會(huì)引起一些不必要的負(fù)性思維。

      2.抑郁用戶微博內(nèi)容信息提取

      (1)發(fā)博時(shí)間

      整理爬取的抑郁用戶微博時(shí)發(fā)現(xiàn),許多用戶發(fā)博時(shí)間為凌晨12點(diǎn)之后,將抑郁用戶和非抑郁用戶的發(fā)博時(shí)間匯總成圖4所示的折線圖,對(duì)比二者一天內(nèi)發(fā)博頻率可知,抑郁用戶在0:00-6:00為發(fā)博活躍度較高的時(shí)段,第二個(gè)小高峰在18:00-24:00,相比之下非抑郁用戶的活躍時(shí)段多集中在18:00-24:00,在0:00-6:00幾乎沒(méi)有分布。結(jié)合抑郁癥患者的相關(guān)癥狀不難理解,抑郁癥患者典型癥狀之一為失眠,多方面壓力導(dǎo)致的焦慮使患者產(chǎn)生睡眠障礙,加之不愿與人溝通交往,抑郁情緒難以排解,只能把社交平臺(tái)當(dāng)作樹洞加以宣泄。因此,統(tǒng)計(jì)0:00-6:00之間微博用戶的發(fā)博率是區(qū)分抑郁用戶和非抑郁用戶的重要指標(biāo)。

      圖4 抑郁用戶與非抑郁用戶發(fā)博時(shí)間差異

      (2)微博文本

      圖5 抑郁用戶詞云圖

      圖6 非抑郁用戶詞云圖

      對(duì)比抑郁用戶和非抑郁用戶微博內(nèi)容詞云圖,初步發(fā)現(xiàn)抑郁用戶微博關(guān)鍵詞多為言辭偏激的負(fù)性詞匯,包括“抑郁癥”“失眠”“好累”“想死”等,除此之外,一些第一人稱表述詞如“我”“自己”也有較高的詞頻,這與抑郁癥患者對(duì)自身關(guān)注度較高有著密不可分的聯(lián)系。非抑郁用戶的關(guān)鍵詞詞性多為中性或積極情感詞,極少數(shù)為消極情緒詞。因此通過(guò)計(jì)算用戶微博內(nèi)容中具有區(qū)分性的詞匯的頻率,以期找出判斷抑郁與否的重要指標(biāo)。

      關(guān)鍵種子詞提取。種子詞是可以代表特定領(lǐng)域的詞。為了在抑郁和非抑郁數(shù)據(jù)集中提取關(guān)鍵種子詞,我們利用了算法,這是一種廣泛應(yīng)用于自然語(yǔ)言處理的特征提取算法。它的基本思想是,如果某個(gè)詞在一篇文檔中出現(xiàn)的頻率高,并且在語(yǔ)料庫(kù)中其他文檔中很少出現(xiàn),則認(rèn)為這個(gè)詞具有很好的類別區(qū)分能力。Salton和Yu首先提出了算法,Salton等證明了該算法在信息檢索中的有效性。詞頻(Termfrequency,TF)是指一個(gè)字或詞在一個(gè)文檔中出現(xiàn)的次數(shù),而逆文檔頻率(inverse document frequency,IDF)是指一個(gè)詞在所有文檔中出現(xiàn)的頻率,衡量的是該詞在整個(gè)語(yǔ)料庫(kù)中的特異性。

      TF和IDF的計(jì)算公式如下:

      其中ni,j是文檔 j中詞匯i的數(shù)目,k是文檔j中的詞匯數(shù),D是文檔的大小,DF(i)是出現(xiàn)過(guò)詞匯i的文檔數(shù)。TF-IDF計(jì)算公式如下:

      直觀來(lái)看,TF-IDF的計(jì)算表達(dá)的含義是一個(gè)給定的詞在語(yǔ)料庫(kù)中的重要性和特殊性,TF-IDF值越高,對(duì)某一特殊領(lǐng)域的代表性越強(qiáng)。分別從某抑郁用戶與某非抑郁用戶的微博內(nèi)容中計(jì)算出的TF-IDF值如表3、表4所示。

      表3 某抑郁用戶關(guān)鍵詞詞頻

      表4 某非抑郁用戶關(guān)鍵詞詞頻

      指標(biāo)提煉。通過(guò)對(duì)抑郁用戶和非抑郁用戶微博文本的信息提取,發(fā)現(xiàn)抑郁用戶在第一人稱詞匯的使用上較為頻繁,因此將文本中出現(xiàn)頻率較高的“我”與“自己”兩個(gè)關(guān)鍵詞的詞頻進(jìn)行加總,作為“第一人稱使用頻率”指標(biāo)用于下文的分類特征。針對(duì)抑郁用戶文本中負(fù)性詞匯較多這一特性,傳統(tǒng)的只含有正向情感詞和負(fù)向情感詞的情感詞典難以將抑郁用戶與非抑郁用戶區(qū)分開來(lái),因此本文選用對(duì)外經(jīng)貿(mào)大學(xué)與美國(guó)紐約哥倫比亞大學(xué)聯(lián)合實(shí)驗(yàn)項(xiàng)目建立的抑郁詞典作為匹配基準(zhǔn),將用戶微博文本中出現(xiàn)頻率最高的前20個(gè)抑郁詞匯的詞頻進(jìn)行加總,作為“抑郁詞匯使用頻率”這一特征變量。

      四、抑郁癥的識(shí)別

      (一)分類模型指標(biāo)確立

      通過(guò)對(duì)抑郁用戶與非抑郁用戶在社交網(wǎng)絡(luò)上的不同表現(xiàn),對(duì)抑郁用戶的識(shí)別有了初步的認(rèn)知,而對(duì)抑郁用戶與非抑郁用戶在個(gè)人信息、與人交往以及微博內(nèi)容3個(gè)方面的信息進(jìn)行提取和分析后,得到表5所示的11個(gè)特征變量,其中“所在地”屬于分類型變量,若與性別做相同的啞變量處理,會(huì)增加特征變量矩陣的稀疏性,因此用所在地2020年GDP數(shù)據(jù)代替“所在地”指標(biāo)下的分類數(shù)據(jù),將其轉(zhuǎn)化成數(shù)值型變量納入統(tǒng)計(jì)識(shí)別模型。本文在對(duì)微博用戶進(jìn)行抑郁癥傾向識(shí)別過(guò)程中擬從統(tǒng)計(jì)指標(biāo)體系法和機(jī)器學(xué)習(xí)法兩種思路展開。

      表5 特征變量篩選

      (二)分類模型方法選擇

      1.指標(biāo)體系法

      指標(biāo)體系法將與研究對(duì)象密切相關(guān)的指標(biāo)納入綜合評(píng)價(jià),計(jì)算綜合指數(shù)設(shè)定閾值,對(duì)目標(biāo)變量進(jìn)行劃分。本文選用Topsis距離綜合評(píng)價(jià)法對(duì)社交網(wǎng)絡(luò)用戶抑郁癥傾向指數(shù)進(jìn)行測(cè)算,其基本原理是通過(guò)檢測(cè)評(píng)價(jià)對(duì)象與正負(fù)理想解之間的加權(quán)歐式距離,得出評(píng)價(jià)對(duì)象與正理想解的接近程度,以此作為各評(píng)價(jià)對(duì)象優(yōu)劣的依據(jù),若評(píng)價(jià)對(duì)象最靠近正理想解同時(shí)又最遠(yuǎn)離負(fù)理想解,則為最優(yōu)。其中正理想解是一種設(shè)想的最好解,其各指標(biāo)值都達(dá)到各評(píng)價(jià)指標(biāo)的最優(yōu)值。負(fù)理想解是一種設(shè)想的最壞解,其各指標(biāo)值都達(dá)到各評(píng)價(jià)指標(biāo)的最差值。在對(duì)微博用戶抑郁傾向值進(jìn)行測(cè)算時(shí),通過(guò)建立指標(biāo)體系對(duì)各指標(biāo)數(shù)據(jù)進(jìn)行處理,確定指標(biāo)權(quán)重后計(jì)算抑郁癥傾向指數(shù),進(jìn)而對(duì)抑郁用戶和非抑郁用戶進(jìn)行區(qū)分。實(shí)施過(guò)程如下:

      為排除各評(píng)價(jià)指標(biāo)之間因數(shù)量級(jí)和量綱的不一致性所帶來(lái)的影響,首先需要對(duì)指標(biāo)數(shù)值進(jìn)行標(biāo)準(zhǔn)化處理得到x'ij,通過(guò)熵權(quán)法計(jì)算出各指標(biāo)權(quán)重wj后構(gòu)建加權(quán)矩陣:

      通過(guò)各指標(biāo)權(quán)重計(jì)算(表6)可以發(fā)現(xiàn),與人交往方面的指標(biāo)對(duì)抑郁癥用戶影響最為顯著,社交平臺(tái)本就是用戶溝通交流的重要渠道,時(shí)常使用社交平臺(tái)但鮮有互動(dòng)信息的用戶顯然值得關(guān)注。此外,個(gè)人信息方面的指標(biāo)對(duì)抑郁癥用戶的影響效果高于微博內(nèi)容,表明在抑郁癥識(shí)別模型中僅考慮微博用戶的文本信息遠(yuǎn)遠(yuǎn)不夠,需加入個(gè)人信息以及與人交往環(huán)節(jié)的相關(guān)指標(biāo)綜合考量。

      表6 特征變量權(quán)重計(jì)算結(jié)果

      最終測(cè)算出的用戶抑郁癥傾向值如表7所示。觀察抑郁傾向值計(jì)算結(jié)果可以發(fā)現(xiàn),抑郁用戶的傾向值大多高于0.3,非抑郁用戶的傾向值大多低于0.3,因此猜測(cè)閾值集中在0.3附近。

      表7 部分抑郁用戶與非抑郁用戶抑郁癥傾向值測(cè)算結(jié)果

      分別選取閾值為0.2、0.3和0.4進(jìn)行準(zhǔn)確率測(cè)度。這里準(zhǔn)確率的計(jì)算公式為:

      其中TP為將正類預(yù)測(cè)為正類數(shù),TN為將負(fù)類預(yù)測(cè)為負(fù)類數(shù),F(xiàn)P為將負(fù)類預(yù)測(cè)為正類數(shù),F(xiàn)N為將正類預(yù)測(cè)為負(fù)類數(shù)。因此準(zhǔn)確率的測(cè)度同時(shí)包括正確預(yù)測(cè)為抑郁用戶和正確預(yù)測(cè)為非抑郁用戶的概率。通過(guò)對(duì)不同閾值的設(shè)定發(fā)現(xiàn),當(dāng)閾值設(shè)置為0.3時(shí),預(yù)測(cè)準(zhǔn)確率最高,因此將其作為抑郁用戶和非抑郁用戶的傾向值分水嶺,若抑郁傾向值高于0.3,則認(rèn)為該用戶具有抑郁癥傾向,若抑郁傾向值低于0.3,則認(rèn)為該用戶不具有抑郁癥傾向。

      表8 不同閾值下準(zhǔn)確率測(cè)算

      2.機(jī)器學(xué)習(xí)分類法

      運(yùn)用機(jī)器學(xué)習(xí)法建立分類器對(duì)抑郁用戶進(jìn)行識(shí)別時(shí),初步擬采用單個(gè)學(xué)習(xí)器分類,分別是K近鄰、支持向量機(jī)、樸素貝葉斯和決策樹算法,通過(guò)觀察準(zhǔn)確率的表現(xiàn)可以發(fā)現(xiàn),樸素貝葉斯分類器相較其余三個(gè)分類器效果較好,但準(zhǔn)確率相較距離綜合評(píng)價(jià)法略顯不足,為了提高分類器算法性能,采用集成學(xué)習(xí)的方式繼續(xù)研究。

      集成學(xué)習(xí)通過(guò)建立多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),以期達(dá)到“博采眾長(zhǎng)”的效果。當(dāng)許多弱學(xué)習(xí)器被正確組合時(shí),能得到更精確、魯棒性更好的學(xué)習(xí)器。Xgboost極端梯度提升算法是一種常用的集成學(xué)習(xí)算法,將多個(gè)決策樹結(jié)合起來(lái)形成一個(gè)強(qiáng)大的學(xué)習(xí)系統(tǒng)。CART(回歸分類)樹通過(guò)加性模型得到組合,進(jìn)而做出共同的決策。XGBoost的結(jié)構(gòu)如圖7所示。

      圖7 XGBoost結(jié)構(gòu)示意圖

      盡管在一些如圖像、文本等的非結(jié)構(gòu)數(shù)據(jù)的預(yù)測(cè)問(wèn)題中,人工神經(jīng)網(wǎng)絡(luò)的表現(xiàn)較優(yōu),但在處理中小型結(jié)構(gòu)數(shù)據(jù)或表格數(shù)據(jù)時(shí),基于決策樹的算法略勝一籌。XGBoost算法借助梯度提升(Gradient Boost)框架,在不斷添加樹的同時(shí),通過(guò)共享屬性以生長(zhǎng)樹。每次添加一棵樹實(shí)際上就是學(xué)習(xí)一個(gè)新的函數(shù)來(lái)適應(yīng)上一次預(yù)測(cè)的殘差部分。事實(shí)上,根據(jù)樣本的特征會(huì)在每棵樹的相應(yīng)葉節(jié)點(diǎn)上得到一個(gè)得分。最后只需將每棵樹的相應(yīng)得分相加,就可以得到樣本的預(yù)測(cè)值,預(yù)測(cè)函數(shù)見式(9)。

      其中,wq(x)為葉子節(jié)點(diǎn)q的分?jǐn)?shù),(x)為其中一棵回歸樹。

      XGBoost目標(biāo)函數(shù)由兩部分構(gòu)成,第一部分用來(lái)衡量預(yù)測(cè)值和真實(shí)值之間的差距,也即損失函數(shù),一般為均方差函數(shù)。另一部分是正則化項(xiàng),與樹的復(fù)雜度有關(guān),同樣包含兩部分,T表示葉子結(jié)點(diǎn)的個(gè)數(shù),w表示葉子節(jié)點(diǎn)的分?jǐn)?shù)。γ可以控制葉子結(jié)點(diǎn)的個(gè)數(shù),λ可以控制葉子節(jié)點(diǎn)的分?jǐn)?shù)不會(huì)過(guò)大,防止過(guò)擬合。目標(biāo)函數(shù)定義如下:

      為使目標(biāo)函數(shù)最小,XGBoost對(duì)損失函數(shù)進(jìn)行了二階泰勒展開,經(jīng)過(guò)改寫后得到最優(yōu)的樹結(jié)構(gòu):

      經(jīng)計(jì)算可對(duì)每個(gè)用戶進(jìn)行得分評(píng)價(jià),分類時(shí)采用機(jī)器學(xué)習(xí)默認(rèn)閾值0.5進(jìn)行分割,部分用戶分類結(jié)果如表9所示。

      表9 XGBoost集成學(xué)習(xí)器分類結(jié)果

      與單個(gè)學(xué)習(xí)器以及TOPSIS距離綜合評(píng)價(jià)法計(jì)算結(jié)果相比,XGBoost算法在準(zhǔn)確率的計(jì)算上有顯著提升(見表 10)。

      表10 各分類方法準(zhǔn)確率對(duì)比

      同時(shí),XGBoost模型對(duì)影響抑郁癥傾向的重要特征進(jìn)行篩選,最終得到6個(gè)對(duì)抑郁癥傾向影響較為顯著的變量,重要程度依次為第一人稱使用頻率、轉(zhuǎn)發(fā)數(shù)、抑郁傾向詞使用頻率、獲贊數(shù)、0:00-6:00發(fā)博率和年齡(見圖8)。

      圖8 影響抑郁癥傾向的重要特征篩選

      五、結(jié)論

      學(xué)者利用社交網(wǎng)絡(luò)信息進(jìn)行抑郁癥識(shí)別研究時(shí),充分利用到用戶的微博文本特征進(jìn)行深入挖掘。而本文在此基礎(chǔ)上,增加用戶個(gè)人信息和與人交往方面的考量。通過(guò)對(duì)抑郁癥傾向用戶在個(gè)人信息、與人交往以及微博內(nèi)容相關(guān)變量的提取,初步勾勒出抑郁用戶的行為特征。研究發(fā)現(xiàn),抑郁用戶多集中于經(jīng)濟(jì)較為發(fā)達(dá)地區(qū)的女性大學(xué)生群體,因此可以充分利用信息公開透明的網(wǎng)絡(luò)世界,監(jiān)測(cè)此類群體的“危險(xiǎn)發(fā)言”,必要時(shí)采取行動(dòng)進(jìn)行救援。荷蘭阿姆斯特丹自由大學(xué)人工智能終身教授黃智生在2019年AI科學(xué)前沿大會(huì)演講時(shí),首次向公眾展示了樹洞計(jì)劃:通過(guò)智能機(jī)器人監(jiān)控社交媒體并實(shí)時(shí)發(fā)布自殺監(jiān)控通報(bào),隨后組織樹洞救援團(tuán)根據(jù)監(jiān)控通報(bào)采取自殺救助行動(dòng)。盡管相關(guān)技術(shù)有待完善,但充分利用人工智能對(duì)抑郁癥患者進(jìn)行心理疏導(dǎo),無(wú)疑是人類精神文明建設(shè)的高階。

      本文建立抑郁癥識(shí)別模型時(shí),分別從傳統(tǒng)指標(biāo)體系法與機(jī)器學(xué)習(xí)分類法兩個(gè)角度展開,由準(zhǔn)確率看,機(jī)器學(xué)習(xí)中集成算法的分類效果顯著高于傳統(tǒng)統(tǒng)計(jì)指標(biāo)體系法,但在特征變量重要性的分析上,XGBoost只篩選出6個(gè)影響較為突出的因素,且集中在微博內(nèi)容方面的相關(guān)指標(biāo),而TOPSIS距離綜合評(píng)價(jià)法計(jì)算出的各變量的權(quán)重側(cè)重于與人交往方面,個(gè)人信息次之,這從一定程度上印證了運(yùn)用社交網(wǎng)絡(luò)信息進(jìn)行抑郁癥識(shí)別時(shí)加入二者相關(guān)信息的必要性。因此建立模型時(shí)不應(yīng)單純追求準(zhǔn)確率,應(yīng)根據(jù)研究主題深入探究相關(guān)變量的影響效果,定性分析與定量分析相結(jié)合。

      猜你喜歡
      社交指標(biāo)用戶
      社交之城
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      社交距離
      最新引用指標(biāo)
      莫讓指標(biāo)改變初衷
      商周刊(2018年26期)2018-12-29 12:56:00
      你回避社交,真不是因?yàn)閮?nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      關(guān)注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      關(guān)注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      關(guān)注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      Double圖的Kirchhoff指標(biāo)
      岱山县| 木兰县| 武强县| 资阳市| 三门县| 房山区| 和龙市| 乾安县| 武安市| 会理县| 广水市| 呼和浩特市| 穆棱市| 大余县| 乐平市| 玉林市| 商城县| 务川| 伊金霍洛旗| 武威市| 什邡市| 德钦县| 碌曲县| 镇雄县| 新疆| 泰安市| 金平| 连城县| 芜湖市| 南木林县| 岚皋县| 永和县| 建平县| 邯郸县| 西盟| 无极县| 辽宁省| 安仁县| 车险| 和龙市| 天气|