李堅(jiān)孝,吳家隱*,莫秋燕,洪燦強(qiáng),李先緒
(1.廣東郵電職業(yè)技術(shù)學(xué)院計(jì)算機(jī)學(xué)院,廣州 510630;2.凱里學(xué)院大數(shù)據(jù)工程學(xué)院,凱里 556011;3.中國(guó)電信股份有限公司廣州研究院,廣州 510630)
近年來(lái)由于經(jīng)濟(jì)迅速增長(zhǎng),生活節(jié)奏加快等原因,抑郁癥患者每年大約同比增加57%,增長(zhǎng)速度非常快。抑郁癥嚴(yán)重危害患者身心健康。傳統(tǒng)的心理健康診斷方法主要是通過(guò)患者到心理醫(yī)院?jiǎn)栐\。而實(shí)際上許多患者不會(huì)主動(dòng)就醫(yī),因此容易延誤病情。對(duì)于心理健康狀態(tài)欠佳的人員,家庭輔助治療尤為缺失。精神病人大部分康復(fù)生活是在家庭中渡過(guò)的,家庭照料可鞏固治療效果,防止疾病復(fù)發(fā),然而一般家庭對(duì)于抑郁癥患者的心理健康水平難以做出專業(yè)判斷,而且也不具備專業(yè)知識(shí)來(lái)根據(jù)抑郁癥患者的心理健康水平來(lái)進(jìn)行輔助治療。
目前,現(xiàn)有的心理服務(wù)平臺(tái)有Q心理、壹心理、心理醫(yī)生等產(chǎn)品,主要包括線上咨詢、線下咨詢預(yù)約、知識(shí)科普等功能[1]。然而,現(xiàn)有產(chǎn)品存在如下不足:
(1)跟蹤治療不夠到位,主要依靠患者的耐心和主動(dòng)性,沒(méi)能實(shí)現(xiàn)真正的實(shí)時(shí)跟蹤管理。
(2)無(wú)法根據(jù)患者當(dāng)前的心理狀態(tài)給予家屬針對(duì)性的心理健康干預(yù)知識(shí)引導(dǎo)。
(3)由于主要是一對(duì)一咨詢的方式解決心理問(wèn)題的發(fā)現(xiàn)及診斷,即使使用了互聯(lián)網(wǎng)手段,仍然未能解決心理醫(yī)生人數(shù)匱乏的問(wèn)題。
本文對(duì)于現(xiàn)有的情感分析主要面向于短文本情感分析,由于在長(zhǎng)文本的數(shù)據(jù)中準(zhǔn)確率難以達(dá)到理想的狀態(tài),所以基于機(jī)器學(xué)習(xí)的TF-IDF的長(zhǎng)文本情感分析能提高處理長(zhǎng)文本的數(shù)據(jù)的準(zhǔn)確率。
客戶端技術(shù),機(jī)器學(xué)習(xí)和語(yǔ)義分析采取分布式處理,其嵌入客戶端,由用戶本地資源進(jìn)行對(duì)數(shù)據(jù)情感分析,客戶端含有比較理想的語(yǔ)料庫(kù)、機(jī)器學(xué)習(xí)模型、語(yǔ)義分析、文本相似度TF-IDF模型,由用戶本地資源獨(dú)立處理后并評(píng)分,傳輸?shù)椒?wù)端進(jìn)行醫(yī)生的干預(yù)和處理,很好避免了用戶隱私的問(wèn)題、服務(wù)端達(dá)到負(fù)載均衡的最低值、利用現(xiàn)有的安卓手機(jī)的過(guò)剩、服務(wù)端的流量大大減少。
后端技術(shù),接入層:負(fù)責(zé)終端APP與服務(wù)器建立連接,業(yè)務(wù)邏輯層:實(shí)現(xiàn)各種業(yè)務(wù)需求的功能,利用PHP開(kāi)發(fā)。存儲(chǔ)層:保存業(yè)務(wù)數(shù)據(jù),利用MySQL數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。
服務(wù)端技術(shù),由客戶端對(duì)網(wǎng)頁(yè)采集進(jìn)行長(zhǎng)文本數(shù)據(jù)采集,經(jīng)過(guò)服務(wù)端的TF-IDF和機(jī)器學(xué)習(xí)計(jì)算出來(lái)結(jié)果,相似度計(jì)算處理長(zhǎng)文本起非常大的作用,由于自然語(yǔ)言處理無(wú)法完成相似度計(jì)算,本文把文本進(jìn)行向量化,利用歐式距離、余弦相似度的數(shù)學(xué)模型實(shí)現(xiàn)文本相似度計(jì)算。本文的相似度計(jì)算采用TF-IDF模型,利用統(tǒng)計(jì)的一種方法實(shí)現(xiàn)文本相似度計(jì)算,TF-IDE使用向量空間余弦距離計(jì)算特征空間測(cè)度。TF-IDF模型關(guān)鍵作用在于詞頻和逆向文本頻率實(shí)現(xiàn)相似度,由于在原始文本數(shù)據(jù)里面存在大量的垃圾數(shù)據(jù),該模型通過(guò)過(guò)濾常見(jiàn)的一些不是主謂賓的詞語(yǔ),在分詞的步驟下保留了重要的詞語(yǔ),通過(guò)了向量空間TF-IDF權(quán)重計(jì)算歐式距離、余弦相似度測(cè)試多個(gè)文本之間的距離從而計(jì)算它們自己的詞頻率,在一篇文本中,計(jì)算文本的每一維度所對(duì)應(yīng)的詞組或者詞,一個(gè)詞組假如出現(xiàn)在文本數(shù)據(jù)里面,那么該詞組在文本數(shù)據(jù)里面定義為非零狀態(tài)。TF-IDF計(jì)算的公式:TF-IDF=詞頻X擬文檔頻率,公式的理解:測(cè)試文本數(shù)據(jù)的單詞在該文本當(dāng)中出現(xiàn)的頻率很高而且在其他的測(cè)試文本中出現(xiàn)很少,就認(rèn)為該單詞數(shù)據(jù)能夠區(qū)分文本之間的差異性。文本利用TF-IDF進(jìn)行情感的輔助性分析,主要是給多個(gè)文本進(jìn)行同步的相似度計(jì)算從而知道一個(gè)用戶的所以文本數(shù)據(jù)的情感值。
文獻(xiàn)[2]改進(jìn)了TF-IDF算法,提高了文本分析的效率和性能,算法流程實(shí)現(xiàn):
(1)對(duì)原文本進(jìn)行預(yù)處理
(2)對(duì)文本進(jìn)行分詞,詞性標(biāo)注
(3)計(jì)算文本的特定詞頻
(4)使用特征方法提取重要的文字
(5)使用特征權(quán)重算法對(duì)TF-IDF進(jìn)行詞頻轉(zhuǎn)換。
(6)完成對(duì)文本的向量化表達(dá)
(7)用訓(xùn)練好的模型分類器和語(yǔ)料庫(kù)進(jìn)行結(jié)果的計(jì)算形成分類。
本文研究了基于相似度的心理預(yù)警技術(shù)研究,本文包括客戶端采取分布式機(jī)器學(xué)習(xí)模型,機(jī)器學(xué)習(xí)和語(yǔ)義分析采取分布式處理,其嵌入客戶端,由用戶本地資源進(jìn)行對(duì)數(shù)據(jù)情感分析,客戶端含有比較理想的語(yǔ)料庫(kù)、機(jī)器學(xué)習(xí)模型、語(yǔ)義分析、文本相似度TF-IDF模型,實(shí)驗(yàn)采取機(jī)器學(xué)習(xí)的TF-IDF實(shí)現(xiàn)長(zhǎng)文本數(shù)據(jù)情感分析。由于心理疾病的預(yù)防和醫(yī)生的快速干預(yù)成為現(xiàn)在我們關(guān)心得主題,但是用戶存在擔(dān)心隱私的問(wèn)題。本文很好解決了用戶的隱私問(wèn)題。