唐曉波 李津
(1.武漢大學信息資源研究中心,武漢 430072;2.武漢大學信息管理學院,武漢 430072)
隨著居民生活水平的提高,健康管理意識的增強,以及互聯(lián)網(wǎng)的快速發(fā)展,人們通過網(wǎng)絡(luò)獲取健康信息的需求越來越大。據(jù)統(tǒng)計,截至2016年12月,我國互聯(lián)網(wǎng)醫(yī)療用戶規(guī)模為1.95億人,大量用戶通過網(wǎng)絡(luò)平臺獲取醫(yī)療健康的相關(guān)服務(wù)[1]。對這些在線健康社區(qū)的信息進行分析研究,發(fā)掘用戶的健康信息需求,可以提高社區(qū)健康信息服務(wù)的質(zhì)量,促進網(wǎng)絡(luò)社區(qū)平臺的建設(shè)和發(fā)展?!吨袊难懿蟾妗分赋?,2012年全國18歲及以上成人的高血壓患病率為25.2%,根據(jù)第六次全國人口普查數(shù)據(jù),測算中國高血壓患病人數(shù)約為2.7億人[2]。高血壓是目前最常見的慢性病,我國每年約200萬人的死亡與高血壓有關(guān),該病已成為重要公共衛(wèi)生問題[3]。本文選取在線健康社區(qū)中用戶的高血壓問答為例,利用文本挖掘方法對其進行聚類分析,提取主題,通過對比不同時間段主題分布的變化,了解用戶需求的特征和變化趨勢,為健康信息服務(wù)提供參考。
在線健康社區(qū)是一個包含信息、用戶和社區(qū)3個要素的復(fù)雜系統(tǒng)。信息是用戶在社區(qū)中反映自身需求、認知和情感的記錄;用戶是在線健康社區(qū)的參與者,不斷地產(chǎn)生、搜索、獲取和使用健康信息;社區(qū)是為用戶提供線上信息交流的平臺[4]。研究者主要從信息、用戶和社區(qū)三個維度展開對在線健康社區(qū)的研究。
從信息維度,研究者聚焦于在線健康社區(qū)中信息的主要內(nèi)容,對信息的主題和情感進行研究,挖掘社區(qū)用戶的健康信息需求。Roberts等[5]對美國國立醫(yī)學圖書館和罕見病信息中心網(wǎng)站上的提問信息進行分析,得到病因、診斷、并發(fā)癥、臨床表現(xiàn)等共13個類別的主題;鄧勝利等[6]以百度知道中高血壓提問記錄作為研究對象,利用文本挖掘軟件分析發(fā)現(xiàn)用戶更關(guān)心日常疾病管理、疾病確診和治療,并希望在社區(qū)中獲得情感支持。從用戶維度,研究者主要探討在線健康社區(qū)中用戶健康信息的獲取、搜索和共享等行為。Wong等[7]調(diào)查發(fā)現(xiàn)在15歲以上的患者中,使用互聯(lián)網(wǎng)和搜索健康信息頻率與年齡呈反比,具社會經(jīng)濟優(yōu)勢的患者在網(wǎng)上獲取健康信息的可能性明顯高于弱勢群體,但是患者的性別、英語水平和地理位置不影響他們搜索健康信息;張克永等[8]構(gòu)建了網(wǎng)絡(luò)健康社區(qū)用戶知識共享的影響因素模型,調(diào)查發(fā)現(xiàn)自我效能、利他主義、社會信任等因素與用戶知識共享行為呈現(xiàn)顯著正相關(guān)。從社區(qū)維度,研究主要集中在社區(qū)的價值、運行模式和發(fā)展現(xiàn)狀等方面。Lee等[9]發(fā)現(xiàn)在搜索健康信息時,谷歌導(dǎo)航并不能滿足用戶的需求,解決社區(qū)網(wǎng)頁設(shè)計不足的問題非常必要;楊化龍等[10]在分析薄荷網(wǎng)用戶的相關(guān)數(shù)據(jù)后,發(fā)現(xiàn)社區(qū)中用戶獲得的社會支持和個人目標都對用戶的健康有積極影響,且對男性和女性用戶影響程度不同,建議在線健康社區(qū)的設(shè)計者對不同性別的用戶開發(fā)不同的主頁和系統(tǒng)。
早期對在線健康社區(qū)信息需求的研究大多采用問卷調(diào)查或者訪談的方式,以社區(qū)的用戶作為調(diào)查對象,統(tǒng)計他們在社區(qū)中討論的熱點話題。Armstrong等[11]通過對糖尿病患者的訪談,了解他們在在線健康社區(qū)中討論的熱點話題。但這些方法經(jīng)常受到樣本數(shù)量的限制以及問卷設(shè)計等因素的影響,導(dǎo)致結(jié)果具有一定的局限性,難以從整體上反映用戶的信息需求。隨著在線健康社區(qū)的快速發(fā)展,用戶在社區(qū)上發(fā)布大量信息,有些研究者開始通過對這些信息文本進行深入分析,以此來反映在線健康社區(qū)的用戶信息需求。最初研究者普遍采用基于統(tǒng)計分析和人工標注的方法。Zhang[12]統(tǒng)計分析雅虎問答社區(qū)的糖尿病患者的問答記錄,發(fā)現(xiàn)了糖尿病患者關(guān)心的12類健康主題;金碧漪等[13]選取Yahoo!Answers網(wǎng)站和Diabetic Connect論壇中糖尿病相關(guān)文本,采用人工編碼和文本處理等方法,得到8類主題,對比兩種網(wǎng)絡(luò)社區(qū)的主題分布情況,大體趨于一致,但在診斷和檢查、社會生活主題上各有側(cè)重。郭海紅等[14]對尋醫(yī)問藥網(wǎng)站的高血壓相關(guān)問句進行了人工標注,得到包含診斷、治療、病情管理、流行病學、健康生活、擇醫(yī)及其他共7個一級主題類目。
近年來,隨著自然語言處理研究的快速發(fā)展,基于主題識別和文本挖掘的方法也逐漸應(yīng)用到在線健康社區(qū)信息需求分析的研究中。Chen[15]采用K-means方法對3個網(wǎng)絡(luò)健康社區(qū)的發(fā)帖文本進行聚類分析,發(fā)現(xiàn)不同社區(qū)熱點主題不同,同時也有如患者經(jīng)驗、治療、藥物和身體管理等相同主題;呂英杰[16]采用EM聚類方法對Medhelp網(wǎng)站的發(fā)帖進行主題分析、成員角色分析和情感分析,最終定義了個人詳細介紹、情感支持、癥狀、檢查、并發(fā)癥、用藥和治療共7個熱點主題;李重陽等[17]結(jié)合LDA和人工標注方法,對百度知道的癌癥問答進行分析,發(fā)現(xiàn)用戶對癌癥信息的需求集中在基礎(chǔ)病理知識、疾病預(yù)防、診斷檢查、治療和其他共5個主題,且各個主題的關(guān)注隨時間變化而變化。
綜上所述,在線健康社區(qū)信息需求分析早期采用問卷調(diào)查或訪談的方法,兩種方法會受到樣本數(shù)量等因素的影響,難以客觀全面地反映在線健康社區(qū)的熱點話題。以社區(qū)中實際發(fā)布的文本信息作為研究對象,數(shù)據(jù)更加真實可信,但依靠人工編碼的方式需要消耗大量的人力和時間成本,LDA方法在文本的語義層面也有欠缺。本文以在線健康網(wǎng)站中用戶提出的高血壓相關(guān)問題以及醫(yī)生回答中的最佳答案作為研究對象,抽取并融合文本的詞語特征和詞權(quán)重特征,采用K-means++方法對文本聚類,提取關(guān)鍵詞識別主題并進行分析。
本文研究方案如圖1所示,包括數(shù)據(jù)采集與預(yù)處理、特征抽取與融合、主題識別。
圖1 研究方案
本文利用python爬取在線健康社區(qū)中高血壓問答文本、高血壓常用藥品名稱及高血壓相關(guān)文章,搜集常見疾病名稱、癥狀、體征和臨床表現(xiàn)等。所有相關(guān)文本作為語料庫訓練詞向量,同時高血壓常用藥品數(shù)據(jù)用于構(gòu)建常用藥品詞典,疾病名稱、癥狀、體征和臨床表現(xiàn)用于構(gòu)建疾病相關(guān)詞典。利用jieba對文本進行預(yù)處理(包括分詞和去停用詞),過程中使用了常用藥品詞典、疾病相關(guān)詞典和停用詞表。藥品詞典和疾病相關(guān)詞典用于句子分詞時藥品名和醫(yī)學專有詞不被劃分開,以保證藥品和醫(yī)學詞匯表達得完整;停用詞表則用于消除句子中沒有意義的詞,本文以哈爾濱工業(yè)大學中文停用詞表為基礎(chǔ)并作部分修改。
(1)詞語特征。最早由Hinton[18]提出將詞映射成多維向量,通過詞語向量間的余弦來判斷詞之間的距離。詞向量廣泛應(yīng)用于自然語言處理,它可以很好地表達詞語的語義以及詞之間存在的相似關(guān)系。本文使用Google發(fā)布的word2vec詞向量計算工具訓練詞向量,選擇skip-gram模型,采用negative sampling訓練算法,詞向量維度為200,訓練窗口為5。
(2)詞權(quán)重特征。本文使用TF-IDF方法計算文本中詞語的權(quán)重,該方法主要思想是當某個詞語在一篇文檔中出現(xiàn)的頻率高,且在其他文檔中很少出現(xiàn),則認為該詞語具有很好的類別區(qū)分能力[19]。其中,TF(Term Frequency)指詞頻,計算詞語在文檔中出現(xiàn)的頻率,見公式(1);IDF(Inverse Document Frequency)指逆向文件頻率,反應(yīng)詞語在所有文檔中出現(xiàn)的頻率,見公式(2);TF-IDF實際是指TF和IDF的乘積,見公式(3)。
公式(1)中,f(t,d)表示詞語t在文檔d中出現(xiàn)的次數(shù),∑kf(wk,d)表示文檔d中所有詞語出現(xiàn)的次數(shù)之和。公式(2)中,|D|表示文檔集中文檔的總個數(shù),|d∈D:t∈d|表示文檔集中包含詞語t的文檔數(shù)量,為避免分母為0的情況,一般使用1+|d∈D:t∈d|。
(3)特征融合。詞語特征揭示了詞間的語義關(guān)系,詞權(quán)重特征反映了詞語的重要程度,將文檔的詞語特征和詞權(quán)重特征采用特征相乘的方式進行融合。文檔d的向量可由文檔中k個詞語的詞語特征和詞權(quán)重特征乘積之和表示,見公式(4)。
其中,tfidf(t,d)表示文檔d中詞語t的TF-IDF值,word2vec(t)表示詞語t的詞向量。
首先利用K-means++算法對問答文本聚類,然后對每個類別分別提取關(guān)鍵詞并擴展關(guān)鍵詞,最后識別主題。K-means++算法是基于原始K-means算法,具體算法過程如下[20]。
通過文本聚類后,每個文檔分配到距離最近的簇中,即對應(yīng)一個類別;每個類別包含多個文檔,即對應(yīng)一個文檔集。對于這些文檔集,我們無法直觀地看出每個類別的主題。利用TF-IDF算法,計算多個文檔集中詞語的權(quán)重,選擇權(quán)重高的詞語作為該類別的關(guān)鍵詞,然后利用詞向量余弦相似度對關(guān)鍵詞進行擴展,最后基于關(guān)鍵詞識別主題。
本文利用python爬取39健康網(wǎng)站高血壓相關(guān)問答對共14 507條、高血壓常用藥品439種、高血壓相關(guān)文章共42 396篇。搜集到39健康網(wǎng)站中主要科室的常見標簽515個,包含常見疾病名稱和癥狀等。所有文本作為語料庫訓練詞向量,同時高血壓常用藥品數(shù)據(jù)用于構(gòu)建常用藥品詞典,疾病名稱和癥狀等數(shù)據(jù)用于構(gòu)建疾病相關(guān)詞典。39健康網(wǎng)站問醫(yī)生專欄用戶以患者和醫(yī)生為主,由用戶提問,具有行醫(yī)資格的醫(yī)生在線回答。本文以健康網(wǎng)站的問題和最佳答案作為研究對象,問答文本部分示例見表1。
表1 高血壓問答文本示例
根據(jù)網(wǎng)站用戶發(fā)布問題的時間,將2014—2018年問答文本分為5組,數(shù)量分布如圖2所示,數(shù)據(jù)量總體呈逐年上升趨勢。
利用python中sklearn包對文本聚類,計算不同類別個數(shù)的誤差平方和SSE,并據(jù)此確定聚類個數(shù)6大類,每個大類再分別重新計算SSE確定小類共16個,依據(jù)各個類別提取出來的關(guān)鍵詞合并相似類別,最終得到8個子類目,4個主題,主題分布如表2和圖3所示。治療類相關(guān)問答記錄最多(36.28%),其次是并發(fā)癥(24.61%)和生活類(23.89%),診斷類最少(15.22%)。
圖2 問答文本數(shù)量分布
診斷類問答文本最少,說明用戶對高血壓的診斷標準比較熟悉,高血壓以收縮壓超過140毫米汞柱和舒張壓超過90毫米汞柱作為主要標準,可能伴有頭暈嘔吐等臨床表現(xiàn)。治療類問答文本最多,高血壓治療以藥物治療為主,西藥問答記錄遠高于中藥,用戶對西藥的服用方法和副作用關(guān)注度較高,治療高血壓常用的西藥是硝苯地平和氨氯地平等,中藥以三七、天麻粉等作為輔助治療。用戶對高血壓的并發(fā)癥關(guān)注度較高,并發(fā)癥以心腦血管疾病、腎臟疾病和眼部疾病為主。高血壓是目前最常見的慢性病,疾病所帶來的并發(fā)癥嚴重影響患者的健康生活。網(wǎng)站上生活類問答文本也較多,說明用戶日常生活中自我管理的意識較強,在藥物治療的基礎(chǔ)上,通過清淡飲食、增強鍛煉和調(diào)整心態(tài)等方法控制高血壓。
表2 信息需求主題及其分布情況
2014—2018年,39健康網(wǎng)站用戶對高血壓健康信息的需求呈現(xiàn)一定的變化,見圖4。
圖3 信息需求主題分布
圖4 2014—2018年信息主題分布
診斷類信息的需求呈現(xiàn)下降趨勢,高血壓作為最常見的慢性病,已逐步被大眾所認知和熟悉,用戶對高血壓的診斷標準更加了解。治療類信息需求一直很高,但也有下降的趨勢,與此同時生活類信息需求呈現(xiàn)上升趨勢。目前高血壓的治療方法比較成熟和完善,需要患者長期服藥控制和對自我生活的管理。隨著健康意識和知識的增強,患者對高血壓的治療也有更全面和清晰的認識,在藥物治療的基礎(chǔ)上,保持健康的生活方式。關(guān)于高血壓并發(fā)癥類的信息需求呈現(xiàn)上升趨勢,高血壓并發(fā)癥對患者生活的影響日益明顯,用戶對并發(fā)癥的危害也越來越重視,并積極地學習相關(guān)知識。
在線健康社區(qū)用戶信息需求主題主要包括診斷、治療、并發(fā)癥和生活,其中治療的關(guān)注度最高。2014—2018年,用戶對診斷和治療的關(guān)注度有下降趨勢,對并發(fā)癥和生活方式的關(guān)注度有上升趨勢。這說明用戶對高血壓的基本知識有了一定的了解和掌握,更關(guān)心高血壓并發(fā)癥可能帶來的更嚴重傷害;同時在日常生活中注意健康飲食等自我管理和控制,健康意識在逐步提升。
本文采用文本挖掘技術(shù)對在線健康社區(qū)信息需求展開了主題識別和分析,探討了其中的現(xiàn)象和原因,為在線健康社區(qū)信息服務(wù)提供參考。在之后的研究中,還可以從以下兩個方面進行改進:①其他疾病的熱點主題與高血壓可能有差異,有待繼續(xù)研究;②采用更前沿的技術(shù)對文本做深層次、細粒度的挖掘和分析。