司 莉,舒 嬋
在線醫(yī)療社區(qū)是醫(yī)療服務(wù)新型業(yè)態(tài),依托于互聯(lián)網(wǎng)信息技術(shù),將醫(yī)療服務(wù)從線下轉(zhuǎn)移到線上。在線醫(yī)療社區(qū)按服務(wù)主體可分為三類:一是患者交流平臺(tái),主要用戶為患有相同或相似病癥的患者,如甜蜜家園、慢友幫;二是醫(yī)生交流平臺(tái),主要為醫(yī)生提供學(xué)術(shù)交流和在線培訓(xùn)等,如丁香園、好醫(yī)生;三是醫(yī)患交流平臺(tái),具有醫(yī)生和患者兩類用戶,主要為醫(yī)患之間的健康管理、健康咨詢、掛號(hào)、導(dǎo)診、問(wèn)診、藥品購(gòu)買等交流提供平臺(tái),如好大夫在線、春雨醫(yī)生[1]?!昂么蠓蛟诰€”是國(guó)內(nèi)最大的醫(yī)患互動(dòng)平臺(tái),創(chuàng)建于2006年,積累了大量醫(yī)患數(shù)據(jù)。糖尿病是一種由于胰島素分泌不足或外周組織對(duì)胰島素不敏感引起的代謝性疾病,以持續(xù)高血糖狀態(tài)為特征,可能引發(fā)100 多種并發(fā)癥。糖尿病病人由于患病時(shí)間長(zhǎng),更易在醫(yī)療社區(qū)瀏覽和發(fā)布信息。因此,本文以“好大夫在線”的問(wèn)答數(shù)據(jù)為例,通過(guò)數(shù)據(jù)分析,探討與糖尿病主題相關(guān)患者、醫(yī)生與醫(yī)患問(wèn)答的特征。
在線醫(yī)療社區(qū)目前沒(méi)有統(tǒng)一的定義,存在若干相似概念。筆者在中國(guó)知網(wǎng)中以“在線醫(yī)療社區(qū)”“在線醫(yī)療平臺(tái)”“在線健康平臺(tái)”“在線健康社區(qū)”“健康醫(yī)療社區(qū)”“健康醫(yī)療平臺(tái)”作為主題詞進(jìn)行檢索,共有392 條記錄,集中于近5年,說(shuō)明相關(guān)研究處于起步階段。
在線醫(yī)療社區(qū)患者研究主要包括:一是患者使用在線醫(yī)療社區(qū)的意愿研究,從影響因素、影響關(guān)系等方面展開(kāi),發(fā)現(xiàn)社會(huì)支持、成就需要、隱私安全、感知信任、醫(yī)療效果、感知收益和交互設(shè)計(jì)等都有正向影響[2-3]。二是患者信息披露與個(gè)人隱私的顧慮研究,從影響因素、影響模型構(gòu)建等方面展開(kāi),發(fā)現(xiàn)患者性格、信息敏感、以往經(jīng)歷、情感承諾、外部保護(hù)和醫(yī)生信譽(yù)等都對(duì)患者的信息披露與隱私顧慮產(chǎn)生影響[4-9]。三是患者的社區(qū)參與和知識(shí)共享行為研究,發(fā)現(xiàn)利他性、歸屬感、互動(dòng)中心性、等價(jià)性、交互感知和社區(qū)回報(bào)對(duì)共享行為產(chǎn)生影響,且不同用戶存在差異[10-13]。四是研究患者的購(gòu)買意愿,影響因素有網(wǎng)絡(luò)口碑、患者生成信息和醫(yī)生生成信息等[14-15]。
醫(yī)生特征研究集中在對(duì)醫(yī)生聲譽(yù)、服務(wù)價(jià)格、個(gè)人貢獻(xiàn)、疾病類型、咨詢量和個(gè)人收益等之間的關(guān)系的研究。劉笑笑以好大夫在線為例,發(fā)現(xiàn)醫(yī)生的在線信譽(yù)和努力對(duì)醫(yī)生咨詢量有顯著影響[16]。韓曉翠基于好大夫在線醫(yī)生數(shù)據(jù),發(fā)現(xiàn)醫(yī)生的經(jīng)濟(jì)回報(bào)、名譽(yù)回報(bào)及線下身份對(duì)貢獻(xiàn)行為有積極影響[17]。李洋從糖尿病、冠心病和乳腺癌3 種慢性病入手,發(fā)現(xiàn)不同疾病的醫(yī)生貢獻(xiàn)行為的影響因素存在差異[18]。李瑩瑩發(fā)現(xiàn)服務(wù)評(píng)價(jià)、醫(yī)生職稱、醫(yī)生所在醫(yī)院對(duì)服務(wù)價(jià)格有顯著影響[19]。葉存輝等以好大夫在線為例,研究醫(yī)生受訪量的影響因素,發(fā)現(xiàn)相對(duì)于醫(yī)生職稱,患者更在乎醫(yī)院等級(jí)[20]。梁俏等基于好大夫在線數(shù)據(jù)分析,認(rèn)為醫(yī)生及其同事的努力和聲譽(yù)對(duì)參與免費(fèi)咨詢的新患者數(shù)有顯著影響[21]。
李蕾等總結(jié)社會(huì)化問(wèn)答主要包括問(wèn)題、答案、用戶和平臺(tái)[22],而在醫(yī)療領(lǐng)域主要是問(wèn)答主題特征研究。呂英杰等研究Medhelp 社區(qū)中肺癌、乳腺癌和糖尿病3 種疾病,提取7 個(gè)熱點(diǎn)主題[23]。金碧漪等基于問(wèn)答網(wǎng)站和糖尿病社區(qū)的數(shù)據(jù)得出糖尿病的主題分布特征[24]。王煜等以尋醫(yī)問(wèn)藥網(wǎng)中糖尿病社區(qū)的帖子內(nèi)容為分析對(duì)象,采用矢量空間模型和K-Means 聚類模型進(jìn)行主題分析,得出“癥狀與并發(fā)癥”“治療”兩個(gè)熱點(diǎn)主題[25]。
綜上所述,已有研究成果主要基于問(wèn)卷調(diào)查、網(wǎng)絡(luò)數(shù)據(jù)爬取、社會(huì)網(wǎng)絡(luò)分析等方法對(duì)單一主題進(jìn)行探討,數(shù)據(jù)量少。本文以好大夫在線為例,通過(guò)對(duì)10年來(lái)糖尿病相關(guān)主題參與問(wèn)答的醫(yī)患群體及問(wèn)答本身的特征分析,揭示患者、醫(yī)生及問(wèn)答3 個(gè)方面的具體特征,以期為優(yōu)化在線醫(yī)療社區(qū)服務(wù)提供充分的數(shù)據(jù)與事實(shí)支持。
本文基于python 爬蟲數(shù)據(jù)對(duì)在線醫(yī)療社區(qū)中醫(yī)患問(wèn)答相關(guān)特征進(jìn)行分析,與前人研究方式不同的是,爬取盡可能完整的大量的數(shù)據(jù)作為支撐。研究分3 個(gè)部分展開(kāi)。前兩個(gè)部分是醫(yī)患問(wèn)答中的主體,從患者角度,從患者的患病類型、患病時(shí)長(zhǎng)、過(guò)敏史3 個(gè)維度展開(kāi);從醫(yī)生角度,從醫(yī)生的職稱、所屬的醫(yī)院及科室、活躍醫(yī)生的特征等維度展開(kāi)。第3 個(gè)部分為醫(yī)患問(wèn)答的特征,從患者提問(wèn)的時(shí)間分布、主題特征、意向特征等方面展開(kāi),采用LDA 主題模型、R 語(yǔ)言詞頻統(tǒng)計(jì)等方法進(jìn)行揭示。
好大夫在線的“網(wǎng)上咨詢”中提供2008年至今的在線咨詢歷史數(shù)據(jù)檢索。觀察發(fā)現(xiàn)問(wèn)答記錄的格式、各字段的順序、有無(wú)都存在差異。因此,選擇爬取全文方式。筆者用python 爬取提問(wèn)題目中包含“糖尿病”關(guān)鍵詞的記錄,共爬取到 2008年3月-2018年10月間 139361 條問(wèn)答數(shù)據(jù)。問(wèn)答數(shù)據(jù)的數(shù)據(jù)項(xiàng)包括患者信息、醫(yī)生信息、咨詢主題、咨詢?nèi)掌诘? 個(gè)部分,其中患者信息包括患者填寫的疾病/癥狀、患病時(shí)長(zhǎng)、過(guò)敏史等,醫(yī)生信息包括醫(yī)生的姓名、職稱、醫(yī)生所屬的醫(yī)院及科室等。
原數(shù)據(jù)存在大量自然語(yǔ)言描述,存在錯(cuò)別字和空字段等,需要進(jìn)行預(yù)先處理。首先,對(duì)自然語(yǔ)言描述進(jìn)行歸納整合,如將Ⅰ型糖尿病、一型糖尿病等都?xì)w為1 型糖尿病,將Ⅱ型糖尿病、二型糖尿病等都?xì)w為2 型糖尿病,將妊娠期糖尿病、懷孕糖尿病都?xì)w為妊娠糖尿病。其次,處理錯(cuò)別字,如將壬辰糖尿病、妊辰糖尿病等改為妊娠糖尿病。由于網(wǎng)頁(yè)格式差異,一些字段未爬取到,或者網(wǎng)頁(yè)失效無(wú)法打開(kāi),導(dǎo)致數(shù)據(jù)缺失,需要去掉缺失項(xiàng)。
筆者首先對(duì)患者填寫的疾病內(nèi)容進(jìn)行整理,得到111695 條關(guān)于疾病或癥狀的描述,78.7%(87894 人)患者使用“糖尿病”來(lái)描述疾病或癥狀。在前100 個(gè)高頻詞中,顯示1 型糖尿病、2型糖尿病和妊娠糖尿病三大糖尿病的類型,2 型糖尿病的記錄數(shù)最多。高頻詞中體現(xiàn)了糖尿病的常見(jiàn)并發(fā)癥,包括糖尿病腎病(腎功能不全、腎病)、糖尿病眼部并發(fā)癥(視網(wǎng)膜病變、白內(nèi)障、眼底出血、視力模糊、視力下降)、糖尿病足、糖尿病心血管并發(fā)癥(高血壓、冠心病、心臟病、心絞痛、心衰、心梗、房顫)、糖尿病性腦血管病(腦梗、腦血栓)和糖尿病神經(jīng)病變(糖尿病周圍神經(jīng)病變)等。
有患病時(shí)長(zhǎng)字段的咨詢記錄共有33815 條。52%(17475 人)患者患病時(shí)長(zhǎng)超過(guò)半年,18%(6145 人)患病時(shí)長(zhǎng)在半年之內(nèi),17%(5785 人)患病時(shí)間小于1 個(gè)月,13%(4410 人)患病時(shí)長(zhǎng)不超過(guò)1 周,可見(jiàn)患病時(shí)間較長(zhǎng)的用戶更愿意在網(wǎng)上咨詢。
填寫了有效的過(guò)敏史的數(shù)據(jù)記錄共1151 條,包括具體的過(guò)敏原、過(guò)敏物或過(guò)敏表現(xiàn)。將出現(xiàn)3 次及以上的過(guò)敏記錄進(jìn)行歸類,見(jiàn)表1,括號(hào)內(nèi)數(shù)字表示出現(xiàn)次數(shù)。過(guò)敏原可分為吸入式過(guò)敏原、食入式過(guò)敏原、接觸式過(guò)敏原和注射式過(guò)敏原。因患者未描述藥品過(guò)敏的方式,因此將食入式和注射式歸為一類。大部分過(guò)敏記錄(1015 例,88%)屬于食入或者注射方式,筆者將食入式/注射式過(guò)敏原分為藥物類和食物類,其中藥物類占大多數(shù)。在藥物類中,除常見(jiàn)的過(guò)敏原青霉素類、頭孢類、磺胺類外,還有糖尿病用藥,如胰島素、二甲雙胍,少量患者對(duì)此有過(guò)敏現(xiàn)象。有的患者對(duì)藥物過(guò)敏的描述較為模糊,如感冒藥、止疼藥。少部分患者描述的是過(guò)敏性疾病本身,如過(guò)敏性哮喘、過(guò)敏性咳嗽,而非具體的過(guò)敏原。
表1 患者的過(guò)敏原
共有17661 位醫(yī)生參與119697 次在線咨詢,醫(yī)生人數(shù)大致隨著回復(fù)記錄數(shù)的增加而下降,大部分醫(yī)生對(duì)在線咨詢的回復(fù)數(shù)在10 次以內(nèi),具體為:89.92%(15881 人)回復(fù)少于10 次,其中51.03%(9013 人)只參與1 次咨詢;9.17%(1619 人)回復(fù)為 10-100 次;0.91%(161 人)回復(fù)在100 次以上,總計(jì)為43769 次咨詢記錄,占總記錄數(shù)36.57%,其中0.02%(4 人)回復(fù)超過(guò)1000 次??梢?jiàn)少部分醫(yī)生(10.08%,1780 人)參與了大部分咨詢(71.72%,85852 條)。
經(jīng)過(guò)對(duì)17661 條醫(yī)生職稱信息的統(tǒng)計(jì),醫(yī)生的臨床職稱包括住院醫(yī)師、主治醫(yī)師、副主任醫(yī)師、主任醫(yī)師、主任技師等18 種,前4 種占大多數(shù)。醫(yī)生的教學(xué)科研職稱包括助教、講師、副教授、教授、副研究員、研究員等。住院醫(yī)師和主治醫(yī)師中,無(wú)科研職稱的占大多數(shù);副主任醫(yī)師中,副教授占大多數(shù);主任醫(yī)師中,教授占大多數(shù)。醫(yī)生的臨床職稱和教學(xué)科研職稱的對(duì)應(yīng)關(guān)系如圖1所示??梢?jiàn),臨床體系中的職稱與教學(xué)科研中的職稱呈現(xiàn)一定的正相關(guān)關(guān)系。
圖1 醫(yī)生的臨床職稱和教學(xué)科研職稱
4.2.1 醫(yī)生所屬醫(yī)院
17661 位醫(yī)生來(lái)自2922 所醫(yī)院,其中醫(yī)生記錄數(shù)大于(或等于)100 的醫(yī)院共22 所,按照參與網(wǎng)絡(luò)咨詢的醫(yī)生人數(shù)排名,分別是好大夫工作室、鄭州大學(xué)第一附屬醫(yī)院、中國(guó)人民解放軍總醫(yī)院(301 醫(yī)院)、北京協(xié)和醫(yī)院、北京同仁醫(yī)院、武漢協(xié)和醫(yī)院、上海交通大學(xué)醫(yī)學(xué)院附屬第九人民醫(yī)院、山東省立醫(yī)院、東部戰(zhàn)區(qū)總醫(yī)院(原南京軍區(qū)總醫(yī)院)、上海交通大學(xué)醫(yī)學(xué)院附屬仁濟(jì)醫(yī)院、復(fù)旦大學(xué)附屬華山醫(yī)院、北京大學(xué)第一醫(yī)院、空軍軍醫(yī)大學(xué)西京醫(yī)院、中國(guó)中醫(yī)科學(xué)院廣安門醫(yī)院、中日友好醫(yī)院、北京大學(xué)人民醫(yī)院、北京大學(xué)第三醫(yī)院、未收錄醫(yī)院、山東大學(xué)齊魯醫(yī)院、四川大學(xué)華西醫(yī)院、江蘇省人民醫(yī)院和中國(guó)醫(yī)學(xué)科學(xué)院阜外醫(yī)院。除去好大夫工作室和未收錄醫(yī)院,其他20 所醫(yī)院中參與網(wǎng)絡(luò)咨詢的醫(yī)生共為2817 人,占醫(yī)生總?cè)藬?shù)15.95%。20 所醫(yī)院,均屬于三級(jí)甲等醫(yī)院,其中18 所屬于綜合性醫(yī)院,2 所是??漆t(yī)院,分別是中國(guó)中醫(yī)科學(xué)院廣安門醫(yī)院(中醫(yī)醫(yī)院)和中國(guó)醫(yī)學(xué)科學(xué)院阜外醫(yī)院(心血管??漆t(yī)院)。
4.2.2 醫(yī)生所屬的科室類別
不同醫(yī)院科室分類存在差異,大型醫(yī)院和小型診所分類的粒度不一樣,科室名稱也不一定規(guī)范。17661 位醫(yī)生來(lái)自1653 個(gè)科室,所屬的科室較為分散。其中,醫(yī)生人數(shù)大于(或等于)100人次的科室共37 個(gè)。這37 個(gè)科室收納68.9%(12169 人)醫(yī)生。由此可以看出糖尿病不同于其他疾病的一大特點(diǎn),即有很多并發(fā)癥。其中,眼科、內(nèi)分泌科、泌尿外科、神經(jīng)外科、骨科、婦產(chǎn)科、皮膚科的醫(yī)生人數(shù)最多,與上文中患者所患疾病類型和糖尿病易皮膚過(guò)敏相對(duì)應(yīng)。
從醫(yī)生個(gè)人回復(fù)行為來(lái)看,回復(fù)次數(shù)多的醫(yī)生,一方面表現(xiàn)出醫(yī)生的活躍;另一方面表現(xiàn)出有大量患者依賴。筆者將回復(fù)記錄超過(guò)500 條的醫(yī)生列舉于表2,記錄總計(jì)為15326 條,占總記錄數(shù)12.8%;醫(yī)生為19 人,占總醫(yī)生數(shù)0.1%。除未收錄醫(yī)院的醫(yī)生外,其他醫(yī)生都來(lái)自三級(jí)醫(yī)院,且大多數(shù)屬于內(nèi)分泌科。
表2 在線咨詢回復(fù)超過(guò)500 次的醫(yī)生及其特征
筆者將糖尿病問(wèn)答記錄按照患者提問(wèn)時(shí)間統(tǒng)計(jì),從2008年3月到2011年底數(shù)量快速增長(zhǎng),患者用戶群體快速增加。2012年增幅減小,但達(dá)到歷年記錄數(shù)最大。從2013年開(kāi)始,患者提問(wèn)減少,之后未有大幅回升。2018年只統(tǒng)計(jì)至10月,預(yù)估年底會(huì)達(dá)到近5年來(lái)的高峰值??梢?jiàn)使用好大夫的糖尿病患者用戶數(shù)量從百位數(shù)增至萬(wàn)位數(shù),并非持續(xù)增長(zhǎng)。就這10年來(lái)看,大致每5年達(dá)到一個(gè)高峰值。
圖2 患者提問(wèn)時(shí)間分布
由于隱私保護(hù),問(wèn)答的內(nèi)容只能醫(yī)生和病人可見(jiàn),而提問(wèn)的題目是公開(kāi)的。因此,筆者使用R 語(yǔ)言中的LDA 包,對(duì)患者的提問(wèn)進(jìn)行聚類并可視化,分析糖尿病問(wèn)答的主題特征。如圖3所示,左邊的圓代表不同的聚類主題。通過(guò)設(shè)置不同的聚類個(gè)數(shù)來(lái)看聚類效果,發(fā)現(xiàn)聚為7 類時(shí)的效果最好(圓圈之間無(wú)交叉)。右邊藍(lán)色柱條表示該詞在整個(gè)問(wèn)答文檔中的詞頻,紅色柱條表示該詞在該聚類的估計(jì)頻率。如選擇主題1,“糖尿病”貢獻(xiàn)最多,其次是“治療”。去掉“如何”“什么”“可以”等無(wú)貢獻(xiàn)意義的詞,經(jīng)歸納后得到7 個(gè)患者提問(wèn)的主題:糖尿病治療、糖尿病血糖控制、糖尿病心血管并發(fā)癥治療、糖尿病足治療、妊娠糖尿病治療、糖尿病腎病及其他并發(fā)癥治療和糖尿病眼部并發(fā)癥治療等,主題基本圍繞糖尿病及其并發(fā)癥展開(kāi)。
問(wèn)答數(shù)據(jù)中包含“希望得到的幫助”或“想得到怎樣的幫助”字段,該字段表達(dá)患者的提問(wèn)意向。經(jīng)處理,共有103595 條問(wèn)答中記錄了意向字段。筆者用R 語(yǔ)言進(jìn)行詞頻統(tǒng)計(jì),篩選出詞頻在500 以上且有意義的關(guān)鍵詞,見(jiàn)表3。總體看,患者希望得到治療糖尿病的方案。從患者主體看,除“我”“我們”外,還有“孩子”“父親”“母親”“老人”等。因此,很多患者用戶除咨詢自身病情外,也有代替孩子和長(zhǎng)輩向醫(yī)生咨詢的。從治療過(guò)程看,患者更多會(huì)尋問(wèn)去哪個(gè)醫(yī)院(或門診)預(yù)約、就診、化驗(yàn)、復(fù)查、換藥等。從治療手段看,大多數(shù)患者尋問(wèn)醫(yī)生關(guān)于手術(shù)、用藥、飲食、住院治療、中醫(yī)治療等方式。從治療程度看,希望能有效控制、緩解、改善、根治、恢復(fù)等。另外,很多患者希望醫(yī)生能告知糖尿病的并發(fā)癥以及診療方式、診療費(fèi)用等。由此可知,在線醫(yī)療社區(qū)的患者咨詢,并不能完全替代線下治療方式,更多起到連接患者與線下醫(yī)生(或醫(yī)院)進(jìn)行治療的橋梁作用和輔助線下治療的作用。
圖3 患者提問(wèn)主題LDA聚類
表3 患者希望得到的幫助詞頻統(tǒng)計(jì)
本文以“好大夫在線”問(wèn)答中糖尿病相關(guān)的10年數(shù)據(jù)為例,探究在線醫(yī)療社區(qū)的患者、醫(yī)生、問(wèn)答記錄的特征。揭示糖尿病患者的糖尿病類型及并發(fā)癥、患病時(shí)長(zhǎng)與線上治療意向的關(guān)系、過(guò)敏史信息、醫(yī)生的臨床職稱與教學(xué)科研職稱的關(guān)系、醫(yī)生所在醫(yī)院科室、活躍醫(yī)生的特征、患者提問(wèn)的時(shí)間、主題和意向特征。研究發(fā)現(xiàn),患者人群覆蓋所有常見(jiàn)的糖尿病類型,出現(xiàn)多種并發(fā)癥;患病時(shí)長(zhǎng)較長(zhǎng)的用戶更愿意在網(wǎng)上咨詢;少部分患者有過(guò)敏現(xiàn)象,且大多數(shù)屬于食入式或注射式過(guò)敏;醫(yī)生的臨床職稱與教學(xué)科研職稱呈現(xiàn)一定的正相關(guān)關(guān)系,教學(xué)科研職稱越高,臨床職稱也相對(duì)越高;醫(yī)生所屬的醫(yī)院具有明顯的集中與分散的特點(diǎn),多數(shù)患者集中于少部分醫(yī)院進(jìn)行咨詢;醫(yī)生所屬的科室較為分散;活躍的醫(yī)生來(lái)自于三級(jí)醫(yī)院,且大多數(shù)屬于內(nèi)分泌科。糖尿病患者用戶提問(wèn)數(shù)量有著時(shí)間周期性波動(dòng)的特點(diǎn),大致呈現(xiàn)每5年達(dá)到一個(gè)高峰值。提問(wèn)主題可以分為7 類,包括糖尿病及其并發(fā)癥的治療?;颊叩奶釂?wèn)意圖是希望得到關(guān)于治療過(guò)程、手段和程度等方面的幫助。筆者初步對(duì)好大夫在線醫(yī)療社區(qū)平臺(tái)進(jìn)行了關(guān)于糖尿病主題問(wèn)答的患者和醫(yī)生的畫像,以及揭示了問(wèn)答的相關(guān)特征??蔀樘悄虿』颊邔ふ揖W(wǎng)上咨詢的醫(yī)生提供借鑒,為優(yōu)化平臺(tái)的服務(wù)提供參考。本文只針對(duì)好大夫在線這一平臺(tái)的糖尿病主題問(wèn)答相關(guān)內(nèi)容進(jìn)行研究,具有一定的局限性,且對(duì)每個(gè)特征的關(guān)聯(lián)研究不夠,未來(lái)將對(duì)特征之間的關(guān)聯(lián)關(guān)系進(jìn)行深入研究。