杜紅陽,吳世福,黃琳,杜衛(wèi)紅,王淑玉
1.菏澤市藥品不良反應(yīng)監(jiān)測中心,山東 菏澤 274000;2.山東省藥品不良反應(yīng)監(jiān)測中心,山東 濟(jì)南 250012;3.菏澤市立醫(yī)院,山東 菏澤 274000
為探索和研究醫(yī)療器械不良事件,我國的醫(yī)療器械不良事件(Medical Device Reporting,MDR)監(jiān)測網(wǎng)絡(luò)覆蓋了全國各地區(qū)藥品不良反應(yīng)監(jiān)測中心、醫(yī)療器械生產(chǎn)經(jīng)營企業(yè)、醫(yī)療機構(gòu)等。近年來,隨著醫(yī)療機構(gòu)、生產(chǎn)企業(yè)及公眾對醫(yī)療器械不良事件監(jiān)測工作的知曉度和熟悉度的不斷提高,每年收集的醫(yī)療器械不良事件報告數(shù)量逐年增長,2016年,全年可疑醫(yī)療器械不良事件報告數(shù)已超過35萬份。日益增長的報告數(shù)量和醫(yī)療器械本身的復(fù)雜性為進(jìn)行及時分析發(fā)現(xiàn)可疑風(fēng)險信號提出嚴(yán)峻的挑戰(zhàn),決定了一般常規(guī)性的預(yù)警方法無法完全滿足其需求。例如通過設(shè)定警義、警限,以及報警區(qū)間來進(jìn)行預(yù)警,未能考慮不良事件發(fā)生類型和不同醫(yī)療器械間的差異性對于MDR預(yù)警效果不佳。報告比例比法、報告比值比法、綜合標(biāo)準(zhǔn)法、貝葉斯置信網(wǎng)絡(luò)法等針對藥品不良反應(yīng)信號檢測方法,也因醫(yī)療器械不良事件發(fā)生類型及缺少醫(yī)療器械專業(yè)術(shù)語標(biāo)準(zhǔn)庫而不能直接應(yīng)用于MDR預(yù)警。
為解決傳統(tǒng)預(yù)警方法的不足,本文結(jié)合山東省藥品不良反應(yīng)監(jiān)測中心醫(yī)療器械不良事件數(shù)據(jù)分析預(yù)警項目3年來的探索成果,將機器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)應(yīng)用到MDR預(yù)警研究中,依托國家食品藥品監(jiān)督管理局的醫(yī)療期器械信息數(shù)據(jù)庫、山東省醫(yī)療器械不良事件報告和維基百科作為支持?jǐn)?shù)據(jù)進(jìn)行建模,為MDR風(fēng)險預(yù)警問題提供了一種新方法。
隨著深度學(xué)習(xí)的發(fā)展[1-3],基于神經(jīng)網(wǎng)絡(luò)的自特征抽取的詞向量表示方法越來越受工業(yè)界和學(xué)術(shù)界的關(guān)注?;谇叭说膶υ~語編碼的研究,Mikolov等[4]在2013年提出了word2vec模型[5]用于計算詞向量。word2vec模型利用詞的上下文信息將一個詞轉(zhuǎn)化成一個低維稠密實數(shù)向量,越相似的詞在向量空間中越相近。將詞向量應(yīng)用于自然語言處理非常成功,已經(jīng)被廣泛應(yīng)用于中文分詞[6-7]、POS Tagging[8]、情感分類[2-3,9]、句法依存分析[2,10]等,因?qū)W習(xí)到的詞向量代表了詞的語義,也可以用來做分類、聚類、也可以做詞的相似度計算。
word2vec本質(zhì)上來說就是一個矩陣分解的模型,簡單地說,矩陣刻畫了上下文的詞的集合的相關(guān)情況[1]。對這個矩陣進(jìn)行分解,只取每個詞對應(yīng)在隱含空間的向量,鄰近的詞之間關(guān)聯(lián)很強,甚至可以通過一個詞的上下文大概預(yù)測出中間那個詞是什么。本文就是利用word2vec強大的詞向量編碼能力來實現(xiàn)文本信息的數(shù)值化,是進(jìn)行文本數(shù)據(jù)挖掘的基礎(chǔ)。
作為一種無監(jiān)督的機器學(xué)習(xí)方法,聚類由于不需要訓(xùn)練過程,以及不需要預(yù)先對文檔手工標(biāo)注類別,因此具有一定的靈活性和較高的自動化處理能力,已經(jīng)成為對文本信息進(jìn)行有效地組織、摘要和導(dǎo)航的重要手段,為越來越多的研究人員所關(guān)注。它的目的是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的大。聚類方法包括統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法[11-18]。
傳統(tǒng)機器學(xué)習(xí)的處理對象是數(shù)據(jù)屬性值。對多個屬性值用向量來表示,而網(wǎng)絡(luò)數(shù)據(jù)中的節(jié)點不是簡單的統(tǒng)計上獨立的采樣點,節(jié)點之間存在著聯(lián)系。因此,使用機器學(xué)習(xí)技術(shù),需要考慮數(shù)據(jù)之間的關(guān)系。這給傳統(tǒng)機器學(xué)習(xí)帶來新的挑戰(zhàn),并產(chǎn)生了一個新興的研究方向——鏈接挖掘[19-20]。通過對鏈接的分析,我們可以獲得關(guān)于實例更豐富、更準(zhǔn)確的信息。我們借助鏈接分析其在關(guān)系反應(yīng),量化結(jié)構(gòu)之間優(yōu)勢,可以展示同品種不同企業(yè)或者注冊證號之間的風(fēng)險量化和關(guān)聯(lián)。
批次優(yōu)勢(odds)指標(biāo)反應(yīng)某一批次產(chǎn)品不良事件發(fā)生數(shù)量與平均批次產(chǎn)品發(fā)生不良事件數(shù)量的比值,用來度量某一批次產(chǎn)品為可疑風(fēng)險信號的可能性。
其中,a為某一批次醫(yī)療器械不良事件報告數(shù)量;b為去除分子批次后平均批次報告數(shù)量;α為平滑因子,消除報告的自然增長趨勢和周期趨勢影響,如果知道企業(yè)每一批次產(chǎn)品數(shù)量信息可加上作為修正;β為窗口,對風(fēng)險比較大的批次,重點關(guān)注鄰近批次不良事件發(fā)生情況。
比如某一批次產(chǎn)品如果發(fā)生了不良事件較多,odds可以把它度量出來,根據(jù)經(jīng)驗,這個時候它鄰近批次需要重點關(guān)注,窗口的概念即是實現(xiàn)對關(guān)鍵批次鄰近批次信息的關(guān)注。窗口可以分為兩種,一種是固定窗口,一種是滑動窗口,窗口在本文的介紹中是一個可以需改的參數(shù)。舉例:數(shù)據(jù)庫中涉及某一醫(yī)療器械產(chǎn)品批次為170102,170113,170114,170115,170415,170116,170117,170205, 如果通過預(yù)警發(fā)現(xiàn)170115是一個可疑風(fēng)險信號,設(shè)定窗口為1,如果是固定窗口則關(guān)注批次為:170114,170116,如果是滑動窗口則關(guān)注批次為:170113,170114,170116,170117。
最大聚合度(MDP)反應(yīng)某一批次最多不良事件類型例次占所有不良事件例次的比例,反應(yīng)了類型最多的不良事件占比。
舉例:某一批次產(chǎn)品,發(fā)生不良事件10例,事件表現(xiàn)為A,B,C。A事件發(fā)生7例;B事件發(fā)生1例;C事件發(fā)生2例。
最大聚合度=7/(7+2+1)=0.7。
由上例中容易理解最大聚合體這個預(yù)警指標(biāo)的含義,它代表了不良事件發(fā)生類型的聚集程度。最大聚合度指標(biāo)的具體構(gòu)建用到了自然語言處理word2vec詞向量編碼技術(shù),將數(shù)值化后的文本通過聚類算法進(jìn)行文本聚類,對各個類別報告數(shù)量進(jìn)行統(tǒng)計然后計算最大聚合度。
Mi:某一不良事件類型發(fā)生數(shù)量;max(Mi):最大類不良事件報告數(shù)量。
聚合風(fēng)險比(ARR)的計算公式:
聚合風(fēng)險是批次優(yōu)勢和最大聚合度兩個指標(biāo)的乘積,是對聚集性風(fēng)險信號的綜合度量指標(biāo)。
優(yōu)勢比(OR)反應(yīng)了同一產(chǎn)品不同生產(chǎn)企業(yè)或者不同注冊證號發(fā)生某一不良事件優(yōu)勢相對于產(chǎn)品平均發(fā)生某一不良事件的優(yōu)勢[21]。
n11:某企業(yè)產(chǎn)品(注冊證號產(chǎn)品)發(fā)生某類型不良事件報告數(shù)量;n1:某企業(yè)產(chǎn)品(注冊證號產(chǎn)品)發(fā)生不良事件報告數(shù)量;n*1:某產(chǎn)品發(fā)生某類型不良事件報告數(shù)量;n*:某產(chǎn)品發(fā)生不良事件報告數(shù)量。
醫(yī)療器械不良事件預(yù)警流程分為兩個階段:數(shù)據(jù)挖掘階段和數(shù)據(jù)可視化階段。在數(shù)據(jù)挖掘階段,原始數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)規(guī)整、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析和數(shù)據(jù)挖掘等步驟構(gòu)造出MDR預(yù)警指標(biāo),并將原始數(shù)據(jù)和預(yù)警指標(biāo)進(jìn)行關(guān)聯(lián)。在數(shù)據(jù)可視化階段,我們將預(yù)警指標(biāo)通過條形圖、網(wǎng)絡(luò)圖、氣泡圖、盒須圖、詞云圖的形式展示,并賦予圖形可交互的性能,方便醫(yī)療器械不良事件監(jiān)測人員對預(yù)警風(fēng)險信號進(jìn)行初步篩查和驗證?;诖怂悸罚疚臉?gòu)建了基于機器學(xué)習(xí)、數(shù)據(jù)挖掘和數(shù)據(jù)可視化技術(shù)的MDR風(fēng)險預(yù)警流程,見圖1。
圖1 基于機器學(xué)習(xí)技術(shù)的MDR風(fēng)險預(yù)警流程
數(shù)據(jù)清洗這一步主要是刪除一些邏輯性錯誤報告和醫(yī)療器械信息明顯錯誤報告,例如:為降低后期數(shù)據(jù)處理的復(fù)雜度和預(yù)警的混雜,注冊證號位數(shù)不對、產(chǎn)品和注冊證信息不匹配、產(chǎn)品注冊地和產(chǎn)品類別不匹配、產(chǎn)品注冊有效期明顯超期等產(chǎn)品信息存疑的報告將被刪除。
數(shù)據(jù)轉(zhuǎn)換是指利用國家食品藥品監(jiān)督管理局的醫(yī)療期器械信息數(shù)據(jù)庫建立映射規(guī)則,采用MYSQL數(shù)據(jù)庫技術(shù)對原始數(shù)據(jù)中的醫(yī)療器械信息進(jìn)行映射以實現(xiàn)原始報告中醫(yī)療器械信息的批量規(guī)整和標(biāo)準(zhǔn)化,采用VBA電子表格編程實現(xiàn)對批次優(yōu)勢、最大聚合度、聚合風(fēng)險比、優(yōu)勢比等關(guān)鍵預(yù)警指標(biāo)的構(gòu)建。
Word2vec技術(shù)實現(xiàn)對文本的編碼,詞向量編碼是否能有效反應(yīng)語義信息取決于模型的選擇和語料庫的選擇,本文所使用的模型是Skip-Gram模型,構(gòu)建語料庫多是與醫(yī)療器械專業(yè)領(lǐng)域相關(guān)數(shù)據(jù):國家食品藥品監(jiān)督管理總局發(fā)布的醫(yī)療器械召回信息、抽檢不合格信息和警戒信息,山東省醫(yī)療器械不良事件報告和維基百科醫(yī)學(xué)、藥學(xué)、醫(yī)療器械相關(guān)百科數(shù)據(jù)作為支持語料進(jìn)行建模,詞向量語義編輯距離測試結(jié)果,見圖2。
圖2 word2vec詞向量語義編輯距離測試結(jié)果
為尋找聚類方法和距離定義方式的最優(yōu)組合,本文聚類方法選取了KMEANS聚類、DBSCAN聚類、層次聚類法和譜聚類4種方法,距離定義方式選取了歐式距離、曼哈頓距離、余弦夾角距離、相關(guān)系數(shù)和熵5種,對20種組合聚類結(jié)果人工觀察與驗證發(fā)現(xiàn)“KMEANS聚類+余弦夾角”和“層次聚類法+余弦夾角距離”組合聚類效果較優(yōu),考慮層次聚類算法擁有聚類前指定編輯距離閾值的優(yōu)勢,最終本文選取了“層次聚類法+余弦夾角距離”的方法。
建模結(jié)果的可視化展示,方便醫(yī)療器械監(jiān)測人員從多個維度同時對一個風(fēng)險信號進(jìn)行評估,高效的發(fā)現(xiàn)假陽性和假陰性信號,同時彌補了傳統(tǒng)預(yù)警結(jié)果不能交互式修改預(yù)警參數(shù)的缺陷,可根據(jù)監(jiān)測、監(jiān)管的需要進(jìn)行回顧性分析及時驗證醫(yī)療器械監(jiān)測人員的經(jīng)驗假設(shè)。
去掉敏感信息后的聚集性風(fēng)險信號預(yù)警可視化結(jié)果,見圖3。氣泡圖反應(yīng)了3個維度的信息,分別是聚合風(fēng)險比,報告數(shù)量和風(fēng)險信號打分,每個條形圖反應(yīng)了4個維度的信息,長度反應(yīng)了風(fēng)險信號涉及報告數(shù)量,寬度反應(yīng)了odds值,顏色種類代表了報告單位,條形圖上的數(shù)值代表了最大聚合度。建模結(jié)果使用過程如下:首先,氣泡圖和條形圖是關(guān)聯(lián)的,交互式氣泡圖可以對風(fēng)險信號起到初篩作用,然后通過觀察條形圖4個維度信息可以進(jìn)一步確定風(fēng)險信號的等級,最后進(jìn)一步查看條形圖關(guān)聯(lián)到每份報告的詳細(xì)信息輔助醫(yī)療器械不良事件監(jiān)測人員找出有價值風(fēng)險信號并導(dǎo)出原始報告。據(jù)此流程進(jìn)行聚集性風(fēng)險信號的預(yù)警與傳統(tǒng)預(yù)警方法相比可以提高人工分析驗證風(fēng)險信號的效率,也可以減少假陽性信號的出現(xiàn)。
圖3 聚集性風(fēng)險信號預(yù)警可視化展示
去掉敏感信息后的同品種不同注冊證號不良事件對比可視化結(jié)果,見圖4。圖4a是社會網(wǎng)絡(luò)分析圖初始形態(tài),通過對預(yù)警指標(biāo)的調(diào)整而衍生出后面的4b~d等有價值的可視化圖形。
圖4 同品種不同注冊證號不良事件對比可視化展示
圖4b是關(guān)于不同注冊證號多參數(shù)監(jiān)護(hù)儀“黑屏”故障發(fā)生情況的分布圖,圖示中的連接邊粗細(xì)反應(yīng)了預(yù)警指標(biāo)優(yōu)勢比值大小。圖4c和圖4d是關(guān)于某一注冊證號嬰兒培養(yǎng)箱獨有不良事件發(fā)生情況的展示,圖4c利用詞云圖的方式展示了獨有不良事件表現(xiàn)的關(guān)鍵詞,關(guān)鍵詞的大小反應(yīng)了獨有不良事件的報告數(shù)量,圖4d則是利用網(wǎng)絡(luò)圖的形式展示了嬰兒培養(yǎng)箱不良事件故障表現(xiàn)、嬰兒培養(yǎng)箱涉及注冊證號個數(shù)、嬰兒培養(yǎng)箱總體報告數(shù)量、獨有不良事件占比等嬰兒培養(yǎng)箱不良事件報告的相關(guān)信息。建模結(jié)果充分展示在圖4b~d,不同注冊證號(生產(chǎn)廠家)之間醫(yī)療器械不良事件的相同點和差異點得到清晰展示,據(jù)此設(shè)定閾值可以得到風(fēng)險信號,修改閾值則可驗證監(jiān)測人員想法,輔助監(jiān)測人員進(jìn)行信號的篩選。
醫(yī)療器械不良事件報告數(shù)據(jù)庫的定量風(fēng)險信號預(yù)警工作正日益受到人們的重視,但目前仍處于探索階段,尚無相關(guān)信號檢測方法的金標(biāo)準(zhǔn),各研究機構(gòu)和監(jiān)測機構(gòu)罕有提出關(guān)于醫(yī)療器械不良事件信號檢測方法。本文提出的基于機器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)進(jìn)行MDR風(fēng)險預(yù)警的研究將定量風(fēng)險信號預(yù)警方法應(yīng)用于我國的醫(yī)療器械不良事件報告數(shù)據(jù)庫能有效的發(fā)現(xiàn)上市后醫(yī)療器械存在風(fēng)險。本次研究雖只采用了山東省醫(yī)療器械不良事件監(jiān)測的數(shù)據(jù),但鑒于各省市采用了統(tǒng)一的國家藥品不良反應(yīng)監(jiān)測系統(tǒng),因此本文所建立的方法完全可以做進(jìn)一步推廣。
本文提出的醫(yī)療器械不良事件風(fēng)險預(yù)警方法仍有優(yōu)化空間,結(jié)合本文研究效果期望來者在聚類算法的優(yōu)化、非結(jié)構(gòu)化數(shù)據(jù)預(yù)處理以及知識圖譜、圖模型、深度學(xué)習(xí)模型在預(yù)警工作中的應(yīng)用上展開相關(guān)研究。