徐海峰 李絨 張陽(yáng) 趙東升
隨著醫(yī)院信息系統(tǒng)的廣泛應(yīng)用,各醫(yī)療機(jī)構(gòu)已經(jīng)生成并積累了大量的臨床數(shù)據(jù)。對(duì)醫(yī)療衛(wèi)生領(lǐng)域的大數(shù)據(jù)進(jìn)行分析,將有助于推動(dòng)醫(yī)療服務(wù)向數(shù)據(jù)驅(qū)動(dòng)、預(yù)防為主的、個(gè)性化診療模式轉(zhuǎn)變[1]。醫(yī)療過(guò)程(clinical process)是指與患者臨床診斷治療相關(guān)的一系列結(jié)構(gòu)化的、可度量的臨床活動(dòng)序列[2]。醫(yī)學(xué)技術(shù)的發(fā)展使得診療過(guò)程的動(dòng)態(tài)性和復(fù)雜性不斷增加[3]。例如,醫(yī)療過(guò)程可分解為檢查、用藥、手術(shù)等一系列子流程,每個(gè)子流程又包含預(yù)約、到檢、完成等若干事件(活動(dòng))。這些活動(dòng)往往存在一定的執(zhí)行順序和條件,并需要不同類型的資源(醫(yī)生、護(hù)士、技師、藥師等),而且各醫(yī)院之間的診療過(guò)程也可能存在差異[4]。為降低醫(yī)療成本、減少醫(yī)療差錯(cuò)、改善患者滿意度、提高資源利用率等,都要求不斷優(yōu)化這些醫(yī)療過(guò)程與活動(dòng)[5]。
但是,傳統(tǒng)的問(wèn)卷調(diào)查和訪談等過(guò)程改進(jìn)方法易受參與人員的主觀偏倚影響。同時(shí),過(guò)去多數(shù)醫(yī)療質(zhì)量的控制方法主要關(guān)注于治療結(jié)果,如治愈率、平均住院日等。這種質(zhì)控方法需要在患者出院后進(jìn)行統(tǒng)計(jì)計(jì)算,存在滯后性且難以發(fā)現(xiàn)潛在不良事件的缺點(diǎn)[6]。另一方面,由于醫(yī)療過(guò)程可以用一個(gè)復(fù)雜模型來(lái)表達(dá),該模型隨著時(shí)間的推移會(huì)發(fā)生顯著變化[2]。雖然部分模型的構(gòu)建可以通過(guò)數(shù)據(jù)挖掘?qū)崿F(xiàn),但現(xiàn)有的數(shù)據(jù)挖掘技術(shù)主要是以數(shù)據(jù)為中心,很難提供組織內(nèi)端到端的全面理解[7]。
通常醫(yī)院信息系統(tǒng)記錄了醫(yī)療過(guò)程中每個(gè)活動(dòng)相應(yīng)的日志數(shù)據(jù),包括活動(dòng)名稱、時(shí)間戳、執(zhí)行者等。某醫(yī)院就診過(guò)程的部分事件日志如表1所示,每行代表一個(gè)事件(活動(dòng))。事件已按患者分組,并按其執(zhí)行時(shí)間順序排序。例如,ID號(hào)為987的患者有7個(gè)相關(guān)事件,其中第一個(gè)事件是“掛號(hào)”,執(zhí)行時(shí)間為2019年1月13日,執(zhí)行人是Bob。在某些事件日志中的活動(dòng)信息可能較模糊,比如只有時(shí)間或日期,甚至只有事件的執(zhí)行順序。而另外一些事件可能記錄有詳細(xì)的時(shí)間信息,如事件的開(kāi)始時(shí)間、結(jié)束時(shí)間及相應(yīng)的資源占用情況。表1中顯示的是活動(dòng)完成時(shí)間,每個(gè)事件被抽象為原子活動(dòng)。
過(guò)程挖掘(process mining,PM)是一種利用信息系統(tǒng)所記錄事件數(shù)據(jù)(日志)的過(guò)程管理技術(shù),主要有3種應(yīng)用目標(biāo),分別是過(guò)程發(fā)現(xiàn)(process discovery)、合規(guī)性檢查(conformance)和過(guò)程改進(jìn)(enhancement)[8]。醫(yī)療過(guò)程挖掘(process mining in healthcare)是PM技術(shù)在醫(yī)療衛(wèi)生領(lǐng)域的探索和應(yīng)用,它將臨床活動(dòng)產(chǎn)生的事件數(shù)據(jù)與過(guò)程模型連接起來(lái)(圖1)[5]。過(guò)程發(fā)現(xiàn)是以事件日志作為輸入,過(guò)程發(fā)現(xiàn)算法無(wú)需使用先驗(yàn)信息自動(dòng)構(gòu)建出過(guò)程模型[9]。過(guò)程發(fā)現(xiàn)是PM中最重要的部分,它為進(jìn)一步的合規(guī)性檢查與過(guò)程改進(jìn)等應(yīng)用提供了基礎(chǔ)。雖然過(guò)程模型指明了不同醫(yī)務(wù)人員各自活動(dòng)的先后順序關(guān)系,但在實(shí)際診療過(guò)程中,各事件及活動(dòng)順序可能會(huì)發(fā)生變化。這些變化往往是由多種因素造成的,包括患者的個(gè)體差異以及執(zhí)行活動(dòng)所占用的資源和方式。在手工或自動(dòng)生成過(guò)程模型后,合規(guī)性檢查通過(guò)比對(duì)模型(如臨床路徑等)和實(shí)際日志,分析模型中各事件的時(shí)間、資源占用等情況,能夠識(shí)別出存在的問(wèn)題瓶頸或未遵從臨床指南的活動(dòng)[10-11]。過(guò)程改進(jìn)(或增強(qiáng))是基于事件日志和預(yù)定義模型,經(jīng)過(guò)重新分配資源和添加額外的活動(dòng)信息(如患者數(shù)據(jù))等,以擴(kuò)展或改進(jìn)過(guò)程模型,有助于確定在不同情況下的治療決策和規(guī)則[12]??偟膩?lái)說(shuō),過(guò)程挖掘一方面可以作為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的分析技術(shù),另一方面可以作為過(guò)程建模的分析技術(shù)。另外,與機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的“黑箱”模式相比,過(guò)程挖掘具有更好的可解釋性,可以幫助深入洞察醫(yī)療服務(wù)的流程,提高服務(wù)的質(zhì)量及效益,因此在醫(yī)療領(lǐng)域有更好的適用性。
近年來(lái),研究人員已經(jīng)基于過(guò)程挖掘技術(shù)在醫(yī)療衛(wèi)生領(lǐng)域進(jìn)行了大量探索與實(shí)踐。研究組通過(guò)文獻(xiàn)調(diào)研的方法,梳理和總結(jié)醫(yī)療過(guò)程挖掘的研究現(xiàn)狀,具體的文獻(xiàn)檢索和處理流程如圖2所示。首先,使用“process mining”和“healthcare”為關(guān)鍵字,從Web of Science核心和PubMed數(shù)據(jù)庫(kù)中檢索出2016—2020年所發(fā)表的英文論文,在刪除重復(fù)文獻(xiàn)后共計(jì)426篇;其次,經(jīng)作者閱讀文獻(xiàn)題目后,排除了341篇文獻(xiàn);在閱讀文獻(xiàn)摘要后,刪除了7篇與醫(yī)療過(guò)程挖掘無(wú)關(guān)的論文。另外,由于有2篇文獻(xiàn)無(wú)法下載全文內(nèi)容,最終納入分析的文獻(xiàn)為76篇。在充分評(píng)估這些文獻(xiàn)內(nèi)容的基礎(chǔ)上,針對(duì)醫(yī)療過(guò)程挖掘技術(shù)的應(yīng)用框架,分別從任務(wù)類型、模型表示及其他研究維度等方面,分析總結(jié)這一新興領(lǐng)域的研究進(jìn)展。文獻(xiàn)分析的結(jié)果表明:過(guò)程挖掘的主要任務(wù)類型包括過(guò)程發(fā)現(xiàn)、合規(guī)性檢查和過(guò)程改進(jìn)等;過(guò)程模型的表示方法可分為命令式表示與描述式表示兩類;其他研究維度主要有過(guò)程類型、數(shù)據(jù)類型、過(guò)程挖掘的角度、臨床應(yīng)用場(chǎng)景等。從文獻(xiàn)數(shù)據(jù)上看,目前的研究熱點(diǎn)集中于過(guò)程發(fā)現(xiàn),其次是合規(guī)性檢查和過(guò)程變異分析(variant analysis),對(duì)過(guò)程改進(jìn)、性能分析和預(yù)測(cè)性監(jiān)控(predictive monitoring)方面的研究還較少。
過(guò)程發(fā)現(xiàn)的基本思想是基于事件日志構(gòu)建出一個(gè)能夠反映日志行為的過(guò)程模型。在過(guò)程發(fā)現(xiàn)中,需要權(quán)衡4個(gè)指標(biāo):擬合度(fitness)、簡(jiǎn)潔度(simplicity)、精確度(precision)和泛化度(generalization)[8]。擬合度是指模型可以解釋觀察到的行為的能力;簡(jiǎn)潔度意味著發(fā)現(xiàn)的過(guò)程模型應(yīng)盡可能簡(jiǎn)單;精確度是指模型應(yīng)防止任何與事件數(shù)據(jù)無(wú)關(guān)的行為出現(xiàn),避免欠擬合(under-fitting);泛化度是指發(fā)現(xiàn)的模型應(yīng)能概括事件日志中記錄的示例行為,以避免過(guò)度擬合(over-fitting)。
目前已有一些算法可以自動(dòng)發(fā)現(xiàn)過(guò)程模型,如Alpha算法[8]、啟發(fā)式挖掘(heuristic miner)算法[13]和模糊挖掘(fuzzy miner)算法[14]。Alpha算法是首個(gè)也是最簡(jiǎn)單的挖掘算法,它能將發(fā)現(xiàn)的模型以Petri網(wǎng)表示[8]。為了捕捉日志中的相關(guān)模式,Alpha算法能夠區(qū)分4種基本的次序關(guān)系:直接后繼、因果關(guān)系、平行關(guān)系和無(wú)關(guān)性。雖然Alpha算法能夠發(fā)現(xiàn)一大類模型,但它難以處理短循環(huán)和非局部依賴關(guān)系,并且對(duì)日志中的噪聲和不完全性非常敏感。
啟發(fā)式挖掘算法和Alpha算法一樣,也是通過(guò)依賴度量來(lái)判斷依賴的頻率和因果關(guān)系,但該算法認(rèn)為不頻繁的路徑不應(yīng)該被納入模型中,因此它更加健壯并能夠適用于許多實(shí)際日志。模糊挖掘算法使用顯著性/相關(guān)性指標(biāo)來(lái)交互式地簡(jiǎn)化過(guò)程模型的抽象級(jí)別,這種方法提供一個(gè)可擴(kuò)展的參數(shù)集合,由用戶決定構(gòu)建的層次模型中包含哪些活動(dòng)和關(guān)系。在上述3種算法中,啟發(fā)式挖掘和模糊挖掘更受研究者的青睞,因?yàn)樗鼈兡芨玫靥幚碓肼暫彤惓?,使用戶關(guān)注于主要流程而非行為的細(xì)節(jié)。
合規(guī)性檢查是基于日志和過(guò)程模型,來(lái)診斷和量化模型與觀察到的行為之間的差異。目的是確定最頻繁的偏差活動(dòng)、發(fā)生的原因、是否可以預(yù)測(cè)以及模型或事件日志是否有錯(cuò)誤等。非合規(guī)性的解釋依賴于模型的用途[8]:如果模型是描述性的,則模型和日志之間的差異表明需要改進(jìn)模型以更好地捕捉現(xiàn)實(shí);如果模型是規(guī)范化的,則一些發(fā)現(xiàn)的差異可能顯露出非期望的偏差(需要更好地控制過(guò)程),另一些差異則可能顯露了期望的偏差(如醫(yī)生可能未遵從指南但治療效果更好)。目前有一些研究論文提出了進(jìn)行合規(guī)性檢查的算法,最常用的技術(shù)是托肯重演(Replay a Log on Petri Net)[15]、蹤跡比對(duì)(trace alignment)[16]等。托肯重演算法將日志中符合觸發(fā)條件的那部分案例進(jìn)行計(jì)數(shù),因此該算法比較簡(jiǎn)單高效,但它在判斷合規(guī)性時(shí)往往只關(guān)注于模型的擬合度,而蹤跡比對(duì)方法還可以用來(lái)分析模型的精確度和泛化度。另外,大多數(shù)論文傾向于為不同的研究實(shí)施定制的解決方案,這些技術(shù)的多樣性表明目前并沒(méi)有標(biāo)準(zhǔn)和被廣泛接受的合規(guī)性檢查方法。
在過(guò)程改進(jìn)(增強(qiáng))中,需要使用日志和初始模型來(lái)修復(fù)、充實(shí)或擴(kuò)展模型。當(dāng)過(guò)程模型和事件日志在過(guò)程上“不一致”時(shí),會(huì)導(dǎo)致過(guò)程模型本身的修改。例如,蹤跡矩陣(footprint matrix)可以從模型中去掉從未執(zhí)行的路徑。大多數(shù)研究或者使用模擬技術(shù)來(lái)增強(qiáng)過(guò)程模型,或者提出一種新的技術(shù)。例如,可以利用時(shí)間戳(基于包含時(shí)間信息的擴(kuò)展Declare映射)或性能相關(guān)信息(使用Petri網(wǎng)進(jìn)行性能分析)來(lái)擴(kuò)展模型,但這類方法用到的額外信息往往只來(lái)自于事件日志本身[17]。另外,有越來(lái)越多的過(guò)程挖掘使用了合規(guī)性檢查和專家知識(shí),并遵守流程執(zhí)行中的特定規(guī)則(如臨床指南等),這有助于監(jiān)控和驗(yàn)證流程是否為符合最佳實(shí)踐。
盡管過(guò)程挖掘?qū)@3種任務(wù)的研究取得了一定進(jìn)展,但仍然存在很多尚未解決的問(wèn)題。首先,它嚴(yán)重依賴于抽取合適事件日志的能力。例如,目前醫(yī)療信息系統(tǒng)主要是服務(wù)于業(yè)務(wù)運(yùn)行而非合規(guī)性檢查的目的,同時(shí)合規(guī)性檢查所涉及的數(shù)據(jù)范圍廣,一條檢查規(guī)則調(diào)閱的數(shù)據(jù)往往分散于多個(gè)數(shù)據(jù)源中,導(dǎo)致事件日志的收集和預(yù)處理比較困難。其次,基于不完備的、有噪聲的事件日志來(lái)構(gòu)造高質(zhì)量、易理解的過(guò)程模型也遠(yuǎn)非易事。因此,需要開(kāi)發(fā)能夠支持過(guò)程分析和從醫(yī)療信息系統(tǒng)中自動(dòng)抽取事件日志的通用框架,探索聚類等無(wú)監(jiān)督學(xué)習(xí)方法來(lái)提高數(shù)據(jù)質(zhì)量及在不同環(huán)境下的合規(guī)性分析或過(guò)程改進(jìn)方法[18]。
過(guò)程模型的表示方法(語(yǔ)言)是進(jìn)行過(guò)程建模的基礎(chǔ)和前提,主要包括命令式表示(imperative approach)和描述式表示(declarative approach)兩類[19]。傳統(tǒng)的過(guò)程建模方法如Petri-net和業(yè)務(wù)流程建模與標(biāo)注(business process model and notation,BPMN)等本質(zhì)上是命令式的,這類模型明確規(guī)定了各事件(活動(dòng))間的先后次序關(guān)系。但是這類表示模型中那些未顯式說(shuō)明的活動(dòng)都是被禁止的,即它們嚴(yán)格指定了如何工作。傳統(tǒng)的命令式方法與基于約束的描述性方法對(duì)比如圖3所示。圖3(a)的命令式表示只允許序列A、B;而圖3(b)是描述式表示,要求A在B之前發(fā)生,其允許的序列有A、AA、ABA、ABB等。另外,雖然Petri-net表示的就診過(guò)程模型簡(jiǎn)潔直觀、有嚴(yán)格的數(shù)學(xué)基礎(chǔ),但它能夠表達(dá)的語(yǔ)義相對(duì)簡(jiǎn)單。例如,Petri-net只定義了4種活動(dòng)間的關(guān)系[7],包括:(1)直接后繼:X>Y,當(dāng)且僅當(dāng)X直接被Y跟隨;(2)因果性:X→Y,當(dāng)且僅當(dāng)X>Y且無(wú)Y>X;(3)平行關(guān)系:X||Y,當(dāng)且僅當(dāng)X>Y且Y>X;(4)無(wú)關(guān)性:X#Y,當(dāng)且僅當(dāng)無(wú)X>Y且無(wú)Y>X。
圖3 命令式過(guò)程表示與描述式過(guò)程表示Figure 3 Imperative approach and descriptive approach for process model
BPMN是目前使用最廣泛的業(yè)務(wù)過(guò)程建模語(yǔ)言之一,圖4是使用BPMN表示的就診過(guò)程模型,它在任務(wù)之間使用網(wǎng)關(guān)連接[6]。例如,患者在首次就診后,醫(yī)生進(jìn)行了X線檢查、抽血化驗(yàn)和查體,然后患者進(jìn)行第2次就診,醫(yī)生根據(jù)檢查檢驗(yàn)結(jié)果進(jìn)行了手術(shù)或藥物治療,幾天后患者進(jìn)行了復(fù)診。雖然BPMN語(yǔ)言在金融、工業(yè)制造等業(yè)務(wù)流程相對(duì)固定的領(lǐng)域得到了大量應(yīng)用,但是,這種命令式的建模方法無(wú)法表示出動(dòng)態(tài)環(huán)境中所有可能的路徑。復(fù)雜的過(guò)程表示還存在模型可理解性的問(wèn)題。另外,命令式的語(yǔ)言使設(shè)計(jì)者過(guò)分限制了流程順序,導(dǎo)致業(yè)務(wù)調(diào)整時(shí)需要經(jīng)常更新生成的模型[19]。
圖4 患者就診過(guò)程的BPMN表示模型Figure 4 Process model of patient treatment in BPMN
描述性過(guò)程表示方法只要求應(yīng)完成什么活動(dòng),但不指定如何完成這些活動(dòng)。其通過(guò)一組約束來(lái)表示應(yīng)遵守的規(guī)定,任何不違背約束的活動(dòng)都是可接受的。約束既包括經(jīng)典的序列模式也包括松散關(guān)系、禁止限制等[20]。由于醫(yī)療過(guò)程既有確定性的活動(dòng),又有不確定性的活動(dòng),因此醫(yī)療過(guò)程相比一般的業(yè)務(wù)流程更加靈活和復(fù)雜[19]。靈活性主要表現(xiàn)為3種類型:延遲,即推后再做決定;偏離于模型;改變模型。另外,模型還應(yīng)有一定的支持度,完全自由的模型就失去了指導(dǎo)意義,主要包括設(shè)計(jì)時(shí)支持和運(yùn)行時(shí)支持兩種。其中設(shè)計(jì)時(shí)支持有驗(yàn)證和性能分析,而運(yùn)行時(shí)支持有強(qiáng)制正確執(zhí)行、監(jiān)控過(guò)程實(shí)例、從過(guò)程中學(xué)習(xí)及強(qiáng)制正確改變[21]。
Declare是一種流行的描述式表示語(yǔ)言,其語(yǔ)義可以使用各種基于邏輯的方法,如有限集上的線性時(shí)序邏輯(linear temporal logic,LTL)[22]和事件演算(event calculus)[23]。LTL可用于描述性地表示事件間的約束。LTL除了基本的邏輯操作外,還定義了時(shí)序關(guān)系,如NextTime(下一狀態(tài),○F),Eventually(至少發(fā)生一次,◇F),Always(持續(xù)存在,□F),和Until(直到,F(xiàn)∪G),但LTL公式的復(fù)雜性使得非計(jì)算機(jī)專業(yè)人員難以理解[24]。為此,Declare語(yǔ)言使用LTL定義約束模版,并嵌入圖型化表示[25]。例如模版可分為4類:Existence(存在),Relation(關(guān)系),Negative Relation(否定關(guān)系)及Choice(選擇)。其中,Relation又包括Precedence,Response,AlternatePrecedence等更加具體的關(guān)系。部分關(guān)系模版如圖5所示。
圖5 約束模版的部分示例Figure 5 Examples of constraint templates
圖6顯示了使用Declare表示胃癌手術(shù)治療的過(guò)程模型[26]。該過(guò)程模型包括5個(gè)活動(dòng):首次入院、術(shù)前篩查、開(kāi)放性胃切除術(shù)、腹腔鏡胃切除術(shù)和護(hù)理,以及3種約束條件:Precedence,Response,及NotCoExistence。它表示首次入院活動(dòng)(登記患者入院時(shí)的資料)要早于術(shù)前篩查活動(dòng);而術(shù)前篩查是在外科治療之前進(jìn)行,目的是評(píng)估患者的狀況是否可以進(jìn)行手術(shù),及潛在的手術(shù)風(fēng)險(xiǎn)。就手術(shù)技術(shù)而言,惡性疾病的胃切除可采用腹腔鏡手術(shù)或傳統(tǒng)的開(kāi)放式手術(shù);但在這兩種情況下,都需要一個(gè)護(hù)理期來(lái)監(jiān)測(cè)患者的術(shù)后情況。另外,Declare還支持可選擇性約束及強(qiáng)制性約束表示。由于其模版的可擴(kuò)展性,能適用于靈活的流程,比較適于進(jìn)行臨床指南的建模。但是該方法的約束規(guī)則并沒(méi)有指明哪些事件是不必要的,即多做的活動(dòng)往往不受限制。因此,描述性方法的合規(guī)性檢查不利于檢測(cè)出多余的醫(yī)療活動(dòng),這些活動(dòng)可能導(dǎo)致過(guò)度醫(yī)療和不必要的資源浪費(fèi)等副作用。
圖6 胃癌手術(shù)治療的Declare表示模型Figure 6 Process model of surgical treatmentfor gastric cancer in Declare
醫(yī)院業(yè)務(wù)流程可分為醫(yī)療流程和組織流程兩種類型[27]。其中,醫(yī)療流程是與患者管理相關(guān)的臨床過(guò)程,包括診斷、醫(yī)囑執(zhí)行等任務(wù)。組織流程關(guān)注于對(duì)過(guò)程的組織理解,從專家及其組織單位獲取協(xié)作信息,例如輪班分配任務(wù)和在醫(yī)務(wù)人員之間傳遞醫(yī)療信息與知識(shí)。目前的研究多集中于醫(yī)療業(yè)務(wù)流程,而對(duì)組織流程的研究較少。另外,還有研究將醫(yī)療操作過(guò)程分為非選擇性醫(yī)療和選擇性醫(yī)療兩類[4],前者包括醫(yī)療急救流程,后者包括有計(jì)劃的、標(biāo)準(zhǔn)的(常規(guī)和非常規(guī))流程。
根據(jù)數(shù)據(jù)源及其抽象程度,可分為4種數(shù)據(jù)子類型[5]:第1種與來(lái)自管理系統(tǒng)的數(shù)據(jù)有關(guān),例如經(jīng)濟(jì)管理部門的收費(fèi)結(jié)算軟件。第2種是來(lái)自臨床支持系統(tǒng)的數(shù)據(jù),包括針對(duì)各種醫(yī)療需求的多種信息系統(tǒng),如臨床科室使用的軟件。第3種是來(lái)自后勤保障系統(tǒng)的數(shù)據(jù),包括支持醫(yī)療業(yè)務(wù)流程的所有軟件,例如員工排班管理程序。第4種是來(lái)自醫(yī)療設(shè)備的數(shù)據(jù),如醫(yī)學(xué)影像科連接X(jué)射線機(jī)等的PACS系統(tǒng)數(shù)據(jù)。由于某些研究問(wèn)題需要使用來(lái)自不同系統(tǒng)的數(shù)據(jù),而實(shí)現(xiàn)異構(gòu)系統(tǒng)間互邊互通存在數(shù)據(jù)標(biāo)準(zhǔn)化的問(wèn)題。本體作為一種增強(qiáng)不同系統(tǒng)間聯(lián)系的有效方法,因此可以探索在醫(yī)療領(lǐng)域?yàn)檫^(guò)程挖掘系統(tǒng)構(gòu)建相應(yīng)的本體[28]。
在過(guò)程挖掘方法中,有控制流、組織(或資源)流、數(shù)據(jù)流和時(shí)間流4種角度,這些角度相互關(guān)聯(lián)[8]??刂屏鹘嵌汝P(guān)注活動(dòng)的順序、發(fā)現(xiàn)過(guò)程模型、找出對(duì)所有可能路徑的最佳定義,挖掘結(jié)果可用BPMN、Petri-net等語(yǔ)言表示,控制流角度也是目前過(guò)程挖掘研究最多的方面。組織(或資源)流角度關(guān)注于活動(dòng)者(人員、系統(tǒng)和角色)及活動(dòng)者間的關(guān)系,并基于角色和組織進(jìn)行分類。數(shù)據(jù)流角度關(guān)注于影響活動(dòng)的數(shù)據(jù)條件因素。時(shí)間流角度關(guān)注于事件的發(fā)生時(shí)間和頻率,以幫助識(shí)別出性能瓶頸、檢查服務(wù)級(jí)別、跟蹤資源使用、預(yù)測(cè)正在執(zhí)行的事件的完成時(shí)間等。為全面表示過(guò)程模型,需要進(jìn)一步研究能夠集成控制流和數(shù)據(jù)流等多角度的表示方法。
從醫(yī)療機(jī)構(gòu)的應(yīng)用場(chǎng)景來(lái)看,主要有5種臨床環(huán)境:住院、門診、急診、社區(qū)醫(yī)療機(jī)構(gòu)及藥房[18]。其中大多數(shù)研究調(diào)查了住院環(huán)境下的事件,其次是急診環(huán)境,而對(duì)基層醫(yī)療機(jī)構(gòu)和藥房涉及較少。從疾病的診斷來(lái)看,論文研究最多的類別是循環(huán)系統(tǒng)(心腦血管)疾病,其次是腫瘤和手術(shù)過(guò)程,但對(duì)檢驗(yàn)和麻醉流程的研究較少。另外,雖然這些案例研究揭示了過(guò)程挖掘在臨床的潛在應(yīng)用價(jià)值,但目前的研究主要集中在單個(gè)科室或單個(gè)醫(yī)院內(nèi)部,尚缺乏適用于不同醫(yī)院環(huán)境下的可移植的解決方案,未來(lái)可能在臨床路徑、多個(gè)科室或多個(gè)醫(yī)療機(jī)構(gòu)中使用過(guò)程挖掘技術(shù)。
過(guò)程挖掘應(yīng)用存在的主要挑戰(zhàn)有:(1)模型的驗(yàn)證比較依賴于專家的醫(yī)學(xué)知識(shí);(2)缺乏好的可視化過(guò)程模型工具;(3)數(shù)據(jù)的相關(guān)問(wèn)題,包括數(shù)據(jù)質(zhì)量、多數(shù)據(jù)源集成、數(shù)據(jù)粒度和完整性等。
隨著大數(shù)據(jù)背景下的事件日志不斷增長(zhǎng),過(guò)程挖掘?yàn)獒t(yī)療機(jī)構(gòu)管理復(fù)雜業(yè)務(wù)流程提供了一種重要工具。通過(guò)記錄和分析事件數(shù)據(jù),過(guò)程挖掘是實(shí)現(xiàn)連接業(yè)務(wù)過(guò)程管理和數(shù)據(jù)挖掘這兩個(gè)領(lǐng)域的橋梁。它不局限于回顧性的過(guò)程發(fā)現(xiàn)與合規(guī)性檢查,同時(shí)還能基于歷史事件數(shù)據(jù)和當(dāng)前正在運(yùn)行的案例軌跡,對(duì)診療過(guò)程進(jìn)行推薦和預(yù)測(cè)等決策支持[29]。雖然過(guò)程挖掘的研究最早開(kāi)始于荷蘭等發(fā)達(dá)國(guó)家,但近年來(lái)我國(guó)在這一領(lǐng)域發(fā)表的研究成果數(shù)量已處于世界前列[18]。
過(guò)程挖掘技術(shù)最常用于解決的問(wèn)題是:(1)發(fā)生了什么及為什么發(fā)生;(2)是否遵守了規(guī)范要求;(3)下一步應(yīng)采取的最佳行動(dòng)是什么。這些問(wèn)題的答案可以從海量的醫(yī)療數(shù)據(jù)中獲取。利用過(guò)程挖掘技術(shù)能夠發(fā)現(xiàn)隱藏的知識(shí)和規(guī)律,提高醫(yī)學(xué)信息的分析利用水平,并促進(jìn)臨床診療決策的科學(xué)性[28]。然而由于我國(guó)的醫(yī)療數(shù)據(jù)質(zhì)量和結(jié)構(gòu)化程度不高、臨床術(shù)語(yǔ)等數(shù)據(jù)標(biāo)準(zhǔn)不夠統(tǒng)一、患者隱私信息的保護(hù)不充分等,導(dǎo)致過(guò)程挖掘面臨的實(shí)際困難較多,應(yīng)用效果還不夠明顯。因此,需要將過(guò)程挖掘與openEHR、HL7等國(guó)際標(biāo)準(zhǔn)相結(jié)合[30],積極探索患者敏感信息的處理機(jī)制,以更好地實(shí)現(xiàn)過(guò)程挖掘技術(shù)對(duì)醫(yī)療業(yè)務(wù)流程管理的作用。