袁駿毅 潘常青 沈曉冬 岑星星 宓林暉
醫(yī)技檢查是循證醫(yī)學(xué)的重要組成部分,檢查報告的及時性對于臨床后續(xù)治療有重要影響[1]。出于科學(xué)嚴(yán)謹(jǐn)?shù)尼t(yī)療質(zhì)量要求,報告完成前需經(jīng)過從提交到審核等多道環(huán)節(jié),以盡量保證報告的詳盡和準(zhǔn)確。隨著人民健康水平的提高,醫(yī)院檢查業(yè)務(wù)量逐年增加,醫(yī)技部門往往人手緊張,工作負(fù)荷壓力較大。為避免檢查環(huán)節(jié)成為醫(yī)療流程中的瓶頸,利用智能技術(shù)提高報告出具的速度,成為現(xiàn)代醫(yī)院管理重點關(guān)注的內(nèi)容[2]。有學(xué)者在針對臨床調(diào)研的報告中指出,當(dāng)醫(yī)生建立電子健康檔案時,應(yīng)用語音識別可起到較好的輔助作用[3]。本研究在醫(yī)院放射科、病理科的報告軟件中嵌入智能語音平臺,觀察醫(yī)生使用的工作情況和書寫報告的數(shù)量,分析語音識別技術(shù)帶來的效果。為醫(yī)生提供便捷的書寫檢查報告的輔助功能,同時為其他醫(yī)療機構(gòu)利用語音識別技術(shù)優(yōu)化臨床工作模式提供借鑒參考。
據(jù)相關(guān)統(tǒng)計,在放射科或病理科等醫(yī)技科室的檢查報告中,約60%~70%的文字屬于專業(yè)醫(yī)學(xué)術(shù)語[4]。醫(yī)生通常在醫(yī)技工作站上事前定制部分病種模板文字,針對患者個體情況加以修改,重復(fù)率較高且輸入量大。隨著信息技術(shù)在醫(yī)療領(lǐng)域的發(fā)展,語音識別技術(shù)成為非接觸式智能交互的研究熱點[5]。
語音識別研究起源于1950年,Davis在貝爾實驗室構(gòu)建了首個可識別10個英語單字節(jié)字母發(fā)音的系統(tǒng)[6]。美國和日本出于軍事用途,1990年研發(fā)了口語理解系統(tǒng)[7]??缛?0世紀(jì)后,美國的Nuance、Google和Microsoft等公司的語音識別軟件準(zhǔn)確率已達(dá)到較高水平,我國也出現(xiàn)了如科大訊飛、云知聲等基于深度學(xué)習(xí)網(wǎng)絡(luò)的語音識別軟件公司,日常對話識別率已達(dá)97%[8]。醫(yī)院也開始嘗試將語音應(yīng)用在醫(yī)療工作中。2017年,安徽省立醫(yī)院將語音對話機器人用于門診導(dǎo)診服務(wù)。2019年,西安交通大學(xué)第二附屬醫(yī)院上線了面向社區(qū)居民的語音移動隨訪系統(tǒng)[9]。但國內(nèi)醫(yī)療行業(yè)中將語音識別深度應(yīng)用在臨床醫(yī)生的案例不多,且尚無統(tǒng)一建設(shè)技術(shù)規(guī)范[10]。
上海市胸科醫(yī)院是一家以心胸手術(shù)為主的三甲??漆t(yī)院,2019年全年手術(shù)人次2.8萬,患者均需要進行術(shù)前和術(shù)后多次檢查。為加快床位周轉(zhuǎn)率及降低術(shù)前等候時間,醫(yī)院對檢查報告的出具時間限定十分嚴(yán)格。因此,本研究對醫(yī)院實施基于智能語音識別平臺的報告軟件改造,以期提高醫(yī)生書寫效率,降低臨床等候報告時間。
智能語音識別平臺主要由語音識別組件、知識管理中心和場景適配器3部分組成。
語音識別組件屬于底端輸入層,包括耳麥、話筒和語音識別包,使音頻轉(zhuǎn)換成文字。語音識別包采用市場上的成熟產(chǎn)品云知聲,語音輸入平均響應(yīng)時間<500 ms,通過云知聲提供的Win32bit及64bit的軟件開發(fā)工具(software development kit,SDK),技術(shù)人員無需了解語音技術(shù)的具體實現(xiàn),使用簡單的Windows應(yīng)用程序接口(application programming interface,API),實現(xiàn)在病理和影像等報告軟件的無縫嵌入[11]。
知識管理中心是平臺的內(nèi)核,采用SQL Server 2015數(shù)據(jù)庫,存放醫(yī)學(xué)術(shù)語集和語義控制集數(shù)據(jù)??紤]到保存安全因素,數(shù)據(jù)庫放置于醫(yī)院內(nèi)部的局域網(wǎng)。通過精準(zhǔn)技術(shù)建立特征匹配模型,調(diào)整文字或操作的識別度,具有自定義和日志分析功能。
場景適配器負(fù)責(zé)甄別轉(zhuǎn)換后的文字,結(jié)合場景進行關(guān)鍵詞判斷,判斷為報告錄入模式則輸出文字,若遇到換行或保存等命令則轉(zhuǎn)換為操作指令,替代常規(guī)的鍵盤和鼠標(biāo)操作。智能語音識別平臺總體架構(gòu)見圖1。
圖1 智能語音識別平臺總體架構(gòu)
語音識別引擎主要針對音譜進行時頻分析,受具體醫(yī)療環(huán)境和醫(yī)生口音影響。此外,檢查報告中存在大量專業(yè)詞匯,需匹配適用的醫(yī)療術(shù)語集,以便增進口語理解識別度(spoken language understand degree,SLUD),進而達(dá)到準(zhǔn)確率要求[12]。
為此,需要建立實際醫(yī)療環(huán)境下醫(yī)學(xué)術(shù)語自適應(yīng)的最優(yōu)工作流程。事前調(diào)研醫(yī)技科室的真實環(huán)境,包含工作時的背景聲音、醫(yī)療儀器噪聲及特殊醫(yī)生方言等,判斷究竟選擇話筒還是耳麥的方式,對聲學(xué)模型進行預(yù)適應(yīng)并局部增強,以達(dá)到輸入清晰的效果。在常規(guī)語料庫基礎(chǔ)上,前期導(dǎo)入80余萬條基本醫(yī)學(xué)詞匯。并針對醫(yī)院??铺厣?,按醫(yī)技科室的檢查類型,分門歸納整理現(xiàn)有的海量報告文本,使用數(shù)據(jù)抽取工具(extract-transform-load,ETL),從中提取近2萬條高頻使用詞匯,納入附加醫(yī)學(xué)術(shù)語集[13]。針對使用過程中醫(yī)生反饋錯誤的單詞,建立日志跟蹤隊列,通過自定義方式納入特定詞組,確定糾正搜索算法的輸出,達(dá)到更準(zhǔn)確的識別效果,通過一系列的工作舉措,最終將文字正確識別率提高到96%左右。自適應(yīng)設(shè)定工作流程見圖2。
圖2 醫(yī)學(xué)環(huán)境及術(shù)語自適應(yīng)設(shè)定流程
醫(yī)生書寫報告過程中,平臺需通過不同場景下語義的智能分析,理解并模擬部分功能性動作,替代手動的鍵鼠操作。關(guān)鍵詞分析(keyword analysis,KWA)是場景識配器的核心模塊,基于語義控制規(guī)則集來區(qū)分不同界面時醫(yī)生的語音意圖,語義控制規(guī)則集見表1[14]。
隨著信息互聯(lián)互通的日趨完善,現(xiàn)有醫(yī)技工作站整合了多項功能,包括報告書寫、模板調(diào)用及查看其他輔助信息等,工作中操作步驟較多。尤其是病理取材環(huán)節(jié),醫(yī)生需同時兼顧查看切片和輸入報告,同時連續(xù)性地點選患者,進行大量重復(fù)性動作。因此,設(shè)計時采取了分層細(xì)化方法,在接收到語音轉(zhuǎn)換的文本后,通過光標(biāo)具體位置判斷是否處于編輯狀態(tài),確定目的是文本還是控制命令輸出,以便精確執(zhí)行醫(yī)生的語音目標(biāo)[15]。不同醫(yī)技科室操作順序各異,語義理解的規(guī)則需結(jié)合醫(yī)技工作站的操作方法及醫(yī)生個人習(xí)慣,通過覆蓋應(yīng)用場景的訓(xùn)練,才能達(dá)到深度優(yōu)化的使用效果。
表1 語義控制規(guī)則集
表2 語音識別技術(shù)試用情況反饋匯總
經(jīng)過前期現(xiàn)場調(diào)研和技術(shù)對接,智能語音平臺與報告軟件完成嵌入整合,于2019年12月投入試點使用。放射科和病理科的報告室各部署3套,均為話筒輸入;病理科的切片室部署2套,由于取材工作特點選擇耳麥輸入。選取2020年1月間部署了智能語音識別平臺的醫(yī)技工作站上醫(yī)生的工作情況作為觀察組,選取2019年1月同批醫(yī)生采用常規(guī)方式的工作情況作為對照組。采集兩組醫(yī)生的完成報告情況,通過比較數(shù)量的差異性,分析語音識別技術(shù)產(chǎn)生的影響作用。
采用SPSS25.0軟件對數(shù)據(jù)匯總分析。通過兩組樣本的比較,分析存在的差異。計量資料以均值±標(biāo)準(zhǔn)差()表示,進行t檢驗,以P<0.05為差異有統(tǒng)計學(xué)意義。
4.3.1 試用情況反饋
試用初期暴露了兩方面問題:①由于傳統(tǒng)工作習(xí)慣的改變,醫(yī)生需要適應(yīng)過程;②未能有效識別。經(jīng)過4周的磨合,隨著使用深入和不斷糾錯,醫(yī)生的使用熟練度不斷提升,每分鐘可輸入100~200字,92%的醫(yī)生表示較為滿意,形成語音轉(zhuǎn)化的報告文字>12萬,累計錄音時長達(dá)到1 021 min。語音識別技術(shù)試用情況反饋見表2。
智能語音平臺成效如下:①利用信息技術(shù)提升醫(yī)療服務(wù)能級,提高醫(yī)生書寫效率,加快了出具報告的速度;②基于整合理念內(nèi)嵌檢查報告軟件,按功能特點將部分語音轉(zhuǎn)化為操作行為,實現(xiàn)了高可用性。③設(shè)定了靈活通用的規(guī)則知識庫,對異常及失效情況提供了及時靈活的變更手段。
4.3.2 檢查報告完成量對比
放射科和病理科的兩組樣本在報告類型、當(dāng)班時段和日排班人數(shù)等方面均無統(tǒng)計學(xué)上的差異,具有可比性??紤]到可能存在醫(yī)生主觀不使用語音等異常情況,排除標(biāo)準(zhǔn)為:①排除雖部署但無使用語音識別痕跡的報告;②排除書寫開始至完成時間間隔>1 d的報告。放射科對比結(jié)果見表3,病理科對比結(jié)果見表4。
表3 放射科檢查報告完成量對比()
表3 放射科檢查報告完成量對比()
表4 病理科檢查報告完成量對比()
表4 病理科檢查報告完成量對比()
由表3和表4可見,放射科和病理科的觀察組中每日檢查報告的完成數(shù)量較多(t=-3.61,t=-2.48,t=-2.61;P<0.05),表明采用智能語音識別平臺的模式有利于文字的快速輸入,節(jié)約了醫(yī)生操作的時間,加快了工作效率。此外,可觀察到一個現(xiàn)象,病理科冰凍報告差異不明顯(t=-0.99;P>0.05),這是由于冰凍報告已實現(xiàn)全結(jié)構(gòu)化,內(nèi)容中純文字的輸入量較少,導(dǎo)致語音僅主要在替代操作方面起到作用。
深入推進智能語音識別在臨床信息系統(tǒng)中的應(yīng)用,可有效提高醫(yī)院人力資源的利用率,為醫(yī)生提供個性化的精準(zhǔn)信息技術(shù)服務(wù)。本研究通過上海市胸科醫(yī)院病理科和放射科醫(yī)生工作情況,實證分析將智能語音平臺嵌入檢查報告軟件后的實施效果。研究結(jié)果表明,通過平臺的有效整合,改進了傳統(tǒng)工作模式,提升了醫(yī)生應(yīng)用信息系統(tǒng)的滿意度,降低了醫(yī)生操作強度,提高了工作效率,間接為患者提供更及時的后續(xù)治療。工作推進過程中,發(fā)現(xiàn)一些下階段的重點突破方向,如全結(jié)構(gòu)化病歷的快速輔助定位及克服嘈雜使用環(huán)境等問題。隨著大數(shù)據(jù)與人工智能技術(shù)的日趨成熟,語音識別技術(shù)與其他醫(yī)院信息系統(tǒng)的深度融合已是大勢所趨,為醫(yī)療機構(gòu)推廣語音識別在門診及住院的應(yīng)用場景提供有效的借鑒參考。