摘 要:大型語言模型(Large Language Model,LLM)正逐漸成為醫(yī)療領(lǐng)域的重要工具,其在體檢報(bào)告解讀、個(gè)性化健康推薦和醫(yī)學(xué)決策中的應(yīng)用展現(xiàn)了巨大潛力。本文綜述了LLM及相關(guān)人工智能技術(shù)(Artificial Intelligence,AI)技術(shù)在醫(yī)療健康領(lǐng)域的多項(xiàng)研究進(jìn)展,重點(diǎn)探討其在體檢報(bào)告解讀、健康建議生成、疾病預(yù)測(cè)、患者互動(dòng)以及醫(yī)學(xué)AI系統(tǒng)安全性和倫理等方面的最新成果。研究表明,LLM在提高醫(yī)療服務(wù)效率、支持個(gè)性化健康管理以及擴(kuò)展患者自我診斷能力方面具有顯著優(yōu)勢(shì)。然而,模型在準(zhǔn)確性、推理能力和背景知識(shí)整合方面仍面臨局限,尤其在復(fù)雜診斷和??漆t(yī)療中的應(yīng)用亟需改進(jìn)。本文還分析了LLM在醫(yī)療實(shí)踐中的潛在風(fēng)險(xiǎn)與倫理挑戰(zhàn),提出未來需通過改進(jìn)模型性能、加強(qiáng)臨床驗(yàn)證和完善監(jiān)管框架來確保其安全性和可靠性。本研究旨在為L(zhǎng)LM及相關(guān)技術(shù)在醫(yī)療健康領(lǐng)域的應(yīng)用和發(fā)展提供理論依據(jù)和實(shí)踐參考。
關(guān)鍵詞:人工智能;體檢健康建議;大型語言模型
中圖分類號(hào):TP29" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):1673-260X(2025)01-0034-06
隨著人工智能技術(shù)的快速發(fā)展,大型語言模型在醫(yī)療領(lǐng)域的應(yīng)用成為研究熱點(diǎn)。體檢報(bào)告解讀和健康建議生成等任務(wù)通常涉及海量非結(jié)構(gòu)化數(shù)據(jù)的處理和復(fù)雜推理需求,而LLM憑借其卓越的自然語言處理能力,為這些任務(wù)提供了新思路。同時(shí),個(gè)性化健康推薦和疾病預(yù)測(cè)領(lǐng)域逐步采用基于AI和大數(shù)據(jù)的技術(shù),通過深度學(xué)習(xí)模型與醫(yī)學(xué)知識(shí)的結(jié)合,推動(dòng)了醫(yī)療決策支持的創(chuàng)新。然而,LLM在醫(yī)療實(shí)踐中的應(yīng)用也面臨諸多挑戰(zhàn),如生成內(nèi)容的準(zhǔn)確性和可靠性問題,以及潛在的倫理和安全風(fēng)險(xiǎn)。
近年來,多項(xiàng)研究探索了LLM在體檢報(bào)告解讀、健康建議生成和疾病預(yù)測(cè)中的表現(xiàn)。部分成果顯示,LLM在提高可讀性、同理心和建議準(zhǔn)確性方面優(yōu)于傳統(tǒng)方法,但模型在多輪對(duì)話中的推理能力和背景知識(shí)應(yīng)用仍有待加強(qiáng)。此外,患者對(duì)AI建議的信任度和接受度也受到多種因素的影響,需要進(jìn)一步分析。在醫(yī)學(xué)AI系統(tǒng)的安全性和倫理問題方面,LLM的輸出內(nèi)容可能影響患者決策,強(qiáng)調(diào)了對(duì)模型安全性和倫理規(guī)范的關(guān)注。
本文通過系統(tǒng)綜述LLM在體檢報(bào)告解讀及健康建議生成中的應(yīng)用現(xiàn)狀,總結(jié)其優(yōu)勢(shì)與不足,并探討未來發(fā)展方向,旨在為醫(yī)學(xué)領(lǐng)域中AI技術(shù)的研究與應(yīng)用提供參考。
1 基于大型語言模型的醫(yī)療應(yīng)用概述
近年來,人工智能技術(shù)的迅猛發(fā)展正深刻改變著各行各業(yè)的運(yùn)行模式。其中,在醫(yī)學(xué)領(lǐng)域,AI展現(xiàn)出了前所未有的潛力,為疾病的預(yù)防、診斷、治療及個(gè)性化健康管理提供了全新視角。特別是基于大型語言模型的自然語言處理技術(shù),通過強(qiáng)大的數(shù)據(jù)處理和分析能力,正在逐步融入醫(yī)療實(shí)踐。然而,這一過程也伴隨著諸多技術(shù)、倫理和實(shí)踐層面的挑戰(zhàn),亟需深入探討。在本文中,我們將圍繞LLM在醫(yī)學(xué)中的應(yīng)用展開討論,重點(diǎn)涵蓋個(gè)性化健康推薦、疾病預(yù)測(cè)、醫(yī)學(xué)數(shù)據(jù)分析與決策支持等多個(gè)方面,同時(shí)探索患者對(duì)AI的信任與接受度以及醫(yī)學(xué)AI系統(tǒng)的安全性與倫理問題。
1.1 大型語言模型在醫(yī)療中的應(yīng)用現(xiàn)狀
針對(duì)大型語言模型(LLM)在醫(yī)療中的應(yīng)用,多項(xiàng)研究探索了其在體檢報(bào)告解讀及臨床建議中的潛力與局限性。AI Hospital框架[1]通過模擬多智能體醫(yī)療互動(dòng),評(píng)估了LLM在癥狀收集、檢查建議和診斷方面的準(zhǔn)確性,指出盡管存在改進(jìn),但LLM在多輪交互中的表現(xiàn)仍不及單步方法,強(qiáng)調(diào)了進(jìn)一步研究的必要性以提升其在臨床診斷中的應(yīng)用能力。此外,Singhal等人[2]通過MultiMedQA基準(zhǔn),評(píng)估了LLM在醫(yī)學(xué)問答中的表現(xiàn),發(fā)現(xiàn)盡管Flan-PaLM在多個(gè)數(shù)據(jù)集上取得了較高準(zhǔn)確率,但人工評(píng)估仍揭示了模型在推理和知識(shí)回憶方面的差距。
在健康建議的可靠性方面,Huo等人[3]探討了LLM驅(qū)動(dòng)的聊天機(jī)器人在提供健康建議時(shí)的角色,指出了由于準(zhǔn)確性問題而引發(fā)的患者安全風(fēng)險(xiǎn),強(qiáng)調(diào)了醫(yī)療專業(yè)人員提供準(zhǔn)確健康信息的責(zé)任。同時(shí),Du等人[4]通過觀察患者使用GPT-4進(jìn)行自我診斷,發(fā)現(xiàn)患者的信任主要取決于他們對(duì)AI建議有效性的評(píng)估,進(jìn)一步強(qiáng)調(diào)了醫(yī)生經(jīng)驗(yàn)在建立信任方面的重要性。
為確保LLM提供的健康建議不誤導(dǎo)用戶,Cheng等人[5]提出了HeAL基準(zhǔn),用于評(píng)估LLM在提供健康建議時(shí)的能力和準(zhǔn)確性,為醫(yī)療環(huán)境中的LLM部署提供了有效的保護(hù)措施。此外,Ong等人[6]通過對(duì)比傳統(tǒng)的健康教練與基于RAG的LLM在健康指導(dǎo)中的表現(xiàn),發(fā)現(xiàn)LLM在可讀性、有用性和同理心方面優(yōu)于人類健康教練,顯示了其在自動(dòng)化健康指導(dǎo)領(lǐng)域的潛力。
針對(duì)個(gè)性化健康管理,Jin等人[7]提出了Health-LLM框架,通過結(jié)合LLM和醫(yī)學(xué)知識(shí)進(jìn)行疾病預(yù)測(cè),并利用檢索增強(qiáng)生成機(jī)制改善特征提取,提高了疾病預(yù)測(cè)的準(zhǔn)確性。同時(shí),Li等人[8]通過開發(fā)ChatDoctor模型,解決了現(xiàn)有LLM在醫(yī)學(xué)知識(shí)方面的局限性,顯著提高了模型理解患者需求和提供準(zhǔn)確建議的能力。
然而,LLM在醫(yī)療領(lǐng)域的應(yīng)用也面臨一些挑戰(zhàn),如生成虛構(gòu)內(nèi)容、缺乏對(duì)診斷和治療計(jì)劃的深入理解等[9]。這些問題妨礙了其在專科醫(yī)療中的部署,需要傳染病臨床醫(yī)生與LLM互動(dòng),以明智地決定如何在??谱o(hù)理中利用這項(xiàng)技術(shù),并避免其誤用??傮w而言,LLM在體檢報(bào)告解讀及臨床建議中的應(yīng)用仍處于發(fā)展階段,需要進(jìn)一步的研究和改進(jìn)以確保其在臨床實(shí)踐中的安全性和有效性。
此外,有研究者將BERT框架應(yīng)用于結(jié)構(gòu)化電子健康記錄(EHR)數(shù)據(jù),提出了Med-BERT模型[10]。該模型通過在大規(guī)模EHR數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并在疾病預(yù)測(cè)任務(wù)上進(jìn)行微調(diào),顯著提高了預(yù)測(cè)準(zhǔn)確性。特別是在小型訓(xùn)練集上,Med-BERT展現(xiàn)出了與大型訓(xùn)練集模型相當(dāng)?shù)男阅?,這有望降低數(shù)據(jù)收集成本,加速AI輔助醫(yī)療的發(fā)展。這一研究展示了LLM在醫(yī)療數(shù)據(jù)挖掘和疾病預(yù)測(cè)方面的潛力。
LLM在醫(yī)學(xué)對(duì)話和健康建議方面的應(yīng)用仍面臨挑戰(zhàn)。盡管LLM在理解人類指令方面已有顯著進(jìn)展,但在醫(yī)學(xué)領(lǐng)域的表現(xiàn)仍不理想,特別是在中文醫(yī)學(xué)對(duì)話的適應(yīng)性、診斷和藥物推薦等方面。有研究通過收集中文醫(yī)學(xué)對(duì)話數(shù)據(jù)庫,并結(jié)合多種技術(shù)訓(xùn)練了易于部署的LLM(如DoctorGLM[11]),并在有限時(shí)間內(nèi)成功進(jìn)行了微調(diào)。這表明,為醫(yī)療用途部署LLM既可行又經(jīng)濟(jì),但仍需進(jìn)一步完善以提高準(zhǔn)確性和可靠性。
另一方面,LLM在提供健康建議方面也引發(fā)了關(guān)注。Lautrup等人[12]通過回顧和分析涉及ChatGPT的PubMed文章,并結(jié)合實(shí)驗(yàn)評(píng)估了ChatGPT在處理心血管疾病領(lǐng)域健康提示時(shí)的表現(xiàn)。結(jié)果發(fā)現(xiàn),ChatGPT的回答質(zhì)量參差不齊,既有簡(jiǎn)潔正確的回答,也有荒謬或危險(xiǎn)的錯(cuò)誤。這表明,盡管LLM在健康建議中展現(xiàn)潛力,但其廣泛使用可能加劇健康不平等,并增加醫(yī)療保健系統(tǒng)的負(fù)擔(dān)。因此,需要謹(jǐn)慎評(píng)估LLM在醫(yī)療領(lǐng)域的應(yīng)用,并確保其提供的健康建議不會(huì)誤導(dǎo)用戶。
此外,Haupt等人[13]還探討了AI技術(shù)如何影響醫(yī)療服務(wù)提供,以及存在的潛在風(fēng)險(xiǎn)。作者強(qiáng)調(diào),AI的風(fēng)險(xiǎn)取決于其是用于協(xié)助醫(yī)生還是替代醫(yī)生,以及臨床醫(yī)生如何保持對(duì)技術(shù)的控制。因此,在醫(yī)療領(lǐng)域應(yīng)用LLM時(shí),需要權(quán)衡其帶來的便利和潛在風(fēng)險(xiǎn),并制定相應(yīng)的監(jiān)管措施以確?;颊叩陌踩屠妗?/p>
綜上所述,LLM在醫(yī)療領(lǐng)域的應(yīng)用仍處于發(fā)展階段,需要進(jìn)一步的研究和改進(jìn)。未來,隨著技術(shù)的不斷發(fā)展和完善,LLM有望在醫(yī)療領(lǐng)域發(fā)揮更大的作用,為臨床醫(yī)生和患者提供更加準(zhǔn)確、可靠和個(gè)性化的醫(yī)療服務(wù)。
1.2 個(gè)性化健康推薦與疾病預(yù)測(cè):LLM的潛力
在個(gè)性化健康推薦與疾病預(yù)測(cè)領(lǐng)域,AI、大模型、大數(shù)據(jù)等技術(shù)正發(fā)揮著日益重要的作用。Wu等人提出了一種基于局部可解釋模型不可知解釋的可解釋推薦系統(tǒng),該系統(tǒng)通過深度學(xué)習(xí)算法分析老年人中常見的慢性?。ㄈ缧呐K病和糖尿病)數(shù)據(jù),并利用LIME確定影響模型預(yù)測(cè)結(jié)果的特征重要性,從而提供了個(gè)性化的治療建議[14]。這種方法不僅提高了推薦的可解釋性,還增強(qiáng)了患者的信任度,為醫(yī)療決策提供了有力支持。
同時(shí),Sahoo等人開發(fā)了一種基于受限玻爾茲曼機(jī)和卷積神經(jīng)網(wǎng)絡(luò)的智能健康推薦系統(tǒng),該系統(tǒng)通過分析患者的生活方式、身體健康記錄和社交活動(dòng)等信息,實(shí)現(xiàn)了對(duì)健康狀況的精準(zhǔn)預(yù)測(cè)和健康建議的個(gè)性化推薦[15]。實(shí)驗(yàn)結(jié)果表明,與其他方法相比,RBM-CNN模型在預(yù)測(cè)中表現(xiàn)出更高的準(zhǔn)確性,為遠(yuǎn)程醫(yī)療環(huán)境中的健康推薦提供了新的思路。
在體檢大數(shù)據(jù)的利用方面,謝昌錕等人通過機(jī)器學(xué)習(xí)算法對(duì)大量體檢數(shù)據(jù)進(jìn)行了探索性分析和特征工程,建立了體檢評(píng)分模型。該模型能夠綜合各項(xiàng)體檢指標(biāo),客觀地描述用戶的身體健康狀況水平,不僅降低了醫(yī)患溝通成本,還促進(jìn)了用戶對(duì)自身健康的關(guān)注[16]。
此外,Galitsky探討了如何利用元學(xué)習(xí)和溯因推理技術(shù)提升大型語言模型在個(gè)性化健康建議中的表現(xiàn)。通過設(shè)計(jì)個(gè)性化提示和維護(hù)用戶隱私,LLM能夠基于用戶的健康記錄等信息生成量身定制的回答,從而提高了建議的針對(duì)性和準(zhǔn)確性[17]。
最后,Jin等人提出了一個(gè)名為Health-LLM的創(chuàng)新框架,該框架結(jié)合了大規(guī)模特征提取和醫(yī)學(xué)知識(shí)權(quán)衡評(píng)分,通過檢索增強(qiáng)生成機(jī)制和半自動(dòng)化特征更新框架,實(shí)現(xiàn)了對(duì)疾病預(yù)測(cè)和個(gè)性化健康管理的精準(zhǔn)支持。實(shí)驗(yàn)結(jié)果表明,Health-LLM系統(tǒng)超越了現(xiàn)有系統(tǒng),為智能醫(yī)療的發(fā)展注入了新的活力[7]。綜上所述,AI/大模型/大數(shù)據(jù)等技術(shù)在個(gè)性化健康推薦與疾病預(yù)測(cè)領(lǐng)域的應(yīng)用前景廣闊,值得進(jìn)一步深入研究和探索。
1.3 醫(yī)學(xué)數(shù)據(jù)分析與自然語言處理技術(shù)的結(jié)合
在醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)分析與NLP技術(shù)應(yīng)用方面,AI、大模型和大數(shù)據(jù)等技術(shù)正逐漸展現(xiàn)出其在體檢報(bào)告解讀方面的巨大潛力。Alsentzer等人[18]提出了專門用于臨床文本的BERT模型,并證明領(lǐng)域特定模型在三種常見的臨床NLP任務(wù)上相較于非特定嵌入能顯著提高性能,這為體檢報(bào)告解讀提供了更為精準(zhǔn)的自然語言處理工具。Health Catalyst Editors指出[19],NLP技術(shù)通過使用AI能夠從約80%的文本形式的健康數(shù)據(jù)中提取和分析有意義的見解,具有挖掘非結(jié)構(gòu)化數(shù)據(jù)的潛力,這對(duì)于體檢報(bào)告中大量存在的非結(jié)構(gòu)化數(shù)據(jù)而言,無疑是一個(gè)巨大的福音。
謝昌錕等人在《基于體檢大數(shù)據(jù)的健康指數(shù)建?!分衃16],通過機(jī)器學(xué)習(xí)算法對(duì)大量體檢數(shù)據(jù)進(jìn)行分析,建立了體檢評(píng)分模型,該模型能夠綜合各項(xiàng)體檢指標(biāo),較為客觀地描述用戶身體健康狀況水平,不僅降低了體檢用戶同醫(yī)生的溝通成本,還督促用戶更加關(guān)注身體整體健康水平。這一研究不僅展示了大數(shù)據(jù)在體檢報(bào)告解讀方面的應(yīng)用潛力,還提供了具體的實(shí)踐案例。
此外,Zhou等人[20]強(qiáng)調(diào)了深度學(xué)習(xí)和大數(shù)據(jù)分析在生物醫(yī)學(xué)應(yīng)用和數(shù)字醫(yī)療領(lǐng)域的重要性。他們指出,憑借大量歷史數(shù)據(jù),DL和大數(shù)據(jù)分析技術(shù)能夠識(shí)別特征與可能風(fēng)險(xiǎn)之間的潛在聯(lián)系,為醫(yī)療診斷做出重要決策。這一觀點(diǎn)進(jìn)一步支持了AI、大模型和大數(shù)據(jù)等技術(shù)在體檢報(bào)告解讀方面的應(yīng)用前景,即通過深度學(xué)習(xí)等技術(shù)對(duì)大量體檢數(shù)據(jù)進(jìn)行分析,可以識(shí)別出潛在的健康風(fēng)險(xiǎn),為醫(yī)生提供更準(zhǔn)確的診斷依據(jù),同時(shí)也為患者提供更加個(gè)性化的健康管理建議。
1.4 人工智能在醫(yī)學(xué)決策中的作用與技術(shù)挑戰(zhàn)
在人工智能參與醫(yī)學(xué)決策的作用與挑戰(zhàn)中,AI技術(shù)在體檢報(bào)告解讀方面的應(yīng)用逐漸展現(xiàn)出其潛力與局限性。具體而言,Li等人[21]提出了一種經(jīng)濟(jì)高效的方法,通過利用從PubMed Central中提取的大規(guī)模生物醫(yī)學(xué)圖片標(biāo)題數(shù)據(jù)集,訓(xùn)練出能夠回答生物醫(yī)學(xué)圖像開放式研究問題的視覺語言對(duì)話助手LLaVA-Med。該模型在不到15小時(shí)的時(shí)間內(nèi)訓(xùn)練完成,并在三個(gè)標(biāo)準(zhǔn)的生物醫(yī)學(xué)視覺問答數(shù)據(jù)集上表現(xiàn)出色,展現(xiàn)出其在體檢報(bào)告圖像解讀方面的潛在應(yīng)用價(jià)值。然而,盡管LLaVA-Med具有出色的多模態(tài)對(duì)話能力,但其在實(shí)際醫(yī)學(xué)決策中的準(zhǔn)確性和可靠性仍需進(jìn)一步驗(yàn)證。
與此同時(shí),Whiles等人[22]的研究揭示了ChatGPT在提供泌尿科健康建議方面的局限性。該研究通過向ChatGPT詢問基于泌尿科指南的問題,并使用Brief DISCERN評(píng)估答案的恰當(dāng)性,發(fā)現(xiàn)ChatGPT雖然能在超過一半的情況下提供適當(dāng)?shù)幕卮?,但?huì)曲解臨床護(hù)理指南、忽略重要背景信息,并提供不恰當(dāng)?shù)膮⒖?。這一發(fā)現(xiàn)表明,盡管AI聊天機(jī)器人在醫(yī)療領(lǐng)域具有廣闊前景,但用戶在解讀其提供的醫(yī)療建議時(shí)應(yīng)保持謹(jǐn)慎。
此外,Gaube等人[23]的研究進(jìn)一步探討了AI建議在醫(yī)生決策中的影響。該研究發(fā)現(xiàn),非專業(yè)領(lǐng)域的醫(yī)生在從AI獲得帶有視覺注釋的正確診斷建議時(shí),診斷準(zhǔn)確率最高,且對(duì)AI建議質(zhì)量的評(píng)價(jià)高于人類建議。這一發(fā)現(xiàn)表明,可解釋的AI建議有助于提升非專業(yè)醫(yī)生在體檢報(bào)告解讀方面的能力。然而,該研究也指出,任務(wù)專家和非任務(wù)專家在受影響程度上存在差異,這提示我們?cè)趯?shí)際應(yīng)用中應(yīng)根據(jù)醫(yī)生的專業(yè)領(lǐng)域和經(jīng)驗(yàn)水平來合理使用AI建議。
綜上所述,AI技術(shù)在體檢報(bào)告解讀方面展現(xiàn)出巨大潛力,但同時(shí)也面臨著準(zhǔn)確性和可靠性等方面的挑戰(zhàn)。未來研究應(yīng)進(jìn)一步探索如何提升AI模型的準(zhǔn)確性和可解釋性,以及如何根據(jù)醫(yī)生的專業(yè)領(lǐng)域和經(jīng)驗(yàn)水平來合理使用AI建議,從而推動(dòng)AI技術(shù)在醫(yī)學(xué)決策中的廣泛應(yīng)用和深入發(fā)展。
1.5 患者對(duì)AI系統(tǒng)的信任與接受度研究
在患者與AI互動(dòng)的信任與接受度方面,相關(guān)研究揭示了多種影響因素。Delong Du等人[4]指出,患者對(duì)于AI驅(qū)動(dòng)的大型語言模型如ChatGPT提供的臨床建議的信任程度,受到其能力評(píng)估的混雜因素影響。具體而言,患者往往更信任受過教育、有資質(zhì)的醫(yī)生提供的醫(yī)療指導(dǎo),而非AI代理,因?yàn)榛颊哒J(rèn)為醫(yī)生的專業(yè)知識(shí)和經(jīng)驗(yàn)更能有效實(shí)現(xiàn)其健康目標(biāo)。這一發(fā)現(xiàn)強(qiáng)調(diào)了基于能力的信任在患者決策中的重要性,也揭示了AI在臨床建議領(lǐng)域面臨的挑戰(zhàn)。
Christopher Robertson等人[24]探討了不同患者群體對(duì)AI診斷工具的看法。研究發(fā)現(xiàn),受訪者的選擇幾乎平分秋色,一部分選擇人類醫(yī)生,另一部分則選擇AI診所。然而,初級(jí)保健醫(yī)生對(duì)AI的解釋和推薦、AI診所的個(gè)性化服務(wù)以及避免種族和財(cái)務(wù)偏見的承諾等因素,均顯著提高了患者對(duì)AI的接受度。此外,研究還發(fā)現(xiàn),不同種族、年齡、政治傾向和宗教觀念的患者對(duì)AI的接受度存在差異。例如,黑人受訪者選擇AI的頻率較低,而美洲原住民則較高;年長(zhǎng)的受訪者、自認(rèn)為政治保守或認(rèn)為宗教很重要的人也更傾向于選擇人類醫(yī)生。教育水平的提高則增加了選擇AI提供商的可能性。
這些研究共同表明,患者與AI互動(dòng)的信任與接受度是一個(gè)復(fù)雜且多維的問題,受到患者個(gè)人特征、AI系統(tǒng)的性能以及醫(yī)生推薦等多種因素的影響。為了提高患者對(duì)AI的信任和接受度,未來的研究應(yīng)進(jìn)一步探索如何優(yōu)化AI系統(tǒng)的設(shè)計(jì)和性能,以及如何通過有效的溝通和解釋來增強(qiáng)患者對(duì)AI系統(tǒng)的理解和信任。同時(shí),針對(duì)不同患者群體的特點(diǎn)和需求,制定個(gè)性化的推廣策略也是提高AI接受度的關(guān)鍵。
1.6 醫(yī)學(xué)AI系統(tǒng)的安全性與倫理思考
在醫(yī)學(xué)AI系統(tǒng)的安全性與倫理方面,特別是在體檢報(bào)告解讀的應(yīng)用場(chǎng)景中,大型語言模型(LLM)的引入帶來了諸多挑戰(zhàn)與考量。Bright Huo[3]等人在其研究中指出,隨著LLM鏈接的聊天機(jī)器人越來越多地使用在線資源進(jìn)行訓(xùn)練,其性能得到了顯著提升,但在醫(yī)療保健領(lǐng)域的應(yīng)用卻引發(fā)了患者安全的擔(dān)憂。這些擔(dān)憂主要源于LLM輸出信息的準(zhǔn)確性問題,因?yàn)獒t(yī)生和患者經(jīng)常依賴互聯(lián)網(wǎng)獲取健康建議,而LLM鏈接聊天機(jī)器人的廣泛使用可能因信息不準(zhǔn)確而導(dǎo)致誤導(dǎo)。這一發(fā)現(xiàn)強(qiáng)調(diào)了在使用AI系統(tǒng)進(jìn)行體檢報(bào)告解讀時(shí),必須嚴(yán)格確保信息的準(zhǔn)確性和可靠性,以避免對(duì)患者造成潛在傷害。
此外,Ilan S Schwartz等人的研究[9]進(jìn)一步揭示了LLM在傳染病咨詢等??祁I(lǐng)域應(yīng)用時(shí)的局限性。他們指出,LLM目前存在頻繁的虛構(gòu)信息、缺乏對(duì)細(xì)致入微的診斷和治療計(jì)劃至關(guān)重要的背景意識(shí)、訓(xùn)練數(shù)據(jù)和方法難以捉摸且無法解釋,以及重復(fù)偏見的傾向等問題。這些問題不僅妨礙了LLM在安全臨床環(huán)境中的部署,也引發(fā)了關(guān)于認(rèn)知專業(yè)未來的擔(dān)憂。因此,在將AI系統(tǒng)應(yīng)用于體檢報(bào)告解讀時(shí),必須充分考慮其安全性和倫理問題,確保系統(tǒng)能夠準(zhǔn)確、可靠地提供醫(yī)療建議,同時(shí)避免對(duì)患者造成不必要的困擾或傷害。
在探討患者是否更傾向于遵循AI醫(yī)生還是人類醫(yī)生的醫(yī)療建議的研究中,基于醫(yī)患溝通路徑模型的一項(xiàng)析因?qū)嶒?yàn)[25]揭示了關(guān)鍵問題。該實(shí)驗(yàn)通過對(duì)比不同醫(yī)療服務(wù)提供者(AI與人類醫(yī)生)、信息支持程度(低與高)以及響應(yīng)延遲(慢與快)的組合影響,對(duì)535名被試進(jìn)行了深入分析。結(jié)果顯示,患者對(duì)人類醫(yī)生的醫(yī)療建議遵從性顯著高于AI醫(yī)生。特別是在響應(yīng)延遲較慢的情況下,被試認(rèn)為人類醫(yī)生在提供健康益處和以患者為中心方面表現(xiàn)更佳,而AI醫(yī)生在這些方面的評(píng)價(jià)則相對(duì)較低。這一發(fā)現(xiàn)進(jìn)一步強(qiáng)調(diào)了醫(yī)學(xué)AI系統(tǒng)在安全性與倫理方面的挑戰(zhàn),尤其是在體檢報(bào)告解讀等應(yīng)用場(chǎng)景中,需要更加注重AI建議的準(zhǔn)確性和可靠性,以贏得患者的信任與遵從。
綜上所述,醫(yī)學(xué)AI系統(tǒng)在體檢報(bào)告解讀方面的應(yīng)用雖然具有廣闊前景,但在安全性和倫理方面仍存在諸多挑戰(zhàn)。為了確保系統(tǒng)的有效性和安全性,未來的研究應(yīng)更加關(guān)注LLM的準(zhǔn)確性和可靠性問題,以及如何在保證患者隱私和權(quán)益的前提下,合理利用AI技術(shù)進(jìn)行醫(yī)療決策支持。
2 結(jié)語
綜上所述,AI和大型語言模型(LLM)在體檢報(bào)告解讀、健康建議生成及個(gè)性化健康管理中的應(yīng)用展現(xiàn)了巨大的發(fā)展?jié)摿?。這些技術(shù)不僅為醫(yī)學(xué)數(shù)據(jù)分析和健康管理提供了新的工具,還為醫(yī)生和患者之間的信息傳遞和互動(dòng)開辟了新路徑。然而,LLM在醫(yī)學(xué)領(lǐng)域的實(shí)際應(yīng)用仍然面臨一系列挑戰(zhàn),包括準(zhǔn)確性、可解釋性和患者信任等問題。為實(shí)現(xiàn)LLM技術(shù)在醫(yī)療中的安全部署,未來的研究應(yīng)著重于提升模型的臨床推理能力、減少虛構(gòu)信息生成,并加強(qiáng)多學(xué)科合作以確保技術(shù)在倫理與法律層面符合醫(yī)學(xué)規(guī)范。
隨著AI技術(shù)在醫(yī)療領(lǐng)域的深入發(fā)展,建立以患者安全為核心的AI監(jiān)管框架、完善技術(shù)支持和隱私保護(hù)機(jī)制,將有助于推動(dòng)AI和LLM在醫(yī)療實(shí)踐中的廣泛應(yīng)用。未來,我們期待AI在醫(yī)療健康領(lǐng)域的創(chuàng)新發(fā)展能夠更有效地服務(wù)于個(gè)性化健康管理,提升體檢報(bào)告解讀的準(zhǔn)確性和有效性,從而在臨床實(shí)踐中發(fā)揮更大的價(jià)值。
——————————
參考文獻(xiàn):
〔1〕Fan Z, Tang J, Chen W, et al. Ai hospital: Interactive evaluation and collaboration of llms as intern doctors for clinical diagnosis[J]. arXiv preprint arXiv:2402.09742, 2024.
〔2〕Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172-180.
〔3〕Huo B, Cacciamani G E, Collins G S, et al. Reporting standards for the use of large language model-linked chatbots for health advice[J]. Nature Medicine, 2023, 29(12): 2988-2988.
〔4〕Du D, Paluch R, Stevens G, et al. Exploring patient trust in clinical advice from AI-driven LLMs like ChatGPT for self-diagnosis[J]. arXiv preprint arXiv:2402.07920, 2024.
〔5〕Cheng K, Gentile A L, Li P, et al. Don’t be my Doctor! Recognizing Healthcare Advice in Large Language Models[C]//Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track. 2024: 970-980.
〔6〕Ong Q C, Ang C S, Chee D Z Y, et al. Advancing health coaching: A comparative study of large language model and health coaches[J]. Artificial Intelligence in Medicine, 2024, 157: 103004.
〔7〕Jin M, Yu Q, Shu D, et al. Health-llm: Personalized retrieval-augmented disease prediction system[J]. arXiv preprint arXiv:2402.00746, 2024.
〔8〕Li Y, Li Z, Zhang K, et al. Chatdoctor: A medical chat model fine-tuned on a large language model meta-ai (llama) using medical domain knowledge[J]. Cureus, 2023, 15(06).
〔9〕Schwartz I S, Link K E, Daneshjou R, et al. Black box warning: large language models and the future of infectious diseases consultation[J]. Clinical infectious diseases, 2024, 78(04):860-866.
〔10〕Rasmy L, Xiang Y, Xie Z, et al. Med-BERT: pretrained contextualized embeddings on large-scale structured electronic health records for disease prediction[J]. NPJ digital medicine, 2021, 4(01): 86.
〔11〕Xiong H, Wang S, Zhu Y, et al. Doctorglm: Fine-tuning your chinese doctor is not a herculean task[J]. arXiv preprint arXiv: 2304. 01097, 2023.
〔12〕Lautrup A D, Hyrup T, Schneider-Kamp A, et al. Heart-to-heart with ChatGPT: the impact of patients consulting AI for cardiovascular health advice[J]. Open heart, 2023, 10(02): e002455.
〔13〕Haupt C E, Marks M. AI-generated medical advice—GPT and beyond[J]. Jama, 2023, 329(16): 1349-1350.
〔14〕Wu Y, Zhang L, Bhatti U A, et al. Interpretable machine learning for personalized medical recommendations: A LIME-based approach[J]. Diagnostics, 2023, 13(16): 2681.
〔15〕Sahoo A K, Pradhan C, Barik R K, et al. DeepReco: deep learning based health recommender system using collaborative filtering[J]. Computation, 2019, 7(02): 25.
〔16〕謝昌錕,趙明琪,林世明.基于體檢大數(shù)據(jù)的健康指數(shù)建模[J].Hans Journal of Data Mining, 2021,11:1.
〔17〕Galitsky B A. LLM-Based Personalized Recommendations in Health[J]. 2024.
〔18〕Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.
〔19〕Health Catalyst Editors.Healthcare NLP: The Secret to Unstructured Data’s Full Potential[EB/OL].https://www.healthcatalyst.com/learn/insights/how-healthcare-nlp-taps-unstructured-datas-potential,2024.
〔20〕Zhou X, Leung C K, Kevin I, et al. Editorial Deep Learning-Empowered Big Data Analytics in Biomedical Applications and Digital Healthcare[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2024, 21(04): 516-520.
〔21〕Li C, Wong C, Zhang S, et al. Llava-med: Training a large language-and-vision assistant for biomedicine in one day[J]. Advances in Neural Information Processing Systems, 2024, 36.
〔22〕Whiles B B, Bird V G, Canales B K, et al. Caution! AI bot has entered the patient chat: ChatGPT has limitations in providing accurate urologic healthcare advice[J]. Urology, 2023, 180: 278-284.
〔23〕Gaube S, Suresh H, Raue M, et al. Non-task expert physicians benefit from correct explainable AI advice when reviewing X-rays[J]. Scientific reports, 2023, 13(01): 1383.
〔24〕Robertson C, Woods A, Bergstrand K, et al. Diverse patients’ attitudes towards Artificial Intelligence (AI) in diagnosis[J]. PLOS Digital Health, 2023, 2(05): e0000237.
〔25〕Li S, Chen M, Liu P L, et al. Following Medical Advice of an AI or a Human Doctor? Experimental Evidence Based on Clinician-Patient Communication Pathway Model[J]. Health Communication, 2024: 1-13.