楊衛(wèi)華,邵 毅,許言午,《眼科人工智能臨床研究評價指南(03)》專家組,中國醫(yī)藥教育協(xié)會眼科影像與智能醫(yī)療分會,中國醫(yī)藥教育協(xié)會智能醫(yī)學專業(yè)委員會
人工智能(artificial intelligence,AI)是計算機科學的一個分支,旨在開發(fā)智能機器,使它們能夠像人類一樣進行學習、推理、判斷和決策。AI包含很多子領域和技術,如自然語言處理、計算機視覺[1]、機器學習[2]、深度學習網(wǎng)絡[3]等。AI被廣泛應用于醫(yī)療保健、金融、交通運輸、制造等領域[4]。隨著計算機技術和數(shù)據(jù)處理能力的不斷提升,AI的發(fā)展和應用也越來越廣泛和深入。眼科疾病是影響全球人口健康的重要疾病之一,包括白內(nèi)障、青光眼、糖尿病視網(wǎng)膜病變、年齡相關性黃斑變性、病理性近視等。臨床研究對于了解疾病的病理生理機制、發(fā)展預防和治療策略、提高患者生活質量以及降低醫(yī)療成本等方面都具有重要意義。AI在眼科臨床研究領域的應用主要包括眼科疾病的預測和診斷[5-6]、治療和干預、預防和管理等[7-8]。其中,基于眼科影像和AI技術的眼科疾病的早期篩查系統(tǒng),如糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件[9]、眼底病變眼底圖像輔助診斷軟件(適用于慢性青光眼樣視神經(jīng)病變、糖尿病視網(wǎng)膜病變)[10-11]、慢性青光眼樣視神經(jīng)病變眼底圖像輔助診斷軟件等產(chǎn)品均通過了中國國家藥品監(jiān)督管理局三類醫(yī)療器械注冊證的注冊審批。
基于眼科影像和AI技術的眼科AI臨床研究如火如荼,隨著眼科AI臨床研究的不斷增多,確保其質量和可靠性的評價指南變得尤為必要。這不僅可以確保研究數(shù)據(jù)的準確性和有效性,而且能提高研究的可重復性和可比性。此外,對AI算法和模型的驗證和認證也非常關鍵,以確保其在真實臨床環(huán)境中的有效性和可靠性[12-13]。因此,中國醫(yī)藥教育協(xié)會眼科影像與智能醫(yī)療分會和智能醫(yī)學專業(yè)委員會組織成立了《眼科人工智能臨床研究評價指南(2023)》專家組,制定適用于眼科AI臨床研究評價的指南。本指南主要針對基于眼科影像和AI技術[14-15]的眼科AI臨床研究,旨在全面總結眼科AI臨床研究評價的方法,可以保障眼科AI臨床研究的質量和可靠性,促進眼科AI臨床研究的透明度和規(guī)范性,同時保護研究參與者隱私和數(shù)據(jù)安全,平穩(wěn)推動眼科AI臨床研究和應用的發(fā)展。
基于目前眼科AI臨床研究評價問題,中國醫(yī)藥教育協(xié)會眼科影像與智能醫(yī)療分會、智能醫(yī)學專業(yè)委員會組織眼科AI專家、眼科臨床研究專家、眼科醫(yī)學倫理專家和眼科AI產(chǎn)品研發(fā)科學家于2022-07成立眼科AI臨床研究評價指南專家組,于 2022-07-25開始對眼科AI臨床研究的相關專家進行訪談,收集并整理相關領域中涉及的眼科AI臨床研究評價問題及在相關AI技術臨床研究中面臨的困難。由于眼科AI臨床研究評價尚未形成統(tǒng)一的可遵守的指南,本指南專家組在認真學習國內(nèi)外眼科AI臨床研究文獻、研究文獻的基礎上,結合眼科AI臨床研究的實踐經(jīng)驗,召開線下和線上會議,針對收集的眼科AI臨床研究評價問題進行充分討論和論證。由執(zhí)筆專家組成員撰寫指南初稿,初稿形成后通過電子郵件和微信方式由各位專家獨立閱讀并提出修改意見,分別提交指南撰寫組核心成員,修改意見經(jīng)過整理并通過微信、郵件方式和線上會議進行討論和歸納。指南在修改期間充分接受參與專家的建議和指導意見,最終達成指南終稿,旨在指導眼科AI臨床研究評價。本指南制定過程歷時近1a。
目前,國際上還沒有針對眼科AI臨床研究的評價指南。然而,有一些通用的規(guī)范AI臨床研究或臨床試驗的指南可以參考。例如2020年發(fā)布的干預性臨床試驗的建議-AI擴展版(Standard Protocol Items: Recommendations for Interventional Trials-Artificial Intelligence, SPIRIT-AI)[16]和臨床試驗報告統(tǒng)一標準-AI擴展版(Consolidated Standards of Reporting Trials-Artificial Intelligence, CONSORT-AI)[17],2021年發(fā)布的診斷準確性研究報告標準-AI擴展版(Standards for Reporting of Diagnostic accuracy studies-Artificial Intelligence, STARD-AI)[18]和個體預后或診斷的多變量預測模型的透明報告-AI擴展版(Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis-Artificial Intelligence, TRIPOD-AI)[19]。其中,SPIRIT-AI是涉及AI的干預措施臨床試驗的規(guī)范性指南,針對AI臨床試驗方案應報告的特定信息,應與SPIRIT 2013和其他SPIRIT擴展指南一同使用,目的是促進AI臨床試驗設計和方法的透明度,以促進理解、解釋和同行評審[16]。類似地,CONSORT-AI用于規(guī)范涉及AI的干預措施臨床試驗報告,建議提供對AI干預措施的清晰描述,包括使用所需的指導和技能、AI干預集成的環(huán)境、AI干預的輸入和輸出處理、AI與人類的交互以及錯誤案例分析,促進AI干預措施臨床試驗報告的透明度和完整性[17]。STARD-AI是用于規(guī)范以AI為核心的診斷測試準確性研究報告的指南,提出需對數(shù)據(jù)預處理方法、AI測試開發(fā)方法(如數(shù)據(jù)集劃分、模型校準、訓練時停止準則、使用外部驗證集)、公平度量指標、非標準性能指標、可解釋性以及人與AI測試的交互等內(nèi)容進行報告,旨在提高AI診斷測試準確性研究的透明度和公平性[18]。TRIPOD-AI是針對多變量AI預測模型研究報告的指南,以幫助研究者透明地報告研究內(nèi)容,并幫助查閱者理解研究方法和結果,從而減少研究浪費[19]。
眼科AI臨床研究的環(huán)節(jié)包括眼科檢查數(shù)據(jù)采集和管理、模型開發(fā)、臨床試驗、臨床應用4個關鍵環(huán)節(jié)。本指南將針對這些關鍵環(huán)節(jié)介紹評價方法。值得注意的是,眼科AI臨床研究模型可按照臨床應用的任務分為干預模型、診斷模型、預測模型[20-21]3種。具體地,眼科AI干預模型可作為獨立干預措施或聯(lián)合常規(guī)干預措施用于對特定疾病或癥狀的治療、預防或管理等;眼科AI診斷模型用于確定是否存在某種疾病或病變及其分類、分級;眼科AI預測模型用于根據(jù)研究參與者的特征預測未來疾病的風險或治療的效果。因此,對模型評價方法的介紹將按這3種眼科AI臨床研究模型分別展開。此外,由于臨床試驗是醫(yī)療器械在國內(nèi)和國外上市的必要條件[22-23],本指南將在第4節(jié)單獨介紹眼科AI臨床試驗的評價方法。
3.1 眼科AI臨床研究通用評價方法
3.1.1 數(shù)據(jù)采集和管理的評價針對眼科AI臨床研究中數(shù)據(jù)采集和管理環(huán)節(jié)的評價是為了確保研究數(shù)據(jù)的數(shù)量、質量、完整性、安全性以及可靠性[24]。具體的評價方法建議覆蓋以下幾個方面:(1)數(shù)據(jù)數(shù)量評價:評價收集數(shù)據(jù)的數(shù)量,確保其符合臨床研究中模型的開發(fā)、性能的驗證等要求。(2)數(shù)據(jù)質量評價:評價數(shù)據(jù)的質量[25-26],包括數(shù)據(jù)的完整性、準確性、邏輯性、一致性和可用性等,確保數(shù)據(jù)的質量符合要求[27]。(3)數(shù)據(jù)清洗評價:評價數(shù)據(jù)清洗過程是否保持脫敏、是否符合邏輯、是否有效等。(4)數(shù)據(jù)標簽評價:評價數(shù)據(jù)標簽,即參考標準[28]的構建過程和標簽質量,確保數(shù)據(jù)標簽可靠。對于依賴人工標注而生成的標簽,需評價標注流程的規(guī)范性、標注人員和設備、標注過程以及標注質量[29]。(5)數(shù)據(jù)存儲評價:評價數(shù)據(jù)的存儲質量,確保數(shù)據(jù)的存儲安全且符合要求。常用的方法包括檢查數(shù)據(jù)的存儲位置、存儲介質和存儲方式等。(6)數(shù)據(jù)管理評價:評價數(shù)據(jù)的管理質量,確保數(shù)據(jù)的管理安全且符合要求。常用的方法包括檢查數(shù)據(jù)的管理過程和數(shù)據(jù)管理人員的能力等[30]。(7)數(shù)據(jù)使用評價:評價數(shù)據(jù)的使用質量,確保數(shù)據(jù)的使用以及共享過程安全且符合要求。常用的方法包括檢查數(shù)據(jù)使用的目的、范圍、倫理性[31]、合法性,以及數(shù)據(jù)共享的政策、共享方式和目的等。
3.1.2 眼科AI模型開發(fā)的評價針對眼科AI臨床研究中模型開發(fā)環(huán)節(jié)的評價是為了確保研究開發(fā)的模型具有高質量、可靠性以及穩(wěn)定性。具體的評價方法建議覆蓋以下幾個方面:(1)開發(fā)數(shù)據(jù)集的評價:評價開發(fā)AI模型所使用的數(shù)據(jù)集的質量、數(shù)量、均衡性是否足夠,數(shù)據(jù)集的代表性如何,訓練集、驗證集、測試集的劃分是否合理;評價標簽的定義方法是否有充分的臨床依據(jù)。(2)特征選擇和提取評價:若需要人工選擇特征,則評價選擇的特征是否能夠對模型的性能產(chǎn)生重要影響,同時評價特征提取方法是否合適。(3)眼科AI模型性能評價:使用常見的指標評價模型的性能,確保模型能夠準確地預測目標變量,詳見3.2小節(jié)。(4)交叉驗證:使用交叉驗證方法(如k折交叉驗證)來評價模型的泛化能力,確保模型能夠在新數(shù)據(jù)上進行準確預測。(5)模型解釋性評價:評價模型的解釋性,確保模型的預測結果可被臨床解釋和理解。(6)模型穩(wěn)定性評價:評價模型對數(shù)據(jù)噪聲和隨機性的穩(wěn)定性,確保模型在面對不同數(shù)據(jù)集時能夠產(chǎn)生一致的結果。(7)模型適應性評價:評價模型在不同群體和不同環(huán)境下的適應性,確保模型能夠在實際應用中產(chǎn)生準確的結果。
3.1.3 眼科AI模型臨床應用的評價針對眼科AI模型臨床應用的評價是為了確保臨床應用的安全、有效以及可重復性。具體的評價方法建議覆蓋以下幾個方面:(1)安全性評價:評價臨床應用過程是否存在數(shù)據(jù)隱私和安全性等方面的問題,以保護研究參與者的隱私權和個人信息。(2)內(nèi)部有效性評價:評價研究結果的準確性、可信度和適用性。內(nèi)部有效性的高低取決于研究設計的合理性、研究組和對照組的選取和分配、盲法設計、研究過程中的控制和管理以及數(shù)據(jù)分析的可靠性等因素。(3)外部有效性評價:評價研究結果的推廣能力和普適性。外部有效性的高低取決于研究樣本的代表性、試驗環(huán)境的真實性、研究方法的通用性和研究結果的適用性等因素。(4)可重復性評價:評價研究結果是否能被重復驗證,即評價AI模型在不同數(shù)據(jù)集上的性能是否穩(wěn)定、性能波動范圍是否可接受,在不同設備上的表現(xiàn)是否一致,在同一數(shù)據(jù)多次輸入情況下的預測結果是否一致??芍貜托缘母叩腿Q于模型開發(fā)階段數(shù)據(jù)的代表性、研究過程的透明度、研究方法的清晰度、數(shù)據(jù)的公開性和分析的可重復性等因素。(5)應用效果評價:評價臨床應用中的效果,包括對患者診斷和治療的指導和改善程度。(6)衛(wèi)生經(jīng)濟學分析評價:評價在臨床應用中的衛(wèi)生經(jīng)濟學價值,包括成本效果分析、成本效用分析、成本效益分析等,成本包括人力、物力和經(jīng)濟成本等,產(chǎn)出指標包括實際應用過程中產(chǎn)生的臨床效果、質量調(diào)整生命年和節(jié)約的醫(yī)療費用等。
3.2 眼科AI臨床研究模型評價方法
3.2.1 眼科AI干預模型的評價眼科AI干預模型可作為獨立干預措施或聯(lián)合常規(guī)干預措施用于對特定疾病或癥狀的治療、預防或管理等。為證明眼科AI干預模型對治療目標病癥有效,眼科AI干預模型臨床研究的評價主要指標是干預過程評價和干預效果評價兩方面。干預過程的評價可通過與常規(guī)干預措施直接比較,從干預過程的時長、安全性和有效性、衛(wèi)生經(jīng)濟學等方面開展評價,根據(jù)指標數(shù)據(jù)的類型選擇適合的統(tǒng)計學方法進行比較[32-34]。干預效果的評價通常使用臨床結局指標來衡量,如死亡率、疾病復發(fā)率、生存期等,可以通過干預后癥狀減輕、疾病進展或生存率等結果來評價,詳見3.3.1小節(jié)。
3.2.2 眼科AI診斷模型的評價診斷模型是用于確定是否存在某種疾病或病變的模型。評價診斷模型的主要目標是考察其診斷準確性,可使用的評價指標可包括靈敏度、特異度、準確率和Kappa一致性系數(shù)等,詳見3.3.2小節(jié)。
3.2.3 眼科AI預測模型的評價預測模型用于根據(jù)研究參與者的特征預測疾病的風險、生理結構的變化,或預測治療效果。評價預測模型可包含評價疾病未來發(fā)生與否的分類結果,評價未來生理結構測量參數(shù)的回歸結果等。在有明確預測標簽(參考標準)的情況下,可使用的評價指標可包括均方根誤差、平均絕對誤差、靈敏度、特異度等;在沒有明確預測標簽(參考標準)的情況下,可使用的評價指標可包括與其他優(yōu)秀方法獲得結果的陽性符合率、陰性符合率、總符合率等,詳見3.3.3小節(jié)。
3.3 常用眼科AI臨床研究模型評價指標和計算公式本指南提供了常用的眼科AI模型評價指標及其計算公式[28,35],不同模型的臨床研究應根據(jù)實現(xiàn)的任務選擇不同的指標進行評價。
3.3.1 眼科AI干預模型的常用結局評價指標和計算公式
(1)干預模型死亡率,指研究參與者在干預后死亡的比例:
①
(2)干預模型疾病復發(fā)率,指研究參與者在干預后疾病再次發(fā)作的比例:
②
(3)干預模型生存期,指研究參與者從干預開始到死亡或失訪之間的天數(shù)。
3.3.2 眼科AI診斷模型的常用評價指標和計算公式
(1)混淆矩陣,一種特殊的、具有兩個維度的可視化矩陣,可用于監(jiān)督學習評價時比較分類結果和實際測得值?;煜仃嚨拿恳恍写砹祟A測類別,每一行的數(shù)據(jù)總數(shù)表示預測為該類別的數(shù)據(jù)的數(shù)目;每一列代表了數(shù)據(jù)的真實歸屬類別,每一列的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)數(shù)目;每一元素中的數(shù)值表示對應真實類別數(shù)據(jù)被預測某類的數(shù)目(表1)。
表1 混淆矩陣示意
(2)靈敏度(Sensitivity, Sen),又可稱召回率(Recall, R)、查全率,是真陽性樣本占全體陽性樣本的比例:
③
(3)特異度(Specificity, Spe),真陰性樣本占全體陰性樣本的比例:
④
(4)似然比(Likelihood Ratio, LR),同時反映敏感度和特異度的復合指標,即患病者中得出某一篩檢研究結果的概率與未患病者得出這一概率的比值。
陽性似然比(Positive Likelihood Ratio, +LR), 篩檢結果的真陽性率與假陽性率之比,比值越大,研究結果陽性時為真陽性的概率越大:
⑤
陰性似然比(Negative Likelihood Ratio, -LR),篩檢結果的假陰性率與真陰性率之比,其比值越小,研究結果陰性時為真陰性的可能性越大:
⑥
(5)準確率(Accuracy, Acc),算法診斷正確的樣本占全體樣本的比例:
⑦
(6)精確率(Precision, Pre),又稱陽性預測值(Positive Prediction Value, PPV)、查準率,是真陽性樣本占算法判為陽性樣本的比例:
⑧
(7)陰性預測值(Negative Prediction Value, NPV),真陰性樣本占被算法判為陰性樣本的比例:
⑨
(8)漏檢率(Miss Rate, MR),也稱為漏報率、漏診率、漏警率、假陰性率,即檢測中未發(fā)現(xiàn)的陽性樣本占全體陽性樣本的比例:
⑩
(9)誤檢率(False Alarm Rate, FA),也稱為誤報率、誤診率、虛警率、假陽性率,即全體陰性樣本中被錯誤地預測為陽性樣本的比例:
(10)F1分數(shù)(F1Score),召回率和精確率的調(diào)和平均數(shù):
式中,P表示精確率;R表示召回率。
(11)約登指數(shù)(Youden Index, YI),也稱正確指數(shù),假設假陰性(漏診率)和假陽性(誤診率)危害同等意義,約登指數(shù)為靈敏度與特異度之和減去1,指數(shù)越大說明篩查效果越好。
YI=Sen+Spe-1
(12)Kappa系數(shù)(Kappa Value),用于評價篩查系統(tǒng)與參考標注診斷結果一致性的指標:
式中po=(TP+TN)/N,pe=(R1C1+R2C2)/N×N,即:
(13)受試者操作特征(Receiver operating characteristic,ROC)曲線下面積(area under curve,AUC):ROC是通過在一組(一系列)預設閾值下估計的篩查系統(tǒng)在測試集上的靈敏度和特異度,從而產(chǎn)生一組(1-特異度,靈敏度)操作點,將這些操作點依次連接形成的曲線,AUC即為該曲線和X軸所圍成的面積(圖1),可用于度量分類模型的性能,取值范圍一般為0.5~1,且值越大代表模型分類效果越好。
圖1 ROC曲線及AUC指標與PR曲線示意圖 A:ROC曲線;B:PR曲線。
(14)精確率-召回率(Precision-Recall,PR)曲線:PR曲線與ROC類似,是通過在一組(一系列)預設閾值下估計的篩查系統(tǒng)在測試集上的精確率和召回率,從而產(chǎn)生一組(召回率,精確率)操作點,將這些點依次連接形成的曲線(圖1)。
3.3.3 眼科AI預測模型的常用評價指標和計算公式預測模型若輸出分類類別結果,則可使用3.3.2小節(jié)提供的評價指標和計算公式進行評價;若輸出為連續(xù)數(shù)值結果,則可使用如下的評價指標和計算公式:
(1)均方根誤差(Root Mean Square Error, RMSE)可以衡量預測值和真值之間的偏差,能夠反映出測量的精確度。均方根誤差越接近于0,表明模型對于目標值預測的效果越好:
(2)平均絕對誤差 (Mean Absolute Error, MAE),是各個測量值與參考標準的偏差絕對值的平均值。平均絕對誤差可避免誤差相互抵消的問題,準確地反映實際預測誤差的大小:
(3)平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE),是一種相對度量,相較于MAE,MAPE計算了預測值和參考標準偏差相對參考標準的百分比:
MAPE的范圍是[0,+∞),值為0代表完美模型,值大于100%代表劣質模型。注意當參考標注值為0時公式不可用。
(4)對稱平均絕對百分比誤差(Symmetric Mean Absolute Percentage Error,SMAPE),與MAPE相比,計算公式分母中的參考標準絕對值被替換為參考標準絕對值和預測值絕對值的中值:
SMAPE的取值范圍為[0,200%],當參考標準和預測值同時為0時公式不可用。
(5)R2,也叫決定系數(shù),是回歸預測值和標定值之間擬合程度的統(tǒng)計系數(shù)。R2值介于0~1之間,越接近0,表明模型的預測結果越接近隨機;越接近1,表明模型回歸預測目標值的擬合效果越好:
(6)當預測模型輸出的參考標準未知時,可將待評價方法結果與其他方法獲得的結果進行符合率的計算,如陽性符合率、陰性符合率、總符合率,如表2[36]和公式所示:
表2 參考標準未知的2×2表
(7)對預測模型除了評價其準確性,對其校準或擬合優(yōu)度的考察也十分重要。校準或擬合優(yōu)度被認為是預測模型最重要的屬性之一,它反映了預測模型正確估計絕對風險的程度,校準不當?shù)念A測模型會低估或高估目標結果[37]。校準或擬合優(yōu)度的評價方法通常使用Hosmer-Lemeshow擬合度檢驗和校準曲線。
Hosmer-Lemeshow擬合優(yōu)度檢驗(HL檢驗)[37],用于判斷預測值與真實值之間的差異情況。若P≤0.05,表示預測值與真實值之間的差異具有統(tǒng)計學意義,說明模型擬合度較差;若P>0.05,則提示通過HL檢驗,說明預測值與真實值之間無明顯差異[38]。
校準曲線(Calibration Curve)[37]用于輔助觀察模型的預測概率是否接近于真實概率,是實際發(fā)生率-預測發(fā)生率的散點圖,本質上是擬合優(yōu)度檢驗的結果可視化。
3.3.4 眼科AI臨床研究中其他常用評價指標和計算公式
(1)數(shù)據(jù)有效使用率,是數(shù)據(jù)收集和處理過程中,最終被有效使用的數(shù)據(jù)占總數(shù)據(jù)量的比例:
(2)樣本量估算公式,可根據(jù)眼科AI模型的預期效果,推導測試集中各類別數(shù)據(jù)需要的數(shù)量:
式中,Z為置信水平的Z統(tǒng)計量,Δ為允許誤差,P為預期的準確率、靈敏度、特義度等評價指標,N為所需樣本量。通常設定參數(shù)估計雙側可信區(qū)間的可信度為95%(即Ⅰ類錯誤α為0.05,雙側),則Z1-a/2=1.96,預期評價指標估計精度(可信區(qū)間半寬度)Δ通常設置為5%。
(3)評價多類別分類眼科AI研究任務時,對于多分類眼科AI研究任務,若多個類別互相獨立,則可將多類別的評價轉化為多個二分類問題的評價,每一類的陰性樣本定義為總樣本中除了該類別為陽性的樣本之外的所有樣本。可計算的評價指標包括Micro/MacroF1值,Micro/Macro AUC和Kappa值。
其中,MacroF1和Macro AUC值是先分別計算每一類預測的F1值和AUC值,然后將各個類別的F1值和AUC值取平均:
式中,C為分類任務的總類別數(shù)。
MicroF1和Micro AUC值則是先計算總體樣本的真陽性、假陽性、真陰性和假陰性樣本數(shù),再根據(jù)F1和AUC定義進行計算,即:
Micro AUC依賴全局的混淆矩陣,在繪制全局ROC曲線時,橫縱坐標點分別代表全局的1-特異度和靈敏度,即
Micro/Macro F1, Micro/Macro AUC均為0~1之間的數(shù)值,值越接近1表示多分類模型的效果越好。
Kappa一致性系數(shù)在評價多分類任務時:
(4)眼科AI臨床研究中結構區(qū)域分割評價時,評價結構(生理結構、病灶等)區(qū)域分割結果是否準確的評價指標通常有DICE系數(shù)和Jaccard系數(shù):
DICE系數(shù)(Dice Coefficient),結構區(qū)域分割輪廓與參考標準輪廓的交集占分割輪廓與參考標準輪廓平均值的比例(圖2):
圖2 DICE系數(shù)計算示意。
其中 |X∩Y| 是X和Y之間的交集,|X|和|Y|分表表示X和Y的元素的個數(shù)。
Jaccard系數(shù)(Jaccard Coefficient),結構區(qū)域分割輪廓與參考標準輪廓的交集占分割輪廓與目標輪廓并集的比例(圖3),又稱交并比(Intersection over Union, IoU):
圖3 Jaccard系數(shù)計算示意。
臨床試驗是臨床研究的重要組成部分,用于驗證藥物或醫(yī)療器械的安全性和有效性。對于眼科AI臨床試驗的的評價方法建議覆蓋以下幾個方面:試驗設計、研究參與者群體、倫理問題、樣本量、對照和盲法設計、試驗結果、數(shù)據(jù)分析、不良事件等。(1)試驗設計:臨床試驗的設計應適合于回答臨床試驗的問題,包括試驗類型、前瞻性還是回顧性、單中心還是多中心、優(yōu)效性設計或非劣性設計還是單組目標值設計等。例如,針對干預模型的臨床試驗需保證對參與者進行足夠時間的隨訪,確保干預在一定時期內(nèi)是安全有效的。針對醫(yī)學影像診斷模型的AI醫(yī)療器械臨床試驗,為避免醫(yī)生的主觀因素和不確定性等因素的影響,可采用多閱片者多病例(Multi-reader Multi-case,MRMC)試驗設計,確保全面評價模型性能,減小因研究者個體差異造成的誤差。(2)研究參與者群體:臨床試驗需有一個明確的研究參與者群體,該研究參與者群體是被研究人群的代表。臨床試驗需要根據(jù)研究參與者的特點和試驗目的,合理選擇研究參與者,保證樣本的代表性和多樣性。(3)倫理問題:臨床試驗應符合倫理原則,研究參與者在參加臨床試驗前應簽署知情同意書,且臨床試驗應獲得倫理委員會的批準[31]。(4)樣本量:臨床試驗應具有合適的樣本量,滿足統(tǒng)計分析的要求,以發(fā)現(xiàn)組間有意義的差異。(5)對照和盲法設計:干預性臨床試驗研究參與者應隨機分為治療組和對照組,且應采用雙盲方法,以盡量減少選擇偏差,并確保各組在基線時具有可比性。診斷性或預測性臨床試驗設計應適合于回答臨床試驗的問題。診斷性臨床試驗應以目前臨床上標準的方法作為對照方法。(6)試驗結果:被測量的結果應明確定義并與臨床試驗問題相關,并應使用標準化方法進行測量。(7)數(shù)據(jù)分析:數(shù)據(jù)的統(tǒng)計分析應適當,試驗結果應以清晰透明的方式呈現(xiàn)。(8)不良事件:臨床試驗應報告在試驗期間發(fā)生的任何不良事件,并應評價臨床試驗的安全性和耐受性。
眼科是醫(yī)學AI最為活躍的臨床???隨著基于眼科影像和AI技術的眼科AI臨床研究的不斷增多,為保障眼科AI臨床研究的質量和可靠性,我們制定了眼科AI臨床研究評價指南。本指南總結了眼科AI臨床研究評價指南制定的背景和方法、介紹了AI臨床研究評價的國際指南、并討論了眼科AI臨床研究評價方法。詳細介紹了眼科AI臨床研究通用評價方法、眼科AI臨床研究模型評價方法、常用眼科AI臨床研究模型評價指標和計算公式,并詳細闡述了眼科AI臨床試驗評價方法。眼科AI臨床研究評價指南的制定,有助于改進臨床研究方案的設計、實施和研究質量,從而提高研究的完整性和透明度,減少潛在的偏倚。本指南的目的是提出眼科AI臨床研究評價的建議,從而提高相關人員對眼科AI臨床研究評價的規(guī)范意識。眼科AI臨床研究中,研究者可根據(jù)研究的環(huán)節(jié)、模型的類型來選用相對應的評價指標和計算公式。
本指南是第一部關于眼科AI臨床研究評價的指南,隨著醫(yī)學領域中AI技術應用方面法律法規(guī)政策方針的逐步出臺,本指南內(nèi)容將得到進一步的討論和更新。歡迎對本指南存在的不足提出寶貴的建議和意見,使得本指南能夠不斷更新和完善。
形成指南專家組成員
執(zhí)筆專家:
楊衛(wèi)華 深圳市眼科醫(yī)院 深圳市眼病防治研究所
許言午 華南理工大學未來技術學院 人工智能與數(shù)字經(jīng)濟廣東省實驗室(廣州)
方慧卉 人工智能與數(shù)字經(jīng)濟廣東省實驗室(廣州)
邵 毅 南昌大學第一附屬醫(yī)院
張少沖 深圳市眼科醫(yī)院 深圳市眼病防治研究所
魏永越 北京大學公眾健康與重大疫情防控戰(zhàn)略研究中心
劉祖國 廈門大學眼科研究所
周吉銀 陸軍軍醫(yī)大學第二附屬醫(yī)院
周永進 深圳大學醫(yī)學部生物醫(yī)學工程學院
參與起草的專家(按姓氏拼音排列):
Sunee Chansangpetch 泰國朱拉隆功國王紀念醫(yī)院眼科
陳 浩 溫州醫(yī)科大學附屬眼視光醫(yī)院
陳 杰 鵬城實驗室
陳羽中 北京鷹瞳科技發(fā)展股份有限公司
崔紅光 浙江大學醫(yī)學院附屬第一醫(yī)院
戴 琦 溫州醫(yī)科大學附屬眼視光醫(yī)院
戴偉偉 愛爾數(shù)字眼科研究所
鄧愛軍 濰坊醫(yī)學院附屬醫(yī)院
丁 琳 新疆維吾爾自治區(qū)人民醫(yī)院
段立新 電子科技大學(深圳)高等研究院
付華柱 新加坡科技研究局高性能計算研究所
戈宗元 北京鷹瞳科技發(fā)展股份有限公司
韓 偉 浙江大學醫(yī)學院附屬第二醫(yī)院
黃厚斌 解放軍總醫(yī)院眼科醫(yī)學部 解放軍總醫(yī)院海南醫(yī)院
蔣 沁 南京醫(yī)科大學附屬眼科醫(yī)院
雷柏英 深圳大學醫(yī)學部生物醫(yī)學工程學院
柯根杰 安徽省立醫(yī)院
劉 虎 南京醫(yī)科大學第一附屬醫(yī)院
李世迎 廈門大學附屬翔安醫(yī)院暨廈門大學醫(yī)學中心
李 文 電子科技大學(深圳)高等研究院
李小萌 香港科技大學
劉小晴 北京致遠慧圖科技有限公司
婁 巖 中國醫(yī)科大學智能醫(yī)學學院
陸培榮 蘇州大學附屬第一醫(yī)院
宋宗明 河南省立眼科醫(yī)院 河南省人民醫(yī)院
孫 斌 山西省眼科醫(yī)院
譚明奎 華南理工大學軟件學院
陶黎明 安徽醫(yī)科大學第二附屬醫(yī)院
萬 程 南京航空航天大學
魏銳利 海軍軍醫(yī)大學上海長征醫(yī)院
吳 健 浙江大學醫(yī)學院附屬第二醫(yī)院 浙江大學公共衛(wèi)生學院
肖 璇 武漢大學人民醫(yī)院
徐 捷 首都醫(yī)科大學附屬北京同仁醫(yī)院 北京市眼科研究所
徐 雯 浙江大學醫(yī)學院附屬第二醫(yī)院
徐 帆 廣西壯族自治區(qū)人民醫(yī)院
許晶晶 北京致遠慧圖科技有限公司
楊永升 中國中醫(yī)科學院眼科醫(yī)院
姚 進 南京醫(yī)科大學附屬眼科醫(yī)院
葉 娟 浙江大學醫(yī)學院附屬第二醫(yī)院
岳麗菁 廣東省第二中醫(yī)院
張冬冬 北京至真互聯(lián)網(wǎng)技術有限公司
張光華 太原學院大數(shù)據(jù)智能診療產(chǎn)業(yè)學院
張國明 深圳市眼科醫(yī)院 深圳市眼病防治研究所
張 弘 哈爾濱醫(yī)科大學附屬第一醫(yī)院眼科醫(yī)院
張志常 中國醫(yī)科大學智能醫(yī)學學院
趙一天 中國科學院慈溪生物醫(yī)學工程研究所
鄭 博 湖州師范學院信息工程學院
周慧芳 上海交通大學醫(yī)學院附屬第九人民醫(yī)院
利益沖突:
所有作者均聲明不存在利益沖突。本指南的制定未接受任何企業(yè)的贊助。
指南聲明:
本指南為《眼科人工智能臨床研究評價指南(2023)》專家組、中國醫(yī)藥教育協(xié)會眼科影像與智能醫(yī)療分會和中國醫(yī)藥教育協(xié)會智能醫(yī)學專業(yè)委員會部分專家起草。所有參與本指南制定的專家均聲明,堅持客觀的立場,以專業(yè)知識、全球研究數(shù)據(jù)和臨床研究經(jīng)驗為依據(jù),經(jīng)過充分討論,全體專家一致同意后形成本指南。
免責聲明:
本指南的內(nèi)容僅代表參與制定的專家對臨床研究評價方法的建議指導意見,供臨床醫(yī)師參考;本指南的內(nèi)容不代表任何的法律法規(guī)。盡管專家們進行了廣泛的意見征詢和討論,但仍有不全面之處。本指南所提供的建議并非強制性意見,與本指南不一致的做法并不意味著錯誤或不當。臨床實踐中仍存在諸多問題需要探索,正在進行和未來開展的臨床研究將提供進一步的證據(jù)。隨著臨床經(jīng)驗的積累和新的治療方法的涌現(xiàn),未來需要對本指南定期修訂、更新,為患者帶來更多臨床獲益。