李曼 滕依杉 郭佳穎 趙陽光 李真真
(中國信息通信研究院云計算與大數(shù)據(jù)研究所智慧健康部 北京市 100191)
醫(yī)學(xué)影像由于其具有非侵入式、獲取簡單、信息量大等特點(diǎn),已經(jīng)成為了應(yīng)用最廣泛的疾病診斷工具。常見的醫(yī)學(xué)影像數(shù)據(jù)來源包括X 射線、CT、超聲、MRI、PET、內(nèi)窺鏡、眼底照相機(jī)、病理切片、光學(xué)相干成像等。近年來,隨著醫(yī)學(xué)成像技術(shù)的成熟,醫(yī)學(xué)影像數(shù)據(jù)體量快速增長、數(shù)據(jù)模態(tài)更加多維,因此對其進(jìn)行準(zhǔn)確地分析解讀,從中挖掘出有效信息并完成疾病診斷成為了極具挑戰(zhàn)性的工作,單純依靠人力對醫(yī)學(xué)影像進(jìn)行判讀,存在著耗時長,主觀性強(qiáng),漏診率和誤診率高等問題。以深度學(xué)習(xí)為代表的新一代人工智能技術(shù)能夠依賴多層次的神經(jīng)網(wǎng)絡(luò)進(jìn)行自主學(xué)習(xí)和特征提取,從而完成判別分類、目標(biāo)檢測、圖像分割和定量計算等任務(wù)。因此基于深度學(xué)習(xí)的醫(yī)學(xué)影像輔助診斷類軟件能夠輔助醫(yī)生完成復(fù)雜耗時的影像診斷任務(wù),提升疾病診斷的效率與準(zhǔn)確率。
醫(yī)學(xué)影像輔助診斷產(chǎn)品蓬勃發(fā)展的同時還存在著諸多問題。由于其在臨床活動中會輔助醫(yī)務(wù)人員進(jìn)行臨床決策,存在很大的臨床使用風(fēng)險,漏診和誤診可能會導(dǎo)致疾病延誤和過度醫(yī)療。因此對其進(jìn)行全面系統(tǒng)的安全性和有效性評價非常必要。而人工智能技術(shù)的核心是基于海量數(shù)據(jù)和高算力的黑盒算法,具有數(shù)據(jù)驅(qū)動和更新迭代快等特點(diǎn),傳統(tǒng)的軟件性能指標(biāo)和測試方法對其適用性較低,因此目前亟需建立醫(yī)學(xué)影像輔助診斷產(chǎn)品的評價體系,規(guī)范技術(shù)標(biāo)準(zhǔn),為監(jiān)管機(jī)構(gòu)提供有力的監(jiān)管依據(jù),推動醫(yī)學(xué)影像輔助診斷產(chǎn)品的持續(xù)健康發(fā)展。
醫(yī)學(xué)影像輔助診斷產(chǎn)品所屬的醫(yī)療器械行業(yè)作為一個強(qiáng)監(jiān)管行業(yè),審批相對比較謹(jǐn)慎。而人工智能作為新型技術(shù),本質(zhì)上是基于海量數(shù)據(jù)驅(qū)動的黑盒算法,具有更新迭代快等特點(diǎn),二者之間的不匹配給監(jiān)管帶來了諸多挑戰(zhàn)。國內(nèi)外的監(jiān)管機(jī)構(gòu)相繼出臺一系列政策來解決該問題。
美國食品藥品監(jiān)督管理局(FDA:Food and Drug Administration)認(rèn)為傳統(tǒng)的醫(yī)療器械審批流程難以適用于人工智能醫(yī)療器械,并相繼出臺了一系列文件和指南指導(dǎo)監(jiān)管改革與創(chuàng)新。
2017 年7 月,F(xiàn)DA 發(fā)布了《數(shù)字健康創(chuàng)新行動計劃》,其中提出了面向中高風(fēng)險硬件設(shè)備的傳統(tǒng)審批方式已不適合快速迭代設(shè)計的數(shù)字健康醫(yī)療器械,過于復(fù)雜的上市前審批流程可能會阻礙患者使用優(yōu)秀的數(shù)字健康產(chǎn)品。因此FDA制定該行動計劃,推動數(shù)字健康產(chǎn)品監(jiān)管的改革。行動計劃主要分為兩大部分:
(1)將進(jìn)一步制定一系列指南與法案明確數(shù)字健康產(chǎn)品的監(jiān)管范圍與方式;
(2)提出了“軟件預(yù)認(rèn)證計劃(precertify)”,該計劃提出將盡量精簡產(chǎn)品上市前的審核流程,重點(diǎn)評估企業(yè)包括文化、人員等在內(nèi)的生產(chǎn)管理體系,來驗(yàn)證其是否具備持續(xù)生產(chǎn)高質(zhì)量醫(yī)療器械獨(dú)立軟件(SaMD:soft as medical device,)的能力,并且強(qiáng)調(diào)了產(chǎn)品上市后真實(shí)世界數(shù)據(jù)對產(chǎn)品的監(jiān)督作用。
2019 年6 月,F(xiàn)DA 發(fā)布了《基于AI/ML 的SaMD 進(jìn)行修改的擬議監(jiān)管框架》,其中提出了人工智能醫(yī)療器械全生命周期監(jiān)管框架。該監(jiān)管框架整體上可分為三大環(huán)節(jié),包括產(chǎn)品生產(chǎn)、產(chǎn)品注冊與產(chǎn)品上市。在產(chǎn)品生產(chǎn)環(huán)節(jié)中基于軟件預(yù)認(rèn)證項(xiàng)目審查企業(yè)的產(chǎn)品質(zhì)量、用戶安全、臨床可靠性、網(wǎng)絡(luò)安全責(zé)任和前瞻性文化等,確保企業(yè)具備良好的質(zhì)量管理體系與規(guī)范,并有能力建立良好的算法模型。在產(chǎn)品注冊環(huán)節(jié)中除了關(guān)注產(chǎn)品的安全性和有效性外還應(yīng)審查算法的更新迭代協(xié)議,確定其是否明確了提交變更申請的時間。在產(chǎn)品上市后將基于真實(shí)世界數(shù)據(jù)持續(xù)監(jiān)督算法性能,并持續(xù)優(yōu)化更新算法模型。該框架提出了一種符合人工智能技術(shù)生存周期的監(jiān)管方式。
國家藥品監(jiān)督管理局醫(yī)療器械技術(shù)審評中心(以下簡稱器審中心)在探究人工智能醫(yī)療器械監(jiān)管方式中做出了大量積極的工作。2019 年7 月,器審中心發(fā)布了《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評要點(diǎn)》(以下簡稱“審評要點(diǎn)”),其中明確了通用深度學(xué)習(xí)輔助決策醫(yī)療器械軟件的審評范圍,并提出了基于風(fēng)險的全生命周期監(jiān)管方式,包含需求分析、數(shù)據(jù)收集、算法設(shè)計、驗(yàn)證與確認(rèn)等環(huán)節(jié)。同時審評要點(diǎn)中提出,在滿足測試的充分性、適宜性和有效性等條件下,第三方數(shù)據(jù)庫可視為回顧性研究的一種特殊形式用于算法性能評估,并且明確了第三方數(shù)據(jù)庫在權(quán)威性、科學(xué)性、規(guī)范性、多樣性、封閉性、動態(tài)性方面的專用要求。2020 年3 月,器審中心發(fā)布了《肺炎CT 影像輔助分診與評估軟件審評要點(diǎn)(試行)》,指導(dǎo)采用深度學(xué)習(xí)技術(shù)進(jìn)行肺炎影像學(xué)異常識別軟件的審批上市。在此之后器審中心相繼啟動了肺結(jié)節(jié)CT 影像輔助決策軟件、糖尿病視網(wǎng)膜病變輔助診斷軟件等面向?qū)iT病種輔助診斷產(chǎn)品的審評要點(diǎn)的編制工作。2021年6 月,器審中心發(fā)布了《人工智能醫(yī)療器械注冊審查指導(dǎo)原則(征求意見稿)》,進(jìn)一步對人工智能醫(yī)療器械生存周期過程質(zhì)控要求和注冊申報資料要求進(jìn)行了規(guī)范,隨著監(jiān)管路徑的逐漸明確,截止2022 年1 月底,我國共有36 款人工智能醫(yī)療器械軟件獲批上市,管理類別均為第三類醫(yī)療器械,覆蓋病種包括肺結(jié)節(jié)、糖尿病視網(wǎng)膜病變等多種疾病。
目前基于人工智能的醫(yī)學(xué)影像輔助診斷類軟件原則上均按照第三類醫(yī)療器械進(jìn)行管理,因此其在國內(nèi)的上市前評價分為三部分,軟件質(zhì)量評測、網(wǎng)絡(luò)安全評測以及算法性能評測。其中軟件質(zhì)量評測部分與其他醫(yī)療器械軟件相同,參考《GB/T 25000.51-2016 系統(tǒng)與軟件工程 系統(tǒng)與軟件質(zhì)量要求和評價(SQuaRE) 第51 部分 就緒可用軟件產(chǎn)品(RUSP)》,主要側(cè)重考察產(chǎn)品質(zhì)量中的功能性、性能效率、兼容性、易用性、可靠性、信息安全性、維護(hù)性、可移植性等。網(wǎng)絡(luò)安全評價可參考器審中心發(fā)布的《醫(yī)療器械網(wǎng)絡(luò)安全注冊技術(shù)審查指導(dǎo)原則》,其中明確了醫(yī)療器械應(yīng)具備保密性、完整性、可得性等網(wǎng)絡(luò)安全特性。算法性能評價即通過驗(yàn)證算法模型的準(zhǔn)確度、魯棒性等性能來評估產(chǎn)品在臨床使用時的有效性。該部分是基于人工智能的醫(yī)學(xué)影像輔助診斷類軟件的重要組成部分,目前已上市產(chǎn)品的算法性能評價均是通過臨床試驗(yàn)的方式完成的,該方式能夠較為安全、準(zhǔn)確的驗(yàn)證產(chǎn)品的有效性。但是同時臨床試驗(yàn)的時間周期相對較長,對于快速迭代的人工智能技術(shù)來說該方式可能會一定程度上制約產(chǎn)品的良性健康發(fā)展。
針對上述提到的問題,參考《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評要點(diǎn)》,本文提出了一種基于回顧性數(shù)據(jù)集的性能評測體系,該評測體系可以在一定程度上輔助現(xiàn)有方式完成算法性能評價。
該評測體系以權(quán)威、隔離、可追溯為總體的指導(dǎo)原則,算法性能評測流程如圖1 所示,首先根據(jù)產(chǎn)品類型與檢測需求提交檢測任務(wù),測試數(shù)據(jù)庫根據(jù)檢測任務(wù)進(jìn)行測試數(shù)據(jù)集準(zhǔn)備,將抽取出來的測試數(shù)據(jù)分為影像數(shù)據(jù)與金標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)簽兩部分,影像數(shù)據(jù)與被測產(chǎn)品一同灌入封閉安全的測試環(huán)境,運(yùn)行產(chǎn)品,產(chǎn)品輸出預(yù)測數(shù)據(jù)標(biāo)簽,通過與金標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)簽進(jìn)行對比,計算各項(xiàng)性能指標(biāo)。評測流程中的各個環(huán)節(jié)如圖1 所示。
圖1:醫(yī)學(xué)影像輔助診斷產(chǎn)品的算法性能評測流程
數(shù)據(jù)集準(zhǔn)備分為兩部分,分別是確定測試樣本量和確定樣本分布。
恰當(dāng)?shù)臏y試樣本量對于評估產(chǎn)品效能至關(guān)重要,傳統(tǒng)臨床試驗(yàn)根據(jù)研究問題的不同,有多種計算樣本量的方式,包括單個診斷試驗(yàn)準(zhǔn)確度的樣本量估計方式、以兩種診斷方法準(zhǔn)確度差值為評價標(biāo)準(zhǔn)的樣本量估計方法、評價兩種診斷方法非劣性或優(yōu)效性的樣本量估計方法、確定合適診斷閾值的樣本量估計方法、多位閱片者研究的樣本量估計方法等。由于基于數(shù)據(jù)集的性能測試面向的場景一般為無人工干預(yù)的單一診斷試驗(yàn),因此選擇單個診斷試驗(yàn)準(zhǔn)確度的樣本量估計方式,并選擇常用且穩(wěn)定的敏感度和特異度這兩種診斷相關(guān)指標(biāo)進(jìn)行估計。
根據(jù)敏感度指標(biāo)計算樣本量,計算方式見公式(1):
根據(jù)特異度指標(biāo)計算樣本量,計算方式見公式(2):
測試樣本分布應(yīng)當(dāng)滿足以下四點(diǎn):
(1)目標(biāo)病種的各類分布符合真實(shí)世界中的流行病學(xué)分布;
(2)單次測試樣本的數(shù)據(jù)來源多樣化,包括數(shù)據(jù)采集設(shè)備多樣化、數(shù)據(jù)來源地多樣化等;
(3)單次測試樣本應(yīng)包含部分質(zhì)量不佳數(shù)據(jù);
(4)單次測試樣本中應(yīng)包含部分同征不同癥的數(shù)據(jù)。
將準(zhǔn)備好的數(shù)據(jù)集以及待測產(chǎn)品送入封閉安全的測試環(huán)境,測試完成后,對比產(chǎn)品預(yù)測的標(biāo)簽與金標(biāo)準(zhǔn),計算產(chǎn)品的性能指標(biāo)。醫(yī)學(xué)影像輔助診斷產(chǎn)品的性能指標(biāo)分為兩部分,分別是臨床性能指標(biāo)與其他性能指標(biāo)。
4.2.1 臨床性能指標(biāo)
臨床性能指標(biāo)分不同技術(shù)場景制定,分別是判別分類、目標(biāo)檢測、圖像分割與定量計算。
4.2.1.1 判別分類
判別分類是指根據(jù)一定的判別準(zhǔn)則對醫(yī)學(xué)影像進(jìn)行歸類。判別分類是醫(yī)學(xué)影像輔助診斷產(chǎn)品中最常見的一種技術(shù)場景,可分為二分類和多分類兩種類型。二分類場景一般為根據(jù)影像特征分為患病和無病兩種。多分類場景包括根據(jù)疾病的進(jìn)展程度分成不同等級。例如糖尿病視網(wǎng)膜病變可根據(jù)病情嚴(yán)重程度分為0-4 級,不同程度病變的影像學(xué)表現(xiàn)有所不同,0 級為無病變,1-4 級病情逐級加重。或者根據(jù)疾病的種類不同進(jìn)行分類,例如肺炎可根據(jù)感染的病原體不同分為細(xì)菌性肺炎、病毒性肺炎、支原體性肺炎、真菌性肺炎等。能否準(zhǔn)確地識別疾病的不同類型或進(jìn)展程度對于后續(xù)制定治療方案至關(guān)重要。
4.2.1.1.1 二分類
在二分類場景中,通過對比產(chǎn)品的預(yù)測標(biāo)簽與金標(biāo)準(zhǔn)結(jié)果,可以得到一個二階混淆矩陣,該混淆矩陣為計算二分類指標(biāo)的基礎(chǔ),混淆矩陣如表1 所示。
表1:混淆矩陣示意表
其中的幾個概念如下:
(1)真陽性(TP:True Positive):樣本的真實(shí)類別是陽性,且模型預(yù)測的結(jié)果也是陽性;
(2)真陰性(TN:True Negative):樣本的真實(shí)類別是陰性,且模型將其預(yù)測成為陰性;
(3)假陽性(FP:False Positive):樣本的真實(shí)類別是陰性,但是模型將其預(yù)測成為陽性;
(4)假陰性(FN:False Negative):樣本的真實(shí)類別是陽性,但是模型將其預(yù)測成為陰性。
基于該混淆矩陣可以計算得到二分類產(chǎn)品的準(zhǔn)確度、敏感度、特異度、精確度,計算公式如表2 所示。
表2:二分類指標(biāo)列表
其中,(x,y)為ROC 曲線上按序連接的點(diǎn)。
4.2.1.1.2 多分類
在多分類場景中,可從分級性能與綜合性能兩方面來評價產(chǎn)品。
(1)分級指標(biāo)。
為了更好地觀測多分類產(chǎn)品在各級分類中的性能表現(xiàn),在對多分類產(chǎn)品進(jìn)行性能指標(biāo)評估時需要將多分類問題轉(zhuǎn)化成多個二分類問題,以眼底糖尿病視網(wǎng)膜病變國際通用DR0-DR4 五級分期的分類方式為例,轉(zhuǎn)化方式如圖2 所示。
圖2:多分類問題轉(zhuǎn)化成多個二分類問題示意圖
針對每一級的性能指標(biāo)包括準(zhǔn)確度、敏感度、特異度、精確度、ROC 曲線和AUC 值,計算公式和繪制方式與上文一致。
(2)綜合指標(biāo)。
為了綜合評估多分類產(chǎn)品的性能,對各級計算得到的準(zhǔn)確度、敏感度、特異度、精確度、AUC值分別進(jìn)行加權(quán)平均(權(quán)重為各級樣本數(shù)量),得到整個多分類產(chǎn)品的綜合指標(biāo)。
同時,Kappa 系數(shù)作為衡量分類精度的指標(biāo)可以比較好地反映多分類產(chǎn)品的綜合性能,指標(biāo)說明和計算公式如下:
(a)說明:Kappa 系數(shù)是基于混淆矩陣進(jìn)行計算得到的,Kappa 系數(shù)的范圍為[-1,1],可以認(rèn)為Kappa 系數(shù)越接近1,分類精度越高;Kappa 系數(shù)越接近-1,分類精度越低。
其中P是每一類正確分類的樣本數(shù)量之和除以總樣本數(shù)。
假設(shè)每一類的真實(shí)樣本個數(shù)分別為a,a,……,a,而預(yù)測出來的每一類的樣本個數(shù)分別為b,b,……,b,總樣本個數(shù)為n,則有:
4.2.1.1.3 目標(biāo)檢測
目標(biāo)檢測是指對獲取的醫(yī)學(xué)影像中病灶的位置進(jìn)行檢測,并以預(yù)測框的形式將病灶位置框出。計算產(chǎn)品目標(biāo)檢測場景下的性能指標(biāo)可分為三個步驟:
(1)產(chǎn)品輸出預(yù)測框;
(2)根據(jù)預(yù)測框與金標(biāo)準(zhǔn)框之間的關(guān)系確定預(yù)測框所在位置是否為正確檢出病灶;
(3)計算產(chǎn)品的性能指標(biāo),流程如圖3 所示。
圖3:目標(biāo)檢測流程圖
其中,判定預(yù)測框位置是否檢出應(yīng)有相應(yīng)指標(biāo),例如交并比大小、中心點(diǎn)距離等,具體檢出指標(biāo)可由產(chǎn)品自行選擇,但是產(chǎn)品應(yīng)對選擇的指標(biāo)、計算公式與閾值要求進(jìn)行說明。若金標(biāo)準(zhǔn)框與預(yù)測框滿足檢出指標(biāo)閾值要求,則認(rèn)為該處為正確檢出的病灶,若金標(biāo)準(zhǔn)框與預(yù)測框不滿足檢出指標(biāo)閾值要求,則認(rèn)為該處為非病灶位置誤定位。若金標(biāo)準(zhǔn)框與預(yù)測框不是唯一對應(yīng),則認(rèn)為檢出指標(biāo)值最優(yōu)的為正確檢出病灶,其余為非病灶位置誤定位。
目標(biāo)檢測場景下產(chǎn)品的性能指標(biāo)包括真陽率、平均假陽性個數(shù)和FROC 曲線,計算方式見公式(4)、(5):
(1)真陽率
(2)平均假陽性個數(shù)
(3)FROC 曲線
FROC 曲線的縱軸為真陽率,橫軸為平均假陽性個數(shù),根據(jù)每一個預(yù)測結(jié)節(jié)的預(yù)測概率,繪制FROC 曲線,計算真陽率在平均假陽性個數(shù)分別為1/8,1/4,1/2,1,2,4 和8 這7 種不同情況下的平均值,作為評價指標(biāo)之一。
4.2.1.1.4 圖像分割
圖像分割是指在影像中將病灶的輪廓勾勒出來,評估產(chǎn)品圖像分割場景中的性能指標(biāo)分別為交并比和Dice 系數(shù),計算方式見公式(6)、(7):
(1)交并比
其中A 為預(yù)測范圍像素的集合,B 為金標(biāo)準(zhǔn)范圍像素的集合。
(2)Dice 系數(shù)
其中A 為預(yù)測范圍像素的集合,B 為金標(biāo)準(zhǔn)范圍像素的集合。
4.2.1.1.5 定量計算
定量計算是指基于影像信息,計算病灶的部分灰度特征和形態(tài)學(xué)特征,從而更加客觀的反應(yīng)病灶的性質(zhì)。例如,在肺結(jié)節(jié)輔助診斷中,計算肺結(jié)節(jié)最大橫截面的長徑與短徑、肺結(jié)節(jié)空間最大直徑、肺結(jié)節(jié)體積對于評估結(jié)節(jié)的良惡性有重要意義,在肺炎輔助診斷中,計算炎癥區(qū)域面積能夠更好地評估病情進(jìn)展。定量計算場景下的性能指標(biāo)分別為絕對誤差和相對誤差,可以反應(yīng)產(chǎn)品測量值與金標(biāo)準(zhǔn)值之間的差距,計算方式見公式(8)、(9):
(1)絕對誤差
(2)相對誤差
4.2.2 其他性能指標(biāo)
除了臨床性能以外,基于人工智能技術(shù)的醫(yī)學(xué)影像輔助診斷產(chǎn)品的算法魯棒性、泛化性和可再現(xiàn)性也是其重要的性能評價指標(biāo)。
4.2.2.1 魯棒性
魯棒性指系統(tǒng)在一定程度的干擾下仍能保持某些性能的特性。在測試中,對測試影像人為地增加部分定量的干擾因素,觀測產(chǎn)品對這些干擾的對抗能力。具體的測試方式為:抽取部分測試數(shù)據(jù)進(jìn)行隨機(jī)的基本變換,來進(jìn)行產(chǎn)品魯棒性的測試。其中基本變換包括原圖邊長5%的裁剪、左右翻轉(zhuǎn)、上下翻轉(zhuǎn)、增加對比度(5%)、減少對比度(5%)、增加亮度(5%)、減少亮度(5%)、增加一定信號幅度的高斯白噪聲(5%)。實(shí)際測試過程中應(yīng)至少包括其中3 種變換,具體采取何種變換由產(chǎn)品聲稱選擇。其中進(jìn)行基本變換的數(shù)據(jù)應(yīng)占所有測試樣本量的10%。用變換后的測試數(shù)據(jù)及剩余未變換的數(shù)據(jù)灌入封閉沙箱,計算得到臨床性能指標(biāo)結(jié)果,分析是否有統(tǒng)計學(xué)差異。
4.2.2.2 泛化性
泛化性指算法對訓(xùn)練集之外的樣本類別的預(yù)測能力。具體的測試方式為:基于臨床性能測試,根據(jù)不同維度的數(shù)據(jù)屬性來統(tǒng)計測試結(jié)果,從而分別計算不同屬性下的臨床性能指標(biāo),分析是否有統(tǒng)計學(xué)差異。例如統(tǒng)計維度為不同地區(qū),則每一類數(shù)據(jù)屬性為中部地區(qū)、北部地區(qū)、南部地區(qū)等。具體統(tǒng)計維度可包括不同地區(qū)、不同采集設(shè)備廠商等。
4.2.2.3 可再現(xiàn)性
可再現(xiàn)性指在算法測試環(huán)境和初始條件相同的情況下,算法對于相同或相似的數(shù)據(jù)集的不同測試結(jié)果之間的一致性。具體的測試方式為:基于上次臨床性能測試使用的相同數(shù)據(jù)集進(jìn)行第二次測試,所得到的臨床性能指標(biāo)應(yīng)不劣于上次測試結(jié)果。
為保證測試環(huán)境的封閉性、測試產(chǎn)品與測試數(shù)據(jù)的安全性以及測試的可復(fù)現(xiàn)性,在全部指標(biāo)計算結(jié)束后,需要進(jìn)行一步測試后封樣,測試后封樣示意圖如圖4 所示。
圖4:測試后封樣流程圖
測試結(jié)束后,輸出測試結(jié)果,同時對本次測試進(jìn)行留檔封樣,留檔數(shù)據(jù)包括:本次測試數(shù)據(jù)集全部的元數(shù)據(jù)(包括數(shù)據(jù)ID、數(shù)據(jù)屬性、數(shù)據(jù)來源庫等)保證測試的可追溯性與可復(fù)現(xiàn)性;本次測試的元屬性(包括本次測試的應(yīng)用場景、測試策略等);本次測試的測試結(jié)果(包括本次測試計算得到的性能指標(biāo)),留檔封樣后,將本次測試的產(chǎn)品與數(shù)據(jù)一同銷毀,保證測試安全性。
本文深入剖析了基于人工智能的醫(yī)學(xué)影像輔助診斷類軟件的發(fā)展現(xiàn)狀、監(jiān)管政策以及現(xiàn)有的評測方式,并針對此類軟件缺少快捷、權(quán)威、安全的算法性能測試方法,提出了一套基于數(shù)據(jù)集的算法性能評測體系,其中包括可落地可實(shí)施的評測方法,以及全面的指標(biāo)體系和指標(biāo)計算方式。該算法性能測試方式能夠在一定程度上證明輔助診斷類軟件的安全有效性,并可以成為輔助診斷類軟件臨床試驗(yàn)的有力輔助工具。
在評測方法的研究過程中筆者認(rèn)為基于數(shù)據(jù)庫的算法性能測試存在一定的不可替代性。本文提出的評測方式是使用基于回顧性數(shù)據(jù)建立的第三方測試數(shù)據(jù)庫來完成的,即通過廣泛收集已有的數(shù)據(jù)建立形成數(shù)據(jù)庫,該方式與傳統(tǒng)臨床試驗(yàn)相比有以下幾點(diǎn)優(yōu)勢:
(1)第三方數(shù)據(jù)庫具有樣本量豐富、信息量大、多維度等特點(diǎn),能夠更好的評估算法的泛化性,同時對于一些聲稱能夠?qū)币姴 ⒑喜⒉∵M(jìn)行輔助診斷的產(chǎn)品來說,在臨床試驗(yàn)中采用前瞻性研究的方式收集數(shù)據(jù)難度很大,基于一個包含大量信息的第三方測試數(shù)據(jù)庫重復(fù)對不同產(chǎn)品進(jìn)行測試,能夠大幅節(jié)約經(jīng)濟(jì)成本和時間成本。
(2)人工智能技術(shù)具有數(shù)據(jù)驅(qū)動、更新迭代快的特點(diǎn),在產(chǎn)品發(fā)生數(shù)據(jù)驅(qū)動型更新后,可以基于第三方測試數(shù)據(jù)庫驗(yàn)證其算法性能是否發(fā)生顯著性變化,若不明顯劣于產(chǎn)品首次注冊時的結(jié)果則無需提交產(chǎn)品重大更新說明,加快產(chǎn)品更新審批的速度,并使企業(yè)能夠保持持續(xù)優(yōu)化產(chǎn)品的動力。
同時本文提出的評測方法尚且存在一定的局限性。首先,在測試過程中為保證測試的權(quán)威性,待測產(chǎn)品與待測數(shù)據(jù)被送入封閉的測試沙箱中完成測試,產(chǎn)品運(yùn)行過程無人工干預(yù),因此對于一些在使用過程中涉及較多人機(jī)交互環(huán)節(jié)的輔助診斷產(chǎn)品則可能不適用于該評測方式。