額·圖婭,王岑,黃嘉豪,張耀峰,張曉東,王霄英
髕骨軸位X線片在髕股關(guān)節(jié)不穩(wěn)、髕股關(guān)節(jié)骨關(guān)節(jié)炎、髕骨縱行骨折等疾病診斷與髕股關(guān)節(jié)術(shù)后療效評估中具有重要地位。由于髕股關(guān)節(jié)的解剖和生物力學特點,膝關(guān)節(jié)屈膝30°時股四頭肌松弛,髕股關(guān)節(jié)相對處于不穩(wěn)定狀態(tài),關(guān)節(jié)間隙較大,髕骨正好進入股骨滑車,此時拍攝髕骨軸位X線片有助于更好地顯示髕股關(guān)節(jié)情況,是檢查髕骨不穩(wěn)、髕骨骨折等疾病的臨床首選影像診斷技術(shù)[1]。
近年來,人工智能(artificial intelligence,AI)在骨關(guān)節(jié)系統(tǒng)方面有較多研究,結(jié)果顯示AI可獲取半定量、定量數(shù)據(jù)或定性數(shù)據(jù)提供自動化及標準化的診斷信息[2],如對膝關(guān)節(jié)骨關(guān)節(jié)炎進展具有良好的預測效能[3],輔助醫(yī)師對膝關(guān)節(jié)骨關(guān)節(jié)炎進行診斷并分級[4]等。然而圖像質(zhì)量對AI診斷或預測模型效能具有較大影響,尤其是在研究初始階段數(shù)據(jù)量相對較少時更為突出,因此完成圖像性質(zhì)識別工作是AI診斷或預測模型廣泛應用于臨床的前提。
本研究旨在利用深度學習方法訓練髕骨軸位X線片圖像質(zhì)量控制的自動分類模型,挑選出合格圖像輸入到后續(xù)的AI診斷髕股關(guān)節(jié)骨關(guān)節(jié)炎及髕股關(guān)節(jié)不穩(wěn)模型中,以保證AI診斷模型的準確性。
本研究獲得倫理審查委員會的批準(批件號:[2019(168)]),按照本院人工智能AI模型訓練規(guī)范執(zhí)行研究方案。
根據(jù)本院AI訓練管理方法,首先定義研發(fā)髕骨軸位X線片圖像性質(zhì)分類模型的用戶樣例(use case)。包括:AI模型的名稱(identity document,ID)、臨床問題、場景描述、模型在實際工作中的調(diào)用流程、模型輸入輸出數(shù)據(jù)結(jié)構(gòu)等。模型輸出結(jié)果自動輸入到結(jié)構(gòu)化報告中,激活相應的選項,包括:術(shù)后/非術(shù)后、右側(cè)/左側(cè)、圖像質(zhì)量合格/不合格。
依據(jù)實際臨床問題,此圖像質(zhì)控分類模型包括術(shù)后/非術(shù)后(圖1)、側(cè)別(圖2)以及圖像質(zhì)量(圖3)。側(cè)別模型用以區(qū)分右側(cè)及左側(cè),評判標準為觀察內(nèi)、外側(cè)髕股關(guān)節(jié)間隙處于圖像中的位置,即在右側(cè)圖像中內(nèi)側(cè)髕股關(guān)節(jié)間隙位于圖像的左側(cè),而在左側(cè)圖像中內(nèi)側(cè)髕股關(guān)節(jié)間隙位于圖像的右側(cè)。圖像質(zhì)量模型以圖像對比度及圖像顯示度進行質(zhì)量合格與不合格的評估。圖像對比度關(guān)注拍攝曝光情況,圖像對比度差為曝光過度或曝光不足,圖像對比度良好則為曝光度適宜。圖像顯示度關(guān)注髕骨與股骨的顯示情況,具體包括髕骨后緣關(guān)節(jié)面、股骨前緣關(guān)節(jié)面以及髕骨與股骨重合度。若髕骨與股骨有明顯重疊、髕骨后緣有多于兩條重疊線或髕骨與股骨關(guān)節(jié)面模糊則為顯示度差,反之若髕骨與股骨無重疊、髕骨后緣無明顯雙邊線、髕股關(guān)節(jié)間隙顯示清晰、髕骨與股骨關(guān)節(jié)面線條清晰則為顯示度良好[5]。
圖1 a)非術(shù)后髕骨軸位X線片;b)術(shù)后髕骨軸位X線片。 圖2 a)右側(cè)髕骨軸位X線片;b)左側(cè)髕骨軸位X線片。 圖3 圖像質(zhì)量分類模型舉例。a、b、c為圖像質(zhì)量不合格的髕骨軸位X線片。a)曝光不足,圖像對比度差;b)曝光過度,圖像對比度差;c)圖像顯示度差,即髕骨與股骨有明顯的重疊、髕骨與股骨關(guān)節(jié)面模糊;d)圖像質(zhì)量合格的髕骨軸位X線片,即曝光度適宜,且髕骨后緣無雙邊線、髕股關(guān)節(jié)間隙顯示清晰、髕骨與股骨關(guān)節(jié)面清晰。
本項研究為回顧性研究,收集本院PACS中符合相應要求的髕骨軸位X線片,由兩位專家依據(jù)相應標準閱片并分組(表1),當兩名專家意見不一致時則進行協(xié)商達成一致。術(shù)后/非術(shù)后共175例(男76例,女99例,年齡17~88歲,平均65.50±10.47歲),側(cè)別共735例(男270例,女465例,年齡10~91歲,平均54.40±16.56歲),圖像質(zhì)量共453例(男171例,女282例,年齡21~87歲,平均58.40±13.87歲)。三個模型的數(shù)據(jù)有共用。本單位X線機為GE Discovery XR650和Carestream DRX-Evolution,髕骨軸位X線片采取Laurin坐位法拍攝,患者被檢測膝部屈膝30°,使中心線對準髕骨下緣由足側(cè)向頭側(cè)進行投照。
表1 髕骨軸位X線圖像分類模型情況
模型訓練硬件環(huán)境為GPU NVIDIA Tesla P100 16G,軟件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy、SimpleITK等。
訓練過程分四步。第一步,訓練術(shù)后分類模型,深度學習網(wǎng)絡(luò)為High Resolution Network(HRNet)[6],輸入為髕骨軸位X線片,輸出數(shù)據(jù)為“術(shù)后、非術(shù)后”的分類預測結(jié)果。第二步,對預測結(jié)果為“非術(shù)后”者,訓練分割模型,深度學習網(wǎng)絡(luò)為U-Shaped Fully Convolutional Network (U-Net)[7],輸入為髕骨軸位X線片,輸出為髕骨和股骨區(qū)域的標簽。第三步,訓練側(cè)別、圖像質(zhì)量模型,輸入是以髕骨和股骨區(qū)域的標簽為掩膜(mask)裁切后的圖像,輸出是“左側(cè)、右側(cè)”和“圖像質(zhì)量合格、不合格”的分類預測結(jié)果。第四步,所有分類模型預測的結(jié)果自動填寫入結(jié)構(gòu)化報告中(圖4)。
圖4 模型訓練過程。
全部模型訓練過程包括:圖像預處理、分數(shù)據(jù)集、圖像擴增。圖像預處理方法包括:圖像大小設(shè)置、圖像裁剪;圖像擴增方法包括:隨機噪聲、平移、旋轉(zhuǎn)、縮放等。數(shù)據(jù)按8:1:1隨機分為訓練集(train set)、調(diào)優(yōu)集(validation set)、測試集(test set)。以Adam作為梯度下降優(yōu)化器。
以兩位專家閱片結(jié)果為金標準,應用混淆矩陣(confusion matrix)評價分類模型效能,以符合率(accuracy)為評價指標[8]。
應用HRNet建立的髕骨軸位X線片圖像質(zhì)控的自動分類模型結(jié)果如表2所示。在術(shù)后/非術(shù)后分類模型中,在訓練集及調(diào)優(yōu)集中符合率均為99.3%(135/136)、100%(21/21),在測試集中符合率為94.4%(17/18),有1例術(shù)后的髕骨軸位圖像被預測為非術(shù)后。在側(cè)別分類模型中,在訓練集、調(diào)優(yōu)集及測試集中符合率分別為99.5%(583/586)、100%(75/75)、98.6%(73/74);在訓練集及測試集中,分別有3例、1例右側(cè)髕骨軸位圖像被預測為左側(cè)(圖5a)。在圖像質(zhì)量分類模型中,在訓練集、調(diào)優(yōu)集及測試集中符合率分別為98.6%(357/362)、93.5%(43/46)、91.1%(41/45),在上述三個數(shù)據(jù)集中,依次有4、3、3例圖像質(zhì)量不合格的被預測圖像質(zhì)量合格,1、0、1例圖像質(zhì)量合格的被預測圖像質(zhì)量不合格(圖5b、c)。
圖5 自動分類模型預測錯誤的髕骨軸位X線片。a)側(cè)別分類模型在訓練集中將右側(cè)預測為左側(cè);b)圖像質(zhì)量分類模型在測試集中將圖像質(zhì)量不合格預測為圖像質(zhì)量合格;c)圖像質(zhì)量分類模型在測試集中將圖像質(zhì)量合格預測為圖像質(zhì)量不合格。
表2 HRNet模型自動分類不同類別髕骨軸位X線片在測試集中的結(jié)果
目前AI在全身各系統(tǒng)影像診斷工作中得到了快速發(fā)展[2-4,9-11],但圖像質(zhì)量仍為AI診斷模型效能的重要影響因素之一[12]。因此本研究著重利用AI技術(shù)識別不同性質(zhì)的髕骨軸位X線圖像,挑選圖像質(zhì)量合格的數(shù)據(jù)用于提高AI診斷模型效能。本研究結(jié)果顯示,HRNet在髕骨軸位X線片不同圖像性質(zhì)甄別上具有良好效能,測試集中預測符合率達到91.1%~98.6%,與其他圖像序列甄別的研究結(jié)果相似[13-15]。由此可見,此模型直接對接后續(xù)AI診斷模型具有可行性。
膝關(guān)節(jié)假體置換術(shù)后的影像評價重點與骨關(guān)節(jié)炎的評價重點不完全一致。假體置換術(shù)后的影像評價要點是:假體位置及力線對位、關(guān)節(jié)線高度、髕骨位置、骨-假體交界面形態(tài)、有無骨溶解等。而骨關(guān)節(jié)炎的評價重點則是觀察髕股關(guān)節(jié)間隙狹窄、髕骨周緣骨贅形成和軟骨下骨硬化情況,明確是否存在髕骨傾斜、髕骨脫位或半脫位和滑車發(fā)育不良等情況[1]。本單位髕骨軸位X線檢查患者中,髕股關(guān)節(jié)術(shù)后者和骨關(guān)節(jié)炎者均很多,模型在臨床應用的場景是檢查后圖像由AI判斷是否為術(shù)后,如為術(shù)后則自動調(diào)用術(shù)后報告模板,如非術(shù)后則自動調(diào)用骨關(guān)節(jié)炎和關(guān)節(jié)不穩(wěn)報告模板。本研究構(gòu)建的術(shù)后與非術(shù)后模型在測試集中符合率為94.4%(17/18),因此有望在科室范圍內(nèi)開展應用,從而輔助影像醫(yī)師快速分診。
在實際臨床工作中,可能受多種因素影響而出現(xiàn)影像檢查的左/右側(cè)別與申請登記側(cè)別不一致的情況。本研究提出的側(cè)別分類模型在測試集中的符合率為98.6%(73/74),在臨床應用的場景是檢查后圖像由AI判斷圖像的側(cè)別,如與RIS中登記的側(cè)別一致,則自動執(zhí)行后續(xù)診斷流程,如不一致可提醒醫(yī)生給予關(guān)注。分析本研究中模型誤斷的情況,首先是誤斷率很低,其次誤斷的圖像均有其特殊性,主要表現(xiàn)為有明顯內(nèi)側(cè)不穩(wěn)合并內(nèi)側(cè)關(guān)節(jié)間隙狹窄且間隙窄于外側(cè)(圖5a),從而使得模型將右側(cè)誤判為左側(cè)。這種情況下,即使是有經(jīng)驗的醫(yī)生也不易僅根據(jù)圖像來判斷側(cè)別,需要結(jié)合申請單、雙側(cè)對照以及其他體位圖像來判斷。因此,對于側(cè)別分類模型的進一步迭代方向是增加更多有明顯關(guān)節(jié)不穩(wěn)和骨關(guān)節(jié)炎的數(shù)據(jù),以提高模型在這種特定情況下的符合率。
圖像曝光欠佳影響診斷結(jié)果,如曝光不足會影響髕骨緣是否有骨贅及髕股關(guān)節(jié)間隙顯示,而曝光過度則會影響髕股關(guān)節(jié)細節(jié)結(jié)構(gòu)顯示,這類情況均會影響AI診斷模型特征提取從而降低符合率。髕骨軸位X線片為重疊影像,各組織結(jié)構(gòu)重疊區(qū)域小、顯示清晰是診斷的基本要求。本單位研發(fā)髕股關(guān)節(jié)骨關(guān)節(jié)炎模型時發(fā)現(xiàn)圖像曝光度不良、顯示度欠佳是導致診斷或分級誤判的主要原因;在髕股關(guān)節(jié)不穩(wěn)方面,顯示度不佳不僅不適宜后續(xù)諸多評價髕股關(guān)節(jié)不穩(wěn)指標的測量(如股溝角、適合角等),也會導致模型學習尋找關(guān)節(jié)解剖關(guān)鍵點時誤判。本研究基于此類問題研發(fā)了圖像質(zhì)量甄別的模型,模型在臨床應用的場景是先用圖像質(zhì)量甄別模型篩選圖像,將篩選出的合格圖像輸入后續(xù)診斷髕股關(guān)節(jié)炎及髕股關(guān)節(jié)不穩(wěn)模型,而篩選出的不合格圖像則由人工處理。將來還應研發(fā)提高圖像質(zhì)量的模型,對篩選出的不合格圖像進行校正使其達到合格圖像,可進一步用于診斷。
本研究的局限性主要在于:①基于小樣本對不同圖像性質(zhì)進行甄別,后期需進一步擴充數(shù)據(jù),整合模型,提高效能,簡化流程。只有在真正的臨床工作場景中進行研究,才能客觀、可靠地評價AI的應用價值[16]。②本研究以醫(yī)生的主觀判斷作為圖像對比度和顯示度的參考標準,當圖像特征處于中間狀態(tài)時判斷有一定困難,未來應盡可能將參考標準轉(zhuǎn)換為可定量的指標,以提高數(shù)據(jù)標注的準確性和一致性。
總之,本研究基于AI技術(shù)訓練了能夠自動區(qū)分髕骨軸位X線圖像性質(zhì)的分類模型,有利于工作流程的優(yōu)化,為后續(xù)對接疾病診斷AI模型奠定了堅實基礎(chǔ)。