申輝繁 黃源
摘? 要:基于乳腺超聲影像數(shù)據(jù)和病理報告數(shù)據(jù),采用隱私保護技術保障數(shù)據(jù)的安全性,通過ETL技術和互聯(lián)網(wǎng)技術,開發(fā)乳腺超聲影像篩選與標定系統(tǒng)。系統(tǒng)實現(xiàn)了多模態(tài)的數(shù)據(jù)導入及預處理、乳腺超聲影像數(shù)據(jù)篩選及標定、專家審核等功能,為人工智能在乳腺超聲影像智能診斷與分析領域的應用提供高質量的數(shù)據(jù)支撐,同時提升了標定醫(yī)生的工作效率。
關鍵詞:人工智能;ETL;超聲影像;智能診斷
中圖分類號:TP391.9? ? 文獻標識碼:A? ? 文章編號:2096-4706(2023)11-0026-05
Design and Implementation of Breast Ultrasound Image Screening and Labeling System
SHEN Huifan, HUANG Yuan
(Sichuan Institute of Computer Sciences, Chengdu? 610041, China)
Abstract: Based on breast ultrasound image data and pathological report data, this paper uses privacy protection technology to ensure the data security, and develops the breast ultrasound image screening and labeling system through ETL and internet technology. The system realizes the functions of multimodal data importing and pretreatment, data screening and labeling of breast ultrasound image data, and expert review. It provides high-quality data support for the application of Artificial Intelligence in the field of intelligent diagnosis and analysis of breast ultrasound images, and improves the work efficiency of labeling doctors.
Keywords: Artificial Intelligence; ETL; ultrasound image; intelligent diagnosis
0? 引? 言
近年來,醫(yī)學影像與人工智能(AI)的結合成為行業(yè)發(fā)展的熱點,尤其是在AI與放射影像的結合領域取得了大量成果[1]。然而,超聲影像的信噪比低、病變類型分布不均、數(shù)據(jù)標注的成本高等特點增大了超聲影像AI訓練的難度,對AI與超聲影像結合領域的應用產(chǎn)生較大的影響[2]。本系統(tǒng)基于乳腺超聲影像數(shù)據(jù)和病理報告數(shù)據(jù),采用ETL技術對影像數(shù)據(jù)和病理數(shù)據(jù)進行抽取、集成、融合,利用互聯(lián)網(wǎng)和信息安全等技術開發(fā)篩選與標定系統(tǒng),實現(xiàn)數(shù)據(jù)清洗、多模態(tài)數(shù)據(jù)導入、數(shù)據(jù)篩選與標定、專家審核等工作流程,同時保障了數(shù)據(jù)的安全性。由于乳腺超聲影像數(shù)據(jù)的標注具有很強的專業(yè)性,需要有經(jīng)驗的醫(yī)生對數(shù)據(jù)進行標注,因此高性能、高標準的數(shù)據(jù)標定系統(tǒng)顯得尤為重要,本系統(tǒng)的實現(xiàn)提升了標注醫(yī)生的工作效率,為乳腺超聲影像在AI領域的應用提供了高質量的數(shù)據(jù)支撐。
1? 系統(tǒng)設計
1.1? 系統(tǒng)總體架構設計
為保證系統(tǒng)的靈活性,讓系統(tǒng)能隨著用戶工作流程、工作需求等的變化而方便地升級,做到隨需應變,延長系統(tǒng)使用周期,該系統(tǒng)采用了以SOA(Service-Oriented Architecture)
架構思想為指導,以服務為核心[3,4],采用基于面向服務的思想進行業(yè)務建模和構架業(yè)務流程,有利于保證每個業(yè)務環(huán)節(jié)均通過服務進行實現(xiàn),支持組織內(nèi)部業(yè)務快速協(xié)同,有利于快速適應組織機構與業(yè)務流程的變化,系統(tǒng)的總體架構如圖1所示。系統(tǒng)的整體框架分為五層,包括數(shù)據(jù)中心、支撐平臺、應用層、網(wǎng)絡層、用戶層[5,6]。系統(tǒng)采用高拓展性、高可靠性和低成本的分布式存儲與計算框架,通過對結構化數(shù)據(jù)和非結構化數(shù)據(jù)進行標準化、結構化、歸一化后采用分布式存儲方式對數(shù)據(jù)進行安全存儲,充分運用事務處理等成熟技術,在統(tǒng)一應用支撐平臺上部署系統(tǒng),并可根據(jù)負載變化進行集中式或集群部署。系統(tǒng)建立超聲影像安全管理體系,保障數(shù)據(jù)存儲、網(wǎng)絡設備、基礎設施等安全工作,并提供數(shù)據(jù)安全保障相應措施,做到數(shù)據(jù)流轉全程留痕、數(shù)據(jù)安全監(jiān)測和預警、數(shù)據(jù)泄露事故可查詢可追溯等數(shù)據(jù)安全保障工作。
不同角色的用戶通過瀏覽器發(fā)出HTTP請求,由網(wǎng)絡層的Nginx服務器代理至Tomcat容器進行處理,后端采用RMI遠程調用的方式實現(xiàn)通信。
應用層采用Duboo+Zookeeper高可用分布式架構,基于微服務架構,使得每個服務能夠獨立運行而又互不影響,根據(jù)用戶不同的請求向業(yè)務中臺調用各類服務,如數(shù)據(jù)查看、統(tǒng)計分析、數(shù)據(jù)導出等。
支撐平臺為應用層提供業(yè)務支撐,主要包括表單組件、集成平臺、數(shù)據(jù)展示、用戶系統(tǒng)、權限系統(tǒng)、ETL工具等,支撐平臺是連接數(shù)據(jù)中心和應用層的橋梁。
數(shù)據(jù)中心是對系統(tǒng)數(shù)據(jù)進行存儲,體現(xiàn)為MySQL數(shù)據(jù)庫、Redis緩存數(shù)據(jù)庫、Mycat數(shù)據(jù)庫中間件等。數(shù)據(jù)中心主要包括乳腺超聲影像庫、乳腺超聲病理庫、病人基本信息庫、系統(tǒng)用戶信息庫等。
1.2? 系統(tǒng)設計原則
該系統(tǒng)的建設是一個系統(tǒng)性的工程,在功能上體現(xiàn)綜合性,結構上凸顯層次性,在設計過程中嚴格遵守了多種原則:
1)安全性:系統(tǒng)充分考慮系統(tǒng)運行的安全策略和機制,實現(xiàn)備份和方便快捷的恢復功能,能夠抵御高強度的網(wǎng)絡攻擊和滲透,在系統(tǒng)遭到攻擊或崩潰時能快速恢復,確保重要數(shù)據(jù)的機密性和完整性;數(shù)據(jù)處理過程要保證數(shù)據(jù)安全性,做到數(shù)據(jù)保密性、數(shù)據(jù)完整性、數(shù)據(jù)可利用等。
2)可擴展性:系統(tǒng)采用面向對象和模塊化的設計理念,各類接口服務滿足可擴展的原則,便于更新、擴充、升級。系統(tǒng)的功能滿足當前業(yè)務處理的需求,并充分考慮未來業(yè)務種類不斷增長和用戶不斷增長的需求。
3)高性能和穩(wěn)定性:系統(tǒng)應保證各種網(wǎng)上應用服務的穩(wěn)定高效運行,能夠在高訪問負載情況下,向各類服務對象提供可靠的服務。在考慮經(jīng)濟性和實用性的前提下,選擇高性能的基礎架構設施。并規(guī)范地進行系統(tǒng)建設、開發(fā)和軟硬件配置,提供合理有效的應急方案,確保系統(tǒng)的高穩(wěn)定。
1.3? 系統(tǒng)功能設計
如圖2所示,本系統(tǒng)功能主要分為數(shù)據(jù)錄入、數(shù)據(jù)清洗、數(shù)據(jù)管理、系統(tǒng)管理4個功能模塊:
1)數(shù)據(jù)錄入模塊:包括乳腺超聲影像數(shù)據(jù)導入和乳腺病理數(shù)據(jù)導入。乳腺超聲影像數(shù)據(jù)導入功能可以將病人歷年的乳腺超聲檢查數(shù)據(jù)導入該系統(tǒng),乳腺病理數(shù)據(jù)導入功能可以將Excel文件數(shù)據(jù)或HTML文件數(shù)據(jù)等多模態(tài)數(shù)據(jù)導入該系統(tǒng),并根據(jù)病人檢查號自動綁定乳腺超聲數(shù)據(jù)和乳腺病理數(shù)據(jù)。
2)數(shù)據(jù)清洗模塊:對乳腺超聲數(shù)據(jù)和乳腺病理數(shù)據(jù)進行數(shù)據(jù)抽取、數(shù)據(jù)轉換、數(shù)據(jù)融合,對敏感信息進行脫敏處理,最終得到系統(tǒng)可使用的數(shù)據(jù)。
3)數(shù)據(jù)管理模塊:對導入的乳腺超聲數(shù)據(jù)和乳腺病理數(shù)據(jù)進行管理。數(shù)據(jù)標注醫(yī)生可以通過數(shù)據(jù)篩選、數(shù)據(jù)標定功能對數(shù)據(jù)進行篩選、標定,專家醫(yī)生可以通過數(shù)據(jù)審核對標注醫(yī)生標注的數(shù)據(jù)進行審核和數(shù)據(jù)導出。
4)系統(tǒng)管理模塊:主要提供用戶權限控制以及系統(tǒng)監(jiān)控等功能。系統(tǒng)采用基于角色的訪問控制的權限管理模式,通過為用戶分配角色,為角色設置權限來控制用戶的權限,系統(tǒng)監(jiān)控包括日志管理、定時任務管理、性能監(jiān)控等功能。
2? 關鍵技術
2.1? 多模態(tài)數(shù)據(jù)融合技術
系統(tǒng)采用多源異構數(shù)據(jù)融合技術,基于知識融合本身的特點,借鑒已有的數(shù)據(jù)融合算法,將其合理地移植到知識融合中,在傳統(tǒng)ETL能力基礎之上補充了半結構化、非結構化數(shù)據(jù)采集的能力,解決了針對文本、圖片等數(shù)據(jù)的采集、轉換、融合和存儲問題。將融合后的數(shù)據(jù)導入至MySQL、MongoDB或Neo4j等不同類型的數(shù)據(jù)庫,通過MySQL數(shù)據(jù)庫能夠實現(xiàn)對數(shù)據(jù)的便捷管理;MongoDB數(shù)據(jù)庫能夠便于處理鍵值的快速查詢;而Neo4j圖數(shù)據(jù)庫能夠便于發(fā)現(xiàn)數(shù)據(jù)關聯(lián)關系。建立統(tǒng)一數(shù)據(jù)接口,靈活接入和同步包括Socket、Webservice、Dll、Corba等多種數(shù)據(jù)源,在不同的應用場景快速完成多源異構數(shù)據(jù)整合,提供深度對接各個系統(tǒng)的能力。
2.2? 基于訪問控制的數(shù)據(jù)隱私保護技術
醫(yī)療數(shù)據(jù)通常包含大量用戶的隱私信息,因此對用戶隱私數(shù)據(jù)的保護顯得尤為重要。對數(shù)據(jù)隱私泄露的風險進行量化是一個非常復雜的過程,因為用戶各階段的訪問行為及信任度之間是相互獨立又相互聯(lián)系的關系[7],不同指標對最終風險的影響也是不同的。本系統(tǒng)在基于神經(jīng)網(wǎng)絡和模糊理論的風險量化方法中,借助模糊推理系統(tǒng)對知識進行提取,將模糊推理系統(tǒng)和神經(jīng)網(wǎng)絡相結合不僅可以提高模型的性能還可以使得數(shù)據(jù)的處理過程以人們易于接受的方式表達出來。此外,當用戶訪問行為發(fā)生微妙變化時,模型的輸出結果也會自動的發(fā)生變化,實現(xiàn)動態(tài)、自動化的處理方式。
2.3? 基于Duboo+Zookeeper的高可用分布式架構
系統(tǒng)采用Duboo+Zookeeper高可用分布式架構,基于Dubbo分布式服務框架,提供高性能和透明化的RPC遠程服務調用方案,以及SOA服務治理方案,使用ZooKeeper封裝好復雜易出錯的關鍵服務,將高效、穩(wěn)定、易用的服務提供給用戶使用。以微服務架構為基礎,和傳統(tǒng)的單體架構相比,微服務架構使得整個系統(tǒng)的分工更加明確,將服務按照業(yè)務功能分為多個部分,使得開發(fā)人員可以獨立地開發(fā)、測試、部署和更新,對架構侵蝕具有更好的彈性。每個服務獨立運行,服務的單點故障不會擴展到整個系統(tǒng),新服務的開發(fā)不會影響現(xiàn)有服務,通過REST接口快速整合各類服務,并提供統(tǒng)一、開放的接口服務,實現(xiàn)新業(yè)務快速開發(fā)和部署。
3? 系統(tǒng)實現(xiàn)
3.1? 數(shù)據(jù)錄入與檢索
主要實現(xiàn)乳腺超聲影像數(shù)據(jù)導入和乳腺病理數(shù)據(jù)導入以及對數(shù)據(jù)的檢索功能。乳腺超聲數(shù)據(jù)導入后經(jīng)過數(shù)據(jù)預處理得到最終的乳腺超聲影像數(shù)據(jù);乳腺病理數(shù)據(jù)可以導入excel文件數(shù)據(jù)或HTML文件數(shù)據(jù),數(shù)據(jù)導入后經(jīng)過數(shù)據(jù)脫敏、數(shù)據(jù)清洗后得到存入數(shù)據(jù)庫,如圖3所示。
3.2? 數(shù)據(jù)篩選功能
用戶登錄系統(tǒng)后可以根據(jù)乳腺病理報告對乳腺超聲影像數(shù)據(jù)進行篩選,同時可以查看病人詳細的超聲檢查報告詳情,幫助用戶快速篩選出高質量的數(shù)據(jù),如果遇到難以篩選的數(shù)據(jù),用戶可以跳過篩選并將其標記為“難篩選”,該部分數(shù)據(jù)將分發(fā)至專家醫(yī)生進行處理和操作,如圖4所示。
3.3? 數(shù)據(jù)標注功能
先由系統(tǒng)自動對篩選的數(shù)據(jù)進行標注,然后數(shù)據(jù)標注醫(yī)生在已標注的基礎上進行調整,提高了標注醫(yī)生的工作效率。系統(tǒng)可以通過打點、畫框、畫線、描邊等方式對乳腺超聲數(shù)據(jù)進行標注,對標注的圖像提供放大、縮小、回退、清空、刪除、編輯等操作,同時系統(tǒng)還提供快捷鍵的功能方便標注醫(yī)生進行操作,如圖5所示。
3.4? 數(shù)據(jù)審核功能
專家醫(yī)生登錄系統(tǒng)后可以對已標注的乳腺超聲影像進行審核,審核通過的數(shù)據(jù)可以保存并導出結果數(shù)據(jù),審核不通過的數(shù)據(jù)可由專家醫(yī)生重新標注后得到最終的標定后的數(shù)據(jù),通過該功能可以控制數(shù)據(jù)標定的質量,最終得到能為乳腺超聲影像智能診斷與分析算法模型進行訓練的高質量數(shù)據(jù)集,如圖6所示。
4? 結? 論
近年來,醫(yī)學影像是人工智能最有研究和應用前景的領域,但高質量數(shù)據(jù)獲取難度大、數(shù)據(jù)標注成本高等因素嚴重制約了“人工智能+醫(yī)學影像”的發(fā)展。本文通過多模態(tài)數(shù)據(jù)融合、基于訪問控制的數(shù)據(jù)隱私保護技術和互聯(lián)網(wǎng)等技術,基于乳腺超聲影像數(shù)據(jù)和病理報告數(shù)據(jù),設計并實現(xiàn)了乳腺超聲影像篩選與標定系統(tǒng),本系統(tǒng)的實現(xiàn)提升了標注醫(yī)生的工作效率,為乳腺超聲影像在AI領域的應用提供了高質量的數(shù)據(jù)支撐。
參考文獻:
[1] 施俊,汪琳琳,王珊珊,等.深度學習在醫(yī)學影像中的應用綜述 [J].中國圖象圖形學報,2020,25(10):1953-1981.
[2] 呂明慧,周帥,朱強.基于深度學習乳腺超聲計算機輔助診斷系統(tǒng)研究進展 [J].中國醫(yī)學影像技術,2020,36(11):1722-1725.
[3] 肖祥林,周春容.基于云+SOA架構的異構智慧校園平臺設計與實現(xiàn) [J].電子設計工程,2018,26(4):85-89.
[4] 周洪成,譚宇.基于SOA架構的智慧旅游綜合管理服務平臺設計研究 [J].通信與信息技術,2021(2):87-89+79.
[5] 馮維娜.淺談分層技術在計算機軟件開發(fā)中的應用 [J].開封大學學報,2019,33(4):81-83.
[6] 楊芙清.軟件工程技術發(fā)展思索 [J].軟件學報,2005(1):1-7.
[7] 王祥,李紅娟,丁紅發(fā).基于風險訪問控制的大數(shù)據(jù)安全與隱私保護 [J].電子技術與軟件工程,2021(13):236-238.
作者簡介:申輝繁(1987—),男,漢族,湖南邵陽人,工程師,碩士,研究方向:數(shù)據(jù)挖掘、軟件工程;通訊作者:黃源(1989—),男,漢族,四川德陽人,工程師,碩士,研究方向:數(shù)據(jù)挖掘、軟件工程。
收稿日期:2023-01-12