蘇 毓 覃開(kāi)舟 許 健 劉如琦 徐 婷 陸 陽(yáng) 呂文文 渠田田 沈恩璐 黃雪群 陳召霞 馮鐵男
1.復(fù)旦大學(xué)附屬婦產(chǎn)科醫(yī)院信息科,上海 200082;2.上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院信息科,上海 200092;3.上海交通大學(xué)醫(yī)學(xué)院臨床研究中心,上海 200025
研究者發(fā)起的臨床研究(investigator-initiated trial,IIT)是指醫(yī)療衛(wèi)生機(jī)構(gòu)開(kāi)展的,以個(gè)體或群體為研究對(duì)象,不以藥品、器械注冊(cè)為目的,研究疾病診治及健康維護(hù)活動(dòng)的研究[1,2]。IIT 研究基本覆蓋臨床診療中患者的各項(xiàng)需求,源于臨床醫(yī)生具體實(shí)踐而非商業(yè)驅(qū)動(dòng),對(duì)推動(dòng)國(guó)家診療水平的發(fā)展意義重大[3]。由于當(dāng)前IIT 研究仍然缺乏成熟的支撐體系[4],相比于制藥企業(yè)發(fā)起的注冊(cè)臨床試驗(yàn)(industry-sponsored clinical trial,IST),能夠獨(dú)立完成大規(guī)模、高質(zhì)量IIT的研究者不多。電子數(shù)據(jù)采集(electronic data capture,EDC)系統(tǒng)是臨床研究支撐體系的重要組成部分,其中REDCap(research electronic data capture)在國(guó)際上廣泛使用,幾乎是當(dāng)前IIT 的首選工具,支持開(kāi)展了1 萬(wàn)多項(xiàng)以IIT 為主的臨床研究[5]。但隨著IIT 的發(fā)展,REDCap 在功能上也需要提升。本文將基于IIT需求、REDCap 及現(xiàn)有主流EDC 系統(tǒng),從EDC 標(biāo)準(zhǔn)、功能擴(kuò)展度、維護(hù)成本等維度,對(duì)未來(lái)高效支持IIT的EDC 系統(tǒng)建設(shè)進(jìn)行闡述,為后續(xù)面向IIT 的EDC系統(tǒng)建設(shè)和發(fā)展提供參考。
近年來(lái),隨著國(guó)家對(duì)IIT 的重視[6],IIT 項(xiàng)目數(shù)量呈現(xiàn)高速增長(zhǎng),見(jiàn)圖1、圖2。臨床研究是推動(dòng)國(guó)家診療技術(shù)發(fā)展的核心驅(qū)動(dòng)力,研究成果能夠?yàn)檫M(jìn)一步規(guī)范臨床診療提供循證證據(jù),規(guī)范的診療可合理管控國(guó)家醫(yī)保支出,促進(jìn)國(guó)家財(cái)政健康。EDC 系統(tǒng)是支持臨床研究的關(guān)鍵一環(huán),當(dāng)前除REDCap 外,還沒(méi)有功能全面且能高效支持IIT 的EDC 系統(tǒng)。由于IIT 和IST 存在一定的差異,成熟的IST EDC 系統(tǒng)不完全適用于IIT[7],見(jiàn)表1。國(guó)內(nèi)IIT 研究者主要是臨床醫(yī)生,可投入時(shí)間較少,因此對(duì)成熟配套的系統(tǒng)、支撐體系的完善需求更加強(qiáng)烈。隨著我國(guó)IIT項(xiàng)目逐年增多,為保證IIT 的研究質(zhì)量,國(guó)家層面也亟待建立針對(duì)IIT 項(xiàng)目的EDC 體系[8]。
表1 IIT 和IST 的差異點(diǎn)
圖1 clinicaltrials.gov 近10 年注冊(cè)的IIT 項(xiàng)目數(shù)
圖2 中國(guó)臨床試驗(yàn)注冊(cè)中心官網(wǎng)近10 年注冊(cè)的IIT 項(xiàng)目數(shù)
EDC 最基本的要求是需要匹配臨床研究的生命周期,滿足不同項(xiàng)目階段的需求,包括但不限于①電子病例報(bào)告表(electronic case report form,eCRF)構(gòu)建:生成符合臨床試驗(yàn)方案的eCRF;②邏輯核查:在錄入數(shù)據(jù)時(shí),能夠?qū)?shù)據(jù)進(jìn)行實(shí)時(shí)自動(dòng)邏輯核查,如數(shù)據(jù)值的范圍、邏輯關(guān)系等,亦支持人工邏輯核查;③數(shù)據(jù)質(zhì)疑和管理:能夠?qū)τ幸蓡?wèn)的數(shù)據(jù)發(fā)起質(zhì)疑、對(duì)質(zhì)疑進(jìn)行處理和關(guān)閉,并保留質(zhì)疑的痕跡;④數(shù)據(jù)保存和稽查軌跡:系統(tǒng)一旦保存輸入的數(shù)據(jù)后,系統(tǒng)應(yīng)對(duì)所有數(shù)據(jù)的刪改保留稽查軌跡,稽查軌跡不允許從系統(tǒng)中被刪除或修改;⑤數(shù)據(jù)存儲(chǔ)和導(dǎo)出:能對(duì)錄入的數(shù)據(jù)進(jìn)行及時(shí)存儲(chǔ)并支持常用數(shù)據(jù)格式的導(dǎo)出。以上5 點(diǎn)功能是EDC 數(shù)據(jù)庫(kù)建設(shè)的一般要求[12]。從IIT 的特征和需求出發(fā),總結(jié)以下5條對(duì)服務(wù)于IIT 的EDC 系統(tǒng)建議。
EDC 數(shù)據(jù)庫(kù)字段的標(biāo)椎化是開(kāi)展高質(zhì)量臨床研驗(yàn)的基礎(chǔ)。構(gòu)建符合行業(yè)標(biāo)準(zhǔn)和研究需求的EDC,首先需要按照標(biāo)準(zhǔn)建立統(tǒng)一的數(shù)據(jù)字段體系,實(shí)現(xiàn)業(yè)務(wù)和數(shù)據(jù)的一致性、完整性和準(zhǔn)確性。統(tǒng)一且國(guó)際認(rèn)可的數(shù)據(jù)字段標(biāo)準(zhǔn)、編碼、字典、數(shù)據(jù)格式,可更好地提升數(shù)據(jù)采集、質(zhì)控、整合、計(jì)算等步驟的效率,提升臨床試驗(yàn)質(zhì)量。臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會(huì)(Clinical Data Interchange Standards Consortium,CDISC)標(biāo)準(zhǔn)是國(guó)際及國(guó)內(nèi)普遍認(rèn)可并廣泛使用的標(biāo)準(zhǔn)[13-15]。開(kāi)展IIT 的研究人員目前大多沒(méi)有數(shù)據(jù)標(biāo)準(zhǔn)的概念[15],臨床醫(yī)生有各自的字段定義習(xí)慣,收集的數(shù)據(jù)變量命名和數(shù)據(jù)結(jié)構(gòu)會(huì)偏離CDISC 標(biāo)準(zhǔn),因此,建議支持IIT 的EDC 系統(tǒng)需要有更科學(xué)、完善的數(shù)據(jù)標(biāo)準(zhǔn)模塊,使IIT 項(xiàng)目有規(guī)范的數(shù)據(jù)標(biāo)準(zhǔn),且方便研究者使用。此外,相比于IST 研究,由于IIT 項(xiàng)目類型多、覆蓋面廣,涉及的變量多,已有的CDISC 標(biāo)準(zhǔn)字段庫(kù)很難完全覆蓋研究所需字段;隨著IIT 的不斷發(fā)展,數(shù)據(jù)字段庫(kù)也需要不斷更新,所以也需要提供便利的字段標(biāo)準(zhǔn)庫(kù)迭代更新模塊。
目前我國(guó)IIT 項(xiàng)目的監(jiān)管和實(shí)施還存在諸多困難,如沒(méi)有足夠的人力對(duì)IIT 項(xiàng)目進(jìn)行全面、系統(tǒng)的質(zhì)量檢查,人員分工和職責(zé)劃分不明確。區(qū)別于IST研究,在IIT 項(xiàng)目中,臨床研究協(xié)調(diào)員、數(shù)據(jù)管理員的角色可能均由同一人承擔(dān)。IST 有全職人員,明確負(fù)責(zé)不同模塊的工作,系統(tǒng)使用熟練。IST 是為了藥品或器械的注冊(cè),對(duì)數(shù)據(jù)準(zhǔn)確性、真實(shí)性、顆粒度的要求更高,容錯(cuò)率低;IIT 研究主要目的是回答科學(xué)問(wèn)題,研究方案更面向科學(xué)問(wèn)題的論證和解釋,會(huì)涉及方案變更、方案修改,如納入和排除標(biāo)準(zhǔn)的修改、檢查報(bào)告的增加或減少等。所以IIT 要求EDC更具靈活性,如人員權(quán)限配置、研究不同階段對(duì)變更的處置流程等。
數(shù)據(jù)溯源是開(kāi)展臨床研究的重要環(huán)節(jié),因此EDC 在提供數(shù)據(jù)采集的基礎(chǔ)上,還應(yīng)該能夠提供數(shù)據(jù)保存及備份功能。EDC 系統(tǒng)需支持源數(shù)據(jù)(文件、圖片、音頻、視頻)上傳、保存、分類和管理,以便在系統(tǒng)中完成數(shù)據(jù)的核查確認(rèn)。IIT 會(huì)收集除了院內(nèi)就診數(shù)據(jù)外的其他真實(shí)世界的醫(yī)療數(shù)據(jù),包括物聯(lián)網(wǎng)穿戴設(shè)備、院外的隨訪數(shù)據(jù)等。多元數(shù)據(jù)的存儲(chǔ),需要設(shè)立統(tǒng)一的患者主索引,如患者身份ID,支撐患者就診信息的全面整合。不同來(lái)源的數(shù)據(jù)能夠以患者為維度實(shí)現(xiàn)歸一,方便溯源,也提升數(shù)據(jù)搜索、利用的效率。
在IIT 中,EDC 系統(tǒng)需要與不同系統(tǒng)對(duì)接,包括統(tǒng)計(jì)軟件、數(shù)據(jù)采集軟件,需要有對(duì)應(yīng)的數(shù)據(jù)接口,且能夠生成導(dǎo)出標(biāo)準(zhǔn)的臨床研究格式,還需要生成能夠直接導(dǎo)入到SAS、SPSS、R 軟件等專業(yè)醫(yī)學(xué)統(tǒng)計(jì)軟件中的數(shù)據(jù)文件。系統(tǒng)應(yīng)該支持CDISC 和臨床數(shù)據(jù)獲取標(biāo)準(zhǔn)及其他數(shù)據(jù)字段標(biāo)準(zhǔn)的文件整合,同時(shí)在EDC 完成數(shù)據(jù)采集后,在符合研究規(guī)范的前提下,研究者通常會(huì)進(jìn)行數(shù)據(jù)的初步分析、驗(yàn)證,這時(shí)需要有簡(jiǎn)單易用的數(shù)據(jù)清洗和統(tǒng)計(jì)分析功能。清洗工具支持變量分級(jí)、變量類別轉(zhuǎn)換、對(duì)變量進(jìn)行新的分組和合并、變量的缺失值填補(bǔ)等,在統(tǒng)計(jì)分析功能方面,參考相關(guān)的臨床研究報(bào)告標(biāo)準(zhǔn),支持一般描述性、差異性分析等統(tǒng)計(jì)方法。
服務(wù)于IIT 的EDC 系統(tǒng),對(duì)其數(shù)據(jù)接口和功能擴(kuò)展性的要求更高,如對(duì)接物聯(lián)網(wǎng)穿戴設(shè)備、組學(xué)數(shù)據(jù)的采集和管理、醫(yī)療信息系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)等。如果這部分無(wú)法實(shí)現(xiàn),數(shù)據(jù)采集周期及工作量將大大增加,耗費(fèi)在數(shù)據(jù)的謄寫和核對(duì)上。這就需要EDC 系統(tǒng)有較好的擴(kuò)展性,以滿足研究發(fā)展和未來(lái)變化的需要。為了維護(hù)EDC 系統(tǒng)的正常運(yùn)轉(zhuǎn)和迭代,背后需要研發(fā)、運(yùn)維、醫(yī)學(xué)、數(shù)據(jù)管理團(tuán)隊(duì)的支持。研發(fā)團(tuán)隊(duì)需要進(jìn)行技術(shù)的鉆研和創(chuàng)新,還需與運(yùn)維團(tuán)隊(duì)一起及時(shí)響應(yīng)系統(tǒng)使用過(guò)程中遇到的問(wèn)題;醫(yī)學(xué)和數(shù)據(jù)管理團(tuán)隊(duì)需要支持系統(tǒng)背后醫(yī)學(xué)術(shù)語(yǔ)庫(kù)、數(shù)據(jù)庫(kù)搭建、邏輯核查等規(guī)則的設(shè)立、維護(hù)和更新。只有這樣才能讓EDC 同步IIT 研究發(fā)展的需要。
數(shù)據(jù)采集是臨床研究中非常耗費(fèi)時(shí)間和精力的環(huán)節(jié),EDC 系統(tǒng)通過(guò)信息技術(shù)可在一定程度上提升數(shù)據(jù)采集的效率及準(zhǔn)確性。目前,EDC 系統(tǒng)的開(kāi)發(fā)和維護(hù)主要是由各類商業(yè)公司承擔(dān),如PhaseForward公司的InForm、美國(guó)MediData 的Rave 系統(tǒng)、Edetek、COMFORM?等,這些系統(tǒng)主要以服務(wù)IST 為主。傳統(tǒng)的IIT 研究的數(shù)據(jù)采集和管理主要依靠紙質(zhì)的病例報(bào)告表(case report form,CRF)來(lái)完成,效率和準(zhǔn)確性都存在一定問(wèn)題[16]。筆者對(duì)比了幾家國(guó)內(nèi)外公司研發(fā)的EDC 系統(tǒng)及REDCap,它們?cè)谥С諭IT上都有著不同的差距和不足。國(guó)外較為成熟的EDC系統(tǒng)如Inform、Rave 等,常在跨國(guó)藥企的臨床試驗(yàn)中被使用,但因租用費(fèi)用昂貴,研究者難以負(fù)擔(dān),可定制化弱,在IIT 中應(yīng)用較少[17]。REDCap 作為國(guó)際上被研究者廣泛使用的數(shù)據(jù)采集系統(tǒng)在一定程度上可滿足IIT 的需要,但REDCap 是一個(gè)免費(fèi)開(kāi)源系統(tǒng),系統(tǒng)維護(hù)需要研究者自己負(fù)責(zé),所以迭代相對(duì)緩慢。研究者在系統(tǒng)建立項(xiàng)目,REDCap 的數(shù)據(jù)庫(kù)管理體系沒(méi)有規(guī)范的數(shù)據(jù)字段標(biāo)準(zhǔn),導(dǎo)致后續(xù)數(shù)據(jù)的匯集和共享非常困難,數(shù)據(jù)的運(yùn)用效率低。REDCap較多支持中小型研究項(xiàng)目,隨著IIT 需求變大,在支持多中心、復(fù)雜研究上仍顯乏力。因此如何打造符合IIT 的EDC 系統(tǒng)在國(guó)內(nèi)還處于初期發(fā)展階段。
近年來(lái),隨著國(guó)內(nèi)醫(yī)療信息技術(shù)的發(fā)展和人工智能技術(shù)的崛起,市場(chǎng)已經(jīng)有關(guān)于IIT EDC 產(chǎn)品的探索,支持研究者完成高質(zhì)量的臨床研究。構(gòu)建一套良好的支持IIT 的EDC 系統(tǒng),除需要參考臨床試驗(yàn)方案規(guī)范指南[18],有國(guó)際數(shù)據(jù)標(biāo)準(zhǔn)作為支撐,還需要考慮功能的可擴(kuò)展性,滿足IIT 的創(chuàng)新性。
上海交通大學(xué)醫(yī)學(xué)院臨床研究中心參照臨床研究相關(guān)的法規(guī)和政策,在原有EDC 系統(tǒng)基礎(chǔ)上,設(shè)計(jì)建設(shè)了服務(wù)IIT的新型EDC平臺(tái),進(jìn)一步擴(kuò)充EDC系統(tǒng)對(duì)IIT 的支撐范圍和深度。平臺(tái)的建設(shè)包含項(xiàng)目全流程管理、臨床試驗(yàn)質(zhì)量管理、臨床數(shù)據(jù)采集、物聯(lián)網(wǎng)數(shù)據(jù)采集、醫(yī)學(xué)影像工具、分布式語(yǔ)義檢索等6 大模塊。
項(xiàng)目全流程管理和臨床試驗(yàn)質(zhì)量管理模塊支持IIT 項(xiàng)目的全流程管理,自帶數(shù)據(jù)字典標(biāo)準(zhǔn),可對(duì)受試者病歷數(shù)據(jù)進(jìn)行自動(dòng)化清洗和采集,補(bǔ)充相應(yīng)的專病數(shù)據(jù)庫(kù)和受試者CRF 表單自動(dòng)填充。項(xiàng)目的質(zhì)量控制管理體現(xiàn)在從過(guò)程監(jiān)管到數(shù)據(jù)稽查,確保臨床研究的質(zhì)量。支持多個(gè)科研項(xiàng)目的同時(shí)執(zhí)行與狀態(tài)查看等,幫助研究者隨時(shí)知曉在庫(kù)項(xiàng)目的進(jìn)程。IIT中涉及的方案變更和CRF 修改亦可通過(guò)系統(tǒng)進(jìn)行修改、版本發(fā)布、版本維護(hù),靈活應(yīng)對(duì)。
臨床數(shù)據(jù)采集模塊提供異質(zhì)異構(gòu)臨床數(shù)據(jù)的采集能力,包括檢驗(yàn)、診斷等結(jié)構(gòu)化數(shù)據(jù)和檢查結(jié)論、病史等文本數(shù)據(jù)及醫(yī)學(xué)影像文件,通過(guò)標(biāo)準(zhǔn)接口實(shí)現(xiàn)數(shù)據(jù)在平臺(tái)的匯集和存儲(chǔ),采用國(guó)家商用密碼的對(duì)稱加密算法進(jìn)行加密傳輸以保障數(shù)據(jù)安全。通過(guò)自然語(yǔ)言處理技術(shù)、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)等,能夠?qū)⒉杉漠愘|(zhì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化、標(biāo)準(zhǔn)化,治理后的數(shù)據(jù)能根據(jù)EDC 表單結(jié)構(gòu)進(jìn)行自動(dòng)回填且符合標(biāo)準(zhǔn)。平臺(tái)運(yùn)用患者主索引技術(shù)將各個(gè)系統(tǒng)的患者編號(hào)進(jìn)行統(tǒng)一,不同系統(tǒng)具備相同身份特征的受試者或患者數(shù)據(jù)都會(huì)進(jìn)行主索引合并,實(shí)現(xiàn)同一患者在各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)打通。通過(guò)這種模式的數(shù)據(jù)采集可最大限度提升數(shù)據(jù)的完整度和利用率。
物聯(lián)網(wǎng)數(shù)據(jù)采集模塊主要用于可穿戴設(shè)備的管理及數(shù)據(jù)采集,如心率、運(yùn)動(dòng)量、睡眠時(shí)間、血壓等健康信息,采集的各類體征數(shù)據(jù)將經(jīng)過(guò)數(shù)據(jù)加密后遵循統(tǒng)一格式進(jìn)行存儲(chǔ)、傳輸,集成治理后自動(dòng)填充到EDC 系統(tǒng)的eCRF,本模塊內(nèi)嵌相關(guān)的設(shè)備對(duì)接標(biāo)準(zhǔn),符合標(biāo)準(zhǔn)的設(shè)備能夠和EDC 系統(tǒng)無(wú)縫對(duì)接,滿足IIT 中對(duì)此類數(shù)據(jù)采集的需要。
醫(yī)學(xué)影像工具模塊可對(duì)接臨床數(shù)據(jù)采集系統(tǒng),獲取影像數(shù)據(jù),基于pytorch(pytorch 是一個(gè)開(kāi)源的Python 機(jī)器學(xué)習(xí)庫(kù))集成檢測(cè)、分割、降低假陽(yáng)性、分類等多個(gè)模型的機(jī)器學(xué)習(xí)級(jí)聯(lián)網(wǎng)絡(luò)。在應(yīng)用層面上,能實(shí)現(xiàn)影像圖片的圖層分割、自動(dòng)標(biāo)注、自動(dòng)分類、脫敏,自動(dòng)標(biāo)注的數(shù)據(jù)可進(jìn)行人工審核,亦支持手動(dòng)標(biāo)注,極大提升科研效率。平臺(tái)可對(duì)任意來(lái)源的影像數(shù)據(jù)進(jìn)行同一標(biāo)準(zhǔn)的解析和存儲(chǔ),支持多格式的導(dǎo)出,對(duì)后續(xù)數(shù)據(jù)調(diào)取和再應(yīng)用提供便利。自動(dòng)標(biāo)注的人工智能模型隨著數(shù)據(jù)的積累自身也在不斷迭代而更加精準(zhǔn)。
分布式語(yǔ)義檢索模塊對(duì)接以上5 個(gè)模塊,創(chuàng)新性地集成智能隨訪工具,可通過(guò)微信公眾號(hào)自動(dòng)推送表單的方式進(jìn)行院外隨訪、數(shù)據(jù)采集與分析。運(yùn)用醫(yī)學(xué)知識(shí)圖譜、自然語(yǔ)言處理技術(shù)等技術(shù),將匯集的數(shù)據(jù)治理后存儲(chǔ)在平臺(tái)的數(shù)據(jù)湖中,既往的前瞻性項(xiàng)目數(shù)據(jù)亦可作為數(shù)據(jù)資產(chǎn)沉淀,在該平臺(tái)實(shí)現(xiàn)數(shù)據(jù)的匯集、深度挖掘和運(yùn)用。
綜上,本平臺(tái)結(jié)合IIT 的實(shí)際需求,通過(guò)開(kāi)放的架構(gòu)實(shí)現(xiàn)功能的擴(kuò)展,集成影像工具、物聯(lián)網(wǎng)設(shè)備、智能隨訪等,遵循數(shù)據(jù)標(biāo)準(zhǔn)化原則,擴(kuò)大數(shù)據(jù)采集維度。平臺(tái)融合人工智能技術(shù),實(shí)現(xiàn)復(fù)雜維度的數(shù)據(jù)采集整合,形成標(biāo)準(zhǔn)化可復(fù)用的數(shù)據(jù)資產(chǎn),全面支持隨機(jī)對(duì)照研究、回顧性研究和前瞻性研究,提高IIT 的效率。