袁曉明 王美琴
基于微服務架構的Globus科研數(shù)據(jù)管理平臺分析*
袁曉明 王美琴
(蘇州大學圖書館,蘇州 215006)
科研數(shù)據(jù)的爆發(fā)式增長和遠程共享對數(shù)據(jù)管理提出需求,可實現(xiàn)彈性擴展、高性能傳輸、云托管的微服務架構數(shù)據(jù)管理平臺為數(shù)據(jù)的高效管理提供可能。本文調研分析了芝加哥大學阿貢國家實驗室研究團隊研發(fā)的Globus科研數(shù)據(jù)管理平臺。該平臺采用分布式微服務架構,包括身份管理、組群服務、數(shù)據(jù)傳輸和數(shù)據(jù)共享4個微服務模塊,模塊之間相互獨立,通過可視化Web界面實現(xiàn)科研數(shù)據(jù)的傳輸和共享。該平臺已經應用于多個科研項目的數(shù)據(jù)管理,完成TB數(shù)量級的文件傳輸,其跨區(qū)域高效傳輸、靈活共享的數(shù)據(jù)管理模式可為我國科研數(shù)據(jù)管理提供借鑒。
科研數(shù)據(jù)管理;Globus;云服務;SaaS;微服務
隨著科學技術的發(fā)展、科學儀器的更新和科學研究方法的改變,高性能探測設備和分析儀器應用到科研過程中,隨之產生了大量高分辨率圖片、音視頻等科研數(shù)據(jù),一些學科領域的科研數(shù)據(jù)爆發(fā)式增長,科學研究已經進入數(shù)據(jù)密集型階段[1]。同時,高質量科研數(shù)據(jù)的共享、再現(xiàn)對大數(shù)據(jù)和人工智能跨領域數(shù)據(jù)分析日益重要,荷蘭萊頓數(shù)據(jù)科學中心Mons[2]指出,科研數(shù)據(jù)管理不僅是科研工作者的責任,也是科研項目的重要組成部分,其中數(shù)據(jù)的存儲、遷移和利用越來越受到國內外研究機構、高校及科研人員的重視。
數(shù)據(jù)密集型科研環(huán)境下,科研數(shù)據(jù)管理對科研數(shù)據(jù)價值的發(fā)揮產生了重要影響,國內外機構或圖書館圍繞科研數(shù)據(jù)管理平臺的開發(fā)和本地部署開展相關實踐,以幫助研究者管理科研數(shù)據(jù)。在美國,如麻省理工學院圖書館的數(shù)字存儲系統(tǒng)DSpace[3]、哈佛大學的Dataverse[4]、康奈爾大學的Datastar[5]、普渡大學的PURR[6]、賓夕法尼亞州立大學的倉儲服務系統(tǒng)Scholar Sphere[7]等。國內機構也嘗試采用開源數(shù)據(jù)管理軟件本地化搭建科研數(shù)據(jù)管理平臺,如復旦大學采用Dataverse構建復旦大學社會科學數(shù)據(jù)平臺,武漢大學圖書館基于開源軟件DSpace搭建的“大學科學數(shù)據(jù)共享平臺”等。當前,科研數(shù)據(jù)管理平臺主要提供倉儲式數(shù)據(jù)管理服務,只支持本機構用戶并依賴機構的管理,無法在機構間或更廣范圍內共享數(shù)據(jù)。隨著科研數(shù)據(jù)的急劇增長和跨區(qū)域的科研合作共享,倉儲式服務的科研數(shù)據(jù)管理平臺面臨以下挑戰(zhàn)。①數(shù)據(jù)訪問的限制。倉儲式科研數(shù)據(jù)管理平臺是一個復雜的Web服務應用程序,通常包含用戶信息、數(shù)據(jù)信息,設置了較復雜的安全防護,限制了平臺的訪問和可伸縮性,無法滿足高性能獨立數(shù)據(jù)通道的高速訪問[8]。②高性能數(shù)據(jù)傳輸需求。研究數(shù)據(jù)量的激增,需要數(shù)千個文件或者TB級別數(shù)據(jù)量的高效傳輸,傳輸效率對此類科研數(shù)據(jù)管理平臺是一項挑戰(zhàn)。③平臺部署維護技術和資金支撐。倉儲式服務的科研數(shù)據(jù)管理平臺是筒倉式開發(fā)部署的,系統(tǒng)獨立運行本地的用戶管理、身份驗證、授權和數(shù)據(jù)傳輸,不僅部署需要強大技術支持,還需要管理人員的長期技術跟蹤。④數(shù)據(jù)共享范圍有限。各平臺數(shù)據(jù)以不同的分類體系進行組織和元數(shù)據(jù)主題標引,不同數(shù)據(jù)組織方式使平臺之間技術不可擴展、數(shù)據(jù)無法遷移,共享范圍有限。
倉儲式服務的科研數(shù)據(jù)管理平臺雖然在機構范圍內的數(shù)據(jù)管理起到了一定的作用,但隨著網絡結構性能提升和數(shù)據(jù)共享全球化的需求,其服務范圍受到了根本限制。科研數(shù)據(jù)管理平臺面臨應用開發(fā)方式、數(shù)據(jù)存儲方式、系統(tǒng)部署和服務功能的挑戰(zhàn),基于微服務架構的平臺應用可滿足數(shù)據(jù)高效傳輸和共享、敏捷開發(fā)和動態(tài)擴展的需求。
為此,筆者調研分析了芝加哥大學研究開發(fā)的基于微服務架構的SaaS模型Globus科研數(shù)據(jù)管理平臺的服務方式和架構,及其應用于科研數(shù)據(jù)管理的案例,為國內科研機構和科研人員的科研數(shù)據(jù)管理提供借鑒。
微服務架構是一種細粒度、自治、協(xié)同工作的服務體系[9],其將大型復雜系統(tǒng)從功能上分解成設計、開發(fā)和部署中相互獨立自治的小型服務,并通過輕量級機制進行通信,采用標準的API和基于容器的平臺來強調松散耦合和高內聚[10]。架構模塊具有技術異質性、可獨立部署、可彈性擴展等特點,便于系統(tǒng)的技術升級和功能更新,近年來迅速發(fā)展并被嘗試應用于軟件平臺、面向服務架構的開發(fā)。
Globus是2010年由芝加哥大學阿貢國家實驗室研究團隊研發(fā)的科研數(shù)據(jù)管理平臺,是一種基于微服務架構的軟件即服務(SaaS),以Amazon云服務實現(xiàn)數(shù)據(jù)管理,提供身份認證與授權、數(shù)據(jù)遷移與復制、數(shù)據(jù)共享、數(shù)據(jù)發(fā)布與發(fā)現(xiàn)等功能[11-12],并以Web訪問服務形式為研究者提供了一套功能強大的科研數(shù)據(jù)管理功能。在技術方面,該體系結構具有高度的容錯性、可彈性擴展、易于部署,且隨著負載的增加,服務可動態(tài)地分配虛擬機;在數(shù)據(jù)處理上,云服務具有高效的數(shù)據(jù)處理效率和彈性計算能力,保證了密集數(shù)據(jù)的高效、穩(wěn)定傳輸;在服務模式上,SaaS支持多租戶訪問,用戶不需要安裝或操作任何軟件,任何授權用戶都可以建立和管理自己的數(shù)據(jù)發(fā)布集合,易于廣泛使用[13]。
隨著存儲介質的更新、存儲端點的增加,Globus平臺不斷更新服務功能、完善數(shù)據(jù)管理生態(tài)系統(tǒng),包括對安全HTTP數(shù)據(jù)訪問支持、新型存儲系統(tǒng)(Amazon S3、HDFS)的兼容、數(shù)據(jù)端點搜索和管理員管理功能的提升,有效解決了科研人員數(shù)據(jù)管理過程中的冗余事務。
Globus數(shù)據(jù)管理包含兩個核心組件,即托管服務和代理軟件。
Globus實現(xiàn)了第三方傳輸?shù)耐泄芊漳P?,所有微服務模塊托管于Amazon云服務器,通過Web應用程序為所有的微服務提供統(tǒng)一接口的協(xié)同訪問頁面。用戶發(fā)出數(shù)據(jù)處理指令后,其數(shù)據(jù)數(shù)據(jù)處理流程(傳輸、共享、發(fā)布、發(fā)現(xiàn)以及身份和憑證管理)都在Amazon云上運行(見圖1),此過程中Globus以數(shù)據(jù)監(jiān)護方式參與其中,進行用戶管理、權限控制和數(shù)據(jù)流程控制,不傳輸數(shù)據(jù),不保存或記錄任何數(shù)據(jù)。
代理軟件(Globus Connect)實現(xiàn)了身份驗證和數(shù)據(jù)訪問的機制,包括服務器和個人2個安裝版本。Globus Connect Server是一個Linux軟件包,部署于存儲服務器;Globus Connect personal是一個輕量級的單用戶代理,可以部署在Windows、macos和Linux計算機上,使這些系統(tǒng)能夠參與Globus文件共享網絡。目前,Globus Connect服務器已更新至v5.4版本,可實現(xiàn)多端點共享、超大文件即時傳輸、兼容多形式存儲系統(tǒng)之間的文件轉移[14],且新的版本具有管理控臺和發(fā)現(xiàn)新端點功能,可監(jiān)控數(shù)據(jù)傳輸狀態(tài),支持對多形態(tài)存儲介質終端的發(fā)現(xiàn)和連接。
Globus SaaS的微服務模塊包括3個關鍵組件:REST API、一個或多個后端任務工作程序和數(shù)據(jù)持久層[11]。Globus處理REST API服務模塊一般部署在Amazon EC2云服務器上,其處理REST API請求的所有邏輯單元都是同步執(zhí)行的,在持久存儲層中注冊所需的活動后即終止任務,由后端任務工作程序進一步處理,所以模塊在磁盤和內存中運行非常短暫,具有強大的數(shù)據(jù)處理能力。Globus管理團隊可根據(jù)系統(tǒng)負載添加或刪除API的服務能力,彈性擴展微服務模塊。數(shù)據(jù)持久層部署在Amazon云存儲服務器上,利用其可跨區(qū)域復制性能實現(xiàn)系統(tǒng)容錯,并定期創(chuàng)建遠程快照幫助實現(xiàn)故障恢復。Globus使用了S3和PostgreSQL關系型數(shù)據(jù)庫(RDS),各系統(tǒng)組件封裝在虛擬云(VPC)中并互相獨立,實現(xiàn)了Amazon云托管服務。
Globus數(shù)據(jù)管理由Globus Auth、Globus Groups、Globus Transfer、Globus Publication 4個分布式微服務模塊組成,可分別實現(xiàn)身份認證服務、群組管理服務、數(shù)據(jù)傳輸服務和數(shù)據(jù)出版服務。
Globus Auth模塊是其他微服務的基礎和安全模型的核心,貫穿數(shù)據(jù)管理服務全過程。Globus Auth是一個Python Web應用程序,Python應用層管理身份、賬戶和客戶端,通過REST API接口注冊和配置客戶端、獲取用戶和令牌的信息以及檢索鏈接的標識,符合標準Web協(xié)議OAuth 2和OpenID Connect規(guī)范,可與第三方應用程序集成[15]。
Globus Auth代理了終端用戶、身份提供、資源服務器和客戶端(如Web界面、移動設備、桌面命令行等)之間的身份驗證與授權交互,支持用戶多重身份(如機構身份、校園ID、Google賬戶)登錄,實現(xiàn)了身份聯(lián)合模型,將不同身份鏈接為用戶身份集合使用,消除了在使用分布式網絡基礎設施時經常需要多個賬戶、身份、憑據(jù)的沖突??蒲腥藛T數(shù)據(jù)管理過程中可隨時切換身份,用一個憑證身份驗證登錄,使用另一個身份連接到特定的遠程存儲資源,以及基于其他身份與合作者共享數(shù)據(jù)等。此外,Globus Auth提供了臨時委托訪問令牌,增減客戶端的訪問權限。
Globus Groups模塊是采用Web框架實現(xiàn)的一個層次化的組模型,是在Globus Auth基礎上實現(xiàn)的團隊管理功能。Globus Groups通過評估用戶的成員身份授權其可訪問粒度,應用于科研團體(組)的授權、角色和共享。該模塊提供了一個面向團體用戶和團體成員管理的工作流集合,可以讓用戶自定義存儲數(shù)據(jù)對成員可見性、成員資格、工作流(邀請、接受、暫停等)、成員角色,適合機構對科研人員的數(shù)據(jù)權限管理或團隊項目合作。Globus Groups還利用了其他AWS服務,包括用于電子郵件的SES和用于內部通知的SNS(見表1)。
科研協(xié)作通常需要對跨區(qū)域分布式資源的復雜數(shù)據(jù)管理,用戶需要在采集、存儲、分析和歸檔之間移動大量數(shù)據(jù)。Globus Transfer模塊是Globus數(shù)據(jù)管理服務的核心模塊,為科研人員和機構提供了高性能的文件傳輸和同步服務,簡化了兩個存儲端點之間移動大數(shù)據(jù)的過程,實現(xiàn)了Globus用戶之間的數(shù)據(jù)安全共享。
Globus利用部署在存儲系統(tǒng)上的Globus Connect軟件來協(xié)調第三方數(shù)據(jù)的安全傳輸,數(shù)據(jù)傳輸基于虛擬的“共享端點”模型,用戶利用Globus Transfer Web、CLI和REST接口在現(xiàn)有端點上的任何文件系統(tǒng)位置創(chuàng)建虛擬的“共享端點”,使用GridFTP協(xié)議在端點之間傳輸數(shù)據(jù)[6]。GridFTP提供了一個模塊化的數(shù)據(jù)存儲接口(DSI),以支持現(xiàn)代網絡環(huán)境下的不同存儲介態(tài),如高性能存儲系統(tǒng)(HPSS)、云存儲對象及傳統(tǒng)存儲系統(tǒng)之間的數(shù)據(jù)傳輸[16]。
Globus使用兩個獨立的通信通道,在Globus和端點之間建立控制通道,以啟動和管理傳輸、檢索目錄列表和建立數(shù)據(jù)通道,在兩個端點(GridFTP服務器)之間直接建立數(shù)據(jù)通道,用于系統(tǒng)之間的數(shù)據(jù)傳輸,Globus服務無法訪問數(shù)據(jù)通道。Globus Transfer是同時使用S3和PostgreSQL RDS數(shù)據(jù)庫的多層存儲模型,存儲了大量數(shù)據(jù)傳輸狀態(tài)的信息,PostgreSQL RDS管理了安全隱私性信息(如用戶、端點等),S3用于存儲詳細的傳輸信息,如文件列表和性能標記。Globus Transfer主要實現(xiàn)以下功能。
(1)高性能、可靠的數(shù)據(jù)傳輸:保障用戶數(shù)據(jù)傳輸可靠性和完整性,Globus可對傳輸控制協(xié)議(TCP)緩沖區(qū)大小、并發(fā)控制通道數(shù)量等參數(shù)靈活調控,并自行校驗傳輸文件完整性、故障恢復后自動重啟傳輸。
(2)實現(xiàn)跨區(qū)域的第三方傳輸:以第三方管理模式參與兩個遠程端點數(shù)據(jù)傳輸,保障用戶數(shù)據(jù)的隱私性和安全性。
(3)就地數(shù)據(jù)共享:允許用戶使用Globus Connect軟件將本地資源公開為Globus端點,并根據(jù)文件共享程度授權訪問權限。
Globus Publication模塊支持用戶管理發(fā)布共享數(shù)據(jù)[17]。Globus數(shù)據(jù)發(fā)布是在DSpace機構存儲庫系統(tǒng)的基礎上實現(xiàn)的,并采用Globus微服務替換了DSpace內置功能:用戶和組管理分別替換為Globus Auth和Globus Groups,使用Globus Transfer處理數(shù)據(jù)管理和訪問策略。該模塊管理數(shù)據(jù)的存儲位置、應收集的元數(shù)據(jù)、應用的持久標識符的形式、使用的管理工作流以及誰可以提交、管理和訪問數(shù)據(jù)的“集合”,通過數(shù)據(jù)發(fā)布服務進行發(fā)布,工作流完成后,元數(shù)據(jù)文件會復制到發(fā)布終端。
Globus數(shù)據(jù)管理平臺4個微服務模塊可互相調用完成數(shù)據(jù)管理流程,也可單一與其他應用接口集成,為科研機構和用戶提供身份管理、數(shù)據(jù)傳輸和共享以及組管理等服務模式。為進一步實現(xiàn)Globus數(shù)據(jù)管理的智能化,Globus從3個方面著力開發(fā)服務模塊以適應數(shù)據(jù)管理的發(fā)展需求[18]:①高級數(shù)據(jù)搜索服務,支持對文件系統(tǒng)元數(shù)據(jù)和內部文件結構及內容的搜索,以更精細的數(shù)據(jù)索引粒度從文件中深度索引獲得高質量的結果;②構建新的數(shù)據(jù)收集模型,以靈活的數(shù)據(jù)共享模型來集成數(shù)據(jù)共享和數(shù)據(jù)發(fā)布服務,實現(xiàn)用戶的數(shù)據(jù)集合管理;③主動數(shù)據(jù)管理模塊,開發(fā)一個模塊化的主動數(shù)據(jù)管理環(huán)境,允許用戶定義Globus生態(tài)系統(tǒng)中的行為規(guī)則。
截至2021年7月,Globus在全球80多個國家和地區(qū)擁有12萬余個注冊用戶和3萬多個活躍端點,完成了1?244?031TB科研數(shù)據(jù)的傳輸和管理,擁有機構訂閱用戶100多個,其中包括60多所頂尖的研究型大學和DOE實驗室[19]。Globus為多個科研機構及大型實驗室實現(xiàn)了科研數(shù)據(jù)管理、同行之間的合作共享、精密儀器與數(shù)據(jù)分析中心的數(shù)據(jù)傳輸,其服務模塊也可被集成到其他數(shù)據(jù)管理平臺。
Globus已被多個機構或研究項目用于科研數(shù)據(jù)管理的實踐。例如,Globus為美國國家大氣研究中心(NCAR)的“研究數(shù)據(jù)檔案”(RDA)[20]數(shù)據(jù)服務提供了高效數(shù)據(jù)傳輸和用戶認證管理。RDA主要收集氣象和海洋觀測數(shù)據(jù),包含700多個數(shù)據(jù)集、800萬個文件[21],需要進行大量的數(shù)據(jù)分析輸出,并為用戶提供數(shù)據(jù)瀏覽和下載服務。RDA數(shù)據(jù)管理服務集成了Globus Transfer、Globus Auth微服務,實現(xiàn)了高效數(shù)據(jù)傳輸和身份管理功能。Globus為用戶提供了簡單的Web界面,通過專門的軟件和GridFTP協(xié)議實現(xiàn)數(shù)據(jù)傳輸,數(shù)據(jù)傳輸過程自動完成,在發(fā)生系統(tǒng)故障后能恢復傳輸,確保數(shù)據(jù)傳輸?shù)耐暾?,用戶通過Globus監(jiān)控數(shù)據(jù)傳輸量、時間戳、傳輸端點及傳輸文件狀態(tài)。目前RDA內部端點數(shù)據(jù)傳輸速度達10GB/s,RDA與外部端點數(shù)據(jù)傳輸速度達2GB/s。同時,RDA采用了Globus身份管理和身份驗證功能,用戶可以使用GlobusID或Globus集成的其他身份鏈接登錄RDA數(shù)據(jù)庫,支持聯(lián)合身份認證,改善了用戶體驗,為用戶提供了易于使用、可靠、高性能的數(shù)據(jù)交付服務。
此外,Globus打破了不同機構之間的數(shù)據(jù)合作和共享的壁壘、實現(xiàn)了精密儀器與服務器之間的傳輸。例如:芝加哥大學測序中心與生物醫(yī)學信息學中心(IBI)跨區(qū)域合作DNA測序項目,測序中心技術人員使用Globus移動到測序中心數(shù)據(jù)庫,并通過Globus傳輸至IBI數(shù)據(jù)中心,科研人員即可在IBI設施中獲取他們所需的DNA測序數(shù)據(jù),實現(xiàn)了機構間的數(shù)據(jù)共享和項目合作;凱斯西儲大學(CWRU)采用Globus將高性能Titan Krios透射電子顯微鏡產生的數(shù)據(jù)迅速轉移到CWRU數(shù)據(jù)中心庫,便于科研人員的數(shù)據(jù)調用和分析。Globus數(shù)據(jù)管理服務也被機構用于本地化數(shù)據(jù)管理平臺的開發(fā),加拿大計算機協(xié)會、Portagenetwork、加拿大研究圖書館協(xié)會合作利用Globus搭建了本地化科研數(shù)據(jù)管理平臺——聯(lián)邦研究數(shù)據(jù)存儲庫FRDR,構建了加拿大科學研究數(shù)據(jù)的收集、保存、訪問和共享平臺。
在協(xié)作共享的大數(shù)據(jù)環(huán)境下,微服務架構和云存儲應用于科研數(shù)據(jù)管理的便利性日益凸顯。以管理機構聯(lián)合科研機構、IT服務商、科研人員等利益相關者推動構建我國微服務架構云存儲的科研數(shù)據(jù)管理平臺,以解決目前多區(qū)域項目合作中數(shù)據(jù)傳輸?shù)托Ш涂蒲袛?shù)據(jù)孤島分布的現(xiàn)狀,實現(xiàn)跨區(qū)域、跨學科的數(shù)據(jù)傳輸、共享和利用,對提高國內科研數(shù)據(jù)管理水平具有重要意義?;谖⒎占軜嫷腉lobus科研數(shù)據(jù)管理平臺的服務模式為我國科研數(shù)據(jù)管理提供了良好的借鑒。
[1] 吳金紅,陳勇躍. 面向科研第四范式的科學數(shù)據(jù)監(jiān)管體系研究[J]. 圖書情報工作,2015,59(16):11-17.
[2] MONS B. Invest 5% of research funds in ensuring data are reusable[J]. Nature,2020,578:491.
[3] 袁紅衛(wèi),黃松,劉嫣. 麻省理工學院科學數(shù)據(jù)管理與共享平臺調研及啟示[J]. 圖書館學研究,2019(13):82,95-101.
[4] HARVARD Dataverse[EB/OL].[2021-11-01]. https://dataverse.harvard.edu/.
[5] Datastar[EB/OL].[2021-11-01]. http://datastar.mannlib.cornell.edu/.
[6] Research Data Management for Purdue[EB/OL].[2021-10-22]. https://purr.purdue.edu/.
[7] Scholarsphere[EB/OL].[2021-10-22]. https://scholarsphere.psu.edu/.
[8] CHARD K,DART E,F(xiàn)OSTER I,et al. The modern research data portal:a design pattern for networked,data-intensive science[J]. Peerj Computer Science,2017,4(6):e144.
[9] NEWMAN S. Building Microservices[EB/OL].[2021-11-01]. https://www.oreilly.com/library/view/building-microservices/9781491950340/.
[10] 程秀峰,丁芬,夏立新. 基于微服務架構的文獻信息資源保障平臺構建研究[J]. 數(shù)字圖書館論壇,2021(4):2-10.
[11] ALLEN B,ANANTHAKRISHNAN R,CHARD K,et al. Globus:A Case Study in Software as a Service for Scientists[C]//ScienceCloud’ 17. Washington:2017.
[12] CHARD K,TUECKE S,F(xiàn)OSTER I. Efficient and secure transfer,synchronization,and sharing of big data[J]. IEEE Cloud Computing,2015,1(3):46-55.
[13] FOSTER I,VASILIADIS V,TUECKE S. Software as a Service as a path to software sustainability[EB/OL].[2021-11-17]. https://www.globus.org/sites/default/files/saas-as-a-path-to-sustainable-software-delivery.pdf.
[14] Globus. Globus Connect[EB/OL].[2021-11-12]. https://www.globus.org/globus-connect.
[15] TUECKE S,ANANTHAKRISHNAN R,CHARD K,et al. Globus auth:A research identity and access management platform[C]//2016 IEEE 12th International Conference on e-Science(e-Science). IEEE,2016.
[16] LIU Z,KETTIMUTHU R,CHUNG J,et al. Design and evaluation of a simple data interface for efficient data transfer across diverse storage[J]. ACM Transactions on Modeling and Performance Evaluation of Computing Systems,2021,6(1):1-25.
[17] CHARD K,PRUYNE J,BLAISZIK B,et al. Globus Data Publication as a Service:Lowering Barriers to Reproducible Science[C]//2015 IEEE 11th International Conference on eScience. IEEE,2015.
[18] CHARD K,TUECKE S,F(xiàn)OSTER I. Globus:Recent Enhancements and Future Plans[C]//the XSEDE16. ACM,2016.
[19] Globus. The Globus Research Data Management Universe[EB/OL].[2021-10-20]. https://www.globus.org/file/globus-research-data-management-universe.
[20] NCAR. Research Data Archive[EB/OL].[2021-10-20]. https://rda.ucar.edu/.
[21] CRAM T. Globus integration in the NCAR RDA data portal:Recent enhancements[C]//In Globusworld 2018. Western Digital. Chicago:2018.
Analysis of Scientific Research Data Management Platform Based on Microservice Architecture
YUAN XiaoMing WANG MeiQin
( Soochow University Library, Suzhou 215006, P. R. China )
The explosive growth of scientific research data and remote collaboration and sharing put forward the demand for data management. The microservice architecture data management platform with easy elastic expansion, high-performance transmission and cloud hosting makes it possible for efficient data management. This paper investigates the Globus data management platform based on cloud storage developed by the Argonne National Laboratory research team of the University of Chicago. Globus scientific research data management platform adopts distributed micro service architecture, including four micro service modules: identity management, group service, data transmission and data sharing. The services are independent of each other, and scientific research data transmission and sharing are realized through visual Web interface. The platform has been applied to data management of multiple scientific research projects, and has completed terabyte file transmission. The data management mode and flexible data sharing of Globus can provide reference for scientific research data management in China.
Research Data Management; Globus; Cloud service; SaaS; Microservice
(2021-11-01)
G250
10.3772/j.issn.1673-2286.2021.12.004
袁曉明,王美琴. 基于微服務架構的Globus科研數(shù)據(jù)管理平臺分析[J]. 數(shù)字圖書館論壇,2021(12):22-27.
袁曉明,女,1985年生,碩士,館員,研究方向:信息咨詢、學科服務、數(shù)據(jù)保存,E-mail:yuanxiaoming@suda.edu.cn。
王美琴,女,1975年生,碩士,副研究館員,研究方向:圖書情報、信息服務。
*本研究得到2020年度江蘇省JALIS數(shù)字圖書館專題研究項目“基于社會化精準服務提升館員專業(yè)能力的研究”(編號:2020KT08)資助。