吳 萌 李 姣 侯 麗
(中國醫(yī)學科學院醫(yī)學信息研究所 北京 100020)
語義網(wǎng)廣義上來說是對未來網(wǎng)絡的一個設想,狹義上來說是一種智能網(wǎng)絡,不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關系[1]。隨著語義網(wǎng)概念的提出,互聯(lián)網(wǎng)逐步從僅包含網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)轉變?yōu)槊枋龈鞣N實體之間關系的數(shù)據(jù)萬維網(wǎng)。基于此,知識圖譜這一概念于2012年5月由谷歌率先提出,其目標在于描述真實世界中存在的各種實體和概念,及實體與概念之間的關聯(lián)關系,從而改善搜索結果。同時, 資源描述框架(Resource Description Framework, RDF)及其模式(Resource Description Framework Schema, RDFS)在語義Web中處于核心地位, 是實現(xiàn)Web信息共享和數(shù)據(jù)交換的基礎。
伴隨生物醫(yī)學領域測序技術的飛速發(fā)展和精準醫(yī)學概念的提出,越來越多的科學研究開始關注于疾病發(fā)生的內在復雜機制,以及各個生物醫(yī)學實體之間的網(wǎng)絡調控通路和關聯(lián)關系,以提供個性化的治療方案。知識圖譜等語義網(wǎng)絡技術為多源異構的生物醫(yī)學數(shù)據(jù)的整合和復雜關系網(wǎng)絡的建模提供新的解決方案,通過利用統(tǒng)一的數(shù)據(jù)表示標準,為生物醫(yī)學數(shù)據(jù)的檢索、分析、挖掘提供基礎。在癌癥生物學的研究過程中,人類癌癥細胞系作為一種易于獲取、方便使用的生物模型,廣泛應用于探索癌癥的分子特征以及相應的治療反應。由于臨床試驗復雜且昂貴,而借助細胞系進行臨床前實驗有助于極大地提高臨床實驗的成功率。目前,許多項目都致力于為細胞系及其遺傳學和基因組學數(shù)據(jù)提供系統(tǒng)的整合方案,例如癌癥體細胞突變目錄(Catalogue of Somatic Mutation In Cancer,COSMIC),使用戶在進行生物實驗和藥物測試時可以選擇更合適的癌癥細胞系,也為生物研究提供臨床依據(jù)[2]。本研究從NCBI gene、ClinVar、COSMIC、Cellosaurus、OMIM與NCIt 6個數(shù)據(jù)庫中分別獲取基因、突變、細胞系與疾病及其間的語義關系數(shù)據(jù),擬以細胞系數(shù)據(jù)為核心,構建一個包含基因、突變與疾病數(shù)據(jù)及其語義關系的RDF語義網(wǎng)絡。旨在對疾病基因組學等相關領域中的生物醫(yī)學數(shù)據(jù)進行建模與整合,以期為進一步發(fā)現(xiàn)新的醫(yī)學實體語義關系,理解與分析疾病的致病機制提供數(shù)據(jù)支撐。
2.1.1 生物醫(yī)學語義模型 隨著2015年美國總統(tǒng)奧巴馬提出精準醫(yī)學計劃,世界多個國家陸續(xù)開始部署精準醫(yī)學項目,更多的科學研究開始關注于疾病發(fā)生過程中內在的分子機制,而所催生的大量多來源異構的生物醫(yī)學數(shù)據(jù),迫切需要統(tǒng)一的數(shù)據(jù)整合方案。語義模型技術為多來源異構的生物醫(yī)學數(shù)據(jù)整合提供方案,并致力于提供一套統(tǒng)一的生物醫(yī)學實體表示標準,使機器和人都可以理解,其靈活性、可擴展性以及可對語義關系進行模型等特點非常適用于表示復雜的生物醫(yī)學網(wǎng)路數(shù)據(jù)。如上海曙光醫(yī)院構建的中醫(yī)藥知識圖譜、醫(yī)學系統(tǒng)命名法-臨床術語(Systematized Nomenclature of Medicine-Clinical Terms,SNOMED-CT)和IBM Watson Health等系統(tǒng)[3]?;阪溄訑?shù)據(jù),也可以識別出新的語義關系。如Dalleau等對藥物、疾病和基因相關的6個數(shù)據(jù)庫進行整合與鏈接,構建藥物基因組學相關的RDF格式語義網(wǎng)絡,共包含2 640 793個3元組?;跇嫿ǖ逆溄訑?shù)據(jù),分別用兩種基于圖的機器學習的方法——隨機森林和圖核,對藥物與基因是否相關進行預測,從而發(fā)現(xiàn)新的藥物-疾病關系[4]。
2.1.2 細胞系相關語義模型 細胞系目前已在許多生物醫(yī)學實驗和研究中被廣泛使用。復雜疾病,如癌癥的發(fā)生通常開始于一系列體細胞DNA變化所導致的失控的細胞增殖,這些大部分變化指的是突變等特定的DNA序列變化。研究認為細胞從正常狀態(tài)轉變到完全的惡性形態(tài)的過程,必須積累5~10個體細胞突變,每一種突變都會引發(fā)不一樣的細胞功能改變[5]。對癌癥細胞系進行基因組測序,可以發(fā)現(xiàn)引發(fā)細胞機制發(fā)生變化的重要突變,整合并分析腫瘤發(fā)生過程中細胞系發(fā)生的突變信息,有利于更好地理解腫瘤發(fā)生的內在分子機制,從而發(fā)現(xiàn)新的治療方案。而現(xiàn)有醫(yī)學數(shù)據(jù)的語義模型中,整合細胞系、突變和疾病等相關實體及其語義關系的語義模型還非常少見。大多數(shù)模型只聯(lián)系突變和疾病,或細胞系和疾病等實體。如細胞系本體(The Cell Line Ontology,CLO),主要描述細胞系、癌癥、細胞和有機體之間的關聯(lián)[6]。COSMIC數(shù)據(jù)庫整合細胞系、突變和疾病等實體之間的關聯(lián),但是對于疾病的描述沒有采用通用的表示方法,不利于與其他疾病數(shù)據(jù)庫進行映射,其表示方式?jīng)]有采用語義模型。
隨著下一代測序技術的發(fā)展,越來越多豐富的組學數(shù)據(jù)被生產(chǎn)、注釋出來。其大多數(shù)存儲形式為關系型數(shù)據(jù)庫或類似的表格文件形式。而如何將關系型數(shù)據(jù)的數(shù)據(jù)資源和語義關系信息轉化為RDF語義網(wǎng)絡格式,成為一種普遍需求。許多項目如Bio2RDF[7],the EBI platform[8],PDBj[9]以及Linked Open Drug Data (LODD)[10]等都致力于推動健康科學數(shù)據(jù)轉化為統(tǒng)一的鏈接數(shù)據(jù)形式。其中,Bio2RDF是一個開源的項目,采用語義網(wǎng)技術構建并提供生命科學數(shù)據(jù)的鏈接數(shù)據(jù)網(wǎng)絡。Bio2RDF定義一套簡單的規(guī)則,為多來源異構的數(shù)據(jù)集合創(chuàng)建RDF(S)兼容的鏈接數(shù)據(jù)形式。目前已為clinicaltrials.gov,dbSNP,GenAge等35個數(shù)據(jù)庫提供RDF鏈接數(shù)據(jù)結構[7]。R2RML[11]是W3C RDB2RDF工作組于2012年9月發(fā)布的一種映射語言,可以定義關系型數(shù)據(jù)庫與RDF格式數(shù)據(jù)之間的映射規(guī)則,從而將關系型數(shù)據(jù)轉化為RDF 3元組形式?;赗2RML的常用工具如D2RQ、db2triples、OpenLink Virtuoso等都可以實現(xiàn)關系型數(shù)據(jù)庫向RDF的轉化。
由此可見,在生物醫(yī)學領域,構建不同實體間的語義模型對于數(shù)據(jù)的整合、復雜網(wǎng)絡的表示及發(fā)現(xiàn)新的語義關系等都具有突出作用。而目前的研究多集中在藥物、疾病、癥狀等傳統(tǒng)醫(yī)學的關系層面,圍繞基因、突變、細胞系等精準醫(yī)學領域實體的語義網(wǎng)絡尚不多見。上述關系數(shù)據(jù)轉化技術中,對比發(fā)現(xiàn)D2RQ有明顯的優(yōu)勢, 它支持任何關系數(shù)據(jù)庫的數(shù)據(jù)轉換、通用性強, 支持靈活的映射配置文件, 提供一種標準的轉換方式生成一個虛擬的RDF (S), 確保數(shù)據(jù)庫的內容更新便捷[12]。鑒于此,本文采用D2RQ工具將數(shù)據(jù)資源轉化為RDF格式。
基因、突變、細胞系與疾病之間存在多種語義關系。對語義關系進行有效以及規(guī)范的定義,是語義模型構建的基礎,也為后續(xù)語義網(wǎng)絡在文本挖掘等領域中的應用提供潛能。Verspoor等人提出一種人類變異組信息注釋模式,對11種實體類型和關系進行規(guī)范。將這種模式應用于一個小型的以腸癌主題的全文預料庫中,通過使用這個模式進行全文注釋,注釋結果的一致性得到顯著提高[13]。本研究參考這種模式以及多種數(shù)據(jù)庫對語義關系的命名方式,最終確定4種語義類型Gene、Mutation、Cell-line、Disease之間的6種語義關系的定義模式。根據(jù)收集的數(shù)據(jù)庫中的數(shù)據(jù)形式與數(shù)據(jù)內容,選擇部分基本信息進行提取,例如基因的類型、突變的位點和疾病的別名等。這樣,每種語義類型都有多種相關屬性進行更為全面的描述。具體語義關系模型設計,見圖1。
圖1 語義關系模型及數(shù)據(jù)來源
根據(jù)所設計的語義模型,選取NCBI gene、ClinVar、COSMIC、Cellosaurus、OMIM與NCIt等6個數(shù)據(jù)庫作為基因、突變、細胞系與疾病等實體數(shù)據(jù)的來源。通過數(shù)據(jù)篩選、格式轉化及融合等數(shù)據(jù)預處理流程,形成待處理數(shù)據(jù)集,將數(shù)據(jù)集存入MySQL數(shù)據(jù)庫中,依據(jù)數(shù)據(jù)特性共存儲為4個實體表,以及6個關系表。其后,利用D2RQ映射工具,根據(jù)本研究設計的語義模型,定義關系型數(shù)據(jù)與RDF數(shù)據(jù)的映射規(guī)則。最后,將關系型數(shù)據(jù)庫轉化為RDF語義格式并利用D2RQ工具部署本地Web應用,實現(xiàn)對語義網(wǎng)絡的生成、檢索與分析。實驗流程,見圖2。
圖2 語義關系模型的構建
4.1.1 數(shù)據(jù)提取 (1)基因數(shù)據(jù)選自NCBI gene數(shù)據(jù)庫。NCBI gene數(shù)據(jù)庫提供了多物種的基因序列信息,包括序列、表達、結構、功能以及引用等信息,基因的唯一標識——Entrez_ID,在美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)研發(fā)的所有數(shù)據(jù)庫中都是通用的[14]。本研究選擇NCBI gene人類物種的基因數(shù)據(jù)作為實驗數(shù)據(jù)的基因部分,共60 195條,包括基因ID、基因名稱、在染色體上的位置和基因類型等信息。以NCBI gene數(shù)據(jù)庫的Entrez_ID為基因數(shù)據(jù)的標準標識。(2)突變數(shù)據(jù)與突變-基因、突變-疾病之間的關系數(shù)據(jù)選自ClinVar數(shù)據(jù)庫。ClinVar 是一個公開的數(shù)據(jù)庫,其中收集與疾病相關的人類遺傳變異[15]。本研究選擇突變概要文件variant_summary.txt中基因組參考序列版本為GRCh38的突變數(shù)據(jù),共254 030條,篩選所在基因、突變名稱、突變類型、所在染色體、相關疾病等信息。ClinVar中突變所在的基因使用NCBI gene的Entrez_ID進行標識,可與NCBI gene進行鏈接。突變相關的疾病整合了OMIM 的疾病ID標識,所以也可與OMIM中的疾病鏈接。ClinVar的突變標識以RCV000000000.0.形式表示,在突變對應多個疾病的情況下,一個突變會對應多個突變標識所以本研究自定義突變的唯一標識,并保留RCVaccession的信息。(3)疾病數(shù)據(jù)與疾病-基因之間的關系數(shù)據(jù)選自OMIM數(shù)據(jù)庫。在線人類孟德爾遺傳數(shù)據(jù)庫(0nline Mendelian Inheritance in Man,OMIM)是一個關于人類基因和表型的權威數(shù)據(jù)庫,目前每日更新并支持免費獲取[16]。本研究選擇morbidmap.txt文件中7 326條疾病數(shù)據(jù),保留疾病名稱、基因名稱、基因的OMIM ID以及基因的位置信息。利用mim2gene.txt中OMIM基因與NCBI基因的映射,獲取疾病-基因之間的關系。由于有些疾病的OMIM ID缺失,所以自定義疾病的唯一標識。(4)細胞系的數(shù)據(jù)選自Cellosaurus數(shù)據(jù)庫。Cellosaurus數(shù)據(jù)庫由瑞士生物信息研究所的團隊在Biocuration 2016大會上提出[17]。是目前整合細胞系信息較為全面的數(shù)據(jù)庫。下載并處理68 406條細胞系數(shù)據(jù)為標準格式,篩選細胞系名稱、編碼、別名、相關疾病等信息,自定義細胞系的唯一標識。
4.1.2 數(shù)據(jù)關聯(lián) 基于以上數(shù)據(jù)處理的步驟,可以得到大部分實驗數(shù)據(jù)。但疾病-細胞系、突變-細胞系、基因-細胞系的關系是無法直接從已整合的數(shù)據(jù)庫獲取的,需要引入中間數(shù)據(jù)庫,才能將這些實體進行關聯(lián)。Cellosaurus中存在疾病-細胞系的關系,但是Cellosaurus中的疾病數(shù)據(jù)使用NCIt[18]的疾病術語進行表示,提供其在NCIt中ID編碼。所以利用NCIt將Cellosaurus細胞系與OMIM疾病進行關聯(lián)。參考一體化醫(yī)學語言系統(tǒng)(Unified Medical Language System,UMLS)中已對NCIt的疾病術語和OMIM的疾病術語進行整合的信息。利用兩個來源的術語在UMLS數(shù)據(jù)中是否在同一個概念下進行同義判斷,將NCIt與OMIM的疾病術語進行映射。對于突變-細胞系與基因-細胞系的關系,利用COSMIC數(shù)據(jù)庫作為中間數(shù)據(jù)庫來獲取這些信息。COSMIC是世界上最大最全的研究人類體細胞突變對癌癥影響的數(shù)據(jù)資源[2],其中包含細胞系和原代細胞的基因測序信息和識別的突變信息。本研究重點關注對細胞系與突變和基因的關聯(lián)信息的獲取。獲取突變數(shù)據(jù)與細胞系的關系,先將COSMIC的細胞系與Cellosaurus的細胞系的名稱以及別名進行匹配,再根據(jù)突變在染色體中的位置,以及突變的類型,將COSMIC中的突變信息與ClinVar中的突變信息進行映射,以獲得ClinVar突變與Cellosaurus細胞系之間的關聯(lián)。而COSMIC中存在NCBI基因與細胞系關系,利用之前COSMIC的細胞系與Cellosaurus的細胞系的映射,可獲得NCBI基因與Cellosaurus細胞系之間的關聯(lián)。
4.2.1 數(shù)據(jù)存儲 本研究采用D2RQ工具將融合的數(shù)據(jù)資源轉化為RDF格式。D2RQ是一個開源的平臺,提供以虛擬只讀的RDF數(shù)據(jù)形式訪問關系數(shù)據(jù)庫的功能。通過D2RQ,可以使用SPARQL語言對關系型數(shù)據(jù)進行檢索,通過其自帶Web應用瀏覽數(shù)據(jù),也可以使用工具獲取生成RDF格式的文件。根據(jù)D2RQ工具所需要的輸入文件格式,將基因、突變、細胞系、疾病4種實體類型以及相關屬性存為MySQL數(shù)據(jù)庫中相應的4張表,6種實體間的關系存為數(shù)據(jù)庫中相應的6張表。
4.2.2 映射規(guī)則 D2RQ提供映射語言來描述關系型數(shù)據(jù)庫模式向RDFS轉換的映射規(guī)則。一個D2RQ映射文件本身就是用Turtle語法編寫的RDF文檔。D2RQ提供一些便利的工具,例如generate-mapping工具可以自動生成一個映射文件mapping.ttl。但是自動生成的映射文件只包含一些基礎的規(guī)則設置,更多復雜的映射規(guī)則可以參考D2RQ的映射語言[19]。
本研究首先通過聲明一個數(shù)據(jù)庫為d2rq:Database類來設置數(shù)據(jù)庫的相關屬性,包括JDBC數(shù)據(jù)庫的URL,JDBC驅動程序類名,數(shù)據(jù)庫用戶名密碼等。聲明一個相應的實體為d2rq:ClassMap類來設置類的屬性,包括URI的模式,例如設置gene的URI模式為“gene/@@gene.Gene_ID|urlify@@”,其中gene.Gene_ID為數(shù)據(jù)庫中gene表的Gene_ID列。利用d2rq:PropertyBridge來設置屬性,例如屬性名稱、屬性值。實體之間的語義關系,利用其中的d2rq:refersToClassMap來定義,例如基因-突變之間的語義關系“Gene_has_the_Mutation”,將兩個實體進行鏈接。
4.3.1 實驗結果瀏覽與獲取 本研究根據(jù)基因、突變、細胞系、疾病4種實體類型以及之間的6種語義關系對應的表格,編寫D2RQ映射語言文件mapping.ttl。利用生成的文件,運行d2r-server工具,啟動D2RQ部署的本地服務http://localhost:2020/。通過這個Web應用,可以對數(shù)據(jù)進行瀏覽,也可以利用SPARQL執(zhí)行搜索并設定展示的條目數(shù)量。以AKT3基因為例,數(shù)據(jù)瀏覽結果,見圖3。基因AKT3的信息頁面包含多種信息。其中,該基因相關的突變,用字段“Gene_has_the_mutation”表示;檢測該基因的細胞系樣本,用字段“The_examined_Sample_of_Gene”表示,其值對應的鏈接,可以鏈接到相應的突變和細胞系的信息頁面。其他屬性,例如,基因所在的染色體、基因全名和基因ID等信息也在該頁面中詳細列出。
圖3 AKT3基因信息瀏覽頁面
此外,D2RQ也提供通過命令行進行SPARQL語言搜索的功能。通過dump-rdf命令可以將生成的RDF文件導出生成“TURTLE”、“RDF/XML”、“RDF/XML-ABBREV”、“N3”以及 “N-TRIPLE”等多種RDF語法格式。實驗最終構建的語義網(wǎng)絡,共包含基因60 195個,突變254 030個,細胞系68 406個,疾病7 326個,共構建3元組726 236個。其中,基因與突變之間的3元組254 030個,基因與疾病之間的3元組15 477個,基因與細胞系之間的3元組287 342個,細胞系與突變之間的3元組195個,細胞系與疾病之間的3元組36 377個,突變與疾病之間的3元組132 815個。
4.3.2 實驗結果對比分析 對NCBI Gene,ClinVAR,Cellosaurus,COSMIC等幾個數(shù)據(jù)庫進行分析,對數(shù)據(jù)類型和數(shù)據(jù)格式進行調研,與本研究模型進行對比,發(fā)現(xiàn)本研究構建的語義關系模型,其細胞系相關的數(shù)據(jù)類型覆蓋程度更為全面,方便用戶對細胞系及相關信息進行瀏覽和查詢,而不用跨越多個數(shù)據(jù)庫,緣于已有效地將細胞系相關的數(shù)據(jù)進行整合。每種數(shù)據(jù)類型都采用業(yè)內通用的數(shù)據(jù)庫的名稱和標識,提供良好的互操作性,為細胞系的研究提供幫助。相比于NCBI Gene,本研究構建的語義網(wǎng)絡還整合了突變和細胞系的信息,較ClinVar多細胞系信息,比 Cellosaurus數(shù)據(jù)庫的信息主要多基因和突變的數(shù)據(jù),而在數(shù)據(jù)類型覆蓋層面,COSMIC數(shù)據(jù)庫同樣覆蓋了基因、突變、細胞系和疾病的信息,但同時本語義網(wǎng)絡在疾病數(shù)據(jù)的整合方面提供疾病術語命名和編碼的標準,見表1。當然該語義網(wǎng)絡中的許多數(shù)據(jù)是從其中幾個數(shù)據(jù)庫中提取并整合的,因此整合更多細胞系相關的新數(shù)據(jù)、發(fā)現(xiàn)更多的語義關系也是本語義網(wǎng)絡應該繼續(xù)努力的方向。
表1 本研究模型數(shù)據(jù)類型覆蓋范圍與其他幾個相關數(shù)據(jù)庫對比
注:*即COSMIC沒有提供表型標準名稱以及與其他數(shù)據(jù)庫的映射
本研究通過D2RQ部署的語義網(wǎng)絡的Web應用,目前僅限于內部實驗使用,后期將持續(xù)完善細胞系語義網(wǎng)絡瀏覽平臺,發(fā)布為外網(wǎng)可訪問的形式并提供多種語義網(wǎng)絡獲取方式。
本研究利用基于RDB到RDF映射語言(R2RML)的D2RQ映射工具,對以細胞系數(shù)據(jù)為中心的包含基因、突變與疾病數(shù)據(jù)以及語義關系的數(shù)據(jù)進行建模與整合,分析不同來源生物醫(yī)學數(shù)據(jù)的特性,發(fā)現(xiàn)數(shù)據(jù)融合的有效方法,所構建的語義網(wǎng)絡數(shù)據(jù)類型覆蓋更為全面,可為用戶提供更加便捷的服務。但是仍有許多不足之處有待改進,今后的工作將從以下內容展開:進一步優(yōu)化多來源異構數(shù)據(jù)的融合方法,多方面考慮數(shù)據(jù)的不同特性,利用實體相似計算方法提高數(shù)據(jù)的映射成功率。研究突變對于癌癥等復雜疾病帶來的內部細胞機制的變化,豐富實體之間的語義關系。最終將數(shù)據(jù)來源擴展至文獻、電子病歷等形式,從中挖掘更多的生物醫(yī)學實體之間的語義關系,從而對語義網(wǎng)絡進行擴展,提高語義模型的實用性。