吳萌 康宏宇 徐曉巍 侯麗 李姣
摘要:目的 構(gòu)建一種可溯源的癌癥標(biāo)志知識(shí)本體,支持基因突變、癌癥標(biāo)志和細(xì)胞系等相關(guān)數(shù)據(jù)整合、標(biāo)準(zhǔn)化和關(guān)聯(lián),并基于該本體實(shí)現(xiàn)新知識(shí)發(fā)現(xiàn)。方法 基于“七步法”和現(xiàn)階段本體的構(gòu)建方法,明確癌癥標(biāo)志本體覆蓋范圍、框架結(jié)構(gòu)、可復(fù)用的術(shù)語和新增術(shù)語;以結(jié)直腸癌為例,利用文本挖掘和文本分類技術(shù)對(duì)PubMed文獻(xiàn)中結(jié)直腸癌標(biāo)志相關(guān)知識(shí)進(jìn)行提取,利用癌癥標(biāo)志本體對(duì)提取的知識(shí)進(jìn)行規(guī)范化表達(dá)。結(jié)合癌癥體細(xì)胞突變目錄中已有的癌癥標(biāo)志證據(jù)和進(jìn)一步語義檢索,實(shí)現(xiàn)新知識(shí)的發(fā)現(xiàn)。結(jié)果 最終構(gòu)建癌癥標(biāo)志本體包含類9910個(gè),實(shí)例6138個(gè),實(shí)現(xiàn)2310篇涉及結(jié)直腸癌標(biāo)志文獻(xiàn)摘要和26個(gè)結(jié)直腸癌標(biāo)志相關(guān)證據(jù)的語義表示。與癌癥體細(xì)胞突變目錄數(shù)據(jù)集相比,本研究發(fā)現(xiàn)與結(jié)直腸癌相關(guān)的多個(gè)基因的癌癥標(biāo)志的新證據(jù)。結(jié)論 本研究有助于整合癌癥分子層面的致病機(jī)制,了解基因突變?cè)诎┌Y發(fā)生過程中的具體作用,實(shí)現(xiàn)癌癥標(biāo)志知識(shí)的快速發(fā)現(xiàn)。
關(guān)鍵詞:結(jié)直腸癌;本體;癌癥標(biāo)志
中圖分類號(hào): R735.3;Q756文獻(xiàn)標(biāo)志碼: A文章編號(hào):1000-503X(2023)04-0618-09
DOI:10.3881/j.issn.1000-503X.15386
Development and Application of Ontology of Cancer Hallmarks
WU Meng,KANG Hongyu,XU Xiaowei,HOU Li,LI Jiao
Center of Medical Information Innovation Research,Institute of Medical Information/Library,
CAMS and PUMC,Beijing 100020,China
Corresponding author:HOU Li Tel:010-52328750,E-mail:hou.li@imicams.ac.cn
ABSTRACT:Objective To develop a traceable cancer hallmark ontology with terminology including gene mutation,cancer hallmark,and cell line for knowledge integration,standardization,correlation,and discovery.Methods The Ontology Development 101 and the current ontology development methods were employed to determine the content coverage,structural layers,reusable terms,and new terms of the cancer hallmark ontology.Taking colorectal cancer as a study case,we extracted the knowledge related with colorectal cancer hallmarks using text mining and text classification technology from PubMed,and then formalized the extracted knowledge into the cancer hallmark ontology.Moreover,we made use of existing cancer hallmark evidence in Catalogue of Somatic Mutations in Cancer and further semantic retrieval to discover new knowledge.Results The established cancer hallmark ontology comprised 9910 classes and 6138 instances,which realized the semantic representation of 2310 article abstracts about colorectal cancer and 26 pieces of evidence about genes and their cancer hallmarks.Compared with the Catalogue of Somatic Mutations in Cancer,new evidence for more genes associated with colorectal cancer hallmarks was found based on cancer hallmark ontology.Conclusion This study is of great significance to the research on the cancer pathogenesis at the molecular level,the revealing of specific roles of genes and mutations in the occurrence of cancer,and the rapid knowledge discovery of cancer hallmarks.
Key words:colorectal cancer;ontology;hallmarks of cancer
Acta Acad Med Sin,2023,45(4):618-626
隨著癌癥靶向治療技術(shù)的發(fā)展和精準(zhǔn)醫(yī)學(xué)概念的提出,越來越多的研究關(guān)注于癌癥發(fā)生的內(nèi)部分子機(jī)制,以及其對(duì)細(xì)胞表型特征變化的影響。其中,癌癥標(biāo)志(hallmarks of cancer,HOC)[1]的提出為癌癥發(fā)生過程中細(xì)胞特征的變化提供了重要標(biāo)識(shí)、分類體系和相關(guān)詞匯[2-3]。從基本的原理層面捕捉癌癥發(fā)生的復(fù)雜內(nèi)因,為人們理解和探索癌癥的表型與機(jī)制提供了清晰易懂的邏輯框架[4]。2011年版的癌癥標(biāo)志包含10大類,分別是持續(xù)的增殖信號(hào)、逃避生長(zhǎng)抑制、抵抗細(xì)胞死亡、無限復(fù)制、血管新生、侵襲轉(zhuǎn)移、基因組不穩(wěn)定和突變、能量代謝異常、免疫逃逸、促瘤炎癥[5]。有相關(guān)研究已將癌癥標(biāo)志作為癌癥研究的重要部分。例如癌癥體細(xì)胞突變目錄(Catalogue of Somatic Mutations in Cancer,COSMIC)推出的癌癥基因普查項(xiàng)目[6]利用人工的方式從文獻(xiàn)中進(jìn)行HOC相關(guān)知識(shí)的審編,對(duì)癌癥相關(guān)基因的功能進(jìn)行描述。LnCeCell[7]對(duì)競(jìng)爭(zhēng)性內(nèi)源RNA相關(guān)的HOC進(jìn)行標(biāo)識(shí)。Baker等[8]構(gòu)建了HOC語料庫(kù),將HOC的10大標(biāo)志擴(kuò)展為37類,借助文本分類技術(shù)對(duì)1852篇PubMed文獻(xiàn)摘要的句子進(jìn)行分類。并在后續(xù)研究中,提供了HOC自動(dòng)分類工具CHAT[2],以及基于文獻(xiàn)的HOC瀏覽工具LION LBD[9],通過實(shí)體識(shí)別工具PubTator[10]識(shí)別基因和疾病等生物醫(yī)學(xué)實(shí)體,展示HOC與基因和疾病的共現(xiàn)關(guān)系。此外,隨著預(yù)訓(xùn)練模型在自然語言處理領(lǐng)域的發(fā)展,一些預(yù)訓(xùn)練模型在HOC語料庫(kù)已達(dá)到較好的分類效果,如BioLinkBERT[11]、NCBI_BERT[12]、PubMedBERT[13]等。這些方法為HOC的自動(dòng)審編提供幫助?,F(xiàn)階段還缺乏一種系統(tǒng)的、結(jié)構(gòu)化的、機(jī)器可理解的知識(shí)表示框架對(duì)HOC知識(shí)進(jìn)行梳理,對(duì)HOC與其他生物醫(yī)學(xué)實(shí)體之間具體關(guān)聯(lián)進(jìn)行描述。在生物醫(yī)學(xué)領(lǐng)域,本體已經(jīng)成為多源數(shù)據(jù)融合、語義表示、標(biāo)準(zhǔn)化和鏈接的重要技術(shù),廣泛用于表示領(lǐng)域數(shù)據(jù)之間的語義關(guān)聯(lián)[14],為文本挖掘和知識(shí)推理提供助力。因此,本研究以結(jié)直腸癌為例,提出一種可溯源的HOC本體語義表示框架,實(shí)現(xiàn)基因突變、HOC和細(xì)胞系等相關(guān)數(shù)據(jù)整合、標(biāo)準(zhǔn)化和關(guān)聯(lián),并提供相關(guān)文獻(xiàn)來源,將HOC本體與文本挖掘技術(shù)結(jié)合,提供更全面更詳細(xì)的HOC知識(shí),實(shí)現(xiàn)進(jìn)一步的數(shù)據(jù)發(fā)現(xiàn)。
資料和方法
本體構(gòu)建 基于“七步法”[15]和現(xiàn)階段本體的構(gòu)建方法[16-17],設(shè)計(jì)HOC本體構(gòu)建方法和知識(shí)發(fā)現(xiàn)實(shí)驗(yàn)流程(圖1)。
確定本體范圍:本體是一個(gè)特定領(lǐng)域的模型,為特殊的目的而構(gòu)建。HOC本體構(gòu)建的目的是為基因突變?cè)诎┌Y發(fā)生過程中的具體作用提供統(tǒng)一的結(jié)構(gòu)化表示和整合方案。在HOC相關(guān)的科學(xué)文獻(xiàn)表述中,研究人員針對(duì)癌癥病患的組織樣本或相關(guān)細(xì)胞系做全面的組學(xué)數(shù)據(jù)分析和癌細(xì)胞特征檢測(cè)。探明例如在哪種細(xì)胞系中,發(fā)生了哪些突變從而引起了哪些HOC的變化。其后,通過專家咨詢的方式明確HOC本體需要回答的勝任力問題[18]:(1)在某種癌癥中,哪些基因參與了某種癌癥特征的發(fā)生?(2)在某個(gè)癌癥中,某個(gè)基因參與了哪些癌癥特征的發(fā)生?(3)哪些文獻(xiàn)可能表明,某個(gè)突變參與了某個(gè)癌癥特征的發(fā)生?(4)哪些證據(jù)表明,某個(gè)基因與某種癌癥的發(fā)生有關(guān)?(5)哪些證據(jù)表明,某個(gè)細(xì)胞系中發(fā)生了某個(gè)癌癥特征的改變?(6)在某個(gè)癌細(xì)胞系中,哪些基因可能參與了癌癥特征的發(fā)生?
依據(jù)HOC本體的構(gòu)建目標(biāo)、應(yīng)用場(chǎng)景及勝任力問題,本研究最終確定HOC本體的范圍涵蓋癌癥、細(xì)胞系、基因、突變、HOC、文獻(xiàn)、證據(jù)等多種類型生物醫(yī)學(xué)實(shí)體,并定義這些實(shí)體之間的語義關(guān)系(圖2)。利用中間實(shí)體類型證據(jù)和引文,對(duì)多種生物醫(yī)學(xué)實(shí)體進(jìn)行鏈接。引文與HOC和各種生物醫(yī)學(xué)實(shí)體之間的關(guān)系為共現(xiàn)關(guān)系。證據(jù)表示已確認(rèn)的證據(jù)信息,其與HOC和各種生物醫(yī)學(xué)實(shí)體之間的關(guān)系為確定的相關(guān)關(guān)系。此外,一些實(shí)體類型可以復(fù)用已有的本體,在圖2中用曲線表示出子類的關(guān)系。
復(fù)用本體類和公理:隨著語義網(wǎng)技術(shù)的發(fā)展,在生物醫(yī)學(xué)領(lǐng)域,已經(jīng)存在一些被研究人員充分認(rèn)可的本體,復(fù)用或引用已有的本體是生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建的常用方法。在HOC本體的構(gòu)建過程中,選擇OntoFox[19]工具復(fù)用相關(guān)本體的術(shù)語、屬性和關(guān)系。OntoFox是密西根大學(xué)何勇群團(tuán)隊(duì)研發(fā)的一款在線的本體術(shù)語提取工具,可以便捷地對(duì)開放生物醫(yī)學(xué)本體倉(cāng)儲(chǔ)中的本體進(jìn)行獲取和復(fù)用。
Chen等[3]發(fā)現(xiàn)基因本體(gene ontology,GO)[20]、京都基因和基因組百科全書[21]和分子特征數(shù)據(jù)庫(kù)[22]等數(shù)據(jù)庫(kù)和本體對(duì)HOC術(shù)語進(jìn)行了標(biāo)準(zhǔn)化描述。參考Chen等[3]的研究,HOC相關(guān)術(shù)語主要復(fù)用自GO,盡可能選擇明確表示正負(fù)調(diào)控的GO術(shù)語與HOC建立映射(表1)?;蛲蛔冃g(shù)語復(fù)用自序列本體(sequence ontology,SO)中的gene(SO_0000704)和sequence_alteration(SO_0001059)。疾病術(shù)語復(fù)用自疾病本體(disease ontology,DO)中的cancer(DOID_162)。細(xì)胞系術(shù)語復(fù)用自細(xì)胞系本體(cell line ontology,CLO)的immortal cell line cell(CLO_0000019)。同時(shí)復(fù)用其上下位術(shù)語、相關(guān)術(shù)語、術(shù)語之間的語義關(guān)系(對(duì)象屬性)和術(shù)語屬性(注釋屬性)(表2)。
本體對(duì)齊:為保障復(fù)用不同本體時(shí)術(shù)語的一致性,本研究選取ROBOT(V1.8.3)[23]工具將這4個(gè)本體中抽取的術(shù)語進(jìn)行融合與對(duì)齊。ROBOT的Merge工具可以對(duì)多個(gè)本體進(jìn)行融合,并對(duì)資源標(biāo)識(shí)符相同的術(shù)語進(jìn)行對(duì)齊,包括屬性和關(guān)系。完成融合后,利用ROBOT的Report工具對(duì)融合結(jié)果進(jìn)行進(jìn)一步檢驗(yàn),主要包括:(1)術(shù)語缺少名稱;(2)1個(gè)術(shù)語有多個(gè)不同的名稱、多個(gè)不同的定義;(3)不同的類有相同的名稱、相同的定義等不一致錯(cuò)誤;(4)關(guān)系的名稱相同但含義和用法不同。其后,借助protégé工具和人工方式,對(duì)檢驗(yàn)發(fā)現(xiàn)的不一致問題進(jìn)行修正。人工方式通過兩名相關(guān)領(lǐng)域?qū)<疫M(jìn)行輪流修正校對(duì),保證本體對(duì)齊的準(zhǔn)確性和正確性。
構(gòu)建關(guān)系和屬性:在本體復(fù)用和融合的基礎(chǔ)上,新構(gòu)建癌癥標(biāo)志和證據(jù)等類,包含10個(gè)癌癥標(biāo)志子類,對(duì)其屬性和相關(guān)關(guān)系進(jìn)行豐富,新增語義關(guān)系相關(guān)癌癥標(biāo)志、有引文等12個(gè),標(biāo)題、年份等屬性5個(gè),以上文中確定本體范圍部分的語義模型設(shè)計(jì)為基礎(chǔ),利用protégé本體編輯軟件構(gòu)建新的類和語義關(guān)系。
填充實(shí)例:結(jié)直腸癌作為目前世界上新發(fā)癌癥發(fā)病率第3、死亡率第2的惡性腫瘤,其防治形勢(shì)十分嚴(yán)峻[24]。本研究以結(jié)直腸癌為實(shí)例,對(duì)構(gòu)建的HOC本體進(jìn)行填充和驗(yàn)證。首先,在生物醫(yī)學(xué)文獻(xiàn)網(wǎng)站PubMed上搜索結(jié)直腸癌和細(xì)胞相關(guān)的文獻(xiàn),檢索語句為“(colorectal cancer[Title/Abstract]) AND (cell[Title/Abstract])”,檢索到1975年1月1日至2022年9月2日發(fā)表的相關(guān)文獻(xiàn)共29 986篇。導(dǎo)出文獻(xiàn)的PMID,利用PubTator[10]工具的API,獲取每篇文獻(xiàn)的實(shí)體識(shí)別結(jié)果,包括基因、疾病、化學(xué)藥品、突變、物種和細(xì)胞系。
利用HOC語料庫(kù)[8]和BioLinkBERT[11]模型,對(duì)每篇PubMed文獻(xiàn)的摘要進(jìn)行HOC分類。BioLinkBERT模型是目前已知在HOC數(shù)據(jù)集上分類效果最佳的預(yù)訓(xùn)練模型,其base和large規(guī)模在HOC數(shù)據(jù)集的Micro F1分別達(dá)到84.35%和84.87%。本研究利用其在GitHub網(wǎng)站上共享的預(yù)訓(xùn)練模型和微調(diào)代碼[25],在HOC數(shù)據(jù)集上對(duì)base規(guī)模的BioLinkBERT模型進(jìn)行微調(diào),遵循與其原文相同的微調(diào)方法和評(píng)測(cè)指標(biāo)[11],最終Micro F1達(dá)到84.31%。利用微調(diào)后的模型對(duì)29 986篇結(jié)直腸癌相關(guān)的摘要進(jìn)行分類預(yù)測(cè)。通過模型預(yù)測(cè),分類結(jié)果中包含10大類HOC的摘要共23 081篇。根據(jù)本研究需求,利用PubTator識(shí)別結(jié)果篩選出包含基因和細(xì)胞系,但不包含化學(xué)藥品的摘要共2355篇,將其作為引文的實(shí)例填充進(jìn)HOC本體中,建立引文與HOC和各種生物醫(yī)學(xué)實(shí)體的共現(xiàn)關(guān)系。此外,利用COSMIC Cancer Gene Census[6]中與結(jié)直腸癌相關(guān)的數(shù)據(jù)對(duì)證據(jù)的實(shí)例進(jìn)行構(gòu)建。其提供了多種癌癥相關(guān)的基因和HOC信息,其中與結(jié)直腸癌相關(guān)的基因66個(gè),有HOC信息的基因12個(gè),相關(guān)文獻(xiàn)25篇,證據(jù)26個(gè)(其中1篇文獻(xiàn)有2個(gè)證據(jù))。
基于HOC本體的知識(shí)發(fā)現(xiàn) 基于已構(gòu)建的HOC本體,通過SPARQL多跳查詢,利用已知的HOC證據(jù)可以實(shí)現(xiàn)新證據(jù)和新基因的發(fā)現(xiàn)(圖3)。圖3上半部分表示利用COSMIC中已有結(jié)直腸癌HOC的基因,發(fā)現(xiàn)其新的HOC;下半部分表示利用COSMIC中已有結(jié)直腸癌相關(guān)的基因和HOC,發(fā)現(xiàn)與其共同出現(xiàn)在文獻(xiàn)標(biāo)題中的新基因。由于實(shí)例數(shù)據(jù)量較大,選擇Python的owlready2包,實(shí)現(xiàn)實(shí)例的填充和SPARQL查詢。
新證據(jù)發(fā)現(xiàn):COSMIC對(duì)癌癥相關(guān)的基因和HOC進(jìn)行了人工審編,具有較高的準(zhǔn)確性。以AKT1為例,在COSMIC中,其HOC包括抵抗細(xì)胞死亡(來源文獻(xiàn)PMID:28339062)及侵襲轉(zhuǎn)移(來源文獻(xiàn)PMID:24297510)。在HOC本體中,對(duì)文獻(xiàn)標(biāo)題包含AKT1的文獻(xiàn)和HOC進(jìn)行SPARQL查詢,并對(duì)只包含AKT1的文獻(xiàn)進(jìn)行篩選,其中AKT1在HOC本體中ID為gene_8(圖4)。
新基因發(fā)現(xiàn):在結(jié)直腸癌中,許多基因與經(jīng)典的通路和基因相互調(diào)控,從而引發(fā)HOC的發(fā)生,因此,選擇在文獻(xiàn)標(biāo)題中出現(xiàn)次數(shù)最多的幾個(gè)基因,并找到在文獻(xiàn)標(biāo)題中與這些基因共同出現(xiàn)的其他基因,發(fā)現(xiàn)新的癌癥靶點(diǎn)及相應(yīng)證據(jù),對(duì)基因在文獻(xiàn)標(biāo)題中的出現(xiàn)情況進(jìn)行SPARQL查詢(圖5),對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)(圖6)。
發(fā)現(xiàn)與結(jié)直腸癌相關(guān)并在文獻(xiàn)標(biāo)題中出現(xiàn)的基因共1435個(gè),其中,CTNNB1、AKT1、CD8A為在文獻(xiàn)標(biāo)題中出現(xiàn)數(shù)量最多的3個(gè)基因。結(jié)合COSMIC中這些基因的結(jié)直腸癌標(biāo)志審編結(jié)果數(shù)量,最終選擇CTNNB1(審編HOC證據(jù)為2個(gè))和KRAS(審編HOC證據(jù)為4個(gè))2個(gè)基因,利用SPARQL查詢找到與其共同出現(xiàn)在標(biāo)題中的其他基因,其中CTNNB1在HOC本體的ID為gene_0(圖7)。根據(jù)COSMIC數(shù)據(jù)集已知CTNNB1在結(jié)直腸癌中的HOC為基因組不穩(wěn)定和突變、免疫逃逸。KRAS在結(jié)直腸癌中的HOC為無限復(fù)制、侵襲轉(zhuǎn)移和能量代謝異常。
結(jié)果
本體構(gòu)建結(jié)果 最終構(gòu)建HOC本體包含類9910個(gè),實(shí)例6138個(gè),對(duì)象屬性45個(gè),注釋屬性36個(gè)。其中引文的實(shí)例為2310個(gè),證據(jù)的實(shí)例為26個(gè),序列變異的實(shí)例為116個(gè),基因的實(shí)例為2913個(gè),疾病的實(shí)例為380個(gè),細(xì)胞系的實(shí)例為345個(gè)。例如,利用protégé軟件對(duì)文獻(xiàn)PMID24297510和基于該文獻(xiàn)的證據(jù)進(jìn)行語義表示(圖8)。圖8左半部分表示引文PMID24297510,以及在該引文中出現(xiàn)的HIF1A等基因、出現(xiàn)在標(biāo)題的AKT1基因、HCT116等細(xì)胞系、結(jié)直腸癌等疾病和癌癥標(biāo)志侵襲轉(zhuǎn)移;右半部分表示來源于該引文的證據(jù),即在COSMIC中確定的基因、HOC、疾病和細(xì)胞系等之間的關(guān)聯(lián)。
知識(shí)發(fā)現(xiàn)
新證據(jù)發(fā)現(xiàn):通過SPARQL檢索后,HOC本體中文獻(xiàn)標(biāo)題包含AKT1的文獻(xiàn)和HOC,為持續(xù)的增殖信號(hào)(PMID:18570457、31164794、35860583)、侵襲轉(zhuǎn)移(PMID:24297510、18570457、31164794)。其中,在文獻(xiàn)PMID24297510中AKT1基因的HOC為侵襲轉(zhuǎn)移,與COSMIC中數(shù)據(jù)相符。通過人工審核后,新發(fā)現(xiàn)的證據(jù)包括:在文獻(xiàn)PMID18570457、PMID31164794中AKT1的HOC為侵襲轉(zhuǎn)移。而持續(xù)的增殖信號(hào)相關(guān)的文獻(xiàn)經(jīng)過審核后,未發(fā)現(xiàn)AKT1與其描述相關(guān)。
新基因發(fā)現(xiàn):利用SPARQL查詢找到與CTNNB1和KRAS共同出現(xiàn)在標(biāo)題中的其他基因,并對(duì)結(jié)果進(jìn)行人工審核。最終發(fā)現(xiàn)13個(gè)基因明確與相應(yīng)的HOC相關(guān),可以作為結(jié)直腸癌標(biāo)志的新證據(jù),8個(gè)基因在相關(guān)文獻(xiàn)中未明確表明與相關(guān)HOC有關(guān)(表3)。此外,通過審核PVR(PMID:32727790),發(fā)現(xiàn)KRAS基因新的HOC及證據(jù)為免疫逃逸(PMID:32727790)。而基于KRAS的另外兩個(gè)HOC:無限復(fù)制和能量代謝異常,未發(fā)現(xiàn)新的相關(guān)基因。
討論
本研究提出一種可溯源的HOC本體語義表示框架,有助于整合與分析癌癥分子層面的致病機(jī)制,了解基因突變?cè)诎┌Y發(fā)生過程中的具體作用,助力癌癥靶向治療的研究。本體評(píng)估主要有基于金標(biāo)準(zhǔn)的評(píng)估、基于應(yīng)用的評(píng)估、數(shù)據(jù)驅(qū)動(dòng)的評(píng)估以及人工評(píng)估4種方式[26]。HOC本體的構(gòu)建過程充分借鑒“七步法”的方法體系,通過復(fù)用盡可能滿足專業(yè)性和行業(yè)內(nèi)認(rèn)可的標(biāo)準(zhǔn),并通過一致性檢驗(yàn)及專家進(jìn)一步審核,保證本體的一致性、準(zhǔn)確性和正確性。并在后續(xù)知識(shí)表達(dá)和知識(shí)發(fā)現(xiàn)的具體應(yīng)用中,驗(yàn)證HOC本體的應(yīng)用能力。在HOC術(shù)語構(gòu)建過程中,通過明確HOC術(shù)語與GO術(shù)語的映射關(guān)系對(duì)HOC術(shù)語進(jìn)行擴(kuò)展,有助于進(jìn)一步理解HOC的內(nèi)涵。此外,HOC本體為人和機(jī)器都提供了較強(qiáng)的可解釋性,利用中間節(jié)點(diǎn)引文和證據(jù)有效表達(dá)了摘要和句子中多種實(shí)體共現(xiàn)的情況。與已有HOC相關(guān)工作相比,HOC本體的構(gòu)建過程更節(jié)省人力,利用生物醫(yī)學(xué)實(shí)體識(shí)別工具和文本分類技術(shù)實(shí)現(xiàn)癌癥標(biāo)志知識(shí)的自動(dòng)提取,并通過HOC本體為文獻(xiàn)中的HOC知識(shí)提供結(jié)構(gòu)化的語義表示,其可溯源的框架設(shè)計(jì)為HOC證據(jù)提供了相應(yīng)的文獻(xiàn)來源?;谝褬?gòu)建的HOC本體,本研究提出了一種利用SPARQL檢索和已有HOC證據(jù)快速發(fā)現(xiàn)新HOC證據(jù)的方法,為臨床和科研工作提供便捷的服務(wù)。對(duì)知識(shí)發(fā)現(xiàn)結(jié)果進(jìn)行分析顯示,通過初步篩選的幾個(gè)結(jié)直腸癌基因進(jìn)行檢索,與COSMIC數(shù)據(jù)集人工審編結(jié)果相比,發(fā)現(xiàn)新的HOC相關(guān)文獻(xiàn)和基因,證實(shí)HOC本體在知識(shí)發(fā)現(xiàn)方面的有效性?;蚝突蛑g存在相互調(diào)節(jié)關(guān)系,基因可能不會(huì)直接作用于改變HOC。因此,選擇與已知HOC相關(guān)的基因在標(biāo)題中共現(xiàn)的其他基因,有助于發(fā)現(xiàn)新的基因與HOC。
本研究目前只采用了機(jī)器處理的方式,未對(duì)處理結(jié)果進(jìn)行大批量人工審核,應(yīng)考慮PubTator實(shí)體識(shí)別工具和BioLinkBERT分類模型存在的誤差。后續(xù)將研究人工和機(jī)器結(jié)合的方式對(duì)HOC證據(jù)進(jìn)行進(jìn)一步審核和擴(kuò)充,借鑒證據(jù)本體對(duì)證據(jù)相關(guān)的術(shù)語進(jìn)行標(biāo)準(zhǔn)化,提供更高質(zhì)量的證據(jù)服務(wù)。此外,充分融合生物醫(yī)學(xué)知識(shí)庫(kù)中已有的關(guān)聯(lián)關(guān)系如基因-突變、基因-疾病、疾病-細(xì)胞系等,為HOC知識(shí)發(fā)現(xiàn)提供更多的知識(shí)來源,也是本研究后續(xù)探索的研究方向。在證據(jù)來源方面,本研究只納入PubMed文獻(xiàn)中的HOC信息,未納入其他HOC信息來源如臨床試驗(yàn)等。
參 考 文 獻(xiàn)
[1]Hanahan D,Weinberg RA.The hallmarks of cancer[J].Cell,2000,100(1):57-70.DOI:10.1016/S0092-8674(00)81683-9.
[2]Baker S,Ali I,Silins I,et al.Cancer Hallmarks Analytics Tool (CHAT):a text mining approach to organize and evaluate scientific literature on cancer[J].Bioinformatics,2017,33(24):3973-3981.DOI:10.1093/bioinformatics/btx454.
[3]Chen Y,Verbeek FJ,Wolstencroft K.Establishing a consensus for the hallmarks of cancer based on gene ontology and pathway annotations[J].BMC Bioinformatics,2021,22(1):178.DOI:10.1186/s12859-021-04105-8.
[4]陶青,石毓君.解讀癌癥研究的里程碑:Hallmarks of Cancer[J].中國(guó)普外基礎(chǔ)與臨床雜志,2022,29(4):431-433.DOI:10.7507/1007-9424.202202033.
[5]Hanahan D,Weinberg RA.Hallmarks of cancer:the next generation[J].Cell,2011,144(5):646-674.DOI:10.1016/j.cell.2011.02.013.
[6]Sondka Z,Bamford S,Cole CG,et al.The COSMIC cancer gene census:describing genetic dysfunction across all human cancers[J].Nat Rev Cancer,2018,18(11):696-705.DOI:10.1038/s41568-018-0060-1.
[7]Wang P,Guo Q,Hao Y,et al.LnCeCell:a comprehensive database of predicted lncRNA-associated ceRNA networks at single-cell resolution[J].Nucleic Acids Res,2021,49(D1):D125-D133.DOI:10.1093/nar/gkaa1017.
[8]Baker S,Silins I,Guo Y,et al.Automatic semantic classification of scientific literature according to the hallmarks of cancer[J].Bioinformatics,2016,32(3):432-440.DOI:10.1093/bioinformatics/btv585.
[9]Pyysalo S,Baker S,Ali I,et al.LION LBD:a literature-based discovery system for cancer biology[J].Bioinformatics,2019,35(9):1553-1561.DOI:10.1093/bioinformatics/bty845.
[10]Wei CH,Allot A,Leaman R,et al.PubTator central:automated concept annotation for biomedical full text articles[J].Nucleic Acids Res,2019,47(W1):W587-W593.DOI:10.1093/nar/gkz389.
[11]Michihiro Y,Jure L,Percy L.LinkBERT pretraining language models with document links[EB/OL].[2022-11-11].https://arxiv.org/abs/2203.15827.
[12]Yifan P,Shankai Y,Zhiyong L.Transfer learning in biomedical natural language processing:an evaluation of BERT and ELMo on ten benchmarking datasets[EB/OL].[2022-11-11].https://arxiv.org/abs/1906.05474.
[13]Yu G,Robert T,Hao C,et al.Domain-specific language model pretraining for biomedical natural language processing[EB/OL].[2022-11-11].https://arxiv.org/abs/2007.15779.
[14]Haendel MA,Chute CG,Robinson PN.Classification,ontology,and precision medicine[J].N Engl J Med,2018,379(15):1452-1462.DOI:10.1056/NEJMra1615014.
[15]Natalya FN,Deborah LM.Ontology development 101:a guide to creating your first ontology[EB/OL].[2022-11-11].http://www.ksl.stanford.edu/people/dlm/papers/ontology-tutorial-noy-mcguinness-abstract.html.
[16]Lee JH,Park HA,Song TM.A determinants-of-fertility ontology for detecting future signals of fertility issues from social media data:development of an ontology[J].J Med Internet Res,2021,23(6):e25028.DOI:10.2196/25028.
[17]Reyes-Pe?a C,Tovar M,Bravo M,et al.An ontology network for diabetes mellitus in Mexico[J].J Biomed Semantics,2021,12(1):19.DOI:10.1186/s13326-021-00252-2.
[18]Bravo M,Hoyos Reyes LF,Reyes-Ortiz JA.Methodology for ontology design and construction[J].Contaduría y Administración,2019,64(4):134.DOI:10.22201/fca.24488410e.2020.2368.
[19]Xiang Z,Courtot M,Brinkman RR,et al.OntoFox:web-based support for ontology reuse[J].BMC Res Notes,2010,3:175.DOI:10.1186/1756-0500-3-175.
[20]The Gene Ontology Consortium.The gene ontology resource:20 years and still GOing strong[J].Nucleic Acids Res,2019,47(D1):D330-D338.DOI:10.1093/nar/gky1055.
[21]Kanehisa M,F(xiàn)urumichi M,Sato Y,et al.KEGG:integrating viruses and cellular organisms[J].Nucleic Acids Res,2021,49(D1):D545-D551.DOI:10.1093/nar/gkaa970.
[22]Liberzon A,Birger C,Thorvaldsdóttir H,et al.The Molecular Signatures Database (MSigDB) hallmark gene set collection[J].Cell Syst,2015,1(6):417-425.DOI:10.1016/j.cels.2015.12.004.
[23]Jackson RC,Balhoff JP,Douglass E,et al.ROBOT:a tool for automating ontology workflows[J].BMC Bioinformatics,2019,20(1):407.DOI:10.1186/s12859-019-3002-3.
[24]Sung H,F(xiàn)erlay J,Siegel RL,et al.Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA Cancer J Clin,2021,71(3):209-249.DOI:10.3322/caac.21660.
[25]Michihiro Y,Jure L,Percy L.LinkBERT:a knowledgeable language model pretrained with document links[EB/OL].[2022-11-11].https://github.com/michiyasunaga/LinkBERT.
[26]Brank J,Grobelnik M,Mladenic′ D.A survey of ontology evaluation techniques[EB/OL].[2022-11-11].https://www.researchgate.net/publication/228857266_A_survey_of_ontology_evaluation_techniques.
(收稿日期:2022-11-17)