袁煒,耿輝,王馨笛,蒿花,王亞軍,陳新歡,馬茂
KEGG數據庫是日本京都大學生物信息學中心的Kanehisa實驗室于1995年建立的生物信息綜合數據庫[1]。該數據庫由4個類別共計17個子數據庫,全面集成了生物細胞過程、遺傳信息、人類疾病等數據,并通過數據的相關信息開發(fā)可視化的網絡預測工具,嘗試用計算機解釋蛋白質交互網絡在各種細胞活動中的作用,并提供相應的基因和蛋白質的相關信息、化合物及其反應類別的信息[2]。
基因芯片技術的出現使現代生命科學研究發(fā)生了革命性變化,科研人員從掌握個體基因發(fā)展到研究基因組及互作網絡的功能,運用計算機從宏觀角度解決微觀世界的作用機制成為現代分子生物學的常規(guī)手段,刁興華等[3]利用KEGG數據庫篩選與多囊卵巢綜合征(PCOS)相關的關鍵miRNA和mRNA,發(fā)現C型凝集素受體信號傳導途徑,類固醇生物合成和半乳糖代謝顯著富集,該結論可能有助于為PCOS提供新的發(fā)病機理及診斷治療方法。學者Amanda等[4]在一項關于飲食策略改變腸道微生物群幫助肥胖者進行體重管理的研究中,應用KEGG數據庫進行代謝組學研究,分析糞便細菌的差異及預測功能分布。彭陳等[5]將篩選后的差異基因在KEGG數據庫的信號通路中富集,推測出Sox11和lncRNA Slc6a19os是神經性疼痛的發(fā)病及疾病進展過程中的關鍵基因。李浩文等[6]為研究冠狀動脈組織中脂質代謝產物改變如何影響進程中表型變化,利用KEGG數據庫對動脈粥樣硬化不同階段脂質代謝產物進行富集分析,獲得了特定疾病脂質特征的詳細描述。潘曉勇等[7]提出一種基于KEGG數據庫的功能及網絡嵌入方法來預測蛋白質的亞細胞定位。王兵等[8]為研究非編碼RNA(ncRNAs)在重癥急性胰腺炎(SAP)發(fā)生及細胞過程中的作用,將差異表達的基因通過KEGG數據庫的富集分析,尋找SAP的發(fā)病機理及新的治療靶點。辛雯等[9]系統(tǒng)地分析了RNA結合蛋白(RBPs)在胰腺腺癌(PAAD)中的表達,通過KEGG數據庫的富集分析,構建了與RBP相關的PAAD預后風險模。
KEGG數據庫1995年由Kanehisa實驗室建立于日本京都大學生物信息學中心,主要目標是通過基因組信息實現包括細胞、生物和生態(tài)系統(tǒng)在內的生物系統(tǒng)的信息化重建,將來源于已發(fā)表文獻中的實驗數據以分子相互作用和反應網絡用可視化的形式展現出來,嘗試將特定生物種群中觀察到的實驗證據推廣到另一生物種群中。KEGG的四個類別分別是“Systems information”KEGG系統(tǒng)信息、“Genomic information”基因組信息、“Chemical information”化學信息、“Health information”健康信息[10],研究者通過這四個類別板塊獲得完整的基因組序列后,采用網站提供的信息技術重建生物系統(tǒng)并推斷其功能,預測目標基因及其產物如何在通路中發(fā)揮作用,進而研究其在疾病的發(fā)生發(fā)展中的影響[11]。
KEGG數據庫主頁(https://www.kegg.jp/kegg/)點擊“Current statistics”查詢子數據庫信息,結果共有17個子數據庫包括:“KEGG PATHWAY”醫(yī)學信號通路、“KEGG BRITE”整合多種類型關系、“KEGG MODULE”功能單元模塊、“KEGG ORTHOLOGY”直系同源系統(tǒng)、“KEGG GENOME”基因組數據庫、“KEGG GENES”基因數據庫、“KEGG SSDB”序列相似性數據庫、“KEGG COMPOUND”化合物數據庫、“KEGG GLYCAN”多聚糖查詢數據庫、“KEGG REACTION”生化反應數據庫、“KEGG REACTION”生化反應類別數據庫、“KEGG ENZYME”酶數據庫、“KEGG NETWORK”疾病相關網絡數據庫、“KEGG VARIANT”基因突變數據庫、“KEGG DISEASE”疾病數據庫、“KEGG DRUG”藥物數據庫、“KEGG ENVIRON”與健康相關信息數據庫、“KEGG MEDICUS”日本藥物查詢數據庫,如圖1所示。KEGG數據庫為研究者提供目標基因的信號通路,與其相關的同源系統(tǒng),所在基因組信息,與其序列相似的基因信息,產生的化學反應,相關的疾病等信息,幫助其一站式全面掌握目標基因的綜合信息。
圖1 KEGG數據庫主頁面
2.1 Systems information信息系統(tǒng)板塊子數據庫應用KEGG數據庫的“Systems information”信息系統(tǒng)板塊包括“KEGG PATHWAY”醫(yī)學信號通路、“KEGG BRITE”整合多種類型關系、“KEGG MODULE”功能單元模塊三個子數據庫。
點擊“KEGG PATHWAY”按鈕跳轉至信號通路子數據庫,在“Select prefix”下方填寫has(homo sapiens)人類來源,其他物種也可以點擊“Organism”按鈕進行查詢,在“Enter keywords”中輸入目標基因,點擊“GO”進行檢索,檢索頁面如圖2所示。
圖2 KEGG PATHWAY子數據庫示意圖
檢索結果包含“Entry”入口信息、“Thumbnail Image”縮略圖、“Name”通路名稱、“Description”通路描述、“Object”化合物信息、“Legend”通路說明?!癊ntry”列表下面會顯示以“hsa”為前綴加上數字組成的標識符,表示KEGG數據庫的特定數據對象,不同的子類有不同的前綴,點擊該標識符,會跳轉到新頁面顯示該信號通路的詳細信息,包括網絡、相關對象、相關藥物、相關基因、相關文獻、相關通路等信息,如圖3所示。
圖3 KEGG PATHWAY子頁面示意圖
“KEGG BRITE”整合多種類型關系,進行目標數據的層次分類,依類別展開生物對象的功能,使用“HTML tables”形式展示層次結構文本文件,層次關系包含五種,分別為:基因和蛋白質、化合物與反應、藥品、疾病、生物和細胞。
“KEGG MODULE”功能單元模塊以M編號標識的KEGG模塊和以RM編號標識的KEGG反應模塊組成,KEGG模塊進一步分為“pathway modules”通路模塊和“signature modules”簽名模塊,通路模塊展示代謝途徑中基因集包括分子復合物的功能單元,簽名模塊展示表型特征的基因組功能單元,反應模塊展示代謝途徑中連續(xù)反應步驟的功能單元。
2.2 Genomic information信息板塊子數據庫應用KEGG數據庫的“Genomic information”信息系統(tǒng)板塊包括“KEGG ORTHOLOGY”直系同源系統(tǒng)、“KEGG GENOME”基因組數據庫、“KEGG GENES”基因數據庫、“KEGG SSDB”序列相似性數據庫四個子數據庫。
“KEGG ORTHOLOGY”直系同源數據庫簡寫為“KO”,KO數據庫的檢索方法為:“Search”欄的“for”文本框中輸入目標編碼,該編碼是以K編號為標識的“KO”數據庫的專有編碼,點擊“Go”會轉到目標代碼的詳細信息頁面, 包括“Entry”編碼信息、“Name”目標蛋白/基因的名稱、“Definition”定義、“Pathway”相關通路信息、“Module”功能模塊數據庫中的信息、“Disease”相關疾病信息等信息,如圖4所示。
圖4 KEGG ORTHOLOGY子頁面示意圖
“KO”數據庫主頁面“Enter K numbers”里輸入目標編碼,點擊“Ortholog table”直系同源表,可查看與該編碼同源的詳細物種信息。
“KEGG GENOME”基因組數據庫,可查詢幾乎所有物種的具有完整基因組序列的相關信息,信息代碼以T0開頭后跟四個字母組成,可以搜索和分析的生物組包括:真核生物、軟體動物、節(jié)肢動物、軟體動物、脊椎動物、哺乳動物、兩棲動物、單子葉植物、雙子葉植物、藻類、細菌等。
“KEGG GENES”基因數據庫主要是集成NCBI RefSeq和GenBank兩個數據庫的所有完整基因組的基因目錄的集合,使用網站工具對基因進行重新注釋,并給出了對應物種、染色體位置、蛋白質系列等信息。
“KEGG SSDB”序列相似性數據庫包含“KEGG GENES”子數據庫完整基因組中所有蛋白質編碼基因之間氨基酸序列相似性的信息,包括病毒。所有可能相似的基因組均經過Smith-Waterman相似性檢驗得分為100或更高,將最佳匹配或雙向最佳匹配的基因對信息存儲到“KEGG SSDB”數據庫中,可搜索直系、旁系同源物以及保守的基因組信息。
2.3 Chemical information信息板塊應用介紹KEGG數據庫的“Chemical information”信息系統(tǒng)板塊包括“KEGG COMPOUND”化合物數據庫、“KEGG GLYCAN”多聚糖查詢數據庫、“KEGG REACTION”生化反應數據庫、“KEGG ENZYME”酶數據庫五個子數據庫。
“KEGG COMPOUND”化合物數據庫包含小分子,生物聚合物及其他與生物系統(tǒng)有關化學物質的集合,包括有機酸、脂類、碳水化合物、核酸、肽鏈、維生素和輔助因子、類固醇、激素和遞質以及抗生素共9大類別,數據庫為每個化合物設置了以“C”開頭后跟四個數字的編碼,如L-賴氨酸的編碼為“C00047”,在化合物數據庫頁面的“Search”欄輸入“C00047”后點擊“GO”按鈕,跳轉至檢索結果,選擇自己的目標化合物的編碼并點擊,跳轉新的信息頁面,包含該化合物的“Name”名稱、“Formula”化合式、“Mol weight”分子量、“Structure”化合物結構、“Reaction”反應、“Pathway”通路、“Module”功能模塊、“Enzyme”相關酶等詳細信息,如圖5所示。
圖5 KEGG COMPOUND子頁面示意圖
“KEGG GLYCAN”多聚糖查詢數據庫,該數據庫集合了實驗驗證的聚糖結構數據,包括從CarbBank數據庫、最新出版物以及“KEGG PATHWAY”中存在的聚糖結構。每個結構都有單獨的以“G”開頭數字結尾的編碼,也可以通過點擊“SNFG”按鈕轉換為聚糖的符號命名法(Symbol Nomenclature for Glycans,SNFG)表示。
“KEGG REACTION”生化反應數據庫以及“KEGG ENZYME”酶數據庫是同一個數據庫,因為KEGG收錄的化學反應主要是酶促反應,因此“KEGG REACTION”生化反應數據庫將酶促反應設置為一個以“R”開頭的單獨編碼,每條編碼的信息頁面包含了酶促反應對應的酶、酶促反應的通路、表達式、定義等。
2.4 Health information及Drug labels板塊應用簡介KEGG數據庫的“Health information”、“Drug labels”信息系統(tǒng)板塊包括“KEGG NETWORK”疾病相關網絡數據庫、“KEGG VARIANT”基因突變數據庫、“KEGG DISEASE”疾病數據庫、“KEGG DRUG”藥物數據庫、“KEGG ENVIRON”與健康相關信息數據庫、“KEGG MEDICUS”日本藥物查詢數據庫六個子數據庫。
“KEGG NETWORK”疾病相關網絡數據庫,通過對通路圖分子圖標著色,表示該分子易受到突變、病原體、環(huán)境因素等的干擾,引起通路的變化,其顏色分別顯示為:紅色、紫色和藍色,通路中的符號及其意義為:“→”激活、“┤”抑制、“—”復合物形成等,如圖6所示。
圖6 KEGG NETWORK子頁面示意圖
“KEGG VARIANT”基因突變數據庫與“KEGG NETWORK”查詢方式相同,此處不再贅述。
“KEGG DISEASE”疾病數據庫,疾病被視為分子網絡系統(tǒng)中非正常狀態(tài),疾病的遺傳、環(huán)境因素以及藥物對該系統(tǒng)產生不同的影響,將其展示在“KEGG PATHWAY”數據庫的疾病通路圖中,疾病基因被標記為紅色,每條針對于疾病的通路均有一個特定的編碼,以“H”后接數字組成。
“KEGG DRUG”藥物數據庫包括日本,美國和歐洲已批準藥物信的息資源,基于其活性成分的化學結構、化學成分進行了區(qū)分和統(tǒng)一,數據庫中每個藥物均由一個以“D”開頭后接數字的編碼組成,內容包括其治療目標,藥物代謝、與其他分子相互作用網絡信息等。
“KEGG ENVIRON”與健康相關信息數據庫,包含以各種天然產物為主要數據來源的數據庫,包括“Crude drugs”生藥、“Essential oils”精油、“Medicinal herbs”草藥三類,該數據庫是對“KEGG DRUG”藥物數據庫的重要補充,每種物質由字母“D”加數字編碼組成,內容包括化學成分,功效信息和來源物種信息等。
“KEGG MEDICUS”日本藥物查詢數據庫,通過CAS號、化學名稱檢索在日本和美國銷售的所有藥品,及其相關疾病、健康相關物質的綜合信息資源數據庫。
KEGG全稱為Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書),是日本京都大學生物信息學中心于1995年建立的包括生物細胞過程(Cellular Processes)、環(huán)境信息處理(Environmental Information Processing)、遺傳信息處理(Genetic Information Processing)、人類疾?。℉uman Diseases)、新陳代謝(Metabolism)、生物體系統(tǒng)(Organismal Systems)等信息的綜合性數據庫[12,13],其目標是通過基因組信息實現包括細胞、動物等生物活動過程的計算機重建[14]。
KEGG數據庫能從基因組序列及其他分子數據集中預測目標基因在細胞和生物體中的功能[15],開發(fā)了基于相同基因序列及功能的直系同源物概念從分子結構單元重建通路系統(tǒng)預測分子狀態(tài)的方法,通路圖代表生物系統(tǒng)的分子互作圖,分為代謝、遺傳信息處理、環(huán)境信息處理、細胞過程、生物系統(tǒng)和人類疾病,涵蓋了互作網絡、與疾病相關的變異以及藥物-靶標關系等功能[16]?;A數據來源于文獻中發(fā)表的實驗數據,從中獲取生物學信息,建立以實驗數據為基礎的分子相互作用和反應網絡,形成以代謝通路、基因信息、化合物、酶、藥物等為主的子數據庫,生物過程以可視化的通路圖形式展示在“KEGG PATHWAY”數據庫中,網絡中的節(jié)點與“KEGG ORTHOLOGY”直系同源數據庫關聯,將特定物種中觀察到的實驗數據推廣到其他物種,進而建立跨物種的聯系。因此,一旦實驗數據獲得某個分子的完整基因組序列,通過整合基因組、化學成分、系統(tǒng)功能、通路富集等信息,基于計算機的高級算法將實驗得到的證據形成可視化的系統(tǒng)功能知識庫,展示因人類基因變異、藥物調控、病毒入侵及其他病原體和環(huán)境因素等引起疾病變化的關鍵分子通路網絡狀態(tài),使科研人員能夠更直觀的了解某一分子的變化對疾病通路產生的影響,并通過KEGG數據庫重建某一物種的生物系統(tǒng),推斷同源分子在該物種甚至其他物種中的高級功能等信息,對開展下一步研究創(chuàng)造有利條件。
借助計算機全面地分析細胞和生物所包含的生物學信息是后基因組時代的重大挑戰(zhàn),KEGG數據庫能夠根據基因組中的信息,用計算機計算或者預測出復雜的細胞中的通路或者生物的復雜行為,未來將綜合更多大型生物數據庫信息,如組織芯片等對實驗數據進行補充,擴充更多的基因組信息等,使通路富集數據預測某分子的生物學功能證據更加全面可靠。