蒿花,田國祥,耿輝,王亞軍,張勇,馬茂,呂軍
GeneCards數(shù)據(jù)庫是全面檢索人類基因的綜合數(shù)據(jù)庫,綜合了除自建信息外,還整合了超過150個(gè)外鏈數(shù)據(jù)庫或網(wǎng)站的數(shù)據(jù),其中125個(gè)網(wǎng)站數(shù)據(jù)自動(dòng)同步更新,提供簡明的基因組、蛋白質(zhì)組、轉(zhuǎn)錄組、遺傳和功能上所有已知的和預(yù)測的人類基因功能數(shù)據(jù)資料,并整理歸納成別名、疾病、結(jié)構(gòu)域、藥物、表達(dá)、功能、基因組學(xué)、定位、同源序列、旁系同源基因、通路、產(chǎn)品、蛋白、文獻(xiàn)、資源、概述、轉(zhuǎn)錄本、變異等18類(章節(jié))信息,是目前信息最全的基因注釋網(wǎng)站之一[1],除了GeneCards數(shù)據(jù)庫外,還新增了胚胎發(fā)育組織干細(xì)胞數(shù)據(jù)庫LifeMap Discovery[2]、人類疾病數(shù)據(jù)庫MalaCards[3]、生物學(xué)通路數(shù)據(jù)庫Pathcards[4]、基因染色體位置GeneLoc[5]等數(shù)據(jù)庫以及多種在線商業(yè)分析工具,包括:基于高通量測序數(shù)據(jù)(NGS)的精準(zhǔn)醫(yī)療分析工具Tgex[6]、富集分析工具GeneAnalytics[7]、基于NGS的基因表型關(guān)聯(lián)工具VarElect[4]、尋找相似基因分析工具GenesLikeMe[8]、人類基因調(diào)節(jié)元件以及靶基因工具 GeneHancer[9],形成了一個(gè)基因分析生態(tài)鏈,從多角度全面闡述基因各個(gè)層面的信息及功能機(jī)制,科研人員可登錄網(wǎng)站https://www.genecards.org/免費(fèi)使用功能強(qiáng)大的GeneCards數(shù)據(jù)庫。
隨著現(xiàn)代生物信息學(xué)的蓬勃發(fā)展,應(yīng)用信息技術(shù)研究目標(biāo)分子作用機(jī)制,已成為基礎(chǔ)科研人員必備技能,2016年以色列學(xué)者Gorohovski等納入GeneCards等數(shù)據(jù)庫數(shù)據(jù),開發(fā)了一個(gè)在線預(yù)測的蛋白質(zhì)相互作用網(wǎng)絡(luò)[10]。2016年中國學(xué)者Pan等為探索人類細(xì)胞色素P450功能與CYP超家族之間的關(guān)系,運(yùn)用GeneCard數(shù)據(jù)庫找出它們對應(yīng)的旁系同源物等進(jìn)行了進(jìn)化生物學(xué)方面的討論[11]。22016年美國學(xué)者M(jìn)ok等使用GeneCards的數(shù)據(jù)評估雙表型肝細(xì)胞癌膽管癌(hepatocellular carcinomacholangiocarcinoma,HCC-CC)與每個(gè)變量的遺傳關(guān)聯(lián),生成生物分子相互作用圖,并確定了幾種診斷HCC-CC的生物標(biāo)志物[12]。2018年Wang等以GeneCards數(shù)據(jù)庫的先前研究結(jié)果為基礎(chǔ),篩選出一種與牛皮癬相關(guān)在皮膚中高表達(dá)的特異性分子[13]。2020年法國學(xué)者Wu等從GeneCards數(shù)據(jù)庫獲取蛋白質(zhì)和疾病之間的關(guān)聯(lián),研究分泌干擾物(EDC)與COVID-19致病嚴(yán)重性之間的關(guān)系[14]。2020年Liu等利用GeneCards數(shù)據(jù)庫查詢胃癌相關(guān)靶標(biāo),嘗試闡明該疾病中circRNA-miRNA-mRNA的調(diào)控網(wǎng)絡(luò),明確與胃癌中炎癥相關(guān)的靶標(biāo)[15]。2020年Zhu等從GeneCards數(shù)據(jù)庫收集炎癥相關(guān)基因,研究環(huán)狀RNA(circRNA)和DNA甲基化在癌癥的起因和進(jìn)展中的重要作用[16]。2020年英國Timothy等從GeneCards數(shù)據(jù)庫查詢目標(biāo)基因結(jié)合位點(diǎn),研究疾病及與之有生物學(xué)相關(guān)性基因間的遺傳風(fēng)險(xiǎn)[17]。2020年張露丹等利用GeneCards數(shù)據(jù)庫獲得的糖尿病周圍神經(jīng)病變(DPN)疾病靶點(diǎn),描述了補(bǔ)陽還五湯通過多成分、多靶點(diǎn)、多途徑起到干預(yù)治療DPN的作用[18]。胡文龍等從GeneCards數(shù)據(jù)庫查找代謝相關(guān)基因,建立了8個(gè)基于代謝相關(guān)基因的肺鱗癌預(yù)后模型[19]。
2003年人類基因組測序工作完成,標(biāo)志生物科學(xué)的發(fā)展已進(jìn)入了后基因組時(shí)代,模式生物基因組測序的完成,使生物新信息學(xué)研究的重心由基因組的結(jié)構(gòu)向基因的功能轉(zhuǎn)移,在此基礎(chǔ)上研究人員急需一個(gè)數(shù)據(jù)庫將已知人類基因在染色體上的確切位置及各DNA片段的功能,新發(fā)現(xiàn)基因信息之后進(jìn)行的蛋白質(zhì)空間結(jié)構(gòu)研究,依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計(jì),基因表達(dá)在生物過程中發(fā)揮的作用等進(jìn)行歸納總結(jié),從而基于基因?qū)W角度研究人類疾病的診斷、治療的內(nèi)在規(guī)律。GeneCards正是由非盈利組織構(gòu)建的一個(gè)整合型的生物信息數(shù)據(jù)庫,該數(shù)據(jù)庫提供了人力目前已注釋的、可預(yù)測的所有基因的詳細(xì)信息,自動(dòng)集成來自約150個(gè)數(shù)據(jù)源的以基因?yàn)橹行牡臄?shù)據(jù),包括基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、遺傳學(xué)、臨床和功能信息等,使研究者快速掌握目標(biāo)基因的所有信息。
GeneCards數(shù)據(jù)庫使用流程為:登錄網(wǎng)站,在“Explore a Gene”模塊框中鍵入感興趣的目標(biāo)基因點(diǎn)擊“Go”,結(jié)果會展示該基因的18種說明板塊信息。
GeneCards數(shù)據(jù)庫查詢目標(biāo)基因,結(jié)果主要有十八種說明板塊:“Aliases”、“Summaries”、“Genomics”、“Domains”、“Function”、“Localization”、“Transcripts”、“Expression”、“Pathways”、“Disorders”、“Drugs”、“Orthologs”、“Paralogs”、“Products”、“Proteins”、“Publications”、“Sources”、“Variants”,如圖1所示。GeneCards數(shù)據(jù)庫為研究者提供目標(biāo)基因研究的進(jìn)展,與之相關(guān)的疾病,在各種細(xì)胞系或組織中的表達(dá),與蛋白質(zhì)的相互作用,參與細(xì)胞通路等,幫助研究者快速掌握目標(biāo)基因相關(guān)的全面信息,為下一步研究理清思路。
圖1 GeneCards數(shù)據(jù)庫主頁面
2.1 Aliases、Summaries、Genomics信息板塊應(yīng)用介紹GeneCard數(shù)據(jù)庫搜索結(jié)果的標(biāo)題:包含基因名稱、基因類型、基因全稱,右邊有個(gè)五角星符號,點(diǎn)擊可收藏該基因,“Jump to section”為快捷索引目錄:點(diǎn)擊可跳轉(zhuǎn)至相應(yīng)板塊信息。
Aliases信息板塊包含:“Aliases for AFP Gene”基因別名,如圖2所示第一行“Alpha Fetoprotein 2 3 5”右上角的數(shù)字鼠標(biāo)懸??刹榭疵Q來源,點(diǎn)擊可跳轉(zhuǎn)至來源數(shù)據(jù)庫;“External Ids for AFP Gene”AFP的各數(shù)據(jù)庫ID號,點(diǎn)擊ID可鏈接至相應(yīng)數(shù)據(jù)庫的基因信息頁面;“Previous HGNC Symbols for AFP Gene”AFP基因的曾用名;“Previous GeneCards Identifiers for AFP GeneGeneCards”基因的曾用ID;最下面一行“Search aliases for AFP gene in PubMed and other databases”點(diǎn)擊跳轉(zhuǎn)至及其他數(shù)據(jù)庫快速查詢目標(biāo)基因信息頁面,包括“Aliases”、“Disorders”、“Free Text”三個(gè)選項(xiàng)。
Summaries信息板塊包含各個(gè)數(shù)據(jù)庫對基因的概述,可快速了解基因的功能,包含的數(shù)據(jù)庫有:NCBI數(shù)據(jù)庫、GeneCards數(shù)據(jù)庫、UniProtKB/Swiss-Prot數(shù)據(jù)庫、維基百科等。
Genomics信息板塊由三部分內(nèi)容組成,其中最重要的是“GeneHancer (GH) Regulatory Elements” GH數(shù)據(jù)庫調(diào)控原件列表,該列表是AFP基因的啟動(dòng)子與增強(qiáng)子,包括:“GeneHancer (GH) Identifier”GH數(shù)據(jù)庫id、“GH Type”啟動(dòng)子或增強(qiáng)子、“GH Score”GH確信評分、“GH Sources”數(shù)據(jù)來源、“Gene Association Score”基因與元件的相關(guān)性評分(分?jǐn)?shù)越高相關(guān)性越強(qiáng))、“Total Score”總分(確信評分和相關(guān)性評分的乘積)、“TSS distance (kb)”序列中點(diǎn)距轉(zhuǎn)錄起始位置的距離、“Number of Genes Away”具有轉(zhuǎn)錄起始點(diǎn)基因的數(shù)量、“Size (kb)”基因組大小、“Binding Sites”轉(zhuǎn)錄因子、“Gene Targets”靶基因,其余部分為:“Genomic Locations for AFP Gene”基因組中的位置、“Genomic View for AFP Gene”基因組視圖。
2.2 Proteins、Domains & Families、Function信息板塊應(yīng)用介紹通過“Proteins”、“Domains &Families”、“Function”三個(gè)板塊能夠快速掌握目標(biāo)基因表達(dá)蛋白的相關(guān)信息。
“Proteins”信息板塊包含有十部分內(nèi)容,分別是:①“Protein details for AFP Gene(UniProtKB/Swiss-Prot)”UniProtKB/Swiss-Prot數(shù)據(jù)庫中基因的信息,包括編號、名稱等;②“Protein attributes for AFP Gene”基因的基本屬性:肽鏈、分子量等;③“Three dimensional structures from OCA and Proteopedia for AFP Gene”蛋白三維結(jié)構(gòu),如圖3所示;④“neXtProt entry for AFP Gene”基因蛋白組學(xué)入口;⑤“Protein Expression for AFP Gene”蛋白表達(dá)情況;(6)“Post-translational modifications for AFP Gene”AFP基因翻譯后修飾;⑦“Other Protein References for AFP Gene”其他參考信息;⑧“Antibody Products”抗體產(chǎn)品鏈接;⑨“Protein Products”蛋白產(chǎn)品鏈接;⑩“Assay Products”分析產(chǎn)品鏈接。
“Domains & Families”信息板塊包含基因結(jié)構(gòu)域和家族信息,分別有如下幾部分內(nèi)容:“Gene Families for AFP Gene”基因家族信息、“Protein Domains for AFP Gene”蛋白質(zhì)結(jié)構(gòu)域、“Suggested Antigen Peptide Sequences for AFP Gene”推薦的抗原肽序列、“Graphical View of Domain Structure for InterPro Entry”可視化結(jié)構(gòu)、“UniProtKB/Swiss-Prot”功能域分析。
“Function”信息板塊為蛋白相關(guān)信息板塊,描述了“Molecular function for AFP Gene”蛋白功能、“Phenotypes From GWAS Catalog for AFP Gene”疾病表型、“Gene Ontology (GO) -Molecular Function for AFP Gene”基因分子功能、“Phenotypes for AFP Gene”突變和RNA干擾表型、“Human Phenotype Ontology for AFP Gene”基因與人類異常表型、“Animal Models for AFP Gene”相關(guān)動(dòng)物模型等。
2.3 Localization、Transcripts、Expression信息板塊應(yīng)用介紹“Localization”表達(dá)信息定位板塊共包含三部分內(nèi)容:“Subcellular locations from UniProtKB/Swiss-Prot”UniProtKB/Swiss-Prot數(shù)據(jù)庫對基因亞細(xì)胞定位描述、“Subcellular locations from the Human Protein Atlas (HPA)”HPA數(shù)據(jù)庫對基因亞細(xì)胞定位描述、“Gene Ontology (GO)”基因本體學(xué)中基因與細(xì)胞組分相關(guān)的信息,如圖4所示,“Subcellular locations from UniProtKB/Swiss-Prot”模塊中根據(jù)文獻(xiàn)給出了各個(gè)亞細(xì)胞位置的可靠性評分,分?jǐn)?shù)越高,可靠性越高。
圖4 Localization板塊示意圖
“Transcripts”轉(zhuǎn)錄本信息板塊下包含:“mRNA/cDNA for AFP Gene”mRNA或cDNA相關(guān)信息、“CRISPR Products”CRISP商業(yè)化產(chǎn)品、“miRNA Products”miRNA相關(guān)商業(yè)化產(chǎn)品、“Inhibitory RNA Products”RNA抑制商業(yè)化產(chǎn)品、“Clone Products”基因克隆相關(guān)商業(yè)化產(chǎn)品等詳細(xì)信息。
“Expression”表達(dá)信息板塊下有:“mRNA expression in normal human tissues from GTEx,Illumina, BioGPS, and SAGE for AFP Gene”模塊包括RNA測序數(shù)據(jù)、芯片數(shù)據(jù)、基因表達(dá)串聯(lián)分析;“mRNA expression in embryonic tissues and stem cells”模塊胚胎及干細(xì)胞中的mRNA水平;“mRNA differential expression in normal tissues according to GTEx for AFP Gene” mRNA在正常組織中的表達(dá)差異;“Protein differential expression in normal tissues from HIPED for AFP Gene”蛋白在正常組織中的表達(dá)差異;“Integrated Proteomics:protein expression in normal tissues and cell lines from ProteomicsDB, MaxQB, and MOPED for AFP Gene”蛋白表達(dá)情況、“Transcriptomic regulation report from SPP (The Signaling Pathways Project) for AFP”轉(zhuǎn)錄組調(diào)控信息、“SOURCE GeneReport for Unigene cluster for AFP Gene” SOURCE數(shù)據(jù)庫中的基因簇信息、“mRNA Expression by UniProt/SwissProt for AFP Gene”UniProt/SwissProt 數(shù)據(jù)庫mRNA表達(dá)水平、“Evidence on tissue expression from TISSUES for AFP Gene”組織中表達(dá)的數(shù)據(jù)、“Phenotype-based relationships between genes and organs from Gene ORGANizer for AFP Gene”基于表型定義的目標(biāo)基因相關(guān)器官等詳細(xì)信息。
2.4 Pathways & Interactions、Disorders、Drugs & Compounds板塊應(yīng)用簡介“Pathways& Interactions”板塊中包含:“SuperPathways”PathCards數(shù)據(jù)庫的超級通路及其鏈接,每個(gè)相關(guān)通路都可以點(diǎn)開查看相關(guān)分子及其信息;“Pathways by source”其它數(shù)據(jù)庫與基因相關(guān)通路及鏈接,“Interacting Proteins for AFP Gene”基因互作分子信息,如圖5所示,“SIGNOR curated interactions for AFP Gene”SIGNOR數(shù)據(jù)庫的目標(biāo)基因互作分子;“Gene Ontology (GO) - Biological Process for AFP Gene”基因本體學(xué)中目標(biāo)基因與生物過程相關(guān)信息。
圖5 Interacting Proteins模塊示意圖
“Disorders”基因相關(guān)疾病板塊中包含:“MalaCards diseases for AFP Gene” MalaCards數(shù)據(jù)庫相關(guān)疾病列表,“UniProtKB/Swiss-Prot”UniProtKB/Swiss-Prot數(shù)據(jù)庫相關(guān)疾病信息,“Additional Disease Information for AFP”其他數(shù)據(jù)庫相關(guān)疾病信息。
圖6 STRING網(wǎng)站示意圖
“Drugs & Compounds” 藥物與化合物信息板塊有三部分內(nèi)容,“Drugs for AFP Gene”相關(guān)藥物以列表形式展示了:“Name”藥物名稱、“Status”藥物狀態(tài)、“Disease Links”藥物鏈接、“Group”藥物分類、“Role”藥物與基因關(guān)系、“Mechanism of Action”作用機(jī)制、“Clinical Trials”藥物臨床試驗(yàn);“Additional Compounds for AFP Gene”與基因相關(guān)的非藥物化合物;“Drug Products”藥物相關(guān)產(chǎn)品。
2.5 其余應(yīng)用簡介“Orthologs”、“Paralogs”板塊展示了目標(biāo)基因直系、非直系、旁系的同源基因列表?!癙roteins”蛋白信息板塊展示目標(biāo)基因在UniProtKB/Swiss-Prot數(shù)據(jù)庫中的名稱及編號、肽鏈大小、分子量、蛋白三維結(jié)構(gòu)、可變剪接異構(gòu)體、蛋白組學(xué)數(shù)據(jù)庫、蛋白表達(dá)情況、翻譯后修飾等信息。“Variants”板塊展示基因變異信息,包括:序列變異、結(jié)構(gòu)變異、變異耐受性和得分等?!癝ources”展示信息來源數(shù)據(jù)庫點(diǎn)擊可以跳轉(zhuǎn)至該數(shù)據(jù)庫?!癙ublications”板塊展示目標(biāo)基因相關(guān)的文獻(xiàn)?!癙roducts”板塊展示與基因相關(guān)的產(chǎn)品。
GeneCards是一個(gè)綜合性基因數(shù)據(jù)庫,提供已注釋及預(yù)測的人類基因全面信息。該數(shù)據(jù)庫集成了來自約150個(gè)網(wǎng)絡(luò)來源以基因?yàn)橹行牡臄?shù)據(jù),這些數(shù)據(jù)信息內(nèi)容可靠、基因名稱注釋準(zhǔn)確、信息提取便利、數(shù)據(jù)格式標(biāo)準(zhǔn)、數(shù)據(jù)具有高集成度和可用性,網(wǎng)站可查詢內(nèi)容包括基因組,轉(zhuǎn)錄組學(xué),蛋白質(zhì)組學(xué),遺傳,臨床和功能等目標(biāo)基因相關(guān)信息,旨在幫助研究者一站式快速了解該基因的最新最全面信息,包括其表達(dá)的蛋白功能及其與疾病有關(guān)的數(shù)據(jù)。
GeneCards數(shù)據(jù)庫本著數(shù)據(jù)整合和集成的思想,將各個(gè)數(shù)據(jù)庫對基因功能的描述、基因的啟動(dòng)子與增強(qiáng)子信息 、表達(dá)蛋白信息、基因亞細(xì)胞信息、轉(zhuǎn)錄本信息、通路信息、相關(guān)藥物及化合物信息、同源基因信息、基因變異信息等整合在一起,完成生物信息學(xué)、功能基因組學(xué)、蛋白質(zhì)組學(xué)的多維度組合,改變了以往只有通過實(shí)驗(yàn)室進(jìn)行研究才能了解基因功能的傳統(tǒng)方式,對復(fù)雜的基因信息進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化、層次分明的排布,降低了研究者理解復(fù)雜基因網(wǎng)絡(luò)的數(shù)據(jù)門檻,從大數(shù)據(jù)角度有效發(fā)現(xiàn)各個(gè)相關(guān)基因、蛋白、疾病間的新關(guān)系。GeneCard在各個(gè)基因相關(guān)數(shù)據(jù)庫之間建立超鏈接,以類似橋梁方式完成一站式查詢,幫助研究者快速獲得與查詢相關(guān)的知識概述,在數(shù)據(jù)庫中搜索目標(biāo)基因時(shí),搜索結(jié)果不僅展示了基因信息,還包含與其相關(guān)蛋白、疾病、同源復(fù)合物等信息,通過數(shù)據(jù)信息之間相互依賴關(guān)系、跨越?jīng)_突信息進(jìn)行資源整合、有效平衡同源基因注釋的合并,對以上綜合數(shù)據(jù)進(jìn)行系統(tǒng)評分,通過分?jǐn)?shù)反映疾病-基因、基因-基因之間關(guān)聯(lián)的強(qiáng)度,使各部分相互作用關(guān)系一目了然,通過整合各種疾病的4500種基因,幫助推斷基因與研究者關(guān)注的疾病-表型之間直接和間接聯(lián)系,為尋找疾病新的靶點(diǎn)基因提供創(chuàng)新思路。
綜上所述,GeneCards數(shù)據(jù)庫是生物醫(yī)學(xué)研究中數(shù)據(jù)分析和解釋工具的基礎(chǔ)數(shù)據(jù)庫,為生物學(xué)和臨床數(shù)據(jù)結(jié)合尋找研究靶標(biāo),進(jìn)行基于各種大數(shù)據(jù)領(lǐng)域中知識的融合創(chuàng)新,未來,GeneCards數(shù)據(jù)庫也定會在精準(zhǔn)醫(yī)學(xué)、基因組學(xué)、蛋白組學(xué)、營養(yǎng)基因組學(xué)、藥物基因組學(xué)、疫苗學(xué)以及其他尚未出現(xiàn)的后基因組學(xué)領(lǐng)域中發(fā)揮重大作用。