曹宗富,王雷,羅敏娜,喻浴飛,陳翠霞,路建波,高華方,馬旭*
(1. 北京協(xié)和醫(yī)學院研究生院,北京 100730;2. 國家衛(wèi)生計生委科學技術研究所,北京 100081;3. 國家人類遺傳資源中心,北京 102206;4. 博奧生物有限公司,北京 102206)
Joubert綜合征(Joubert syndrome,簡稱JS,MIM#213300)是一種罕見的神經(jīng)發(fā)育性遺傳病,于1969年由Joubert等[1]首次報道。后續(xù)研究表明Joubert綜合征是一種常染色體隱性單基因遺傳病,發(fā)病率估計在1/100 000~1/8 000[2-3]。其平均死亡年齡在7歲左右,6歲以下患者死亡原因主要是呼吸系統(tǒng)衰竭,年長患者主要死亡原因是腎衰竭[4]。Joubert綜合征最典型的特點為小腦蚓部發(fā)育不全或缺如,臨床表現(xiàn)主要包括陣發(fā)性呼吸過度或者呼吸暫停、共濟失調(diào)、發(fā)育遲緩、眼球運動障礙、認知缺陷,部分患者常伴發(fā)視網(wǎng)膜缺損或視網(wǎng)膜發(fā)育不良、多囊腎和多指(趾)癥、肝纖維囊腫等。Joubert綜合征通常由MRI結合臨床表現(xiàn)進行確診,其主要的影像學特征性表現(xiàn)有:小腦蚓部部分或完全缺如,表現(xiàn)出“磨牙征”(molar tooth sign,MTS),“中線裂”或“蝙蝠翼”,其中“磨牙征”被視為Joubert綜合征診斷的最重要特征[5]。
在精準醫(yī)學時代,查明Joubert綜合征患者攜帶的致病基因變異是精確診斷所必要的,同時,對后續(xù)針對性的治療、以及進一步的產(chǎn)前診斷和干預也是非常有幫助的。然而,Joubert綜合征具有較強的遺傳異質(zhì)性,涉及到數(shù)十個基因[6]。因此,如何快速準確而全面地獲得Joubert綜合征相關的致病基因,以及這些基因上的對應變異,是精準醫(yī)學時代Joubert綜合征相關遺傳學研究和應用中一個亟待解決的問題。隨著基因組技術尤其是高通量測序和芯片技術的快速發(fā)展,人們對疾病的遺傳學基礎有了越來越多的認識,同時也產(chǎn)生了大量的數(shù)據(jù),成熟的計算機技術使得大量的公共數(shù)據(jù)庫產(chǎn)生和發(fā)布,如人類表型本體數(shù)據(jù)庫(Human Phenotype Ontology,HPO)[7]、罕見病和孤兒藥數(shù)據(jù)庫(the Portal for Rare Diseases and Orphan Drugs,Orphanet)[8]、人類孟德爾病在線數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)[9]、ClinVar[10]、全球蛋白資源數(shù)據(jù)庫(The Universal Protein Resource,UniProt)[11]、人類基因突變數(shù)據(jù)庫(The Human Gene Mutation Database,HGMD)[12]、PubMed等,除了OMIM和HGMD之外,其它數(shù)據(jù)庫都是完全公開的。這些關系型數(shù)據(jù)庫,整合了已經(jīng)報道的表型與基因變異的臨床證據(jù)信息。因此,基于公共數(shù)據(jù)庫和PubMed文獻庫來抓取并整合得到特定表型相關的基因和變異,將是可供選擇的解決方案之一[13-18]。R VarfromPDB是我們?yōu)榫幾g遺傳病基因變異數(shù)據(jù)庫而專門開發(fā)的一個R軟件包,完全公開,網(wǎng)址為https://cran.r-project.org/web/packages/VarfromPDB/index.html。本研究的目的就是,基于R VarfromPDB軟件包,開發(fā)建立一種自動化方法,從公共數(shù)據(jù)庫和PubMed文獻知識庫中來獲取Joubert綜合征相關的基因和變異。
HPO、Orphanet、ClinVar、UniProt等公共數(shù)據(jù)庫和PubMed文獻知識庫。
(一)環(huán)境配置和參數(shù)設置
該方法基于開源軟件R實現(xiàn),需要先下載并安裝R軟件。然后配置本地計算機環(huán)境,安裝R VarfromPDB軟件包,加載VarfromPDB、RISmed和strigi軟件包。指定關鍵詞為“Joubert syndrome”,利用dir.create函數(shù)自動化建立輸入和輸出文件目錄。
(二)數(shù)據(jù)庫的本地化
為了保證多次運行任務的效率,需要把各個數(shù)據(jù)庫中相關的文件全部先下載到本地計算機上。該任務只有在需要更新數(shù)據(jù)庫和第1次執(zhí)行時運行?;赗 VarfromPDB軟件包的localPDB函數(shù)自動化實現(xiàn),自動下載的文件會保存在localPDB文件夾下。
(三)從公共數(shù)據(jù)庫中分別提取Joubert綜合征相關基因和變異
1. 從HPO數(shù)據(jù)庫中提取Joubert綜合征相關的疾病亞型名稱和基因:HPO數(shù)據(jù)庫是人類表型本體的標準化數(shù)據(jù)庫。HPO數(shù)據(jù)庫的主要目標是,提供人類疾病中表型異常的標準化詞匯。每一個術語描述了一個表型異常,如室間隔缺陷。目前,HPO的術語主要基于文獻報告、Orphanet、DECIPHER和OMIM等數(shù)據(jù)庫,包含了遺傳性疾病相關的大約11 000個術語和115 000個以上的注釋。同時,HPO還提供了約4 000種復雜疾病的相關注釋。所有HPO的數(shù)據(jù)都可自由下載或在線瀏覽。
從HPO數(shù)據(jù)庫中可以獲取Joubert綜合征相關的亞型名稱、每種亞型對應的臨床特征以及在其它數(shù)據(jù)庫中的ID信息,主要基于函數(shù)pheno_extract_HPO實現(xiàn)。
2.從Orphanet數(shù)據(jù)庫中提取Joubert綜合征相關的基因:Orphanet(http://www.orpha.net/consor/cgi-bin/index.php)是專注于罕見病和孤兒藥的參考性數(shù)據(jù)庫,其目標旨在幫助罕見病患者來改善診斷、照護和治療。Orphanet是由法國國家健康與醫(yī)學研究所(INSERM)發(fā)起的包括40多個國家的協(xié)會來領導的合作組織。國際團隊負責各個國家收集專業(yè)中心、醫(yī)學實驗室、進展的研究和病人組織等信息。Orphanet可自由提供以下服務:①基于已經(jīng)發(fā)表的專家分類得到的罕見病的詳細目錄和分類;②英文和法文的罕見病百科全書,并正在不斷翻譯成其他語言;③目前處于各個開發(fā)階段的孤兒藥的詳細目錄;④專家資源,提供Orphanet協(xié)會各個國家罕見病領域的專家診所、醫(yī)學實驗室、項目研究進展、臨床試驗、注冊者、網(wǎng)絡技術平臺和病人組織等信息;⑤允許用戶根據(jù)癥狀和體征來檢索的輔助診斷工具(assistance-to-diagnosis tool);⑥緊急醫(yī)護和麻醉的建議和指導;罕見病和孤兒藥領域相關的新聞、科學和政治事件的介紹;⑦專題報道等。
從Orphanet數(shù)據(jù)庫中可以提取Joubert綜合征相關的基因,主要基于函數(shù)extract_genes_orphanet實現(xiàn)。
3.從ClinVar數(shù)據(jù)庫中提取Joubert綜合征相關的基因和變異:ClinVar(http://www.ncbi.nlm.nih.gov/clinvar/)是一個描述人類遺傳變異和表型關系的整合型綜合性數(shù)據(jù)庫。ClinVar整合了多個數(shù)據(jù)庫的信息,除了OMIM、dbSNP和dbVar之外,它根據(jù)MedGen數(shù)據(jù)庫來定義表型,根據(jù)Gene數(shù)據(jù)庫來定義基因,根據(jù)RefSeqs數(shù)據(jù)庫來獲得序列變異的位置信息。ClinVar還是一個由用戶驅動的開放型數(shù)據(jù)庫,允許多個用戶提交數(shù)據(jù),相同的變異-表型關系可得到相互驗證。
從ClinVar數(shù)據(jù)庫中提取Joubert綜合征相關的基因和變異信息,主要基于函數(shù)extract_clinvar實現(xiàn)。
4. 從UniProt數(shù)據(jù)庫中提取Joubert綜合征相關的基因和變異:UniProt中收錄的變異主要是導致氨基酸改變的變異。該數(shù)據(jù)庫中的變異來源主要是Swiss-Prot、TrEMBL和PIR-PSD三大數(shù)據(jù)庫,與其它數(shù)據(jù)庫的來源不同,可作為ClinVar、OMIM、Orphanet等的補充。
從UniProt數(shù)據(jù)庫中提取基因和變異信息,可基于extract_uniprot函數(shù)實現(xiàn)。
5. 整合從公共數(shù)據(jù)庫中提取的Joubert綜合征相關基因和變異:根據(jù)國際基因命名委員會(HGNC)的基因命名標準,把不同數(shù)據(jù)庫來源的Joubert相關基因,都轉換成標準基因名稱,然后進行整合,主要基于函數(shù)genes_compile和variants_compile來實現(xiàn)。
(四)從PubMed文獻知識庫中提取Joubert綜合征相關的基因和變異
PubMed E-utilities為編程接口提供了與web搜索相同的結果。以“Joubert syndrome”為關鍵詞組成的檢索式檢索得到文獻摘要,然后基于文本挖掘提取相關的表型、基因和變異信息。同時,文章出版信息、作者信息等也被提取出來。在文本挖掘過程中,疾病表型信息和基因名稱基于字典的方法提取,變異信息則根據(jù)人類基因組變異協(xié)會(Human Genome Variation Society,HGVS)的命名規(guī)則以正則表達式進行識別提取。當存在多對基因和變異關系時,基于語句水平的共現(xiàn)性建立關聯(lián)規(guī)則。該過程主要基于函數(shù)extract_pubmed實現(xiàn)。
(五)追加PubMed來源的基因
對從PubMed自動提取的疾病基因變異關系,基于3個標準進行篩選:①基因具有標準名稱;②基因組上具有明確的物理位置;③該基因上有一個以上的變異。通過函數(shù)genes_add_pubmed實現(xiàn)所有基因的合并,得到所有與Joubert綜合征相關的基因集合。這些基因還根據(jù)數(shù)據(jù)庫來源和文獻等證據(jù)的強弱程度進行評分,并從強到弱進行排序,供后續(xù)人工核查做參考。
(六)建立自動化流程
將上述各步驟所有的命令行串聯(lián)起來在1個腳本文件中,執(zhí)行該文件即可自動化執(zhí)行以上各個步驟,得到Joubert綜合征相關的基因。
(七)對獲取的Joubert綜合征相關基因進行評價和檢查
同樣使用“Joubert syndrome”為關鍵詞,在DisGeNET數(shù)據(jù)庫文件“all_gene_disease_associations.tsv”中可檢索得到與Joubert綜合征相關的基因。該文件可從DisGeNET網(wǎng)站自由下載。DisGeNET是一個整合型的數(shù)據(jù)庫,整合了各種數(shù)據(jù)庫中疾病相關的基因疾病關系(gene-disease associations,GDAs)[19]。通過與DisGeNET數(shù)據(jù)庫比較,采用Jaccard指數(shù)來評價該研究獲取的Joubert綜合征相關基因的完整性。最后通過人工檢查,進一步剔除假陽性的基因。判斷假陽性基因的標準包括:①評分低于0.1或只被1個數(shù)據(jù)庫收錄;②人工閱讀中發(fā)現(xiàn)報道該基因相關的表型與Joubert綜合征不完全一致。
采用Jaccard指數(shù)對不同的基因集合進行比較,公式如下:
其中,A和B分別表示兩個非空集合,|A|、|B|、|A∩B|、|A∪B|分別表示集合A、B、A和B的交集、A和B的并集中的基因數(shù)目。
所有命令整合到1個腳本文件中,即可在R GUI窗口、Windows Dos窗口、Linux等環(huán)境下運行,運行1次即可獲得35個與Joubert綜合征可能相關的基因。
在R GUI窗口下,可通過菜單,依次點擊“文件”、“運行R腳本文件”,選中腳本文件即可執(zhí)行任務,并在工作目錄下自動生成結果文件。在Windows Dos或Linux窗口下,用Rscript調(diào)用腳本即可在工作目錄下自動生成結果文件。整個運行過程在內(nèi)存4 G以上電腦單個CPU下10 min左右自動化完成,但下載文件步驟的時間主要取決于網(wǎng)速。
同樣以“Joubert Syndrome”為關鍵詞,在整合型數(shù)據(jù)庫DisGeNET檢索得到19個與Joubert綜合征相關的基因。對兩個基因集合進行比較發(fā)現(xiàn),利用該研究建立的自動化流程能夠抓取除了DisGeNET中的19個Joubert綜合征相關基因之外,還包含了另外16個可能相關的基因(圖1)。對這16個基因做進一步的人工檢查,發(fā)現(xiàn)其中有14個基因是與Joubert綜合征發(fā)生相關的,另外兩個基因(NEB和PDE7B)則可能是假陽性相關基因。兩個基因集合比較的Jaccard指數(shù)為1(35/35),假陽性率為5.71%(2/35)。最終,自動化方法得到33個與Joubert綜合征相關的基因(表1),提示該自動化方法能夠更加完整地獲取Joubert綜合征相關的基因。
藍色表示的是DisGeNET數(shù)據(jù)庫中檢索得到的19個Joubert綜合征相關基因,紅色表示其它14個Joubert相關基因,NEB和PDE7B是兩個與Joubert綜合征發(fā)生可能無關的基因。圖1 該自動化流程獲取的Joubert綜合征相關基因和DisGeNET的比較
序號基因染色體鏈起始位置終止位置基因名稱別名1AHI1chr6-135605109135818903Abelsonhelperintegrationsite1FLJ20069|ORF1|JBTS32CEP290chr12-8844278988535993centrosomalprotein290KIAA0373|FLJ13615|3H11Ag|rd16|NPHP6|JBTS5|SLSN6|LCA10|MKS4|BBS14|CT87|POC33OFD1chrX+1375283113787480OFD1,centrioleandcentrio-larsatelliteprotein71-7A|JBTS104CC2D2Achr4+1547148815603180coiled-coilandC2domaincontaining2AKIAA1345|MKS6|JBTS95KIAA0586chr14+5889410259015549KIAA0586Talpid3|JBTS236RPGRIP1Lchr16-5363315053737850RPGRIP1likeKIAA1005|CORS3|JBTS7|MKS5|NPHP8|FTM|PPP1R1347TMEM216chr11+6115983161166335transmembraneprotein216MGC13379|HSPC244|JBTS28INPP5Echr9-139323066139334274inositolpolyphosphate-5-phos-phataseEPPI5PIV|CORS1|pharbin9TMEM67chr8+9476707194831460transmembraneprotein67MGC26979|JBTS6|NPHP1110TCTN3chr10-9742315297453900tectonicfamilymember3DKFZP564D116|TECT3|JBTS1811TMEM138chr11+6112947261136975transmembraneprotein138HSPC196|JBTS1612TMEM231chr16-7557201475590184transmembraneprotein231FLJ22167|ALYE870|PRO1886|JBTS20|MKS1113C5orf42chr5-3710632937249530chromosome5openreadingframe42FLJ13231|JBTS17|Hug14ARL13Bchr3+9369898293774522ADPribosylationfactorlikeGTPase13BDKFZp761H079|JBTS815B9D1chr17-1923868519281506B9domaincontaining1B9|EPPB9|MKS916MKS1chr17-5628279656296966Meckelsyndrome,type1FLJ20345|POC12|BBS1317NPHP1chr2-110880913110962639nephrocystin1JBTS4|SLSN118CEP104chr1-37286443773797centrosomalprotein104GlyBP|RP1-286D6.4|CFAP256|ROC22|JBTS2519KIAA0556chr16+2756146727791692KIAA0556JBTS26|KATNIP20TMEM237chr2-202484906202508252transmembraneprotein237JBTS1421CEP41chr7-130033611130081051centrosomalprotein41DKFZp762H1311|FLJ22445|JBTS1522ZNF423chr16-4952144149891830zincfingerprotein423KIAA0760|OAZ|Roaz|Ebfaz|Zfp104|NPHP14|JBTS1923PDE6Dchr2-232597134232646037phosphodiesterase6DJBTS2224TCTN1chr12+111051831111086935tectonicfamilymember1FLJ21127|TECT1|JBTS1325TCTN2chr12+124155659124192950tectonicfamilymember2FLJ12975|TECT2|MKS8|JBTS24
續(xù)表
本研究建立了一種自動化的方法,從HPO、Orphanet、ClinVar、UniProt和PubMed摘要中快速獲取Joubert綜合征相關的基因。該方法僅需要提供關鍵詞“Joubert Syndrome”即可,與傳統(tǒng)手工的方法相比,更加準確、高效。傳統(tǒng)方法非常繁瑣,需要閱讀大量的文獻,從各個數(shù)據(jù)庫中逐個檢索,從中提取表型和基因型相關信息,然后進行整合,可能需要數(shù)周甚至數(shù)月時間來完成,而且易于出錯。本研究建立的方法實現(xiàn)了整個過程的完全自動化,可在10 min左右完成,極大地節(jié)省了人力,也將減少人工數(shù)據(jù)編譯過程中出現(xiàn)的錯誤。在數(shù)據(jù)庫選擇方面,我們沒有使用OMIM和HGMD,主要是考慮這兩個數(shù)據(jù)庫在使用時的局限性。OMIM數(shù)據(jù)庫需要頻繁的申請賬號和密碼,目前是每個月申請一次;HGMD是商業(yè)化的數(shù)據(jù)庫,其免費公開的數(shù)據(jù)庫版本不是最新的,而是3年前的數(shù)據(jù),且不提供編程的接口。同時,這也提示,完全利用公開的數(shù)據(jù)庫和文獻知識庫而不利用商業(yè)性數(shù)據(jù)庫,對獲取Joubert綜合征致病基因是可行的。
該自動化方法從公共數(shù)據(jù)庫和PubMed摘要中獲取基因信息也具有較好的完整性。與DisGeNET數(shù)據(jù)庫比較發(fā)現(xiàn),不但可以全部獲取DisGeNET數(shù)據(jù)庫中Joubert綜合征相關的基因,還額外獲取了14個Joubert綜合征相關的基因。經(jīng)過人工檢查核對,這14個基因的確與Joubert綜合征發(fā)生有關。提示該自動化方法是可行的,獲取的基因更全面。
在人工檢查中我們還發(fā)現(xiàn),僅僅從公共數(shù)據(jù)庫中來獲取單基因病相關的基因可能是不完整的。在33個與Joubert綜合征相關的基因中,有兩個基因在公共數(shù)據(jù)庫中沒有被收錄。收錄不全的原因可能有:一是數(shù)據(jù)庫更新的延遲性。這些公共數(shù)據(jù)庫大部分都基于人工編譯和專家審核方式完成,因此新的發(fā)現(xiàn)從報道到收錄進公共數(shù)據(jù)庫會延遲數(shù)周甚至數(shù)月的時間。二是人工檢索時的不完整,某些文章會因特殊原因沒有被檢索到,使得在數(shù)據(jù)庫中丟失。另一方面,文獻挖掘也存在一些挑戰(zhàn):一是某些基因符號可能會造成混淆。譬如基因MRI,還是核磁共振成像的縮寫,盡管HGNC的基因命名標準已經(jīng)被廣泛認可,仍然不可避免地會造成文本挖掘時基因提取的錯誤。因此,對自動化獲取的結果還需要仔細地人工檢查。二是變異的命名不規(guī)范[20]。盡管HGVS已經(jīng)成為國際公認的變異命名推薦標準,但還有一些文章中,尤其是某些歷史文獻,并沒有完全遵守該推薦標準,或者是出版過程中造成的變異命名錯誤,都會造成難以提取這樣的變異信息。此外,某些文章摘要中并沒有提及基因上的變異信息,這種情況下針對全文的文本挖掘是必要的[21]。
值得注意的是,由于以上各種原因的存在,人工檢查是非常重要的最后一步。為了方便人工檢查,我們還提供了每個證據(jù)的評分,并按照評分進行排序,對于評分低于0.1的那些基因,通常是那些還沒有進入數(shù)據(jù)庫的基因,需要重點核對。
某些開放的數(shù)據(jù)庫,如ClinVar,還可能收錄一些由遺傳檢測機構提交但還沒有報道過的基因和變異信息。因此,單從公共數(shù)據(jù)庫或者從文獻中獲取Joubert綜合征相關的基因,都可能是不完整的。理想的策略是,能夠綜合考慮數(shù)據(jù)庫和文獻等各種不同來源的信息[22-24]。
精準醫(yī)學時代下,了解Joubert綜合征相關的致病基因,對于Joubert綜合征患者的分子診斷非常重要。該自動化方法對Joubert綜合征相關的研究者也非常有幫助,對Joubert綜合征相關遺傳檢測產(chǎn)品開發(fā)和基于全外顯子組測序的靶向基因分析[25]也具有較大的參考價值。同時,該方法可以為快速尋找其它單基因病相關的致病基因提供借鑒。
[1] Joubert M,Eisenring JJ,Robb JP,et al. Familial agenesis of the cerebellar vermis:A syndrome of episodic hyperpnea,abnormal eye movements,ataxia,and retardation[J]. Neurology,1969,19:813-825.
[2] Romani M,Micalizzi A,Valente EM. Joubert syndrome:congenital cerebellar ataxia with the molar tooth[J]. Lancet Neurol,2013,12:894-905.
[3] Brancati F,Dallapiccola B,Valente EM. Joubert Syndrome and related disorders[J]. Orphanet J Rare Dis,2010,5:20.
[4] Dempsey JC,Phelps IG,Bachmann-Gagescu R,et al. Mortality in Joubert syndrome [J]. Am J Med Genet A,2017,173:1237-1242.
[5] Maria BL,Boltshauser E,Palmer SC,et al. Clinical features and revised diagnostic criteria in Joubert syndrome[J]. J Child Neurol,1999,14:583-590.
[6] Valente EM,Dallapiccola B,Bertini E. Joubert syndrome and related disorders[J]. Handb Clin Neurol,2013,113:1879-1888.
[7] K?hler S,Doelken SC,Mungall CJ,et al. The Human Phenotype Ontology project:linking molecular biology and disease through phenotype data[J]. Nucleic Acids Res,2014,42:D966-974.
[8] Rath A,Olry A,Dhombres F,et al. Representation of rare diseases in health information systems:the Orphanet approach to serve a wide range of end users[J]. Hum Mutat,2012,33:803-808.
[9] Boyadjiev SA,Jabs EW. Online Mendelian Inheritance in Man(OMIM)as a knowledgebase for human developmental disorders[J]. Clin Genet,2000,57:253-266.
[10] Landrum MJ,Lee JM,Riley GR,et al. ClinVar:public archive of relationships among sequence variation and human phenotype[J]. Nucleic Acids Res,2014,42:D980-985.
[11] UniProt Consortium. UniProt:a hub for protein information[J]. Nucleic Acids Res,2015,43:D204-212.
[12] Stenson PD,Mort M,Ball EV,et al. The Human Gene Mutation Database:towards a comprehensive repository of inherited mutation data for medical research,genetic diagnosis and next-generation sequencing studies[J]. Hum Genet,2017,136:665-677.
[13] Ching KA,Wang K,Kan Z,et al. Cell Index Database(CELLX):a web tool for cancer precision medicine[J]. Pac Symp Biocomput,2015:10-19.
[14] Peterson TA,Doughty E,Kann MG. Towards precision medicine:advances in computational approaches for the analysis of human variants[J]. J Mol Biol,2013,425:4047-4063.
[15] Capriotti E,Nehrt NL,Kann MG,et al. Bioinformatics for personal genome interpretation[J]. Brief Bioinform,2012,13:495-512.
[16] Doughty E,Kertesz-Farkas A,Bodenreider O,et al. Toward an automatic method for extracting cancer- and other disease-related point mutations from the biomedical literature[J]. Bioinformatics,2011,27:408-415.
[17] Jensen LJ,Saric J,Bork P. Literature mining for the biologist:from information retrieval to biological discovery [J]. Nat Rev Genet,2006,7:119-129.
[18] Groth P,Pavlova N,Kalev I,et al. PhenomicDB:a new cross-species genotype/phenotype resource [J]. Nucleic Acids Res,2007,35:D696-699.
[20] Thomas PE,Klinger R,F(xiàn)urlong LI,et al. Challenges in the association of human single nucleotide polymorphism mentions with unique database identifiers[J]. BMC Bioinformatics,2011,12:S4.
[21] Ravikumar KE,Wagholikar KB,Li D,et al. Text mining facilitates database curation - extraction of mutation-disease associations from Bio-medical literature[J]. BMC Bioinformatics,2015,16:185.
[22] Horaitis O,Cotton RG. The challenge of documenting mutation across the genome:the human genome variation society approach[J]. Hum Mutat,2004,23:447-452.
[23] Brookes AJ,Robinson PN. Human genotype-phenotype databases:aims,challenges and opportunities[J]. Nat Rev Genet,2015,16:702-715.
[24] Johnston JJ,Biesecker LG. Databases of genomic variation and phenotypes:existing resources and future needs[J]. Hum Mol Genet,2013,22:R27-31.
[25] 羅敏娜,曹宗富,陳軍,等. 全外顯子組測序發(fā)現(xiàn)中國Joubert綜合征家系C5orf42基因的新突變[J]. 生殖醫(yī)學雜志,2017,26:464-469.