• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用文本挖掘進(jìn)行藥物重新定位的步驟與工具

      2017-03-21 10:49:46
      關(guān)鍵詞:副作用靶點(diǎn)工具

      ,

      藥物重新定位(Drug Repositioning)指藥物新適應(yīng)癥的開發(fā),即利用相關(guān)技術(shù)方法對(duì)已有藥物進(jìn)行重新篩選、組合或改造從而發(fā)現(xiàn)其新用途的過程[1]。新藥的開發(fā)需要經(jīng)歷多次研發(fā)試驗(yàn)以及臨床試驗(yàn),因此需要消耗大量人力、物力和財(cái)力。但是對(duì)已存在藥物進(jìn)行重新定位,發(fā)現(xiàn)其新用途可以大大減少資源消耗,避免新藥可能帶來的風(fēng)險(xiǎn)。因此對(duì)藥物的重新定位研究已成為當(dāng)今很多研究人員和開發(fā)商關(guān)注的熱點(diǎn)[2]。

      “文本挖掘”技術(shù)為藥物重新定位提供了新思路。Marti A.Hearst 將文本挖掘定義為使用計(jì)算機(jī)從不同的文字資源中自動(dòng)抽取信息,發(fā)現(xiàn)之前不存在的信息[3]。因此使用文本挖掘技術(shù)可以從大量文本集合中預(yù)測(cè)新的關(guān)系,發(fā)現(xiàn)新知識(shí)。

      近年來越來越多的學(xué)者嘗試用文本挖掘技術(shù)發(fā)掘不同藥物作用機(jī)制,不同疾病病理機(jī)制甚至不同藥物副作用之間的相似性,以預(yù)測(cè)藥物新的適應(yīng)癥,進(jìn)行藥物重新定位。本文介紹了文本挖掘在藥物重新定位研究中的基本步驟和近年來利用文本挖掘技術(shù)進(jìn)行藥物重新定位常用的工具及部分成功范例。

      1 文本挖掘技術(shù)應(yīng)用于藥物重新定位的研究現(xiàn)狀

      伴隨著文本挖掘技術(shù)的進(jìn)步,研究人員使用文本挖掘進(jìn)行藥物重新定位的研究也越來越多。筆者以([“Drug Repositioning”Mesh]) OR“Drug Discovery”[Mesh]) AND “Data Mining”[Mesh]為檢索策略,在PubMed數(shù)據(jù)庫(kù)中檢索到相關(guān)文獻(xiàn)200篇。使用中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)院崔雷教授等人自主研發(fā)的書目共現(xiàn)分析系統(tǒng)(Bibliographic Item Co-Occurrence Matrix Builder, BICOMB)[4]提取出這些文獻(xiàn)的發(fā)表年代,統(tǒng)計(jì)不同年代的論文數(shù)量;剔除2016年發(fā)表的文獻(xiàn)后,剩余197篇。對(duì)2009年到2015年發(fā)表的文獻(xiàn)量進(jìn)行累計(jì)統(tǒng)計(jì),發(fā)現(xiàn)該類文獻(xiàn)累積量近年來呈直線型增長(zhǎng)(圖1),說明近年來該領(lǐng)域的發(fā)展越來越受到重視。

      圖1 2009-2015年利用文本挖掘進(jìn)行藥物重新定位相關(guān)文獻(xiàn)累計(jì)增長(zhǎng)

      近年來,研究人員主要利用以下3種原理及方法發(fā)現(xiàn)藥物新的適應(yīng)癥。一是通過發(fā)現(xiàn)某些生物大分子具有相似的結(jié)構(gòu)預(yù)測(cè)它們可能與相同的藥物結(jié)合,進(jìn)而預(yù)測(cè)藥物可以治療一些其他病理機(jī)制相似的疾病[5-6];二是通過發(fā)現(xiàn)藥物之間的相同副作用,假設(shè)這些藥物可以用于相同的疾病,從而推測(cè)藥物新的適應(yīng)癥[7-10];三是構(gòu)建藥物與藥物、藥物與靶點(diǎn)等物質(zhì)之間的網(wǎng)絡(luò)關(guān)系推測(cè)藥物新的適應(yīng)癥,如不同藥物作用之后基因表達(dá)譜具有相似性,從而預(yù)測(cè)藥物對(duì)某些基因的作用,進(jìn)而假設(shè)藥物的新適應(yīng)癥[11]。

      2 利用文本挖掘進(jìn)行藥物重新定位的步驟

      對(duì)藥物進(jìn)行重新定位的文本挖掘包括信息檢索、命名體識(shí)別、關(guān)系抽取、網(wǎng)絡(luò)構(gòu)建等基本步驟,但是對(duì)藥物重新定位研究更加注重藥物之間、藥物與靶點(diǎn)之間的網(wǎng)絡(luò)構(gòu)建,并在發(fā)現(xiàn)藥物新作用上更有其特殊的工具和算法。

      使用文本挖掘技術(shù)進(jìn)行藥物重新定位的一般流程見圖2。

      圖2 使用文本挖掘進(jìn)行藥物重新定位研究的一般流程

      3 利用文本挖掘進(jìn)行藥物重新定位的工具

      3.1 信息檢索數(shù)據(jù)庫(kù)與工具

      信息檢索包括選擇合適的數(shù)據(jù)庫(kù)、制定正確的檢索策略、實(shí)施檢索3個(gè)步驟。研究者在該過程中得到關(guān)于該研究領(lǐng)域的相關(guān)信息,是文本挖掘的第一步,也是以后各步驟的重要基礎(chǔ)。

      生物醫(yī)學(xué)最常使用的檢索系統(tǒng)是PubMed,它包含MEDLINE數(shù)據(jù)庫(kù)中全文和摘要等資源。如研究人員從MEDLINE數(shù)據(jù)庫(kù)下載或收集某些期刊(如JournalofOncology)一段時(shí)間內(nèi)發(fā)表的關(guān)于腫瘤的全部文獻(xiàn),并對(duì)它們進(jìn)行分類、關(guān)系抽取、信號(hào)過濾,使用信號(hào)優(yōu)先算法從文獻(xiàn)中提取藥物副作用的內(nèi)容,挖掘出大量藥物副作用;對(duì)得到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析,將通過統(tǒng)計(jì)學(xué)分析有意義的藥物副作用與FDA中記錄的藥物副作用比較,發(fā)現(xiàn)大量的藥物副作用在FDA中沒有記錄;再經(jīng)過綜合相關(guān)分析發(fā)現(xiàn),具有相似或者相同副作用的抗癌藥物之間可能在作用方式、毒性之間具有相似性,據(jù)此預(yù)測(cè)這些藥物可用于相同的疾病,進(jìn)而發(fā)現(xiàn)藥物的新作用[7-10]。

      除了科學(xué)文獻(xiàn)外,其他文獻(xiàn)資源,如專利、病例報(bào)告、FDA中的藥物信息等也是生物醫(yī)學(xué)領(lǐng)域信息的重要來源。如有研究人員從FDA藥品說明書中抽取描述藥物副作用部分,從中發(fā)現(xiàn)相關(guān)描述藥物副作用的句子和語法樹,并從這些語法樹集合中提取與藥物副作用相關(guān)的句法模式;然后他們又使用模式排序算法從中找到精確度和召回率較高的句法模式,并使用這些模式從MEDLINE數(shù)據(jù)庫(kù)中抽取藥物副作用,結(jié)果發(fā)現(xiàn)大部分藥物副作用是FDA藥品說明書上沒有記載的[7]。

      除了文獻(xiàn)資源外,文本挖掘研究的一個(gè)新動(dòng)態(tài)是與生物大分子數(shù)據(jù)庫(kù)進(jìn)行整合。如研究人員通過使用某些工具(TargetHunter等)在一些生物大分子數(shù)據(jù)庫(kù)中(如ChEMBL[12]、Protein Data Bank)發(fā)現(xiàn)一些結(jié)構(gòu)相似的蛋白或者其他有機(jī)分子,進(jìn)而預(yù)測(cè)這些分子可與相同的藥物或者配體結(jié)合,由此發(fā)現(xiàn)這些藥物可用于其他一些病理機(jī)制相似的疾病,從而發(fā)現(xiàn)藥物的新作用[5-6]。可以通過綜述[13]了解更多此方面應(yīng)用的例子。

      3.2 命名體識(shí)別工具

      命名體識(shí)別是將文獻(xiàn)中表示某一特定概念的一個(gè)名詞或者一個(gè)名詞集標(biāo)記并表示出來。由于一個(gè)生物實(shí)體可用多個(gè)不同關(guān)鍵詞表示,因此不僅需要識(shí)別出基因、蛋白、藥物等實(shí)體的名稱,還要將概念與某一個(gè)特定的生物實(shí)體標(biāo)識(shí)映射,即將文獻(xiàn)集中所有表示某一特定概念的關(guān)鍵詞都發(fā)掘出來[14]。

      目前也出現(xiàn)了很多用于命名體識(shí)別的工具,如Whatizit (http://www.ebi.ac.uk/webservices/whatizit),可以識(shí)別出使用者輸入的文本(MEDLINE摘要等模塊)中的術(shù)語,并將其與生物醫(yī)學(xué)數(shù)據(jù)庫(kù)中相對(duì)應(yīng)的實(shí)體名進(jìn)行鏈接[15]。

      Reflect (http://reflect.ws )主要用于標(biāo)識(shí)基因、蛋白質(zhì)以及一些小分子的名稱,使用者輸入名稱后,系統(tǒng)可以列出該名稱在網(wǎng)絡(luò)中的各種表達(dá)方式,及其結(jié)構(gòu)序列信息,供研究者使用[16]。

      3.3 關(guān)系抽取及網(wǎng)絡(luò)構(gòu)建工具

      關(guān)系抽取即利用特定工具或者方法將文獻(xiàn)中有關(guān)系的命名體連接起來,如可以提取出藥物與藥物、藥物與靶點(diǎn)等的關(guān)系,將多種實(shí)體根據(jù)相關(guān)關(guān)系進(jìn)行連接便可構(gòu)成網(wǎng)絡(luò)。

      Mantra(Mode of Action by Network Analysis,http://mantra.tigem.it)可用于構(gòu)建藥物網(wǎng)絡(luò)(節(jié)點(diǎn)是藥物,邊的距離值代表藥物之間的相似性)。用戶可直接輸入一種藥物作為參考藥物,提交之后系統(tǒng)會(huì)自動(dòng)檢索該藥物在Mantra數(shù)據(jù)庫(kù)中與該藥物作用方式相似的藥物構(gòu)建藥物網(wǎng)絡(luò),并提供可視化網(wǎng)絡(luò)視圖,用戶可根據(jù)藥物之間距離值大小及其是否屬于同一團(tuán)體發(fā)現(xiàn)與參考藥物有相似作用的新藥物[17]。如Francesco Iorio等人使用Mantra構(gòu)建藥物網(wǎng)絡(luò)的原理是通過不同藥物或者不同劑量的藥物使用之后基因表達(dá)譜之間的相似性發(fā)現(xiàn)不同藥物之間相似的作用方式及藥物的新作用。他們發(fā)現(xiàn)PHA-690509,、PHA-793887和PHA-848125等可以抑制CDK,并預(yù)測(cè)法舒地爾可以促進(jìn)細(xì)胞自噬[11]。

      DTome (Drug-Target interactome tool)是一個(gè)基于Web的工具,它利用Web查詢候選藥物,然后提取整合包括藥物不良反應(yīng)之間、藥物-靶點(diǎn)、藥物-基因以及靶點(diǎn)/基因-蛋白質(zhì)相互作用關(guān)系4種類型的相互作用關(guān)系構(gòu)建網(wǎng)絡(luò)[18]。Chu LH等人構(gòu)建的外周動(dòng)脈疾病(Peripheral Arterial Disease,PAD)的蛋白質(zhì)相互作用網(wǎng)絡(luò),可將該網(wǎng)絡(luò)與藥物-靶點(diǎn)關(guān)系相連接識(shí)別PAD潛在的藥物靶點(diǎn)。其中使用的藥物-靶點(diǎn)關(guān)系就是從DTome從Drugbank[19]和PharmGKB[20]中提取到的。該研究發(fā)現(xiàn)了一些潛在的可以治療PAD的促血管生成藥(如尿激酶和卡維地洛)和抗炎藥(如ACE抑制劑和maraviroc)及PAD的藥物作用靶點(diǎn)[21]。目前也出現(xiàn)了一些整合了命名體識(shí)別、關(guān)系抽取和網(wǎng)絡(luò)構(gòu)建功能的工具。如HiPub可以自動(dòng)識(shí)別和注釋文本中的的基因、蛋白、藥物等實(shí)體,并以文本中識(shí)別實(shí)體之間的關(guān)系構(gòu)建網(wǎng)絡(luò)。該工具的特點(diǎn)是允許用戶手動(dòng)添加相關(guān)文獻(xiàn)的實(shí)體,允許用戶自定義實(shí)體,并且提供其他資源的鏈接供用戶了解新的實(shí)體及關(guān)系[22]。

      4 應(yīng)用實(shí)例

      近年來已經(jīng)出現(xiàn)了大量利用文本挖掘技術(shù)進(jìn)行藥物重新定位的研究。Zhang M從OMIM和PubMed數(shù)據(jù)庫(kù)中獲取阿爾茲海默癥(AD)發(fā)病機(jī)制相關(guān)數(shù)據(jù),從DrugBank和Therapeutic Target數(shù)據(jù)庫(kù)中獲取藥物-靶點(diǎn)數(shù)據(jù),再使用公用的“組學(xué)”數(shù)據(jù)(包括基因組學(xué)、表觀基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)數(shù)據(jù))生成抗-AD蛋白列表。列表中包含524種AD相關(guān)蛋白質(zhì),其中18種可以作為75種現(xiàn)存藥物新的候選靶點(diǎn)。他們開發(fā)了一個(gè)排序算法對(duì)抗-AD靶點(diǎn)進(jìn)行排序,發(fā)現(xiàn)CD33和MIF可以作為現(xiàn)存的7種藥物的最強(qiáng)的候選靶點(diǎn),也發(fā)現(xiàn)了7種抑制抗-AD靶點(diǎn)的藥物,即這些藥物可被重新定位用于治療AD的認(rèn)知癥狀[23]。

      Sun P等總結(jié)了近年利用計(jì)算機(jī)方法進(jìn)行藥物重新定位的研究,介紹了一些可使用的數(shù)據(jù)資源和一種基于n-聚類的新的數(shù)據(jù)融合模型,將模型與語義文本挖掘進(jìn)行銜接。文章評(píng)價(jià)結(jié)果顯示,利用藥物-基因-疾病三角關(guān)系結(jié)合復(fù)雜的文獻(xiàn)分析是一種為藥物重新定位識(shí)別新的候選藥物的好方法[24]。

      5 結(jié)語

      隨著文獻(xiàn)的迅速增長(zhǎng),越來越多的知識(shí)將被隱藏在海量信息中。信息復(fù)雜程度的不斷增加也會(huì)使文本挖掘技術(shù)面臨更多困難,同時(shí)越來越多的相關(guān)工具及加工過的數(shù)據(jù)庫(kù)也不斷出現(xiàn),為人們提供更多解決問題的途徑。現(xiàn)在利用文本挖掘進(jìn)行藥物重新定位可使用的大部分工具只能用于執(zhí)行其中一到兩個(gè)步驟。隨著人們對(duì)應(yīng)用文本挖掘進(jìn)行藥物重新定位研究的不斷深入,將會(huì)出現(xiàn)越來越多的整合工具,更便于人們利用,以發(fā)現(xiàn)藥物新的適應(yīng)癥。

      文本挖掘?yàn)樾畔⒎治鎏峁┝死?,更有利于信息專業(yè)人員有針對(duì)性地為生物醫(yī)學(xué)提供咨詢服務(wù)、開展專題研究。藥物重新定位只是其中的一個(gè)案例,醫(yī)學(xué)信息專業(yè)人員應(yīng)抓住機(jī)會(huì),充分利用手中掌握的資源和工具,站到生物醫(yī)學(xué)數(shù)據(jù)挖掘的前沿。

      猜你喜歡
      副作用靶點(diǎn)工具
      徐長(zhǎng)風(fēng):核苷酸類似物的副作用
      肝博士(2022年3期)2022-06-30 02:48:28
      維生素D受體或是糖尿病治療的新靶點(diǎn)
      中老年保健(2021年3期)2021-12-03 02:32:25
      腫瘤免疫治療發(fā)現(xiàn)新潛在靶點(diǎn)
      波比的工具
      波比的工具
      當(dāng)心緊急避孕藥的副作用
      “巧用”工具
      讀者(2017年18期)2017-08-29 21:22:03
      心力衰竭的分子重構(gòu)機(jī)制及其潛在的治療靶點(diǎn)
      彼格梨
      氫化可的松嚴(yán)重副作用1例
      应城市| 沁源县| 富民县| 屯昌县| 甘肃省| 连江县| 平果县| 邵武市| 锡林郭勒盟| 张家界市| 云南省| 郴州市| 铜山县| 天津市| 合作市| 东丰县| 从江县| 韶山市| 辰溪县| 武定县| 抚宁县| 介休市| 久治县| 体育| 海晏县| 新化县| 开江县| 元阳县| 登封市| 峨边| 枣庄市| 乐清市| 旺苍县| 华坪县| 班玛县| 芒康县| 兴海县| 长治市| 湖北省| 敦化市| 黄陵县|