• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    NMF模型在挖掘基因功能關(guān)系中的研究與應(yīng)用

    2014-02-09 07:47:00孫澤強(qiáng)謝紅薇郝曉燕
    關(guān)鍵詞:術(shù)語特征值分類器

    孫澤強(qiáng),謝紅薇,郝曉燕

    (太原理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西太原030024)

    0 引 言

    隨著生物醫(yī)學(xué)文獻(xiàn)的快速增長和學(xué)科界限的打破,跟蹤這些新的發(fā)現(xiàn)就成了一個(gè)很大的挑戰(zhàn)。此外,有關(guān)染色體組和蛋白質(zhì)組的技術(shù)的最新發(fā)展,以及大量染色體組信息涌入生物醫(yī)學(xué)研究,使得我們很難判斷基因之間復(fù)雜的功能關(guān)系。由于這方面的研究既費(fèi)時(shí)又昂貴,所以盡可能地從現(xiàn)有的文獻(xiàn)中挖掘信息變得越來越重要。為了幫助研究人員利用現(xiàn)有的生物醫(yī)學(xué)文獻(xiàn)和基因組信息,已經(jīng)有大量的人力物力投入到了開發(fā)有效的數(shù)據(jù)挖掘工具中。

    Semantic gene organizer(SGO)是一種最有效的工具之一,使用潛在語義索引(LSI),執(zhí)行截?cái)嗥娈愔捣纸猓⊿VD),提取和篩選基因之間的功能關(guān)系[1]。Xu lijing等人驗(yàn)證了使用LSI從生物醫(yī)學(xué)文獻(xiàn)中提取明確的(直接)和隱藏的(間接)基因之間的功能關(guān)系的有效性?;镜腟VD分解技術(shù)是將一個(gè)術(shù)語-基因文檔矩陣分解為一系列新的因子矩陣,在低維子空間中,這些因子矩陣既可以用來描述術(shù)語,也可以用來描述文檔。然而,很難直觀地解釋LSI的因子。LSI可以確定哪些基因是相關(guān)的,卻很難說明這些基因?yàn)槭裁聪嚓P(guān)。

    Li Fang使用非負(fù)矩陣分解(NMF)的方法,保持了原始數(shù)據(jù)矩陣的非負(fù)性[2]。NMF產(chǎn)生的低階因子矩陣也被解釋為數(shù)據(jù)的一部分,這種特性在科學(xué)、工程和醫(yī)學(xué)等許多領(lǐng)域得到應(yīng)用[3]。最近,NMF被廣泛地應(yīng)用在生物信息學(xué)領(lǐng)域中的,包括基因表達(dá)數(shù)據(jù)的分析,序列的分析,基因列表的功能特性和文本挖掘[4-9]。Kang等人已經(jīng)證實(shí)了NMF方法在生物醫(yī)學(xué)文獻(xiàn)的語義特征提取中的有效性[7]。

    于是,我們將NMF方法應(yīng)用到挖掘文獻(xiàn)中復(fù)雜的基因之間的功能關(guān)系,這樣不僅可以確定哪些基因是相關(guān)的,還能巧妙地利用NMF產(chǎn)生的低階因子矩陣,解釋為什么這些基因相關(guān),以及表示它們之間的相關(guān)程度。

    1 GFRA的設(shè)計(jì)思路

    在這項(xiàng)研究中,我們開發(fā)了一個(gè)基于Web的生物信息學(xué)軟件環(huán)境,叫做基因功能關(guān)系助手(GFRA),便于發(fā)現(xiàn)基因之間的功能關(guān)系并根據(jù)基因之間的相關(guān)程度將其分類。GFRA可以挖掘出術(shù)語-基因文檔數(shù)據(jù)的非負(fù)矩陣,并使用NMF方法提取出不同術(shù)語-基因文檔數(shù)據(jù)中相關(guān)詞的概念特征值。簡單地說,給定一個(gè)m×n維非負(fù)矩陣A和一個(gè)整數(shù)k,滿足0<k<min(m,n),我們要找到一個(gè)m×k維非負(fù)矩陣W和一個(gè)k×n維非負(fù)矩陣H,使得下列函數(shù)取得最小值:這樣就把這個(gè)問題轉(zhuǎn)化為可計(jì)算的問題,我們使用迭代法,不僅可以產(chǎn)生良好的數(shù)學(xué)近似模型,還能提供寶貴的生物信息。

    GFRA的工作流設(shè)計(jì)如圖1所示。由GFRA用戶提供一個(gè)基因列表,使用和SGO同樣的方法創(chuàng)建一個(gè)術(shù)語-基因文檔矩陣,基于這個(gè)術(shù)語-基因文檔矩陣建立NMF模型。簡單地說,在Entrez Gene中查找和基因表中的所有基因相關(guān)的題目和摘要。目前,為了避免多義術(shù)語(一個(gè)術(shù)語有多重含義)和同義術(shù)語(多個(gè)術(shù)語的含義相同)的問題,這些摘要必須經(jīng)過人工刪除含義不明確的術(shù)語。將來要實(shí)現(xiàn)自動(dòng)化處理摘要數(shù)據(jù)。將與一個(gè)特定基因相關(guān)的標(biāo)題和摘要連接在一個(gè)基因文檔中,用當(dāng)前C++版本的通用文本解析器(GTP)將基因文檔的集合解析為術(shù)語[10]。用非負(fù)的權(quán)值來表示一個(gè)術(shù)語和相應(yīng)基因文檔的關(guān)系,這些權(quán)值作為矩陣的元素,就形成了術(shù)語-基因文檔矩陣。通過給特定的術(shù)語賦更大的權(quán)值,可以降低噪聲術(shù)語的影響[11]。使用NMF方法分解術(shù)語-基因文檔矩陣[12],將原始矩陣分解為因子矩陣,生成基因文檔集合相應(yīng)的k階NMF模型。目前,GFRA分別取k的值為10、15和20,表示低、中、高解析率的NMF模型。以后,我們將根據(jù)用戶的反饋確定k的合適的取值范圍。用NMF模型提取與k個(gè)特征值對應(yīng)的主術(shù)語和主基因,將主基因和每個(gè)特征值建立聯(lián)系,GFRA用戶對特征值添加注釋。GFRA分類器就可以用帶注釋的NMF模型來確定新基因文檔的概念特征值。

    2 GFRA的工作過程

    GFRA生物信息學(xué)軟件環(huán)境的基礎(chǔ)框架已建成,描述如下:

    2.1 提取概念特征值

    由于NMF模型具有非負(fù)性,所以可以從術(shù)語-特征值矩陣(W)中提取出概念特征值。稀疏矩陣的每一列(特征值)表示一個(gè)術(shù)語子集,從而形成了一種確定的術(shù)語使用模式。這種模式可以幫助GFRA用戶確定特征值對應(yīng)的概念。例如,一個(gè)包含了蚊子,瘧原蟲,血液,和奎寧的術(shù)語的特征值可能描述的是一種叫瘧疾的疾病。一旦用戶根據(jù)主術(shù)語識別出特定的特征值,這個(gè)特征值就可以解釋成更具實(shí)際意義的術(shù)語(比如乳腺癌)而不是默認(rèn)的標(biāo)簽(特征值5),以備將來參考。圖2中是一些概念特征值和50TG的基因文檔集(數(shù)據(jù)集1)中與這些特征值最相關(guān)的術(shù)語。用戶可以用濾熵器來了解術(shù)語在整個(gè)過程中是如何使用的。如果一個(gè)術(shù)語以同樣的方式出現(xiàn)在所有文件中,那么它很可能不是一個(gè)特別好的模型指標(biāo),所以賦給它一個(gè)低的熵權(quán)。高熵權(quán)的術(shù)語更明確,更有實(shí)際意義。這個(gè)濾熵器選項(xiàng)可以幫助用戶選出更重要的特征值。

    2.2 發(fā)掘關(guān)聯(lián)基因

    我們可以從特征值-基因矩陣(H)中提取出與每個(gè)特征值最相關(guān)的所有基因,同時(shí),多個(gè)特征值也可以描述同一個(gè)基因。H矩陣的元素決定了基因和特征值的關(guān)系強(qiáng)度。有相同特征值的不同基因可能在功能上有一定的關(guān)聯(lián)。圖3列出了與特征值2最相關(guān)的基因和50TG的基因文檔集中最相關(guān)的術(shù)語。

    圖2 概念特征值和與之最相關(guān)的術(shù)語

    圖3 與特征值2最相關(guān)的基因和術(shù)語列表

    2.3 探尋基因之間的關(guān)系

    上述內(nèi)容描述了GFRA識別基因子集的過程。為了明確對于用戶選擇的特征值i,基因之間的關(guān)系強(qiáng)度,我們使用Pearson關(guān)系系數(shù)r來估計(jì)基因x和基因y的關(guān)系對于所有被用戶選擇的n個(gè)特征值,r的計(jì)算方法如下所示

    這樣就生成了一個(gè)所有基因的Pearson關(guān)系矩陣。為了便于可視化分析,我們對相互關(guān)系進(jìn)行了顏色編碼,即關(guān)系越強(qiáng),紅色越深。用戶可以選擇3個(gè)以上的特征值組合查看,系統(tǒng)默認(rèn)選擇和用戶所選的特征值相鄰的左右兩個(gè)特征值。選擇前5個(gè)特征值組合查看,生成的50TG的基因文檔集中與特征值2相關(guān)的所有基因的關(guān)系矩陣如圖4所示。

    GFRA的另外一個(gè)重要的功能是解釋為什么一個(gè)基因的子集是相關(guān)的。兩對基因?qū)﹃P(guān)于某個(gè)特征值有不同的關(guān)系強(qiáng)度,但是從整體上看,這兩對基因?qū)赡苡蓄愃频年P(guān)系強(qiáng)度。用戶可以點(diǎn)擊關(guān)聯(lián)單元格查看基因?qū)﹃P(guān)于所有特征值的關(guān)系強(qiáng)度。

    2.4 給新的基因文檔分類

    新加入基因文檔集的基因文檔可以直接進(jìn)行分析,而無需更新NMF模型。將新的文檔數(shù)據(jù)流輸入GFRA分類器,根據(jù)帶注釋的特征值,就可以確定這些新的基因文檔對應(yīng)的特征值。

    3 實(shí)驗(yàn)結(jié)果的評價(jià)分析

    我們用已知功能關(guān)系的基因,手動(dòng)構(gòu)建了3個(gè)基因文檔數(shù)據(jù)集,用于初步評估GFRA的特征值分類器。第一個(gè)數(shù)據(jù)集(50TG)是一個(gè)由50個(gè)手動(dòng)選擇的基因組成的基因文檔集合,這些基因與細(xì)胞生長,阿爾茨海默氏癥,癌癥生物學(xué)相關(guān)[1]。第二個(gè)數(shù)據(jù)集是從Biocarta,Gene Ontology和MeSH數(shù)據(jù)庫中抽取出的3個(gè)不重疊的基因列表。第三個(gè)數(shù)據(jù)集是從Nature Reviews文章中選出的5個(gè)基因列表。表1是這3個(gè)數(shù)據(jù)集的分類情況。

    圖4 與特征值2相關(guān)的所有基因的關(guān)系矩陣

    對于每個(gè)數(shù)據(jù)集,分別取k=10,15,20,30,40和50,生成6個(gè)NMF模型。根據(jù)特征值的主術(shù)語,為NMF模型中的特征值手動(dòng)添加注釋,并分為一個(gè)或者多個(gè)類別。然后,根據(jù)這些已經(jīng)注釋的特征值,將數(shù)據(jù)集中的基因分配到與其關(guān)系強(qiáng)度最大(矩陣H的列元素最大)的類別中。例如,如果基因x在矩陣H中對應(yīng)的列元素的最大值對應(yīng)的特征值是i,那么說明基因x與特征值i的關(guān)系強(qiáng)度最大,就把基因x分配到特征值i所標(biāo)識的類別中。GFRA分類器用最強(qiáng)特征值法分別對數(shù)據(jù)集1,2和3中的基因進(jìn)行了分類,分類準(zhǔn)確率如圖5所示,橫坐標(biāo)表示不同階數(shù)k對應(yīng)的NMF模型,縱坐標(biāo)表示每種NMF模型對不同數(shù)據(jù)集分類得到的準(zhǔn)確率,取k=30,得到的準(zhǔn)確率分別為98%,88.2%和86.4%。從圖5可以看出,當(dāng)階數(shù)k=10時(shí),分類器的準(zhǔn)確率比較低,隨著k值的增加,準(zhǔn)確率逐漸提升,當(dāng)階數(shù)k大于等于30時(shí),準(zhǔn)確率基本穩(wěn)定,并保持較高水平。實(shí)驗(yàn)結(jié)果說明選取足夠大的適當(dāng)?shù)碾A數(shù),可以達(dá)到預(yù)期的分類效果。

    我們還用多特征值法分別對數(shù)據(jù)集1,2和3中的基因進(jìn)行了分類。首先,找出每個(gè)特征值在矩陣H中的最大行元素(max H)對應(yīng)的基因,設(shè)定一個(gè)閾值范圍H>(max H)×系數(shù)q(其中0<q≤1),僅保留該行元素值在這個(gè)范圍內(nèi)的對應(yīng)的其它基因。然后,對于每個(gè)基因,取所有與這個(gè)基因相關(guān)聯(lián)并且在閾值范圍內(nèi)的所有特征值,然后根據(jù)這些特征值的標(biāo)識,將這個(gè)基因歸類。由于一個(gè)基因可能被分到幾個(gè)不同類別中,所以我們用一個(gè)模糊方式對分類的準(zhǔn)確率進(jìn)行評估。如果分配給一個(gè)基因x的類別不包含正確的類別,那么基因x的分類正確性Ax為0。如果分配給一個(gè)基因x的類別包含正確的類別,那么基因x的分類正確性Ax為1/s,s表示分配給基因x的類別數(shù)。用t表示基因數(shù)目,總準(zhǔn)確率A的計(jì)算方法如下所示

    表1 數(shù)據(jù)集的分類情況

    圖5 GFRA分類器用最強(qiáng)特征值法得到的準(zhǔn)確率

    圖6所示的是GFRA分類器用多特征值法得到的準(zhǔn)確率,橫坐標(biāo)表示不同階數(shù)k對應(yīng)的NMF模型,縱坐標(biāo)表示每種NMF模型采用不同系數(shù)值得到的分類準(zhǔn)確率。取系數(shù)q為1.0,數(shù)據(jù)集1,2和3的準(zhǔn)確率分別為78%-100%,71.6%-97.1%和42.7%-80.9%。整體上看,階數(shù)相同的NMF模型隨著系數(shù)值的增加,準(zhǔn)確率逐漸提升。實(shí)驗(yàn)結(jié)果說明設(shè)定的閾值范圍越高,分類效果越好。

    圖6 GFRA分類器用多特征值法得到的準(zhǔn)確率

    4 結(jié)束語

    給定一個(gè)基因列表,研究人員能夠用GFRA來確定哪些基因是相關(guān)的,在滿足一定精度要求的情況下,按功能將這些基因分類。我們已經(jīng)分析了NMF模型的秩對分類結(jié)果的影響,考慮生成一個(gè)控制術(shù)語表,用于GFRA的分類功能,以滿足相應(yīng)目標(biāo)函數(shù)的平滑性約束,保留熵值比較高的術(shù)語。GFRA不僅可以幫助研究人員有效的使用生物醫(yī)學(xué)文獻(xiàn),而且還有知識發(fā)現(xiàn)的功能。

    [1]Xu L,F(xiàn)urlotte N,Lin Y,et al.Functional cohesion of gene sets determined by latent semantic indexing of Pub Med abstracts[J].PloS One,2011,6(4):e18851.

    [2]Li F,Zhu Q,Lin X.Topic discovery in research literature based on non-negative matrix factorization and testor theory[C]//Information Processing Asia-Pacific Conference on,2009:266-269.

    [3]Jeon K M,Park N I,Kim H K,et al.Mechanical noise suppression based on non-negative matrix factorization and multi-band spectral subtraction for digital cameras[J].IEEE Transactions on Consumer Electronics,2013,59(2):296-302.

    [4]ZHANG Zhongyuan,ZHANG Xiangsun.NMF-based method for data classification[J].Computer Engineering and Applications,2010,46(16):245-248(in Chinese).[張忠元,章祥蓀.NMF的數(shù)據(jù)分類方法在腫瘤分類上的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(16):245-248.]

    [5]TAO Weijie,KONG Wei.Discovering gene expression regulatory networks of incipient AD based on NMF[J].Journal of Anhui University:Natural Science Edition,2012,36(1):69-75(in Chinese).[陶偉杰,孔薇.基于NMF技術(shù)探尋早期AD基因表達(dá)調(diào)控網(wǎng)絡(luò)[J].安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,36(1):69-75.]

    [6]CAO Shengyu,LIU Laifu.Non-negative matrix factorization and its applications to gene expression data analysis[J].Journal of Beijing Normal University:Natural Science,2007,43(1):30-33(in Chinese).[曹勝玉,劉來福.非負(fù)矩陣分解及其在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,43(1):30-33.]

    [7]Kang B C,Sur Z W,Park C,et al.Document clustering of MEDLINE abstracts based on non-negative matrix factorization using local confidence assessment[J].BioChip Journal,2010,4(4):336-349.

    [8]GAO Maoting,WANG Zheng'ou.Comparing dimension reduction methods of text feature matrix[J].Computer Engineering and Applications,2006(30):157-159(in Chinese).[高茂庭,王正鷗.幾種文本特征降維方法的比較分析[J].計(jì)算機(jī)工程與應(yīng)用,2006(30):157-159.]

    [9]SHI Jinlong,LUO Zhigang.Research on the advances of nonnegative matrix factorization and its application in bioinformatics[J].Computer Engineering and Science,2010,32(8):117-123(in Chinese).[石金龍,駱志剛.非負(fù)矩陣分解算法及其在生物信息學(xué)中的應(yīng)用研究[J].計(jì)算機(jī)工程與科學(xué),2010,32(8):117-123.]

    [10]Manine,A P,Alphonse E,Bessieres P.Learning ontological rules to extract multiple relations of genic interactions from text[J].International Journal of Medical Informatics,2009,78(12):31-38.

    [11]Wang Y X,Zhang Y J.Image inpainting via weighted sparse non-negative matrix factorization[C]//18th IEEE International Conference on Image Processing,2011:3409-3412.

    [12]Heinrich K E,Berry M W,Homayouni R.Gene tree labeling using nonnegative matrix factorization on biomedical literature[J].Computational Intelligence and Neuroscience,2008(2008):12.

    猜你喜歡
    術(shù)語特征值分類器
    一類帶強(qiáng)制位勢的p-Laplace特征值問題
    單圈圖關(guān)聯(lián)矩陣的特征值
    BP-GA光照分類器在車道線識別中的應(yīng)用
    電子測試(2018年1期)2018-04-18 11:52:35
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    基于商奇異值分解的一類二次特征值反問題
    關(guān)于兩個(gè)M-矩陣Hadamard積的特征值的新估計(jì)
    基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
    有感于幾個(gè)術(shù)語的定名與應(yīng)用
    從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
    称多县| 宾阳县| 濉溪县| 当涂县| 琼结县| 东山县| 万安县| 镇赉县| 海兴县| 玛纳斯县| 永平县| 大邑县| 高淳县| 平凉市| 赤壁市| 贡山| 广丰县| 九龙城区| 当阳市| 奈曼旗| 岑巩县| 南丰县| 遵义县| 武川县| 吉安县| 台东市| 丹阳市| 张家界市| 泽州县| 洛阳市| 元江| 平安县| 泽州县| 石林| 大兴区| 武川县| 酒泉市| 靖边县| 和静县| 天气| 高尔夫|