• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    云計(jì)算下的基因測(cè)序數(shù)據(jù)并行化生成方法

    2022-03-15 10:31:00劉志明
    計(jì)算機(jī)仿真 2022年2期
    關(guān)鍵詞:預(yù)處理測(cè)序聚類(lèi)

    劉志明,冉 昊

    (1.吉林建筑大學(xué)電氣與計(jì)算機(jī)學(xué)院,吉林 長(zhǎng)春 130118;2.吉林建筑大學(xué),吉林 長(zhǎng)春 130118)

    1 引言

    基因測(cè)序生成的數(shù)據(jù)能夠體現(xiàn)出個(gè)體行為特性,對(duì)疾病的早期篩查起到關(guān)鍵作用?;蜃鳛樽罨A(chǔ)的遺傳單位,體現(xiàn)出各類(lèi)遺傳信息特征,是一段功能性較強(qiáng)的DNA序列。測(cè)序技術(shù)的發(fā)展促使生命科學(xué)進(jìn)一步發(fā)生巨大改變?;驕y(cè)序就是利用有效的測(cè)序手段采集DNA序列,并將化學(xué)信號(hào)變換為可令計(jì)算機(jī)識(shí)別的數(shù)字信號(hào)的程序,在生物學(xué)多個(gè)領(lǐng)域被廣泛應(yīng)用。此外,基因測(cè)序還與人們生活密切相關(guān),利用此技術(shù)不但可以劃分人種,還能輔助醫(yī)學(xué)診斷,為細(xì)胞移植提供準(zhǔn)確配型數(shù)據(jù)。但隨基因組數(shù)的飛速增長(zhǎng),每半年左右就會(huì)提高一倍,增加測(cè)序數(shù)據(jù)生成的負(fù)擔(dān),其中會(huì)生成大量冗余數(shù)據(jù),降低數(shù)據(jù)生成速度與精度。

    為解決上述問(wèn)題,相關(guān)領(lǐng)域?qū)W者提出一些解決方案。例如,郭茂祖等人[1]提出基于RNA-Seq的轉(zhuǎn)錄組分析方案。通過(guò)對(duì)初始基因數(shù)據(jù)的質(zhì)控與定量計(jì)算,完成數(shù)據(jù)預(yù)處理;分析其差異表達(dá),實(shí)現(xiàn)基因篩選;使用統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)兩種方式對(duì)高層差異基因做進(jìn)一步處理,采用富集分析形式明確基因功能與調(diào)控網(wǎng)絡(luò),輸出最終生成的測(cè)序數(shù)據(jù)。肖穎等人[2]提出基于貝葉斯分析的基因測(cè)序數(shù)據(jù)生成方法。結(jié)合基因表達(dá)信息,建立基因均值差序列,構(gòu)建貝葉斯分層混合模型,同時(shí)為模型參數(shù)賦予先驗(yàn)信息;通過(guò)馬爾科夫鏈算法完成模型參數(shù)估計(jì),生成測(cè)序數(shù)據(jù)。但基因數(shù)據(jù)的驚人增長(zhǎng)速度對(duì)測(cè)序生成化方法的運(yùn)算速度與成本要求逐漸提高。

    為此本文將云計(jì)算引入到生物信息領(lǐng)域,利用虛擬技術(shù)將云端服務(wù)器與網(wǎng)絡(luò)相連,不需要大量的人工對(duì)其管理,降低成本,擴(kuò)大儲(chǔ)存空間,在云計(jì)算架構(gòu)下完成初始基因數(shù)據(jù)預(yù)處理,并結(jié)合聚類(lèi)算法生成測(cè)序數(shù)據(jù),優(yōu)化生成速度和質(zhì)量。

    2 基于主成分分析的初始數(shù)據(jù)預(yù)處理

    基因芯片的發(fā)展使基因數(shù)據(jù)可以被迅速測(cè)序,生成基因陣列[3]。這些初始基因數(shù)據(jù)維數(shù)較高,具有一定噪聲,導(dǎo)致生成的測(cè)序數(shù)據(jù)無(wú)法將生物學(xué)的有效信息直觀地傳達(dá)給研究人員。要想實(shí)現(xiàn)測(cè)序數(shù)據(jù)的快速、精確生成,必須使用特定方式對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,降低維數(shù),使生成的測(cè)序數(shù)據(jù)更能體現(xiàn)基因特征。

    本文利用主成分分析法完成初始數(shù)據(jù)預(yù)處理,該方法的核心為將多個(gè)變量變換為少數(shù)綜合性評(píng)價(jià)指標(biāo)[4],通過(guò)獲取的指標(biāo)數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)處理。這些指標(biāo)是基于初始數(shù)據(jù),經(jīng)特殊數(shù)據(jù)處理后,獲得體現(xiàn)整體特征的指標(biāo)。因此,此種方法的本質(zhì)也屬于一種分類(lèi)降維手段。

    主成分分析是將數(shù)據(jù)原有的相關(guān)性指標(biāo)利用線性組合[5]方式,轉(zhuǎn)換為一組不具備關(guān)聯(lián)性的綜合指標(biāo),來(lái)體現(xiàn)初始數(shù)據(jù)集合的整體特性。

    設(shè)定共存在n個(gè)樣本,任意一個(gè)樣本具備p個(gè)特征向量,樣本相對(duì)的特征值表示為X1,X2,…Xp,初始特征子集的表達(dá)式如下

    (1)

    利用上述特征集合的列向量X1,X2,…,Xp進(jìn)行線性組合,獲得不同組合形式,得出多個(gè)綜合數(shù)據(jù)指標(biāo)

    (2)

    式中,ai代表單位向量,且滿(mǎn)足如下條件

    (3)

    全部線性組合形成的指標(biāo)向量之間存在的協(xié)方差等于0,彼此互不關(guān)聯(lián)。此外,基于上述約束條件,將所有指標(biāo)向量中具有最大方差的線性組合當(dāng)作首要主成分,并以此類(lèi)推即可獲得預(yù)先設(shè)置的前K個(gè)主成分F1,F(xiàn)2,…,F(xiàn)K。這些主成分根據(jù)表示的初始特征數(shù)量逐次遞減,而特征數(shù)量需利用主成分方差評(píng)估,也就是取決于初始相關(guān)系數(shù)矩陣中表示特征的值λi,該值越大,表明主成分體現(xiàn)信息的性能越強(qiáng)。

    綜上,獲取的主成分?jǐn)?shù)據(jù)必須存在特征值λi,通過(guò)λi確定最終被選出的綜合向量。計(jì)算過(guò)程如下:

    步驟一:獲取與特征集合相對(duì)的相關(guān)系數(shù)矩陣

    (4)

    式中,rij可通過(guò)下述公式獲取

    (5)

    步驟二:對(duì)于上述矩陣,利用雅可比法計(jì)算出特征值[6]與向量,同時(shí)將特征值根據(jù)大小排序λ1≥λ2…≥λp>0,則與其相對(duì)的特征向量表示為

    (6)

    如果事先從初始特征集合內(nèi)挑選m個(gè)主成分完成分為操作,當(dāng)計(jì)算出矩陣的特征值與向量后,通過(guò)下述公式獲取每種線性組合方法的方差貢獻(xiàn)值

    (7)

    再通過(guò)下述公式獲取前m個(gè)主成分方差貢獻(xiàn)率的累計(jì)值

    (8)

    通常情況下,式(8)的值高于85%,即可較好表示整體初始基因數(shù)據(jù)的基礎(chǔ)信息。

    步驟三:采用式(9)對(duì)獲得的主成分?jǐn)?shù)據(jù)做標(biāo)準(zhǔn)化處理

    (9)

    3 基于云計(jì)算的基因測(cè)序數(shù)據(jù)并行化生成

    3.1 云平臺(tái)架構(gòu)設(shè)計(jì)

    云計(jì)算下的集群框架[7]通常包括集中式與對(duì)等式[8]。本文設(shè)計(jì)的云架構(gòu)將虛擬化服務(wù)當(dāng)作核心,因此選取集群式架構(gòu)。要求網(wǎng)絡(luò)中所有節(jié)點(diǎn)必須具備完整服務(wù),當(dāng)有消息產(chǎn)生時(shí),響應(yīng)節(jié)點(diǎn)需立即將數(shù)據(jù)傳輸?shù)狡渌?jié)點(diǎn)中,保證網(wǎng)絡(luò)數(shù)據(jù)具有高度一致性。本文設(shè)計(jì)的云架構(gòu)如圖1所示,包括應(yīng)用層、服務(wù)層與資源層。其中服務(wù)層可構(gòu)建通用服務(wù)接口,實(shí)現(xiàn)本地通信;資源層為平臺(tái)提供處理器等資源;應(yīng)用層則利用開(kāi)發(fā)工具接口調(diào)試相應(yīng)服務(wù)。

    圖1 云平臺(tái)架構(gòu)示意圖

    在上述云架構(gòu)中,云平臺(tái)共包括七個(gè)組件,各組件功能如下:

    1)訪問(wèn)接口:為用戶(hù)提供訪問(wèn)的方式,可實(shí)現(xiàn)平臺(tái)運(yùn)行狀態(tài)監(jiān)測(cè)、數(shù)據(jù)生成進(jìn)度跟蹤、文件訪問(wèn)等功能。

    2)信息服務(wù):監(jiān)測(cè)云平臺(tái)是否穩(wěn)定運(yùn)行,采集每個(gè)節(jié)點(diǎn)的運(yùn)行狀況;

    3)注冊(cè)服務(wù):云平臺(tái)構(gòu)建過(guò)程、申請(qǐng)?zhí)摂M機(jī);

    4)任務(wù)提交:獲取用戶(hù)提交的請(qǐng)求,分析任務(wù)目標(biāo),并將任務(wù)轉(zhuǎn)移到虛擬機(jī)節(jié)點(diǎn);

    5)文件服務(wù):在執(zhí)行任務(wù)過(guò)程中將用戶(hù)相關(guān)文件發(fā)送到執(zhí)行節(jié)點(diǎn);

    6)虛擬機(jī)部署[9]:研究用戶(hù)提交的虛擬機(jī)要求,評(píng)估資源信息,確定最佳主機(jī),完成虛擬機(jī)部署;

    7)任務(wù)操作:操作用戶(hù)提交的任務(wù),監(jiān)控執(zhí)行狀態(tài),再將結(jié)果返回到用戶(hù)端。

    以上七個(gè)功能不是獨(dú)立存在的,必須緊密配合才能完成云平臺(tái)各種服務(wù)。

    3.2 基因測(cè)序數(shù)據(jù)質(zhì)量控制策略

    要使生成數(shù)據(jù)更加精準(zhǔn)地描述基因特征信息,在數(shù)據(jù)生成之前需對(duì)其進(jìn)行質(zhì)量控制。本文結(jié)合基因數(shù)據(jù)發(fā)展特征,按照相關(guān)規(guī)則與標(biāo)準(zhǔn)提出了基因測(cè)序數(shù)據(jù)生成質(zhì)量控制策略。

    利用多模型方法給出序列質(zhì)量測(cè)評(píng)報(bào)告供審批人員參考。從可能污染物[10]測(cè)算、假基因測(cè)算、相似度計(jì)算等方面共同實(shí)現(xiàn)測(cè)序數(shù)據(jù)質(zhì)量控制。

    1)驗(yàn)證是否存在終止密碼子與污染物

    在經(jīng)過(guò)預(yù)處理后的DNA數(shù)據(jù)中,終止密碼子包括TAG、TAA與TGA三種片段。若其中包括這些片段則表明含有終止密碼子,該基因可能屬于假基因。

    污染物通常指某序列對(duì)分為前后兩段,如果某序列的首端與末端不一致,則判斷其中含有一定污染物。

    2)結(jié)合序列的Trace Files評(píng)估序列質(zhì)量

    利用Phred程序即可讀出Trace Files,并將待生成數(shù)據(jù)應(yīng)有的質(zhì)量分?jǐn)?shù)保存到文檔中。

    3.3 并行化生成

    在云計(jì)算架構(gòu)中,將總的生成任務(wù)劃分成多個(gè)子塊,在并行能力較強(qiáng)的節(jié)點(diǎn)上,將任務(wù)分配給處理器,最終達(dá)到提高生成速度的目的。

    結(jié)合聚類(lèi)方法的反單調(diào)性,將最小子矩陣(2*2子陣)作為出發(fā)點(diǎn),使用閾值δ依次判別能否形成聚類(lèi),若可以實(shí)現(xiàn)聚類(lèi),則輸出生成數(shù)據(jù);反之結(jié)合反單調(diào)性,無(wú)法繼續(xù)形成聚類(lèi),將其去除或不做任何處理。

    針對(duì)某聚類(lèi)R,若對(duì)其加入一行或一列,可以形成更大聚類(lèi),將此過(guò)程稱(chēng)作對(duì)R的擴(kuò)展行為。對(duì)于無(wú)法擴(kuò)展的聚類(lèi),其本身就屬于最大聚類(lèi),將其保存;對(duì)于可進(jìn)一步擴(kuò)展的聚類(lèi),在擴(kuò)展完成后,對(duì)其刪除,同時(shí)對(duì)擴(kuò)展形成的聚類(lèi)做進(jìn)一步處理。

    對(duì)于某構(gòu)成聚類(lèi)的子矩陣〈I,J〉,其層號(hào)level(I,J)表示為

    (10)

    在對(duì)〈I,J〉擴(kuò)展過(guò)程中,為防止可能生成的聚類(lèi)丟失,對(duì)其行與列的擴(kuò)展操作不能同時(shí)進(jìn)行。例如在矩陣A中

    (11)

    假設(shè)δ=1,I={1,2,3},J={1,2,3},div(I,J)=0<δ,〈I,J〉形成聚類(lèi),在對(duì)其擴(kuò)展過(guò)程中,同時(shí)將I擴(kuò)展到I′={1,2,3,4},J′={1,2,3,4},因?yàn)閐iv(I′,J′)=3>δ無(wú)法生成聚類(lèi),但若單獨(dú)對(duì)〈I,J〉進(jìn)行擴(kuò)展,獲得〈I′,J〉,此時(shí)div(I′,J)=0<δ,〈I′,J〉即為一個(gè)聚類(lèi)。同理對(duì)〈I,J〉的列進(jìn)行單獨(dú)擴(kuò)展,獲得〈I,J′〉,由于div(I,J′)=0<δ,〈I,J′〉也會(huì)生成聚類(lèi)。但對(duì)〈I,J〉進(jìn)行同步擴(kuò)展,這兩個(gè)聚類(lèi)便會(huì)丟失。

    為解決上述問(wèn)題,同時(shí)引入兩個(gè)表R′與C′來(lái)記錄滿(mǎn)足擴(kuò)展要求的聚類(lèi)。在此方法中,當(dāng)?shù)趇′層聚類(lèi)〈I,J〉擴(kuò)展為i′+1層聚類(lèi)〈I′,J′〉時(shí),不需考慮〈I′,J′〉是否由〈I,J〉同時(shí)擴(kuò)展得出的,〈I′,J′〉均需被保存到擴(kuò)展表R′與C′表中。

    當(dāng)處理第i′層擴(kuò)展聚類(lèi)時(shí),對(duì)R′與C′表中全部第i′層的待擴(kuò)展聚類(lèi)執(zhí)行所有擴(kuò)展操作,獲得新的第i′+1層聚類(lèi),將其保存到R′與C′中。當(dāng)?shù)趇′層完成操作時(shí),若第i′層內(nèi)某聚類(lèi)〈I,J〉被擴(kuò)展生成新聚類(lèi),表明〈I,J〉并不是最大聚類(lèi),可被去除。

    (12)

    結(jié)合每層擴(kuò)展操作獲取的新聚類(lèi)〈I,J〉,對(duì)ME(I,j),j∈J與ME(I,i′),i′∈J進(jìn)行計(jì)算,生成并行化測(cè)序數(shù)據(jù)

    (13)

    (14)

    4 仿真分析

    為證明基于云計(jì)算的基因測(cè)序數(shù)據(jù)并行生成方法性能,利用Hadoop集群進(jìn)行性能測(cè)試仿真。Hadoop集群的硬件信息如表1所示,仿真總部署如圖2所示。

    表1 實(shí)驗(yàn)環(huán)境配置信息表

    首先對(duì)三種方法預(yù)處理后的CPU占用率進(jìn)行對(duì)比,結(jié)果如圖2~圖4所示。

    圖2 文獻(xiàn)[1]方法的CPU利用情況監(jiān)測(cè)

    圖3 文獻(xiàn)[2]方法的CPU利用情況監(jiān)測(cè)

    圖4 本文方法數(shù)據(jù)預(yù)處理CPU利用情況監(jiān)測(cè)

    由三種方法進(jìn)行數(shù)據(jù)預(yù)處理時(shí)CPU的利用情況能夠得出:所提方法的CPU利用率更高,尤其在篩選重復(fù)數(shù)據(jù)時(shí),其它算法都出現(xiàn)較長(zhǎng)的等待時(shí)間。因此能夠體現(xiàn)出主成分分析法對(duì)重復(fù)數(shù)據(jù)的過(guò)濾效果更好,大大降低初始數(shù)據(jù)維度。

    本文在云計(jì)算基礎(chǔ)上利用了均值聚類(lèi)算法,設(shè)置信度均為85%。測(cè)試三種方法生成的基因測(cè)序數(shù)據(jù)與某種疾病的關(guān)聯(lián)程度。

    由圖5得出,隨著生成數(shù)據(jù)量的增多,與某疾病相關(guān)的基因測(cè)序關(guān)聯(lián)規(guī)則也逐漸增多,更能顯現(xiàn)出該疾病的基因。在三種算法中,所提方法在生成相同數(shù)據(jù)情況下,關(guān)聯(lián)規(guī)則最多,因此生成的數(shù)據(jù)與此種疾病存在較強(qiáng)的關(guān)聯(lián)性??赏ㄟ^(guò)測(cè)序數(shù)據(jù)準(zhǔn)確判斷出人體是否存在病變基因。

    圖5 不同算法生成數(shù)據(jù)性能對(duì)比圖

    5 結(jié)論

    現(xiàn)階段,云計(jì)算技術(shù)在科學(xué)、醫(yī)學(xué)等領(lǐng)域得到廣泛應(yīng)用,其具有的優(yōu)勢(shì)可以更好地服務(wù)于用戶(hù)。隨著基因數(shù)據(jù)的增長(zhǎng),如何快速、準(zhǔn)確生成測(cè)序數(shù)據(jù)是生物信息領(lǐng)域提出的新要求。本文設(shè)計(jì)一種分層云架構(gòu)。在此環(huán)境下,引入聚類(lèi)算法生成測(cè)序數(shù)據(jù)。仿真結(jié)果表明,該方法生成的數(shù)據(jù)與基因特征的關(guān)聯(lián)性較強(qiáng),更加精準(zhǔn)體現(xiàn)出基因特性,為海量大規(guī)模并行計(jì)算提供便捷方式。此外,通過(guò)該方法能夠揭示出生命本質(zhì)與規(guī)律。因此,云計(jì)算已經(jīng)成為生物信息領(lǐng)域發(fā)展趨勢(shì)。

    猜你喜歡
    預(yù)處理測(cè)序聚類(lèi)
    杰 Sir 帶你認(rèn)識(shí)宏基因二代測(cè)序(mNGS)
    新民周刊(2022年27期)2022-08-01 07:04:49
    二代測(cè)序協(xié)助診斷AIDS合并馬爾尼菲籃狀菌腦膜炎1例
    傳染病信息(2021年6期)2021-02-12 01:52:58
    基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
    基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
    淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
    基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
    絡(luò)合萃取法預(yù)處理H酸廢水
    基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
    基因捕獲測(cè)序診斷血癌
    一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
    甘谷县| 大悟县| 青浦区| 赤壁市| 光山县| 美姑县| 应城市| 台山市| 佛山市| 乌兰浩特市| 鹰潭市| 分宜县| 阳江市| 焦作市| 驻马店市| 云和县| 绩溪县| 侯马市| 浦北县| 金塔县| 郴州市| 松原市| 白朗县| 洪雅县| 博罗县| 原平市| 清涧县| 高邮市| 巫溪县| 密云县| 厦门市| 肥西县| 洪洞县| 崇左市| 恭城| 宜兰县| 临湘市| 曲麻莱县| 元阳县| 芮城县| 酒泉市|