李晶
(江蘇農(nóng)牧科技職業(yè)學(xué)院 江蘇泰州 225300)
淺談異構(gòu)生物信息數(shù)據(jù)庫的整合
李晶
(江蘇農(nóng)牧科技職業(yè)學(xué)院 江蘇泰州 225300)
近年來世界范圍內(nèi)展開了HGP即人類基因組計(jì)劃,由此出現(xiàn)了大量生物學(xué)數(shù)據(jù),如蛋白質(zhì)數(shù)據(jù)、RNA、DNA等,為了便于研究的展開,便于科學(xué)家進(jìn)行數(shù)據(jù)查詢,這些數(shù)據(jù)需經(jīng)過有效的處理與整合,然后納入到生物信息數(shù)據(jù)庫中。數(shù)據(jù)異構(gòu)是生物數(shù)據(jù)分析與處理中需要解決的主要問題之一,文中將對(duì)生物信息資源利用面臨的問題進(jìn)行探究,并對(duì)以XML為基礎(chǔ)的異構(gòu)生物信息數(shù)據(jù)庫整合模式進(jìn)行分析。
異構(gòu)生物 信息數(shù)據(jù)庫 整合
生物信息學(xué)屬于生命科學(xué),這一科學(xué)以計(jì)算機(jī)技術(shù)為基礎(chǔ)對(duì)有關(guān)生物學(xué)的數(shù)據(jù)信息進(jìn)行存儲(chǔ)、分析與整合,通過對(duì)其中有效信息的提取,人們可以找出數(shù)據(jù)對(duì)應(yīng)的生物學(xué)意義,這對(duì)人類的生存與發(fā)展是有著極為重要的意義的。異構(gòu)數(shù)據(jù)是整合生物數(shù)據(jù)庫中面臨的主要難題之一,整合的主要目的是為了避免語法異構(gòu)與語義異構(gòu)出現(xiàn)沖突與差異,保證數(shù)據(jù)的統(tǒng)一,對(duì)這一問題的研究有著重要的現(xiàn)實(shí)意義。
生物信息學(xué)在近年來取得了極大的發(fā)展,大量數(shù)據(jù)信息涌現(xiàn),如何對(duì)數(shù)據(jù)進(jìn)行篩選與管理是相關(guān)人員必須考慮的問題,生物學(xué)數(shù)據(jù)可分為多個(gè)種類,數(shù)據(jù)信息結(jié)構(gòu)復(fù)雜,因此其檢索與存儲(chǔ)方式也各異,為了提高工作效率,促進(jìn)生命科學(xué)研究的展開,應(yīng)當(dāng)對(duì)數(shù)據(jù)分析、數(shù)據(jù)處理、數(shù)據(jù)管理等技術(shù)予以創(chuàng)新。
具體來說,當(dāng)前生物信息資源在利用中面臨的問題主要包括以下幾個(gè)方面,首先,數(shù)據(jù)庫類型較多,生物數(shù)據(jù)信息的多樣性決定了數(shù)據(jù)庫類型的復(fù)雜性,但是在數(shù)據(jù)整合儲(chǔ)存工作中缺少統(tǒng)一的標(biāo)準(zhǔn)與規(guī)范,因此如果要存儲(chǔ)或查詢不同類型的信息需要以不同的方式從不同的數(shù)據(jù)庫入手,程序較為繁瑣;其次,信息存儲(chǔ)格式也呈現(xiàn)出了多樣化的特征,如面向?qū)ο髷?shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、文本信息等,這對(duì)信息的管理與查詢也會(huì)造成一定的阻礙;再次,生物信息數(shù)據(jù)量相對(duì)較大,數(shù)據(jù)信息量會(huì)以幾何倍數(shù)遞增,如DNA序列數(shù)據(jù)庫中的DNA堿基數(shù)每隔十四個(gè)月數(shù)量增長(zhǎng)一倍,因而數(shù)據(jù)信息處理整合難度大;最后,生物概念、生物性質(zhì)等都存在著一定的復(fù)雜性,不同的數(shù)據(jù)蘊(yùn)藏著不要的生物信息,每一生物信息都有自己的特征,為了保證信息數(shù)據(jù)可以被及時(shí)查詢出來,應(yīng)當(dāng)構(gòu)建具有集成化特征的平臺(tái),對(duì)信息資源予以整合。
對(duì)數(shù)據(jù)庫進(jìn)行整合是一項(xiàng)系統(tǒng)的工作,工作人員需要對(duì)不同數(shù)據(jù)庫進(jìn)行分析,找到各數(shù)據(jù)庫間的內(nèi)在聯(lián)系,在數(shù)據(jù)庫的基礎(chǔ)上構(gòu)建立體化的數(shù)據(jù)整合平臺(tái)。近年來的應(yīng)用與實(shí)踐的數(shù)據(jù)庫整合技術(shù)包括以Web service為基礎(chǔ)的集成系統(tǒng)、將GO作為核心的集成系統(tǒng)(BioDW)、以多Agent為基礎(chǔ)的整合系統(tǒng)(BioAgent)等,隨著研究的深入展開,XML技術(shù)也逐漸被應(yīng)用到生物數(shù)據(jù)庫的整個(gè)工作中。
2.1 數(shù)據(jù)庫管理
生物數(shù)據(jù)庫在組織數(shù)據(jù)時(shí)常以某個(gè)對(duì)象或主題為核心,對(duì)核心的基本資料、文獻(xiàn)信息、注釋信息等進(jìn)行全面的描述,數(shù)據(jù)處理呈現(xiàn)出了結(jié)構(gòu)化的特征,在處理過程中數(shù)據(jù)會(huì)由關(guān)系模式轉(zhuǎn)換為XML模式,即對(duì)數(shù)據(jù)予以層次劃分處理,將其存儲(chǔ)到不同的字段,然后將數(shù)據(jù)對(duì)應(yīng)的基本元素與根元素等信息予以記錄。
為了適應(yīng)數(shù)據(jù)表格的多樣性,以XML為基礎(chǔ)的整合平臺(tái)還相應(yīng)的改進(jìn)了基本模型增加了其內(nèi)部子節(jié)點(diǎn)的數(shù)量,并在表節(jié)點(diǎn)中嵌套了至少一個(gè)表節(jié)點(diǎn),在XML文檔中根據(jù)邏輯關(guān)系將表安置在合適的層次中。如在血糖情況整理時(shí),如果需要層加測(cè)量者,那么需在<Root>這一根目錄中增加<patient>節(jié)點(diǎn)。序列文件主要用于存儲(chǔ)序列數(shù)據(jù),它以序列條目為基本單位,核苷酸堿基的注釋與排列順序就包含在其中,其序列開端為L(zhǎng)ocus(關(guān)鍵字),其余依次為Authortype(作者)、Keywords(關(guān)鍵詞)、Definition(說明)、Taxonomy(種屬來源)、Features(特性表)、Accession(接收號(hào))以及堿基序列。整合系統(tǒng)中的數(shù)據(jù)庫為SQL Server 2008,其靈活性較強(qiáng),索引、內(nèi)部數(shù)據(jù)以及日志文件均可以操作系統(tǒng)文件的形式保存下來,其中用戶使用率較高的表與索引會(huì)被放置到設(shè)定好的磁盤上,這種方式能夠保證數(shù)據(jù)中荷載的平衡性。
2.2 格式轉(zhuǎn)換技術(shù)
XML格式轉(zhuǎn)換的方式較為簡(jiǎn)便,格式轉(zhuǎn)換完成后數(shù)據(jù)資料的存儲(chǔ)與讀取工作都會(huì)變得相對(duì)簡(jiǎn)便且其數(shù)據(jù)結(jié)構(gòu)有較高的精確性。格式轉(zhuǎn)換主要包括兩個(gè)內(nèi)容,一方面是與關(guān)系數(shù)據(jù)庫之間的格式轉(zhuǎn)換,其算法包括三個(gè)步驟,第一是將關(guān)系模式內(nèi)存在的各表生成對(duì)應(yīng)的復(fù)雜類型,第二將各個(gè)表中的字段在復(fù)雜類型中形成屬性與子元素的映射,主鍵映射的對(duì)象設(shè)為Key屬性,外鍵元素映射的對(duì)象設(shè)為keyref屬性,第三以主鍵與外鍵之間的關(guān)系為依據(jù)建立子元素;另一方面是與面向?qū)ο髷?shù)據(jù)庫之間的格式轉(zhuǎn)換,針對(duì)各數(shù)據(jù)庫XML有獨(dú)特的訪問技術(shù),在訪問中生成對(duì)應(yīng)的XML格式的文件,然后將其予以存儲(chǔ)或分析面向?qū)ο髷?shù)據(jù)庫中的信息向XML格式轉(zhuǎn)化以DTD為依據(jù)。
2.3 網(wǎng)絡(luò)資源連接
整合模式中的用戶界面為交互式的,用戶可在系統(tǒng)中查找網(wǎng)絡(luò)資源,預(yù)留程序接口可與系統(tǒng)外的服務(wù)程序進(jìn)行對(duì)接。當(dāng)鏈接完成后,用戶就可以對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)庫進(jìn)行訪問了,在鏈接時(shí)可以選用Cn3D4.3軟件,該軟件具有性能優(yōu)良、價(jià)格低等優(yōu)勢(shì),能夠以蛋白質(zhì)三維結(jié)構(gòu)將信息展示出來;而系統(tǒng)中的分析工具則可以選擇FASTA、CULSTAL以及BLAST等。當(dāng)前所使用的很多生物信息系統(tǒng)如Entrez等都具備信息查詢功能,用戶可以在序列庫里找到所需的資料,部分系統(tǒng)還允許用戶自己添加數(shù)據(jù)庫,如SRS等。
生物信息具有多樣性與復(fù)雜性,其數(shù)據(jù)庫的類型與結(jié)構(gòu)繁多,為了提高數(shù)據(jù)利用的有效性,應(yīng)當(dāng)對(duì)數(shù)據(jù)庫進(jìn)行整合,建立異構(gòu)平臺(tái),當(dāng)前應(yīng)用最多的技術(shù)為XML,在技術(shù)使用中需要注意對(duì)數(shù)據(jù)庫的管理、對(duì)格式的轉(zhuǎn)換以及對(duì)網(wǎng)絡(luò)中資源的應(yīng)用??偟膩碚f,XML技術(shù)具有較高的靈活性,其操作較為簡(jiǎn)便,優(yōu)勢(shì)較多,值得被廣泛應(yīng)用于異構(gòu)生物數(shù)據(jù)庫的整合工作中。
[1]李美滿,許中華,劉柯.基于XML的異構(gòu)生物信息數(shù)據(jù)庫整合技術(shù)研究[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2013(02).
[2]李美滿,許中華,劉柯.生物信息學(xué)中數(shù)據(jù)庫的應(yīng)用及整合[J].智能計(jì)算機(jī)與應(yīng)用,2012(05).
[3]馬靜.生物信息異構(gòu)數(shù)據(jù)庫集成研究[D].南京農(nóng)業(yè)大學(xué),2010.
G203
A
1674-2060(2016)03-0256-01
李晶(1980—),女,江蘇泰州人,本科學(xué)歷,江蘇農(nóng)牧科技職業(yè)學(xué)院講師,研究方向計(jì)算機(jī)網(wǎng)絡(luò)。
本文是泰州市社會(huì)發(fā)展項(xiàng)目“生物信息技術(shù)對(duì)阿茲海默癥數(shù)據(jù)分析輔助研究”, 項(xiàng)目編號(hào):TS035。