• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談異構(gòu)生物信息數(shù)據(jù)庫的整合

      2016-04-11 05:42:48李晶
      生物技術(shù)世界 2016年3期
      關(guān)鍵詞:異構(gòu)數(shù)據(jù)庫生物

      李晶

      (江蘇農(nóng)牧科技職業(yè)學(xué)院 江蘇泰州 225300)

      淺談異構(gòu)生物信息數(shù)據(jù)庫的整合

      李晶

      (江蘇農(nóng)牧科技職業(yè)學(xué)院 江蘇泰州 225300)

      近年來世界范圍內(nèi)展開了HGP即人類基因組計(jì)劃,由此出現(xiàn)了大量生物學(xué)數(shù)據(jù),如蛋白質(zhì)數(shù)據(jù)、RNA、DNA等,為了便于研究的展開,便于科學(xué)家進(jìn)行數(shù)據(jù)查詢,這些數(shù)據(jù)需經(jīng)過有效的處理與整合,然后納入到生物信息數(shù)據(jù)庫中。數(shù)據(jù)異構(gòu)是生物數(shù)據(jù)分析與處理中需要解決的主要問題之一,文中將對(duì)生物信息資源利用面臨的問題進(jìn)行探究,并對(duì)以XML為基礎(chǔ)的異構(gòu)生物信息數(shù)據(jù)庫整合模式進(jìn)行分析。

      異構(gòu)生物 信息數(shù)據(jù)庫 整合

      生物信息學(xué)屬于生命科學(xué),這一科學(xué)以計(jì)算機(jī)技術(shù)為基礎(chǔ)對(duì)有關(guān)生物學(xué)的數(shù)據(jù)信息進(jìn)行存儲(chǔ)、分析與整合,通過對(duì)其中有效信息的提取,人們可以找出數(shù)據(jù)對(duì)應(yīng)的生物學(xué)意義,這對(duì)人類的生存與發(fā)展是有著極為重要的意義的。異構(gòu)數(shù)據(jù)是整合生物數(shù)據(jù)庫中面臨的主要難題之一,整合的主要目的是為了避免語法異構(gòu)與語義異構(gòu)出現(xiàn)沖突與差異,保證數(shù)據(jù)的統(tǒng)一,對(duì)這一問題的研究有著重要的現(xiàn)實(shí)意義。

      1 生物信息資源利用面臨的問題

      生物信息學(xué)在近年來取得了極大的發(fā)展,大量數(shù)據(jù)信息涌現(xiàn),如何對(duì)數(shù)據(jù)進(jìn)行篩選與管理是相關(guān)人員必須考慮的問題,生物學(xué)數(shù)據(jù)可分為多個(gè)種類,數(shù)據(jù)信息結(jié)構(gòu)復(fù)雜,因此其檢索與存儲(chǔ)方式也各異,為了提高工作效率,促進(jìn)生命科學(xué)研究的展開,應(yīng)當(dāng)對(duì)數(shù)據(jù)分析、數(shù)據(jù)處理、數(shù)據(jù)管理等技術(shù)予以創(chuàng)新。

      具體來說,當(dāng)前生物信息資源在利用中面臨的問題主要包括以下幾個(gè)方面,首先,數(shù)據(jù)庫類型較多,生物數(shù)據(jù)信息的多樣性決定了數(shù)據(jù)庫類型的復(fù)雜性,但是在數(shù)據(jù)整合儲(chǔ)存工作中缺少統(tǒng)一的標(biāo)準(zhǔn)與規(guī)范,因此如果要存儲(chǔ)或查詢不同類型的信息需要以不同的方式從不同的數(shù)據(jù)庫入手,程序較為繁瑣;其次,信息存儲(chǔ)格式也呈現(xiàn)出了多樣化的特征,如面向?qū)ο髷?shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、文本信息等,這對(duì)信息的管理與查詢也會(huì)造成一定的阻礙;再次,生物信息數(shù)據(jù)量相對(duì)較大,數(shù)據(jù)信息量會(huì)以幾何倍數(shù)遞增,如DNA序列數(shù)據(jù)庫中的DNA堿基數(shù)每隔十四個(gè)月數(shù)量增長(zhǎng)一倍,因而數(shù)據(jù)信息處理整合難度大;最后,生物概念、生物性質(zhì)等都存在著一定的復(fù)雜性,不同的數(shù)據(jù)蘊(yùn)藏著不要的生物信息,每一生物信息都有自己的特征,為了保證信息數(shù)據(jù)可以被及時(shí)查詢出來,應(yīng)當(dāng)構(gòu)建具有集成化特征的平臺(tái),對(duì)信息資源予以整合。

      2 以XML為基礎(chǔ)的異構(gòu)生物信息數(shù)據(jù)庫整合模式

      對(duì)數(shù)據(jù)庫進(jìn)行整合是一項(xiàng)系統(tǒng)的工作,工作人員需要對(duì)不同數(shù)據(jù)庫進(jìn)行分析,找到各數(shù)據(jù)庫間的內(nèi)在聯(lián)系,在數(shù)據(jù)庫的基礎(chǔ)上構(gòu)建立體化的數(shù)據(jù)整合平臺(tái)。近年來的應(yīng)用與實(shí)踐的數(shù)據(jù)庫整合技術(shù)包括以Web service為基礎(chǔ)的集成系統(tǒng)、將GO作為核心的集成系統(tǒng)(BioDW)、以多Agent為基礎(chǔ)的整合系統(tǒng)(BioAgent)等,隨著研究的深入展開,XML技術(shù)也逐漸被應(yīng)用到生物數(shù)據(jù)庫的整個(gè)工作中。

      2.1 數(shù)據(jù)庫管理

      生物數(shù)據(jù)庫在組織數(shù)據(jù)時(shí)常以某個(gè)對(duì)象或主題為核心,對(duì)核心的基本資料、文獻(xiàn)信息、注釋信息等進(jìn)行全面的描述,數(shù)據(jù)處理呈現(xiàn)出了結(jié)構(gòu)化的特征,在處理過程中數(shù)據(jù)會(huì)由關(guān)系模式轉(zhuǎn)換為XML模式,即對(duì)數(shù)據(jù)予以層次劃分處理,將其存儲(chǔ)到不同的字段,然后將數(shù)據(jù)對(duì)應(yīng)的基本元素與根元素等信息予以記錄。

      為了適應(yīng)數(shù)據(jù)表格的多樣性,以XML為基礎(chǔ)的整合平臺(tái)還相應(yīng)的改進(jìn)了基本模型增加了其內(nèi)部子節(jié)點(diǎn)的數(shù)量,并在表節(jié)點(diǎn)中嵌套了至少一個(gè)表節(jié)點(diǎn),在XML文檔中根據(jù)邏輯關(guān)系將表安置在合適的層次中。如在血糖情況整理時(shí),如果需要層加測(cè)量者,那么需在<Root>這一根目錄中增加<patient>節(jié)點(diǎn)。序列文件主要用于存儲(chǔ)序列數(shù)據(jù),它以序列條目為基本單位,核苷酸堿基的注釋與排列順序就包含在其中,其序列開端為L(zhǎng)ocus(關(guān)鍵字),其余依次為Authortype(作者)、Keywords(關(guān)鍵詞)、Definition(說明)、Taxonomy(種屬來源)、Features(特性表)、Accession(接收號(hào))以及堿基序列。整合系統(tǒng)中的數(shù)據(jù)庫為SQL Server 2008,其靈活性較強(qiáng),索引、內(nèi)部數(shù)據(jù)以及日志文件均可以操作系統(tǒng)文件的形式保存下來,其中用戶使用率較高的表與索引會(huì)被放置到設(shè)定好的磁盤上,這種方式能夠保證數(shù)據(jù)中荷載的平衡性。

      2.2 格式轉(zhuǎn)換技術(shù)

      XML格式轉(zhuǎn)換的方式較為簡(jiǎn)便,格式轉(zhuǎn)換完成后數(shù)據(jù)資料的存儲(chǔ)與讀取工作都會(huì)變得相對(duì)簡(jiǎn)便且其數(shù)據(jù)結(jié)構(gòu)有較高的精確性。格式轉(zhuǎn)換主要包括兩個(gè)內(nèi)容,一方面是與關(guān)系數(shù)據(jù)庫之間的格式轉(zhuǎn)換,其算法包括三個(gè)步驟,第一是將關(guān)系模式內(nèi)存在的各表生成對(duì)應(yīng)的復(fù)雜類型,第二將各個(gè)表中的字段在復(fù)雜類型中形成屬性與子元素的映射,主鍵映射的對(duì)象設(shè)為Key屬性,外鍵元素映射的對(duì)象設(shè)為keyref屬性,第三以主鍵與外鍵之間的關(guān)系為依據(jù)建立子元素;另一方面是與面向?qū)ο髷?shù)據(jù)庫之間的格式轉(zhuǎn)換,針對(duì)各數(shù)據(jù)庫XML有獨(dú)特的訪問技術(shù),在訪問中生成對(duì)應(yīng)的XML格式的文件,然后將其予以存儲(chǔ)或分析面向?qū)ο髷?shù)據(jù)庫中的信息向XML格式轉(zhuǎn)化以DTD為依據(jù)。

      2.3 網(wǎng)絡(luò)資源連接

      整合模式中的用戶界面為交互式的,用戶可在系統(tǒng)中查找網(wǎng)絡(luò)資源,預(yù)留程序接口可與系統(tǒng)外的服務(wù)程序進(jìn)行對(duì)接。當(dāng)鏈接完成后,用戶就可以對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)庫進(jìn)行訪問了,在鏈接時(shí)可以選用Cn3D4.3軟件,該軟件具有性能優(yōu)良、價(jià)格低等優(yōu)勢(shì),能夠以蛋白質(zhì)三維結(jié)構(gòu)將信息展示出來;而系統(tǒng)中的分析工具則可以選擇FASTA、CULSTAL以及BLAST等。當(dāng)前所使用的很多生物信息系統(tǒng)如Entrez等都具備信息查詢功能,用戶可以在序列庫里找到所需的資料,部分系統(tǒng)還允許用戶自己添加數(shù)據(jù)庫,如SRS等。

      3 結(jié)語:

      生物信息具有多樣性與復(fù)雜性,其數(shù)據(jù)庫的類型與結(jié)構(gòu)繁多,為了提高數(shù)據(jù)利用的有效性,應(yīng)當(dāng)對(duì)數(shù)據(jù)庫進(jìn)行整合,建立異構(gòu)平臺(tái),當(dāng)前應(yīng)用最多的技術(shù)為XML,在技術(shù)使用中需要注意對(duì)數(shù)據(jù)庫的管理、對(duì)格式的轉(zhuǎn)換以及對(duì)網(wǎng)絡(luò)中資源的應(yīng)用??偟膩碚f,XML技術(shù)具有較高的靈活性,其操作較為簡(jiǎn)便,優(yōu)勢(shì)較多,值得被廣泛應(yīng)用于異構(gòu)生物數(shù)據(jù)庫的整合工作中。

      [1]李美滿,許中華,劉柯.基于XML的異構(gòu)生物信息數(shù)據(jù)庫整合技術(shù)研究[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2013(02).

      [2]李美滿,許中華,劉柯.生物信息學(xué)中數(shù)據(jù)庫的應(yīng)用及整合[J].智能計(jì)算機(jī)與應(yīng)用,2012(05).

      [3]馬靜.生物信息異構(gòu)數(shù)據(jù)庫集成研究[D].南京農(nóng)業(yè)大學(xué),2010.

      G203

      A

      1674-2060(2016)03-0256-01

      李晶(1980—),女,江蘇泰州人,本科學(xué)歷,江蘇農(nóng)牧科技職業(yè)學(xué)院講師,研究方向計(jì)算機(jī)網(wǎng)絡(luò)。

      本文是泰州市社會(huì)發(fā)展項(xiàng)目“生物信息技術(shù)對(duì)阿茲海默癥數(shù)據(jù)分析輔助研究”, 項(xiàng)目編號(hào):TS035。

      猜你喜歡
      異構(gòu)數(shù)據(jù)庫生物
      生物多樣性
      生物多樣性
      試論同課異構(gòu)之“同”與“異”
      上上生物
      第12話 完美生物
      航空世界(2020年10期)2020-01-19 14:36:20
      數(shù)據(jù)庫
      overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
      數(shù)據(jù)庫
      LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
      數(shù)據(jù)庫
      阿瓦提县| 巴彦淖尔市| 进贤县| 朝阳区| 清河县| 博爱县| 巴楚县| 东丽区| 阳城县| 荔浦县| 个旧市| 云梦县| 泰和县| 昌邑市| 新绛县| 东至县| 开江县| 鄂尔多斯市| 云浮市| 榆树市| 通化市| 西充县| 云龙县| 修水县| 怀宁县| 多伦县| 海城市| 竹溪县| 石狮市| 唐山市| 蓝山县| 阳新县| 册亨县| 屏东市| 泰兴市| 益阳市| 安龙县| 乌兰察布市| 河北区| 芦山县| 阿尔山市|