潘 偉
(西華師范大學計算機學院,四川南充637002)
生物信息學是在生命科學的研究中,生物學與計算機科學及應用數(shù)學等多學科相互交叉而形成的一門新興的綜合性學科[1]。它以海量生物學實驗數(shù)據(jù)為基本研究對象,進行數(shù)據(jù)的獲取、加工、存儲、檢索與分析,從而實現(xiàn)揭示相關生物學意義的目的。在人類基因組計劃的推動下,各種類型的生物數(shù)據(jù),如核酸序列、蛋白質序列和蛋白質結構的生物信息數(shù)據(jù),呈現(xiàn)指數(shù)增長的迅猛趨勢。為了對這些規(guī)模龐大、結構復雜的生物數(shù)據(jù)進行有效的管理和使用,早在七、八十年代,世界各地的科研人員就建立了大量的生物信息數(shù)據(jù)庫,現(xiàn)在它們已經(jīng)成為生物信息學工作的基礎和重要內容。
目前,廣泛使用的生物信息數(shù)據(jù)庫主要有美國國家生物信息中心(NCBI)管理維護的GeneBank、歐洲生物信息研究所(EBI)管理的EMBL數(shù)據(jù)庫、以及日本的國家級核酸數(shù)據(jù)庫DDBJ,以及共同組成的GeneBank/EMBI/DDBJ國際核酸序列數(shù)據(jù)庫,定時保持同步更新。然而,在實際使用中,傳統(tǒng)的數(shù)據(jù)庫技術已經(jīng)不能很好的勝任,將數(shù)據(jù)倉庫思想引進生物信息數(shù)據(jù)的管理則應運而生。
基于生物信息數(shù)據(jù)的特點,針對目前各大基因數(shù)據(jù)庫之間互聯(lián)、互通和相互利用中存在的一些問題,設計了基于數(shù)據(jù)挖掘技術的異地異構生物信息共享的數(shù)據(jù)倉庫解決方案,并給出了該方案的實現(xiàn)框架——基于Web的生物信息數(shù)據(jù)倉庫(Data Warehouse of Bioinformation based on Web,DWBW)。
生物信息學是一門生命科學與數(shù)學、計算機科學和信息科學等交匯融合所形成的交叉學科[1]。在生物信息學的發(fā)展過程中,逐步建立起了大量基于網(wǎng)絡的生物數(shù)據(jù)庫,如PDB生物大分子結構數(shù)據(jù)庫、SWISS-PROT蛋白質序列數(shù)據(jù)庫和GenBank核酸序列數(shù)據(jù)庫等;開發(fā)了眾多檢索工具,如SRS、CLUSTALW、PROSITESEARCH等強有力的搜索工具;從而實現(xiàn)了生物信息數(shù)據(jù)的智能處理和綜合分析。目前,生物信息數(shù)據(jù)庫中主要包括核酸數(shù)據(jù)、蛋白質數(shù)據(jù)以及功能數(shù)據(jù)等內容,來自于世界各地不同的實驗室。有些是從實驗獲得的未經(jīng)任何處理的原始數(shù)據(jù),有些經(jīng)過簡單的歸類整理和注釋,有些則是針對特定目標通過理論分析和復雜處理得到的。因此,生物信息數(shù)據(jù)在具有增長迅猛、更新及時、種類繁多等特點的同時,更表現(xiàn)出高度的復雜性、多樣性和不一致性。
隨著生物信息數(shù)據(jù)量的激增以及數(shù)據(jù)處理能力的復雜程度不斷提高,現(xiàn)有的生物信息數(shù)據(jù)庫已經(jīng)逐漸暴露出許多問題。三大核酸數(shù)據(jù)庫依靠傳統(tǒng)方式交換數(shù)據(jù),無法及時反應出其他專用生物信息數(shù)據(jù)庫(特別是三大核酸數(shù)據(jù)庫以外的其它生物信息數(shù)據(jù)庫)的變化情況以及非核酸類數(shù)據(jù)信息。網(wǎng)上所提供的大部分數(shù)據(jù)分析工具采用面向問題的搜索方法,搜索效率隨著問題規(guī)模的擴大而降低,并且無法智能地對數(shù)據(jù)中存在的未知知識進行發(fā)掘。為此,在后基因組時代,需要將數(shù)據(jù)倉庫思想及智能數(shù)據(jù)挖掘技術運用到生物信息學領域中。
生物信息學是一門內涵非常豐富的學科,是生物、數(shù)學、計算機等多領域專家的共同協(xié)作的成果。在生物信息學中通常需要進行基因比對、基因預測和功能基因組信息分析等工作,主要涉及了大規(guī)?;虮磉_譜分析的相關算法、基因表達調控網(wǎng)絡的研究、軟件研究、核酸、蛋白質空間結構的預測和模擬、以及蛋白質功能預測等方面。目前,在生物信息學中,基因比對(Alignment)是最常用和最經(jīng)典的研究手段。在核酸序列或蛋白質序列之間進行兩兩比對,比較兩個序列之間的相似區(qū)域和保守性位點,尋找二者的相似形、同源性,進而探尋可能的分子進化關系,揭示序列中蘊涵的結構、功能等信息。
數(shù)據(jù)挖掘主要存在以下幾種經(jīng)典分析模式[2]:關聯(lián)模式分析、序列模式分析、分類分析、聚類分析,其中關聯(lián)模式分析應用最為廣泛。關聯(lián)模式分析通過對一組給定的Item和一個記錄集合進行分析,推導出Item間的相關性,進而挖掘隱藏的關系??梢?通過數(shù)據(jù)挖掘技術,開發(fā)面向功能解釋和功能預測的工具,能夠發(fā)現(xiàn)不同基因、蛋白質序列中的相關性,從而進一步比較分析其功能。
傳統(tǒng)的針對數(shù)據(jù)庫的開發(fā)工具多為聯(lián)機事物處理(Online Transaction Process,OLTP)模式,它主要是面向具體的查詢和統(tǒng)計,有著較為具體的應用目的。然而,隨著越來越多數(shù)據(jù)庫的出現(xiàn),數(shù)據(jù)量的迅猛增長,OLTP在數(shù)據(jù)資源的充分利用、為用戶提供有效支持和幫助等方面,則顯得力不從心[2]。因此,基于數(shù)據(jù)倉庫的聯(lián)機分析處理(Online Analysis Process,OLAP)以及數(shù)據(jù)挖掘(Data Mining,DM)引起了日益廣泛的關注和應用。
OLAP是一種自上而下、不斷深入的分析工具。用戶提出問題或假設,OLAP則負責從上而下深入地提取出關于該問題的詳細信息,并以可視化的方式呈現(xiàn)給用戶。DM是一種決策支持過程和挖掘性工具,它主要基于人工智能、機器學習、統(tǒng)計學等技術,高度自動化地對原始數(shù)據(jù)進行分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,做出歸納性和預測性的推理。
目前生物信息數(shù)據(jù)庫的特點以其所存在的問題,都為數(shù)據(jù)倉庫的使用提供廣闊的活動空間,但同時也對數(shù)據(jù)挖掘提出了新的問題和難點。生物信息學的進一步發(fā)展需要數(shù)據(jù)倉庫的支撐。
實現(xiàn)數(shù)據(jù)挖掘的一個前提條件是必須具有海量數(shù)據(jù)[2],而這恰恰是數(shù)據(jù)倉庫的基本特點之一,二者的緊密結合可以有效地解決大量實際應用中出現(xiàn)的問題。在生物信息學領域,使用數(shù)據(jù)挖掘技術可以大幅提高研究人員的工作效率,改變原有的利用傳統(tǒng)工具人為的或機械的逐項比較功能的預測法;數(shù)據(jù)挖掘算法還可以結合生物信息專業(yè)領域的公式算法,根據(jù)研究人員的設想,對數(shù)據(jù)進行全面的、高效率的分析。
基于數(shù)據(jù)挖掘等技術發(fā)展起來的智能決策技術[3]具備了在生物信息學領域中大展身手的“天賦”,特別是基于海量數(shù)據(jù)的數(shù)據(jù)挖掘和開采技術更具有廣泛的需求和應用背景。另一方面,目前生物信息學的研究方法和發(fā)展情況,已經(jīng)形成了一整套較為完善的智能決策系統(tǒng),成為數(shù)據(jù)倉庫和數(shù)據(jù)開采的一個較為成功的應用案例。另外,現(xiàn)有的各種生物信息應用分析軟件,雖然其基本出發(fā)點仍然是傳統(tǒng)的數(shù)據(jù)庫技術,但是從一定程度上講,已經(jīng)反映并且實現(xiàn)了數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的思想和技術。
已有的生物信息數(shù)據(jù)庫都已經(jīng)提供基于互聯(lián)網(wǎng)的數(shù)據(jù)提交、序列查詢、基因比對等功能,且?guī)状髷?shù)據(jù)庫之間也實現(xiàn)了準實時的互聯(lián)互通。但是,基于這些生物信息數(shù)據(jù)的分析比較工具,都不能從面向主題的角度對全部數(shù)據(jù)進行分析以找出具有價值的規(guī)律,更不具有決策支持的能力。基于現(xiàn)有的生物信息數(shù)據(jù)庫,運用數(shù)據(jù)倉庫思想,利用OLAP和數(shù)據(jù)挖掘技術,建立生物信息數(shù)據(jù)倉庫,是一種不需要大幅增加硬件設備以及物理裝置的前提下,實現(xiàn)基于Web平臺的生物信息集成與處理平臺的可行方案。
設計一個基于Web的生物信息數(shù)據(jù)倉庫(Data Warehouse of Bioinformation based on Web DWBW),其主要結構由5個主要部分組成:外部數(shù)據(jù)源,包括各大綜合生物信息數(shù)據(jù)庫以及各類專用生物信息數(shù)據(jù)庫系統(tǒng);基于Web的數(shù)據(jù)調度,傳輸;數(shù)據(jù)的“變形”(抽取、變換、裝載、刷新等)整合;元數(shù)據(jù)規(guī)則,以及元數(shù)據(jù)的管理;基于Web的綜合管理平臺(包括請求分類服務器、各種分析工具服務器)。
DWBW以DDBJ/EMBI/GeneBank作為主要數(shù)據(jù)源,同時以其他主要的生物信息數(shù)據(jù)庫作為整個數(shù)據(jù)倉庫的基本數(shù)據(jù)源。通過分析數(shù)據(jù)庫結構和數(shù)據(jù)結構類型,建立DWBW的元數(shù)據(jù)規(guī)則,即為來源不同的數(shù)據(jù)建立統(tǒng)一的數(shù)據(jù)結構、字段內容、存儲結構等基本項目。這樣,基于上述各種數(shù)據(jù)庫就可以建立起一個基于Web的虛擬數(shù)據(jù)倉庫。由于不存在一個物理上位于某地的存儲中心來保存這些數(shù)據(jù),用戶面對的只是一個基于網(wǎng)絡的分布式虛擬的數(shù)據(jù)倉庫。其模型、算法的運行由專用的分析工具服務器來完成,而對于數(shù)據(jù)的調用和整理都是在源數(shù)據(jù)庫上進行的,根據(jù)不同用戶提交問題的不同,具體的分析過程則由分配服務器交給相關的服務器去完成分析工作,只是最終將結果返回請求分類服務器,顯示給用戶。DWBW的原理框圖見圖1所示。
DWBW將通過一個統(tǒng)一的基于Web的頁面與用戶進行交互,在后臺則主要由請求分類服務器、Web服務器以及專用分析工具服務器共同完成對用戶問題的提交和分析,實現(xiàn)對數(shù)據(jù)倉庫元數(shù)據(jù)規(guī)則的理解,然后根據(jù)問題分類的結果,與相關的分析工具進行匹配,將問題提交到相應的專用分析工具服務器進行處理。處理完成后返回給請求分類服務器,進而返回給提交問題的用戶。
4.2.1 生物信息學元數(shù)據(jù)的抽取
數(shù)據(jù)的整理和抽取,是開發(fā)所有數(shù)據(jù)倉庫時所遇到的最難解決也是最具挑戰(zhàn)性的問題之一。將不同時期生成的大量歷史數(shù)據(jù)中的數(shù)據(jù)結構、字段的定義以及對象之間的關系等一系列的描述信息整理出來,并制定出一套通用可行的規(guī)范,本身就是一個工作量巨大、難度極高的問題;特別針對來自于世界各地、不同門類、不同背景、不同應用目的的專業(yè)生物信息數(shù)據(jù)庫,就更加復雜了。因此,數(shù)據(jù)倉庫元數(shù)據(jù)的抽取整理,成為建立DWBW的關鍵問題。數(shù)據(jù)抽取、清洗、轉換和裝載過程與一般數(shù)據(jù)倉庫建立過程中的數(shù)據(jù)整理不完全相同,其數(shù)據(jù)具有規(guī)范性強,存儲結構相對簡單,轉換、裝載容易等特點。
圖1 基于Web的生物信息數(shù)據(jù)倉庫系統(tǒng)(DWBW)
4.2.2 虛擬生物信息數(shù)據(jù)倉庫的建立
虛擬生物信息數(shù)據(jù)倉庫實現(xiàn)對生物信息平臺相關數(shù)據(jù)的組織和集成,并且將不同主題的數(shù)據(jù)對象分別存儲到各個數(shù)據(jù)集市中,同時還將建立起部分有價值數(shù)據(jù)的在線OLAP數(shù)據(jù)庫。與傳統(tǒng)的數(shù)據(jù)倉庫不同,虛擬數(shù)據(jù)倉庫采用中間件充當數(shù)據(jù)中心,提供信息的訪問接口,對存貯在不同數(shù)據(jù)源的生物信息數(shù)據(jù)進行存取操作。虛擬數(shù)據(jù)倉庫的中間件對各個數(shù)據(jù)源(各生物信息數(shù)據(jù)庫)的請求采用的是標準的XML,最終都將轉換為各數(shù)據(jù)源的標準查詢語言,提交給相應的數(shù)據(jù)庫服務器進行處理。數(shù)據(jù)庫處理完成后,中間件又將返回結果重新封裝成為XML格式的數(shù)據(jù),并進行發(fā)送。由于虛擬生物信息數(shù)據(jù)倉庫一般不是針對實時數(shù)據(jù)進行分析統(tǒng)計,所以對于時間效率的要求不如一般查詢統(tǒng)計那么高,這就確保了開發(fā)處于不同物理位置數(shù)據(jù)源的虛擬DWBW具有可行性。同時,對于一般性的查詢比對等基本操作,不會影響其工作效率和準確性。
4.2.3 基于Web面向用戶的綜合平臺的開發(fā)設計
基于Web的面向用戶的綜合平臺主要提供一個用戶操作的平臺,除了集成基因比對、功能預測、序列分析、基因提交等傳統(tǒng)的操作以外,還允許用戶對虛擬數(shù)據(jù)倉庫中的數(shù)據(jù)運用數(shù)據(jù)挖掘技術,提供更多的分析支持工具。
DWBW與傳統(tǒng)的數(shù)據(jù)倉庫概念特征相比,兩者都是對海量的、復雜數(shù)據(jù)進行處理;能在解決“不明確問題”過程中顯示很強的能力;面向數(shù)據(jù)分析,把輔助決策作為一個重要的最終目標。DWBW還具有幾個特性:實時性要求較強;與一般的數(shù)據(jù)倉庫相比對單個記錄的準確性要求更高;數(shù)據(jù)倉庫不是物理存在的,而是通過互聯(lián)網(wǎng)絡將多個數(shù)據(jù)庫連接在一起,共同發(fā)揮作用的虛擬數(shù)據(jù)倉庫。
DWBW在解決目前互聯(lián)網(wǎng)中許多具有相似特性領域中的問題時具有很多的借鑒意義[4]。例如在基于網(wǎng)絡的B2B、B2C的商業(yè)網(wǎng)站的客戶資料分析、商品(貨品)銷售分析等方面都可以采用相同的思想。擴展開來,這一設計方法在大型的全球連鎖超市、各地的家電分銷中心以及股票市場的評估分析等等方面均有指導意義。在這方面成功的應用主要集中在大型連鎖超市的銷售記錄分析,股票、金融市場分析方面,它提供的輔助決策內容有貨物配售方案的選擇,超市選址,股票分類投資,防止金融詐騙等。
感謝西華師范大學科研啟動基金(05B061)
[1]鐘揚,張亮.簡明生物信息[M].北京:高等教育出版社,2001.
[2]王珊.數(shù)據(jù)倉庫技術與聯(lián)機分析處理[M].北京:科學出版社,1998.
[3]陳文偉.智能決策技術[M].北京:電子工業(yè)出版社,1998.
[4]劉智琚.數(shù)據(jù)挖掘在生物信息學中的應用[J].軟件導刊,2009,(7).
[6]楊文,韓濤,孫志茹.生物信息學序列庫與文獻庫的整合模式淺[J].實踐研究,2008,(1).