數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的應(yīng)用

2016-03-14 02:14:44長(zhǎng)春醫(yī)學(xué)高等?？茖W(xué)校130031

電子測(cè)試 2016年13期

劉妍（長(zhǎng)春醫(yī)學(xué)高等?？茖W(xué)校，130031）

劉妍
（長(zhǎng)春醫(yī)學(xué)高等?？茖W(xué)校，130031）

摘要：隨著生物信息學(xué)的高速發(fā)展，人們通過(guò)蛋白質(zhì)序列測(cè)定和結(jié)構(gòu)分析獲得大量的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)，從而建立了眾多的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)。本文主要介紹了六種蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)，并對(duì)PDB數(shù)據(jù)庫(kù)進(jìn)行了深入分析，闡述了蛋白質(zhì)序列和結(jié)構(gòu)的切片數(shù)據(jù)庫(kù)之間的聯(lián)系和內(nèi)在規(guī)律。利用蛋白質(zhì)數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘技術(shù)來(lái)處理大量的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)是未來(lái)蛋白質(zhì)研究的一個(gè)重要發(fā)展方向。

關(guān)鍵詞：數(shù)據(jù)挖掘技術(shù)；蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)；PDB數(shù)據(jù)庫(kù)；結(jié)構(gòu)預(yù)測(cè)

1 數(shù)據(jù)挖掘技術(shù)的簡(jiǎn)介

目前，隨著大數(shù)據(jù)時(shí)代的來(lái)臨，人們利用信息技術(shù)和數(shù)據(jù)獲取技術(shù)能力的大幅提高，大量用于商業(yè)管理、政府辦公、科學(xué)研究和項(xiàng)目開(kāi)發(fā)的數(shù)據(jù)庫(kù)如雨后春筍般脫穎而出。未來(lái)數(shù)據(jù)庫(kù)信息爆炸式的增長(zhǎng)，信息的優(yōu)劣性及有效性等類似的問(wèn)題就逐漸脫穎而出。為了解決這一問(wèn)題我們引入數(shù)據(jù)挖掘技術(shù)來(lái)處理大量的、帶噪聲的、不完全的、事先并不明確的，并且可能具有潛在有用信息的。利用數(shù)據(jù)挖掘技術(shù)可以對(duì)這些無(wú)序、雜亂和不完整的信息進(jìn)行管理、查詢、優(yōu)化和決策等。通過(guò)數(shù)據(jù)收集、整理、處理和評(píng)定，最后經(jīng)過(guò)多次循環(huán)才能達(dá)到預(yù)期效果。

2 數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上的應(yīng)用

蛋白質(zhì)的結(jié)構(gòu)在很大程度上影響著蛋白質(zhì)的功能，所以對(duì)其結(jié)構(gòu)的預(yù)測(cè)也就成為判斷其功能化的重要內(nèi)容。隨著基因技術(shù)的不斷發(fā)展，借助蛋白質(zhì)結(jié)構(gòu)和序列的測(cè)定從而獲得了海量的數(shù)據(jù)。雖然蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法種類繁多，但是面對(duì)種類繁多的蛋白質(zhì)其預(yù)測(cè)方法往往差強(qiáng)人意。從最早的統(tǒng)計(jì)學(xué)方法到多層神經(jīng)網(wǎng)絡(luò)、決策樹(shù)，蛋白質(zhì)預(yù)測(cè)方法的準(zhǔn)確性不斷提高。

通過(guò)理論和實(shí)踐證明蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)主要圍繞其二級(jí)結(jié)構(gòu)預(yù)測(cè)和空間結(jié)構(gòu)預(yù)測(cè)。同種蛋白質(zhì)在不同環(huán)境下往往會(huì)呈現(xiàn)出不同的結(jié)構(gòu)，特別是其二級(jí)結(jié)構(gòu)中片段中心的殘基是α螺旋或β折疊影響蛋白質(zhì)整體功能。而引入數(shù)據(jù)挖掘技術(shù)來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，可以對(duì)確立蛋白質(zhì)結(jié)構(gòu)及其序列之間的關(guān)系，從而更深層次的了解蛋白質(zhì)結(jié)構(gòu)的確定機(jī)理和蛋白質(zhì)的功能變化。由于蛋白質(zhì)中氨基酸的序列和蛋白質(zhì)的二級(jí)結(jié)構(gòu)之間不具有明顯的關(guān)系，應(yīng)用數(shù)據(jù)挖掘技術(shù)處理種類繁多信息量巨大的氨基酸序列，可以提取出有用的信息。通常來(lái)說(shuō)蛋白質(zhì)結(jié)構(gòu)測(cè)序方法主要有：模式對(duì)比、折疊識(shí)別和從頭算法三類組成。其中，模式對(duì)比主要是利用已知蛋白質(zhì)結(jié)構(gòu)中的特征來(lái)對(duì)比其中的蛋白質(zhì)。這種方法具有很大的局限性，特別是蛋白質(zhì)序列不同而結(jié)構(gòu)相似的蛋白質(zhì)。折疊識(shí)別方法則可以描述大部分的蛋白質(zhì)結(jié)構(gòu)，這種方法基于蛋白質(zhì)折疊核心的數(shù)據(jù)庫(kù)，并且把折疊核心同蛋白質(zhì)序列聯(lián)系起來(lái)，從而得到最優(yōu)的結(jié)構(gòu)。從頭算法對(duì)比前兩種方法來(lái)說(shuō)更合適預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，它可以根據(jù)蛋白質(zhì)的氨基酸序列來(lái)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。

3 數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)數(shù)據(jù)庫(kù)上的應(yīng)用

本節(jié)中主要討論蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)，并對(duì)這些數(shù)據(jù)庫(kù)中所應(yīng)用的數(shù)據(jù)挖掘技術(shù)進(jìn)行歸納總結(jié)，主要介紹PDB（Protein Data Bank）數(shù)據(jù)庫(kù)、NRL-3D（Naval Research Laboratory-3D）數(shù)據(jù)庫(kù)、HSSP（homology-derived second structures of proteins）數(shù)據(jù)庫(kù)、SCOP（Structural classification of proteins）數(shù)據(jù)庫(kù)、DSSP（Definition of Secondary Structure of Protein）、FSSP（Families of Structural Similar Protein）這六種主要的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)各具特色，其中PDB數(shù)據(jù)庫(kù)主要依靠實(shí)驗(yàn)數(shù)據(jù)（核磁共振和X射線）獲得蛋白質(zhì)結(jié)構(gòu)；NRL-3D數(shù)據(jù)庫(kù)可以對(duì)已知結(jié)構(gòu)的蛋白質(zhì)序列進(jìn)行比對(duì)；HSSP數(shù)據(jù)庫(kù)則利用蛋白質(zhì)的同源性對(duì)不同序列但是結(jié)構(gòu)相似的蛋白質(zhì)進(jìn)行歸類；SCOP數(shù)據(jù)庫(kù)可以對(duì)某一蛋白質(zhì)數(shù)據(jù)與已知蛋白質(zhì)結(jié)構(gòu)進(jìn)行比對(duì)；而DSSP數(shù)據(jù)庫(kù)則提供了蛋白質(zhì)二級(jí)結(jié)構(gòu)的構(gòu)象參數(shù)；FSSP數(shù)據(jù)庫(kù)包含了整個(gè)蛋白質(zhì)家族。雖然這六種數(shù)據(jù)庫(kù)特點(diǎn)鮮明，但是它們卻都有一個(gè)共性特點(diǎn)，那就是都含有大量的蛋白質(zhì)結(jié)構(gòu)信息，這就凸顯出數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫(kù)應(yīng)用中的重要作用。下面對(duì)PDB數(shù)據(jù)中數(shù)據(jù)挖掘技術(shù)進(jìn)行詳細(xì)討論。引入數(shù)據(jù)挖掘技術(shù)就是為了找到蛋白質(zhì)結(jié)構(gòu)自身的一般性規(guī)律，也就是說(shuō)從海量數(shù)據(jù)信息中萃取出有效的信息以及獲得精準(zhǔn)的結(jié)論。為了挖掘有效數(shù)據(jù)和規(guī)律性變化本文從三個(gè)方面入手：蛋白質(zhì)二級(jí)結(jié)構(gòu)、蛋白質(zhì)長(zhǎng)度序列同其二級(jí)結(jié)構(gòu)之間的關(guān)系和蛋白質(zhì)序列追蹤。利用數(shù)據(jù)挖掘技術(shù)可以有效的統(tǒng)計(jì)三類蛋白質(zhì)二級(jí)結(jié)構(gòu)（α螺旋、β折疊和其他結(jié)構(gòu)），很多結(jié)構(gòu)的組合在現(xiàn)實(shí)的蛋白質(zhì)結(jié)構(gòu)中并不存在。可以挑選出這些結(jié)構(gòu)的組合為未來(lái)蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)提供便利。同樣將一定數(shù)量的蛋白質(zhì)結(jié)構(gòu)和其對(duì)應(yīng)固定長(zhǎng)度的蛋白質(zhì)序列進(jìn)行挖掘分析可知，由于在數(shù)據(jù)庫(kù)中存在大量的序列出現(xiàn)次數(shù)很少，那么其所對(duì)應(yīng)的可能的結(jié)構(gòu)概率分布就很均勻。通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)追蹤蛋白質(zhì)數(shù)據(jù)庫(kù)序列，得出結(jié)構(gòu)相對(duì)確定的序列切片占所有序列切片總數(shù)比重相同。

4 總結(jié)和展望

隨著大數(shù)據(jù)和網(wǎng)絡(luò)時(shí)代的到來(lái)，數(shù)據(jù)挖掘技術(shù)逐漸演變成大規(guī)模數(shù)據(jù)庫(kù)中數(shù)據(jù)分析和提取的重要手段之一。將蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)與信息挖掘技術(shù)相結(jié)合的方法已經(jīng)逐漸演變成蛋白質(zhì)數(shù)據(jù)庫(kù)發(fā)展進(jìn)程的關(guān)鍵技術(shù)之一。本文主要研究蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù)在PDB數(shù)據(jù)庫(kù)中的應(yīng)用，總結(jié)了數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)、固定序列同蛋白質(zhì)結(jié)構(gòu)的關(guān)系和蛋白質(zhì)數(shù)據(jù)追蹤的結(jié)果。發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)以完全可以為蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)服務(wù)，并且可以獲得更為準(zhǔn)確和規(guī)律性結(jié)論。

參考文獻(xiàn)

［1］冉麗，鄒先霞，許龍飛，基于數(shù)據(jù)挖掘技術(shù)的蛋白質(zhì)結(jié)構(gòu)分類的研究，計(jì)算機(jī)工程與應(yīng)用，2006.18

［2］萬(wàn)躍華，何立民，網(wǎng)上生物信息學(xué)數(shù)據(jù)庫(kù)資源，情報(bào)學(xué)報(bào)，2002.04

［3］姜鑫，生物信息學(xué)數(shù)據(jù)庫(kù)及其利用發(fā)放，現(xiàn)代情報(bào)，2005.06

Application of data mining techniques in protein structure prediction

Liu Yan
（changchun medical college，130031）

Abstract：With the fast development of Bioinformation，a great amount of protein structure data are gained by protein sequencing and protein structure analysis，therefore lots of protein structure databases have been built up.This paper introduced six protein databases，and discussed the PDB database in detail，showed the relationship between protein sequence and structure slice database，and its inner laws.Protein databases and data mining techniques are useful technology for analyzing the great amount of protein structure data，and will be an important direction for the future development.

Keywords：data mining technology；protein structure database；PDB database；structure prediction