• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      蛋白質(zhì)空間結(jié)構(gòu)相似度多參數(shù)算法模型的建立

      2016-06-27 08:16:46張萍萍張建華尹咪咪
      鄭州大學學報(理學版) 2016年2期
      關(guān)鍵詞:個數(shù)原子線性

      張萍萍, 張建華, 尹咪咪

      (鄭州大學 電氣工程學院 河南 鄭州 450001)

      蛋白質(zhì)空間結(jié)構(gòu)相似度多參數(shù)算法模型的建立

      張萍萍, 張建華, 尹咪咪

      (鄭州大學 電氣工程學院 河南 鄭州 450001)

      通過收集165對蛋白質(zhì)的結(jié)構(gòu)文件,利用BLASTP比較它們的相似度.建立球極坐標系,分別將球體半徑、方位角和仰角二等分和三等分,將蛋白質(zhì)劃分為8塊和27塊類似球殼碎片的區(qū)域.在此基礎(chǔ)上,利用MATLAB計算12個參數(shù)相似度,用SPSS建立了二等分和三等分時總相似度和12個參數(shù)相似度的全回歸模型、逐步回歸模型和相關(guān)性回歸模型.利用MATLAB建立BP神經(jīng)網(wǎng)絡(luò)模型,并與線性回歸模型進行了對比.根據(jù)二等分時逐步回歸模型的結(jié)果可以看出,原子個數(shù)相似度,C、N原子個數(shù)相似度,P、S的位置相似度以及密度相似度和總體相似度的相關(guān)性最顯著.二等分時結(jié)果較三等分時好,逐步回歸模型的結(jié)果最好.

      蛋白質(zhì); 相似度; 回歸分析; 逐步回歸; BP神經(jīng)網(wǎng)絡(luò)

      0 引言

      蛋白質(zhì)是組成生物體的物質(zhì)基礎(chǔ),是生物功能的體現(xiàn)者,了解蛋白質(zhì)的三維結(jié)構(gòu)能夠有效地揭示蛋白質(zhì)的功能.蛋白質(zhì)的結(jié)構(gòu)和功能是統(tǒng)一的,蛋白質(zhì)的生物功能在很大程度上依賴于其空間結(jié)構(gòu)[1],結(jié)構(gòu)相似的蛋白質(zhì)功能也往往相似.文獻[2]提出了一種基于骨架的蛋白質(zhì)三維模型形狀相似性分析方法.文獻[3]在扇形劃分模型的基礎(chǔ)上提出了一種基于方差和均值統(tǒng)計描述的蛋白質(zhì)結(jié)構(gòu)相似性比較方法.文獻[4] 使用混沌游走方法比較蛋白質(zhì)的相似度.文獻[5]對Ca骨架進行同密度劃分和同心球劃分,提取VPT特征分別判定相似性.文獻[6]對比較蛋白建立球極坐標系,比較各區(qū)域Ca的相似性,利用半徑和首尾距離來比較蛋白質(zhì)的相似度.本文在上述研究基礎(chǔ)上,計算各區(qū)域密度相似度,P、S個數(shù)和位置相似度,原子個數(shù)相似度,氨基酸個數(shù)和種類相似度,C、N、O、H原子個數(shù)相似度,然后運用統(tǒng)計學方法建立它們與總相似度之間的線性關(guān)系,找出與總相似度相關(guān)性最顯著的特征.采用BP算法建立學習網(wǎng)絡(luò)計算總體相似度,并與線性回歸模型進行了對比.

      1 方法

      1.1 蛋白質(zhì)的結(jié)構(gòu)劃分

      在文獻[7]基礎(chǔ)上建立蛋白質(zhì)的球極坐標系,不僅根據(jù)球體半徑將蛋白質(zhì)劃分成等厚度球殼狀,而且也等劃分方位角和仰角,形成一個假想球殼碎片的空間劃分方法.作為比較,分別將球體半徑、方位角和仰角劃分成二等分和三等分,也就是將蛋白質(zhì)分為8塊和27塊來進行計算.

      1.2 蛋白質(zhì)數(shù)據(jù)的來源

      選取一些常見的蛋白質(zhì),如S100家族、TNFa、RAS等,通過PDB數(shù)據(jù)庫獲取蛋白質(zhì)編碼,下載PDB文件,通過NCBI查找它們的氨基酸序列.將得到的氨基酸序列進行BLASTP找到與這些蛋白質(zhì)相似的蛋白,下載這些相似蛋白的PDB文件,并標記每對蛋白的相似度,共找到了待分析的蛋白165對.

      1.3 參數(shù)的選取

      蛋白質(zhì)結(jié)構(gòu)復雜多變,不能通過單一參數(shù)來比較兩個蛋白質(zhì)的相似性,可以通過多參數(shù)分別建立線性與非線性關(guān)系來計算相似度.本文選取了12個參數(shù),分別為原子個數(shù)相似度,氨基酸個數(shù)和種類相似度,C、N、O、H原子個數(shù)相似度,P、S個數(shù)和位置相似度以及密度相似度,所選取的參數(shù)都在一定程度上影響著蛋白質(zhì)功能的發(fā)揮.參數(shù)的選取是經(jīng)所有作者和幾位生物學教授討論決定的.

      1.4 參數(shù)相似度的計算方法

      1) 原子個數(shù)相似度(Sim1)

      蛋白質(zhì)內(nèi)原子個數(shù)的多少決定了它的大小和質(zhì)量,因此將蛋白質(zhì)的原子個數(shù)相似度Sim1作為總相似度的一個參數(shù).假設(shè)待比較蛋白為蛋白A和蛋白B,統(tǒng)計兩個蛋白的原子總數(shù)分別為n1和n2,原子個數(shù)相似度計算方法如下:

      (1)

      2) 氨基酸個數(shù)和種類相似度(Sim2,Sim3)

      氨基酸是蛋白質(zhì)的基本組成單元,因此,統(tǒng)計蛋白A和蛋白B內(nèi)氨基酸的個數(shù)和種類,計算它們的相似度,作為總相似度的一個參數(shù).Sim2為氨基酸個數(shù)相似度,Sim3為氨基酸種類相似度.氨基酸個數(shù)和種類的相似度也可以采用式(1)計算.此時,n1為第1個蛋白的氨基酸個數(shù)和種類,n2為第2個蛋白的氨基酸個數(shù)和種類.

      3) C、N、O、H原子個數(shù)相似度(Sim4~Sim7)

      C幾乎占了蛋白質(zhì)成分的50%左右,文獻[8]從蛋白質(zhì)Ca骨架的角度出發(fā),計算TM-score的值來比較結(jié)構(gòu)的相似度.此外,N、O、H幾乎占了蛋白質(zhì)組成元素的40%以上,所以它們的相似性也作為總相似性的一個參數(shù),比較方法依舊采用式(1).此時,n1為第一個蛋白的C、N、O、H的個數(shù),n2為第二個蛋白的C、N、O、H的個數(shù),Sim4為C原子個數(shù)相似度,Sim5為N原子個數(shù)相似度,Sim6為O原子個數(shù)相似度,Sim7為H原子個數(shù)相似度.

      4) P、S個數(shù)和位置相似度(Sim8~Sim11)

      S在蛋白質(zhì)中的含量為0~3%,P的含量更少,但它們的存在會導致蛋白質(zhì)的結(jié)構(gòu)和功能發(fā)生大的變化,不同位置對蛋白質(zhì)的結(jié)構(gòu)和功能的影響也不一樣,因此將P、S個數(shù)和位置相似度作為總相似度的一個參數(shù).Sim8為P原子個數(shù)相似度,Sim9為P原子位置相似度,Sim10為S原子個數(shù)相似度,Sim11為S原子位置相似度.對P、S位置相似度的計算采用如下方法:因為P/S個數(shù)較少,首先根據(jù)球體半徑等分后,看兩個蛋白相同區(qū)域內(nèi)是否含有P/S,若在同一塊區(qū)域里面都含有或都不含有P/S,則這一塊區(qū)域P/S的相似度為1,若一個區(qū)域含有P/S,另一個區(qū)域不含有P/S,則相似度為0.同理,計算將方位角和仰角等分后區(qū)域的 P/S相似度,這樣可以得到每一塊區(qū)域的P/S位置相似度,總的P/S位置相似度計算公式如下:

      (2)

      式中:mi為第i個分塊區(qū)域的P/S相似度;n為分塊個數(shù).P/S個數(shù)相似度也可以采用式(1)計算.

      5) 密度相似度(Sim12)

      首先計算分塊的每個區(qū)域的原子個數(shù),比較第i個區(qū)域的原子個數(shù)相似度si,然后計算該區(qū)域在蛋白質(zhì)中所占的比重li.si可以根據(jù)式(1)得到,li為

      (3)

      式中:n1i為第1個蛋白第i個區(qū)域的原子個數(shù);n2i為第2個蛋白第i個區(qū)域的原子個數(shù).則密度相似度計算公式如下:

      (4)

      式中:n為分塊個數(shù).

      1.5 線性回歸模型的建立

      利用MTALAB可以得到每對相似蛋白的12個參數(shù)的相似度,通過BLASTP得到了每對蛋白的總體相似度,采用SPSS軟件來分析這12個參數(shù)和總體相似度的關(guān)系.為了進行比較,分別在二等分和三等分時利用SPSS對Sim和Sim1~Sim12建立全回歸模型,方法為“enter”;對Sim和Sim1~Sim12建立逐步回歸模型,方法為“stepwise”;對Sim和Sim1~Sim12進行兩兩相關(guān)分析,并用和Sim相關(guān)性水平在 0.01內(nèi)的參數(shù)建立相關(guān)性回歸模型,方法為“enter”.

      1.6 BP網(wǎng)絡(luò)模型的建立

      根據(jù)線性回歸模型的建立比較兩種劃分區(qū)域方式,對結(jié)果比較好的一種建立BP神經(jīng)網(wǎng)絡(luò)模型,由于BP網(wǎng)絡(luò)的學習和記憶具有不穩(wěn)定性,故運行多次,找到比較好的一次結(jié)果,對網(wǎng)絡(luò)進行保存,以便下次使用時調(diào)用.為了防止過學習,沒有劃分訓練數(shù)據(jù)和測試數(shù)據(jù),而是采用交叉驗證的方式,提高了學習速率.

      2 結(jié)果

      2.1 線性回歸模型

      分別將球體半徑、方位角和仰角劃分成二等分和三等分區(qū)域,也就是將蛋白質(zhì)分為8塊和27塊,利用SPSS軟件建立165組對比蛋白的12個參數(shù)相似度和總相似度的線性回歸模型,結(jié)果如表1所示.可以看出,這些模型的P都小于0.001,說明這些線性回歸模型都極顯著.二等分時逐步回歸模型的R值最接近1,F(xiàn)值最大,誤差最小,說明二等分時逐步回歸模型的結(jié)果最好.此外,二等分時的結(jié)果要明顯好于三等分時的結(jié)果.

      表1 線性回歸模型結(jié)果

      與BLASTP的相似度進行比較,線性回歸模型的結(jié)果和誤差如圖1~4所示.二等分時實際誤差:全回歸模型為0.083 3,逐步回歸模型為0.076 8,相關(guān)性回歸模型為0.105 3.三等分時實際誤差:全回歸模型為0.139 8,逐步回歸模型為0.143 7,相關(guān)性回歸模型為0.142 0.可以看出,二等分時結(jié)果要比三等分時結(jié)果好,也就是將蛋白質(zhì)分為8塊區(qū)域時結(jié)果較好.

      圖1 二等分時線性回歸模型的結(jié)果
      Fig.1 Linear regression model results in bisection

      圖2 二等分時線性回歸模型的誤差
      Fig.2 Linear regression model errors in bisection

      圖3 三等分時線性回歸模型的結(jié)果
      Fig.3 Linear regression model results in trisection

      圖4 三等分時線性回歸模型的誤差
      Fig.4 Linear regression model errors in trisection

      二等分時全回歸模型公式為: Sim=0.691+1.027*Sim1-0.253*Sim2-0.143*Sim3-4.663*Sim4+2.521*Sim5+1.242*Sim6+ 0.012*Sim7-0.197*Sim8+0.44*Sim9+0.087*Sim10+0.101*Sim11+0.149*Sim12.

      二等分時逐步回歸模型公式為: Sim=0.362+0.936*Sim1-2.373*Sim4+1.566*Sim5+0.291*Sim9+0.110*Sim11+0.115*Sim12.

      二等分時相關(guān)性回歸模型公式為: Sim=-0.199+0.299*Sim1+0.143*Sim2+0.003*Sim8+0.388*Sim9+0.123*Sim10+0.073*Sim11+0.187*Sim12.

      從二等分逐步回歸模型的結(jié)果來看,原子個數(shù)相似度,C、N原子個數(shù)相似度,P、S位置相似度以及密度相似度和總體相似度的相關(guān)性最顯著,用其建立的方程來比較蛋白質(zhì)的相似度較另外兩個模型效果更好.

      2.2 BP神經(jīng)網(wǎng)絡(luò)模型

      BP神經(jīng)網(wǎng)絡(luò)每次運行結(jié)果不一樣,誤差為0.023~0.34,選取誤差為0.030 2時保存訓練網(wǎng)絡(luò).BP神經(jīng)網(wǎng)絡(luò)模型的結(jié)果和誤差如圖5和圖6所示,可以看出,BP神經(jīng)網(wǎng)絡(luò)的結(jié)果比線性回歸模型的結(jié)果要好.

      圖5 BP神經(jīng)網(wǎng)絡(luò)模型的結(jié)果
      Fig.5 Results of BP neural network model

      圖6 BP神經(jīng)網(wǎng)絡(luò)模型的誤差
      Fig.6 Errors of BP neural network model

      3 討論

      介紹了比較蛋白質(zhì)空間結(jié)構(gòu)相似度模型的建立方法,首先找到待比較蛋白的坐標中心,建立球極坐標系,根據(jù)球體半徑、方位角和仰角將蛋白質(zhì)劃分區(qū)域,形成一個假想球殼碎片的空間劃分方法.作為比較,分別將球體半徑、方位角和仰角劃分成二等分和三等分,也就是將蛋白質(zhì)分為8塊和27塊來進行計算.從線性回歸模型的建立結(jié)果可以看出,二等分時的結(jié)果要明顯好于三等分.3個線性回歸模型中逐步回歸模型的結(jié)果最好,誤差最小.雖然這12個參數(shù)都對蛋白質(zhì)的結(jié)構(gòu)和功能有影響,但是在建立模型時,數(shù)據(jù)可能會有冗余,需要刪去冗余項.根據(jù)二等分時逐步回歸模型的結(jié)果可以看出,原子個數(shù)相似度,C、N原子個數(shù)相似度,P、S位置相似度以及密度相似度和總體相似度的相關(guān)性最顯著.

      作為比較,建立了BP神經(jīng)網(wǎng)絡(luò)模型來計算蛋白質(zhì)的相似度,誤差為0.023~0.34,保存了其中誤差為0.030 2時的訓練網(wǎng)絡(luò),可以作為以后比較蛋白的參考.這里只收集了165對蛋白的資料,今后還可以繼續(xù)補充蛋白資料,以提高BP網(wǎng)絡(luò)的準確性.雖然線性回歸模型沒有BP神經(jīng)網(wǎng)絡(luò)模型的效果好,但它是一個固定的數(shù)學式,可以很方便地得出兩個蛋白的相似度,而BP神經(jīng)網(wǎng)絡(luò)結(jié)果不固定,每次訓練還需要調(diào)用訓練網(wǎng)絡(luò),因此兩者各有所長.

      [1] FATEMI M H,GHARAGHANI S.A novel QSAR model for prediction of apoptosis-inducing activity of 4-aryl-4-H-chromenes based on support vector machine[J].Bioorganic and medicinal chemistry,2007,15(24):7746-7754.

      [2] LI Z,QIN S W,YU Z Y,et al.Skeleton-based shape analysis of protein models [J].Journal of molecular graphics and modelling,2014,53:72-81.

      [3] 王雪平,王長纓.基于統(tǒng)計方法描述的蛋白質(zhì)三維結(jié)構(gòu)相似性比較[J].閩南師范大學學報(自然科學版),2014,27(1):39-43.

      [4] 徐占.蛋白質(zhì)空間結(jié)構(gòu)的相似性比較[D].無錫:江南大學,2010.

      [5] HOKSZA D.DDPIn-distance and density based protein indexing[C]// Proceeding of the 6th Annual IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology.Nashville, 2009:263-270.

      [6] CHEN Z T.Analyzing influence on the conformation of single-chain antibody with the differential length of linkers[J].African journal of microbiology research,2011, 5(31):5737-5744.

      [7] MARK J, IRENA Z, YAN R, et al. NCBI BLAST:a better web interface[J].Nucleic acids research,2008,36(12):5-9.

      [8] HUNG L H,SAMUDRALA R.Accelerated protein structure comparison using TM-score-GPU[J].Bioinformatics,2012,28(16):2191-2192.

      (責任編輯:孔 薇)

      Establishing Algorithm Model of the Protein Spatial Structure Similarity Based on Multi-parameter

      ZHANG Pingping, ZHANG Jianhua, YIN Mimi

      (SchoolofElectricalEngineering,ZhengzhouUniversity,Zhengzhou450001,China)

      One hundred and sixty-five pairs of protein structural files were collected and BLASTP was then utilized to compare their similarities. The spherical polar coordinate was established. The radius of the sphere, the azimuth and elevation were bisected and trisected, respectively, so the protein was divided into 8 and 27 blocks which were similar to spherical shell fragments. On this basis, the similarity of 12 parameters was calculated using MATLAB. The full regression model, stepwise regression model and filter regression model between the total similarity and the similarity of 12 parameters when they were bisected and trisected were established using SPSS. The BP neural network model was established using MATLAB for comparison. According to the results of stepwise regression model, similarity of the atomic number, similarity of C and N atomic number, similarity of P and S position and density had the most significant correlation with the overall similarity. Results of bisection were much better when compared with that of trisection,and stepwise regression model had the best results.

      protein; similarity; regression analysis; stepwise regression; BP neural network

      2015-10-07

      國家自然科學青年基金資助項目(813D3150);中國中醫(yī)藥行業(yè)科研專項基金資助項目(201007001).

      張萍萍(1991—),女,河南汝州人,碩士研究生,主要從事生物信息學研究,E-mail:385716230@qq.com;通訊作者:張建華(1971—),男,河北唐山人,副教授,博士研究生,主要從事生物醫(yī)學信息的采集、分析及處理研究,E-mail:petermails@163.com.

      張萍萍,張建華,尹咪咪. 蛋白質(zhì)空間結(jié)構(gòu)相似度多參數(shù)算法模型的建立[J]. 鄭州大學學報(理學版),2016,48(2):105-109.

      Q816

      A

      1671-6841(2016)02-0105-05

      10.13705/j.issn.1671-6841.2015211

      猜你喜歡
      個數(shù)原子線性
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      原子究竟有多小?
      原子可以結(jié)合嗎?
      帶你認識原子
      怎樣數(shù)出小正方體的個數(shù)
      線性回歸方程的求解與應用
      等腰三角形個數(shù)探索
      怎樣數(shù)出小木塊的個數(shù)
      二階線性微分方程的解法
      怎樣數(shù)出小正方體的個數(shù)
      肥东县| 博兴县| 区。| 西乌| 大田县| 嘉义县| 德兴市| 玛沁县| 漳平市| 嘉峪关市| 桦甸市| 城市| 巨鹿县| 铁力市| 百色市| 台湾省| 安福县| 彭州市| 昌吉市| 喀喇沁旗| 连江县| 新密市| 平顶山市| 梓潼县| 六枝特区| 深水埗区| 阿瓦提县| 山阳县| 隆子县| 师宗县| 德格县| 晋宁县| 台中县| 定边县| 三亚市| 崇仁县| 长岛县| 汾西县| 马关县| 苍山县| 溧阳市|