蔡雨晨,李孟澤,李利君,2,倪輝,2
(1.集美大學(xué)食品與生物工程學(xué)院,福建廈門 361021)
(2.福建省食品微生物與酶工程重點實驗室,福建廈門 361021)
關(guān)鍵字:α-L-鼠李糖苷酶;進(jìn)化樹;代表性序列;結(jié)構(gòu)特征
α-L-鼠李糖苷酶(α-L-rhamnosidase,EC3.2.1.40)是一種專一性水解鼠李糖苷鍵的酶[1],近年來,在食品加工特別是飲料加工中被廣泛應(yīng)用,如水解柚子中的苦味物質(zhì)制作柚子汁,改善釀造酒及果汁的風(fēng)味等[2],此外,α-L-鼠李糖苷酶還可作為食品添加劑改變流體性質(zhì)[3]。在自然界中,α-L-鼠李糖苷酶主要來源于細(xì)菌[4]和霉菌[5],最初是從青霉菌和曲霉菌代謝生產(chǎn)的酶制劑中純化得到,國外關(guān)于真菌中α-L-鼠李糖苷酶基因的克隆研究也主要集中于曲霉來源的α-L-鼠李糖苷酶[6];在碳水化合物活性酶數(shù)據(jù)庫(CAZy)[7]中,α-L-鼠李糖苷酶主要存在于糖苷水解酶第 78家族(glucoside hydrolase family 78,GH78),少量存在于GH28和GH106家族中,且來源于真菌的晶體結(jié)構(gòu)有且僅有一個,即Aspergillus terreus來源的α-L-鼠李糖苷酶(PDB:6gsz)[8],因此對曲霉來源的α-L-鼠李糖苷酶在蛋白結(jié)構(gòu)方面上缺乏系統(tǒng)性研究。
序列比對是解決進(jìn)化樹構(gòu)建、保守區(qū)和保守位點分析等眾多問題的開端和基礎(chǔ)步驟[9]。系統(tǒng)進(jìn)化樹能夠展示蛋白的系統(tǒng)進(jìn)化關(guān)系,描述發(fā)生或進(jìn)化順序,是系統(tǒng)性分析蛋白或基因序列的重要手段[10]。同源建模是利用蛋白質(zhì)的三級結(jié)構(gòu)比一級結(jié)構(gòu)更保守的原理,使用已經(jīng)確定結(jié)構(gòu)的模板蛋白對未知結(jié)構(gòu)的蛋白進(jìn)行三級結(jié)構(gòu)構(gòu)建[11]。穿線法建模則利用自然界中蛋白質(zhì)折疊類型數(shù)目是一定的,且相似性比較低的氨基酸序列可能對應(yīng)著一致的折疊類型這一原理,彌補同源建模中必須有相似度較高的模板的這一不足[12,13]。
通過三級結(jié)構(gòu)建模對蛋白結(jié)構(gòu)進(jìn)行直觀的觀察[14],并結(jié)合結(jié)構(gòu)疊合的方法進(jìn)一步對蛋白結(jié)構(gòu)進(jìn)行分類,可以分析得到結(jié)構(gòu)進(jìn)化的規(guī)律。因此,本文通過序列比對方法及進(jìn)化樹構(gòu)建技術(shù)對曲霉來源的α-L-鼠李糖苷酶進(jìn)行研究,并利用生物信息學(xué)手段對α-L-鼠李糖苷酶蛋白序列的一級序列和二級結(jié)構(gòu)進(jìn)行分析,再采用同源建模與穿線法建模的方法進(jìn)行三級結(jié)構(gòu)建模,結(jié)合結(jié)構(gòu)疊合的結(jié)果,綜合分析探索曲霉來源α-L-鼠李糖苷酶的蛋白結(jié)構(gòu)特征。
進(jìn)入美國國家生物信息中心 NCBI網(wǎng)站(http://www.ncbi.nlm.nih.gov/),輸入檢索詞“(α-L-rhamnosidase)AND "Aspergillus"”,下載NCBI核苷酸數(shù)據(jù)庫中曲霉來源α-L-鼠李糖苷酶核酸序列的FASTA文件和GenBank文檔,并使用NCBI Blast+2.10.0[15]篩選出非重復(fù)序列。
1.2.1 系統(tǒng)進(jìn)化樹構(gòu)建
利用 ClustalX 2.0[16]軟件進(jìn)行核酸和蛋白質(zhì)的多序列比對;運用 MEGAX 6.0[17]軟件對得到的多序列比對結(jié)果分別構(gòu)建核酸和蛋白質(zhì)序列進(jìn)化樹。
1.2.2 蛋白質(zhì)一級結(jié)構(gòu)和二級結(jié)構(gòu)分析
(1)通過 ProtParam[18](https://web.expasy.org/protparam/)工具預(yù)測蛋白的理化性質(zhì);
(2)利用 ProtScale[19](http://www.expasy.org/cgi-bin /protscale.pl)工具進(jìn)行蛋白質(zhì)疏水性分析;
(3)利用 TMHMM 2.0(http://www.cbs.dtu.dk/services/TMHMM-2.0)工具尋找蛋白質(zhì)的跨膜區(qū)域并進(jìn)行分析;
(4)使用 SignalP 5.0[20](http://www.cbs.dtu.dk/services/SignalP/)工具進(jìn)行蛋白的信號肽預(yù)測分析。
1.2.3 蛋白質(zhì)三級結(jié)構(gòu)分析
利用同源建模在線服務(wù)器 Swiss-Model[11](https://swissmodel.expasy.org/),穿針引線法建模在線服務(wù)器 I-TASSER[12](https://zhanglab.ccmb.med.umich. edu/ I-TASSER/)和 Phyre2[13](http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index)進(jìn)行蛋白的三級結(jié)構(gòu)建模,并使用工具 Verify3D[21](https://servicesn. mbi.ucla.edu/Verify3D/)對模型的質(zhì)量進(jìn)行評價分析;運用UCSF Chimera 1.14[22]軟件進(jìn)行蛋白質(zhì)的三維結(jié)構(gòu)結(jié)合疊合和比對。
所有數(shù)據(jù)都根據(jù)實驗方法中各個軟件及網(wǎng)站收集得來,最多保留兩位小數(shù);序列比對結(jié)果使用Espript 3.0[23](http://espript.ibcp.fr/ESPript/cgi-bin/ ESPript.cgi)進(jìn)行美化;281條核酸序列進(jìn)化樹使用 ITOL(https://itol.embl.de/)進(jìn)行美化;21條蛋白序列進(jìn)化樹使用MEGAX 6.0軟件自動生成的圖片結(jié)果;蛋白三維結(jié)構(gòu)模型及結(jié)構(gòu)疊合結(jié)果使用 UCSF Chimera 1.14軟件對進(jìn)行渲染。
2.1.1 核酸序列數(shù)據(jù)收集
表1 NCBI中291條曲霉來源α-L-鼠李糖苷酶核酸序列統(tǒng)計信息Table 1 Sequence statistics of α-L-rhamnosidase from 310 Aspergillus species in NCBI
表2 21條代表性核酸序列對應(yīng)蛋白質(zhì)登錄號Table 2 The corresponding protein registration numbers of 21 representative nucleic acid sequences
在NCBI核苷酸數(shù)據(jù)庫中,檢索到291條曲霉來源的α-L-鼠李糖苷酶核酸序列,經(jīng)過統(tǒng)計將它們分成了37個種類(表1)。發(fā)現(xiàn)幾乎所有種類的曲霉都有分離純化得到α-L-鼠李糖苷酶的記錄。
2.1.2 核酸系統(tǒng)進(jìn)化樹構(gòu)建及代表性序列篩選
篩除掉10條完全重復(fù)序列,最終得到281條未重復(fù)曲霉來源的α-L-鼠李糖苷酶核酸序列,然后對281條核酸序列建立進(jìn)化樹(圖1),并根據(jù)系統(tǒng)進(jìn)化樹篩選出21條代表性的核酸序列(圖1中的橙色標(biāo)識),并得到了對應(yīng)的蛋白質(zhì)序列(表2)。
圖1 281條曲霉來源α-L-鼠李糖苷酶核酸序列構(gòu)建的系統(tǒng)進(jìn)化樹Fig.1 Phylogenetic tree of 281 Aspergillus derived α-L-rhamnosidase nucleic acid sequences
2.2.1 多序列比對分析
多序列比對結(jié)果顯示了α-L-鼠李糖苷酶蛋白質(zhì)序列的保守氨基酸位點(圖2),發(fā)現(xiàn)這21條α-L-鼠李糖苷酶代表序列的氨基酸保守位點較為分散且僅有22個較保守位點,分別位于285、359、392、507、510、574、595、596、626、631、634、648、644、651、678、681、684、685、825、831、844和852位,推測這些氨基酸是與保持結(jié)構(gòu)或催化功能密切相關(guān)的極其重要關(guān)鍵性氨基酸,且并沒有發(fā)現(xiàn)有非常保守的位點和保守區(qū)存在,說明選擇的這21條序列相互獨立,可以通過對這 21條代表性序列的分析可以基本概括出所有曲霉來源α-L-鼠李糖苷酶的相關(guān)規(guī)律。
2.2.2 理化性質(zhì)分析
對21條代表性蛋白質(zhì)序列進(jìn)行理化性質(zhì)分析(表3)發(fā)現(xiàn)它們氨基酸數(shù)量范圍為556~1032個,分子量(Mr)的極差為37606 u,原子總數(shù)的極差為5225個,在氨基酸數(shù)量、分子量、原子總數(shù)上波動較大。對負(fù)電荷殘基總數(shù)(Asp+Glu)和正電荷殘基總數(shù)(Arg+lys)進(jìn)行比較,發(fā)現(xiàn)負(fù)電荷殘基總數(shù)略多,大多帶負(fù)電荷。理論等電點(pI)的范圍是 4.66~7.17,除了XP_660235.1的pI為7.13、XP_664533.1為7.17,是弱堿性蛋白質(zhì);其余α-L-鼠李糖苷酶蛋白質(zhì)的理論等電點都小于7,屬于酸性蛋白質(zhì),與張霞[6]總結(jié)的關(guān)于真菌來源的α-L-鼠李糖苷酶的pI實驗值一致;α螺旋指數(shù)的范圍是71.36~86.19;親水性平均系數(shù)的范圍是-0.355到-0.051,說明曲霉來源的α-L-鼠李糖苷酶為親水性蛋白[24]。
圖2 曲霉來源21條α-L-鼠李糖苷酶序列保守位點Fig.2 Conserved sites of 21 α-L-rhamnosidase sequences from Aspergillus species
表3 21條曲霉來源α-L-鼠李糖苷酶理化性質(zhì)預(yù)測Table 3 Prediction of physicochemical properties of α-L-rhamnosidase from 21 Aspergillus species
2.2.3 疏水性和跨膜區(qū)分析
氨基酸的疏水性反映α-L-鼠李糖苷酶的折疊情況,在潛在的跨膜區(qū)域會出現(xiàn)疏水區(qū)。對親水性平均系數(shù)比較小的XP_660235.1蛋白進(jìn)行疏水性分析和跨膜區(qū)預(yù)測。使用ProtScale得到了對XP_660235.1蛋白的分析結(jié)果(圖3)。發(fā)現(xiàn)XP_660235.1在100~200之間有明顯的兩個疏水峰,是潛在的跨膜區(qū)域[25]。
圖3 XP_660235.1蛋白的疏水性預(yù)測圖Fig.3 Hydrophobicity prediction map of XP_660235.1 protein
使用TMHMM工具預(yù)測XP_660235.1蛋白的跨膜區(qū),發(fā)現(xiàn)136到158位和171到193位擁有跨膜螺旋區(qū)的可能性接近1(圖4),說明XP_660235.1蛋白有兩部分位于細(xì)胞膜表面,分別是氨基酸序列的 1到135位和194到568位,XP_660235.1為兩次跨膜的蛋白質(zhì),這與 ProtScale預(yù)測結(jié)果一致。對剩余的20條蛋白質(zhì)序列進(jìn)行預(yù)測,結(jié)果顯示無跨膜區(qū)存在。
圖4 XP_660235.1蛋白的跨膜區(qū)預(yù)測圖Fig.4 Prediction map of transmembrane region of XP_660235.1 protein
2.2.4 蛋白進(jìn)化樹分析
對這21條曲霉來源α-L-鼠李糖苷酶蛋白質(zhì)序列進(jìn)行系統(tǒng)進(jìn)化樹構(gòu)建分析(圖 5),根據(jù)進(jìn)化樹結(jié)果可以將21條代表性序列分為兩組,第一組包含17個序列為 XP_660235.1、XP_664533.1、XP_748610.1、XP_749916.1、XP_001395635.2、XP_001398938.2、XP_002383141.1、XP_002385047.1、XP_022403539.1、XP_001727134.1、CCB96437.1、XP_681734.1、XP_659810.1、XP_026602402.1、XP_026602632.1、XP_026603987.1、XP_026628025.1,第二組包含 4個序列為 XP_022383582.1、XP_025515427.1、XP_026602627.1、XP_026603527.1。
圖5 21條曲霉來源α-L-鼠李糖苷酶蛋白質(zhì)序列構(gòu)建的鄰接法進(jìn)化樹Fig.5 Phylogenetic tree of 21 Aspergillus derived α-L-rhamnosidase protein sequences
2.2.5 信號肽預(yù)測分析
表4 信號肽預(yù)測結(jié)果Table 4 Prediction results of signal peptide
在 SignalP 5.0的預(yù)測結(jié)果中(表 4),XP_002383141.1、XP_022403539.1、XP_659810.1、XP_001395635.2、XP_022383582.1、XP_748610.1、XP_001398938.2、XP_025515427.1、XP_026602627.1和XP_026603527.1共10條α-L-鼠李糖苷酶蛋白序列含有信號肽。與進(jìn)化樹分類結(jié)果結(jié)合發(fā)現(xiàn),含有信號肽的序列均勻的分布在第一組與第二大組中,說明曲霉來源的α-L-鼠李糖苷酶存在胞外酶與胞內(nèi)酶兩種,且信號肽的有無不能反映出曲霉來源α-L-鼠李糖苷酶的進(jìn)化規(guī)律。
2.3.1 三級結(jié)構(gòu)建模分析
表5 Verify3D建模評分表Table 5 Verify3D modeling scoring table
對21條曲霉來源α-L-鼠李糖苷酶的蛋白質(zhì)序列進(jìn)行三維建模,其中 5條采用同源建模法,另外 16條采用穿針引線法進(jìn)行建模。對所有蛋白質(zhì)三級結(jié)構(gòu)建模結(jié)果進(jìn)行Verify3D評價。從結(jié)果(表5)中可以看到蛋白質(zhì)序列的得分比最小值為80.0%,說明α-L-鼠李糖苷酶的蛋白質(zhì)序列的建模結(jié)果良好。
2.3.2 結(jié)構(gòu)疊合分析
結(jié)構(gòu)疊合的分類結(jié)果顯示(表6),這21個曲霉來源α-L-鼠李糖苷酶可分為兩大類(圖 6),XP_681743.1、XP_664533.1、XP_660235.1、XP_026602402.1、XP_022403539.1、XP_659810.1、XP_001727134.1、XP_026602632.1、XP_026603987.1、XP_026628025.1、XP_748610.1、XP_749916.1、XP_001395635.2、XP_001398938.2、XP_002383141.1、XP_002385047.1與CCB96437.1共17條序列組成第一大類,每條序列都擁有一個(α/α)6桶狀結(jié)構(gòu)和桶底的一個β折疊結(jié)構(gòu)這一基本結(jié)構(gòu),根據(jù)除基本結(jié)構(gòu)外的β片層結(jié)構(gòu)的數(shù)量,又可以將第一大類分為4個小類(圖7),其中XP_664533.1與XP_660235.1組成無額外β片層的第一個小類;XP_022383582.1、XP_749916.1、XP_001395635.2、XP_001398938.2 與XP_002383141.1共5條序列組成有1個額外β片層的第二小類;XP_659810.1、XP_001727134.1、XP_026603987.1、XP_026628025.1、XP_748610.1 與XP_002385047.1共6條序列組成有2個額外β折疊的第三小類;XP_681743.1、XP_026602402.1、XP_026602632.1與CCB96437.1共4條序列組成有3個額外β折疊的第四小類,目前已報道的曲霉來源的晶體結(jié)構(gòu)(PDB:6gsz)[8]就屬于這一類;XP_022383582.1、XP_026602627.1、XP_025515427.1與XP_026603527.1共4條序列組成第二大類,與第一大類不同,第二大類4個序列都屬于GH106家族,因此擁有GH106的基本結(jié)構(gòu)(α/β)8結(jié)構(gòu)和環(huán)繞在桶裝結(jié)構(gòu)域周圍的β折疊結(jié)構(gòu)[26]。第一大類與第二大類的分類結(jié)果與進(jìn)化樹分類相符,說明蛋白的進(jìn)化規(guī)律會一定程度的體現(xiàn)在其三級結(jié)構(gòu)上;第一大類的四個小類與進(jìn)化樹分類不符,說明β折疊結(jié)構(gòu)的數(shù)量并不能反映曲霉來源α-L-鼠李糖苷酶的進(jìn)化規(guī)律。
表6 結(jié)構(gòu)分類表Table 6 Structure classification table
圖6 α-L-鼠李糖苷酶的兩個大類疊合圖Fig.6 Two kinds of superposition graphs of α-L-rhamnosidase
圖7 α-L-鼠李糖苷酶的第一大類的四個小類疊合圖Fig.7 Four subclasses of the first class of α-L-rhamnosidase
本文通過NCBI數(shù)據(jù)庫,收集了所有非重復(fù)的曲霉來源α-L-鼠李糖苷酶的核酸數(shù)據(jù)共291條,并通過進(jìn)化樹篩選得到具有代表性的 21條序列并預(yù)測了蛋白理化性質(zhì)。通過對這21條代表性序列進(jìn)行序列比對和進(jìn)化樹構(gòu)建發(fā)現(xiàn),雖然這21條序列具有非常少的保守位點,但是它們之間依然存在進(jìn)化規(guī)律,且根據(jù)這一進(jìn)化規(guī)律,可以將這些序列分為兩組;信號肽分析結(jié)果顯示有 10條序列含有信號肽,說明曲霉來源的α-L-鼠李糖苷酶有胞外酶與胞內(nèi)酶兩種;跨膜區(qū)分析發(fā)現(xiàn)1條來源于Aspergillus nidulans的α-L-鼠李糖苷酶為二次跨膜蛋白;通過蛋白的三級結(jié)構(gòu)建模及疊合,發(fā)現(xiàn)21條α-L-鼠李糖苷酶主要存在于GH78與GH106家族中,將21條α-L-鼠李糖苷酶分為兩個類型,第一大類都含有一個(α/α)6桶狀結(jié)構(gòu)和桶底的一個β片層結(jié)構(gòu),并根據(jù)額外含有的β片層結(jié)構(gòu)的數(shù)量進(jìn)一步分成4個小類;第二大類則含有1個(α/β)8結(jié)構(gòu)和環(huán)繞在桶裝結(jié)構(gòu)域周圍的β片層結(jié)構(gòu),且結(jié)構(gòu)疊合分類與進(jìn)化樹的分類一致,說明蛋白的進(jìn)化規(guī)律會一定程度的體現(xiàn)在其三級結(jié)構(gòu)上,而小類的分類結(jié)果說明β折疊結(jié)構(gòu)的數(shù)量并不能作為說明曲霉來源α-L-鼠李糖苷酶進(jìn)化規(guī)律的依據(jù)。本文通過篩選出21條代表性序列闡明曲霉來源的α-L-鼠李糖苷酶蛋白序列性質(zhì)及結(jié)構(gòu)特征,系統(tǒng)性的分析了其結(jié)構(gòu)規(guī)律,為該酶的定向進(jìn)化和分子改造提供了強有力的參考。