周亭屹,高新昌,黨亞麗,*,潘道東,曹錦軒
(1.浙江省醫(yī)學科學院,保健食品研究所,浙江杭州 310013; 2.寧波大學食品與藥學學院,浙江寧波 315800)
生物信息學(bioinformatics)技術(shù)是一種綜合運用生物學、信息科學的各種知識和工具,對復雜的生物數(shù)據(jù)進行獲取、處理、存儲、分發(fā)、分析和解釋,從而得到我們能夠理解和接受的各種知識[1]。此技術(shù)于二十世紀七八十年代提出,結(jié)合計算機科學、生物學、數(shù)學和統(tǒng)計技術(shù)分析和解釋生物數(shù)據(jù),近年來發(fā)展迅速的生物信息學可為生物大數(shù)據(jù)分析提供方法和軟件工具,目前已被廣泛應(yīng)用于蛋白質(zhì)組學、基因組學、轉(zhuǎn)錄組學、代謝組學等領(lǐng)域,用于解釋疾病的生物學機制[2]。
生物活性肽是一類對生物機體的生命活動有益或具有生理作用的肽類化合物,由20種天然氨基酸按照不同的排列方式組成,一般長度在2~30個氨基酸之間。由于構(gòu)成肽的氨基酸種類、數(shù)目與排列順序不同,生物活性肽具有復雜的結(jié)構(gòu)與功能,包括增強免疫、降血糖、降血壓、抗菌、抗病毒、抗疲勞和降血脂等[3-9],同時由于其食用安全性極高,是當前國際食品界最熱門的研究課題之一[10]。由于經(jīng)典的生物活性肽的分離鑒定方法仍然存在許多限制,生物信息學技術(shù)被迅速用于生物活性肽的研究[11]。
蛋白質(zhì)組學技術(shù)的發(fā)展對發(fā)現(xiàn)和鑒定新的生物活性肽提供了很大的幫助,如將復雜的蛋白質(zhì)混合物用酶特異性消化為肽后,通過膜過濾、色譜過濾等逐級純化可得到生物活性肽,其中多維色譜純化手段的應(yīng)用顯著提高了活性肽的純化效率。由于分析化學的進步與創(chuàng)新,高分辨率質(zhì)譜技術(shù)可對極其復雜的混合物進行分析,在低濃度條件下可檢出不同類型的化合物。
生物質(zhì)譜中的液相色譜-飛行時間串聯(lián)質(zhì)譜以及四級桿線性離子阱質(zhì)譜,開始逐漸應(yīng)用于生物活性肽的結(jié)構(gòu)分析,并輔以質(zhì)譜數(shù)據(jù)解析軟件protein pilot,極大地縮短了活性肽結(jié)構(gòu)表征的周期[12]。研究者們因此獲得了大量的活性肽數(shù)據(jù),目前BIOPEP數(shù)據(jù)庫中已收錄了3600多種生物活性肽。通過生物信息學技術(shù)可獲得肽的結(jié)構(gòu)與其活性的關(guān)系,適用于活性肽的快速高通量篩選。本文綜述了幾種基于生物信息學技術(shù)尋找活性肽的方法及其應(yīng)用的最新進展情況。
傳統(tǒng)的生物活性肽研究通常包括酶解、膜分離、凝膠、尺寸排阻、離子交換、親和層析和反相液相等多級色譜方法進行分離和純化,分離組分進行體內(nèi)或體外的活性逐級測定,通過Edman降解或質(zhì)譜法鑒定肽序列[13],并采用定量構(gòu)效關(guān)系(QSAR)等方法推斷其構(gòu)效關(guān)系(表1)。近年來,基于質(zhì)譜方法的蛋白質(zhì)組學技術(shù)的出現(xiàn),為發(fā)現(xiàn)和鑒定生物活性肽提供了更加高效的方法,將酶解后的肽采用高效液相色譜和MALDI-TOF MS、CE-TOF MS和UPLC-Q/TOF MS等質(zhì)譜(MS)鑒定其序列[14-16],再通過化學合成的肽驗證其生物活性。由于蛋白酶解物復雜,含有數(shù)千條肽段且多條肽段分子量相近或電荷數(shù)相同,該法也面臨難以分離純化、鑒定出的肽活性低甚至沒有活性等問題。因逐級純化過程選取活性較高的組分進行純化,可能會將一些活性高的肽遺漏。此外,多種活性評價體外實驗篩選方法尚不統(tǒng)一,且體外實驗與生物體內(nèi)結(jié)果不一致。通過體內(nèi)實驗進行活性篩選較體外實驗更為準確,但由于其成本高,此法對于大量的分離組分并不適用。因此,如何快速高效的獲得生物活性肽仍是目前活性肽研究的難點。
隨著生物信息學的快速發(fā)展,文獻中大量的肽信息被整合到數(shù)據(jù)庫中。目前已有許多生物活性肽數(shù)據(jù)庫,如表2所示,可對活性肽進行理論預測和模擬,主要可以在以下方面發(fā)揮作用[13]:分析活性肽的結(jié)構(gòu)-功能關(guān)系;計算機輔助肽結(jié)構(gòu)設(shè)計;預測肽的生物活性;在肽序列之間搜索和多重比對;模擬蛋白水解;尋找生物活性肽的潛在前體蛋白;蛋白質(zhì)-活性肽分子對接。下文將主要介紹現(xiàn)有生物信息學工具在計算機模擬酶解、酶解產(chǎn)物的活性預測與前體蛋白的選擇、肽的生物活性預測等方面的應(yīng)用情況。
表2 常用的活性肽生物信息學工具Table 2 Bioinformatics tools used in bioactive peptides
蛋白質(zhì)水解是獲得生物活性肽的常見方法。水解酶的種類、濃度,加工條件及水解度等因素會影響酶水解產(chǎn)物和多肽的生物活性,同一蛋白質(zhì)經(jīng)過不同條件處理可產(chǎn)生功能不同的多肽[27]。為了選擇合適的酶和蛋白質(zhì)底物,傳統(tǒng)方法必須進行多組平行實驗,對不同的酶種類、用量及反應(yīng)條件等因素進行篩選,從而得到活性最強的水解產(chǎn)物,而通過計算機模擬酶解可大大提高這一步的實驗效率。
首先通過ExPASy,NCBI Protein database和UniProtKB等蛋白質(zhì)數(shù)據(jù)庫檢索出原料蛋白的氨基酸序列。在獲得蛋白質(zhì)一級結(jié)構(gòu)的基礎(chǔ)上,用一些在線工具可實現(xiàn)虛擬酶解。BIOPEP的“酶作用”模塊和ExPASy-PeptideCutter是常用的虛擬酶解數(shù)據(jù)庫,可基于不同種類酶的特異性切割位點,預測從特定蛋白質(zhì)水解的氨基酸和肽。此外,使用虛擬酶解結(jié)合現(xiàn)有的生物活性肽數(shù)據(jù)庫,如BIOPEP,可對虛擬酶解的產(chǎn)物進行分析:虛擬酶解產(chǎn)物中包含的已有文獻報道的活性肽的數(shù)量[26-28];計算蛋白質(zhì)鏈中生物活性肽的發(fā)生頻率[29];預測蛋白質(zhì)的潛在生物活性[30]。通過這些分析,可大規(guī)模篩選富含蛋白的水解原料。
計算機模擬酶解可極大提高活性肽篩選效率,但往往計算機模擬與實際情況并不完全相符,究其原因可能如下:酶活性及純度影響體外水解;計算機方法模擬的水解條件,如pH、溫度、水解時間和酶-底物比例等與實際情況不一致;計算機模擬水解中酶將水解所有酶切位點的肽鍵;實際情況中蛋白質(zhì)經(jīng)過翻譯、糖基化等修飾后可能導致酶切位點被保護,而計算機模擬消化過程中不考慮此問題;蛋白質(zhì)的預處理也會影響水解產(chǎn)物的生成;計算機模擬消化工具不能用于未知蛋白的樣品和未知切割位點的酶。總之,計算機模擬水解是一種有效和低成本的提供理論水解產(chǎn)物的方法,但其最終結(jié)果尚需實驗驗證。
蛋白質(zhì)單酶水解可產(chǎn)生多種生物活性肽,如二肽基肽酶IV(DPP-IV)抑制肽,血管緊張素轉(zhuǎn)換酶(ACE)抑制肽,抗血栓肽,抗炎肽和免疫調(diào)節(jié)肽[31-33]。Rani等[34]用BIOPEP數(shù)據(jù)庫比較了胃蛋白酶或胰凝乳蛋白酶A消化山羊乳蛋白形成ACE抑制肽的數(shù)量。結(jié)果表明,胃蛋白酶更適于產(chǎn)生ACE抑制肽。Lafarga等[35]用肽數(shù)據(jù)庫和軟件評估牛肉和豬肉蛋白質(zhì)中潛在的具有DPP-IV和ACE抑制活性的肽,并通過化學合成驗證了肽的體外活性。Dziuba等[36]通過模擬28種酶水解乳蛋白產(chǎn)生的肽,篩選得到了具有潛在抗菌活性的新型乳蛋白衍生肽。Tulipano等[37]運用計算機模擬方法預測了β-乳球蛋白和α-乳清蛋白在胃腸道消化期間產(chǎn)生的DPP-IV抑制肽。
生物信息學技術(shù)不僅可模擬單酶水解,還可預測復合酶共同作用產(chǎn)生的水解產(chǎn)物。Majumder等[38]的實驗表明,與胃蛋白酶或嗜熱菌蛋白酶單酶水解與嗜熱菌蛋白酶和胃蛋白酶復合酶水解卵轉(zhuǎn)鐵蛋白相比,復合酶水解產(chǎn)物的ACE抑制IC50值(198.0±1.21 Ug/mL)較低。Gu等[39]用ExPASy-PeptideCutter計算嗜熱菌蛋白酶單酶和嗜熱菌蛋白酶+胃蛋白酶或嗜熱菌蛋白酶+胃蛋白酶+胰蛋白酶復合酶消化15種常見食物蛋白質(zhì),結(jié)合QSAR模型預測消化肽的ACE抑制活性,結(jié)果表明豬、牛肉和雞肉中的ACE抑制肽含量最高,其次是雞蛋,大豆和油菜籽,而魚類(鮭魚除外)和谷物(燕麥和大麥)ACE抑制肽含量最低。
此外,由于胃腸道中的酶可能會將活性肽降解為無活性的肽段,活性肽能否在生物體內(nèi)發(fā)揮作用取決于胃腸道消化后能否保持活性。通常可選擇胃蛋白酶、胰蛋白酶和胰凝乳蛋白酶等模擬酶解,然后用Peptide Cutter和BIOPEP等數(shù)據(jù)庫預測其產(chǎn)物活性[40]。
肽的結(jié)構(gòu)特征,如肽鏈長度、氨基酸組成等和肽的物化特征,如氨基酸殘基的疏水性,分子電荷和側(cè)鏈等都會影響其生物活性[41]。目前開發(fā)的在線軟件Peptide Ranker、QSAR建模和分子對接等,可基于此理論預測肽的活性。
2.3.1 基于Peptide Ranker 的活性肽預測 Peptide Ranker是一種基于新型神經(jīng)網(wǎng)絡(luò)預測生物活性肽的服務(wù)器[42]。用戶將肽序列輸入到網(wǎng)站的文本框,服務(wù)器即可將預測出的肽具有生物活性的概率給用戶,然后按照每種肽的預測生物活性概率大小進行排序,對大量未報道過生物活性的肽是一種有效的篩選方法。但要注意的是,服務(wù)器預測的是肽具有生物活性的可能性,而不是預測肽可能具有生物活性的程度。
2.3.2 定量構(gòu)效關(guān)系(QSAR)建模 肽的生物活性還取決于其空間結(jié)構(gòu),因此,可根據(jù)其空間結(jié)構(gòu)預測肽活性。QSAR建模,是用數(shù)學模型定量描述分子結(jié)構(gòu)和分子的某種生物活性之間的關(guān)系。得到這種關(guān)系的數(shù)學表達式后,可用于估計肽的活性并預測高活性的肽結(jié)構(gòu),其基本原理是,一組相似化合物以同樣的方式作用于同一靶點,則其生物活性取決于每個化合物周圍分子場的差別,這種分子場可說明分子和靶點之間的相互作用。目前生物活性肽QSAR建模已被應(yīng)用于抗菌肽,ACE抑制肽,抗氧化肽和DPP-IV抑制肽等[43]。Jing等[44]構(gòu)建了具有良好預測能力的ACE抑制肽QSAR模型,篩選出了4種牛奶ACE抑制三肽,并在體外驗證了其生物活性。但由于QSAR建模方法需建立結(jié)構(gòu)和活性關(guān)系的模型,在大部分活性肽功能研究中很難實現(xiàn),特別是數(shù)據(jù)庫中較稀有的活性肽。因此,大多研究都集中在ACE抑制肽、抗菌肽及一些苦味肽[45]。
2.3.3 分子對接 分子對接已被用于尋找能夠與靶蛋白相互作用的多肽[46]。此技術(shù)可實現(xiàn)動態(tài)模擬多肽和受體分子相互作用的過程,得到直觀的結(jié)合力得分,從而篩選生物活性肽。目前,分子對接已被廣泛用于生物活性肽的篩選并說明其生物學機制,如從牛奶[32]、蠶蛹[47]和米糠[48]中篩選ACE抑制肽;從莧菜籽蛋白[49]篩選DPP-IV抑制肽;從牛奶中篩選抗血栓形成肽[50]。目前用于對接計算的軟件主要有AutoDock、DOCK、Gold、SYBYL等。分子對接已被廣泛用于生物活性物質(zhì)設(shè)計,但在實際應(yīng)用中,由于長肽的柔性較大,軟件計算精度不足,其應(yīng)用主要集中在2~6肽的設(shè)計和模擬,需克服一些理論和計算等難點,以提高預測的準確性[51]。PDB數(shù)據(jù)庫中已有許多受體蛋白的信息,但受體的詳細信息和3D結(jié)構(gòu)缺乏仍是制約分子對接應(yīng)用的重要因素。此外,Nongonierma等[52]研究發(fā)現(xiàn)三肽與DPP-IV活性位點結(jié)合能力與其體外抑制特性沒有直接關(guān)系,多肽可能與受體產(chǎn)生非特異性的相互作用,單獨使用分子對接模擬確定有活性的多肽序列不大準確。因此,分子對接的結(jié)果往往也需要進行實驗驗證。
生物活性肽通常由于其結(jié)構(gòu)和氨基酸組成而發(fā)揮給定的功能。基于肽數(shù)據(jù)庫中已知功能的肽某些位置的氨基酸偏好建立氨基酸模式,可預測出具有相似功能的肽。Wu等[53]根據(jù)已報道的活性肽,研究ACE抑制肽的定量結(jié)構(gòu)-活性關(guān)系。用偏最小二乘回歸的計算方法發(fā)現(xiàn),攜帶ACE抑制功能的二肽具有龐大側(cè)鏈以及疏水側(cè)鏈的殘基。對于三肽,羧基末端最有利的殘基是芳香族氨基酸,中間位置優(yōu)選帶正電荷的氨基酸,而氨基末端優(yōu)選疏水性氨基酸。根據(jù)這種模式,他們分析了豌豆、牛奶和大豆蛋白,并預測了7種可能具有ACE抑制作用的3種二肽和4種三肽。
此方式僅憑氨基酸序列對活性肽進行預測,比較簡單直觀,但其并非針對肽的作用機制,且考慮的因素較少,因此可得到的活性肽序列較少,目前難以得出具有普適性的結(jié)論。
對蛋白激酶C(PKC)進行的研究已證明,通過分析蛋白質(zhì)之間相互作用的區(qū)域?qū)ふ一钚噪囊彩且环N可行的方式。PKC是絲氨酸/蘇氨酸激酶家族,其參與許多信號傳導事件,這些酶與癌癥、糖尿病、心臟病發(fā)作、中風和心力衰竭等許多疾病有關(guān)。因此,有許多關(guān)于PKC同工酶抑制劑的研究。Dempsey等[54]觀察已報道的兩個可抑制PKC的蛋白14-3-3和膜聯(lián)蛋白I,結(jié)果發(fā)現(xiàn)這兩個蛋白質(zhì)共有一個含12個氨基酸的序列。他們推斷這兩種不相關(guān)的蛋白質(zhì)共享該區(qū)域,且兩者都與PKC結(jié)合,因此該區(qū)域可能是介導兩種蛋白質(zhì)與PKC結(jié)合的關(guān)鍵區(qū)域。通過研究這種12肽和PKC的相互作用,結(jié)果顯示它可阻止PKC與其底物結(jié)合,從而抑制其下游的生理反應(yīng)。
此方法可通過對已有的數(shù)據(jù)庫分析,以及計算機模擬比對,尋找與目標蛋白質(zhì)相互作用的不相關(guān)蛋白質(zhì)共享的區(qū)域,從而發(fā)現(xiàn)新的活性肽段。
生物活性肽具有低毒、低致敏性、高安全性等優(yōu)點,在保健與預防醫(yī)學領(lǐng)域有廣闊應(yīng)用前景。目前生物活性肽的來源物種及地域分布范圍都在逐漸擴大,篩選難度隨之增加。生物信息學技術(shù)已廣泛用于提供活性肽的構(gòu)象信息,預測活性,構(gòu)效關(guān)系描述并預測高活性結(jié)構(gòu)?;谏镄畔W技術(shù)的生物活性肽研究方法已打破了傳統(tǒng)研究方法的局限性,大大縮短了研究費用和時間。然而,這種方法仍存在一些局限性,如缺乏對模擬酶水解中蛋白質(zhì)修飾情況及其對酶水解影響的研究;由于生物體消化吸收過程十分復雜,體外模擬胃腸消化和實際情況有差距;缺乏分子對接受體的詳細結(jié)構(gòu)信息和3D結(jié)構(gòu)。此外,生物信息學的預測能力,蛋白質(zhì)組學的準確性以及計算機模擬和生物體內(nèi)之間的差距尚需進一步研究。此外,目前的數(shù)據(jù)分析主要基于有活性的肽,而缺少對無活性的陰性數(shù)據(jù)的分析。因此,還需要開發(fā)更強大準確的生物信息學技術(shù)工具,以便于進一步分析、處理和解釋獲得的數(shù)據(jù)。
目前部分乳源的活性肽已用于功能性食品的開發(fā)[55],但大部分活性肽研究仍停留在體外活性研究階段,體內(nèi)數(shù)據(jù)及臨床證據(jù)缺乏,建議結(jié)合快速簡便的體外篩選方法和體內(nèi)研究驗證其活性。此類肽在胃腸道中的消化、吸收和進入體內(nèi)循環(huán)的量,肽在生物體內(nèi)的分布和轉(zhuǎn)化以及排泄相關(guān)的研究仍需進行深入研究。因此,未來還應(yīng)著重研究已確定的活性肽的穩(wěn)定性、生物利用度和生物分布等,以確保能作為功效因子成功用于改善人們健康。