王玉寧,解翠華,王勝男,范瑩瑩,江亞娟,尹強(qiáng),焦伯延
(濟(jì)寧市疾病預(yù)防控制中心 檢驗(yàn)科,山東 濟(jì)寧 272000)
冠狀病毒(Coronavirus)是廣泛分布于自然界的一類正鏈RNA 病毒,現(xiàn)發(fā)現(xiàn)可感染人的有人冠狀病毒229E(Human coronavirus 229E,HCoV-229E)、人冠狀病 毒NL63(Human coronavirus NL63,HCoV-NL63)、人冠狀病毒OC43(Human coronavirus OC43,HCoV-OC43)、人冠狀病毒HKU1(Human coronavirus HKU1,HCoVHKU1)、嚴(yán)重急性呼吸綜合征病毒(Severe acute respiratory syndrome coromavirus,SARS-CoV)、中東呼吸綜合征冠狀病毒(Middle East respiratory syndrome coronavirus,MERS-CoV)和嚴(yán)重急性呼吸系統(tǒng)綜合癥冠狀病毒2(Severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)[1-3]。SARSCoV-2 爆發(fā)以來,嚴(yán)重威脅人民生命健康,是當(dāng)前世界面臨的最重要公共衛(wèi)生問題之一[6]。
SARS-CoV-2 基因組全長約29.9x103bp[7],含有12 個(gè)開放讀碼框(Open reading frame,ORF),其中N 基因開放讀碼框(Nucleocapsid Open reading frame,N-ORF)編碼的N蛋白是SARS-CoV-2 的結(jié)構(gòu)蛋白,N蛋白是一種具有高度免疫原性的磷蛋白,在病毒合成過程中,N蛋白直接結(jié)合基因組RNA 形成病毒核衣殼,并在SARS-CoV-2 復(fù)制、轉(zhuǎn)錄和組裝過程中發(fā)揮關(guān)鍵作用[8-9]。此外,N-ORF 和N蛋白特異性抗體是SARS-CoV-2 病原學(xué)檢測和抗體檢測的重要依據(jù)[10-11],N蛋白是疫苗和藥物研發(fā)的重要靶點(diǎn)[9,11]。
目前對SARS-CoV-2 N蛋白的研究鮮有報(bào)道,N蛋白的功能暫不明了。本研究運(yùn)用生物信息學(xué)方法預(yù)測N蛋白的進(jìn)化變異特征、理化性質(zhì)、結(jié)構(gòu)、功能、抗原表位等信息,為更深刻的了解N蛋白的生物學(xué)特征和致病特征提供思路,為SARS-CoV-2 的預(yù)防、實(shí)驗(yàn)室診斷提供理論依據(jù)。
登陸NCBI 獲取來源于人的新型冠狀病毒N蛋白氨基酸序列(GenBank 號為MT432195.1)。
利用ExPASy 的ProtParam 軟件分析N蛋白的分子式、氨基酸組成等理化性質(zhì)。利用ExPASy 的ProtScale 軟件分析N蛋白的親水性和疏水性;利用TMHMM 軟件分析N蛋白的跨膜區(qū)域。
利用DisPhos 軟件分析N蛋白的磷酸化位點(diǎn);利用SignalP 軟件分析N蛋白信號肽序列;利用cNLS軟件分析N蛋白的核定位信號;PredictProtein 軟件分析N蛋白的亞細(xì)胞定位。
利用PredictProtein 軟件分析N蛋白的二硫鍵形成;利用sopma 軟件分析N蛋白的二級結(jié)構(gòu);利用Phyre2 軟件預(yù)測N蛋白的三級結(jié)構(gòu)。
利用NetMHCIIpan 3.2 Server 軟件預(yù)測N蛋白的輔助性T 細(xì)胞抗原表位;利用NetCTL-1.2 Server 預(yù)測N蛋白的的殺傷性T 細(xì)胞抗原表位;利用ABCpred 軟件預(yù)測N蛋白的B 細(xì)胞抗原表位。
利用PredictProtein 軟件預(yù)測N蛋白的DNA 結(jié)合位點(diǎn)、RNA 結(jié)合位點(diǎn)和蛋白結(jié)合位點(diǎn)。利用RPISeq 軟件進(jìn)行N蛋白與SARS-CoV-2 基因組結(jié)合預(yù)測。
SARS-CoV-2 的N蛋白氨基酸序列與229E、NL63、OC43、HKU1,SARS,MERS-CoV 等可感染人的冠狀病毒的N蛋白氨基酸序列MEGA 進(jìn)化分析,發(fā)現(xiàn)新型冠狀病毒N蛋白與SARS 冠狀病毒N蛋白同源性最高,為90.52%。見圖1。
圖1 人冠狀病毒N蛋白進(jìn)化分析
N蛋白由419 個(gè)氨基酸組成,共含6351 個(gè)原子,分子式為C1971H3137N607O627S7,相對分子量45625.70x103。419 個(gè)氨基酸中甘氨酸(Gly)、絲氨酸(Ser)、丙氨酸(Ala)、谷氨酰胺(Gln)、蘇氨酸(Thr)、賴氨酸(Lys)、精氨酸(Arg)含量較高,分別占氨基酸總數(shù)10.26%、8.83%、8.83%、8.35%、7.64%、7.40%、6.92%(表1)。帶正電荷的精氨酸(Arg)和賴氨酸(Lys)共有60 個(gè),帶負(fù)電荷的天冬氨酸(Asp)和谷氨酸(Glu)共有36 個(gè),等電點(diǎn)為10.07,不穩(wěn)定系數(shù)為55.09,在哺乳動物網(wǎng)織紅細(xì)胞體外半衰期為30h。
表1 N蛋白氨基酸組成情況
N蛋白的親水性氨基酸占66.9%,第371 位的天冬氨酸親水性最強(qiáng);疏水性氨基酸占33.1%,第220和221 位的丙氨酸和亮氨酸疏水性最強(qiáng);平均親水系數(shù)是-0.97,結(jié)果表明N蛋白是親水性蛋白質(zhì)。見圖2。此外,經(jīng)TMHMM 軟件對N蛋白跨膜結(jié)構(gòu)進(jìn)行分析,結(jié)果顯示N蛋白無跨膜結(jié)構(gòu)。
圖2 N蛋白親/疏水性分析
N蛋白共含有37 個(gè)絲氨酸、32 個(gè)蘇氨酸、11 個(gè)酪氨酸,其中蘇氨酸和酪氨酸均不能被磷酸化,但是位于180、183、184、186、187、188、190、193、194、197、201、202、206 位的13 個(gè)絲氨酸可以被磷酸化。見圖3。N蛋白無信號肽序列,含有兩個(gè)核定位信號,分別是位于258-268 的PRQKRTATKAY 和位于370-379 的KDKKKKADET,主要分布于細(xì)胞核。
圖3 N蛋白磷酸化位點(diǎn)分析
N蛋白氨基酸序列中不含有半胱氨酸,無二硫鍵。N蛋白二級結(jié)構(gòu)中α 螺旋占21.24%,延伸鏈占16.71%,β-轉(zhuǎn)角占6.92%,無規(guī)卷曲占55.13%。見圖4。利用Phyre2對N蛋白進(jìn)行三級結(jié)構(gòu)預(yù)測,模板序列是PDB 數(shù)據(jù)庫SARS 冠狀病毒d1sska 序列,可信度為100%。見圖5。
圖4 N蛋白的二級結(jié)構(gòu)預(yù)測
圖5 N蛋白三級結(jié)構(gòu)模型預(yù)測
對N蛋白進(jìn)行抗原表位預(yù)測,結(jié)果顯示,N蛋白有6 個(gè)殺傷性T 細(xì)胞(Killer T cells,CTL)抗原識別表位,即:48-56、78-87、101-112、164-172、295-303、352-360 位氨基酸,其中104-112 位氨基酸抗原性最強(qiáng)。N蛋白有11個(gè)輔助性T細(xì)胞(HelperTcell,Th)抗原表位,即:52-60、64-72、111-119、130-140、157-165、171-179、227-235、268-278、331-338、360-368、392-400 位氨基酸,其中392-400位氨基酸抗原性最強(qiáng)。N蛋白含有10 個(gè)B 細(xì)胞抗原識別表位,即:12-39、58-74、77-106、114-151、182-197、249-264、268-283、289-304、327-342、354-391位氨基酸,其中91-106 位氨基酸抗原性最強(qiáng)。
對N蛋白進(jìn)行蛋白、DNA、RNA 結(jié)合位點(diǎn)預(yù)測,結(jié)果顯示N蛋白第87 位氨基酸和107-111 位氨基酸是與其它蛋白相互作用的結(jié)合位點(diǎn)。N蛋白含有豐富的DNA結(jié)合位點(diǎn),包括6-17、28-45、48-51、69-77、84-101、114-127、144-153、173-211、255-289位氨基酸。N蛋白的35-37、83-98、255-261 和272-277 位氨基酸是RNA 結(jié)合位點(diǎn)。見圖6。因?yàn)镹蛋白是病毒核衣殼蛋白,在病毒組裝過程中結(jié)合基因組5’端RNA[12],利用RPIseq軟件預(yù)測N蛋白35-98 和255-277 位氨基酸均與SARS-CoV-2 基因5’端1-200核苷酸可以相互結(jié)合。
圖6 N蛋白結(jié)合位點(diǎn)預(yù)測
SARS-CoV-2 感染是目前全世界最關(guān)注的突發(fā)公共衛(wèi)生事件,對世界的經(jīng)濟(jì)、交通、文化及人民的生命健康造成重大影響[13]。我國將SARS-CoV-2 感染列為乙類法定傳染病,參照甲類管理[10]。然而SARSCoV-2 的生物學(xué)特征暫不明了,生物信息學(xué)分析N蛋白對于了解病毒的進(jìn)化變異、防治、診斷具有重要意義。
SARS-CoV-2 和SARS 的N蛋白序列高度同源,SARS-CoV-2 和SARS 的N蛋白可能有共同祖先和共同特點(diǎn)[14]。SARS-CoV-2 的N蛋白含有66.9%的親水性氨基酸,是無跨膜結(jié)構(gòu)的親水性蛋白質(zhì),其等電點(diǎn)高達(dá)10.07,說明N蛋白帶有大量正電荷,這些正電荷可能參與基因組RNA 和宿主DNA 結(jié)合。N蛋白是SARS-CoV-2 的磷蛋白[15],經(jīng)預(yù)測含有13 個(gè)絲氨酸磷酸化位點(diǎn),N蛋白的磷酸化可能改變N蛋白的結(jié)構(gòu)與功能,可能為病毒的在人體內(nèi)的生存、傳播提供優(yōu)勢。
N蛋白含有豐富的Th、CTL 和B 細(xì)胞抗原識別表位,提示N蛋白可能引起宿主復(fù)雜的細(xì)胞免疫和體液免疫[9,16-17]。CTL 免疫能夠引起宿主細(xì)胞的凋亡,參與肺炎的發(fā)生[18]。B 細(xì)胞產(chǎn)生的N蛋白特異性抗體是目前實(shí)驗(yàn)室血清學(xué)診斷的重要檢測靶點(diǎn)[9,11]。91-106位氨基酸B 細(xì)胞抗原性最強(qiáng),130-140、268-278、331-338 位氨基酸同時(shí)是Th 和B 細(xì)胞的抗原識別表位,這些氨基酸序列可能適合作為SARS-CoV-2 感染抗體檢測的核心序列。
N蛋白含有兩個(gè)基因組RNA 結(jié)合位點(diǎn),N端RNA結(jié)合序列(N-terminal RNA-binding domain,NTD)和C 端RNA 結(jié)合序列(C-terminal dimerization domain,CTD)[15]。本研究對N蛋白的結(jié)合位點(diǎn)進(jìn)行預(yù)測,35-98 和255-277 位氨基酸是N蛋白的RNA 結(jié)合區(qū)域,其可能與基因組RNA的5’端結(jié)合,參與病毒組裝;此外,N蛋白還可能通過結(jié)合小干擾RNA(small interfering RNA,siRNA)、微RNA(microRNA,miRNA)和長非編 碼RNA(Long noncoding RNAs,lncRNA)干擾宿主對SARS-CoV-2 抑制[19-20],提示35-98 和255-277 位氨基酸區(qū)域可能作為抗病毒藥物研究的靶點(diǎn)。此外,N蛋白含有豐富的DNA 結(jié)合位點(diǎn),可能能夠結(jié)合宿主基因組,干擾宿主細(xì)胞功能。
綜上所述,本研究對SARS-CoV-2 的N蛋白的結(jié)構(gòu)和功能進(jìn)行生物信息學(xué)分析,對N蛋白的深刻了解具有重要意義,為新型冠狀病毒的核酸檢測和抗體檢測提出建議,為抗病毒藥物的研發(fā)提出新的思路。然而本研究僅是生物信息學(xué)預(yù)測結(jié)果,需要進(jìn)一步的實(shí)驗(yàn)確證。