周 飛,劉雪梅,彭仲特
(韓山師范學(xué)院食品工程與生物科技學(xué)院,中國(guó)廣東潮州521041)
DNA損傷的同源重組修復(fù)功能障礙往往會(huì)導(dǎo)致嚴(yán)重的基因組不穩(wěn)定,從而促進(jìn)腫瘤的發(fā)生和演進(jìn)。同源重組修復(fù)是多種蛋白質(zhì)分子協(xié)同參與、巧妙配合并精準(zhǔn)完成的DNA損傷修復(fù)過(guò)程。同源重組修復(fù)過(guò)程中,RAD51重組酶和BLM解旋酶協(xié)同作用組裝成關(guān)鍵的蛋白質(zhì)復(fù)合體[1,2],確保DNA損傷修復(fù)高度準(zhǔn)確。2013年首次發(fā)現(xiàn)SPIDR(新基因KIAA0146編碼)作為支架蛋白質(zhì)分別與BLM和RAD51相互作用,此發(fā)現(xiàn)解密了BLM/RAD51復(fù)合體組裝的分子機(jī)制,同時(shí)也表明KIAA0146在同源重組修復(fù)中起關(guān)鍵作用[3]。該研究報(bào)道,下調(diào)KIAA0146基因表達(dá)導(dǎo)致BLM和RAD51不能有效定位細(xì)胞的DNA損傷位點(diǎn),使姐妹染色單體交換水平明顯增高;而且,降低KIAA0146基因表達(dá)也會(huì)導(dǎo)致細(xì)胞基因組不穩(wěn)定,同時(shí)提高細(xì)胞對(duì)DNA損傷劑的敏感性[3]。除此之外,結(jié)腸癌和前體B細(xì)胞淋巴細(xì)胞白血病中KIAA0146基因結(jié)構(gòu)的完整性被破壞[4]。以上證據(jù)表明KIAA0146基因具有重要的分子功能,參與腫瘤的發(fā)生發(fā)展。不過(guò)迄今為止,KIAA0146基因相關(guān)的實(shí)驗(yàn)研究非常有限,因此本文用生物信息學(xué)的方法快速地對(duì)KIAA0146基因及其蛋白質(zhì)結(jié)構(gòu)、亞細(xì)胞定位及潛在分子功能進(jìn)行分析,以對(duì)其進(jìn)行深入研究提供線索及導(dǎo)向。
KIAA0146基因(Gene ID:23514)及其蛋白質(zhì)序列來(lái)自NCBI數(shù)據(jù)庫(kù)。利用在線軟件對(duì)KIAA0146基因及其蛋白質(zhì)進(jìn)行分析,并得出相應(yīng)結(jié)果。本研究采用的在線軟件見(jiàn)表1。
NCBI數(shù)據(jù)庫(kù)檢索發(fā)現(xiàn),人KIAA0146基因(Gene ID:23514)定位于8q11.21,全長(zhǎng)475 124 bp,含29個(gè)外顯子。KIAA0146基因的第1位(A)、393 211位(A)和398 787位(T)堿基為轉(zhuǎn)錄起始位點(diǎn)(transcription start site,TSS),分別命名為T(mén)SS1、TSS2和TSS3。KIAA0146基因共有38個(gè)轉(zhuǎn)錄變異體,其中5個(gè)為非編碼轉(zhuǎn)錄變異體,其余轉(zhuǎn)錄變異體共編碼26個(gè)KIAA0146蛋白亞型。采用NNPP軟件對(duì)KIAA0146基因TSS上游3 000 bp和下游1 000 bp共4 000 bp的DNA區(qū)段進(jìn)行啟動(dòng)子分析。結(jié)果如表2所示,KIAA0146基因TSS1、TSS2和TSS3對(duì)應(yīng)的DNA區(qū)段上分別預(yù)測(cè)發(fā)現(xiàn)2個(gè)、4個(gè)和4個(gè)分值超過(guò)0.9的啟動(dòng)子特征片段。此結(jié)果提示KIAA0146基因具有復(fù)雜的基因結(jié)構(gòu)。
采用CpG Plot對(duì)KIAA0146基因TSS上游3 000 bp和下游1 000 bp的DNA區(qū)段進(jìn)行CpG島分析。結(jié)果如表3所示,在TSS1對(duì)應(yīng)的啟動(dòng)子(2 127~2 177 bp)側(cè)翼發(fā)現(xiàn)2個(gè)CpG島,分別位于2 239~2 545 bp和 2 720~3 654 bp;在 TSS3對(duì)應(yīng)的啟動(dòng)子(3 127~3 177 bp)側(cè)翼也發(fā)現(xiàn)2個(gè)CpG島,分別位于2 890~3 041 bp和3 217~3 383 bp;TSS2對(duì)應(yīng)的啟動(dòng)子區(qū)尚未發(fā)現(xiàn)CpG島。本文還采用MethPrimer軟件對(duì)上述結(jié)果進(jìn)行了驗(yàn)證,發(fā)現(xiàn)CpG Plot和MethPrimer的分析結(jié)果完全一致(表3)。總之,KIAA0146基因的啟動(dòng)子區(qū)存在4個(gè)CpG島。
表1 本文采用的生物信息學(xué)在線軟件Table1 The online software of bioinformatics for this study
表3 人KIAA0146啟動(dòng)子區(qū)的CpG島Table3 The CpG islands of promoter regions of human KIAA0146 gene
為了揭示KIAA0146蛋白的理化性質(zhì),將其各亞型的序列分別提交給ProtParam在線軟件。結(jié)果如表4所示,Isoform 1相對(duì)分子質(zhì)量最大,為100 316.37,攜帶正負(fù)電荷氨基酸殘基最多,分別為106個(gè)和113個(gè),理論等電點(diǎn)為6.22。Isoform 26相對(duì)分子質(zhì)量最小,為42 770.76,攜帶的正負(fù)電荷氨基酸殘基分別為41和43個(gè),理論等電點(diǎn)為6.41。KIAA0146各蛋白質(zhì)亞型的不穩(wěn)定系數(shù)均大于40,屬于不穩(wěn)定蛋白質(zhì)。Isoform 1~24蛋白質(zhì)亞型的平均總親水值均小于0,表明Isoform 1~24為親水性蛋白質(zhì)。但是Isoform 25和Isoform 26的平均總親水值分別為0.062和0.052,屬于疏水性蛋白質(zhì)。
將KIAA0146 Isoform 1的序列提交給SignalP 4.1進(jìn)行在線分析發(fā)現(xiàn),Isoform 1的C、Y、S最大值分別為 0.134、0.125和 0.159;S-mean、D值分別為0.137和0.131。通過(guò)以上數(shù)據(jù)分析得知Isoform 1無(wú)信號(hào)肽(圖1A)。隨后,用TMHMM在線軟件分析發(fā)現(xiàn)Isoform 1無(wú)跨膜區(qū)域(圖1B)。進(jìn)一步對(duì)其他25個(gè)KIAA0146蛋白亞型進(jìn)行分析,發(fā)現(xiàn)了類(lèi)似的結(jié)果,即KIAA0146蛋白亞型都沒(méi)有信號(hào)肽和跨膜區(qū)域。以上結(jié)果提示,KIAA0146既不是分泌蛋白質(zhì)也不是跨膜蛋白質(zhì)。
為了揭示KIAA0146蛋白的亞細(xì)胞定位情況,本文首先采用在線軟件PSORTⅡ進(jìn)行分析,結(jié)果發(fā)現(xiàn),Isoform 1~16、Isoform 19~21 共 19 個(gè)亞型為細(xì)胞核分布,Isoform 17、Isoform 18和Isoform 22~26共7個(gè)亞型為細(xì)胞質(zhì)分布(表5)。為了驗(yàn)證此結(jié)果,我們又用BaCelLo在線軟件展開(kāi)分析,結(jié)果顯示,Isoform 1~23為細(xì)胞核分布,Isoform 24~26為細(xì)胞質(zhì)分布(表5)。這兩款軟件分析的結(jié)果基本一致。2017年Thul等[5]繪制的蛋白質(zhì)組亞細(xì)胞定位圖譜發(fā)現(xiàn),KIAA0146為細(xì)胞核分布蛋白質(zhì)。綜上所述,本文認(rèn)為KIAA0146是細(xì)胞核蛋白質(zhì)。
那么KIAA0146蛋白是如何進(jìn)入細(xì)胞核的呢?PSORT Ⅱ分析發(fā)現(xiàn),Isoform 1、4、5、7、8、13、16的N端有核定位信號(hào)“11-KRKR-14”。采用NLStradamus軟件驗(yàn)證發(fā)現(xiàn)以上蛋白質(zhì)亞型的N端存在核定位信號(hào)“6-RARGSKRKR-14”(表 5)?!?-RARGSKRKR-14”信號(hào)實(shí)際上包含“11-KRKR-14”信號(hào)。故我們認(rèn)為,“RARGSKRKR”可能是引導(dǎo)KIAA0146進(jìn)入細(xì)胞核的關(guān)鍵機(jī)制。
我們首先采用SWISS-MODEL自動(dòng)同源建模分析KIAA0146(Isoform1)序列同源性。SWISSMODEL自動(dòng)識(shí)別比對(duì)數(shù)據(jù)庫(kù)中已知結(jié)構(gòu)的47個(gè)蛋白質(zhì)模板并發(fā)現(xiàn)KIAA0146與它們的同源性均較低,其中與模板1pft.1.A(TFIIB的N末端結(jié)構(gòu)域)的同源性最高,為29.41%,并且GMQE值均不超過(guò)0.03(圖2),提示SWISS-MODEL同源建模質(zhì)量不高。因此KIAA0146蛋白三級(jí)結(jié)構(gòu)的預(yù)測(cè)不適合采用同源建模法。
表4 人KIAA0146蛋白的理化性質(zhì)Table4 The physicochemical properties of human KIAA0146 protein
圖1 KIAA0146 Isoform 1的信號(hào)肽和跨膜區(qū)分析結(jié)果Fig.1 The analyses of signal peptide and transmembrane region of KIAA0146 Isoform 1
Phyre2軟件采用折疊識(shí)別建模,在低同源性的情況下能較準(zhǔn)確預(yù)測(cè)目標(biāo)蛋白質(zhì)的三級(jí)結(jié)構(gòu)[6,7],因此我們采用此軟件預(yù)測(cè)KIAA0146的三級(jí)結(jié)構(gòu)。結(jié)果發(fā)現(xiàn),Phyre2也不能準(zhǔn)確預(yù)測(cè)出全長(zhǎng)KIAA0146形成的三級(jí)結(jié)構(gòu),但能較可信地預(yù)測(cè)出其C端可能會(huì)形成的結(jié)構(gòu)域(圖3A)。由Phyre2預(yù)測(cè)的結(jié)果可知,KIAA0146的C端與蛋白質(zhì)模板d1l1oc、c3u50C和c4gopC的序列同源性并不高(分別為18%、18%和17%),但是以這3個(gè)模板構(gòu)建的結(jié)構(gòu)域的質(zhì)量較高,即預(yù)測(cè)的結(jié)構(gòu)域的置信度較高,分別為94.5%、92.8%和86.6%。而且由模板d1l1oc和c3u50C的結(jié)構(gòu)信息推測(cè)KIAA0146的C端可能包含核酸結(jié)合結(jié)構(gòu)域(圖3B)。
表5 人KIAA0146的亞細(xì)胞定位分析Table5 Subcellular localization of human KIAA0146
圖2 SWISS-MODEL同源建模結(jié)果Fig.2 SWISS-MODEL homology modeling result
以模板d1l1oc建模預(yù)測(cè)的KIAA0146的C端結(jié)構(gòu)域的置信度最高,因此我們采用PDBsum Generate軟件檢驗(yàn)此結(jié)構(gòu)是否符合立體化學(xué)規(guī)則。結(jié)果如圖4所示,57個(gè)氨基酸處于Ramachandran圖的核心容許區(qū),占76%,16個(gè)氨基酸處于額外容許區(qū),占21.3%??傊?容許區(qū)的氨基酸數(shù)比例超過(guò)90%。此結(jié)果表明,Phyre2給出的KIAA0146的C端結(jié)構(gòu)域符合立體化學(xué)規(guī)則。
為了分析KIAA0146潛在的分子功能,本文采用String預(yù)測(cè)與KIAA0146相互作用的蛋白質(zhì)。結(jié)果如圖5 所示,RAD51、ATM、RAD51B、MRE11A、BLM、DNA2、RMI1、BRCA1、BRCA2 和 XRCC2 共10個(gè)蛋白質(zhì)與KIAA0146相互作用(分值>0.9)。
圖3 Phyre2軟件預(yù)測(cè)KIAA0146三級(jí)結(jié)構(gòu)的結(jié)果Fig.3 The analysis of 3D structure of KIAA0146 by Phyre2 on-line Server
圖4 Phyre2建模預(yù)測(cè)的KIAA0146三級(jí)結(jié)構(gòu)的拉氏構(gòu)象圖Fig.4 The Ramachandran plot of 3D structure of KIAA0146 predicted by Phyre2
圖5 與KIAA0146相互作用的蛋白質(zhì)Fig.5 KIAA0146-interacting proteins
對(duì)以上10個(gè)蛋白質(zhì)編碼基因進(jìn)行GO注釋發(fā)現(xiàn),這些蛋白質(zhì)主要參與DNA損傷應(yīng)答與修復(fù)、發(fā)育以及細(xì)胞代謝調(diào)節(jié)過(guò)程(圖6)。比如,雙鏈斷裂修復(fù)(GO:0006302)、同源重組修復(fù)雙鏈斷裂(GO:0000724)、細(xì)胞對(duì)DNA損傷刺激的反應(yīng)(GO:0006974)、單一生物體代謝過(guò)程(GO:0044710)和單一有機(jī)體的發(fā)育過(guò)程(GO:0044767)等生物過(guò)程相關(guān)的GO條目分別富集9個(gè)、8個(gè)、8個(gè)、8個(gè)和8個(gè)基因。同時(shí)發(fā)現(xiàn),這10個(gè)蛋白質(zhì)均是細(xì)胞核的組成部分。例如,核質(zhì)(GO:0005654)、核部分(GO:0044428)和核腔(GO:0031981)等細(xì)胞組分相關(guān)的GO條目分別富集10個(gè)、9個(gè)和7個(gè)基因。此外還發(fā)現(xiàn),DNA結(jié)合(GO:0003677)條目富集8個(gè)基因(圖6)。以上結(jié)果提示,KIAA0146可能通過(guò)與其互作的蛋白質(zhì)參與DNA損傷應(yīng)答與修復(fù)、發(fā)育和細(xì)胞代謝調(diào)節(jié)等生物過(guò)程。
圖6 與KIAA0146相互作用蛋白質(zhì)的GO注釋結(jié)果Fig.6 The results of GO annotation of KIAA0146-interacting proteins
同源重組修復(fù)是機(jī)體應(yīng)對(duì)DNA損傷維持細(xì)胞基因組穩(wěn)定的關(guān)鍵途徑,其功能障礙是引起癌癥等疾病發(fā)生的重要原因[8~10]。比如:同源重組關(guān)鍵酶RAD51和BLM編碼基因變異引起DNA損傷修復(fù)缺陷導(dǎo)致乳腺癌易發(fā)[11,12]。KIAA0146是BLM/RAD51復(fù)合體分子組裝的支架蛋白質(zhì)[3],此發(fā)現(xiàn)提示KIAA0146可能也與癌癥發(fā)生關(guān)系密切。而且已有研究發(fā)現(xiàn)癌癥細(xì)胞KIAA0146基因結(jié)構(gòu)不完整[4]。此外RAD51被認(rèn)為是腫瘤治療的靶點(diǎn)[13],因而作為與RAD51直接互作的蛋白質(zhì),KIAA0146也可能在腫瘤治療中起作用。但是當(dāng)前KIAA0146相關(guān)的實(shí)驗(yàn)研究非常少。本文用生物信息學(xué)方法對(duì)KIAA0146基因及蛋白質(zhì)進(jìn)行快速分析,為今后深入研究其功能提供線索。
首先,對(duì)KIAA0146基因進(jìn)行分析,發(fā)現(xiàn)該基因存在多轉(zhuǎn)錄起始位點(diǎn)和多啟動(dòng)子特征(表2),且啟動(dòng)子區(qū)存在4個(gè)CpG島(表3)。因此KIAA0146基因的表達(dá)調(diào)控可能十分復(fù)雜。然后對(duì)KIAA0146蛋白進(jìn)行理化性質(zhì)分析,發(fā)現(xiàn)它的Isoform 1~24為親水性蛋白質(zhì),Isoform 25和Isoform 26屬于疏水性蛋白質(zhì)(表4)。之后發(fā)現(xiàn),KIAA0146既不是分泌蛋白質(zhì)也不是跨膜蛋白質(zhì)(圖1),而是細(xì)胞核蛋白質(zhì),且其 Isoform 1、4、5、7、8、13 和 16的N端存在核定位信號(hào)“RARGSKRKR”(表5)。故KIAA0146可能由“RARGSKRKR”引導(dǎo)進(jìn)入細(xì)胞核。值得提醒的是,雖然 Isoform 2、3、6、9、10、11、12、14、15、19、20、21 等 12 個(gè)亞型也被預(yù)測(cè)為細(xì)胞核分布,但是PSORT II和BaCelLo軟件并沒(méi)有發(fā)現(xiàn)它們的核定位信號(hào)。我們推測(cè)這12個(gè)亞型可能通過(guò)與具有核定位信號(hào)的蛋白質(zhì)相互作用而進(jìn)入細(xì)胞核。由于采用SWISS-MODEL同源建模發(fā)現(xiàn)KIAA0146與蛋白質(zhì)模板同源性較低,且建模質(zhì)量不高(圖2),而Phyre2采用折疊識(shí)別建模能較準(zhǔn)確地預(yù)測(cè)低同源性蛋白質(zhì)三級(jí)結(jié)構(gòu)[6,7,14]。因此,我們采用Phyre2軟件進(jìn)行三級(jí)結(jié)構(gòu)預(yù)測(cè),結(jié)果發(fā)現(xiàn)KIAA0146的C端可能具有核酸結(jié)合結(jié)構(gòu)域(圖3)。而且,PDBsum Generate判斷Phyre2建模預(yù)測(cè)的結(jié)構(gòu)域符合立體化學(xué)規(guī)則(圖4)。至此我們推測(cè),細(xì)胞核內(nèi)的KIAA0146可能通過(guò)其C端結(jié)構(gòu)域結(jié)合基因組DNA而發(fā)揮其分子功能。
文中還對(duì)KIAA0146的分子功能進(jìn)行了分析,發(fā)現(xiàn)10個(gè)與KIAA0146相互作用的蛋白質(zhì)(圖5)。其中,RAD51和BLM與KIAA0146的相互作用關(guān)系已被以往的實(shí)驗(yàn)證實(shí)[3]。GO注釋發(fā)現(xiàn),KIAA0146可能通過(guò)與這10個(gè)蛋白質(zhì)互作參與DNA損傷應(yīng)答及修復(fù)、發(fā)育和細(xì)胞代謝調(diào)節(jié)等生物學(xué)過(guò)程(圖6)。此外發(fā)現(xiàn),這10個(gè)蛋白質(zhì)還是細(xì)胞核的組成部分,其中8個(gè)具有DNA結(jié)合功能(圖6)。上文預(yù)測(cè)發(fā)現(xiàn)KIAA0146可能是細(xì)胞核蛋白質(zhì),在其C端含核酸結(jié)合結(jié)構(gòu)域。由此可見(jiàn),KIAA0146蛋白質(zhì)結(jié)構(gòu)的分析結(jié)果和其分子功能的分析結(jié)果彼此之間相互支撐印證,這也提高了本文生物信息學(xué)分析結(jié)果的可信度。
總之,本文首次用生物信息學(xué)方法分析了KIAA0146基因的結(jié)構(gòu)特征,以及其編碼蛋白質(zhì)的理化性質(zhì)、亞細(xì)胞定位情況、三級(jí)結(jié)構(gòu)和分子功能等。這些分析結(jié)果可為后續(xù)實(shí)驗(yàn)研究KIAA0146基因功能及表達(dá)調(diào)控提供理論依據(jù)和重要線索。