夏 雨, 李語麗,2??, 劉 晶, 李亞娟, 姚立杰, 楊志輝, 劉雅然, 包振民,3, 王 師,2
(1. 中國海洋大學(xué)海洋生命學(xué)院,海洋生物遺傳學(xué)與育種教育部重點實驗室,山東 青島 266003; 2. 青島海洋科學(xué)與技術(shù)國家實驗室,海洋生物學(xué)與生物技術(shù)功能實驗室,山東 青島 266071; 3. 海洋漁業(yè)科學(xué)與食物產(chǎn)出過程功能實驗室,山東 青島266071)
雙殼貝類是一類古老的動物類群,其悠久的進化歷史可以追溯到寒武紀(jì)早期[1]。數(shù)億年來,雙殼類經(jīng)歷了多次生物大滅絕事件,卻能夠在嚴(yán)酷的生存環(huán)境中幸存下來,如今已經(jīng)發(fā)展為水生生態(tài)系統(tǒng)中種類繁多、數(shù)量龐大的群體,同時也是世界水產(chǎn)養(yǎng)殖業(yè)的重要經(jīng)濟物種[2]。雙殼貝類的生存環(huán)境豐富多樣,在熱帶到極地、潮間帶到深海的世界海洋和淡水環(huán)境中均有分布。潮間帶地區(qū)的環(huán)境條件波動幅度較大,溫度、鹽度、pH值、降水等條件的不斷變化都會對環(huán)境生物的生存產(chǎn)生不利影響。此外,海水中細(xì)菌和病毒的多樣性很高[3],病原菌的傳播速度極快,每秒鐘大約有1023個病毒感染發(fā)生在海洋中[4],這些因素都加重了雙殼貝類面臨的生存威脅。自然環(huán)境的多變性使雙殼貝類必須有一套利于自身存活的應(yīng)對機制。單核苷酸多態(tài)性(SNP)是一種常見的可遺傳變異,核苷酸的高多態(tài)性增加了它們所編碼基因的多樣性[5]。在海洋生物早期發(fā)育階段,靈活、豐富的遺傳變異往往為物種在自然選擇狀態(tài)下的發(fā)育方向提供了更多可能性。為了應(yīng)對自然環(huán)境波動帶來的影響,序列的多樣性使蛋白分子在能量代謝、細(xì)胞骨架和信號傳導(dǎo)等方面展現(xiàn)出多樣的功能[6]。強大的環(huán)境壓力同時使免疫功能蛋白的結(jié)構(gòu)和功能更加多樣化,為海洋無脊椎動物提供了更為靈活的免疫應(yīng)激網(wǎng)絡(luò)[7]。目前已完成基因組測序的海洋無脊椎動物,如海鞘(Cionaintestinalis)[8]、海膽(Strongylocentrotuspurpuratus)[9]、太平洋牡蠣(Crassostreagigas)[10]、海豆芽(Lingulaanatina)[11]、扇貝(Patinopectenyessoensis,Chlamysfarreri)[12-13]、仿刺參(Apostichopusjaponicas)[14]等,它們的基因組都呈現(xiàn)出高多態(tài)性的特征。研究顯示,牡蠣基因組的高度雜合、免疫和應(yīng)激反應(yīng)相關(guān)基因的序列與結(jié)構(gòu)的多樣性、以及免疫應(yīng)激基因的擴張可能是其適應(yīng)潮間帶極端環(huán)境的關(guān)鍵[10,15]。
櫛孔扇貝(Chlamysfarreri)自然分布于我國北方沿海地區(qū)[16],是我國極具經(jīng)濟價值的重要水產(chǎn)養(yǎng)殖物種,同時也因其豐富多樣的生物學(xué)特性和生態(tài)學(xué)意義被廣泛研究。近年來,扇貝養(yǎng)殖業(yè)繁榮發(fā)展的同時也常常出現(xiàn)一些問題,夏季水溫較高期間發(fā)生過扇貝大規(guī)模死亡的現(xiàn)象,嚴(yán)重危及扇貝養(yǎng)殖業(yè)的發(fā)展。研究扇貝環(huán)境適應(yīng)性背后的分子機理,有助于通過遺傳育種提高扇貝的抗病能力,為海區(qū)溫度、鹽度、溶解氧等因素變化帶來的養(yǎng)殖問題提供解決方案。本團隊近期完成了櫛孔扇貝全基因組測序[13],發(fā)現(xiàn)其基因組雜合度較高(0.81%)。其基因編碼區(qū)(CDS區(qū))的SNP密度的變化幅度較大(0~117 SNPs/kb),表明一些區(qū)域上存在著高多態(tài)基因。這些高多態(tài)基因主要參與哪些生物學(xué)功能?具有哪些獨特的時空表達規(guī)律?是否為扇貝的環(huán)境適應(yīng)性提供分子基礎(chǔ)?相關(guān)問題的解答仍需要深入的研究。
為理解高多態(tài)基因在扇貝適應(yīng)性進化中的作用,本研究利用櫛孔扇貝基因組重測序數(shù)據(jù),對編碼區(qū)的高多態(tài)基因進行了鑒定,初步探究了高多態(tài)基因的分布及表達特征,并對這些基因的生物學(xué)功能進行了分析。本文將基因的多態(tài)性和表達特征進行聯(lián)合分析,以期為深入理解扇貝環(huán)境適應(yīng)性的分子機制提供線索。
在本研究中,扇貝高多態(tài)基因的鑒定主要基于實驗室前期獲得的六個個體的基因組重測序數(shù)據(jù)[13],相關(guān)實驗材料于2013年取自青島市南山市場。首先根據(jù)基因組的注釋信息獲得所有基因編碼區(qū)的長度(Mb),基于前期的SNP分型結(jié)果,統(tǒng)計每個基因編碼區(qū)的SNP位點數(shù),將各個基因的SNP位點數(shù)比上對應(yīng)區(qū)間的長度,然后對計算結(jié)果進行標(biāo)準(zhǔn)化,最終獲得每個基因單位kb上分布的SNP位點數(shù),即SNP密度(#/kb)。按照上述方法求出所有基因編碼區(qū)的SNP密度。運用Fisher檢驗對每個基因編碼區(qū)的SNP密度進行顯著性分析,獲得所有基因的P值,將P<1e-6的基因定義為高多態(tài)基因。
使用Circos軟件繪圖,分析高多態(tài)基因在櫛孔扇貝基因組上的分布特征。圖中涵蓋了4個方面的信息,從外向內(nèi)依次展示:I 櫛孔扇貝19條染色體上連鎖圖譜的marker分布情況(以Mb為單位);II 基因密度(取0.1 Mb nonoverlapping窗口繪制);III CDS區(qū)上的多態(tài)區(qū)段分布(將CDS區(qū)劃分成50 kb的nonoverlapping窗口,把多態(tài)性顯著的窗口標(biāo)記為紅色);IV 高多態(tài)基因的SNP密度。統(tǒng)計高多態(tài)基因在染色體上的分布情況,分析這些基因是否存在一定的分布規(guī)律。
本研究利用實驗室前期已獲得的櫛孔扇貝轉(zhuǎn)錄組數(shù)據(jù)[13]進行高多態(tài)基因的表達特征分析,數(shù)據(jù)包括各胚胎和幼蟲發(fā)育時期(受精卵、2~8細(xì)胞、囊胚期、原腸期、擔(dān)輪幼蟲、D型幼蟲、殼頂前期、殼頂中期、殼頂后期、匍匐幼蟲、稚貝)以及成體各器官組織(橫紋肌、平滑肌、足、肝胰腺、腎臟、卵巢、精巢、鰓、眼睛、外套膜)?;虮磉_量的計算過程為:以櫛孔扇貝基因組為參照,將質(zhì)量過濾后的序列用STAR軟件[17]進行比對,根據(jù)基因組結(jié)構(gòu)注釋文件用HTSeq-count軟件[18]統(tǒng)計對比到基因組上的各基因的測序片段數(shù)目,用edgeR軟件[19]中的TMM方法對基因表達量(RPKM, Reads Per Kilo bases per Million mapped Reads)進行計算。從中獲取高多態(tài)基因在發(fā)育時期和器官組織中的表達量,用gplots包中的heatmap.2函數(shù)[20]對表達譜數(shù)據(jù)進行均一化處理(row=T, col=F),并對這些基因進行聚類,使用Col=my_palette參數(shù)載入色盤,繪制高多態(tài)基因在胚胎發(fā)育時期和成體各組織的表達譜熱圖。
為了進一步了解高多態(tài)基因的功能,首先根據(jù)聚類信息將高多態(tài)基因分為3類:G1、G2和G3,然后使用EnrichPipeline[21]對每一類高多態(tài)基因分別進行GO功能富集分析。根據(jù)高多態(tài)基因的ID提取其GO注釋結(jié)果,以櫛孔扇貝基因組全部基因的GO注釋為背景,運用Fisher test對高多態(tài)基因的GO term進行顯著性檢驗,提取校正后的Pvalue(FDR)<0.05的GO term進行分析,查看這些顯著富集的GO term中含有哪些基因。GO富集的結(jié)果包括生物過程(Biological process)、細(xì)胞組分(Cellular component)和分子功能(Molecular function)3個方面。
在高多態(tài)基因中篩查顯著性比較高、同時與免疫防御功能相關(guān)的多拷貝基因,將這些基因的SNP密度與基因組中全部基因的SNP密度進行比較,使用R語言繪制箱線圖。為了解這些基因的組織表達是否有特異性,我們繪制了各組織基因表達水平和SNP密度的分布圖,篩查它們在不同組織中的表達規(guī)律。
櫛孔扇貝基因組多態(tài)性分析的結(jié)果顯示,CDS區(qū)上的高多態(tài)區(qū)段在染色體上的分布呈現(xiàn)不均勻現(xiàn)象(見圖1第三圈紅色區(qū)域),結(jié)合基因密度可以發(fā)現(xiàn)(見圖1第二圈),一些區(qū)域的基因密度很大,但是這些區(qū)域并不一定對應(yīng)著高多態(tài)區(qū)段。相反,有些基因密度比較低的地方,卻呈現(xiàn)出了高多態(tài)的特征。這個結(jié)果說明多態(tài)性高低的分布與基因密度并不是完全正相關(guān)的,紅色區(qū)的密集出現(xiàn)并非歸因于基因的密集分布,而是因為存在著一些高多態(tài)的基因。以基因為單位對CDS區(qū)的SNP密度進行顯著性檢驗,共鑒定到了1 186個高多態(tài)基因(Highly polymorphic genes, HPGs)(P< 1e-6)。它們在分布上涵蓋了所有染色體,但是并不均一,數(shù)量上也并不均勻。其中5號染色體上分布最多,有66個,17號染色體上分布最少,有18個。
(chr1~chr19依次表示櫛孔扇貝的19條染色體,由外圈向里依次為:Ⅰ 19條染色體上的圖譜標(biāo)記;Ⅱ基因密度;Ⅲ編碼區(qū)上的高多態(tài)區(qū)段,用紅色表示,其他區(qū)域顯示為黃色;Ⅳ高多態(tài)基因的SNP密度。 chrN(N=1~19) represents the chromosomes ofC.farreri. From outer to inner circles:Ⅰmarker distribution on 19 chromosomes; Ⅱ gene density;Ⅲ polymorphism regions that colored red across coding sequences, while other regions are colored yellow; Ⅳ SNP density of HPGs.)
圖1 櫛孔扇貝基因組的多態(tài)性分析及高多態(tài)基因的分布
Fig.1 The distribution of highly polymorphic genes (HPGs) inC.farrerigenome.
對1 186個高多態(tài)基因的表達模式進行聚類,它們在胚胎/幼蟲時期和成體器官組織中呈現(xiàn)出明顯不同的表達特征(見圖2),可以將其劃分為3類(Group)。第一類基因(G1)共有179個,它們在胚胎發(fā)育階段的受精卵到囊胚期高表達,并且在成體的性腺中也有較高的表達量;第二類基因(G2)共有441個,從整體上看主要在幼蟲發(fā)育階段高表達,在成體組織中的表達量較低。少部分基因在囊胚期開始高表達,而在胚胎發(fā)育后期表達量有所下降,在成體的鰓中表達量較高。大部分基因在D型幼蟲之后高表達,成體的肝胰腺中也有高表達的趨勢;第三類基因(G3)的數(shù)量最多,共有566個,它們在胚胎發(fā)育時期的表達量顯著低于成體組織。在成體中,主要集中高表達于腎臟、鰓、眼睛、外套膜等組織或器官。
對聚類結(jié)果中的每一類基因進行GO功能富集分析(見表1)。G1中共有81個基因顯著富集在了13個GO單元,這些功能包括細(xì)胞骨架相關(guān)、核酸酶活性相關(guān)、細(xì)胞器相關(guān);G2中共有171個基因顯著富集在了3個GO單元,分別是粘附功能和金屬內(nèi)肽酶活性;G3中共有301個基因富集在10個分子功能相關(guān)的GO單元中,這些功能可以分為分子結(jié)合相關(guān)、蛋白酶活性相關(guān)、清道夫受體活性。其中核酸結(jié)合功能顯著富集了Fancm、R3hcc1l、Hells、Zscan2、Pole、Raver2等SNP密度顯著的高多態(tài)基因,細(xì)胞粘附功能富集了Megf6、PF13_0198、Megf11、Ptprg、Megf10等基因,蛋白結(jié)合功能富集了Dscam2、TLR1、Ncam2、EGF1、TLR2-1等基因(見表2)。
(胚胎/幼蟲時期: Embryonic/larval period; 成體器官組織: Adult organ tissue; 受精卵: Zygote; 2~8細(xì)胞: 2~8 cells; 囊胚期: Blastulae; 原腸期: Gastrulae; 擔(dān)輪幼蟲: Trochophores; D型幼蟲: D-shaped larve; 殼頂前期: Early umboperiod; 殼頂中期: Middle umboperiod; 殼頂后期: Find umboperiod; 匍匐幼蟲: Creeping larvae; 稚貝: Juvenile mollusk; 橫紋肌: Striated muscle; 平滑肌: Smooth muscle; 足: Foot; 肝胰腺: Hepatopancreas; 腎臟: Kidney; 卵巢: Fgonad; 精巢: Mgonad; 鰓: Gill; 眼睛: Eye; 外套膜: Mantle.)
圖2 1 186個高多態(tài)基因在胚胎/幼蟲和成體階段的表達熱圖
Fig.2 Heatmap shows the expression profiles of 1 186 HPGs in embryos, larvae and adults ofC.farreri
表1 高多態(tài)基因的GO富集分析Table 1 Go enrichment analysis of HPGs
表2 GO單元中SNP密度顯著的基因Table 2 Genes with significant SNP density in three GO terms
在對G3中的基因分析時,發(fā)現(xiàn)了mucin和C1qDC這2個多拷貝基因具有顯著的多態(tài)性,其P值分別為8.9e-05和3.7e-07,在扇貝中拷貝數(shù)各為42、87個。mucin蛋白是生物體內(nèi)大多數(shù)凝膠樣分泌物的關(guān)鍵成分,是一種具有保護作用的物理屏障,mucin蛋白通常能夠與病原體或引發(fā)疾病的細(xì)胞結(jié)合,與免疫系統(tǒng)一起發(fā)揮作用[22]。C1qDC蛋白作為模式識別受體分子能夠結(jié)合種類繁多的配體,激活補體經(jīng)典途徑, 發(fā)揮清除病原體、吞噬和裂解細(xì)菌及調(diào)理炎癥反應(yīng)等功能[23]。這2個基因與維持機體的免疫耐受、提高生物對環(huán)境的適應(yīng)性有關(guān)。
為了驗證這2個基因的拷貝是否普遍具有高多態(tài)性,我們比較了它們所有拷貝與基因組所有編碼基因的多態(tài)性水平。圖3顯示,mucin和C1qDC的SNP密度平均值明顯高于所有基因的SNP密度平均水平,為了進一步探究這兩個基因的多態(tài)性與表達特征之間的聯(lián)系,我們繪制了扇貝成體各器官組織中mucin和體中具有廣譜性表達的特征(見圖4)。C1qDC的大部分拷貝在成體中有廣泛的表達,其中肝胰腺的表達水平最高。同時我們還繪制了成體各器官組織中表達的mucin和C1qDC基因的SNP密度分布圖(見圖5),mucin的多態(tài)性在各組織中未有較明顯差異,C1qDC在肝胰腺、腎臟中具有較高的多態(tài)性,其中肝胰腺的平均多態(tài)性最高。
圖3 mucin和C1qDC與所有基因SNP密度的比較Fig.3 Comparison of SNP density between mucin, C1qDC and all genes
(①Striated muscle; ②Smooth muscle; ③ Foot; ④Hepatopancreas; ⑤Kidney; ⑥Fgonad; ⑦Mgonad; ⑧Gill; ⑨Eye; ⑩Mantle;PGCG;PVG.)
圖4Mucin和C1qDC在櫛孔扇貝各器官 組織中的基因表達水平
Fig.4 Gene expression profiles ofMucinandC1qDCin various organs/tissues ofC.farreri
(①Striated muscle; ②Smooth muscle; ③Foot; ④Hepatopancreas; ⑤Kidney; ⑥Fgonad; ⑦Mgonad; ⑧Gill; ⑨Eye; ⑩Mantle;PGCG;PVG.)
圖5 櫛孔扇貝各器官組織中表達的mucin和C1qDC的SNP密度
Fig.5 SNP density ofmucinandC1qDCin various organs/tissues of C.farreri
雙殼貝類的基因多態(tài)性具有重要的生物學(xué)意義,可能是其適應(yīng)復(fù)雜生長環(huán)境的重要分子基礎(chǔ)[10]。扇貝的生長發(fā)育可分為胚胎/幼蟲和成體兩個階段,胚胎期由受精卵開始,經(jīng)過卵裂、囊胚期、原腸胚期等發(fā)育階段形成擔(dān)輪幼蟲,在這個過程中細(xì)胞快速分裂、胚層逐漸分化。從擔(dān)輪幼蟲到稚貝期,扇貝完成附著變態(tài),由組織發(fā)生到器官發(fā)生,最終在形態(tài)建立的基礎(chǔ)上出現(xiàn)功能分化[24]。本研究中,主要在胚胎發(fā)育早期和幼蟲時期表達的兩組高多態(tài)基因參與了多種細(xì)胞功能,如微管過程、核酸結(jié)合和細(xì)胞粘附,這些過程在扇貝早期生命活動中發(fā)揮著不可或缺的重要作用,暗示著這些基因的高多態(tài)性可能為海洋無脊椎動物的發(fā)育進程提供遺傳可塑性[25]。其中G1部分的高表達基因不但在受精卵、2~8細(xì)胞和囊胚期中高表達,并且在成體精巢和卵巢中也高表達。這一結(jié)果暗示這些基因可能和維持胚胎干細(xì)胞和性腺中的干細(xì)胞干性相關(guān)聯(lián)。而基因功能富集分析中發(fā)現(xiàn)的微管蛋白基因,其功能往往與物質(zhì)運輸相關(guān),暗示這些細(xì)胞內(nèi)的物質(zhì)或者細(xì)胞器運輸可能較為頻繁,需要大量骨架蛋白的參與,尤其可能與長距離運輸作用的微管蛋白形成或者重塑有關(guān)。而具有蛋白結(jié)合功能的高多態(tài)基因在扇貝成體的組織器官中高表達,暗示著這些基因的高多態(tài)性對信號轉(zhuǎn)導(dǎo)過程中特定的蛋白之間的相互作用或可產(chǎn)生潛在影響,可能為扇貝成體應(yīng)對海洋環(huán)境的波動提供了靈活的蛋白互作網(wǎng)絡(luò)[26]。還有一些研究在蛋白水平解析了多態(tài)性對生物發(fā)育和環(huán)境適應(yīng)性可能產(chǎn)生的影響。Diz等[27]發(fā)現(xiàn)藍貽貝(Mytilusedulis)受精卵的蛋白質(zhì)組具有顯著的多樣性,相比于其他組織,應(yīng)激反應(yīng)、蛋白折疊、細(xì)胞骨架相關(guān)的蛋白在胚胎發(fā)育早期過表達,為貽貝在發(fā)育過程中能夠適應(yīng)環(huán)境因素的波動奠定了基礎(chǔ)。淡水螯蝦(Pacifastacusleniusculus)的Dscams蛋白能夠結(jié)合微生物并促進其被宿主細(xì)胞吸收[28],昆蟲的TLR蛋白在介導(dǎo)免疫反應(yīng)方面具有非常完善的作用[29],這兩個蛋白都表現(xiàn)出豐富的序列多樣性。櫛孔扇貝中編碼Dscams和TLR蛋白的基因具有顯著的多態(tài)性,它們在扇貝免疫系統(tǒng)中發(fā)揮的作用還有待研究。
mucin和C1qDC是高多態(tài)基因中顯著富集到的兩個多拷貝基因,它們在組織器官中的表達特征為揭示扇貝的環(huán)境防御機制和免疫系統(tǒng)的適應(yīng)性進化提供了新的線索。細(xì)胞黏液對于海洋軟體動物發(fā)揮機體功能起到重要作用,mucin糖蛋白是黏液的主要組成成分[30]。細(xì)胞外分泌的黏液通常作為抵御其它動物攻擊的第一道防線,并且能夠形成細(xì)胞防御屏障(也含有包括C1qDC在內(nèi)的一系列免疫效應(yīng)器[31])來阻擋大量微生物的侵染[32]。扇貝的mucin基因在成體的組織器官中表達范圍很廣,它們的高多態(tài)性可能反映了黏液組成成分的動態(tài)變化,這種動態(tài)變化或許是為了形成多種復(fù)雜的物理屏障,能夠有效防御海洋環(huán)境中各種未知細(xì)菌的侵染。C1qDC蛋白能夠與多種來自自身和非自身的配體結(jié)合來觸發(fā)一系列免疫應(yīng)答反應(yīng)[33],之前的研究認(rèn)為櫛孔扇貝中的C1qDC蛋白不但能夠在病原識別(先天性免疫中第一步)中作為模式識別受體(PRR),也是先天性免疫中參與入侵者清除的一種調(diào)理素[34]。在櫛孔扇貝基因組中,我們鑒定到的C1qDC基因大部分都在肝胰腺中表達水平較高。肝胰腺是一種集免疫和代謝為一體的綜合性器官,是軟體動物免疫分子的主要來源[35]。同時肝胰腺作為主要的消化器官,外界食物在進入消化管時會帶入病原菌,因此軟體動物肝胰腺不但是免疫分子的主要來源地,也是病原分布較多的區(qū)域。我們發(fā)現(xiàn),C1qDC基因在扇貝各組織中都具有較高的多態(tài)性,并且在肝胰腺中所呈現(xiàn)的多態(tài)性更高,這可能為扇貝的免疫系統(tǒng)在有效識別和清除病原體方面的適應(yīng)性進化提供了分子基礎(chǔ)。
本研究利用6個櫛孔扇貝個體的重測序數(shù)據(jù),在全基因組范圍內(nèi)鑒定到了1 186個高多態(tài)基因,分析其在基因組上的分布規(guī)律,并對這些基因的功能以及在扇貝各發(fā)育時期的表達特征進行了分析。櫛孔扇貝的高基因多態(tài)性可能為其適應(yīng)復(fù)雜多變的海洋環(huán)境提供了更高的遺傳可塑性。兩個高多態(tài)基因mucin和C1qDC在成體中的表達特征為解析扇貝免疫與防御機制提供了新的線索,將有助于理解海洋無脊椎動物適應(yīng)性進化的分子基礎(chǔ)。