基于DNA彎曲度的H2A.Z核小體定位與修飾研究
單增輝,豐繼華*,陳攀峰,魏恨恨,胡煥
(云南民族大學(xué)電氣信息工程學(xué)院,昆明 650500)
摘要:在真核生物染色質(zhì)中,H2A.Z是高度保守的組蛋白變異體, 與轉(zhuǎn)錄調(diào)控、基因組的穩(wěn)定性密切相關(guān)。為了探討組蛋白修飾、DNA彎曲度與H2A.Z核小體定位三者之間的關(guān)聯(lián),在得到實驗所測的相關(guān)數(shù)據(jù)后,利用MINE算法并結(jié)合皮爾遜相關(guān)系數(shù)在酵母全基因組的轉(zhuǎn)錄起始位點周圍探討了三者間的線性與非線性關(guān)系。其中MIC算法可以定量的得出數(shù)據(jù)之間關(guān)聯(lián)度大小的值,用于衡量數(shù)據(jù)之間是否存在著關(guān)聯(lián),而皮爾遜相關(guān)系數(shù)則用于檢查是否為線性關(guān)聯(lián)。結(jié)果除了發(fā)現(xiàn)大部分組蛋白修飾種類和核小體定位之間存在著線性關(guān)聯(lián)外,還探測到有兩種組蛋白修飾數(shù)據(jù)(H4ac修飾與GCN4修飾)和核小體定位數(shù)據(jù)之間存在著以往未發(fā)現(xiàn)的非線性關(guān)系(大致呈正余弦函數(shù)),并從數(shù)據(jù)的生物背景(組蛋白修飾與核小體位置)上探討了出現(xiàn)非線性現(xiàn)象的原因。
關(guān)鍵詞:轉(zhuǎn)錄起始位點(TSS); 組蛋白變異體; H2A.Z; 修飾; 核小體
中圖分類號:Q-3文獻(xiàn)標(biāo)志碼:A
收稿日期:2015-01-28;修回日期:2015-03-01
基金項目:科技部技術(shù)開發(fā)研究專項(2013EG111232);農(nóng)業(yè)部甜菜產(chǎn)業(yè)技術(shù)體系項目(CARS-21010202)。
作者簡介:龔攀,男,碩士研究生,研究方向:植物生物技術(shù); E-mail:gp68x@126.com.
doi:10.3969/j.issn.1672-5565.2015.01.04
Based on the DNA bending H2A. Z nucleosome positioning and modification research
SHAN Zenghui,FENG Jihua*, CHEN Panfeng, WEI Henhen, HU Huan
(SchoolofElectricalandInformationTechnology,YunnanUniversityofNationalities,Kunming650500,China)
Abstract:In eukaryotes chromatin, H2A.Z is highly conservative histone variants and closely associated with the transcriptional regulation and the stability of the genome and of high importance. In order to explore the links among the histone modification, DNA bending and H2A.Z nucleosome positioning. After getting the relevant data sets, we discussed the linear and nonlinear relationships between those datas around transcription start site in the yeast genome-wide by MIC algorithm and Pearson correlation coefficient. The MIC algorithm got a correlation value to quantificationally measure whether there is an association between datas, while pearson correlation coefficient is used to check whether the correlation is linear. The results showed most of the types of histone modification were linear correlation between the nucleosome positioning. In addition, two kinds of histone modification datas (H4ac modification with GCN4 modification) were found between nucleosome positioning(roughly is positively cosine function) and discussed the reasons of nonlinear phenomena from the biological background(histone modification and nucleosome position) of datas.
Keywords:TSS; Histone variants; H2A.Z; Modify; Nucleosome
真核生物中, DNA和組蛋白結(jié)合在一起形成染色體, 核小體是染色體組成的基本結(jié)構(gòu)單位,它含有一個核心組蛋白八聚體結(jié)構(gòu),該結(jié)構(gòu)由4種組蛋白H2A、H2B、H3和H4組成, 每一種組蛋白各由兩個分子形成, 約200 bp的DNA分子纏繞在核心組蛋白八聚體外面形成一個核小體單位[1-3]。核小體還可以形成更高級的染色體結(jié)構(gòu),因此其位置對基因物質(zhì)的形成與維護(hù)有著重要影響[4]。
組蛋白修飾是在相關(guān)修飾酶的作用下發(fā)生在核小體組蛋白N末端的共價修飾,這些共價修飾包括甲基化、乙酰化和磷酸化等,不同的組蛋白修飾在基因的表達(dá)中起著不同的作用。核小體在基因組 DNA 分子上的精確位置稱為核小體定位,核小體定位已被證實在諸如轉(zhuǎn)錄調(diào)控、DNA 復(fù)制和修復(fù)等多種細(xì)胞過程中起著重要作用。而基因組上核小體位置的確定涉及 DNA、轉(zhuǎn)錄因子、組蛋白修飾酶和染色質(zhì)重塑復(fù)合體之間的相互作用[5-6]。DNA物理特性是指DNA鏈的彎曲度、內(nèi)在曲率、柔韌性、相鄰堿基對的傾斜度等等。研究表明DNA鏈的物理特征與其他調(diào)控因素、化學(xué)修飾一起共同調(diào)節(jié)了真核生物的轉(zhuǎn)錄過程[7-10]。
據(jù)此,在實驗獲得的酵母組蛋白變異體H2A.Z核小體定位數(shù)據(jù)、組蛋白修飾數(shù)據(jù)、DNA彎曲度數(shù)據(jù)基礎(chǔ)上,分別研究組蛋白修飾數(shù)據(jù)與核小體定位數(shù)據(jù)之間的關(guān)聯(lián),彎曲度數(shù)據(jù)與核小體定位數(shù)據(jù)的關(guān)聯(lián)。與以往的研究不同,本文除了研究數(shù)據(jù)集間的線性關(guān)聯(lián)之外,還借助MIC算法對非線性關(guān)聯(lián)也進(jìn)行了探討。
1數(shù)據(jù)與方法
1.1數(shù)據(jù)來源
本文研究的數(shù)據(jù)主要來源于以下幾個方面:一是Julia Zeitlinger等人測定的酵母中核小體組蛋白甲基化及乙?;揎椀臄?shù)據(jù)[4]。二是Luc Gaudreau等人所測的關(guān)于組蛋白變異體H2A.Z的核小體定位數(shù)據(jù)[17]。三是通過查閱數(shù)據(jù)庫所得的DNA彎曲度數(shù)據(jù)。由于實驗測得的原始數(shù)據(jù)格式和精度不統(tǒng)一,所以對原始數(shù)據(jù)進(jìn)行了必要的預(yù)處理。
1.2數(shù)據(jù)預(yù)處理
1.2.1數(shù)據(jù)插值
為了將各種數(shù)據(jù)統(tǒng)一為1 bp精度,本文首先對各組數(shù)據(jù)進(jìn)行插值,在綜合比較幾種常見的插值方法后,我們在對插值后形成的圖譜(對齊后)與文獻(xiàn)[11]的研究結(jié)果進(jìn)行對比過程中,發(fā)現(xiàn)使用高斯插值方法效果較好。
1.2.2數(shù)據(jù)對齊
根據(jù)基因的位置數(shù)據(jù),在每個基因的TSS周圍,選取上、下游各 1 200 bp的長度范圍(經(jīng)過反復(fù)嘗試、對比發(fā)現(xiàn)該長度研究效果最好),分別對核小體定位數(shù)據(jù),組蛋白修飾數(shù)據(jù),DNA彎曲度數(shù)據(jù)進(jìn)行數(shù)據(jù)截取與對齊處理(其中C型基因?qū)?yīng)的數(shù)據(jù)做了反轉(zhuǎn)處理),再將以上數(shù)據(jù)疊加平均并做了歸一化處理,由此得到全基因組在TSS附近歸一化后的核小體定位圖譜、組蛋白修飾圖譜以及彎曲度圖譜。
通過把插值對齊后的圖譜(見圖1)和Yuan GC等人實驗測得的數(shù)據(jù)相比較發(fā)現(xiàn)[1],數(shù)據(jù)分布及走勢是一致的,因此可以看出用高斯插值所得到的全基因組數(shù)據(jù)是正確的。并且從以上圖譜可以看出各組數(shù)據(jù)在TSS附近的分布呈現(xiàn)出一定規(guī)律,如H3.H2O2組蛋白修飾在TSS處于低谷。其中組蛋白修飾數(shù)據(jù)(甲基化與乙?;?有28個圖譜,因篇幅所限,本文僅列舉了H3.H2O2的修飾圖譜。
圖1 在TSS附近對齊的核小體定位、
1.3MIC算法
MIC算法是一個研究數(shù)據(jù)之間關(guān)聯(lián)度的新算法,在這里就其主要原理進(jìn)行介紹。MIC是用來測量兩變量依賴關(guān)系的算法,它能夠捕捉到兩變量之間廣泛的關(guān)聯(lián),包括函數(shù)與非函數(shù)關(guān)系(包括變量間原線性與非線性關(guān)系)。并且對于函數(shù)關(guān)系,可以得到一個大致等于樣本判定系數(shù)的值,它屬于基于非參數(shù)檢測統(tǒng)計量最大化信息方法中的一大類。其大致思想是:如果兩個變量之間存在關(guān)系,那么首先在這兩個變量的散點圖上繪制出一個網(wǎng)格,對數(shù)據(jù)進(jìn)行分區(qū)以封裝其關(guān)聯(lián)。然后計算兩組數(shù)據(jù)之間的MIC值,通過探索所有的網(wǎng)格至其最大的網(wǎng)格分辨率,然后再根據(jù)樣本大小計算每一個整數(shù)對(x,y)的最大交互信息,之后把這些交互信息值歸一化,最后將每組歸一化后的最大交互信息值組成一個矩陣——特征矩陣M。而MIC的值就是特征矩陣M的最大值。
其主要公式如下:
對于一有限定義集D?R2與整數(shù)x,y定義:
(1)
其中:x代表列,y代表行,I(D|G)代表(D|G)的交互信息
(2)
特征矩陣M(D)為:
(3)
而在xy
(4)
其中n代表樣本大小,B(n)代表網(wǎng)絡(luò)大小,通常B=n0.6,MIC(D)表示最大信息系數(shù)。
2結(jié)果
2.1MIC值的定量關(guān)聯(lián)性探究
基于以上的綜合介紹(數(shù)據(jù)的預(yù)處理與算法),為研究組蛋白修飾與核小體定位的關(guān)系,本文首先以MIC算法為基礎(chǔ),計算出兩者數(shù)據(jù)之間關(guān)聯(lián)度,并得到以下條形圖(見圖2)。
圖2 各修飾數(shù)據(jù)與核小體定位數(shù)據(jù)MIC值的條形圖
2.2皮爾遜相關(guān)系數(shù)的線性探究
由上圖表MIC值可以說明數(shù)據(jù)之間有著較強(qiáng)的關(guān)聯(lián)性。但這種關(guān)聯(lián)究竟是線性關(guān)聯(lián)還是非線性呢?為此,又計算了數(shù)據(jù)間的皮爾遜相關(guān)系數(shù),得到核小體占位數(shù)據(jù)分別與27種修飾數(shù)據(jù)的皮爾遜相關(guān)系數(shù)圖表(見圖3)。
圖3 各修飾數(shù)據(jù)與核小體定位數(shù)據(jù)的皮爾遜相關(guān)系數(shù)條形圖
通過仔細(xì)的對比了兩種不同方法下的數(shù)據(jù),發(fā)現(xiàn)大部分?jǐn)?shù)據(jù)符合實際。如MIC 值高其皮爾遜相關(guān)系數(shù)也比較高(如第一種修飾H3K9ac),當(dāng)兩個MIC值想接近時,其對應(yīng)的皮爾遜相關(guān)系數(shù)也接近(如第一種修飾H3K9ac和第四種修飾H3K4me1),MIC值比價小時皮爾遜相關(guān)系數(shù)比較小(第23種修飾ESA1.YPD)。但仔細(xì)對照可以發(fā)現(xiàn)其中有兩組數(shù)據(jù)差異很明顯,第17種修飾H4ac與第25種修飾GCN4.AA,它們的MIC值較高而皮爾遜相關(guān)系數(shù)確很低,所以在此猜想這兩種修飾之間可能存在著未知的非線性關(guān)系。
2.3數(shù)據(jù)走勢圖的非線性探究
基于此,本文在全基因組下對TSS附近的歸一化的核小體定位數(shù)據(jù)與歸一化的該兩種修飾數(shù)據(jù)分別作二維與三維圖(把位置信息添加進(jìn)去),結(jié)果如圖4、圖5所示。
圖4 H4ac修飾與核小體定位數(shù)據(jù)的二維與三維圖
圖5 GCN4.AA修飾與核小體定位數(shù)據(jù)的二維與三維圖
從圖4和圖5中可以發(fā)現(xiàn)圖形的二維投影走勢呈正余弦函數(shù)(局部更明顯),并且其極值均處于TSS(1 201點處)位置左右。通過查閱資料發(fā)現(xiàn)在酵母生物體中組蛋白H4的乙?;l(fā)生在組蛋白尾部幾個不同的賴氨酸位置上[13-15],其乙酰化高峰期超過了活躍基因的開始位置并且與轉(zhuǎn)錄速率、轉(zhuǎn)錄積極性有關(guān),而且不能排除H4的N尾端個別賴氨酸殘留物的乙酰化對轉(zhuǎn)錄活動也許有著不同的關(guān)聯(lián),所以猜想是因此造成了如圖所示的非線性關(guān)系。而對于GCN4本文依據(jù)推測上圖是由于GCN4基因在氨基酸控制脫抑制反應(yīng)中所需求[16],GCN4蛋白在基因5端未翻譯的區(qū)域中保護(hù)著重復(fù)的區(qū)域,而在GCN4區(qū)域某些位置處選擇性對啟動子的約束是和這些點與GCN4的相對親和力有關(guān)而造成的。
而后用同樣的方法對核小體定位數(shù)據(jù)與DNA彎曲度數(shù)據(jù)進(jìn)行了探討,發(fā)現(xiàn)兩者之間的MIC值和皮爾遜相關(guān)系數(shù)均比較小,其中MIC值為0.325 44,皮爾遜相關(guān)系數(shù)為0.039。通過查閱文獻(xiàn)發(fā)現(xiàn)[8],盡管核小體的定位與DNA物理特性又有著很大的關(guān)聯(lián),但在體內(nèi),決定核小體位置的因素很多,加上數(shù)據(jù)的誤差等,導(dǎo)致了兩者間關(guān)聯(lián)性并不大。
4結(jié)語
本文在得到核小體定位數(shù)據(jù)、組蛋白修飾數(shù)據(jù)和彎曲度數(shù)據(jù)的基礎(chǔ)上,綜合比較了幾種常見的插值方法,并把插值后的圖譜與前人的研究進(jìn)行對比,最后確定了利用高斯方法進(jìn)行插值,然后對數(shù)據(jù)進(jìn)行對齊和歸一化處理,最終得到了全基因組下TSS附近的各類數(shù)據(jù)與圖譜。然后利用MINE算法計算了數(shù)據(jù)之間的關(guān)聯(lián)度,結(jié)果發(fā)現(xiàn)MIC值均比較大,這說明數(shù)據(jù)之間有著很強(qiáng)的關(guān)聯(lián),為了明確這種關(guān)聯(lián)之間是否存在非線性,我們又計算了數(shù)據(jù)間的皮爾遜相關(guān)系數(shù),結(jié)果發(fā)現(xiàn)大部分組蛋白修飾與核小體定位數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)值都很高,存在著很強(qiáng)的線性關(guān)聯(lián)。但還發(fā)現(xiàn)出有兩種修飾H4ac與GCN4和核小體定位數(shù)據(jù)之間的MIC值很高但皮爾遜相關(guān)系數(shù)值確很小,為了探測兩者間是否為非線性關(guān)聯(lián),本文又結(jié)合了兩個修飾種類與核小體數(shù)據(jù)間的二維及三維走勢圖,最終發(fā)現(xiàn)了兩者之間存在的非線性關(guān)系。
參考文獻(xiàn)(References)
[1]KOUZARIDES T. Chromatin modifications and their function[J].Cell, 2007, 128(4): 693-705.
[2]ZHANG Z, PUGH B F. High-resolution genome-wide mapping of the primary structure of chromatin[J].Cell , 2011, 144(2):175-186.
[3]XING Yongqiang, LIU Guoqing, ZHAO Xiujuan, et al. An analysis and prediction of nucleosome positioning based on information content [J]. Chromosome Research, 2013,21 (1):63-74.
[4]JULIA Z ,FRAN L, RICHARD A. Genome-wide map of nucleosome acetylation and methylation in yeast[J]. Cell, 2005, 122: 517-527.
[5]CUI Xiangjun, LI Hong. Advances on the combinatorial patterns of histone modifications[J]. Journal of Inner Mongolia University (Natural Science Edition), 2012, 43: 101-111.
[6]WANG Jianying, WANG Jingyan, LIU Guoqing. Calculation of nucleosomal DNA deformation energy: its implication for nucleosome positioning[J]. Chromosome Research, 2012, 20 (7): 889-902.
[7]LIU Hui, ZHUANG Ziheng, GUAN Jihong, et al. Transcriptional regulation functions of nucleosome positioning: a survey[J]. Progress in Biochemistry and Biophysics,2012, 39: 843-852.
[8]VINCENT M, CEDRIC V. DNA physical properties determine nucleosome occupancy from yeast to fly[J]. Nucleic Acids Research, 2008,36(11):3746-3756.
[9]ITAY T,JUDITH B,NAAMA B. The pattern and evolution of yeast promoter bendability[J]. Trends in Genetics, 2007,23(7):318-321.
[10]CAI Lu, LUO Liaofu. The DNA of the bending and its topology [J]. Journal of Baotou Iron and Steel Institute,1998,17(2):161-167.
[11]YUAN G C, LIU YJ, DION M F,et al. Genome-scale identification of nucleosome positions in S.cerevisiae[J]. Science , 2005, 309 (5734): 626-630.
[12]TERRY S. A correlation for the 21stcentury[J].Science,2011,334:1502-1503.
[13]XING Yongqiang, LIU Guoqing, ZHAO Xiujuan, et al. An analysis and prediction of nucleosome positioning based on information content[J]. Chromosome Research,2013, 21:63-74.
[14]DAVID N, YAKIR A R, HILARY K F et al. Detecting novel associations in large data sets[J]. Science, 2011,334: 1518-1524.
[15]PHAM T, TRAN D. Qualitatively predicting acetylation and methylation areas in DNA sequences[J]. Genome Informatics, 2005, 16(2): 3-11.
[18]GERALD R. GCN4 protein, a positive transcription factor in yeast, binds general control promoters at all 5′TGACTC 3′sequences[J]. Natural,1986, 83: 8516-8520.
[17]PECKHAM H E, THURMAN R E, FU Y,et al. Nucleosome positioning signals in genomic DNA[J]. Genome Res, 2007, 17(8): 1170-1177.
*通信作者:崔杰,博士,副教授,研究方向:植物抗逆分子機(jī)制;E-mail:cuijie2006@163.com.