鄒 晶 高 磊 李 晉 戴靜珠 李 霞,*
1(首都醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院生物信息學(xué)系,北京 100069)
2(哈爾濱醫(yī)科大學(xué)生物信息科學(xué)與技術(shù)學(xué)院,哈爾濱 150086)
隨著基因芯片技術(shù)的發(fā)展,生物學(xué)家可以檢測高通量的基因表達譜數(shù)據(jù)。在對于基因表達譜數(shù)據(jù)的分析中發(fā)現(xiàn),基因數(shù)遠遠多于樣本數(shù),而只有少部分基因差異表達并可以此分類不同的樣本類,其中多數(shù)的被檢測基因與疾病狀態(tài)并無關(guān)聯(lián)。提取特征基因并以此推斷該基因是否與某種組織類別、疾病狀態(tài)或臨床表現(xiàn)相關(guān)聯(lián),是基因表達譜分析的基礎(chǔ)工作。用少量的特征基因代替高通量的數(shù)據(jù)分析不僅可以提高準確率,而且可以降低計算復(fù)雜度和成本。
為此,研究者提出了各種特征基因挖掘方法,大體上可將其分為三類[1]:過濾法 (filter)[2-3]、纏繞法(wrapper)[4]以及過濾法與纏繞法的混合法(hybrid)[5]。
過濾法主要針對單個基因,用某個指標對單個基因在各類樣本間表達水平的差異程度進行打分,進而濾除分數(shù)較低的基因。過濾法運行速度快,對含有大量基因少量樣本的表達譜尤為適宜,但是過濾法所提取的基因的樣本分類準確率較低,而且對各基因獨立評測損失了基因間的信息。t檢驗是經(jīng)典的過濾法,其他還有信息增益[6]、χ2檢驗[7]、Relief-F[8]、馬爾可夫毯(Markov Blanket)[9]和邊際過濾法[10]等。
纏繞法是在特征基因的選取過程中結(jié)合樣本分類,挑選部分樣本作為訓(xùn)練集進行分類,在測試集中評價所訓(xùn)練的分類器的優(yōu)劣。纏繞法相較于過濾法對樣本分類的準確率較高,且考慮了基因之間的相互關(guān)系,但存在濾除某些特征基因的風(fēng)險,且計算量也較大。常用的纏繞法有決策樹、支持向量機、PMBGA(probabilistic model building genetic algorithm)等[11]。
過濾法與纏繞法的混合方法是一種結(jié)合過濾法和纏繞法優(yōu)劣勢的折中方法,它運用樣本分類提高了精度,但損失了一部分運算速度,如基于決策樹的集成決策方法[1]。
與此同時,新方法的誕生必然產(chǎn)生一個與其他方法所不同的特征基因集合[12-14],這也增大了研究者對特征挖掘方法的選擇難度。不論基于何種理論的特征基因挖掘方法所得的特征基因都應(yīng)傾向于樣本間差異表達,而功能相似的基因傾向于共表達,則各方法所挖掘的特征基因集合可能在功能上也具有一致性。生物學(xué)上,基因功能是指基因及其產(chǎn)物在生物過程中所發(fā)揮的作用。在基因表達譜的分析中,基因功能可以狹隘的定義為該基因表達水平差異對樣本的分類準確性,即為基因的樣本分類能力?;谶@種情況,本研究試圖分別從生物功能和基因樣本分類能力的角度,評價特征基因挖掘方法所挖掘的特征基因的功能一致性,并將此方案應(yīng)用到 RankGene[14]中的八種常用的特征排秩準則,如:傳統(tǒng)的t檢驗、一維支持向量機等。
四套基因表達譜數(shù)據(jù)均于NCBI(National Center for Biotechnology Information)的GEO(Gene expression omnibus)數(shù)據(jù)庫下載,其基本信息如表1所示。由于RankGene中的一維支持向量機和t檢驗只能處理兩類樣本的數(shù)據(jù),故研究中的基因表達譜數(shù)據(jù)均只有兩類樣本。
表1 基因表達譜數(shù)據(jù)的基本信息(GDS2250中原有47個樣本分類于4類中,此處只選取了2類樣本量大的樣本類)Tab.1 Information ofgeneexpression profiles(In GDS2250,there are four classed with 47 samples,only two classes with larger samples adopted)
圖像損壞、芯片上的小劃痕或灰塵等細微因素都可能導(dǎo)致表達譜數(shù)據(jù)的部分表達值缺失,在表達譜數(shù)據(jù)的聚類算法中,缺失值可能對聚類結(jié)果造成嚴重的影響,且很多基因表達譜數(shù)據(jù)的分析均要求完整的數(shù)據(jù),而由于時間、花費等問題使得重做表達譜的可行性較低,缺失值的填充成了一種比較折中的方法。RankGene中各種特征基因挖掘方法其本質(zhì)上為分類器,需要在預(yù)處理中進行缺失值的填充?,F(xiàn)階段最常用的缺失值填充方法有K近鄰法、取均值、補零等方法。王棟等[19]研究了各種填充缺失值的方法對分類的影響,分析發(fā)現(xiàn),在缺失率<40%情況下,補零的方法與其他方法的效果差別不大,在其研究的數(shù)據(jù)中基于差異表達基因的樣本分類準確率基本達到80%以上,故研究中對缺失值進行了補零處理。另外,基因表達譜數(shù)據(jù)均進行了標準化,以使表達水平的均值為0,標準差為1。
RankGene整合了八種特征基因挖掘方法:信息增益、二分規(guī)則、少數(shù)類總和、少數(shù)類極大值、Gini指數(shù)以、方差總和、t檢驗以及一維支持向量機。前六種方法試圖以不同的準則評測基因的樣本預(yù)測力以對基因排序(單純的根據(jù)表達水平將樣本分為上調(diào)組和下調(diào)組)[20],具體準則如表 2 所示[21]。此六種方法的評價準則中,少數(shù)類極大值只考慮左右分支中較大的純化度,其他準則均綜合左右分支的純化度。少數(shù)類總和的準則本質(zhì)上為單純的錯誤分類的樣本計數(shù),其有個比較明顯的缺陷(假設(shè)隸屬兩類的100個樣本,排列方式為50個第一類,20個第二類,30個第二類,則無論如何劃分其純化度均為20)。信息增益中計算的為信息熵的含量,即為左右分支信息量與總體信息量間的差異度。二分規(guī)則、Gini指數(shù)和方差總和則采用不同方式計算左右分支的純化度總和。t檢驗以基因的t檢驗值對基因進行降序排秩。一維支持向量機(One Dimensional Support Vector Machine,1D-SVM)的排序準則為最優(yōu)支持向量的值[22]。
表2 前6種特征基因挖掘方法的評價準則,其中k為總類數(shù),n為總的表達值數(shù)目,nl、nr分別為被分類到左右分支的數(shù)量,li和 ri為分類到左右分支的特征值,ci為第 i個樣本的類標簽Table 2 Measure of predictability of the first six gene mining methods(k is the total number of classes;n is the total number of expression values;nl(resp.,nr)is the number of values in the left(resp.,right)partition;li(resp.,ri)is the number of values that belong to class i in the left(resp.,right)partition;and ciis the class of the ith sample.)
對于每個特征基因,八種方法中各有一個秩(對于有其他基因同秩的情況,取原秩次的期望值作為該基因的秩),取基于八個秩的期望值作為集成方法中該基因的秩。用新的秩次對各特征基因進行排序,從而得到了新的特征基因挖掘結(jié)果,即為集成法。
GO(Gene Ontology)集成了3個結(jié)構(gòu)化功能類庫(生物過程、細胞成分和分子功能)以分析基因及其產(chǎn)物在各種生物機能中的作用[23]?;蚩梢宰⑨尩紾O功能類以分析其生物功能。研究中采用Ochiai/Otsuka系數(shù)作為功能相似性評測指標[24],對于已知的基因集合Gi,其所注釋的GO功能類集合為Fi,則兩個基因集合 Gi和 Gj的功能相似性系數(shù)FSC(Gi,Gj)(function similarity coefficient)定義為:
其中 ni和 nj分別為 Fi和 Fj中功能類數(shù)目,ni,j為Fi與Fj中共有的功能類數(shù)目。
任意兩個基因集合的功能一致性可以用FSC表示,F(xiàn)SC的取值在0和1之間,F(xiàn)SC值越高的兩個基因集合的功能相似性越高。對于n個基因集合,兩兩集合間均可有一個FSC值,即可得到一個n×n的功能相似性系數(shù)矩陣(FSCM),其中矩陣的每一行為該集合與其他各集合的生物功能相似性系數(shù)向量,且任意兩個向量間的相關(guān)系數(shù) CORR(correlation coefficient)亦可反映此兩基因集合的生物功能一致程度。對任意兩個基因集合Gi、Gj,其相關(guān)系數(shù)用 CORR(Gi,Gj)表示,CORR(Gi,Gj)不僅考慮到 FSC(Gi,Gj)的大小,同時考慮了 Gi、Gj與其他基因集合的FSC相關(guān)程度。相較于FSC的直接相似性而言,CORR是一種間接相似性,它全局地考慮了基因集合與其他集合的相似性。如基因SETDB1和BMP2間無相同的GO生物過程功能節(jié)點,即FSC=0,但其分別與另一個癌癥相關(guān)的基因 RUNX3[24]有相同的GO節(jié)點,即 CORR≠0。有研究表明,基因 SETDB1 和 BMP2 也與癌癥相關(guān)[25-26],CORR 即可反映此間接功能相似性。這種間接相似性可以清晰反映基因集合間的生物功能一致程度,可采用CORR作為聚類距離,以生物功能相似性矩陣FSCM為特征,對基因集合進行聚類分析,進一步分析基因集合間的生物功能一致性程度。本研究中將各方法挖掘的特征基因注釋到GO的生物過程體系,進而分析各方法挖掘的特征基因集合的生物功能一致性。
基于所提取的n個特征基因,用K均值聚類的方法,對樣本進行聚類分析,將聚類結(jié)果與原始類標簽進行比較,以分析各方法的樣本分類能力??紤]到排序方法與聚類距離可能存在特異性,故分別采用了歐式距離、相關(guān)系數(shù)和余弦3種距離。
研究中采用了約當指數(shù)(Rand index,RI)作為樣本分類能力的評價指標,RI的定義如下
RI的取值為[0,1],當 RI值為 1時,樣本分類準確度為100%,即聚類結(jié)果與原數(shù)據(jù)類完全一致;反之,當RI值為0時,樣本分類準確度為0%,即聚類結(jié)果與原數(shù)據(jù)類無相同類信息。Rand index值越大,該方法所挖掘的特征基因的分類能力越好。
將各方法挖掘的特征基因注釋到GO的生物過程功能類中,計算任意兩種方法所得的特征基因集合的功能相似系數(shù)FSC。特征基因數(shù)目可能直接影響研究結(jié)果,實際研究中往往根據(jù)不同研究重點選擇合適的特征基因數(shù)。研究中的特征基因數(shù)n取10到600,步長為10的梯度值,不同數(shù)目的特征基因數(shù)時集合間的FSC并不一致,但其FSC值變化較小(變異系數(shù)均小于0.05)。對特征基因數(shù)n為100時的FSCM進行層次聚類分析(聚類距離為相關(guān)系數(shù)),其結(jié)果如圖1所示。
圖1 不同數(shù)據(jù)中,特征基因數(shù)n為100時的FSCM層次聚類結(jié)果(IG:信息增益,TR:二份規(guī)則,MS:少數(shù)類總和,MM:少數(shù)類極大值,GI:Gini指數(shù),SV:方差總和,TT:t檢驗,1D:一維支持向量機,IN:集成法;深灰色區(qū)域具有高的FSC值,而淺灰色區(qū)域的FSC值較低)(a)GDS90;(b)GDS807;(c)GDS1949;(d)GDS2250Fig.1 Hierarchical cluster result with FSCM in different datasets while feature number equals to 100(IG:information gain,TR:twoing rule,MS:sum minority,MM:max minority,GI:Gini index,SV:sum of variances,TT:t-statistics,1D:1D-SVM,IN:integrated method;Darker areas are with higher FSC while lighter ones with lower FSC).(a)GDS90;(b)GDS807;(c)GDS1949;(d)GDS2250
分析圖1可知,4套表達譜數(shù)據(jù)中,各方法所挖掘的特征基因集合間SFC值均在0.5以上(多數(shù)不低于0.7),其中Gini指數(shù)、方差總和和二分規(guī)則所挖掘的特征基因生物功能一致性最好(FSC均在0.85以上),且該三種方法與信息增益的一致性較好;t檢驗與一維支持向量機的生物功能一致性程度相對較高,而少數(shù)類極大值和集成法與各方法間的一致性結(jié)果在各數(shù)據(jù)間的變化較大,不可明確比較其與何種方法的一致性更高。
集成法為各方法間的均衡方法,當某些方法間的生物功能有差異時,其很難和某種方法保持穩(wěn)定的一致性。少數(shù)類極大值考慮的為左右分支的最大的純化度,與其他考慮左右分支純化度的方法相比,其穩(wěn)定性較差,這可能也是其在各數(shù)據(jù)間變化較大的原因。
圖2 GDS90、GDS807及GDS1949中不同特征基因挖掘方法分別在歐氏距離、相關(guān)系數(shù)、余弦距離聚類距離下的RI曲線。(a)~(c)GDS90;(d)~(f)GDS807;(g)~(i)GDS1949Fig.2 RI curves of different feature selecting methods in GDS90,GDS807 and GDS1949 with Euclidean,correlation and cosine distance seperately.(a)~(c)GDS90;(d)~(f)GDS 807;(g)~(i)GDS1949
在功能相似系數(shù)FSC的定義中,簡單的將功能類節(jié)點的關(guān)系分為0和1兩種,即完全相同的功能類間相似系數(shù)為1,不同的為0,如果考慮不同功能類間的關(guān)系(如節(jié)點間的距離、節(jié)點間最近父節(jié)點的深度等),則功能類節(jié)點間相似系數(shù)范圍為[0,1],兩個基因集合的功能類相似系數(shù)較現(xiàn)有測度將有所增加。在相對簡單的功能相似性系數(shù)FSC的評測下,各方法所得的特征基因集合間的功能相似性系數(shù)FSC均較高,如考慮更深層次的功能類間的關(guān)系,可以更精確地反映基因集合功能相似性,也能得到更高的生物功能相似性評測結(jié)果。
2.2.1 四組數(shù)據(jù)的聚類結(jié)果
對于每個基因表達譜數(shù)據(jù),選取不同的特征基因n,分別用三種距離進行K均值聚類,進而得到相應(yīng)的RI值。對每種聚類距離,分別以RI為縱坐標,特征基因數(shù)n為橫坐標作圖,如圖2所示。其中,中空圈線為隨機500次選取n個基因作為特征基因進行RI分析。對于數(shù)據(jù) GDS2250,不論采用何種距離,n取10到600間何值,聚類結(jié)果和原數(shù)據(jù)類完全一致,即RI值為1。
由圖2可知RI值隨著n值增大而趨于穩(wěn)定,但不能明確分辨各方法RI值的高低;無論采用何種聚類距離,二分規(guī)則、Gini指數(shù)和方差總和的 RI曲線基本重合,且除GDS807數(shù)據(jù)的歐式距離外,各數(shù)據(jù)結(jié)果中各方法的RI值趨于穩(wěn)定,其穩(wěn)定值如表3所示。另外,隨機情況下,RI值隨著 n值增大而緩慢增大,且各方法的RI值均明顯高于隨機情況。
GDS807數(shù)據(jù)中的RI值相對不穩(wěn)定(特別是歐氏距離),但大體上1D-SVM的RI值最小,其他各方法間的差異較小。而對于其他三組表達譜數(shù)據(jù),各方法的RI值基本一致。
表3 各數(shù)據(jù)在不同特征提取方法及不同聚類距離下的RI穩(wěn)定值Tab.3 Stable value of Rand index with different feature selecting methods and cluster distances
2.2.2 樣本分類能力分析
基因表達譜中,每個基因均包含一定的樣本分類信息,且信息含量高的基因傾向于差異表達,特征基因挖掘的作用就是挖掘盡可能小的特征基因集合以包含盡可能多信息量,故信息量較高的基因傾向于被挑選為特征基因?;驍?shù)越多,信息量越多,該基因集合的分類效果越好,即RI值越大。但表達譜中的總信息量是有限的,基因間內(nèi)也存在冗余信息,當特征基因數(shù)增大到一定值時,該基因集合基本包含了所有該挖掘方法所能挖掘到的所有信息,故RI曲線在特征基因數(shù)n大于一定值后趨于穩(wěn)定,而隨機情況下的RI值持續(xù)緩慢增大?;诖死碚?,即可分析比較各方法所能挖掘的總信息量以分析各方法所挖掘特征基因的樣本分類能力,即分析比較穩(wěn)定的RI值。
分析不同距離下的RI曲線發(fā)現(xiàn),相關(guān)系數(shù)和余弦距離的一致度較高,且與歐式距離的結(jié)果有一定差異,歐式距離下的 RI值低于其他兩種距離,且在GDS807中不穩(wěn)定。與其他兩種形式的距離相比,歐氏距離較易受到特異值(過大或過小)的影響,表達譜中的噪點對歐氏距離的影響較大,可能直接影響結(jié)果的穩(wěn)定性,故研究中重點分析了相關(guān)系數(shù)和余弦距離的結(jié)果。
相較其他三套數(shù)據(jù),GDS807數(shù)據(jù)有較大的樣本量(60個樣本),GDS90、GDS949和GDS2250的樣本數(shù)分別為20,26,28,這可能直接導(dǎo)致 GDS807數(shù)據(jù)結(jié)果相對不穩(wěn)定。但大體上GDS807中的一維支持向量機的分類能力相對較低,其他方法間的差異不大。對于其他三套數(shù)據(jù),各方法所挖掘的特征基因均完全正確的對樣本進行分類(除GDS90中的一維支持向量機)。當各方法挖掘的特征基因的樣本分類能力均較高時,集成各方法優(yōu)劣的集成法很難提高其分類準確度,故其RI值并不高于其他方法。綜上分析,此九種方法所挖掘特征基因的分類能力明顯優(yōu)于隨機情況,且各方法間的樣本分類能力的一致性較高,但不能明確區(qū)分其樣本分類能力的優(yōu)劣。
t檢驗與一維支持向量機僅僅針對兩類樣本的特征基因提取,如用其處理多樣本數(shù)據(jù),則需要將多類樣本兩兩類分化,此時可采用前六種方法進行多樣本的特征基因挖掘。GDS807數(shù)據(jù)結(jié)果中,信息增益和t檢驗的RI值相對稍高,而在其他數(shù)據(jù)結(jié)果中基本無差異,在表達譜分析中可優(yōu)先考慮采用信息增益和t檢驗進行特征基因挖掘。
生物功能分析中,各方法所挖掘特征基因集合間的功能相似系數(shù)FSC隨特征基因數(shù)的變化不大,且各集合間的生物功能一致性較高。樣本分類能力分析中,各特征基因集合的RI值隨著特征基因數(shù)的增加趨于穩(wěn)定,且各集合的樣本分類能力的一致性較高。無論是生物功能分析還是樣本分類能力分析,Gini指數(shù)、方差總和和二分規(guī)則的一致性最好。個別方法所挖掘的特征基因集合的生物功能一致性較差,但是不能明確區(qū)分九種特征基因挖掘方法的樣本分類能力的優(yōu)劣。
研究中分析了RankGene中的8種方法及基于該8種方法的集成法,也可將此分析比較方法推廣到更多的特征基因挖掘方法,如χ2檢驗、SAM等,同時也可以結(jié)合多種聚類和分類方法(支持向量機、貝葉斯、K近鄰等等)綜合評價特征基因挖掘方法所挖掘的基因集合的功能一致性。
[1]Li Xia,Rao Shaoqi,Wang Yadong,et al.Gene mining:a novel and powerful ensemble decision approach to hunting for disease genes using microarray expression profiling[J].Nucleic Acids Research,2004,32(9):2685-2694.
[2]Mills JC,Gordon JI.A new approach for filtering noise from high-density oligonucleotide microarray datasets [J].Nucleic Acids Res,2001,29(15):E72-2.
[3]Xu Wenlong,Wang Minghui,Zhang Xianghua,et al.SDED:A novel filter method for cancer-related gene selection [J].Bioinformation,2008,2(7):301–303.
[4]Kohavi R,John GH.Wrappers for feature subset selection[J].Artificial Intelligence,1997,97:273-324.
[5]Xing EP,Jordan MI,Karp RM.Feature selection for highdimensional genomic microarray data[A].In:Proceedings of the Eighteenth Internatlonal Conference on Machine Learning[C].Massachusetts:Morgan Kaufmann,2001.601-608.
[6]Golub TR,Slonim DK,Tamayo P,etal. Molecular classification of cancer:class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531–537.
[7]Liu Huan,Setiono R.Chi2:feature selection and discretization of numeric attributes[A].In:Proceedings of the Seventh International Conference on Tools with Artificial Intelligence[C].Herndon:IEEE Computer Society,1995.388– 391.
[8]Kononenko I.Estimating attributes:analysis and extensions of relief[A].In:Proceedings of the 7th European Conference on Machin Learning[C].Berlin:Springer Verlag,1994.171-182.
[9]Hall M.Correlation-based feature selection for machine learning[D].Hamilton:University of Waikato,1998.
[10]Blum A,Langley P.Selection of relevant features and examples in machie learning[J].Artificial Intelligence,1997,97:245 -271.
[11]Paul T,Iba H.Gene selection for classification of cancers using probabilistic model building genetic algorithm [J].Biosystems,2005,82(3):208-225.
[12]Wei Guan,Alexander G,Sham N,et al.Discovering ovarian cancer biomarkers using Gene Ontology based microarray analysis[A].In:Proceedings of the Seventh International Workshop on Data Mining in Bioinformatics[C].San Jose:KDD 2007 Workshops,2007.78 -87.
[13]Draminski M,Rada-Iglesias A,Enroth S,et al.Monte Carlo feature selection for supervised classification [J].Bioinformatics,2008,24(1):110-117.
[14]Su Yang,MuraliTM,Pavlovic V,etal. RankGene:identification of diagnostic genes based on expression data[J].Bioinformatics,2003,19(12):1578-15799.
[15]Perou C,Jeffrey S,Van De Rijn M,et al.Distinctive gene expression patterns in human mammary epithelial cells and breast cancers[J].Proc Natl Acad Sci USA,1999,96(16):9212 -9217.
[16]Ma Xiaojun,Wang Zuncai,Ryan PD,et al.A two-gene expression ratio predictsclinicaloutcome in breastcancer patients treated with tamoxifen [J].Cancer Cell,2004,5(6):607-616.
[17]Gilks CB,Vanderhyden BC,Zhu S,et al.Distinction between serous tumors of low malignant potential and serous carcinomas based on global mRNA expression profiling[J].Gynecologic Oncology,2005,96(3):684-694.
[18]Richardson AL,Wang ZC,De Nicolo A,et al.X chromosomal abnormalities in basal-like human breast cancer [J].Cancer cell,2006,9(2):121-132.
[19]Wang Dong,Lv Yingli,Li Xia,et al.Effects of replacing the unreliablecDNA microarray measurements on the disease classification based on gene expression profiles and functional modules[J],Bioinformatics,2006,22(23):2883-2889.
[20]Murthy SK,Kasif S,Salzberg S.A system for induction of oblique decision trees[J].J Artif Intell Res,1994,2:1 –32.
[21]Su Yang,Murali TM,Pavlovic V,et al.Rankgene:a program to rank genesfrom expression data [EB/OL]. http://genomics10.bu.edu/yangsu/rankgene/,2002-11-18/2009-9-17.
[22]Su Yang,Murali TM,Pavlovic V,et al.Training support vector machines in1D [EB/OL],http://genomics10.bu.edu/yangsu/rankgene/oned-svm.pdf,2002-9 -8/2009-9 -17.
[23]Ashburner M,Ball CA,Blake JA,et al.Gene ontology:tool forthe unification of biology gene ontology [J].Nature Genetics,2000,25(1):25-29.
[24]Rieck K,Laskov P,Sonnenburg S.Computation of similarity measures for sequential data using generalized suffix trees[J].The Journal of Machine Learning Research,2008,9:23-48.
[25]Kim TY,Lee HJ,Hwang KS,et al.Methylation of RUNX3 in various types of human cancers and premalignant stages of gastric carcinoma [J]. LaboratoryInvestigation,2004,84:479–484.
[26]Li Hongwei,Rauch T,Chen Zhaoxia,et al.The histone methyltransferase SETDB1 and the DNA methyltransferase DNMT3A interact directly and localize to promoters silenced in cancer cells[J],J Biol Chem,2006,281:19489-19500.
[27]Reinholz MM,Iturria SJ,Ingle JN,et al.Differential gene expression of TGF-beta family members and osteopontin in breast tumor tissue:analysis by real-time quantitative PCR[J].Breast Cancer Res Treat,2002,74(3):255 -269.