陳偉雄,楊華健,周澤東,張 明
(韶關(guān)學(xué)院土木工程學(xué)院,廣東 韶關(guān) 512005)
學(xué)者們對礦物的構(gòu)造判別圖已經(jīng)研究了四十多年,構(gòu)造背景判別圖在某種程度上因受時間、空間和地域等因素的局限,已經(jīng)不能適應(yīng)大數(shù)據(jù)時代下帶來的新挑戰(zhàn)。近年來,劉欣雨、焦守濤等一批學(xué)者致力于對地球化學(xué)數(shù)據(jù)庫的挖掘研究,將地質(zhì)學(xué)問題與地球化學(xué)元素緊密結(jié)合起來,為地質(zhì)學(xué)的研究提供了一個新的思路。
GEOROC數(shù)據(jù)庫是大陸中地質(zhì)礦物地球化學(xué)數(shù)據(jù)查詢平臺,由德國Max Planck化學(xué)研究所的Sarbas博士研究小組建設(shè)和維護(hù),該庫收集了大陸地質(zhì)礦物的地理位置,經(jīng)緯度,礦石結(jié)構(gòu)和礦石類型,分析方法,實(shí)驗(yàn)室,參考資料以及參考文獻(xiàn)等信息。GEOROC數(shù)據(jù)庫還和PetDB、PANGAEA等數(shù)據(jù)庫具有緊密的聯(lián)系。
從GEOROC數(shù)據(jù)庫中提取了地質(zhì)礦物的地球化學(xué)數(shù)據(jù)41360件,礦石屬性包括構(gòu)造背景,經(jīng)緯度,樣品名稱,主量元素(SIO2(WT%)、TIO2(WT%)等34個),微量元素(LI(PPM)、BE(PPM)等75個)等。
本文對數(shù)據(jù)的處理從客觀出發(fā),以確保數(shù)據(jù)清洗模型的復(fù)雜性和分析結(jié)果的準(zhǔn)確性之間進(jìn)行平衡。
①剔除SiO2<52%和SiO2>63%的數(shù)據(jù)。②剔除K2O>8且Na2O<2%的數(shù)據(jù),排除煌斑巖對結(jié)果的干擾。③剔除Ga<21ppm和Ce<75ppm的數(shù)據(jù)。④刪除各屬性對應(yīng)的樣品件數(shù)小于總樣品件數(shù)41360的45%的屬性。刪除異常值和空缺值。
利用經(jīng)緯度數(shù)據(jù),在MAPGIS軟件上統(tǒng)計(jì)得到七種構(gòu)造背景下的地質(zhì)礦物的空間分布,便于分析不同構(gòu)造背景的地質(zhì)礦物在全球的分布特征。
空間統(tǒng)計(jì)結(jié)果表明:匯聚邊緣地質(zhì)礦物的數(shù)量最多,分布范圍較廣,主要分布在科迪勒拉山系、日本、西印度群島、勘察加半島,還有一部分分布在雅加達(dá)爪哇島、地中海沿岸、阿留申群島等地區(qū),說明匯聚邊緣礦物質(zhì)多形成于大洋板塊與大陸板塊交界處,在板塊交界處地質(zhì)比較活躍。
我們繼續(xù)進(jìn)行深入的研究,根據(jù)數(shù)據(jù)二次清洗后得到的28個屬性(經(jīng)度、緯度、SiO2(WT%)、V(PPM)等)數(shù)據(jù)集,再剔除兩兩變量間的皮爾遜系數(shù)大于90%的相似屬性(即'CE(P PM)','ND(PPM)','SM(PPM)'),最后按地質(zhì)礦物的七種構(gòu)造背景,利用K-Means聚類算法將屬性特征數(shù)據(jù)分成七類。將聚類的結(jié)果以雷達(dá)圖展現(xiàn)出來。從聚類結(jié)果雷達(dá)圖可以推斷:對于礦物質(zhì)中的微量元素地球化學(xué)特征為富集大離子親石元素而虧損高場強(qiáng)元素(李平等,2011),大離子親石元素多含于一般地質(zhì)構(gòu)造礦物中,且具有不相容性,高場強(qiáng)元素留在源區(qū)的殘余固相中,究其原因,這些元素地球化學(xué)性質(zhì)一般較穩(wěn)定,不易受環(huán)境變化影響,使得礦石在一定程度上繼承源區(qū)的化學(xué)特征。雷達(dá)圖中七類地質(zhì)礦物構(gòu)造背景較為突出的大離子親石元素有Rb、Sr、Ba,高場強(qiáng)元素有Nb、Th,可以從這些元素去分析新的構(gòu)造背景與元素的潛在關(guān)系。
社區(qū)是一個比較含糊的概念,本文只給出了一個定性的刻畫。社區(qū)是一個子圖,包含頂點(diǎn)和邊。社區(qū)的特點(diǎn)是同一社區(qū)內(nèi)的節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接很緊密,而社區(qū)與社區(qū)之間的連接比較稀疏(Newman and Girvan,2014),而社區(qū)發(fā)現(xiàn)算法可以用來發(fā)現(xiàn)網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),可以看作一種廣義的聚類算法。
一個節(jié)點(diǎn)代表一個構(gòu)造背景,節(jié)點(diǎn)與節(jié)點(diǎn)之間通過邊連接,所有邊都是無向的,這意味著一個構(gòu)造背景與另一個構(gòu)造背景之間不是單向關(guān)系,而是雙向關(guān)系。由算法原理和社區(qū)發(fā)現(xiàn)圖可將類別2、洋底高原、海山構(gòu)造背景劃分為一個社區(qū);類別5、大陸板、太古宙克拉通構(gòu)造背景劃分為一個社區(qū);類別0、類別1、類別4、大陸板內(nèi)、太古宙克拉通、裂谷、匯聚邊緣構(gòu)造背景另外劃分為一個社區(qū)。類別3、類別6和大陸溢流構(gòu)造背景劃分為一個社區(qū),挖掘該社區(qū)內(nèi)部的相關(guān)關(guān)系,發(fā)現(xiàn)類別3的地質(zhì)礦物的主量元素MgO、微量元素Cr、Ni與類別6的礦物主量元素K2O、微量元素Th、Nb、Rb在原有大陸溢泥質(zhì)礦物構(gòu)造背景上可以明顯區(qū)分于其它構(gòu)造背景。
本文是在未考慮GEOROC數(shù)據(jù)庫劃分的構(gòu)造背景的前提下,以地化元素進(jìn)行聚類劃分的七個潛在類別(即0-6類別)進(jìn)行的,進(jìn)行逆向推導(dǎo)得出的結(jié)論,可以視為一種后驗(yàn)過程,許多本質(zhì)聯(lián)系需要進(jìn)一步的研究,可能有許多問題需要地球化學(xué)專家的研究和解釋。
極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是一類基于前饋神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法,其最大特征為隱含層節(jié)點(diǎn)參數(shù)可以是隨機(jī)或人為設(shè)定的,且不需要經(jīng)過調(diào)整,不同的隱含層節(jié)點(diǎn)可以有不同的映射函數(shù)(如高斯函數(shù),徑向基函數(shù)等),學(xué)習(xí)過程僅需計(jì)算輸出的權(quán)值。ELM具有學(xué)習(xí)效率高和泛化能力強(qiáng)的優(yōu)點(diǎn),被廣泛應(yīng)用于分類、回歸等特征學(xué)習(xí)等問題中。
支持向量機(jī)(Support Vector Machine,SVM)是一類按監(jiān)督學(xué)習(xí)方式對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對學(xué)習(xí)樣本求解的最大邊距超平面。算法總能尋找到一個最優(yōu)超平面對樣本的不同類別進(jìn)行劃分,隨著樣本類別的增加,平面可以上升到高度曲面,從而映射回原特征空間實(shí)現(xiàn)精準(zhǔn)分類。SVM還具有小樣本最優(yōu)學(xué)習(xí)器的著稱。
對最終建模數(shù)據(jù)進(jìn)行統(tǒng)計(jì)得到匯聚邊緣構(gòu)造背景的樣本數(shù)據(jù)量為4153件,而洋底高原構(gòu)造背景的樣本數(shù)據(jù)量為6件,七種不同的構(gòu)造背景樣本數(shù)量占比具體如下圖所示,不難發(fā)現(xiàn),匯聚邊緣樣本數(shù)據(jù)量占到了總數(shù)據(jù)量的70.2%,遠(yuǎn)大于其他各類構(gòu)造背景的數(shù)據(jù)量之和,而洋底高原的樣本數(shù)據(jù)量遠(yuǎn)小于總數(shù)據(jù)量的1.0%,如果將全部數(shù)據(jù)都進(jìn)行機(jī)器學(xué)習(xí),務(wù)必會造成極大的誤差,即匯聚邊緣構(gòu)造背景的學(xué)習(xí)較于其他構(gòu)造背景過于充分,機(jī)器學(xué)習(xí)分類時有理由,即大概率偏向于匯聚邊緣,對于數(shù)據(jù)量僅有0.1%的洋底高原,再好的機(jī)器學(xué)習(xí)也幾乎不可能將所屬該構(gòu)造背景的樣本預(yù)測出來。
為此,根據(jù)數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的特點(diǎn),因?yàn)檠蟮赘咴瓨颖緮?shù)據(jù)量過少,本文不對此構(gòu)造背景進(jìn)行學(xué)習(xí)預(yù)測,即只研究其它六種構(gòu)造背景的預(yù)測分類。以各類構(gòu)造背景被機(jī)器學(xué)習(xí)的公平為原則,隨機(jī)選取六種構(gòu)造背景的樣本數(shù)據(jù)各76件,共456件樣本數(shù)據(jù)。本文將從各類構(gòu)造背景的樣本數(shù)據(jù)中,各隨機(jī)抽取12件的樣本數(shù)據(jù)作為測試集。最終得到訓(xùn)練集數(shù)據(jù)384件(84.2%),測試集數(shù)據(jù)72件(16.8%)。
分別利用極限學(xué)習(xí)機(jī)和支持向量機(jī)兩種機(jī)器學(xué)習(xí)方法對地質(zhì)礦物的六種構(gòu)造背景進(jìn)行學(xué)習(xí)預(yù)測,學(xué)習(xí)預(yù)測的混淆矩陣圖和樣本實(shí)際類別與預(yù)測類別對比如圖1圖2所示。
某次預(yù)測結(jié)果顯示,支持向量機(jī)對地質(zhì)礦物的預(yù)測效果優(yōu)于極限學(xué)習(xí)機(jī),極限學(xué)習(xí)機(jī)將匯聚邊緣構(gòu)造背景類別的12件測試數(shù)據(jù)全部成功預(yù)測出來,而支持向量機(jī)不但對匯聚邊緣構(gòu)造背景類別預(yù)測精準(zhǔn),而且對大陸溢流、太古宙克拉通構(gòu)造背景類別也全部成功預(yù)測出來。ELM和SVM均成功預(yù)測出了8件裂谷構(gòu)造背景樣本數(shù)據(jù)和11件海山構(gòu)造背景樣本數(shù)據(jù)。
其中,對于裂谷構(gòu)造背景樣本數(shù)據(jù),ELM將1件數(shù)據(jù)錯誤地預(yù)測給了匯聚邊緣類別,將3件數(shù)據(jù)錯誤地預(yù)測給了大陸板內(nèi)類別;SVM將2件數(shù)據(jù)錯誤地預(yù)測給了匯聚邊緣類別,將1件數(shù)據(jù)錯誤地預(yù)測給了大陸板內(nèi)類別和將1件數(shù)據(jù)錯誤地預(yù)測給了太古宙克拉通類別。
總體上來說,對于地質(zhì)礦物六種構(gòu)造背景的預(yù)測分類,SVM以91.7%的識別準(zhǔn)確度優(yōu)于ELM的83.7%。但這并不意味著ELM一定比SVM的預(yù)測分類差,因?yàn)樽罱K得到的有效地質(zhì)建模數(shù)據(jù)還是非常有限的,ELM可能學(xué)習(xí)訓(xùn)練不夠充分。
圖1 ELM的混淆矩陣圖
圖2 SVM的混淆矩陣
因此,在各樣本數(shù)據(jù)量有限的條件下,用支持向量機(jī)對地質(zhì)礦物的六種構(gòu)造背景進(jìn)行預(yù)測是可行的,進(jìn)一步體現(xiàn)了支持向量機(jī)在小樣本預(yù)測分類中的優(yōu)越性。
本文通過對GEOROC數(shù)據(jù)庫中地質(zhì)礦物的地球化學(xué)數(shù)據(jù)集(41360件)進(jìn)行預(yù)處理(數(shù)據(jù)清洗),空間分布、聚類分析和社區(qū)發(fā)現(xiàn)的可視化分析以及利用ELM和SVM兩種機(jī)器學(xué)習(xí)方法對構(gòu)造背景進(jìn)行智能預(yù)測判別后得出以下重要結(jié)論:
①通過對地質(zhì)礦物28個屬性K-Means聚類得到的雷達(dá)圖進(jìn)行分析,結(jié)合學(xué)術(shù)界的研究得出,地質(zhì)礦物的聚類可視化效果比較明顯,地質(zhì)礦物大離子親石Rb、Sr、Ba元素富集與高場強(qiáng)元素Nb、Th虧損地化特征突出。②本文采用大數(shù)據(jù)思維,在建模數(shù)據(jù)有限的情況下,利用支持向量機(jī)對地質(zhì)礦物的六種構(gòu)造背景進(jìn)行預(yù)測判別,識別準(zhǔn)確度高達(dá)91.7%。充分說明支持向量機(jī)對礦物的構(gòu)造背景進(jìn)行識別預(yù)測是可行的。