楊妮妮,李文超,劉海軍,2,3
(1.遼寧石油化工大學(xué),撫順 113001;2.南京大學(xué) 計算機軟件新技術(shù)國家重點實驗室,南京 210023;3.北京市輕紡機械機器視覺工程技術(shù)研究中心, 北京 100176)
隨著科學(xué)技術(shù)的不斷發(fā)展,計算機技術(shù)和通信技術(shù)在地球物理領(lǐng)域中得到廣泛和深入的應(yīng)用,物探技術(shù)方法也不斷改善和更新。及時了解國內(nèi)、外物探方法理論和勘查技術(shù)的最新進展,可以為礦產(chǎn)勘查和開發(fā)工作提供參考。目前因特網(wǎng)已經(jīng)成為全球最大的信息庫,包含著豐富的地球物理信息資源,是物探工作者跟蹤物探技術(shù)發(fā)展方向的重要途徑,但是現(xiàn)有的檢索系統(tǒng)大都采用基于全文檢索或是基于主題匹配的檢索方式[1],并不清楚用戶給出的檢索關(guān)鍵字所表達的真正含義是什么,缺乏對地球物理領(lǐng)域知識體系的理解,檢索結(jié)果片面不準確[2]。
針對通用信息檢索系統(tǒng)存在的缺點,將語義網(wǎng)、信息檢索技術(shù)和地球物理領(lǐng)域知識有效結(jié)合,提出了基于語義的地球物理信息檢索模型。實現(xiàn)了對地球物理領(lǐng)域的智能信息檢索,可以在網(wǎng)絡(luò)環(huán)境下進行有效的語義推理,就像一個地球物理領(lǐng)域的專家一樣對用戶的檢索過程做出指導(dǎo),不但能夠給出類似于傳統(tǒng)搜索引擎提供的符合字面的檢索結(jié)果,更能夠挖掘出地球物理領(lǐng)域信息較深層次的關(guān)系,實現(xiàn)對地球物理領(lǐng)域信息更準確、更全面地檢索,從而提高信息的查全率和準確率。
本體[3]是某領(lǐng)域內(nèi)的知識體系中概念及其關(guān)系的集合,通過本體,計算機能夠從語義角度對信息進行處理。地球物理本體描述了地球物理領(lǐng)域的知識概念及其之間的關(guān)系,包括元知識和知識實例。地球物理元知識用于描述地球物理領(lǐng)域內(nèi)常用的一些概念以及這些概念之間的關(guān)系。地球物理知識實例描述的是一個真實存在的具體的領(lǐng)域知識或關(guān)系,地球物理本體是實現(xiàn)地球物理專業(yè)信息檢索和信息集成的基礎(chǔ)。
本體的建模和語義描述是檢索系統(tǒng)的重要物質(zhì)基礎(chǔ),是進行語義相似性計算的前提。通用本體之間的相似性可以通過知網(wǎng)HowNet來完成,HowNet是由董振東和董強先生研發(fā)的一個知識庫,采用中文和英文兩種方式,它描述了概念,概念所具備的屬性,概念與概念之間的關(guān)系和屬性與屬性之間的關(guān)系[4]。
然而大多數(shù)地球物理領(lǐng)域的專業(yè)詞匯,例如“測井”,“電法”等,都無法在HowNet中直接查到,因而就無法去計算這些詞匯之間的相似程度。為了完成地球物理信息領(lǐng)域的本體相似性計算,需要根據(jù)該領(lǐng)域中的術(shù)語詞典,創(chuàng)建本領(lǐng)域的本體庫。為此采用了斯坦福大學(xué)開發(fā)的Protégé 4.1.0作為本體設(shè)計工具,按照構(gòu)建本體的一般步驟,對地球物理領(lǐng)域中常用的術(shù)語[5-7]進行了分析:
1)列出地球物理領(lǐng)域涉及到的詞匯(terms)。從信息檢索的角度出發(fā),摒棄了地球物理領(lǐng)域中一些細小的詞匯,例如“電壓”、“計數(shù)率”等。
2)對地球物理領(lǐng)域的詞匯分類、歸納,建立類(class)及其子類。在建立本體庫時,依據(jù)地球物理的方法及原理,將一級本體分為電法、測井、磁法、重力、彈性波法、熱法、核法;然后在一級本體的基礎(chǔ)上,按照概念間的包含關(guān)系劃分出二級本體、三級本體和四級本體等。
例如,將測井技術(shù)的概念分成三大類:測井方法、測井儀器和測井曲線,其中測井方法按所探測的巖石物理性質(zhì)或探測目的分為電測井、聲波測井、核測井、地層傾角測井、氣測井、地層測試測井、隨鉆測井、生產(chǎn)測井等幾個類別,每個類別繼續(xù)劃分,測井儀器分為電測井儀、磁法測井儀、聲波測井儀、核測井儀、重力測井儀、地震測井儀等,每種儀器繼續(xù)劃分。測井曲線分為國產(chǎn)測井和3700測井兩個系列,每個系列包含若干類別的測井曲線。圖1是在Protégé中建立的地球物理領(lǐng)域本體層次圖。
3)分析概念之間的知識聯(lián)系,為步驟2)中獲得的類添加part of、kind of、instance of和attribute of關(guān)系。根據(jù)實際需要,為詞匯添加實例,例如為“核測井儀”添加“CNLT5420補償中子測井儀”和“SNGR5410自然伽瑪能譜測井儀”等實例。
4)定義兩個對象屬性(Object Properties):“use”和“is-used-by”,來表示地球物理方法與地球物理儀器之間的使用關(guān)系,這兩個對象屬性互為逆屬性(Inverse properties)。例如對于電測井本體來說,“use”的Domain為“電測井”,“is-used-by”的Domain屬性值為“電測井儀器”,這樣就構(gòu)建了“電測井”和“電測井儀器”兩個類別之間的關(guān)系。
5)為本體類添加等價類(Equivalent Classes)即創(chuàng)建synonyms-of同義詞關(guān)系。某些詞匯是等價的,例如“電法測井”和“電測井”。表1給出了地球物理本體庫中抽象出的各種本體關(guān)系。
(6)將設(shè)計好的本體庫保存成RDF/XML格式文件。
圖1 Protégé中建立的本體層次圖(部分)Fig.1 Part of the ontology hierarchy diagram created in Protégé
關(guān)系含義示例part-of表示本體的整體與部分關(guān)系例如微電極測井曲線包括微梯度和微電位兩條曲線kind-of表示本體的上下位關(guān)系例如電測井與自然電位測井instance-of表示本體類與對象之間的實例關(guān)系例如ELOG測井儀是電測井儀器的一種attribute-of表示本體之間的描述關(guān)系例如視電阻率測井與電位差use 和is-used-by表示本體間使用和被使用關(guān)系例如核測井與核測井儀器synonyms-of表示本體之間的同義詞關(guān)系例如側(cè)向測井與屏蔽接地電阻法測井
計算本體之間的語義相似性是實現(xiàn)基于語義的地球物理檢索模型的關(guān)鍵技術(shù)之一。
根據(jù)研究發(fā)現(xiàn),影響兩個本體相似性的因素主要是兩個本體在本體樹中的語義距離,通常來說語義距離越小,其語義相似程度越高;相反語義相似程度低。另外,本體在本體樹中的層次,以及本體所在區(qū)域中本體的密集程度等也會影響到本體之間的相似程度。綜合這些因素,設(shè)計出地球物理本體相似性計算公式(1):
(1)
其中w1、w2為兩個本體;f(wi) =(wi的孩子數(shù)+1)/本體樹中的結(jié)點數(shù),表示wi所在區(qū)域的概念密度;CNL(w1,w2)為w1和w2的公共路徑長度;α∈(0,1)為調(diào)節(jié)因子,用于調(diào)節(jié)語義距離和區(qū)域密度對本體相似性的影響程度。
另外,本體之間的關(guān)系,part of、kind of、instance of和attribute of等也對本體之間的相似度具有影響,本體之間的關(guān)系稱為本體的語義相關(guān)性。如果兩個本體關(guān)系中包括上面的某種關(guān)系,則兩個本體的語義相關(guān)性為“1”,否則為“0”,由此得到地球物理本體的語義相關(guān)性計算公式(2):
(2)
在計算地球物理本體的相似性時,綜合考慮了本體的語義相似性和語義相關(guān)性兩方面,最終得到本體的相似性計算公式(3),其中β為調(diào)節(jié)因子:
sim(w1,w2)=isim(w1,w2)×β+rsim(w1,w2)×(1-β)
(3)
表2 部分本體相似性計算結(jié)果
為了測試地球物理本體相似性算法的有效性,設(shè)計了一個實驗。在Redhat Linux Enterprise 5.3操作系統(tǒng)下,采用JDK 1.6.0語言,選取地球物理中常用的術(shù)語和儀器設(shè)備,計算它們的相似性,結(jié)果如表2所示。因為“測井”與“電測井”、“電測井”與“自然電位測井”之間具有概念上的上下位關(guān)系,因而計算所得的相似性比較高。而“ELOG測井儀”與“1239型雙側(cè)向測井儀”都是電測井儀器的具體實例,因而它們之間的相似性,以及它們與“電測井”的相似性都比較高?!昂藴y井”與“ELOG測井儀”之間的相似性要比“電測井”與“ELOG測井儀”之間的相似性低得多。另外,“磁法”和“電測井”,“電測井”與“航空磁力儀”,“ELOG測井儀”與“航空磁力儀”,“ELOG測井儀”與“場強”等概念在本體層次樹上的語義距離比較遠,所以獲得的相似性也相對要小一些。
為了使用戶通過檢索系統(tǒng)查詢到所需要的信息,檢索系統(tǒng)首先要通過一個叫做網(wǎng)絡(luò)爬蟲的程序到Internet上去自動將與地球物理信息相關(guān)的頁面爬行到本地,形成網(wǎng)頁信息鏡像。
與通用的檢索系統(tǒng)不同,地球物理檢索系統(tǒng)查詢的主要是與本領(lǐng)域相關(guān)的信息集合,因此爬蟲在爬行頁面時需要對頁面中的內(nèi)容進行語義分析,僅獲取與本領(lǐng)域相關(guān)的頁面。當給定爬蟲一個初始種子頁面S={S0}之后,爬蟲首先要對種子頁面進行分析,從中找出所有的鏈接L={L1,L2,…,Ln},然后去分析每一個鏈接Li(i=1,2,…,n)的內(nèi)容是否與地球物理信息相關(guān),如果不相關(guān),則從L中去掉Li,即L=L-Li。如若相關(guān),就需要將頁面Li中對應(yīng)的鏈接Lij(j=1,2,…,m)加入到集合L中,如此往復(fù),直到L中的每一個頁面都被分析完。地球物理語義爬行的流程如圖2所示:
1)首先給出一組種子頁面S。
2)分析頁面結(jié)構(gòu)。
3)提取頁面中的鏈接路徑,放入待抓取URL隊列L中。
4)根據(jù)領(lǐng)域本體庫,分析待抓取URL是否與地球物理專業(yè)相關(guān),如果無關(guān)丟去該URL,否則交給網(wǎng)絡(luò)爬蟲。
5)網(wǎng)絡(luò)爬蟲將頁面爬行到本地。
6)爬行到本地的頁面被保存到網(wǎng)頁鏡像庫中,并對該頁面進行分析。
循環(huán)步驟1)至步驟6),直到待抓取URL隊列為空。
基于語義的地球物理信息檢索系統(tǒng)由語義爬行、網(wǎng)頁預(yù)處理、查詢擴展處理、信息檢索處理和查詢關(guān)鍵字推薦等幾個部分組成。語義爬蟲在本體庫的指導(dǎo)下將Internet上的網(wǎng)頁下載到網(wǎng)頁庫中,形成本地鏡像;網(wǎng)頁預(yù)處理模塊完成頁面清洗、計算PageRank、全文索引和索引倒排等工作;查詢處理模塊為用戶提供檢索接口,完成用戶輸入信息的分詞和獲取本體關(guān)鍵字等工作;信息檢索處理檢索網(wǎng)頁數(shù)據(jù)庫和對頁面排序;查詢關(guān)鍵字推薦模塊完成基于語義和數(shù)據(jù)挖掘的關(guān)鍵字推薦工作。地球物理信息語義檢索模型如圖3所示。
在Redhat Linux Enterprise 5.3平臺上,利用Tomcat 7作為Web服務(wù)器,Java為開發(fā)語言,實現(xiàn)了基于語義的地球物理信息檢索系統(tǒng)的主體功能。在文本框中輸入檢索關(guān)鍵字,點擊“搜索”按鈕后,檢索請求將會調(diào)用服務(wù)器端的腳本語言,對輸入的檢索信息進行過濾,將一些非法詞匯和標點符號等濾掉,然后進行分詞、同義詞匹配和檢索網(wǎng)頁鏡像數(shù)據(jù)庫等操作,最后將檢索結(jié)果排序后返回給用戶,系統(tǒng)檢索結(jié)果如圖4所示。頁面的最上方和最下方為搜索接口,方便用戶進一步檢索信息;頁面的中部是符合檢索條件的頁面鏈接,在排序后每10個為一組,顯示在一頁中,從結(jié)果中可以看到每個鏈接的Title、URL,檢索結(jié)果下方是由系統(tǒng)推薦給用戶的檢索關(guān)鍵字,最多10個。
圖2 地球物理語義爬行流程圖Fig.2 Geophysical semantic crawling process
為了對比本系統(tǒng)模型與通用搜索引擎檢索地球物理信息的不同效果,在Google搜索引擎中輸入與圖4相同的檢索關(guān)鍵字“電測井”,得到如圖5所示的檢索結(jié)果。對比圖4與圖5可以看出,由于通用搜索引擎進行信息檢索時采用基于關(guān)鍵字的匹配方式,也就是說搜索的信息中只要包含“電測井”中的全部或部分文字即可,不會對檢索關(guān)鍵字進行語義分析。雖然“電阻率測井”,“感應(yīng)測井”和“自然電位測井”等都是電測井的方法,但是因為在字面上和“電測井”不匹配,所以檢索結(jié)果中不會包含與之相關(guān)的鏈接,而本模型在進行信息檢索時,首先要根據(jù)建立的地球物理本體庫,對輸入的檢索關(guān)鍵字進行查詢擴展,將檢索關(guān)鍵字轉(zhuǎn)換為與“電測井”語義相關(guān)的本體后再進行查詢,所以從圖4中可以看到檢索結(jié)果中不但可以檢索出包含了“電測井”的信息,也可以找到包含“視電阻率法測井”,“雙感應(yīng)測井”和“普通電極系電阻率測井”等,在字面上不匹配,但語義相關(guān)的信息。
圖3 基于語義的地球物理信息檢索模型Fig.3 Semantic retrieval model for geophysical information
圖4 基于語義的地球物理信息檢索系統(tǒng)檢索結(jié)果頁面Fig.4 The retrieval results of semantic retrieval system for geophysical information
圖5 Google搜索引擎檢索結(jié)果頁面Fig.5 The retrieval results of google
為了解決通用信息檢索系統(tǒng)存在的缺點,在分析了地球物理領(lǐng)域信息特點的基礎(chǔ)上,建立了地球物理本體庫,并綜合考慮了本體語義距離和本體密集度等影響因素,提出了地球物理本體相似性計算方法,通過語義爬蟲將與地球物理信息相關(guān)的頁面爬行到本地,形成網(wǎng)頁信息鏡像,最終建立了一個基于語義的地球物理信息檢索系統(tǒng)模型。實現(xiàn)了對地球物理領(lǐng)域的智能信息檢索,在網(wǎng)絡(luò)環(huán)境下進行有效的語義推理,挖掘出地球物理領(lǐng)域信息深層次的關(guān)系,檢索結(jié)果更符合用戶心理預(yù)期。
參考文獻:
[1] 中國互聯(lián)網(wǎng)絡(luò)中心.第32次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[EB/OL]. http://www.cnnic.net.cn/gywm/xwzx/rdxw/rdxx/201307/W020130717431425500791.pdf (2013/12/28).
[2] 李彥,賈愛軍,占向輝,等.面向創(chuàng)新設(shè)計的多層次Web信息檢索研究[J]. 工程設(shè)計學(xué)報,2005,6(3):1-6.
[3] 鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報:自然科學(xué)版,2002,38(5):730-738.
[4] 董振東,董強.知網(wǎng)[EB/OL].http://www.keenage.com/zhiwang/c_zhiwang.html(2013/12/28)
[5] SYT 6139-2005.石油測井專業(yè)詞匯[S].北京:石油工業(yè)出版社,2005.
[6] 邵廣周.勘探地球物理專業(yè)英語術(shù)語匯編[M].西安:長安大學(xué)地測學(xué)院,2003.
[7] 陳俊生.英漢石油勘探詞典[M].北京:地質(zhì)出版社,1999.