一種基于分布式rough本體的語義相似度計算方法

2014-05-26 06:32:32常寶嫻陳瑋瑋李素娟

揚州大學學報(自然科學版) 2014年1期

關(guān)鍵詞：子域三元組謂語

常寶嫻，陳瑋瑋，李素娟

（南京工業(yè)大學理學院，南京 211816）

一種基于分布式rough本體的語義相似度計算方法

常寶嫻，陳瑋瑋，李素娟＊

（南京工業(yè)大學理學院，南京 211816）

針對傳統(tǒng)的語義相似度計算方法缺少相應(yīng)領(lǐng)域本體和精確知識支撐等缺陷，提出一種基于分布式rough本體的語義相似度計算方法.通過半自動構(gòu)建領(lǐng)域本體保證語義相似度計算的準確度，采用rough的上下近似提高語義相似度計算的精確性，并通過實例驗證了該算法的有效性.結(jié)果表明：該文方法不僅可減弱對領(lǐng)域?qū)＜业囊蕾?，而且還能大幅提高語義相似度計算的查全率和準確率.

rough本體；語義相似度；分布式；遠程教育

互聯(lián)網(wǎng)作為人們獲取信息的重要渠道，其規(guī)模在不斷擴大，如何提高信息的準確度成為目前研究的熱點之一.針對現(xiàn)有的網(wǎng)絡(luò)信息難以運用計算機進行處理的現(xiàn)狀，Bemers－Lee［1－2］提出了語義網(wǎng)的概念.而作為語義網(wǎng)基礎(chǔ)的本體則采用了規(guī)范化語言對概念和關(guān)系進行形式化說明，使得計算機理解及互操作成為可能［3－4］.與基于語法的信息檢索不同，本體在信息檢索中的應(yīng)用能夠顯著提高檢索的精確率和返回率［5］.本體信息檢索領(lǐng)域中概念的語義相似度計算起著重要的作用.語義相似度的計算通過對本體要素的語義距離或者貼近度的度量，能綜合評價本體的復用及重用的可能性，也可作為本體融合與集成等任務(wù)的前期評估［6］.近年來，國內(nèi)外出現(xiàn)的語義相似度計算的相關(guān)研究成果大多根據(jù)某種分類體系來計算，或利用大規(guī)模的語料庫進行統(tǒng)計，如李鵬等［7］提出基于語義詞典的樹狀層次結(jié)構(gòu)中的路徑長度計算語義相似度；夏天［8］提出基于詞語空間向量模型統(tǒng)計并計算特征詞向量間的相似度.然而，由于分類體系受主觀因素影響較大，難以反映客觀性能，語料庫統(tǒng)計法則因依賴于語料庫的優(yōu)劣而存在數(shù)據(jù)稀疏的問題，并伴有噪聲干擾；因此，Slowinski［9］，Ishizu［10］等提出利用rough集擴展本體，以rough關(guān)系作為概念的上下近似，從原始語義和數(shù)據(jù)層面規(guī)避了主觀性和稀疏性等問題.本文應(yīng)用rough本體改善基于經(jīng)典本體的信息檢索方法，探討了rough本體的構(gòu)建、計算、匹配等關(guān)鍵技術(shù)，采用分布式計算方法從現(xiàn)有網(wǎng)頁頁面提取并構(gòu)建rough領(lǐng)域本體，建立rough本體語義相似度計算模型，設(shè)計相關(guān)語義相似度計算算法，并通過遠程教育領(lǐng)域語義相似度的計算驗證該方法的可行性和有效性.

1 基于分布式rough本體的語義相似度計算

基本步驟：首先根據(jù)基于主題相似度判定的垂直搜索引擎框架Nutch算法從初始地址集合中搜集出與研究主題相關(guān)的網(wǎng)頁集合，然后采用自然語言處理（natural language processing，NLP）處理網(wǎng)頁內(nèi)容，得出資源描述框架（resource description framework，RDF）數(shù)據(jù)并存入已設(shè)計的分布式非關(guān)系數(shù)據(jù)庫HBASE（Hadoop database），最后通過本文語義相似度計算算法計算概念間的語義相似度.

1.1 Nutch垂直搜索

采用Nutch搜索引擎框架，有針對性地建立初始網(wǎng)頁地址集，利用Nutch垂直搜索算法對網(wǎng)頁進行抓取，創(chuàng)建動態(tài)判定矩陣

進行主題相關(guān)性識別，其中wURL（u）為頁面u對應(yīng)的地址的權(quán)值，wCLK（u）為頁面u的點擊次數(shù)對應(yīng)的權(quán)值.wURL（u）＝w（u）［δ＋（1－δ）S（T，Q）］，w（u）為頁面的PageRank值，S（T，Q）為所得鏈接文本T和主題詞集Q的相似度，δ為調(diào)整參數(shù)，一般取0.4～0.8.

1.2 NLP 文本處理

資源描述框架可通過斷言三元組表示為

下文簡稱SPO.斷言的主語必須通過通用資源標識符（uniform resource identifier，URI）識別.謂語必須在詞匯表中定義，以便與詞匯表的名稱空間URI關(guān)聯(lián).賓語可以通過URI或文本識別，如果該賓語是另一個斷言的主語，則其必須通過URI識別.謂語的主要作用是定義主語和賓語之間的關(guān)系.通過NLP文本處理工具處理大量文本數(shù)據(jù)得到相應(yīng)的斷言三元組.

1.3 HBASE存儲

根據(jù)斷言三元組設(shè)計成不同的HBASE表結(jié)構(gòu)：SPO（主謂賓）、POS（謂賓主）與OSP（賓主謂）.3張表的表定義相同，每張表只包含一個簇列（分布式數(shù)據(jù)庫的訪問控制單元），每行數(shù)據(jù)均存儲在一個簇列中.區(qū)別在于所存放的數(shù)據(jù)不同，SPO表的分布式數(shù)據(jù)庫的主鍵是（主語，謂語），簇列中存放賓語值；POS表的分布式數(shù)據(jù)庫的主鍵是（謂語，賓語），簇列中存放主語值；OSP表的分布式數(shù)據(jù)庫的主鍵是（賓語，主語），簇列中存放謂語值.將NLP文本處理得到的斷言三元組，根據(jù)其位置關(guān)系及內(nèi)容存儲至對應(yīng)的SPO、POS或OSP表中.

1.4 基于rough本體的分布式語義相似度計算算法

將處理得到的SPO近似空間的整個個體全集U劃分成等價類集合，即以屬性集Q作為等價關(guān)系構(gòu)造近似空間所得到的結(jié)果.

定義1 對于概念A，其等價概念集R（A）為所有（S，P，O）三元組中P（O，S）＝A的概念的集合，即

定義2 概念A的上近似概念集

定義3 概念A的下近似概念集

定義4 概念A與概念B的粗糙相似度S（A，B）為概念A、B的上近似概念集的交集與概念A、B下近似概念集的交集之和，即

通過上下近似關(guān)系可進一步得到

其中sum（·）表示概念出現(xiàn)的次數(shù).

本文算法具體步驟如下：

步驟1 通過HBASE簇分割數(shù)據(jù)至HBASE每個子域.

步驟2 映射.

1）通過各個子域U i計算概念A，B的等價概念子集R i（A），Ri（B）；

2）參考定義2，3計算概念A，B在每個子域里的上下近似概念集R＊i（A），（A），R＊i（B），（B）；

3）計算在每個子域里概念A，B的相似度

步驟3 約簡.統(tǒng)計所有子域的相似度，加權(quán)求和得到概念A，B的相似度

2 實驗結(jié)果與分析

通過遠程教育領(lǐng)域的相關(guān)數(shù)據(jù)測試本文算法，初始網(wǎng)頁地址集合選取了教育領(lǐng)域內(nèi)比較著名的幾個網(wǎng)站，如中國現(xiàn)代遠程與繼續(xù)教育網(wǎng)、中國遠程教育網(wǎng)、21互聯(lián)遠程教育網(wǎng)、中國農(nóng)村遠程教育網(wǎng)等，將其網(wǎng)址作為Nutch搜索的輸入.抓取網(wǎng)站中涉及遠程教育資源的頁面，參考幾個主要網(wǎng)站中重要詞匯表選取遠程教育資源的重要概念，如課件、試題、教案、素材、問題、答疑、名師、測評、名師課堂、教學視頻、試聽課程、論文、備課筆記、聽課筆記、教育禮儀、教學媒體、學習難點、相似課程、隨堂問題、課堂反饋、輔導、信譽評價、學員動態(tài)、學生作品、教育評估、模擬考試、技能培訓等.根據(jù)Nutch垂直搜索算法，篩選出有效頁面1 235個，然后對這些頁面采用SPO三元組參考重要概念進行數(shù)據(jù)提取，得到37 542個三元組存入HBASE，依據(jù)公式（8）分為10個子域循環(huán)計算每兩個重要概念間的相似度，最后對每個子域的計算值進行加權(quán)求和得到每兩個概念的相似度，并與基于Word Net語義相似度［11］的計算結(jié)果進行比較，部分結(jié)果如表1所示.

由表1可見，本文算法相比簡單的關(guān)鍵詞匹配算法相似度較高，且在進行大量數(shù)據(jù)處理時效率較高.

表1 語義相似度計算結(jié)果Tab.1 Result of computation

3 結(jié)語

本文提出了一種基于分布式rough本體的語義相似度計算方法，其相似度計算準確率較一般語義相似度計算方法高，且處理效率高，為大量數(shù)據(jù)的查詢處理提供了新的方法，對于構(gòu)建領(lǐng)域本體具備較強的借鑒意義.然而，本文在進行SPO三元組數(shù)據(jù)提取時，未考慮謂語詞匯對概念的影響，一定程度上影響了概念間相似度的準確值，今后將在謂語詞匯對語義相似度的影響及領(lǐng)域本體的自動化構(gòu)建方面作進一步的研究.

［1］BERNERS－LEE T.Long live the web：a call for continued open standards and neutrality［J］.Sci Am，2010，303（6）：80－85.

［2］BERNERS－LEE T，HENDLER J，LASSILA O.The semantic web：a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities［J］.Sci Am，2001，284（5）：34－43.

［3］HITZLER P，HARMELEN F V.A reasonable semantic web［J］.Semant Web，2010，1（1）：39－44.

［4］孫茂圣，朱俊武，李斌.一個基于agent組織的web服務(wù)集成框架［J］.揚州大學學報：自然科學版，2009，12（4）：60－65.

［5］TAGARELLI A，GULLO F.Evaluating PageRank methods for structural sense ranking in labeled tree data［C］／／Proceedings of the 2nd International Conference on Web Intelligence，Mining and Semantics.New York，USA：ACM，2012：129－174.

［6］徐健，方安，洪娜.一種基于詞語相似度計算的本體映射方法［J］.現(xiàn)代圖書情報技術(shù)，2013，29（2）：36－42.

［7］李鵬，陶蘭，王弼佐.一種改進的本體語義相似度計算及其應(yīng)用［J］.計算機工程與設(shè)計，2007，28（1）：227－229.

［8］夏天.漢語詞語語義相似度計算研究［J］.計算機工程，2007，33（6）：191－194.

［9］SLOWINSKI R，GRECO S，MATARAZZO B.Rough sets in decision making［M］／／MEYERS R A.Encyclopedia of complexity and systems science.New York：Springer，2009：7753－7787.

［10］ISHIZU S，GEHRMANN A，NAGAI Y，et al.Rough ontology：Extension of ontologies by rough sets［M］／／HUTCHISON D，KANADE T，KITTLER J，et al.Lecture notes in computer science.Berlin：Springer－Verlag，2007，4557：456－462.

［11］ZHAO Lihua，ICHISE R.Aggregation of similarity measures in ontology matching［C］／／The 5th International Workshop on Ontology Matching.Shanghai：［s.n.］，2010：423－441.

A distributed computing method of semantic similarity based on rough ontology

CHANG Baoxian，CHEN Weiwei，LI Sujuan＊

（Coll of Sci，Nanjing Univ of Technol，Nanjing 211816，China）

This paper presents a distributed computing method of semantic similarity based on rough ontology and improves the precision according to ontology，the completeness according to the upper approximation and low approximation of rough theory.It also improves the independence according to distributed data processing.An experiment of gathering web pages automatically of remote education is used to construct domain rough ontology and compute the semantic similarity.The experiment shows that the algorithm not only reduces the dependence of domain experts，but also greatly enhances the rates of completeness and precision.

rough ontology；semantic similarity；distributed；remote education

TP 311.51

1007－824X（2014）01－0060－03

2013－09－05.＊聯(lián)系人，E－mail：lisujuan1978＠126.com.

江蘇省高校自然科學基金資助項目（11KJB520006）.

常寶嫻，陳瑋瑋，李素娟.一種基于分布式rough本體的語義相似度計算方法［J］.揚州大學學報：自然科學版，2014，17（1）：60－62，66.

（責任編輯林子）