基于本體的興趣模型和語義相似度計算方法的研究

2018-11-15 01:33:54阮懷偉胡松華陳艷平鄒樂

電腦知識與技術(shù) 2018年20期

阮懷偉胡松華陳艷平鄒樂

摘要：本文在基于知識本體庫的基礎(chǔ)上，提出了個性化用戶模型的興趣樹構(gòu)建方法，并在此基礎(chǔ)上提出了基于WordNeT的語義相似度計算方法，為個性化服務(wù)提供理論指導(dǎo)，與其他方法相比，本文提出的方法可以為個性化用戶提供更為精準(zhǔn)的推送服務(wù)。

關(guān)鍵詞：本體；興趣模型；個性化；語義相似度

中圖分類號：TP391 文獻標(biāo)識碼：A 文章編號：1009-3044（2018）20-0183-03

1 領(lǐng)域本體知識庫和語義相關(guān)度的理論與方法

隨著計算機在信息化方面的應(yīng)用，人們對數(shù)字信息的處理需求越來越高。信息技術(shù)開始面臨知識表示、信息組織和軟件復(fù)用等各種新的挑戰(zhàn)。特別是互聯(lián)網(wǎng)的迅速發(fā)展，使得組織、管理和維護海量信息，為用戶提供有效的服務(wù)成了一個重要而緊迫的研究課題[1-4]。為了適應(yīng)信息化處理需求，出現(xiàn)了一個新的概念，本體（Ontology）作為一種能夠在知識層面和語義層面描述信息系統(tǒng)的建模工具，引起了國內(nèi)外許多研究者的關(guān)注，并被廣泛應(yīng)用于計算機等知識領(lǐng)域[5-7]。

動態(tài)數(shù)字語義標(biāo)引技術(shù)主要通過對本體資源的語義標(biāo)注，充分挖掘用戶感興趣和需要的資源，為用戶推送個性化的學(xué)習(xí)資源和學(xué)習(xí)計劃等。主要在于建立資源領(lǐng)域本體，對資源進行語義標(biāo)注、審核、加工等，利用本體建立實體與知識點的關(guān)聯(lián)關(guān)系，知識點與資源的關(guān)聯(lián)關(guān)系，最終為個性化推送服務(wù)。

在領(lǐng)域本體知識庫方面，當(dāng)前本體建模缺乏邏輯層知識表達的問題，一般方法是通過闡釋符號與符號過程的概念，聯(lián)系符號框架理論，將知識表達和關(guān)聯(lián)過程分為3個維度，即語法、語義、語用的應(yīng)用。另外一個是語義相關(guān)度計算，是信息檢索、文檔分類和聚類、推薦系統(tǒng)、機器學(xué)習(xí)等諸多領(lǐng)域，仍然存在一些關(guān)鍵技術(shù)亟待解決。

2 基于本體的個性化用戶模型—“興趣樹”構(gòu)建方法

在基于本體領(lǐng)域資源的基礎(chǔ)上，提出了一種基于本體的個性化用戶模型——興趣樹構(gòu)建的平衡方法。核心內(nèi)容是：基于已經(jīng)構(gòu)建了信息系統(tǒng)的領(lǐng)域本體，通過領(lǐng)域本體中的概念關(guān)系描述用戶模型，并選擇用戶模型中最廣泛的“直接關(guān)系”和“對等關(guān)系”，從而形成用戶模型，一棵樹狀的“興趣樹”?！芭d趣樹”的具體思想是在構(gòu)建良好的領(lǐng)域本體的基礎(chǔ)上為用戶提供固定的興趣點，然后分析用戶的URL屬性，并利用屬性中包含的概念構(gòu)造用戶興趣樹[8-10]。構(gòu)建的用戶模型以用戶個人信息和用戶興趣樹的形式呈現(xiàn)。用戶模型的具體構(gòu)建過程如圖1所示。

3 基于WordNeT的語義相似度計算方法

語義相似度的計算需要先確定語義信息的含義，并使用各種語義信息，包括距離、信息系數(shù)IC（Information Coefficient）、深度、語義關(guān)系和概念特征。距離是最簡單、最直觀的語義信息。在現(xiàn)有的研究中，都設(shè)置了所有的混合語義相似度。相似度的計算方法利用距離的語義信息進行計算。本文提出的計算方法也是一種距離相關(guān)計算方法。該距離分為江提出的實際物理距離和語義距離[11-12]。本文提出了一種新的語義相似度計算方法：

[Sim（c1，c2）=e-（α×L（path）+β×L（IC））] （1）

式中的參數(shù)說明如下，其中[L（IC）]為與信息系數(shù)IC有關(guān)的函數(shù)，[L（path）]為最短路徑距離相關(guān)的函數(shù)，和語義距離相關(guān)的函數(shù)，[α]和[β]為參數(shù)，參數(shù)范圍為[α>0]，[β>0]。[L（IC）]與Jiang定義的語義距離公式相同，即：

[L（IC）=IC（c1）+IC（c2）-2×IC（LCS（c1，c2））] （2）

其中[IC（c1）]和[IC（c2）]為分別表示本體概念[c1]，[c2]的IC值，[LCS（c1，c2）]為[c1]，[c2]的公共包含，[IC（LCS（c1，c2））]為概念[c1]，[c2]的最小公共包含IC值。公式中的所有IC的計算方法均使用新的IC計算方法。

為了確定最短路徑距離[L（path）]對語義相似度的影響，本文給出如下兩種[L（path）]的計算方法：

（1）方法1：

[L（path）=Distance（c1，c2）2×Depthmax] （3）

（2）方法2：

[L（path）=log（Distance（c1，c2）+1）log（2×Depthmax+1）] （4）

其中[Distance（c1，c2）]表示兩個概念結(jié)點[c1]，[c2]的最短路徑距離，[Depthmax]為WordNet的最大深度。在計算IC的過程中，使用了諸如深度和密度等語義信息，在語義相似度的計算中使用最短路徑距離和深度，因此所提出的方法屬于混合語義相似度計算方法[13]。

4 個人偏好模型構(gòu)建和個性化推送服務(wù)

4.1 個人偏好模型構(gòu)建

根據(jù)語義本體和相似度計算方法，個人偏好模型知識來源如圖2所示，分為5個步驟：

1）首先根據(jù)個人知識空間、個人顯性信息、個人隱性信息構(gòu)建個人偏好模型；

2）基于個人偏好模型，在教材資源、圖書資源、試題資源和視音資源的支持下，進行基于偏好、知識點和主題的資源聚合；

3）然后進行基于偏好的、面向不同用戶和不同主題的個性化出版；

4）接著偏好統(tǒng)計分析；

5）最后優(yōu)化個人偏好信息和偏好模型，從而實現(xiàn)后續(xù)的個性化出版優(yōu)化。

從圖2可以看出，主要分為5個部分，分別為：個人信息空間，個人知識空間，個人顯性信息，個人隱性信息，個人偏好信息。各部分的具體功能為：

1）個人知識空間：個人知識空間記錄學(xué)生在當(dāng)前階段已經(jīng)掌握的知識或者技能。

2）個人顯性信息：顯性信息是指用戶注冊系統(tǒng)時所填寫的信息，例如姓名、年級、聯(lián)系方式等。

3）個人隱性信息：隱性信息是指用戶在學(xué)習(xí)過程中對某個知識點學(xué)習(xí)頻率、學(xué)習(xí)時間等網(wǎng)絡(luò)日志的記錄以及用戶在學(xué)習(xí)過程中對不同資源類型（如視頻、文檔等）使用度等。

4）個人偏好信息：通過對用戶的顯性信息以及隱性信息進行挖掘分析客戶的偏好信息。

將圖中的個人知識空間、顯性信息、隱性信息構(gòu)成個人的偏好信息，利用偏好信息構(gòu)建個人偏好模型。個人偏好模型構(gòu)建的流程如圖3所示。

個人偏好模型構(gòu)建的流程包括：

1）用戶需要創(chuàng)建個人賬戶，注冊個人基本信息，并可以隨時修改自己的信息資料，生成個人顯性信息，并初始化成用戶偏好信息；

2）然后通過網(wǎng)絡(luò)日志記錄用戶的學(xué)習(xí)行為，從而挖掘出用戶的隱性信息，用戶顯性信息與隱性信息構(gòu)成偏好信息；

3）最后通過用戶顯性信息與隱性信息的不斷變化來更新用戶偏好信息，進而形成用戶的偏好模型。

4.2 基于個人偏好的資源聚合

在構(gòu)建了用戶偏好模型后，就可以對基于偏好的資源進行聚合，其聚合過程如圖4所示。

基于偏好的資源整合具體流程為：

1）用戶登錄后，系統(tǒng)會自動讀取用戶的偏好模型；

2）根據(jù)用戶的偏好信息讀取已經(jīng)標(biāo)注的試題、教材、圖書和視音頻等資源信息；

3）若資源符合偏好模型則進行資源聚合，如果不是則繼續(xù)讀取資源；

4）當(dāng)所有的資源都已經(jīng)讀取完畢則結(jié)束，此時基于偏好的資源聚合過程完成。

4.3 基于用戶偏好的個性化資源推送服務(wù)

根據(jù)不同用戶的偏好模型推薦相應(yīng)的資源，以使得用戶能夠及時有效的獲得自己感興趣的資源。例如用戶A偏好于視頻類資源，用戶B喜歡文檔類的資源，系統(tǒng)就分別推薦相應(yīng)所偏好的資源，而不是由系統(tǒng)統(tǒng)一的推送同一類資源。

5 結(jié)論

本文首先介紹了國內(nèi)外領(lǐng)域本體知識庫的相關(guān)理論與方法。接著，具體闡述了構(gòu)建用戶模型和構(gòu)建領(lǐng)域本體的“興趣樹”構(gòu)建方法的相關(guān)理論。然后基于已有的WordNet語義相似度計算方法，提出了一種基于混合式WordNeT的語義相似度計算方法。最后，本文對所構(gòu)建的用戶模型和語義相似度計算方法，用于用戶興趣模型的建立和個性化資源聚合服務(wù)，并結(jié)合具體實例論證所構(gòu)建的用戶模型和語義計算度的可行性。

參考文獻：

[1] 曹恬，周麗，張國煊.一種基于詞共現(xiàn)的文本相似度計算[J].計算機工程與科學(xué)，2007（3）：52-53.

[2] 潘謙紅，王炬，史忠植.基于屬性論的文本相似度計算[J].計算機學(xué)報，1999（6）：651-655.

[3] 戴弘寧，文貴華，丁月華，等.非結(jié)構(gòu)化數(shù)據(jù)的可視化編輯系統(tǒng)[J].計算機應(yīng)用研究，2003（6）：75-76.

[4] 尹坤，尹紅風(fēng)，楊燕，賈真.基于Sim Rank的百度百科詞條語義相似度計算[J].山東大學(xué)學(xué)報：工學(xué)版，2014（3）：29-35.

[5] 于東，荀恩東.基于Word Embedding語義相似度的字母縮略術(shù)語消歧[J].中文信息學(xué)報，2014（5）：51-59.

[6] 吳奎，周獻中，王建宇，趙佳寶. 基于貝葉斯估計的概念語義相似度算法[J].中文信息學(xué)報，2010，02：52-57.

[7] 蔡圓媛，盧葦.基于低維語義向量模型的語義相似度度量[J].中國科學(xué)技術(shù)大學(xué)學(xué)報，2016（9）：719-726.

[8] 魏韡，向陽，陳千.計算術(shù)語間語義相似度的混合方法[J].計算機應(yīng)用，2010（6）：1668-1670.

[9] 曾琦，周剛，蘭明敬，等.一種多義詞詞向量計算方法[J].小型微型計算機系統(tǒng)，2016（7）：1417-1421.

[10] 李青，陳陽，謝浩然，等.一種基于文本相似度矩陣運算的非結(jié)構(gòu)化海量投訴數(shù)據(jù)分類算法[J].計算機工程與科學(xué)，2012（1）：103-107.

[11] Mihalcea R，Corley C，Strapparava C.Corpus-based and Knowledge-based Measures of Text Semantic Similarity[C]//National Conference on Artificial Intelligence and the Eighteenth Innovative

Applications of Artificial Intelligence Conference，July 16-20，2006，Boston， Massachusetts， Usa. DBLP， 2006：775-780.

[12] Thomas K Landauer，Peter W.Foltz，Darrell Laham.An introduction to latent semantic analysis[J].Discourse Processes，1998，25（2-3）：259-284.

[13] Gabrilovich E，Markovitch S.Wikipedia-based Semantic Interpretation for Natural Language Processing[J].Journal of Artificial Intelligence Research，2014，34（4）：443-498.