阮懷偉 胡松華 陳艷平 鄒樂
摘要:本文在基于知識本體庫的基礎(chǔ)上,提出了個性化用戶模型的興趣樹構(gòu)建方法,并在此基礎(chǔ)上提出了基于WordNeT的語義相似度計算方法,為個性化服務(wù)提供理論指導(dǎo),與其他方法相比,本文提出的方法可以為個性化用戶提供更為精準(zhǔn)的推送服務(wù)。
關(guān)鍵詞:本體;興趣模型;個性化;語義相似度
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)20-0183-03
1 領(lǐng)域本體知識庫和語義相關(guān)度的理論與方法
隨著計算機在信息化方面的應(yīng)用,人們對數(shù)字信息的處理需求越來越高。信息技術(shù)開始面臨知識表示、信息組織和軟件復(fù)用等各種新的挑戰(zhàn)。特別是互聯(lián)網(wǎng)的迅速發(fā)展,使得組織、管理和維護海量信息,為用戶提供有效的服務(wù)成了一個重要而緊迫的研究課題[1-4]。為了適應(yīng)信息化處理需求,出現(xiàn)了一個新的概念,本體(Ontology)作為一種能夠在知識層面和語義層面描述信息系統(tǒng)的建模工具,引起了國內(nèi)外許多研究者的關(guān)注,并被廣泛應(yīng)用于計算機等知識領(lǐng)域[5-7]。
動態(tài)數(shù)字語義標(biāo)引技術(shù)主要通過對本體資源的語義標(biāo)注,充分挖掘用戶感興趣和需要的資源,為用戶推送個性化的學(xué)習(xí)資源和學(xué)習(xí)計劃等。主要在于建立資源領(lǐng)域本體,對資源進行語義標(biāo)注、審核、加工等,利用本體建立實體與知識點的關(guān)聯(lián)關(guān)系,知識點與資源的關(guān)聯(lián)關(guān)系,最終為個性化推送服務(wù)。
在領(lǐng)域本體知識庫方面,當(dāng)前本體建模缺乏邏輯層知識表達的問題,一般方法是通過闡釋符號與符號過程的概念,聯(lián)系符號框架理論,將知識表達和關(guān)聯(lián)過程分為3個維度,即語法、語義、語用的應(yīng)用。另外一個是語義相關(guān)度計算,是信息檢索、文檔分類和聚類、推薦系統(tǒng)、機器學(xué)習(xí)等諸多領(lǐng)域,仍然存在一些關(guān)鍵技術(shù)亟待解決。
2 基于本體的個性化用戶模型—“興趣樹”構(gòu)建方法
在基于本體領(lǐng)域資源的基礎(chǔ)上,提出了一種基于本體的個性化用戶模型——興趣樹構(gòu)建的平衡方法。核心內(nèi)容是:基于已經(jīng)構(gòu)建了信息系統(tǒng)的領(lǐng)域本體,通過領(lǐng)域本體中的概念關(guān)系描述用戶模型,并選擇用戶模型中最廣泛的“直接關(guān)系”和“對等關(guān)系”,從而形成用戶模型,一棵樹狀的“興趣樹”?!芭d趣樹”的具體思想是在構(gòu)建良好的領(lǐng)域本體的基礎(chǔ)上為用戶提供固定的興趣點,然后分析用戶的URL屬性,并利用屬性中包含的概念構(gòu)造用戶興趣樹[8-10]。構(gòu)建的用戶模型以用戶個人信息和用戶興趣樹的形式呈現(xiàn)。用戶模型的具體構(gòu)建過程如圖1所示。
3 基于WordNeT的語義相似度計算方法
語義相似度的計算需要先確定語義信息的含義,并使用各種語義信息,包括距離、信息系數(shù)IC(Information Coefficient)、深度、語義關(guān)系和概念特征。距離是最簡單、最直觀的語義信息。在現(xiàn)有的研究中,都設(shè)置了所有的混合語義相似度。相似度的計算方法利用距離的語義信息進行計算。本文提出的計算方法也是一種距離相關(guān)計算方法。該距離分為江提出的實際物理距離和語義距離[11-12]。本文提出了一種新的語義相似度計算方法:
[Sim(c1,c2)=e-(α×L(path)+β×L(IC))] (1)
式中的參數(shù)說明如下,其中[L(IC)]為與信息系數(shù)IC有關(guān)的函數(shù),[L(path)]為最短路徑距離相關(guān)的函數(shù),和語義距離相關(guān)的函數(shù),[α]和[β]為參數(shù),參數(shù)范圍為[α>0],[β>0]。[L(IC)]與Jiang定義的語義距離公式相同,即:
[L(IC)=IC(c1)+IC(c2)-2×IC(LCS(c1,c2))] (2)
其中[IC(c1)]和[IC(c2)]為分別表示本體概念[c1],[c2]的IC值,[LCS(c1,c2)]為[c1],[c2]的公共包含,[IC(LCS(c1,c2))]為概念[c1],[c2]的最小公共包含IC值。公式中的所有IC的計算方法均使用新的IC計算方法。
為了確定最短路徑距離[L(path)]對語義相似度的影響,本文給出如下兩種[L(path)]的計算方法:
(1)方法1:
[L(path)=Distance(c1,c2)2×Depthmax] (3)
(2)方法2:
[L(path)=log(Distance(c1,c2)+1)log(2×Depthmax+1)] (4)
其中[Distance(c1,c2)]表示兩個概念結(jié)點[c1],[c2]的最短路徑距離,[Depthmax]為WordNet的最大深度。在計算IC的過程中,使用了諸如深度和密度等語義信息,在語義相似度的計算中使用最短路徑距離和深度,因此所提出的方法屬于混合語義相似度計算方法[13]。
4 個人偏好模型構(gòu)建和個性化推送服務(wù)
4.1 個人偏好模型構(gòu)建
根據(jù)語義本體和相似度計算方法,個人偏好模型知識來源如圖2所示,分為5個步驟:
1) 首先根據(jù)個人知識空間、個人顯性信息、個人隱性信息構(gòu)建個人偏好模型;
2) 基于個人偏好模型,在教材資源、圖書資源、試題資源和視音資源的支持下,進行基于偏好、知識點和主題的資源聚合;
3) 然后進行基于偏好的、面向不同用戶和不同主題的個性化出版;
4) 接著偏好統(tǒng)計分析;
5) 最后優(yōu)化個人偏好信息和偏好模型,從而實現(xiàn)后續(xù)的個性化出版優(yōu)化。
從圖2可以看出,主要分為5個部分,分別為:個人信息空間,個人知識空間,個人顯性信息,個人隱性信息,個人偏好信息。各部分的具體功能為:
1) 個人知識空間:個人知識空間記錄學(xué)生在當(dāng)前階段已經(jīng)掌握的知識或者技能。
2) 個人顯性信息:顯性信息是指用戶注冊系統(tǒng)時所填寫的信息,例如姓名、年級、聯(lián)系方式等。
3) 個人隱性信息:隱性信息是指用戶在學(xué)習(xí)過程中對某個知識點學(xué)習(xí)頻率、學(xué)習(xí)時間等網(wǎng)絡(luò)日志的記錄以及用戶在學(xué)習(xí)過程中對不同資源類型(如視頻、文檔等)使用度等。
4) 個人偏好信息:通過對用戶的顯性信息以及隱性信息進行挖掘分析客戶的偏好信息。
將圖中的個人知識空間、顯性信息、隱性信息構(gòu)成個人的偏好信息,利用偏好信息構(gòu)建個人偏好模型。個人偏好模型構(gòu)建的流程如圖3所示。
個人偏好模型構(gòu)建的流程包括:
1) 用戶需要創(chuàng)建個人賬戶,注冊個人基本信息,并可以隨時修改自己的信息資料,生成個人顯性信息,并初始化成用戶偏好信息;
2) 然后通過網(wǎng)絡(luò)日志記錄用戶的學(xué)習(xí)行為,從而挖掘出用戶的隱性信息,用戶顯性信息與隱性信息構(gòu)成偏好信息;
3) 最后通過用戶顯性信息與隱性信息的不斷變化來更新用戶偏好信息,進而形成用戶的偏好模型。
4.2 基于個人偏好的資源聚合
在構(gòu)建了用戶偏好模型后,就可以對基于偏好的資源進行聚合,其聚合過程如圖4所示。
基于偏好的資源整合具體流程為:
1) 用戶登錄后,系統(tǒng)會自動讀取用戶的偏好模型;
2) 根據(jù)用戶的偏好信息讀取已經(jīng)標(biāo)注的試題、教材、圖書和視音頻等資源信息;
3) 若資源符合偏好模型則進行資源聚合,如果不是則繼續(xù)讀取資源;
4) 當(dāng)所有的資源都已經(jīng)讀取完畢則結(jié)束,此時基于偏好的資源聚合過程完成。
4.3 基于用戶偏好的個性化資源推送服務(wù)
根據(jù)不同用戶的偏好模型推薦相應(yīng)的資源,以使得用戶能夠及時有效的獲得自己感興趣的資源。例如用戶A偏好于視頻類資源,用戶B喜歡文檔類的資源,系統(tǒng)就分別推薦相應(yīng)所偏好的資源,而不是由系統(tǒng)統(tǒng)一的推送同一類資源。
5 結(jié)論
本文首先介紹了國內(nèi)外領(lǐng)域本體知識庫的相關(guān)理論與方法。接著,具體闡述了構(gòu)建用戶模型和構(gòu)建領(lǐng)域本體的“興趣樹”構(gòu)建方法的相關(guān)理論。然后基于已有的WordNet語義相似度計算方法,提出了一種基于混合式WordNeT的語義相似度計算方法。最后,本文對所構(gòu)建的用戶模型和語義相似度計算方法,用于用戶興趣模型的建立和個性化資源聚合服務(wù),并結(jié)合具體實例論證所構(gòu)建的用戶模型和語義計算度的可行性。
參考文獻:
[1] 曹恬,周麗,張國煊.一種基于詞共現(xiàn)的文本相似度計算[J].計算機工程與科學(xué),2007(3):52-53.
[2] 潘謙紅,王炬,史忠植.基于屬性論的文本相似度計算[J].計算機學(xué)報,1999(6):651-655.
[3] 戴弘寧,文貴華,丁月華,等.非結(jié)構(gòu)化數(shù)據(jù)的可視化編輯系統(tǒng)[J].計算機應(yīng)用研究,2003(6):75-76.
[4] 尹坤,尹紅風(fēng),楊燕,賈真.基于Sim Rank的百度百科詞條語義相似度計算[J].山東大學(xué)學(xué)報:工學(xué)版,2014(3):29-35.
[5] 于東,荀恩東.基于Word Embedding語義相似度的字母縮略術(shù)語消歧[J].中文信息學(xué)報,2014(5):51-59.
[6] 吳奎,周獻中,王建宇,趙佳寶. 基于貝葉斯估計的概念語義相似度算法[J].中文信息學(xué)報,2010,02:52-57.
[7] 蔡圓媛,盧葦.基于低維語義向量模型的語義相似度度量[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2016(9):719-726.
[8] 魏韡,向陽,陳千.計算術(shù)語間語義相似度的混合方法[J].計算機應(yīng)用,2010(6):1668-1670.
[9] 曾琦,周剛,蘭 明敬,等.一種多義詞詞向量計算方法[J].小型微型計算機系統(tǒng),2016(7):1417-1421.
[10] 李青,陳陽,謝浩然,等.一種基于文本相似度矩陣運算的非結(jié)構(gòu)化海量投訴數(shù)據(jù)分類算法[J].計算機工程與科學(xué),2012(1):103-107.
[11] Mihalcea R,Corley C,Strapparava C.Corpus-based and Knowledge-based Measures of Text Semantic Similarity[C]//National Conference on Artificial Intelligence and the Eighteenth Innovative
Applications of Artificial Intelligence Conference,July 16-20,2006,Boston, Massachusetts, Usa. DBLP, 2006:775-780.
[12] Thomas K Landauer,Peter W.Foltz,Darrell Laham.An introduction to latent semantic analysis[J].Discourse Processes,1998,25(2-3):259-284.
[13] Gabrilovich E,Markovitch S.Wikipedia-based Semantic Interpretation for Natural Language Processing[J].Journal of Artificial Intelligence Research,2014,34(4):443-498.