虞 娟 (馬鞍山師范高等??茖W(xué)校軟件與食品工程系,安徽 馬鞍山243041)
電子商務(wù)推薦系統(tǒng)是解決電子商務(wù)基礎(chǔ)問題的重要方式,是目前國內(nèi)學(xué)者研究的熱點問題。目前常見推薦技術(shù)包括基于內(nèi)容過濾、協(xié)同過濾、基于人口統(tǒng)計、基于知識和基于效用等,其中協(xié)同過濾和基于內(nèi)容過濾技術(shù)在電子商務(wù)推薦系統(tǒng)中應(yīng)用最為廣泛,但仍存在推薦質(zhì)量依賴大量的歷史數(shù)據(jù)集等問題[1]。為了解決這些問題,國內(nèi)外學(xué)者開始研究將案例推理 (Case_based Reasoning,CBR)引入電子商務(wù)推薦系統(tǒng)中。文獻(xiàn) [2]以用戶項目評價為基礎(chǔ)對基于案例推理的協(xié)同過濾算法進(jìn)行了研究;文獻(xiàn)[3]根據(jù)案例推理特點提出了一種個性化推薦系統(tǒng)框架。盡管如此,對案例知識的表述仍不夠全面,影響了CBR在電子商務(wù)推薦系統(tǒng)中作用的發(fā)揮。本體技術(shù)作為一種工具解決了分布式異構(gòu)信息源的語義異構(gòu)問題,實現(xiàn)了信息源語義上的互操作,其在不同的領(lǐng)域可以闡述該領(lǐng)域內(nèi)的知識結(jié)構(gòu),包括概念和概念直接的關(guān)系[4]。因此,該技術(shù)已經(jīng)成為解決異構(gòu)信息共享、交換和集成最佳方法,并逐漸應(yīng)用到電子商務(wù)領(lǐng)域。將本體與CBR相結(jié)合可有效解決案例庫異構(gòu)、描述詞表不統(tǒng)一的問題。為此,筆者對基于本體和CBR的電子商務(wù)推薦系統(tǒng)進(jìn)行了研究。
基于本體和CBR的電子商務(wù)推薦系統(tǒng)總體架構(gòu)圖如圖1所示。該總體架構(gòu)分為應(yīng)用層、業(yè)務(wù)邏輯層和數(shù)據(jù)存儲層。業(yè)務(wù)邏輯層主要提供系統(tǒng)操作的界面,讓用戶可以根據(jù)自己的角色完成系統(tǒng)相應(yīng)操作。業(yè)務(wù)邏輯層主要由商務(wù)領(lǐng)域的本體建模、案例的表示和組織、集成推理系統(tǒng)和分析處理模塊組成,其功能是提取領(lǐng)域本體中抽象的語義要素對案例進(jìn)行表述并實現(xiàn)案例的檢索和推薦。數(shù)據(jù)存儲層主要實現(xiàn)數(shù)據(jù)的按類存儲并通過本體來優(yōu)化相應(yīng)的案例庫、規(guī)則庫、知識庫等?;谏鲜隹傮w架構(gòu)的電子商務(wù)推薦系統(tǒng)具有以下特點:①采用領(lǐng)域本體來規(guī)范概念模型,同時規(guī)范并統(tǒng)一了電子商務(wù)涉及到的概念和術(shù)語,為知識共享和重用奠定了基礎(chǔ)。②采用領(lǐng)域本體來定義電子商務(wù)的案例結(jié)構(gòu),以本體的概念樹層次結(jié)構(gòu)對案例建立分類索引,規(guī)范組織了案例的檢索和存儲。③基于領(lǐng)域本體抽取目標(biāo)案例屬性,根據(jù)不同屬性分類計算相似度,最終得到整體相似度的檢索策略,從而有助于提高案例檢索的準(zhǔn)確率。
該模塊主要負(fù)責(zé)對電子商務(wù)相關(guān)領(lǐng)域知識進(jìn)行本體建模和維護(hù),例如商品的分類體系、商品的屬性描述體系、服務(wù)的特征體系、用戶的特征體系等。在該系統(tǒng)中,上述領(lǐng)域知識均用本體進(jìn)行建模和保存。
圖1 基于本體和CBR的推薦系統(tǒng)框架
系統(tǒng)中的案例庫是實現(xiàn)智能推薦的基礎(chǔ),智能推薦的有效性在很大程度上取決于案例庫的案例質(zhì)量以及對案例的表示和檢索策略。案例庫管理模塊的主要功能是構(gòu)建案例的的表示和檢索機(jī)制,管理案例庫的案例學(xué)習(xí)并維護(hù)案例庫。
集成推理模塊是將基于本體推理、基于規(guī)則的推理與基于案例的推理相結(jié)合,用規(guī)則和本體知識輔助案例推理過程。根據(jù)需求,在案例庫中按照特定的相似度計算方法來獲得符合要求的案例。
該模塊利用集成推理模塊得到的結(jié)果案例,再結(jié)合用戶的喜好及瀏覽行為,對相關(guān)案例作相應(yīng)調(diào)整并最終推薦給用戶。
DL是可判定的邏輯表示語言,能對領(lǐng)域內(nèi)的確定性的、共享的知識進(jìn)行形式化的描述,為此筆者提出案例表示方法,即使用DL來對案例結(jié)構(gòu)、案例實例及相關(guān)的領(lǐng)域知識進(jìn)行一體化的定義,并統(tǒng)一在本體中,以解決傳統(tǒng)CBR存在的問題?;诒倔w的案例表示可以定義成如下三元組:Case=〈D、C、K〉,其中D為案例結(jié)構(gòu)定義集,C為案例集,K為與案例相關(guān)領(lǐng)域知識集。實施案例CBR的最終目的是為了方便地重用案例知識,解決操作過程中遇到的問題。源案例經(jīng)過規(guī)范化處理形成案例項存儲在案例庫中,如何從案例庫中的大量案例中選出適合當(dāng)前問題的案例知識,是一個需要解決的問題。為解決上述問題,對電子商務(wù)推薦系統(tǒng)的案例空間Q中的每個案例q與查詢案例a進(jìn)行相似度計算,包括局部相似度計算和整體相似度計算2種方式。局部相似度計算是比較2個案例對應(yīng)于某一個特征的相似程度,而整體相似度計算時比較2個案例整體相似程度,具體內(nèi)容如下。
1)數(shù)值類型屬性相似度計算 數(shù)值型屬性局部相似度計算可采用以下公式:
式中,Sim(qi,ai)表示數(shù)值類型屬性相似度;qi、ai分別表示案例q 和a 的第i個數(shù)值型屬性值,qi、ai∈ [α,β],即為屬性值時必須在其表示域內(nèi)。
2)字符串類型屬性相似度計算傳統(tǒng)的字符型屬性相似度計算方法是判斷字符串是否匹配,匹配時局部相似度為1,否則為零;為了提高精度,可以構(gòu)造字符串特征向量,向量的元素值為某關(guān)鍵字在字符串中出現(xiàn)的次數(shù)得到,通過計算2個向量的距離來計算字符型屬性的近似度。具體算法如下:S1和S2表示2個進(jìn)行相似度比較的字符型屬性,S1構(gòu)造的特征向量為V1={x1,x2,…,xn},其中xi為ki在S1中出現(xiàn)的次數(shù)。S2構(gòu)造的特征向量為V2= {y1,y2,…,yn},其中yi為ki在S2中出現(xiàn)的次數(shù)。Sim(S1,S2)表示S1和S2的相似度,計算公式如下:
3)本體類型屬性相似度計算對于本體類型的屬性,可以通過本體的概念相似度計算方法來求得概念類型屬性的相似度;對于屬性為實例的屬性,如果2個實例屬于同一類,則可認(rèn)為相似度為1,如果不屬于同類,則通過計算其所屬概念類的相似度來判斷2個實例的相似度。本體中的概念間的包含關(guān)系形成了概念上下位關(guān)系的層次樹,樹中的節(jié)點表示概念,直接上層節(jié)點表示父類節(jié)點,葉子表示實例。利用此概念樹計算本體類型屬性的局部相似度時,對于任意2個概念c1和c2或者實例i1和i2,有:
式中,prof(LCS(c1,c2)為任意2個概念距離最近的共同的父概念,c1、c2分別為其在概念樹中的深度。
整體相似度計算公式如下:
式中,Sim(q,a)表示案例整體相似度;wi表示第i個特征的權(quán)重;Sim(qi,ai)表示案例局部相似度。
基于以上設(shè)計方案,系統(tǒng)選取C#語言進(jìn)行開發(fā),主要程序開發(fā)平臺是Microsoft Visual Studio。數(shù)據(jù)庫開發(fā)主要采用SQl Server關(guān)系數(shù)據(jù)庫管理系統(tǒng),產(chǎn)品中本體屬性用Protégé3.4平臺進(jìn)行本體建模。
為了檢驗本系統(tǒng)的推薦效果,從某銷售網(wǎng)站2個月的商品銷售記錄中抽取語義要素組建案例,作為測試用例裝載到原型系統(tǒng)的案例庫中,以某用戶購買數(shù)碼相機(jī)為例,對該系統(tǒng)與傳統(tǒng)智能推薦系統(tǒng)進(jìn)行比較。
若某用戶想查容量為16GB、像素為1200萬以上、日本品牌、鋰電池、價格2000~3000元的數(shù)碼相機(jī)。對于用戶輸入的查詢請求,根據(jù)計算機(jī)領(lǐng)域本體進(jìn)行概念和屬性分類,抽取關(guān)鍵要素組建目標(biāo)案例y。假設(shè)在電子商務(wù)智能推薦系統(tǒng)中經(jīng)過案例類別和案例名稱在案例庫中初步檢索得到的案例集為X={x1,x2,…,xi},其中i=1,2…,n。對于案例集中任意一個案例xi和目標(biāo)案例y,從中抽取出與語義檢索有關(guān)的案例主要屬性及屬性類型,其案例參數(shù)表如表1所示。以選購Camera產(chǎn)品為對象測試不同系統(tǒng)提供的推薦案例與源案例的相似度值 (見表2)。
表1 數(shù)碼產(chǎn)品目標(biāo)案例ym與源案例xm、xn的參數(shù)表
表2 案例檢索結(jié)果比較表
從表2可以看出,基于本體和CBR的電子商務(wù)推薦系統(tǒng)計算得到的推薦案例相似度值更高,說明其推薦結(jié)果更符合用戶的需求。因此,基于本體和CBR的電子商務(wù)推薦系統(tǒng)的準(zhǔn)確度優(yōu)于其他系統(tǒng)。
針對傳統(tǒng)電子商務(wù)推薦系統(tǒng)中相似度算法不考慮語義和屬性類型的影響且存在檢索精度差的問題,設(shè)計了基于本體和CBR的電子商務(wù)推薦系統(tǒng)。測試表明,使用該系統(tǒng)得到的推薦案例相似度值更高,推薦結(jié)果更符合用戶的需求,因而具有推廣應(yīng)用的價值。當(dāng)然,在實際操作中應(yīng)根據(jù)檢索內(nèi)容和側(cè)重點的不同,相應(yīng)調(diào)整案例檢索中各類局部相似度在整體相似度中的權(quán)重,以便進(jìn)一步提高商品案例推薦的效率。
[1]姜麗紅,徐博藝,席俊紅 .基于案例推理的過濾算法及智能信息推薦系統(tǒng) [J].清華大學(xué)學(xué)報 (自然科學(xué)版),2006,46(1):1074-1077.
[2]張曌,夏國平,李雪峰 .基于案例推理的電子商務(wù)個性化推薦系統(tǒng) [J].計算機(jī)工程,2007,33(11):187-189.
[3]陸曉敏,崇志宏,陳國慶 .基于本體的商品推薦方法 [J].計算機(jī)技術(shù)與發(fā)展,2012,22(10):57-60.
[4]劉曉文,胡克瑾 .一種基于本體和CBR的電子政務(wù)項目審批決策支持系統(tǒng) [J].計算機(jī)應(yīng)用,2009,29(3):896-899.