孫潔麗,朱智清,次曉峰,朱蔓莉
(1.河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院,河北 石家莊 050061; 2. 河北省工業(yè)和信息化廳,河北 石家莊 050071)
基于案例推理的個性化推薦系統(tǒng)數(shù)據(jù)源研究
孫潔麗1,朱智清1,次曉峰2,朱蔓莉1
(1.河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院,河北 石家莊 050061; 2. 河北省工業(yè)和信息化廳,河北 石家莊 050071)
大數(shù)據(jù)時代,海量資源給用戶快速從浩瀚的資源中獲取所需信息帶來了難題,個性化推薦系統(tǒng)的市場需求越來越大。案例推理技術(shù)在個性化推薦系統(tǒng)中的應(yīng)用還很少, 因此,提出了基于案例推理的個性化推薦系統(tǒng)數(shù)據(jù)源建設(shè)方案。分析了數(shù)據(jù)源的組成,建成了包括用戶案例庫和知識庫的個性化推薦系統(tǒng)數(shù)據(jù)源,為案例推理提供了一定的基礎(chǔ)數(shù)據(jù)。系統(tǒng)研究結(jié)果表明,數(shù)據(jù)源建設(shè)對系統(tǒng)推薦結(jié)果個性化程度的質(zhì)量具有重要意義。
個性化推薦系統(tǒng);數(shù)據(jù)源;案例推理;案例庫;知識庫
1982年美國耶魯大學(xué)Schank教授首先描述了案例推理(Case-Based Reasoning,CBR)[1]。案例推理是人類形象思維、邏輯思維和創(chuàng)造思維的綜合表現(xiàn)形式[2]。一般情況下,案例推理研究采用4R認知模型:案例檢索 、案例重用、案例修正和案例保存[3]。目前,案例推理是人工智能領(lǐng)域的重要研究方向之一,已經(jīng)得到了許多應(yīng)用,如告警[4]、故障診斷[4]、預(yù)測[5,6]、決策[8,9]、應(yīng)急系統(tǒng)[10,11]等。但是,在圖書和檔案管理方面的應(yīng)用還不是太多。
普遍被人們接受的推薦系統(tǒng)的定義是 Resnick和Varian的定義[12]。個性化推薦系統(tǒng)(Personal Recommender System, PRS)是一種應(yīng)用系統(tǒng),能夠幫助用戶決定購買商品,從而完成購物[13]。通過對用戶行為和偏好進行分析,可以針對性地向用戶進行“個性化推薦”商品或信息,個性化推薦系統(tǒng)的研究主要集中在推薦算法和工程實踐兩個方面[14]。常用的推薦算法有基于過濾的推薦;基于知識的推薦;基于內(nèi)容的推薦;基于人口統(tǒng)計學(xué)的推薦;混合推薦技術(shù)[14,15]。在個性化服務(wù)方面,2016年7月,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第38次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》指出:互聯(lián)網(wǎng)企業(yè)更加注意對用戶進行多元化、差異化的服務(wù)。由此可見,為用戶提供個性化的服務(wù)已經(jīng)受到普遍重視。已經(jīng)有大量的個性化推薦算法[14-18]被提出,但是,將案例推理結(jié)合個性化推薦應(yīng)用到圖書和檔案管理中的算法還很少。
數(shù)據(jù)源是提供個性化推薦系統(tǒng)所需要數(shù)據(jù)的原始媒體即數(shù)據(jù)的來源。本文研究的推薦系統(tǒng)數(shù)據(jù)源主要來源于用戶行為日志,根據(jù)用戶行為日志中的記錄數(shù)據(jù)生成推薦的案例庫,得到推薦系統(tǒng)的數(shù)據(jù)源。
1.1 用戶行為日志數(shù)據(jù)
用戶行為是推薦系統(tǒng)的基礎(chǔ),用戶的信息行為是推薦系統(tǒng)產(chǎn)生推薦的重要數(shù)據(jù)源。因此,用戶的信息行為是推薦系統(tǒng)案例數(shù)據(jù)獲取和分析的重要內(nèi)容。日志數(shù)據(jù)由推薦系統(tǒng)獲取用戶行為而創(chuàng)建,日志主要記錄用戶行為。日志記錄的具體內(nèi)容有:標(biāo)識碼,行為類型和行為內(nèi)容,用戶對推薦文檔項的操作行為類型,用戶操作的推薦文檔項標(biāo)識碼,用戶對推薦文檔項的操作時間,用戶對推薦文檔項的反饋信息。
1.2 生成用戶行為日志數(shù)據(jù)
用戶行為日志主要記錄系統(tǒng)用戶使用的行為數(shù)據(jù),系統(tǒng)根據(jù)用戶行為生成日志記錄并寫入日志。生成用戶行為日志過程為:系統(tǒng)根據(jù)用戶行為信息記錄用戶行為相關(guān)的信息,生成用戶日志記錄,如果記錄能夠?qū)懭胗脩羧罩?,則生成日志,相反,如果由于存儲空間不足等原因使記錄無法寫入用戶日志,則提示寫入日志失敗的提示信息。生成用戶行為日志過程流程圖如圖1所示。
圖1 用戶行為日志生成流程圖
本文研究的推薦系統(tǒng)是利用案例進行推薦,案例是產(chǎn)生推薦的主要數(shù)據(jù)源,基于案例推理的個性化推薦系統(tǒng)案例庫建設(shè)方案是推薦系統(tǒng)的一項基礎(chǔ)數(shù)據(jù)工作?;诎咐评淼膫€性化推薦系統(tǒng)中,案例庫服務(wù)于整個推理過程,是其它各個模塊進行工作的基礎(chǔ)。推薦系統(tǒng)采用案例庫組織系統(tǒng)案例,案例庫建設(shè)是案例推理的關(guān)鍵。
2.1 用戶行為日志數(shù)據(jù)分析
案例庫建設(shè)首先進行用戶日志數(shù)據(jù)分析處理,把用戶日志文件中無效的信息刪除,獲取有效用戶行為數(shù)據(jù)存入用戶暫存數(shù)據(jù)庫中。
用戶日志分析的步驟為:
(1)輸入待分析的日志的日期,根據(jù)日期找相應(yīng)的日志文件,如果找到相應(yīng)的日志文件,則進行步驟(2),否則重新輸入待分析的日志的日期。
(2)讀出用戶日志文件記錄,如果暫存數(shù)據(jù)庫有該標(biāo)識記錄,則在該標(biāo)識下添加一條新紀(jì)錄,否則,創(chuàng)建該標(biāo)識的數(shù)據(jù)記錄,然后再在該標(biāo)識下添加一條新紀(jì)錄。
(3)步驟(2)中標(biāo)識添加的新記錄添加成功,則日志數(shù)據(jù)寫入用戶數(shù)據(jù)暫存庫,否則拋出異常。用戶日志分析流程圖如圖2所示。
圖2 用戶行為日志分析流程圖
2.2 用戶案例庫建設(shè)
用戶案例生成是對用戶暫存數(shù)據(jù)庫進行處理。提取有效數(shù)據(jù)存入案例庫,有效數(shù)據(jù)是指已經(jīng)分析處理過的數(shù)據(jù),分析用戶暫存數(shù)據(jù)庫的數(shù)據(jù),讀取有效用戶數(shù)據(jù);清除用戶暫存數(shù)據(jù)庫中的無效數(shù)據(jù);把檢索字符串記錄到檢索字符串表中,則案例庫就插入一條案例記錄。用戶案例生成過程如圖3所示。
圖3 用戶案例生成過程圖
知識庫是一種特殊的數(shù)據(jù)庫,知識庫是領(lǐng)域?qū)<业闹腔劢Y(jié)晶,這些專家具有領(lǐng)域?qū)W科知識,熟悉推薦系統(tǒng)采用的分類法,有一定的經(jīng)驗,如能夠提取概念、處理多主題的問題等,在進行文獻資源數(shù)據(jù)和用戶案例數(shù)據(jù)分類的過程中發(fā)揮著重要作用。
推薦系統(tǒng)的知識庫建設(shè)步驟是:
(1)確定要采集的知識范圍。
(2)采集已經(jīng)確定的知識范圍內(nèi)的數(shù)據(jù)。
(3)設(shè)計分析器,并利用分析器對采集的數(shù)據(jù)進行分析。通過分析器的分析,得出特征詞、分詞詞典和系統(tǒng)參數(shù)等信息,這些信息需要展現(xiàn)給專家審核,審核通過后再進行步驟(4)。
(4)設(shè)計推理器,利用推理器對采集的數(shù)據(jù)進行分類。根據(jù)特征詞等信息,利用設(shè)計的推理器對數(shù)據(jù)進行分類 ,在設(shè)計推理器的過程中,要把推理器推理的分類結(jié)論,展示給領(lǐng)域?qū)<遥?jīng)過領(lǐng)域?qū)<覍徍撕?,最終確定數(shù)據(jù)類別,通過實驗改善所設(shè)計的推理器,提高其分類的準(zhǔn)確率。
(5)將經(jīng)過專家審核的數(shù)據(jù)分類結(jié)果存入知識庫。知識庫可以輔助支持基于案例推理的個性化推薦推理過程。在基于案例推理的個性化推薦系統(tǒng)中,關(guān)鍵是不斷收集、規(guī)范和整理領(lǐng)域?qū)<业闹R和經(jīng)驗,以形成推薦系統(tǒng)知識庫。
基于案例推理的個性化推薦系統(tǒng)實現(xiàn)思想是把用戶案例數(shù)據(jù)和文獻資源數(shù)據(jù)進行分類,以便于個性化推薦系統(tǒng)組織相關(guān)案例數(shù)據(jù)?;诎咐评淼膫€性化推薦系統(tǒng)的關(guān)鍵技術(shù)在于案例的表示、案例的獲取以及案例的組織和應(yīng)用,基礎(chǔ)數(shù)據(jù)工作是設(shè)計與建立案例庫和知識庫。本文建立的案例庫和知識庫是產(chǎn)生個性化推薦的主要數(shù)據(jù)源,對系統(tǒng)推薦結(jié)果個性化程度的質(zhì)量具有重要意義。
[1] R.Schank,Dynamic Memory[M].NewYork:Cambridge University Press,1982.
[2] R.Schank,R Abelson,Goals and Understanding[M].Erlbanum:Eksevier Science,1977.
[3] A Aamodt, E Plaza.Case-Based Reasoning: Foundational Issues, Methodological Variation, and System Approaches [J].AI Communications, 1994,7(1):39-59.
[4] 張素琪.案例推理關(guān)鍵技術(shù)研究及其在電信告警和故障診斷中的應(yīng)用[D].天津:天津大學(xué),2014.
[5] 閻馨,付華,屠乃威.基于PCA和案例推理的煤與瓦斯突出動態(tài)預(yù)測[J].傳感技術(shù)學(xué)報,2015,28(7):1028-1034.
[6] 王蘭英,郭子雪,張玉芬,等.基于直覺模糊案例推理的應(yīng)急物資需求預(yù)測模型[J].中國礦業(yè)大學(xué)學(xué)報,2015,(4):775-780.
[7] 陶連金,王煥杰,田健,等.基于AHP案例推理法的地鐵施工地表沉降預(yù)測方法[J].黑龍江科技大學(xué)學(xué)報,2016, 26(2):202-206.
[8] 張薇,何瑞春.基于案例推理的交通疏導(dǎo)輔助決策方法[J]. 計算機工程與設(shè)計,2014,(10):3621-3625.
[9] 楊麗,周雪忠,畢斕馨,等. 基于案例推理的中醫(yī)臨床診療決策支持系統(tǒng)[J]. 世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2014,(3):474-480.
[10] Liao Z L, Mao X W, Hannam P M, Zhao T T.Adaptation methodology of CBR for environmental emergency preparedness system based on an Improved Genetic Algorithm[J].Expert Systems with Applications,2012,39(8):7029-7040.
[11] 蔡玫,曹杰,于小兵.基于應(yīng)急實例本體模型的應(yīng)急案例推理方法[J].情報雜志,2016,(6):183-188.
[12] Resnick P, Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.
[13] DIAS M B, LOCHER D.The value of personalized recommender systems to e-business:a case study[C].Proc of the 2008 ACM Conference on Recommer System,2008:291-294.
[14] 胡于響.基于Spark的推薦系統(tǒng)的設(shè)計與實現(xiàn)[D].杭州:浙江大學(xué),2015.
[15] 牛車攀.基于用戶細分及組合相似度的個性化推薦算法的研究與實現(xiàn)[D].長春:長春工業(yè)大學(xué),2016.
[16] 金志福.基于大數(shù)據(jù)的教育資源個性化推薦系統(tǒng)設(shè)計與實現(xiàn)[D].北京:中國科學(xué)院大學(xué),2015.
[17] 喬亞飛,張霞,張文博.智能圖書系統(tǒng)中的個性化推薦[J].計算機系統(tǒng)應(yīng)用,2016,(9):188-192.
[18] 黃義文.大數(shù)據(jù)環(huán)境下圖書館學(xué)術(shù)資源個性化推薦服務(wù)研究[J].圖書館學(xué)刊,2016,(7):78-80.
Research on data source of case-based reasoning personal recommender system
SUN Jie-li1,ZHU Zhi-qing1,CI Xiao-feng2,ZHU Man-li1
(1.Information&TechnologyCollege,HebeiUniversityofEconomics&Business,ShijiazhuangHebei050061China;2.IndustryandInformationTechnologyDepartmentofHebeiProvince,ShijiazhuangHebei050071,China)
In the era of big data, a puzzle has been brought to users to get the information which they needed from the massive resources quickly.The market demand of personal recommender system is increasing.The application of case-based reasoning technology in personal recommender system is very little. Thus, the construction scheme of data source for personalized recommender system based on case-based reasoning is proposed.The composition of data sources are analyzed.The data source of personal recommender is build, including user case base and knowledge base of personalized recommender system,some basic data is provided by it.Research results show that data source construction have important implications for quality of the recommend results of system.
Personal recommender system (PRS);Data source;Case-based reasoning;Case base;Knowledge base
2017-03-01
河北省科技計劃項目(15454704D)
孫潔麗(1969-),女,博士,教授,研究方向: 個性化推薦、智能檢索和數(shù)據(jù)挖掘.
1001-9383(2017)01-0008-06
G350.7;TP39
A