崔蘋 宋麗 張振雷 上海師范大學(xué)
改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法在個(gè)性化推薦系統(tǒng)中應(yīng)用
崔蘋 宋麗 張振雷 上海師范大學(xué)
本文采用改進(jìn)的Apriori聚類算法進(jìn)行用戶興趣模型的建立,對于用戶閱讀雜志的行為進(jìn)行收集并行分析建模,依據(jù)Apriori聚類算法實(shí)現(xiàn)推薦方法,為用戶感興趣的雜志進(jìn)行推薦。并對數(shù)據(jù)庫進(jìn)行優(yōu)化提高運(yùn)行效率,取得了很好的推薦效果。
推薦系統(tǒng) Apriori 數(shù)據(jù)庫優(yōu)化 關(guān)聯(lián)規(guī)則
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,推薦系統(tǒng)目前已廣泛應(yīng)用于商業(yè)領(lǐng)域。常用的推薦算法有協(xié)同過濾推薦、內(nèi)容推薦、關(guān)聯(lián)規(guī)則推薦和混合推薦。在個(gè)性化推薦上,WebWatcher是最早開始個(gè)性化推薦服務(wù)的。2004年,Kevin創(chuàng)辦了Digg新聞網(wǎng)站,Digg對用戶的興趣進(jìn)行了研究,通過歷史數(shù)據(jù)對用戶的興趣相似度進(jìn)行了計(jì)算,通過個(gè)性化的推薦,提升了Digg網(wǎng)站的瀏覽量。同年Findory建立,實(shí)現(xiàn)了用戶的定制新聞。
在對數(shù)據(jù)進(jìn)行關(guān)聯(lián)的挖掘時(shí),需要對其中的互斥項(xiàng)進(jìn)行約束,降低生成頻繁項(xiàng)集的速度,因此要避免互斥項(xiàng)的連接,利用互斥的標(biāo)志是否相等來判斷項(xiàng)目之間是否互斥,若相等則為互斥項(xiàng),則不進(jìn)行連接。算法的具體步驟為:
①掃描數(shù)據(jù)庫,生成布爾矩陣以及1階頻繁項(xiàng)集,掃描一次數(shù)據(jù)庫之后,生成布爾型矩陣,布爾型矩陣的第i行就是原事務(wù)數(shù)據(jù)庫的項(xiàng)目,第j列就是原事務(wù)數(shù)據(jù)庫的項(xiàng)目Tj,若Tj包含,則布爾型矩陣對應(yīng)的位置為1,否則置為0。并統(tǒng)計(jì)事務(wù)中項(xiàng)目出現(xiàn)的次數(shù),若滿足最小支持度計(jì)數(shù),則項(xiàng)目為 1階頻繁項(xiàng)集。
③產(chǎn)生K階頻繁項(xiàng)集,利用(k-1)階頻繁項(xiàng)集的最后一項(xiàng)與事務(wù)數(shù)據(jù)庫中的相容項(xiàng)目進(jìn)行擴(kuò)展,獲得k階頻繁項(xiàng)集。具體的步驟為:取出(k-1)階頻繁項(xiàng)集的最后一項(xiàng),從項(xiàng)目集中取出項(xiàng)目進(jìn)行擴(kuò)展,若且量項(xiàng)目為相容項(xiàng)目時(shí),則擴(kuò)展為k階頻繁項(xiàng)集。然后對該k階頻繁項(xiàng)集的k個(gè)項(xiàng)與布爾型矩陣的行向量進(jìn)行“與”運(yùn)算,若得到的1個(gè)數(shù)滿足最小支持度計(jì)數(shù),則加入到項(xiàng)目中。
3.1 歸檔報(bào)表數(shù)據(jù)
在數(shù)據(jù)的統(tǒng)計(jì)階段,需要對數(shù)據(jù)進(jìn)行歸檔,若數(shù)據(jù)較大時(shí),歸檔的時(shí)間就很多,則等待反饋結(jié)果需要確保較少的時(shí)間。因此需要規(guī)定好存儲過程,降低工作量,提升響應(yīng)的速度。
3.2 創(chuàng)建索引
當(dāng)系統(tǒng)的數(shù)據(jù)量很大時(shí),用戶在操作數(shù)據(jù)庫時(shí)用到的數(shù)據(jù)量也比較大,此時(shí)又不便進(jìn)行歸檔時(shí),則可以創(chuàng)建索引進(jìn)行解決,降低工作量,提升響應(yīng)的速度。
3.3 建立緩存機(jī)制
建立緩存機(jī)制,對于經(jīng)常使用的數(shù)據(jù)保存在緩存中,用戶再次使用時(shí),在緩存中獲取,而不去對數(shù)據(jù)庫進(jìn)行操作,提升了查詢的速度,減少了響應(yīng)時(shí)間,提聲了用戶的體驗(yàn)感。
以某雜志網(wǎng)站的1000名用戶為例,對各種雜志文章瀏覽信息進(jìn)行挖掘,設(shè)定80分以上的最小支持度為0.04。輸出用戶瀏覽行為的關(guān)聯(lián)性分析如表所示:
0 . 3 6 時(shí)尚先生→中國兒童畫報(bào)支持度 置信度 規(guī)則1 0 0 . 6 3 當(dāng)代扣籃→足球周刊1 0 0 . 6 5 純1 6年→時(shí)尚先生1 0 0 . 6 1 足球周刊→旅行家9
當(dāng)代扣籃對足球周刊的置信度為0.63,也就是說,如果這名用戶瀏覽了當(dāng)代扣籃,則他瀏覽足球周刊的可能性很大。純16年對時(shí)尚先生的置信度為0.65,即若該用戶瀏覽了純16年,則他瀏覽時(shí)尚先生的可能性很大。綜上所述,用戶之間的瀏覽行為是有關(guān)聯(lián)的,因此針對用戶的瀏覽行為,利用Apriori算法對用戶興趣信息進(jìn)行挖掘,對雜志進(jìn)行合理的配置,增加雜志的瀏覽量與銷量。
[1]Balabanovic M,Shoham Y.Fab:content-based,collaborative recommendation[J].Communications of the ACM.1997,40(3):66 72
[2]花青松.個(gè)性化推薦系統(tǒng)用戶興趣建模研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2013
[3]閆艷.基于多Agent技術(shù)的電子商務(wù)個(gè)性化推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:首都師范大學(xué),2009
[4]張恒瑋.基于協(xié)同過濾技術(shù)的電子商務(wù)推薦系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:華北電力大學(xué),2012
[5]劉建國,周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009(01)