摘 要 采用數(shù)據(jù)挖掘技術(shù)中的Apriori算法,對購物籃進(jìn)行關(guān)聯(lián)規(guī)則的分析。本文首先介紹了關(guān)聯(lián)規(guī)則算法的基本概念,然后運用R軟件中arules包中的函數(shù)Apriori對選取的數(shù)據(jù)進(jìn)行分析,找到商品之間的關(guān)聯(lián),并根據(jù)模型結(jié)果給商場提出銷售建議,提高商場的競爭力。
關(guān)鍵詞 數(shù)據(jù)挖掘;Apriori算法;R軟件
引言
隨著科學(xué)技術(shù)的不斷發(fā)展 ,各個行業(yè)都產(chǎn)生了大量的各種形式的數(shù)據(jù)。這些數(shù)據(jù)看起來復(fù)雜抽象,好像無任何規(guī)律,但是如果對數(shù)據(jù)進(jìn)行分析,會發(fā)現(xiàn)其背后隱藏著很多有價值的重要信息,因此數(shù)據(jù)挖掘應(yīng)運而生。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,通過應(yīng)用聚類、分類、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價值的過程[1]。
購物籃分析是零售行業(yè)最關(guān)注、最具有挑戰(zhàn)性的問題。本文應(yīng)用關(guān)聯(lián)規(guī)則算法對顧客購買商品的種類、消費金額以及整個賣場的銷售數(shù)據(jù)進(jìn)行分析,從而得到顧客的消費特征,這些特征包括顧客對商品的喜好、消費能力、品牌忠誠度以及潛在的消費需求,并根據(jù)這些特征制定行之有效的方案。
1關(guān)聯(lián)規(guī)則算法
1.1 關(guān)聯(lián)規(guī)則算法的相關(guān)概念
關(guān)聯(lián)規(guī)則的支持度和置信度是用于度量關(guān)聯(lián)規(guī)則強度的兩個指標(biāo)。
支持度表示A和B同時發(fā)生的概率,如式(1)所示。
置信度為A發(fā)生的條件下B發(fā)生的概率。提升度是A發(fā)生的條件下B發(fā)生的概率和B無條件下發(fā)生的概率之比。若lift>1,則說明A對B 具有提升作用;若lift<1,則作用相反。
設(shè)I={i1,i2…i3}是二進(jìn)制的集合,表示的是購物籃中商品的類別數(shù)為,其中每類商品稱為項。項的集合稱為項集,包含k項的集合為k-項集[2],其中()。每個項集都是的子集,項集的頻率等于所有包含此項集的購物籃個數(shù)與購物籃總數(shù)之比,它被稱為支持度。若項集的支持度大于或是等于預(yù)先規(guī)定的最小支持度的閾值,則此項集為頻繁項集,含有k項的頻繁項集記為Lk[1]。
1.2 Apriori算法步驟
假設(shè)共十個購物籃:{a,c,e},{b,d},{b,c},{a,b,c,d},{a,b},{b,c},{a,b},{a,b,c,e},{a,b,c},{a,c,e},運用Apriori算法步驟如下:
步驟一:確定最小支持度為0.2,最小置信度為0.5;
步驟二:確定I={a,b,c,d,e},以每樣商品為一項得到候選一項集的集合C1,根據(jù)式(1)計算每項的支持度,掃描C1,如果商品的支持度小于0.2,則刪除,得到一項頻繁項集L1;
步驟三:L1和L1連接得到候選2項集C2,這步稱為連枝。然后計算C2中每項的支持度,然后是剪枝,如果支持度小于0.2,則刪除。頻繁項集還有一項要求是:頻繁項集的子集也必須是頻繁項集。根據(jù)這兩條原則得到二項頻繁項集L2;
步驟四:L1和L2連接得到候選3項集C3,再掃描所有事務(wù)集,計算C3中每項的支持度,然后剪枝,得到三項頻繁項集L3;
步驟五:以此類推L1和L3連接得到候選項集C4,再計算支持度,得到最終的頻繁項集;
步驟六:應(yīng)用R軟件求解,得到關(guān)聯(lián)規(guī)則。
2應(yīng)用Apriori算法分析購物籃
某大型超市存儲了一段時間的購物籃數(shù)據(jù),共包括4835個購物籃的數(shù)據(jù),售出商品總數(shù)為22309件,包括168種不同的商品。首先應(yīng)用R軟件對商品的銷售情況排序,全脂牛奶銷量最高,銷量為1278件,占比約為5.7%,其次為面包卷銷量為972,占比約為4.4%等。前20種商品的銷量占比約為50%,基本符合“二八原則”。通過對商品占比的分析,可以確定那些商品為主力商品,那些為輔助商品,初步確定商品的擺放順序。
R語言中的arules包中的函數(shù)apriori可以對數(shù)據(jù)集進(jìn)行關(guān)聯(lián)規(guī)則分析,經(jīng)過多次分析,發(fā)現(xiàn)運用Aprior算法,當(dāng)最小支持度取0.02,最小置信度取0.35時得到的關(guān)聯(lián)規(guī)則數(shù)目適中,結(jié)果良好。已提升度從高到低排列的前5條規(guī)則如表1所示,
通過關(guān)聯(lián)規(guī)則分析,我們可以知道顧客在購買其他商品時會購買全脂牛奶,其次是購買其他蔬菜,這也和我們分析的熱銷商品相符合。因此,超市應(yīng)該把這些熱銷商品放在顧客購買商品的必經(jīng)之路,或是商場的中心位置,方便顧客購買。通過關(guān)聯(lián)規(guī)則還可以知道顧客會同時購買豬肉、根莖類蔬菜、其他蔬菜、蛋類等的可能性較高,因此這些物品應(yīng)當(dāng)放的位置比較接近,或是捆綁銷售,這樣方便了顧客,提升顧客的購物體驗,也會提高顧客對超市的忠誠度。
3結(jié)束語
隨著計算機技術(shù)和機器學(xué)習(xí)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)有著廣闊的發(fā)展前景。關(guān)聯(lián)規(guī)則分析除了可以對購物籃進(jìn)行分析,還可以應(yīng)用到銀行客戶行為分析、學(xué)生成績關(guān)聯(lián)分析、試卷知識點關(guān)聯(lián)分析、醫(yī)療保險分析等。隨著電子商務(wù)的發(fā)展,關(guān)聯(lián)規(guī)則技術(shù)還被應(yīng)用到電商平臺,根據(jù)客戶以往的購買記錄,分析他可能感興趣的商品。它還可以和其他的算法相結(jié)合運用,比如協(xié)同過濾算法 ,兩者結(jié)合,就可以向顧客推薦他們可能感興趣的商品。隨著對關(guān)聯(lián)規(guī)則認(rèn)識的不斷加深,我們可以將更多的因素融入其中,來拓展關(guān)聯(lián)規(guī)則的應(yīng)用廣度,讓其為更多的領(lǐng)域提供決策支持。
參考文獻(xiàn)
[1] 韓寶國,張良均.R語言商務(wù)數(shù)據(jù)分析實戰(zhàn)[M].北京:人民郵電出版社,2018:109.
[2] 李毅.基于Apriori算法的試卷知識點關(guān)聯(lián)分析[J].新校園,2018(7):52.
作者簡介
司鳳娟(1979-),女,山東菏澤人;學(xué)歷:碩士,職稱:講師,現(xiàn)就職單位:菏澤學(xué)院,研究方向:概率論與數(shù)理統(tǒng)計。