◆張燕琴 潘利強(qiáng)
(泉州輕工職業(yè)學(xué)院 福建 362200)
Apriori算法在WEB的圖書銷售智能系統(tǒng)中的應(yīng)用
◆張燕琴 潘利強(qiáng)
(泉州輕工職業(yè)學(xué)院 福建 362200)
隨著信息化的高速發(fā)展,大數(shù)據(jù)的時代已經(jīng)帶來,這些海量數(shù)據(jù)中有很多有價值信息沒有被發(fā)掘,數(shù)據(jù)挖掘已成為近幾年來的研究熱潮。關(guān)聯(lián)規(guī)則Apriori算法是數(shù)據(jù)挖掘技術(shù)中的關(guān)鍵技術(shù)之一,本文從圖書銷售的歷史數(shù)據(jù)頻繁項(xiàng)集,采用Apriori算法從中找出潛在隱蔽的而又具有價值的數(shù)據(jù)信息,幫助圖書銷售運(yùn)營商分析銷售的業(yè)績數(shù)據(jù),得出一些圖書銷售的關(guān)聯(lián)結(jié)果,在一定程度上作出正確的銷售判斷。
數(shù)據(jù)挖掘;圖書銷售;Apriori算法
目前市場上有很多大型的實(shí)體書店,按照以往的購買方式就是讀者到實(shí)體書店去找尋自己想要讀的書籍。但隨著互聯(lián)網(wǎng)信息技術(shù)和電子商務(wù)的迅速發(fā)展,人類的購買方式發(fā)生了革命性的改變。不再是非要到實(shí)體店面才可以買到想要讀的書籍,而是可以通過電子商務(wù)平臺進(jìn)行網(wǎng)上購物,也能找到所需要的書籍。本文針對網(wǎng)上圖書銷售系統(tǒng)采用Apriori規(guī)則算法進(jìn)行數(shù)據(jù)分析,得到有效的數(shù)據(jù),能夠?yàn)樯虡I(yè)者提供幫助和支持。
經(jīng)過調(diào)查和研究發(fā)現(xiàn),雖然目前市場上網(wǎng)上書店的模式繁多,但是這些網(wǎng)站的網(wǎng)絡(luò)架構(gòu)是差不多的,采用的結(jié)構(gòu)基本上的都是B2C的模式。但這些書店的網(wǎng)絡(luò)結(jié)構(gòu)都存在一定的問題,雖然這些網(wǎng)上書店的架構(gòu)可以很好地體現(xiàn)購買的流程,也可以很好地為讀者提供圖書的詳細(xì)信息,但是對顧客的需求沒有很好地去把握和發(fā)現(xiàn),也不能很好地去激起顧客的消費(fèi)欲望。即使這些網(wǎng)絡(luò)結(jié)構(gòu)的性能再好,卻不具有數(shù)據(jù)挖掘功能。結(jié)合分析,本文設(shè)計出了一個基于數(shù)據(jù)挖掘的圖書銷售系統(tǒng)的網(wǎng)上書店結(jié)構(gòu),并且采用Apriori關(guān)聯(lián)規(guī)則對數(shù)據(jù)進(jìn)行挖掘。
本文中圖書銷售的關(guān)聯(lián)規(guī)則分析就是根據(jù)讀者客戶已經(jīng)購買過的圖書交易歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的,發(fā)現(xiàn)在圖書購買過程中有哪些圖書出現(xiàn)得比較頻繁,發(fā)現(xiàn)圖書項(xiàng)目之間存在著關(guān)聯(lián)。圖書銷售關(guān)聯(lián)規(guī)則的分析對圖書的銷售效益是非常明顯的。經(jīng)營者根據(jù)分析的結(jié)果,可以對現(xiàn)有的銷售策略進(jìn)行調(diào)整,制定比較合適的銷售策略,從而達(dá)到較好的利潤效益。
2.1 Apriori算法的概述
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間存在著的比較隱含的有意義的信息或者相關(guān)聯(lián)系。使用Apriori關(guān)聯(lián)規(guī)則來找出圖書銷售數(shù)據(jù)庫中不同種類書籍之間是否存在關(guān)聯(lián),并分析出顧客的購買行為方式,比如購買了《計算機(jī)程序設(shè)計》圖書對購買其他圖書的概率。根據(jù)分析結(jié)果可以對圖書進(jìn)行分類和對此提出相應(yīng)的銷售策略。比如顧客在購買A圖書的同時,還可以同時推薦給他與圖書A存在較強(qiáng)關(guān)聯(lián)的B圖書、或者C圖書,也可以進(jìn)行圖書的捆綁式營銷。給圖書經(jīng)營者提供幫助。
現(xiàn)在假設(shè)I={i1,i2,..,im}是項(xiàng)集,其中ik(k=1,2,…,m)可以是顧客挑選到購物車中的圖書,設(shè)與任務(wù)相關(guān)的數(shù)據(jù)D是事務(wù)集,其中每個事務(wù)T是項(xiàng)集,并且要求T∈I,設(shè)A也是一個項(xiàng)集,并且A∈T。
Apriori關(guān)聯(lián)規(guī)則的邏輯蘊(yùn)涵如下形式:A→B,A∈I,B∈I,且A∩B=F。關(guān)聯(lián)規(guī)則具有如下兩個重要的指標(biāo):支持度與置信度。支持度: P(A∪B),即A和B這兩個項(xiàng)集在事務(wù)集D中同時出現(xiàn)的概率。置信度: P(B|A),即在出現(xiàn)項(xiàng)集A的事務(wù)集D中,項(xiàng)集B也同時出現(xiàn)的概率。
在頻繁項(xiàng)集中,同時滿足給出的預(yù)定最小支持度閾值和最小置信度閾值的規(guī)則稱為強(qiáng)規(guī)則。給定一個事務(wù)集D,挖掘關(guān)聯(lián)規(guī)的問題就是產(chǎn)生支的持度和可信度都必須分別大于用戶給定的最小支持度和最小可信度的頻繁項(xiàng)集,由此得出的規(guī)則,也就是產(chǎn)生的強(qiáng)規(guī)則。
2.2 Apriori算法的描述
輸入:事物數(shù)據(jù)庫D,最小支持度閥值。
輸出:頻繁項(xiàng)集L。算法過程如下:
(1)L1= {large 1-itemsets};
(2) for (k=2; Lk-1 ; k++) do begin
(3) Ck=apriori-gen(Lk-1,min_sup); //新的候選集
(4) for all transactions t D do begin
(5) Ct=subset(Ck,t); //事務(wù)t中包含的候選集
(6) for all candidates c Ct do
(7) c.count++;
(8) end
(9) Lk={c Ck|c.count>=min_sup}
(10) end
(11) Answer=∪kLk;
首先產(chǎn)生頻繁1-項(xiàng)集L1,然后是頻繁2-項(xiàng)集L2,直到有某個r值使得Lr為空,這時APRIORI算法停止。這里在第k次循環(huán)中,過程先產(chǎn)生候選k-項(xiàng)集的集合Ck,Ck中的每一個項(xiàng)集是對兩個只有一個項(xiàng)不同的屬于Lk-1的頻集做一個(k-2)-連接來產(chǎn)生的。Ck中的項(xiàng)集是用來產(chǎn)生頻繁集的候選集,最后的頻集Lk必須是Ck的一個子集。在本文中采用項(xiàng)集I為圖書,I1為JAVA類圖書,I2為asp、JSP類圖書,I3為C語言類圖書,I4為數(shù)據(jù)挖掘類圖書,I5為網(wǎng)站建設(shè)類圖書,事物項(xiàng)T為圖書的銷售,假設(shè)有10個事物項(xiàng),即D=10。根據(jù)apriori算法,掃描事物項(xiàng),找出所有的項(xiàng)集,由頻繁項(xiàng)集找出強(qiáng)關(guān)聯(lián)規(guī)則,通過以上的具體事例數(shù)據(jù),研究出包含頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則,則頻繁項(xiàng)集I={I1,I2,I5}的關(guān)聯(lián)規(guī)則如下:
根據(jù)圖書的銷售記錄信息,來預(yù)測與該圖書相關(guān)聯(lián)的圖書,在某客戶購買某圖書的同時,還有哪些圖書會被一起購買,推薦客戶感興趣的圖書。在本系統(tǒng)中數(shù)據(jù)的來源不是一張數(shù)據(jù)表,在這里對源數(shù)據(jù)進(jìn)行處理,創(chuàng)建了v_booksell表。本文以客戶信息表作為事例表,在SQL數(shù)據(jù)挖掘中,ID作為鍵列,ceducations,city,cvocation作為輸入?yún)?shù),選擇事先創(chuàng)建的v_booksell作為可預(yù)測的嵌套表,name作為嵌套表的鍵列,創(chuàng)建apriori關(guān)聯(lián)規(guī)則模型為bookass。并調(diào)用此關(guān)聯(lián)規(guī)則挖掘模型對數(shù)據(jù)集進(jìn)行集訓(xùn)轉(zhuǎn)化,在本文中取confidence≥50%,得到相應(yīng)的頻繁項(xiàng)集與其依賴的關(guān)系關(guān)聯(lián)規(guī)則。
再利用關(guān)聯(lián)規(guī)則算法所挖掘出來的頻繁項(xiàng)集,也就是哪些客戶購買哪些圖書的情況頻繁出現(xiàn)。依賴關(guān)系圖則表明了被購買的圖書和其他圖書節(jié)點(diǎn)間的關(guān)聯(lián)規(guī)則,連接節(jié)點(diǎn)邊的密度越大,則關(guān)聯(lián)規(guī)則的出現(xiàn)越頻繁,即關(guān)聯(lián)規(guī)則則越強(qiáng),兩種圖書被一起購買的概率也就越大。
本文在傳統(tǒng)的圖書銷售系統(tǒng)的基礎(chǔ)上做了一些完善,采用Apriori關(guān)聯(lián)規(guī)則實(shí)現(xiàn)了圖書銷售信息和客戶信息的分析功能,表明了圖書之間的購買信息存在相應(yīng)的依賴關(guān)系,能夠起到圖書推薦的作用,為商業(yè)決策提供支持和幫助。
[1]張啟徽.關(guān)聯(lián)規(guī)則挖掘中查找頻繁項(xiàng)集的改進(jìn)算法[J].統(tǒng)計與決策,2015.
[2]張華飛,董黎剛,王盛.一種基于逆序編碼性質(zhì)的Apriori算法改進(jìn)[J].杭州電子科技大學(xué)學(xué)報,2011.
[3]王景讓.Apriori算法在布爾型關(guān)聯(lián)規(guī)則領(lǐng)域的應(yīng)用[J].制造業(yè)自動化, 2009.
[4]郭秋萍,王金蘭.一種基于web挖掘的圖書館服務(wù)推薦模型及其算法研究[J].圖書館雜志,2010.
[5]吳冬方.基于Apriori算法的招生管理應(yīng)用研究[D].河北大學(xué),2014.