武時龍
電子商務(wù)是指在全球互聯(lián)網(wǎng)覆蓋下,通過計算機(jī)服務(wù)器等應(yīng)用方式,商戶或買賣雙方無需見面即可進(jìn)行商貿(mào)活動,實現(xiàn)用戶網(wǎng)上購物、電商之間網(wǎng)上進(jìn)貨和在線金融支付等一系列綜合服務(wù)活動的新型商業(yè)經(jīng)營模式[1]。從廣義上可以定義為采用各種電子工具從事商務(wù)活動,即通過使用互聯(lián)網(wǎng)等電子工具,使企業(yè)內(nèi)部、產(chǎn)品供應(yīng)商、用戶和合伙人之間,利用網(wǎng)絡(luò)應(yīng)用程序?qū)崿F(xiàn)電子商務(wù)信息的資源共享,實現(xiàn)企業(yè)之間或交易雙方業(yè)務(wù)流程的電子化,與企業(yè)內(nèi)部的電子化生產(chǎn)管理系統(tǒng)相互配合,提高企業(yè)各個生產(chǎn)環(huán)節(jié)的工作效率;狹義上可以定義為利用因特網(wǎng)從事商務(wù)活動,即通過使用互聯(lián)網(wǎng)包括電話、傳真、電視、服務(wù)器、移動通訊設(shè)備等電子工具在世界范圍內(nèi)進(jìn)行的商品交易行為,是在互聯(lián)網(wǎng)平臺上各方所進(jìn)行的各種商品交易活動的總和。
隨著電子商務(wù)信息量的爆炸式增長,且海量的電子商務(wù)信息的異構(gòu)特性,研究一種高效的電子商務(wù)信息集成算法迫在眉睫。史倩玉等[2]提出一種基于K-Prototypes算法的電子商務(wù)信息集成算法,該算法利用三種不同的缺失值填充方法對海量異構(gòu)電子商務(wù)信息中的不完備樣本進(jìn)行完備化處理;在完備化處理后的電子商務(wù)信息樣本集上分別進(jìn)行多次K-Prototypes算法,得到樣本基聚類結(jié)果,對基聚類結(jié)果進(jìn)行集成,即可實現(xiàn)海量異構(gòu)電子商務(wù)信息的有效集成。該算法無法確定參與集成學(xué)習(xí)的電子商務(wù)信息特征向量的數(shù)目,每次集成都針對全部樣本,浪費(fèi)了大量資源。劉全金等[3]提出了一種基于PSO算法的電子商務(wù)信息集成算法,該算法通過采用加權(quán)集成的方法對PSO特征選取方法獲得的電子商務(wù)信息特征進(jìn)行集成學(xué)習(xí),具有良好的集成穩(wěn)定性,但是通過檢驗,該算法的集成準(zhǔn)確率有限,參與集成學(xué)習(xí)的特征向量數(shù)目也不是最優(yōu)的,集成學(xué)習(xí)性能較差。
針對上述算法存在的問題,研究提出一種基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成算法。
假設(shè)D表示海量異構(gòu)電子商務(wù)信息數(shù)據(jù)集,它是由n個電子商務(wù)信息樣本實例構(gòu)成的,每一個電子商務(wù)信息樣本包含d維特征向量(f1,f2,…,fd),電子商務(wù)信息特征向量fi(i (1) 根據(jù)上述計算,如果已知一個電子商務(wù)信息特征向量fj的取值,可以采用條件熵對其取值的不確定性進(jìn)行度量,表達(dá)式為: (2) 式中,P(fi|fj)代表特征向量fj已知時特征向量fi的條件概率,一般情況下其值不大于初始不確定性信息熵,當(dāng)特征向量fj和特征向量fi相互獨(dú)立時,H(fi)=H(fi|fj) (3) 根據(jù)上述分析可得電子商務(wù)信息特征向量fj和特征向量fi的互信息計算公式如下: I(fi;fj)=I(fj;fi)=H(fi)-H(fi|fj) (4) 式中,P(fi;fi)代表電子商務(wù)信息特征向量fj和特征向量fi的聯(lián)合概率密度函數(shù);上式(4)的取值越大,說明兩個特征向量包含的相同的電子商務(wù)信息數(shù)量越多,二者之間的相關(guān)程度越高;如果兩個特征向量是相互獨(dú)立或者完全不相關(guān)時,則它們的互信息量為0,即兩個特征向量包含相同的電子商務(wù)信息數(shù)量為0。 基于上述分析和計算,可得電子商務(wù)信息特征向量fi的相關(guān)度Rel(fi),其計算公式為: (5) 在上述相關(guān)度計算的基礎(chǔ)上,對海量異構(gòu)電子商務(wù)信息數(shù)據(jù)集D進(jìn)行分組處理,為下一步進(jìn)行電子商務(wù)信息最優(yōu)特征向量子集選取以及電子商務(wù)信息最優(yōu)特征向量數(shù)目的確定奠定基礎(chǔ),具體實現(xiàn)步驟描述如下: 第一步:對于給定的海量異構(gòu)電子商務(wù)信息數(shù)據(jù)集D,其中每一個電子商務(wù)信息樣本包含d維特征向量(f1,f2,…,fd),采用上述公式(5)計算出數(shù)據(jù)集D中所有的電子商務(wù)信息特征向量fi的相關(guān)度值Rel(fi); 第二步:對海量異構(gòu)電子商務(wù)信息數(shù)據(jù)集D中各個特征向量所對應(yīng)的相關(guān)度值,并按照從大到小的順序進(jìn)行排列; 第三步:選取具有最大相關(guān)度的電子商務(wù)信息特征向量,根據(jù)該特征向量將D劃分為多個組,具體分組數(shù)目以及每一組中包含的電子商務(wù)信息特征向量的取值范圍可以根據(jù)實際情況設(shè)置; 第四步:對海量異構(gòu)電子商務(wù)信息數(shù)據(jù)集D劃分后的每一個分組Di(i=1,2,…,c)進(jìn)行觀測,其中,c表示分組數(shù)目;如果每一個分組Di內(nèi)的電子商務(wù)信息樣本數(shù)量相差較多,則說明該分組內(nèi)的樣本可能不屬于“同一類別”,還可以進(jìn)行進(jìn)一步劃分,此時選取具有次相關(guān)度的特征,返回上述第三步,重新進(jìn)行分組,循環(huán)往復(fù),直到每一個分組Di中的信息樣本分布基本合理停止。 按照上述步驟分組后,海量異構(gòu)電子商務(wù)信息數(shù)據(jù)集D按照Rel(fi)值的大小劃分成了c個分組,實現(xiàn)了電子商務(wù)信息最優(yōu)特征向量子集選取以及電子商務(wù)信息最優(yōu)特征向量數(shù)目的確定。 假設(shè)k表示海量異構(gòu)電子商務(wù)信息集成之前指定的聚類個數(shù),傳統(tǒng)的K-means聚類算法的操作步驟如下: 步驟1:隨機(jī)選取sk個電子商務(wù)信息樣本作為初始聚類中心,表達(dá)式為: C={c1,…,cj,…ck} (6) 步驟2:計算出每個電子商務(wù)信息分組樣本Di∈D到聚類中心cj∈C之間的距離distance(Di,cj),將海量異構(gòu)電子商務(wù)信息數(shù)據(jù)集D中Ddistance(Di,cj)值最小的樣本劃分給其距離最近的聚類中,反復(fù)計算并對所有的聚類中心進(jìn)行更新,直到所有的電子商務(wù)信息不再發(fā)生變化為止。 但是傳統(tǒng)的K-means聚類算法無法處理大規(guī)模的數(shù)據(jù)對象,面對海量異構(gòu)電子商務(wù)信息的集成,該方法耗時較長,嚴(yán)重影響集成效率,需要進(jìn)行改進(jìn)。采用隨機(jī)抽樣的方法,假設(shè)隨機(jī)抽樣參數(shù)表示為s;聚類閥值參數(shù)表示為γ,在海量異構(gòu)電子商務(wù)信息數(shù)據(jù)集D中選取n/s個電子商務(wù)信息樣本構(gòu)成一個小工作集,表示為D′,從中任意選取k個電子商務(wù)信息樣本作為初始聚類中心,表達(dá)式如下: (7) (8) 計算海量一個電子商務(wù)細(xì)辛腦聚類結(jié)果中每個類別的半徑,表達(dá)式如下: (9) 根據(jù)對海量異構(gòu)電子商務(wù)信息的隨機(jī)采樣結(jié)果和公式(9)計算數(shù)據(jù)集D中剩余樣本集D/D*中任意一個電子商務(wù)信息樣本Dq,與已經(jīng)計算獲得的隨機(jī)采樣結(jié)果進(jìn)行相似度比對,得到最終的聚類結(jié)果,實現(xiàn)海量異構(gòu)電子商務(wù)信息的集成,表達(dá)式為: (10) 其中,k′≥k。 實驗選取UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的5個數(shù)據(jù)集(分別為1、2、3、4、5)作為海量異構(gòu)電子商務(wù)信息集成算法的測試數(shù)據(jù)集進(jìn)行實驗,對于每個測試數(shù)據(jù)集,采用等比例方法隨機(jī)選取其中50%的電子商務(wù)信息樣本作為訓(xùn)練樣本集,剩下50%的電子商務(wù)信息樣本作為檢驗樣本集,將基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成算法與文獻(xiàn)[3]、文獻(xiàn)[4]算法進(jìn)行對比測試,將每種算法獨(dú)立運(yùn)算100次實驗獲得的集成準(zhǔn)確率平均值作為度量標(biāo)準(zhǔn)(集成準(zhǔn)確率是指被成功集成的海量異構(gòu)電子商務(wù)信息樣本數(shù)目與所有樣本數(shù)目的比值)。如圖1~圖5所示,給出了聚類閥值參數(shù)γ為0、0.2、0.3、0.5、0.8時,針對5個電子商務(wù)信息測試數(shù)據(jù)集進(jìn)行實驗得到的集成學(xué)習(xí)系統(tǒng)檢驗準(zhǔn)確率Accuracy與參與集成學(xué)習(xí)的電子商務(wù)信息特征向量數(shù)目L之間的關(guān)系變化曲線,其中單個電子商務(wù)信息特征向量所對應(yīng)的水平線僅代表單個電子商務(wù)信息特征向量的檢驗準(zhǔn)確率,與集成改進(jìn)K-means分類器的數(shù)目無關(guān),為了便于更加直觀地分析,如表1所示,給出了文獻(xiàn)[3]算法、文獻(xiàn)[5]算法和基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成算法的集成最優(yōu)特征數(shù)目以及其所對應(yīng)的檢驗準(zhǔn)確率平均值。 圖1 在數(shù)據(jù)集1上集成數(shù)目與Accuracy之間的關(guān)系 圖2 在數(shù)據(jù)集2上集成數(shù)目與Accuracy之間的關(guān)系 圖3 在數(shù)據(jù)集3上集成數(shù)目與Accuracy之間的關(guān)系 圖4 在數(shù)據(jù)集4上集成數(shù)目與Accuracy之間的關(guān)系 圖5 在數(shù)據(jù)集5上集成數(shù)目與Accuracy之間的關(guān)系 表1 不同算法的集成學(xué)習(xí)效果對比[4-5] 表1中,文獻(xiàn)[3]算法、文獻(xiàn)[4]算法,傳統(tǒng)K-means聚類算法和提出的改進(jìn)K-means聚類算法分別用①、②、③、④表示。 總結(jié)分析圖1~圖5和表1的實驗結(jié)果可以得到以下結(jié)論: (1)隨著參與集成學(xué)習(xí)的電子商務(wù)信息特征向量數(shù)目的不斷減小,研究提出的基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成算法的學(xué)習(xí)能力不斷提高,說明選擇一部分電子商務(wù)信息特征向量進(jìn)行集成運(yùn)算獲得的學(xué)習(xí)性能明顯優(yōu)于集成全部電子商務(wù)信息特征向量的學(xué)習(xí)性能,此實驗結(jié)果與提出的基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成算法的理論分析結(jié)果相一致; (2)在5個實驗測試數(shù)據(jù)集中,基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成算法取得最優(yōu)集成性能時,參與集成學(xué)習(xí)的電子商務(wù)信息特征向量的數(shù)目均位于[10,30]范圍內(nèi),這在海量異構(gòu)電子商務(wù)信息集成的實際應(yīng)用中是非常有用的,它為確定電子商務(wù)信息集成最優(yōu)特征數(shù)目提供了有效參考,而文獻(xiàn)[3]算法和文獻(xiàn)[4]算法的集成學(xué)習(xí)最優(yōu)特征數(shù)目區(qū)間范圍太大,很難確定; (3)對海量異構(gòu)電子商務(wù)信息進(jìn)行集成運(yùn)算的根本目的是提高學(xué)習(xí)系統(tǒng)的泛化能力,與傳統(tǒng)的K-means聚類算法相比較,研究提出的基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成算法能夠提高海量電子商務(wù)信息的集成準(zhǔn)確率0.3%,文獻(xiàn)[3]算法和文獻(xiàn)[4]算法對海量電子商務(wù)信息的集成準(zhǔn)確率提高微乎其微,由此說明研究提出的基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成算法具有顯著優(yōu)越性,能夠?qū)崿F(xiàn)高準(zhǔn)確率集成學(xué)習(xí)[5]。 在傳統(tǒng)K-means聚類算法的基礎(chǔ)上為了解決海量異構(gòu)電子商務(wù)信息的有效集成學(xué)習(xí),提出一種基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成算法,所提方法采用最大相關(guān)度對應(yīng)的電子商務(wù)信息特征向量對樣本集進(jìn)行分組后,通過分析電子商務(wù)信息特征向量之間的相關(guān)性程度,進(jìn)行電子商務(wù)信息最優(yōu)特征向量子集選取以及電子商務(wù)信息最優(yōu)特征向量數(shù)目確定[6];通過采用隨機(jī)抽樣的方法將海量異構(gòu)電子商務(wù)信息數(shù)據(jù)集劃分為若干個樣本集,分別進(jìn)行聚類集成,大大提高了集成學(xué)習(xí)的準(zhǔn)確率。1.2 海量異構(gòu)電子商務(wù)信息數(shù)據(jù)分組處理
1.3 基于改進(jìn)K-means聚類算法的電子商務(wù)信息集成
2 實驗結(jié)果與分析
3 結(jié)束語