• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      K—Means算法及其在卷煙零售門店庫(kù)存聚類分析中的應(yīng)用

      2017-03-20 16:59:01盛劍樊紅龔天任程幸福
      商業(yè)經(jīng)濟(jì) 2017年3期
      關(guān)鍵詞:means算法

      盛劍+樊紅+龔天任+程幸福

      [摘 要] 為準(zhǔn)確了解市場(chǎng)庫(kù)存和需求,減小商業(yè)庫(kù)存壓力,實(shí)現(xiàn)對(duì)零售戶進(jìn)行按需供貨,發(fā)現(xiàn)零售戶群體共性特征,通過(guò)考察零售戶的年銷售量和年庫(kù)存量,基于Spark+MLlib的kmeans++算法實(shí)現(xiàn)對(duì)零售戶行為的聚類,并根據(jù)收集所得的卷煙銷售掃碼數(shù)據(jù)采用KMeans+進(jìn)行聚類分析,將客戶分為三大類別,得到了較為合適的分類結(jié)果,給出了相應(yīng)的銷售和庫(kù)存的管理策略,這為卷煙銷售和庫(kù)存管理策略的制定提供決策支持。

      [關(guān)鍵詞] K-Means算法;卷煙零售戶;庫(kù)存聚類分析

      [中圖分類號(hào)] F272 [文獻(xiàn)標(biāo)識(shí)碼] A

      [文章編號(hào)] 1009-6043(2017)03-0128-02

      Abstract: In order to accurately understand the market inventory and demand, reduce the pressure of business inventories, implement the on-demand supply to retailers and find out the common features of retailers groups, the study investigates their annual sales and inventory level. The customer can be divided into three categories based on the kmeans++ algorithm of Spark + MLlib and clustering analysis of collected the code data of cigarette sales by means of KMeans +. The appropriate classification results, and corresponding management strategy of sales and inventory, which provide decision support.

      Key words: K-Means algorithm, cigarette retailers, inventory clustering analysis

      一、前言

      KMeans算法是聚類分析中的常用算法,它是數(shù)據(jù)劃分或者分組處理的重要方式,目前在電子商務(wù)、生物科學(xué)、圖像處理、Web文檔分類等領(lǐng)域都得到了有效的應(yīng)用,如許多文獻(xiàn)利用KMeans進(jìn)行聚類分析將客戶細(xì)分特定的類型,同時(shí)根據(jù)其所屬類別進(jìn)行群組協(xié)同推薦。論文根據(jù)收集所得的卷煙銷售掃碼數(shù)據(jù)采用KMeans進(jìn)行聚類分析,以期更為準(zhǔn)確了解市場(chǎng)銷售和庫(kù)存情況,減小商業(yè)庫(kù)存壓力,實(shí)現(xiàn)對(duì)零售戶進(jìn)行按需供貨,發(fā)現(xiàn)零售戶群體共性特征,為制定合理的卷煙銷售和庫(kù)存管理策略提供決策支持。

      二、實(shí)驗(yàn)平臺(tái)選擇

      Spark是一個(gè)基于內(nèi)存的分布式計(jì)算系統(tǒng),是由UCBerkeley AMPLab實(shí)驗(yàn)室于2009年開發(fā)的開源數(shù)據(jù)分析集群計(jì)算框架,是BDAS(Berkeley Data Analytics Stack)中的核心項(xiàng)目,被設(shè)計(jì)用來(lái)完成交互式的數(shù)據(jù)分析任務(wù)。MLlib是建立在Apache Spark上的分布式機(jī)器學(xué)習(xí)庫(kù),Spark的機(jī)器學(xué)習(xí)有分類和回歸、協(xié)同過(guò)濾、聚類、降維和特征提取和變換等[2]。Spark將分布式內(nèi)存抽象成彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets,RDD)。RDD允許用戶在執(zhí)行多個(gè)查詢時(shí)顯式地將工作集緩存在內(nèi)存中,以便后續(xù)的查詢能夠重用,這極大地提升了查詢速度[2]。故論文選擇了Spark+MLlib作為K-means算法的運(yùn)行平臺(tái)。

      三、卷煙零售戶銷售量和庫(kù)存的聚類分析

      (一)原始數(shù)據(jù)及數(shù)據(jù)預(yù)處理

      煙草公司在以往的經(jīng)營(yíng)中產(chǎn)生了海量的柜臺(tái)掃碼交易數(shù)據(jù),本文數(shù)據(jù)來(lái)自貴陽(yáng)市紅華煙草公司零售門店在2014年1月1日至2015年3月20日之間產(chǎn)生的柜臺(tái)掃碼銷售及庫(kù)存數(shù)據(jù),共有2014年1月1日至2015年3月20日的1797371條銷售數(shù)據(jù),有銷售碼、執(zhí)照-代號(hào)、交易時(shí)間、商品代號(hào)、交易數(shù)量、單價(jià)、交易金額、門店名等字段,265071條庫(kù)存數(shù)據(jù),有庫(kù)存數(shù)量、日期、時(shí)間、門店名等字段。本實(shí)驗(yàn)通過(guò)spark集群計(jì)算出每個(gè)零售門店在2014年1月1日至2015年3月20日之間日庫(kù)存量之和與日銷售量之和,最終得到了各零售戶的年銷售量(單位:箱)和年庫(kù)存量(單位:箱)。例如,零售戶1的銷售量(單位:箱)和年庫(kù)存量(單位:箱)分別為18706箱和57705箱,在數(shù)據(jù)進(jìn)入模型之前進(jìn)行了標(biāo)準(zhǔn)化。

      (二)實(shí)驗(yàn)過(guò)程、結(jié)果及分析

      1.Spark MLlib對(duì)經(jīng)典K-means算法的改進(jìn)

      經(jīng)典K-means聚類算法有兩個(gè)典型的缺陷:(1)聚類數(shù)K的值是預(yù)先給定的,未必就是最優(yōu)解;(2)初始聚類中心是隨機(jī)選擇的,可能會(huì)得到一個(gè)局部最優(yōu)聚類,具有較高的平方誤差。

      對(duì)于經(jīng)典K-means聚類算法的上述缺陷,許多學(xué)者提出了不同的改進(jìn)方法,本文通過(guò)計(jì)算不同聚類數(shù)K的輪廓系數(shù)來(lái)確定最優(yōu)聚類數(shù)K,輪廓系數(shù)結(jié)合了聚類的凝聚度和分離度,用于評(píng)估聚類的效果。該值介于-1-1之間,值越大,表示聚類效果越好[8]。

      對(duì)于初始聚類中心的選擇,Spark MLlib采用了kmeans++算法,所謂kmeans++算法其實(shí)就是在進(jìn)行標(biāo)準(zhǔn)kmeans優(yōu)化算法之前執(zhí)行一個(gè)初始化聚類中心的過(guò)程,其具體計(jì)算步驟如下[9]:

      (1)在數(shù)據(jù)點(diǎn)中隨機(jī)選擇一個(gè)聚類中心。

      (2)對(duì)于每個(gè)數(shù)據(jù)點(diǎn)x,計(jì)算x到已選出的所有聚類中心的距離的最小值D(x)。

      (4)重復(fù)(2)和(3)直到選出K個(gè)聚類中心。

      (5)執(zhí)行標(biāo)準(zhǔn)的K-means聚類算法。

      2.聚類數(shù)K的選取

      輪廓線是一種簇內(nèi)數(shù)據(jù)一致性的檢驗(yàn)和解釋的方法,輪廓系數(shù)值取值區(qū)間為[-1,1],它代表一個(gè)對(duì)象屬于它所在組的合理的程度及屬于臨近組的不合理程度。當(dāng)大多數(shù)對(duì)象都有一個(gè)比較高的輪廓系數(shù)值時(shí),我們認(rèn)為這個(gè)聚類效果很好。對(duì)不同的聚類數(shù)K,分別計(jì)算其聚類結(jié)果的輪廓系數(shù),我們選取K=6來(lái)進(jìn)行聚類。

      3.聚類結(jié)果分析

      下圖給出了卷煙零售戶銷量和庫(kù)存數(shù)據(jù)標(biāo)準(zhǔn)化后聚類分析的可視化結(jié)果,從圖中可以看出,Kmeans很好的把零售門店區(qū)分開了,結(jié)果是比較合理的。

      依據(jù)上述結(jié)果,煙草公司可以制定如下的銷售優(yōu)化策略。

      (1)如圖,參看12個(gè)X形點(diǎn),21個(gè)下三角點(diǎn)和5個(gè)菱形點(diǎn),該三類店面銷量要明顯低于其他三類,而菱形店面存量最多,說(shuō)明供求關(guān)系最不緊張,記作六類店面,下三角形店面平均存量次之,記作五類店面,X形店面平均存量最少,記作四類店面。

      (2)12個(gè)十字店面銷量要明顯高于上述三類,供求緊張度1.403也低于上述三類。

      (3)相互比較5個(gè)圓點(diǎn)店面和11個(gè)上三角店面,前者的銷量雖然高于后者,但前者的存量卻遠(yuǎn)比后者充裕,因此相比于前者,后者更迫切地需要補(bǔ)充存貨。

      四、結(jié)論

      本文根據(jù)收集所得的卷煙銷售掃碼數(shù)據(jù)采用KMeans+進(jìn)行聚類分析,將客戶分為三大類別,得到了較為合適的分類結(jié)果,同時(shí),針對(duì)客戶的三個(gè)類別,給出了相應(yīng)的銷售和庫(kù)存的管理策略,論文的實(shí)踐可以為卷煙銷售和庫(kù)存管理策略的制定提供決策支持。

      [參 考 文 獻(xiàn)]

      [1]晁源.互聯(lián)網(wǎng)思維下的卷煙消費(fèi)跟蹤方法探究[J].中國(guó)商貿(mào),2015(24)

      [2]黎文陽(yáng).大數(shù)據(jù)處理模型ApacheSpark研究[J].現(xiàn)代計(jì)算機(jī)(普及版),2015(3)

      [3]陳虹君.基于Spark框架的聚類算法研究[J].電腦知識(shí)與技術(shù),2015(4),武漢大學(xué)學(xué)報(bào)(理學(xué)版),2003,49(5):571-574

      [4]唐振坤.基于Spark的機(jī)器學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D].廈門大學(xué)碩士論文,2014

      [5]吳哲夫,張彤,肖鷹.基于Spark平臺(tái)的K-means聚類算法改及并行化實(shí)現(xiàn)[J].互聯(lián)網(wǎng)天地,2016(1)

      [6]李彥廣.LIYan-guang基于Spark+MLlib分布式學(xué)習(xí)算法的研究[J].商洛學(xué)院學(xué)報(bào),2015(2)2000,892:29-46

      [7]Feller W. An introduction to probability theory and its applications (3rd ed.)[M]. New York: Wiley, 1969

      [8]Silhouette (clustering). (2016, March 25). In Wikipedia, The Free Encyclopedia. Retrieved 16:39, March30, 2016, fromhttps: // en. wikipedia. org / w / index. php? title = Silhouette _ (clustering) & oldid=711931734

      [9]K-means++. (2016, March 21). In Wikipedia, The Free Encyclopedia. Retrieved 16:37, March 30,2016,from https://en. wikipedia. org / w / index. php ? title = K-means %2 B% 2B & oldid = 711225275

      [責(zé)任編輯:王鳳娟]

      猜你喜歡
      means算法
      機(jī)器學(xué)習(xí)中K—means聚類算法的分析和應(yīng)用
      應(yīng)用K—means聚類算法劃分曲面及實(shí)驗(yàn)驗(yàn)證
      SIFT算法在木材紋理分類上的應(yīng)用
      基于K—Means聚類算法入侵檢測(cè)系統(tǒng)研究
      基于聚類算法的DNS攻擊檢測(cè)
      基于譜聚類的網(wǎng)絡(luò)入侵檢測(cè)算法研究
      基于Weka的Apriori算法在原油產(chǎn)量預(yù)測(cè)中的應(yīng)用
      基于HSI顏色空間的小麥粉精度自動(dòng)識(shí)別研究
      基于聚類的Web日志挖掘
      基于百度地圖的改進(jìn)的K—means算法研究
      軟件(2016年1期)2016-03-08 18:48:49
      皮山县| 宁乡县| 亚东县| 于都县| 宁化县| 普定县| 商河县| 方正县| 樟树市| 昆山市| 镇康县| 秦安县| 南乐县| 临西县| 高清| 阜南县| 河间市| 多伦县| 永丰县| 五河县| 容城县| 麟游县| 惠来县| 涞水县| 连南| 长丰县| 大同市| 固镇县| 麟游县| 巴马| 宣化县| 天水市| 广饶县| 德惠市| 施秉县| 明光市| 丰原市| 锡林郭勒盟| 水富县| 苏尼特左旗| 凤庆县|