張勤
摘要:K-means算法是一種分類的聚類算法,通過這種算法,對藥品銷售數(shù)據(jù)進行處理,把銷量較好的一組顯示給用戶,實現(xiàn)藥品銷售排行功能,以方便用戶的采購,也便于銷售商掌握銷售規(guī)律,采取相應的措施。這樣也就完成K-means聚類算法的實現(xiàn)過程。
關鍵詞:聚類算法;可行性;聚類算法的實現(xiàn)過程
中圖分類號:TP301.6 文獻標識碼:A 文章編號:1672-9129(2020)08-0182-01
1 問題的提出
當今是一個信息爆炸的時代,在生產(chǎn)和生活的各個方面,每天都有形形色色的海量數(shù)據(jù)不斷出現(xiàn),這些數(shù)據(jù)背后都隱藏著有價值的信息。這些信息 需要被挖掘才能體現(xiàn)價值,聚類是這個過程中最常用到的一個技術(shù),所以聚類被越來越多地運用,得到了越來越多的重視。例如,在藥品銷售方面,既存在銷路一般的滯銷藥,也有著銷售速度極快的暢銷藥。而倘若能夠準確把握其中的數(shù)據(jù)信息,采取聚類分析的方法來對相關藥品實施統(tǒng)一化的銷售處理,就能夠讓藥品的處理率得到有力提升,而且還可以通過對藥品銷售規(guī)律的把控,科學化地處理多類別藥品。
2 K-means聚類算法
客觀地說,聚類分析屬于一種以挖掘數(shù)據(jù)為核心的功能,其能夠充當為一種獲取數(shù)據(jù)分布情況的工具,為使用者正確認知類別對象特點,進而進行集中化的類別分析提供數(shù)據(jù)支持。同時,其作為當前較為時興的一種算法,能夠?qū)ψ⑷胧袌鰻I銷、生物學、空間數(shù)據(jù)技術(shù)、機器學習、統(tǒng)計學以及數(shù)據(jù)挖掘等多個領域提供便利。由于各領域都存有數(shù)據(jù)儲存量龐大的數(shù)據(jù)庫。故此,聚類分析意境逐步發(fā)展成數(shù)據(jù)挖掘領域中一個極其重要的研究課題。對于k-means 算法而言,其接受輸入量為k;然后以k為聚類劃分n各數(shù)據(jù)對象,進而獲得相應的聚類滿足:不同聚類中各個對象的相似度不高,而同一聚類中各個對象則有著極高的相似度。而其中的相似度,則是以聚類對象的“中心對象”,也就是均值來計算而得。
3 K-means聚類算法的可行性
聚類算法在各個方面都有所應用,在生物學上對于基因的聚類,分別同一物種;在上市分析上幫助銷售人員選擇客戶群;在房地產(chǎn)選址方面也能選擇較好的房源;在居民階梯電量制定方法雙眼皮也有應用?,F(xiàn)如今藥品的數(shù)量、種類繁多,單獨去了解一個或一類藥品費時費力,而聚類K-means正是分類的算法,在此以銷量作為分組的依據(jù),把銷量較好的顯示給用戶。銷量較差的提示給管理員,采取相應的措施。所以該系統(tǒng)使用K-means算法也是可行的。
4 K-means聚類算法的基本步驟
(1)從數(shù)據(jù)中選擇k個對象作為初始聚類中心;
(2)計算每個聚類對象到聚類中心的距離來劃分;
(3)再次計算每個聚類中心
(4)計算標準測度函數(shù),到達到最大迭代次數(shù),則停止,否則,繼續(xù)操作。
5 K-means聚類算法的實現(xiàn)過程
首先對所選數(shù)據(jù)進行預處理和標準化,做預處理是因為數(shù)據(jù)的“不純凈”,提高數(shù)據(jù)的挖掘質(zhì)量,節(jié)約數(shù)據(jù)挖掘的時間;數(shù)據(jù)標準化是為了壓縮數(shù)據(jù),提高數(shù)據(jù)的準確性和有效性。標準化的方法為:已知有n個藥品,設第i個藥品,第j個屬性的值為Xij,
下面是選擇的部分數(shù)據(jù):
經(jīng)過K-means聚類后可得到兩大藥品分類,第一類編號為:3、4、5、6、7;第二類編號為:8、9、11、12、13。
結(jié)語:用數(shù)據(jù)聚類K-means算法,通過聚類分析把銷售數(shù)據(jù)分為幾組,把銷量好的顯示給用戶,便于采購。銷量不好的反饋給管理者,以便采取措施,調(diào)整銷售策略。下一步將軟件的開發(fā)和完善。
參考文獻:
[1] 阿霍. 計算機算法設計與分析(英文版)[M].北京:機械工業(yè)出版社,2006.
[2] 任恒妮. 大數(shù)據(jù) K-means 聚類算法的研究與應用[J].信息技術(shù)2019(11)
[3] 王曉東.計算機算法設計與分析[M].北京:電子工業(yè)出版社,2018.
[4] 王曉云,陳業(yè)綱.計算機算法設計、分析與實現(xiàn)[M].北京:科學出版社,2012.