符春
(長(zhǎng)沙民政職業(yè)技術(shù)學(xué)院 湖南省長(zhǎng)沙市 410004)
近年來,受眾需求日益多元化,要想實(shí)現(xiàn)供需平衡,實(shí)現(xiàn)低成本、高效率的大數(shù)據(jù)平臺(tái)應(yīng)用目標(biāo),務(wù)必落實(shí)聚類分析系統(tǒng)優(yōu)化工作,從而縮小服務(wù)范圍,確保提供的服務(wù)內(nèi)容與大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)需求相對(duì)應(yīng)?;诖?,高度重視大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)的設(shè)計(jì),與時(shí)俱進(jìn)創(chuàng)新設(shè)計(jì)思路、調(diào)整設(shè)計(jì)方案,結(jié)合系統(tǒng)實(shí)際需求選擇適合的設(shè)計(jì)方案,最終優(yōu)化大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)設(shè)計(jì)效果。
大數(shù)據(jù)概念從字面來看,即無法通過陳規(guī)操作技術(shù)處理,只能借助先進(jìn)技術(shù)處理的數(shù)據(jù)。從應(yīng)用層面進(jìn)行概念分析,即用于處理海量數(shù)據(jù)的高新技術(shù)的總稱。大數(shù)據(jù)技術(shù)屬于現(xiàn)代化數(shù)據(jù)現(xiàn)象,它是信息網(wǎng)絡(luò)技術(shù)發(fā)展的產(chǎn)物,形成的新數(shù)據(jù)現(xiàn)象。大數(shù)據(jù)技術(shù)類型與特征分析如下:
大數(shù)據(jù)自身包括結(jié)構(gòu)化、非結(jié)構(gòu)化兩種,其中大數(shù)據(jù)技術(shù)多樣化,技術(shù)類型豐富,如Hadoop 技術(shù)、Hive 技術(shù)、Spark 技術(shù)等,這有利于完善技術(shù)生態(tài),還能為技術(shù)實(shí)踐提供可靠支持。不同大數(shù)據(jù)技術(shù)在功能、特點(diǎn)等方面存在差異,所形成的數(shù)據(jù)集能夠?yàn)闆Q策制定提供參考,更好地服務(wù)于生產(chǎn)生活,推動(dòng)社會(huì)進(jìn)步。
大數(shù)據(jù)技術(shù)具有數(shù)量多、種類多、快速處理、低價(jià)值密度等特征,對(duì)于多量性,以PB 級(jí)單位統(tǒng)計(jì)日志數(shù)據(jù),所采集、存儲(chǔ)、計(jì)算的信息量和數(shù)據(jù)量巨大;對(duì)于多種類,即數(shù)據(jù)信息以圖片、視頻、日志等形式展示,滿足數(shù)據(jù)信息高效利用需求,增強(qiáng)大數(shù)據(jù)技術(shù)適用性;對(duì)于快速性,從數(shù)據(jù)快速增長(zhǎng)、數(shù)據(jù)轉(zhuǎn)型升級(jí)等方面表現(xiàn),數(shù)據(jù)時(shí)效性得到保證后,能夠提高數(shù)據(jù)參考價(jià)值;對(duì)于低價(jià)值密度,指從巨大數(shù)據(jù)量中提取價(jià)值信息,應(yīng)以較高時(shí)間成本和經(jīng)濟(jì)成本為代價(jià),并在機(jī)器算法的支持下提取價(jià)值信息。
當(dāng)前,大數(shù)據(jù)技術(shù)日趨成熟,且已形成完整化、操作性強(qiáng)的數(shù)據(jù)處理方案。大數(shù)據(jù)技術(shù)快速發(fā)展的同時(shí),大數(shù)據(jù)技術(shù)更加豐富,大數(shù)據(jù)技術(shù)實(shí)用性顯著增強(qiáng)。雖然大數(shù)據(jù)不再屬于新興技術(shù),但大數(shù)據(jù)熱度較高,如聚類分析系統(tǒng)設(shè)計(jì)環(huán)節(jié)仍需要大數(shù)據(jù)技術(shù)支撐?;诖?,本文圍繞大數(shù)據(jù)平臺(tái)分析聚類分析系統(tǒng)設(shè)計(jì)要點(diǎn)。
聚類分析指的是,確定定性標(biāo)準(zhǔn),明確劃分依據(jù),據(jù)此完成數(shù)據(jù)對(duì)象到子集的細(xì)分任務(wù)。進(jìn)一步分析可知,物理、抽象的數(shù)據(jù)對(duì)象集合轉(zhuǎn)變?yōu)橄嗨祁惢蛘叽兀诖?,高度相似性的?duì)象會(huì)被納入同一簇,相似性偏低的會(huì)被分為不同簇。概括而言,聚類的目的是缺乏傳統(tǒng)經(jīng)驗(yàn)的狀態(tài)下,以數(shù)據(jù)的相似性為依據(jù),將龐大的數(shù)據(jù)聚合至各個(gè)簇或者類中,目的是保證同一簇中數(shù)據(jù)特征的相似性,以及不同簇中數(shù)據(jù)特征的差異性。下文從聚類分析系統(tǒng)內(nèi)容和類型兩方面進(jìn)行介紹,掌握該系統(tǒng)出現(xiàn)的背景、作用,為系統(tǒng)設(shè)計(jì)拓展思路。同時(shí),具體分析AP 算法、K-Means 聚類、Mean Shift 聚類、CLIQUE 算法,為后續(xù)實(shí)驗(yàn)比較起到鋪墊作用,確保聚類分析系統(tǒng)設(shè)計(jì)工作有計(jì)劃、有目標(biāo)地進(jìn)行,確保劃分聚類算法在聚類分析系統(tǒng)設(shè)計(jì)中有效應(yīng)用。
聚類分析系統(tǒng)是大數(shù)據(jù)時(shí)代發(fā)展的產(chǎn)物,聚類分析系統(tǒng)在需求引導(dǎo)下進(jìn)行任務(wù)創(chuàng)建、系統(tǒng)設(shè)計(jì)、系統(tǒng)應(yīng)用,使系統(tǒng)的服務(wù)效用最大化彰顯,實(shí)現(xiàn)系統(tǒng)穩(wěn)定運(yùn)行、有效投用。當(dāng)前,聚類分析系統(tǒng)用于數(shù)據(jù)挖掘、數(shù)據(jù)對(duì)比,從中提取相似特征,為群集、分類提供依據(jù)。隨著數(shù)據(jù)需求的顯現(xiàn),聚類分析系統(tǒng)實(shí)踐目的明確化,當(dāng)聚類分析需求與聚類分析系統(tǒng)實(shí)踐相對(duì)應(yīng),能夠挖掘數(shù)據(jù)價(jià)值,最終制定合理化、科學(xué)化決策。
從聚類算法視角來看,算法分類不同,所以聚類目標(biāo)存在差異,聚類分析系統(tǒng)應(yīng)用范圍不盡相同。常見AP 算法、K-Means 聚類、Mean Shift 聚類、CLIQUE 算法,K-Means聚類即所輸入數(shù)據(jù)點(diǎn)與聚類中心點(diǎn)的距離最小化,具有性能強(qiáng)、計(jì)算速度快、結(jié)果分布良好、結(jié)果參考價(jià)值高等優(yōu)點(diǎn);Mean Shift 聚類的目標(biāo)傾向于密度聚類目標(biāo),其操作步驟即根據(jù)興趣區(qū)域內(nèi)數(shù)據(jù)密度變化,得知中心點(diǎn)漂移向量,之后移向中心點(diǎn),通過迭代運(yùn)算進(jìn)入密度區(qū),所輸入數(shù)據(jù)均經(jīng)過上述步驟;CLIQUE 算法通過預(yù)設(shè)閾值將網(wǎng)格單元分為稀疏類、稠密類。除此之外,還包括劃分聚類方法,典型算法為KM 劃分聚類算法,它在規(guī)?;瘮?shù)據(jù)處理中發(fā)揮作用,即圍繞簇質(zhì)心進(jìn)行明確、更新,同時(shí),被處理數(shù)據(jù)存儲(chǔ)到緩存區(qū)域、外存區(qū)域,使聚類處理工作有效進(jìn)行。
聚類分析系統(tǒng)基于大數(shù)據(jù)平臺(tái)進(jìn)行應(yīng)用,在此期間,應(yīng)快速、有效突破數(shù)據(jù)價(jià)值挖掘的瓶頸,對(duì)此充分利用高科技信息手段制定決策,據(jù)此優(yōu)化聚類分析系統(tǒng),提高該系統(tǒng)實(shí)用性,使聚類分析系統(tǒng)基于大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)功能優(yōu)化、創(chuàng)造性應(yīng)用的良性循環(huán)。大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)利用計(jì)算機(jī)高新技術(shù)手段對(duì)數(shù)據(jù)信息進(jìn)行深度挖掘,計(jì)算分析獲得需要的、有效的數(shù)據(jù)信息輔助決策。本系統(tǒng)借助大數(shù)據(jù)平臺(tái)在海量數(shù)據(jù)處理方面具備一定優(yōu)勢(shì),以大數(shù)據(jù)平臺(tái)為基礎(chǔ),設(shè)計(jì)并實(shí)現(xiàn)聚類數(shù)據(jù)分析系統(tǒng),滿足數(shù)據(jù)源數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)預(yù)處理,以便將數(shù)據(jù)轉(zhuǎn)變成計(jì)算機(jī)可識(shí)別形式,與此同時(shí),運(yùn)行系統(tǒng)計(jì)算分析數(shù)據(jù),對(duì)結(jié)果可視化。
用戶選擇并確定聚類樣本,接下來獲取行為向量,并分析行為向量的間距,據(jù)此判斷用戶相似度。向量獲取后,針對(duì)向量降維,之后算法聚類,得出聚類結(jié)果。參照核心指標(biāo)進(jìn)行離線大數(shù)據(jù)計(jì)算,得出cluster 核心指標(biāo),并可視化展示。最后由用戶落實(shí)人工二次標(biāo)注,通過聚合計(jì)算再次可視化展示。大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)流程優(yōu)化,能夠快速、準(zhǔn)確捕捉系統(tǒng)需求,為系統(tǒng)設(shè)計(jì)指明方向,真正提高系統(tǒng)有效性。此外,還能為日后大數(shù)據(jù)技術(shù)與聚類分析系統(tǒng)融合奠定基礎(chǔ),實(shí)現(xiàn)前瞻性預(yù)測(cè)、準(zhǔn)確決策。
大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)的應(yīng)用,以需求為導(dǎo)向,同時(shí)根據(jù)系統(tǒng)應(yīng)用需求進(jìn)行系統(tǒng)優(yōu)化,更好地滿足新時(shí)代發(fā)展需求,確保大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)價(jià)值化應(yīng)用。網(wǎng)絡(luò)信息時(shí)代到來后,用戶的網(wǎng)絡(luò)瀏覽足跡不同,不同足跡對(duì)應(yīng)不同行為,這是人群聚類的前提條件。對(duì)于策略制定者來說,能夠根據(jù)聚類分析結(jié)果分層制定發(fā)展戰(zhàn)略,更好地滿足人群需求,使大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)供需平衡。當(dāng)確定系統(tǒng)目標(biāo)群體時(shí),需要工作人員協(xié)作,并且細(xì)化聚類人群條件,在信息提取、成本控制等方面做足充分準(zhǔn)備。對(duì)此,選定人群、K 值聚類、直觀掌握聚類分布情況、聚類數(shù)量標(biāo)注、聚合分析、自由調(diào)度。
具體分析系統(tǒng)需求,根據(jù)大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)應(yīng)用流程進(jìn)行需求定位,即逐層分析展示環(huán)節(jié)、調(diào)度環(huán)節(jié)、計(jì)算環(huán)節(jié)、聚類環(huán)節(jié)的系統(tǒng)需求。展示環(huán)節(jié)大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)功能包括登錄界面賬號(hào)及密碼輸入,根據(jù)用戶登錄后的操作行為進(jìn)行人群劃分,掌握不同用戶的操作要點(diǎn),根據(jù)足跡信息定位用戶需求。其中,大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)能夠自動(dòng)化操作,如聚類分析、聚合、聚類計(jì)算、展示等,一定程度上減少人為工作量,為后續(xù)調(diào)度功能需求定位起到鋪墊作用。接下來,響應(yīng)界面展示請(qǐng)求,并針對(duì)聚類任務(wù)調(diào)度分析,更好地滿足用戶需求。大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)的任務(wù)調(diào)度,從調(diào)度頻次、調(diào)度能力等方面進(jìn)行衡量,對(duì)此設(shè)置權(quán)限控制體系,人群條件、存儲(chǔ)條件等合理化設(shè)置,且任務(wù)流程優(yōu)化,全面掌握聚類任務(wù)執(zhí)行情況。大數(shù)據(jù)計(jì)算期間,以數(shù)據(jù)集、結(jié)果集為依據(jù),根據(jù)用戶具體需求進(jìn)行計(jì)算。計(jì)算功能效用發(fā)揮時(shí),充分利用聚類系統(tǒng)資源,增強(qiáng)系統(tǒng)拓展性、穩(wěn)定性,從而保證大數(shù)據(jù)計(jì)算準(zhǔn)確性,實(shí)現(xiàn)低成本、高效維護(hù)等目標(biāo)。大數(shù)據(jù)平臺(tái)聚類分析的過程中,基于用戶直觀獲取需求、頁(yè)面展示需求適當(dāng)降低維度,更好地滿足用戶需求。
網(wǎng)絡(luò)信息時(shí)代到來后,大數(shù)據(jù)技術(shù)動(dòng)態(tài)創(chuàng)新,這為大數(shù)據(jù)平臺(tái)聚類分析提供技術(shù)支撐。為動(dòng)態(tài)掌握用戶需求,使大數(shù)據(jù)平臺(tái)聚類分析工作價(jià)值化落實(shí),應(yīng)精心設(shè)計(jì)系統(tǒng),通過發(fā)揮系統(tǒng)優(yōu)勢(shì)科學(xué)制定發(fā)展決策。大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)的設(shè)計(jì)工作包括架構(gòu)設(shè)計(jì)、詳細(xì)設(shè)計(jì),當(dāng)設(shè)計(jì)工作具體落實(shí),最大化彰顯功能效用。
聚類系統(tǒng)功能架構(gòu)設(shè)計(jì)期間,設(shè)計(jì)人員優(yōu)化架構(gòu),提高系統(tǒng)操作的便捷效能,并為系統(tǒng)維護(hù)提供條件,確保系統(tǒng)合理化、有效化應(yīng)用。架構(gòu)包括聚類任務(wù)架構(gòu)、標(biāo)注及聚合架構(gòu),得出指標(biāo)數(shù)據(jù),用于分析用戶行為。員工登錄后,顯示并確認(rèn)身份信息,接下來存檔,為后續(xù)自動(dòng)登錄省去復(fù)雜步驟。聚類任務(wù)構(gòu)建、編輯等操作規(guī)范化進(jìn)行。設(shè)計(jì)后的聚類任務(wù)包括名稱、次數(shù)、權(quán)限等,基于標(biāo)注展開后續(xù)分析。除了系統(tǒng)功能架構(gòu)精心設(shè)計(jì)外,系統(tǒng)技術(shù)架構(gòu)設(shè)計(jì)仍要具體化,最大化發(fā)揮技術(shù)優(yōu)勢(shì),即展示環(huán)節(jié)、調(diào)度環(huán)節(jié)、聚類環(huán)節(jié)、計(jì)算環(huán)節(jié)的技術(shù)支撐,具體設(shè)計(jì)要點(diǎn)如下:
展示環(huán)節(jié)技術(shù)設(shè)計(jì)要點(diǎn),即用戶與界面交互,包括聚類任務(wù)展示、聚類結(jié)果展示,設(shè)計(jì)過程中細(xì)致分析用戶行為,通過數(shù)據(jù)獲取、數(shù)據(jù)傳遞,在界面展示設(shè)計(jì)階段提供新的思路,從而展現(xiàn)具有美感的系統(tǒng)界面,為用戶帶來良好體驗(yàn)。調(diào)度環(huán)節(jié)技術(shù)設(shè)計(jì)要點(diǎn),技術(shù)架構(gòu)設(shè)計(jì)期間,動(dòng)態(tài)獲取調(diào)度請(qǐng)求,據(jù)此優(yōu)化數(shù)據(jù)、整合數(shù)據(jù),通過用戶與調(diào)度系統(tǒng)交互,提高系統(tǒng)運(yùn)行效率,順利完成人機(jī)交互任務(wù),為人群聚類提供便利條件。算法聚類模塊的技術(shù)設(shè)計(jì),基于K-Means 聚類分析,圍繞用戶設(shè)置的K 值聚類分析,將相似特征的聚為一類,得出數(shù)據(jù)信息,為后續(xù)計(jì)算提供依據(jù),得到計(jì)算指標(biāo)。計(jì)算環(huán)節(jié)技術(shù)設(shè)計(jì)要點(diǎn),即圍繞數(shù)據(jù)倉(cāng)庫(kù)體系調(diào)整計(jì)算方式,根據(jù)預(yù)設(shè)層級(jí)順利計(jì)算,得出準(zhǔn)確的計(jì)算結(jié)果。
大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)包括多個(gè)模塊,圍繞具體模塊進(jìn)行設(shè)計(jì),保證系統(tǒng)的實(shí)用性。聚類分析系統(tǒng)設(shè)計(jì)期間,通信方案的設(shè)計(jì)工作必不可少。
對(duì)于展示通信方案與調(diào)度通信方案的具體設(shè)計(jì),需要設(shè)計(jì)人員創(chuàng)新思想、改變方法,在數(shù)據(jù)信息傳輸、信息設(shè)備接收等方面做足準(zhǔn)備,保證信息安全性。為提高數(shù)據(jù)信息的參考價(jià)值,運(yùn)用以太網(wǎng)數(shù)據(jù)連接方式,實(shí)現(xiàn)數(shù)據(jù)信息完整獲取、安全傳輸、有效利用。通信過程中,系統(tǒng)針對(duì)信息請(qǐng)求逐一回應(yīng),雖然請(qǐng)求主體多元、請(qǐng)求內(nèi)容多樣,服務(wù)器仍會(huì)按照時(shí)間序列給予應(yīng)答。為避免通信請(qǐng)求被篡改,基于HTTPS 協(xié)議完成通信,順利實(shí)現(xiàn)數(shù)據(jù)傳輸任務(wù);SSL 協(xié)議、TLS 協(xié)議分別在數(shù)據(jù)通信中提供支持,助力于聚類分析系統(tǒng)的模塊設(shè)計(jì)。HTTPS 設(shè)計(jì)環(huán)節(jié),數(shù)據(jù)傳輸遵循一定步驟,包括網(wǎng)址獲取、網(wǎng)址登錄,接下來申請(qǐng)數(shù)字證書,保證信息完整性和真實(shí)性。服務(wù)器根據(jù)需求變化顯示詳細(xì)信息,使大數(shù)據(jù)聚類分析系統(tǒng)有效運(yùn)行。通信雙方傳輸數(shù)據(jù)的過程中,通過對(duì)稱加密保證數(shù)據(jù)信息安全,豐富用戶體驗(yàn)。
對(duì)于調(diào)度通信方案與計(jì)算通信方案的具體設(shè)計(jì),需要設(shè)置目錄,根據(jù)人群聚類情況向目錄傳遞信息,從而展示聚類任務(wù)執(zhí)行情況。聚類分析系統(tǒng)用于大數(shù)據(jù)平臺(tái),為彰顯系統(tǒng)的積極作用,在調(diào)度通信方案與計(jì)算通信方案的設(shè)計(jì)環(huán)節(jié)周期性檢測(cè)目錄,根據(jù)檢測(cè)結(jié)果調(diào)整設(shè)計(jì)方案,更好地指導(dǎo)系統(tǒng)實(shí)踐,服務(wù)于大數(shù)據(jù)平臺(tái)建設(shè)與運(yùn)行。調(diào)度通信方案設(shè)計(jì)階段封裝接口,目的是全過程掌握實(shí)例狀態(tài),并動(dòng)態(tài)優(yōu)化流程。除此之外,借助消息隊(duì)列進(jìn)行通信,信息傳輸者與接收者約定好數(shù)據(jù)格式,指定特定的key,同時(shí),參與者高度重視數(shù)據(jù)信息,動(dòng)態(tài)掌握信息情況。
對(duì)于調(diào)度通信方案與計(jì)算模塊通信方案的具體設(shè)計(jì),設(shè)計(jì)人員既要掌握交互需求,又要準(zhǔn)確計(jì)算,順利完成計(jì)算任務(wù)。在這一過程中,應(yīng)事先規(guī)劃,并拓展思路,實(shí)現(xiàn)數(shù)據(jù)信息共享。設(shè)計(jì)期間,遵循便捷化、易操作等原則,調(diào)整計(jì)算邏輯,根據(jù)協(xié)議內(nèi)容順利完成數(shù)據(jù)信息傳輸。
從功能性目標(biāo)、非功能性目標(biāo)兩方面進(jìn)行分析。對(duì)于功能性目標(biāo),包括云計(jì)算環(huán)境、面向服務(wù)開放式體系架構(gòu)、多源異構(gòu)數(shù)據(jù)集成、數(shù)據(jù)云存儲(chǔ)管理、Web 分析建模、數(shù)據(jù)融合處理、結(jié)果可視化、數(shù)據(jù)質(zhì)量監(jiān)控、資源調(diào)度與管理等具體設(shè)計(jì)。其中,環(huán)境設(shè)計(jì)期間,云計(jì)算環(huán)境包括云存儲(chǔ)、云資源調(diào)度與管理、云計(jì)算編程模型、云計(jì)算執(zhí)行引擎等,支持全流程分布式并行與開發(fā)。架構(gòu)設(shè)計(jì)期間,針對(duì)插件式開發(fā)與數(shù)據(jù)集成進(jìn)行具體設(shè)計(jì),創(chuàng)設(shè)滿足拓展需求的系統(tǒng)環(huán)境。數(shù)據(jù)集成設(shè)計(jì)期間,圍繞系統(tǒng)數(shù)據(jù)集成接口與采集接口集成進(jìn)行精心設(shè)計(jì)。管理設(shè)計(jì)階段,基于常用操作(數(shù)據(jù)快速查詢、數(shù)據(jù)索引和數(shù)據(jù)提取等)完成云存儲(chǔ)及管理設(shè)計(jì)。Web 分析建模設(shè)計(jì)目標(biāo),即建立數(shù)據(jù)建模系統(tǒng),基于數(shù)據(jù)分析模型實(shí)現(xiàn)在線編輯。融合處理設(shè)計(jì)目標(biāo),主要圍繞音頻、視頻、結(jié)構(gòu)化等數(shù)據(jù)系統(tǒng)化處理,基于大數(shù)據(jù)分析環(huán)境,尊重場(chǎng)景差異,客觀分析數(shù)據(jù)分析反饋質(zhì)量需求。結(jié)果可視化設(shè)計(jì)目標(biāo),以網(wǎng)頁(yè)結(jié)合、可視化工具運(yùn)用等方式展示分析結(jié)果數(shù)據(jù)。數(shù)據(jù)質(zhì)量管控設(shè)計(jì)目標(biāo),動(dòng)態(tài)優(yōu)化數(shù)據(jù)監(jiān)管體系,充分利用監(jiān)管數(shù)據(jù),據(jù)此實(shí)現(xiàn)系統(tǒng)操作化操作、穩(wěn)定性運(yùn)行。資源調(diào)度與管理設(shè)計(jì)目標(biāo),即數(shù)據(jù)間緊密聯(lián)系。對(duì)于非功能性目標(biāo),目的是實(shí)現(xiàn)數(shù)據(jù)交互共享、系統(tǒng)協(xié)作、服務(wù)創(chuàng)新、數(shù)據(jù)質(zhì)量?jī)?yōu)化的目標(biāo)。
(1)分析數(shù)據(jù)來源。大數(shù)據(jù)技術(shù)在各行業(yè)廣泛應(yīng)用,聚類分析系統(tǒng)設(shè)計(jì)的首要步驟,即設(shè)計(jì)受眾數(shù)據(jù)來源,這是數(shù)據(jù)分析、決策制定的關(guān)鍵。
(2)設(shè)計(jì)受眾數(shù)據(jù)來源特征。當(dāng)前數(shù)據(jù)信息量豐富,為保證數(shù)據(jù)實(shí)時(shí)性、高價(jià)值等需求,在設(shè)計(jì)環(huán)節(jié)把握受眾數(shù)據(jù)來源特征。
(3)系統(tǒng)各模塊設(shè)計(jì)。數(shù)據(jù)采集模塊、數(shù)據(jù)存儲(chǔ)模塊、數(shù)據(jù)分析模塊、結(jié)果可視化展示模塊具體設(shè)計(jì)。
為證明上述設(shè)計(jì)具有實(shí)用性,圍繞UCI 數(shù)據(jù)集的數(shù)據(jù)信息展開聚類實(shí)驗(yàn),其中規(guī)模、屬性維度、類別數(shù)的數(shù)據(jù)集信息歸納為:bupa、haber-man、iris、diab-etes、hayes-roth、heart-statlog、page-blocks 的規(guī)模分別 是350、300、148、765、155、274、5362;屬性維度分別是4、3、5、7、6、12、11;類別數(shù)分別是2、2、2、3、2、1、4。評(píng)價(jià)指標(biāo)選為F-Measure 和T,當(dāng)運(yùn)用AP 算法和KM 算法時(shí),聚類結(jié)果如表1 所示。
表1 :AP 算法和KM 算法的聚類結(jié)果對(duì)比
分析表格數(shù)據(jù)可知,AP 算法bupa、haber-man、iris、diab-etes、hayes-roth、heart-statlog 的F-Measure 指標(biāo)分別為0.6338、0.5021、0.5938、0.6337、0.4523、0.6423,相對(duì)而言,低于KM 算法數(shù)據(jù)集的F-Measure 指標(biāo),KM 算法bupa、
haber-man、iris、diab-etes、hayes-roth、heart-statlog、pageblocks 的F-Measure 指標(biāo)分別為0.6754、0.5574、0.7033、0.6436、0.5623、0.5884、0.7758。AP 算法bupa、haberman、iris、diab-etes、hayes-roth、heart-statlog、的T/s 指標(biāo)分別為2.4841、2.0147、0.5796、11.6395、0.7023、1.5697,KM 算法數(shù)據(jù)集各項(xiàng)T/s 指標(biāo)為0.0028、0.0042、0.0041、0.0074、0.0023、0.0064、0.0965,時(shí)間明顯減少。
本文基于大數(shù)據(jù)平臺(tái)設(shè)計(jì)聚類分析系統(tǒng),劃分聚類方法的數(shù)據(jù)集F-Measure 指標(biāo)——bupa、haber-man、iris、diabetes、hayes-roth、heart-statlog、page-blocks 分別是0.6615、0.7255、0.7435、0.6650、0.5756、0.6632、0.8265,高于KM 算法數(shù)據(jù)集F-Measure 指標(biāo);T/s 指標(biāo)——bupa、haberman、iris、diab-etes、hayes-roth、heart-statlog、page-blocks分別是0.0031、0.0039、0.0045、0.0078、0.0028、0.0067、0.0989。可見本文算法在速度指標(biāo)方面,與KM 算法的速度相當(dāng)。
綜合來看,UCI 數(shù)據(jù)集上的大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)設(shè)計(jì)具有實(shí)用性和有效性,日后設(shè)計(jì)工作能夠以此為借鑒,進(jìn)一步優(yōu)化聚類分析系統(tǒng),真正為決策合理化、科學(xué)化制定提供依據(jù)。
在大數(shù)據(jù)集上分析聚類分析系統(tǒng)設(shè)計(jì)的聚類效果,數(shù)據(jù)集規(guī)??刂圃?500 之內(nèi)。從上述算法比較中可知,AP 算法的時(shí)間長(zhǎng)、伸縮性差,所以在大數(shù)據(jù)處理方面的利用率較低?;诖?,比較分析KM 算法和文中聚類分析系統(tǒng)劃分聚類方法,表2 圍繞F-Measure、T/s 進(jìn)行比較。
表2 :KM 算法與本文方法的對(duì)比實(shí)驗(yàn)
分析表格數(shù)據(jù)可知,本文算法的F-Measure 均達(dá)到1.0000,KM 算法的F-Measure 小于1;KM 算法的T/s 指標(biāo)在0.0654 和55.2364 之間,本文算法的T/s 最小為0.1908,最大為143.8062。KM 算法在大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)設(shè)計(jì)中雖然有良好性能,但個(gè)別數(shù)據(jù)的F-Measure 指標(biāo)和T/s 指標(biāo)未顯示。相對(duì)比而言,本文算法的實(shí)用性較強(qiáng),其聚類效果良好,使聚類分析系統(tǒng)價(jià)值化應(yīng)用。
綜上所述,大數(shù)據(jù)時(shí)代悄然而至,在這一時(shí)代背景下,聚類分析系統(tǒng)的實(shí)效性被提出較高要求,從系統(tǒng)設(shè)計(jì)角度切入,通過分析設(shè)計(jì)需求,掌握架構(gòu)設(shè)計(jì)和技術(shù)設(shè)計(jì)要點(diǎn)。并以實(shí)驗(yàn)方式證明本文算法用于大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)設(shè)計(jì)的實(shí)用性,為日后算法推廣奠定基礎(chǔ),最終提高聚類分析系統(tǒng)利用率,更好地服務(wù)于決策制定和經(jīng)營(yíng)管理。放眼長(zhǎng)遠(yuǎn),大數(shù)據(jù)平臺(tái)聚類分析系統(tǒng)動(dòng)態(tài)改進(jìn)、全面優(yōu)化,需要設(shè)計(jì)人員創(chuàng)新思路、調(diào)整方法,最大化發(fā)揮聚類分析系統(tǒng)優(yōu)勢(shì)。