王曙霞 焦家林 黃志武
(湖北工程學(xué)院計算機(jī)與信息科學(xué)學(xué)院,湖北 孝感 432000)
移動互聯(lián)終端的海量云數(shù)據(jù)挖掘技術(shù)研究
王曙霞 焦家林 黃志武
(湖北工程學(xué)院計算機(jī)與信息科學(xué)學(xué)院,湖北 孝感 432000)
在如今的計算機(jī)管理技術(shù)不斷發(fā)展的過程中,用戶在使用過程中更加注重信息挖掘速度。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)已經(jīng)不能滿足實際需要,對移動互聯(lián)終端的海量云數(shù)據(jù)挖掘技術(shù)成為研究熱點。本文通過對移動互聯(lián)終端的海量云數(shù)據(jù)挖掘服務(wù)架構(gòu)的研究,提出云數(shù)據(jù)挖掘技術(shù)建模流程以及云數(shù)據(jù)挖掘模型體系結(jié)構(gòu),從而有效提高了移動互聯(lián)終端的海量云數(shù)據(jù)挖掘的實用性與速度。
移動互聯(lián)終端;云數(shù)據(jù);數(shù)據(jù)挖掘
隨著計算機(jī)信息管理技術(shù)的不斷發(fā)展,對于數(shù)據(jù)管理要求水平也在不斷提高。在計算機(jī)信息管理過程中,用戶對于信息提取速度更加關(guān)注。在互聯(lián)網(wǎng)移動終端,客戶在使用過程中的信息挖掘速度是影響計算機(jī)信息管理效率非常重要的一個指標(biāo)[1]。目前,海量云數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了人們關(guān)注的熱點研究問題。算法包括基于馬爾科夫算法的數(shù)據(jù)挖掘方法、基于K均值聚類算法的數(shù)據(jù)挖掘方法以及基于集中式云數(shù)據(jù)計算的海量云數(shù)據(jù)挖掘方法。其中,基于集中式云數(shù)據(jù)計算是最常見的計算方法。海量云數(shù)據(jù)挖掘方法的應(yīng)用十分廣泛,作為最實用的研究課題,受到許多有關(guān)專家和學(xué)者的重視,未來的發(fā)展前景十分廣闊。在移動互聯(lián)終端的海量云數(shù)據(jù)信息管理過程中,數(shù)據(jù)對象差異比較大并且具有復(fù)雜性較大等特點。
目前,移動互聯(lián)終端海量云數(shù)據(jù)具有超大規(guī)模的存儲以及計算能力,云數(shù)據(jù)具有結(jié)構(gòu)與資源動態(tài)的伸縮性,同時通過虛擬化的技術(shù)與龐大的資源提供服務(wù)?;谝苿踊ヂ?lián)終端的海量云數(shù)據(jù)特點讓數(shù)據(jù)分析、儲存和應(yīng)用具有商業(yè)化發(fā)展的特點,讓云數(shù)據(jù)挖掘成為一個非常具有應(yīng)用價值的研究領(lǐng)域。在業(yè)務(wù)的不斷增長中,企業(yè)數(shù)據(jù)庫對于商業(yè)數(shù)據(jù)的積累數(shù)量在不斷增加,傳統(tǒng)的移動互聯(lián)終端海量云數(shù)據(jù)挖掘技術(shù)已經(jīng)無法滿足如此大量數(shù)據(jù)對計算能力的需求。且傳統(tǒng)的集中式海量云數(shù)據(jù)計算法在對數(shù)據(jù)進(jìn)行挖掘處理的時候,會使算法陷入一個無窮對比的情況,存在時間復(fù)雜度高、算法不收斂等弊端,大大降低了信息管理的效率。所以需要建立一個高性能計算能力的移動互聯(lián)終端海量數(shù)據(jù)挖掘模式[3]。同時為了適應(yīng)數(shù)據(jù)數(shù)量的不斷增長以及滿足實際的跨地區(qū)服務(wù)需要,企業(yè)的數(shù)據(jù)儲存要分布儲存在數(shù)據(jù)中心,構(gòu)建一個能夠處理分布式執(zhí)行數(shù)據(jù)、分布式數(shù)據(jù)儲存的數(shù)據(jù)挖掘模式。
現(xiàn)在大多數(shù)的數(shù)據(jù)挖掘解決方案都是以系統(tǒng)為中心,更加注重系統(tǒng)工程以及算法,但是往往忽略了從用戶角度出發(fā)的數(shù)據(jù)挖掘技術(shù)應(yīng)用,增加了用戶在使用系統(tǒng)過程中的難度。使得一些數(shù)據(jù)挖掘工具只能針對技術(shù)人員使用,如果對于算法不了解,很難得出好的模型,這對于企業(yè)縱向開發(fā)數(shù)據(jù)挖掘技術(shù)平臺不僅增加了難度,同時也增加了企業(yè)成本。移動互聯(lián)終端的海量云技術(shù)從面向服務(wù)的方面為數(shù)據(jù)挖掘提供更好的解決方案。在移動互聯(lián)終端的海量云數(shù)據(jù)的存儲、應(yīng)用等過程中都是可以共享的資源[4]。作為一種商業(yè)計算模式,能夠?qū)⒁苿踊ヂ?lián)終端的海量云數(shù)據(jù)挖掘作為一種服務(wù)按需出售,同時降低了一些中小企業(yè)的數(shù)據(jù)挖掘成本,為移動終端的海量云數(shù)據(jù)挖掘商業(yè)應(yīng)用提供更好的平臺。移動互聯(lián)終端的海量云數(shù)據(jù)挖掘的功能集合包括分析、挖掘、數(shù)據(jù)選擇、數(shù)據(jù)集成等,并通過對這些功能的混合搭配形成新的復(fù)合應(yīng)用。并且通過虛擬化、接口、集成等技術(shù)[5],將軟硬件封裝打包成為相對應(yīng)的服務(wù)模塊,相應(yīng)基礎(chǔ)設(shè)施、平臺應(yīng)用等不同的服務(wù)請求,從而形成一整套完整的服務(wù)模式,因此在移動互聯(lián)網(wǎng)終端的海量數(shù)據(jù)挖掘下,能夠為用戶提供出一整套良好的解決方案,根據(jù)數(shù)據(jù)挖掘的行為和需要,結(jié)合云計算的系統(tǒng)體系,設(shè)計一套完整的數(shù)據(jù)挖掘服務(wù)結(jié)構(gòu),如下圖1所示。
圖1 基于移動互聯(lián)終端的海量云數(shù)據(jù)挖掘服務(wù)結(jié)構(gòu)
實現(xiàn)移動互聯(lián)終端的海量云數(shù)據(jù)挖掘,最重要的是通過對上述的系統(tǒng)框架進(jìn)行分析,建立一個數(shù)據(jù)挖掘組件模型。通過對于實際服務(wù)應(yīng)用的數(shù)據(jù)、識別、描述的關(guān)聯(lián),構(gòu)建出一個完整的組件模型。具體的組建流程如圖2所示。
圖2 移動互聯(lián)終端的海量云數(shù)據(jù)挖掘技術(shù)服務(wù)創(chuàng)建流程
在問題領(lǐng)域中理解并且收集數(shù)據(jù)挖掘服務(wù)的相關(guān)信息,對于其核心功能定位同時支撐所需服務(wù)數(shù)據(jù)的產(chǎn)出。通過對于獲取數(shù)據(jù)挖掘的相關(guān)業(yè)務(wù)形成服務(wù)數(shù)據(jù)挖掘項目中的候選項目。同時在功能和數(shù)據(jù)組成的數(shù)據(jù)挖掘服務(wù)中,對于相關(guān)數(shù)據(jù)建立關(guān)聯(lián)。通過對于整體方法和服務(wù)的數(shù)據(jù)綁定,實現(xiàn)服務(wù)定義的功能。通過對服務(wù)結(jié)構(gòu)的統(tǒng)一,實現(xiàn)獨立的服務(wù)組件。
為了實現(xiàn)上述移動互聯(lián)終端的海量云數(shù)據(jù)服務(wù)創(chuàng)建流程,在模型中的體系結(jié)構(gòu)如表1所示。
表1 移動互聯(lián)終端海量數(shù)據(jù)挖掘模型體系結(jié)構(gòu)
在移動互聯(lián)終端海量數(shù)據(jù)挖掘模型體系結(jié)構(gòu)中,基礎(chǔ)設(shè)施層主要提供數(shù)據(jù)挖掘服務(wù)所需的存儲資源?;A(chǔ)設(shè)施層通過終端接口將各種物理資源接入到網(wǎng)絡(luò)中,實現(xiàn)互聯(lián)網(wǎng)與現(xiàn)實物理資源的共享,并且為虛擬化的服務(wù)過程提供接口[6]。同時虛擬化層通過虛擬化工具的利用,將移動互聯(lián)終端的海量云數(shù)據(jù)下的分布式資源相匯聚,并且進(jìn)行集中、統(tǒng)一的資源管理,從而實現(xiàn)移動互聯(lián)終端的海量云數(shù)據(jù)挖掘中資源的合理分配,將封裝資源統(tǒng)一提供給平臺層進(jìn)行開發(fā)應(yīng)用。而平臺層作為數(shù)據(jù)挖掘服務(wù)中的核心服務(wù)層,為數(shù)據(jù)挖掘服務(wù)的實施和管理提供各種核心的功能,用于任務(wù)實施的管理、計算以及調(diào)度等等。最終的結(jié)果由應(yīng)用層來進(jìn)行處理,應(yīng)用層由接口層和終端層兩部分組成,是提供用戶認(rèn)證、管理、請求的主要服務(wù)端口。用戶可以通過PC機(jī)、頁面、移動終端等等實現(xiàn)訪問與云數(shù)據(jù)挖掘。
在移動互聯(lián)終端的海量云數(shù)據(jù)挖掘技術(shù)中,仍存在研究和應(yīng)用上的不足。根據(jù)海量云數(shù)據(jù)的需信息資源服務(wù)模式,本文提出了數(shù)據(jù)挖掘模型的結(jié)構(gòu)與流程,幫助搭建一個完整的數(shù)據(jù)挖掘服務(wù)體系,并且闡述了數(shù)據(jù)挖掘的整個過程,從而有效提高了移動互聯(lián)終端的海量云數(shù)據(jù)挖掘的實用性與速度。
[1]黃潮.云計算環(huán)境下的海量光纖通信故障數(shù)據(jù)挖掘算法研究[J].激光雜志,2017(1):96-100.
[2]陳炎龍,段紅玉.基于改進(jìn)Hadoop云平臺的海量文本數(shù)據(jù)挖掘[J].湖南師范大學(xué)自然科學(xué)學(xué)報,2016,39(3):84-88.
[3]米允龍,米春橋,劉文奇.海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)研究進(jìn)展[J].計算機(jī)科學(xué)與探索,2015,9(06):641-659.
[4]胡敏,王鵬,于京杰.基于移動互聯(lián)網(wǎng)和數(shù)據(jù)挖掘技術(shù)的門診排隊流程設(shè)計[J].醫(yī)學(xué)研究生學(xué)報,2015(2):192-194.
[5]萬祥,胡念蘇,韓鵬飛,等.大數(shù)據(jù)挖掘技術(shù)應(yīng)用于汽輪機(jī)組運行性能優(yōu)化的研究[J].中國電機(jī)工程學(xué)報,2016,36(2):459-467.
[6]曾志華,李聰.云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法研究[J].計算機(jī)仿真,2016(03):339-342.
[7]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報理論與實踐,2015,38(7):103-108.
Research on the Massive Cloud Data Mining Technology for Mobile Internet Terminal
Wang Shuxia Jiao Jialin Huang Zhiwu
(Hubei Engineering University,Xiaogan 432000,Hubei)
In the development of computer management technology,users pay more attention to the speed of information mining.The traditional data mining technology has been unable to meet the actual needs,the massive cloud data mining technology for mobile Internet terminal becomes a hot research topic.This paper studies on the massive cloud data mining service architecture for mobile terminal,puts forward the modeling process and the structure of cloud data mining,effectively improving the practicability and speed of massive cloud data mining for mobile terminal.
mobile internet terminal;cloud data;data mining
T9311
A
1008-6609(2017)10-0026-03
王曙霞(1975-),女,湖北荊門人,碩士,副教授,研究方向為大數(shù)據(jù)、智能計算、網(wǎng)絡(luò)安全等。
湖北工程學(xué)院科學(xué)研究計劃項目,項目編號:201615。