昂朝群 胡 煒 胡 冉
基于高性能云數(shù)據(jù)挖掘的算法研究?
昂朝群1胡 煒2胡 冉1
(1.海軍工程大學(xué)計算機工程系 武漢 430033)(2.中國人民解放軍91919部隊 黃岡 438000)
論文設(shè)計并實現(xiàn)了一種可以用于存檔、分析、和挖掘大型分布式數(shù)據(jù)集的高性能云。文中定義云為一種可以提供互聯(lián)網(wǎng)資源與(或)服務(wù)的基礎(chǔ)設(shè)施。存儲云提供存儲服務(wù),計算云則提供計算服務(wù)。高性能且能保持這些服務(wù)自身的有效性和效率不變,自然很合理地被預(yù)期作為實現(xiàn)大規(guī)模數(shù)據(jù)挖掘的中間步驟。論文提出了一種使用Sector/Sphere框架和關(guān)聯(lián)規(guī)則的云數(shù)據(jù)挖掘方法,同時給出了由Sphere計算云和關(guān)聯(lián)規(guī)則支持的編程范例。
Sphere;Sector;數(shù)據(jù)挖掘;云計算;高性能云
AbstractThis paper describes the design and implementation of a high-performance cloud to archive,analyze and mine large distributed data sets.By a cloud,an infrastructure that provides resources and/or services over the Internet.A storage cloud provides storage services,while a compute cloud provides compute services.High-performance can be reasonably intended as a in?termediate step of high-performance data mining activities over large-scale amounts of data,while still keeping unaltered the prima?ry and self-contained focus of achieving effectiveness and efficiency in these task themselves.In this paper an algorithm is proposed to mine the data from the cloud using Sector/Sphere framework and association rules,and also describe the programming paradigm supported by the Sphere compute cloud and association rules.
Key WordsSphere,Sector,data mining,cloud computing,high-performance cloud
Class NumberTP301.6
高性能數(shù)據(jù)挖掘系統(tǒng)的設(shè)計需要利用處理器的強大和共享的優(yōu)勢,因為數(shù)據(jù)是通過消息傳遞實例計算并分布在各個處理器上的,然后所有的結(jié)果會被匯總而這個過程會在處理器出現(xiàn)新數(shù)據(jù)時重復(fù)[1]。數(shù)據(jù)挖掘是從不同角度分析數(shù)據(jù)并將它們歸納成有用的信息的過程,它可以幫助人們增加收益、減少開支。數(shù)據(jù)挖掘允許用戶從不同的維度或者角度去分析數(shù)據(jù),對數(shù)據(jù)進行分類,總結(jié)出確定的關(guān)系,而關(guān)聯(lián)準(zhǔn)則是尋找大型數(shù)據(jù)集數(shù)據(jù)項之間有趣關(guān)系的一種方法[2]。通過關(guān)聯(lián)規(guī)則挖掘,本文已經(jīng)確定了基于預(yù)定義支持的頻繁項集。本文中,本文提出了一種基于完全不同范型的分布式高性能數(shù)據(jù)挖掘系統(tǒng)-Sector/Sphere。Sector用來為以分布式索引進行管理的大型數(shù)據(jù)集提供長期的持久存儲。不同的分割碎片遍布在由Sector管理的分布式存儲中。Sector通過復(fù)制數(shù)據(jù)以確保數(shù)據(jù)的壽命,減少檢索它時的時延,提供并行處理的機會。Sector的設(shè)計利用了大面積高性能網(wǎng)絡(luò)的優(yōu)勢。Sphere通過流處理模式并行執(zhí)行用戶定義函數(shù)來處理由Sector管理的數(shù)據(jù)。本文希望通過這樣讓相同的用戶定義函數(shù)適用于每一個由Sector管理的數(shù)據(jù)集的數(shù)據(jù)記錄。這將被用于獨立處理每一個數(shù)據(jù)集碎片(如果有足夠的處理器),實現(xiàn)一種自然的并行化。Sector/Sphere的設(shè)計將使數(shù)據(jù)頻繁地被處理卻不需要移動??傮w來說,Sector分布式的,索引式的管理數(shù)據(jù);Sphere使用用戶定義函數(shù)在由Sector管理的數(shù)據(jù)流的統(tǒng)一方式下處理數(shù)據(jù);本文將Sector/Sphere用于使用了專門設(shè)計的特定的網(wǎng)絡(luò)原型的大面積高性能網(wǎng)絡(luò)。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取有用和有趣的知識的處理過程。數(shù)據(jù)挖掘的知識模式有多種不同的類型,常用的模式有:關(guān)聯(lián)模式、分類模型、類模型、序列模式等[3]。關(guān)聯(lián)規(guī)則是一種依賴規(guī)則,它在其他項發(fā)生的基礎(chǔ)上預(yù)測一個項是否發(fā)生。關(guān)聯(lián)規(guī)則在幫助做出關(guān)于存儲布局,追加銷售等等商業(yè)決策時簡單而有效。當(dāng)大量的數(shù)據(jù)需要被收集和儲存時,本文通常使用分布式系統(tǒng)實現(xiàn)關(guān)聯(lián)規(guī)則挖掘。隨著網(wǎng)絡(luò)技術(shù)和分布式技術(shù)的發(fā)展,本文開始在分布式系統(tǒng)中存儲數(shù)據(jù)庫。因此在分布式系統(tǒng)中,關(guān)聯(lián)規(guī)則挖掘的算法研究變得越來越重要,具有廣闊的應(yīng)用前景。分布式算法具有適應(yīng)性強、靈活性高、磨損性低、易于連接等特點。通常情況下,一種規(guī)則的使用說明參加關(guān)于某個話題的課程的人們將獲得關(guān)于這個話題的知識并可能改進規(guī)則。語義網(wǎng)的構(gòu)建過程是目前一個非常活躍的領(lǐng)域。首先需要定義它的結(jié)構(gòu),然后在為它填滿內(nèi)容。為了讓這個任務(wù)可行,本文應(yīng)該先從簡單的任務(wù)開始。
下面的步驟顯示了語義網(wǎng)發(fā)展的方向:
1)為每一個機器可理解的描述提出一個通用的文法。
2)建立通用的詞匯。
3)在邏輯語言上達(dá)成共識。
4)使用這種語言作為交換憑證。
Berners-Lee為語義網(wǎng)提出了一種層次結(jié)構(gòu)。這種結(jié)構(gòu)反映了上述的步驟。它遵循的理念是,每一步都會提供附加的價值,從而使語義網(wǎng)能夠以一種漸進的方式來實現(xiàn)。云計算在當(dāng)今計算機行業(yè)中是一種最具爆炸性增長的技術(shù)。云計算的實現(xiàn)通常使得用戶可以將他們的數(shù)據(jù)遷移到一個遙遠(yuǎn)的位置同時也給系統(tǒng)性能帶來了一些影響。但這也帶來了一些無可替代的好處[4]。這樣的好處包括:
1)可擴展性—云可以為滿足任何用戶的需求提供足夠的計算能力。雖然在現(xiàn)實中基礎(chǔ)設(shè)施是不可能無限的,但是云資源預(yù)計仍將緩解開發(fā)商對于任何具體硬件的依賴。
2)服務(wù)質(zhì)量(QoS)—不像標(biāo)準(zhǔn)的數(shù)據(jù)中心和先進的計算資源,一個精心設(shè)計的云可以比傳統(tǒng)的方式提供更高的服務(wù)質(zhì)量。這是由于云不需要依賴具體的硬件,所以任何物理機械故障都可以減輕甚至不需要用戶的預(yù)先注意[5]。
3)定制化—在云中,用戶可以利用定制的工具和服務(wù)來滿足他們的需求。這包括最新的庫,工具包,或在新的基礎(chǔ)設(shè)施內(nèi)支持傳統(tǒng)的代碼。
4)計算代價—用戶會發(fā)現(xiàn)每個項目都只需要硬件。這降低了機構(gòu)想要建立一個可擴展的系統(tǒng)的風(fēng)險,從而提供更大的靈活性,因為用戶只需購買所需的基礎(chǔ)設(shè)施就可以增加在未來所需要的服務(wù)。
5)簡化的訪問接口—無論是使用特定的應(yīng)用程序,一組工具或網(wǎng)絡(luò)服務(wù),云都將以方便和以用戶為中心的方式為用戶提供大量的計算資源。
本文解決的問題屬于數(shù)據(jù)挖掘和高性能計算的交叉領(lǐng)域。因此本文對這兩個方面的相關(guān)工作都進行了調(diào)研。數(shù)據(jù)集的大小超過計算機的存儲器容量是對于數(shù)據(jù)挖掘的一大挑戰(zhàn)。這一問題可通過優(yōu)化算法設(shè)計和抽樣集成方法來緩解,而隨著多處理器計算機以及最近的多核技術(shù)的發(fā)展,有效的并行執(zhí)行算法可以實現(xiàn)更強的擴展性。但由于通信開銷,對于超過8~16核的性能的提升無法有效實現(xiàn)以及數(shù)據(jù)集大小受系統(tǒng)中總可用內(nèi)存的限制(一般為幾千兆字節(jié))的制約,這些方法仍存在著部分局限[6]。
1)敏捷性:敏捷性隨著用戶快速而廉價地重新提供技術(shù)性基礎(chǔ)設(shè)施資源能力的提高而提高。
2)成本:成本大幅減少,資本支出轉(zhuǎn)化為運營支出。
3)多租戶:實現(xiàn)多用戶之間的資源和成本共享。供應(yīng)商/獨立軟件開發(fā)商使用多租戶最主要的原因是固有數(shù)據(jù)的聚合效益。所有用戶的所有數(shù)據(jù)都存儲在單獨的數(shù)據(jù)架構(gòu)中,而不是從多個數(shù)據(jù)源收集數(shù)據(jù),從而導(dǎo)致可能存在不同的數(shù)據(jù)架構(gòu)。
4)峰值負(fù)載能力:增加最高可能的負(fù)載水平。
5)利用率和效率:改進往往只有10%~20%利用率的系統(tǒng)。
6)可靠性:通過使用多個冗余位點來提高,這使得云計算更適合業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù),盡管這樣,仍需要許多大型的云計算。
7)可擴展性:通過動態(tài)的(“按需”)近實時的細(xì)粒度自服務(wù)式的資源配置提高可靠性,不需要用戶設(shè)計高峰負(fù)載。使用網(wǎng)絡(luò)服務(wù)作為系統(tǒng)接口,進行性能監(jiān)控,建立一致的松散耦合體系。
8)安全性:由于數(shù)據(jù)的集中,安全性為重點的資源的增加等可以改善安全性,但是對于某些敏感數(shù)據(jù)的失控,存儲內(nèi)核安全性的缺乏,這樣的問題仍然存在。
9)可持續(xù)性:通過改善資源利用率,使用更高效的系統(tǒng),和碳中和來實現(xiàn)。然而,電腦和相關(guān)基礎(chǔ)設(shè)施仍然是主要的耗能。
10)維護性:云計算應(yīng)用更易于維護,因為它們不需要在每個用戶的電腦里安裝。它們更容易獲得支持和改進因為更新可以立即達(dá)到客戶端。
云計算,有希望實現(xiàn)幾乎無限的計算和存儲資源,適合解決需要大量資源的計算問題。已經(jīng)有對云計算中數(shù)據(jù)挖掘的一個問題從數(shù)據(jù)挖掘算法的角度進行了研究。將云計算強大海量的容量用于數(shù)據(jù)挖掘和機器學(xué)習(xí)。在他們的實驗中,在云計算平臺使用亞馬遜網(wǎng)絡(luò)服務(wù)的S3和EC2實現(xiàn)了三個算法,即全局效應(yīng)(GE),K最近鄰(KNN),受限玻爾茲曼機(RBM)。他們分別基于KNN模型和RBM模型建立了兩個預(yù)測來測試他們基于云計算的平臺的性能。
云是使用網(wǎng)絡(luò)提供資源和服務(wù)的基礎(chǔ)設(shè)施。通常來講,一個云計算平臺包括,存儲云,數(shù)據(jù)云和計算云,分別負(fù)責(zé)存儲服務(wù),數(shù)據(jù)管理和計算任務(wù)。
在這個小節(jié),本文通過GraphLab介紹幾個高效的大型并行數(shù)據(jù)挖掘系統(tǒng)的關(guān)鍵特性,闡明其他并行框架為何沒有這些特性。
2.4.1 圖表結(jié)構(gòu)計算
最近許多關(guān)于數(shù)據(jù)挖掘的最新進展都主要集中在數(shù)據(jù)間的依賴性,通過對數(shù)據(jù)依賴性建模,本文能夠從有噪聲的數(shù)據(jù)中提取更多的信號[7]。例如,對類似的購物者之間的依賴性進行建模,相較于單獨研究顧客數(shù)據(jù),本文可以做出更好的商品推薦。
2.4.2 異步迭代計算
許多重要的數(shù)據(jù)挖掘算法需要迭代更新大量的參數(shù)。因為底層的圖形結(jié)構(gòu),參數(shù)更新(頂點或者邊緣)依賴于(通過圖的鄰接結(jié)構(gòu))其他參數(shù)動態(tài)計算的值,而在很多數(shù)據(jù)挖掘的算法中,迭代計算收斂是不對稱的[8]。例如,在參數(shù)優(yōu)化中,通常大量參數(shù)會在幾次迭代中快速收斂,然而剩余的參數(shù)會在很多次迭代后才慢慢收斂。
2.4.3 可串行性
通過確保所有的并行執(zhí)行有相同的連續(xù)執(zhí)行,串行化解決了設(shè)計,實現(xiàn)和測試并行數(shù)據(jù)挖掘算法中的許多問題。此外,很多算法如果可串行則會收斂得更快,甚至只有進行串行化才能保證其正確性。
分類在數(shù)據(jù)挖掘中是一個重要的內(nèi)容,也許也是研究最多的內(nèi)容。在這里,數(shù)據(jù)集由一個包括許多屬性的屬性集表示,R=(a1,a2,…,aN),其中ai(i=1,2,…,N)是一個個屬性。屬性集可以劃分為兩部分:1)預(yù)測屬性 C=(c1,c2,…,cm);2)分類屬性 D=(d1,d2,…,dn)。
分類的準(zhǔn)則為
如 果 (c1∈I1)∧(c2∈I2)∧…∧(cm∈Im),那 么(d1∈J1)∧(d2∈J2)∧…∧(dn∈Jn);
其中 Ii和 Jj(i=1,…,m;j=1,…,n)分別是 ci和dj的值。
“如果”的部分包含了條件,“那么”的部分包含了預(yù)測分類的標(biāo)簽。數(shù)據(jù)記錄水平地分為兩部分,訓(xùn)練集和測試集,它們互相獨立。數(shù)據(jù)挖掘算法基于訓(xùn)練集發(fā)現(xiàn)分類的準(zhǔn)則,用測試集來評估這些準(zhǔn)則的分類性能。
圖1 遺傳算法
3.2.1 約束條件分析
云計算就是由分布式計算機集群構(gòu)成硬件資源的網(wǎng)絡(luò)。任務(wù)被劃分為并行的段,并分配給可用的計算資源進行處理。在這種情況下,一個計算任務(wù)能否被云解決取決于任務(wù)的分解和并行性。云可處理的計算任務(wù)要求如下:
1)任務(wù)可以被劃分為互相獨立的子任務(wù);2)子任務(wù)和數(shù)據(jù)可以被分配給未占用的處理節(jié)點;
3)處理節(jié)點間的同步和交流的機制是必不可少的。
3.2.2 模型描述
存儲和計算資源分散在云環(huán)境中,服務(wù)器設(shè)定為中心控制來尋找和分配資源。服務(wù)器的任務(wù)為:首先,它將分配的任務(wù)分成幾個子任務(wù)(在此,一個子任務(wù)可視作一個數(shù)據(jù)區(qū)),并把它們分配給分散處理的節(jié)點;此后,在服務(wù)器的監(jiān)督下子任務(wù)在分散節(jié)點上執(zhí)行;最終,服務(wù)器收集每個節(jié)點的處理結(jié)果并將它們合成為一個全面的分類準(zhǔn)則作為挖掘的結(jié)果。
編程模型的偽代碼為
將規(guī)范的遺傳算法進行改進用于云計算環(huán)境來挖掘分類準(zhǔn)則。然而,改進的算法仍然遵循規(guī)范遺傳算法的基本程序,包括編碼,初始化,適應(yīng)性評估,選擇,交叉和變異。
3.3.1 編碼
遺傳算法的第一步是將代表個體的變量編碼為比特串。匹茲堡和密歇根方法可以用于編碼個體。在匹茲堡方法中,每個個體編碼一組預(yù)測規(guī)則,然而在密歇根方法中,每個個體編碼單個預(yù)測規(guī)則。當(dāng)任務(wù)為分類時,規(guī)則間的相互作用很重要。
3.3.2 初始群體和適應(yīng)度函數(shù)
數(shù)據(jù)集中的數(shù)據(jù)塊被編碼為二進制字符串來表示初始群體。在創(chuàng)造初始群體后,用一個適應(yīng)度函數(shù)來衡量每個字符串的適應(yīng)度,并給出一個適應(yīng)值。
3.3.3 選擇算子
使用“余數(shù)隨機選擇”作為選擇過程,能更好地與預(yù)期的適應(yīng)值匹配。
3.3.4 交叉算子
在選擇過程后,發(fā)生交叉。較差是將成對的字符串進行重新組合以產(chǎn)生新的樣本。根據(jù)概率Pc隨機選擇交叉點。交叉點之后的片段進行互換,產(chǎn)生后代。
3.3.5 變異算子
完成交叉后,就是變異了。按照一個較低的概率Pm對字符串中的每一個比特進行變異。如果對一個比特進行變異,這個比特的值在其范圍內(nèi)進行變化。在經(jīng)過選擇,交叉和變異后,產(chǎn)生了新的一代。
4.1.1 概述
Sphere是一個基于Sector存儲云的計算云。讓本文以一個例子來介紹一下球。假設(shè)本文有十億張圖片,本文的目標(biāo)是在這些圖像中找到一個特定的對象。假設(shè)圖像大小為1MB,那么總數(shù)據(jù)量就是1TB。整個圖像的數(shù)據(jù)集存儲在64個文件名為img1.data…img64.data的文件中,每個文件包含一個或多個圖像。本文可以建立一個用于訪問圖像數(shù)據(jù)集的每個文件的索引文件。該索引文件表示數(shù)據(jù)文件中的每個記錄的偏移量和大小。為了使用Sphere,用戶可以編寫一個函數(shù)—“findSpe?cialObject”從每一個圖像中尋找指定的對象。在這個函數(shù)中,本文將把圖像作為輸入,輸出將是本文指定的對象。
findSpecialObject(input,output);
標(biāo)準(zhǔn)串行程序如下:
4.1.2 計算范例
Sphere允許開發(fā)者使用幾個簡單的接口來編寫特定的分布式數(shù)據(jù)并行應(yīng)用程序。使用Sphere的計算范例基于以下概念。一個Sphere數(shù)據(jù)庫包含一個或多個物理文件。Sphere上的計算由用戶定義函數(shù)完成。用戶定義的功能可以獨立地應(yīng)用于數(shù)據(jù)集中的每個元素,而其結(jié)果可以被寫入到本地磁盤或其他節(jié)點上的共同目標(biāo)文件。
圖2 Sphere的設(shè)計
Sector是一個為云提供存儲服務(wù)的存儲云。Sector有如下假設(shè):
1)第一個假設(shè)是,Sector可以訪問大量的商業(yè)計算機。
2)第二個假設(shè)是,系統(tǒng)中的各個節(jié)點通過高速網(wǎng)絡(luò)鏈接。
3)第三個假設(shè)是,Sector存儲的數(shù)據(jù)集被分為一個或多個文件。
圖3 Sector的設(shè)計
這一節(jié)中,考慮使用云計算的企業(yè)的主要關(guān)注點之一就是性能,所以本文提出一種云計算服務(wù)的性能評價的科學(xué)計算方法。在云中實現(xiàn)應(yīng)用程序高速配送是一個多方面的挑戰(zhàn),需要一個全面的方法和應(yīng)用程序請求響應(yīng)路徑端到端的綜合考慮。性能問題包括應(yīng)用程序與數(shù)據(jù)的最終用戶之間地理上的接近度,在云中和進出云的網(wǎng)絡(luò)性能以及計算層和多層次的數(shù)據(jù)存儲之間的訪問速度[9]。
一些云供應(yīng)商將它們的服務(wù)集中在一個特定的軟件棧上,這通??梢詫⒃乒?yīng)商從基礎(chǔ)設(shè)施即服務(wù)(IaaS)領(lǐng)域轉(zhuǎn)換到平臺作為服務(wù)(PaaS)的領(lǐng)域。正如人們所預(yù)料的那樣,在不同的棧特定的云都與最流行的軟件相結(jié)合。這樣節(jié)省了大量的時間和費用,并且無需處理較低水平的基礎(chǔ)設(shè)施的設(shè)置和配置。另一方面,它們往往需要開發(fā)人員遵循一定的架構(gòu)和某種實際經(jīng)驗去編寫應(yīng)用程序,這導(dǎo)致了更高程度上的廠商依賴性。
本文設(shè)計的性能評價方法包含云的評估以及與其他基礎(chǔ)設(shè)施如比如網(wǎng)格和PPI的科學(xué)計算比較。為此,本文將評價過程分為兩個部分,第一云計算,第二基礎(chǔ)設(shè)施無關(guān)性。
5.1.1 云計算評價
云的一個吸引力是總有沒有使用的資源,使它們可以在任何時間獲得,而不需要額外的等待時間。然而,其他大型系統(tǒng)的負(fù)載根據(jù)提交模式隨時間而變化,本文想知道大型云是否可以繞過這個問題[10]。
5.1.2 基礎(chǔ)設(shè)施無關(guān)性評價
目前還沒有一個唯一的公認(rèn)的科學(xué)計算基準(zhǔn)。特別是,沒有這樣的基準(zhǔn)可以在一個通用的科學(xué)計算方案里,其中一個基礎(chǔ)設(shè)施由幾個獨立的工作共享,盡管這樣的場景會產(chǎn)生大量的性能損失。為了解決這個問題,本文的方法都是采用傳統(tǒng)的包含了成套的工作的基準(zhǔn),然后在真正的科學(xué)計算環(huán)境中孤立的重復(fù)的運行。
本文現(xiàn)在描述一下本文的實驗設(shè)置,在實驗設(shè)置里本文使用了之前描述的性能評價方法。
5.2.1 性能分析工具
本文為GrenchMark大規(guī)模分布式測試框架擴展了一些新的功能使得它可以用來測試云計算基礎(chǔ)設(shè)施。該框架已經(jīng)能夠生成和提交真實的和合成的工作負(fù)載給網(wǎng)格,集群和其他大型分布式環(huán)境。通過這項工作,本文使GrenchMark能夠測量云的具體指標(biāo)如資源獲取時間和實驗耗費。
5.2.2 云資源管理
本文還為框架增加了基本的云資源管理功能,因為目前的框架并沒有資源管理組件也沒有可以訪問和管理云資源的中間件[11]。
5.2.3 性能指標(biāo)
本文使用在這項工作中使用的基準(zhǔn)所定義的性能指標(biāo)。本文還定義和使用基于實例類型T的一個虛擬集群的HPL效率作為集群的HPL基準(zhǔn)性能與一個只有一個實例在真實環(huán)境中形成的集群的性能的百分比。
5.2.4 實驗環(huán)境
因為目前所有五個EC2實例類型上所有的單任務(wù)基準(zhǔn)都已經(jīng)有足夠的性能值報告,所以本文所有的測試都在亞馬遜的EC2環(huán)境中進行。
5.2.5 優(yōu)化和調(diào)整
基準(zhǔn)采用命令行參數(shù)編譯。本文沒有使用任何附加架構(gòu)或?qū)嵗蕾噧?yōu)化措施。對于HPL基準(zhǔn),性能評價的結(jié)果取決于兩個重要因素:基本線性代數(shù)的子項目與問題的規(guī)模。
5.3.1 資源的獲取與釋放
本文研究了三種資源獲取與釋放的情況:短時間的單個虛擬機,短時間的多個虛擬機,長時間的單個虛擬機。
1)單個虛擬機:本文首先對5個虛擬機中的每一個進行資源獲取,一旦資源狀態(tài)變?yōu)橐寻惭b馬上進行釋放,重復(fù)20次。獲取EC2中與資源獲取和釋放的有關(guān)開銷??傎Y源獲取時間是安裝和啟動時間的和。
2)多個虛擬機:接下來本文對同時請求獲取多個資源的性能進行研究。這個對應(yīng)于現(xiàn)實生活中一個用戶想要從亞馬遜EC2資源上創(chuàng)建一個同構(gòu)集群的情況。
3)持續(xù)長期研究:本文研究了CloudStatus團隊在網(wǎng)上發(fā)布的安裝時間測量方法。本文已經(jīng)利用網(wǎng)絡(luò)爬蟲和分析工具在2010年11月和2011年1月(三個月)中每2分鐘進行取樣。
5.3.2 單任務(wù)單機工作負(fù)載性能
在這組實驗中,本文使用單虛擬機基準(zhǔn)測試了CPU,I/O,存儲器層次結(jié)構(gòu)的原始性能。
1)計算性能:本文使用整套LMBench評估每種虛擬機類型的計算性能。包括整型,64位整型,浮點型和雙精度浮點型運算的性能。
2)I/O性能:本文用Bonnie基準(zhǔn)評估每種虛擬機類型的I/O性能,分為兩步。第一步通過在十三個文件尺寸在1024KB和40GB之間的順序輸出基準(zhǔn)的重寫結(jié)果上運行Bonnie,確定使基于內(nèi)存的I/O緩存無效的最小文件尺寸,這包括了在寫入前已經(jīng)受損的數(shù)據(jù)塊的讀取—尋找—寫入操作序列。第二步本文分析了當(dāng)文件尺寸超過5GB時的I/O性能。最后總結(jié)結(jié)果,本文發(fā)現(xiàn)亞馬遜EC2測試的I/O性能與隨機進行I/O操作的實現(xiàn)性能相當(dāng)。
3)存儲器層次結(jié)構(gòu)性能:本文使用Cache?Bench在每種虛擬機型號上測試了存儲器層次結(jié)構(gòu)的性能。
4)性能穩(wěn)定性:對每種虛擬機類型從單機基準(zhǔn)獲得的結(jié)果是一致的。
5)可靠性:本文在SJSI實驗中遇到了幾個系統(tǒng)問題。
5.3.3 單任務(wù)多機工作負(fù)載性能
在這組實驗中,本文用單任務(wù)多機基準(zhǔn)測試了亞馬遜EC2組成的同構(gòu)集群的性能。
HPL性能:對于HPL基準(zhǔn)本文測試了多種虛擬集群的m1 HPCC性能。
HPCC性能:本文在單元集群組成一個虛擬機,16核集群組成至少兩個虛擬機上用HPCC基準(zhǔn)得到虛擬EC2集群的性能。
可靠性:本文在這些實驗中遇到了幾個可靠性問題:最重要的兩個是關(guān)于HPL的,并且重復(fù)出現(xiàn)。
5.3.4 多任務(wù)工作負(fù)載性能
本文跟蹤一個真實的系統(tǒng)運行復(fù)雜的工作負(fù)載來評估性能開銷,而不是在虛擬亞馬遜EC2集群上運行單任務(wù)。為此,本文在EC2上重現(xiàn)了本文的多集群DAS3網(wǎng)格系統(tǒng)軌跡,主要是包含了任務(wù)被提交給其中一個DAS3集群的軌跡部分。并行任務(wù)執(zhí)行的結(jié)果穩(wěn)定且開銷較低。對于每一種虛擬機類型,本文發(fā)現(xiàn)重復(fù)工作負(fù)載重現(xiàn)需要的獨立完成時間值與中等工作負(fù)載的完成時間的差值小于1%。
近年來,商業(yè)集群已經(jīng)相當(dāng)普遍,在未來幾年,將開始使用高性能的廣域網(wǎng)連接這些集群并且正在走向一個有著大量的分布式數(shù)據(jù)集的時代,理論上將在磁盤上花費大量的時間,因此本文需要一個高性能計算模式以減小移動數(shù)據(jù)的規(guī)模[12]。通過回顧Sector和Sphere,本文知道Sector和Sphere的設(shè)計初衷就是為了完成這些任務(wù)。在本文中,本文還討論了Sector/Sphere框架和關(guān)聯(lián)規(guī)則的融合。這使得本文在網(wǎng)絡(luò)上可以獲得廣泛的云服務(wù)關(guān)聯(lián)規(guī)則算法的應(yīng)用程序。這篇文章的最初目的是為了評價HPC的虛擬化生存能力。經(jīng)過本文的分析,答案似乎是肯定的。然而,本文也希望選擇這樣一個HPC環(huán)境最好的虛擬化技術(shù)。為了做到這一點,本文將特征比較和性能結(jié)果結(jié)合,并評價Fu?tureGrid測試平臺的潛在影響。本文將擴展這項工作到其他云服務(wù),特別是存儲和網(wǎng)絡(luò)相關(guān)的服務(wù);它們?nèi)绾卧谖磥響?yīng)對不同的云用戶數(shù)量帶來不同特點和要求的工作負(fù)載的組合壓力?本文還將性能評價擴展到其他真實和合成的應(yīng)用,希望為科學(xué)界創(chuàng)建一個性能數(shù)據(jù)庫。本文首先對已經(jīng)在使用的大型計算云進行了一個全面的性能評估。然后,本文使用科學(xué)計算的替代方法比較了云的性能和成本,如網(wǎng)格和并行生產(chǎn)基礎(chǔ)設(shè)施。本文的主要發(fā)現(xiàn)是被測試的云的性能和可靠性低。因此,在大型科學(xué)計算下,被測試的云是不夠的,但它仍然可以滿足科學(xué)家對于資源急切而暫時的需要。基于這一發(fā)現(xiàn),本文已經(jīng)分析了如何提高目前的云的科學(xué)計算能力,并確定了兩個研究方向,每一個都具有很大的潛力。
[1]K.C.Lan,A.Hussain,and D.Dutta,Effect of Malicious Traffic on The Network[C]//Proc.Passive and Active Mea?surement Wksp.(PAM),San Diego,CA,Apr.2003.
[2]裴慶琪,沈玉龍,馬建峰.無線傳感器網(wǎng)絡(luò)安全技術(shù)綜述[J].通信學(xué)報,2007,28(8):113-122.
PEI Qingqi,SHEN Yulong,MA Jianfeng.Survey of wire?less sensor network security techniques[J].Journal on Communications,2007,28(8):113-122.
[3]Y unhong Gu,Robert L.Grossman.-UDT:UDPbased da?ta transfer for high-speed wide area networks[J].Comput?er Networks,2007,51(7):1777-1799.
[4]K.Keahey,R.Figueiredo,J.Fortes,T.Freeman,and M.Tsugawa,Science clouds:Early experiences in cloud computing for scientific applications[J].Cloud Computing and Applications,2008:199-211.
[5]K.Keahey,I.Foster,T.Freeman,and X.Zhang,Virtual workspaces:achieving quality of service and quality of life in the Grid,2011:66-79.
[6]Wang,L.,Tao,J.,Kunze,M.,Castellanos,A.C.,Kramer,D.,and Karl,W.2008.Scientific cloud comput?ing:early definition and experience[C]//In Proceeding of the 10th IEEE International Conference on High Perfor?mance Computing and Communications.Scientific Pro?gramming,2005(13):265-275.
[7]Kawaguchi T,Kakuma T,Yatsuhashi H,Watanabe H,Saitsu H,Nakao K,et al.Data mining reveals complex in?teractions of risk factors and clinical feature profiling asso?ciated with the staging of non-hepatitis B virus/non-hepa?titis C virus-related hepatocellular carcinoma[J].Hepatol Res,2011,41:564-71.
[8]Freitas,A.A.A survey of evolutionary algorithms for data mining and knowledge discovery[J].Advances in Evolu?tionary Computation,2002:819-845.
[9]Han J,Kamber M.-Data Mining:Concepts and Tech?niques[M].San Francisco:CA Morgan Kaufmann Pub?lishers,an imprint of Elsevier,2006:259-261,628-640.
[10]Y.S.Kon and N.Rounteren,Rare association rule min?ing and knowledge discovery:technologies for frequent and critical event detection.H ERSHEY[J].PA:Infor?mation Science Reference,2010:787-803.
[11]W.Sun,M.Pan,and Y.Qiang,“Inproved association rule mining method based on t statistical[J].Application Research of Computers,2011,28(6):2073-2076.
[12]Kurosaki M,Hiramatsu N,Sakamoto M,Suzuki Y,Iwa?saki M,Tamori A,et al.Data mining model using sim?ple and readily available factors could identify patients at high risk for hepato-cellular carcinoma in chronic hepati?tis C[J].JHepatol,2012,56(3):602-608.
An A lgorithm Research Based on High-performance Cloud Date M ining
ANG Chaoqun1HU W ei2HU Ran1
(1.Department of Management and Engineering,Naval University of Engineering,Wuhan 430033)(2.No.91919 Troops of PLA,Huanggang 438000)
TP301.6
10.3969/j.issn.1672-9722.2017.09.008
2017年4月11日,
2017年5月21日
昂朝群,女,碩士,工程師。研究方向:數(shù)據(jù)庫設(shè)計與開發(fā)、云計算。胡煒,男,碩士,助理工程師,研究方向:數(shù)據(jù)挖掘和云計算。胡冉,男,碩士,研究方向:信息管理。