• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)典型相關(guān)分析的云模型方法

      2013-10-29 08:26:10楊靜李文平張健沛
      通信學(xué)報(bào) 2013年10期
      關(guān)鍵詞:云滴子塊數(shù)目

      楊靜,李文平,張健沛

      (哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)

      1 引言

      自2008年9月《Nature》雜志推出名為“大數(shù)據(jù)”(big data)的封面專欄[1]以來(lái),產(chǎn)業(yè)界和學(xué)術(shù)界便掀起了大數(shù)據(jù)研究熱潮。數(shù)據(jù)量巨大是大數(shù)據(jù)的首要特性,通常認(rèn)為PB級(jí)別及其以上的數(shù)據(jù)稱為“大數(shù)據(jù)”。大數(shù)據(jù)還具有稀疏價(jià)值特性,即大數(shù)據(jù)所攜帶的信息在刻畫某特定知識(shí)方面是冗余的。這些特性為大數(shù)據(jù)挖掘帶來(lái)了巨大的挑戰(zhàn)。

      大數(shù)據(jù)典型相關(guān)分析(CCA, canonical correlation analysis)是大數(shù)據(jù)研究的重要內(nèi)容之一,它不僅有助于揭示大數(shù)據(jù)間的相關(guān)關(guān)系,而且可提取蘊(yùn)含于大數(shù)據(jù)中的低維特征。大數(shù)據(jù)CCA可用于大數(shù)據(jù)特征融合[2]、機(jī)器學(xué)習(xí)[3]、數(shù)據(jù)降維[4]、數(shù)據(jù)流挖掘[5]等領(lǐng)域。因此大數(shù)據(jù)CCA具有重要的意義。

      大數(shù)據(jù)CCA研究極具挑戰(zhàn)性,其困難不僅源于CCA本身具有的高復(fù)雜度,而且也來(lái)自大數(shù)據(jù)巨大規(guī)模以及稀疏價(jià)值等特性。面向傳統(tǒng)數(shù)據(jù)的CCA方法的高空間復(fù)雜度在面臨大數(shù)據(jù)PB級(jí)規(guī)模時(shí)已不再適應(yīng)。針對(duì)此問(wèn)題,本文擬研究一種基于云模型的大數(shù)據(jù)CCA方法,期望該方法能克服大數(shù)據(jù)巨大規(guī)模所帶來(lái)的高復(fù)雜度等困難。

      云理論是一種實(shí)現(xiàn)定量數(shù)據(jù)和定性概念之間相互轉(zhuǎn)換的不確定性人工智能方法,最早由我國(guó)學(xué)者李德毅院士提出。云的具體實(shí)現(xiàn)稱為云模型。云模型在信任評(píng)估[6,7]、時(shí)間序列挖掘[8]以及圖像分割[9]等廣泛領(lǐng)域得到了成功應(yīng)用。然而,將云模型與CCA結(jié)合,以用于大數(shù)據(jù)研究還鮮有學(xué)者涉足,本研究擬在此方面展開(kāi)初探工作。

      本文首先根據(jù)逆向云發(fā)生器生成各云端的數(shù)據(jù)概要;其次將數(shù)據(jù)概要發(fā)送至中心云端,利用云運(yùn)算操作產(chǎn)生中心云數(shù)字特征;最后根據(jù)中心云數(shù)字特征,利用正向云發(fā)生器產(chǎn)生中心云滴,在中心云滴上施加 CCA操作。中心云數(shù)字特征刻畫了各云端中數(shù)據(jù)的語(yǔ)言值,據(jù)此產(chǎn)生的中心云滴是原來(lái)大數(shù)據(jù)的不確定性復(fù)原小樣本。中心云滴在概念粒度上攜帶了原始數(shù)據(jù)的重要信息,從這個(gè)意義上來(lái)說(shuō),研究中心云滴不是在原始數(shù)據(jù)上直接計(jì)算,是探討大數(shù)據(jù)挖掘的一個(gè)良好視角;此外,中心云滴的小樣本特性為CCA贏得了效率。

      2 基礎(chǔ)知識(shí)回顧

      2.1 CCA

      CCA是研究2個(gè)隨機(jī)向量之間相關(guān)性的一種常用多元統(tǒng)計(jì)方法[10]。給定p維隨機(jī)向量X和q維隨機(jī)向量Y,p≤q,CCA的目標(biāo)是尋找投影向量αk和βk,使得在方差的約束下,Pearson相關(guān)系數(shù)

      CCA實(shí)質(zhì)是一個(gè)最優(yōu)化問(wèn)題。以第一對(duì)典型變量為例(省略α1和β1下標(biāo)),即求

      其中,s.t. 表示約束條件,R為實(shí)數(shù)域。用拉格朗日(Lagrange)乘子法求解式(2)有

      式(3b)是廣義特征值問(wèn)題,由此解出λ和α,代入式(3a)可得β。λ即為所求典型相關(guān)系數(shù)。CCA有多種解法,如基于 SVD的方法等,具體可參閱文獻(xiàn)[11,12]。

      2.2 云和云模型

      設(shè)U為定量論域,C為其上的定性概念,若?x∈ U 是C的隨機(jī)實(shí)現(xiàn),且x對(duì)C的確定度μ( x )∈ [ 0,1]是有穩(wěn)定傾向的隨機(jī)數(shù)。

      則x在U上的分布稱為云(cloud),而x稱為云滴(cloud drop)[13]。云理論用期望Ex、熵En和超熵He3個(gè)數(shù)字特征來(lái)表征概念的整體定量特性。在不至混淆時(shí),也將云的 3個(gè)數(shù)字特征構(gòu)成的三元組(E x, E n, H e)稱為云。

      云模型是云的具體實(shí)現(xiàn)。由云數(shù)字特征產(chǎn)生云滴的實(shí)現(xiàn)稱為正向云發(fā)生器,而由云滴群得到云數(shù)字特征的實(shí)現(xiàn)稱為逆向云發(fā)生器。由于正態(tài)分布的普適性,建立在其上的正態(tài)云是各種云模型中最重要的一種。期望曲線是云理論研究數(shù)據(jù)集在空間中隨機(jī)分布統(tǒng)計(jì)規(guī)律的重要方法,一般方程為

      云運(yùn)算是云理論中用語(yǔ)言值進(jìn)行計(jì)算和推理的重要基礎(chǔ)。給定 2個(gè)一維云 C1(E x1, E n1, H e1)和C2(E x2, E n2, H e2),則 C1加 C2之和 C ( E x, E n, H e)可以定義為

      需要補(bǔ)充的是,“云”一詞有趣地同時(shí)光顧了云計(jì)算和云理論,為了不至于混淆,本文所述云端皆指云計(jì)算平臺(tái)中的分布式節(jié)點(diǎn)或機(jī)群,而其他關(guān)于云的詞匯,特指云理論中的概念。此外,應(yīng)將云運(yùn)算和云計(jì)算區(qū)別開(kāi)來(lái)。云運(yùn)算是云理論中對(duì)云進(jìn)行操作的規(guī)則,屬于不確定性人工智能范疇;而云計(jì)算是一種計(jì)算范式,強(qiáng)調(diào)計(jì)算資源的有效利用和整合,與云運(yùn)算截然不同。

      3 相關(guān)工作

      人類在科研和工程實(shí)踐項(xiàng)目中收集的大量數(shù)據(jù)多數(shù)具有大數(shù)據(jù)特性,但將大數(shù)據(jù)抽象出來(lái)作為一門獨(dú)立科學(xué)進(jìn)行研究還是最近的事[14]。在生物信息學(xué)等領(lǐng)域,Benjamin等人深入研究了在系統(tǒng)神經(jīng)生物學(xué)領(lǐng)域擔(dān)當(dāng)重要角色的生理電大數(shù)據(jù)壓縮及存儲(chǔ)等問(wèn)題[15];Aronova等人將生物學(xué)研究中收集的數(shù)據(jù)視為大數(shù)據(jù),從大科學(xué)(big science)視角挖掘這類數(shù)據(jù)蘊(yùn)含的重要知識(shí)[16];Werner則更進(jìn)一步,從方法論角度分析了如何應(yīng)對(duì)大數(shù)據(jù)生物學(xué)帶來(lái)的挑戰(zhàn)[17]。

      在數(shù)據(jù)挖掘等領(lǐng)域,Alfredo等人從數(shù)據(jù)倉(cāng)庫(kù)和OLAP等視角分析了多維大數(shù)據(jù)研究存在的問(wèn)題以及研究趨勢(shì)[18];Steven等人研究了大數(shù)據(jù)挖掘中的在線特征選擇問(wèn)題[19];Simon等人基于模糊查找詞典(fuzzy find dictionary)研究了一種面向數(shù)據(jù)流大數(shù)據(jù)的數(shù)據(jù)流聚類方法[20];John研究了大數(shù)據(jù)上的并行學(xué)習(xí)問(wèn)題[21]。

      在面向大數(shù)據(jù)的程序開(kāi)發(fā)和存儲(chǔ)等方面,Thomas等人探討了如何在大數(shù)據(jù)上構(gòu)建程序?qū)崿F(xiàn)問(wèn)題[22];Yu等人提出了一種可擴(kuò)展的用于大數(shù)據(jù)分析的分布式系統(tǒng)[23];Kyuseok以及Jens等人同時(shí)探討了 MapReduce架構(gòu)在大數(shù)據(jù)分析中的應(yīng)用[24,25];Divyakant等人分析了大數(shù)據(jù)及云計(jì)算現(xiàn)狀和研究挑戰(zhàn)[26];Huiqi等人研究了在云平臺(tái)上進(jìn)行可視聚類的一種方法體系[27]。此外,也有學(xué)者開(kāi)始涉足大數(shù)據(jù)安全方面的研究,如Colin等人探討了大數(shù)據(jù)中存在的安全問(wèn)題及解決策略[28]。

      大數(shù)據(jù)研究還剛剛起步,盡管有學(xué)者探討了基于云計(jì)算平臺(tái)的大數(shù)據(jù)存儲(chǔ)方法,但未發(fā)現(xiàn)關(guān)于大數(shù)據(jù) CCA的研究報(bào)告,也未發(fā)現(xiàn)在此方面基于云理論的研究方法,期望本研究能對(duì)此做出些許初探性工作。

      4 大數(shù)據(jù)CCA方法

      本節(jié)重點(diǎn)研究基于云模型的大數(shù)據(jù) CCA方法(BDCCA, big data CCA)。首先闡述面向大數(shù)據(jù)的云架構(gòu),其次重點(diǎn)探討端點(diǎn)云的生成方法,再次研究端點(diǎn)云的合并技術(shù)。下文約定運(yùn)算符,<··>為歐氏內(nèi)積,而?為Hadamard積。

      4.1 面向大數(shù)據(jù)的分布式云架構(gòu)

      就容量而言,PB級(jí)數(shù)據(jù)量被認(rèn)為是大數(shù)據(jù)的顯著特性,這一特性使得大數(shù)據(jù)一般通過(guò)機(jī)群等分布式方式存儲(chǔ)。迄今為止,云平臺(tái)是大數(shù)據(jù)存儲(chǔ)的理想載體。本研究假設(shè)大數(shù)據(jù)以分布式方式存儲(chǔ)在云端。圖1刻畫了所提出的由若干個(gè)云端構(gòu)成的大數(shù)據(jù)分布式云架構(gòu)。

      此云架構(gòu)從功能上分4層:1)頂層為數(shù)據(jù)存儲(chǔ)層,其中,第i個(gè)云端存儲(chǔ)第i段數(shù)據(jù)Datai;2)第2層為多維逆向云發(fā)生器(MBCG, multidimensional backward cloud generator)層,其核心任務(wù)在于由原始數(shù)據(jù)產(chǎn)生各云端的云,即端點(diǎn)云;3)第 3層為中心云端(center node),該層主要進(jìn)行云合并運(yùn)算,并用于產(chǎn)生和存儲(chǔ)中心云滴;4)第 4層為應(yīng)用層(applications),基于中心云滴,在此層可進(jìn)行CCA等挖掘或分析任務(wù)。

      在大數(shù)據(jù)分布式云架構(gòu)中:1) 根據(jù)多維逆向云發(fā)生器MBCG,由第i個(gè)云端中的數(shù)據(jù)Datai產(chǎn)生端點(diǎn)云 Ci(E xi, E ni, H ei),簡(jiǎn)記為 Ci;2) 將 Ci傳送至中心云端的云收集器(collector);3) 將云收集器中的云傳送至多維云合并節(jié)點(diǎn)(MCC, multidimensional cloud combiner);4) 根據(jù)多維云合并運(yùn)算,將所有云 Ci合并為中心云 C ( E x, E n, H e),簡(jiǎn)記為C;5) 將中心云C傳送至多維正向云發(fā)生器(MFCG, multi- dimensional forward cloud generator)節(jié)點(diǎn);6)根據(jù)MFCG,由中心云C產(chǎn)生中心云滴;7)應(yīng)用層中CCA等任務(wù)到中心云端獲取中心云滴,并據(jù)此進(jìn)行相應(yīng)的挖掘任務(wù)。

      此云計(jì)算架構(gòu)用于處理大數(shù)據(jù)是合適的。1)各云端向中心云端僅傳送數(shù)據(jù)概要,即由云數(shù)字特征構(gòu)成的三元組,如此小的數(shù)據(jù)量傳送是快速的;2)由中心云產(chǎn)生的中心云滴群規(guī)模往往較小,這有助于提高CCA的運(yùn)算速度。

      4.2 BDCCA執(zhí)行流程

      BDCCA的基本思路在于:1)在各云端利用逆向云發(fā)生器根據(jù)當(dāng)前云端中數(shù)據(jù)并行生成云(即云數(shù)字特征);2)將各端點(diǎn)云發(fā)送至中心云端,利用多維云合并操作,在中心云端產(chǎn)生中心云;3)根據(jù)中心云,利用正向云發(fā)生器產(chǎn)生中心云滴;4)在中心云滴上施加CCA操作。圖2描述了其執(zhí)行流程。

      圖1 大數(shù)據(jù)分布式云架構(gòu)

      圖2 BDCCA執(zhí)行流程

      數(shù)據(jù)在每個(gè)云端分為 Xi和 Yi兩部分,其中,X ∈Rp×ni和 Y ∈Rq×ni,n為第i個(gè)云端中的樣本數(shù)

      i ii目,p為 Xi的維數(shù),q為 Yi的維數(shù)。特別地,同類數(shù)據(jù)的維數(shù)在所有云端都一致,而樣本數(shù)目可以不同。此外,云端個(gè)數(shù)m、各云端標(biāo)識(shí)符 Ni、云重要度向量 η = ( η1, η2,… ,ηm)T以及中心云滴數(shù)目ω等需預(yù)先設(shè)定。流程執(zhí)行結(jié)束后,輸出典型相關(guān)系數(shù)向量ρ以及對(duì)應(yīng)典型相關(guān)向量為列的矩陣U、V。基于式(3),可通過(guò)特征分解或SVD等方法求解X和Y的典型相關(guān)系數(shù)和典型相關(guān)變量,具體可參閱文獻(xiàn)[11]。本文將采用文獻(xiàn)[30]的多維正向正態(tài)云發(fā)生器產(chǎn)生中心云滴群 d rop(X,μx)和 d rop(Y,μy)。限于篇幅,此兩點(diǎn)不再贅述。

      圖2所示流程中,產(chǎn)生各端點(diǎn)云以及在中心云端進(jìn)行云合并是關(guān)鍵,后文將分別詳述這兩點(diǎn),一方面后文將對(duì)多維逆向云發(fā)生器進(jìn)行改進(jìn),使之適宜于在大數(shù)據(jù)環(huán)境下產(chǎn)生各端點(diǎn)云;另一方面將提出一種一次合并多個(gè)多維云的方法,以提高大數(shù)據(jù)環(huán)境下云合并運(yùn)算的效率。

      4.3 端點(diǎn)云生成

      所謂端點(diǎn)云的生成,是指根據(jù)逆向云發(fā)生器,由云端中數(shù)據(jù)產(chǎn)生云的過(guò)程。本文采用無(wú)確定度的多維逆向正態(tài)云發(fā)生器[30]作為端點(diǎn)云的生成模型。

      盡管已將大數(shù)據(jù)存儲(chǔ)于分布式云架構(gòu)各云端(如圖1所示),但是由于大數(shù)據(jù)的巨大容量特性,在每個(gè)云端所存儲(chǔ)的數(shù)據(jù)量往往還較大,現(xiàn)存多維逆向正態(tài)云發(fā)生器不再滿足大數(shù)據(jù)環(huán)境下計(jì)算效率的要求,對(duì)之加以改進(jìn)是必要的。

      為了提高多維逆向正態(tài)云發(fā)生器在大數(shù)據(jù)環(huán)境下產(chǎn)生云的效率,本文基于隨機(jī)采樣法,采用啟發(fā)式云生成策略,將多維逆向正態(tài)云發(fā)生器拓展到大數(shù)據(jù)情形。

      4.3.1 大數(shù)據(jù)隨機(jī)采樣

      本文借鑒隨機(jī)子空間法[29]思想,在各云端進(jìn)行大數(shù)據(jù)隨機(jī)采樣。設(shè)各云端將大數(shù)據(jù)分為若干塊,首先對(duì)每塊按照相同劃分方式將其分割成s個(gè)子塊;然后將所有塊中相同位置的子塊轉(zhuǎn)換成列向量并進(jìn)行組合,形成一個(gè)子塊集,如圖3所示。

      基于劃分的數(shù)據(jù)塊,在每個(gè)子塊集上執(zhí)行隨機(jī)采樣。對(duì)第i個(gè)子塊集 Ti,根據(jù)隨機(jī)子空間法思想,隨機(jī)產(chǎn)生 r*維索引向量 Ii={j1,j2, … , jr*},r*<r,r為子塊集大小。將所有子塊集中產(chǎn)生的索引向量按下標(biāo)升序組合為 I = {I1, I2,… ,Is}。對(duì)每個(gè)云端數(shù)據(jù)X和Y分別執(zhí)行上述操作。最后在與索引向量對(duì)應(yīng)數(shù)據(jù)上執(zhí)行CCA操作。

      4.3.2 云生成的啟發(fā)式策略

      在每個(gè)云端,云的產(chǎn)生采用啟發(fā)式策略。其基本思想是,在每個(gè)云端迭代地進(jìn)行若干次不重復(fù)隨機(jī)采樣,將每次迭代時(shí)抽取的樣本加入之前的樣本中,每次迭代后進(jìn)行云更新,若第i次迭代后所生成的云Ci與迭代前的云Ci-1之差ΔCi小于給定閾值或迭代次數(shù)超過(guò)預(yù)設(shè)閾值,則迭代終止。迭代過(guò)程中,若當(dāng)前迭代的云差異 ΔCi正向偏離前一次迭代的云差異 ΔCi-1,即 ΔCi- ΔCi-1> δ ,則下一次迭代時(shí)將加大隨機(jī)采樣的樣本容量;反之若 ΔCi負(fù)向偏離 ΔC,即 ΔC- ΔC≤ δ ,則下一次迭代

      i-1i i -1時(shí)將減小隨機(jī)采樣的樣本容量。其中,δ≥0,δ為常量。

      此策略的2個(gè)關(guān)鍵問(wèn)題在于,其一每次迭代后云的更新;其二相鄰兩次更新所生成云之間差異的刻畫或度量。

      圖3 數(shù)據(jù)子塊劃分

      4.3.3 云的部分增量式更新

      每次迭代后的云更新是云的啟發(fā)式生成策略需要解決的首要問(wèn)題。云更新即是云期望熵和超熵的更新。其中

      若記

      其中,ni為第i次迭代后的樣本總?cè)萘?,?為第i次迭代進(jìn)行隨機(jī)采樣所得的樣本容量,顯然云增量式更新的本質(zhì)在于:①用Exi-1刻畫Exi;②根據(jù)Γi-1求解Γi;③由Υi-1計(jì)算Υi。本研究主要更新前兩者,故稱為部分增量式更新。

      這只需注意到

      由于絕對(duì)值缺乏良好的代數(shù)性質(zhì),因此要獲得A的增量表達(dá)式是困難的。本研究在迭代過(guò)程中只需跟蹤云期望向量Exi和中間向量Γi即可,而不需跟蹤Υi的改變量。定理1闡述了其理由。

      所以可得 ΔΥi→0。

      定理1表明,若迭代終止條件為相鄰兩次更新生成云的差異足夠小,則只需考察云期望向量 E xi和中間向量Γi的改變量是否小于給定閾值即可。

      需要補(bǔ)充的是,云部分增量式更新的根本目的不是為了增量式求解各端點(diǎn)云,而是云生成的啟發(fā)式策略中進(jìn)行不重復(fù)隨機(jī)采樣時(shí)用于判斷迭代的終止條件,因?yàn)椴糠衷隽渴礁戮哂休^快的速度。

      4.3.4 云差異的弦度量

      相鄰兩次更新所生成云之間差異的刻畫是云啟發(fā)式生成策略需解決的又一重要問(wèn)題。由定理 1可知,用云期望向量Exi及中間向量Γi的改變量來(lái)刻畫第i次迭代后所生成云 Ci與迭代前的云 Ci-1之差異 ΔCi是合適的。即

      這種間接度量方式除了具有相鄰云之間差異的刻畫能力外,其另外2個(gè)優(yōu)點(diǎn)在于:①規(guī)范性,即 ΔCi∈[0,1];②異常值的不敏感性,顯然Exi和Γi對(duì)異常值是敏感的,當(dāng)異常值出現(xiàn)時(shí),可對(duì)弦度量對(duì)應(yīng)的Riemann球面做一個(gè)適當(dāng)旋轉(zhuǎn),此旋轉(zhuǎn)對(duì)應(yīng)著異常值的 l2范數(shù)的一個(gè)變換,變換后的值為非異常值,其優(yōu)勢(shì)是保持弦度量不變。限于篇幅,本研究不再深入探討異常值的檢測(cè)及處理等細(xì)節(jié)。

      4.3.5 改進(jìn)的多維逆向云發(fā)生器算法

      基于大數(shù)據(jù)隨機(jī)采樣法以及啟發(fā)式的云生成策略,本文對(duì)無(wú)確定度的多維逆向正態(tài)云發(fā)生器[30]進(jìn)行改進(jìn),使其適宜于大數(shù)據(jù)環(huán)境下云的快速生成。改進(jìn)后的算法如下。

      算法1 大數(shù)據(jù)多維逆向云發(fā)生器BDMBCG。

      輸入:子塊數(shù)目s,初始抽樣率 r0,云差異閾值ε。

      輸出:云 C ( E x, E n , H e )。

      1) 初始化:將分塊存儲(chǔ)在當(dāng)前云端的數(shù)據(jù)按4.3.1節(jié)所述的數(shù)據(jù)子塊劃分方式將其分割成s個(gè)子塊,并求每個(gè)子塊大小 s0,置 n = r0s0,置r為小于n的隨機(jī)正整數(shù)。

      2) 進(jìn)行兩次容量分別為n和r的不重復(fù)隨機(jī)采樣,并根據(jù)式(6)計(jì)算均值向量 E x0和 E x1以及中間向量Γ0和Γ1,再根據(jù)式(10)求云差異ΔC。

      3) WHILE ΔC>ε且數(shù)據(jù)未抽樣完時(shí)。

      4) Ex0=Ex1,Γ0=Γ1,n=n+ r。

      5) 執(zhí)行容量為r的不重復(fù)隨機(jī)采樣,當(dāng)所剩樣本不足r時(shí),抽取剩余樣本的。

      6) 根據(jù)式(7)更新Ex1,并根據(jù)式(8)更新Γ1。

      7) 根據(jù)式(10)求云差異 ΔC'。

      8) IF ΔC'-ΔC> ε/2

      9) 產(chǎn)生小于r的隨機(jī)正整數(shù)t,并置r=t;

      10) ELSE

      11) 產(chǎn)生介于(r, s0)之間的隨機(jī)正整數(shù)t,并置 r=t;

      12) ENE

      13) 置 ΔC=ΔC'。

      14) END //End While

      算法1的最后兩步表明,盡管云部分增量式更新的根本目的不是為了增量式求解各端點(diǎn)云,但卻達(dá)到了部分增量式求解的目的,因?yàn)榍蠼庠?C ( E x,E n , H e )時(shí),只重新計(jì)算中間量A,其余量直接應(yīng)用算法在啟發(fā)式迭代過(guò)程中增量更新的值。

      注:1)算法1在各個(gè)云端執(zhí)行,本研究假設(shè)數(shù)據(jù)X和Y作為云端公共變量可直接訪問(wèn),因此算法輸入省略此數(shù)據(jù)項(xiàng);2)每個(gè)云端數(shù)據(jù)X和Y的容量往往不相等,由于 CCA要求輸入的兩組樣本容量一致,因此算法執(zhí)行后還需進(jìn)行一次隨機(jī)采樣,其操作在小樣本容量對(duì)應(yīng)的數(shù)據(jù)上進(jìn)行,所抽取樣本量為算法1執(zhí)行后獲得的兩組樣本量之差值。

      4.4 多維云合并

      在式(5)對(duì)應(yīng)的云合并運(yùn)算中,每次僅能進(jìn)行一對(duì)云加法運(yùn)算,如果通過(guò)反復(fù)調(diào)用方式每次合并一對(duì)云,每合并一次,云的總個(gè)數(shù)僅減少一個(gè),因?yàn)樾律傻脑七€需要加入合并操作,這在云端較多時(shí)將增大時(shí)間開(kāi)銷,特別在大數(shù)據(jù)環(huán)境下,其效率會(huì)遭受質(zhì)疑;另一方面,式(5)也未顧及2個(gè)云重要性的差異,在大數(shù)據(jù)環(huán)境中,由于受數(shù)據(jù)收集或存儲(chǔ)策略等差異的影響,不同云端的數(shù)據(jù)可能存在重要性差異,因此各云端傳送到中心云端的云的合并應(yīng)體現(xiàn)各云端之差異。

      針對(duì)前述不足,本文借鑒文獻(xiàn)[30]用于概念粒度提升的躍升策略的相鄰云合并思想,提出了一種適宜于大數(shù)據(jù)的云合并運(yùn)算方法。

      給定 m個(gè)p維云 Ci(E xi, E ni, H ei)(i = 1 ,2,…,m),以及刻畫每個(gè)云重要度的向量 η = ( η1,η2,… ,ηm)T,∑ηi=1,記

      則有

      其中,U為第i個(gè)p維云 Ci的第 j個(gè)維度對(duì)應(yīng)論域, i = 1,2,… ,m; j = 1,2,… ,p 。

      與已有方法相比,本文提出的云合并方法呈現(xiàn)出3個(gè)特點(diǎn):1)能對(duì)各云端傳入中心云端的云進(jìn)行一次性合并;2)云合并中體現(xiàn)了不同云端的重要性差異;3)合并的是多維云,而非一維云。

      5 仿真實(shí)驗(yàn)及結(jié)果分析

      5.1 實(shí)驗(yàn)數(shù)據(jù)及仿真云平臺(tái)

      實(shí)驗(yàn)涉及3個(gè)數(shù)據(jù)集。

      1) 帶噪聲的線性數(shù)據(jù)集LN:這是一個(gè)合成數(shù)據(jù)集,數(shù)據(jù)X和Y每個(gè)屬性來(lái)自于線性數(shù)據(jù),然后疊加符合高斯分布N(1,2)的樣本擾動(dòng)每個(gè)屬性值。每次產(chǎn)生的數(shù)據(jù)包括10個(gè)維度。

      2) 真實(shí)數(shù)據(jù)集PAMAP2:這是對(duì)18個(gè)不同物理活動(dòng)進(jìn)行監(jiān)視所收集的數(shù)據(jù)(http://archive.ics.uci.edu/ml/datasets/PAMAP2+Physical+Activity+Mon-i toring),包括3 850 505行記錄,含52個(gè)屬性。實(shí)驗(yàn)選取的屬性為慣性測(cè)量單元 IMU(inertial measurement units),前兩組實(shí)驗(yàn)選取手部 IMU(IMU hand)的前10個(gè)屬性,而第三組實(shí)驗(yàn)將手部IMU作為一組(包括 17個(gè)屬性),而胸部 IMU(IMU chest)作為另一組(包括17個(gè)屬性)。

      3) 真實(shí)數(shù)據(jù)集IDS:網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)集IDS[31]記錄了網(wǎng)絡(luò)鏈接中正常鏈接和攻擊性鏈接(intrusions or attacks)的行為數(shù)據(jù),共包括494 021條記錄,含41個(gè)屬性。實(shí)驗(yàn)選取其中的連續(xù)屬性(包括34個(gè))進(jìn)行測(cè)試,前兩組實(shí)驗(yàn)選取前10個(gè)屬性;第三組實(shí)驗(yàn)將前12個(gè)屬性為一組,其余為另一組。

      實(shí)驗(yàn)前已刪除數(shù)據(jù)集中具有缺失值的記錄,且對(duì)每個(gè)屬性在均值4倍方差外的值用均值替換。

      CCA以及多維云發(fā)生器對(duì)數(shù)據(jù)約束較少,一般認(rèn)為,只要總體接近正態(tài)分布的實(shí)數(shù)都可采用。選擇PAMAP2和IDS數(shù)據(jù)集的理由在于它們是得到大量文獻(xiàn)廣泛采用的標(biāo)準(zhǔn)數(shù)據(jù)集,而且其容量較大,已接近仿真實(shí)驗(yàn)平臺(tái)的資源上限。

      實(shí)驗(yàn)從上述3個(gè)數(shù)據(jù)集中選取的每個(gè)屬性都是總體接近正態(tài)分布的實(shí)數(shù)。圖4是從PAMAP2數(shù)據(jù)集手部IMU中隨機(jī)挑選出的兩列數(shù)據(jù)(IMU6和IMU12)的分布直方圖。數(shù)據(jù)已規(guī)范化為均值0,方差1。設(shè)置了25個(gè)云端,將數(shù)據(jù)均分為25個(gè)相鄰塊,每個(gè)云端分配一塊。其中,圖 4(a)為總體分布直方圖,而圖 4(b)﹑圖 4(c)和圖 4(d)分別為第3號(hào)﹑17號(hào)和23號(hào)云端中的數(shù)據(jù)分布直方圖。

      由圖4可以看出,不論是總體數(shù)據(jù)還是分配到各云端的數(shù)據(jù)都接近正態(tài)分布;此外,不同云端的均值偏移不同,且方差范圍有所區(qū)別,此現(xiàn)象說(shuō)明4.4節(jié)研究多維云合并是必要的。筆者在做本實(shí)驗(yàn)前還對(duì)手部IMU其他屬性、胸部IMU的各屬性以及LN和IDS數(shù)據(jù)集的連續(xù)屬性都進(jìn)行了類似的分布情況觀察分析,結(jié)果與在IMU6和IMU12上的觀察結(jié)果相似,篇幅所限,不再贅述。

      因此,盡管所選數(shù)據(jù)集與真實(shí)大數(shù)據(jù)在容量上有一定的差異,但就仿真而言,數(shù)據(jù)容量﹑數(shù)據(jù)總體分布和各云端的數(shù)據(jù)分布等都有一定的代表性。

      實(shí)驗(yàn)在單臺(tái)微機(jī)上通過(guò)仿真完成。為仿真數(shù)據(jù)在各云端的存儲(chǔ),實(shí)驗(yàn)為每個(gè)云端創(chuàng)建一個(gè)文件夾,每個(gè)文件夾下存儲(chǔ)若干純文本文件,每個(gè)文本文件存儲(chǔ)一個(gè)數(shù)據(jù)塊。每個(gè)實(shí)驗(yàn)開(kāi)始前,先將各數(shù)據(jù)集切分為相鄰塊并存儲(chǔ)到對(duì)應(yīng)文本文件中。

      實(shí)驗(yàn)為每個(gè)云端啟動(dòng)一個(gè)獨(dú)立線程,所有云端對(duì)應(yīng)線程并行執(zhí)行。每個(gè)線程從所屬云端對(duì)應(yīng)文件夾下讀取相應(yīng)數(shù)據(jù),并分配一塊內(nèi)存用于存儲(chǔ)相應(yīng)數(shù)據(jù)。各線程根據(jù)讀取的數(shù)據(jù)生成各端點(diǎn)云。若內(nèi)存資源不足時(shí),正在讀取數(shù)據(jù)的線程掛起,當(dāng)內(nèi)存資源可用時(shí)再喚醒。在需計(jì)算運(yùn)行時(shí)間的實(shí)驗(yàn)中,線程從掛起到喚醒所耗時(shí)間忽略。

      圖4 IMU6和IMU12分布直方圖

      為中心云端啟動(dòng)一個(gè)獨(dú)立線程,并分配一塊互斥訪問(wèn)的內(nèi)存,用于存儲(chǔ)各云端傳回的云。當(dāng)所有端點(diǎn)云都傳回后,中心云端對(duì)應(yīng)線程基于此內(nèi)存塊中的云完成云合并、中心云滴產(chǎn)生以及CCA運(yùn)算。

      實(shí)驗(yàn)通過(guò) C#語(yǔ)言實(shí)現(xiàn),在 Microsoft Visual Studio 2010 Ultimate-CHS環(huán)境中完成,作圖工具選用 MATLAB R2011a。實(shí)驗(yàn)計(jì)算機(jī)配置為雙核 2.8 GHz CPU、4.0 GB內(nèi)存,操作系統(tǒng)為 Windows 7 Professional。

      5.2 實(shí)驗(yàn)一:各參數(shù)對(duì)端點(diǎn)云生成的影響

      為驗(yàn)證本文改進(jìn)的多維逆向云發(fā)生器BDMBCG的有效性,本實(shí)驗(yàn)評(píng)估各參數(shù)對(duì)端點(diǎn)云生成的影響。為敘述方便,將改進(jìn)前的多維逆向云發(fā)生器記為MBCG。由于BDMBCG在每個(gè)云端運(yùn)行,因此本組實(shí)驗(yàn)設(shè)置云端數(shù)目為1,即在1個(gè)云端觀察,并設(shè)數(shù)據(jù)集在每個(gè)云端分為10塊存儲(chǔ)。

      需考察的參數(shù)包括數(shù)據(jù)子塊數(shù)目s、初始抽樣率 r0和云差異閾值ε。實(shí)驗(yàn)將云 C ( E x, E n, H e )視為Rp×3上的子空間,p為維數(shù),用算法改進(jìn)前計(jì)算出的云 C1和改進(jìn)后所得的云 C2對(duì)應(yīng)的列子空間S1=col(C1)和S2=col(C2)的距離 d ( S1, S2)作為誤差error的度量,定義為

      ii上的正交投影算子, i = 1 ,2。

      需要補(bǔ)充的是,式(12)與式(10)刻畫的2種云差異的區(qū)別:①條件不同,式(12)需求出云期望、熵和超熵后才有意義,而式(10)只需給出云期望向量和中間向量Γ;②目的不同,式(12)用于直接度量2種算法產(chǎn)生的云之間的差異,而式(10)用于間接度量同一算法在云部分增量式更新過(guò)程中相鄰時(shí)刻產(chǎn)生的云之間的差異。由于算法1執(zhí)行后云已經(jīng)生成,因此用式(12)刻畫BDMBCG生成的云與MBCG生成的云之間的差異是合理的。由上述兩點(diǎn)區(qū)別得出的結(jié)論是,引入式(10)和式(12)是必要的,而且不可用一方代替另一方或交換其位置。

      每組實(shí)驗(yàn)重復(fù)100次,以觀察不同參數(shù)下云的平均差異和計(jì)算時(shí)間。每次生成LN數(shù)據(jù)200 000條記錄,每條記錄包括10維;從PAMAP2數(shù)據(jù)集隨機(jī)抽取200 000條相鄰記錄,其屬性選取為手部IMU前10個(gè)屬性;并從IDS數(shù)據(jù)集中隨機(jī)抽取200 000條相鄰記錄,其屬性選取前10個(gè)連續(xù)屬性維度。

      首先,考察數(shù)據(jù)子塊數(shù)目s對(duì)生成云的影響及計(jì)算時(shí)間的差異。初始抽樣率00.35r= ,云差異閾值0.1ε=。圖5為誤差比較圖,而圖6為3個(gè)數(shù)據(jù)集上的平均計(jì)算時(shí)間比較圖。

      圖5 不同子塊數(shù)目下所生成云的誤差

      由圖 5可見(jiàn),隨著子塊數(shù)目s的增大,誤差逐漸減小。當(dāng)s增加到1 000時(shí),誤差已接近0.05。此現(xiàn)象表明,適當(dāng)增大子塊數(shù)目有助于提高計(jì)算精度。但圖 6卻表明,隨著子塊數(shù)目的增大,BDMBCG所需時(shí)間略有上升。因此在一定精度范圍內(nèi),子塊數(shù)目選擇適中為宜。此外,真實(shí)數(shù)據(jù)集PAMAP2和IDS上的誤差比合成數(shù)據(jù)集LN上的誤差略小。

      圖6 不同子塊數(shù)目下平均運(yùn)行時(shí)間

      其次,評(píng)估初始抽樣率0r對(duì)生成云的影響。數(shù)據(jù)子塊數(shù)目400s=,云差異閾值0.1ε=。圖7為誤差比較圖,而圖8為不同初始抽樣率0r的平均運(yùn)行時(shí)間。

      圖7 不同初始抽樣率下所生成云的誤差

      由圖 7可以看出,在00.3r≤ 時(shí)各數(shù)據(jù)集上誤差都較大;當(dāng)0r在 0.20~0.45范圍內(nèi)時(shí),誤差下降趨勢(shì)明顯;而此后誤差逐漸接近0.05左右,且波動(dòng)較小,其趨勢(shì)幾乎延續(xù)到00.8r= 。但是,并不是初始抽樣率越大越好,觀察圖8可以發(fā)現(xiàn),當(dāng)0r變小或增大時(shí),3個(gè)數(shù)據(jù)集上平均運(yùn)行時(shí)間持續(xù)增加。

      圖8 不同初始抽樣率下平均運(yùn)行時(shí)間

      再次,觀察云差異閾值ε對(duì)生成云的影響及計(jì)算時(shí)間的差異。初始抽樣率 r0= 0 .4,數(shù)據(jù)子塊數(shù)目 s = 4 00對(duì)。圖9為誤差比較圖,而圖10呈現(xiàn)了3個(gè)數(shù)據(jù)集上的平均運(yùn)行時(shí)間。由圖9可以看出,當(dāng) ε ≥ 0 .15時(shí),誤差持續(xù)增大。圖10表明,生成云的平均運(yùn)行時(shí)間隨著云差異閾值的增大不斷減少。結(jié)合兩圖觀察發(fā)現(xiàn),當(dāng)ε介于[0.08,0.15]時(shí),能獲得一個(gè)兼顧較低誤差和較少運(yùn)行時(shí)間的折中方案。

      圖9 不同云差異閾值下所生成云的誤差

      圖10 不同云差異閾值下平均運(yùn)行時(shí)間

      5.3 實(shí)驗(yàn)二:多維云合并運(yùn)算的效率分析

      本實(shí)驗(yàn)將式(5)對(duì)應(yīng)的原始云合并方法(記為“original”)與本文提出的一次性合并多個(gè)多維云的云運(yùn)算方法(如式(11)所示,不妨記為“new”)進(jìn)行比較,評(píng)估不同云端數(shù)目對(duì)云合并效率的影響。對(duì)于式(5)對(duì)應(yīng)的原始云合并,通過(guò)反復(fù)迭代,每次合并2個(gè)云,將前一次合并后的云加入當(dāng)前云的集合再次合并,直至最終合并為一個(gè)云為止。

      對(duì)于同一云端數(shù)目 nci,實(shí)驗(yàn)重復(fù)進(jìn)行50次。第i次實(shí)驗(yàn)中,云重要度皆為1/nci。每次實(shí)驗(yàn)生成維數(shù)為 10的 LN數(shù)據(jù) 2 nci× 1 05條記錄;并從PAMAP2數(shù)據(jù)集和IDS數(shù)據(jù)集中各隨機(jī)抽取 2 × 105條相鄰記錄 nci次,屬性選取與實(shí)驗(yàn)一相同。按抽取順序?qū)?shù)據(jù)平均分配到 nci個(gè)云端。之后在每個(gè)云端并行調(diào)用算法1的BDMBCG( s = 4 00、r0= 0 .3、ε= 0 .1)生成每個(gè)端點(diǎn)云,并將生成的云傳回中心云端。本實(shí)驗(yàn)僅僅評(píng)估在中心云端上合成中心云的效率。

      圖11為不同云端數(shù)目下,在3個(gè)數(shù)據(jù)集上云合并的平均運(yùn)行時(shí)間比較圖。由圖 11可以看出,隨著云端數(shù)目的增大,原始的云合并操作所需時(shí)間迅速上升,而本文提出的一次性合并多個(gè)多維云的操作所需時(shí)間上升幅度卻相對(duì)較小。此現(xiàn)象表明,本文提出的云合并操作對(duì)于所提出的大數(shù)據(jù)分布式云架構(gòu)是合適的,云端數(shù)目增大并未顯著提高云合并的時(shí)間開(kāi)銷。

      圖11 云合并運(yùn)行時(shí)間比較

      5.4 實(shí)驗(yàn)三:BDCCA的有效性評(píng)估

      為驗(yàn)證本文所提BDCCA的有效性,本組實(shí)驗(yàn)將 BDCCA 與經(jīng)典 CCA(記為 NaiveCCA)、ApproxCCA[32]和LS-CCA[33]進(jìn)行對(duì)比分析,考察不同云滴群大小、不同云端數(shù)目以及不同數(shù)據(jù)總?cè)萘肯?,典型相關(guān)系數(shù)的精度以及BDCCA的執(zhí)行效率。

      典型相關(guān)系數(shù)的精度用其誤差error刻畫。error定義為 NaiveCCA在原始大數(shù)據(jù)上所得典型相關(guān)系數(shù) rNavieCCA分別與其他幾種方法所得典型相關(guān)系數(shù)之差的絕對(duì)值,即

      其中, r0取 rBDCCA、rApproxCCA或rLS-CCA。rBDCCA表示BDCCA在云滴群上所得的典型相關(guān)系數(shù),而rApproxCCA和rLS-CCA分別表示ApproxCCA和LS-CCA在原數(shù)據(jù)上所得的典型相關(guān)系數(shù)。

      基于BDCCA求典型相關(guān)系數(shù)的過(guò)程為:對(duì)于每個(gè)實(shí)驗(yàn),首先在每個(gè)云端并行調(diào)用算法 1的BDMBCG生成每個(gè)端點(diǎn)云,并將生成的云傳回中心云端;其次根據(jù)式(11)進(jìn)行云合并;第三采用文獻(xiàn)[30]中的多維正向正態(tài)云發(fā)生器產(chǎn)生中心云滴群drop( X,μx)和 d rop( Y,μy);最后在X和Y上執(zhí)行CCA操作。

      本節(jié)所有實(shí)驗(yàn)在每個(gè)云端前兩步的參數(shù)設(shè)置同實(shí)驗(yàn)二,且所有實(shí)驗(yàn)在數(shù)據(jù)集 PAMAP2和 IDS上進(jìn)行。在PAMAP2數(shù)據(jù)集上,實(shí)驗(yàn)將手部IMU作為一組(包括17個(gè)屬性),而胸部 IMU作為另一組(包括17個(gè)屬性);而IDS數(shù)據(jù)集則選取前12個(gè)連續(xù)屬性為一組,其余連續(xù)屬性為另一組。

      5.4.1 云滴群大小對(duì)典型相關(guān)系數(shù)的影響

      本實(shí)驗(yàn)設(shè)置 25個(gè)云端,每個(gè)云端的數(shù)據(jù)選取方式與實(shí)驗(yàn)二相同。對(duì)于給定的云滴群大小 di,實(shí)驗(yàn)重復(fù) 30次,每次都重新挑選數(shù)據(jù)。對(duì)每個(gè)典型相關(guān)系數(shù),其誤差定義如式(13)所示。取各次所得典型相關(guān)系數(shù)誤差的算術(shù)平均值作為平均誤差。

      由于BDCCA計(jì)算典型相關(guān)系數(shù)是在云滴群上進(jìn)行的,而其他CCA方法則在原始大數(shù)據(jù)上進(jìn)行,因此當(dāng)數(shù)據(jù)總?cè)萘抗潭ê?,云滴群的?guī)模并不影響ApproxCCA和LS-CCA所得典型相關(guān)系數(shù)的誤差,因?yàn)樵诓煌频稳捍笮∠拢瑀ApproxCCA和rLS-CCA為常數(shù)。故本實(shí)驗(yàn)僅僅考察不同云滴群大小下 BDCCA所得典型相關(guān)系數(shù)誤差的變化情況。

      圖12為不同云滴群大小下前2個(gè)典型相關(guān)系數(shù)的平均誤差。由圖12可看出:①隨著云滴群規(guī)模的增大,前2個(gè)典型相關(guān)系數(shù)的誤差均逐漸降低,但當(dāng)云滴群大小超過(guò)150時(shí),其降低趨勢(shì)趨于平緩。此現(xiàn)象的啟發(fā)是,適當(dāng)增大云滴群規(guī)模有助于降低典型相關(guān)系數(shù)的誤差,但是當(dāng)其規(guī)模增大到一定程度后,再增加云滴數(shù)目對(duì)于降低誤差的貢獻(xiàn)并不大。②當(dāng)云滴群大小超過(guò)100時(shí),相關(guān)系數(shù)的誤差均較小,其值未超過(guò)0.2,多數(shù)在0.1范圍內(nèi)。此現(xiàn)象從相關(guān)性這一側(cè)面揭示了大數(shù)據(jù)的稀疏價(jià)值特性,即大量數(shù)據(jù)中蘊(yùn)含的相關(guān)性通過(guò)少量云滴即得以刻畫,這與本文研究的最初設(shè)想是一致的。

      圖12 不同云滴群大小下典型相關(guān)系數(shù)誤差

      5.4.2 云端數(shù)目的影響

      在數(shù)據(jù)總?cè)萘亢驮频稳捍笮【o定的情況下,本實(shí)驗(yàn)評(píng)估云端數(shù)目對(duì)典型相關(guān)系數(shù)的精度及運(yùn)行時(shí)間的影響。與 5.4.1節(jié)的實(shí)驗(yàn)相似,當(dāng)數(shù)據(jù)總?cè)萘抗潭ê螅贫艘?guī)模也不會(huì)影響 ApproxCCA和LS-CCA所得典型相關(guān)系數(shù)的誤差,因此本實(shí)驗(yàn)關(guān)于典型相關(guān)系數(shù)誤差也僅僅考察BDCCA所得典型相關(guān)系數(shù)誤差隨云端數(shù)目變化而變化的情況。誤差定義如式(13)所示。

      云滴群大小設(shè)置為100。從數(shù)據(jù)集PAMAP2和IDS中重復(fù)抽取100次數(shù)據(jù),每次隨機(jī)抽取 2 × 105條相鄰記錄。當(dāng)云端數(shù)目 nci給定后,第i個(gè)云端分配的記錄數(shù)目為其中表示向下取整。實(shí)驗(yàn)對(duì)不同的云端數(shù)目 nci重復(fù) 10次。圖 13為不同云端數(shù)目下第1典型相關(guān)系數(shù)的平均誤差,而圖14為不同云端數(shù)目下的平均運(yùn)行時(shí)間。

      5.4.3 數(shù)據(jù)容量的影響

      本實(shí)驗(yàn)考察數(shù)據(jù)總?cè)萘繉?duì)BDCCA所得典型相關(guān)系數(shù)的精度和運(yùn)行時(shí)間的影響。從數(shù)據(jù)集PAMAP2和IDS中重復(fù)抽取若干次數(shù)據(jù),每次隨機(jī)抽取 1 × 105條相鄰記錄,直至所取數(shù)據(jù)達(dá)到所需容量 nD為止。共進(jìn)行10組實(shí)驗(yàn),云端數(shù)目設(shè)置為,即每個(gè)云端分配 1 × 106條記錄。云滴群大小設(shè)置為100。每組實(shí)驗(yàn)重復(fù)10次,取每次所得典型相關(guān)系數(shù)誤差的平均值作為輸出誤差,而取所有云端的最大運(yùn)行時(shí)間作為 BDCCA的運(yùn)行時(shí)間。

      圖13 不同云端數(shù)目下典型相關(guān)系數(shù)的誤差

      圖14 不同云端數(shù)目下的平均運(yùn)行時(shí)間

      表1為不同總數(shù)據(jù)容量下前2個(gè)典型相關(guān)系數(shù)的平均誤差。誤差定義如式(13)所示。由表1可知:1)從總體上看,BDCCA、ApproxCCA和LS-CCA對(duì)應(yīng)典型相關(guān)系數(shù)誤差都隨著數(shù)據(jù)總?cè)萘康脑黾佣仙?,但后兩者是持續(xù)地快速上升,且上升幅度較大,而B(niǎo)DCCA在上升過(guò)程中存在波動(dòng),且上升幅度略??;2)當(dāng)數(shù)據(jù)總?cè)萘枯^小時(shí),BDCCA對(duì)應(yīng)典型相關(guān)系數(shù)誤差略大于 ApproxCCA和 LS-CCA對(duì)應(yīng)誤差,而當(dāng)數(shù)據(jù)總?cè)萘枯^大時(shí),后兩者對(duì)應(yīng)誤差迅速超過(guò)前者對(duì)應(yīng)誤差(見(jiàn)表中粗體)。上述現(xiàn)象表明,在數(shù)據(jù)容量較大的情況下,BDCCA所得典型相關(guān)系數(shù)精度相對(duì)略高,從這個(gè)意義上說(shuō),BDCCA用于大數(shù)據(jù)分析是適宜的。

      表1 不同數(shù)據(jù)容量下典型相關(guān)系數(shù)平均誤差

      圖 15為不同容量下的平均運(yùn)行時(shí)間。由圖15可見(jiàn),BDCCA的平均運(yùn)行時(shí)間并未因數(shù)據(jù)容量的增大而顯著增加,但 ApproxCCA、LS-CCA和NaiveCCA的平均運(yùn)行時(shí)間則隨著數(shù)據(jù)容量的增加而呈線性遞增趨勢(shì)。此現(xiàn)象表明,如果數(shù)據(jù)容量增大時(shí)對(duì)等地增加云端數(shù)目,則BDCCA能獲得較快的處理速度,這恰是大數(shù)據(jù)的巨大規(guī)模特性所歡迎的。

      圖15 不同數(shù)據(jù)總?cè)萘肯缕骄\(yùn)行時(shí)間

      總之,上述實(shí)驗(yàn)結(jié)果表明,基于所設(shè)計(jì)的大數(shù)據(jù)分布式云架構(gòu)所提出的BDCCA以增加系統(tǒng)資源(即云端)為代價(jià),可獲得一定的計(jì)算精度和較快的處理速度,這對(duì)于大數(shù)據(jù)快速處理是適宜的。

      6 結(jié)束語(yǔ)

      本文提出了一種面向大數(shù)據(jù)的CCA方法BDCCA。該方法在容量較小的中心云滴群上進(jìn)行CCA操作,提高了大數(shù)據(jù) CCA的執(zhí)行效率。為了快速產(chǎn)生中心云滴,首先設(shè)計(jì)了一種面向大數(shù)據(jù)挖掘的分布式云架構(gòu),為本文大數(shù)據(jù)存儲(chǔ)和計(jì)算建立了研究基礎(chǔ);其次重點(diǎn)對(duì)多維逆向正態(tài)云發(fā)生器進(jìn)行改進(jìn),以提高其在大數(shù)據(jù)環(huán)境下產(chǎn)生云的效率;提出了一種一次性合并多個(gè)多維云的云合并運(yùn)算方法,以加快云合并速度。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的合理性和有效性,一方面該方法以增加系統(tǒng)資源(即云端)為代價(jià),可獲得一定的計(jì)算精度和較快的處理速度;另一方面該方法從相關(guān)性這一側(cè)面揭示了大數(shù)據(jù)的稀疏價(jià)值特性。本研究可用于大數(shù)據(jù)特征融合、機(jī)器學(xué)習(xí)和數(shù)據(jù)降維等領(lǐng)域。

      [1] MINNESOTA M. Big data: science in the petabyte era[J]. Nature,2008, 455(7209):1-136.

      [2] SAKAR C O, KURSUN O. A method for combining mutual information and canonical correlation analysis: predictive mutual information and its use in feature selection[J]. Expert Systems with Applications,2012, 39(3):3333-3344.

      [3] OLCAY K, ETHEM A, OLEG V, et al. Canonical correlation analysis using within-class coupling[J]. Pattern Recognition Letters, 2011, 32(2):134-144.

      [4] KAMALIKA C, SHAM M K, KAREN L, et al. Multi-view clustering via canonical correlation analysis[A]. Proc of the 26th International Conference on Machine Learning[C]. New York, ACM, USA, 2009.129-136.

      [5] 楊靜, 李文平, 張健沛. 基于秩 2更新的多維數(shù)據(jù)流典型相關(guān)跟蹤算法[J]. 電子學(xué)報(bào), 2012, 40(9):1765-1774.YANG J, LI W P, ZHANG J P. A tracking algorithm based on rank two modifications for canonical correlation analysis of multidimensional data streams[J]. Acta Electronica Sinica, 2012, 40(9):1765-1774.

      [6] 顧鑫, 徐正全, 劉進(jìn). 基于云理論的可信研究及展望[J]. 通信學(xué)報(bào),2011, 32(7):176-181.GU X, XU Z Q, LIU J. Review of cloud based trust model[J]. Journal on Communications, 2011, 32(7):176-181.

      [7] 黃海生, 王汝傳. 基于隸屬云理論的主觀信任評(píng)估模型研究[J]. 通信學(xué)報(bào), 2008,29(4):13-19.HUANG H S, WANG R C. Subjective trust evaluation model based on membership cloud theory[J]. Journal on Communications, 2008, 29(4): 13-19.

      [8] 蔣嶸, 李德毅. 基于形態(tài)表示的時(shí)間序列相似性搜索[J]. 計(jì)算機(jī)研究與發(fā)展, 2000, 37(5):601-608.JIANG R, LI D Y. Similarity search based on shape representation in time-series data sets[J]. Journal of Computer Research & Development,2000, 37(5):601-608.

      [9] 許凱, 秦昆, 黃伯和等. 基于云模型的圖像區(qū)域分割方法[J]. 中國(guó)圖象圖形學(xué)報(bào), 2010, 15(5):757-763.XU K, QIN K, HUANG B H, et al. A new method of region based on image segmentation based on cloud model[J]. Journal of Image and Grphics, 2010, 15(5):757-763.

      [10] HOTELLING H. Relations between two sets of variates[J]. Biometrika, 1936, 28(3):321-377.

      [11] 彭巖, 張道強(qiáng). 半監(jiān)督典型相關(guān)分析算法[J]. 軟件學(xué)報(bào), 2008,19(11):2822-2832.PENG Y, ZHANG D Q. Semi-supervised canonical correlation analysis algorithm[J]. Journal of Software, 2008, 19(11):2822-2832.

      [12] 顧晶晶, 陳松燦, 莊毅. 用局部保持典型相關(guān)分析定位無(wú)線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)[J]. 軟件學(xué)報(bào), 2010, 21(11):2883-2891.GU J J, CHEN S C, ZHUANG Y. Localization in wireless sensor network using locality preserving canonical correlation analysis[J]. Journal of Software, 2010, 21(11):2883-2891.

      [13] LI D Y, HAN J W. Knowledge representation and discovery based on linguistic atoms[J]. Knowledge-based Systems, 1998, 7(10):431-440.

      [14] PHILIP R. Big Data Analytics[R]. TDWI Best Parctices Report, 2011.1-38.

      [15] BENJAMIN H B, MARK R B, KEITH A S, et al. Large-scale electrophysiology: acquisition, comprression, encryption, and storage of big data[J]. Journal of Neurosience Methods, 2009, 180(1):185-192.

      [16] ARONOVA E, BAKER K, ORESKES N. Big science and big data in biology: from the international geophysical year through the international biological program to the long term ecological research (LTER) network[J].Historical Studies in the Natural Sciences, 2010, 40(8): 183-224.

      [17] WERNER C. Scientif i c perspectivism: a philosopher of science’s response to the challenge of big data biology[J]. Studies in History and Philosophy of Biological and Biomedical Sciences, 2012, 43(1):69-80.

      [18] ALFREDO C, YEOL S, KAREN C D. Analytics over largescale multidimensional data: the big data revolution[A]. Proc of the DOLAP’11[C]. Glasgow, 2011. 101-103.

      [19] STEVEN C H H, WANG J L, ZHAO P L, et al. Online feature selection for mining big data[A]. Proc of the Big-Mine’12[C]. New York:ACM, USA, 2012. 93-100.

      [20] SIMON B, DUODUO L. On clusterization of ''big data'' streams[A].Proc of the 3rd International Conference on Computing for Geospatial Research and Applications[C]. New York:ACM, USA, 2012.1-6.

      [21] JOHN L. Parallel machine learning on big data[J]. XRDS, 2012, 19(1):60-62.

      [22] THOMAS C, PEGGY H, MELANIE M, et al. Building a big data research program at a small university[J]. JCSC, 2012, 28(2):95-102.

      [23] YU C, CHENG J Q, FLORIN R. GLADE: big data analytics made easy[A]. Proc of the SIGMOD’12[C]. New York: ACM, USA, 2012.697-700.

      [24] KYUSEOK S. MapReduce algorithms for big data analysis[A]. Proc of the 38th International Conference on Very Large Data Bases (VLDB)[C].New York: ACM, USA, 2012. 2016-2017.

      [25] JENS D, JORGE A. Efficient big data processing in hadoop MapReduce[A]. Proc of the 38th International Conference on Very Large Data Bases(VLDB)[C]. New York: USA, ACM, 2012. 2014-2015.

      [26] DIVYAKANT A, SUDIPTO D, AMR E A. Big data and cloud computing: current state and future opportunities[A]. Proc of the EDBT 2011[C]. New York: ACM, USA, 2011. 530-533.

      [27] XU H Q, LI Z, GUO S M, et al. CloudVista: interactive and economical visual cluster analysis for big data in the cloud[A]. Proc of the 38th International Conference on very Large Data Bases(VLDB)[C]. New York: USA, ACM, 2012. 1886-1889.

      [28] COLIN T, DIGITAL P. Big data security[J]. Network Security, 2012,7(2):5-8.

      [29] SOTIRIS K. Combining bagging, boosting, rotation forest and random subspace methods[J]. Artificial Intelligence Review, 2011, 35(3):223-240.

      [30] 李德毅, 杜鷁. 不確定性人工智能[M]. 北京: 國(guó)防工業(yè)出版社,2005. 224-227.LI D Y, DU Y. Artificial Intelligence with Uncertainty[M]. Beijing:National Defence Industry Press, 2005. 224-227.

      [31] TAVALLAEE M, BAGHERI E, LU W, et al. A detailed analysis of the KDD CUP 99 data set[A]. Proc of the Second IEEE International Conference on Computational Intelligence for Security and Defense Applications[C]. Ottawa, Canada, 2009. 53-58.

      [32] WANG Y L, ZHANG G X, QIAN J B. ApproxCCA: an approximate correlation analysis algorithm for multidimensional data streams[J].Knowledge-Based Systems, 2011, 24(7):952-962.

      [33] SUN L, JI S W. Canonical correlation analysis for multilabel classification: a least-squares formulation, extensions, and analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011,33(1):194-200.

      猜你喜歡
      云滴子塊數(shù)目
      基于八叉樹(shù)的地震數(shù)據(jù)多級(jí)緩存方法
      基于八叉樹(shù)的地震數(shù)據(jù)分布式存儲(chǔ)方法研究
      有機(jī)物“同分異構(gòu)體”數(shù)目的判斷方法
      基于特征值算法的圖像Copy-Move篡改的被動(dòng)取證方案
      福建九仙山一次佛光的云滴粒子尺度分析*
      你不知道的雷雨知識(shí)
      基于波浪式矩陣置換的稀疏度均衡分塊壓縮感知算法
      《哲對(duì)寧諾爾》方劑數(shù)目統(tǒng)計(jì)研究
      牧場(chǎng)里的馬
      云微物理特性及云滴有效半徑參數(shù)化:一次降水層狀云的飛機(jī)觀測(cè)資料結(jié)果
      改则县| 团风县| 清河县| 宜川县| 准格尔旗| 湖北省| 潮州市| 高邮市| 黔南| 城固县| 大悟县| 礼泉县| 清徐县| 大埔县| 新巴尔虎右旗| 长乐市| 肃北| 北流市| 新民市| 广德县| 彰武县| 云龙县| 眉山市| 刚察县| 广宗县| 客服| 罗甸县| 临泉县| 视频| 兴海县| 交口县| 高阳县| 镇雄县| 红桥区| 简阳市| 资阳市| 平昌县| 白银市| 砀山县| 河西区| 涪陵区|