• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    關(guān)系數(shù)據(jù)庫不可用空值的查詢與處理

    2017-10-26 12:34:22郭詠科毛宇光向日鋒
    計算技術(shù)與自動化 2017年3期

    郭詠科 毛宇光 向日鋒

    摘要:在流式大數(shù)據(jù)系統(tǒng)測試過程中,測試數(shù)據(jù)集越真實,得到的測試報告越可信。然而真實大量的流式數(shù)據(jù)并不容易獲取,因此需要一種方法能夠產(chǎn)生大量符合真實場景特征的數(shù)據(jù)。這些特征包括數(shù)據(jù)屬性相關(guān)性、數(shù)據(jù)時序相關(guān)性、數(shù)據(jù)流的流速變化等等。在流式大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的時序相關(guān)性與流速變化尤為重要。本文提出了一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法,以真實場景的數(shù)據(jù)集作為種子數(shù)據(jù),對種子數(shù)據(jù)采用最大互信息系數(shù)描述數(shù)據(jù)屬性間的相關(guān)性,改進了Prim算法對屬性列集合進行分組,在盡量保證屬性列強相關(guān)的前提下提高生成效率,接著提出了一種時序模型選擇策略,保證生成的數(shù)據(jù)在時序上的相關(guān)性,提出了雙層滑動窗口的方法控制流數(shù)據(jù)輸出速度。最后,本文比較了提出的方法與其他流數(shù)據(jù)生成方法的生成效率。

    關(guān)鍵詞:流式大數(shù)據(jù)生成;非線性相關(guān)性;時序相關(guān)性;流速控制

    中圖分類號:TP311文獻標(biāo)識碼:A

    Abstract:In the process of streaming big data system testing,the more real test data sets,the more reliable the test report can be obtained.However,real data is not easy to obtain,so a method is needed to generate a large number of data with real scenario features.Thesefeatures include data attribute correlation,data temporal sequence correlation and the rates of streaming data.In the streaming big data environment,the data temporal sequence correlation and the rates of streaming dataare especially important.In this paper,we present amethod forstreaming big data generation,using real scenario streaming data as the seed data,using the maximum mutual information coefficient to describe the correlation between the data attributes,putting forward acprim algorithm to partition the attribute group,improve efficiency in the premise of ensuring that the attributes arestrong related.according to the different characteristics of each attribute group,using different temporal sequence model to ensure that the data generated hold temporal sequence correlation,a double sliding window method is proposed to control thedegree of parallelism and the output speed of the streaming data.Finally,this paper compares the proposed method with other streaming data generation methods for generating efficiency.

    Key words:streaming data generation;nonlinear correlation;temporal sequence correlation;velocity control

    1簡介

    流式大數(shù)據(jù)廣泛存在于社交網(wǎng)絡(luò)、金融服務(wù)等領(lǐng)域,越來越多的流式大數(shù)據(jù)處理系統(tǒng)應(yīng)運而生,為了保證此類系統(tǒng)的性能滿足設(shè)計需求,需要對其進行相應(yīng)的性能測試。Yahoo開發(fā)了云服務(wù)測試套件YCSB,用來對云服務(wù)進行基礎(chǔ)測試,目標(biāo)是進行云數(shù)據(jù)服務(wù)系統(tǒng)的性能比較[1];Ruirui Lu等人提出了測試套件StreamBench,描繪了流式系統(tǒng)的性能測試框架,比較全面地對流式大數(shù)據(jù)系統(tǒng)進行了測評[2];詹劍鋒等人提出了大數(shù)據(jù)測試基準BigDataBench,其基準測試程序覆蓋了多個大數(shù)據(jù)應(yīng)用領(lǐng)域[3]。然而諸如此類的測試套件,重點關(guān)注的是負載的全面性,在輸入數(shù)據(jù)集的選擇問題上考慮得不夠全面。進行流式大數(shù)據(jù)系統(tǒng)的測試,輸入到系統(tǒng)的數(shù)據(jù)與真實場景下的數(shù)據(jù)特征越吻合,得到的測試結(jié)果越準確,因此需要一種能夠保持數(shù)據(jù)真實特征的大數(shù)據(jù)仿真生成方法。

    在流數(shù)據(jù)和流數(shù)據(jù)庫仿真生成方面近年來有很多豐碩成果,Eric等人提出了DBMS測試套件MyBenchmark以及數(shù)據(jù)生成工具[4],把一組查詢操作作為輸入,能夠生成數(shù)據(jù)庫實例,同時用戶還能控制生成負載的特征。由于保持了大量數(shù)據(jù)依賴、數(shù)據(jù)分布等內(nèi)層特征,數(shù)據(jù)生成的速度不是很高。Joseph等人提出了一種合成數(shù)據(jù)形式化的描述語言SDDL[5],能夠并行生成具有某些約束和簡單用戶定義函數(shù)的數(shù)據(jù),但是沒有考慮到數(shù)據(jù)的分布特征,不能生成滿足例如高斯分布等復(fù)雜概率分布的數(shù)據(jù)。Kenneth等人將數(shù)據(jù)表的生成轉(zhuǎn)換成圖的遍歷過程[6],能夠保證比較好的屬性依賴和概率分布,由于重點保持屬性依賴,使得數(shù)據(jù)的并行化程度不高,在生成數(shù)據(jù)表規(guī)模比較龐大或者依賴關(guān)系比較復(fù)雜的時候生成速度比較慢。華東師范大學(xué)的顧伶等人提出了通用數(shù)據(jù)生成框架PSUG,使用標(biāo)準均方關(guān)聯(lián)度量計算屬性間相關(guān)性,使用隱式狄利克雷模型模擬數(shù)據(jù)流前后的主題相關(guān)性,開發(fā)了數(shù)據(jù)生成工具Chronos,能夠生成滿足流數(shù)據(jù)庫測試套件的數(shù)據(jù)[7][8],但是Chronos使用的標(biāo)準關(guān)聯(lián)度是一個線性的相關(guān)性度量指標(biāo),對于具有非線性關(guān)系的屬性關(guān)聯(lián)不能準確地描述,同時對于不存在主題的純數(shù)字型數(shù)據(jù),該生成方法無法滿足生成的數(shù)據(jù)在時序上的相關(guān)性。流式大數(shù)據(jù)的屬性依賴關(guān)系以及其固有流式特征都與傳統(tǒng)的數(shù)據(jù)庫和流數(shù)據(jù)庫有所不同。錢宇華等人研究了大數(shù)據(jù)環(huán)境下的數(shù)據(jù)相關(guān)性度量指標(biāo)的優(yōu)缺點[9][10],同時指出在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)之間的相關(guān)性一般都是非線性的。Reshef等人提出了最大互信息系數(shù),證明了該度量指標(biāo)對非線性相關(guān)性能進行比較準確的刻畫[11]。endprint

    本文在此基礎(chǔ)上提出一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法,在盡可能保證數(shù)據(jù)屬性相關(guān)性的同時,加入流式數(shù)據(jù)的時序性特征,同時還能控制流數(shù)據(jù)的流速。本文最后也進行了效率方面的檢測,證明了該數(shù)據(jù)生成方法的有效性。

    本文的結(jié)構(gòu)如下:第2節(jié)介紹數(shù)據(jù)生成方法的整體框架,第3節(jié)介紹參數(shù)設(shè)置方法,第4節(jié)介紹相關(guān)性控制方法,第5節(jié)介紹流速控制方法,第6節(jié)介紹實驗。

    2框架結(jié)構(gòu)概述

    本節(jié)對數(shù)據(jù)生成方法的框架進行簡要的描述,如圖1所示,整個框架分為3個部分:參數(shù)設(shè)置模塊、相關(guān)性控制模塊、流速控制模塊。

    參數(shù)設(shè)置模塊以種子數(shù)據(jù)作為輸入,提取屬性列的信息,生成數(shù)據(jù)描述文件,定義參數(shù)對后續(xù)生成的數(shù)據(jù)的特征進行校正,不同的參數(shù)組合可以代表不同的應(yīng)用場景下數(shù)據(jù)的不同特點。相關(guān)性控制模塊任務(wù)是計算數(shù)據(jù)屬性間的相關(guān)性系數(shù),對屬性集合進行劃分,劃分后得到的屬性組擁有類似高內(nèi)聚低耦合的特征。提出時序模型選擇策略對于每個屬性組進行時序相關(guān)性的分析,得出回歸方程用作數(shù)據(jù)生成。流速控制模塊定義內(nèi)層滑動窗口保證并行生成的數(shù)據(jù)在整個時間序上的相關(guān)性,定義外層滑動窗口控制數(shù)據(jù)流輸出速率。

    3參數(shù)設(shè)置

    本節(jié)介紹數(shù)據(jù)生成方法的參數(shù)設(shè)置。本文方法定義了四個參數(shù):最大相關(guān)性忽略系數(shù)c;時序相關(guān)回歸階數(shù)r;時間分段T;數(shù)據(jù)流速S。

    最大相關(guān)性忽略系數(shù)c是在數(shù)據(jù)屬性組劃分階段,終止搜索下一個屬性所參考的變量。取值范圍在0.2~0.4,屬性相關(guān)性在0.2以下說明屬性之間相關(guān)性極低,在0.2~0.4之間相關(guān)性較低。該參數(shù)越小,允許忽略的相關(guān)性越少,因此分解出的屬性組越少,并行化程度越低;相反,分解出的屬性組越多,并行化程度越高。對于僅僅需要進行壓力或者負載測試的系統(tǒng)來說,該參數(shù)設(shè)置大一些,忽略數(shù)據(jù)屬性之間一些不必要的相關(guān)性;對于某些具備數(shù)據(jù)挖掘功能的系統(tǒng)來說,該參數(shù)應(yīng)設(shè)置小一些,盡量保存數(shù)據(jù)屬性之間的相關(guān)性,使得數(shù)據(jù)挖掘性能能夠得到展現(xiàn)。

    時序相關(guān)回歸階數(shù)r是在進行數(shù)據(jù)時序相關(guān)性分析階段,向前參考數(shù)據(jù)的個數(shù),取值范圍在2~4。該參數(shù)越小,時序相關(guān)性越弱,但回歸公式越簡單,數(shù)據(jù)生成效率越高;相反,考慮的數(shù)據(jù)時序相關(guān)性越強,回歸公式越復(fù)雜,數(shù)據(jù)生成效率越低。對于類似股票流數(shù)據(jù)的場景,該參數(shù)應(yīng)設(shè)置高一些,使得生成的數(shù)據(jù)與之前數(shù)據(jù)的關(guān)系盡可能精準一些;而對于類似車載物聯(lián)網(wǎng)系統(tǒng)來說,其前后的流數(shù)據(jù)相關(guān)性不是特別重要,該參數(shù)可以設(shè)置低一點。

    時間分段T描述的就是某一個周期下不同數(shù)據(jù)流速的段數(shù)以及時長,是一個自然數(shù)的集合,即T={t1,t2,t3……}。該參數(shù)元素個數(shù)越小,流速越平穩(wěn),數(shù)據(jù)流越穩(wěn)定;相反,流速變化越頻繁,數(shù)據(jù)流波動越大。例如銀行系統(tǒng),每天早7點之前和晚7點之后,系統(tǒng)負載較小,早7點到11點和下午2點到7點為高峰,負載較大,則可以將整個數(shù)據(jù)流分為4段,即t1=12(晚7點到第二天早7點);t2=4(早7點到早11點);t2=3(早11點到下午2點);t4=5(下午2點到下午7點)。

    數(shù)據(jù)流速S描述的是時間分段T上的數(shù)據(jù)流速,S同樣是一個自然數(shù)的集合,元素個數(shù)與T一致。2012年的新年新浪微博的單秒最大數(shù)據(jù)條數(shù)達到了4萬條, 2016年11月11日,天貓購物節(jié)支付寶的交易峰值也只有16萬條數(shù)據(jù)/秒,根據(jù)互聯(lián)網(wǎng)用戶每年25%的增長趨勢,本文將其取值范圍設(shè)置在0~200000條數(shù)據(jù)/秒。S中元素的值越大,數(shù)據(jù)輸出得越快。假設(shè)s1代表晚上5點之前的流速,s2代表晚上7點之后的流速,則對于上述銀行系統(tǒng),朝九晚五的特點使得系統(tǒng)的數(shù)據(jù)流速在晚上7點之后明顯小于5點之前(s1s2);相反對于微博系統(tǒng),上班族下班,數(shù)據(jù)流速在晚上7點之后可能又遠遠大于晚上5點之前(s1s2)。

    4相關(guān)性控制

    本節(jié)介紹數(shù)據(jù)相關(guān)性控制方法,對于保證生成的數(shù)據(jù)符合真實數(shù)據(jù)特征具有重要作用。首先分析其兩兩之間的最大互信息相關(guān)系數(shù)(MIC),得到相關(guān)系數(shù)圖,接著改進了Prim算法進行屬性列集合的劃分,使得保持數(shù)據(jù)屬性列強相關(guān)的同時增加并行化來增加數(shù)據(jù)生成效率,最后給出一種時序模型選擇策略,對不同特征的屬性列集合采取不同的時序模型進行擬合,得到回歸方程或方程組用作后續(xù)數(shù)據(jù)生成。

    41屬性相關(guān)性

    屬性相關(guān)性是指擁有多個屬性的一批數(shù)據(jù),其屬性之間的關(guān)聯(lián)程度。在大數(shù)據(jù)相關(guān)分析中,MIC可以度量任何函數(shù)形式的相關(guān)性,具有通用性。同時,如果兩組不同形式、擁有相同MIC取值的數(shù)據(jù),當(dāng)給它們同等程度的噪音,MIC的取值仍然保持相等。流式大數(shù)據(jù)環(huán)境下,對數(shù)據(jù)的生成速度有要求,生成算法計算的復(fù)雜度越低越好,同時大數(shù)據(jù)復(fù)雜多樣、噪聲數(shù)據(jù)很多,算法的魯棒性同樣重要。表1是MIC與其他相關(guān)性度量指標(biāo)的對比,可以看出MIC更加適合流式大數(shù)據(jù)的環(huán)境。

    由于MIC具有對稱性,即MIC(A,B) = MIC(B,A),因此對于具有N個屬性的數(shù)據(jù)集,計算后能夠得到一個N個節(jié)點的帶權(quán)無向完全圖,圖中的邊的權(quán)值代表兩個屬性列之間的相關(guān)系數(shù)。當(dāng)兩個屬性列之間的相關(guān)性比較小時,應(yīng)該將它們單獨生成,而相關(guān)性比較大的幾個屬性列必須作為整體一起生成,所以可以對屬性列相關(guān)系數(shù)圖進行劃分,把相關(guān)性大的屬性列劃到同一組,以提高并行度,進而提高數(shù)據(jù)生成的整體效率。

    圖的最小生成樹算法以圖中連線權(quán)值為參考,生成一條包含所有節(jié)點的序列,由于本文進行屬性列分組時也需要參考連線權(quán)值,所以可以通過加入終止條件的辦法,讓算法提前結(jié)束,獲得序列的一條子序列,子序列中包含的節(jié)點就被分為同組。普利姆算法(Prim算法)和克魯斯卡爾算法(Kruskal算法),是最基本的兩種圖最小生成樹算法,分別適用于稠密圖和稀疏圖。帶權(quán)無向完全圖屬于稠密圖,因此本文對Prim算法進行改進,提出一種附加終止條件的Prim算法——cPrim算法劃分屬性列集合。endprint

    cPrim算法思想:從任意一個頂點出發(fā),尋找與其相連的邊集合中權(quán)值最大的邊,如果該邊的權(quán)值仍然小于等于最大相關(guān)性忽略系數(shù)c,則直接將該節(jié)點單獨分為一組;如果不小于c,找出最大權(quán)值邊對應(yīng)的節(jié)點,將該節(jié)點納入出發(fā)節(jié)點集合,再從出發(fā)節(jié)點集合出發(fā)尋找最大權(quán)值的邊,不斷循環(huán),直到所有節(jié)點被分成了若干組。假定最大相關(guān)性忽略系數(shù)c為0.2,下面以圖2為例,簡單介紹算法步驟。

    圖2(a)為劃分之前的關(guān)聯(lián)關(guān)系圖。隨機從一個節(jié)點出發(fā)(例如1號節(jié)點),與其相連的邊上的權(quán)值為0.1、0.1、0.2,均小于等于c,故直接將1號節(jié)點單獨分為一組,如圖2(b)所示。

    再從剩下的2,3,4號節(jié)點中隨機選取一個(例如3號節(jié)點),與其相連邊最大權(quán)值為0.5,大于c,那么將4號節(jié)點納入{3},如圖2(c)所示。

    繼續(xù)尋找從3,4號節(jié)點出發(fā)的最大權(quán)值的邊,是2號與4號節(jié)點的連接邊,權(quán)值為0.3,大于0.2,將2號節(jié)點納入{3,4}。整個屬性集合被分成了2組:{1},{2,3,4},如圖2(d)所示。

    假定的最大相關(guān)性忽略系數(shù)c為0.4,根據(jù)算法可以將屬性集合分為3組:{1},{2},{3,4}。

    算法偽代碼:

    42時序相關(guān)性

    數(shù)據(jù)的時序相關(guān)性是指帶有時間戳的一組數(shù)據(jù),其前后數(shù)據(jù)屬性值的關(guān)聯(lián)關(guān)系。在流式大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的時序性非常關(guān)鍵,缺少了時序的流式數(shù)據(jù)就喪失了數(shù)據(jù)挖掘特別是趨勢預(yù)測的意義。本小節(jié)提出一種時序模型選擇策略,針對不同特點的屬性組采用不同的時序模型進行回歸方程的擬合。

    屬性分組劃分完之后,首先將屬性組分為2類:單屬性組和多屬性組。

    對于單屬性組,首先判斷其是否平穩(wěn),即序列是否圍繞某個固定值上下波動或者序列的標(biāo)準差是否保持不變。若平穩(wěn),則采用經(jīng)典的自回歸移動平均(ARMA)模型進行擬合,形式為:

    Xt=Φ1Xt-1+…+ΦpXt-p+εt-…-θqεq(5)

    其中Xt是需要估計的下一個值,Xt-1~Xt-p是回歸參考的屬性數(shù)據(jù),εt是當(dāng)前噪聲,εt-1~εt-p是回歸參考的噪聲數(shù)據(jù),Φ1~Φp以及θ1~θq為回歸參考數(shù)據(jù)的參數(shù)。

    若非平穩(wěn),則采用自回歸滑動平均(ARIMA)模型進行擬合。ARIMA模型是針對非平穩(wěn)的單變量時間序列的,其基本思想是將一個非平穩(wěn)的時間序列通過一次或者多次差分轉(zhuǎn)換成平穩(wěn)序列再進行擬合。一般來說,一階差分可以使有線性趨勢的序列變得平穩(wěn);二階差分可以使有曲線趨勢的序列變得平穩(wěn)。ARIMA模型形式為:

    其中Δd是指經(jīng)過了d階差分,其他參數(shù)同ARMA模型的參數(shù)。

    對于多屬性組,采用自向量回歸(VAR)模型進行擬合。VAR模型針對的是多變量的時間序列,擬合之前需要觀察數(shù)據(jù)VAR模型根模散點是否均落在單位圓內(nèi)來的判斷序列是否平穩(wěn),若不平穩(wěn),首先差分成平穩(wěn)序列再進行擬合,模型形式為:

    Xt=Φ1Xt-1+…+ΦpXt-p+βYt+εt(7)

    其中Xt~Xt-p為內(nèi)生變量向量,Yt是外生變量向量,改變量是指除了參與,εt是當(dāng)前噪聲向量,Φ1~Φp以及β為回歸參考數(shù)據(jù)的參數(shù)。對所有屬性組進行擬合得到回歸方程,用作數(shù)據(jù)生成。

    5流速控制

    本節(jié)描述一種雙層滑動窗口的方法,控制流數(shù)據(jù)流速?;瑒哟翱诘母拍钭钕瘸霈F(xiàn)在計算機網(wǎng)絡(luò)中,通訊雙方約定一個能夠接受的窗口大小,每次只發(fā)送和接收指定窗口大小的內(nèi)容,防止數(shù)據(jù)溢出。

    為了保證流數(shù)據(jù)整體的時序性,必須在增加并行度時進行控制,定義內(nèi)層滑動窗口,窗口大小為時序相關(guān)回歸階數(shù)r,維護著最新的r個數(shù)據(jù),如圖3所示,有2個線程分別生成屬性a和屬性b,c。

    當(dāng)屬性組需要增加并行化時,不直接通過隨機數(shù)生成器生成種子,而是將窗口內(nèi)的r個數(shù)據(jù)當(dāng)作新線程的種子數(shù)據(jù),如圖4所示。因為回歸方程帶有一定的噪聲,因此在當(dāng)前窗口基礎(chǔ)上生成的后續(xù)數(shù)據(jù)和以這批數(shù)據(jù)作為新種子生成的數(shù)據(jù)不會完全一樣,同時保證了一個屬性組在整個時間序列上的相關(guān)性。

    為了控制數(shù)據(jù)流流速,定義外層滑動窗口,外層窗口大小為當(dāng)前時間段T上的流速S,輸出數(shù)據(jù)時,以恒定的速率輸出窗口內(nèi)數(shù)據(jù),需要流速加大時,就增大窗口大小;需要流速減小時,就減小窗口大小。如圖5所示,T1階段流速為500條/秒,T2階段流速為5000條/秒。

    6實驗

    本節(jié)介紹實驗,驗證提出的方法生成的數(shù)據(jù)滿足預(yù)設(shè)的速率要求;數(shù)據(jù)屬性之間的相關(guān)性仍然保持;最終生成的數(shù)據(jù)與種子數(shù)據(jù)的分布基本一致。此外,實驗還比較了本文方法與PSUG[7]和文獻[13]提出方法的數(shù)據(jù)生成效率。

    61實驗設(shè)置

    實驗配置為:4核酷睿i7處理器,主頻3.4 GHz,內(nèi)存16 GB,硬盤存儲1 TB。

    初始參數(shù)設(shè)置:最大相關(guān)性忽略系數(shù)c為0.2,時序相關(guān)回歸階數(shù)r為2,運行總時間30分鐘,分為3段,即t1=10、t2=10、tz=10,流速分別為500條/秒,10000條/秒,50000條/秒,即s1=500、s2=10000、sz=50000,3個時間段總計分別生成30W,600W,3000W條數(shù)據(jù)。實驗的種子數(shù)據(jù)為10000條帶有時間戳的新浪微博數(shù)據(jù),經(jīng)過清洗之后每條數(shù)據(jù)包含“微博文本長度”,“轉(zhuǎn)發(fā)數(shù)”,“評論數(shù)”,“點贊數(shù)”4個屬性。

    62實驗結(jié)果

    圖7為生成的數(shù)據(jù)分布與種子數(shù)據(jù)分布的對比,其中生成數(shù)據(jù)的分布圖是由生成的數(shù)據(jù)隨機開始位置10000條連續(xù)的記錄產(chǎn)生的,由于無法確定提取的數(shù)據(jù)流處在整個數(shù)據(jù)流的位置,考察每個值出現(xiàn)的位置沒有意義,比較每個數(shù)據(jù)段上的數(shù)據(jù)量分布即可,可以看到生成的數(shù)據(jù)比較符合種子數(shù)據(jù)的數(shù)據(jù)分布,圖7只列出了“文本長度”和“轉(zhuǎn)發(fā)數(shù)”的數(shù)據(jù)分布對比,“評論數(shù)”和“點贊數(shù)”與“轉(zhuǎn)發(fā)數(shù)”類似。endprint

    圖8為本文方法與其他方法的效率對比,與PSUG相比,兩種方法在屬性相關(guān)性分析方法策略上有所不同,但數(shù)據(jù)生成的速率本文方法大約為PSUG的2倍;與不保證時序相關(guān)的流數(shù)據(jù)表生成方法相比,本文提出的方法加入了數(shù)據(jù)時序性的特征,生成速度大約下降了20%,速度損失可以接受。

    7總結(jié)和展望

    本文提出了一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法,采用了更加適用于流式大數(shù)據(jù)系統(tǒng)的非線性相關(guān)系數(shù)MIC來描述數(shù)據(jù)屬性之間的相關(guān)關(guān)系,改進了Prim算法合理地劃分屬性集合;加入流式數(shù)據(jù)重要的時序性特征,盡可能保留了前后數(shù)據(jù)之間的相關(guān)性;提出了雙層滑動窗口的概念,能更好地控制數(shù)據(jù)輸出的速率。

    本文的不足之處在于:自動化程度不高,不能運行時動態(tài)添加屬性;需要手動定義變量;數(shù)據(jù)時序相關(guān)性分析的參數(shù)需要手動賦值;整個數(shù)據(jù)流的流速變化比較突然,實際的應(yīng)用系統(tǒng)中的數(shù)據(jù)流速變化應(yīng)該比較平滑;不能支持非結(jié)構(gòu)化類型的數(shù)據(jù)生成。

    在未來的工作中,我們希望能夠?qū)?shù)據(jù)生成的預(yù)處理過程進一步自動化,挖掘數(shù)據(jù)流的流速變化規(guī)律,支持生成更多數(shù)據(jù)類型的數(shù)據(jù)。

    參考文獻

    [1]COOPER B F,SILBERSTEIN A.Benchmarking Cloud Serving Systems with YCSB[C].international IEEE SOCC,2010.

    [2]LU Ruirui,WU Gang,XIE Bin.StreamBench:Towards Benchmarking Modern Distributed Stream Computing Frameworks[C].IEEE/ACM 7th International Conference on Utility and Cloud Computing.2014.

    [3]ZHAN Jianfeng,GAO Wanling,WANG Lei.Big Data Bench:An Opensource Big Data Benchmark Suite[J].Chinese Journal Of Computers,2016,39(1):196-211.

    [4]LO Eric,CHENG Nick.Generating Databases for Query Workloads[J].VLDB.2010,3(1),848-855.

    [5]HOAG J E,THOMPSON C W.A parallel generalpurpose synthetic data generator[C].SIGMOD.2007,36(1),19-24.

    [6]HOUKJAR K,TORP K,WID R.Simple and realistic data generation[C].VLDB.2006,1243-1246.

    [7]GU Ling,ZHOU Minqi.A Scalable Framework for Universal Data Generation in Parallel[C].6th TPCTC.2014.

    [8]GU Ling,ZHOU Minqi.Chronos:An Elastic Parallel Framework for Stream Benchmark Generation and Simulation[C],IEEE 31st International Conference on Data Engineering.2015.

    [9]LIANG Jiye,F(xiàn)ENG Chenjiao,SONG Peng.A Survey on Correlation Analysis of Big Data[J].ChineseJournal Of Computers,2016,39(1),1-18.

    [10]QIAN Yuhua,CHENG Honghong,LIANG Xinyan.Review for Association Measures in Big Data[J].Journal of Data Acquisition and Processing,2015,30(6),1147-1159.

    [11]RESHEF D N,RESHEF Y A,F(xiàn)INUCANE H K,et al.Grossman.Detecting Novel Associations in Large Data Sets[C].Science,2011,334(10),1518-1524.

    [12]HU Bo,GUO Li.Practical statistical analysis method and technology[M].Beijing:Chemical Industry Press,2013.

    [13]ARASU A,KAUSHIK R,LI Jian.Data Generation using Declarative Constraints[J].Acm Sigmod International Conference on Management of Data,2011,685-696.endprint

    欧美一区二区精品小视频在线| 成在线人永久免费视频| 在线视频色国产色| 少妇人妻一区二区三区视频| 亚洲成人中文字幕在线播放| 色在线成人网| 国产一区在线观看成人免费| 啦啦啦免费观看视频1| 久久天堂一区二区三区四区| 欧美zozozo另类| bbb黄色大片| 成人18禁高潮啪啪吃奶动态图| 亚洲一区中文字幕在线| 国产av一区二区精品久久| av有码第一页| 九色成人免费人妻av| 精品福利观看| 国产成+人综合+亚洲专区| 色综合婷婷激情| 国产激情偷乱视频一区二区| 麻豆一二三区av精品| 又黄又粗又硬又大视频| 亚洲成人久久性| www日本黄色视频网| 999久久久国产精品视频| 美女扒开内裤让男人捅视频| 国产区一区二久久| 九色国产91popny在线| 欧美绝顶高潮抽搐喷水| 在线国产一区二区在线| 国产精品乱码一区二三区的特点| 香蕉久久夜色| 在线观看午夜福利视频| 黄色视频,在线免费观看| 变态另类丝袜制服| 欧美性猛交黑人性爽| 亚洲精品美女久久久久99蜜臀| or卡值多少钱| 在线观看午夜福利视频| tocl精华| 国产视频内射| 久久久久久久久免费视频了| 欧美日韩瑟瑟在线播放| 此物有八面人人有两片| 国产欧美日韩一区二区三| a级毛片a级免费在线| 88av欧美| 日本a在线网址| 国产麻豆成人av免费视频| 国产久久久一区二区三区| 一本大道久久a久久精品| 一进一出抽搐gif免费好疼| 日本一本二区三区精品| 757午夜福利合集在线观看| 欧美性长视频在线观看| 成人国产综合亚洲| 窝窝影院91人妻| 国产精品一区二区精品视频观看| 2021天堂中文幕一二区在线观| 久久中文看片网| 亚洲精品粉嫩美女一区| 国产精品 国内视频| 99热6这里只有精品| 成年女人毛片免费观看观看9| 欧美成人免费av一区二区三区| 国产av又大| 成人三级做爰电影| 真人做人爱边吃奶动态| 免费在线观看日本一区| 不卡一级毛片| 国产亚洲精品第一综合不卡| ponron亚洲| 国内揄拍国产精品人妻在线| 国产午夜精品久久久久久| 欧美zozozo另类| 国产欧美日韩一区二区精品| 97超级碰碰碰精品色视频在线观看| 久久久久国产一级毛片高清牌| 午夜日韩欧美国产| 精品国产亚洲在线| 亚洲一区二区三区色噜噜| 精品国产美女av久久久久小说| 免费搜索国产男女视频| 最新在线观看一区二区三区| xxx96com| 日韩中文字幕欧美一区二区| 在线永久观看黄色视频| 香蕉丝袜av| 日韩有码中文字幕| 99久久国产精品久久久| 桃色一区二区三区在线观看| av片东京热男人的天堂| 久久久久久久午夜电影| 啪啪无遮挡十八禁网站| 在线观看免费日韩欧美大片| 亚洲av电影在线进入| av福利片在线| e午夜精品久久久久久久| 午夜久久久久精精品| 色老头精品视频在线观看| 美女免费视频网站| 我要搜黄色片| 亚洲免费av在线视频| 免费观看精品视频网站| 黑人巨大精品欧美一区二区mp4| 中文字幕人成人乱码亚洲影| 19禁男女啪啪无遮挡网站| 国产熟女午夜一区二区三区| 成人18禁在线播放| 少妇熟女aⅴ在线视频| 国产亚洲精品第一综合不卡| a级毛片a级免费在线| bbb黄色大片| 国产激情欧美一区二区| 亚洲成人免费电影在线观看| 中文字幕人成人乱码亚洲影| 午夜亚洲福利在线播放| 久久久国产成人精品二区| 可以在线观看毛片的网站| 两个人的视频大全免费| 国产精品一及| 中亚洲国语对白在线视频| e午夜精品久久久久久久| 日日夜夜操网爽| 不卡一级毛片| 精品人妻1区二区| 婷婷亚洲欧美| 亚洲av成人不卡在线观看播放网| 在线观看一区二区三区| 久久久水蜜桃国产精品网| 一个人免费在线观看的高清视频| 我要搜黄色片| 好男人电影高清在线观看| 男人舔奶头视频| 99精品在免费线老司机午夜| 校园春色视频在线观看| 人人妻人人看人人澡| 亚洲午夜理论影院| 亚洲成a人片在线一区二区| 成人一区二区视频在线观看| 国产黄片美女视频| 丁香欧美五月| 免费搜索国产男女视频| 操出白浆在线播放| 国产亚洲精品综合一区在线观看 | 国产主播在线观看一区二区| 成人午夜高清在线视频| 亚洲一区高清亚洲精品| 成人一区二区视频在线观看| 麻豆成人av在线观看| 午夜影院日韩av| 天堂√8在线中文| 色精品久久人妻99蜜桃| 久久久水蜜桃国产精品网| www.999成人在线观看| 亚洲av美国av| 免费搜索国产男女视频| 99久久国产精品久久久| 久久久精品大字幕| 国产精品1区2区在线观看.| 亚洲真实伦在线观看| 黄色视频不卡| 午夜福利视频1000在线观看| 一区二区三区国产精品乱码| 免费av毛片视频| a在线观看视频网站| 国产成人精品久久二区二区免费| 色综合亚洲欧美另类图片| 日本一二三区视频观看| 亚洲自偷自拍图片 自拍| 色综合亚洲欧美另类图片| 女警被强在线播放| 日本成人三级电影网站| a级毛片a级免费在线| 亚洲avbb在线观看| 婷婷丁香在线五月| av福利片在线| 99热这里只有精品一区 | 欧美色欧美亚洲另类二区| 成人欧美大片| 欧美日韩黄片免| 亚洲av美国av| 成人手机av| 成熟少妇高潮喷水视频| 又黄又粗又硬又大视频| 亚洲自拍偷在线| av在线天堂中文字幕| 久久久精品国产亚洲av高清涩受| 久久热在线av| 亚洲熟女毛片儿| 韩国av一区二区三区四区| 国产免费男女视频| 午夜福利18| 一本综合久久免费| 午夜福利18| 国产黄a三级三级三级人| 禁无遮挡网站| xxx96com| 日本在线视频免费播放| 两个人看的免费小视频| 国产黄片美女视频| 午夜a级毛片| 母亲3免费完整高清在线观看| 成人三级做爰电影| 久久久久国产精品人妻aⅴ院| 亚洲乱码一区二区免费版| 一个人免费在线观看的高清视频| 午夜老司机福利片| 国产精品电影一区二区三区| 悠悠久久av| 亚洲熟妇中文字幕五十中出| 亚洲五月婷婷丁香| 国产又黄又爽又无遮挡在线| 变态另类成人亚洲欧美熟女| 国产精品久久久久久亚洲av鲁大| av国产免费在线观看| 久久久国产精品麻豆| 亚洲欧美一区二区三区黑人| 99精品久久久久人妻精品| 男女那种视频在线观看| 不卡一级毛片| 国产精品一区二区三区四区久久| 毛片女人毛片| 欧美一级a爱片免费观看看 | 亚洲欧美一区二区三区黑人| 色av中文字幕| 精品福利观看| 一进一出好大好爽视频| 嫁个100分男人电影在线观看| 亚洲天堂国产精品一区在线| 国产一区二区三区视频了| 中文字幕人妻丝袜一区二区| 免费搜索国产男女视频| 国产成人啪精品午夜网站| 成人国产综合亚洲| 少妇被粗大的猛进出69影院| 1024视频免费在线观看| 国产aⅴ精品一区二区三区波| 黄色成人免费大全| 亚洲国产精品999在线| av在线天堂中文字幕| aaaaa片日本免费| 国产亚洲精品av在线| 日韩欧美国产一区二区入口| 亚洲av成人av| 国产亚洲av嫩草精品影院| 三级毛片av免费| 在线国产一区二区在线| 精华霜和精华液先用哪个| 久久精品91无色码中文字幕| 搞女人的毛片| 嫩草影院精品99| 最新美女视频免费是黄的| 美女大奶头视频| 亚洲人成电影免费在线| 精品国产亚洲在线| 日韩高清综合在线| 国产精品99久久99久久久不卡| 亚洲性夜色夜夜综合| 淫妇啪啪啪对白视频| 在线观看一区二区三区| 亚洲欧美精品综合久久99| 精品电影一区二区在线| 两性夫妻黄色片| 成人高潮视频无遮挡免费网站| 黄色视频不卡| 欧美最黄视频在线播放免费| 99精品欧美一区二区三区四区| 色综合欧美亚洲国产小说| 国产爱豆传媒在线观看 | 老熟妇仑乱视频hdxx| 久久久久国内视频| 国产精品98久久久久久宅男小说| 精品免费久久久久久久清纯| 国产成+人综合+亚洲专区| 免费高清视频大片| 亚洲欧美日韩高清在线视频| 久久婷婷人人爽人人干人人爱| 最新在线观看一区二区三区| av中文乱码字幕在线| 麻豆国产av国片精品| 一二三四在线观看免费中文在| 欧美日韩乱码在线| 成人永久免费在线观看视频| 国产精品爽爽va在线观看网站| 夜夜躁狠狠躁天天躁| 99久久精品热视频| 可以免费在线观看a视频的电影网站| 日本免费一区二区三区高清不卡| 给我免费播放毛片高清在线观看| 日本成人三级电影网站| 欧美成人一区二区免费高清观看 | 日韩成人在线观看一区二区三区| 国内精品久久久久久久电影| 久久精品人妻少妇| 国产精品美女特级片免费视频播放器 | 欧美另类亚洲清纯唯美| 国产真人三级小视频在线观看| 久久这里只有精品19| 国产精品久久久av美女十八| 久9热在线精品视频| 久久香蕉精品热| 大型av网站在线播放| 亚洲国产日韩欧美精品在线观看 | 国产精品,欧美在线| 欧美极品一区二区三区四区| 久久人人精品亚洲av| 好男人在线观看高清免费视频| 女同久久另类99精品国产91| 1024视频免费在线观看| 又紧又爽又黄一区二区| 中国美女看黄片| 欧美日韩瑟瑟在线播放| 国产黄色小视频在线观看| 99久久99久久久精品蜜桃| 国产一区二区在线av高清观看| 最新美女视频免费是黄的| 亚洲美女视频黄频| 老司机福利观看| 伊人久久大香线蕉亚洲五| 欧美成狂野欧美在线观看| 三级男女做爰猛烈吃奶摸视频| 亚洲一码二码三码区别大吗| 成人国产综合亚洲| 99久久无色码亚洲精品果冻| 欧美激情久久久久久爽电影| 大型av网站在线播放| 特级一级黄色大片| 国产精品自产拍在线观看55亚洲| 国产熟女xx| 久久久久久大精品| 日日爽夜夜爽网站| 亚洲精品国产精品久久久不卡| 亚洲在线自拍视频| 亚洲18禁久久av| 久久热在线av| 亚洲国产欧洲综合997久久,| 国产精品一区二区免费欧美| www.999成人在线观看| 男女那种视频在线观看| www.999成人在线观看| 男女那种视频在线观看| 亚洲熟妇中文字幕五十中出| 可以在线观看毛片的网站| 天堂√8在线中文| 黄色a级毛片大全视频| 精品乱码久久久久久99久播| 欧美一级a爱片免费观看看 | 国内精品一区二区在线观看| 国产精品久久久久久人妻精品电影| 国产精品乱码一区二三区的特点| 日韩av在线大香蕉| 亚洲国产精品合色在线| 一级片免费观看大全| 成年版毛片免费区| 欧美成人一区二区免费高清观看 | 国产91精品成人一区二区三区| 在线播放国产精品三级| 18禁国产床啪视频网站| 国产在线精品亚洲第一网站| 亚洲18禁久久av| 精品一区二区三区av网在线观看| 国产私拍福利视频在线观看| 精品欧美一区二区三区在线| 国产爱豆传媒在线观看 | 天堂√8在线中文| 免费在线观看亚洲国产| 亚洲国产精品合色在线| av有码第一页| 日本在线视频免费播放| 国产三级在线视频| 黄片大片在线免费观看| 中文资源天堂在线| 88av欧美| 一卡2卡三卡四卡精品乱码亚洲| 黄色 视频免费看| 欧美成人性av电影在线观看| 可以在线观看毛片的网站| 婷婷六月久久综合丁香| 最近在线观看免费完整版| 曰老女人黄片| 露出奶头的视频| 制服人妻中文乱码| www日本黄色视频网| 三级毛片av免费| 日本黄色视频三级网站网址| 18禁美女被吸乳视频| 亚洲精品av麻豆狂野| 两个人免费观看高清视频| 美女 人体艺术 gogo| 亚洲电影在线观看av| 国产成人精品久久二区二区91| 成人精品一区二区免费| 亚洲18禁久久av| 国产av一区在线观看免费| 婷婷精品国产亚洲av在线| 久久精品91无色码中文字幕| 香蕉久久夜色| 亚洲精品美女久久av网站| 在线播放国产精品三级| 天天躁狠狠躁夜夜躁狠狠躁| 久99久视频精品免费| 亚洲成人免费电影在线观看| 国产高清有码在线观看视频 | 国产男靠女视频免费网站| 制服诱惑二区| 国产精品一区二区精品视频观看| 90打野战视频偷拍视频| 亚洲人成网站高清观看| 亚洲国产精品999在线| 亚洲成av人片免费观看| 人人妻人人看人人澡| 男人舔女人下体高潮全视频| 给我免费播放毛片高清在线观看| 国产精品一区二区精品视频观看| 69av精品久久久久久| 日日爽夜夜爽网站| 色综合亚洲欧美另类图片| 国产成人欧美在线观看| 少妇粗大呻吟视频| 国产亚洲精品久久久久5区| 国产99久久九九免费精品| 久久人人精品亚洲av| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美激情久久久久久爽电影| 90打野战视频偷拍视频| 两个人看的免费小视频| 巨乳人妻的诱惑在线观看| 后天国语完整版免费观看| 亚洲av中文字字幕乱码综合| 国产精品一及| 蜜桃久久精品国产亚洲av| 国产午夜福利久久久久久| 成人特级黄色片久久久久久久| 嫩草影院精品99| 亚洲 欧美一区二区三区| 宅男免费午夜| 国产成人啪精品午夜网站| 国产一区在线观看成人免费| 麻豆国产av国片精品| 国产精品98久久久久久宅男小说| 国产精品自产拍在线观看55亚洲| 精品一区二区三区av网在线观看| 国产又色又爽无遮挡免费看| 久久久精品国产亚洲av高清涩受| 在线观看www视频免费| 一个人观看的视频www高清免费观看 | 美女大奶头视频| 午夜激情福利司机影院| 亚洲人成网站在线播放欧美日韩| 叶爱在线成人免费视频播放| 精品久久久久久久人妻蜜臀av| 午夜a级毛片| 男女那种视频在线观看| 亚洲狠狠婷婷综合久久图片| 色老头精品视频在线观看| 国产成人影院久久av| 一区二区三区高清视频在线| bbb黄色大片| 国产成人系列免费观看| 成人18禁高潮啪啪吃奶动态图| 麻豆国产97在线/欧美 | 精品久久久久久久毛片微露脸| 欧美 亚洲 国产 日韩一| 免费看十八禁软件| 久久精品人妻少妇| 亚洲avbb在线观看| 久久精品影院6| 搡老熟女国产l中国老女人| 免费搜索国产男女视频| 少妇粗大呻吟视频| 精品欧美一区二区三区在线| 亚洲精品色激情综合| 久久久久久久久中文| 久久久久久久精品吃奶| 人妻夜夜爽99麻豆av| 国产亚洲欧美98| 久久精品aⅴ一区二区三区四区| 久久久精品大字幕| 免费观看人在逋| 精品不卡国产一区二区三区| 国产成人一区二区三区免费视频网站| 欧美在线黄色| 高潮久久久久久久久久久不卡| 久久中文字幕人妻熟女| 国产亚洲av高清不卡| 日本一区二区免费在线视频| 日韩 欧美 亚洲 中文字幕| 久久热在线av| 欧美日韩亚洲综合一区二区三区_| 一二三四在线观看免费中文在| 成人av在线播放网站| 无遮挡黄片免费观看| 国产av一区在线观看免费| 女生性感内裤真人,穿戴方法视频| 两性午夜刺激爽爽歪歪视频在线观看 | 久久久久久久久免费视频了| 最近视频中文字幕2019在线8| 99国产精品一区二区三区| 午夜免费激情av| 亚洲专区中文字幕在线| 色av中文字幕| 日韩三级视频一区二区三区| 欧美激情久久久久久爽电影| 成人av在线播放网站| 亚洲成人中文字幕在线播放| 怎么达到女性高潮| 精品免费久久久久久久清纯| 欧美日韩黄片免| 性欧美人与动物交配| 黄片小视频在线播放| 亚洲成av人片在线播放无| 最近最新免费中文字幕在线| 久久精品人妻少妇| 成人18禁在线播放| or卡值多少钱| 变态另类成人亚洲欧美熟女| 国内精品久久久久久久电影| 91麻豆精品激情在线观看国产| 欧美高清成人免费视频www| av超薄肉色丝袜交足视频| 男人舔女人的私密视频| 久久伊人香网站| 国产精品九九99| 欧美激情久久久久久爽电影| 精品熟女少妇八av免费久了| 亚洲精品久久成人aⅴ小说| 国产精品野战在线观看| 国产精品 国内视频| 伊人久久大香线蕉亚洲五| 国产久久久一区二区三区| 欧美一区二区国产精品久久精品 | 国产黄色小视频在线观看| 国产午夜福利久久久久久| 久久精品国产99精品国产亚洲性色| 美女高潮喷水抽搐中文字幕| 搞女人的毛片| 麻豆成人午夜福利视频| 亚洲国产看品久久| 亚洲av中文字字幕乱码综合| 午夜福利在线观看吧| 久久欧美精品欧美久久欧美| 中文在线观看免费www的网站 | 国产精品99久久99久久久不卡| 国产麻豆成人av免费视频| 久久99热这里只有精品18| 在线国产一区二区在线| a在线观看视频网站| 无遮挡黄片免费观看| 欧美一级a爱片免费观看看 | 老司机靠b影院| 欧美一级毛片孕妇| 99在线人妻在线中文字幕| 两性午夜刺激爽爽歪歪视频在线观看 | 婷婷亚洲欧美| 99久久国产精品久久久| 国产私拍福利视频在线观看| 无限看片的www在线观看| 好男人在线观看高清免费视频| 国产一区二区在线观看日韩 | av片东京热男人的天堂| 日韩欧美在线二视频| 亚洲国产看品久久| 色尼玛亚洲综合影院| 男人舔女人下体高潮全视频| 国产精品久久电影中文字幕| 一区福利在线观看| 高清在线国产一区| 美女高潮喷水抽搐中文字幕| 国产精品电影一区二区三区| 国内毛片毛片毛片毛片毛片| 757午夜福利合集在线观看| 国产精品久久视频播放| 妹子高潮喷水视频| 国产精品美女特级片免费视频播放器 | 国产午夜精品论理片| 69av精品久久久久久| 欧美成人午夜精品| 后天国语完整版免费观看| 欧美又色又爽又黄视频| 精品久久蜜臀av无| 婷婷六月久久综合丁香| 两个人看的免费小视频| 亚洲av日韩精品久久久久久密| 免费在线观看视频国产中文字幕亚洲| 欧美高清成人免费视频www| 国内毛片毛片毛片毛片毛片| 激情在线观看视频在线高清| 国产成人aa在线观看| 久久精品国产亚洲av香蕉五月| 国产1区2区3区精品| 搡老妇女老女人老熟妇| 国产激情欧美一区二区| 日本精品一区二区三区蜜桃| 午夜激情福利司机影院| 亚洲欧洲精品一区二区精品久久久| 最好的美女福利视频网| 亚洲欧美日韩高清专用| 亚洲中文字幕一区二区三区有码在线看 | 久久精品国产99精品国产亚洲性色| 999久久久国产精品视频| 亚洲国产欧美一区二区综合| 国产精品一区二区三区四区免费观看 | 国产一级毛片七仙女欲春2| 日韩欧美三级三区| 亚洲人成网站高清观看| 国产一区二区三区在线臀色熟女| 久久精品国产综合久久久| 69av精品久久久久久| 亚洲成人免费电影在线观看| 给我免费播放毛片高清在线观看| 两个人的视频大全免费| 国产成人一区二区三区免费视频网站| 日本五十路高清| 国产成人啪精品午夜网站|