陸江東, 鄭 奮, 戴卓臣
(第二軍醫(yī)大學(xué) 基礎(chǔ)醫(yī)學(xué)部,上海 200433)
隨著大數(shù)據(jù)的快速發(fā)展和延伸,已經(jīng)應(yīng)用于工業(yè)[1]、農(nóng)業(yè)[2]、物流[3]和財(cái)務(wù)管理[4]等各個(gè)領(lǐng)域,成為高速可靠應(yīng)用的關(guān)鍵技術(shù)之一. 因此,實(shí)現(xiàn)大數(shù)據(jù)的網(wǎng)絡(luò)化[5]和高速共享成為重要研究方向之一. 然而,在大數(shù)據(jù)網(wǎng)絡(luò)中,如何實(shí)現(xiàn)異構(gòu)性大數(shù)據(jù)的高效識(shí)別和精確挖掘[6],保障大數(shù)據(jù)處理的有效性和可信性[7]成為當(dāng)前亟需解決的關(guān)鍵問(wèn)題.
在分析最佳特征子集及其派生增長(zhǎng)速度的基礎(chǔ)上,文獻(xiàn)[8]基于高維和流格式的數(shù)據(jù)饋送的大數(shù)據(jù),提出了一種新的輕量級(jí)特征選擇. 該特征選擇可用于挖掘飛流數(shù)據(jù),從而加速粒子群優(yōu)化類(lèi)型的群搜索效率,提高分析精度和縮短處理時(shí)間. 為了保護(hù)開(kāi)采數(shù)據(jù)中的敏感信息,文獻(xiàn)[9]提出了Rampart框架分類(lèi)的保護(hù)方法.文獻(xiàn)[10]從類(lèi)的相關(guān)性和上下文線(xiàn)索出發(fā),提出了一種新的多媒體大數(shù)據(jù)挖掘系統(tǒng)的MapReduce框架基礎(chǔ).從深度學(xué)習(xí)出發(fā),以個(gè)性化特征的分布式數(shù)據(jù)為處理對(duì)象,文獻(xiàn)[11]設(shè)計(jì)了一種適用于廣域網(wǎng)絡(luò)的粗粒度分布式深度學(xué)習(xí)方法,在精度、通信和響應(yīng)等方面性能優(yōu)越. 文獻(xiàn)[12]所設(shè)計(jì)的機(jī)會(huì)認(rèn)知和類(lèi)腦智能相結(jié)合的數(shù)據(jù)挖掘算法,通過(guò)融合時(shí)間粒度和分割時(shí)間序列,結(jié)合馬氏距離,預(yù)測(cè)和分析大數(shù)據(jù)的相關(guān)性. 基于關(guān)聯(lián)映射和生物信息網(wǎng)絡(luò)的多維,文獻(xiàn)[13]設(shè)計(jì)的數(shù)據(jù)挖掘算法不僅可以降低生物信息網(wǎng)絡(luò)復(fù)雜數(shù)據(jù)挖掘的低效率和大數(shù)據(jù)挖掘速度慢等一系列問(wèn)題. 文獻(xiàn)[14]研究了云計(jì)算中細(xì)粒度數(shù)據(jù)訪問(wèn)控制問(wèn)題,并提出了一種新的訪問(wèn)控制策略實(shí)現(xiàn)細(xì)化和有效執(zhí)行撤銷(xiāo)用戶(hù)的操作.
上述研究對(duì)于高密度大數(shù)據(jù)的冗余性和多樣化關(guān)聯(lián)關(guān)系未作深入研究,這些因素將對(duì)大數(shù)據(jù)網(wǎng)絡(luò)的數(shù)據(jù)識(shí)別和挖掘精度產(chǎn)生重要影響. 本文在上述分析的基礎(chǔ)上,提出了適用于大數(shù)據(jù)網(wǎng)絡(luò),基于多維關(guān)聯(lián)架構(gòu)的細(xì)粒度數(shù)據(jù)挖掘算法.
異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)存儲(chǔ)與轉(zhuǎn)發(fā)、處理的數(shù)據(jù)具有明顯的個(gè)性特征,同類(lèi)數(shù)據(jù)一致性較好,異構(gòu)類(lèi)數(shù)據(jù)差異化較強(qiáng). 異構(gòu)大規(guī)模網(wǎng)絡(luò),由于多樣化用戶(hù)需求、網(wǎng)絡(luò)存儲(chǔ)設(shè)備差異化、大數(shù)據(jù)服務(wù)多樣化和非線(xiàn)性數(shù)據(jù)關(guān)聯(lián)等特性,終端發(fā)送的大數(shù)據(jù)結(jié)構(gòu)特征弱化,關(guān)聯(lián)度及其維數(shù)成為關(guān)鍵因素. 此處,用戶(hù)需求的差異化和網(wǎng)絡(luò)存儲(chǔ)設(shè)備的特性是弱化數(shù)據(jù)結(jié)構(gòu)特征和導(dǎo)致高關(guān)聯(lián)大數(shù)據(jù)的關(guān)鍵因素. 于是,從用戶(hù)需求出發(fā)結(jié)合多樣性建立異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò),同時(shí)參考被弱化的數(shù)據(jù)結(jié)構(gòu)特征.對(duì)于大數(shù)據(jù)網(wǎng)絡(luò)存儲(chǔ)設(shè)備,特別是大數(shù)據(jù)服務(wù)器文件系統(tǒng)結(jié)合異構(gòu)類(lèi)數(shù)據(jù)差異化特性建立關(guān)聯(lián)度模型,目的是為了解決多維度的異構(gòu)大數(shù)據(jù)映射關(guān)系和關(guān)聯(lián)問(wèn)題.
異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)的存儲(chǔ)設(shè)備和大數(shù)據(jù)服務(wù)器對(duì)異構(gòu)大數(shù)據(jù)的管理和處理基于網(wǎng)絡(luò)文件管理架構(gòu). 在架構(gòu)中,對(duì)數(shù)據(jù)進(jìn)行了詳細(xì)定義(詳見(jiàn)表1),用于全面描述異構(gòu)大數(shù)據(jù). 在大數(shù)據(jù)服務(wù)器中任意抽樣大數(shù)據(jù),表1所述定義占空比如表2所示,在異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)中的占空比詳見(jiàn)圖1.
分析圖1發(fā)現(xiàn),異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)的占空比中第4屬性即關(guān)聯(lián)性占空比極高,但是第6屬性即關(guān)聯(lián)性極低,這樣會(huì)嚴(yán)重制約異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)的數(shù)據(jù)識(shí)別與挖掘效率,而且對(duì)于字符占比高的大數(shù)據(jù)的識(shí)別率極低.其中,各數(shù)據(jù)屬性定義的占空比分配不均,將會(huì)嚴(yán)重降低異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)的系統(tǒng)效率和執(zhí)行力.
表1 異構(gòu)大數(shù)據(jù)定義
表2 大數(shù)據(jù)服務(wù)器占空比情況
圖1 異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)占空比
因此,在異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)中必須提高大數(shù)據(jù)維度和關(guān)聯(lián)度屬性的占空比,并將這2個(gè)屬性融合為一體,有助于均衡異構(gòu)大數(shù)據(jù)在大數(shù)據(jù)服務(wù)器和不同網(wǎng)絡(luò)存儲(chǔ)設(shè)備上的結(jié)構(gòu)特性和非線(xiàn)性特征. 針對(duì)表1所述的數(shù)據(jù)大小、數(shù)據(jù)創(chuàng)建時(shí)間、數(shù)據(jù)所屬設(shè)備、數(shù)據(jù)的結(jié)構(gòu)和線(xiàn)性特征、字符數(shù)關(guān)聯(lián)性和維度等定義,進(jìn)一步弱化大數(shù)據(jù)結(jié)構(gòu)信息,加強(qiáng)多維關(guān)聯(lián)對(duì)大數(shù)據(jù)的描述定義,詳見(jiàn)表3.
于是,異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)的多維關(guān)聯(lián)具有圖2所示的共享、存儲(chǔ)與管理模型. 其中,共享通過(guò)以維度為核心,解決了大數(shù)據(jù)服務(wù)器占空比分配不合理的問(wèn)題. 大數(shù)據(jù)存儲(chǔ)以表1所定義的屬性進(jìn)行管理和查詢(xún).
表3 多維關(guān)聯(lián)定義
圖2 多維關(guān)聯(lián)的異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)
綜上,異構(gòu)大數(shù)據(jù)多維度空間的維度定義如公式(1):
其中,向量BD表示大數(shù)據(jù)源集合. 函數(shù)len(BD)表示向量的長(zhǎng)度. 函數(shù)f(x)用于求解大數(shù)據(jù)關(guān)聯(lián)度.MA(BD)表示多維空間的關(guān)聯(lián)維度.α表示維度之間的夾角.
多維關(guān)聯(lián)系數(shù)CBD可由公式(2)求得:
針對(duì)大數(shù)據(jù)網(wǎng)絡(luò)不同特征的大數(shù)據(jù),線(xiàn)性化和結(jié)構(gòu)化的弱化本質(zhì)是多維關(guān)聯(lián). 在大數(shù)據(jù)網(wǎng)絡(luò)服務(wù)器上,大數(shù)據(jù)管理與處理的主要是大數(shù)據(jù)的內(nèi)容與用戶(hù)需求之間的關(guān)系,特別是大數(shù)據(jù)一致性強(qiáng)度與數(shù)據(jù)健壯性對(duì)數(shù)據(jù)挖掘的影響,詳見(jiàn)圖3.
圖3 多維關(guān)聯(lián)關(guān)系圖
圖3所述的大數(shù)據(jù)網(wǎng)絡(luò)多維關(guān)聯(lián)形式有助于數(shù)據(jù)挖掘. 對(duì)于大數(shù)據(jù)網(wǎng)絡(luò)的各類(lèi)用戶(hù)或參與數(shù)據(jù)轉(zhuǎn)發(fā)的協(xié)作終端的融合約束必須保持高度一致性. 因此,對(duì)于多維關(guān)聯(lián)下面給出形式語(yǔ)言描述定義. 這些定義適用于多個(gè)大數(shù)據(jù)源的交叉?zhèn)鬏斉c識(shí)別. 為了更好地描述混合數(shù)據(jù)挖掘,提高挖掘精度和識(shí)別效率,對(duì)于形式描述語(yǔ)言進(jìn)行多維定義. 而且,混合異構(gòu)大數(shù)據(jù)形式定義具有自主判斷和決策能力,通過(guò)異構(gòu)形式結(jié)合分支進(jìn)程實(shí)現(xiàn). 為了保持一致性和健壯性,在下述形式語(yǔ)言描述中,邏輯上以交叉分支為主,描述上以多個(gè)循環(huán)表達(dá)線(xiàn)性執(zhí)行為主.
大數(shù)據(jù)對(duì)象BO形式描述:
大數(shù)據(jù)網(wǎng)絡(luò)多維關(guān)聯(lián)初始化進(jìn)程:
其中,k表示網(wǎng)絡(luò)存儲(chǔ)設(shè)備的緩存最大值.
多維關(guān)聯(lián)矩陣生成進(jìn)程:
對(duì)于上述返回值,通過(guò)式(3)-(6)所述的單位重構(gòu)、維度置換、細(xì)粒度化和粒度均衡等4個(gè)步驟,實(shí)現(xiàn)多維關(guān)聯(lián)的細(xì)粒度重置. 其中,矩陣TF表示大數(shù)據(jù)源.
多維關(guān)聯(lián)細(xì)粒度數(shù)據(jù)挖掘算法描述如下.
輸入: 大數(shù)據(jù)源BD
輸出: 挖掘反饋向量MT
為了更好地驗(yàn)證和分析本文所提出的適用于異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò),基于多維關(guān)聯(lián)細(xì)粒度的數(shù)據(jù)挖掘算法記為MAFG-H的執(zhí)行效率,特別是針對(duì)高密度、關(guān)聯(lián)復(fù)雜的大數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)挖掘的效率低下問(wèn)題. 大數(shù)據(jù)網(wǎng)絡(luò)參數(shù)設(shè)置詳見(jiàn)表4. 所提出的MAFG-H算法分別與粗粒度挖掘算法記為CG-DM和線(xiàn)性化結(jié)構(gòu)數(shù)據(jù)挖掘算法記為L(zhǎng)S-DM.
表4 大數(shù)據(jù)網(wǎng)絡(luò)參數(shù)
數(shù)據(jù)挖掘算法采用Visual C++ 6.0實(shí)現(xiàn). 執(zhí)行該算法的服務(wù)器內(nèi)存型號(hào)為DDR4 2400,容量是8 GB*2; CPU為Intel Xeon E3 v3、主頻位3.4 GHz. 操作系統(tǒng)位在Linux環(huán)境下Ubuntu server. 在表4所述的大數(shù)據(jù)網(wǎng)絡(luò)中抽樣采集三組數(shù)據(jù),然后組合為獨(dú)立的實(shí)例數(shù)據(jù). 三種算法的執(zhí)行效率結(jié)果如圖4-7所示. 圖4分析了隨著數(shù)據(jù)會(huì)話(huà)數(shù)的增加,三種算法執(zhí)行效率的表現(xiàn); 圖5對(duì)比了發(fā)送大數(shù)據(jù)的終端數(shù)對(duì)算法性能的影響; 圖6給出了三種算法在不同網(wǎng)絡(luò)延遲下的性能表現(xiàn); 冗余數(shù)據(jù)的占比對(duì)三種算法性能的執(zhí)行效率影響詳見(jiàn)圖7.
圖4 會(huì)話(huà)數(shù)對(duì)執(zhí)行效率的影響
分析上述結(jié)果發(fā)現(xiàn),LS-DM算法難以對(duì)分布式、非線(xiàn)性大數(shù)據(jù)源的重構(gòu),所以執(zhí)行效率非常低. 高密度、關(guān)聯(lián)復(fù)雜的大數(shù)據(jù)使得CG-DM算法的數(shù)據(jù)挖掘效率隨著會(huì)話(huà)數(shù)和終端數(shù)的增加,明顯下降,冗余數(shù)據(jù)比例對(duì)該算法的性能制約更為明顯. MAFG-H算法建立多維關(guān)聯(lián)空間,重構(gòu)異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)的數(shù)據(jù)源,解決非線(xiàn)性和分布式數(shù)據(jù)問(wèn)題,并且基于細(xì)粒度為大數(shù)據(jù)網(wǎng)絡(luò)的各類(lèi)用戶(hù)或參與數(shù)據(jù)轉(zhuǎn)發(fā)的協(xié)作終端的融合約束的高度一致性提供保障,因此始終具有較高的執(zhí)行效率.
圖5 終端數(shù)對(duì)執(zhí)行效率的影響
圖6 延遲對(duì)執(zhí)行效率的影響
圖7 冗余數(shù)據(jù)對(duì)執(zhí)行效率的影響
異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)面臨著存儲(chǔ)管理難、轉(zhuǎn)發(fā)延遲高、處理精度低和執(zhí)行效率低等問(wèn)題,為了保障大數(shù)據(jù)一致性和歸一化異構(gòu)類(lèi)數(shù)據(jù)差異性,提出了適用于異構(gòu)大規(guī)模網(wǎng)絡(luò)的多維管理細(xì)粒度數(shù)據(jù)挖掘算法及其機(jī)構(gòu). 一方面,建立了異構(gòu)大數(shù)據(jù)網(wǎng)絡(luò)的存儲(chǔ)設(shè)備和大數(shù)據(jù)服務(wù)器的大數(shù)據(jù)管理和處理架構(gòu). 另一方面,設(shè)計(jì)了大數(shù)據(jù)網(wǎng)絡(luò)多維關(guān)聯(lián)形式. 最后,將異構(gòu)大數(shù)據(jù)形式定義進(jìn)行融合,實(shí)現(xiàn)自主判斷和決策,以保持大數(shù)據(jù)網(wǎng)絡(luò)的一致性和健壯性為目的,提出了多維關(guān)聯(lián)細(xì)粒度數(shù)據(jù)挖掘算法. 基于大數(shù)據(jù)網(wǎng)絡(luò)的仿真實(shí)驗(yàn)和數(shù)學(xué)分析,從終端數(shù)、會(huì)話(huà)數(shù)、實(shí)時(shí)性和冗余數(shù)據(jù)等角度分析對(duì)比了執(zhí)行效率,證明了所提算法的有效性和可行性.
1彭宇,龐景月,劉大同,等. 大數(shù)據(jù): 內(nèi)涵、技術(shù)體系與展望. 電子測(cè)量與儀器學(xué)報(bào),2015,29(4): 469-482.
2李秀峰,陳守合,郭雷風(fēng). 大數(shù)據(jù)時(shí)代農(nóng)業(yè)信息服務(wù)的技術(shù)創(chuàng)新. 中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào),2014,16(4): 10-15.
3梁紅波. 大數(shù)據(jù)技術(shù)引領(lǐng)物流業(yè)智慧營(yíng)銷(xiāo). 中國(guó)流通經(jīng)濟(jì),2015,29(2): 85-89.
4張紅英,王翠森. 大數(shù)據(jù)時(shí)代財(cái)務(wù)分析領(lǐng)域機(jī)遇與挑戰(zhàn). 財(cái)會(huì)通訊,2016,(5): 84-85.
5Chen BY,Yuan H,Li QQ,et al. Spatiotemporal data model for network time geographic analysis in the era of big data.International Journal of Geographical Information Science,2016,30(6): 1041-1071. [doi: 10.1080/13658816. 2015.110 4317]
6Zhang YF,Chen SM,Wang Q,et al. i2 MapReduce:Incremental MapReduce for mining evolving big data. IEEE Transactions on Knowledge and Data Engineering,2015,27(7): 1906-1919. [doi: 10.1109/TKDE.2015.2397438]
7Durocher D. Big data and technical credibility [President’s Message]. IEEE Industry Applications Magazine,2015,21(2): 4. [doi: 10.1109/MIAS.2014.2375011]
8Fong S,Wong R,Vasilakos AV. Accelerated PSO swarm search feature selection for data stream mining big data.IEEE Transactions on Services Computing,2016,9(1):33-45.
9Xu L,Jiang CX,Chen Y,et al. A framework for categorizing and applying privacy-preservation techniques in big data mining. Computer,2016,49(2): 54-62. [doi: 10.1109/MC.2016.43]
10Yan YL,Shyu ML,Zhu QS. Supporting semantic concept retrieval with negative correlations in a multimedia big data mining system. International Journal of Semantic Computing,2016,10(2): 247-267. [doi: 10.1142/S1793351 X16400092]
11盛益強(qiáng),趙震宇,廖怡. 用于個(gè)性化數(shù)據(jù)挖掘的粗粒度分布式深度學(xué)習(xí). 網(wǎng)絡(luò)新媒體技術(shù),2016,5(6): 1-6.
12宋小芹,王莉麗,張衛(wèi)星. 基于機(jī)會(huì)認(rèn)知的類(lèi)腦智能數(shù)據(jù)挖掘機(jī)制. 計(jì)算機(jī)仿真,2016,33(11): 375-378. [doi: 10.3969/j.issn.1006-9348.2016.11.082]
13唐曉東. 基于關(guān)聯(lián)規(guī)則映射的生物信息網(wǎng)絡(luò)多維數(shù)據(jù)挖掘算法. 計(jì)算機(jī)應(yīng)用研究,2015,32(6): 1614-1616,1620.
14Yuan Q,Ma CG,Lin JY. Fine-grained access control for big data based on CP-ABE in cloud computing. In eds: Wang HZ,Qi HL,Che WX,et al. ICYCSEE 2015: Intelligent Computation in Big Data Era. Berlin Heidelberg. Springer.2015. 344-352.