許志偉 張玉軍
(中國科學院計算技術研究所 北京 100190) (中國科學院大學 北京 100049) (xuzhiwei2001@ict.ac.cn)
作為互聯(lián)網(wǎng)的延伸和擴展,物聯(lián)網(wǎng)是信息技術領域的又一次重大變革.物聯(lián)網(wǎng)的基本特征是信息的全面感知、可靠傳送和智能處理.通過傳感設備獲取實體信息,并通過網(wǎng)絡傳輸?shù)较嚓P服務節(jié)點,實現(xiàn)人-物、物-物互聯(lián),實現(xiàn)物理世界實體的智能化識別、定位、跟蹤、監(jiān)控和管理.物聯(lián)網(wǎng)是由各種不同支撐技術組合而成的異構體系結構,如面向實物的RFID通信、面向智能終端的移動計算、面向感知節(jié)點的傳感器網(wǎng)絡,以及面向Internet用戶的數(shù)據(jù)共享、應用服務等.物聯(lián)網(wǎng)在不同的邏輯層面部署了這些技術和相應的實體.在物聯(lián)網(wǎng)的感知層(sensing layer)和網(wǎng)絡接入層(core layer),智能終端、傳感器以及RFID閱讀器和標簽的數(shù)據(jù)經(jīng)過匯總和融合提交給應用層(application layer).應用層中,相應的應用服務收集從網(wǎng)絡接入層收到的數(shù)據(jù)融合結果,在融合結果基礎上更新服務狀態(tài),為用戶提供服務.
數(shù)據(jù)融合(data fusion)是對物聯(lián)網(wǎng)多源異構數(shù)據(jù)進行綜合處理獲取確定性信息的過程.在物聯(lián)網(wǎng)感知網(wǎng)絡中,對感知數(shù)據(jù)進行融合處理,只將少量有意義的信息傳輸?shù)絽R聚節(jié)點,有效減少數(shù)據(jù)傳輸量,降低中間節(jié)點功耗,提升相關節(jié)點的在線時間.在這一數(shù)據(jù)融合過程中,為了保證融合效率和壓縮數(shù)據(jù)傳輸,物聯(lián)網(wǎng)接入層節(jié)點對收到的數(shù)據(jù)進行數(shù)據(jù)融合時,僅針對上層服務需求匯總數(shù)據(jù),同時最大程度地去除無用數(shù)據(jù)的影響,整個數(shù)據(jù)融合過程是一個有損處理過程[1-4].這就在數(shù)據(jù)融合過程中留下了關鍵的隱患,攻擊者可以在物聯(lián)網(wǎng)覆蓋的區(qū)域內配置惡意節(jié)點,或捕獲合法節(jié)點發(fā)動針對數(shù)據(jù)融合結果的惡意篡改攻擊.由于下游節(jié)點不保存融合前的數(shù)據(jù),即使融合結果被篡改,這些節(jié)點也無法發(fā)現(xiàn)和定位這一針對數(shù)據(jù)融合結果的篡改攻擊.面向物聯(lián)網(wǎng)應用,如何解決數(shù)據(jù)融合的安全問題,特別是有損數(shù)據(jù)融合背景下的安全性問題,是影響物聯(lián)網(wǎng)數(shù)據(jù)傳輸和未來發(fā)展的關鍵問題.
目前在實現(xiàn)物聯(lián)網(wǎng)安全數(shù)據(jù)融合方面主要有2種途徑:
1) 提高數(shù)據(jù)傳輸安全性,即通過加密傳輸?shù)葯C制保證收到數(shù)據(jù)的真實性[1-3],鑒于高強度的加密機制帶來的大量時間和能量開銷,目前這一途徑還很難在資源受限的物聯(lián)網(wǎng)中應用.
2) 構建安全數(shù)據(jù)融合機制,文獻[4-6]利用相鄰節(jié)點相似和冗余的感知結果,利用多個融合結果對抗可能出現(xiàn)的對融合結果的惡意修改,這一方案只能在數(shù)據(jù)冗余的情況下展開.
上述2類構建安全數(shù)據(jù)融合的方案仍然無法徹底杜絕物聯(lián)網(wǎng)數(shù)據(jù)融合過程中的安全問題,需要構建全新的物聯(lián)網(wǎng)數(shù)據(jù)融合安全機制,全面保障數(shù)據(jù)融合過程的可靠性,提升物聯(lián)網(wǎng)數(shù)據(jù)傳輸?shù)陌踩?
物聯(lián)網(wǎng)的感知層和接入層節(jié)點資源有限,無法應用現(xiàn)有互聯(lián)網(wǎng)中的安全機制抵御和檢測攻擊[4-5],需要構建資源消耗小且可以廣泛部署的安全機制.同時,物聯(lián)網(wǎng)節(jié)點眾多,感知層數(shù)據(jù)更新頻繁,因此數(shù)據(jù)傳輸量巨大,如何在如此高的負載下高效完成攻擊的檢測和防范,這是實現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)融合安全的另一個關鍵難點.
為了杜絕數(shù)據(jù)融合的安全隱患,本文提出物聯(lián)網(wǎng)數(shù)據(jù)融合安全檢驗機制,通過對相關節(jié)點網(wǎng)絡的數(shù)據(jù)融合過程建模,發(fā)現(xiàn)并刻畫被輸入數(shù)據(jù)和融合結果之間的聯(lián)系,發(fā)現(xiàn)異常的數(shù)據(jù)融合結果,杜絕惡意數(shù)據(jù)融合,優(yōu)化物聯(lián)網(wǎng)傳輸安全.本文的主要貢獻有3個方面:
2) 提出了基于Markov概率模型的數(shù)據(jù)融合模型,根據(jù)被融合數(shù)據(jù)和融合結果的時域關系為正常的數(shù)據(jù)融合過程建立統(tǒng)一模型,并通過吉布斯采樣完成模型學習,有效刻畫節(jié)點網(wǎng)絡數(shù)據(jù)融合過程,為后續(xù)異常數(shù)據(jù)融合的發(fā)現(xiàn)和定位提供前提.
3) 應用不同數(shù)據(jù)集構建實驗,驗證了本文提出的安全數(shù)據(jù)融合檢驗機制,該機制可以有效發(fā)現(xiàn)異常數(shù)據(jù)融合,防范針對數(shù)據(jù)融合結果的惡意篡改,提升了物聯(lián)網(wǎng)數(shù)據(jù)傳輸?shù)陌踩?
目前,國內外研究人員針對物聯(lián)網(wǎng)數(shù)據(jù)融合安全問題進行了廣泛的研究.
在加密傳輸方面,Hu等人[1]利用無線網(wǎng)絡的特性以及設備和基站之間的功率不對稱性,提出了基于μTesla輪密鑰的數(shù)據(jù)融合算法,一個為無線網(wǎng)絡提供安全的匯聚機制,對入侵者設備和單個設備密鑰泄露具有魯棒性;Bagaa等人對文獻[2]中的數(shù)據(jù)融合算法進行了優(yōu)化和改進,提出了一種新的安全數(shù)據(jù)融合方案SEDAN,使用點到點的對數(shù)據(jù)機密性和隱私性提供了完全分布的安全傳輸方案,保證數(shù)據(jù)不被篡改;Ozdemir等人[3]對2-DNF密碼機制進行了優(yōu)化和改進,該方案利用不同的加密密鑰加密的數(shù)據(jù)包進行聚合,提出的數(shù)據(jù)聚合方案采用基于橢圓曲線密碼的同態(tài)加密算法,保證了數(shù)據(jù)的完整性和機密性.但是,上述安全機制存在運行效率低、額外資源消耗高等問題.
在挖掘數(shù)據(jù)融合本身特性抵御篡改攻擊方案方面,Cam等人[4]提出了基于簇型融合網(wǎng)絡的安全數(shù)據(jù)融合方案,該方案使用模式識別碼技術,簇頭在執(zhí)行數(shù)據(jù)融合時不需要知道傳感器的數(shù)據(jù),這使得傳感器節(jié)點與基站能夠建立安全的端到端通信鏈路.He等人基于將原始數(shù)據(jù)碎片化、無序化,然后通過節(jié)點間的協(xié)調操作來完成數(shù)據(jù)融合過程的思想,提出了基于簇型融合網(wǎng)絡的安全數(shù)據(jù)融合方案PDA[5],該方案通過簇內節(jié)點間的協(xié)同操作來完成數(shù)據(jù)融合運算,具有很好的抗節(jié)點合謀能力,有效地保證了網(wǎng)絡中數(shù)據(jù)的機密性和隱私性,在文獻[6]進一步優(yōu)化了PDA方案,通過生成雙樹形融合網(wǎng)絡來為數(shù)據(jù)融合結果的安全性提供多源驗證機制.上述方案對網(wǎng)絡數(shù)據(jù)的分布情況具有較嚴格要求,限制了方案的有效使用.
Mukhopadhyay等人[7]通過一個線性回歸模型實現(xiàn)了接入層數(shù)據(jù)篡改偽造攻擊的檢測,方案對初始訓練數(shù)據(jù)的敏感性影響了模型的可用性;文獻[8]提出了另一種信任系統(tǒng),該系統(tǒng)綜合實驗證據(jù)推理和貝葉斯推理,通過定期評估節(jié)點行為確定可信節(jié)點;Sun等人[9]通過科爾曼濾波算法發(fā)現(xiàn)潛在的數(shù)據(jù)篡改偽造攻擊,然而該方案高度依賴于前期數(shù)據(jù)輸入,無法抵御初始攻擊強度較低的攻擊;為了檢測并防范數(shù)據(jù)融合過程中的數(shù)據(jù)包偽造、篡改攻擊,Yang等人[10]采用二階差分過濾器(second-order divided difference filtering)發(fā)現(xiàn)可疑數(shù)據(jù)包并通過序貫概率比檢測法(sequential probability ratio testing)估計可疑數(shù)據(jù)包是否對數(shù)據(jù)融合結果具有負面影響,從而保證了攻擊檢測的準確性,在連續(xù)多批次采樣后,攻擊檢測的準確性可以進一步提高.攻擊檢測過程應用的二階方差計算和序貫概率比檢測的計算量較大,降低了方案在物聯(lián)網(wǎng)這一資源受限及高數(shù)據(jù)流量應用場景下的可用性.
本節(jié)將對物聯(lián)網(wǎng)數(shù)據(jù)融合安全問題進行分析.首先對物聯(lián)網(wǎng)數(shù)據(jù)融合過程的安全隱患進行描述和分析,給出了數(shù)據(jù)融合過程中的數(shù)據(jù)篡改偽造攻擊的分析;在攻擊分析的基礎上,給出數(shù)據(jù)融合安全規(guī)約,規(guī)范安全數(shù)據(jù)融合的必要條件.
作為物聯(lián)網(wǎng)數(shù)據(jù)傳輸?shù)年P鍵步驟,接入層各匯聚節(jié)點將收集感知層數(shù)據(jù)并進行融合,將融合結果發(fā)送給應用層服務.數(shù)據(jù)融合過程是一個有損數(shù)據(jù)匯聚過程,匯聚節(jié)點根據(jù)輸入數(shù)據(jù)通過計算和推導給出相應的融合結果,輸入的數(shù)據(jù)和融合結果不存在一對一的對應關系,無法從融合結果得出輸入數(shù)據(jù)信息,這為攻擊者偽造篡改融合結果提供了便利之門.
攻擊者分步驟在數(shù)據(jù)融合過程中發(fā)動偽造數(shù)據(jù)或者篡改數(shù)據(jù)攻擊,包括3個步驟,如圖1所示:
Fig. 1 The threat for information fusion in IoT圖1 物聯(lián)網(wǎng)數(shù)據(jù)融合安全威脅
1) 發(fā)動融合數(shù)據(jù)篡改攻擊前,攻擊者需要侵入一個感知子網(wǎng)內的實體節(jié)點或者匯聚節(jié)點.同互聯(lián)網(wǎng)相比,在物聯(lián)網(wǎng)中對這些節(jié)點的侵入更容易,因為這些節(jié)點容易在物理上被攻破或被復制[11],同時節(jié)點的無線廣播信道也容易發(fā)動物理層或鏈路層攻擊.在開放的物聯(lián)網(wǎng)環(huán)境中這一入侵過程將更為常見,很多物聯(lián)網(wǎng)通過將多個機構的感知節(jié)點互連構成的網(wǎng)絡,這種環(huán)境中的安全威脅更大,因為互聯(lián)的感知節(jié)點分屬于不同機構,這些機構間可能存在競爭關系,感知節(jié)點容易被對手控制的節(jié)點攻擊,這種情況下節(jié)點間只能確保有條件的信任.
2) 發(fā)動融合數(shù)據(jù)篡改攻擊時,如果攻擊者僅控制了實體節(jié)點,那么攻擊者將控制這些實體節(jié)點偽造惡意數(shù)據(jù)包,或者篡改上游節(jié)點傳來的數(shù)據(jù)包填充惡意數(shù)據(jù),將這些惡意數(shù)據(jù)包發(fā)往匯聚節(jié)點,匯聚節(jié)點的數(shù)據(jù)融合過程在一定程度上受到這些惡意數(shù)據(jù)的影響,受影響程度同數(shù)據(jù)融合機制對被控制節(jié)點數(shù)據(jù)的依賴有關.另外一種情況,如果攻擊者控制了匯聚節(jié)點,攻擊者可以直接篡改或偽造數(shù)據(jù)融合結果.
3) 發(fā)動融合數(shù)據(jù)篡改攻擊后,被毒化的數(shù)據(jù)融合結果通過網(wǎng)絡被傳送到應用層服務節(jié)點,節(jié)點服務將受到影響,造成服務癱瘓或者導致負面操作,損害用戶利益.
為了應對數(shù)據(jù)融合過程中的數(shù)據(jù)偽造和篡改攻擊,需要根據(jù)2.1節(jié)攻擊過程,有針對性地構建攻擊防范機制.因為物聯(lián)網(wǎng)實體節(jié)點容易在物理上被攻破或被復制[11]物聯(lián)網(wǎng)中針對實體節(jié)點的攻擊更容易,同時這些實體節(jié)點的處理能力較差,很難支撐現(xiàn)有加密算法,因此數(shù)據(jù)篡改和隱私破解攻擊將很難防范[12].感知層實體節(jié)點的這些弱點,成為了物聯(lián)網(wǎng)的安全瓶頸,因此,需要研究非加密傳輸情況下如何有效識別和防范數(shù)據(jù)偽造篡改攻擊.同時在構建相應攻擊檢測機制的同時需要考慮上述物聯(lián)網(wǎng)節(jié)點特點,優(yōu)化相關機制的效率和資源消耗,按照2個規(guī)約構建安全檢測機制:
2) 學習功能類似的可信節(jié)點的數(shù)據(jù)輸入與融合結果的關系(假設在初始階段,通過長時間使用可以根據(jù)應用層反饋判斷數(shù)據(jù)輸入對應的融合結果是否正常).基于這些對應關系構建高效、低資源消耗的攻擊檢測機制,保證檢測機制的可用性,實時發(fā)現(xiàn)潛在的惡意數(shù)據(jù)融合結果.
為了構建高效的數(shù)據(jù)融合安全檢測機制,檢測數(shù)據(jù)融合過程中的數(shù)據(jù)偽造和篡改攻擊,本節(jié)首先梳理數(shù)據(jù)融合安全檢驗步驟,明確了相關操作;其次,為了收集和分析感知層數(shù)據(jù),定義了一套高效的感知層數(shù)據(jù)特征摘要機制;最后,在數(shù)據(jù)特征摘要的基礎上利用概率圖模型刻畫融合結果和輸入的關系.
在物聯(lián)網(wǎng)數(shù)據(jù)融合過程中,每個實體感知終端對周期性感知數(shù)據(jù)進行初步處理,規(guī)范數(shù)據(jù)格式,并將其發(fā)往匯聚節(jié)點,由匯聚節(jié)點融合收到的感知數(shù)據(jù)完成相關合成處理.為了優(yōu)化數(shù)據(jù)傳輸效率、減少網(wǎng)絡資源開銷、優(yōu)化網(wǎng)絡節(jié)點能耗,數(shù)據(jù)融合過程中只保留支撐應用需求的關鍵信息,基本感知數(shù)據(jù)在被融合后將不再保留,整個融合過程包括一系列數(shù)據(jù)合并、計算和推導操作.其中涉及的計算和推導主要包括建立在基本運算結果基礎上的貝葉斯推導[13]、Markov隨機場[14]和Dempster-Shafer證據(jù)推導[15]等處理過程.
為了規(guī)范這一過程,Llinas等人提出了實驗室聯(lián)合主任(Joint Directors of Laboratories, JDL)模型[16],JDL模型是美國國防部實驗室理事數(shù)據(jù)融合專家組提出的標準數(shù)據(jù)融合模型.JDL模型規(guī)定了融合經(jīng)歷的階段,包括從輸入到輸出的推導層次.在不同的處理階段數(shù)據(jù)具有不同的形式,逐層規(guī)約,指導得到確定的融合結果.整個數(shù)據(jù)過程可以通過確定的狀態(tài)機模型進行描述,在確定的狀態(tài)空間上(取決于輸入和當前狀態(tài))推導形成融合結果.初期的數(shù)據(jù)處理為后續(xù)高層推導提供數(shù)據(jù),可以通過劃分取值空間建立初步計算得到的數(shù)值結果同推導結果的關系,詳見3.2節(jié),不同的輸入數(shù)據(jù)經(jīng)過分階段處理,最終得到2個不同的融合結果.
綜上,數(shù)據(jù)融合過程中,匯聚節(jié)點將針對一定范圍內節(jié)點的感知或數(shù)據(jù)讀取結果進行簡單的合并、計算和分析,逐層規(guī)約,得到最終的融合結果,并將融合結果發(fā)送給上層匯聚節(jié)點或者遠端服務節(jié)點.為了保證這一過程的安全性,檢驗融合結果的合理性,需要對已有匯聚節(jié)點數(shù)據(jù)融合的輸入和結果進行學習、建立模型,然后基于模型檢測和識別數(shù)據(jù)融合過程中的惡意數(shù)據(jù)偽造和篡改.其基本的檢驗步驟包括3個步驟:
1) 為了能夠發(fā)現(xiàn)輸入和融合結果的關系,首先需要部署檢驗節(jié)點,從待檢驗的匯聚節(jié)點的輸入端和輸出端獲取數(shù)據(jù),例如圖2中,檢測節(jié)點從被檢測的節(jié)點a的輸入端(連接b,c,d的鏈路)和輸出端(連接sink節(jié)點的鏈路)分別獲取融合過程涉及的輸入數(shù)據(jù)和融合結果.
Fig. 3 Data finger point generation圖3 感知層數(shù)據(jù)特征摘要機制
2) 為了能夠統(tǒng)一刻畫數(shù)據(jù)融合過程中的輸入數(shù)據(jù),需要構建高效的輸入數(shù)據(jù)匯總表示機制,以便統(tǒng)一分析輸入數(shù)據(jù)及融合結果之間的關系.
3) 構建模型描述輸入數(shù)據(jù)及融合結果之間的關系,為檢測和發(fā)現(xiàn)數(shù)據(jù)融合過程中的數(shù)據(jù)偽造和篡改攻擊提供依據(jù).
為此,本節(jié)后續(xù)部分將首先提出一種統(tǒng)一的輸入數(shù)據(jù)表示機制——感知層數(shù)據(jù)特征摘要機制.在這一輸入數(shù)據(jù)表示機制基礎上,利用隨機圖理論構建高效數(shù)據(jù)融合模型,高效檢測數(shù)據(jù)融合過程中的惡意數(shù)據(jù)偽造和篡改攻擊.
在物聯(lián)網(wǎng)這一資源受限、大數(shù)據(jù)流量、高時效性的應用場景下,數(shù)據(jù)融合安全檢測方案需要建立在高效的數(shù)據(jù)收集和建?;A之上,在提升檢測準確性的同時,最大程度地優(yōu)化攻擊檢測效率和資源消耗.為了實現(xiàn)這一目標,本文構建了一種高效的輸入數(shù)據(jù)表示機制——感知層數(shù)據(jù)特征摘要機制,如圖3所示.壓縮表示感知層節(jié)點待融合數(shù)據(jù),為高效挖掘和發(fā)現(xiàn)待融合數(shù)據(jù)同融合結果之間的關系,構建相應的數(shù)據(jù)融合模型提供了前提,同時也為構建高效的數(shù)據(jù)偽造篡改攻擊檢測機制奠定了基礎.
這一輸入數(shù)據(jù)表示機制,需要滿足3個條件:
1) 準確性.可以準確表征輸入數(shù)據(jù),捕獲并利用數(shù)據(jù)關鍵特征描述輸入數(shù)據(jù)及其分布.
2) 效率.歸并和約簡輸入數(shù)據(jù)的同時,需要保證數(shù)據(jù)特征摘要和應用過程的高效性,提升輸入數(shù)據(jù)分析的效率,以滿足物聯(lián)網(wǎng)高效海量數(shù)據(jù)處理的要求.
3) 可用性.能夠統(tǒng)一表示各類數(shù)據(jù),便于在各類場景下刻畫數(shù)據(jù)融合過程涉及的輸入數(shù)據(jù).
為此,本文在3.1節(jié)對感知層數(shù)據(jù)融合過程的分析的基礎上,應用目前廣泛使用的數(shù)據(jù)壓縮表示技術、布隆過濾器技術,通過優(yōu)化組合各輸入數(shù)據(jù)的特征構建輸入數(shù)據(jù)特征摘要,保留數(shù)據(jù)融合結果對應輸入數(shù)據(jù)的時空關系的同時優(yōu)化數(shù)據(jù)表示效率及開銷,整個數(shù)據(jù)特征摘要機制如圖3所示.
首先,為了能高效描述融合結果對應的數(shù)據(jù)輸入并減少資源消耗,本文采用布隆過濾器技術獲取單一感知層數(shù)據(jù)的壓縮表示,圖3中,原始數(shù)據(jù)輸入及對應融合過程利用右下狀態(tài)機模型表示,當時刻t1匯聚節(jié)點收到一組來自3類實體的感知層數(shù)據(jù)at1,ht1,rt1,經(jīng)過處理到達狀態(tài)s3對應步驟,當匯聚節(jié)點在下一時刻t2收到數(shù)據(jù)at2,ht2,rt2后,進過推導得到狀態(tài)s4對應的數(shù)據(jù)融合結果,完成數(shù)據(jù)融合操作.這個融合過程對應的操作狀態(tài)序列為s1,s3,s4,對應的輸入為{at1,ht1,rt1}和{at2,ht2,rt2}.每個時隙3個感知實體的數(shù)據(jù)分別記錄到相應的計數(shù)布隆過濾器中,利用對應數(shù)據(jù)的不同Hash結果(Hash函數(shù)H1,H2,H3的結果)定位布隆過濾器中的單元,每次命中單元取值加1.根據(jù)輸入數(shù)據(jù)取值范圍設置布隆過濾器單元數(shù)量,以保證數(shù)據(jù)表示精度[17],能夠準確刻畫輸入數(shù)據(jù)特征.同時根據(jù)重復的采樣數(shù)據(jù)的統(tǒng)計情況設置單元最大計算值,實現(xiàn)對重復數(shù)據(jù)的記錄和統(tǒng)計.然后將不同實體對應布隆過濾器的表示結果組合在一起,作為本時隙數(shù)據(jù)表示結果.
為了全面收集影響數(shù)據(jù)融合結果的輸入數(shù)據(jù),需要將相關時隙對應實體的數(shù)據(jù)全部加入分析,因此需要收集不同時隙的數(shù)據(jù)表示結果,例如圖3中將當前時刻之前P(圖3例子中,P=2)個時隙作為1個檢測周期,收集對應的表示結果序列,關聯(lián)融合結果(序列s1,s3,s4).P的設置根據(jù)新的融合結果的平均生成時隙確定.為了充分利用之前的表示結果,每個時隙結束后,將利用最舊的數(shù)據(jù)記錄對應的布隆過濾器記錄下一個時隙的數(shù)據(jù).這一感知層數(shù)據(jù)特征摘要機制通過數(shù)據(jù)壓縮表示機制高效保留數(shù)據(jù)特征,全面收集數(shù)據(jù)融合結果相關的數(shù)據(jù)輸入,為構建數(shù)據(jù)融合模型提供了前提條件.
構建高效合理的數(shù)據(jù)融合模型是實現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)融合過程中數(shù)據(jù)偽造和篡改攻擊的關鍵.本文通過支持增量融合結果發(fā)現(xiàn)隨機圖模型發(fā)現(xiàn)并刻畫輸入數(shù)據(jù)同數(shù)據(jù)融合結果之間的關系,實現(xiàn)高效的異常數(shù)據(jù)融合結果檢測.
首先利用中國餐館過程[18]對待融合數(shù)據(jù)能夠覆蓋的融合結果數(shù)量進行估計;其次利用概率圖模型,確認各融合操作對應的數(shù)據(jù)特征摘要及其相關度,作為續(xù)數(shù)據(jù)融合過程中異常融合結果檢測的依據(jù).
中國餐館過程定義了一種隨機的類別產(chǎn)生過程.在界定數(shù)據(jù)融合結果的數(shù)量時,用從小到大的自然數(shù)標記各個融合結果,然后將輸入數(shù)據(jù)特征摘要隨機分配到這些融合結果上:
1) 第1個數(shù)據(jù)特征摘要分配給1號融合結果;
2) 第n個數(shù)據(jù)特征摘要或者按照概率α(n-1+α)選擇分給一個新融合結果(α為先驗系數(shù)),或者依概率mk(n-1+α)選擇已經(jīng)分配了數(shù)據(jù)特征摘要的第k個融合結果,其中mk為當前分配到第k個融合結果的數(shù)據(jù)特征摘要的數(shù)量.中國餐館過程是一個穩(wěn)態(tài)的隨機過程,因此,可以獲得明確的數(shù)據(jù)融合結果數(shù).
在此基礎上,構建概率圖模型刻畫K個數(shù)據(jù)融合結果和輸入數(shù)據(jù)特征摘要之間的聯(lián)系.如3.1節(jié)相關文獻所述,數(shù)據(jù)融合過程是針對輸入數(shù)據(jù)的多個階段的處理,融合結果可以表示為多個中間狀態(tài)的序列.在旁路獲得融合結果及相應的輸入數(shù)據(jù)特征摘要后,在中間狀態(tài)未知的情況下刻畫融合結果同輸入數(shù)據(jù)數(shù)據(jù)摘要之間的關系.因此,我們首先利用Dirichlet分布刻畫中間狀態(tài)作用下第t個檢測周期內輸入數(shù)據(jù)摘要Ft={ft,1,ft,2,…,ft,P}對應的融合結果的先驗分布.
θt=Dir(λ),
(1)
其中,λ為分布Dirichlet分布的超參數(shù).
基于θt可得檢測周期t的數(shù)據(jù)特征摘要序列Ft={ft,1,ft,2,…,ft,P}對應的融合結果St={s1,s2,…,sK}的多項分布:
St=multi(θt).
(2)
同樣利用Dirichlet分布刻畫特定融合結果si相關的數(shù)據(jù)摘要fj的先驗分布:
βk=Dir(η),
(3)
其中,η為這一Dirichlet分布的超參數(shù).
根據(jù)βk得到第i個輸入數(shù)據(jù)摘要ft,i的概率分布為
ft,i=multi(βk).
(4)
至此已經(jīng)構建出從輸入數(shù)據(jù)序列到融合結果集的Dirichlet-multi共軛,可以根據(jù)采集得到先驗分布得到相應的后驗分布.同樣基于從特定融合結果到相關輸入數(shù)據(jù)的Dirichlet-multi共軛可以得到ft,i的后驗分布.
利用Gibbs采樣[19],可以不斷迭代推導生成當前輸入序列同下一時刻t+1的輸入的關系,直到收斂(推導同實際數(shù)據(jù)吻合),得到最終的描述融合結果sk同輸入數(shù)據(jù)ft,i的關系的概率圖模型,從中選擇顯著的關系,將其中融合結果對應的輸入數(shù)據(jù)特征摘要(計數(shù)布隆過濾器)按照顯著性排列,構成基于輸入驗證融合結果是否正常的依據(jù).
P(Ft+1|Ft)=
(5)
算法1. 概率圖模型生成算法.
輸入:中國餐館過程參數(shù)α、輸入特征摘要序列{Ft}、Dirichlet先驗分布的參數(shù)λ和η、收斂閾值ε;
輸出:描述融合結果sk同輸入數(shù)據(jù)ft,i的關系的概率圖模型.
① for 每個時隙t
②CRP(Ft,α);*中國餐館過程*
③θt=Dir(λ);
④St=multi(θt);
⑤βk=Dir(η);
⑥ft,i=multi(βk);
P(θt|Ft)Dir(λ);
⑧ ifP(Ft+1|Ft)≤ε
⑩ end if
算法收斂速度同具體輸入數(shù)據(jù)有關,輸入數(shù)據(jù)比較單一(潛在融合結果較少),模型收斂較快,第5節(jié)給出了模型的收斂速度的實驗結果.
最后,在數(shù)據(jù)融合模型基礎上,根據(jù)sk同輸入數(shù)據(jù)ft,i關聯(lián)度的概率分布,驗證某一時刻t之前P個時隙的數(shù)據(jù)輸入(對應特征摘要為Ft={ft,1,ft,2,…,ft,P})是否可以驅動數(shù)據(jù)融合過程得到輸出的融合結果集合St,具體檢測步驟如下:
1) 按照3.1節(jié)感知層數(shù)據(jù)特征摘要機制收集時刻t之前的P個時隙的數(shù)據(jù)特征摘要.
2) 分析收集到的數(shù)據(jù)融合結果,根據(jù)模型中該融合結果對應的輸入特征摘要序列fk,1,fk,2,…,fk,n及其概率分布wk,1,wk,2,…,wk,n,計算當前輸入數(shù)據(jù)的特征摘要的匹配度dt,具體步驟如下:
① 計算模型中特征摘要和輸入的特征摘要間的相似度:
(6)
其中,M為數(shù)據(jù)特征摘要對應的布隆過濾器的單元數(shù),bk,i和bt,i分別為任一模型特征摘要fk,和任一輸入特征摘要ft的布隆過濾器相同位置上的單元;
② 計算當前輸入數(shù)據(jù)的特征摘要同模型特征摘要序列的匹配度dt:
(7)
3) 如果匹配度高于dt檢測閾值μ則為正常融合結果,否則為惡意數(shù)據(jù)篡改.
攻擊檢測的計算復雜度:單位時間內采集的感應數(shù)據(jù)有限,因此M為確定常數(shù),同時檢測周期長度P同數(shù)據(jù)融合操作時延有關,具有上界,因此,上述攻擊檢測的計算復雜度為O(KN),其中,數(shù)據(jù)融合結果數(shù)量K和每個數(shù)據(jù)融合結果涉及的輸入數(shù)據(jù)個數(shù)N由相關融合過程決定.
在本節(jié)中,我們實現(xiàn)了本文提出的攻擊檢驗機制,并且通過對比驗證了其準確性和效率.
4.1.1 數(shù)據(jù)集
論文中在文獻[20]的智能家居數(shù)據(jù)集基礎上,構建了用于驗證數(shù)據(jù)融合過程中攻擊檢測效果的數(shù)據(jù).原始數(shù)據(jù)集中包括多個城市、家庭的設備數(shù)據(jù).主要包括熱水器、空調和家居機器人3類設備獲取的水溫、氣溫和耗電量等信息,數(shù)據(jù)最大采樣間隔為10 s.同時數(shù)據(jù)中給出了設備相應的可選決策,如開始加熱、停止加熱等操作.為了能夠有效評估本文安全驗證模型對節(jié)點數(shù)據(jù)融合的準確性,通過對該數(shù)據(jù)集中相關數(shù)據(jù)的收集和整理,本文提取并采用了200個實體(70臺空調、70臺熱水器和60臺家居機器人)為期10 min至1 h的不同時間規(guī)模的多個實驗數(shù)據(jù)集,每項數(shù)據(jù)都包括設備報告的水溫、氣溫和現(xiàn)有電量數(shù)據(jù)同相關決策狀態(tài)的組合,數(shù)據(jù)集具體信息如表1所示:
Table 1 The Information of Datasets表1 實驗數(shù)據(jù)集信息
數(shù)據(jù)集中單個實體產(chǎn)生重復數(shù)據(jù)的概率為50%.同時,為了評估攻擊檢測方案有效性,本文在上述背景數(shù)據(jù)中按照參數(shù)λ=20的泊松分布篡改了部分時隙的數(shù)據(jù)融合結果,每次攻擊持續(xù)時間服從參數(shù)1λ=0.2的指數(shù)分布,平均攻擊持續(xù)時間為5個時隙,因此包括攻擊的時隙數(shù)為各數(shù)據(jù)集總時隙數(shù)的1100.
4.1.2 方案及對比方案實現(xiàn)
為了驗證本文方案的準確性和效率,本文基于文獻[10]實現(xiàn)了基于采用二階差分過濾器和序貫概率比檢測法的攻擊檢測機制,并根據(jù)文獻仿真部分的參數(shù)優(yōu)化了該方案的參數(shù)設置,其中用戶設定假陽性率為10%,檢測周期為5個時隙,保證了該方案驗證結果的有效性.
同樣,本文方案(EDIoT)的參數(shù)均依照第2.2節(jié)中的安全規(guī)約配置,其中,考慮到檢測準確率和假陽性率之間的制約關系,基于實驗經(jīng)驗值,單次攻擊檢測閾值設為μ=0.8,在避免過高的假陽性率的前提下通過多時隙(檢測周期P為5個時隙)檢驗保證檢驗準確性.基于5個時隙的數(shù)據(jù)規(guī)模,將布隆過濾器的長度為500個單元,每個單元一個字節(jié),采用3個32為murmur Hash函數(shù)[17].根據(jù)多項分布共軛的凸函數(shù)特性,基于實驗經(jīng)驗值優(yōu)化相關概率圖模型參數(shù),其中超參數(shù)λ=0.2,η=0.1,模型生成收斂閾值ε=0.005.
4.2.1 攻擊檢測準確性評估
本節(jié)通過準確率(P_R)和假陽性率(FP_R)來評估數(shù)據(jù)融合過程安全檢驗的準確性.準確率用于衡量攻擊檢測的準確程度:
(8)
其中,A為正確檢驗攻擊次數(shù)(時隙數(shù)),N為總攻擊檢測次數(shù).
本文分別對比了本文方案與對比方案在單時隙及5時隙后檢測攻擊的準確率P_R,結果如圖4所示.單時隙下2個檢測機制的檢測準確性均大于60%,其中對比方案的準確性略高于本文方案,究其原因是基于輸入壓縮表示(布隆過濾器)的檢測過程引入了額外的可控誤差,對檢測準確性有所影響.同時當經(jīng)過5個時隙的檢測后,2方案的檢測準確性均超過98%,均能準確發(fā)現(xiàn)攻擊,5個時隙作為檢查周期比較合理.
Fig. 4 Comparison of precision rate (P_R)圖4 準確率對比
Fig. 5 Comparison of false positive rate (FP_R)圖5 假陽性率對比
為了衡量攻擊檢測過程中誤判的情況,我們引入了假陽性率FP_R:
(9)
其中,B為將正常數(shù)據(jù)融合被檢驗為攻擊的次數(shù).從圖5可以看出,本文方案雖然由于數(shù)據(jù)壓縮表示引入了少量誤判,但是通過合理設置布隆過濾器長度,有效控制了攻擊檢測中的假陽性,假陽性率同對比方案相近,均小于13%,在數(shù)據(jù)DS-50上平均假陽性率為9.95%,略小于對比方案的假陽性率9.97%,本文方案在攻擊檢測中的誤判可以控制在較小范圍.
4.2.2 檢測效率評估
首先,為了評估本文模型生成效率及其影響因素,在不同數(shù)據(jù)集上,利用3.3節(jié)算法構建模型,模型中包含的融合結果及模型生成過程中的迭代次數(shù)如圖6所示.可以看出模型中數(shù)據(jù)融合結果的數(shù)量同數(shù)據(jù)采集次數(shù)(總數(shù)據(jù)量)無關,融合結果的數(shù)量會對模型收斂時的經(jīng)歷的迭代次數(shù)產(chǎn)生影響,融合結果較多的數(shù)據(jù)集上模型收斂速度較慢.
Fig. 6 The states of the generated models and their convergence圖6 模型數(shù)據(jù)融合結果數(shù)量及模型收斂情況
Fig. 7 Comparison of detection latency圖7 檢測時延對比
檢測時延是衡量攻擊檢測效率的關鍵因素,本文檢測時延是指攻擊發(fā)生到攻擊被檢測到的時延的平均值.本文檢測機制和對比方案在檢測攻擊過程中的檢測時延如圖7所示:
從圖7可以看出,為了檢測攻擊,本文攻擊檢測機制時延相對較小,本文實驗均小于37 ms,對比方案時延在50 ms左右,時延差異主要是由檢測機制本身計算復雜度的差異所導致,相對于二階差分過濾器和序貫概率比檢測法的運算復雜度,本文檢測過程僅包括基本運算,復雜度較低.
物聯(lián)網(wǎng)數(shù)據(jù)融合過程中存在的數(shù)據(jù)偽造、篡改攻擊會擾亂甚至損害物聯(lián)網(wǎng)的正常使用.在物聯(lián)網(wǎng)資源受限、大數(shù)據(jù)流量、高時效性的特性對攻擊檢測機制提出了新的挑戰(zhàn),本文提出了一套高效的數(shù)據(jù)收集和建模方案,在提升攻擊檢測準確性的同時,最大程度地優(yōu)化攻擊檢測效率和資源消耗.本文方案通過對壓縮表示的數(shù)據(jù)及其融合過程建模,發(fā)現(xiàn)并刻畫被輸入數(shù)據(jù)和融合結果之間的聯(lián)系,并利用這一模型快速發(fā)現(xiàn)異常的數(shù)據(jù)融合結果,防范惡意數(shù)據(jù)融合操作,優(yōu)化了物聯(lián)網(wǎng)傳輸安全.方案采用壓縮表示機制處理輸入數(shù)據(jù),屏蔽了不同數(shù)據(jù)類型的差異性,可以廣泛應用于各類新型物聯(lián)網(wǎng)數(shù)據(jù)融合場景.