• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于動態(tài)時間跨度與聚類差異指數(shù)的用戶行為異常檢測算法

    2022-05-06 01:08:30曾獻(xiàn)輝代凱旋
    關(guān)鍵詞:時間跨度智能家居類別

    詹 麟 ,曾獻(xiàn)輝 ,2,代凱旋

    (1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620;2.數(shù)字化紡織服裝技術(shù)教育部工程研究中心,上海 201620)

    0 引言

    物聯(lián)網(wǎng)的迅速發(fā)展使其成為了信息化社會的重要一環(huán),其中通過智能家居可以將用戶使用的各種設(shè)備聯(lián)系到一起,通過各種連接技術(shù)如WiFi[1]、ZigBee[2]、藍(lán)牙[3]將原先機械式、單一化的設(shè)備變得具有可控性[4-5]和智能化[6-7],將生活質(zhì)量提高了一個臺階[8-9]。

    通過對智能家居環(huán)境下采集的數(shù)據(jù)進行計算和分析,文獻(xiàn)[10]提出了一種從家庭智能電表數(shù)據(jù)中提取用戶行為模式的統(tǒng)一框架,通過集成的頻繁模式增長算法和各種機器學(xué)習(xí)算法的分類來檢測用戶的異常模式。 文獻(xiàn)[11]通過隱馬爾科夫模型對智能家居環(huán)境下的用戶行為進行預(yù)測。 文獻(xiàn)[12]提出了一種基于用戶行為模式的智能家居控制策略,通過對用電量的挖掘與分析,在此基礎(chǔ)上設(shè)計對應(yīng)的智能家居系統(tǒng)控制策略。 文獻(xiàn)[13]采用關(guān)聯(lián)規(guī)則發(fā)掘算法對智能家居下的用戶行為進行預(yù)測,優(yōu)化了智能家居系統(tǒng)的控制策略。

    但現(xiàn)有的研究仍有些許不足,通過各種機器學(xué)習(xí)對數(shù)據(jù)進行分類后進行異常檢測,可能實時性得不到保障[14],若用戶行為發(fā)生了概念漂移,則不能及時調(diào)整;構(gòu)建數(shù)學(xué)模型局限于存在線性關(guān)系的數(shù)據(jù)集,訓(xùn)練集的數(shù)據(jù)過于關(guān)注歷史數(shù)據(jù),不能對新的行為習(xí)慣做出檢測,可能存在誤判[15];通過關(guān)聯(lián)分析對用戶異常行為進行檢測[16]比較依賴經(jīng)驗值,在不同的規(guī)模下準(zhǔn)確率也會受到一定影響。 對于以上缺陷本文提出了一種基于實時數(shù)據(jù)流的概念漂移檢測方法。 首先采集用戶家中使用智能家居的能耗和傳感器的使用數(shù)據(jù),對這些數(shù)據(jù)進行聚類學(xué)習(xí)得出用戶的正常行為,之后以聚類為標(biāo)簽對加入新的實時數(shù)據(jù)流進行分類,通過檢測聚類的異常性指數(shù)得出用戶哪些行為發(fā)生了改變,對改變后的數(shù)據(jù)進一步計算,比較LOF 數(shù)值[17]得出哪些行為數(shù)據(jù)導(dǎo)致了概念漂移的發(fā)生。 該算法能夠?qū)z測用戶異常行為的實時性做到保證,耗時非常短,且準(zhǔn)確性較高。

    1 用戶異常行為檢測總體框架

    在智能家居的環(huán)境下,用戶所使用設(shè)備的狀態(tài)數(shù)據(jù)通過傳感器進行采集,這些數(shù)據(jù)的背后隱含了許多用戶的行為模式,通過對采集到的數(shù)據(jù)進行分析可以掌握用戶的行為習(xí)慣,并對用戶的異常行為進行判斷。 現(xiàn)有的研究大多數(shù)是通過集成模型對流數(shù)據(jù)進行分類,使其能夠適應(yīng)流數(shù)據(jù)中出現(xiàn)的概念漂移;運用機器學(xué)習(xí)以歷史數(shù)據(jù)作為訓(xùn)練集,將訓(xùn)練好的模型去檢測實時數(shù)據(jù);借助于時間窗口來對數(shù)據(jù)流進行計算和分析。 本文為了進一步提高實時性以及檢測的精度,提出了基于動態(tài)時間跨度與聚類差異性指數(shù)的用戶行為異常檢測算法,其總體流程框架如圖1 所示。

    從圖1 可以看出本文提出的異常行為檢測模型包含聚類模型和分類模型。 聚類模型主要對傳感器收集的離線數(shù)據(jù)集進行聚類,得到用戶正常行為模式。 分類模型主要是以聚類結(jié)果作為標(biāo)簽,對數(shù)據(jù)進行分類。 用戶行為在不同的時間段中活動的頻繁次數(shù)各不相同,針對不同的頻繁次數(shù)對數(shù)據(jù)進行不同時間跨度的概念漂移檢測,在數(shù)據(jù)流發(fā)生概念漂移后,通過局部離群因子(LOF)來檢測用戶行為發(fā)生異常的時間點。

    圖1 異常行為檢測的總體流程框架

    1.1 特征數(shù)據(jù)選擇與處理

    在構(gòu)造合適的分類和聚類模型之前,需要對輸入數(shù)據(jù)進行分析與選擇,選取合適的模型輸入數(shù)據(jù)對最后的結(jié)果有很大影響。 在智能家居環(huán)境下異常數(shù)據(jù)檢測的數(shù)據(jù)來源主要是傳感器采集到的設(shè)備狀態(tài)數(shù)據(jù),這些數(shù)據(jù)主要分為兩種:開關(guān)型數(shù)據(jù)、數(shù)值型數(shù)據(jù)。 開關(guān)型數(shù)據(jù)主要表示在某個時間段中智能家居是否在使用,數(shù)值型數(shù)據(jù)主要表示在某個時間段中智能家居的能耗量。

    對于輸入的數(shù)據(jù)還需要進行預(yù)處理操作。 由于單個數(shù)據(jù)在模型中沒有任何意義,無法體現(xiàn)用戶的行為模式,因此需要將不同設(shè)備的數(shù)據(jù)集合并到一起。 以時間為標(biāo)準(zhǔn)對數(shù)據(jù)進行多對一的合并,將所有設(shè)備在這個時間段內(nèi)的能耗或者使用情況進行整合。 對于缺失的數(shù)據(jù)可以根據(jù)其前后數(shù)據(jù)的規(guī)律性將其補齊。 預(yù)處理完后的數(shù)據(jù)既能夠觀測到數(shù)據(jù)的完整性,也能用于后面的用戶行為模式聚類。

    用戶行為必然會隨時間而發(fā)生改變,因此需要將數(shù)據(jù)采集的時間作為特征數(shù)據(jù)并將其劃分,比如一天中的不同時間段(早上、中午、晚上),是工作日還是周末,或者一年中的不同月份。 表1 所示就是對一天中不同時間段進行劃分的一種方式。

    表1 根據(jù)不同時間段劃分采集時間

    1.2 基于密度的用戶行為模式聚類

    為了對用戶行為模式進行挖掘,需要將預(yù)處理后的數(shù)據(jù)運用聚類算法把用戶行為特征相似的數(shù)據(jù)歸納成一類,同時保證類與類之間的數(shù)據(jù)特性相差盡可能大。 因此聚類可以讓用戶能耗特征相似的數(shù)據(jù)歸在一起,將其看成一種行為模式。

    本文選擇基于密度的DBSCAN 聚類算法對用戶的歷史數(shù)據(jù)進行聚類。在T 時刻所有設(shè)備的狀態(tài)或者能耗經(jīng)過預(yù)處理構(gòu)成一組數(shù)據(jù),記為 Ext。 將 T1,T2,… ,Tn時 刻 的 數(shù) 據(jù) 作 為 輸 入 數(shù) 據(jù) , 記 為 Ext1,Ext2,…,Extn,按照以下DBSCAN 聚類算法對數(shù)據(jù)進行聚類。

    1.3 分類模型的動態(tài)更新

    每一次概念漂移檢測完之后都需要更新分類模型的中心點, 保證之后檢測的正確性和實時性。如果沒有發(fā)生概念漂移則通過式(1)來更新分類模型的中心。 新的中心通過原來中心 Qj和分類到 Qj中 的 n 個 新 數(shù) 據(jù) Ext1,Ext2,…,Extn計 算 得 出 。

    如果發(fā)生概念漂移則需要去除掉LOF 超過一定閾值的數(shù)據(jù),剔除異常點后再通過式(1)計算得出新分類的中心。

    2 本文算法

    2.1 時間跨度動態(tài)調(diào)整策略

    時間跨度是根據(jù)需要進行異常檢測的時間段精度大小來設(shè)定的,所以可以結(jié)合實際情況來選擇,根據(jù)時間規(guī)律或者用戶活動的頻率,將時間分成幾個階段,每個階段的跨度都不同,如表2所示。

    表2 不同時間段對應(yīng)的時間跨度

    例如凌晨用戶活動頻次低,則選擇較大的時間跨度,比如選取4 h,晚上用戶的活動相對頻繁,選擇較小的30 min 作為時間跨度。 如果通過滑動窗口來接收需要處理的數(shù)據(jù),在過程中會通過緩存來儲存數(shù)據(jù),實時性難以得到保證,而本文的時間跨度能夠在保證實時性的前提下根據(jù)實際情況更加靈活地動態(tài)調(diào)整。

    2.2 用于概念漂移檢測的聚類差異性指數(shù)

    通過聚類算法得出的每個聚類集合都是用戶的一個行為模式,隨著時間的推移,用戶的行為會發(fā)生一定變化,與之對應(yīng)的聚類中心點也可能會發(fā)生變化,通過聚類差異性指標(biāo)來判斷是否發(fā)生概念漂移。 根據(jù)之前聚類得到的集合 Q1,…,Qn,將其中心作為分類的標(biāo)簽,將時間跨度C 中的 n 個新的數(shù)據(jù) S1,…,Sn,分別根據(jù)式(2)計算歐氏距離 D(Qi,Si),通過比較Si到每個集合的歐氏距離,將Si分類到歐氏距離最小的集合Q 中。

    將有新數(shù)據(jù)歸類到的集合,根據(jù)原先每個數(shù)據(jù)Ext1,Ext2,…,Extn在整個集合中的隸屬度Lij,使用式(3)計算集合的聚類差異性指數(shù)B標(biāo)準(zhǔn)。

    隸屬度 Lij表示第 j 個數(shù)據(jù)在第 i 個聚類集合中的重要性。

    聚類差異性指數(shù)B標(biāo)準(zhǔn)表示數(shù)據(jù)集中每個數(shù)據(jù)與聚類中心的差異性,如果數(shù)據(jù)差異度比較高,則誤差 B標(biāo)準(zhǔn)會比較大,如果數(shù)據(jù)差異度比較低,則聚類差異性指數(shù) B標(biāo)準(zhǔn)會比較小。

    根據(jù)是否滿足式(5)來判斷用戶是否發(fā)生了概念漂移,即數(shù)據(jù)點的差異性是否超過用戶預(yù)先指定的閾值。

    其中 B新數(shù)據(jù)是時間參數(shù) C 中 n 個新的數(shù)據(jù) S1,…,Sn到其分類集合的差異性;w 則為標(biāo)準(zhǔn)化閾值參數(shù),通過式(6)根據(jù)用戶該能耗平時所用的最大值和最小值得出,其中j 為數(shù)據(jù)的列數(shù),作用為允許新數(shù)據(jù)參數(shù)偏移的誤差控制。

    2.3 基于 LOF 的用戶異常行為檢測

    得出發(fā)生概念漂移的集合之后,通過LOF 算法找到對應(yīng)的異常點,從而知道發(fā)生異常行為的具體時間。 根據(jù)式(7)可以得出 P 點到 O 點的第 k 可達(dá)距。 通過式(8)可計算出點的局部 k 領(lǐng)域距離,之后根據(jù)式(9)可計算出點的 LOF 值。 聚類的聚合越密集,k 領(lǐng)域距離就會越短,密度就會越高,反之如果聚類中的點越分散,點的k 領(lǐng)域距離就會越長,密度也會越低。

    其中 lofp表示 p 點的異常值,異常值如果越接近 1,則表明p 點與它的鄰域點的密度越接近,認(rèn)為不是導(dǎo)致概念漂移的異常點;當(dāng)異常值小于1,說明p點為密集點,不可能是異常點;如果異常值大于1,則表明p 的密度小于其鄰接點,極有可能是導(dǎo)致概念漂移的異常點。

    通過計算得到時間跨度中n 個數(shù)據(jù)的LOF 值,為了檢測其中哪些數(shù)據(jù)為異常行為,則需要計算出臨界值 Lmax。 Lmax的選取對檢測異常極其關(guān)鍵,如果Lmax設(shè)定太高就難以檢測到異常,容易出現(xiàn)漏檢,相反如果Lmax設(shè)定得太低,則容易發(fā)生錯檢。 根據(jù)式(10)可以得出 Lavg,Lavg為 n 個數(shù)據(jù)的平均值;通過式(11)計算得出的 Lsta表示 n 個數(shù)據(jù)的標(biāo)準(zhǔn)偏差,反映的是數(shù)據(jù)的離散程度。 將 Lavg和 Lsta相加就可以得出LOF 的臨界值 Lmax,超出臨界值 Lmax的數(shù)據(jù)就認(rèn)為是用戶的異常行為。

    2.4 算法流程

    圖2 是異常行為檢測算法流程圖。 在輸入數(shù)據(jù)后,先通過離線數(shù)據(jù)集得到聚類的結(jié)果,將每一個類別作為分類標(biāo)簽對實時數(shù)據(jù)進行分類,根據(jù)動態(tài)調(diào)整完的時間跨度對數(shù)據(jù)進行概念漂移檢測,通過聚類集合的誤差指數(shù)來判斷是否概念漂移。 如果發(fā)生了概念漂移則需要檢測導(dǎo)致發(fā)生概念漂移的異常點,計算每一個數(shù)據(jù)的LOF 值是否大于臨界值,剔除大于臨界值的異常點,通過中心點偏移公式對分類模型的中心點進行更新,若沒有發(fā)生概念漂移則直接對分類模型進行更新。 之后將新的模型中心作為分類標(biāo)簽再次對新輸入的數(shù)據(jù)進行分類,并且重新計算聚類差異性指數(shù),依次循環(huán)往復(fù)。

    圖2 異常行為檢測算法流程圖

    3 實驗結(jié)果與分析

    本文的實驗數(shù)據(jù)來源于實際采集到的智能家居環(huán)境下的各類電器設(shè)備數(shù)據(jù)。 整個采集系統(tǒng)有14 個傳感器,用于采集14 個設(shè)備的狀態(tài)或能耗數(shù)據(jù),每一個傳感器設(shè)置以1 min 為一個采集周期。實驗首先將數(shù)據(jù)進行預(yù)處理,之后通過聚類得到用戶的行為模式,再結(jié)合時間跨度的大小對新數(shù)據(jù)流進行分類,通過分類集合的聚類差異性指標(biāo)判斷是否發(fā)生了概念漂移,最后通過計算數(shù)據(jù)點的LOF 異常值檢測發(fā)生異常行為的時間點,具體過程如下。

    3.1 數(shù)據(jù)處理及行為模式挖掘

    在智能家居環(huán)境下傳感器采集的數(shù)據(jù),主要包括存儲時間序列和用電能耗或用電信息,比如開關(guān)是否打開、設(shè)備在短時間內(nèi)的能耗。 表3 是燈的能耗的一部分采集數(shù)據(jù)。 通過合并、篩選等方式對采集數(shù)據(jù)進行預(yù)處理,將更加清晰和完整的數(shù)據(jù)作為輸入數(shù)據(jù)。

    表3 燈的能耗原始數(shù)據(jù)

    由于時間戳序列的形式不方便理解,因此需要把時間戳序列轉(zhuǎn)換為日期和時間的形式。 之后是對數(shù)據(jù)進行合并,將不同設(shè)備的數(shù)據(jù)集合并到同一個數(shù)據(jù)表中,以時間為標(biāo)準(zhǔn)對數(shù)據(jù)進行多合一,將所有的設(shè)備在該時間的能耗或者使用情況進行合并,表4 列舉了一部分結(jié)果。 經(jīng)過初始的處理后實驗輸入數(shù)據(jù)如表5 所示(該表僅列舉了部分?jǐn)?shù)據(jù))。

    表4 預(yù)處理完的數(shù)據(jù)

    表5 實驗輸入數(shù)據(jù)

    3.2 聚類結(jié)果

    系統(tǒng)在開始運行之前積累了2 天共2 880 條數(shù)據(jù),將這些數(shù)據(jù)作為離線的聚類版本。 采用基于密度的DBSCAN 聚類算法對其進行初始聚類,得到了9 個類別如表 6 所示,其中數(shù)值為電器的能耗,單位為 VA。

    表6 聚類結(jié)果

    實驗還與K-Means 聚類和均值漂移聚類的準(zhǔn)確性進行比較,結(jié)果如表 7 所示。 輸入相同的 2 880條數(shù)據(jù)并對其聚類,可以看到DBSCAN 聚類的正確率達(dá)到了98.5%,而K-Means 和均值漂移正確率只有96.3%和98.1%,從而得出本實驗使用DBSCAN聚類效果比較好。

    表7 聚類算法比較

    聚類結(jié)果一共分成了9 個類別,每一個類別都代表了用戶在某個時間段的一種行為模式。根據(jù)聚類結(jié)果可以對用戶的行為做簡單分析,例如表6 中聚類類別2 表示用戶在睡覺的時間充電,聚類類別3 表明用戶有在晚上同時使用洗衣機和洗碗機的習(xí)慣。

    3.3 基于聚類差異性指數(shù)的概念漂移檢測結(jié)果

    在聚類完成后需要以聚類結(jié)果作為標(biāo)簽對實時數(shù)據(jù)進行分類,之后進行概念漂移的檢測。 實時數(shù)據(jù)為晚上10 點~12 點的時間段,在這個時間段中的時間跨度動態(tài)為2 h,對其中的數(shù)據(jù)進行分類,分類結(jié)果如表8 所示,發(fā)現(xiàn)有4 個類別有新數(shù)據(jù)加入。

    表8 實時數(shù)據(jù)分類情況

    分別計算4 個類別的數(shù)據(jù)標(biāo)準(zhǔn)誤差B標(biāo)準(zhǔn)以及時間跨度中數(shù)據(jù)歸類到該集合的數(shù)據(jù)的差異度B新數(shù)據(jù),計算數(shù)據(jù)的標(biāo)準(zhǔn)化閾值參數(shù)w,通過式(5)判別是否發(fā)生了概念漂移。 通過計算得到4 類集合中心發(fā)生了偏移,如表 9 所示,可以看到集合類別 6 和集合類別9 發(fā)生了概念漂移。

    表9 概念漂移檢測結(jié)果

    本文提出的檢測算法耗時較短大約0.015 s,并且通過對時間數(shù)據(jù)的分析,新的輸入數(shù)據(jù)中的確存在用戶行為模式的改變,行為發(fā)生改變的類別為類別 6 和類別9,檢測正確率為 100%。

    3.4 通過 LOF 檢測異常行為

    計算時間跨度中所有數(shù)據(jù)的LOF 值,為了能夠直觀體現(xiàn), 將每個時間段對應(yīng)的LOF 值繪制出來,并且根據(jù)式(12)計算得到 Lmax為 1.5,如圖 3 所示。

    圖3 中圓圈中的點的 LOF 指數(shù)大于 1.5,因此認(rèn)為該點是偏離正常行為的數(shù)據(jù),并且根據(jù)序號得出異常值屬于聚類類別 6 中(序號為 30 ~60 之間)。再根據(jù)數(shù)據(jù)中的序號可以確定用戶的異常行為和行為時間點。 通過數(shù)據(jù)分析得出在聚類類別6 中存在原先關(guān)閉的設(shè)備處于使用狀態(tài),這可能是設(shè)備使用后忘記關(guān)閉, 與原先的行為相比有了新的用電行為,行為模式發(fā)生了變化。

    圖3 兩小時內(nèi)每一時刻LOF 的趨勢

    4 結(jié)論

    本文針對智能家居環(huán)境下用戶的異常行為提出了一種檢測算法。 該算法能夠在保證實時性的情況下正確檢測出概念漂移,并給出用戶行為發(fā)生異常的時間點。 通過實驗得出該算法能夠?qū)崟r地對用戶行為進行檢測,耗時非常短,準(zhǔn)確性比較高。 本研究為實現(xiàn)智能家居環(huán)境下用戶行為異常檢測提供了新思路,能夠有效解決用戶獨自在家時所產(chǎn)生的安全隱患問題,為居家人士提供有效服務(wù)和安全保障。

    猜你喜歡
    時間跨度智能家居類別
    如虎
    ——黃胄畫貓賀歲展
    中華書畫家(2022年4期)2022-04-21 09:31:06
    電視劇《父母愛情》受歡迎的原因探析
    淺談回顧性成就報道的創(chuàng)作思路
    基于Zigbee的無線通信技術(shù)在智能家居中的應(yīng)用
    電子制作(2018年1期)2018-04-04 01:48:28
    傳感器網(wǎng)絡(luò)分簇時間跨度優(yōu)化聚類算法
    關(guān)于智能家居真正需求的探討
    服務(wù)類別
    新校長(2016年8期)2016-01-10 06:43:59
    智能家居更貼心
    論類別股東會
    商事法論集(2014年1期)2014-06-27 01:20:42
    中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
    如东县| 徐水县| 石河子市| 拉萨市| 桃江县| 二连浩特市| 金山区| 东乡族自治县| 达尔| 泰安市| 仁寿县| 突泉县| 平凉市| 尚义县| 白水县| 洞头县| 盐津县| 渑池县| 凤翔县| 兰州市| 宜君县| 商南县| 长葛市| 莲花县| 离岛区| 平乡县| 洱源县| 弥渡县| 日照市| 遵义市| 中方县| 香港| 中宁县| 南华县| 麦盖提县| 浦北县| 崇阳县| 万山特区| 上蔡县| 故城县| 平顶山市|