何伶俐
(湖北輕工職業(yè)技術(shù)學(xué)院,湖北 武漢 430070)
物聯(lián)網(wǎng)(Internet of Thing,IoT)是一個高速發(fā)展的領(lǐng)域,正在改變各個行業(yè),例如:智能城市、工業(yè)自動化和醫(yī)療保健。隨著IoT設(shè)備的增多和數(shù)據(jù)規(guī)模擴(kuò)大,處理和分析IoT傳感器數(shù)據(jù)變得至關(guān)重要[1]。但是,由于傳感器和環(huán)境因素,數(shù)據(jù)質(zhì)量問題(如噪聲、冗余、空數(shù)據(jù))成為挑戰(zhàn)。這些問題可能影響數(shù)據(jù)分析的準(zhǔn)確性和智能應(yīng)用的性能。為了解決這個問題,本研究提出了一種基于深度強(qiáng)化學(xué)習(xí)的框架,利用深度Q網(wǎng)絡(luò)代理清理傳感器數(shù)據(jù),分為空數(shù)據(jù)、垃圾數(shù)據(jù)和正常數(shù)據(jù)三類。實(shí)驗(yàn)結(jié)果顯示,這種方法優(yōu)于傳統(tǒng)的基于時間序列的全連接神經(jīng)網(wǎng)絡(luò)方案,在提高數(shù)據(jù)質(zhì)量和應(yīng)用性能方面具有優(yōu)勢[2]。
物聯(lián)網(wǎng)傳感器數(shù)據(jù)分析中存在3個主要問題:數(shù)據(jù)質(zhì)量問題,如噪聲、冗余和空數(shù)據(jù);數(shù)據(jù)清理的挑戰(zhàn),涉及有效識別和處理空數(shù)據(jù)、垃圾數(shù)據(jù)和正常數(shù)據(jù);數(shù)據(jù)處理效率問題,需要在大規(guī)模和復(fù)雜數(shù)據(jù)情況下保持高效。為了解決這些問題,本研究提出了一種基于深度強(qiáng)化學(xué)習(xí)的優(yōu)化方案。本研究引入深度Q網(wǎng)絡(luò)代理進(jìn)行數(shù)據(jù)清理,目的是自動識別和處理各種數(shù)據(jù),提高數(shù)據(jù)質(zhì)量和應(yīng)用程序性能[3]。
物聯(lián)網(wǎng)數(shù)據(jù)分析是處理和挖掘從物聯(lián)網(wǎng)設(shè)備和傳感器收集的數(shù)據(jù),以提取有價值的信息支持決策和應(yīng)用程序。主要任務(wù)包括數(shù)據(jù)清理和預(yù)處理、數(shù)據(jù)可視化、數(shù)據(jù)挖掘與分析以及實(shí)時決策和響應(yīng)。數(shù)據(jù)清理包括處理缺失值、異常值和噪聲等,以優(yōu)化數(shù)據(jù)質(zhì)量。數(shù)據(jù)可視化幫助用戶理解數(shù)據(jù)特征,而數(shù)據(jù)挖掘和分析則用于發(fā)現(xiàn)新的知識和洞察。實(shí)時決策和響應(yīng)則用于支持智能實(shí)時應(yīng)用。物聯(lián)網(wǎng)數(shù)據(jù)分析在智能城市、智能制造、智能農(nóng)業(yè)等多個領(lǐng)域有廣泛應(yīng)用,能有效提升資源利用效率,預(yù)測和解決問題,帶來更多的便利和價值[4]。
物聯(lián)網(wǎng)數(shù)據(jù)清理是關(guān)鍵步驟,用于處理傳感器數(shù)據(jù)的噪聲、冗余和空數(shù)據(jù)。常用方法包括處理缺失值(刪除或填補(bǔ))、異常值檢測(通過統(tǒng)計或機(jī)器學(xué)習(xí))、冗余數(shù)據(jù)去除、數(shù)據(jù)平滑和濾波以及數(shù)據(jù)歸一化和標(biāo)準(zhǔn)化。本研究提出了一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)清理方法(RLQN),它以實(shí)時環(huán)境狀態(tài)為基礎(chǔ),根據(jù)當(dāng)前狀態(tài)決定最佳操作,以優(yōu)化數(shù)據(jù)質(zhì)量。該方法以RLQN代理在物聯(lián)網(wǎng)架構(gòu)的數(shù)據(jù)處理層中進(jìn)行實(shí)時數(shù)據(jù)感知和處理[4]。圖1展示了本研究提出的基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)清理方法(RLQN)的系統(tǒng)概述。該方法包括5個不同的概念,基于深度強(qiáng)化學(xué)習(xí)的原理進(jìn)行設(shè)計。本研究將RLQN代理放置在物聯(lián)網(wǎng)架構(gòu)的數(shù)據(jù)處理層上,代理會根據(jù)當(dāng)前的環(huán)境狀態(tài)來決定適當(dāng)?shù)牟僮?。需要注意的?狀態(tài)是由實(shí)時環(huán)境決定的,因此代理需要實(shí)時地感知和處理數(shù)據(jù)。
圖1 用于跟蹤丟失和垃圾數(shù)據(jù)的深度強(qiáng)化學(xué)習(xí)代理
物聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量面臨眾多挑戰(zhàn),包括多樣的數(shù)據(jù)來源、大量的數(shù)據(jù)、噪聲、不確定性和數(shù)據(jù)完整性問題。解決這些問題的關(guān)鍵在于數(shù)據(jù)清理和預(yù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化和一致性、數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)安全保護(hù)和數(shù)據(jù)治理。數(shù)據(jù)清理是物聯(lián)網(wǎng)數(shù)據(jù)分析中的關(guān)鍵任務(wù),主要通過處理錯誤、噪聲和缺陷以提高數(shù)據(jù)質(zhì)量。常用的數(shù)據(jù)清理方法包括處理缺失值、異常值檢測、噪聲去除、去除重復(fù)數(shù)據(jù)、數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化以及數(shù)據(jù)修復(fù)。這些方法可以相互結(jié)合,根據(jù)數(shù)據(jù)類型和處理目標(biāo)的不同,提高數(shù)據(jù)質(zhì)量和處理效果[5-7]。
本研究提出的模型與Keras庫一起部署在Python 3.10下的TensorFlow 2.2.0 API上。本研究在一集中評估了本研究提議的DQN性能總獎勵和不需要的數(shù)據(jù)檢測準(zhǔn)確性。環(huán)境是本研究提出系統(tǒng)中提高代理互動性能的基本因素之一。本研究提出的環(huán)境采用基于網(wǎng)格的架構(gòu),大小為20×20。在該架構(gòu)中,每個網(wǎng)格索引表示從傳感器收集的RSS值。因此,該系統(tǒng)總共收集了400個RSS值,其中每行有20個RSS值。本研究提出的系統(tǒng)能夠從環(huán)境中實(shí)現(xiàn)對400個不同狀態(tài)空間的評估。對于提出的狀態(tài)空間,經(jīng)驗(yàn)驅(qū)動的方法在訓(xùn)練后推斷解決方案是有效的。圖6顯示了一些具有20個RSS值的行示例,其中包含所有可用的RSS數(shù)據(jù)(良好、空和垃圾)。
在本研究提出的基于RLQN的系統(tǒng)中,與上述環(huán)境交互以獲取經(jīng)驗(yàn)是一項(xiàng)普遍而基本的任務(wù),并以最佳方式實(shí)現(xiàn)[8]。最初,本研究設(shè)計的DQN代理對系統(tǒng)環(huán)境沒有任何了解或經(jīng)驗(yàn)。因此,代理使用epsilon參數(shù)隨機(jī)選擇特定操作。隨后,代理開始根據(jù)基于貪心的exploitation策略提供最佳操作bestact。
bestacl=argmax( agent ( state )).
為了自動化地記住每個情境,本研究的系統(tǒng)將代理的經(jīng)驗(yàn)存儲在基于deque的內(nèi)存中,稱為“體驗(yàn)重播內(nèi)存”,并針對每個時間步驟(t)進(jìn)行存儲。需要注意的是,本研究提出的代理的經(jīng)驗(yàn)表明,在每個時間步驟中,當(dāng)前狀態(tài)、行動、獎勵和下一個狀態(tài)均被收集。這意味著系統(tǒng)將這4個值作為元組存儲在單個基于deque的體驗(yàn)重播內(nèi)存中,如圖2所示。
圖2 基于Deque的體驗(yàn)重播記憶
本研究的系統(tǒng)利用深度強(qiáng)化學(xué)習(xí)對體驗(yàn)進(jìn)行存儲和實(shí)時訓(xùn)練,采用隨機(jī)采樣策略減少體驗(yàn)間的相關(guān)性,降低訓(xùn)練復(fù)雜性。本研究的Q網(wǎng)絡(luò)基于深度學(xué)習(xí),以LSTM形式部署,適應(yīng)了實(shí)時收集的RSS數(shù)據(jù),優(yōu)化了行動預(yù)測。本研究的系統(tǒng)實(shí)時從各部分收集RSS數(shù)據(jù)。因此,LSTM是Q網(wǎng)絡(luò)的最佳選擇之一。此外,本研究將完全連接的密集網(wǎng)絡(luò)與本研究提議的RLQN相結(jié)合,以使整個網(wǎng)絡(luò)穩(wěn)健。圖3代表了本研究設(shè)計系統(tǒng)的提出RLQN。同時,本研究將完全連接的密集網(wǎng)絡(luò)與RLQN結(jié)合,以提升網(wǎng)絡(luò)穩(wěn)健性。為提高整體性能,本研究引入了另一個具有相同結(jié)構(gòu)的RLQN,稱為target-RLQN,一同優(yōu)化預(yù)測和目標(biāo)Q值之間的損失,提供最佳行動。
圖3 提出的RLQN
Loss(θ)=(Q′-Q)2.
其中,Q和Q′分別在(4)和(5)中給出,其中γ代表折扣因素∈[0,1]。本研究提議的系統(tǒng)的整體算法在算法1中給出。
Q=Q(st,actt;θ)
為了設(shè)計RLQN,本研究在訓(xùn)練期間通過試錯策略初始化了一些超參數(shù)(例如:學(xué)習(xí)率、ε數(shù)量等)。這些超參數(shù)控制Q網(wǎng)絡(luò)的特性,以提供最佳操作。表1詳細(xì)描述了本研究提出的DQN的訓(xùn)練超參數(shù)。
表1 訓(xùn)練超參數(shù)
物聯(lián)網(wǎng)數(shù)據(jù)分析的性能評估常用準(zhǔn)確率、精確率、召回率、F1值、均方誤差、均方根誤差、相對誤差和R平方等指標(biāo)。本研究的研究運(yùn)行了400集的模型,每集的總獎勵圖顯示,本研究提出的RLQN方法在開始和整個實(shí)驗(yàn)過程中都能獲得超過150的總獎勵,而且在45集后總獎勵大幅增加,其改進(jìn)速度明顯優(yōu)于FCDQN。RLQN能夠從總獎勵增加開始,一直保持穩(wěn)定的獎勵水平到最后一集,而FCDQN的獎勵水平只能在短時間內(nèi)保持穩(wěn)定,然后以不一致的方式下降,如圖4所示。因此,本研究的RLQN系統(tǒng)相比于FCDQN表現(xiàn)更佳。
圖4 每集的總獎勵
提出系統(tǒng)的主要目標(biāo)是在數(shù)據(jù)收集階段區(qū)分不同類型的數(shù)據(jù),如“良好”“空”和“垃圾”,以減少不需要的數(shù)據(jù)量(即“空”和“垃圾”)。圖5說明了識別“良好”“空”和“垃圾”RSS值的檢測準(zhǔn)確性,直到400集。
圖5 每個情節(jié)間隔的檢測準(zhǔn)確性
從圖5可以看出,提出的方法在每次發(fā)作間隔內(nèi)始終保持更高的準(zhǔn)確性。此外,可以看出,提出的系統(tǒng)在每次發(fā)作間隔時始終達(dá)到超過80%的準(zhǔn)確性,而FCQN無法達(dá)到超過65%的準(zhǔn)確性。值得注意的是,最初,由于代理在第一個間隔處于勘探模式,提出方法的準(zhǔn)確性低于90%,但在勘探期后,隨著代理開始貪婪地采取行動,這一準(zhǔn)確性增加到近96%。相比之下,FCDQN在最終間隔時從未達(dá)到70%的準(zhǔn)確率。因此,可以得出結(jié)論,提出的系統(tǒng)在有效識別和刪除“空”和“垃圾”RSS數(shù)據(jù)方面非常強(qiáng)大。
文章提出了一個深度強(qiáng)化學(xué)習(xí)的物聯(lián)網(wǎng)數(shù)據(jù)清理框架,旨在改進(jìn)數(shù)據(jù)分析并消除不必要的數(shù)據(jù)。使用深度Q網(wǎng)絡(luò)識別并處理空數(shù)據(jù)、垃圾數(shù)據(jù)和正常數(shù)據(jù),實(shí)時處理大量傳感器數(shù)據(jù),并在實(shí)時決策和高度適應(yīng)性方面具有優(yōu)勢。實(shí)驗(yàn)結(jié)果表明,該框架的精度約為96%,可為各種物聯(lián)網(wǎng)應(yīng)用程序提供多功能解決方案。