趙圣健,朱 翠,王雅妮
(北京信息科技大學 信息與通信工程學院,北京100101)
隨著基于位置服務(location-based services,LBS)業(yè)務的不斷發(fā)展,全球定位系統(tǒng)(global positioning system,GPS)和蜂窩移動通信系統(tǒng)可以在室外環(huán)境中提供較為準確的定位服務,但其傳輸信號無法穿透墻體進入室內,無法提供準確的室內定位服務。與此同時,大型醫(yī)院、大型圖書館、地下停車場、大型商場等場所,都需要較為精確的位置服務,人們對室內位置服務的需求變得日益迫切[1]。
典型的室內定位技術包括:無線局域網定位、藍牙定位、紅外定位、超聲波定位、超寬帶定位和射頻識別(radio frequency identification,RFID)定位[2]。與其他定位技術相比,RFID具有抗干擾及穿透能力強、定位范圍廣等優(yōu)勢具有良好的適應性[3],且因定位速度快、成本低、非視距(non-line-of-sight,NLOS)等特點被廣泛應用于應急救援、資產管理、人員跟蹤等領域[4-6]。
近年來,隨著人工智能的快速發(fā)展,機器學習、深度學習等算法被廣泛應用于各個領域。合適的機器學習算法應用于室內定位系統(tǒng),能夠有效地提高定位精度、增強系統(tǒng)魯棒性和降低成本[7]。常見的機器學習算法有支持向量機(support vector machines,SVM)、K-近鄰、人工神經網絡(artificial neural network,ANN)、樸素貝葉斯、決策樹以及隨機森林等[8-9]。其中SVM處理小樣本、非線性問題時具有較好的性能,但高維空間的復雜性則會帶來較大的計算量和存儲空間等問題[10]。K-近鄰算法在定位過程中要對數(shù)據庫中所有的樣本數(shù)據進行計算,當數(shù)據量過大時會造成計算量過大的問題,無法實現(xiàn)實時定位[11]。ANN模型能適應噪聲數(shù)據進行訓練,具有良好的數(shù)據擬合能力,但前期需要大量數(shù)據訓練網絡模型來調整其權值、閾值等參數(shù),訓練成本非常高[12]?;谪惾~斯分類算法定位具有計算量小、可處理多分類問題等優(yōu)勢,但它是建立在條件相互獨立假設基礎上的,實際應用中目標特征之間不可能絕對地獨立,會影響實際定位效果[13]。通過決策樹算法進行定位分類準確率較高,建樹分類過程具有較好的可視化效果,但建樹過深、分支過多容易造成過擬合。而隨機森林作為一系列決策樹的集成學習算法,繼承了決策樹的多種優(yōu)勢,且其隨機性也提高了模型的泛化能力,降低了過擬合[14-16]風險。在多領域研究中發(fā)現(xiàn),隨機森林分類模型通常優(yōu)于回歸模型,尤其在解決大量樣本、具有高維度特征或多分類問題時被研究者們廣泛應用[17]。
基于以上分析,本文針對基于RFID的收發(fā)分離室內定位系統(tǒng),設計了隨機森林分類算法,該方法適用于較大空間內二維放置的、具有多維度特征的貨物放置區(qū)域定位。仿真結果表明,在20 m×20 m的空間內,均分為16個5 m×5 m的區(qū)域,每隔0.1 m一個采樣點,40 000個采樣點的區(qū)域預測準確率可達93%,可以滿足實際應用中針對區(qū)域定位的需求。
RFID是一種非接觸式自動識別技術,可以快速讀寫、長期跟蹤管理,因而在智能識別領域受到廣泛關注。傳統(tǒng)的RFID定位系統(tǒng)由閱讀器和RFID標簽組成。RFID標簽具有唯一的標識符(ID),附著在定位目標上。當目標進入閱讀器天線工作范圍內,閱讀器和標簽通過電磁場耦合的方式實現(xiàn)數(shù)據通信。
RFID系統(tǒng)依據其工作頻率可分為低頻、高頻、超高頻和微波4個頻段。低頻和高頻系統(tǒng)基于電感耦合的基本原理,通信距離較短;超高頻和微波系統(tǒng)基于電磁耦合反向散射原理,通信距離較長。其中超高頻RFID系統(tǒng)憑借通信距離遠、通信速率快及天線尺寸小等優(yōu)勢被廣泛應用。
RFID標簽可分為無源、有源和半有源3種。無源RFID標簽通過閱讀器發(fā)射的信號為內部芯片的工作提供能量,信號能量達到其工作的激勵門限,芯片即可發(fā)射帶有ID和位置信息的信號;有源RFID標簽依靠本身電池主動發(fā)射射頻信號,其通信距離遠,但壽命短且成本較高;半有源RFID標簽本身也有電池提供芯片的工作能量,但須閱讀器信號來激活其發(fā)射信號。其中有源和半有源RFID標簽僅用于少數(shù)貴重物品的管理,無源RFID標簽憑借成本低、壽命長等優(yōu)勢被廣泛使用。
傳統(tǒng)的RFID室內定位系統(tǒng)中,閱讀器天線發(fā)射無線信號激勵無源RFID標簽并接收標簽反射的信號,對天線頻率帶寬有較高的要求。閱讀器天線收發(fā)分離的應用使RFID室內定位系統(tǒng)可實現(xiàn)收發(fā)信號解耦,抑制了收發(fā)信號之間的干擾,同時大大降低了系統(tǒng)的成本。
本文采用的RFID收發(fā)分離定位系統(tǒng)包括多個信號發(fā)射器、超高頻無源RFID標簽和信號接收器。信號發(fā)射器負責發(fā)射無線信號,RFID標簽在信號覆蓋范圍內被激活后發(fā)送帶有信息的無線射頻信號,信號接收器接收并處理被激活標簽的反射信號進行定位。一個典型的RFID收發(fā)分離定位系統(tǒng)如圖1所示,3個發(fā)射器依次激勵目標標簽,接收端接收到被激活標簽的反射信號。下行鏈路(信號從發(fā)射器到標簽)和上行鏈路(信號從標簽到接收器)分別用虛線和實線表示。
圖1 基于RFID的收發(fā)分離室內定位系統(tǒng)
本文針對較大空間中多個區(qū)域內的所有目標進行區(qū)域定位。為了覆蓋定位空間中所有位置,須部署多個信號發(fā)射器,因此每個目標將有一個多維的信號強度特征?;谝陨戏治?,針對較大空間、大量樣本、高維度特征且多分類的情況,本文選擇隨機森林分類算法進行目標的區(qū)域定位。
隨機森林是基于集成學習的思想對多棵決策樹投票決定分類結果的一種算法,它的基本單元是決策樹。假設現(xiàn)有數(shù)據集擁有N個樣本,M個特征。每棵樹建立時,從N個訓練樣本中以有放回抽樣的方式隨機取樣形成訓練集(即bagging取樣),再從訓練集數(shù)據的M個特征中隨機選擇m個特征作為樹的分類節(jié)點,其中m 圖2 隨機森林算法 當空間中包含區(qū)域較多,即數(shù)據集有較多分類時,由于室內多徑及噪聲的影響,隨機森林預測結果易出現(xiàn)分類差別較大的情況。通過仿真發(fā)現(xiàn),一層隨機森林錯誤分類中,有些目標預測結果與實際放置區(qū)域相差較遠,區(qū)域定位準確率并不能滿足實際需要。因此,本文提出了一種兩層隨機森林分類模型,有效地消除了定位區(qū)域差別較大的情況,并提高了空間內的總體區(qū)域定位準確率。 算法流程如圖3所示: 圖3 兩層隨機森林分類模型預測流程 對比一層的隨機森林分類模型,兩層隨機森林模型的優(yōu)勢在于當定位空間較大、分類區(qū)域較多時,通過使用第一層分類模型,得到準確的區(qū)域粗定位之后,再使用該區(qū)域的第二層分類模型定位目標的實際放置區(qū)域,可以大幅提高分類準確率;缺點是增加了模型數(shù)量,提高了訓練成本。因此本文所提出的基于兩層隨機森林模型的分類方法適合用于定位空間較大、分類區(qū)域較多情況下的區(qū)域定位。 為了驗證RFID收發(fā)分離系統(tǒng)及兩層隨機森林模型分類方法的有效性,搭建了仿真環(huán)境,通過與傳統(tǒng)三點定位方法及一層隨機森林分類模型的對比,驗證方法的準確性和有效性。 仿真環(huán)境設置如下:定位空間大小為20 m×20 m×5 m(長×寬×高),空間包含16個5 m×5 m的放置區(qū)域,空間內每隔0.1 m布置一個采樣點(標簽),總共40 000個采樣點均勻分布。區(qū)域分布如圖4所示,16種顏色表示16個區(qū)域內的標簽;空間均勻部署9個信號發(fā)射器,相鄰間隔為10 m,空間正中央部署信號接收器,高度均為5 m;無源RFID標簽高度為1 m,定位場景如圖5所示。傳輸信號的頻率為920 MHz;信號發(fā)射器的信號強度為33 dB;信號發(fā)射器、RFID標簽及信號接收器的增益分別設置為6 dB、2 dB、6 dB。標簽和接收器的靈敏度分別為-15 dB和-101 dB;調制損耗為-20 dB;地板反射系數(shù)為-0.8;當標簽不在可讀區(qū)域時,接收器的接收信號強度(received signal strength,RSS)設置為-100 dB。 圖4 空間區(qū)域分布 圖5 收發(fā)器位置部署 在兩層分類模型定位過程中,第一層模型將目標粗定位于4個大區(qū)域A、B、C、D中,再通過第二層分類模型,將目標定位于大區(qū)域中的4個子區(qū)域1、2、3、4中,從而實現(xiàn)整個空間內的區(qū)域定位,兩層區(qū)域劃分如圖6所示。 圖6 區(qū)域劃分 對空間內40 000個采樣點分別使用三點定位方法、一層隨機森林分類模型和兩層隨機森林分類模型進行區(qū)域定位,區(qū)域分類準確率分別為66.06%、86.93%和92.82%,定位效果分別如圖7~9所示。 由圖可知,隨機森林分類效果明顯優(yōu)于傳統(tǒng)基于信號強度的三點定位方法。圖8和圖9相比可以發(fā)現(xiàn),一層隨機森林分類模型的預測結果中,出現(xiàn)定位區(qū)域偏差較大的情況,如有些實際放置于A1區(qū)域中的目標,定位區(qū)域是D4。而圖9中這種情況出現(xiàn)次數(shù)顯著減少,且放置區(qū)域預測的錯誤結果大多為其原本放置區(qū)域周圍較近的區(qū)域,由此降低了獲取目標的難度,這種誤差在大多數(shù)實際應用中是可以接受的。因此基于兩層隨機森林模型的分類方法提高了目標區(qū)域定位的準確率,可以滿足實際應用的需求。 圖8 一層隨機森林模型 圖9 兩層隨機森林模型 針對大型室內環(huán)境中的多分類區(qū)域定位的問題,本文提出了一種基于兩層隨機森林的RFID收發(fā)分離室內定位方法。利用第一層隨機森林對目標標簽進行較為準確的粗定位,再根據粗定位的結果選擇對應的第二層隨機森林模型進行最終的區(qū)域定位。較一層隨機森林分類模型,雖增加了模型數(shù)量,一定程度增加了訓練成本,但以較小的訓練成本為代價獲得了更為準確的區(qū)域定位性能,解決了部分采樣點預測區(qū)域與真實區(qū)域差別較大的問題,滿足實際應用的需求。由于真實室內環(huán)境中存在的噪聲和多徑干擾會影響接收信號強度,未來將在實際倉儲空間內部署設備進行實際測量并試驗該方法的定位性能,以實現(xiàn)大型制造業(yè)、大型商場等行業(yè)對貨物的位置監(jiān)管和存取。2.2 基于兩層隨機森林的分類模型
3 仿真結果與分析
4 結束語