朱金榮,李 揚(yáng),鄧小穎,孫 燦
(揚(yáng)州大學(xué)物理科學(xué)與技術(shù)學(xué)院,江蘇 揚(yáng)州225002)
隨著5G網(wǎng)絡(luò)逐步發(fā)展,隨之而來的網(wǎng)絡(luò)規(guī)劃和基站鋪設(shè)問題逐漸被重視。為得到城市各小區(qū)內(nèi)網(wǎng)絡(luò)干擾和通信速率等重要指標(biāo),需要采集大量的工程數(shù)據(jù)模型及實(shí)際平均信號(hào)接收功率(Reference Signal Receiving Power,RSRP)擬合出無線傳播模型。傳統(tǒng)經(jīng)驗(yàn)?zāi)P投际腔诮?jīng)驗(yàn)數(shù)據(jù)同時(shí)結(jié)合不同的場(chǎng)景,修正公式中的環(huán)境因子獲得特定的擬合公式,其典型代表是Cost 231-Hata模型[1]。這類模型的參數(shù)易得,模型操作難度低,但未考慮城區(qū)中的建筑物阻擋、地貌環(huán)境以及街道分布等因素的影響,因而精確度并不十分理想。
近年來,機(jī)器學(xué)習(xí)驅(qū)動(dòng)的數(shù)據(jù)挖掘技術(shù)獲得了長(zhǎng)足的進(jìn)步,其高實(shí)時(shí)性以及低復(fù)雜度使得其與無線通信的結(jié)合成為了可能。針對(duì)存在的問題,提出基于大數(shù)據(jù)的移動(dòng)信號(hào)傳播模型。數(shù)據(jù)包括基站的工程參數(shù)數(shù)據(jù),地圖數(shù)據(jù)以及真實(shí)測(cè)得的信號(hào)功率值。數(shù)據(jù)覆蓋面廣,因素考慮全面。對(duì)數(shù)據(jù)進(jìn)行充分挖掘,研究影響標(biāo)簽的重要因素,模型采用16層的神經(jīng)網(wǎng)絡(luò)進(jìn)行仿真計(jì)算,深度足夠滿足數(shù)據(jù)內(nèi)在的復(fù)雜映射關(guān)系。實(shí)驗(yàn)結(jié)果表明,建立的模型能有效適應(yīng)各種場(chǎng)景環(huán)境,精確度優(yōu)于傳統(tǒng)經(jīng)驗(yàn)?zāi)P汀?/p>
移動(dòng)基站發(fā)射的信號(hào)是以電磁波的形式在空間中傳播的,發(fā)射機(jī)發(fā)射的無線信號(hào),經(jīng)信道傳輸后到達(dá)接收機(jī)的天線信號(hào)功率表達(dá)式如式(1)所示[2]
(1)
其中,r(t)為接收機(jī)接收到的信號(hào),Pr為接收端的功率(dBm)。接收端的信號(hào)功率值與傳播損耗的關(guān)系如式(2)所示。
PL=Pt-Pr
(2)
式中PL為信號(hào)在傳播過程中產(chǎn)生的損耗(dBm),Pt為基站發(fā)射功率,Pr是接收端的信號(hào)功率值(RSRP)。因而研究信號(hào)的傳播模型的實(shí)質(zhì)是計(jì)算不同場(chǎng)景下的信號(hào)傳播過程中產(chǎn)生的損耗值。
信號(hào)在傳播時(shí)受多種因素的影響,使得電磁波在從發(fā)射機(jī)到達(dá)接收機(jī)的過程中不是沿單一的路徑傳播,而存在多重信號(hào)衰減稱為信號(hào)的傳播損耗:由陰影效應(yīng)引起的損耗,由傳輸距離引起的路徑損耗,由多徑傳播引起的損耗等[3]。每條信號(hào)的傳播過程具有唯一性,原則上說,一個(gè)地區(qū)對(duì)應(yīng)一個(gè)特定的傳播模型。
總數(shù)據(jù)集共包含4000個(gè)小區(qū)的csv文件,每個(gè)文件代表一個(gè)小區(qū)的數(shù)據(jù),每個(gè)小區(qū)有其對(duì)應(yīng)的基站。為了便于處理,將小區(qū)的平面圖劃分為5m*5m的柵格,每個(gè)柵格的數(shù)據(jù)就生成一個(gè)樣本。每個(gè)單個(gè)樣本用17個(gè)屬性和一個(gè)標(biāo)簽值來描述。屬性包括:小區(qū)編號(hào),基站所在位置坐標(biāo),基站所在位置海拔高度,基站天線的有效高度,基站周圍建筑物類型,接收點(diǎn)柵格所在位置坐標(biāo),柵格周圍建筑群高度以及地物類型。樣本的標(biāo)簽值為每個(gè)柵格實(shí)際測(cè)得的平均信號(hào)功率值。
將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,將訓(xùn)練集數(shù)據(jù)進(jìn)行特征構(gòu)建,采用機(jī)器學(xué)習(xí)方法搭建模型,基于訓(xùn)練數(shù)據(jù)計(jì)算得到RSRP的預(yù)測(cè)值,利用梯度下降法迭代參數(shù)更新網(wǎng)絡(luò)參數(shù)和權(quán)重。最后將訓(xùn)練集數(shù)據(jù)輸入,得到模型的精度評(píng)估。因此整個(gè)建模過程是基于大數(shù)據(jù)的回歸預(yù)測(cè)分析。系統(tǒng)的全部流程如圖1所示。
圖1 系統(tǒng)流程圖
數(shù)據(jù)的精細(xì)程度會(huì)直接影響模型的好壞,因此對(duì)4000個(gè)小區(qū)的共1200萬條大數(shù)據(jù)進(jìn)行預(yù)處理。
樣本中多處屬性是由文本文字描述,且不可丟棄,如地物類型屬性中海洋、湖泊、濕地等屬于非結(jié)構(gòu)化數(shù)據(jù),后期難以進(jìn)行數(shù)據(jù)挖取特征的工作[4]。此類地形特征數(shù)共19個(gè),選用5位二進(jìn)制對(duì)其進(jìn)行編碼,如表1所示。
表1 地貌類型數(shù)據(jù)編碼
數(shù)據(jù)清洗包括刪除錯(cuò)誤值,剔除重復(fù)值,填補(bǔ)缺失值。刪除錯(cuò)誤值主要針對(duì)邏輯上有
錯(cuò)誤的數(shù)據(jù),減少不必要的干擾[5]。剔除重復(fù)值可以減少模型的計(jì)算量,降低成本。填補(bǔ)缺失值的方法包括均值填補(bǔ)和中值填補(bǔ),實(shí)驗(yàn)證明,采用中值填補(bǔ)的方式更利于最終模型的性能。
方差過濾,同一列屬性的數(shù)據(jù)中,如果方差為0,則認(rèn)為這組數(shù)據(jù)的波動(dòng)幅度為0,即該屬性對(duì)最終模型沒有意義,可以舍去。
數(shù)據(jù)的無量綱化,構(gòu)建數(shù)據(jù)的特征前,需要對(duì)其進(jìn)行無量綱化處理,主要是解決不同量綱屬性對(duì)后期輸入模型的過程中產(chǎn)生的差異性。實(shí)驗(yàn)證明,在機(jī)器學(xué)習(xí)中,數(shù)據(jù)的無量綱化會(huì)使得神經(jīng)網(wǎng)絡(luò)中的代價(jià)函數(shù)會(huì)以球形輪廓的方式呈現(xiàn),更便于求得最小值,提升模型的運(yùn)算速度[6]。
特征工程主要是將原始樣本的屬性整合或刪除,找到最能代表標(biāo)簽值的一個(gè)或多個(gè)特征,避免將所有17個(gè)屬性都輸入模型進(jìn)行訓(xùn)練的情況。
在自由空間中,即傳播過程無環(huán)境因素影響,產(chǎn)生的損耗如式(3)所示[7]
PL=32.44+20logd+20logf
(3)
可知信號(hào)傳播的損耗PL與發(fā)射頻率f以及傳播距離d的對(duì)應(yīng)log值成線性關(guān)系。
圖2是小區(qū)的三維場(chǎng)景在二維平面的投影,根據(jù)電磁波傳播理論,發(fā)射機(jī)與接收機(jī)的相對(duì)高度在很大程度上決定了信號(hào)的傳播路徑。
圖2 發(fā)射機(jī)與接收機(jī)的幾何圖形
由圖2計(jì)算得Δhv的公式如(4)式所示
tan(θMD+θED+h0)
(4)
其中:hb為發(fā)射機(jī)高度(m),hc為發(fā)射機(jī)站點(diǎn)所在海拔高度(m),h0為接收位置海拔高度(m)。
此外根據(jù)無線通信理論總結(jié)出以下皆為影響信號(hào)衰減因素:發(fā)射機(jī)的有效高度(hb)、接收機(jī)天線的有效高度(hr)、發(fā)射與接收天線所在地的地物類型、發(fā)射機(jī)周圍建筑物的高度(hd)以及柵格所在建筑物的高度(he)。
特征選擇是從原始數(shù)據(jù)中挑選出對(duì)模型搭建有益處的屬性,一方面為了消除冗余,避免最初的17個(gè)屬性全部輸入網(wǎng)絡(luò)的結(jié)果;另一方面挑選出能夠代表標(biāo)簽值的特征,優(yōu)化模型訓(xùn)練過程[8]。
針對(duì)單個(gè)小區(qū)具體分析數(shù)據(jù)特征與RSRP值的關(guān)系,4000個(gè)小區(qū)共1200萬條數(shù)據(jù),采用Person相關(guān)法兩兩計(jì)算相關(guān)性,計(jì)算公式如式(5)所示
(5)
其中x和y是需要求其相關(guān)性的兩個(gè)變量,n為樣本數(shù)。運(yùn)用以上公式將特征進(jìn)行相關(guān)性分析降序排列得出的結(jié)果如表2所示。
表2 特征的相關(guān)性排序
表中數(shù)值大小表明相關(guān)程度的高度,數(shù)值正負(fù)表明正負(fù)相關(guān)。鏈路距離(d)與信號(hào)線相對(duì)高度Δhv.的相關(guān)性接近于1,因此選擇舍去其一,保留鏈路距離d的特征。最終選擇相關(guān)性最大的前7個(gè)特征,包括柵格海拔高度,柵格建筑物高度,柵格所在地物類型,基站載波頻率,發(fā)射機(jī)所在柵格地物類型以及基站的海拔高度作為模型的輸入。
考慮到模型輸入的數(shù)據(jù)量大,且自變量與因變量之間的映射關(guān)系復(fù)雜,選擇了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)建立有監(jiān)督的回歸模型。
DNN也稱多層感知機(jī),比單層感知機(jī)具有更多的參數(shù),更強(qiáng)的刻畫能力,可以用于描述更加復(fù)雜的問題。網(wǎng)絡(luò)總共包括輸入層、隱藏層和輸出層。輸入層為上文總結(jié)出的7個(gè)特征:鏈路距離,接收信號(hào)位置海拔高度,柵格建筑物高度,柵格所在地物類型等,因此神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)為7。隱藏層是每個(gè)特征所占的權(quán)重(w)加上偏置(b),增加隱藏層數(shù)可以優(yōu)化網(wǎng)絡(luò)訓(xùn)練,但也極易出現(xiàn)“過擬合”的情形,綜合網(wǎng)絡(luò)性能考慮,采用了16層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)[9]。隱藏層的節(jié)點(diǎn)數(shù),要在具備處理信息能力的同時(shí)降低計(jì)算量,在此采用經(jīng)驗(yàn)公式來確定數(shù)目。
(6)
其中a表示輸入層的節(jié)點(diǎn)數(shù),n表示當(dāng)前輸入層的節(jié)點(diǎn)數(shù),n表示輸入層的節(jié)點(diǎn)數(shù),c為置于1-10之間的常數(shù)。因?yàn)檩斎牍?jié)點(diǎn)即為上文構(gòu)造的特征數(shù),則式(0)中的a即為特征工程中的維度m,式(6)演變?yōu)槭?7)。
(7)
輸出層節(jié)點(diǎn)數(shù)為1,即為待測(cè)數(shù)據(jù)輸入網(wǎng)絡(luò)求解出的預(yù)測(cè)RSRP值。完整的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
DNN網(wǎng)絡(luò)的每一層都是全連接的,其每層的原理都是線性的,如式(8)所示。為了增加網(wǎng)非線性,使得每次的計(jì)算結(jié)果得以保留加上一個(gè)激活函數(shù)σ(z)如式(9)所示。
z=∑wixi+b
(8)
(9)
在Linux系統(tǒng)下運(yùn)用Python語言,搭建DNN網(wǎng)絡(luò),參數(shù)設(shè)置為:隱含層節(jié)點(diǎn)數(shù)25,學(xué)習(xí)率(learning rate)0.001,迭代次數(shù)10000,訓(xùn)練集參數(shù)(training set)設(shè)置為100,批處理參數(shù)(batch size)設(shè)置200。在完成數(shù)據(jù)清洗和特征工程的步驟以及神經(jīng)網(wǎng)絡(luò)的初步構(gòu)建以后,將樣本數(shù)據(jù)集劃分為8:2訓(xùn)練集與測(cè)試集的比例輸入模型進(jìn)行訓(xùn)練。
訓(xùn)練過程中通過梯度下降算法實(shí)現(xiàn)對(duì)權(quán)重(w)、偏置(b)的調(diào)整,可以加快模型收斂速度,提高算法的準(zhǔn)確度[10]。原理如式(10)所示。
(10)
其中w是當(dāng)前權(quán)重,?為學(xué)習(xí)率,loss成本函數(shù),wnew是通過梯度下降法更新后的權(quán)重。loss函數(shù)不斷收斂到達(dá)一個(gè)閾值時(shí)表明神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成。
在移動(dòng)通信的領(lǐng)域內(nèi),良好的弱覆蓋率(Poor coverage recognition rate,PCRR)是保障網(wǎng)絡(luò)質(zhì)量的前提。在本模型中的弱覆蓋判決門限定義為RSRP值低于-103dBm。當(dāng)前LTE的覆蓋考核指標(biāo)的公式如式(11)所示。
(11)
定義學(xué)習(xí)函數(shù)為預(yù)測(cè)值與實(shí)際值之間的均方誤差根函數(shù)(Root Mean Square Error,MSE),具體計(jì)算公式如式(12)所示。
(12)
其中P(i)為樣本數(shù)據(jù)的實(shí)測(cè)值,(i)為經(jīng)模型計(jì)算所得預(yù)測(cè)值,N為樣本個(gè)數(shù)。將20%數(shù)據(jù)即800個(gè)小區(qū)用于檢測(cè)模型,以小區(qū)為數(shù)據(jù)輸入單位進(jìn)行模型測(cè)試。選取某小區(qū)200個(gè)樣本數(shù)據(jù)進(jìn)行預(yù)測(cè)值與真實(shí)值的對(duì)比如圖4所示。
圖4 200組數(shù)據(jù)的真實(shí)值與預(yù)測(cè)值擬合情況
本文將特征構(gòu)建、皮爾森相關(guān)性分析和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合對(duì)移動(dòng)信號(hào)的傳播損耗進(jìn)行建模仿真,得出以下結(jié)論:
1)將各個(gè)特征進(jìn)行相關(guān)性分析,得到發(fā)射點(diǎn)與接收點(diǎn)的鏈路距離,接收點(diǎn)海拔高度以及建筑物高度三個(gè)因素為影響信號(hào)傳播的主要因素,接收點(diǎn)所在地物類型,發(fā)射機(jī)載波頻率,發(fā)射機(jī)所在柵格地物類型以及基站的海拔高度等為次要因素。
2)由5.2節(jié)可以看出,模型計(jì)算出的RSRP預(yù)測(cè)值表現(xiàn)出與真實(shí)值相似的跟隨性,測(cè)試集輸入的最終均方根得分為9.87,相比于傳統(tǒng)cost-231Hata模型誤差在12左右有了一定的提高;每個(gè)小區(qū)的網(wǎng)絡(luò)覆蓋率都達(dá)到閾值標(biāo)準(zhǔn),小區(qū)平均覆蓋率為98.24%,表明該神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確度較高,預(yù)測(cè)效果相對(duì)較好。
但本文將所有的特征類型籠統(tǒng)地輸入網(wǎng)絡(luò)擬合,沒有針對(duì)性地深入處理,下一步計(jì)劃融合其它算法采用集成學(xué)習(xí)的方式建立更高精度的模型。