張 喆
(中國移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司,北京 100080)
隨著中國移動(dòng)近年來LTE網(wǎng)絡(luò)的大規(guī)模建設(shè)及不斷完善,中國移動(dòng)全網(wǎng)LTE基站總數(shù)已達(dá)100多萬,4G網(wǎng)絡(luò)的覆蓋優(yōu)勢(shì)已經(jīng)初步建立。然而,龐大的網(wǎng)絡(luò)規(guī)模使得網(wǎng)絡(luò)優(yōu)化的難度進(jìn)一步增加,LTE網(wǎng)絡(luò)設(shè)備中各設(shè)備廠家通用配置參數(shù)及私有參數(shù)總和已超過8 000個(gè),僅依靠人工很難進(jìn)行精細(xì)化配置[1]。此外,以往的人工覆蓋場景劃分(諸如醫(yī)院、機(jī)場、寫字樓等)[2]過于寬泛,未對(duì)小區(qū)特征進(jìn)行量化,不能反映各小區(qū)間的本質(zhì)差異,無法實(shí)現(xiàn)參數(shù)的自動(dòng)化差異配置,對(duì)LTE網(wǎng)絡(luò)優(yōu)化工作的開展造成極大的阻礙。
聚類問題是機(jī)器學(xué)習(xí)研究中的熱點(diǎn)。先前已有不少關(guān)于基站聚類方面的研究探索,但其應(yīng)用領(lǐng)域主要局限在基站選址與節(jié)能方面[3-6]。針對(duì)上述問題,本文研究了一套基于K-means的LTE宏站小區(qū)場景聚類策略,并在某市試點(diǎn)實(shí)驗(yàn)中通過選取可量化小區(qū)特征,將該市現(xiàn)網(wǎng)全量宏站小區(qū)聚類為若干典型場景,可進(jìn)一步對(duì)各個(gè)場景進(jìn)行網(wǎng)絡(luò)質(zhì)量評(píng)價(jià)以及各場景內(nèi)部參數(shù)最優(yōu)配置,從而實(shí)現(xiàn)對(duì)不同聚類場景的小區(qū)自動(dòng)化推薦LTE網(wǎng)絡(luò)參數(shù)配置方案,極大提高網(wǎng)絡(luò)優(yōu)化中參數(shù)優(yōu)化配置工作的效率。
對(duì)某個(gè)特定對(duì)象來說,如何找到最佳的數(shù)據(jù)表示,這個(gè)問題被稱為特征工程(Feature Engineering)。要實(shí)現(xiàn)LTE小區(qū)聚類,首先需要選擇可量化的特征對(duì)小區(qū)進(jìn)行精細(xì)化建模。對(duì)于如何選取合適的特征并無嚴(yán)格的規(guī)則可循,本文通過對(duì)TD-LTE網(wǎng)絡(luò)優(yōu)化指導(dǎo)書中網(wǎng)絡(luò)優(yōu)化指標(biāo)進(jìn)行仔細(xì)研究,同時(shí)借鑒參數(shù)優(yōu)化實(shí)際工作經(jīng)驗(yàn),決定從小區(qū)工參(本鄰區(qū)),網(wǎng)絡(luò)性能,覆蓋三個(gè)維度中選取若干典型可量化特征用于小區(qū)聚類建模,具體見表1。
表1 小區(qū)特征選擇
進(jìn)行小區(qū)聚類建模所用到的數(shù)據(jù),包括工參結(jié)構(gòu)數(shù)據(jù),鄰區(qū)配置數(shù)據(jù),MR測(cè)量數(shù)據(jù),小區(qū)TA數(shù)據(jù),以及性能指標(biāo)數(shù)據(jù)。從數(shù)據(jù)源提取的原始數(shù)據(jù)由于各種原因存在數(shù)據(jù)缺失,數(shù)據(jù)異常以及數(shù)據(jù)重復(fù)等一系列問題,因此首先需進(jìn)行數(shù)據(jù)清洗,否則將會(huì)對(duì)聚類算法的效果產(chǎn)生不可避免的影響。通過對(duì)原始數(shù)據(jù)進(jìn)行初步分析后,本文采用的數(shù)據(jù)清洗方法包括缺失值處理,剔除異常值,以及去重處理等,從而去除掉“臟數(shù)據(jù)”,確保算法結(jié)果的可靠性。
定義:服務(wù)小區(qū)基站和所有相鄰基站距離的平均值。
算法:根據(jù)小區(qū)經(jīng)緯度通過兩種算法(泰森多邊形算法和方向角算法)計(jì)算站間距,最終結(jié)果使用覆蓋距離小的結(jié)果。
(1)泰森多邊形算法
①根據(jù)全網(wǎng)所有小區(qū)生成泰森多邊形(非所選小區(qū));圖1為某市現(xiàn)網(wǎng)全量LTE宏站小區(qū)生成的delaunay三角網(wǎng)。
圖1 某市現(xiàn)網(wǎng)全量LTE宏站小區(qū)delaunay三角網(wǎng)
②根據(jù)每個(gè)小區(qū)泰森多邊形,找到它的所有泰森多邊形(本網(wǎng)絡(luò)內(nèi))相鄰基站;注意:不計(jì)算自身基站。相鄰概念為:泰森多邊形共邊;
③計(jì)算所有相鄰基站到本小區(qū)的距離,平均值為本小區(qū)站間距(單位使用“米”,使用地球橢球體模型計(jì)算距離);
特殊情況處理:室內(nèi)站不參與計(jì)算;小區(qū)無相鄰基站,定義為“孤小區(qū)”,站間距結(jié)果為空;
(2)方向角算法
根據(jù)小區(qū)A方位角與搜索角寬度確認(rèn)方向,以小區(qū)經(jīng)緯度為圓心,以a為搜索半徑,在搜索方向上畫弧,如果所得扇區(qū)內(nèi)存在基站X(1個(gè)或N個(gè))則將該基站X到A的平均距離計(jì)做站間距,如果N>3 那么值取最近的3個(gè)納入計(jì)算,如果N<1 那么將搜索半徑由a升級(jí)到b,依次計(jì)算,如果在半徑c所畫的弧的扇區(qū)內(nèi)仍未發(fā)現(xiàn)基站,則站間距計(jì)為空。
特殊情況處理:室內(nèi)站不參與計(jì)算;扇形內(nèi)無基站,定義為“孤小區(qū)”,站間距結(jié)果為空。
備注:全向站:搜索角寬度使用360度。
表2 站間距-方向角算法
從設(shè)備廠商網(wǎng)管平臺(tái)提取的小區(qū)TA數(shù)據(jù)用于判斷小區(qū)是否出現(xiàn)過覆蓋現(xiàn)象,過覆蓋判斷步驟如下[7-8]:
(1)通過PRS獲取小區(qū)TA值分布情況,累積由TA0~TA7的每一分段的用戶數(shù)占比,將每TA分段百分比向后求和,該分段求和值大于90%時(shí),取該分段的最遠(yuǎn)距離為T1;
(2)根據(jù)2.2節(jié)中的方法計(jì)算平均站間距T2(只計(jì)算現(xiàn)網(wǎng)宏站站點(diǎn)之間的平均站間距);
(3)比較T2與T1,如果T1大于1.5倍T2,則判斷該小區(qū)過覆蓋。
如下舉例(小區(qū)名以XXX代替):XXXFHLH-1在TA分段為區(qū)間(1092-2028)時(shí),用戶數(shù)占比累積大于90%,則此時(shí)T1取該分段的距離最大值2 028 m,弱覆蓋小區(qū)距離最近宏站的平均站間距T2為880 m,由于T1>1.5*T2,故該小區(qū)存在過覆蓋現(xiàn)象。詳見表3。
表3 XXX小區(qū)過覆蓋判斷示例
常用的無監(jiān)督機(jī)器學(xué)習(xí)聚類算法有K-means聚類算法,凝聚聚類算法以及DBSCAN算法,這三種算法均可用于大型的現(xiàn)實(shí)世界數(shù)據(jù)集并實(shí)現(xiàn)聚類成多個(gè)簇。通過對(duì)各種算法的優(yōu)缺點(diǎn)以及適用場景進(jìn)行仔細(xì)研究分析[9],并結(jié)合本次應(yīng)用場景的實(shí)際情況,本文選擇最著名的K-means聚類算法實(shí)現(xiàn)LTE宏站小區(qū)聚類。
K-means聚類算法試圖找到代表數(shù)據(jù)特定區(qū)域的簇中心(cluster center),其可以發(fā)現(xiàn)k個(gè)不同的簇,并將每個(gè)簇的中心采用簇中所含值的均值計(jì)算而成,具體步驟如下:
(1)隨機(jī)確定k個(gè)初始點(diǎn)的質(zhì)心。
(2)將數(shù)據(jù)集中的每一個(gè)點(diǎn)分配到一個(gè)簇中,即為每一個(gè)點(diǎn)找到距其最近的質(zhì)心,并將其分配給該質(zhì)心所對(duì)應(yīng)的簇。
(3)每一個(gè)簇的質(zhì)心更新為該簇所有點(diǎn)的平均值。
算法將交替執(zhí)行(2)、(3)兩個(gè)步驟,直到簇的分配不再發(fā)生變化時(shí)算法結(jié)束。
完成數(shù)據(jù)預(yù)處理環(huán)節(jié)后,每個(gè)LTE宏站小區(qū)將會(huì)被抽象為一個(gè)P維特征的向量,從而將該市所有現(xiàn)網(wǎng)宏站小區(qū)表示為N*P的特征空間矩陣(N為小區(qū)數(shù)),實(shí)現(xiàn)對(duì)LTE小區(qū)的量化特征表示。同時(shí)為消除各特征之間的量綱影響,需分別對(duì)每個(gè)特征進(jìn)行歸一化處理,提高聚類算法的精度。
對(duì)特征空間矩陣歸一化處理后,利用K-means聚類算法將該市現(xiàn)網(wǎng)約4.3萬個(gè)LTE宏站小區(qū)劃分為30個(gè)聚類場景,各場景的具體聚類情況如表4所示(表中展示了每個(gè)場景內(nèi)各特征的平均值,以及該場景包含的小區(qū)數(shù))。
表4 LTE宏站小區(qū)聚類結(jié)果
通過分析比較表4各聚類場景內(nèi)每個(gè)特征的平均值,列舉其中典型場景并提供相應(yīng)的優(yōu)化建議[10],具體如下:
場景8:本鄰區(qū)下傾角較大,站高較高,RRC連接建立請(qǐng)求次數(shù)及總切換請(qǐng)求量均較高,鄰區(qū)數(shù)較少,無過覆蓋現(xiàn)象。該場景屬于市區(qū)樓宇及人流密集區(qū)域(商業(yè)中心,CBD等),業(yè)務(wù)量較高,建議適當(dāng)降低異頻切換A2門限,并檢查是否存在鄰區(qū)漏配現(xiàn)象。
場景17:本鄰區(qū)下傾角較小,站高較低,RRC連接建立請(qǐng)求次數(shù)及總切換請(qǐng)求量均較低,平均站間距較小,存在過覆蓋現(xiàn)象。該場景屬于市區(qū)樓宇及人流密度較為稀疏的區(qū)域,業(yè)務(wù)量較低,建議適當(dāng)降低小區(qū)RS功率,增大本鄰區(qū)下傾角,并提高異頻切換A2門限。
場景29:平均站間距較大,鄰區(qū)數(shù)較少,覆蓋率指標(biāo)較差,無過覆蓋現(xiàn)象。該場景的覆蓋區(qū)域?yàn)榻紖^(qū),建議適當(dāng)提高小區(qū)RS功率,減小本鄰區(qū)下傾角,對(duì)基站稀疏的覆蓋薄弱區(qū)域增加規(guī)劃站建設(shè),提高覆蓋率指標(biāo)。
流形學(xué)習(xí)算法(Manifold Learning Algorithm)自2000年在著名的科學(xué)雜志《Science》被首次提出以來,已成為信息科學(xué)領(lǐng)域的研究熱點(diǎn)。流形學(xué)習(xí)主要用于高維數(shù)據(jù)降維及可視化,就是從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),即找到高維空間中的低維流形,并求出相應(yīng)的嵌入映射,以實(shí)現(xiàn)維數(shù)約簡或者數(shù)據(jù)可視化。它是從觀測(cè)到的現(xiàn)象中去尋找事物的本質(zhì),找到產(chǎn)生數(shù)據(jù)的內(nèi)在規(guī)律。
t-SNE是流形學(xué)習(xí)中一種非線性數(shù)據(jù)降維與可視化算法,幾乎可用于所有高維數(shù)據(jù)集,廣泛應(yīng)用于圖像處理,自然語言處理,基因組數(shù)據(jù)和語音處理。其主要思想是找到數(shù)據(jù)的二維表示,嘗試讓在原始特征空間中距離較近的點(diǎn)更加靠近,相距較遠(yuǎn)的點(diǎn)更加遠(yuǎn)離[11]。算法具體步驟如下:
(1)隨機(jī)鄰接嵌入(SNE)通過將數(shù)據(jù)點(diǎn)之間的高維歐幾里得距離轉(zhuǎn)換為表示相似性的條件概率而開始,數(shù)據(jù)點(diǎn)xi、xj之間的條件概率pj|i由下式給出:
其中,σi是以數(shù)據(jù)點(diǎn)xi為中心的高斯方差。
(2)對(duì)于高維數(shù)據(jù)點(diǎn)xi和xj的低維對(duì)應(yīng)點(diǎn)yi和yj而言,可以計(jì)算類似的條件概率q j|i:
SNE試圖最小化條件概率的差異。
(3)為了測(cè)量條件概率差的和最小值,SNE使用梯度下降法最小化KL距離。而SNE的代價(jià)函數(shù)關(guān)注于映射中數(shù)據(jù)的局部結(jié)構(gòu),優(yōu)化該函數(shù)是非常困難的,而t-SNE采用重尾分布,以減輕擁擠問題和SNE的優(yōu)化問題。
(4)定義困惑度:
其中,H(Pi)是香農(nóng)熵:
另外需注意,雖然t-SNE對(duì)于數(shù)據(jù)降維及可視化能夠取得良好效果,但由于算法計(jì)算對(duì)應(yīng)的是條件概率,并試圖最小化較高和較低維度的概率差之和,這涉及大量的計(jì)算,運(yùn)行算法時(shí)間較長,占用內(nèi)存較大,對(duì)系統(tǒng)資源要求高。
利用t-SNE變換將N*P的特征空間矩陣映射至2維空間后,對(duì)3.2節(jié)的聚類結(jié)果進(jìn)行可視化展示,效果見圖2(圖中每個(gè)數(shù)字文本代表該小區(qū)所屬聚類場景編號(hào))。
從圖2中可以看出,通過t-SNE聚類可視化顯示K-means聚類算法效果良好,所有類別都被明確的分開,雖然部分類別(諸如聚類6、聚類11、聚類19、聚類28)存在被分隔開的現(xiàn)象,但大多數(shù)類別都能形成一個(gè)密集的簇。同時(shí)也表明本文的聚類算法對(duì)LTE宏站小區(qū)聚類取得了較為理想的結(jié)果。
本文提出的基于K-means的LTE宏站小區(qū)場景聚類策略,可對(duì)小區(qū)進(jìn)行量化特征建模并聚類為若干典型場景,從而對(duì)不同聚類場景的小區(qū)可實(shí)現(xiàn)自動(dòng)化推薦LTE網(wǎng)絡(luò)參數(shù)配置方案,極大提高網(wǎng)絡(luò)優(yōu)化中參數(shù)優(yōu)化配置工作的效率。后續(xù)研究工作可根據(jù)算法的實(shí)際效果對(duì)算法進(jìn)行優(yōu)化改進(jìn),包括小區(qū)覆蓋范圍的無線環(huán)境建模,進(jìn)一步深入分析能夠表征小區(qū)間本質(zhì)差異的可量化特征,以及提高聚類算法和t-SNE算法的運(yùn)行效率等。