李煒 王少軒
摘要:文章提出了一種基于人工智能二次聚類的移動通信無線性能仿真研究。首先,用SOM算法將輸入數(shù)據(jù)進行訓(xùn)練,將訓(xùn)練輸出的每個節(jié)點對應(yīng)的內(nèi)部權(quán)值向量作為輸入模式類的中心向量,同時該中心向量為K-means方法算法中的主中心向量,以進行精確的二次聚合。其次,使用SOM-K算法對移動小區(qū)短期的OAM數(shù)據(jù)進行聚類。與單獨使用K-means方法相比,該方法聚類效果明顯改善。
關(guān)鍵詞:聚類;無線接入網(wǎng);自組織網(wǎng);K均值聚類
中圖分類號:TP391? 文獻標志碼:A
0 引言
隨著人工智能技術(shù)的發(fā)展,人工智能在移動運營商網(wǎng)絡(luò)管理中的應(yīng)用越來越多,特別是在移動通信網(wǎng)絡(luò)無線側(cè),使運營商能夠有效地監(jiān)測移動小區(qū)性能和無線網(wǎng)絡(luò)資源分配管理,從而提高網(wǎng)絡(luò)性能、提高服務(wù)質(zhì)量、降低成本、提升用戶體驗等[1]。聚類作為一種簡單而有效的分析方法,已經(jīng)引起了許多研究者的關(guān)注,同時它也是一種在工業(yè)、農(nóng)業(yè)和經(jīng)濟等領(lǐng)域處理大型數(shù)據(jù)集的標準方法[2]。
聚類是以相似為處理數(shù)據(jù)的依據(jù),把具有相似特征的數(shù)據(jù)劃歸為一個集合。有標記的數(shù)據(jù)更容易聚類作為一種懲罰,并且可以建立一個激勵機制,以促進數(shù)據(jù)的有效聚類[3]。目前常用的聚類方法有K-means、SOM等。SOM和K-means在移動通信領(lǐng)域的數(shù)據(jù)監(jiān)測也被廣泛應(yīng)用,鄭舒方[4]提出了K-means聚類算法在通信運營商精準營銷中的應(yīng)用,針對客戶數(shù)據(jù)應(yīng)用人工智能聚類分析。魏靜等[5]提出了基于SOM的無線通信話務(wù)量最優(yōu)加權(quán)組合預(yù)測,利用SOM神經(jīng)網(wǎng)絡(luò)對話務(wù)量數(shù)據(jù)進行自動聚類,分別確定相應(yīng)最優(yōu)加權(quán)組合預(yù)測的權(quán)重,進而獲得相應(yīng)的預(yù)測值。
1 SOM和K-means
SOM作為一個無監(jiān)督學(xué)習神經(jīng)網(wǎng)絡(luò)模型,可用于數(shù)據(jù)的聚類、降維,是一種容易解釋、簡單、高度可視化的自動數(shù)據(jù)分析方法,廣泛應(yīng)用于模式識別、數(shù)據(jù)挖掘領(lǐng)域中的數(shù)據(jù)聚類和分析[6]。
SOM算法最大的優(yōu)點是可以將數(shù)據(jù)從高維空間映射到低維空間[7]。此外,SOM算法還可以根據(jù)數(shù)據(jù)集之間的相似性自動對數(shù)據(jù)進行分類,并降低噪聲。然而,SOM算法的缺陷是聚類后不能提供準確的聚類信息,SOM聚類具有高復(fù)雜度和慢學(xué)習速度。SOM遵循一個迭代過程,直到網(wǎng)絡(luò)收斂[8]。在給定的第t次迭代中,SOM的基本過程可以描述如下。
(1)Xi隨機選擇輸入數(shù)據(jù)集:X(t)=Xi的一個新樣本,i在1和I之間隨機選擇。
(2)找到X(t)的BMU:在競爭層中搜索一個神經(jīng)元 q∈ 1,…,P。通過尋找樣本之間距離最小的神經(jīng)元,計算訓(xùn)練數(shù)據(jù)的每個輸入樣本的BMU。通過拓撲和鄰域半徑,BMU和所有鄰近神經(jīng)元向輸入樣本移動。鄰域的大小和移動的強度都會隨著時間的推移而減少,以幫助收斂。
minj{‖Wj-X(t)‖}=‖Wq-X(t)‖(1)
其中‖·‖是距離測量。
(3)更新BMU及其鄰居的權(quán)重,以減小輸入樣本X(t)之間的距離。
Wj(t+1)=Wj(t)+ρ(t)hci(t)[X(t)-Wj(t)](2)
式中,Wi(t+1)是更新的權(quán)重向量;ρ(t)為第t次迭代時的學(xué)習速率,通常是迭代次數(shù)的單調(diào)遞減函數(shù),其范圍為0~1;hci(t)是鄰域函數(shù),通常表示為一個高斯函數(shù),以BMU為中心。
hci(t)=exp-‖ri-rq‖22σ2(3)
式中,rq表示獲勝單元的坐標,ri表示映射到競爭層上任意單元的坐標。當t趨近于∞時,hci(t)必須接近于0才能使算法收斂。在機器學(xué)習過程中,學(xué)習速率和鄰域函數(shù)的寬度會降低,通常呈線性方式。
(4)重復(fù)上述3個步驟,直到學(xué)習速率不再改變(即網(wǎng)絡(luò)收斂性)。
與SOM相比,K-means聚類是將數(shù)據(jù)集分成不同類別的迭代過程,基于樣本的相似性,使內(nèi)部集群的樣本差異較小,而不同集群的樣本差異大,適合中小型數(shù)據(jù)聚類。然而,K-means存在固有的缺點:(1)K均值算法要求提前給出K,但K的值通常難以確定;(2)K均值對噪聲和異常值的性能不佳,可在高維數(shù)據(jù)聚類平衡這2種算法的優(yōu)缺點[9]。因此,本文提出了結(jié)合SOM和K-means聚類的兩階段聚類算法。
2 SOM-K的聚類方法
使用SOM模型用于小區(qū)聚類的方法如圖1所示。此次,輸入空間的維數(shù)為n=29,數(shù)據(jù)項的最大數(shù)量為I=85977。
在訓(xùn)練SOM模型之前,輸入數(shù)據(jù)必須進行歸一化。否則,直接使用原始數(shù)據(jù)作為輸入數(shù)據(jù),可能會因為所取數(shù)值的范圍產(chǎn)生巨大的偏差。采用以下公式進行標準化:
Oij=xij-min(xj)max(xj)-min(xj)(4)
其中,xij為數(shù)據(jù)項i中特征j的原始值;min(xj)和max(xj)分別為特征j在整個數(shù)據(jù)項中的最小數(shù)據(jù)值和最大數(shù)據(jù)值;Oij為歸一化的值,歸一化的結(jié)果為[0,1]。
將輸入數(shù)據(jù)歸一化后,需要確定在SOM模型的競爭層中使用的最合適的神經(jīng)元數(shù)量P。此次,通過平均量化誤差(QE)和拓撲誤差(TE)的計算來獲得神經(jīng)元數(shù)量P。QE表示輸入數(shù)據(jù)向量與其BMU之間的平均距離,TE表示BMU和第二個獲勝神經(jīng)元不相鄰的數(shù)據(jù)向量的百分比。一般來說,QE和TE越小,SOM模型的操作結(jié)果和性能越好。隨著拓撲大小的增大,拓撲誤差率小于拓撲的大小率,拓撲誤差自然就降低。當QE表現(xiàn)出相似的TE值時,QE被認為是選擇拓撲大小的主要參數(shù)。QE和TE的計算方法如下:
QE=1R∑Rt=1‖X(t)-Wq(t)‖(5)
TE=1R∑Rt=1d(X(t))(6)
其中,X(t)為第t次迭代的輸入數(shù)據(jù)項;Wq(t)為樣本X(t)的BMU的權(quán)值向量;d(X(t))=1時,如果X(t)的第一個BMU和第二個BMU不相鄰,則R為網(wǎng)絡(luò)收斂前的迭代次數(shù),且d(X(t))=0。
綜上所述,本次首先采用MATLAB訓(xùn)練SOM模型,其中分別選擇從4個(即2×2網(wǎng)格)到100個 (即10×10網(wǎng)格) 不同數(shù)量的神經(jīng)元。對于每個配置,使用S-Map軟件包計算QE和TE的值,在所有訓(xùn)練過的模型中,將選擇QE和TE最低的模型。在TE/QE方面提供最佳性能的SOM模型的大小表示為Popt。
利用K-means算法將SOM得到的Popt權(quán)值向量聚類為較少的向量Q≤Popt,從而提高總體聚類精度。所得到的Q向量被稱為質(zhì)心或聚類中心K的均值計算是通過選擇最小化指數(shù)(DBI)的最優(yōu)聚類數(shù)Q來完成,該指數(shù)表示簇內(nèi)距離和簇間距離之和的比值。SOM-K聚類算法稱為二次聚類,可以保持SOM網(wǎng)絡(luò)的自組織特性和K-means算法的高效率。Q簇的DBI由以下表達式定義。
vDB(Q)=1Q∑Qm=1maxl≠mSc(Qm)+Sc(Ql)dce(Qm,Ql)(7)
其中:
(1)Qm和Ql表示Q簇集合中的第m個和第1個簇。
(2)Sc(Qm)=∑i‖Xi-CQm‖NQm是質(zhì)心團簇內(nèi)距離的計算。Sc(Qm)是從簇的樣本到簇質(zhì)心的所有成對距離的平均值;Xi是分配給Qm聚類的n維特征向量;CQm是簇Qm的質(zhì)心。
(3)dce(Qm,Ql)是2個簇Qm和Ql之間的簇間距。DBI可以通過對Q一些數(shù)據(jù)計算得到,取最小化VDB(Q)的值作為最優(yōu)值,記為Q*。
(4)最后,通過比較各聚類不同特征的分布情況分析不同聚類的特征。
3 實驗與分析
此次試驗根據(jù)在整個測量期間觀察到的整個小區(qū)的短期行為來獲得小區(qū)模型,短期行為是指第一階段不同小區(qū)間的每小時小區(qū)的表現(xiàn),并分析第二階段小區(qū)的時間分布的百分比,獲取小區(qū)在24 h(1天)內(nèi)的行為。通過獲取到的小區(qū)的行為數(shù)據(jù),把小區(qū)在1 h期間的性能數(shù)據(jù)作為輸入樣本進行小區(qū)性能指標分析每個小區(qū)。本次研究通過對63個小區(qū)的數(shù)據(jù)進行預(yù)處理,獲得了21341組數(shù)據(jù)。先計算所有單元的整個測量周期的平均值,選擇29維的輸入數(shù)據(jù)到2134個1行向量(每個特征一個),輸入數(shù)據(jù)表示為21341×29矩陣。
對于特定的聚類,計算QE和TE的值,范圍從2×2神經(jīng)元到10×10神經(jīng)元的配置。當拓撲結(jié)構(gòu)為6×6時,QE和TE達到最小值(QE=0.026和TE=0.047)。
短期行為的簇特征如圖2所示,可以發(fā)現(xiàn)集群4的特性在這5個集群中性能最好,具有最好的UE、CQI和連接模式,即UE在完成RRC連接建立時進行連接模式,集群4的數(shù)據(jù)采樣時間在上午9點和下午3點的高峰時段是數(shù)據(jù)使用時間高峰期。集群1的性能最差,它的采樣從凌晨2點到6點。集群2和3,其中集群2具有較低的RRC設(shè)置失敗率和較高的連接模式,這2個集群的其他特征是相似的。這是因為,在相同數(shù)量的UEs的情況下,集群3的CQI的值會小于集群2。這意味著與集群2相比,集群3的頻道質(zhì)量更差。集群3的采樣時間是從早上6點到早上8點和上午10點到下午2點,這是數(shù)據(jù)使用的亞高峰期。最后,在這5個集群中,集群5的性能相對較差,僅優(yōu)于集群1,造成這種現(xiàn)象的原因是,在UE的數(shù)量與集群3相似的前提下,這一時期的CQI和連接模式都弱于集群3。這個集群的采樣時間幾乎是從晚上7點到凌晨1點,這是下班的時間。
短期內(nèi)不同負荷程度的分布如表1所示,最上面一行為負荷,左列為來自整個63個LTE單元的3種類型的單元。首先,查看單元Ⅲ的低負荷度,時間分布范圍為21.4%~27.7%,這是這3種類型的單元中的最高范圍。小區(qū)Ⅰ的最低百分比范圍為10.2%~14.5%,另一方面,高負荷度小區(qū)Ⅰ的最高時間百分比范圍為3.7%~5.1%,小區(qū)Ⅲ的最低時間百分比范圍為0~0.55%。這說明小區(qū)Ⅰ是最好的組,小區(qū)Ⅲ是最差的組。無論在高負荷或低負載下,小區(qū)Ⅱ的性能都是中等的。
其次,分析關(guān)注高負荷單元可以發(fā)現(xiàn)百分比范圍最高的小區(qū)是小區(qū)Ⅰ,和他們的時間分布部分重疊的是小區(qū)Ⅱ,例如,小區(qū)Ⅰ和小區(qū)Ⅱ的時間百分比范圍分別為14.3%~15.8%和11.7%~14.5%。同樣的情況也發(fā)生在次低負荷簇中的Ⅱ、Ⅲ和次低負荷簇的單元中。同時,次負荷小區(qū)Ⅲ中低負荷的最高時間百分比范圍為30.7%~37.1%,小區(qū)Ⅰ的最低比例范圍為20%~26.8%。最后,中等負荷是最重疊的分布和各自的范圍沒有太大不同,除了小區(qū)Ⅲ。例如,小區(qū)Ⅰ的30.8%~39.1%和小區(qū)Ⅱ的30.5%~32.5%在這個周期有很大的重疊時間分布。不同加載程度的3個時間百分比范圍重疊的3組單元,可以解釋為該時期不同單元的用戶流量消耗是相同的。
經(jīng)上述驗證,此次所用的SOM-K 算法可以很好地表征LTE小區(qū)性能,為了體現(xiàn)此次研究的意義,特地使用K-means聚類效果進行比較,如表2所示,顯示了K-means和SOM-K之間的質(zhì)心內(nèi)和質(zhì)心間距離??梢园l(fā)現(xiàn),在集群2和5中,距離K-均值的質(zhì)心內(nèi)距離的值大于SOM-K。但距離集群1和3的距離比SOM-K稍小,即與SOM-K相比,簇內(nèi)距離K-means的距離分布更不平衡,差距更大。同時,距離K-means的質(zhì)心間距離低于SOM-K,因此,由于簇內(nèi)距離越短,簇間距離越大,簇性能越好。高維數(shù)據(jù)集的K-means集群性能比SOM-K要差。
4 結(jié)語
基于LTE網(wǎng)絡(luò)中使用的SOM-K的分析尚未得到推廣。研究表明,SOM-K可以用于LTE小區(qū)的聚類性能分析,并獲得更好的聚類結(jié)果。同時,該方法對高維數(shù)據(jù)的聚類效果明顯優(yōu)于傳統(tǒng)的K-means算法。本次在研究小區(qū)短期行為時,對不同負載小區(qū)的能源消耗也作了簡單的統(tǒng)計研究,電信運營商的電力消耗也是巨大的,尤其是在使用智能化網(wǎng)絡(luò)優(yōu)化后將會更加明顯??偠灾贚TE網(wǎng)絡(luò)優(yōu)化中,使用數(shù)據(jù)分析和挖掘也意味著可以使用SOM-K方法來調(diào)整網(wǎng)絡(luò)性能,算法成功地利用了大數(shù)據(jù)對具有幾乎實時特征模式的單元進行聚類。
在人工智能、物聯(lián)網(wǎng)時代,網(wǎng)絡(luò)性能的好壞將直接影響用戶體驗和運營商的收益,能耗高成為5G/B5G網(wǎng)絡(luò)推廣難落地的痛點之一。未來5G時代基于網(wǎng)絡(luò)移動模式管理的智能網(wǎng)絡(luò)節(jié)能降耗將是一個新的研究方向,可減少運營支出和提高蜂窩網(wǎng)絡(luò)運營商的質(zhì)量。
參考文獻
[1]王海虹,梁磊清.大數(shù)據(jù)分析在網(wǎng)絡(luò)運維中的研究和應(yīng)用[J].電信快報,2023(9):8-10.
[2]鄧揚鑫,趙夙,朱曉榮.基于大數(shù)據(jù)挖掘的LTE網(wǎng)絡(luò)弱覆蓋分析及覆蓋優(yōu)化研究[J].南京郵電大學(xué)學(xué)報,2021(2):25-33.
[3]汪海濤,余松森.分布式SOM結(jié)合K-均值聚類的軟件定義網(wǎng)絡(luò)泛洪攻擊檢測方法[J].計算機應(yīng)用研究,2019(11):3423-3427.
[4]鄭舒方.K-means聚類算法在通信運營商精準營銷中的應(yīng)用研究[D].吉林:吉林大學(xué),2019.
[5]魏靜,李恒超,范平志.基于SOM的無線通信話務(wù)量最優(yōu)加權(quán)組合預(yù)測[J].計算機工程與應(yīng)用,2011(14):73-75.
[6]劉韻潔,張嬌,黃韜,等.面向服務(wù)定制的未來網(wǎng)絡(luò)架構(gòu)[J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2018(1):1-8.
[7]ANDRADES A G,MUOZ P,SERRANO I,et al.Automatic root cause analysis for LTE networks based on unsupervised techniques[J].IEEE Transactions on Vehicular Technology,2016(4):2369-2386.
[8]顧亦然,陳禹洲.基于SOM-K-means算法的商品評論研究[J]軟件導(dǎo)刊,2021(10):68-72.
[9]周歡,李廣明,張高煜.SOM+K-means兩階段聚類算法及其應(yīng)用[J].現(xiàn)代電子技術(shù),2010(16):113-116.
(編輯 沈 強)
Research on LTE wireless performance based AI
LI? Wei1, WANG? Shaoxuan2
(1.School of Artificial Intelligence, Shaanxi Institute of Technology, Xian 710300, China;
2.Polytechnic University of Catalonia,Barcelona 08034, Spain)
Abstract:? This paper presents a simulation study of wireless performance of mobile communication based on artificial intelligence secondary clustering. First, SOM algorithm is used to train the input data, and the internal weight vector corresponding to each node of the training output is taken as the center vector of the input pattern class, and the center vector is the main center vector in the K-means algorithm to carry out accurate secondary aggregation. Finally, this method is used to cluster the long-term OAM data of mobile cell, and the clustering effect is significantly improved compared with K-means method alone.
Key words: clustering; wireless access network RAN; SOM; K-means