蔣修華
摘要:VOLTE網(wǎng)絡(luò)問題通過單一的無線測試和分析往往不能完整地得到定位,需要各個環(huán)節(jié)端到端配合進行端到端的分析才能解決。文章對VOLTE端對端優(yōu)化進行了分析。
關(guān)鍵詞:終端支持;運維;設(shè)備成熟度
1VOLTE概述
由于VOLTE涉及網(wǎng)元更多,網(wǎng)絡(luò)結(jié)構(gòu)與信令流程更復(fù)雜VOLTE的網(wǎng)絡(luò)問題與傳統(tǒng)網(wǎng)絡(luò)問題分析方式有較大區(qū)別,需要各個環(huán)節(jié)端到端配合進行端到端的分析才能解決。
2VOLTE存在的問題
現(xiàn)網(wǎng)VOLTE目前主要存在終端支持能力差、運維支撐能力弱、設(shè)備成熟度低三大類問題。
終端支撐能力差主要表現(xiàn):終端穩(wěn)定性差,與網(wǎng)絡(luò)兼容性問題多,部分功能缺失。終端穩(wěn)定性差導(dǎo)致VOLTE接通率、掉話率、切換成功率低、ESRVCC切換成功率低。用戶感知度較低。終端與網(wǎng)絡(luò)兼容性問題多導(dǎo)致ESRVCC切換成功率低導(dǎo)致用戶在LTE網(wǎng)絡(luò)覆蓋不好的時候不能及時發(fā)生ESRVCC切換導(dǎo)致掉話,用戶感知度低。終端的部分功能缺失導(dǎo)致用戶不能享受視頻通話和高清語音通話。用戶感覺現(xiàn)實體驗與廣告差距較大,導(dǎo)致用戶對LTE網(wǎng)絡(luò)不認可。由于用戶對通信知識了解不是很多,用戶很少會懷疑自己手機問題,基本上都會撥打投訴電話,導(dǎo)致用戶投訴比較高。
運維支撐能力弱主要表現(xiàn):設(shè)備可維護性差、設(shè)備存在部分安全隱患、廠家技術(shù)支撐薄弱。由于LTE網(wǎng)絡(luò)技術(shù)成熟度還有待提高,并且LTE網(wǎng)絡(luò)扁平化,造成設(shè)備問題不能明確定位問題點,設(shè)備可維護性差。目前技術(shù)成熟度在不斷完善中,存在部分設(shè)備中的安全隱患也在減少,廠家技術(shù)支撐在不斷提高中。LTE網(wǎng)絡(luò)人員素質(zhì)也在不斷提高中。
設(shè)備成熟度低主要表現(xiàn):設(shè)備穩(wěn)定性差、技術(shù)方案不符合規(guī)范要求、廠家IOT配合問題多。由于LTE網(wǎng)絡(luò)技術(shù)在不斷完善中,設(shè)備穩(wěn)定性在不斷提高,技術(shù)方案要求也越來越規(guī)范,廠家IOT配合問題在減少。設(shè)備成熟低的問題會隨著技術(shù)成熟度提聞而不斷提筒。
VOLTE信令是處理VOLTE事件的重中之重,每條的信令采集都涉及端到端的配合。目前控制面鏈接主要在RRC鏈接、NAS鏈接、SIP鏈接,如圖1所示。
RRC鏈接的主要用途是管理空口的DRB測量控制和L2參數(shù)下發(fā),通過UU口鏈接由UE開始到ENB終止。NAS鏈接主要用于管E-RAB,QOS控制尋呼被叫等,由UE開始到MME終止如表1所示。
SIP鏈接主要用于管理IMS附著與更新管理SIP會話等,由UE開始到SBC終止,中間要經(jīng)過SGW和PGW兩個中間網(wǎng)元。
3無線測試問題分析流程
無線測試問題分析流程如圖1所示。
為了方便分析,將VOLTE路測問題分為Ll,L2,L3及SIP問題幾大類。L1問題包括RSRP的覆蓋、RSRQ的質(zhì)差、SINR等問題。12問題包括PDCP亂序,高BLER、高PADDING和RRC/DRB鏈接建立異常等問題。13問題包括E-RAB接入和建立異常。此時無線側(cè)需要核查QOS參數(shù)配置是否合理,和MME配合處理。SIP問題包括反饋4XX,5XX,6XX響應(yīng)碼,出現(xiàn)這樣反饋大多數(shù)都需要SBC側(cè)配合排查。
L1問題在現(xiàn)網(wǎng)測試中占用比重是最大的,LTE網(wǎng)絡(luò)還在發(fā)展中,還有許多問題并不能滿足VOLTE的正常使用,這就需要我們進行天線優(yōu)化以及后臺參數(shù)優(yōu)化來提高用戶感知度。LTE網(wǎng)絡(luò)相比較其他網(wǎng)絡(luò)對基礎(chǔ)優(yōu)化要求更嚴(yán)格更苛刻。RSRP覆蓋問題主要表現(xiàn)為弱覆蓋和重疊覆蓋,弱覆蓋要根據(jù)現(xiàn)場實際情況和后臺基站數(shù)據(jù)以及MR等多種分析手段來決定天線優(yōu)化和功率優(yōu)化,或者進行補點優(yōu)化。重疊覆蓋要根據(jù)現(xiàn)場實際情況和后臺基站數(shù)據(jù)以及MR等多種分析手段找出合理的主服務(wù)小區(qū)。RSRQ的質(zhì)差問題主要表現(xiàn)為RSRP&SINR較好RSRQ值較差。根據(jù)多平臺指標(biāo)和現(xiàn)場實際情況來提出優(yōu)化方案和解決措施。SINR問題主要是來自下行的干擾,多數(shù)PCI同模導(dǎo)致。
L2問題一般都是參數(shù)和容量問題,當(dāng)出現(xiàn)PDCP亂序、高BLER等,就需要核查PDCP/RLC/MAC層參數(shù)配置,根據(jù)分析情況進行參數(shù)優(yōu)化調(diào)整。
L3問題一般都出現(xiàn)在QOS參數(shù)配置錯誤和MME問題。當(dāng)出現(xiàn)NAS錯誤消息時,就需要核查QOS參數(shù)配置,如果QOS參數(shù)沒問題,需要MME側(cè)核查問題,并處理問題。
SIP問題多需要SBC與無線側(cè)聯(lián)合配合問題分析解決,
如圖3所示。
5.1未接通問題處理流程
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態(tài)查詢,排查是否是由于基站故障與基站底噪引發(fā),查詢終端上行發(fā)射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數(shù)核查,其中參數(shù)核查重點排查鄰區(qū)漏配,切換參數(shù),PDCP層QCI5丟失時延和邏輯信道優(yōu)先級配置。(2)專載管理排查。首先排查是否由于切換流程與建立QCI1專載流程沖突,其次排查異常QCI1專載去激活,再次排查未建立QCI1專載的原因,最后排查INVITE503原因。(3)尋呼流程排查。首先需要IMS側(cè)核查INVITE重發(fā)機制,其次排查CSRETRY定時器是否合理,
再次排查MME尋呼策略重點關(guān)注MME側(cè)是否存在二次尋呼等問題。再次排查PGW信令緩存功能配置是否合理,再次排查DRA信令緩存功能,最后排查ENB尋呼策略重點關(guān)注是否是由于尋呼擁塞導(dǎo)致。(4)SIP流程排查。首先進行SIP消息時序標(biāo)桿對比根據(jù)“三步五分鐘方法”來判斷問題出現(xiàn)在哪里。其次排查是否存在IMS注冊超時引起的未接通,再次排查BYE200延遲,最后排查是否為SIP信令丟失導(dǎo)致的。
5.2掉話問題處理流程
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態(tài)查詢,排查是否是由于基站故障與基站底噪引發(fā),查詢終端上行發(fā)射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數(shù)核查,其中參數(shù)核查重點排查鄰區(qū)漏配,切換參數(shù),PDCP層QCI5丟失時延和邏輯信道優(yōu)先級配置。(2)專載管理排查。首先排查是否由于切換流程與建立QCI1專載流程沖突,其次排查異常QCI1專載去激活,再次排查掛機延遲導(dǎo)致去激活的QI1專載的原因。(3)EPC流程排查。首先查看通話過程中異常釋放的原因值,其次查看是否存在TAU更新異常,再次排查傳輸丟包,最后排查QOS參數(shù)配置。(4)SIP流暢排查。首先進行SIP消息時序標(biāo)桿對比根據(jù)“三步五分鐘方法”來判斷問題出現(xiàn)在哪里。其次排查是否存在IMS注冊超時引起的未接通,再次排查BYE200延遲,最后排查是否為SIP信令丟失導(dǎo)致的。endprint
5.3語音質(zhì)差排查流程
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態(tài)查詢,排查是否是由于基站故障與基站底噪引發(fā),查詢終端上行發(fā)射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數(shù)核查,其中參數(shù)核查重點排查鄰區(qū)漏配,切換參數(shù),PDCP層QCI5丟失時延和邏輯信道優(yōu)先級配置。(2)專載管理排查。首先編碼方式排查,其次排查QOS參數(shù)配置,再次排查IMS編碼轉(zhuǎn)換,最后排查被叫CSFB占比過高引起的質(zhì)差。(3)語音質(zhì)量。首先排查丟包率,其次排查端到端時延。
5.4eSRVCC切換失敗問題
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態(tài)查詢,排查是否由于基站故障與基站底噪引發(fā)的,查詢終端上行發(fā)射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數(shù)核查,其中參數(shù)核查重點排查鄰區(qū)漏配,切換門限,eSRVCC功能開啟。(2)核心網(wǎng)問題。首先是跨廠家配合問題,其次是跨POOL切換問題,再次EMSC參數(shù)配置是否正確,再次是HSS參數(shù)配置是否正確,最后IMS參數(shù)配置核查。(3)SRVCC功能是否開啟。(4)時延控制。控制面時延小于100ms,控制面時延小于350ms。
5.5呼叫建立時延
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態(tài)查詢,排查是否是由于基站故障與基站底噪引發(fā)的,查詢終端上行發(fā)射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數(shù)核查,其中參數(shù)核查重點排查鄰區(qū)漏配,切換參數(shù),調(diào)度參數(shù),QCI1/5的參數(shù)配置。(2)專載管理排查。首先排查是否由于切換流程與建立QCI1專載流程沖突,其次排查異常QCI1專載去激活,核查被叫是否發(fā)生回落。(3)尋呼流程排查。核查ENB尋呼策略關(guān)注是否尋呼擁塞,核查DRA信令緩存功能,核查PGW信令緩存功能,查詢MME是否存在二次尋呼,排查IMSINVITE重發(fā)機制,核查IMSCSRETRY定時器是否滿足要求。(4)SIP流程。SIP消息時序標(biāo)桿對比根據(jù)“三步五分鐘方法”來判斷問題。其次排查是否存在IMS注冊超時引起的掉話,最后排查是否為SIP信令丟失導(dǎo)致的。
6VOLTE問題分析經(jīng)驗總結(jié)6.1方法總體簡介
在日常的優(yōu)化工作中,路測分析是發(fā)現(xiàn)并解決問題的重要手段。在VOLTE測試的過程中,掉話、未接通是最常見的事件類型,對客戶感知影響較大,是優(yōu)化工作的重點。通過大量的事件分析和經(jīng)驗總結(jié),歸納出一種行之有效、快速、精準(zhǔn)、高效定位VOLTE業(yè)務(wù)中異常事件原因的方法,即“三步五分鐘”分析定位法(見圖4)。
看流程:是以上行鏈路問題標(biāo)準(zhǔn)信令流程和下行鏈路問題標(biāo)準(zhǔn)信令流程為基礎(chǔ)。
測試分析兩大維度:空口信令分析和無線情況分析
空口信令分析:空口為手機到ENodeB的接口,該接口的信令流程是判定路測異常事件的主要依據(jù),也是進行異常事件分析的最有效的手段。
無線情況分析:DT測試數(shù)據(jù)清晰反應(yīng)該路段的RSRP,RSRQ,SINR等基本信息,是判斷UE接入環(huán)境最直觀的因素。
辯特征:從兩個維度分析判定特征空口信令的典型特征和事件地點的無線特征。
定方案:精準(zhǔn)定位形成掉話的4大原因,總結(jié)優(yōu)化方案。6.2上行鏈路問題掉話原因判定
看流程:(1)手機上行鏈路問題不會進行RRC的重建。
(2)手機會發(fā)起RRC重配置,但重配置肯定失敗,因為MME己經(jīng)釋放了手機的上下文信息,重配置無法完成QCI=1的專載的建立。(3)網(wǎng)絡(luò)側(cè)會下發(fā)BYE,會產(chǎn)生掉話。
辨特征:(1)網(wǎng)絡(luò)側(cè)會下發(fā)RRCConnectionRelease,釋放RRC連接。(2)隨即手機上發(fā)servicerequest請求接入,進行RRC重配置;RRC重配置只建立了QCI=5,QCI=9的承載。
(3)手機收到網(wǎng)絡(luò)下發(fā)的BYE消息,里面帶有中興CAUSE值:B200-151558。
定方案:(1)如果下行覆蓋良好,建議排查上行的干擾問題。(2)如果下行覆蓋較差,建議進行覆蓋優(yōu)化。
6.3下行鏈路問題導(dǎo)致掉話原因的判定
看流程:手機在下行鏈路出問題后,會進行RE重建,RE重建失敗后,手機發(fā)起RRC重配置請求,RRC重配置成功可以重新建立通話,不掉話。
辨特征:手機下行鏈路出問題后會進行RE重建,不會進行RRC連接釋放,重配置可以完成QCI=1,QCI=5,QCI=93種承載的建立。
定方案:雖然RRC重配置有機會重新建立通話,不會掉話,但也是掉話發(fā)生的隱患路段,建議排查下行失步原因,進行RF優(yōu)化消除下行弱覆蓋和干擾問題。
6.4上下行鏈路問題導(dǎo)致掉話的判定
看流程:(1)手機下行失步后,進行重建,重建失敗后,手機會發(fā)起RRC重配置。(2)但由于同時又上行失步,MME己經(jīng)釋放了手機的上下文信息,重配置無法完成QCI=1的專載的建立,網(wǎng)絡(luò)側(cè)會下發(fā)BYE,會產(chǎn)生掉話。
辨特征:(1)手機下行失步進行重建,重建失敗后進行RRC重配置。(2)重配置期間又由于上行失步無法建立QCI=1的專載,最終導(dǎo)致掉話。(3)重配置前由于下行先失步,手機可能無法收到網(wǎng)絡(luò)側(cè)下發(fā)的RRCConnectionRelease消息。
定方案:(1)如果下行覆蓋良好,建議排查上下行的干擾問題。(2)如果下行覆蓋較差,建議進行覆蓋優(yōu)化。
6.5下行弱覆蓋重定向到TD網(wǎng)絡(luò)導(dǎo)致掉話的判定
看流程:在進行VOLTE業(yè)務(wù)時,在4G弱覆蓋的場景下,由于ESRVCC切換的判決門限與數(shù)據(jù)業(yè)務(wù)重定向A2門限相差不大,加上弱覆蓋場景下信號的波動,導(dǎo)致做Volte業(yè)務(wù)時,終端容易觸發(fā)數(shù)據(jù)業(yè)務(wù)重定向A2,而不是觸發(fā)ESRVCCB2事件切換至2g小區(qū),從而導(dǎo)致VoLTE語音業(yè)務(wù)中斷發(fā)生掉話事件。endprint
辨特征:網(wǎng)絡(luò)側(cè)會下發(fā)RRCConnectionRelease,攜帶重定向消息,并有TD小區(qū)的主頻號,隨后重定向到TD網(wǎng)絡(luò)。
定方案:(1)優(yōu)化弱覆蓋路段的覆蓋。(2)調(diào)整小區(qū)重定向的時延參數(shù)a2timetotriggerredirect:由512ms調(diào)整為2560ms。
7VOLTE案例分享
7.1上行鏈路問題掉話典型案例描述
(1)通話狀態(tài)下的手機于11:07:04:484收到網(wǎng)絡(luò)側(cè)下發(fā)的RRCConnectionRelease消息,此時下行覆蓋與SINR良好。
(2)手機發(fā)起ServiceRequest,進行RRC重配置,重配置信息包含建立的2中承載:QCI=5,QCI=9,因為MME釋放了的上下文信息,RRC重配置無法建立QCI=1的專載。
(3)隨后手機收到網(wǎng)絡(luò)側(cè)下發(fā)的BYERequest,攜帶中性的B200-151558-1消息,結(jié)合上行信道發(fā)射功率逐漸增到的情況,判定為上行失步導(dǎo)致的掉話。
7.2下行鏈路問題掉話典型案例描述
(1)通話狀態(tài)的手機在14:29:39:298發(fā)起RE重建請求,原因otherfailure。
(2)RE重建被拒絕后,手機發(fā)起ServiceRequest,進行RRC重配置,重配置信息包含建立的3中承載:QCM,QCI=5,QCI=9,重配置成功完成之后重新建立通話,不會掉話。重配置前后如果覆蓋小區(qū)發(fā)生改變,會進行TAU的更新。
7.3上下行鏈路問題導(dǎo)致掉話的典型案例描述
(1)從手機信令流程看,手機占用239202/0信號,覆蓋電平為-102dBm,SINR為-2.8,覆蓋及通話質(zhì)量較差,手機在11:07:04發(fā)起RE重建,原因是下行RLF,RE重建未能成功。
(2)隨后手機發(fā)起RRC重配,從RRC重配信息來看,只建立了QCI=9和QCI=5的承載,沒有建立QCI=1的承載,隨后收到網(wǎng)絡(luò)側(cè)下發(fā)的BYE,并收到手機側(cè)回復(fù)的OK。
(3)網(wǎng)絡(luò)側(cè)下發(fā)的BYE攜帶中興的B200-151558-1消息,判定是上行問題導(dǎo)致上行RLF,MME釋放了手機的上下文信息,RRC重配無法建立QCI=1的專載,重配置失敗導(dǎo)致掉話。7.4下行弱覆蓋重定向到TD網(wǎng)絡(luò)導(dǎo)致掉話的典型案例描述
(1)手機在通話中,占用文化局-L1小區(qū)信號,在問題區(qū)域覆蓋電平弱到-114dBm左右,SINR差,鄰區(qū)中無較強信號,通話質(zhì)量惡化;達到了小區(qū)的重定向門限后,觸發(fā)重定向至TD網(wǎng)絡(luò),導(dǎo)致VOLTE掉話。
(2)查看文化局-L1的參數(shù)設(shè)置:A2(threshold4)設(shè)置為-120,b2ThresholdlGERAN設(shè)置為-116,兩個值設(shè)置比較接近;而重定向的時延參數(shù)a2timetotriggerredirect設(shè)置為512ms〇
7.5MME處理NegotiatedQOS不正確,導(dǎo)致視頻呼叫失敗
案例描述
終端做視頻呼叫測試時,有時候出現(xiàn)主叫呼叫后馬上斷掉,被叫無任何反映的情況。
(1)在456消息里PCRF向SAEGW發(fā)送RAR,指示SAEGW為語音和視頻建立專用承載。在RAR消息里,視頻QCI=2在前,音頻QCI=1在后。
(2)在464消息里,SAEGW向MME發(fā)送Createbearerrequest,視頻QCI=2在前,音頻QGI=1在后。
(3)在468消息里,MME向ENB發(fā)送E-RABsetuprequest。QCI=2的EPS的QOS和NegotiatedQOS里的上下行速率相差極大(事實上NegotiatedQOS跟音頻QCI=1的專載相同)。
7.6INVITE503錯誤分析描述
(1)主叫收到INVITE100,因?qū)]d建立和RRC切換流程沖突,專載建立北eNB拒絕或出現(xiàn)未知的EnbUESlAPIDo
(2)主叫收到INVITE100,被叫無尋呼或?qū)ず舻词盏絀NVITE,主叫未建立QCI1專載,疑為SBC-PRCF-PGW-MME之間的交互錯誤有關(guān)。
(3)主叫收到INVITE180,網(wǎng)絡(luò)下發(fā)RRCConnectionReconf(攜帶drd-ToAddModList,不是drd—ToReleaseList)異常去激活QCI1專載,網(wǎng)絡(luò)下發(fā)503,疑與EPS有關(guān)。
(5)主叫發(fā)出INVITE之后,主叫出現(xiàn)無線鏈路失敗,SBC己經(jīng)發(fā)出INVITE100,導(dǎo)致尋呼主叫且尋呼不到主叫,QCI1專載建立失敗,網(wǎng)絡(luò)發(fā)出503,但終端未收到,如圖5所示。
7.7從系統(tǒng)消息判斷PGW問題描述
(1)SIP消息和RRC消息:INVITE100和創(chuàng)建專載的順
序有先有后,INVITE183和修改專載的順序有先有后。
(2)SIP消息和SIP消息:UE發(fā)送UPDATE和UE收到PRACK200OK的順序在不同場景下前后順序會互換,如圖6所不。
備注:(1)主叫側(cè)SBC同步進行,主叫側(cè)的專載建立和被叫側(cè)的錨定和域選操作,可以加速接續(xù)。(2)在SBC處將觸發(fā)SIP和RRC消息的并行執(zhí)行。一般的SIP消息通過Gm接口可以快速到達UE。如果INVITE100滯后于專載建立流程,應(yīng)當(dāng)檢查PGW是否存在不及時發(fā)送SIP消息的問題。
8結(jié)語
目前VOLTE網(wǎng)絡(luò)尚不完善,系統(tǒng)與終端設(shè)備成熟度需要進一步提升。優(yōu)化經(jīng)驗和支撐手段需要積累,QoS控制和多承載優(yōu)化(接入用戶數(shù)和控制信道負荷)是VOLTE未來優(yōu)
(4)主叫專載建立完成,被叫發(fā)出INVITE183,此時化的重點和難點,而建立一個支撐端到端優(yōu)化管理維護工具主叫無線鏈路質(zhì)差,主叫未收到183且未啟動專載修改,之后是關(guān)鍵。endprint