毛軍偉 陳 成
論一例疑似機頂盒故障的分析與排除
毛軍偉陳 成
(作者單位:寧波市鄞州區(qū)廣播電視臺集士港廣電站)
本文根據(jù)寧波市鄞州區(qū)廣播電視臺實際運維中碰到的一例疑似機頂盒故障實例進行分析,最終找到原因并排除故障。
機頂盒故障;切換頻道;未購節(jié)目
日前,寧波市鄞州區(qū)廣播電視臺呼叫中心服務(wù)熱線28801111陸續(xù)接到數(shù)字電視用戶的報修電話,故障現(xiàn)象為:A廠家機頂盒在正常收看數(shù)字電視節(jié)目時候,用戶沒有任何操作的情況下,在電視屏幕上出現(xiàn)“請勿頻繁切換頻道”的提示,該提示過一下會自動消失,也有的需重啟機頂盒提示就會消失。具體發(fā)生的時刻、頻道等因素均沒有什么規(guī)律可循。有用戶投訴是另一B廠家的一款機頂盒,出現(xiàn)的提示字符是“未購節(jié)目”,其他故障同上。
1.1故障再現(xiàn)
依據(jù)故障現(xiàn)象,可知該故障的再現(xiàn)是故障排除的第一步,只有故障再現(xiàn)了,才能得到相關(guān)更多的信息去考慮下一步的操作。于是,我們依據(jù)故障電話找尋到故障用戶分2個小組依據(jù)用戶約定的最有可能出現(xiàn)的時間點,上門等候故障再現(xiàn),第一組得到情況是:從用戶室內(nèi)的線路排查開始,到機頂盒的軟硬件版本均未發(fā)現(xiàn)什么異常,在用戶家呆了足有一個小時,卻未見用戶所說的故障現(xiàn)象出現(xiàn),于是只能撤離現(xiàn)場,再想辦法獲得故障再現(xiàn)情況。第二組得到的情況是:用戶電平、誤碼率、機頂盒版本等均未發(fā)現(xiàn)異常,但是故障再現(xiàn)現(xiàn)象復(fù)現(xiàn),只是很快消失了,不過已經(jīng)有截圖為證,如圖1所示。
圖1 請勿頻繁切換頻道截圖
從圖1中可知,故障的確如用戶所述發(fā)生了,排除了用戶人為誤操作與非法共享智能卡收看節(jié)目造成的可能。但是,由于故障現(xiàn)象一閃而過,沒有捕捉到什么信息,實難進一步定位故障所在。那么,是什么原因?qū)е聶C頂盒觸發(fā)該提示出現(xiàn)呢?
1.2故障分析
帶著這個問題臺內(nèi)相關(guān)人員召集了機頂盒廠家、前端平臺廠家、CA廠家等技術(shù)人員參加的故障分析會。
與會人員各抒己見,其中有機頂盒廠家技術(shù)人員提議停掉收視控制也即禁止一卡解多節(jié)目的模式。對此,寧波市鄞州區(qū)廣播電視臺技術(shù)人員認為此舉不妥。我們的原則是既要嚴(yán)格控制非法用戶共享智能卡來收看數(shù)字電視節(jié)目,也要允許前端機房合法的一卡解多節(jié)目要求,一旦停掉收視控寧波市鄞州區(qū)廣播電視臺數(shù)字電視系統(tǒng)的防非法用戶共享智能卡的檢測功能將失效。所以,此故障必須找到根本原因來定位。那么,到底是CA廠家的方案有缺陷,還是機頂盒代碼有BUG呢?針對此問題廠家間的爭論很是激烈,大家對找不到原因很苦惱,也很著急。
最后形成的共識為:a.各個廠家對自己系統(tǒng)軟硬件的配置進行自查;b.對各個廠家的對接接口進行互查;c.由于機頂盒發(fā)放的數(shù)量及故障報修的面來說均是A廠家機頂盒的故障居多,遂決定由A廠家組織力量協(xié)同寧波市鄞州區(qū)廣播電視臺技術(shù)人員繼續(xù)蹲點排查,盡快想辦法抓取發(fā)生故障時刻的機頂盒串口打印信息。
其中,前兩個問題會后馬上執(zhí)行了,未見異常。此時,覺得問題發(fā)生在機頂盒上的可能性較大,但是沒有足夠的信息來證明是機頂盒引起的;于是,A廠家提議,試制一個能抓取故障復(fù)現(xiàn)串口打印的臨時版本,而后再做進一步定位,免除人員因頻繁蹲點無功而反對用戶造成的負面影響,真正做到變被動發(fā)現(xiàn)為主動提取故障信息。于是,技術(shù)人員將臨時版本打包制作成為小網(wǎng)手動升級流,由技術(shù)人員上門到曾經(jīng)報修過的用戶家中,手動強制升級機頂盒版本,并與用戶約定一旦出現(xiàn)故障信息獲取提示字符,請不要關(guān)閉機頂盒電源,馬上聯(lián)系我們技術(shù)人員上門,期間據(jù)統(tǒng)計共升級不下10臺機頂盒。
至此,只待這10戶用戶電話來。功夫不負有心人,終于等到了用戶的電話,寧波市鄞州區(qū)廣播電視臺技術(shù)人員立馬趕赴現(xiàn)場,順利抓取了保存在機頂盒內(nèi)部flash的故障串口打印信息。
當(dāng)時我們?nèi)绔@至寶,立馬將故障串口打印信息分發(fā)給A機頂盒廠家與CA廠家,務(wù)求他們第一時間開會分析定位故障。廠家們分析結(jié)果如下。
(1)發(fā)生問題的主要原因是由于主、備加密機時間不同步。在出現(xiàn)“請勿切換頻道”問題前,備加密機因網(wǎng)絡(luò)問題連接不上主加密機,使備加密機無法和主加密機實現(xiàn)時間同步,導(dǎo)致主、備加密機時間不一致。CA加密機本身配有自動時間同步功能,但前提是需要2臺加密機之間的時間差不能超過90s。經(jīng)查,備加密機恢復(fù)工作后,與主加密機的時間差超過90s,導(dǎo)致主、備加密機時間無法自動同步,造成ECM包的時標(biāo)產(chǎn)生差異,進而導(dǎo)致“請勿切換頻道”問題的出現(xiàn)。
(2)加密機出錯為何沒有導(dǎo)致全部用戶都出錯,而是沒有規(guī)律、沒有時間和地域限制的出現(xiàn)問題:網(wǎng)絡(luò)內(nèi)傳輸?shù)墓?jié)目各自單獨加擾,加擾節(jié)目時,CA調(diào)用加密機對CW進行加密生成ECM包,加密CW字時主要調(diào)用主加密機,輔用備加密機。當(dāng)機頂盒出現(xiàn)“請勿切換頻道”提示,需要該節(jié)目前一個ECM和后一個ECM包是調(diào)用不同加密機生成的,且用戶正好在該時段收看該節(jié)目,這幾個因素均為小概率事件;所以,只出現(xiàn)一小部分用戶出錯,且是沒有規(guī)律、沒有時間和地域限制的。
第一,在應(yīng)用服務(wù)器的瀏覽器中鍵入http://192.168.200.31:7374(主用加密機)和http://192.168.200.32:7374(備用加密機),比較兩者的時間,看看是否一致,一般要求在5s內(nèi)為正常(如圖2)。
圖2 主用加密機與備用加密機的對比
否則,不正常需要在備用加密機中通過輸入時間進行校正。時間輸入力求控制在5s內(nèi),便于很快同步時間,否則需要重新輸入。
第二,分別在主備用加密機上通過命令行輸入date字符,得到顯示當(dāng)前時間為:
>Date
>2013/1/14 15:45:00
第三,直接在命令行窗口中按照相同的時間格式輸入時間按“回車”鍵生效。如2013/1/14 15∶59∶00。
經(jīng)過以上CA加密機的時間設(shè)置調(diào)整后,至此,呼叫中心服務(wù)熱線28801111便再沒有接到用戶投訴的“請勿頻繁切換頻道”問題。通過該故障可以得知:(1)機頂盒出現(xiàn)故障不一定是盒子的軟硬件問題,數(shù)字電視是個系統(tǒng),需要我們通盤考慮,切忌思路狹隘,受局部觀念束縛;(2)要樹立故障必能排除的無懼心態(tài),這就要求我們冷靜分析、沉著應(yīng)對,問題擺在那里,各方要通力合作,共同分析原因,不要企圖規(guī)避問題,也不要互相推卸責(zé)任,要堅信問題一定有、故障一定能排除的決心;(3)切實做好用戶的安撫與解釋工作,將故障造成的負面影響降到最低,做好做實我們的數(shù)字電視服務(wù)。
[1]余兆明,余智.數(shù)字電視原理[M].北京:人民郵電出版社,2009.
[2]潘云忠.有線電視數(shù)字機頂盒的原理與維修[M].北京:人民郵電出版社,2009.
毛軍偉(1976-),男,浙江寧波人,本科,助理工程師。研究方向:廣電網(wǎng)絡(luò)技術(shù)。