• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      CMMB信號測試數(shù)據(jù)異常值的檢測方法研究

      2011-06-07 05:53:18崔競飛張國庭李婷婷
      電視技術 2011年16期
      關鍵詞:測試數(shù)據(jù)聚類樣本

      白 鶴,崔競飛,張國庭,李婷婷,趙 明

      (國家廣播電影電視總局 廣播科學研究院,北京 100039)

      0 引言

      隨著中國移動多媒體廣播電視(CMMB)技術標準體系的成熟和產(chǎn)業(yè)鏈的完善,全國已有220多個城市進行了CMMB單頻網(wǎng)的建設,覆蓋測試是建設過程必不可少的環(huán)節(jié),對測試數(shù)據(jù)進行分析能夠指導網(wǎng)絡規(guī)劃、優(yōu)化以及評估效果,但是作為后續(xù)處理基礎的測試數(shù)據(jù)可能因為設備異常等因素造成數(shù)據(jù)失真,因此,需要檢測異常值以保證測試數(shù)據(jù)的真實性和可靠性。

      在城市的CMMB覆蓋測試中,數(shù)據(jù)多元、大量,含有地理和時間等多維標記信息。目前,業(yè)界還沒有針對CMMB信號測試數(shù)據(jù)進行異常值檢測的有效方法,而利用統(tǒng)計學中的一般異常值檢測方法的甄別效果也不理想。筆者基于對CMMB網(wǎng)絡信號特征的分析,在采用歐氏距離對數(shù)據(jù)樣本進行聚類之后,使用Z-統(tǒng)計量進行度量,可以有效地檢測出CMMB測試信號異常值。

      1 CMMB信號測試數(shù)據(jù)異常值

      異常值[1]定義為“嚴重偏離了樣本集合中其他觀測值的觀測值”,包括某樣本的單個屬性與該屬性的大多數(shù)值出現(xiàn)分布偏離,或者該樣本的屬性間的結構和相關關系與整個屬性集的屬性之間結構和相關性不同。

      異常值檢測是數(shù)據(jù)挖掘中數(shù)據(jù)準備的重要環(huán)節(jié),也是學界探討和研究的內(nèi)容[2]。目前主要有3種策略:

      1)統(tǒng)計法。對樣本總體分布作出假設的基礎上,構造如四分位點、標準差等統(tǒng)計量進行檢測,主要適用于單屬性值的情況。

      2)距離法[3]。將兩個樣本視為K維空間的兩點,計算兩點間的Minkowski,Chebyshev或Mahalanobis距離來度量,此方法能夠應用于多元數(shù)值,但沒有綜合考慮總體分布的因素,導致太依賴于參數(shù)的選擇。

      3)分類法。建立分類模型判斷數(shù)據(jù)類別,以認定其是否與總體偏離,一般需要有大量樣本集以訓練分類模型,并且此方法判斷的顆粒度較大,相對于精細的數(shù)據(jù)要求顯得誤判率較高。

      CMMB信號測試數(shù)據(jù)有經(jīng)緯度、時間等標記屬性以及Powerlevel,CNR等指標屬性,各屬性值有合理的取值范圍,并且指標屬性對應于一定的區(qū)域和時間內(nèi)的標記屬性,但是由于設備故障、無線特性或系統(tǒng)誤差會使得指標屬性在總體范圍出現(xiàn)偏離或局部區(qū)域內(nèi)發(fā)生跳變。因此異常值檢測方法既需要考慮指標屬性的統(tǒng)計學特征,同時要兼顧指標與標記屬性的具體相關性?;谝陨戏治觯鞣N異常值檢測的通用方法不適合CMMB信號異常值檢測的具體應用場景。

      2 綜合聚類和統(tǒng)計的檢測方法

      筆者處理的異常值包括因設備問題造成的標記空缺或指標超過正常范圍的樣本以及在一定區(qū)域內(nèi)明顯與周圍指標值不同的孤立點。在對CMMB信號的數(shù)據(jù)特征分析的基礎上,針對以上的檢測對象,設計了一種結合統(tǒng)計學和地理信息聚類的檢測方案。首先將多個CMMB信號測試文件合并為一個數(shù)據(jù)集合,在此基礎上進行了空缺標記檢測、界外指標處理、地理信息聚類以及對各區(qū)域數(shù)據(jù)進行孤值點甄別幾個算法步驟,如圖1所示。

      2.1 空缺標記檢測

      如前所述,CMMB信號測試樣本SCMMB有經(jīng)度ALongtitude、緯度ALatitude和測試時間ATime等標記屬性,可以準確地標定某一地點、某一時刻的信號強度APowerlevel、載噪比ACNR等指標屬性

      但是因為GPS設備搜索定位時延等原因,ALongtitude,ALatitude的標記信息可能出現(xiàn)空缺,此時記錄下來的對應點的指標屬性相對于評估來說就沒有意義,因此需要將ALongtitude或ALatitude為空缺值的信號樣本識別出并剔除??梢詫Υ祟惍惓V刀x為

      式中:null表示空缺值,Outlier表示異常值,此步驟從標記屬性的角度保證了信號的完整性。

      2.2 界外指標處理

      CMMB信號測試樣本SCMMB的指標屬性包括APowerlevel、載噪比ACNR、誤碼率ABER等,其中對于接收效果最直接、最有效的評估度量是APowerlevel,在發(fā)射臺站規(guī)劃合理、測試地點空曠、頻率干擾弱以及多徑時延小等情況下,APowerlevel測試值會比較理想,即使信號覆蓋不理想,指標值也會在一個合理范圍內(nèi),但是在實地外場測試中由于設備、系統(tǒng)誤差等原因,APowerlevel取值會超過合理范圍,此時SCMMB因為測量值處于合理范圍外而沒有意義。定義此類界外值為

      此步驟保證在全部樣本集合內(nèi)測試數(shù)據(jù)屬性值取值的合理性。

      2.3 孤值點甄別

      數(shù)據(jù)集合一般包括了城域范圍的測試數(shù)據(jù),在空缺標記和界外指標處理后,在整體上從數(shù)據(jù)樣式和取值范圍角度保證了可靠性,但是就某個小顆粒度的區(qū)域(比如街道)來說,某樣本的APowerlevel雖然已處在{minAPowerlevel,maxAPowerlevel}的合理取值范圍內(nèi),同樣不能保證其可信。在單頻網(wǎng)建設中,1 kw功率的有效發(fā)射機覆蓋半徑是10 km左右,一般情況下對百米量級、物理遮蔽情況類似的區(qū)域來說,信號強度值比較平滑,因此,街道區(qū)域內(nèi),信號的APowerlevel值不應該出現(xiàn)跳變的孤值。實測中與鄰近信號強度差別較大的樣本出現(xiàn),可能是由于設備故障造成的系統(tǒng)誤差,即使并非誤差,如采用對孤值敏感的測試評價算法就會對這一區(qū)域內(nèi)的信號總體評估結果產(chǎn)生較大影響,因此,定義此類鄰近區(qū)域內(nèi)的孤值為異常值。

      經(jīng)分析,孤值點甄別的分析對象是小區(qū)域內(nèi)的樣本集合,因此需要對城域測試數(shù)據(jù)集合根據(jù)地理信息進行聚類。聚類需要確定方法、策略、距離度量算法以及聚類個數(shù)。對樣本的聚類需要采用Q型聚類中的系統(tǒng)聚類方法,聚類策略采用類平均法(Between-groups Linkage),因為ALongtitude,ALatitude兩個屬性值無關,對于聚類同樣重要,因此使用p=2時的Minkowski,也就是歐式距離DEuc來計算兩樣本間的距離

      聚類個數(shù)需要根據(jù)城域數(shù)據(jù)總體的樣本個數(shù)、路測儀器的記錄間隔、路測車速等幾個變量綜合判斷。

      劃分出小顆粒度的數(shù)據(jù)集合Ui后,可以看到Ui的數(shù)據(jù)趨勢比較平滑,APowerlevel值接近,絕大部分單樣本APowerlevel值xi與Ui的APowerlevel數(shù)據(jù)均值xˉ在一定范圍內(nèi),此時Ui符合中心極限定理,樣本APowerlevel值xi與xˉ之差絕對值在兩個標準差之外的概率小于1%。因此,構建Z-統(tǒng)計量zi,以統(tǒng)計孤值點,具體為

      3 實例分析

      筆者參與了重慶部分區(qū)縣的CMMB單頻網(wǎng)覆蓋測試,獲得了大量的測試數(shù)據(jù),對其進行異常值檢測和處理。首先使用編寫的程序合并某縣的測試文件,然后按照提前預定義的規(guī)則將合并后的數(shù)據(jù)導入SPSS軟件。經(jīng)過探索性分析,由圖2a可知,ALongtitude,ALatitude標記屬性空缺的樣本值占有一定比例;由圖2b可知,APowerlevel指標屬性存在較明顯的界外值,綜合原理分析和測試經(jīng)驗,APowerlevel取值范圍應為(-100 dBm,-20 dBm)。使用SPSS經(jīng)過空缺標記檢測和界外指標處理之后,圖3可看出樣本總體的可靠性得到了保證。

      綜合分析覆蓋測試中車速、間隔、樣本總數(shù)3個因素后,聚類個數(shù)被設計為5。圖4為樣本集形成的5個聚類類別中各類的樣本數(shù)目所占百分比。聚類作為一種探索性分析方法,沒有明確的檢驗方法,但本方案中聚類情況與實際地理情況非常吻合,城域的整體樣本基本按照距離鄰近原則得到了有效劃分。

      之后對每類數(shù)據(jù)分別計算樣本的Z-得分,并檢測出孤值點。表1所示數(shù)據(jù)取自第二區(qū)域的鄰近樣本,其中Z-得分為2.231 9的APowerlevel值與鄰近數(shù)值明顯不同,跳變了大概10 dBm,以此方法可以直觀地對孤值點進行甄別,以避免敏感值對評估結果的影響。

      圖4 聚類后各類樣本所占比例餅圖

      表1 聚類后一段樣本的Z-得分

      4 小結

      在分析CMMB信號覆蓋和屬性特征的基礎上,筆者設計了一種結合聚類與統(tǒng)計學方法的檢測方案。在實際案例上的應用中,既能提高處理效率,使數(shù)據(jù)分析人員能夠擺脫以往依靠人工對異常值的檢測,并且可以更加準確地甄別測試數(shù)據(jù),從而保證了數(shù)據(jù)的可信度,有效地為網(wǎng)絡優(yōu)化和評估提供數(shù)據(jù)支撐。在數(shù)據(jù)準備中,還需要處理重復標記值,當然不屬于異常值范疇,不在討論范圍之內(nèi)。

      [1]HAWKINS D M.Identification of outliers[M].[S.l.]:London Chapmanand Hall,1980.

      [2]劉云霞.數(shù)據(jù)規(guī)約的統(tǒng)計方法研究及應用[D].廈門:廈門大學,2008.

      [3]KNORR E M,RAYMOND T N,TUCAKLV V.Distance-based outliers:algorithms and applications[EB/OL].[2010-10-25].http://portal.acm.org/citation.cfm?id=764218.

      猜你喜歡
      測試數(shù)據(jù)聚類樣本
      用樣本估計總體復習點撥
      測試數(shù)據(jù)管理系統(tǒng)設計與實現(xiàn)
      推動醫(yī)改的“直銷樣本”
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      隨機微分方程的樣本Lyapunov二次型估計
      基于自適應粒子群優(yōu)化算法的測試數(shù)據(jù)擴增方法
      計算機應用(2016年9期)2016-11-01 17:57:12
      空間co-location挖掘模式在學生體能測試數(shù)據(jù)中的應用
      體育科技(2016年2期)2016-02-28 17:06:21
      村企共贏的樣本
      基于改進的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      米林县| 西华县| 通州区| 兴城市| 井研县| 陇川县| 甘孜| 盐源县| 尉犁县| 乡城县| 广河县| 高淳县| 滦南县| 门头沟区| 晋中市| 克拉玛依市| 南漳县| 仙桃市| 资阳市| 阆中市| 永顺县| 临泉县| 石景山区| 泸定县| 开原市| 阿拉尔市| 绥阳县| 鲜城| 自贡市| 绍兴县| 天津市| 赣榆县| 海晏县| 涟水县| 安庆市| 武穴市| 石景山区| 东海县| 宜昌市| 阿图什市| 夏河县|