崔傳金,馬 良,宋振祥
(國家無線電監(jiān)測中心檢測中心,北京 100048)
異常廣播信號發(fā)現(xiàn)和查處是無線電監(jiān)管部門廣播監(jiān)測和保障工作的重要組成部分,特別是2013 年以來,國家對醫(yī)藥廣告嚴(yán)格管理,很多違規(guī)藥品廣告通過“黑廣播”的方式向公眾傳播,給公眾財產(chǎn)和社會穩(wěn)定產(chǎn)生重大威脅。2016年底實施的《中華人民共和國無線電管理條例》和2017年實施的《最高人民法院、最高人民檢察院關(guān)于辦理擾亂無線電通訊管理秩序等刑事案件適用法律若干問題的解釋》都對“黑廣播”監(jiān)控管理作出了明確規(guī)定。工信部發(fā)布的《國家無線電管理規(guī)劃(2016-2020年)》針對超短波監(jiān)測工作提出:“開展重點業(yè)務(wù)的數(shù)字信號監(jiān)測和分析能力建設(shè)”、“按需配置打擊‘偽基站’、‘黑廣播’等專項監(jiān)測設(shè)施”、“在重點區(qū)域,加大設(shè)備配置力度,具備無線電監(jiān)管的智能化運行能力”、“推進(jìn)無線電管理一體化平臺建設(shè),完善門戶系統(tǒng)、應(yīng)用安全、應(yīng)用集成、地理信息等平臺”等意見。目前超短波監(jiān)測工作依然面臨業(yè)務(wù)系統(tǒng)與實踐監(jiān)測工作結(jié)合不夠緊密、任務(wù)執(zhí)行自動化水平較低、監(jiān)測數(shù)據(jù)分析處理深度不夠、重復(fù)性工作多、效率不高等問題,特別是“黑廣播”發(fā)現(xiàn)和查處存在人工發(fā)現(xiàn)困難、監(jiān)測設(shè)備無法全面監(jiān)測、定位查找耗時耗力等問題,本文針對這些問題,設(shè)計出使用語音識別技術(shù)的“黑廣播”自動識別系統(tǒng)。該系統(tǒng)設(shè)計對打擊“黑廣播”犯罪、保障廣播安全、維護(hù)空中電波秩序具有重要意義。
應(yīng)用到廣播信號的監(jiān)管當(dāng)中。但是,廣播語音和實際生活中人們說話有一些區(qū)別,例如廣播語音內(nèi)容多樣,廣告、音樂、新聞播報、曲藝節(jié)目等都大量存在;廣播語音信號不穩(wěn)定,語音內(nèi)容會隨信號強弱優(yōu)劣發(fā)生變化等。針對這些差異,本文設(shè)計針對廣播語音識別的特殊應(yīng)用,不僅考慮到廣播語音內(nèi)容,還考慮信號頻率、功率、信噪比等特殊因素,更大程度的滿足“黑廣播”發(fā)現(xiàn)的需要。隨著語音識別技術(shù)日趨完善,多種形式語音識別技術(shù)也應(yīng)運而生,常見的有語言聽寫、語音喚醒、離線命令詞識別、在線語音合成、機器翻譯、聲紋識別等技術(shù),每一種技術(shù)都有自身的應(yīng)用場景。分析廣播語音的特點是語音內(nèi)容復(fù)雜多樣、信號質(zhì)量好壞不同,并且識別實時性要求很高,還要保證識別結(jié)果方便后續(xù)廣播性質(zhì)判定,所以一定要選用抗干擾能力強、識別效果好、性能穩(wěn)定的識別技術(shù)。對“黑廣播”性質(zhì)判定是十分復(fù)雜的過程,系統(tǒng)判定除了使用識別出來的關(guān)鍵詞信息,還可以利用離線命令詞識別出是否整點報時、是否有臺標(biāo)信息等。另外判定過程還要分析頻率是否在合法臺站數(shù)據(jù)庫中,分析信號強度是否正常,統(tǒng)計廣播發(fā)射時間和規(guī)律是否正常等。如圖1所示,對廣播性質(zhì)判定需要利用多種信息。
由于機器自動識別判定廣播屬性不如人工判定靈活,且不能保證識別結(jié)果100%準(zhǔn)確,因此綜合使用多種信息對“黑廣播”進(jìn)行判定,目的是提高判定準(zhǔn)確率,減少“黑廣播”的誤識別和漏識別。
語音識別技術(shù)(Auto Speech Recognize,ASR)要解決的問題是將語音中的文字信息“提取”出來,將人類的語言聲音信號轉(zhuǎn)為文字或指令。隨著計算機科學(xué)和人工智能技術(shù)的不斷發(fā)展,語音識別技術(shù)近年來取得明顯進(jìn)步,并在各個行業(yè)中得到很好的應(yīng)用。2010年,微軟發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)技術(shù)可顯著提高語音識別精度,2012年10月,微軟又演示了全自動同聲轉(zhuǎn)譯系統(tǒng),可實時將英文轉(zhuǎn)換為漢語。2012年底,國內(nèi)的百度公司也發(fā)布了百度語音助手,后續(xù)又發(fā)布了百度語音開發(fā)平臺,到2015年語言識別正確率達(dá)到了97%??拼笥嶏w在語音識別技術(shù)方面也取得了巨大成就,特別是在漢語語言識別方面處在領(lǐng)先位置。
最近幾年,使用語音識別技術(shù)的應(yīng)用真正走進(jìn)了人們的生活,特別是智能手機、智能家居等方面得到很好的應(yīng)用。由于廣播信號也是以語音的方式被人們接收,所以完全可以把語音識別技術(shù)
圖1 判定“黑廣播”所用的信息
目前FM“黑廣播”監(jiān)測識別技術(shù)主要采取人工識別,或者先存儲語音再進(jìn)行人工識別?,F(xiàn)實情況中,由于繁重的人員成本,多變的無線電廣播環(huán)境,致使傳統(tǒng)的監(jiān)測技術(shù)不能高效完成識別工作,這就造成了FM“黑廣播”監(jiān)測的局限性。本文主要研究一種對“黑廣播”設(shè)備監(jiān)測行之有效的自動識別方案,目的是實現(xiàn)廣播信號搜索采集、語音內(nèi)容識別、語音保存?zhèn)鬏?、廣播性質(zhì)判定、“黑廣播”警示告警全部無人工干預(yù)的自動化識別系統(tǒng)。基于語音識別技術(shù)的”黑廣播”自動識別系統(tǒng)結(jié)構(gòu)圖如圖2所示。
圖2 系統(tǒng)整體結(jié)構(gòu)設(shè)計圖
系統(tǒng)主要由廣播智能監(jiān)測接收機、黑廣播智能監(jiān)測平臺、用戶終端三部分組成。廣播智能監(jiān)測接收機主要功能是通過接收天線同時采集多路廣播語音信號,廣播語音信號同時傳輸?shù)浇邮諜C軟件進(jìn)行語言識別,接收機在識別的同時保存語音文件,接收機軟件根據(jù)語言識別結(jié)果、廣播頻率等判定疑似“黑廣播”的概率,對可疑廣播進(jìn)行告警并將其識別結(jié)果和語音傳輸?shù)奖O(jiān)測平臺;黑廣播智能監(jiān)測平臺的主要功能是將接收機上報的各種告警信息、語音文件、識別結(jié)果等進(jìn)行統(tǒng)計匯總,將監(jiān)測結(jié)果統(tǒng)一展示給用戶,分析識別結(jié)果并更新系統(tǒng)配置;用戶終端是將識別結(jié)果展示給用戶的接口,主要功能是向用戶展示各告警信息等具體內(nèi)容,用戶通過終端可以控制接收機工作等。
圖3 系統(tǒng)功能模塊圖
(1)多路信號采集模塊。它是系統(tǒng)主要功能之一,采集廣播語音內(nèi)容是語音識別和判定廣播性質(zhì)一系列功能的前提。該模塊主要功能將FM廣播頻段完整的掃描一遍,并將頻段內(nèi)所有的廣播信道標(biāo)出,根據(jù)硬件的配置將多個信道設(shè)置到其采集錄音通路中,對廣播語音實時采集。
(2)語音識別模塊。它是系統(tǒng)的核心功能模塊,該模塊的主要功能是將多路信號采集模塊采集的語音進(jìn)行識別,找出廣播語音中的關(guān)鍵詞內(nèi)容、判斷是否整點報時、是否有臺標(biāo)信息等,并將識別結(jié)果上報至上層軟件。該模塊使用的語音識別技術(shù)和準(zhǔn)確程度決定了系統(tǒng)對“黑廣播”識別的效率和準(zhǔn)確率。
(3)廣播性質(zhì)判定模塊。其主要功能是根據(jù)語言識別的結(jié)果、廣播播放頻率、信號強度,臺站數(shù)據(jù)庫對比情況等信息,對廣播屬性進(jìn)行判定。判定使用多因素分層分析方法,能根據(jù)每個因素對判定結(jié)果的影響大小進(jìn)行加權(quán)分析,最終給出廣播疑似“黑廣播”的概率,這種方法能更大程度保證判定結(jié)果的準(zhǔn)確。
(4)語音結(jié)果傳輸模塊。其主要功能是將采集的語音內(nèi)容、語音識別結(jié)果和廣播判定結(jié)果保存在特定文件中,并將可疑廣播信號相關(guān)的語音和結(jié)果上傳到系統(tǒng)服務(wù)器中。
(5)后臺數(shù)據(jù)處理模塊。其主要功能是把各個設(shè)備上報的語音內(nèi)容、識別結(jié)果、判定結(jié)果等各種數(shù)據(jù)進(jìn)行匯總保存,并對這些數(shù)據(jù)進(jìn)行統(tǒng)計分析。分析的方向可以包括某個頻率是否連續(xù)播放“黑廣播”、某個時間段是播放高峰、某個區(qū)域發(fā)現(xiàn)了多少個“黑廣播”等,這種分析統(tǒng)計可以為無線電管理部門全面掌握廣播頻率的使用情況提供幫助。另外后臺數(shù)據(jù)處理模塊可以根據(jù)大量語言識別的結(jié)果進(jìn)行數(shù)據(jù)挖掘,從而發(fā)現(xiàn)“黑廣播”更普遍的特征,比如發(fā)現(xiàn)某個關(guān)鍵詞在“黑廣播”中大量出現(xiàn),可以提高該關(guān)鍵詞的等級進(jìn)而提高識別準(zhǔn)確率。
(6)用戶終端模塊。它是為了將識別判定結(jié)果展示給用戶,并且能夠和用戶交互的窗口。用戶可以通過終端查看結(jié)果和統(tǒng)計信息,根據(jù)工作需要對系統(tǒng)和設(shè)備進(jìn)行的操作都可以使用用戶終端進(jìn)行控制。
(7)廣播定位模塊。它是當(dāng)系統(tǒng)中部署了多個識別設(shè)備時,通過TDOA算法將廣播的發(fā)射位置進(jìn)行查找的功能模塊。該模塊只有當(dāng)某個廣播信號同時被至少三個設(shè)備同時接收的情況下才可以使用,是滿足無線電監(jiān)管部門發(fā)現(xiàn)“黑廣播”后進(jìn)一步查找定位的工作需要。
基于語音識別技術(shù)的黑廣播自動識別系統(tǒng)可完成對廣播電臺的監(jiān)測、識別和快速定位,自動實現(xiàn)信號搜索、廣播性質(zhì)判定、數(shù)據(jù)集中處理、廣播電臺監(jiān)測月報生成等功能,滿足大部分廣播信號的監(jiān)測要求。系統(tǒng)使用先進(jìn)的人工智能相關(guān)技術(shù),語音識別技術(shù)對廣播語音進(jìn)行識別,對大量采集的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,系統(tǒng)可以通過不斷更新,最終使系統(tǒng)更智能更準(zhǔn)確的判定“黑廣播”。目前,天維訊達(dá)(北京)科技有限公司使用這種設(shè)計方案開發(fā)了“黑廣播”智能監(jiān)測平臺,使用期間取得了良好的效果,被越來越多的無線電監(jiān)管和廣電部門關(guān)注和使用,為無線電監(jiān)管工作作出重要貢獻(xiàn)。
[1] 中華人民共和國無線電管理條例.工業(yè)和信息化部官方網(wǎng)站http://www.miit.gov.cn/newweb/n1146295/n1146557/n1146619/c5382915/content.html.
[2] 最高人民法院、最高人民檢察院關(guān)于辦理擾亂無線電通訊管理秩序等刑事案件適用法律若干問題的解釋.最高人民法院官方網(wǎng)站http://www.court.gov.cn/zixun-xiangqing-49322.html.
[3] 國家無線電管理規(guī)劃(2016-2020年).國家發(fā)展與改革委員會官方網(wǎng)站http://www.ndrc.gov.cn/fzgggz/fzgh/ghwb/gjjgh/201706/t20170620_851820.html.
[4] 楊東沿.基于語音識別技術(shù)的調(diào)頻廣播保障系統(tǒng)研究[D].西華大學(xué),2016.