劉新
摘要:文章依托吉林人民廣播電臺(tái)融媒體語音智能檢索技術(shù)系統(tǒng)進(jìn)行闡述語音智能檢索技術(shù)的主要內(nèi)容以及語音識別、音頻自動(dòng)索引、關(guān)鍵音檢索3個(gè)技術(shù)特點(diǎn),語音檢索的系統(tǒng)結(jié)構(gòu)設(shè)計(jì)和邏輯構(gòu)架及主要功能,融媒體語音智能檢索技術(shù)系統(tǒng)項(xiàng)目實(shí)現(xiàn)廣播電臺(tái)桌面級音頻搜索服務(wù)實(shí)踐應(yīng)用。
關(guān)鍵詞:語音識別;音頻自動(dòng)索引;關(guān)鍵音索引;云計(jì)算模式
中圖分類號:G2 文獻(xiàn)標(biāo)識碼A 文章編號1674-6708(2019)239-0136-02
當(dāng)今科技創(chuàng)新及人工智能技術(shù)日新月異發(fā)展,為廣播電臺(tái)融媒體語音智能檢索技術(shù)專業(yè)應(yīng)用開辟新的發(fā)展前景。如何利用好廣播電臺(tái)的節(jié)目素材庫,使其在廣播節(jié)目制作、音頻資源共享及為公眾服務(wù)上發(fā)揮更大的作用,是目前廣播電臺(tái)業(yè)務(wù)發(fā)展所面臨的迫切需求。對廣播節(jié)目素材庫的有效再利用的難點(diǎn)之一,在于提供強(qiáng)大高效的檢索功能。傳統(tǒng)的基于元數(shù)據(jù)編目的節(jié)目素材庫管理方法,音頻素材不同于文本資源,其本身的內(nèi)容難于用文字去表達(dá)。簡單的初級編目信息對于素材內(nèi)容的描述過于概略,不能達(dá)到詳細(xì)內(nèi)容檢索的要求,高級編目又需要大量的人力物力,面對廣播電臺(tái)海量音頻庫需要的投入太大,即使做到了節(jié)目、片段、場景等編目,也不能完全滿足對節(jié)目內(nèi)容的多樣和個(gè)性化檢索要求,這就需要采用真正的基于內(nèi)容理解的自動(dòng)化處理技術(shù)以及人工智能處理技術(shù),對音頻進(jìn)行自動(dòng)索引和處理,提供更加詳細(xì)和個(gè)性化的內(nèi)容搜索。
1融媒體語音智能檢索技術(shù)的主要內(nèi)容及技術(shù)特點(diǎn)
融媒體語音智能檢索技術(shù)是對海量音頻庫中基于內(nèi)容的音頻進(jìn)行快速準(zhǔn)確檢索,首先采用聲音識別手段對采集音頻文件檢索的內(nèi)容進(jìn)行編輯整理,然后對存放在音頻數(shù)據(jù)庫任何地方的音頻文件進(jìn)行智慧檢索,用音頻內(nèi)容出現(xiàn)的字句對音頻文件進(jìn)行檢索,通過云計(jì)算模式,實(shí)現(xiàn)桌面級音頻搜索服務(wù)的實(shí)際應(yīng)用,伴隨廣播融媒體語音檢索技術(shù)不斷完善與創(chuàng)新,最終實(shí)現(xiàn)從桌面級到移動(dòng)端的全方位廣播電臺(tái)融媒體語音資源全方位音頻搜索服務(wù)的實(shí)踐運(yùn)用。
廣播電臺(tái)融媒體語音智能檢索核心技術(shù)是對海量音頻庫中的音頻進(jìn)行快速準(zhǔn)確的基于內(nèi)容的檢索,目的是為廣播電視臺(tái)等企業(yè)級用戶提供準(zhǔn)確高效的語音內(nèi)容檢索服務(wù)。主要包括音頻自動(dòng)索引、關(guān)鍵音檢索、語音識別等關(guān)鍵技術(shù):1)音頻自動(dòng)索引技術(shù):用戶通過系統(tǒng)使用界面或接口,批量導(dǎo)入待處理的視音頻素材,系統(tǒng)自動(dòng)對其建立內(nèi)容索引;2)關(guān)鍵音檢索技術(shù):用戶輸入的文本形式的關(guān)鍵詞,系統(tǒng)從已索引的視音頻中檢索該詞發(fā)音所在的位置;3)語音識別技術(shù):把視音頻節(jié)目的音頻內(nèi)容轉(zhuǎn)換為文本形式,利用全文檢索技術(shù)進(jìn)行檢索。
2融媒體語音智能檢索技術(shù)的系統(tǒng)結(jié)構(gòu)設(shè)計(jì)和系統(tǒng)邏輯構(gòu)架
2.1系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
融媒體語音智能檢索技術(shù)對現(xiàn)有多媒體庫的媒體音頻文件建立內(nèi)容索引的處理數(shù)據(jù)庫文件,形成供用戶進(jìn)行語音檢索查詢的數(shù)據(jù)文件,檢索結(jié)果數(shù)據(jù)文件和原始媒體文件之問建立起時(shí)問點(diǎn)對應(yīng)關(guān)系,交互式回放給用戶瀏覽和使用。語音檢索系統(tǒng)只對媒體音頻文件進(jìn)行分析和索引,并保存相關(guān)元數(shù)據(jù)信息,但并不保存原始的媒體音頻文件,前臺(tái)集成應(yīng)用系統(tǒng)負(fù)責(zé)從原始媒體音頻庫中回放和瀏覽檢索結(jié)果對應(yīng)的原始音頻文件。
整個(gè)語音檢索系統(tǒng)由以下部分構(gòu)成:語音索引服務(wù)器、語音檢索服務(wù)器、集群控制器、系統(tǒng)管理器、開發(fā)集成接口(搜索引擎Web Service:對用戶提供Web Service方式的檢索查詢接口;搜索引擎API for Java:一組Java類庫,提供對整個(gè)系統(tǒng)的全功能編程支持,包括索引建立和檢索查詢、管理)、關(guān)系數(shù)據(jù)庫系統(tǒng)OraclelOg、Web服務(wù)器Tomcat、分布式計(jì)算平臺(tái)otcopus。
2.2系統(tǒng)邏輯構(gòu)架
系統(tǒng)邏輯架構(gòu)如下:索引服務(wù)從用戶的媒體音頻庫中讀取音頻數(shù)據(jù),建立相應(yīng)的內(nèi)容索引,存入存儲(chǔ)系統(tǒng)和關(guān)系數(shù)據(jù)庫中;檢索服務(wù)根據(jù)用戶提交的檢索請求對內(nèi)容索引進(jìn)行檢索,給出檢索結(jié)果;集群服務(wù)控制協(xié)調(diào)索引服務(wù)和檢索服務(wù),進(jìn)行虛擬功能包裝和負(fù)載均衡控制;現(xiàn)有的用戶業(yè)務(wù)系統(tǒng)可通過開發(fā)集成接口直接或問接與索引和檢索服務(wù)器交互,完成系統(tǒng)之間的集成;系統(tǒng)管理統(tǒng)一對整個(gè)語音檢索系統(tǒng)進(jìn)行配置和監(jiān)控。
2.2.1語音搜索功能設(shè)計(jì)
語音檢索功能包括關(guān)鍵音搜索功能、全文搜索功能。在搜索引擎系統(tǒng)加入媒體文件,指定以搜索內(nèi)容索引分類;索引完成之后,可通過相應(yīng)的搜索功能對其進(jìn)行檢索。
關(guān)鍵音搜索功能實(shí)現(xiàn)在海量媒體音頻文件中快速找出與用戶輸入的查詢詞發(fā)音相同或相似的位置,全文搜索功能實(shí)現(xiàn)定位用戶的查詢詞在媒體音頻文件中出現(xiàn)的位置。搜索結(jié)果中搜索詞準(zhǔn)確出現(xiàn)媒體文件的音頻對應(yīng)位置,可精確定位到毫秒。
語音搜索系統(tǒng)在設(shè)計(jì)中對結(jié)果條目的排序和過濾功能實(shí)現(xiàn)上要考慮多樣性、復(fù)雜性需求,由于媒體音頻庫含有上萬小時(shí)的音頻文件,搜索結(jié)果往往是數(shù)萬條,對結(jié)果條目的排序和過濾功能要求非常重要。語音搜索內(nèi)部引擎對每個(gè)搜索結(jié)果設(shè)置一個(gè)置信度的值,系統(tǒng)依據(jù)置信度值降序排列返回所有搜索結(jié)果。在導(dǎo)入媒體文件的時(shí)候,用戶給出了附加的元數(shù)據(jù)信息,如創(chuàng)建時(shí)問、類型、作者等信息項(xiàng),搜索時(shí)可按此元數(shù)據(jù)信息項(xiàng)進(jìn)行條件比對搜索。用戶在搜索輸入條件中可以增加相應(yīng)的條件查詢和排序指定,如搜索2017年的xx詞、按時(shí)問排序,語音檢索系統(tǒng)按指定的條件項(xiàng)對結(jié)果值進(jìn)行過濾,然后按指定的排序順序返回搜索結(jié)果信息。如用戶在搜索條件項(xiàng)中給出了具體的需要進(jìn)行搜索的媒體音頻文件列表,語音檢索系統(tǒng)則在這個(gè)列表中搜索指定的內(nèi)容,結(jié)果排序順序可以是文件列表給出的排序順序,也可是置信度或其它元數(shù)據(jù)域排序順序。
2.2.2智能媒體語音檢索系統(tǒng)在廣播電臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
吉林人民廣播電臺(tái)智能媒體語音檢索系統(tǒng)主要包括音頻自動(dòng)索引、關(guān)鍵音檢索、語音識別等關(guān)鍵技術(shù),構(gòu)建語音索引服務(wù)、語音內(nèi)容檢索服務(wù)、集群控制服務(wù)、系統(tǒng)管理、數(shù)據(jù)庫等服務(wù)功能,語音索引服務(wù)實(shí)現(xiàn)讀取用戶輸入的各種格式的媒體文件、從中抽取音頻信息、建立音頻內(nèi)容索引;語音內(nèi)容檢索服務(wù)實(shí)現(xiàn)根據(jù)用戶的檢索條件,基于索引服務(wù)器生成的內(nèi)容索引,提供音頻內(nèi)容檢索服務(wù);搭建存儲(chǔ)系統(tǒng)和數(shù)據(jù)庫系統(tǒng)之上的索引服務(wù)和檢索服務(wù)組成了檢索系統(tǒng)的底層計(jì)算支撐;集群控制服務(wù)和系統(tǒng)管理實(shí)現(xiàn)整合底層的多個(gè)索引和檢索服務(wù)的協(xié)調(diào)工作以及對整個(gè)系統(tǒng)的集中操作功能;實(shí)現(xiàn)對廣播電臺(tái)海量音頻庫中基于內(nèi)容的音頻進(jìn)行快速準(zhǔn)確檢索。
該系統(tǒng)已廣泛運(yùn)用于臺(tái)內(nèi)多媒體全業(yè)務(wù)綜合服務(wù)平臺(tái)中,數(shù)十萬小時(shí)量級的媒體索引和快速檢索,支持各種常見的視音頻格式(mp3、wmv、Wmaa、rm、avi等),并可根據(jù)記者、編輯要求進(jìn)行擴(kuò)展支持。語音識別檢索極大地提高記者、編輯對于音頻素材轉(zhuǎn)換成文字稿件的效率。
3結(jié)束語
廣播電臺(tái)融媒體語音智能檢索技術(shù)的應(yīng)用告別了傳統(tǒng)人工編目、簡單檢索的音頻搜索技術(shù)時(shí)代,以更高效、更精確的融媒體語音識別檢索技術(shù)以及科學(xué)、人性化的應(yīng)用成為廣播電臺(tái)提升媒體資料使用率的有效利器。融媒體語音智能檢索技術(shù)極大地滿足了記者、編輯對臺(tái)內(nèi)數(shù)字化海量信息多媒體智能、高效索引的需要,為未來廣播電臺(tái)移動(dòng)端融媒體語音智能檢索技術(shù)實(shí)踐打下堅(jiān)實(shí)的基礎(chǔ),在人工智能技術(shù)發(fā)展推動(dòng)下,融媒體語音檢索技術(shù)將更有效促進(jìn)廣電信息化廣播音頻的建設(shè)發(fā)展。