韓文琳
摘要:媒體資產(chǎn)管理系統(tǒng)是廣播電視聲像檔案進(jìn)行數(shù)字化存儲(chǔ)的載體。當(dāng)人工智能與數(shù)字媒體資產(chǎn)管理系統(tǒng)融合,勢(shì)必產(chǎn)生新型的智能化媒體資產(chǎn)管理系統(tǒng)。這不僅能大幅度提高生產(chǎn)效率,還會(huì)喚醒沉睡在存儲(chǔ)深處的檔案內(nèi)容,讓媒體數(shù)據(jù)更加有溫度、可感知。本文詳細(xì)描述圖像識(shí)別、語(yǔ)音識(shí)別等技術(shù)在聲像檔案管理中的應(yīng)用。
關(guān)鍵詞:聲像檔案,媒資,人工智能,圖像識(shí)別,語(yǔ)音識(shí)別。
廣播電視聲像檔案是各級(jí)廣播電視臺(tái)宣傳活動(dòng)的真實(shí)記錄,是城市記憶的重要組成部分。近年來(lái),伴隨著媒體融合發(fā)展,廣播電視聲像檔案數(shù)量倍增,存儲(chǔ)載體也由傳統(tǒng)的磁帶庫(kù)發(fā)展為現(xiàn)代的媒體資產(chǎn)管理系統(tǒng)(簡(jiǎn)稱(chēng)媒資系統(tǒng))。媒資系統(tǒng)主要是對(duì)各種類(lèi)型的視頻資料、音頻資料、文字、圖片等媒體資料的數(shù)字化存儲(chǔ)、編目管理、檢索查詢(xún)等進(jìn)行全面管理的系統(tǒng)。2019年5月,國(guó)家廣電總局頒布了《廣播電視人工智能應(yīng)用白皮書(shū)(2018)》,進(jìn)一步規(guī)范引導(dǎo)人工智能在廣電行業(yè)的應(yīng)用,推動(dòng)人工智能與廣播電視行業(yè)的融合發(fā)展走上快車(chē)道。
1媒資業(yè)務(wù)流程
媒資系統(tǒng)是指使用國(guó)家相關(guān)標(biāo)準(zhǔn)和規(guī)范,完成對(duì)媒體數(shù)字化視音頻文件的文字描述和存儲(chǔ)。在業(yè)務(wù)方面主要有兩個(gè)方向,一是入庫(kù)保存方向,包含上載、編目、審核、近線(xiàn)歸檔、發(fā)布;二是查找輸出方向,包含檢索、下載申請(qǐng)、審批、導(dǎo)出。通常在媒資系統(tǒng)中還會(huì)加入一些以把控媒體文件質(zhì)量和提高編目效率為目的功能,例如自動(dòng)技審、轉(zhuǎn)碼等。入庫(kù)流程如下圖所示:
檢索下載流程如下圖所示:
2人工智能
人工智能(ArtificialIntelligence),英文縮寫(xiě)為AI。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。在當(dāng)前媒體行業(yè)中普遍開(kāi)始接觸和應(yīng)用的AI技術(shù)包含:圖像識(shí)別、人臉識(shí)別、語(yǔ)音識(shí)別、聲紋識(shí)別等技術(shù)。
圖像識(shí)別,是指利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別各種不同模式的目標(biāo)和對(duì)像的技術(shù)。
人臉識(shí)別,是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)。用攝像機(jī)或攝像頭采集含有人臉的圖像或視頻流,并自動(dòng)在圖像中檢測(cè)和跟蹤人臉,進(jìn)而對(duì)檢測(cè)到的人臉進(jìn)行臉部識(shí)別的一系列相關(guān)技術(shù),通常也叫作人像識(shí)別、面部識(shí)別。人臉識(shí)別是當(dāng)前媒體行業(yè)中應(yīng)用較多的一種AI技術(shù)。
語(yǔ)音識(shí)別,是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的一項(xiàng)技術(shù),在當(dāng)前媒體行業(yè)中應(yīng)用也非常頻繁。
聲紋識(shí)別,是生物識(shí)別技術(shù)的一種,聲紋識(shí)別可以把聲信號(hào)轉(zhuǎn)換成電信號(hào),再用計(jì)算機(jī)進(jìn)行識(shí)別,在媒體行業(yè)中通常應(yīng)用于檢索和對(duì)比。
3人工智能在媒資系統(tǒng)的應(yīng)用
長(zhǎng)春廣播電視臺(tái)于2016年開(kāi)始建立現(xiàn)代媒資系統(tǒng),擬對(duì)建臺(tái)以來(lái)的海量珍貴音像資料進(jìn)行數(shù)字化存儲(chǔ)和管理。現(xiàn)有的音視頻資料具有種類(lèi)多、數(shù)量大、增長(zhǎng)快的特點(diǎn),目前已完成數(shù)字化磁帶上載10萬(wàn)本,包含自制文藝、專(zhuān)題、新聞、晚會(huì)、臺(tái)史資料、素材、電視劇等多個(gè)品類(lèi)。不可否認(rèn),傳統(tǒng)媒體資產(chǎn)管理系統(tǒng)(簡(jiǎn)稱(chēng)媒資)對(duì)數(shù)字化視音頻內(nèi)容進(jìn)行規(guī)定格式的文字化描述,盡管便于用戶(hù)對(duì)視音頻資料進(jìn)行檢索使用,但不能滿(mǎn)足當(dāng)前融合媒體發(fā)展的需要。人工智能應(yīng)用于廣播電視聲像檔案管理,必將在效率提升、規(guī)范管理、提高內(nèi)容活躍度等方面起到巨大作用。
3.1圖像識(shí)別的應(yīng)用
圖像識(shí)別的應(yīng)用主要應(yīng)用于媒資媒體內(nèi)容的內(nèi)容識(shí)別上,例如視音頻文件的字幕識(shí)別、暴恐畫(huà)面等的識(shí)別。在媒資系統(tǒng)中,對(duì)上載入庫(kù)的視音頻內(nèi)容都會(huì)經(jīng)過(guò)處理描述,在傳統(tǒng)的流程方式中,處理手段較少,例如自動(dòng)技審僅檢測(cè)該視頻中是否有錯(cuò)誤畫(huà)面,這些錯(cuò)誤畫(huà)面如花幀、黑場(chǎng)、彩條等。當(dāng)圖像識(shí)別技術(shù)引入后,在檢測(cè)環(huán)節(jié)將會(huì)有更多的內(nèi)容被處理,包括:
畫(huà)面中使用到的字幕將轉(zhuǎn)換為文字,作為媒資視音頻文件的自動(dòng)編目數(shù)據(jù);
畫(huà)面中出現(xiàn)的暴恐、黃色鏡頭,將以時(shí)間點(diǎn)的方式為人工復(fù)核提供準(zhǔn)確的鏡頭呈現(xiàn),以提示后續(xù)處理將著重考慮畫(huà)面是否合法可用;
通過(guò)圖像識(shí)別技術(shù)與原自動(dòng)技審技術(shù)的疊加,增強(qiáng)審核檢測(cè)節(jié)點(diǎn)對(duì)視音頻文件的描述,對(duì)視音頻入庫(kù)的質(zhì)量提供了保障。完成圖像識(shí)別技術(shù)的融合后,媒資入庫(kù)流程將出現(xiàn)的變化如下:
通過(guò)圖像識(shí)別后的流程與傳統(tǒng)媒資流程雖然差別不是很大,但對(duì)內(nèi)容入庫(kù)的質(zhì)量提供了更好的保證。
3.2人臉識(shí)別的應(yīng)用
人臉識(shí)別在媒資系統(tǒng)中的應(yīng)用主要體現(xiàn)在兩個(gè)方面:一是視音頻素材入庫(kù)后的人臉信息提取,主要用來(lái)做鏡頭層自動(dòng)提取后的輔助自動(dòng)編目;二是對(duì)敏感人物識(shí)別后的自動(dòng)標(biāo)記,以控制內(nèi)容發(fā)布后的可見(jiàn)范圍。
加入人臉識(shí)別功能后,一方面在編目節(jié)點(diǎn)可以填充自動(dòng)提取的鏡頭信息,另一方面可以輔助編目人員在編目過(guò)程中設(shè)置內(nèi)容的可見(jiàn)范圍。例如某些政治敏感人物是否能對(duì)其檢索開(kāi)發(fā),或是開(kāi)發(fā)的范圍有多大,以及內(nèi)容在視音頻編目規(guī)范中的密級(jí)設(shè)置等都可以提供參考。
通過(guò)人臉識(shí)別發(fā)布后的內(nèi)容,用戶(hù)可以有多種檢索方式來(lái)查詢(xún)內(nèi)容,例如文字搜索、以圖搜圖等形式,同時(shí)還可以為今后內(nèi)容運(yùn)營(yíng)提供數(shù)據(jù)支撐,為運(yùn)營(yíng)者提供內(nèi)容推薦。
3.3語(yǔ)音識(shí)別的應(yīng)用
語(yǔ)音識(shí)別最大的應(yīng)用方面是將視音頻內(nèi)容的語(yǔ)音識(shí)別成時(shí)間線(xiàn)文字。時(shí)間線(xiàn)文字定義為在該視音頻文件內(nèi)的相對(duì)時(shí)間上出現(xiàn)的語(yǔ)音轉(zhuǎn)化后的文字。通過(guò)語(yǔ)音識(shí)別后的視音頻內(nèi)容,可以附帶所有文件中的語(yǔ)音文字。在現(xiàn)代媒資管理中,有了語(yǔ)音識(shí)別的輔助后,將大大地提高新聞?lì)?、?zhuān)題類(lèi)的編目效率。轉(zhuǎn)換后的時(shí)間線(xiàn)文字如下圖:
完成語(yǔ)音識(shí)別后的視音頻素材,在媒資編目中將提高編目效率,能快速將視音頻文件中的內(nèi)容體現(xiàn)到“片段層”編目的內(nèi)容中去。其入庫(kù)流程變化為:
3.4聲紋識(shí)別的應(yīng)用
聲紋識(shí)別在媒資中的應(yīng)用主要體現(xiàn)在檢索階段。對(duì)于媒資中的海量素材,除了提供全文檢索、高級(jí)檢索的文字檢索方式外,還會(huì)提供以圖搜圖(關(guān)鍵字檢索)和聲紋檢索方式。聲紋檢索的應(yīng)用場(chǎng)景將是用戶(hù)面對(duì)檢索界面“哼唱”或應(yīng)用移動(dòng)設(shè)備“播放”片段旋律,從而通過(guò)聲紋識(shí)別,將“合唱”和“播放”的旋律識(shí)別到媒資系統(tǒng)中,同時(shí)在通過(guò)聲紋檢索將識(shí)別后相近的內(nèi)容呈現(xiàn)給檢索用戶(hù)。聲紋檢索是媒資檢索手段的擴(kuò)充,是提高用戶(hù)查詢(xún)內(nèi)容的重要手段。
聲紋檢索下載的流程通常為:
自動(dòng)技審、圖像識(shí)別、人臉識(shí)別、語(yǔ)音識(shí)別保證了內(nèi)容入庫(kù)的質(zhì)量,提高了媒資系統(tǒng)在編目中的效率,不僅縮短了人工編目的時(shí)間,同時(shí)極大豐富了編目?jī)?nèi)容,在提高效率的同時(shí)還使對(duì)視音頻文件的描述更加詳細(xì)。
聲紋識(shí)別豐富了媒資系統(tǒng)的檢索手段,讓用戶(hù)能更快、更便捷地找到自己想要的內(nèi)容。
在媒資系統(tǒng),特別是視音頻媒資系統(tǒng)中,通過(guò)圖像識(shí)別、人臉識(shí)別、語(yǔ)音識(shí)別和聲紋識(shí)別等AI技術(shù),不僅可以對(duì)媒資系統(tǒng)入庫(kù)的內(nèi)容進(jìn)行質(zhì)量方面的把控,同時(shí)還可以極大地提高媒資系統(tǒng)的運(yùn)轉(zhuǎn)效率,讓媒資系統(tǒng)能更好地服務(wù)于為節(jié)目生產(chǎn)和播出。毫無(wú)疑問(wèn),在未來(lái)的廣播電視聲像檔案管理中,利用人工智能和大數(shù)據(jù)技術(shù)會(huì)使其保存的內(nèi)容更加活躍、更有溫度。
長(zhǎng)春廣播電視臺(tái)將結(jié)合“智慧長(zhǎng)春”建設(shè),努力在“存量數(shù)字化、增量電子化、利用網(wǎng)絡(luò)化”方面下功夫,不斷提升聲像檔案工作現(xiàn)代化水平,對(duì)內(nèi)積極服務(wù)于采編播生產(chǎn)部門(mén),對(duì)外提高與省廣電音像資料館、省圖書(shū)館、市圖書(shū)館、市城建檔案館、長(zhǎng)影集團(tuán)等單位的數(shù)據(jù)交互能力,更大限度地展現(xiàn)其獨(dú)特的歷史價(jià)值、重要的文藝欣賞和收藏價(jià)值,讓廣播電視臺(tái)的歷史更完整、現(xiàn)實(shí)更豐富、未來(lái)更輝煌。
參考文獻(xiàn):
[1]廣播電視人工智能應(yīng)用白皮書(shū)(2018)
[2]廣播電視行業(yè)應(yīng)用大數(shù)據(jù)技術(shù)白皮書(shū)(2018)
[3]廣播電視音像資料編目規(guī)范第1部分電視資料
[4]廣播電視音像資料編目規(guī)范第2部分音頻
[5]倪明昊,單文火.人工智能時(shí)代新型媒資管理系統(tǒng)的構(gòu)建思路及技術(shù)實(shí)現(xiàn).廣播與電視技術(shù),2019(3).
[6]唐百慧,曹三省.人工智能在廣播電視行業(yè)中的應(yīng)用研究.廣播電視信息,2018(8).