袁方
摘要:目前,視頻會(huì)議系統(tǒng)在各大公司均得到了廣泛應(yīng)用,5G網(wǎng)絡(luò)時(shí)代的到來(lái),各公司對(duì)視頻會(huì)議的服務(wù)效率要求也越來(lái)越高。但現(xiàn)有的視頻會(huì)議系統(tǒng)還存在智能化程度不高、延時(shí)較大、操作不靈活等狀況。本課題通過(guò)開(kāi)發(fā)運(yùn)用智能語(yǔ)音識(shí)別系統(tǒng)設(shè)備,實(shí)現(xiàn)與既有視頻會(huì)議系統(tǒng)人性化交互,優(yōu)化會(huì)議控制功能,進(jìn)一步提升了視頻會(huì)議系統(tǒng)的服務(wù)效率和運(yùn)用質(zhì)量。
關(guān)鍵詞:智能語(yǔ)音識(shí)別;視頻會(huì)議;高效
中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)05-0049-02
1概述
1.1背景
近年來(lái),隨著大規(guī)模通信網(wǎng)絡(luò)建設(shè)和既有通信網(wǎng)絡(luò)的更新改造,視頻會(huì)議系統(tǒng)已逐步建成并陸續(xù)擴(kuò)大。但現(xiàn)有的會(huì)議系統(tǒng)網(wǎng)管對(duì)于已組會(huì)的會(huì)議控制方式仍然是以文字界面為主,對(duì)會(huì)議的控制尤其是根據(jù)需要對(duì)于特定會(huì)場(chǎng)進(jìn)行點(diǎn)名是非常不便的,嚴(yán)重影響了會(huì)議進(jìn)行的效率。如何更有效地組織管理規(guī)模較大的視頻會(huì)議、提高會(huì)議系統(tǒng)服務(wù)效率,已經(jīng)成為了亟需解決的難題。
1.2目標(biāo)
(1)開(kāi)發(fā)運(yùn)用語(yǔ)音識(shí)別系統(tǒng)設(shè)備,實(shí)現(xiàn)會(huì)場(chǎng)語(yǔ)音的智能識(shí)別;
(2)實(shí)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)與既有視頻會(huì)議系統(tǒng)的對(duì)接,進(jìn)而實(shí)現(xiàn)通過(guò)語(yǔ)音識(shí)別來(lái)智能地切換會(huì)場(chǎng)畫(huà)面,加快會(huì)議點(diǎn)名的效率。
通過(guò)以上改進(jìn),優(yōu)化視頻會(huì)議系統(tǒng)的會(huì)議控制功能,滿足視頻會(huì)議召開(kāi)時(shí)的會(huì)場(chǎng)點(diǎn)名時(shí)間要求,并方便網(wǎng)管操作人員的實(shí)際操作,提高視頻會(huì)議系統(tǒng)的服務(wù)質(zhì)量和開(kāi)會(huì)效率。
2研究?jī)?nèi)容及技術(shù)方案
2.1研究?jī)?nèi)容
(1)語(yǔ)音采集:通過(guò)在終端設(shè)備上增加語(yǔ)音采集設(shè)備,采用端點(diǎn)檢測(cè)、語(yǔ)音增強(qiáng)和維納濾波技術(shù),消除噪聲和不同說(shuō)話人帶來(lái)的影響,使處理后的信號(hào)更能反映語(yǔ)音的本質(zhì)特征。
(2)語(yǔ)音實(shí)時(shí)識(shí)別:應(yīng)用先進(jìn)的深度學(xué)習(xí)算法,實(shí)時(shí)的把各角色的發(fā)言的語(yǔ)音做識(shí)別處理。
(3)關(guān)鍵詞檢索及關(guān)聯(lián):在處理各角色的發(fā)言語(yǔ)音中過(guò)濾、篩選出相關(guān)的關(guān)鍵詞。
(4)實(shí)現(xiàn)與既有視頻會(huì)議系統(tǒng)的交互:在處理各角色的發(fā)言語(yǔ)音時(shí),通過(guò)過(guò)濾、篩選出相關(guān)的關(guān)鍵詞,針對(duì)不同的關(guān)鍵詞設(shè)計(jì)相關(guān)的交互動(dòng)作。
(5)開(kāi)發(fā)新會(huì)議點(diǎn)名控制界面:優(yōu)化操作,固定網(wǎng)管系統(tǒng)會(huì)議會(huì)場(chǎng)列表中各會(huì)場(chǎng)的排列方式,并根據(jù)會(huì)場(chǎng)終端的連接狀態(tài)確定網(wǎng)管上終端的顯示方式,便于網(wǎng)管系統(tǒng)操作人員進(jìn)行操作。
2.2技術(shù)方案
業(yè)務(wù)流程:語(yǔ)音識(shí)別系統(tǒng)一般包括預(yù)處理、特征提取、語(yǔ)音識(shí)別模型訓(xùn)練、模式匹配以及后語(yǔ)音處理等主要處理流程,這幾個(gè)主要處理流程分別介紹如下:
(1)預(yù)處理。待識(shí)別的原始語(yǔ)音信號(hào)一般在所有處理之前需要先進(jìn)行預(yù)處理,并對(duì)其實(shí)施預(yù)加重和分幀等處理,預(yù)處理的目的是為了提高語(yǔ)音信號(hào)的質(zhì)量,將原始信號(hào)處理成適合計(jì)算機(jī)處理的信號(hào),以便為后續(xù)的處理工作做準(zhǔn)備。
(2)特征提取。該過(guò)程先將通過(guò)分析預(yù)處理后的語(yǔ)音信號(hào),得到反映該信號(hào)的一些特征,然后利用這些特征,得到對(duì)應(yīng)的特征參數(shù),即獲得可以表示該語(yǔ)音信號(hào)實(shí)質(zhì)的參數(shù)。
(3)語(yǔ)音識(shí)別模型訓(xùn)練。從語(yǔ)音樣本數(shù)據(jù)庫(kù)中提取每條樣本語(yǔ)音的特征參數(shù),通過(guò)學(xué)習(xí)算法,利用樣本語(yǔ)音的特征參數(shù)在學(xué)習(xí)過(guò)程中不斷優(yōu)化模型進(jìn)而形成較為完善的語(yǔ)音識(shí)別模型。
(4)模式匹配。將從待識(shí)別語(yǔ)音信號(hào)中提取出的特征參數(shù)與已訓(xùn)練好的模板庫(kù)中的參考模板進(jìn)行匹配,得到最佳匹配結(jié)果,即獲得識(shí)別結(jié)果。
(5)后語(yǔ)音處理。利用語(yǔ)言學(xué)和機(jī)器學(xué)習(xí)等有關(guān)技術(shù)和知識(shí),從語(yǔ)法和語(yǔ)義層面,對(duì)識(shí)別結(jié)果進(jìn)行分析,使識(shí)別結(jié)果更加準(zhǔn)確,從而提高語(yǔ)音識(shí)別系統(tǒng)的性能。
本系統(tǒng)在原有的流程上增加交互設(shè)計(jì),具體的業(yè)務(wù)流程操作如下:
(1)通過(guò)在原來(lái)的會(huì)議系統(tǒng)的調(diào)音臺(tái)上分出其中一路音頻接入到語(yǔ)音識(shí)別交互系統(tǒng)中,完成整個(gè)語(yǔ)音的接入。
(2)通過(guò)對(duì)原會(huì)議系統(tǒng)實(shí)時(shí)語(yǔ)音和歷史語(yǔ)音數(shù)據(jù)進(jìn)行多場(chǎng)景模型訓(xùn)練,原始語(yǔ)音采樣量化、信號(hào)處理和特征提取及標(biāo)注后,完成具有聲學(xué)與語(yǔ)言模型訓(xùn)練針對(duì)性的語(yǔ)音識(shí)別模型、語(yǔ)義理解模型和會(huì)議專業(yè)知識(shí)庫(kù)。
(3)現(xiàn)場(chǎng)語(yǔ)音識(shí)別交互系統(tǒng)對(duì)接入的實(shí)時(shí)語(yǔ)音數(shù)據(jù)完成相應(yīng)的識(shí)別、關(guān)聯(lián)及理解,并將語(yǔ)音流所屬會(huì)議信息入庫(kù)。
(4)根據(jù)實(shí)時(shí)語(yǔ)音會(huì)議分析結(jié)果向原會(huì)議系統(tǒng)發(fā)送控制交互請(qǐng)求,原會(huì)議系統(tǒng)根據(jù)已經(jīng)定義的接口數(shù)據(jù)內(nèi)容自動(dòng)完成交互動(dòng)作,如圖像界面的切換等。
(5)也可以使用人工模式,采用新版本的模塊化設(shè)計(jì)控制界面和點(diǎn)面界面,實(shí)現(xiàn)會(huì)議控制和點(diǎn)名等操作的高效性。
3設(shè)計(jì)方案
3.1設(shè)計(jì)原則
(1)系統(tǒng)安全性原則:系統(tǒng)安全性是信息系統(tǒng)建設(shè)的基礎(chǔ),因此需要通過(guò)使用必要的安全機(jī)制,如:PKI身份認(rèn)證、數(shù)字簽名(CA)、用戶訪問(wèn)控制、身份鑒別、收發(fā)確認(rèn)、數(shù)據(jù)過(guò)濾、業(yè)務(wù)流量分析、權(quán)限控制等手段,提供可靠的安全管理措施以便保護(hù)系統(tǒng)安全。
(2)標(biāo)準(zhǔn)化原則:遵守國(guó)際和國(guó)內(nèi)的有關(guān)系統(tǒng)建設(shè)方面的標(biāo)準(zhǔn),按照規(guī)范的開(kāi)發(fā)流程進(jìn)行系統(tǒng)設(shè)計(jì)、開(kāi)發(fā)。
(3)耦合性原則:耦合性是度量一個(gè)程序結(jié)構(gòu)中各個(gè)模塊之間相互聯(lián)系的程度,它是影響軟件復(fù)雜程度的一個(gè)重要因素。系統(tǒng)在設(shè)計(jì)中要充分考慮與其它系統(tǒng)之間的數(shù)據(jù)交換,達(dá)到資源共享。要求系統(tǒng)采用符合業(yè)界標(biāo)準(zhǔn)的數(shù)據(jù)傳輸格式,進(jìn)行數(shù)據(jù)交換。
(4)易用性原則:依據(jù)全面的用戶需求調(diào)研和專家分析結(jié)果,開(kāi)發(fā)瀏覽器版系統(tǒng),具有強(qiáng)大的數(shù)據(jù)處理以及業(yè)務(wù)管理功能。采用靈活的互動(dòng)式的功能設(shè)計(jì)和界面設(shè)計(jì),既體現(xiàn)了現(xiàn)有的業(yè)務(wù)流程又方便使用人員的操作,又實(shí)現(xiàn)了功能性和易用性的統(tǒng)一。
(5)開(kāi)放性原則:系統(tǒng)開(kāi)放程度直接影響到系統(tǒng)的生命周期。系統(tǒng)真正符合三層瀏覽器/服務(wù)器(B/s)體系結(jié)構(gòu),考慮到良好的擴(kuò)充性。根據(jù)未來(lái)業(yè)務(wù)的增長(zhǎng)和變化,要求系統(tǒng)可以平滑地?cái)U(kuò)展和升級(jí),無(wú)需變動(dòng)系統(tǒng)架構(gòu)和現(xiàn)有設(shè)備。
(6)先進(jìn)陛原則:采用目前成熟、先進(jìn)的軟硬件技術(shù),在滿足性能指標(biāo)的前提下,選擇目前世界上知名廠家的成熟產(chǎn)品,提供最佳的解決方案。
3.2網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)及思路(如圖1)
4項(xiàng)目總結(jié)
本項(xiàng)目在原有的會(huì)議系統(tǒng)上增加了基于智能語(yǔ)音識(shí)別功能,在處理各會(huì)議角色的發(fā)言語(yǔ)音中過(guò)濾、篩選出相關(guān)的關(guān)鍵詞,實(shí)現(xiàn)了針對(duì)不同的關(guān)鍵詞設(shè)計(jì)相關(guān)的交互動(dòng)作的目的。
在語(yǔ)音識(shí)別自動(dòng)控制的功能上兼顧手動(dòng)模式,開(kāi)發(fā)利用視頻會(huì)議系統(tǒng)網(wǎng)管軟件,設(shè)計(jì)新會(huì)議點(diǎn)名控制界面,增加會(huì)場(chǎng)列表圖形化會(huì)議控制功能模塊,并固定網(wǎng)管系統(tǒng)會(huì)議會(huì)場(chǎng)列表中各會(huì)場(chǎng)的排列方式,并根據(jù)會(huì)場(chǎng)終端的連接狀態(tài)確定網(wǎng)管上終端的顯示方式,實(shí)現(xiàn)利用網(wǎng)管系統(tǒng)對(duì)正在召開(kāi)的會(huì)議進(jìn)行圖形化界面控制,便于網(wǎng)管系統(tǒng)操作人員進(jìn)行操作,切換等待時(shí)間由原來(lái)的8-12秒縮短為2-4秒。