• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    語(yǔ)音識(shí)別預(yù)處理過(guò)程及其存在問(wèn)題

    2019-05-10 03:32:00付學(xué)桐
    科技傳播 2019年8期
    關(guān)鍵詞:語(yǔ)音識(shí)別預(yù)處理

    付學(xué)桐

    摘 要 隨著人工智能和網(wǎng)絡(luò)自動(dòng)化工程的不斷發(fā)展,人機(jī)交互模型發(fā)生了天翻地覆的變化,傳統(tǒng)的文字交互模式已被各種新型交互技術(shù)所取代,其中語(yǔ)音識(shí)別就是最為典型高效的一種。語(yǔ)音識(shí)別可以有效地將人類語(yǔ)音轉(zhuǎn)化為文字并識(shí)別,目前已廣泛地應(yīng)用于文字輸入等多個(gè)領(lǐng)域,在語(yǔ)音識(shí)別的整個(gè)流程中,預(yù)處理階段決定了其識(shí)別成功率和效率。文章從語(yǔ)音識(shí)別的過(guò)程講起,詳細(xì)分析了語(yǔ)音識(shí)別預(yù)處理過(guò)程,并對(duì)其未來(lái)發(fā)展進(jìn)行了展望。

    關(guān)鍵詞 語(yǔ)音識(shí)別;預(yù)處理;端點(diǎn)檢測(cè);采樣定理

    中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2019)233-0135-02

    隨著當(dāng)今人工智能的迅速發(fā)展,語(yǔ)音識(shí)別技術(shù)取得了較大的突破,在商業(yè)、軍事、民用等方面語(yǔ)音識(shí)別都得到了廣泛的運(yùn)用。目前國(guó)內(nèi)外已有許多對(duì)語(yǔ)音識(shí)別領(lǐng)域的研究和產(chǎn)品,如蘋果手機(jī)的Siri,微軟的Cortana,百度的智能音箱,科大訊飛的訊飛語(yǔ)音輸入等產(chǎn)品。語(yǔ)音識(shí)別之所以得到空前重視,從根本上說(shuō),也就是源于語(yǔ)音識(shí)別所帶來(lái)的簡(jiǎn)便性。在人工智能中,尤其重要的一點(diǎn)就是要讓機(jī)器人知道人類要做什么,所以務(wù)必要將人的指令轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的代碼數(shù)字,常見(jiàn)的方式有圖像、動(dòng)作、語(yǔ)音轉(zhuǎn)換等。而語(yǔ)言就是最直接最簡(jiǎn)單的轉(zhuǎn)換方式,但在其識(shí)別系統(tǒng)中,一般要將其在理想環(huán)境下訓(xùn)練成運(yùn)用于復(fù)雜含噪環(huán)境中的語(yǔ)音識(shí)別系統(tǒng)。語(yǔ)音識(shí)別預(yù)處理過(guò)程是整個(gè)語(yǔ)音識(shí)別處理過(guò)程的前端環(huán)節(jié),負(fù)責(zé)將復(fù)雜無(wú)規(guī)律的語(yǔ)音信號(hào)轉(zhuǎn)化為可供計(jì)算機(jī)識(shí)別的數(shù)字信息,對(duì)提高語(yǔ)音識(shí)別效率和成功率起著決定性作用。

    1 語(yǔ)音識(shí)別技術(shù)概述

    語(yǔ)音識(shí)別屬于新興技術(shù),目前尚未有一種嚴(yán)格規(guī)范化的定義,通常被認(rèn)為是一種將人類語(yǔ)音信息通過(guò)軟硬件轉(zhuǎn)化為文本信息的計(jì)算機(jī)技術(shù),由于其的特殊屬性,也有科學(xué)家將其歸類為自動(dòng)化技術(shù)。語(yǔ)音識(shí)別的技術(shù)體系復(fù)雜,主要包括基礎(chǔ)的發(fā)聲機(jī)理、聲波傳播、信號(hào)學(xué),高級(jí)的模式識(shí)別和人工智能理論,數(shù)學(xué)上的概率論和數(shù)理統(tǒng)計(jì)也有所涉及。語(yǔ)音識(shí)別的整個(gè)過(guò)程基本可以歸納成以下的步驟:輸入—接收語(yǔ)音—預(yù)處理—特征提取—對(duì)比—翻譯—輸出。

    簡(jiǎn)單地說(shuō)語(yǔ)音識(shí)別第一步就是將接受到的語(yǔ)音信息進(jìn)行一定的處理,將其切成一小段一小段的語(yǔ)音片段,再通過(guò)波形轉(zhuǎn)換,將每一小段語(yǔ)音變成一個(gè)多維向量,再將其向量與自身數(shù)據(jù)庫(kù)中的進(jìn)行對(duì)比,選出概念大的向量,轉(zhuǎn)化成數(shù)據(jù)庫(kù)中所對(duì)應(yīng)的狀態(tài)號(hào),最終將各個(gè)詞匯拼接從而得到語(yǔ)音識(shí)別的結(jié)果。在特征提取之前,有一項(xiàng)極為重要的流程——預(yù)處理。預(yù)處理是語(yǔ)音識(shí)別過(guò)程的前端,所以也叫做前端處理,其目的是通過(guò)對(duì)原始語(yǔ)音信號(hào)的處理,使其更好地被轉(zhuǎn)化為特定的數(shù)字量,以便進(jìn)行特征識(shí)別,提高語(yǔ)音識(shí)別的成功率和效率。如果語(yǔ)音識(shí)別中不做前端處理,則計(jì)算機(jī)就無(wú)法判斷該音頻從何開(kāi)始,又從何結(jié)束,同時(shí)大量的噪音也大大降低的音頻的準(zhǔn)確度。所以即使系統(tǒng)已收集可以比對(duì)的大量數(shù)據(jù),可接收的語(yǔ)言無(wú)法轉(zhuǎn)化正確的狀態(tài)號(hào),一切都無(wú)法達(dá)到相應(yīng)的指令。可以說(shuō)語(yǔ)音識(shí)別的預(yù)處理就相當(dāng)于系統(tǒng)的眼睛,所以預(yù)處理在整個(gè)過(guò)程中極其重要[ 1 ]。

    2 預(yù)處理方法及其技術(shù)

    預(yù)處理的常用方法有端點(diǎn)檢測(cè)、聲道轉(zhuǎn)換、預(yù)加重、去加重、分帖、加窗、重采樣等,不同的語(yǔ)音識(shí)別在預(yù)處理順序上有一定差別。

    2.1 端點(diǎn)檢測(cè)

    對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)域分析,可以明顯地辨別出原始語(yǔ)音信息包含有聲段、無(wú)聲段和濁音段,端點(diǎn)檢測(cè)則是通過(guò)區(qū)分以上不同段的信號(hào)來(lái)達(dá)到區(qū)劃語(yǔ)音的開(kāi)頭與結(jié)尾,端點(diǎn)檢測(cè)的唯一目的就是找到語(yǔ)音信號(hào)的起始點(diǎn)與結(jié)束點(diǎn)。端點(diǎn)檢測(cè)最常用的方法就是雙門眼檢測(cè)法。雙門眼檢測(cè)法是通過(guò)計(jì)算門限能量的方式來(lái)判斷語(yǔ)音端點(diǎn)的技術(shù),一般會(huì)在語(yǔ)音識(shí)別之前設(shè)置雙門的門限λ,然后分別計(jì)算每個(gè)時(shí)刻的語(yǔ)音能量,若該能量大于門限閾值,則新生成門限序列為1,反之則為0,從而得到門限序列后,將其點(diǎn)乘原始語(yǔ)音序列,得到有效語(yǔ)音序列。語(yǔ)音能量的計(jì)算公式為:

    2.2 預(yù)加重與去加重

    在實(shí)際應(yīng)用過(guò)程中,語(yǔ)音信息往往夾雜著環(huán)境中的各種其他聲音信息,由于人類發(fā)音的特性,語(yǔ)音信息經(jīng)過(guò)頻率轉(zhuǎn)換后往往大部分集中于低頻帶,從而使得低頻能量過(guò)大,高頻能量過(guò)低,計(jì)算機(jī)難以有效提取高頻語(yǔ)音信息。為了抵消掉這種情況,預(yù)處理階段使用預(yù)加重技術(shù),在語(yǔ)音信息的處理階段預(yù)先添加與原始語(yǔ)音高頻信號(hào),通過(guò)疊加之后,原始語(yǔ)音信息在高頻和低頻段的能量相當(dāng),使得識(shí)別效率明顯提升。而在語(yǔ)音識(shí)別系統(tǒng)的輸出端,則需要做相反的處理,也就是去加重,采用相反的負(fù)能量信號(hào)將添加的高頻成分去掉,從而還原原來(lái)的信號(hào)分布,有效提高聲音信號(hào)的信噪比[2]。

    2.3 分幀與加窗

    分幀從簡(jiǎn)單來(lái)說(shuō),一段信號(hào)整體是不穩(wěn)定的,但從局部來(lái)看,信號(hào)是穩(wěn)定的,所以要想接收端接收平穩(wěn)的信號(hào),就需對(duì)整段語(yǔ)音進(jìn)行分幀,也就是切成幾段。但是需要注意的是,根據(jù)香農(nóng)定理(Shannons Theorem),分幀越多地聲音片段,其開(kāi)始段和結(jié)束段會(huì)存在聲音不連續(xù)的現(xiàn)象,導(dǎo)致了分幀的幀長(zhǎng)越短,信號(hào)的誤差就越大。為了解決此問(wèn)題,語(yǔ)言學(xué)家提出了利用帶通濾波器來(lái)過(guò)濾的方法,也就是加窗。常見(jiàn)的三種窗函數(shù)是矩形窗、漢明窗和漢寧窗,其數(shù)學(xué)公式如下。

    實(shí)際系統(tǒng)中,語(yǔ)音信號(hào)處理一般加漢明窗,就可以滿足絕大多數(shù)種語(yǔ)音情況。語(yǔ)音識(shí)別的加窗類型受到許多因素的影響,包括不同說(shuō)話人的發(fā)音方式、說(shuō)話方式、環(huán)境噪音、傳輸信道衰落等,實(shí)際應(yīng)用時(shí)需要根據(jù)不同的情況選擇窗。

    2.4 重采樣

    根據(jù)信號(hào)學(xué)中的奈奎斯特采樣定理(Nyquists Theorem),再信號(hào)采集時(shí),如果采樣頻率滿足采樣頻率大于2倍最高頻率時(shí),經(jīng)過(guò)采樣后的信息可以原本保持的所有特征信息。根據(jù)這一定理,語(yǔ)音識(shí)別系統(tǒng)中通常采用重采樣技術(shù),也就是限定采樣器的采樣頻率為最高頻率的5~8倍。根據(jù)人類語(yǔ)音信號(hào)50Hz~6kHz的頻率范圍,可以得出重采樣器的采樣頻率為約16kHz左右,重采樣可以保證語(yǔ)音中的所有信息均被送至特征識(shí)別環(huán)節(jié)中[ 3 ]。

    3 語(yǔ)音識(shí)別預(yù)處理缺陷及其解決方案

    語(yǔ)音識(shí)別的局限性主要在語(yǔ)音源的多樣性,據(jù)相關(guān)資料顯示,全世界當(dāng)前一共有超過(guò)1 000種語(yǔ)言,而其中常規(guī)語(yǔ)言也就多達(dá)數(shù)十種,語(yǔ)言識(shí)別對(duì)于各種語(yǔ)言的適配是一項(xiàng)長(zhǎng)期的過(guò)程。同時(shí),類似于中文中的四川話、廣東話、上海話,各種大型語(yǔ)言中都有其特定的方言,且使用頻次很高,這些方言在語(yǔ)言詞匯和字符發(fā)音上都和傳統(tǒng)的語(yǔ)言不同,訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)適配方言也是亟待解決的問(wèn)題。當(dāng)語(yǔ)音信號(hào)在傳播過(guò)程中有所衰減,為了在保留細(xì)節(jié)的情況下還原聲波,人為可以利用前置聲音放大器的方式解決。在回聲消除和空間降噪方面,筆者認(rèn)為可以利用多麥克風(fēng)采樣技術(shù)作為解決方案。區(qū)別于一般的單一麥克風(fēng)采集技術(shù),多麥克風(fēng)技術(shù)搭配多通道采樣技術(shù),分別將人聲的高、中、低頻波段分別采集,同時(shí)將不同時(shí)間到達(dá)的聲音區(qū)分開(kāi)來(lái),在已知噪聲特性的情況下,可以有效降噪,提高人聲的辨識(shí)度[ 4 ]。

    當(dāng)前語(yǔ)音識(shí)別的發(fā)展問(wèn)題主要存在于兩種:一是反復(fù)說(shuō)話識(shí)別,頓挫識(shí)別。往往生活中由于某些人的語(yǔ)言習(xí)慣,可能會(huì)出現(xiàn)反復(fù)出現(xiàn)某個(gè)詞語(yǔ),或說(shuō)話結(jié)結(jié)巴巴。針對(duì)這一問(wèn)題,就要加強(qiáng)端點(diǎn)檢測(cè)的端點(diǎn)的選取,正確選取語(yǔ)音的頭尾,去除話語(yǔ)中間隔的空隙,使一段斷斷續(xù)續(xù)的話變成一段聯(lián)結(jié)的話。同時(shí)在處理中,可對(duì)某些重復(fù)出現(xiàn)的詞語(yǔ)進(jìn)行適當(dāng)?shù)膭h減,增加識(shí)別的速率。二是自然語(yǔ)言處理和字典的擴(kuò)充。由于語(yǔ)音識(shí)別運(yùn)用時(shí)的外界環(huán)境的復(fù)雜性,可能會(huì)出現(xiàn)方言,別的語(yǔ)種類型的語(yǔ)言。而解決的首要之舉就是增加數(shù)據(jù)庫(kù)中的數(shù)據(jù),從而擴(kuò)充字典,達(dá)到有效的預(yù)處理[5]。

    參考文獻(xiàn)

    [1]陳慧,芮賢義.基于VC++的汽車語(yǔ)音駕駛助手的設(shè)計(jì)與實(shí)現(xiàn)[J].電聲技術(shù),2016,40(8):36-39.

    [2]鐘浩,鮑鴻,張晶.一種改進(jìn)的語(yǔ)音動(dòng)態(tài)組合特征參數(shù)提取方法[J].電腦與信息技術(shù),2017,25(3):4-7.

    [3]陸振宇,何玨杉,趙為漢.關(guān)于多通道語(yǔ)音去噪的識(shí)別優(yōu)化研究[J].計(jì)算機(jī)仿真,2016,33(6):315-320.

    [4]胡郁.人工智能與語(yǔ)音識(shí)別技術(shù)[J].電子產(chǎn)品世界,2016,23(4):23-25.

    [5]張曉丹,黃麗霞,張雪英.關(guān)于在噪聲環(huán)境下語(yǔ)音識(shí)別優(yōu)化研究[J].計(jì)算機(jī)仿真,2016,33(8):172-176.

    猜你喜歡
    語(yǔ)音識(shí)別預(yù)處理
    基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
    通話中的語(yǔ)音識(shí)別技術(shù)
    面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
    淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
    絡(luò)合萃取法預(yù)處理H酸廢水
    農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
    基于LD3320的非特定人識(shí)別聲控?zé)粝到y(tǒng)設(shè)計(jì)
    基于語(yǔ)音識(shí)別的萬(wàn)能遙控器的設(shè)計(jì)
    PMU數(shù)據(jù)預(yù)處理及壓縮算法
    基于Android手機(jī)語(yǔ)音和Arduino控制板的機(jī)器人控制系統(tǒng)
    盱眙县| 龙山县| 集贤县| 蓬安县| 六盘水市| 凤翔县| 新营市| 张家川| 明星| 阿瓦提县| 湟源县| 福海县| 昌平区| 井陉县| 西藏| 龙口市| 内黄县| 瑞安市| 大安市| 北辰区| 新绛县| 科技| 平罗县| 习水县| 峡江县| 徐汇区| 隆化县| 旬阳县| 东山县| 宁夏| 漯河市| 鱼台县| 北票市| 高雄县| 克东县| 镇巴县| 当涂县| 阿合奇县| 宣化县| 汤阴县| 应城市|