• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于TensorFlow.js的英文語(yǔ)音識(shí)別研究與實(shí)現(xiàn)

    2021-09-14 02:48:15李東升蘇煜輝陳正銘
    電腦知識(shí)與技術(shù) 2021年22期
    關(guān)鍵詞:語(yǔ)音識(shí)別

    李東升 蘇煜輝 陳正銘

    摘要:TensorFlow是谷歌基于DistBelief進(jìn)行研發(fā)的第二代人工智能學(xué)習(xí)系統(tǒng),而本文將介紹其衍生的js版本即TensorFlow.js框架,并且基于這個(gè)框架和瀏覽器環(huán)境加載一個(gè)預(yù)訓(xùn)練模型來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別簡(jiǎn)單孤立的英文單詞的功能。通過(guò)對(duì)預(yù)訓(xùn)練模型的使用與優(yōu)化研究,為進(jìn)一步使用TensorFlow.js實(shí)現(xiàn)更加復(fù)雜的商業(yè)化功能做了前期探索。

    關(guān)鍵詞:預(yù)訓(xùn)練模型;TensorFlow.js;語(yǔ)音識(shí)別

    1 概述

    簡(jiǎn)單的語(yǔ)音識(shí)別實(shí)際上也是屬于分類問(wèn)題,而聲音在計(jì)算機(jī)中是被當(dāng)成聲譜圖,既然是圖片類的,那么就可以使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建訓(xùn)練模型[1]。實(shí)際上很多成熟的語(yǔ)音識(shí)別模型也是基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的,本文也將采用Tfjs-model這個(gè)官方模型庫(kù)里面的speech-commands這個(gè)預(yù)訓(xùn)練好的語(yǔ)音命令模型,該模型可以獲取一秒的音頻片段,十分適合用來(lái)實(shí)現(xiàn)一個(gè)簡(jiǎn)單的語(yǔ)音識(shí)別功能。

    2 TensorFlow.js框架

    2.1 TensorFlow.js特性

    需要說(shuō)明的是TensorFlow.js使用的是Tensor,也稱為張量,有別于一般數(shù)組,它是向量和矩陣向更高維度的拓展,也可以近似的看成一個(gè)多維數(shù)組。而神經(jīng)網(wǎng)絡(luò)具有多個(gè)神經(jīng)元和層,每一層都需要存儲(chǔ)N維的數(shù)據(jù)[5],這些數(shù)據(jù)往往需要進(jìn)行N層的遍歷循環(huán)計(jì)算等,導(dǎo)致其數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜,因此就需要張量這樣一個(gè)高維的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)這些數(shù)據(jù)。

    下文中的模型特指人工神經(jīng)網(wǎng)絡(luò)模型,主要由TensorFlow.js框架的sequential方法初始化并根據(jù)需求逐步添加輸入層、隱藏層和輸出層。每個(gè)神經(jīng)網(wǎng)絡(luò)模型里面都包含一個(gè)輸入層、最少一個(gè)隱藏層、一個(gè)輸出層,每個(gè)層由任意個(gè)(至少為1個(gè))神經(jīng)元構(gòu)成。每個(gè)神經(jīng)元都會(huì)包含若干權(quán)重、偏置和一個(gè)激活函數(shù)。

    2.2 TensorFlow.js開發(fā)環(huán)境搭建

    所謂“工欲善其事必先利其器”,第一步首先是如何安裝TensorFlow.js。安裝的話其實(shí)分為在瀏覽器安裝和在node安裝,考慮到瀏覽器的便捷性和容易上手的特性,所以介紹相對(duì)比較簡(jiǎn)單的瀏覽器安裝。

    完成上述TensorFlow.js庫(kù)的安裝后就可以在瀏覽器上運(yùn)行機(jī)器學(xué)習(xí)模型或者加載預(yù)訓(xùn)練模型。

    3 預(yù)訓(xùn)練模型的使用

    3.1 預(yù)訓(xùn)練模型

    3.2 預(yù)訓(xùn)練模型實(shí)現(xiàn)

    由于是預(yù)訓(xùn)練模型,故需要從官方倉(cāng)庫(kù)那里下載語(yǔ)音識(shí)別模型文件,保存到本地文件夾中,然后就可以在本地開啟靜態(tài)文件服務(wù)器(http-server或者nginx皆可,這里啟動(dòng)的地址默認(rèn)為:http://127.0.0.1:8080)并且能通過(guò)靜態(tài)服務(wù)器訪問(wèn)到這個(gè)文件,下載這個(gè)模型文件后還需要安裝對(duì)應(yīng)的依賴,可以在終端命令行運(yùn)行npm i @tensorflow-models/speech-commands,然后在編寫業(yè)務(wù)邏輯的地方引入即可完成準(zhǔn)備工作,接下來(lái)將新建一個(gè)script.js文件來(lái)書寫具體的訓(xùn)練邏輯,步驟如下:

    語(yǔ)音命令識(shí)別器的定義(在線流媒體識(shí)別方式):利用導(dǎo)入的模型文件里面自帶的create方法建立一個(gè)識(shí)別器實(shí)例,這個(gè)識(shí)別器可以用來(lái)加載我們的預(yù)訓(xùn)練模型。該識(shí)別器需要傳入四個(gè)參數(shù)(第一個(gè)必選,其余為可選的識(shí)別參數(shù)),這里傳入了瀏覽器傅里葉轉(zhuǎn)換、null為默認(rèn)識(shí)別單詞(由于已經(jīng)給出模型地址故應(yīng)該給null或者undefined)、預(yù)訓(xùn)練模型的地址、預(yù)訓(xùn)練模型的源文件信息(地址和信息來(lái)源于剛剛安裝的語(yǔ)言識(shí)別依賴):

    3.3模型預(yù)測(cè)

    經(jīng)過(guò)上面的步驟之后就已經(jīng)完成了加載預(yù)訓(xùn)練模型,同時(shí)獲得了模型的標(biāo)簽,接下來(lái)就可以通過(guò)監(jiān)聽用戶麥克風(fēng)的輸入即特征來(lái)進(jìn)行語(yǔ)音識(shí)別了。

    監(jiān)聽用戶麥克風(fēng):這個(gè)可以通過(guò)H5實(shí)現(xiàn),但是識(shí)別器通過(guò)了listen方法也可以讓開發(fā)者監(jiān)聽。需要獲得用戶輸入對(duì)應(yīng)詞匯表中每個(gè)單詞對(duì)應(yīng)的符合程度,并且獲取其中符合程度最高的單詞,這個(gè)單詞就是根據(jù)用戶輸入的語(yǔ)音識(shí)別得到的,將這個(gè)單詞打印并顯示到頁(yè)面:

    猜你喜歡
    語(yǔ)音識(shí)別
    空管陸空通話英語(yǔ)發(fā)音模板設(shè)計(jì)與應(yīng)用
    通話中的語(yǔ)音識(shí)別技術(shù)
    面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
    淺析智能語(yǔ)音技術(shù)及其應(yīng)用
    語(yǔ)音識(shí)別的SVM模型選擇分析
    農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
    基于LD3320的非特定人識(shí)別聲控?zé)粝到y(tǒng)設(shè)計(jì)
    航天三維可視化系統(tǒng)中語(yǔ)音控制技術(shù)的研究與應(yīng)用
    基于語(yǔ)音識(shí)別的萬(wàn)能遙控器的設(shè)計(jì)
    基于語(yǔ)音技術(shù)的商務(wù)英語(yǔ)移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
    鄂尔多斯市| 墨江| 泌阳县| 靖江市| 鸡西市| 汝城县| 巴彦县| 漳浦县| 上饶市| 南雄市| 永兴县| 安岳县| 麻江县| 宾川县| 武功县| 陇南市| 千阳县| 吉水县| 拜城县| 射洪县| 老河口市| 上犹县| 凤城市| 伊宁市| 姚安县| 卢氏县| 五寨县| 泾阳县| 邢台市| 甘德县| 万山特区| 襄樊市| 海城市| 安多县| 天门市| 手机| 台州市| 奎屯市| 宁晋县| 平泉县| 罗源县|