• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的嵌入式視覺感知交互系統(tǒng)設(shè)計與實現(xiàn)

      2024-01-23 04:00:28王智勇林鴻生周怡伶
      科技創(chuàng)新與應(yīng)用 2024年3期
      關(guān)鍵詞:語音背景卷積

      陶 金,王智勇,林鴻生,周怡伶

      (1.海軍士官學(xué)校,安徽 蚌埠 233012;2.92682 部隊,廣東 湛江 524000)

      視覺感知交互系統(tǒng)在民用領(lǐng)域應(yīng)用廣泛。早期的視覺感知一般是物體探知,如避障拐杖[1]、電子式行進輔具[2]、導(dǎo)盲機器人[3]等,其原理大多都是利用可見光、紅外、聲吶等傳感器進行探測,判斷障礙物的情況,然后通過報警的形式提醒用戶,但隨著AI 技術(shù)的進步,僅探測功能并不能滿足“感知”層次的需求,即對環(huán)境與物體的性質(zhì)判斷與屬性解釋。在這方面,語音智能助理發(fā)展較快、應(yīng)用更廣,語音智能助理主要意義在于解放雙手,語義辨識功能就是感知的直接體現(xiàn)。因循這一思路,可以開發(fā)一種對環(huán)境與物體進行視覺感知,配合輔助語音交互的嵌入式系統(tǒng),具有較強的現(xiàn)實意義和應(yīng)用前景。

      該系統(tǒng)的開發(fā)需要考慮以下幾個方面。

      1)采集圖像以后,需要判斷圖像中存在哪些目標(biāo)以及獲取它們的坐標(biāo)位置。

      2)采用卷積神經(jīng)網(wǎng)絡(luò)對不同的目標(biāo)進行分類識別,并在嵌入3 式平臺上實現(xiàn)。

      3)語音識別如何實現(xiàn)。

      4)語音播放如何實現(xiàn)。

      1 系統(tǒng)硬件設(shè)計

      系統(tǒng)以ARM Cortex-A9 處理器為核心,頻率達到650 MHz,片內(nèi)集成了32 KB 指令Cache 和32 KB 數(shù)據(jù)Cache,NEON 媒體處理引擎,非常適合于圖像處理。

      系統(tǒng)構(gòu)成主要包括語音識別、語音播放、圖形采集、中央處理控制等功能模塊。硬件組成框圖如圖1 所示。由圖1 可看出,語音識別模塊收集語音指令,引導(dǎo)圖像采集模塊完成圖形采集,中央處理控制模塊對采集的圖像數(shù)據(jù)進行計算處理,完成圖像中邏輯目標(biāo)的分割并智能識別,識別結(jié)果通過語音播放模塊輸出給用戶。

      1.1 圖像采集模塊

      考慮到系統(tǒng)使用的是Ubuntu 操作系統(tǒng),圖像采集模塊采用支持UVC 協(xié)議的Rmoncam S907 USB 攝像頭為圖像采集設(shè)備。鏡頭焦距為6 mm;輸出分辨率為640×480;像素為130 萬。

      1.2 語音識別模塊

      語音識別目前主要有2 個方案:本地語音識別方案和云端語音識別方案。考慮到云端語音識別需要連接網(wǎng)絡(luò),所以采用本地語音識別方案。識別框架如圖2所示。

      圖2 本地語音識別框架

      1.3 語音播放模塊

      語音播放模塊采用MP3 播放模式,選用型號為BY8301-16P 模塊。該模塊支持MP3、WAV 格式的解碼,內(nèi)部獨立存儲介質(zhì)使用SPI-FLASH,設(shè)計安裝功率為3 W 的語音播放驅(qū)動單元。

      2 系統(tǒng)軟件設(shè)計

      本系統(tǒng)底層硬件提供驅(qū)動支持、中斷管理、內(nèi)存管理等功能通過嵌入式操作系統(tǒng)實現(xiàn),當(dāng)系統(tǒng)啟動后,引導(dǎo)程序?qū)硬僮飨到y(tǒng)并初始化各部分硬件,再進入目標(biāo)分割與識別的主程序。本系統(tǒng)采用Ubuntu 操作系統(tǒng)。系統(tǒng)軟件流程如圖3 所示。

      圖3 系統(tǒng)軟件流程

      本文重點研究其中的目標(biāo)分割算法[4-10]與目標(biāo)識別算法[11-13]。

      2.1 目標(biāo)分割算法

      該算法的主要程序步驟如下。

      1)選擇基于面截塊的圖像分割算法獲取初始化分割截塊R={r1,r2,…,rn}。

      2)將擬合度集合初始化S=?。

      3)計算相鄰分割截塊擬合程度量化值,并將該量化值以元素形式納入擬合度集合S中。

      4)查詢到擬合度集合S中擬合度最大的2 個分割截塊。在此標(biāo)記為ri和rj,將ri和rj合并成為一個分割截塊,并標(biāo)記為rt,查詢上一步中所涉及的ri和rj分別相鄰的分割截塊,再次計算獲取擬合度,并將此值從擬合度集合S中剔除;再次計算rt與相鄰分割截塊(即第一步中與ri或rj相鄰的分割截塊)的擬合度,重新將新獲得的計算結(jié)果納入擬合度集合S中;最后,將通過合并得到的新分割截塊rt添加到分割截塊集合R中。

      5)逐一提取各分割截塊的邊界矩形,聯(lián)合所有矩形,即可獲得目標(biāo)物體的概略位置。

      此步的難點在于原始分割截塊的獲取和擬合度的計算。

      2.1.1 原始分割截塊的獲取

      將最小生成樹算法與分割截塊合并方法結(jié)合,采用基于自適應(yīng)閾值的快速最小生成樹分割方法,分別取2 個相鄰分割截塊各自的最大邊權(quán)值與閾值求和數(shù),當(dāng)該分割截塊之間的閾值小于上述數(shù)值使即將此兩分割截塊進行合并處理。

      式中:K為一個常數(shù),|C1|和|C2|為分割截塊C1和C2的二維平面大小,Int(C)為最小生成樹中分割截塊C的最大邊權(quán)值。為分割截塊C1和C2邊緣連接指數(shù)的最小權(quán)值。

      2.1.2 擬合度的計算

      1)顏色擬合度。為使用高維向量表示每個分割截塊的顏色特征,使用L1 范數(shù)歸一化逐一顏色通道計算獲得圖像的數(shù)值分布直方圖,由于每個顏色通道的直方圖有25 位,因此各分割截塊可得到唯一對應(yīng)的75 維向量。分割截塊之間顏色擬合度通過下面的公式計算

      合并分割截塊時,新生成分割截塊的直方圖需要重新計算,如下式所示

      2)紋理擬合度。每個顏色通道含8 個不同方向,設(shè)方差σ=1,運行高斯微分,獲得10 bins 的分通道單色值直方圖。參照顏色擬合度計算方式運行紋理擬合度計算,新分割截塊紋理特征計算過程亦類似。

      3)二維平面大小擬合度。通過合度方法計算二維平面大小數(shù)值,數(shù)值小的分割截塊優(yōu)先合并

      4)吻合擬合度。取已合并分割截塊Bounding Box值,該值大小對應(yīng)吻合擬合度低與高,即值越大,吻合擬合度越低,反之越高。

      最后,組合上述各類擬合指標(biāo)的擬合度計算方式。

      2.2 圖像分類識別算法

      作為最常見的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),卷積神經(jīng)網(wǎng)絡(luò)在解決圖像目標(biāo)識別方面具有非常實用和卓越的效果。

      綜合考慮運算速度和識別準(zhǔn)確率,本文采用卷積網(wǎng)絡(luò)的典型架構(gòu)。采用的分類網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。輸入彩色圖像尺寸為32×32×3,卷積層組合(3×3 卷積、3×3 卷積、池化層)重復(fù)3 次,2 個全連接層都含有1 024 個神經(jīng)元,輸出層為SVM。其中卷積核大小均為3×3,池化層尺寸為2×2。

      圖4 圖像分類識別網(wǎng)絡(luò)結(jié)構(gòu)

      本文采用Cifar-10 和Cifar-100 作為物體識別的數(shù)據(jù)集。從2 個數(shù)據(jù)集中抽取10 個類別的數(shù)據(jù)組成一個新的數(shù)據(jù)集,用于網(wǎng)絡(luò)訓(xùn)練。每個類別抽取600 張圖片,其中500 張為訓(xùn)練集,100 張為測試集。

      3 實驗結(jié)果

      為了驗證本文方法的可行性,作者從網(wǎng)絡(luò)上收集了簡單背景的圖片12 張,圖片里共有物體21 個;收集了復(fù)雜背景的圖片16 張,圖片里共有物體21 個。

      按照上述方法進行實驗,重點對目標(biāo)分割算法和圖像分類識別算法進行驗證。目標(biāo)的分割結(jié)果在圖像上以方框來呈現(xiàn),如圖5 所示;目標(biāo)的識別結(jié)果以分類識別的概率大小來呈現(xiàn)。本文對簡單背景和復(fù)雜背景下的場景進行實驗,部分實驗對象如圖6 和圖7 所示。簡單背景的實驗結(jié)果見表1,復(fù)雜背景的實驗結(jié)果見表2。

      表1 簡單背景的實驗結(jié)果

      表2 復(fù)雜背景的實驗結(jié)果

      圖5 目標(biāo)的定位結(jié)果

      圖6 簡單背景的部分實驗對象

      圖7 復(fù)雜背景的部分實驗對象

      通過實驗,得到如下結(jié)論。

      1)簡單背景和復(fù)雜背景下,均識別了21 個物體,其中3 個識別錯誤,識別準(zhǔn)確率均為85.7%。

      2)圖像分辨率越大,消耗時間越多。

      3)進行物體識別所消耗的時間比較小,適合于應(yīng)用到嵌入式系統(tǒng)。

      4)復(fù)雜背景的圖片要比簡單背景的圖片耗時長。

      4 結(jié)論

      本文設(shè)計并實現(xiàn)了嵌入式視覺感知交互系統(tǒng),實現(xiàn)了目標(biāo)圖像的采集、目標(biāo)的分割、目標(biāo)的識別以及語音識別、語音播放。針對設(shè)計的目標(biāo)分割定位算法、目標(biāo)識別算法,本文進行了大量實驗,驗證了系統(tǒng)設(shè)計的可行性。下一步研究方向是在嵌入式平臺上采用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)目標(biāo)分割,提高分割的準(zhǔn)確率及縮短運行時間,達到可以實時處理的水平,并將其應(yīng)用于一些智能化系統(tǒng)之中。

      猜你喜歡
      語音背景卷積
      “新四化”背景下汽車NVH的發(fā)展趨勢
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      《論持久戰(zhàn)》的寫作背景
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      晚清外語翻譯人才培養(yǎng)的背景
      齐河县| 确山县| 天祝| 肥东县| 溧水县| 大余县| 林州市| 固镇县| 雷州市| 大城县| 福鼎市| 密云县| 韶关市| 吐鲁番市| 汕尾市| 宝鸡市| 甘孜县| 通辽市| 营山县| 汕尾市| 陵水| 蒙自县| 布尔津县| 南皮县| 瑞安市| 炎陵县| 晋城| 安溪县| 峨眉山市| 民权县| 宁波市| 铜梁县| 建宁县| 连城县| 山阴县| 沁水县| 苏尼特右旗| 体育| 武汉市| 阜城县| 辽中县|