劉宇紅++劉超++何騰鵬
摘 要系統(tǒng)利用機(jī)器視覺、數(shù)字圖像處理與識(shí)別、深度學(xué)習(xí)、計(jì)算機(jī)網(wǎng)絡(luò)等前沿技術(shù),實(shí)現(xiàn)了對(duì)使用者前方障礙物的類別、方位、距離的綜合探測,同時(shí)實(shí)現(xiàn)衛(wèi)星定位、語音播報(bào)、3G網(wǎng)絡(luò)通信和短信聯(lián)系家人等功能。系統(tǒng)采用本地-服務(wù)器遞進(jìn)識(shí)別方案,在前端與云服務(wù)器端分別利用模板匹配與深度學(xué)習(xí)完成對(duì)常見障礙物以及非常見障礙物的識(shí)別。
【關(guān)鍵詞】深度學(xué)習(xí) 機(jī)器視覺 Opencv 雙目攝像頭 本地-服務(wù)器遞進(jìn)識(shí)別
1 引言
目前市場上的導(dǎo)盲產(chǎn)品,大多數(shù)還只是停留在研制或者試戴完善階段,且功能單一、智能水平較低。如智能導(dǎo)盲眼鏡,在國際和國內(nèi)都有團(tuán)隊(duì)和個(gè)人進(jìn)行過研究,但都始終停留在性能檢測與可行性論證階段,至今并未對(duì)其進(jìn)行產(chǎn)品的批量化生產(chǎn),尤其是在國內(nèi),對(duì)智能導(dǎo)盲設(shè)備的研發(fā)更是剛剛處于起步階段,距大規(guī)模產(chǎn)品化、商業(yè)化還有很長的一段距離。鑒于此,目前迫切需要一種專門為視覺障礙者研制開發(fā)的便捷、高效的智能導(dǎo)盲設(shè)備。
2 系統(tǒng)體系結(jié)構(gòu)
系統(tǒng)通過雙目攝像頭采集使用者前方的環(huán)境圖像,獲取的圖像采用本地-服務(wù)器遞進(jìn)方案進(jìn)行識(shí)別,即先由主控單元對(duì)常見物體通過圖像模板匹配和視差圖進(jìn)行識(shí)別與測距,如無法辨別,再利用3G模塊的網(wǎng)絡(luò)通信功能發(fā)送至云服務(wù)器,云服務(wù)器利用深度學(xué)習(xí)與雙目測距等算法,從上傳的圖像中獲取障礙物距離與類別信息,并將信息以文本格式發(fā)送回智能視覺終端,再由語音模塊將其轉(zhuǎn)化成語音信息,通過語音方式告知盲人。
3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
3.1 視頻采集設(shè)備驅(qū)動(dòng)程序設(shè)計(jì)
視頻采集設(shè)備可視為一個(gè)平臺(tái)總線設(shè)備對(duì)象,該對(duì)象將設(shè)備的資源封裝在設(shè)備對(duì)象中。平臺(tái)設(shè)備對(duì)象需要使用platform_device_register()函數(shù)向系統(tǒng)注冊(cè)此設(shè)備。結(jié)合camera控制器設(shè)備的特點(diǎn),注冊(cè)方法為platform_device_register (device_camera)。該注冊(cè)函數(shù)會(huì)調(diào)用platform_device_add()函數(shù),將平臺(tái)設(shè)備掛到平臺(tái)總線上,并向內(nèi)核申請(qǐng)平臺(tái)設(shè)備所需的資源,接著將平臺(tái)設(shè)備對(duì)象轉(zhuǎn)化為內(nèi)核設(shè)備對(duì)象,調(diào)用device_add()函數(shù)進(jìn)行處理,將內(nèi)核設(shè)備對(duì)象加入到內(nèi)核設(shè)備樹中,最后調(diào)用device_attach函數(shù)完成設(shè)備對(duì)象與設(shè)備驅(qū)動(dòng)對(duì)象的綁定工作。
3.2 雙目測距原理
雙目測距根據(jù)相似三角形原理實(shí)現(xiàn),其方法如下:
(1)雙目校正和標(biāo)定,獲得攝像頭的參數(shù)矩陣。
(2)立體匹配,獲得視差圖。
(3)采用BM算法生成視差圖,如果左右匹配點(diǎn)比較稠密,匹配點(diǎn)多,得到的圖像與原圖相似度比較大,如果匹配點(diǎn)比較稀疏,得到的點(diǎn)與原圖相似度比較小。
(4)得出測距。
(5)把生成的視差圖輸入到reprojectImageTo3D()函數(shù),生成3D點(diǎn)云,3D點(diǎn)云中保存有2D圖像的三維坐標(biāo),再讀出每幀圖像的三維坐標(biāo)中的z軸的值,就得出了距離數(shù)據(jù)。
3.3 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)訓(xùn)練過程如下:
3.3.1 自下而上非監(jiān)督學(xué)習(xí)
采用無標(biāo)定數(shù)據(jù)分層訓(xùn)練各層參數(shù),首先用無標(biāo)定數(shù)據(jù)訓(xùn)練第一層,訓(xùn)練時(shí)先學(xué)習(xí)第一層的參數(shù),由于模型容量的限制以及稀疏性約束,使得得到的模型能夠?qū)W習(xí)到數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更具有表示能力的特征;在學(xué)習(xí)得到第n-1層后,將n-1層的輸出作為第n層的輸入,訓(xùn)練第n層,由此分別得到各層的參數(shù);
3.3.2 自頂向下的監(jiān)督學(xué)習(xí)
通過帶標(biāo)簽的數(shù)據(jù)去訓(xùn)練,誤差自頂向下傳輸,對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)?;诘谝徊降玫降母鲗訁?shù)進(jìn)一步微調(diào)整個(gè)多層模型的參數(shù),這一步是一個(gè)有監(jiān)督訓(xùn)練過程;第一步類似神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化初值過程,由于DL的第一步不是隨機(jī)初始化,而是通過學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的,因而這個(gè)初值更接近全局最優(yōu),從而能夠取得更好的效果。
3.4 云服務(wù)器的實(shí)現(xiàn)
云服務(wù)器是由多臺(tái)并行計(jì)算的服務(wù)器所構(gòu)成服務(wù)器集群,具有較強(qiáng)的運(yùn)算能力。系統(tǒng)的圖像分析正是通過在云服務(wù)器上搭建軟件平臺(tái),利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),建立大量的圖像學(xué)習(xí)數(shù)據(jù)庫,從而完成對(duì)傳輸進(jìn)來的圖片進(jìn)行識(shí)別處理。
WebSocket云服務(wù)器實(shí)現(xiàn)的主要代碼如下:
IPEndPoint localEP = new IPEndPoint(IPAddress.Any, port);
Socket listener = new Socket(localEP.Address.
AddressFamily,SocketType.Stream, ProtocolType.Tcp);
try{
listener.Bind(localEP);
listener.Listen(10);
Socket sc = listener.Accept();//接受一個(gè)連接
int length = sc.Receive(buffer);//接受客戶端握手信息
sc.Send(PackHandShakeData(GetSecKeyAccetp(buffer, ength)));
length = sc.Receive(buffer);//接受客戶端信息
string clientMsg = AnalyticData(buffer, length);} //解析客戶端數(shù)據(jù)
4 測試結(jié)果
系統(tǒng)的訓(xùn)練過程采用CIFAR-10自然場景庫。CIFAR-10數(shù)據(jù)集包含60000個(gè)32*32的彩色圖像,共有10類。有50000個(gè)訓(xùn)練圖像和10000個(gè)測試圖像。數(shù)據(jù)集分為5個(gè)訓(xùn)練塊和1個(gè)測試塊,每個(gè)塊有10000個(gè)圖像。在CIFAR-10自然場景庫之外,本系統(tǒng)加入了一些生活中常見的場景:椅子,垃圾箱,人。這樣更能檢測識(shí)別系統(tǒng)的實(shí)用性。系統(tǒng)識(shí)別結(jié)果如圖1所示,由測試結(jié)果可以看出,對(duì)給定的幾種生活中常見的場景,系統(tǒng)能較好識(shí)別出向日葵、椅子、垃圾箱、人等障礙物目標(biāo),說明系統(tǒng)具有較強(qiáng)的辨識(shí)和分類能力,滿足智能導(dǎo)盲系統(tǒng)的設(shè)計(jì)要求。
5 結(jié)束語
本文實(shí)現(xiàn)了一種便捷、高效的智能導(dǎo)盲系統(tǒng)的設(shè)計(jì),系統(tǒng)采用本地-服務(wù)器遞進(jìn)識(shí)別方案實(shí)現(xiàn)障礙物類別、方位、距離的綜合探測。本地識(shí)別方式可以節(jié)省系統(tǒng)反應(yīng)時(shí)間,服務(wù)器方式可以確保不常見物體的準(zhǔn)確識(shí)別,兩種方式的協(xié)調(diào)運(yùn)行保證了圖像物體識(shí)別的實(shí)時(shí)性、準(zhǔn)確性與廣泛性等,具有十分廣闊的應(yīng)用前景。
參考文獻(xiàn)
[1]姚天仁.數(shù)字語音處理[M].武漢:華中科技大學(xué)出版社,2003.
[2]劉玄河,宋廷新.語音識(shí)別與控制應(yīng)用技術(shù)(第2版)[M].北京:科學(xué)出版社,2006.
[3]王化祥.傳感器與檢測技術(shù)[M].北京:電子工業(yè)出版社,2010.
[4]黃帆.無線傳感器網(wǎng)絡(luò)技術(shù)及應(yīng)用研究[M].北京:中國水利水電出版社,2014.
[5]Huang Yukai,Pang Aichun,PiCheng Hsiu,etal.Distributed Throughput Optimization for Zigbee Cluster-Tree Networks[J].IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS,2012,23(03):513-520.
作者簡介
劉宇紅(1963-),男,云南省昆明市人。碩士,教授,研究方向?yàn)槲锫?lián)網(wǎng)與大數(shù)據(jù),智能硬件、機(jī)器視覺,人工智能與模式識(shí)別。
劉超(1988-),男,山東省濰坊市人。在讀碩士,研究方向?yàn)槲锫?lián)網(wǎng)工程、嵌入式系統(tǒng)、機(jī)器視覺。
何騰鵬(1989-),男,河北省石家莊市人。在讀碩士,研究方向?yàn)槲锫?lián)網(wǎng)與大數(shù)據(jù),智能硬件、機(jī)器視覺,人工智能與模式識(shí)別。
作者單位
貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院 貴州省貴陽市 550025