摘 要:開源軟件已成為我國信息化建設(shè)和軟件產(chǎn)業(yè)發(fā)展的重要技術(shù)來源,創(chuàng)造了顯著的經(jīng)濟(jì)和社會(huì)效益。作為人工智能的重要研究方向,計(jì)算機(jī)視覺的飛速發(fā)展離不開開源軟件在該領(lǐng)域的持續(xù)深耕。本文將重點(diǎn)梳理計(jì)算機(jī)視覺相關(guān)開源軟件應(yīng)用情況與典型開源軟件,為計(jì)算機(jī)視覺研發(fā)人員提供參考。
關(guān)鍵詞:計(jì)算機(jī)視覺;開源軟件;人工智能
1 引言
計(jì)算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),即利用圖像傳感器和計(jì)算機(jī)代替人眼對(duì)圖像內(nèi)容進(jìn)行解釋,實(shí)現(xiàn)目標(biāo)識(shí)別、跟蹤和測(cè)量等功能。根據(jù)咨詢公司發(fā)布的數(shù)據(jù)[1],2018年全球計(jì)算機(jī)視覺市場(chǎng)規(guī)模已超過300億元,年均增長(zhǎng)超過20%,其中中國市場(chǎng)規(guī)模達(dá)到120億元。
開源軟件是指代碼創(chuàng)作者依據(jù)相關(guān)的開源協(xié)議,將源代碼全部或部分公開,允許用戶或開發(fā)者進(jìn)行自主學(xué)習(xí)、報(bào)錯(cuò)、修改、使用等活動(dòng),以共同提高軟件的質(zhì)量。經(jīng)過近20年發(fā)展,開源軟件已成為我國信息化建設(shè)和軟件產(chǎn)業(yè)發(fā)展的重要技術(shù)來源,持續(xù)推動(dòng)國產(chǎn)軟件技術(shù)和產(chǎn)業(yè)創(chuàng)新發(fā)展,創(chuàng)造了顯著的經(jīng)濟(jì)和社會(huì)效益。
2 計(jì)算機(jī)視覺發(fā)展概述
計(jì)算機(jī)視覺始于20世紀(jì)80年代,隨著馬爾《視覺》一書的問世,標(biāo)志著計(jì)算機(jī)視覺成為了一門獨(dú)立學(xué)科。在將近四十年的發(fā)展歷程中,該學(xué)科經(jīng)歷了馬爾計(jì)算視覺、主動(dòng)和目的視覺[2][3]、多視幾何與分層三維重建和以神經(jīng)網(wǎng)絡(luò)為代表的基于學(xué)習(xí)的視覺[4]四個(gè)發(fā)展階段。近四十年來計(jì)算機(jī)視覺發(fā)展過程中具有代表性的理論技術(shù)和開源軟件,如圖1所示。
傳統(tǒng)計(jì)算機(jī)視覺算法處理過程大致分為特征感知,圖像預(yù)處理,特征提取,特征篩選,推理預(yù)測(cè)與識(shí)別五個(gè)步驟。使用傳統(tǒng)方法設(shè)計(jì)特征需要開發(fā)者具備大量經(jīng)驗(yàn),在設(shè)計(jì)特征基礎(chǔ)上還需合適的分類器算法,將兩者相互配合達(dá)到最優(yōu)效果難度較大。
隨著深度學(xué)習(xí)研究熱潮持續(xù)高漲,計(jì)算機(jī)視覺領(lǐng)域應(yīng)用深度學(xué)習(xí)方法,已成為人工智能的典型應(yīng)用與研究熱點(diǎn)。深度學(xué)習(xí)方法主要采用端到端的解決思路,即從輸入到輸出一氣呵成。相較于傳統(tǒng)方法,深度學(xué)習(xí)方法具有準(zhǔn)確性高,開發(fā)便捷等優(yōu)勢(shì),使其成為當(dāng)下計(jì)算機(jī)視覺領(lǐng)域最為流行的開發(fā)方法。
3 計(jì)算機(jī)視覺典型應(yīng)用領(lǐng)域
在計(jì)算機(jī)視覺作為一門學(xué)科的發(fā)展過程中,開源軟件和數(shù)據(jù)集起到了良好的推動(dòng)作用。利用開源軟件,研究人員可以更加快速地更新和迭代算法。開源數(shù)據(jù)集則為研究人員提供了公平的算法測(cè)試平臺(tái)。目前,開源軟件在計(jì)算機(jī)視覺方面的典型應(yīng)用領(lǐng)域有人臉識(shí)別、無人駕駛、視覺機(jī)器人等。
3.1 人臉識(shí)別
人臉識(shí)別是基于人的面部信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)。該技術(shù)利用攝像機(jī)采集含有人臉的圖像或視頻流,通過對(duì)采集的圖像進(jìn)行預(yù)處理提取人臉特征,并與搜索庫中人臉樣本進(jìn)行比對(duì),進(jìn)而對(duì)檢測(cè)到的人臉進(jìn)行識(shí)別。
人臉識(shí)別技術(shù)已相對(duì)純熟,并已融入人們的日常生活中。如企業(yè)、住宅等門禁系統(tǒng)可通過人臉識(shí)別辨識(shí)來訪人員。國際民航組織要求其118個(gè)成員國家和地區(qū)必須使用電子護(hù)照,人臉識(shí)別是首推的識(shí)別模式。此外,“刷臉支付”可通過掃描消費(fèi)者面部即可完成交易,極大提高支付的便捷性。
目前,與人臉識(shí)別相關(guān)的代表性開源數(shù)據(jù)集主要有PubFig、CelebA、Colorferet、MTFL、FaceDB、LFW、Youtube Faces、CASIA-FaceV5等。代表性開源軟件有sourceAFIS、OpenBR、AsmLibrary、Insightface、Im2txt和FaceNet等。
3.2無人駕駛
無人駕駛通常指汽車、飛機(jī)等交通工具依托計(jì)算機(jī)進(jìn)行駕駛,無需人為操控的技術(shù)。無人駕駛技術(shù)集計(jì)算機(jī)視覺、人工智能、自動(dòng)控制、體系結(jié)構(gòu)等眾多技術(shù)于一體,主要通過傳感系統(tǒng)感知路況環(huán)境,自動(dòng)規(guī)劃駕駛路線到達(dá)預(yù)定目標(biāo)。其中計(jì)算機(jī)視覺主要用于路況信息的感知。
無人駕駛技術(shù)主要應(yīng)用于無人駕駛汽車和無人機(jī)方面。早在20世紀(jì)80年代,國防科大就已成功研制出我國第一輛無人駕駛汽車。2015年9月,全球第一臺(tái)無人駕駛大客車在全程無人工干預(yù)的條件下成功運(yùn)行,標(biāo)志著我國在客車制造方面取得了重大突破;2018年4月,百度與美團(tuán)正式合作計(jì)劃在雄安新區(qū)無人駕駛送餐試驗(yàn)。除了無人駕駛汽車方面,我國在無人機(jī)領(lǐng)域發(fā)展勢(shì)頭良好,我國大疆公司的無人機(jī)產(chǎn)品已被廣泛應(yīng)用到航拍、遙感測(cè)繪、電力巡檢、搜索救援等眾多方面。
目前,無人駕駛用到的代表性開源數(shù)據(jù)集主要有KITTI、Caltech、Daimler pedestrian、nuScenses等。代表性開源軟件有Udacity、Autoware、TensorFlow Object Detection API和Detectron等。
3.3 視覺機(jī)器人
視覺機(jī)器人[5]指具有視覺感知功能的機(jī)器人。視覺機(jī)器人可通過視覺傳感器獲取環(huán)境的二維圖像,并通過視覺處理器進(jìn)行解析,進(jìn)而轉(zhuǎn)換為機(jī)器人理解的符號(hào)信息,使機(jī)器人具有辨識(shí)物體,并確定物體位置的功能。
視覺機(jī)器人研究工作起步較早,現(xiàn)已廣泛應(yīng)用在多個(gè)領(lǐng)域中。如工業(yè)領(lǐng)域中,使用計(jì)算機(jī)視覺技術(shù)進(jìn)行高精度PCB定位及SMT元件放置。醫(yī)療領(lǐng)域,使用視覺機(jī)器人為病患進(jìn)行手術(shù)。此外,對(duì)于人眼無法識(shí)別的光線范圍,可通過紅外傳感器、超聲波傳感器等獲得視覺信息等。
目前,視覺機(jī)器人廣泛使用的開源數(shù)據(jù)集主要有Commo Objects in Context(COCO)、ImageNet、MNIST、Caltech 101、Pascal VOC等。典型開源軟件有AForge.NET、OpenCV等。
4 計(jì)算機(jī)視覺領(lǐng)域典型開源軟件
本小節(jié)將對(duì)部分典型開源軟件予以介紹。
●OpenCV是Intel于1999年建立的,基于BSD許可的計(jì)算機(jī)視覺庫。OpenCV由一系列C函數(shù)和少量C++類構(gòu)成,輕量并且高效,可以實(shí)現(xiàn)眾多圖像處理和計(jì)算機(jī)視覺方面的通用算法。OpenCV可運(yùn)行在Linux、Android、Mac OS等操作系統(tǒng)上,是目前使用最廣泛的計(jì)算機(jī)視覺開源軟件庫。
●TensorFlow Object Detection API是Google于2017年基于TensorFlow平臺(tái)開發(fā)的開源目標(biāo)檢測(cè)算法庫。此算法庫中提供了當(dāng)前流行的Faster-RCNN和SSD框架,也可以自定義模型框架進(jìn)行目標(biāo)檢測(cè)任務(wù),使得創(chuàng)建、訓(xùn)練以及應(yīng)用目標(biāo)檢測(cè)模型更為便捷。
●Detectron是Facebook AI研究院于2018年公開的目標(biāo)檢測(cè)平臺(tái),涵蓋業(yè)內(nèi)典型的目標(biāo)檢測(cè)、圖像分割、關(guān)鍵點(diǎn)檢測(cè)等算法。該平臺(tái)基于Python和深度學(xué)習(xí)框架Caffe2構(gòu)建,使用靈活,利用其提供的預(yù)訓(xùn)練模型,研究人員可以快速試驗(yàn)和評(píng)估新的想法。
●InsightFace是DeepInsight于2018年在 Mxnet上使用python編寫的基于MIT協(xié)議的人臉識(shí)別算法庫,包含人臉識(shí)別所用的經(jīng)典損失函數(shù)如Softmax、Sphereface、CosineFace、ArcFace、Combined Margin和TripletLoss,在公開人臉識(shí)別數(shù)據(jù)集擁有較優(yōu)的性能。
●Tesseract是Google發(fā)布的一款OCR開源庫,使用Tesseract可以方便、快捷地識(shí)別圖片中的文字內(nèi)容。Tesseract支持C++、python、Java等編程語言調(diào)用,接口友好。由于其完整的功能,可以訓(xùn)練的特點(diǎn),在開源后備受關(guān)注。
5 未來展望
開源軟件已成為我國信息化建設(shè)和產(chǎn)業(yè)創(chuàng)新發(fā)展的重要推動(dòng)力,創(chuàng)造了顯著的經(jīng)濟(jì)和社會(huì)效益。就目前計(jì)算機(jī)視覺領(lǐng)域開源軟件發(fā)展現(xiàn)狀來看,平臺(tái)化和社區(qū)化是發(fā)展趨勢(shì)。成功的平臺(tái)和社區(qū)能夠使研究人員更容易推廣新算法,溝通效率也會(huì)有所提高。盡管我國研究人員在計(jì)算機(jī)視覺領(lǐng)域的研究十分活躍,但在世界范圍內(nèi)的影響力仍然有限。期待我國抓住開源軟件的發(fā)展機(jī)遇實(shí)現(xiàn)計(jì)算機(jī)視覺等多技術(shù)領(lǐng)域的彎道超車。
參考文獻(xiàn):
[1] 黃偉.計(jì)算機(jī)視覺技術(shù)及產(chǎn)業(yè)化應(yīng)用態(tài)勢(shì)分析[J].信息通信技術(shù)與政策,2018(9):59-62.
[2] Yamins D. L K., DiCarlo J.J. Using goal-driven deep learning models to understand sensory cortex. Nature Neuroscience, 2016,19(3):356-365.
[3] Yamins D. L. K et al.Performance-optimized hierarchical models predict neural responses in higher visual cortex, 2014(111):8619-8624.
[4] LeCun Y et al.Deep Learning.Nature,2015(521):436-444.
[5] 李陽.機(jī)器人視覺技術(shù)的原理及應(yīng)用概述[J].通訊世界,2019(2):198-199.
作者簡(jiǎn)介:
劉亭杉,出生年月:1986年5月21日,性別:女,民族:漢,籍貫(精確到市):山東省招遠(yuǎn)市,當(dāng)前職務(wù):工程師,當(dāng)前職稱:助理工程師,學(xué)歷:博士,研究方向:計(jì)算機(jī)應(yīng)用技術(shù).