• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度學習背景下計算機視覺課程教學改革

    2022-09-22 03:07:40陳章寶鄧運生
    安順學院學報 2022年4期
    關鍵詞:分類深度計算機

    陳章寶 鄧運生 李 壯

    (蚌埠學院電子與電氣工程學院, 安徽 蚌埠 233030)

    人工智能技術是新一輪科技創(chuàng)新和產業(yè)變革的重要驅動力量,深度學習是其中最有影響力的關鍵技術。近十年來,深度學習在技術創(chuàng)新和產業(yè)實踐中均取得了巨大成就,使得基于深度學習的計算機視覺、自然語言處理、語音技術取得了突破性發(fā)展,并在相關領域中得到了廣泛的應用。與機器學習的其他方法相比較,深度學習使用深層神經網絡構建特征表示和分類的一體化模型,利用大量的樣本數據對模型進行訓練,讓模型從大數據中學習以提高自身的性能。計算機視覺是深度學習技術發(fā)展最重要的領域,作為深度學習模型的LeNet是第一個卷積神經網絡,并且在手寫數字識別上取得了很好的效果,2012年AlexNet模型在ImageNet大賽上奪冠,將錯誤率從26%降低到了15%,從此深度卷積神經網絡大幅度超越傳統(tǒng)的特征提取+分類器的計算機視覺方法,在圖像分類、目標檢測、圖像分割等領域均取得了長足發(fā)展。

    目前本科專業(yè)的計算機視覺教學以圖像的基礎處理和傳統(tǒng)的機器視覺算法為主,且圖像處理的內容較多,如圖像變換、圖像濾波、形態(tài)學圖像處理、圖像編碼與壓縮等,機器視覺算法主要介紹邊緣檢測、區(qū)域分割、SIFT/SURF、ADABOOST等算法,沒有將近年來以深度學習為基礎的計算機視覺最新研究成果涵蓋進來。本文根據我校自動化和機器人工程專業(yè)的圖像處理和計算機視覺課程教學實踐,在基礎的圖像處理和傳統(tǒng)的計算機視覺算法介紹的基礎上,加入了基于深度學習理論的計算機視覺部分,開展卷積神經網絡相關知識的講授,進行了圖像分類、目標檢測、圖像分割等教學案例設計。

    1 計算機視覺技術發(fā)展

    人類感知周圍環(huán)境80%的信息來源于視覺,計算機視覺就是要讓機器像人一樣具有視覺感知能力,如圖像分類、目標檢測、圖像分割、三維視覺、目標跟蹤等。計算機視覺對世界的認知還處于實現(xiàn)單一任務的初級視覺階段,還遠沒有達到人類的視覺感知、信息處理和認識能力,不過在人類生物視覺的啟發(fā)下,通過模仿生物視覺神經系統(tǒng)的感受野(receptive field)概念,提出的基于卷積神經網絡的深度學習理論并持續(xù)發(fā)展,當今計算機視覺在復雜場景下的視覺理解,融合視覺、語音和文字等多源信息的視頻理解方面均取得了重要的研究成果。

    1.1 圖像分類

    圖像分類是計算機視覺的最基本任務,也是深度學習技術研究最為充分的視覺任務場景。ILSVIC(ImageNet Large-Scale Visual Recognition Challenge)大賽是一個基于ImageNet數據集的圖像分類任務挑戰(zhàn)賽,該競賽從2010年開始舉辦,到2017年是最后一屆。2012年Alex Krizhevsky提出AlexNet網絡并在ILSVRC大賽中奪冠,以15.3%的Top-5的錯誤率遠超傳統(tǒng)算法如SIFT、LBP、HOG等傳統(tǒng)的圖像分類方法,顯示了深度學習強大的特征抽象和表示能力,并輕松實現(xiàn)端到端的訓練,在大數據下表現(xiàn)出明顯的優(yōu)勢。隨后VGG、GoogleNet、ResNet[1]等網絡被相繼提出,圖像分類錯誤率進一步減少,甚至超出了人類對圖像的分類能力,目前細粒度圖像分類(Fine-grained image categorization,F(xiàn)GIC)技術,實現(xiàn)同一類別的子類分類,也取得了長足的發(fā)展。圖像分類模型的發(fā)展歷程如圖1上所示,這些模型是計算機視覺技術的基礎網絡,圖像分類中的經典網絡也成為目標檢測、圖像分割等其他視覺任務的骨干(Backbone)網絡。

    圖1 計算機視覺模型發(fā)展歷程

    1.2 目標檢測

    目標檢測是對圖像中感興趣的對象進行定位(Localization)并分類(Classification),輸出對象的邊界方框和標簽。由于受到目標的復雜背景、光照變化、尺度變化、姿態(tài)多樣、相互遮擋、非剛性形變等多種因素的影響,使得目標檢測任務更加具有挑戰(zhàn)性?;谏疃葘W習的視覺目標檢測網絡主要有二階段網絡R-CNN系列和單階段網絡YOLO、SSD系列等。

    2014年Girshick等提出基于選擇性搜索(selective search)的R-CNN[2](region with convolutional neural network)兩階段目標檢測網絡,使得基于深度學習的目標檢測的準確率超越了傳統(tǒng)的目標檢測方法30%,隨后Fast R-CNN、Faster R-CNN網絡被陸續(xù)提出,使得目標檢測精度大幅度提高而且檢測速度達到實時狀態(tài),基于深度學習的目標檢測技術進入實用階段。2016年以YOLO[3](You Only Look Once)為代表的單階段目標檢測系列模型相繼提出,通過將目標檢測設計成單一的回歸任務,同時回歸出目標的位置和類別,使得單階段目標檢測算法達到了滿足實時檢測要求(FPS > 30)的高精度算法,并實現(xiàn)在邊緣端的部署, YOLO系列模型逐漸成為物體檢測的主流模型。目標檢測算法的發(fā)展歷程如圖1下所示。近年來基于 Transformer 的目標檢測算法研究引發(fā)熱潮,Transformer模型基于注意力機制,首先在自然語言處理(NLP)領域取得巨大成功,并成功遷移到計算機視覺領域。

    1.3 圖像分割

    圖像分割的任務是區(qū)分出圖像中不同物體所在的區(qū)域,按照分割的精細程度,可以將圖像分割歸為三類:語義分割、實例分割和全景分割。語義分割是要求區(qū)分出圖像中每個像素所屬的類別,實現(xiàn)像素級別的分類;實例分割是在語義分割的基礎上,實現(xiàn)同一類別的不同個體區(qū)域的劃分;全景分割包含語義分割和實例分割兩大任務,實現(xiàn)對圖像中的所有物體,包括背景進行像素級別的分類。2017年隨著全卷積網絡[4](Fully convolutional network, FCN) 的提出,隨后相繼出現(xiàn)了DeepLab系列、U-Net、PSPNet等圖像語義分割模型,DeepMask、Mask R-CNN、PANet、Mask SSD等實例分割模型;UPSNet、AUNet、TASCNet等全景分割模型。基于深度學習的圖像分割算法超越了傳統(tǒng)的基于邊緣和閾值等算法。

    近年來隨著短視頻在社交媒體的廣泛流行,基于深度學習的視頻分析和處理技術備受關注,在視頻理解、行為識別、目標跟蹤以及視頻生成等領域,深度學習技術均取得了突破性的進展和應用落地,特別是結合視頻、文字和語音的多源信息融合的視頻分析和理解技術研究定會稱為未來的發(fā)展趨勢,必將成為今后一段時間最為熱門的研究領域。

    2 深度學習對計算機視覺教學的新要求

    從深度學習理論在計算機視覺領域的發(fā)展和應用現(xiàn)狀可以看出,深度學習是推動計算機視覺發(fā)展的關鍵技術,并引領計算機視覺技術繼續(xù)發(fā)展。這也為本科階段的圖像處理和計算機視覺課程的教學內容更新和教學手段的改進提出了新要求,教學革新勢在必行。

    2.1 理論方法不同

    計算機視覺技術可以分解為三個層次,既底層的圖像處理、中層的特征提取和上層的圖像分析。底層的圖像處理技術實現(xiàn)圖像的增強與復原,其輸入和輸出皆為圖像,便于后續(xù)的圖像特征提取和分析;中層處理是從圖像中提取特征,形成“非圖像”的表示和描述,典型的特征表示方法有直方圖、LBP、SIFT、SURF、HOG等算法;高層的圖像分析主要包括圖像分類、分割、目標檢測、視覺跟蹤、視頻理解等。現(xiàn)有的計算機視覺課程的教材和教學內容大多以“特征提取+分類”的模式。在深度學習的大背景下,計算機視覺技術表現(xiàn)為如下的特點。

    (1) 深度學習的計算機視覺方法采用深度神經網絡(deep neural network, DNN)作為視覺系統(tǒng)的基本網絡,構成圖像分類、目標檢測、圖像分割、目標跟蹤和視頻分析的骨干網絡,通過海量數據訓練出網絡參數,端到端的實現(xiàn)特征提取與分類,避免了復雜的特征工程設計,最終的圖像分類精度等指標大幅度超越了傳統(tǒng)方法。

    (2) 深度學習更加容易發(fā)揮大數據的優(yōu)勢,傳統(tǒng)的機器學習方法如BP神經網絡、支持向量機(support vector machine, SVM)、AdaBoost等機器視覺方法在數據量少時泛化能力弱,導致分類效果差,數據量多時效果提升變緩。深度學習具有與生俱來的適配大數據的能力,數據量越大效果越好。深度學習的標準數據集皆為大規(guī)模數據集,如ImageNet數據集就有1400萬張標注圖片,常用數據子集也有百萬張圖片,深度學習在工業(yè)界的應用中,也需要有大量的場景數據,海量的數據可以解決一切問題。

    (3) 深度學習強大的特征表示能力,利用模型中的很多個隱藏層,通過特征組合的方式,逐層將原始的輸入圖像轉化為淺層的空間特征,中層的語義特征和高層的目標特征,最終實現(xiàn)分類和預測任務。深度神經網絡不僅可以實現(xiàn)圖像特征的抽取,同樣也可以實現(xiàn)語音、文字信號等特征的抽取和表示,具有很強的通用性,更易于實現(xiàn)融合視頻、文字和語音的多任務學習和多模態(tài)學習任務,推動視頻分析技術的發(fā)展。

    (4) 實現(xiàn)端到端的訓練,傳統(tǒng)的計算機視覺技術需要進行“圖像預處理+特征提取+分類預測”三個階段,對于特定的任務,需要進行針對性的特征工程設計和分類器設計。深度學習不需要進行任務的階段劃分,而是完全交給深度神經網絡模型直接學習從原始數據到期望輸出的映射,直接實現(xiàn)從圖像輸入到任務輸出。

    2.2 實驗平臺不同

    深度學習對實驗平臺的要求主要體現(xiàn)為大數據集、硬件訓練和部署平臺、軟件框架三個方面。傳統(tǒng)計算機視覺算法對數據集和訓練平臺的要求都不高,在個人電腦和ARM控制器上就可以實現(xiàn)訓練和部署,而深度學習發(fā)展起來的幾個關鍵因素,就是龐大的數據集、GPU的并行算力,以及深度學習框架。

    在計算機視覺落地項目中,很難獲取像標準數據集的規(guī)模,在工業(yè)品瑕疵視覺檢測和異常場景分析中,數據采集比較困難,導致數據量較少,樣本數據類別的不均衡等情況,解決此類問題的方法可以通過數據擴增的方法解決數據量不足的問題,通過損失函數的樣本權重設計等來解決數據不均衡的問題,將通用數據集上的預訓練模型遷移到場景數據集等來提高視覺模型效果。

    通常深度學習的訓練和部署對硬件平臺的要求較高,需要用高配置的GPU電腦、服務器,或者云服務器等。對精度和實時性要求不高的場合,也可以進行模型的輕量化設計,利用模型蒸餾、神經網絡搜索、剪枝和量化,進行模型壓縮,獲取小容量模型并部署到移動端或者嵌入式設備上。

    深度學習的快速發(fā)展,以及模塊化設計和計算特性給深度學習框架的開發(fā)提供了便利,目前具有代表性的框架有Google的TensorFlow、Meta的Pytorch,國內的深度學習框架包括百度于2016年推出的飛漿(PaddlePaddle)、曠視科技的MegEngine、華為的MindSpore和清華大學的Jitter??蚣艿耐瞥鰹樯疃葘W習的研究和落地提供了極大的便利,加速了深度學習的研究進度,降低了模型設計和訓練的難度,推動了相關項目的快速落地。

    3 教學改革與創(chuàng)新

    隨著深度學習技術的發(fā)展,在計算機視覺課程教學中加入深度學習的入門知識和基礎理論勢在必行,由于課時的有限,需要弱化部分圖像處理和傳統(tǒng)計算機視覺的內容,同時進行教學資源和實驗平臺建設,并進行教學模式的創(chuàng)新,在進行傳統(tǒng)計算機視覺教學的同時,緊跟新技術的發(fā)展步伐,引領學生進行基于深度學習理論的計算機視覺技術學習和研究。

    3.1 教學內容優(yōu)化

    在深度學習主導計算機視覺技術的當今,為了將深度學習理論融入計算機視覺課程的教學中,需要對原有的計算機視覺課程的教學內容進行部分的優(yōu)化,壓縮傳統(tǒng)視覺方法中的部分教學內容,特別是傳統(tǒng)“特征提取+分類器”等被深度學習完美替代部分的教學內容,對壓縮的部分只進行理論知識的介紹,不講算法的實現(xiàn)過程。下面以張錚的教材《數字圖像處理與機器視覺》[5]為例,涉及的部分教學內容如表1所示,需要增加深度學習理論的基礎教學內容如表2所示。

    表1 部分壓縮的教學內容

    表1對計算機視覺課程的教學內容進行了優(yōu)化設計,壓縮了部分教學內容,如圖像的頻域增強,傳統(tǒng)的圖像特征提取和分類器等,壓縮不等于不講,而是簡單講,在教學設計中是需要了解的內容。強化了與深度學習理論相關的部分內容,這些內容在教學設計中是需要重點掌握,如圖像幾何變換常用于數據增擴,結合遷移學習,在深度學習的落地項目中廣泛使用;SVM作為經典的分類模型,在小樣本分類項目中表現(xiàn)優(yōu)越,經典深度學習模型也有用SVM進行分類;BP神經網絡模型是深度學習模型的基礎,也是經典的分類器模型,是學習深度神經網絡的入門知識。此外在圖像的空域增強中,圖像濾波算子結合卷積核進行介紹,濾波算子參數是確定的,而卷積核參數是學習出來的,更容易讓學生了解圖像卷積的概念。

    表2 深度學習教學內容

    表2給出了本科專業(yè)教學中深度學習的基本教學內容,包括神經網絡基礎,基本的圖像分類、目標檢測、圖像分割模型,模型訓練和優(yōu)化的基礎教學內容,以及常用的深度學習框架。此表是在計算機視覺課程的教學實踐中,總結出來的關于深度學習的教學類容設計,強調基礎知識的掌握,基本平臺的應用,引領學生入門深度學習技術。

    3.2 教學平臺和資源建設

    深度學習是在大數據和大算力的推動下發(fā)展起來的技術,且其網絡模塊眾多,基礎理論復雜,這些因素都給學生入門深度學習造成了很大的難度。深度學習通過信號的前向傳輸和誤差的反向傳遞,實現(xiàn)基于梯度下降的訓練優(yōu)化,編程特性和計算特性較為模式化,統(tǒng)一的編程框架會給學習和開發(fā)提供極大的便利,當今的深度學習框架也被稱為人工智能時代的操作系統(tǒng)。教學中利用百度公司開源的飛漿(PaddlePaddle)深度學習框架[6],飛漿深度學習框架是國內開源最早的深度學習框架,其下接芯片,可以適配不同的底層硬件,上承應用,適應各種算法應用,對接云計算和大數據資源,集核心框架、工具組件和服務平臺于一體,飛漿全景圖如圖2所示。

    飛漿核心框架實現(xiàn)動態(tài)圖和靜態(tài)圖兩種編程方式的統(tǒng)一,集模型訓練和預測于一體,開源了計算機視覺、自然語言處理、推薦系統(tǒng)和語音識別四大類官方模型,其中飛將視覺模型庫(PaddleCV)提供了大量的圖像分類、目標檢測、圖像分割、圖像生成、視頻分析等視覺算法的預訓練模型。飛漿還集成了遷移學習、訓練可視化等一系列工具組件,進行深度學習的開發(fā)訓練和應用部署。飛漿還提供的AI Studio在線開發(fā)實訓平臺,集合了教程、案例、經典數據集、云端的運算資源、以及比賽平臺和社區(qū)。利用百度飛漿深度學習框架和AI Studio平臺,全面解決了深度學習教學中對大數據、大算力、框架和平臺的要求。百度公司的平臺保障和技術支持,為開展深度學習的教學、科研和工程開發(fā)提供了極大的便利。

    教學資源建設是基于百度AI Studio平臺開展教學活動,進行教學案例設計,開展集數據準備、模型設計、模型訓練與評價于一體的教學活動,教學中進行了如表3所示的教學案例設計。在本科階段計算機視覺教學中,深度學習理論的教學案例設計側重于入門案例[7]和基礎案例,前沿技術案例可以簡要介紹,要進行進階式的案例設計,并將深度學習的基礎知識融入教學案例中。

    表3 深度學習的教學案例設計

    (續(xù)表3)

    3.3 教學模式創(chuàng)新

    “計算機視覺”是在傳統(tǒng)圖像處理和機器視覺課程的基礎上,融入了深度學習技術的課程,實踐性強。新工科背景下,課程教學堅持以“學生為中心,以產出為導向”的OBE教學理念,進行教學模式創(chuàng)新[8]。本科階段的“計算機視覺”課程教學以基礎理論講解、案例教學、工程實踐為主,通過規(guī)范教學與實驗平臺、改革課程教學模式和實踐項目化教學等手段開展課程教學的改革和探索。

    (1) 規(guī)范教學與實驗平臺?;谏疃葘W習理論的計算機視覺教學需要大數據和計算平臺的支撐,打造規(guī)范的教學和實驗平臺是開展教學活動的基礎,采用百度PaddlePaddle深度學習框架,百度AI Studio教學平臺開展教學活動和管理。

    (2) 改革課程教學模式。首先,以案例推動教學,通過案例引申出具體的教學內容,實現(xiàn)由面及點、由點到面的知識體系教學,例如通過圖像分類案例,可以講解數據集預處理、模型設計、訓練和預測等一系列知識點,所有知識點又構建了整個分類模型。其次,以作業(yè)提升教學,教學中以學生為中心,引導學生去分析問題和解決問題,通過優(yōu)質的課程作業(yè)設計,讓學生掌握數據處理與增擴、深度學習框架應用、模型結構優(yōu)化、參數調節(jié)對提高分類精度的效果。最后,以應用拓展教學,通過深度學習視覺案例的應用部署,激發(fā)學生的學習興趣,例如將訓練好的預測模型如花卉識別、手勢識別、交通標志檢測、人體分割和摳圖等,部署到云端、服務器和電腦端,嵌入式邊緣設備端等。

    (3) 實踐教學。實踐教學是課程教學的延伸,主要通過課程設計、畢業(yè)設計、大創(chuàng)項目、學科競賽、學生參與教師的工程項目和科學研究等方式,讓學生掌握工程需求分析與系統(tǒng)設計、數據分析與采集,模型設計與優(yōu)化、模型部署的全過程,增強學生利用所學知識解決實際工程的能力,提高工程化應用型人才的培養(yǎng)成效。實踐中,在實驗室搭建了一個人臉識別項目,帶領學生不斷提升系統(tǒng)性能,從當初的人臉識別、口罩識別、到現(xiàn)在的融合視覺和語音的人機互動;指導學生參加全國智能汽車競賽,講授智能車的視覺導航和目標識別關鍵技術,讓學生實踐深度學習的技術在智能車、自動駕駛的應用;在工業(yè)機器人視覺引導抓取的項目中,實現(xiàn)了3D視覺的目標物體姿態(tài)檢測,并引導機械臂以適當的姿態(tài)進行抓取,這些系統(tǒng)得到了大創(chuàng)項目、學校工程和科研項目的經費支撐,并轉化為學生的畢業(yè)設計課題;學生參與老師的病雞識別、玻璃品瑕疵檢測項目,提高了學生的工程能力,培養(yǎng)了學生的科研意識。

    4 結論

    通過在計算機視覺課程中引入深度學習的教學內容,通過教學內容優(yōu)化、教學資源建設和教學模式創(chuàng)新,開展案例化的教學,引導學生逐步進入學科前沿知識的學習和應用工程開發(fā)。通過多年的教學實踐,學生對基于深度學習的視覺技術產生了濃厚的興趣,我院學生在近三年的全國大學生智能車競賽百度深度學習創(chuàng)意組比賽中屢獲大獎;學生在百度AI studio平臺的比賽中,輕松獲取Top10名次。本著“以學生為中心,以產出為導向”的OBE教學理念,開展課程教學研究與改革,進行工程化應用型人才的培養(yǎng),學生的學習熱情持續(xù)增長,工程能力顯著提升,科研素養(yǎng)逐漸養(yǎng)成。

    猜你喜歡
    分類深度計算機
    計算機操作系統(tǒng)
    分類算一算
    深度理解一元一次方程
    基于計算機自然語言處理的機器翻譯技術應用與簡介
    科技傳播(2019年22期)2020-01-14 03:06:34
    分類討論求坐標
    深度觀察
    深度觀察
    深度觀察
    數據分析中的分類討論
    信息系統(tǒng)審計中計算機審計的應用
    消費導刊(2017年20期)2018-01-03 06:26:40
    湖南省| 江孜县| 梓潼县| 青河县| 永兴县| 宜兴市| 文山县| 保德县| 栾城县| 平昌县| 大洼县| 永平县| 南宫市| 望奎县| 开化县| 隆德县| 桦南县| 富平县| 文成县| 泾阳县| 陈巴尔虎旗| 息烽县| 台州市| 蒙城县| 桑植县| 错那县| 尉氏县| 邵武市| 鲜城| 宁陵县| 唐山市| 子长县| 伊宁县| 葫芦岛市| 昭通市| 海晏县| 宁乡县| 蒙阴县| 徐汇区| 襄汾县| 云和县|