張棋 陳朝偉 熊鍇
摘要:隨著機器學習和深度學習技術的快速發(fā)展,計算機視覺無疑是近年來發(fā)展最快的人工智能領域之一。本文針對機器學習在計算機視覺處理中的應用進行了簡要分析,分別在圖像檢測領域、圖像語義分割領域介紹了機器學習的應用進展,并著重分析了典型分類算法隨機森林的算法原理,在最后就機器學習在計算機視覺中的應用前景進行了展望。
關鍵詞:機器學習 計算機視覺應用研究
引言
計算機視覺是一種基于計算機算法的自動識別圖像內(nèi)容的領域,它源于20世紀60年代左右的人工智能和認知神經(jīng)科學。50年后,GM圖像識別仍然難以普及,但圖像識別的發(fā)展取得了顯著進展。視覺算法已經(jīng)開始涵蓋廣泛的受眾,尤其是商業(yè)上的成功,包括交互式分割算法。圖像檢索,人臉識別和人體動作捕捉。這些領域的成功必須歸功于過去20年來機器學習的快速發(fā)展。
1圖像檢測
圖像檢測是指在對圖像進行分類時用矩形框包圍對象。從14年到18年,先后涌現(xiàn)出R- CNN,F(xiàn)ast R-CNN FasterR- CNN, YOLO,SSD等知名機器學習框架, 它的檢測平均準確度(mAP), PASCAL VOC在眾所周知的計算機視覺數(shù)據(jù)集上的平均檢測精度(mAP),也從R- CNN的53.3,到Fast RCNN的68.4,再到Faster R-CNN的75.9,最新實驗表明,更快的RCNN結合殘留網(wǎng)絡(Resnet-101),其檢測精度可達到83.8。深度學習檢測速度也越來越快。然后到YOLO的155幀/秒(缺點是精度很低,只有52.7),最后發(fā)布了具有高精度和高速度的SSD,其精度75.1,速度23幀/秒。
2隨機森林分類模型
在照片中,計算機通過算法實現(xiàn)“語義圖像分割”,并區(qū)分三個主要元素:汽車,道路,建筑物,這需要一個強大的構建塊來實現(xiàn),即訓練分類器預測不同分類圖像(如汽車,道路,樹木,墻壁等)中像素的分布。這項任務給機器學習帶來了很多計算問題,特別是那些包含大量像素的計算機,這意味著我們需要在整個圖像分類任務中進行超過一百萬次的培訓和測試。
面對如此大的像素問題,通常使用更有效的分類模型:隨機森林。 隨機森林以隨機方式建造,構造森林后,當一個新的輸入樣本進入時,讓森林中的每個決策樹分別進行判斷。查看樣本應屬于哪個類別,然后查看最多選擇哪個類別,預測該類使用哪個樣本。這種模型的優(yōu)勢在于:它可以處理許多高維數(shù)據(jù),不需要進行特征選擇,是一種很好的降維方法;在訓練完后,它能夠給出哪些feature比較重要;它的訓練速度較快;在訓練過程中,可以檢測到特征之間的相互影響;容易做成并行化方法。
通過該技術手段,可以對超大像素圖片中的每個對象的外觀,顏色甚至角色的表情,動作,情感等進行分類和判斷。
3機器學習與計算機視覺
機器學習是研究計算機如何模擬人類學習行為以獲取新知識或技能,并重新組織現(xiàn)有知識結構以不斷提高其績效。它是人工智能的核心,也是使計算機智能化的根本途徑。為了實現(xiàn)計算機視覺的功能,可以采用兩種技術方法,分別是仿生學方法和工程方法。
其中工程學方法的一般做法是將人類視覺系統(tǒng)視為黑盒子,并且實現(xiàn)僅關注視覺系統(tǒng)將為輸入提供何種輸出。這兩種方法在理論上都是可用的,但難點在于人類視覺系統(tǒng)對應于某個輸入的輸出不能直接測量。而且因為人類智力活動是多功能系統(tǒng)組合的結果,即使得到輸入輸出對,也很難確定它是僅由當前輸入視覺刺激產(chǎn)生的響應。 而不是一個與歷史狀態(tài)綜合作用的結果。
4結論
計算機視覺的研究是具有雙重意義的,首先它是為了滿足人工智能應用的需求,即需要用計算機實現(xiàn)手動視覺系統(tǒng),這些結果可以安裝在計算機和各種計算機上,使計算機和機器人能夠“看到”。反過來,視覺計算模型的研究成果對于我們進一步理解和研究人類視覺系統(tǒng)本身的機制,甚至是人腦的機制具有重要的參考意義。本文針對機器學習在計算機視覺處理中的應用進行了簡要分析,分別在圖像檢測領域、圖像語義分割領域介紹了機器學習的應用進展,并著重分析了典型分類算法 隨機森林的算法原理,在最后就機器學習在計算機視覺中的應用前景進行了展望。
參考文獻
[1]陳熙霖,計算機視覺,算法與系統(tǒng)原理[M].清華大學出版社,2000
[2]高滿屯,計算機視覺研究中的投影理論和方法[M].西北工業(yè)大學出版社,1998
[3]馬頌德,張正友,計算機視覺計算理論與算法基礎[M].科學出版社,19 98
[4]章毓晉,圖像工程下 圖像理解與計算機視覺[M].清華大學出版社,2000