• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于膠囊網(wǎng)絡(luò)的可變維度膠囊的研究

    2020-03-16 03:17:39任強何良華
    電腦知識與技術(shù) 2020年2期
    關(guān)鍵詞:圖像分類

    任強 何良華

    摘要:膠囊網(wǎng)絡(luò)是深度學(xué)習(xí)領(lǐng)域中最令人激動的創(chuàng)新,它通過將特征堆疊成向量中來表示不同特征之間的相關(guān)關(guān)系,并使用了動態(tài)路由算法計算相鄰膠囊層之間的耦合系數(shù)。但是原始的膠囊網(wǎng)絡(luò)中是存在缺點的,在原始的膠囊網(wǎng)絡(luò)中膠囊維度是固定,而膠囊維度的多少和其包含的信息量是有關(guān)的,固定維度的膠囊并不能很好闡述膠囊的概念和表述模型的良好。針對膠囊網(wǎng)絡(luò)這一缺點,我們提出了可變維度的膠囊網(wǎng)絡(luò)這一想法,進(jìn)行了簡單的改進(jìn)和初步的實驗后,可變維度的膠囊在簡單的數(shù)據(jù)集上取得了令人滿意的效果,但也在較復(fù)雜的數(shù)據(jù)集上得到較差的結(jié)果。我們分析了它的原因,并計劃為了對可變維度的膠囊網(wǎng)絡(luò)進(jìn)行進(jìn)一步的改進(jìn)。

    關(guān)鍵詞:膠囊網(wǎng)絡(luò);可變維度膠囊;圖像分類

    中圖分類號:TP391? ? ?文獻(xiàn)標(biāo)識碼:A

    文章編號:1009-3044(2020)02-0204-02

    1 概述

    在過去的幾年中,深度學(xué)習(xí)在許多計算機視覺任務(wù)中取得了巨大的成就,特別是卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展給該領(lǐng)域帶來了最先進(jìn)的模型和算法。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元是標(biāo)量的,模型無法學(xué)習(xí)神經(jīng)元之間的復(fù)雜的位置等相關(guān)關(guān)系。但是在人的大腦中,神經(jīng)元通常會協(xié)同工作,而不是單獨工作。為了克服卷積神經(jīng)網(wǎng)絡(luò)的這一缺點,Hitton提出了“膠囊”的概念[1],膠囊是一組神經(jīng)元的組合,它不僅表示特征(實體)存在的概率,而且也包含特征(實體)之間的位置關(guān)系。膠囊將經(jīng)過特征提取之后的特征圖中的標(biāo)量(神經(jīng)元)堆疊形成向量(膠囊)。在膠囊網(wǎng)絡(luò)中,模型不僅在訓(xùn)練時考慮了特征的屬性,而且考慮了特征之間的關(guān)系。

    為了使得新提出的膠囊可以在模型中訓(xùn)練,不久后,Hitton提出了動態(tài)路由算法[2]使“膠囊網(wǎng)絡(luò)”的想法得以實現(xiàn)。將神經(jīng)元堆疊成向量(膠囊)后,可通過動態(tài)路由算法學(xué)習(xí)低層膠囊與高層膠囊之間的耦合系數(shù)[cij],通過耦合系數(shù)得到他們之間的映射關(guān)系,從而使得膠囊網(wǎng)絡(luò)的模型得以訓(xùn)練。新提出的膠囊網(wǎng)絡(luò)模型在MNIST[3]上實現(xiàn)了最先進(jìn)的性能,并且在識別高度重疊的數(shù)字方面比卷積神經(jīng)網(wǎng)絡(luò)有更好的效果。

    在原始的膠囊網(wǎng)絡(luò)中,將低層上的所有膠囊與耦合系數(shù)[cij]相乘,得到高層上的膠囊。 新提出的膠囊網(wǎng)絡(luò)模型有一些缺點。 首先,在原始模型中,膠囊被分為32組,每組由8個不同的卷積核所提取的特征圖組成,因為用于提取特征的卷積核是不同的,所以每組的類型可以被認(rèn)為是不同的。其次,因為每組膠囊的特征相關(guān)性不同,比如有的分組中不同卷積核的相關(guān)性較大,他們堆疊形成的膠囊就不能很好的體現(xiàn)特征的復(fù)雜性,將膠囊統(tǒng)一分為每組8個并不能很好地對模型進(jìn)行訓(xùn)練。最后將膠囊維度進(jìn)行人為分組相當(dāng)于對模型的搭建添加了人為噪音,不好很好的訓(xùn)練得到參數(shù)的最優(yōu)解。

    為了解決以上提出的問題,本文對可變維度膠囊進(jìn)行了深入研究,提出了基于隨機數(shù)的膠囊維度劃分方法和基于方差的膠囊選擇方法。并在公開的圖像數(shù)據(jù)集MNIST、Fashion-MNIST[4]、CIFAR10[5]和SVHN[6]上進(jìn)行實驗。

    2 相關(guān)工作

    膠囊網(wǎng)絡(luò)是Hitton提出的一種新的神經(jīng)網(wǎng)絡(luò)模型,旨在解決卷積神經(jīng)網(wǎng)絡(luò)的一些缺點。2017年,Hitton提出了膠囊網(wǎng)絡(luò)的原始結(jié)構(gòu),該結(jié)構(gòu)使用動態(tài)路由算法來訓(xùn)練膠囊層之間的參數(shù),他們希望膠囊的輸出向量的長度代表實體存在的概率。為了使膠囊更非線性,使用非線性擠壓功能來確保將較短的膠囊收縮至幾乎為零的長度,將較長的膠囊收縮至0~1之間的長度。膠囊網(wǎng)絡(luò)的模型如圖1所示。

    從圖1可以得出,圖像經(jīng)過ReLU Conv1卷積層提取特征后,由28[×]28[×]1變成了20[×]20[×]256,再經(jīng)過PrimaryCaps層提取特征形成6[×]6[×]256的特征圖,接著將256個特征圖分成32組,每組8個。這樣,在原始膠囊網(wǎng)絡(luò)結(jié)構(gòu)中,每個膠囊的維度是8維。

    膠囊的是一組神經(jīng)元的集合,所以膠囊的長度可以看作膠囊中所含信息的多少。通過人為的設(shè)定參數(shù),將膠囊網(wǎng)絡(luò)中膠囊的維度設(shè)定為8維,針對不同的膠囊所包含的信息不同,統(tǒng)一設(shè)定為8維的膠囊并不能很好的表述模型。

    3 可變維度膠囊

    在原始膠囊網(wǎng)絡(luò)論文中,膠囊的維度是固定的(8維),膠囊維度的多少代表膠囊中所含信息的多少。不同的卷積核提取的特征圖,經(jīng)過堆疊形成膠囊后所代表的信息是不同的,用固定的膠囊維度代表不確定的信息量是不合適的,所以我們提出了可變維度的膠囊。

    3.1 利用隨機數(shù)生成膠囊維度

    在原始膠囊網(wǎng)絡(luò)中,256個特征圖被分為了32組,每組8個膠囊。我們?nèi)匀槐A裟z囊網(wǎng)絡(luò)特征提取和之后動態(tài)路由的結(jié)構(gòu)不變。使用256個特征圖對膠囊進(jìn)行分組,不同的是,我們使用隨機數(shù)生成器,生成一系列隨機數(shù)[r1,r2,... ,rn]([r1+r2+... +rn=256]),[r1,r2,... ,rn]代表膠囊的不同維度分組,隨機數(shù)的生成如公式(1)所示。

    公式(1)中的[random]()是一個隨機中生成器,產(chǎn)生1~16的隨機數(shù)整數(shù),且這些隨機數(shù)的和為256.

    然后根據(jù)生成的隨機數(shù)[r1,r2,... ,rn]對膠囊對維度進(jìn)行劃分,劃分后對膠囊分為[n]組,每組分別為[r1,r2,... ,rn]個,然后根據(jù)動態(tài)路由算法求得耦合系數(shù)[cij],進(jìn)而根據(jù)低層膠囊和耦合系數(shù)[cij]得到高層膠囊。

    3.2 選擇信息量最大的膠囊分組

    通過3.1所述的方法,我們得到了由隨機數(shù)生成的膠囊維度的低層膠囊。隨機數(shù)的引入給膠囊的生成加入了一定的隨機性,可能產(chǎn)生更好的分組,也可能產(chǎn)生更差的分組,因此我們使用了三組隨機維度的膠囊。在一定的分布下,向量的方差越大,所包含的信息量就越大。因為經(jīng)過特征提取后,特征圖的分布是相同的。在訓(xùn)練過程中,我們根據(jù)膠囊的方差選擇信息量更大的分組。

    計算不同分組膠囊的方差總和,在每次訓(xùn)練的過程中,選擇方差最大的那個膠囊分組,它包含的信息量最大。在進(jìn)行訓(xùn)練時,信息量越大,對分類結(jié)果的預(yù)測的時候產(chǎn)生的貢獻(xiàn)就越大,模型可以得到更好的性能。

    4 實驗

    為了測試我們提出的可變維度膠囊對模型性能的影響,我們在4個公開數(shù)據(jù)集MNIST、Fashion-MNIST、CIFAR10和SVHN上對模型的分類結(jié)果進(jìn)行了測試。對于數(shù)據(jù)集MNIST和Fashion-MNIST,我們使用和原始膠囊網(wǎng)絡(luò)一樣的數(shù)據(jù)預(yù)處理。對于數(shù)據(jù)集CIFAR-10,和SVHN,我們將圖像的大小調(diào)整為32[×]32[×]3,并在每個方向上最多填充2個像素,且填充為零,并且不使用其他數(shù)據(jù)增強/變形。除了膠囊維度的改變,我們使用和原始膠囊網(wǎng)絡(luò)一樣的網(wǎng)絡(luò)結(jié)構(gòu)。

    我們使用pytorch[7]深度學(xué)習(xí)庫進(jìn)行實驗開發(fā)。對于訓(xùn)練過程,我們使用了Adam[8]優(yōu)化器,其初始學(xué)習(xí)率為0.001,在每個時期之后降低了5%。我們將batchsize設(shè)置為128,每次訓(xùn)練128張圖像。 該模型在GTX-1080Ti上進(jìn)行了訓(xùn)練,每次實驗訓(xùn)練了150輪。所有實驗進(jìn)行了三次,并對結(jié)果取平均值。

    從表1可以看出,可變維度的膠囊在數(shù)據(jù)集MNIST和Fashion-MNIST上取得了和原始固定膠囊維度相似甚至高一些的結(jié)果。但是在數(shù)據(jù)集CIFAR10和SVHN上卻取得了令人惋惜的結(jié)果。數(shù)據(jù)集MNIST和Fashion-MNIST是比較簡單的圖像數(shù)據(jù)集,它的分辨率是28[×]28[×]1的灰度圖像,但是數(shù)據(jù)集CIFAR10和SVHN是32[×32×]3的彩色圖像,相較于MNIST類的數(shù)據(jù)集,特征更加復(fù)雜,參數(shù)也需要更多??勺兙S度膠囊雖然膠囊的維度是隨機的,但是也是在一定范圍內(nèi)隨機,可能在這個范圍內(nèi)的膠囊維度對于復(fù)雜的數(shù)據(jù)集都不是很合適,所以采用了可變維度膠囊的模型,反而取得了較差的效果。

    5 總結(jié)

    在原始的膠囊網(wǎng)絡(luò)中膠囊維度是固定,而膠囊維度的多少和其包含的信息量是有關(guān)的,固定維度的膠囊并不能很好闡述膠囊的概念和表述模型的良好。針對膠囊網(wǎng)絡(luò)這一缺點,我們提出了可變維度的膠囊網(wǎng)絡(luò)這一想法,進(jìn)行了簡單的改進(jìn)和初步的實驗后,可變維度的膠囊在簡單的數(shù)據(jù)集上取得了令人滿意的效果,但也在較復(fù)雜的數(shù)據(jù)集上得到較差的結(jié)果。我們分析了它的原因,并計劃為了對可變維度的膠囊網(wǎng)絡(luò)進(jìn)行進(jìn)一步的改進(jìn)。

    參考文獻(xiàn):

    [1] Hinton G E,Krizhevsky A,Wang S D.Transforming auto-encoders[M]//Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011: 44-51.

    [2] SABOUR S, FROSST N, HINTON G E. Dynamic Routing Between Capsules. Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 4-9 December 2017, Long Beach, CA, USA.

    [3] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE, 1998,86(11):2278-2324.

    [4] . XIAO H, RASUL K, VOLLGRAF R. Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. CoRR, 2017, abs/1708.07747.

    [5] KRIZHEVSKY A, HINTON G, OTHERS. Learning multiple layers of features from tiny images. Citeseer, 2009.

    [6] NETZER Y, WANG T, COATES A, et al Reading Digits in Natural Images with Unsupervised Feature Learning. Neural Information Processing Systems Workshop.

    [7] PASZKE A, GROSS S, MASSA F, et al PyTorch: An Imperative Style, High-Performance Deep Learning Library. Advances in Neural Information Processing Systems 32Curran Associates, Inc., 2019: 8024-8035.

    [8] KINGMA D P, BA J. Adam: A Method for Stochastic Optimization. 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, Conference Track Proceedings,2015.

    【通聯(lián)編輯:梁書】

    猜你喜歡
    圖像分類
    基于可變形卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究
    基于SVM的粉末冶金零件的多類分類器的研究
    高光譜圖像分類方法的研究
    深度信念網(wǎng)絡(luò)應(yīng)用于圖像分類的可行性研究
    基于p.d.f特征的分層稀疏表示在圖像分類中的應(yīng)用
    基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類技術(shù)研究與實現(xiàn)
    基于數(shù)據(jù)挖掘的圖像分類算法
    基于云計算的圖像分類算法
    基于錨點建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用
    一種基于引導(dǎo)濾波和MNF的高光譜遙感圖像分類方法
    绥芬河市| 林口县| 信宜市| 东乌| 大竹县| 盐边县| 福海县| 临城县| 津南区| 法库县| 平潭县| 民权县| 沂水县| 东明县| 巴东县| 云安县| 嘉禾县| 饶平县| 博客| 洛浦县| 贡觉县| 澎湖县| 巴青县| 宜章县| 若羌县| 桂平市| 宁化县| 霸州市| 兰州市| 天峻县| 连平县| 永吉县| 岚皋县| 巩义市| 遵义县| 阜阳市| 香格里拉县| 武穴市| 娄烦县| 镇康县| 临城县|