趙佳英
(浙大寧波理工學(xué)院圖書與信息技術(shù)中心,浙江 寧波 315199)
近年來(lái),深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要研究方向,在圖像分類和視頻分析等領(lǐng)域取得了重大的研究成果。1943 年,MCLLOCH 和PITTS 合作提出了最早的神經(jīng)網(wǎng)絡(luò)雛形MCP 模型技術(shù),對(duì)0 或1 的二值化數(shù)據(jù)輸入進(jìn)行了簡(jiǎn)單的線性加權(quán)組合。1949 年Hebb 理論提出后,計(jì)算科學(xué)家開(kāi)始考慮通過(guò)調(diào)整神經(jīng)元之間的權(quán)值來(lái)進(jìn)行機(jī)器學(xué)習(xí)[1]。1951 年,ROBBINS和MONRO 提出了隨機(jī)逼近算法計(jì)算梯度進(jìn)行參數(shù)優(yōu)化,大大降低了計(jì)算復(fù)雜度[2]。
本文通過(guò)全連接神經(jīng)網(wǎng)絡(luò)模型和卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)圖像分類技術(shù),分析模型思想和結(jié)構(gòu),通過(guò)仿真實(shí)驗(yàn)訓(xùn)練研究超參數(shù)對(duì)圖像分類技術(shù)的影響;最后進(jìn)行總結(jié),為今后用圖像分類技術(shù)設(shè)置參數(shù)提供參考。
20 世紀(jì)50 年代,ROSENBLATT 提出單層感知機(jī)后,在輸入層與輸出層之間由一到多個(gè)隱藏層構(gòu)成的多層感知機(jī)也應(yīng)運(yùn)而生。全連接神經(jīng)網(wǎng)絡(luò)模型是一種多層感知機(jī)技術(shù),對(duì)l-1 層和l 層而言,l-1 層的任意一個(gè)節(jié)點(diǎn)都和第l 層所有節(jié)點(diǎn)有連接,但不與同一層內(nèi)的其他節(jié)點(diǎn)連接。假定l-1 層圖像特征為al-1,l-1 層和l 層之間的權(quán)重為w,偏置值為b,n 為節(jié)點(diǎn)個(gè)數(shù),m 為單個(gè)節(jié)點(diǎn)的特征維度,k 為類別數(shù),則有:
1989 年,LECUN 等人首次提出了“卷積”一詞,之后卷積神經(jīng)網(wǎng)絡(luò)逐漸得到了發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層、池化層、全連接層交叉堆疊而成,是一種具有局部連接和權(quán)重共享等特性的深度前饋神經(jīng)網(wǎng)絡(luò)。
1.2.1 卷積層
卷積需要定義一個(gè)二維矩陣的卷積核,再與圖像中同樣大小的子像素點(diǎn)矩陣進(jìn)行加權(quán)和操作。利用圖像像素點(diǎn)存在空間依賴性的特點(diǎn),卷積計(jì)算保留了圖像相鄰像素點(diǎn)之間的強(qiáng)相關(guān)性和相隔較遠(yuǎn)的像素點(diǎn)之間的弱相關(guān)性。在圖像邊緣像素點(diǎn)填充0 解決圖像邊緣像素點(diǎn)的特征提取。
1.2.2 池化層
池化是對(duì)圖像指定窗口大小內(nèi)的像素點(diǎn)進(jìn)行最值、平均值或其他操作的步驟。池化層可用于壓縮數(shù)據(jù)和參數(shù)的量,在對(duì)圖像特征進(jìn)行降維和去除冗余的同時(shí),可以一定程度加快計(jì)算速度和降低過(guò)擬合的風(fēng)險(xiǎn)。
1.2.3 全連接層
卷積層和池化層對(duì)圖像特征進(jìn)行了降維,將原始圖像特征映射到隱藏特征空間中。全連接層使用分布式特征表示方式把隱藏空間中的特征映射到具體圖像分類空間。
本文使用的圖像集為fashion-mnist,包含60 000張訓(xùn)練圖像和10 000 張測(cè)試圖像。每張圖像都是1 個(gè)28×28 像素的灰度圖像,像素值為0~255 之間的整數(shù)。此數(shù)據(jù)集標(biāo)簽有10,包含T 恤、褲子、運(yùn)動(dòng)鞋、包等。
數(shù)據(jù)量較大時(shí),將所有數(shù)據(jù)一次性放入網(wǎng)絡(luò)模型容易引起內(nèi)存爆炸,引入了批處理的概念。在保證學(xué)習(xí)率與動(dòng)量不變的情況下,通過(guò)技術(shù)實(shí)驗(yàn),觀察全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的批處理大小對(duì)圖像分類技術(shù)的影響[3],如圖1、圖2 所示。從圖中可以看出,批處理值小時(shí)收斂較快;批處理值增大,訓(xùn)練過(guò)程出現(xiàn)了過(guò)擬合現(xiàn)象,對(duì)圖像分類技術(shù)的準(zhǔn)確度影響較大。批處理大小對(duì)訓(xùn)練時(shí)長(zhǎng)的影響如圖3 所示。圖中,批處理與時(shí)間復(fù)雜度呈現(xiàn)正相關(guān)關(guān)系,但在批處理大小為256 前后出現(xiàn)了波動(dòng)。原因可能是當(dāng)批處理值過(guò)大時(shí),批數(shù)小,單批節(jié)點(diǎn)過(guò)多,計(jì)算梯度的用時(shí)增加;當(dāng)批處理值小時(shí),批數(shù)多,循環(huán)次數(shù)多,計(jì)算用時(shí)增加。
圖1 批處理大小對(duì)分類結(jié)果的影響(全連接神經(jīng)網(wǎng)絡(luò))
圖2 批處理大小對(duì)分類結(jié)果的影響(卷積神經(jīng)網(wǎng)絡(luò))
圖3 批處理大小對(duì)訓(xùn)練時(shí)長(zhǎng)的影響
研究動(dòng)量時(shí)需考慮歷史的梯度下降方向,類似物理學(xué)中的慣性。即使碰到梯度值為0 的鞍點(diǎn),由于受到歷史梯度的影響,也可能會(huì)突破局部最優(yōu)點(diǎn)。動(dòng)量對(duì)分類結(jié)果的影響如圖4 所示。0.5 和0.09 的動(dòng)量值準(zhǔn)確率高于0.9 和0.99 的動(dòng)量值,且動(dòng)量值為0.5 時(shí)訓(xùn)練結(jié)果較穩(wěn)定。
圖4 動(dòng)量對(duì)分類結(jié)果的影響
學(xué)習(xí)率決定了梯度下降的速率,學(xué)習(xí)率越大,損失函數(shù)對(duì)參數(shù)的影響就越大,參數(shù)更新得就越快;但學(xué)習(xí)率過(guò)大時(shí),參數(shù)更新波動(dòng)也較大,如圖5 所示,學(xué)習(xí)率為0.1 時(shí),分類效果發(fā)散或陷入了局部最優(yōu)造成震蕩。
圖5 學(xué)習(xí)率對(duì)分類結(jié)果的影響
由以上技術(shù)實(shí)驗(yàn)可以得出,超參數(shù)設(shè)置會(huì)對(duì)圖像分類技術(shù)產(chǎn)生影響。現(xiàn)采用批處理為256、動(dòng)量值為0.5、學(xué)習(xí)率為0.001 的全連接模型對(duì)fashion-mnist 圖像集進(jìn)行分類,圖像分類結(jié)果如圖6 所示,基本實(shí)現(xiàn)了圖像分類,且結(jié)果是正確的。
圖6 預(yù)測(cè)分類結(jié)果示意圖
本文采用全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練fashion-mnist 圖像集,利用控制變量法,研究批處理大小、動(dòng)量、學(xué)習(xí)率等超參數(shù)對(duì)圖像分類技術(shù)的影響。通過(guò)技術(shù)實(shí)驗(yàn)發(fā)現(xiàn),批處理大小對(duì)分類準(zhǔn)確度、時(shí)間復(fù)雜度等方面都有一些影響,但并不是完全的正相關(guān)關(guān)系,動(dòng)量使得圖像分類訓(xùn)練過(guò)程更加穩(wěn)定。當(dāng)學(xué)習(xí)率過(guò)高時(shí)參數(shù)更新過(guò)快,結(jié)果波動(dòng)較大;當(dāng)學(xué)習(xí)率低時(shí),收斂速度過(guò)慢。