雷慧靜
摘 要:隨著我們生活中需要處理的數(shù)據(jù)量越來越大,深度學(xué)習(xí)作為處理數(shù)據(jù)的方式之一也在飛速的發(fā)展,如今已在圖像識(shí)別、目標(biāo)檢測(cè)、目標(biāo)追蹤等多個(gè)方面取得突破性研究成果。卷積神經(jīng)網(wǎng)絡(luò)作為常見的深度網(wǎng)絡(luò)之一也得到了研究人員的重視。本文主要介紹了卷積神經(jīng)網(wǎng)絡(luò)的起源與發(fā)展,對(duì)卷積神經(jīng)網(wǎng)絡(luò)的基本構(gòu)成及算法進(jìn)行了探討,概述了近期在卷積神經(jīng)網(wǎng)絡(luò)上的突破與最新研究成果,及其在未來發(fā)展中的優(yōu)勢(shì)和劣勢(shì)的分析。
關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);有監(jiān)督學(xué)習(xí);網(wǎng)絡(luò)結(jié)構(gòu);圖像識(shí)別
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2018)16-0044-04
隨著社會(huì)的發(fā)展,越來越龐大的數(shù)據(jù)量與其維度的變多導(dǎo)致人們無法通過一般的統(tǒng)計(jì)學(xué)知識(shí)來處理數(shù)據(jù),因此大數(shù)據(jù)的處理便成為我們面臨的重大問題。大數(shù)據(jù)處理在一般流程上包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)抽取與集成、數(shù)據(jù)分析、數(shù)據(jù)解釋和用戶等幾個(gè)層次[1],其中,數(shù)據(jù)分析是大數(shù)據(jù)處理的核心,機(jī)器學(xué)習(xí)則是進(jìn)行有效的數(shù)據(jù)分析的方式之一。機(jī)器學(xué)習(xí)可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),其核心在于將數(shù)據(jù)的特征進(jìn)行分類,如若數(shù)據(jù)特征可以被標(biāo)簽化,則通過由監(jiān)督學(xué)習(xí)可以將這些標(biāo)簽分類,從而達(dá)到特征分類的目的;如數(shù)據(jù)特征不存在標(biāo)簽,則只能依靠無監(jiān)督學(xué)習(xí)將這些特征進(jìn)行聚類。另一方面,人們常說的深度學(xué)習(xí)則是指通過深度網(wǎng)絡(luò),即多重網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí),常見的深度網(wǎng)絡(luò)有卷積神經(jīng)網(wǎng)絡(luò)(CNN)[2-3]。深度學(xué)習(xí)的概念來源于人工神經(jīng)網(wǎng)絡(luò)的研究,是機(jī)器學(xué)習(xí)中對(duì)于數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。近年來,深度學(xué)習(xí)在圖像分類、語音識(shí)別、目標(biāo)檢測(cè)等方面取得突破性的研究成果,表現(xiàn)出了其優(yōu)秀的學(xué)習(xí)能力,如阿里巴巴、百度、google等公司都在進(jìn)行深度學(xué)習(xí)在語音識(shí)別的研究,而利用圖像識(shí)別技術(shù)的人臉識(shí)別、圖像搜索、人體行為識(shí)別等都是具有良好發(fā)展前景的技術(shù),并且可將其應(yīng)用于醫(yī)學(xué)、生物學(xué)等多種領(lǐng)域。在最近的人機(jī)圍棋大戰(zhàn)中獲勝的AlphaGo等,也都屬于深度學(xué)習(xí)的范疇。深度學(xué)習(xí)也分為有監(jiān)督和無監(jiān)督學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)(CNN)就是一種有監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)方法。它不僅具有傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的容錯(cuò)性高,自學(xué)能力強(qiáng)等優(yōu)點(diǎn),還具有權(quán)值共享,自動(dòng)提取特征,輸入圖像與網(wǎng)絡(luò)結(jié)合等優(yōu)勢(shì)。避免了傳統(tǒng)識(shí)別算法中數(shù)據(jù)重建和特征提取等過程[4]。隨著研究的不斷深入,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)不斷優(yōu)化,其應(yīng)用領(lǐng)域也逐漸得到延伸。例如,卷積神經(jīng)網(wǎng)絡(luò)與深信度網(wǎng)絡(luò)(DBN)[5-7]相結(jié)合產(chǎn)生的卷積深信度網(wǎng)絡(luò)(CDBN)[8],作為一種非監(jiān)督的生成模型,也被成功地應(yīng)用于人臉特征提取。
本文將針對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行綜述性研究,其中主要包括了卷積神經(jīng)網(wǎng)絡(luò)的起源和發(fā)展站,和其基本結(jié)構(gòu)的介紹,之后是對(duì)其主要特點(diǎn)的討論和應(yīng)用舉例。
1 卷積神經(jīng)網(wǎng)絡(luò)的起源與發(fā)展
CNN最初起源于1962年,生物學(xué)家Hubel和Wiesel[9]發(fā)現(xiàn)了一種覆蓋著整個(gè)整個(gè)視覺域并且對(duì)視覺輸入空間的局部區(qū)域很敏感的細(xì)胞,被稱為感受野。1980年,F(xiàn)ukushima以感受野為基礎(chǔ)提出了結(jié)構(gòu)與之類似的神經(jīng)認(rèn)知機(jī)(Neocognitron)[10]。Neocognitron是一個(gè)自組織的多層神經(jīng)網(wǎng)絡(luò)模型,通過激發(fā)上一層的局部感受野來的到每一層的響應(yīng),同時(shí)也是卷積神經(jīng)網(wǎng)絡(luò)在早期學(xué)習(xí)中主要的學(xué)習(xí)方式。隨后,LeCun Y[11]等人,基于Neocognitron提出并設(shè)計(jì)了用于字符識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5這個(gè)模型。LeNet-5的基本結(jié)構(gòu)由輸入層、卷積層(convolutional layer)、池化層(pooling layer)、全連接層及輸出層構(gòu)成,該系統(tǒng)在小規(guī)模手寫數(shù)字識(shí)別中取得了成功,但依然有很大的局限性。直到2012年,CNN取得歷史性突破,AlexNet[12]的出現(xiàn)使得CNN成為圖像分類上的核心算法模型。AlexNet相較于傳統(tǒng)的CNN模型,不但有著算法的改進(jìn),還實(shí)現(xiàn)了多GPU并行計(jì)算,在大量數(shù)據(jù)的支持下,Top-5的錯(cuò)誤率越來越低,目前降低到3.5%左右。近期還先后出現(xiàn)了更深層的VGG結(jié)構(gòu)、網(wǎng)中網(wǎng)結(jié)構(gòu)的GoogleNet[13],ResNet[14]的出現(xiàn)使上百甚至上千層的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成為可能。
2 卷積神經(jīng)網(wǎng)絡(luò)的原理及其構(gòu)成
2.1 輸入層
輸入層是負(fù)責(zé)接收所需圖片并進(jìn)行處理,常見的圖像數(shù)據(jù)處理有三種:去均值、歸一化以及白化。去均值是指將輸入數(shù)據(jù)各個(gè)維度都中心化到0,再將所有樣本值減去均值;歸一化則是指將幅度歸一化到同樣的范圍;白化是對(duì)每個(gè)特征軸上的幅度歸一化。
2.2 卷積層
卷積層是由多個(gè)特征面組成,每個(gè)特征面又由多個(gè)神經(jīng)元組成。通過神經(jīng)元中卷積核的局部區(qū)域?qū)⒚總€(gè)特征面連接在一起,將特征面連接在一起的局部區(qū)域又稱為卷積核的局部感受域,也就是共享卷積核權(quán)值,即權(quán)值共享。將該局部加權(quán)并傳給一個(gè)非線性函數(shù)ReLU即可獲得每個(gè)神經(jīng)元的輸出值[15]:
=[+1]
oMpaN表示的是神經(jīng)元個(gè)數(shù),CiMapN表示的每個(gè)輸入特征面,CWindow表示卷積核大小,CInterval表示卷積核在上層滑動(dòng)步長(zhǎng)。每個(gè)卷積層對(duì)應(yīng)的可訓(xùn)練參數(shù)數(shù)目CParams則為[15]:
CParams表示可訓(xùn)練參數(shù)數(shù)目,iMap表示輸入特征面的個(gè)數(shù),oMap則是每個(gè)卷積層輸入特征面的個(gè)數(shù)。
當(dāng)上一個(gè)特征層被卷積核卷積時(shí),通過一個(gè)激活函數(shù)就可獲得輸出特征圖,每個(gè)輸出特征圖可以組合卷幾多個(gè)輸出特征圖值:
其中,為卷積層l的第j個(gè)通道的凈激活,是對(duì)前一層輸出特征圖進(jìn)行卷積求和與偏置后得到的,是卷積層l的第j個(gè)輸出,Mj表示用于計(jì)算的輸入特征圖子集,是卷積核矩陣,是對(duì)卷積后特征圖的偏置。
2.3 池化層
輸入圖像經(jīng)過卷積神經(jīng)層和ReLU函數(shù)處理后,圖像中包含了許多沒用的信息,這些信息會(huì)降低算法性能,還會(huì)破壞算法的平移不變性[16]。而池化層的作用就是篩選這些信息。池化層是通過不同的池化操作對(duì)圖像進(jìn)行降維,在減少數(shù)據(jù)量的同時(shí)保留有用信息,提高圖像特征的變換不變特性[17]。它是將圖像分成一塊一塊的區(qū)域后,對(duì)每個(gè)區(qū)域計(jì)算出一個(gè)值,再將計(jì)算出的值依次排列,輸出為新的圖像。池化層的一般形式為:
其中,表示子采樣層函數(shù),一般是對(duì)不同的輸入圖像n*n塊所有像素進(jìn)行求和并取均值。池化后的圖像縮小了n*n倍,每一個(gè)特征圖都對(duì)應(yīng)著一個(gè)屬于自己的權(quán)值和一個(gè)偏置。池化層可再次提取圖像信息并獲得局部均值。通過圖像的二次提取來提高圖像的變換不變特性。
近年來在最大池化和平均池化的基礎(chǔ)上提出了許多新池化操作,如混合池化、范數(shù)池化、空域金字塔池化等。
Yu等[18]將最大池化和平均池化結(jié)合起來,提出了混合池化的方法,可以用如下公式來描述:
,
其中,是取值為0和1的隨機(jī)變量,是池化區(qū)域的池化窗口,表示中所含元素的個(gè)數(shù),表示窗口中的元素。
Gulcehre等[19]將最大池化和平均池化的思想進(jìn)行了推廣,提出了范數(shù)池化,其定義如下:
2.4 全連接層
全連接層是負(fù)責(zé)整合卷積層或池化層中具有類別區(qū)分性的局部信息[20],全連接層中神經(jīng)元的激勵(lì)函數(shù)一般采用ReLU函數(shù),最后一層的全連接層與輸出層相連,可以采用線性分類器,如softmax,進(jìn)行邏輯回歸分類。然而使用全連接層有一個(gè)缺點(diǎn):輸入尺寸改變后,原網(wǎng)絡(luò)結(jié)構(gòu)無法適應(yīng)新的輸入圖像,使用時(shí)必須將其進(jìn)行縮放或裁剪,且運(yùn)算量大,導(dǎo)致輸出結(jié)果受到影響。
2.5 激活函數(shù)
2.5.1 Sigmoid函數(shù)[21]
Sigmoid是一種常用的S性非線性激活函數(shù),其功能是把實(shí)數(shù)壓縮至0到1之間,使其對(duì)中部區(qū)的信號(hào)增益較大,對(duì)兩側(cè)區(qū)的信號(hào)增益較小。雖曾經(jīng)作為深度學(xué)習(xí)的激活函數(shù)而被廣泛使用,但因其缺陷明顯現(xiàn)在很少出現(xiàn)了。第一個(gè)缺點(diǎn)是在深層網(wǎng)絡(luò)中,Sigmoid函數(shù)反向傳播時(shí)很容易出現(xiàn)梯度彌散情況,當(dāng)Sigmoid接近飽和區(qū)時(shí),導(dǎo)數(shù)趨于0,導(dǎo)致其無法完成深層網(wǎng)絡(luò)的訓(xùn)練。第二點(diǎn)是其輸出結(jié)果是非0均值的,這個(gè)結(jié)果產(chǎn)生的直接影響就是梯度下降。
2.5.2 Tanh函數(shù)
Tanh函數(shù)也是一種常用的S型線性激活函數(shù),是Sigmoid的延伸形式。它的功能是將實(shí)數(shù)壓縮在-1至+1之間,對(duì)中部區(qū)域的信號(hào)增益較大,對(duì)兩側(cè)的信號(hào)增益較小。雖然Tanh克服了Sigmoid函數(shù)的非0均值輸出的缺點(diǎn),延遲了飽和期,有更好的容錯(cuò)能力,且整體性能優(yōu)于Sigmoid,但依然沒能克服梯度彌散問題,使得Tanh函數(shù)的應(yīng)用有著很大的局限性。
2.5.3 ReLU函數(shù)[22]
ReLU函數(shù)是一種非飽和線性修正函數(shù),當(dāng)輸入值小于等于0時(shí),就強(qiáng)制其等于0,當(dāng)輸入值大于0時(shí)則保持原輸入值不變。這種做法也為訓(xùn)練后的網(wǎng)絡(luò)帶來適度的稀疏特性,減少了參數(shù)之間的互相依存關(guān)系,也緩解了過擬合問題的發(fā)生。且因不含除法和指數(shù)運(yùn)算,函數(shù)整體的運(yùn)算速度也變快了。由于其分段線性的特質(zhì),他在計(jì)算后也保持分段線性,所以在計(jì)算中不會(huì)丟失有用的特征。因?yàn)镽eLU函數(shù)相較于前兩個(gè)函數(shù)有較大的優(yōu)勢(shì),所以我們現(xiàn)在常用于卷積神經(jīng)網(wǎng)絡(luò)的激活函數(shù)就是ReLU函數(shù)。
3 卷積神經(jīng)網(wǎng)絡(luò)的實(shí)用性
3.1 卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)
卷積神經(jīng)網(wǎng)絡(luò)是基于生物神經(jīng)網(wǎng)絡(luò)而衍生出的具有權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu),它大大降低了網(wǎng)絡(luò)模型的復(fù)雜度。當(dāng)輸入多維度圖像時(shí),這一特點(diǎn)的優(yōu)勢(shì)則更為明顯,它避免了傳統(tǒng)識(shí)別算法中特征提取和數(shù)據(jù)重建的過程,使得計(jì)算更加簡(jiǎn)潔。它還具有分層學(xué)習(xí)的能力,通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的特征相對(duì)于人工設(shè)計(jì)特征具有更強(qiáng)的判別能力和泛化能力。特征表達(dá)作為計(jì)算機(jī)視覺的研究基礎(chǔ),如何利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、提取、分析信息的特征表達(dá),從而獲得判別性能更強(qiáng),泛化性能更好的通用特征,將對(duì)整個(gè)計(jì)算機(jī)視覺乃至更廣泛的領(lǐng)域產(chǎn)生積極的影響卷積神經(jīng)網(wǎng)絡(luò)的研究意義。
3.2 卷積神經(jīng)網(wǎng)絡(luò)的劣勢(shì)及改進(jìn)方向
卷積神經(jīng)網(wǎng)絡(luò)雖然具有計(jì)算便捷、可以準(zhǔn)確提取特征等優(yōu)勢(shì),也依然具有一些問題以及需要改進(jìn)的方面[23]。
(1)卷積神經(jīng)網(wǎng)絡(luò)的理論研究相較于其良好的發(fā)展前景還較落后,還需要更為完備的數(shù)學(xué)解釋和理論指導(dǎo)將其完善,這對(duì)卷積神經(jīng)網(wǎng)絡(luò)的進(jìn)一步發(fā)展有著重大意義。
(2)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)研究還有著很大的上升空間,若僅是通過增加網(wǎng)絡(luò)復(fù)雜度來處理復(fù)雜問題的話很可能會(huì)遇到一些難以解決的問題,如過擬合問題、網(wǎng)絡(luò)退化問題等。所以其性能的提升需要依靠更加合理的網(wǎng)絡(luò)設(shè)計(jì)。
(3)在卷積神經(jīng)網(wǎng)絡(luò)的模型不斷改進(jìn)的過程中,現(xiàn)有的數(shù)據(jù)集有些已經(jīng)不滿足當(dāng)下的要求,因此數(shù)量類別更多,數(shù)據(jù)形式更加復(fù)雜是當(dāng)前研究數(shù)據(jù)集的趨勢(shì)。
(4)卷積神經(jīng)網(wǎng)絡(luò)的完備性研究較為匱乏,其完備性的研究可以更進(jìn)一步的發(fā)現(xiàn)和解決目前網(wǎng)絡(luò)結(jié)構(gòu)存在的缺陷。
4 結(jié)語
4.1 應(yīng)用舉例
4.1.1 圖像分類
A Krizhevsky[24]等首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ImageNet large scale visual recognition challenge,ILSVRC)中,他所訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類和目標(biāo)任務(wù)中取得了突破性的好成績(jī),使得卷積神經(jīng)網(wǎng)絡(luò)再次成為研究人員的焦點(diǎn)。圖像識(shí)別主要包括手寫字符識(shí)別、人臉識(shí)別、物體識(shí)別等。在圖像識(shí)別領(lǐng)域,手寫體數(shù)字識(shí)別能夠自動(dòng)識(shí)別快遞信息、銀行支票信息等,人臉識(shí)別則可用于計(jì)算機(jī)登錄系統(tǒng)、視頻安保監(jiān)控系統(tǒng)等。由于圖像識(shí)別問題的多樣性和復(fù)雜性,目前的圖像識(shí)別主要針對(duì)特定的識(shí)別問題,而手寫體數(shù)字識(shí)別并不能在物體識(shí)別中獲得應(yīng)用,還具有很大的局限性。卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別應(yīng)用中還有著很大的發(fā)展空間,它能夠改善網(wǎng)絡(luò)結(jié)構(gòu)和深度,通過大量的訓(xùn)練和有效算法得出一個(gè)通用的識(shí)別系統(tǒng),可提高圖像識(shí)別的效率和精度。
4.1.2 目標(biāo)跟蹤
針對(duì)可視對(duì)象的在線跟蹤問題,Li[25]等將二維線性判別分析引入了跟蹤目標(biāo)的表觀建模中,并利用了卷積神經(jīng)網(wǎng)絡(luò)矩陣形式進(jìn)行計(jì)算,極大地提高了跟蹤效率利用卷積神經(jīng)網(wǎng)絡(luò),提出了一種有效的跟蹤算法。該算法用截?cái)嘟Y(jié)構(gòu)損失函數(shù)作為目標(biāo)函數(shù),通過其樣例選擇機(jī)制,增強(qiáng)隨機(jī)梯度下降算法訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的效率。Wang等[26]將表觀建模與視覺匹配看作是視覺跟蹤的一個(gè)單目標(biāo)優(yōu)化問題,基于度量學(xué)習(xí)提出了一種判別式表觀模型用于視覺跟蹤中。Jia[27]等將目標(biāo)跟蹤問題建模為一個(gè)機(jī)器學(xué)習(xí)問題.在給定行人前一個(gè)位置和步幅的前提下,通過學(xué)習(xí)來估計(jì)行人當(dāng)前的位置和步幅.在該方法中,卷積神經(jīng)網(wǎng)絡(luò)用于從視頻的相鄰2幀中一起學(xué)習(xí)行人的空間和時(shí)間特征。
4.2 未來研究方向
卷積神經(jīng)網(wǎng)絡(luò)在越來越多的識(shí)別中都中有著巨大的發(fā)展空間,如人臉識(shí)別、手寫體數(shù)字識(shí)別和許多其他物體識(shí)別等,隨著其網(wǎng)絡(luò)深度和網(wǎng)絡(luò)結(jié)構(gòu)的改善,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中的識(shí)別精度和速度得以提高,圖像識(shí)別領(lǐng)域的擴(kuò)大,使越來越多的識(shí)別問題都能通過卷積神經(jīng)網(wǎng)絡(luò)來解決。卷積神經(jīng)網(wǎng)絡(luò)也需要改變網(wǎng)絡(luò)的結(jié)構(gòu)和深度,以及研究通用的圖像識(shí)別系統(tǒng)等,使卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域應(yīng)用更加廣泛。
參考文獻(xiàn)
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[2]CNN:Yann LeCun,Leon Bottou,Yoshua Bengio,et al.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324.
[3]Yann LeCun, B. Boser, J. S. Denker, et al. Backpropagation applied to handwritten zip code recognition. Neural Computation,1989,11(4).
[4]張慶輝,萬晨霞.卷積神經(jīng)網(wǎng)絡(luò)綜述[J].中原工學(xué)院學(xué)報(bào),2017,28(3):82-86.
[5]DBN: HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets [J]Neura l Com putation,2006,18(7):1527-1554.
[6]Geoffrey Hinton, Simon Osindero, Yee-Whye Teh. A fast learning algorithm for deep belief nets. Neural Computation,2006,18(7):1527-1554.
[7]Ruslan Salakhutdinov, Geoffrey Hinton.Deep boltzmann machines.Journal of Machine Learning Research-Proceedings Track,2009,9(1):448-455.
[8]Ruslan Salakhutdinov, Geoffrey Hinton.An efficient learning.procedure for deep boltzmann machines.Neural Computation,2012,24(8):1967-2006.
[9]HUBEL D H,WIESEL T N.Receptive fields,binocular interaction,and funct- ional architecture in the cats visual cortex [J].Journal of Physiology,1962,160(1):106-154.
[10]Fukushima K,Miyake S.Neocognitron:A new algorithm for pattern recognition tolerant of deform ations and shifts in position [J].Pattern Recognition,1982,15(6):455-469.
[11]LECUN Y,BOTTOU L,BENGIO Y,et a1.Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.
[12]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.Cambridge:MIT Press,2012:1097-1105.
[13]SZEGEDY C,LIU W,JIA Y,et a1.Going deeper with convolutions [C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattem Recognition.Washington,DC:IEEE Computer Society,2015:1-8.
[14]HE K,ZHANG X,REN S,et a1.Deep Residual Learning for Image Recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2016:770-778.
[15]金林鵬.面向臨床應(yīng)用的心電圖分類方法研究[D].中國(guó)科學(xué)院蘇州納米技術(shù)與納米仿生研究所,2016.
[16]王振,高茂庭.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī):專業(yè)版,2015,(20):61-66.
[17]GOODFELLOW I,BENGIO Y.COURVILLE A. Deep learning[M].Massachusetts:MIT Press,2016.
[18]WAIBEL A,HANAZAWA T,HINTONG,et a1.Phoneme recognition using time-delay neural networks [M]//Readings in Speech Recognition.Amsterdam:Elsvier,1990:393-404.
[19]LAWRENCE S,GILESC L,TSOI A C,et a1.Face recognition:a convolutional neural—network approach[J].IEEE Transactions on Neural Networks,1997,8(1):98-113.
[20]Tara N. Sainath, Abdel-rahman Mohamed, Brian Kingsbury, et al.Deep convolutional neural networks for LVCSR//Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, Canada, 2013: 8614-8618.
[21]曲之琳,胡曉飛.基于改進(jìn)激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(12):77-80.
[22]王雙印,滕國(guó)文.卷積神經(jīng)網(wǎng)絡(luò)中ReLU激活函數(shù)優(yōu)化設(shè)計(jì)[J].信息通信,2018,(1):42-43.
[23]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):2508-2515.
[24]KRIZHEVSKY A, SUTSKEVER I, HINTON G E.Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.Red Hook,NY: Curran Associates,2012:1097-1105.
[25]Zhu G, Porikli F, Li H. Beyond local search: Tracking objects everywhere with instance-specific proposals[C]//CVPR,2016.
[26]Wang X Y, Hua G, Han T X. Discriminative tracking by metric learning. In: Proceedings of the 11th European Conference on Computer Vision (ECCV 2010). Heraklion, Crete,Greece: Springer,2010:200-214.
[27]Jia X, Lu H C, Yang M H. Visual tracking via adaptive structural local sparse appearance model. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE,2012:1822-1829.