• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度學(xué)習(xí)中的權(quán)重初始化方法研究

      2022-07-14 13:11:06邢彤彤孫仁誠邵峰晶隋毅
      計(jì)算機(jī)工程 2022年7期
      關(guān)鍵詞:冪律精確度權(quán)值

      邢彤彤,孫仁誠,邵峰晶,隋毅

      (青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山東青島 266071)

      0 概述

      從MCCULLOCH等[1]提出神經(jīng)網(wǎng)絡(luò)的初步概念以及神經(jīng)元的數(shù)學(xué)模型開始,針對神經(jīng)網(wǎng)絡(luò)的研究得到迅速發(fā)展。特別是深度學(xué)習(xí)[2]在圖像領(lǐng)域的優(yōu)秀表現(xiàn),使其在機(jī)器學(xué)習(xí)[3]中脫穎而出。其中,卷積網(wǎng)絡(luò)[4]的概念也越來越受到人們的關(guān)注和重視,尤其是在圖像分類的處理中,卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)非常突出。盡管訓(xùn)練越來越深的網(wǎng)絡(luò)存在一些困難,但是卷積神經(jīng)網(wǎng)絡(luò)還是取得了較好的成績,并且還在不斷的優(yōu)化、突破。

      深度學(xué)習(xí)的本質(zhì)就是學(xué)習(xí)、優(yōu)化權(quán)重的值,使其達(dá)到一個(gè)最優(yōu)解的狀態(tài)。通過文獻(xiàn)[5]提出的卷積神經(jīng)網(wǎng)絡(luò)可視化方式可清楚地觀察到卷積神經(jīng)網(wǎng)絡(luò)每一層的權(quán)值情況,這其中需要更新權(quán)重的層,包括卷積層、BN 層和FC 層等。在尋找最優(yōu)解的過程中,權(quán)重的初始化就是得到最優(yōu)解的重要前提。如果權(quán)重初始化不合適,則可能會導(dǎo)致模型反向傳播[6]失效,陷入局部最優(yōu)解,使得模型預(yù)測效果不理想,甚至使損失函數(shù)震蕩,模型無法收斂,即使用不同的權(quán)重初始化方法,能夠直接影響模型的訓(xùn)練速度和最終精確度。因此,一個(gè)優(yōu)秀的權(quán)重初始化方法是模型提升收斂速度和最終精確度的重要前提。

      在深度學(xué)習(xí)領(lǐng)域中,卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重初始化可以采取多種方式,如高斯(正態(tài))分布初始化[7]、均勻分布初始化[8]、截?cái)喔咚狗植汲跏蓟?](該初始化方法與高斯分布初始化相似,但分布形式為截尾分布)以及主成分洗牌初始化[10]等方法。其中,目前較為流行的權(quán)值初始化方法,如Xavier 初始化方法[11]和He 初始化方法[12]是在正態(tài)分布和均勻分布的基礎(chǔ)上進(jìn)行了改進(jìn)。Xavier 初始化為了增加網(wǎng)絡(luò)各層之間信息傳播的流暢性,遵循了(正向傳播)各層激活值方差和(反向傳播)各層狀態(tài)值的梯度方差在傳播中保持一致的原則,通過均勻分布來進(jìn)行權(quán)重初始化調(diào)整。He 初始化在Xavier 初始化的基礎(chǔ)上稍加改變,遵循(正向傳播)各層狀態(tài)值方差和(反向傳播)各層激活值的梯度方差在傳播中保持一致的原則,在與ReLU 激活函數(shù)[13]的共同作用下,可以得到較好的收斂效果。然而,使用這兩種權(quán)重初始化方法的網(wǎng)絡(luò)依然存在訓(xùn)練時(shí)間長、需要數(shù)據(jù)量大的問題。文獻(xiàn)[14]在實(shí)驗(yàn)過程中發(fā)現(xiàn)預(yù)訓(xùn)練模型[15]的權(quán)重參數(shù)分布可能存在冪律分布的現(xiàn)象,經(jīng)過其后期驗(yàn)證得出預(yù)訓(xùn)練權(quán)重存在局部冪律的性質(zhì)。

      本文從Pytorch 中圖像分類相關(guān)的預(yù)訓(xùn)練模型[16]入手,分析預(yù)訓(xùn)練模型的權(quán)重分布,提出一種標(biāo)準(zhǔn)化的對稱冪律(Normalized Symmetric Power Law,NSPL)初始化方法。分析權(quán)重初始化面臨的主要問題,研究預(yù)訓(xùn)練網(wǎng)絡(luò)模型的權(quán)重分布,發(fā)現(xiàn)權(quán)重分布具備冪律分布的特征。在此基礎(chǔ)上,基于標(biāo)準(zhǔn)化對稱冪律分布,給出權(quán)重?cái)?shù)據(jù)生成及初始化算法。

      1 問題描述

      1.1 權(quán)重初始化問題

      權(quán)重有效初始化可以防止激活值在深度神經(jīng)網(wǎng)絡(luò)的正向傳遞過程中出現(xiàn)梯度爆炸或者梯度消失。模型經(jīng)過權(quán)重初始化后,在訓(xùn)練、更新權(quán)重時(shí)主要會出現(xiàn)以下2 種情況:

      2)如果初始權(quán)重太大,會導(dǎo)致輸入狀態(tài)也較大,對sigmoid 激活函數(shù)來講,激活函數(shù)的值會變得飽和,從而出現(xiàn)梯度消失的問題。

      1)如果初始權(quán)重太小,導(dǎo)致神經(jīng)元的輸入過小,隨著層數(shù)的不斷增加,會出現(xiàn)信號消失的問題,也會導(dǎo)致sigmoid 激活函數(shù)[17]中強(qiáng)調(diào)的丟失非線性的能力,因?yàn)樵? 附近sigmoid 函數(shù)是近似線性的。

      無論上述哪一種情況發(fā)生,損失梯度要么太大或要么太小,更新信息都無法有效地向后傳遞,網(wǎng)絡(luò)則需要很長時(shí)間才能收斂。研究人員研究了各種初始化方法來避免這些問題,如:通過保持一層網(wǎng)絡(luò)的輸入和輸出方差不變來防止梯度消失的Xavier 初始化方法;He 初始化方法通過加重權(quán)重方差的方式彌補(bǔ)ReLU 激活函數(shù)[18]1/2 為零的狀態(tài)。

      目前針對權(quán)重初始化方法的思路更多偏向于正態(tài)分布和均勻分布,但還不能更好地以合適的數(shù)據(jù)對深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行初始化。若使模型的初始權(quán)重分布與訓(xùn)練后模型權(quán)重的分布接近,將有助于模型獲得最優(yōu)解,減少模型的訓(xùn)練時(shí)間。因此,尋找一個(gè)更合適的數(shù)學(xué)分布規(guī)律來進(jìn)行權(quán)重初始化,是本文探討并驗(yàn)證的核心問題。

      1.2 權(quán)重初始化方法

      網(wǎng)絡(luò)模型的訓(xùn)練實(shí)質(zhì)就是更新權(quán)值并找到最優(yōu)權(quán)值的過程。預(yù)訓(xùn)練模型的權(quán)值就是網(wǎng)絡(luò)訓(xùn)練最終找到的最優(yōu)權(quán)值,若可以從預(yù)訓(xùn)練模型的權(quán)值中總結(jié)出規(guī)律,研究并制定一種權(quán)重初始化的方法,有助于提升網(wǎng)絡(luò)模型的訓(xùn)練速度和最終精確度。

      針對權(quán)重初始化目前存在的問題,本文提出一種有效的權(quán)重初始化方法,具體解決思路如下:1)從預(yù)訓(xùn)練模型的權(quán)值入手,查看并分析預(yù)訓(xùn)練模型的權(quán)值分布規(guī)律;2)通過分析預(yù)訓(xùn)練模型的權(quán)值分布特征,發(fā)現(xiàn)權(quán)重分布具有冪律分布特征,進(jìn)一步進(jìn)行冪律分布擬合的檢驗(yàn)實(shí)驗(yàn),考慮制定一種以冪律分布為基礎(chǔ)的權(quán)重初始化方法;3)優(yōu)化數(shù)據(jù)分布結(jié)構(gòu),制定標(biāo)準(zhǔn)化的對稱冪律分布數(shù)據(jù),即本文提出的NSPL 初始化方法。

      本文從預(yù)訓(xùn)練模型的權(quán)重入手,查看并分析預(yù)訓(xùn)練模型的權(quán)重分布規(guī)律,探究冪律分布在權(quán)重初始化中的作用。對比實(shí)驗(yàn)結(jié)果表明,本文提出的方法有助于減少網(wǎng)絡(luò)權(quán)重的訓(xùn)練時(shí)間,具有提升網(wǎng)絡(luò)最終精確度的能力。

      1.3 預(yù)訓(xùn)練模型的權(quán)重分布分析

      本節(jié)使用的是Pytorch 框架下torchvision 中的預(yù)訓(xùn)練模型,它是基于ImageNet 數(shù)據(jù)集上訓(xùn)練出來的,通過查看預(yù)訓(xùn)練模型的權(quán)值,對預(yù)訓(xùn)練模型權(quán)值做相關(guān)統(tǒng)計(jì)分布分析。依據(jù)冪律分布的判斷性質(zhì),在雙對數(shù)坐標(biāo)下,冪律分布表現(xiàn)為一條斜率冪指數(shù)為負(fù)數(shù)的直線,這一線性關(guān)系是判斷給定的實(shí)例中隨機(jī)變量是否滿足冪律的依據(jù)。本文對AlexNet 和ResNet18 預(yù)訓(xùn)練模型的所有卷積層權(quán)重進(jìn)行雙對數(shù)線性擬合,并計(jì)算其擬合優(yōu)度R2。

      首先針對AlexNet[19]網(wǎng)絡(luò)的卷積層權(quán)值分布進(jìn)行處理。依次讀取AlexNet預(yù)訓(xùn)練模型的權(quán)重參數(shù),并使用概率分布來可視化權(quán)值的分布情況。該網(wǎng)絡(luò)的五層卷積層權(quán)值數(shù)據(jù)的概率分布情況如圖1 所示,其預(yù)訓(xùn)練模型權(quán)重的雙對數(shù)擬合圖如圖2 所示。根據(jù)AlexNet預(yù)訓(xùn)練模型的權(quán)值分布情況,可以通過其高峰、長尾的特點(diǎn),進(jìn)一步對更深層的ResNet18[20]預(yù)訓(xùn)練模型進(jìn)行相同的實(shí)驗(yàn)。其中,ResNet18 共有17 層(加上輸入層)卷積層,其權(quán)值概率密度分布情況如圖3 所示,其預(yù)訓(xùn)練模型權(quán)重的雙對數(shù)擬合圖如圖4 所示。

      高潮立馬掏出手機(jī),調(diào)出“詩的妾”那條在去溫州的列車上發(fā)來的短信,一看時(shí)間,19:47/23/07/2011,一下子驚呆了!高潮知道,那樁舉世聞名的動車交通事故,發(fā)生在幾天前的七月二十三日晚間。高潮顧不得許多了,立馬破戒,撥打“詩的妾”的手機(jī),他聽到的是一個(gè)彬彬有禮而缺少溫度的聲音:您撥打的電話已關(guān)機(jī),請稍后再撥……

      從圖1 和圖3 可以看出,這兩個(gè)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型權(quán)值數(shù)據(jù)皆具有高峰、長尾的特點(diǎn)。在各種數(shù)學(xué)分布中,同樣具有該特點(diǎn)的是冪律分布,推斷預(yù)訓(xùn)練模型的權(quán)重分布單側(cè)傾向冪律分布。從圖2 和圖4中的雙對數(shù)線性擬合結(jié)果可以看出,所有層權(quán)重線性擬合優(yōu)度R2值都是在0.8 左右,可以得出預(yù)訓(xùn)練網(wǎng)絡(luò)模型的權(quán)重分布并不完全為冪律分布,屬于指數(shù)截?cái)嗟膬缏煞植迹?1]。從數(shù)據(jù)上來看,實(shí)際分布中權(quán)值接近于0 的數(shù)據(jù)少于冪律分布,但根據(jù)對深度網(wǎng)絡(luò)模型正則化[22]研究結(jié)果,在損失函數(shù)中加入L1 或L2 正則化項(xiàng)[23],將使模型中更多的權(quán)值為0 或者接近于0,且模型的泛化能力更強(qiáng)?;诖耍疚囊詢缏煞植紒沓跏蓟W(wǎng)絡(luò),而沒有采用指數(shù)截?cái)嗟膬缏煞植?。本文制定一種標(biāo)準(zhǔn)化的對稱冪律分布的權(quán)重初始化方法,用來確定冪律分布在權(quán)值中的作用。

      圖1 AlexNet 預(yù)訓(xùn)練模型權(quán)重?cái)?shù)據(jù)概率分布Fig.1 Probability distribution of weight data of AlexNet pre-training model

      圖2 AlexNet 預(yù)訓(xùn)練模型權(quán)重的雙對數(shù)擬合圖Fig.2 Double log-fitting diagram of AlexNet pre-training model weight

      圖3 ResNet18 預(yù)訓(xùn)練模型權(quán)重?cái)?shù)據(jù)概率分布Fig.3 Probability distribution of weight data of ResNet18 pre-training model

      圖4 ResNet18 預(yù)訓(xùn)練模型權(quán)重的雙對數(shù)擬合圖Fig.4 Doublelog-fitting diagram of ResNet18 pre-training model weight

      2 標(biāo)準(zhǔn)化對稱冪律分布

      2.1 函數(shù)形式的數(shù)學(xué)推導(dǎo)

      歸一化的對稱冪律函數(shù)推導(dǎo)過程如下:

      1)冪律分布的公式為:

      2)標(biāo)準(zhǔn)化過程,令:

      通過計(jì)算得:

      將c代入式(1)得:

      式(4)即為單側(cè)標(biāo)準(zhǔn)化的冪律分布函數(shù)公式。

      標(biāo)準(zhǔn)化對稱冪律函數(shù)為:

      2.2 權(quán)值數(shù)據(jù)的生成算法

      本節(jié)算法致力于生成指定數(shù)量的標(biāo)準(zhǔn)化對稱冪律數(shù)據(jù),用來初始化不同網(wǎng)絡(luò)模型,具體步驟如下:

      清翁方綱亦在其《石洲詩話》中云:“馬戴五律……直可與盛唐諸賢儕伍,不當(dāng)以晚唐論矣?!盵13]如其《宿翠微寺》“積翠含微月,遙泉韻細(xì)風(fēng)”[5],《夜下湘中》“露洗寒山遍,波搖楚月空”[5],其中“微月”妙,承“含”極妙。明楊慎評曰:“‘積靄沉斜月,孤燈照落泉’,喻鳧詩也?!e翠含微月,遙泉韻細(xì)風(fēng)’,馬戴詩也。二詩幽思同而句法亦相似。”[14]“含、韻、洗、搖”等動詞的使用含蓄蘊(yùn)藉,自然融洽,渾然天成,以動詞巧妙連綴意象,還有如:“余霞媚秋漢,迥月濯滄波”(《秋郊夕望》)[5]、“微紅拂秋漢,片白透長波”(《落照》)[5]、“霓虹侵棧道,風(fēng)雨雜江聲”(《送人游蜀》)[5]頗有盛唐之氣象。

      現(xiàn)代建筑在設(shè)計(jì)時(shí)除保證建筑的安全性、舒適度、智能化和生態(tài)環(huán)境因素外,還應(yīng)注重能源的有效使用和節(jié)約,減小外圍護(hù)結(jié)構(gòu)的傳熱系數(shù),強(qiáng)化建筑外圍護(hù)結(jié)構(gòu)的隔熱構(gòu)造。

      步驟2將標(biāo)準(zhǔn)化的冪律函數(shù)做對稱,得到標(biāo)準(zhǔn)化的對稱冪律函數(shù)。

      步驟3分別計(jì)算網(wǎng)絡(luò)模型中各個(gè)卷積層的參數(shù)數(shù)量。

      步驟4運(yùn)用本文算法得到對應(yīng)數(shù)量的參數(shù)值,分別對網(wǎng)絡(luò)的卷積層權(quán)值重新初始化。生成的權(quán)值應(yīng)當(dāng)符合分布要求,并且無大量、連續(xù)的相同數(shù)據(jù)。

      1)對稱冪律函數(shù)的生成算法

      手機(jī)端也能查看控制系統(tǒng)發(fā)送來的數(shù)據(jù),在手機(jī)上使用應(yīng)用程序讀取數(shù)據(jù)并轉(zhuǎn)化成數(shù)據(jù)曲線,使數(shù)據(jù)可視化程度提高.在20 m范圍內(nèi)可通過手機(jī)對機(jī)器人主體機(jī)身系統(tǒng)或機(jī)械臂進(jìn)行控制,增加了人機(jī)互動性.

      依據(jù)算法設(shè)計(jì),算法1 可以得到標(biāo)準(zhǔn)化的對稱冪律分布函數(shù)。

      算法1標(biāo)準(zhǔn)化的對稱冪律函數(shù)

      通過實(shí)驗(yàn)分別對比同一個(gè)網(wǎng)絡(luò)下不同初始化方法的初始精確度和最終模型精確度的差異,最終得出本文提出的NSPL 初始化可以有效提高模型的訓(xùn)練速度和最終精確度。

      2)對稱冪律數(shù)據(jù)生成

      步驟1根據(jù)冪律分布的公式,推導(dǎo)出標(biāo)準(zhǔn)化的冪律函數(shù)(見2.1 節(jié))。

      在算法1 建立了標(biāo)準(zhǔn)化的對稱冪律分布函數(shù)后,根據(jù)計(jì)算出的網(wǎng)絡(luò)模型每一層的權(quán)重參數(shù)量,使用算法2 來生成對稱冪律數(shù)據(jù)。

      算法2對稱冪律數(shù)據(jù)生成算法

      3 實(shí)驗(yàn)結(jié)果與分析

      為驗(yàn)證本文提出的NSPL 初始化方法有助于縮短網(wǎng)絡(luò)訓(xùn)練時(shí)間,提高網(wǎng)絡(luò)的最終精確度,設(shè)置以下的對比實(shí)驗(yàn):運(yùn)用cifar10 數(shù)據(jù)集分別在AlexNet 網(wǎng)絡(luò)和ResNet-32 網(wǎng)絡(luò)上進(jìn)行訓(xùn)練,而在訓(xùn)練過程中每一個(gè)網(wǎng)絡(luò)都將使用3 種權(quán)重初始化方法進(jìn)行初始化,分別為He 的均勻分布初始化、He 的正態(tài)分布初始化[16]和NSPL 初始化。

      雙及物構(gòu)式(雙賓構(gòu)式)是指在句法層面的動詞能同時(shí)攜帶間接賓語和直接賓語的語言形式,其結(jié)構(gòu)可以碼化為[NSVN1N2]。雙及物構(gòu)式的基本意義可以表述為“客體實(shí)際的、成功的轉(zhuǎn)移”,也就是“客體從初始領(lǐng)有者被傳遞給最終領(lǐng)有者的過程”。這就要求進(jìn)入雙及物構(gòu)式的動詞必須具有“給予”義,必須能支配三個(gè)名詞性成分,動詞后的“N1”應(yīng)該是有生命的。但是我們發(fā)現(xiàn),許多非“給予”類、非“三價(jià)”動詞也能進(jìn)入雙及物構(gòu)式;處于“N1”位置上的名詞也并非都是有生命的,這其中一定有什么因素在起作用,本小節(jié)就擬探討這個(gè)問題。

      本文兩組實(shí)驗(yàn)的流程設(shè)計(jì)如下:

      1)獲取數(shù)據(jù)集,設(shè)置網(wǎng)絡(luò)模型;

      2)計(jì)算并記錄每一層網(wǎng)絡(luò)模型參數(shù)量;

      3)利用算法1 制作出標(biāo)準(zhǔn)化的對稱冪律分布函數(shù);

      4)利用算法2 生成與網(wǎng)絡(luò)模型參數(shù)量對應(yīng)大小的對稱冪律數(shù)據(jù);

      5)使用3 種不同的權(quán)重初始化方法對網(wǎng)絡(luò)模型的參數(shù)進(jìn)行初始化;

      2)ResNet32 網(wǎng)絡(luò)各層權(quán)重?cái)?shù)量

      7)每一輪訓(xùn)練集結(jié)束后,使用驗(yàn)證集進(jìn)行準(zhǔn)確率驗(yàn)證,并記錄該準(zhǔn)確率。

      筆者采用線上、線下相結(jié)合的混合式教學(xué)模式:首先開始上課時(shí),我們對線上內(nèi)容進(jìn)行測驗(yàn)或課前問題答案展示,這樣做可以監(jiān)督學(xué)生線上自覺進(jìn)行微課視頻的學(xué)習(xí),增強(qiáng)了同學(xué)們的成就感和滿足感,激發(fā)了同學(xué)們學(xué)習(xí)編程的興趣和自信心,同時(shí)也給學(xué)生提供了鍛煉自我的機(jī)會。

      3.1 卷積層參數(shù)量計(jì)算

      卷積層權(quán)重參數(shù)量的計(jì)算公式為:

      其中:in_channels 表示輸入的通道數(shù);out_channels表示輸出的通道數(shù);kernel_size 表示卷積核的大小。

      1)AlexNet 網(wǎng)絡(luò)各層權(quán)重?cái)?shù)量

      很明顯,在理論上而言,大題難度對試卷難度的影響由其所占的比重決定.第三大題總分為70分,對試卷難度的影響也最大.第三大題的難度提高0.1,整個(gè)試卷的難度將會增加0.04667.相應(yīng)地,提高0.1個(gè)單位的第二大題的難度,整個(gè)試卷的難度只會增加0.0133.通過這個(gè)線性關(guān)系式,我們可以定量地描述題目難度與試卷難度之間的線性關(guān)系,由此推斷解答題在全卷難度穩(wěn)定中發(fā)揮的作用最大.

      結(jié)合式(6)計(jì)算AlexNet 網(wǎng)絡(luò)所有卷積層的權(quán)重?cái)?shù)量,如表1 所示。

      表1 AlexNet 網(wǎng)絡(luò)各層權(quán)重?cái)?shù)量Table 1 Weight quantity of each layer of AlexNet network

      6)使用訓(xùn)練集進(jìn)行訓(xùn)練,學(xué)習(xí)權(quán)重參數(shù);

      ResNet32 網(wǎng)絡(luò)是以block 塊為基本單位組成的網(wǎng)絡(luò)結(jié)構(gòu),因此在此處以不同的block 來對不同的卷積層的情況進(jìn)行描述。結(jié)合式(6)計(jì)算該網(wǎng)絡(luò)卷積層種類以及對應(yīng)的權(quán)重參數(shù)量,如表2 所示。

      表2 ResNet-32 網(wǎng)絡(luò)各層權(quán)重?cái)?shù)量Table 2 Weight quantity of each layer of ResNet-32 network

      3.2 網(wǎng)絡(luò)初始權(quán)重分布情況

      下文所有權(quán)重?cái)?shù)據(jù)與ResNet32 網(wǎng)絡(luò)相似,此處僅以AelxNet 為示例。

      1)NSPL 初始化數(shù)據(jù)。使用本文提出的算法結(jié)合AlexNet 的五層卷積層所需要的權(quán)重參數(shù)量,生成NSPL 初始化數(shù)據(jù)。本文算法生成的權(quán)重初始化數(shù)據(jù)分布如圖5 所示。從圖5 可以看出,該數(shù)據(jù)充分展現(xiàn)了冪律分布的高峰、長尾現(xiàn)象。因?yàn)槭菢?biāo)準(zhǔn)化的對稱冪律分布,所以高峰和長尾特征比較明顯。

      隨著經(jīng)濟(jì)建設(shè)的高速發(fā)展,我國已經(jīng)進(jìn)入高鐵、掃碼支付、共享單車和網(wǎng)購新四大發(fā)明時(shí)代,信息化已經(jīng)成為這個(gè)時(shí)代的明顯特征。這個(gè)時(shí)代的學(xué)生具有明顯的信息化特征,以智能手機(jī)為代表的智能終端幾乎人手一臺。在這個(gè)背景下,通過變革傳統(tǒng)課堂教師講、學(xué)生聽的授課方式,用信息化教學(xué)的理念,對課程體系進(jìn)行重建勢在必行。

      圖5 對稱冪律初始化數(shù)據(jù)分布Fig.5 Distribution of symmetric power law initialization data

      本文實(shí)驗(yàn)是對比使用不同權(quán)重初始化的網(wǎng)絡(luò)訓(xùn)練首輪次訓(xùn)練后的測試集精確度及后續(xù)網(wǎng)絡(luò)模型的收斂速度。通過對比同一訓(xùn)練輪次下的不同初始化方法達(dá)到的精確度,得出其中一個(gè)初始化方法更有助于提升網(wǎng)絡(luò)訓(xùn)練速度和最終模型準(zhǔn)確率的結(jié)論。

      H公司的財(cái)務(wù)人員、銷售人員、行政人員基本是大專學(xué)歷以下,而應(yīng)收賬款管理需要很強(qiáng)的專業(yè)性,他們又有本職工作需要投入大量精力,因而很難將應(yīng)收賬款管理工作做好。因此,員工素質(zhì)不高也是H公司應(yīng)收賬款持續(xù)增多、壞賬增加原因之一。

      圖6 He 方法的正態(tài)分布初始化數(shù)據(jù)分布Fig.6 Distribution of normal distribution initialization data of He method

      3)He 的均勻分布初始化數(shù)據(jù)。使用He 均勻分布初始化方法對網(wǎng)絡(luò)權(quán)重進(jìn)行初始化,讀取網(wǎng)絡(luò)初始權(quán)值,也就是該初始化方法生成的數(shù)據(jù),該權(quán)重初始化方法的數(shù)據(jù)分布如圖7 所示。該初始化方法是Pytorch1.7 中默認(rèn)的初始化方法,當(dāng)網(wǎng)絡(luò)不指定初始化方法時(shí),會調(diào)用該方法對卷積層進(jìn)行初始化。

      圖7 He 方法的均勻分布初始化數(shù)據(jù)分布Fig.7 Distribution of uniformly distributed initialization data for He method

      3.3 對比實(shí)驗(yàn)

      對比實(shí)驗(yàn)過程如下:

      1)實(shí)驗(yàn)設(shè)計(jì)

      本文實(shí)驗(yàn)使用cifar-10 數(shù)據(jù)集,在AlexNet 網(wǎng)絡(luò)和ResNet32 網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),將NSPL 初始化的實(shí)驗(yàn)結(jié)果與He 的正態(tài)分布初始化、均勻分布初始化方法的實(shí)驗(yàn)結(jié)果進(jìn)行對比分析。

      cifar10 數(shù)據(jù)集是一個(gè)更接近現(xiàn)實(shí)物品的RGB彩色圖像,包含10 個(gè)類別,每個(gè)類別有6 000 個(gè)圖像,分別為50 000 張訓(xùn)練圖片和10 000 張測試圖片。本文實(shí)驗(yàn)在訓(xùn)練集上進(jìn)行模型訓(xùn)練,使用測試集進(jìn)行測試,以對比測試集的準(zhǔn)確度。

      2)He 方法的正態(tài)分布初始化數(shù)據(jù)。使用He 正態(tài)分布初始化方法對網(wǎng)絡(luò)權(quán)重進(jìn)行初始化,讀取網(wǎng)絡(luò)初始權(quán)值,將其數(shù)據(jù)分布可視化,如圖6 所示。該方法的權(quán)值數(shù)據(jù)分布就是非常典型的正態(tài)分布鐘形圖像,依據(jù)該方法對方差的計(jì)算和控制可以看出每一層數(shù)據(jù)分布情況的不同。

      實(shí)際線路長度大于 10 km 時(shí),可將整個(gè)線路分割為多個(gè) 10 km 的小線路段,即在式(4)中增加線路數(shù),同時(shí)將該條線路中幾個(gè)點(diǎn)看作是故障點(diǎn)進(jìn)行計(jì)算[24]。

      2)實(shí)驗(yàn)過程

      針對AlexNet 網(wǎng)絡(luò)和ResNet32 網(wǎng)絡(luò),分別使用上文中提到的3 種方法進(jìn)行權(quán)重初始化。網(wǎng)絡(luò)每一輪次訓(xùn)練結(jié)束都用驗(yàn)證集測試當(dāng)前網(wǎng)絡(luò)的準(zhǔn)確度并進(jìn)行記錄,將3 種精確度對應(yīng)的所有輪次的驗(yàn)證集精確度進(jìn)行對比分析。(1)在AlexNet 網(wǎng)絡(luò)實(shí)驗(yàn)過程中,使用的超參數(shù)設(shè)置如下:隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)優(yōu)化器,動量momentum=0.9,批尺寸batch_size=64,學(xué)習(xí)率lr=0.015,測試尺寸test_batch=1 000,訓(xùn)練輪次epochs=30,損失函數(shù)使用CrossEntropyLoss。

      為推動全球耕地建設(shè)保護(hù)、生態(tài)文明建設(shè)及農(nóng)業(yè)可持續(xù)發(fā)展,奧特奇作物科學(xué)中國區(qū)業(yè)務(wù)經(jīng)理馬衛(wèi)民表示,賽土豐科研團(tuán)隊(duì)經(jīng)過長期的研究與實(shí)驗(yàn),對微生物進(jìn)行規(guī)模化培養(yǎng),篩選代謝提取物,用于激活土壤中有益的微生物,解決土壤因缺乏微生物帶來的土傳病害等諸多問題,進(jìn)一步促進(jìn)作物根系發(fā)展,以期實(shí)現(xiàn)農(nóng)民增產(chǎn)增收。

      圖8 所示為3 種不同權(quán)重初始化方法在AlexNet網(wǎng)絡(luò)上各個(gè)輪次的訓(xùn)練精確度。

      隨著互聯(lián)網(wǎng)信息技術(shù)和智能電子設(shè)備的不斷發(fā)展,微課作為一個(gè)新的教學(xué)產(chǎn)物出現(xiàn)在了我國的教育計(jì)劃中。微課主要指視頻內(nèi)容在十分鐘之內(nèi)的一種教學(xué)方式,在簡短的視頻中要集中重點(diǎn)語文知識和其他相關(guān)的拓展內(nèi)容,通過調(diào)查我們發(fā)現(xiàn),微課的教學(xué)效率是非常高的,微課憑借簡短而精練的內(nèi)容深深吸引了學(xué)生的注意力。雖然微課不能濃縮一節(jié)課的全部內(nèi)容,但是通過板塊化教學(xué),使得微課將一個(gè)個(gè)重點(diǎn)知識變得生動有趣,學(xué)生理解起來也非常容易。在信息技術(shù)快速發(fā)展的時(shí)代背景下,微課作為移動教學(xué)的一種方式,既滿足了不同學(xué)習(xí)能力學(xué)生的學(xué)習(xí)要求,還達(dá)到了教育部要求的深度教學(xué)。

      圖8 AlexNet 訓(xùn)練精確度對比Fig.8 Comparison of AlexNet training accuracy

      在AlexNet 網(wǎng)絡(luò)的對比實(shí)驗(yàn)中,通過圖8 可以看出NSPL 初始化方法和He 正態(tài)分布初始化的初始輪次精確度優(yōu)于He 均勻分布初始化,NSPL 初始化方法相較于He 的均勻分布和正態(tài)分布初始化方法的最終精確度也有微弱的提升。本文實(shí)驗(yàn)進(jìn)一步使用了具有更高復(fù)雜度的ResNet32 網(wǎng)絡(luò)模型來驗(yàn)證NSPL 初始化的使用效果。(2)在ResNet32 網(wǎng)絡(luò)實(shí)驗(yàn)過程中,使用的超參數(shù)設(shè)置如下:SGD 優(yōu)化器,動量momentum=0.9,批尺寸batch_size=128,學(xué)習(xí)率為lr=0.01,測試尺寸test_epochs=100,訓(xùn)練輪次epochs=30,損失函數(shù)使用CrossEntropyLoss。

      圖9 所示為3 種不同權(quán)重初始化方法在ResNet32 網(wǎng)絡(luò)上各個(gè)輪次的訓(xùn)練精確度對比,通過圖9 可以看出,在模型精確度提升的過程中,NSPL初始化有助于優(yōu)化網(wǎng)絡(luò)的訓(xùn)練過程,加快收斂速度。

      圖9 ResNet32 訓(xùn)練精確度對比Fig.9 Comparison of ResNet32 training accuracy

      3.4 對比實(shí)驗(yàn)分析

      通過圖8 實(shí)驗(yàn)結(jié)果對比可以發(fā)現(xiàn),He 的正態(tài)分布初始化方法和本文提出的NSPL 始化方法在初始輪次中有較高的準(zhǔn)確度。在最終模型趨于穩(wěn)定時(shí),NSPL 初始化的精確度比He 的正態(tài)分布初始化方法提高3%??偟貋碚f,NSPL 初始化在AlexNet 網(wǎng)絡(luò)上具有優(yōu)化網(wǎng)絡(luò)模型訓(xùn)練過程的優(yōu)點(diǎn)。

      通過圖9 實(shí)驗(yàn)結(jié)果對比可以發(fā)現(xiàn),在更為復(fù)雜的ResNet32 網(wǎng)絡(luò)中,NSPL 初始化方法在首輪次中的精確度比He 初始化方法的精確度提高60%,并且模型收斂的速度更快,其最終精確度比He 初始化方法提高8%。在更深層的網(wǎng)絡(luò)中,NSPL 初始化方法具有更優(yōu)秀的表現(xiàn)。

      師:同學(xué)們,這節(jié)課老師和大家一起復(fù)習(xí)了相似的性質(zhì)、判定和應(yīng)用,在復(fù)習(xí)過程中我們梳理了知識,小結(jié)方法,提煉了策略,這三者合起來就形成我們的解題能力.當(dāng)然能力永遠(yuǎn)是第二位的,那么第一位是什么呢?那是“意識”,就是我們要“想到用”相似來解題,“意識”讓我們“想到用”,能力讓我們“會用”,如何才能“用好”“用巧”?這就要求我們站在一定的高度,掌握一定的數(shù)學(xué)思想,關(guān)于這一點(diǎn)我們同學(xué)也許不太理解.下面我來解決這個(gè)問題,同學(xué)們“今天這節(jié)課老師主要和大家探討了幾個(gè)題目?”

      通過上述兩組對比實(shí)驗(yàn)可以發(fā)現(xiàn),NSPL 初始化方法有助于提升網(wǎng)絡(luò)訓(xùn)練的速度和最終準(zhǔn)確度,說明冪律分布也可以作為一種權(quán)重初始化的模型方法。

      4 結(jié)束語

      本文通過理論推導(dǎo)和實(shí)驗(yàn)驗(yàn)證,提出一種提升網(wǎng)絡(luò)模型訓(xùn)練速度和精確度的權(quán)重初始化方法——對稱冪律(NSPL)初始化方法。同時(shí),設(shè)置2 種網(wǎng)絡(luò)結(jié)構(gòu),在3 種不同權(quán)重初始化下進(jìn)行對比實(shí)驗(yàn),使用cifar10 數(shù)據(jù)集分別訓(xùn)練,對比每一輪次的模型訓(xùn)練精確度。實(shí)驗(yàn)結(jié)果表明,本文NSPL 初始化方法能夠優(yōu)化網(wǎng)絡(luò)訓(xùn)練過程,加快收斂速度。本文采用的是標(biāo)準(zhǔn)化后的對稱冪律數(shù)據(jù),并沒有深入研究截?cái)鄡缏煞植紨M合的情況,下一步將統(tǒng)計(jì)并分析大量預(yù)訓(xùn)練模型的權(quán)重參數(shù)分布情況,結(jié)合不同網(wǎng)絡(luò)模型的層數(shù)及不同數(shù)據(jù)集等影響權(quán)重初始化的因素,制定出更有針對性的基于冪律分布的初始化方法。

      猜你喜歡
      冪律精確度權(quán)值
      一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
      CONTENTS
      研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
      “硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計(jì)算
      基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
      四川地區(qū)降水冪律指數(shù)研究
      冪律流底泥的質(zhì)量輸移和流場
      對抗冪律
      基于Fibonacci法求冪律模式流變參數(shù)最優(yōu)值
      斷塊油氣田(2012年6期)2012-03-25 09:53:59
      近似數(shù)1.8和1.80相同嗎
      稷山县| 垫江县| 喀什市| 同德县| 吐鲁番市| 宣城市| 和静县| 柳河县| 德钦县| 岳阳县| 中宁县| 禹州市| 宁蒗| 长沙县| 富宁县| 宣恩县| 甘谷县| 五台县| 娱乐| 图们市| 晋江市| 蕉岭县| 黑水县| 西乡县| 景泰县| 馆陶县| 鲁甸县| 宁国市| 天柱县| 博爱县| 唐海县| 揭东县| 明水县| 石柱| 上饶县| 个旧市| 塘沽区| 桂东县| 大关县| 枣强县| 卓资县|