李大明 汪麗莉 劉燁 李偉豪 郭博研
0.引言
作為一個快速發(fā)展的研究方向,近十年來深度學(xué)習(xí)受到了研究者以及普通大眾越來越多的關(guān)注,其在特征提取和其他方面都具有較傳統(tǒng)的淺層模型有明顯的優(yōu)勢。作為新型的人工智能方法,它克服了在過去的人工智能中被認(rèn)為是難以解決的一些問題。此外,由于現(xiàn)代人工智能學(xué)習(xí)的訓(xùn)練集數(shù)據(jù)集的數(shù)量上發(fā)生了顯著增長,以及半導(dǎo)體芯片工藝的逐步提升,計算能力的不斷加強,因此,深度學(xué)習(xí)在目標(biāo)檢測、計算機視覺、自然語言處理等各方面領(lǐng)域中發(fā)揮了越來越多的重要作用。深度學(xué)習(xí)的各類應(yīng)用,極大地方便了人們的學(xué)習(xí)與生活,在為基礎(chǔ)設(shè)施、解決方案和服務(wù)提供動力、網(wǎng)絡(luò)安全、醫(yī)療、會計和金融科技等等各方面、各領(lǐng)域中有了更豐富的性能使用和效率提升,正因如此,也一直是各行各業(yè)研究的對象。在大學(xué)研究和學(xué)習(xí)生活中,有很多場景,如各類的實驗都會涉用到最基礎(chǔ)的數(shù)據(jù)處理,其處理對象大多為線性為非線性的不同曲線類型。以往,學(xué)生需要利用最小二乘法處理數(shù)據(jù),需要我們把數(shù)據(jù)錄入,再然后選擇曲線的類型,最后擬合出最終結(jié)果。
1.研究過程
為了訓(xùn)練神經(jīng)網(wǎng)絡(luò),我們首先以線性函數(shù)? 和二次(非線性)函數(shù) 表達式為基礎(chǔ),創(chuàng)建隨機數(shù)據(jù)集。考慮到實驗數(shù)據(jù)都會有一定的偏差值出現(xiàn),而偏差值的隨機性可能會很小,但也可能偶爾出現(xiàn)較大的偏差結(jié)果。為了能夠體現(xiàn)真實數(shù)據(jù)的各種情況及其影響,我們預(yù)先在線性線和非線性函數(shù)的標(biāo)準(zhǔn)數(shù)值范圍基礎(chǔ)上引入生成一定范圍的隨機誤差值,分別取為Sigma= 0.01、0.02、0.03、0.04、0.05的偏差,可以理解為其對應(yīng)實驗的數(shù)據(jù)點與理想數(shù)值偏差分別為2%,4%,6%,8%和10%的數(shù)據(jù)圖對應(yīng)的函數(shù)。此外,為了能夠更詳細(xì)分析不同數(shù)據(jù)密度對數(shù)據(jù)結(jié)果的影響,我們采用了采樣點No=11、21和31個點的三種情況,分別構(gòu)建并生成一系列數(shù)據(jù)圖像,其中線性數(shù)據(jù)為 ,非線性為 ??紤]到利用不同總量圖片數(shù)據(jù)庫對機器學(xué)習(xí)的訓(xùn)練影響,此研究工作中分別采用了四種圖片數(shù)據(jù)庫數(shù)量分別各包含Pic=1000、2000、5000張、10000張圖片分別進行了計算分析。 如圖1所示,這是Sigma= 0.01、No=11的兩種實驗數(shù)據(jù)生成的抽樣數(shù)據(jù)圖片,圖中由于線性函數(shù) ,非線性函數(shù)的二次項系數(shù) =1,因此從圖中可以看出,得到的線性圖和非線性圖的圖像區(qū)別不大。
為了能夠獲得高精度機器學(xué)習(xí)結(jié)果,我們首先對數(shù)據(jù)進行了差分處理, 如下圖2所示。圖2為隨機抽取的數(shù)據(jù)集中(取Sigma=0.01,No=11)的線性數(shù)據(jù)差分圖(圖2-a)和非線性函數(shù)的差分圖(圖2-b)。數(shù)學(xué)上可以理解對于線性函數(shù)其差分 數(shù)值上應(yīng)該是一次項系數(shù) ,是一條常數(shù)為1的水平線,而為非線性函數(shù)曲線的差分曲線 數(shù)值上應(yīng)該是一個數(shù)值約等于1的直線方程,? 它與直線差分的最大區(qū)別在于其是一個斜率是 的斜線,但是從圖中可以看出,由于引入Sigma作用導(dǎo)致數(shù)值并不是完全線性但是基本肉眼可辨。這種差分方法的引入已經(jīng)能初步使我們對線性和非線性數(shù)據(jù)進行簡單的判斷。但是當(dāng)誤差值Sigma逐漸增大和間隔點過多的情況下,這種差分方法也會變得不易區(qū)分。
同樣的我們列舉如下差分圖對所得到的圖集進行簡要分析。從下圖3可以看到,隨著間隔點逐步增大,Sigma =0.01時,由圖庫圖片中隨機抽樣得到的圖像數(shù)據(jù)仍然有一定的區(qū)分度,從總體上來看還能夠看出對于直線和曲線來說由一次差分后得到的數(shù)據(jù)圖形的區(qū)別,例如,左圖3(a)個數(shù)據(jù)點是線性數(shù)據(jù)的一次差分圖像而右邊是拋物線進行一次差分后得到的圖像,當(dāng)間隔點數(shù)保持為31個,但是數(shù)據(jù)誤差值變?yōu)?.05后,我們可以很清楚的看到在下圖4中對于(a)和(b)圖片的區(qū)別,由于誤差偏差值已經(jīng)高達10%會導(dǎo)致水平直線與斜線趨勢區(qū)分度很低,我們是否可以通過神經(jīng)網(wǎng)絡(luò)來進行識別且對以上判斷的準(zhǔn)確度進行了定性研究。
初步分析以上三組進行過一次差分后的兩種不同類型曲線的數(shù)據(jù)圖片。
2.結(jié)果分析
我們的識別對象本應(yīng)是線性與二次非線性函數(shù)的差分?jǐn)?shù)據(jù)圖像。通過上述方法差分方法提高了識別精度,我們進一步對該方法下的數(shù)據(jù)圖進行了數(shù)據(jù)庫大小的處理,這樣試圖能夠探究影響神經(jīng)網(wǎng)絡(luò)輸出精度的影響因素,我們設(shè)定了三個影響輸出結(jié)果的參數(shù),分別是原始數(shù)據(jù)圖像誤差值Sigma,原始圖像間隔點數(shù)No和訓(xùn)練集數(shù)Pic。
在圖像間隔點No分別為11、21、31三種情況下,通過Matlab畫圖得到誤差值Sigma、訓(xùn)練集圖片數(shù)Pic、與識別精度的三維圖像如圖5所示,從三張圖像可以看出,隨著誤差值的減小與訓(xùn)練集數(shù)目的增多,神經(jīng)網(wǎng)絡(luò)識別精度均升高,最終在圖像數(shù)據(jù)誤差值最低及訓(xùn)練集數(shù)目最多的情況下,神經(jīng)網(wǎng)絡(luò)訓(xùn)練的識別精度都能夠基本達到100%。
3.總結(jié)
我們將當(dāng)前熱門的卷積神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)分析相結(jié)合,對數(shù)據(jù)分析過程進行了合理的優(yōu)化,利用卷積神經(jīng)網(wǎng)絡(luò)識別不同函數(shù)類型的圖像,通過差分方法提高了識別精度,從三個影響輸出結(jié)果的參數(shù),誤差值Sigma,數(shù)據(jù)數(shù)No和訓(xùn)練集數(shù)Pic進行了研究,通過分析發(fā)現(xiàn)在數(shù)據(jù)訓(xùn)練足夠多時對線性和非線性圖像的識別度非常理想。這種讓機器代替人眼來判斷曲線特征的方法設(shè)計,能夠讓數(shù)據(jù)分析脫離人工輸入數(shù)據(jù)這樣一個枯燥繁瑣的工作,今后如果學(xué)生拿著實驗報告畫出的點圖讓照相機掃描就能得出分析結(jié)果,嘗試學(xué)習(xí)這個過程中的設(shè)計問題使其能夠極大的減少學(xué)生的分析工作難度,也進一步提高學(xué)生深入學(xué)習(xí)理論基礎(chǔ)和數(shù)據(jù)分析的興趣。
[基金項目]本文系上海市大學(xué)生創(chuàng)新項目“深度學(xué)習(xí)在大學(xué)物理實驗中的應(yīng)用探索”(項目編號cs1921002)和上海工程技術(shù)大學(xué)課程建設(shè)項目“物理創(chuàng)新思維與競賽探究”(項目編號X202021001)資助的研究工作。
作者簡介:
李大明 1998.02 男,漢族,山西省忻州市人,上海工程技術(shù)大學(xué)(本科在讀),主要研究方向為:材料科學(xué)與工程
汪麗莉(1981.09-),女,漢族,湖北省武漢市人,武漢大學(xué)物理科學(xué)與技術(shù)學(xué)院 2004 級博士生,上海工程技術(shù)大學(xué),講師,主要研究方向為:新型能源轉(zhuǎn)換功能材料研究 為本文通訊作者
劉燁(1980.05-),男,漢族,山東省濟寧市人,清華大學(xué)物理系 2003級碩士生,上海工程技術(shù)大學(xué),講師,主要研究方向為:實驗教學(xué)
李偉豪 (1999.03-),男,漢族,山西省呂梁市人,上海工程技術(shù)大學(xué)(本科在讀),主要研究方向為:交通運輸
郭博研(1997.12-),男,漢族,山西省太原市人,上海工程技術(shù)大學(xué)(本科在讀),主要研究方向為:交通工程。