王科峰
(寧波財(cái)經(jīng)學(xué)院 浙江省寧波市 315175)
隨著國(guó)家的實(shí)力越來(lái)越強(qiáng),科技水平在生產(chǎn)力中所起到的作用也越來(lái)越大,同時(shí),國(guó)家也在大力推行“制造強(qiáng)國(guó)”的國(guó)家戰(zhàn)略,因此,智能制造將會(huì)是中國(guó)在21世紀(jì)發(fā)展的一個(gè)重要方面,它將會(huì)對(duì)未來(lái)的高端制造業(yè)的創(chuàng)新、節(jié)能和生產(chǎn)方式的改變產(chǎn)生巨大的影響。加速“校企”合作發(fā)展,是在新時(shí)代培育國(guó)家可持續(xù)發(fā)展新動(dòng)力的必然要求,也是在未來(lái)相當(dāng)一段時(shí)間內(nèi)奪取中國(guó)在產(chǎn)業(yè)領(lǐng)域的領(lǐng)先地位的戰(zhàn)略選擇,也是推動(dòng)中國(guó)制造業(yè)在供給側(cè)變革方面取得新進(jìn)展,塑造新的競(jìng)爭(zhēng)優(yōu)勢(shì)的重要途徑。機(jī)器人技術(shù)是智能制造領(lǐng)域的一個(gè)關(guān)鍵突破口,它在未來(lái)將會(huì)發(fā)揮出非常大的作用,隨著近年來(lái)人工智能、圖像處理和機(jī)器視覺等技術(shù)的快速發(fā)展,機(jī)器人技術(shù)在這一方面的應(yīng)用和發(fā)展將會(huì)越來(lái)越廣泛。
因?yàn)樗軌蜓杆俚孬@得海量的信息,并且容易進(jìn)行自動(dòng)處理,也容易與設(shè)計(jì)信息和加工控制信息相結(jié)合,所以它被廣泛地應(yīng)用到了現(xiàn)代化的自動(dòng)化生產(chǎn)流程中,并被應(yīng)用到了工況監(jiān)視、成品檢驗(yàn)和質(zhì)量控制等方面。機(jī)器視覺技術(shù)的主要特征是增加了制造的靈活性和自動(dòng)化[1]。在某些不適宜人為操作或人為因素影響較大的工作場(chǎng)所,通常采用機(jī)械視覺代替人工視覺;與此同時(shí),在大規(guī)模的工業(yè)生產(chǎn)中,使用人工視覺來(lái)檢驗(yàn)產(chǎn)品的品質(zhì),不僅效率低下,而且準(zhǔn)確度也不高。而采用機(jī)器視覺的檢測(cè)方式,能夠極大地提升生產(chǎn)的效率和自動(dòng)化水平。另外,由于機(jī)械視覺系統(tǒng)具有很好的信息整合性,因此它是實(shí)現(xiàn)微機(jī)一體化生產(chǎn)的重要技術(shù)。綜上所述,伴隨著機(jī)器視覺技術(shù)的不斷完善與發(fā)展,可以預(yù)見,其在當(dāng)今與將來(lái)的制造業(yè)中將會(huì)有更多的應(yīng)用。
智能機(jī)器的應(yīng)用非常廣泛,不僅在工業(yè)領(lǐng)域,在農(nóng)業(yè)、醫(yī)療等領(lǐng)域也得到了很大的發(fā)展,并且針對(duì)不同的領(lǐng)域和功能需求,開發(fā)出了各種類型的智能機(jī)器,從而開啟了自動(dòng)化和智能化的新局面。機(jī)器視覺技術(shù)已經(jīng)有了長(zhǎng)足的進(jìn)步,將深度學(xué)習(xí)技術(shù)引入到機(jī)器視覺中是一個(gè)重要的研究方向。就當(dāng)前的機(jī)器視覺技術(shù)而言,它是在開發(fā)的過程中添加了各種傳感器,可以對(duì)目標(biāo)進(jìn)行有效地識(shí)別,并由視覺處理器對(duì)目標(biāo)進(jìn)行分析、解讀,最后將其轉(zhuǎn)化為符號(hào)[2]。機(jī)器視覺著重于專門的視覺系統(tǒng)研究,以應(yīng)用為主,并僅為完成一項(xiàng)具體任務(wù)而進(jìn)行的有關(guān)景物的描述,并且在機(jī)械電子、汽車醫(yī)療等領(lǐng)域中,由于其功能的差異,其在機(jī)械電子、汽車醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用,而大部分的視覺技術(shù)都被用于檢測(cè),從而改善生產(chǎn)發(fā)展的各個(gè)環(huán)節(jié)。深度學(xué)習(xí)技術(shù)是一種基于機(jī)器識(shí)別功能的獨(dú)特學(xué)習(xí)方式,它相對(duì)于傳統(tǒng)的學(xué)習(xí)方式更加自動(dòng)化、智能化,它的特點(diǎn)與人工設(shè)計(jì)的特點(diǎn)不同,它是基于大數(shù)據(jù)的自動(dòng)學(xué)習(xí)。傳統(tǒng)的手動(dòng)設(shè)計(jì)方法主要是通過手動(dòng)調(diào)節(jié)系統(tǒng)中的各種參數(shù),但是這種方法在定量方面存在著很大的限制,很難實(shí)現(xiàn)更高層次的智能分析。而深度學(xué)習(xí)的研究對(duì)象是海量的數(shù)據(jù),所以它的分析能力更強(qiáng)。
由于機(jī)器人的運(yùn)動(dòng)空間具有連續(xù)性,利用值函數(shù)增強(qiáng)學(xué)習(xí)進(jìn)行機(jī)器人運(yùn)動(dòng)時(shí),運(yùn)動(dòng)空間的離散會(huì)造成運(yùn)動(dòng)的不均勻性,但由于運(yùn)動(dòng)空間的不均勻性,使得運(yùn)動(dòng)空間的離散程度較高,因此,本項(xiàng)目提出了一種新的動(dòng)態(tài)規(guī)劃自適應(yīng)遺傳算法。因此,本項(xiàng)目擬以UR5 機(jī)器人為對(duì)象,以DDPG 為基礎(chǔ),通過改進(jìn)經(jīng)驗(yàn)重播和多目標(biāo)學(xué)習(xí)等手段,來(lái)解決DDPG 算法在機(jī)器人運(yùn)動(dòng)過程中存在的樣本利用率不高、收斂性差等問題[3]。
提出了一種基于“狀態(tài)一行為對(duì)”的動(dòng)態(tài)決策模型,該模型將決策模型引入到動(dòng)態(tài)決策模型中,并將動(dòng)態(tài)決策模型應(yīng)用到動(dòng)態(tài)決策模型中。該方法利用攝像機(jī)拍攝的影像及接頭的姿態(tài)信息,并將接頭的控制參數(shù)作為接頭的輸出。在此基礎(chǔ)上,首先對(duì)正、側(cè)面攝像頭拍攝的影像進(jìn)行一系列的卷積、集束運(yùn)算,提取影像特征,利用一個(gè)完整的連接層將其融合為一維,利用Concat 函數(shù)融合兩個(gè)視角的聯(lián)結(jié),將兩個(gè)視角的聯(lián)結(jié)信息融合為一維,利用該聯(lián)結(jié)層將兩個(gè)數(shù)據(jù)融合為一維,將這兩個(gè)數(shù)據(jù)融合為多個(gè)完整聯(lián)結(jié)的聯(lián)結(jié),最終得到相應(yīng)的聯(lián)結(jié)結(jié)果。該方法將攝像機(jī)拍攝的圖像、關(guān)節(jié)的角度信息以及關(guān)節(jié)的轉(zhuǎn)動(dòng)速度等信息,并將Q 值與該算法進(jìn)行比較。在此基礎(chǔ)上,利用基于決策網(wǎng)絡(luò)的方法,將攝像機(jī)拍攝到的影像信息和運(yùn)動(dòng)信息融合為一維影像信息,并將其轉(zhuǎn)化為一維影像信息,然后將兩個(gè)信息融合為一維影像信息,再將兩個(gè)信息融合到一個(gè)多層次的全連接網(wǎng)絡(luò)中,進(jìn)行Q 值的擬合。將觀察到的影像與接合狀態(tài)稱為“狀態(tài)s”,接合轉(zhuǎn)動(dòng)量為“運(yùn)動(dòng)”。在該策略網(wǎng)與該值網(wǎng)中,初始圖片的尺寸是100x100x3,最大的一層是該網(wǎng)絡(luò)的最大一層,并將其標(biāo)記為“SAME”。其中,卷積層與總連通層分別使用線性整流函數(shù)(ReLu)作為激勵(lì)函數(shù),并使用Adam 最優(yōu)算法對(duì)策略與值網(wǎng)絡(luò)進(jìn)行最小化。在整個(gè)聯(lián)結(jié)層面,無(wú)論是在策略網(wǎng)還是在價(jià)值網(wǎng),都使用了relu 函數(shù)作為聯(lián)結(jié)的活化函數(shù)。
在此過程中,每個(gè)步驟的環(huán)境狀況,完成的行動(dòng),得到的獎(jiǎng)勵(lì),以及行動(dòng)結(jié)束后的環(huán)境狀況。在機(jī)械臂抓取作業(yè)中,把觀察到的圖像和關(guān)節(jié)角度信息當(dāng)作環(huán)境狀態(tài),把關(guān)節(jié)轉(zhuǎn)動(dòng)量當(dāng)作執(zhí)行的動(dòng)作,把觀察到的圖像當(dāng)作100×100×3 的矩陣,把關(guān)節(jié)角度信息和關(guān)節(jié)轉(zhuǎn)動(dòng)量都當(dāng)作6 維向量?;诮?jīng)驗(yàn)播放的系統(tǒng)可有效解決系統(tǒng)中存在的數(shù)據(jù)相關(guān)性、非穩(wěn)態(tài)等問題,但存在著存貯與取樣方式的隨機(jī)性,沒有考慮到各經(jīng)驗(yàn)樣本的重要程度差異,導(dǎo)致僅憑隨機(jī)取樣,不能高效地獲得對(duì)系統(tǒng)參數(shù)更新有較大貢獻(xiàn)的經(jīng)驗(yàn)樣本[4]。為此,本項(xiàng)目擬采用TDerror 分類器和TD-error 分類器兩種分類器的存儲(chǔ)與取樣方式,以提高樣本的利用率,并加快算法的收斂性。在TD-error 方法中,采用了兩個(gè)error 方法,對(duì)兩個(gè)error方法中的所有數(shù)據(jù)進(jìn)行了TD-error 方法的平均,并對(duì)兩個(gè)error 方法進(jìn)行了比較。
由于獎(jiǎng)賞的稀疏性,使得增強(qiáng)學(xué)習(xí)算法的開發(fā)受到了很大的阻礙。針對(duì)強(qiáng)化學(xué)習(xí)中的多步法選擇問題,首先需要解決的是多步法選擇問題,其次,由于個(gè)體在初始階段很難獲得積極的回報(bào),使得模型極易陷入局部極值而不能有效地收斂到最優(yōu)解;再者,由于樣本利用率較低,行為與狀態(tài)的高維連續(xù),使得訓(xùn)練過程變得緩慢。模仿學(xué)習(xí)指的是在一定程度上對(duì)人的行為進(jìn)行模擬,從而為個(gè)體提供對(duì)其所處環(huán)境的先驗(yàn)知識(shí)。模擬學(xué)習(xí)能夠有效地克服增強(qiáng)學(xué)習(xí)中存在的數(shù)據(jù)利用率不高、算法不容易實(shí)現(xiàn)等問題,并能提高訓(xùn)練的安全性。其中,行為復(fù)制、逆強(qiáng)化學(xué)習(xí)、產(chǎn)生式對(duì)抗的模擬學(xué)習(xí)是當(dāng)前模擬學(xué)習(xí)研究的熱點(diǎn)。
行為克隆是一種最簡(jiǎn)單的模擬學(xué)習(xí)方法,它是利用專家的示范數(shù)據(jù)來(lái)學(xué)習(xí)狀態(tài)與動(dòng)作之間的映射關(guān)系,與有監(jiān)督的學(xué)習(xí)方法相似。在此基礎(chǔ)上,以“狀態(tài)一行為對(duì)”為特征,以行為為標(biāo)記,構(gòu)建行為數(shù)據(jù)集,并利用回歸算法進(jìn)行策略建模,從而獲得行為與狀態(tài)的映射關(guān)系。然而,目前的研究主要集中在少數(shù)幾個(gè)典型的實(shí)驗(yàn)對(duì)象上,但實(shí)驗(yàn)對(duì)象的數(shù)量較少,而且實(shí)驗(yàn)對(duì)象的獲取費(fèi)用較高,使得單純的實(shí)驗(yàn)手段無(wú)法滿足實(shí)際應(yīng)用需求。反向強(qiáng)化學(xué)習(xí)是指在已知策略或者某些專家演示的情況下,反向推導(dǎo)出一系列的獎(jiǎng)賞函數(shù),使得智能主體能夠在專家演示的指導(dǎo)下,學(xué)會(huì)對(duì)復(fù)雜問題進(jìn)行決策,從而提高智能主體模擬專家的行為的能力。該方法既可用于離散控制,也可用于連續(xù)控制。產(chǎn)生式對(duì)抗模擬學(xué)習(xí)是基于 通過產(chǎn)生式對(duì)抗網(wǎng)絡(luò)來(lái)產(chǎn)生與專家數(shù)據(jù)分布一致的收益函數(shù),從而實(shí)現(xiàn)決策的直接抽取。在產(chǎn)生式對(duì)抗模擬學(xué)習(xí)中,將產(chǎn)生式、生成式對(duì)抗網(wǎng)絡(luò)的生成者視為策略網(wǎng)絡(luò),由判別者對(duì)state 1 行為進(jìn)行評(píng)分,以判別者的損失函數(shù)為獎(jiǎng)賞,采用強(qiáng)化學(xué)習(xí)方法對(duì)策略網(wǎng)絡(luò)進(jìn)行更新[5]。
現(xiàn)有的DDPG 方法主要采用基于隨機(jī)初值的策略網(wǎng)絡(luò),在無(wú)先驗(yàn)信息輔助的情況下,僅能獲得少量的高收益樣本,且很難對(duì)模型進(jìn)行有效的優(yōu)化。為此,本項(xiàng)目擬采用修改初值的方法對(duì)DDPG 進(jìn)行改進(jìn),并在此基礎(chǔ)上,設(shè)計(jì)一種將專家數(shù)據(jù)納入到經(jīng)驗(yàn)池中的DDPG。將專家數(shù)據(jù)導(dǎo)入到DPG 中,首先將基于TD-error 尺度的專家數(shù)據(jù)存儲(chǔ)到DPG 中,然后在DPG 的初始階段,通過選擇高收益的專家數(shù)據(jù),對(duì)行動(dòng)者和評(píng)論人網(wǎng)絡(luò)進(jìn)行優(yōu)化,進(jìn)而引導(dǎo)模型進(jìn)行優(yōu)化,提高模型的收斂性和收斂性。在此基礎(chǔ)上,提出了一種改進(jìn)的方法,即把收集到的專家數(shù)據(jù),加入到一個(gè)經(jīng)驗(yàn)庫(kù)中,使得決策網(wǎng)絡(luò)不再像以前那樣盲目地尋找最好的決策。儲(chǔ)存在經(jīng)驗(yàn)池中的專家樣本,在訓(xùn)練的早期,會(huì)發(fā)揮出絕對(duì)的引領(lǐng)作用,有助于網(wǎng)絡(luò)的快速收斂,從而提高系統(tǒng)的性能。但是,隨著訓(xùn)練的進(jìn)行,這些專家樣本會(huì)逐漸被策略網(wǎng)絡(luò)產(chǎn)生的樣本所取代。DDPG 算法會(huì)使用與環(huán)境交互產(chǎn)生的樣本,來(lái)進(jìn)行自主的探索,并對(duì)策略網(wǎng)絡(luò)模型的參數(shù)進(jìn)行進(jìn)一步的優(yōu)化,從而獲得更大的性能提升[6]。
該方法在學(xué)習(xí)之前,將專家樣本加入到學(xué)習(xí)過程中,以引導(dǎo)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),從而提高了樣本的使用率。然而,該算法的初始化具有隨機(jī)性,不能根據(jù)具體問題特征或已有的先驗(yàn)信息進(jìn)行輔助,只能通過增加專家數(shù)據(jù)的方式進(jìn)行訓(xùn)練,因此,提高算法的性能是一個(gè)重要的途徑。項(xiàng)目將首先采用專家數(shù)據(jù)對(duì)決策模型進(jìn)行擬合,得到更加合理的初始決策模型,然后采用增強(qiáng)學(xué)習(xí)方法對(duì)其進(jìn)行優(yōu)化,從而降低個(gè)體和環(huán)境之間的相互作用,提高其收斂性。
4.3.1 預(yù)訓(xùn)練策略模型
在深度學(xué)習(xí)中,通常采用預(yù)先訓(xùn)練的方法。所謂的預(yù)訓(xùn)練,就是利用多個(gè)樣本,對(duì)同一個(gè)或者不同的任務(wù),進(jìn)行訓(xùn)練,然后把訓(xùn)練出來(lái)的模型參數(shù)做為新的網(wǎng)絡(luò)的一個(gè)初值。預(yù)訓(xùn)練可以縮短訓(xùn)練所需要的時(shí)間,縮短所需要的樣本量,從而提高增強(qiáng)學(xué)習(xí)的訓(xùn)練效率。增強(qiáng)學(xué)習(xí)中常用的預(yù)訓(xùn)練方法包括:先從已有的算法中進(jìn)行預(yù)訓(xùn)練;再?gòu)囊延械乃惴ㄖ羞M(jìn)行預(yù)訓(xùn)練;最后,基于樣本軌跡的模擬學(xué)習(xí)。在此基礎(chǔ)上,擬采用有監(jiān)督的方式,通過對(duì)已有的專家數(shù)據(jù)進(jìn)行訓(xùn)練,建立“狀態(tài)-行為”之間的映射。在此基礎(chǔ)上,利用一組高報(bào)酬的“狀態(tài)-行動(dòng)”匹配策略網(wǎng)絡(luò),建立一套更適合于增強(qiáng)學(xué)習(xí)算法的初始策略模型。我們將利用收集到的數(shù)據(jù)集,對(duì)網(wǎng)絡(luò)中的策略進(jìn)行訓(xùn)練,并以此為初值,將初值輸入到強(qiáng)化學(xué)習(xí)中,并在此基礎(chǔ)上,對(duì)已有的策略進(jìn)行持續(xù)的、與環(huán)境的相互作用,最終實(shí)現(xiàn)對(duì)最優(yōu)策略的優(yōu)化。該方法所使用的網(wǎng)絡(luò)結(jié)構(gòu)和DDPG 中的策略網(wǎng)絡(luò)是一樣的。在該網(wǎng)絡(luò)中,將該專家數(shù)據(jù)集中的狀態(tài)S,當(dāng)作該網(wǎng)絡(luò)的一個(gè)輸入,并將該行為a 當(dāng)作輸出。在學(xué)習(xí)策略網(wǎng)絡(luò)的過程中,我們使用了一種自適應(yīng)的矩陣估計(jì)量,使損失函數(shù)達(dá)到最小化。Adam 最優(yōu)是一種針對(duì)深度學(xué)習(xí)的自適應(yīng)學(xué)習(xí)率的最優(yōu)算法,它能根據(jù)訓(xùn)練樣本的變化,不斷地調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)。Adam 法是一種改進(jìn)的方法,它將適應(yīng)梯度(AdaGrad)與RMSPorp 相結(jié)合,既可以通過二階矩陣來(lái)確定合適參數(shù)的學(xué)習(xí)速度,又可以通過二階矩陣的二階矩陣來(lái)確定適當(dāng)參數(shù)的學(xué)習(xí)速度。特別地,Adam 算法通過對(duì)每一批數(shù)據(jù)進(jìn)行加權(quán)平均,從而估算出每一次迭代時(shí)間。Adam 方法易于實(shí)現(xiàn),運(yùn)算速度快,占用存儲(chǔ)空間少,適合于處理大量的數(shù)據(jù)或參數(shù)問題[7]。
4.3.2 基于專家數(shù)據(jù)預(yù)訓(xùn)練策略模型的DDPG 算法
由于DDPG 中的數(shù)據(jù)是基于策略網(wǎng)絡(luò)的,且初始參數(shù)的選擇是隨機(jī)的,這就造成了初始值存在較大的隨機(jī)性,使得初始值存在較大的隨機(jī)性,從而影響了模型的收斂性,嚴(yán)重時(shí)可能會(huì)出現(xiàn)局部極值,從而阻礙了模型的進(jìn)一步學(xué)習(xí)。為解決該問題,本項(xiàng)目擬從決策網(wǎng)絡(luò)的初值產(chǎn)生方法入手,研究決策網(wǎng)絡(luò)的初值產(chǎn)生方法,并在此基礎(chǔ)上,研究決策網(wǎng)絡(luò)的初值產(chǎn)生方法。該方法利用專家數(shù)據(jù)對(duì)策略模型進(jìn)行預(yù)設(shè),并利用已有的策略網(wǎng)絡(luò)對(duì)其進(jìn)行初始化,并利用該初始化的策略網(wǎng)絡(luò)對(duì)其進(jìn)行初始化,從而得到最優(yōu)的控制策略。DDPG 方法是在初始化之前,先利用策略網(wǎng)將樣本庫(kù)中的樣本庫(kù)加入到樣本庫(kù)中,直到樣本庫(kù)被填滿,才進(jìn)入初始化階段。通過對(duì)初始策略網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,使得其參數(shù)不是隨機(jī)產(chǎn)生的,從而能夠更精確地預(yù)測(cè)出未知狀態(tài)下的行為,從而使得更多的高收益樣本被填充到經(jīng)驗(yàn)池中;同時(shí),能夠?yàn)镈DPG 的早期訓(xùn)練提供一個(gè)更合理的值網(wǎng)絡(luò),從而提高其收斂速度。
機(jī)器視覺的深度學(xué)習(xí)技術(shù)在圖像識(shí)別上得到了比較普遍的應(yīng)用,其中最具代表性的就是在2012 年,一個(gè)名為ImageNet 的比賽引起了巨大的轟動(dòng)。這個(gè)比賽在計(jì)算機(jī)視覺領(lǐng)域非常有代表性,它是通過從互聯(lián)網(wǎng)中提取圖片來(lái)進(jìn)行測(cè)試,并且是將眾多圖片分成了一千個(gè)類別。
這個(gè)實(shí)驗(yàn)因?yàn)槠渚_性高,在社會(huì)上掀起了軒然大波,并推動(dòng)了深度學(xué)習(xí)的發(fā)展。由于采用了大量的數(shù)據(jù),該方法的特征顯著地超過了過去人工設(shè)計(jì)的方法,大大提高了機(jī)器方法的推廣能力。尤其是目前IT行業(yè)的運(yùn)用,大量的搜索引擎成為了該技術(shù)的一個(gè)主要應(yīng)用領(lǐng)域。特別是在機(jī)器視覺和深度學(xué)習(xí)的技術(shù)方面,比如在公開領(lǐng)域,利用人臉識(shí)別技術(shù)進(jìn)行身份確認(rèn)、圖像檢索等,這對(duì)各個(gè)方面的事業(yè)發(fā)展都有很大的幫助。
以目前最常用的實(shí)例為例,以汽車牌照識(shí)別為代表的深度學(xué)習(xí)技術(shù)在機(jī)器視覺中的應(yīng)用。在一個(gè)固定的檢查站,采用技術(shù)方法,可以使汽車牌照的準(zhǔn)確率達(dá)到98%到99%。其基本原則是,在檢查站和牌照的位置都是固定的,這樣就可以很好的辨認(rèn)出來(lái),尤其是因?yàn)榕普盏奶?hào)碼是由特定的數(shù)字和英文構(gòu)成的,比較好辨認(rèn)。
相比于車牌識(shí)別,人臉識(shí)別技術(shù)的難度要高一些,但它也是安保行業(yè)中使用最多的一種,它的識(shí)別原理主要是利用人臉檢測(cè)來(lái)與人臉數(shù)據(jù)庫(kù)進(jìn)行比較,這也是在大數(shù)據(jù)的基礎(chǔ)上,將電腦中高達(dá)六千張人物的圖片作為參照,包括“不同方向、不同表情以及不同光線情況”下的照片對(duì)比,然后對(duì)測(cè)試系統(tǒng)進(jìn)行確認(rèn),系統(tǒng)會(huì)在測(cè)試結(jié)果的基礎(chǔ)上,給出一個(gè)肯定或者是否定的答案,并且準(zhǔn)確率高達(dá)99%。不過,以上的測(cè)試結(jié)果,都是以六千張照片為基礎(chǔ)的,如果是以數(shù)十萬(wàn)張照片為基礎(chǔ)的,那么測(cè)試的精度就會(huì)降低,比如,如果是以十萬(wàn)張照片為基礎(chǔ)的話,那么測(cè)試的精度就會(huì)降低20%。除了可以對(duì)面孔進(jìn)行識(shí)別之外,機(jī)器視覺的深度學(xué)習(xí)技術(shù)還可以用于對(duì)移動(dòng)目標(biāo)的跟蹤和監(jiān)控。特別是現(xiàn)在,隨著智能檢測(cè)技術(shù)的發(fā)展,越來(lái)越多的攝像機(jī)設(shè)備中都被安裝了這種智能模塊。通過對(duì)攝像機(jī)芯片的加強(qiáng),不但可以有效地提高設(shè)備的技術(shù)水平,更重要的是,該技術(shù)現(xiàn)在已經(jīng)變成了安防行業(yè)的標(biāo)準(zhǔn)裝備,所以,它的機(jī)器視覺深度學(xué)習(xí)技術(shù)的應(yīng)用也就變得越來(lái)越普及。
機(jī)械臂在社會(huì)的方方面面都有重要的應(yīng)用價(jià)值,而深度學(xué)習(xí)方法在未知、非結(jié)構(gòu)化的環(huán)境下有著很好的控制性能,將其與機(jī)械手的控制方法有機(jī)地融合在一起,將會(huì)有很大的發(fā)展空間,這將會(huì)是一種非常有前途的方法,這將會(huì)是一種非常有實(shí)際意義的方法。本項(xiàng)目將重點(diǎn)研究一種新的基于DDPG 的機(jī)器人手持機(jī)器人手持控制方法,并以此為基礎(chǔ),對(duì)其進(jìn)行進(jìn)一步的改進(jìn)與優(yōu)化,將多目標(biāo)學(xué)習(xí)與模擬學(xué)習(xí)相結(jié)合,并將其應(yīng)用到機(jī)器人手持作業(yè)中,最后通過試驗(yàn)來(lái)檢驗(yàn)所提出的兩種算法的學(xué)習(xí)效果。