張騰,張小棟,2,張英杰,2,陸竹風,朱文靜,蔣永玉
(1.西安交通大學(xué)機械工程學(xué)院,710049,西安;2.西安交通大學(xué)陜西省智能機器人重點實驗室,710049,西安)
隨著人工智能技術(shù)的發(fā)展,對具有仿人高級認知能力、能在復(fù)雜環(huán)境中執(zhí)行非設(shè)定任務(wù)的智能機器人的需求日趨緊迫,但是單憑人工智能技術(shù)尚無法滿足。因此,研究者提出了人-機智能融合方法,該方法結(jié)合了人的直觀推理、自組織學(xué)習以及處理非結(jié)構(gòu)化信息的能力,同時兼具機器強大的計算能力、存儲容量和不知疲倦的特性,目的在于充分發(fā)揮人和機器兩者的優(yōu)勢。隨著人-機智能融合系統(tǒng)所面臨任務(wù)和場景的復(fù)雜化,研究者在人-機智能融合的基礎(chǔ)之上,提出了一系列腦-機智能融合增強技術(shù),例如腦控汽車[1]、腦控無人機[2]、腦控外骨骼機器人[3]、腦控輪椅[4]以及腦控假肢[5-6]等。然而,在精密操控領(lǐng)域(例如醫(yī)療、軍事和太空探索等),與肢體操控方式相比,腦控方式在穩(wěn)定性和安全性上還存在風險。因此,目前在精密操控領(lǐng)域依然以人的肢體操控方式為主,例如手術(shù)機器人[7]、排爆機器人[8]、武器操控系統(tǒng)[9]以及在軌對星球表面遙操作系統(tǒng)[10]等。經(jīng)過研究發(fā)現(xiàn),在人-機交互的精密操控領(lǐng)域,由于缺乏操控者和機器之間信息的雙向交互,無法實現(xiàn)對操控者意圖的精密感知;同時,由于人腦精神狀態(tài)(例如疲勞、專注度和腦力負荷等)的變化會影響肢體操控的精度和安全性。
對此,有關(guān)學(xué)者在精密操控領(lǐng)域引入腦-機接口技術(shù),在不改變肢體操控方式的前提下,使用表面腦電信號(EEG)檢測操控者的精神狀態(tài),并根據(jù)操控者的精神狀態(tài)對機器人的指令進行補償調(diào)控,以實現(xiàn)精密操控。目前國內(nèi)外相關(guān)的研究主要分為兩個方面:操控者精神狀態(tài)檢測研究和基于精神狀態(tài)的補償控制研究。
在操控者精神狀態(tài)檢測研究方面:Dijksterhuis等要求駕駛員在駕駛?cè)蝿?wù)中,執(zhí)行不同難度等級的駕駛?cè)蝿?wù),利用EEG識別駕駛員的腦力負荷,平均識別精度達到95%[11];朱成杰等提出在飛行任務(wù)中EEG的各種節(jié)律波會隨著飛行員疲勞狀態(tài)和腦力負荷的變化而改變,因此利用EEG檢測技術(shù)可有效識別飛行員的疲勞狀態(tài)和腦力負荷[12];Wang等在多屬性任務(wù)組(MATB)中,要求受試者執(zhí)行3種難度等級的MATB任務(wù),以2~100 Hz的EEG傅里葉變換系數(shù)為特征,對受試者腦力負荷的識別精度進行測試,結(jié)果表明其識別精度可達80%左右[13]。上述研究均證明了EEG可有效地反映操控者的精神狀態(tài),但是目前的研究還僅停留在精神狀態(tài)的檢測和識別方法上,并未考慮精神狀態(tài)和操控品質(zhì)之間的聯(lián)系。
在基于精神狀態(tài)的補償控制研究方面:Wilson提出了一種自適應(yīng)自動化系統(tǒng),該系統(tǒng)可根據(jù)人的腦力負荷動態(tài)分配機器和人之間的任務(wù)屬性和等級,目的在于提高操控品質(zhì)[14];Jia等在遙操作任務(wù)下,根據(jù)操控者的精神狀態(tài)實時調(diào)控機器人的速度和響應(yīng)時間參數(shù),目的在于提高操控的精度和安全性[15];楊少增采用模糊建模方法建立了人的精神狀態(tài)估計和預(yù)測模型,以使操作員所承擔的任務(wù)與其當前的狀態(tài)兩者相匹配[16]。然而,目前大多數(shù)的研究,多預(yù)先設(shè)定所謂的精神狀態(tài)“好與壞”的表現(xiàn)特征,從而主觀認為當檢測到精神狀態(tài)“好”的特征時就增加任務(wù)難度,反之則降低任務(wù)難度,忽略了精神狀態(tài)的多樣性(尤其是在跨個體和跨時間角度上精神狀態(tài)的多樣性更強),從而導(dǎo)致精神狀態(tài)和控制指令之間失匹配,無法有效提高操控品質(zhì)和安全性。
綜合上述兩方面的研究現(xiàn)狀,發(fā)現(xiàn)兩個方面多單獨研究,沒有形成一體化的腦-機協(xié)作模型;同時,基于精神狀態(tài)的補償控制方面主觀性強,未考慮到精神狀態(tài)的多樣性。因此,針對人-機交互精密操控領(lǐng)域亟待解決的這兩大基礎(chǔ)共性問題,本文以機器人最基本的軌跡跟蹤任務(wù)為應(yīng)用目標,提出一種引入深度強化學(xué)習思想的腦-機協(xié)作精密操控方法。首先結(jié)合人在上層規(guī)劃與機器在精細控制上的優(yōu)勢,提出雙環(huán)路的人-機之間信息交互機制,進而建立一種基于深度強化學(xué)習的一體化的腦-機協(xié)作方法模型;然后設(shè)計相應(yīng)的精神狀態(tài)實時監(jiān)控方法,開發(fā)一套具有工程應(yīng)用價值的腦-機協(xié)作精密操控算法;最后擬搭建具有3種難度等級的軌跡跟蹤虛擬環(huán)境,并設(shè)計訓(xùn)練實驗、驗證實驗和對照實驗,以驗證腦-機協(xié)作精密操控方法的有效性。
本文融合人在上層規(guī)劃與機器在精細控制上的各自優(yōu)勢,提出了由主動操控環(huán)路和被動調(diào)控環(huán)路組成的雙環(huán)路人-機信息交互機制,如圖1所示??紤]到人在上層決策、突發(fā)情況處理方面的優(yōu)勢,因此在軌跡跟蹤任務(wù)中,使操控者對機器人方向指令的控制具有優(yōu)先權(quán)。在主動操控環(huán)路中,操控者通過操控裝置發(fā)送方向指令給機器人,同時通過視覺等信息對機器人的運行狀態(tài)進行監(jiān)督,實時地調(diào)整方向指令,并對突發(fā)的錯誤進行糾正;考慮到機器在精細控制上的優(yōu)勢,使計算機對機器人速度指令的控制具有優(yōu)先權(quán)。在被動調(diào)控環(huán)路中,引入深度強化學(xué)習思想[17],創(chuàng)新性的將操控者大腦作為環(huán)境對象,將控制算法作為智能體對象,建立一體化腦-機協(xié)作方法模型,其以反應(yīng)操控者精神狀態(tài)的EEG微分熵特征作為輸入,以機器人速度指令作為輸出。模型經(jīng)過多次自主訓(xùn)練,將多樣性的精神狀態(tài)和機器人的控制指令相匹配,從而促進人-機之間相互適應(yīng)和監(jiān)督,實現(xiàn)人腦和計算機協(xié)同合作(簡稱腦-機協(xié)作)執(zhí)行精密操控任務(wù)。
圖1 雙環(huán)路人機信息交互機制
在一體化腦-機協(xié)作模型訓(xùn)練階段:操控者通過肢體操控方式發(fā)送方向指令的同時,腦電設(shè)備采集大腦EEG并傳給控制算法,控制算法根據(jù)當前EEG生成相應(yīng)的速度指令,機器人根據(jù)方向指令和速度指令執(zhí)行相應(yīng)任務(wù)。此外,操控者在監(jiān)視和操控機器人時,會引發(fā)精神狀態(tài)變化(例如:機器人犯錯會引發(fā)大腦警覺;操控任務(wù)復(fù)雜且長時間執(zhí)行任務(wù)會由于高腦力負荷而引發(fā)大腦疲勞;操控任務(wù)過于單一會引發(fā)大腦專注度下降等)。精神狀態(tài)的變化會影響肢體操控的精度和安全性,因此腦電采集設(shè)備將EEG實時輸入控制算法,控制算法及時決策機器人的速度指令。機器人每執(zhí)行一次完整實驗,控制算法會根據(jù)任務(wù)完成精度和時間兩個指標計算獎勵值并更新模型中網(wǎng)絡(luò)參數(shù),直到控制算法中網(wǎng)絡(luò)模型收斂并達到獎勵最大化。在一體化腦-機協(xié)作模型驗證階段:將訓(xùn)練好的控制算法參數(shù)導(dǎo)入到機器人的控制器中,通過所建立深度神經(jīng)網(wǎng)絡(luò)感知操控者精神狀態(tài),利用強化學(xué)習方法根據(jù)精神狀態(tài)決策機器人的速度指令,從而實現(xiàn)腦-機協(xié)作精密操控。此模型利用深度強化學(xué)習理論建立腦-機之間一體化的架構(gòu),真正實現(xiàn)了雙環(huán)路的交互機制。
本文所建立的腦-機協(xié)作方法模型屬于“免模型強化學(xué)習”范疇,因此,本文根據(jù)蒙特卡羅采樣原理[18],從任意起始精神狀態(tài)s1出發(fā),使用某種策略G進行采樣,執(zhí)行該策略i步并獲得軌跡τ,詳細的采樣過程如圖2所示。獲得采樣軌跡τ的概率可由下式表示
pθ(τ)=p(s1)pθ(a1|s1)p(s2|s1,a1)pθ(a2|s2)
p(s3|s2,a2)…pθ(ai|si)p(si+1|si,ai)=
(1)
式中:si(i=1,…,k)表示第i時刻的精神狀態(tài)(以下簡稱狀態(tài));ai(i=1,…,k)表示第i時刻的機器人速度調(diào)節(jié)動作(以下簡稱動作);pθ(τ)是指給定策略神經(jīng)網(wǎng)絡(luò)參數(shù)θ的情況下,出現(xiàn)采樣軌跡τ的概率;p(s1)是指初始狀態(tài)s1出現(xiàn)的概率;pθ(ai|si)是指給定當前狀態(tài)si,采取動作ai的概率;p(si+1|si,ai)是指采取當前狀態(tài)si和動作ai之后,基于該條件概率返回下一個狀態(tài)si+1的概率。
圖2 腦-機協(xié)作方法模型蒙特卡羅采樣示意圖
對于某一個采樣軌跡τ,可以得到其對應(yīng)的獎勵,通過優(yōu)化控制算法,可以得到不同的獎勵。由于控制算法采取的動作以及出現(xiàn)某一個狀態(tài)是隨機的,最終的目標是找到一個具有最大期望獎勵的策略神經(jīng)網(wǎng)絡(luò)參數(shù),因此目標函數(shù)如下
(2)
(3)
式中:n為采樣次數(shù);N為總采樣數(shù)。由式(1)和式(3)可得
(4)
為了使獎勵值R(τ)不受采樣隨機性的影響,這里引入一個基準線b,因此梯度公式優(yōu)化為
(5)
式中:精神狀態(tài)si由所采集到的EEG的微分熵特征來表示;機器人速度指令ai由神經(jīng)網(wǎng)絡(luò)的輸出值而獲得;獎勵值R根據(jù)機器人執(zhí)行任務(wù)品質(zhì)評分獲得,詳細介紹見第3節(jié)。首先將原始EEG進行濾波和降采樣預(yù)處理;其次進行小波分解與重構(gòu);最后計算微分熵特征。其中,小波分解與重構(gòu)過程如下
(6)
式中:xj表示第j個頻帶的EEG;L表示分解層數(shù);Aj表示近似分量;Dj表示不同尺度的細節(jié)分量[19]。
對于固定長度的腦電序列可進行如下近似處理計算微分熵[20]
(7)
式中:s(x)表示微分熵特征值;f(x)表示時間序列的概率密度函數(shù);μ和σ分別表示高斯分布的均值和標準差。
最后,利用梯度下降法更新策略神經(jīng)網(wǎng)絡(luò)的參數(shù)θ,直到網(wǎng)絡(luò)模型收斂,具體算法如下
(8)
為了將反映精神狀態(tài)的實時EEG輸入給控制算法的模型,每次實驗總是提取計算機內(nèi)存中最后1 000 ms長的EEG作為輸入信號。對輸入信號的處理主要分為3個階段:①預(yù)處理,采用4階巴特沃茲帶通濾波器處理EEG,保留0.5~45.0 Hz的頻帶信號,然后進行降采樣處理;②小波變換處理,采用5階Daubechies小波基函數(shù),從EEG中分解并重構(gòu)出5種節(jié)律波,小波分解原理如圖3所示;③特征提取,分別計算32個通道的5種節(jié)律波的微分熵特征,形成160維的特征數(shù)據(jù)矩陣S,S即作為反映操控者精神狀態(tài)的特征輸入給腦-機協(xié)作方法模型。
圖3 5層小波分解原理圖
在腦-機協(xié)作方法模型中為了兼顧算法精度和響應(yīng)速度,本文建立了3層全連接神經(jīng)網(wǎng)絡(luò),詳細的網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)輸入為精神狀態(tài)(即表征精神狀態(tài)的特征矩陣S),輸出為機器人速度指令ai。其中輸入層有160個神經(jīng)元,隱含層有80個神經(jīng)元,輸出層有4個神經(jīng)元,分別表示4種無量綱的速度等級(0.5、1、2和2.5)。隱含層采用tanh激活函數(shù)[21],輸出層經(jīng)過softmax函數(shù)[22]處理之后,利用隨機策略選擇速度指令ai,其中概率值高的被選中幾率高,反之,被選中的幾率低,目的在于符合“探索”和“利用”平衡的原則(EEb),從而獲得最大的獎勵。獎勵值R由軌跡跟蹤精度和完成時間兩項指標組成,詳細表達式如下
(9)
式中:Y表示機器人的行走軌跡;O表示目標軌跡;T表示每實驗一次完成的時間;g表示時間系數(shù);M表示整個軌跡的總步數(shù)。將數(shù)據(jù)組(s,a,R)輸入給目標函數(shù),根據(jù)自適應(yīng)矩估計梯度下降法(ADAM)[23]更新神經(jīng)網(wǎng)絡(luò)參數(shù),其中學(xué)習率(rL)設(shè)置為0.001。訓(xùn)練階段每執(zhí)行一次完整實驗,模型更新一次,直到模型收斂為止。
圖4 腦-機協(xié)作方法模型參數(shù)更新原理圖
(a)軌跡跟蹤環(huán)境
為了驗證腦-機協(xié)作方法的有效性,本文以精密操控機器人執(zhí)行軌跡跟蹤任務(wù)為例。此任務(wù)作為遠程操控特種機器人排爆、消防、救援等領(lǐng)域關(guān)鍵的任務(wù)之一受到廣泛關(guān)注。本實驗搭建了一個腦-機協(xié)作操控的軌跡跟蹤環(huán)境平臺,具體如圖5a所示,操控者通過鼠標控制機器人執(zhí)行軌跡跟蹤任務(wù)。為了增加實驗的多樣性,設(shè)計了水平直線、斜線和曲線3種難度等級的軌跡。實驗場景如圖5b所示,其中機器人的方向指令由操控者通過鼠標控制,速度指令由計算機中的控制算法根據(jù)操控者精神狀態(tài)的變化不斷地調(diào)節(jié),機器人結(jié)合方向和速度兩項指令,執(zhí)行規(guī)定的任務(wù)。在軌跡跟蹤任務(wù)中,操控者通過觀察機器人的運行狀態(tài),不斷調(diào)整方向指令,同時計算機中的控制算法通過檢測人腦精神狀態(tài)實時調(diào)整機器人的速度指令,從而通過腦-機協(xié)作,實現(xiàn)對機器人的精密操控。每完成一次完整實驗,控制算法會記錄機器人行走的軌跡和完成時間,并根據(jù)此兩項指標計算獎勵值,具體計算方法如式(9)??刂扑惴ㄖ械纳窠?jīng)網(wǎng)絡(luò)模型根據(jù)獎勵值更新參數(shù),直到神經(jīng)網(wǎng)絡(luò)模型收斂。
實驗采用博??倒?Neuracle)開發(fā)的32通道的腦電采集設(shè)備,如圖6a所示,其采樣頻率為1 000 Hz,通過無線路由與電腦相連。本實驗按照國際10-20系統(tǒng)選擇腦電通道,具體電極分布位置如圖6b所示。
(a)采集設(shè)備
本次實驗共有5名受試者(標記為Sub1~Sub5,其中1名為女性),年齡均在23~30歲,無精神疾病史,視力或矯正視力在1.0以上。實驗過程中要求受試者靜坐在電腦屏幕前,通過鼠標控制屏幕中的機器人執(zhí)行軌跡跟蹤的任務(wù)。每完成3種預(yù)設(shè)軌跡(水平直線、斜線及曲線)的跟蹤任務(wù)即為完成一次實驗的全過程。實驗共分為3個階段,分別為訓(xùn)練階段、驗證階段和對照階段。訓(xùn)練階段用來訓(xùn)練腦-機協(xié)作方法模型參數(shù);驗證階段是將訓(xùn)練好的腦-機協(xié)作方法模型輸入到機器人的控制器中,進行驗證實驗;對照階段不使用腦-機協(xié)作方法(即傳統(tǒng)方法),其他設(shè)置與驗證階段相同。訓(xùn)練階段實驗執(zhí)行65次,前5次用來練習軌跡跟蹤任務(wù),防止因為操作的熟練度不同而影響實驗結(jié)果,后60次為正式實驗。每20次中間有1 min的休息時間。對照階段實驗和驗證階段實驗各執(zhí)行25次,前5次均用來練習軌跡跟蹤任務(wù),后20次為正式實驗,具體實驗步驟如圖7所示。
考慮到精神狀態(tài)的多樣性,每名受試者在一天之中不同的時間段進行實驗(例如Sub1的實驗時間為20:00~22:00;Sub2和Sub5的實驗時間為9:00~11:00;Sub3的實驗時間為14:30~16:30;Sub4的實驗時間為16:30~18:30),適當增加了表征精神狀態(tài)的EEG數(shù)據(jù)的多樣性??紤]到每名受試者實驗的舒適度,實驗時長為2 h。
圖7 實驗步驟示意圖
通過研究發(fā)現(xiàn)ADAM優(yōu)化器中學(xué)習率會影響腦-機協(xié)作方法模型的訓(xùn)練效果。分析其原因是由于在模型收斂過程中發(fā)生了梯度消失或梯度爆炸的現(xiàn)象。因此為了驗證此猜測,這里進行一個離線的測試,選擇受試者Sub1的對照組實驗數(shù)據(jù),以圖4中的3層全連接神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),建立精神狀態(tài)影響下的操控品質(zhì)預(yù)測網(wǎng)絡(luò),分別設(shè)置6種ADAM優(yōu)化器學(xué)習率rL參數(shù),分析學(xué)習率與損失函數(shù)值之間的關(guān)系,具體如圖8所示。損失函數(shù)值越小,代表神經(jīng)網(wǎng)絡(luò)收斂性越好,訓(xùn)練效果越好,反之損失函數(shù)值越大,則神經(jīng)網(wǎng)絡(luò)收斂性差,訓(xùn)練效果差。當rL≥0.1時,由于梯度爆炸原因使誤差曲線出現(xiàn)了二次震蕩的現(xiàn)象,并且rL值越大,震蕩越劇烈,波峰的橫坐標值越大,從而造成收斂速率慢,訓(xùn)練效果差。當rL≤0.01時,由于避免了梯度爆炸而使震蕩現(xiàn)象消失。在0.001~0.01之間,rL值越小,初始損失函數(shù)值越低,整體收斂效果越好,但是當rL值降低至0.000 1時,由于梯度消失的原因使收斂速率驟然變慢,當?shù)?0次時,損失函數(shù)值是rL=0.001時的15倍,是rL=0.01的28倍;當?shù)?00次時,損失函數(shù)值是rL=0.001時的5.8倍,是rL=0.01時的5倍。實驗結(jié)果顯示:當rL在0.001附近時,既可以避免由于梯度爆炸造成的訓(xùn)練模型魯棒性差的問題,又可以避免由于梯度消失造成的訓(xùn)練模型收斂過緩的問題,因此可達到最優(yōu)的訓(xùn)練效果。
圖8 學(xué)習率與損失函數(shù)值間關(guān)系
為了驗證面向精密操控軌跡跟蹤任務(wù)的腦-機協(xié)作方法的有效性,這里主要通過腦-機協(xié)作方法模型收斂性和軌跡跟蹤任務(wù)完成品質(zhì)兩個方面分析。選擇具有代表性的受試者Sub1為例進行討論,該受試者一共進行了8組訓(xùn)練實驗,其模型收斂曲線如圖9所示,縱坐標為獎勵值,代表操控品質(zhì)。圖中置信區(qū)間的上限和下限分別為95%。前22次實驗曲線呈現(xiàn)劇烈震蕩狀態(tài),并且置信區(qū)間范圍較大,說明數(shù)據(jù)概率分布不穩(wěn)定。之后模型逐漸穩(wěn)定,并達到收斂,獎勵值穩(wěn)定在相對較高的1.92水平,其置信區(qū)間范圍變窄,說明數(shù)據(jù)概率分布穩(wěn)定,操控品質(zhì)維持在相對較高水平。但是,其中仍然存在輕微波動,例如第39和第49次實驗的獎勵值出現(xiàn)明顯的降低,這是因為在訓(xùn)練過程中,腦-機協(xié)作方法模型在輸出動作指令時按照EEb原則,存在輸出非最優(yōu)速度的概率,會導(dǎo)致受試者的操控品質(zhì)降低。
圖9 訓(xùn)練模型收斂曲線圖
將受試者Sub1訓(xùn)練實驗中的腦-機協(xié)作方法模型參數(shù)導(dǎo)入到驗證實驗中,對操控品質(zhì)進行分析,驗證實驗與對照實驗對比曲線如圖10所示。由圖10可以看到,對照實驗曲線在20次實驗中劇烈振蕩,這是由于對照實驗中機器人的速度無法與操控者的精神狀態(tài)匹配,導(dǎo)致獎勵值變化劇烈,且大多數(shù)獎勵值很低,操控品質(zhì)很差。相反,驗證實驗曲線在20次實驗中始終保持在一個相對較高的獎勵值水平上輕微浮動,說明操控品質(zhì)良好。原因在于腦-機協(xié)作方法可根據(jù)操控者的精神狀態(tài)匹配最優(yōu)的機器人速度,從而有效提高了操控品質(zhì)。
圖10 操控品質(zhì)曲線對比圖
為了更直觀的討論腦-機協(xié)作方法在軌跡跟蹤任務(wù)中的有效性,分別記錄了受試者Sub1在驗證實驗和對照實驗中的10次軌跡,具體如圖11所示。從對照實驗相對波動的軌跡上可知,由于其頻繁出現(xiàn)目標軌跡缺失現(xiàn)象,從而操控者需要不斷地調(diào)整方向指令,這不僅導(dǎo)致機器人與障礙物碰撞的次數(shù)增加、整個任務(wù)所花費的時間變長,而且增加了腦力負荷和負面情緒。而對于使用了該方法的驗證實驗,其軌跡跟蹤精度要優(yōu)于對照實驗,目標軌跡缺失現(xiàn)象較少,不需要操控者頻繁調(diào)整方向指令,操作更精準和高效。
(a)驗證實驗結(jié)果
為了進一步證明腦-機協(xié)作方法的普遍有效性,對所有受試者的操控品質(zhì)進行了對比分析,結(jié)果如表1所示。表1中各指標計算公式如下
(10)
式中:H表示水平直線軌跡的步數(shù);B表示斜線軌跡的步數(shù);C表示曲線軌跡的步數(shù);Rh、Rb、Rc和Rave(為3者之和)分別代表水平直線、斜線、曲線以及整條軌跡的歸一化獎勵值,其值越大代表軌跡跟蹤精度越好,反之,軌跡跟蹤精度越差;Rt代表時間指標獎勵值,其值越大代表完成時間越短,反之,完成時間越長。因此,Rave+Rt的值越大表示操控品質(zhì)越好,反之,操控品質(zhì)越差。表1結(jié)果顯示:相比較于對照實驗,5名受試者驗證實驗的平均操控品質(zhì)提高了59.36%,證明了腦-機協(xié)作方法的普遍有效性。其中平均軌跡跟蹤精度和完成時間兩項指標分別提高了36.55%和22.81%,說明此方法不僅提高了軌跡跟蹤任務(wù)的控制精度,而且縮短了操控的時間。
表1 軌跡跟蹤任務(wù)操控品質(zhì)對比表
本文面向人-機交互的精密操控領(lǐng)域,針對人、機之間缺乏信息雙向交互,以及操控精度和安全性受操控者精神狀態(tài)影響的兩大問題,通過引入腦-機接口技術(shù),提出了一種腦-機協(xié)作精密操控方法研究。通過人機信息交互機制創(chuàng)建、腦-機協(xié)作精密操控數(shù)學(xué)模型推導(dǎo)與算法研究,以及實驗驗證分析,得出如下主要結(jié)論:①結(jié)合人在上層規(guī)劃與機器在精細控制上的各自優(yōu)勢,可以創(chuàng)建一種雙環(huán)路人-機之間信息交互機制;②通過引入深度強化學(xué)習思想,以表征操控者精神狀態(tài)的EEG微分熵特征作為模型的輸入,以機器人速度指令作為模型的輸出,可以獲得一體化的腦-機協(xié)作方法模型;③基于精神狀態(tài)實時監(jiān)控,采用3層全連接神經(jīng)網(wǎng)絡(luò)感知模型,可以實現(xiàn)腦-機協(xié)作精密操控算法;④通過軌跡跟蹤虛擬環(huán)境和任務(wù)場景創(chuàng)建,能夠?qū)崿F(xiàn)對腦-機協(xié)作方法的實驗驗證分析。實驗結(jié)果表明:本文方法明顯提高了軌跡跟蹤任務(wù)的控制精度,縮短了任務(wù)執(zhí)行時間。本文方法不僅實現(xiàn)了腦-機協(xié)作精密操控軌跡跟蹤任務(wù),而且借助此項任務(wù)的研究,探討了一體化的腦-機協(xié)作模型的構(gòu)建,促進了腦-機之間的信息雙向、實時交互,實現(xiàn)人-機交互系統(tǒng)的互適應(yīng)、互監(jiān)督和互增長。