• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強(qiáng)化學(xué)習(xí)的倫理智能體訓(xùn)練方法

    2022-09-06 07:30:58古天龍包旭光李云輝
    關(guān)鍵詞:軌跡倫理動(dòng)作

    古天龍 高 慧 李 龍 包旭光 李云輝

    1(暨南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 廣州 510632)

    2(廣西可信軟件重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)) 廣西桂林 541004)

    (gutianlong@jnu.edu.cn)

    人工智能(artificial intelligence, AI)已經(jīng)廣泛應(yīng)用到醫(yī)療[1]、交通[2]、智能家居[3]等諸多領(lǐng)域,給人類生活提供了諸多便利,但也引發(fā)了突出的倫理問(wèn)題.例如:微軟推出的聊天機(jī)器人Tay設(shè)計(jì)之初是為了與人類進(jìn)行友好互動(dòng),但卻被網(wǎng)友教會(huì)了粗俗甚至帶有歧視性質(zhì)的話語(yǔ);優(yōu)步(Uber)研發(fā)的無(wú)人駕駛汽車在行駛過(guò)程中撞死了無(wú)辜路人.不難想象,類似問(wèn)題如果在智能體設(shè)計(jì)之初得以解決,能夠顯著減少給人類造成的困擾和傷害.換言之,為促進(jìn)人工智能高效發(fā)展,并更好地為人類服務(wù)、提升人類生活質(zhì)量,必須設(shè)計(jì)實(shí)現(xiàn)行為符合倫理的智能體,即倫理智能體[4].正如Picard[5]所說(shuō),“機(jī)器的自由度越大,越需要道德標(biāo)準(zhǔn)”.

    價(jià)值對(duì)齊(價(jià)值一致)是典型的倫理智能體訓(xùn)練技術(shù)之一,即利用規(guī)范或規(guī)則限制智能體的行為,使其與人類價(jià)值觀相一致[6-7].由于人類價(jià)值觀的多樣及復(fù)雜性,較多學(xué)者認(rèn)為借助自下而上的方法實(shí)現(xiàn)價(jià)值對(duì)齊,從而讓智能體學(xué)得人類價(jià)值觀是較為可行的倫理智能體訓(xùn)練方法[8].其中基于專家示例[9-10]、模仿學(xué)習(xí)[11]、偏好學(xué)習(xí)[12-13]或者逆強(qiáng)化學(xué)習(xí)[14]等技術(shù)應(yīng)用較為廣泛,這類技術(shù)利用人類示范指導(dǎo)智能體行動(dòng),可以在一定程度上展現(xiàn)人類的價(jià)值觀及道德規(guī)范.但是,基于人類示范指導(dǎo)進(jìn)行倫理智能體訓(xùn)練的方法普遍存在3個(gè)缺點(diǎn)[15-16]:1)收集真實(shí)的人類行為示例代價(jià)昂貴、周期長(zhǎng),甚至是不可行的;2)因數(shù)量有限,真實(shí)人類行為示例易存在代表性差、公平性差等偏見(jiàn)歧視問(wèn)題;3)由于數(shù)據(jù)來(lái)源于實(shí)際發(fā)生的人類真實(shí)行為,絕大多數(shù)行為體現(xiàn)的是積極的價(jià)值觀,缺少與之對(duì)應(yīng)的負(fù)面行為.

    基于Li等人[17-18]的前期研究,Riedl等人[19]探討了基于故事對(duì)智能體進(jìn)行價(jià)值觀嵌入的可行性,提出了以行為結(jié)果為根本目標(biāo)的智能體訓(xùn)練方法.該方法以結(jié)果為導(dǎo)向、功能單一、訓(xùn)練粒度較粗,忽略了智能體在目標(biāo)達(dá)成過(guò)程中可能做出的不倫理行為.受到以上研究啟發(fā),本文提出了一種新穎、高效的倫理智能體訓(xùn)練方法,能夠保證智能體以符合倫理的行為方式完成預(yù)設(shè)任務(wù).本文貢獻(xiàn)有4個(gè)方面:

    1) 提出了基于強(qiáng)化學(xué)習(xí)的倫理智能體訓(xùn)練方法.借助于眾包、強(qiáng)化學(xué)習(xí)等技術(shù),智能體具備執(zhí)行倫理行為的能力,為倫理智能體的設(shè)計(jì)及訓(xùn)練提供了探索性思路.

    2) 提出了基于眾包的人類行為文本數(shù)據(jù)集構(gòu)建方法.針對(duì)人類示范數(shù)據(jù)集難以獲得、構(gòu)建耗時(shí)長(zhǎng)、代價(jià)昂貴、存在偏見(jiàn)歧視等特點(diǎn),利用眾包技術(shù)收集世界各地人們的行為示例,高效構(gòu)建能夠體現(xiàn)人類共同價(jià)值觀的行為文本數(shù)據(jù)集.

    3) 提出了元倫理行為這一概念以及一種綜合考慮道德、規(guī)范及法律因素的行為獎(jiǎng)勵(lì)機(jī)制.從《中學(xué)生日常行為規(guī)范》中提取了人類生活中最為普遍存在的9個(gè)元倫理行為,擴(kuò)展了智能體的行為空間,在一定程度上解決了其行為受場(chǎng)景限制的問(wèn)題.此外,借助于眾包對(duì)元倫理行為進(jìn)行了倫理分級(jí),提出了應(yīng)用于強(qiáng)化學(xué)習(xí)的行為獎(jiǎng)勵(lì)機(jī)制,協(xié)助智能體在完成最終目標(biāo)的前提下執(zhí)行符合倫理的行為.

    4) 通過(guò)模擬現(xiàn)實(shí)生活中常見(jiàn)的買藥場(chǎng)景,分別基于Q-learning算法和DQN(deep Q-networks)算法對(duì)倫理智能體訓(xùn)練方法的有效性及合理性進(jìn)行了實(shí)驗(yàn)驗(yàn)證.

    1 相關(guān)工作

    為使智能體的行為符合倫理,研究者展開(kāi)了相關(guān)研究.目前而言,多數(shù)研究主要借助于規(guī)則推理、案例對(duì)比及機(jī)器學(xué)習(xí)等技術(shù)賦予智能體倫理判別能力.

    基于規(guī)則推理的倫理決策方法主要利用預(yù)先設(shè)定好的倫理決策原則指導(dǎo)智能體進(jìn)行推理決策.例如,在“I,Robot”[20]中,“機(jī)器人3原則”的設(shè)定對(duì)于防止機(jī)器人傷害人類起到了重要作用.Bringsjord等人[21]在機(jī)器人3原則的基礎(chǔ)上設(shè)定了2種基本的機(jī)器決策原則,提出了一種利用命題演算和謂詞演算等邏輯推理形式實(shí)現(xiàn)機(jī)器倫理決策的方法.Briggs等人[22]創(chuàng)造了認(rèn)知機(jī)器人結(jié)構(gòu)DIARC/ADE,該結(jié)構(gòu)能夠?qū)崿F(xiàn)指令拒絕和解釋機(jī)制的機(jī)器倫理決策方法,并在簡(jiǎn)單的場(chǎng)景下進(jìn)行了測(cè)試.Anderson等人[23]基于功利主義和義務(wù)論開(kāi)發(fā)了倫理顧問(wèn)系統(tǒng),并進(jìn)一步證明了倫理原則指導(dǎo)下的決策系統(tǒng)在倫理困境下更易做出倫理決策.基于規(guī)則推理的倫理決策方法具有較強(qiáng)的可解釋性和透明性,可以協(xié)助智能體快速做出倫理決策,但是難以刻畫(huà)復(fù)雜的人類倫理,而且存在因地域、文化、個(gè)人信仰等不同而引起的規(guī)則差異等問(wèn)題.

    基于案例對(duì)比的倫理決策方法通過(guò)類比以往發(fā)生的案例自動(dòng)提取倫理規(guī)范并進(jìn)行倫理決策.Anderson等人[24]基于案例對(duì)比技術(shù)設(shè)計(jì)了倫理決策顧問(wèn)系統(tǒng)MedEthEx,該系統(tǒng)通過(guò)提取典型案例中的醫(yī)學(xué)倫理原則,協(xié)助護(hù)理智能體作出決策.Anderson等人[25]設(shè)計(jì)了一種基于專家評(píng)議的倫理困境探索系統(tǒng)GenEth,用于討論給定場(chǎng)景中的道德困境,并應(yīng)用歸納邏輯程序來(lái)推斷行為的倫理準(zhǔn)則.Arkin等人[26]提出了一種以戰(zhàn)爭(zhēng)規(guī)則為倫理決策原則的戰(zhàn)場(chǎng)機(jī)器倫理決策方法,分別從倫理行為抑制、倫理決策設(shè)計(jì)、利用效應(yīng)函數(shù)適應(yīng)非道德行為和協(xié)助操作者分配最終責(zé)任4方面提出了具體解決方案.Dehghani等人[27]提出了結(jié)合規(guī)則推理和案例對(duì)比的MoralDM系統(tǒng),既允許智能體基于某些已有的規(guī)則進(jìn)行決策,也支持智能體基于案例對(duì)比做出決策.但是,伴隨著案例數(shù)量的不斷增多,MoralDM的工作效率顯著下降,因此Blass等人[28]對(duì)其進(jìn)行了結(jié)構(gòu)映射擴(kuò)展,通過(guò)計(jì)算案例間的對(duì)應(yīng)關(guān)系以及相似度縮小搜索空間,提高類比泛化的效率.基于案例的方法雖然求解簡(jiǎn)單,但是存在難以應(yīng)對(duì)場(chǎng)景不斷變化、案例相關(guān)性差且數(shù)量有限等顯著問(wèn)題.

    基于機(jī)器學(xué)習(xí)的倫理決策研究主要依靠智能體對(duì)客觀環(huán)境的不斷學(xué)習(xí)獲得決策能力.Armstrong[29]基于貝葉斯理論構(gòu)建了智能體決策模型,該模型依據(jù)最優(yōu)效用價(jià)值原則,通過(guò)求取最大效用函數(shù)值完成決策.受巴甫洛夫條件反射的啟發(fā),強(qiáng)化學(xué)習(xí)[30]是一種基于嘗試和錯(cuò)誤的學(xué)習(xí)方法,它很好地滿足了人類的目的,即讓智能體學(xué)習(xí)道德行為.Dewey[31]在使用效用值的同時(shí)借助強(qiáng)化學(xué)習(xí)[30]設(shè)計(jì)倫理決策.Abel等人[32]主張強(qiáng)化學(xué)習(xí)可以協(xié)助智能體實(shí)現(xiàn)倫理學(xué)習(xí)和決策,并通過(guò)典型的倫理困境實(shí)驗(yàn)展示了如何借助于強(qiáng)化學(xué)習(xí)處理基本的道德問(wèn)題.Wu等人[33]提出了將倫理價(jià)值觀納入強(qiáng)化學(xué)習(xí)的倫理塑造方法,通過(guò)假設(shè)大多數(shù)人類行為是道德的,從人類行為數(shù)據(jù)學(xué)習(xí)道德塑造策略,并模擬了拿牛奶、駕駛與躲避以及駕駛與救援這3個(gè)場(chǎng)景,證明了方法的有效性.Riedl等人[19]探討了利用強(qiáng)化學(xué)習(xí)訓(xùn)練強(qiáng)化學(xué)習(xí)掌握人類價(jià)值觀的可能性,該研究借助于Li等人[17-18]的研究構(gòu)建情節(jié)圖,以刻畫(huà)智能體行為空間,然而存在受場(chǎng)景限制問(wèn)題,無(wú)法應(yīng)對(duì)現(xiàn)實(shí)環(huán)境的動(dòng)態(tài)多變.

    2 背景知識(shí)

    2.1 眾 包

    信息技術(shù)雖然不斷進(jìn)步,但是仍然存在許多計(jì)算機(jī)難以高效處理但人類卻能輕松應(yīng)對(duì)的工作,如數(shù)據(jù)標(biāo)注、物體識(shí)別等,眾包便被用于協(xié)助人類更加高效地完成此類任務(wù).眾包的核心思想是借助于互聯(lián)網(wǎng)、利用群體智慧將任務(wù)分而治之,通過(guò)工作者之間的協(xié)作完成復(fù)雜任務(wù).眾包的一般流程為:1)請(qǐng)求者在眾包平臺(tái)創(chuàng)建任務(wù);2)工作者在眾包平臺(tái)完成任務(wù);3)請(qǐng)求者在眾包平臺(tái)核查任務(wù)的完成情況,并決定是否為工作者發(fā)放酬金.

    Fig. 1 Plot graph and trajectory tree圖1 情節(jié)圖與軌跡樹(shù)

    2.2 情節(jié)圖及軌跡樹(shù)

    情節(jié)圖用于描述多個(gè)事件序列的發(fā)生順序,能夠準(zhǔn)確、簡(jiǎn)潔刻畫(huà)事件的發(fā)生過(guò)程,并過(guò)濾掉普遍存在的噪音[17-18].情節(jié)圖可以借助元組E,B,M,Eopt,Econ來(lái)表示.其中,E={e1,e2,…,en},表示情節(jié)圖中所有事件的集合;B?E×E,表示事件間先后關(guān)系的集合;M?E×E,表示事件間互斥關(guān)系的集合;Eopt?E,表示情節(jié)圖中所有可選擇事件的集合;Econ?E,表示情節(jié)圖中所有條件事件的集合.條件事件的發(fā)生取決于可選擇事件是否發(fā)生.圖1所示左邊為情節(jié)圖,節(jié)點(diǎn)代表事件,有向邊代表事件間的先后關(guān)系(如事件e1早于事件e2發(fā)生),虛線邊代表事件間的互斥關(guān)系(如事件e2與事件e3不可能同時(shí)發(fā)生).

    如圖1右邊所示,軌跡樹(shù)是有向無(wú)環(huán)圖,主要作用是便于強(qiáng)化學(xué)習(xí)為智能體分配獎(jiǎng)勵(lì).此外,智能體可以根據(jù)軌跡樹(shù)追蹤自己的行為.

    Fig. 2 Flow chart of method圖2 方法流程圖

    2.3 強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)[30]用于描述和解決智能體在某一環(huán)境中獲得最大回報(bào)或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題.其核心為馬爾可夫決策過(guò)程(Markov decision process, MDP),可表示為五元組S,A,T,R,γ.其中,S表示智能體的所有狀態(tài)(即狀態(tài)空間);A表示智能體的所有動(dòng)作(即動(dòng)作空間);T:S×A→P(S)表示狀態(tài)轉(zhuǎn)移概率;R:S×A→R表示智能體采取某一動(dòng)作并到達(dá)某一狀態(tài)所獲得的獎(jiǎng)勵(lì)值;γ∈[0,1]表示獎(jiǎng)勵(lì)衰減因子.MDP的目標(biāo)是最大化智能體取得的長(zhǎng)期獎(jiǎng)勵(lì),即其中t為智能體所處時(shí)刻.

    2.3.1 Q-learning算法

    Q-learning使用Q值Q(s,a)估計(jì)在狀態(tài)s采取行動(dòng)a的預(yù)期獎(jiǎng)勵(lì),用于協(xié)助智能體學(xué)得行動(dòng)策略π:S→A,即每一個(gè)狀態(tài)下該采取的動(dòng)作.Q(s,a)的計(jì)算方式為

    (1)

    其中α為學(xué)習(xí)率,r為回報(bào),γ為折扣因子,s′為新?tīng)顟B(tài),a′為新?tīng)顟B(tài)可采取的動(dòng)作.

    智能體在狀態(tài)s下,依據(jù)Q-table選擇動(dòng)作a,使Q(s,a)最大化.Q-table的行表示狀態(tài)s,列表示動(dòng)作a,矩陣中的值表示特定狀態(tài)下執(zhí)行某動(dòng)作的回報(bào)值為r(s,a).智能體通過(guò)不斷更新并查找該表,最終學(xué)到最佳策略.在學(xué)習(xí)過(guò)程中,探索率ε制約智能體按照Q-table的最優(yōu)值選擇行為或者隨機(jī)選擇行為.

    2.3.2 DQN算法

    DQN[34]采用神經(jīng)網(wǎng)絡(luò)估計(jì)價(jià)值函數(shù),以端對(duì)端的方式對(duì)智能體進(jìn)行訓(xùn)練.DQN的誤差函數(shù)表示為

    (2)

    (3)

    同時(shí),神經(jīng)網(wǎng)絡(luò)的參數(shù)采用梯度下降的方式進(jìn)行更新.此外,DQN中的探索率是變化的,隨著訓(xùn)練的進(jìn)行,由ε1逐步變化為ε2.

    3 倫理智能體訓(xùn)練方法

    本文所提出的倫理智能體訓(xùn)練方法主要包含4個(gè)步驟:1)基于眾包收集人類行為示例,構(gòu)建人類行為數(shù)據(jù)集;2)構(gòu)建情節(jié)圖,并進(jìn)一步創(chuàng)建軌跡樹(shù);3)從《中學(xué)生日常行為規(guī)范》提取元倫理行為,并基于眾包進(jìn)行倫理分級(jí);4)綜合考慮道德、規(guī)范及法律因素,針對(duì)強(qiáng)化學(xué)習(xí)提出行為獎(jiǎng)勵(lì)機(jī)制,采用獎(jiǎng)勵(lì)機(jī)制與軌跡樹(shù)相結(jié)合的方式訓(xùn)練倫理智能體.如圖2所示:

    3.1 基于眾包的人類行為示例收集

    鑒于眾包在數(shù)據(jù)收集方面的優(yōu)勢(shì),本文采用眾包收集人類行為示例.為保證數(shù)據(jù)質(zhì)量,提出3個(gè)要求:

    1) 工作者撰寫(xiě)的行為示例包含8~30句話,每句話必須包含一個(gè)行為.工作者worker1撰寫(xiě)的包含n個(gè)行為的示例可表示為Aworker1(a11,a12,…,a1n).

    2) 必須采用簡(jiǎn)單的自然語(yǔ)言進(jìn)行表述,不能使用大量的復(fù)合句以及條件句等.

    3) 同一示例中僅包含單一行為主體.

    對(duì)于接受的每條示例,將給與工作者0.4~1.2美元的酬金.最終收集到的m條人類行為示例可表示為A={(Aworker1(a11,a12,…,a1n)),(Aworker1(a21,a22,…,a2n)),…,(Aworker m(am1,am2,…,amn))}.

    3.2 情節(jié)圖及軌跡樹(shù)的生成

    情節(jié)圖的生成分為2個(gè)步驟:

    1) 利用相似度度量技術(shù)對(duì)句子進(jìn)行聚類,并提取情節(jié)點(diǎn).本文使用K-Means聚類方法對(duì)句子進(jìn)行聚類.

    2) 利用關(guān)聯(lián)分析技術(shù)分析情節(jié)點(diǎn)之間的先后關(guān)系、互斥關(guān)系,并構(gòu)造情節(jié)圖.

    對(duì)于情節(jié)點(diǎn)ei與ej,創(chuàng)建f(ei→ej)和f(ej→ei)這2個(gè)假設(shè),通過(guò)計(jì)算支持每種假設(shè)的樣本數(shù)量,得出ei與ej的先后關(guān)系.假設(shè)ei與ej出現(xiàn)在同一個(gè)文本中,且ei出現(xiàn)在ej之前,則認(rèn)為該文本支持f(ei→ej).借助于置信度計(jì)算公式,當(dāng)f(ei→ej)的置信度大于0.5時(shí),認(rèn)定ei發(fā)生在ej之前.

    (4)

    其中,ei→ej表示在同一個(gè)文本中ei先發(fā)生而ej后發(fā)生,|Sample|表示所有文本數(shù)量.

    對(duì)于情節(jié)點(diǎn)ei,ej,分別設(shè)置Ei,Ej,用于表明ei,ej是否出現(xiàn)在某一示例中,當(dāng)出現(xiàn)時(shí)Ei和Ej的取值為1,否則取值為0.根據(jù)下式計(jì)算M值,M是用于判定ei和ej是否存在互斥關(guān)系的函數(shù),如果M>0,則說(shuō)明ei,ej存在互斥關(guān)系.

    (5)

    在遵循情節(jié)點(diǎn)間關(guān)系的前提下,通過(guò)遍歷情節(jié)圖生成所有可能的路徑,便可得到軌跡樹(shù).

    3.3 元倫理行為提取及分級(jí)

    不同場(chǎng)景中的不同動(dòng)作可能具備相同的倫理意義,如偷水果、偷藥都是不符合倫理的偷盜行為.因此,為了高效擴(kuò)展智能體的行為空間,引入元倫理行為這一概念來(lái)表示含義較為相似的一類倫理行為.

    為了客觀、公平對(duì)元倫理行為分級(jí),采用眾包收集行為分級(jí)的建議,眾包任務(wù)設(shè)計(jì)如表1左邊2列所示:

    Table 1 Meta-Ethical Behavior Grading表1 元倫理行為分級(jí)

    對(duì)于眾包結(jié)果,基于多數(shù)投票機(jī)制[35]進(jìn)行數(shù)據(jù)聚合,最終結(jié)果如表1右邊2列所示.元倫理行為可分類為

    3.4 基于元倫理行為的強(qiáng)化學(xué)習(xí)

    獲得軌跡樹(shù)之后,需要將其映射到強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境中,完成倫理智能體訓(xùn)練.但是強(qiáng)化學(xué)習(xí)的訓(xùn)練環(huán)境是有限場(chǎng)景,無(wú)法羅列智能體可能遇到的全部情況.此外,在沒(méi)有先驗(yàn)知識(shí)的情況下,強(qiáng)化學(xué)習(xí)算法需要隨機(jī)探索狀態(tài)-動(dòng)作對(duì),并在進(jìn)行足量探索后逐步提升學(xué)習(xí)效率.為此,本文將元倫理行為及其分級(jí)作為先驗(yàn)知識(shí),提出了基于元倫理行為的強(qiáng)化學(xué)習(xí).

    Q-learning基于獎(jiǎng)勵(lì)塑造的Q值計(jì)算公式為

    (6)

    DQN算法中基于獎(jiǎng)勵(lì)塑造的損失函數(shù)為

    (7)

    (8)

    其中,F(s,a)為基于元倫理行為的獎(jiǎng)勵(lì)函數(shù),a|s代表智能體在s狀態(tài)下執(zhí)行的動(dòng)作a.

    顯而易見(jiàn),在基于元倫理行為的強(qiáng)化學(xué)習(xí)中,智能體不僅能夠獲得環(huán)境獎(jiǎng)勵(lì)(與軌跡樹(shù)相關(guān)),還能獲得與元倫理行為及其分級(jí)相關(guān)的獎(jiǎng)勵(lì).2種獎(jiǎng)勵(lì)機(jī)制相互結(jié)合,達(dá)到擴(kuò)展智能體行為空間、改善訓(xùn)練效果的目的.

    4 實(shí)驗(yàn)驗(yàn)證與分析

    為了驗(yàn)證本文所提方法的有效性,選擇生活中較為常見(jiàn)的“購(gòu)買處方藥”任務(wù),對(duì)倫理智能體進(jìn)行訓(xùn)練,并對(duì)結(jié)果進(jìn)行分析.在該實(shí)驗(yàn)中,智能體的最終目標(biāo)是攜帶處方藥回家,但其所有行為應(yīng)盡可能符合倫理.

    本文首先通過(guò)Q-learning算法對(duì)所提方法進(jìn)行驗(yàn)證,并分別使用3種獎(jiǎng)勵(lì)機(jī)制訓(xùn)練對(duì)比分析方法的有效性.其次使用DQN算法完成訓(xùn)練實(shí)驗(yàn),并與基于Q-learning算法的實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比分析.

    4.1 包數(shù)據(jù)收集

    針對(duì)“購(gòu)買處方藥”這一主題,本文利用Amazon Mechanical Turk平臺(tái),進(jìn)行了2次眾包,共收集到437條人類行為示例.綜合考慮主題、行為數(shù)量等因素,對(duì)收集到的行為示例進(jìn)行了篩選,保留了其中的179條(占總量的40%)作為實(shí)驗(yàn)樣本.實(shí)驗(yàn)樣本中的每條數(shù)據(jù)平均包含12個(gè)行為,數(shù)據(jù)可用性較高.

    4.2 情節(jié)圖及軌跡樹(shù)生成

    經(jīng)過(guò)情節(jié)點(diǎn)以及情節(jié)點(diǎn)間關(guān)系的學(xué)習(xí),本文買藥場(chǎng)景的情節(jié)圖如圖3所示,共包含32個(gè)情節(jié)點(diǎn).由于情節(jié)圖轉(zhuǎn)換的軌跡樹(shù)軌跡較多,本文在此展示部分轉(zhuǎn)換結(jié)果,如圖4所示.

    Fig. 3 Plot graph圖3 情節(jié)圖

    Fig. 4 Partial trajectory tree圖4 部分軌跡樹(shù)

    4.3 強(qiáng)化學(xué)習(xí)場(chǎng)景映射

    為完成倫理智能體訓(xùn)練,需要將其行為狀態(tài)映射到強(qiáng)化學(xué)習(xí)場(chǎng)景中,場(chǎng)景由狀態(tài)空間和動(dòng)作空間組成:1)狀態(tài)空間包括物理位置、交互狀態(tài)及所處軌跡樹(shù)位置.物理位置是指智能體所處的地點(diǎn)和位置坐標(biāo)信息;交互狀態(tài)是指智能體在與其他主體交互過(guò)程中的自身狀態(tài),如是否獲得或擁有錢、是否獲得或擁有處方;所處軌跡樹(shù)位置是指智能體當(dāng)前動(dòng)作所處的軌跡樹(shù)節(jié)點(diǎn)位置.2)動(dòng)作空間包括智能體在場(chǎng)景中可執(zhí)行的位移動(dòng)作和交互動(dòng)作.位移動(dòng)作指智能的上下左右移動(dòng)和進(jìn)出某地點(diǎn);交互動(dòng)作指智能體與其他主體間的信息交互.

    動(dòng)作空間的規(guī)模受制于狀態(tài)空間的規(guī)模,可通過(guò)窮舉法得出.狀態(tài)轉(zhuǎn)移隨動(dòng)作導(dǎo)致的狀態(tài)變化而變化,如位移動(dòng)作將使智能體的物理位置信息發(fā)生變化,交互動(dòng)作則使智能體的交互狀態(tài)(如付出金錢獲得藥品)和所處軌跡樹(shù)位置發(fā)生變化.

    Fig. 5 Overall scene圖5 全局場(chǎng)景

    圖5所示8×8平面為全局場(chǎng)景示意圖,包含家(H)、醫(yī)院(D)、銀行($)、藥店(+)四個(gè)局部場(chǎng)景及智能體(@1).任意局部場(chǎng)景均擁有更為詳細(xì)的場(chǎng)景布局,如圖6所示7×7平面為藥店場(chǎng)景,包含柜臺(tái)(?)、智能體(@1)、顧客(@2)、藥店員(@3)及出口(E).藥店員的職責(zé)是檢查處方并售賣藥品,因此智能體需要去醫(yī)院咨詢醫(yī)生獲得處方并攜帶處方購(gòu)買處方藥.@2的存在表明智能體須排隊(duì)購(gòu)藥,若繞過(guò)@2直接與@3溝通,則存在插隊(duì)行為.

    Fig. 6 Pharmacy scene圖6 藥店場(chǎng)景

    4.4 強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)

    為說(shuō)明本文所提倫理智能體訓(xùn)練方法的有效性,本文使用3種不同的獎(jiǎng)勵(lì)機(jī)制訓(xùn)練倫理智能體.

    機(jī)制1.當(dāng)智能體成功購(gòu)買處方藥時(shí)可獲得獎(jiǎng)勵(lì).該獎(jiǎng)勵(lì)機(jī)制無(wú)需先驗(yàn)知識(shí)指導(dǎo),成功購(gòu)買處方藥可獲得計(jì)數(shù)為10的獎(jiǎng)勵(lì),否則獲得計(jì)數(shù)為-10的獎(jiǎng)勵(lì).

    機(jī)制2.當(dāng)智能體的行為遵循軌跡樹(shù)路徑時(shí)可獲得獎(jiǎng)勵(lì).該獎(jiǎng)勵(lì)機(jī)制利用軌跡樹(shù)對(duì)智能體的行為進(jìn)行指導(dǎo),當(dāng)智能體執(zhí)行了軌跡樹(shù)中的動(dòng)作時(shí)可獲得計(jì)數(shù)為10的獎(jiǎng)勵(lì),否則獲得計(jì)數(shù)為-10的獎(jiǎng)勵(lì).

    機(jī)制3.當(dāng)智能體的行為遵循軌跡樹(shù)路徑時(shí)可獲得獎(jiǎng)勵(lì),且需要結(jié)合3.3節(jié)、3.4節(jié)中所提出的元倫理行為及其分級(jí)原則.

    4.5 實(shí)驗(yàn)結(jié)果及分析

    為驗(yàn)證4.4節(jié)所述的倫理智能體訓(xùn)練方法的可行性,本節(jié)分別采用Q-learning算法、DQN算法進(jìn)行實(shí)驗(yàn)驗(yàn)證及分析.

    4.5.1 基于Q-learning算法的實(shí)驗(yàn)驗(yàn)證

    采用Q-learning算法進(jìn)行實(shí)驗(yàn)驗(yàn)證時(shí),實(shí)驗(yàn)參數(shù)設(shè)置如表2所示:

    Table 2 Q-learning Experimental Parameters表2 Q-learning實(shí)驗(yàn)參數(shù)

    本文首先使用機(jī)制3訓(xùn)練倫理智能體,對(duì)使用機(jī)制3訓(xùn)練倫理智能體的過(guò)程進(jìn)行分析.由于智能體在醫(yī)院是否得到處方具有隨機(jī)性,本文分為得到處方以及沒(méi)有得到處方2種情況.圖7、圖8分別為得到處方、沒(méi)有得到處方情況下智能體的動(dòng)作變化情況,圖中縱坐標(biāo)為動(dòng)作執(zhí)行數(shù)量與結(jié)果之比(即動(dòng)作執(zhí)行率).

    Fig. 7 Action execution rate when prescription isobtained(Q-learning)圖7 得到處方的動(dòng)作執(zhí)行率(Q-learning)

    如圖7所示,買藥曲線隨訓(xùn)練回合數(shù)逐漸上升并趨于平穩(wěn),表明智能體已經(jīng)從中學(xué)會(huì)如何買藥;代表?yè)屽X和插隊(duì)的曲線在訓(xùn)練初期有小幅度上升后立即下降,表明智能體對(duì)非倫理行為進(jìn)行了嘗試,并在得到懲罰后避開(kāi)該類行為;異常結(jié)束曲線訓(xùn)練初期接近于1表明智能體不斷嘗試各種動(dòng)作,并超過(guò)了回合最大動(dòng)作數(shù);返還多余金錢的曲線前期動(dòng)作執(zhí)行率為0,此時(shí)智能體還未學(xué)會(huì)支付金錢;幫助老人的曲線收斂得最快,因?yàn)榘磦惱矸旨?jí)機(jī)制幫助老人可以獲得相應(yīng)獎(jiǎng)勵(lì),曲線上升并收斂說(shuō)明了倫理分級(jí)機(jī)制的有效性.

    從圖8可以看出,隨著訓(xùn)練回合數(shù)的增加,偷藥、搶錢、插隊(duì)等動(dòng)作的執(zhí)行率顯著下降并趨于穩(wěn)定,說(shuō)明智能體獲得了執(zhí)行倫理行為的能力.在訓(xùn)練前期,攻擊藥店員的動(dòng)作執(zhí)行率與被藥店員拒絕出售藥品的動(dòng)作執(zhí)行率成正比,說(shuō)明智能體尚未獲得執(zhí)行倫理行為的能力;但隨著訓(xùn)練回合的增加,被藥店員拒絕出售藥品的動(dòng)作執(zhí)行率顯著提高(接近1),而攻擊藥店員的動(dòng)作執(zhí)行率卻接近為0,說(shuō)明智能體獲得了執(zhí)行倫理行為的能力.

    Fig. 8 Action execution rate when prescription isn’tobtained(Q-learning)圖8 沒(méi)有得到處方的動(dòng)作執(zhí)行率(Q-learning)

    下面針對(duì)4.4節(jié)所述的3種獎(jiǎng)勵(lì)機(jī)制做對(duì)比實(shí)驗(yàn),每訓(xùn)練1 000回合測(cè)試10次,共統(tǒng)計(jì)1 000次測(cè)試結(jié)果.在實(shí)驗(yàn)結(jié)果分析時(shí),以預(yù)約、搶錢、插隊(duì)、提供假處方、偷藥、攻擊藥店員、買藥、遇到多余金錢時(shí)返還與否、遇到老人時(shí)幫助與否、被藥店員拒絕出售藥品、異常結(jié)束這14個(gè)行為或結(jié)果作為評(píng)價(jià)指標(biāo),分析各獎(jiǎng)勵(lì)機(jī)制的差異.實(shí)驗(yàn)結(jié)果如圖9所示.

    Fig. 9 Comparison of results under different mechanisms圖9 不同獎(jiǎng)勵(lì)機(jī)制下的實(shí)驗(yàn)結(jié)果對(duì)比

    由圖9可見(jiàn),采用機(jī)制1對(duì)智能體進(jìn)行獎(jiǎng)勵(lì)時(shí),由于不對(duì)智能體買藥過(guò)程中的行為進(jìn)行倫理層面的指導(dǎo),導(dǎo)致其執(zhí)行了較多違背倫理的行為,如偷藥1 000次、攻擊店員546次,而在離開(kāi)家后的探索中197次遇見(jiàn)需要幫助的老人,其中44次給予幫助.

    采用機(jī)制2對(duì)智能體進(jìn)行獎(jiǎng)勵(lì)時(shí),智能體為了獲得更多獎(jiǎng)勵(lì),會(huì)執(zhí)行較多軌跡樹(shù)中出現(xiàn)的行為,如在去醫(yī)院咨詢醫(yī)生前執(zhí)行預(yù)約行為1 000次,保證了智能體執(zhí)行任務(wù)的邏輯順序.但是對(duì)軌跡樹(shù)中未出現(xiàn)的行為仍然不具備判斷能力,如497次收到收銀員找回的多余零錢、493次未執(zhí)行返還行為(占比約99.2%).在離開(kāi)家后的探索中,1 000次遇見(jiàn)需要幫助的老人,其中52次給予幫助.

    采用機(jī)制3對(duì)智能體進(jìn)行獎(jiǎng)勵(lì)時(shí),智能體在軌跡樹(shù)和元倫理行為分級(jí)的雙重指導(dǎo)下,具備更高效的倫理行為學(xué)習(xí)能力,執(zhí)行了更多的倫理行為.如486次收到收銀員找回的多余零錢,455次執(zhí)行了返還行為(占比約93.6%).在離開(kāi)家后的探索中,1 000次遇見(jiàn)需要幫助的老人,均給予了幫助.

    4.5.2 基于DQN算法的實(shí)驗(yàn)驗(yàn)證

    采用DQN算法進(jìn)行實(shí)驗(yàn)驗(yàn)證時(shí),實(shí)驗(yàn)參數(shù)設(shè)置如表3所示:

    Table 3 DQN Experimental Parameters表3 DQN實(shí)驗(yàn)參數(shù)

    與Q-learning算法一致,基于DQN算法的實(shí)驗(yàn)同樣分為得到處方以及沒(méi)有得到處方2種情況.圖10、圖11曲線的走勢(shì)與圖7、圖8較為相似,說(shuō)明在使用DQN算法進(jìn)行智能體訓(xùn)練時(shí),智能體最終能夠獲得執(zhí)行符合倫理行為的能力,即能夠遵守人類道德與倫理規(guī)范,驗(yàn)證了所提方法的合理有效性.但是不難發(fā)現(xiàn),使用DQN算法時(shí),完成智能體訓(xùn)練所需的回合數(shù)更多.

    Fig. 10 Action execution rate when prescription is obtained(DQN)圖10 得到處方的動(dòng)作執(zhí)行率(DQN)

    Fig. 11 Action execution rate when prescriptionisn’t obtained(DQN)圖11 沒(méi)有得到處方的動(dòng)作執(zhí)行率(DQN)

    4.5.3 算法間的對(duì)比實(shí)驗(yàn)

    為進(jìn)一步說(shuō)明Q-learning與DQN這2種算法在倫理智能體訓(xùn)練方面的差異,本節(jié)進(jìn)行更深入的對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)采用的對(duì)比指標(biāo)為平均獎(jiǎng)勵(lì),即智能體執(zhí)行一定行為后所獲得獎(jiǎng)勵(lì)的平均值,該指標(biāo)越高說(shuō)明智能體能夠選擇更合乎倫理的動(dòng)作.為減少實(shí)驗(yàn)的偶然性對(duì)結(jié)果的影響,本文進(jìn)行了100次重復(fù)的實(shí)驗(yàn),并利用實(shí)驗(yàn)所得數(shù)據(jù)的均值繪制了平均獎(jiǎng)勵(lì)圖,如圖12所示.

    Fig. 12 Average reward of two algorithms圖12 2種算法的平均獎(jiǎng)勵(lì)

    由實(shí)驗(yàn)結(jié)果可見(jiàn),Q-learning算法的訓(xùn)練效果整體好于DQN算法,主要表現(xiàn)在2個(gè)方面:Q-learning算法收斂速度快且比較平穩(wěn);Q-learning算法在收斂后的平均得分高于DQN算法.主要原因有2個(gè)方面:

    1) 對(duì)Q-table的更新效率存在差異.Q-learning算法借助于Q-table描述“狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)”情況,智能體通過(guò)不斷迭代更新并查找該表,選擇獎(jiǎng)勵(lì)最高的動(dòng)作執(zhí)行.Q-learning算法將獲得的獎(jiǎng)勵(lì)通過(guò)式(1)對(duì)Q-table進(jìn)行更新,該方式直接有效并能快速將新的Q-table應(yīng)用到下一次探索中.DQN算法針對(duì)的是狀態(tài)動(dòng)作空間較大、遍歷Q-table復(fù)雜度較高的情況,此時(shí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量地輸入數(shù)據(jù),并通過(guò)梯度下降的方法調(diào)整模型參數(shù)以擬合Q-table,Q-table擬合的不精確性導(dǎo)致訓(xùn)練速度慢,且并非總能以最優(yōu)方式完成任務(wù).

    2) 未來(lái)獎(jiǎng)勵(lì)的獲取受到不同程度的干擾.本文中倫理智能體執(zhí)行的是一系列連貫的動(dòng)作,只有完成了前面部分動(dòng)作才能執(zhí)行后續(xù)動(dòng)作.Q-learning算法初始Q-table為空,不存在干擾未來(lái)獎(jiǎng)勵(lì)的因素.深度神經(jīng)網(wǎng)絡(luò)在構(gòu)建網(wǎng)絡(luò)模型時(shí)的參數(shù)隨機(jī)初始化及梯度更新時(shí)由于參數(shù)調(diào)整所產(chǎn)生的誤差,對(duì)當(dāng)前狀態(tài)存在擬合的不準(zhǔn)確性,使得未來(lái)獎(jiǎng)勵(lì)的獲取受到一定的干擾,尤其是在進(jìn)行前半部分較慢的訓(xùn)練速度影響了整體的收斂速度.

    綜上,強(qiáng)化學(xué)習(xí)能夠訓(xùn)練智能體執(zhí)行倫理行為的能力,但Q-learning算法總體表現(xiàn)更好,DQN雖然能完成最終任務(wù),但訓(xùn)練效果稍差.

    5 總 結(jié)

    智能體在人類生活中擔(dān)任越來(lái)越重要的角色,承擔(dān)越來(lái)越復(fù)雜的任務(wù),不但應(yīng)該具備高效完成預(yù)定任務(wù)的能力,而且在執(zhí)行任務(wù)的過(guò)程所采取的行為應(yīng)符合倫理.基于這一出發(fā)點(diǎn),提出了倫理智能體訓(xùn)練方法,并分別借助Q-learning算法和DQN算法完成了模擬實(shí)驗(yàn),該實(shí)驗(yàn)證明所提方法是有效的;此外,對(duì)Q-learning算法和DQN算法的訓(xùn)練效果進(jìn)行了對(duì)比實(shí)驗(yàn),證明了任務(wù)搜索空間不大時(shí)不必使用DQN算法,Q-learning算法的效果反而更好.

    本文雖然針對(duì)倫理智能體的訓(xùn)練提供了解決方案,但是所提方案較為初步,仍需要進(jìn)一步改進(jìn).可開(kāi)展的后續(xù)研究有:

    1) 本文所提取的元倫理行為較為粗糙、粒度不夠細(xì),無(wú)法完全涵蓋復(fù)雜的人類行為,有必要開(kāi)展更具代表性的元倫理行為分類及歸納研究;

    2) 本文實(shí)驗(yàn)場(chǎng)景設(shè)置相對(duì)簡(jiǎn)單,未考慮特殊情況下非倫理行為的合理性,如闖紅燈是非倫理行為,但“為救人而闖紅燈”卻是合理的,因此可以針對(duì)更加復(fù)雜情形下的倫理行為判定展開(kāi)研究,并進(jìn)行實(shí)驗(yàn)驗(yàn)證;

    3) 本文假定訓(xùn)練環(huán)境中的其他主體(藥店員、銀行職員等)均執(zhí)行符合倫理的行為,并以此為基礎(chǔ)完成了單倫理智能體的訓(xùn)練,但是真實(shí)環(huán)境中可能存在多智能體且不具備倫理判別能力,因此有必要研究多智能體協(xié)同合作時(shí)的倫理問(wèn)題,以及多倫理智能體的同步訓(xùn)練方法;

    4) 在實(shí)驗(yàn)驗(yàn)證方面,因本文方法與其他倫理智能體訓(xùn)練方法在機(jī)器學(xué)習(xí)算法、方案設(shè)計(jì)、場(chǎng)景搭建等方面存在較大差異,因此未進(jìn)行直接對(duì)比,后續(xù)可在實(shí)驗(yàn)設(shè)計(jì)方面進(jìn)行改進(jìn),增加不同研究方法間的對(duì)比分析.

    作者貢獻(xiàn)聲明:古天龍負(fù)責(zé)提出研究選題,提供設(shè)備及指導(dǎo)性支持;高慧負(fù)責(zé)調(diào)研整理文獻(xiàn),設(shè)計(jì)研究方案及實(shí)施研究過(guò)程;李龍負(fù)責(zé)設(shè)計(jì)論文框架,起草及修訂論文;包旭光負(fù)責(zé)修訂及終審論文;李云輝負(fù)責(zé)采集整理數(shù)據(jù)及實(shí)驗(yàn)結(jié)果分析.

    猜你喜歡
    軌跡倫理動(dòng)作
    《心之死》的趣味與倫理焦慮
    軌跡
    軌跡
    護(hù)生眼中的倫理修養(yǎng)
    活力(2019年19期)2020-01-06 07:37:00
    軌跡
    動(dòng)作描寫(xiě)要具體
    畫(huà)動(dòng)作
    進(jìn)化的軌跡(一)——進(jìn)化,無(wú)盡的適應(yīng)
    動(dòng)作描寫(xiě)不可少
    非同一般的吃飯動(dòng)作
    庐江县| 襄城县| 远安县| 砀山县| 秀山| 奉节县| 北川| 祁东县| 浙江省| 古丈县| 清远市| 黎川县| 淮阳县| 黄冈市| 云霄县| 林口县| 湘阴县| 孝感市| 信丰县| 房产| 兴仁县| 临清市| 盈江县| 庆元县| 泸西县| 左权县| 黎平县| SHOW| 巴塘县| 建阳市| 贵定县| 大连市| 高尔夫| 康乐县| 陆河县| 丽水市| 新乡市| 钟山县| 凤城市| 永春县| 瑞丽市|