黃向陽(yáng) 張 娜 王旭仁 彭 巖
1(首都師范大學(xué)信息工程學(xué)院 北京 100048)
2(首都師范大學(xué)管理學(xué)院 北京 100048)
?
一種用于部分可觀察隨機(jī)域的情感計(jì)算模型
黃向陽(yáng)1張娜1王旭仁1彭巖2
1(首都師范大學(xué)信息工程學(xué)院北京 100048)
2(首都師范大學(xué)管理學(xué)院北京 100048)
摘要在計(jì)算機(jī)游戲中,富有情感可以使非玩家角色表現(xiàn)得更加真實(shí),同時(shí)增加游戲的趣味性以吸引更多的游戲愛(ài)好者參與。在部分可觀察不確定環(huán)境提出一種基于規(guī)劃的情感計(jì)算模型。首先,基于部分可觀察馬爾科夫決策過(guò)程提出一種成本約束的目標(biāo)導(dǎo)向行為規(guī)劃技術(shù)用于規(guī)劃智能體行為;其次,在規(guī)劃執(zhí)行過(guò)程中結(jié)合評(píng)價(jià)與再評(píng)價(jià)的雙層評(píng)價(jià)理論計(jì)算生成情感;最后,結(jié)合特定情境設(shè)計(jì)兩組對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)表明該模型能夠提高智能體的逼真度且更加吸引玩家。
關(guān)鍵詞情感計(jì)算目標(biāo)導(dǎo)向行為規(guī)劃部分可觀察馬爾科夫決策過(guò)程雙層評(píng)價(jià)理論
AN AFFECTIVE COMPUTING MODEL FOR PARTIALLY OBSERVABLE STOCHASTIC DOMAIN
Huang Xiangyang1Zhang Na1Wang Xuren1Peng Yan2
1(School of Information Engineering , Capital Normal University, Beijing 100048, China)2(School of Management, Capital Normal University, Beijing 100048, China)
AbstractEmbodiment of emotions can make non-player characters more realistic in computer games, and increase the fun of the game simultaneously to attract more players involved in. In the paper we present a planning-based affective computing model in partially observable uncertain environment. First, based on partially observable Markov decision processes we propose a goal-oriented action planning technique with costs-constraint for planning the actions of intelligent agents; then we use two-level theory of cognitive appraisal, appraisal and reappraisal, to calculate the emotion during planning execution process; finally we design two groups of comparative experiments in combination with specific situations. Experiments suggest that the model can improve the believability of agents and is more attractive to players.
KeywordsAffective computingGoal-oriented action planningPartially observable Markov decision processesTwo-level theory of cognitive appraisal
0引言
計(jì)算機(jī)游戲中最初出現(xiàn)“智能”是參與游戲的非玩家角色NPCs(None-Player Characters)被設(shè)計(jì)成“游戲邏輯”的一部分,通常是指一段“聰明”的程序。隨著人們逐漸認(rèn)識(shí)到人工智能在游戲領(lǐng)域的重要性,一些研究者認(rèn)為此類非玩家角色在未來(lái)應(yīng)該能夠?qū)崿F(xiàn)“自治”,即通過(guò)“虛擬軀體”與“虛擬世界”進(jìn)行交互,通過(guò)各種各樣的規(guī)劃和學(xué)習(xí)算法來(lái)調(diào)整自身適應(yīng)環(huán)境[1-3]。
此外,一些專家發(fā)現(xiàn)運(yùn)用適當(dāng)?shù)纳飳W(xué)知識(shí)可以使自治角色的行為表現(xiàn)更加真實(shí)可信。一些研究者認(rèn)為:情感無(wú)疑是真實(shí)性與可信度的關(guān)鍵因素,即有情感的非玩家角色表現(xiàn)出的行為更加真實(shí),使游戲參與者更能體會(huì)到是與“人”而不是死板的計(jì)算機(jī)進(jìn)行對(duì)峙。這不僅增加游戲的趣味性,也提高了其娛樂(lè)價(jià)值與商業(yè)價(jià)值[4]。
行為規(guī)劃技術(shù)常用于智能體的物理行為選擇,而情感的產(chǎn)生則依賴于情感評(píng)價(jià)理論?;谌四X信息處理過(guò)程的研究,智能體或機(jī)器人在復(fù)雜環(huán)境中常采用混合體系結(jié)構(gòu)進(jìn)行行為選擇,一般分為兩層:反應(yīng)層和慎思層。反應(yīng)層支持行為選擇機(jī)制速度較快,而慎思層則支持形成最優(yōu)化的行為[5]。分層理論對(duì)應(yīng)的情感評(píng)價(jià)理論則是“多層情感評(píng)價(jià)理論”。
本文將智能體的物理行為和情感行為統(tǒng)稱為行為,并基于部分可觀察馬爾科夫決策過(guò)程POMDP(Partially Observable Markov Decision Process)和分層理論提出一種基于規(guī)劃的情感模型PEM(Planning-Emotion Model)。由于智能體一般為了某一目標(biāo)而設(shè)計(jì)的,并且在實(shí)際的規(guī)劃執(zhí)行過(guò)程中往往會(huì)受到一些約束(時(shí)間和資源等),所以本文基于部分可觀察馬爾科夫決策過(guò)程提出一類成本約束的目標(biāo)導(dǎo)向行為規(guī)劃CGOAP(Costs-constrained Goal Oriented Action Planning)。該規(guī)劃可以計(jì)算出智能體在某一狀態(tài)時(shí)應(yīng)該選擇的最優(yōu)動(dòng)作以及未來(lái)可以到達(dá)目標(biāo)的概率(目標(biāo)滿意度),同時(shí)根據(jù) “觀察” 計(jì)算出“動(dòng)機(jī)一致性”與“責(zé)任”等評(píng)價(jià)變量的值。其中,“動(dòng)機(jī)一致性”、“責(zé)任”等變量會(huì)用于計(jì)算產(chǎn)生反應(yīng)式情感,目標(biāo)滿意度則會(huì)影響到再評(píng)價(jià)過(guò)程,進(jìn)而計(jì)算產(chǎn)生慎思式情感。最后,本文運(yùn)用PEM構(gòu)建了情感自主角色AACs(Affective Autonomous Characters), 并結(jié)合特定場(chǎng)景進(jìn)行實(shí)驗(yàn)從而對(duì)PEM的有效性進(jìn)行驗(yàn)證。
1相關(guān)理論
1.1部分可觀察馬爾科夫決策過(guò)程
游戲世界中充滿不確定性,如NPC突然開(kāi)槍射擊玩家,玩家可能被擊中也可能成功躲避。另外,自主角色觀察世界采用的方式與玩家一致,即依靠自己的主動(dòng)性獲取局部信息。針對(duì)這種行為結(jié)果的不確定性以及觀察的不完整性,本文選擇部分可觀察馬爾可夫決策過(guò)程(POMDP)進(jìn)行建模。POMDP為部分可觀察環(huán)境下行為規(guī)劃提供了常用的框架,即自主角色即使觀察到非精確信息也能預(yù)測(cè)行為動(dòng)作帶來(lái)的后果。POMDP可以用六元組表示[6],其中S是狀態(tài)集,O是觀察集,A是行為集,狀態(tài)轉(zhuǎn)換函數(shù)如下:
T:S × A × S → [0,1]
(1)
其中由狀態(tài)s執(zhí)行動(dòng)作a到狀態(tài)s′的概率可表示為:
T(s,a,s′)=Pr(s′|s,a)
觀察函數(shù)如下:
Z:S×A×O→[0,1]
(2)
其中執(zhí)行動(dòng)作a且結(jié)果狀態(tài)是s時(shí)觀察到o的概率如下:
Z(s,a,s′)=Pr(o|a,s)
獎(jiǎng)賞或成本函數(shù)如下:
R:S×A→R
(3)
其中R(s,a)是指在狀態(tài)s執(zhí)行動(dòng)作a所期望的獎(jiǎng)賞或花費(fèi)成本。
由于環(huán)境是不可觀察的,可通過(guò)定義|S| 維“信念狀態(tài)”將非馬爾可夫問(wèn)題轉(zhuǎn)化為馬爾可夫問(wèn)題[6]。其中,b(s)表示狀態(tài)s的概率,信念狀態(tài)可以根據(jù)基本概率理論進(jìn)行遞歸更新。對(duì)于信念狀態(tài)b和動(dòng)作a以及觀察o(Pr(o|b,a)>0),計(jì)算出新的信念狀態(tài)b′,計(jì)算公式如下:
b′(s′)=Z(s′,a,o)∑s∈Sb(s)T(s,a,s′)/Pr(o|b,a)
(4)
其中:
Pr(o|b,a)=∑s∈S∑s∈Sb(s)T(s,a,s′)Z(s′a,o)
接下來(lái)是自治角色如何根據(jù)信念狀態(tài)選擇執(zhí)行的動(dòng)作來(lái)優(yōu)化性能。用Vt(b)表示在時(shí)間t和信念狀態(tài)b下,角色期望未來(lái)能得到的總的折扣獎(jiǎng)賞,根據(jù)Bellman優(yōu)化理論可得:
(5)
其中:
然而,用式(5)求解無(wú)窮步規(guī)劃問(wèn)題時(shí)只能針對(duì)很小的問(wèn)題,并且在現(xiàn)實(shí)世界的規(guī)劃過(guò)程中會(huì)存在著一些約束,如規(guī)劃時(shí)長(zhǎng)、可用資源數(shù)量等。因此,本文在POMDP的基礎(chǔ)上定義了一類成本約束的目標(biāo)導(dǎo)向行為規(guī)劃模型(CGOAP)來(lái)指導(dǎo)自主角色選擇行為動(dòng)作。CGOAP 針對(duì)的是部分可觀察不確定環(huán)境下的有限步,含約束條件的規(guī)劃問(wèn)題。與傳統(tǒng)所期望的最大化長(zhǎng)期折扣獎(jiǎng)賞的目標(biāo)不同,CGOAP關(guān)心的是在定量成本約束下,自主角色未來(lái)到達(dá)目標(biāo)的最大可能性。
1.2評(píng)價(jià)理論
大多數(shù)的情感理論都專注研究“認(rèn)知”與“情感”之間的關(guān)系[7-9],并得出特定情境會(huì)激發(fā)不同的情感反應(yīng)這一結(jié)論。換言之,情感反應(yīng)依賴于認(rèn)知評(píng)價(jià)。情感類型可以由一個(gè)或多個(gè)評(píng)價(jià)變量決定,常見(jiàn)的評(píng)價(jià)變量包括:目標(biāo)一致性、責(zé)任和概率等。其中,概率是指未來(lái)實(shí)現(xiàn)目標(biāo)的可能性。Chartrand等人指出認(rèn)知評(píng)價(jià)并非只指復(fù)雜的認(rèn)知過(guò)程,在到達(dá)某個(gè)閾值時(shí)情感可以被觸發(fā)產(chǎn)生而非必須經(jīng)過(guò)“有意識(shí)”的處理過(guò)程[10]。Lazarus理論將認(rèn)知評(píng)價(jià)過(guò)程細(xì)分為三個(gè)子評(píng)價(jià)過(guò)程:基本評(píng)價(jià)、次級(jí)評(píng)價(jià)以及再評(píng)價(jià)。Smith和Lazarus更進(jìn)一步劃分出六個(gè)評(píng)價(jià)部分,其中兩個(gè)部分包括基本評(píng)價(jià),另外四個(gè)部分則包含次級(jí)評(píng)價(jià)[11]。
Damasio在神經(jīng)學(xué)證據(jù)基礎(chǔ)上將情感劃分為主情感和次情感[12]。主情感也稱為反應(yīng)式情感,是人類應(yīng)對(duì)外部環(huán)境尤其是危險(xiǎn)事件時(shí)一種直接的、原始的、自適應(yīng)的應(yīng)急情感;次情感也稱為慎思式情感,通常是建立在人們對(duì)主情感的有意識(shí)的價(jià)值判斷上的,其產(chǎn)生需要一個(gè)過(guò)程。
由于多層情感理論與人類大腦分層處理信息過(guò)程相吻合,因此比單一的評(píng)價(jià)過(guò)程更合理且更容易解釋人類生活中常見(jiàn)的一些情感現(xiàn)象。
人類很多情感的產(chǎn)生源于對(duì)某事件的期望,當(dāng)目標(biāo)事件實(shí)現(xiàn)的概率較高時(shí)人類會(huì)產(chǎn)生正向情感(積極情感),反之會(huì)產(chǎn)生負(fù)向情感(消極情感)。本文將CGOAP和多層情感計(jì)算相結(jié)合來(lái)創(chuàng)建具有情感的自主角色AACs。AACs在追尋目標(biāo)的過(guò)程中,每執(zhí)行一個(gè)動(dòng)作,目標(biāo)實(shí)現(xiàn)的概率(通過(guò)CGOAP計(jì)算得出)可能會(huì)發(fā)生變化,從而它的情感也會(huì)隨著變化,這就是所謂的情感動(dòng)力學(xué)。
2集成CGOAP的情感計(jì)算模型
本文采用主次情感的雙層情感模型并結(jié)合CGOAP提出一類適用于部分可觀察不確定環(huán)境的情感計(jì)算模型,如圖1所示,也稱之為基于規(guī)劃的情感模型PEM。PEM從感知層和認(rèn)知層兩個(gè)層面來(lái)處理刺激,且對(duì)刺激的評(píng)估過(guò)程是由感知層上升到認(rèn)知層[13]。評(píng)價(jià)過(guò)程建立在自發(fā)的感知層,再評(píng)價(jià)過(guò)程是建立在深思熟慮的認(rèn)知層上的。對(duì)PEM來(lái)說(shuō),外界對(duì)角色的刺激會(huì)形成一種原始觀察(基本觀察),原始觀察有可能會(huì)觸發(fā)產(chǎn)生反應(yīng)式情感,但未必會(huì)影響到角色的行為規(guī)劃。原始觀察累積會(huì)形成高級(jí)觀察(抽象觀察),CGOAP根據(jù)當(dāng)前的信念狀態(tài)以及高級(jí)觀察計(jì)算出未來(lái)可以實(shí)現(xiàn)目標(biāo)的概率。情感評(píng)價(jià)系統(tǒng)將利用計(jì)算出的概率對(duì)當(dāng)前產(chǎn)生的反應(yīng)式情感進(jìn)行再評(píng)價(jià)從而產(chǎn)生次級(jí)情感,而反應(yīng)式情感的產(chǎn)生則是依賴于CGOAP中通過(guò)基本觀察計(jì)算出的“動(dòng)機(jī)一致性”和“責(zé)任”。反應(yīng)式情感強(qiáng)度大但衰減速度快,而慎思式情感強(qiáng)度小但衰減速度慢且可以保持到下一規(guī)劃步到來(lái)。在每一個(gè)決策點(diǎn),CGOAP除了計(jì)算出未來(lái)能實(shí)現(xiàn)目標(biāo)的概率,還能計(jì)算出當(dāng)前應(yīng)該采取的行為。在我們的模型中行為是由基本動(dòng)作序列組成,而執(zhí)行每一個(gè)基本動(dòng)作會(huì)對(duì)虛擬世界產(chǎn)生作用,繼而又產(chǎn)生新的原始觀察以及反應(yīng)式情感,如此循環(huán)往復(fù)形成情感動(dòng)力學(xué)。在AACs的情感表現(xiàn)過(guò)程中,次級(jí)情感相對(duì)比較穩(wěn)定(類似于情緒),而反應(yīng)式情感則是不斷地打斷次級(jí)情感,但消逝速度很快。
圖1 集成CGOAP的情感計(jì)算模型
2.1CGOAP
本文基于POMDP提出了一種CGOAP模型,即在有限成本的基礎(chǔ)上,計(jì)算出AACs未來(lái)實(shí)現(xiàn)目標(biāo)的最大概率和當(dāng)前應(yīng)采取的最優(yōu)行為。CGOAP由(S,A,T,O,Z,b0,c0,g,C)九元組表示,其中b0是初始信念狀態(tài),c0是指初始成本,n維向量g表示各個(gè)狀態(tài)成為目標(biāo)狀態(tài)的概率,C是約束函數(shù),其他元素的定義與POMDP相同。CGOAP中每個(gè)行為動(dòng)作都有相關(guān)的成本,用C(a) > 0表示,且對(duì)于任何信念狀態(tài)b可執(zhí)行的動(dòng)作集合均滿足A(b)?A∪Λ,其中Λ表示在信念狀態(tài)b上沒(méi)有執(zhí)行任何動(dòng)作。依據(jù)Bellman最優(yōu)化理論可得公式如下:
Vt(b,c)=maxa∈AOt(b,c,a)
(6)
π(b,c,t)=argmaxa∈AOt(b,c,a)
(7)
Ot(b,c,Λ)=b′·g
(8)
其中,c是剩余可用成本,Ot(b,c,a)表示在時(shí)刻t信念為b,且可用成本為c的情況下選擇執(zhí)行動(dòng)作a未來(lái)可到達(dá)目標(biāo)的最大概率。規(guī)劃的目標(biāo)是計(jì)算V0(b0,c0)的最大值以及相應(yīng)的行為規(guī)劃π(b,c,t)。γ<1表示隨著時(shí)間的推移實(shí)現(xiàn)目標(biāo)的難度加大。
對(duì)于復(fù)雜系統(tǒng)(如游戲)要想給出一個(gè)完美的因果關(guān)系律是不現(xiàn)實(shí)的。為了滿足實(shí)時(shí)性,通常我們會(huì)在一個(gè)較高層次上建模。對(duì)于CGOAP,此時(shí)觀察o是一種高級(jí)觀察(抽象觀察),動(dòng)作a是由基本動(dòng)作序列構(gòu)成的一種復(fù)雜動(dòng)作(行為),于是在狀態(tài)s0執(zhí)行動(dòng)作a到達(dá)狀態(tài)s可表示為:s=do(αn, …,do(α1,s0)),其中<α1,…,αn>是指構(gòu)成行為a的基本動(dòng)作序列。一般而言,執(zhí)行完每個(gè)基本動(dòng)作都會(huì)產(chǎn)生一個(gè)原始觀察。高級(jí)觀察是通過(guò)對(duì)原始觀察序列分析得到的。
2.2認(rèn)知評(píng)價(jià)
在計(jì)算機(jī)科學(xué)領(lǐng)域中,認(rèn)知評(píng)價(jià)是情感生成的重要方法,如OCC模型給出了22種情感的評(píng)價(jià)方法[14]。本文基于Ekman基本情感理論運(yùn)用PEM實(shí)現(xiàn)六類情感(快樂(lè)、悲傷、憤怒、擔(dān)心、失望和驚喜)的評(píng)價(jià)。Ekman等認(rèn)為人類有六類基本情感:快樂(lè)、悲傷、憤怒、擔(dān)心、厭惡和驚喜。由于AACs是目標(biāo)導(dǎo)向的,因此本文將“回避”動(dòng)機(jī)相關(guān)的負(fù)面情感“厭惡”換成“趨近”動(dòng)機(jī)相關(guān)的負(fù)面情感“失望”,同樣的道理,將fear翻譯成擔(dān)心,surprise翻譯成驚喜。本文在反應(yīng)式情感里考慮三類情感:快樂(lè)、悲傷和憤怒;而在慎思類情感里考慮快樂(lè)、驚喜、悲傷、擔(dān)心和失望五類情感。反應(yīng)式情感和慎思式情感中都存在 “快樂(lè)”和“悲傷”,但卻是相互區(qū)別的。相同的情感在反應(yīng)式情感中一般強(qiáng)度較高、延續(xù)的時(shí)間短并且表現(xiàn)方式比較明顯,而在慎思式情感中則恰恰相反。
本文用“動(dòng)機(jī)一致性”和“責(zé)任”來(lái)區(qū)分反應(yīng)式情感。AACs的動(dòng)機(jī)是實(shí)現(xiàn)目標(biāo),因此可以用行為是否有利于達(dá)到目標(biāo)來(lái)衡量該行為是否和動(dòng)機(jī)一致。本文采用一個(gè)更簡(jiǎn)單的方法,即“達(dá)到了目標(biāo)”則滿足動(dòng)機(jī)一致性,“沒(méi)有達(dá)到目標(biāo)”則不滿足動(dòng)機(jī)一致性。我們用“動(dòng)機(jī)一致性”這一評(píng)價(jià)變量來(lái)區(qū)分“快樂(lè)”和“悲傷”,對(duì)于“憤怒”則還需考慮行為的主體,如果自己的損失是別人造成的,則產(chǎn)生憤怒。
對(duì)于慎思式情感,可以采用評(píng)價(jià)變量“概率”來(lái)區(qū)分。當(dāng)未來(lái)到達(dá)目標(biāo)的概率不低于0.5時(shí),AACs會(huì)表現(xiàn)出正向情感(以快樂(lè)為基調(diào)的情感);當(dāng)?shù)陀?.5時(shí),負(fù)向情感(以悲傷為基調(diào)的情感)會(huì)產(chǎn)生[14-16]。OCC模型認(rèn)為正向情感(快樂(lè)和驚喜)或者負(fù)向情感(悲傷、擔(dān)心和失望)它們之間的區(qū)別僅僅是強(qiáng)度的不同,并且這些情感可以通過(guò)概率區(qū)間區(qū)分,我們用模糊變量來(lái)表示這些概率區(qū)間。本文用一個(gè)兩階段決策樹(shù)來(lái)表示PEM在決策點(diǎn)時(shí)的情感評(píng)價(jià)過(guò)程,如圖2所示(更多的反應(yīng)式情感是在非決策點(diǎn)獲得原始觀察時(shí)產(chǎn)生的)。
圖2 雙層認(rèn)知評(píng)價(jià)過(guò)程
2.3情感表達(dá)
情感表達(dá)的形式多種多樣,如面部表情、肢體語(yǔ)言、行為表現(xiàn)和語(yǔ)言聲音等。情感可以通過(guò)外部動(dòng)作和聲音直接被人察覺(jué),另外對(duì)面部表情地特寫(xiě)也是常用的情感傳遞方式。ACCs將通過(guò)動(dòng)作、聲音和表情等多維度混合方式表達(dá)和傳遞情感。
3應(yīng)用實(shí)驗(yàn)
基于上述情感計(jì)算模型PEM創(chuàng)作一段游戲動(dòng)畫(huà),然后通過(guò)主觀評(píng)價(jià)實(shí)驗(yàn)來(lái)驗(yàn)證PEM的有效性。
3.1故事情節(jié)
很久以前,在一個(gè)山谷里住著一群牧羊人,他們過(guò)著幸福平靜的生活,然而一天夜里一個(gè)怪物突然掠走了他們所有羊群,牧民們很傷心,一位勇士決心去除掉這個(gè)怪物救回牧民的羊群。翌日,勇士循跡來(lái)到了怪物地盤(pán),但通往怪物洞穴的路陰森迷幻,并不斷有小怪物騷擾勇士,消耗勇士的體力。圖3是游戲故事情節(jié)的一些片段,其中,(a)為開(kāi)始階段勇士精力充沛,有很高的概率找到怪物,因此比較樂(lè)觀; (b)為在耗費(fèi)了一定體力后,勇士發(fā)現(xiàn)能找到怪物的概率很低了,顯得很擔(dān)心; (c)為不可能找到怪物了,勇士很失望; (d)為在另一次游戲中,勇士找到了怪物,在同怪物的打斗中,怪物抓中了勇士,勇士很憤怒。
(a)
(b)
(c)
(d)
3.2PEM
本文用一個(gè)3×3的方格來(lái)描述實(shí)驗(yàn)設(shè)計(jì)(每個(gè)方格對(duì)應(yīng)著一個(gè)動(dòng)態(tài)生成的游戲場(chǎng)景相當(dāng)于一個(gè)關(guān)卡),中間的方格是個(gè)阻塞區(qū)不能穿過(guò),怪獸在右上角的方格里,除了怪獸所在方格,所有方格均難以區(qū)別,每個(gè)方格中心有一個(gè)北向指示標(biāo)識(shí)。角色在每個(gè)非目標(biāo)方格的中心有四個(gè)行為可以選擇,分別是向北、向東、向南和向西。角色從方格中心選擇任何一個(gè)行為只有80%的概率沿著該方向行走,各有10%的概率會(huì)變到與行走方向垂直的任何一個(gè)方向,如果前方是邊界或者障礙物則會(huì)退回到出發(fā)方格的中心。除了在目標(biāo)方格正下方的方格內(nèi)選擇北向行為花費(fèi)是1外,其它的行為選擇花費(fèi)是2。定義各類慎思式情感的概率區(qū)間為:驚喜(0.8,1],快樂(lè)[0.5, 0.8],害怕(0.5,0.3),擔(dān)心[0.3,0.1]和失望[0,0.1)。
3.3實(shí)驗(yàn)方法
本文參考Reilly的文章設(shè)計(jì)兩組對(duì)比實(shí)驗(yàn)對(duì)角色逼真度進(jìn)行評(píng)價(jià)[17]。Reilly分別從以下三個(gè)參考方面對(duì)角色逼真度進(jìn)行評(píng)定(實(shí)為參與者針對(duì)三個(gè)問(wèn)題進(jìn)行打分):角色整體效果、角色表達(dá)人類特質(zhì)效果和參與者身臨其境效果。
兩組對(duì)比實(shí)驗(yàn)分別是:第一組是無(wú)情感的角色(A)與只有反應(yīng)式情感的角色(B);第二組是只有反應(yīng)式情感的角色(B)和運(yùn)用了PEM模型的角色(C)。每組20個(gè)同學(xué)參與評(píng)分,其中包括12名男生8名女生,年齡范圍20~27歲。打分區(qū)間為0~10,隨著分值的增加表示逼真度不斷提高,0~2表示“非常不逼真”,3~4分表示“不逼真”, 5分代表“中立”,6~7代表“逼真”,8~10代表“非常逼真”。
進(jìn)行實(shí)驗(yàn)之前給每個(gè)參與者發(fā)一份紙質(zhì)說(shuō)明,其內(nèi)容包括:游戲故事情節(jié)、逼真度打分的范圍以及上述逼真度參考的三個(gè)方面,確保每個(gè)參與者對(duì)上述內(nèi)容清晰。為盡量減小由順序引起的誤差,每組中隨機(jī)抽取6個(gè)男生和4個(gè)女生先觀看各自組中某一個(gè)角色的游戲動(dòng)畫(huà)。同時(shí),剩下的6個(gè)男生和4個(gè)女生觀看另外一個(gè)角色的游戲動(dòng)畫(huà),當(dāng)參與者觀看完一遍兩個(gè)動(dòng)畫(huà)片段后,可自由選擇動(dòng)畫(huà)片段觀看直到可以得出一個(gè)結(jié)論為止,實(shí)驗(yàn)持續(xù)時(shí)間大約為二十分鐘。最后,每個(gè)參與者分別給兩個(gè)角色打分,并給出一些說(shuō)明。
3.4實(shí)驗(yàn)結(jié)果及分析
通過(guò)統(tǒng)計(jì)分析,第一組實(shí)驗(yàn)中角色A的均值和標(biāo)準(zhǔn)差為:(3.5, 1.67),角色B的均值和標(biāo)準(zhǔn)差為(5.35, 1.81);第二組實(shí)驗(yàn)中角色B均值和標(biāo)準(zhǔn)差是(5.3, 1.13)和角色C的均值和標(biāo)準(zhǔn)差是(6.85,2.39),如圖4所示。
(a) 第一組兩個(gè)角色逼真度的均值和標(biāo)準(zhǔn)差
(b) 第二組兩個(gè)角色逼真度的均值和標(biāo)準(zhǔn)差
本文采用單尾成對(duì)t檢驗(yàn)方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析[17]。單尾成對(duì)t檢驗(yàn)方法是對(duì)每個(gè)參與者針對(duì)該組兩個(gè)角色的逼真度打分的差值(后者減去前者)進(jìn)行檢驗(yàn),統(tǒng)計(jì)結(jié)果如圖5所示。
(a) 第一組逼真度差值,其等于角色B逼真度減去角色A的逼真度
(b) 第二組逼真度差值,其等于角 色C減去角色B的逼真度
檢查兩者的均值差是否大于0,如果95%置信區(qū)間在0值右側(cè),則可以宣稱兩者的均值差大于0(95%的可能),即后者要比前者“好”。 第一組實(shí)驗(yàn)P值約為0.0027且置信區(qū)間在0值右側(cè),表明角色B的逼真度均值大于角色A的逼真度均值,說(shuō)明只有反應(yīng)式情感的角色B比無(wú)情感的角色A更逼真。此實(shí)驗(yàn)結(jié)果與先前Reilly的研究結(jié)論是一致的。第二組實(shí)驗(yàn)P值約為0.015且置信區(qū)間在0值右側(cè),表明角色C的逼真度均值大于角色B的逼真度均值,說(shuō)明使用本文提出的模型PEM的角色C比只有反應(yīng)式情感的角色B更逼真。
3.5討論
模擬情感可以提高游戲角色的逼真度,此結(jié)論在很多實(shí)驗(yàn)中得到驗(yàn)證(包括本實(shí)驗(yàn))[14-16]。反應(yīng)式情感是人類和動(dòng)物進(jìn)化的產(chǎn)物,而慎思式情感是人類特有的情感。第二組參與者的解釋表明,通過(guò)對(duì)慎思式情感的連續(xù)模擬(一個(gè)動(dòng)態(tài)的情感過(guò)程),使得參與者感覺(jué)到角色C可以關(guān)心并推理當(dāng)前的處境,這為計(jì)算機(jī)游戲或動(dòng)畫(huà)設(shè)計(jì)提供一種更有前景的發(fā)展方向,用戶或者觀眾更傾向與關(guān)心當(dāng)前形勢(shì)的游戲(動(dòng)畫(huà))角色打交道。
本實(shí)驗(yàn)不足之處在于參與者的年齡范圍和受教育程度等條件的方差較小,不利于結(jié)論的進(jìn)一步推廣。未來(lái)應(yīng)該考慮設(shè)計(jì)更多的實(shí)驗(yàn)并爭(zhēng)取更廣泛的參與者。
4結(jié)語(yǔ)
關(guān)于人工智能的研究如果過(guò)分專注智能可能會(huì)忽略角色的行為可信度。情感是增加真實(shí)度和可信度的關(guān)鍵因素。本文重點(diǎn)是在部分可觀察馬爾可夫決策過(guò)程的基礎(chǔ)上提出一種成本約束的目標(biāo)導(dǎo)向行為規(guī)劃技術(shù)(CGOAP),并結(jié)合雙層認(rèn)知評(píng)價(jià)理
論提出了一種可用于部分可觀察不確定環(huán)境下的基于規(guī)劃的情感計(jì)算模型(PEM)。PEM可用來(lái)創(chuàng)建具有情感的自主角色AACs,也可用于動(dòng)畫(huà)的自動(dòng)生成。未來(lái)的工作是將更多的情感集成到PEM,以及在PEM中加入情感對(duì)行為選擇的作用。
參考文獻(xiàn)
[1] Fang Y P, Ting I H. Applying Reinforcement Learning for the AI in a Tank-Battle Game[J].Jounal of Software, 2010,5(12):1031-1034.
[2] Ji Ruan. Reasoning about Time, Action and Knowledge in Multi-Agent Systems[J].KI-Künstliche Intelligenz,2011,25(1):75-76.
[3] 許斯軍, 曹奇英. 基于可視圖的移動(dòng)機(jī)器人路徑規(guī)劃[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(3):220-222,236.
[4] Bosse T, Zwanenburg E. Do Prospect-Based Emotions Enhance Believability of Game Characters? A Case Study in the Context of a Dice Game[J].IEEE Transactions on Affective Computing,2014,5(1):17-34.
[5] Manabu Nakao. International Conference on Intelligent Robots and Systems[J]. Piscataway,2011,29(5):1410-1415.
[6] Gomez-Estern F. Computational principles of mobile robotics[J].Automatica,2002,38(10):1833-1834.
[7] Fletcher, Garth J O, Julie F, et al. Knowledge structures in close relationships: A social psychological approach[M].5th ed. London :Psychology Press, 2014.
[8] Wyer J R S, Srull T K, Wyer Jr R S. Memory and Cognition in its social context[M].5th ed, London:Psychology Press, 2014.
[9] Lorini E, Schwarzentruber F.A logic for reasoning about counterfactual emotions[J].Artificial Intelligence,2011,175(4):814-847.
[10] Chartrand T L, R B van Baaren, J A Bargh. Linking automatic evaluation to mood and information-processing style: Consequences for experienced affect, impression formation, and stereotyping[J].Journal of Experimental Psychology, General,2006,135(1):70-77.
[11] Smith C A, Lazarus R S. Appraisal components, core relational themes, and the emotions[J].Cognition and Emotion,1993,7(3):233-269.
[12] Damasio A. Descartes’ error, emotion reason and the human brain[M].New York: Vintage , 2006.
[13] Becker-Asano C,Wachsmuth I. Affective Computing with primary and secondary emotions in a virtual human[J]. Auton Agent Multi-Agent Syst, 2010,20(1):32-49.
[14] Ortony A, Clore G L, Collins A.The Cognitive Structure of Emotions[M].2nd ed.Cambridge, UK: Cambridge University Press, 1990.
[15] Marsella S, Gratch J, Petta P.Computational models of emotion[J].A Blueprint for Affective Computing-A sourcebook and manual,2010,11(1):21-46.
[16] The Duy Bui, Dirk Heylen,Mannes Poel,et al.ParleE:An Adaptive Plan Based Event Appraisal Model of Emotions[M]//KI2002:Advances in Artifical Intelligence,Springer Berlin Heidelberg,2002:129-143.
[17] Reilly W S.Believable Social and Emotional Agents[R].Carnegie-mellon Univ Pittsburgh PA DEPT of Computer Science,1996.
中圖分類號(hào)TP18
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.02.018
收稿日期:2014-09-12。黃向陽(yáng),副教授,主研領(lǐng)域:人工智能及情感計(jì)算。張娜,碩士生。王旭仁,教授。彭巖,教授。