許普之 彭夢華 魏榮興
現(xiàn)階段,警犬訓練的開展通?;诮?jīng)典條件反射原理和操作性條件反射原理。在經(jīng)典條件反射理論中最著名的例子就是巴普洛夫的犬“搖鈴實驗”(見圖1),其邏輯為:將可以引起犬唾液分泌(非條件反應,UR)的食物(非條件刺激,US)與原本是中性刺激(NS)的鈴聲在時間上反復結(jié)合出現(xiàn),最終鈴聲和唾液分泌(非條件反應,UR)之間就建立了一種新的聯(lián)系即條件反應(CR),原本為中性刺激的鈴聲變成了條件刺激(CS)。當條件反射建立以后,在后續(xù)過程中若多次只出現(xiàn)條件刺激而后續(xù)未出現(xiàn)非條件刺激用以強化,結(jié)果往往會使條件反射的反應強度逐漸減弱,也就是我們常說的條件反射的消退,直至完全不出現(xiàn)。
圖1 “搖鈴試驗”——經(jīng)典條件反射的建立過程
操作性條件反射是一種動物的學習方式,旨在動物的任意行為反應和直接后果之間形成關聯(lián)。“斯金納箱”實驗最能闡明操作性條件反射原理,其邏輯關系是:動物被放在某種我們設計的特定的場景中,在本能驅(qū)使下產(chǎn)生自發(fā)行為(按壓杠桿),而這種自發(fā)行為將自動獲得或者被人為施與獎勵(食物),使這種自發(fā)行為反復得到強化,這樣,當某種特定的場景再次出現(xiàn)時,動物就會做出不斷得到強化的行為反應,條件反射就此建立。在此基礎上,我們將動物的這種學習行為進一步延伸,在其中加入某種信號,使動物根據(jù)人為發(fā)出的信號執(zhí)行某種行為?!八菇鸺{箱”實驗發(fā)現(xiàn),當動物獲得食物后,按壓杠桿的次數(shù)將大大增加,動物的學習行為會伴隨著一種刺激而促進其發(fā)生,這種刺激會起到強化作用,此時食物則是一種強化物。動物的學習行為是隨著一個起強化作用的刺激而發(fā)生的,當動物獲得食物以后,按壓杠桿的次數(shù)大大增加,食物就是壓桿行為的強化物。所謂強化物不一定是實物,也可以是訓導員的撫摸行為、贊賞的表情以及語氣等。
響片是世界上廣受歡迎的動物訓練工具之一,由于其在訓練中有著諸多優(yōu)勢,近些年引入我國并迅速得到廣泛采納和應用。在訓練過程中,當受訓動物所需行為出現(xiàn)時,按下響片,隨后盡快給予獎勵(作為主要強化物),重復幾次后,響片聲音可與獎勵相關聯(lián),并成為條件刺激(CS)和輔助強化(SR)。截至目前國際上至少已經(jīng)提出了三種機制來解釋響片訓練法的工作原理,分別是強化假說(RH)、標記假說(MH)和橋接假說(BH)。強化假說提出響片的聲音(SR)本身就是一種“獎勵”,因此能夠增加所需行為發(fā)生的可能性。關于標記假說,有人認為響片的聲音充當標記信號,幫助動物區(qū)分與主要強化物相關的特定行為。最后,橋接假說則認為響片的聲音可以填補所需行為和主要強化物到達之間的時間,起到橋接的作用。根據(jù)筆者以及同行以往的訓練經(jīng)驗,響片與具有內(nèi)在價值的主要強化物(一級強化物,例如食物)不同,響片的聲音在開始時是一種中性刺激,在與主要強化物反復配對出現(xiàn)后獲得特定的強化性質(zhì)即二級強化物,也就是說響片在警犬訓練中的最終階段傾向于強化假說的概念。
在警犬訓練中,響片的使用同樣是基于經(jīng)典條件反射理論和操作性條件反射理論。無論是服從科目還是使用科目的訓練,首先要將響片的聲音與獎勵(球或食物)建立聯(lián)系——也就是常說的為響片賦能,響片可以和任意正向的強化物進行結(jié)合,這里是基于經(jīng)典條件反射理論建立起來的,響片的聲音從中性刺激變?yōu)闂l件刺激。在此基礎上,在訓練中當犬出現(xiàn)某種特定的動作(特定動作既可以是服從科目中的“坐”“臥”“立”等,也可以是使用科目中的對特定氣味的示警動作等)時,按下響片同時給予獎勵,這里是基于操作性條件反射理論建立起來的,在此過程中,響片的聲音從條件刺激轉(zhuǎn)變?yōu)闂l件強化物。最后,通過訓練中的不斷強化,警犬出現(xiàn)某一特定行為的次數(shù)逐漸增加,在警犬做出特定動作的同時引入口令,然后待警犬完成動作時按壓響片并給予獎勵,直至訓導員發(fā)出口令,警犬做出特定動作,然后按壓響片給予獎勵完成整個過程,即建立高級條件反射。在這個過程中,既有基于經(jīng)典條件反射的犬依照口令執(zhí)行特定動作,又有基于操作性條件反射的學習與強化(見圖2)。
圖2 使用響片訓練過程簡圖
在訓練警犬的過程中,經(jīng)典條件反射主要控制和決定的是信號出現(xiàn)后警犬的行為,而不是由此行為導致的結(jié)果。而操作性條件反射則是在意和控制警犬某種行為出現(xiàn)后帶來的結(jié)果,從而起到反饋的作用,用以影響后續(xù)這個行為的發(fā)生頻率。值得注意的是,經(jīng)典條件反射建立成功后,條件刺激出現(xiàn)引起警犬的條件反應,在這個反應出現(xiàn)后導致的結(jié)果又決定了這個行為未來出現(xiàn)的頻率,也就是行為的未來走向趨勢被操作性條件反射控制著,而結(jié)果卻被經(jīng)典條件反射制約著。例如在警犬訓練中:訓導員下達口令、警犬做出相應動作、訓導員按壓響片給予獎食。口令出現(xiàn)后警犬立刻就會出現(xiàn)相應動作是多次匹配后經(jīng)典條件反射起了作用導致的,但而后信號一出現(xiàn)就繼續(xù)穩(wěn)定重復出現(xiàn)的行為又一直被后續(xù)可以獲得的獎勵所正強化,則是操作性條件反射在發(fā)揮作用。
在警犬搜索訓練中,通常會使用到鑒別罐。警犬起初是無意識地將鼻子扎進裝有目標氣味的鑒別罐,訓導員立即按壓響片并給予獎勵,結(jié)果導致犬主動扎進帶有特定氣味鑒別罐的這一行為被正強化,因此在此訓練中這個行為出現(xiàn)的頻率就會增加,此時犬鼻子扎進鑒別罐的行為被操作性條件反射正強化。在這個過程中,房間中鑒別罐的出現(xiàn)就已經(jīng)是“扎罐”這個行為出現(xiàn)的信號,這根源上則是由于經(jīng)典條件反射建立且操控的。同時,由于犬鼻子扎進特定氣味的鑒別罐就可以得到響片及食物獎勵的結(jié)果,導致警犬進入到訓練房間后就會很開心快樂地去搜索并扎鑒別罐,甚至是只要能夠進入訓練房間,哪怕是未放置鑒別罐也會很開心和自信,證明經(jīng)典條件反射已建立起來并發(fā)生作用。同樣的,在這個訓練過程中,如果犬一直不能選擇到正確的鑒別罐,也就得不到獎勵,那么這個經(jīng)典條件反射就會慢慢消退,直至消失。
一是使用響片保證了獎勵的一致性,其發(fā)出的聲音是固定的,不受訓導員情緒及狀態(tài)的影響。人類有著豐富的情感,受各種客觀因素的影響,無法百分百地保持積極、冷靜、堅決的狀態(tài)。訓導員的情緒也會有不同的變化,如愉快、激動、憤怒、心不在焉,這些情緒影響著訓練時的狀態(tài)以及口令的語氣。受訓的警犬是完全可以感受到訓導員的這些細微的變化,從而使它們接收到的信息和訓導員實際發(fā)出的不一樣。當訓導員處于一種低落、挫敗、憂郁等消極狀態(tài)時,警犬很難在訓練中保持積極響應。而響片發(fā)聲永遠是固定的,固定的音調(diào)、響度,這對訓練獎勵的一致性提供了極大的保障,避免了訓導員對警犬行為強化的性質(zhì)和標準不一致。
二是響片的聲音作為條件強化物本身具有一定的強化作用,可以對所需犬的行為進行正向強化。在警犬訓練中,一個動作行為實際是拆分開的,甚至有的一整套行為訓練更是需要細分環(huán)節(jié),一點點來教,一步步來實現(xiàn),一個動作一個動作地予以認可,一次次地進行獎勵。而響片的聲音,能夠很好地強化了這些環(huán)節(jié),并對這些環(huán)節(jié)進行獎勵,使得不需要在單次訓練中進行太多次數(shù)的食物或者物品的獎勵,從而可以少一些訓練間斷。這樣縮短了訓練時間,也使得必需的獎勵得以延遲,而且有利于食物等獎勵從整個訓練過程中淡出。
三是響片的聲音保證了獎勵的及時性。斯金納認為如果受訓動物的行為反應和強化物的出現(xiàn)存在相當大的時間間隔,那么該行為反應出現(xiàn)的概率就會逐漸降低。響片的應用則在相當大程度上避免了此類問題,響片的聲音作為輔助強化物,可以在警犬做出特定動作后迅速出現(xiàn),從而縮短反應和強化物出現(xiàn)之間的間隔,保證強化的及時性。