• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Q學(xué)習(xí)參數(shù)辨識的動物學(xué)習(xí)能力評價方法

    2022-11-04 07:10:12馮浩然尚志剛楊莉芳靳富麗馬佐豪
    科學(xué)技術(shù)與工程 2022年27期
    關(guān)鍵詞:馬爾科夫決策狀態(tài)

    馮浩然, 尚志剛*, 楊莉芳, 靳富麗, 馬佐豪

    (1.鄭州大學(xué)電氣工程學(xué)院, 鄭州 450000; 2.河南省腦科學(xué)與腦機(jī)接口技術(shù)重點實驗室, 鄭州 450000)

    馬爾科夫決策理論是數(shù)學(xué)上表達(dá)強(qiáng)化學(xué)習(xí)的理想化形式,被廣泛應(yīng)用于動物的行為決策研究中[1]。如何評價動物在馬爾科夫決策任務(wù)中利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力,對于動物行為學(xué)與心理學(xué)研究至關(guān)重要[2-4]。

    早期的學(xué)者已經(jīng)在不同行為決策問題中對動物的學(xué)習(xí)能力進(jìn)行了探索。Paterson[5]通過簡單行為決策任務(wù)分析了豬、山羊、牛是否能從已知事件推斷未知事件,并發(fā)現(xiàn)不同物種之間存在認(rèn)知與決策能力的差異。Kilgour[6]使用Hebb-Williams迷宮比較了綿羊、牛、豬、山羊、狗在一系列路徑選擇問題中的學(xué)習(xí)能力。但是早期的研究只關(guān)注與評價不同物種之間學(xué)習(xí)能力,實驗范式設(shè)計過于簡單,沒有對實驗對象的學(xué)習(xí)能力進(jìn)行量化處理。近20年來,強(qiáng)化學(xué)習(xí)理論得到發(fā)展,而馬爾科夫決策理論框架作為交互式學(xué)習(xí)問題的高度抽象,使動物行為決策問題研究得到進(jìn)一步發(fā)展[7-8]。在馬爾科夫決策任務(wù)中,Watkins等[9]提出的Q-learning模型作為一種離線差分算法,克服了模型對策略估計的困難,是價值學(xué)習(xí)研究中最常見的數(shù)學(xué)模型。在Q-learning模型中,智能體根據(jù)策略在狀態(tài)st執(zhí)行動作at,環(huán)境反饋獎勵rt,并到達(dá)新的狀態(tài)st+1。根據(jù)獎勵更新狀態(tài)-動作對的Q值,智能體一直重復(fù)上述操作,直到訓(xùn)練結(jié)束[10]。

    Rose等[11]訓(xùn)練鴿子完成基于視覺線索的馬爾科夫決策任務(wù),建立了Q-learning模型模擬鴿子行為,并證明了獎勵大小對學(xué)習(xí)過程的影響可以通過Q-learning模型準(zhǔn)確地反映。Ito等[12]分析了大鼠在隨機(jī)獎勵的馬爾科夫決策任務(wù)中的行為策略,在比較多種數(shù)學(xué)模型后,發(fā)現(xiàn)Q-learning模型能夠更好地預(yù)測大鼠的行為決策。師黎等[13]提出了一種動態(tài)學(xué)習(xí)率的Q-learning模型,完成了鴿子顏色刺激-抉擇認(rèn)知訓(xùn)練,以學(xué)習(xí)率α的動態(tài)變化準(zhǔn)確地描述了鴿子的行為決策。陶夢妍[14]引入主觀價值因素,提出了一種新的動態(tài)強(qiáng)化學(xué)習(xí)模型,提高了動物行為的預(yù)測精度。阮曉鋼等[15]受嚙齒類動物利用嗅覺線索進(jìn)行空間導(dǎo)航的啟發(fā),提出了一種基于氣味獎勵引導(dǎo)的Q-learning環(huán)境認(rèn)知策略,有助于增強(qiáng)動物對于環(huán)境的認(rèn)知能力。對于馬爾科夫決策任務(wù)中動物行為決策問題的探索,現(xiàn)階段研究已經(jīng)取得了一些進(jìn)展,但是,大多數(shù)只是利用Q-learning模型對動物的行為決策進(jìn)行描述或預(yù)測,而個體間學(xué)習(xí)能力的差異才是導(dǎo)致行為決策不同的根本原因,關(guān)于學(xué)習(xí)能力評價的研究卻少有涉及。

    在馬爾科夫決策任務(wù)中,動物的學(xué)習(xí)能力與諸多因素有關(guān)。為最大化累計獎勵,動物既需要合理利用過去積累經(jīng)驗對當(dāng)前動作做出選擇,又需要考慮當(dāng)前動作對未來狀態(tài)的影響[16-17]。在Q-learning模型中,學(xué)習(xí)率α(0<α≤1)表示智能體權(quán)衡當(dāng)前學(xué)習(xí)結(jié)果與過去積累經(jīng)驗的比值,α越接近0,表示智能體利用過去積累經(jīng)驗對當(dāng)前動作做出選擇的能力越強(qiáng),α越接近1,表示智能體利用過去積累經(jīng)驗的比重越少。折扣因子γ(0<γ≤1)表示智能體對未來獎勵的重視程度,γ越接近1,表示智能體越重視未來獎勵,γ越接近0,表示智能體“目光短淺”,只看重即時獎勵。在馬爾科夫決策理論框架下,智能體的“目標(biāo)”是最大化累計獎勵,為完成該“目標(biāo)”,一個學(xué)習(xí)能力強(qiáng)的智能體應(yīng)充分利用過去積累的經(jīng)驗知識,同時考慮未來獎勵,其模型參數(shù)應(yīng)呈現(xiàn)“學(xué)習(xí)率α較小,折扣因子γ較大”的特點,而對于學(xué)習(xí)能力較差的智能體,其Q-learning模型參數(shù)應(yīng)該與之有所區(qū)別。

    為了探究馬爾科夫決策任務(wù)中不同個體之間利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力差異,首先選擇色彩辨識能力與認(rèn)知能力都很優(yōu)秀的家鴿作為實驗動物[18-20],然后確定家鴿在該任務(wù)中對最優(yōu)策略的習(xí)得程度,最后用Q-learning模型參數(shù)對(α,γ)評價不同家鴿的學(xué)習(xí)能力。

    1 材料與方法

    1.1 實驗動物

    實驗動物選用成年家鴿(質(zhì)量:400~550 g; 平均年齡:2.1歲),雌雄不拘,身體健康。飼養(yǎng)環(huán)境為3 m×3 m×2 m的鴿舍,食物與水供應(yīng)充足,體重保持在正常體重的85%以上。實驗動物經(jīng)鄭州大學(xué)生命科學(xué)倫理審查委員會審查,符合各項規(guī)定。

    1.2 實驗設(shè)備及范式設(shè)計

    如圖1所示,所有實驗均在馬爾科夫決策任務(wù)訓(xùn)練箱中進(jìn)行。訓(xùn)練箱前端兩側(cè)各有一個按鍵,中間有一個食盒,箱體內(nèi)部右上方有一個提示燈。按鍵底部安裝有背光燈,按鍵在亮燈狀態(tài)下可以被按下。當(dāng)動作選擇正確時,食盒會進(jìn)入訓(xùn)練箱并持續(xù)2 000 ms。提示燈閃爍2次標(biāo)志實驗開始。

    為了探究馬爾科夫決策任務(wù)中家鴿的學(xué)習(xí)能力差異,設(shè)計了含有狀態(tài)轉(zhuǎn)移概率的馬爾科夫決策任務(wù)。如圖2所示,實驗開始后,進(jìn)入1 500 ms的等待期,然后兩個按鍵同時亮起紅燈或綠燈,概率P均為50%。每次亮燈狀態(tài)下家鴿均有兩個動作選擇:啄左鍵或啄右鍵。若1 500 ms等待期后按鍵同時亮紅燈,那么該狀態(tài)下兩個動作選擇均不會得到獎勵,但會影響下一次狀態(tài)轉(zhuǎn)移概率。紅燈狀態(tài)下,啄右鍵,下一次亮綠燈概率為80%,啄左鍵,下一次亮紅燈概率為80%。若1 500 ms等待期后按鍵同時亮綠燈,那么該狀態(tài)下兩個動作選擇均會得到獎勵,同時影響下一次狀態(tài)轉(zhuǎn)移概率。綠燈狀態(tài)下,啄左鍵,下一次亮綠燈概率為90%,啄右鍵,下一次亮紅燈概率為90%。在進(jìn)入下一次亮燈狀態(tài)之前都會有1 500 ms的試次間隔時期(inter-tribal interval, ITI)。由于每次啄鍵動作都會影響下一次亮燈狀態(tài),所以除即時獎勵外,家鴿還需要考慮狀態(tài)轉(zhuǎn)移概率,選擇最優(yōu)策略,使累計獎勵最大化。因此,考慮到上述情況,最優(yōu)策略是在紅燈狀態(tài)下啄右鍵,綠燈狀態(tài)下啄左鍵(所有實驗動物在實驗前均完成預(yù)訓(xùn)練,該過程包括建立對訓(xùn)練箱、按鍵、食盒等設(shè)備的認(rèn)知,理解“亮燈狀態(tài)下啄鍵”的任務(wù)需求)。

    圖1 訓(xùn)練箱功能示意圖Fig.1 Schematic diagram of training box function

    圖2 馬爾科夫決策任務(wù)范式流程圖Fig.2 Flow chart of Markov decision-making tasks

    1.3 數(shù)據(jù)獲取與處理

    在所有行為學(xué)數(shù)據(jù)中,未啄鍵試次被認(rèn)為是無效試次,同時,以“均值±3×標(biāo)準(zhǔn)差”作為響應(yīng)時間閾值,響應(yīng)時間過長被認(rèn)為是注意力不集中,響應(yīng)時間過短被認(rèn)為是誤啄,剩余試次被認(rèn)為是有效試次。該任務(wù)范式下家鴿的行為學(xué)數(shù)據(jù)如表1所示。

    表1 家鴿行為學(xué)數(shù)據(jù)表Table 1 Behavioral data sheet of pigeons

    1.4 Q-learning建模

    已有研究證明動物對外部環(huán)境的學(xué)習(xí)是受價值引導(dǎo),并以此影響其行為決策。選用Watkins等[9]提出的Q-learning模型對家鴿在馬爾科夫決策任務(wù)中的行為決策進(jìn)行建模。首先,設(shè)置Q值查找表與Reward表。在該任務(wù)范式中,存在2種狀態(tài):紅燈狀態(tài)與綠燈狀態(tài),2種動作:啄左鍵與啄右鍵,共組成4種狀態(tài)-動作對,故Q矩陣與R矩陣應(yīng)為2×2矩陣,其中,矩陣的行表示狀態(tài),列表示動作。Q查找表如式(1)所示,由于智能體初始狀態(tài)沒有經(jīng)驗知識,故Q查找表各初值定義為0。

    (1)

    Reward表如式(2)所示,在該實驗范式中,紅燈狀態(tài)下兩個動作都沒有獎勵,故第一行各值定義為0,綠燈狀態(tài)下兩個動作都有獎勵,故第二行各值定義為1。

    (2)

    然后,智能體會嘗試探索最優(yōu)策略π*(s),以使累計獎勵最大化Bellman最優(yōu)方程將最優(yōu)策略π*(s)的探索描述為

    (3)

    π*(s)=argmax[Q*(s,a)]

    (4)

    Qt+1(st,at)=Qt(st,at)+αΔQ(st,at)

    (5)

    ΔQ(st,at)=Rt+1+γmaxQ(st+1,a′)-

    Qt(st,at)

    (6)

    式中:α為學(xué)習(xí)率(0<α≤1);γ為折扣因子(0<γ≤1)。接下來,采用網(wǎng)格搜索法,以0.01為步長,將學(xué)習(xí)率α與折扣因子γ進(jìn)行取值,共得到10 000組(α,γ)參數(shù)對,即

    (α,γ)=

    (7)

    1.5 參數(shù)對(α,γ)評價指標(biāo)

    不同的學(xué)習(xí)率α與折扣因子γ對Q-learning模型的行為預(yù)測結(jié)果及收斂性等因素有不同的影響。因此,在得到10 000組參數(shù)對(α,γ)之后,需要進(jìn)行評估與篩選。首先,參數(shù)對(α,γ)應(yīng)使Q-learning模型具有較高的行為預(yù)測正確率;其次,根據(jù)Q-learning收斂定理,如果每個動作在每個狀態(tài)下無限次的執(zhí)行,并且適當(dāng)?shù)乃p學(xué)習(xí)率α,那么Q值將以1的概率收斂到最優(yōu)Q值,但是,由于無法進(jìn)行無限次實驗,需對收斂性進(jìn)行評估;同時,在Q值趨于收斂時,Q-learning模型對不同狀態(tài)下的動作預(yù)測應(yīng)趨于穩(wěn)定,參數(shù)對(α,γ)應(yīng)使Q-learning模型具有較好的動態(tài)預(yù)測穩(wěn)定性。綜上,設(shè)置了三個參數(shù)對(α,γ)評價指標(biāo),分別為①行為預(yù)測正確率、②收斂性、③動態(tài)預(yù)測穩(wěn)定性。

    在評價指標(biāo)①中,通過訓(xùn)練集數(shù)據(jù)對Q-learning模型進(jìn)行訓(xùn)練,并使用測試集數(shù)據(jù)檢驗Q-learning模型的行為預(yù)測正確率,設(shè)置正確率閾值,篩選出能使Q-learning模型行為預(yù)測正確率大于正確率閾值的參數(shù)對(α,γ)。在評價指標(biāo)②中,以方差衡量Q值的收斂性,方差越小,Q值的收斂性越好,設(shè)置方差閾值,篩選出能使Q-learning模型各Q值方差小于方差閾值的參數(shù)對(α,γ)。在評價指標(biāo)③中,以累計誤差衡量訓(xùn)練后的Q-learning模型在測試集數(shù)據(jù)上的動態(tài)預(yù)測穩(wěn)定性。Q-learning模型每更新一次即實時預(yù)測,若當(dāng)前動作預(yù)測正確,累計誤差不變;若當(dāng)前動作預(yù)測錯誤,累計誤差累加“1”(“累計誤差”初始值為0),設(shè)置累計誤差閾值,篩選出能使Q-learning模型動態(tài)預(yù)測累計誤差小于累計誤差閾值的參數(shù)對(α,γ)。最后,將滿足三個評價指標(biāo)的參數(shù)對(α,γ)取交集,得到最能反映家鴿自身行為決策的參數(shù)對(α,γ),以參數(shù)對(α,γ)的不同表征家鴿在馬爾科夫決策任務(wù)中利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力差異。

    2 結(jié)果

    2.1 行為學(xué)數(shù)據(jù)分析

    為了直觀表現(xiàn)不同家鴿在馬爾科夫決策任務(wù)中對最優(yōu)策略的習(xí)得程度,對整個實驗過程中家鴿的動作選擇情況進(jìn)行分析,結(jié)果如圖3所示。

    從圖3中可以看出,實驗初期,家鴿選擇動作時隨機(jī)性較大,沒有習(xí)得某一固定策略,仍處于探索階段,獎勵試次占比曲線偏低。實驗中期,家鴿的動作選擇呈現(xiàn)出一定的規(guī)律性,逐漸習(xí)得最優(yōu)策略,獎勵試次占比曲線逐漸升高。實驗后期,家鴿的動作選擇情況趨于穩(wěn)定,獎勵試次占比曲線穩(wěn)定在0.9以上。但是,由于不同個體在馬爾科夫決策任務(wù)中的學(xué)習(xí)能力存在差異,所以三只家鴿對最優(yōu)策略的習(xí)得程度有所區(qū)別。根據(jù)獎勵試次占比曲線是否連續(xù)兩個session大于90%,將家鴿的行為學(xué)數(shù)據(jù)劃分為“學(xué)習(xí)期”與“習(xí)得期”。在“習(xí)得期”,P003在紅燈狀態(tài)下只啄右鍵,在綠燈狀態(tài)下只啄左鍵,說明其完全習(xí)得了最優(yōu)策略;P004在紅燈狀態(tài)下右鍵占比曲線波動較大,綠燈狀態(tài)下左鍵占比曲線的收斂性也不如P003與P008,說明其并未完全習(xí)得最優(yōu)策略;P008在紅燈狀態(tài)下只啄右鍵,在綠燈狀態(tài)下大部分試次啄左鍵,但是少數(shù)試次也會啄右鍵(在300~320 trails,綠燈狀態(tài)下左鍵占比曲線有所下降),說明其已經(jīng)習(xí)得紅燈狀態(tài)下的最優(yōu)動作,但對于綠燈狀態(tài)下的最優(yōu)動作并未完全習(xí)得。因此,在該馬爾科夫決策任務(wù)中,P003的學(xué)習(xí)能力最強(qiáng),P008的學(xué)習(xí)能力次之,P004的學(xué)習(xí)能力最差。

    2.2 參數(shù)對(α,γ)評估

    在評價指標(biāo)①中,為了直觀表現(xiàn)不同參數(shù)對(α,γ)對Q-learning模型行為預(yù)測正確率的影響,取“學(xué)習(xí)期”數(shù)據(jù)為訓(xùn)練集,“習(xí)得期”數(shù)據(jù)為測試集,設(shè)置0.8為正確率閾值,對所有參數(shù)對(α,γ)進(jìn)行評估,結(jié)果如圖4所示。

    從圖4中可以看出,在評價指標(biāo)①中參數(shù)對(α,γ)具有區(qū)域性分布的特點,行為預(yù)測正確率最高分別達(dá)到1、0.939 8、0.801 6。以0.8作為正確率閾值,圖4中的黃色區(qū)域為篩選后的參數(shù)對(α,γ)。在該馬爾科夫決策任務(wù)中,由于家鴿個體間利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力存在差異,導(dǎo)致其對于最優(yōu)策略的習(xí)得程度有所不同。因此,在不同家鴿的行為學(xué)數(shù)據(jù)上,參數(shù)對(α,γ)分布特點有所差異,圖4(a)中,篩選出的參數(shù)對(α,γ)表示P003具有較小的學(xué)習(xí)率α(0.01≤α≤0.48)與較大的折扣因子γ(0.01≤γ≤1),說明P003能夠充分利用過去積累經(jīng)驗對當(dāng)前動作做出選擇,同時重視未來獎勵;圖4(b)中,篩選出的參數(shù)對(α,γ)表示P008具有較大的學(xué)習(xí)率α(0.52≤α≤1)與較大的折扣因子γ(0.01≤γ≤1),說明P004雖然能夠重視未來獎勵,但是其選擇當(dāng)前動作時忽視過去積累經(jīng)驗;圖4(c)中,篩選出的參數(shù)對(α,γ)表示P008的學(xué)習(xí)率α與折扣因子γ的取值范圍較廣,說明P008利用過去積累經(jīng)驗對當(dāng)前動作做出選擇的能力較差,但是能夠重視未來獎勵。

    在評價指標(biāo)②中,為了直觀表現(xiàn)不同參數(shù)對(α,γ)對各Q值收斂性的影響,對Q-learning模型更新過程中各Q值的方差進(jìn)行分析,設(shè)置0.02為方差閾值,對所有參數(shù)對(α,γ)進(jìn)行評估。以P003行為學(xué)數(shù)據(jù)為例,結(jié)果如圖5所示。方差越小,收斂性越好。Q(sr,al)、Q(sr,ar)、Q(sg,al)、Q(sg,ar)分別表示紅燈狀態(tài)下啄左鍵、紅燈狀態(tài)下啄右鍵、綠燈狀態(tài)下啄左鍵、綠燈狀態(tài)下啄右鍵的Q值。

    圖3 馬爾科夫決策任務(wù)中家鴿動作選擇情況Fig.3 Pigeons’ action selection in Markov decision-making tasks

    圖4 評價指標(biāo)①中參數(shù)對(α,γ)評估情況Fig.4 Evaluation of parameter pairs (α,γ) in evaluation index①

    從圖5中可以看出,Q(sr,al)、Q(sr,ar)、Q(sg,al)、Q(sg,ar)的收斂性均隨著參數(shù)對(α,γ)的增大而變差,以0.02作為方差閾值,圖中的黃色區(qū)域之外為篩選后的參數(shù)對(α,γ)。結(jié)果表明,當(dāng)折扣因子γ取值過大時(0.68≤γ≤1),Q-learning模型的收斂性較差,無法滿足該評價指標(biāo)。

    在評價指標(biāo)③中,為了直觀表現(xiàn)不同參數(shù)對(α,γ)對Q-learning模型動態(tài)預(yù)測穩(wěn)定性的影響,對經(jīng)過訓(xùn)練的Q-learning模型進(jìn)行動態(tài)預(yù)測分析,設(shè)置0.15為累計誤差閾值,對所有參數(shù)對(α,γ)進(jìn)行評估。結(jié)果如圖6所示,累計誤差越高,顏色越偏向藍(lán)色表示累計誤差越低。

    圖5 評價指標(biāo)②中參數(shù)對(α,γ)評估情況(以P003為例)Fig.5 Evaluation of parameter pairs (α,γ) in evaluation index②(take P003 as an example)

    從圖6中可以看出,當(dāng)學(xué)習(xí)率α取值較小時,Q-learning模型在家鴿測試集數(shù)據(jù)上的動態(tài)預(yù)測累計誤差較小。結(jié)果表明,以0.15作為累計誤差閾值,所有參數(shù)對(α,γ)均能使Q-learning模型在P003的測試集數(shù)據(jù)上具有較好的動態(tài)預(yù)測穩(wěn)定性,P004、P008的測試集數(shù)據(jù)篩選出的參數(shù)對(α,γ)為藍(lán)色區(qū)域。

    圖6 評價指標(biāo)③中參數(shù)對(α,γ)評估情況Fig.6 Evaluation of parameter pairs (α,γ) in evaluation index③

    2.3 學(xué)習(xí)能力評價

    為了篩選最符合家鴿動作選擇情況的參數(shù)對(α,γ),設(shè)置了三個評價指標(biāo),并對各指標(biāo)評估結(jié)果取交集,得到了在該任務(wù)中能夠反應(yīng)不同家鴿學(xué)習(xí)能力的模型參數(shù)對(α,γ),結(jié)果如圖7所示。橫坐標(biāo)表示折扣因子γ的取值情況,縱坐標(biāo)表示學(xué)習(xí)率α的取值情況,三個圖層分別為表征P003、P004、P008在該任務(wù)中學(xué)習(xí)能力的參數(shù)對(α,γ)。

    從圖7中可以看出,篩選后的Q-learning模型參數(shù)對(α,γ)在P003行為學(xué)數(shù)據(jù)中主要分布在(α≤0.23,γ≤0.56)區(qū)域;在P004行為學(xué)數(shù)據(jù)中主要分布在(α=1,γ≤0.08)區(qū)域;在P008行為學(xué)數(shù)據(jù)中主要分布在(α≤0.14,γ≤0.35)區(qū)域內(nèi)。圖3與圖7綜合分析,可以看出P003的學(xué)習(xí)率α較小,折扣因子γ較大,說明其能夠充分利用過去積累經(jīng)驗對當(dāng)前動作做出選擇,同時能夠重視未來獎勵,因此在馬爾科夫決策任務(wù)中利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力最強(qiáng);P008的學(xué)習(xí)率α較小,但是折扣因子γ的取值范圍小于P003,說明其能夠利用過去積累經(jīng)驗,但是對未來獎勵的重視程度不及P003,因此其利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力次之;P004的學(xué)習(xí)率α過大,折扣因子γ過小,說明其對當(dāng)前動作進(jìn)行選擇時忽視了過去積累經(jīng)驗,同時不重視未來獎勵,因此其利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力最差。

    圖7 參數(shù)對(α,γ)分布情況Fig.7 Distribution of parameter pairs (α,γ)

    3 結(jié)論

    為了評價動物在馬爾科夫決策任務(wù)中利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力,訓(xùn)練家鴿執(zhí)行含有狀態(tài)轉(zhuǎn)移概率的馬爾科夫決策任務(wù),提出了一種以Q-learning模型參數(shù)對其學(xué)習(xí)能力進(jìn)行評價的方法。首先,針對Q-learning模型的主要參數(shù)學(xué)習(xí)率α與折扣因子γ采用網(wǎng)格搜索法,以0.01為步長,將參數(shù)對(α,γ)分為10 000組。然后,為篩選能使Q-learning模型預(yù)測效果最佳的參數(shù)對(α,γ),設(shè)置了三個評價指標(biāo)。最后,通過將家鴿的行為學(xué)數(shù)據(jù)與Q-learning模型參數(shù)綜合分析,得出如下結(jié)論。

    (1)表征動物行為決策的最佳Q-learning模型參數(shù)可以通過三個評價指標(biāo)篩選后得到,分別為行為預(yù)測正確率、收斂性、動態(tài)預(yù)測穩(wěn)定性。

    (2)在馬爾科夫決策任務(wù)中,動物利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力可以通過Q-learning模型參數(shù)進(jìn)行評價。其中,學(xué)習(xí)率表征了動物利用過去積累經(jīng)驗做出選擇的能力,折扣因子表征了動物對未來獎勵的重視程度。

    猜你喜歡
    馬爾科夫決策狀態(tài)
    為可持續(xù)決策提供依據(jù)
    基于疊加馬爾科夫鏈的邊坡位移預(yù)測研究
    基于改進(jìn)的灰色-馬爾科夫模型在風(fēng)機(jī)沉降中的應(yīng)用
    狀態(tài)聯(lián)想
    決策為什么失誤了
    生命的另一種狀態(tài)
    熱圖
    家庭百事通(2016年3期)2016-03-14 08:07:17
    堅持是成功前的狀態(tài)
    山東青年(2016年3期)2016-02-28 14:25:52
    馬爾科夫鏈在教學(xué)評價中的應(yīng)用
    基于馬爾科夫法的土地格局變化趨勢研究
    河南科技(2014年11期)2014-02-27 14:10:11
    日韩欧美 国产精品| 午夜激情欧美在线| 长腿黑丝高跟| 国内少妇人妻偷人精品xxx网站| 欧美潮喷喷水| 色综合站精品国产| 色哟哟哟哟哟哟| 一本精品99久久精品77| 国产成人福利小说| 亚洲天堂国产精品一区在线| 色综合色国产| 51国产日韩欧美| 亚洲精品粉嫩美女一区| 国产伦一二天堂av在线观看| 青青草视频在线视频观看| 网址你懂的国产日韩在线| 老师上课跳d突然被开到最大视频| 噜噜噜噜噜久久久久久91| www.色视频.com| 免费观看在线日韩| 国产精品伦人一区二区| 欧美精品国产亚洲| 99精品在免费线老司机午夜| 国产精品日韩av在线免费观看| 亚洲性久久影院| 狠狠狠狠99中文字幕| 久久久久久久久中文| 国产黄片视频在线免费观看| 波野结衣二区三区在线| 麻豆成人午夜福利视频| 2022亚洲国产成人精品| 一级黄片播放器| 久久久久久久久久黄片| av天堂中文字幕网| 国产精品蜜桃在线观看 | 九九在线视频观看精品| 天堂影院成人在线观看| 99久久精品国产国产毛片| 精品一区二区免费观看| 亚洲欧美精品自产自拍| 精品人妻一区二区三区麻豆| 成人av在线播放网站| 久久久久久久久久黄片| 日本熟妇午夜| 三级毛片av免费| 亚洲一级一片aⅴ在线观看| 内射极品少妇av片p| 亚洲欧美清纯卡通| 久久99热这里只有精品18| 日韩,欧美,国产一区二区三区 | a级一级毛片免费在线观看| 秋霞在线观看毛片| 夜夜爽天天搞| 99国产精品一区二区蜜桃av| 18禁在线播放成人免费| 18禁在线播放成人免费| 成人亚洲欧美一区二区av| 高清毛片免费看| 亚洲精品乱码久久久v下载方式| 成熟少妇高潮喷水视频| 色尼玛亚洲综合影院| 欧美激情国产日韩精品一区| 久久这里只有精品中国| 国产成人精品久久久久久| 亚洲电影在线观看av| 黄色欧美视频在线观看| 亚洲在线观看片| 看片在线看免费视频| 日韩欧美在线乱码| 国产探花在线观看一区二区| 免费一级毛片在线播放高清视频| 成人美女网站在线观看视频| a级毛色黄片| 欧美成人免费av一区二区三区| 搡老妇女老女人老熟妇| 天天躁夜夜躁狠狠久久av| 成年女人看的毛片在线观看| 少妇的逼水好多| 嘟嘟电影网在线观看| 26uuu在线亚洲综合色| 日韩一本色道免费dvd| 边亲边吃奶的免费视频| 国产精品综合久久久久久久免费| 三级男女做爰猛烈吃奶摸视频| 亚洲成a人片在线一区二区| 免费人成视频x8x8入口观看| 日韩av在线大香蕉| 在线观看美女被高潮喷水网站| 成人漫画全彩无遮挡| 五月玫瑰六月丁香| 国产黄a三级三级三级人| 日日干狠狠操夜夜爽| 午夜福利在线观看吧| 精品一区二区免费观看| 波多野结衣高清作品| 舔av片在线| 一区二区三区免费毛片| 赤兔流量卡办理| 女的被弄到高潮叫床怎么办| 亚洲精品乱码久久久v下载方式| 国产精品蜜桃在线观看 | 18禁黄网站禁片免费观看直播| 亚洲av男天堂| 激情 狠狠 欧美| 69人妻影院| 一本久久中文字幕| 国产中年淑女户外野战色| 高清毛片免费看| 精品久久久久久久末码| 在线免费观看的www视频| 国产精品综合久久久久久久免费| 国产欧美日韩精品一区二区| 亚洲四区av| 九九热线精品视视频播放| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 国产精品99久久久久久久久| 亚洲图色成人| 超碰av人人做人人爽久久| 免费不卡的大黄色大毛片视频在线观看 | kizo精华| 久久精品国产亚洲网站| 偷拍熟女少妇极品色| 成人国产麻豆网| 久久这里有精品视频免费| 国产大屁股一区二区在线视频| 99热这里只有是精品50| 少妇的逼水好多| 久久久久久久久久久免费av| 网址你懂的国产日韩在线| 成年女人看的毛片在线观看| 久久国产乱子免费精品| 国产高清视频在线观看网站| 在线免费观看的www视频| 免费电影在线观看免费观看| 男人舔女人下体高潮全视频| 看非洲黑人一级黄片| 99久久中文字幕三级久久日本| avwww免费| 国产亚洲91精品色在线| 精品免费久久久久久久清纯| 久久午夜亚洲精品久久| 91精品国产九色| av在线老鸭窝| 欧美人与善性xxx| 你懂的网址亚洲精品在线观看 | 亚洲成a人片在线一区二区| 麻豆精品久久久久久蜜桃| 晚上一个人看的免费电影| 高清毛片免费观看视频网站| 最近视频中文字幕2019在线8| 岛国在线免费视频观看| 中国美女看黄片| 给我免费播放毛片高清在线观看| 乱人视频在线观看| 久久国产乱子免费精品| 男女啪啪激烈高潮av片| 不卡一级毛片| 欧美一区二区精品小视频在线| 日韩精品青青久久久久久| av在线观看视频网站免费| 寂寞人妻少妇视频99o| 国产精品综合久久久久久久免费| av专区在线播放| 女同久久另类99精品国产91| 日本与韩国留学比较| 国产男人的电影天堂91| 一边摸一边抽搐一进一小说| 国产人妻一区二区三区在| 在线播放国产精品三级| 日韩在线高清观看一区二区三区| 国产精品.久久久| 日韩精品青青久久久久久| 日韩欧美三级三区| 深爱激情五月婷婷| 禁无遮挡网站| 如何舔出高潮| 青春草视频在线免费观看| 黄色配什么色好看| 亚洲av中文av极速乱| avwww免费| 一级毛片久久久久久久久女| 毛片女人毛片| 一本久久中文字幕| 久久6这里有精品| 久久精品综合一区二区三区| 国产精品国产三级国产av玫瑰| eeuss影院久久| 久久99精品国语久久久| 亚洲精品乱码久久久久久按摩| 伦理电影大哥的女人| 日日摸夜夜添夜夜添av毛片| 国产亚洲精品av在线| 老女人水多毛片| 久久人妻av系列| 欧美一级a爱片免费观看看| 直男gayav资源| 内地一区二区视频在线| 亚洲性久久影院| 一区二区三区高清视频在线| 日韩三级伦理在线观看| 免费观看人在逋| 日韩 亚洲 欧美在线| 欧美一级a爱片免费观看看| 女同久久另类99精品国产91| 哪个播放器可以免费观看大片| or卡值多少钱| 久久精品夜色国产| 中文字幕久久专区| 午夜福利在线观看免费完整高清在 | 蜜臀久久99精品久久宅男| 成年女人永久免费观看视频| 国产亚洲精品久久久com| 精品99又大又爽又粗少妇毛片| 两性午夜刺激爽爽歪歪视频在线观看| 日本成人三级电影网站| av免费观看日本| 国产黄片视频在线免费观看| 99热这里只有是精品在线观看| 波多野结衣巨乳人妻| 91久久精品电影网| 久久久久久久久大av| 一区二区三区免费毛片| 尤物成人国产欧美一区二区三区| 黄色一级大片看看| 搡女人真爽免费视频火全软件| 午夜福利在线观看吧| 中文字幕人妻熟人妻熟丝袜美| 欧美+日韩+精品| 黄片wwwwww| 99久久精品国产国产毛片| 亚洲欧美成人精品一区二区| 久久精品久久久久久噜噜老黄 | 99久国产av精品| 全区人妻精品视频| 欧美性猛交╳xxx乱大交人| 99久久成人亚洲精品观看| 日韩一本色道免费dvd| 免费人成视频x8x8入口观看| 欧美最黄视频在线播放免费| 亚洲精品日韩av片在线观看| 亚洲va在线va天堂va国产| 麻豆一二三区av精品| www日本黄色视频网| 在现免费观看毛片| 不卡视频在线观看欧美| 在线免费观看的www视频| 秋霞在线观看毛片| 日韩国内少妇激情av| 亚洲精品日韩av片在线观看| 亚洲av一区综合| 国产视频内射| 欧美激情国产日韩精品一区| 国产不卡一卡二| 一级毛片我不卡| 成人午夜精彩视频在线观看| 神马国产精品三级电影在线观看| 中国国产av一级| 午夜激情福利司机影院| 黄色欧美视频在线观看| 99视频精品全部免费 在线| 久久国产乱子免费精品| 嫩草影院新地址| 精品久久久久久成人av| 成人永久免费在线观看视频| 日本五十路高清| 精品免费久久久久久久清纯| 亚洲久久久久久中文字幕| 99久久精品一区二区三区| 午夜福利在线在线| 午夜亚洲福利在线播放| 欧美3d第一页| 成人永久免费在线观看视频| 国产精品无大码| 中文字幕熟女人妻在线| 男人的好看免费观看在线视频| 国产久久久一区二区三区| 国产精品一区二区三区四区免费观看| 美女大奶头视频| 亚洲av熟女| 国产乱人偷精品视频| 国产毛片a区久久久久| 少妇被粗大猛烈的视频| 性色avwww在线观看| 99热精品在线国产| 男的添女的下面高潮视频| 最近视频中文字幕2019在线8| 美女高潮的动态| 色综合色国产| 99久久中文字幕三级久久日本| 99riav亚洲国产免费| 亚洲欧美日韩高清在线视频| 麻豆久久精品国产亚洲av| 一边亲一边摸免费视频| 日韩高清综合在线| 国内精品久久久久精免费| ponron亚洲| 亚洲内射少妇av| 欧美xxxx性猛交bbbb| 色5月婷婷丁香| 国产女主播在线喷水免费视频网站 | 春色校园在线视频观看| 男女那种视频在线观看| 日韩一本色道免费dvd| 国产国拍精品亚洲av在线观看| 在现免费观看毛片| 看黄色毛片网站| 淫秽高清视频在线观看| 成人无遮挡网站| 国产av一区在线观看免费| 亚洲电影在线观看av| 九九久久精品国产亚洲av麻豆| 欧美zozozo另类| 成熟少妇高潮喷水视频| 精品少妇黑人巨大在线播放 | 天天一区二区日本电影三级| 国产伦精品一区二区三区视频9| 日韩成人av中文字幕在线观看| 天堂影院成人在线观看| 国产一级毛片七仙女欲春2| 我要看日韩黄色一级片| 国产精品久久久久久久久免| 欧美日韩综合久久久久久| 有码 亚洲区| 日本在线视频免费播放| 日日啪夜夜撸| 99久国产av精品国产电影| 国产午夜精品论理片| 亚洲一级一片aⅴ在线观看| 性欧美人与动物交配| 悠悠久久av| 国产成人a∨麻豆精品| 日韩一区二区视频免费看| 色综合亚洲欧美另类图片| 国产精华一区二区三区| 国产伦在线观看视频一区| 国产高清视频在线观看网站| 一级av片app| 熟妇人妻久久中文字幕3abv| 色吧在线观看| 亚洲一区高清亚洲精品| 变态另类成人亚洲欧美熟女| 中国国产av一级| 高清毛片免费看| 22中文网久久字幕| av在线天堂中文字幕| 在线播放国产精品三级| 日本五十路高清| 18禁在线无遮挡免费观看视频| 成人一区二区视频在线观看| 亚洲成人中文字幕在线播放| 高清毛片免费观看视频网站| 国产成人午夜福利电影在线观看| avwww免费| 久99久视频精品免费| 国内精品一区二区在线观看| 国产国拍精品亚洲av在线观看| 99热全是精品| av天堂中文字幕网| 亚洲精品国产av成人精品| 九九在线视频观看精品| 久久久久九九精品影院| 国产精品一区二区性色av| 国产亚洲精品久久久com| 欧美日本视频| 国产成人91sexporn| 精品欧美国产一区二区三| 亚洲成av人片在线播放无| 日产精品乱码卡一卡2卡三| 嫩草影院入口| 大又大粗又爽又黄少妇毛片口| 亚洲成人中文字幕在线播放| 能在线免费观看的黄片| 九草在线视频观看| 国产精品一区二区三区四区久久| 免费看av在线观看网站| 欧美区成人在线视频| 国产精品爽爽va在线观看网站| 精品久久久久久久久久久久久| 男人舔奶头视频| 能在线免费看毛片的网站| 亚洲国产日韩欧美精品在线观看| 国产私拍福利视频在线观看| 啦啦啦啦在线视频资源| av在线蜜桃| 一级毛片久久久久久久久女| 成人综合一区亚洲| 精品久久久久久久久亚洲| 国产淫片久久久久久久久| 欧美激情久久久久久爽电影| 国产一区亚洲一区在线观看| 亚洲精品456在线播放app| 国产极品精品免费视频能看的| 日本欧美国产在线视频| 在线观看av片永久免费下载| 99热全是精品| av国产免费在线观看| 中出人妻视频一区二区| 男女下面进入的视频免费午夜| 高清毛片免费看| 久久久久久久久大av| av在线老鸭窝| 久久久久久国产a免费观看| 日韩一区二区视频免费看| 91久久精品国产一区二区三区| 亚洲欧美成人精品一区二区| 两个人视频免费观看高清| 免费无遮挡裸体视频| 国模一区二区三区四区视频| 国产精品一区二区性色av| 可以在线观看的亚洲视频| 国产乱人视频| 国产精品伦人一区二区| 久久99热这里只有精品18| 国产综合懂色| 亚洲国产欧美人成| 亚洲,欧美,日韩| 69人妻影院| 国产精品1区2区在线观看.| 午夜免费激情av| 亚洲欧美精品自产自拍| 非洲黑人性xxxx精品又粗又长| 日本与韩国留学比较| 人妻久久中文字幕网| www.色视频.com| 国产又黄又爽又无遮挡在线| 精品久久国产蜜桃| 内射极品少妇av片p| 一个人观看的视频www高清免费观看| 日本成人三级电影网站| av女优亚洲男人天堂| 国产乱人视频| 中出人妻视频一区二区| 91麻豆精品激情在线观看国产| 欧美一级a爱片免费观看看| 一级毛片电影观看 | 亚洲,欧美,日韩| 少妇猛男粗大的猛烈进出视频 | 99热这里只有是精品在线观看| 成人三级黄色视频| 别揉我奶头 嗯啊视频| 免费电影在线观看免费观看| 成人午夜精彩视频在线观看| 最近中文字幕高清免费大全6| 国产精品一区二区在线观看99 | 国产高清视频在线观看网站| 国产成人午夜福利电影在线观看| 亚洲av熟女| 九九在线视频观看精品| 国产精品久久久久久精品电影小说 | 自拍偷自拍亚洲精品老妇| 性欧美人与动物交配| 国产精品av视频在线免费观看| 直男gayav资源| 九九久久精品国产亚洲av麻豆| 国产av不卡久久| 搡老妇女老女人老熟妇| 在线观看66精品国产| 亚洲最大成人手机在线| 日本五十路高清| 校园春色视频在线观看| 亚洲国产欧洲综合997久久,| 日韩欧美在线乱码| 国产成人a∨麻豆精品| 亚洲第一区二区三区不卡| 精品人妻熟女av久视频| 91av网一区二区| 久久精品国产亚洲av天美| 国产男人的电影天堂91| 亚洲性久久影院| 国产精品久久视频播放| 欧美一区二区精品小视频在线| 日本黄色片子视频| 草草在线视频免费看| 亚洲av成人精品一区久久| 噜噜噜噜噜久久久久久91| 天天一区二区日本电影三级| 禁无遮挡网站| 欧美日本亚洲视频在线播放| 亚洲国产精品国产精品| 色综合站精品国产| 成年版毛片免费区| 日韩亚洲欧美综合| 国产 一区精品| 午夜久久久久精精品| 一边亲一边摸免费视频| 伊人久久精品亚洲午夜| 给我免费播放毛片高清在线观看| 亚洲真实伦在线观看| 中文字幕免费在线视频6| 美女黄网站色视频| 日韩成人伦理影院| 一边摸一边抽搐一进一小说| 亚洲av中文av极速乱| 午夜精品国产一区二区电影 | 久久精品国产亚洲av天美| АⅤ资源中文在线天堂| 亚洲最大成人中文| 好男人在线观看高清免费视频| 久久人人精品亚洲av| 国产在视频线在精品| 九九热线精品视视频播放| 国产精品一区二区三区四区免费观看| 国产片特级美女逼逼视频| 成人三级黄色视频| 久久久精品大字幕| 日韩成人av中文字幕在线观看| 中文亚洲av片在线观看爽| 亚洲人与动物交配视频| 亚洲美女视频黄频| 小蜜桃在线观看免费完整版高清| 嫩草影院入口| 亚洲精品自拍成人| 欧美高清性xxxxhd video| 亚洲精品粉嫩美女一区| 亚洲最大成人中文| 精品一区二区三区视频在线| 国产一区二区在线观看日韩| 99精品在免费线老司机午夜| 欧美zozozo另类| 亚洲成人久久性| 亚洲欧美精品综合久久99| av又黄又爽大尺度在线免费看 | 国产精品久久久久久久电影| 99热这里只有是精品在线观看| 美女国产视频在线观看| 久久亚洲国产成人精品v| 亚洲高清免费不卡视频| 神马国产精品三级电影在线观看| 99久久成人亚洲精品观看| 国产视频首页在线观看| 在线观看免费视频日本深夜| 欧美xxxx性猛交bbbb| 草草在线视频免费看| 波多野结衣巨乳人妻| 嫩草影院入口| 亚洲av中文av极速乱| 99久久成人亚洲精品观看| 激情 狠狠 欧美| 女同久久另类99精品国产91| 色视频www国产| 99热只有精品国产| 两性午夜刺激爽爽歪歪视频在线观看| 好男人在线观看高清免费视频| 日日啪夜夜撸| 中出人妻视频一区二区| 成人国产麻豆网| 精品久久久久久久久久久久久| 婷婷六月久久综合丁香| 日本三级黄在线观看| 久久亚洲精品不卡| 免费黄网站久久成人精品| 搡女人真爽免费视频火全软件| 久久精品国产亚洲av天美| 亚洲自拍偷在线| 国产黄a三级三级三级人| 午夜精品一区二区三区免费看| 国产成年人精品一区二区| 天堂网av新在线| 床上黄色一级片| 欧美高清成人免费视频www| 中文字幕熟女人妻在线| 国产免费男女视频| 九九热线精品视视频播放| 久久久久久久久中文| АⅤ资源中文在线天堂| 少妇的逼水好多| 超碰av人人做人人爽久久| 岛国毛片在线播放| 亚洲av熟女| 精品不卡国产一区二区三区| 99久久精品国产国产毛片| 欧美一区二区精品小视频在线| 少妇熟女欧美另类| 97人妻精品一区二区三区麻豆| 蜜桃久久精品国产亚洲av| avwww免费| 中文字幕人妻熟人妻熟丝袜美| 五月玫瑰六月丁香| 赤兔流量卡办理| 青青草视频在线视频观看| 少妇高潮的动态图| 高清毛片免费观看视频网站| 国产爱豆传媒在线观看| 国产单亲对白刺激| 亚洲精品粉嫩美女一区| 国产老妇女一区| 性欧美人与动物交配| 国产黄a三级三级三级人| 在线观看66精品国产| 成人二区视频| 国国产精品蜜臀av免费| 在线天堂最新版资源| 精品日产1卡2卡| 噜噜噜噜噜久久久久久91| 寂寞人妻少妇视频99o| 亚洲美女搞黄在线观看| 偷拍熟女少妇极品色| 一区二区三区高清视频在线| 国产久久久一区二区三区| 超碰av人人做人人爽久久| 成人毛片a级毛片在线播放| av黄色大香蕉| а√天堂www在线а√下载| 欧美一区二区精品小视频在线| 日韩欧美国产在线观看| 青青草视频在线视频观看| 日本免费一区二区三区高清不卡| 亚洲美女搞黄在线观看| av在线天堂中文字幕| 欧美精品一区二区大全| 中文字幕人妻熟人妻熟丝袜美| 亚洲七黄色美女视频| 亚洲av中文av极速乱| 国产成人a区在线观看| 91久久精品国产一区二区成人|