劉荊欣,王 妍,2+,韓 笑,夏長(zhǎng)清,宋寶燕
1.遼寧大學(xué) 信息學(xué)院,沈陽(yáng)110036
2.中國(guó)科學(xué)院 沈陽(yáng)自動(dòng)化研究所 機(jī)器人學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,沈陽(yáng)110016
3.中國(guó)科學(xué)院 沈陽(yáng)自動(dòng)化研究所 網(wǎng)絡(luò)化控制系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,沈陽(yáng)110016
4.中國(guó)科學(xué)院 機(jī)器人與智能制造創(chuàng)新研究院,沈陽(yáng)110169
隨著移動(dòng)計(jì)算和物聯(lián)網(wǎng)時(shí)代的發(fā)展,傳統(tǒng)的云-端集中處理方式逐漸顯現(xiàn)出諸多弊端。相比于云計(jì)算的不足,移動(dòng)邊緣計(jì)算(mobile edge computing,MEC)解決了網(wǎng)絡(luò)負(fù)載大、高時(shí)延、帶寬不足等問(wèn)題。MEC 可以將計(jì)算資源豐富的邊緣設(shè)備轉(zhuǎn)化為邊緣云,資源受限的終端設(shè)備可以通過(guò)無(wú)線網(wǎng)絡(luò)將任務(wù)卸載到邊緣云服務(wù)器,實(shí)現(xiàn)云-邊-端的分布式管理模式。
在MEC 系統(tǒng)中,計(jì)算資源的管理對(duì)于提高系統(tǒng)資源利用率和優(yōu)化系統(tǒng)資源效益起著關(guān)鍵作用。邊緣云服務(wù)器處理外來(lái)任務(wù)會(huì)消耗本地計(jì)算資源,因此,終端設(shè)備需要依據(jù)邊緣云的資源定價(jià)機(jī)制支付一定的服務(wù)費(fèi)用,旨在激勵(lì)邊緣云提供充足的計(jì)算資源。
現(xiàn)有定價(jià)機(jī)制如拍賣機(jī)制依賴于中間商的靜態(tài)定價(jià),不足之處一方面表現(xiàn)為拍賣雙方需要向中間商支付額外的服務(wù)費(fèi)用,總成本增加使得資源交易雙方無(wú)法實(shí)現(xiàn)最優(yōu)效益;另一方面靜態(tài)定價(jià)不能很好地滿足終端設(shè)備資源需求的動(dòng)態(tài)變化,終端設(shè)備對(duì)資源的總需求量減少,邊緣云服務(wù)器難以實(shí)現(xiàn)本地資源的有效利用。為解決上述問(wèn)題,本文構(gòu)建基于Stackelberg 博弈的邊緣云資源定價(jià)機(jī)制,在最大化資源供需雙方效益的同時(shí)實(shí)現(xiàn)計(jì)算資源的有效利用。主要研究貢獻(xiàn)如下:
(1)針對(duì)資源定價(jià)時(shí)終端設(shè)備存在因資金不足而導(dǎo)致的本地任務(wù)擱置問(wèn)題,本文提出包含貸款和激勵(lì)的輔助機(jī)制,用以增加終端設(shè)備的參與積極性與資源需求量,實(shí)現(xiàn)終端設(shè)備任務(wù)的及時(shí)處理。
(2)針對(duì)博弈時(shí)間過(guò)長(zhǎng)與價(jià)格制定不準(zhǔn)確帶來(lái)的問(wèn)題,提出影響資源定價(jià)的四種價(jià)格導(dǎo)向因素,根據(jù)價(jià)格導(dǎo)向因素制定了一致性與彈性兩種定價(jià)方案,為后續(xù)的動(dòng)態(tài)定價(jià)做準(zhǔn)備。
(3)針對(duì)傳統(tǒng)靜態(tài)定價(jià)策略成本高且無(wú)法滿足終端設(shè)備的動(dòng)態(tài)性需求問(wèn)題,構(gòu)建基于Stackelberg 博弈的資源定價(jià)機(jī)制,為終端設(shè)備提供不同資源需求下的價(jià)格差異化服務(wù)。該模型將資源需求與定價(jià)問(wèn)題轉(zhuǎn)化為邊緣云收益最大與終端設(shè)備支付成本最小問(wèn)題。
(4)移動(dòng)邊緣計(jì)算對(duì)資源定價(jià)的實(shí)時(shí)性要求高,本文設(shè)計(jì)出一種改進(jìn)的強(qiáng)化學(xué)習(xí)SARSA 算法,可以較快獲得邊緣云資源定價(jià)的最優(yōu)解。實(shí)驗(yàn)表明,改進(jìn)的SARSA 算法的性能較優(yōu)于其他算法。
近年來(lái),很多學(xué)者對(duì)邊緣系統(tǒng)效益的最優(yōu)資源定價(jià)問(wèn)題進(jìn)行了相關(guān)研究,主流的研究分為定價(jià)導(dǎo)向因素與最優(yōu)定價(jià)求解兩個(gè)方向。
在資源定價(jià)導(dǎo)向因素的研究中,文獻(xiàn)[9]提出一種云計(jì)算資源定價(jià)算法,該算法通過(guò)分析資源的歷史利用率,不斷迭代得到當(dāng)前的資源價(jià)格。但是該定價(jià)算法僅考慮資源利用率的使用情況,未分析影響定價(jià)的其他導(dǎo)向因素。在文獻(xiàn)[10]中提出基于價(jià)格的分布式算法。該文獻(xiàn)僅以任務(wù)調(diào)度作為資源定價(jià)的研究點(diǎn)。文獻(xiàn)[11]為云中心設(shè)定了靜態(tài)的資源定價(jià)方案,雖然定價(jià)操作簡(jiǎn)單但不能滿足終端設(shè)備的動(dòng)態(tài)性需求,但是難以實(shí)現(xiàn)資源的有效利用。文獻(xiàn)[10-11]都沒(méi)有考慮用戶需求與資源價(jià)格的實(shí)時(shí)關(guān)系,無(wú)法依據(jù)用戶需求動(dòng)態(tài)調(diào)整資源價(jià)格。
在資源定價(jià)機(jī)制中另一主要研究點(diǎn)為資源價(jià)格的最優(yōu)求解方法?,F(xiàn)有最優(yōu)求解大多采用拍賣思想與博弈理論。在文獻(xiàn)[12]中,作者通過(guò)拍賣算法實(shí)現(xiàn)系統(tǒng)效益和多維資源的聯(lián)合優(yōu)化,定價(jià)方式為系統(tǒng)性能的提升與單位效益的乘積。但該算法以每輪拍賣結(jié)果為優(yōu)化目標(biāo),導(dǎo)致結(jié)果難以趨近全局最優(yōu)且系統(tǒng)的執(zhí)行成本高。在云計(jì)算或MEC 的資源定價(jià)與分配問(wèn)題中,文獻(xiàn)[4,11,13]均采用Stackelberg 博弈理論。在文獻(xiàn)[4]中,作者將提供商和需求者的相互作用建模為Stackelberg 游戲,并通過(guò)Wolf-PHC 算法搜索最優(yōu)定價(jià)策略。但由于Wolf-PHC 為確定性策略,易受外部環(huán)境的影響,同時(shí)需要遍歷整個(gè)Q 表,導(dǎo)致時(shí)間復(fù)雜度高。在文獻(xiàn)[11,13]中,均通過(guò)博弈理論的逆向歸納方法求得納什均衡解。但逆向歸納方法是從博弈的最后階段對(duì)每種可能路徑進(jìn)行比較,若出現(xiàn)不同路徑卻有相同利益時(shí),該方法無(wú)法確定唯一的最優(yōu)路徑,適用性失效。
通過(guò)分析可以得出,目前的研究未深入分析影響資源定價(jià)的導(dǎo)向因素,而資源定價(jià)時(shí)定價(jià)導(dǎo)向因素的變動(dòng)將直接影響定價(jià)準(zhǔn)確性。在資源定價(jià)的最優(yōu)求解方法上還存在求解結(jié)果難以趨近全局最優(yōu)、資源利用率低、執(zhí)行時(shí)間復(fù)雜度及費(fèi)用高等問(wèn)題亟待解決。
針對(duì)資源定價(jià)場(chǎng)景中存在的終端設(shè)備任務(wù)處理不及時(shí)與邊緣云資源定價(jià)不準(zhǔn)確等問(wèn)題,本文構(gòu)建了邊緣云資源定價(jià)系統(tǒng)模型,旨在最大化邊緣云效益的同時(shí)為終端設(shè)備提供計(jì)算資源服務(wù)。如圖1 所示,資源需求輔助機(jī)制包括貸款機(jī)制和激勵(lì)機(jī)制。貸款機(jī)制可以促使終端設(shè)備盡可能多地使用邊緣服務(wù)器并實(shí)現(xiàn)本地任務(wù)的實(shí)時(shí)處理。設(shè)計(jì)激勵(lì)機(jī)制的目的一方面在于減輕終端設(shè)備的支付成本,另一方面可以增加終端設(shè)備對(duì)計(jì)算資源的需求,進(jìn)而提升系統(tǒng)的計(jì)算資源利用率。為了縮短邊緣云資源定價(jià)時(shí)間并提高定價(jià)的準(zhǔn)確性,設(shè)計(jì)了包含價(jià)格導(dǎo)向因素與定價(jià)方案的資源定價(jià)機(jī)制,實(shí)現(xiàn)邊緣云的最優(yōu)效益。本文將終端設(shè)備資源需求行為與邊緣云資源定價(jià)行為設(shè)計(jì)成兩階段的Stackelberg 邊緣云博弈模型,該博弈模型摒棄了第三方的參與,打破了靜態(tài)定價(jià)無(wú)法滿足資源動(dòng)態(tài)性需求的局面,實(shí)現(xiàn)資源供需雙方直接交互。為滿足移動(dòng)邊緣計(jì)算的實(shí)時(shí)性需求,本文設(shè)計(jì)出一種改進(jìn)的強(qiáng)化學(xué)習(xí)SARSA 算法,可以較快獲得邊緣云資源定價(jià)與終端設(shè)備資源需求的最優(yōu)解。
圖1 邊緣云資源定價(jià)系統(tǒng)模型Fig.1 Edge cloud resource pricing system model
在資源定價(jià)場(chǎng)景中,當(dāng)終端設(shè)備的剩余資金難以負(fù)擔(dān)資源的支付費(fèi)用時(shí),本地任務(wù)將無(wú)法得到及時(shí)的處理,因此,提出包含貸款機(jī)制與激勵(lì)機(jī)制的資源需求輔助機(jī)制,以緩解終端設(shè)備的任務(wù)執(zhí)行壓力,實(shí)現(xiàn)任務(wù)的及時(shí)處理。
針對(duì)終端設(shè)備在資源定價(jià)場(chǎng)景下存在因資金不足導(dǎo)致任務(wù)被擱置問(wèn)題,提出基于信用度的貸款機(jī)制,以保證終端設(shè)備參與任務(wù)卸載的積極性。令a∈{0,1}表示終端設(shè)備的資金狀況,a=1 表明資金充足,等待資源提供者定價(jià);a=0 表明沒(méi)有足夠的資金購(gòu)買邊緣云資源,致使本地任務(wù)無(wú)法及時(shí)處理。為解決此問(wèn)題,提出基于信用度的貸款機(jī)制,允許終端設(shè)備向臨近的邊緣云服務(wù)器發(fā)送貸款請(qǐng)求。
當(dāng)邊緣云服務(wù)器接收到貸款請(qǐng)求后,會(huì)立即對(duì)貸款者G的信用度進(jìn)行多方位的審核,審核內(nèi)容包括:(1)貸款者需持有一些本地資源,可以服務(wù)外來(lái)小額任務(wù);(2)貸款者是否成功償還系統(tǒng)規(guī)定的押金數(shù)額;(3)根據(jù)終端設(shè)備以往貸款紀(jì)錄計(jì)算的信用度為非負(fù)值。終端設(shè)備的信用度計(jì)算公式為:
其中,()為當(dāng)前計(jì)算的信用度,設(shè)定()的初值()=10。()為上輪信用度,()為本輪貸款金額,為常量。
邊緣云服務(wù)器會(huì)給審核通過(guò)的終端設(shè)備發(fā)放貸款金額(),并為其設(shè)定貸款利率和未按時(shí)還款的懲罰因子。若貸款者在規(guī)定時(shí)間內(nèi)償還()與貸款利息,則=0 且()值加1。未按時(shí)還款時(shí)=1,信用度減1,并產(chǎn)生額外的懲罰金額。懲罰金額()的計(jì)算公式為:
其中,代表逾期利率,t是規(guī)定的還款時(shí)間,t是逾期時(shí)間,是貸款利率,是未按時(shí)還款的懲罰因子。若G拒絕還款或未在系統(tǒng)可容忍的最大時(shí)間內(nèi)還款,邊緣云服務(wù)器將沒(méi)收終端設(shè)備的押金,并向全網(wǎng)廣播G的個(gè)人信息,所有設(shè)備都將拒絕為G提供資源服務(wù)。
終端設(shè)備進(jìn)行任務(wù)卸載時(shí),除了存在因資金不足導(dǎo)致任務(wù)無(wú)法執(zhí)行問(wèn)題外,還將面臨由支付資源費(fèi)用所引發(fā)的資金壓力,而這會(huì)在一定程度上削弱終端設(shè)備增加資源需求的動(dòng)機(jī)。為此,提出基于誘導(dǎo)因素的激勵(lì)機(jī)制,該激勵(lì)機(jī)制鼓勵(lì)終端設(shè)備向云中心共享數(shù)據(jù)以獲得相應(yīng)的獎(jiǎng)勵(lì),旨在通過(guò)終端設(shè)備、邊緣云服務(wù)器、云計(jì)算中心三者間的協(xié)同合作增加終端設(shè)備的總資源需求并提高資源利用率。首先,邊緣云服務(wù)器作為任務(wù)處理商,會(huì)將任務(wù)處理結(jié)果相繼反饋給終端設(shè)備及云數(shù)據(jù)中心。而后,云中心充當(dāng)數(shù)據(jù)收集站,將給予作為原始數(shù)據(jù)提供者的終端設(shè)備相應(yīng)的獎(jiǎng)勵(lì)。激勵(lì)機(jī)制計(jì)算公式如下:
其中,表示云中心設(shè)定的固定獎(jiǎng)勵(lì),(G)表示G的資源需求e相對(duì)于系統(tǒng)總資源需求的占比,表示終端設(shè)備基于激勵(lì)機(jī)制所得獎(jiǎng)勵(lì),其值與資源需求量e成正比?;谡T導(dǎo)因素的激勵(lì)機(jī)制一方面可以減少終端設(shè)備的支付成本,增加終端設(shè)備的任務(wù)卸載積極性;另一方面,激勵(lì)機(jī)制與終端設(shè)備的資源需求量相關(guān),一定程度上促進(jìn)終端設(shè)備增強(qiáng)資源需求的動(dòng)機(jī)。
在移動(dòng)邊緣計(jì)算網(wǎng)絡(luò)中,邊緣云服務(wù)器持有有限的計(jì)算資源,為激勵(lì)其提供資源服務(wù),需要為邊緣云制定合理的資源價(jià)格。本文提出影響資源定價(jià)的四種導(dǎo)向因素,并根據(jù)導(dǎo)向因素為邊緣云制定一致性與彈性兩種定價(jià)方案,以提高定價(jià)的準(zhǔn)確性并為后續(xù)的動(dòng)態(tài)定價(jià)做準(zhǔn)備。
價(jià)格導(dǎo)向因素的分析是實(shí)現(xiàn)邊緣云資源準(zhǔn)確定價(jià)的基石。同樣,價(jià)格的準(zhǔn)確性將進(jìn)一步影響交易雙方的利益,本研究提出如下四種價(jià)格導(dǎo)向因素。
(1)資源總需求導(dǎo)向定價(jià)。邊緣云服務(wù)器可根據(jù)本地資源剩余量與各終端設(shè)備資源總需求量間的實(shí)時(shí)關(guān)系,動(dòng)態(tài)設(shè)置資源價(jià)格。當(dāng)邊緣云資源剩余量較少且終端設(shè)備的總需求較大時(shí),可適當(dāng)提高資源價(jià)格以賺取更多獎(jiǎng)勵(lì)。而當(dāng)資源剩余量多且終端設(shè)備總需求較小時(shí),可以適當(dāng)降低資源價(jià)格刺激資源消費(fèi)。總需求導(dǎo)向定價(jià)的價(jià)格調(diào)整因子α如式(4)所示,其中為當(dāng)前邊緣云服務(wù)器的資源剩余量,為各終端設(shè)備本輪的總資源需求。
(2)競(jìng)爭(zhēng)環(huán)境導(dǎo)向定價(jià)。由于終端設(shè)備會(huì)優(yōu)先選擇可以提供相同服務(wù)且資源價(jià)格低廉的邊緣云服務(wù)器,邊緣云服務(wù)器必須考慮其他競(jìng)爭(zhēng)者的定價(jià)策略。邊緣云服務(wù)器本輪資源價(jià)格將以競(jìng)爭(zhēng)者上輪的平均定價(jià)為依據(jù),定義價(jià)格調(diào)整因子α如式(5)所示,其中′代表服務(wù)器設(shè)定的初始資源價(jià)格,代表上輪競(jìng)爭(zhēng)者的平均資源定價(jià)。
(3)對(duì)象屬性導(dǎo)向定價(jià)。邊緣云服務(wù)器作為一種位置比較固定的基礎(chǔ)設(shè)施,其身份信任度是可靠的。而終端設(shè)備因具有較強(qiáng)的移動(dòng)性,其身份信任度很難確認(rèn)。為此,本文將終端設(shè)備的行為可信度作為定價(jià)導(dǎo)向因素之一,邊緣云通過(guò)對(duì)比各終端設(shè)備的當(dāng)前可信度屬性值,有選擇性地為各終端設(shè)備設(shè)定資源價(jià)格,保證資源管理的安全性。定義價(jià)格調(diào)整因子α如式(6)所示,其中為常數(shù),()表示終端設(shè)備的信用度。
(4)對(duì)象需求導(dǎo)向定價(jià)。各邊緣云服務(wù)器可根據(jù)終端設(shè)備資源需求量的不同,調(diào)整售賣給各終端設(shè)備的資源價(jià)格,旨在激勵(lì)終端設(shè)備的增加資源需求量。當(dāng)終端設(shè)備資源需求量增多導(dǎo)致資源競(jìng)爭(zhēng)加劇時(shí),可適當(dāng)調(diào)高資源價(jià)格獲取收益;對(duì)于資源需求量少的終端設(shè)備,可通過(guò)降低資源價(jià)格來(lái)提升系統(tǒng)的總資源需求。定義價(jià)格調(diào)整因子α如式(7)所示,其中,為終端設(shè)備的本輪資源需求,上輪資源需求為,為上輪資源價(jià)格。
合理的定價(jià)策略不僅能夠激勵(lì)供需雙方進(jìn)行有序的資源交易,而且將促進(jìn)雙方利益的優(yōu)化和資源的有效利用。依據(jù)不同導(dǎo)向因素的價(jià)格調(diào)整因子為邊緣云服務(wù)器制定了一致性與彈性兩種定價(jià)方案。
一致性定價(jià)下,邊緣云服務(wù)器對(duì)本地資源的需求者設(shè)定相同的資源價(jià)格p,該定價(jià)方案對(duì)終端設(shè)備而言是公平的,沒(méi)有價(jià)格差別,更容易實(shí)施。由于在單位時(shí)間內(nèi),每個(gè)邊緣云的總需求導(dǎo)向定價(jià)和競(jìng)爭(zhēng)環(huán)境導(dǎo)向定價(jià)的各價(jià)格調(diào)整因子α、α都是固定的,因此可以為接入網(wǎng)絡(luò)的各終端設(shè)備設(shè)定一致的資源價(jià)格。一致性定價(jià)方案p的計(jì)算如式(8)所示。
彈性定價(jià)方案下,由于每個(gè)終端設(shè)備的屬性值與資源需求量不同,邊緣云服務(wù)器可根據(jù)對(duì)象屬性與對(duì)象資源需求導(dǎo)向定價(jià)的價(jià)格調(diào)整因子α、α的差別性為終端設(shè)備制定不同的資源價(jià)格。彈性定價(jià)方案p的計(jì)算如式(9)所示。
為獲得終端設(shè)備資源需求及邊緣云定價(jià)的最優(yōu)策略,首先,根據(jù)用戶需求量與系統(tǒng)資源定價(jià)之間的實(shí)時(shí)關(guān)系,引入斯坦克伯格(Stackelberg)動(dòng)態(tài)博弈模型,并分別為資源供需雙方設(shè)置效用函數(shù)。其次,驗(yàn)證了非合作博弈中終端設(shè)備與邊緣云服務(wù)器各納什均衡點(diǎn)的存在性。最后,采用強(qiáng)化學(xué)習(xí)算法求解最優(yōu)策略問(wèn)題,旨在實(shí)現(xiàn)邊緣云收益最大與終端設(shè)備支付成本最小。
由于邊緣云服務(wù)器的資源定價(jià)策略是一個(gè)動(dòng)態(tài)優(yōu)化過(guò)程,現(xiàn)有的靜態(tài)定價(jià)策略可能無(wú)法滿足終端設(shè)備的動(dòng)態(tài)性資源需求。因此,有必要設(shè)計(jì)一種合理的動(dòng)態(tài)資源定價(jià)策略,以聯(lián)合優(yōu)化邊緣云服務(wù)器的資源效益和終端設(shè)備的支付成本。本文構(gòu)建了基于Stackelberg 博弈的資源定價(jià)模型,以實(shí)現(xiàn)資源需求與資源價(jià)格的動(dòng)態(tài)調(diào)整。
圖2 資源供需雙方的Stackelberg 博弈過(guò)程Fig.2 Stackelberg game between resource supply and demand
階段I、II 共同構(gòu)成Stackelberg 動(dòng)態(tài)博弈,博弈的目標(biāo)旨在證明納什均衡點(diǎn)(,)的存在性與唯一性。判定Stackelberg 博弈成立的條件為:
為了驗(yàn)證Stackelberg 博弈納什均衡點(diǎn)的存在性,本文分析了邊緣云服務(wù)器效用函數(shù)U和終端設(shè)備的效用函數(shù)U 的一階、二階導(dǎo)數(shù)。
通過(guò)凹凸函數(shù)證明了終端設(shè)備與邊緣云納什均衡解的存在性,本節(jié)提出改進(jìn)的強(qiáng)化學(xué)習(xí)算法得到博弈雙方最優(yōu)需求與定價(jià)決策。強(qiáng)化學(xué)習(xí)中很多場(chǎng)景涉及多智能體系統(tǒng)的交互,比如多玩家的博弈游戲。本節(jié)將終端設(shè)備與邊緣云服務(wù)器的行為建模為多智能體交互,旨在實(shí)現(xiàn)所有設(shè)備的效益最大化。
針對(duì)現(xiàn)有最優(yōu)求解方案存在適用性低、實(shí)現(xiàn)全局最優(yōu)難度大及時(shí)間復(fù)雜度高的問(wèn)題,提出改進(jìn)的SARSA(state action reward state action)算法解決上述問(wèn)題,算法思想如算法1 所示。
改進(jìn)的SARSA 算法
輸入:state space,action space,discount rate γ,learning rate,instant reward。
強(qiáng)化學(xué)習(xí)的目標(biāo)是通過(guò)訓(xùn)練得到最優(yōu)策略(,),并通過(guò)狀態(tài)值V()、狀態(tài)動(dòng)作值Q(,)評(píng)估期望回報(bào)。若滿足Q(,)>V(),則可以調(diào)整p,p增加策略(,)的概率。終端設(shè)備及邊緣云服務(wù)器值的更新策略分別為:
對(duì)于策略(s,a,根據(jù)狀態(tài)轉(zhuǎn)移概率、動(dòng)作轉(zhuǎn)移概率產(chǎn)生新的隨機(jī)性策略(s,a)=(s,a。若新的隨機(jī)策略滿足()=arg minQ(,),則()為最優(yōu)需求策略。若滿足()=arg maxQ(,),則()為最優(yōu)定價(jià)策略。
本章首先評(píng)估改進(jìn)的多智能體強(qiáng)化學(xué)習(xí)算法的性能。然后根據(jù)實(shí)驗(yàn)結(jié)果證明,所提定價(jià)機(jī)制在最大化資源供需雙方利益方面優(yōu)于現(xiàn)有的其他算法。最后,通過(guò)廣泛的數(shù)值模擬兩種定價(jià)方案對(duì)最優(yōu)資源需求及定價(jià)的影響,旨在得到最優(yōu)定價(jià)策略。
仿真實(shí)驗(yàn)基于Python 語(yǔ)言環(huán)境進(jìn)行,在仿真模擬中,通過(guò)強(qiáng)化學(xué)習(xí)算法不斷訓(xùn)練得到資源供需雙方的最優(yōu)策略。簡(jiǎn)單地將終端設(shè)備的資源需求動(dòng)作空間定義為A={20,21,…,90},邊緣云服務(wù)器的定價(jià)動(dòng)作空間定義為A={50,51,…,90}。一些默認(rèn)參數(shù)值設(shè)置如下:設(shè)定=0.000 5,=2,邊緣云的資源成本=2,貸款利率=2%,懲罰因子=5%,折扣率=0.6,學(xué)習(xí)率∈(0,1]。為保證多agent 能夠收斂到最優(yōu)解,將最大集數(shù)設(shè)定為6 000。首先通過(guò)仿真實(shí)驗(yàn)將現(xiàn)有最優(yōu)策略的求解方法與所提強(qiáng)化學(xué)習(xí)方法對(duì)比,仿真實(shí)圖像如圖3 所示。
圖3 展示了四種算法的收斂性能與環(huán)境適應(yīng)性能。由圖可知逆向回歸算法未在有限迭代次數(shù)內(nèi)收斂,其余三種算法均收斂于一個(gè)穩(wěn)定值,且本文所提算法的迭代次數(shù)最少。這是因?yàn)槟嫦蚧貧w算法無(wú)法根據(jù)環(huán)境的改變及時(shí)調(diào)整路徑,需進(jìn)行全局搜索,導(dǎo)致收斂性能差。而改進(jìn)的SARSA 算法通過(guò)狀態(tài)、動(dòng)作轉(zhuǎn)移概率,增加可能取得最大值的策略概率。在環(huán)境適應(yīng)性能方面,WOLF-PHC 與改進(jìn)的SARSA算法優(yōu)于另外兩種算法,這是由于兩種算法為盡快地訓(xùn)練出最優(yōu)策略,引入學(xué)習(xí)因子,并依據(jù)值的變化實(shí)時(shí)調(diào)整。SARSA 與改進(jìn)的SARSA 學(xué)習(xí)算法收斂性能好,但由于SARSA 算法為確定性策略,易受環(huán)境影響,學(xué)習(xí)效果欠佳。通過(guò)與各種算法對(duì)比可知,改進(jìn)的SARSA 算法的性能優(yōu)于其他算法。
圖3 四種求解最優(yōu)策略的算法比較Fig.3 Comparison of four algorithms for solving optimal strategies
圖4 是將本研究所提的兩種定價(jià)方案與文獻(xiàn)[9]、文獻(xiàn)[11]中的定價(jià)方案進(jìn)行的比較,旨在探究各定價(jià)方案對(duì)邊緣云效益的影響??梢钥闯?,隨著迭代過(guò)程的推進(jìn),效用值曲線整體呈現(xiàn)上升規(guī)律。當(dāng)?shù)螖?shù)達(dá)到21 次,除了動(dòng)態(tài)拍賣算法外,其余三種定價(jià)下服務(wù)器的效用值不再增加,收斂于最大效益值。這是因?yàn)閯?dòng)態(tài)拍賣算法將每輪的拍賣結(jié)果作為優(yōu)化目標(biāo),導(dǎo)致結(jié)果難以趨近全局最優(yōu),收斂性能差。除此之外,彈性定價(jià)方案下邊緣云效益值高于其他三種定價(jià)方案,效用值優(yōu)于一致性方案24%。這是因?yàn)楸疚耐ㄟ^(guò)價(jià)格導(dǎo)向因子制定資源價(jià)格,價(jià)格制定的準(zhǔn)確性對(duì)博弈過(guò)程中邊緣云實(shí)現(xiàn)最大化自身效益至關(guān)重要。
圖4 邊緣云效用函數(shù)的收斂情況比較Fig.4 Comparison of convergence of edge cloud utility functions
本節(jié)通過(guò)實(shí)驗(yàn)數(shù)據(jù)比較一致性定價(jià)與彈性定價(jià)對(duì)最優(yōu)資源需求與定價(jià)策略的影響,旨在為終端設(shè)備及邊緣云選擇最大化自身利益的定價(jià)方案。
首先評(píng)估兩種定價(jià)方案下終端設(shè)備數(shù)量對(duì)最優(yōu)資源定價(jià)的影響,如圖5 所示。在最高資源定價(jià)分別為80 和60 的情況下,一致性定價(jià)的最優(yōu)價(jià)格均近似于最大價(jià)格,這是因?yàn)檫吘壴品?wù)器的效益隨價(jià)格的增加而增加,并有意將一致性定價(jià)下的最優(yōu)價(jià)格設(shè)置為臨近最大價(jià)格。而彈性定價(jià)下,最優(yōu)價(jià)格略低于一致性定價(jià),且最優(yōu)價(jià)格隨終端設(shè)備數(shù)目的增加而緩慢下降。這是由于彈性定價(jià)下,邊緣云服務(wù)器可以有選擇地為終端設(shè)備設(shè)定不同的資源價(jià)格,旨在鼓勵(lì)終端設(shè)備購(gòu)買更多的資源。
圖5 終端設(shè)備數(shù)量對(duì)最優(yōu)資源定價(jià)的影響Fig.5 Impact of number of terminal devices on optimal resource pricing
圖6 評(píng)估了終端設(shè)備數(shù)量對(duì)最優(yōu)資源需求的影響??梢钥闯?,隨著終端設(shè)備的增加,單個(gè)設(shè)備的最優(yōu)資源需求下降。這是因?yàn)榻K端設(shè)備增多會(huì)加劇設(shè)備間的資源競(jìng)爭(zhēng),導(dǎo)致自身獲得資源量減少。但彈性定價(jià)下的最優(yōu)資源需求高于一致性定價(jià),這是因?yàn)閺椥远▋r(jià)可以基于定價(jià)導(dǎo)向因素為終端設(shè)備設(shè)置不同的資源價(jià)格,使得終端設(shè)備有動(dòng)力申請(qǐng)更多的資源服務(wù)。且=6 000 時(shí)的資源需求低于=8 000,這是由于獎(jiǎng)勵(lì)增加可以降低終端設(shè)備的支付成本,從而激勵(lì)終端設(shè)備增加資源需求量。
圖6 終端設(shè)備數(shù)目對(duì)最優(yōu)資源需求的影響Fig.6 Impact of number of terminal devices on optimal resource demand
圖7 展示了兩種定價(jià)方案下終端設(shè)備效用函數(shù)的收斂情況,即支付成本的收斂情況。可以看出,當(dāng)?shù)螖?shù)為18 時(shí),兩種方案下終端設(shè)備的效用值達(dá)到最小且不再變化,并且彈性定價(jià)下的支付成本略低于一致性定價(jià)7%。這是因?yàn)閺椥远▋r(jià)會(huì)促使終端設(shè)備增加資源需求量,獲得更多的云中心獎(jiǎng)勵(lì),并且彈性定價(jià)下最優(yōu)資源定價(jià)低于一致性定價(jià)。因此,終端設(shè)備在彈性定價(jià)方案下實(shí)現(xiàn)最小化支付成本,獲得資源需求的納什均衡解。
圖7 兩種定價(jià)方案下終端設(shè)備效用函數(shù)的收斂情況Fig.7 Convergence of utility functions of terminal devices under two pricing schemes
針對(duì)現(xiàn)有定價(jià)機(jī)制在定價(jià)導(dǎo)向因素與最優(yōu)定價(jià)求解方面存在價(jià)格制定不準(zhǔn)確,最優(yōu)解難以趨近全局最優(yōu),依賴中間商的靜態(tài)定價(jià)費(fèi)用高,資源利用率低,執(zhí)行時(shí)間復(fù)雜度高等上述問(wèn)題,本文構(gòu)建了一種基于Stackelberg 博弈的邊緣云資源定價(jià)機(jī)制模型。首先,提出了包含貸款和激勵(lì)的輔助機(jī)制以促使終端設(shè)備任務(wù)的及時(shí)處理;其次,提出了影響資源定價(jià)的四種價(jià)格導(dǎo)向因素,并據(jù)此制定一致性與彈性兩種定價(jià)方案,提高了定價(jià)的準(zhǔn)確性和效率;然后,構(gòu)建了基于Stackelberg 博弈的資源定價(jià)機(jī)制模型,實(shí)現(xiàn)了資源需求與資源價(jià)格的動(dòng)態(tài)調(diào)整,聯(lián)合優(yōu)化了邊緣云服務(wù)器的資源效益與終端設(shè)備的支付成本;最后,通過(guò)改進(jìn)的強(qiáng)化學(xué)習(xí)SARSA 算法得到了資源需求及定價(jià)的最優(yōu)策略。實(shí)驗(yàn)表明,改進(jìn)的SARSA 算法在收斂性能、學(xué)習(xí)效果、邊緣云效益等方面優(yōu)于其他最優(yōu)求解算法,同時(shí)終端設(shè)備和邊緣云服務(wù)器的效用函數(shù)均在彈性定價(jià)方案下實(shí)現(xiàn)最優(yōu)。本文所提定價(jià)方法在多終端設(shè)備同時(shí)與同一邊緣云服務(wù)器博弈的情況下,博弈進(jìn)程的時(shí)間可能略有增加,后續(xù)工作將針對(duì)現(xiàn)有方案存在的不足之處加以完善。