• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      考慮時(shí)變獎(jiǎng)勵(lì)的多搖臂算法在動(dòng)態(tài)定價(jià)中的應(yīng)用

      2021-06-23 09:41:06喬勛雙畢文杰
      關(guān)鍵詞:搖臂置信區(qū)間學(xué)習(xí)策略

      喬勛雙,畢文杰

      中南大學(xué) 商學(xué)院,長(zhǎng)沙410000

      隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,大數(shù)據(jù)正以“侵略”式的速度蔓延并占領(lǐng)金融、保險(xiǎn)、醫(yī)療、零售、物流、電子商務(wù)及電信等具有突出代表性的行業(yè)[1]。收益管理作為一種以數(shù)據(jù)分析為基礎(chǔ)、以價(jià)格策略為核心的現(xiàn)代管理手段,隨著大數(shù)據(jù)等相關(guān)技術(shù)與應(yīng)用的發(fā)展,正在產(chǎn)生巨大變革。計(jì)算機(jī)技術(shù)的提高,互聯(lián)網(wǎng)的普及和電子商務(wù)的蓬勃發(fā)展,大大降低了企業(yè)由于調(diào)整價(jià)格所帶來(lái)的額外交易成本[2]。動(dòng)態(tài)定價(jià)也因此被廣泛應(yīng)用于酒店、金融、互聯(lián)網(wǎng)、零售業(yè)、電信、能源供應(yīng)和旅游等行業(yè)。Jacobson等[3]指出企業(yè)定價(jià)提高1%,企業(yè)的運(yùn)營(yíng)效益往往能提高7%~15%。研究與實(shí)踐也表明,動(dòng)態(tài)定價(jià)確實(shí)能夠顯著提高企業(yè)的收益[4]。Gallego等[5]最早將動(dòng)態(tài)定價(jià)和收益管理聯(lián)系起來(lái),采用強(qiáng)度控制理論研究了易逝品的動(dòng)態(tài)定價(jià)問(wèn)題。Carvalho等[6]考慮如何動(dòng)態(tài)調(diào)整商品價(jià)格,使得有限時(shí)間段內(nèi)的收益最大。

      在此背景下,越來(lái)越多的學(xué)者采用算法定價(jià)的方法來(lái)確定其商品和服務(wù)的收費(fèi)標(biāo)準(zhǔn)[7]。算法可以較好地通過(guò)觀察消費(fèi)者的購(gòu)買過(guò)程,并根據(jù)其特征動(dòng)態(tài)甚至個(gè)性化地制定價(jià)格[8],因此研究了多搖臂算法在動(dòng)態(tài)定價(jià)問(wèn)題上的應(yīng)用。多搖臂是一個(gè)簡(jiǎn)單但非常強(qiáng)大的算法框架,可在需求等相關(guān)信息不確定的情況下隨時(shí)間的推移做出決策[9-10]。其主要用于研究決策者面臨探索-利用權(quán)衡的經(jīng)典問(wèn)題,而動(dòng)態(tài)定價(jià)涉及在變化的市場(chǎng)環(huán)境中對(duì)產(chǎn)品或服務(wù)進(jìn)行最優(yōu)定價(jià),通常會(huì)在最大化即時(shí)獎(jiǎng)勵(lì)和學(xué)習(xí)未知環(huán)境屬性之間產(chǎn)生權(quán)衡[11],這種利用-探索權(quán)衡在動(dòng)態(tài)定價(jià)領(lǐng)域得到廣泛研究[12-13],因此多搖臂算法可以幫助決策者在學(xué)習(xí)過(guò)程中選擇合適的搖臂以實(shí)現(xiàn)更好的利潤(rùn)。

      置信區(qū)間上界算法最早由Lai等[14]提出,該算法借鑒類似于貝葉斯學(xué)習(xí)的思想,將估計(jì)的不確定性引入到解決方案中。隨后由Rothschild[15]第一次在文章中將動(dòng)態(tài)定價(jià)建模為多搖臂賭博機(jī)問(wèn)題。Degroote等人[16]將在線算法的選擇問(wèn)題建模為多搖臂問(wèn)題,基于Epsilon貪婪算法實(shí)現(xiàn)了在線算法自動(dòng)選擇的強(qiáng)化學(xué)習(xí)算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該算法的有效性。Kleinberg等[17]提出了有限時(shí)間水平下動(dòng)態(tài)定價(jià)問(wèn)題的最差后悔公式,并被廣泛使用。Chen等人[18]研究了不確定需求下的聯(lián)合定價(jià)與庫(kù)存問(wèn)題,他們假設(shè)產(chǎn)品的需求分布函數(shù)來(lái)自一個(gè)參數(shù)未知的分布族,并在有限的價(jià)格變動(dòng)次數(shù)約束下提出了相應(yīng)的定價(jià)算法,并證明了其后悔值。Besbes等[19]研究了在給定初始庫(kù)存情況下單產(chǎn)品的收益問(wèn)題,目標(biāo)是在一個(gè)固定的銷售層級(jí)上動(dòng)態(tài)調(diào)整價(jià)格以最大化期望收益。隨后Besbes等人[20]提出了離散時(shí)間框架下無(wú)庫(kù)存約束的動(dòng)態(tài)定價(jià)算法,該算法假設(shè)產(chǎn)品的需求為線性函數(shù),并根據(jù)該線性需求函數(shù)來(lái)對(duì)產(chǎn)品定價(jià),結(jié)果表明盡管該需求函數(shù)可能是錯(cuò)誤的,該算法的期望累計(jì)后悔值仍不高于O*(n-1/2)。Braverman等人[21]的研究中將搖臂視為獨(dú)立的策略型代理人,研究了策略型多搖臂問(wèn)題。而在一些多搖臂問(wèn)題的經(jīng)典研究中,是假設(shè)搖臂的獎(jiǎng)勵(lì)分布不隨時(shí)間變化的,因此考慮時(shí)變獎(jiǎng)勵(lì)的多搖臂算法更加適用于動(dòng)態(tài)定價(jià)場(chǎng)景中。Vakili等人[22]研究了獎(jiǎng)勵(lì)分布隨時(shí)間任意變化的多搖臂問(wèn)題。Garivier等[23]也表明經(jīng)典的搖臂問(wèn)題提出的學(xué)習(xí)策略可被應(yīng)用于非靜態(tài)場(chǎng)景中。

      考慮到傳統(tǒng)的多搖臂問(wèn)題經(jīng)常忽略搖臂的獎(jiǎng)勵(lì)分配隨時(shí)間變化這一特征,因此研究了獎(jiǎng)勵(lì)分布是如何隨過(guò)去搖臂的選擇而變化的,首先對(duì)廠商的收益進(jìn)行建模,其次將商品的定價(jià)問(wèn)題描述為一個(gè)多搖臂問(wèn)題,并構(gòu)建利潤(rùn)最大化模型。最后,考慮到動(dòng)態(tài)定價(jià)是一個(gè)非固定性的多搖臂問(wèn)題,因此構(gòu)建了利潤(rùn)隨時(shí)間變化的定價(jià)模型,研究更加符合實(shí)際場(chǎng)景的動(dòng)態(tài)定價(jià)問(wèn)題,為廠商定價(jià)提供相應(yīng)的決策支持。

      1 模型構(gòu)建

      基于置信區(qū)間上界算法,研究了需求不確定下,考慮時(shí)變獎(jiǎng)勵(lì)的算法在動(dòng)態(tài)定價(jià)問(wèn)題上的應(yīng)用。算法所考慮的場(chǎng)景如下,在一個(gè)多搖臂問(wèn)題中,賭徒需要從多個(gè)搖臂中選擇一個(gè),每選擇一個(gè)搖臂將獲得相應(yīng)的獎(jiǎng)勵(lì),每個(gè)搖臂的獎(jiǎng)勵(lì)分布未知。只有當(dāng)某一個(gè)搖臂被選擇時(shí),獎(jiǎng)勵(lì)分布情況才會(huì)被觀察到,賭徒的目標(biāo)就是在給定的時(shí)間水平下,最大化累計(jì)的期望獎(jiǎng)勵(lì)。將該場(chǎng)景對(duì)應(yīng)在定價(jià)問(wèn)題中,搖臂即對(duì)應(yīng)于價(jià)格,廠商每次選取一個(gè)價(jià)格對(duì)商品進(jìn)行定價(jià),消費(fèi)者將自身對(duì)該商品的保留價(jià)格與廠商提供的價(jià)格進(jìn)行對(duì)比,若廠商提供的價(jià)格高于消費(fèi)者的保留價(jià)格,則消費(fèi)者不購(gòu)買商品。反之,購(gòu)買商品廠商獲得獎(jiǎng)勵(lì)。這里需要注意的一點(diǎn)是,在定價(jià)問(wèn)題中尤其是動(dòng)態(tài)定價(jià),每個(gè)搖臂的獎(jiǎng)勵(lì)分配是隨時(shí)間變化的,這在傳統(tǒng)的多搖臂問(wèn)題中常被忽略。因此基于傳統(tǒng)的多搖臂算法,研究了考慮時(shí)變獎(jiǎng)勵(lì)的多搖臂算法在動(dòng)態(tài)定價(jià)領(lǐng)域中的應(yīng)用。

      1.1 相關(guān)參數(shù)及假設(shè)

      相關(guān)使用符號(hào)說(shuō)明與假設(shè)如下:

      K:價(jià)格集合包含的價(jià)格個(gè)數(shù)。

      i:價(jià)格序號(hào),i∈{1,2,…,K}。

      t:時(shí)間序列,t∈{1,2,…,T}。

      T:時(shí)間水平。

      p i:商品的價(jià)格。

      c:商品的成本。

      θt:t期到達(dá)的消費(fèi)者商品的偏好,也為保留價(jià)格。

      r i,t:第t期,價(jià)格為p i時(shí)所獲得的利潤(rùn)。

      p I*:最優(yōu)搖臂,即使得利潤(rùn)最大化的價(jià)格。

      I*:最優(yōu)搖臂的索引下標(biāo)。

      μi,t:第t期價(jià)格為p i時(shí)所獲得的期望獎(jiǎng)勵(lì)。

      R(T):后悔值。

      n i:價(jià)格p i被選擇的次數(shù)。

      α:控制探索的程度,即置信區(qū)間的寬度。

      λi:價(jià)格為p i時(shí)商品的需求率,λi∈[0,1]。

      在文章所描述的場(chǎng)景中,廠商是壟斷的,并在與消費(fèi)者交易的過(guò)程中實(shí)時(shí)制定商品的價(jià)格以最大化利潤(rùn)。具體假設(shè)為:

      假設(shè)1假設(shè)存在一組包含K個(gè)價(jià)格的有限價(jià)格集合,廠商可從該集合中選擇價(jià)格對(duì)商品進(jìn)行定價(jià)。且當(dāng)價(jià)格p1<p2<…<p K時(shí),有商品需求率λ1>λ2>…>λK,且需求率在整個(gè)銷售過(guò)程中不發(fā)生改變。

      假設(shè)2假設(shè)每種商品都有大量的潛在消費(fèi)者,每個(gè)消費(fèi)者對(duì)商品有單位需求量。消費(fèi)者的保留價(jià)格為θ,當(dāng)且僅當(dāng)且p≤θ時(shí),消費(fèi)者購(gòu)買一單位商品。

      1.2 商品定價(jià)模型

      假設(shè)一個(gè)壟斷廠商向多個(gè)順序到達(dá)的消費(fèi)者銷售商品,廠商按照消費(fèi)者到達(dá)順序提供相應(yīng)的商品報(bào)價(jià),用p表示,且p≥0,消費(fèi)者可以決定是否接受廠商的報(bào)價(jià)并購(gòu)買商品。其中,商品的成本為常數(shù)c,由于文章假設(shè)廠商只銷售一種商品,所以商品的成本c固定不變。每一個(gè)順序到達(dá)的消費(fèi)者對(duì)商品有不同的保留價(jià)格,由參數(shù)θ表示。此外,假設(shè)θ是在[0,1]上獨(dú)立分布的。因此由每一時(shí)期到達(dá)一個(gè)新的消費(fèi)者可知,當(dāng)且僅當(dāng)p≤θ時(shí),消費(fèi)者會(huì)購(gòu)買一單位該商品,否則不購(gòu)買。則每一時(shí)期,廠商可獲得的利潤(rùn)為:

      利潤(rùn)r(p)可被看做一個(gè)參數(shù)為θ的函數(shù),若已知θ和價(jià)格p的分布,期望利潤(rùn)可表示為:

      其中,F(xiàn)θ(p)表示保留價(jià)格為θ的消費(fèi)者接受價(jià)格p并購(gòu)買商品的概率,基于多搖臂算法原理,廠商的目標(biāo)是動(dòng)態(tài)地調(diào)整價(jià)格并提供給消費(fèi)者以最大化期望利潤(rùn)。然而,每一個(gè)消費(fèi)者的θ對(duì)于廠商來(lái)說(shuō)是未知的,這使得廠商很難做出最優(yōu)決策,因此假設(shè)Fθ(p)的分布對(duì)廠商是已知的。

      1.3 多搖臂框架

      廠商在與依次到達(dá)的消費(fèi)者進(jìn)行交互時(shí),通常采用探索-利用均衡來(lái)最大化即時(shí)利潤(rùn),即利用當(dāng)前信息選擇迄今為止能夠帶來(lái)最高利潤(rùn)的價(jià)格對(duì)商品進(jìn)行定價(jià),或者選擇探索在未來(lái)時(shí)間回合中可能帶來(lái)更高利潤(rùn)的價(jià)格。

      在動(dòng)態(tài)定價(jià)問(wèn)題的研究中,對(duì)于上述探索-利用均衡問(wèn)題,通常會(huì)設(shè)計(jì)一個(gè)學(xué)習(xí)策略來(lái)動(dòng)態(tài)地調(diào)整價(jià)格,使廠商利潤(rùn)最大化,該過(guò)程被形式化為一個(gè)隨機(jī)多搖臂問(wèn)題。因此首先介紹多搖臂問(wèn)題的一些基礎(chǔ)知識(shí),然后討論如何構(gòu)建一個(gè)價(jià)格隨時(shí)間變化的動(dòng)態(tài)定價(jià)模型并研究其對(duì)利潤(rùn)的影響。

      首先將定價(jià)問(wèn)題描述為一個(gè)動(dòng)態(tài)優(yōu)化問(wèn)題,考慮一個(gè)以時(shí)間為序列消費(fèi)者順序到達(dá)的場(chǎng)景,在每一回合t∈{1,2,…,T},消費(fèi)者的保留價(jià)格為θt。根據(jù)多搖臂算法,將p i∈P定義為一個(gè)搖臂,若消費(fèi)者的保留價(jià)格θt≥p i,則消費(fèi)者購(gòu)買該商品,對(duì)于每一個(gè)搖臂pi∈P,在t∈{1,2,…,T}時(shí)獲得的期望獎(jiǎng)勵(lì)為:

      考慮在事先未知Fθ(?)的情況下,廠商采用學(xué)習(xí)策略來(lái)獲取最優(yōu)搖臂,在t時(shí)被選擇搖臂的下標(biāo)索引可表示為I t。學(xué)習(xí)策略的效用可用后悔值regret[24]來(lái)評(píng)估,由學(xué)習(xí)策略累計(jì)的期望獎(jiǎng)勵(lì)與最優(yōu)搖臂所累計(jì)的獎(jiǎng)勵(lì)之差計(jì)算而來(lái)。由于這兩種獎(jiǎng)勵(lì)和搖臂的選擇都是隨機(jī)的,因此后悔值通??杀硎緸椋?/p>

      1.4 學(xué)習(xí)策略

      作為統(tǒng)計(jì)學(xué)的標(biāo)準(zhǔn)工具,置信區(qū)間通常用于處理多搖臂中的探索-利用均衡問(wèn)題。對(duì)基礎(chǔ)的置信區(qū)間上界算法進(jìn)行改進(jìn),構(gòu)建利潤(rùn)隨時(shí)間變化的動(dòng)態(tài)定價(jià)模型,來(lái)處理上文所描述的非固定性的多搖臂問(wèn)題,以更加精確地估計(jì)期望獎(jiǎng)勵(lì)。

      1.4.1 置信區(qū)間上界算法

      置信區(qū)間上界算法由Bouneffouf[25]提出,其基本思想是通過(guò)將所觀察到搖臂的歷史獎(jiǎng)勵(lì)進(jìn)行線性組合來(lái)估計(jì)每個(gè)搖臂的未知期望值。在學(xué)習(xí)過(guò)程中,變量n i=表示截止t期p i被選擇的次數(shù),變量表示樣本平均獎(jiǎng)勵(lì),也被看作真實(shí)期望獎(jiǎng)勵(lì)的估計(jì),則真實(shí)期望獎(jiǎng)勵(lì)r i的置信上界為。其中l(wèi)nt表示t時(shí)期的自然對(duì)數(shù)(e≈2.718 28的該數(shù)次冪等于t),式中的根號(hào)項(xiàng)是對(duì)搖臂p i估計(jì)值的不確定度或方差,α>0控制了探索的程度,即置信區(qū)間的寬度。每當(dāng)搖臂pi被選擇時(shí),ni增加,因?yàn)槠涑霈F(xiàn)在分母中,所以不確定性減小了。在另一方面,每當(dāng)除搖臂pi之外的搖臂被選擇,t增加而n i保持不變,則不確定性增大。

      自然對(duì)數(shù)的使用意味著增長(zhǎng)的速率逐漸變慢,但其值依然會(huì)趨近于無(wú)窮大。在每一期,都選擇置信區(qū)間上界最大的那個(gè)搖臂作為最優(yōu)搖臂,最優(yōu)搖臂表示為:

      如果忽略搖臂期望獎(jiǎng)勵(lì)的時(shí)變性,可以直接將置信區(qū)間上界算法應(yīng)用于定價(jià)問(wèn)題。該策略的詳細(xì)描述如算法1所示。

      算法1 UCB

      輸入:α∈R+

      1.4.2 考慮時(shí)變獎(jiǎng)勵(lì)的置信上界區(qū)間算法

      算法1描述了一個(gè)基礎(chǔ)的隨機(jī)多搖臂算法,每個(gè)搖臂都與獎(jiǎng)勵(lì)的時(shí)不變分布相關(guān)聯(lián),其中最優(yōu)搖臂不隨時(shí)間變化。然而動(dòng)態(tài)定價(jià)是一個(gè)非固定性的多搖臂問(wèn)題,即真實(shí)的獎(jiǎng)勵(lì)會(huì)隨時(shí)間變化。因此接下來(lái)對(duì)算法1進(jìn)行改進(jìn),構(gòu)建利潤(rùn)隨時(shí)間變化的模型,來(lái)處理非固定性的多搖臂問(wèn)題,以更加精確地估計(jì)期望獎(jiǎng)勵(lì)。

      對(duì)于任意價(jià)格p i∈P,廠商都面臨著未知的真實(shí)需求,對(duì)應(yīng)式(3)中累計(jì)分布Fθ(?),代表了每個(gè)價(jià)格p i被消費(fèi)者接受并產(chǎn)生購(gòu)買行為的概率,可用表示,其中ni,t表示截止時(shí)間t時(shí),價(jià)格p i被消費(fèi)者選擇的次數(shù)。廠商得到相應(yīng)的利潤(rùn)為r i=pi-c,則對(duì)于每一個(gè)搖臂p i∈P,在t∈{1,2,…,T}時(shí)獲得的期望獎(jiǎng)勵(lì)為:

      通過(guò)上式可看出每個(gè)搖臂的期望獎(jiǎng)勵(lì)是隨時(shí)間變化的,其變化是視搖臂具體而定的,即最優(yōu)搖臂并不是固定不變的?;诠剑?),對(duì)算法1進(jìn)行修改,通過(guò)構(gòu)建算法2來(lái)描述搖臂的獎(jiǎng)勵(lì)如何隨時(shí)間變化的。將該學(xué)習(xí)策略稱為VarUCB,算法的詳細(xì)步驟見算法2。

      算法2 VarUCB

      輸入:α∈R+

      2 仿真分析

      提出了考慮時(shí)變獎(jiǎng)勵(lì)的置信區(qū)間上界算法,為了評(píng)估其效用,使用真實(shí)數(shù)據(jù)進(jìn)行仿真分析。接下來(lái)的章節(jié),首先介紹了所使用的數(shù)據(jù)集,并對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理接著對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)上文提出的兩種學(xué)習(xí)策略進(jìn)行對(duì)比分析。最后基于仿真分析的結(jié)果,對(duì)比上述兩種學(xué)習(xí)策略的效用,尋得使廠商利潤(rùn)最大的價(jià)格,為廠商的定價(jià)決策提供相關(guān)參考。

      2.1 數(shù)據(jù)集描述

      數(shù)據(jù)來(lái)自日本最大的團(tuán)購(gòu)網(wǎng)站Ponpare,文章使用的原始數(shù)據(jù)集包含消費(fèi)者和各種類型商品的相關(guān)數(shù)據(jù),包括美食、健康醫(yī)療等,一共七個(gè)數(shù)據(jù)集分別為Coupon_list、user_list、Coupon_detial、Coupon_visit、Coupon_area、Prefecture_location、Sample_submission,主要字段為價(jià)格、購(gòu)買時(shí)間、性別、年齡等。

      通過(guò)各數(shù)據(jù)集的主鍵如USER_ID_hash、COUPON_ID_hash等將各個(gè)數(shù)據(jù)集進(jìn)行關(guān)聯(lián),確定最終有效字段,第一列對(duì)應(yīng)于算法的價(jià)格,第二列對(duì)應(yīng)于獎(jiǎng)勵(lì)。整合后的數(shù)據(jù)集包含3 000多條數(shù)據(jù),除去缺失值,使用870條數(shù)據(jù)對(duì)上文兩種學(xué)習(xí)策略的效用進(jìn)行對(duì)比分析。

      2.2 學(xué)習(xí)策略的參數(shù)設(shè)置

      假設(shè)每個(gè)消費(fèi)者的保留價(jià)格θt服從μθ=0,σ=1的正態(tài)分布N(μθ,σ2),考慮θt可能會(huì)超出[0,1],因此定義θt為:

      K:在所有的仿真過(guò)程中,K都設(shè)為10。

      α:在算法1、算法2中,輸入?yún)?shù)α控制了所估計(jì)的期望獎(jiǎng)勵(lì)的置信區(qū)間的寬度。

      T:設(shè)置時(shí)間水平T=1 000。

      2.3 評(píng)估方法

      在本文前面的章節(jié)中提出了UCB和VarUCB這兩種學(xué)習(xí)策略,并對(duì)這兩者的模型效果進(jìn)行了對(duì)比分析,現(xiàn)令pt表示廠商在t時(shí)期提供給消費(fèi)者的報(bào)價(jià)。廠商的目標(biāo)是設(shè)置最合理的價(jià)格令消費(fèi)者接受并購(gòu)買商品以獲得最大收益,因此使用實(shí)際的收益值去衡量學(xué)習(xí)策略的效用。假設(shè)t時(shí)期后不再有消費(fèi)者光顧,則廠商的總收益為:

      2.4 仿真結(jié)果分析

      2.4.1 參數(shù)分析

      仿真分析的第一步即要明確所描述的兩種算法在參數(shù)α不同的情況下其平均獎(jiǎng)勵(lì)值是如何變化的,以及確定每一種算法的最優(yōu)參數(shù)值。因此為了展示上述兩種學(xué)習(xí)算法在每一參數(shù)α下隨時(shí)間變化的學(xué)習(xí)過(guò)程,使用前1 000步獎(jiǎng)勵(lì)的平均值來(lái)表示每一種算法完整的學(xué)習(xí)曲線,這一值與學(xué)習(xí)曲線下的面積成正比。

      結(jié)果如圖1所示,各個(gè)算法的學(xué)習(xí)曲線呈倒U形:即這兩種算法在使用居中的參數(shù)值時(shí)表現(xiàn)最好。結(jié)果表明UCB算法和VarUCB算法的最優(yōu)參數(shù)值α近似等于21,且在α=21的情況下各自所學(xué)得的平均獎(jiǎng)勵(lì)值最大。此外圖1展示的學(xué)習(xí)曲線還表示,在不同的參數(shù)下VarUCB算法的平均獎(jiǎng)勵(lì)值都高于UCB算法,且在到達(dá)最優(yōu)參數(shù)值21之前,VarUCB算法學(xué)習(xí)曲線的增長(zhǎng)幅度更快,表明VarUCB算法相較于UCB算法其收斂速度更快,進(jìn)一步表明所提出的考慮時(shí)變獎(jiǎng)勵(lì)的VarUCB算法表現(xiàn)更佳。

      圖1 參數(shù)審視圖

      2.4.2 獎(jiǎng)勵(lì)分布

      在2.4.1小節(jié)中已經(jīng)學(xué)得上述兩種算法的最優(yōu)參數(shù)α都為2,因此本小節(jié)在分析算法的獎(jiǎng)勵(lì)分布時(shí)將只分析α=2時(shí)各自的獎(jiǎng)勵(lì)是如何變化的。在參數(shù)α=2,T=1 000時(shí),UCB算法和VarUCB算法下廠商獲得的平均收益分布狀況如圖2所示。

      圖2 α=2時(shí)獎(jiǎng)勵(lì)分布圖

      由圖2可以看出,在消費(fèi)者保留價(jià)格呈正態(tài)分布,α=2時(shí),UCB和VarUCB算法有著相似的性質(zhì),即隨著循環(huán)次數(shù)的增加,獎(jiǎng)勵(lì)分布逐漸趨于平緩,并逐漸接近真實(shí)獎(jiǎng)勵(lì)。但是在整個(gè)循環(huán)過(guò)程中可以發(fā)現(xiàn),VarUCB算法的收斂速度相比之下快于UCB算法,且VarUCB算法所學(xué)得的平均獎(jiǎng)勵(lì)是略高于UCB算法更加接近真實(shí)獎(jiǎng)勵(lì)的。通過(guò)對(duì)比分析兩種學(xué)習(xí)策略的平均獎(jiǎng)勵(lì),結(jié)果表明VarUCB算法收斂速度更快,所學(xué)得的獎(jiǎng)勵(lì)更加接近真實(shí)獎(jiǎng)勵(lì),能夠使得廠商在交易過(guò)程中獲得更高的收益。

      2.4.3 后悔值分析

      為了進(jìn)一步對(duì)比上述兩種學(xué)習(xí)策略的效用,通過(guò)使用算法計(jì)算了兩種學(xué)習(xí)策略的后悔值regret,從另一個(gè)角度評(píng)估UCB和VarUCB算法的性能。具體步驟為,首先需要通過(guò)公式確定最優(yōu)搖臂,接著對(duì)于每個(gè)價(jià)格pi∈P,在每一時(shí)期都設(shè)置價(jià)格p t=p i,計(jì)算出獎(jiǎng)勵(lì)U(t),通過(guò)比較兩種學(xué)習(xí)策略的U(t)可以確定最優(yōu)搖臂。最后通過(guò)公式R(t)=U*(t)-U(t)計(jì)算出每一時(shí)期的后悔值,U*(t)由最優(yōu)搖臂確定。圖3為在時(shí)間水平T=1 000,α=2時(shí),兩種學(xué)習(xí)策略的后悔值變化情況。

      圖3 后悔值分布圖

      通過(guò)對(duì)真實(shí)數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明,當(dāng)α=2時(shí),每一回合算法所選擇出的最優(yōu)搖臂都為p I*=0.8。對(duì)于后悔值分析,所取得的結(jié)果越小表明算法的效用更好。如圖3所示,VarUCB算法的后悔值曲線收斂比UCB算法更快,且每一時(shí)期后悔值都低于UCB算法的后悔值,這表明所提出的VarUCB算法的效用更好。后悔值的評(píng)估結(jié)果表明,VarUCB算法學(xué)得的最優(yōu)價(jià)格更加接近于真實(shí)的最優(yōu)搖臂。

      若算法所學(xué)得的價(jià)格低于最優(yōu)價(jià)格,則廠商可選擇一個(gè)較低的價(jià)格提供給消費(fèi)者以促使他們進(jìn)行購(gòu)買。為了防止消費(fèi)者感受到不公平對(duì)待,廠商可以向所有的消費(fèi)者提供一個(gè)固定的價(jià)格。對(duì)于后悔值的評(píng)估結(jié)果,圖3可以很好地表明通過(guò)采用提出的VarUCB算法,廠商能夠以更高的概率學(xué)得最優(yōu)價(jià)格,使得利潤(rùn)最大。同時(shí)發(fā)現(xiàn)學(xué)習(xí)策略所選取的最優(yōu)價(jià)格對(duì)應(yīng)于帶來(lái)最大累計(jì)獎(jiǎng)勵(lì)的價(jià)格,這再次表明所提出學(xué)習(xí)策略的有效性。

      3 結(jié)論

      研究了在需求不確定情況下的產(chǎn)品動(dòng)態(tài)定價(jià)問(wèn)題,基于基礎(chǔ)的多搖臂算法將商品的定價(jià)問(wèn)題建模為多搖臂模型,提出了考慮時(shí)變獎(jiǎng)勵(lì)的置信區(qū)間上界算法,研究了其在動(dòng)態(tài)定價(jià)問(wèn)題上的應(yīng)用。通過(guò)對(duì)真實(shí)數(shù)據(jù)進(jìn)行仿真,將考慮時(shí)變獎(jiǎng)勵(lì)的置信區(qū)間上界算法與基礎(chǔ)的算法進(jìn)行對(duì)比分析,結(jié)果表明通過(guò)提出的算法所學(xué)得的獎(jiǎng)勵(lì)更加接近真實(shí)獎(jiǎng)勵(lì),收斂速度更快,能夠以較高的概率學(xué)得最優(yōu)價(jià)格。因此通過(guò)仿真分析,在現(xiàn)實(shí)場(chǎng)景中,采用VarUCB算法定價(jià)可以幫助廠商以更高的可能性獲得最高的利潤(rùn),作出最優(yōu)的決策。

      目前,主要研究了廠商向消費(fèi)者提供單一產(chǎn)品的場(chǎng)景,該場(chǎng)景容易實(shí)施但是多產(chǎn)品定價(jià)更加符合現(xiàn)實(shí)場(chǎng)景。因此在未來(lái)的研究中,會(huì)著重分析多產(chǎn)品定價(jià)問(wèn)題,以考慮更加符合實(shí)際的場(chǎng)景。另外,考慮到消費(fèi)者的保留價(jià)格可能會(huì)影響到廠商的定價(jià)策略,即消費(fèi)者存在策略性行為,因此未來(lái)也會(huì)研究如何修改多搖臂模型框架和學(xué)習(xí)策略來(lái)應(yīng)對(duì)策略型消費(fèi)者。

      猜你喜歡
      搖臂置信區(qū)間學(xué)習(xí)策略
      柴油機(jī)搖臂與搖臂軸粘連原因分析及改進(jìn)
      定數(shù)截尾場(chǎng)合三參數(shù)pareto分布參數(shù)的最優(yōu)置信區(qū)間
      p-范分布中參數(shù)的置信區(qū)間
      專利名稱:電腦機(jī)箱沖壓廢料回收裝置及操作方法
      多個(gè)偏正態(tài)總體共同位置參數(shù)的Bootstrap置信區(qū)間
      一種加工搖臂裝置銷孔的工藝
      水泥工程(2020年4期)2020-12-18 07:12:12
      列車定位中置信區(qū)間的確定方法
      汽車搖臂中頻電磁感應(yīng)加熱爐控制系統(tǒng)設(shè)計(jì)
      高中生數(shù)學(xué)自主學(xué)習(xí)策略探討
      一種使用反向?qū)W習(xí)策略的改進(jìn)花粉授粉算法
      合川市| 唐海县| 临猗县| 伽师县| 林西县| 资源县| 宜阳县| 焦作市| 南康市| 铁力市| 嘉祥县| 土默特左旗| 秦安县| 海城市| 湘潭县| 无极县| 镇赉县| 当雄县| 左权县| 绩溪县| 三原县| 稷山县| 徐水县| 安丘市| 万源市| 宜兰县| 达拉特旗| 新余市| 益阳市| 玛曲县| 白水县| 祥云县| 甘谷县| 新营市| 门头沟区| 阿拉善右旗| 宣城市| 博兴县| 合川市| 高唐县| 光山县|