楊亞璪, 李鵬飛, 陳 堅(jiān), 郝小妮
(1. 重慶交通大學(xué) 交通運(yùn)輸學(xué)院,重慶 400074;2. 山地城市交通系統(tǒng)與安全重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400074;3. 華南理工大學(xué) 土木與交通學(xué)院,廣東 廣州 510641)
?
基于顧客選擇行為的租賃車(chē)輛存量動(dòng)態(tài)控制穩(wěn)健模型
楊亞璪1,2, 李鵬飛1, 陳堅(jiān)1, 郝小妮3
(1. 重慶交通大學(xué) 交通運(yùn)輸學(xué)院,重慶 400074;2. 山地城市交通系統(tǒng)與安全重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400074;3. 華南理工大學(xué) 土木與交通學(xué)院,廣東 廣州 510641)
汽車(chē)租賃系統(tǒng)運(yùn)營(yíng)狀態(tài)可劃分為可租賃狀態(tài)和無(wú)法租賃狀態(tài)。考慮顧客到達(dá)站點(diǎn)無(wú)法租賃車(chē)輛的情況,為提高車(chē)輛的平均收益,減少期望利潤(rùn)的預(yù)測(cè)誤差,構(gòu)建租賃狀態(tài)轉(zhuǎn)移狀態(tài)空間。應(yīng)用連續(xù)短時(shí)段實(shí)時(shí)顧客行為變化檢測(cè)策略和馬爾可夫決策過(guò)程建立存量控制模型,得到租賃商的最優(yōu)庫(kù)存車(chē)輛數(shù)。算例分析表明,模型可以提高汽車(chē)租賃商的存量控制精度,實(shí)現(xiàn)對(duì)車(chē)輛的柔性控制。
收益管理; 租賃車(chē)輛; 顧客選擇行為; 存量動(dòng)態(tài)控制; 馬爾可夫決策過(guò)程
歐美汽車(chē)租賃業(yè)的發(fā)展實(shí)踐證明,收益管理是一種行之有效的管理方法。赫茲汽車(chē)租賃公司(Hertz)在1990~1991年間實(shí)施收益管理,使每輛車(chē)的平均收益由1%上升到5%[1]。McGill和Van Ryzintl指出收益管理主要包括4個(gè)方面的內(nèi)容:需求預(yù)測(cè)、超訂、存量控制和動(dòng)態(tài)定價(jià)[2]。存量控制是企業(yè)進(jìn)行收益管理的重要手段,是指為不同的價(jià)格水平分配合適的產(chǎn)品數(shù)量。存量問(wèn)題研究主要分為靜態(tài)和動(dòng)態(tài)兩種方法。最早提出靜態(tài)模型的是Littlewood[3],建立了一個(gè)單航段隨機(jī)二級(jí)價(jià)格模型,提出了邊際座位收益原則。Belobaba[4]、Brumells[5]建立期望邊際座位收益值(expected marginal seat revenue, EMSR)理論模型。隨著研究的深入,研究者們開(kāi)始考慮動(dòng)態(tài)方法,將隨時(shí)間變化的到達(dá)過(guò)程稱為動(dòng)態(tài)控制。Lee等[6]建立了一個(gè)離散時(shí)間的動(dòng)態(tài)規(guī)劃模型。Subramanian等[7]則考慮了顧客的退票和放棄預(yù)訂行為,將座位的動(dòng)態(tài)控制問(wèn)題等價(jià)為一個(gè)經(jīng)典的排隊(duì)問(wèn)題來(lái)加以解決。Feng等[8]考慮了需求隨時(shí)間變化的情況,并求出了動(dòng)態(tài)艙位最優(yōu)控制策略。
隨著對(duì)收益管理研究的深入,學(xué)者已經(jīng)開(kāi)始考慮結(jié)合顧客選擇行為,利用馬爾可夫理論來(lái)輔助存量控制、需求預(yù)測(cè)及最終的收益優(yōu)化。White[9]對(duì)馬爾可夫決策過(guò)程(Markov decision processes, MDP)在高速公路管理、航空訂票系統(tǒng)等中的應(yīng)用方面進(jìn)行綜述。Talluri等[10]建立了基于顧客選擇行為的存量控制的馬爾可夫決策過(guò)程模型,證明在一定條件下可以獲得最優(yōu)嵌套控制策略。Khouja等[11]假設(shè)租期是隨機(jī)變量,與顧客選擇行為有關(guān),設(shè)計(jì)運(yùn)營(yíng)策略使顧客盡早歸還產(chǎn)品,加速產(chǎn)品周轉(zhuǎn)率等。陳劍[12]基于乘客選擇行為,建立介于靜態(tài)控制和動(dòng)態(tài)控制之間的航空機(jī)票控制模型。梅虎[13]以Logit模型為基礎(chǔ),針對(duì)顧客效用和偏好進(jìn)行分析,建立了顧客艙位選擇模型,從顧客的角度分析座位存量控制問(wèn)題的必要性。李金林[14]應(yīng)用馬爾可夫決策過(guò)程理論和穩(wěn)健最優(yōu)化方法建立存量控制的穩(wěn)健模型,構(gòu)建了一種穩(wěn)健競(jìng)標(biāo)價(jià)格策略。
現(xiàn)有的存量控制研究沒(méi)有同時(shí)考慮到汽車(chē)租賃運(yùn)營(yíng)狀態(tài)轉(zhuǎn)移、顧客選擇行為和車(chē)輛存量之間的相互影響?,F(xiàn)實(shí)中,很多顧客因?yàn)樽赓U公司無(wú)車(chē)而被拒絕,但是在需求不旺時(shí),往往又會(huì)出現(xiàn)車(chē)輛閑置的情況。本文將現(xiàn)實(shí)運(yùn)營(yíng)狀態(tài)劃分為可租賃狀態(tài)和無(wú)法租賃狀態(tài),構(gòu)建租賃狀態(tài)轉(zhuǎn)移狀態(tài)空間,依據(jù)短時(shí)連續(xù)過(guò)程中運(yùn)營(yíng)狀態(tài)分布的齊次性,將馬爾可夫過(guò)程引入到研究中,通過(guò)時(shí)段劃分采用短時(shí)模型疊加的方法,得到單位周期長(zhǎng)時(shí)間連續(xù)運(yùn)營(yíng)狀態(tài)轉(zhuǎn)移的近似處理,構(gòu)建連續(xù)短時(shí)段實(shí)時(shí)顧客行為變化檢測(cè)策略,利用即時(shí)排隊(duì)系統(tǒng)M/M/n/n/∞理論,對(duì)顧客的需求選擇行為進(jìn)行分析,確定存量最佳控制。
1.1動(dòng)態(tài)規(guī)劃與馬爾可夫決策過(guò)程
動(dòng)態(tài)規(guī)劃是一種將復(fù)雜的多階段或多周期問(wèn)題轉(zhuǎn)化成一系列比較簡(jiǎn)單的最優(yōu)化問(wèn)題的方法。多階段或周期的問(wèn)題分解成相互聯(lián)系的若干階段,不同階段之間相互聯(lián)系,本階段的狀態(tài)與決策僅僅影響下一個(gè)階段的狀態(tài)。當(dāng)每個(gè)階段的決策確定以后,整個(gè)過(guò)程的決策也就確定。
馬爾可夫決策過(guò)程是馬爾可夫鏈的擴(kuò)展,其主要特征是允許概率和非確定性選擇。馬爾可夫決策過(guò)程的限界模型檢測(cè)可以自由的對(duì)轉(zhuǎn)移概率和極限概率進(jìn)行檢測(cè),轉(zhuǎn)移概率主要和某個(gè)時(shí)刻系統(tǒng)所處的狀態(tài)有關(guān),極限概率主要描述了長(zhǎng)期運(yùn)行中連續(xù)時(shí)間馬爾可夫鏈處于某個(gè)狀態(tài)的概率[15-16]。
一個(gè)MDP有5個(gè)組成部分:
{S, A(i), pij(a), r(i, a), V ,(i, j∈S, a∈A(i))}。
(1)
其中,S是系統(tǒng)所有可能的狀態(tài)所組成的非空狀態(tài)集,是非空有限的、可列的集合,也就是系統(tǒng)的狀態(tài)空間。A(i)是在狀態(tài)i∈S處可用的非空決策集,它可能與所處狀態(tài)i有關(guān)。pij(a)是系統(tǒng)在決策時(shí)刻點(diǎn)n處于狀態(tài)i,采取決策a∈A(i)使系統(tǒng)在下一個(gè)決策時(shí)刻點(diǎn)n+1時(shí)處于狀態(tài)j的概率,它與起始決策時(shí)刻n無(wú)關(guān)。r(i,a)是系統(tǒng)在決策時(shí)刻點(diǎn)n處于狀態(tài)i,采取決策a∈A(i)時(shí)系統(tǒng)在該階段所獲得的期望報(bào)酬。V是決策問(wèn)題的目標(biāo)函數(shù)或者準(zhǔn)則函數(shù)。
1.2汽車(chē)租賃系統(tǒng)的特性描述
每個(gè)顧客到達(dá)租賃系統(tǒng)是典型的隨機(jī)過(guò)程,將汽車(chē)租賃過(guò)程用馬爾可夫決策過(guò)程來(lái)描述。一般情況下,對(duì)租賃車(chē)輛的存量控制決策應(yīng)依賴于過(guò)去的租賃價(jià)格、租車(chē)率等歷史數(shù)據(jù)。但把決策規(guī)則限定在不依賴于歷史數(shù)據(jù)而依賴當(dāng)前狀態(tài)的確定性馬爾可夫決策規(guī)則內(nèi),其最優(yōu)性結(jié)果與考慮所有決策規(guī)則是等價(jià)的,因此文中僅考慮確定性的馬爾可夫決策,將決策規(guī)則限定在確定的馬爾可夫決策規(guī)則中。利用短時(shí)模型疊加的方法得到單位周期長(zhǎng)時(shí)間連續(xù)運(yùn)營(yíng)狀態(tài)轉(zhuǎn)移的近似處理,對(duì)系統(tǒng)狀態(tài)進(jìn)行概率實(shí)時(shí)解釋?zhuān)峁Q策所依賴的當(dāng)前狀態(tài)。
在每個(gè)顧客到達(dá)租賃系統(tǒng)時(shí),車(chē)輛租賃狀態(tài)決定租賃系統(tǒng)接受顧客或者拒絕顧客。系統(tǒng)的狀態(tài)空間集合為S={0,1},即無(wú)法租車(chē)和可以租車(chē)兩種狀態(tài),其中0表示系統(tǒng)無(wú)法租賃車(chē)輛狀態(tài),1表示系統(tǒng)可以租賃車(chē)輛狀態(tài)。系統(tǒng)運(yùn)營(yíng)狀態(tài)從0到1的轉(zhuǎn)移概率值為p01;從1到0的轉(zhuǎn)移概率值為p10。由轉(zhuǎn)移概率的性質(zhì)可得狀態(tài)轉(zhuǎn)移概率矩陣P為
定義1在狀態(tài)空間集合S中系統(tǒng)狀態(tài)轉(zhuǎn)移后處于無(wú)法租賃狀態(tài)的(后驗(yàn))概率為δ∈[0,1],處于可以租賃狀態(tài)的概率為δ*∈[0,1],由全概率公式可求得:
δ*p01+δp10=(1-δ)p01+δp10=p01+δp。
(2)
其中,p=1-p01-p10≥0。假設(shè)p10≤1-p01,即顧客需求越高租賃車(chē)輛越多,轉(zhuǎn)移到無(wú)法租賃狀態(tài)的概率越大,極限情況p10=0時(shí)即租賃系統(tǒng)中車(chē)輛全部被租出去,租賃車(chē)輛供不應(yīng)求。
定義2系統(tǒng)運(yùn)行n個(gè)周期時(shí)決策函數(shù)為f,所有策略為Fn。若系統(tǒng)處于狀態(tài)i,則決策函數(shù)為f(i),且f(i)∈AN(i),i∈S,一個(gè)決策函數(shù)序列為策略π,則
定義3記折扣因子為β,在策略π的有限階段的最優(yōu)函數(shù)為:
(3)
討論系統(tǒng)的MDP模型,在系統(tǒng)平衡狀態(tài)下,無(wú)法租賃狀態(tài)(忙期)和可以租賃狀態(tài)(閑期)均是隨機(jī)變量,很難描述其準(zhǔn)確的分布,因此需投入費(fèi)用Q,利用短時(shí)模型疊加的方法近似對(duì)系統(tǒng)進(jìn)行檢測(cè)和記錄。設(shè)C為系統(tǒng)在車(chē)輛全部被租賃的狀態(tài)下運(yùn)行一個(gè)周期的費(fèi)用,R為增加存量更新系統(tǒng)所需的費(fèi)用。
對(duì)n≥0,定義f(n)(δ)為系統(tǒng)在δ時(shí)運(yùn)行n個(gè)周期,在最優(yōu)策略運(yùn)行的期望折扣費(fèi)用,即
(4)
可以推算得下式:
f(n)(δ)=
(5)
可以證明得[17]:
Vβ(δ)=min{f(n)(δ)|n=0,1,2,…,∞},δ∈S,
(6)
記n*(δ)為上式取到n的最小值,即
n*(δ)=min{n|n≥0,f(δ)=Vβ(δ)},
(7)
當(dāng)δ=0即系統(tǒng)處于無(wú)法租賃狀態(tài)時(shí),由式(7)可知n*(0)必須滿足
fn(0)=gn(0)+βn+1fn(0)。
(8)
其中
gn(0)=
(9)
由式(6)和式(8)可得
(10)
求解式(10)可得:當(dāng)n*(0)=+∞時(shí)
(11)
汽車(chē)租賃系統(tǒng)運(yùn)行周期足夠長(zhǎng)時(shí),系統(tǒng)需要更新的費(fèi)用,即投放更多租賃車(chē)輛擴(kuò)大經(jīng)營(yíng)規(guī)模的最小費(fèi)用R等于其臨界值。
1.3穩(wěn)健模型的建立