摘? ?要:知情交易概率(PIN)是一種被廣泛使用的直接度量金融市場信息不對稱風(fēng)險的指標(biāo)。PIN模型的極大似然估計,由于似然函數(shù)形式復(fù)雜,在最優(yōu)化過程中很容易出現(xiàn)計算溢出的問題。本文提出了一種基于Gibbs抽樣和ARS抽樣的貝葉斯方法來估計PIN。模擬結(jié)果表明,貝葉斯方法克服了計算問題,并且可以得到比MLE方法更準(zhǔn)確的估計。本文利用PIN的貝葉斯估計方法對2009—2015年期間在滬深兩市交易過的股票進(jìn)行實證應(yīng)用分析,拓寬了知情交易概率PIN的實證研究范圍。
關(guān)鍵詞:知情交易概率;貝葉斯估計估計;Gibbs抽樣;ARS抽樣
中圖分類號:F830.9? 文獻(xiàn)標(biāo)識碼:A? 文章編號:1674-2265(2019)11-0023-08
DOI:10.19647/j.cnki.37-1462/f.2019.11.003
一、引言
信息不對稱問題在經(jīng)濟金融活動中普遍存在,在信息不對稱中處于有利地位的市場參與者發(fā)起的交易或行為會給其他處于不利地位的市場參與者帶來損失,造成市場風(fēng)險。因此研究信息不對稱風(fēng)險測度問題對于維護(hù)金融市場有效運行具有十分重要的意義,同時也是各個領(lǐng)域研究者都普遍關(guān)注和應(yīng)用的問題。
在市場微觀結(jié)構(gòu)理論中,由Easley等(1996)提出的知情交易概率的測度有十分重要的意義。這是第一個直接對知情交易程度進(jìn)行衡量的指標(biāo),也是目前最具代表性、被研究者使用最廣泛的一類信息不對稱測度指標(biāo)。知情交易概率(Probability of Informed Trading,簡稱PIN)是指一次交易來自擁有私人信息的知情交易者的概率,也即某資產(chǎn)來自知情交易者的交易占該資產(chǎn)全部交易的比重??梢哉J(rèn)為,PIN值越低,知情交易概率越低,說明該資產(chǎn)的信息不對稱程度越低。PIN理論一經(jīng)提出就受到了廣泛關(guān)注,常與金融實證領(lǐng)域的研究相結(jié)合。例如Easley等(1996)發(fā)現(xiàn)交易頻繁的股票和交易不頻繁股票之間買賣價差的差異可以用PIN來解釋;Easley等(2002)把PIN作為第四個定價因子加入Fama和French (1993)三因子模型中進(jìn)行回歸,發(fā)現(xiàn)知情交易概率與價格顯著正相關(guān),這說明知情交易概率越高,所要求的風(fēng)險補償也越高,因此他們認(rèn)為PIN可以作為一種風(fēng)險因子被定價。同時,也有一些學(xué)者關(guān)注PIN模型本身的估計問題。Boehmer等(2007)發(fā)現(xiàn)交易數(shù)據(jù)的買賣方向分類不準(zhǔn)確會造成PIN的低估。Easley等(2010)提出一種改進(jìn)的PIN 參數(shù)的似然函數(shù),用來提高最優(yōu)化似然函數(shù)時的計算效率。Lin和Ke (2011)發(fā)現(xiàn)在數(shù)值計算PIN的極大似然估計時可能遇到非常嚴(yán)重的計算溢出問題(Floating-Point Exception),尤其是當(dāng)訂單數(shù)量特別大的時候,利用近幾年股票市場數(shù)據(jù),他們發(fā)現(xiàn)大約有44%的PIN估計結(jié)果受到計算問題的影響。Yan和Zhang (2012)認(rèn)為在數(shù)值求解極大似然估計的時候,邊界解會造成PIN的估計偏差,并且認(rèn)為Easley等(2010)提出的估計有系統(tǒng)性偏誤問題。
盡管有很多學(xué)者先后提出了改善上述PIN的極大似然估計計算問題的方法,但這些改進(jìn)思路仍然局限在極大似然估計的框架之下,無法根本解決因似然函數(shù)復(fù)雜性引起的問題。郇鈺和趙婉迪(2018)提出廣義矩估計(GMM)方法可以作為PIN極大似然估計的有效補充,尤其是在極大似然估計遇到計算困難的時候,但是廣義矩估計結(jié)果并不能保證始終比極大似然估計結(jié)果更精確。為了徹底改善PIN的估計效果,本文進(jìn)一步提出用貝葉斯的方法來估計PIN模型,即用Gibbs抽樣和ARS(Adaptive Rejection Sampling)抽樣相結(jié)合的算法來構(gòu)造PIN的貝葉斯估計方法。在統(tǒng)計學(xué)領(lǐng)域中,有很多文獻(xiàn)使用貝葉斯方法處理有限混合分布的混合模型,例如Diebolt和Robert (1994)、Viallefont(2002)等,可以說明該方法對混合模型是合適的。
本文的主要貢獻(xiàn)是提供了一種實用的貝葉斯方法來估計PIN這種特殊結(jié)構(gòu)的泊松混合模型。本文證實了PIN的貝葉斯估計具有非常顯著的優(yōu)勢。第一,貝葉斯方法不受計算問題的限制,無論買賣訂單數(shù)量有多大,使用貝葉斯方法都可以得到PIN的估計值。第二,貝葉斯方法得到的PIN估計比極大似然估計更加精確。本文分別使用了模擬生成的交易數(shù)據(jù)和中國股票市場真實交易數(shù)據(jù)對新方法進(jìn)行檢驗。模擬研究證明了當(dāng)極大似然估計在交易量很大的案例中失效時,貝葉斯方法可以得到PIN的估計,并且其結(jié)果擁有比原始的MLE估計和改進(jìn)的MLE估計更小的均方根誤差(RMSE)。在實證應(yīng)用中,本文使用貝葉斯方法來估計滬深兩市全部股票在2009—2015年期間的年度PIN值。實證結(jié)果表明,盡管對于中國股票市場中絕大多數(shù)股票來說,用改進(jìn)的MLE方法來估計年度PIN值是失效的,但是貝葉斯方法卻始終是合適的估計方法,無論中國市場的股票交易有多么活躍。
二、PIN模型的貝葉斯估計方法
(一)處理混合模型的貝葉斯理論框架
對于每個交易日[i],[Bi]和[Si]的聯(lián)合分布式①可以寫成一個混合模型的形式:
[f(Bi,Siθ)=j=13pjfj(BiSiεb,εs,μ)]? ? ? ? ?(1)
這里,[p1=α(1-δ)]、[p2=αδ]和[p3=1-α]分別是利好消息、利空消息和沒有消息發(fā)生的概率,滿足[j=13pj=1]。同時,混合模型的組成分別是[Bi]和[Si]在利好消息、利空消息和沒有消息發(fā)生時服從的獨立泊松分布:
[f1(Bi,Si|εb,εs,μ)=e-(εb+μ)(εb+μ)BiBi!e-εsεsSiSi!]
[f2(Bi,Si|εb,εs,μ)=e-εbεbBiBi!e-(εs+μ)(εs+μ)SiSi!]
[f3(Bi,Si|εb,εs,μ)=e-εbεbBiBi!e-εsεsSiSi!]
貝葉斯理論處理混合模型的標(biāo)準(zhǔn)框架是使用數(shù)據(jù)擴充技術(shù),即用缺失數(shù)據(jù)的方式表達(dá)混合模型。對[i=1,…,I],[zi=(zi1,zi2,zi3)T]為代表([Bi],[Si])屬于哪個類型交易日的示性向量,即如果([Bi],[Si])服從[fj(Bi,Si|εb,εs,μ)],則[zij=1];否則[zij=0]。因此有[j=13zij=1]。令[Z={zi}Ii=1]表示這些示性向量的組合,這就是貝葉斯理論框架中的缺失數(shù)據(jù)。觀測數(shù)據(jù)和缺失數(shù)據(jù)組成了完整數(shù)據(jù)集(B,S,Z),其密度函數(shù)為:
[f(B,S,Zθ)=f(Zθ)f(B,SZ,θ)=i=1If(ziθ)i=1If(Bi,Sizi,θ)=i=1Ij=13pzijji=1Ij=13fzijj(Bi,Siεb,εS,μ)]? ?(2)
給定參數(shù)[θ]的一個先驗分布[π],可以得到缺失數(shù)據(jù)和參數(shù)的聯(lián)合后驗分布:
[fZ,θ|B,S∝π(θ)fB,S,Z|θ]? ? ? ? ? ? ? ? ? ? ?(3)
使用Gibbs抽樣從這個后驗分布中進(jìn)行模擬,也就是給定參數(shù)后抽取缺失數(shù)據(jù),再給定缺失數(shù)據(jù)抽取參數(shù),如此迭代抽樣。
(二)先驗分布
假設(shè)參數(shù)的先驗分布有如下形式:
[π(θ)=π(α)×π(δ)×π(εb)×π(εS)×π(μ)=U(α0,1)×U(δ0,1)×Γ(εbλεb,βεb)×Γ(εSλεS,βεS)×? ? Γ(μλμ,βμ)∝ ελεbb-1 e-βεbεb ελεSS-1 e-βεSεS μλμ-1e-βμμ](4)
這里,[U(0,1)]是[0,1]均勻分布,而[Γ(λ,β)]代表以[λ]為形狀參數(shù)、以[β]為速率參數(shù)的伽馬分布。因為泊松分布的共軛先驗是伽馬分布,本文設(shè)定[εb,εs,μ]的先驗為相互獨立的伽馬分布,其超參數(shù)分別設(shè)定為[(λεb,βεb)]、[(λεs,βεs)] 和[(λμ,βμ)]。但是,這幾個伽馬先驗分布并不與式(2)中復(fù)雜的混合模型共軛。因此,本文需要采取更加先進(jìn)的計算方法來抽樣[εb]、 [εs] 和 [μ],本文下一小節(jié)將會給出詳細(xì)說明。
(三)Gibbs抽樣算法
將式(4)和式(2)帶入式(3)可以得到[Z]和[θ]的聯(lián)合后驗分布。通過去掉常數(shù)項和重新排列,該分布函數(shù)可以寫為:
[f(Z,θB,S)∝e-I(εb+εs)?ελKb-1be-βKbεb?ελKs-1s?μλμ-1e-βμμi=1Iα(1-δ)e-μεb+μBiεSiszi1αδe-μεBibεS+μSizi21-αεBibεSiszi3]
(5)
Gibbs抽樣算法就是從完整的條件后驗分布[f(Z|θ,B,S)]、[f(α|Z,δ,εb,εs,μ,B,S)]、[f(δ|Z,α,εb,εs,μ,B,S)]、
[f(εb|Z,α,δ,εs,μ,B,S)]、[f(εsZ,α,δ,εb,μ,B,S)]和
[f(μ|Z,α,δ,εb,εs,B,S)]中依次迭代抽樣。具體如下:
[Z]的抽樣:將式(5)中與 [Z]無關(guān)的項去掉并將其重排后,[Z]的完整條件后驗分布可以寫為:
[fZ|θ,B,S∝i=1I[(α(1-δ)e-μ(εb+μ)BiεsSi)zi1(αδe-μεbBi(εs+μ)Si)zi2((1-α)εbBiεsSi)zi3]] (6)
因此,對[i=1,…,I],[zi]可以被獨立地從多項分布中抽出,而多項分布的概率參數(shù)分別為:
[(7)]
[α]和[δ]的抽樣:將式(5)中與[α]無關(guān)的項去掉并將其重排后,[α]的完整條件后驗分布可以寫為:
[fα|Z,δ,εb,εs,μ,B,S∝αi=1I(zi1+zi2)(1-α)i=1Izi3]? ? (8)
顯然,這是一個貝塔分布,參數(shù)為([i=1I(zi1+zi2)+1], [i=1Izi3+1])。值得注意的是,[α]的每一次抽樣都不可能恰好為0或者1,這也就避免了邊界解問題。
將式(5)中與[δ]無關(guān)的項去掉并將其重排后,[δ]的完整條件后驗分布可以寫為:
[fδ|Z,α,εb,εs,μ,B,S∝∝(1-δ)i=1Izi1δi=1Izi2]? ?(9)
這也是一個貝塔分布,參數(shù)為([i=1Izi2+1], [i=1Izi1+1])。
[εb]的抽樣:將式(5)中與[εb]無關(guān)的項去掉并將其重排后, [εb]的完整條件后驗分布可以寫為:
[fεb|Z,α,δ,εs,μ,B,S∝e-I+βεbεbεbi=1IBizi2+zi3+λεb-1(εb+μ)i=1IBizi1]? ? (10)
這并不是一個可以直接進(jìn)行抽樣的分布函數(shù),但是,可以證明當(dāng) [λεb>1]時,式 (10)的密度函數(shù)是對數(shù)凹函數(shù),也就是說,密度函數(shù)的對數(shù)形式是凹向下的。具體來說,令[N1=i=1IBizi2+zi3+λεb-1],[ N2=i=1IBizi1],則式(10)的對數(shù)形式為:
[gεbεb=-I+βεbεb+N1logεb+N2log (εb+μ)]? ? (11)
很容易證明其二階導(dǎo)為:
[g''εbεb=-N1εb2-N2(εb+μ)2]? ? ? ? ? ? ? ? ? ? ?(12)
當(dāng)[λεb>1]時,式(12)一定為負(fù)。因此,可以使用ARS算法,一種可以有效地從任意單變量對數(shù)凹概率密度函數(shù)中抽樣的標(biāo)準(zhǔn)算法,來抽樣[εb]。
[εs]的抽樣:將式(5)中與[εs]無關(guān)的項去掉并將其重排后, [εs]的完整條件后驗分布可以寫為:
[fεs|Z,α,δ,εb,μ,B,S∝e-I+βεsεsεsi=1ISizi1+zi3+λεs-1(εs+μ)i=1ISizi2]? ? (13)
令[N3=i=1ISizi1+zi3+λεs-1],[N4=i=1ISizi2]。式(13)的對數(shù)形式為:
[gεsεs=-I+βεsεs+N3logεs+N4log (εs+μ)] (14)
其二階導(dǎo)為:
[g''εsεs=-N3εs2-N4εs+μ2]? ? ? ? ? ? ? ? ? ? ? ? ?(15)
當(dāng)[λεs>1],式(5)一定為負(fù)。所以如果[λεs>1],則式(13)的分布是對數(shù)凹函數(shù),則ARS算法同樣可以用來抽樣[εs]。
[μ]的抽樣:將式(5)中與[μ]無關(guān)的項去掉并將其重排后,[μ]的完整條件后驗分布可以寫為:
[fμ|Z,α,δ,εb,εs,B,S∝e-i=1Izi1+zi2+βμμμλμ-1(εb+μ)i=1IBizi1(εs+μ)i=1ISizi2] (16)
令[N5=i=1Izi1+zi2+βμ],式(16)的對數(shù)形式為:
[gμμ=-N5μ+λμ-1logμ+N2logεb+μ+N4log (εs+μ)] (17)
很容易證明其二階導(dǎo)為:
[g''μμ=-λμ-1μ2-N2(εb+μ)2-N4εs+μ2]? ? ?(18)
當(dāng) [λμ>1]時,二階導(dǎo)數(shù)(18)一定為負(fù)。因此,如果[λμ>1],則分布函數(shù)式(16)是對數(shù)凹函數(shù),那么也可以用ARS算法來從中抽樣。
假設(shè)[{(αm,δm,εbm,εs(m),μ(m))}Mm=1]這M組參數(shù)的后驗抽樣是通過收斂后的Gibbs抽樣算法取得的。對于任意一組抽樣參數(shù)值,可以計算出相應(yīng)的PIN值:
[PIN(m)=αmμ(m)αmμ(m)+εbm+εs(m)]? ? ? ? ? ? ? ? ? ? ?(19)
本文考慮使用基于后驗抽樣的貝葉斯后驗均值估計,即[{PIN(m)}Mm=1]的后驗均值。
三、數(shù)值模擬研究
本文通過數(shù)值模擬研究來比較PIN的貝葉斯估計方法、原始的極大似然估計方法(MLE1)以及改進(jìn)的極大似然估計方法(MLE2)的表現(xiàn)。模擬數(shù)據(jù)的生成機制便是式(1)聯(lián)合而成的混合二維泊松模型[fB,S|θ=i=1IfBi,Si|θ]。對于一天之內(nèi)信息事件發(fā)生的概率[α],考慮真值設(shè)定:[α]=0.3(信息事件發(fā)生概率適中),生成的數(shù)據(jù)集包含I=21個交易日的買賣訂單數(shù)量,因為I=21天是平均一個月的交易日數(shù)量。平均而言,每一組數(shù)據(jù)集中大約有6.3個交易日是存在知情交易的。
參數(shù)[δ]的真值設(shè)定為0.7。[εb]和[εs]的真值設(shè)定反映了真實股票數(shù)據(jù)的情況。根據(jù)Duarte和Young(2009)中的實證結(jié)果,基于ISSM高頻數(shù)據(jù)庫(1983—1992年)和紐約證券交易所TAQ數(shù)據(jù)庫 (1993—2005年)的數(shù)據(jù)進(jìn)行計算,發(fā)現(xiàn)交易最不頻繁的股票的[εb]和[εs]估計值平均小于1,然而交易最活躍的股票的[εb]被估計到將近300,[εs]大約200。如今,股票日均被交易上千次是很尋常的事情。為簡單起見,設(shè)定[εs=εb=ε],而為了涵蓋各種實際可能存在的情況,[ε]的真值被設(shè)定為[ε∈]{0.5, 10, 50, 200, 800, 1600}。同時,為了研究知情交易速率和非知情交易速率的比值對于結(jié)果有何影響,對[ε]的每一種取值,[μ]都有四種可能的取值設(shè)定,即為[μ]/[ε∈]{0.5, 1, 1.5, 2}$。給定[α]的取值, PIN可以被寫為:
[PIN=αμεαμε+2]
這時的PIN只取決于[μ/ε]的值而不是[ε]值。在本文的模擬設(shè)定中,[α]=0.3時,對應(yīng)[μ]/[ε]不同取值的PIN真值分別為PIN[∈]{0.070,0.130,0.184,0.231}。對于每一組參數(shù)設(shè)定,模擬生成N=1000個數(shù)據(jù)集。
表1和表2展示了[α]=0.3且I=21的場景下所有方法估計結(jié)果的均方根誤差和偏差。為了更加清晰地展示結(jié)果,這兩個表格中的所有數(shù)值都是原始數(shù)據(jù)擴大100倍后的結(jié)果。而這些表格中的“NaN”標(biāo)識代表了由于FPE問題而導(dǎo)致相應(yīng)方法得不到PIN的估計結(jié)果。原始的MLE方法只在Panel A、Panel B以及Panel C的前兩列這些參數(shù)設(shè)定下得到了PIN的估計。改進(jìn)的MLE估計擴大了可以得到PIN估計的參數(shù)設(shè)定范圍,將其擴大到前四個子表以及Panel E的第一列。而貝葉斯方法對于所有的參數(shù)設(shè)定情形都是有效的。顯然,貝葉斯方法可以避免交易量大的數(shù)據(jù)所帶來的FPE問題。
表1顯示了當(dāng)[α=0.3]、[δ=0.7]、[εs]=[εb]=[ε]且I=21時,原始MLE(MLE1)、改進(jìn)MLE(MLE2)和貝葉斯估計(后驗均值Bayes-mean)的均方根誤差結(jié)果比較。
當(dāng)原始的MLE和改進(jìn)的MLE估計結(jié)果都存在時,二者的均方根誤差和偏差是類似的,只有在[ε]=50 且 [μ/ε]=1的情況下二者差異較大。這個結(jié)果是合理的,因為在改進(jìn)的MLE方法中使用的對數(shù)似然函數(shù)其實就是原始MLE方法所使用的似然函數(shù)的等價變換形式,本質(zhì)上沒有區(qū)別。而在[ε]=50 且 [μ/ε]=1的情況下所存在的差異可能是由于這種設(shè)定達(dá)到了原始MLE方法能夠被應(yīng)用的參數(shù)范圍邊界。
仔細(xì)分析表1的均方根誤差結(jié)果可以發(fā)現(xiàn),當(dāng)[ε]=0.5且 [μ/ε]=0.5時,交易數(shù)據(jù)中幾乎沒有任何知情交易的信息。此時,所有方法都沒有得到令人滿意的估計結(jié)果,因為所有方法的均方根誤差都要比PIN的真實值(0.070)大。而在其他所有參數(shù)設(shè)定場景中,貝葉斯估計的均方根誤差都要比改進(jìn)的MLE的?。ó?dāng)改進(jìn)的MLE方法的結(jié)果可以得到時)。對于不同的[ε]([≥]50)真值設(shè)定,貝葉斯估計的均方根誤差表現(xiàn)都是相對穩(wěn)定的。當(dāng)[μ/ε]真實比值或者說是真實PIN值增大時,均方根誤差增加,但是均方根誤差與真實PIN的比值在不斷減?。ù笾聻?.30、0.27、0.25 和 0.23),這說明貝葉斯估計的相對精度在增加。
表2是當(dāng)[α=0.3]、[δ=0.7]、[εs=εb=ε]且I=21時,原始MLE(MLE1)、改進(jìn)MLE(MLE2)和貝葉斯估計(后驗均值Bayes-mean)的偏差結(jié)果比較。
表2所展示的各方法估計偏差的表現(xiàn)形式并不如其均方根誤差所展示的情況清晰。在Panel A中,當(dāng)[ε]非常小時,交易數(shù)據(jù)中幾乎沒有知情交易的信息,此時的偏差要遠(yuǎn)遠(yuǎn)大于其他情況下的估計偏差。在一些參數(shù)設(shè)定場景中,貝葉斯方法的估計結(jié)果偏差要小于改進(jìn)的MLE估計的偏差,而在另外一些參數(shù)設(shè)定場景中,改進(jìn)的MLE估計偏差比貝葉斯估計的偏差要小。在Panel B-F中,大部分情況下貝葉斯估計在所有貝葉斯估計結(jié)果中具有最小的偏差。
四、實證數(shù)據(jù)分析
(一)數(shù)據(jù)選取
本文使用了2009年1月1日至2015年12月31日期間在上海證券交易所和深圳證券交易所交易的全部股票的每日高頻逐筆交易數(shù)據(jù),數(shù)據(jù)來自銳思高頻數(shù)據(jù)庫系統(tǒng)(RESSET/HF)。2009年上海證券交易所和深圳證券交易所共有1777只股票掛牌交易,而隨著中國金融市場蓬勃發(fā)展,這一數(shù)字在2015年已達(dá)到2892只。
對于每只股票,高頻數(shù)據(jù)的每條記錄包括交易的時間(精確到秒)、成交價格、成交量(以股為單位)、5個最優(yōu)賣價與相應(yīng)賣量、5個最優(yōu)買價與相應(yīng)買量、交易方向等信息,以及相應(yīng)的市場買賣指標(biāo)。
RESSET/HF數(shù)據(jù)庫采用的是Lee和Ready(1991)提出的方法來判斷每一筆交易的方向(買方發(fā)起或賣方發(fā)起)。其判斷原則為:如果當(dāng)前該筆交易的交易價格大于此前買賣報價的中點,則認(rèn)為這筆交易是買方發(fā)起的,反之則是賣方發(fā)起的,如果恰好等于買賣報價中點,則判定這筆交易的方向與上一筆交易方向相同。
為了保證使用的數(shù)據(jù)是正確且合理的記錄,本文首先用如下標(biāo)準(zhǔn)對原始高頻數(shù)據(jù)進(jìn)行篩選:只保留發(fā)生在交易所開盤時間內(nèi)的交易記錄,即上午9:30至11:30和下午1:00至3:00;只保留報價和交易量均不為零的交易記錄。
在去掉了不符合上述條件的交易記錄之后,將每一只股票在每一個交易日內(nèi)的買賣訂單數(shù)量分別求和。如果一只股票因為停牌或者退市等原因?qū)е缕湓谀骋荒陜?nèi)沒有交易記錄或者一年內(nèi)累計交易日沒有超過 20天,那么就不計算其在該年的PIN值。
(二)改進(jìn)的MLE方法的實證結(jié)果
表3展示了在每一年用來估計PIN的股票個數(shù),以及由于FPE問題導(dǎo)致使用改進(jìn)的MLE估計無法得到年度PIN值的股票所占比例。在2009年,1751只股票中有837只股票無法用改進(jìn)的MLE方法估計,大約占市場總市值的19.31% ,而占市場流通市值的 20.97%。在接下來的六年中,這幾個比值急劇增長。截至2015年底, 2875只股票中有2644只股票不能使用改進(jìn)的MLE方法,占市場總市值的75.56%而占市場流通市值72.93%。由此而見,對于近幾年的中國市場來說,用改進(jìn)的MLE方法來估計股票年度PIN值并不合適。
已有文獻(xiàn)將極大似然估計方法計算不出PIN值的問題歸因于買賣訂單數(shù)量過大,這可能引發(fā)似然函數(shù)中的指數(shù)函數(shù)部分的數(shù)值超出計算機軟件程序可以處理的實數(shù)域范圍(Easley等,2010;Lin和Ke,2011)。圖1畫出的max(B)和max(S)的散點圖,是針對2411個改進(jìn)的MLE可以計算出PIN值結(jié)果的股票—年案例和14482個改進(jìn)的MLE方法失敗了的股票—年案例,分別計算它們?nèi)斩荣I方發(fā)起訂單量的最大值和日度賣方發(fā)起訂單量的最大值。由圖1(a)可以看出,能夠用改進(jìn)的MLE估計出PIN的案例通常每日買賣訂單數(shù)量的最大值都不會超過2000。而圖1(b)中,改進(jìn)的MLE估計失敗的案例其最大值大都遠(yuǎn)離原點。在本文使用的實際數(shù)據(jù)中,年度max(B)和max(S)都小于329的股票一定可以用改進(jìn)的MLE方法來估計PIN。
圖2分別給出了改進(jìn)的MLE可以計算出PIN值結(jié)果的股票—年案例和得不到PIN值結(jié)果的股票—年案例的每日買方提交訂單數(shù)和每日賣方提交訂單數(shù)的標(biāo)準(zhǔn)差[σB]和[σS]的散點圖。能夠用改進(jìn)的MLE估計出PIN的案例,其買賣訂單數(shù)量的標(biāo)準(zhǔn)差均不會超過300。也就是說,買賣訂單數(shù)量如果波動較大也可能會導(dǎo)致改進(jìn)的MLE方法失敗。
圖3提供了另外一種探究改進(jìn)的MLE方法在何種情況下容易失效的思路。對于每只股票每年的日度買賣訂單量數(shù)據(jù),計算買單數(shù)和賣單數(shù)的相關(guān)系數(shù),并將所有股票—年案例按照買賣訂單量相關(guān)系數(shù)的大小劃分為10組:相關(guān)系數(shù)在0和0.1之間的,在0.1和0.2之間的,[…],在0.9和1之間的。圖3展示了在每一組中,可以使用改進(jìn)的MLE的案例和不能使用的案例分別所占的比例。隨著相關(guān)系數(shù)的增加,可以使用改進(jìn)的MLE的案例占比在減小。對于相關(guān)系數(shù)小于0.1的組,有近40%的股票—年案例可以使用改進(jìn)的MLE方法估計PIN值;而在相關(guān)系數(shù)大于0.9的組,這個占比小于5%。因此,每日買賣訂單數(shù)量之間的高相關(guān)性也可能會導(dǎo)致改進(jìn)的MLE方法出現(xiàn)計算錯誤。
(三)貝葉斯方法的實證結(jié)果
本文使用貝葉斯方法來估計所有股票在七年間每年的PIN值和[θ=(α,δ,εb,εs,μ)]參數(shù)值。與數(shù)值模擬結(jié)果類似,使用貝葉斯方法可以得到全部股票在每一年的PIN估計值。圖4展示了PIN和參數(shù)的估計值在橫截面上第5百分位數(shù)(5th), 第一四分位數(shù)(25th),中位數(shù)(50th),第三四分位數(shù)(75th)和第95百分位數(shù)(95th)的時間序列圖。PIN估計值的分位數(shù)在2009—2010年期間是相對比較低的,其在這兩年的中位數(shù)分別為0.108和0.117。這與[μ](知情交易訂單的速率)在這兩年期間呈現(xiàn)了相對較低水平是有關(guān)聯(lián)的,[μ]在這兩年的中位數(shù)分別只有287.19和310.06。在接下來的三年期間(2011—2013年),PIN估計值的分位數(shù)與2009—2010年相比達(dá)到了更高的水平,中位數(shù)分別有0.150、0.165和0.140。盡管2011—2013年期間[α](信息事件發(fā)生的概率)的水平不如2009—2010年期間的高,但是2011—2013年的[μ]變得更高了,[μ]在這三年的中位數(shù)分別為359.61、 381.37和378.11,并且[εb](非知情交易者提交買單的速率)和[εs](非知情交易者提交賣單的速率)也比2009—2010年期間的低,所以PIN的整體水平是提高的。
在2014年,[α]的水平相較之前三年提高了,[μ]同樣也在增加,其中位數(shù)提高到了433.80,但是[εb]和[εS]也比2011—2013年期間的水平高了。因此只有PIN估計值的第95百分位數(shù)相較于之前三年的顯著增大了,從2013年的0.218增加到2014年的0.260,但是其他分位數(shù)與2011—2013年的水平相似。
2015年的情況是七年中的一個例外。相比于2014年的水平,[α]中位數(shù)擴大了55.04%,而[μ]的中位數(shù)也增加到了502.12。因此,2015年的PIN值也達(dá)到了七年期間的最高值,其中位數(shù)高達(dá)0.195。另外,[δ](信息事件是利空消息的概率)除了第95百分位數(shù)之外的其他分位數(shù)在2015年都非常低。也就是說,2015年發(fā)生的信息事件絕大多數(shù)都是利好消息,而知情交易者大部分情況下發(fā)起的是買方訂單。因為知情交易者是從非知情交易者手中購買股票的,因此在2015年[εs]也大幅提高了,增幅約為2014年的49.68%。
這種特殊的結(jié)果可能與中國股票市場在2015年中所經(jīng)歷的股災(zāi)及流動性枯竭有關(guān)系,在未來的研究中需要對2015年的交易情況進(jìn)行更加細(xì)致的分析。
五、總結(jié)
本文展示了估計PIN模型的貝葉斯框架,并且提出了三種PIN的貝葉斯點估計方法?;诖罅康哪M研究和實證分析,本文證明了使用貝葉斯后驗均值或者后驗中位數(shù)得到的PIN估計值的表現(xiàn)要優(yōu)于原始的或者改進(jìn)的極大似然估計方法的表現(xiàn)。在模擬研究中,極大似然估計方法在有著較大每日交易速率的參數(shù)場景設(shè)定下會出現(xiàn)計算問題,從而得不到PIN的估計,而在實證分析中,極大似然估計也會因為同樣的問題無法計算出大部分股票的PIN值。與此相反,PIN的貝葉斯估計總是可以得到的。此外,模擬研究發(fā)現(xiàn),當(dāng)極大似然估計結(jié)果可得時,PIN的貝葉斯估計的均方根誤差總是比極大似然估計的更小。貝葉斯方法使得PIN的計算不再受限制,未來可以進(jìn)一步拓寬與PIN相關(guān)的實證研究。
注:
①受篇幅限制,PIN的理論基礎(chǔ)和模型分布函數(shù)請參考郇鈺和趙婉迪(2018),本文不再贅述。
參考文獻(xiàn):
[1]Boehmer E,Grammig J,Theissen E. 2007. Estimating the Probability of Informed Trading—Does Trade Misclassification Matter?[J].Journal of Financial Markets,10(1).
[2]Duarte J, Young L. 2009. Why is PIN priced?[J].Journal of Financial Economics,91(2).
[3]Easley D,Hvidkjaer S,O'Hara M. 2002. Is Information Risk a Determinant of Asset Returns?[J].The Journal of Finance,57(5).
[4]Easley D,Hvidkjaer S,OHara M. 2010. Factoring Information into Returns[J].Journal of Financial and Quantitative Analysis,45(2).
[5]Easley D,Kiefer N M, O'Hara M et al. 1996. Liquidity, Information, and Infrequently Traded Stocks[J].The Journal of Finance,51(4).
[6]Easley D,O'Hara M,Paperman J. 1998. Financial Analysts and Information-Based Trade[J].Journal of Financial Markets,1(2).
[7]Efron B,Gong G. 1983. A Leisurely Look at the Bootstrap,the Jackknife,and Cross-Validation[J].The American Statistician,37(1).
[8]Fama E F,F(xiàn)rench K R. 1993. Common Risk Factors in the Returns on Stocks and Bonds[J].Journal of Financial Economics,33(1).
[9]Glosten L R,Milgrom P R. 1985. Bid,Ask and Transaction Prices in a Specialist Market with Heterogeneously Informed Traders[J]. Journal of Financial Economics,14(1).
[10] Newey W K,West K D. 1987. A Simple,Positive Semi-Definite,Heteroskedasticity and Autocorrelation Consistent Covariance Matrix[J]. Econometrica,55(3).
[11]Ramalho J J S. 2006. Bootstrap Bias-Adjusted GMM Estimators[J].Economics Letters,92(1).
[12]William Lin H-W,Ke W-C. 2011. A Computing Bias in Estimating the Probability of Informed Trading[J]. Journal of Financial Markets,14(4).
[13]Yan Y,Zhang S. 2012. An Improved Estimation Method and Empirical Properties of the Probability of Informed Trading[J].Journal of Banking & Finance,36(2).
[14]Diebolt, Robert, C. P. 1994. Estimation of Finite Mixture Distributions Through Bayesian Sampling[J].Journal of the Royal Statistical Society,56(2).
[15]Viallefont V,Richardson S,Green P J. 2002. Bayesian Analysis of Poisson Mixtures[J].Journal of Nonparametric Statistics,14(1-2).
[16]Martin A. Tanner,Wong W H. 1987. The Calculation of Posterior Distributions by Data Augmentation[J]. Journal of the American statistical Association,82(398).
[17]Gilks W R,Wild P. 1992. Adaptive Rejection Sampling for Gibbs Sampling[J].Journal of the Royal Statistical Society,41(2).
[18]Gelman A,Rubin D B. 1992. Inference from Iterative Simulation Using Multiple Sequences[J].Statistical Science,7(4).
[19]Charles M.C.Lee and Mark J.Ready. 1991. Inferring Trade Direction from IntraDay Data[J]. Journal of Financial,46(2).
[20]郇鈺, 趙琬迪. 知情交易概率的估計方法比較[J]. 金融發(fā)展研究,2018,(4).
Bayesian Estimation of PIN Model
Huan Yu
(Postdoctoral Scientific Research Station,ICBC,Beijing? ?100032)
Abstract:The probability of informed trading(PIN)is widely used and it's an index to? directly measure the market information asymmetry risk. Due to the complex form of Likelihood Estimation Function,Maximum Likelihood Estimation(MLE)of the PIN model often encounters numerical overflowing problems in the process of optimization. Based on Gibbs sampling combined with adaptive rejection sampling,a Bayesian method is proposed for the estimation of PIN. Simulation studies reveal that the Bayesian method overcomes numerical problems and it also can get more accurate estimation than the MLE methods. This paper uses Bayesian Estimation to conduct an empirical analysis of the stocks between Shanghai and Shenzhen from 2009 to 2015 and the scope of the empirical study of the probability of informed trading PIN is expended accordingly.
Key Words:probability of informed trading,bayesian estimation,gibbs sampling,ARS sampling