文/黃洲丹,河南大學(xué)經(jīng)濟(jì)學(xué)院
計(jì)算機(jī)現(xiàn)在涉及許多經(jīng)濟(jì)交易,并且可以捕獲與這些交易相關(guān)的數(shù)據(jù),然后可以對(duì)其進(jìn)行操縱和分析。傳統(tǒng)的統(tǒng)計(jì)和計(jì)量經(jīng)濟(jì)學(xué)技術(shù)(如回歸)通常效果很好,但是大數(shù)據(jù)集可能需要使用不同的工具。
首先,所涉及的數(shù)據(jù)的龐大規(guī)??赡苄枰鼜?qiáng)大的數(shù)據(jù)處理工具。其次,我們可能有更多的潛在預(yù)測(cè)因子而不是估計(jì)的適當(dāng)預(yù)測(cè)因子,因此我們需要進(jìn)行某種變量選擇。第三,大型數(shù)據(jù)集可以允許比簡(jiǎn)單線性模型更靈活的關(guān)系,諸如決策樹,支持向量機(jī),神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)等機(jī)器學(xué)習(xí)技術(shù)可以允許更有效的方式來建模復(fù)雜的關(guān)系。
歷史上經(jīng)濟(jì)學(xué)家一直在處理適合電子表格的數(shù)據(jù),但隨著新的更詳細(xì)的數(shù)據(jù)變得可用,這種情況正在發(fā)生變化。如果電子表格中有超過一百萬行,您可能希望將其存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,例如MySQL。關(guān)系數(shù)據(jù)庫(kù)提供了一種使用結(jié)構(gòu)化查詢語言(SQL)存儲(chǔ),操作和檢索數(shù)據(jù)的靈活方式,這種語言易于學(xué)習(xí),對(duì)于處理中型數(shù)據(jù)集非常有用。
但是,如果您有幾千兆字節(jié)的數(shù)據(jù)或幾百萬個(gè)觀察值,標(biāo)準(zhǔn)關(guān)系數(shù)據(jù)庫(kù)就變得難以處理。管理這種大小數(shù)據(jù)的數(shù)據(jù)庫(kù)通常稱為“NoSQL”數(shù)據(jù)庫(kù),它在數(shù)據(jù)處理能力方面比SQL數(shù)據(jù)庫(kù)更原始,但可以處理更大量的數(shù)據(jù)。
處理大型數(shù)據(jù)集的另一個(gè)潛在問題被稱為過度擬合問題。當(dāng)線性回歸捕獲數(shù)據(jù)集中的穩(wěn)固關(guān)系但遇到非常差的樣本外預(yù)測(cè)能力時(shí)會(huì)遇到這種情況,非常復(fù)雜的模型可能描述的是噪聲或隨機(jī)誤差,而不是模型中真正的基礎(chǔ)關(guān)系,這稱為過度擬合。過度擬合是非參數(shù)非線性模型中特別關(guān)注的問題,其本質(zhì)上往往是復(fù)雜的,描述噪聲的模型僅適合該特定數(shù)據(jù)集,并且在樣本外數(shù)據(jù)集中表現(xiàn)不佳。解決此問題的兩種常用方法是使用不太復(fù)雜的模型,或是將大型數(shù)據(jù)集分解為小樣本,以測(cè)試和驗(yàn)證是否存在過度擬合。
使用大數(shù)據(jù)進(jìn)行預(yù)測(cè)是機(jī)器學(xué)習(xí)的重點(diǎn),如果存在線性關(guān)系,可以利用回歸;如果存在非線性關(guān)系,機(jī)器學(xué)習(xí)可以部署工具,例如分類和回歸樹,交叉驗(yàn)證,條件推理樹,隨機(jī)森林和懲罰回歸。分類可以被認(rèn)為是二項(xiàng)式?jīng)Q策樹,分類和回歸樹在解釋復(fù)雜和非線性關(guān)系時(shí)非常有用,k折交叉驗(yàn)證和隨機(jī)森林是操作和分析大數(shù)據(jù)的兩個(gè)主要工具。
前面提到的涉及大數(shù)據(jù)的一個(gè)主要問題是樹傾向于過度擬合數(shù)據(jù),這意味著樣本外預(yù)測(cè)不如樣本內(nèi)那樣可靠,過度擬合的一個(gè)潛在解決方案是交叉驗(yàn)證。在k倍交叉驗(yàn)證中,較大的數(shù)據(jù)集被分解為“k”個(gè)子集(也稱為折疊)。大型數(shù)據(jù)集可能會(huì)分解為10個(gè)較小的數(shù)據(jù)池。
這個(gè)過程從折疊1作為測(cè)試集開始,折疊2-10作為訓(xùn)練集。研究人員將在所有訓(xùn)練集中尋找統(tǒng)計(jì)關(guān)系,然后使用折疊1來測(cè)試輸出,看它是否具有預(yù)測(cè)用途;然后,他們將重復(fù)該過程k次,使得每次折疊成為測(cè)試集,結(jié)果最終取自所有測(cè)試的平均值以找到共同關(guān)系。通過這種方式,研究人員可以測(cè)試他們對(duì)樣本外數(shù)據(jù)集的預(yù)測(cè),這些數(shù)據(jù)集實(shí)際上是較大數(shù)據(jù)集的一部分。
構(gòu)建隨機(jī)森林也是一種改進(jìn)大型數(shù)據(jù)集預(yù)測(cè)的方法,此方法使用引導(dǎo)從大型數(shù)據(jù)集中生成多個(gè)樹,使用隨機(jī)森林來平均許多小模型即使在處理非線性數(shù)據(jù)時(shí)也會(huì)產(chǎn)生非常好的樣本外擬合。計(jì)算機(jī)使這種方法更加可行,因?yàn)橛袝r(shí)可以在隨機(jī)森林中種植數(shù)千棵樹,創(chuàng)建隨機(jī)森林有四個(gè)步驟:
1.從完整數(shù)據(jù)集中選擇一個(gè)自舉樣本(帶有替換)并生成一棵樹;2.在樹上的每個(gè)節(jié)點(diǎn)上,選擇一個(gè)隨機(jī)的預(yù)測(cè)變量用于決策,在這個(gè)過程中不需要修剪;3.多次重復(fù)此過程以生長(zhǎng)樹木的“森林”;4.使用每棵樹對(duì)新觀察進(jìn)行分類,并根據(jù)森林的多數(shù)投票選擇最終分類。
有幾個(gè)不同的領(lǐng)域,計(jì)量經(jīng)濟(jì)學(xué)和機(jī)器學(xué)習(xí)之間可能存在有用的協(xié)作。大多數(shù)機(jī)器學(xué)習(xí)假設(shè)數(shù)據(jù)是獨(dú)立且相同的,并且大多數(shù)數(shù)據(jù)集都是橫截面數(shù)據(jù),在實(shí)踐中,時(shí)間序列分析可能更有用。計(jì)量經(jīng)濟(jì)學(xué)可以使用貝葉斯結(jié)構(gòu)時(shí)代系列模型等工具來預(yù)測(cè)時(shí)間序列數(shù)據(jù)。
也許最重要的合作機(jī)會(huì)與因果推理有關(guān),這可能是大數(shù)據(jù)的自然副產(chǎn)品,相關(guān)并不總是表明因果關(guān)系。傳統(tǒng)上,機(jī)器學(xué)習(xí)一直是最純粹的預(yù)測(cè),但計(jì)量經(jīng)濟(jì)學(xué)家已經(jīng)開發(fā)了許多工具來揭示因果關(guān)系,將這些工具與機(jī)器學(xué)習(xí)相結(jié)合可以證明是非常有意義的合作。
大數(shù)據(jù)不再追尋經(jīng)濟(jì)行為之間的因果關(guān)系,轉(zhuǎn)而用相關(guān)關(guān)系挖掘經(jīng)濟(jì)行為之間的聯(lián)系。這給計(jì)量經(jīng)濟(jì)學(xué)研究帶來的好處就是:大數(shù)據(jù)量化經(jīng)濟(jì)風(fēng)險(xiǎn),減弱了經(jīng)濟(jì)行為中因信息不確定性帶來的逆向選擇和道德風(fēng)險(xiǎn);大數(shù)據(jù)提供計(jì)量經(jīng)濟(jì)學(xué)更大的探尋歷史、追尋未來的空間;傳統(tǒng)計(jì)量經(jīng)濟(jì)理論多為“紙上談兵”,大數(shù)據(jù)給傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)帶來新轉(zhuǎn)機(jī),使得經(jīng)濟(jì)理論預(yù)測(cè)和現(xiàn)實(shí)經(jīng)濟(jì)行為貼合度更高。種種跡象表明大數(shù)據(jù)和計(jì)量經(jīng)濟(jì)學(xué)融合必將結(jié)出豐厚的果實(shí),未來可能誕生大數(shù)據(jù)計(jì)量經(jīng)濟(jì)學(xué)派。