• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)與失業(yè)分析*

    2017-12-20 05:30:26米哈埃拉西米歐奈斯庫克勞斯茲姆曼
    中國人民大學學報 2017年6期
    關鍵詞:吉塔失業(yè)研究

    米哈埃拉·西米歐奈斯庫 克勞斯·F·茲姆曼

    大數(shù)據(jù)與失業(yè)分析*

    米哈埃拉·西米歐奈斯庫 克勞斯·F·茲姆曼

    互聯(lián)網數(shù)據(jù)或者說“大”數(shù)據(jù),正被越來越多地用來及時評估個人、家庭、企業(yè)和公共機構的相關活動。信息集涵蓋大量的觀測值,并可以容納靈活的概念形態(tài)及實驗設置。因此,對于研究廣泛的人力資源議題,如預報、現(xiàn)報和確定衛(wèi)生及福利問題,把握個人生活方方面面的匹配過程,以及在使用傳統(tǒng)數(shù)據(jù)評估存在缺陷的復雜問題中,互聯(lián)網數(shù)據(jù)極其有用。對于多數(shù)國家而言,互聯(lián)網數(shù)據(jù)能夠改進失業(yè)模型和失業(yè)預測分析。不過,預測的準確度還要取決于一個國家的互聯(lián)網普及率、互聯(lián)網用戶的年齡結構,以及所建構的互聯(lián)網變量的穩(wěn)定性。

    大數(shù)據(jù);失業(yè);互聯(lián)網;谷歌;互聯(lián)網普及率

    一、引言

    互聯(lián)網數(shù)據(jù),特別是谷歌網站上的檢索行為數(shù)據(jù),已被不同領域的研究者用于對不同變量的即時預報、預測或分析。例如,對經濟學家和決策者來說,及時了解宏觀經濟指標的真實狀況至關重要。然而,在多數(shù)情況下,這些重要信息只能由國家統(tǒng)計部門發(fā)布,不僅具有一定的滯后性,有時還被校正過。2008年末爆發(fā)經濟危機期間,關于經濟受創(chuàng)程度的官方數(shù)據(jù)不能提供有效信息。相比之下,互聯(lián)網數(shù)據(jù)不僅能做出即時預報,而且還可以為分析個人、企業(yè)和機構行為提供潛在有效的數(shù)據(jù)。

    本文旨在考察互聯(lián)網搜索數(shù)據(jù)在各個領域,特別是在對不同國家的失業(yè)狀況進行建模方面是否有用。針對一些發(fā)達國家的經驗研究已經證實了大數(shù)據(jù)對于失業(yè)率預測及建模的有效性。

    數(shù)字革命標志著從模擬和機械電子技術向數(shù)字電子技術的演變,代表著信息時代的到來。數(shù)字邏輯電路及關聯(lián)技術(互聯(lián)網、計算機、數(shù)字移動電話)的大量生產和廣泛應用是數(shù)字革命的主要支柱。為了建成一個數(shù)字驅動經濟和數(shù)字驅動社會,網絡計算正越來越多地融入我們的日常生活。[1]

    生活的方方面面均可記錄在案。個人和企業(yè)的一舉一動都在互聯(lián)網上呈現(xiàn),這能夠反映市場經濟的完整畫面,以及嵌入大數(shù)據(jù)云里的社會生活全景。意識到這些數(shù)據(jù)蘊含著巨大研究潛力的社會科學家可以利用這些信息資源。歷史數(shù)據(jù)可以重復分析,以便不斷更新對某種現(xiàn)象或進程的看法。利用互聯(lián)網,在問題提出之前就能給出答案,這意味著研究者可以考慮新的研究策略和新穎的調查設計。

    各種產品和服務的在線市場發(fā)展迅速,其中受到特別關注的是就業(yè)市場。社交媒體喜歡這一現(xiàn)象,它們擁有關于個人行為及偏好的大量數(shù)據(jù)。[2]由于技術嵌入了日常生活,社會成分正朝新的方向飛快發(fā)展。數(shù)字技術、信息經濟學和通信技術的最新進展,顯示了宏觀與微觀意義上的“第二經濟”(second economy)的重要性。[3]第二經濟是數(shù)字時代的核心,它在物質世界中安置了一個神經系統(tǒng)。在美國,第二經濟的規(guī)模將很快超過實體經濟。

    第二經濟中利用率最高的部分是互聯(lián)網,社交媒體就是在互聯(lián)網上運作的。時下有許多非常流行的產品,像Google+,F(xiàn)acebook,LinkedIn,Ywitter或YouTube。來自第二經濟、微型化技術、社交媒體和互聯(lián)網的數(shù)據(jù),能夠對官方統(tǒng)計數(shù)據(jù)形成補充。[4]對于那些研究者感興趣的、被大量訪問的關鍵詞,通過谷歌,就可以獲得關于它們的實時、高頻、集總數(shù)據(jù)。[5]但是,谷歌并沒有對這些數(shù)據(jù)的閾值做出說明。

    盡管經濟學研究方法取得了長足的進步,但它在測量上仍存在缺陷,許多指標要么是剛確定下來,要么是經常修改。在此背景下,互聯(lián)網檢索數(shù)據(jù)即使存在局限性,也仍然代表著一個有意義的替代選項,具有巨大的潛力。對分析和預測失業(yè)而言,谷歌檢索數(shù)據(jù)非常有用。

    在本文第二部分,我們會從總體上討論一下互聯(lián)網活躍數(shù)據(jù)。第三部分則集中探討用于失業(yè)率建模的互聯(lián)網數(shù)據(jù),此處將從討論阿斯吉塔斯(N.Askitas)和茲姆曼(K.F.Zimmermann)的寶貴經驗[6]開始。第四部分為本文結論。

    二、互聯(lián)網活躍數(shù)據(jù)

    在20世紀80年代互聯(lián)網興起之時,社會科學研究者認為互聯(lián)網為通過在線調查或其他方法收集數(shù)據(jù)提供了良好的環(huán)境,其優(yōu)勢在于價格和速度。到了90年代,互聯(lián)網蓬勃發(fā)展,成為人們日常生活的一部分,因為它有這樣的好處:人們可以通過電子郵件和其他設備進行快速的溝通,可以上網沖浪或搜索特定的答案。[7]進入21世紀以來,在網絡技術發(fā)展的同時,各種技巧也更加完善。人們對互聯(lián)網的使用越來越多,互聯(lián)網產生了大量的數(shù)據(jù)。一開始,人們甚至不知道他們的數(shù)據(jù)被收集和存儲了。傳統(tǒng)調查在收集數(shù)據(jù)時需要取得調查對象的同意,與此不同的是,現(xiàn)在人們在家庭隱私空間或在辦公室的行為和偏好都被觀察研究了。隨著谷歌進軍市場領域,各種個人信息都被傳播出去。除谷歌之外,流行的互聯(lián)網數(shù)據(jù)源還有Facebook, Wikipedia, LinkedIn, Twitter等。

    康斯坦特(A.Constant)、茲姆曼[8]及阿斯吉塔斯和茲姆曼[9]最早發(fā)表了研究谷歌活躍數(shù)據(jù)是否對分析社會議題有用的研究論文,這些議題包括美國總統(tǒng)大選、失業(yè)、經濟大衰退等。戈艾爾(S.Goel)等人針對互聯(lián)網活躍數(shù)據(jù)做了一個大型調查,描述了大數(shù)據(jù)的強項和弱點所在。[10]互聯(lián)網數(shù)據(jù)有很多優(yōu)點:它們是數(shù)字生成的,便于存儲、組織和處理。它們有地理標記和時間戳,可以進行橫截面的與橫向的精準測量。[11]運用互聯(lián)網數(shù)據(jù),能夠為提高社會福祉做出更加明智、及時、有效的決策,特別是在危機時期。在此背景下,理論與經驗數(shù)據(jù)的關系就改變了。大數(shù)據(jù)涉及大量的觀測值,允許采取靈活的實驗設置和概念形態(tài)。搜索活動數(shù)據(jù)使研究者能在不同的時空背景下進行分析,有利于跨學科研究,并能提供間接的面板調查數(shù)據(jù)。在經濟危機期間,由于互聯(lián)網數(shù)據(jù)是以高頻率且近乎實時提供的,因此經濟受破壞的趨勢能夠及時被察覺。

    互聯(lián)網數(shù)據(jù)的弱點,可能與它們只能以集總數(shù)據(jù)的形式提供有關。[12]其方法如何,沒有完備的記錄?;ヂ?lián)網活動是通過選定的搜索關鍵詞來反映的,然而,這些關鍵詞合適與否,可能隨著區(qū)域和時間段的不同而有差異。谷歌網頁排名會影響供求。地理位置是用IP地址來界定的,但這些地址只在國家層面才能獲得。一些小的領域還需改進。此外,因為互聯(lián)網的使用可能有偏向性,那么即便樣本是基于大量互聯(lián)網活動得出的,樣本也未必能代表整個群體。例如,麥克拉倫(N.McLaren)和珊布格(R.Shanbhogue)的研究表明,互聯(lián)網的使用會因收入和年齡的差距而有所不同。[13]

    鑒于不同個體、不同國家應對新技術浪潮的方式不同,選擇性偏差是個重要問題。[14]互聯(lián)網普及率是指一個國家全部人口中互聯(lián)網用戶所占的比例。有的國家互聯(lián)網普及率高達90%以上,但在另外一些國家這個比率要小得多。2016年6月30日更新的歐盟互聯(lián)網統(tǒng)計數(shù)據(jù)顯示,歐盟的互聯(lián)網普及率為80.1%。2016年,德國的互聯(lián)網普及率是89%,英國是91.6%,丹麥是95.9%,挪威是96.3%,而美國僅為88.1%。[15]即使在互聯(lián)網高度普及的國家,也不是人人都使用社交媒體或智能手機,而這會導致選擇性偏差。

    將來人們會越來越多地通過(客觀的)嵌入式傳感器來獲取新的數(shù)據(jù),這能提供關于個人生命體征、位置、人類活動與經濟活動的信息。如此,我們的經濟會越來越依賴數(shù)據(jù),而研究機遇也會增加。就像阿斯吉塔斯和茲姆曼指出的那樣,新技術及其組合將會產生新的數(shù)據(jù)并帶來新的挑戰(zhàn)。[16]

    調查者在樣本容量、樣本規(guī)模、采樣頻率上存在的地理差異因互聯(lián)網數(shù)據(jù)得以彌補,而且使用在線調查或電子郵件不會產生邊際成本。[17]作為一個調查平臺,互聯(lián)網既帶來了方法論上的新挑戰(zhàn),同時也具有巨大的潛力。由于互聯(lián)網無處不在,所以既可以獲得代表性樣本,也可以獲得隨機樣本。在充分占有數(shù)據(jù)的情況下,選擇性偏差就被消除了。因為在線用戶的特征非常接近于總人口,因此,樣本就有了代表性,而且還是隨機的。這樣一來,由于擁有無限的數(shù)據(jù),抽樣就不再是必需的了。在根據(jù)互聯(lián)網數(shù)據(jù)進行的大規(guī)模調查方面,一個著名范例是工資指標基金會(Wage Indicator Foundation)進行的工資指標調查。*參見http://www.wageindicator.org/main/Wageindicatorfoundation/researchlab/wageindicator-survey-and-data.基于個人報告形成的工資調查有20多種語言的版本,涉及60多個國家。統(tǒng)一化的工資數(shù)據(jù)對大量的樣本國開放。選擇性偏差的問題雖然存在,但進一步的研究正在試圖彌補這個缺陷。

    用互聯(lián)網進行調查成為數(shù)據(jù)收集的重要渠道。信息和通信技術與互聯(lián)網的優(yōu)勢在于,它們能夠減少幾乎所有市場上匹配工作中的搜索摩擦。匹配不僅在現(xiàn)實生活中極其重要,對于經濟學來說也是如此,因為匹配問題及最優(yōu)解是其研究對象和目標,例如,將長途旅客和飛機的座位相匹配,或者把游客和出租車相匹配。其他的例子還有在就業(yè)市場[18]和婚姻市場[19]上對個人進行配對,這也凸顯了互聯(lián)網在減少搜索摩擦上的優(yōu)勢。而這還可以帶來新的商業(yè)機會,例如招聘服務和網上相親服務。這種針對不同背景下經濟行為的新的數(shù)據(jù)潛力,有利于我們富有成效地重新思考那些久拖未決的問題。實際上,互聯(lián)網還使不同的勞動力市場被取代。例如,如果有人需要醫(yī)生、律師和裝配工等的幫助,他/她只要輸入相應的關鍵詞,就能在很短的時間內從網絡上得到數(shù)百個選項。另外,許多雇主用互聯(lián)網(比如通過LinkedIn)來招聘雇員。2008—2010年的經濟大衰退也證實了互聯(lián)網的巨大潛力,因為此時人們都集中到網上去找工作了。

    互聯(lián)網搜索引擎市場將文獻的供給與需求進行了匹配。將信息的需求與包含此類信息的文獻的供給相關聯(lián)。因此,互聯(lián)網可以及時反映信息需求的整體狀況,而我們也能就此了解檢索此類信息的個人的狀況。Google Trends和谷歌的商業(yè)模式為我們展現(xiàn)了這一需求的全球圖景。阿斯吉塔斯和茲姆曼的研究就遵循了這一思路,突出了Google Trends數(shù)據(jù)的應用,而阿斯吉塔斯和茲姆曼則強調了技術數(shù)據(jù)的應用。[20]

    Google Trends這一數(shù)據(jù)供應工具在2008年夏天開始投入使用,目的是公布對某些問題的相對網絡檢索量,其中用戶可以自由界定針對這些問題的關鍵詞。Google Trends會根據(jù)特定地區(qū)的用戶在谷歌上查詢的問題的多少,給出一個時間序列指數(shù)。這個查詢指數(shù)的計算方式為:某個地區(qū)對特定關鍵詞的查詢總量,除以該地區(qū)某個時間段內查詢問題的總量。該時期最大的查詢份額規(guī)定為100,起始階段的查詢份額為0。[21]

    阿斯吉塔斯對Google Trends的優(yōu)點和缺陷有精當?shù)拿枋?。[22]Google Trends團隊用“會話分析”(sessionization)這一術語來表示搜索數(shù)據(jù)都經過了標準化處理,減少了由于打字錯誤、草率的重復、改寫和其他行為導致的數(shù)據(jù)噪音。搜索會話可以分布在基于IP地址——會話正肇始于這些IP地址——的不同地區(qū)。其科學潛力在于,用戶有能力界定相關變量集,并通過界定及合并關鍵詞建構搜索內容。因此,我們有可能輕輕松松地檢視不同概念帶來的不同結果。

    對經濟學家而言,一個重要議題是怎樣記錄和評估互聯(lián)網上的交易行為。需要謹記保護隱私是個人權利,要解決數(shù)據(jù)所有權、數(shù)據(jù)托管和數(shù)據(jù)隱私的問題。[23]應該完善數(shù)據(jù)供應的制度結構,以避免少數(shù)公司壟斷數(shù)據(jù)。在多數(shù)情況下,數(shù)據(jù)并非是大范圍開放的。另外,也有許多關于政府如何使用公民數(shù)據(jù)的問題?;ヂ?lián)網數(shù)據(jù)也能用于經濟決策。然而,銀行可以實時監(jiān)測客戶的交易行為,客戶的數(shù)據(jù)保護就難以保證了。麥克拉倫和珊布格解釋了國家銀行可以怎樣通過網絡搜索數(shù)據(jù)進行經濟即時預報。[24]

    互聯(lián)網數(shù)據(jù)可以用于解決很多領域的人力資源問題,包括:即時預報(比起傳統(tǒng)的數(shù)據(jù)搜集渠道,相關信息能更快獲得),如麥克拉倫和珊布格[25]、阿斯吉塔斯和茲姆曼[26]、加黑艾爾-斯沃洛(Carrière-Swallow)和拉比(F.Labbé)[27]以及陳(T.Chen)等的研究[28];預測(比如預測失業(yè)率、商品消費量、游客到訪數(shù)和節(jié)日賽事贏家),如阿斯吉塔斯和茲姆曼[29]、富森(S.Vosen)和施密特(T.Schmidt)[30]、蔡(H.Choi)和范里安(H.Varian)[31]、阿桃拉(C.Artola)等[32]的研究;發(fā)現(xiàn)衛(wèi)生與福利問題(抑郁、流感、經濟危機時期的貧困),如金斯伯格(J.Ginsberg)等[33]、阿爾伯特·楊(A.C.Yang)等[34]、泰福特(N.Tefft)[35]、拉澤(D.Lazer)等[36]、阿斯吉塔斯和茲姆曼的研究[37];記錄不同生活情境中的匹配過程(例如尋找伴侶、找工作、購物),如阿斯吉塔斯和茲姆曼[38]、庫恩(P.Kuhn)和曼蘇爾(H.Mansour)[39]、庫恩[40]、Kureková 等人[41]的研究;在傳統(tǒng)數(shù)據(jù)存在缺陷的情況下對復雜系統(tǒng)進行評估(如發(fā)展中國家的集體談判協(xié)議、跨國移民),如黑茨(G.J.Hitsch)等[42]、瑞普斯(U.D.Reips)和布發(fā)迪(L.E.Buffardi)[43]、比拉里(F.Billari)等[44]、比薩姆斯卡(J.Besamusca)和提登思(K.Tijdens)[45],以及白樓(A.Bellou)[46]的研究。

    三、利用互聯(lián)網數(shù)據(jù)對失業(yè)進行建模

    在多數(shù)情況下,宏觀經濟時間序列數(shù)據(jù)的發(fā)布都相當滯后,而且可能會遭到各種改動。同樣,失業(yè)數(shù)據(jù)的發(fā)布也會滯后。因此,對實時掌握失業(yè)數(shù)據(jù)動態(tài)的需求日益強烈。[47]

    歐盟委員會要求歐盟國家提供用于經濟分析的大量數(shù)據(jù)。這些數(shù)據(jù)是從許多基于普查和抽樣的大型調查中獲得的。2005年8月,歐盟委員會關于短期商業(yè)數(shù)據(jù)統(tǒng)計的規(guī)定中對此有明確要求,這與歐洲央行和歐洲統(tǒng)計局對歐洲貨幣聯(lián)盟統(tǒng)計要求行動計劃的發(fā)布相呼應,并且得到了歐盟成員國統(tǒng)計機構的支持。歐盟經濟體短期經濟分析所需的重要指標在創(chuàng)制和傳播階段要花費很長時間,歐盟現(xiàn)在之所以對數(shù)據(jù)統(tǒng)計提出要求,主要就是為了縮短這個時長。[48]

    由于近期的經濟金融危機,經濟大幅下滑,失業(yè)這個宏觀經濟指標就成了大眾和研究者都特別關注的對象。

    經濟大衰退期間,人們需要關于失業(yè)的短期數(shù)據(jù),但卻找不到。阿斯吉塔斯和茲姆曼于2009年開創(chuàng)性地指出,德國的月均失業(yè)率和特定的谷歌檢索關鍵詞高度相關。[49]根據(jù)觀察到的結構,他們預測了在即將來臨的大衰退之復雜變幻的情況下,失業(yè)狀況究竟如何。阿斯吉塔斯和茲姆曼采用時間序列數(shù)據(jù)的格蘭杰因果檢驗方法,通過其他相關變量的波動,對德國的月均失業(yè)率做出解釋。他們還采用2004年1月至2009年4月未經季節(jié)性調整的數(shù)據(jù)建構了誤差修正模型。他們嘗試了不同的檢索關鍵詞,例如“unemployment rate”(失業(yè)率)、“unemployment office or agency”(失業(yè)救濟辦公室/機構)、“most popular search engines in Germany”(德國最受歡迎的搜索引擎)和“personnel consultant”(人事顧問)。

    在另一項研究中,阿斯吉塔斯和茲姆曼改進了關鍵詞,對更新后的模型進行了重新估計,來研究失業(yè)分析及預測的質量究竟如何,并把它和主要的競爭性勞動力市場指標做了比較。[50]我們在這里簡要概括一下這種方法,并對該研究策略的步驟和主要貢獻做介紹。其核心回歸方程是著名的誤差修正模型(Y代表失業(yè)率,X是指標矢量):

    (1)

    其中,ΔYt=Yt-Yt-12,ΔXt=Xt-Xt-12,Δ為滯后12期的差分項,t=1,2,....,n。

    互聯(lián)網活動指標或說檢索關鍵詞都是和“l(fā)abour office”(勞動局)、“short-term work”(短期工)、“jobsearch” (找工作)相關的。相關技術細節(jié)可見阿斯吉塔斯和茲姆曼使用經濟大衰退初期德國數(shù)據(jù)所做的研究。[51]表1概括了基于最小二乘法(OLS)的估計結果,還包括了校正決定系數(shù)(R2)、貝葉斯信息準則(BIC)、平均絕對誤差(MAE)等評估手段。從前三行可以看到,互聯(lián)網指標與實際失業(yè)率高度相關,其中同時包含三個指標的模型表現(xiàn)最佳(模型預測2)。該模型中R2等于0.943,估計系數(shù)都呈現(xiàn)出統(tǒng)計顯著性,正負號表明指標對失業(yè)率影響的方向,即搜索工作減少了失業(yè),而搜索關于勞動局的信息以及通過短期工作獲取資金支持,與失業(yè)率上升有關。這些發(fā)現(xiàn)很能說明問題。

    全球陸地不同物理類型降雨空間分異及其變化趨勢和波動特征研究(1979—2016年) 孔 鋒 孫 劭 王 品 等 (6) (76)

    除了上述3個互聯(lián)網檢索的關鍵詞之外,還有兩個傳統(tǒng)的勞動力市場指標:Ifo-BB和DAX。其中,Ifo-BB是由位于慕尼黑的IFO經濟研究院根據(jù)公司個體數(shù)據(jù)推出的一個知名的傳統(tǒng)勞動力市場指標,經常作為基準變量用于勞動力市場預測。DAX是德國股票市場指數(shù)。阿斯吉塔斯和茲姆曼已經指出,滯后期為一年的DAX有同樣好的預測功能,而且與Ifo-BB高度相關。這兩個指標都能很好地反映德國失業(yè)率。關于DAX,可參見表1第7行;關于Ifo-BB,參見第11行。不過,它們的表現(xiàn)卻遠遜于第2行純粹的互聯(lián)網活動模型,這一模型使用了各類相關互聯(lián)網數(shù)據(jù)。但是,互聯(lián)網變量的預測質量在吸納傳統(tǒng)變量后會有所提升,這也是事實。根據(jù)BIC結果(見表1),如果加上Ifo-BB,第2行(只涉及所有即三個互聯(lián)網變量)的BIC值可由28.8降至11.4(第9行);如果加上DAX,則可降至3.2(見第6行)。

    表1 回歸模型與領先一步預測結果

    注:改編自Askitas, N., and K.F.Zimmermann.“Googlemetrie und Arbeitsmarkt”.Wirtschaftsdienst, 2009, 89 (7): 495。數(shù)據(jù)來自Arbeitsamt.de、IFO經濟研究院以及Google Insights。Ifo-BB:慕尼黑IFO經濟研究院的就業(yè)指標。DAX:德國股票市場指數(shù)。所用官方月均失業(yè)率數(shù)據(jù)未經季節(jié)性調整,但是在模型中已通過滯后12期對季節(jié)性進行了調整。要了解更多關于關鍵詞的信息,可參見阿斯吉塔斯和茲姆曼的論文。公式(1)的所有標準回歸模型涉及的數(shù)據(jù)都是2005年1月至2009年5月的月度數(shù)據(jù)。K代表變化,L指相關變量水平的12期滯后。+、-是估計系數(shù)的符號。*代表統(tǒng)計顯著性(*P<0.05,**P<0.01,***P<0.001)。領先一步預測涉及的是2008年3月至2009年6月這個時段。R2-a是校正決定系數(shù),BIC是貝葉斯信息準則,MAE指平均絕對誤差。

    從這一歷史個案可以看出,互聯(lián)網活躍數(shù)據(jù)確實蘊藏著有價值、有用且可用的信息。但是,我們需要在該項新技術的使用上積累更多經驗,并且觀察新數(shù)據(jù)在多大程度上可以替代傳統(tǒng)信息來源。目前并不能想當然地認為我們能用互聯(lián)網數(shù)據(jù)取代傳統(tǒng)數(shù)據(jù)。

    阿斯吉塔斯和茲姆曼用互聯(lián)網活躍數(shù)據(jù)對失業(yè)進行建模的想法[52]也為其他國家的研究者所效仿。經驗研究表明,在解釋失業(yè)方面,與經濟周期指標或傳統(tǒng)時間序列模型相比,谷歌或其他互聯(lián)網活躍數(shù)據(jù)能夠補充額外的有用信息。類似的研究,有關于英國[53]、法國[54]、以色列[55]、意大利[56]、挪威[57]、土耳其[58]、巴西[59]的失業(yè)率,以及失業(yè)率水平,如西班牙[60]和烏克蘭[61], 美國的失業(yè)救濟申請[62],關于谷歌和中國百度失業(yè)搜索指標的研究[63]。根據(jù)格蘭杰因果檢驗,與失業(yè)相關的檢索指標對于提高中國各種宏觀經濟指標的預測水平也有幫助。[64]

    在谷歌活躍數(shù)據(jù)可用之前,艾特睿智(M.Ettredge)等人采用的是從WordTracker“排名前500關鍵詞報告”中提取的互聯(lián)網搜索引擎關鍵詞使用數(shù)據(jù)。[65]這一報告由金河聯(lián)合有限公司(Rivergold Associates Ltd)每周發(fā)布一次。它涵蓋了網絡上最大的元搜索引擎(meta-search engines)。作者采用了6個最可能為找工作的人使用的表述,并以此預測美國的失業(yè)率,它們分別是:jobs (工作)、job listings(招聘啟事)、namely job search(namely找工作)、resume(簡歷)、employment(就業(yè))和monster.com(巨人招聘網站)。

    以上研究多數(shù)使用了大量的谷歌檢索數(shù)據(jù)。為減少數(shù)據(jù)維度,必須提取出一些主要成分。這些成分被作為解釋變量用于像ARMAX這樣的模型中。蔡和范里安在其研究中選擇了兩個指標:“welfare & unemployment”(福利與失業(yè))和“jobs”(工作)。[66]他們發(fā)現(xiàn),在美國,與失業(yè)、福利相關的檢索可以提升對早期失業(yè)救濟申請的預測質量。達木瑞(F.D’Amuri)和馬庫斯 (J.Marcucci)在研究美國的情況時,只用了一個關鍵詞:“jobs”(工作)。他們發(fā)現(xiàn),谷歌指數(shù)(互聯(lián)網工作搜尋指標)在預測美國失業(yè)率方面是最好的領先指標。[67]在研究德國的狀況時,阿斯吉塔斯和茲姆曼用到了四組關鍵詞,每組有一到八個詞,中間用“或”運算符相連。[68]對于西班牙的情況,維森特等人則通過在Google Trends上查詢“oferta de trabajo”(工作) 和“oferta de empleo”(工作機會)加以了解。[69]

    對于意大利的情況,納卡拉拖(A.Naccarato)等人分析了勞動力調查公布的官方失業(yè)率與Google Trends對“offerte di lavoro”(工作機會)的查詢結果之間存在的協(xié)整關系。[70]在此前關于意大利的研究中,達木瑞和馬庫斯發(fā)現(xiàn),“offerte di lavoro”是意大利人工作搜尋時最常用的關鍵詞。[71]納卡拉拖等人的研究表明,谷歌檢索對于意大利失業(yè)率的即時預報很有用。[72]此前,弗蘭塞斯庫(D.A.Francesco)也同樣使用了關鍵詞“offerte di lavoro”,發(fā)現(xiàn)基于谷歌檢索數(shù)據(jù)的模型能夠完善對意大利失業(yè)率的樣本外預測。[73]

    而且,柏瑞拉(N.Barreira)等人分析了谷歌搜索在更多西南部國家的有效性,其結論是Google Trends數(shù)據(jù)有助于提升對意大利、法國和葡萄牙失業(yè)狀況的分析,但西班牙卻是例外。[74]他們使用的關鍵詞和失業(yè)及失業(yè)救助有關。在研究意大利時,使用的關鍵詞有:“disoccupazione”(失業(yè))、“disoccupazioneordinaria”(失業(yè)救濟金)和“INPS disoccupazione”(INPS失業(yè)救助,INPS是意大利國家社會保障局)。在研究法國時,使用的關鍵詞有:“chomage”(失業(yè))、“indemnites de chomage”(失業(yè)津貼)、“allocations chomage”(失業(yè)補助)和“allocations de chomage”(失業(yè)救濟金)。在研究葡萄牙時,關鍵詞用的是“desemprego”(失業(yè))和“subsidiodesemprego”(失業(yè)補貼)。研究西班牙時,則是用到了“desempleo”(失業(yè))、“subsidio de desempleo”(失業(yè)津貼)和“prestaciondesempleo”(失業(yè)條款)。

    麥克拉倫和珊布格利用自回歸模型,分析了英國官方失業(yè)率和一些檢索詞數(shù)據(jù)之間的關系,這些檢索詞包括:“unemployment”(失業(yè))、“jobs”(工作)、“unemployed”(下崗)、“JSA”(失業(yè)救濟金)、“Jobseeker’s Allowance”(失業(yè)救濟金)和“unemployment benefit”(失業(yè)福利)。作者證明,和既有調查相比,這些搜索數(shù)據(jù)包含有用的信息。JSA模型比只采用官方失業(yè)數(shù)據(jù)的基準模型能更好地解釋失業(yè)問題。[75]

    豐德爾(Y.Fondeur)和卡拉姆 (F.Karamé)建構了經過卡爾曼濾波器和最大似然估計方法處理過的不可觀察成分模型。通過這樣的模型,可以復原不可觀察成分,并估計未知參數(shù)。作者使用的變量是谷歌指數(shù),以及15~24歲之間法國申請失業(yè)救濟的人數(shù)。[76]

    在轉型國家,互聯(lián)網應用有限,識字率也低,西方模型就難以適用。對于烏克蘭來說,奧利克散德(B.Oleksandr)就沒能證實互聯(lián)網數(shù)據(jù)對解釋失業(yè)率有用。[77]不過,一旦互聯(lián)網在烏克蘭經濟生活中發(fā)揮更加重要的作用,這種狀況就可能會發(fā)生變化?;蛘哌@也可能是由于沒找到成功的研究策略。要知道,隨著時間的推移,互聯(lián)網數(shù)據(jù)結構的穩(wěn)定性對發(fā)達國家而言都可能是有局限性的。那么,在轉型國家和發(fā)展中國家遇到的挑戰(zhàn)就更大了。但是,對于傳統(tǒng)數(shù)據(jù)和模型來說,這些挑戰(zhàn)同樣存在。

    帕夫利賽克(J.Pavlicek)和克里斯托法克 (L.Kristoufek)分析了2004年1月至2013年12月維謝格拉德集團四國(Visegrad countries,即捷克共和國、匈牙利、波蘭和斯洛伐克)月均失業(yè)率和與工作相關的查詢之間的關系。[78]結果表明,谷歌搜索只在解釋捷克和匈牙利的失業(yè)率方面有用。這可能是因為捷克和匈牙利有很多人移居境外,對在國外找工作感興趣。波蘭和斯洛伐克的情況究竟如何,還有待研究。

    同時,對于巴西這個新興經濟體的情況,拉索(F.Lasso)和斯尼德斯and (S.Snijders)的研究發(fā)現(xiàn),谷歌檢索與失業(yè)之間高度相關,但季節(jié)性模型的影響更大。[79]他們使用的關鍵詞是:“empregos”(工作)、“segurodesemprego”(失業(yè)保險)、“décimoterceirosalário”(第13個月工資)、“FGTS”(遣散費賠償基金)、“INSS”(國家社會保障局)、“job vacancies index”(就業(yè)機會指數(shù))、“unemployment and social benefits index”(失業(yè)和社會福利指數(shù))。在研究土耳其的情況時,查德威克和桑谷爾使用的關鍵詞是:“unemployment”(失業(yè))、“unemployment insurance”(失業(yè)保險)、“job announcements”(招聘啟事)、“l(fā)ooking for a job”(找工作)、“cv”(簡歷)、“career”(職業(yè))。在貝葉斯模型平均的框架下,作者發(fā)現(xiàn),谷歌檢索數(shù)據(jù)只對土耳其非農業(yè)部門月均失業(yè)率的即時預報有效。其失業(yè)率官方數(shù)據(jù)來自家庭勞動力調查報告(Household Labor Survey),互聯(lián)網數(shù)據(jù)則是通過Google Insights for Search搜集的。

    四、結論

    近年來,由于互聯(lián)網數(shù)據(jù)的可用性,研究者開始使用這些數(shù)據(jù)來分析或預測宏觀經濟指標。這可能不僅僅由于互聯(lián)網數(shù)據(jù)易得、豐富、經濟、數(shù)字化,還可能因為互聯(lián)網已經成為個人日常生活的一部分,能越來越多地反映現(xiàn)實行為趨勢。

    對失業(yè)情況變化的估計,既有研究大多依賴官方渠道,或者可能并不總是可靠的調查報告。而且,在發(fā)展中國家,主管機構常常出于各種原因而無法提供有價值的宏觀經濟指標評估,比如失業(yè)評估。多數(shù)關于失業(yè)即時預報的既有研究分析的是發(fā)達國家,如美國、英國、意大利、德國、芬蘭或比利時。少數(shù)研究涉及了公共機構較弱的非西方國家,如維謝格拉德集團四國、烏克蘭、土耳其和巴西。

    本文分析了互聯(lián)網數(shù)據(jù)在不同領域的應用,集中探討的是它們在失業(yè)建模上的應用。本文提到的經驗研究表明,互聯(lián)網數(shù)據(jù)應用存在巨大的潛力,需要進一步挖掘。對多數(shù)國家而言,互聯(lián)網數(shù)據(jù)能夠改進失業(yè)模型和失業(yè)預測分析。不過,預測的準確度還要取決于一個國家的互聯(lián)網普及率、互聯(lián)網用戶的年齡結構,以及所建構的互聯(lián)網變量的穩(wěn)定性。

    [1] Edelman, B.“Using Internet Data for Economic Research”.TheJournalofEconomicPerspectives, 2012, 26(2): 189-206.

    [2] Askitas, N.“Social media: eine technologische und ?konomische Perspektive”.In Rogge, C.,and R.Karabasz(eds.).SocialMediaimUnternehmen-RuhmoderRuin.Wiesbaden:Springer Vieweg, 2014: 155-166.

    [3] Arthur, W.B.“The Second Economy”.McKinseyQuarterly, 2011(4).

    [4][23] Askitas, N., and K.F.Zimmernann.DetectingMortgageDelinquencies.IZA DP 5895, IZA, Bonn, 2011.

    [5][6][9][11][29][38][49][52][68] Askitas, N., and K.F.Zimmermann.“Google Econometrics and Unemployment Forecasting”.AppliedEconomicsQuarterly, 2009, 55(2): 107-120.

    [7][12][17][37] Askitas, N., and K.F.Zimmermann.“Health and Well-being in the Great Recession”.InternationalJournalofManpower, 2015, 36(1): 26-47.

    [8] Constant, A., and K.F.Zimmermann.“Im Angesicht der Krise: US-Pr?sidentschaftswahlen in transnationaler Sicht”.DIWWochenbericht, 2008, 44: 688-701.

    [10] Goel, S., Hofman, J.M., Lahaie, S., Pennock, D.M., and D.J.Watts.“Predicting Consumer Behavior with Web Search”.ProceedingsoftheNationalAcademyofSciences, 2010, 107(41): 17486-17490.

    [13][24][25][53][75] McLaren, N., and R.Shanbhogue.“Using Internet Search Data as Economic Indicators”.BankofEnglandQuarterlyBulletin,2011(2).

    [14][20] Zagheni, E., and I.Weber.“Demographic Research with Non-representative Internet Data”.InternationalJournalofManpower, 2015, 36(1): 13-25.

    [15] European Union Internet Statistics.“Internet Usage in the European Union, 2016”.http://www.internetworldstats.com/stats 9.htm.

    [16][26] Askitas, N., and K.F.Zimmermann.“Nowcasting Business Cycles Using Toll Data”.JournalofForecasting, 2013, 32(4): 299-306.

    [18][40] Kuhn, P.J.“The Internet as a Labor Market Matchmaker”.IZAWorldofLabor, 2014,18(5): 1-10.

    [19][42] Hitsch, G.J., Horta?su, A., and D.Ariely.“Matching and Sorting in Online Dating”.TheAmericanEconomicReview, 2010, 100(1): 130-163.

    [21][31] Choi, H., and H.Varian.“Predicting the Present with Google Trends”.EconomicRecord, 2012, 88(s1): 2-9.

    [22] Askitas, N.“Google Search Activity Data and Breaking Trends”.IZAWorldofLabor, 2015.

    [27] Carrière-Swallow, Y., and F.Labbé.“Nowcasting with Google Trends in an Emerging Market”.JournalofForecasting, 2013, 32(4): 289-298.

    [28] Chen, T., So, E.P.K., Wu, L., and I.K.M.Yan.“The 2007-2008 US Recession: What Did the Real-Time Google Trends Data Tell the United States?”.ContemporaryEconomicPolicy, 2015, 33(2): 395-403.

    [30] Vosen, S., and T.Schmidt.“Forecasting Private Consumption: Survey-based Indicators vs.Google Trends”.JournalofForecasting, 2011, 30(6): 565-578.

    [32] Artola, C., Pinto, F., and P.de Pedraza.“Can Internet Searches Forecast Tourism Inflows?”.InternationalJournalofManpower, 2015, 36(1): 103-116.

    [33] Ginsberg, J., Mohebbi, M.H., Patel, R.S., Brammer, L., Smolinski, M.S., and L.Brilliant.“Detecting Influenza Epidemics Using Search Engine Query Data”.Nature, 2009, 457(7232): 1012-1014.

    [34] Yang, A.C., Huang, N.E., Peng, C.K., and S.J.Tsai.“Do Seasons have an Influence on the Incidence of Depression? The Use of an Internet Search Engine Query Data as a Proxy of Human Affect”.PloSone, 2010, 5(10):e13728.

    [35] Tefft, N.“Insights on Unemployment, Unemployment Insurance, and Mental Health”.JournalofHealthEconomics, 2011, 30(2): 258-264.

    [36] Lazer, D., Kennedy, R., King, G., and A.Vespignani.“The Parable of Google Flu: Ttraps in Big Data Analysis”.Science, 2014, 343(6176): 1203-1205.

    [39] Kuhn, P., and H.Mansour.“Is Internet Job Search still Ineffective?”.TheEconomicJournal, 2014, 124(581): 1213-1233.

    [41] Kureková, L.M., Beblavy, M., and A.E.Thum.“Using Internet Data to Analyse the Labour Market: a Methodological Enquiry”.IZA Discussion Papers, 2014, No.8555

    [43] Reips, U.D., and L.E.Buffardi.“Studying Migrants with the Help of the Internet: Methods from Psychology”.JournalofEthnicandMigrationStudies, 2012, 38(9): 1405-1424.

    [44] Billari, F., D’Amuri, F., and J.Marcucci.“Forecasting Births Using Google”.Annual Meeting of the Population Association of America, PAA, New Orleans, LA, 2013.

    [45] Besamusca, J., and K.Tijdens.“Comparing Collective Bargaining Agreements for Developing Countries”.InternationalJournalofManpower, 2015, 36(1): 86-102.

    [46] Bellou, A.“The Impact of Internet Diffusion on Marriage Rates: Evidence from the Broadband Market”.JournalofPopulationEconomics, 2015, 28(2): 265-297.

    [47][54][76] Fondeur, Y., and F.Karamé.“Can Google Data Help Predict French Youth Unemployment?”.EconomicModelling, 2013, 30: 117-125.

    [48][70][72] Naccarato, A., Pierini, A., and S.Falorsi.“Using Google Trend Data to Predict the Italian Unemployment Rate (No.0203)”.Department of Economics-University Roma Tre, 2015.

    [50][51] Askitas, N., and K.F.Zimmermann.“Googlemetrie und Arbeitsmarkt”.Wirtschaftsdienst, 2009, 89 (7): 489-496.

    [55] Suhoy, T.QueryIndicesanda2008Downturn:IsraeliData.Bank of Israel, 2009.

    [56] Naccarato, A., Pierini, A., and S.Falorsi.“Using Google Trend Data to Predict the Italian Unemployment Rate (No.0203)”.Department of Economics-University Roma Tre, 2015; D’Amuri, F.PredictingUnemploymentinShortSampleswithInternetJobSearchQueryData.University Library of Munich, Germany, 2009.

    [57] Anvik, C., and K.Gjelstad.“Just Google It.Forecasting Norwegian Unemployment Figures with Web Queries”.Working Paper, 11, Center for Research in Economics and Management, Oslo, 2010.

    [58] Chadwick, M.G., and G.Sengül.“Nowcasting the Unemployment Rate in Turkey: Let’s Ask Google”.CentralBankReview, 2015, 15(3): 15.

    [59][79] Lasso, F., and S.Snijders.“The Power of Google Search Data; An Alternative Approach to the Measurement of Unemployment in Brazil”.StudentUndergraduateResearchE-journal, 2016(2).

    [60][69] Vicente, M.R., López-Menéndez, A.J., and R.Pérez.“Forecasting Unemployment with Internet Search Data: Does it Help to Improve Predictions when Job Destruction Is Skyrocketing?”.TechnologicalForecastingandSocialChange, 2015, 92: 132-139.

    [61][77] Oleksandr, B.CanGoogle’sSearchEnginebeUsedtoForecastUnemploymentinUkraine.Doctoral dissertation, Kyiv School of Economics, 2010.

    [62] Choi, H., and H.Varian.“Predicting Initial Claims for Unemployment Benefits”.GoogleInc, 2009: 1-5; Choi, H., and H.Varian.“Predicting the Present with Google Trends”.EconomicRecord, 2012, 88(s1): 2-9.

    [63][64] Su, Z.“Chinese Online Unemployment-related Searches and Macroeconomic Indicators”.FrontiersofEconomicsinChina, 2014, 9(4): 573-605.

    [65] Ettredge, M., Gerdes, J., and G.Karuga.“Using Web-based Search Data to Predict Macroeconomic Statistics”.CommunicationsoftheACM, 2005, 48(11): 87-92.

    [66] Choi, H., and H.Varian.“Predicting Initial Claims for Unemployment Benefits”.GoogleInc, 2009: 1-5.

    [67] D’Amuri F.,and J.Marcucci.“Google It! Forecasting the US Unemployment Rate with a Google Job Search Index”.ISER Working Paper Series, No.2009-32, 2009.

    [71] D’Amuri, F.PredictingUnemploymentinShortSampleswithInternetJobSearchQueryData.University Library of Munich, Germany, 2009; D’Amuri F., and J.Marcucci.“Google It! Forecasting the US Unemployment Rate with a Google Job Search Index”.ISER Working Paper Series, No.2009-32, 2009.

    [73] Francesco, D.A.“Predicting Unemployment in Short Samples with Internet Job Search Query Data”.MPRAPaper,18403,2009: 1-18.

    [74] Barreira, N., Godinho, P., and P.Melo.“Nowcasting Unemployment Rate and New Car Sales in South-western Europe with Google Trends”.NETNOMICS:EconomicResearchandElectronicNetworking, 2013, 14(3): 129-165.

    [78] Pavlicek, J., and L.Kristoufek.“Nowcasting Unemployment Rates with Google Searches: Evidence from the Visegrad Group Countries”.PloSone, 2015, 10(5): e0127084.

    BigDataandUnemploymentAnalysis

    Mihaela Simionescu1,Klaus F. Zimmermann2

    (1.Institute for Economic Forecasting, the Romanian Academy, Bucharest; Centre for Migration Studies, Prague Business School, Prague.2. Princeton University, Princeton;UNU-MERIT & Maastricht University)

    Internet or “big” data are increasingly used in measuring the relevant activities of individual, households, firms and public agents in a timely way. The information set involves large number of observations and embraces flexible conceptual forms and experimental settings. Therefore, internet data are extremely useful to study a wide variety of human resource issues, including forecasting, nowcasting, detecting health issues and well-being, capturing the matching process in various parts of individual life, and measuring complex processes where traditional data have known deficits. This paper focuses on the analysis of unemployment by means of internet activity data, a literature starting with the seminal article of Askitas and Zimmermann. The article provides insights and a brief overview of the current state of research.

    big data; unemployment; internet; Google; internet penetration rate

    *本文中文翻譯:中央財經大學中國互聯(lián)網經濟研究院史珍珍、中國人民大學學術期刊社李存娜;校對:史珍珍。

    米哈埃拉·西米歐奈斯庫:羅馬尼亞科學院經濟預測研究所高級研究員,布拉格商學院移民研究中心教授,全球勞動研究中心研究員;克勞斯·F·茲姆曼:普林斯頓大學客座教授,荷蘭聯(lián)合國大學馬斯特里赫特技術與創(chuàng)新研究所人口發(fā)展與勞動經濟中心主任,全球勞動研究中心主任

    (責任編輯武京閩)

    猜你喜歡
    吉塔失業(yè)研究
    失業(yè)保險金領取使用指南
    工會博覽(2024年5期)2024-03-04 06:36:08
    FMS與YBT相關性的實證研究
    為了夢想,傾盡全力
    遼代千人邑研究述論
    視錯覺在平面設計中的應用與研究
    科技傳播(2019年22期)2020-01-14 03:06:54
    EMA伺服控制系統(tǒng)研究
    失業(yè)預警
    當代工人(2018年9期)2018-07-21 08:14:22
    《摔跤吧!爸爸》三幕式結構解析
    傳媒論壇(2018年22期)2018-03-28 21:43:21
    《摔跤吧!爸爸》敘事學解讀
    電影評介(2017年18期)2017-12-01 22:11:01
    無人機 會有時——飛行員的失業(yè)時代
    安义县| 曲松县| 普兰店市| 德州市| 汝南县| 宁远县| 敦煌市| 丹寨县| 墨竹工卡县| 都兰县| 邢台县| 温州市| 霍邱县| 临邑县| 临朐县| 万年县| 永丰县| 新疆| 茌平县| 手游| 榆中县| 宁南县| 忻城县| 商城县| 河西区| 玉门市| 甘南县| 桃源县| 兴化市| 晋中市| 大理市| 洞头县| 靖宇县| 随州市| 南昌市| 南江县| 台湾省| 河南省| 江安县| 鹿泉市| 绩溪县|