□文│劉銀娣
?
從海量數(shù)據(jù)中挖掘新聞故事:數(shù)據(jù)新聞內(nèi)涵探析*
□文│劉銀娣
[摘要]海量數(shù)據(jù)及其處理技術(shù)的產(chǎn)生推動了“數(shù)據(jù)新聞”這一新聞形式的發(fā)展。國外的新聞媒體看到了數(shù)據(jù)新聞給新聞業(yè)帶來的巨大發(fā)展機遇,紛紛開始建立數(shù)據(jù)新聞團隊,增加相關(guān)投資。相較而言,我國的傳統(tǒng)新聞媒體對數(shù)據(jù)新聞的發(fā)展則相對謹慎。究其原因,作為一個新出現(xiàn)的名詞,對其理解尚存偏差是重要原因之一。事實上,對于數(shù)據(jù)新聞的內(nèi)涵,目前尚沒有統(tǒng)一的理解,文章試圖從數(shù)據(jù)新聞的發(fā)展背景和發(fā)展歷程出發(fā),通過梳理其發(fā)展脈絡(luò),來理清數(shù)據(jù)新聞的真正內(nèi)涵,為我國傳統(tǒng)媒體發(fā)展數(shù)據(jù)新聞清除部分疑慮。
[關(guān)鍵詞]數(shù)據(jù)新聞計算機輔助報道精確新聞數(shù)據(jù)可視化內(nèi)涵
*本文系2015年度華南理工大學中央高?;究蒲袠I(yè)務(wù)費項目中央高校基本科研業(yè)務(wù)費項目“大數(shù)據(jù)環(huán)境下我國新聞記者計算機輔助報道現(xiàn)狀與提升策略研究”(2015xzd05); 2014年度國家社會科學基金項目“數(shù)據(jù)新聞學發(fā)展前沿研究”(14BXW003);廣東省哲學社會科學“十二五”規(guī)劃2014年度學科共建項目“我國出版集團數(shù)字化轉(zhuǎn)型中的商業(yè)模式創(chuàng)新研究”(GD14XXW07);廣東省新媒體與品牌傳播創(chuàng)新應用重點實驗室(2013WSYS0002)資助研究成果
海量數(shù)據(jù)及其連接點的產(chǎn)生給已經(jīng)受到互聯(lián)網(wǎng)巨大沖擊的新聞產(chǎn)業(yè)帶來了諸多挑戰(zhàn)和機遇。一方面,新聞經(jīng)常在社交網(wǎng)絡(luò)上由事件最相關(guān)的人發(fā)布,新聞專業(yè)組織已經(jīng)不再是不可撼動的新聞話語主體;另一方面,卻又促使新聞回歸其本質(zhì):挖掘公眾無暇處理的信息,核實信息,理清信息的內(nèi)涵后將之發(fā)布給公眾[1],告訴公眾這些信息背后的價值,賦予其正確的解釋[2]。國外的傳統(tǒng)新聞媒體在經(jīng)過20余年的持續(xù)衰退后,看到了這一變革蘊含著的巨大機遇,紛紛開始發(fā)展這種代表著新聞業(yè)未來發(fā)展前景和方向的新聞形式——數(shù)據(jù)新聞(Data Journalism),相較而言,我國的傳統(tǒng)新聞媒體則是相對謹慎和緩慢。究其原因,一方面是因為我國數(shù)據(jù)新聞人才的匱乏,另一方面,作為一個新出現(xiàn)的新聞發(fā)展熱潮和名詞,很多人對數(shù)據(jù)新聞的理解也尚存偏差,因此,對其發(fā)展也就難免存在較大疑慮。在這里,我們試圖從數(shù)據(jù)新聞的發(fā)展背景和發(fā)展歷程出發(fā),通過梳理數(shù)據(jù)新聞發(fā)展的脈絡(luò),來理清數(shù)據(jù)新聞的真正內(nèi)涵。
海量數(shù)據(jù)以及豐富而便利的數(shù)據(jù)處理技術(shù)的產(chǎn)生和發(fā)展為數(shù)據(jù)新聞的發(fā)展奠定了技術(shù)基礎(chǔ),懷疑主義的盛行則進一步推動了用數(shù)據(jù)說“真話”,以確保專業(yè)新聞媒體權(quán)威性和公信力的數(shù)據(jù)新聞的迅速發(fā)展和繁榮。
1.海量數(shù)據(jù)的產(chǎn)生
從20世紀中葉開始,專業(yè)記者就開始通過訪問和梳理政府統(tǒng)計數(shù)據(jù),法庭記錄、商業(yè)報告等文件資料發(fā)現(xiàn)大量有價值的新聞事實,制作出有深度的調(diào)查性新聞報道。然而,此時記者可以獲取的數(shù)據(jù)量畢竟是有限的,處理方法也相對笨拙,因此,限制了這種以數(shù)據(jù)來驅(qū)動新聞報道的新聞形式的發(fā)展。2009年1月,美國總統(tǒng)奧巴馬正式簽署了《開放透明政府備忘錄》(Memorandum on Transparency and Open Government),列出了具體步驟要求美國聯(lián)邦政府各部門和機構(gòu)必須改善其透明度、公眾參與度、加強政府部門之間、政府部門與非政府組織(NGO)、個人、私人企業(yè)之間的合作[3],由此開啟了全球各國政府開放數(shù)據(jù)運動的序幕。2011年在美國政府的倡議下,成立了開放政府聯(lián)盟(Open Government Partnership),截至2015年8月20日,全球已有65個國家加入了這一組織[4],這些國家紛紛建立統(tǒng)一的政府開放數(shù)據(jù)門戶網(wǎng)站,集中開放大量數(shù)據(jù)集。盡管我國并未加入開放政府聯(lián)盟,但是也于近年來建立了國家數(shù)據(jù)公開網(wǎng)站“國家數(shù)據(jù)網(wǎng)”(http://data.stats.gov. cn/),向公眾開放800萬筆經(jīng)濟統(tǒng)計和人口統(tǒng)計數(shù)據(jù)[5];眾多企業(yè)也認識到了大數(shù)據(jù)蘊含的巨大商業(yè)價值,紛紛從用戶身上捕捉大量數(shù)據(jù),作為用戶的直接接觸者,他們比政府擁有更為龐大的數(shù)據(jù)集;媒介組織本身作為信息的收集、過濾和發(fā)布者,其擁有的數(shù)據(jù)量同樣不可小覷。當政府、企業(yè)、媒介組織的數(shù)據(jù)匯聚在一起,就從根本上改變了我們所處的信息環(huán)境,讓我們身處一個海量數(shù)據(jù)的環(huán)境,同時也為新聞業(yè)打開了一扇大門:通過挖掘數(shù)據(jù)來講述新聞故事,因為數(shù)據(jù)是社會建構(gòu)的,為了理解數(shù)據(jù)集,首先要理解那些創(chuàng)造這些數(shù)據(jù)集的人——想想他們?yōu)槭裁匆@么做,或者他們試圖發(fā)現(xiàn)什么,一旦你理解了這些人和他們的目標,你就可以開始講述真實而深刻的故事[6]。
2.豐富而便利的數(shù)據(jù)處理技術(shù)的產(chǎn)生和發(fā)展
有了海量數(shù)據(jù),我們還需要具備海量數(shù)據(jù)處理技術(shù)和技能,才能對這些數(shù)據(jù)進行分析和處理,否則也只能望“數(shù)據(jù)”興嘆。強大而便利的數(shù)據(jù)處理軟件的發(fā)展則為我們處理海量數(shù)據(jù)提供了強大的工具。例如“開放路化”(Open Refine)、“谷歌融合表”(Google Fusion Tables)、表格(Tableau)等基于網(wǎng)絡(luò)的軟件就可以幫助記者迅速而便捷地進行數(shù)據(jù)收集、處理、分析和可視化。陶氏數(shù)據(jù)新聞中心(Tow Center for Digital Journalism)還預測未來將會出現(xiàn)更豐富更便利的數(shù)據(jù)處理軟件,讓用地圖、新聞應用和可視化的方式分析和展示數(shù)據(jù)變得更加簡單易學。[7]
3.懷疑主義的盛行
在互聯(lián)網(wǎng)迅速崛起以前,承擔著信息挖掘、過濾、呈現(xiàn)和傳播的專業(yè)新聞媒體在全球社會中扮演著重要角色,而今,隨著社交媒體的產(chǎn)生和“公民新聞”的發(fā)展,快速的報道不再是新聞媒體的專利,人們擁有了更多信息獲取的渠道。然而,這些非專業(yè)媒體發(fā)布的新聞信息大多未經(jīng)審核,信息質(zhì)量參差不齊、可信度堪憂,在某種程度上推動了21世紀初期的懷疑主義的產(chǎn)生。[8]而在這場新媒體海嘯中,數(shù)據(jù)新聞將會為我們揭穿偽科學、宣傳、誤導和網(wǎng)絡(luò)謠言提供幫助。正如卡迪夫大學(Cardiff University)新聞學教授理查德?薩姆布魯克(Richard Sambrook)寫道:“在懷疑主義盛行的時代,社會充斥著對實證引導的新聞的需求。人們更愿意去相信那些通過數(shù)據(jù)收集和分析發(fā)現(xiàn)的新聞故事,更愿意閱讀那些通過數(shù)據(jù)來呈現(xiàn)的新聞事實,過去簡單的以個體采訪、個體觀點或假設(shè)為來源的新聞已經(jīng)無法得到受眾的信任,因此,我們非常需要借助科學實證方法生產(chǎn)更接地氣的新聞。[9]當然,數(shù)據(jù)并不意味著真理,因此審查并公開數(shù)據(jù)和數(shù)據(jù)處理方法就顯得尤為必要?!罢握嫦唷保≒olitiFact)、“衛(wèi)報數(shù)據(jù)博客”(Guardian Datablog)等數(shù)據(jù)新聞組織就已經(jīng)采用了比之前任何一個時代更細致、審慎和公開的方式認真核查事實,力爭用數(shù)據(jù)說“真話”,以確保數(shù)據(jù)新聞乃至專業(yè)新聞媒體的權(quán)威性和公信力。
正如莉莉安娜?布利戈魯(Liliana Bounegru)在《數(shù)據(jù)新聞手冊》引言中提到的,將數(shù)據(jù)看作新聞而非小說來源的思想早已有之:幾個世紀以來,記者就一直在通過各種方式收集數(shù)據(jù),使用數(shù)據(jù)去改進傳統(tǒng)報道方式。[10]因此,盡管很多人認為數(shù)據(jù)新聞是一項現(xiàn)代發(fā)明,但是事實上,其歷史甚至早于報紙,可以追溯到17世紀,那時很多定期出版的刊物都會雇傭國際商人來報道關(guān)于經(jīng)濟環(huán)境的新聞,包括革命、戰(zhàn)爭、疾病或惡劣的天氣帶來的商品貿(mào)易中斷的成本等商業(yè)細節(jié),這些新聞中充滿著豐富的數(shù)據(jù)報告。1821年5月5日的 《衛(wèi)報》 (當時名為《曼徹斯特衛(wèi)報》)在“讀者來信”欄目中,用四個版面刊登了一幅龐大的圖表,揭示教會學校學生的實際人數(shù)遠遠超過教育改革支持者對于學生人數(shù)的估計,這也被該報視為其數(shù)據(jù)新聞的開端。[11]因此,很多人將數(shù)據(jù)新聞視為一項現(xiàn)代發(fā)明,這其實是一項誤解。從這一時期一直到20世紀40年代,記者從來沒有停止過將數(shù)據(jù)運用到自己的新聞報道中,不過這一時期的“數(shù)據(jù)新聞”更應該稱之為“數(shù)字新聞”,主要是運用社會科學統(tǒng)計方法,通過人工的方式處理數(shù)字,并將這些經(jīng)過處理的數(shù)字整合到新聞故事中,使之為新聞敘事服務(wù)。直到20世紀中葉,計算機技術(shù)革命為記者將數(shù)據(jù)融進新聞報道創(chuàng)造了更多的機會,才賦予了數(shù)據(jù)新聞現(xiàn)代意義,因此,在追溯數(shù)據(jù)新聞的發(fā)展歷史時,我們選擇以計算機輔助報道作為其開端。
1.計算機輔助報道(Computer-Assisted Reporting,簡稱CAR)的產(chǎn)生
目前,關(guān)于計算機輔助報道發(fā)展歷史的文章很多,大多數(shù)歷史學家認為其產(chǎn)生于20世紀50年代以后[12],伴隨計算機技術(shù)而產(chǎn)生和發(fā)展。其標志性的事件是1952年,格雷斯?霍潑爾(Grace Hopper)帶領(lǐng)著一個程序員團隊將早期的選舉投票數(shù)據(jù)輸入到“電子數(shù)字式積分器和計算機”(Electronic Numerical Integrator and Computer,簡稱ENIAC)中,并寫出了使得計算機可以正確預測結(jié)果的算法。其建立的這個模型不僅可以準確預測最終結(jié)果,而且其百分比誤差不到1%(他們通過計算預測艾森豪威爾可以獲得83.2%的選票,最終其實際獲得了82.4%的選票)[13]。格雷斯?霍潑爾和她的團隊使用ENIAC與內(nèi)特?斯爾弗(Nate Silver)60年后做的事情差不多,都是使用統(tǒng)計模型去預測政治選舉結(jié)果,因此,很多人都認為數(shù)據(jù)新聞是計算機輔助報道直接進化的產(chǎn)物。
2.精確新聞學的提出和發(fā)展
其后,因為技術(shù)和資金的障礙,計算機輔助報道的發(fā)展非常緩慢。直到1967年,底特律(Detroit)發(fā)生了一場騷亂,記者菲利普?梅耶(Philip Meyer)使用數(shù)據(jù)和社會科學方法來講述發(fā)生在底特律的真實的故事。其發(fā)現(xiàn)底特律騷亂的主要驅(qū)動因素是失業(yè)、惡劣的居住環(huán)境、擁擠的生存條件以及警察暴力,而非其他記者人云亦云的經(jīng)濟和教育問題,并據(jù)此贏得了下一年的普利策獎,才使得計算機輔助報道重新受到重視。梅耶稱其為“精確新聞學,包括在全面的數(shù)據(jù)采集和采樣實踐活動,審慎分析以及對分析結(jié)果的清晰直觀呈現(xiàn)”。[14]其后,精確新聞學被廣泛應用于財經(jīng)新聞領(lǐng)域,大多數(shù)美國大學新聞院系也將其列為專業(yè)課程,作為記者專業(yè)技能訓練的重要一環(huán)。
3.數(shù)據(jù)新聞的迅速崛起和蓬勃發(fā)展
在接下來的幾十年里,美國的記者開始不斷探索和擴展如何運用數(shù)據(jù)去完成報道和了解讀者。微型計算機和個人電腦這些工具極大地改變了計算機輔助報道的實踐和形式,到20世紀90年代末,全球的記者在很多主要調(diào)查性新聞中都開始使用計算機輔助報道技巧和數(shù)據(jù)庫。
21世紀伊始,移動計算革命增加了網(wǎng)絡(luò)連接、網(wǎng)絡(luò)訪問,提高了網(wǎng)絡(luò)速度,也從根本上改變了計算機輔助報道的范圍,并產(chǎn)生了一個新的名詞——數(shù)據(jù)新聞。傳統(tǒng)新聞媒體,例如英國的《衛(wèi)報》,美國的《紐約時報》以及專門的數(shù)據(jù)新聞網(wǎng)絡(luò)媒體等都是最早的數(shù)據(jù)新聞實踐者。2014年,更是迎來了數(shù)據(jù)新聞發(fā)展的熱潮:數(shù)字神童內(nèi)特?斯爾弗(Nate Silver)將其數(shù)據(jù)新聞博客“5308”(FiveThirtyEight)從《紐約時報》分離出來,加盟ESPN(娛樂與體育新聞電視網(wǎng));新媒體公司沃克斯傳媒(Vox Media)聘請《華盛頓郵報》的知名數(shù)據(jù)新聞記者埃茲拉?克雷恩(Ezra Klein)領(lǐng)導運營沃克斯網(wǎng)站,并獲得了4650萬美元的融資;《衛(wèi)報》《華盛頓郵報》《紐約時報》等知名新聞媒體也在紛紛增加數(shù)據(jù)新聞領(lǐng)域的投資,有影響力的數(shù)據(jù)新聞報道也不斷涌現(xiàn)。
與國外相比,我國發(fā)展數(shù)據(jù)新聞的主要是網(wǎng)絡(luò)媒體,新浪、搜狐、網(wǎng)易、騰訊等四大門戶網(wǎng)站從2012年開始陸續(xù)開設(shè)數(shù)據(jù)新聞欄目,財新網(wǎng)也于2013年開始成立了數(shù)據(jù)新聞團隊,傳統(tǒng)新聞媒體的發(fā)展速度則相對緩慢,截至目前,我國尚沒有數(shù)據(jù)新聞報道和團隊獲得國際數(shù)據(jù)新聞大獎,獲得國際關(guān)注的數(shù)據(jù)新聞報道也相對較少。
從數(shù)據(jù)新聞的發(fā)展背景和發(fā)展歷程中,我們可以看到,數(shù)據(jù)新聞并不是一個新的概念,而是一個新的名詞。作為一個非常新穎的術(shù)語,數(shù)據(jù)新聞目前尚沒有一個明確的定義。數(shù)據(jù)新聞學的入門讀物《數(shù)據(jù)新聞手冊》(Data Journalism Handbook)沒有直接對其做出定義,只是對其意義做出了描述:數(shù)據(jù)新聞為將傳統(tǒng)新聞的敏感性和說服力的敘事能力與海量數(shù)據(jù)信息相結(jié)合創(chuàng)造了新的可能性[15]。方潔、顏冬從新聞呈現(xiàn)形態(tài)、新聞生產(chǎn)流程、新聞行業(yè)發(fā)展三個層面來對數(shù)據(jù)新聞進行定義,指出“數(shù)據(jù)新聞的內(nèi)涵就是基于數(shù)據(jù)的抓取、挖掘、統(tǒng)計、分析和可視化呈現(xiàn)的新型新聞報道方式”。[16]章戈浩的定義則更加簡單,其主要從新聞生產(chǎn)模式的角度對其進行定義,指出“數(shù)據(jù)新聞,又稱數(shù)據(jù)驅(qū)動新聞(data-driven journalism)。它指的是對數(shù)據(jù)進行分析與過濾,從而創(chuàng)作出新聞報道的方式”。[17]
從以上這些定義中,我們可以看到,對于數(shù)據(jù)新聞的理解,可謂莫衷一是。然而,我們?nèi)匀豢梢詮倪@些不同的理解中找到相似之處,即都非常強調(diào)“數(shù)據(jù)”以及大數(shù)據(jù)技術(shù)使用在數(shù)據(jù)新聞中的核心地位和價值,有濃厚的技術(shù)中心的烙印。然而筆者卻認為,這種理解忽略了新聞業(yè)本身所承擔的功能和核心價值。新聞業(yè)承擔著信息過濾、篩選和加工、重塑的功能,通過新聞從業(yè)者和媒體這些“守門人”的把關(guān),讓符合社會公眾利益的真實的信息得以呈現(xiàn)和傳播,以保障公眾的知情權(quán),滿足公民的精神文化需求。對于新聞業(yè)而言,大數(shù)據(jù)及其相關(guān)技術(shù)只是在紛繁的信息海洋中挖掘出真正有價值的新聞的一種工具,數(shù)據(jù)新聞并沒有從本質(zhì)上改變新聞的本質(zhì),其只是幫助我們進行更為深入、更有說服力的報道工具,是對文字敘事的補充,并不會從根本上改變新聞,“與其說數(shù)據(jù)新聞是新聞業(yè)的技術(shù)革命,不如說是新聞實踐的工具改良”。[18]
因此,筆者認為數(shù)據(jù)新聞不是“發(fā)現(xiàn)故事中的數(shù)據(jù)”“使用數(shù)據(jù)講故事”,而是發(fā)現(xiàn)數(shù)據(jù)中的故事,將數(shù)據(jù)轉(zhuǎn)化為新聞背景和故事;不是基于“數(shù)據(jù)的抓取、挖掘、統(tǒng)計、分析和可視化”這些技術(shù)而產(chǎn)生,數(shù)據(jù)科學技術(shù)手段只是發(fā)現(xiàn)故事、講故事、呈現(xiàn)故事的重要工具?;诖耍P者對數(shù)據(jù)新聞做出如下定義:大數(shù)據(jù)環(huán)境下,利用數(shù)據(jù)科學技術(shù)發(fā)現(xiàn)和提取蘊含在海量數(shù)據(jù)中的具有新聞價值的信息,將數(shù)據(jù)轉(zhuǎn)化為新聞背景和新聞故事的一種新聞報道方式。
進入21世紀以來,隨著海量數(shù)據(jù)及其處理技術(shù)的產(chǎn)生與發(fā)展、懷疑主義的盛行,計算機輔助報道發(fā)展成為了數(shù)據(jù)新聞。數(shù)據(jù)新聞的故事基于原始數(shù)據(jù)而產(chǎn)生,它可能是一篇純文本的文章,可能是數(shù)據(jù)可視化,可能是視頻,也可能是新聞交互項目,它可以有多元化的載體,定義它的不是“數(shù)據(jù)可視化”“交互地圖”等呈現(xiàn)形式上的東西,而是從數(shù)據(jù)出發(fā),挖掘和講述好新聞故事。理清數(shù)據(jù)新聞的真正內(nèi)涵,我們就可以看到,數(shù)據(jù)新聞并不是對傳統(tǒng)新聞的顛覆,傳統(tǒng)媒體在數(shù)據(jù)新聞的發(fā)展中仍然具備較強的優(yōu)勢。目前國際上最有影響力的數(shù)據(jù)新聞團隊或者由傳統(tǒng)媒體創(chuàng)辦,或者其團隊成員有著豐富的傳統(tǒng)媒體從業(yè)經(jīng)驗。我國的傳統(tǒng)媒體在變革面前不能固步自封,應在強化其固有的新聞專業(yè)能力的基礎(chǔ)上加強數(shù)據(jù)技能的培訓,努力去探索數(shù)據(jù),幫助我們更好地理解社會,理解世界。
(作者單位:華南理工大學新聞與傳播學院)
注釋:
[1]European Journalism Centre. Data-driven Journalism:What is There to Learn?[R/OL].[2015-7-20] http://www. lateledipenelope.it/public/ddj_paper_final.pdf
[2]方潔.數(shù)據(jù)新聞概論:操作理念與案例解析[M].北京:中國人民大學出版社,2015:12
[3]Memorandum on Transparency and Open Government[EB/OL]. [2015-7-26]http://www.archives.gov/cui/documents/2009-WH-memo-on-transparency-and-open-government.pdf
[4]Open Government Partnership. Participating Countries[EB/ OL].[2015-7-20]http://www.opengovpartnership.org/Calendars [5]國家數(shù)據(jù)網(wǎng).玩轉(zhuǎn)中國統(tǒng)計數(shù)據(jù)庫[EB/OL].[2015-7-21]http://data.stats.gov.cn/staticreq.htm?m=aboutctryinfo
[6][7][13]Tow Center for Digital Journalism. The art and science of data-driven journalism[R/OL].[2014-9-11]http://www.internews.org/sites/default/files/resources/ Tow-Center-Data-Driven-Journalism.pdf
[8]比爾·科瓦奇,湯姆·羅森斯蒂爾.真相:信息超載時代如何知道該相信什么[M].陸佳怡,孫志剛,譯.北京:中國人民大學出版社,2014:12
[9]Richard Sambrook. Journalists Can Learn Lessons From Coders in Developing the Creative Future[EB/OL].[2015-6-12]http://www.theguardian.com/media/2014/apr/27/ journalists-coders-creative-future
[10][15]Jonathan Gray,Liliana Bounegru,Lucy Chambers. Data Journalism Handbook[EB/OL].[2013-6-18] http://www. datajournalismhandbook.org/1.0/en/
[11]Simon Rogers.The first Guardian Data Journalism:May 5,1821[EB/OL].[2014-7-21]http://www.theguardian.com/ news/datablog/2011/sep/26/data-journalism-guardian
[12]Stephanie Glenat,Laurent Heutte,Thierry Paquet. The Development of Computer-Assisted Reporting[J]. International Journal of Information Technology and Decision Making,2007,(2)
[14]Philip Meyer. The New Precision Journalism. Bloomington: Indiana University Press, 1991:7
[16]方潔,顏冬.全球視野下的“數(shù)據(jù)新聞”:理念與實踐[J].國際新聞界,2013(6)
[17]章戈浩.作為開放新聞的數(shù)據(jù)新聞——英國《衛(wèi)報》的數(shù)據(jù)新聞實踐[J].新聞記者,2013(6)
[18]石磊.數(shù)據(jù)驅(qū)動新聞的技術(shù)化迷失[J].今傳媒,2014(7)