□文│徐 笛
?
數(shù)據(jù)新聞:發(fā)展現(xiàn)狀與趨勢*
□文│徐 笛
[摘 要]首先簡要梳理了數(shù)據(jù)新聞的歷史發(fā)展進程。繼而通過對比中外的數(shù)據(jù)新聞操作,提出目前我國數(shù)據(jù)新聞操作存在著數(shù)據(jù)人才匱乏,數(shù)據(jù)挖掘深度不夠,以及數(shù)據(jù)不開放、來源模糊不清的問題。最后提出傳感器數(shù)據(jù)的應(yīng)用以及數(shù)據(jù)圖書館的興起將成為值得業(yè)界關(guān)注的新焦點。
[關(guān)鍵詞]數(shù)據(jù)新聞 趨勢 傳感器 數(shù)據(jù)圖書館
*本文系復(fù)旦大學新進教師科研啟動基金資助項目(JJH3353014)的研究成果
數(shù)據(jù)新聞并非新鮮事物,但它卻從未像今天這般遍地開花?!都~約時報》《華爾街日報》《衛(wèi)報》等堪稱全球新聞業(yè)風向標的英美媒體,均熱忱耕耘數(shù)據(jù)新聞領(lǐng)域,且佳作頻出。南美洲的阿根廷《民族報》也不時推出令人耳目一新的數(shù)據(jù)新聞作品,有的報道甚至撼動了阿根廷政界。國內(nèi)媒體諸如網(wǎng)易、財經(jīng)新聞網(wǎng)、《南方都市報》《新京報》、澎湃新聞等也相繼開設(shè)了數(shù)據(jù)新聞欄目。數(shù)據(jù)新聞?wù)谌蚍秶鷥?nèi)掀起一股熱潮。
目前,學術(shù)界對數(shù)據(jù)新聞的準確定義莫衷一是。簡而言之,數(shù)據(jù)新聞是指從數(shù)據(jù)中挖掘新聞故事,并利用數(shù)據(jù)來講述故事的新聞報道樣式。探察數(shù)據(jù)新聞的發(fā)展趨勢,有利于新聞機構(gòu)洞悉前沿變化,做出預(yù)判。
早在19世紀初,英國《衛(wèi)報》就刊登了以圖表形式展現(xiàn)的數(shù)據(jù)分析報道,可謂是數(shù)據(jù)新聞的原始形態(tài)。20世紀50年代,計算機開始進入美國的新聞編輯室,記者編輯們通過計算機運行模型,預(yù)測大選的結(jié)果,并進行報道,被稱作計算機輔助報道(Computer-assisted Reporting, CAR)。[1]這是新聞業(yè)與電腦科技碰撞的成果。將計算機技術(shù)引入新聞業(yè),拓展了新聞操作的空間,豐富了新聞報道樣式。
20世紀60年代,美國底特律、洛杉磯等地區(qū)發(fā)生種族騷亂。當時輿論傾向認為騷亂參與者多來自社會底層,教育程度有限,因無力改變生活窘境而參加騷亂。為驗證這一流行觀點,《底特律自由報》(Detroit Free Press)在1967年開展了問卷調(diào)查,記者菲利普·梅耶和兩位社會學家合作,用隨機抽樣的方法對400余名騷亂參與者進行了調(diào)查,并運用計算機對統(tǒng)計數(shù)據(jù)進行分析,結(jié)果顯示教育程度與參與騷亂之間并沒有明顯相關(guān)性,受過大學教育的人和高中沒畢業(yè)的人都有可能參加騷亂,此外參與者也并不一定來自社會底層。[2]數(shù)據(jù)分析的結(jié)果有力地駁斥了有關(guān)種族騷亂的刻板成見,這是傳統(tǒng)的敘事新聞難以達到的效果,該報道也斬獲了1968年普利策新聞獎。[3]這種報道樣式被菲利普·梅耶稱為“精確新聞”,是指在新聞實踐中運用社會行為科學研究方法,使用抽樣、計算機分析和統(tǒng)計推斷等工具,發(fā)現(xiàn)、理解并解讀事實。[4]
精確新聞的出現(xiàn)也是對當時流行的“新新聞學”的一種矯正。新新聞學允許在報道中增加藝術(shù)性的內(nèi)容使其更引人入勝,或者“合理”描繪采訪對象的心理活動。[5]但有的記者打著新新聞學的旗號編造事實,以使報道更具故事性。批評者認為新新聞學是對客觀性的背離。而精確新聞提升了報道的準確性、深度和可信度。精確新聞由此風靡一時,國內(nèi)新聞界業(yè)也紛紛相仿。1993年,《中國青年報》設(shè)立了社會調(diào)查中心,并辟專版刊登該中心進行的民意調(diào)查的結(jié)果。隨后《北京青年報》推出了“公眾調(diào)查”版,每周一期,專門刊登民意調(diào)查或社會調(diào)查結(jié)果。國內(nèi)有20多家媒體相繼開設(shè)了相關(guān)版面??上У氖?,由于報道成本較高等原因,這些版面和欄目逐漸關(guān)停。[6]精確新聞將嚴謹?shù)纳鐣茖W方法引入新聞業(yè),開啟了新聞業(yè)與社會學的聯(lián)姻,推動新聞業(yè)朝更加科學化的方向前進。
計算機輔助報道與精確新聞為數(shù)據(jù)新聞奠定了基礎(chǔ),大數(shù)據(jù)時代的到來,爆發(fā)式增長的數(shù)據(jù)量以及數(shù)據(jù)存儲、分析工具的進步,直接推動了數(shù)據(jù)新聞走向流行。2009年英國《衛(wèi)報》在其網(wǎng)站上設(shè)立了數(shù)據(jù)博客欄目,持續(xù)發(fā)布數(shù)據(jù)新聞作品,這標志著數(shù)據(jù)新聞開始成為精英媒體的常規(guī)生產(chǎn)內(nèi)容。2010年《衛(wèi)報》依據(jù)維基解密提供的海量戰(zhàn)爭數(shù)據(jù),制作了伊拉克戰(zhàn)爭日志數(shù)據(jù)新聞作品。39.1萬條戰(zhàn)爭傷亡數(shù)據(jù)被搬上了地圖,每一次死傷事件都在地圖上生成一個紅點,點擊紅點彈出對話框,可獲得死傷人數(shù)、襲擊地點等信息,地圖上密密麻麻的紅點,以震撼的視覺效果,揭示了戰(zhàn)爭的殘酷。這張互動地圖流傳甚廣,也震動了英國政界,在一定程度上推動了英國做出從伊拉克撤軍的決定。[7]這則報道也成為數(shù)據(jù)新聞的經(jīng)典范例,直接引爆了數(shù)據(jù)新聞的熱潮。
我國的數(shù)據(jù)新聞實踐略晚于國外媒體。2012 年1月,門戶網(wǎng)站網(wǎng)易創(chuàng)立了“數(shù)讀”欄目,這是國內(nèi)媒體最早開辟的數(shù)據(jù)新聞欄目,每周發(fā)布兩到三條數(shù)據(jù)新聞作品。[8]隨后,財新網(wǎng)、《南方都市報》、澎湃新聞等相繼成立了數(shù)據(jù)新聞制作部門。數(shù)據(jù)新聞作為舶來品,進入中國時間不長,對比國外的數(shù)據(jù)新聞操作,國內(nèi)數(shù)據(jù)新聞生產(chǎn)存在著制作人才匱乏,數(shù)據(jù)挖掘深度不夠,數(shù)據(jù)不開放、來源模糊不清等問題。
1.制作人才匱乏
數(shù)據(jù)新聞的生產(chǎn)流程不同于普通的敘事新聞,它對從業(yè)者提出了更高的技能要求,從業(yè)者既要懂新聞又要懂編程。制作一條數(shù)據(jù)新聞,首先要獲取可用的數(shù)據(jù),操作中常要抓取網(wǎng)頁上的數(shù)據(jù),這就要求制作者掌握基本的網(wǎng)頁抓取技術(shù)。但這一技術(shù)是建立在熟知網(wǎng)頁編寫語言和網(wǎng)頁結(jié)構(gòu)基礎(chǔ)之上的,這對于通常來自人文社會學科的新聞工作者而言,是較大的挑戰(zhàn)。一家紙媒的數(shù)據(jù)新聞部門就曾受制于此。該報記者瀏覽網(wǎng)站時發(fā)現(xiàn)了極具新聞價值的數(shù)萬條數(shù)據(jù),但要點擊超鏈接在彈出窗口中讀取每條數(shù)據(jù),逐個復(fù)制與粘貼的工作量無法想象,也會非常耗時,不符合新聞時效性的要求。通過Python語言(一種計算機程序設(shè)計語言)可以自動抓取每個彈出框內(nèi)的內(nèi)容,但編輯部內(nèi)無一人會使用這種語言,只好求助他人并支付了較高酬勞。這并不是孤例,國內(nèi)很多數(shù)據(jù)新聞產(chǎn)品都是在“技術(shù)外援”的幫助下完成的,但長期依賴外援并不可取,一是增加了媒體的經(jīng)濟開支,二是增加了溝通成本。此外,如果找不到合適的“外援”,選題很有可能夭折。
目前媒體對于會編程的新聞人才可謂求賢若渴,很多記者編輯希望借助培訓(xùn)繼續(xù)充電,以掌握一定的編程技能。但數(shù)據(jù)新聞所需要的編程技能并不是短時間充電能夠補足的,而且編程語言也在不斷進步更新,充電也應(yīng)是長期的過程。要解決人才短板的問題,一方面新聞從業(yè)者應(yīng)加強自主學習,另一方面媒體也應(yīng)拿出具體措施,激勵員工參加培訓(xùn)充實自己,以提升新聞制作質(zhì)量。前文所提到的精確新聞的創(chuàng)始人菲利普·梅耶,正是在哈佛大學一年的脫產(chǎn)培訓(xùn)中,系統(tǒng)掌握了社會科學的研究方法,在返回新聞工作崗位后,他學以致用,才有了精確新聞的產(chǎn)生。
2.數(shù)據(jù)挖掘深度不夠
國內(nèi)數(shù)據(jù)新聞報道數(shù)量正在增加,但能夠被業(yè)內(nèi)普遍認可的經(jīng)典范例卻不多。一方面是因為數(shù)據(jù)新聞尚處于初期發(fā)展階段,業(yè)內(nèi)尚未形成統(tǒng)一的衡量標準,通常都是依據(jù)點擊量或社交媒體上的轉(zhuǎn)發(fā)量作為評判質(zhì)量的標準。另一方面也是因為數(shù)據(jù)新聞本身概念模糊,對于包含多少數(shù)據(jù)量、如何呈現(xiàn)才能夠被稱作數(shù)據(jù)新聞報道存在很多爭議。不少報道僅對數(shù)據(jù)進行了可視化呈現(xiàn),缺乏對數(shù)據(jù)的深入挖掘和情境化分析,報道的深度不夠。此外,目前的大部分數(shù)據(jù)新聞報道都屬于“小數(shù)據(jù)新聞”,[9]數(shù)據(jù)量較小,數(shù)據(jù)形態(tài)單一,也極少使用統(tǒng)計分析的方法處理數(shù)據(jù)。比如“三公經(jīng)費”是數(shù)據(jù)新聞中的熱門題材,但對“三公經(jīng)費”所做的數(shù)據(jù)新聞報道還停留在展示數(shù)據(jù)的層面,如用餅圖標示三項公務(wù)開支的比重,或用柱圖比較不同地區(qū)或不同部門的開支。如一則報道中用大小不一的方塊組合成的方形圖揭示了中央單位三公經(jīng)費歷年來的升降變化,方塊面積越大表示開支數(shù)額越大。由圖可知,國家稅務(wù)總局連續(xù)數(shù)年位列三公開支首位,有網(wǎng)民評論道,為什么國家稅務(wù)總局一直位列“榜首”,但報道中只展示了現(xiàn)狀,并未詳解原因。此外報道還可以聯(lián)系社會情境對數(shù)據(jù)做更深入的解讀,比如“八項規(guī)定”出臺后,為何“三公經(jīng)費”還在上升。只展示是什么,而不深究為什么,是很多數(shù)據(jù)新聞作品的通病,報道著力于在視覺上吸引人,看上去很搶眼,但對數(shù)據(jù)的挖掘和解讀深度不夠,難以給受眾留下深刻印象。
3.數(shù)據(jù)不開放、來源模糊不清
在傳統(tǒng)敘事新聞中,清楚交代新聞源是客觀性最基本的要求。數(shù)據(jù)新聞的新聞源即數(shù)據(jù)來源,在操作中也需詳細說明。目前數(shù)據(jù)新聞作品基本都寫明了數(shù)據(jù)來源,但普遍存在標識模糊不清的問題。有的報道僅寫數(shù)據(jù)來自某機構(gòu),比如源自新華社或聯(lián)合國,但兩家機構(gòu)公布的數(shù)據(jù)成千上萬,讀者無從得知具體使用了哪一組數(shù)據(jù)。還有的報道寫數(shù)據(jù)來源時使用機構(gòu)的簡稱或英文簡寫,更是讓讀者一頭霧水。國外的數(shù)據(jù)新聞在操作中很重視對來源的交代,方便讀者自行判斷數(shù)據(jù)的可信度,這體現(xiàn)了新聞從業(yè)者對受眾的尊重。英國的《衛(wèi)報》還會在每則報道后附上整理好的原始數(shù)據(jù),點擊鏈接便可下載?!缎l(wèi)報》將公開源數(shù)據(jù)看作是開放新聞室的一部分,也是民主化新聞生產(chǎn)過程的努力方向之一。傳統(tǒng)的新聞生產(chǎn)流程相對封閉,新聞生產(chǎn)者與讀者距離較遠,生產(chǎn)者憑借經(jīng)驗猜測讀者的喜好。社交媒體拉近了生產(chǎn)者與讀者的距離,讀者可在社交媒體上提供實時閱讀反饋。但新聞生產(chǎn)過程很大程度上仍然是封閉的,由生產(chǎn)者主導(dǎo)的?!缎l(wèi)報》將源數(shù)據(jù)公開,意在吸納讀者參與到新聞生產(chǎn)過程中,讓每一位讀者從數(shù)據(jù)中尋找自己的興趣點制作數(shù)據(jù)新聞。《衛(wèi)報》數(shù)據(jù)博客同時在Flickr(用于分享圖片的社交網(wǎng)站)上建立了群組,用于分享讀者生產(chǎn)的數(shù)據(jù)新聞作品。國內(nèi)的數(shù)據(jù)新聞都不曾開放源數(shù)據(jù),一家紙媒數(shù)據(jù)新聞部門的負責人曾表示,在合適的時候?qū)㈤_放原始數(shù)據(jù),但競爭壓力以及開放可能帶來的其他風險讓人顧慮重重。
數(shù)據(jù)新聞領(lǐng)域變化日新月異,新技術(shù)與新工具不斷涌現(xiàn),在可見的未來,傳感器數(shù)據(jù)的廣泛應(yīng)用以及數(shù)據(jù)圖書館的興起將成為值得關(guān)注的新焦點。
1. 傳感器數(shù)據(jù)的應(yīng)用
傳感器是一種電子感應(yīng)裝置,它可以監(jiān)測環(huán)境變化,并將變化轉(zhuǎn)化為數(shù)字信號輸出。移動網(wǎng)絡(luò)和電子設(shè)備的發(fā)展使傳感器日趨普及,并滲透到日常生活的每一個角落,帶定位功能的手機、GPS(衛(wèi)星定位系統(tǒng))、智能手環(huán)、電子監(jiān)控設(shè)備以及空氣質(zhì)量監(jiān)測設(shè)備等都屬于傳感器。傳感器可以對事物進行長期監(jiān)測并返回海量的一手數(shù)據(jù),其造價也在逐漸降低,因而日益得到新聞業(yè)的青睞。尤其在環(huán)境報道領(lǐng)域,傳感器更加彰顯功用。例如要調(diào)查一個垃圾填埋場是否造成了附近的空氣污染,記者可能難以從官方獲取數(shù)據(jù),即便能拿到數(shù)據(jù),數(shù)據(jù)也可能存在瑕疵。如果記者能夠自行搭建污染監(jiān)控設(shè)備,便可獲取一手數(shù)據(jù),還可與官方數(shù)據(jù)進行對比,獲取更多信息。
國內(nèi)媒體曾使用霾表來監(jiān)測空氣中PM2.5的含量,這也是傳感器在新聞中的應(yīng)用。但這種應(yīng)用還是嘗試性的,使用傳感器獲取大量數(shù)據(jù)主要有兩種途徑,一是自己搭建傳感裝置,直接獲取監(jiān)測數(shù)據(jù)。美國紐約公共廣播電臺(WNYC)就曾采用這種方法制作了“追蹤蟬”項目。在美國的東北海岸,每隔17年,在初春時節(jié),蟬的幼蟲會破土而出。當?shù)乇硪韵?英寸的土壤溫度達到64華氏度(17攝氏度)時,蟬蟲就會爬出地面。為了預(yù)測蟬蟲的到來,手工愛好者、紐約公共廣播電臺的數(shù)據(jù)編輯約翰·基夫(John Keefe)設(shè)計制作了一個監(jiān)測裝置,將溫度計粘在尺子上,同時連接感應(yīng)器和9個LED顯示燈,當土壤溫度上升時,感應(yīng)器輸出電流,顯示燈就會亮起。當溫度達到64華氏度時,9個顯示燈會全部亮起。裝置需要29個步驟來完成,編輯部制作了詳細的視頻與文字說明,希望聽眾能自行組裝設(shè)備并放在自家后院進行監(jiān)測,其中部分要件需掏錢購買。編輯部同時搭建了“追蹤蟬”項目主頁,聽眾可在頁面上輸入自己監(jiān)測到的結(jié)果。最終編輯部獲得了聽眾貢獻的1750條溫度數(shù)據(jù),數(shù)據(jù)來自800多個不同的監(jiān)測地點,另有4300條數(shù)據(jù)記錄了看到蟬蟲的時間和地點。這些數(shù)據(jù)被繪成了互動地圖,點擊地圖上的圓點可獲得地理位置信息以及溫度數(shù)據(jù)。這是一條有趣又帶有科普價值的新聞,聽眾的參與熱情超乎編輯部成員的想象,這條新聞在社交網(wǎng)站上獲得了數(shù)萬次的轉(zhuǎn)發(fā)量。制作者約翰·基夫認為,準確性并不是這條新聞的首要考慮要素,重要的是聽眾接受了一次非正式的科普教育,此外聽眾還參與到了社區(qū)公共活動之中。[10]
另一種方式是從公共監(jiān)控系統(tǒng)中獲取數(shù)據(jù)?!斗鹆_里達太陽哨兵報》(The Florida Sun Sentinel)的記者從高速公路監(jiān)控系統(tǒng)中獲得了警車行駛速度記錄,記錄顯示大量警車長期超速行駛,因超速還造成過死傷事故,但涉事警察都逃脫了懲罰。作為一種福利,佛羅里達州警察可以在下班后將警車開回家,民眾對非執(zhí)行公務(wù)的警車超速的抱怨由來已久,但一直缺乏有力的證據(jù)?!斗鹆_里達太陽哨兵報》的調(diào)查記者約翰·麥恩斯(John Maines)和薩莉·凱斯汀(Sally Kestin)聯(lián)手展開調(diào)查,他們在一條高速公路上設(shè)置了測速器,用來監(jiān)測駛過的警車的行駛速度,并獲得了數(shù)百條數(shù)據(jù)。但數(shù)據(jù)量不足以證明警車超速是一種系統(tǒng)性問題。隨后他們向警方申請依據(jù)警車上的GPS系統(tǒng)公開警車的位置信息,但警方以安全考慮為由拒絕了信息公開申請。一個讀者電話啟發(fā)了記者,高速公路收費站的監(jiān)控系統(tǒng)中應(yīng)存有通過的警車的信息。在佛州,警車不需要繳納高速費,監(jiān)控系統(tǒng)會為警車設(shè)置一種特別的代碼以使其免費通過,只要知曉這種代碼就能提取警車通過收費站的時間信息,將兩個收費站之間距離除以警車經(jīng)過兩個站點的時間差便可獲得警車行駛的平均速度。兩位記者向高速公路管理機構(gòu)提出了信息公開申請,并獲得了250兆含有110萬行數(shù)據(jù)的Excel文件。運行幾個公式,就獲得了警車的行駛速度信息。數(shù)據(jù)顯示,從2010年10月到2011年11月間,在公務(wù)時間以外,該州的警察有超過6000次以每小時90英里以上的速度駕駛警車,有的警察在限速60英里每小時的高速路上持續(xù)以90英里的速度行駛。大量數(shù)據(jù)表明警車超速是一種系統(tǒng)性和習慣性的行為,報道刊登后,警方對9名警察實施了紀律處罰,對130名警察進行了處分。這篇報道以翔實的數(shù)據(jù)、深入的挖掘,揭露了警方的弊病,報道也獲得了2013年普利策新聞獎。時隔一年后,記者再次搜集了同樣的數(shù)據(jù),并進行對比后發(fā)現(xiàn),警察超速駕駛行為下降了84%。
對傳感器數(shù)據(jù)的利用將成為未來幾年數(shù)據(jù)新聞領(lǐng)域炙手可熱的焦點,但在利用數(shù)據(jù)的同時也需要考慮數(shù)據(jù)的準確性問題,尤其是由新聞機構(gòu)自行搭建監(jiān)測設(shè)備時,最好能夠獲得學者的指導(dǎo),可以避免因?qū)I(yè)性不足帶來的失實風險。此外隱私問題也不容忽視,比如通過智能手環(huán)或一些手機應(yīng)用可以獲取個人健康情況數(shù)據(jù),這些數(shù)據(jù)牽涉到個人隱私問題。
2. 數(shù)據(jù)圖書館
數(shù)據(jù)圖書館的興起是數(shù)據(jù)新聞領(lǐng)域另一個值得關(guān)注的焦點。數(shù)據(jù)圖書館亦可被稱作數(shù)據(jù)超市,提供大量的數(shù)據(jù),可在線下載。這些圖書館有的是由NGO組織來運營,還有的是媒體機構(gòu)設(shè)立的,比如《衛(wèi)報》設(shè)立了自己的數(shù)據(jù)商店,任何人都可免費下載商店中的數(shù)據(jù)。但并非所有的數(shù)據(jù)圖書館都是免費的,美國非營利新聞機構(gòu)ProPublica也建立了自己的數(shù)據(jù)倉庫,其中部分數(shù)據(jù)只能付費下載,因這些數(shù)據(jù)是ProPublica花費了高額的律師費用通過信息公開申請等方式獲取的。《芝加哥論壇報》曾專門為媒體機構(gòu)開發(fā)了數(shù)據(jù)圖書館搜索工具Panda,它可在云端進行操作,也可安裝在媒體機構(gòu)的電腦上,工具自身存儲了大量的數(shù)據(jù),比如選舉數(shù)據(jù)、環(huán)境數(shù)據(jù)、股市數(shù)據(jù)等。我國也正在興起一些小規(guī)模的數(shù)據(jù)圖書館,比如青悅開放環(huán)境數(shù)據(jù)中心,該中心主要提供環(huán)境類數(shù)據(jù),并對非營利機構(gòu)開放,但仍需提出申請。國內(nèi)從事數(shù)據(jù)新聞的媒體機構(gòu)也在建立自己的數(shù)據(jù)倉庫,在未來幾年,將會有更多的數(shù)據(jù)圖書館浮出水面,如果這些資源得以共享或開放,將極大地豐富數(shù)據(jù)來源,提升數(shù)據(jù)新聞的整體質(zhì)量。
(作者單位:復(fù)旦大學新聞學院)
參考文獻:
[1]Alexander Benjamin Howard, “The art and science of data-driven journalism: when journalists combine new technology with narrative skills, they can deliver context, clarity, and a better understanding of the world around us” [EB/OL] http://towcenter.org/the-artand-science-of-data-driven-journalism/,2014
[2][4][5]菲利普·梅耶著,肖明譯.精確新聞報道:記者應(yīng)掌握的社會科學研究方法(第四版)[M].北京:人民大學出版社,2015
[3][6][9]方潔.數(shù)據(jù)新聞概論:操作理念與案例解析[M].北京:人民大學出版社,2015
[7]章戈浩.作為開放新聞的數(shù)據(jù)新聞:英國《衛(wèi)報》的數(shù)據(jù)新聞實踐[J].新聞記者, 2013(6)
[8]方潔.數(shù)據(jù)新聞概論:操作理念與案例解析[M].北京:人民大學出版社,2015:23
[10]Fergus Pitt, “Sensors and journalism”[EB/OL].http:// towcenter.org/research/sensors-and-journalism/,2014