劉苗苗
數(shù)據(jù)新聞是基于新聞價值和公共利益,運(yùn)用數(shù)據(jù)科學(xué)從各類數(shù)據(jù)中發(fā)現(xiàn)事實(shí),可視化呈現(xiàn)數(shù)據(jù)的新聞形態(tài)。[1]以財新“數(shù)字說”、網(wǎng)易“數(shù)讀”等為代表的國內(nèi)數(shù)據(jù)新聞欄目生產(chǎn)了不少優(yōu)秀作品。財新獲得“2018年度全球最佳數(shù)據(jù)新聞團(tuán)隊(duì)獎”,代表著我國數(shù)據(jù)新聞業(yè)的發(fā)展和進(jìn)步。
然而,數(shù)據(jù)新聞的探索實(shí)踐中仍存在一些問題。目前相關(guān)研究大都關(guān)注國內(nèi)數(shù)據(jù)新聞的生產(chǎn)水平,從作品水平高低、規(guī)范程度的維度對整體進(jìn)行評價,在理論層面指出解決問題的必要性,但缺少針對具體案例的分析,對數(shù)據(jù)新聞最基本的內(nèi)容準(zhǔn)確性關(guān)注較少。本文認(rèn)為,數(shù)據(jù)新聞應(yīng)首先堅(jiān)守準(zhǔn)確性這一底線,進(jìn)而在數(shù)據(jù)分析、可視化技術(shù)、敘事等方面提高水平。
米爾科·勞倫茲提出數(shù)據(jù)新聞的流程包括以下基本步驟:通過反復(fù)抓取、篩選和重組來深度挖掘數(shù)據(jù),聚焦專門信息以過濾數(shù)據(jù),可視化地呈現(xiàn)數(shù)據(jù)并合成新聞故事。[2]核心步驟包括數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)呈現(xiàn)。數(shù)據(jù)分析是對經(jīng)過清洗、轉(zhuǎn)化等處理的數(shù)據(jù)進(jìn)行分析;數(shù)據(jù)呈現(xiàn)包括數(shù)據(jù)可視化及敘事兩部分,將數(shù)據(jù)分析結(jié)果告知受眾。本文將沿著這三個步驟,以國內(nèi)新媒體數(shù)據(jù)新聞作品為研究范圍,剖析其中存在的不準(zhǔn)確、不規(guī)范等問題。
數(shù)據(jù)新聞?wù)Q生于數(shù)據(jù)公開的語境,[3]公開數(shù)據(jù)是數(shù)據(jù)新聞的原材料。但在我國,數(shù)據(jù)開放水平仍然不高,數(shù)據(jù)源有限且不易采集,很大程度上限制了數(shù)據(jù)新聞的選題范圍和深度。其次,國內(nèi)數(shù)據(jù)新聞普遍存在數(shù)據(jù)源交代模糊的問題,信源的不透明影響著數(shù)據(jù)新聞的可信度。
20世紀(jì)80年代,世界范圍內(nèi)興起政府改革,開放政府以提高公共治理水平。[4]2009年起,許多國家和組織建立了開放數(shù)據(jù)的門戶網(wǎng)站,開放數(shù)據(jù)運(yùn)動在全球范圍內(nèi)興起。[5]大量有權(quán)威性和公信力的政府公開數(shù)據(jù)促進(jìn)了數(shù)據(jù)新聞的誕生和發(fā)展。但國內(nèi)數(shù)據(jù)公開程度不高,客觀上數(shù)據(jù)源易得性低。其次,數(shù)據(jù)新聞具有很強(qiáng)的跨學(xué)科特征,具備編程能力又掌握新聞傳播規(guī)律的復(fù)合型人才短缺,不同學(xué)科背景間的溝通也存在障礙,導(dǎo)致主觀上的數(shù)據(jù)不易得,通常為現(xiàn)有數(shù)據(jù)的再利用。除政府?dāng)?shù)據(jù)外,國內(nèi)數(shù)據(jù)源還包括行業(yè)報告、互聯(lián)網(wǎng)數(shù)據(jù)、公開報道等,媒體自采數(shù)據(jù)較少,且一定程度上缺乏客觀性、準(zhǔn)確性和權(quán)威性。
例如界面推出的《2019年到底該不該買房?先看懂趨勢再說》,數(shù)據(jù)源為“公開資料整理”,其中部分信息被標(biāo)注為“傳聞”,作為數(shù)據(jù)新聞發(fā)布有一定誤導(dǎo)性。再如,新華網(wǎng)推出《Z世代宅人的真相了解一下》,數(shù)據(jù)源為極光大數(shù)據(jù)發(fā)布的《2019年Z世代“宅人”研究報告》。但極光大數(shù)據(jù)在聲明中表示數(shù)據(jù)僅供參考,不對其精確性、完整性、適用性等作任何保證。因此使用二手?jǐn)?shù)據(jù)難以保證新聞的權(quán)威性,還會因依賴單一數(shù)據(jù)源、缺乏客觀性影響真實(shí)性。
傳統(tǒng)新聞報道往往采用多信源保證報道平衡和真實(shí)。原則上數(shù)據(jù)新聞中的數(shù)據(jù)源也應(yīng)有多個,不同數(shù)據(jù)源應(yīng)互相印證。[6]但實(shí)際操作中難以實(shí)現(xiàn)——數(shù)據(jù)源本就易得性不高,多數(shù)據(jù)源更會抬高時間和人力成本。而即便數(shù)據(jù)源不是單一的,也存在不同數(shù)據(jù)源無法互相印證的情況,更應(yīng)保持審慎態(tài)度,弄清原始數(shù)據(jù)統(tǒng)計方法,說明數(shù)據(jù)選取的原因。例如財新推出的《中國的醫(yī)生數(shù)量在穩(wěn)步上升,為什么還是不夠?》,“中國每千人口執(zhí)業(yè)醫(yī)師數(shù)量”有兩個數(shù)據(jù)源,分別為經(jīng)合組織數(shù)據(jù)和中國官方統(tǒng)計數(shù)據(jù),文中注明因統(tǒng)計機(jī)構(gòu)與統(tǒng)計方法不同,兩者不一致。但圖表中只呈現(xiàn)了前者,未提及中國官方數(shù)據(jù),未說明原因,數(shù)據(jù)源無法相互印證直接削弱了數(shù)據(jù)新聞的可信度。
傳統(tǒng)新聞報道的信源指記者向之尋求信息的人,通常對記者的報道有既得利益。[7]信源和知曉方法的公開可澄清其中的傾向性,使得受眾能夠評判信息是否可靠。[8]在數(shù)據(jù)新聞中,數(shù)據(jù)源應(yīng)被視作最重要的信源,保證公開透明。當(dāng)數(shù)據(jù)采集困難影響了數(shù)據(jù)源的權(quán)威性、準(zhǔn)確性,公開數(shù)據(jù)源對于數(shù)據(jù)新聞自證可靠性便更為重要。其次,作為知識生產(chǎn)的數(shù)據(jù)新聞相當(dāng)于一次科學(xué)研究,[9]科學(xué)研究要求研究結(jié)果的可復(fù)現(xiàn),必須詳細(xì)交代數(shù)據(jù)來源。
透明度高的數(shù)據(jù)源不僅要求交代數(shù)據(jù)出處,還包括采集方法、采集時間、數(shù)據(jù)完整性和影響性,將缺失數(shù)據(jù)、替代數(shù)據(jù)的使用等告知受眾。[10]國內(nèi)大多數(shù)數(shù)據(jù)新聞中數(shù)據(jù)源交代模糊,只標(biāo)注獲取數(shù)據(jù)的網(wǎng)站。例如界面發(fā)布的《近3成中國人春節(jié)都去旅游了,但國內(nèi)游火不起來了》,其中雖然在每一張圖表下方都提到了多個數(shù)據(jù)源,包括“國家統(tǒng)計局”“文化和旅游部”“攜程”等,但也僅有這些網(wǎng)站的名稱,過于模糊。而即便新聞中使用的不是數(shù)字,交代信息來源也是必要的。在澎湃推出的《2018上海踏青賞花地圖》中,點(diǎn)擊交互地圖上的標(biāo)記可看到賞花信息,卻看不到信息來源。與之相比,《衛(wèi)報》數(shù)據(jù)新聞對數(shù)據(jù)源的交代應(yīng)成為努力的方向——提供數(shù)據(jù)下載、搜索,鼓勵用戶評論和參與,秉持開放數(shù)據(jù)的理念,尋找認(rèn)識和解決問題的新視角。[11]
數(shù)據(jù)新聞業(yè)者的工作不是搶先報道,而是洞察事實(shí)的深層次原因和真相。在信息超載而真相稀缺的當(dāng)下,公眾需要透視數(shù)據(jù)的數(shù)據(jù)新聞,了解數(shù)據(jù)背后的故事;通過分工協(xié)作生產(chǎn)的高價值數(shù)據(jù)新聞可以增強(qiáng)專業(yè)媒體的競爭力。這些價值很大程度上源于數(shù)據(jù)分析的深度和科學(xué)性,國內(nèi)數(shù)據(jù)新聞的失范正是表現(xiàn)在這兩方面。
數(shù)據(jù)分析的目的是把隱藏在數(shù)據(jù)背后的信息集中和提煉出來,分為初級的描述性數(shù)據(jù)分析、高級的探索性數(shù)據(jù)分析和驗(yàn)證性數(shù)據(jù)分析。[12]數(shù)字天然帶有象征嚴(yán)謹(jǐn)?shù)纳袷ス猸h(huán),相對于其他事實(shí)更可能被粗淺地解讀。[13]而不少數(shù)據(jù)新聞中僅將結(jié)構(gòu)化數(shù)據(jù)加以可視化,不進(jìn)行數(shù)據(jù)分析,或僅有簡單的描述性數(shù)據(jù)分析。
以多家數(shù)據(jù)新聞欄目推出的“晚婚”相關(guān)作品為例,這些作品關(guān)注點(diǎn)有差別,數(shù)據(jù)分析的深度不同,存在的問題也是多樣的。界面推出《如果春節(jié)你被逼婚,你就這么對付他》,僅將人口性別比和結(jié)婚率、離婚率作歷時比較和可視化,沒有進(jìn)一步的解讀。網(wǎng)易推出《“爸媽逼你結(jié)婚,都是為了你好啊”》,展示了近年來結(jié)婚率下降的趨勢以及代表網(wǎng)民態(tài)度的詞頻,解讀了晚婚的原因和年輕人的心理態(tài)度。但其問題在于對原因的分析并非基于數(shù)據(jù),而是參考了其他資料,用數(shù)據(jù)分析輔助報道,并非嚴(yán)格意義上的數(shù)據(jù)驅(qū)動新聞。財新推出《“云養(yǎng)蛙”火了,背后的現(xiàn)實(shí)是年輕人越來越晚婚》,將中、日、美三國的初婚年齡、結(jié)婚離婚比做了比較,通過對比分析展示了三個國家的婚姻狀況,進(jìn)行了推測解讀。然而看似要揭示“旅行青蛙”游戲流行的背后原因,數(shù)據(jù)分析卻無法證明晚婚是游戲流行的背后現(xiàn)實(shí),“云養(yǎng)蛙”成了一個“蹭熱點(diǎn)”的噱頭。
有深度的數(shù)據(jù)分析應(yīng)在解答“是什么”的基礎(chǔ)上進(jìn)一步探求“為什么”“怎么辦”;應(yīng)深入分析多來源、多類型的數(shù)據(jù),透視數(shù)據(jù)背后的本質(zhì),而不是停留在搬運(yùn)、堆砌數(shù)據(jù)的層面。按照報道的目的、依靠科學(xué)的程序和方法進(jìn)行統(tǒng)計分析,數(shù)據(jù)才能成為支撐報道敘事邏輯的關(guān)鍵線索和論據(jù)。[14]
準(zhǔn)確理解和使用數(shù)據(jù),弄清原始數(shù)據(jù)的真實(shí)含義,不生搬硬套,是數(shù)據(jù)分析的第一步。此外還應(yīng)注意“數(shù)據(jù)的陷阱”:例如計算平均數(shù)時說明具體種類——均值、中位數(shù)還是眾數(shù);建立在小樣本容量上的百分?jǐn)?shù)容易產(chǎn)生誤導(dǎo),直接給出具體數(shù)量更有價值。[15]例如搜狐發(fā)布的《全國300個城市的租房壓力VS房租抵稅力度》,根據(jù)可支配收入及房租平均單價,按照人均36.6平方米的住房標(biāo)準(zhǔn)計算了房租與收入比。但“城市人均住宅建筑面積”36.6平方米,反映的是“有當(dāng)?shù)貞艏⒂凶》康某鞘芯用竦娜司》棵娣e”,[16]而非租房者的居住面積,以此計算月平均房租顯然不合適。沒有弄清原始數(shù)據(jù)的含義,盲目追熱點(diǎn)、拿來即用的態(tài)度使數(shù)據(jù)新聞成為假新聞。
同時期澎湃推出《新個稅法為你省下的錢,超過了全國多少人?》,用代表全國工資分層的9088份樣本計算稅改對不同收入群體影響,用戶可以在交互網(wǎng)頁上輸入個人工資,查看全國排位,這種個性化的數(shù)據(jù)相對而言更有實(shí)用價值。遺憾的是澎湃未給出樣本庫來源、計算過程和方法等,僅注明計算結(jié)果沒有考慮專項(xiàng)附加扣除,作為工具的參考價值有限。
當(dāng)人工智能技術(shù)滲入新聞生產(chǎn)時,算法也應(yīng)用于數(shù)據(jù)新聞實(shí)踐中,由于算法設(shè)計本身的局限性和輸入數(shù)據(jù)的錯誤導(dǎo)致的失實(shí)風(fēng)險,將是數(shù)據(jù)新聞業(yè)者必須警惕的問題。如果算法出錯,波及面更廣,后果更嚴(yán)重。[17]
數(shù)據(jù)呈現(xiàn)包括數(shù)據(jù)可視化和敘事兩部分。數(shù)據(jù)可視化是將數(shù)據(jù)信息轉(zhuǎn)化為形象化的視覺表征形式,[18]分為靜態(tài)信息圖、交互式信息圖和動態(tài)信息圖。[19]可視化已不僅是工具,更是一種媒介:探索、展示和表達(dá)數(shù)據(jù)含義的方法。[20]作為新聞報道的一種,數(shù)據(jù)新聞以敘事為手段,強(qiáng)調(diào)數(shù)據(jù)在敘事中的地位。[21]在數(shù)據(jù)呈現(xiàn)階段,常見問題包括數(shù)據(jù)可視化缺乏規(guī)范性、直觀性,用數(shù)據(jù)引導(dǎo)敘事的故事性不強(qiáng)。
無論哪一種可視化類型都有其規(guī)則可循,規(guī)則不取決于設(shè)計或統(tǒng)計數(shù)字,而是為了確保受眾準(zhǔn)確解讀編碼數(shù)據(jù),[22]確保分析者準(zhǔn)確觀察并闡釋數(shù)據(jù),是關(guān)系新聞準(zhǔn)確性的又一基本要求。例如數(shù)據(jù)可視化機(jī)構(gòu)“數(shù)可視”在其微信公眾號發(fā)布的圖表《20年來,一個導(dǎo)師,平均帶幾個研究生?》(圖1),橫坐標(biāo)軸沒有完整、明確的刻度,只顯示了20年間的8個年份,且相鄰年份的間距不相等,而橫軸間距的大小決定著曲線的傾斜程度,因此圖表不準(zhǔn)確。其次,非連續(xù)數(shù)值應(yīng)用直線而非平滑曲線聯(lián)結(jié),應(yīng)以折線圖反映趨勢的變化。再如新華網(wǎng)發(fā)布的《數(shù)據(jù)描繪快遞小哥,走進(jìn)你我身邊“熟悉的陌生人”》,在快遞員家庭情況的可視化中,“61%的快遞員有兒女”本意應(yīng)為61%已成家的快遞員有兒女,但圖中未做出明顯視覺暗示,總體似乎成了全體快遞員。
可視化圖表在準(zhǔn)確性基礎(chǔ)上的另一個重要指標(biāo)是直觀性。有研究表明,人的眼睛天生是用來感知影像的,超過三分之一大腦皮層用于處理視覺信息,[23]直觀的視覺傳播方式突破民族、語言的限制,使數(shù)據(jù)在視覺的瞬間被解讀,提高了信息傳播效率,[24]這是數(shù)據(jù)可視化的主要目的。但許多數(shù)據(jù)新聞根本沒有實(shí)質(zhì)上的可視化,或可視化的呈現(xiàn)形式與內(nèi)容不統(tǒng)一。
圖像表意簡化、終止了符號所指到能指的思維過程,[25]閱讀可視化符號與閱讀文字符號獲取意義的過程有著本質(zhì)不同。而有些數(shù)據(jù)新聞欄目發(fā)布的作品只是將數(shù)據(jù)放入圖文編排中,沒有數(shù)據(jù)可視化。例如新華網(wǎng)出品的《消費(fèi)潛規(guī)則“潛”行,遇到“它”你該怎么辦》(圖2),在表示各領(lǐng)域“消費(fèi)潛規(guī)則”比例時,沒有用視覺信息表明數(shù)值間的大小關(guān)系,信息傳遞仍依靠文本,未實(shí)現(xiàn)分類數(shù)據(jù)的可視化。再如新華網(wǎng)發(fā)布的《越來越便捷,來一場說走就走的出境游》,其中呈現(xiàn)出境游客目的地時,僅在地圖上標(biāo)記了亞、歐兩洲的位置和對應(yīng)數(shù)值,不屬于空間數(shù)據(jù)的可視化。
同樣是在空間信息中可視化區(qū)域數(shù)據(jù),網(wǎng)易推出的《失蹤的中國孩子,被拐去了哪里》,采用了等值區(qū)域圖。例如在表示“中國失蹤兒童主要來自哪些省份”時,用地圖上圓點(diǎn)的大小和顏色共同表示數(shù)值大小。值得一提的是,無論數(shù)據(jù)如何,等值區(qū)域圖中面積大的區(qū)域總是得到更多的注意。[26]因此該作品中沒有在地圖上直接填充顏色,而用圓點(diǎn)大小避免了省份間面積不同造成的干擾。但在表示“中國失蹤兒童主要省際流向”時,采用了動圖的形式,表示失蹤兒童流入、流出路線的線條同時穿行在地圖上,只有流動方向的區(qū)別而沒有更明顯的視覺暗示,動態(tài)的線條雜亂而不直觀。因此不能為了“炫酷”的技術(shù)而可視化,形式應(yīng)服務(wù)于內(nèi)容。
同一張圖表信息量過大也會導(dǎo)致可視化不直觀。例如網(wǎng)易發(fā)布的《聽說,只有結(jié)婚才會拯救男人》,在同一張圖中,展示了4種疾病分別對應(yīng)的未婚、離婚、喪偶3種婚姻狀態(tài)與已婚的死亡率比,并加入性別區(qū)分,信息量過于豐富使得受眾不容易在短時間內(nèi)理解。圖像表意不意味著膚淺和非理性,[27]但復(fù)雜的信息圖表難以滿足當(dāng)下受眾閱讀可視化新聞所期待的快感,會限制數(shù)據(jù)新聞的傳播效果。
數(shù)據(jù)新聞是用數(shù)據(jù)講述的新聞故事,“可視化地呈現(xiàn)數(shù)據(jù)并合成新聞故事”[28]是最后一個流程。故事性使數(shù)據(jù)新聞區(qū)別于一般的數(shù)據(jù)報告,為數(shù)據(jù)增加人情味,讓用戶產(chǎn)生心理接近性。數(shù)據(jù)敘事不意味著要用文字講故事,隨著技術(shù)的發(fā)展,包括新聞游戲、新聞工具在內(nèi)的“交互敘事”[29]日益成為數(shù)據(jù)新聞的一個亮點(diǎn)。然而一項(xiàng)對國內(nèi)媒體兩會數(shù)據(jù)新聞的研究顯示,超過四分之三的作品無交互功能。[30]因此對大部分無法提供參與式敘事的作品而言,在采訪基礎(chǔ)上形成的故事化文本必不可少。財新的互動數(shù)據(jù)新聞在這一方面表現(xiàn)突出。例如《五環(huán)之外》多角度探索了北京五環(huán)以外人們的生存狀況?;禹撁孀髠?cè)為非虛構(gòu)寫作文本,對上班族、家庭主婦等具體人物的描寫細(xì)致,用戶在交互網(wǎng)頁上探索式閱讀,故事與數(shù)據(jù)緊密結(jié)合實(shí)現(xiàn)了立體化的敘事。
國內(nèi)數(shù)據(jù)新聞實(shí)踐存在的問題,直觀表現(xiàn)為新聞基本采編業(yè)務(wù)不規(guī)范,弱化了數(shù)據(jù)新聞引導(dǎo)用戶洞察數(shù)據(jù)背后信息的功能。新聞專業(yè)主義對新聞工作者追逐真相、服務(wù)公眾利益的要求在新媒體時代仍不應(yīng)松懈,在數(shù)據(jù)新聞生產(chǎn)中,新聞專業(yè)主義更應(yīng)堅(jiān)持。
注釋:
[1][29]張超.?dāng)?shù)據(jù)新聞的交互敘事初探[J].新聞界,2017(8):10-15,45.
[2][14][28]方潔.?dāng)?shù)據(jù)新聞概論 [M].北京:中國人民大學(xué)出版社 ,2015:2,3,2.
[3][9][21]張超,鐘新.新聞業(yè)的數(shù)據(jù)新聞轉(zhuǎn)向:語境、類型與理念[J].編輯之友,2016(1):76-83.
[4]張成福.開放政府論[J].中國人民大學(xué)學(xué)報 ,2014,28(3):79-89.
[5]全球政府開放數(shù)據(jù)運(yùn)動方興未艾[J].電子技術(shù)與軟件工程,2014(5):5-6.
[6][10]張超.論數(shù)據(jù)新聞的實(shí)用主義客觀性原則[J].中州學(xué)刊,2018(9):166-172.
[7][美]卡琳·沃爾-喬根森,托馬斯·哈尼齊.當(dāng)代新聞學(xué)核心[M].張小婭,譯.北京:清華大學(xué)出版社,2014:109.
[8][美]比爾·科瓦奇,湯姆·羅森斯蒂爾.新聞的十大基本原則:新聞從業(yè)者須知和公眾的期待[M].劉海龍,連曉東,譯.北京:北京大學(xué)出版社,2011:83.
[11]文衛(wèi)華,李冰.大數(shù)據(jù)時代的數(shù)據(jù)新聞報道——以英國《衛(wèi)報》為例[J].現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報),2013,35(5):139-142.
[12]張文霖,劉夏璐,狄松.誰說菜鳥不會數(shù)據(jù)分析(入門篇)[M].北京:電子工業(yè)出版社,2013:15-16.
[13] Gray J, Chambers L,Bounegru L. The data journalism handbook[M]. O'Reilly,2012.
[15][美]哈夫.統(tǒng)計數(shù)字會撒謊[M].廖穎林,譯.北京:中國城市出版社,2009:25,115.
[16]張延群.24個大中城市人均住房面積及房價相對泡沫估算[J].西部論壇,2015,25(1):60-65.
[17]張超.新聞生產(chǎn)中的算法風(fēng)險:成因、類型與對策[J].中國出版,2018(13):38-42.
[18]周子淵.?dāng)?shù)據(jù)驅(qū)動與圖像驅(qū)動:數(shù)據(jù)新聞發(fā)展的動因分析[J].中國編輯,2018(3):23-27.
[19]沈浩,談和,文蕾.“數(shù)據(jù)新聞”發(fā)展與“數(shù)據(jù)新聞”教育[J].現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報),2014,36(11):139-142.
[20][22][26] [美]邱南森.?dāng)?shù)據(jù)之美:一本書學(xué)會可視化設(shè)計[M].張伸,譯.北京:中國人民大學(xué)出版社 ,2014:44,3,165.
[23][25][27]歐陽友權(quán).新媒體的技術(shù)審美與視覺消費(fèi)[J].中州學(xué)刊,2013(2):155-159.
[24]杜士英.視覺傳達(dá)設(shè)計原理[M].上海:上海人民美術(shù)出版社,2015:46.
[30]江宇,解晴晴.國內(nèi)“兩會”數(shù)據(jù)新聞報道研究——基于2013-2018年5家媒體“兩會”數(shù)據(jù)新聞報道的分析 [J].傳媒 ,2019(1):91-94.