□文│禹衛(wèi)華
(作者單位:上海交通大學(xué)媒體與設(shè)計學(xué)院)
近年來,大數(shù)據(jù)成為推動出版行業(yè)轉(zhuǎn)型發(fā)展的主要變量,在數(shù)據(jù)驅(qū)動下,出版機構(gòu)正在探索更大規(guī)模、更深層次、更廣范圍的融合,從業(yè)者也在思考如何構(gòu)建個人的大數(shù)據(jù)素養(yǎng),以便更好地適應(yīng)時代要求。無論是機構(gòu)的融合還是個人的探索都指向一個基本問題,將大數(shù)據(jù)應(yīng)用到本專業(yè)的基本框架是什么,本文擬從這個入口切入,探討編輯的大數(shù)據(jù)素養(yǎng)與實現(xiàn)路徑。
大數(shù)據(jù)的說法出現(xiàn)后,業(yè)界與學(xué)界從各自領(lǐng)域進行了相關(guān)探討,各類概念與說法不一而足,但對大數(shù)據(jù)的基本內(nèi)涵與特點基本形成共識,對大數(shù)據(jù)觸發(fā)的一些觀念轉(zhuǎn)變的說法上還存在爭論,本文結(jié)合各方研究的最新成果闡述大數(shù)據(jù)的基本概念與判斷。
大數(shù)據(jù)又稱海量數(shù)據(jù),包含兩層含義,第一層含義是指不再依托抽樣調(diào)查的方法,而是獲取所有數(shù)據(jù)進行分析處理,第二層含義是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,必須開發(fā)新工具以適應(yīng)巨量數(shù)據(jù)運算的要求。量大并不是大數(shù)據(jù)的根本特征。[1]大數(shù)據(jù)具備4種典型特征,數(shù)據(jù)量大并不是其唯一特征,大數(shù)據(jù)還有4個特點:首先,更大規(guī)模的數(shù)據(jù)。主要特點是從抽樣到相對全體樣本,從這個意義上講,大數(shù)據(jù)不但量很大,而且很全。其次,更多樣化的數(shù)據(jù)。多樣化主要體現(xiàn)在數(shù)據(jù)類型多,數(shù)據(jù)來源豐富,與各類問卷調(diào)查相比,大數(shù)據(jù)幾乎涵蓋方方面面。再次,更實時的數(shù)據(jù)。這個特征是一個比較根本的特征,以往的數(shù)據(jù)往往是切片式的數(shù)據(jù),只能表明數(shù)據(jù)在某個時間點上的狀態(tài)。而大數(shù)據(jù)則從根本上改變了這種切片式研究,通過數(shù)據(jù)流呈現(xiàn)數(shù)據(jù)的整體變化形態(tài)。最后,密度低價值高。海量數(shù)據(jù)的開發(fā)價值很大。
有關(guān)大數(shù)據(jù)還有兩種典型的說法,第一種是要全體代替抽樣,即大數(shù)據(jù)因為有了全樣本所以不需要再進行抽樣了,全樣本內(nèi)部容許有誤差,這種說法雖有探討之處,但爭議較小;第二種說法是要相關(guān)不要因果。這樣說法爭議比較大,筆者認為,盡管大數(shù)據(jù)能夠做到對全部樣本進行分析,但并不能代替因果關(guān)系的探究,在一些領(lǐng)域發(fā)現(xiàn)相關(guān)關(guān)系就已足夠,在一些領(lǐng)域則必須探究因果,比如醫(yī)療領(lǐng)域就不能僅僅依托相關(guān)關(guān)系判斷病情。
首先,大數(shù)據(jù)是時代的主要表征,是各種社會要素數(shù)字化之后的呈現(xiàn)形態(tài)。大數(shù)據(jù)改變了人們看待世界的方式,以往無法看到的社會運行狀況、網(wǎng)絡(luò)關(guān)系、內(nèi)容分布、情感傾向在工具和算法的輔助下變得可觀察、可測量、可預(yù)測,這些動態(tài)變化的社會表征對于及時掌握各行各業(yè)的發(fā)展情況至關(guān)重要,也有利于實現(xiàn)對其規(guī)律和特點的探究。大數(shù)據(jù)目前尚處在早期發(fā)展階段,雖然數(shù)據(jù)量在不斷積累,但是相關(guān)的算法與挖掘能力還在不斷優(yōu)化過程之中。隨著技術(shù)的發(fā)展,基于大數(shù)據(jù)構(gòu)建的宏大社會環(huán)境會最終形成,成為人們認知世界、理解世界的主要方法。
其次,大數(shù)據(jù)不是絕對概念,而是相對概念。
目前尚無一家機構(gòu)能夠完全掌握社會全部數(shù)據(jù),還存在各式各樣的“信息孤島”。電商、社交網(wǎng)絡(luò)、搜索引擎等公司雖然匯聚海量數(shù)據(jù),但也并非全社會的大數(shù)據(jù);政府、醫(yī)院、銀行等機構(gòu)擁有各類大數(shù)據(jù),但相關(guān)的深入挖掘還不夠,利用率低。這種分割狀況也使研究者清晰地認識到大數(shù)據(jù)目前主要是解決或預(yù)測某一個領(lǐng)域的問題,推動某個行業(yè)轉(zhuǎn)型與創(chuàng)新,綜合式的研究還不多見,就編輯出版行業(yè)來說,大數(shù)據(jù)在內(nèi)容生產(chǎn)、圖書選題、讀者社群經(jīng)營、精準營銷等領(lǐng)域大有作為。有一種觀念認為,媒體行業(yè)就應(yīng)該關(guān)注媒體行業(yè)的大數(shù)據(jù),電商行業(yè)就應(yīng)該關(guān)注電商大數(shù)據(jù),這樣才更專業(yè),實際上,如果具備較強的采集存儲與計算能力,媒體行業(yè)也可以跨界到其他行業(yè)的大數(shù)據(jù)領(lǐng)域。
最后,大數(shù)據(jù)的應(yīng)用有規(guī)律、有框架、可復(fù)制。
大數(shù)據(jù)的出現(xiàn)給各個行業(yè)帶來了巨大的沖擊,相關(guān)行業(yè)的業(yè)者皆在思考應(yīng)對之策,然而,掌握大數(shù)據(jù)資源的實體機構(gòu)更傾向于神化他們的數(shù)據(jù)量級與能力,并刻意在人們心理建立一道思維壁壘,讓公眾感到大數(shù)據(jù)、云計算等概念遙不可及,高不可攀,這種高高在上的姿態(tài)給所有非數(shù)據(jù)行業(yè)出身的業(yè)者造成一種嚴重的認知偏差,以為大數(shù)據(jù)就是某一小部分人的事情。實際上,大數(shù)據(jù)并不是不可捉摸的,它有規(guī)律可循,其運作框架簡單清晰并可復(fù)制,其挖掘邏輯與分析工具已成為通用的基本工具,其可視化代碼也在不斷更新與迭代,熟練掌握這方面知識的業(yè)者也越來越多。
本文主要希望將大數(shù)據(jù)的基本邏輯框架與編輯出版行業(yè)結(jié)合,形成編輯的大數(shù)據(jù)素養(yǎng)框架并找到實現(xiàn)路徑。
目前整個行業(yè)處在大數(shù)據(jù)的沖擊余波中,無論報刊編輯還是圖書編輯均意識到大數(shù)據(jù)正在快速改變整個行業(yè)的運轉(zhuǎn)邏輯,轉(zhuǎn)型是必然選擇,但轉(zhuǎn)型的方向是什么,轉(zhuǎn)型實現(xiàn)的路徑在哪里尚未明確。雖然數(shù)據(jù)挖掘的方法已在讀者社群經(jīng)營、圖書營銷、社會評價等領(lǐng)域有較多的應(yīng)用,也有一些較為成功的模式,但就編輯的大數(shù)據(jù)素養(yǎng)而言,目前還存在一些問題。這些問題主要表現(xiàn)為幾種認識誤區(qū)。
認識誤區(qū)之一:大數(shù)據(jù)的技術(shù)屬性強,編輯行業(yè)難以適應(yīng)。由于電商、社交網(wǎng)絡(luò)、搜索引擎等機構(gòu)的底層架構(gòu)是非常技術(shù)化的,有關(guān)大數(shù)據(jù)的內(nèi)容往往具有極強的技術(shù)話語特點,多數(shù)長期從事編輯工作的人員短期內(nèi)難以適應(yīng)這種話語結(jié)構(gòu)的顛覆式轉(zhuǎn)變,而且相關(guān)大數(shù)據(jù)報告動輒億級的話語描述方式,也讓編輯行業(yè)的從業(yè)者對大數(shù)據(jù)的邊界難以把握,再加上相關(guān)公司或企業(yè)在媒體上掀起的大數(shù)據(jù)輿論“螺旋”,也造成了一種大數(shù)據(jù)迷思,人人都在談?wù)摯髷?shù)據(jù),仿佛整個社會離開大數(shù)據(jù)便無法前進,不討論大數(shù)據(jù)就落伍一樣,這給整個編輯行業(yè)造成了隱形壓力。
認識誤區(qū)之二:編輯專業(yè)技能價值歸零。突如其來的大數(shù)據(jù)形成的行業(yè)壓力也傳導(dǎo)至編輯個人,許多編輯對自己的專業(yè)能力也產(chǎn)生了懷疑,一些編輯悲觀地認為長期以來形成的新聞傳播或者編輯出版的基本能力已無用武之地,專業(yè)價值歸零,未來將由人工智能(AI)或者寫作機器人代替,要么放棄專業(yè),要么重新開始學(xué)習(xí)相關(guān)的知識,然而面對各類代碼與邏輯算法,大量人文社科專業(yè)出身的編輯對能否在短期內(nèi)掌握相關(guān)知識也產(chǎn)生了懷疑。大多數(shù)的編輯難以適應(yīng)技術(shù)突變帶來的行業(yè)變革,擔(dān)心未來發(fā)展的方向。當(dāng)然,還有一批編輯出版的從業(yè)者試圖通過學(xué)習(xí)成為大數(shù)據(jù)方面的全才,掌握大數(shù)據(jù)全面的知識與技能,實現(xiàn)完全自主的技術(shù)能力。
認識誤區(qū)之三:與計算機和數(shù)學(xué)相關(guān)的都是大數(shù)據(jù)人才。在轉(zhuǎn)型的道路上,對于什么是編輯出版行業(yè)需要的大數(shù)據(jù)人才也存在認識誤區(qū)。引進人才作為應(yīng)對行業(yè)變革的一種策略具有重要意義,然而,負責(zé)專業(yè)發(fā)展把關(guān)的相關(guān)領(lǐng)導(dǎo)多是人文社科專業(yè)出身,對引進什么人才缺乏決策依據(jù),出現(xiàn)了只要是學(xué)習(xí)計算機或數(shù)學(xué)的都可以按人才引進的情況。實際上,計算機專業(yè)學(xué)科分野極其細致,凡計算機專業(yè)皆可引進是一種模糊的做法,對于專業(yè)發(fā)展未必有利,跟大數(shù)據(jù)有關(guān)的專業(yè)人才其實并不多。數(shù)學(xué)專業(yè)亦如此。
上述3種誤區(qū)反映了大數(shù)據(jù)給編輯行業(yè)造成的各種不適應(yīng),既有變革帶來的焦慮也有對專業(yè)知識并不了解而形成的誤判,不一而足。如前所述,當(dāng)整個社會的表征都已經(jīng)數(shù)據(jù)化的時候,各個行業(yè)必然要對這種數(shù)據(jù)化的基本特點與發(fā)展邏輯有所應(yīng)對。就編輯出版行業(yè)來說,大數(shù)據(jù)首先是一種新的思考邏輯。編輯應(yīng)能夠熟知大數(shù)據(jù)能做什么,選擇何種大數(shù)據(jù)技術(shù)解決哪一種問題。其次,計算機專業(yè)并非高深專業(yè),如果尋找理工科與文科最容易結(jié)合的部分,非計算機學(xué)科莫屬,因為計算機使用的語言與人文社會科學(xué)的邏輯在很多方面是相通的。大數(shù)據(jù)的人才主要與文本、算法、可視化相關(guān),跟信號傳輸、硬件修護等專業(yè)之間無太大關(guān)聯(lián)。
大數(shù)據(jù)對編輯出版行業(yè)不僅是挑戰(zhàn)也是機遇,短期內(nèi)它給出版行業(yè)造成了一定的壓力,但長期來看,如果能夠很好地利用大數(shù)據(jù),它將是整個編輯行業(yè)專業(yè)化創(chuàng)新的基本出發(fā)點。從歷史發(fā)展來看,編輯行業(yè)一直隨著技術(shù)進步在不斷創(chuàng)新,只不過這次的創(chuàng)新由大數(shù)據(jù)推動。那么,如何通過大數(shù)據(jù)推動編輯出版行業(yè)轉(zhuǎn)型呢,關(guān)鍵的鑰匙是大數(shù)據(jù)應(yīng)用的邏輯框架。
大數(shù)據(jù)的應(yīng)用框架一言以蔽之就是“采存算取”4個字,即采集(Crawl)—存儲(Data)—計算(Mining)—獲?。╒isualization),這是所有大數(shù)據(jù)架構(gòu)的內(nèi)在邏輯。數(shù)據(jù)是一切的基礎(chǔ),沒有數(shù)據(jù)也根本不存在所謂的算法與可視化,否則,大數(shù)據(jù)就是無源之水無本之木。數(shù)據(jù)采集完成后就要存儲在一定的地方,采集數(shù)據(jù)與存儲數(shù)據(jù)的最終目的是對數(shù)據(jù)進行分析與挖掘,并通過一定的形式展現(xiàn)出來。無論工業(yè)大數(shù)據(jù)還是社會大數(shù)據(jù),都遵循這樣的邏輯。
首先是數(shù)據(jù)采集(采)。在工業(yè)領(lǐng)域,數(shù)據(jù)傳感器被植入機器內(nèi)部,自動采集機器運行信息并通過信息渠道傳輸,進入大數(shù)據(jù)庫,成為后續(xù)分析的基本材料。[2]互聯(lián)網(wǎng)也是如此,用戶的手持終端本質(zhì)上是數(shù)據(jù)采集器或傳感器,每時每刻都在采集用戶的文本、地理位置信息、社交網(wǎng)絡(luò)等內(nèi)容,這些數(shù)據(jù)通過互聯(lián)網(wǎng)或者局域網(wǎng)向存儲設(shè)備中的數(shù)據(jù)庫匯聚,形成動態(tài)數(shù)據(jù)流,最終累計成大數(shù)據(jù)形態(tài)。[3]其次是數(shù)據(jù)存儲(存):數(shù)據(jù)采集之后會以某種形式存儲在數(shù)據(jù)庫,便于后面進行數(shù)據(jù)的分析處理。數(shù)據(jù)存儲是數(shù)據(jù)采集和數(shù)據(jù)分析的交互橋梁,為這兩個模塊提供了高效傳輸手段,同時降低二者的耦合度。網(wǎng)絡(luò)社交媒體產(chǎn)生的數(shù)據(jù)流具有非結(jié)構(gòu)化特點,數(shù)據(jù)存儲結(jié)構(gòu)的優(yōu)化為海量數(shù)據(jù)的處理規(guī)模和速度奠定了基礎(chǔ)。再次是數(shù)據(jù)分析(算):數(shù)據(jù)分析模塊是構(gòu)建數(shù)據(jù)監(jiān)測系統(tǒng)最重要的一步。根據(jù)采集的原始數(shù)據(jù)通過進行分類、統(tǒng)計、建模等手段,進行時空數(shù)據(jù)、社會關(guān)系網(wǎng)絡(luò)、文本、輿情等分析,得到相應(yīng)的量化監(jiān)測數(shù)據(jù)。[4]最后達成數(shù)據(jù)信息可視化(?。豪糜嬎銠C圖形圖像顯示以及交互能力,將抽象的數(shù)據(jù)信息轉(zhuǎn)化為直觀的視覺形式,實現(xiàn)與用戶的交互,滿足用戶需求。[5]
采集—存儲—計算—獲取是理解大數(shù)據(jù),分析大數(shù)據(jù)的基本流程,是思考大數(shù)據(jù)各類問題的基本框架。比如在工業(yè)大數(shù)據(jù)領(lǐng)域,車輛輪胎內(nèi)置傳感器將輪胎的實時數(shù)據(jù)經(jīng)過車聯(lián)網(wǎng)傳送至企業(yè)數(shù)據(jù)庫,形成動態(tài)數(shù)據(jù)流,經(jīng)過一定的算法,并可視化呈現(xiàn)出來,生產(chǎn)者便可較為輕松地判斷輪胎的壽命并優(yōu)化生產(chǎn)工藝。再如在輿情領(lǐng)域,研究者采集網(wǎng)上信息,存入數(shù)據(jù)庫,通過一定算法分析輿情走向、核心節(jié)點、情感分布等內(nèi)容,并通過可視化手段呈現(xiàn),能夠有效地對各類輿情進行監(jiān)測。就編輯出版來說,“采存算取”也是構(gòu)建編輯大數(shù)據(jù)能力的基本框架。
采集—存儲—計算—獲取是編輯廓清專業(yè)轉(zhuǎn)型方向的一個參考框架,具體而言,編輯的大數(shù)據(jù)素養(yǎng)包括4種能力與3種思維方式,具體如下。
編輯的數(shù)據(jù)采集能力。大多數(shù)情況下,機構(gòu)內(nèi)部用于數(shù)據(jù)采集的工具可由專人開發(fā),編輯重點是了解不同數(shù)據(jù)結(jié)構(gòu)的差異,能夠應(yīng)用采集工具獲取所需數(shù)據(jù),具體可分為兩個層面:第一,數(shù)據(jù)采集的基本能力。編輯對各類社交網(wǎng)絡(luò)上的數(shù)據(jù)類型和功能有基本的判斷和認知,比如結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)、各類字段的功用、地理位置信息、對網(wǎng)絡(luò)節(jié)點各類關(guān)系的描述、各類采集接口(API)的使用現(xiàn)實、采集與反采集的主要思路等,這些屬于數(shù)據(jù)采集的基本知識,所有試圖進入大數(shù)據(jù)領(lǐng)域的人都需要掌握這些知識,這個層面的知識較易掌握,并且在后續(xù)的應(yīng)用中能夠發(fā)揮基礎(chǔ)作用。第二,能夠執(zhí)行基本的數(shù)據(jù)采集代碼。網(wǎng)絡(luò)數(shù)據(jù)采集由網(wǎng)路爬蟲(Crawler)完成,所謂爬蟲其實就是一段代碼,目前網(wǎng)絡(luò)數(shù)據(jù)采集比較常用采集代碼都是Python或者Java開發(fā)的,相比其他工具,Python因其簡單、高效、適應(yīng)性強,目前應(yīng)用最為廣泛,普通人上手較快,被廣泛接受。編輯在這個階段能夠執(zhí)行采集代碼即可,至于更高級別的代碼寫作與代碼修改則因人而異,負責(zé)內(nèi)容生產(chǎn)的編輯沒有必要去專門學(xué)習(xí)開發(fā)代碼。第三,形成綜合的數(shù)據(jù)采集能力。編輯具備數(shù)據(jù)類別的判斷能力,能夠執(zhí)行數(shù)據(jù)采集代碼,了解采集與反采集規(guī)則主要是為了穩(wěn)定有效地獲取數(shù)據(jù),最終形成能夠綜合運用某種數(shù)據(jù)采集工具綜合運用數(shù)據(jù)獲得觀點資訊的能力。
編輯對數(shù)據(jù)存儲類別的判斷能力。就實際功能來講,存儲屬于基礎(chǔ)系統(tǒng),與編輯出版人員的能力關(guān)系不大,但不同的存儲框架與邏輯對編輯的影響很大。編輯主要是了解不同數(shù)據(jù)庫的特點,能夠掌握數(shù)據(jù)庫的整體發(fā)展趨勢并作出選擇。目前,常用的數(shù)據(jù)庫有兩種,MySQL和NoSQ數(shù)據(jù)庫。前者是目前最受歡迎的開源關(guān)系型數(shù)據(jù)庫,但對非結(jié)構(gòu)化數(shù)據(jù)支持并不理想,后者作為非關(guān)系型數(shù)據(jù)庫NoSQL家族的代表產(chǎn)品之一,相比關(guān)系型數(shù)據(jù)庫在存儲海量非結(jié)構(gòu)化數(shù)據(jù)方面有明顯優(yōu)勢。[6]
了解并掌握多種算法的能力。大數(shù)據(jù)的核心在算法,算法能力的高低決定了編輯對數(shù)據(jù)的掌控能力,如果說采集與存儲是編輯的基本能力,那么,算法能力是編輯掌握大數(shù)據(jù)的核心能力。比如“今日頭條”通過對采集到的用戶的各類數(shù)據(jù)進行分析,從而實現(xiàn)根據(jù)用戶的使用行為推送內(nèi)容,在“今日頭條”內(nèi)部通過算法優(yōu)化的信息推送,實現(xiàn)了更加有效的信息推送。編輯了解大數(shù)據(jù)、掌握大數(shù)據(jù)算法的目的是希望通過大數(shù)據(jù)的分析與研判能夠提早發(fā)現(xiàn)受眾關(guān)注的焦點、讀者對某類內(nèi)容的整體意見、閱讀者的地理位置分布、內(nèi)容的傳播路線圖、社會影響力分布圖等。
編輯應(yīng)該了解或掌握的分析能力包括:①時空分析的能力。時空分析的對象是空間數(shù)據(jù)和時序數(shù)據(jù)。空間數(shù)據(jù)指的是用于描述有關(guān)空間實體的位置、形狀和相互關(guān)系的數(shù)據(jù),以坐標和拓撲關(guān)系的形式存儲具有定位、定性、時間和空間關(guān)系等特性。②社會網(wǎng)絡(luò)分析能力。社會網(wǎng)絡(luò)分析“社會網(wǎng)絡(luò)”指的是社會行動者間關(guān)系的集合。用點和線來描述關(guān)系網(wǎng),是社會網(wǎng)絡(luò)量化的基礎(chǔ)。③文本分析的能力。通過分詞、聚類等方法,挖掘用戶文本信息中隱含的興趣、觀點、情感等特征,并根據(jù)詞頻等特性進行文本的綜合分析。時空、社會網(wǎng)絡(luò)、文本三種算法能夠有效地覆蓋編輯的主要工作領(lǐng)域,比如對圖書營銷的策劃方向,可以從網(wǎng)絡(luò)評論入手,搜集網(wǎng)絡(luò)評論的相關(guān)意見,并通過時空分析了解相關(guān)討論的地理信息分布,還可以通過社交影響力的可視化效果還原圖書推廣過程中影響力最大的網(wǎng)絡(luò)節(jié)點。
數(shù)據(jù)可視化的能力。大數(shù)據(jù)的關(guān)系復(fù)雜,數(shù)量巨大,必須通過一定的可視化的形式才能完整展示。數(shù)據(jù)可視化本質(zhì)上是將巨量數(shù)據(jù)的運算結(jié)果以一種社會大眾普遍能接受的形式呈現(xiàn)出來。編輯對數(shù)據(jù)可視化并不陌生,編輯出版過程中,圖畫是必不可少的內(nèi)容,新聞圖表或者示意圖也是常用的方式,但隨著技術(shù)的進步,可視化更多地呈現(xiàn)交互可視化的特色,應(yīng)用工具也有了新的發(fā)展,表現(xiàn)形式也越來越豐富,對使用代碼的能力要求也有了提升,一些出色的大數(shù)據(jù)可視化作品都是技術(shù)組合而成的。在新聞傳播領(lǐng)域,基于大數(shù)據(jù)的數(shù)據(jù)新聞也發(fā)展起來了,很多機構(gòu)按照《紐約時報》的模式建立了數(shù)據(jù)新聞編輯部門,比如網(wǎng)易的“數(shù)讀”、搜狐的“數(shù)字之道”、新浪的“圖解新聞”、財新的“財新數(shù)據(jù)新聞與可視化實驗室”等。
以上是編輯應(yīng)該具備的數(shù)據(jù)能力,實際上,編輯的主要任務(wù)是內(nèi)容生產(chǎn),了解大數(shù)據(jù)運作的框架主要為了更精準地適應(yīng)行業(yè)轉(zhuǎn)型的趨勢,對于以應(yīng)用大數(shù)據(jù)為主要導(dǎo)向的編輯來說,還需要具備3種思維方式。
協(xié)同的思維方式。大數(shù)據(jù)強調(diào)協(xié)同是因為大數(shù)據(jù)所需要的資源與學(xué)科異常復(fù)雜,僅憑個人的力量難以完成,必須依靠團隊的力量。在團隊組建或運行的過程中,要形成內(nèi)部團隊與協(xié)同團隊結(jié)合的模式,以最小的成本匯聚最優(yōu)秀的資源。大數(shù)據(jù)的很多技術(shù)人才分散在社會各個角落,組織者要有能力將這些散落的技術(shù)聚合起來為我所用。
融合的思維方式。這里談的融合是指學(xué)科的接納與融合,長久以來文科背景與理科背景的業(yè)者很難走到一起,在一些基本看法上甚至沖突嚴重,這導(dǎo)致人文社科專業(yè)研究一直缺少量化支持,而量化研究又缺乏人文反思,二者的矛盾可以通過大數(shù)據(jù)達到統(tǒng)一,比如人文社科背景的從業(yè)者提出數(shù)據(jù)和算法的要求,理工科背景的從業(yè)者根據(jù)要求實現(xiàn)并不斷優(yōu)化,共同解決編輯出版過程中的各類問題,大數(shù)據(jù)本質(zhì)上要求打破所有的專業(yè)壁壘,編輯也要適應(yīng)這種趨勢。
核心數(shù)據(jù)的思維方式。一些媒體機構(gòu)充分認識到大數(shù)據(jù)的重要性,選擇積極與電商、搜索引擎、社交網(wǎng)絡(luò)公司合作,以期獲得大數(shù)據(jù)方面的支持,事實上,完全沒有數(shù)據(jù)產(chǎn)出的合作無法長久,從實際來看,誰擁有數(shù)據(jù)誰就掌握了數(shù)據(jù)決策的話語權(quán),也掌握了主導(dǎo)權(quán),編輯如果能夠在數(shù)據(jù)采集存儲層面形成獨特的數(shù)據(jù)資源,并充分開發(fā)利用,最終實現(xiàn)由購買數(shù)據(jù)轉(zhuǎn)向提供數(shù)據(jù),并形成產(chǎn)業(yè)規(guī)模,其影響力與經(jīng)濟效益則會大增。
編輯大數(shù)據(jù)素養(yǎng)的培養(yǎng)不能完全技術(shù)指向,也不能又回到文本導(dǎo)向,而應(yīng)從二者融合的角度,結(jié)合具體的崗位要求,有重點分步驟,既要提升全員的數(shù)據(jù)素養(yǎng),也要形成大數(shù)據(jù)的核心力量,既要著眼于當(dāng)下的職業(yè)培養(yǎng),也要從長遠角度考慮從高等教育入手。具體路徑如下。
探討編輯的大數(shù)據(jù)素養(yǎng)并非催促所有編輯都去鉆研計算機技術(shù)與代碼,那樣便偏離了編輯出版是內(nèi)容產(chǎn)業(yè)的方向。培養(yǎng)編輯的大數(shù)據(jù)素養(yǎng)主要目的是希望編輯能夠掌握大數(shù)據(jù)的基本邏輯,具備研判大數(shù)據(jù)的基本能力,至于能否成為大數(shù)據(jù)技術(shù)專家則因人而異,實際上,大多數(shù)編輯并不會成為大數(shù)據(jù)的全才,一小部分編輯可以深入了解大數(shù)據(jù)的專業(yè)知識,大部分編輯則應(yīng)該在充分了解大數(shù)據(jù)的基礎(chǔ)上聚焦實際問題。就解決大數(shù)據(jù)的問題來說,具備大數(shù)據(jù)的思維方式,匯聚各種資源解決問題的實際價值大于將編輯變?yōu)槌绦騿T的價值。
長期的知識更新是提高編輯大數(shù)據(jù)素養(yǎng)的積極措施,如前所述,要分層分類,有技術(shù)型培訓(xùn),有業(yè)務(wù)與思維方式的培訓(xùn)。第一,可以組織與大數(shù)據(jù)有關(guān)的業(yè)務(wù)人員參與大數(shù)據(jù)采集、存儲、算法、可視化等專題培訓(xùn)或者全部培訓(xùn),使編輯對大數(shù)據(jù)有基本的了解。第二,對大數(shù)據(jù)思維方式的訓(xùn)練。并不是所有的編輯都要掌握“采存算取”這四種技術(shù)能力,大多數(shù)的編輯只需了解相關(guān)知識并能夠運用大數(shù)據(jù)的思維方式,聚合資源也是一種較好的培訓(xùn)方式。第三,與高校聯(lián)合培養(yǎng)相關(guān)人才。
編輯出版機構(gòu)可以成立獨立的大數(shù)據(jù)運營中心,這個獨立的數(shù)據(jù)運營中心不是技術(shù)支持部門,而是一個獨立的機構(gòu),它匯聚某一出版單位的大數(shù)據(jù)團隊,具有獨立的“采存算取”能力,具有獨立開展業(yè)務(wù)的能力,掌握核心技術(shù)和核心數(shù)據(jù),對內(nèi)提供各類大數(shù)據(jù)技術(shù)支持,對外能夠?qū)⒋髷?shù)據(jù)作為業(yè)務(wù)增長點,形成數(shù)據(jù)產(chǎn)品。
長期以來,編輯出版教育重視文字的駕馭能力,強調(diào)文字的表達,在課程中很少見到專門的數(shù)據(jù)挖掘與可視化課程。提高大數(shù)據(jù)業(yè)務(wù)水準需要從本科教育入手,從基本代碼開始持續(xù)培養(yǎng),才能從根本上解決人才缺口的問題。目前大數(shù)據(jù)所依托的代碼大都是開源的,資源豐富,相關(guān)教育機構(gòu)只要開設(shè)基礎(chǔ)課程,便可為學(xué)生打下堅實的知識基礎(chǔ)。
大數(shù)據(jù)并非遙不可及,任何一個大數(shù)據(jù)系統(tǒng)的底層邏輯結(jié)構(gòu)都是相通的。就出版行業(yè)來講,“采存算取”的邏輯結(jié)構(gòu)可以作為編輯大數(shù)據(jù)素養(yǎng)提升的基本框架,推動編輯形成四種能力并具備三種大數(shù)據(jù)的思維方式。當(dāng)然,出版編輯主要是內(nèi)容生產(chǎn),在大數(shù)據(jù)人才的實際應(yīng)用上也有所區(qū)分,強調(diào)全員具備基本的大數(shù)據(jù)素養(yǎng),但在具體崗位安排上則要分類,讓不同層次的大數(shù)據(jù)素養(yǎng)發(fā)揮最大功用。