丁燕偉 吳夏艷
(首都師范大學(xué)出版社,北京100048)
大數(shù)據(jù)(Big Data),曾經(jīng)是互聯(lián)網(wǎng)信息技術(shù)行業(yè)的關(guān)鍵詞,如今已進(jìn)入人類視野。在技術(shù)革命和產(chǎn)業(yè)變革的背景下,大數(shù)據(jù)無論是作為戰(zhàn)略、工具還是資源,都具有巨大的變革力量,影響著許多行業(yè)和領(lǐng)域。出版業(yè)是文化和信息產(chǎn)業(yè)的重要組成部分,也不例外。大數(shù)據(jù)在出版過程中創(chuàng)造了整個循環(huán)結(jié)構(gòu),涵蓋了從主題策劃、內(nèi)部產(chǎn)品制作、制作策劃到營銷的各個環(huán)節(jié)。大數(shù)據(jù)不僅已經(jīng)滲透到出版業(yè)的整個功能領(lǐng)域,而且通過考察當(dāng)前出版物中大數(shù)據(jù)的使用,逐漸成為出版商提高生產(chǎn)力、創(chuàng)新能力和競爭力的重要保障。
過去對大數(shù)據(jù)(Big Data)并沒有統(tǒng)一的定義,一般的定義是:大數(shù)據(jù)或稱為海量數(shù)據(jù)、巨量數(shù)據(jù)和巨大資料。[1]是指數(shù)據(jù)的數(shù)量以及規(guī)模都宏大到無法被人類攔截、管理、處理和歸類為可讀信息的巨量數(shù)據(jù)。大數(shù)據(jù)具有四個主要特征:數(shù)據(jù)量大、數(shù)據(jù)類型多樣、處理速度快、價值密度低。在大數(shù)據(jù)時代,如此多的數(shù)據(jù)如何挖掘和使用方式影響了大數(shù)據(jù)技術(shù)的使用。大數(shù)據(jù)的使用可以很容易地分為大數(shù)據(jù)挖掘、大數(shù)據(jù)處理、大數(shù)據(jù)儲存與管理、大數(shù)據(jù)分析、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)應(yīng)用安全等,其中大數(shù)據(jù)分析最為重要。精準(zhǔn)的數(shù)據(jù)分析是數(shù)據(jù)應(yīng)用的基礎(chǔ),也是大數(shù)據(jù)實現(xiàn)本身價值、為用戶帶來利益的保障。從這個角度來看,關(guān)鍵的大數(shù)據(jù)技術(shù)包括云計算、分布式文件系統(tǒng)和并行計算架構(gòu)。
大數(shù)據(jù)來自云計算,與此息息相關(guān)。大數(shù)據(jù)為云計算提供分析內(nèi)容,云計算為大數(shù)據(jù)分析提供基礎(chǔ)設(shè)施。由于數(shù)據(jù)量在PB(1024TB=1PB)、EB(1024PB=1EB)甚至ZB(1024EB)中的升級,難免會產(chǎn)生大量重復(fù)或無效數(shù)據(jù),需要大量的計算能力和可擴(kuò)展的采集,云技術(shù)正好完全具備這些能力。[2]
分布式文件系統(tǒng)可以通過計算機(jī)網(wǎng)絡(luò)將物理資源連接到非本地節(jié)點,從而允許多個節(jié)點形成文件系統(tǒng)網(wǎng)絡(luò)。并行計算允許同時進(jìn)行多個計算。分布式文件系統(tǒng)和并行計算機(jī)數(shù)據(jù)庫是大數(shù)據(jù)時代的關(guān)鍵技術(shù),hadup結(jié)構(gòu)是典型的實現(xiàn)模型。
國內(nèi)外媒體將2013年稱為“大數(shù)據(jù)年”,大數(shù)據(jù)成為熱門話題。在此之前,有大量的與大數(shù)據(jù)相關(guān)的研究成果出現(xiàn),其中影響最大的是一本書、一份研究報告和一份政府發(fā)展規(guī)劃,分別出現(xiàn)在三個時間線,跨越30多年:首次出現(xiàn)在Alvin Toffler(美國未來學(xué)家)于1980年3月發(fā)表的著作《第三次浪潮》。[3]Toffler在書中描述了他對未來的預(yù)測和愿景,首次引用了大數(shù)據(jù),將大數(shù)據(jù)視為“第三次浪潮的多彩運動”。其次,2001年,“大數(shù)據(jù)”的概念首次出現(xiàn)在Gartner公司的一份研究報告中,定義了大數(shù)據(jù)大容量、多樣化和速度快的特點。[4]第三,2012年,奧巴馬政府發(fā)布了一項涉及6個聯(lián)邦機(jī)構(gòu)、投資2億美元的“大數(shù)據(jù)研發(fā)計劃”,首次將大數(shù)據(jù)發(fā)展提升到國家戰(zhàn)略層面。[5]
在中國,2013年以來大數(shù)據(jù)應(yīng)用的發(fā)展環(huán)境良好,大致可以分為三個階段:
第一階段:2013年——探索研究證明階段
2013 年,一些研究對大規(guī)模數(shù)據(jù)處理技術(shù)的重要性及其實施提供了理論解釋。例如,2013年7月,在第五屆中國數(shù)字出版物展覽會上發(fā)布了2012—2013年中國數(shù)字出版物年度報告。報告首次對數(shù)字出版物進(jìn)行了大量數(shù)據(jù)分析和挖掘,是數(shù)字出版物的發(fā)展趨勢之一。
第二階段:2014年——真正意義上的實施階段
2014年,我國出臺大數(shù)據(jù)政策措施。工業(yè)和信息化部、國家發(fā)展改革委、科技部、財政部等政府部門支持發(fā)展資金和發(fā)展規(guī)劃。各級政府在大型信息項目、研究項目和技術(shù)傳播方面也發(fā)揮著重要作用。成立中關(guān)村大數(shù)據(jù)交易產(chǎn)業(yè)聯(lián)盟,開始在全國各區(qū)省市建立大數(shù)據(jù)庫。 《關(guān)于加快培育大數(shù)據(jù)產(chǎn)業(yè)集群推動產(chǎn)業(yè)轉(zhuǎn)型升級的意見》的出臺,為國內(nèi)大規(guī)模數(shù)據(jù)交易的管控提供了標(biāo)準(zhǔn)。
第三階段,2015年至今——國家戰(zhàn)略規(guī)劃階段
在國家戰(zhàn)略發(fā)展層面推動大數(shù)據(jù)發(fā)展始于2015年。2015年,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》(以下簡稱《綱要》)。[6]《綱要》將數(shù)據(jù)作為國家的主要戰(zhàn)略資源,加快大數(shù)據(jù)的引入和深化是必然要求和必然選擇。
對傳統(tǒng)出版流程最常見的描述是“作者—出版商—讀者”。作者是主體,讀者是終端,出版商是中間過程。版權(quán)和訂單是絕對中心,讀者只是內(nèi)容的接收者。這種開放式線性結(jié)構(gòu)的最大缺點是將需求與生產(chǎn)劃分為兩個不同的主體,經(jīng)驗成為重要依據(jù),論證聯(lián)系缺乏必要的科學(xué)性。
大數(shù)據(jù)在出版過程中最大的應(yīng)用是創(chuàng)建一個“讀者—出版商—作者—讀者”的閉環(huán)結(jié)構(gòu)。讀者既是起點又是終點,既是內(nèi)容生產(chǎn)參與者也是內(nèi)容消費者,是新媒體時代以受眾為中心理論的典型詮釋,這個出版過程體現(xiàn)了大數(shù)據(jù)思維下的出版理念。這個概念和實踐始于電子商務(wù),其中最具代表性的是國外的亞馬遜和中國的京東。在收集和分析用戶行為數(shù)據(jù)(包括搜索、查看、購買、投票等)時,生產(chǎn)和需求的直接聯(lián)系也保證了利潤最大化。
大數(shù)據(jù)首先有助于主題選擇和策劃,這在涉及出版的新媒體公司中尤為重要。這些公司大多擁有強(qiáng)大的網(wǎng)絡(luò)數(shù)據(jù),在收集、分析和使用與傳統(tǒng)出版物相關(guān)的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)方面具有優(yōu)勢。可以隨時通過社交平臺和電子商務(wù)平臺記錄用戶行為,快速準(zhǔn)確地反映特定領(lǐng)域的社會熱點和趨勢,為規(guī)劃問題提出重要建議。近年來,許多暢銷書的成功都是基于將大量數(shù)據(jù)納入選題規(guī)劃。在中國最具代表性的是《大衛(wèi)·貝克漢姆》,由自營電子商務(wù)公司京東于2014年基于對1700萬網(wǎng)站用戶的分析而推出。[7]
在創(chuàng)作內(nèi)容的過程中,大量的數(shù)據(jù)是決定作者是否應(yīng)該如何表達(dá)作品的內(nèi)容或歷史發(fā)展方向的最佳框架。電子出版公司 Colliloquy 在這方面取得了成功。 Coliloquy 使用 Amazon Kindle 創(chuàng)建交互式內(nèi)容,允許讀者使用“選擇你的冒險”模型創(chuàng)建角色和情節(jié)。收集讀者選擇創(chuàng)建的數(shù)據(jù),然后發(fā)送給作者修改腳本,《饑餓游戲》正是基于這種想法的實踐。
排版制作主要包括內(nèi)容審核、編輯、修正、排版等。近年來,基于XML數(shù)據(jù)處理標(biāo)準(zhǔn)的數(shù)字生產(chǎn)平臺已經(jīng)在互聯(lián)網(wǎng)環(huán)境中得到應(yīng)用。包括用于多用途遠(yuǎn)程編輯協(xié)作的多用戶在線編輯平臺,為作者、讀者、編輯、出版商等多種角色的實時交流和編輯應(yīng)用程序提供機(jī)會。另外,生產(chǎn)過程中的成品數(shù)據(jù)和碎片化數(shù)據(jù)可以同時存儲,便于內(nèi)容的跟蹤和提取。在編輯過程中,數(shù)字標(biāo)注工具可以根據(jù)常用的預(yù)定義修正符號對稿件進(jìn)行電子標(biāo)注。海量數(shù)據(jù)庫確保內(nèi)容可以找到自定義出版樣式,自動排版,鏈接不同模板,創(chuàng)建不同版本。基于大量數(shù)據(jù)的編輯不僅提高了編輯效率,還提高了最終產(chǎn)品的質(zhì)量。
所謂精準(zhǔn)營銷,就是要“降低營銷成本,提高營銷效果”,把產(chǎn)品送到真正需要的用戶手中。通過使用廣泛的信息技術(shù)進(jìn)行營銷,出版商和媒體不僅可以深化客戶數(shù)據(jù),還可以利用社交網(wǎng)絡(luò)等多種平臺來維持個人和互動聯(lián)系,并增加或提高用戶忠誠度。分析社交網(wǎng)絡(luò)用戶圈子,實施有針對性的營銷活動。
亞馬遜在營銷數(shù)據(jù)方面做得很好。亞馬遜用個性化數(shù)據(jù)驅(qū)動的推薦系統(tǒng)取代了之前的專家推薦系統(tǒng),從而促進(jìn)了銷售。系統(tǒng)通過分析消費信息(例如買書、關(guān)注書籍等)向讀者推薦書籍。除了推薦的定制系統(tǒng),亞馬遜也進(jìn)入了營銷和數(shù)據(jù)傳遞的重要階段。實體預(yù)定分布利用大數(shù)據(jù)技術(shù)深入分析過往消費支出、搜索歷史列表、客戶購買新產(chǎn)品的預(yù)測、產(chǎn)品是否準(zhǔn)備交付給客戶或在指導(dǎo)前靠近客戶存儲,客戶下單時,收到貨物的時間是以“小時”而不是“天”來衡量的。交付模式中的沉默可以部分提高客戶忠誠度,提高亞馬遜在客戶中的聲譽(yù)。
總的來說,大數(shù)據(jù)在出版行業(yè)的應(yīng)用還處于起步階段,有很多問題需要探索和檢驗。本土媒體企業(yè)最重要的是盡快進(jìn)行數(shù)字化轉(zhuǎn)型,結(jié)合自身實際,開發(fā)大數(shù)據(jù)應(yīng)用,利用大數(shù)據(jù)推動業(yè)務(wù)流程轉(zhuǎn)型和商業(yè)模式創(chuàng)新。
大數(shù)據(jù)和分析方法的使用,旨在為數(shù)據(jù)分析尋找原理、發(fā)現(xiàn)規(guī)則、預(yù)測應(yīng)用,專題出版就是其中的一種應(yīng)用。谷歌圖書館數(shù)據(jù)庫收集了從公元時期—— 20 世紀(jì)至今出版的相關(guān)數(shù)據(jù),通過分析各個學(xué)科的數(shù)據(jù),尤其是對高頻話題進(jìn)行提取和分類,具有重要的商業(yè)意義。處于討論熱度最高的“Coliloquy模式”,核心也是專題出版,Coliloquy 使用亞馬遜Kindle數(shù)據(jù)開發(fā)者項目開發(fā)軟件,收集用戶數(shù)據(jù),特別是用戶反復(fù)突出和分析的內(nèi)容,分析和提取話題,確定青春、浪漫和科幻的出版方向,并公開招募作家加入團(tuán)隊,最近又添加了犯罪和法律驚悚主題的版本小說。 90% 的讀者讀過這本書(通常為 2.99 美元到 7.99 美元),67% 的讀者重復(fù)讀過?!癈oliloquy模式”的成功基于對已發(fā)表數(shù)據(jù)的分析主題的定位。[8]
可視化技術(shù)最早應(yīng)用于計算機(jī)領(lǐng)域,它利用計算機(jī)圖形和圖像處理技術(shù)將數(shù)據(jù)轉(zhuǎn)換成圖形、音頻和視頻或動畫與機(jī)器進(jìn)行交互。它是一種結(jié)合數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)處理和決策分析的技術(shù)。 閱讀體驗是評價當(dāng)前出版物的重要指標(biāo),基于大數(shù)據(jù)交互的可視化,不僅可以更直觀、更簡化各種抽象復(fù)雜的知識,在很大程度上消除人們的閱讀障礙,提供高效便捷的閱讀,還可以實現(xiàn)數(shù)據(jù)在多空間的同時展示,為人們帶來3D的閱讀體驗。視覺出版是出版業(yè)的最新模式,將對出版業(yè)的發(fā)展產(chǎn)生革命性的影響。目前,該模型適用于兒童和科技技術(shù)的出版物,出版方向為平面與定型、靜態(tài)與動態(tài)相結(jié)合的方向。
Web2.0 時期最大的成就之一是維基百科的誕生,這是維基百科技術(shù)在實踐中最成功的應(yīng)用。在同一個開放的數(shù)據(jù)平臺上,用戶從不同的角度解讀相同的事件或觀點,個人解讀的需求是新媒體受眾的一個關(guān)鍵特征。這種想法和實踐催生了一種新的出版模式——交互式出版。Storybird 的“數(shù)字歷史”創(chuàng)建服務(wù)平臺就是一個很好的示范。 Storybird 是一個基于視覺敘事的公共平臺。提供來自世界各地的免費插圖,鼓勵讀者選擇有趣的圖像并以書面形式分享,從而為原創(chuàng)書籍和出版物提供了大量服務(wù)。插圖的個人解讀是內(nèi)容互動的延續(xù),讀者的靈感與體驗的融合,使每個版本都極其獨特且具有自己的歸屬。 Storybird 在全球擁有超過 200 萬用戶,自成立以來的兩年內(nèi)創(chuàng)造了 500 萬個故事。通過線上或線下出版,它提供了一種新的思維方式和新的出版方式。
在傳統(tǒng)媒體的轉(zhuǎn)型發(fā)展中,數(shù)字化是方向,戰(zhàn)略合作是方法。創(chuàng)建數(shù)字內(nèi)容和專業(yè)數(shù)據(jù)庫(尤其是海量數(shù)據(jù))是跨社區(qū)、跨社會、跨行、跨界合作的必然趨勢和要求。[9]“農(nóng)業(yè)數(shù)字圖書館”采用基于共享數(shù)據(jù)的公開公共模式。農(nóng)業(yè)數(shù)字圖書館是多省共同開發(fā)的出版項目。在9省聯(lián)合平臺南昌會議上,達(dá)成了1600多種農(nóng)業(yè)圖書電子版權(quán)合作協(xié)議,統(tǒng)一授權(quán)中原農(nóng)民出版社、江蘇鳳凰三農(nóng)出版中心 ,300種農(nóng)業(yè)圖書資源庫以端口開放形式給予支持,聯(lián)合建設(shè)《農(nóng)業(yè)數(shù)字圖書館》。第一個項目2000本農(nóng)業(yè)圖書,匯集9省中部資源,第二個項目將擴(kuò)展到全國農(nóng)業(yè)出版機(jī)構(gòu)。這種基于數(shù)據(jù)交換的數(shù)據(jù)共享和橫向發(fā)布模式,減少了參考鏈接的重復(fù)工作,并允許內(nèi)容再生性、多樣性和資源完整性,提高數(shù)據(jù)發(fā)布質(zhì)量。
2013年,阿里巴巴重組了25個業(yè)務(wù)部門,以收購的方式獲取相關(guān)產(chǎn)業(yè)以及行業(yè)的數(shù)據(jù),豐富阿里巴巴強(qiáng)大的數(shù)據(jù)庫。2014年,在北京的一次大型信息發(fā)布會上,阿里巴巴集團(tuán)創(chuàng)始人在演講中宣布,人類正在從IT時代向DT時代過渡。阿里巴巴贏得了大量的數(shù)據(jù)紅利,用數(shù)據(jù)獲得利益是未來的關(guān)鍵因素。 2015年杭州云棲大會上宣布DT時代是新能源時代。 “這一時期的主要來源不是石油,而是數(shù)據(jù)?!痹?2016 年云棲大會結(jié)束時,馬云重申,“未來的趨勢不僅是知識驅(qū)動的,還有智能和數(shù)據(jù)驅(qū)動的?!?“基于互聯(lián)網(wǎng)和海量數(shù)據(jù)技術(shù)的未來,它為人類創(chuàng)造了無數(shù)的想象和空間?!彪m然大多數(shù)出版公司沒有豐富的信息資源、先進(jìn)的技術(shù)和足夠的資源,但它們應(yīng)該擁有大數(shù)據(jù)才能控制出版發(fā)展的思想。當(dāng)然,大數(shù)據(jù)技術(shù)在出版行業(yè)的應(yīng)用還處于起步階段,還有很多問題需要探索和檢驗。但它的價值和重要性為出版業(yè)的發(fā)展提供了無限的想象空間。