楊 丹
云南漫畫派對雜志社有限公司
大數(shù)據(jù)在當下出版中的應用研究
楊 丹
云南漫畫派對雜志社有限公司
當前,隨著科學技術的發(fā)展,大數(shù)據(jù)技術應用到了各個方面。對于出版行業(yè)而言,大數(shù)據(jù)在出版流程中打造了環(huán)形閉合式結構,貫穿從選題策劃、內容生產(chǎn)、編排制作到營銷推廣的所有環(huán)節(jié)。因此,對于國內出版?zhèn)髅狡髽I(yè)要盡快實現(xiàn)數(shù)字化轉型,要結合自身實際做好大數(shù)據(jù)應用規(guī)劃,借助大數(shù)據(jù)來推動企業(yè)流程的變革和業(yè)務模式的創(chuàng)新。基于此,文章就大數(shù)據(jù)在當下出版中的應用進行簡要的分析,希望可以提供一個借鑒。
大數(shù)據(jù);出版;應用
目前對于大數(shù)據(jù)(Bigdata)并無統(tǒng)一的定義,互聯(lián)網(wǎng)上對其普遍定義為:大數(shù)據(jù)或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內截取、管理、處理,并整理成為人類所能解讀的信息。大數(shù)據(jù)有四大主要特點,可以歸納為4個V,包括Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價值密度低)。
在大數(shù)據(jù)時代,如何挖掘和深入利用如此多的數(shù)據(jù),這就涉及大數(shù)據(jù)技術的運用。大數(shù)據(jù)的利用過程可以簡單地分為大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析、大數(shù)據(jù)應用、大數(shù)據(jù)安全等幾個方面,其中最重要的莫過于大數(shù)據(jù)的分析。準確的數(shù)據(jù)分析是數(shù)據(jù)應用前提,也是大數(shù)據(jù)得以實現(xiàn)其價值,為使用者帶來利益的保證。從這個角度說,大數(shù)據(jù)主要涉及的技術包括云技術、分布式文件系統(tǒng)和并行計算框架。
大數(shù)據(jù)和云技術是相輔相成、息息相關的。大數(shù)據(jù)為云計算提供可資分析的信息內容,云計算為大數(shù)據(jù)提供基礎架構,以實現(xiàn)數(shù)據(jù)的分析。隨著數(shù)據(jù)量躍升到PB(1024TB=1PB)、EB(1024PB=1EB),甚至ZB(1024EB=1ZB)級別,大量的重復信息或無效信息也必然產(chǎn)生,需要強大的計算能力和可擴展的存儲空間對此進行收集和過濾,云技術無疑具備這種能力。
分布式文件系統(tǒng)可以將非本地節(jié)點上的物理儲存資源,通過計算機網(wǎng)絡連接起來,使得眾多的節(jié)點組成一個文件系統(tǒng)網(wǎng)絡。并行計算則可以一次性執(zhí)行多個計算。分布式文件系統(tǒng)和并行計算框架都是大數(shù)據(jù)時代的關鍵性技術,Hadoop框架是目前較有代表性的實現(xiàn)模式。
2.1 基于大數(shù)據(jù)的選題策劃
大數(shù)據(jù)首先助力選題策劃。這在當下涉足出版的新媒體企業(yè)中,尤其突出。這些企業(yè)大多具有強大的互聯(lián)網(wǎng)基因,其對結構化、半結構化和非結構化數(shù)據(jù)的采集、分析和應用,相對傳統(tǒng)出版單位,具有天然的資源優(yōu)勢和技術優(yōu)勢,尤其是能通過所擁有的社交平臺和電商平臺記錄的用戶行為數(shù)據(jù),快速準確地捕捉到社會熱點以及某個領域的流行趨勢等,以此作為選題策劃的重要參考。近年來,很多暢銷書的成功打造,就是基于大數(shù)據(jù)對選題策劃的介入,在國內最具代表性的就是2014年自營式電商企業(yè)京東基于1700萬網(wǎng)站用戶數(shù)據(jù)分析而推出的《大衛(wèi)·貝克漢姆》。
2.2 基于大數(shù)據(jù)的內容生產(chǎn)
在內容生產(chǎn)環(huán)節(jié),不管是選擇作者還是確定作品內容的表述方式、故事情節(jié)的發(fā)展走向,大數(shù)據(jù)都是決策時最好的依據(jù),電子出版公司Coliloquy曾在這方面做過成功的嘗試。Coliloquy借助亞馬遜的Kindle創(chuàng)建互動內容,通過“選擇你自己的歷險經(jīng)歷”的模式,允許讀者進行人物角色和情節(jié)線索的設計,并對讀者選擇后所產(chǎn)生的數(shù)據(jù)進行匯總,再把數(shù)據(jù)分析結果發(fā)給作家,以此來調整故事線索,《饑餓游戲》(《TheHungerGames》)的暢銷就是基于這樣的理念和實踐。
2.3 基于大數(shù)據(jù)的編排制作
編排制作主要包括內容審核、編輯、校對、排版等環(huán)節(jié),效率和質量是重點。近年來,基于XML結構化數(shù)據(jù)標準構建的互聯(lián)網(wǎng)環(huán)境下的數(shù)字化生產(chǎn)加工平臺得到應用,其中多人異地協(xié)同在線編纂平臺為作者、讀者、編輯、出版方等不同角色的實時交流和共同編纂提供可能,不僅能自動記錄所有的過程版本,而且能使成品數(shù)據(jù)和生產(chǎn)過程中的碎片化數(shù)據(jù)同時入庫,易于內容追溯和提取。在編輯過程中,數(shù)字批注工具基于預先定義好的常用校對符號,能對稿件進行電子化審讀和標注;大量的數(shù)據(jù)庫能確保內容找到與之匹配的排版樣式,自動排版,并和不同的模板結合,最終生成各種形態(tài)的出版物。基于大數(shù)據(jù)的編排制作,不僅提高了編輯工作的效率,也保障了成品的質量。
2.4 基于大數(shù)據(jù)的精準營銷
所謂精準營銷就是將出版產(chǎn)品以“最小化營銷成本、最大化營銷效果”準確地推送給有確實需求的用戶。利用大數(shù)據(jù)技術進行營銷時,出版?zhèn)髅狡髽I(yè)既可以深度挖掘客戶信息,實現(xiàn)精準投放,也可以利用社交網(wǎng)等各種平臺保持與用戶的個性化互動式溝通來提高用戶的忠實度,或通過對社交網(wǎng)絡中用戶圈子的分析來實現(xiàn)有針對性的營銷活動。
在大數(shù)據(jù)營銷方面,亞馬遜做得非常出色。亞馬遜利用基于大數(shù)據(jù)的個性化推薦系統(tǒng)替代先前的專家推薦系統(tǒng),大大提高了銷售量。系統(tǒng)通過分析客戶消費信息(如購買什么書、關注什么書等)來準確地給讀者推薦圖書。除個性化推薦系統(tǒng)外,亞馬遜在大數(shù)據(jù)營銷方面又進入了一個更高階段——預判發(fā)貨。預判發(fā)貨的核心是利用大數(shù)據(jù)技術深度分析顧客以前的消費記錄、搜索記錄以及心愿單等信息來預判顧客對新商品的購買意愿,并在未下單前直接將商品郵寄給顧客或離顧客較近的倉庫,這樣顧客一旦下單,收貨時間就將以“小時”計,而不是以“天”計。預判發(fā)貨模式在某種程度上可提升顧客的忠誠度,提升亞馬遜在高端客戶中的口碑。
總而言之,大數(shù)據(jù)目前在出版中的應用仍然處于起步階段,還有很多需要深入研究和探討的問題。對國內出版?zhèn)髅狡髽I(yè)來說,當前首先要盡快實現(xiàn)數(shù)字化轉型,并結合自身實際做好大數(shù)據(jù)應用規(guī)劃,借助大數(shù)據(jù)來推動企業(yè)流程的變革和業(yè)務模式的創(chuàng)新。
[1]劉鯤翔,杜麗娟,丁雪.大數(shù)據(jù)技術在數(shù)字出版中的應用前景展望[J].出版發(fā)行研究,2013,04:9-11.
[2]祝興平.大數(shù)據(jù)分析技術及其在數(shù)字出版中的應用[J].出版發(fā)行研究,2014,04:13-16.
[3]梁瑩.大數(shù)據(jù)分析在出版中的應用與展望[J].出版廣角,2015,02:15-17.