陳尼佳
摘要:分析了大數(shù)據(jù)時(shí)代對出版業(yè)的挑戰(zhàn):第一,出版業(yè)需將“數(shù)字化”進(jìn)行到底;第二,出版業(yè)需明白誰掌握了數(shù)據(jù);第三,大數(shù)據(jù)挑戰(zhàn)出版機(jī)構(gòu)對數(shù)據(jù)的采集、挖掘、分析與整合能力;第四,大數(shù)據(jù)將考驗(yàn)出版業(yè)數(shù)據(jù)分析、數(shù)據(jù)管理體系。進(jìn)而分析了大數(shù)據(jù)時(shí)代的數(shù)字出版發(fā)展趨勢:第一,和互聯(lián)網(wǎng)、大數(shù)據(jù)產(chǎn)業(yè)的融合;第二,數(shù)字出版產(chǎn)業(yè)鏈整合;第三,出版商將逐漸向信息和知識服務(wù)商轉(zhuǎn)變;第四,數(shù)字出版向“數(shù)據(jù)”出版轉(zhuǎn)變。
關(guān)鍵詞:大數(shù)據(jù);出版業(yè);數(shù)字出版;發(fā)展趨勢
中圖分類號:F2文獻(xiàn)標(biāo)識碼:A文章編號:16723198(2015)17001202
1大數(shù)據(jù)概述
1.1大數(shù)據(jù)的定義
維基百科上對大數(shù)據(jù)的解釋是被廣泛提及的一種解釋:“大數(shù)據(jù)是無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合?!备鶕?jù)人們的通常的認(rèn)知,信息是數(shù)據(jù)的載體,所以在大數(shù)據(jù)的實(shí)際運(yùn)用當(dāng)中,人們的最終目的就是利用大數(shù)據(jù)進(jìn)行更完美的決策。因此,大數(shù)據(jù)可以在政府政策制訂、社會輿情監(jiān)測、商業(yè)營銷等領(lǐng)域的決策得以廣泛運(yùn)用。
1.2大數(shù)據(jù)的特征
通常情況下,大數(shù)據(jù)的特點(diǎn)可以被歸納為4個(gè)V。即數(shù)量大(Volume Big)、類型多樣(Variable Type)、實(shí)現(xiàn)快速(Velocity Fast)和價(jià)值高但密度低(Value High and Low Density)。
一是數(shù)據(jù)體量巨大(Volume)。目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB)、全人類說過的所有的話的數(shù)據(jù)量大約達(dá)到了5EB(1EB=210PB),一臺典型的個(gè)人計(jì)算機(jī)硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。
二是數(shù)據(jù)類型繁多(Variety)。這些多樣化的數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩種。以文本為主的這類便于儲存的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),其余像網(wǎng)絡(luò)日志、音頻、視頻、圖片等則被歸為結(jié)構(gòu)化數(shù)據(jù)。這些年,相比于結(jié)構(gòu)化數(shù)據(jù)而言,非結(jié)構(gòu)化數(shù)據(jù)越來越多。這樣多類型的數(shù)據(jù)將對數(shù)據(jù)處理能力提出更加嚴(yán)格和高要求的挑戰(zhàn)。
三是價(jià)值密度低(Value)。往往數(shù)據(jù)總量的高低與價(jià)值密度的高低是不成正比反而成反比的。以一部1個(gè)小時(shí)的視頻為例,在連續(xù)不斷的1個(gè)小時(shí)的監(jiān)控中,對我們有用的數(shù)據(jù)可能僅僅有幾秒。如何在這個(gè)種類繁雜、數(shù)量龐大的數(shù)據(jù)中迅速的提取對于自己有用的信息是一個(gè)亟待解決的問題。
四是處理速度快(Velocity)。處理速度快是大數(shù)據(jù)有區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的最顯著的特征之一。根據(jù)IDC的“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB。在如此龐大的數(shù)據(jù)量面前,是否能迅速的處理這些海量的數(shù)據(jù)的效率關(guān)乎到企業(yè)的生命。
1.3大數(shù)據(jù)時(shí)代的來臨
毋庸置疑,我們正處在一個(gè)大數(shù)據(jù)的時(shí)代。大數(shù)據(jù)已經(jīng)逐漸成為人們現(xiàn)代生活當(dāng)中不可缺少的社會基礎(chǔ)建設(shè)的一部分。大數(shù)據(jù)時(shí)代的經(jīng)濟(jì)學(xué)、政治學(xué)、社會學(xué)和許多科學(xué)門類都會發(fā)生巨大甚至是本質(zhì)上的變化和發(fā)展,進(jìn)而影響人類的價(jià)值體系、知識體系和生活方式。
多個(gè)領(lǐng)域都在積極的運(yùn)用大數(shù)據(jù)來進(jìn)行決策。在制造行業(yè)中,企業(yè)通過收集網(wǎng)上的眾多數(shù)據(jù)來進(jìn)行大數(shù)據(jù)分析,了解客戶的實(shí)際需求和掌握市場動向,就可以做出合理有效的決策來對庫存量和采購進(jìn)行科學(xué)的管理和決策,有效的減少了因盲目進(jìn)貨而導(dǎo)致的損失。而在商業(yè)上,國外的一些超市通過定位系統(tǒng)對顧客的手機(jī)和購物推車進(jìn)行定位獲得商場內(nèi)顧客在各處的停留時(shí)間,然后再利用視頻監(jiān)視系統(tǒng)對監(jiān)控圖像進(jìn)行分析來了解顧客的購物行為,進(jìn)而優(yōu)化商場的布局和貨物的排列,提高銷售利潤。大數(shù)據(jù)也被利用在政府決策上,比如分析本地近幾十年的天氣數(shù)據(jù),將氣溫、降水量、土壤情況和每年農(nóng)作物產(chǎn)量做成圖表,就可以大概估計(jì)出農(nóng)產(chǎn)品生產(chǎn)趨勢,政府就可以根據(jù)分析和預(yù)測做出行之有效的預(yù)防措施、農(nóng)業(yè)政策等。
比如,洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測犯罪的發(fā)生。Google流感趨勢(Google Flu Trends)利用搜索關(guān)鍵詞預(yù)測禽流感的散布。統(tǒng)計(jì)學(xué)家內(nèi)特.西爾弗(Nate Silver)利用大數(shù)據(jù)預(yù)測2012美國選舉結(jié)果。麻省理工學(xué)院利用手機(jī)定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。梅西百貨根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達(dá)7300萬種貨品進(jìn)行實(shí)時(shí)調(diào)價(jià)。
大數(shù)據(jù)影響了我們的生活和熟悉的行業(yè),因此出版產(chǎn)業(yè)必然也會其他產(chǎn)業(yè)一樣受到大數(shù)據(jù)技術(shù)發(fā)展帶來的挑戰(zhàn)和發(fā)展。
2大數(shù)據(jù)應(yīng)用給出版業(yè)帶來的挑戰(zhàn)
2.1出版業(yè)需將“數(shù)字化”進(jìn)行到底
目前,出版業(yè)還處在傳統(tǒng)出版向數(shù)字化轉(zhuǎn)型的階段,也就是說傳統(tǒng)出版業(yè)數(shù)字化轉(zhuǎn)型還尚未完成,又即將迎來“大數(shù)據(jù)時(shí)代”。但數(shù)字化僅僅是大數(shù)據(jù)的一個(gè)前提和基礎(chǔ),數(shù)字化不等于大數(shù)據(jù)。要想進(jìn)行大數(shù)據(jù)分析,必須先將不同形式的復(fù)雜數(shù)據(jù)處理成為計(jì)算機(jī)可以計(jì)算、處理的數(shù)字?jǐn)?shù)據(jù)。所以,要迎接出版行業(yè)“大數(shù)據(jù)時(shí)代”的來臨,就必須加快傳統(tǒng)出版業(yè)向數(shù)字化轉(zhuǎn)型。
2.2出版業(yè)必須明白是誰在掌握著數(shù)據(jù)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)成為寶貴的財(cái)富,然而如果要利用大數(shù)據(jù),出版業(yè)應(yīng)該搞明白的事情是誰擁有著大數(shù)據(jù)。必須要取得搜索引擎(如百度)、社交網(wǎng)站、網(wǎng)絡(luò)小說網(wǎng)站、電子書閱讀器公司等擁有著與出版行業(yè)相關(guān)聯(lián)的數(shù)據(jù)的公司或組織的授權(quán),合理合法的取得所需數(shù)據(jù),然后才可以進(jìn)行數(shù)據(jù)分析,獲得使用價(jià)值。但是因?yàn)閿?shù)據(jù)作為一種資產(chǎn)而言其本身的價(jià)值是難以具體衡量的,因此在取得這些數(shù)據(jù)的過程中可能會面臨的多重的挑戰(zhàn)和困難,這種多方博弈可能會有著更多的不確定性。而某些在出版產(chǎn)業(yè)鏈上已經(jīng)實(shí)現(xiàn)縱向一體化的公司可能會出于自身利益考慮或其他原因,不向出版社提供數(shù)據(jù)使用權(quán)。例如,擁有電子閱讀器Kindle的亞馬遜就沒有把用戶數(shù)據(jù)信息賣給出版社或作者。
2.3大數(shù)據(jù)挑戰(zhàn)出版機(jī)構(gòu)對數(shù)據(jù)的采集、挖掘、分析與整合能力
出版行業(yè)獲得的信息和知識可以用于兩個(gè)方面,一是可以用來傳遞給公眾,二是可以用于出版機(jī)構(gòu)本身的預(yù)測、策劃等環(huán)節(jié)。數(shù)據(jù)僅僅是一種符號,只有經(jīng)過解釋、處理和分析的數(shù)據(jù)具有意義,成為信息。而知識是人類對客觀世界的認(rèn)知成果,是從信息里提煉、加工出來的。因此想要獲得更加完善的信息和知識,大數(shù)據(jù)時(shí)代將考驗(yàn)出版機(jī)構(gòu)對于數(shù)據(jù)的采集、挖掘、分析和整合的能力。
2.4大數(shù)據(jù)將考驗(yàn)出版業(yè)自身數(shù)據(jù)分析、數(shù)據(jù)管理體系
對于微觀出版組織而言,大數(shù)據(jù)時(shí)代不僅考驗(yàn)著出版機(jī)構(gòu)是否有能力收集有效數(shù)據(jù),優(yōu)化分析方法,也考驗(yàn)著出版機(jī)構(gòu)是否可以更好的將大數(shù)據(jù)嵌入到版權(quán)購買、產(chǎn)品營銷和用戶溝通等多方面的出版運(yùn)作流程中,使之真正成為一種經(jīng)營資產(chǎn)和管理要素。對于政府管理與公共服務(wù)體系建設(shè)層面而言,出版業(yè)能否將行業(yè)內(nèi)的數(shù)據(jù)管理工作全面覆蓋,能否完善數(shù)據(jù)監(jiān)測、管理系統(tǒng),能否健全數(shù)據(jù)信息公開制度、使數(shù)據(jù)信息更加透明、科學(xué)、全面、合法也是挑戰(zhàn)之一。
3大數(shù)據(jù)背景下數(shù)字出版的發(fā)展趨勢
3.1數(shù)字出版和互聯(lián)網(wǎng)的融合
數(shù)字出版是建立在計(jì)算機(jī)、通訊、網(wǎng)絡(luò)、存儲、顯示等高新技術(shù)基礎(chǔ)上,融合并超越了傳統(tǒng)出版內(nèi)容而發(fā)展起來的新興出版產(chǎn)業(yè),數(shù)字出版的前提是數(shù)字化,而大數(shù)據(jù)的本質(zhì)是更加廣泛、深入的數(shù)字化,以及全社會范圍內(nèi)的數(shù)據(jù)互聯(lián)互通。大數(shù)據(jù)時(shí)代的“從數(shù)字化到數(shù)據(jù)化”——深度信息化轉(zhuǎn)型任務(wù):從內(nèi)容數(shù)字化到內(nèi)容數(shù)據(jù)化、從數(shù)字化閱讀到閱讀數(shù)據(jù)化、從數(shù)字化服務(wù)到服務(wù)數(shù)據(jù)化、從管理信息化到管理數(shù)據(jù)化后將繁雜數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以分析的數(shù)據(jù),從而使得數(shù)字出版利用互聯(lián)網(wǎng)獲得大量數(shù)據(jù),再通過大數(shù)據(jù)技術(shù)分析這些技術(shù)從而獲得長遠(yuǎn)發(fā)展得以實(shí)現(xiàn)。所以數(shù)字出版發(fā)展的第一個(gè)趨勢就是和互聯(lián)網(wǎng)的融合。
3.2數(shù)字出版產(chǎn)業(yè)鏈整合
隨著大數(shù)據(jù)及時(shí)的發(fā)展原先制約著數(shù)字出版產(chǎn)業(yè)鏈整合的一些問題,比如說數(shù)字出版產(chǎn)業(yè)鏈中內(nèi)容提供方具有版權(quán)優(yōu)勢、技術(shù)提供方具有技術(shù)優(yōu)勢、網(wǎng)絡(luò)服務(wù)方具有渠道優(yōu)勢,但是數(shù)字出版產(chǎn)業(yè)鏈缺乏整體統(tǒng)一的信息協(xié)作平臺導(dǎo)致信息不能共享等問題將會逐步解決。大數(shù)據(jù)技術(shù)建立的“信息共享”將使得信息的共享得以實(shí)現(xiàn)。大數(shù)據(jù)技術(shù)讓數(shù)字出版產(chǎn)業(yè)有能力去整合優(yōu)質(zhì)資源、順應(yīng)時(shí)間、內(nèi)容“碎片化”趨勢,可以分析讀者或消費(fèi)者的個(gè)性化需求,并且做到“定制”這些數(shù)字內(nèi)容產(chǎn)品、服務(wù)和信息。使得數(shù)字出版走向內(nèi)容、技術(shù)以及終端無縫對接才能準(zhǔn)確的適應(yīng)潮流,從而促進(jìn)了數(shù)字出版產(chǎn)業(yè)的產(chǎn)業(yè)鏈整合。
3.3在大數(shù)據(jù)時(shí)代,出版商將逐漸向信息和知識服務(wù)商轉(zhuǎn)變
受到大數(shù)據(jù)的影響,數(shù)字出版無論從生產(chǎn)模式還是內(nèi)容上都會有所改變。在生產(chǎn)模式方面,數(shù)字出版將改變以往的以書、文獻(xiàn)等為基本單位的生產(chǎn)方式,轉(zhuǎn)而形成以知識、信息為基本單位的單位的細(xì)致分析數(shù)據(jù)化的生產(chǎn)模式。而在內(nèi)容上,數(shù)字出版可以通過對于數(shù)據(jù)的分析而詳細(xì)、深入的了解到讀者的需求,將已有的知識與信息和讀者所需要的知識與信息緊密結(jié)合起來。作者可以知道讀者需求,與讀者直接交流。大數(shù)據(jù)將推動整個(gè)數(shù)字出版產(chǎn)業(yè)向信息和知識服務(wù)商逐漸轉(zhuǎn)變。
3.4數(shù)字出版向“數(shù)據(jù)”出版轉(zhuǎn)變
大數(shù)據(jù)可以有效幫助出版社解決很多問題,為讀者提供更為專業(yè)的服務(wù)。很多時(shí)候,出版者并不是研究人員,所以在面對內(nèi)容中很多需要專業(yè)知識來解答的問題時(shí),往往是難以確定,甚至不知所措。但是如果出版機(jī)構(gòu)具備分析大量用于數(shù)據(jù)的能力,在數(shù)據(jù)的收集、整理和分析處理上的能力有所提升,大數(shù)據(jù)就可以幫助這個(gè)在傳統(tǒng)出版方式下出版者和作者沒辦法解決的難題。因?yàn)檫@個(gè)方法需要通過大數(shù)據(jù)將海量資料提供給人們作為研究的素材,為深入的研究提供工具,詳細(xì)的做法是,出版者利用大數(shù)據(jù)進(jìn)行二次研究。比如建立統(tǒng)計(jì)數(shù)據(jù)庫,并且研究如何將它做成大數(shù)據(jù)產(chǎn)品,為特定的問題設(shè)定特定的數(shù)據(jù)指標(biāo),以求找到問題的答案。因此在大數(shù)據(jù)時(shí)代,數(shù)字出版向“數(shù)據(jù)”出版轉(zhuǎn)變也是一種趨勢。
參考文獻(xiàn)
[1]孫玉玲.大數(shù)據(jù)時(shí)代數(shù)字出版產(chǎn)業(yè)的發(fā)展趨勢[J].出版發(fā)行研究,2010,(4).
[2]維克多·邁爾-舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州.浙江人民出版社,2010.
[3]李彪,陳璐瑤.大數(shù)據(jù)時(shí)代傳統(tǒng)出版業(yè)的對策和路徑選擇研究[J].出版廣角,2013,(23).
[4]吳赟.產(chǎn)業(yè)重構(gòu)時(shí)代的出版與閱讀——大數(shù)據(jù)背景下出版業(yè)應(yīng)深度思考的五個(gè)關(guān)鍵命題[J].出版廣角,2013,(23).
[5]王凌.論大數(shù)據(jù)技術(shù)的應(yīng)用對出版業(yè)的影響[J].編輯之友,2013,(4).
[6]王凌.論大數(shù)據(jù)時(shí)代媒體業(yè)發(fā)展趨勢[J].中國出版,2014,(1).