• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      出版業(yè)有“大數據”嗎?

      2016-08-19 09:49:16張立
      出版人 2016年8期
      關鍵詞:數據量出版業(yè)出版物

      張立

      出版業(yè)的內容數據雖具有數據真實性屬性,但離海量的數據規(guī)模尚有差距,短期內也不大可能向快速的數據流轉、多樣的數據類型、價值密度低轉型。

      一、互聯(lián)網上的訛傳

      一種在互聯(lián)網上廣泛流傳的說法是:互聯(lián)網上一天所產生的數據可以刻滿1.68億張 DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質信件數量);發(fā)出的社區(qū)帖子達 200萬個(相當于《時代》雜志770年的文字量)。截止到2014年,數據量已經從TB級別躍升到PB、EB乃至ZB級別。

      這一組對比數據似乎在告訴我們:傳統(tǒng)出版業(yè)的數據量其實非常有限。那么傳統(tǒng)出版業(yè)的數據量究竟有多大?是否夠得上“大數據”?

      2013年3月20日發(fā)表于“中國IDC圈”網站上的《印象:人類生產的印刷材料數據量達200PB》一文提到:“到2012年為止,人類生產的所有印刷材料的數據量是200PB……”另一篇提到“200PB”的文章是2015年4月21日發(fā)表于“36大數據”網站上的《報告:數據大爆炸,“互聯(lián)網+”基礎設施數據中心大發(fā)展(上)》。該文在提到200PB印刷數據時明確說明是摘自中信證券分析師的《云計算/IDC行業(yè)專題研究報告——數據大爆炸,數據中心大發(fā)展—“互聯(lián)網+”基礎設施之二》一文。

      為此,筆者購買了中信證券的報告。中信證券的報告是這樣表述的:“國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當于全球每人每年產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB?!?/p>

      為進一步求證,筆者又查閱了英文網站上的相關文獻。但文獻中都未明確指出或含混暗示該數據與IDC有任何關系,“200PB”似乎是為了說明PB的數據量級而舉的例子,作者舉例時還特地使用了“estimated”(估算)一詞,并不是嚴謹的科學統(tǒng)計。

      與此同時,筆者又查閱了IDC歷年公開發(fā)布的報告,也未發(fā)現有此說法。那么,出版業(yè)的數據量到底有多大呢?我們不妨粗略計算一下。

      二、出版物的內容數據

      1.計算標準

      為方便計算,筆者分別以中國書籍出版社出版的圖書、《出版發(fā)行研究》雜志社出版的期刊和《中國知識產權報》這份報紙為例,擬了一個每面大約排字量的近似標準如下:

      圖書:以目前較為流行的大32開、每面約800漢字計算,1印張漢字數約為:800漢字×32開=25600漢字 = 51200字節(jié)。

      期刊:以目前較為流行的大16開、每面約1800漢字計算,1印張漢字數約為:1800漢字×16開=28800漢字 = 57600字節(jié)。

      報紙:以對開4版、每版約6660漢字計算,1印張漢字數約為:6660漢字×4版 = 26640漢字 = 53280字節(jié)。

      2.2014年當年出版物內容數據量

      以《2014年全國新聞出版產業(yè)分析報告》中的印張數為依據,計算得出2014年我國書刊報內容數據量(含復本數)約為:圖書1802.88萬億多漢字,期刊528.71萬億多漢字,報紙5121.01萬億多漢字;書刊報合計約為7452.6萬億多漢字,換算成字節(jié)約為14905.2萬億多字節(jié),即約13.24 PB。

      同時,2014年當年出版書刊報合計內容數據量(不含復本數)約為:圖書987.45億漢字,期刊336.35億漢字,報紙439.40億漢字;書刊報合計約為1763.2億漢字,換算成字節(jié)約為3526.4億字節(jié),即約0.32 TB。

      3.2005?2014年十年出版物內容數據量

      2005?2014十年書報刊累計出版內容數據量(含復本數)約為:圖書1.52億億漢字,期刊0.49億億漢字,報紙5.20億億漢字;十年合計約為:7.21億億漢字,換算成字節(jié)約為14.42億億字節(jié),即約128.08 PB。

      以2005?2014年十年《全國新聞出版產業(yè)分析報告》為依據,計算得出我國近十年書報刊累計內容數據量(不含復本數)約為:圖書6899.17億漢字,期刊2878.57億漢字,報紙4700.30億漢字;十年合計約為:14478.04億漢字,換算成字節(jié)約為28956.08億字節(jié),即約2.63 TB。

      以上計算說明,我國傳統(tǒng)出版業(yè)中正式出版的書刊報,近十年的累計內容數據量整體也就在TB級別,就某個單一出版單位或出版物來說,其數據規(guī)??雌饋碚娴牟皇呛艽蟆?/p>

      三、出版物其他相關數據

      1.出版物發(fā)行數據

      2014年,全國新華書店系統(tǒng)、出版社自辦發(fā)行單位出版物總銷售199.05億冊(張、份、盒),總銷售金額2415.5億元,純銷售量69.86億冊(張、份、盒),銷售額777.99億元。

      2014年全國出版物零售情況如下:

      ①圖書零售量63.93億冊(張、份、盒),零售額684.5億元;

      ②期刊零售量0.18億冊(張、份、盒),零售額10.07億元;

      ③報紙零售量0.21億冊(張、份、盒),零售額2.15億元;

      ……

      2005?2014十年間,全國新華書店系統(tǒng)、出版社自辦發(fā)行單位出版物數量及金額合計為:總銷售1737.87億冊(張、份、盒),總銷售金額17530億元;純銷售量658.08億冊(張、份、盒),銷售額6110.5億元。

      2005?2014十年間,出版物零售情況如下:

      ①圖書零售量594.37億冊(張、份、盒),零售額5973億元;

      ②期刊零售量14.79億冊(張、份、盒),零售額160.5億元;

      ③報紙零售量7.21億冊(張、份、盒),零售額19.77億元;

      ……

      2005?2014十年間,出版物總購進量1765.39億冊(張、份、盒),總銷售金額17989.8億元;庫存數量530.01億冊(張、份、盒),庫存金額7263.02億元;非出版物商品銷售金額545.41億元(不含在銷售總額之內);發(fā)行網點合計1659298處;從業(yè)人員合計665.71萬人。

      2.印刷復制數據

      2014年,印刷復制(包括出版物印刷、包裝裝潢印刷、專項印刷、打字復印、復制和印刷物資供銷)總體實現營業(yè)收入11740.16億元,利潤總額814.66億元;

      全國出版物印刷企業(yè)(含專項印刷)9079家,工業(yè)銷售產值1504.72億元;圖書、報紙、其他出版物黑白印刷產量31936.28萬令;彩色印刷產量252658.6萬對開色令;裝訂產量31965.32萬令;印刷用紙量65406.06萬令。

      2005?2014十年間,印刷復制(包括出版物印刷、包裝裝潢印刷、專項印刷、打字復印、復制和印刷物資供銷)總體實現營業(yè)收入55061.01億元,利潤總額3760.04億元;

      全國出版物印刷企業(yè)(含專項印刷)82531家,工業(yè)銷售產值11302.26億元;圖書、報紙、其他出版物黑白印刷產量272667.73萬令;彩色印刷產量1523209.22萬對開色令;裝訂產量282529.76萬令;印刷用紙量510573.37萬令。

      3.出版物進出口數據

      2014年,全國累計出口圖書、報紙、期刊1689.42萬冊(份),5649.66萬美元;累計進口2538.85萬冊(份),28381.57萬美元;累計出口音像制品、電子出版物與數字出版物9.58萬盒(張),2214.41萬美元;累計進口13.44萬盒(張),21000.13萬美元。

      2005?2014年十年間,全國累計出口圖書、報紙、期刊13076.3萬冊(份),48283.88萬美元;累計進口26357.86萬冊(份),245117.66萬美元;累計出口音像制品、電子出版物與數字出版物439.42萬盒(張),9141.39萬美元;累計進口243.96萬盒(張),103662.3萬美元。

      4.版權管理與版權貿易數據

      2014年,全國版權合同登記17376份;作品自愿登記997350份;全國共引進版權16695種,全國共引進圖書、音像制品和電子出版物版權16321種;共輸出版權10293種,共輸出圖書、音像制品和電子出版物版權8733種。

      2005?2014十年間,全國版權合同登記152679份;作品自愿登記4914108份;全國共引進版權150835種,全國共引進圖書、音像制品和電子出版物版權142854種;共輸出版權56360種,共輸出圖書、音像制品和電子出版物版權47143種。

      在出版物發(fā)行、印刷復制、進出口和版權交易等分領域的統(tǒng)計數據背后,出版業(yè)也存在與之對應的龐大的實時交易數據。除此之外,出版業(yè)還有大量的圖書在版編目(CIP)數據,國家標準《圖書在版編目數據》于1990年7月31日發(fā)布,要求自1991年3月1日起實施,經過幾年的實施和準備,于1999年4月1日開始在全國強制性推廣實施,截至目前共登記了340萬條左右的數據。CIP數據包括著錄數據(書名、著作責任者項、版本項、出版項、叢書項、附注項、標準書號項等)和檢索數據(圖書識別特征的檢索點和內容主題的檢索點)兩個部分,這為圖書的分類標引、著錄、檢索等提供了很大的方便。

      四、什么是“大數據”

      關于“大數據”有太多有識之士給它下過定義了,有些定義大同小異,有些則表達角度不同。本文采用麥肯錫的定義,即一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數據庫軟件工具能力范圍的數據集合,它具有海量的數據規(guī)模(Volume)、快速的數據流轉(Velocity)、多樣的數據類型(Variety)、價值密度低(Value)、數據真實性(Veracity)五大特征(5V)。本質上,它為我們觀察世界提供了一種全新思維。

      下面我們拿5V來說說吧!

      1.什么叫Volume?

      大數據的“大”是否可以理解為是名詞,而非形容詞,它代表一個數據級別,而非簡單形容數據之多。也就是說只有到一定級別的數據才能稱之為“大數據”,如PB、EB等?

      另外,從上述統(tǒng)計看,出版業(yè)雖然每年都在生產一定量的數據,但這些數據是完全按印刷品上的內容量來統(tǒng)計的,首先它不是基于互聯(lián)網上的實時交易數據,其次它也不是實時的用戶行為數據,它與今天我們多數人認知的基于互聯(lián)網上的大數據截然不同,出版業(yè)的內容數據更多是文本類數據,這類數據是否適合運用目前流行的大數據工具來處理,值得討論。

      2.什么叫Velocity?

      它是指數據的實時快速生成、更新與累積,如互聯(lián)網公司服務器上的實時生成的日志、社交網站上實時生成的用戶信息、傳感器數據和監(jiān)視數據等。所以有人提出1秒定律,來形容其數據更新的快速性。也就是說它指的不是出版物上的靜態(tài)數據,而是基于聯(lián)機交互、實時更新的動態(tài)數據,大數據是活水,不斷地會有新的數據注入進來。

      3.什么叫Variety?

      它是指數據類型非常多,包括結構化數據、非結構化數據、富媒體數據、不連貫語法語義數據等,以及這些數據的超大規(guī)模激增。而出版物內容數據類型相對簡單、內容表現形式相對統(tǒng)一,迥異于互聯(lián)網上繁雜的數據。

      4.什么叫Value?

      即價值密度的高低與數據總量大小成反比,數據量越大,有價值的數據越難薈萃,越需要通過強大的機器算法和工具軟件來實現,因此有人認為價值“提純”是大數據的特點之一。

      換句話說,完全面對需求的嚴謹的、干凈的結構化數據,還需要挖掘嗎?挖掘的本意不就是沙里淘金嗎?

      5. 什么叫Veracity?

      即數據的真實性。數據的重要性就在于對決策的支持,數據的規(guī)模并不能決定其能否為決策提供幫助,數據的真實性和質量才是獲得真知和思路最重要的因素,是制定成功決策最堅實的基礎。獲取真實可靠的數據是保證分析結果準確、有效的前提。只有真實而準確的數據才能獲取有意義的結果。

      除了以上5V外,“大數據”還有一些特點,比如分布式,也就是說這么大規(guī)模的數據量,只能通過分布式存儲、分布式讀取、分布式利用來實現;復雜性,是說數據量巨大,數據來源多渠道,包括傳統(tǒng)數據、交易事務型數據,而互聯(lián)網和物聯(lián)網的發(fā)展,則帶來了微博、社交網絡、傳感器等多種數據來源。

      下面,我們來看看出版業(yè)的數據特征:

      如果按上述標準來看,出版業(yè)的內容數據雖具有Veracity屬性,但離Volume尚有差距,按照目前的數據生成和利用模式看,短期內也不大可能向其他3個V轉型。這是因為,出版業(yè)是精英生產內容的模式,與互聯(lián)網上的草根生產內容或用戶生產內容模式不同。精英生產內容有以下特點:

      (1)嚴格的內容評價與篩選機制,如“三審制”等,非經過“三審”的稿件是無法得以出版的,而互聯(lián)網上則通常都是通過敏感詞過濾軟件來實現內容的篩選,顯然在內容質量上不是一個量級。

      (2)正是這種精英式的內容生產機制,使內容產出物是按一定標準制定出來的,即其數據結構完整統(tǒng)一,內容表達符合語法規(guī)范,基本不存在異構和混亂的數據。

      (3)也正是這種嚴格的內容審查與編輯機制,使傳統(tǒng)出版物具有較高的價值含量,具有較集中的知識屬性,這與互聯(lián)網上的口水性內容不可同日而語。

      (4)同時,傳統(tǒng)出版的內容生產流程復雜、周期過長,屬于非實時性數據,所以不具有高速生成性,高速更新的特點。

      (5)傳統(tǒng)出版在內容形成產品發(fā)布之前,基本也不是分布式存儲、讀取和利用的過程。

      (6)傳統(tǒng)出版物的數據是內容數據,而非實時交易數據或用戶行為數據。什么叫用戶行為數據?它是指對用戶訪問網站的有關數據進行統(tǒng)計、分析,從中發(fā)現用戶訪問網站的規(guī)律,包括:用戶來源地區(qū)、來路域名和頁面;在網站停留時間、跳出率、回訪次數;使用搜索引擎、關鍵詞、關聯(lián)關鍵詞和站內關鍵字;在不同時段的訪問量情況等。

      相比較而言,傳統(tǒng)出版中的報刊,除自辦發(fā)行的報刊外,絕大多數發(fā)行量大的報刊都是通過郵局訂閱發(fā)行的,通過郵局訂閱的用戶,其信息內容過于簡單,而且即使如此簡單的用戶數據,報刊社也不掌握,更談不上進行用戶行為分析了。另外,即使是報刊社自辦發(fā)行的用戶數據,由于其用戶數量相對有限,所有信息都是非常明確、非實時產生的,因此是否需要用“大數據”工具進行挖掘分析值得研究。

      圖書則主要是通過新華書店和二渠道書商發(fā)行,其終端用戶的行為數據也無法掌握。

      當然,如果出版單位想要進行選題策劃,以“大數據”的方式分析市場需求和潛在用戶,那到不妨用“大數據”工具試試;或者出版單位轉型互聯(lián)網平臺,真正產生規(guī)模龐大的用戶行為數據,“大數據”工具也可能是一種不錯的選擇。

      五、“大數據”軟件有哪些典型應用

      目前,大數據軟件最擅長處理的是以下類型的數據,這些數據多產生于互聯(lián)網:

      1. 用戶行為數據。用戶進入網站后的所有操作,都會被網站記錄下來,會分析用戶是從哪些入口(如搜索引擎、微信等)進入該網站的哪個網頁?他們在各個網頁的行為路徑,最后在哪個網頁離開去了哪里等,最終實現產品優(yōu)化,提高用戶轉化率。

      2.用戶消費數據。電子商務網站一般會將用戶的交易信息,包括購買時間、購買商品、購買量、支付金額等信息保存在數據庫中,所以對于這些用戶,可以基于網站的運營數據對他們的交易行為進行分析,以估計每位用戶的價值,并針對每位用戶進行精準營銷。

      3.用戶地理位置數據。如手機用戶在實用短信業(yè)務、通話業(yè)務、正常位置更新、周期位置更新和切入呼叫、應用App時均會產生定位數據。

      4.互聯(lián)網金融數據。當用戶需要小額短期資金周轉,不必去銀行或小貸公司申請了,只需靠自己常年累月積攢的信用,憑借第三方征信公司提供的信用分,就可以在金融平臺上貸款了。

      5.用戶社交等UGC數據。企業(yè)可以通過對這些數據的處理,進行趨勢、流行元素、受歡迎程度、輿論監(jiān)控、生活行為、社會問題等分析,從中挖掘出政治、社會、文化、商業(yè)、健康等有用信息。

      從上述類型的數據看,多不屬于內容數據,而內容數據的分析涉及到的是自然語言處理、文本挖掘、自動標注、知識圖譜、詞頻分析等。由于大數據軟件目前尚無統(tǒng)一界定,自然語言處理技術算不算大數據軟件也不好說,但從功能上看,至少可以分為擅長數據分析的軟件和擅長內容挖掘的軟件。擅長數據分析的軟件多用于金融服務、天氣預報監(jiān)測等領域。擅長內容挖掘的軟件多用于智能機器人問答、語音識別等領域。目前,我們的出版業(yè)除出版單位自建或合建的基于互聯(lián)網或移動互聯(lián)網的業(yè)務平臺所產生的數據外,更多的是傳統(tǒng)出版物的內容數據,這些內容數據基本不適用于流行的數據分析類軟件處理,而擅長內容挖掘的軟件在出版物內容的智能化處理,特別是知識檢索和知識服務方面,更多還處于探索階段,尚未形成普遍成熟的應用。

      同時,即使是內容數據,也還可以再細分為出版物內容數據和基于互聯(lián)網的實時原創(chuàng)內容數據。近年來大獲成功的基于個性化推薦的新聞資訊類內容數據便是基于互聯(lián)網實時原創(chuàng)的內容數據。

      六、明確需求,量體裁衣

      舉個例子吧。一個只有10名員工的公司,要統(tǒng)計每個人中午吃什么,直接向每個人問一下,腦子就記住了;一個有100名員工的公司,要統(tǒng)計每個人中午吃什么,可能就得借助紙和筆這樣的工具了;一個有1000名員工的公司,要統(tǒng)計每個人中午吃什么,說不定得拿EXCEL表匯總一下了;假如要想實時了解互聯(lián)網上的用戶中午用餐行為,EXCEL表恐怕也未必管用了。此時,“大數據”粉墨登場。

      再舉一例子。如果求一個正方形面積,長乘寬就夠了,何必非要使用微積分呢?是說我們進入了一個“極限時代”嗎?極限思想肯定是人類認識史上的巨大飛躍,其偉大之處是面對復雜問題有了特殊的解法。但如果問題簡單到像求正方形面積一樣,使用微積分就未必合適了。

      上述兩個例子是想說明,“大數據”既意味著一種數據的量級,也意味著數據的復雜程度,這正是“大數據”的兩大主要特點。

      大數據平臺的建設本身不是目的,其目的是要建立數字化時代新的商業(yè)運營模式,通過直接或間接的方法為企業(yè)創(chuàng)造利潤,同時增加企業(yè)的影響力和話語權。大數據平臺的使用,一定要與實際需求掛鉤。離開了實際需求,空談大數據沒有意義。就像一定要讓線裝書局轉型去出版電子書一樣,有點兒“為轉型而轉型”的意味了。同時,如果不考慮大數據的特點,一味從概念出發(fā)強行上馬,最后很可能就是一場筷子夾湯的愿望,永遠也走不到真正的應用。

      猜你喜歡
      數據量出版業(yè)出版物
      基于大數據量的初至層析成像算法優(yōu)化
      計算Lyapunov指數的模糊C均值聚類小數據量法
      以按需出版為抓手,推動出版業(yè)數字化轉型
      高刷新率不容易顯示器需求與接口標準帶寬
      寬帶信號采集與大數據量傳輸系統(tǒng)設計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      2017年出版物
      AR與VR技術在兒童出版業(yè)中的應用
      新聞傳播(2016年23期)2016-10-18 00:54:12
      Global analyses of sea surface temperature, sea ice, and night marine air temperature since the latenineteenth century
      Arctic sea ice decline: Faster than forecast
      對出版業(yè)供給側改革的思考
      出版與印刷(2016年1期)2016-01-03 08:53:34
      清镇市| 肃宁县| 公主岭市| 交城县| 犍为县| 广宗县| 文昌市| 团风县| 彰武县| 平武县| 阿克陶县| 天全县| 阿荣旗| 山东| 五常市| 洪湖市| 宁津县| 工布江达县| 江永县| 新平| 大足县| 马公市| 五家渠市| 木里| 平原县| 中阳县| 平顶山市| 临夏市| 随州市| 绥棱县| 肇东市| 鄂伦春自治旗| 德清县| 和平县| 乌海市| 固安县| 灵宝市| 江山市| 都安| 彭山县| 浦东新区|