陳銘 徐麗芳
摘 要:大數(shù)據(jù)時代,數(shù)據(jù)主義既是認識論也是方法論,可推動編輯工作在理念層面和實操層面擁抱大數(shù)據(jù)和算法技術,實現(xiàn)編輯智能化。在理念層面,編輯應從數(shù)據(jù)主義視角重新審視大數(shù)據(jù)與編輯工作的關系,探究智能算法在編輯工作中的可供性,并引入“編輯智能論”作為未來編輯工作的新范式。在實操層面,本文就數(shù)據(jù)應用、內(nèi)容分析和用戶畫像三個方面總結國外編輯群體借力大數(shù)據(jù)和算法技術的實踐經(jīng)驗,以期為我國編輯工作拓展思路。
關鍵詞:大數(shù)據(jù) 數(shù)據(jù)主義 算法 編輯智能化 用戶
互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)所產(chǎn)生的海量數(shù)據(jù)為觀察用戶行為和信息傳播過程提供了寶貴資源,促成了學界和業(yè)界廣泛的研究和實踐。尤其在近幾年大數(shù)據(jù)技術和人工智能(Artificial Intelligence,AI)技術取得實質性突破之后,在數(shù)據(jù)挖掘、機器學習(Machine Learning)和智能算法的助力下,立足于計算社會科學的全新起點,數(shù)據(jù)要素和計算能力將成為所有社會科學賴以生存和發(fā)展的關鍵。[1]迄今為止,數(shù)字出版的發(fā)展使出版各環(huán)節(jié)都有海量用戶參與,并形成了大量的出版數(shù)據(jù)。[2]我國出版業(yè)一直積極探索大數(shù)據(jù)技術的應用思路,并取得了一定成就,但對數(shù)據(jù)的應用仍需要結合機器學習、智能算法等新技術的出現(xiàn),以開展更加深入的研究和實踐。而為了新時代編輯工作的高質量發(fā)展,從事編輯工作者應密切關注智能媒體時代新范式的技術邏輯,用數(shù)據(jù)和算法思維看待和解決出版業(yè)的各類新舊問題。簡而言之,計算傳播學等計算社會學科所推崇的數(shù)據(jù)主義既是認識論也是方法論,有利于推動編輯工作在理念層面和實操層面應用大數(shù)據(jù)和算法技術。
一、變革編輯理念:從經(jīng)驗主義到數(shù)據(jù)主義
當前智能媒體時代初露崢嶸,面臨轉型升級挑戰(zhàn)的出版業(yè)正可通過全面的數(shù)據(jù)分析等技術手段來重新解讀和界定內(nèi)容、用戶、營銷等基礎問題。但產(chǎn)業(yè)的成功轉型首先得益于理念上的重構/升華,在未來的編輯工作中,編輯群體需從數(shù)據(jù)主義視角深入思考大數(shù)據(jù)和智能化時代對編輯工作的解構和重構。
1.大數(shù)據(jù)技術與編輯工作的關系
未來的出版內(nèi)容將趨向于各特定形態(tài)的新產(chǎn)品和服務,用戶需要的不再是干巴巴的一本書,而是能精準解決用戶在獲取信息或內(nèi)容方面痛點、癢點的個性化產(chǎn)品及服務。為此,編輯可運用數(shù)據(jù)挖掘和智能算法等工具去匹配每位用戶的個性化需求,開展更精準、有效的營銷工作。
就波普爾的“三個世界”②理論而言,編輯工作本質上從屬于“世界三”,即“客觀知識世界”的構造活動。在智能媒體時代,數(shù)據(jù)技術將在這一活動過程中扮演重要角色。首先,出版物一直都是內(nèi)容和技術的綜合體;從其本質來看,內(nèi)容和技術從來不是相對的二元存在。[3]因此,出版物可視為通過編輯活動實現(xiàn)的人工產(chǎn)物,并帶有一定的技術成分。其次,數(shù)據(jù)分析等新技術逐漸成為編輯活動中的基本生產(chǎn)要素。從歷史角度看,出版一直是一個技術驅動的行業(yè),技術發(fā)展在很大程度上影響了出版發(fā)展的速度甚至走向。[4]編輯作為出版業(yè)務流程中的必要環(huán)節(jié),勢必會受到大數(shù)據(jù)技術的沖擊和影響,對數(shù)據(jù)的利用程度將不斷攀升。最后,正如克萊·舍基所言:“新的工具賦予我們新的能力,繼而又使我們能為彼此創(chuàng)造新的機會?!盵5]大數(shù)據(jù)技術會隨著在編輯活動中的廣泛應用而成熟、進化,從而賦予編輯新的能力。目前越來越多出版物以“數(shù)字原生”(digital born)形式生產(chǎn)和傳播。這部分機器可以直接讀取的知識資源將成為大數(shù)據(jù)技術所需的基本原料;機器學習將在此基礎上不斷訓練,并因而在發(fā)現(xiàn)數(shù)據(jù)背后的規(guī)律上越來越出色,從而可進一步幫助編輯發(fā)現(xiàn)優(yōu)質內(nèi)容資源并匹配細分用戶。
2.計算能力成為編輯工作的關鍵
正如許多傳播媒介在完成數(shù)字化、數(shù)據(jù)化工作之后邁入了算法化的新階段,[6]編輯智能化的實現(xiàn)需要數(shù)據(jù)和算法的雙擎推動。目前,大數(shù)據(jù)已逐步成為出版工作的基本生產(chǎn)要素,編輯從業(yè)人員日益重視對數(shù)據(jù)的采集、加工、標引等;而數(shù)據(jù)計算則是推動數(shù)據(jù)應用成為核心驅動力的關鍵所在。只有高超的計算能力才能助力挖掘出海量數(shù)據(jù)中所蘊涵的價值,從而為編輯智能化創(chuàng)造機會(見圖1)。一方面,算法可推動出版內(nèi)容的改進,迭代出版數(shù)據(jù)的附加價值。用戶產(chǎn)生的行為數(shù)據(jù)以及用戶評論等衍生數(shù)據(jù)都將作為機器學習算法改進的依據(jù)。這種算法的穩(wěn)步改進將讓編輯工作中選題、研發(fā)、后期制作等每一個環(huán)節(jié)和細節(jié)變得更有針對性、更高效,從而促使出版產(chǎn)品的不斷完善。另一方面,算法可更加突顯出版內(nèi)容的服務功能,[7]即可通過數(shù)據(jù)發(fā)現(xiàn)個體需求,豐富服務類型。在大數(shù)據(jù)提高了用戶的“能見度”后,算法通過機器所“看見”的用戶畫像分析和匹配用戶的個性化內(nèi)容需求。因此,算法技術不僅是在篩選、甄別內(nèi)容,同時也日益成為編輯和用戶與比特世界中的數(shù)據(jù)、信息、知識等進行互動的中介,為人們的日常生活、學習、工作和社交發(fā)揮越來越重要的服務作用。如國外以亞馬遜、蘋果公司為首的互聯(lián)網(wǎng)企業(yè),憑借自身積累的用戶數(shù)據(jù)和專業(yè)數(shù)據(jù)分析能力,由網(wǎng)絡渠道商和硬件提供商逐步轉型,發(fā)展內(nèi)容服務業(yè)務。這些互聯(lián)網(wǎng)企業(yè)通過算法得出用戶偏好,從而使其網(wǎng)頁上的推薦更加貼近用戶的痛點和癢點。
3.作為新范式的編輯智能論
大數(shù)據(jù)時代,“編輯智能論”正逐漸形成。[8]對此,應充分了解技術對編輯工作的可供性和局限性,主要體現(xiàn)在以下幾個方面:第一,以大數(shù)據(jù)和算法技術為支撐,但不唯數(shù)據(jù)是從。毫無疑問,大數(shù)據(jù)技術豐富了編輯對存在于出版內(nèi)容中的各類語義內(nèi)容的理解,使海量語義數(shù)據(jù)和用戶信息價值化。但編輯不能讓自身對出版內(nèi)容進行的深度閱讀、理解和甄別完全被數(shù)據(jù)相關性分析所左右。第二,編輯的“把關人”職能應進一步加強。一方面,大多數(shù)用戶只是通過內(nèi)容產(chǎn)品來滿足消遣、宣泄等個人情感需求。在用戶至上主義的背景下,碎片化內(nèi)容的生產(chǎn)仍需專業(yè)人士適度地規(guī)范、引導。另一方面,算法技術也會因算法自身的局限、算法設計者的偏見和輸入數(shù)據(jù)的偏倚,[9]導致其在選擇和分發(fā)內(nèi)容上的偏差。因此,編輯的把關人角色不可或缺。[10]第三,編輯智能化的“智能”不僅僅是大數(shù)據(jù)技術和算法為編輯工作帶來的單一機器智能,而是聯(lián)合作者、編輯和用戶的群體智能。出版業(yè)屬于文化產(chǎn)業(yè),文學作品需要百花齊放而不是標準化生產(chǎn)。因此,機器算法等人工智能并不能取代作者所能給予讀者的文學智慧。此外,編輯不僅要從內(nèi)容制作的專業(yè)視角出發(fā),還應主動接觸并利用包括用戶在內(nèi)的各類社會主體的信息網(wǎng)絡,實現(xiàn)協(xié)同編輯。
二、重塑工作流程:從方法論到實踐層面
隨著數(shù)據(jù)主義視角和數(shù)據(jù)分析工具在編輯工作中越來越受到廣泛關注和高度認可,基于大數(shù)據(jù)的內(nèi)容價值發(fā)現(xiàn)和分析復用正深入出版產(chǎn)業(yè)的不同層面和編輯工作的各個環(huán)節(jié),國內(nèi)外編輯開始嘗試通過算法思維對編輯工作進行解構和重構。但出版業(yè)并不像其他用戶群體相對集中的行業(yè)一樣具備大數(shù)據(jù)應用的“先發(fā)優(yōu)勢”。一方面,由于出版業(yè)尤其是大眾出版領域內(nèi)長期以往的B2B(Business-to-Business,企業(yè)對企業(yè))商業(yè)模式分散了企業(yè)直面用戶的機會,無法獲取大量“第一手”用戶數(shù)據(jù);另一方面,由于出版業(yè)面對的用戶群體較為多樣化,所以在大量復雜的數(shù)據(jù)集生成后,仍需由專業(yè)人員管理、分析和操作。這對不具備技術優(yōu)勢的傳統(tǒng)出版企業(yè)和編輯來說都是一個很大的挑戰(zhàn)。但隨著出版業(yè)數(shù)字化轉型的逐步深入和大數(shù)據(jù)應用規(guī)模的不斷擴大,大數(shù)據(jù)和算法技術在編輯工作中的應用將在廣度和深度上不斷增加,在選題策劃等業(yè)務環(huán)節(jié)扮演重要角色,甚至會給營銷方式等市場運營方面帶來全新的變革。因此,編輯不能繼續(xù)持觀望態(tài)度,必須克服自身困難在大數(shù)據(jù)浪潮中開啟對大數(shù)據(jù)應用的實操探索。目前,國外在這方面的發(fā)展相較于國內(nèi)更為豐富和成熟,下文通過總結國外編輯借靠大數(shù)據(jù)和算法技術的實踐經(jīng)驗,作為他山之石為我國新時代編輯工作的開展提供思路。
1.聚合數(shù)據(jù),形成反饋閉環(huán)
為了獲取一手數(shù)據(jù),歐美許多大眾出版商最初通過向下游延續(xù)銷售環(huán)節(jié)的做法獲取用戶數(shù)據(jù),并紛紛開設圖書推薦平臺直接與用戶對接。2013年2月,由三家大眾出版商巨頭阿歇特圖書出版集團、企鵝出版集團和西蒙&舒斯特公司聯(lián)合創(chuàng)立的圖書推薦平臺Bookish正式運營。其他如霍頓·米夫林·哈考特集團、哈珀·柯林斯和獨立出版商等諸多合作伙伴加入。Bookish旨在借助機器學習和數(shù)據(jù)技術為用戶推薦適合的書,并在用戶選擇圖書的過程中持續(xù)地收集用戶數(shù)據(jù)。除了專注于挖掘用戶數(shù)據(jù),目前還有很多為出版商提供圖書數(shù)據(jù)的服務公司可以向編輯人員提供幫助。例如蘋果收購的BookLamp公司就是一家收集和分析圖書數(shù)據(jù)的技術公司,其業(yè)務主要是基于自然語言技術完成圖書內(nèi)容分析。在被蘋果收購之前,BookLamp服務的訂閱者包括蘭登書屋和肯辛頓圖書公司等出版商,其“圖書基因組計劃”通過分析圖書自身的“基因”信息,幫助編輯制定、調(diào)整他們的圖書宣傳策略和市場定位。[11]在大數(shù)據(jù)時代,圖書語義數(shù)據(jù)和用戶行為數(shù)據(jù)的價值都將被智能化處理。在此過程中,編輯可通過構建各類數(shù)據(jù)的反饋閉環(huán)(Feedback Loop),利用算法技術將數(shù)據(jù)轉換為創(chuàng)造價值的效率系統(tǒng)(見圖2)。例如內(nèi)容創(chuàng)作公司BuzzFeed,通過將市場環(huán)境和讀者反饋數(shù)據(jù)量化、結構化并及時反饋給內(nèi)容編輯人員等,構成一個輔助創(chuàng)作的數(shù)據(jù)閉環(huán)。[12]
2.聚焦內(nèi)容分析,選題策劃
出版管理正逐漸邁向以數(shù)據(jù)為中心的發(fā)展階段,但由于許多編輯并不具備技術優(yōu)勢,所以在數(shù)據(jù)分析層面更多地尋求“外援”開展選題策劃工作。圖書咨詢公司Archer Jockers致力于使用大數(shù)據(jù)分析技術破解小說暢銷的一般模式,探尋暗藏于暢銷書中的獨特信號。[13]其利用機器學習、深度學習和遞歸神經(jīng)網(wǎng)絡等算法,對圖書內(nèi)容進行拆解;從句子結構、用詞、語法等方面做“診斷”;著眼于文風、主題、人物和情節(jié)等維度生成精細數(shù)據(jù),并在此基礎上為出版機構提供暢銷書選題服務。[14]
社交平臺上,書評等用戶衍生數(shù)據(jù)同樣也是編輯選題策劃時需要重點分析的內(nèi)容。[15]大數(shù)據(jù)技術可將每一個內(nèi)容片段標簽化和體系化,進行內(nèi)容畫像;還可將平臺上與圖書相關的關鍵詞進行排序,發(fā)掘近期熱門題材。2019年1月,全球最大的閱讀和寫作社區(qū)Wattpad推出出版業(yè)務部門Wattpad Books,結合機器學習和人工編輯從平臺的560多萬個故事中甄選精品,同時基于用戶行為數(shù)據(jù)選出最具價值的出版書目。
隨著大數(shù)據(jù)應用逐漸滲透到選題工作中,一些編輯直接通過量化分析方式鎖定出版選題。例如,一些致力于非虛構類題材的小型出版商通過收集網(wǎng)絡書店或搜索引擎上的近期搜索數(shù)據(jù),挖掘用戶感興趣的閱讀題材,然后招聘寫手,依據(jù)數(shù)據(jù)分析得出的大綱快速創(chuàng)作,搶占出版先機。
3.具化用戶畫像,開展精準營銷
雖然越來越多大眾出版商深刻感受到大數(shù)據(jù)在改進商業(yè)模式方面的驅動力和壓力,但并不是每個出版商都有信心把獲取的數(shù)據(jù)貨幣化。其中,市場營銷是兌現(xiàn)數(shù)據(jù)貨幣價值的關鍵環(huán)節(jié)。[16]
根據(jù)溫德爾·史密斯STP理論③的根本要義,識別和獲取核心用戶的數(shù)據(jù)有利于選擇目標市場和制定營銷策略。這對出版業(yè)這類兼具利基市場和垂直行業(yè)特征的領域而言尤為重要。隨著數(shù)據(jù)主義和計算主義將市場傳播推向精準傳播,從同質化大眾傳播模式轉向異質化智能傳播模式,用戶、場景和內(nèi)容之間有望實現(xiàn)良好匹配。易言之,大數(shù)據(jù)時代的市場營銷工作需要將大眾區(qū)分為一個個具象的個體,勾勒出更加清晰的用戶畫像,以反映異質化的市場形態(tài)。但相較于內(nèi)容分析,用戶畫像的難度更大。目前,大多數(shù)編輯工作是通過收集讀者閱讀行為及購買記錄,量化讀者的閱讀偏好及個性化閱讀需求,提升市場營銷效果。但這些簡單的數(shù)據(jù)遠遠不足以構建全面立體的用戶畫像,用戶的顯性需求和隱性需求還是無法很好地呈現(xiàn)。對此,編輯人員可以通過一些專門的用戶數(shù)據(jù)分析公司獲取更全面的數(shù)據(jù)服務。例如,科技公司Tekstum一直都依靠數(shù)據(jù)和人工智能技術幫助出版商解讀讀者情感,通過分析社交媒體上用戶發(fā)布的內(nèi)容,為編輯提供了解用戶情感反饋以及對特定種類圖書看法的渠道,[17]幫助編輯在熟悉用戶心理特征的前提下做出營銷決策。
三、結語
5G、AI、云計算等技術的出現(xiàn)掃除了許多信息處理、數(shù)據(jù)傳輸及利用等基礎設施層面的重大難題,物理世界中的現(xiàn)實屬性(包括人的現(xiàn)實屬性)越來越多地遷徙到數(shù)字空間中。編輯工作將有望觸達更多關于內(nèi)容產(chǎn)品、用戶的不同數(shù)據(jù),獲得更先進的算法技術的支持。因此,新時代的編輯應當要有導向意識和擔當精神,辯證看待計算傳播范式對出版環(huán)節(jié)的重塑,并據(jù)此對編輯工作進行改良和重構。此外,編輯人員應積極熟悉聚合、量化和結構化數(shù)據(jù)等新的技術手段,以便從技術層面深入了解未來內(nèi)容市場的利基點,為企業(yè)贏得長足發(fā)展的新動力。
注 ? ?釋:
①引自《計算傳播學:智能媒體視閾下傳播學研究的新范式》一書的專家(喻國明)推薦語。
②波普爾的三個世界是觀察、定義現(xiàn)實的一種方法,將世界分為三個種類。世界一指的是由物理客體和事件組成的世界,包括生物的存在;世界二指的是由心靈主體和其感知事件組成的世界;世界三指的是客觀知識組成的世界。引自:維基百科.波普爾的三個世界[EB/OL]. [2019-8-26]. https://zh.wikipedia.org/wiki/%E6%B3%A2%E6%99%AE%E5%B0%94%E7%9A%84%E4%B8%89%E4%B8%AA%E4%B8%96%E7%95%8C.
③STP分別指代的是:Segmentation,市場細分;Targeting,目標市場選擇;Positioning,市場定位。
參考文獻:
[1]張博,喬歡,李武.基于大數(shù)據(jù)的出版內(nèi)容價值發(fā)現(xiàn)與應用[J].出版發(fā)行研究, 2014(3): 5-8.
[2]王曉光.人工智能與出版的未來[J].科技與出版, 2017(11): 4-6.
[3]徐麗芳.網(wǎng)絡出版策略研究[D].武漢:武漢大學博士論文,2002(4):20.
[4]克萊·舍基.認知盈余[M].胡泳, 哈麗絲,譯.北京:中國人民大學出版社,2012:110.
[5]劉慶振,于進,牛新權.計算傳播學:智能媒體視閾下傳播學研究的新范式[M].北京:人民日報出版社, 2019:165.
[6][9]曹海峰.算法時代編輯出版專業(yè)人才培養(yǎng)模式創(chuàng)新與思考[J].中國編輯, 2018(9): 36-39.
[7]王成文.信息權力結構的演變與大數(shù)據(jù)時代的“編輯智能論”[J].出版分析研究,2013(6):15-18.
[8]張超.作為中介的算法:新聞生產(chǎn)中的算法偏見與應對[J].中國出版,2018(1):29-33.
[10]徐麗芳,池呈.基于圖書“基因”的閱讀推薦:BookLamp[J].出版參考,2015(7上):18-19.
[11]閆澤華.內(nèi)容算法:把內(nèi)容變成價值的效率系統(tǒng)[M]. 北京:中信出版社,2018: 144.
[12]Jianbo Gao,Matthew L. Jockers et al. A multiscale theory for the dynamical evoluti-on of sentiment in novels[C].2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC). Durham:2016.
[13]陳銘,徐麗芳.Archer Jockers:用機器算法解密暢銷小說基因[J].出版參考,2019(3):12-15.
[14]Burcu Yucesoy et al. Success in Books: A Big Data Approach to Bestseller[J].EPJ Data Science,2018(7):7.
[15]Yiying Hu.Marketing and Business Analysis in the Era of Big Data[J].American Journal of Industrial and Business Management, 2018(8):1747-1756.
[16]劉慶振.計算傳播學:智能媒體視閾下傳播學研究的新范式[J].教育傳媒研究,2018(06):21-25.
[17]賀鈺瀅,徐麗芳.Tekstum:圖書網(wǎng)絡口碑的晴雨表[J].出版參考,2016(11):26-27.
(作者單位系武漢大學信息管理學院;武漢大學數(shù)字出版研究所)