鮮沁雨
(浙江廣播電視集團,浙江 杭州 310005)
近年來,隨著綜藝傳播途徑變得不再單一,對傳播熱度的評估和反饋也不再僅限于大屏收視率。盡管各大中長視頻平臺(如騰訊、愛奇藝、優(yōu)酷等)已對各自收錄的綜藝形成了熱度指數(shù),但評價的廣度、維度、深度各有不同,缺乏全網(wǎng)傳播的績效反饋,不利于節(jié)目的創(chuàng)新突破、提質(zhì)增效。因此,建立一套更為系統(tǒng)、科學的播后數(shù)據(jù)反饋系統(tǒng)尤為重要[1]。
浙江廣播電視集團自主設計、開發(fā)了播后數(shù)據(jù)反饋系統(tǒng)(以下簡稱系統(tǒng))。該系統(tǒng)實現(xiàn)了全網(wǎng)數(shù)據(jù)采集、多維度熱度評估、熱搜榜單匯聚等功能。系統(tǒng)上線后運行平穩(wěn),有效應用于節(jié)目生產(chǎn)和宣發(fā)。
播后數(shù)據(jù)反饋系統(tǒng)依托大數(shù)據(jù)技術、自然語言處理實體關聯(lián)、多維度熱度融合模型等技術,設計計算機端和HTML5 頁面,采用前后端分離模式設計整體框架,采用Vue.js 開發(fā)的單頁應用(SPA),后端使用SpringBoot 框架,支持快速開發(fā)和集成,使用Redis 緩存提高了系統(tǒng)性能。系統(tǒng)利用Kubernetes實現(xiàn)了容器化部署,簡化了應用管理,提供了彈性和高可用性。系統(tǒng)總體架構(gòu)如圖1 所示,主要包括數(shù)據(jù)采集層、數(shù)據(jù)處理層以及應用層。
圖1 播后數(shù)據(jù)反饋系統(tǒng)架構(gòu)圖
1.1.1 數(shù)據(jù)采集層
數(shù)據(jù)采集包含基礎數(shù)據(jù)的采集和維護?;A數(shù)據(jù)包括內(nèi)容數(shù)據(jù)、賬號數(shù)據(jù)以及平臺數(shù)據(jù)。系統(tǒng)基于定時任務模塊,通過配置不同平臺的爬取策略,可以定時采集和更新基礎數(shù)據(jù)。采集的任務包括采集全網(wǎng)榜單數(shù)據(jù)、基礎知識庫、節(jié)目播放數(shù)據(jù)、社交賬號數(shù)據(jù)、短視頻數(shù)據(jù)以及圖文資訊數(shù)據(jù)等。
1.1.2 數(shù)據(jù)處理層
數(shù)據(jù)處理層中,自然語言處理具有詞法分析、實體識別、實體對齊、依存句法分析、情感傾向分析能力;計算模型主要有熱度計算模型和多維度熱度融合模型的處理能力;數(shù)據(jù)處理能力包含對數(shù)據(jù)的更新、數(shù)據(jù)清洗、數(shù)據(jù)分析能力。數(shù)據(jù)進入全量內(nèi)容處理中心對抓取的內(nèi)容進行實體識別、解析、內(nèi)容去重、垃圾過濾;處理后的數(shù)據(jù)進入全量內(nèi)容庫,對數(shù)據(jù)進行鏈路處理,包括實體鏈接、特征提取、業(yè)務清洗、數(shù)據(jù)轉(zhuǎn)換等,提取出精選內(nèi)容,提取出的內(nèi)容進入熱度計算中心。
1.1.3 應用層
應用層有榜單應用、知識庫、數(shù)據(jù)分析及系統(tǒng)管理四大模塊。榜單包含劇集、綜藝、藝人等榜單數(shù)據(jù),知識庫包含作品、藝人、賬號等數(shù)據(jù),數(shù)據(jù)分析支持多維度的數(shù)據(jù)展現(xiàn)和查詢;系統(tǒng)管理是對后臺的管理功能,支持用戶自定義設置節(jié)目關鍵詞、導出熱搜及數(shù)據(jù)信息等。
搭建全網(wǎng)綜藝傳播力評估體系,需要依靠大量的數(shù)據(jù)支撐。建立一個客觀全面的、能夠覆蓋多屏的數(shù)據(jù)采集指標平臺,是做好反饋的第一步。
通過對視頻平臺、互聯(lián)網(wǎng)數(shù)據(jù)機構(gòu)核心指標的分析對比,梳理出評估數(shù)據(jù)的采集平臺,包括中長視頻平臺的正片播放、互動數(shù)據(jù);短視頻平臺的二創(chuàng)數(shù)據(jù),社交平臺熱搜熱度及次數(shù),藝人影響力、官方宣發(fā)數(shù)據(jù),新聞網(wǎng)站的資訊數(shù)據(jù)等,較為全面地覆蓋了有價值的數(shù)據(jù)范圍及指標。具體核心范圍及指標如表1 所示。
表1 數(shù)據(jù)采集范圍及指標
全網(wǎng)采集的數(shù)據(jù)內(nèi)容是海量的,因而,需要基于大數(shù)據(jù)和人工算法技術,對采集所得聚合多個不同平臺的內(nèi)容聚合的數(shù)據(jù)進行多維度的處理和深度理解,處理成熱度數(shù)據(jù)的結(jié)構(gòu)化字段信息,處理到大數(shù)據(jù)表格OTS 和搜索引擎ElasticSearch 中,以供后續(xù)的搜索和查詢[2]。對文本新聞數(shù)據(jù)或者視頻的關聯(lián)文本進行基礎的自然語言處理(Natural Language Processing,NLP),包括正文的清洗和格式化,文本去重、關鍵詞提取、智能標簽識別、實體識別及情感分析等。
(1)文本去重?;ヂ?lián)網(wǎng)上經(jīng)常會出現(xiàn)一篇話題被多個媒體站點或者賬號進行轉(zhuǎn)載的情況,被轉(zhuǎn)載的文本內(nèi)容相同或者相似,為了避免對同一篇新聞做重復的處理和存儲,需要對話題文本做內(nèi)容和語義上的重復檢測,并將重復的新聞進行合并處理和存儲。
(2)關鍵詞提取。為了快速獲取話題的主要內(nèi)容,便于后續(xù)的搜索,需要對文本進行關鍵詞的提取。關鍵詞反映文本的主要內(nèi)容和高頻詞匯,后續(xù)搜索時命中關鍵詞會提升權(quán)重。
(3)智能標簽識別。對新聞/視頻的文本進行標簽主題的識別,用于熱度數(shù)據(jù)的組織和搜索。通過智能標簽,可以判別一篇話題的主題是否與監(jiān)測節(jié)目相關。
(4)實體識別。對新聞/視頻的文本進行實體識別,將文中涉及的人物、地域、機構(gòu)等實體信息識別出來,通過判斷相關實體與關鍵詞的關系來判別話題和短視頻是否涉及監(jiān)測節(jié)目。
(5)情感分析。對用戶評論內(nèi)容進行情感識別,分析并判斷正負面輿情信息。
前臺系統(tǒng)服務包含全網(wǎng)數(shù)據(jù)聚合、熱搜數(shù)據(jù)查詢和多維度數(shù)據(jù)綜合榜單三大功能?;诟鱾€節(jié)目的播出平臺不同,系統(tǒng)根據(jù)自主識別和手動配置的方式,獲取節(jié)目在不同平臺的播放情況。根據(jù)節(jié)目基本信息自動生成關鍵詞,匹配全網(wǎng)榜單熱搜上榜情況,用戶根據(jù)需要選擇榜單進行一鍵生成。多維度數(shù)據(jù)綜合榜單則是由原始數(shù)據(jù)參照技術通過計算公式推導出標準的數(shù)值,用以衡量原始數(shù)據(jù)在其所屬維度的相對表現(xiàn),結(jié)合用戶自定義設定的主觀占比,進而得出綜合熱度指數(shù)。將數(shù)據(jù)標準化后,不同維度的指標之間可以相互比較。同一指數(shù)不僅可以用于同一個衛(wèi)視發(fā)布/平臺播放的綜藝的跨期比較,也可以用于與其他全網(wǎng)的綜藝的比較。
系統(tǒng)還構(gòu)建了影視節(jié)目的基礎知識庫和藝人知識庫,為節(jié)目熱度計算、數(shù)據(jù)分析、節(jié)目搜索等提供基礎數(shù)據(jù)支持。節(jié)目知識庫中包含影視、綜藝節(jié)目的基礎信息,如節(jié)目名稱、開播時間、主要演職人員、導演等。藝人知識庫包含藝人的個人基礎信息、社交平臺賬號信息等。同時,知識庫與中國藍云智能中臺打通[3],定時推送人臉庫最新數(shù)據(jù),標記敏感藝人,減少宣發(fā)輿情風險。
以浙江衛(wèi)視近期熱播綜藝為例,探討播后數(shù)據(jù)反饋系統(tǒng)的實際場景應用。以往,節(jié)目播出后,需要到各大平臺,人工統(tǒng)計節(jié)目的播放量及播放熱度,實時關注節(jié)目話題在各大榜單的上榜情況,以及各大媒體報道情況,需要用到大量的人力和時間成本。播后數(shù)據(jù)反饋系統(tǒng)上線后,可以對全網(wǎng)各平臺有效數(shù)據(jù)聚合,同時提供一鍵生成熱搜榜單、節(jié)目熱度對比等服務[4]。
系統(tǒng)首頁包含正在熱播、熱搜風云、全網(wǎng)綜藝榜3 個板塊,如圖2 所示。正在熱播展示了衛(wèi)視近期熱播的節(jié)目對比,支持通過自定義選擇在播節(jié)目,也可以選擇在播與往期節(jié)目的比對顯示。通過正在熱播板塊,用戶可以更直觀地參考節(jié)目近一周的熱度數(shù)據(jù)以及熱播趨勢。
圖2 系統(tǒng)首頁圖
對于單個節(jié)目,系統(tǒng)主要抓取并展示數(shù)據(jù)概況、熱搜話題、相關資訊、評論&彈幕、受眾分析五個板塊的內(nèi)容。
數(shù)據(jù)概況展示節(jié)目熱度情況和多平臺播放數(shù)據(jù),熱搜話題匯集節(jié)目在全網(wǎng)各榜單的上榜情況,相關資訊匯聚節(jié)目基本信息和全網(wǎng)的最新報道;評論和彈幕不僅可以根據(jù)語義判斷情感趨勢,還可以根據(jù)評論熱度進行排行,指導后續(xù)節(jié)目制作剪輯;受眾分析主要分析觀眾的年齡、城市、性別等[5]。
例如,在《奔跑吧》第七季中,系統(tǒng)采集到網(wǎng)友熱議第一的評論是“聽說第二期有羅云熙,長月的粉絲們”,排名前5 的評論彈幕都與白鹿的熱播劇有關,可為節(jié)目組后續(xù)節(jié)目策劃和制作提供一些方向。
熱搜是評估節(jié)目熱度的重要指標。以微博熱搜榜為代表的榜單,只能查詢實時熱搜,并不公開歷史熱搜數(shù)據(jù)。播后數(shù)據(jù)反饋系統(tǒng)上線后,可實時抓取并保存全網(wǎng)所有熱搜榜單數(shù)據(jù),并對最高在榜排名和在榜時長進行統(tǒng)計和截圖。針對該功能開發(fā)的HTML5 頁面,更方便用戶在手機端實時查看綜藝話題的上榜情況。搜索關鍵詞“奔跑吧”,熱搜結(jié)果如圖3 所示。
圖3 HTML5 熱搜榜單查詢結(jié)果
多維度融合熱度可以將各節(jié)目數(shù)據(jù)標準化,形成比對榜單。綜合熱度以“節(jié)目正片播放熱度”“熱搜”“二次傳播”“圖文資訊”“互動指數(shù)”等為主要考量維度,選取多項基礎指標并持續(xù)優(yōu)化指標權(quán)重[6],綜合考量同一綜藝各類指數(shù)平衡,如《奔跑吧》第七季每一期的綜合熱度對比、衛(wèi)視播放綜藝節(jié)目對比、同全國所有播放的綜藝對比分析等。通過熱度值和多維度值,針對性地分析和提升節(jié)目傳播效果。
播后數(shù)據(jù)反饋系統(tǒng)上線后,為浙江衛(wèi)視《中國好聲音》《奔跑吧》《無限超越班》等20 余個綜藝提供播后實時數(shù)據(jù)匯聚及熱搜榜單采集,助于片方進行項目復盤,為提升綜藝的影響力,拓展綜藝網(wǎng)絡傳播途徑和運營提供了有效的反饋和參考。系統(tǒng)采集和處理的全網(wǎng)數(shù)據(jù)資源還為其他系統(tǒng)提供數(shù)據(jù)接口服務,提供了有力的技術支撐。