江慶 成都索貝數(shù)碼科技股份有限公司售前總監(jiān)
大數(shù)據(jù)發(fā)展已經(jīng)很多年了,并正在各個領域得到廣泛應用。我們打開手機,今日頭條、抖音會自動推薦給你所感興趣的內(nèi)容,這是大數(shù)據(jù);淘寶、京東會自動推薦給你所感興趣的商品,這也是大數(shù)據(jù);我們在朋友圈經(jīng)常會看到一些廣告,每個人看到廣告不一樣,這也是大數(shù)據(jù)。大數(shù)據(jù)的應用在我們生活中已經(jīng)無處不在。我們現(xiàn)在經(jīng)常聽到的智慧城市、智慧交通、智慧醫(yī)療,這些都是大數(shù)據(jù)在不同領域的典型應用。索貝是一家專注廣電行業(yè)的企業(yè),一直致力于將先進的IT技術與行業(yè)經(jīng)驗結合,為用戶提供優(yōu)質(zhì)的解決方案,大數(shù)據(jù)在電視臺中的應用是一個非常重要的方向。接下來與大家分享索貝在電視臺大數(shù)據(jù)項目建設過程中的理念和建設經(jīng)驗。
首先我們來看一下什么是大數(shù)據(jù),大數(shù)據(jù)的特點是什么?
百度百科給出的“大數(shù)據(jù)”定義是:大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、 快速的數(shù)據(jù)流轉、 多樣的數(shù)據(jù)類型和價值密度低四大特征。
我們看一下電視臺有哪些數(shù)據(jù)?這些數(shù)據(jù)是不是符合大數(shù)據(jù)的特性。電視臺數(shù)據(jù)分為兩類,一類是臺內(nèi)數(shù)據(jù),一類是臺外數(shù)據(jù)。臺內(nèi)數(shù)據(jù)是臺內(nèi)各個系統(tǒng)存儲產(chǎn)生的數(shù)據(jù),包括內(nèi)容數(shù)據(jù)、業(yè)務數(shù)據(jù)、設備數(shù)據(jù)、辦公數(shù)據(jù)、經(jīng)營數(shù)據(jù)。
臺外數(shù)據(jù)包括輿情傳播數(shù)據(jù)、傳播力數(shù)據(jù)、影響力數(shù)據(jù)、用戶數(shù)據(jù)、收視率數(shù)據(jù)。
電視臺臺內(nèi)數(shù)據(jù)和臺外數(shù)據(jù)都具備了海量的數(shù)據(jù)規(guī)模、 快速的數(shù)據(jù)流轉、 多樣的數(shù)據(jù)類型和價值密度低這四大特征,都是大數(shù)據(jù)。
圖1 數(shù)據(jù)的運用
數(shù)據(jù)運用來自我們的需求?,F(xiàn)在電視臺有很多事情不能進行量化,例如我們的收益如何,黨和國家的政策宣傳效果如何,系統(tǒng)設備的使用情況什么樣,員工的工作效率怎么樣等等還不能完全做到量化,只能憑自己的主觀去判斷這些東西是好還是壞,是優(yōu)還是良。當我們有足夠的數(shù)據(jù),然后通過對這些數(shù)據(jù)的分析,就可以從數(shù)據(jù)中得到一個準確的答案。要想做好這樣的數(shù)據(jù)分析,首先我們需要有一個大數(shù)據(jù)的體系和架構來支撐。
圖2是索貝企業(yè)數(shù)據(jù)平臺的架構圖,它能夠滿足電視臺大數(shù)據(jù)的業(yè)務應用。數(shù)據(jù)平臺分為四個部分,企業(yè)數(shù)據(jù)管理、企業(yè)數(shù)據(jù)倉庫、企業(yè)數(shù)據(jù)集成與數(shù)據(jù)平臺管理。其中企業(yè)數(shù)據(jù)管理、企業(yè)數(shù)據(jù)倉庫、企業(yè)數(shù)據(jù)集成是核心部分。企業(yè)數(shù)據(jù)管理是對實時數(shù)據(jù)的存儲、管理、協(xié)同的核心單元,其核心是能對各種類型的數(shù)據(jù)進行統(tǒng)一的管理;企業(yè)倉庫主要用于一些離線數(shù)據(jù)的運算,可以采用比較成熟的Hadoop、Spark的能力;企業(yè)數(shù)據(jù)集成是對數(shù)據(jù)的采集和應用,其核心是能支撐多種數(shù)據(jù)的采集、處理和轉換,特別是具有對媒體行業(yè)視頻、圖片數(shù)據(jù)的采集、處理和轉換的能力。
圖2 企業(yè)數(shù)據(jù)平臺技術架構
索貝媒體大數(shù)據(jù)平臺具有以下三個特點。第一個是能夠對接多種數(shù)據(jù)來源,在后面的案例介紹中,可以看到索貝媒體大數(shù)據(jù)平臺不僅能對接多種數(shù)據(jù)庫、采集器,還能夠對接媒體的內(nèi)容庫,采集視頻大數(shù)據(jù)。第二個是與Hadoop/Spark開源的有機結合,能夠使用其開源的一些能力,能夠融入現(xiàn)在一些主流的大數(shù)據(jù)生態(tài)。第三個是支持多種的數(shù)據(jù),特別是具備媒體視頻大數(shù)據(jù)的處理能力。
索貝企業(yè)數(shù)據(jù)平臺的核心技術主要有三個,第一個是索貝自主研發(fā)的Vernox數(shù)據(jù)庫。從上個世紀六七十年代數(shù)據(jù)庫誕生,隨著存儲數(shù)據(jù)類型的增多,關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫、圖數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫應運而生。但這些數(shù)據(jù)庫都是獨立運行的,我們聯(lián)合的查詢檢索相當困難,面對大數(shù)據(jù)時代數(shù)據(jù)存儲的要求,索貝自主開發(fā)了Vernox數(shù)據(jù)庫。
Verno數(shù)據(jù)庫有三個特性,第一個是融合,它能夠原生的支持關系型、非關系型數(shù)據(jù)庫,也能夠原生的支持文檔型數(shù)據(jù)庫、圖數(shù)據(jù)庫,是一個融合的數(shù)據(jù)庫。第二個是高效,能通過索貝獨創(chuàng)的中文索引與基于成本執(zhí)行的機制,對數(shù)據(jù),特別是漢字進行高效的檢索查詢,這是在中國的一個特殊應用,對此需要對漢字有深入的理解。我們曾經(jīng)做過一個測試,在一張近650萬條數(shù)據(jù)表中,Oracle、Myspl和Vernox分別執(zhí)行一條相同的漢字檢索語句服務端的耗時,Vernox的耗時要遠遠小于Oracle、Myspl的耗時。
第二個核心技術是VIDA(Video Innovative Data Architecture)的視頻架構。對視頻大數(shù)據(jù)進行處理,一直是大數(shù)據(jù)處理的一個難題。索貝通過獨創(chuàng)的VIDA視頻架構,使用了視頻的智能分片網(wǎng)格技術,能夠支持視頻文件多格式、多碼率的高效并發(fā)訪問,同時通過Video MapReduce技術,實現(xiàn)了視頻的高性能并發(fā)處理,滿足大數(shù)據(jù)時代實時視頻數(shù)據(jù)處理的要求。
第二個核心技術是VIDA(Video Innovative Data Architecture)的視頻架構。對視頻大數(shù)據(jù)進行處理,一直是大數(shù)據(jù)處理的一個難題。索貝通過獨創(chuàng)的VIDA視頻架構,使用了視頻的智能分片網(wǎng)格技術,能夠支持視頻文件多格式、多碼率的高效并發(fā)訪問,同時通過Video MapReduce技術,實現(xiàn)了視頻的高性能并發(fā)處理,滿足大數(shù)據(jù)時代實時視頻數(shù)據(jù)處理的要求。
第三個技術核心是索貝自主開發(fā)的Ficus企業(yè)數(shù)據(jù)集成平臺。企業(yè)數(shù)據(jù)集成是企業(yè)數(shù)據(jù)平臺的核心部分,F(xiàn)icus企業(yè)數(shù)據(jù)集成平臺具有輕量化、云延伸的架構,易用、易開發(fā),部署簡單。企業(yè)數(shù)據(jù)平臺運用索貝Vernox數(shù)據(jù)庫解決了分布式主數(shù)據(jù)管理及安全的問題,具有原生的Hadoop、Spark不支持的能力,例如Hadoop、Spark比較弱的媒體處理能力,也支持Hadoop、Spark的能力集成,能接入大數(shù)據(jù)的生態(tài)。
圖3 技術架構核心1:Vernox
圖4 技術架構核心2:VIDA
首先是SobeyHive 媒體內(nèi)容平臺。SobeyHive不僅是一個paas平臺,也是一個DaaS平臺。首先我們來看一下Hive是怎么產(chǎn)生的。在電視臺網(wǎng)絡化建設初期,索貝建設了很多獨立系統(tǒng),例如大家熟知的新聞生產(chǎn)、制作、媒資、播出、新媒體等系統(tǒng)。后來通過SOA、MSB把這些系統(tǒng)連接起來,但是系統(tǒng)互聯(lián)互通以后,并沒有完全解決問題。例如在電視臺找一個內(nèi)容比在互聯(lián)網(wǎng)找一個內(nèi)容要困難,在互聯(lián)網(wǎng)找一個內(nèi)容,打開百度搜索就可以找到,在電視臺找一個內(nèi)容,不知道去哪個系統(tǒng)找。此外,傳統(tǒng)媒體和新媒體的融合也存在問題,因此需要在全臺實現(xiàn)統(tǒng)一的內(nèi)容檢索。
索貝開發(fā)了第一個數(shù)據(jù)服務平臺Hive,結合大數(shù)據(jù)核心的主數(shù)據(jù)管理的理念,把所有系統(tǒng)的數(shù)據(jù)做了整合,所有業(yè)務做了整合。平臺建設好之后,我們發(fā)現(xiàn)不僅僅實現(xiàn)了全臺內(nèi)容的統(tǒng)一檢索與使用、業(yè)務數(shù)據(jù)統(tǒng)一展現(xiàn)與指揮、傳統(tǒng)媒體與新興媒體的融合等目標,還帶來了一些新的效果。例如現(xiàn)今比較流行的移動辦公,索貝通過Hive平臺完成了APP工具的整合,使節(jié)目生產(chǎn)也能夠在手機、平板電腦移動端上完成。此外還能做到在新聞生產(chǎn)過程中,相關媒資內(nèi)容可以主動推薦,這就是融合跨界整合、數(shù)據(jù)整合帶來的效果。
Hive發(fā)布以后,索貝獲得了多個國際獎項,包括中央電視臺在內(nèi),80%國內(nèi)電視臺融合媒體都采用了這個方案。此外,索貝在經(jīng)濟日報、中國國際廣播電臺也采用了這個方案。為什么這里會說報業(yè)、廣播的案例?索貝做了多年的廣電業(yè)務,對電視臺系統(tǒng)之間的數(shù)據(jù)結構已比較了解,而目前報業(yè)、廣電國內(nèi)大都是方正、英夫美迪的系統(tǒng)和產(chǎn)品,通過Hive平臺建設,索貝已經(jīng)能實現(xiàn)與廣電系統(tǒng)外異構系統(tǒng)的對接。
圖5 SobeyHive 媒體內(nèi)容平臺
圖6 央視全球融合新聞系統(tǒng)
第一個應用案例是央視全球新聞云,該項目去年獲得了大獎。它采用Hive架構,支撐了央視三個分臺、四個中心站,國內(nèi)外一百多記者站全球業(yè)務生產(chǎn)的發(fā)布,實現(xiàn)了全球范圍內(nèi)工作視圖的統(tǒng)一。
圖7 北京臺大數(shù)據(jù)在運營運維中的應用案例
Hive在國外的項目中也得到廣泛認可。路透社將建設部署在亞馬遜上的全球報道生產(chǎn)平臺,支撐路透社在全球范圍內(nèi)的新聞報道,該系統(tǒng)也將以Hive的架構為核心。Hive架構得到了國際電視臺的充分認可,瑞士的SRG SSR、美國的COMCAST、中國香港TVB、荷蘭的RTV等電視臺也在系統(tǒng)中采用Hive架構。
第二個應用案例是北京臺數(shù)據(jù)治理項目,這個項目是大數(shù)據(jù)在運維方面的一個典型案例。首先介紹一下項目的背景,在北京臺融合媒體生產(chǎn)平臺項目的交流中,除制作生產(chǎn)業(yè)務之外,用戶還經(jīng)常會提到一些運維的難點,例如系統(tǒng)運行狀況沒有客觀的判斷,只能靠經(jīng)驗判斷;現(xiàn)在的服務器、CPU、內(nèi)存等資源使用經(jīng)常不超過10%,這部分資源不能充分得到應用;系統(tǒng)故障不能預警,只有等故障發(fā)生了才能去處理問題。經(jīng)過對這些需求進行邏輯分析,并對目標所需要的數(shù)據(jù)進行梳理,我們得出結論,通過收集數(shù)據(jù)、分析數(shù)據(jù)可以解決上述運維中的難點。
北京臺數(shù)據(jù)治理項目實現(xiàn)了四個維度的目標。一是業(yè)務健康度,可以對臺內(nèi)系統(tǒng)各個模塊的狀態(tài)進行可量化的分析和監(jiān)控。二是可以對臺內(nèi)所有設備資源不同時段的使用數(shù)據(jù)進行有效統(tǒng)計。三是在資源優(yōu)化配置方面,可以對臺內(nèi)常用業(yè)務的資源進行配置,統(tǒng)計結果和生產(chǎn)平臺結合,實現(xiàn)資源自動化的動態(tài)調(diào)度。例如通過一段時間的統(tǒng)計,我們發(fā)現(xiàn)每天上午時間段,用戶設備的使用量不大。我們運用大數(shù)據(jù)平臺分析,系統(tǒng)會自動在上午時段把一些云非編資源釋放出來,把它自動部署成合成磚碼,提高了臺內(nèi)一些節(jié)目的生產(chǎn)效率,形成了大數(shù)據(jù)與生產(chǎn)系統(tǒng)之間的一個業(yè)務閉環(huán)。四是業(yè)務預警,可以根據(jù)數(shù)據(jù)分析,對可能發(fā)生的故障進行預警和報警。
第三個應用案例是體奧動力的視頻大數(shù)據(jù)項目,這個項目是大數(shù)據(jù)在視頻內(nèi)容運營方面的一個典型案例。體奧動力在六年前已經(jīng)開始擁有中超、亞冠、亞洲游戲類所有比賽的版權,并保存了這些比賽的大量視頻數(shù)據(jù)。他們希望通過視頻分析得到相關一些球員、球隊的有用信息,并將這部分信息能夠用于運營。在和體奧動力的溝通過程中,我們發(fā)現(xiàn)他們不僅有所有的視頻數(shù)據(jù),此外每場比賽都還有比較全面的場記信息,每個場記信息包含了上萬的數(shù)據(jù)量,能夠對目標提供有用的幫助。但是這些場記信息不具備直接顯示性,沒有連貫性,而且沒有數(shù)據(jù)解釋。我們進行了大量的數(shù)據(jù)分析,通過算法和匹配,將這些場記信息與視頻分析信息進行結合,得出了有效的結果數(shù)據(jù),依據(jù)結果數(shù)據(jù)能夠對球隊進行數(shù)字分析。這些數(shù)據(jù)對球隊教練、球隊管理層非常有用,他們可以把這些數(shù)據(jù)賣給一些中超的公司和專業(yè)機構。相信隨著未來博彩業(yè)的發(fā)展,這部分數(shù)據(jù)對他們也是有用的。
展望未來,大數(shù)據(jù)應用還有很多,例如業(yè)務優(yōu)化、資源優(yōu)化、員工效率提升等。在未來,可以隨時隨著報道的鏈條開展,讓實時的輿情數(shù)據(jù)、報道內(nèi)容的傳播力數(shù)據(jù)與臺內(nèi)的數(shù)據(jù)相結合,進行碰撞,通過大數(shù)據(jù)平臺為每個報道鏈條節(jié)點自動準備內(nèi)容,在不遠的將來可以實現(xiàn)自動編節(jié)目、自動寫稿。這些應用其實就是智能,大數(shù)據(jù)的下一步是A.I.人工智能,A.I.將助力于大數(shù)據(jù)的發(fā)展。