王垚++鄧逸鈺
DOI:10.16661/j.cnki.1672-3791.2017.25.002
摘 要:隨著科技的發(fā)展和信息技術(shù)的進步,我國的媒體行業(yè)得到了快速發(fā)展,由此產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)包括用戶信息、媒資數(shù)據(jù)等,在分析和處理的過程中需要使用到大數(shù)據(jù)技術(shù),這樣才能讓媒體產(chǎn)業(yè)得到更好的轉(zhuǎn)型。在本文中對基于媒體大數(shù)據(jù)的智能服務(wù)平臺技術(shù)進行了分析和闡述,以期能更好地推進該平臺的應(yīng)用。
關(guān)鍵詞:媒體 大數(shù)據(jù)技 智能服務(wù)平臺
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1672-3791(2017)09(a)-0002-02
隨著科技的發(fā)展和信息技術(shù)的進步,人類已經(jīng)進入了大數(shù)據(jù)時代,人們生活的方方面面都已經(jīng)融入了大數(shù)據(jù)。對于媒體行業(yè)來說,它是主要的信息消費陣地,擁有海量的用戶數(shù)據(jù)和音頻信息。隨著媒體產(chǎn)業(yè)和互聯(lián)網(wǎng)的不斷融合,它已經(jīng)成為了大數(shù)據(jù)應(yīng)用的主戰(zhàn)場。媒體大數(shù)據(jù)一般有三方面的來源:一是互聯(lián)網(wǎng)媒體大數(shù)據(jù);二是媒體資源數(shù)據(jù);三是用戶行為數(shù)據(jù)。通過采集整理和分析海量的媒體大數(shù)據(jù),能將用戶和用戶間、用戶和內(nèi)容間、內(nèi)容和內(nèi)容間的關(guān)聯(lián)打通,以此來支撐媒體的制作、播出和營銷等。
1 系統(tǒng)架構(gòu)
基于媒體大數(shù)據(jù)的智能服務(wù)平臺系統(tǒng)架構(gòu)主要包括四個部分,它們分別是:多元數(shù)據(jù)采集引擎、海量數(shù)據(jù)存儲引擎和高性能的數(shù)據(jù)處理引擎。媒體數(shù)據(jù)采集子系統(tǒng)包括的模塊是分布式采集框架、大數(shù)據(jù)志愿計算獲取技術(shù)等,主要是全面采集媒體的大數(shù)據(jù)。將用戶興趣模型建立起來,進行個性化推薦、搜索和聚合大眾動態(tài)內(nèi)容的關(guān)鍵技術(shù)研究工作,將集用戶需求和興趣于一體的跨終端多媒體內(nèi)容呈現(xiàn)技術(shù)研發(fā)出來。
2 關(guān)鍵技術(shù)
2.1 采集海量異構(gòu)媒體數(shù)據(jù)
在大數(shù)據(jù)時代背景下,強調(diào)的重點已經(jīng)由原先的樣本分析轉(zhuǎn)移到了數(shù)據(jù)分析上,所以各大媒體大數(shù)據(jù)平臺都需要擁有及時而完整的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)采集方式明顯不能滿足該要求,所以系統(tǒng)需要將互聯(lián)網(wǎng)的分布式大數(shù)據(jù)獲取技術(shù)應(yīng)用其中。
2.1.1 互聯(lián)網(wǎng)分布式大數(shù)據(jù)獲取技術(shù)
該系統(tǒng)采用的是志愿計算技術(shù),通過分布式采集方式,將特定的客戶端安裝上,這樣每一個互聯(lián)網(wǎng)用戶都能將計算資源和網(wǎng)絡(luò)志愿貢獻出來。這樣千千萬萬的用戶就分擔(dān)了數(shù)據(jù)的獲取任務(wù),因此獲得數(shù)據(jù)的機器更多,同時將數(shù)據(jù)源站遭到封殺的可能性降至最低,大大提高了數(shù)據(jù)采集效率[2]。
2.1.2 分布式采集框架
對于分布式采集框架來說,在設(shè)計其程序的過程中主要采用的是控制和方法分離的思想,采集框架上僅僅是控制和爬取的方法,通過每個網(wǎng)站的配置來描述每個網(wǎng)站的控制。采集框架主要包括控制、配置、輸入、輸出等模塊。其運行結(jié)構(gòu)如圖1所示。
通過對每一個網(wǎng)站進行必要的配置,使得分布式采集框架的服務(wù)能力進一步提升,有效滿足了媒體大數(shù)據(jù)下智能服務(wù)平臺的基本需求,進而為后續(xù)信息數(shù)據(jù)的獲取、匯總以及分析工作的開展創(chuàng)造了條件。
2.2 管理海量異構(gòu)媒體數(shù)據(jù)
2.2.1 預(yù)處理數(shù)據(jù)
媒體數(shù)據(jù)處理和傳統(tǒng)的數(shù)據(jù)預(yù)處理的流程是類似的,它也是包括提取數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)和加載數(shù)據(jù)三個步驟。
2.2.2 分布式文件系統(tǒng)及相關(guān)技術(shù)
分布式文件系統(tǒng)是云存儲系統(tǒng)的核心存儲引擎,它同時還對網(wǎng)絡(luò)軟硬件形成的存儲資源池進行管理,將統(tǒng)一的文件訪問服務(wù)提供給外界。
2.2.3 分布式負載均衡技術(shù)
一般來說,系統(tǒng)在任務(wù)分配模塊的搭建過程中會采用集成化的方式,這樣就不會出現(xiàn)單點失效的問題。相較于單一節(jié)點,它能將處理任務(wù)的效率提高,使得任務(wù)分配更具有實時性。
2.2.4 關(guān)聯(lián)和挖掘異構(gòu)媒體數(shù)據(jù)
將結(jié)構(gòu)化數(shù)據(jù)的存取地址和非結(jié)構(gòu)化數(shù)據(jù)的存取地址結(jié)合組成一個索引目錄,一旦有數(shù)據(jù)存取要求到達,可以將不同格式的數(shù)據(jù)地址快速從數(shù)據(jù)索引中取出,進而訪問相應(yīng)數(shù)據(jù)。
2.3 分析海量異構(gòu)媒體數(shù)據(jù)
2.3.1 分析網(wǎng)絡(luò)媒體行為
通過對主流網(wǎng)站數(shù)據(jù)、自有數(shù)據(jù)進行采集和分析、建立互聯(lián)網(wǎng)第三方平臺和自有賬戶等來支撐系統(tǒng)的流程優(yōu)化、性能優(yōu)化、第三方內(nèi)容引進等各種業(yè)務(wù)形態(tài),將全新的節(jié)目評價系統(tǒng)建立起來。
2.3.2 推薦技術(shù)
根據(jù)WEB評論的特點,可以用自監(jiān)督情感分析模型來對其進行分析。該模型主要用于虛擬對WEB評論的整體情感進行打分,表情符號和文本漢字是這些WEB評論的主要內(nèi)容。
2.4 智能推薦
通過基于媒體大數(shù)據(jù)的智能服務(wù)平臺,可以在智能導(dǎo)視引擎時實現(xiàn)用戶至上的理念,用戶通過社交推薦和智能推薦能發(fā)現(xiàn)自身所需的個性化內(nèi)容,用戶通過電視、電腦屏幕即可享受大數(shù)據(jù)時代所帶來的個性化娛樂生活。
2.4.1 實時適配多屏格式
系統(tǒng)可以采用云轉(zhuǎn)碼技術(shù),在轉(zhuǎn)碼過程中可以采用云存儲的分布式并行方法,如果用戶有視頻文件的請求,可以將終端類型進行自動適配,將文件實時轉(zhuǎn)換成為需要的目標類型,對于用戶來說這是完全透明的。
2.4.2 智能推薦引擎
智能推薦引擎會根據(jù)用戶的需求,通過社交推薦和算法推薦等為用戶帶來其所需的個性化服務(wù)內(nèi)容,這樣就將用戶的喜好與內(nèi)容過于豐富間的矛盾很好地解決了。
3 創(chuàng)新成果
3.1 服務(wù)模式創(chuàng)新
通過SAAS、PAAS等模塊系統(tǒng)可以在全行業(yè)推廣媒體大數(shù)據(jù)服務(wù),整個影視媒體行業(yè)可以由此獲得跨越式的創(chuàng)新和發(fā)展。
3.2 關(guān)鍵技術(shù)創(chuàng)新
3.2.1 分布式互聯(lián)網(wǎng)數(shù)據(jù)采集模式
通過分布式的互聯(lián)網(wǎng)數(shù)據(jù)采集模式,系統(tǒng)可以將統(tǒng)一的任務(wù)調(diào)度和分發(fā)系統(tǒng)建立起來,將每個用戶采集到的數(shù)據(jù)進行收集,這樣的數(shù)據(jù)采集可以更加精準、實時。
3.2.2 互聯(lián)網(wǎng)數(shù)據(jù)采集框架
互聯(lián)網(wǎng)數(shù)據(jù)采集框架是基于規(guī)則庫的模型,對于規(guī)則庫來說,它統(tǒng)一采用的是XML格式,通過對規(guī)則庫的合理配置,可以實現(xiàn)目標網(wǎng)站的適配。
3.2.3 對于計算數(shù)據(jù)平均房屋間隔可以采用遺忘特性算法
在數(shù)據(jù)的平均訪問間隔過程中可以采用遺忘特性算法,對數(shù)據(jù)價值函數(shù)可以進一步加入歷史訪問信息和預(yù)估策略來進行調(diào)整,這樣可以有效抑制訪問數(shù)據(jù)與定義的價值函數(shù)的時變性,同時還對數(shù)據(jù)訪問的隨機性進行有效抑制。
4 結(jié)語
在當前的大數(shù)據(jù)時代,媒體產(chǎn)業(yè)與大數(shù)據(jù)的融合勢在必行,智能服務(wù)平臺的研發(fā)具有重要的意義。收集和分析媒體大數(shù)據(jù),能有效打通用戶與用戶間、用戶與內(nèi)容間的關(guān)聯(lián),更好地支撐起媒體內(nèi)容的制作和播出,它的應(yīng)用具有極大的社會價值和商業(yè)價值。
參考文獻
[1] 鄒麗丹.大數(shù)據(jù)助力搭建七大全媒體服務(wù)平臺[J].傳媒評論,2014(4):67-68.
[2] 張翔.超融合數(shù)據(jù)服務(wù)平臺在融合媒體的應(yīng)用[J].廣播與電視技術(shù),2016(6):45-50.
[3] 楊輝龍.淺談智能用電服務(wù)在廣電數(shù)據(jù)平臺的應(yīng)用前景[J].中國高新技術(shù)企業(yè),2016(11):44-46.endprint