裴鵬真
(河南省新聞出版廣電局信息網(wǎng)絡(luò)視聽節(jié)目傳播監(jiān)管中心,鄭州 450003)
近年來,中國(guó)的互聯(lián)網(wǎng)新媒體技術(shù)總體呈現(xiàn)出快速發(fā)展的態(tài)勢(shì),除了傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)站,尤其尤其是微信、微博、手機(jī)APP,網(wǎng)絡(luò)直播、OTT技術(shù)的迅猛崛起,以及未來幾年即將AR、VR技術(shù)等新穎技術(shù)的大規(guī)模應(yīng)用,在為廣大人民帶來瀏覽視頻方便的同時(shí),也對(duì)傳統(tǒng)互聯(lián)網(wǎng)監(jiān)管以監(jiān)控音視頻網(wǎng)站為主的監(jiān)管形式提出了新的挑戰(zhàn)。
據(jù)CNNIC統(tǒng)計(jì),截至2017年6月底,中國(guó)網(wǎng)民規(guī)模達(dá)7.51億,我國(guó)手機(jī)網(wǎng)民規(guī)模達(dá)7.24億。人們利用休閑、碎片化時(shí)間,更進(jìn)一步促進(jìn)了新媒體業(yè)務(wù)傳播發(fā)展。此外,隨著近幾年國(guó)產(chǎn)電影、電視劇、微電影等海量節(jié)目的誕生給廣大百姓帶來盛宴的同時(shí),給監(jiān)管部門也帶來了一定的壓力,如何對(duì)這些海量視頻節(jié)目進(jìn)行存儲(chǔ)?如何對(duì)這些海量視頻節(jié)目進(jìn)行分解、信息提取,形成節(jié)目索引?如何分析視頻節(jié)目,形成視頻比對(duì)關(guān)鍵幀?如何從新媒體上抓取傳播的視頻并及時(shí)和現(xiàn)有本地視頻庫(kù)內(nèi)容進(jìn)行較為及時(shí)的對(duì)比?從數(shù)據(jù)量和計(jì)算速度上來說,都給監(jiān)管部門提出不少壓力。
當(dāng)今新媒體傳播方式和傳播手段,無非是將不同的視聽節(jié)目放在了不同平臺(tái),采用了不同的媒體格式和傳播手段,其傳播的內(nèi)容始終沒有變化。在采集環(huán)節(jié)因不同的傳播平臺(tái)稍有不同,或是通過定制模板,或是通過暴力破解,或是通過賬號(hào)登錄隱身接入輪訓(xùn)節(jié)目,或是通過行政手段強(qiáng)制接入,都是為了最初的原始數(shù)據(jù),而后期分析手段、比對(duì)技術(shù)也基本上相當(dāng)。在前端采集、中級(jí)分析、后期對(duì)比等技術(shù)基本成型,后期改進(jìn)難度較大的情況下,如何將現(xiàn)有已經(jīng)存在、及將來即將建設(shè)的各個(gè)業(yè)務(wù)監(jiān)管平臺(tái)的統(tǒng)一起來、將海量數(shù)據(jù)整合起來,提高資源利用率,降低運(yùn)營(yíng)成本,我認(rèn)為是當(dāng)前各省局新媒體監(jiān)管業(yè)務(wù)要考慮的重要問題。
現(xiàn)在,1TB的硬盤已然成為當(dāng)下存儲(chǔ)主流,但其硬盤數(shù)據(jù)傳輸速度約100MB/S,讀完整個(gè)硬盤中的數(shù)據(jù)至少花費(fèi)2.5個(gè)小時(shí),寫入數(shù)據(jù)的速度就更慢了。一個(gè)很簡(jiǎn)單的減少讀取時(shí)間的辦法就是同時(shí)從多個(gè)硬盤上讀數(shù)據(jù)。試想,如果我們有100個(gè)硬盤,每個(gè)硬盤存儲(chǔ)1%的數(shù)據(jù),并行讀取,那么不到2分鐘就可以讀完所有1TB數(shù)據(jù)。這就是大數(shù)據(jù)存儲(chǔ)方式的最初考慮的初衷。
現(xiàn)有河南互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng),采用單點(diǎn)關(guān)系型數(shù)據(jù)庫(kù)結(jié)構(gòu),用來存儲(chǔ)網(wǎng)站文本信息的空間為2T;采用FCSAN架構(gòu),用于存儲(chǔ)視頻節(jié)目的空間為20T。對(duì)于未來新的監(jiān)管業(yè)務(wù)來說,比起文字信息,視聽內(nèi)容所要占用的空間更大,因此對(duì)于新媒體監(jiān)管業(yè)務(wù)平臺(tái)來說,要考慮容納更多的視頻節(jié)目空間,可能多大到100T,甚至更多。為了適應(yīng)未來高性能數(shù)據(jù)查詢系統(tǒng),僅僅靠提高傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)服務(wù)器的性能,已無法達(dá)到高的性價(jià)比要求,必須要考慮非關(guān)系型數(shù)據(jù)庫(kù)、大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)等新的存儲(chǔ)技術(shù)。
對(duì)于新媒體監(jiān)管業(yè)務(wù)中的視頻節(jié)目來說,分布式存儲(chǔ)是個(gè)很好的選擇。大數(shù)據(jù)存儲(chǔ)必須有其適應(yīng)的存儲(chǔ)和計(jì)算方式,相比傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)而言,在存取海量數(shù)據(jù),柔性擴(kuò)展,結(jié)構(gòu)化非結(jié)構(gòu)化存儲(chǔ)方面,大數(shù)據(jù)有著不可比擬的優(yōu)勢(shì)。
根據(jù)現(xiàn)有互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)的及未來新系統(tǒng)的業(yè)務(wù),考慮到Hadoop計(jì)算架構(gòu)具有高性能集群計(jì)算和存儲(chǔ)能力,且易擴(kuò)展,選擇與Oracle數(shù)據(jù)混搭方式, 優(yōu)勢(shì)互補(bǔ),充分發(fā)揮其優(yōu)勢(shì),既可以提升海量數(shù)據(jù)采集時(shí)效性,又可確保核心數(shù)據(jù)服務(wù)能力的穩(wěn)定。
Hadoop中心組件是HDFS和MapReduce[2]。Hadoop通過HDFS為用戶提供高容錯(cuò)性和高伸縮性的海量數(shù)據(jù)的分布式存儲(chǔ),通過MapReduce為用戶提供邏輯簡(jiǎn)單、底層透明的并行處理框架。HDFS具有高容錯(cuò)性,適合批處理、大數(shù)據(jù)處理,可構(gòu)建在廉價(jià)處理機(jī)器上等優(yōu)點(diǎn),在Hadoop平臺(tái)上,有很多新的開發(fā)、應(yīng)用、管理工具,可查閱Hadoop生態(tài)圈,既同現(xiàn)有系統(tǒng)在數(shù)據(jù)檢索、存儲(chǔ)上有兼容之處,又可以采用新的技術(shù)開發(fā)新的監(jiān)管業(yè)務(wù)系統(tǒng)。
2.2.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)
現(xiàn)有互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng),該系統(tǒng)采用單點(diǎn)Oracle數(shù)據(jù)庫(kù)來存儲(chǔ)所有監(jiān)管網(wǎng)站的信息、索引、管理信息、統(tǒng)計(jì)報(bào)表、日志管理等,而全部視頻節(jié)目及抽取的關(guān)鍵幀采用FCSAN架構(gòu)來存儲(chǔ)。
對(duì)于當(dāng)前河南固有的互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)及將來的其他新媒體監(jiān)管業(yè)務(wù)系統(tǒng)(微信、微博、手機(jī)APP,OTT,直播等)可以考慮在Hadoop上進(jìn)行融合。其中有幾個(gè)重要的工具可以幫助我們遷移及構(gòu)建新媒體監(jiān)管業(yè)務(wù)綜合平臺(tái)。
2.2.2 Hive[3]
它是一個(gè)構(gòu)建在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)框架,它把數(shù)據(jù)組織為表,然后通過一種方式將存儲(chǔ)在HDFS中的數(shù)據(jù)賦予結(jié)構(gòu),Hive會(huì)將SQL查詢語(yǔ)句轉(zhuǎn)換為一系列在Hadoop集群上運(yùn)行的MapReduce作業(yè)完成一次集中查詢。其設(shè)計(jì)初衷是讓精通SQL技能的分析師能夠?qū)Ψ旁贖DFS上的大規(guī)模數(shù)據(jù)集執(zhí)行集中查詢。對(duì)于現(xiàn)有監(jiān)管中心維護(hù)人員來說,在擴(kuò)展及升級(jí)本中心系統(tǒng)的同時(shí),Hive不失為一種好的選擇,其多年的SQL語(yǔ)句的維護(hù)技能優(yōu)勢(shì)還能繼續(xù)得以發(fā)揮。
2.2.3 Hbase
它是一個(gè)在HDFS上開發(fā)的面向列的典型的分布式數(shù)據(jù)庫(kù),非關(guān)系型數(shù)據(jù)庫(kù),提供大規(guī)模伸縮式服務(wù)[4],實(shí)時(shí)支持隨機(jī)訪問超大規(guī)模數(shù)據(jù)集。新媒體監(jiān)管業(yè)務(wù)系統(tǒng)本身就擁有超大規(guī)模數(shù)據(jù),以往的關(guān)系型數(shù)據(jù)庫(kù)在暴增的視聽數(shù)據(jù)面前,面臨實(shí)時(shí)的大規(guī)模查詢,會(huì)顯現(xiàn)越來越笨拙,Hbase將為新的數(shù)據(jù)提供新的、更高級(jí)、更快的服務(wù)。此外,該數(shù)據(jù)庫(kù)本身就有一個(gè)典型的應(yīng)用:webtable,一個(gè)以網(wǎng)頁(yè)為URL為主鍵的表,其中包含爬取頁(yè)面和頁(yè)面的屬性,webtable非常大,行數(shù)可以達(dá)十億級(jí)之級(jí)。因此,與新媒體監(jiān)管業(yè)務(wù)系統(tǒng)特別是互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)是一個(gè)很好的契合點(diǎn),在建設(shè)綜合平臺(tái)選擇分布式數(shù)據(jù)庫(kù)時(shí),Hbase無疑是我們的最佳選擇。
2.2.4 Sqoop
它的功能是將將結(jié)構(gòu)化存儲(chǔ)數(shù)據(jù)抽取到hadoop中,用于進(jìn)一步處理,供Hive應(yīng)用,或者更甚者供HBase應(yīng)用。它支持當(dāng)前很多通用關(guān)系型數(shù)據(jù)庫(kù),例如:MySQL、PostgreSql、Oracle、SQLserver和DB2,同時(shí)還有一個(gè)通用的JDBC連接器。河南互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)中,其龐大的數(shù)據(jù)庫(kù)目前是用單臺(tái)Oracle來存儲(chǔ)的,如果建設(shè)綜合監(jiān)管平臺(tái),必定將老數(shù)據(jù)遷移至新平添,該工具可以圓滿完成該任務(wù),可以將數(shù)據(jù)據(jù)遷移至Hadoop平臺(tái)上或者遷移至分布式數(shù)據(jù)庫(kù)Hbase中。
2.2.5 ZooKeeper
ZooKeeper是Hadoop的一個(gè)分布式協(xié)調(diào)服務(wù),是Hadoop和Hbase的重要組件。它是一個(gè)為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括:配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等。分布式應(yīng)用中主要困難在于寫應(yīng)用可能存在“部分失敗”,當(dāng)一條消息在網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)之間傳送時(shí),如果網(wǎng)絡(luò)出現(xiàn)錯(cuò)誤,發(fā)送者無法知道接收者是否已經(jīng)收到消息。接收者可能在出現(xiàn)網(wǎng)絡(luò)錯(cuò)誤之前就已經(jīng)收到這條消息,也可能沒有收到,又或者接收的進(jìn)程已經(jīng)死掉。由于“部分失敗”是分布式系統(tǒng)的固有的特征,ZooKeeper可以提供一組工具,使你在構(gòu)建分布式應(yīng)用時(shí)能夠?qū)Α安糠质 边M(jìn)行處理,為分布式應(yīng)用服務(wù)保駕護(hù)航。
新媒體監(jiān)管業(yè)務(wù)綜合監(jiān)管平臺(tái)如圖1,包含互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)、手機(jī)APP監(jiān)管系統(tǒng)、微信監(jiān)管系統(tǒng)、微博監(jiān)管系統(tǒng)、輿情監(jiān)管系統(tǒng)、網(wǎng)絡(luò)直播監(jiān)管系統(tǒng)、OTT監(jiān)管系統(tǒng)七大監(jiān)管系統(tǒng)和其他日常管理模塊,七大系統(tǒng)數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)排重、一致性判斷統(tǒng)一集成在Hadoop和HBase集成的數(shù)據(jù)服務(wù)中,達(dá)到數(shù)據(jù)高效、精潔利用。
圖1 新媒體監(jiān)管業(yè)務(wù)綜合平臺(tái)圖
該平臺(tái)至少具有以下功能:
(1)可靠性,穩(wěn)定性;
(2)強(qiáng)健性,高可用性;
(3)實(shí)用性強(qiáng),易操作,易維護(hù)性;
(4)可擴(kuò)展性、伸縮性強(qiáng);
(5)系統(tǒng)與系統(tǒng)之間松和耦合,系統(tǒng)數(shù)據(jù)冗余率低;
(6)大數(shù)據(jù)存儲(chǔ)擴(kuò)展性強(qiáng);
(7)容災(zāi)能力強(qiáng),故障可隔離性。
新媒體監(jiān)管業(yè)務(wù)綜合平臺(tái),用于當(dāng)前互聯(lián)網(wǎng)新媒體業(yè)務(wù)的監(jiān)管業(yè)務(wù),既融合有當(dāng)前舊系統(tǒng)已有功能,也也將吸收當(dāng)前互聯(lián)網(wǎng)的最新技術(shù),因此,在設(shè)計(jì)初期,必須考慮到新的系統(tǒng)開發(fā)商的集成能力及與舊系統(tǒng)協(xié)商溝通能力,對(duì)平臺(tái)的設(shè)計(jì)、開發(fā)、搭建、遷移及維護(hù)人員也有更高能力的要求。新媒體監(jiān)管業(yè)務(wù)綜合平臺(tái)的建設(shè)必將在有效利用硬件資源的同時(shí),整合所有業(yè)務(wù)系統(tǒng)數(shù)據(jù),使得數(shù)據(jù)利用率更高,業(yè)務(wù)質(zhì)量得到進(jìn)一步提升,新媒體的監(jiān)管業(yè)務(wù)模式將更加統(tǒng)一。
參考文獻(xiàn):
[1] Tom White(美)著. 華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院(譯) 《Hadoop權(quán)威指南(第三版)》 [2015-1] .
[2] 陳忠義.基于Hadoop的分布式文件系統(tǒng)[J].電子技術(shù)與軟件工程.2017,5[3]:175.
[3] 李春曉,基于Hive的分布式空間數(shù)據(jù)庫(kù)的研究與優(yōu)化[C] 河南:河南大學(xué),2015:15-18.
[4] 涂俊英,李志敏云.計(jì)算下非結(jié)構(gòu)化大數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2018,1[1]:175-176.