• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      高通量圖像視頻計(jì)算

      2017-06-23 12:47:08唐金輝李澤超劉少禮
      關(guān)鍵詞:高通量編碼特征

      唐金輝 李澤超 劉少禮 秦 磊

      1(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)2(中國科學(xué)院計(jì)算技術(shù)研究所 北京 100190)

      高通量圖像視頻計(jì)算

      唐金輝1李澤超1劉少禮2秦 磊2

      1(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)2(中國科學(xué)院計(jì)算技術(shù)研究所 北京 100190)

      (jinhuitang@njust.edu,cn)

      互聯(lián)網(wǎng)上的圖像和視頻數(shù)據(jù)正在飛速地產(chǎn)生和傳播.這些數(shù)據(jù)不僅規(guī)模龐大,還具有高并發(fā)、高維度、大流量的顯著特性,導(dǎo)致了目前對它們的實(shí)時(shí)分析和處理面臨著巨大的挑戰(zhàn).這就需要開展高通量圖像視頻計(jì)算方面的研究,需要結(jié)合新型硬件結(jié)構(gòu),利用其體系結(jié)構(gòu)優(yōu)勢,提出一系列實(shí)用的高通量圖像視頻計(jì)算理論與方法,提升數(shù)據(jù)中心的圖像視頻數(shù)據(jù)處理效率.為此,在詳細(xì)地分析了現(xiàn)有的高通量圖像視頻計(jì)算相關(guān)方法與技術(shù)的基礎(chǔ)上,探討了現(xiàn)有高通量圖像視頻計(jì)算方法研究的不足;進(jìn)一步地,分析了高通量圖像視頻計(jì)算的3個(gè)未來研究方向:高通量圖像視頻計(jì)算理論、高通量圖像視頻分析方法及高通量視頻編碼方法.最后,總結(jié)了高通量圖像視頻計(jì)算需要解決的3個(gè)關(guān)鍵科學(xué)問題.這些問題的解決將為互聯(lián)網(wǎng)圖像視頻內(nèi)容監(jiān)管、大規(guī)模視頻監(jiān)控、圖像視頻搜索等重要應(yīng)用提供關(guān)鍵技術(shù)支持.

      圖像分析;視頻分析;高通量;視頻編碼;視頻計(jì)算

      近年來,圖像和視頻數(shù)據(jù)正在以前所未有的速度不斷地產(chǎn)生和傳播,已成為這個(gè)時(shí)代真正的大數(shù)據(jù).它的兩大特點(diǎn)是大容量和高并發(fā).高并發(fā)意味著單位時(shí)間內(nèi)產(chǎn)生的請求或任務(wù)的數(shù)量大.無論對國家公共安全還是日益增長的互聯(lián)網(wǎng)經(jīng)濟(jì)來說,如何對這些具有高并發(fā)性的海量圖像視頻數(shù)據(jù)進(jìn)行實(shí)時(shí)高效的分析和處理,已成為一個(gè)亟待解決的重要問題.

      高通量圖像視頻計(jì)算就是高效地處理大容量和高并發(fā)的圖像視頻數(shù)據(jù).目前已有相關(guān)工作開始關(guān)注高通量圖像視頻計(jì)算,比如圖像視頻并行計(jì)算方法、圖像視頻的多級計(jì)算模型等.然而,這些模型與方法大多是關(guān)注如何提高單個(gè)圖像視頻分析和處理的精度及速度,而較少關(guān)注高并發(fā)環(huán)境下的系統(tǒng)吞吐能力和高通量化研究.因此,為了滿足日益增長的高通量圖像視頻計(jì)算需求,這就需要結(jié)合新型硬件結(jié)構(gòu),利用其體系結(jié)構(gòu)優(yōu)勢,提出一系列實(shí)用的高通量圖像視頻計(jì)算理論與方法,提升數(shù)據(jù)中心的圖像視頻數(shù)據(jù)處理效率.為此,本文重點(diǎn)關(guān)注大容量和高并發(fā)圖像視頻數(shù)據(jù)的低延遲、高精度計(jì)算方法,在詳細(xì)分析了現(xiàn)有的高通量圖像視頻計(jì)算相關(guān)方法與技術(shù)的基礎(chǔ)上,進(jìn)一步討論了現(xiàn)有高通量圖像視頻計(jì)算方法研究的不足,最后分析了高通量圖像視頻計(jì)算的未來研究方向及需要解決的科學(xué)問題.

      本文的主要貢獻(xiàn)有3點(diǎn):

      1) 詳細(xì)闡述了高通量圖像視頻計(jì)算的相關(guān)研究現(xiàn)狀;

      2) 分析了現(xiàn)有高通量圖像視頻計(jì)算方法的不足;

      3) 提出了高通量圖像視頻計(jì)算的未來研究方向及需要解決的科學(xué)問題.

      1 背景和意義

      在網(wǎng)絡(luò)空間中,海量的網(wǎng)絡(luò)用戶時(shí)刻在創(chuàng)造大量的圖像視頻數(shù)據(jù),例如YouTube視頻分享網(wǎng)站的每分鐘上傳視頻長度約為60 h,每日用戶觀看量超過30億次;另一方面,24 h不斷更新的監(jiān)控視頻數(shù)據(jù)也是海量視頻的一個(gè)重要來源,例如北京奧運(yùn)期間就安裝了30萬臺攝像頭,而英國倫敦2012年奧運(yùn)會(huì)則安裝了50多萬臺;此外,隨著移動(dòng)智能終端的拍攝與分享功能的不斷增強(qiáng),移動(dòng)圖像視頻搜索等新型應(yīng)用也面臨著數(shù)量驚人的數(shù)據(jù).這些圖像視頻數(shù)據(jù)不僅規(guī)模龐大,更重要的是還具有高并發(fā)、高維度、大流量的顯著特性.比如,在互聯(lián)網(wǎng)視頻內(nèi)容監(jiān)管中,流量通常高達(dá)每秒幾GB甚至幾十GB.不幸的是,目前的計(jì)算機(jī)系統(tǒng)以及圖像視頻分析技術(shù),都無法應(yīng)對大容量和高并發(fā)帶來的挑戰(zhàn).

      首先,從計(jì)算機(jī)系統(tǒng)的角度來說,傳統(tǒng)的高性能計(jì)算機(jī)追求單個(gè)并行應(yīng)用的性能,主要用于科學(xué)計(jì)算.而高通量計(jì)算機(jī)是適用于互聯(lián)網(wǎng)新興應(yīng)用負(fù)載特征、在強(qiáng)時(shí)間約束下處理高吞吐量請求的一種高性能計(jì)算機(jī),采用以低成本、高擴(kuò)展和集中的硬件、軟件系統(tǒng)棧處理高并發(fā)負(fù)載的數(shù)據(jù)中心計(jì)算機(jī)系統(tǒng).高通量計(jì)算在結(jié)構(gòu)特征、資源管理、調(diào)度策略等方面非常類似于城市交通管理,因?yàn)閮烧叩墓餐卣魇菃挝粫r(shí)間內(nèi)盡可能多的處理請求,并保證服務(wù)質(zhì)量.傳統(tǒng)的高性能科學(xué)計(jì)算的特點(diǎn)是計(jì)算密集型,追求的目標(biāo)是高速度,即“算得快”;而新型高通量計(jì)算的特點(diǎn)是請求密集型,追求的目標(biāo)是高通量,即單位時(shí)間內(nèi)“算得多”.傳統(tǒng)商業(yè)化的高通量計(jì)算機(jī)應(yīng)用大多面向文本信息的處理,而對圖像視頻等多媒體信息的處理大多仍采用離線處理、在線分發(fā)的方式進(jìn)行.隨著多媒體內(nèi)容服務(wù)成為互聯(lián)網(wǎng)最主要的服務(wù)之一,面向多媒體信息處理的高通量計(jì)算機(jī)應(yīng)用越來越多,包括視頻轉(zhuǎn)碼服務(wù)、視頻會(huì)議服務(wù)、視頻版權(quán)鑒定服務(wù)、內(nèi)容檢索服務(wù)等.但目前這些面向高并發(fā)的多媒體服務(wù)仍然運(yùn)行在數(shù)據(jù)中心的通用硬件上,給數(shù)據(jù)中心帶來了巨大的壓力,降低了數(shù)據(jù)中心的效率,使得其實(shí)時(shí)性、服務(wù)質(zhì)量和規(guī)模都受到了嚴(yán)重的影響.

      其次,從圖像視頻計(jì)算技術(shù)的角度來說,現(xiàn)有的研究大多關(guān)注如何提高單個(gè)圖像視頻分析和處理的精度及速度,而較少關(guān)注高并發(fā)環(huán)境下的系統(tǒng)吞吐能力.所謂系統(tǒng)的吞吐量(throughput)指的是一套計(jì)算機(jī)系統(tǒng)單位時(shí)間內(nèi)可處理的服務(wù)請求數(shù).近幾年,為了提高圖像視頻分析算法的效率,研究者針對GPU(graphics processing unit)或眾核等并行計(jì)算平臺的硬件特性,挖掘算法本身的可并行性.但目前基于GPU加速的各種算法大多是把已有算法簡單地在GPU平臺上實(shí)現(xiàn),需要在不同存儲(chǔ)器之間多次拷貝數(shù)據(jù),因此效率的提升非常有限.現(xiàn)有的圖像視頻計(jì)算技術(shù)與方法無論在速度還是精度上都無法滿足前面所提到的各種高通量應(yīng)用的需求.

      因此,為了滿足日益增長的高通量圖像視頻計(jì)算需求,本文對現(xiàn)有的高通量圖像視頻計(jì)算方法進(jìn)行調(diào)研與分析,探討現(xiàn)有高通量圖像視頻計(jì)算方法的不足,并結(jié)合新型硬件結(jié)構(gòu),利用其體系結(jié)構(gòu)優(yōu)勢,提出高通量圖像視頻計(jì)算的未來研究方向以及需要解決的科學(xué)問題.

      2 國內(nèi)外研究概況

      面向高通量的圖像視頻計(jì)算主要涉及計(jì)算數(shù)據(jù)及任務(wù)的相關(guān)性分析、并行理論、圖像視頻特征提取、聚類和學(xué)習(xí)算法、圖像視頻語義計(jì)算、視頻編碼的并行模式選擇和并行去塊濾波等研究內(nèi)容.接下來,將分別從3個(gè)相關(guān)方面對現(xiàn)有方法進(jìn)行詳細(xì)介紹和分析.

      2.1 高通量圖像視頻計(jì)算理論

      高通量圖像視頻計(jì)算任務(wù)往往是基于一系列基本學(xué)習(xí)子任務(wù)的一個(gè)較大任務(wù).而這些子任務(wù)之間往往是使用相同的數(shù)據(jù)或者關(guān)聯(lián)數(shù)據(jù)的.如果能充分地利用子任務(wù)間的相關(guān)性和數(shù)據(jù)間的相關(guān)性,就能極大地提高計(jì)算的并行度和計(jì)算效率.

      1) 相關(guān)性分析.在數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)習(xí)和概率論等領(lǐng)域中已有很多研究成果和經(jīng)典算法[1-2],比如典范相關(guān)分析(CCA)[3]等.這里的相關(guān)性指的是2個(gè)隨機(jī)變量或2組數(shù)據(jù)在統(tǒng)計(jì)上的依賴關(guān)系.這些方法主要是為了挖掘和發(fā)現(xiàn)數(shù)據(jù)分布上的相關(guān)性.在多媒體領(lǐng)域中,有研究者提出挖掘語義相關(guān)性(semantic correlation)[4]以幫助提高檢索的性能.語義相關(guān)性往往是基于多種媒體的共現(xiàn)頻率定義的.在機(jī)器學(xué)習(xí)領(lǐng)域中,利用數(shù)據(jù)和任務(wù)的相關(guān)性提高多個(gè)學(xué)習(xí)任務(wù)的性能也已有很多研究成果.比如,在分類、回歸和聚類等任務(wù)中使用遷移學(xué)習(xí)(transfer learning),利用在一個(gè)域上學(xué)習(xí)獲得的模型或知識輔助另一個(gè)域上的學(xué)習(xí)任務(wù)[5].在遷移學(xué)習(xí)中,根據(jù)源域和目標(biāo)域是否相同,以及源任務(wù)和目標(biāo)任務(wù)是否相同,可以分為3類:歸納遷移學(xué)習(xí)(inductive transfer learning)、直推式遷移學(xué)習(xí)(transductive transfer learning)和無監(jiān)督遷移學(xué)習(xí)(unsupervised transfer learning).①歸納遷移學(xué)習(xí)中,源任務(wù)和目標(biāo)任務(wù)是不一樣但相關(guān)的.針對該問題,研究者們提出了多任務(wù)學(xué)習(xí)框架(multi-task learning),如多任務(wù)特征學(xué)習(xí)[6-7]和正則化的多任務(wù)學(xué)習(xí)[8]等.②直推式遷移學(xué)習(xí)中的源域和目標(biāo)域是不同但相關(guān)的,該領(lǐng)域主要采用域適應(yīng)(domain adaptation)[9]等方法.③無監(jiān)督遷移學(xué)習(xí)主要研究聚類、降維和密度估計(jì)等問題[10].

      高通量圖像視頻計(jì)算的目的是實(shí)現(xiàn)圖像視頻的高通量計(jì)算,而高通量以提高計(jì)算效率為核心.此外,高通量圖像視頻計(jì)算任務(wù)往往是基于一系列基本學(xué)習(xí)子任務(wù)的一個(gè)較大任務(wù),以及數(shù)據(jù)是限定于圖像和視頻這種高維媒體數(shù)據(jù).從目前的研究現(xiàn)狀可以看出,利用數(shù)據(jù)和任務(wù)的相關(guān)性提高基本學(xué)習(xí)任務(wù)的性能是主要目的.目前針對于提高圖像視頻計(jì)算效率的相關(guān)性分析研究并不多見.

      2) 圖像視頻計(jì)算并行理論.由于通用處理器的性能有限,目前業(yè)界圖像視頻計(jì)算已經(jīng)轉(zhuǎn)向以GPU為主的硬件平臺.GPU本質(zhì)上是一種眾核處理器[11],包含由大量處理簡單任務(wù)的核心構(gòu)成的陣列,本身作為圖像處理的加速單元處理3D渲染、光源處理、立方體材質(zhì)貼圖等復(fù)雜的圖像任務(wù),從硬件本身提供強(qiáng)大的計(jì)算能力支持.

      GPU提供了多個(gè)層面的并行性.以NVIDIA的Fermi為例,它擁有3層分級架構(gòu):4個(gè)圖形處理圖團(tuán)簇(graphics processing clusters)、16個(gè)流陣列多處理器(streaming multiprocessors, SM)、512個(gè)硬件線程.每個(gè)團(tuán)簇包括4個(gè)SM,每個(gè)SM包括32個(gè)硬件線程.在計(jì)算過程中,GPU計(jì)算最小的單位是線程,多個(gè)線程會(huì)被打包在一個(gè)warp內(nèi)執(zhí)行.由于GPU的并行性粒度限制得非常嚴(yán)格,軟件如果無法拆分成32的整數(shù)倍個(gè)線程,就會(huì)出現(xiàn)硬件線程的浪費(fèi).

      除GPU外,F(xiàn)PGA也被廣泛應(yīng)用到媒體計(jì)算中.FPGA一般由基于RAM的查找表(LUT)、DSP邏輯、SRAM塊經(jīng)可靜態(tài)配置的二維多級網(wǎng)格鏈接而成.在FPGA上可以實(shí)現(xiàn)大量的運(yùn)算器件.普通程序員缺乏硬件背景,很難直接組織這些器件,往往需要依賴OpenCL等相對高層次的語言來使用FPGA.OpenCL對硬件的抽象也是提供了3個(gè)層面:computer device級、compute unit級以及processing element級.這些級別和真正的軟件應(yīng)用之間也存在距離.

      近年來,利用并行計(jì)算處理器進(jìn)行圖像視頻計(jì)算方法優(yōu)化,提升媒體計(jì)算效率逐漸成為新的研究熱點(diǎn).例如,在視頻轉(zhuǎn)碼方面,Ko等人根據(jù)轉(zhuǎn)碼所需要的緩存量來估計(jì)云轉(zhuǎn)碼系統(tǒng)所需要的機(jī)器數(shù)量,并設(shè)計(jì)了一個(gè)模擬器來計(jì)算合適的緩存數(shù)與機(jī)器數(shù)[12].Wu等人根據(jù)每個(gè)用戶的具體情況確定服務(wù)質(zhì)量,使用虛擬機(jī)實(shí)現(xiàn)多用戶的視頻會(huì)議[13].Zhang等人從降低功耗的角度給出了一種云端分配轉(zhuǎn)碼任務(wù)的算法,在隊(duì)列延遲和處理功耗之間進(jìn)行平衡[14].Jokhio等人研究了云轉(zhuǎn)碼中離線轉(zhuǎn)碼存儲(chǔ)轉(zhuǎn)發(fā)和實(shí)時(shí)轉(zhuǎn)碼之間的能耗成本關(guān)系,并研究了平衡計(jì)算資源與存儲(chǔ)資源成本的調(diào)度策略[15].然而,單純在任務(wù)管理級別進(jìn)行優(yōu)化研究是不夠的,要從根本上提高效率必須要結(jié)合具體的硬件.

      由于受到實(shí)際硬件條件的限制,目前結(jié)合各種新型處理器進(jìn)行圖像視頻處理優(yōu)化的研究工作有限.新型的面向高通量計(jì)算機(jī)硬件的應(yīng)用軟件優(yōu)化研究目前多集中在網(wǎng)頁應(yīng)用和數(shù)據(jù)挖掘等方面,對編解碼應(yīng)用的體系結(jié)構(gòu)并行優(yōu)化尚顯不足.在編解碼方面,Cho等人利用Cell處理器特殊的SPR結(jié)構(gòu)進(jìn)行了H.264解碼加速優(yōu)化研究[16].Meenderinck等人分析了從宏塊到GOP級的所有級別的單路解碼并行方法,并提出了3D-Wave的方法[17].以Tilera處理器為例進(jìn)行解碼并行化方面的研究工作也被提出了[18-19].在視頻內(nèi)容檢索方面,高通量計(jì)算機(jī)并行優(yōu)化的研究工作主要集中于移動(dòng)視頻檢索、版本檢測等方面.Diao等人研究了在單個(gè)GPU上同時(shí)進(jìn)行特征提取和檢索的方法,并給出了在多GPU上進(jìn)行擴(kuò)展的模型[20].Fang等人實(shí)現(xiàn)了一種并行視頻內(nèi)容檢索算法[21],實(shí)驗(yàn)顯示達(dá)到了CUDA實(shí)現(xiàn)的SURF算法性能的46倍.Liu等人用Map-Reduce模型在GPU上實(shí)現(xiàn)了一套并行視頻檢索系統(tǒng),與串行程序相比速度提升了20倍[22].由此可見,視頻檢索的硬件并行優(yōu)化對提升系統(tǒng)整體性能作用顯著.

      綜上,利用并行計(jì)算硬件資源進(jìn)行圖像視頻處理算法優(yōu)化已成為一個(gè)重要的研究方向,也取得了一定的成果.然而,目前的研究主要集中在如何利用現(xiàn)有并行計(jì)算硬件的體系機(jī)構(gòu)特點(diǎn)提升圖像視頻計(jì)算效率.由于現(xiàn)有并行計(jì)算硬件的體系機(jī)構(gòu)并不是針對媒體計(jì)算進(jìn)行專門設(shè)計(jì)和優(yōu)化,效率提升的空間有限.因此從根本上提高效率,必須有一套理論來刻畫圖像視頻高通量計(jì)算的特點(diǎn),在此理論指導(dǎo)下,從圖像視頻計(jì)算模型優(yōu)化和并行計(jì)算硬件支撐2個(gè)方向共同努力,以實(shí)現(xiàn)圖像視頻的高通量計(jì)算.

      2.2 高通量圖像視頻分析方法

      1) 圖像與視頻的特征表示作為計(jì)算機(jī)視覺和模式識別領(lǐng)域的一個(gè)基本而重要的問題一直被廣泛關(guān)注.高通量圖像視頻分析離不開高效的圖像視頻特征提取.這就需要開展高通量的圖像視頻特征提取手段.因此,下面對圖像視頻特征進(jìn)行簡要的分析.研究者已經(jīng)提出了很多圖像視頻特征,這些特征大體可以分為人工設(shè)計(jì)的特征和基于數(shù)據(jù)學(xué)習(xí)的特征兩大類.

      人工設(shè)計(jì)的圖像視頻特征是針對圖片分類、目標(biāo)識別、視頻檢索、行為分析等應(yīng)用,根據(jù)圖像視頻的顏色、紋理、亮度、邊緣等屬性,依靠專家的領(lǐng)域知識人工構(gòu)造的特征描述方法.這些方法可以分為基于空間頻域的特征和基于統(tǒng)計(jì)分布的特征.基于空間頻域的特征主要利用頻域變化方法提取局部上的空間頻域特征.如Gabor特征采用Gabor小波變換實(shí)現(xiàn)頻域特征的表示.Gabor小波能從不同尺度和方向有效表示圖像的局部特征,是一種被廣泛應(yīng)用的圖像特征[23].相關(guān)工作[24-26]從不同角度對Gabor特征進(jìn)行了擴(kuò)展.基于統(tǒng)計(jì)分布的特征表示方法主要通過對像素的亮度或是梯度變化進(jìn)行統(tǒng)計(jì)并計(jì)算相應(yīng)的直方圖特征.這種方法可以獲得具有平移、旋轉(zhuǎn)和尺度等不變性的特征.由Lowe提出的SIFT(scale-invariant feature transform)是其中最具代表性的工作[27].SIFT具備很好的平移、旋轉(zhuǎn)、放縮等不變性,在圖像匹配、目標(biāo)識別和目標(biāo)檢測等方面得到了廣泛應(yīng)用.在SIFT特征的啟發(fā)下,研究者提出了很多基于統(tǒng)計(jì)分布的特征表示方法,如SURF(speeded up robust features)[28],HOG(histogram of oriented gradients)[29],LBP(local binary patterns)[30],BRIEF(binary robust independent elementary features)[31],F(xiàn)REAK(fast retina keypoint)[32]和BoW(bag of words)[33-34].人工設(shè)計(jì)的特征在特定的應(yīng)用問題上取得了不錯(cuò)的效果,但是這種特征依賴于專家的領(lǐng)域先驗(yàn)知識,而領(lǐng)域先驗(yàn)知識很多時(shí)候和真實(shí)場景中的復(fù)雜圖像視頻信號并不相符.因此,需要通過學(xué)習(xí)的方法從數(shù)據(jù)中學(xué)習(xí)非可控條件下的圖像視頻特征.

      基于數(shù)據(jù)學(xué)習(xí)的特征通過學(xué)習(xí)方法從大量圖像視頻數(shù)據(jù)中挖掘數(shù)據(jù)內(nèi)在的表示方式,最近,以卷積神經(jīng)網(wǎng)絡(luò)(CNNs)為代表的深度學(xué)習(xí)特征取得了很大成功.深度學(xué)習(xí)本質(zhì)上是一種多層神經(jīng)網(wǎng)絡(luò),通過多層網(wǎng)絡(luò)來從大量數(shù)據(jù)中學(xué)習(xí)不同層的抽象表示,它以比較自然的方式體現(xiàn)了從底層特征到高層特征的逐級抽象[35].深度學(xué)習(xí)最初應(yīng)用在數(shù)據(jù)降維、手寫數(shù)字識別等問題中,近年來在更廣泛的領(lǐng)域中展現(xiàn)出了其有效性,例如在大規(guī)模圖像分類、人臉識別、物體檢測、動(dòng)作識別等領(lǐng)域中.自從卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在大規(guī)模圖像分類任務(wù)上取得了突破后,研究者們對CNNs進(jìn)行了不斷的改進(jìn),新提出的CNNs的準(zhǔn)確度得到不斷提高.如在2012年ImageNet大尺度視覺識別競賽(ILSVRC)中Krizhevsky等人提出的7層AlexNet[36]取得了最好的性能,其top5分類錯(cuò)誤率是16.4%.在2014年ILSVRC競賽中,谷歌公司提出的19層GoogLeNet的top5分類錯(cuò)誤率是6.7%[37].然而,這些網(wǎng)絡(luò)的計(jì)算成本(尤其是更準(zhǔn)確的,但較大的模型)也在顯著增加.

      綜上所述,目前已經(jīng)有了一些圖像視頻特征被成功應(yīng)用于各個(gè)領(lǐng)域中.但是隨著海量圖像視頻時(shí)代的到來,對于高通量的圖像視頻處理需求,例如云服務(wù)器每天需要處理上億的圖片,目前這些特征的提取方法的計(jì)算量還是比較龐大,難以滿足高通量的圖像視頻大數(shù)據(jù)處理的實(shí)時(shí)性要求,已成為處理高通量圖像視頻數(shù)據(jù)的主要瓶頸之一[38].研究人員亟需提出有效的手段來提高圖像視頻特征提取的效率.

      2) 抗噪性聚類是多媒體視覺特征提取和高維數(shù)據(jù)信息建模的有效手段.常見方法是以相似度鄰接矩陣為基礎(chǔ)的一類方法[39-40].通過在鄰接圖結(jié)構(gòu)上查找密集子圖的方式,所得到的聚類分析結(jié)果比傳統(tǒng)的k均值聚類[41-42]和譜聚類[43-45]等方法具有更好的抗噪性能.密集子圖搜索方法已被深入研究[46-48].Motzkin等人[49]證明了在無權(quán)重圖上查找密集子圖可以等價(jià)為一個(gè)在單純形上的二次優(yōu)化問題.這種思想進(jìn)一步被擴(kuò)展到處理有權(quán)重的圖上,也被稱為優(yōu)勢集方法(dominant set method).優(yōu)勢集方法通過復(fù)制動(dòng)態(tài)(replicator dynamics, RD)方法[50]求解對應(yīng)的標(biāo)準(zhǔn)二次優(yōu)化問題.Rota Bulo等人[40]的研究表明,給定n個(gè)圖節(jié)點(diǎn)和完全的圖鄰接矩陣,每一次RD迭代求解的時(shí)間復(fù)雜度是O(n2).這極大地阻礙了其被用于處理大規(guī)模數(shù)據(jù).所以,Bulo等人提出了一種感染免疫動(dòng)態(tài)模型(infection immunization dynamics,IID)來求解該標(biāo)準(zhǔn)二次優(yōu)化問題,使得每一步優(yōu)化的時(shí)間和空間復(fù)雜度降到了O(n).然而,由于每次IID迭代需要維護(hù)一個(gè)完全的鄰接矩陣,其總體優(yōu)化過程的時(shí)間和空間復(fù)雜度仍然是O(n2).

      由于大多數(shù)的密集子圖都存在于一個(gè)鄰接圖的局部區(qū)域,所以在整個(gè)圖結(jié)構(gòu)上運(yùn)行RD是不經(jīng)濟(jì)的[38,51].所以,Liu等人[39]提出一種基于搜索和擴(kuò)展的方法(shrinking and expansion, SEA).這種方法將所有的RD循環(huán)限制在一個(gè)小的局部區(qū)域上進(jìn)行,從而有效地避免不必要的時(shí)間和空間開銷.在這種情況下,SEA的時(shí)間和空間復(fù)雜度與圖邊的數(shù)量是呈線性相關(guān)的.所以,SEA的可擴(kuò)展性容易受到一個(gè)鄰接圖的稀疏程度的影響.鄰接擴(kuò)散(affinity propagation, AP)[52]是另外一種典型的具有抗噪性的方法,并且被廣泛用于多媒體和視覺信息處理.它的另外一個(gè)優(yōu)點(diǎn)在于其無需預(yù)先制定聚類的數(shù)量.這種方法通過在圖邊上進(jìn)行信息傳遞的方式去搜索聚類模式.然而,當(dāng)有巨大數(shù)量的節(jié)點(diǎn)和邊時(shí),這種方式十分耗時(shí).均值漂移(mean shift, MS)[53]與基于鄰接矩陣的方法有顯著不同,區(qū)別在于其直接在特征空間進(jìn)行聚類模式搜索.然而,均值漂移容易受到搜索帶寬設(shè)定和特征維度等因素的影響.之前提到的基于鄰接圖的方法,在當(dāng)鄰接矩陣已經(jīng)計(jì)算好的情況下能夠獲得非常高的檢測質(zhì)量.然而,這類方法由于計(jì)算鄰接矩陣的需要,在大數(shù)據(jù)上的時(shí)間和空間復(fù)雜度都在O(n2)級別.同時(shí),一般的抗噪性聚類方法并不具備并行化的技術(shù)解決方案和系統(tǒng)實(shí)現(xiàn).最重要的是,對于這類方法的高通量化研究以及在多媒體和視覺計(jì)算方面的系統(tǒng)實(shí)現(xiàn),在國內(nèi)外都是空白.

      3) 基于多任務(wù)多特征學(xué)習(xí)的視覺語義高通量計(jì)算模型.在多個(gè)特征表示上構(gòu)建圖像分析模型,一個(gè)簡單的方案就是將多個(gè)特征拼接成一個(gè)長特征向量.另外一種方案是在單個(gè)特征上進(jìn)行模型學(xué)習(xí),最后融合多個(gè)統(tǒng)計(jì)模型的判別能力[54].在半監(jiān)督學(xué)習(xí)領(lǐng)域,典型的有效利用多特征表示的半監(jiān)督學(xué)習(xí)方法是聯(lián)合訓(xùn)練[55]和多視角學(xué)習(xí)[56-57].

      2004年,Lanckriet[58]和Bach[59]分別在不同的文章中提出和介紹了多核學(xué)習(xí)方法.然而,早期的多核學(xué)習(xí)方法的優(yōu)化求解非常麻煩,因?yàn)槠淠繕?biāo)函數(shù)是一個(gè)具有二次約束的二次優(yōu)化問題,必須用復(fù)雜的QCQP方法或者半定規(guī)劃(SDP)方法加以解決,盡管Sonnenburg等人提出了可以用序列最小優(yōu)化(SMO)求解[60],但復(fù)雜的附加條件仍然限制了多核學(xué)習(xí)方法的實(shí)用性.為了克服這一問題,Sonnenburg等人[60]在2006年提出一種基于cutting plane的大規(guī)模優(yōu)化方法,并在工具包Shogun中實(shí)現(xiàn),引發(fā)了相關(guān)學(xué)者的極大關(guān)注.進(jìn)一步,Rakotomamonjy等人在2008年提出了SimpleMKL[61],將多核學(xué)習(xí)問題用一個(gè)2步驟的選擇優(yōu)化機(jī)制(alternative optimiza-tion)去解決:步驟1,在給定核權(quán)值的情況下,優(yōu)化一個(gè)等價(jià)的支持向量機(jī)二次優(yōu)化問題;步驟2,在給定支持向量模型參數(shù)的情況下,自動(dòng)更新核權(quán)值.此2步驟操作不斷交替進(jìn)行直到收斂.該方法盡管不能保證獲得全局最優(yōu)解,但仍保證了模型訓(xùn)練的低復(fù)雜度和模型的魯棒性,從而使得多核學(xué)習(xí)方法逐漸流行起來,并被廣泛使用于相關(guān)領(lǐng)域的研究.

      多核學(xué)習(xí)的一個(gè)重要問題,是如何對核權(quán)重系數(shù)進(jìn)行認(rèn)識以及建模.早期研究的目的是對最佳核進(jìn)行選擇,故采用稀疏性約束(L1-norm).Bach等人提出對核權(quán)重采用復(fù)雜的結(jié)構(gòu)稀疏性正則化約束[62].隨后,Cortes等人提出了一種L2范式的多核學(xué)習(xí)[63],這個(gè)問題被形式化成一個(gè)一般性的Lp范式約束的多核學(xué)習(xí)模型[64-65],而該模型的求解也是用了與SimpleMKL類似的求解過程.Vishwana-than等人發(fā)現(xiàn)多核學(xué)習(xí)問題完全可以用SMO直接進(jìn)行求解[66].

      針對多核學(xué)習(xí)自身的特性,學(xué)者們從不同方面進(jìn)行了研究.例如,Gonen等人[67]將多核學(xué)習(xí)的全局核權(quán)重?cái)U(kuò)展成局部核權(quán)重形式,這一思想被Yang等人借鑒并提出一種組敏感的多核學(xué)習(xí)模型[68].Suzuki等人進(jìn)一步對多核學(xué)習(xí)的可擴(kuò)展性進(jìn)行了研究,并提出一種SpicyMKL[69]方法,利用近似梯度法(proximal gradient)對多核學(xué)習(xí)模型進(jìn)行優(yōu)化,通過并行化和加速可以處理具有上千個(gè)核的多核學(xué)習(xí)問題.Cortes等人利用Radermacher復(fù)雜度理論對多核學(xué)習(xí)的理論界進(jìn)行了推導(dǎo)[70],這對多核學(xué)習(xí)的發(fā)展具有一定的指導(dǎo)意義.

      在實(shí)際應(yīng)用中常常需要處理包含成百上千個(gè)結(jié)構(gòu)化語義類別的數(shù)據(jù),這些語義類別可以組織成如WordNet[71]這種語義本體的結(jié)構(gòu)形式.這種特性使得視覺特征在其空間中的分布非常雜亂.然而,如果對層次化語義信息進(jìn)行分析,發(fā)現(xiàn)同一語義類別子集下面的圖片往往有很多共同的視覺特性[72-73],而來自不同子集下面的圖片則很容易被區(qū)分.這些先驗(yàn)知識可以促進(jìn)語義概念之間的信息共享結(jié)構(gòu)的構(gòu)建,從而增強(qiáng)模型在實(shí)際應(yīng)用中的圖片分類能力.為了利用這些信息,近幾年一些距離度量學(xué)習(xí)的方法被提出.例如Parameswaran等人[74]將最大邊界近鄰方法(large margin nearest neighbor method)[75]擴(kuò)展成多任務(wù)距離度量學(xué)習(xí);Hwang等人[76]提出學(xué)習(xí)一種距離度量樹的方法來應(yīng)對層次化的物體結(jié)構(gòu).

      然而,已有研究主要集中在模型本身和優(yōu)化求解2方面,對語義學(xué)習(xí)、度量學(xué)習(xí)和多任務(wù)學(xué)習(xí)等模型的高通量化研究在國內(nèi)外尚屬空白.

      4) 圖像視頻的高通量多級計(jì)算模型.近年來,由于計(jì)算設(shè)備和機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展,深度學(xué)習(xí)模型已逐漸成為視覺信息處理的一種基準(zhǔn)方法.深度學(xué)習(xí)和人工智能早期的神經(jīng)網(wǎng)絡(luò)有著千絲萬縷的聯(lián)系.Hinton等人在2006年提出一種基于層疊式受限波爾茲曼機(jī)的深度模型[77],并提出了一種簡單有效的模型優(yōu)化方法,使深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))避免了由于局部解造成的模型退化問題,受到了學(xué)術(shù)界的關(guān)注.該思想隨后被廣泛嘗試,尤其是被用于數(shù)據(jù)表達(dá)學(xué)習(xí)方面[78-79].卷積神經(jīng)網(wǎng)絡(luò)(CNN)[80]也是一種深度學(xué)習(xí)模型,最早被用來處理特定類型的圖像和語音信號.在融合了Hinton深度學(xué)習(xí)[77]的若干特點(diǎn)之后,CNN被首次嘗試在一般性物體識別任務(wù)上[81],并在大規(guī)?;鶞?zhǔn)視覺分類測試集上獲得了比最好的非深度模型超過10%的性能提升.卷積神經(jīng)網(wǎng)絡(luò)通過對原始圖像的多層多級濾波器卷積、池化和規(guī)整操作,將視覺信息進(jìn)行解相關(guān)和重聚合,經(jīng)過逐級映射形成具有語義顯著性的高層特征,而在多級卷積層的后端和輸出層之間的全連通層(或稀疏連通層)則起到了對卷積特征加以選擇和融合的作用.這套多級學(xué)習(xí)機(jī)制有效地克服了從視覺信息的像素表示到語義輸出之間的巨大語義鴻溝.卷積神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用極大地激發(fā)了學(xué)術(shù)界的關(guān)注,使得近年來深度學(xué)習(xí)方法被應(yīng)用在計(jì)算機(jī)科學(xué)的各個(gè)方向,尤其是機(jī)器學(xué)習(xí)、模式識別、計(jì)算機(jī)視覺[81]、語音信號處理[82]、自然語言處理[83]等領(lǐng)域.在系統(tǒng)實(shí)現(xiàn)方面,深度學(xué)習(xí)的模型訓(xùn)練最初使用分布式Hadoop進(jìn)行學(xué)習(xí)[81],之后被使用到高性能計(jì)算卡(GPU)或計(jì)算卡陣列上,訓(xùn)練速度獲得了百倍甚至千倍的提升.然而,對深度和多級學(xué)習(xí)方法的高通量化研究尚待進(jìn)一步探索.

      2.3 高通量視頻編碼方法

      由于視頻編碼過程極其復(fù)雜,各編碼環(huán)節(jié)間和環(huán)節(jié)內(nèi)存在廣泛的數(shù)據(jù)依賴,因此高通量的視頻編碼研究包含對各編碼環(huán)節(jié)內(nèi)部的數(shù)據(jù)并行處理和編碼環(huán)節(jié)間的并行化.

      作為一個(gè)新興的研究熱點(diǎn)問題,基于GPU平臺的HEVC編碼擁有重要的學(xué)術(shù)價(jià)值和巨大的應(yīng)用前景,吸引了來自于學(xué)術(shù)界和工業(yè)界不同領(lǐng)域的研究人員在這一問題上開展研究,著名的研究機(jī)構(gòu)有Microsoft,Intel,MIT,CUHK,CityU,ICT,PKU等.圖1所示為HEVC編碼器的結(jié)構(gòu)圖[84],其中,模式選擇決定了運(yùn)動(dòng)估計(jì)等主要模塊的效率,環(huán)路去塊濾波在編碼環(huán)節(jié)中占用了大量計(jì)算資源和帶寬資源.由于HEVC標(biāo)準(zhǔn)2013年剛制定,目前針對HEVC的并行方法主要是面向以前的視頻編碼標(biāo)準(zhǔn),大部分方法并行度不高,不能充分利用GPU這么多的計(jì)算單元.同時(shí)這些并行方法不能直接適用于HEVC標(biāo)準(zhǔn),容易導(dǎo)致編碼效率的損失.如何在保證編碼效率的情況下,提高HEVC并行編碼的并行度,實(shí)現(xiàn)高通量視頻編碼,已成為亟待解決的問題.

      1) 并行模式選擇.模式選擇是對HEVC編碼計(jì)算過程中的計(jì)算量和訪存量影響最大的問題,貫穿于運(yùn)動(dòng)補(bǔ)償?shù)雀髦饕K,高效的并行模式選擇方法是實(shí)現(xiàn)高通量視頻編碼的關(guān)鍵所在.

      由于采用了靈活的編碼結(jié)構(gòu),HEVC的編碼模式搜索空間非常大.為了加快模式選擇(mode decision, MD),HEVC標(biāo)準(zhǔn)本身采納了多種便于并行編解碼的特性,比如wavefront parallel processing(WPP)[85],Tiles[86]和MER[87].WPP對編碼質(zhì)量的影響很小,但是能提供的并行度不高.Chi等人基于WPP提出了一種增強(qiáng)算法[88],能在多幀之間并行,提高了并行度.使用Tiles將圖像劃分為很多獨(dú)立編碼的塊能獲得較高并行度,但是會(huì)對編碼質(zhì)量造成很大影響.WPP和Tiles都是圖像區(qū)域之間的并行技術(shù),MER則是定義了一個(gè)局部區(qū)域,在此區(qū)域內(nèi)所有PU可以并行運(yùn)動(dòng)估計(jì)(motion estima-tion, ME).但是由于MER只適用于運(yùn)動(dòng)估計(jì)模塊,模式選擇的其他部分依然無法直接并行,整體并行度受到限制.

      根據(jù)并行范圍不同,目前的幀間MD方法可以分為全局并行方法[89-91]和局部并行方法[87,92].傳統(tǒng)的全局并行方法在一幀圖像內(nèi)并行,全局并行方法從所有的候選匹配代價(jià)中選擇匹配代價(jià)最小的塊分割模式,所有4×4匹配代價(jià)可以并行處理得到,并行度高、實(shí)現(xiàn)簡單,但是如果直接用于HEVC編碼標(biāo)準(zhǔn),會(huì)嚴(yán)重影響HEVC的編碼效率.局部并行方法局限在一個(gè)塊內(nèi)部并行,適用于HEVC標(biāo)準(zhǔn),保證了編碼效率,但是并行度偏低,不能充分利用眾核處理器平臺的眾多處理單元.

      對于幀內(nèi)MD并行,Zhao等人提出了一種使用前向無環(huán)圖描述CTU之間依賴關(guān)系的方法[93],實(shí)現(xiàn)了CTU之間的并行處理,本質(zhì)仍屬于WPP,平均獲得了5倍的加速比.Yan等人則使用分類器決策出最佳CTU的大小,通過較小的CTU大小能獲得較高的加速比,平均達(dá)到10倍[94].Jiang等人提出了一種在TU四叉樹劃分時(shí)4個(gè)子節(jié)點(diǎn)并行幀內(nèi)預(yù)測算法[95],但由于幀內(nèi)預(yù)測仍依賴于重構(gòu)像素,理論并行度只能達(dá)到4.

      從以上內(nèi)容可以看出,現(xiàn)有的優(yōu)化算法主要是粗粒度并行(Tiles,WPP),Jiang等人提出的算法[95]屬于細(xì)粒度并行但是并行度不高,這都嚴(yán)重制約了編碼系統(tǒng)的數(shù)據(jù)吞吐能力,難以實(shí)現(xiàn)高通量視頻編碼.

      2) 并行去塊濾波.除了模式選擇外,視頻編碼中的去塊濾波環(huán)節(jié)同樣存在多種數(shù)據(jù)依賴,是提高HEVC編碼數(shù)據(jù)處理能力的另一個(gè)瓶頸.目前的并行去塊濾波方法,根據(jù)是否影響編碼效率,可以分為無損并行方法[96-97,18]和有損并行方法[18].

      無損并行方法優(yōu)先保證編碼塊間相關(guān)性,因此保證了編碼效率,但造成并行度過低.在去塊濾波過程中,直接按左、上和右上3個(gè)編碼塊的數(shù)據(jù)依賴性進(jìn)行處理[96-97].最大并行度如式(1)所示,W和H分別表示了幀圖像水平和垂直方向的編碼塊數(shù)目,C是處理單元數(shù)目.

      (1)

      Yan等人修改了濾波邊界的順序[18],將數(shù)據(jù)依賴減少到空間臨近的左和上2個(gè)編碼塊,無損并行方法雖然保證編碼效率不變,但是并行度太小,不適用于GPU平臺,達(dá)不到高通量系統(tǒng)的處理要求.這個(gè)工作還提出了一種有損并行方法,修改去塊濾波的濾波順序,減少濾波塊間相關(guān)性.為了解除子任務(wù)“濾波”內(nèi)部的相關(guān)性,Yan等人[18]修改了濾波的順序,在同一圖像幀內(nèi)部,所有的垂直邊界先濾波,再濾波所有的水平邊界.這種方法大幅度修改了傳統(tǒng)去塊濾波的濾波順序,大大提高了并行度,但是對編碼效率的影響也比較大.

      從以上分析可以看出,目前已有的模式選擇和并行去塊濾波不能充分利用GPU平臺的運(yùn)算單元,不適用于GPU平臺.主要原因是它們存在如下2個(gè)問題:

      1) 模式選擇對于幀間和幀內(nèi)模式選擇方法,已有的粗粒度的并行方案如Tiles和WPP未能在并行度和編碼質(zhì)量之間取得較好的平衡,對編碼質(zhì)量影響較大或者并行度不高.解除多層次的數(shù)據(jù)依賴性,提高細(xì)粒度的并行處理能力,對在GPU上構(gòu)建高通量的HEVC編碼系統(tǒng)有重要意義.

      2) 去塊濾波無損并行方法,編碼效率不受影響,但是并行度低,無法充分利用GPU的計(jì)算單元;有損并行方法,修改了濾波順序,犧牲了編碼塊間的相關(guān)性,進(jìn)一步提高了并行度.設(shè)計(jì)一種并行度高、編碼效率好的并行去塊濾波算法對于進(jìn)一步提高HEVC編碼性能具有重要意義.

      2.4 現(xiàn)有方法的不足

      通過對國內(nèi)外研究現(xiàn)狀的分析可以看出,現(xiàn)有成果無法滿足當(dāng)前海量圖像視頻計(jì)算應(yīng)用和服務(wù)的重大需求,體現(xiàn)在3個(gè)方面:

      1) 在圖像視頻計(jì)算理論方面.傳統(tǒng)數(shù)據(jù)和任務(wù)的相關(guān)性研究多是為了提高學(xué)習(xí)任務(wù)的性能,并不適用于圖像視頻這種高維數(shù)據(jù),也無法應(yīng)對實(shí)際應(yīng)用中數(shù)據(jù)的高并發(fā)性帶來的挑戰(zhàn);圖像視頻的并行計(jì)算研究主要集中在如何利用現(xiàn)有并行計(jì)算硬件的體系機(jī)構(gòu)特點(diǎn)提升圖像視頻計(jì)算效率,由于現(xiàn)有并行計(jì)算硬件的體系機(jī)構(gòu)并不是針對媒體計(jì)算進(jìn)行的專門設(shè)計(jì)和優(yōu)化,效率提升的空間有限.

      2) 在圖像視頻分析算法方面.目前已有一些針對特征提取經(jīng)典算法的并行化算法,但是對于目前表現(xiàn)很好的卷積神經(jīng)網(wǎng)絡(luò)、多核學(xué)習(xí)等模型來說,計(jì)算復(fù)雜度較高,難以滿足圖像視頻大數(shù)據(jù)處理的實(shí)時(shí)性要求;同時(shí)針對圖像視頻分析與語義理解的并行化算法較少.

      3) 在視頻編碼方面.目前針對HEVC的并行方法主要是面向以前的視頻編碼標(biāo)準(zhǔn),大部分方法并行度不高,不能充分利用GPU的計(jì)算資源.如何在保證編碼效率的情況下,提高HEVC并行編碼的并行度,已成為亟待解決的問題.

      因此,目前迫切需要開展圖像視頻高通量計(jì)算理論與方法的研究工作,從理論、方法和實(shí)踐3個(gè)層次入手,在高通量圖像視頻計(jì)算理論、高通量圖像視頻分析方法、高通量視頻編碼方法3個(gè)方面展開深入研究,以應(yīng)對目前海量圖像視頻數(shù)據(jù)高并發(fā)、高維度、大流量等特性帶來的挑戰(zhàn),滿足實(shí)際多媒體應(yīng)用高精度、高效率的需求.

      3 未來研究方向

      高通量圖像視頻計(jì)算是針對實(shí)際應(yīng)用的挑戰(zhàn),處理當(dāng)前圖像視頻數(shù)據(jù)的大容量和高并發(fā)問題.為了有效地開展高通量圖像視頻計(jì)算的研究,需要從理論分析和實(shí)際方法2個(gè)方面展開工作.具體地,未來的研究方向可能從任務(wù)內(nèi)在關(guān)聯(lián)性與計(jì)算結(jié)構(gòu)并行性的多層次匹配,圖像視頻分析的高通量綜合優(yōu)化,以及視頻編解碼中高通量計(jì)算、碼率、失真之間的度量與轉(zhuǎn)換這3個(gè)方面研究高通量圖像視頻計(jì)算理論、高通量圖像視頻分析和高通量視頻編解碼問題.

      3.1 高通量圖像視頻計(jì)算理論

      圖像視頻計(jì)算任務(wù)往往存在數(shù)據(jù)冗余和子任務(wù)間的冗余.為了提高圖像視頻計(jì)算效率,需要分析這些冗余,提出相應(yīng)的高通量圖像視頻計(jì)算方法.首先進(jìn)行相關(guān)性分析,并根據(jù)相關(guān)性分析結(jié)果提出高通量計(jì)算理論,比如并行計(jì)算理論等.

      1) 圖像視頻計(jì)算相關(guān)性分析.在海量圖像視頻計(jì)算中,計(jì)算的數(shù)據(jù)之間以及計(jì)算任務(wù)之間往往存在一定的相關(guān)性.利用這些相關(guān)性,可以提高計(jì)算的效率或性能.所以,為了實(shí)現(xiàn)高通量圖像視頻計(jì)算,首先需要對圖像視頻數(shù)據(jù)和計(jì)算任務(wù)進(jìn)行相關(guān)性分析.從相關(guān)性分析的對象來說,需研究數(shù)據(jù)之間的相關(guān)性和計(jì)算任務(wù)之間的相關(guān)性.從相關(guān)性分析來說,需研究如何發(fā)現(xiàn)數(shù)據(jù)及任務(wù)之間的相關(guān)性,以及如何利用所發(fā)現(xiàn)的相關(guān)性提高圖像視頻計(jì)算的效率和性能.

      2) 圖像視頻計(jì)算并行理論.核心是通過軟硬件的多層次高效匹配,提高圖像視頻計(jì)算的并行效率,具體包括:①面向圖像視頻計(jì)算的并行理論模型,解決圖像視頻并行計(jì)算中軟硬件并行粒度不同而存在的層次之間的誤匹配問題的理論模型.②基于圖像視頻計(jì)算理論模型的算法優(yōu)化,結(jié)合圖像視頻計(jì)算中數(shù)據(jù)和任務(wù)的高相關(guān)性、多層次性等特點(diǎn),深入研究圖像視頻計(jì)算中的層次化并行任務(wù)分解問題.③面向圖像視頻計(jì)算理論模型的硬件支撐,包括并行度可重構(gòu)的GPU架構(gòu)(即在GPU的并行度層次進(jìn)行一定程度的調(diào)整,以實(shí)現(xiàn)在不增加硬件計(jì)算資源的前提下提升硬件的實(shí)際效率)、圖像視頻計(jì)算多并行度編程語言(即一種有效支持圖像視頻計(jì)算中軟硬件多并行度的編程語言).

      3.2 高通量圖像視頻分析

      圖像視頻分析涉及從底層特征到高層語義的多個(gè)方面.為了提高圖像視頻分析的效率,需要開展圖像視頻特征的高通量計(jì)算、聚類和學(xué)習(xí)算法的高通量計(jì)算以及高通量圖像視頻語義計(jì)算3個(gè)方面的研究.

      1) 圖像視頻特征的高通量計(jì)算.需對SIFT,HOG等常用局部圖像特征的算法原理及構(gòu)造過程進(jìn)行深入的剖析,對算法的中間過程如圖像尺度空間的建立、圖像特征點(diǎn)的提取、特征點(diǎn)主方向的計(jì)算和特征點(diǎn)描述子的計(jì)算等進(jìn)行詳細(xì)的梳理,并提出合理的并行化圖像視頻特征提取方法,提煉圖像視頻特征并行化構(gòu)造方法的一般規(guī)律.

      2) 聚類和學(xué)習(xí)算法的高通量計(jì)算.為了高效地處理海量圖像視頻數(shù)據(jù),需通過并行化和管道策略設(shè)計(jì)多種常見的聚類和學(xué)習(xí)算法(如基于圖結(jié)構(gòu)的聚類算法、支持向量機(jī)、矩陣分解、隱含狄利克雷分布LDA)的高通量計(jì)算方法,在保持聚類和學(xué)習(xí)算法精度的情況下提高算法的運(yùn)算效率.

      3) 高通量圖像視頻語義計(jì)算.從高通量的角度研究面向圖像視頻語義計(jì)算的理論和方法,包括:

      ① 基于多任務(wù)多特征學(xué)習(xí)的視覺語義高通量計(jì)算,如研究低復(fù)雜度的線性多特征度量計(jì)算模型以實(shí)現(xiàn)多特征相似度的并行化計(jì)算方法;利用數(shù)據(jù)的類屬信息對模型進(jìn)行學(xué)習(xí);研究稀疏約束L1-norm和非稀疏約束Lp-norm的多特征相似度量學(xué)習(xí)的并行化模型訓(xùn)練方法;建立不同的度量學(xué)習(xí)任務(wù)在不同特征表示上的信息共享機(jī)制;構(gòu)建可支持高通量計(jì)算的多層次多任務(wù)學(xué)習(xí)與信息共享機(jī)制,在分布式系統(tǒng)上研究并行多任務(wù)學(xué)習(xí).

      ② 圖像視頻的高通量多級計(jì)算,如對視覺數(shù)據(jù)進(jìn)行分塊和分布式存儲(chǔ),使得在不同的運(yùn)算處理單元上的數(shù)據(jù)子集的相關(guān)性盡可能??;設(shè)計(jì)和構(gòu)建有效的卷積特征提取運(yùn)算陣列,對海量視覺數(shù)據(jù)進(jìn)行并行化特征提??;實(shí)現(xiàn)并行化判別子模型的快速學(xué)習(xí)和動(dòng)態(tài)模型更新,有效提取不同的視覺語義子集的判別信息;構(gòu)建合適的多層映射機(jī)制,對分布式判別子模型決策進(jìn)行選擇和同步融合.

      3.3 高通量視頻編解碼

      為提高視頻編解碼效率,需要提出高通量視頻編碼的計(jì)算-碼率-失真理論模型(C-R-D模型)、基于C-R-D模型的預(yù)測模式高通量優(yōu)化算法以及基于C-R-D模型的高通量視頻編解碼并行計(jì)算方法.

      1) 高通量視頻編碼的計(jì)算-碼率-失真理論模型(C-R-D模型).基于高通量的編碼相對于普通編碼而言,增加了一個(gè)計(jì)算量維度來進(jìn)行優(yōu)化.理論上通過增加計(jì)算量,可以節(jié)省碼率或者減少失真,但是目前還缺少一個(gè)精準(zhǔn)的模型來刻畫計(jì)算、碼率和失真之間的關(guān)系.因此要重點(diǎn)研究計(jì)算量與碼率之間的關(guān)系以及計(jì)算量與失真之間的關(guān)系,并結(jié)合已有的率失真理論構(gòu)建計(jì)算-碼率-失真理論模型.

      2) 基于C-R-D模型的預(yù)測模式高通量優(yōu)化算法.HEVC視頻編碼相對于以前的視頻編碼,將編碼基本單元擴(kuò)大到64×64大小的塊,每個(gè)塊從具體的劃分到預(yù)測模式有大量參數(shù)需要決定,現(xiàn)有編碼方案都只能采用局部串行優(yōu)化算法,無法得到最優(yōu)的編碼性能.需研究如何設(shè)計(jì)并行算法,計(jì)算每個(gè)編碼基本單元在各種劃分下的運(yùn)動(dòng)矢量及預(yù)測誤差;研究如何設(shè)計(jì)并行算法計(jì)算在各種劃分下幀內(nèi)預(yù)測的預(yù)測誤差;并在所提出的C-R-D模型指導(dǎo)下,優(yōu)化每個(gè)基本編碼單元的塊劃分以及每個(gè)塊的預(yù)測參數(shù).

      3) 基于C-R-D模型的高通量視頻編解碼并行計(jì)算方法.除了基本編碼單元?jiǎng)澐趾皖A(yù)測參數(shù)外,HEVC編碼還包括變換、熵編碼、環(huán)路濾波等,這些處理在編碼器和解碼器中都需要,提高它們的并行計(jì)算能力對提供編解碼速度有著重要的意義.需要研究不同大小塊的正變換和反變換的并行算法;研究在C-R-D模型指導(dǎo)下熵編碼和解碼的并行算法,盡可能在減少編碼性能損失的條件下提高熵編碼和解碼的并行性;研究環(huán)路濾波的并行算法.

      4 關(guān)鍵科學(xué)問題

      針對第3節(jié)中分析出的未來研究方向,需要解決3個(gè)關(guān)鍵科學(xué)問題:

      1) 如何解決圖像視頻高通量計(jì)算中任務(wù)內(nèi)在關(guān)聯(lián)性與計(jì)算結(jié)構(gòu)并行性的多層次匹配問題?

      在圖像視頻計(jì)算中存在多個(gè)層次的關(guān)聯(lián)性,例如宏塊間關(guān)聯(lián)、條帶間關(guān)聯(lián)、幀間關(guān)聯(lián)、任務(wù)間關(guān)聯(lián).同時(shí)高通量計(jì)算平臺本身又具備多個(gè)層次的并行性,例如OpenCL提供的computer device級并行、compute unit級并行以及processing element級并行.為了提升圖像視頻高通量計(jì)算的效率,必須將任務(wù)內(nèi)在關(guān)聯(lián)性和計(jì)算結(jié)構(gòu)并行性從各個(gè)層次上進(jìn)行合理的匹配.

      2) 如何解決圖像視頻分析中多層次貫通式的高通量綜合優(yōu)化問題?

      圖像視頻數(shù)據(jù)是大數(shù)據(jù)中“體量最大的大數(shù)據(jù)”,如何突破圖像視頻高通量分析中的優(yōu)化技術(shù)已經(jīng)成為信息科學(xué)技術(shù)的重大挑戰(zhàn).需從底層、中層、高層3個(gè)層次上對高通量圖像視頻分析進(jìn)行探索,建立從特征到語義各個(gè)層次的高通量計(jì)算模型,進(jìn)而實(shí)現(xiàn)貫通式的綜合優(yōu)化.

      3) 如何建立視頻編碼中高通量計(jì)算、碼率、失真之間的度量與轉(zhuǎn)換模型?

      高通量視頻編碼的核心問題是如何精確刻畫計(jì)算、碼率和失真的關(guān)系,需研究計(jì)算與碼率之間的關(guān)系和計(jì)算與失真之間的關(guān)系,并引入傳統(tǒng)的編碼理論中碼率和失真的指數(shù)關(guān)系,通過深入理論分析和大量的實(shí)驗(yàn)驗(yàn)證,建立計(jì)算、碼率和失真的理論模型.

      5 總 結(jié)

      本文針對高通量圖像視頻計(jì)算問題,首先詳細(xì)分析了現(xiàn)有的高通量圖像視頻計(jì)算相關(guān)方法與技術(shù),并進(jìn)一步討論了現(xiàn)有高通量圖像視頻計(jì)算方法研究的不足,最后分析了高通量圖像視頻計(jì)算的未來研究方向及需解決的科學(xué)問題.

      [1]Han J, Kamber M, Pei J. Data Mining, Southeast Asia Edition: Concepts and Techniques[M]. San Francisco, CA: Morgan Kaufmann, 2006

      [2]Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning[M]. Berlin: Springer, 2009

      [3]Hardoon D, Szedmak S, Shawe -Taylor J. Canonical correlation analysis: An overview with application to learning methods[J]. Neural Computation, 2004, 16(12): 2639-2664

      [4]Zhang Hong, Wu Fei, Zhuang Yueting. Cross media correlation reasoning and retrieval[J]. Journal of Computer Research and Development, 2008, 45(5): 869-876 (in Chinese)

      (張洪, 吳飛, 莊越挺. 跨媒體相關(guān)性推理與檢索研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2008, 45(5): 869-876)

      [5]Pan Jialin, Yang Qiang. A survey on transfer learning[J]. IEEE Trans on Knowledge and Data Engineering, 2010, 22(10): 1345-1359

      [6]Argyriou A, Evgeniou T, Pontil M. Multi-task feature learning[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2006: 41-48

      [7]Argyriou A, Evgeniou T, Pontil M. Convex multi-task feature learning[J]. Machine Learning, 2008, 73(3): 243-272

      [8]Evgeniou T, Pontil M. Regularized multi—task learning[C] //Proc of the 10th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2004: 109-117

      [9]Blitzer J, McDonald R, Pereira F. Domain adaptation with structural correspondence learning[C] //Proc of Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2006: 120-128

      [10]Wang Zheng, Song Yangqiu, Zhang Changshui. Transferred dimensionality reduction[C] //Proc of European Conf on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2008: 550-565

      [11]NVIDIA. NVIDIA Launches the World’s First Graphics Processing Unit: GeForce 256[EB/OL]. (2002-01-11) [2016-12-20]. http://www.nvidia.com/object/IO_20020111_5424.html

      [12]Ko S, Park S, Han H. Design analysis for real-time video transcoding on cloud systems[C] //Proc of ACM Symp on Applied Computing. New York: ACM, 2013: 1610-1615

      [13]Wu Yu, Wu Chuan, Li Bo, et al. vSkyConf: Cloud-assisted multi-party mobile video conferencing[C] //Proc of the 2nd ACM SIGCOMM Workshop on Mobile Cloud Computing. New York: ACM, 2013: 33-38

      [14]Zhang Weiwen, Wen Yonggang, Cai Jianfei, et al. Towards transcoding as a service in multimedia cloud: Energy-efficient job-dispatching algorithm[J]. IEEE Trans on Vehicular Technology, 2014, 63(5): 2002-2012

      [15]Jokhio F, Ashraf A, Lafond S, et al. A computation and storage trade-off strategy for cost-efficient video transcoding in the cloud[C] //Proc of Euromicro Conf on Software Engineering and Advanced Applications. Piscataway, NJ: IEEE, 2013: 365-372

      [16]Cho Y, Kim S, Lee J, et al. Parallelizing the H. 264 decoder on the cell BE architecture[C] //Proc of ACM Int Conf on Embedded Software. New York: ACM, 2010: 49-58

      [17]Meenderinck C, Azevedo A, Juurlink B, et al. Parallel scalability of video decoders[J]. Journal of Signal Processing Systems, 2009, 57(2): 173-194

      [18]Yan Chenggang, Dai Feng, Zhang Yongdong. Parallel deblocking filter for H. 264/AVC on the TILERA many-core systems[C] //Proc of Int Conf on Multimedia Modeling. Berlin: Springer, 2011: 51-61

      [19]Chi C, Alvarez-Mesa M, Lucas J, et al. Parallel HEVC decoding on multi-and many-core architectures[J]. Journal of Signal Processing Systems, 2013, 71(3): 247-260

      [20]Diao M, Nicopoulos C, Kim J. Large-scale semantic concept detection on manycore platforms for multimedia mining[C] //Proc of IEEE Int Parallel & Distributed Processing Symp. Piscataway, NJ: IEEE, 2011: 384-394

      [21]Fang Zhenman, Yang Donglei, Zhang Weihua, et al. A comprehensive analysis and parallelization of an image retrieval algorithm[C] //Proc of IEEE Int Symp on Performance Analysis of Systems and Software. Piscataway, NJ: IEEE, 2011: 154-164

      [22]Liu Keyan, Zhang Tong, Wang Lei. A new parallel video understanding and retrieval system[C] //Proc of the 2010 IEEE Int Conf on Multimedia and Expo. Piscataway, NJ: IEEE, 2010: 679-684

      [23]Daugman J G. High confidence visual recognition of persons by a test of statistical independence[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1993, 15(11): 1148-1161

      [24]Zhang Baochang, Shan Shiguang, Chen Xilin, et al. Histogram of gabor phase patterns (HGPP): A novel object representation approach for face recognition[J]. IEEE Trans on Image Processing, 2007, 16(1): 57-68

      [25]Meyers E, Wolf L. Using biologically inspired features for face processing[J]. International Journal on Computer Vision, 2008, 76(1): 93-104

      [26]Lei Lin, Wang Zhuang, Su Yi. A new invariant feature detector based on multi-scale gabor filter bank[J]. Acta Electronic Sinica, 2009, 37(10): 2134-2139 (in Chinese)

      (雷琳, 王壯, 粟毅. 基于多尺度Gabor濾波器組的不變特征點(diǎn)提取新方法[J]. 電子學(xué)報(bào), 2009, 37(10): 2134-2139)

      [27]Lowe D. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110

      [28]Bay H, Ess A, Tuytelaars T, et al. Speeded-up robust Features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359

      [29]Dalal N, Triggs B. Histograms of oriented gradients for human detection[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005: 886-893

      [30]Ojala T, Pietik?inen M, Harwood D. A comparative study of texture measures with classification based on feature distributions[J]. Pattern Recognition, 1996, 29(1): 51-59

      [31]Calonder M, Lepetit V, Strecha C, et al. Brief: Binary robust independent elementary features[C] //Proc of the European Conf on Computer Vision. Berlin: Springer, 2010: 778-792

      [32]Alahi A, Ortiz R, Vandergheynst P. FREAK: Fast retina keypoint[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 510-517

      [33]Li Feifei, Perona P. A Bayesian hierarchical model for learning natural scene categories[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005: 524-531

      [34]Sivic J, Russell B C, Efros A, et al. Discovering objects and their localization in images[C] //Proc of IEEE Int Conf Computer Vision. Piscataway, NJ: IEEE, 2005: 370-377

      [35]Hinton G, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507

      [36]Krizhevsky A, Sutskever I, Hinton G. Imagenet classification with deep convolutional neural networks[C] //Proc of Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc, 2012: 1106-1114

      [37]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[EB/OL ]. [2016-12-15]. https://arxiv.org/abs/1409.4842

      [38]Tang Sheng, Gao Ke, Gu Xiaoguang, et al. High-throughput video content analysis technologies[J]. Journal of Engineering Studies, 2014, 6(3): 294-306 (in Chinese)

      (唐勝, 高科, 顧曉光, 等. 高通量視頻內(nèi)容分析技術(shù)[J]. 工程研究——跨學(xué)科視野中的工程, 2014, 6(3): 294-306)

      [39]Liu Hairong, Latecki L, Yan Shuicheng. Fast detection of dense subgraphs with iterative shrinking and expansion[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(9): 2131-2142

      [40]Rota Bulo S, Pelillo M, Bomze I. Graph-based quadratic optimization: A fast evolutionary approach[J]. Computer Vision and Image Understanding, 2011, 115(7): 984-995

      [41]Bahmani B, Moseley B, Vattani A, et al. Scalablek-means++[J]. Proceedings of the VLDB Endowment, 2012, 5(7): 22-633

      [42]Lloyd S. Least squares quantization in PCM[J]. IEEE Trans on Information Theory, 1982, 28(2): 129-137

      [43]Fowlkes C, Belongie S, Chung F, et al. Spectral grouping using the nystrom method[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2004, 26(2): 214-225

      [44]Zhou Lin, Ping Xijian, Xu Sen, et al. Cluster ensemble based on spectral clustering[J]. Acta Automatica Sinica, 2012, 38(8): 1335-1342 (in Chinese)

      (周林, 平西建, 徐森, 等. 基于譜聚類的聚類集成算法[J]. 自動(dòng)化學(xué)報(bào), 2012, 38(8): 1335-1342)

      [45]Wauthier F, Jojic N, Jordan M. Active spectral clustering via iterative uncertainty reduction[C] //Proc of the 18th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2012: 1339-1347

      [46]Anderson P, Thor A, Benik J, et al. Pang: Finding patterns in annotation graphs[C] //Proc of the 2012 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2012: 677-680

      [47]Angel A, Sarkas N, Koudas N, et al. Dense subgraph maintenance under streaming edge weight updates for real-time story identification[J]. Proceedings of the VLDB Endowment, 2012, 5(6): 574-585

      [48]Wang N, Parthasarathy S, Tan K, et al. Csv: Visualizing and mining cohesive subgraphs[C] //Proc of the 2008 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2008: 445-458

      [49]Motzkin T S, Straus E G. Maxima for graphs and a new proof of a theorem of turan[J]. Canadian Journal of Mathematics, 1965, 17(4): 533-540

      [50]Weibull J W. Evolutionary Game theory[M]. Cambridge, MA: MIT Press, 1997

      [51]Liu Hairong, Yan Shuicheng. Robust graph mode seeking by graph shift[C] //Proc of the 27th Int Conf on Machine Learning. Madison, WI: Omnipress, 2010: 671-678

      [52]Frey B J, Dueck D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976

      [53]Comaniciu D, Meer P. Mean shift: A robust approach toward feature space analysis[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002, 24(5): 603-619

      [54]Snoek C, Worring M. Early versus late fusion in semantic video analysis[C] //Prof of ACM Int Conf on Multimedia. New York: ACM, 2005: 399-402

      [55]Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[C] //Proc of Int Conf on Computational Learning Theory. New York: ACM, 1998: 92-100

      [56]Sindhwani V, Niyogi P, Belkin M. Beyond the point cloud: From transductive to semi-supervised learning[C] //Prof of the 22nd Int Conf on Machine Learning. Madison, WI: Omnipress, 2005: 824-831

      [57]Rosenberg D, Sindhwani V, Bartlett P, et al. Multiview point cloud kernels for semisupervised learning[J]. IEEE Signal Processing Magazine,2009, 26(5): 145-150

      [58]Lanckriet G, Cristianini N, Bartlett P, et al. Learning the kernel matrix with semi-definite programming[J]. Journal of Machine Learning Research, 2004, 5: 27-72

      [59]Bach F, Lanckriet, Jordan M. Multiple kernel learning, conic duality, and the SMO algorithm[C] //Proc of the 21st Int Conf on Machine Learning. Madison, WI: Omnipress, 2004: 1-8

      [60]Sonnenburg S, Ratsch G, Schafer C, et al. Large scale multiple kernel learning[J]. Journal of Machine Learning Research, 2006, 7: 1531-1565

      [61]Rakotomamonjy A, Bach F, Canu S, et al. SimpleMKL[J]. Journal of Machine Learning Research, 2008, 9: 2491-2521

      [62]Bach F. Consistency of the group Lasso and multiple kernel learning[J]. Journal of Machine Learning Research, 2008, 9: 1179-1225

      [63]Cortes C, Mohri M, Rostamizadeh A. L2 regularization for learning kernels[C] //Proc of the 25th Conf on Uncertainty in Artificial Intelligence. Montreal, Quebec, Canada: AUAI, 2009: 109-116

      [64]Varma M, Ray D. Learning the discriminative power-invariance trade-off[C] //Proc of the 11th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-8

      [65]Kloft M, Brefeld U, Sonnenburg S, et al. Efficient and accurate Lp-norm multiple kernel learning[C] //Proc of Neural Information Processing System. Lake Tahoe, Nevada: Curran Associates Inc, 2009: 997-1005

      [66]Vishwanathan S, Sun Zhaonan, Theera-Ampornpunt N, et al. Multiple kernel learning and the SMO algorithm[C] //Proc of the 24th Neural Information Processing System. Lake Tahoe, Nevada: Curran Associates Inc, 2010: 2361-2369

      [67]Gonen M, Alpaydin E. Localized multiple kernel learning[C] //Proc of the 25th Int Conf on Machine Learning. Madison, WI: Omnipres, 2008: 352-359

      [68]Yang Jingjing, Li Yuanning, Tian Yunhong, et al. Group sensitive multiple kernel learning for object categorization[C] //Proc of the 12th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009: 436-443

      [69]Suzuki T, Tomioka R. SpicyMKL: A fast algorithm for multiple kernel learning with thousands of kernels[J]. Machine Learning, 2011, 85: 77-108

      [70]Cortes C, Mohri M, Rostamizadeh A. Generalization bounds for learning kernels[C] //Proc of the 27th Int Conf on Machine Learning. Madison, WI: Omnipress, 2010: 247-254

      [71]Miller G. WordNet: A lexical database for English[J]. Communications of ACM, 1995, 38(11): 39-41

      [72]Torralba A, Murphy K, Freeman W. Sharing visual features for multi-class and multi-view object detection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2007, 29(5): 854-869

      [73]Hwang S, Grauman K, Sha F. Learning a tree of metrics with disjoint visual feature[C] //Proc of Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc, 2011: 621-629

      [74]Parameswaran S, Weinberger K. Large margin multi-task metric learning[C] //Proc of Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc, 2010: 1867-1875

      [75]Weinberger K, Saul L. Distance metric learning for large margin nearest neighbor classification[J]. Journal of Machine Learning Research, 2009, 10: 207-244

      [76]Hwang S, Sha F, Grauman K. Sharing features between objects and their attributes[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 1761-1768

      [77]Hinton G, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507

      [78]Hinton G. Learning multiple layers of representation[J]. Trends in Cognitive Sciences, 2007, 11(10): 428-434

      [79]Bengio Y, Courville, Vincent P. Representation learning: A review and new perspectives[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828

      [80]Le Cun, Bengio Y. Convolutional networks for images, speech, and time-series, in Arbib, M. A. (Eds)[G] //The Handbook of Brain Theory and Neural Networks. Cambridge, MA: MIT Press, 1995

      [81]Krizhevsky A, Sutskever I, Hinton G. Imagenet classification with deep convolutional neural networks[C] //Proc of Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc, 2012: 1106-1114

      [82]Yu Dong, Deng Li, Seide F. The deep tensor neural network with applications to large vocabulary speech recognition[J]. IEEE Trans on Audio, Speech, and Language Processing, 2013, 21(2): 388-396

      [83]Bengio Y, Senécal J. Adaptive importance sampling to accelerate training of a neural probabilistic language model[J]. IEEE Trans on Neural Networks, 2008, 19(4): 713-722

      [84]Sullivan G, Ohm J, Han W, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Trans on Circuits and Systems for Video Technology, 2012, 22(12): 1649-1668

      [85]Clare G, Henry F, Pateux S. Wavefront parallel processing for HEVC encoding and decoding, JCTVC-F274[R]. San Jose, CA: Joint Collaborative Team on Video Coding (JCT-VC), 2011

      [86]Fuldseth A, Horowitz M, Xu S, et al. Tiles for managing computational complexity of video encoding and decoding[C] //Proc of Picture Coding Symp. Piscataway, NJ: IEEE, 2012: 389-392

      [87]Zhou M. AHG10: Configurable and CU-group level parallel merge/skip, JCTVC-H0082[R]. San Jose, CA: Joint Collaborative Team on Video Coding (JCT-VC), 2012

      [88]Chi C, Alvarez M, Juurlink B, et al. Parallel scalability and efficiency of HEVC parallelization approaches[J]. IEEE Trans on Circuits and Systems for Video Technology, 2012, 22(12): 1827-1838

      [89]Leupers R, Eeckhout L, Martin G, et al. Virtual manycore platforms: Moving towards 100+ processor cores[C] //Proc of Design, Automation & Test in Europe Conf & Exhibition (DATE). Piscataway, NJ: IEEE, 2011: 715-720

      [90]Bini E, Buttazzo G, Eker J, et al. Resource management on multicore systems: The ACTORS approach[J]. IEEE Micro, 2011, 31(3): 72-81

      [91]Annavaram M. A case for guarded power gating for multi-core processors[C] //Proc of the 17th IEEE Int Symp on High Performance Computer Architecture (HPCA). Piscataway, NJ: IEEE, 2011: 291-300

      [92]Yu Qin, Zhao Liang, Ma Siwei. Parallel AMVP candidate list construction for HEVC[C] //Proc of Visual Communications and Image Processing (VCIP). Piscataway, NJ: IEEE, 2012: 1-6

      [93]Zhao Yanan, Song Li, Wang Xiangwen, et al. Efficient realization of parallel HEVC intra encoding[C] //Proc of the 2013 IEEE Int Conf on Multimedia and Expo Workshops. Piscataway, NJ: IEEE, 2013: 1-6

      [94]Yan Chenggang, Zhang Yongdong, Dai Feng, et al. Efficient parallel HEVC intra-prediction on many-core processor[J]. Electronics Letters, 2014, 50(11): 805-806

      [95]Jiang Jie, Guo Longbao, Mo Wei, et al. Block-based parallel intra prediction scheme for HEVC[J]. Journal of Multimedia, 2012, 7(4): 289-294

      [96]Chi C, Juurlink B, Meenderinck C. Evaluation of parallel H. 264 decoding strategies for the cell broadband engine[C] //Proc of the 24th ACM Int Conf on Supercomputing. New York: ACM, 2010: 105-114

      [97]Lee J Y, Lee J J, Park S. Multi-core platform for an efficient H. 264 and VC-1 video decoding based on macroblock row-level parallelism[J]. IET Circuits, Devices & Systems, 2010, 4(2): 147-158

      Tang Jinhui, born in 1981. PhD, professor, PhD supervisor. Senior member of IEEE. His main research interests include large-scale multimedia search, social media mining, and computer vision.

      Li Zechao, born in 1985. PhD, associate professor. His main research interests include large-scale multimedia understand-ing, social media mining, etc.

      Liu Shaoli, born in 1987. PhD, associate professor. His main research interests include computer architecture, machine learning, parallel computing and video processing.

      Qin Lei, born in 1977. PhD, associate professor. His main research interests include imagevideo processing, computer vision, and pattern recognition.

      High-Throughput Image and Video Computing

      Tang Jinhui1, Li Zechao1, Liu Shaoli2, and Qin Lei2

      1(SchoolofComputerScienceandEngineering,NanjingUniversityofScienceandTechnology,Nanjing210094)2(InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190)

      In recent years, image and video data grows and spreads rapidly in the Internet. The data not only has huge amount, but also has the characteristics of high concurrency, high dimension and high throughput, which brings huge challenges into the real-time analysis and processing of them. To promote the image and video data processing efficiency of big data platforms, it is necessary and important to study the task of high-throughput image and video computing, and propose a series of high-throughput image and video computing theories and methods by considering the new hardware structures. Towards this end, this work first overviews previous high-throughput image and video computing theories and methods in details, and then discusses the disadvantages of the existing high-throughput image and video computing methods. Furthermore, this work analyzes three research directions of the high-throughput image and video computing task in future: the high-throughput image and video computing theories, the high-throughput image and video analysis methods, and the high-throughput video coding methods. Finally, this work introduces three key scientific problems of high-throughput image and video computing. The solutions of these problems will provide key technical support for the applications of content monitoring of Internet images and videos, the large-scale video surveillance, and the image and video search.

      image analysis; video analysis; high throughput; video coding; visual computing

      2017-01-03;

      2017-03-07

      國家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃基金項(xiàng)目(2014CB347600);國家自然科學(xué)基金項(xiàng)目(61402228);國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目(61522203) This work was supported by the National Basic Research Program of China (973 Program) (2014CB347600), the National Natural Science Foundation of China (61402228), and the National Natural Science Foundation of China for Excellent Young Scientists(61522203).

      李澤超(zechao.li@njust.edu.cn)

      TP391

      猜你喜歡
      高通量編碼特征
      高通量衛(wèi)星網(wǎng)絡(luò)及網(wǎng)絡(luò)漫游關(guān)鍵技術(shù)
      國際太空(2023年1期)2023-02-27 09:03:42
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      高通量血液透析臨床研究進(jìn)展
      《全元詩》未編碼疑難字考辨十五則
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      如何表達(dá)“特征”
      Ka頻段高通量衛(wèi)星在鐵路通信中的應(yīng)用探討
      不忠誠的四個(gè)特征
      Genome and healthcare
      抓住特征巧觀察
      婺源县| 资兴市| 井陉县| 礼泉县| 余干县| 苍山县| 西藏| 江津市| 泾源县| 巴塘县| 龙海市| 衡阳县| 河东区| 遵义市| 乌鲁木齐县| 甘洛县| 遵化市| 商丘市| 玉树县| 武乡县| 汾阳市| 甘肃省| 宁明县| 长丰县| 大洼县| 合作市| 池州市| 偏关县| 临夏县| 咸丰县| 沙坪坝区| 同心县| 铜鼓县| 四会市| 新郑市| 郑州市| 夹江县| 信阳市| 旅游| 安西县| 高安市|