趙思成 姚鴻勛
摘 要:相對于底層視覺特征層,人們只能夠感知和理解圖像、視頻的高層語義層,包括認知層和情感層。以往對圖像內容分析的工作主要集中在理解圖像的認知層,即描述圖像的真實內容,如物體檢測與識別。然而,公眾對數字攝影技術的廣泛使用及對圖像情感表達的強烈需求,使得對圖像最高語義層—情感層的分析變得越來越迫切。對圖像情感層的分析,簡稱圖像情感計算,主要目的是理解觀察者看完圖像后所引起的情感反應。本文首先介紹了情感的定義與描述,然后給出了圖像情感計算的問題描述,最后總結了圖像情感計算的研究現狀。
關鍵詞:圖像情感;情感計算;情感表示
中圖分類號:TP391.4
1 引言
隨著社交網絡的快速發(fā)展和廣泛使用,例如Twitter(https://twitter.com),Flickr(https://www.flickr.com),YouTube(https://www.youtube.com)和新浪微博(http://www.weibo.com),人們傾向于將自己的所見所聞、興趣愛好等以文本、圖像和視頻等多媒體的形式上傳至網絡來呈現和分享其觀點和情感。因此,即會導致文本、圖像和視頻等多媒體內容的規(guī)模正以顯示指數級態(tài)勢發(fā)生著爆炸式增長,而針對這些多媒體內容的處理及理解需求則日趨顯著與突出。相對于底層視覺特征層,人們只能夠感知和理解圖像、視頻的高層語義層,包括認知層和情感層。以往對視覺內容分析的工作主要集中在理解圖像、視頻的感知層,即描述圖像、視頻的真實內容,如物體檢測與識別。然而,公眾對數字攝影技術的關注熱衷及對視覺內容情感表達的強烈需求,使得對圖像、視頻最高語義層—情感層的分析已然具有高度重要的研究和應用價值。
對多媒體內容情感層的分析屬于情感計算的一部分。情感計算的概念是由麻省理工學院媒體實驗室的Picard教授于1995年首次提出的,而于1997年專著《Affective Computing》則正式出版問世[1]。書中給出了情感計算的定義,即情感計算是指與情感相關、來源于情感或能夠對情感施加影響的計算,包含3個部分:情感識別、情感發(fā)生和情感表達[1]。
基于此,根據需要處理的多媒體數據類型,對多媒體情感層的分析可以分為4種:基于文本的情感分析[2]、基于音頻的情感分析[3-5、基于圖像的情感分析[6-7]以及基于視頻的情感分析[8-11]。其中,基于文本和音頻的情感分析比較成熟,圖像情感分析中人臉表情識別的研究也相對成熟,而關于普通圖像和視頻情感分析的研究相對來說,卻仍顯不足。對圖像情感識別的研究最初源始于人臉表情識別,因為人臉檢測和人臉識別的研究相對成熟,心理學對人臉表情的分類也已建立有清晰脈絡,此外更有大量的研究機構也成功建立了表情識別的數據庫[12-14]。
受到情感鴻溝和人類情感感知與評估的主觀性等基礎現實的制約,普通圖像的情感分析進展緩慢。不僅如此,圖像情感計算的發(fā)展還將需要心理學、藝術學、計算機視覺、模式識別、圖像處理、人工智能等領域的共同支持,眾多領域學科的交叉使得圖像情感計算成為一個富有挑戰(zhàn)性的研究課題。本文對圖像情感計算的發(fā)展研究現狀進行了全面論述和分析。
1 情感的定義與描述
人類具有很強的情感感知和表達的能力,但是由于情感的復雜性和抽象性,人們很難將情感從概念上實現具體化和清晰化。心理學、生理學領域的科學家們早在18世紀就開啟了專門情感研究,并且推出了諸多情感理論來解釋情感是如何源起于產生的,如1872年的Darwin三原則理論[15]、1884年的James-Lange理論[16]、1927年的Cannon-Bard 理論[17]和1991年的Lazarus理論[18]。但是迄今為止,科學家們也仍未提出一個準確、全面且可得到一致認可的情感定義。
心理學中與情感相關的詞匯有emotion、affect、sentiment、mood、affective、emotional等,類似的中文詞匯有情感、感情、情緒、情感的、感情的等。心理學上認為情感、情緒與感情是3個嚴格不同的概念[1,19-20],但計算機學科對此區(qū)分并不嚴格區(qū)分,一般只是籠統將其稱為情感。wikipedia上給出了一種情感的模糊定義,“情感是對一系列主觀認知經驗的通稱,是多種感覺、思想和行為綜合產生的心理和生理狀態(tài)”。心理學領域主要有2種方式來描述情感:離散情感狀態(tài)(CES)和維度情感空間(DES),或稱為范疇觀和維度觀[1,19-20] 。
1.1 離散情感狀態(tài)
持范疇觀的心理學家將情感分成相互獨立的范疇,而且在外部表現、生理喚醒模式上都存在一定的差異。近年來,持范疇觀的研究人員根據生物進化理論把情感分為基本情感和復合情感。不同的心理學家對基本情感的分類差異很大,從2類到幾十類也各有不等,具體的分類方法可以參照文獻[1,19-20]。研究中更具代表性的成果主要有:Ekman把情感分為6類,即高興、憤怒、厭惡、恐懼、悲傷、驚奇[21];Izzard 用因素分析方法,提出11種基本情緒,即興趣、驚奇、痛苦、厭惡、愉快、憤怒、恐懼、悲傷、害羞、輕蔑和自罪感[22];Mikels 通過嚴格的心理學實驗,把情感分為8 類,即表示積極情感的娛樂、敬畏、滿意、刺激,表示消極情感的生氣、厭惡、害怕和悲傷[23];Plutchik提出了一套情感的演化理論,認為情感有8種基本類型,但是每種情感又有3種不同的愉悅度(valence),即把情感分為24類[24]。還有一種模型是將情感分成積極和消極2類,或者積極、消極和中性三類。目前對表情識別的分類多是基于Ekman 的分類,而對圖像情感分類則以Mikels 的分類為主。
復合情感是由基本情感的不同組合派生出來的,可隨著個體認知的成熟而煙花發(fā)展,并隨著文化的不同而發(fā)生變化。Izzard認為復合情感有3類:基本情感的混合、基本情感和內驅力的集合、基本情感與認知的結合[22]。
用CES來描述和測量情感的優(yōu)勢可分述為:
1)符合人們的直覺和常識,容易被人們理解和標注,有利于情感計算的成果在現實生活中推廣和應用;
2)有利于智能系統在識別情感后,進一步推理與之相聯系的特定心理功能和可能的原因,而后做出適當的反映。
但也需明確認識到CES的缺點,具體表述為:
1)哪些情感狀態(tài)或基本情感是必要的,目前研究者對此沒有統一的認識;
2)CES是對情感的定性描述,無法用量化的數字表達主觀的情感體驗,且其對情感的描述能力也比較有限。
1.2 維度情感空間
持維度觀的研究人員認為情感具有基本維度和兩極性,所有的維度構成一個笛卡爾空間,DES就將情感描述為該空間中的點,理論上該空間的情感描述能力是無限的,即能夠涵蓋所有的情感狀態(tài)。各種不同的維度情感空間可以參照[1][19][20]。常見的維度情感空間大多是3D的,如natural-temporal-energetic[25]、valence-arousal-control[26]、activity-weight-heat[27]等。比較典型的是愉悅度-激活度-優(yōu)勢度空間(valence-arousal-control space,VAC,有些時候也稱為pleasure-arousal-dominance space,PAD)[26]。其中,愉悅度表示個體情感狀態(tài)的正負特性,激活度表示個體的神經生理激活水平,優(yōu)勢度表示個體對情景和他人的控制狀態(tài)。具體的VAC三維情感空間如圖1 (a)所示[28],從圖中不難看出,優(yōu)勢度維度的取值范圍很小,而且只有當愉悅度呈現高峰值時才會有用。因此可以說,優(yōu)勢度在描述情感過程中僅能發(fā)揮有限的的作用。大多數計算機學者用DES 描述情感時都不曾考慮優(yōu)勢度,以愉悅度-激活度空間為主。但也并非所有的愉悅度和激活度的組合都能構成情感,能構成人們常見的情感狀態(tài)的愉悅度和激活度的組合范圍如圖1 (b)所示[28]。
用DES來描述和測量情感具有鮮明優(yōu)勢,具體可論述為:
1)描述能力強,理論上能描述所有的情感類別;
2)易于對情感進行量化,以精確的數值來描述情感,解決了CES 情感標簽的模糊性問題,也一并消除了自發(fā)情感的描述問題。
但DES也存在一定的缺陷,分析可得如下結論:
1)不易于人們直觀的理解,給定DES的維度值,普通人無法識別出應該歸屬為哪種情感;
2)測試人員對DES的打分有一定的難度,由此導致較大的偏差。
2 圖像情感計算的問題描述
所謂圖像情感計算,是指計算機從圖像中分析并提取情感特征,使用模式識別與機器學習的方法對其執(zhí)行計算,進而理解人的情感。根據情感的描述方式,圖像情感計算可以分為三大任務:情感分類、情感回歸和情感圖像檢索。
一個圖像情感計算系統通常包括如下3部分:
1)圖像預處理。 由于輸入圖像在尺寸、光照、顏色空間等方面存在很大的差異,在進行特征提取之前往往需要進行預處理。比如,把圖像尺寸調整到統一大小,把顏色空間轉換到同一空間等。在圖像情感計算過程中,預處理雖然不是一個專門的研究熱點,但卻會對算法的性能產生很大的影響。
2)情感特征提取/選擇。 特征提取與選擇是圖像情感計算過程中的重要組成部分,直接決定了算法最終的性能。該步驟的主要任務是提取或者選擇一些特征,并且使得其在類內具有很大的相似性而在類間具有很大的差異性。一般而言,用于圖像情感計算的特征可以分為底層特征、中層特征和高層特征。
3)模型設計。 模型設計是指根據圖像情感計算的任務來設計合適的模型,并以提取的特征作為輸入,通過學習的方法來獲得相應的輸出。情感分類是一個多類分類問題,可以直接采用多類分類器,或者轉換成多個二值分類。情感回歸是一個回歸問題,研究針對的是維度情感模型。情感圖像檢索對應的是如下檢索問題,即給定輸入圖像,查找與之表達相似情感的圖像。針對不同問題,可以采用的學習模型也將各有不同。
3 圖像情感計算的研究現狀與分析
本節(jié)對圖像情感計算的研究現狀進行總結與分析。首先從不同的分類角度綜合歸納了當前可高效用于圖像情感計算的技術特征,然后簡要介紹常用的機器學習方法,最后對已有方法存在的主要問題進行分析并給出可能的解決方案。
3.1 用于圖像情感計算的特征
如何提取與情感緊密相關的特征是情感識別的關鍵問題。根據所提特征的通用性(generality),可將已有的特征分為2類:通用特征和專用特征。根據所提特征的層次(level),可將已有的特征分為3類:底層特征、中層特征和高層特征。
進一步地,所謂通用特征是指計算機視覺里普遍適用的特征,設計這些特征的目的并不是為了用于情感識別,而是其他的視覺任務,如物體檢測。Yanulevskaya所使用的Wiccest特征和Gabor特征就是典型的通用特征[29]。而專用特征則是針對情感識別這一特定任務而設計的能夠表達不同情感的特征,比如常見的顏色、紋理等底層特征。
目前,絕大多數的情感特征提取工作都是基于藝術元素的,如顏色、紋理、形狀、線條等。針對每一種類的藝術元素,研究者們又設計了為數可觀的不同描述方法。關于藝術元素及常用特征的典型描述可見于如下:
1)顏色(color)有3個基本的屬性:色調、強度和飽和度。常用于描述顏色的特征除了這3個基本屬性的平均值,還有colorfulness、area statistics[30-31]等。
2)灰度值(value)描述顏色的亮度或暗度。常用的特征有l(wèi)ightness、darkness[30-31]等。
3)線條(line)是在某物體表面的連續(xù)的標記。主要有2種:強調線和非強調線。強調線,又稱輪廓線,勾勒出了一個物體的輪廓或邊緣,而非強調線則用于描述那些輪廓和邊緣未可堪稱重要的作品。不同的線條給人不同的感覺,如水平線代表平靜,給人輕松的感覺,垂直線代表強度與穩(wěn)定,對角線代表緊張,曲線則表示運動。通常用于描述線條的特征有通過霍夫變換計算的靜止和動態(tài)線條的數量和長度[30]。
4)紋理(texture)用于描述物體的表面質量(surface quality),有的藝術家使用平滑的紋理,也有的人喜歡用粗糙的紋理。常用的有基于小波的特征、Tamura特征、灰度共生矩陣[30]以及LBP特征。
5)形狀(shape)是平的,具有2個維度:高度和寬度。Lu等人使用圓度(roundness)、角度(angularity)、簡單性(simplicity)和復雜性(complexity)來描述形狀[32]。
(6)形式(form)具有3個維度,即高度、寬度和深度,因此形式具有體積。
(7)空間(space)指物體之間、上面、下面或物體內部的距離或面積。
除了目前常規(guī)通用的底層表達,也有部分工作開始提取中層或高層的特征。Machajdik和Hanbury[30]提取了包括Level of Detail、Low Depth of Field、Dynamics和Rule of Thirds在內的構圖(composition)作為中層特征,同時也發(fā)掘包括人臉、皮膚在內的圖像內容(content)作為高層特征。Solli和Lenz使用每個興趣點周圍的情感直方圖特征和情感包(bag-of-emotion)特征來對圖像進行分類[27]。Irie等人提取基于情感的音頻-視覺詞組包(bag of affective audio-visual words) 的中層特征以及隱主題驅動模型來對視頻進行分類[33]。
3.2 常用的機器學習方法
圖像情感分類一般可建模為標準的模式分類問題,常用的分類器都可以用來解決此問題。根據建模過程,其中的有監(jiān)督學習即可以分為生成式學習和判別式學習。相應地,判別式學習就是直接對給定特征條件下標簽的條件概率進行建模,或者直接學習一個從特征到標簽的映射,如Logistic回歸和支持向量機(SVM)等。生成式學習則分別對類別先驗和似然進行建模,而后再利用Bayes法則來計算后驗概率,如高斯判別分析和Naive Bayes。當處理多類分類時不僅可以直接采用多類分類器,也可以轉換成多個二值分類問題,常規(guī)策略有“一對一”分類和“一對多”分類。多種分類器可用來實施圖像情感的分類,其中進入使用流行的主要有Naive Bayes[30]、Logistic回歸[34]、 SVM[32,35-36]和稀疏表示等。
一般情況下,圖像情感回歸建模為標準的回歸預測問題,即使用回歸器對維度情感模型中各個維度的情感值進行估計。常用的回歸模型有線性回歸、支持向量回歸(SVR)和流形核回歸(manifold kernel regression)等。當前有關圖像情感回歸的研究仍屬少見,已知的只有使用SVR對VA模型所表示的情感嘗試,并實現了回歸[32,35]。
目前,已知的用于圖像情感檢索的方法主要有SVM[36]和多圖學習[37]等。
3.3 現有方法存在的主要問題及可能的解決方案
3.3.1 所提取的底層特征與圖像情感之間存在語義鴻溝
目前的圖像情感識別方法主要仍是基于學習的方法,因此學習時所使用的特征決定了最終學習的分類器或回歸預測器性能的優(yōu)劣。而時下絕大多數工作所提取的特征主要是基于藝術元素的底層特征,這就使得“情感鴻溝”極為顯著,學習所得的分類器的分類準確率較為低下,回歸預測器的預測結果誤差較大?;诖耍绾芜M一步縮小這一鴻溝,即改進特征與情感類別或情感得分之間的映射關系,即已成為氣候工作的研究重點。
3.3.2 沒有從腦科學、心理學及藝術學等學科的研究成果中得到啟發(fā)
情感表達是一個多學科交叉的研究方向,現有的從計算機的角度進行情感表達的工作大多都未曾引入腦科學、心理學及藝術學等產生的豐碩研究成果,這極大地限制了圖像情感表達領域的發(fā)展、推進和完善。
在進行藝術作品創(chuàng)作時,藝術家不僅僅需要使用藝術元素,而且還要研究藝術原理,即把藝術元素進行組織與排列以產生特定語義與情感的各類規(guī)則。因此,使用藝術原理作為描述情感的中層特征,可能會對情感識別產生一定的幫助。
3.3.3 沒有考慮個性化的情感識別
目前絕大多數的情感識別工作對情感的處理都是基于期望情感的[38-39],即圖像拍攝者或電影制作者創(chuàng)作作品時希望讀者產生怎樣的情感,或者基于大眾化情感,即大多數人所產生的類同式情感。這樣做雖然便于研究,但卻不符合實際情況,因為人的情感具有寬泛的主觀性,例如喜歡看恐怖片的人可能覺得這部影片并不恐怖。也就是說,不同人對同一圖像的情感反應是不同的,即情感評價是因人而異的,而且同一個人在不同時刻對同一圖像的情感反應也有可能出現不同,即情感評價是因時而異的。因此,課題重點就是需要研究每個人的真實情感。
要想解決上述問題,就需要為每個人都建立一個數據庫。人工標記顯然費時、費力,不過,把社交媒體中人們對圖像的評價作為對圖像情感的理解將不失為是一種近便且準確的方法。同時,還可以進一步考慮對社交媒體中情感的傳播和影響進行建模,即人們某時刻對圖像情感的理解可能受當時朋友情感的影響。
如果說只考慮期望情感將太過泛化,那么個性化的情感識別卻可能過于特殊,并且為之產生的計算復雜度還會很高。因此,介于期望情感和個性化情感之間的群體情感就可能會是一個合理的適用性解決方案。所謂群體情感,是指具有相同教育背景、生活環(huán)境和社會文化的人對同一幅圖像所產生的情感是相似的。
3.3.4 高層語義和情感的理解相互制約
人們產生情感,是由特定的知識背景與特定的語義所共同決定的。那么,考慮基于語義的圖像情感識別就應該更具備克星的真實性。但是,對圖像語義的研究本身即是一個尚未解決的疑難課題,這將使得運用語義進行情感識別還存在很大的困難。如果圖像語義分析技術達到了一定的技術水平后,圖像情感識別也必將獲得根本性解決。
3.3.5 目前用于情感表達測試的數據庫規(guī)模很小
現有已公布的圖像情感數據庫規(guī)模很小,大型的僅在2 000左右,小型的僅有200,這也限制了圖像情感表達的迅速發(fā)展,首要就是無法運用統計的思想和理論來發(fā)現其中的一些規(guī)則。而與此同時,社交網絡即給出了一種可能的應對方案,如何利用社交網絡上的大規(guī)模數據提高圖像情感的識別率,挖掘圖像情感之間的相互關系則需要研究學界的更大關注與投入。
3.3.6 沒有適用于圖像情感識別的理想學習策略
語音情感識別之所以發(fā)展得比較迅速,即是因為得到了與語音表達的機制相關的混合高斯模型和人工神經網絡的有效技術支撐。但是目前適用于圖像情感識別的學習策略或分類方法卻仍顯匱乏,而這又需要腦科學和機器學習等交叉領域研究的進化、提升與發(fā)展。
4 結束語
研究圖像情感計算,實現對圖像情感語義的分析對認知心理學、行為科學、計算機視覺、多媒體技術和人工智能領域的理論和技術發(fā)展均有促進作用。在過去的十幾年內,已有較多的相關工作獲得發(fā)表、并進入實踐。但是,圖像情感計算的研究仍然處在初級階段,仍有眾多問題未獲解決。本文在分析研究現狀的基礎上,總結出了現有方法存在的問題以及可能的解決方案,為后續(xù)研究提供了參考。
參 考 文 獻
[1] Picard R W. Affective computing[M]. London, England: MIT Press, 1997.
[2] PANG B, LEE L. Opinion mining and sentiment analysis[J]. Information Retrieval, 2008, 2 (1/2): 1-135.
[3] YANG Y H, CHEN H H. Machine recognition of music emotion: A review[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3 (3): 40.
[4] RODA A, CANAZZA S, De POLI G. Clustering affective qualities of classical music: beyond the valence-arousal plane[J]. IEEE Transactions on Affective Computing, 2014, 5 (4): 364-376.
[5] ZHAO S, YAO H, WANG F, et al. Emotion based image musicalization[C] //Proceedings of IEEE International Conference on Multimedia and Expo Workshops. Chengdu, China: IEEE, 2014: 1-6.
[6] WANG W, HE Q. A survey on emotional semantic image retrieval[C] //Proceedings of IEEE International Conference on Image Processing. San Diego, California, USA: IEEE, 2008:117-120.
[7] JOSHI D, DATTA R, FEDOROVSKAYA E, et al. Aesthetics and emotions in images[J]. IEEE Signal Processing Magazine, 2011, 28 (5): 94-115.
[8] WANG S, JI Q. Video affective content analysis: a survey of state of the art methods[J]. IEEE Transactions on Affective Computing, 2015, 6 (4): 410-430.
[9] ZHAO S, YAO H, SUN X, et al. Flexible presentation of videos based on affective content analysis[C] //Proceedings of International Conference on Multimedia Modeling. Huangshan, China: Springer, 2013: 368-379.
[10] ZHAO S, YAO H, SUN X, et al. Video Indexing and Recommendation Based on Affective Analysis of Viewers[C] //Proceedings of ACM International Conference on Multimedia. Scottsdale, AZ, USA: ACM, 2011: 1473-1476.
[11] ZHAO S, YAO H, SUN X. Video classification and recommendation based on affective analysis of viewers[J]. Neurocomputing 119: 101-110, 2013.
[12] WANG S, LIU Z, LV S, et al. A natural visible and infrared facial expression database for expression recognition and emotion inference[J]. IEEE Transactions on Multimedia, 2010, 12 (7): 682-691.
[13] LUCEY P, COHN J F, KANADE T, et al. The extended Cohn-Kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression[C] //Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. San Francisco, CA, USA: IEEE, 2010: 94-101.
[14] YIN L, WEI X, SUN Y, et al. A 3D facial expression database for facial behavior research[C] //Proceedings of IEEE International Conference on Automatic face and gesture recognition. Southampton, UK: IEEE, 2006: 211-216.
[15] DARWIN C, EKMAN P, PRODGER P. The expression of the emotions in man and animals[M]. New York, USA: Oxford University Press, 1872/1998.
[16] JAMES W. What is an emotion?[J] Mind, 1884(34):188-205.
[17] CANNON W B. The James-Lange theory of emotions: A critical examination and analternative theory[J]. The American Journal of Psychology, 1927, 39 (1/4): 106-124.
[18] LAZARUS R S. Progress on a cognitive-motivational-relational theory of emotion[J]. American psychologist, 1991, 46 (8): 819.
[19] 王志良. 人工情感[M]. 北京: 機械工業(yè)出版社, 2009.
[20] 陳俊杰. 圖像情感語義分析技術[M]. 北京: 電子工業(yè)出版社, 2011.
[21] EKMAN P. An argument for basic emotions[J]. Cognition & emotion, 1992, 6 (3/4): 169-200.
[22] IZARD C E. Basic emotions, relations among emotions, and emotion-cognition relations[J]. Psychology Review, 1992, 99: 561-565.
[23] MIKELS J A, FREDRICKSON B L, LARKIN G R, et al. Emotional category data on images from the International Affective Picture System[J]. Behavior research methods, 2005, 37 (4): 626-630.
[24] PLUTCHIK R. Emotion: A psychoevolutionary synthesis[M]. New York, USA: Harpercollins College Division, 1980.
[25] BENINI S, CANINI L, LEONARDI R. A connotative space for supporting movie affective recommendation[J]. IEEE Transactions on Multimedia, 2011, 13 (6): 1356-1370.
[26] RUSSELL J A, MEHRABIAN A. Evidence for a three-factor theory of emotions[J]. Journal of research in Personality, 1977, 11 (3): 273-294.
[27] SOLLI M, LENZ R. Color based bags-of-emotions[C] //Proceedings of International Conference on Computer Analysis of Images and Patterns. M¨unster, Germany:Springer, 2009: 573-580.
[28] Dietz R, Lang A. Affective agents: Effects of agent affect on arousal, attention, liking and learning[C]//Proceedings of International Cognitive Technology Conference. San Francisco, CA, USA: Springer, 1999.
[29] YANULEVSKAYA V, Van GEMERT J, ROTH K, et al. Emotional valence categorization using holistic image feature[C] //Proceedings of IEEE International Conference on Image Processing. San Diego, California, USA: IEEE, 2008: 101-104.
[30] MACHAJDIK J, HANBURY A. Affective image classi?cation using features inspired by psychology and art theory[C] //Proceedings of ACM International Conference on Multimedia. Firenze, Italy: ACM, 2010: 83-92.
[31] WANG W N, YU Y L, JIANG S M. Image retrieval by emotional semantics: A study of emotional space and feature extraction[C] //Proceedings of IEEE International Conference on Systems, Man and Cybernetics. Taipei, Taiwan: IEEE, 2006: 3534-3539.
[32] LU X, SURYANARAYAN P, ADAMS J R B, et al. On Shape and the Computability of Emotions[C] //Proceedings of ACM International Conference on Multimedia. Nara, Japan: ACM, 2012:229-238.
[33] IRIE G, SATOU T, KOJIMA A, et al. Affective audio-visual words and latent topic driving model for realizing movie affective scene classification[J]. IEEE Transactions on Multimedia, 2010, 12 (6): 523-535.
[34] BORTH D, JI R, CHEN T, et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs[C] //Proceedings of ACM International Conference on Multimedia. Barcelona, Spain: ACM, 2013: 223-232.
[35] ZHAO S, GAO Y, JIANG X, et al. Exploring Principles-of-Art Features for Image Emotion Recognition[C]//Proceedings of ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 2014: 47-56.
[36] WU Q, ZHOU C,WANG C. Content-based affective image classification and retrieval using support vector machines[C] //Proceedings of International Conference on Affective Computing and Intelligent Interaction, Beijing, China: Springer, 2005:239-247.
[37] ZHAO S, YAO H, YANG Y, Zhang Y. Affective Image Retrieval via Multi-Graph Learning[C]//Proceedings of ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 2014: 1025-1028.
[38] HANJALIC A. Extracting moods from pictures and sounds: Towards truly personalized TV[J]. IEEE Signal Processing Magazine, 2006, 23 (2): 90-100.
[39] HANJALIC A, XU L Q. Affective video content representation and modeling[J]. IEEE Transactions on Multimedia, 2005, 7 (1): 143-154.
[40] ZHAO S, YAO H, JIANG X, et al. Predicting discrete probability distribution of image emotions[C] //Proceedings of IEEE International Conference on Image Processing. Quebec, QC, Canada: IEEE, 2015: 2459-2463.
[41] ZHAO S, YAO H, JIANG X. Predicting continuous probability distribution of image emotions in valence-arousal space[C] //Proceedings of ACM International Conference on Multimedia. Brisbane, Australia: ACM, 2015: 879-882.
[42] LI B, XIONG W, HU W, et al. Context-aware affective images classification based on bilayer sparse representation[C] //Proceedings of ACM International Conference on Multimedia. Nara, Japan: ACM, 2012: 721-724.