邵 曦,劉君芳,季茜成
(南京郵電大學(xué) 通信與信息工程學(xué)院,南京 210003)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,電子相冊服務(wù)逐漸成為互聯(lián)網(wǎng)基礎(chǔ)服務(wù)之一.近年來隨著低存儲成本以及高分辨率性能的多媒體技術(shù)的發(fā)展,數(shù)字圖像的數(shù)量也得到了爆炸式的增長.Facebook(www.facebook.com)和Flickr(www.flickr.com)的相冊就是典型的代表.截至2013年9月,F(xiàn)lickr已擁有超60億張的圖片.而很多其他的社交網(wǎng)站如Facebook,甚至擁有更大規(guī)模的圖片數(shù)量.截至2012年5月,F(xiàn)acebook擁有約9億用戶,截至2013年11月每天會上傳大約3.5億張照片.此外,這些年來隨著移動互聯(lián)網(wǎng)平臺的不斷發(fā)展,用戶們更多地傾向于使用智能手機或平板拍攝照片并添加相冊.這一切都使得電子相冊的數(shù)量得到迅猛地增長.總之,不管是在個人電腦領(lǐng)域,線上服務(wù),或者是移動平臺,電子相冊服務(wù)都占著相當(dāng)重要的位置.因而在改進其用戶體驗以及完善其功能上,也具有很大的研究發(fā)展空間.
除了相冊的發(fā)布與共享,一些軟件例如iphoto還能提供為相冊選擇背景音樂的功能.當(dāng)用戶在瀏覽相冊時,如果能同時欣賞到符合照片情境的背景音樂,也會帶來與眾不同的感受.比如,為婚禮的圖片搭配浪漫的背景音樂;為籃球比賽的圖片搭配緊張刺激的音樂.在這種氛圍下瀏覽圖片,會帶來更美妙的視覺聽覺感受.但讓用戶親手選擇背景音樂也存在費時費力不夠?qū)I(yè)的缺點.因此,若能自動生成音樂相冊則可以解決上述的一系列問題,提高瀏覽電子相冊時的用戶體驗.但是如何跨越音樂與圖片之間的語義鴻溝是個很困難的問題.無論是一張圖片還是一段音樂都包含了一段故事,而這段故事包含了相關(guān)的情感.根據(jù)兩者之間這一共通點,可以聯(lián)想到跨模態(tài)檢索,其研究對象是不同模態(tài)的多媒體數(shù)據(jù),這些數(shù)據(jù)的特征有各自不同的表示方法和提取方法,因而具有異構(gòu)性,但是在情感語義上又相互關(guān)聯(lián),即不同模態(tài)的特征可以表征同一個情感語義概念,比如一張圖片或者一段音樂都能同時感受出“愉快”的感覺.由此可以看出多媒體時代的數(shù)據(jù)呈現(xiàn)出多模態(tài)數(shù)據(jù)混合并存,不同類型的多媒體數(shù)據(jù)表達相似情感且數(shù)據(jù)結(jié)構(gòu)復(fù)雜的特性[1].由于多媒體數(shù)據(jù)的這種特性,不同模態(tài)的多媒體數(shù)據(jù)之間的相似性度量就變得非常困難.另一方面,從不同模態(tài)提取出來的特征向量往往維數(shù)不同,具有異構(gòu)性和不可比擬性,不能直接進行相似性計算.所以若能實現(xiàn)音樂相冊的自動生成研究,則也是實現(xiàn)了跨越不同模態(tài)處理多媒體數(shù)據(jù)的檢索,即跨模態(tài)檢索.
目前大部分的圖像瀏覽系統(tǒng)如美圖看看,Picasa等都是傳統(tǒng)的幻燈片形式,人們?yōu)g覽了一定數(shù)量的圖片之后難免會產(chǎn)生審美疲勞.雖然也有不少軟件擁有制作電子相冊的功能,其主要目的是把一張張圖像集合成幻燈片模式自動播放,也有手動為其添加背景音樂的功能.例如iphoto能提供讓用戶為相冊指定背景音樂的功能,用戶通過搜索手機中存在的音樂為相冊添加背景音樂.然而當(dāng)要添加背景音樂過多時,會顯得繁瑣.人們一直在尋求更加智能便捷的方式,使得在瀏覽相冊的同時獲得更好的用戶體驗.
盡管現(xiàn)代的演示系統(tǒng)提供強大的編輯和組織的功能,連續(xù)的瀏覽模式依然很難滿足視覺和聽覺的要求.因此,在過去的幾十年中,有相當(dāng)數(shù)量的研究[2-3]已經(jīng)對視覺和聽覺進行了關(guān)聯(lián),按關(guān)聯(lián)類型,大致可分為兩種: 1) 以音樂為中心的關(guān)聯(lián);2) 以圖片為中心的關(guān)聯(lián).
1) 以音樂為中心的關(guān)聯(lián)
這種類型是給定一個音樂片段,為它關(guān)聯(lián)圖片.目前廣泛使用的有Winamp和微軟的媒體播放器,但它只是在播放音樂的同時生成簡單的圖像.這些視覺動畫不一定與播放的音樂內(nèi)容相關(guān).Chen等[4]提出一種音樂可視化系統(tǒng),它在播放用戶選取的音樂片段的同時,播放一組基于視覺和聽覺相似性的圖像.其想法與本文大致相似,只是在實驗時先對圖像進行情感的分類,再將情感標(biāo)簽與音樂的情感相聯(lián)系,并沒有對其底層特征進行相似性的研究.Xiang等[5]挖掘美學(xué)能量作為媒介建立一個自動的圖片瀏覽系統(tǒng).美學(xué)能量的基本思想是“聽見顏色,看見聲音”.Hua等[6]提出了一種家庭視頻自動編輯系統(tǒng).在這個系統(tǒng)中,用戶可以指定一個音樂片段,然后系統(tǒng)會按一定的編輯規(guī)則自動提取一系列的視頻片段.盡管上述提到的一系列研究在一定程度上將圖像和音樂進行了關(guān)聯(lián),這類系統(tǒng)的功能被限定在某些特定的情感空間,因為一個音樂片段包含了某些固定的情感.因此,照片的類型也總是收斂到一個特定的類型,并且一(音樂)對多(照片)的展示方式可能會讓用戶感到無聊.
2) 以圖片為中心的關(guān)聯(lián)
與上一種關(guān)聯(lián)模式相比,以圖片為中心的關(guān)聯(lián)模式則以圖片開始,展示了一組與圖片相關(guān)的音樂伴奏.多對多的關(guān)聯(lián)關(guān)系使這種類型的系統(tǒng)更加復(fù)雜,但這比以音樂為中心的關(guān)聯(lián)模式更加有趣.Wu等[7-8]提出根據(jù)圖像的視覺特征生成音樂的方法.Chen等[9]提出以平鋪幻燈片方式顯示照片,將照片和用戶選擇的音樂進行瓦狀方式的組合.Su等[10]提出了一種基于情感的視聽演示系統(tǒng),利用分類器來識別視覺和聽覺中的情緒.Li等[11-12]提出基于情感的專門針對印象派繪畫和古典音樂片段的視聽演示系統(tǒng).在文獻[11]中,具有相似情感的繪畫被分為一個集群.對每個集群挑選相對應(yīng)的音樂片段作為背景音樂.文獻[7-8]為一張圖片生成音樂并不是我們的目標(biāo).對于文獻[9],這項工作的主要觀點是設(shè)計自適應(yīng)照片布局.此外,該研究中背景音樂是手動選擇的.對于文獻[10],簡單的對應(yīng)方式導(dǎo)致音樂和圖像的組合局限在一個有限的情感空間.對于文獻[11],主要的問題是在實際應(yīng)用中計算成本太高.另外在這種關(guān)聯(lián)模式中,最大的一個難點在于如何處理不同音樂片段之間的平滑銜接問題.
此外,近幾年多媒體情感分析[12-13]一直是一個熱門話題.在圖片情感分析方面,Wang等[14]定義了一個三維情感空間,并且為藝術(shù)作品設(shè)計了3種情感因素.Mehrabian[15]通過顏色直方圖,基于心理物理學(xué)的特征和基于情感色彩的特征來描述圖像的全局外觀.Yoo[16]提出情感量表來查詢訪問圖像.Solli等[17-18]提出幾種來自于心理物理學(xué)實驗的顏色情感度量,從而進行基于內(nèi)容的圖像檢索.Shin等[19]提出一種基于小林規(guī)模[20]的概率模型來預(yù)測圖像的情感.在音樂情感分析方面,Myint等[21]根據(jù)情感的變化分割音樂片段,并據(jù)此對片段添加心情標(biāo)簽.
我們所提出的基于情感的家庭音樂相冊自動生成研究的框架如圖1所示.在訓(xùn)練階段,分別對圖像和音樂提取合適的情感特征,并選擇合適的情感模型與情感分類標(biāo)準(zhǔn)建立訓(xùn)練集,然后,通過典型相關(guān)算法分析具有相同情感的圖像特征與音頻特征之間潛在的相關(guān)性,從而得出每種情感類別的子空間映射模型.在音樂相冊自動生成階段,通過對一段輸入的未知情感的音頻片段,先進行情感的判別,再根據(jù)情感判別結(jié)果和訓(xùn)練階段學(xué)習(xí)到的子空間映射模型,在待篩選的測試圖像庫中,得出與音頻片段情感表達最接近的圖像序列來生成家庭相冊.下面將分別介紹本文音樂特征提取和圖像特征提取方法,以及使用典型相關(guān)分析(Canonical Correlation Analysis, CCA)算法進行子空間映射的方法.
圖1 音樂相冊自動生成研究框架Fig.1 The framework of music album generation
本文主要分析圖像與音頻特征之間的典型相關(guān)性,因而在特征提取上,未進行過多的討論研究,根據(jù)文獻[22]的研究結(jié)果,提取典型的梅爾頻率頻譜系數(shù)(Mel-Frequency Cepstrum Coefficients, MFCC)特征和在感知線性預(yù)測(Perceptual Linear Predictive, PLP)基礎(chǔ)之上引出的相關(guān)譜感知線性預(yù)測(RelAtive SpecTrA-Perceptual Linear Predictive, RASTA-PLP)特征,實驗表明,這兩種特征在音樂情感表征上具有較好的效果.對于一段30s左右的音樂片段,我們?nèi)?0階MFCC系數(shù)特征,21階PLP頻譜參數(shù),9階PLP倒譜參數(shù)RASTA-PLP,計算其均值和方差,獲得100維的特征值,將其組成最終的特征向量來描述一個音樂片段.
在圖像蘊含的眾多信息中,最直觀的是顏色特征,而人對顏色的敏銳程度會直接影響人的感受,如圖2(見第152頁)所示.近幾年,在顏色心理學(xué)的理論基礎(chǔ)上,研究者們更加深入地探討了不同的顏色與其產(chǎn)生的不同情感之間的關(guān)系,獲得了很大的收獲.
從色調(diào)上,人們一般把顏色分成暖色和冷色.所說的顏色冷暖其實是心理上的一種感受,和真實的溫度并沒有直接的聯(lián)系.暖色即為當(dāng)人們在看到紅色、黃色、橙色以及類似的顏色時,內(nèi)心會產(chǎn)生愉快、調(diào)皮、溫暖的感受.而冷色即為在看到藍色、紫色、白色及類似的顏色時,會產(chǎn)生一種清冷、高貴、神圣的感覺[23].此外,紅顏色象征著火熱與激情,會讓人激昂、愉悅、興奮;橙顏色給人充滿活力和溫暖的感覺;黃顏色像太陽一樣給人希望與光明,象征智慧之光;綠顏色讓人聯(lián)想青山綠水,給人舒適、朝氣蓬勃,充滿生命力的感覺;藍顏色讓人聯(lián)想起大海,藍天,給人純凈、清新自然的感覺;紫顏色讓人聯(lián)想紫氣東來,九五至尊,給人虔誠和雍容華貴的感覺;白顏色常與雕像、白鴿、醫(yī)生聯(lián)系,給人純潔高尚和干凈清爽的感覺;黑顏色讓人想起黑夜、陰謀、死亡,給人以肅穆、恐怖、神秘的感覺[24].
圖2 顏色與情感的圖像舉例Fig.2 Examples of color and emotion
此外,人們對于不同飽和度的顏色也會產(chǎn)生不一樣的感受,顏色的純度越高,給人的視覺沖擊力越大,越會引發(fā)更加強烈的感官刺激,如大紅、大綠等,顏色越鮮艷,越能吸引人的注意.人們常說的中性色算是一種純度較低的顏色,如灰紅、灰藍等給人的視覺沖擊力較弱,給人柔和、平易樸實的感覺,顏色相對較暗,但是別有一番韻味.就顏色的明度來說,明亮色讓人感到輕松,暗色讓人感到厚重;此外,不同的顏色疊加對情感也會產(chǎn)生一定程度的影響,如紅藍黃一起疊加后的顏色會使人感覺協(xié)調(diào)、愉悅,互補色使人感到寧靜舒適,而非互補色會使人感覺惡心[25].
考慮到顏色特征在圖像情感研究中的重要性,我們選取顏色矩以及文獻[26]提出的顏色對比度作為圖像特征.具體特征抽取過程如下: 將輸入圖像分成5×5=25張大小相等的子圖,將每張子圖的圖像數(shù)據(jù)從RGB(Red, Green, Blue)空間轉(zhuǎn)換到HSV(Hue, Saturation, Value)空間.顏色矩為計算每一張子圖在HSV空間各個分量上的一階矩(均值)、二階矩(方差)和三階矩(偏度).
此外,本文還提取了顏色對比度作為其特征之一,顏色對比空間(Opponent Color Space, OPP)計算公式如下:
(1)
式中:r,g,b為RGB顏色空間內(nèi)任意像素點的R、G、B通道的值,取值范圍為0~1.顏色對比度定義如下:
(2)
通過該方法提取每張子圖在色調(diào),飽和度,明度分量上的均值、方差和偏度,以及顏色對比度,即3×3×25=225個顏色特征值和25個顏色對比度值,由此一張圖像可以由250維特征向量來描述.
一般在多模態(tài)分析中,人們普遍使用語義標(biāo)簽作為連接橋梁,即將音樂特征與基于內(nèi)容的語義標(biāo)簽對應(yīng),分析之間的對應(yīng)關(guān)系,從而實現(xiàn)音樂底層特征與高層語義的關(guān)聯(lián).圖像問題也是如此.本文直接研究圖像特征和音樂特征之間的關(guān)系,并將其歸結(jié)為典型相關(guān)分析問題.一般地,假設(shè)兩組變量的數(shù)據(jù)x=(x1,x2,…,xp)和y=(y1,y2,…,yq),典型相關(guān)分析就是分析兩組變量之間的相關(guān)性.
分析相關(guān)性最普通的方法是對兩組中的所有變量都計算一下它們兩兩之間的相關(guān)性,最終求得p×q個相關(guān)系數(shù),利用求得的系數(shù)來描述這兩組變量之間的相關(guān)性特點,但這種做法常導(dǎo)致數(shù)據(jù)量太大;另一種方法與主分量分析法相似,取每組變量的線性組合,組成典型變量,這樣只需要研究幾個典型的變量,就可以描繪出兩者總體的關(guān)系,并且確保這些典型變量之間是不相關(guān),如此做法既能降低數(shù)據(jù)的維度又對變量之間的典型相關(guān)關(guān)系進行分析.在實際使用中,一般只需針對幾組相關(guān)性較強的變量進行分析,因為它們基本上涵蓋了所有的變量間的相關(guān)信息.圖3(a)是典型相關(guān)分析的示意圖,我們需要找到兩個變換a和b,使得數(shù)據(jù)x經(jīng)過a變換后的變量u(u=〈a,x〉)和數(shù)據(jù)y經(jīng)過b變換后的變量v(v=〈b,y〉)之間的相關(guān)度最大.這樣,不同模態(tài)之間的特征向量通過變換被映射到了同一維度的子空間,而同一模態(tài)具有相似特征的向量就會被映射到子空間的臨近區(qū)域,從而不同模態(tài)之間的相似性就有了衡量的依據(jù).
然而,典型相關(guān)分析的前提是基于假定的線性空間,考慮到實際中不同模態(tài)數(shù)據(jù)之間存在非線性相關(guān)的特點,我們提出使用核化典型相關(guān)分析(Kernel Canonical Correlation Analysis, KCCA)來解決這個問題.核化典型相關(guān)分析的示意圖如圖3(b)所示.先將特征向量x和y分別經(jīng)過非線性映射Φ(·)從低維映射到高維,然后再對高維向量Φ(x)和Φ(y)做典型相關(guān)分析.
圖3 典型相關(guān)分析與核化典型相關(guān)分析示意圖Fig.3 The diagrams of CCA and KCCA approach
4.1.1 音樂數(shù)據(jù)集
本文根據(jù)MIREX(the Music Information Retrieval Evaluation eXchange)的5類情感分類標(biāo)準(zhǔn)建立音樂數(shù)據(jù)集和圖像數(shù)據(jù)集,如表1(見第154頁)所示.第2列表示每個類別的中心情感詞,其他的詞都是對中心詞的相近描述.這樣描述比用單一標(biāo)簽的方法更精確.
在音樂情感識別領(lǐng)域,目前還沒有通用的中文音樂情感數(shù)據(jù)庫,因此本文所有的訓(xùn)練測試數(shù)據(jù)都是自行搜集和篩選的.具體步驟如下:
1) 找10位同學(xué),根據(jù)表1的5類音樂情感描述,在百度音樂庫中下載每類情感對應(yīng)的歌曲,每人20首,對音樂進行分割,選取每首歌中最能表達情感的30s片段,從而獲得5個類別共計1000個音樂片段.
2) 由于對音樂情感標(biāo)注存在很大的主觀性,為了增強音樂數(shù)據(jù)集的可信度,本文采用多人同時標(biāo)注的辦法.讓10名同學(xué)對這1000個音樂片段進行判定,對同一音樂片段有5人以上標(biāo)注為同一情感的,則認定該音樂片段屬于此類情感.否則放棄該片段數(shù)據(jù).經(jīng)此步驟篩選出了800個音樂片段,每類160首.
3) 讓10位同學(xué)對第2)步產(chǎn)生的音樂片段進行VA(Valence,Arousal)值的標(biāo)注,每人800首,為實驗方便,VA值的范圍取{-1,-0.8,-0.6,…,0,…,0.8,1},標(biāo)注后再取平均值.
4) 對標(biāo)注后的800個音樂片段進行篩選,劃定每類情感的VA值范圍如表2(見第154頁)所示,刪除超出范圍的音樂片段,選取500個音樂片段作為實驗數(shù)據(jù)集,每類100個音樂片段.
5) 用格式轉(zhuǎn)換軟件,將音樂片段統(tǒng)一為采樣率16kHz,wav格式,單聲道.每次實驗時,在每個類別中隨機選取90首作為訓(xùn)練數(shù)據(jù),測試時從剩下的10首中選擇作為測試數(shù)據(jù).另外在百度音樂庫上任意下載50首歌曲,不進行任何情感標(biāo)注處理,只摘取其中最體現(xiàn)情感的30s片段組成測試庫.至此,音樂訓(xùn)練庫共有音樂片段450首,測試庫有已知情感的音樂片段50首和未知情感的音樂片段50首.
表1 MIREX的5類情感分類標(biāo)準(zhǔn)
表2 5類音樂情感的VA值范圍
4.1.2 圖像數(shù)據(jù)集
為了實現(xiàn)基于典型相關(guān)分析的音樂相冊自動生成研究,本文采用兩個圖像數(shù)據(jù)集: 從共享網(wǎng)站上下載的藝術(shù)類圖像集[27]和國際情緒圖像系統(tǒng)(the International Affective Picture System, IAPS)[28]數(shù)據(jù)庫.IAPS圖像庫是由美國研究中心和國立精神衛(wèi)生研究所花費多年時間收集的,包含大多數(shù)情感的圖像庫.圖像庫中涵蓋了許多描述起來復(fù)雜的關(guān)于自然場景的記錄型圖像,例如昆蟲、人臉表情、疾病、車禍災(zāi)難、優(yōu)美風(fēng)景、獵狗、蟒蛇、攻擊場景等等.Mikels等[29]、Lang[30]從中挑選了394幅具有顯著代表性的圖像組成圖像庫,進行情感分類相關(guān)的研究,他們把圖像細分成8類,包括憤怒(A)、厭惡(D)、害怕(F)、敬畏(Aw)、悲傷(S)、滿足(C)、娛樂(Am)和興奮(E).
本文實驗為了與音樂的情感相對應(yīng),在圖像上同樣采用MIREX的5類情感分類標(biāo)準(zhǔn).由于IAPS中對每一幅圖像都有Valance和Arousal的標(biāo)注,因此給本文的數(shù)據(jù)庫準(zhǔn)備帶來了很大的方便.根據(jù)文獻[31]提出IAPS圖像在Valance和Arousal軸上的映射,可以看出圖像情感VA值所處范圍為1~9,與音樂數(shù)據(jù)集的VA值相對應(yīng),本文界定出5類圖像情感的VA值范圍如表3所示.
根據(jù)表3,在圖像庫中摘錄表1中所列5種情感類別下,滿足該表標(biāo)準(zhǔn)的圖像作為樣本來構(gòu)建圖像數(shù)據(jù)集,圖像數(shù)據(jù)集的情況如表4所示.訓(xùn)練集中共有圖像樣本450張,測試集中共有圖像樣本255張.
表3 5類圖像情感對應(yīng)的VA值
表4 圖像訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集
實驗評價指標(biāo)分為客觀評價指標(biāo)和主觀評價指標(biāo).
客觀評價指標(biāo)我們采用查準(zhǔn)率,這是評價一般系統(tǒng)最常用、最直接的指標(biāo),它最能反映實驗結(jié)果的準(zhǔn)確程度和可靠性,定義為
(3)
其中“正確返回的圖像數(shù)目”是指該返回圖像與輸入的音樂屬于同一個情感類別.
主觀評價指標(biāo)我們采用邀請學(xué)生打分的方式,共邀請20名同學(xué)對實驗結(jié)果進行評價.對于為歌曲推薦出的圖像,所有這20名同學(xué)按以下規(guī)則做標(biāo)記:
5分: 如果認為系統(tǒng)推薦的所有圖像都符合音樂所表達的情感,則標(biāo)記為5.
4分: 如果認為系統(tǒng)推薦的所有圖像中有80%都符合音樂所表達的情感,則標(biāo)記為4.
3分: 如果認為系統(tǒng)推薦的所有圖像中有60%都符合音樂所表達的情感,則標(biāo)記為3.
2分: 如果認為系統(tǒng)推薦出的所有圖像中有40%符合音樂所表達的情感,則標(biāo)記為2.
1分: 如果認為系統(tǒng)推薦出的所有圖像中有20%符合音樂所表達的情感,則標(biāo)記為1.
0分: 如果認為系統(tǒng)推薦出的所有圖像中沒有一張符合音樂所表達的情感,則標(biāo)記為0.
定義每一類情感的滿意度r為所有實驗數(shù)據(jù)的標(biāo)記分值的平均值占的比例,計算如下:
(4)
式中:τi為第i個音樂測試樣本的平均得分;t為音樂測試樣本的總數(shù).
首先,對于查準(zhǔn)率返回圖像個數(shù)M的取值實驗.本文考慮到有可能是檢索圖像的數(shù)量影響最終的查準(zhǔn)率,因而對實驗進行驗證,在不同檢索需求下,分析實驗查準(zhǔn)率的差別.實驗結(jié)果如圖4所示.由圖4可以看出,實驗返回在5張圖像時,查準(zhǔn)率普遍較高,主要是因為KCCA能有效地描述音樂特征與圖像特征之間的相關(guān)性,根據(jù)歐氏距離返回與音樂情感最接近的圖像時,距離最短的圖像也就是與測試音樂情感最接近的.但由于數(shù)據(jù)過少,實驗存在的偶然偏差性也會更大,因而選擇10張圖像,在該點處的實驗結(jié)果普遍具有較高的查準(zhǔn)率,因為隨著返回數(shù)量逐漸增加時,每一情感類別查準(zhǔn)率會越來越低.
我們通過查準(zhǔn)率來觀察KCCA方法的有效性,對測試音樂在情感已知和未知兩種情況下進行實驗對比.實驗返回10張與測試音樂情感表達最接近的圖像,查準(zhǔn)率為返回的10張圖像中與測試音樂情感相同的圖像所占比例.實驗結(jié)果的數(shù)據(jù)均取多次實驗的平均值,如圖5所示.
圖4 不同返回個數(shù)M下的查準(zhǔn)率對比Fig.4 Accurancy comparison with different number of returned images
圖5 KCCA方法與CCA方法的查準(zhǔn)率對比Fig.5 Accurancy comparison of KCCA and CCA
由圖5結(jié)果可以看出,總體而言,KCCA的方法查準(zhǔn)率高于純CCA方法.在測試音樂情感已知的情況下,本文提出的KCCA方法的查準(zhǔn)率相對較高,其中第1,4,5類的查準(zhǔn)率分別達到77.27%,77.78%,74.54%,主要是由于這3類情感下的圖像與音樂訓(xùn)練集的特征區(qū)分度較高,且KCCA在分析兩者的相關(guān)性上,得出了較準(zhǔn)確的映射模型,并且情感分類器對測試音樂的情感識別和分類方面在這幾類中效果較好.在測試音樂情感未知的前提下,由于測試音樂需要先經(jīng)過情感分類器進行情感的分類,再分別輸入到不同的KCCA映射模型,情感分類的偏差也會導(dǎo)致實驗結(jié)果的偏差.但總體差距并不大,說明本文采用的情感分類器以及KCCA算法都具有有效性,同時也表明圖像特征與音樂特征之間的非線性相關(guān)性模型要優(yōu)于線性相關(guān)模型.
在主觀評測實驗中,我們將實驗結(jié)果與以下3種方法進行比較.
1) Lower Bound(LB): 輸入一段音樂片段,隨機推薦本文測試圖像數(shù)據(jù)集中的圖像.由于是隨機推薦,其實驗結(jié)果應(yīng)該作為本實驗的下限.
2) Manually Selection(MS): 輸入一段音樂片段,人工推薦測試圖像數(shù)據(jù)集中的圖像.
3) CCA: 輸入一段音樂片段,采用經(jīng)典CCA方法推薦圖像.
本文將此衡量方法應(yīng)用于所有的測試音樂,每個測試音樂都通過隨機推薦、本文提出的KCCA方法、經(jīng)典CCA方法以及人工推薦這4種方法來推薦相應(yīng)的圖像,各位同學(xué)在評價時并不知道所看到的圖像是來自哪種推薦算法,在這個前提下根據(jù)本文提出的標(biāo)記方法進行標(biāo)記,得到最后的滿意度結(jié)果.表5顯示了隨機推薦的LB方法、本文的KCCA方法、傳統(tǒng)CCA方法和人工推薦的MS方法得到的滿意度結(jié)果.從表中可以看出,采用KCCA方法在人工評價時得到了69.45%的滿意度,這一數(shù)值與隨機推薦方法(滿意度平均在31.6%左右)和傳統(tǒng)CCA方法相比有明顯地提升,但與人工推薦的結(jié)果(滿意度平均在78.09%左右)還有一定差距,然而差距并不大.由此可以表明,本文采用KCCA方法確實能夠提高音樂相冊自動生成的效果,為用戶推薦出一組滿意度較高的圖像.
本文主要進行了基于情感的家庭音樂相冊自動生成研究,采用KCCA方法分析圖像與音樂特征之間潛在的相關(guān)性,實現(xiàn)了為音樂推薦出與其情感表達相近的圖像,并與人工推薦和隨機推薦等方法進行比較,實驗結(jié)果表明本文采用KCCA方法具有一定的有效性,同時也表明本文提取的圖像特征與音樂特征之間存在著一定的相關(guān)性.
對于未來可以繼續(xù)展開的工作,有以下幾點:
1) 音樂情感數(shù)據(jù)庫是根據(jù)MIREX提出的情感分類標(biāo)準(zhǔn)創(chuàng)建的,但該標(biāo)準(zhǔn)采用英文進行描述情感的類別,經(jīng)中文翻譯后所表達的情感也許產(chǎn)生誤差.另外由于目前還沒有統(tǒng)一的音樂情感數(shù)據(jù)庫,僅僅依靠少數(shù)同學(xué)創(chuàng)建,獲得的音樂庫只代表了一部分人的意愿,并不具有權(quán)威性.所以希望在未來的研究中,可以創(chuàng)建一個更完整、更有權(quán)威的中文音樂情感數(shù)據(jù)庫.
2) 本文在圖像特征提取時,提取的是圖像在色調(diào)、飽和度以及亮度分量上的均值、方差和偏度,還有圖像的顏色對比度特征.在以后的實驗中可以嘗試挖掘圖像更多能表征情感的特征.
3) 本文在音樂特征提取方面,未進行更多的挖掘,只是選取現(xiàn)有的MFCC特征參數(shù)和RASTA-PLP的倒譜和頻譜特征參數(shù)來描述音樂片段.在以后的研究中,可以進行更多的實驗與篩選,尋找更準(zhǔn)確的特征來表達音樂的情感.
[1] ZHANG H, ZHUANG Y, WU F.Cross-modal correlation learning for clustering on image-audio dataset [C]∥The 15th ACM International Conference on Multimedia. Augsburg, Germany: ACM,2007: 1245-1344.
[2] HANJALIC A. Extracting moods from pictures and sounds: Towards truly personalized TV [J].JournalofIEEESignalProcessingMagazine,2006,23(2): 90-100.
[3] YANG Y H, WANG J C, JHUO I H,etal. The acoustic visual emotion Guassians model for automatic generation of music video [C]∥Proceedings of the 20th ACM International Conference on Multimedia. Nara, Japan: ACM,2012: 1379-1380.
[4] CHEN C H, WENG M F, JENG S K. Emotional-based music visualization using photos [C]∥Proceedings of the 14th International Conference on Advances in Multimedia Modeling. Kyoto, Japan: Springer,2008: 358-368.
[5] XIANG Y, KANKANHALLI M S. A synesthetic approach for image slideshow generation [C]∥IEEE International Conference on Multimedia & Expo.Melbourne, Australia: IEEE,2012: 985-990.
[6] HUA X S, LU L, ZHANG H J. Optimization-based automated home video editing system [J].IEEETransactionsonCircuitandSystemsforVideoTechnology,2004,14(5): 572-583.
[7] WU X, LI Z N. Exploring visual-auditory associations for generating music from image [C]∥Proceedings of International Conference on Multimedia.Vancouver, Canada: ACM,2008: 1122-1125.
[8] WU X, LI Z N. A study of image-based composition [C]∥Proceedings of IEEE International Conference on Multimedia & Expo.Hannover, Germany: ICME,2008: 1345-1348.
[9] CHEN J C, CHU W T, KUO J H. Tiling slideshow: An audio visual presentation method for consumer photos [C]∥Proceedings of ACM Multimedia.Santa Barbara, USA: ACM,2006: 36-45.
[10] SU J H, HSIE M H, MEI T. Photosense: Make sense of your photos with enriched harmonic music via emotion association [C]∥Proceedings of IEEE International Conference on Multimedia & Expo. Barcelona, Spain: IEEE,2011: 1-6.
[11] LI C T, SHAN M K. Emotion-based impressionism slideshow with automatic music accompaniment [C]∥Proceedings of the 15th International Conference on Multimedia. Augsburg, Germany: ACM,2007: 839-842.
[12] MACHAJDIK J, HANBURY A. Affective image classification using features inspired by psychology and art theory [C]∥Proceedings of the International Conference on Multimedia. Firenze, Italy: ACM,2010: 83-92.
[13] LU L, LIU D, ZHANG H J. Automatic mood detection and tracking of music audio signals [J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2006,14(1): 5-18.
[14] WANG W N, YU Y L, JIANG S M. Image retrieval by emotional semantics: A study of emotional space and feature extraction [C]∥Proceedings of IEEE International Conference on Systems, Man and Cybernetics. Papeete, French: IEEE,2006: 3534-3539.
[15] MEHRABIAN A. Framework for a comprehensive description and measurement of emotionalstates [J].GeneticSocialandGeneralPsychologyMonographs,1995,121(3): 339-361.
[16] YOO H W. Visual-based emotional descriptor and feedback mechanism for image retrieval [J].JournalofInformationScienceandEngineering,2006,22(5): 1205-1227.
[17] SOLLI M, LENZ R. Color based bags-of-emotions [C]∥Proceedings of the 13th International Conference on Computer Analysis of Images and Patterns. Münster, Germany: IEEE,2009: 573-580.
[18] SOLLI M, LENZ R. Color emotion for image classification and retrieval [C]∥Proceedings of IS &Ts Conference on Color in Graphics, Imaging, and Vision(CGIV). Terrassa, Spain: CGIV,2008: 367-371.
[19] SHIN Y, KIM E Y. Affective prediction in photographic images using probabilistic affective model [C]∥Proceedings of the ACM International Conference on Image and Video Retrieval. Xi’an, China: ACM,2010: 390-397.
[20] KOBAYASHI S. Color image scale [M]. Tokyo, Japan: Publishing of Kodansha,1991.
[21] MYINT E E P, PWINT M. An approach for multi-label music mood classification [C]∥Proceedings of International Conference on Signal Processing System. Dalian, China: IEEE,2010: 290-294.
[22] 查美麗.基于情感的音樂分類系統(tǒng)的研究與實現(xiàn) [D].南京: 南京郵電大學(xué),2014.
[23] HAYASHI T, HAGIWARA M. Image query by impression words—The IQI system [J].IEEETransactionsonConsumerElectronics,1998,44(2): 347-352.
[24] 古大治.色彩與圖形視覺原理 [M].北京: 科學(xué)出版社,2000.
[25] JONHANNES I. 色彩藝術(shù)——色彩的主觀經(jīng)驗與客觀原理(The Art of Color) [M]. 滕守堯譯.上海: 上海人民美術(shù)出版社, 1985.
[26] RUIZ-DEL-SOLAR J, JOCHMANN M. On determining human description of textures [C]∥Proceedings of SCIA 2001 Scandinavian Conference on Image Analysis. Bergen, Norway: SCIA, 2001: 288-294.
[27] LANG P J, BRADLEY M M, CUTHBERT B N. International affective picture system(IAPS): Affective ratings of pictures and instruction manual [R]. Gainesville, FL: University of Florida,2008: A-8.
[28] YANULEVSHAYA V, VAN GEMERT J C, ROTH K. Emotional valence categorization using holistic image features [C]∥Proceedings of IEEE International Conference on Image Processing(ICIP’08). San Diego, CA, USA: IEEE,2008: 101-104.
[29] MIKELS J A, FREDRICKSON B L, LARKIN G R,etal.Emotional category data on images from the international affective picture system [J].BehaviorResearchMethods,2005,37(4): 626-630.
[30] LANG P J. The emotion probe studies of motivation and attention [J].AmericanPsychologist,1995,50(5): 372-385.
[31] ANWER R M, VAZQUEZ D, LOPEZ A M. Opponent colors for human detection [M]∥VITRIJ, SANCHES J D, HERNNDEZ M. Pattern Recognition and Image Analysis. New York, USA: Springer Science & Business Media, 2011: 363-370.