代洪霞,張龍飛*,丁剛毅
(1.北京理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100081;2.北京理工大學(xué)數(shù)字表演與仿真國家重點(diǎn)實(shí)驗(yàn)室,北京 100081)
表演的最早起源被看作與宗教儀式相關(guān)聯(lián),是人們在標(biāo)記生活重大事件進(jìn)行情感寄托的儀式活動(dòng),是人們對生活的表達(dá)、歌頌和升華。表演活動(dòng)是社會(huì)生活中不可或缺的一部分[1]。近年文藝演出在我國得到蓬勃有力的發(fā)展,演出的形式更加豐富,演出的規(guī)模也日益盛大,其中以國際奧林匹克運(yùn)動(dòng)賽事開閉幕式的文藝演出為首(如圖1所示),不僅振奮精神、凝聚人心,文化也借其得以傳承和提煉。隨著表演規(guī)模增大,表演元素和表演設(shè)計(jì)的復(fù)雜度也不斷提升,技術(shù)力量越來越參與到表演中,一方面表現(xiàn)為數(shù)字媒體技術(shù)在傳統(tǒng)表演藝術(shù)手段之上對表演形式進(jìn)行創(chuàng)新,比如虛擬現(xiàn)實(shí)和機(jī)器人表演工作[2]等,一方面則表現(xiàn)為算法計(jì)算對表演創(chuàng)作的賦能驅(qū)動(dòng),比如表演建模與仿真,智能創(chuàng)意等[3],通過算法進(jìn)行或者輔助創(chuàng)意成為可能。
圖1 北京夏季奧運(yùn)會(huì)開幕式、平昌八分鐘、北京冬奧會(huì)開閉幕式文藝演出
創(chuàng)造力是人類智能的重要特征之一[4],創(chuàng)造力的表現(xiàn)更是表演一類藝術(shù)創(chuàng)作活動(dòng)能否取得成功的關(guān)鍵,創(chuàng)意圍繞表演要素貫穿于表演創(chuàng)意的始終,包括主題設(shè)計(jì)、舞美布景、表演者行為動(dòng)作[5]。表演創(chuàng)意可以分為主題創(chuàng)意、形式創(chuàng)意、視覺創(chuàng)意,對于不同的創(chuàng)意方向,算法所參與的形式也各不相同,本文主要討論算法在表演創(chuàng)意中視覺創(chuàng)意的應(yīng)用。雖然表演活動(dòng)是基于三維空間的立體事物的變化和表現(xiàn),但對于作為觀眾的欣賞者而言依然為投射在視覺成像平面的二維畫面,導(dǎo)演在創(chuàng)意設(shè)計(jì)時(shí)也會(huì)以主觀眾臺(tái)視角為基準(zhǔn)進(jìn)行布局考量和舞臺(tái)設(shè)計(jì),因此在研究面向表演的視覺創(chuàng)意時(shí)同樣以二維畫面為基準(zhǔn)進(jìn)行設(shè)計(jì)。算法對創(chuàng)意的干預(yù)最初表現(xiàn)在計(jì)算和認(rèn)知兩個(gè)角度,Gero[6]提出應(yīng)用模型和算法輔助設(shè)計(jì)人員進(jìn)行更好的創(chuàng)意,Boden[7]則聚焦研究創(chuàng)造力儀式的工作機(jī)制,通過模擬人類智能來賦予機(jī)器創(chuàng)造力,Tang[8]則對設(shè)計(jì)智能重新進(jìn)行定義:解決設(shè)計(jì)和創(chuàng)意過程中的問題并生成創(chuàng)意解決方案的人工智能技術(shù)。
算法對視覺創(chuàng)意的支持和改進(jìn)可以從設(shè)計(jì)過程的四個(gè)階段進(jìn)行分析:需求分析、激發(fā)創(chuàng)意、原型設(shè)計(jì)和評價(jià)分析[9]。本文所關(guān)注和所要解決的問題正是利用算法進(jìn)行創(chuàng)意的有效激發(fā)。創(chuàng)意激發(fā)是通過增大有效信息的數(shù)量,擴(kuò)大創(chuàng)意搜索空間,從而降低設(shè)計(jì)起點(diǎn),更好地觸發(fā)設(shè)計(jì)想法或概念[10]。創(chuàng)意激發(fā)所面臨的問題包括設(shè)計(jì)原理固化、設(shè)計(jì)功能固化、對象類比關(guān)系盲區(qū)等[11],而為設(shè)計(jì)師提供更加豐富和有力的設(shè)計(jì)刺激是解決設(shè)計(jì)思維固化的關(guān)鍵。智能技術(shù)參與的方向可以分為設(shè)計(jì)線索的檢索[12]和生成[13]。前者主要是利用不同的檢索方法從而依據(jù)不同的標(biāo)準(zhǔn)對已有的設(shè)計(jì)素材進(jìn)行分類、篩選、組合和類比,更有針對性地為設(shè)計(jì)創(chuàng)意人員提供素材。后者則是利用生成技術(shù),在已有知識(shí)的基礎(chǔ)上,生成全新的不同的設(shè)計(jì)刺激。本文的工作正是將這兩者的方法結(jié)合起來,有針對性地對現(xiàn)有材料進(jìn)行分類整合,并利用其生成全新的設(shè)計(jì)刺激,以更好地輔助設(shè)計(jì)人員進(jìn)行創(chuàng)意構(gòu)想。
本文聚焦于使用算法激發(fā)創(chuàng)意,提出基于實(shí)體聯(lián)想的表演創(chuàng)意畫面生成算法,通過圍繞創(chuàng)意主題,合成豐富的具備真實(shí)、美觀特性的視覺畫面啟發(fā)創(chuàng)意。本文工作包括表演元素知識(shí)庫的構(gòu)建和表演創(chuàng)意畫面的合成。首先圍繞表演創(chuàng)意主題通過實(shí)體聯(lián)想算法,確定相關(guān)創(chuàng)意實(shí)體,并用語義分割模型提取出前景對象,構(gòu)建得到具有中國文化特色的表演創(chuàng)意對象素材庫,再從素材庫里選取恰當(dāng)?shù)那熬皩ο蠛捅尘?,編寫算法進(jìn)行基于美學(xué)原則的合理構(gòu)圖,并進(jìn)行邊界的融合,對光照紋理進(jìn)行和諧處理,得到真實(shí)美觀的視覺畫面。
創(chuàng)意看似來源于天馬行空的想象,卻絕非一剎那的靈光乍現(xiàn),實(shí)際上其有著規(guī)律可循,是一個(gè)復(fù)雜而曲折的過程。創(chuàng)作人員利用類比、想象、聯(lián)想等思維方式對已有的信息打破重組再創(chuàng)造,當(dāng)創(chuàng)意者積累足夠的素材后,不成熟、不完整的創(chuàng)意涌現(xiàn),經(jīng)過不斷地思考和思維運(yùn)動(dòng),混亂的思緒醞釀成一個(gè)完整的創(chuàng)意。而在這過程中,聯(lián)想是建立信息連接、實(shí)現(xiàn)創(chuàng)新的重點(diǎn)。
聯(lián)想是由一個(gè)事物觸發(fā)大腦想到另外一個(gè)事物,包接近聯(lián)想、相似聯(lián)想、對比聯(lián)想和關(guān)系聯(lián)想。圍繞一個(gè)主題進(jìn)行聯(lián)想,從而獲得更多與其相關(guān)的事物,是建立新的聯(lián)系和意象的關(guān)鍵。聯(lián)想并不是憑空產(chǎn)生,而是客觀事物和現(xiàn)象之間的相互聯(lián)系在頭腦中的反映,受限于人腦對于相關(guān)知識(shí)的儲(chǔ)備,只有儲(chǔ)備足夠多的素材,才能進(jìn)行足夠深而廣的聯(lián)想。本文方法正是模仿人類大腦思維活動(dòng)中的關(guān)系聯(lián)想,利用計(jì)算機(jī)強(qiáng)大的存儲(chǔ)和檢索能力,從而建立超乎于人腦之上的對海量資料的分析和關(guān)系聯(lián)想能力。
知識(shí)圖譜在最初階段是由谷歌提出用來優(yōu)化搜索引擎的技術(shù),在不斷發(fā)展中其外延也一度進(jìn)行擴(kuò)大,它將互聯(lián)網(wǎng)中的語義信息表達(dá)成更接近于人類認(rèn)知世界的思維形式,并且建立了一種更高效的組織、管理、儲(chǔ)存和利用海量信息的方式[14]。知識(shí)圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu)表達(dá),其基本組成單位為節(jié)點(diǎn)和邊。在知識(shí)圖譜里,每個(gè)圖的節(jié)點(diǎn)表示在現(xiàn)實(shí)世界中存在的“實(shí)體”對象,每條邊為相應(yīng)的實(shí)體與實(shí)體之間的“關(guān)系”,每個(gè)實(shí)體和關(guān)系又同時(shí)具有獨(dú)屬于其自身的“屬性”,實(shí)體、關(guān)系和屬性共同構(gòu)成了知識(shí)圖譜的核心三個(gè)要素[15]。知識(shí)圖譜的信息連接方式與關(guān)系聯(lián)想相似,都是通過關(guān)系或者屬性將不同概念進(jìn)行連結(jié)。關(guān)系聯(lián)想是指依據(jù)事物之間的關(guān)系在大腦內(nèi)進(jìn)行概念的連結(jié),比如從屬關(guān)系、因果關(guān)系、依存關(guān)系等,是最為廣泛和有效的聯(lián)想方式?;谥R(shí)圖譜技術(shù)建立清晰的知識(shí)關(guān)系網(wǎng)絡(luò),從而模仿大腦的關(guān)系聯(lián)想思維,圍繞創(chuàng)作主題關(guān)鍵詞聯(lián)想到更多可以用于視覺創(chuàng)作的實(shí)體是算法的核心。
本文建立實(shí)體篩選算法,因中文層級關(guān)系復(fù)雜,無法從關(guān)系上準(zhǔn)確判斷是否可以構(gòu)成畫面,因此進(jìn)行實(shí)體的篩選。此處實(shí)體并非數(shù)據(jù)庫中概念“實(shí)體”,而是指真實(shí)世界客觀存在具備視覺形象的實(shí)體,比如:森林,太陽等。進(jìn)一步對實(shí)體數(shù)量進(jìn)行限制,若僅提取出一個(gè)實(shí)體,則認(rèn)為無法通過畫面合成得到豐富的視覺畫面,故而舍棄該分支。
在確定得到相應(yīng)的實(shí)體后,進(jìn)一步形成層級清晰的語義網(wǎng)絡(luò)。與傳統(tǒng)呈中心發(fā)散的網(wǎng)狀結(jié)構(gòu)不同,考慮到應(yīng)用存在一個(gè)強(qiáng)有力的中心本體延展,不存在三者及以上的互聯(lián)關(guān)系,即假設(shè)每一個(gè)節(jié)點(diǎn)有且只有一個(gè)父節(jié)點(diǎn)(為了確保同一個(gè)物體不會(huì)在不同的圖片里出現(xiàn),以避免創(chuàng)意的重復(fù)性),因此自頂向下構(gòu)建樹形網(wǎng)絡(luò),以主題關(guān)鍵詞為頭節(jié)點(diǎn)向下進(jìn)行概念的延展和實(shí)體的拓展。網(wǎng)絡(luò)中存在兩種基本三元組“實(shí)體-關(guān)系-實(shí)體”和“實(shí)體-屬性-屬性值”,其中后者出現(xiàn)在最后的葉子節(jié)點(diǎn)及其父節(jié)點(diǎn)的關(guān)系上,主題關(guān)鍵詞下的每一個(gè)分支對應(yīng)一張圖片,每個(gè)分支下的最后一個(gè)實(shí)體即為圖片中的對象素材,包括前景和背景。整個(gè)過程的算法操作流程如圖2所示。
圖2 實(shí)體聯(lián)想算法框圖
對視覺形象進(jìn)行假設(shè)是創(chuàng)意設(shè)計(jì)驗(yàn)證的重要一步。創(chuàng)意不能止步于文本描述,尤其對于表演創(chuàng)意而言,更需要進(jìn)行完整的視覺驗(yàn)證。在本文工作中,在確定了畫面所包含的實(shí)體對象后,需要進(jìn)一步確定具體的視覺形象。在傳統(tǒng)創(chuàng)意中,視覺形象多取決于設(shè)計(jì)人員的素材準(zhǔn)備,本文希望借助網(wǎng)絡(luò)數(shù)據(jù)的海量性和快速檢索的高效性,拓寬視覺素材的豐富性。因?yàn)榈玫揭曈X完整畫面的關(guān)鍵在于利用圖像合成技術(shù)將位于不同圖片的前景和背景合成到一張圖像里,因此將對象從原圖中清晰完整地分離出來是關(guān)鍵的一步,本文利用語義分割技術(shù)進(jìn)行分離,為得到充足的數(shù)據(jù)訓(xùn)練相應(yīng)的語義模型,需要預(yù)先采用一個(gè)在線學(xué)習(xí)的增量模型構(gòu)建數(shù)據(jù)集。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 表演元素知識(shí)庫構(gòu)建算法整體結(jié)構(gòu)
語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要研究問題,指按照語義類別將圖像中各像素進(jìn)行分類。傳統(tǒng)方法包括基于統(tǒng)計(jì)和基于幾何的方法,隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割方法可以自動(dòng)學(xué)習(xí)圖像特征,進(jìn)行端到端的分類學(xué)習(xí),大幅度提升語義分割的精確度。采用神經(jīng)網(wǎng)絡(luò)方法,需要大量高質(zhì)量的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)各類語義類別。目前語義分割工作會(huì)按照不同的目標(biāo)選取不同的訓(xùn)練數(shù)據(jù)集,在語義分割領(lǐng)域研究重點(diǎn)更放在了提高模型的精準(zhǔn)度上,在語義類別上局限于目前已有的數(shù)據(jù)集所包含的類型,比如MS COCO[16]數(shù)據(jù)集包含80個(gè)類別,包含了人們大部分生活中常見的物體,但是與本文的應(yīng)用領(lǐng)域稍有偏差,因此需要另外構(gòu)建包含中國特色傳統(tǒng)文化元素的數(shù)據(jù)集。
本文采用郭提出的LNSNet[17]算法結(jié)構(gòu),其是一種在線的持續(xù)學(xué)習(xí)方法,既較好地使用深度學(xué)習(xí)進(jìn)行了有效地特征提取,也兼顧了傳統(tǒng)超像素分割方法靈活高效和遷移性強(qiáng)的特點(diǎn)。該模型可以很好地支持無監(jiān)督在線訓(xùn)練模式,采用了輕量級的特征提取模塊,通過自動(dòng)選取種子節(jié)點(diǎn),避免了聚類中心的迭代更新,降低了超像素分割的空間復(fù)雜度和時(shí)間復(fù)雜度。在該網(wǎng)絡(luò)結(jié)構(gòu)中,首先將輸入的圖像顏色信息RGB/LAB及空間信息轉(zhuǎn)化為5維的張量X,使用三個(gè)空洞率不同的空洞卷積進(jìn)行多尺度的特征提取,并采用兩個(gè)卷積模塊進(jìn)行多尺度特征融合,進(jìn)而得到用以進(jìn)行聚類的輸出特征圖Z:
其中*為卷積算子,X為輸入的特征,Xm為多尺度特征,Hd則為帶有擴(kuò)張范圍d的卷積,σ為由ReLU實(shí)現(xiàn)的非線性函數(shù)。
在使用超像素方法進(jìn)行分割前的預(yù)處理,對收集的數(shù)據(jù)集進(jìn)行處理后,需要訓(xùn)練一個(gè)語義分割模型以實(shí)現(xiàn)能夠?qū)Σ煌Z義類別的對象進(jìn)行自動(dòng)分割,這樣就可以向知識(shí)庫中不斷更新新的視覺素材。本文采用編碼器-解碼器網(wǎng)絡(luò)[19],對于編碼器網(wǎng)絡(luò),使用空洞卷積來提取對于某一預(yù)先設(shè)定分辨率下的深度卷積神經(jīng)網(wǎng)絡(luò)輸出的特征,使用空洞卷積可通過控制膨脹系數(shù)靈活地調(diào)整卷積的感受野進(jìn)而捕獲多尺度信息,假設(shè)輸入x,i為對應(yīng)輸入輸出上的位置,卷積核為w,則輸出y可以表示為:
對于解碼器模塊,首先對編碼器的特征進(jìn)行雙線性插值采樣,將其與來自網(wǎng)絡(luò)主干的具有相同空間分辨率的低級特征連接,再應(yīng)用卷積來細(xì)化特征,進(jìn)行簡單的雙線性上采樣,整體網(wǎng)絡(luò)如圖4所示。
圖4 語義分割算法結(jié)構(gòu)
使用該網(wǎng)絡(luò)模型,編碼器可以充分獲取上下文的豐富信息,解碼器則可以簡單有效地恢復(fù)對象邊界,并且對分辨率的設(shè)置保有一定的靈活度,相比其他語義分割方法具備較明顯的性能優(yōu)勢。
在確定了一個(gè)創(chuàng)意畫面所包含的實(shí)體對象以及相應(yīng)的視覺形象后,需要通過前景對象和背景物體合成到一張畫面中,形成整體的視覺效果,從而進(jìn)行更好的創(chuàng)意可視化和創(chuàng)意驗(yàn)證。在進(jìn)行圖像合成時(shí),前景物體在背景中的放置是非常核心的環(huán)節(jié),決定了合成后的結(jié)果是否真實(shí)。在進(jìn)行位置設(shè)計(jì)時(shí),主要從兩個(gè)方面進(jìn)行考量,一是基于現(xiàn)實(shí)的合理性,二是基于美學(xué)構(gòu)圖的美觀性。而在布局構(gòu)圖時(shí)所遵循的某一特定規(guī)則被稱之為構(gòu)圖法則。常見的構(gòu)圖法則包括:三分構(gòu)圖法、對角線構(gòu)圖法、上下對稱構(gòu)圖法、左右對稱構(gòu)圖法、黃金三角型構(gòu)圖、線性透視構(gòu)圖、黃金比構(gòu)圖法、平衡構(gòu)圖法、S形構(gòu)圖法、三角形構(gòu)圖法等等,如圖5所示。
圖5 圖中構(gòu)圖分別為三分構(gòu)圖法、中心構(gòu)圖法、水平線構(gòu)圖法、垂直構(gòu)圖法、對稱構(gòu)圖法、對角線構(gòu)圖法、引導(dǎo)線構(gòu)圖法、框架構(gòu)圖法、重復(fù)構(gòu)圖法
在舞臺(tái)構(gòu)圖中,通常不會(huì)采用較復(fù)雜的構(gòu)圖法則,尤其是大型文藝演出中,多采用保守的構(gòu)圖方式。本文工作為文藝演出的創(chuàng)作人員提供創(chuàng)意啟發(fā),因此需要遵循舞臺(tái)構(gòu)圖的原則,通過對大量文藝演出的觀察總結(jié),為盡量覆蓋更多的可能性,本文遵循和諧均衡的構(gòu)圖原則,采用中心構(gòu)圖法和三分法進(jìn)行實(shí)驗(yàn)。三分法是非常經(jīng)典傳統(tǒng)的構(gòu)圖原則,通過將畫面在橫向和縱向上進(jìn)行三等分得到一個(gè)井字格,在圖像主體區(qū)域形成四個(gè)交點(diǎn)和四條邊線,已有的研究證明,人們對于每幅圖像的視覺焦點(diǎn)并不是在圖像中心,而是在這四個(gè)交點(diǎn)上,類似黃金分割的位置,因此三分構(gòu)圖法的原則就是盡量將圖像主體放在四個(gè)交點(diǎn)及“口”上,符合人類的通常視覺習(xí)慣,如圖7所示。中心構(gòu)圖法原則是最簡單基礎(chǔ)的構(gòu)圖法則,即將主體置于畫面的中央,這種適用于演出規(guī)模較大的宏大場面,對象主體占據(jù)舞臺(tái)的較大空間,留白較少,無論鏡頭是切近景還是遠(yuǎn)景,對象主體幾乎都占據(jù)在畫面中央。
圖6 根據(jù)三分構(gòu)圖法、中心構(gòu)圖法確定物體可能的最佳位置
圖7 原圖像梯度泊松融合結(jié)果
在不確定前景和背景的相對語義信息時(shí),需要充分利用前景對象在原圖中的先驗(yàn)信息,具體包括:在原圖中像素所占的比例、高比寬比例、中心在原圖中的位置。通過先驗(yàn)信息提取出原圖的構(gòu)圖特征能夠更好地確定前景對象在背景中的位置和大小,從而讓圖像看上去更真實(shí)。在確定對象的位置后,對象的大小由對象在原圖中的大小和在背景中的位置所決定,即在背景中的深度決定了呈現(xiàn)在投影平面的大小。如果采用中心構(gòu)圖,則設(shè)置其在畫面比例不變的情況下,最大邊長為背景邊長的三分之二,以更好地呈現(xiàn)在畫面中心。如果確定采用三分構(gòu)圖法,則限定高為背景高的三分之一,若在三分構(gòu)圖的點(diǎn)上,則讓畫面的中心和點(diǎn)重合,限定寬長為背景寬長的三分之一。
因?yàn)樵诶谜Z義分割時(shí)無法完全地將前景物體分離,在將前景物體合成到背景時(shí),如果按照掩膜直接進(jìn)行圖像與運(yùn)算,則在合成的邊界處會(huì)出現(xiàn)一定的截?cái)?,影響圖像的真實(shí)性,因此在進(jìn)行圖像融合時(shí),本文采用泊松融合[20],對邊界進(jìn)行處理,從而讓合成更加真實(shí)自然。
泊松方程是在數(shù)學(xué)中經(jīng)常用于靜電學(xué)、理論物理及機(jī)械工程的一個(gè)偏微分方程,是由法國數(shù)學(xué)家、物理學(xué)家及幾何學(xué)家泊松得到并命名。有界區(qū)域上的標(biāo)量函數(shù)由邊界上的值和內(nèi)部的拉普拉斯算子唯一定義,因此泊松方程有唯一解,這就得到了一個(gè)合理的算法,給定在某一定義域上構(gòu)造未知函數(shù)拉普拉斯算子的方法,以及它的邊界條件,泊松方程可以通過數(shù)值求解來實(shí)現(xiàn)對定義域的無縫填充。本文利用具有狄利克雷邊界條件的泊松偏微分方程,通過指定在感興趣的特定區(qū)域上的拉普拉斯算子,以及定義邊界上未知函數(shù)的值。利用引導(dǎo)向量場進(jìn)行圖像的插值:S為R2的閉子集,表示圖像的定義域部分,Ω為S的閉子集,其邊界為?Ω;f*為定義在Ω域邊界及外部上(S-Ω+?Ω)已知的標(biāo)量函數(shù),f則為定義在Ω域域內(nèi)部(Ω-?Ω)上的未知的標(biāo)量函數(shù),v則為定義在Ω域上的矢量場,為了讓融合后的圖像邊界沒有明顯的截?cái)嘈院筒煌?,需要讓Ω域?nèi)的梯度值?f盡可能趨于最小值,定義最小化問題為:
該方程的解是唯一的,等同于帶有狄利克雷邊界條件的泊松方程的解,在區(qū)域Ω上可以表示為:
因?yàn)榍熬昂捅尘笆窃诓煌呐臄z條件(比如時(shí)刻、季節(jié)、天氣等因素)拍攝得到的,因此在圖像特征比如亮度和色溫等方面會(huì)存在較大的差異性,從而存在看起來不匹配和不和諧問題,圖像和諧化的工作希望通過對前景或背景進(jìn)行相應(yīng)的調(diào)整,使整張合成圖片看起來真實(shí)統(tǒng)一。傳統(tǒng)圖像處理任務(wù)中,常用直方圖均衡、圖像濾波去噪等算法進(jìn)行單張視覺質(zhì)量的增強(qiáng),大多數(shù)方法主要將圖像作為整體統(tǒng)一進(jìn)行處理。
基于深度學(xué)習(xí)的方法在表現(xiàn)上具有超出傳統(tǒng)方法的優(yōu)勢,比如特征可學(xué)習(xí)方法、端到端的訓(xùn)練與測試等。在比較典型的深度學(xué)習(xí)方法中,模型的性能和訓(xùn)練結(jié)果越來越好,具備共同的特點(diǎn)是并沒有顯式地建立前景與背景之間的關(guān)聯(lián)或者只是單純以背景為目標(biāo),通過對前景對象進(jìn)行處理以適應(yīng)背景的視覺特征,對于目標(biāo)背景圖而言,這些背景圖像中的色彩、光照等特征都各不相同,需要以特定的不同的個(gè)性化方式對圖像特征進(jìn)行調(diào)整,因此本文嘗試?yán)脠D像風(fēng)格遷移方法,對圖像進(jìn)行操作。
本文采用區(qū)域自適應(yīng)的實(shí)例歸一化模塊,該工作是在AdaIN[17]的方法上實(shí)現(xiàn)區(qū)域感知。模塊的輸入為背景圖像和前景圖像,設(shè)背景圖像為Ib,前景圖像為If,對于前景圖像目標(biāo)的掩碼為M,則組合圖像可以記為:
上式表示為將部分圖片M?If貼到另外一張背景圖像Ib上,其中?為哈達(dá)瑪乘積。設(shè)Fi為第i層特征在縮放后的前景掩碼圖,先分別乘以前景掩碼和背景掩碼1-Mi,得到來自前景和背景的特征,然后分別在前景和背景特征上計(jì)算各自通道的特征,具體包括均值和標(biāo)準(zhǔn)差:
據(jù)此,可以推出經(jīng)過模塊化后的特征表達(dá)式為:
圖8 兩種圖像和諧化方法結(jié)果對比
本文以2022年北京冬季奧運(yùn)會(huì)開幕式創(chuàng)意主題“立春”為實(shí)驗(yàn)主題,進(jìn)行完整的算法實(shí)現(xiàn),通過實(shí)體聯(lián)想得到七個(gè)視覺子主題,在每個(gè)子主題下各合成九百張圖像,一共得到六千三百張創(chuàng)意畫面,過程結(jié)果及分析如下。
在中華優(yōu)秀傳統(tǒng)文化百科知識(shí)庫和通用類百科知識(shí)庫中以“立春”為關(guān)鍵詞進(jìn)行檢索,對選自中國權(quán)威辭典及文獻(xiàn)總計(jì)約八萬字的數(shù)據(jù)資料進(jìn)行實(shí)體識(shí)別、關(guān)系提取一共得到68對三元組,本文遵循實(shí)體聯(lián)想算法的判斷原則,設(shè)定展開層級為兩級,即不再對三層及以上的數(shù)據(jù)實(shí)體進(jìn)行再展開,以第一級展開為畫面主題,第二級進(jìn)行視覺實(shí)體篩選,最終得到七個(gè)視覺分支分別是踏春、咬春、打春牛、春暖花開、魚陟負(fù)冰、詠春與嘆春七個(gè)視覺主題,一共提取得到四十六個(gè)實(shí)體,分別是棉衣、梨花、雪、鳥、草、芽、柳枝、欄、淚、新月、美人、春幡、風(fēng)雨、燕子、西園、酒、東風(fēng)、梅、青韭、河水、春牛、春雞、紅布、棉絮、黑線、東郊、鼓樂、彩旗、金箔、簪釵、春餅、蘿卜、鞭炮、春貼、小鑼、竹板等,對于一個(gè)視覺主題下可能同時(shí)包含多個(gè)實(shí)體,本文將畫面的實(shí)體限制在三個(gè)以內(nèi),以隨機(jī)組合的方式進(jìn)行,選取語義網(wǎng)絡(luò)的部分如圖9所示。
圖9 以“立春”為關(guān)鍵詞進(jìn)行實(shí)體聯(lián)想得到的語義網(wǎng)絡(luò)
確定畫面所包含的實(shí)體后,需要進(jìn)行相應(yīng)的素材搜索為后面的創(chuàng)意畫面合成建立知識(shí)庫,素材庫包含前景對象和背景。雖然在真實(shí)演出場景中,受舞臺(tái)演出場地限制,對于參演的對象不會(huì)提供豐富的背景,比如在2012年索契冬奧會(huì)上鯨魚造型便做了抽象化處理,并未給出其背景,但是在創(chuàng)意可視化時(shí),創(chuàng)意實(shí)體無法脫離環(huán)境而單獨(dú)存在,需要將其放在一定的環(huán)境背景中,以保證創(chuàng)意的完整性。因此對于確定的實(shí)體對象,需要進(jìn)行判斷,比如郊外、冰川這類實(shí)體可以被判定為背景,則不需要進(jìn)行對象提取即語義分割。同時(shí),進(jìn)行語義分割的目的是希望可以訓(xùn)練得到某一類對象的語義模型,能夠持續(xù)對素材進(jìn)行更新,因此對象應(yīng)該在視覺上具有豐富的表現(xiàn)性,比如涉及的蘿卜、春卷一類視覺形象較固定的實(shí)體,很難在視覺上得到更豐富的表現(xiàn),因此并不需要得到其語義模型,只需要確定一定數(shù)量的儲(chǔ)備素材即可。
數(shù)據(jù)的來源包括各大數(shù)據(jù)集以及專業(yè)圖片網(wǎng)站,在實(shí)驗(yàn)中本文一共為九類實(shí)體包括人、魚、燕子、黃鸝、桃花、梅花、新月、彩旗、竹建立了相應(yīng)的語義模型,在收集數(shù)據(jù)集時(shí)盡量選取視覺特征最豐富,差異性較大的圖像,其中對于花類對象,比如桃花和梅花,在實(shí)驗(yàn)中發(fā)現(xiàn)因?yàn)閷ο筝喞^復(fù)雜,在分割中很難準(zhǔn)確對細(xì)節(jié)進(jìn)行分割,經(jīng)過評估后,本文將其定為背景圖像。在數(shù)量上,對于每類對象分別選取3000張做為數(shù)據(jù)集進(jìn)行訓(xùn)練,最終為每類對象建立一個(gè)包含五百張圖片的知識(shí)庫。在知識(shí)庫數(shù)量上,雖然可以得到更多的圖像,但是考慮到為創(chuàng)意服務(wù),數(shù)量并不是最重要的標(biāo)準(zhǔn),并且在實(shí)驗(yàn)中發(fā)現(xiàn),有部分圖像存在一定的相似性,因此遵循最大豐富和美觀的原則,選取一百張作為創(chuàng)意素材儲(chǔ)備。
圖像合成實(shí)驗(yàn)可以分為兩個(gè)階段,第一階段物體位置確定,第二階段圖像融合及和諧化,本文首先遵循中心構(gòu)圖和三分構(gòu)圖法確定前景對象位置,如圖10所示。
圖10 以自建視覺知識(shí)庫內(nèi)素材為實(shí)驗(yàn)對象得到的位置結(jié)果
圖像融合及和諧化階段,主要針對邊界融合差異明顯及前后背景在光照紋理特征上相差較大的圖像,本文僅對得到的最佳位置構(gòu)圖執(zhí)行該操作,在圖像和諧化操作中,雖然該方法以風(fēng)格遷移為算法核心可以以前景為標(biāo)準(zhǔn),調(diào)整背景以適應(yīng)前景,也可以以背景為標(biāo)準(zhǔn),調(diào)整前景以適應(yīng)背景,但是通過實(shí)驗(yàn)觀察分析,對于前者,如果以前景為標(biāo)準(zhǔn),調(diào)整背景以適應(yīng)前景,則無法兼具背景原有的圖像特征,會(huì)因?yàn)檫^于向前景圖像特征靠近,而導(dǎo)致背景圖像失衡,因此主體實(shí)驗(yàn)中,一律以背景為標(biāo)準(zhǔn),調(diào)整前景以適應(yīng)背景,得到的結(jié)果如圖11所示。
圖11 算法最佳構(gòu)圖和主觀構(gòu)圖結(jié)果比較,圖像融合及和諧化結(jié)果
為了更好地進(jìn)行結(jié)果對比,本文從結(jié)果中挑選評分較高的結(jié)果與應(yīng)用于2022北京冬奧會(huì)開幕式儀式上的“立春”畫面進(jìn)行了對比,如圖12,可以看到在美觀性上并不輸于真實(shí)畫面,并且在主題上進(jìn)行了更豐富的拓展。
圖12 真實(shí)北京冬奧“立春”演出創(chuàng)意畫面(第一張)和合成創(chuàng)意畫面的結(jié)果(后四張)對比
本文從三個(gè)角度:合理性、美觀性、創(chuàng)意性,對結(jié)果進(jìn)行評估。對標(biāo)準(zhǔn)的定義為:合理性:圖片符合語義上的合理性,看起來真實(shí)可靠;美觀性:視覺意象豐富,不同結(jié)果之間差異性較大;創(chuàng)意性:與常規(guī)圖像不同,具備超出常規(guī)的巧妙構(gòu)思。
其中美觀性采用NIMA[19]評分框架進(jìn)行定量評價(jià),使用一種深度CNN[20],從直接觀感(技術(shù)角度)與吸引程度(美學(xué)角度)對圖像的美學(xué)質(zhì)量進(jìn)行評估,對于每張照片平均從175個(gè)不同的標(biāo)準(zhǔn)給出從1到10的分?jǐn)?shù)評級分布,平均分為最后綜合得分,除圖像本身內(nèi)容外,色調(diào)、對比度、分辨率等也會(huì)影響最后總得分,很好地從多角度對一張圖片的美學(xué)質(zhì)量進(jìn)行評估,表1為本文與另外兩種方法得到的結(jié)果進(jìn)行的美學(xué)打分,可以看到本文算法在美學(xué)表現(xiàn)上最優(yōu)。
表1 美學(xué)定量評估分?jǐn)?shù)
圖像生成方法多采用IS和FID作為判斷真實(shí)圖像和合成圖像的評分框架,但其無法對單張圖片的展示效果進(jìn)行打分,并且本文方法與圖像生成方法有本質(zhì)的不同,因此用數(shù)學(xué)模型進(jìn)行真實(shí)性打分對圖片的真實(shí)性并不能夠進(jìn)行有效衡量。同時(shí)對創(chuàng)意的評價(jià)因人主觀而異,沒有辦法用數(shù)據(jù)定量對創(chuàng)意程度進(jìn)行評分,也沒有一個(gè)對圖像創(chuàng)意的評價(jià)框架適用于本文的模型。因?yàn)楸疚牟捎糜脩粽{(diào)查的方法對真實(shí)性和創(chuàng)意性進(jìn)行評判。對一百名在性別年齡專業(yè)分布平均的對象,對三種方法各隨機(jī)選取50張圖片,對于創(chuàng)意性和合理性的評分標(biāo)準(zhǔn)如表2和表3所示,分為三個(gè)等級,對于圖片的創(chuàng)新性和真實(shí)性進(jìn)行評估,對落于三個(gè)等級的數(shù)據(jù)分布進(jìn)行分析。
表2 創(chuàng)意性評判標(biāo)準(zhǔn)
表3 合理性評判標(biāo)準(zhǔn)
本文方法在創(chuàng)意性和合理性的用戶打分如圖13所示,可以看到本文方法在創(chuàng)意性上有超過一半的用戶評價(jià)給出高等評分,在合理性上表現(xiàn)較弱,樣本的大部分評分在中級,說明合理性表現(xiàn)不佳。
圖13 創(chuàng)意性和合理性的用戶打分
將本文算法和語義搜索方法、圖像生成算法進(jìn)行對比,結(jié)果對比如圖14。在進(jìn)行定量對比上,我們?yōu)槿N方法在三個(gè)維度上分別計(jì)算平均分進(jìn)行綜合分析,如圖15。通過對比結(jié)果,可以看到,用搜索引擎直接對主題進(jìn)行檢索得到的結(jié)果雖然在合理性上評分較高,美學(xué)性上表現(xiàn)也較佳,但是創(chuàng)新性較差,結(jié)果間相似性較大,維度單一,內(nèi)容常規(guī),能夠進(jìn)行輔助創(chuàng)意的作用較弱。
圖14 本文方法和直接搜索方法、圖像生成方法得到的結(jié)果比較
圖15 本文方法和直接搜索方法、圖像生成方法得到的評分比較
對于圖像生成算法,在三個(gè)維度上表現(xiàn)都欠佳,主要表現(xiàn)在真實(shí)性上,結(jié)果存在較嚴(yán)重的失真,存在與現(xiàn)實(shí)矛盾的情況。在創(chuàng)意性上略優(yōu)于語義搜索方法,因隨機(jī)生成帶來失真的同時(shí)也得到了實(shí)現(xiàn)創(chuàng)新的可能性,可以看出圖像生成算法更適用于具備清晰準(zhǔn)確的文字描述下生成圖片,如果只提供實(shí)體對象的名字,則該方法無法提供有效的畫面生成,因此不適用于表演創(chuàng)意畫面生成。
相比其他兩種方法,本文方法在創(chuàng)意性上表現(xiàn)突出,通過更換前景和背景,實(shí)現(xiàn)了更多場景的組合和實(shí)現(xiàn),從而在豐富性維度上大大提高了創(chuàng)意價(jià)值。在美學(xué)維度上語義搜索得到的圖像不相上下,在真實(shí)性上表現(xiàn)略差,還存在一定的圖像合成痕跡,在構(gòu)圖上需要進(jìn)一步的研究。在三個(gè)維度上均優(yōu)于圖像生成算法,因此也為傳統(tǒng)由文字到圖片的轉(zhuǎn)換提供了新的借鑒方法。
本文針對智能創(chuàng)意在表演領(lǐng)域中的應(yīng)用,提出了一種實(shí)現(xiàn)表演創(chuàng)意的有序激發(fā)和可視化驗(yàn)證的路徑算法。首先基于實(shí)體聯(lián)想和語義分割算法構(gòu)建表演創(chuàng)意元素知識(shí)庫。圍繞創(chuàng)意中心主題詞匯,基于知識(shí)圖譜技術(shù)建立實(shí)體語義網(wǎng)絡(luò),通過實(shí)體聯(lián)想算法,確定相關(guān)視覺實(shí)體對象,通過語義搜索獲得創(chuàng)意主體的視覺素材,提取前景對象構(gòu)建數(shù)據(jù)集,訓(xùn)練語義類別分割模型,構(gòu)建具有中國文化特色的表演創(chuàng)意對象素材庫。然后基于圖像合成算法進(jìn)行表演創(chuàng)意畫面可視化,選取恰當(dāng)?shù)那熬皩ο蠛捅尘?,編寫算法進(jìn)行基于美學(xué)原則的合理構(gòu)圖,基于泊松融合進(jìn)行邊界的無縫融合,并對光照紋理進(jìn)行和諧處理,使畫面更真實(shí)美觀。
實(shí)驗(yàn)驗(yàn)證部分本文以北京2022年冬季奧運(yùn)會(huì)開幕式創(chuàng)意主題“立春”為關(guān)鍵詞進(jìn)行實(shí)驗(yàn),對選自中國權(quán)威辭典及文獻(xiàn)總計(jì)約八萬字的數(shù)據(jù)資料進(jìn)行實(shí)體識(shí)別、關(guān)系提取,建立了一共包含11700張創(chuàng)意素材的知識(shí)庫,并按照奧運(yùn)會(huì)開幕式的畫面設(shè)計(jì)添加字體等素材形成最終的創(chuàng)意畫面。最后從美觀性、合理性和創(chuàng)意性三個(gè)維度與其他實(shí)驗(yàn)方法包括語義搜索方法,圖像生成方法,從定量和定性的角度進(jìn)行對比評估,實(shí)驗(yàn)數(shù)據(jù)證明本文方法在美觀性、創(chuàng)意性和合理性上表現(xiàn)優(yōu)異。