張澤玲
在開(kāi)始討論這項(xiàng)技術(shù)本身之前,我們先來(lái)了解一下大家天天看的視頻跟圖片有什么異同??赡苡新斆鞯耐瑢W(xué)已經(jīng)知道,視頻就是很多幅有著細(xì)微變化的圖片連續(xù)變換。由于人眼的視覺(jué)殘留①效應(yīng),很多幅圖片快速變換時(shí),我們?nèi)祟?lèi)并不能覺(jué)察到當(dāng)前圖片如何換到下一張,于是就看到了連續(xù)的動(dòng)態(tài)圖像。知道這一點(diǎn)以后,大家大概可以猜到:視頻換臉就是把視頻里每一幀圖像里的人臉改動(dòng)成新的臉。這其實(shí)也是原來(lái)拍電影和電視連續(xù)劇后期制作時(shí)采用的方法,但都需要專(zhuān)業(yè)人員花費(fèi)大量時(shí)間、人工去修改潤(rùn)色。
大家可以計(jì)算一下,大部分電影的幀率是24幀/秒,也就是說(shuō)一秒鐘長(zhǎng)的電影要有24幅畫(huà)面變換。如果需要換臉的視頻長(zhǎng)度為一分鐘,那就需要改動(dòng)24×60=1440幅畫(huà)面。改動(dòng)后結(jié)果要達(dá)到渾然天成,就需要對(duì)每一幅進(jìn)行細(xì)致的處理,還要考慮每一幅和上一張下一張的過(guò)渡是否平滑自然。可想而知,這項(xiàng)工作需要多少時(shí)間和耐心。由于成本過(guò)高,影視制作行業(yè)并沒(méi)有廣泛使用這種“換臉技術(shù)”,更不要提我們普通人自己給視頻“換臉”當(dāng)作娛樂(lè)了。
而讓我們普通人也能玩換臉游戲的,就是機(jī)器學(xué)習(xí)技術(shù),也正是這次Al革命的基礎(chǔ)。機(jī)器學(xué)習(xí)技術(shù)里有不少有趣的模型和方法,在視頻換臉技術(shù)里大展身手的是自動(dòng)編碼器(Autoencoder)。雖然名字里有個(gè)“器”,但自動(dòng)編碼器其實(shí)是用程序代碼實(shí)現(xiàn)的數(shù)學(xué)模型。在電腦程序的眼里,所有的圖片視頻其實(shí)都是一組記錄了顏色、光線(xiàn)等參數(shù)的數(shù)據(jù),只是在人類(lèi)需要觀(guān)看的時(shí)候解碼成顯示器上的圖像。自動(dòng)編碼器,就是一種會(huì)自己學(xué)習(xí)如何把已有圖像轉(zhuǎn)化成數(shù)據(jù),又把數(shù)據(jù)解碼成圖像的數(shù)學(xué)模型。
那么自動(dòng)編碼器是如何學(xué)習(xí)編碼和解碼的呢?其實(shí)我們可以將自動(dòng)編碼器的學(xué)習(xí)過(guò)程理解為一個(gè)畫(huà)家學(xué)習(xí)畫(huà)老虎的過(guò)程。首先我們給這位畫(huà)家很多老虎的照片,讓他觀(guān)察提取老虎的特征,然后畫(huà)家按照自己的觀(guān)察畫(huà)出老虎,再跟原始的老虎照片比較是否畫(huà)得好,根據(jù)結(jié)果再練習(xí)提高。經(jīng)過(guò)一番訓(xùn)練,這位畫(huà)家即便被要求畫(huà)自己從未見(jiàn)過(guò)的老虎動(dòng)作姿態(tài),也能畫(huà)得惟妙惟肖。這種給了輸入數(shù)據(jù)讓AI模型“自己摸索”解決方案的機(jī)器學(xué)習(xí)方法,就叫作非監(jiān)督學(xué)習(xí)。給訓(xùn)練好的畫(huà)師提作畫(huà)要求就是自動(dòng)編碼器的輸入,畫(huà)出來(lái)的老虎就是輸出。
所以視頻換臉是一個(gè)學(xué)會(huì)了畫(huà)“變臉圖”的自動(dòng)編碼器嗎?并不是。事實(shí)上,換臉是由兩個(gè)自動(dòng)編碼器“畫(huà)家”協(xié)作完成的。除了前面的畫(huà)老虎畫(huà)家,我們?cè)賮?lái)訓(xùn)練一個(gè)只會(huì)畫(huà)狼的畫(huà)家。現(xiàn)在畫(huà)狼的畫(huà)家覺(jué)得老虎很威風(fēng),但他喜歡狼群的瀟灑自由,所以想畫(huà)一群瀟灑自由的老虎。于是他找來(lái)畫(huà)老虎的畫(huà)家商量:咱們一起畫(huà)一幅猛虎群圖吧,你來(lái)執(zhí)筆畫(huà)老虎,我來(lái)告訴你畫(huà)一群動(dòng)物如何構(gòu)圖組織。就這樣,他們得到了具有狼群特征的猛虎群圖。對(duì)應(yīng)到換臉技術(shù)上,就是我們訓(xùn)練了一個(gè)基于原始人臉的自動(dòng)編碼器A,和一個(gè)目標(biāo)人臉的自動(dòng)編碼器B,然后用A編碼輸入圖片,用B解碼生成圖片,這樣就得到了合成更換為目標(biāo)人臉的圖片。這樣對(duì)視頻中的每一幀圖片都進(jìn)行操作,最后我們就得到了換臉后的視頻。
①視覺(jué)殘留
是光對(duì)視網(wǎng)膜所產(chǎn)生的視覺(jué),在光停止作用后,仍然保留一段時(shí)間的現(xiàn)象,其原因是由視神經(jīng)的反應(yīng)速度造成的,時(shí)值約是1/16秒,對(duì)于不同頻率的光有不同的暫留時(shí)間。視覺(jué)殘留具體應(yīng)用就是電影的拍攝和放映。
大銀幕上最接近AI換臉術(shù)的嘗試或許就是《速度與激情7》中的這個(gè)Ending畫(huà)面了,而保羅的這次“重生”,花費(fèi)了5000萬(wàn)美金。
換臉過(guò)程中,最耗費(fèi)時(shí)間和技巧的是訓(xùn)練兩位“畫(huà)家”的過(guò)程,訓(xùn)練好了以后轉(zhuǎn)換過(guò)程會(huì)比較快速。與傳統(tǒng)影視行業(yè)的方法相比,訓(xùn)練自動(dòng)編碼器和編碼器生成圖片大部分都靠程序代碼完成。雖然還是需要一定計(jì)算時(shí)間和訓(xùn)練技巧,但比起舊的人工方法已經(jīng)有了巨大的提高。當(dāng)然,自動(dòng)編碼器雖然換臉?biāo)揭涣鳎⒉皇撬械囊曨l隨便用程序跑跑就能達(dá)到完全天衣無(wú)縫的效果。訓(xùn)練時(shí)模型參數(shù)設(shè)置得不好(好比畫(huà)家自己水平太次怎么也學(xué)不會(huì)),或者訓(xùn)練數(shù)據(jù)質(zhì)量不高(好比訓(xùn)練畫(huà)家時(shí)給的照片質(zhì)量太差),最后換臉的效果也只能是差強(qiáng)人意。
當(dāng)這項(xiàng)技術(shù)出現(xiàn)時(shí),由于以假亂真的效果太好,引發(fā)了不少擔(dān)憂(yōu)。有人立馬提出:這個(gè)技術(shù)能騙過(guò)人臉識(shí)別解鎖嗎?答案是有可能。所以我們平時(shí)不能只依賴(lài)于刷臉解鎖,重要的操作步驟還是需要驗(yàn)證密碼。另外,大家之前都說(shuō)眼見(jiàn)為實(shí)截圖為證,在修圖軟件大規(guī)模應(yīng)用后,因?yàn)閳D片很容易被篡改,所以不少人說(shuō)拍視頻為證。現(xiàn)在能替換視頻中人臉的軟件也來(lái)了,我們還應(yīng)當(dāng)開(kāi)始質(zhì)疑視頻造假的可能。最后,由于自動(dòng)編碼器這個(gè)畫(huà)家如此厲害,為了自己不被“換臉”,一定不要把帶有自己臉部的照片大量放在所有人都可以看見(jiàn)的網(wǎng)站上,也不要隨隨便便換個(gè)臉去和喜歡的明星“飆戲”,以免成為自動(dòng)編碼器的訓(xùn)練素材。