人工智能正在消除“恐怖谷”

2018-03-01 09:04:09編譯聞心

世界科學(xué) 2018年2期

編譯聞心

未來將是一個充斥著人工智能生成內(nèi)容的世界，一個典型的烏托邦，同時也是一個“敵托邦”。它混亂而美麗，而我們已經(jīng)置身其中了。

2017年早些時候，伯克利大學(xué)的一個研究團隊發(fā)布了兩段視頻。第一段視頻中，一匹馬在鐵絲網(wǎng)柵欄后面奔跑。第二段視頻中，這匹馬身上突然出現(xiàn)了像斑馬一樣黑白相間的圖案。過程并非完美無缺，但是這些黑白相間的條紋巧妙地和馬融合在一起。

把馬變成斑馬是一種很好的噱頭，這標志著機器學(xué)習(xí)算法在改寫現(xiàn)實方面的能力越來越強大。比如，一些人就使用這種“斑馬化工具”把黑熊的照片變成了真實可信的熊貓照片，蘋果變成了桔子，貓變成了狗；Reddit網(wǎng)的一位用戶利用了一種不同的機器學(xué)習(xí)算法來編輯色情視頻，使其主角變成名人的面孔；在一家名為Lyrebird的新創(chuàng)業(yè)公司，機器學(xué)習(xí)專家們正在將某個人一分鐘的聲音樣本中合成讓人無法分辨的假音頻；研發(fā)Adobe的人工智能平臺“Sensei”的工程師正在將機器學(xué)習(xí)應(yīng)用到各種新型視頻、照片和音頻編輯工具中。這些項目在起源及目的方面是截然不同的，但是有一個共同點：它們生成的人工場景和聲音與現(xiàn)實世界的真實視頻驚人地相似。與人工智能生成的媒體的早期實驗不同，上述人工場景及聲音看起來、聽起來都非常真實。

這一轉(zhuǎn)變背后的技術(shù)將很快推動我們進入新的創(chuàng)意領(lǐng)域，提升當(dāng)代藝術(shù)家的能力，并將業(yè)余愛好者的能力提升到經(jīng)驗豐富的專業(yè)人士的水平。我們將對創(chuàng)造力進行重新定義——擴展到包含機器的輸出產(chǎn)物。但這種繁榮也會有黑暗的一面。一些人工智能生成的內(nèi)容將被用于使壞，從而引發(fā)人們的恐懼——機器學(xué)習(xí)算法可能被用來制造大量假新聞。過去關(guān)于圖像是否被篡改過的爭論將會讓位于新的爭論——關(guān)于各種照片、音頻及視頻內(nèi)容的真實性。

未來將是一個充斥著人工智能生成內(nèi)容的世界，一個典型的烏托邦，同時也是一個敵托邦。它混亂而美麗，而我們已經(jīng)置身其中了。

目前有兩種方法可以制作類似真實世界的音頻或視頻。第一種是用相機和麥克風(fēng)即時記錄下某個時刻，比如人類的首次登月。第二種是利用各種資源，通常以高昂的代價來制造一個摹本。因此，如果登月是一個騙局，那么一個有經(jīng)驗的電影制作團隊就不得不小心翼翼地為尼爾·阿姆斯特朗（Neil Armstrong）的月球之旅進行籌劃安排。如今機器學(xué)習(xí)算法則提供了第三種方法，使得任何只有少量技術(shù)的人都能夠?qū)F(xiàn)有內(nèi)容重新組合，生成新的材料。

剛開始，深度學(xué)習(xí)生成的內(nèi)容并不適合于超級現(xiàn)實主義。例如，谷歌于2015年發(fā)布的“深度夢想”（Deep Dreams）是利用深度學(xué)習(xí)來制作迷幻的風(fēng)景和多眼的怪物。2016年，一款頗受歡迎的名為Prisma的照片編輯程序利用深度學(xué)習(xí)來加強藝術(shù)照片的濾鏡效果，例如將快照轉(zhuǎn)化為彼埃特·蒙德里安（Piet Mondrian）或愛德華·蒙克（Edvard Munch）的繪畫風(fēng)格。Prisma背后的技術(shù)被稱為“風(fēng)格轉(zhuǎn)移”：采用一張圖像的風(fēng)格（如《吶喊》），將其應(yīng)用到一張照片上。

如今，上述支持照片風(fēng)格轉(zhuǎn)化的算法正變得越來越精確，預(yù)示著“恐怖谷”（電腦生成的仿真人類通常會引起人們的不安）的終結(jié)。與之前不同的是，像“斑馬化工具”這樣的技術(shù)已經(jīng)開始逐步消除恐怖谷現(xiàn)象。在康奈爾大學(xué)的卡維塔·巴拉（Kavita Bala）實驗室，深度學(xué)習(xí)可以為一張照片注入不同的風(fēng)格，例如將一張沉悶暗淡的某城市的照片注入燈光閃爍的夜間布景——讓人們誤以為合成的地方是真實存在的。人工智能具有辨別美學(xué)特征的潛在能力。受到這一啟發(fā)，巴拉與他人共同創(chuàng)立了一家名為Grokstyle的公司。比如，你很喜歡一位朋友家沙發(fā)上的抱枕，或者一本攤開的雜志吸引了你的注意。你只需要給Grokstyle算法提供一張圖像，它會給你提供類似的物品。

巴拉說：“我喜歡這些技術(shù)，是因為它們使設(shè)計和風(fēng)格變得全民化。作為一名技術(shù)人員，我欣賞美麗和風(fēng)格，但卻無法創(chuàng)造出來。而這項工作就使之成為可能。讓他人也能夠創(chuàng)造藝術(shù)風(fēng)格，這是一種樂趣。我們在藝術(shù)領(lǐng)域沒有天賦，并不意味著我們就必須生活在一個沉悶的世界里。”

在Adobe，十幾年來機器學(xué)習(xí)已經(jīng)成為該公司的創(chuàng)意產(chǎn)品的一部分，但直到最近，人工智能才開始具有變革性。2017年10月，致力于該公司的人工智能平臺——Sensei的工程師們，展示了一款名為“Adobe披風(fēng)”的視頻編輯工具，使用戶可以從一個視頻片段中無縫地移除一個燈柱——這個任務(wù)對于一個有經(jīng)驗的編輯來說通常也是非常困難的。另一項名為“投射皮影”的實驗，在視頻中實時應(yīng)用了一種藝術(shù)風(fēng)格。例如，它可以將一個人的實時錄像呈現(xiàn)為一個健談的青銅雕像或手繪的卡通。Sensei的實驗并非總是轉(zhuǎn)化為商業(yè)產(chǎn)品。資深首席科學(xué)家、Adobe研究主任喬恩·布蘭德（Jon Brandt）說：“基本上，人們可以在網(wǎng)絡(luò)攝像機或任何攝像機前進行表演然后將其實時轉(zhuǎn)化為動畫。”

機器學(xué)習(xí)使這些任務(wù)成為可能，因為與之前的計算機視覺方法相比，它能夠更好地分辨表面各部分或前景和背景之間的差異。Sensei工具使藝術(shù)家們工作時將精力集中在創(chuàng)造上，而不是原材料。布蘭德解釋說：“Photoshop在處理像素上做得很好，但是現(xiàn)在人們想要做的是處理由像素代表的內(nèi)容?！?/p>

這是好事情。布蘭德認為，當(dāng)藝術(shù)家們不再浪費時間糾結(jié)于屏幕上的像素時，他們的工作效率就會提高，或許創(chuàng)造力也會增強。

他說：“我覺得極有可能出現(xiàn)新的藝術(shù)形式，對此我很期待也很興奮。”

但不難看出，這種創(chuàng)造性大爆發(fā)可能會帶來非常嚴重的問題。最近，一段偽造的視頻使芝加哥大學(xué)的一位研究生姚遠順（Yuanshun Yao）開始探究機器學(xué)習(xí)可能造成的一些危險。他點擊播放了一段人工智能生成的、酷似巴拉克·奧巴馬（Barack Obama）演講的視頻剪輯之后，不禁開始思考：自己是否可以用文本來做類似的偽造呢？

一篇文章需要近乎完美才能欺騙大多數(shù)讀者，因此姚遠順首先嘗試了容許有錯誤的文本類型——在Yelp或Amazon這樣的開放平臺上進行虛假的在線評論。一條評論可能只有幾句話，讀者并不期待有高水平的寫作能力。因此，姚遠順和伙伴們設(shè)計了一種神經(jīng)網(wǎng)絡(luò)，可以生成類似Yelp網(wǎng)站的短評——每條大約包含5句話。其中有一組評論宣稱“這絕對是我們最喜歡的地方！”“我和哥哥一起去的，我們吃了素食意大利面，味道很好?！币h順讓人們?nèi)ゲ聹y這些評論是真的還是假的，果不其然，很多人都上當(dāng)了。

來自市場的虛假評論，每條成本約為10～50美元，姚遠順認為，將來某一天會有一個工程師，故意試圖將這個過程自動化，從而降低成本，產(chǎn)生鋪天蓋地的虛假評論，導(dǎo)致災(zāi)難性后果，而這一切只是時間問題。（他還研究了利用神經(jīng)網(wǎng)絡(luò)來保護平臺不受虛假內(nèi)容的攻擊，并取得了一些成果。）姚遠順說：“據(jù)我們所知，目前還沒有這樣的系統(tǒng)。但是也許在5～10年內(nèi)，我們會被人工智能生成的東西所包圍。”他的下一個目標是生成令人信服的新聞報道。

視頻方面的發(fā)展可能會更快。達特茅斯大學(xué)的教授阿尼·法里德（Hany Farid）是一名檢測虛假照片及視頻的專家，他擔(dān)心病毒式內(nèi)容（指偽造的照片視頻）的傳播速度過快，而其檢測驗證過程卻相對漫長。法里德想象著，在不久的將來，一段令人信服的偽造視頻——特朗普總統(tǒng)下令對朝鮮進行核毀滅的視頻——在網(wǎng)絡(luò)上瘋傳，引起恐慌，就像一場人工智能時代的世界大戰(zhàn)。他說：“我盡量不去做很瘋狂的預(yù)測，但我認為這并非牽強附會。這是將來可能發(fā)生的事情。”

偽造的特朗普演講視頻已經(jīng)在互聯(lián)網(wǎng)上流傳，這是一家語音合成初創(chuàng)公司Lyrebird的產(chǎn)品——盡管在公司與大眾分享的視頻剪輯中，特朗普并未把手指放在按鈕上為Lyrebird公司點贊。該公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官約瑟·索特洛（Jose Sotelo）認為，這項技術(shù)是不可避免的——有了這樣的道德準則，他和同事們才會致力于這項技術(shù)的研發(fā)。同時他認為，目前最好的防御辦法是提高人們對機器學(xué)習(xí)能力范圍的認識。索特洛說：“如果你看到一張我在月球上的照片，你可能會認為這或許是某種圖像編輯軟件合成的。但是如果你聽到一段令人信服的音頻——你最好的朋友在講你的壞話，你可能會真的感到擔(dān)心。這的確是一項新技術(shù)，也是一個非常具有挑戰(zhàn)性的問題。”

或許沒有什么能阻止即將到來的人工智能生成的內(nèi)容——即使我們想要阻止也是徒勞。最糟糕的情況就是，騙子和政客將利用機器學(xué)習(xí)算法來生成大量的誤導(dǎo)信息。由于社交網(wǎng)絡(luò)會有選擇性地傳播最吸引人的內(nèi)容，這些系統(tǒng)將輸出最受歡迎的、可點擊的和可分享的內(nèi)容。

但最好的情況是，由人工智能生成的內(nèi)容很可能會以多種方式幫助改善人類生活。索特洛的夢想是，將來Lyrebird公司的技術(shù)能夠讓那些由于罹患肌萎縮性側(cè)索硬化癥或癌癥等疾病已經(jīng)失去聲音的人恢復(fù)言語能力。本文伊始談到的伯克利大學(xué)發(fā)布的馬變成斑馬的視頻——是在改進自動駕駛汽車的工作中出現(xiàn)的一個意外情況。通常，駕駛軟件首先在虛擬環(huán)境中進行訓(xùn)練?！鞍唏R化工具”算法旨在縮小虛擬環(huán)境與現(xiàn)實世界之間的距離，最終使自動駕駛汽車更加安全。

人工智能是把雙刃劍。隨著它的不斷發(fā)展，它會跟人類越來越接近。最終，它將跟人一樣具有人性化的一面，既能行善，也能作惡。