卿勝藍
在警匪片中我們經(jīng)常看到這樣的場景:從監(jiān)控錄像中發(fā)現(xiàn)一閃而過的不法分子后,鏡頭定格于人像,警察緊緊盯著電腦屏幕說:“放大,增強?!苯又?,技術人員一通兒敲打鍵盤,經(jīng)過神奇的圖像處理加工,電腦屏幕上呈現(xiàn)出一張清晰的面部特寫。
然而在現(xiàn)實生活中,用低像素攝像機拍出的人像,一經(jīng)放大,呈現(xiàn)出的并不是分明的五官,而是一團模糊的圖像。如果是在黑夜里拍攝,圖像情況會更糟。
在光線作為信號產(chǎn)生圖像的過程中,比較粗糙的部分是噪點,光線暗的環(huán)境下收錄的噪點較多,信噪比低。用信號處理的方法提高圖像的分辨率是比較普遍的方法,比如直接通過電腦計算提高圖像信噪比。這種技術常被用在有線電視、數(shù)碼相機等呈現(xiàn)圖像的媒介中,它可以提高圖像的質(zhì)量,但還不足以還原被“馬賽克”覆蓋的圖片。
不過幾家大型技術公司和研究機構正在把電影中的情節(jié)與現(xiàn)實拉近。今年2月初,Google大腦團隊就成功運用人工智能技術將只有8×8像素(即8個像素點×8個像素點)的馬賽克圖片復原到了32×32像素的圖片。
在這次研究中,Google嘗試恢復了明星人臉和臥室照片兩種類別的圖片。以明星人臉為例,首先機器需要對大量普通人臉學習。但明星人臉會因上妝效果與普通人臉有些差異,比如眼睛更大、下巴更尖。因此,Google還研究了明星的化妝,特意標注了明星臉上一些有代表性的變量。
“Google的數(shù)據(jù)庫里有大量照片,每張都以類似的方式打上馬賽克,拿原圖跟馬賽克比較,看其相近性。通過這樣的方法,讓機器學會處理這些圖片。百度深度學習實驗室主任林元慶對《第一財經(jīng)周刊》說,大量高清圖片形成的數(shù)據(jù)能產(chǎn)生處理人臉的模板。
在Google的模板中,使用了兩種網(wǎng)絡:“調(diào)節(jié)網(wǎng)絡”(Conditioning Network)和“優(yōu)先網(wǎng)絡”(Prior Network)。調(diào)節(jié)網(wǎng)絡能將低像素圖片與相似的高像素圖片有效配對,得到馬賽克圖片中人臉的大致構架。優(yōu)先網(wǎng)絡則會對馬賽克做分析,試著將細節(jié)添加到對應的區(qū)域中,使圖片看上去更加真實。
所以,與其說Google的方法是在還原這些馬賽克圖片,不如說模擬人腦的計算機在“猜”這些圖片最有可能是什么樣的。Google所使用的模型其實是在計算一種概率:這張人臉可能長什么樣。
既然是“猜”,那么它給出的答案與相同分辨率的原圖對比肯定會存在差距。不過在Google的試驗中,人類很難從一組32×32像素的圖片中,辨認出哪張是真實圖片哪張是機器復原的,這意味著機器還原的準確率已經(jīng)在一個有效的范圍內(nèi)了。
“使用深度學習的方法能更好地解決機器處理模糊圖像的問題?!绷衷獞c說。最近,百度也對外展示了利用人工智能技術辨別模糊圖像中人臉的能力,但與Google不同的是,百度的這項技術不是修復人臉,只是識別人臉。
在江蘇衛(wèi)視正在熱播的綜藝節(jié)目《最強大腦》中,百度人工智能機器人“小度”曾識別黑暗環(huán)境中拍攝的“盜賊”,節(jié)目中的三個人分別戴了帽子、墨鏡、口罩等遮擋物。對于計算機來說,能否檢測到圖像中的人臉,難點在于暗光和遮擋物。
在有遮擋物的條件下,百度團隊希望計算機能夠根據(jù)有限的人臉信息,做到準確識別。他們在算法上做了一些設計,在訓練機器時,會標注出圖像中哪些部分不屬于人臉,如帽子、墨鏡、口罩,然后把這些無用信息的權重降低,讓機器自動完成學習過程。
針對黑暗環(huán)境下信噪比較低的情況,百度團隊也搜集了真實黑暗環(huán)境下拍攝的圖片,同時模擬了部分圖片。然后,他們將實際數(shù)據(jù)和模擬數(shù)據(jù)放入深度學習模型,讓計算機能夠辨別黑暗環(huán)境下的人臉特征。
更精準識別模糊圖像里的關鍵信息,這種人工智能技術無疑在公共安全領域會發(fā)揮很大作用。但目前,它還遠稱不上完善。
數(shù)據(jù)量是一個問題。比如Google的試驗目前就只對房間和明星人臉兩類圖片做了復原,圖片內(nèi)容包含的信息較少。如果要訓練機器復原其他類型的圖片,甚至是更加復雜的圖片,就需要更多數(shù)據(jù)和工作量。
另外,人工智能“思考”的方式畢竟和人類大腦有所不同,如何綜合雙方的優(yōu)勢,降低各自的劣勢也是需要考慮的。比如在《最強大腦》“人臉識別”的那場比賽中,機器人“小度”答錯的第二個問題,其選出的人臉就與正確的人臉相差非常大:正確的人臉臉型寬大,而“小度”給出的答案臉型較窄。
這個在人類看來會是顯而易見的差別,對于計算機來說卻沒有那么明顯?!芭质菰谖覀兿到y(tǒng)里面不是那么重要的一個特征,機器對這一因素確實不敏感,”林元慶說,“我們的人臉識別模型更基于從嘴型這種基礎的因素做出判斷?!彪m然“小度”完全把嫌疑人的臉型搞錯了,但它找出的人臉和正確答案的人臉之間嘴型特別像。
去年,康奈爾大學專注于數(shù)據(jù)隱私研究的教授Vitaly Shmatikov曾表示:“在安全和隱私方面,人們尚未感受到機器學習的威力?!痹谒磥恚辽倌壳?,機器還不具備簡簡單單就破解圖片隱私的能力。