斯嘉
這天,準(zhǔn)備考研許久的你,躊躇滿志地打開(kāi)了考研報(bào)名網(wǎng)站。
然而,還沒(méi)來(lái)得及一展才學(xué),你就被卡在了網(wǎng)站登錄的驗(yàn)證碼上。重疊在一起的字體,布滿馬賽克的背景,讓你輸了幾次驗(yàn)證碼都沒(méi)有輸對(duì)。
你屢敗屢戰(zhàn),但驗(yàn)證碼上出現(xiàn)的“骉叕犇羴”,又瞬間讓你懷疑自己的學(xué)識(shí)水平。
你再一次自我激勵(lì),決定這一次一定要輸對(duì),卻見(jiàn)刷新出來(lái)的驗(yàn)證碼上,寫著大大的兩個(gè)字:別考。
逼瘋你的驗(yàn)證碼,為什么變得越來(lái)越復(fù)雜?
每一次輸驗(yàn)證碼時(shí),你都會(huì)忍不住發(fā)出這樣的疑問(wèn)。它那扭曲的形狀,粘連在一起的字符,雪花狀的背景,常讓你陷入自己是不是眼瞎的懷疑。
然而,這種字符驗(yàn)證,還只是日常的基礎(chǔ)題,高難度的題目,往往出現(xiàn)在春節(jié)這樣的特殊時(shí)刻。登錄12306時(shí)要選擇的圖片驗(yàn)證碼,就曾是每個(gè)在春節(jié)搶過(guò)火車票的人的噩夢(mèng)。
有些驗(yàn)證碼更是不滿足只考你的眼力,還要測(cè)一下你的智商。在購(gòu)票網(wǎng)站搶演唱會(huì)門票時(shí),不僅要懂點(diǎn)文學(xué)典故,讀過(guò)四大名著,末了,還要附帶讓你算一道數(shù)學(xué)題。
甚至有些驗(yàn)證碼,還成了你和朋友間友誼的試煉場(chǎng)。在登錄Facebook驗(yàn)證時(shí),系統(tǒng)會(huì)隨機(jī)挑出幾張好友發(fā)布過(guò)的照片,讓你辨認(rèn)照片中的人是誰(shuí)。本就臉盲的你,再碰上你朋友修煉多年的P圖技術(shù),驗(yàn)證碼的難度系數(shù)也因此倍增。
美國(guó)斯坦福大學(xué)的研究指出,驗(yàn)證碼已經(jīng)過(guò)難。
研究者們搜集了8500個(gè)多種形式的驗(yàn)證碼讓受試者辨認(rèn),發(fā)現(xiàn)他們?cè)谂袛囹?yàn)證碼時(shí),平均要花9.8秒,且同時(shí)讓三個(gè)人辨別同一個(gè)驗(yàn)證碼,三人間的一致率只有71%。如果是聽(tīng)聲音辨識(shí)的驗(yàn)證碼,準(zhǔn)確率會(huì)更低,只有31.2%。
其實(shí),驗(yàn)證碼也不是一開(kāi)始就這么復(fù)雜。
在驗(yàn)證碼被發(fā)明前,許多免費(fèi)的郵箱網(wǎng)站常遭受惡性外掛軟件的攻擊。例如在2000年,雅虎郵箱中曾有大量用機(jī)器注冊(cè)的馬甲賬號(hào),他們會(huì)給用戶發(fā)大量的垃圾、詐騙郵件。
為了解決這個(gè)問(wèn)題,程序開(kāi)發(fā)人員試圖找到一種登錄驗(yàn)證方式,能判斷出正在操作的究竟是人還是機(jī)器。
AltaVista的工程師們便找到了有效的方式。他們發(fā)現(xiàn),當(dāng)時(shí),即使是配備了最先進(jìn)的光學(xué)字符識(shí)別系統(tǒng)的電腦,也很難正確識(shí)別出印在紙本上的字,尤其當(dāng)字符被拉伸、扭曲時(shí),電腦就更難辨認(rèn)。
然而,這對(duì)人類來(lái)說(shuō)卻很容易。我們從小就一直在接受閱讀訓(xùn)練,即使紙上的字歪歪斜斜,部分被遮擋,也不影響我們對(duì)整體的判讀。扭曲的字符,便成了最常用的登錄驗(yàn)證方式,并有了“驗(yàn)證碼”這個(gè)正式名字。程序員們會(huì)預(yù)先設(shè)定一個(gè)字符庫(kù),庫(kù)中的字符會(huì)排列組合成字符串,再根據(jù)隨機(jī)變量被扭曲、涂抹,定位在隨機(jī)背景上,從而成了我們所見(jiàn)的驗(yàn)證碼。
這些字符謎題,確實(shí)有效減少了網(wǎng)站中的垃圾郵件,到2001年,“ADD-URL”郵箱中的垃圾郵件便減少了95%。
但隨著電腦光學(xué)字符識(shí)別技術(shù)的不斷發(fā)展,這種形式的驗(yàn)證碼已經(jīng)越來(lái)越難將外掛機(jī)器擋在門外。在2014年Google工程師的測(cè)試中,即使是最難的扭曲字符類驗(yàn)證碼,電腦識(shí)別的準(zhǔn)確率也高達(dá)99.8%。為了擋住越來(lái)越聰明的機(jī)器,驗(yàn)證碼因此被迫進(jìn)化,出現(xiàn)了圖形驗(yàn)證碼、邏輯驗(yàn)證碼、語(yǔ)音驗(yàn)證碼……
不過(guò),你受的每一次苦,也不是白費(fèi)功夫。你在十秒內(nèi)減少的腦細(xì)胞,其實(shí)都轉(zhuǎn)移到了一個(gè)AI身上。
我們辨識(shí)的一些驗(yàn)證碼字符,來(lái)自那些年代久遠(yuǎn)的報(bào)紙、典籍,這些手寫、帶有污點(diǎn)的字跡,難以被電腦辨識(shí),程序員便將這些字符加入驗(yàn)證碼中。
這樣的驗(yàn)證碼通常由兩段組成,前一段是已經(jīng)成功數(shù)字化的單詞,后一段則是不知道正確答案的典籍字符。只要用戶答對(duì)第一段,第二段的判讀結(jié)果也會(huì)被記錄下,再比對(duì)多個(gè)用戶的辨識(shí)結(jié)果,得出結(jié)論。
在全世界人的判讀下,每天有超過(guò)2億個(gè)單詞被破譯、轉(zhuǎn)錄,《紐約時(shí)報(bào)》便借由這種方式,實(shí)現(xiàn)了數(shù)字化。你現(xiàn)在看到的百年前的《紐約時(shí)報(bào)》,可能就是你曾經(jīng)用愛(ài)發(fā)電的成果。
不只是字符類驗(yàn)證碼,Google讓用戶辨認(rèn)驗(yàn)證碼圖片中的“斑馬線”“紅綠燈”,也是在加強(qiáng)機(jī)器人的圖片辨識(shí)能力,并將機(jī)器學(xué)習(xí)成果運(yùn)用在自動(dòng)駕駛上。
我們就陷入了這樣一個(gè)循環(huán)怪圈:輸入越多驗(yàn)證碼,AI的學(xué)習(xí)能力就越強(qiáng),技術(shù)的進(jìn)步讓更多驗(yàn)證碼被破解,而我們就要被迫再次設(shè)計(jì)出更復(fù)雜的驗(yàn)證碼……
驗(yàn)證碼似乎已背離了初衷,成了一個(gè)難住了人類,卻難不住機(jī)器的擺設(shè)。
越來(lái)越多的科技公司也意識(shí)到了這個(gè)問(wèn)題,開(kāi)始試圖簡(jiǎn)化繁雜的驗(yàn)證碼。
比如,你現(xiàn)在登錄12306時(shí),就只用拖動(dòng)滑塊。這樣的驗(yàn)證碼不僅是在評(píng)判你操作的結(jié)果,更多的是記錄并分析你操作時(shí)的行為。電腦觀察你移動(dòng)滑塊的速度變化,就能認(rèn)出你是人類。另一種隱性的驗(yàn)證碼,也按照這個(gè)原理。當(dāng)你勾選“我不是機(jī)器人”時(shí),程序就能判斷你是否在說(shuō)謊。
并不是它真的有讀心術(shù),而是在你勾選后,它會(huì)自動(dòng)分析你在瀏覽該網(wǎng)頁(yè)時(shí)的行為,包括鼠標(biāo)的移動(dòng)軌跡、瀏覽的速率等,借此分析出這些行為是否屬于正常人類的操作。
至此,在這場(chǎng)人類與機(jī)器的比賽中,我們已不再試圖證明自己更聰明,而是轉(zhuǎn)向另一種策略:那不統(tǒng)一的行為軌跡,不精確的答案,笨手笨腳的操作,才是我們生而為人的特征啊。
不過(guò),這樣的隱性驗(yàn)證碼也不是萬(wàn)靈丹藥。在它出現(xiàn)后不久,加拿大多倫多大學(xué)的學(xué)者便發(fā)表了論文,聲稱他們的機(jī)器人可以模仿人類的操作行為,順利通過(guò)隱性驗(yàn)證碼的測(cè)試。
1950年,著名計(jì)算機(jī)科學(xué)家圖靈提出了一個(gè)思想實(shí)驗(yàn):人類提出一系列問(wèn)題,機(jī)器給出答案,再由人類判斷對(duì)方是否為機(jī)器。如果有超過(guò)30%的人將機(jī)器誤判成人類,那么這個(gè)機(jī)器就被認(rèn)為具有人類智能。但70年過(guò)去了,人類陷入了完全相反的境地——一個(gè)個(gè)驗(yàn)證碼,正是機(jī)器拋給人類的問(wèn)題:“你是人類嗎?”
這一次,審判權(quán)握在機(jī)器手中,而被驗(yàn)證碼難住的人類,仍在用力吶喊:我不是機(jī)器人。