劉佳雯
智能眼鏡構建起新教育遐想空間
智能眼鏡,外觀上鏡片可以拆卸,鏡框右邊有一個攝像頭,鏡架上附著一塊白色卡片;而其內(nèi)部卻內(nèi)置了雙核CPU、1個投影儀、1個前置攝像頭,還有傳感器、三軸陀螺儀、三軸加速度器、磁儀等。智能眼鏡沒有耳機,其聲音通過骨傳導,即通過振動頭骨,讓人聽到聲音。如果說谷歌眼鏡(Google Project Glass)是由谷歌公司于2012年4月發(fā)布的一款“拓展現(xiàn)實”眼鏡,那么今天,比谷歌眼鏡還神奇的魔法眼鏡層出不窮,催熟了智能眼鏡應用的市場。
以色列特拉維夫大學馬克斯帕爾曼中心主任蓋迪·阿里亞夫說,他們研發(fā)的智能眼鏡,更像一臺架在鼻梁上的微型電腦,“它可以完美地實現(xiàn)虛擬世界和現(xiàn)實世界的無縫對接”,即它能夠在現(xiàn)實的空間中,借助計算機圖形技術和可視化技術產(chǎn)生現(xiàn)實環(huán)境中不存在的虛擬對象,并通過傳感技術將虛擬對象放置在現(xiàn)實環(huán)境中,兩者實現(xiàn)無縫對接,融為一體。這副“魔法眼鏡”,還能夠將你看不懂的英文資料自動翻譯成你所熟悉的中文,“在街上,戴上這副眼鏡,你將獲得所在地點大量的信息。戴上眼鏡,就像是在鼻梁上架設了一個3D電影院,在你眼前透過眼鏡展現(xiàn)出超大的電影屏幕”。據(jù)國外媒體報道,谷歌眼鏡(Google Glass)已經(jīng)進入醫(yī)療保健領域,它在手術室和醫(yī)療教育中的應用將可以解決真實世界中的健康和醫(yī)療問題。
智能眼鏡從本質上是增強現(xiàn)實系統(tǒng)(AR也被稱為混合現(xiàn)實系統(tǒng),它將計算機生成的虛擬環(huán)境與真實世界統(tǒng)一起來,真實的環(huán)境和虛擬的物體實時地疊加,構造出具有虛實結合的虛擬空間,它不僅展現(xiàn)了真實世界的信息,而且將虛擬的信息同時顯示出來,兩種信息相互補充、疊加)的一種移動式實現(xiàn)形式。移動AR系統(tǒng)必須解決四個關鍵技術問題:顯示技術、跟蹤和定位技術、界面和可視化技術以及標定技術。
Google Glass未來的商業(yè)模式是Android生態(tài)系統(tǒng)的延伸:2013年4月28日,Google在Google Code上發(fā)布了Google Glass的Kernel源代碼和GPLv2許可證,這意味著Google開放了修改底層代碼的自由;預計未來Google公司還將會開放設備的硬件標準授權,產(chǎn)業(yè)聯(lián)盟成員則各自生產(chǎn)設備,借此擴大產(chǎn)量,推動使用谷歌Android系統(tǒng)的智能眼鏡普及。智能眼鏡市場爆發(fā)LCOS微顯示器模組環(huán)節(jié)受益最大——微顯示器模組是智能眼鏡上功能最重要、創(chuàng)新最多、貨值量最大的環(huán)節(jié),拉動的是全新的增量市場。
微軟的黑科技智能眼鏡HoILens又粉墨登場了。用手一揮就可以在墻上召喚出一個高清視頻窗口播放電影,一個語音命令就可以調(diào)用設計好的3D建模并與工作伙伴共享修改的創(chuàng)意。
事實上,我們還見證了智能眼鏡在醫(yī)學上的另一種應用場景,同樣讓人腦洞大開,它的畫面真實感極強:一位主刀醫(yī)生在手術過程中,透過智能眼鏡能直接看到病患部位類似CT掃描的影像,而當他將頭轉向一側的時候,就猶如投射一般,顯現(xiàn)出病人的病歷和生理數(shù)據(jù)指標,而當他需要向不在身邊的專家求助的時候,他可以將頭轉向另一側,就能即時獲得世界各個角落專家會診般地研討……也許將來某一天,你駕車上路不再需要導航儀,只要輕聲地說出目的地,一張清晰的導航地圖就會“刷”的一下呈現(xiàn)在眼前;在游覽名勝古跡時,可以“穿越時空”親身體驗這里發(fā)生過的前塵往事;即使是在地鐵上的局促空間里,也可以像置身影院般看一部極具視聽震撼力的好萊塢大片。其實要實現(xiàn)這些并不是天方夜譚,而是你只需要一副智能眼鏡……當科學、技術和需求結合到一起,一定能創(chuàng)建出一個既簡單又很重要的平臺,讓智能眼鏡進化成一件有趣的工具,也包括對教育技術有著深刻的革命性啟迪。
智能眼鏡產(chǎn)業(yè)對社會應用的努力
透析國內(nèi)智能眼鏡的發(fā)展狀況和應用領域,我們不難發(fā)現(xiàn),包括眼鏡在內(nèi)的智能穿戴設備在這個冬天有愈來愈火熱之勢。近日,素有投資風向標之稱的華人首富李嘉誠以1520萬美元投資可穿戴設備商Misfit Wearables,成為業(yè)界熱點。與其說中國龐大的電子消費市場讓這些行業(yè)開拓者莫名的興奮,不如說智能穿戴勾勒出的未來生活圖景讓我們充滿期待。從計算機到手機,再到智能穿戴設備,科技每前進一步,與人的融合就更近一步。
而在2014年谷歌在全球開發(fā)者大會上首次發(fā)布智能眼鏡時,就有媒體預言,谷歌智能眼鏡的出現(xiàn),將導致智能手機“退休”?!肮雀柩坨R幾乎涵蓋了所有智能手機的功能,不僅操作簡單,還能提供迅速且實時的信息,如果再加上眼球控制或手勢識別,使用者就不用中斷手頭工作去分心操控手機或計算機,相信其能成為相當有潛力的下一代計算機形式”。
目前普遍的分析認為,從計算機、手機,再到智能穿戴,整個趨勢與人的融合越來越好。而智能眼鏡相比手機,與人的融合更為直接、高效,因此,將來智能眼鏡很有可能會是我們離不開的“器官”。不過,智能眼鏡能與人“親密”到何種程度,這在很大程度上取決于未來技術的發(fā)展程度。
目前國內(nèi)做智能穿戴的主要是三類公司:一是創(chuàng)新科技的公司。他們也許人數(shù)不多,但往往有自己的專利技術。二是互聯(lián)網(wǎng)公司。以小米和360為代表。三是手機廠商。尤其是智能手表因其和手機技術接近,所以是許多手機廠商爭相進入的領地,如酷派、中興等都已開始涉足。按產(chǎn)品來分,一方面智能眼鏡因為光學上的技術要求,目前真正能做的廠家非常少;而智能手表目前國內(nèi)的生產(chǎn)商估計已經(jīng)達到三位數(shù)。另一方面,目前許多公司都要變成大數(shù)據(jù)公司,他們主要集中了三大類信息:一是環(huán)境數(shù)據(jù),如谷歌地圖,把全世界都放到了網(wǎng)上;二是物的信息,現(xiàn)在正在大力發(fā)展物聯(lián)網(wǎng);三是人的信息,這其中包括了人的自然屬性,如心跳、血壓等信息,也包括人的社會屬性,如生活、商務等信息。
雖然從智能穿戴的整個進程來看,目前還處在孵化期的階段,但智能設備的發(fā)展趨勢是與人的融合越來越好,計算機、手機都還只是外設,穿戴式設備才可能成為人的一部分,對未來產(chǎn)生很大的影響?!耙苍S在將來,人就是一個賬號再加一個智能芯片,所有的信息都會存儲在云端。我們可以相信,把整個互聯(lián)網(wǎng)都穿到身上也只是一個時間問題,你需要的只是想象力”。
智能眼鏡的技術突破
1.光學字符識別技術
把手機攝像頭對準菜單上的法語菜名,屏幕上能實時顯示出翻譯好的中文菜名;將全世界圖書館的藏書轉化為電子書;街景車游走于大街小巷,拍攝街景的同時也能從街景圖像中自動提取文字標識,讓地圖信息更豐富、更準確……這些場景的背后有一個共同的關鍵技術——OCR(Optical Character Recognition),光學字符識別(OCR)讓計算機“讀”懂世界。
我們還可以設想一下OCR在未來教育中的應用場景:每次上課后,只要將電子白板用手機等智能設備拍照留存,系統(tǒng)便能自動識別并分檢出不同學生對這堂課有針對性的后續(xù)作業(yè)和練習,并將待辦事項自動存放到各自的電子日歷中。事實上,我們已經(jīng)向這個場景邁進了一步,微軟前不久推出的Office Lens應用,已經(jīng)可以通過視覺計算技術自動對圖像進行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術將對圖片進行文字識別,隨后你就可以擁有一個可編輯、可搜索的數(shù)字文件,為上述未來應用場景打下基礎。微軟幾年前推出的手機應用Translator,除了支持文本和語音翻譯外,還能用手機拍攝不同語言的菜單或指示牌,翻譯結果立即浮現(xiàn)于原文之上。Office Lens和Translator這兩款產(chǎn)品中的“中日韓”O(jiān)CR核心技術就來自于微軟亞洲研究院的語音團隊。
2.從平板掃描儀到前端手機后端云
平板掃描儀對印刷體文本的識別率在20世紀90年代就已經(jīng)達到99%以上,可謂OCR應用迎來的第一個高潮。當時最著名的事件是谷歌數(shù)字圖書館,谷歌還申請了圖書掃描專利,實現(xiàn)了批量化的高速掃描。在此期間,手寫字體的識別也在并行發(fā)展,被廣泛用于郵件分揀、支票分類、手寫表格數(shù)字化等領域。但從21世紀開始,準確地說是自從2004年擁有300萬像素攝像頭的智能手機誕生之日起,自然場景中的文字識別課題引發(fā)了OCR新一輪的突破,云計算、大數(shù)據(jù)以及通訊網(wǎng)絡的快速發(fā)展,實現(xiàn)了前端采用BYOD設備進行文字捕捉,后端可以對其進行實時分析和處理,二者的結合讓OCR的未來應用模式充滿想象。
3.自然場景下的文字檢測獲突破性進展
自然場景圖像中的文字識別大大難于掃描儀圖像中的文字識別,因為它具有極大的多樣性和明顯的不確定性。例如,文字中包含多種語言,每種語言含有多種字母,每個字母又可以有不同的大小、字體、顏色、亮度、對比度等;文字通常以文本行的形式存在,但文本行可能有不同的排列和對齊方式,橫向、豎向、彎曲等都有可能;因拍攝圖像的隨意性,圖像中的文字區(qū)域還可能會產(chǎn)生變形(透視和仿射變換)、殘缺、模糊斷裂等現(xiàn)象。與傳統(tǒng)OCR技術中的掃描文檔圖像相比,自然場景圖像的背景更為復雜。例如,文字可能不是寫在平面上而是在曲面上;文字區(qū)域附近有非常復雜的紋理和噪聲;圖像中的非文字區(qū)域有跟文字區(qū)域非常相似的紋理,如窗戶、樹葉、柵欄、磚墻等。這些復雜背景會極大地增加誤檢率。這就必須結合相關技術和算法進行有針對性的優(yōu)化和創(chuàng)新。
4.受噪聲影響的CER的算法優(yōu)化
在實際操作中,并不是每個CER都需要通過顏色信息來增強,因為有很多CER本身顏色均勻,沒有噪聲,尤其是在圖片質量很高的時候。因此,在對CER進行增強操作之前我們會先判斷該CER是否需要增強操作,以減少不必要的計算復雜度。當獲得了高質量的候選連通區(qū)域時,就需要對其中的字符進行分辨,確定其是否為文字或非文字,微軟亞洲研究院創(chuàng)新地提出了一套基于淺層神經(jīng)網(wǎng)絡的文字/非文字分類算法,比以往的算法更加有效。
5.文字類問題空間劃分難題化解
利用無歧義學習策略訓練一個相應的淺層神經(jīng)網(wǎng)絡,作為該子空間的文字/非文字分類器,可以將該神經(jīng)網(wǎng)絡看作是一個黑盒子,在經(jīng)過大量學習之后,它便能較為準確地將文字與非文字分類。2014年8月,在瑞典首都斯德哥爾摩舉辦的國際模式識別大會(ICPR)上公布的研究成果在自然場景文字檢測的標準數(shù)據(jù)集(ICDAR-2013測試集)上取得了92.1%的檢測精度和92.3%的召回率。
6.量子光學對智能眼鏡的貢獻
近年來諾貝爾物理學獎得主對量子光學的發(fā)展功不可沒,他們都來自不同的領域,同時也是各自領域的佼佼者。2012年,法國科學家塞爾日·阿羅什(Serge Haroche)與美國科學家大衛(wèi)·維因蘭德(David Wineland)因“發(fā)現(xiàn)測量和操控單個量子系統(tǒng)的突破性實驗方法”獲獎。2011年,三位科學家Saul Perlmutter、Brian P. Schmidt和Adam G. Riess因“通過觀測遙遠超新星發(fā)現(xiàn)宇宙的加速膨脹”獲獎。2010年,英國曼徹斯特大學2位科學家安德烈·蓋姆(Andre Geim)和康斯坦丁·諾沃肖羅夫(Konstantin Novoselov)因在二維空間材料石墨烯(graphene)方面的開創(chuàng)性實驗而獲獎。2009年,原香港中文大學校長高錕(Charles K. Kao) 因“在光學通信領域光在光纖中傳輸方面所取得的開創(chuàng)性成就”而獲獎……
目前智能眼鏡所面臨的問題:一是電池續(xù)航;二是沒有殺手級應用。對于教育領域而言,后者的使命,當然不能讓科技界單方面承擔,教育技術的專家們似乎更擁有應用開發(fā)的話語權,我們都堅信未來的學習將是定制學習的時代,教師不再是固定的,教室也不再僅限于單一地點,教材更不再局限在課本或課件中。未來學習將是結合真實生活場景和個性化需求的學習服務。我們有理由期待,智能眼鏡將引領在線教育發(fā)展的未來,抑或引發(fā)新一輪的學習革命,重新定義未來學習,鑄就教育發(fā)展史上具有劃時代意義的一座新的里程碑。