“真是令人難以置信的結(jié)果,它的確讓我在這最后一個(gè)工作日感覺(jué)不錯(cuò)?!痹诒葼枴どw茨退休當(dāng)天,微軟亞洲研究院手寫(xiě)識(shí)別團(tuán)隊(duì)收到了一封蓋茨的回復(fù)郵件。蓋茨在郵件中所說(shuō)事情指的正是微軟亞洲研究院用戶界面組(現(xiàn)軟件分析組)與Windows產(chǎn)品部門(mén)共同研發(fā)的東亞文字手寫(xiě)識(shí)別技術(shù),當(dāng)時(shí),東亞文字手寫(xiě)識(shí)別項(xiàng)目已經(jīng)在微軟亞洲研究院所在的希格瑪大廈完成了后期的優(yōu)化。
2007年3月,東亞文字手寫(xiě)識(shí)別技術(shù)剛立項(xiàng)一年,比爾-蓋茨也曾在給微軟亞洲研究院的郵件中表示出了極大的興趣和期待。在項(xiàng)目組每個(gè)成員的郵箱里,至今仍保存著比爾一蓋茨的這兩封郵件。
一方面,這兩封郵件見(jiàn)證了東亞手寫(xiě)識(shí)別技術(shù)從研發(fā)到植入Windows 7的本地化進(jìn)程??梢韵胂?,對(duì)技術(shù)無(wú)比癡迷的蓋茨體會(huì)到的欣慰和興奮,微軟亞洲研究院又一次對(duì)微軟核心產(chǎn)品貢獻(xiàn)了重要智慧。同時(shí),Windows 7也實(shí)現(xiàn)了一項(xiàng)革命性的跨越——東亞語(yǔ)言用戶用電腦做手寫(xiě)筆記的應(yīng)用變得更加簡(jiǎn)單實(shí)用。
文字游戲
世界上恐怕任何一款文字游戲,都沒(méi)有微軟亞洲研究院手寫(xiě)識(shí)別團(tuán)隊(duì)遇到的更具挑戰(zhàn)。
“對(duì)于輸入來(lái)講,我們不能要求用戶怎么樣,而是要盡量滿足用戶。不同用戶寫(xiě)字的習(xí)慣,包括筆順和字形,都有很大變化。因此我們要把這些因素包含進(jìn)去,盡量應(yīng)付這些情況。”微軟亞洲研究院軟件分析組韓石對(duì)本刊記者說(shuō)。
微軟亞洲研究院軟件分析組及其前身用戶界面組的一個(gè)重要研究分支,是基于數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)和模式識(shí)別技術(shù)的應(yīng)用性研究,通俗一點(diǎn)講就是如何教機(jī)器去從大量的真實(shí)數(shù)據(jù)中學(xué)會(huì)分類(lèi)。轉(zhuǎn)化到windows 7里的手寫(xiě)文字識(shí)別本質(zhì)上就是一個(gè)分類(lèi)的問(wèn)題,也就是讓計(jì)算機(jī)知道用戶輸入的是什么字。而與以拉丁語(yǔ)系為代表的西方語(yǔ)言相比,東亞語(yǔ)言文字的字符集特別大,筆劃變化多端,相似的字又特別多,這些對(duì)識(shí)別率和識(shí)別速度來(lái)講都是挑戰(zhàn)。
據(jù)韓石介紹,對(duì)于單字的手寫(xiě)識(shí)別來(lái)講,最難就是寫(xiě)得比較草的時(shí)候。立項(xiàng)之初,在行業(yè)內(nèi)對(duì)潦草數(shù)據(jù)集的識(shí)別率已經(jīng)達(dá)到95%左右,單字識(shí)別當(dāng)時(shí)主要應(yīng)用的技術(shù)是利用字形的空間信息,從字局部和整體的特性來(lái)挖掘字與字之間的區(qū)分度??臻g關(guān)系的好處是它可以對(duì)字有一個(gè)整體的概念,但它忽略掉了每一筆的先后順序和走向,不容易捕捉到一些細(xì)節(jié)的局部。而如果把筆畫(huà)的時(shí)序信息應(yīng)用進(jìn)去的話,對(duì)于“味”和“昧”這樣的字就可以更準(zhǔn)確區(qū)分了。
通過(guò)整整兩年的時(shí)間進(jìn)入Windows7。手寫(xiě)識(shí)別團(tuán)隊(duì)把東亞語(yǔ)言文字的識(shí)別率推向一個(gè)更高的水平,以簡(jiǎn)體中文為例,對(duì)潦草數(shù)據(jù)集的識(shí)別率達(dá)到97%,甚至更高。
提高了識(shí)別率,剩下的是把它做快、做小。Windows 7中的文字手寫(xiě)識(shí)別有整句輸入、糾錯(cuò)和聯(lián)想的功能,通過(guò)聯(lián)系上下文,基于大量材料從已有的文字組合中統(tǒng)計(jì)出的語(yǔ)言模型,在這些功能中起著重要作用。對(duì)于東亞語(yǔ)言來(lái)講,它的字符集是超大的,這是一個(gè)非常大的挑戰(zhàn)。以中文為例,完整的漢字字符集有兩萬(wàn)多個(gè)字,最常用的一級(jí)和二級(jí)字符集也有近七千字。由這些字組成的詞和短語(yǔ)。其模型空間之大可想而知。
速度快、體積小是windows 7的重要目標(biāo)之一。在這么大的一個(gè)模型里面,怎么樣去選擇最有效的那一部分來(lái)提高識(shí)別率以帶給用戶更好的體驗(yàn)?zāi)?據(jù)韓石介紹,此前的語(yǔ)言模型已經(jīng)相當(dāng)優(yōu)化,然而每一種語(yǔ)言的模型大小也相當(dāng)可觀。經(jīng)過(guò)手寫(xiě)識(shí)別團(tuán)隊(duì)的進(jìn)一步優(yōu)化,在模型體積減半的同時(shí),整句輸入模式的識(shí)別率也有所提高。
以產(chǎn)品標(biāo)準(zhǔn)做研發(fā)
“幾乎所有我們的實(shí)驗(yàn)、代碼都是以產(chǎn)品的標(biāo)準(zhǔn)來(lái)做的,這樣就使整個(gè)技術(shù)轉(zhuǎn)化的過(guò)程非常平滑。這個(gè)其實(shí)出于幾點(diǎn)考慮,首先要想把一項(xiàng)技術(shù)寫(xiě)成很好的代碼。對(duì)這個(gè)技術(shù)要非常了解,同時(shí)優(yōu)化代碼,做得很快很小,所以我們來(lái)做這個(gè)事情效率最高。唯一的要求就是我們這邊的人要兼?zhèn)渥鲅芯亢烷_(kāi)發(fā)的能力?!弊岉n石和同事們感到欣慰的是在交付測(cè)試的時(shí)候,沒(méi)有發(fā)現(xiàn)一個(gè)bug,這個(gè)結(jié)果從做基礎(chǔ)研究的角度來(lái)講,基本上就是奇跡了。而這樣的奇跡每天都在這里發(fā)生。
這又是一次經(jīng)典的團(tuán)隊(duì)合作,東亞文字手寫(xiě)識(shí)別在Windows 7中的質(zhì)的飛躍,位于微軟總部雷蒙德的Windows產(chǎn)品部門(mén)手寫(xiě)識(shí)別團(tuán)隊(duì)同樣功不可沒(méi)。而此間發(fā)生在研究院與產(chǎn)品部門(mén)之間的緊密合作,在這里經(jīng)常發(fā)生。
2008年7月,用戶界面組(現(xiàn)軟件分析組)的手寫(xiě)識(shí)別團(tuán)隊(duì)成功地將基于字根和隱馬爾可夫模型(HMM)的東亞文字手寫(xiě)識(shí)別技術(shù)轉(zhuǎn)化到了Windows產(chǎn)品部門(mén)。其中,在針對(duì)東亞文字的HMM拓?fù)湓O(shè)計(jì)、最優(yōu)化字根集選取、HMM區(qū)分度訓(xùn)練、基于狀態(tài)參數(shù)共享的模型壓縮、以及數(shù)據(jù)驅(qū)動(dòng)的解碼加速等方面有重要突破和技術(shù)創(chuàng)新。微軟亞洲研究院基于H MM的東亞文字手寫(xiě)識(shí)別(代號(hào)為Dolphin)技術(shù)顯著降低了原有技術(shù)的識(shí)別錯(cuò)誤率,使四種東亞語(yǔ)言——簡(jiǎn)體中文、繁體中文、日文和韓文的識(shí)別錯(cuò)誤率均有顯著下降。在此之前,用于東亞文字整句手寫(xiě)識(shí)別的語(yǔ)言模型優(yōu)化已經(jīng)在windows 7的M3階段完成了技術(shù)轉(zhuǎn)化。更好地整合了優(yōu)化的語(yǔ)言模型后的最終產(chǎn)品中,簡(jiǎn)體中文、繁體中文和日文在整句輸入模式下的文字識(shí)別錯(cuò)誤率也有相應(yīng)改善。
書(shū)寫(xiě)未來(lái)
就手寫(xiě)識(shí)別技術(shù)來(lái)說(shuō),東亞文字并不是終點(diǎn),同時(shí),電腦也只是微軟在手機(jī)和電視中“三屏”之一。
就中文來(lái)說(shuō),一個(gè)新的挑戰(zhàn)就是現(xiàn)在的年輕人的使用習(xí)慣,這些活躍于網(wǎng)絡(luò)的主流人群往往使用中英文混打,有時(shí)甚至還夾雜一些表情甚至火星文?!拔覀冎暗淖龇ㄊ遣煌恼Z(yǔ)言用不同的模型來(lái)做,所以從局部技術(shù)角度看這是一個(gè)挑戰(zhàn)。從產(chǎn)品或者技術(shù)應(yīng)用來(lái)看,對(duì)于文字領(lǐng)域,我們還是要把更多的語(yǔ)言做進(jìn)去或者做得更好。”韓石說(shuō),包括最近幾年學(xué)術(shù)界比較關(guān)心的阿拉伯語(yǔ)言和其他語(yǔ)種的識(shí)別,各個(gè)語(yǔ)言都有它的特點(diǎn)和應(yīng)用人群。微軟作為軟件行業(yè)的領(lǐng)導(dǎo)者,有責(zé)任和義務(wù)把各種語(yǔ)言做好,“畢竟我們的目標(biāo)是要服務(wù)以及方便整個(gè)人類(lèi)生活,讓更多的人受益”。
既要考慮人們的使用體驗(yàn),又要適應(yīng)在不同環(huán)境中的習(xí)慣。對(duì)于一些鍵盤(pán)輸入不太方便的內(nèi)容,在微軟看來(lái)都是令人興奮的挑戰(zhàn)。 “比如說(shuō)像我們做過(guò)的一些數(shù)學(xué)公式和化學(xué)公式,現(xiàn)在化學(xué)公式還不是解決非常好的一個(gè)問(wèn)題,尤其是一些復(fù)雜的有機(jī)結(jié)構(gòu)式,像藥物說(shuō)明書(shū)經(jīng)常見(jiàn)到的那樣。還有就是像有一些設(shè)計(jì)草圖,臨時(shí)的靈感,如果希望把它快速地記下來(lái),還是用筆比較方便,當(dāng)然你要把它數(shù)字化以便于管理或者進(jìn)一步處理的話,還是需要識(shí)別的技術(shù)。”
在移動(dòng)領(lǐng)域,手寫(xiě)識(shí)別的實(shí)現(xiàn)就不只是依賴(lài)技術(shù)本身了,而是怎么樣把已有的識(shí)別技術(shù)更好地應(yīng)用起來(lái),包括硬件革新以及更便捷的人際交互方式設(shè)計(jì)等多方面的支持??梢钥隙ǖ氖?,手寫(xiě)識(shí)別技術(shù)不僅限于文字,也不限于Windows7,在不遠(yuǎn)的將來(lái)就會(huì)推廣到更多空間。
信息技術(shù)的迅速發(fā)展帶來(lái)了很多新的挑戰(zhàn)和機(jī)遇。隨著包括手寫(xiě)識(shí)別在內(nèi)的多項(xiàng)技術(shù)到最終產(chǎn)品的成功轉(zhuǎn)化,微軟亞洲研究院原來(lái)的用戶界面組也戰(zhàn)略性地選擇了更新、更具挑戰(zhàn)的研究方向,成為了現(xiàn)在的軟件分析(softwareAnalytics)組。軟件分析組目前的研究重點(diǎn)包括。軟件質(zhì)量與性能的高級(jí)分析、信息可視化以及大規(guī)模數(shù)據(jù)處理。值得期待的是微軟亞洲研究院更多的研究成果轉(zhuǎn)化到產(chǎn)品里,再帶到人們的生活當(dāng)中。