馬 薈
“這是第一個(gè)真正實(shí)現(xiàn)大規(guī)模的基于圖片內(nèi)容的商業(yè)搜索。因?yàn)榛趫D片內(nèi)容的搜索從研究領(lǐng)域來(lái)講,已經(jīng)研究了很多年,但是一直都沒(méi)能真正把它運(yùn)用到這么大規(guī)模的互聯(lián)網(wǎng)的圖片上?!蔽④泚喼扪芯吭阂曈X(jué)計(jì)算組主管研究員孫劍,在采訪的最后才給記者總結(jié)了“顯示類(lèi)似圖片”給微軟必應(yīng)圖片搜索帶來(lái)的革命性改變。
搜索,一直都不是微軟的強(qiáng)項(xiàng)。關(guān)鍵詞搜索成就了谷歌,搜索經(jīng)濟(jì)一時(shí)間成了互聯(lián)網(wǎng)最有說(shuō)服力的盈利金礦。不過(guò),在讀圖時(shí)代,微軟讓谷歌的自信心開(kāi)始松動(dòng)。正如達(dá)爾文在《物種起源》中那段關(guān)于“叢林法則”的經(jīng)典論述,同樣適用于IT生態(tài):“存活下來(lái)的物種,不是那些最強(qiáng)壯的種群,也不是那些智力最高的種群,而是那些對(duì)變化做出最積極反應(yīng)的物種?!?/p>
微軟亞洲研究院的圖片搜索技術(shù),選擇回歸計(jì)算機(jī)運(yùn)算的本質(zhì),從另外一種思路出發(fā)改善用戶(hù)的體驗(yàn)。
按圖尋道
在微軟亞洲研究院,創(chuàng)新唯一不變的就是變化。也正是技術(shù)所幻化出的科技魔力,給成千上萬(wàn)用戶(hù)帶來(lái)使用習(xí)慣的改變。
在博士期間,孫劍在模式識(shí)別與人工智能研究所,接觸到了與計(jì)算機(jī)視覺(jué)相似的研究。2003年7月,孫劍加入微軟亞洲研究院,目前主要研究交互式計(jì)算視覺(jué)和網(wǎng)絡(luò)計(jì)算視覺(jué)兩個(gè)方向。“計(jì)算機(jī)視覺(jué)研究其實(shí)就是告訴計(jì)算機(jī)怎么識(shí)別東西?!?/p>
現(xiàn)在市場(chǎng)上的圖片搜索引擎多少有些讓用戶(hù)無(wú)所適從。搜索圖片時(shí)碰到的問(wèn)題常常是,要么很難描述這個(gè)圖片,要么是關(guān)鍵詞本身的簡(jiǎn)單或模糊,導(dǎo)致搜索結(jié)果雜亂無(wú)章。
做圖片搜索,有基于計(jì)算機(jī)視覺(jué)和基于純文本的兩種方式。有這樣一項(xiàng)規(guī)律:在搜索過(guò)程中,圖像是需要一定時(shí)間來(lái)瀏覽的,基于文本的搜索引擎。用戶(hù)越早離開(kāi),說(shuō)明結(jié)果越精準(zhǔn),而基于圖像的正好相反,用戶(hù)越早離開(kāi),說(shuō)明什么也沒(méi)有搜到。
“一圖抵千言”這句話也只是過(guò)于保守的陳述。但是,如果有一種對(duì)結(jié)果進(jìn)行微調(diào)的方法會(huì)怎樣呢?
“基于內(nèi)容的圖片搜索性能不是很好,當(dāng)有很多數(shù)據(jù)的時(shí)候做不快;基于文本的搜索,不適合輸入長(zhǎng)的信息,并且往往含有與圖片無(wú)關(guān)的有歧義和閑雜的信息。微軟將兩者結(jié)合,先輸如關(guān)鍵字,返回文本的搜索結(jié)果,然后用圖像的相似度,重新排序,這樣就更容易找到想要的搜索結(jié)果。”孫劍對(duì)記者說(shuō)。
用一種并非基于文字查詢(xún)的方法對(duì)返回的圖片進(jìn)行重新排序,微軟亞洲研究院的“顯示類(lèi)似圖片”工具恰恰能夠讓使用者做到這一點(diǎn):從一定的搜索結(jié)果范圍中選定一個(gè)圖片(這些結(jié)果是根據(jù)文字搜索初步確定的),然后再次提交請(qǐng)求,只需點(diǎn)擊一下,就可以根據(jù)與選定圖片的視覺(jué)相似度對(duì)結(jié)果中的圖片進(jìn)行重新排序。
看圖說(shuō)“化”
“在微軟亞洲研究院做研究常常是拍拍腦袋的事情,不過(guò),大部分自己拍腦袋做的都沒(méi)有轉(zhuǎn)成產(chǎn)品。”在孫劍看來(lái),“研究本身就是這樣的”。孫劍對(duì)記者表示,做研究,需要站在做產(chǎn)品的角度來(lái)思考,思考一個(gè)技術(shù)對(duì)于一個(gè)成熟的產(chǎn)品來(lái)說(shuō),哪些功能是很重要的,哪些是不需要的。
2007年7月,微軟亞洲研究院視覺(jué)計(jì)算組研究員聞芳就動(dòng)了通過(guò)“圖片找圖片”的念頭?!爱?dāng)時(shí)我們沒(méi)想到要做到網(wǎng)上,只是把這個(gè)技術(shù)應(yīng)用在本機(jī)搜索中,用來(lái)查找家庭照片。后來(lái)無(wú)意中,發(fā)現(xiàn)網(wǎng)上基于文本搜索的文本本身有很多語(yǔ)義上的模糊性,于是把顯示相似圖片技術(shù)在網(wǎng)上試了試,發(fā)現(xiàn)效果出奇的好?!?/p>
2008年初,聞芳和同事做出了研究的原型,演示給當(dāng)時(shí)的圖片搜索產(chǎn)品組的同事看。“當(dāng)時(shí)我們一拍即合,這正是他們想要的功能。接著,我們就開(kāi)始討論怎么把技術(shù)真正的產(chǎn)品化?!痹诳朔税ㄓ?jì)算復(fù)雜度、與現(xiàn)有產(chǎn)品設(shè)計(jì)的整合等等一系列問(wèn)題后,2008年lO月,“顯示相似圖片”技術(shù)成功轉(zhuǎn)化到了微軟的圖片搜索服務(wù)中。
2006年9月,微軟公司宣布在中國(guó)市場(chǎng)正式推出Live搜索服務(wù)中文版(測(cè)試版)。2007年7月,微軟LiveSearch團(tuán)隊(duì)又推出了三項(xiàng)Live圖片搜索新功能,包括允許用戶(hù)查找臉部圖片、肖像圖片和黑白圖片。“顯示相似圖片”技術(shù)為圖片搜索開(kāi)辟出一個(gè)全新的方法,并把微軟圖片搜索又推向了一個(gè)新的階段。
技術(shù)搜圖
如何界定有效視覺(jué)相似度?如何有效地提取視覺(jué)特征,用于全網(wǎng)絡(luò)范圍的圖片搜索引擎?這兩個(gè)問(wèn)題成了“顯示相似圖片”查詢(xún)方法面臨的兩個(gè)主要挑戰(zhàn)。
孫劍和聞芳所在的研究組對(duì)用戶(hù)選定的圖片根據(jù)特征確定了五大類(lèi)別:一般物體、簡(jiǎn)單背景下的物體、風(fēng)景圖片、肖像,和人物,對(duì)于不同類(lèi)型的圖片使用不同視覺(jué)特征相似度組合。這種不同類(lèi)相似度組合形成結(jié)果,比用固定特征組合的效果好。計(jì)算機(jī)通過(guò)“尋找”視覺(jué)特征(如面部、紋理、邊緣、顏色、空間分布等),把這些特征分類(lèi)后存在數(shù)據(jù)庫(kù)中,并用這些特征計(jì)算相似度,按照相似度大小依次排列。
“這里的關(guān)鍵在于,設(shè)法了解用戶(hù)究竟在查找什么,或者說(shuō)用戶(hù)的意圖。例如,如果該系統(tǒng)能夠了解用戶(hù)打算尋找面部圖片,而這些圖片被歸類(lèi)為人像,那么就會(huì)調(diào)用面部識(shí)別算法,就會(huì)比一般的紋理分類(lèi)算法更加有效?!睂O劍說(shuō)。
對(duì)用戶(hù)而言,這種類(lèi)型的搜索引擎有很多好處。用戶(hù)可以簡(jiǎn)單而快捷地對(duì)初步搜索結(jié)果加以進(jìn)一步完善和過(guò)濾,使用圖片查詢(xún)而不是依靠文字。這樣,就可以更靈活和更準(zhǔn)確地對(duì)圖片進(jìn)行搜索,提供更符合用戶(hù)期望的搜索結(jié)果集?!皥D片相似度在研究領(lǐng)域也是個(gè)開(kāi)放的問(wèn)題,還需要很多基礎(chǔ)的研究去改進(jìn),只有把這些東西做好了,功能才能完善?!睂O劍說(shuō),技術(shù)本身是不存在門(mén)檻的,只有不斷進(jìn)步,才能保持領(lǐng)先。