王俊煜
今年年初以來,我一直在這里斷斷續(xù)續(xù)地分享自己對以大語言模型為代表的AI發(fā)展的觀察。大半年來,在圍觀了幾場黑客松和demo day、交流了上百個(gè)不同的團(tuán)隊(duì)和創(chuàng)業(yè)者、自己也動(dòng)手寫了幾個(gè)月代碼、和團(tuán)隊(duì)一起做了三四個(gè)產(chǎn)品原型之后……我想,可以稍微系統(tǒng)一點(diǎn)地分享我對如何使用大語言模型來創(chuàng)造新應(yīng)用的思路了。
ChatGPT的發(fā)布,讓從業(yè)者們看到了實(shí)現(xiàn)通用人工智能的曙光。而說到通用人工智能,人們最容易想到的還是科幻電影中的那些機(jī)器人角色:《2001:太空漫游》中的HAL 9000、《鋼鐵俠》中的Jarvis,以及,可能因?yàn)閺臉I(yè)者中男性居多,《Her》中的Samantha似乎被提及得更多一些。這些虛構(gòu)的角色,往往會在各種演示、宣講中被用來描繪通用人工智能的愿景:一個(gè)面向所有人的、真正的智能個(gè)人助理。這也是許多團(tuán)隊(duì)今天努力的方向。
但曙光畢竟只是曙光。不可否認(rèn)的共識是,ChatGPT等基于大語言模型的聊天機(jī)器人,即便在過去半年進(jìn)步很快,在今天離一個(gè)真正的智能個(gè)人助理還有相當(dāng)大的差距。如果我們的目標(biāo)是實(shí)現(xiàn)一個(gè)面向所有人的、通用的智能個(gè)人助理,顯然還要付出很多的努力。
有趣的是,不同背景的創(chuàng)造者在此時(shí)就會選擇不同的路徑。我發(fā)現(xiàn),科研、技術(shù)背景的團(tuán)隊(duì)創(chuàng)造者,往往會對這一差距能在較短時(shí)間內(nèi)彌合更為樂觀,因此傾向于選擇從模型層著手去硬磕,在產(chǎn)品形態(tài)上則基本追隨ChatGPT的設(shè)計(jì)。
我作為設(shè)計(jì)、產(chǎn)品背景的創(chuàng)造者,認(rèn)為這條道路不可取。直接做通用的智能個(gè)人助理,試圖一次性滿足所有人的所有要求,帶來的結(jié)果就是只要在任意一方面沒有做到100分,就會被用戶感知到。普通用戶不同于技術(shù)嘗鮮者,此時(shí)會對新技術(shù)產(chǎn)生不信任感,甚至直接放棄。因此,我更愿意從應(yīng)用層著手,根據(jù)大語言模型今天的能力來設(shè)計(jì)新的應(yīng)用,通過產(chǎn)品設(shè)計(jì)來揚(yáng)長避短,讓大語言模型能在今天的世界中馬上為普通人發(fā)揮價(jià)值。
當(dāng)然,這也可能是因?yàn)槲也⒎怯埠思夹g(shù)背景出身,對于大語言模型的進(jìn)步速度缺乏想象力,只能基于大語言模型今天的能力去做線性推演。
我們在這里討論的都是如何做面向消費(fèi)者的“超級應(yīng)用”,這個(gè)思路其實(shí)還有幾個(gè)分岔。例如,同樣面對今天大語言模型的能力局限,有不少朋友選擇了從娛樂方向、情感方向切入,因?yàn)樗麄冋J(rèn)為這樣對大語言模型的能力要求略低。邏輯上我也認(rèn)為這是成立的。但由于個(gè)人對娛樂方向、情感方向沒有什么直覺判斷,所以不會選擇這樣的道路。
我們的目標(biāo)是基于大語言模型的應(yīng)用最終幫助人類理解世界和表達(dá)自我,這本身就是語言的基本作用。
我選擇的道路是,先選擇一些“垂直”場景,為每個(gè)場景單獨(dú)開發(fā)基于大語言模型的應(yīng)用,再看這些應(yīng)用能否連點(diǎn)成面,最終組合成一個(gè)通用的智能個(gè)人助理。
這里所謂的“垂直”場景,其實(shí)就是比通用人工智能的場景少一個(gè)維度的場景。場景少了一個(gè)維度,復(fù)雜度就降低了一個(gè)數(shù)量級。
目前有兩種切分的維度。一是在人群上做切分。取比總?cè)丝诘鸵粋€(gè)數(shù)量級的一部分人口,做針對他們的通用場景。比較容易想到的人群,包括兒童、老人、父母、大學(xué)生、年輕公司人等等,他們身上的某些共性也許可以簡化對大語言模型的能力要求。從發(fā)展的眼光來看,也可以考慮一些特定職業(yè)。比如GitHub注冊人數(shù)剛剛超過1億,假設(shè)這些人都是程序員,也大約只占全球勞動(dòng)力的3%。但隨著越來越多人需要和計(jì)算機(jī)程序打交道,“編程”作為一種通用技能也許會得到普及,那可能也是一個(gè)足夠龐大的人口了。從這個(gè)角度而言,幾乎可以包攬程序員的一天的GitHub Copilot,也是通用的。
另一個(gè)切分維度,是選擇大多數(shù)人日常生活中的某個(gè)場景來切入。這個(gè)場景得是大部分人的生活里每天會出現(xiàn)的,用拉里·佩奇的話說,至少需要是一把“牙刷”。移動(dòng)互聯(lián)網(wǎng)經(jīng)過十多年的發(fā)展,符合上面這個(gè)條件的場景,大多已經(jīng)作為一個(gè)應(yīng)用圖標(biāo)出現(xiàn)在了手機(jī)的首屏上。這些應(yīng)用中有許多都可以使用大語言模型或其他AI技術(shù)來“重新發(fā)明”,只是有些適合小團(tuán)隊(duì)做,有些可能只適合大公司做。還有一些人們每天都會有的需求,以之前的技術(shù)沒有辦法由一個(gè)很好的應(yīng)用來承載,大語言模型的出現(xiàn)有可能促使這些領(lǐng)域誕生一些之前不存在的產(chǎn)品形態(tài)。這些有待依靠我們的洞察去挖掘。舉個(gè)例子,每個(gè)人其實(shí)每天都需要通過閱讀來大量獲取并消化信息,但過去沒有一個(gè)應(yīng)用很好地來幫助人們處理這個(gè)過程,也許現(xiàn)在有這樣的可能性了。
應(yīng)該注意,只能“切一刀”降低一個(gè)維度,而不能“切兩刀”同時(shí)降低兩個(gè)維度。要么,是針對少一個(gè)數(shù)量級的人口,做對他們來說覆蓋日常生活方方面面的通用場景;要么,是針對所有人口,服務(wù)好他們?nèi)粘I钪械哪硞€(gè)常見場景——如果最終的目標(biāo)是做出一個(gè)通用產(chǎn)品的話,現(xiàn)在選擇的“點(diǎn)”切得太小,最后很有可能沒有辦法連到一起,成為“面”。
也不要選擇太小的人群,這在商業(yè)模式上有挑戰(zhàn);如果目標(biāo)場景太小,則不利于養(yǎng)成用戶習(xí)慣。
上面這部分關(guān)于尋找機(jī)會點(diǎn)的原則看起來很宏觀,像是傳統(tǒng)的市場分析,但不要忘記,我們切分場景關(guān)心的不是市場規(guī)模,而是為了通過尋找某一個(gè)人群或某一場景的共性,降低對大語言模型的能力要求。這樣子,大語言模型不需要在同一時(shí)間滿足所有人的所有要求,經(jīng)過特定優(yōu)化之后,更容易為用戶提供超出預(yù)期的卓越用戶體驗(yàn)。因此,這也不是簡單地對著市場統(tǒng)計(jì)報(bào)告做排列組合,實(shí)際上還是一個(gè)自下而上的、從微觀到宏觀的過程,考驗(yàn)的還是對所選人群或場景的洞察。
這部分我覺得實(shí)際上是更大的挑戰(zhàn),充滿未知。前幾期講的技術(shù)可行性和用戶渴求的糾纏,也是發(fā)生在這個(gè)地方。如果我們僅僅停留在宏觀層面,大語言模型在很多領(lǐng)域理論上都可以發(fā)揮很大作用。但實(shí)際效果如何?只有從具體的人、具體的故事出發(fā),開始動(dòng)手、“getting hands dirty”之后才會知道。在各個(gè)黑客松中,經(jīng)常能看到很多想法做出來和設(shè)想有區(qū)別,沒有辦法為用戶提供實(shí)際的價(jià)值(但這也是黑客松的價(jià)值)。
而且,我們不能滿足于簡單的“有用”,而是要追求和用戶現(xiàn)有解決方案相比,超出一個(gè)數(shù)量級的“有用”。只有這種質(zhì)變,才能吸引用戶改變習(xí)慣。
核心要使用的方法還是以人為中心的設(shè)計(jì)方法論。只是針對大語言模型領(lǐng)域,有幾條更具體的設(shè)計(jì)原則。在此篇幅有限,簡單列舉其中的一部分。例如,我們認(rèn)為每個(gè)產(chǎn)品都應(yīng)該是開箱即用的,已經(jīng)適配好了不同場景的不同工作流,普通用戶應(yīng)該永遠(yuǎn)都不需要理解什么叫“prompt”。事實(shí)上,我每次看到別人分享的充滿奇技淫巧的prompt模版,每一個(gè)看起來很geek的工作流,都覺得這意味著一個(gè)潛在的產(chǎn)品化機(jī)會。
例如,大語言模型今天的各種局限,如數(shù)據(jù)及時(shí)性、上下文窗口大小、幻覺、推理能力等,都應(yīng)該努力通過產(chǎn)品設(shè)計(jì)來避免讓用戶感受到,或者能讓用戶理解,而這勢必涉及到根據(jù)不同的場景去做針對性的產(chǎn)品設(shè)計(jì)、或預(yù)設(shè)業(yè)務(wù)邏輯。
又比如,我們確保每個(gè)場景的輸入數(shù)據(jù)和輸出行動(dòng)都足夠完整。今天市場上的聊天機(jī)器人,要成為真的對人有用的通用智能個(gè)人助理,其中一個(gè)很大的差距不在其是否“聰明”,而是在于是否有能力觀察、收集、記憶大量的個(gè)人信息,以及自動(dòng)化地完成各種任務(wù)。以Siri、Google Assistant、Alexa為代表的上一代智能個(gè)人助理,經(jīng)過十多年的發(fā)展迭代,在這方面的積累仍然非常有限。這也不是一個(gè)單純的技術(shù)或工程問題,更多涉及到用戶體驗(yàn)設(shè)計(jì)、商業(yè)模式、數(shù)據(jù)所有權(quán)和個(gè)人隱私,以及不同系統(tǒng)之間的互聯(lián)互通,在短期內(nèi)可以在通用場景中徹底解決的可能性不大。但在我們設(shè)計(jì)的垂直場景中,要做到并不困難,可以努力做到極致。
不管是創(chuàng)造性地用新方法解決了一個(gè)別人解決過的老問題,還是發(fā)現(xiàn)并解決了一個(gè)沒有人解決過的新問題,都對產(chǎn)品的設(shè)計(jì)能力提出了更高的要求。但的確就目前我們的嘗試而言,在場景“降維”后,以大語言模型今天的能力完全可以勝任。
我個(gè)人的思路,可能是對的,大概率是錯(cuò)的。寫在這里,可以等時(shí)間來驗(yàn)證。
這也是我們目前正在實(shí)踐的思路。我們的目標(biāo)是基于大語言模型的應(yīng)用最終幫助人類理解世界和表達(dá)自我,這本身就是語言的基本作用。只是,我們不追求一步到位創(chuàng)造一個(gè)通用的AI應(yīng)用,而是先通過若干獨(dú)立的AI應(yīng)用,試圖連點(diǎn)成面,來探索最終的形態(tài)。
有一點(diǎn)像一個(gè)實(shí)驗(yàn)室,不斷用這個(gè)方法在普通人的日常生活中找到那些可以被新的AI能力解決的問題,設(shè)計(jì)出普通用戶不需要學(xué)習(xí)理解AI的技術(shù)原理就可以馬上開始使用、能給他們的日常生活帶來實(shí)際價(jià)值甚至驚喜的產(chǎn)品。當(dāng)然,我們做的都是和“認(rèn)真閱讀”相關(guān)的領(lǐng)域,也就是涉及到人類對信息的發(fā)現(xiàn)、篩選、消費(fèi)、積累和分享。
再說回一點(diǎn)文章開始講到的來自科幻電影的機(jī)器人們。我覺得用科幻電影中的幻想作為產(chǎn)品的愿景,既充滿想象力,也缺乏想象力。電影里的一定是發(fā)展的終極形態(tài)嗎?我仍然覺得不見得??苹秒娪爸皩€(gè)人隨身計(jì)算設(shè)備的想象,更接近于Vision Pro等XR設(shè)備,而不是以iPhone為代表的智能手機(jī)。但目前而言,智能手機(jī)已經(jīng)是這個(gè)時(shí)代的終極形態(tài)了。
最終形態(tài)是什么,我還不知道。這是等待被創(chuàng)造的,而我傾向于使用自下而上、自微觀到宏觀的方式來尋找答案,而不是先預(yù)設(shè)答案。不管如何,都沒有必要再復(fù)制一個(gè)ChatGPT。那是浪費(fèi)資源。