我使用ChatGPT的頻次越來越低,一方面是因?yàn)橐恍﹪a(chǎn)替代產(chǎn)品登錄更方便,而且在要翻譯長篇論文的時(shí)候,號稱支持“長文本”的Kimi讓我相信它能一次性接受足夠多的文字,不用再把一篇論文拆成數(shù)段來回復(fù)制粘貼—如果使用ChatGPT,仍然需要這么做。
不過翻譯品質(zhì)就是另一回事了。在一篇討論“內(nèi)在動(dòng)機(jī)”的行為心理學(xué)和機(jī)器學(xué)習(xí)相關(guān)論文中,Kimi和ChatGPT都將“reward function”翻譯成了“獎(jiǎng)勵(lì)功能”而不是“獎(jiǎng)勵(lì)函數(shù)”,直到你指出這種錯(cuò)誤它們才糾正。
然而詭異的是,如果你認(rèn)為這些AI可能不懂心理學(xué)和機(jī)器學(xué)習(xí),它們又會(huì)在你接著追問“獎(jiǎng)勵(lì)函數(shù)是怎么一回事,在行為心理學(xué)和機(jī)器學(xué)習(xí)中有什么應(yīng)用”時(shí),跟你說得頭頭是道,引經(jīng)據(jù)典,比如Kimi就標(biāo)榜它“已閱讀60個(gè)網(wǎng)頁”。
大語言模型到底理不理解它們所說的話?這個(gè)問題一度讓人很困惑。蘋果也在這個(gè)月發(fā)表了一篇名為《GSM-Symbolic:理解大語言模型在數(shù)學(xué)推理上的局限性》的文章,其中GSM-Symbolic是蘋果研究人員為了測試大語言模型是否真正具備推理能力全新設(shè)計(jì)的一種方案,但試驗(yàn)結(jié)果并不令人滿意—包括OpenAI不久前發(fā)布的號稱用新方法更好地解決了推理問題的o1模型。
這篇論文的理論假設(shè)是“大語言模型會(huì)的只是模式匹配,而不是實(shí)際推理”。為了驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)在一系列數(shù)學(xué)問題中添加了不必要的多余句子,以此觀察模型的反應(yīng)。比如其中一題問:“Oliver星期五挑了44個(gè)獼猴桃,然后星期六挑了58個(gè)獼猴桃。周日,他挑的獼猴桃數(shù)量是周五的兩倍,但其中5個(gè)獼猴桃的個(gè)頭比平均水平小一點(diǎn)。那么Oliver有多少個(gè)獼猴桃?”
這一題中,“其中5個(gè)獼猴桃的個(gè)頭比平均水平小一點(diǎn)”就是與解題無關(guān)的多余信息,但加了這一信息后,所有大語言模型的答題準(zhǔn)確率都下降了。其中微軟的小模型Phi 3的表現(xiàn)災(zāi)難性地下降了65%,OpenAI的o1表現(xiàn)最好,但準(zhǔn)確率也下降了17.5%。
研究人員認(rèn)為,這種錯(cuò)誤是“模型傾向于盲目地減去那5個(gè)較小獼猴桃的數(shù)量”造成的,而它們之所以犯這種錯(cuò)誤,根本原因還是它們沒有真正理解句子的含義,僅僅將“折扣性的”表述理解為需要對結(jié)果乘上一個(gè)系數(shù)、打個(gè)折,然后對每項(xiàng)信息都做這種操作,不管信息是否多余、與最終問題是否相關(guān)。
這篇論文的結(jié)論可能與很多人使用大語言模型的體驗(yàn)是一致的,那就是“它不會(huì)真正的邏輯推理”。這個(gè)結(jié)論應(yīng)該讓很多擔(dān)心AI的智能水平就要超越人類、控制人類的人感到一些安心。不過AI是否值得擔(dān)心不完全取決于它的思維方式像不像人類、能不能推理、有沒有意識,而是更取決于其能力是否夠強(qiáng)。
也是在10月,杰弗里·辛頓(Geoffrey Hinton)接到了諾貝爾獎(jiǎng)官方的電話,官方工作人員在恭喜他獲獎(jiǎng)之后問了他一個(gè)問題:“得獎(jiǎng)會(huì)讓你所在的領(lǐng)域產(chǎn)生一些改變嗎?”辛頓回答:“會(huì)的,得獎(jiǎng)可以讓我說的話被更多人信任?!被卮疬@個(gè)問題之前,他再次談到了他對AI安全的擔(dān)憂,“AI安全問題不像氣候變化問題,對于氣候變化我們知道怎么應(yīng)對,就是減碳。但對AI安全,我們還不知道怎么做,我們需要投入資源去研究該做什么?!彼f,但包括OpenAI在內(nèi)的大公司們已經(jīng)把精力和資源從對AI控制技術(shù)的研究中撤走了。
當(dāng)大語言模型是個(gè)足夠厲害的工具,它能改變的事情就有很多。目前來說,ChatGPT和Kimi們都沒什么“真正的”理解能力、推理能力,但它們已經(jīng)提供了比所有既有搜索引擎都更優(yōu)秀的搜索體驗(yàn)。傳統(tǒng)搜索引擎比如Google,你只要在那個(gè)搜索框中輸入幾個(gè)字,它就會(huì)像機(jī)器貓的魔法口袋一樣蹦出成千上萬個(gè)可能符合你預(yù)期的頁面。這已經(jīng)令人驚嘆,不過它本質(zhì)上仍然只是圖書館書目查詢系統(tǒng)—只不過藏書更豐富而已,它收藏的每個(gè)網(wǎng)頁都像圖書一樣事先被打好了標(biāo)簽、存儲(chǔ)在分配好的位置上,當(dāng)用戶輸入關(guān)鍵詞,信息管理員就按照關(guān)鍵詞到相應(yīng)書架尋找具有相關(guān)標(biāo)簽的書目,抽取出來,展示給用戶。
搜索引擎帶給用戶的是信息交互方式和提取效率上的變化,大語言模型帶來的則是信息編碼、識別和再提取質(zhì)量的變化。它們改變的遠(yuǎn)不止交互方式。
也許,對于“ 模式匹配”更恰當(dāng)?shù)恼J(rèn)知方式是將其視為“另一種形式的智能”,它與人類高級思維中通過推理加工信息的方式不同,但同樣強(qiáng)大。這種例子在技術(shù)史上已有很多,老掉牙的例子是飛機(jī),人造飛機(jī)能夠飛起來的方法和鳥飛起來的方法并不相同;近一點(diǎn)的例子是圖像識別,機(jī)器學(xué)會(huì)識別圖片依賴于將識別的誤差在神經(jīng)網(wǎng)絡(luò)中做反向傳播,就像每條神經(jīng)對整個(gè)神經(jīng)網(wǎng)絡(luò)整體犯的錯(cuò)負(fù)有多少責(zé)任可以一清二楚地計(jì)算出來一樣,人腦并不做這種反向傳播,但人腦和人工神經(jīng)網(wǎng)絡(luò)都能識別圖像;功能相同但實(shí)現(xiàn)方法不同的例子在自然界的進(jìn)化中就更多了,蜜蜂那么小的腦袋也能導(dǎo)航,它實(shí)現(xiàn)這種功能的方法與人類肯定不同,人類大腦中用以導(dǎo)航的部件—海馬體— 可能比整只蜜蜂都大。
不同,但有用,或者更強(qiáng)大,一旦這樣思考,就會(huì)發(fā)現(xiàn)AI真正令人擔(dān)心的不是它像不像人或者有沒有意識,而是它的能力有多強(qiáng)。
當(dāng)一個(gè)工具足夠強(qiáng)的時(shí)候,工具就會(huì)駕馭人。最近的例子是推薦算法,只要點(diǎn)開手機(jī)的應(yīng)用使用時(shí)長,你就會(huì)發(fā)現(xiàn)你被囚禁在抖音或小紅書上的時(shí)間和精力有多恐怖了。有足夠多工作要忙的人可能還好一點(diǎn),最近我聽到的一個(gè)更值得擔(dān)憂的狀況是農(nóng)村的留守兒童,當(dāng)他們的父母忙于為家計(jì)奔波,老人又沒有能力教育孫輩,很多父母不約而同地選擇塞給小孩一部手機(jī)。
不少技術(shù)公司眼下還在為如何找到大語言模型的產(chǎn)品市場匹配度(PMF)而頭疼,但模式匹配的強(qiáng)大能力可能帶來的風(fēng)險(xiǎn)已經(jīng)近在眼前:就像文章開頭的例子一樣,如果你不具備某個(gè)領(lǐng)域的基本認(rèn)知,過度依賴這些看起來知識淵博的AI,你根本不會(huì)知道自己什么時(shí)候被騙了—它們連欺騙你的時(shí)候都帶著自信。