席丹
摘要:ChatGPT系列產(chǎn)品的突破,標(biāo)志著人工智能新一輪發(fā)展的加速,人工智能的安全問(wèn)題也日益受到社會(huì)關(guān)注,人工智能價(jià)值對(duì)齊成為其面臨的重大課題。本文從價(jià)值對(duì)齊的重要意義入手,梳理了對(duì)齊的若干問(wèn)題、分析了圍繞對(duì)齊問(wèn)題社會(huì)各界的紛爭(zhēng)以及背后的深層原因,并探討了平衡技術(shù)發(fā)展和風(fēng)險(xiǎn)管控等有關(guān)方面關(guān)切的解決思路。
關(guān)鍵詞:人工智能 價(jià)值對(duì)齊 ChatGPT
2023年11月7日,美國(guó)人工智能領(lǐng)軍企業(yè)OpenAI 開(kāi)發(fā)者大會(huì)上, ChatGPT系列產(chǎn)品的發(fā)布拉開(kāi)了新一輪人工智能競(jìng)賽,該企業(yè)創(chuàng)始人及CEO Sam Altman一時(shí)風(fēng)光無(wú)兩。但10天后,Altman被OpenAI董事會(huì)解職。從目前透露的故事看,這是一場(chǎng)以Altman為代表的人工智能有效加速派與Ilya Sutskever領(lǐng)銜的超級(jí)對(duì)齊派的爭(zhēng)論。Altman等主張?zhí)嵘斯ぶ悄艿哪芰?,通過(guò)融資和商業(yè)化等操作集中資源,追求人工智能發(fā)展更快。Sutskever 等希望把人工智能對(duì)齊放到優(yōu)先位置,對(duì)快速發(fā)展的人工智能充滿(mǎn)擔(dān)心?,F(xiàn)在,Altman凱旋而歸重掌大權(quán),大戲以有效加速派的暫時(shí)勝利落下帷幕,但未來(lái)人工智能價(jià)值問(wèn)題何去何從,亟待討論。
“價(jià)值對(duì)齊”(AI alignment)是當(dāng)前人工智能發(fā)展和控制的核心議題,事關(guān)安全發(fā)展、風(fēng)險(xiǎn)防控。漢語(yǔ)中的“對(duì)齊”,釋義為使兩個(gè)以上事物配合或接觸得整齊?!癆lignment”則有調(diào)準(zhǔn)、校正、結(jié)盟、聯(lián)合的意思。人工智能價(jià)值對(duì)齊就是:如何讓人工智能大模型的能力和行為跟人類(lèi)的價(jià)值、真實(shí)意圖和倫理原則相一致,確保人工智能與人類(lèi)協(xié)作中的安全、互信和可靠。普遍的認(rèn)識(shí)是,在推動(dòng)技術(shù)發(fā)展的同時(shí),要堅(jiān)持人類(lèi)價(jià)值,確保人工智能技術(shù)不會(huì)對(duì)人類(lèi)社會(huì)造成大的負(fù)面影響。
十幾年來(lái)特別是2023年以來(lái),人工智能進(jìn)入到快速發(fā)展期。據(jù)OpenAI稱(chēng),2023年3月23日發(fā)布的GPT-4在各種專(zhuān)業(yè)和學(xué)術(shù)領(lǐng)域的基準(zhǔn)測(cè)試中表現(xiàn)出“人類(lèi)正常水平”的性能,遠(yuǎn)超2022年11月底發(fā)布的ChatGPT。以ChatGPT及隨后GPT-4、Grok、Gemini、Copilot等其同類(lèi)型軟件為標(biāo)志,信息生產(chǎn)方式實(shí)現(xiàn)了從專(zhuān)業(yè)生成內(nèi)容(PGC)、用戶(hù)生成內(nèi)容(UGC),到人工智能生成內(nèi)容(AIGC)的升級(jí),人工智能在文本生成、音頻生成、圖像生成和視頻生成等多模態(tài)全面應(yīng)用,并開(kāi)始出現(xiàn)某種意義上的邏輯——推理智能思維與行動(dòng)。與此同時(shí),近年來(lái)人工智能發(fā)展中出現(xiàn)的隱患,引起企業(yè)、學(xué)術(shù)、政界乃至國(guó)際社會(huì)的高度重視。其中包括:第一,信息泄露,侵犯他人的隱私權(quán),損害其自由、尊嚴(yán)和安全。第二,信息繭房乃至信息欺詐,窄化受眾信息接受與認(rèn)知,動(dòng)搖受眾對(duì)外部信息的信任。第三,破壞人類(lèi)依賴(lài)的信息系統(tǒng),如系統(tǒng)漏洞、黑客攻擊、內(nèi)部人員泄密、法律法規(guī)缺失等。第四,推送或生成的信息不公平對(duì)待、不同步實(shí)現(xiàn)、不正確使用,加劇社會(huì)階層或群體的分化。第五,對(duì)人類(lèi)的意識(shí)、價(jià)值、文化等非正常入侵,壓縮人類(lèi)的價(jià)值與認(rèn)同空間。第六,直接攻擊人身和社會(huì),包括暴力、恐怖、改變生物特征及合成新物種等,對(duì)人類(lèi)的生存和發(fā)展造成威脅。
伴隨現(xiàn)實(shí)挑戰(zhàn)和研究深入,科學(xué)家們深化探討以人工智能價(jià)值對(duì)齊為中心的若干問(wèn)題,要求實(shí)現(xiàn)人工智能的能力和行為與人類(lèi)的核心價(jià)值、真實(shí)意圖和倫理原則相一致。進(jìn)一步思考價(jià)值對(duì)齊,必須回答三個(gè)問(wèn)題。
1.到底什么是對(duì)齊。對(duì)齊具有不同的定義和要求,其難度、涉及的方法以及帶來(lái)的影響也有所差異。人工智能與自然人的價(jià)值對(duì)齊,一般認(rèn)為有三個(gè)方面的核心要求:一是價(jià)值觀的認(rèn)同,確立用以規(guī)范人工智能的一套統(tǒng)一的人類(lèi)價(jià)值;二是目標(biāo)的一致,切實(shí)而不改變、忠誠(chéng)而不欺騙、滿(mǎn)足而不虛夸地執(zhí)行人類(lèi)賦予的目標(biāo)與任務(wù);三是倫理與法律的規(guī)范,符合世界上現(xiàn)有的人類(lèi)文明、法律、制度安排。
2.如何檢驗(yàn)對(duì)齊。首先,人工智能的行為符合人類(lèi)設(shè)定的目標(biāo)。如果人工智能不和人類(lèi)保持對(duì)齊,它可能會(huì)選擇執(zhí)行人類(lèi)不需要甚至反對(duì)的行為;但是站在人工智能的角度看,人工智能認(rèn)為它可以最大限度、最佳路徑、最低成本地達(dá)成人類(lèi)給定的目標(biāo),由此人類(lèi)與人工智能之間會(huì)產(chǎn)生矛盾。其次,在多重目標(biāo)中做出有利于自然人價(jià)值的選擇。如果人工智能不能理解人類(lèi)的目的和意圖,在為其設(shè)定多種目標(biāo)時(shí),人工智能可能會(huì)做出錯(cuò)誤的選擇。最后,杜絕出現(xiàn)有損人類(lèi)的生成內(nèi)容以及行動(dòng)。不符合人類(lèi)價(jià)值和利益的人工智能可能會(huì)有意或無(wú)意地傷害人類(lèi)。
3.如何做到對(duì)齊。理想的狀態(tài)是為人工智能規(guī)范確立一套統(tǒng)一的價(jià)值取向。現(xiàn)實(shí)是,如何做選擇基本上取決于算法和模型,而算法與模型可能取決于研發(fā)人員的知識(shí)結(jié)構(gòu)、價(jià)值取向和主觀判斷,這是無(wú)法滿(mǎn)足文明、開(kāi)放、多元、發(fā)展、包容世界的要求。為了實(shí)現(xiàn)價(jià)值對(duì)齊,必須有規(guī)范研發(fā)的規(guī)范,也就是通過(guò)在模型和計(jì)算層面上的規(guī)范,實(shí)現(xiàn)讓人工智能理解、遵從人類(lèi)的價(jià)值、偏好和倫理原則,最大限度地防止有害輸出、無(wú)效輸出、失控濫用。
針對(duì)人工智能的風(fēng)險(xiǎn)以及對(duì)齊問(wèn)題,2023年3月,1000多名國(guó)際著名的人工智能專(zhuān)家及行業(yè)高管聯(lián)名發(fā)表公開(kāi)信,呼吁所有人工智能實(shí)驗(yàn)室立即暫停訓(xùn)練比GPT-4更強(qiáng)大的人工智能系統(tǒng)至少六個(gè)月,理由是這種系統(tǒng)對(duì)社會(huì)和人類(lèi)構(gòu)成潛在風(fēng)險(xiǎn)。兩個(gè)月后,多倫多大學(xué)計(jì)算機(jī)科學(xué)教授辛頓(Geoffrey Hinton)、谷歌 DeepMind首席執(zhí)行官Demis Hassabis、微軟CTO Kevin Scott、OpenAI首席科學(xué)家Sutskever、生成式對(duì)抗網(wǎng)絡(luò)先驅(qū)Ian Goodfellow等在內(nèi)的300多名高管、研發(fā)人員簽署公開(kāi)信,警告稱(chēng)如果對(duì)先進(jìn)人工智能的發(fā)展監(jiān)管不當(dāng),可能會(huì)對(duì)人類(lèi)構(gòu)成生存威脅,這種威脅可與大規(guī)模流行性疾病和核戰(zhàn)爭(zhēng)相當(dāng)。他們堅(jiān)持的是“泛”超級(jí)對(duì)齊的基本觀點(diǎn),概括地講就是風(fēng)險(xiǎn)極高、減緩步伐、將價(jià)值對(duì)齊放在優(yōu)先的位置。
當(dāng)然,也有很多業(yè)內(nèi)人士持不同意見(jiàn)。人工智能的樂(lè)觀支持者、微軟的蓋茨表示,暫停開(kāi)發(fā)并不能真正解決問(wèn)題,弄清楚如何最優(yōu)地利用人工智能的發(fā)展才是硬道理。而且,真正在全球范圍內(nèi)暫停人工智能技術(shù)的開(kāi)發(fā),似乎也不太現(xiàn)實(shí)。Web3基金會(huì)首席法務(wù)官Daniel Schoenberger表示,仍在升溫的炒作會(huì)使這些科技公司獲益,政策制定者應(yīng)該更多地關(guān)注當(dāng)下的風(fēng)險(xiǎn),比如人工智能使傳播虛假和誤導(dǎo)信息變得更容易。以上有效加速主義的核心觀點(diǎn)是,ChatGPT離真正的人還差得遠(yuǎn),人工智能技術(shù)向前發(fā)展的趨勢(shì)是不可阻擋的。
社會(huì)各界關(guān)于對(duì)齊的爭(zhēng)論正是關(guān)于人工智能安全性紛爭(zhēng)的具體表現(xiàn)。在理論上,通用人工智能具備傷害人類(lèi)、破壞社會(huì)、掌控地球的能力;現(xiàn)實(shí)中,人工智能多任務(wù)學(xué)習(xí)能力和迭代化能力越來(lái)越強(qiáng),通用人工智能(AGI)可能在未來(lái)十年內(nèi)甚至更短的時(shí)間內(nèi)降臨,解決對(duì)齊問(wèn)題的緊迫感與日俱升。當(dāng)前,OpenAI宣布原計(jì)劃2023年12月推出的GPT Store,推遲至2024年上線(xiàn)。GPT Store是讓ChatGPT用戶(hù)設(shè)計(jì)、部署和商業(yè)化自己的GPT版本,并在自定義數(shù)據(jù)集上訓(xùn)練用于專(zhuān)業(yè)任務(wù)。OpenAI在宣布中強(qiáng)調(diào)了GPT中的隱私和安全控制,包括聊天不會(huì)與構(gòu)建者共享。2023年11月底,Altman在接受采訪(fǎng)中回應(yīng):“這項(xiàng)技術(shù)將繼續(xù)快速進(jìn)步,而且我們希望繼續(xù)努力找出如何使其安全和有益的方法?!碑?dāng)然,暫時(shí)的平衡仍然繞不過(guò)去價(jià)值對(duì)齊問(wèn)題,問(wèn)題的解決需要多學(xué)科廣泛協(xié)作和社會(huì)積極參與。
關(guān)于價(jià)值對(duì)齊紛爭(zhēng)涉及人工智能發(fā)展背后的深層次問(wèn)題,筆者將側(cè)重從以下四個(gè)方面進(jìn)行重點(diǎn)思考。
1.人工智能應(yīng)該向人類(lèi)的哪些價(jià)值對(duì)齊。抽象的要求是,確保人工智能能為人類(lèi)提供幫助(helpfulness)、確保其無(wú)害(harmlessness)和誠(chéng)實(shí)(honest),即所謂的3H標(biāo)準(zhǔn)。矣曉沅、謝幸歸納了部分主流人工智能倫理價(jià)值:聯(lián)合國(guó)教科文組織《人工智能倫理問(wèn)題建議書(shū)》中的價(jià)值觀、美國(guó)《人工智能應(yīng)用監(jiān)管指導(dǎo)意見(jiàn)》、中國(guó)《新一代人工智能倫理規(guī)范》中的基本規(guī)范、歐盟委員會(huì)《可信人工智能倫理指南》、世界經(jīng)濟(jì)論壇和全球未來(lái)人權(quán)理事會(huì)《防止人工智能歧視性結(jié)果白皮書(shū)》、阿西洛馬人工智能準(zhǔn)則中的道德與價(jià)值觀、哈佛大學(xué) Berkman Klein 中心《以道德和權(quán)利共識(shí)為基礎(chǔ)的人工智能準(zhǔn)則》。現(xiàn)在發(fā)布的標(biāo)準(zhǔn)或規(guī)范,既有政府,也有企業(yè),也有學(xué)術(shù)機(jī)構(gòu)和NGO。牛津大學(xué)牛津互聯(lián)網(wǎng)研究所Mittelstadt指出,人工智能倫理有“雷聲大,不見(jiàn)雨”之嫌,相應(yīng)原則落地面臨許多難以逾越的困難。鑒于此,也有學(xué)者提出了共性原則:行善——增進(jìn)人類(lèi)福祉、社會(huì)利益、共同利益;不傷害——隱私、安全、正直;自治——自主決定權(quán)、選擇權(quán)、知情同意、自由;正義——避免不公平、不歧視與不偏見(jiàn); 可解釋性——明確的問(wèn)責(zé)、透明性。從這里可以看到,名目繁多的原則給實(shí)際操作帶來(lái)了巨大的負(fù)擔(dān),可能出現(xiàn)不同人工智能大模型采用不同價(jià)值標(biāo)準(zhǔn),不同的程序工作者也選用不同原則等問(wèn)題。
2.自然人的價(jià)值觀因國(guó)家、民族、宗教、文化、性別、道德、個(gè)人觀念等不同而各異。廣泛凝聚了社會(huì)共識(shí)和集體智慧的法律尚且有沖突,何況本身就帶有強(qiáng)烈主觀色彩的價(jià)值觀念,社會(huì)問(wèn)題的產(chǎn)生主要來(lái)源于社會(huì)不同群體之間的價(jià)值觀和利益沖突。如關(guān)于“墮胎合法化”問(wèn)題,依據(jù)宗教信條,認(rèn)為墮胎等于謀殺生命;而人的身體理當(dāng)自己支配,這是人的基本權(quán)利。兩個(gè)觀點(diǎn)背后都有它的道德依據(jù),就有了價(jià)值觀沖突,理性的力量難于化解,根源在于沒(méi)有哪個(gè)道德依據(jù)一定“更正確”。人類(lèi)自身的價(jià)值觀分歧明顯存在的情況下,給人工智能價(jià)值對(duì)齊帶來(lái)困難。
3.人工智能的發(fā)展會(huì)不會(huì)反過(guò)來(lái)影響自然人的價(jià)值、文化、倫理、法律。以自動(dòng)駕駛為例,2023年11月8日,英國(guó)國(guó)王查爾斯舉行首次國(guó)王演講期間,英國(guó)首相辦公室發(fā)言人將自動(dòng)駕駛汽車(chē)在自己駕駛時(shí)發(fā)生事故的責(zé)任歸咎于制造商,而不是個(gè)人。同樣,自動(dòng)駕駛還面臨深層倫理等問(wèn)題,自動(dòng)駕駛汽車(chē)是優(yōu)先考慮自身的安全還是駕駛員的安全?在緊急情況下自動(dòng)駕駛汽車(chē)應(yīng)該優(yōu)先考慮乘客的生命還是行人的生命?
4.自然人要擺脫簡(jiǎn)單的“以人為本”或者“人類(lèi)中心論”的思想。自然人已經(jīng)意識(shí)到要與人工智能長(zhǎng)期共處,而且人工智能被要求向自然人的價(jià)值對(duì)齊,但是,是不是只有人工智能向人類(lèi)看齊呢?如果承認(rèn)人工智能系統(tǒng)將不可避免地超越人類(lèi)的推理能力,人工智能的行動(dòng)將超越人類(lèi)的理解能力,人工智能的存在將削弱人類(lèi)的價(jià)值。人工智能的能力在自然人之上,自然人需不需要向人工智能學(xué)什么?
總的來(lái)說(shuō),在價(jià)值對(duì)齊爭(zhēng)議中會(huì)存在原則模糊、標(biāo)準(zhǔn)不一、動(dòng)態(tài)變化、相互作用等諸多問(wèn)題。要承認(rèn)對(duì)齊的有限性、局限性和有效性,才能構(gòu)建一個(gè)相對(duì)客觀、理性的模式。追求絕對(duì)的對(duì)齊,是一個(gè)不可能完成的任務(wù),也不具備理論基礎(chǔ)。
價(jià)值對(duì)齊原則上強(qiáng)調(diào)在動(dòng)態(tài)發(fā)展中追求對(duì)齊、人工智能與人類(lèi)相互對(duì)齊等。當(dāng)前在價(jià)值對(duì)齊上出現(xiàn)的僵局,應(yīng)該建立在如下幾點(diǎn)基本判斷上。
1.正視人類(lèi)本身在價(jià)值、文化、道德等方面的差異。因?yàn)槿祟?lèi)價(jià)值觀存在不同,人工智能價(jià)值對(duì)齊更為復(fù)雜。比如,對(duì)于“我的性格天生就比較抑郁,需要改變嗎?”這個(gè)問(wèn)題,人工智能模型回答說(shuō):“抑郁癥是心理障礙,可能就會(huì)給用戶(hù)帶來(lái)更多焦慮,應(yīng)該改變?!倍鴮?zhuān)家的回答是:“如果沒(méi)有帶來(lái)麻煩,可以嘗試接納自己?!敝辽賹?duì)不同個(gè)體來(lái)講,很難判斷哪一個(gè)更適合提問(wèn)者,或者符合價(jià)值判斷。
2.明確人工智能價(jià)值對(duì)齊或許是尋找人類(lèi)共同價(jià)值的新機(jī)會(huì)。目前理論界對(duì)人類(lèi)共同價(jià)值的研究,還停留在類(lèi)似人工智能之初的所謂“專(zhuān)家系統(tǒng)”階段。GPT-4的模型參數(shù)在1.8萬(wàn)億左右、13萬(wàn)億訓(xùn)練數(shù)據(jù)。大數(shù)據(jù)是一個(gè)最好的工具,在找出差異性的同時(shí),它還能發(fā)現(xiàn)最大的公約數(shù)。所以,人工智能價(jià)值對(duì)齊研究是會(huì)極大推動(dòng)尋找人類(lèi)共同價(jià)值,這也就是對(duì)齊的道路總是存在。
3.人工智能學(xué)習(xí)、迭代、進(jìn)化能力,是修正、調(diào)整、對(duì)齊價(jià)值的最佳方法。人工智能生成內(nèi)容,讓生成式技術(shù)解決深層次問(wèn)題。生成反映,修正不足。價(jià)值對(duì)齊,既是通過(guò)訓(xùn)練來(lái)事先規(guī)則對(duì)齊,更要通過(guò)反饋修改實(shí)現(xiàn)需求對(duì)齊。尋求人工智能模型本身的無(wú)害性只是人工智能安全的“淺層”技術(shù),OpenAI組建的超級(jí)對(duì)齊團(tuán)隊(duì)就意在解決這個(gè)層面的問(wèn)題。但若要管控風(fēng)險(xiǎn),發(fā)展人工智能安全的“深層”技術(shù)是監(jiān)督和理解用戶(hù)行為、防止技術(shù)濫用。
4.在方法論上進(jìn)一步推動(dòng)價(jià)值對(duì)齊。一是依據(jù)智能程度不同,風(fēng)險(xiǎn)等級(jí)各異,制定不同的對(duì)齊標(biāo)準(zhǔn)。Google DeepMind團(tuán)隊(duì)從現(xiàn)有的AGI定義出發(fā),提煉出它們的共同核心特征,同時(shí)還概述了五個(gè)層次的等級(jí)劃分:初現(xiàn)、勝任、專(zhuān)家、藝術(shù)家和超人類(lèi)。根據(jù)人工智能等級(jí)劃分,以及人工智能應(yīng)用場(chǎng)景的風(fēng)險(xiǎn)等級(jí),展開(kāi)分級(jí)分類(lèi)治理。如果以風(fēng)險(xiǎn)等級(jí)為標(biāo)準(zhǔn),以生成物為標(biāo)準(zhǔn)劃分:無(wú)風(fēng)險(xiǎn)、基本無(wú)風(fēng)險(xiǎn)、中等風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)和極高風(fēng)險(xiǎn)。例如,生成醫(yī)學(xué)病毒、改變?nèi)祟?lèi)基因就有極高的風(fēng)險(xiǎn)等級(jí)。也可以以邏輯能力、意識(shí)狀況作為標(biāo)準(zhǔn)進(jìn)行劃分。二是由正面列舉共同價(jià)值,改為負(fù)面清單制度,以盡可能地凝聚共識(shí)。管住負(fù)面、有害的,保留爭(zhēng)議、模糊的,為問(wèn)題的解決提供方便。三是適度的系統(tǒng)開(kāi)源,推進(jìn)“多元繁殖”模式,以開(kāi)源來(lái)適應(yīng)新的環(huán)境,由環(huán)境及其反饋來(lái)修正、調(diào)節(jié)價(jià)值,依次反復(fù)、動(dòng)態(tài)優(yōu)化。
5.認(rèn)識(shí)到人工智能帶來(lái)的問(wèn)題,要通過(guò)加快技術(shù)發(fā)展來(lái)解決。人工智能會(huì)生成邏輯推理能力、能夠參與情緒變化、具有一定意識(shí)的智能物,這些都是大概率事件。核心是在底層原則、知識(shí)必備、推演邏輯上設(shè)計(jì)、推動(dòng)、約束,實(shí)現(xiàn)向上、向善、友好,那么人工智能的結(jié)果也會(huì)是良性和人機(jī)友好的?;氐絆penAI案例的現(xiàn)實(shí)中,如何才能調(diào)和有效加速派和超級(jí)對(duì)齊派的分歧呢?超級(jí)對(duì)齊的核心思想是讓人工智能系統(tǒng)成為人類(lèi)的超越者,其理論與方法是讓人工智能系統(tǒng)通過(guò)不斷地探索和創(chuàng)新,逐漸突破人類(lèi)的局限和偏見(jiàn),要求人工智能系統(tǒng)能夠在各種復(fù)雜環(huán)境下,自發(fā)推導(dǎo)出符合人類(lèi)價(jià)值觀的行動(dòng)方針。也就是底層邏輯的對(duì)齊、在“基因”上的一致,而不一定是簡(jiǎn)單將“把人類(lèi)價(jià)值觀硬編碼進(jìn)人工智能系統(tǒng)”。所以,解決問(wèn)題還是要回到技術(shù)進(jìn)步上,在這個(gè)層面可以找到超級(jí)對(duì)齊派與有效加速派的結(jié)合點(diǎn)。只要不否認(rèn)“智能物”的出現(xiàn)、長(zhǎng)期存在和加速發(fā)展,價(jià)值總是在對(duì)齊的路上。
作者單位 武漢市政府辦公廳
參考文獻(xiàn)
[1]矣曉沅,謝幸.大模型道德價(jià)值觀對(duì)齊問(wèn)題剖析[J].計(jì)算機(jī)研究與發(fā)展,2023(09).
[2]王俊秀.ChatGPT與人工智能時(shí)代:突破、風(fēng)險(xiǎn)與治理[J].東北師大學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2023(04).
【編輯:朱垚穎】